(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-31
(54)【発明の名称】音響信号を用いて手の動きを追跡することによる装置の制御
(51)【国際特許分類】
G01S 5/20 20060101AFI20220124BHJP
G01S 13/42 20060101ALI20220124BHJP
【FI】
G01S5/20
G01S13/42
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021510156
(86)(22)【出願日】2019-08-22
(85)【翻訳文提出日】2021-04-06
(86)【国際出願番号】 US2019047653
(87)【国際公開番号】W WO2020041563
(87)【国際公開日】2020-02-27
(32)【優先日】2018-08-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】500039463
【氏名又は名称】ボード オブ リージェンツ,ザ ユニバーシティ オブ テキサス システム
【氏名又は名称原語表記】BOARD OF REGENTS,THE UNIVERSITY OF TEXAS SYSTEM
【住所又は居所原語表記】210 West 7th Street Austin,Texas 78701 U.S.A.
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(72)【発明者】
【氏名】キウ,リリ
(72)【発明者】
【氏名】マオ,ウェングアング
【テーマコード(参考)】
5J070
5J083
【Fターム(参考)】
5J070AB17
5J070AC02
5J070AC11
5J070AD06
5J070AD13
5J070AE09
5J070AF02
5J070AH40
5J070AK07
5J070AK40
5J070BB04
5J083AA01
5J083AB09
5J083AC29
5J083AD04
5J083AD15
5J083AE08
5J083AF04
5J083BA12
5J083BE54
(57)【要約】
手又は他の物体の動きを追跡することによって装置を制御する方法、装置、及びコンピュータプログラム製品を提供する。装置は、音響信号を受信する。受信信号の少なくとも一部を、周波数が反射信号の到着角(AoA)及び伝搬距離に比例する2次元正弦波に変換する。2次元正弦波の周波数を評価することによって、物体から受信した信号に基づいてAoA-距離プロファイルを導出する。次に、AoA-距離プロファイルからAoA-距離の組を導出する。推定されたAoA-距離の組に基づいて、物体の現在位置を決定する。次に、装置は、物体の前回の位置及び現在の位置に基づいてユーザがコマンドを実行するために移動したと検出したことに応答して、コマンドを実行する。
【選択図】
図3A
【特許請求の範囲】
【請求項1】
物体の動きを追跡する方法であって、
装置内の一又は複数のマイクを用いて前記物体から音響信号を受信する工程と、
前記受信した音響信号の少なくとも一部を、周波数が前記物体に係る到着角及び伝播距離に比例する2次元正弦波に変換する工程と、
前記2次元正弦波の周波数を評価することによって、前記物体から受信した音響信号に基づいて到着角-距離プロファイルを導出する工程と、
前記到着角-距離プロファイルに基づいて、到着角及び距離を推定する工程と、
前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在の位置を決定する工程と、
を含むことを特徴とする方法。
【請求項2】
当該方法は、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程と、
を更に含むことを特徴とする請求項1に記載の方法。
【請求項3】
当該方法は、リカレントニューラルネットワークに基づいて前記到着角及び距離プロファイルから前記到着角及び前記距離を推定する工程を更に含み、
時間窓にわたる正解位置及び到着角-距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角-距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項1に記載の方法。
【請求項4】
当該方法は、リカレントニューラルネットワークに基づいて前記到着角を推定する工程を更に含み、
時間窓にわたる到着角プロファイルを伴う正解角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項1に記載の方法。
【請求項5】
当該方法は、リカレントニューラルネットワークに基づいて前記距離を推定する工程を更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記到着角-距離プロファイルにおける初期到着角-距離の組に対応する前記物体の初期位置を決定するために初期化を実行する工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項7】
当該方法は、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行う工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項8】
前記到着角及び距離プロファイルは、2D MUSICアルゴリズムを用いて得られることを特徴とする請求項1に記載の方法。
【請求項9】
当該方法は、送信機と受信機の両方が静止しているときに、前記到着角-距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定する工程を更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記装置は、前記一又は複数のマイクを有し、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項1に記載の方法。
【請求項11】
当該方法は、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させる工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項12】
当該方法は、一又は複数の物体の位置に対応する前記到着角-距離プロファイルにおけるピークを識別する工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項13】
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項1に記載の方法。
【請求項14】
前記距離は、前記到着角-距離プロファイル又は距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項1に記載の方法。
【請求項15】
前記到着角は、前記到着角-距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項1に記載の方法。
【請求項16】
前記装置は、異なる組のマイクを用いて複数の到着角-距離の組を推定し、前記推定された複数の到着角-距離の組を3次元座標に変換することによって、対象物の2次元座標を3次元座標に変換することを特徴とする請求項1に記載の方法。
【請求項17】
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する2次元プロファイルが生成されて用いられることを特徴とする請求項1に記載の方法。
【請求項18】
装置を制御する方法であって、
前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信する工程と、
前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する2次元正弦波に変換する工程と、
前記2次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角-距離プロファイルを導出する工程と、
前記到着角-距離プロファイルから、到着角-距離の組を推定する工程と、
前記推定された到着角-距離の組に基づいて、前記物体の現在の位置を決定する工程と、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程と、
を含むことを特徴とする方法。
【請求項19】
物体の動きを追跡するコンピュータプログラム製品であって、
当該コンピュータプログラム製品は、それと共に具体化されるプログラムコードを有するコンピュータ可読記憶媒体を備えており、
前記プログラムコードは、
装置内の一又は複数のマイクを用いて前記物体から音響信号を受信するプログラム命令と、
前記受信した音響信号の少なくとも一部を、周波数が前記物体の到着角及び伝播距離に比例する2次元正弦波に変換するプログラム命令と、
前記2次元正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて到着角-距離プロファイルを導出するプログラム命令と、
前記到着角-距離プロファイルに基づいて、到着角及び距離を推定するプログラム命令と、
前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在の位置を決定するプログラム命令と、
を含む
ことを特徴とするコンピュータプログラム製品。
【請求項20】
前記プログラムコードは、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定するプログラム命令と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行するプログラム命令と、
を更に含むことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項21】
前記プログラムコードは、リカレントニューラルネットワークに基づいて前記到着角-距離プロファイルから前記到着角及び前記距離を推定するプログラム命令を更に含み、
時間窓にわたる正解位置及び到着角-距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角-距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項22】
前記プログラムコードは、リカレントニューラルネットワークに基づいて前記到着角を推定するプログラム命令を更に含み
時間窓にわたる到着角プロファイルを伴う正解角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項23】
前記プログラムコードは、リカレントニューラルネットワークに基づいて前記距離を推定するプログラム命令を更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項24】
前記プログラムコードは、前記到着角-距離プロファイルにおける初期到着角-距離の組に対応する前記物体の初期位置を決定するために初期化を実行するプログラム命令を更に含むことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項25】
前記プログラムコードは、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行うプログラム命令を更に含むことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項26】
前記到着角-距離プロファイルは、2D MUSICアルゴリズムを用いて得られることを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項27】
前記プログラムコードは、送信機と受信機の両方が静止しているときに、前記到着角-距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定するプログラム命令を更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項28】
前記装置は、前記一又は複数のマイクを備え、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項29】
前記プログラムコードは、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させるプログラム命令を更に含むことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項30】
前記プログラムコードは、一又は複数の物体の位置に対応する前記到着角-距離プロファイルにおけるピークを識別するプログラム命令を更に含むことを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項31】
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項32】
前記距離は、前記到着角-距離プロファイル又は距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項33】
前記到着角は、前記到着角-距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項34】
前記装置は、異なる組のマイクを用いて複数の到着角-距離の組を推定し、前記推定された複数の到着角-距離の組を3次元座標に変換することによって、対象物の2次元座標を3次元座標に変換することを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項35】
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する2次元プロファイルが生成されて用いられることを特徴とする請求項19に記載のコンピュータプログラム製品。
【請求項36】
装置を制御するコンピュータプログラム製品であって、
当該コンピュータプログラム製品は、それと共に具体化されるプログラムコードを有するコンピュータ可読記憶媒体を備えており、
前記プログラムコードは、
前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信するプログラム命令と、
前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する2次元正弦波に変換するプログラム命令と、
前記2次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角-距離プロファイルを導出するプログラム命令と、
前記到着角-距離プロファイルから、到着角-距離の組を推定するプログラム命令と、
前記推定された到着角-距離の組に基づいて、前記物体の現在の位置を決定するプログラム命令と、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定するプログラム命令と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行するプログラム命令と、
を含む
ことを特徴とするコンピュータプログラム製品。
【請求項37】
物体の動きを追跡するコンピュータプログラムを記憶するメモリと、
当該メモリに接続されたプロセッサと、
を備え、
前記プロセッサは、前記コンピュータプログラムのプログラム命令を実行するように構成されており、
前記プログラム命令は、
一の装置内の一又は複数のマイクを用いて前記物体から音響信号を受信することと、
前記受信した音響信号の少なくとも一部を、周波数が前記物体の到着角及び伝播距離に比例する2次元正弦波に変換することと、
前記2次元正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて到着角-距離プロファイルを導出することと、
前記到着角-距離プロファイルに基づいて、到着角及び距離を推定することと、
前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在位置を決定することと、
を含む
ことを特徴とする装置。
【請求項38】
前記コンピュータプログラムの前記プログラム命令は、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定することと、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行することと、
を更に含むことを特徴とする請求項37に記載の装置。
【請求項39】
前記コンピュータプログラムの前記プログラム命令は、リカレントニューラルネットワークに基づいて前記到着角-距離プロファイルから前記到着角及び前記距離を推定することを更に含み、
時間窓にわたる正解位置及び到着角-距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角-距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項37に記載の装置。
【請求項40】
前記コンピュータプログラムのプログラム命令は、リカレントニューラルネットワークに基づいて前記到着角を推定することを更に含み、
時間窓にわたる到着角プロファイルを伴う正解到着角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項37に記載の装置。
【請求項41】
前記コンピュータプログラムのプログラム命令は、リカレントニューラルネットワークに基づいて前記距離を推定することを更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項37に記載の装置。
【請求項42】
前記コンピュータプログラムの前記プログラム命令は、前記到着角-距離プロファイルにおける初期到着角-距離の組に対応する前記物体の初期位置を決定するために初期化を実行することを更に含むことを特徴とする請求項37に記載の装置。
【請求項43】
前記コンピュータプログラムの前記プログラム命令は、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行うことを更に含むことを特徴とする請求項37に記載の装置。
【請求項44】
前記到着角-距離プロファイルは、2D MUSICアルゴリズムを用いて得られることを特徴とする請求項37に記載の装置。
【請求項45】
前記コンピュータプログラムの前記プログラム命令は、送信機と受信機の両方が静止しているときに、前記到着角-距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定することを更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項37に記載の装置。
【請求項46】
前記装置は、前記一又は複数のマイクを備え、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項37に記載の装置。
【請求項47】
前記コンピュータプログラムの前記プログラム命令は、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させることを更に含むことを特徴とする請求項37に記載の装置。
【請求項48】
前記コンピュータプログラムの前記プログラム命令は、一又は複数の物体の位置に対応する前記到着角-距離プロファイルにおけるピークを識別することを更に含むことを特徴とする請求項37に記載の装置。
【請求項49】
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項37に記載の装置。
【請求項50】
前記距離は、前記到着角-距離プロファイル又は距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項37に記載の装置。
【請求項51】
前記到着角は、前記到着角-距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項37に記載の装置。
【請求項52】
前記装置は、異なる組のマイクを用いて複数の到着角-距離対を推定し、前記推定された複数の到着角-距離対を3次元座標に変換することによって、対象物の2次元座標を3次元座標に変換することを特徴とする請求項37に記載の装置。
【請求項53】
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する2次元プロファイルが生成されて用いられることを特徴とする請求項37に記載の装置。
【請求項54】
装置を制御するコンピュータプログラムを記憶するメモリと、
当該メモリに接続されたプロセッサと、
を備え、
前記プロセッサは、前記コンピュータプログラムのプログラム命令を実行するように構成されており、
前記プログラム命令は、
前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信することと、
前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する2次元正弦波に変換することと、
前記2次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角-距離プロファイルを導出することと、
前記到着角-距離プロファイルから、到着角-距離対を推定することと、
前記推定された到着角-距離対に基づいて、前記物体の現在の位置を決定することと、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定することと、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行することと、
を含む
ことを特徴とする装置。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、その全体が参照により本明細書に組み込まれる、2018年8月23日に出願された「音響信号を用いて手の動きを追跡することによる装置の制御」という名称の米国仮特許出願第62/722,110号の優先権を主張する。
【0002】
(技術分野)
本発明は、一般に、装置の制御に関し、より詳細には、音響信号を用いて手等の物体の動きを追跡することによる装置(例えば、スマートスピーカ)の制御に関する。
【背景技術】
【0003】
スマートスピーカ等のスマートデバイスは、一般に他の装置又はネットワークに接続され、ある程度インタラクティブ且つ自律的に動作できる電子デバイスである。例えば、スマートスピーカは、1つの「ホットワード」(又は複数の「ホットワード」)の助けを借りてインタラクティブアクションとハンズフリーアクティベーションを提供する、統合仮想アシスタント(人工知能)を備えたワイヤレススピーカ及び音声コマンドデバイスの一種である。これらのスマートスピーカの一部は、Wi-Fi(登録商標)、Bluetooth(登録商標)、及びその他のワイヤレスプロトコル規格を利用して、ホームオートメーションデバイスの制御等、オーディオ再生を超えて使用を拡張するスマートデバイスとしても機能できる。これには、限定されるものではないが、多数のサービスやプラットフォーム間の互換性、メッシュネットワーキングによるピアツーピア接続、仮想アシスタント等の特徴が含まれてよい。それぞれが、独自に指定されたインターフェイスと特徴とを内部に持つことができ、通常はアプリケーション又はホームオートメーションソフトウェアを介して起動又は制御される。一部のスマートスピーカは、ユーザに視覚的応答を示すための画面も含む。
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御は、常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。加えて、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。
【0005】
これと比較して、動きに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。
【0006】
残念ながら、スマートスピーカ等のスマートデバイスを、手のモーション等のモーションを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。
【課題を解決するための手段】
【0007】
本発明の一の実施形態では、物体の動きを追跡する方法は、装置内の一又は複数のマイクを用いて前記物体から音響信号を受信する工程を含む。この方法は、前記受信した音響信号の少なくとも一部を、周波数が前記物体に係る到着角及び伝播距離に比例する2次元正弦波に変換する工程を更に含む。この方法は、前記2次元正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて到着角-距離プロファイルを導出する工程を更に含む。更にこの方法は、前記到着角-距離プロファイルに基づいて、到着角及び距離を推定する工程を含む。加えて、この方法は、前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在の位置を決定する工程を含む。
【0008】
上記方法の実施形態の他の形態は、装置及びコンピュータプログラム製品にある。
【0009】
本発明の他の実施形態では、装置を制御する方法は、前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信する工程を含む。この方法は、前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する2次元正弦波に変換する工程を更に含む。この方法は、前記2次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角-距離プロファイルを導出する工程を更に含む。更にこの方法は、前記到着角-距離プロファイルから、到着角-距離対を推定する工程を含む。加えて、この方法は、前記推定された到着角-距離対に基づいて、前記物体の現在の位置を決定する工程を含む。加えて、この方法は、前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程を含む。この方法は、前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程を更に含む。
【0010】
上記方法の実施形態の他の形態は、装置及びコンピュータプログラム製品にある。
【0011】
上記は、以下の本発明の詳細な説明がより良く理解されるように、本発明の一又は複数の実施形態の特徴及び技術的利点をむしろ一般的に概説した。本発明の更なる特徴及び利点を以下に説明するが、これらは本発明の特許請求の範囲の主題を形成し得る。
【0012】
以下の図面と併せて以下の詳細な説明を考慮すると、本発明のより良い理解を得ることができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一の実施形態に従って構成されるシステムを示す。
【
図2】本発明の一の実施形態に係る、手の動きによって制御される装置のハードウェア構成を示す図である。
【
図3A】本発明の一の実施形態に係る、ユーザの手からのモーションを用いてスマートデバイス(例えば、スマートスピーカ)を制御するための方法のフローチャートである。
【
図3B】本発明の一の実施形態に係る、ユーザの手からのモーションを用いてスマートデバイス(例えば、スマートスピーカ)を制御するための方法のフローチャートである。
【
図4】本発明の一の実施形態に係る装置によって収集される反射の種類を示す図である。
【
図5】本発明の一の実施形態に係る、到着角及び伝播距離を示す図である。
【
図6】本発明の一の実施形態に係る、数式(3)を用いて生成される2次元(2D)プロファイルを示す図である。
【
図7A】本発明の一の実施形態に係る、曖昧さを有する2Dプロファイルの例を示す図である(但しΔは2.7cmであり、λは2.1cm)。
【
図7B】本発明の一の実施形態に係る不等間隔アレイの利用による、
図7Aよりも曖昧さが少ない2Dプロファイルの例を示す図である。
【
図8A】本発明の一の実施形態に係る、等間隔アレイの場合及び不等間隔アレイの場合におけるu(0)とu(θ)との間の相関性のプロットである。
【
図8B】本発明の一の実施形態に係る、等間隔アレイの場合及び不等間隔アレイの場合におけるu(0)とu(θ)との間の相関性のプロットである。
【
図9A】本発明の一の実施形態に係る、正弦波信号の長さが2つのチャープ間の重なりに依存することを示す図である。
【
図9B】本発明の一の実施形態に係る中間チャープを示す図である。
【
図10】本発明の一の実施形態に係る、オーバーラップしているチャープの送信を示す図である。
【
図11】本発明の一の実施形態に係る、1D MUSICアルゴリズム及び2D MUSICアルゴリズムを用いた推定距離の差を示す図である。
【
図12】本発明の一の実施形態に係る、到着角(AoA)-距離プロファイルをAoA及び距離推定にマッピングするために用いるリカレントニューラルネットワーク(RNN)を示す図である。
【
図13】本発明の一の実施形態に係る、RNNでのステージである。
【
図14】本発明の一の実施形態に係る、一の部屋の到着角(AoA)-距離プロファイルを示す図である。
【
図15】本発明の一の実施形態に係る、1秒間にわたるユーザの手及び体のスパイクを示すグラフである。
【
図16】本発明の実施形態に係る、モバイル機器Aが音響信号を発し、他の装置上の複数のマイクが受信信号に基づいてモバイル機器Aの動きを追跡できる装置に基づく追跡を示す図である。
【
図17】本発明の一の実施形態に係る、モバイル機器等の物体の動きを追跡するために用いる他の装置上の複数のマイクを示す図である。
【発明を実施するための形態】
【0014】
以下では、本発明について、手のモーションを用いてスマートスピーカ等のスマートデバイスを制御することに関連して論じるが、本発明の原理は、手のモーション以外の何らかの形態の体のモーション(例えば、頭のモーション)を用いて、複数のマイクを備えた装置等の他の装置の制御に適用してもよい。例えば、本発明の原理は、複数のスピーカ及び/又はマイクを備えるスマートフォンに適用してよい。当業者は、本発明の原理をそのような実施に適用できるであろう。更に、本発明の原理をそのような実施に適用する実施形態は、本発明の範囲内にある。
【0015】
上記背景技術において述べたように、現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御は、常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。更に、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。これと比較して、モーションに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。残念ながら、スマートスピーカ等のスマートデバイスを、手のモーション等のモーションを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。
【0016】
手のモーション等のモーションを用いたスマートデバイスの制御は、装置の制御におけるユーザの能力を大幅に向上するが、手のモーションを追跡することは、重大な課題を提起する。望ましいアプローチは、(i)低コスト、(ii)既存のスマートスピーカハードウェア上での配置が容易、(iii)正確で信頼性がある、及び(iv)ルームスケール追跡を支援、であるべきである。これらの目標を全て達成することは、特に困難である。本発明の原理は、これらの目標を、本明細書で「RTrack」と称される新規なルームスケールデバイスフリーモーション追跡システムを用いて達成するための手段を提供する。
【0017】
一の実施形態では、以下の理由により、音響信号が追跡に用いられる。第1に、スマートスピーカの人気が急速に高まっている。それらには複数のマイクとスピーカが搭載されている。この設定を効果的に活用することは、追跡性能を著しく向上させるだけでなく、配置を容易にすることもできる。第2に、記録音声(audio)に基づく追跡は、信号伝搬速度が遅いため、高精度になる。第3に、音響信号のサンプリングレートが低いので、コモディティハードウェア上で実行されるソフトウェアを用いて、全ての処理をリアルタイムで行うことができる。これにより、伝送信号と処理アルゴリズムとをカスタマイズして高精度を達成する自由が提供される。
【0018】
ユーザの手等の物体を追跡するために、本発明の各種の実施形態は、2D MUSICアルゴリズムを用いて、又は代替として、1D MUSICアルゴリズム及び2D MUSICアルゴリズムの両方を用いて、その反射信号に基づいて、距離(反射信号の伝搬距離)及び到着角(AoA)を共同して推定(「結合推定」)する。本明細書で用いられる「到着角」は、更に後述するように、スマートスピーカ等の装置に到達する反射信号の角度を指す。
【0019】
更に後述するように、次の理由から、結合推定はルームスケールデバイスフリー追跡に有望であることが示された。第1に、手の反射からの信号対雑音比(SNR)は、ルームスケール追跡において-20dB以下になり得る。これは追跡精度を著しく低下させる。結合推定はセンサ有効数を増加させ、それにより精度が向上する。第2に、背景反射は、ルームスケール追跡において手の反射を支配する可能性があり、かなりの曖昧さを導入する可能性がある。距離(反射信号の伝搬距離)とAoAを別々に追跡する場合、曖昧さの総数は、とり得る距離とAoAとの積になる。これと比較して、結合推定は、全ての距離とAoAとの組み合わせが2次元(2D)プロファイルで生じるわけではないので、曖昧さの数を効果的に減らすことができる。
【0020】
追跡性能を更に向上させるために、本発明の実施形態は、以下の一連の技法を実施してよい。即ち、(i)曖昧さを増大させることなく精度を向上させるためにマイクを不等間隔に配置する、(ii)結合推定に用いる音響サンプルの数を増大させ、帯域幅又は待ち時間を増大することなく精度を向上させるために、オーバーラップしている送信信号を用いる、(iii)リアルタイム追跡を支援するために計算を高速化する、及び(iv)手の初期位置を確実に決定するために、単純ではあるが効果的な初期化アルゴリズム。
【0021】
更に後述するように、本発明のシステムは、複数のユーザを同時に追跡できる。
【0022】
以下に、本発明の完全な理解を提供するために特定の詳細を多数記載する。しかしながら、本発明がそのような特定の詳細なく実施可能であることは、当業者には明らかであろう。大部分では、本発明の完全な理解を得るために必要ではなく、関連技術の当業者の技術の範囲内にある詳細である限り、タイミングの理由等を検討する詳細は省略されている。
【0023】
ここで図面を詳細に参照すると、
図1は、本発明の実施形態に従って構成されるシステム100を示す。
図1を参照すると、システム100は、ユーザ103の手102によって制御されるスマートデバイス(例えば、スマートスピーカ、スマートフォン)等の装置101を含む。装置101は、スピーカ104及びマイク105Aから105B(
図1では、それぞれ「マイクA」及び「マイクB」として識別される)を含む任意のスマートデバイスであってよい。マイク105Aから105Bは、集合的に又は個別に、それぞれ、複数のマイク105又は一のマイク105と称してよい。
図1は、単一のスピーカ104及び2つのマイク105を含むものとして装置101を示しているが、本発明の装置101は、一のスピーカ104及び2つのマイク105に範囲を限定されるものではない。代わりに、装置101は、一又は複数のスピーカ104及び一又は複数のマイク105を含んでよい。更に、一の実施形態では、装置101は、複数のスピーカ104を活用できる。例えば、2つのマイク105を備えた2つのスピーカ104を含む装置101の実施形態は、後述するように装置101を制御する際に、四のマイク105を備えた単一のスピーカ104を含む装置101と同じ結果を達成できる。更に、一の実施形態では、複数のスピーカ104及び/又はマイク105は、3次元空間においてz軸に沿って配置されてもよい。いくつかの例として、装置101は、スマートスピーカ、スマートフォン、スマートTV及びスマート家電を含むが、これらに限定されない。
【0024】
装置101は、人間に可聴か不可聴かにかかわらず、スピーカ104を介して記録音声信号を発するように構成される。更に、装置101は、ユーザの手102によって反射された記録音声信号を複数のマイク105によって受信するように構成される。この反射された記録音声信号は、更に後述するように、装置101によって、リアルタイムで手102を連続的に追跡するために用いられる。手102の動きを追跡することによって、装置101は、更に後述するように、「音楽を再生して」又は「天気を教えて」等の、装置101上で実行されるべきコマンドをユーザがジェスチャしているかどうかを判定できる。装置101の一の実施形態のハードウェア構成のより詳細な説明は、
図2に関連して以下に提供される。
【0025】
ここで
図2を参照すると、
図2は、装置101(
図1)の一例の機能ブロック図である。この例では、装置101は、プロセッサ201を含む。プロセッサ201は、一又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子装置、電子ユニット、又はそれらの組合せを含むことができる。
【0026】
プロセッサ201は、一又は複数のインターフェイスによって受信したデータを記憶し、そのデータを処理し、メモリ202に記憶するように構成される。メモリ202は、プロセッサ201内で、又はプロセッサ201の外部で実現できる。本明細書で用いられるように、メモリという文言は、任意の種類の長期、短期、揮発性、不揮発性、又は他のメモリを指し、任意の特定種類のメモリ、又はメモリの数、或いはメモリが格納される媒体の種類に限定されるべきではない。一の実施形態では、メモリ202は、装置101が音響信号を用いて手102の動きを連続的に追跡可能とすることによって、手102(
図1)による動きを用いて装置101を制御するプログラム等の、アプリケーションを記憶する。一の実施形態では、プロセッサ201は、メモリ202に記憶されたアプリケーションのプログラム命令を実行するように構成される。
【0027】
更に、スピーカ104とマイク105A及び105Bとは、ユーザインターフェイスアダプタ203を介して装置101に接続される。スピーカ104は、種々の周波数で記録音声信号(人間に可聴又は不可聴)を生成するように構成される。更に、マイク105A及び105Bは、ユーザの手102によって反射された記録音声信号を受信するように構成される。
【0028】
図2の装置101は、
図2に示す要素に範囲を限定されるものではなく、
図2の例示よりも少ない又は更なる要素を含んでよい。
【0029】
本発明は、システム、装置、方法、及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は複数媒体)を含んでよい。
【0030】
コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し記憶できる有形装置であってよい。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、又は前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、消去可能プログラマブル読出し専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読出し専用メモリ(CD-ROM)、デジタル汎用ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカード又は命令が記録された溝部における嵩上げ構造体等の機械的に符号化された装置、及び前述の任意の適切な組み合わせが含まれる。本明細書で用いられるコンピュータ可読記憶媒体は、電波又は他の自由に伝播する電磁波、導波管又は他の伝送媒体を通って伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通って送信される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。
【0031】
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれの演算/処理装置にダウンロードすることができ、或いは、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワーク等のネットワークを介して、外部コンピュータ又は外部記憶装置に、ダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び/又はエッジサーバを含んでよい。各演算/処理装置内のネットワークアダプタカード又はネットワークインターフェイスは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれの演算/処理装置内のコンピュータ可読記憶媒体に記憶するために、コンピュータ可読プログラム命令を転送する。
【0032】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、又は状態設定データであってよく、或いは、Smalltalk、C++等のオブジェクト指向プログラミング言語や「C」プログラミング言語又は類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、一又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードであってよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的に遠隔コンピュータ上で、或いは完全に遠隔コンピュータ又はサーバ上で実行されてよい。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、或いは(例えば、インターネットサービスプロバイダを用いてインターネットを介して)外部コンピュータに接続されてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してよい。
【0033】
ここで本発明の態様について、本発明の実施形態に係る方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照して説明する。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図のブロックの組合せは、コンピュータ可読プログラム命令によって実施できることを理解されたい。
【0034】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供され、当該コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/又はブロック図の一又は複数のブロックで特定された機能/動作を実施するための手段を生み出すように、機械を作ってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読記憶媒体が、フローチャート及び/又はブロック図の一又は複数のブロックで特定された機能/動作の態様を実施する命令を含む製品からなるように、コンピュータ、プログラマブルデータ処理装置、及び/又は他の装置に、特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に格納されてもよい。
【0035】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、又は他の装置上にロードされ、コンピュータ、他のプログラマブル装置、又は他の装置上で実行される命令が、フローチャート及び/又はブロック図の一又は複数のブロックで特定された機能/動作を実施するように、一連の動作ステップをコンピュータ、他のプログラマブル装置、又は他の装置上で実行させてコンピュータ実施プロセスを生み出してもよい。
【0036】
図中のフローチャート及びブロック図は、本発明の各種の実施形態に係るシステム、方法、及びコンピュータプログラム製品のとり得る実装のアーキテクチャ、機能、及び動作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、特定された(一又は複数の)論理機能を実施するための一又は複数の実行可能命令を含むモジュール、セグメント、又は命令の一部を表してよい。いくつかの代替の実施では、ブロックに記載されている機能が、図に記載されている順序から外れて発生してもよい。例えば、連続して示された2つのブロックは、実際には、ほぼ同時に実行されてよく、或いは、複数のブロックは、含まれる機能に応じて、時には逆の順序で実行されてもよい。また、ブロック図及び/又はフローチャート図の各ブロック、並びにブロック図及び/又はフローチャート図のブロックの組み合わせは、特定された機能又は動作を実行するか、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する、専用ハードウェアに基づくシステムによって実施できることにも留意されたい。
【0037】
上記背景技術において述べたように、現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御は、常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。更に、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。これと比較して、動きに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。残念ながら、スマートスピーカ等のスマートデバイスを、手の動き等の動きを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。
【0038】
【0039】
以下では、装置101を静止させることによって装置101を制御することについて論じるが、装置101は必ずしも静止させる必要はない。代わりに、装置101(スピーカ104及び複数のマイク105を含む)は、反射を収集するためにより良い位置に配置されるように、移動可能であってもよい。
【0040】
図3Aから
図3Bは、本発明の一の実施形態に係る、ユーザ103(
図1)の手102(
図1)からの動きを用いて、スマートデバイス(例えば、スマートスピーカ)を制御する方法300のフローチャートである。
【0041】
図1から
図2と併せて
図3Aを参照すると、ステップ301において、装置101は、スピーカ104を用いてユーザ103に音響信号を送信する。
【0042】
ステップ302において、装置101は、複数のマイク105を用いて送信された音響信号の反射を収集する。ここで、音響信号は、ユーザ103の手102や
図4に示すような他の背景反射物によって反射される。一の実施形態において、送信された音響信号の反射を収集する際に装置101を支援するために、金属構造(例えば、アルミニウム構造)を装置101の近くに(例えば、装置101を囲んで)配置して、反射を直接装置101に向けてよい。一の実施形態では、このような構造は、放物線形状で設計される。
【0043】
以下では、ユーザ103の手102によって反射された音響信号を収集することについて説明するが、本発明の原理は、クレジットカード又は紙片等の他の反射物によって反射された音響信号を収集することに適用してよい。言い換えると、他の物体(例えば、クレジットカード、ユーザの体、財布、カード、カップ、本等)の動きは、以下に説明するユーザ103の手102の動きを追跡するのと同じ方法で、追跡され、反射物として用いられてよい。
【0044】
図4を参照すると、
図4は、本発明の一の実施形態に係る装置101によって収集される反射の種類を示す。
図4に示すように、装置101は、体の反射401(手102以外のユーザ103の体の他の部分からの反射)、背景反射402(部屋内等の他の物体からの反射)及び自己干渉403を収集できる。更に、
図4に示すように、装置101は、所望の手の反射404も収集する。後述するように、本発明が主に手の反射404を利用して手102の位置を決定できるように、体の反射及び背景反射並びに自己干渉を除去するために本発明によって実施される一連の技法がある。
【0045】
図3Aに戻り、
図1から
図2及び
図4と関連して、ステップ303において、装置101は、バンドパスフィルタを介して収集された反射から、帯域外ノイズ(例えば、背景反射402)を除去する。
【0046】
ステップ304において、装置101は、収集された反射に対して干渉除去を行い、受信した静的背景反射402及び自己干渉403を除去する。一の実施形態では、装置に基づく追跡に関して、干渉除去はステップ305で実行されない。代わりに、ステップ301の後などに、周波数オフセットが推定される。
【0047】
ステップ305において、装置101は、ユーザ103の手102の初期位置を決定するために初期化を行う。この初期位置は、更に後述するように、到着角(AoA)-距離プロファイルにおける到着角(AoA)-距離対に対応する。
【0048】
ステップ306において、装置101は、(ステップ304及びステップ305を実行した後の)残りの収集された反射信号を、周波数が収集された反射の到着角及び伝搬距離に比例する2次元正弦波に変換する。本明細書で用いられる「到着角」とは、装置101に到着する反射信号の角度を指す。本明細書で用いられる「伝搬距離」とは、反射の初期点から装置101に進む反射信号の距離を指す。
【0049】
ステップ307において、装置101は、2D(2次元)MUSICアルゴリズム等のアルゴリズムを用いて2次元正弦波の周波数を評価することによって、ユーザ103の手102によって反射された信号の様々な伝搬距離を伴う到着角のマッピングを含んでよい到着角(AoA)-距離プロファイルを導出する。一の実施形態では、AoA-距離プロファイルは、2次元正弦波の周波数を評価することによって、手102等の物体から受信した信号に基づいて導出される。
【0050】
AoA-距離プロファイルからAoA及び距離を推定するために、2つの更なる実施形態が開発されている。一つ目の実施形態では、AoA-距離プロファイルからの一のピークが選択され、AoA、距離、及びドップラーシフトを推定するために用いられる。二つ目の実施形態では、装置101は、最近の時間窓からのAoA-距離プロファイルをリカレントニューラルネットワーク(RNN)に適用して、AoA及び距離を推定する。
【0051】
代替の実施形態では、ステップ308において、装置101は、到着角-距離プロファイルから、到着角-距離の組を推定する。一の実施形態では、到着角-距離の組は、ユーザ103の手102によって反射された信号における推定された伝搬距離に基づいて、到着角-距離プロファイルから推定される。前述したように、「スパイク」は、前回のスパイクに近いものが選択される。「スパイク」は、
図15に示すように、対応する到着角に対する伝搬遅延に対応する。例えば、スパイク1501は、対応する到着角に対する手102によって反射された信号の伝搬距離のグループ化に対応する。前述したように、最初にスパイクが、手102の前回に選択されたスパイク位置に基づいて選択されるとき、前回に選択されたスパイク位置は、手の初期位置に対応する。適切な到着角-距離の組は、選択されたスパイク内の伝播距離のうちの1つに対応する、ステップ307の推定された伝播距離に基づいて選択される。
【0052】
図1から
図2、
図4から
図6、
図7Aから
図7B、
図8Aから
図8B、
図9Aから
図9B、及び
図10から
図17と併せて、ここで
図3Bを参照すると、ステップ309において、装置101は、選択された到着角-距離の組に基づいて手102の位置を決定する。手102から反射された信号からの伝搬距離及び装置101に対する反射された信号の到着角を知ることによって、手102の正確な位置を、x-y座標系に関して、又はx-y-z座標系に関して決定できる。
【0053】
ステップ301からステップ309に関するより詳細な説明を、以下に提供する。
【0054】
先に議論したように、本発明は、上記の課題に対処するために、本明細書において「RTrack」と称される新規なデバイスフリー追跡システムを開発する。RTrackは、スマートデバイスで利用可能なスピーカ及びマイクに依存し、典型的な部屋を包含する作業範囲でユーザの手のモーションを精密に追跡できる。ユーザの手102の位置を決定するために、一の実施形態では、2D MUSICアルゴリズムを適用して、手102によって反射された信号の到着角(AoA)及び伝搬距離を結合推定した。
【0055】
本発明の結合推定フレームワークは、遠距離場の追跡に対して以下の利点を有する。第1に、フレームワークは、距離及びAoA推定のために周波数変調連続波(FMCW)とMUSIC(MUltiple SIgnal Classification)とを結合する。これらは、他の代替案よりも低SNR下で、より効果的である。第2に、センサ有効数を増加させる。これは、追跡精度を著しく向上するのに役立つ。第3に、距離及びAoAを結合推定すると、距離とAoAのどちらかが異なるため、マルチパスの解決がはるかに容易になる。第4に、いくつかのメカニズムは、低SNRシナリオ下での追跡性能を著しく高めるために、且つ計算時間を短縮させてリアルタイム追跡を可能にするために開発されている。
【0056】
一の実施形態では、本発明は、ユーザの手102によって反射された信号のAoA及び伝搬距離を結合推定する。この目的のために、装置101は、スピーカ104を介して音響チャープ信号を送信し、複数のマイク105を用いて受信サンプルを収集する。次に、受信信号は、周波数がAoA及び距離に比例する2次元正弦波に変換される。よって、本発明は、2次元正弦波の周波数を評価してそれらを推定する。変換手順は以下の通りである。
【0057】
図5に示すように、N個のマイク(MIC)と一のスピーカを考えてみよう。
図5は、本発明の一の実施形態に係るAoA(θ)及び伝搬距離(d+d
n)を示す。
【0058】
図5を参照すると、簡単のために、Nは奇数であるとする。MIC(マイク)501Aから501D(マイク105に対応する)は、-(N-1)/2から(N-1)/2まで配置され、線に沿って等間隔に分布される。2つの連続するMIC間の間隔はΔである。スピーカ502(スピーカー104に対応)は、線の中心にある。この場合、スピーカ502とn番目のMICとの間の距離r
nは、nΔである。
【0059】
ユーザの手102によって反射された信号のAoA(θ)及び距離(d)を測定するために、スピーカ104/502は、期間T中に周波数がfからf+βへ直線的に掃引するチャープ(周波数が時間とともに上がる(アップチャープ)又は下がる(ダウンチャープ)信号)を送信する。ytは送信されたチャープを示すとする。すると、次式となる。
【0060】
【0061】
チャープは、ユーザの手102によって反射され、MIC105/501Aから501Dによって受信される。t
nはn番目のMICの信号伝搬遅延を示すとする。
図5に示すように、t
n=(d+d
n)/v
sである(但し、v
sは音速である)。更に、d
nは、d-r
ncos (θ)によって近似でき、r
n=nΔである。従って、t
n=2d/v
s-nΔcos(θ)/v
sである。t
dが2d/v
s、δがΔcos(θ)/v
sを示すとすると、t
n=t
d-nδである。MICnの受信チャープは、次式で与えられる。
【0062】
【0063】
FMCWとして、ytとyr
nとが乗算され、ローパスフィルタが適用される。s(n,t)は得られた信号を示すものとする。2cos(p)cos(q)=cos(p-q)+cos(p+q)の性質に基づいて、s(n,t)は次式で与えられる。
【0064】
【0065】
tn=td-nδを代入すると、s(n,t)の位相は次のようになる。
【0066】
【0067】
第3項及び第4項は、n及びtから独立しており、φは、それらの和を示すために用いられる。最後の3つの項は小さく、無視してもかまわない。すると、次式となる。
【0068】
【0069】
s(n,t)は2次元(2D)正弦波であることが観察される。これはn次元に対して周波数Ω=2π(-fδ)=2π(-fΔcos(θ)/vs)を有し、t次元に対して周波数ω=2πβtd/T=4πβd/(T vs)を有する。従って、AoA θ及び距離dを決定するには、Ω及びωを推定するだけでよい。
【0070】
2D正弦波の周波数Ω及びωを決定するために、s(n,t)上に2D高速フーリエ変換(FFT)を適用し、2Dスペクトル中のピークを見つけることができる。しかしながら、ほんのわずかのMIC(例えば、一の実施において4つのMIC)のために、2D FFTに基づく推定精度は非常に限定される。この目的のためにより良好なアプローチは、複素2D正弦波(例えば、ej(Ωn+ωt))の周波数を推定する2D MUSICアルゴリズムを適用することである。実正弦波cos(p)は2つの複素正弦波ejp及びe-jpの総和であるので、s(n,t)の周波数を決定するために2D MUSICアルゴリズムを適用できる。
【0071】
2D MUSICアルゴリズムの導出は以下のように記述される。主なアイデアは、2D信号行列を1Dベクトルに変換し、古典的な1D MUSICアルゴリズムを適用することである。L個の複素正弦波を含む2D信号Sを考えてみよう。即ち、次式である。
【0072】
【0073】
ここで、nは[0,N-1]に分類され、tは[0,T-1]に属する。ciはi番目の正弦波の大きさ、Ωiとωiはそれぞれn次元及びt次元の2つの周波数である。Wはノイズ項である。式(2)の行列形式は、S=UCV'+Wで与えられる。但し、Cはciに等しいi番目の対角要素を有する対角行列である。Uは[u(Ω1),u(Ω2),・・・,u(ΩL)]で定義される。但し、u(Ω)=[1,ejΩ,ej2Ω,・・・,ej(N-1Ω)]である。V及びvはωと同様に定義される。素数は転置演算子を示す。Sの(n,t)番目の要素が式(2)と同じであることを、U、C、及びV’を乗算することによって容易に検証できる。次に、Sは、全ての列を結合することによりベクトルsチルダに変換される。すると以下を示すことができる。
【0074】
【0075】
ここで、vecはベクトル化演算子、直積記号(〇の中に×)はクロネッカー積である。cチルダ及びωチルダは、C及びWからベクトル化される。ここではvec(XY Z)=(Z´直積記号(〇の中に×)X)vec(Y)の性質を用いる。
【0076】
sチルダの式を更に簡単にするために、C(i,j)に等しいcチルダの[(j-1)L+i]番目の要素を考えてみよう。Cは対角行列であるため、i≠jのときはC(i,j)=0となり、C(i,j)=ciとなる。また、“V直積記号(〇の中に×)U”の[(j-1)L+i]番目の列は、“vi直積記号(〇の中に×)ui”で与えられる。但しvi及びujは、それぞれ、V及びUのi番目及びj番目の列である。よって、以下である。
【0077】
【0078】
従って、sチルダは以下のように簡略化できる。
【0079】
【0080】
残りの手順は、1D MUSICアルゴリズムと全く同じである。第1に、共分散行列Rsを(sチルダ)・(sチルダ)Hとして計算する。但し、Hはエルミート演算子である。次に、Rs上の固有値分解を行い、それらの固有値の大きさに基づいて固有ベクトルを降順に分類する。Rsの大きさはNT×NTであるので、NT固有ベクトルを有する。それらの最後のNT-Lはノイズ空間固有ベクトルと称される。Nはノイズ空間固有ベクトルからなる行列とする。これは、NHM=0として示すことができる。“vi直積記号(〇の中に×)ui”はMのi番目の列であるので、任意のiに対してNH(vi直積記号(〇の中に×)ui)=0であることが分かる。それらの定義に基づいて、ui及びviは、u(Ωi)及びv(ωi)で与えられる。(Ωi,ωi)を決定するために、以下のメトリックが(Ω、ω)の任意の組み合わせについて評価される。
【0081】
【0082】
P(Ω,ω)のプロファイルにおけるL個のスパイクは、信号SにおけるL個の正弦波の周波数(Ωi,ωi)を示す。本発明のシステムでは、Ω=-2πΔcos(θ)/λ及びω=4πβdTs/(Tvs)である。但し、λはチャープ周波数fと音速vsとの比で与えられる波長であり、Δはマイク間隔であり、βは帯域幅であり、Tsは音響サンプルの持続時間であり、Tはチャープ長である。また、θはAoAであり、dは距離である。Ω及びωをθ及びdで置換すると、次のようになる。
【0083】
【0084】
このようにして、AoA-距離プロファイルが得られ、複数のスパイクは、手102及び他の背景反射物の位置に対応する。上記の導出は、L<NTである限り有効である。本発明の文脈において、それは、2D MUSICアルゴリズムが、マイクの数(N)よりも多い数(L)の反射を解決できることを意味する。これは、システム内のセンサの数を増やすことと等価である。また、センサの増加は推定精度を大幅に向上させるのに役立つ。2D MUSICアルゴリズムによる結合推定を適用することにより、AoA及び距離の両方の誤差が低減される。
【0085】
図6は、本発明の一の実施形態に係る、式(3)を用いて生成された2Dプロファイルを示す。この場合、手及び体の反射に対応するピークが明らかに見える。これは、結合推定がマルチパス干渉の解決に役立つことを実証する。
【0086】
2D MUSICアルゴリズムを用いた結合推定は追跡に有益である。しかしながら、ルームスケール追跡を支援するには依然として不十分である。ルームスケール追跡を可能にするために、低SNR下での2D MUSICアルゴリズムの精度を高める必要がある。
【0087】
MUSICを用いて複数のAoAを推定するための平均二乗誤差εは、次式で決定される。
【0088】
【0089】
ここで、Lは受信信号における反射の数、ΔはMIC間の間隔、NはMICの数、Tは時間領域サンプルの数である。この式は1D MUSICに対して導出されるが、2D MUSICに適用できる。なぜなら、2D MUSICは、ベクトル化によって1Dバージョンに実際に変換されるからである。
【0090】
式(4)の洞察に基づいて、次の方策を用いて、低SNR下で推定誤差を低減する。即ち、(i)Δ:MIC間の間隔を増加させる(例えば、マイクを互いに不均等な距離に配置する)、(ii)T:推定に用いられるサンプルの数を増加させる、及び(iii)受信信号を処理してL:反射有効数を減らす、ことである。これらのアプローチについて、以下に更に詳細に説明する。
【0091】
低SNR下でのMUSIC性能を向上する一つの方法は、MIC間の間隔Δを増加させることである。しかしながら、Δがλで示す波長の半分よりも大きい場合、AoAを推定するのに曖昧さがある。この場合、-2πΔcos(θ
1)/λ=-2πΔcos(θ
2)/λ+2πとなるような二つの異なる角度θ
1及びθ
2が存在する。式(3)に基づくと、この場合、u(θ
1)=u(θ
2)であるので、P(θ
1D)はP(θ
2D)に等しい。ピークがAoA-距離プロファイルの(θ
1,D
1)に位置する場合、(θ
2,D
2)に同一のピークが存在する。どちらが実際の信号によるものであるかを決定することはできない。
図7Aは、本発明の一の実施形態に係る、曖昧さを有する2Dプロファイルの例を示す(但しΔは2.7cmであり、λは2.1cmである)。同じ大きさ及びパターンを有する50度及び-50度での二つの曖昧さが、0度での正解ピークとして観察される。
【0092】
曖昧さを導入することなくMIC間隔を増加させるために、不等間隔MICアレイが用いられる。不等間隔アレイは、
図7Bに示すように曖昧さを低減するために小さな間隔を有するMICの対と、解像度を向上するために大きな間隔を有するMICの対とを含む。
図7Bは、本発明の一の実施形態に係る不等間隔アレイの利用による、
図7Aよりも曖昧さが少ない2Dプロファイルの例を示す。鍵となる課題は、低SNR下で曖昧さを最小化させるために最適な不等間隔アレイを如何に設計するかである。
【0093】
一の実施形態では、ベクトル[m1,m2,・・・,mN]を用いて線形MICアレイを記述する。但し、miは、i番目のMICと1番目のMICとの間の距離である。m1は常にゼロであり、mNはアレイの合計サイズである。等間隔アレイの場合、mi=(i-1)Δである。この表記が与えられると、式(3)におけるu(θ)は、[e-j2πm1cos(θ)/λ,e-j2πm2cos(θ)/λ,・・・, e-j2πmNcos(θ)/λ]として一般化される。
【0094】
曖昧さの存在を決定するために、正解AoAθ
1に対するu(θ)と他の全ての角度との間の相関性を評価する。
図8A及び
図8Bは、それぞれ、本発明の一の実施形態に係る、等間隔アレイの場合及び不等間隔アレイの場合におけるu(0)とu(θ)との間の相関性のプロットである。
図8A及び
図8Bに示すように、多くの相関ピークが存在する。正解角の周りのものはメインピークであり、他のものはサイドピークである。θ
2に大きさ1のサイドピークがある場合、u(θ
2)はu(θ
1)と同一である。この場合、P(θ
1D)及びP(θ
2D)は、式(3)に基づいて同じ値を有し、θ
2は、θ
1に対する曖昧さである。サイドピークの大きさを減少させると、曖昧さが減少する。一の実施形態では、SNRは、異なる時間にサンプリングされた信号を結合させる時間領域におけるビームフォーミングを用いて増加している。一の実施形態では、サイドピークと一のピークとの間の差異が、低SNRシナリオの下でノイズを許容するためのマージンを決定する。従って、以下の最適化を解くことによってノイズマージンを最大化するMICアレイを選択する。
【0095】
【0096】
ここで、関数side(θ1)は、θ1に対する相関プロットにおいて最も高いサイドピークを返し、MICアレイを考慮して最大のサイドピークを見つけるためにθ1全体にわたる探索が実行される。第1の制約は、アレイサイズが定数Mに等しいことを必要とし、これは、全ての候補アレイが類似のMUSIC精度を与えることを保証する(異なる曖昧さはあるが)。第2の制約は、順方向-逆方向の平滑化を適用できるように、アレイが中心に対して対称であることを必要とする。順方向-逆方向の平滑化は、マルチパス信号間のコヒーレンスを除去し、MUSIC性能を向上する。
【0097】
一の実施形態では、アレイがスマートスピーカに容易に適合できるように、Mは8cmとして選択される。最適化を解くと、最適なアレイ[0,3cm,5cm,8cm]が得られる。0度での正解AoAに対する相関プロットを
図8Bに示す。-20dB SNR下での2D MUSICプロファイルを
図7Bに示すが、潜在的な曖昧さの角度(±50 度)の周りのスパイクが、正解の周りのものよりもはるかに弱くなっている。SNRを考えると、正解スパイクの平均の大きさは、これらの測定に基づく曖昧さのスパイクの平均の大きさの6倍であり、正しいピークの選択を容易にする。
【0098】
結合推定に2D MUSICアルゴリズムを用いるために、一の実施形態では、送信チャープ及び受信チャープを乗算し、低域フィルタリングを用いて、周波数がAoA及び伝搬遅延に比例する正弦波信号(式(1))を得る。正弦波信号の長さは、本発明の一の実施形態に係る
図9Aに示すようにその領域外の積が単にゼロであるので、2つのチャープ間の重なりに依存する。ルームスケール追跡の場合、伝搬遅延は、音響信号の伝搬速度が遅いために大きくなる(例えば、ユーザ103とスマートスピーカ101との間の距離が5mの場合に約30ms)。
図9Aに示すように、これは、導出された正弦波信号の長さを著しく減少する。なぜなら、典型的なチャープが数十ミリ秒しか持続しないからである。減少された信号長は、MUSICアルゴリズム性能に悪影響を及ぼす。
【0099】
この問題に対処するために、
図9Bに示すように、本発明の一の実施形態に係る中間チャープを導入する。これは、送信されたチャープの時間シフトバージョンである。シフト量t
d
0は、受信チャープの伝搬遅延に関する概算に基づいて予め決定される。その結果、中間チャープは、受信チャープとの大きな重なりを有する。一の実施形態では、2D MUSICアルゴリズムは、これらの2つのチャープを乗算することによって導出される正弦波信号に適用される。このように推定されたAoAは、受信チャープのものと等しい。なぜなら、AoAは、異なるMICに対する伝搬遅延(即ち、式(1)のδ)の間の差異によって決まり、全てのMICについて同じ量だけ送信されたチャープをシフトしても、差異は変わらないからである。このように推定された伝搬遅延は、中間チャープと受信チャープとの間の遅延である。受信チャープの総伝搬遅延は、
図9Bに示すように、t
d
0及びt
d
mの総和である。中間チャープを用いると、推定に用いられる有効サンプルの数が増加するため、精度が向上する。
【0100】
このアプローチは、受信チャープの伝播遅延に関する大まかな知識を必要とする。前回の追跡期間における推定結果がこの目的のために使用されるが、それは、ユーザの手の位置102が連続した期間中(数十ms)にあまり変化しないからである。真っ先に追跡するために、後述するように、手の初期位置を決定するアプローチが開発された。
【0101】
2D MUSIC推定に用いられるサンプルの数を増加させる他の方法は、チャープ長を増加させることである。しかしながら、これは追跡待ち時間を増加させる可能性があり、望ましくない。待ち時間を増加させずにチャープ長を増加させるために、
図10に示すように、オーバーラップしているチャープが送信される。
図10は、本発明の一の実施形態に係る、オーバーラップしているチャープの送信を示す図である。興味深いことに、これらのチャープは、それらが時間的に分離できる限り、帯域幅要件を増やさずに同じチャネル上で送信できる。即ち、前回のチャープからの反射は、全て、次のチャープからの最初の反射の前に到達すべきである。これは、オーバーラップしているチャープ間の時間差が、少なくとも、t
d
maxとして示される最大伝播時間であるべきであることを示唆する。5mまでの追跡範囲では、t
d
maxは30msである。従って、一の実施形態では、2つの連続チャープからの反射を区別するための追加の10msクッションを提供するように、2つの連続チャープの間で40msを選択した。これにより、40ms毎に測定値を更新できるが、これはスマートスピーカ使用シナリオに十分である。オーバーラップしているチャープを用いることによって、より長いチャープ持続時間を用いることができる。実験では、80msチャープを用いた。
【0102】
RF信号とは異なり、ハードウェアから報告される音響サンプルは実数である。従って、送信チャープと受信チャープとの乗算後に、実正弦波(式(1)参照)が得られる。しかしながら、MUSICは、複素正弦波の周波数を推定するアプローチであり、一方、実正弦波cos(p)は、2つの複素正弦波e±jpからなる。その結果、MUSICによって見られる複素正弦波の数は、実際には、受信反射の数の2倍である。式(4)に基づくと、増加した正弦波の数は、MUSIC性能に負の影響を及ぼす。その問題を避けるために、信号の負の周波数は、1)信号に対してFFTを実行する、2)負の周波数ビンをゼロとして設定する、3)IFFTを実行する、ことによって除去される。このようにして、各反射は、ただ1つの複素正弦波に対応する。負の周波数を除去すると、信号とノイズの両方が半減し、除去後もSNRは変化しない。
【0103】
2D MUSICを用いる結合推定は、2つの計算集約的ステップを含む。一のステップは、ノイズ空間固有ベクトル行列Nを導く固有値分解であり、その計算コストは固有ベクトルのサイズ(NT×1)と共に増加する。但し、NはMICの数であり、Tは時間領域サンプルの数である。他方のステップは、AoA及び距離の全ての組み合わせについて2Dプロファイル(式(3))を評価することである。その計算コストは、O((NT)2)である各評価の行列乗法と、AoA-距離の組合せの数とに依存する。本発明のシステムの一の実施形態では、MICの数Nは4であり、音響サンプルの数Tは、サンプリングレート44.1KHz及び80msチャープの下で、3528である。従って、NTは重要であり、これらの2つのステップはリアルタイム処理には高価すぎる。
【0104】
その結果として、計算の複雑さを低減するために、サブサンプリングに基づく処理と空間平滑化を用いた。これらの技法は、MUSIC性能を低下させることなくTを効果的に減少する。固有値分解の時間は2.2msに短縮される。しかし、2Dプロファイルの評価は依然として高く、500msに近い。これは、多数のとり得るAoA-距離の組み合わせによるものである。
【0105】
従って、評価すべき距離の数が減少する。1Dシナリオでは、大空間にわたって1Dプロファイルを評価することを回避するために、ルートMUSICを用いる。それは、係数がノイズ空間行列Nにより決定される多項式への根を見つけることによって、1D正弦波の周波数を推定する。しかしながら、2Dシナリオでは、根を見つけることはより高価である。
【0106】
2Dプロファイルの評価コストを抑えるために、以下の観察に依拠する。式(1)を考えると、1D MUSICアルゴリズムは、伝搬遅延t
dを推定するために時間次元にわたって適用できる。位相項(-fδn)は時間に依存しないので、ここでは定数として扱う。距離は、t
dに音速を乗算することによって導出される。このように推定された距離は、2D MUSICアルゴリズムを用いた結合推定のそれに近い。これは、Tが大きいため、この次元に十分な仮想センサが存在するからである。本発明の実施形態に係る
図11に示すように、1D MUSICアルゴリズム及び2D MUSICアルゴリズム各々を用いて推定する距離の差異は、測定の90%について5mm以内であり、測定の95%以上について1cm以内である。従って、一の実施形態では、距離を推定するために1D MUSICアルゴリズムを適用し、そして、結合推定のために2D MUSICアルゴリズムを用いるが、推定距離(即ち±2cm)の周りの2Dプロファイルを評価するためだけである。これは、式(3)を計算する回数を大幅に減らし、計算時間を減らす。
【0107】
計算コストを更に抑えるために、式(3)の分母は、下記に変換される。
【0108】
【0109】
v直積記号(〇の中に×)u=(v直積記号(〇の中に×)In)uという性質が活用される。但し、v及びuは列ベクトルであり、Inはuと同じ行数を有する単位行列である。Q(d)は(v(d)直積記号(〇の中に×)IN)HNNH(v(d)直積記号(〇の中に×)IN)を示すとする。Q(d)はθに依存しないことが分かる。また、そのサイズはN×Nに過ぎず、MICの数が少ないため非常に小さい。これらの観測結果に基づいて、2DプロファイルP(θ,d)は以下のように評価される。
【0110】
・任意のdが与えられると、Q(d)が最初に評価される。このステップの計算コストは、v(d)直積記号(〇の中に×)IN及びNNHのサイズがそれぞれNT×N及びNT×NTであるので、O(N(NT)2)である。ここで、Nは角度や距離に依存しないので、NNHは予め評価されているものとする。
【0111】
・全てのとり得るθについて、P(θ,d)は、1/u(θ)HQ(d)u(θ)によって評価される。各評価のコストは、u(θ)及びQ(d)のサイズがそれぞれN×1及びN×Nであるので、O(N2)のみである。
【0112】
・全てのとり得るdについて上記の手順を繰り返す。
【0113】
このように、各AoA-距離対に対するP(θ,d)の平均計算コストは、O(N2T2/Na+N2)である。但し、Naはとり得るAoAの数であり、Na計算へのQ(d)の計算コストは、同じdを伴って償却される。これと比較して、式(3)を直接計算するには、O(N2T2)が必要である。本発明のシステムでは、N<<Na及びT>>1であるので、上記のアプローチは、P(θ,d)の評価コストを著しく下げる。その結果、このようなアプローチは、各結合推定の時間を520msから31msに短縮する。
【0114】
他の実施形態では、機械学習アルゴリズムを用いて、AoA-距離プロファイルを距離及びAoA推定値にマッピングできる。リカレントニューラルネットワーク(RNN)は、2DプロファイルからAoA及び距離へのマッピングを自動的に学習するために利用される。RNNは、手の動きにおける時間的局所性を利用するために用いられる。例えば、いくつかの期間において2Dプロファイルにノイズが多くても、推定の向上を支援するために、最近のプロファイルを活用できる。更に、連続した2Dプロファイルを解析することにより、潜在的にDopplerシフトを学習し、その効果を補償できる。
【0115】
一の実施形態では、RNNはK個のステージを含む。これらのステージは、
図12に示すように、最新のK個の期間で抽出された2Dプロファイルに対応する。
図12は、本発明の一の実施形態に係る、到着角(AoA)-距離プロファイルをAoA及び距離推定にマッピングするために用いるリカレントニューラルネットワーク(RNN)を示す。
図12を参照すると、各ステージは、同じネットワーク構造(R1201として示す)を有する。最後のステージは、現在の2Dプロファイルを入力として受け取り、先のステージは、前回のプロファイルを入力として受け取る。各ステージは、また、特定のコンテキスト情報を次のステージに供給する。
【0116】
RNNは、一連の同一ネットワーク構造R1201からなる。R1201の設計は、RNNの有効性に多大な影響を及ぼす。
図13は、本発明の一の実施形態に係る、RNNにおけるステージR1201を示す。
図13を参照すると、ネットワークは、2つの入力、即ち、前回のステージからのコンテキストと、現在の2Dプロファイルと、を受け取る。先ず、2Dプロファイルは、平均プーリング層Pを通る。この層は入力プロファイルを複数のブロックに分割し、各ブロックはBXB画素を含む。Pからの出力は、各ブロックにおける平均のピクセルの大きさからなる。効果的には、P層は、BXBの因子によって2Dプロファイルを圧縮する。これは、ネットワーク内のパラメータ数を著しく減少させ、オーバーフィッティングを防止する。オリジナルの2DプロファイルをP層に供給する方が、粗い粒度で2Dプロファイルを直接用いるよりも優れている。なぜなら、後者では鋭いピークを見逃す可能性があるためである。これは、高SN比下でよく見られる。プーリング層の後には、隠れ層H1が続く。この層は、圧縮されたプロ層Oと、コンテキスト層Cとから特徴を抽出する。層H1の後には隠れ層H2が続くが、この層は、隠れ層H1から特徴を抽出し、前回のステージからコンテキストを抽出して、層O及び層Cに出力する。
【0117】
層Oは、推定距離及びAoAを表す2つのニューロンを含む。それらが現在の位置を表すので、層Oの出力は最後のステージでのみ用いられる。
【0118】
コンテキスト層Cは、どの情報を次のステージに転送する必要があるかについて自動的に学習するために用いられる。本質的には、それは他の隠れ層であるが、この層は複数のニューロンからなり、RNNにおける連続するステージを接続する。
【0119】
一の実施形態では、対象物の位置を導出するために、対象物の前回の位置の周りの特定サイズの領域に対応する2次元プロファイルが生成されて用いられる。精度と効率の両方を高めるために、部屋全体を包含する代わりに、目標位置の周りの小さな領域にわたる2Dプロファイルのみが生成される。具体的には、目標位置が大まかに分かっていると仮定すると、その周囲の検出窓は、距離をBDからBD+WDまで、AoAをBAからBA+WAまで包含するように選択される。この窓内の2Dプロファイルのみが評価され、ネットワーク入力として用いられる。RNNからの出力は、検出窓の境界に対する距離及びAoAである。ピークがプロファイルの左下隅に現れる場合、RNNは距離とAoAの両方をゼロとして推定する。ピークが右上隅にある場合には、ネットワークはそれらをそれぞれWD及びWAとして推定する。最終距離及びAoAは、窓の相対位置及び左下隅の総和(即ち、(BD,BA))として導出できる。
【0120】
この戦略を用いる利点は多岐にわたる。第1に、局所領域におけるプロファイルを評価するだけで計算コストを著しく下げる。第2に、特定の距離又はAoAで訓練されたRNNは、適切な検出窓を選択することによって、別の距離又はAoAに適用できる。第三に、窓外の干渉経路をフィルタリングすることによって、ネットワークが環境に影響を受けにくくなる。第4に、複数の検出窓を用いることによって、複数のユーザを同時に追跡できる。
【0121】
このメカニズムは、対象物位置に関する大まかな知識を必要とする。従って、初期化スキームを用いて、初期窓を決定する。追跡中、対象物が境界の近くに移動すると、窓が更新される。一の実施形態では、窓は60cm×60cmの領域に及ぶので、正確な対象物位置は必要とされない。
【0122】
一の実施形態では、RNNは、時間窓にわたる正解位置及び到着角-距離プロファイルのシーケンスからなる訓練トレース(trace)を用いて訓練される。一の実施形態では、到着角-距離プロファイルのシーケンスは、到着角及び距離の推定値を取得するためにRNNに適用される。一の実施形態では、到着角はリカレントニューラルネットワークに基づいて推定され、時間窓にわたる正解到着角及び到着角プロファイルのシーケンスを含む訓練トレースは、リカレントニューラルネットワークを訓練するために用いられ、到着角プロファイルのシーケンスは、到着角の推定値を取得するためにリカレントニューラルネットワークに適用される。他の実施形態では、距離はリカレントニューラルネットワークに基づいて推定され、時間窓にわたる正解距離及び距離プロファイルのシーケンスを含む訓練トレースは、リカレントニューラルネットワークを訓練するために用いられ、距離プロファイルのシーケンスは、距離の推定値を取得するためにリカレントニューラルネットワークに適用される。
【0123】
先に議論したように、各反射は、2D MUSICアルゴリズムから導出されたAoA-距離プロファイルにおけるスパイクに対応する。これらのスパイクの1つは、手の反射に対応するように選択される。これは、ユーザ103が装置101から遠く離れている場合には、手の反射404が支配的ではないので、困難である。
図14は、本発明の一の実施形態に係る、一の部屋のAoA-距離プロファイルを示す。ユーザの手102と装置101との間の距離は3.6mである。干渉除去の後でさえ、手の反射以外にスパイクがあることが観察される。これらのスパイクは、ユーザの体の反射401、動的背景反射402、及びノイズ(例えば、自己干渉403)に対応する。ユーザの手102に対応するスパイクは、必ずしも最も強いものではない。
【0124】
どのスパイクが手102に対応するかは一のスナップショットに基づくと曖昧であるため、時間の経過に伴う複数のスナップショットからの時間的関係が利用される。一の実施形態では、ユーザ103は、初期ジェスチャを実行し且つ経時的な軌跡がジェスチャに一致するスパイクを識別するように、求められる。一の実験では、ユーザ103は、初期化中に自分の手102を押し出すように求められる。望ましいスパイクは、経時的に直線的に変化すべきである。このパターンは、手102を識別するために用いられる。
図15は、本発明の一の実施形態に係る、1秒間にわたるユーザ103の手102及び体のスパイクを示すグラフである。
図15に示すように、手の反射に対応するスパイクは、時間とともに直線的に変化する。即ち、直接経路に対するスパイクは変化せず、動的背景反射402及びノイズ(例えば、自己干渉403)に対するスパイクは、ランダムパターンを示す。実験では、ほとんどの場合、ユーザ103は、手の初期位置を明確に決定するために1回押すだけでよいことが示された。信頼性のために、ユーザ103は、2回押すように求められてもよい。
【0125】
これらの観察に基づいて、スパイクは、初期化ステージ中(即ち、1秒)に2D MUSICプロファイルから抽出される。全てのスパイクは、k平均アルゴリズムを用いてクラスタ化される。但しkは、このステージ中の各追跡期間において検出されたスパイクの最大数である。各クラスタについて、全ての点は、初期化ジェスチャに対応する線を用いてクラスタ内に近似される。最小のフィッティング誤差(即ち、R二乗メトリックが1に最も近い)を与えるクラスタが選択される。そのクラスタ内の最新のスパイクが、手の初期位置として選択される。初期位置が決定されると、前回のスパイクに最も近いスパイクを、次の連続追跡用に選択できる。
【0126】
図3Bに戻るとともに、
図1から
図2及び
図4から
図13と併せると、ステップ310において、装置101は、ユーザ103が、最近の時間窓内の手102の位置に基づいてコマンドを実行したかを判定する。一の実施形態では、装置101は、メモリ202等に、前回の数の手の位置(例えば、前回の10個の位置)を記憶する。一の実施形態では、このような記憶された位置は、旋回モーション等の動き又はモーションに外挿できる。例えば、手102の各位置は、x,y座標系を介して決定される。その結果、手102が移動する際の、モーション又は動きに対応するx,y座標の変化が決定される。一の実施形態では、モーション又は動きの種類に関連するコマンドを記憶するデータ構造(例えば、表)が、装置のメモリ202に格納される。手102の動き又は移動を外挿した後、データ構造を評価して、このような動き又はモーション(例えば、渦状のモーション)がコマンド(例えば、音量の増加)に対応するかどうかを判定する。ユーザ103が装置101にコマンドを実行させようとしたと装置101が判断した場合、装置101は、次にこのようなコマンドを実行する。本明細書で使用される「コマンド」は、装置101によって実行される任意の種類の命令を指し、アバターの動きを含む。
【0127】
ステップ311では、ユーザ103がコマンドに対応する手のモーションを行ったかどうかについて、装置101によって判定が行われる。ユーザの手のモーションがコマンドに対応する場合、ステップ312において、装置101は、前述したようなコマンドを実行する。
【0128】
しかしながら、ユーザの手のモーションがコマンドに対応しなかったと装置101が判定した場合、装置101は、
図3Aのステップ301において、ユーザ103に記録音声信号を送信し続ける。
【0129】
このようにして、スマートデバイス(例えば、スマートスピーカ)等の装置は、ユーザの手等のユーザのモーションを介して、それ自体によって、又は音声に基づく制御と共同して制御できる。その結果、スマートデバイス等の装置の機能性又は性能は、ユーザがモーションを介して装置を制御可能とすることによって向上する。これは、発話等の他の手段よりも、動きを介して装置に命令する方がより容易であると感じるような、障害のある個人にとっては特に重要である。
【0130】
更に、音声制御に加えてモーションを介した装置の制御を可能とすることによって、装置を制御時の精度が大幅に向上される。その結果、ユーザは、特定の動作(例えば、音量の増加)を実行するように装置に対して正しく命令しようとすることにあまり時間を費やさない。
【0131】
更に、本発明は、制御装置を含む技術又は技術分野を改善する。前述したように、現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御が常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。更に、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。これと比較して、モーションに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。残念ながら、スマートスピーカ等のスマートデバイスを、手のモーション等のモーションを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。
【0132】
前述したように、本発明は、ユーザが、手のモーション等のモーションを用いて、スマートデバイス等の装置を制御可能とすることによって、そのような技術を向上する。
【0133】
上記では、手の追跡に関連して本発明を説明したが、本発明の原理は、クレジットカード、紙片、又はモバイル機器等の、任意の種類の物体を追跡するために用いてよい。
【0134】
一の実施形態では、装置101は、送信信号の反射を収集するのとは対照的に、スマートフォン等の、追跡される物体からの信号を直接受信する。例えば、
図16に示すように、
図16は、本発明の実施形態に係る、モバイル機器A1601が音響信号1602を発し、他の装置101(
図1参照)上の複数のマイクが受信信号に基づいてモバイル機器A1601の動きを追跡できる装置に基づく追跡を示す。
図17は、本発明の一の実施形態に係る、
図16のモバイル機器A1601等の物体1701の動きを追跡するために用いる他の装置101上の複数のマイク105Aから105Cを示す。マイク105Aから105Cは、集合的に又は個別に、それぞれ、複数のマイク105又は一のマイク105と称してよい。
図17は3つのマイク105を示しているが、本発明の原理は、特定数のマイク105に範囲を限定されるものではない。
【0135】
図1、
図16、及び
図17を参照すると、装置101は、装置101内の一又は複数のマイク105を用いて、物体(例えば、スマートフォン)によって送信された音響信号を受信する。装置101は、受信信号の少なくとも一部を、周波数が受信信号の到着角及び伝搬距離に比例する2次元正弦波に変換する。装置101は、2次元正弦波の周波数を評価することによって到着角-距離プロファイルを導出する。装置101は、到着角-距離プロファイルから、到着角及び距離を推定する。装置101は、装置101と、音響信号を送信する装置との間の周波数オフセットを推定してよい。一の実施形態では、周波数オフセットは、送信機及び受信機の両方が静止している場合に、到着角-距離プロファイル又は距離プロファイルのピークの変化に基づいて推定される。装置101は、周波数オフセットを用いて距離推定値を調整する。一の実施形態では、到着角は、到着角-距離プロファイル又は到着角プロファイルのピークに基づいて推定される。装置101は、選択された到着角-距離対に基づいて、物体(例えば、スマートフォン)の現在位置を決定する。次に、装置101は、ユーザ103が物体の前回及び現在の位置に基づいてコマンドを実行するために移動したかを判定する。次に、装置101は、ユーザ103がコマンドを実行するために移動したとの判定に応答してコマンドを実行する。
【0136】
一の実施形態では、装置101は、2次元(2D)座標から3次元(3D)座標を得ることができる。一の実施形態では、装置101は、x軸に沿った複数のマイク105から収集された受信信号を用いてx-z座標を得る。次に、y軸に沿った複数のマイク105から収集された受信信号を用いてy-z座標を得る。次に、装置101は、導出されたx-z及びy-z座標を用いて、x-y-z座標を形成する。
【0137】
言い換えると、装置101は、異なる組のマイク105を用いて複数の到着角-距離の組を推定することによって、且つ推定された到着角-距離の組を3次元座標に変換することによって、対象物(例えば、スマートフォン)の2次元座標を3次元座標に変換する。
【0138】
このような実施形態は、装置に基づく追跡及びデバイスフリー追跡の両方に実施されてよい。
【0139】
本発明の各種の実施形態の説明は、例示の目的で提示されているが、網羅的であることも、開示された実施形態に限定されることも意図されていない。記載された実施形態の範囲及び精神から逸脱することなく、多くの修正及び変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実際の適用又は技術的改善を最もよく説明するために、或いは当業者が本明細書で開示される実施形態を理解可能とするために選択された。
【手続補正書】
【提出日】2021-04-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
物体の動きを追跡する方法であって、
装置内の一又は複数のマイクを用いて前記物体から音響信号を受信する工程と、
前記受信した音響信号の少なくとも一部を、周波数が前記物体に係る到着角及び伝播距離
の少なくとも一方に比例す
る正弦波に変換する工程と、
前
記正弦波の周波数を評価することによって、
距離プロファイル又は到着角-距離プロファイルを導出する工程と、
前記距離プロファイル又は前記到着角-距離プロファイルに基づいて、到着角及び
/又は距離を推定する工程と、
前記推定された到着角及び
/又は前記推定された距離に基づいて、前記物体の現在の位置を決定する工程と、
を含むことを特徴とする方法。
【請求項2】
当該方法は、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程と、
を更に含むことを特徴とする請求項1に記載の方法。
【請求項3】
当該方法は、リカレントニューラルネットワークに基づいて前記到着角及び距離プロファイルから前記到着角及び前記距離を推定する工程を更に含み、
時間窓にわたる正解位置及び到着角-距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角-距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項1に記載の方法。
【請求項4】
当該方法は、リカレントニューラルネットワークに基づいて前記到着角を推定する工程を更に含み、
時間窓にわたる到着角プロファイルを伴う正解角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項1に記載の方法。
【請求項5】
当該方法は、リカレントニューラルネットワークに基づいて前記距離を推定する工程を更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記到着角-距離プロファイルにおける初期到着角-距離の組に対応する前記物体の初期位置を決定するために初期化を実行する工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項7】
当該方法は、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行う工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項8】
前記到着角及び距離プロファイルは、2D MUSICアルゴリズムを用いて得られることを特徴とする請求項1に記載の方法。
【請求項9】
当該方法は、送信機と受信機の両方が静止しているときに、前記到着角-距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定する工程を更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記装置は、前記一又は複数のマイクを有し、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項1に記載の方法。
【請求項11】
当該方法は、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させる工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項12】
当該方法は、一又は複数の物体の位置に対応する前記到着角-距離プロファイルにおけるピークを識別する工程を更に含むことを特徴とする請求項1に記載の方法。
【請求項13】
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項1に記載の方法。
【請求項14】
前記距離は、前記到着角-距離プロファイル又は
前記距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項1に記載の方法。
【請求項15】
前記到着角は、前記到着角-距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項1に記載の方法。
【請求項16】
前記装置は、異なる組のマイクを用いて複数の到着角-距離の組を推定し、前記推定された複数の到着角-距離の組を3次元座標に変換することによって、対象物の2次元座標を3次元座標に変換することを特徴とする請求項1に記載の方法。
【請求項17】
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する2次元プロファイルが生成されて用いられることを特徴とする請求項1に記載の方法。
【請求項18】
物体の動きを追跡するコンピュータプログラム製品であって、
当該コンピュータプログラム製品は、それと共に具体化されるプログラムコードを有するコンピュータ可読記憶媒体を備えており、
前記プログラムコードは、
装置内の一又は複数のマイクを用いて前記物体から音響信号を受信するプログラム命令と、
前記受信した音響信号の少なくとも一部を、周波数が前記物体の到着角及び伝播距離
の少なくとも一方に比例す
る正弦波に変換するプログラム命令と、
前
記正弦波の周波数を評価することによって、
距離プロファイル又は到着角-距離プロファイルを導出するプログラム命令と、
前記距離プロファイル又は前記到着角-距離プロファイルに基づいて、到着角及び
/又は距離を推定するプログラム命令と、
前記推定された到着角及び
/又は前記推定された距離に基づいて、前記物体の現在の位置を決定するプログラム命令と、
を含む
ことを特徴とするコンピュータプログラム製品。
【請求項19】
前記プログラムコードは、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定するプログラム命令と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行するプログラム命令と、
を更に含むことを特徴とする請求項
18に記載のコンピュータプログラム製品。
【請求項20】
物体の動きを追跡するコンピュータプログラムを記憶するメモリと、
当該メモリに接続されたプロセッサと、
を備え、
前記プロセッサは、前記コンピュータプログラムのプログラム命令を実行するように構成されており、
前記プログラム命令は、
一の装置内の一又は複数のマイクを用いて前記物体から音響信号を受信することと、
前記受信した音響信号の少なくとも一部を、周波数が前記物体の到着角及び伝播距離
の少なくとも一方に比例す
る正弦波に変換することと、
前
記正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて
距離プロファイル又は到着角-距離プロファイルを導出することと、
前記距離プロファイル又は前記到着角-距離プロファイルに基づいて、到着角及び
/又は距離を推定することと、
前記推定された到着角及び
/又は前記推定された距離に基づいて、前記物体の現在位置を決定することと、
を含む
ことを特徴とする装置。
【国際調査報告】