IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

<>
  • 特許-音源場所検出のための方法および装置 図1
  • 特許-音源場所検出のための方法および装置 図2
  • 特許-音源場所検出のための方法および装置 図3
  • 特許-音源場所検出のための方法および装置 図4
  • 特許-音源場所検出のための方法および装置 図5
  • 特許-音源場所検出のための方法および装置 図6
  • 特許-音源場所検出のための方法および装置 図7
  • 特許-音源場所検出のための方法および装置 図8
  • 特許-音源場所検出のための方法および装置 図9
  • 特許-音源場所検出のための方法および装置 図10
  • 特許-音源場所検出のための方法および装置 図11
  • 特許-音源場所検出のための方法および装置 図12
  • 特許-音源場所検出のための方法および装置 図13
  • 特許-音源場所検出のための方法および装置 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-29
(45)【発行日】2022-08-08
(54)【発明の名称】音源場所検出のための方法および装置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20220801BHJP
   H04R 1/40 20060101ALI20220801BHJP
   G10K 11/34 20060101ALI20220801BHJP
   G10L 25/51 20130101ALI20220801BHJP
   G10L 21/0216 20130101ALI20220801BHJP
   H04N 5/232 20060101ALI20220801BHJP
   G01S 5/20 20060101ALI20220801BHJP
【FI】
H04R3/00 320
H04R1/40 320A
G10K11/34 130
G10L25/51 400
G10L21/0216
H04N5/232 060
H04N5/232 990
G01S5/20
【請求項の数】 20
(21)【出願番号】P 2020573164
(86)(22)【出願日】2018-12-14
(65)【公表番号】
(43)【公表日】2021-12-02
(86)【国際出願番号】 US2018065716
(87)【国際公開番号】W WO2020032992
(87)【国際公開日】2020-02-13
【審査請求日】2021-12-10
(31)【優先権主張番号】16/056,386
(32)【優先日】2018-08-06
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】510330264
【氏名又は名称】アリババ・グループ・ホールディング・リミテッド
【氏名又は名称原語表記】ALIBABA GROUP HOLDING LIMITED
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100205785
【弁理士】
【氏名又は名称】▲高▼橋 史生
(72)【発明者】
【氏名】ジンウェイ・フェン
(72)【発明者】
【氏名】タオ・ユ
【審査官】辻 勇貴
(56)【参考文献】
【文献】特開2009-199158(JP,A)
【文献】特開2003-304589(JP,A)
【文献】特開2000-134688(JP,A)
【文献】特開2011-124749(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
G10K 11/34
G10L 25/51
G10L 21/0216
H04N 5/232
G01S 5/20
(57)【特許請求の範囲】
【請求項1】
ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、前記ターゲット音が音声認識するための音声コマンドを含み、
ハウジングと、
前記ハウジングとともに配置されたマイクロフォンのアレイであって、
直線的に整列された水平のセットのマイクロフォンと、
直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、
マイクロフォンの前記アレイと通信可能に結合された1つ以上のプロセッサと、
前記1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記1つ以上のプロセッサに、
前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンから前記ターゲット音を含むオーディオ信号を受信することと、
前記装置に関する前記オーディオ信号での前記ターゲット音のソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する垂直方向を特定することと、を含む、分析することと、
前記ターゲット音の前記ソース場所と前記装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。
【請求項2】
前記オーディオ信号が、前記ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも1つの別個の音をさらに含み、
前記動作が、
前記装置に関する前記オーディオ信号での前記別個の音の前記別個のソース場所を特定することと、
前記別個の音を前記ターゲット音から区別することと、をさらに含む、請求項1に記載の装置。
【請求項3】
前記別個の音を前記ターゲット音から区別することが、
前記別個の音の前記別個のソース場所の画像を取得することと、
前記画像が人間の顔の正面図に対応しているかどうかを特定することと、
前記画像が人間の顔の正面図に対応していないという特定に応答して、前記別個の音を干渉音として無視することと、を含む、請求項2に記載の装置。
【請求項4】
前記ターゲット音の前記ソース場所に対する前記水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、前記水平候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項1に記載の装置。
【請求項5】
前記ターゲット音の前記ソース場所に対する前記垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、前記垂直候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項1に記載の装置。
【請求項6】
前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項1に記載の装置。
【請求項7】
前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項1に記載の装置。
【請求項8】
前記オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、
適応レートが、前記オーディオ信号のピークの高さに依存する、請求項1に記載の装置。
【請求項9】
オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンから前記オーディオ信号を受信するように構成された、1つ以上のプロセッサと、
前記1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記1つ以上のプロセッサに、
前記水平のセットのマイクロフォンから、および前記垂直のセットのマイクロフォンから、前記オーディオ信号を受信することと、
前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。
【請求項10】
前記オーディオ信号での前記音が、干渉音と、ターゲット音と、を含み、
前記動作が、
前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンに関して、前記干渉音および前記ターゲット音の前記それぞれのソース場所を特定することと、
画像分析を介して、前記干渉音を前記ターゲット音から区別することと、をさらに含む、請求項9に記載のシステム。
【請求項11】
前記動作が、前記ターゲット音の理解を最適化し、前記干渉音からの干渉を最小化するために、前記音の前記それぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、請求項10に記載のシステム。
【請求項12】
前記音の前記それぞれのソース場所に対する前記それぞれの水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、前記水平候補場所が、前記水平のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項9に記載のシステム。
【請求項13】
前記音の前記それぞれのソース場所に対する前記それぞれの垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、前記垂直候補場所が、前記垂直のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項9に記載のシステム。
【請求項14】
前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項9に記載のシステム。
【請求項15】
前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項9に記載のシステム。
【請求項16】
オーディオ信号での音のそれぞれのソース場所を検出する方法であって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介して前記オーディオ信号を受信することであって、前記水平のセットのマイクロフォンが、直線的に整列されており、前記垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、
前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。
【請求項17】
前記オーディオ信号での前記音の前記ソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、請求項16に記載の方法。
【請求項18】
前記オーディオ信号での前記音における音が、干渉音またはターゲット音であるかを特定することと、
任意の干渉音を無視することと、をさらに含む、請求項16に記載の方法。
【請求項19】
音声認識を実行し、前記ターゲット音の意味を解読するために、前記ターゲット音をプロセッサに送信することをさらに含む、請求項18に記載の方法。
【請求項20】
音が干渉音またはターゲット音であるかを特定することが、わずか20ミリ秒で区別可能である、請求項18に記載の方法。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願の相互参照
本出願は、2018年8月8日出願の「METHOD AND APPARATUS FOR SOUND SOURCE LOCATION DETECTION」と題する米国特許出願第16/056,386号の優先権を主張し、それは、その全体で参照によって本明細書に組み込まれる。
【0002】
現代では、人件費を低減し、生産性を向上させ、身体的および/または精神的な障害および制限を有する人を含む様々な個人へのアクセシビリティを向上させる自動化技術の提供に大きく重点が置かれている。上記の利点を達成するのに役立ち得る技術分野の1つは、人間の音声コマンドを聞いて応答することができる機械である。現在、音声作動可能な機械は、多数のタスクを実行することができる。しかしながら、ノイズの多い環境などのいくつかの状況では、これらの機械は、与えられるコマンドを適切に処理するために、音声または音のソースの場所を検出するのが困難である。
【0003】
音のソースの場所を特定することは、一般的に、周囲のノイズに満ちた環境の中でさえ、通常の聴覚および音響処理能力を有する人間にとってかなり単純なプロセスである。すなわち、類似の別個の音の混合物が複数のソースによって生成されている環境で、平均的な人間は、聴覚および視覚による手がかりを使用して、別個の重要でないノイズを精神的にフィルタリングし、次いで、音を発している方向に自らの体を向けることによって、ターゲット音のソースを見つけ出す能力を有する。
【0004】
対照的に、ノイズに満ちた環境で、単一のマイクロフォンを有する機械は、多くの理由でターゲット音源(例えば、コマンドを与える人間の音声)の場所を検出するのが困難である。例えば、単一のマイクを使用する機械は、人間のバイノーラル聴覚機構とは異なり、音源の入射角および距離を知ることができない。加えて、例えば、固定された指向性マイクロフォンさえ有する固定の機械も、より良好に音を拾うためにそれ自体を再配向することができない。さらに、混雑した地下鉄の駅、電車の駅、空港、カジノ、イベントスタジアム、大都市のストリートなどの環境で、意図的に機械で直接音波を発する場合でさえ、機械が、意図せずに直接向けられる複数の音波を受信する可能性が強い。例えば、地下鉄の駅で、個人が、機械の近くに立ってコマンドを与えている場合がある一方で、同時に、通行人または傍観者もまた、機械に向かいながら居合わせて話している場合がある。加えて、到着する地下鉄の車の機械的な音、ライブまたは駅のスピーカー上で再生されている音楽、情報のアナウンス、フロア上を移動する人々の音などの、機械に反射または向けられている他の周囲のノイズが存在し得る。環境でのこれらの組み合わされた音のすべてが、機械に対して意図されるコマンドを与える個人の発話を妨害し、曖昧にし得る。そのように、機械は、どの音に焦点を合わせるかを決定するのが困難であり得、その後、リスニング手順を終了し得る。要約すると、固定されたマイクロフォンを有する機械は、人間のバイノーラル聴覚能力、精神的なフィルタリング機構、および発話源を見つけ出すための再配向モビリティを欠いている。
【0005】
したがって、向上した機械の音源場所特定能力が望まれる。
【図面の簡単な説明】
【0006】
発明を実施するための形態は、添付の図面を参照して述べられる。図面では、参照番号の左端の数字(複数可)は、参照番号が最初に現れる図面を示す。異なる図面における同じ参照番号の使用は、類似または同一の項目を示す。
図1】本開示の一実施形態による、音源場所を検出するための装置を示す。
図2】本開示の一実施形態による、音源場所を検出するための方法のフローチャートを示す。
図3】本開示の一実施形態による、オーディオ信号中の音の音源場所を特定するための方法のフローチャートを示す。
図4】本開示の一実施形態による、オーディオ信号を分析するための方法のフローチャートを示す。
図5】本開示の一実施形態による、音源場所を検出するための方法における追加のステップまたは動作のフローチャートを示す。
図6】本開示の一実施形態による、音源場所を検出するための方法における追加のステップまたは動作のフローチャートを示す。
図7】本開示の一実施形態による、マイクロフォンのアレイへの音の到来方向(DOA)を特定する方法のフローチャートを示す。
図8図7の方法を使用して行われる特定による、音源場所特定技術の一例の極座標プロットを示す。
図9】本開示の一実施形態による、マイクロフォンのアレイへの音の到来方向(DOA)を特定する代替的な方法のフローチャートを示す。
図10】1つの周波数について図9の方法を使用して行われる特定による、音源場所特定技術の一例の500Hzでの極座標プロットを示す。
図11】1つの周波数について図9の方法を使用して行われる特定による、音源場所特定技術の一例の8000Hzでの極座標プロットを示す。
図12図9の方法を使用して行われる特定による、音源場所特定技術の一例の投票アルゴリズムを使用する極座標プロットを示す。
図13図9の方法を使用して行われる特定による、音源場所特定技術の一例の距離グラフを示す。
図14】本開示の一実施形態による、コンピューティングデバイスの概略図を示す。
【発明を実施するための形態】
【0007】
概要
本開示は、電子的手段を介した、向上した音(例えば、音声など)のソース場所検出のための装置、システム、および方法を対象とする。人間の発話などの音を「聞いて」解釈し得る機械の概念は数十年間存在していたが、近年、いくつかの企業が、特に、発話を通じて直接人間と対話するように構成されたデバイスを開発した。状況に応じて明らかな制限があることを理解すると、人間は一般的に、干渉ノイズがある雰囲気で、人間の音声などの特定の音を識別することができる。さらに、人間は一般的に、特定の音のソースを見つけ出すために、自らの体を容易に再配向する能力を有する。対照的に、人間が音を聞いて処理する方法を、機械が音を受信する方法と比較した違いにより、同じ環境を考慮すると、どの音がどの方向から来たのか、さらに、機械がどの音(または音声)に焦点を合わせるべきかを特定することの課題により、機械は、同じ音を理解して解釈するのに苦労し得る。したがって、本開示は、ノイズの多い環境からオーディオ信号を取り入れ、音を解析するための機械の能力に関する。一実施形態では、機械は、人間の音声を含むオーディオ信号を受信し、信号内のどのノイズが人間の音声に対応しているかを特定して、人間の音声からのコマンドに注意を払い解釈し得る。
【0008】
本明細書で以下に説明するように、本出願の一実施形態は、実行されると、機械に動作(例えば、操作、ステップなど)を実行させる1つ以上のプロセッサを有する機械で具現化され得る。本出願の目的で、機械の1つ以上のプロセッサによって実行されている動作の任意の考察または詳述は、動作が、機械の場所で、機械の1つ以上のプロセッサによって直接実行され得るという可能性、ならびに実行された動作のうちの1つ以上が、ネットワークを介して機械と通信する1つ以上のリモートプロセッサおよび/またはサーバによって実行され得るという可能性を含むことに留意されたい。言い換えれば、本開示に従って実行される動作のうちの1つ以上は、機械の1つ以上のプロセッサによって処理のために信号送信されるか、または処理のために初期化されて、リモートプロセッサ/サーバによって実際に実行され、次いで、その結果は、リモートプロセッサ/サーバから機械に中継されて戻され得る。例えば、本開示の機械の一実施形態は、機械でのロバストな処理能力の必要性が最小限にされるように、クラウドコンピューティングサービスまたは他のリモートベースの処理センターに接続され得る。
【0009】
音源場所検出のための装置の例示的な実施形態
図1に示されるような実施形態では、オーディオ信号で音のそれぞれのソース場所を検出するための装置100は、装置100の構成要素を収容および/または支持するためのハウジング102を含み得る。装置100は、装置が配置された周囲環境からオーディオ信号を取り入れるために使用されるマイクロフォン104(本明細書では「マイク」または「マイク(複数)」とも称され、図7を参照、例えば、「マイク0」、マイク1、「マイクN」)のアレイを含む。マイクロフォン104のアレイは、水平配向に直線的に整列された第1のセットのマイクロフォン104aと、垂直配向に直線的に整列された第2のセットのマイクロフォン104bと、を含み得る。さらに、一実施形態では、水平配向に直線的に整列された第1のセットのマイクロフォン104aは、装置を扱うためにユーザーが位置付けられる可能性のある位置に整列され得るように、装置100の上側に中央に配置された位置に配置され得る。加えて、垂直配向に直線的に整列された第2のセットのマイクロフォン104bは、装置100の横方向エッジに沿った位置に配置され得、垂直の距離に関して、第2のセットのマイクロフォン104bは、装置の撮像デバイス(以下を参照)、すなわち、撮像デバイスを有する装置の実施形態に対して、地面よりも近い場合がある。
【0010】
図1は、2つのセットのマイクロフォンのみを示しているが、追加のセットのマイクロフォンが組み込まれ得ることが企図されることに留意されたい。追加のセットのマイクロフォンが組み込まれる場合、1つ以上の追加のセットが、直線的に整列されるか、曲線に整列されるか、または他の方法で整列され得、水平方向に配向され、垂直方向に配向され、および/または対角方向に配向され得ることがさらに企図される。その上、本開示の目的で、「マイクロフォンのセット」に関して述べられるような「セット」という用語は、所定の位置で配向され、オーディオ信号分析の目的で一緒にグループ化される少なくとも2つ以上のマイクロフォンとして定義され得る。
【0011】
マイクロフォン104のアレイによって受信されるオーディオ信号の分析に関して、一実施形態では、マイクロフォンのセット(例えば、水平のセット104a、垂直のセット104b)内の各マイクロフォンから受信されるオーディオ信号は、セット内の任意の他のマイクロフォンから独立して分析され得る。すなわち、マイクロフォン(例えば、マイク0、マイク1、マイク2、...マイクN)のセットからのオーディオ信号が依然として、垂直または水平のセットのマイクロフォンとして集合的に分析され得るが、セット内の個々のマイクロフォンによって受信されるオーディオ信号は、セット内の他の隣接するマイクロフォンから独立して考慮され得る。代替的な実施形態では、第1および/または第2のセットのマイクロフォン104a、104b内で、ユーザーは、必要があれば、マイクロフォンのサブセットを定義し得る。例えば、マイクロフォンのセットに合計8つのマイクロフォンが含まれることとし、セットは、サブセットごとに4つまたは2つのマイクロフォンのさらなる細区分を有し得る。これらのサブセットは、サブセット内のマイクロフォンが、マイクロフォンのセット内の異なるサブセットの他のマイクロフォンよりも各々比較的近くにグループ化され得るように配置され得る。加えて、および/または代替的に、セット内のマイクロフォンのサブセットは、サブセットの間の間隔がサブセット内の個々のマイクロフォンの間の間隔よりも大きい場合があるサブセットで物理的にグループ化されるのではなく、分析目的でのみ「グループ化」され得る。すなわち、セット内のすべてのマイクロフォンが直線的に整列され、実質的に等しく離間している場合でさえ、受信されたオーディオ信号の分析は、マイクロフォンの分析の「サブセット」(例えば、マイク0およびマイク1がサブセットであり、マイク2およびマイク3がサブセットであるなど)を使用して実行され得る。
【0012】
マイクロフォン104のアレイに加えて、一実施形態では、装置100は、装置100の周囲の環境を見るために実装され、音源場所を特定するのを支援し得る撮像デバイス106(例えば、静止画カメラ、ビデオカメラ、熱撮像装置など)を含み得る。装置100上の特定の位置が有利であり得るが、撮像デバイス106の場所は変化し得る。加えて、撮像デバイス106は、1)音の到来方向(DOA)を特定するのを支援し、2)人または物体から音を発しているかどうかを特定するのを支援し、3)装置に送出されているコマンドに関して、オーディオ信号の意図を解釈および/または検証するのを支援するように、配向を変更し、および/またはビューに焦点を合わせるように制御可能であり得る。例えば、本開示による装置は、混雑した、ノイズの多い地下鉄または電車のターミナルでの情報またはチケット販売キオスクとして実装され得る。人がキオスクを使用するために歩いていくとき、キオスクを使用しようとする人の音声と混ざり合った、マイクロフォン104のアレイに到着する干渉音があり得る。(本明細書でさらに論じられるように)装置100がマイクロフォン104のアレイによって受信されているオーディオ信号を分析し始めると、装置100は、撮像デバイス106を作動させて、検出されている音源場所を見て、特定の音源場所での画像が装置100を使用する人の場所を示しているかどうかを特定し得る。特に、撮像デバイス106は、装置100で制御をプログラムすることによって自動的に制御され得、および/または撮像デバイス106は、撮像デバイス106が通信可能に結合され得るネットワーク上で送信されるコマンドを介して電子的または手動の手段によってリモートで制御され得る。
【0013】
したがって、撮像デバイス106が音源場所の画像で人間の顔を検出する場合、その場所での画像およびその音源場所から到着するオーディオ信号は、人の質問またはコマンドへの応答を進めるために、装置100を使用しようとする人の確認のためにさらに評価され得る。代替的に、撮像デバイス106が音源場所の画像内で人間の顔を検出しない場合、そのソース場所から到着するオーディオ信号は、干渉音であり、人間ではないか、または装置100の注意をひくことを意図されていないとして、装置100によって無視され得る(すなわち、それは、マイクロフォン104のアレイに対向する表面から反射される人間の音声であり得、その場合、音声が装置100と通信することを意図している可能性は低い)。
【0014】
加えて、および/または代替的に、一実施形態では、撮像デバイス106は、装置100のビューで停止した個人を装置100の潜在的なユーザーとして識別するように実装され得る。そのような状況では、撮像デバイス106は、マイクロフォン104のアレイを作動させるために信号を送信し、それによって、受信されているオーディオ信号を処理し始めるように装置100に通知し得る。
【0015】
装置100は、図1に示されるように、ディスプレイ部材108をさらに含み得る。ディスプレイ部材108は、装置100のユーザーからの認識された口頭の質問またはコマンドに関連する情報を表示し得る。例えば、ディスプレイ部材108は、装置100がユーザーを正確に理解していることの視覚的な確認、装置100をさらに使用するためのユーザーが言い得る視覚的/テキスト的プロンプト、ユーザーが要求したか、またはユーザーが問い合わせた場合がある、地図、住所、輸送ルート、店舗リスト、製品、価格などの視覚的な表示を含むが、これらに限定されない情報を表示し得る。加えて、マイクロフォン104のアレイが誤動作するか、または装置100が他の方法で様々な可能性のある理由(例えば、過度の環境干渉音またはその音声、発話での、なじみのないアクセント、ユーザーまたは装置100のいずれかの不十分な言語能力、マイクロフォン104のアレイに関する機械的または電気的な問題など)でユーザーを正確に理解することができない場合、ディスプレイ部材108は、ユーザーとの通信の代替的な形態としてその中に組み込まれたタッチスクリーン技術をさらに含み得る。
【0016】
装置100の意図された使用を補完するために、他の特徴および構成要素(図示せず)が装置100に組み込まれ得る。例えば、装置100は、チケット販売/生産デバイス、製品販売/生産デバイス、ユーザーからアイテムを受け取るための貯蔵デバイス、印刷デバイスなどと対にされ得る。すなわち、装置100は、輸送ハブでの輸送チケット/バウチャの販売/印刷、輸送のピックアップの手配(例えば、タクシーまたは他の乗車サービスの要求)、食品、衣類などについての寄付コレクション、食品、飲料、消費財などの販売/生産、ギャンブル、指示または文書の印刷、店舗またはショッピングセンターでの消費者支援、キーデリバリーを伴う車両レンタルなどを含むが、これらに限定されない、様々な使用のための様々な環境に適合され得る。
【0017】
音源場所を検出する例示的な実施形態
図2は、音源場所を検出するための方法200における動作のフローチャートを示す。一実施形態では、方法200は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからオーディオ信号を受信する動作202を含む。オーディオ信号(または各マイクロフォンからの信号)を使用して、動作204で、オーディオ信号での音のそれぞれの音源場所が特定される。図3で、音源場所を特定する動作204を実行するために実行される動作を示す方法300が示される。一実施形態では、方法300は、オーディオ信号(複数可)を分析する動作302と、音のソース場所、ならびに水平のセットのマイクロフォンおよび垂直のセットのマイクロフォン、または他の方法では、マイクロフォンのアレイが具現化される装置の間のそれぞれの距離を計算する動作304と、を含み得る。本開示による一実施形態では、音源場所と装置との間の1~6フィートの距離は、音声コマンドおよび問い合わせのより正確な理解に有利であり得る。一実施形態では、動作302および304は、一緒に実行され得ることに留意されたい。最終的に、水平のアレイのマイクロフォンおよび垂直のアレイのマイクロフォンの両方からのオーディオ信号が、非常にノイズの多い環境でのターゲットの発話ソースのパン、ティルト、および距離を計算するために分析される。
【0018】
受信される音声信号(複数可)を分析する動作302を実行するために使用され得る多数の方法があり得るため、図4は、本開示の一実施形態による、マイクロフォンアレイによって受信されるオーディオ信号を分析するための方法400を示す。一実施形態では、方法400は、水平のセットのマイクロフォンに関して、オーディオ信号での音のそれぞれの音源場所に対するそれぞれの水平方向を特定する動作402を含み得る。同様に、方法400は、垂直のセットのマイクロフォンに関して、オーディオ信号での音のそれぞれの音源場所に対するそれぞれの垂直方向を特定する動作404をさらに含み得る。動作302と同様に、音源場所に対する水平方向および垂直方向を特定する複数の方法があり得る。したがって、本開示による、それぞれの方向を計算するための方法の例示的な実施形態は、本明細書でさらに論じられる。
【0019】
オーディオ信号での音についてのソース場所を特定する以外に、分析の焦点の有効性を向上させて、本明細書で「ターゲット音」と称される特定の音をよりよく理解するためにさらなるステップが取られ得る。すなわち、任意の所与の音のソースを単に見つけ出すことが可能であり得るが、機械に向けられる人間の声からの質問および発言に応答することが意図される機械は、機械を扱う人の音声などの孤立した音に焦点を合わせる改善から恩恵を受け得る。したがって、図5で、音のソース場所を特定した後に実行され得る方法500の追加の動作を示すフローチャートが示される。一実施形態では、動作502は、オーディオ信号での別個の音の別個のソース場所を選択することを含み得る。さらに、動作504で、別個の音は、オーディオ信号でのターゲット音から区別され得る。一実施形態では、本明細書に記載される装置は、わずか20ミリ秒以内に音のタイプを区別することができ得る。一実施形態では、音を区別し、どの音または音(複数)がターゲット音であり、どれが「干渉音」(すなわち、ターゲット音に干渉する音)であるかを特定するために、方法600が実行され得る。図6に示されるように、方法600は、別個の音の別個のソース場所の画像を取得する動作602を含み得る。次に、動作604で、画像が人間の顔の正面図に対応しているかどうかの画像分析プロセスを介して特定が行われる。別個のソース場所の画像が人間の顔の正面図に対応していないという特定に応答して、別個の音が干渉音として無視される動作606が実行される。他方、別個のソース場所の画像が人間の顔の正面図に対応しているという特定に応答して、音は、動作608で音声を解釈および理解するためのターゲット音としてさらに分析される。
【0020】
上に示されるように、音源場所に対する方向を特定する複数の方法が可能である。本開示による一実施形態では、図7は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンから音のそれぞれの到来方向を計算するための方法700のフローチャートを示す。図7で、システムの装置またはプロセッサは、マイクロフォンのセット(例えば、水平のセットまたは垂直のセット)のマイク0、マイク1、...~マイクNからオーディオ信号を受信する。オーディオ信号を受信すると、短時間フーリエ変換(「STFT」)が、動作702a(マイク0)、702b(マイク1)、...~702N(マイクN)で実行される。動作704で、動作702a、702b、...702NからのSTFT結果の各々に基づいて計算が行われる。より具体的には、動作704で、閾値量よりも大きい信号エネルギーを有する周波数ビンの数が計算される。動作706で、方法700は、周波数ビンの数が閾値量よりも大きいかどうかを特定する。周波数ビンの数が閾値量を超える場合、プロセスは、動作708で、大きさの正規化および1つ以上の重み係数を適用することによって続く。
【0021】
動作708の重み係数は、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる係数と、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる係数と、を含み得る。上記の重み係数の一方または両方を適用すると、ビームフォーマ出力電力および空間領域での出力電力のピークの信頼比を計算することによって、動作710が実行される。本開示で使用されるビームフォーマアルゴリズムは、音源位置測定のために頻繁に使用されるステアリング応答電力位相変換(SRP-PHAT)に基づくが、これに限定されない。しかしながら、本開示の一実施形態では、アルゴリズムは、上で論じられる重み係数で修正されることによって、改善された場所検出について向上される。したがって、結果は、SRP-PHATの従来の使用と比較したとき、ターゲット音を分離することができるように、向上した結果をノイズの多い環境に提供する。
【0022】
方法700の動作712で、(動作710からの結果の)ピーク/平均が閾値よりも大きいかどうかが特定される。ピーク/平均が閾値よりも大きいことに応答して、ピークに対応する相対的な角度および距離が出力される動作714が生じる。さらに、周波数ビンの数が閾値以下であるか、またはピーク/平均が閾値以下であるという特定に応答して、方法700は、計算プロセスが終了する動作716に続く。
【0023】
重み係数で修正されるようなSRP-PHATを使用する実施形態では、次のように、フィルタおよび合計のビームフォーマ出力の電力Pを最大化する候補場所qを特定するために式(1)が解かれる。
【数1】
【0024】
これを達成するために、式(1)の構成要素が次のように説明される。まず、マイクロフォンアレイ信号のフィルタおよび合計のビームフォーマ出力T(ω)が、周波数領域信号を生成するために式(2)を使用して特定される。
【数2】
【0025】
式(2)での様々な変数は次のとおりであり、ωがラジアンでの周波数であり、*が複素共役を示し、Nがアレイでのマイクロフォンの数であり、
【数3】
が周波数領域での重み関数であり、Xl(ω)がマイクロフォンl(例えば、周波数領域での第l番目のマイクロフォン信号)でのマイクロフォン信号のフーリエ変換であり、△が候補ソース場所に向かう第l番目のマイクロフォンのステアリングベクトルであることに留意されたい。さらに、
【数4】
【0026】
その上、上で論じられるように、重み係数w1(ω)およびw2(ω)は、結果を向上させるために考慮される。例えば、より高い信号対ノイズ比(SNR)を有する信号は、より重く重み付けされ得、人間の発話のスペクトルが低周波数に偏っているため、最も低い周波数を有する信号は、より重く重み付けされ得る。したがって、w1(ω)およびw2(ω)は、次のように定義され得る。
【数5】
ここで、N(ω)は、第k番目のマイクロフォンのノイズスペクトルである。
【数6】
【0027】
最後に、ソース推定場所は、次のように、式(6)を使用して見出される。
【数7】
【0028】
要約すると、信号の1次導関数は、各マイクロフォンの間の音声到来の時間差を取得するために周波数領域で取得される。次いで、音声の入射の方向を取得するために、座標変換が使用される。次いで、周波数領域で信号の2次導関数を導出し、マイクロフォンアレイからのターゲット発話の距離を計算する。
【0029】
上記のような修正されたSRP-PHATを使用して、本開示に従ってマイクロフォンアレイによって捕捉される例示的な音源の各方向(すなわち、水平および垂直)での電力出力は、極座標プロット800としてプロットされるとき、図8に示されるように現れ得る。図8の例では、極座標プロットでの有意な、目に見えるスパイク802に基づいて、約75度での音源であるように見える。その上、2つ以上の音源が同じ音場で検出される場合、極座標プロットで2つ以上の対応するスパイクが現れる。ピークの高さは、バックグラウンドノイズのタイプのインジケータとして使用され得る。例えば、ポイントソースノイズフィールドは通常、非常に高い/鋭いピークを生成するが、拡散ソースノイズフィールドは、低い明らかなピークを生成するか、または明らかなピークさえ生成しない場合がある。特に、ピークの高さの分析は、次の理由で有利であり得る。A)ピークの高さの分析は、バックグラウンドノイズ推定器(「BNE」)の性能を向上させ得る。従来のBNEは、時間の経過とともに最小値を見つけるために、時間情報およびスペクトル情報を使用するだけである。対照的に、本出願では、ピークの高さは、3番目のパラメータとして使用される。ピークの高さが大きい場合、これは、プロセスを遅くする。すなわち、BNE適応レート/速度は、ピークの高さに反比例する。したがって、このステップは、全体の角度検出アルゴリズムの感度を向上させるのに有利である。B)ピークの高さはまた、発話強調目的でビームフォーマによって使用され得る。最小分散無歪応答(「MVDR」)ビームフォーマなどのよく知られた発話強調ビームフォーミングアルゴリズムは、例えば、ノイズ共分散行列をより適切に推定するという観点でノイズフィールドの変化を追跡するときに、よりよい性能を達成するためにピークの高さの情報を使用し得る。例えば、地下鉄の駅でのノイズフィールドは、ポイントノイズフィールド(例えば、単一の干渉者が話している)から拡散ノイズフィールド(例えば、多くの人が話している)に急速に変化し得る。ノイズ共分散行列を推定する際の適応レートは、ビームフォーマアルゴリズムでのピークの高さによって現在反映されている、ノイズフィールド変化に追いつくのに十分な大きさに設定されるべきである。
【0030】
本開示による、音源への方向の角度および音源からの距離を計算する代替的な実施形態では、図9は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンから音のそれぞれの到来方向を計算するための方法900のフローチャートを示す。図9に関して以下に記載される方法900に関連付けられた投票アルゴリズムは、図7に関する上記の方法700に関連付けられたアルゴリズムよりもロバストであり、複雑さが低い場合があることが企図される。
【0031】
図9で、図7の方法の始まりと同様に、マイクロフォンのセット(例えば、水平のセットまたは垂直のセット)のマイク0、マイク1、...~マイクNからオーディオ信号を受信する。オーディオ信号を受信すると、STFTが、動作902a(マイク0)、902b(マイク1)、...~902N(マイクN)で実行される。それぞれの周波数ビンで十分な信号エネルギーがある場合、各周波数ビンが角度について1つの票を有するため、動作904で、周波数ビンが信号を含むかどうかを特定するために、動作902a、902b、...~902NからのSTFT結果の各々に基づいて評価が行われる。
【0032】
動作904で周波数ビンが信号を含むという特定に応答して、方法900は、距離を想定して、関心のあるすべての角度を通じてスキャンし、すべての可能性のある候補角度の間でステアリング電力を計算することによって動作906を進める。周波数ビンが投票する角度が、最大ステアリング電力を見つけることによって取得されるため、動作908で、最大電力が、すべての角度の間で特定され、対応する角度(「最大電力についての角度」)が、それに関連付けられる。ステアリング電力応答は、遅延および合計のビームフォーマ計算でのマイクロフォンアレイの電力出力であるように定義されることに留意されたい。
【0033】
動作910で、最大電力の角度についての票は、重み係数で蓄積される。重み係数は、上で論じられる重み係数のように、周波数の信号ノイズ比(SNR)、および周波数自体の値であり得る。動作912で、プロセッサは、次の周波数ビンに移る(繰り返し)。動作914で、プロセッサは、すべての周波数ビンが動作906~910を通じてスキャンおよび処理されたかどうかを特定する。すべての周波数ビンが、動作906~910を通じてスキャンおよび処理されたわけではないという特定に応答して、プロセスは、動作904に戻って、次の周波数ビンを続ける。その上、周波数ビンが信号を含まないという動作904での特定に応答して、プロセスは、動作906~910をスキップし、動作912に進む。最後に、すべての周波数ビンがスキャンおよび処理されたという特定に応答して、方法900は、動作916に進み、ここで、装置に関して音源に対する推定角度を特定するために、最大電力の角度についての最大の票の特定が行われる。すなわち、音源場所からの信号の全体的なDOAは、最も多くの票を受け取る角度であるように特定される。次いで、動作918で、推定角度に沿ったすべての候補距離が、対応するステアリング電力を計算するためにスキャンされる。推定角度に沿った最大電力に対応する距離は、音信号のソースまでの推定距離であるように特定される。言い換えれば、各周波数ビンは、どの角度が最大電力を生成するかを見つけることによって角度について投票し、例えば、図10に示されるように、周波数500Hzは、約80度の角度について投票する。図11で、周波数8000Hzは、約95度の角度について投票する。アルゴリズムは、すべての周波数を介してループし、次いで、どの角度が最大票を有するかを見つける。
【0034】
特に、異なる周波数ビンは、周波数ビンおよびそれぞれの周波数自体のSNRによって重み付けされた、異なる票を有し得る。さらに、重み付けルールは、音源信号のDOAを見つける際の精度および感度の観点で重要な役割を果たし得る。例えば、一実施形態では、音源場所の方向検出は、約0.5度の精度誤差許容度を有するほど十分に有効であり得る。
【0035】
図10図11、および図12に示される極座標プロット1000、1100、および1200はそれぞれ、例示的な構造配置として40mm離間した8つの全方向性マイクロフォンのアレイによって受信される音信号のソースに対する推定角度を示すプロットである。極座標プロット1000および1100はそれぞれ、500Hzおよび8000Hzでのステアリング電力に関してプロットされているが、極座標プロット1200は、票の数に関してプロットされていることに留意されたい。極座標プロット1200は、マイクロフォンアレイを有する装置からの音源に対する推定角度が、この例示的な配置では約95度であることを容易に示す。さらに、図13は、上記の方法900を使用して計算される電力に対する音源までの距離のグラフ1300を示す。一実施形態では、以前に特定された角度推定に少なくとも部分的に基づいて、音源までの距離は、すべての候補距離の中で角度に沿った最大ステアリング電力を見つけることによって推定され得る。したがって、グラフ1300は、マイクロフォンアレイを有する装置からの音源までの距離が、この例では約2.1メートルであることを示す。
【0036】
図14は、音源場所を検出するための本開示に関して論じられる方法を実行するために使用され得るコンピューティングシステム1400の例示的な概略図を示す。具体的には、コンピューティングシステム1400は、1つ以上のプロセッサ1402と、1つ以上のプロセッサ1402に、音源場所を検出するための1つ以上の方法を実行させる命令を含むメモリ1404と、を含み得る。1つ以上の入力/出力インターフェース(「I/Oインターフェース」)1406は、マイクロフォン1408のアレイとインターフェース接続するために含まれ得る。マイクロフォン1408のアレイは、水平のセットのマイクロフォン1410と、垂直のセットのマイクロフォン1412と、を含み得る。一実施形態では、コンピューティングシステム1400は、1つ以上のI/Oインターフェース1406を介して1つ以上のプロセッサ1402と通信可能に結合された撮像デバイス1414および/またはディスプレイデバイス1416をさらに含み得る。メモリ1404は、装置の情報および/または製品に関する情報を含む装置データストア1418を含み得る。メモリ1404は、装置および/もしくはコンピューティングシステム1400の性能を向上させるのに使用するための、ならびに/または統計分析のためなどの以前の分析データなどの情報を含む、分析情報データストア1420をさらに含み得る。
【0037】
分析情報データストア1420は、1つ以上のI/Oインターフェース1406から受信される入力に基づいて計算を実行する分析ユニット1422と通信する。
【0038】
メモリ1404は、ランダムアクセスメモリ(RAM)などの揮発性メモリおよび/または読み取り専用メモリ(ROM)もしくはフラッシュRAMなどの不揮発性メモリの形態でのコンピュータ可読媒体を含み得る。メモリ1404は、コンピュータ可読媒体の例である。
【0039】
コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のための任意の方法または技術で実装される、揮発性および不揮発性、取り外し可能媒体および非取り外し可能媒体を含む。コンピュータ記憶媒体の例には、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピューティングデバイスによるアクセスのための情報を記憶するために使用され得る任意の他の非伝送媒体が含まれるが、これらに限定されない。本明細書で定義されるように、コンピュータ可読媒体は、変調されたデータ信号および搬送波などの一時的な媒体を含まない。
【0040】
例示の節
A:ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、ハウジングと、ハウジングとともに配置されたマイクロフォンのアレイであって、直線的に整列された水平のセットのマイクロフォンと、直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、マイクロフォンのアレイと通信可能に結合された1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると1つ以上のプロセッサに、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからターゲット音を含むオーディオ信号を受信することと、装置に関するオーディオ信号でのターゲット音のソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、ターゲット音のソース場所に対する水平方向を特定することと、垂直のセットのマイクロフォンに関して、ターゲット音のソース場所に対する垂直方向を特定することと、を含む、分析することと、ターゲット音のソース場所と装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。
B:オーディオ信号が、ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも1つの別個の音をさらに含み、動作が、装置に関するオーディオ信号での別個の音の別個のソース場所を特定することと、別個の音をターゲット音から区別することと、をさらに含む、段落Aに記載の装置。
C:別個の音をターゲット音から区別することが、別個の音の別個のソース場所の画像を取得することと、画像が人間の顔の正面図に対応しているかどうかを特定することと、画像が人間の顔の正面図に対応していないという特定に応答して、別個の音を干渉音として無視することと、を含む、段落A~Bのいずれかに記載の装置。
D:ターゲット音のソース場所に対する水平方向を特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、水平候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落A~Cのいずれかに記載の装置。
E:ターゲット音のソース場所に対する垂直方向を特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、垂直候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落A~Dのいずれかに記載の装置。
F:オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落A~Eのいずれかに記載の装置。
G:オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落A~Fのいずれかに記載の装置。
H:オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、適応レートが、オーディオ信号のピークの高さに依存する、段落A~Gのいずれかに記載の装置。
I:オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンからオーディオ信号を受信するように構成された、1つ以上のプロセッサと、1つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると1つ以上のプロセッサに、水平のセットのマイクロフォンから、および垂直のセットのマイクロフォンから、オーディオ信号を受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。
J:オーディオ信号での音が、干渉音と、ターゲット音と、を含み、動作が、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンに関して、干渉音およびターゲット音のそれぞれのソース場所を特定することと、画像分析を介して、干渉音をターゲット音から区別することと、をさらに含む、段落Jに記載のシステム。
K:動作が、ターゲット音の理解を最適化し、干渉音からの干渉を最小化するために、音のそれぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、段落I~Jのいずれかに記載のシステム。
L:音のソース場所に対する水平方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、水平候補場所が、水平のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落I~Kのいずれかに記載のシステム。
M:音のソース場所に対する垂直方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、垂直候補場所が、垂直のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落I~Lのいずれかに記載のシステム。
N:オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比(SNR)特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落I~Mのいずれかに記載のシステム。
O:オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落I~Nのいずれかに記載のシステム。
P:オーディオ信号での音のそれぞれのソース場所を検出する方法であって、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介してオーディオ信号を受信することであって、水平のセットのマイクロフォンが、直線的に整列されており、垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。
Q:オーディオ信号での音のソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、段落Pに記載の方法。
R:オーディオ信号での音における音が、干渉音またはターゲット音であるかを特定することと、任意の干渉音を無視することと、をさらに含む、段落P~Qのいずれかに記載の方法。
S:音声認識を実行し、ターゲット音の意味を解読するために、ターゲット音をプロセッサに送信することをさらに含む、段落P~Rのいずれかに記載の方法。
T:音が干渉音またはターゲット音であるかを特定することが、わずか20ミリ秒で区別可能である、段落P~Sのいずれかに記載の方法。
【0041】
結論
いくつかの実施形態は、構造的特徴および/または方法論的動作に特有の文言で説明してきたが、特許請求の範囲は、必ずしも説明される特定の特徴または動作に限定されるものではないことを理解されたい。むしろ、特定の特徴および動作は、特許請求された主題を実装する例示的な形態として開示されている。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14