特許7114752 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

特許7114752音源場所検出のための方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-07-29

(45)【発行日】2022-08-08

(54)【発明の名称】音源場所検出のための方法および装置

(51)【国際特許分類】

H04R 3/00 20060101AFI20220801BHJP

H04R 1/40 20060101ALI20220801BHJP

G10K 11/34 20060101ALI20220801BHJP

G10L 25/51 20130101ALI20220801BHJP

G10L 21/0216 20130101ALI20220801BHJP

H04N 5/232 20060101ALI20220801BHJP

G01S 5/20 20060101ALI20220801BHJP

【ＦＩ】

H04R3/00 320

H04R1/40 320A

G10K11/34 130

G10L25/51 400

G10L21/0216

H04N5/232 060

H04N5/232 990

G01S5/20

【請求項の数】 20

(21)【出願番号】P 2020573164

(86)(22)【出願日】2018-12-14

(65)【公表番号】

(43)【公表日】2021-12-02

(86)【国際出願番号】 US2018065716

(87)【国際公開番号】W WO2020032992

(87)【国際公開日】2020-02-13

【審査請求日】2021-12-10

(31)【優先権主張番号】16/056,386

(32)【優先日】2018-08-06

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】510330264

【氏名又は名称】アリババ・グループ・ホールディング・リミテッド

【氏名又は名称原語表記】ＡＬＩＢＡＢＡＧＲＯＵＰＨＯＬＤＩＮＧＬＩＭＩＴＥＤ

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100205785

【弁理士】

【氏名又は名称】▲高▼橋史生

(72)【発明者】

【氏名】ジンウェイ・フェン

(72)【発明者】

【氏名】タオ・ユ

【審査官】辻勇貴

(56)【参考文献】

【文献】特開２００９－１９９１５８（ＪＰ，Ａ）

【文献】特開２００３－３０４５８９（ＪＰ，Ａ）

【文献】特開２０００－１３４６８８（ＪＰ，Ａ）

【文献】特開２０１１－１２４７４９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ３／００

Ｈ０４Ｒ１／４０

Ｇ１０Ｋ１１／３４

Ｇ１０Ｌ２５／５１

Ｇ１０Ｌ２１／０２１６

Ｈ０４Ｎ５／２３２

Ｇ０１Ｓ５／２０

(57)【特許請求の範囲】

【請求項1】

ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、前記ターゲット音が音声認識するための音声コマンドを含み、
ハウジングと、
前記ハウジングとともに配置されたマイクロフォンのアレイであって、
直線的に整列された水平のセットのマイクロフォンと、
直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、
マイクロフォンの前記アレイと通信可能に結合された１つ以上のプロセッサと、
前記１つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記１つ以上のプロセッサに、
前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンから前記ターゲット音を含むオーディオ信号を受信することと、
前記装置に関する前記オーディオ信号での前記ターゲット音のソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記ターゲット音の前記ソース場所に対する垂直方向を特定することと、を含む、分析することと、
前記ターゲット音の前記ソース場所と前記装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。

【請求項2】

前記オーディオ信号が、前記ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも１つの別個の音をさらに含み、
前記動作が、
前記装置に関する前記オーディオ信号での前記別個の音の前記別個のソース場所を特定することと、
前記別個の音を前記ターゲット音から区別することと、をさらに含む、請求項１に記載の装置。

【請求項3】

前記別個の音を前記ターゲット音から区別することが、
前記別個の音の前記別個のソース場所の画像を取得することと、
前記画像が人間の顔の正面図に対応しているかどうかを特定することと、
前記画像が人間の顔の正面図に対応していないという特定に応答して、前記別個の音を干渉音として無視することと、を含む、請求項２に記載の装置。

【請求項4】

前記ターゲット音の前記ソース場所に対する前記水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、前記水平候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項１に記載の装置。

【請求項5】

前記ターゲット音の前記ソース場所に対する前記垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、前記垂直候補場所が、前記装置の位置に関する前記ターゲット音の前記ソース場所の配向の角度測定の表現である、請求項１に記載の装置。

【請求項6】

前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比（ＳＮＲ）特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項１に記載の装置。

【請求項7】

前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項１に記載の装置。

【請求項8】

前記オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、
適応レートが、前記オーディオ信号のピークの高さに依存する、請求項１に記載の装置。

【請求項9】

オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンから前記オーディオ信号を受信するように構成された、１つ以上のプロセッサと、
前記１つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると前記１つ以上のプロセッサに、
前記水平のセットのマイクロフォンから、および前記垂直のセットのマイクロフォンから、前記オーディオ信号を受信することと、
前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。

【請求項10】

前記オーディオ信号での前記音が、干渉音と、ターゲット音と、を含み、
前記動作が、
前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンに関して、前記干渉音および前記ターゲット音の前記それぞれのソース場所を特定することと、
画像分析を介して、前記干渉音を前記ターゲット音から区別することと、をさらに含む、請求項９に記載のシステム。

【請求項11】

前記動作が、前記ターゲット音の理解を最適化し、前記干渉音からの干渉を最小化するために、前記音の前記それぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、請求項１０に記載のシステム。

【請求項12】

前記音の前記それぞれのソース場所に対する前記それぞれの水平方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、前記水平候補場所が、前記水平のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項９に記載のシステム。

【請求項13】

前記音の前記それぞれのソース場所に対する前記それぞれの垂直方向を特定することが、前記オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、前記垂直候補場所が、前記垂直のセットのマイクロフォンに関する前記音の前記ソース場所の配向の角度測定として計算される、請求項９に記載のシステム。

【請求項14】

前記オーディオ信号を分析することが、前記オーディオ信号の最も高い信号対ノイズ比（ＳＮＲ）特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項９に記載のシステム。

【請求項15】

前記オーディオ信号を分析することが、前記オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、請求項９に記載のシステム。

【請求項16】

オーディオ信号での音のそれぞれのソース場所を検出する方法であって、前記オーディオ信号での音が、音声認識するための音声コマンドを含むターゲット音を含み、
水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介して前記オーディオ信号を受信することであって、前記水平のセットのマイクロフォンが、直線的に整列されており、前記垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、
前記オーディオ信号での前記音の前記それぞれのソース場所を特定することであって、
前記オーディオ信号を分析することであって、
前記水平のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの水平方向を特定することと、
前記垂直のセットのマイクロフォンに関して、前記音の前記それぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、
前記音の前記それぞれのソース場所と、前記水平のセットのマイクロフォンおよび前記垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。

【請求項17】

前記オーディオ信号での前記音の前記ソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、請求項１６に記載の方法。

【請求項18】

前記オーディオ信号での前記音における音が、干渉音またはターゲット音であるかを特定することと、
任意の干渉音を無視することと、をさらに含む、請求項１６に記載の方法。

【請求項19】

音声認識を実行し、前記ターゲット音の意味を解読するために、前記ターゲット音をプロセッサに送信することをさらに含む、請求項１８に記載の方法。

【請求項20】

音が干渉音またはターゲット音であるかを特定することが、わずか２０ミリ秒で区別可能である、請求項１８に記載の方法。

【発明の詳細な説明】

【背景技術】

【0001】

関連出願の相互参照
本出願は、２０１８年８月８日出願の「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＳＯＵＮＤＳＯＵＲＣＥＬＯＣＡＴＩＯＮＤＥＴＥＣＴＩＯＮ」と題する米国特許出願第１６／０５６，３８６号の優先権を主張し、それは、その全体で参照によって本明細書に組み込まれる。

【0002】

現代では、人件費を低減し、生産性を向上させ、身体的および／または精神的な障害および制限を有する人を含む様々な個人へのアクセシビリティを向上させる自動化技術の提供に大きく重点が置かれている。上記の利点を達成するのに役立ち得る技術分野の１つは、人間の音声コマンドを聞いて応答することができる機械である。現在、音声作動可能な機械は、多数のタスクを実行することができる。しかしながら、ノイズの多い環境などのいくつかの状況では、これらの機械は、与えられるコマンドを適切に処理するために、音声または音のソースの場所を検出するのが困難である。

【0003】

音のソースの場所を特定することは、一般的に、周囲のノイズに満ちた環境の中でさえ、通常の聴覚および音響処理能力を有する人間にとってかなり単純なプロセスである。すなわち、類似の別個の音の混合物が複数のソースによって生成されている環境で、平均的な人間は、聴覚および視覚による手がかりを使用して、別個の重要でないノイズを精神的にフィルタリングし、次いで、音を発している方向に自らの体を向けることによって、ターゲット音のソースを見つけ出す能力を有する。

【0004】

対照的に、ノイズに満ちた環境で、単一のマイクロフォンを有する機械は、多くの理由でターゲット音源（例えば、コマンドを与える人間の音声）の場所を検出するのが困難である。例えば、単一のマイクを使用する機械は、人間のバイノーラル聴覚機構とは異なり、音源の入射角および距離を知ることができない。加えて、例えば、固定された指向性マイクロフォンさえ有する固定の機械も、より良好に音を拾うためにそれ自体を再配向することができない。さらに、混雑した地下鉄の駅、電車の駅、空港、カジノ、イベントスタジアム、大都市のストリートなどの環境で、意図的に機械で直接音波を発する場合でさえ、機械が、意図せずに直接向けられる複数の音波を受信する可能性が強い。例えば、地下鉄の駅で、個人が、機械の近くに立ってコマンドを与えている場合がある一方で、同時に、通行人または傍観者もまた、機械に向かいながら居合わせて話している場合がある。加えて、到着する地下鉄の車の機械的な音、ライブまたは駅のスピーカー上で再生されている音楽、情報のアナウンス、フロア上を移動する人々の音などの、機械に反射または向けられている他の周囲のノイズが存在し得る。環境でのこれらの組み合わされた音のすべてが、機械に対して意図されるコマンドを与える個人の発話を妨害し、曖昧にし得る。そのように、機械は、どの音に焦点を合わせるかを決定するのが困難であり得、その後、リスニング手順を終了し得る。要約すると、固定されたマイクロフォンを有する機械は、人間のバイノーラル聴覚能力、精神的なフィルタリング機構、および発話源を見つけ出すための再配向モビリティを欠いている。

【0005】

したがって、向上した機械の音源場所特定能力が望まれる。

【図面の簡単な説明】

【0006】

発明を実施するための形態は、添付の図面を参照して述べられる。図面では、参照番号の左端の数字（複数可）は、参照番号が最初に現れる図面を示す。異なる図面における同じ参照番号の使用は、類似または同一の項目を示す。

【図1】本開示の一実施形態による、音源場所を検出するための装置を示す。

【図2】本開示の一実施形態による、音源場所を検出するための方法のフローチャートを示す。

【図3】本開示の一実施形態による、オーディオ信号中の音の音源場所を特定するための方法のフローチャートを示す。

【図4】本開示の一実施形態による、オーディオ信号を分析するための方法のフローチャートを示す。

【図5】本開示の一実施形態による、音源場所を検出するための方法における追加のステップまたは動作のフローチャートを示す。

【図6】本開示の一実施形態による、音源場所を検出するための方法における追加のステップまたは動作のフローチャートを示す。

【図7】本開示の一実施形態による、マイクロフォンのアレイへの音の到来方向（ＤＯＡ）を特定する方法のフローチャートを示す。

【図8】図７の方法を使用して行われる特定による、音源場所特定技術の一例の極座標プロットを示す。

【図9】本開示の一実施形態による、マイクロフォンのアレイへの音の到来方向（ＤＯＡ）を特定する代替的な方法のフローチャートを示す。

【図10】１つの周波数について図９の方法を使用して行われる特定による、音源場所特定技術の一例の５００Ｈｚでの極座標プロットを示す。

【図11】１つの周波数について図９の方法を使用して行われる特定による、音源場所特定技術の一例の８０００Ｈｚでの極座標プロットを示す。

【図12】図９の方法を使用して行われる特定による、音源場所特定技術の一例の投票アルゴリズムを使用する極座標プロットを示す。

【図13】図９の方法を使用して行われる特定による、音源場所特定技術の一例の距離グラフを示す。

【図14】本開示の一実施形態による、コンピューティングデバイスの概略図を示す。

【発明を実施するための形態】

【0007】

概要
本開示は、電子的手段を介した、向上した音（例えば、音声など）のソース場所検出のための装置、システム、および方法を対象とする。人間の発話などの音を「聞いて」解釈し得る機械の概念は数十年間存在していたが、近年、いくつかの企業が、特に、発話を通じて直接人間と対話するように構成されたデバイスを開発した。状況に応じて明らかな制限があることを理解すると、人間は一般的に、干渉ノイズがある雰囲気で、人間の音声などの特定の音を識別することができる。さらに、人間は一般的に、特定の音のソースを見つけ出すために、自らの体を容易に再配向する能力を有する。対照的に、人間が音を聞いて処理する方法を、機械が音を受信する方法と比較した違いにより、同じ環境を考慮すると、どの音がどの方向から来たのか、さらに、機械がどの音（または音声）に焦点を合わせるべきかを特定することの課題により、機械は、同じ音を理解して解釈するのに苦労し得る。したがって、本開示は、ノイズの多い環境からオーディオ信号を取り入れ、音を解析するための機械の能力に関する。一実施形態では、機械は、人間の音声を含むオーディオ信号を受信し、信号内のどのノイズが人間の音声に対応しているかを特定して、人間の音声からのコマンドに注意を払い解釈し得る。

【0008】

本明細書で以下に説明するように、本出願の一実施形態は、実行されると、機械に動作（例えば、操作、ステップなど）を実行させる１つ以上のプロセッサを有する機械で具現化され得る。本出願の目的で、機械の１つ以上のプロセッサによって実行されている動作の任意の考察または詳述は、動作が、機械の場所で、機械の１つ以上のプロセッサによって直接実行され得るという可能性、ならびに実行された動作のうちの１つ以上が、ネットワークを介して機械と通信する１つ以上のリモートプロセッサおよび／またはサーバによって実行され得るという可能性を含むことに留意されたい。言い換えれば、本開示に従って実行される動作のうちの１つ以上は、機械の１つ以上のプロセッサによって処理のために信号送信されるか、または処理のために初期化されて、リモートプロセッサ／サーバによって実際に実行され、次いで、その結果は、リモートプロセッサ／サーバから機械に中継されて戻され得る。例えば、本開示の機械の一実施形態は、機械でのロバストな処理能力の必要性が最小限にされるように、クラウドコンピューティングサービスまたは他のリモートベースの処理センターに接続され得る。

【0009】

音源場所検出のための装置の例示的な実施形態
図１に示されるような実施形態では、オーディオ信号で音のそれぞれのソース場所を検出するための装置１００は、装置１００の構成要素を収容および／または支持するためのハウジング１０２を含み得る。装置１００は、装置が配置された周囲環境からオーディオ信号を取り入れるために使用されるマイクロフォン１０４（本明細書では「マイク」または「マイク（複数）」とも称され、図７を参照、例えば、「マイク０」、マイク１、「マイクＮ」）のアレイを含む。マイクロフォン１０４のアレイは、水平配向に直線的に整列された第１のセットのマイクロフォン１０４ａと、垂直配向に直線的に整列された第２のセットのマイクロフォン１０４ｂと、を含み得る。さらに、一実施形態では、水平配向に直線的に整列された第１のセットのマイクロフォン１０４ａは、装置を扱うためにユーザーが位置付けられる可能性のある位置に整列され得るように、装置１００の上側に中央に配置された位置に配置され得る。加えて、垂直配向に直線的に整列された第２のセットのマイクロフォン１０４ｂは、装置１００の横方向エッジに沿った位置に配置され得、垂直の距離に関して、第２のセットのマイクロフォン１０４ｂは、装置の撮像デバイス（以下を参照）、すなわち、撮像デバイスを有する装置の実施形態に対して、地面よりも近い場合がある。

【0010】

図１は、２つのセットのマイクロフォンのみを示しているが、追加のセットのマイクロフォンが組み込まれ得ることが企図されることに留意されたい。追加のセットのマイクロフォンが組み込まれる場合、１つ以上の追加のセットが、直線的に整列されるか、曲線に整列されるか、または他の方法で整列され得、水平方向に配向され、垂直方向に配向され、および／または対角方向に配向され得ることがさらに企図される。その上、本開示の目的で、「マイクロフォンのセット」に関して述べられるような「セット」という用語は、所定の位置で配向され、オーディオ信号分析の目的で一緒にグループ化される少なくとも２つ以上のマイクロフォンとして定義され得る。

【0011】

マイクロフォン１０４のアレイによって受信されるオーディオ信号の分析に関して、一実施形態では、マイクロフォンのセット（例えば、水平のセット１０４ａ、垂直のセット１０４ｂ）内の各マイクロフォンから受信されるオーディオ信号は、セット内の任意の他のマイクロフォンから独立して分析され得る。すなわち、マイクロフォン（例えば、マイク０、マイク１、マイク２、．．．マイクＮ）のセットからのオーディオ信号が依然として、垂直または水平のセットのマイクロフォンとして集合的に分析され得るが、セット内の個々のマイクロフォンによって受信されるオーディオ信号は、セット内の他の隣接するマイクロフォンから独立して考慮され得る。代替的な実施形態では、第１および／または第２のセットのマイクロフォン１０４ａ、１０４ｂ内で、ユーザーは、必要があれば、マイクロフォンのサブセットを定義し得る。例えば、マイクロフォンのセットに合計８つのマイクロフォンが含まれることとし、セットは、サブセットごとに４つまたは２つのマイクロフォンのさらなる細区分を有し得る。これらのサブセットは、サブセット内のマイクロフォンが、マイクロフォンのセット内の異なるサブセットの他のマイクロフォンよりも各々比較的近くにグループ化され得るように配置され得る。加えて、および／または代替的に、セット内のマイクロフォンのサブセットは、サブセットの間の間隔がサブセット内の個々のマイクロフォンの間の間隔よりも大きい場合があるサブセットで物理的にグループ化されるのではなく、分析目的でのみ「グループ化」され得る。すなわち、セット内のすべてのマイクロフォンが直線的に整列され、実質的に等しく離間している場合でさえ、受信されたオーディオ信号の分析は、マイクロフォンの分析の「サブセット」（例えば、マイク０およびマイク１がサブセットであり、マイク２およびマイク３がサブセットであるなど）を使用して実行され得る。

【0012】

マイクロフォン１０４のアレイに加えて、一実施形態では、装置１００は、装置１００の周囲の環境を見るために実装され、音源場所を特定するのを支援し得る撮像デバイス１０６（例えば、静止画カメラ、ビデオカメラ、熱撮像装置など）を含み得る。装置１００上の特定の位置が有利であり得るが、撮像デバイス１０６の場所は変化し得る。加えて、撮像デバイス１０６は、１）音の到来方向（ＤＯＡ）を特定するのを支援し、２）人または物体から音を発しているかどうかを特定するのを支援し、３）装置に送出されているコマンドに関して、オーディオ信号の意図を解釈および／または検証するのを支援するように、配向を変更し、および／またはビューに焦点を合わせるように制御可能であり得る。例えば、本開示による装置は、混雑した、ノイズの多い地下鉄または電車のターミナルでの情報またはチケット販売キオスクとして実装され得る。人がキオスクを使用するために歩いていくとき、キオスクを使用しようとする人の音声と混ざり合った、マイクロフォン１０４のアレイに到着する干渉音があり得る。（本明細書でさらに論じられるように）装置１００がマイクロフォン１０４のアレイによって受信されているオーディオ信号を分析し始めると、装置１００は、撮像デバイス１０６を作動させて、検出されている音源場所を見て、特定の音源場所での画像が装置１００を使用する人の場所を示しているかどうかを特定し得る。特に、撮像デバイス１０６は、装置１００で制御をプログラムすることによって自動的に制御され得、および／または撮像デバイス１０６は、撮像デバイス１０６が通信可能に結合され得るネットワーク上で送信されるコマンドを介して電子的または手動の手段によってリモートで制御され得る。

【0013】

したがって、撮像デバイス１０６が音源場所の画像で人間の顔を検出する場合、その場所での画像およびその音源場所から到着するオーディオ信号は、人の質問またはコマンドへの応答を進めるために、装置１００を使用しようとする人の確認のためにさらに評価され得る。代替的に、撮像デバイス１０６が音源場所の画像内で人間の顔を検出しない場合、そのソース場所から到着するオーディオ信号は、干渉音であり、人間ではないか、または装置１００の注意をひくことを意図されていないとして、装置１００によって無視され得る（すなわち、それは、マイクロフォン１０４のアレイに対向する表面から反射される人間の音声であり得、その場合、音声が装置１００と通信することを意図している可能性は低い）。

【0014】

加えて、および／または代替的に、一実施形態では、撮像デバイス１０６は、装置１００のビューで停止した個人を装置１００の潜在的なユーザーとして識別するように実装され得る。そのような状況では、撮像デバイス１０６は、マイクロフォン１０４のアレイを作動させるために信号を送信し、それによって、受信されているオーディオ信号を処理し始めるように装置１００に通知し得る。

【0015】

装置１００は、図１に示されるように、ディスプレイ部材１０８をさらに含み得る。ディスプレイ部材１０８は、装置１００のユーザーからの認識された口頭の質問またはコマンドに関連する情報を表示し得る。例えば、ディスプレイ部材１０８は、装置１００がユーザーを正確に理解していることの視覚的な確認、装置１００をさらに使用するためのユーザーが言い得る視覚的／テキスト的プロンプト、ユーザーが要求したか、またはユーザーが問い合わせた場合がある、地図、住所、輸送ルート、店舗リスト、製品、価格などの視覚的な表示を含むが、これらに限定されない情報を表示し得る。加えて、マイクロフォン１０４のアレイが誤動作するか、または装置１００が他の方法で様々な可能性のある理由（例えば、過度の環境干渉音またはその音声、発話での、なじみのないアクセント、ユーザーまたは装置１００のいずれかの不十分な言語能力、マイクロフォン１０４のアレイに関する機械的または電気的な問題など）でユーザーを正確に理解することができない場合、ディスプレイ部材１０８は、ユーザーとの通信の代替的な形態としてその中に組み込まれたタッチスクリーン技術をさらに含み得る。

【0016】

装置１００の意図された使用を補完するために、他の特徴および構成要素（図示せず）が装置１００に組み込まれ得る。例えば、装置１００は、チケット販売／生産デバイス、製品販売／生産デバイス、ユーザーからアイテムを受け取るための貯蔵デバイス、印刷デバイスなどと対にされ得る。すなわち、装置１００は、輸送ハブでの輸送チケット／バウチャの販売／印刷、輸送のピックアップの手配（例えば、タクシーまたは他の乗車サービスの要求）、食品、衣類などについての寄付コレクション、食品、飲料、消費財などの販売／生産、ギャンブル、指示または文書の印刷、店舗またはショッピングセンターでの消費者支援、キーデリバリーを伴う車両レンタルなどを含むが、これらに限定されない、様々な使用のための様々な環境に適合され得る。

【0017】

音源場所を検出する例示的な実施形態
図２は、音源場所を検出するための方法２００における動作のフローチャートを示す。一実施形態では、方法２００は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからオーディオ信号を受信する動作２０２を含む。オーディオ信号（または各マイクロフォンからの信号）を使用して、動作２０４で、オーディオ信号での音のそれぞれの音源場所が特定される。図３で、音源場所を特定する動作２０４を実行するために実行される動作を示す方法３００が示される。一実施形態では、方法３００は、オーディオ信号（複数可）を分析する動作３０２と、音のソース場所、ならびに水平のセットのマイクロフォンおよび垂直のセットのマイクロフォン、または他の方法では、マイクロフォンのアレイが具現化される装置の間のそれぞれの距離を計算する動作３０４と、を含み得る。本開示による一実施形態では、音源場所と装置との間の１～６フィートの距離は、音声コマンドおよび問い合わせのより正確な理解に有利であり得る。一実施形態では、動作３０２および３０４は、一緒に実行され得ることに留意されたい。最終的に、水平のアレイのマイクロフォンおよび垂直のアレイのマイクロフォンの両方からのオーディオ信号が、非常にノイズの多い環境でのターゲットの発話ソースのパン、ティルト、および距離を計算するために分析される。

【0018】

受信される音声信号（複数可）を分析する動作３０２を実行するために使用され得る多数の方法があり得るため、図４は、本開示の一実施形態による、マイクロフォンアレイによって受信されるオーディオ信号を分析するための方法４００を示す。一実施形態では、方法４００は、水平のセットのマイクロフォンに関して、オーディオ信号での音のそれぞれの音源場所に対するそれぞれの水平方向を特定する動作４０２を含み得る。同様に、方法４００は、垂直のセットのマイクロフォンに関して、オーディオ信号での音のそれぞれの音源場所に対するそれぞれの垂直方向を特定する動作４０４をさらに含み得る。動作３０２と同様に、音源場所に対する水平方向および垂直方向を特定する複数の方法があり得る。したがって、本開示による、それぞれの方向を計算するための方法の例示的な実施形態は、本明細書でさらに論じられる。

【0019】

オーディオ信号での音についてのソース場所を特定する以外に、分析の焦点の有効性を向上させて、本明細書で「ターゲット音」と称される特定の音をよりよく理解するためにさらなるステップが取られ得る。すなわち、任意の所与の音のソースを単に見つけ出すことが可能であり得るが、機械に向けられる人間の声からの質問および発言に応答することが意図される機械は、機械を扱う人の音声などの孤立した音に焦点を合わせる改善から恩恵を受け得る。したがって、図５で、音のソース場所を特定した後に実行され得る方法５００の追加の動作を示すフローチャートが示される。一実施形態では、動作５０２は、オーディオ信号での別個の音の別個のソース場所を選択することを含み得る。さらに、動作５０４で、別個の音は、オーディオ信号でのターゲット音から区別され得る。一実施形態では、本明細書に記載される装置は、わずか２０ミリ秒以内に音のタイプを区別することができ得る。一実施形態では、音を区別し、どの音または音（複数）がターゲット音であり、どれが「干渉音」（すなわち、ターゲット音に干渉する音）であるかを特定するために、方法６００が実行され得る。図６に示されるように、方法６００は、別個の音の別個のソース場所の画像を取得する動作６０２を含み得る。次に、動作６０４で、画像が人間の顔の正面図に対応しているかどうかの画像分析プロセスを介して特定が行われる。別個のソース場所の画像が人間の顔の正面図に対応していないという特定に応答して、別個の音が干渉音として無視される動作６０６が実行される。他方、別個のソース場所の画像が人間の顔の正面図に対応しているという特定に応答して、音は、動作６０８で音声を解釈および理解するためのターゲット音としてさらに分析される。

【0020】

上に示されるように、音源場所に対する方向を特定する複数の方法が可能である。本開示による一実施形態では、図７は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンから音のそれぞれの到来方向を計算するための方法７００のフローチャートを示す。図７で、システムの装置またはプロセッサは、マイクロフォンのセット（例えば、水平のセットまたは垂直のセット）のマイク０、マイク１、．．．～マイクＮからオーディオ信号を受信する。オーディオ信号を受信すると、短時間フーリエ変換（「ＳＴＦＴ」）が、動作７０２ａ（マイク０）、７０２ｂ（マイク１）、．．．～７０２Ｎ（マイクＮ）で実行される。動作７０４で、動作７０２ａ、７０２ｂ、．．．７０２ＮからのＳＴＦＴ結果の各々に基づいて計算が行われる。より具体的には、動作７０４で、閾値量よりも大きい信号エネルギーを有する周波数ビンの数が計算される。動作７０６で、方法７００は、周波数ビンの数が閾値量よりも大きいかどうかを特定する。周波数ビンの数が閾値量を超える場合、プロセスは、動作７０８で、大きさの正規化および１つ以上の重み係数を適用することによって続く。

【0021】

動作７０８の重み係数は、オーディオ信号の最も高い信号対ノイズ比（ＳＮＲ）特性について最も高い重みが与えられる係数と、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる係数と、を含み得る。上記の重み係数の一方または両方を適用すると、ビームフォーマ出力電力および空間領域での出力電力のピークの信頼比を計算することによって、動作７１０が実行される。本開示で使用されるビームフォーマアルゴリズムは、音源位置測定のために頻繁に使用されるステアリング応答電力位相変換（ＳＲＰ－ＰＨＡＴ）に基づくが、これに限定されない。しかしながら、本開示の一実施形態では、アルゴリズムは、上で論じられる重み係数で修正されることによって、改善された場所検出について向上される。したがって、結果は、ＳＲＰ－ＰＨＡＴの従来の使用と比較したとき、ターゲット音を分離することができるように、向上した結果をノイズの多い環境に提供する。

【0022】

方法７００の動作７１２で、（動作７１０からの結果の）ピーク／平均が閾値よりも大きいかどうかが特定される。ピーク／平均が閾値よりも大きいことに応答して、ピークに対応する相対的な角度および距離が出力される動作７１４が生じる。さらに、周波数ビンの数が閾値以下であるか、またはピーク／平均が閾値以下であるという特定に応答して、方法７００は、計算プロセスが終了する動作７１６に続く。

【0023】

重み係数で修正されるようなＳＲＰ－ＰＨＡＴを使用する実施形態では、次のように、フィルタおよび合計のビームフォーマ出力の電力Ｐを最大化する候補場所ｑを特定するために式（１）が解かれる。

【数1】

【0024】

これを達成するために、式（１）の構成要素が次のように説明される。まず、マイクロフォンアレイ信号のフィルタおよび合計のビームフォーマ出力Ｔ（ω）が、周波数領域信号を生成するために式（２）を使用して特定される。

【数2】

【0025】

式（２）での様々な変数は次のとおりであり、ωがラジアンでの周波数であり、＊が複素共役を示し、Ｎがアレイでのマイクロフォンの数であり、

【数3】

が周波数領域での重み関数であり、Ｘｌ（ω）がマイクロフォンｌ（例えば、周波数領域での第ｌ番目のマイクロフォン信号）でのマイクロフォン信号のフーリエ変換であり、△_ｌが候補ソース場所に向かう第ｌ番目のマイクロフォンのステアリングベクトルであることに留意されたい。さらに、

【数4】

【0026】

その上、上で論じられるように、重み係数ｗ１（ω）およびｗ２（ω）は、結果を向上させるために考慮される。例えば、より高い信号対ノイズ比（ＳＮＲ）を有する信号は、より重く重み付けされ得、人間の発話のスペクトルが低周波数に偏っているため、最も低い周波数を有する信号は、より重く重み付けされ得る。したがって、ｗ１（ω）およびｗ２（ω）は、次のように定義され得る。

【数5】

ここで、Ｎ_ｋ（ω）は、第ｋ番目のマイクロフォンのノイズスペクトルである。

【数6】

【0027】

最後に、ソース推定場所は、次のように、式（６）を使用して見出される。

【数7】

【0028】

要約すると、信号の１次導関数は、各マイクロフォンの間の音声到来の時間差を取得するために周波数領域で取得される。次いで、音声の入射の方向を取得するために、座標変換が使用される。次いで、周波数領域で信号の２次導関数を導出し、マイクロフォンアレイからのターゲット発話の距離を計算する。

【0029】

上記のような修正されたＳＲＰ－ＰＨＡＴを使用して、本開示に従ってマイクロフォンアレイによって捕捉される例示的な音源の各方向（すなわち、水平および垂直）での電力出力は、極座標プロット８００としてプロットされるとき、図８に示されるように現れ得る。図８の例では、極座標プロットでの有意な、目に見えるスパイク８０２に基づいて、約７５度での音源であるように見える。その上、２つ以上の音源が同じ音場で検出される場合、極座標プロットで２つ以上の対応するスパイクが現れる。ピークの高さは、バックグラウンドノイズのタイプのインジケータとして使用され得る。例えば、ポイントソースノイズフィールドは通常、非常に高い／鋭いピークを生成するが、拡散ソースノイズフィールドは、低い明らかなピークを生成するか、または明らかなピークさえ生成しない場合がある。特に、ピークの高さの分析は、次の理由で有利であり得る。Ａ）ピークの高さの分析は、バックグラウンドノイズ推定器（「ＢＮＥ」）の性能を向上させ得る。従来のＢＮＥは、時間の経過とともに最小値を見つけるために、時間情報およびスペクトル情報を使用するだけである。対照的に、本出願では、ピークの高さは、３番目のパラメータとして使用される。ピークの高さが大きい場合、これは、プロセスを遅くする。すなわち、ＢＮＥ適応レート／速度は、ピークの高さに反比例する。したがって、このステップは、全体の角度検出アルゴリズムの感度を向上させるのに有利である。Ｂ）ピークの高さはまた、発話強調目的でビームフォーマによって使用され得る。最小分散無歪応答（「ＭＶＤＲ」）ビームフォーマなどのよく知られた発話強調ビームフォーミングアルゴリズムは、例えば、ノイズ共分散行列をより適切に推定するという観点でノイズフィールドの変化を追跡するときに、よりよい性能を達成するためにピークの高さの情報を使用し得る。例えば、地下鉄の駅でのノイズフィールドは、ポイントノイズフィールド（例えば、単一の干渉者が話している）から拡散ノイズフィールド（例えば、多くの人が話している）に急速に変化し得る。ノイズ共分散行列を推定する際の適応レートは、ビームフォーマアルゴリズムでのピークの高さによって現在反映されている、ノイズフィールド変化に追いつくのに十分な大きさに設定されるべきである。

【0030】

本開示による、音源への方向の角度および音源からの距離を計算する代替的な実施形態では、図９は、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンから音のそれぞれの到来方向を計算するための方法９００のフローチャートを示す。図９に関して以下に記載される方法９００に関連付けられた投票アルゴリズムは、図７に関する上記の方法７００に関連付けられたアルゴリズムよりもロバストであり、複雑さが低い場合があることが企図される。

【0031】

図９で、図７の方法の始まりと同様に、マイクロフォンのセット（例えば、水平のセットまたは垂直のセット）のマイク０、マイク１、．．．～マイクＮからオーディオ信号を受信する。オーディオ信号を受信すると、ＳＴＦＴが、動作９０２ａ（マイク０）、９０２ｂ（マイク１）、．．．～９０２Ｎ（マイクＮ）で実行される。それぞれの周波数ビンで十分な信号エネルギーがある場合、各周波数ビンが角度について１つの票を有するため、動作９０４で、周波数ビンが信号を含むかどうかを特定するために、動作９０２ａ、９０２ｂ、．．．～９０２ＮからのＳＴＦＴ結果の各々に基づいて評価が行われる。

【0032】

動作９０４で周波数ビンが信号を含むという特定に応答して、方法９００は、距離を想定して、関心のあるすべての角度を通じてスキャンし、すべての可能性のある候補角度の間でステアリング電力を計算することによって動作９０６を進める。周波数ビンが投票する角度が、最大ステアリング電力を見つけることによって取得されるため、動作９０８で、最大電力が、すべての角度の間で特定され、対応する角度（「最大電力についての角度」）が、それに関連付けられる。ステアリング電力応答は、遅延および合計のビームフォーマ計算でのマイクロフォンアレイの電力出力であるように定義されることに留意されたい。

【0033】

動作９１０で、最大電力の角度についての票は、重み係数で蓄積される。重み係数は、上で論じられる重み係数のように、周波数の信号ノイズ比（ＳＮＲ）、および周波数自体の値であり得る。動作９１２で、プロセッサは、次の周波数ビンに移る（繰り返し）。動作９１４で、プロセッサは、すべての周波数ビンが動作９０６～９１０を通じてスキャンおよび処理されたかどうかを特定する。すべての周波数ビンが、動作９０６～９１０を通じてスキャンおよび処理されたわけではないという特定に応答して、プロセスは、動作９０４に戻って、次の周波数ビンを続ける。その上、周波数ビンが信号を含まないという動作９０４での特定に応答して、プロセスは、動作９０６～９１０をスキップし、動作９１２に進む。最後に、すべての周波数ビンがスキャンおよび処理されたという特定に応答して、方法９００は、動作９１６に進み、ここで、装置に関して音源に対する推定角度を特定するために、最大電力の角度についての最大の票の特定が行われる。すなわち、音源場所からの信号の全体的なＤＯＡは、最も多くの票を受け取る角度であるように特定される。次いで、動作９１８で、推定角度に沿ったすべての候補距離が、対応するステアリング電力を計算するためにスキャンされる。推定角度に沿った最大電力に対応する距離は、音信号のソースまでの推定距離であるように特定される。言い換えれば、各周波数ビンは、どの角度が最大電力を生成するかを見つけることによって角度について投票し、例えば、図１０に示されるように、周波数５００Ｈｚは、約８０度の角度について投票する。図１１で、周波数８０００Ｈｚは、約９５度の角度について投票する。アルゴリズムは、すべての周波数を介してループし、次いで、どの角度が最大票を有するかを見つける。

【0034】

特に、異なる周波数ビンは、周波数ビンおよびそれぞれの周波数自体のＳＮＲによって重み付けされた、異なる票を有し得る。さらに、重み付けルールは、音源信号のＤＯＡを見つける際の精度および感度の観点で重要な役割を果たし得る。例えば、一実施形態では、音源場所の方向検出は、約０．５度の精度誤差許容度を有するほど十分に有効であり得る。

【0035】

図１０、図１１、および図１２に示される極座標プロット１０００、１１００、および１２００はそれぞれ、例示的な構造配置として４０ｍｍ離間した８つの全方向性マイクロフォンのアレイによって受信される音信号のソースに対する推定角度を示すプロットである。極座標プロット１０００および１１００はそれぞれ、５００Ｈｚおよび８０００Ｈｚでのステアリング電力に関してプロットされているが、極座標プロット１２００は、票の数に関してプロットされていることに留意されたい。極座標プロット１２００は、マイクロフォンアレイを有する装置からの音源に対する推定角度が、この例示的な配置では約９５度であることを容易に示す。さらに、図１３は、上記の方法９００を使用して計算される電力に対する音源までの距離のグラフ１３００を示す。一実施形態では、以前に特定された角度推定に少なくとも部分的に基づいて、音源までの距離は、すべての候補距離の中で角度に沿った最大ステアリング電力を見つけることによって推定され得る。したがって、グラフ１３００は、マイクロフォンアレイを有する装置からの音源までの距離が、この例では約２．１メートルであることを示す。

【0036】

図１４は、音源場所を検出するための本開示に関して論じられる方法を実行するために使用され得るコンピューティングシステム１４００の例示的な概略図を示す。具体的には、コンピューティングシステム１４００は、１つ以上のプロセッサ１４０２と、１つ以上のプロセッサ１４０２に、音源場所を検出するための１つ以上の方法を実行させる命令を含むメモリ１４０４と、を含み得る。１つ以上の入力／出力インターフェース（「Ｉ／Ｏインターフェース」）１４０６は、マイクロフォン１４０８のアレイとインターフェース接続するために含まれ得る。マイクロフォン１４０８のアレイは、水平のセットのマイクロフォン１４１０と、垂直のセットのマイクロフォン１４１２と、を含み得る。一実施形態では、コンピューティングシステム１４００は、１つ以上のＩ／Ｏインターフェース１４０６を介して１つ以上のプロセッサ１４０２と通信可能に結合された撮像デバイス１４１４および／またはディスプレイデバイス１４１６をさらに含み得る。メモリ１４０４は、装置の情報および／または製品に関する情報を含む装置データストア１４１８を含み得る。メモリ１４０４は、装置および／もしくはコンピューティングシステム１４００の性能を向上させるのに使用するための、ならびに／または統計分析のためなどの以前の分析データなどの情報を含む、分析情報データストア１４２０をさらに含み得る。

【0037】

分析情報データストア１４２０は、１つ以上のＩ／Ｏインターフェース１４０６から受信される入力に基づいて計算を実行する分析ユニット１４２２と通信する。

【0038】

メモリ１４０４は、ランダムアクセスメモリ（ＲＡＭ）などの揮発性メモリおよび／または読み取り専用メモリ（ＲＯＭ）もしくはフラッシュＲＡＭなどの不揮発性メモリの形態でのコンピュータ可読媒体を含み得る。メモリ１４０４は、コンピュータ可読媒体の例である。

【0039】

コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の記憶のための任意の方法または技術で実装される、揮発性および不揮発性、取り外し可能媒体および非取り外し可能媒体を含む。コンピュータ記憶媒体の例には、相変化メモリ（ＰＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、他のタイプのランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピューティングデバイスによるアクセスのための情報を記憶するために使用され得る任意の他の非伝送媒体が含まれるが、これらに限定されない。本明細書で定義されるように、コンピュータ可読媒体は、変調されたデータ信号および搬送波などの一時的な媒体を含まない。

【0040】

例示の節
Ａ：ノイズの多い環境でターゲット音のソース場所を検出するための装置であって、ハウジングと、ハウジングとともに配置されたマイクロフォンのアレイであって、直線的に整列された水平のセットのマイクロフォンと、直線的に整列された垂直のセットのマイクロフォンと、を含む、マイクロフォンのアレイと、マイクロフォンのアレイと通信可能に結合された１つ以上のプロセッサと、１つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると１つ以上のプロセッサに、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンからターゲット音を含むオーディオ信号を受信することと、装置に関するオーディオ信号でのターゲット音のソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、ターゲット音のソース場所に対する水平方向を特定することと、垂直のセットのマイクロフォンに関して、ターゲット音のソース場所に対する垂直方向を特定することと、を含む、分析することと、ターゲット音のソース場所と装置との間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、装置。
Ｂ：オーディオ信号が、ターゲット音とは異なり、かつ別個のソース場所から受信される、少なくとも１つの別個の音をさらに含み、動作が、装置に関するオーディオ信号での別個の音の別個のソース場所を特定することと、別個の音をターゲット音から区別することと、をさらに含む、段落Ａに記載の装置。
Ｃ：別個の音をターゲット音から区別することが、別個の音の別個のソース場所の画像を取得することと、画像が人間の顔の正面図に対応しているかどうかを特定することと、画像が人間の顔の正面図に対応していないという特定に応答して、別個の音を干渉音として無視することと、を含む、段落Ａ～Ｂのいずれかに記載の装置。
Ｄ：ターゲット音のソース場所に対する水平方向を特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所を特定することを含み、水平候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落Ａ～Ｃのいずれかに記載の装置。
Ｅ：ターゲット音のソース場所に対する垂直方向を特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所を特定することを含み、垂直候補場所が、装置の位置に関するターゲット音のソース場所の配向の角度測定の表現である、段落Ａ～Ｄのいずれかに記載の装置。
Ｆ：オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比（ＳＮＲ）特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落Ａ～Ｅのいずれかに記載の装置。
Ｇ：オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落Ａ～Ｆのいずれかに記載の装置。
Ｈ：オーディオ信号を分析することが、空間領域データを使用してバックグラウンドノイズを推定することをさらに含み、適応レートが、オーディオ信号のピークの高さに依存する、段落Ａ～Ｇのいずれかに記載の装置。
Ｉ：オーディオ信号での音のそれぞれのソース場所を検出するためのシステムであって、直線的に整列された水平のセットのマイクロフォンおよび直線的に整列された垂直のセットのマイクロフォンからオーディオ信号を受信するように構成された、１つ以上のプロセッサと、１つ以上のプロセッサと通信可能に結合されたメモリであって、実行されると１つ以上のプロセッサに、水平のセットのマイクロフォンから、および垂直のセットのマイクロフォンから、オーディオ信号を受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、動作を実行させる、命令を含む、メモリと、を備える、システム。
Ｊ：オーディオ信号での音が、干渉音と、ターゲット音と、を含み、動作が、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンに関して、干渉音およびターゲット音のそれぞれのソース場所を特定することと、画像分析を介して、干渉音をターゲット音から区別することと、をさらに含む、段落Ｊに記載のシステム。
Ｋ：動作が、ターゲット音の理解を最適化し、干渉音からの干渉を最小化するために、音のそれぞれのソース場所を使用してノイズ低減アルゴリズムを実行することをさらに含む、段落Ｉ～Ｊのいずれかに記載のシステム。
Ｌ：音のソース場所に対する水平方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する水平候補場所をそれぞれ特定することを含み、水平候補場所が、水平のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落Ｉ～Ｋのいずれかに記載のシステム。
Ｍ：音のソース場所に対する垂直方向をそれぞれ特定することが、オーディオ信号から計算される電力出力を最大化する垂直候補場所をそれぞれ特定することを含み、垂直候補場所が、垂直のセットのマイクロフォンに関する音のソース場所の配向の角度測定として計算される、段落Ｉ～Ｌのいずれかに記載のシステム。
Ｎ：オーディオ信号を分析することが、オーディオ信号の最も高い信号対ノイズ比（ＳＮＲ）特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落Ｉ～Ｍのいずれかに記載のシステム。
Ｏ：オーディオ信号を分析することが、オーディオ信号の最も低い周波数特性について最も高い重みが与えられる重み係数を適用することをさらに含む、段落Ｉ～Ｎのいずれかに記載のシステム。
Ｐ：オーディオ信号での音のそれぞれのソース場所を検出する方法であって、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンを介してオーディオ信号を受信することであって、水平のセットのマイクロフォンが、直線的に整列されており、垂直のセットのマイクロフォンが、直線的に整列されている、受信することと、オーディオ信号での音のそれぞれのソース場所を特定することであって、オーディオ信号を分析することであって、水平のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの水平方向を特定することと、垂直のセットのマイクロフォンに関して、音のそれぞれのソース場所に対するそれぞれの垂直方向を特定することと、を含む、分析することと、音のそれぞれのソース場所と、水平のセットのマイクロフォンおよび垂直のセットのマイクロフォンとの間の距離を計算することと、を含む、特定することと、を含む、方法。
Ｑ：オーディオ信号での音のソース場所をそれぞれ見るように撮像デバイスを向けることをさらに含む、段落Ｐに記載の方法。
Ｒ：オーディオ信号での音における音が、干渉音またはターゲット音であるかを特定することと、任意の干渉音を無視することと、をさらに含む、段落Ｐ～Ｑのいずれかに記載の方法。
Ｓ：音声認識を実行し、ターゲット音の意味を解読するために、ターゲット音をプロセッサに送信することをさらに含む、段落Ｐ～Ｒのいずれかに記載の方法。
Ｔ：音が干渉音またはターゲット音であるかを特定することが、わずか２０ミリ秒で区別可能である、段落Ｐ～Ｓのいずれかに記載の方法。

【0041】

結論
いくつかの実施形態は、構造的特徴および／または方法論的動作に特有の文言で説明してきたが、特許請求の範囲は、必ずしも説明される特定の特徴または動作に限定されるものではないことを理解されたい。むしろ、特定の特徴および動作は、特許請求された主題を実装する例示的な形態として開示されている。

【図1】