(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-06
(45)【発行日】2024-09-17
(54)【発明の名称】多数のヘッドセット間の音声空間化および強化
(51)【国際特許分類】
H04S 7/00 20060101AFI20240909BHJP
H04R 1/10 20060101ALI20240909BHJP
H04R 5/033 20060101ALI20240909BHJP
H04R 3/00 20060101ALI20240909BHJP
H04R 1/40 20060101ALI20240909BHJP
H04R 3/02 20060101ALI20240909BHJP
【FI】
H04S7/00 340
H04R1/10 101A
H04R5/033 C
H04R5/033 Z
H04R3/00 320
H04R1/40 320A
H04R3/02
H04R1/10 101B
(21)【出願番号】P 2021553794
(86)(22)【出願日】2020-05-05
(86)【国際出願番号】 US2020031406
(87)【国際公開番号】W WO2020227254
(87)【国際公開日】2020-11-12
【審査請求日】2023-02-10
(32)【優先日】2019-05-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】515046968
【氏名又は名称】メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー
【氏名又は名称原語表記】META PLATFORMS TECHNOLOGIES, LLC
(74)【代理人】
【識別番号】110002974
【氏名又は名称】弁理士法人World IP
(72)【発明者】
【氏名】ブリミジョイン, ウィリアム オーウェン, ザ セカンド
(72)【発明者】
【氏名】ロビット, アンドリュー
(72)【発明者】
【氏名】ロビンソン, フィリップ
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2018-050281(JP,A)
【文献】国際公開第2018/089549(WO,A1)
【文献】特開2015-136103(JP,A)
【文献】特開2017-028390(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
H04R 1/10
H04R 5/033
H04R 3/00-3/14
H04R 1/40
H04R 25/00-25/04
(57)【特許請求の範囲】
【請求項1】
ヘッドセットであって、
前記ヘッドセットの第1のユーザの視線方向を
、前記第1のユーザの頭の向きおよび前記第1のユーザの頭に対する前記第1のユーザの眼の相対的な向きに基づいて判定するように構成される視線判定回路と、
第2のユーザのヘッドセットと関連付けられる音声信号を受信するように構成されるトランシーバと、
処理回路網であって、
前記第1のユーザ
の前記頭の向きに対する前記第2のユーザと関連付けられた相対位置を
特定すること、
前記第1のユーザの強化方向に対する前記第2のユーザの
特定された前記相対位置の偏差を判定することであって、前記強化方向は前記第1のユーザの前記視線方向に少なくとも部分的に基づく、偏差を判定すること、
前記第1のユーザの前記頭の向きに対する前記第2のユーザと関連付けられた前記相対位置に少なくとも部分的に基づいて
、前記第2のユーザと関連付けられた前記音声信号を空間化すること、および、
前記第1のユーザの前記強化方向に対する前記第2のユーザの特定された
前記相対位置の前記偏差に少なくとも部分的に基づいて
、音声出力信号の振幅を増幅すること、
を行うように構成される
、処理回路網と、
空間化されかつ強化された前記音声出力信号に基づく音を投射することで、投射された前記音が前記第2のユーザの前記
相対位置で生じるように感知されるように構成されるスピーカアセンブリと、
を備える、ヘッドセット。
【請求項2】
複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイをさらに備え、前記マイクロホンアレイは、前記第1のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するように構成される、請求項1に記載のヘッドセット。
【請求項3】
前記処理回路網は、
前記音声入力信号を解析して、前記第1のユーザの前記ローカルエリアにおける特定の領域から生じる音を特定するように、および、
前記特定の領域から生じる前記音に対応する前記音声入力信号の一部分を強化することによって前記音声入力信号からユーザ音声信号を生成するように
さらに構成される、請求項2に記載のヘッドセット。
【請求項4】
前記特定の領域は前記第1のユーザの口に対応する、請求項3に記載のヘッドセット。
【請求項5】
前記トランシーバは前記第2のユーザの位置情報を受信するようにさらに構成される、請求項1に記載のヘッドセット。
【請求項6】
前記第1のユーザに対する前記第2のユーザと関連付けられた前記相対位置を
特定するように構成されるアンテナアレイをさらに備える、請求項1に記載のヘッドセット。
【請求項7】
前記処理回路網は、前記第1のユーザと前記第2のユーザとの間に見通し線があるかどうかに基づいて前記音声出力信号を空間化するようにさらに構成される、請求項1に記載のヘッドセット。
【請求項8】
前記
トランシーバは第3のユーザから第2の音声信号を受信するようにさらに構成され、前記処理回路網は、
前記第1のユーザに対する前記第3のユーザと関連付けられた相対位置を特定すること、
前記第1のユーザの前記強化方向に対する前記第3のユーザ
の特定された
前記相対位置の偏差を判定すること、
前記第3のユーザ
の特定された
前記相対位置の前記偏差を前記第2のユーザ
の特定された
前記相対位置の前記偏差と比較すること、および、
比較の結果に基づいて前記第3のユーザと関連付けられた前記第2の音声信号の振幅を増幅すること、
を行うようにさらに構成される、請求項1に記載のヘッドセット。
【請求項9】
第1のユーザのヘッドセットにおいて、前記第1のユーザの強化方向を判定することと、
前記第1のユーザの
前記ヘッドセットにおいて、第2のユーザのヘッドセットと関連付けられた音声信号を受信することと、
前記第1のユーザ
の頭の向きに対する前記第2のユーザと関連付けられた相対位置を特定することと、
前記第1のユーザの前記強化方向に対する前記第2のユーザの特定された前記相対位置の偏差を判定することと、
前記第1のユーザの前記頭の向きに対する前記第2のユーザと関連付けられた前記相対位置に少なくとも部分的に基づいて、前記第2のユーザと関連付けられた前記音声信号を空間化することと、
前記第1のユーザの前記強化方向に対する前記第2のユーザ
の特定された
前記相対位置の前記偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅することと、
空間化されかつ強化された前記音声出力信号に基づく音を投射することで、投射された前記音が前記第2のユーザの前記
相対位置で生じるように感知されるようにすることと、
を含
み、
前記第1のユーザの前記強化方向を判定することは、
少なくとも前記第1のユーザの頭の向きを含む前記第1のユーザの位置を受信すること、
前記第1のユーザの頭に対する前記第1のユーザの眼の相対的な向きを判定すること、ならびに、
前記第1のユーザの前記頭の向き、および前記第1のユーザの頭に対する前記第1のユーザの眼の前記相対的な向きに基づいて、視線方向を判定すること、
によって、前記第1のユーザの前記視線方向を判定することを含む
、
方法。
【請求項10】
前記第1のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するために複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイを使用することをさらに含む、請求項
9に記載の方法。
【請求項11】
前記音声入力信号を解析して、前記第1のユーザの前記ローカルエリアにおける特定の領域から生じる音を特定することと、
前記特定の領域から生じる前記音に対応する前記音声入力信号の一部分を強化することによって前記音声入力信号からユーザ音声信号を生成することと、
をさらに含む、請求項
10に記載の方法。
【請求項12】
前記特定の領域は前記第1のユーザの口に対応する、請求項
11に記載の方法。
【請求項13】
前記第2のユーザの位置情報を受信することをさらに含む、請求項
9に記載の方法。
【請求項14】
アンテナアレイにおいて、前記第2のユーザの
前記ヘッドセットから信号を受信することと、受信された前記信号に基づいて前記第1のユーザに対する前記第2のユーザと関連付けられた前記相対位置を判定することと、をさらに含む、請求項
9に記載の方法。
【請求項15】
前記音声出力信号を空間化することは、前記第1のユーザと前記第2のユーザとの間に見通し線があるかどうかに基づく、請求項
9に記載の方法。
【請求項16】
第3のユーザから第2の音声信号を受信することと、
前記第1のユーザに対する前記第3のユーザと関連付けられた相対位置を特定することと、
前記第1のユーザの前記強化方向に対する前記第3のユーザ
の特定された
前記相対位置の偏差を判定することと、
前記第3のユーザ
の特定された前記相対位置の前記偏差を前記第2のユーザ
の特定された前記相対位置の前記偏差と比較することと、
比較の結果に基づいて前記第3のユーザと関連付けられた前記第2の音声信号の振幅を増幅することと、
をさらに含む、請求項
9に記載の方法。
【請求項17】
命令を記憶する、非一時的なコンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行される時、前記1つまたは複数のプロセッサに、
第1のユーザのヘッドセットにおいて、前記第1のユーザの強化方向を判定すること、
前記第1のユーザの
前記ヘッドセットにおいて、第2のユーザのヘッドセットと関連付けられた音声信号を受信すること、
前記第1のユーザ
の頭の向きに対する前記第2のユーザと関連付けられた相対位置を特定すること、
前記第1のユーザの前記強化方向に対する前記第2のユーザの特定された前記相対位置の偏差を判定すること、
前記第1のユーザの前記頭の向きに対する前記第2のユーザと関連付けられた前記相対位置に少なくとも部分的に基づいて、前記第2のユーザと関連付けられた前記音声信号を空間化すること、
前記第1のユーザの前記強化方向に対する前記第2のユーザ
の特定された
前記相対位置の前記偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅すること、および、
空間化されかつ強化された前記音声出力信号に基づく音を投射することで、投射された前記音が前記第2のユーザの前記
相対位置で生じるように感知されるようにすること
、
を含む動作を行わせ
、
前記第1のユーザの前記強化方向を判定することは、前記第1のユーザの前記頭の向きおよび前記第1のユーザの頭に対する前記第1のユーザの眼の相対的な向きに基づいて、前記第1のユーザの視線方向を判定することを含む、
非一時的なコンピュータ可読媒体。
【請求項18】
前記第1のユーザの前記強化方向を判定することは、
少なくとも前記第1のユーザの前記頭の向きを含む前記第1のユーザの位置を受信するこ
と、
前記第1のユーザの頭に対する前記第1のユーザの眼の
前記相対的な向きを判定すること、ならびに、
前記頭の向き、および前記第1のユーザの頭に対する前記第1のユーザの眼の
前記相対的な向きに基づいて視線方向を判定すること
によって、前記第1のユーザの前記視線方向を判定することを含み、
前記第2のユーザと関連付けられた前記音声出力信号を空間化することは、前記第1のユーザの前記
頭の向きに対する前記第2のユーザの前記
相対位置の相対方向に基づく、請求項
17に記載の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年5月7日に出願された米国特許出願第16/405,950号の優先権を主張するものであり、この内容全体はあらゆる目的で参照により本明細書に組み込まれる。
【0002】
本開示は一般的に、共有通信チャネル上のユーザ間の音声通信に関し、具体的には、共有通信チャネルの多数の異なるユーザ間で送信される音声信号の空間化および強化に関する。
【背景技術】
【0003】
多数のサウンドソースがある環境では、リスナーは、他のサウンドソースからの音源を聞こえなくしている間、特定のサウンドソースに合わせる際の障害に遭遇する場合がある。例えば、多数の人達が同時に話しているにぎやかな部屋では、リスナーが、この部屋において特定の話し手の言葉を他の話し手の話し声の中で認識することは難しい可能性がある。この現象はカクテルパーティ問題として知られている。場合によっては、異なるサウンドソース、例えば、話し手は、聞こえるようにリスナーに送信される彼らの発話を記録するマイクロホンを有する場合がある。しかしながら、リスナーが、特に多数のサウンドソースが存在する時に話し声の音源をはっきりさせる、または異なるサウンドソースの間で注意を切り換えることは困難であり得る。
【発明の概要】
【0004】
実施形態は、多数のユーザの間で音声コンテンツを送信しかつ受信するための共有通信チャネルの確立に関する。それぞれのユーザは、他のユーザのヘッドセットに対する音声データの送信および受信を行うように構成されるヘッドセットと関連付けられる。第1のユーザのヘッドセットは、第2のユーザに対応する音声データを受信することに応答して、第1のユーザおよび第2のユーザの相対位置に基づいて音声データを空間化することで、第1のユーザに提示される音声データが第2のユーザに対応する場所で生じるように思えるようにする。ヘッドセットはまた、第1のユーザの視線方向など、第2のユーザの場所と強化方向との間の偏差に基づいて音声データを強化することができることで、第1のユーザは、注意を向けている他のユーザからの音声データをより明確に聞くことが可能になる。
【0005】
いくつかの実施形態では、ヘッドセットが説明される。ヘッドセットは、ヘッドセットを着用している第1のユーザの視線方向を判定するように構成される視線判定システムを含む。ヘッドセットは、第2のユーザと関連付けられた音声データを受信するように構成される受信機であって、音声データは音声出力信号を含む、受信機をさらに含む。ヘッドセットは、第1のユーザに対する第2のユーザと関連付けられた相対位置を特定し、かつ第1のユーザの視線方向に対する第2のユーザの特定された相対位置の偏差を判定するように構成される処理回路網をさらに含む。処理回路網は、第2のユーザと関連付けられた相対位置に基づいて、第2のユーザと関連付けられた音声出力信号を空間化する。処理回路網は、さらに、閾値内にいる第1のユーザの視線方向に対する第2のユーザの特定された位置の偏差に応答して、偏差に基づいて音声出力信号の振幅を増幅してよい。ヘッドセットは、空間化されかつ強化された音声出力信号を1または複数の話し手に送って出力音を作り出すことで、出力音が第2のユーザの位置で生じていると感知されるように出力音が第1のユーザにレンダリングされるように構成される音声出力インターフェースをさらに含む。
【0006】
方法は音声システムによって行われてよい。例えば、音声システムはヘッドセットの一部(例えば、ニアアイディスプレイ、ヘッドマウントディスプレイ)である。音声システムは、マイクロホンアセンブリ、トランシーバ、コントローラ、およびスピーカアセンブリ(例えば、ラウドスピーカアレイ)を含む。
【0007】
本発明による実施形態は、とりわけ、ヘッドセット、方法、および記憶媒体を対象とした添付の特許請求の範囲に開示され、ここで、1つの特許請求項の分類において述べられる任意の特徴、例えば、ヘッドセットは、別の特許請求項の分類、例えば、方法、記憶媒体、システム、およびコンピュータプログラム製品においても特許請求され得る。添付の特許請求の範囲に対する従属関係または参照は、単に形式的な理由で選ばれている。しかしながら、添付の特許請求の範囲で選ばれた従属関係に関わらず、請求項およびその特徴の任意の組み合わせが、開示され、かつ特許請求できるように、任意の前の請求項(とりわけ、多数項従属)への意図的な参照から生じるいずれの主題も特許請求可能である。特許請求可能である主題は、添付の特許請求の範囲に記載される特徴の組み合わせだけでなく、特許請求の範囲における特徴の任意の他の組み合わせも含み、特許請求の範囲に述べられるそれぞれの特徴は任意の他の特徴または特許請求の範囲における他の特徴の組み合わせと組み合わせ可能である。さらに、本明細書に説明されるまたは描写される実施形態および特徴のいずれかは、別々の請求項において、および/または本明細書に説明されるまたは描写される任意の実施形態もしくは特徴との、または添付の特許請求項の特徴のいずれかとの任意の組み合わせにおいて特許請求可能である。
【0008】
一実施形態では、ヘッドセットは、
ヘッドセットの第1のユーザの視線方向を判定するように構成される視線判定回路と、
第2のユーザのヘッドセットと関連付けられる音声信号を受信するように構成されるトランシーバと、
第1のユーザに対する第2のユーザと関連付けられた相対位置を判定すること、第1のユーザの強化方向に対する第2のユーザの位置の偏差を判定することであって、強化方向は第1のユーザの視線方向に少なくとも部分的に基づく、偏差を判定すること、第2のユーザと関連付けられた相対位置に少なくとも部分的に基づいて第2のユーザと関連付けられた音声信号を空間化すること、および、第1のユーザの強化方向に対する第2のユーザの特定された位置の偏差に少なくとも部分的に基づいて音声出力信号の振幅を増幅することを行うように構成される処理回路網と、
空間化されかつ強化された音声出力信号に基づく音を投射することで、投射された音が第2のユーザの位置で生じるように感知されるように構成されるスピーカアセンブリと、を備えてよい。
【0009】
一実施形態では、ヘッドセットは、複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイを備えてよく、マイクロホンアレイは、第1のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するように構成されてよい。
【0010】
処理回路網は、音声入力信号を解析して、第1のユーザのローカルエリアにおける特定の領域から生じる音を特定するように、および、特定の領域から生じる音に対応する音声入力信号の一部分を強化することによって音声入力信号からユーザ音声信号を生成するように構成されてよい。
【0011】
特定の領域は第1のユーザの口に対応し得る。
【0012】
トランシーバは第2のユーザの位置情報を受信するように構成されてよい。
【0013】
一実施形態では、ヘッドセットは、第1のユーザに対する第2のユーザと関連付けられた相対位置を判定するように構成されるアンテナアレイを備えてよい。
【0014】
処理回路網は、第1のユーザと第2のユーザとの間に見通し線があるかどうかに基づいて音声出力信号を空間化するように構成されてよい。
【0015】
視線判定回路は、第1のユーザの位置を受信することであって、位置は、少なくとも、第1のユーザの頭の向きを含む、位置を受信すること、および、第1のユーザの頭に対する第1のユーザの眼の相対的な向きを判定することを行うように構成されてよく、第2のユーザと関連付けられた音声出力信号を空間化することは、第1のユーザの頭の向きに対する第2のユーザの位置の相対方向に基づく。
【0016】
受信機は第3のユーザから第2の音声信号を受信するように構成されてよく、処理回路網は、第1のユーザに対する第3のユーザと関連付けられた相対位置を特定すること、第1のユーザの強化方向に対する第3のユーザの特定された相対位置の偏差を判定すること、第3のユーザの特定された相対位置の偏差を第2のユーザの特定された相対位置の偏差と比較すること、および、比較の結果に基づいて第3のユーザと関連付けられた第2の音声信号の振幅を増幅すること、を行うように構成されてよい。
【0017】
一実施形態では、方法は、
第1のユーザのヘッドセットにおいて、第1のユーザの強化方向を判定することと、
第1のユーザのヘッドセットにおいて、第2のユーザのヘッドセットと関連付けられた音声信号を受信することと、
第1のユーザに対する第2のユーザと関連付けられた相対位置を特定することと、
第1のユーザの強化方向に対する第2のユーザの特定された相対位置の偏差を判定することと、
第2のユーザと関連付けられた相対位置に少なくとも部分的に基づいて、第2のユーザと関連付けられた音声信号を空間化することと、
第1のユーザの強化方向に対する第2のユーザの特定された位置の偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅することと、
空間化されかつ強化された音声出力信号に基づいて音を投射することで、投射された音が第2のユーザの位置で生じるように感知されるようにすることと、を含んでよい。
【0018】
一実施形態では、方法は、第1のユーザのローカルエリアで音をキャプチャし、かつ音声入力信号を生成するために複数の異なる場所に配置される複数のマイクロホンを含むマイクロホンアレイを使用することを含んでよい。
【0019】
一実施形態では、方法は、
音声入力信号を解析して、第1のユーザのローカルエリアにおける特定の領域から生じる音を特定することと、
特定の領域から生じる音に対応する音声入力信号の一部分を強化することによって音声入力信号からユーザ音声信号を生成することと、を含んでよい。
【0020】
特定の領域は第1のユーザの口に対応し得る。
【0021】
一実施形態では、方法は、第2のユーザの位置情報を受信することを含んでよい。
【0022】
一実施形態では、方法は、アンテナアレイにおいて、第2のユーザのヘッドセットから信号を受信することと、受信された信号に基づいて第1のユーザに対する第2のユーザと関連付けられた相対位置を判定することと、を含んでよい。
【0023】
音声出力信号を空間化することは、第1のユーザと第2のユーザとの間に見通し線があるかどうかに基づいてよい。
【0024】
第1のユーザの強化方向を判定することは、第1のユーザの位置を受信することであって、位置は、少なくとも、第1のユーザの頭の向きを含む、第1のユーザの位置を受信すること、第1のユーザの頭に対する第1のユーザの眼の相対的な向きを判定すること、ならびに、頭の向き、および第1のユーザの頭に対する第1のユーザの眼の相対的な向きに基づいて視線方向を判定することによって、第1のユーザの視線方向を判定することを含んでよく、第2のユーザと関連付けられた音声出力信号を空間化することは、第1のユーザの向きに対する第2のユーザの位置の相対方向に基づく。
【0025】
一実施形態では、方法は、
第3のユーザから第2の音声信号を受信することと、
第1のユーザに対する第3のユーザと関連付けられた相対位置を特定することと、
第1のユーザの強化方向に対する第3のユーザの特定された相対位置の偏差を判定することと、
第3のユーザの特定された相対位置の偏差を第2のユーザの特定された相対位置の偏差と比較することと、
比較の結果に基づいて第3のユーザと関連付けられた第2の音声信号の振幅を増幅することと、を含んでよい。
【0026】
一実施形態では、非一時的なコンピュータ可読媒体は、1つまたは複数のプロセッサによって実行される時、1つまたは複数のプロセッサに、
第1のユーザのヘッドセットにおいて、第1のユーザの強化方向を判定すること、
第1のユーザのヘッドセットにおいて、第2のユーザのヘッドセットと関連付けられた音声信号を受信すること、
第1のユーザに対する第2のユーザと関連付けられた相対位置を特定すること、
第1のユーザの強化方向に対する第2のユーザの特定された相対位置の偏差を判定すること、
第2のユーザと関連付けられた相対位置に少なくとも部分的に基づいて、第2のユーザと関連付けられた音声信号を空間化すること、
第1のユーザの強化方向に対する第2のユーザの特定された位置の偏差に少なくとも部分的に基づいて、音声出力信号の振幅を増幅すること、および、
空間化されかつ強化された音声出力信号に基づいて音を投射することで、投射された音が第2のユーザの位置で生じるように感知されるようにすること、を含む動作を行わせることができる命令を記憶してよい。
【0027】
第1のユーザの強化方向を判定することは、第1のユーザの位置を受信することであって、位置は、少なくとも、第1のユーザの頭の向きを含む、第1のユーザの位置を受信すること、第1のユーザの頭に対する第1のユーザの眼の相対的な向きを判定すること、ならびに、頭の向き、および第1のユーザの頭に対する第1のユーザの眼の相対的な向きに基づいて視線方向を判定することによって、第1のユーザの視線方向を判定することを含んでよく、第2のユーザと関連付けられた音声出力信号を空間化することは、第1のユーザの向きに対する第2のユーザの位置の相対方向に基づく。
【0028】
一実施形態では、1つまたは複数のコンピュータ可読非一時的記憶媒体は、実行される時、上述される実施形態のいずれかによるまたはこの範囲内の方法を実行するように動作可能であるソフトウェアを具現化することができる。
【0029】
一実施形態では、システムは、1つまたは複数のプロセッサと、プロセッサに結合され、かつプロセッサによって実行可能な命令を含む少なくとも1つのメモリと、を含んでよく、プロセッサは、命令を実行する時、上述される実施形態のいずれかによるまたはこの範囲内の方法を実行するように動作可能である。
【0030】
一実施形態では、好ましくは、コンピュータ可読非一時的記憶媒体を含むコンピュータプログラム製品は、データ処理システム上で実行される時、上述される実施形態のいずれかによるまたはこの範囲内の方法を実行するように動作可能であってよい。
【図面の簡単な説明】
【0031】
【
図1】1つまたは複数の実施形態による、音声空間化および強化のためのシステムが使用可能である環境の高レベルの図である。
【
図2】1つまたは複数の実施形態による、共有通信チャネルにおいてユーザが着用し得る音声システムを含むヘッドセットを示す一例である。
【
図3】1つまたは複数の実施形態による音声システムのブロック図である。
【
図4】1つまたは複数の実施形態による、共有通信チャネルによる複数のユーザを有する環境の一例を示す図である。
【
図5】1つまたは複数の実施形態によるユーザ音声信号をフィルタリングすることを示す図である。
【
図6】1つまたは複数の実施形態による、共有通信チャネルにおける他のユーザからの受信される音声データを空間化しかつ強化するためのプロセスのフローチャートである。
【
図7】1つまたは複数の実施形態による、ユーザの声に対応する音声信号を処理するためのプロセスのフローチャートである。
【
図8】1つまたは複数の実施形態による、上述される音声システムを含むヘッドセットのシステム環境を示す図である。
【発明を実施するための形態】
【0032】
図では、例示のみの目的で本発明のさまざまな実施形態を図示する。本明細書に示される構造および方法の代替的な実施形態が、本明細書に説明される発明の原理から逸脱することなく用いられ得ることを、当業者は以下の論述から容易に認識するであろう。
【0033】
実施形態は、多数の音源から音声信号を受信するように、かつユーザ(例えば、ヘッドセットの着用者)に対して受信された音声信号を再生するように構成される音声システムを有するヘッドセットに関する。音声システムは、音源の相対的な場所に基づいて特定の音源から受信される音声信号を空間化することで、ユーザに対して再生される音声信号が音源の場所から生じるように思えるようにする。いくつかの実施形態では、音声システムは、ある特定の音源から受信される音声データを強調し、かつユーザが異なる音源の間で注意を切り換えできるようにするために、音源の場所およびユーザの強化方向(例えば、視線方向)に基づいて音源から受信される音声信号を強化する。
【0034】
いくつかの実施形態では、共有通信チャネルは、ローカルエリア内の複数のユーザの間で確立される。それぞれは、共有通信チャネルにおいて他のユーザと通信する(例えば、音声信号を送信しかつ受信する)ためのトランシーバを含むヘッドセットを着用する。それぞれのヘッドセットはまた、このユーザの位置および視線方向を追跡するように構成されるセンサを含み、該センサは、共有通信チャネルの他のユーザの相対位置、および、他のユーザの位置がユーザの視線方向にどのように関連しているかを判定するために使用可能である。
【0035】
ヘッドセットは、共有通信チャネルの他のユーザの相対位置に基づいて共有通信ネットワークの他のユーザから受信される音声信号を処理することで、音声信号が、ユーザに対して再生される時、他のユーザに対応する場所から生じるように思えるようになる。音声信号はまた、ユーザの強化方向と合致した場所における他のユーザからの音声信号がより強力に強化され得る、(ユーザの視線方向に基づいてよく、かつユーザが注目しているのは他のユーザの誰かを推論するために使用可能である)ユーザの強化方向に基づいて、強化される。例えば、第1のユーザは、共有通信チャネルの他のユーザのそれぞれから音声信号を受信し、該音声信号は、第1のユーザに対する他のユーザのそれぞれの相対位置を指示するために空間化され、(例えば、視線方向によって判定されるように)第1のユーザが現在見ているのは他のユーザの誰かに基づいて強化される。
【0036】
さらに、ヘッドセットは、ユーザ自身の発話を記録するためのマイクロホンを含む。ユーザ自身の発話はさらにまた、共有通信チャネルにおいて他のユーザのヘッドセットに送信可能である。また、ユーザ自身の発話は、いくつかの実施形態では、ユーザが自身の声の音量を加減することを支援するようにユーザに対して再生可能である。
【0037】
さまざまな実施形態は、人工現実システムを含んでよい、またはこれと併せて実装可能である。人工現実は、ユーザに提示する前のあるやり方で調節されている現実の形態であり、これは、例えば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、またはこれらの何らかの組み合わせおよび/もしくは派生形を含んでよい。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(例えば、現実世界の)コンテンツと組み合わせて生成されたコンテンツを含んでよい。人工現実コンテンツは、ビデオ、音声、触覚フィードバック、もしくはこれらの何らかの組み合わせ、および(見る人に対して3次元効果を作り出すステレオビデオなど)単一のチャネルまたは多数のチャネルにおいて提示されてよいもののいずれかを含んでよい。さらに、いくつかの実施形態では、人工現実はまた、例えば、人工現実においてコンテンツを作成するために使用される、および/または、その他の場合、人工現実において使用される(例えば、人工現実においてアクティビティを行う)、アプリケーション、製品、アクセサリ、サービス、またはこれらの何らかの組み合わせと関連付けられてよい。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されるヘッドマウントディスプレイ(HMD)、スタンドアロンHMD、モバイル機器もしくはコンピューティングシステム、または、一人または複数人の見る人に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、さまざまなプラットフォーム上で実装されてよい。
【0038】
図1は、1つまたは複数の実施形態による、音声システム115を含む環境の高レベルの図を示す。音声システム115は、ユーザ105Aが着用可能であるヘッドセット110の一部として統合されてよい。
【0039】
音声システム115を含んでいるヘッドセット110を着用するユーザ105Aは、複数の他のユーザ(ユーザ105B、105C、105D、および105E)の近くの環境内にいる。ユーザ105A~Eは、ユーザ105と総称されてよい。ユーザは互いに話をする場合があり、そのため、それぞれが音源に対応するとみなされ得る。さらに、追加の音源が環境において提示され得る。互いに近い多数の音源がある環境では、ユーザ105Aが任意の特定の音源(例えば、環境における特定の他のユーザによる発話)に集中することは困難である場合がある。
【0040】
環境におけるユーザ間の会話を容易にするために、それぞれのユーザは対応する音声システムを有する対応するヘッドセットを着用している場合がある。音声システム115は、他のユーザの発話に対応する音声信号を受信するために他のヘッドセットの音声システムと通信し、かつユーザ105Aに対して音声信号を再生する。これによって、ユーザ105Aは他のユーザの発話をより明確に聞くことが可能になり得る。さらに、音声システム115は、ユーザ105に対して再生される音声信号が空間化されることで、再生された音が他のユーザの場所から生じたように感知されるように、受信された音声信号を処理する。再生された音声信号はまた、他のユーザのうちの誰をユーザ105が現在見ているかに基づいて強化され得る。
【0041】
いくつかの実施形態では、複数のユーザは共有通信チャネルを確立してよい。例えば、
図1は、3人のユーザを有する第1の共有通信チャネル120A、および2人のユーザを有する第2の共有通信チャネル120Bを示す。共有通信チャネル120は、互いに会話したいと願うユーザの特定のグループに対応し得る。例えば、共有通信チャネル120は、互いに対して一定の近さの範囲内の(例えば、同じテーブルに座る)何人かのユーザを含んでよい。本明細書で使用されるように、共有通信チャネルは、それぞれが対応する音声システムと関連付けられた多数のユーザのグループ分けを指す場合があり、この場合、それぞれのユーザの音声システムは、グループ内の他のユーザのそれぞれの音声システムと通信することができる。例えば、共有通信チャネル120Aの3人のユーザ105A、105B、および105Cのそれぞれは、互いに通信する対応する音声システムを有し、共有通信チャネル120Bの2人のユーザ105Dおよび105Eのそれぞれは、互いに通信する対応する音声システムを有する。
【0042】
いくつかの実施形態では、共有通信チャネルは1または複数のリモートユーザを含んでよい。共有通信チャネルは、(例えば、特定の部屋、建物などに対応する)特定の地理的地域内の複数のユーザを含んでよい。いくつかの実施形態では、地理的地域は、壁などの1つまたは複数の構造物に基づいて画定され得る。本明細書で使用される際、リモートユーザは、チャネルに対応する地理的地域外に位置する共有通信チャネルに参加しているユーザに対応し得る。例えば、共有通信チャネルは、共通のテーブルに座るユーザのグループ、および、異なる建物に位置する1または複数のさらなるリモートユーザを含んでよい。
【0043】
図1は、別個の領域に対応するようなそれぞれの共有通信チャネル120Aおよび120Bを示し、いくつかの実施形態では、異なる共有通信チャネルは重複する領域をカバーする。例えば、共有通信チャネル120Bのユーザは、共通の領域内の共有通信チャネル120Aのユーザと入り混じっている場合がある。いくつかの実施形態では、特定のユーザは、複数の共有通信チャネル(例えば、両方の共有通信チャネル120Aおよび120B)の一部であってよい。
【0044】
いくつかの実施形態では、共有通信チャネル120は、情報の交換を通して1または複数のユーザのグループによって確立され得る。例えば、第1のユーザは、(例えば、第2のユーザが着用するヘッドセット、またはバッジなどのスキャン可能なオブジェクトに基づいて)第2のユーザに対応する情報をスキャンする(例えば、これらの対応するヘッドセット110または他のスキャン装置を使用する)ことによって第2のユーザと共通の共有通信チャネルに参加することができる。いくつかの実施形態では、共有通信チャネルは、少なくとも、第1のユーザおよび第2のユーザのヘッドセット間で確立されるピアツーピアネットワークの一部として実装される。
【0045】
いくつかの実施形態では、1または複数のユーザ105は、ネットワーク125を介してアプリケーションサーバ130にアクセスする。ネットワークは、インターネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、移動有線もしくは無線ネットワーク、プライベートネットワーク、仮想プライベートネットワーク、またはこれらの組み合わせを含んでよい。
【0046】
アプリケーションサーバ130は、異なるユーザのヘッドセット間の通信を容易にする1つまたは複数のアプリケーションを含んでおり、かつ、オンラインシステム、ローカルコンソール、またはこれらの何らかの組み合わせに対応し得る。例えば、アプリケーションサーバ130は、2人以上のユーザ間の共有通信チャネルを確立するアプリケーションを含んでおり、かつ確立された共有通信チャネルに対応するメタデータを維持することができ、オンラインシステムを含み得る。それぞれのユーザは、アプリケーションサーバ130上のオンラインシステムにログオンし、かつ通信することを願う1または複数の他のユーザを指示してよい。いくつかの実施形態では、2人のユーザ105の間の接続は、両方のユーザが他のユーザと通信することを望んでいることを指示する場合、確立されてよい。グループのそれぞれのユーザがグループの他のユーザのそれぞれに接続される共有通信チャネルが、ユーザのそれぞれのグループのために形成されてよい。
【0047】
他の実施形態では、第1のユーザは、共有通信チャネル120を確立してよく、さらにまた、これには追加のユーザが参加可能である。例えば、第1のユーザは、追加のユーザのそれぞれに、パスコード、または追加のユーザがアプリケーションサーバ130を介して共有通信チャネルに参加できるようにするための他のタイプの認証を与える(例えば、追加のユーザに口頭でまたは書面でパスコードを与える、または、ユーザインターフェースを介して第1のユーザによって指示されるパスコードを追加のユーザのヘッドセットに送信する)ことができる。いくつかの実施形態では、アプリケーションサーバ130は、共有通信チャネル120を維持し、かつ(例えば、新たなユーザがチャネルに参加する場合、または既存のユーザがチャネルを出る場合)チャネルの現在の状況に関するチャネルの更新をそれぞれのユーザのヘッドセットに送信する。いくつかの実施形態では、アプリケーションサーバ130は、共有通信チャネル120に対応する情報を維持するために、およびそれぞれのユーザのヘッドセットに共有通信チャネルに関する現在の状況の情報を送信するために使用されるが、ヘッドセット間の音声データの通信はピアツーピアで行われてよい。
【0048】
いくつかの実施形態では、アプリケーションサーバ130はソーシャルネットワーキングシステムを含む。ソーシャルネットワーキングシステムは、異なるユーザ間の関係(例えば、友人関係)を指示するソーシャルグラフまたは他のデータ構造を維持することができる。いくつかの実施形態では、ソーシャルネットワーキングシステム上の特定のタイプの関係を有するユーザのみが共有通信チャネルを形成するために互いとの接続を確立してよい。いくつかの実施形態では、アプリケーションサーバ130によって維持されるソーシャルグラフは、多数のユーザ間の共有通信チャネル120を自動的に確立するために使用されてよい。例えば、全員が特定の地理的地域内に位置し、かつ全員が互いとの特定のタイプのソーシャルネットワーク関係を有するユーザのグループは、共有通信チャネルに自動的に含まれてよい。
【0049】
いくつかの実施形態では、アプリケーションサーバ130の機能の一部または全ては、ローカルコンソールによって実行されてよい。例えば、ローカルコンソールは、ローカル環境における異なるユーザ105に対応する多数のヘッドセット110に接続し、かつ、環境におけるユーザのグループ間の1または複数の共有通信チャネルを維持することができる。いくつかの実施形態では、1つまたは複数のヘッドセット105は、ローカルコンソールを通してアプリケーションサーバ130に接続し得る。
【0050】
図2は、1つまたは複数の実施形態による、共有通信チャネルにおいてユーザが着用し得る音声システムを含むヘッドセット110を示す一例である。ヘッドセット110は媒体をユーザに提示する。1つの実施形態では、ヘッドセット110はニアアイディスプレイ(NED)であってよい。別の実施形態では、ヘッドセット110はヘッドマウントディスプレイ(HMD)であってよい。一般に、ヘッドセットは、ヘッドセットの1つまたは両方のレンズ210を使用してコンテンツ(例えば、媒体コンテンツ)が提示されるようにユーザ(例えば、ユーザ105)の顔面に着用され得る。しかしながら、ヘッドセット110はまた、媒体コンテンツが異なるやり方でユーザに提示されるように使用されてよい。ヘッドセット110によって提示される媒体コンテンツの例として、1つまたは複数の画像、ビデオ、音声、またはこれらの何らかの組み合わせが挙げられる。ヘッドセット110は、音声システムを含み、かついくつかある構成要素の中で特に、フレーム205、レンズ210、カメラアセンブリ235、位置センサ240、視標追跡センサ245、ならびに、音声システムおよびヘッドセット110のさまざまな他のセンサを制御するためのコントローラ215を含んでよい。
図2はヘッドセット110の例示の場所にヘッドセット110の構成要素を示すが、構成要素はヘッドセット110上、ヘッドセット110と対になった周辺機器上、またはこれらの何らかの組み合わせのその他の所に位置し得る。
【0051】
ヘッドセット110は、ユーザの視覚を矯正もしくは拡張し、ユーザの眼を保護し、またはユーザに画像を提供することができる。ヘッドセット110は、ユーザの視力の障害を矯正する眼鏡であってよい。ヘッドセット110は、ユーザの眼を太陽から保護するサングラスであってよい。ヘッドセット110はユーザの眼を衝撃から保護する安全眼鏡であってよい。ヘッドセット110は夜間のユーザの視覚を拡張するための暗視装置または赤外線ゴーグルであってよい。ヘッドセット110はユーザに対する人工現実コンテンツを作り出すニアアイディスプレイであってよい。代替的には、ヘッドセット110は、レンズ210を含まなくてもよく、ユーザに音声コンテンツ(例えば、音楽、ラジオ、ポッドキャスト)を提供する音声システムを有するフレーム205であってよい。
【0052】
レンズ210はヘッドセット110を着用するユーザに光を提供するまたは伝える。レンズ210は、ユーザの視力の障害の矯正に役立つ度付きレンズ(例えば、単焦点、二焦点および三焦点、または累進多焦点)であってよい。度付きレンズは、ヘッドセット110を着用するユーザに環境光を伝える。伝えられた環境光は、ユーザの視力の障害を矯正するための度付きレンズによって改変され得る。レンズ210は、ユーザの眼を太陽から保護するための偏光レンズまたは色付きレンズであってよい。レンズ210は、画像光が、導波路の端部または縁部を通してユーザの眼に結合される導波路ディスプレイの一部としての1つまたは複数の導波路を有してよい。レンズ210は、画像光を提供するための電子ディスプレイを含んでよく、また、電子ディスプレイからの画像光を拡大するための光学ブロックを含んでよい。
【0053】
いくつかの実施形態では、ヘッドセット110は、ヘッドセット110を取り囲むローカルエリアについての視覚情報をキャプチャするカメラアセンブリ235を含むことができる。いくつかの実施形態では、カメラアセンブリ235は、ローカルエリアについての深さ情報を表すデータをキャプチャする深度カメラアセンブリ(DCA)に対応する。いくつかの実施形態では、DCAは、ライトプロジェクタ(例えば、構造化光および/または飛行時間のフラッシュ照明)、イメージングデバイス、およびコントローラを含んでよい。キャプチャされたデータは、ライトプロジェクタによってローカルエリアに投射された光のイメージングデバイスによってキャプチャされた画像であってよい。1つの実施形態では、DCAは、ステレオおよびコントローラにおけるローカルエリアの一部分をキャプチャするために配向される2つ以上のカメラを含んでよい。キャプチャされたデータは、ステレオにおけるローカルエリアの2つ以上のカメラによってキャプチャされた画像であってよい。コントローラは、キャプチャされたデータおよび深度判定技法(例えば、構造化光、飛行時間、立体画像生成など)を使用してローカルエリアの深さ情報を計算する。深さ情報に基づいて、コントローラ215は、ローカルエリア内のヘッドセット110の絶対位置情報を判定することが可能であってよい。DCAは、ヘッドセット110と統合されてよい、またはヘッドセット110の外部のローカルエリア内に位置付けられてよい。後者の実施形態では、DCAのコントローラは、ヘッドセット110のコントローラ215に深さ情報を送信してよい。
【0054】
位置センサ240は、1つまたは複数の測定信号を生成し、かつ生成された信号に基づいてヘッドセット110の現在の位置を推定するように構成される。いくつかの実施形態では、ヘッドセット110の現在の位置は、ヘッドセット110の初期位置に対して判定される。推定された位置は、ヘッドセット110の場所および/もしくはヘッドセット110またはヘッドセット110を着用するユーザの頭の向き、またはこれらの何らかの組み合わせを含んでよい。例えば、向きは基準点に対してそれぞれの耳の位置に対応し得る。カメラアセンブリ235がDCAを含むいくつかの実施形態では、位置センサ240は、ヘッドセット110の現在の位置を推定するためにDCAからの深さ情報および/または絶対位置情報を使用する。位置センサ240は、並進運動(前方/後方、上/下、左/右)を測定するための1つまたは複数の加速度計、および回転運動(例えば、ピッチ、ヨー、ロール)を測定するための1つまたは複数のジャイロスコープを含んでよい。いくつかの実施形態では、位置センサ240は、1つまたは複数の磁力計など、運動を検出するために使用可能である他のタイプのセンサを含む。
【0055】
いくつかの実施形態では、位置センサ240は、受信された測定信号を急速にサンプリングしかつサンプリングされたデータからヘッドセット110の推定された位置を算出する慣性測定装置(IMU)を含む。例えば、IMUは、経時的に加速度計から受信された測定信号を統合して速度ベクトルを推定し、かつ経時的に速度ベクトルを統合してヘッドセット110の基準点の推定された位置を判定する。基準点はヘッドセット110の位置を表すために使用されてよい点である。基準点は一般的に空間の点として定められ得るが、実際には、基準点はヘッドセット110内の点として定められる。いくつかの実施形態では、IMUは、位置センサ240の代わりにローカルコントローラ215の一部分として実装されてよい。
【0056】
視標追跡センサ245は、ユーザの視線方向を判定するために使用可能なセンサの読み取り(例えば、ユーザの眼のキャプチャされた画像)を提供するように構成される。ヘッドセット110を着用する時、ユーザの眼はその頭部に対して移動することができることで、ユーザは自分の頭を移動させる必要なく異なる方向を見ることができる。そのように、ユーザは、(例えば、位置センサ240によって判定されるように)ヘッドセット110の位置および向きに対して直接的な前とは異なる方向を見ている場合がある。
【0057】
いくつかの実施形態では、視標追跡センサ245は、ユーザの眼の向きを判定するように構成される視標追跡センサを含む。視標追跡センサは、ヘッドセット110に対するユーザの眼の向きを判定するためにユーザの眼の画像をキャプチャしかつ解析する。いくつかの実施形態では、視標追跡センサは、1つまたは複数の光源および1つまたは複数のカメラを含む。1つまたは複数の光源は、IR光、例えば、(例えば、飛行時間深さ判定に使用される)赤外線フラッシュ、構造化光パターン(例えば、ドットパターン、バーパターンなど)、グリントパターンなどで眼を照らす。光源は、例えば、垂直共振器面発光レーザ、発光ダイオード、マイクロLED、赤外光IRのその他の光源、またはこれらの何らかの組み合わせであってよい。1つまたは複数のカメラは、1つまたは複数の光源からのIR光で照らされた眼の片目または両目の画像をキャプチャするように構成される。カメラは、1つまたは複数の光源から放出される光を検出するように構成される画像センサ(例えば、相補型金属酸化膜半導体、電荷結合素子など)を含む。いくつかの実施形態では、カメラはまた、他の帯域(例えば、可視帯)における光を検出することが可能であってよい。視標追跡センサは、キャプチャされた画像および深度判定技法を使用してユーザの眼の片目または両目の眼の向きを判定する。深度判定技法は、例えば、構造化光、飛行時間、立体画像生成、当業者にはよく知られているその他の深度判定手順を含んでよい。いくつかの実施形態では、視標追跡センサは、キャプチャされた画像およびユーザの眼のモデルに基づいて眼の向きを判定する。
【0058】
視標追跡センサによって判定された眼の向きは、ユーザの視線方向を判定するために(例えば、位置センサ240を使用して判定されるように)ヘッドセット110の判定された位置と組み合わせられてよい。例えば、(ユーザの頭に対する眼の向きを指示する)ユーザの眼の向きに対応するベクトルは、(ローカル環境においてユーザが見る方向を指示する)ユーザの視線方向に対応するベクトルを判定するために(ローカル環境内のヘッドセットの位置および向きを指示する)ヘッドセットの位置に対応するベクトルに追加可能である。ユーザの視線方向を判定することによって、環境においてユーザが見ている方向が特定され、これによって、共有通信チャネルの他のユーザの位置を知ることを組み合わせて、他のユーザの誰の方をユーザは見ているかに関する判定を可能にすることができる。
【0059】
いくつかの実施形態では、視標追跡センサ245は、さらに、カメラのFOV内のローカルエリアを示すカメラアセンブリ235のカメラからの1つまたは複数の画像を受信し、かつ判定された眼の向きを受信された画像内の場所にマッピングする。いくつかの実施形態では、モジュールは、1つまたは複数の画像内の1つまたは複数のオブジェクト(例えば、他のユーザ)を特定するためにオブジェクト認識を使用し、かつ判定された眼の向きを1つまたは複数の特定されたオブジェクトにマッピングする。
【0060】
ヘッドセット110の音声システムは、ユーザが共有通信チャネル110内の他のユーザと通信できるように構成される。いくつかの実施形態では、音声システムは、マイクロホンアセンブリ225、トランシーバ230、1つまたは複数のスピーカを有するスピーカアセンブリ、およびコントローラ215を含む。コントローラ215は、ヘッドセット110のさまざまな構成要素間の動作を調整するように構成される。例えば、コントローラ215は、ユーザの発話に対応する音声データをキャプチャして、トランシーバ230を介して共有通信チャネル内の他のユーザに送信されるようにマイクロホンアセンブリ225を制御することができる。さらに、コントローラ215は、トランシーバ230を介して、共有通信チャネルの他のユーザに対応する音声データを受信し、かつ(例えば、位置センサ240によって判定されるように)ユーザの現在の位置に対する他のユーザの相対位置に基づいて受信された音声データを処理する(例えば、音声データを空間化するおよび/または強化する)ことができる。処理された音声データはスピーカアセンブリを使用してユーザに対して再生可能である。音声システムに関するさらなる詳細は
図3に関して論述される。
【0061】
マイクロホンアセンブリ225はヘッドセット110のローカルエリア内の音を記録する。ローカルエリアはヘッドセット110を取り囲む環境である。例えば、ローカルエリアは、ヘッドセット110を着用するユーザが中にいる部屋であってよく、またはヘッドセット110を着用するユーザは外部にいてよく、ローカルエリアは、マイクロホンアセンブリが音を検出できる外部域である。マイクロホンアセンブリ225は1つまたは複数の音響センサを含む。いくつかの実施形態では、音響センサは、ヘッドセット110のユーザによる発話を記録するように構成される。そのようにするために、音響センサはユーザの口の近くに位置してよく、かつユーザから生じない他の音をキャプチャすることを回避するために短いキャプチャ範囲を有してよい。いくつかの実施形態では、音響センサは、ユーザの口のより近くに位置するように、別個のマウスピースまたは他の構造体上に位置してよい。
【0062】
いくつかの実施形態では、音響センサは、ヘッドセット110のフレーム205におけるアパーチャに対応するポートを含む。ポートは、音響センサに音を案内する、ローカルエリアから音響導波路への音のインカップリング箇所を提供する。音響センサは、ローカルエリアにおける1つまたは複数のサウンドソースから放出される音をキャプチャし、および音を検出し、かつ検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサは、音響波センサ、マイクロホン、音響変換器、または音を検出するのに適した同様のセンサであってよい。
【0063】
図2は、ヘッドセット110上の一か所に位置付けられるようなマイクロホンアセンブリ225を示し、いくつかの実施形態では、マイクロホンアセンブリ225は、ヘッドセット110上に位置付けられる複数の音響検出場所を有するマイクロホンアレイを含む。それぞれの音響検出場所は音響センサまたはポートを含んでよい。音響検出場所は、ヘッドセット110の外面上に位置する、ヘッドセット110の内面上に位置する、ヘッドセット110から分離している(例えば、その他のデバイスの一部)、またはこれらの何らかの組み合わせの場合がある。
【0064】
トランシーバ230は、他のユーザの他のヘッドセットのトランシーバと通信するように構成される。例えば、トランシーバ230は、共有通信チャネル内の他のユーザのヘッドセットにデータ(例えば、ユーザによる発話に対応する音声)を送信し、かつ他のユーザのヘッドセットからデータ(例えば、他のユーザによる発話に対応する音声信号)を受信してよい。いくつかの実施形態では、トランシーバ230は、アプリケーションサーバまたはコンソール(例えば、共有通信チャネルを維持するように構成されるアプリケーションサーバ)と通信するためにネットワーク(例えば、ネットワーク125)にアクセスしてよい。トランシーバ230は、送信機、受信機、またはこの両方を含んでよい。
【0065】
ヘッドセット110は、ヘッドセット110のユーザに投射される音として1つまたは複数の音声信号を再生するように構成されるスピーカアセンブリをさらに含む。いくつかの実施形態では、スピーカアセンブリは2つ以上のスピーカを含んで、ユーザに投射される音が(例えば、スピーカ220のそれぞれを通して投射される音の振幅を調節することによって)空間化可能になり、それによって、音がローカルエリアにおける特定の場所または方向から生じるようにユーザに聞こえ得るようにする。例えば、
図2に示されるように、スピーカアセンブリは、ユーザの左耳および右耳に対応する左スピーカ220aおよび右スピーカ220bを含んでよい。いくつかの実施形態では、スピーカはユーザの耳(例えば、ヘッドホン)をカバーし得る、またはユーザの耳(例えば、イヤホン)に挿入され得る。
【0066】
図2は、2つのスピーカ(例えば、左スピーカ220aおよび右スピーカ200b)を示し、いくつかの実施形態では、スピーカは、ヘッドセット110上の複数の音響放出場所を含むラウドスピーカアレイを含んでよい。音響放出場所は、ヘッドセット110のフレーム105におけるスピーカまたはポートの場所である。音響放出場所の場合、ポートは、ポートからラウドスピーカアレイのスピーカを分離する音響導波路から音のアウトカップリング箇所を提供する。スピーカから放出される音は、音響導波路を通って伝わった後、ポートによってローカルエリアに放出される。いくつかの実施形態では、音響放出場所は、フレーム205の外面(すなわち、ユーザに面していない表面)、内面(ユーザに面している表面)、またはこれらの何らかの組み合わせ上に位置する。
【0067】
図2は特定の配置におけるヘッドセット110のさまざまな構成要素を示すが、他の実施形態では、ヘッドセット110がここで説明される構成要素と異なる構成要素を含んでいる場合があり、ヘッドセット110の構成要素が異なる構造を有し得るまたは異なって配置され得ることは、理解されたい。いくつかの実施形態では、上記で論じられる機能のいくつかは、異なる構成要素または構成要素の組み合わせによって実行されてよい。
【0068】
示される構成では、音声システムは、ユーザが着用するNEDに埋め込まれる。代替的な実施形態では、音声システムは、ユーザが着用するヘッドマウントディスプレイ(HMD)に埋め込まれてよい。上記の説明ではユーザが着用するヘッドセットに埋め込まれるような音声アセンブリが論じられているが、音声アセンブリが、その他の所でユーザが着用するまたは着用されずにユーザによって動作させる可能性がある異なるヘッドセットに埋め込まれ得ることは、当業者には明らかであると思われる。
【0069】
音声システム
図3は、1つまたは複数の実施形態による音声システム300のブロック図を示す。音声システム300は、ヘッドセット(例えば、ヘッドセット110)の一部として実装されてよく、かつマイクロホンアセンブリ225、トランシーバ230、スピーカアセンブリ330、およびコントローラ215を含んでよい。音声システム300のいくつかの実施形態はここで説明される構成要素と異なる構成要素を有する。同様に、機能は、ここで説明されるのと異なるやり方で構成要素の間で分散可能である。いくつかの実施形態では、音声システムの機能のいくつかは、異なる構成要素の一部であってよい(例えば、いくつかはヘッドセットの一部であってよく、いくつかはコンソールおよび/またはサーバの一部であってよい)。
【0070】
マイクロホンアセンブリ225は、ユーザのローカルエリア内の音をキャプチャするように、およびキャプチャされた音に対応する音声信号を生成するように構成される。いくつかの実施形態では、マイクロホンアセンブリ225は、ユーザによる発話をキャプチャするように構成され、かつ、ヘッドセットのユーザが話す話し声の検出を高めるためにローカルエリアの特定の部分(例えば、ユーザの口の近く)に向けたビームを形成するように構成される複数のマイクロホンを含む。例えば、それぞれのマイクロホンは、マイクロホンによって検出される音に対応する音声入力信号を生成する。それぞれのマイクロホンに対する音声入力信号を解析することによって、ユーザのローカルエリアにおける特定の領域(例えば、ユーザの口の近く)から生じる音が特定可能である。コントローラ215は、特定の領域から生じる音に対応する音声入力信号の一部分を強化することによって音声入力信号からユーザ音声信号を生成する。そのように、ユーザ音声信号は、(例えば、ユーザの発話に対応する)ユーザの口でまたはこの近くで生じる音を反映するように生成可能である。これは、(例えば、込み合った部屋における)他の音源からの大量の音がある環境においても、ユーザの発話の明確な音声信号がキャプチャ可能であるため有用であり得る。
【0071】
トランシーバ230は、ユーザが一部である共有通信チャネル内の他のユーザに対するデータの送信および受信を行うように構成される。例えば、トランシーバ230は、(例えば、ユーザ自身の発話に対応する)マイクロホンアセンブリ225によってキャプチャされた音声データを受信し、かつ受信された音声データを、共有通信チャネル内の他のユーザのヘッドセット上のトランシーバに送信することができる。さらに、トランシーバ230は、(例えば、ローカルコントローラ215によって)処理されかつ(例えば、スピーカ220を介して)第1のユーザに対して再生され得る、(音声出力信号または音声信号と称される)共有通信チャネルの他のユーザによって出力された音声データを受信する。トランシーバ230は、電磁波によって情報を通信しかつ受信する。電磁波は、例えば、無線周波数(RF)、IR、またはこれらの何らかの組み合わせであってよい。いくつかの実施形態では、トランシーバ230は、ローカルエリアにおける他のユーザのトランシーバと通信するためにRFおよび/または赤外線通信を使用する。いくつかの実施形態では、複数のユーザのヘッドセットに対応する複数のトランシーバは、(例えば、BLUETOOTHまたは他のタイプのプロトコルを介して)ローカルネットワークを確立するために互いに通信してよい。いくつかの実施形態では、トランシーバ230はまた、ネットワーク(例えば、インターネット)上でアプリケーションサーバと、または共有通信チャネルを維持するように構成されるローカルコンソールと無線で(例えば、Wi-Fiを介して)通信し得る。さらに、共有通信チャネルがリモートユーザを含むことができる実施形態では、トランシーバ230はアプリケーションサーバまたはローカルコンソールを通してリモートユーザと通信してよい。
【0072】
いくつかの実施形態では、トランシーバ230によって送信されかつ受信されるデータは、送信された/受信された音声データに対応するメタデータを含む。メタデータは、音声データと関連付けられたユーザの識別情報(例えば、ユーザID)、およびユーザの位置が導出可能である情報を指示し得る。例えば、メタデータは、(例えば、ユーザのヘッドセット上の位置センサによって判定されるような)ユーザの現在の位置情報を含んでよい。いくつかの実施形態では、第1のヘッドセット110のトランシーバ230はアンテナアレイを含み、それぞれのアンテナは第1のヘッドセット110上の異なる場所に位置することで、第2のヘッドセットのトランシーバからそれぞれのアンテナによって受信される信号の相対的なタイミングまたは位相は、第2のヘッドセットの相対位置を判定するために使用可能である。
【0073】
スピーカアセンブリ330は、ヘッドセットのユーザに投射される音として1つまたは複数の音声信号を再生するように構成される。上記で論じられるように、いくつかの実施形態では、スピーカアセンブリ330は、(例えば、スピーカのそれぞれを通して投射される音の振幅を調節することによって)ユーザに投射された音が空間化可能になる2つ以上のスピーカを含むことで、音がローカルエリアにおける特定の場所または方向から生じるようにユーザに聞こえ得るようにする。
【0074】
スピーカは、例えば、可動コイル形変換器、圧電変換器、電気信号を使用して音響圧力波を生成するその他のデバイス、またはこれらの何らかの組み合わせであってよい。いくつかの実施形態では、スピーカアセンブリ330はまた、それぞれの耳をカバーするスピーカ(例えば、ヘッドホン、イヤホンなど)を含む。他の実施形態では、スピーカアセンブリ330は、ユーザの耳をふさぐいずれのスピーカも含まない(例えば、スピーカはヘッドセットのフレーム上にある)。
【0075】
コントローラ215は、マイクロホンアセンブリ225、トランシーバ230、およびスピーカアセンブリ330を動作させるための回路モジュールを含む。これらは、データストア335、チャネル構成回路305、位置追跡回路310、視線判定回路315、信号操作回路320、および音声フィルタリング回路325を含んでよい。
図3は異なる回路に対応するようなコントローラ215として構成要素を示すが、他の実施形態では、チャネル構成回路305、位置追跡回路310、視線判定回路315、信号操作回路320、および音声フィルタリング回路325がソフトウェア(例えば、ソフトウェアモジュール)、ファームウェア、ハードウェア、またはこれらの任意の組み合わせで具現化可能であることは理解されたい。
【0076】
データストア335は、コントローラ215のさまざまな他のモジュールによって使用されるデータを記憶する。記憶されたデータは、共有通信チャネルの1つまたは複数のパラメータ(例えば、共有通信チャネルの他のユーザの識別情報、共有通信チャネルにアクセスするための認証情報など)を含むことができる。記憶されたデータは、ユーザと関連付けられた位置情報(例えば、位置センサ240によって判定されるようなユーザの場所および姿勢)および/または(例えば、他のユーザのヘッドセットから受信される)他のユーザの音声システムと関連付けられた位置情報を含んでよい。いくつかの実施形態では、データストア335はローカルエリアの1つまたは複数のモデルを記憶し得る。例えば、コントローラ215は、ローカル環境におけるユーザおよび他のユーザの位置、(例えば、カメラアセンブリ235を使用して検出する)ローカル環境における1つまたは複数のオブジェクトなどを指示するローカルエリアのモデルを生成し得る。データストア335はまた、1つまたは複数の視標追跡パラメータ(例えば、視標追跡に使用される光パターン、ユーザの眼のモデルなど)、音声コンテンツ(例えば、記録された音声データ、受信された音声データなど)、音声コンテンツを空間化するための1つまたは複数のパラメータ(例えば、頭部伝達関数)、音声コンテンツを強化するための1つまたは複数のパラメータ(例えば、注意スコアを判定するためのアルゴリズム)、音声コンテンツをフィルタリングするための1つまたは複数のパラメータ、音声システム300によって使用されるその他の情報、またはこれらの何らかの組み合わせを記憶することができる。
【0077】
チャネル構成回路305は、共有通信チャネルにおけるユーザのメンバーシップを維持するように構成される。本明細書で使用される際、共有通信チャネルにおいてユーザのメンバーシップを維持することは、例えば、共有通信チャネルを確立すること、既存の共有通信チャネルに対するメンバーとしてユーザを追加することおよび/もしくは削除すること、(例えば、アプリケーションサーバとのまたは共有通信チャネルにおける他のユーザの音声システムとの通信を介して)共有通信チャネルの1つまたは複数のパラメータを更新すること、共有通信チャネルと関連付けられた他のアクションを行うこと、またはこれらの何らかの組み合わせを含んでよい。
【0078】
いくつかの実施形態では、ユーザは、1または複数の追加のユーザに対応する情報を(例えば、ユーザインターフェースを介して、スキャン装置を介してなどで)チャネル構成回路305に提供することによって共有通信チャネルを確立してよい。それに応じて、チャネル構成回路305は、共有通信チャネルを確立して、ユーザおよび1または複数の追加のユーザを含んでよい。いくつかの実施形態では、チャネル構成回路305は、共有通信チャネルを確立するために(例えば、トランシーバ230を介して)追加のユーザのそれぞれと関連付けられたチャネル構成回路にデータを送信する。
【0079】
いくつかの実施形態では、共有通信チャネルにおけるそれぞれのユーザと関連付けられたチャネル構成回路は、対応するデータストア(例えば、データストア335)においてチャネルに対応する情報を記憶する。情報は、共有通信チャネル内の他のユーザの識別情報、共有通信チャネル上で通信するために必要な認証情報などを含んでよい。いくつかの実施形態では、チャネル構成回路305は、チャネルのユーザメンバーシップの変更(例えば、新たなユーザがチャネルに参加する、ユーザがチャネルを出る、ユーザの優先レベルの変更)、チャネルと関連付けられた認証情報の変更、チャネルの他のパラメータの変更、またはこれらの何らかの組み合わせなど、1つまたは複数のチャネルパラメータの変更を検出し得る。チャネルパラメータの変更を検出することに応答して、チャネル構成回路305は、チャネルにおける他のユーザのチャネル構成回路に変更を通信してよい。そのように、ユーザのチャネル通信回路は、それぞれのチャネル通信回路が共有通信チャネルに関する最新のパラメータにアクセスできるように互いに調整可能であることで、それぞれの音声システム300はチャネルの他のユーザの音声システムと通信可能である。
【0080】
他の実施形態では、チャネル構成回路305は、(例えば、共有通信チャネルに含まれることになるそれぞれのユーザの音声システムのチャネル構成回路と通信することによって)共有通信チャネルの確立を調整するアプリケーションサーバと(トランシーバ230を介して)通信する。例えば、チャネル構成回路305は、共有通信チャネルにおける参加を指示するために、および共有通信チャネルと関連付けられたパラメータ(例えば、共有通信チャネル内の他のユーザの識別情報、共有通信チャネル上で通信するために必要な任意の認証情報など)を受信するためにアプリケーションサーバと通信する。さらに、チャネル通信回路305は、チャネルにおけるユーザの参加に関連しているいずれの変更も指示するためにアプリケーションサーバと通信してよい。アプリケーションサーバは、共有通信チャネルに対するパラメータを維持することを担う場合があり、かつ、チャネル通信回路がチャネルの最新のパラメータに確実にアクセスするように、チャネルに参加しているユーザに対応するパラメータをチャネル通信回路に通信する。
【0081】
位置追跡回路310は、ユーザの現在の位置を判断するように構成される。位置追跡回路310は、位置センサ(例えば、位置センサ240)からユーザのヘッドセットに対応する位置情報を受信し、かつ受信される位置情報に基づいてヘッドセットの現在の位置を判定する。ユーザのヘッドセットの位置は、ローカル環境内のユーザの場所、および、ユーザの向き(例えば、以降、ユーザの「頭の向き」とも称されるユーザの頭上のヘッドセットの向き)を指示し得る。いくつかの実施形態では、ユーザの位置は基準点に対して算出される。いくつかの実施形態では、位置追跡回路310の1つまたは複数の機能はIMUによって実行される。
【0082】
位置追跡回路310は、共有通信チャネルの他のユーザに対応する位置情報を判定するようにさらに構成されてよい。いくつかの実施形態では、他のユーザに対応する位置情報は、他のユーザのヘッドセットから直接(例えば、トランシーバ230を介して)受信されてよい。例えば、位置情報は、共有通信チャネルの1または複数の他のユーザから受信された音声データを伴うメタデータとして受信されてよく、この位置情報は、(例えば、他のユーザのヘッドセットの位置追跡モジュールによって判定されるように)音声データが受信されたユーザの現在の位置を指示する。いくつかの実施形態では、位置追跡回路310は、ユーザの現在の位置に対する他のユーザのそれぞれの相対位置を判定するために他のユーザの得られた位置情報を使用する。いくつかの実施形態では、位置追跡回路310は、ローカルエリアのモデルを生成するまたは更新するために他のユーザの判定された位置を使用してよい。
【0083】
他の実施形態では、位置追跡回路310は、他のユーザのヘッドセット上のアンテナアレイの複数のアンテナから受信された信号を解析することに基づいて他のユーザの位置を判定する。例えば、いくつかの実施形態では、第1のヘッドセットの音声システム300のトランシーバ230はアンテナアレイを含み、それぞれのアンテナは第1のヘッドセット上の異なる場所に位置する。第1のヘッドセットの位置追跡回路310は、アレイのそれぞれのアンテナで受信される第2のヘッドセットのトランシーバからの信号を解析し、かつ受信された信号の相対的なタイミングまたは位相に基づいて第2のヘッドセットの相対位置を判定する。他の実施形態では、トランシーバ230は第2のヘッドセットのトランシーバによって送信される複数の異なる信号を受信し、この場合、第2のヘッドセットのトランシーバは第2のヘッドセットの異なる場所における複数のアンテナを含むアンテナアレイである。位置追跡回路310は、受信された信号(例えば、受信された信号のタイミングまたは位相)を解析し、これによって、第1のヘッドセットに対する第2のヘッドセットの相対位置を判定することができる。
【0084】
視線判定回路315は、(例えば、ユーザの眼のキャプチャされた画像など、視標追跡センサ245による視標追跡測定値に基づいて)ヘッドセットを着用するユーザの視線方向を判定するように構成される。本明細書で使用される際、ユーザの視線方向はローカル環境においてユーザが見ている方向に対応する。いくつかの実施形態では、ユーザの視線方向は、ユーザの頭の向きおよびユーザの眼の位置の組み合わせに基づいて判定される。例えば、視線判定回路315は、(例えば、位置追跡回路310によって判定されるように)ユーザの現在の眼の向きおよびユーザの頭の向きを判定するために視標追跡センサ245からの1つまたは複数の視標追跡測定値(例えば、視標追跡カメラによってキャプチャされたユーザの眼の1つまたは複数の画像)を受信し、かつローカル環境内のユーザの視線方向を判定するために判定された眼の向きでユーザの頭の向きを修正することができる。例えば、ユーザの頭は第1の方向を向いている場合がある。しかしながら、ユーザの眼が第1の方向から目をそらすように配向される(例えば、まっすぐ前を見ていない)場合、ユーザの視線方向はユーザの頭の向きと異なるようになる。
【0085】
いくつかの実施形態では、視線判定回路315はまた、カメラのFOV内のカメラアセンブリ235からのローカルエリアの1つまたは複数の画像を受信し、かつ判定された眼の向きを受信された画像内のある場所にマッピングする。視線判定回路は、マッピングされた場所に対応する1つまたは複数の画像内の1つまたは複数のオブジェクト(例えば、他のユーザ)を特定するためにオブジェクト認識を使用して、ユーザの視線方向が1つまたは複数の特定されたオブジェクトと合致するかどうかを判定してよい。いくつかの実施形態では、特定されたオブジェクトはローカルエリアのモデルを生成するまたは更新するために使用されてよい。例えば、1つまたは複数の画像内の他のユーザなどの特定されたオブジェクトの場所は、ユーザが特定されたオブジェクトのいずれかを見ているかどうか、特定されたオブジェクトがユーザに対して位置する場所、ユーザが特定されたオブジェクトに対する見通し線を有するかどうかなどを判定するために使用されてよい。
【0086】
図3は、位置追跡回路310および視線判定回路315を別個のモジュールであるように示しているが、いくつかの実施形態では、位置追跡回路310および視線判定回路315は単一のモジュールとして実装されてよい。例えば、単一の視線判定回路は、ユーザの位置、ユーザの頭の向き、およびユーザの頭に対する眼の向きを判定するためにセンサ測定値(例えば、位置センサ240からの位置データ、および視標追跡センサ245からの視標追跡データ)を受信して、これらから、ユーザの視線方向が判定可能である。
【0087】
信号操作回路320は、それぞれが共有通信チャネルの別のユーザの音声システム(「送信側音声システム」と称される)に対応する、トランシーバ230を介して受信される1つまたは複数の音声信号を受信し、かつユーザに対する他の音声システムの相対位置に基づいて、ユーザに提示されることになる音声データを生成するように信号を操作するように構成される。
【0088】
信号操作回路320は、ユーザの現在の位置に対する送信側ユーザの相対位置を特定する。位置情報は、位置判定モジュール310から受信されてよい。いくつかの実施形態では、信号操作回路320は、送信側ユーザの相対位置を判定するためにローカルエリアにおけるそれぞれのユーザに関する位置情報を含んでいるローカルエリアのモデルにアクセスする。さらに、信号操作回路320は、視線判定回路315からユーザの現在の視線方向の指示を受信してよい。ユーザの相対位置に基づいて、信号操作回路320は、送信側ユーザからの音声信号を空間化することで、(例えば、スピーカ220を介して)ユーザに対して再生される時、音が送信側ユーザの場所から生じるように思えるようになり得る。
【0089】
いくつかの実施形態では、信号操作回路320は、音声システムと関連付けられた、1つまたは複数の生成された音響伝達関数に基づいて音声信号を空間化する。音響伝達関数は、頭部伝達関数(HRTF)または他のタイプの音響伝達関数であってよい。HRTFは空間の点からの音を耳がどのように受信するかを特徴付ける。人に対する特定の音源場所についてのHRTFは、人の耳に伝わる時に音に影響する人の解剖学的組織(例えば、耳の形、肩など)により人のそれぞれの耳に特有である(および人に特有である)。例えば、いくつかの実施形態では、信号操作回路320は、さまざまな周波数および相対位置に対応する、それぞれの耳に対して1つの、ユーザに対するHRTFの2つのセットを生成することができる。HRTFまたは一対のHRTFは、空間の特定の点から(例えば、送信側音声システムの場所から)生じるように思われる音を含む音声コンテンツを作成するために使用可能である。いくつかのHRTFは、(例えば、家庭用娯楽システム、シアタースピーカシステム、没入環境などに対する)サラウンドサウンド音声コンテンツを作成するために使用されてよく、この場合、それぞれのHRTFまたはHRTFのそれぞれの対は、音声コンテンツが空間のいくつかの異なる点から聞こえてくるように思われる、空間の異なる点に対応する。HRTFを生成するさらなる例は、「Audio System for Dynamic Determination of Personalized Acoustic Transfer Functions」という名称の、米国特許出願第16/015,879号に記載されており、この内容全体は参照により本明細書に組み込まれる。
【0090】
いくつかの実施形態では、信号操作回路320は、強化方向に対する送信側ユーザの位置に基づいて音声信号を強化してよい。本明細書で使用される際、ユーザの強化方向は、ユーザが注意を向けていると推論される方向を指すことができる。いくつかの実施形態では、ユーザの強化方向は、ユーザの視線方向に対応する場合がある。他の実施形態では、強化方向は、ユーザの頭の向き、および/またはユーザの胴体に対する頭の向きなどに基づいてよい。論述を容易にするために、強化方向は主として視線方向に対応すると論じられるものになるが、強化方向が他の実施形態ではユーザに対する他の方向に対応し得ることは理解されたい。
【0091】
本明細書で使用される際、音声信号を強化することは、音声信号を正方向に強化すること(例えば、他の音または音声信号に対する音声信号の振幅を増大させること)、または音声信号を逆方向に強化すること(例えば、他の音または音声信号に対する音声信号の振幅を減少させること)のどちらかを指す場合がある。例えば、いくつかの実施形態では、ユーザが見ている(例えば、ユーザが送信側ユーザに注意を向けていることを含意する)送信ユーザ側からの音声信号は、ユーザの視線方向に基づいて判定されるように、正方向に強化されるが、ユーザが見ていない他の送信側ユーザからの音声信号は逆方向に強化される。これによって、ユーザは、ある特定のユーザ(例えば、該ユーザが注意を向けている送信側ユーザ)からの発話により容易に集中できるようにすることが可能であり、特に、多数のユーザが同時に話している場合に他のユーザからの発話に注意をそらされることが少なくなる。いくつかの実施形態では、信号操作回路320は、それぞれの送信側ユーザに対して算出される「注意スコア」に基づいてそれぞれの受信された音声信号を強化し、このことは、
図4に関してより詳細に後述される。
【0092】
信号操作回路320は、ユーザの耳がユーザの頭の定位置にあることにより、ユーザの頭の向きに基づいて受信された音声データを空間化してよい。他方では、信号操作回路320は、ユーザの視線方向に基づいて音声データを強化して、ユーザが実際に見ているまたは注意を向けている他のユーザから生じる音声データをより良く強調する。
【0093】
上記の論述は主として、ユーザの視線方向に基づいて音声データを強化することに言及するが、他の実施形態では、音声データの強化は、ユーザの頭の方向、ユーザの胴体に対する頭の角度によって修正されたユーザの頭の方向、またはこれらの何らかの組み合わせなどの他の方向に基づいてよい。
【0094】
信号操作回路320は、スピーカアセンブリ330のスピーカに空間化されかつ強化された音声信号をさらに出力する。例えば、信号操作回路320は、行われる空間化および/または強化に基づいて、スピーカアセンブリ320のスピーカのそれぞれに異なる振幅の音声信号を出力してよい。
【0095】
音声フィルタリング回路325は、(例えば、マイクロホンアセンブリ225によってキャプチャされるように)ユーザによる発話に対応するユーザ音声信号を受信するように、およびユーザ音声信号に対するフィルタリングを行うように構成される。ユーザ音声信号は共有通信チャネルにおける他のユーザに送信されてよい。さらに、いくつかの実施形態では、ユーザ音声信号はまた、スピーカアセンブリ330を通してユーザに対して再生可能である。
【0096】
いくつかの実施形態では、共有通信チャネルのユーザは互いに近い場合があるため、ユーザは送信側ユーザの発話の実際の音を聞き、かつ、送信側ユーザの発話に対応するこれらのヘッドセットを通して音声信号を受信することが可能であってよい。受信された音声信号を処理するために必要とされる時間により、音声データは、送信側ユーザの発話がユーザの場所で聞くことができた後に、(例えば、スピーカアセンブリ330を通して)ユーザに提示され得る。送信側ユーザの実際の発話がユーザの場所で聞くことができる時と、送信側ユーザの音声データがスピーカアセンブリ330を通してユーザに対して再生される時との間の遅延は、処理遅延と称される。処理遅延が一定の時間を超える場合、第1のユーザに提示される音声データは第1のユーザに対してエコーのように聞こえる場合がある。これは、ユーザにとって気をそらされる場合がある望ましくないオーディオ効果をもたらす。例えば、いくつかの実施形態では、エコー効果は、処理遅延が10~15msを上回る時にもたらされる。
【0097】
いくつかの実施形態では、音声フィルタリング回路325は、(以降、「拡散ユーザ音声信号」と称される)時間的に分散したユーザ音声信号を作り出すようにユーザ音声信号の位相を操作する全域通過フィルタを含む。拡散ユーザ音声信号は、元のフィルタ未処理の信号と同じ全エネルギーを有するユーザ音声信号の複数の拡散反射を含んでよい。発話に対応する音について、ユーザ音声信号を拡散することによって、フィルタ未処理の信号と比較して、別個の聴覚イベントとして人間の耳が検出可能なユーザ音声信号を少なくすることができる。これによって、ユーザ音声信号は、別個のエコーとしてユーザ音声信号を受信する他のユーザによって検出される前により長い処理遅延を受けることが可能になる。ユーザ音声信号を拡散することの例について、以下に
図5に関してより詳細に説明する。本論述は、ユーザ音声信号を共有通信チャネル内の他のユーザに送信する準備をしてユーザ音声信号に対して時間的分散を行う音声フィルタリング回路325に言及するが、いくつかの実施形態では、音声フィルタリング回路325は、ユーザ音声信号に対する時間的分散を行う代わりに、ユーザに対して再生する前に他のユーザの音声システムから受信された音声信号に対して時間的分散を行う。いくつかの実施形態では、他のフィルタリング技法を使用することができる。例えば、音声フィルタリング回路325は、いくつかの実施形態では、ユーザ音声信号を時間的に拡散することの代わりまたはこれに加えて、ユーザ音声信号の周波数振幅スペクトルを修正してよい。
【0098】
いくつかの実施形態では、音声フィルタリング回路325は、音声システム300のユーザに対して再生されるように修正されたユーザ音声信号を生成するためにユーザ音声信号をさらにフィルタリングする。ユーザがノイズ環境で話しているおよび/またはマイクロホンに話しかけている時、ユーザは、ノイズ環境でかき消された自身の声が聞こえないことにより自身の声の音量に気付かない場合が多い。そのように、ユーザはうっかりして自分の声を必要以上に張り上げる場合がある。
【0099】
ユーザが環境のノイズの中で大声を出そうとしないようにするために、ユーザ音声信号のバージョンはユーザに対して再生可能であり、それによって、ユーザはより精確に自分の声の音量に近づけることができる。人は、(例えば、空気中の音波に加えて自分の耳に達する自分の声帯によって引き起こされる自分の頭蓋骨の振動により)マイクロホンによってキャプチャされる声の聞こえ方と異なって自身の声が聞こえるため、ユーザ音声信号は、ユーザが、自身の声としてユーザ音声信号の音を認識するために修正されてよい。いくつかの実施形態では、ユーザ音声信号は、ユーザによって感知されるユーザの声に対する頭蓋骨の振動の効果に近い1つまたは複数のフィルタを通過させる。いくつかの実施形態では、1つまたは複数のフィルタは、一般的に(例えば、平均的な頭蓋骨の形状およびサイズに基づいて)ほとんどの人達に適用可能であるように構成される。他の実施形態では、1つまたは複数のフィルタは1つまたは複数のユーザ設定に基づいてカスタマイズされてよい。例えば、ヘッドセット110のユーザは、セットアップ期間中、フィルタの1つまたは複数の設定を、ユーザの自分の声の聞こえ方により近似するように構成することができる。いくつかの実施形態では、フィルタはローパスフィルタを含んでよく、この場合、ユーザはフィルタの傾きおよび遮断周波数を調節できる。いくつかの実施形態では、フィルタは、一連の、1つまたは複数の調節可能なバイカッドフィルタ、FIR(有限インパルス応答)フィルタ、またはこれらの何らかの組み合わせを含んでよい。
【0100】
そのように、ユーザ音声信号のフィルタリングされたバージョンをユーザにフィードバックすることによって、ユーザは、ノイズ環境においても自分の声の音量を精確に評価することができ、かつ自分の声を不必要に張り上げることを回避できる。いくつかの実施形態では、ユーザ音声信号のフィルタリングされたバージョンは、(例えば、マイクロホンアセンブリを使用して測定された)環境におけるノイズ量が閾値を超える場合にユーザに対してのみ再生されることで、環境におけるノイズ量がユーザが自身の声を聞くことができると予期できるようにされる場合にフィルタリングされたユーザ音声信号がユーザに対して再生されないようにする。
【0101】
位置に基づく音声空間化および強化
図4は、1つまたは複数の実施形態による、共有通信チャネルによる複数のユーザを有する環境の一例を示す。環境は、共有通信チャネルの一部である、第1のユーザ405A、ならびに追加のユーザ405B、405C、および405D(ユーザ405と総称される)を含む複数のユーザを含んでいる。それぞれのユーザ405は、共有通信チャネルの他のユーザと通信するためにユーザによって使用される音声システムを含んでいる対応するヘッドセット410を着用している。説明を簡単にするために、第1のユーザ405Aが着用するヘッドセット410のみが
図4に標示される。
【0102】
第1のユーザ405Aのヘッドセット410は、第1のユーザ405Aの位置および視線方向を判定するように構成される位置センサおよび視標追跡センサを含み、これらは第1のユーザ405Aに対する強化方向415を判定するために使用されてよい。
図4は、第1のユーザ405Aの強化方向415がヘッドセット410およびユーザ405Aの頭の向きと合致するように示すが、強化方向415はユーザ405Aの頭の向きと合致しなくてもよい。例えば、いくつかの実施形態では、強化方向415はユーザ405Aの視線方向に対応してよい。そのように、ユーザ405Aが自分の眼を動かすと、強化方向415はユーザ405Aの位置およびユーザ405Aの頭の向きが静止したままの場合でも変化し得る。他の実施形態では、ユーザ405Aの強化方向は、(例えば、ユーザの頭の向きに基づく)ユーザの頭の方向、ユーザの頭の向きと胴体の向きとの間の角度によって修正されるユーザの頭の方向(例えば、ユーザの頭と胴体との間の角度が大きくなるとユーザの頭の方向から外れる強化方向415)、または、これらの何らかの組み合わせに対応し得る。
【0103】
環境内の他のユーザ405B、405C、および405Dのそれぞれは、送信側ユーザであってよい。ユーザ405B、405C、および405Dのそれぞれによる発話に応答して、音声データは(例えば、これらの対応するヘッドセットによって)記録され、かつ第1のユーザ405Aのヘッドセット410(および、該チャネルに参加している他のユーザ)に送信される。ヘッドセット410の信号操作回路320は、それぞれのユーザに対する音声信号がどのように操作されるべきかを判定するために他のユーザのそれぞれの相対位置を解析する。
【0104】
いくつかの実施形態では、第1のユーザ405Aのヘッドセット410の音声システムは、ユーザ405Aに音声信号を送信する送信側ユーザのそれぞれに対応する位置情報を判定し、かつ送信側ユーザのそれぞれに対して、第1のユーザ405Aの頭の向きに対する送信側ユーザの相対位置、および第1のユーザ405Aの強化方向415に対する送信側ユーザの位置の間の偏差を判定する。
【0105】
第1のユーザ405Aの頭に向きに対する送信側ユーザの相対位置は、送信側ユーザから受信される音声信号を空間化するために音声システムによって使用される。判定された相対位置および判定されたユーザ405Aの現在の頭の向きを使用して、音声システムは、ヘッドセット410のスピーカアセンブリを介してユーザ405Aに投射される時、音声信号の音が対応する送信側ユーザの場所から生じるように思えるように音声信号を空間化する。いくつかの実施形態では、音声システムは、スピーカアセンブリのそれぞれのスピーカに対応する1つまたは複数の重みを設定することによって、音声信号を空間化する。いくつかの実施形態では、音声システムは、音声信号を空間化するためにHRTFを使用する。スピーカアセンブリのスピーカのそれぞれを通してユーザ405Aに投射される音声信号の振幅を調節することによって、結果として生じる音は、(例えば、送信側ユーザの場所に対応する)異なる場所から生じるかのように思えるようにできる。
【0106】
例えば、
図4に示されるように、ユーザ405Bはユーザの前方に向いて位置する。そのように、ユーザ405Bからの音声信号は、結果として生じる音がユーザ405Aの前方から生じるようにユーザ405Aによって感知されるように空間化される。他方では、ユーザ405Cおよびユーザ405Dは、ユーザ405Aの左および右に対してそれぞれに位置する。そのように、音声システムは、ユーザ405Cおよび405Dに対応する音声がユーザ405Cおよび405Dの各場所から生じるように思えるように、各音声信号を空間化する。
【0107】
いくつかの実施形態では、空間化は、リモートユーザである送信側ユーザからユーザ405Aによって受信される音声信号には行われない。他の実施形態では、空間化は、ある特定のタイプのリモートユーザ(例えば、ユーザ405Aから閾値距離内の場所と関連付けられたリモートユーザ)から受信された音声信号には行われ得る。
【0108】
さらに、いくつかの実施形態では、空間化は、ユーザ405Aと送信側ユーザとの間に見通し線がない場合行われない。例えば、音声システムは、いくつかの実施形態では、(例えば、カメラアセンブリ235または他のタイプのセンサを使用して判定される)ローカルエリア内の壁などのある特定のタイプのオブジェクトに気付く場合がある。ユーザ405Aと送信側ユーザとの間のベクトル425が、このようなオブジェクトを横断することで、ユーザ405Aと送信側ユーザとの間に見通し線がないことを指示する場合、送信側ユーザからの音声信号は空間化されない場合がある。いくつかの実施形態では、見通し線がない場合の送信側ユーザからの音声信号は、ユーザ405Aと送信側ユーザとの間の距離が閾値未満である場合に空間化されてよいが、該距離が閾値以上である場合は空間化されない。閾値は、所定の量であってよい、または、1つもしくは複数のユーザ入力、ローカルエリアの1つもしくは複数の判定された属性(例えば、部屋のサイズ)、またはこれらの何らかの組み合わせに基づいて動的に判定されてよい。
【0109】
さらに、音声システムは、ユーザ405Aの強化方向415からのそれぞれの対応する送信側ユーザの場所の偏差に基づいて、それぞれの受信された音声信号を強化する。本明細書で使用される際、ユーザ405Aの強化方向からの送信側ユーザ(例えば、ユーザ405C)の場所の偏差は、ユーザ405Aの強化方向415と、ユーザ405Aおよび405Cを接続するベクトル425との間で測定された角度に基づいて判定されてよい。いくつかの実施形態では、音声システムはまた、ユーザ405Aからのそれぞれの対応する送信側ユーザの場所の距離に基づいて、それぞれの受信される音声信号を強化し得る(例えば、ユーザ405Aに近い送信側ユーザからの音声信号は、もっと遠い送信側ユーザからの音声信号と比較してより強力に強化される)。
【0110】
多数の他のユーザからの多数の音声信号が受信されかつユーザ405Aに投射される場合、ユーザ405Aが、音声信号が空間化される場合でも、あるユーザの発話に集中することは困難である場合がある。受信された音声信号を選択的に強化することによって、ユーザ405Aは、注意を向けている他のユーザからの発話により容易に集中することができ、注意を向けていないユーザからの発話によって気をそらされることが少なくなり得る。
【0111】
いくつかの実施形態では、ユーザ405Aが注意を向けているのはどの送信側ユーザかは、ユーザ405Aの強化方向415に基づいて推論可能である。例えば、ユーザ405Aの強化方向415が別のユーザの場所と合致する場合、ユーザ405Aは該ユーザに注意を向けていると推論可能である。例えば、
図4に示されるように、ユーザ405Aは、ユーザ405Bに注意を向けていると推論可能である。いくつかの実施形態では、ユーザ405Aは、他のユーザの場所が強化方向415からの閾値偏差420内にある場合、別のユーザに注意を向けていると推論され得る。例えば、
図4に示されるように、ユーザ405Aは、ユーザ405Cおよび405Dが強化方向415から閾値偏差以上離れていることにより、ユーザ405Cおよび405Dに注意を向けていないと推論され得る。いくつかの実施形態では、強化方向415からの閾値偏差420内に多数の送信側ユーザがいる場合、ユーザ405Aは、ユーザ405Aに最も近い場所における送信側ユーザ、強化方向415からの最小の偏差を有する場所における送信側ユーザ、またはこれらの何らかの組み合わせに注意を向けているとみなされ得る。
【0112】
いくつかの実施形態では、「注意スコア」は共有通信チャネルの他のユーザのそれぞれに対して算出可能である。注意スコアは、他のユーザから受信される音声信号をどの程度まで強化するかを判定するために、ユーザが別のユーザに注意を向けているとどのくらい推論できるかを指示する測定基準として機能し得る。特定のユーザに対する注意スコアは、第1のユーザ405Aの強化方向415からのユーザの場所の偏差、第1のユーザ405Aの場所に対するユーザの場所の距離、またはこれらの何らかの組み合わせに基づいてよい。いくつかの実施形態では、注意スコアは1つまたは複数の因子の集合(例えば、加重和)として判定される。
【0113】
音声システムは、ユーザ405Aが送信側ユーザに注意を向けているかどうかに基づいて(例えば、送信側ユーザの注意スコアに基づいて)送信側ユーザから受信される音声信号を強化する。例えば、音声システムは、ユーザ405Aが送信側ユーザに注意を向けていると推論される場合、音声信号を正方向に強化し、ユーザ405Aが送信側ユーザに注意を向けていないと推論される場合、音声信号を正方向に強化しない。さらに、いくつかの実施形態では、音声信号は、ユーザ405Aが送信側ユーザに注意を向けていないと推論される場合に逆方向に強化され得ることで、ユーザ405Aが注意を向けている送信側ユーザから生じる音声信号から気をそらされることが最小限に抑えられる。いくつかの実施形態では、送信側ユーザの音声信号は、ユーザ405Aが注意を向けていると判定される別の送信側ユーザが存在するかどうかに基づいて強化され得る(例えば、ユーザ405Cからの音声信号は、ユーザ405Aがユーザ405Bに注意を向けていると推論される場合は逆方向に強化されるが、強化方向415の閾値偏差420内にユーザがいない場合は逆方向に強化されない)。
【0114】
いくつかの実施形態では、音声システムは、対応する送信側ユーザの注意スコアに基づいて受信された音声信号を強化する。いくつかの実施形態では、強化量は、他のユーザの注意スコア(例えば、他の送信側ユーザに対する送信側ユーザのスコアのランキング)にさらに基づく場合がある。例えば、
図4に示される例では、ヘッドセット410の音声システムは、それぞれの送信側ユーザの場所の偏差をユーザ405Aの強化方向415と比較することによって、送信側ユーザ405Bおよび405Cからの音声信号をどれくらい強化するかを判定し、かつ比較の結果に基づいてそれぞれの音声信号を強化してよい。例えば、いくつかの実施形態では、第1の送信側ユーザからの音声信号は、第2の送信側ユーザが存在しなかった(例えば、音声信号を現在送っていない)または第1の送信側ユーザと比較して注意スコアがより低い場合と比較して、(例えば、ユーザの視線方向からの偏差がより低いことにより)より高い注意スコアを有する第2の送信側ユーザがいる場合により少ない強化がなされ得る。
【0115】
送信側ユーザに対する注意スコアがユーザ405Aの強化方向415に基づくため、ユーザ405Aの強化方向415が(例えば、該ユーザの頭または眼の移動により)変化すると、送信側ユーザのそれぞれに対する注意スコアはそれに応じて調節される場合があり、それによって、それらの対応する音声信号に対する異なる強化量が生じる。いくつかの実施形態では、それぞれの送信側ユーザの注意スコアは周期的に更新される。いくつかの実施形態では、送信側ユーザの注意スコアは、音声システムが、閾値を超えるユーザ405Aの強化方向415の変化を検出する場合、更新される。
【0116】
強化方向415がユーザの視線方向に対応する実施形態では、ユーザ405Aの眼が潜在的に非常に急速に移動し得るため、強化方向415は潜在的に非常に急速に変化する可能性がある。いくつかの実施形態では、強化方向415は、ユーザ405Aの視線が少なくとも閾値時間に閾値以上変化しなければ更新されないことで、ユーザ405Aによる任意の眼の移動の影響が低減される。
【0117】
いくつかの実施形態では、送信側ユーザの注意スコアは、送信側ユーザの強化方向にさらに基づいてよい。例えば、送信側ユーザの強化方向がユーザ405Aに向いている場合、送信側ユーザに対応する音声信号は、送信側ユーザの視線方向がユーザ405Aに向かっていない場合と比較してより強力になるように信号操作回路320によって修正可能である。例えば、
図4に示されるように、ユーザ405Cからの音声信号は、ユーザ405Dからの音声信号と比較して、両方のユーザがユーザ405Aの強化方向415からの偏差の同様の大きさを有しても、より強化され得る。いくつかの実施形態では、送信側ユーザの注意スコアに対する送信側ユーザの向きまたは視線方向の重みは、強化方向415からの送信側ユーザの場所の偏差に基づいて変わる場合がある。
【0118】
共有通信チャネルが1または複数のリモートユーザを有するいくつかの実施形態では、信号操作回路320は、ユーザ405Aがローカルエリアにおける別のユーザに現在注意を向けているかどうかに基づいて、リモートユーザからの音声信号を強化してよい。いくつかの実施形態では、ユーザ405Aは、特定の送信側ユーザからの音声信号の強化のやり方に対する1つまたは複数の修正を、ユーザインターフェースを介して指示することができる。
【0119】
各送信側ユーザの相対位置に基づいて受信される音声信号を処理する(例えば、空間化するおよび/または強化する)ことによって、信号操作回路320は、ひいては、ユーザ405Aが、(例えば、これらのユーザからの音声信号を正方向に強化することによって)ユーザが注意を向けている他のユーザからの音声を聞きかつこれに集中することを容易にし、かつ、ユーザ405Aが、音声信号が受信される他のユーザが位置する場所をより良く感じ取ることができる。
【0120】
エコー低減のための音声フィルタリング
図5は、1つまたは複数の実施形態によるユーザ音声信号をフィルタリングする図を示す。
図5は、第1のユーザの外耳道の穴で測定される音声信号を示す第1のグラフ505を示す。第1のユーザの音声システムは、共有通信チャネル上で第2のユーザの音声システムと通信している。音声信号は実音声信号510および送信音声信号515を含む。実音声信号510は、第2のユーザから生じる音響圧力波に対応し、かつ、ユーザの外耳道で測定される(すなわち、ユーザは第2のユーザの発話を聞く)。送信音声信号515は、(例えば、第2のユーザのユーザ音声信号として)記録され、第1のユーザの音声システムに送信され、および1つまたは複数のスピーカを通して第1のユーザに対して再生される、第2のユーザの発話に対応するフィルタ未処理の音声信号に対応する。送信音声信号を記録し、送信し、処理し、および再生することと関連付けられた処理遅延により、送信音声信号515は、処理遅延ΔTに対応する時間による実音声510の後に外耳道で検出され得る(すなわち、ユーザに対して可聴である)。一定の時間(例えば、10~15秒)の処理遅延ΔTがある場合、第1のユーザは、実音声信号510のような別個の聴覚イベントとして送信音声信号515を聞くことができ、これは、第1のユーザの気をそらすようなエコー効果をもたらし得る。
【0121】
第2のグラフ520は、送信される音声が、音声信号を拡散するためにオールパスフィルタを使用してフィルタリングされる時、第1のユーザの場所で測定される音声を示す。第2のグラフ520に示されるように、同じ実音声信号510は、第1のユーザの場所で聞こえる。しかしながら、送信音声信号は、複数の拡散反射を含むフィルタリングされた送信音声信号525を作り出すためにフィルタリングされている。フィルタリングされた送信音声信号525が実音声510の後のΔTまで聞こえなくても、送信音声信号525の拡散は第1のユーザに、実音声信号510およびフィルタリングされた送信音声信号525を同じ聴覚イベントの一部であると解釈させ得ることで、望ましくないエコー効果が低減または排除可能である。そのように、音声信号をフィルタリングすることによって、ユーザに対して望ましくないエコー効果をもたらすことなく、より長い処理遅延が適応可能である。いくつかの実施形態では、音声信号は、共有通信チャネルの他のユーザに送信される前に送信側ユーザのヘッドセットでフィルタリングされる。他の実施形態では、音声信号は音声信号を受信するユーザのヘッドセットでフィルタリングされる。フィルタリングが受信側で行われるいくつかの実施形態では、受信側ヘッドセットの音声システムは実音声と送信音声との間の遅延を判定し、かつ判定された遅延に基づいて1つまたは複数のフィルタリングパラメータ(例えば、分散量)を調節してよい。
【0122】
場合によっては、第1のユーザおよび第2のユーザは、送信音声525が実音声510の前に第1のユーザの場所で聞こえるように互いから少し離れている場合がある。いくつかの実施形態では、音声システムは、送信側ユーザが、少なくとも、ユーザから閾値距離分離れていると判定される場合、送信音声に対して拡散フィルタリングを行わない。
【0123】
共有通信チャネルが少なくとも一人のリモートユーザを含む実施形態では、リモートユーザと非リモートユーザとの間で送信される音声信号にはフィルタリングが行われる必要はないが、これは、リモートユーザが非リモートユーザの実音声を聞くことができない(およびこの逆もまた同様)ため、処理遅延によって引き起こされるエコー効果が存在しないからである。さらに、いくつかの実施形態では、第2のユーザからの音声は、第2のユーザと第1のユーザとの間の距離が少なくとも閾値である、または第1のユーザと第2のユーザとの間にある特定の構造(例えば、壁)があるとの判定がなされる場合、フィルタリングされなくてよく、それによって、第1のユーザは第2のユーザの実音声を聞くことができないと推論可能である。
【0124】
チャネル優先レベル
いくつかの実施形態では、共有通信チャネル上の異なるユーザは、異なる優先レベルが与えられ得る。本明細書で使用される際、共有通信チャネルのユーザの優先レベルは、ユーザの発話に対応する音声信号が他のユーザに対応する音声信号に対して強化されるレベルを指示することができ、この場合、より高い優先レベルを有するユーザからの音声信号は、より低い優先レベルのユーザに対して正方向に強化される。いくつかの実施形態では、共有通信チャネルは基本優先レベルに対応するユーザの第1のセット、および、基本優先レベルより優先される高優先レベルと関連付けられた少なくとも1ユーザ(例えば、指名された話し手またはリーダー)を含んでよい。
【0125】
例えば、高優先レベルと関連付けられたユーザ(以降、「優先ユーザ」と称される)が話していない時、共有通信チャネルの基本優先レベルのユーザに対応する第1のユーザによって受信される音声信号は、上述されるように普通に処理されて(例えば、ユーザの相対位置に基づいて空間化および強化されて)よい。しかしながら、優先ユーザが話した後、第1のユーザによって受信される優先ユーザに対応する音声信号は、第1のユーザおよび優先ユーザの相対位置に関わらず強化される。さらに、基本優先レベルのユーザからの音声信号は、優先ユーザからの音声信号が第1のユーザに対して再生されている時間に減衰され得ることで、第1のユーザは優先ユーザの発話を確実に明確に聞くことができる。
【0126】
いくつかの実施形態では、共有通信チャネルのユーザは、2つ以上の異なる優先レベルに編成可能である。より低い優先レベルを有するユーザからの音声信号に対してより高い優先レベルを有するユーザからの音声信号が強化されることで、ユーザがより高い優先ユーザによる発話を彼らが話している時により明確に聞くことができるようにする。いくつかの実施形態では、共有通信チャネルのそれぞれのユーザは、最も注目を向けることに関心がある他のユーザは誰かに基づいて、個別化された優先レベルをチャネルの他のユーザに割り当ててよい。
【0127】
プロセスフロー
図6は、1つまたは複数の実施形態による、共有通信チャネルにおける他のユーザからの受信される音声データを空間化しかつ強化するためのプロセスのフローチャートである。プロセスは、音声システム(例えば、音声システム300)を含むヘッドセットによって行われてよい。第1のユーザのヘッドセットは共有通信チャネルに参加している(例えば、
図1に示されるユーザ105のヘッドセット110であり、この場合、ユーザ105は共有通信チャネル120Aの一部である)。他のエンティティは他の実施形態(例えば、コンソール)におけるプロセスのステップの一部または全てを行ってよい。同様に、実施形態は、異なるおよび/または追加のステップを含んでよい、または異なる順序でステップを行ってよい。
【0128】
第1のユーザのヘッドセットは、第1のユーザの強化方向を判定する605。強化方向がユーザの視線方向に対応するいくつかの実施形態では、ヘッドセットは、ユーザの視線方向を判定するための視標追跡センサおよび位置センサを含む。例えば、位置センサは、ヘッドセットの位置および向きを判定可能であり、これによって第1のユーザの頭の位置および向きが推論可能である。さらに、視標追跡センサは、第1のユーザの頭に対する眼の向きを判定するために使用されてよい。そのように、位置センサおよび視標追跡センサの組み合わせは、第1のユーザの視線の方向を判定するために使用可能である。
【0129】
ヘッドセットは、(例えば、トランシーバを介して)共有通信チャネルの1または複数の送信側ユーザからの音声信号を受信する610。音声信号は、送信側ユーザの発話に対応してよく、かつ送信側ユーザの識別情報などのさらなるメタデータ、および送信側ユーザの位置が判定可能であるデータを含んでよい。
【0130】
ヘッドセットは、音声信号が受信された送信側ユーザのそれぞれと関連付けられた位置を判定する615。いくつかの実施形態では、ヘッドセットは、(例えば、送信側ユーザのヘッドセット上の位置センサによって判定されるように)送信側ユーザの位置を指示する音声信号と関連付けられたメタデータを受信する。他の実施形態では、ヘッドセットは、送信側ユーザのヘッドセット上の異なる場所に位置付けられる複数のアンテナ(例えば、アンテナアレイ)によって送信される複数の信号を受信する。受信された信号の位相またはタイミングに基づいて、ヘッドセットは、第1のユーザに対する送信側ユーザの相対位置を判定することができる。
【0131】
ヘッドセットは、第1のユーザに対する送信側ユーザのそれぞれの相対位置を判定する620。送信側ユーザの相対位置は、第1のユーザの頭の向きに基づいて、送信側ユーザが第1のユーザに対してどこに位置しているか(例えば、第1のユーザの前に、第1のユーザの左になど)を指示することができる。
【0132】
ヘッドセットは、それぞれの送信側ユーザの位置と第1のユーザの強化方向との間の偏差を判定する625。偏差は、第1のユーザの強化方向に対する送信側ユーザの位置を指示する。いくつかの実施形態では、ヘッドセットコントローラは、さらに、送信側ユーザと第1のユーザとの間の距離を判定してよい。
【0133】
ヘッドセットは、第1のユーザに対する対応する送信側ユーザの位置に基づいて、それぞれの送信側ユーザに対する音声信号を空間化する630ことで、2つ以上のスピーカを通して第1のユーザに対して再生される音声信号が、特定の場所(例えば、送信側ユーザの場所)から生じるかのように聞こえ得るようにする。いくつかの実施形態では、音声信号を空間化することは、ユーザが、特定の場所から生じる音に対応するように、異なるスピーカを通る音の異なる振幅を解釈できるように、スピーカのそれぞれを通して再生される音声信号の振幅を構成することを含む。
【0134】
ヘッドセットは、第1のユーザの強化方向に対する対応する送信側ユーザの位置の偏差に基づいて、それぞれの送信側ユーザに対する音声信号を強化する635。いくつかの実施形態では、送信側ユーザに対する音声信号は、送信側ユーザの位置の偏差が閾値を超えない場合、強化される。いくつかの実施形態では、強化の大きさは、送信側ユーザの場所と第1のユーザの強化方向との間の偏差量に反比例してよい。そのように、送信側ユーザからの音声信号は、送信側ユーザの場所が強化方向からさらに離れていた場合と比較して、送信側ユーザの場所が第1のユーザの強化方向に近かった場合により強力に強化されることが考えられる。いくつかの実施形態では、強化量はまた、他の送信側ユーザから現在受信されている音声信号の数、送信側ユーザと第1のユーザとの間の距離などに基づいてよい。いくつかの実施形態では、音声信号の強化は音声信号の減衰(例えば、逆方向の強化)を含んでよい。
【0135】
そのように、共有通信チャネルにおいて他のユーザから受信された音声信号を空間化しかつ強化することによって、ヘッドセットのユーザは、注意を向けている他のユーザの発話により容易に集中でき、かつユーザは、音声信号が受信される他のユーザのそれぞれの場所を感じ取ることが可能になる。これによって、ユーザは、ノイズ環境においても注意を向けたい発話をより明確に聞くことができる一方、該環境における他のユーザへの認識が維持される。
【0136】
図7は、1つまたは複数の実施形態による、ユーザの声に対応する音声信号を処理するためのプロセスのフローチャートである。プロセスは、音声システム(例えば、音声システム300)を含むヘッドセットによって行われてよい。第1のユーザのヘッドセットは共有通信チャネルに参加している(例えば、
図1に示されるユーザ105のヘッドセット110であり、この場合、ユーザ105は共有通信チャネル120Aの一部である)。他のエンティティは他の実施形態(例えば、コンソール)におけるプロセスのステップの一部または全てを行ってよい。同様に、実施形態は、異なるおよび/または追加のステップを含んでよい、または異なる順序でステップを行ってよい。
【0137】
ヘッドセットは、ヘッドセットのユーザによる発話に対応するユーザ音声信号を受信する705。いくつかの実施形態では、ユーザ音声信号は、ユーザの口の近くに位置する音響センサ(例えば、音響センサ225)によって記録される。いくつかの実施形態では、ユーザ音声信号は、ローカルエリアにおける特定の領域(例えば、ユーザの口の近く)から音を隔離しかつキャプチャするためにビーム形成を使用するマイクロホンアレイによって生成される。
【0138】
ヘッドセットは、拡散されたユーザ音声信号を作り出すためにユーザ音声信号を時間的に分散させる1つまたは複数のフィルタ(例えば、オールパスフィルタ)をユーザ音声信号に適用する710。
【0139】
ヘッドセットは、共有通信チャネルにおける他のユーザのヘッドセットに拡散されたユーザ音声信号を送信する715。ユーザ音声信号を時間的に分散することによって、別のユーザがユーザの実際の発話を聞く時と、この別のユーザが1つまたは複数のスピーカを通して該ユーザに対して再生される送信されるユーザ音声信号を聞く時との間の処理遅延量は、他のユーザに、望ましくないエコー効果をもたらす別個の聴覚イベントとしてユーザ音声信号を聞かせることなく、増大させることができる。
【0140】
いくつかの実施形態では、ユーザ音声信号を時間的に分散し、かつ他のユーザのヘッドセットに分散させたユーザ音声信号を送信する代わりに、音声信号の時間的分散は、音声信号を受信するヘッドセットによって行われる。いくつかの実施形態では、ユーザ音声信号は、送信側ユーザのヘッドセットと受信側ユーザのヘッドセットとの相対位置またはこれらの間の距離に基づいて調節されてよい、1つまたは複数のフィルタリングパラメータに基づいて時間的に分散させる。
【0141】
ヘッドセットは、ユーザ音声信号の改変版を作り出すためにユーザ音声信号にボイスフィルタを適用する720。ボイスフィルタは、人が話している時に頭蓋骨を通して伝わる人の声帯の振動が自身の声の聞こえ方に影響する効果をシミュレートするように構成される。いくつかの実施形態では、ユーザは、ボイスフィルタの1つまたは複数のパラメータを手動で構成することができることで、改変されたユーザ音声信号は自身の声の聞こえ方により厳密に一致することになる。
【0142】
ヘッドセットは、(例えば、1つまたは複数のスピーカを通して)ユーザに対して改変されたユーザ音声信号を再生する720することで、ユーザは、自分の声の現在の音量をより良く感じ取ることができ、それによってユーザが自分の話す音量をより良く変えることができるようにする。
【0143】
人工現実システムの例
図8は、1つまたは複数の実施形態による、上述される音声システムを含むヘッドセットのシステム環境である。システム800は、人工現実環境、例えば、仮想現実、拡張現実、複合現実環境で、またはこれらの何らかの組み合わせで動作可能である。
図8によって示されるシステム800は、コンソール810に結合される、ヘッドセット805および入力/出力(I/O)インターフェース815を含む。ヘッドセット805はヘッドセット110の一実施形態であってよい。
図8は、1つのヘッドセット805および1つのI/Oインターフェース815を含む例示のシステム800を示すが、他の実施形態では、任意の数のこれらの構成要素がシステム800に含まれてよい。例えば、それぞれが、関連付けられたI/Oインターフェース815を有する多数のヘッドセット805があってよく、それぞれのヘッドセット805およびI/Oインターフェース815がコンソール810と通信する。代替的な構成では、異なるおよび/または追加の構成要素がシステム800に含まれてよい。さらに、
図8に示される構成要素の1つまたは複数と併せて説明される機能性は、いくつかの実施形態では、
図8と併せて説明される異なるやり方で構成要素の間で分散されてよい。例えば、コンソール810の機能性の一部または全ては、ヘッドセット805によって提供される。
【0144】
ヘッドセット805は、コンピュータにより生成された要素を有する物理的な実世界環境の拡張視野を含むコンテンツ(2次元(2D)または3次元(3D)画像、2Dまたは3Dビデオ、音など)をユーザに提示する。ヘッドセット805は、アイウェアデバイスまたはヘッドマウントディスプレイであってよい。いくつかの実施形態では、提示されたコンテンツは、音声コンテンツ(例えば、共有通信チャネルの他のユーザから受信された音声信号)を含む。
【0145】
ヘッドセット805は、音声システム820、センサシステム825、電子ディスプレイ830、および光学ブロック835を含む。音声システム820は、
図3に説明される音声システム300に対応してよく、かつ、マイクロホンアセンブリ225、トランシーバ230、スピーカアセンブリ330、およびコントローラ215を含んでよい。音声システム820は、他のHMDの音声システムと通信し、HMD805のユーザの発話に対応する音声信号をキャプチャし、(例えば、他のHMDから)受信された音声信号を処理し、および、処理された音声信号をユーザに対して再生するように構成される。
【0146】
センサシステム825は、カメラアセンブリ235、位置センサ240、および視標追跡センサ245を含んでよい1つまたは複数のセンサモジュールを含む。センサモジュールは、HMD805の周りのローカルエリアの情報を生成し、およびHMD805の位置およびHMD805のユーザの視線方向を追跡するために使用されてよい。いくつかの実施形態では、センサシステム825のセンサは、HMD805の位置を追跡するために追跡モジュール855と共に使用されてよい。
【0147】
電子ディスプレイ830および光学ブロック835は、レンズ210の1つの実施形態である。ヘッドセット805のいくつかの実施形態は、
図8と併せて説明される構成要素と異なる構成要素を有する。さらに、
図8と併せて説明されるさまざまな構成要素によって提供される機能性は、他の実施形態ではヘッドセット805の構成要素の間で異なって分散される、またはヘッドセット805から遠隔の別個のアセンブリでキャプチャされる場合がある。
【0148】
電子ディスプレイ830は、コンソール810から受信されたデータに従ってユーザに2Dまたは3D画像を表示する。さまざまな実施形態では、電子ディスプレイ830は、単一の電子ディスプレイまたは複数の電子ディスプレイ(例えば、ユーザのそれぞれの眼に対するディスプレイ)を含む。電子ディスプレイ830の例には、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス型有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、その他のディスプレイ、またはこれらの何らかの組み合わせが挙げられる。
【0149】
いくつかの実施形態では、光学ブロック835は、電子ディスプレイ830から受信された画像光を拡大し、画像光と関連付けられた光学エラーを矯正し、および、ヘッドセット805のユーザに矯正された画像光を提示する。さまざまな実施形態では、光学ブロック835は1つまたは複数の光学素子を含む。光学ブロック835に含まれる例示の光学素子は、導波路、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または、画像光に影響する任意の他の適した光学素子を含む。さらに、光学ブロック835は、異なる光学素子の組み合わせを含んでよい。いくつかの実施形態では、光学ブロック835における光学素子の1つまたは複数は、部分的反射膜または反射防止膜などの1つまたは複数の膜を有することができる。
【0150】
光学ブロック835による画像光の拡大および集束によって、電子ディスプレイ830は、物理的に小さくなり、軽量になり、より大きいディスプレイよりも電力消費が少なくなる。さらに、拡大によって、電子ディスプレイ830によって提示されるコンテンツの視野を大きくすることができる。例えば、表示されるコンテンツの視野は、表示されるコンテンツが(例えば、およそ110度対角線の)ほとんど全て、および場合によっては、ユーザの視野の全てを使用して提示される。さらに、いくつかの実施形態では、拡大量は光学素子を追加するまたは除去することによって調節されてよい。
【0151】
いくつかの実施形態では、光学ブロック835は、1つまたは複数のタイプの光学エラーを矯正するように設計されてよい。光学エラーの例として、樽形歪曲もしくは糸巻き形歪曲、軸上色収差、または倍率色収差が挙げられる。他のタイプの光学エラーは、球面収差、色収差、もしくはレンズ像面湾曲によるエラー、非点収差、または任意の他のタイプの光学エラーをさらに含んでよい。いくつかの実施形態では、表示のために電子ディスプレイ830に提供されるコンテンツは予歪され、光学ブロック835は、コンテンツに基づいて生成される画像光を電子ディスプレイ830から受信する時の歪曲を矯正する。
【0152】
I/Oインターフェース815は、ユーザが、アクション要求を送り、かつコンソール810から応答を受信できるようにするデバイスである。アクション要求は、特定のアクションを行うための要求である。例えば、アクション要求は、画像またはビデオデータのキャプチャを開始または終了するための命令、またはアプリケーション内の特定のアクションを行うための命令であってよい。I/Oインターフェース815は1つまたは複数の入力デバイスを含んでよい。例示の入力デバイスには、キーボード、マウス、手元コントローラ、または、アクション要求を受信し、かつコンソール810にアクション要求を通信するための任意の他の適したデバイスが挙げられる。I/Oインターフェース815によって受信されるアクション要求は、アクション要求に対応するアクションを行うコンソール810に通信される。いくつかの実施形態では、I/Oインターフェース815は、I/Oインターフェース815の初期位置に対するI/Oインターフェース815の推定される位置を指示する較正データをキャプチャする1つまたは複数の位置センサを含む。いくつかの実施形態では、I/Oインターフェース815は、コンソール810から受信される命令に従ってユーザへの触覚フィードバックを提供してよい。例えば、触覚フィードバックは、アクション要求が受信される時に提供される、またはコンソール810は、コンソール810がI/Oインターフェース815にコンソール810がアクションを行う時に触覚フィードバックを生成させる命令をI/Oインターフェース815に通信する。I/Oインターフェース815は、音声コンテンツの、感知された元の方向および/または感知された元の場所を判定する際に使用するための、ユーザからの1つまたは複数の入力応答を監視することができる。
【0153】
コンソール810は、ヘッドセット805およびI/Oインターフェース815のうちの1つまたは複数から受信される情報に従って処理するためのコンテンツをヘッドセット805に提供する。
図8に示される例では、コンソール810は、アプリケーションストア850、追跡モジュール855、およびエンジン845を含む。コンソール810のいくつかの実施形態は、
図8と併せて説明されるものと異なるモジュールまたは構成要素を有する。同様に、さらに後述される機能は、
図8と併せて説明されるのと異なるやり方でコンソール810の構成要素の間で分散させてよい。
【0154】
アプリケーションストア850は、コンソール810による実行のための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行される時、ユーザに提示するためのコンテンツを生成する命令のグループである。アプリケーションによって生成されるコンテンツは、ヘッドセット805の移動またはI/Oインターフェース815によってユーザから受信される入力に応答するものであってよい。アプリケーションの例として、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の適したアプリケーションが挙げられる。いくつかの実施形態では、コンソール810はアプリケーションサーバ(例えば、アプリケーションサーバ130)として機能してよく、アプリケーションは、ユーザのグループ(例えば、異なるHMD805のユーザ)間の共有通信チャネルを維持するためのアプリケーションを含んでよい。
【0155】
追跡モジュール855は、1つまたは複数の較正パラメータを使用してシステム環境800を較正し、かつヘッドセット805またはI/Oインターフェース815の位置の判定におけるエラーを低減するように1つまたは複数の較正パラメータを調節してよい。追跡モジュール855によって行われる較正はまた、ヘッドセット805におけるセンサシステム825の1つもしくは複数のセンサモジュール(例えば、位置センサ)、またはI/Oインターフェース815に含まれる1つもしくは複数のセンサから受信された情報を考慮する。さらに、ヘッドセット805の追跡が失われる場合、追跡モジュール855はシステム環境800の一部または全てを再較正することができる。
【0156】
追跡モジュール855は、あるセンサ(例えば、位置センサ240、カメラアセンブリ235、またはこれらの何らかの組み合わせ)からの情報を使用して、ヘッドセット805またはI/Oインターフェース815の移動を追跡する。例えば、追跡モジュール855は、ヘッドセット805からの情報に基づいてローカルエリアのマッピングにおけるヘッドセット805の基準点の位置を判定する。追跡モジュール855はまた、ヘッドセット805の位置を指示するデータを使用して、またはI/Oインターフェース815に含まれる1つまたは複数のセンサからのI/Oインターフェース815の位置を指示するデータを使用して、それぞれ、ヘッドセット805の基準点またはI/Oインターフェース815の基準点の位置を判定してよい。さらに、いくつかの実施形態では、追跡モジュール855は、ヘッドセット805の将来の位置を予測するために位置またはヘッドセット805を指示するデータの一部分を使用してよい。追跡モジュール855は、ヘッドセット805またはI/Oインターフェース815の推定されるまたは予測される将来の位置をエンジン845に提供する。いくつかの実施形態では、追跡モジュール855は、受信される音声信号を空間化するおよび/または強化するやり方を判定する際に使用するための追跡情報を音声システム820に提供してよい。
【0157】
エンジン845はまた、システム環境800内のアプリケーションを実行し、かつ追跡モジュール855からヘッドセット805の、位置情報、加速情報、速度情報、予測される将来の位置、またはこれらの何らかの組み合わせを受信する。受信された情報に基づいて、エンジン845は、ユーザに対する提示のためにヘッドセット805に提供するためのコンテンツを判定する。例えば、受信された情報が、ユーザが左を見ていることを指示する場合、エンジン845は、仮想環境、または追加のコンテンツによるローカルエリアを拡張する環境におけるユーザの移動をミラーリングする、ヘッドセット805に対するコンテンツを生成する。さらに、エンジン845は、I/Oインターフェース815から受信されるアクション要求に応答してコンソール810上で実行するアプリケーション内のアクションを実行し、かつアクションが実行されたことのフィードバックをユーザに提供する。提供されたフィードバックは、ヘッドセット805を介した視覚もしくは聴覚フィードバック、またはI/Oインターフェース815を介した触覚フィードバックであってよい。
【0158】
追加の構成情報
本開示の実施形態の前述の説明は例示の目的で提示されており、網羅的であること、または開示される正確な形態に本開示を限定することを意図するものではない。上記の開示の観点から多くの修正および変形が可能であるということを当業者は認識するはずである。
【0159】
本説明の部分の中には、情報に対する動作のアルゴリズムおよび記号表現の観点から本開示の実施形態を説明するものもある。これらのアルゴリズム的説明および表現は、当業者の作業の実体を効果的に当業者に伝えるために、当業者によって一般に使用される。これらの動作は、機能的に、演算的に、または論理的に説明されるが、コンピュータプログラム、または同等の電気回路、マイクロコード、もしくは同様のものによって実行されることがわかる。さらに、一般性を失うことなく、動作のこれらの配置をモジュールと称することが時に便利であることも証明されている。説明した動作、およびこれらに関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの任意の組み合わせで具体化可能である。
【0160】
本明細書に説明されるステップ、動作、または工程のいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュール単独で、または他のデバイスと組み合わせて実行することまたは実施することが可能である。1つの実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるステップ、動作、または工程のいずれかまたは全てを実行するために、コンピュータプロセッサによって実行可能である。
【0161】
本開示の実施形態はまた、本明細書における動作を実行するための装置に関するものであってよい。この装置は、必要とされる目的のために特に構築され得る、および/または、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブにされたまたは再構成された汎用コンピューティングデバイスを備え得る。このようなコンピュータプログラムは、非一時的な有形のコンピュータ可読記憶媒体、または、電子的な命令を記憶するのに適した任意のタイプの媒体に記憶されてよく、これらの媒体は、コンピュータシステムバスに結合されてよい。また、本明細書で言及したいずれのコンピューティングシステムも、単一のプロセッサを含んでよい、または、計算能力を高めるために複数のプロセッサ設計を用いるアーキテクチャであってよい。
【0162】
本開示の実施形態は、また、本明細書に説明される計算処理によって作り出される製品に関するものであってよい。このような製品は、計算処理から生じる情報を含むことができ、ここで、情報は、非一時的な有形のコンピュータ可読記憶媒体に記憶され、かつ、本明細書に説明されるコンピュータプログラム製品または他のデータの組み合わせの任意の実施形態を含み得る。
【0163】
最後に、本明細書で使用される言葉は、可読性および指示目的のために主に選択されているが、発明の主題を正確に描写するためまたは制限するために選択されなかった場合がある。従って、本開示の範囲は、この「発明を実施するための形態」によってではなく、むしろ、本明細書に基づく用途に対して発行するいずれかの請求項によって限定されることが意図される。従って、実施形態の本開示は、本開示の範囲を例証するためのものであるが限定するものではなく、以下の特許請求の範囲に示される。