IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オキュラス ブイアール,エルエルシーの特許一覧

特表2023-534154個別化された音プロファイルを使用するオーディオシステム
<>
  • 特表-個別化された音プロファイルを使用するオーディオシステム 図1A
  • 特表-個別化された音プロファイルを使用するオーディオシステム 図1B
  • 特表-個別化された音プロファイルを使用するオーディオシステム 図2
  • 特表-個別化された音プロファイルを使用するオーディオシステム 図3
  • 特表-個別化された音プロファイルを使用するオーディオシステム 図4
  • 特表-個別化された音プロファイルを使用するオーディオシステム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-08
(54)【発明の名称】個別化された音プロファイルを使用するオーディオシステム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20230801BHJP
   H04S 7/00 20060101ALI20230801BHJP
   G10K 11/178 20060101ALI20230801BHJP
【FI】
H04R3/00 320
H04S7/00 340
H04R3/00 310
G10K11/178 100
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022580755
(86)(22)【出願日】2021-06-05
(85)【翻訳文提出日】2023-02-24
(86)【国際出願番号】 US2021036053
(87)【国際公開番号】W WO2022015427
(87)【国際公開日】2022-01-20
(31)【優先権主張番号】63/052,016
(32)【優先日】2020-07-15
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/945,388
(32)【優先日】2020-07-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】515046968
【氏名又は名称】メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー
【氏名又は名称原語表記】META PLATFORMS TECHNOLOGIES, LLC
(74)【代理人】
【識別番号】110002974
【氏名又は名称】弁理士法人World IP
(72)【発明者】
【氏名】ブリミジョイン, ウィリアム オーウェン
(72)【発明者】
【氏名】ルンナー, トーマス フリーティオフ ニルス
(72)【発明者】
【氏名】ロビンソン, フィリップ
(72)【発明者】
【氏名】メーラ, ラビッシュ
【テーマコード(参考)】
5D061
5D162
5D220
【Fターム(参考)】
5D061FF02
5D162AA04
5D162CA26
5D162CD01
5D162EG06
5D220AA05
5D220BA30
(57)【要約】
ユーザにオーディオコンテンツを提示するためのシステム。システムは、ヘッドセット(100)のフレーム(110)に結合された1つまたは複数のマイクロフォン(210)を備える。1つまたは複数のマイクロフォン(210)は、ローカルエリアから音をキャプチャする。システムは、ヘッドセット(100)に組み込まれ、かつユーザによって装着されたインイヤデバイス(185)に通信可能に結合されたオーディオコントローラ(150)をさらに備える。オーディオコントローラ(150)は、キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別する。オーディオコントローラ(150)は、さらに、1つまたは複数の音ソースのうちのターゲット音ソースを決定し、キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定する。オーディオコントローラ(150)は、さらに、音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成し、ユーザへの提示のために拡張音信号をインイヤデバイス(185)に提供する。
【選択図】図4
【特許請求の範囲】
【請求項1】
1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることと、
前記キャプチャされた音に基づいて前記ローカルエリア中の1つまたは複数の音ソースを識別することと、
前記1つまたは複数の音ソースのうちのターゲット音ソースを決定することと、
前記キャプチャされた音における、前記ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することと、
前記音信号に前記1つまたは複数のフィルタを適用することによって拡張音信号を生成することと、
ユーザへの提示のために前記拡張音信号をスピーカーアセンブリに提供することと
を含む、方法。
【請求項2】
前記ターゲット音ソースが前記ローカルエリア中の異なる音ソースからしきい値距離内にあることを検出することと、
前記ターゲット音ソースと前記異なる音ソースとの間の空間分離を、少なくとも、前記しきい値距離よりも大きい分離距離になるように増加させるために、前記1つまたは複数のフィルタのうちの少なくとも1つを更新することと
をさらに含み、
前記ユーザに提示される前記拡張音信号は、音が前記ターゲット音ソースから発生すると思われ、前記異なる音ソースからの音が、前記ターゲット音ソースから少なくとも前記分離距離のところにある、前記ローカルエリア中のロケーションから発生すると思われるようなものである、請求項1に記載の方法。
【請求項3】
前記1つまたは複数のフィルタが前記ユーザの音プロファイルに部分的に基づき、前記音プロファイルが少なくともユーザオーディオグラムを含み、前記方法が、
ユーザフィードバックに基づいて前記ユーザの前記音プロファイルを更新すること
をさらに含む、請求項1または2に記載の方法。
【請求項4】
前記1つまたは複数のフィルタが、前記ローカルエリア中の前記ユーザのロケーション、前記ローカルエリア中の前記1つまたは複数の音ソースの各々のロケーション、前記ローカルエリアの1つまたは複数の音響パラメータ、および前記ローカルエリア中の音ソースのタイプ、のうちの1つまたは複数に部分的に基づく、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記キャプチャされた音における、前記ターゲット音ソースに関連する前記音信号に適用すべき前記1つまたは複数のフィルタを決定することは、
複数のワイドダイナミックレンジ圧縮フィルタから、前記ターゲット音ソースに対応するワイドダイナミックレンジ圧縮フィルタを選択することであって、前記複数のワイドダイナミックレンジ圧縮フィルタの各々が、前記複数の音ソースのうちの異なるそれぞれの音ソースに対応する、ワイドダイナミックレンジ圧縮フィルタを選択すること
を含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記ユーザへの提示のために前記拡張音信号を前記スピーカーアセンブリに提供することが、
前記拡張音信号を、前記ユーザによって装着されたインイヤデバイスのスピーカーアセンブリに提供すること
を含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
1つまたは複数のマイクロフォンによって、前記ローカルエリアから音をキャプチャすることは、
ヘッドセットのフレームに結合された1つまたは複数のマイクロフォンによって、前記ローカルエリアから音をキャプチャすることであって、前記ヘッドセットが、前記インイヤデバイスとは別個であり、かつ前記インイヤデバイスに通信可能に結合された、音をキャプチャすること
を含む、請求項6に記載の方法。
【請求項8】
1つまたは複数のマイクロフォンによって、前記インイヤデバイスから漏れ信号をキャプチャすることと、
前記漏れ信号を実質的に防ぐための緩和信号を決定することであって、前記緩和信号が前記漏れ信号に対して位相外れである、緩和信号を決定することと、
前記緩和信号を、ヘッドセットに結合された別個のスピーカーアセンブリに出力信号として提供することと
をさらに含む、請求項6または7に記載の方法。
【請求項9】
前記ターゲット音ソースを決定することが、前記ユーザの視線に部分的に基づく、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記ターゲット音ソースを決定することが、前記ユーザによって提供された口頭キューに部分的に基づく、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記ターゲット音ソースを決定することは、
前記ユーザによって実施されるジェスチャーの画像をキャプチャすることと、
前記ジェスチャーが音ソースの選択に対応していると決定することと、
前記音ソースを前記ターゲット音ソースとして選択することと
を含む、請求項1から10のいずれか一項に記載の方法。
【請求項12】
ヘッドセットのフレームに結合された1つまたは複数のマイクロフォンであって、ローカルエリアから音をキャプチャするように構成された、1つまたは複数のマイクロフォンと、
前記ヘッドセットに組み込まれ、ユーザによって装着されたインイヤデバイスに通信可能に結合されたオーディオコントローラと
を備えるシステムであって、前記オーディオコントローラが、
前記キャプチャされた音に基づいて前記ローカルエリア中の1つまたは複数の音ソースを識別することと、
前記1つまたは複数の音ソースのうちのターゲット音ソースを決定することと、
前記キャプチャされた音における、前記ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することと、
前記音信号に前記1つまたは複数のフィルタを適用することによって拡張音信号を生成することと、
ユーザへの提示のために前記拡張音信号を前記インイヤデバイスに提供することと
を行うように構成された、
システム。
【請求項13】
前記オーディオコントローラは、
前記ターゲット音ソースが前記ローカルエリア中の異なる音ソースからしきい値距離内にあることを検出することと、
前記ターゲット音ソースと前記異なる音ソースとの間の空間分離を、少なくとも、前記しきい値距離よりも大きい分離距離になるように増加させるために、前記1つまたは複数のフィルタのうちの少なくとも1つを更新することと
を行うようにさらに構成され、
前記ユーザに提示される前記拡張音信号は、音が前記ターゲット音ソースから発生すると思われ、前記異なる音ソースからの音が、前記ターゲット音ソースから少なくとも前記分離距離のところにある、前記ローカルエリア中のロケーションから発生すると思われるようなものである、請求項12に記載のシステム。
【請求項14】
前記キャプチャされた音における、前記ターゲット音ソースに関連する前記音信号に適用すべき前記1つまたは複数を決定することが、複数のワイドダイナミックレンジ圧縮フィルタから、前記ターゲット音ソースに対応するワイドダイナミックレンジ圧縮フィルタを選択することであって、前記複数のワイドダイナミックレンジ圧縮フィルタの各々が、前記複数の音ソースのうちの異なるそれぞれの音ソースに対応する、ワイドダイナミックレンジ圧縮フィルタを選択することを含む、請求項12または13に記載のシステム。
【請求項15】
前記1つまたは複数のマイクロフォンが、前記インイヤデバイスから漏れ信号をキャプチャし、前記オーディオコントローラは、
前記漏れ信号を実質的に防ぐための緩和信号を決定することであって、前記緩和信号が前記漏れ信号に対して位相外れである、緩和信号を決定することと、
前記緩和信号を、前記ヘッドセットに結合された別個のスピーカーアセンブリに出力信号として提供することと
を行うようにさらに構成された、請求項12から14のいずれか一項に記載のシステム。
【請求項16】
前記1つまたは複数のフィルタが、前記ローカルエリア中の前記ユーザのロケーション、前記ローカルエリア中の前記1つまたは複数の音ソースの各々のロケーション、前記ローカルエリアの1つまたは複数の音響パラメータ、および前記ローカルエリア中の音ソースのタイプ、のうちの1つまたは複数に部分的に基づく、請求項12から15のいずれか一項に記載のシステム。
【請求項17】
前記ターゲット音ソースが、前記ユーザの視線に部分的に基づいて前記オーディオコントローラによって決定される、請求項12から16のいずれか一項に記載のシステム。
【請求項18】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることと、
前記キャプチャされた音に基づいて前記ローカルエリア中の1つまたは複数の音ソースを識別することと、
前記1つまたは複数の音ソースのうちのターゲット音ソースを決定することと、
前記キャプチャされた音における、前記ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することと、
前記音信号に前記1つまたは複数のフィルタを適用することによって拡張音信号を生成することと、
ユーザへの提示のために前記拡張音信号をスピーカーアセンブリに提供することと
を含む動作を実施させる、非一時的コンピュータ可読記憶媒体。
【請求項19】
前記命令は、前記1つまたは複数のプロセッサに、
前記ターゲット音ソースが前記ローカルエリア中の異なる音ソースからしきい値距離内にあることを検出することと、
前記ターゲット音ソースと前記異なる音ソースとの間の空間分離を、少なくとも、前記しきい値距離よりも大きい分離距離になるように増加させるために、前記1つまたは複数のフィルタのうちの少なくとも1つを更新することと
をさらに含む動作をさらに実施させ、
前記ユーザに提示される前記拡張音信号は、音が前記ターゲット音ソースから発生すると思われ、前記異なる音ソースからの音が、前記ターゲット音ソースから少なくとも前記分離距離のところにある、前記ローカルエリア中のロケーションから発生すると思われるようなものである、請求項18に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記キャプチャされた音における、前記ターゲット音ソースに関連する前記音信号に適用すべき前記1つまたは複数のフィルタを決定することは、
複数のワイドダイナミックレンジ圧縮フィルタから、前記ターゲット音ソースに対応するワイドダイナミックレンジ圧縮フィルタを選択することであって、前記複数のワイドダイナミックレンジ圧縮フィルタの各々が、前記複数の音ソースのうちの異なるそれぞれの音ソースに対応する、ワイドダイナミックレンジ圧縮フィルタを選択すること
を含む、請求項18または19に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、オーディオコンテンツを生成することに関し、より詳細には、それぞれのユーザに個別化された音プロファイルを使用するオーディオシステムに関する。
【背景技術】
【0002】
複数の音ソースをもつ環境では、聴き手は、他の音ソースからの音を聞こえなくし(tune out)ながら特定の音ソースを聞く(tune into)のに苦労し得る。たとえば、複数の人々が同時に話しているにぎやかな部屋では、聴き手が、その部屋中の他の話者の音よりも特定の話者の言葉を判別することは、困難であり得る。この現象は、カクテルパーティー問題として知られている。カクテルパーティー問題は、部分的な聴覚損失をもつ人々について、より深刻な問題を提起し得る。聴覚損失は、老化、外傷、および遺伝的欠陥などの要因に起因し得る。聴覚損失をもつ人々は、その人にとって関心のある音ソースに干渉する音ソースがあるとき、より著しく影響を及ぼされる。
【発明の概要】
【0003】
ヘッドセット上のオーディオシステムが、オーディオコンテンツがユーザに提示されるより前にオーディオコンテンツに適用すべき1つまたは複数のフィルタを生成する。1つまたは複数のフィルタは、ユーザの音プロファイルに基づいて生成され得る。ユーザの音プロファイルは、ユーザが異なる周波数における音をどのくらい良く聴取するかを記述する、ユーザに関する個人化された音情報である。また、いくつかの場合には、ユーザはある程度の聴覚損失を有し得、これはユーザの音プロファイルにおいてキャプチャされる。ユーザの聴覚損失の一部または全部を埋め合わせるために、音ソース(すなわち、ターゲット音ソース)によって放出されたオーディオコンテンツにおける音信号が、拡張音信号(augmented sound signal)を作成するために1つまたは複数のフィルタによって強調され得る。いくつかの実施形態では、ヘッドセットは、(たとえば、ヘッドセット上のスピーカーアセンブリを介して)ユーザに拡張音信号を提示する。いくつかの実施形態では、ヘッドセットは、ヘッドセットに通信可能に結合された1つまたは複数のインイヤデバイスに拡張音信号を提供し、1つまたは複数のインイヤデバイスは、拡張音信号をユーザに提示する。いくつかの実施形態では、ヘッドセットは、1つまたは複数のインイヤデバイスに1つまたは複数のフィルタを提供し、1つまたは複数のインイヤデバイスは、1つまたは複数のフィルタを音信号に適用して、拡張音信号を生成し、次いで、拡張音信号をユーザに提示する。
【0004】
いくつかの実施形態では、1つまたは複数のフィルタは、音を抑制するために生成され得る。たとえば、1つまたは複数のフィルタは、ローカルエリア中の1つまたは複数の音ソース(たとえば、ファン、ターゲット音ソースではない人々など)からのオーディオコンテンツを抑制するために使用され得る。また、いくつかの実施形態では、1つまたは複数のフィルタは、インイヤデバイスからの漏れ信号(ローカルエリアに漏れ出た拡張音信号)を抑制するために使用され得る。
【0005】
いくつかの実施形態では、ユーザへの提示のために音信号を拡張するための方法が説明される。本方法は、(たとえば、ヘッドセット上に配置された)1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることを含む。本方法は、キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別することをさらに含む。本方法は、1つまたは複数の音ソースのうちのターゲット音ソースを決定することをさらに含む。本方法は、キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することをさらに含む。本方法は、音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成することをさらに含む。本方法は、ユーザへの提示のために拡張音信号をスピーカーアセンブリに提供することをさらに含む。いくつかの実施形態では、スピーカーアセンブリはヘッドセット上にある。他の実施形態では、スピーカーアセンブリは1つまたは複数のインイヤデバイス上にある。
【0006】
いくつかの実施形態では、ユーザへの提示のために音信号を拡張するシステムが説明される。本システムは、ヘッドセットのフレームに結合された1つまたは複数のマイクロフォンを備える。1つまたは複数のマイクロフォンは、ローカルエリアから音をキャプチャするように構成される。本システムは、ヘッドセットに組み込まれ、ユーザによって装着されたインイヤデバイスに通信可能に結合されたオーディオコントローラをさらに備える。オーディオコントローラは、キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別するように構成される。オーディオコントローラは、1つまたは複数の音ソースのうちのターゲット音ソースを決定するようにさらに構成される。オーディオコントローラは、キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定するようにさらに構成される。オーディオコントローラは、音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成するようにさらに構成される。オーディオコントローラは、ユーザへの提示のために拡張音信号をインイヤデバイスに提供するようにさらに構成される。本開示の方法を実施するための命令を記憶するように構成された非一時的コンピュータ可読記憶媒体の実施形態も説明される。
【0007】
本開示の第1の態様によれば、
1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることと、
キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別することと、
1つまたは複数の音ソースのうちのターゲット音ソースを決定することと、
キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することと、
音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成することと、
ユーザへの提示のために拡張音信号をスピーカーアセンブリに提供することと
を含む、方法が提供される。
本方法は、
ターゲット音ソースがローカルエリア中の異なる音ソースからしきい値距離内にあることを検出することと、
ターゲット音ソースと異なる音ソースとの間の空間分離を、少なくとも、しきい値距離よりも大きい分離距離になるように増加させるために、1つまたは複数のフィルタのうちの少なくとも1つを更新することと
をさらに含み得、
ユーザに提示される拡張音信号は、音がターゲット音ソースから発生するように思われ、異なる音ソースからの音が、ターゲット音ソースから少なくとも分離距離のところにある、ローカルエリア中のロケーションから発生するように思われるようなものである。
1つまたは複数のフィルタはユーザの音プロファイルに部分的に基づき得、音プロファイルは少なくともユーザオーディオグラムを含み、本方法は、
ユーザフィードバックに基づいてユーザの音プロファイルを更新すること
をさらに含む。
1つまたは複数のフィルタは、ローカルエリア中のユーザのロケーション、ローカルエリア中の1つまたは複数の音ソースの各々のロケーション、ローカルエリアの1つまたは複数の音響パラメータ、およびローカルエリア中の音ソースのタイプのうちの1つまたは複数に部分的に基づき得る。
キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することは、
複数のワイドダイナミックレンジ圧縮フィルタから、ターゲット音ソースに対応するワイドダイナミックレンジ圧縮フィルタを選択することであって、複数のワイドダイナミックレンジ圧縮フィルタの各々が、複数の音ソースのうちの異なるそれぞれの音ソースに対応する、ワイドダイナミックレンジ圧縮フィルタを選択すること
を含み得る。
ユーザへの提示のために拡張音信号をスピーカーアセンブリに提供することは、
拡張音信号を、ユーザによって装着されたインイヤデバイスのスピーカーアセンブリに提供すること
を含み得る。
1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることは、
ヘッドセットのフレームに結合された1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることであって、ヘッドセットが、インイヤデバイスとは別個であり、インイヤデバイスに通信可能に結合された、音をキャプチャすること
を含み得る。
本方法は、
1つまたは複数のマイクロフォンによって、インイヤデバイスから漏れ信号をキャプチャすることと、
漏れ信号を実質的に防ぐための緩和信号を決定することであって、緩和信号が漏れ信号に対して位相外れ(out-of-phase)である、緩和信号を決定することと、
緩和信号を、ヘッドセットに結合された別個のスピーカーアセンブリに出力信号として提供することと
をさらに含み得る。
ターゲット音ソースを決定することは、ユーザの視線に部分的に基づき得る。
ターゲット音ソースを決定することは、ユーザによって提供された口頭キュー(verbal cue)に部分的に基づき得る。
ターゲット音ソースを決定することは、
ユーザによって実施されるジェスチャーの画像をキャプチャすることと、
ジェスチャーが音ソースの選択に対応すると決定することと、音ソースをターゲット音ソースとして選択することと
を含み得る。
本方法は、コンピュータ実装され得る。
本開示の第2の態様によれば、
ヘッドセットのフレームに結合された1つまたは複数のマイクロフォンであって、1つまたは複数のマイクロフォンが、ローカルエリアから音をキャプチャするように構成された、1つまたは複数のマイクロフォンと、
ヘッドセットに組み込まれ、ユーザによって装着されたインイヤデバイスに通信可能に結合されたオーディオコントローラと
を備えるシステムであって、オーディオコントローラが、
キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別することと、
1つまたは複数の音ソースのうちのターゲット音ソースを決定することと、
キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することと、
音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成することと、
ユーザへの提示のために拡張音信号をインイヤデバイスに提供することと
を行うように構成された、システムが提供される。
オーディオコントローラは、
ターゲット音ソースがローカルエリア中の異なる音ソースからしきい値距離内にあることを検出することと、
ターゲット音ソースと異なる音ソースとの間の空間分離を、少なくとも、しきい値距離よりも大きい分離距離になるように増加させるために、1つまたは複数のフィルタのうちの少なくとも1つを更新することと
を行うようにさらに構成され得、
ユーザに提示される拡張音信号は、音がターゲット音ソースから発生するように思われ、異なる音ソースからの音が、ターゲット音ソースから少なくとも分離距離のところにある、ローカルエリア中のロケーションから発生するように思われるようなものである。
キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数を決定することは、複数のワイドダイナミックレンジ圧縮フィルタから、ターゲット音ソースに対応するワイドダイナミックレンジ圧縮フィルタを選択することであって、複数のワイドダイナミックレンジ圧縮フィルタの各々が、複数の音ソースのうちの異なるそれぞれの音ソースに対応する、ワイドダイナミックレンジ圧縮フィルタを選択することを含み得る。
1つまたは複数のマイクロフォンは、インイヤデバイスから漏れ信号をキャプチャし得、オーディオコントローラは、
漏れ信号を実質的に防ぐための緩和信号を決定することであって、緩和信号が漏れ信号に対して位相外れである、緩和信号を決定することと、
緩和信号を、ヘッドセットに結合された別個のスピーカーアセンブリに出力信号として提供することと
を行うようにさらに構成され得る。
1つまたは複数のフィルタは、ローカルエリア中のユーザのロケーション、ローカルエリア中の1つまたは複数の音ソースの各々のロケーション、ローカルエリアの1つまたは複数の音響パラメータ、およびローカルエリア中の音ソースのタイプのうちの1つまたは複数に部分的に基づき得る。
ターゲット音ソースは、ユーザの視線に部分的に基づいてオーディオコントローラによって決定され得る。
本開示の第3の態様によれば、命令を記憶する非一時的コンピュータ可読記憶媒体であって、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、
1つまたは複数のマイクロフォンによって、ローカルエリアから音をキャプチャすることと、
キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別することと、
1つまたは複数の音ソースのうちのターゲット音ソースを決定することと、
キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することと、
音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成することと、
ユーザへの提示のために拡張音信号をスピーカーアセンブリに提供することと
を含む動作を実施させる、非一時的コンピュータ可読記憶媒体が提供される。
命令は、1つまたは複数のプロセッサに、
ターゲット音ソースがローカルエリア中の異なる音ソースからしきい値距離内にあることを検出することと、
ターゲット音ソースと異なる音ソースとの間の空間分離を、少なくとも、しきい値距離よりも大きい分離距離になるように増加させるために、1つまたは複数のフィルタのうちの少なくとも1つを更新することと
をさらに含む動作をさらに実施させ得、
ユーザに提示される拡張音信号は、音がターゲット音ソースから発生するように思われ、異なる音ソースからの音が、ターゲット音ソースから少なくとも分離距離のところにある、ローカルエリア中のロケーションから発生するように思われるようなものである。
キャプチャされた音における、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定することは、
複数のワイドダイナミックレンジ圧縮フィルタから、ターゲット音ソースに対応するワイドダイナミックレンジ圧縮フィルタを選択することであって、複数のワイドダイナミックレンジ圧縮フィルタの各々が、複数の音ソースのうちの異なるそれぞれの音ソースに対応する、ワイドダイナミックレンジ圧縮フィルタを選択すること
を含み得る。
【図面の簡単な説明】
【0008】
図1A】1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセットの斜視図である。
図1B】1つまたは複数の実施形態による、ヘッドマウントディスプレイとして実装されるヘッドセットの斜視図である。
図2】1つまたは複数の実施形態による、オーディオシステムのブロック図である。
図3】1つまたは複数の実施形態による、1つまたは複数の音ソースを含むローカルエリアの一例の図である。
図4】1つまたは複数の実施形態による、ユーザへの提示のために音信号を拡張するためのプロセスを示すフローチャートである。
図5】1つまたは複数の実施形態による、ヘッドセットと1つまたは複数のインイヤデバイスとを含むシステムの図である。
【発明を実施するための形態】
【0009】
図は、単に例示の目的で様々な実施形態を示す。本明細書で説明される原理から逸脱することなく、本明細書で示される構造および方法の代替実施形態が採用され得ることを、当業者は以下の説明から容易に認識されよう。
【0010】
ヘッドセット上のオーディオシステムが、オーディオコンテンツがユーザに提示されるより前にオーディオコンテンツに適用すべき1つまたは複数のフィルタを生成する。オーディオコンテンツは、ヘッドセットの周囲のローカルエリアからの再ブロードキャストされたキャプチャされた音、ヘッドセットによって提供される仮想音、モバイルデバイス(たとえば、モバイルフォン)によって提供される音楽および/または(たとえば、通話からの)オーディオ、あるいはそれらの何らかの組合せを含み得る。音は1つまたは複数の音信号を含み、ここで、各音信号は音ソースに関連する。音ソースは、ユーザ、人、ヘッドセットを装着している人、動物、スピーカー(たとえば、インイヤデバイスのスピーカー)、機械デバイス、またはヘッドセットの周囲のローカルエリア中の音を放出する任意の他の現実世界のオブジェクトなどの現実世界の音ソース、ローカルエリア中のユーザに提示される仮想オブジェクトなどの仮想音ソース、あるいは、ローカルエリア中の音を放出するモバイルフォンスピーカー、タブレットスピーカー、または任意の他のモバイルデバイススピーカーなどのモバイルデバイス音ソースであり得る。いくつかの実施形態では、オーディオシステムは、特定の音ソース(すなわち、ターゲット音ソース)によって放出された音信号に適用されるべき1つまたは複数のフィルタ(たとえば、ローパス、ハイパス、ダイナミックレンジ圧縮フィルタなど)を生成する。音信号に適用される1つまたは複数のフィルタは、たとえば、音信号のいくつかの周波数(たとえば、10kHzよりも大きい周波数)を増幅し、(ワイドダイナミックレンジ圧縮フィルタを使用して)特定の利得を音信号に適用し、音信号を空間化し、音信号のいくつかの周波数を減衰させ、いくつかの周波数の強度を等化し、いくつかの他の調整を音信号に適用し、いくつかの周波数にマルチバンドリミッタを適用し、またはそれらの何らかの組合せを行い得る。いくつかの実施形態では、オーディオシステムは、(1つまたは複数の)他の音ソースによって放出された(1つまたは複数の)他の音信号に適用されるべき1つまたは複数のフィルタを生成する。(1つまたは複数の)他の音信号に適用される1つまたは複数のフィルタは、それらの音信号の特定の周波数を減少させるかまたはなくし得る。オーディオコンテンツが経時的に変化するにつれて、フィルタのいずれかまたはすべてが動的に調整され得る。
【0011】
オーディオシステムは、ローカルエリアのモデルに記憶された暗黙的ユーザフィードバック(たとえば、視標追跡情報)に部分的に基づいてターゲット音ソースを識別し得る。ローカルエリアのモデルは、ローカルエリア中の(ユーザを含む)各音ソースについての位置、移動、および音響効果を追跡し、ローカルエリアを記述する音響パラメータを記憶する。いくつかの実施形態では、オーディオシステムは、明示的なユーザ入力に基づいてターゲット音ソースを識別し得る。
【0012】
オーディオシステムによって生成された1つまたは複数のフィルタは、ユーザの音プロファイルに基づき得る。ユーザの音プロファイルは、ユーザが異なる周波数における音をどのくらい良く聴取するかを記述する、ユーザに関する個人化された音情報である。音プロファイルは、オーディオグラム、ラウドネス不快感レベル(loudness discomfort level)テスト結果、雑音中音声(speech-in-noise)テスト結果、スペクトル-時間弁別(spectro-temporal discrimination)結果、時間微細構造(temporal fine-structure)テスト結果、認知パフォーマンス(cognitive performance)テスト結果、自己報告聴力(self-reported hearing ability)、何らかの他の聴覚テスト結果、またはそれらの何らかの組合せを含み得る。いくつかの場合には、ユーザはある程度の聴覚損失を有し得、これはユーザの音プロファイルにおいてキャプチャされる。ユーザの聴覚損失の一部または全部を埋め合わせるために、ターゲット音ソースによって放出された音信号は、拡張音信号を作成するために1つまたは複数のフィルタによって強調され得る。いくつかの実施形態では、より良い音質をユーザに提示するために、ターゲット音ソースによって放出された音信号は、音信号をより良く空間化するために拡張され得るか、またはフィードバックを低減するために拡張され得る。いくつかの実施形態では、他の音ソースによって放出されたオーディオコンテンツにおける1つまたは複数の他の音信号は、1つまたは複数のフィルタによって抑制され得る。いくつかの実施形態では、オーディオシステムによって生成された1つまたは複数のフィルタは、ローカルエリアのモデルに基づき得る。
【0013】
いくつかの実施形態では、オーディオシステムが、識別されたターゲット音ソースによって放出された音信号に1つまたは複数のフィルタを適用し得る。別の実施形態では、インイヤデバイスが、音信号に1つまたは複数のフィルタを適用する。音信号にフィルタを適用することによって、拡張音信号が生成される。いくつかの実施形態では、ヘッドセットは、(たとえば、ヘッドセット上のスピーカーアセンブリを介して)ユーザに拡張音信号を提示する。いくつかの実施形態では、ヘッドセットは、ヘッドセットに通信可能に結合された1つまたは複数のインイヤデバイスに拡張音信号を提供し、1つまたは複数のインイヤデバイスは、拡張音信号をユーザに提示する。いくつかの実施形態では、ヘッドセットは、1つまたは複数のインイヤデバイスに1つまたは複数のフィルタを提供し、1つまたは複数のインイヤデバイスは、1つまたは複数のフィルタを音信号に適用して、拡張音信号を生成し、次いで、拡張音信号をユーザに提示する。
【0014】
現在のオーディオ強調技術は、効果的にカクテルパーティー問題を解決することができない。たとえば、従来の補聴器は極めて小さいフォームファクタを有し、したがって、それらは大きいマルチマイクロフォンアレイのための余地を有しない。その上、小さいフォームファクタは、処理負荷および電力消費に関する制限を課す。上記を念頭におくと、従来の補聴器が、概して、たとえば混雑したレストラン中で、なぜ音ソースからの音をうまく切り離し、強調することができない(すなわち、カクテル問題を実際に緩和しない)かは明らかである。対照的に、本明細書で説明されるオーディオシステムは、はるかに大きいフォームファクタを有するヘッドセットの一部であり、はるかに大きいマイクロフォンアレイと、より大きい電源と、より強力な処理能力とを含むことができる。したがって、本明細書で説明されるオーディオシステムは、インイヤデバイスが極めて単純な設計を有することを潜在的に可能にすることができる。大きいマイクロフォンアレイは、カクテルパーティー問題を大幅に緩和し、いくつかの事例では解決することが可能であるオーディオシステムの処理能力と組み合わせた、(従来の補聴器に対して)ローカルエリア内の音ソースロケーションを解決するはるかに改善された能力を可能にする。その上、オーディオシステムは、ユーザのためのオーディオコンテンツを生成するためにユーザの音プロファイルを使用することによってユーザの聴覚損失を埋め合わせることができる。
【0015】
本発明の実施形態は、人工現実システムを含むか、または人工現実システムとともに実装され得る。人工現実は、ユーザへの提示の前に何らかの様式で調整された形式の現実であり、これは、たとえば、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、ハイブリッド現実、あるいはそれらの何らかの組合せおよび/または派生物を含み得る。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、オーディオ、触覚フィードバック、またはそれらの何らかの組合せを含み得、それらのいずれも、単一のチャネルまたは複数のチャネルにおいて提示され得る(観察者に3次元効果をもたらすステレオビデオなど)。さらに、いくつかの実施形態では、人工現実は、人工現実におけるコンテンツを作成するために使用される、および/または人工現実において別様に使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せにも関連し得る。人工現実コンテンツを提供する人工現実システムは、ホストコンピュータシステムに接続されたウェアラブルデバイス(たとえば、ヘッドセット)、独立型ウェアラブルデバイス(たとえば、ヘッドセット)、モバイルデバイスまたはコンピューティングシステム、あるいは、1人または複数の観察者に人工現実コンテンツを提供することが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上に実装され得る。
【0016】
図1Aは、1つまたは複数の実施形態による、アイウェアデバイスとして実装されるヘッドセット100の斜視図である。いくつかの実施形態では、アイウェアデバイスは、ニアアイディスプレイ(NED)である。概して、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)が、ヘッドセット100のディスプレイアセンブリおよび/またはオーディオシステムを使用して提示されるように、ユーザの顔に装着され得る。メディアコンテンツの例は、1つまたは複数の画像、ビデオ、オーディオ、またはそれらの何らかの組合せを含む。しかしながら、ヘッドセット100はまた、メディアコンテンツが異なる様式でユーザに提示されるように使用され得る。たとえば、オーディオコンテンツは、ユーザによって装着されたインイヤデバイス185の一方または両方を使用して提示され得る。ヘッドセット100は、フレーム110を含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、1つまたは複数のイメージングデバイス130と、深度カメラアセンブリ(DCA)と、位置センサー190と、パッシブカメラアセンブリ(PCA)と、視標追跡システムと、オーディオシステムとを含み得る。図1Aは、ヘッドセット100上の例示的なロケーションにおけるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上の他の場所に、ヘッドセット100とペアリングされた周辺デバイス上に、またはそれらの何らかの組合せで位置し得る。同様に、図1Aに示されているものよりも多いまたは少ない構成要素がヘッドセット100上にあり得る。
【0017】
フレーム110は、ヘッドセット100の他の構成要素を保持する。フレーム110は、1つまたは複数のディスプレイ要素120を保持する前面部と、ユーザの頭部に取り付けるためのエンドピース(たとえば、テンプル)とを含む。フレーム110の前面部は、ユーザの鼻の上をまたいでいる。エンドピースの長さは、異なるユーザにフィットするように調整可能(たとえば、調整可能なテンプルの長さ)であり得る。エンドピースはまた、ユーザの耳の後ろ側で湾曲する部分(たとえば、テンプルの先端、イヤピース)を含み得る。
【0018】
1つまたは複数のディスプレイ要素120は、ヘッドセット100を装着しているユーザに光を提供する。図示のように、ヘッドセットは、ユーザの各眼のためのディスプレイ要素120を含む。いくつかの実施形態では、ディスプレイ要素120は、ヘッドセット100のアイボックスに提供される画像光を生成する。アイボックスは、ヘッドセット100を装着している間にユーザの眼が占有する空間中のロケーションである。たとえば、ディスプレイ要素120は導波路ディスプレイであり得る。導波路ディスプレイは、光ソース(たとえば、2次元ソース、1つまたは複数の線ソース、1つまたは複数の点ソースなど)と、1つまたは複数の導波路とを含む。光ソースからの光は、1つまたは複数の導波路中に内部結合され、1つまたは複数の導波路は、ヘッドセット100のアイボックス中に瞳複製(pupil replication)があるような様式で光を出力する。1つまたは複数の導波路からの光の内部結合および/または外部結合が、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光ソースからの光が1つまたは複数の導波路中に内部結合されるときにその光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素120の一方または両方が不透明であり、ヘッドセット100の周りのローカルエリアからの光を透過しないことに留意されたい。ローカルエリアは、ヘッドセット100の周囲のエリアである。たとえば、ローカルエリアは、ヘッドセット100を装着しているユーザが中にいる部屋であり得、または、ヘッドセット100を装着しているユーザは外にいることがあり、ローカルエリアは外のエリアである。このコンテキストでは、ヘッドセット100はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARおよび/またはMRコンテンツを作り出すために、ローカルエリアからの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素120の一方または両方は少なくとも部分的に透明である。
【0019】
いくつかの実施形態では、ディスプレイ要素120は、画像光を生成せず、代わりに、ローカルエリアからの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素120の一方または両方は、補正なしのレンズ(非処方)であるか、または、ユーザの視力の欠損を補正するのを助けるための処方レンズ(たとえば、単焦点、二焦点、および三焦点、または累進多焦点(progressive))であり得る。いくつかの実施形態では、ディスプレイ要素120は、太陽からユーザの眼を保護するために、偏光および/または色付けされ得る。
【0020】
いくつかの実施形態では、ディスプレイ要素120は追加の光学ブロック(図示せず)を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素120からの光をアイボックスに向ける1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、あるいはそれらの何らかの組合せを行い得る。
【0021】
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の周囲のローカルエリアについての視覚情報をキャプチャする1つまたは複数のイメージングデバイス130を含み得る。いくつかの実施形態では、イメージングデバイス130は、深度カメラアセンブリ(DCA)によって利用される。DCAは、ヘッドセット100の周囲のローカルエリアの一部分についての深度情報を決定する。DCAは、1つまたは複数のイメージングデバイス130と、DCAコントローラ(図1Aに図示せず)とを含み、照明器140をも含み得る。いくつかの実施形態では、照明器140は、ローカルエリアの部分を光で照明する。光は、たとえば、赤外線(IR)における構造化光(たとえば、ドットパターン、バーなど)、飛行時間についてのIRフラッシュなどであり得る。いくつかの実施形態では、1つまたは複数のイメージングデバイス130は、照明器140からの光を含むローカルエリアの部分の画像をキャプチャする。図示のように、図1Aは、単一の照明器140と2つのイメージングデバイス130とを示す。代替実施形態では、照明器140がなく、少なくとも2つのイメージングデバイス130がある。
【0022】
DCAコントローラは、キャプチャされた画像と1つまたは複数の深度決定技法とを使用して、ローカルエリアの一部分についての深度情報を算出する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、パッシブステレオ分析、アクティブステレオ分析(照明器140からの光によってシーンに追加されたテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
【0023】
位置センサー190は、1つまたは複数の測定信号を生成し、ヘッドセット100に関する位置情報を推定する。位置情報は、ローカルエリア中のヘッドセット100の位置、ヘッドセット100の配向、ヘッドセット100の速度、またはそれらの何らかの組合せを含み得る。ユーザによって装着されたヘッドセット100の位置情報は、ユーザの頭部に関する位置情報に対応する。位置センサー190は、ヘッドセット100のフレーム110の一部分に位置し得る。位置センサー190は、慣性測定ユニット(IMU)を含み得る。位置センサー190の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、IMUの誤差補正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー190は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せで位置し得る。
【0024】
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の位置のための同時位置特定およびマッピング(SLAM)と、ローカルエリアのモデルの更新とを提供し得る。たとえば、ヘッドセット100は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、ローカルエリアの一部または全部の画像をキャプチャする1つまたは複数のイメージングデバイス130(たとえば、RGBカメラ)を含み得る。PCAによってキャプチャされた画像と、DCAによって決定された深度情報とは、ローカルエリア中の1つまたは複数の音ソースに関する位置情報を決定すること(すなわち、各音ソースがローカルエリア内に位置する場合)、各音ソースの位置を含むローカルエリアのモデルを生成すること、経時的にローカルエリアのモデルを更新する(すなわち、1つまたは複数の音ソースが位置を変更するにつれてモデルを更新する)こと、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー190は、ローカルエリアのモデル中のヘッドセット100の位置(たとえば、ロケーション、配向、および速度)を追跡する。いくつかの実施形態では、ローカルエリアのモデルは、(たとえば、オーディオシステム中の)ヘッドセットに、外部システム(たとえば、マッピングサーバ)に、モバイルデバイスに、またはそれらの任意の組合せに記憶される。
【0025】
いくつかの実施形態では、PCAは、ローカルエリア中の各現実世界の音ソースについて音ソースのタイプを識別するために、オブジェクト認識モデルを使用し得る。音ソースのタイプは、ローカルエリア中の音を放出するエンティティの分類である。たとえば、PCAは、現実世界の音ソースのタイプを識別するためにオブジェクト認識を使用し得る。現実世界の音ソースは、たとえば、人、ヘッドセットを装着している人、スピーカー、動物、機械デバイス、ローカルエリア中の音を放出する何らかの他の現実世界のエンティティ、またはそれらの何らかの組合せであり得る。PCAは、各音ソースのタイプを含むようにローカルエリアのモデルを更新し得る。PCAはまた、各人またはヘッドセットを装着している人によって実施されるジェスチャーを追跡することによってローカルエリアのモデルを更新し得る。ジェスチャーは、しゃべること、手を振ること、手を上げること、現実世界のオブジェクトをユーザに手渡すこと、あるいは人またはヘッドセットを装着している人によって実施される何らかの他のジェスチャーを含み得る。
【0026】
いくつかの実施形態では、PCAは、ユーザの画像をキャプチャし得る。ユーザのPCAによってキャプチャされた画像は、ユーザによって実施されるジェスチャーでローカルエリアのモデルを更新するために使用され得る。ジェスチャーは、コマンド(すなわち、暗黙的ユーザ入力)を示すユーザによって実施される何らかの移動である。ユーザによって実施されるジェスチャーは、たとえば、ユーザの(1つまたは複数の)手、(1つまたは複数の)指、(1つまたは複数の)腕を用いたポインティングジェスチャー、コマンドを示すユーザによって実施される何らかの他の移動、またはそれらの何らかの組合せを含み得る。
【0027】
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100を装着しているユーザの(1つまたは複数の)眼の1つまたは複数の画像をキャプチャする1つまたは複数のイメージングデバイス130を含み得る。いくつかの実施形態では、イメージングデバイス130は、キャプチャされた画像に基づいてユーザの眼に関連する視標追跡情報を決定するために視標追跡システムによって利用される。視標追跡システムはまた、IR光で眼を照明する1つまたは複数の光ソース(図示せず)を含み得る。光ソースは、たとえば、レーザーを放出する垂直キャビティ、発光ダイオード(LED)、マイクロLED、赤外光IRの何らかの他のソース、またはそれらの何らかの組合せであり得る。視標追跡システムによって利用される1つまたは複数のイメージングデバイス130は、1つまたは複数の光ソースからのIR光で照明される眼の一方または両方の画像をキャプチャするように構成される。
【0028】
視標追跡システムは、キャプチャされた画像と深度決定技法とを使用してユーザの眼の一方または両方についての視標追跡情報を決定し得る。深度決定技法は、たとえば、構造化光、飛行時間、ステレオイメージング、当業者になじみのある何らかの他の深度決定方法などを含み得る。いくつかの実施形態では、視標追跡センサーは、キャプチャされた画像とユーザの眼のモデルとに基づいて視標追跡情報を決定する。視標追跡システムによって決定された視標追跡情報は、たとえば、視線情報、瞳孔測定情報、またはそれらの何らかの組合せを含み得る。ユーザの視線は、ユーザが見ている方向(たとえば、ユーザの眼配向)である。ユーザの瞳孔測定情報は、瞳孔サイズおよび瞳孔反応性である。視線情報および瞳孔測定情報の一方または両方は、ユーザがユーザの注意をどこに向けているか(たとえば、暗黙的ユーザ入力)を決定するために使用され得る。
【0029】
視標追跡システムによって決定された視標追跡情報は、ユーザの視線を決定するために、(たとえば、位置センサー190を使用して決定されるような)ヘッドセット110の決定された位置と組み合わせられ得る。たとえば、(ユーザの頭部に対するユーザの眼の配向を示す)ユーザの眼配向に対応するベクトルは、(ローカル環境においてユーザが見ている方向を示す)ユーザの視線に対応するベクトルを決定するために、(ローカルエリア内のヘッドセットのロケーションおよび配向を示す)ヘッドセットの位置に対応するベクトルに追加され得る。ローカルエリアのモデルは、ユーザの視線ベクトルを含み得る。いくつかの実施形態では、ローカルエリアのモデルは、ユーザのためのマッピングされた視線ベクトルの履歴を含み得る。ユーザの視線を決定することによって、ローカルエリア中でユーザが見ている方向が識別され、その方向は、(たとえば、オーディオシステムによって決定されるような)ローカルエリア中の他の音ソースの位置の知識の組合せにおいて、ユーザが音ソースのうちのどれのほうを見ているかに関する決定を可能にすることができる。
【0030】
いくつかの実施形態では、視標追跡システムは、PCAによって利用される1つまたは複数のイメージングデバイス130の視野内のローカルエリアを示す1つまたは複数の画像をPCAから受信し得、決定された視線を受信された画像内のロケーションにマッピングする。ローカルエリアのモデルは、視線を含むように更新され得る。
【0031】
オーディオシステムは、ヘッドセット100を介しておよび/またはインイヤデバイス185を介してオーディオコンテンツをユーザに提供する。オーディオシステムは、マイクロフォンアレイと、オーディオコントローラ150と、トランスデューサアレイとを含む。ただし、他の実施形態では、オーディオシステムは、異なるおよび/または追加の構成要素を含み得る。同様に、いくつかの場合には、オーディオシステムの構成要素に関して説明される機能性は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コントローラの機能の一部または全部が、リモートサーバによって実施され得る。
【0032】
マイクロフォンアレイは、ヘッドセット100のローカルエリア内の音を検出する。マイクロフォン180は、ローカルエリア(たとえば、部屋)中の1つまたは複数の現実世界の音ソースから放出された音をキャプチャする。マイクロフォンアレイは、複数のマイクロフォン180を含む。マイクロフォン180は、音響波センサー、音トランスデューサ、または音を検出するのに好適である同様のセンサーであり得る。マイクロフォン180の数および/またはロケーションは、図1Aに示されているものとは異なり得る。たとえば、収集されたオーディオ情報の量ならびにその情報の感度および/または精度を増加させるために、マイクロフォンロケーションの数が増加され得る。マイクロフォンロケーションは、マイクロフォン180が、ヘッドセット100を装着しているユーザの周囲の広範囲の方向における音を検出することが可能であるように、配向され得る。各マイクロフォン180は、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。いくつかの実施形態では、マイクロフォン180は、ヘッドセット100の外面上に置かれるか、ヘッドセット100の内面上に置かれるか、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。
【0033】
一実施形態では、マイクロフォンアレイは、インイヤデバイス185から放出された漏れ信号をキャプチャする。他の実施形態では、マイクロフォンアレイは、ヘッドセット100のオーディオシステムのトランスデューサアレイから放出された漏れ信号をキャプチャし得る。漏れ信号は、インイヤデバイス185を介してまたはヘッドセット100のオーディオシステムを介してユーザにオーディオコンテンツとして提示される拡張音信号と同相である音信号である。漏れ信号は、ローカルエリア中で他の人によって聴取されるかまたは他のヘッドセットデバイスによってキャプチャされ得る。
【0034】
ヘッドセット100のトランスデューサアレイは、オーディオコントローラ150からの命令に従って1つまたは複数の音信号をユーザに提供し得る。たとえば、ヘッドセット100のトランスデューサアレイは、オーディオコントローラからの命令に従ってユーザに拡張音信号を提示し得る。トランスデューサアレイは、複数のトランスデューサを含む。トランスデューサは、スピーカー160または組織トランスデューサ170(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー160の数および/またはロケーションは、図1Aに示されているものとは異なり得る。たとえば、スピーカー160は、ヘッドセット100のフレーム110に囲まれ得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット100は、提示されたオーディオコンテンツの方向性を改善するためにフレーム110に組み込まれた複数のスピーカーを備えるスピーカーアレイを含む。組織トランスデューサ170は、ユーザの頭部に結合し、ユーザの組織(たとえば、骨または軟骨)を直接振動させて、音を生成する。トランスデューサの数および/またはロケーションは、図1Aに示されているものとは異なり得る。
【0035】
トランスデューサアレイは、オーディオコントローラ150からの命令に従って緩和信号を出力し得る。緩和信号は、遠距離場におけるインイヤデバイス185によって放出された漏れ信号を実質的に消去し、したがって、ローカルエリア中の他の人またはヘッドセットは、遠距離場における漏れ信号を聴取またはキャプチャしないことがある。
【0036】
オーディオコントローラ150は、オーディオシステムの動作を制御する。オーディオコントローラ150は、プロセッサとコンピュータ可読記憶媒体とを備え得る。オーディオコントローラ150は、ローカルエリア中の音ソース(現実世界の音ソースまたは仮想音ソース)をターゲット音ソースとして識別し得る。いくつかの実施形態では、オーディオコントローラ150は、ローカルエリアのモデルに記憶された暗黙的ユーザ入力に基づいてターゲット音ソースを識別する。いくつかの実施形態では、オーディオコントローラ150は、明示的なユーザ入力(たとえば、ユーザによって提供された口頭キュー)に基づいてターゲット音ソースを識別する。
【0037】
オーディオコントローラ150は、ユーザの音プロファイルに基づいて、マイクロフォンアレイによってキャプチャされた1つまたは複数の音信号に適用すべき1つまたは複数のフィルタを生成し得る。1つまたは複数のフィルタは、たとえば、ターゲット音ソースによって放出された音に対応する音信号、他の音ソースによって放出された音に対応する音信号、またはそれらの何らかの組合せに適用され得る。いくつかの実施形態では、オーディオコントローラ150は、ローカルエリアのモデルを使用して1つまたは複数のフィルタを生成し得る。いくつかの実施形態では、1つまたは複数のフィルタは、ターゲット音ソースによって放出された音に対応する音信号を(たとえば、いくつかの周波数を増幅することによって、オーディオを等化することによってなど)強調し得る。いくつかの実施形態では、オーディオコントローラ150は、ターゲット音ソースによって放出された音に対応する音信号に1つまたは複数のフィルタを適用することによって、拡張信号を生成する。いくつかの実施形態では、オーディオコントローラ150は、拡張信号を生成するために音信号に1つまたは複数のフィルタを適用するようにとの命令をインイヤデバイス185に提供する。
【0038】
オーディオコントローラ150は、ローカルエリア中の(1つまたは複数の)他の音ソースによって放出された音に対応する(1つまたは複数の)音信号を(たとえば、いくつかの周波数をフィルタで除去することによって)抑制する1つまたは複数のフィルタを生成し得る。一実施形態では、オーディオコントローラ150は緩和信号を決定する。緩和信号は、インイヤデバイス185によって放出された漏れ信号に対して位相外れである音信号である。漏れ信号は、ローカルエリア中で、他の人によって聴取され、および/または他のデバイス(たとえば、ヘッドセット)によってキャプチャされ得、これは、ユーザのプライバシーを阻害する。いくつかの実施形態では、漏れ信号は、マイクロフォンアレイによってキャプチャされ得る。オーディオコントローラは、漏れ信号の周波数をフィルタで除去するフィルタを生成する。オーディオコントローラは、緩和信号を生成するために、漏れ信号にこのフィルタを適用する。緩和信号は、オーディオコントローラ150によってトランスデューサアレイに出力信号として提供される。緩和信号は、遠距離場における漏れ信号を抑制し、したがって、ユーザのためのさらなるプライバシーを提供する。
【0039】
いくつかの実施形態では、オーディオコントローラ150は、ターゲット音ソースでないと決定された音ソースによって放出された音に対応する音信号を抑制する1つまたは複数のフィルタを生成し得る。他の音ソースによって放出された音に対応する音信号の抑制は、カクテルパーティー問題を解決するのを助ける。たとえば、他の音ソース(たとえば、群衆中の複数の人々)に関連する音信号の周波数を抑制することによって、オーディオコントローラ150は、ターゲット音ソース(たとえば、ユーザが会話している人)に関連する音信号にフィルタを適用することさえなしに、ターゲット音ソースによって放出された音を強調し得る。別の例では、他の音ソースに関連する音信号における周波数を抑制し、ターゲット音ソースに関連する音信号における周波数を強調することによって、オーディオコントローラ150は、カクテルパーティー問題を解決し得る。いくつかの実施形態では、オーディオコントローラ150は、1つまたは複数の他の音ソースに関連する1つまたは複数の音信号における周波数が、ターゲット音ソースに関連する音信号における周波数と同様であり得ると決定し得る。この実施形態では、オーディオコントローラ150は、他の音ソースに関連する音信号を強調しないことと、ターゲット音ソースに関連する音信号のみを強調することとを決定し得る。
【0040】
いくつかの実施形態では、インイヤデバイス185は、オーディオコントローラ150からの命令に従って拡張音信号をユーザに提供する。インイヤデバイス185は、通信ユニット(図示せず)とスピーカー165とを含み得る。インイヤデバイス185は、ユーザによって装着され(たとえば、ユーザのそれぞれの耳道中に置かれ)、スピーカー165を介してユーザに拡張音信号を提示し得る。いくつかの実施形態では、インイヤデバイス185は、ヘッドセット100に通信可能に結合された補聴器である。いくつかの実施形態では、インイヤデバイス185は、オーディオコントローラ150からの命令に従って、拡張音信号を生成するために、音信号に1つまたは複数のフィルタを適用する。インイヤデバイス185は、次いで、スピーカー165を介してユーザに拡張音信号を提示し得る。図1Aは、ユーザの各耳のためのインイヤデバイス185を示すが、他の実施形態では、ただ、一方の耳のための単一のインイヤデバイス185があり、他方の耳のためのインイヤデバイスがないことがある。
【0041】
オーディオシステムに関する追加の詳細が図2において以下で説明され、ヘッドセット100の構成要素に関する追加の詳細が図5に関して以下で説明される。
【0042】
図1Bは、1つまたは複数の実施形態による、HMDとして実装されるヘッドセット105の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は、可視帯域(約380nm~750nm)内で少なくとも部分的に透明であり、HMDの前側とユーザの眼との間にあるHMDの部分は、少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは、前面剛体115とバンド175とを含む。ヘッドセット105は、図1Aを参照しながら上記で説明された同じ構成要素の多くを含むが、HMDフォームファクタと一体化するように修正される。たとえば、HMDは、1つまたは複数のイメージングデバイス130と、深度カメラアセンブリ(DCA)と、位置センサー190と、パッシブカメラアセンブリ(PCA)と、視標追跡システムと、オーディオシステムとを含む。図1Bは、照明器140と、複数のスピーカー160と、複数のマイクロフォン180と、スピーカー165をもつインイヤデバイス185とを示す。図1Bはインイヤデバイス185を示すが、他の実施形態では、各耳について1つずつ、2つのインイヤデバイス185があり得る。
【0043】
図2は、1つまたは複数の実施形態による、オーディオシステム200のブロック図である。図1Aまたは図1B中のオーディオシステムは、オーディオシステム200の一実施形態であり得る。図2の実施形態では、オーディオシステム200は、マイクロフォンアレイ210と、トランスデューサアレイ220と、オーディオコントローラ230とを含む。いくつかの実施形態では、オーディオシステム200は、インイヤデバイス270をも含む。オーディオシステム200のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、いくつかの場合には、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。オーディオシステム200の少なくとも一部分が、ヘッドセットに組み込まれ、いくつかの場合には、オーディオシステム200は、インイヤデバイス270をも含み得る。さらに、図2に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、1つまたは複数の外部構成要素の間で分散され得る。たとえば、オーディオコントローラ230の機能性の一部または全部は、接続されたモバイルデバイス(たとえば、モバイルフォン)によって実施され得る。
【0044】
マイクロフォンアレイ210は、マイクロフォンアレイ210の周囲のローカルエリア内の音をキャプチャする。マイクロフォンアレイ210は、各々音波の空気圧力変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえば、ヘッドセット100および/またはヘッドセット105)上に、インイヤデバイス270上に、何らかの他の接続されたデバイス(たとえば、モバイルフォン)上に、あるいはそれらの何らかの組合せで配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。音響センサーの数を増加させることによって、音ソースのいずれかによって作り出された音場を記述する情報(たとえば、方向性)の精度が改善され得る。
【0045】
一実施形態では、マイクロフォンアレイは、ローカルエリア内の1つまたは複数の現実世界の音ソースによって放出された音をキャプチャし得る。キャプチャされた音は、複数の音信号(すなわち、各音ソースについての音信号)を含み得る。音信号は、ユーザにオーディオコンテンツとして音信号を提示するより前に少なくとも1つの音信号を強調し得る1つまたは複数のフィルタの決定など、さらなる処理のために、オーディオコントローラ230に提供される。いくつかの実施形態では、キャプチャされた音は、インイヤデバイス270のトランスデューサ(たとえば、内部トランスデューサ275)によって、またはトランスデューサアレイ220中の1つまたは複数のトランスデューサによって放出された漏れ信号を含み得る。
【0046】
いくつかの実施形態では、トランスデューサアレイ220は、1つまたは複数の音信号をユーザに提供する。トランスデューサアレイ220は、複数のトランスデューサを含む。トランスデューサは、たとえば、スピーカー(たとえば、スピーカー160)、組織トランスデューサ(たとえば、組織トランスデューサ170)、ユーザに音信号を提示する何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ220は、空気伝導を介して(たとえば、1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導オーディオシステムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せでオーディオコンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ220は、周波数範囲の異なる部分をカバーするための1つまたは複数のトランスデューサを含み得る。たとえば、周波数範囲の第1の部分をカバーするために圧電トランスデューサが使用され得、周波数範囲の第2の部分をカバーするために可動コイルトランスデューサが使用され得る。
【0047】
骨伝導トランスデューサは、ユーザの頭部における骨/組織を振動させることによって音響圧力波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳介の後ろでユーザの頭蓋骨の一部分に結合されるように構成され得る。骨伝導トランスデューサは、オーディオコントローラ230から振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回して、ユーザの蝸牛のほうへ伝搬する組織伝搬音響圧力波を生成する。
【0048】
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨の1つまたは複数の部分を振動させることによって音響圧力波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサは、ユーザの耳の耳介の背面に結合し得る。軟骨伝導トランスデューサは、外耳の周りの耳介軟骨に沿ったどこか(たとえば、耳殻、耳珠、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)に位置し得る。耳介軟骨の1つまたは複数の部分を振動させることは、耳道外の空気伝搬音響圧力波、耳道のいくつかの部分を振動させ、それにより、耳道内に空気伝搬音響圧力波を生成させる、組織伝搬音響圧力波、またはそれらの何らかの組合せを生成し得る。生成された空気伝搬音響圧力波は、耳道に沿って鼓膜のほうへ伝搬する。
【0049】
いくつかの実施形態では、トランスデューサアレイ220は、オーディオコントローラ230によって提供された命令に従って、ユーザにオーディオコンテンツとして拡張音信号を提示し得る。オーディオコンテンツがヘッドセットのトランスデューサアレイ220のみによって提供されている、これらの実施形態では、トランスデューサアレイは、漏れ信号を緩和するために1つまたは複数のダイポールスピーカーアセンブリを含み得る。ダイポールスピーカーアセンブリ構造および動作は、たとえば、その内容全体が参照により本明細書に組み込まれる、2020年1月8日に出願された米国特許出願第16/737,316号、2019年8月29日に出願された米国特許出願第16/555,058号、および2020年2月13日に出願された米国特許出願第16/790,613号においてさらに説明される。他の実施形態では、トランスデューサアレイ220は、緩和信号を出力するようにとの命令をオーディオコントローラ230から受信し得る。これらの実施形態では、オーディオコンテンツは、インイヤデバイス270のみによって提供されている。
【0050】
いくつかの実施形態では、インイヤデバイス270は、オーディオコントローラ230によって提供された命令に従って、ユーザにオーディオコンテンツとして拡張音信号を提示し得る。インイヤデバイス270は、図1Aまたは図1B中のインイヤデバイス185の実施形態であり得る。各インイヤデバイス270は、少なくとも、通信ユニット273と内部トランスデューサ275とを含む。いくつかの実施形態では、1つまたは複数のインイヤデバイス270は、バッテリー、外部トランスデューサ、インイヤオーディオコントローラ、外部マイクロフォン、内部マイクロフォン、ここで説明されないいくつかの他の構成要素、またはそれらの何らかの組合せを含み得る。いくつかの実施形態では、インイヤデバイス270のうちの1つまたは複数は、たとえば、オーディオシステム200に通信可能に結合されたイヤバッドであり得る。通信ユニット273は、受信機を含み、いくつかの実施形態では、送信機をも含み得る。いくつかの実施形態では、通信ユニット273は、外部マイクロフォンおよび/または内部マイクロフォンによってキャプチャされた音をオーディオコントローラ230に提供し得る。通信ユニット273は、オーディオコントローラ230から命令を受信し得る。命令は、ターゲット音ソースによって放出された音信号および/または拡張音信号に適用すべき1つまたは複数のフィルタを含み得る。いくつかの実施形態では、インイヤオーディオコントローラは、拡張音信号を生成するために、音信号に1つまたは複数のフィルタを適用し得る。内部トランスデューサ275は、ユーザに拡張音信号を提示する。各インイヤデバイス270は、各インイヤデバイス270が耳道を少なくとも部分的に閉塞するようにユーザの耳道内にフィットするように構成される。
【0051】
ユーザへの拡張音信号の提示中に、インイヤデバイス270は漏れ信号を放出し得る。漏れ信号は、ローカルエリア中で、他の人によって聴取され、および/または他のデバイス(たとえば、ヘッドセット)によってキャプチャされ得、これは、ユーザのプライバシーを阻害する。いくつかの実施形態では、漏れ信号は、マイクロフォンアレイ210によって監視され、トランスデューサアレイ220によって出力された緩和信号によって遠距離場において大幅に緩和され得る。これは、図1Aにおいてさらに詳細に説明される。
【0052】
オーディオコントローラ230は、オーディオシステム200の動作を制御する。図2の実施形態では、オーディオコントローラ230は、データストア235と、較正モジュール237と、DOA推定モジュール240と、伝達関数モジュール245と、追跡モジュール250と、ソース識別モジュール255と、音フィルタモジュール260と、通信モジュール265とを含む。オーディオコントローラ230は、いくつかの実施形態では、ヘッドセット内に位置し得る。オーディオコントローラ230のいくつかの実施形態は、ここで説明されるものとは異なる構成要素を有する。同様に、機能は、ここで説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、オーディオコントローラ230のいくつかの機能が、ヘッドセットの外部で実施され得る。
【0053】
データストア235は、オーディオシステム200による使用のためのデータを記憶する。データストア235中のデータは、オーディオシステム200のローカルエリアにおいて記録された音、到来方向(DOA)推定値、音ソースロケーション、ターゲット音ソース、頭部伝達関数(HRTF)、1つまたは複数のセンサーのための伝達関数、音響センサーのうちの1つまたは複数のためのアレイ伝達関数(ATF)、ローカルエリアのモデル、ユーザ入力、ユーザの1つまたは複数のオーディオグラム、ユーザのための雑音中音声テスト結果、ユーザのためのスペクトル-時間弁別結果、ユーザの音プロファイル、音フィルタ、音信号、オーディオシステム200による使用のための関連する他のデータ、またはそれらの任意の組合せを含み得る。
【0054】
ローカルエリアのモデルは、ローカルエリア中の(ユーザを含む)各音ソースの位置、移動、および音響効果を追跡し、ローカルエリアを記述する音響パラメータを記憶する。ローカルエリアのモデルは、ユーザに関する位置情報(たとえば、ローカルエリア中のユーザのロケーション、配向、および/または速度)と、ユーザに関する移動情報(たとえば、ユーザに関する視標追跡情報および/またはユーザによって実施されるジェスチャー)と、ユーザに関する音響情報(たとえば、ユーザによって放出された音を強調または抑制するための1つまたは複数のフィルタ)とを含み得る。ローカルエリアのモデルは、音ソースに関する位置情報(たとえば、ローカルエリア中の各音ソースのロケーション)と、音ソースの一部または全部に関するタイプ情報(たとえば、音ソースは人である、音ソースは仮想オブジェクトであるなど)とをも含み得、ローカルエリアのモデルは、ローカルエリアを記述する音響パラメータ(たとえば、残響時間)をも含み得る。いくつかの実施形態では、オーディオシステムは、経時的に、ユーザに関する更新された情報および/または音ソースに関する更新された情報および/またはローカルエリアに関する更新された情報で、ローカルエリアのモデルを更新する。
【0055】
較正モジュール237はユーザの音プロファイルを生成する。音プロファイルは、ユーザが異なる周波数における音をどのくらい良く聴取するかを記述する、ユーザに関する個人化された音情報である。音プロファイルは、1つまたは複数のオーディオグラム、ラウドネス不快感レベルテスト結果、雑音中音声テスト結果、スペクトル-時間弁別結果、時間微細構造テスト結果、認知パフォーマンステスト結果、自己報告聴力、何らかの他の聴覚テスト結果、またはそれらの何らかの組合せからの情報を含み得る。いくつかの実施形態では、音プロファイルは、ユーザの1つまたは複数のEEGテスト結果、瞳孔測定、心臓活動パラメータ、またはユーザの何らかの他の生体信号テスト結果からの情報を含み得る。いくつかの実施形態では、較正モジュール237は、トランスデューサアレイ220および/またはインイヤデバイス270を介してユーザにオーディオコンテンツを提示することによって、音プロファイルを生成する。オーディオコンテンツは、(たとえば、純粋なトーンを使用して)異なる周波数において提示され、ユーザは、ユーザがオーディオコンテンツを聴取したかどうか/いつ聴取したかに関するフィードバックを提供する。いくつかの実施形態では、オーディオコンテンツは、より複雑なスペクトル時間的に(spectrotemporally)変動する信号を使用して提示される。いくつかの実施形態では、フィードバックは、オーディオシステム200に通信可能に結合されたI/Oインターフェースを介して、ユーザによって提供され得る。他の実施形態では、ユーザは、ユーザがオーディオコンテンツを聴取したかどうか/いつ聴取したか示す、ヘッドセットのPCAによってキャプチャされるジェスチャー(たとえば、親指を立てる)を実施し得る。いくつかの実施形態では、ユーザは、マイクロフォンアレイ210によってキャプチャされるフィードバックとして口頭キューを提供し得る。いくつかの実施形態では、較正モジュール237は、I/Oインターフェースを介して、またはオーディオシステム200に通信可能に結合された何らかの他の外部システムを介して、ユーザからおよび/またはオーディオロジスト(audiologist)から音プロファイルを収集する。
【0056】
較正モジュール237は、経時的に、必要に応じてユーザの音プロファイルを更新し得る。たとえば、オーディオシステム200の動作中に、較正モジュールは、ヘッドセットおよび/またはインイヤデバイス270の性能に関係するフィードバックをユーザから受信し得る。ユーザフィードバックは、提示されたオーディオコンテンツに関係するフィードバック(たとえば、ジェスチャーまたは口頭キュー)を含み得る。受信されたフィードバックに基づいて、較正モジュール237は、それに応じてユーザの音プロファイルを更新し得る。いくつかの実施形態では、ユーザフィードバックは、あまり明白でないことがある。たとえば、ユーザは、提示されているオーディオコンテンツが特定の周波数帯域中に(たとえば、より高い周波数に)あるとき、ボリュームを上げる傾向を有し得る。経時的に、較正モジュール237は、このパターンを識別し、特定の周波数帯域における聴覚損失を反映するように音プロファイルを調整し得る。別の例では、ユーザは、提示されているオーディオコンテンツが特定の周波数帯域中にあるとき、ユーザの頭部および/または眼をより頻繁に動かし得る。経時的に、較正モジュール237は、このパターンを識別し、特定の周波数帯域における聴覚損失を反映するように音プロファイルを調整し得る。更新された音プロファイルは、次いで、特定の周波数帯域における聴覚損失を相殺するフィルタを生成するために使用され得る。
【0057】
DOA推定モジュール240は、マイクロフォンアレイ210からのキャプチャされた音に部分的に基づいて、ローカルエリア中の音ソースの位置を特定するように構成される。位置特定は、オーディオシステム200のユーザに対して音ソースがどこに位置するかを決定するプロセスである。DOA推定モジュール240は、ローカルエリア内の1つまたは複数の音ソースの位置を特定し、それに応じてローカルエリアのモデルを更新するために、DOA分析を実施する。DOA分析は、音が発生した方向を決定するために、マイクロフォンアレイ210において、各音の強度、スペクトル、および/または到来時間を分析することを含み得る。いくつかの場合には、DOA分析は、オーディオシステム200が位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
【0058】
たとえば、DOA分析は、マイクロフォンアレイ210から入力信号を受信し、入力信号にデジタル信号処理アルゴリズムを適用して、到来方向を推定するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がサンプリングされ、サンプリングされた信号の得られた重み付けおよび遅延されたバージョンが、DOAを決定するために一緒に平均化される、遅延和アルゴリズムを含み得る。適応フィルタを作成するために、最小2乗平均(LMS:least mean squared)アルゴリズムも実装され得る。この適応フィルタは、次いで、たとえば信号強度の差、または到来時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数ドメインに変換し、処理すべき時間周波数(TF)ドメイン内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路オーディオ信号をもつオーディオスペクトルの一部分を含むかどうかを決定するために、処理され得る。直接経路信号の一部分を有するビンは、次いで、マイクロフォンアレイ210が直接経路オーディオ信号を受信した角度を識別するために、分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載されていない他のアルゴリズムも、DOAを決定するために、単独でまたは上記のアルゴリズムと組み合わせて使用され得る。
【0059】
伝達関数モジュール245は、1つまたは複数の音響伝達関数を生成するように構成される。概して、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール245は、オーディオシステムに関連する1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォン(たとえば、マイクロフォンアレイ210のマイクロフォンおよび/またはインイヤデバイス270の外部マイクロフォン)が空間中の点からどのように音を受信するかを特徴づける。
【0060】
ATFは、音ソースとマイクロフォンアレイ210中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、音ソースについて、マイクロフォンアレイ210中の音響センサーの各々についての対応する伝達関数がある。また、まとめて、伝達関数のセットはATFと呼ばれる。したがって、各音ソースについて、対応するATFがある。マイクロフォンアレイ210に対する特定の音ソースロケーションについてのATFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、ユーザによって異なり得る。したがって、マイクロフォンアレイ210のATFは、オーディオシステム200の各ユーザのために個人化される。
【0061】
いくつかの実施形態では、伝達関数モジュール245は、オーディオシステム200のユーザのための1つまたは複数のHRTFを決定する。HRTFは、耳が空間中の点からどのように音を受信するかを特徴づける。人に対する特定の音ソースロケーションについてのHRTFは、音が人の耳に進むときに音に影響を及ぼす人の解剖学的構造(たとえば、耳形状、肩など)により、人の各耳に固有である(および人に固有である)。いくつかの実施形態では、伝達関数モジュール245は、較正プロセスを使用してユーザのためのHRTFを決定し得る。いくつかの実施形態では、伝達関数モジュール245は、ユーザに関する情報をリモートシステムに提供し得る。リモートシステムは、たとえば、機械学習を使用して、ユーザにカスタマイズされたHRTFのセットを決定し、HRTFのカスタマイズされたセットをオーディオシステム200に提供する。
【0062】
追跡モジュール250は、1つまたは複数の音ソースのロケーションを追跡するように構成される。追跡モジュール250は、現在のDOA推定値を比較し、それらを、前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、オーディオシステム200は、1秒当たり1回、または1ミリ秒当たり1回など、周期的スケジュールでDOA推定値を再計算し得る。追跡モジュール250は、現在のDOA推定値を前のDOA推定値と比較し得、音ソースについてのDOA推定値の変化に応答して、追跡モジュール250は、音ソースが移動したと決定し得る。いくつかの実施形態では、追跡モジュール250は、(たとえば、DCAおよび/またはPCAからの)ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール250は、経時的に1つまたは複数の音ソースの移動を追跡し得る。追跡モジュール250は、ローカルエリアのモデルに、各時点における音ソースの数と各音ソースのロケーションとについての値を記憶し得る。音ソースの数またはロケーションの値の変化に応答して、追跡モジュール250は、音ソースが移動したと決定し得、ローカルエリアのモデルは、それに応じて更新される。追跡モジュール250は、位置特定分散(localization variance)の推定値を計算し得る。位置特定分散は、移動の変化の各決定についての信頼性レベルとして使用され得る。
【0063】
ソース識別モジュール255は、所与の時間にユーザにとって関心のある、ローカルエリア中の複数の音ソースのうちの音ソース(たとえば、ターゲット音ソース)を決定するように構成される。ターゲット音ソースは、現実世界の音ソースまたは仮想音ソースであり得る。一実施形態では、ソース識別モジュール255は、ローカルエリアのモデルに記憶された暗黙的ユーザ入力および/またはユーザによって直接提供された明示的なユーザ入力に部分的に基づいて、ターゲット音ソースを決定する。たとえば、ローカルエリアのモデルは、ユーザに関する位置情報と、音ソースに関する位置情報と、ユーザのための視標追跡情報とを含む。マッピングされた視線ベクトル(すなわち、暗黙的ユーザ入力)に基づいて、ソース識別モジュール255は、ターゲット音ソースが、ユーザが見ている音ソースであると決定する。いくつかの実施形態では、ユーザの視線は、ローカルエリアのモデルにおいて経時的に追跡され、ターゲット音ソースは、ユーザがしきい値時間量の間(たとえば、3秒間、5秒間など)見ている音ソースである。別の例では、ローカルエリアのモデルは、ユーザに関するジェスチャー情報(すなわち、暗黙的ユーザ入力)を含む。ユーザによって実施された識別されるジェスチャー(たとえば、指を指すこと)に基づいて、ソース識別モジュール255は、ターゲット音ソースが、ユーザが指している音ソースであると決定する。いくつかの実施形態では、ソース識別モジュール255は、明示的なユーザ入力に基づいてターゲット音ソースを決定する。たとえば、ユーザは、マイクロフォンアレイによってキャプチャされた(たとえば、どの音ソースがターゲット音ソースであるべきであるかを述べる)口頭キューを提供し得る。ユーザ入力に基づいて、ソース識別モジュール255は、ターゲット音ソースが、ユーザによって示された音ソースであると決定する。
【0064】
音フィルタモジュール260は、1つまたは複数の音信号に適用すべき1つまたは複数のフィルタを決定する。音信号は、ターゲット音ソースによって放出された音および/または他の音ソースによって放出された音(たとえば、インイヤデバイス270によって放出された漏れ音)に対応し得る。いくつかの実施形態では、1つまたは複数の音フィルタは、ターゲット音ソースに関連する音信号を強調させ得る。いくつかの実施形態では、音フィルタモジュール260は、ローカルエリア中の他の音ソースに関連する音をフィルタで除去する(すなわち、減少させるかまたはなくす)1つまたは複数の音フィルタを決定する。いくつかの実施形態では、音フィルタモジュール260は、ターゲット音ソースによって放出された音信号がフィルタ(たとえば、伝達関数モジュール245によって決定された1つまたは複数のHRTF)で空間化される必要があり得ると決定し得る。いくつかの実施形態では、音フィルタモジュール260は、特定の周波数における高音圧レベルに関連する不快感を防ぐための1つまたは複数のフィルタ(たとえば、マルチバンドリミッタ)を決定し得る。いくつかの実施形態では、音フィルタモジュール260は、フィードバックを抑制するための1つまたは複数のフィルタを識別し得る。たとえば、すべてのまたはいくつかの周波数帯域を特定の量だけ(たとえば、5Hz、20Hz、50Hzなどだけ)転位する周波数転位(frequency transposition)フィルタが識別され得る。
【0065】
音フィルタモジュール260は、ユーザの音プロファイルに基づいて1つまたは複数のフィルタを決定し得る。たとえば、音フィルタモジュール260は、ユーザが聴取するのに苦労するいくつかの周波数に関する情報を含んだユーザの音プロファイルに基づいて、いくつかの周波数を増幅するフィルタを選択し得る。別の例では、音フィルタモジュール260は、ユーザが音を聴取するために、その音がどのくらい強い必要があるかに関する情報を含んだユーザの音プロファイルに基づいて、複数のワイドダイナミックレンジ圧縮フィルタからワイドダイナミックレンジ圧縮フィルタを選択し得る。ワイドダイナミックレンジ圧縮フィルタは、音信号に非線形利得を適用する。たとえば、ワイドダイナミックレンジ圧縮フィルタは、ソフトな音(すなわち、低強度音)を大きい量だけ増幅し、中程度の音(すなわち、中域強度音)を中等度の量だけ増幅し、大きい音(すなわち、高強度音)を小さい量だけ増幅し得る。別の例では、ワイドダイナミックレンジ圧縮フィルタは、ユーザに提示された音を等化するために、anにおける周波数に基づいて音信号を増幅し得る。各固有の音信号は、それ自体の固有のワイドダイナミックレンジ圧縮フィルタを有し得る。音フィルタモジュール260は、どれが、ターゲット音ソースに関連する音信号に適用すべき適切なワイドダイナミックレンジ圧縮フィルタであるかを決定する。
【0066】
いくつかの実施形態では、音フィルタモジュール260は、ローカルエリアのモデルに基づいてフィルタを生成する。ローカルエリアのモデルは、ローカルエリア中の音ソースのタイプを含み得る。たとえば、少なくとも、ローカルエリア中の音ソース(すなわち、ターゲット音ソースでない)は、機械デバイスであり得る。音フィルタモジュール260は、機械デバイスによって放出された音の周波数を減少させるかまたはなくすための音フィルタを決定し得る。ローカルエリアのモデルは、ローカルエリアの音響特性を記述する音響パラメータを含み得る。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール260は、音響パラメータのうちの1つまたは複数を計算し、それらのパラメータをローカルエリアのモデルに記憶する。いくつかの実施形態では、音フィルタモジュール260は、(たとえば、図5に関して以下で説明されるように)マッピングサーバに音響パラメータを要求し、それらのパラメータをローカルエリアのモデルに記憶する。音フィルタモジュール260は、ローカルエリアの高残響時間に基づいて、他の音ソースによって放出された音(すなわち、ターゲット音ソースによって放出された音でない)の周波数を減少させるかまたはなくす、1つまたは複数の音フィルタを決定し得る。
【0067】
音フィルタモジュール260は、識別されたターゲットソースがローカルエリア中の異なる音ソースからしきい値距離内にあることを検出し得る。たとえば、音フィルタモジュール260は、識別されたターゲットソースが異なる音ソースからしきい値距離内にあるかどうかを決定するために、1つまたは複数の決定された音ソースロケーションとローカルエリアのモデルとを利用し得る。しきい値距離は、各音ソースについて固有であり得る。たとえば、音ソースについてのしきい値距離は、たとえば、音ソースによって放出された音の周波数に基づく、音ソースによって放出された音の強度に基づく、ユーザの音プロファイルに基づく、またはそれらの何らかの組合せであり得る。たとえば、いくつかの周波数および/またはいくつかの強度は、ユーザがそれらを聴取するために、さらに離れて離間している必要があり得る。音フィルタモジュール260は、ターゲット音ソースと異なる音ソースとの間の空間分離を、少なくとも、しきい値距離よりも大きい分離距離になるように増加させるために、(たとえば、HRTFを更新することによって)1つまたは複数のフィルタのうちの少なくとも1つを更新する。この実施形態では、拡張音信号は、音がターゲット音ソースから発生するように思われ、異なる音ソースからの音が、ターゲット音ソースから少なくとも分離距離のところにある、ローカルエリア中のロケーションから発生するように思われるようなものである。この実施形態は、図3においてさらに詳細に説明される。
【0068】
音フィルタモジュール260は、拡張音信号を生成するために、音信号に1つまたは複数のフィルタを適用し得る。いくつかの実施形態では、拡張音信号は、ユーザへの提示のためにトランスデューサアレイ320に提供され得る。他の実施形態では、拡張音信号は、通信モジュール270に提供され得る。いくつかの実施形態では、インイヤデバイス270は、音信号に1つまたは複数のフィルタを適用する。
【0069】
通信モジュール265は、オーディオシステム200に通信可能に結合された1つまたは複数の外部システムと通信する。通信モジュール265は、受信機(たとえば、アンテナ)と送信機とを含み得る。外部システムは、たとえば、ヘッドセットの何らかの他の構成要素、人工現実コンソール、I/Oインターフェース、マッピングサーバ、インイヤデバイス270などを含み得る。通信モジュール265は、マッピングサーバと、ローカルエリアのモデルに関係するデータを送り、受信し得る。通信モジュール265は、インイヤデバイス270の通信ユニット273と、データ(たとえば、1つまたは複数のフィルタ、拡張音信号)を送り、データ(たとえば、キャプチャされた音)を受信し得る。通信モジュール265は、外部システム(たとえば、I/Oインターフェース)からデータ(たとえば、ユーザの音プロファイル、ユーザフィードバック)を受信し得る。
【0070】
オーディオコントローラ230によって実施される処理および算出は、ユーザに提示されるオーディオコンテンツに対するより良い強調を可能にする。たとえば、聴覚損失という問題があるユーザは、オーディオコントローラ230が、ユーザが聴取するのが困難である周波数において音を放出するターゲット音ソースを識別することと、音のそれらの特定の周波数を強調する(増幅する)、ターゲット音ソースによって放出された音に適用すべき1つまたは複数のフィルタを生成することとから恩恵を受ける。ローカルエリア中に位置する音ソースはヘッドセットのマイクロフォンアレイ210によってより良く追跡され、これはターゲット音ソースのより良い識別を可能にする。また、オーディオコントローラ230によって実施される処理および算出は、インイヤデバイス270が、ユーザに、より個別化され、強調されたオーディオコンテンツを提示することを可能にする。
【0071】
図3は、1つまたは複数の実施形態による、1つまたは複数の音ソースを含むローカルエリア300の一例である。ローカルエリア300は、複数の音ソース(たとえば、現実世界の音ソース340、現実世界の音ソース350、現実世界の音ソース360、および仮想音ソース390)に近接している、ヘッドセット320を装着しているユーザ310を含む。現実世界の音ソース340は機械デバイスとして示されており、現実世界の音ソース350は人として示されており、現実世界の音ソース360は別の人として示されており、仮想音ソース390は地球外生物として示されている。いくつかの実施形態では、ヘッドセット320は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。一実施形態では、ユーザ310はまた、図1Aおよび図1Bのインイヤデバイス185の一実施形態であり得るインイヤデバイス(図示せず)を装着し得る。複数の音ソースは、ある程度の聴覚損失をもつユーザ310について、一度にすべて聴かれたときに非干渉性であり得る音をまとめて作り出し得る。いくつかの実施形態では、現実世界の音ソース350によって作り出された音は、(聴覚損失をもつまたはもたない)ユーザ310にとって、現実世界の音ソース360によって作り出された音と区別不可能であり得る。オーディオシステムは、ユーザ310に提示されるオーディオコンテンツを強調するための、音ソース340、350、360、390のいずれかまたはすべてによって放出された音に適用すべき1つまたは複数のフィルタを生成し得る。
【0072】
ヘッドセット320のオーディオシステム(たとえば、オーディオシステム200)は、ローカルエリア300のモデルに基づいて、または図2を参照しながら上記で説明されたようにユーザ入力に基づいて、ターゲット音ソース(たとえば、音ソース350)を識別する。図3の図示の実施形態では、オーディオシステムは、ローカルエリア300のモデルに含まれる、ユーザによって提供される暗黙的フィードバックに基づいて(たとえば、視線ベクトル330に基づいて)、ターゲット音ソースを決定し得る。視線ベクトル330は、現実世界の音ソース350の位置のほうへ向けられると決定され、オーディオシステムは、現実世界の音ソース350をターゲット音ソースであると識別する。ヘッドセット320のオーディオシステムは、ヘッドセット320によって提示され、および/またはユーザ310によって装着されたインイヤデバイス(図示せず)によって提示されるオーディオコンテンツに適用され得る1つまたは複数のフィルタを決定する。オーディオシステムは、ユーザ310の音プロファイル、ローカルエリア300のモデル、またはその両方に基づいてフィルタを決定する。
【0073】
オーディオシステムは、ターゲット音ソースによって放出された音のより良い空間化を提供するために、1つまたは複数のフィルタのうちの少なくとも1つを更新し得る。図示の実施形態では、しきい値距離370が示されている。しきい値距離370は、現実世界の音ソース350(すなわち、この例ではターゲット音ソース)の中心から外側に測定された所定の球状距離である。しきい値距離370は、たとえば、現実世界の音ソース350によって放出された音の周波数、現実世界の音ソース350によって放出された音の振幅、ユーザ310の音プロファイル、またはそれらの何らかの組合せに依存し得る。オーディオシステムは、現実世界の音ソース360がターゲット音ソース(すなわち、現実世界の音ソース350)からしきい値距離370内にあることを検出し得る。オーディオシステムは、ターゲット音ソースと現実世界の音ソース360との間の空間分離を、少なくとも、しきい値距離370よりも大きい分離距離380になるように増加させるために、(たとえば、HRTFを更新することによって)1つまたは複数のフィルタのうちの少なくとも1つを更新する。いくつかの実施形態では、更新されたフィルタは、オーディオシステムによって、ターゲット音ソースに関連する音信号に適用され得る。他の実施形態では、更新されたフィルタは、インイヤデバイスによって、ターゲット音ソースに関連する音信号に適用され得る。拡張音信号(すなわち、フィルタ適用の後の音信号)は、音がターゲット音ソースから発生するように思われ、現実世界の音ソース360からの音が、調整された音ソース365に対応するローカルエリア中のロケーションから発生するように思われるようなものである。ユーザ310は、今や、2つの現実世界の音ソース350、360を区別することが可能であり得、いくつかの実施形態では、現実世界の音ソース350をより容易に聴取し得る。
【0074】
図4は、1つまたは複数の実施形態による、ユーザへの提示のために音信号を拡張するためのプロセス400を示すフローチャートである。図4に示されているプロセスは、オーディオシステム(たとえば、オーディオシステム200)の構成要素によって実施され得る。他のエンティティが、他の実施形態において図4中のステップの一部または全部を実施し得る。実施形態は、異なるおよび/または追加のステップを含むか、あるいは異なる順序でステップを実施し得る。
【0075】
オーディオシステムは、ローカルエリアから音をキャプチャする410。一実施形態では、オーディオシステムは、ユーザによって装着されたヘッドセットのフレームに結合された1つまたは複数のマイクロフォンを使用して音をキャプチャする。
【0076】
オーディオシステムは、キャプチャされた音に基づいてローカルエリア中の1つまたは複数の音ソースを識別する420。マイクロフォンによって収集されたキャプチャされた音と、ヘッドセットのDCAおよび/またはPCAによって収集されたキャプチャされた画像とは、ローカルエリアのモデルを決定するために組み合わせられ得る。ローカルエリアのモデルは、1つまたは複数の音ソースの位置を示す。
【0077】
オーディオシステムは、1つまたは複数の音ソースのうちのターゲット音ソースを決定する430。いくつかの実施形態では、オーディオシステムは、ローカルエリアのモデルに記憶された暗黙的ユーザ入力および/またはユーザによって直接提供された明示的なユーザ入力に基づいて、ターゲット音ソースを決定する。たとえば、ローカルエリアのモデルは、ターゲット音ソースの決定においてオーディオシステムによって利用されるマッピングされた視線ベクトル(すなわち、暗黙的ユーザ入力)を含み得る。マッピングされた視線ベクトルは、ヘッドセットの視標追跡システムによって決定されていることがある。いくつかの実施形態では、オーディオシステムは、明示的なユーザ入力(たとえば、ターゲット音ソースを指定するユーザからの口頭キュー)を利用し得る。口頭キューは、マイクロフォンによってキャプチャされ得る。
【0078】
オーディオシステムは、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを決定する440。いくつかの実施形態では、オーディオシステムは、ユーザの音プロファイルに基づいて1つまたは複数のフィルタを決定する。音プロファイルは、ユーザが異なる周波数における音をどのくらい良く聴取するかを記述する、ユーザに関する個人化された音情報である。音プロファイルは、オーディオシステムに記憶され得る。音プロファイルに基づいて、オーディオシステムは、ターゲット音ソースに関連する音信号を強調するフィルタを適用することを決定し得る。いくつかの実施形態では、オーディオシステムは、ローカルエリアのモデルに基づいてターゲット音ソースに関連する音信号をより良く空間化するフィルタを適用することを決定し得る。いくつかの実施形態では、オーディオシステムは、ローカルエリア中に位置する他の音ソースに関連する他の音に適用すべき1つまたは複数のフィルタを決定し得る。
【0079】
オーディオシステムは、音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成する450。一実施形態では、拡張音信号は、ターゲット音ソースから発生するように思われる音が、ローカル中の他の音ソースによって放出された音と区別可能であるようなものである。たとえば、拡張音信号は、音がターゲット音ソースから発生するように思われ、異なる音ソースからの音が、ターゲット音ソースから少なくとも分離距離のところにある、ローカルエリア中のロケーションから発生するように思われるようなものである。
【0080】
オーディオシステムは、ユーザへの提示のために拡張音信号をスピーカーアセンブリに提供する460。一実施形態では、拡張音信号は、ユーザによって装着されたインイヤデバイスのスピーカーアセンブリに提供される。別の実施形態では、拡張音信号は、ヘッドセットのスピーカーアセンブリに提供される。
【0081】
いくつかの実施形態では、オーディオシステムは、1つまたは複数のフィルタをインイヤデバイスに提供する。インイヤデバイスは、音信号に1つまたは複数のフィルタを適用することによって拡張音信号を生成する。
【0082】
オーディオシステムによって実施される処理および算出(たとえば、ターゲット音ソースの識別、ターゲット音ソースによって放出された音に適用すべき1つまたは複数のフィルタの生成など)は、ユーザに提示されるオーディオコンテンツに対するより良い強調を可能にする。たとえば、聴覚損失という問題があるユーザは、オーディオコントローラ230が、ユーザが聴取するのが困難である周波数において音を放出するターゲット音ソースを識別することと、音のそれらの特定の周波数を強調する(増幅する)、ターゲット音ソースによって放出された音に適用すべき1つまたは複数のフィルタを生成することとから恩恵を受ける。ローカルエリア中に位置する音ソースはヘッドセットのマイクロフォンアレイ210によってより良く追跡され、これはターゲット音ソースのより良い識別を可能にする。また、オーディオシステムによって実施される処理および算出は、インイヤデバイスが、現在の補聴デバイスと比較して、ユーザに、より個別化され、強調されたオーディオコンテンツを提示することを可能にする。
【0083】
図5は、1つまたは複数の実施形態による、ヘッドセット505と1つまたは複数のインイヤデバイス580とを含むシステム500である。いくつかの実施形態では、ヘッドセット505は、図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム500は、人工現実環境において動作し得る。図5によって示されているシステム500は、ヘッドセット505と、コンソール515に結合された入出力(I/O)インターフェース510と、ネットワーク520と、マッピングサーバ525と、インイヤデバイス580とを含む。図5は、1つのヘッドセット505と1つのI/Oインターフェース510と1つのインイヤデバイス580とを含む例示的なシステム500を示すが、他の実施形態では、任意の数のこれらの構成要素が、システム500中に含まれ得る。たとえば、関連するヘッドセットと通信する2つのインイヤデバイスがあり得る。別の例では、各々が、関連するI/Oインターフェース510を有する、複数のヘッドセットがあり得、各ヘッドセットおよびI/Oインターフェース510はコンソール515と通信する。代替構成では、異なるおよび/または追加の構成要素が、システム500中に含まれ得る。さらに、図5に示されている構成要素のうちの1つまたは複数に関して説明される機能性は、いくつかの実施形態では、図5に関して説明されるものとは異なる様式で構成要素の間で分散され得る。たとえば、コンソール515の機能性の一部または全部がヘッドセット505によって提供され得る。
【0084】
ヘッドセット505は、ディスプレイアセンブリ530と、光学ブロック535と、1つまたは複数の位置センサー540と、DCA545と、PCA550と、視標追跡システム555と、オーディオシステム560とを含む。ヘッドセット505のいくつかの実施形態は、図5に関して説明されるものとは異なる構成要素を有する。さらに、図5に関して説明される様々な構成要素によって提供される機能性は、他の実施形態ではヘッドセット505の構成要素の間で別様に分散されるか、またはヘッドセット505からリモートにある別個のアセンブリにおいて取り込まれ得る。
【0085】
ディスプレイアセンブリ530は、コンソール515から受信されたデータに従ってユーザにコンテンツを表示する。ディスプレイアセンブリ530は、1つまたは複数のディスプレイ要素(たとえば、ディスプレイ要素120)を使用してコンテンツを表示する。ディスプレイ要素は、たとえば、電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ530は、単一のディスプレイ要素または複数のディスプレイ要素(たとえば、ユーザの各眼のためのディスプレイ)を備える。電子ディスプレイの例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、ディスプレイ要素は光学ブロック535の機能性の一部または全部をも含み得ることに留意されたい。
【0086】
光学ブロック535は、電子ディスプレイから受光された画像光を拡大し得、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット505の一方または両方のアイボックスに提示する。様々な実施形態では、光学ブロック535は、1つまたは複数の光学要素を含む。光学ブロック535中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック535は、異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック535中の光学要素のうちの1つまたは複数は、部分反射コーティングまたは反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
【0087】
光学ブロック535による画像光の拡大および集束は、電子ディスプレイが、より大きいディスプレイよりも、物理的により小さくなり、重さが減じ、少ない電力を消費することを可能にする。さらに、拡大は、電子ディスプレイによって提示されるコンテンツの視野を増加させ得る。たとえば、表示されるコンテンツの視野は、表示されるコンテンツが、ユーザの視野のほとんどすべて(たとえば、対角約110度)、およびいくつかの場合にはすべてを使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加することまたは取り外すことによって調整され得る。
【0088】
いくつかの実施形態では、光学ブロック535は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、たる形ひずみまたは糸巻き形ひずみ、縦色収差、あるいは横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲による誤差、非点収差、または任意の他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに提供されるコンテンツは予歪され、光学ブロック535が、そのコンテンツに基づいて生成された画像光を電子ディスプレイから受光したとき、光学ブロック535はそのひずみを補正する。
【0089】
位置センサー540は、ヘッドセット505に関する位置情報を示すデータを生成する電子デバイスである。位置センサー540は、ヘッドセット505の運動に応答して1つまたは複数の測定信号を生成し得る。位置センサー540は、位置センサー190の一実施形態である。位置センサー540の例は、1つまたは複数のIMU、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、運動を検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー540は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、測定信号を迅速にサンプリングし、サンプリングされたデータからヘッドセット505の推定された位置を計算する。たとえば、IMUは、加速度計から受信された測定信号を経時的に積分して速度ベクトルを推定し、その速度ベクトルを経時的に積分して、ヘッドセット505上の基準点の推定された位置を決定する。基準点は、ヘッドセット505の位置を表すために使用され得る点である。基準点は、概して空間中の点として定義され得るが、実際には、基準点は、ヘッドセット505内の点として定義される。位置センサー540のさらなる動作は、図1Aに関して上記で説明された。
【0090】
DCA545は、ローカルエリアの一部分についての深度情報を生成する。DCAは、1つまたは複数のイメージングデバイスとDCAコントローラとを含む。DCA545は照明器をも含み得る。DCA545の動作および構造は、図1Aに関して上記で説明された。
【0091】
PCA550は、ローカルエリアについてのカラー画像データを生成する。PCAは、ローカルエリアの一部または全部の画像をキャプチャする1つまたは複数のイメージングデバイスを含み得る。いくつかの実施形態では、PCA550は、ローカルエリア中の(ユーザを含む)1つまたは複数の音ソースの画像をキャプチャし得る。PCA550の動作および構造に関するさらなる説明は、図1Aに関して上記で説明された。
【0092】
視標追跡システム555は、ヘッドセット505を装着しているユーザの眼に関連する視標追跡情報を決定する。視標追跡システム555によって決定された視標追跡情報は、たとえば、視線情報を含み得る。いくつかの実施形態では、視標追跡システム555は、瞳孔サイズおよび反応性など、瞳孔測定情報を決定する。視線情報および/または瞳孔測定情報は、ユーザがどこを見ているかを決定するために使用され得る。視標追跡システム555は、ユーザの(1つまたは複数の)眼を追跡するために1つまたは複数のイメージングデバイスを利用し得る。視標追跡システムのさらなる動作は、図1Aに関して上記で説明された。
【0093】
オーディオシステム560は、音信号に適用すべき1つまたは複数のフィルタを生成する。オーディオシステム560は、上記で説明されたオーディオシステム200と実質的に同じである。オーディオシステム560は、1つまたは複数のマイクロフォンと、1つまたは複数のトランスデューサと、オーディオコントローラとを備え得る。いくつかの実施形態では、オーディオシステムは、ローカルエリアのモデルに記憶された暗黙的ユーザフィードバックおよび/または明示的ユーザフィードバックに基づいて、ローカルエリア中のターゲット音ソースを識別し得る。いくつかの実施形態では、オーディオシステムは、ターゲット音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを生成する。いくつかの実施形態では、オーディオシステムは、ローカルエリア中の他の音ソースに関連する音信号に適用すべき1つまたは複数のフィルタを生成する。
【0094】
I/Oインターフェース510は、ユーザが、コンソール515に情報を提供し、アクション要求を送り、コンソール515から応答を受信することを可能にするデバイスである。ユーザは、オーディオシステム560に記憶されるべき情報(たとえば、ユーザの音プロファイル)を提供し得る。アクション要求は、特定のアクションを実施するための要求である。たとえば、アクション要求は、画像データまたはビデオデータのキャプチャを開始または終了するための命令、あるいはアプリケーション内で特定のアクションを実施するための命令であり得る。I/Oインターフェース510は、1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、またはアクション要求を受信し、そのアクション要求をコンソール515に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース510によって受信されたアクション要求は、コンソール515に通信され、コンソール515は、そのアクション要求に対応するアクションを実施する。いくつかの実施形態では、I/Oインターフェース510は、I/Oインターフェース510の初期位置に対するI/Oインターフェース510の推定された位置を示す較正データをキャプチャするIMUを含む。いくつかの実施形態では、I/Oインターフェース510は、コンソール515から受信された命令に従って、ユーザに触覚フィードバックを提供し得る。たとえば、アクション要求が受信されたときに触覚フィードバックが提供されるか、または、コンソール515がアクションを実施するときに、コンソール515が、I/Oインターフェース510に命令を通信して、I/Oインターフェース510が触覚フィードバックを生成することを引き起こす。
【0095】
コンソール515は、DCA545とヘッドセット505とI/Oインターフェース510とのうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット505に提供する。図5に示されている例では、コンソール515は、アプリケーションストア565と、追跡モジュール570と、エンジン575とを含む。コンソール515のいくつかの実施形態は、図5に関して説明されるものとは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明される機能は、図5に関して説明されるものとは異なる様式でコンソール515の構成要素の間で分散され得る。いくつかの実施形態では、コンソール515に関して本明細書で説明される機能性は、ヘッドセット505、またはリモートシステムにおいて実装され得る。
【0096】
アプリケーションストア565は、コンソール515が実行するための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されたコンテンツは、ヘッドセット505またはI/Oインターフェース510の移動を介してユーザから受信された入力に応答したものであり得る。アプリケーションの例は、ゲーミングアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。
【0097】
追跡モジュール570は、1つまたは複数の位置センサー540からの情報を使用してヘッドセット505の移動を追跡する。たとえば、追跡モジュール570は、ヘッドセット505からの情報に基づいて、ローカルエリアのマッピングにおいてヘッドセット505の基準点の位置を決定する。さらに、いくつかの実施形態では、追跡モジュール570は、ヘッドセット505の将来のロケーションを予測するために、位置センサー540からのヘッドセット505の位置を示すデータの部分ならびにDCA545からのローカルエリアの表現を使用し得る。追跡モジュール570は、ヘッドセット505の推定または予測された将来の位置をエンジン575に提供する。
【0098】
エンジン575は、アプリケーションを実行し、追跡モジュール570から、ヘッドセット505の位置情報、加速度情報、速度情報、予測された将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン575は、ユーザへの提示のためにヘッドセット505に提供すべきコンテンツを決定する。たとえば、受信された情報が、ユーザが左を見ていることを示す場合、エンジン575は、仮想ローカルエリアにおいて、またはローカルエリアを追加のコンテンツで拡張するローカルエリアにおいて、ユーザの移動をミラーリングする、ヘッドセット505のためのコンテンツを生成する。さらに、エンジン575は、I/Oインターフェース510から受信されたアクション要求に応答して、コンソール515上で実行しているアプリケーション内でアクションを実施し、そのアクションが実施されたというフィードバックをユーザに提供する。提供されるフィードバックは、ヘッドセット505を介した視覚または可聴フィードバック、あるいはI/Oインターフェース510を介した触覚フィードバックであり得る。
【0099】
ネットワーク520は、ヘッドセット505および/またはコンソール515をマッピングサーバ525に結合する。ネットワーク520は、ワイヤレス通信システムおよび/またはワイヤード通信システムの両方を使用する、ローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク520は、インターネット、ならびに携帯電話網を含み得る。一実施形態では、ネットワーク520は、標準通信技術および/またはプロトコルを使用する。したがって、ネットワーク520は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI Expressアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク520上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク520を介して交換されるデータは、2進形式(たとえばポータブルネットワークグラフィックス(PNG))の画像データ、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などを含む、技術および/またはフォーマットを使用して表現され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。
【0100】
マッピングサーバ525は、複数の空間を表すモデルを記憶するデータベースを含み得、モデル中の1つのロケーションが、ヘッドセット505のローカルエリアの現在の構成に対応する。マッピングサーバ525は、ヘッドセット505からネットワーク520を介して、ローカルエリアおよび/またはローカルエリアについてのロケーション情報の少なくとも一部分を表す情報を受信する。マッピングサーバ525は、受信された情報および/またはロケーション情報に基づいて、ヘッドセット505のローカルエリアに関連するモデル中のロケーションを決定する。マッピングサーバ525は、モデル中の決定されたロケーションおよび決定されたロケーションに関連する任意の音響パラメータに部分的に基づいて、ローカルエリアに関連する1つまたは複数の音響パラメータを決定する(たとえば、取り出す)。マッピングサーバ525は、ローカルエリアのロケーションおよびローカルエリアに関連する音響パラメータの任意の値をヘッドセット505に送信し得る。
【0101】
実施形態の上記の説明は、説明のために提示されており、網羅的であること、または開示される正確な形態に特許権を限定することは意図されない。当業者は、上記の開示を考慮して、多くの修正および変形が可能であることを諒解することができる。
【0102】
本明細書のいくつかの部分は、情報に関する動作のアルゴリズムおよび記号表現に関して実施形態について説明する。これらのアルゴリズム説明および表現は、データ処理技術分野の当業者が、他の当業者に自身の仕事の本質を効果的に伝えるために通常使用される。これらの動作は、機能的に、算出量的に、または論理的に説明されるが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの仕組みをモジュールと呼ぶことが時々好都合であることも証明された。説明される動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて具現され得る。
【0103】
本明細書で説明されるステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールで、単独でまたは他のデバイスとの組合せで実施または実装され得る。一実施形態では、ソフトウェアモジュールは、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を備えるコンピュータプログラム製品で実装され、コンピュータプログラムコードは、説明されるいずれかまたはすべてのステップ、動作、またはプロセスを実施するためにコンピュータプロセッサによって実行され得る。
【0104】
実施形態はまた、本明細書の動作を実施するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/あるいは、この装置は、コンピュータに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用コンピューティングデバイスを備え得る。そのようなコンピュータプログラムは、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するのに好適な任意のタイプの媒体に記憶され得、それらの媒体はコンピュータシステムバスに結合され得る。さらに、本明細書で言及される任意のコンピューティングシステムは、単一のプロセッサを含み得るか、または増加された算出能力のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
【0105】
実施形態はまた、本明細書で説明されるコンピューティングプロセスによって作り出される製品に関し得る。そのような製品は、コンピューティングプロセスから生じる情報を備え得、その情報は、非一時的有形コンピュータ可読記憶媒体に記憶され、本明細書で説明されるコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
【0106】
最終的に、本明細書において使用される言い回しは、主に読みやすさおよび教育目的で選択されており、本明細書において使用される言い回しは、特許権を定めるかまたは制限するように選択されていないことがある。したがって、特許権の範囲はこの詳細な説明によって限定されるのではなく、むしろ、本明細書に基づく出願に関して生じる請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載される特許権の範囲を例示するものであり、限定するものではない。
図1A
図1B
図2
図3
図4
図5
【国際調査報告】