IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-542246視線に基づく音声ビームフォーミング
<>
  • 特表-視線に基づく音声ビームフォーミング 図1
  • 特表-視線に基づく音声ビームフォーミング 図2
  • 特表-視線に基づく音声ビームフォーミング 図3
  • 特表-視線に基づく音声ビームフォーミング 図4
  • 特表-視線に基づく音声ビームフォーミング 図5
  • 特表-視線に基づく音声ビームフォーミング 図6
  • 特表-視線に基づく音声ビームフォーミング 図7
  • 特表-視線に基づく音声ビームフォーミング 図8
  • 特表-視線に基づく音声ビームフォーミング 図9
  • 特表-視線に基づく音声ビームフォーミング 図10
  • 特表-視線に基づく音声ビームフォーミング 図11
  • 特表-視線に基づく音声ビームフォーミング 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】視線に基づく音声ビームフォーミング
(51)【国際特許分類】
   H04R 3/00 20060101AFI20241106BHJP
   H04R 1/40 20060101ALI20241106BHJP
【FI】
H04R3/00 320
H04R1/40 320A
H04R3/00 310
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024530011
(86)(22)【出願日】2022-11-17
(85)【翻訳文提出日】2024-06-03
(86)【国際出願番号】 US2022080027
(87)【国際公開番号】W WO2023091996
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】17/456,007
(32)【優先日】2021-11-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】シン,ドンギク
【テーマコード(参考)】
5D018
5D220
【Fターム(参考)】
5D018BB23
5D220AA01
5D220BA06
5D220BC05
(57)【要約】
ビームフォーミングは、特定の方向の音声の品質及び/または強さを向上させることができ、これにより、特に特定の環境においてユーザの聞き取りが促進され得る。拡張現実グラスは、ユーザの目(複数可)を追跡することができ、これにより、話している人などの特定の関心対象に向けて、ビームフォーミングがトリガーされ誘導され得る。ビームフォーミングに必要な情報をデータベースに格納し、実行時に情報を呼び出すことにより、ビームフォーミングは効率化され得る。
【特許請求の範囲】
【請求項1】
拡張現実(AR)デバイスの複数のマイクロフォンから音声チャネルを受信することを含み、前記複数のマイクロフォンはマイクロフォンアレイとして動作するように構成され、
ユーザの視線方向を特定するために、前記ARデバイスのユーザの目を追跡することと、
前記マイクロフォンアレイのビームパターンを選択することと、を含み、前記ビームパターンは前記ユーザの前記視線方向に基づいて、格納されたビームパターンの集合から選択され、
前記選択されたビームパターンに基づいて、ビームフォーミング音声信号を生成することと、
前記ビームフォーミング音声信号を前記ユーザに対して再生するために、前記ビームフォーミング音声信号を前記ARデバイスのスピーカに送信することと、
を含む、方法。
【請求項2】
前記選択されたビームパターンに基づいて、前記ビームフォーミング音声信号を生成することは、
前記選択されたビームパターンに対応する重み集合を取得することと、
重み付けされた音声チャネルを生成するために、前記重み集合のうちの対応する重みを各音声チャネルに適用することと、
前記ビームパターンに従って音を増幅させた前記ビームフォーミング音声信号を生成するために、前記重み付けされた音声チャネルを合計することと、
を含む、請求項1に記載の方法。
【請求項3】
前記格納されたビームパターンの集合のうちの各ビームパターンは、ビーム方向及びビーム幅を有する、請求項1または2に記載の方法。
【請求項4】
前記ユーザの前記視線方向に基づいて、前記格納されたビームパターンの集合から前記ビームパターンを選択することは、
前記視線方向を、前記格納されたビームパターンの集合のうちの各ビームパターンのビーム方向と比較することと、
前記格納されたビームパターンの集合から、前記視線方向に最も近いビーム方向を有するビームパターンを取得することと、
を含む、請求項3に記載の方法。
【請求項5】
複数のビームパターンが前記視線方向に最も近い前記ビーム方向を有する場合、前記ビーム幅に基づいて、前記格納されたビームパターンの集合から前記ビームパターンを選択すること、
をさらに含む、請求項4に記載の方法。
【請求項6】
前記ARデバイスの電力状態を特定することと、
前記電力状態に基づくビーム幅を有するビームパターンを選択することと、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記ビーム方向を有する選択されたビームパターンのシーケンスに基づいて、ビームフォーミング音声信号を生成することにより、前記視線方向の前記ビームパターンをズームインすることであって、前記シーケンスで連続する各ビームパターンはより小さいビーム幅を有する、前記ズームインすること、
をさらに含む、請求項5または6に記載の方法。
【請求項8】
前記ビーム方向を有する選択されたビームパターンのシーケンスに基づいて、ビームフォーミング音声信号を生成することにより、前記視線方向の前記ビームパターンをズームアウトすることであって、前記シーケンスで連続する各ビームパターンはより大きいビーム幅を有する、前記ズームアウトすること、
をさらに含む、請求項5~7のいずれか1項に記載の方法。
【請求項9】
前記ユーザに対して再生するために前記ビームフォーミング音声信号を前記ARデバイスのスピーカに送信することは、
前記ビームフォーミング音声信号を左チャネルと右チャネルに分割することと、
前記ユーザの前記視線方向に基づいて、前記左チャネルと前記右チャネル間の位相及び振幅の差を調整することと、
を含む、先行請求項のいずれか1項に記載の方法。
【請求項10】
トレーニング実験に基づいて、目標ビームパターンを決定することと、
前記目標ビームパターンに近似するビームパターンの重みを計算することと、
前記ビームパターンの前記重みを、第1の視線方向及び第1のビーム幅を有する第1のビームパターンとして、メモリに格納することと、
前記格納されたビームパターンの集合を生成するために、他の目標ビームパターンに関しても、前記決定すること、前記計算すること、及び前記格納することを繰り返すことと、
をさらに含む、先行請求項のいずれか1項に記載の方法。
【請求項11】
前記トレーニング実験は、視線方向の尤度を含む、請求項10に記載の方法。
【請求項12】
前記目標ビームパターンに近似するビームパターンの重みを前記計算することは、
最小二乗最適化を実行すること、
を含む、請求項10または11に記載の方法。
【請求項13】
ユーザの視線方向を特定するために、前記ARデバイスのユーザの目を追跡することは、
経時的に視標追跡座標を測定することと、
平均視標追跡座標を取得するために、経時的な前記視標追跡座標を平均化することと、
前記平均視標追跡座標が滞留時間の間、互いに範囲内にある場合、前記平均視標追跡座標に基づいて、前記ユーザの前記視線方向を特定することと、
を含む、先行請求項のいずれか1項に記載の方法。
【請求項14】
前記ユーザの視野の画像を取得することと、
前記視線方向に基づいて、領域内の前記画像を分析することと、
前記分析に基づいて、前記視線方向を確認することと、
前記視線方向が確認されるとビームフォーミングをトリガーすることであって、前記ビームフォーミングは、前記ユーザの前記視線方向に基づいて、格納されたビームパターンの集合からビームパターンを前記選択することを含む、前記トリガーすることと、
をさらに含む、請求項13に記載の方法。
【請求項15】
拡張現実(AR)デバイスであって、
環境からの音に基づいて音声チャネルを生成するように構成されたマイクロフォンを含むマイクロフォンアレイと、
前記ARデバイスのユーザの視線方向を特定するように構成されたアイトラッカーと、
スピーカと、
ソフトウェアにより構成されたプロセッサ、
を備え、前記プロセッサは、前記ソフトウェアにより、
前記マイクロフォンアレイから前記音声チャネルを受信し、
前記アイトラッカーから前記視線方向を受信し、
前記ユーザの前記視線方向に基づいて、格納されたビームパターンの集合から、前記マイクロフォンアレイのビームパターンを選択し、
前記選択されたビームパターンに基づいて、ビームフォーミング音声信号を生成し、
前記ビームフォーミング音声信号を前記ユーザに対して再生するために、前記ビームフォーミング音声信号を前記スピーカに送信する、
ように構成される、前記ARデバイス。
【請求項16】
スマートグラスであって、
環境からの音に基づいて音声チャネルを生成するように構成されたマイクロフォンを含むマイクロフォンアレイと、
前記スマートグラスのユーザの視線方向を特定するように構成されたアイトラッカーと、
スピーカと、
ソフトウェアにより構成されたプロセッサと、
を備え、前記プロセッサは、前記ソフトウェアにより、
前記マイクロフォンアレイから前記音声チャネルを受信し、
前記アイトラッカーから前記視線方向を受信し、
前記視線方向に基づいて、ルックアップテーブルから前記音声チャネルの重みを取得し、
前記視線方向からの前記環境内の音を増幅させたビームフォーミング音声信号を生成するために、前記チャネルに前記重みを適用しかつ前記チャネルを合計し、
前記ユーザに対して再生するために、前記ビームフォーミング音声信号を前記スピーカに送信する、
ように構成される、前記スマートグラス。
【請求項17】
前記ルックアップテーブルから前記音声チャネルの前記重みを取得するために、前記プロセッサはさらに、
複数の所定の視線方向の重み集合を含む前記ルックアップテーブルにアクセスし、
前記視線方向に最も近い1つの所定の視線方向の重みを選択する、
ように構成される、請求項16に記載のスマートグラス。
【請求項18】
前記複数の所定の視線方向は、トレーニングプロセスにより決定された視線方向の尤度に基づく、請求項17に記載のスマートグラス。
【請求項19】
前記ルックアップテーブルは、前記スマートグラス上に格納される、請求項17または18に記載のスマートグラス。
【請求項20】
前記ルックアップテーブルは、前記スマートグラスに接続されたネットワーク上に格納される、請求項17または18に記載のスマートグラス。
【請求項21】
前記マイクロフォンアレイは、垂直音声チャネルを生成する垂直アレイと、水平音声チャネルを生成する水平アレイとを含む、請求項16~21のいずれか1項に記載のスマートグラス。
【請求項22】
前記視線方向は、水平視線方向及び垂直視線方向を含み、前記プロセッサは、前記水平視線方向に基づいて前記水平音声チャネルの水平重みを決定し、前記垂直視線方向に基づいて前記垂直音声チャネルの垂直重みを決定するように構成される、請求項21に記載のスマートグラス。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月22日に出願された米国特許出願第17/456,007号の継続出願であり、これに対する優先権を主張する。その開示内容は、参照によりその全体が本明細書に組み込まれるものとする。
【0002】
本開示は、拡張現実に関し、より具体的には、視標追跡に基づいて音声を処理するように構成された拡張現実デバイスに関する。
【背景技術】
【0003】
頭部装着型コンピューティングデバイス(例えば、スマートグラス)は、環境の現実要素とともに仮想要素が提示される拡張現実(AR)を可能にする様々なセンサとともに構成され得る。仮想要素は、ヘッドアップディスプレイに提示され得るため、あたかも現実世界にあるかのように見える。ヘッドアップディスプレイは、眼鏡に似たデバイス(すなわち、ARグラス)で実装され得る。
【0004】
ARグラスは、時間とともに変化するユーザの視線方向及び/または視点を特定する視標追跡センサ(複数可)とともに構成され得る。ARグラスはまた、ビームを有する感度パターンでマイクロフォンアレイとして作動する複数のマイクロフォンとともに構成され得、よって、ビーム方向からの音は、マイクロフォンアレイの最高感度で受信される。マイクロフォンアレイからの音声は、ビームが様々な方向にステアリング(すなわち、ビームフォーミング)され得るように、処理され得る。
【発明の概要】
【0005】
少なくとも1つの態様では、本開示は、概して方法を説明する。方法は、拡張現実(AR)デバイスのマイクロフォンアレイとして作動するように構成された複数のマイクロフォンから、音声チャネルを受信することを含む。方法はさらに、ARデバイスのユーザの目を追跡して、ユーザの視線方向を特定することを含む。方法はさらに、ユーザの視線方向に基づいて、格納されたビームパターンの集合から、マイクロフォンアレイのビームパターンを選択することを含む。方法はさらに、選択されたビームパターンに基づいて、ビームフォーミング音声信号を生成することと、ビームフォーミング音声信号をユーザに対して再生するために、ビームフォーミング音声信号をARデバイスのスピーカ(例えば、内蔵スピーカ、ペアリングスピーカ)に送信することと、を含む。
【0006】
別の態様では、本開示は、概してスマートグラスなどのARデバイスを説明する。ARデバイスは、コンポーネント、具体的にはマイクロフォンアレイ、アイトラッカー、スピーカ、及び提案された方法を実施するように構成されたプロセッサを含み得る。例えば、提案されるスマートグラスは、環境からの音に基づいて音声チャネルを生成するように構成されたマイクロフォンを有するマイクロフォンアレイを含む。スマートグラスはさらに、ユーザの視線方向を特定するように構成されたアイトラッカーを含む。スマートグラスはさらに、スピーカ及びプロセッサを含む。プロセッサは、マイクロフォンアレイから音声チャネルを受信し、アイトラッカーから視線方向を受信するソフトウェアにより構成される。プロセッサはさらに、視線方向に基づいて、ルックアップテーブル(または別の形式のデータメモリ、具体的には別の形式のデータベース、配列、もしくはテーブル)から音声チャネルの重みを取得するように構成される。プロセッサはさらに、チャネルに重みを適用し、チャネルを合計して、視線方向からの環境内の音を増幅させたビームフォーミング音声信号を生成するように構成される。プロセッサはさらに、ビームフォーミング音声信号を、ユーザに対して再生するためにスピーカに送信するように構成される。
【0007】
前述の示された概要、ならびに本開示の他の例示的な目的及び/または利点、及びそれらが達成される方法は、下記の発明を実施するための形態及びそれに付随する図面の中でさらに説明される。
【図面の簡単な説明】
【0008】
図1】本開示の可能な実施態様による、ビームフォーミング後のマイクロフォンアレイの感度プロットである。
図2】本開示の可能な実施態様による、測定された視点を含むARグラスを通した視野を示す図である。
図3図3A及び図3Bは、本開示の実施態様による、視線方向に基づくビームフォーミングを示す図である。
図4】本開示の可能な実施態様による、ARグラスの斜視図である。
図5】本開示の可能な実施態様による、ビームフォーミングプロセスを示す。
図6図6A及び図6Bは、本開示の実施態様による、ビームフォーミング音声の可能な処理を示す図である。
図7】本開示の実施態様による、視標追跡音声ビームフォーミングの方法のフローチャートである。
図8】本開示の実施態様による、視線に基づいてデータベースからビームパターンを取得することを示す図である。
図9】本開示の実施態様による、視線に基づいてデータベースからビームパターンを選択するための方法のフローチャートである。
図10】本開示の実施態様による、ビームパターンを生成するための方法のフローチャートを示す図である。
図11】本開示の実施態様による、ビームフォーミングの視線を検出するためのフローチャートである。
図12】本開示の実施態様による、ビームフォーミングのズームイン及びズームアウトを示す図である。
【発明を実施するための形態】
【0009】
図面中の構成要素は、必ずしも互いに正しい縮尺で描かれていない。同様の参照数字は、いくつかの図を通して対応する部分を示す。
【0010】
本開示は、拡張現実(AR)デバイス、例えばスマートグラス(例えば、ARグラス)などのマイクロフォンアレイの音声ビームフォーミング(すなわち、ビームフォーミング)であって、少なくとも部分的にユーザの目(複数可)の位置(複数可)に基づくビームフォーミング(すなわち、視標追跡ビームフォーミング)を説明する。視標追跡ビームフォーミングの技術的問題は、ARグラスの電力リソース/処理リソースにかかる要求に関する。効果を上げるためには、視標追跡及びビームフォーミングは、電力を消費しすぎずに(すなわち、バッテリ寿命を延ばし)、応答性が高い(すなわち、顕著な遅延を回避する)必要がある。本開示は、複雑さを軽減して処理/電力の効率性を高める手法に基づく視標追跡ビームフォーミングのシステム及び方法を提供する。開示される手法は、ARグラスのバッテリ寿命または処理リソースに大きな影響を与えることなく、ユーザの視線方向の信号を自動的に強化するという技術的効果を有し得る。
【0011】
開示される視標追跡ビームフォーミング手法の電力/処理の効率性は、いくつかの異なる態様から生じ得る。第1に、開示される視標追跡ビームフォーミングは、ユーザの視線に基づいて取得及び適用され得る、格納されたビームパターンに、少なくとも部分的に依存し得る。第2に、視標追跡ビームフォーミングは、常に動作状態ではないように、特定の状況で有効化/無効化されるように構成され得る。
【0012】
開示される視標追跡ビームフォーミング手法の技術的効果により、新しい音声アプリケーションが可能になり得る。例えば、本開示は、ユーザのオーディオ体験を向上させるために、音声ビームフォーミングを視線方向にズームインまたはズームアウトすることができる実施態様をさらに説明する。
【0013】
ビームフォーミング(すなわち、ビームステアリング)とは、様々な方向からの音声が強化(すなわち、増幅)または弱化(すなわち、減衰)され得るビームフォーミング音声信号を生成するように、複数の音声チャネルが処理(例えば、フィルタリング、遅延、位相シフト)され得る信号処理技法である。例えば、第1のマイクロフォンと第2のマイクロフォンは、アレイ方向に沿って一定の距離だけ空間的に分離され得る。空間分離距離及び音の方向(アレイ方向に対する)により、第1のマイクロフォンにおける第1の音声ストリームと第2のマイクロフォンにおける第2の音声ストリームとの間で、両耳間遅延が生じ得る。ビームフォーミングは、ビームフォーミング遅延により音声ストリームのうちの1つをさらに遅延させることを含み得、これにより、ビームフォーミング後、第1の音声ストリーム及び第2の音声ストリームは、両耳間遅延及びビームフォーミング遅延により位相シフトされる。位相シフトされた音声ストリームは、次に結合(例えば、合計)されて、ビームフォーミング音声が作られる。両耳間遅延に対するビームフォーミング遅延を調整することにより、特定の方向からの音声は、合計プロセスにより調整(例えば、キャンセル、減衰、強化)され得る。例えば、第1のマイクロフォン及び第2のマイクロフォンが受信した純正弦波は、両耳間遅延及びビームフォーミング遅延の後に、コンバイナにおける正弦波バージョンの位相が180度ずれている場合、特定の方向に関して完全にキャンセルされ得る。あるいは、両耳間遅延及びビームフォーミング遅延の後に、コンバイナにおける正弦波バージョンが同位相(すなわち、位相差が0度)である場合、コンバイナにおける正弦波バージョンは強化され得る。
【0014】
複数の音声チャネルは、マイクロフォンのアレイ(すなわち、マイクロフォンアレイ)によりキャプチャ(すなわち、収集)され得る。マイクロフォンアレイ内の各マイクロフォンは、同じタイプでもよく、異なるタイプでもよい。例えば、マイクロフォンアレイ内のすべてのマイクロフォンは、全方向性であり得る。マイクロフォンは、1次元、2次元、または3次元に間隔を空けて(例えば、等間隔に)配置され得る。1次元のマイクロフォンアレイは、1次元でビームステアリングを行うことが可能であり得るが、2次元のマイクロフォンアレイは、2次元のうちのいずれかまたは両方でビームステアリングを行うことが可能であり得る。マイクロフォンアレイ内のマイクロフォンの数及び間隔は、ビームのビーム幅(すなわち、指向性、焦点、角度範囲)に対応し得る。
【0015】
図1は、ビームフォーミング後のマイクロフォンアレイ101の感度の極座標プロットを示す。感度のパターンは、マイクロフォンアレイの「ビームパターン」として知られる。マイクロフォンアレイのビームパターンは、ビーム方向120に最大感度であるビーム110を有し、ビーム方向120の両側に特定の感度(例えば、-3デシベル(dB))であるビーム幅130が広がる。ビームパターンから生成されるビームフォーミング音声は、ビーム方向120にある音源からの音を強化し(例えば、増幅させ)、ビーム方向にはない音源からの音を抑制する(例えば、減衰させる)。言い換えると、聴者には、ビーム方向120と一致しない方向からの第2の音105よりも、ビーム方向120と一致する方向からの第1の音104のほうが大きく聞こえる。
【0016】
ビームフォーミングにより生じる空間選択的な強化/抑制は、ユーザが(例えば、ノイズの多い環境で)音声を区別することを促進し得る。付加的に(または代替的に)、ビームフォーミングにより、他のコンピュータ支援発話アプリケーション(例えば、音声認識、音声テキスト変換(VTT)、言語翻訳など)の精度が向上し得る。さらに、ビームフォーミングでは、発話方向以外の方向から受信される他の音声(例えば、近くにいる人の会話)は、発話音声よりはるかに小さく増幅され得るため、プライバシーが向上し得る。聴者の目を追跡することで特定され得る聴者の意図に基づいてビームフォーミングを制御することにより、これらのアプリケーションの汎用性が向上し得る。
【0017】
視標追跡ビームフォーミングは、ユーザの視線とほぼ一致する(例えば、正確に一致する)ビーム方向にビームを生成するために、マイクロフォンアレイからの複数の音声チャネルの処理(例えば、フィルタリング、遅延、位相シフト)を、ユーザの目(複数可)に従って調整することを含む。ユーザの視線には、ユーザが見ている方向(すなわち、視線方向)が含まれ得る。視線方向(例えば、視線(θ)、視線(φ、θ))を決定することは、ユーザが見ている視野内の視点(例えば、視線(x、y))を決定することを含み得る。
【0018】
視線は、ユーザの目(複数可)を追跡することにより決定され得る。視標追跡の1つの可能な方法は、カメラを使用して目のメトリクスを測定し、目の位置を決定することを含む。1つの可能な実施態様では、目に投影された光のパターン(近赤外光)に対する瞳孔位置が、目の高解像度画像及びパターンを分析することにより測定され得る。次に、機械学習モデルに目の位置を適用して、視点が決定され得る。投影されたパターンを使用しない、この方法の変形形態も可能である。例えば、目に向けられたカメラによりキャプチャされた2次元(2D)赤外線画像(または鏡から反射された目の画像)を、図2に示されるように、ARグラスの視野内の座標(x、y)に変換できる、標準的なグリントベース追跡手法または畳み込みニューラルネット手法がある。
【0019】
図2は、測定された視点210を含む、ARグラス201を通した視野205を示す。視点は、ARグラスに対する視線方向に対応し得る。特定の時間にわたり視点が動かないままであることは、対応する視野領域にユーザの関心があることを示し得る。この関心により、視点に対応する視線方向のビームフォーミングがトリガーされ得る。例えば、視線方向は、ARグラスの座標系に関して、投影に基づき得、視野表面の視点と交差する。
【0020】
図3A及び図3Bは、視線方向に基づくビームフォーミングを示す。点線の矢印で示されるように、視線方向はユーザの目の位置に基づいて決定され得る。図3Aは、ユーザ301の第1の視線方向331に沿った第1のビームパターン321を示し、図3Bは、ユーザ302の第2の視線方向332に沿った第2のビームパターン322を示す。ユーザの視線は、時間とともに変化し得る。したがって、第1のビームパターン321は、第1の時間に使用され得、第2のビームパターン322は、第2の時間に使用され得る。ユーザの視線は、ユーザの頭の位置と関連付けられてもよく、関係付けられなくてもよい。いくつかの実施態様では、ビーム方向を決定する際、ユーザの頭の位置と視線方向が組み合わされ得る。
【0021】
図4は、本開示の可能な実施態様による、ARグラスの斜視図である。ARグラス400は、ユーザの頭及び顔に装着されるように構成される。ARグラス400は、ユーザの耳により支えられる右耳つる401及び左耳つる402を含む。ARグラスはさらに、左レンズ404と右レンズ405がユーザの左目とユーザの右目の前にそれぞれ配置され得るように、ユーザの鼻により支えられるブリッジ部分403を含む。ARグラスの部分はまとめて、ARグラスのフレームと称され得る。ARグラスのフレームは、機能を可能にする電子機器を包含し得る。例えば、フレームは、バッテリ、プロセッサ、メモリ(例えば、非一時的コンピュータ可読媒体)、及びセンサをサポートする電子機器(例えば、カメラ、深度センサなど)、及びインターフェースデバイス(例えば、スピーカ、ディスプレイ、ネットワークアダプタなど)を含み得る。
【0022】
ARグラス400は、FOVカメラ410(例えば、RGBカメラ)を含み得、これは、グラス装着時にユーザの目の自然な視野と重なるカメラ視野に配向される。可能な実施態様では、ARグラスはさらに、深度センサ411(例えば、LIDARカメラ、構造化光カメラ、飛行時間型カメラ、深度カメラ)を含み得、これは、グラス装着時にユーザの目の自然な視野と重なる深度センサ視野に配向される。深度センサ411及び/またはFOVカメラ410からのデータを使用して、ユーザ(すなわち、装着者)の視野(すなわち、関心領域)内の深度が測定され得る。可能な実施態様では、FOVカメラ410からの画像におけるオブジェクトの深度(すなわち、範囲)を決定できるように、カメラ視野及び深度センサ視野が較正され得、深度は、オブジェクトとARグラスとの間が測定される。
【0023】
ARグラス400はさらに、ディスプレイ415を含み得る。ユーザがARグラスのレンズを通して見たときにARデータを見ることができるように、ディスプレイは、ARグラスのレンズ(複数可)の一部に、ARデータ(例えば、画像、グラフィック、テキスト、アイコンなど)を提示し得る。このようにして、ARデータは、ユーザの環境視界と重なり得る。
【0024】
ARグラス400はさらに、視標追跡センサを含み得る。視標追跡センサは、右目カメラ420及び左目カメラ421を含み得る。ARグラス装着時に、右目カメラの右FOV422がユーザの右目を含み、左目カメラの左FOV423がユーザの左目を含むように、右目カメラ420及び左目カメラ421は、フレームのレンズ部分に配置され得る。視点(x、y)は、カメラ(例えば、右目カメラ420、左目カメラ421)のビデオフィードの頻度で測定され得る。例えば、視線座標(x、y)は、カメラのフレームレート(例えば、15フレーム/秒)以下で測定され得る。
【0025】
ARグラス400はさらに、複数のマイクロフォン(すなわち、2つ以上のマイクロフォン)を含み得る。複数のマイクロフォンは、ARグラスのフレーム上に間隔をあけて配置され得る。図4に示されるように、複数のマイクロフォンは、第1のマイクロフォン431、第2のマイクロフォン432、第3のマイクロフォン433、第4のマイクロフォン434、及び第5のマイクロフォン435を含み得る。複数のマイクロフォンは、ARグラス400の座標系430に関して特定の方向にビームを配向するマイクロフォンアレイとして、一緒に動作するように構成され得る。あるいは、マイクロフォンは、グループ(すなわち、サブアレイ)で動作するように構成され得、各グループは、マイクロフォンアレイとして動作するように構成される。一例では、第3のマイクロフォン433及び第4のマイクロフォン434は、ARグラス400の座標系430のX方向に沿った(水平)マイクロフォンアレイとして動作するように構成され得る。言い換えると、第3のマイクロフォン433及び第4のマイクロフォン434は、水平ビームフォーミングに使用され得る。さらに、第3のマイクロフォン433及び第5のマイクロフォン435は、ARグラス400の座標系430のY方向に沿った(垂直)マイクロフォンアレイとして動作するように構成され得る。言い換えると、第3のマイクロフォン433及び第5のマイクロフォン435は、垂直ビームフォーミングに使用され得る。さらに、第1のマイクロフォン431及び第2のマイクロフォン432は、ARグラス400の座標系430のZ方向に沿った(水平)マイクロフォンアレイとして動作するように構成され得る。各サブアレイに使用されるマイクロフォンの数は、2つ以上であり得る。サブアレイ内のマイクロフォンの数を増やすと、サブアレイから生じるビームパターンのビーム幅を狭めることができる。サブアレイのビームフォーミングプロセスは並列化できるため、2つ以上のサブアレイが1つ以上のマイクロフォンを共有してもよい。
【0026】
ARグラス400はさらに、音声(例えば、ビームフォーミング音声)をユーザに送信するように構成された左スピーカ441及び右スピーカ442を含み得る。付加的、または代替的に、ユーザに音声を送信することは、無線通信リンク445を介して聴取デバイス(例えば、補聴器、イヤホンなど)に音声を送信することを含み得る。例えば、ARグラスは、音声(例えば、ビームフォーミング音声)を、左ワイヤレスイヤホン446及び右イヤホン447に送信し得る。ユーザの視点(x、y)を追跡するビームフォーミング音声である場合、視点を含む視野領域からの音声内の音は、増幅され得るが、他の視野領域からの音は、増幅され得ないまたは減衰され得る。言い換えると、ARデバイスのスピーカには、ARグラス400と通信可能に接続された(すなわち、ペアリングされた)スピーカ(例えば、イヤホン)、またはARグラス400に統合された(すなわち、内蔵された)スピーカが含まれ得る。
【0027】
【数1】
【0028】
【数2】
【0029】
ビームフォーミングは、配向により並列化され得るため、座標系に関して水平に配置されたアレイ(すなわち、水平アレイ)は、第1の重み集合を有し、一方で、座標系に関して垂直に配置されたアレイ(すなわち、垂直アレイ)は、第2の重み集合を有する。各方向のアレイからの音声は、個別に処理されて、水平ビームフォーミング信号及び垂直ビームフォーミング信号が生成され得る。水平ビームフォーミング信号及び垂直ビームフォーミング信号を平均化して、水平成分(例えば、x)及び垂直成分(例えば、y)を含む方向のビームフォーミング音声が形成され得る。この並列処理手法は、簡潔さという利点を有し得るが、他の手法も可能であり得る。例えば、追加の平均化ステップが不要になるように、水平方向及び垂直方向の両方でビームフォーミングの重みを決定することも可能であり得る。さらに、前述のステップに第3の次元(例えば、z)を追加することにより、3次元(3D)ビームフォーミングが可能になり得る。
【0030】
【数3】
【0031】
【数4】
【0032】
図7は、本開示の実施態様による、視標追跡音声ビームフォーミングの方法のフローチャートである。方法700は、非一時的コンピュータ可読媒体上に有形に具現化されたコンピュータプログラム製品として実装され得る。言い換えると、方法700のステップは、プログラミング言語または機械語で実装できるコンピュータプログラム(すなわち、モジュール、ソフトウェア、アプリケーション、コード)の一部として含まれ得る。実行されると、コンピュータプログラムは、視標追跡音声ビームフォーミングの方法を実行するように少なくとも1つのプロセッサを構成し得る。
【0033】
視標追跡音声ビームフォーミングの方法700は、複数のマイクロフォン(すなわち、マイクロフォンアレイ)から音声をキャプチャすること(705)を含む。可能な実施態様では、マイクロフォンアレイ内の各マイクロフォンは、全方向性の感度パターンを有する。別の可能な実施態様では、マイクロフォンアレイ内のマイクロフォンのうちの1つ以上が指向性の感度パターンを有する。
【0034】
マイクロフォンは、ARグラスと統合され得る。可能な実施態様では、ARグラスは、ビームフォーミングモード(すなわち、ビームフォーミングあり)または通常モード(すなわち、ビームフォーミングなし)で構成され得る。ビームフォーミングモードでは、ユーザの視線に対応する方向にマイクロフォンアレイの感度をステアリングするように、マイクロフォンアレイからの音声は処理され得る。モードの選択は、様々な要因に依存し得る。例えば、ビームフォーミングを行うかどうかは、ARグラスで利用可能な処理リソース及び電力リソースに基づいて決定され得る。具体的には、ARグラスが低電力モード(例えば、電力レベルが25%未満)のとき、視標追跡は回避され得る。したがって、方法700は任意で、デバイスがビームフォーミングモードであるかどうかを判定すること(710)を含み得る。ARデバイスがビームフォーミングモードではないとき、マイクロフォンのうちの1つ以上からの音声がユーザに提供され得る(745)。しかし、ARグラスがビームフォーミングモードであるとき、視標追跡音声ビームフォーミングを行うためのステップが実行され得る。いくつかの実施態様では、ユーザの視線が基準(複数可)を満たすと、ARグラスは、自動的に音声をビームフォーミングするように構成される。これらの実施態様では、デバイスがビームフォーミングモードであるかどうかを判定するステップ(710)は、省略され得る。
【0035】
方法700は、ユーザの目(複数可)を追跡すること(715)を含む。視標追跡の結果を使用して、視線を検出すること(720)が行われ得る。視線が検出された場合、音声はビームフォーミングされ、ビームフォーミング音声としてユーザに提供され得、そうでない場合は、音声はビームフォーミングなしでユーザに提供され得る(745)。ビームフォーミングを行う場合とビームフォーミングを行わない場合を視線に基づいて判定することに関する詳細は、下記でさらに論述される(例えば、図11を参照)。
【0036】
視線を検出した後、視線方向が決定され得る(725)。前述のように(例えば、図2)、ユーザの視線を決定することは、片目または両目の測定位置から視点を決定することを含み得る。目(複数可)をキャプチャした画像から、位置が測定され得る。いくつかの実施態様では、方法はさらに、視線方向の確認及び/または改善(730)(すなわち、調整)を促進するために、追加情報を収集することを含み得る。例えば、決定された視線方向で、ユーザの視野の画像727がキャプチャされ、分析され得る。分析は、画像727内で既知の音源を検索することを含み得る。例えば、視線方向に話している人がいる場合、視線方向は話している人に向かっていることが確認され得る。話している人が、決定された視線方向に近い方向(例えば、±10度以内)にいるが、視線方向と正確に一致しない場合は、視線方向を話している人に合わせるように調整が行われ得る。
【0037】
視線方向が決定された後、方法700は、視線方向に応じてビームパターンを選択すること(735)を含む。ビームパターンは、メモリに格納された複数のビームパターンから選択され得る。メモリは、ARグラスのローカルメモリであってもよく、またはARグラスに通信可能に接続されたネットワーク上で利用可能なメモリであってもよい。例えば、ビームパターンは、(少なくとも)視線方向を使用して照会できるルックアップテーブルまたはデータベース737に格納され得る。
【0038】
図8は、本開示の実施態様による、視線に基づいてデータベースからビームパターンを選択して取得することを示す。視線方向を使用してデータベースまたはルックアップテーブルを照会すると、重み集合(w1、w2、…wn)が返され、視線方向(または視線方向に近い方向)にビームが提供され得る。示されるように、データベースは、複数の方向(d1、d2、d3、…dn)の複数のビームパターン(BP1、BP2、BP3、BPn)を含み、それぞれがビーム幅(bw1、bw2、bw3、…bwn)を有する。
【0039】
返される重み集合(w1、w2、…wn)は、各重みが対応するマイクロフォンを有し得る。ビームパターンのビーム幅は、アレイ内のマイクロフォンの数に対応し得る。したがって、格納されたビームパターンは、異なる数の重みを含み、異なるビーム幅が提供され得る。例えば、方向は同じだがビーム幅が異なる2つのビームパターンは、異なる数の重みを有し得る。あるいは、方向は同じだがビーム幅が異なる2つのビームパターンは、同じ数の重みを有し得るが、ビームパターンのうちの1つは、重みのうちのいくつかの値がゼロであり得る。重みの値がゼロの場合、重みに対応するマイクロフォンは、実際にオフにされ得る。
【0040】
任意で、ビームパターンのデータベースまたはルックアップテーブルの選択(照会)は、デバイスのモード/メトリックをさらに含み得る。例えば、デバイスには様々なマイクロフォン構成が可能であり得、デバイスの特定のマイクロフォン構成に基づいて、選択が行われ得る。具体的には、デバイスのモード/メトリックに基づいて、水平方向のビームパターンのみが選択され得る。あるいは、いくつかのマイクロフォンが無効化され得る(例えば、電力状態に基づいて)。この無効化により、デバイスのモード/メトリックに基づいて、有効なマイクロフォンの数に対応するビーム幅(すなわち、重みの数)を有するビームパターンのみが選択され得る。視線方向に基づくビームパターンの選択に関するさらなる詳細は、下記でさらに論述される(例えば、図9を参照)。
【0041】
図7に戻ると、ビームパターンが選択された後(735)、方法700はさらに、選択されたビームパターンに基づいてビームフォーミング音声を生成すること(740)と、ビームフォーミング音声をユーザに提供すること(745)とを含む。ビームフォーミング音声の生成は、前述のように実行され得る(例えば、図5を参照)。例えば、選択されたビームパターンに基づいてビームフォーミング音声信号を生成することは、選択されたビームパターンに対応する重み集合を取得することを含み得る。次に、重み集合のうちの対応する重みに各音声チャネルを適用して、重み付けされた音声チャネルを生成し、これらを合計して、ビームフォーミング音声信号が生成される。
【0042】
図9は、本開示の実施態様による、視線に基づいて図8のデータベースからビームパターンを選択する(すなわち、取得する)ための方法のフローチャートである。方法900は、決定された視線方向(905)を、格納されたビームパターン集合のビーム方向と比較することを含む。視線方向のビームパターンが見つかった場合(910)、そのビームパターンの重みが取得され(915)、ビームフォーミング音声を生成するために使用され得る(例えば、図5を参照)。視線方向のビームパターンが見つからない場合、視線方向の周囲の角度範囲内(例えば、±10度)の方向のビームパターンを含めるように、データベース(またはルックアップテーブル)の検索は拡大され得る。範囲内に複数のビームパターンが見つかった場合(920)、視線方向に最も近い方向のビームパターンが選択され得る。最も近いビームパターンの重みが取得され(925)、ビームフォーミングに使用され得る。最も近い重みにより、ビームと関心対象とに不一致が生じ得るが、関心対象が依然としてビームのビーム幅内にあり得るため、結果得られるビームフォーミングは、依然として関心対象からの強化された(すなわち、増幅された)音声を提供し得る(例えば、図1を参照)。視線方向のビームパターンが見つからず、視線方向の周囲の方向の範囲にもビームパターンが見つからない場合は、デフォルトのビームパターンが取得され(930)、ビームフォーミングに使用され得る。デフォルトのビームパターンは、ユーザの前の方向(例えば、z方向)(例えば、ARグラスの座標系430に関して方位角0度、仰角0度)に、ビームをステアリングする重みを有し得る。あるいは、デフォルトパターンでは、アレイ内のマイクロフォンのうちの1つまたは2つ(例えば、ステレオL/R)を除くすべてのマイクロフォンの重み値がゼロであり得る。重み値がゼロである場合、それらの対応するマイクロフォンは実際に無効化され得(例えば、図5を参照)、一方、重み値が非ゼロである場合、ゲインは1であり、位相シフトは生じ得ない。1つの可能な実施態様では、デフォルトパターンにより、左のマイクロフォンと右のマイクロフォンは、ARグラス上のマイクロフォンの間隔が引き起こす両耳間遅延以外に位相シフトを生じることなく、ステレオペアのマイクロフォンとして動作することが可能となり得る。別の可能な実施態様では、デフォルトパターンは、各チャネルに等しい重み(例えば、1)を適用することにより、マイクロフォンからの音声を平均化し得る。
【0043】
格納されたビームパターンは、ビームフォーミングが動作に使用される(すなわち、オンライン時、実行時の)前に(すなわち、オフライン時に)行われるトレーニングに基づいて、生成され得る。図10は、本開示の実施態様による、ビームパターンを生成するための方法のフローチャートを示す。方法は、視線方向を決定すること(1005)を含む。
【0044】
視線方向は、経時的な視線方向の人気に基づいて決定され得る。人気のある視線方向は、1人以上のユーザに関して経時的に監視された視線に基づいて決定され得る。例えば、ユーザの目を経時的に追跡して、様々な視線方向または視点の確率が決定され得る(例えば、図2を参照)。例えば、視点は、一定時間より長く視線が視点に留まった場合に、決定され得る。トレーニング期間中に収集された視点に基づいて、視点の確率マップが生成され得る。例えば、各可能な視点(x、y)は、トレーニング期間中に収集された多数の視線を有し得る。その視点の確率(すなわち、尤度)は、トレーニング期間中に収集された視点の視線の数を、トレーニング期間中に検出された視線の総数で割ったものになり得る。確率マップは、人気の高い視点の強度が人気の低い視点の強度よりも高いヒートマップ画像として、実装され得る。確率マップを分析して、視線方向の集合が決定され得る。例えば、ヒートマップの領域で閾値より高い強度を有する1つ以上の視点(すなわち、ピクセル)は、人気視点として強調表示(すなわち、選択)され得、人気視点に向かう視線方向が決定され得る。
【0045】
方法はさらに、視線方向(の集合)から第1の視線方向を選択すること(1010)を含む。選択された視線方向の目標ビームパターンが決定され得る(1015)。目標ビームパターンを決定することは、特定の視線方向に適したビーム幅を決定することを含み得る。例えば、単一のビームパターンで人気視線方向の範囲(すなわち、人気視点の領域)をカバーできるように、広いビーム幅が選択され得る。目標ビームパターンが選択されると、そのビームパターンの重みが計算され得る。重みを計算することは、複数の方向から音声を収集し(1020)、最小二乗最適化プロセスに従って次の式を最適化することを含み得る。
【0046】
【数5】
【0047】
上記の式では、yは、目標ビームパターン(例えば、ビームパターンに対応する感度値を有する2次元行列)であり、Xは、複数の角度からの音声(例えば、フルランクの疑似逆データ行列)であり、wは、解決対象の重み(例えば、音声チャネルの数に対応する重みのベクトル)である。特定の視線方向の重みを学習するための反転は、順方向行列(X)がフルランクのときに可能であり得る。
【0048】
様々な角度で音源から同じ音声データが収集され得るように、音声を収集するための実用的(オフライン)セットアップは、各チャネルからの音声を録音しながら、ARグラスの周りで音源を移動させることを含み得る。次に、目標ビームパターンの空間感度パターンに対応する空間感度パターンを音声が有するまで、各チャネルに対して様々な重みを試行する最適化が行われ得る。その結果、目標ビームパターンに近似する重みの集合が生成される。近似の品質は、重み(すなわち、マイクロフォン)の数に基づき得る。例えば、最小二乗最適化プロセスがゼロにより近く最小化されるように、重みの数が増やされると、目標ビームパターンとのより良い一致がもたらされ得る。
【0049】
図10に戻ると、目標ビームパターンの最適な重みが計算された(1025)後、これらはデータベース(またはルックアップテーブル)に格納され得る(1030)。重みは、それらの対応するビーム方向及び/またはビーム幅により、データベース内でインデックス化され得る。この方法は、視線方向から次の視線方向を選択し(1035)、次の視線方向の目標ビームパターンを決定し、最適化プロセスを繰り返してデータベースに次のビームパターンの重みを計算/格納することにより、他の視線方向に関しても繰り返され得る。決定されたすべての視線方向に関するすべてのビームパターンがデータベースに格納された後、これらは、ARグラスのローカルメモリにダウンロードされ得、またはARグラスがオンラインでアクセス可能なクラウドメモリに格納され得る。
【0050】
ビームフォーミングのための格納されたビームパターン及びルックアップ手法は、ユーザがARグラスを使用している間に(すなわち、実行時に)ARグラスで最適化を行う必要がないため、計算効率、電力効率、及び速さが非常に優れている。実行時に、データベースから重みを呼び出すだけで、ビームフォーミングを行うことができる。重みにより、ユーザの視線と完全に一致するビームパターンが提供されるわけではないが、多くの場合、ユーザが視線対象をよりよく聞き取れるように、音声が十分に強化され得る。
【0051】
ビームフォーミングが行われるべきときを判断するために(例えば、図7の項目720)、ユーザの視線が視点から動かないことを決定することが、オフライン(例えば、前述のトレーニング)及び/またはオンラインで利用され得る。図11は、本開示の実施態様による、ビームフォーミングのための視線を検出するためのフローチャートを示す。方法は、視点(すなわち、視点座標)(x、y)を決定すること(1105)を含む。視線の決定は、急速な眼球運動(すなわち、サッカード)により、困難になり得る。したがって、方法はさらに、視線座標を時間的にフィルタリングすること(1110)を含む。例えば、経時的に変化の少ない視線に対応する時間変動信号を生成するために、リアルタイムの視標追跡から得られる視線座標は、低域フィルタリングされ得る。可能な実施態様では、視標追跡座標は、経時的に測定され、平均化されて、平均視標追跡座標が取得され得る。平均視標追跡座標が滞留時間の基準を満たすと、ユーザの視線方向が決定され得る。例えば、範囲(例えば、領域)内で閾値時間よりも長く留まる平均視標追跡座標は、安定した視線を示し得る。ビームフォーミングは、視線の安定性に基づいて決定され得る。例えば、視線が安定している場合(1115)、フィルタリングされた視線座標から決定された視線に対応する方向で、ビームフォーミングは実行され得る。別の実施例では、視線が安定している間に決定された平均視標追跡座標に対応する方向で、ビームフォーミングは実行され得る。安定した視線(1115)は、ARグラスがビームフォーミングモード(1120)になることをトリガーし得るが、安定していない視線(すなわち、不安定な視線)は、ビームフォーミングをトリガーすることはない(すなわち、ビームフォーミングなし(1125))。例えば、可能な実施態様では、安定した視線が検出されない限り、ARグラスは、ビームフォーミングモードに設定されることはない。
【0052】
格納されたビームパターン及びルックアップ手法の計算効率、電力効率、及び速度により、新たなビームフォーミングアプリケーションが可能になり得る。例えば、ビームフォーミングは、ある方向で徐々に焦点合わせ(ズームイン)または焦点ぼかし(ズームアウト)が行われ得る。言い換えると、ビームフォーミングは、経時的に変更され得る。ビームフォーミングをスイッチのようにオン/オフで有効化するのではなく、ビームフォーミングをズームすることは、ビームフォーミングを経時的に増加/減少させることに対応し、ユーザが視覚的焦点を合わせている対象の「音声ズーム」体験を生み出す。上記の滞留時間視線検出と組み合わせることで、段階的なビームフォーミング(すなわち、ビームフォーミングのズーム)は、ビームフォーミングのイン/アウトよりもスムーズな音声遷移が可能になり得る。
【0053】
図12は、本開示の実施態様による、ビームフォーミングのズームイン及びズームアウトを示す。図は、3つのビームパターンを示す。第1のビームパターン(BP1)は第1のビーム幅を有し、第2のビームパターン(BP2)は第1のビーム幅よりも小さい第2のビーム幅を有し、第3のビームパターン(BP3)は第2のビーム幅よりも小さいビーム幅を有する。第1のビームパターン(BP1)、第2のビームパターン(BP2)、及び第3のビームパターン(BP3)は、同じ方向(d1)に配向される。ビームパターンは、データベースに格納され、ビームフォーミングを徐々に変更(すなわち、ズームインまたはズームアウト)するように順番に(すなわち、1度に1つずつ)適用され得る。
【0054】
図12には、可能なズームインシーケンス及びズームアウトシーケンスの時間グラフ1210が含まれ、ビームパターンの下に表示される。第1の時点1215では、ビームフォーミングなし(すなわち、BFなし)で音声がユーザに提供される。ビームフォーミングは、第2の時点1220においてトリガーされる。ビームフォーミングがトリガーされると(例えば、持続的な視線により)、例えばズームインのためにビーム幅が減少する少なくとも2つのビームパターンのシーケンスを適用することを含む、ビームフォーミングなしから完全なビームフォーミングへ移行するシーケンスを適用することにより、ビームフォーミングはズームインされ得る。図12は、1つの可能なシーケンスを示す。シーケンスでは、第2の時点1220において、第1のビームパターン(BP1)が取得され(例えば、データベースから)、音声チャネルに適用される。次に、第3の時点1230において、第2のビームパターン(BP2)が取得され、音声チャネルに適用される。次に、第4の時点1240において、第3のビームパターン(BP3)が取得され、音声チャネルに適用される。第4の時点1240において、ビームフォーミングは完全にオンになり、ユーザの視線に基づいてこの状態を維持し得る。第5の時点1250において、ビームフォーミングは終了する(例えば、ユーザの視線が変わる)。第5の時点1250において、第3のビームパターン(BP3)から第2のビームパターン(BP2)に移行することにより、ビームフォーミングはズームアウトされ得る。次に、第6の時点1260において、ビームフォーミングは、第2ビームパターン(BP2)から第1ビームパターン(BP1)に移行する。最終的に、第7の時点1270において、ビームフォーミングは、ビームフォーミングなし(BFなし)に移行し戻る。シーケンスの時間及びビーム幅は、調整可能であり得る(例えば、ユーザにより)。さらに、いくつかのシーケンスは、より多くの(またはより少ない)ビームパターンを含み得る。
【0055】
別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、当業者により一般的に理解される意味と同じ意味を有する。本開示の実践または試験には、本明細書に記載される方法及び材料と同様または均等の方法及び材料を使用することができる。本明細書及び添付の特許請求の範囲に使用される単数形「a」、「an」、「the」は、文脈上明らかに別段の指示がない限り、複数の指示対象を含む。本明細書で使用される用語「備える(comprising)」及びその変形は、用語「含む(including)」及びその変形と同義に用いられ、展開可能な非限定的な用語である。本明細書で使用される用語「任意の(optional)」または「任意で(optionally)」とは、続いて記載される特徴、事象、または状況が生じても生じなくてもよいこと、及び説明は当該特徴、事象、または状況が生じる場合と生じない場合とを含むことを意味する。範囲は、「約」ある特定の値から、及び/または「約」別の特定の値までのように、本明細書では表現され得る。このような範囲が表現される場合、態様は、ある特定の値から、及び/または別の特定の値までを含む。同様に、先行詞「約」の使用により、値が近似値として表現される場合、特定の値が別の態様を形成することが理解されよう。それぞれの範囲の終点は、他方の終点と関係があること、及び他方の終点と無関係であることの両方を意味することが、さらに理解されよう。
【0056】
本明細書で説明されるように、記載の実施態様の特定の特徴が例示されたが、数多くの修正、置換、変更、及び均等物が、当業者には想到されるであろう。よって、添付の特許請求の範囲には、実施態様の範囲に入るこのような修正及び変更をすべて網羅する意図があることを、理解されたい。これらは、限定ではなく例としてのみ提示されており、形式及び詳細に様々な変更が加えられてもよいことを、理解されたい。本明細書に記載の装置及び/または方法のいずれの部分も、相互に排他的な組み合わせを除き、いずれの組み合わせでも組み合わされ得る。本明細書に記載の実施態様は、記載の異なる実施態様の機能、構成要素、及び/または特徴の様々な組み合わせ及び/または部分組み合わせを含み得る。
【0057】
前述の説明で、ある要素が、別の要素の上にある、別の要素に接続されている、別の要素に電気接続されている、別の要素に結合されている、または別の要素に電気結合されていると言及された場合、その要素は、別の要素の直接上にあり得、別の要素に直接接続され得、または別の要素に直接結合され得、あるいは1つ以上の介在要素が存在し得ることが、理解されよう。対照的に、要素が別の要素の直接上にある、別の要素に直接接続されている、または別の要素に直接結合されていると言及された場合、介在要素は存在しない。発明を実施するための形態の全体を通して、直接上、直接接続、または直接結合という用語が使用されていない場合でも、直接上、直接接続、または直接結合されていることが示される要素は、そのように参照され得る。本出願の特許請求の範囲は、もしあるならば、明細書に記載されたまたは図面に示された例示的な関係を、列挙するように修正され得る。
【0058】
本明細書で使用されている単数形は、文脈上特定の事例を明確に示さない限り、複数形を含み得る。空間的な相対用語(例えば、~の上、~の上方、~の上部、~の下、~の下方、~より下、及び~の下部など)は、図面に示される配向に加えて、使用中または動作中のデバイスの様々な配向を包含することが意図される。いくつかの実施態様では、相対用語「上」及び「下」には、垂直方向の上及び垂直方向の下がそれぞれ含まれ得る。いくつかの実施態様では、用語「隣接する」には、横に隣接すること、または水平方向に隣接することが含まれ得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2024-06-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
拡張現実(AR)デバイスの複数のマイクロフォンから音声チャネルを受信することを含み、前記複数のマイクロフォンはマイクロフォンアレイとして動作するように構成され、
ユーザの視線方向を特定するために、前記ARデバイスのユーザの目を追跡することと、
前記マイクロフォンアレイのビームパターンを選択することと、を含み、前記ビームパターンは前記ユーザの前記視線方向に基づいて、格納されたビームパターンの集合から選択され、
前記選択されたビームパターンに基づいて、ビームフォーミング音声信号を生成することと、
前記ビームフォーミング音声信号を前記ユーザに対して再生するために、前記ビームフォーミング音声信号を前記ARデバイスのスピーカに送信することと、
を含む、方法。
【請求項2】
前記選択されたビームパターンに基づいて、前記ビームフォーミング音声信号を生成することは、
前記選択されたビームパターンに対応する重み集合を取得することと、
重み付けされた音声チャネルを生成するために、前記重み集合のうちの対応する重みを各音声チャネルに適用することと、
前記ビームパターンに従って音を増幅させた前記ビームフォーミング音声信号を生成するために、前記重み付けされた音声チャネルを合計することと、
を含む、請求項1に記載の方法。
【請求項3】
前記格納されたビームパターンの集合のうちの各ビームパターンは、ビーム方向及びビーム幅を有する、請求項1または2に記載の方法。
【請求項4】
前記ユーザの前記視線方向に基づいて、前記格納されたビームパターンの集合から前記ビームパターンを選択することは、
前記視線方向を、前記格納されたビームパターンの集合のうちの各ビームパターンのビーム方向と比較することと、
前記格納されたビームパターンの集合から、前記視線方向に最も近いビーム方向を有するビームパターンを取得することと、
を含む、請求項3に記載の方法。
【請求項5】
複数のビームパターンが前記視線方向に最も近い前記ビーム方向を有する場合、前記ビーム幅に基づいて、前記格納されたビームパターンの集合から前記ビームパターンを選択すること、
をさらに含む、請求項4に記載の方法。
【請求項6】
前記ARデバイスの電力状態を特定することと、
前記電力状態に基づくビーム幅を有するビームパターンを選択することと、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記ビーム方向を有する選択されたビームパターンのシーケンスに基づいて、ビームフォーミング音声信号を生成することにより、前記視線方向の前記ビームパターンをズームインすることであって、前記シーケンスで連続する各ビームパターンはより小さいビーム幅を有する、前記ズームインすること、
をさらに含む、請求項に記載の方法。
【請求項8】
前記ビーム方向を有する選択されたビームパターンのシーケンスに基づいて、ビームフォーミング音声信号を生成することにより、前記視線方向の前記ビームパターンをズームアウトすることであって、前記シーケンスで連続する各ビームパターンはより大きいビーム幅を有する、前記ズームアウトすること、
をさらに含む、請求項に記載の方法。
【請求項9】
前記ユーザに対して再生するために前記ビームフォーミング音声信号を前記ARデバイスのスピーカに送信することは、
前記ビームフォーミング音声信号を左チャネルと右チャネルに分割することと、
前記ユーザの前記視線方向に基づいて、前記左チャネルと前記右チャネル間の位相及び振幅の差を調整することと、
を含む、請求項1または2に記載の方法。
【請求項10】
トレーニング実験に基づいて、目標ビームパターンを決定することと、
前記目標ビームパターンに近似するビームパターンの重みを計算することと、
前記ビームパターンの前記重みを、第1の視線方向及び第1のビーム幅を有する第1のビームパターンとして、メモリに格納することと、
前記格納されたビームパターンの集合を生成するために、他の目標ビームパターンに関しても、前記決定すること、前記計算すること、及び前記格納することを繰り返すことと、
をさらに含む、請求項1または2に記載の方法。
【請求項11】
前記トレーニング実験は、視線方向の尤度を含む、請求項10に記載の方法。
【請求項12】
前記目標ビームパターンに近似するビームパターンの重みを前記計算することは、
最小二乗最適化を実行すること、
を含む、請求項10に記載の方法。
【請求項13】
ユーザの視線方向を特定するために、前記ARデバイスのユーザの目を追跡することは、
経時的に視標追跡座標を測定することと、
平均視標追跡座標を取得するために、経時的な前記視標追跡座標を平均化することと、
前記平均視標追跡座標が滞留時間の間、互いに範囲内にある場合、前記平均視標追跡座標に基づいて、前記ユーザの前記視線方向を特定することと、
を含む、請求項1または2に記載の方法。
【請求項14】
前記ユーザの視野の画像を取得することと、
前記視線方向に基づいて、領域内の前記画像を分析することと、
前記分析に基づいて、前記視線方向を確認することと、
前記視線方向が確認されるとビームフォーミングをトリガーすることであって、前記ビームフォーミングは、前記ユーザの前記視線方向に基づいて、格納されたビームパターンの集合からビームパターンを前記選択することを含む、前記トリガーすることと、
をさらに含む、請求項13に記載の方法。
【請求項15】
拡張現実(AR)デバイスであって、
環境からの音に基づいて音声チャネルを生成するように構成されたマイクロフォンを含むマイクロフォンアレイと、
前記ARデバイスのユーザの視線方向を特定するように構成されたアイトラッカーと、
スピーカと、
ソフトウェアにより構成されたプロセッサ、
を備え、前記プロセッサは、前記ソフトウェアにより、
前記マイクロフォンアレイから前記音声チャネルを受信し、
前記アイトラッカーから前記視線方向を受信し、
前記ユーザの前記視線方向に基づいて、格納されたビームパターンの集合から、前記マイクロフォンアレイのビームパターンを選択し、
前記選択されたビームパターンに基づいて、ビームフォーミング音声信号を生成し、
前記ビームフォーミング音声信号を前記ユーザに対して再生するために、前記ビームフォーミング音声信号を前記スピーカに送信する、
ように構成される、前記ARデバイス。
【請求項16】
スマートグラスであって、
環境からの音に基づいて音声チャネルを生成するように構成されたマイクロフォンを含むマイクロフォンアレイと、
前記スマートグラスのユーザの視線方向を特定するように構成されたアイトラッカーと、
スピーカと、
ソフトウェアにより構成されたプロセッサと、
を備え、前記プロセッサは、前記ソフトウェアにより、
前記マイクロフォンアレイから前記音声チャネルを受信し、
前記アイトラッカーから前記視線方向を受信し、
前記視線方向に基づいて、ルックアップテーブルから前記音声チャネルの重みを取得し、
前記視線方向からの前記環境内の音を増幅させたビームフォーミング音声信号を生成するために、前記音声チャネルに前記重みを適用しかつ前記音声チャネルを合計し、
前記ユーザに対して再生するために、前記ビームフォーミング音声信号を前記スピーカに送信する、
ように構成される、前記スマートグラス。
【請求項17】
前記ルックアップテーブルから前記音声チャネルの前記重みを取得するために、前記プロセッサはさらに、
複数の所定の視線方向の重み集合を含む前記ルックアップテーブルにアクセスし、
前記視線方向に最も近い1つの所定の視線方向の重みを選択する、
ように構成される、請求項16に記載のスマートグラス。
【請求項18】
前記複数の所定の視線方向は、トレーニングプロセスにより決定された視線方向の尤度に基づく、請求項17に記載のスマートグラス。
【請求項19】
前記ルックアップテーブルは、前記スマートグラス上に格納される、請求項17または18に記載のスマートグラス。
【請求項20】
前記ルックアップテーブルは、前記スマートグラスに接続されたネットワーク上に格納される、請求項17または18に記載のスマートグラス。
【請求項21】
前記マイクロフォンアレイは、垂直音声チャネルを生成する垂直アレイと、水平音声チャネルを生成する水平アレイとを含む、請求項16~18のいずれか1項に記載のスマートグラス。
【請求項22】
前記視線方向は、水平視線方向及び垂直視線方向を含み、前記プロセッサは、前記水平視線方向に基づいて前記水平音声チャネルの水平重みを決定し、前記垂直視線方向に基づいて前記垂直音声チャネルの垂直重みを決定するように構成される、請求項21に記載のスマートグラス。
【請求項23】
コンピュータの少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、請求項1または2に記載の方法を実施させる、コンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0026
【補正方法】変更
【補正の内容】
【0026】
ARグラス400はさらに、音声(例えば、ビームフォーミング音声)をユーザに送信するように構成された左スピーカ441及び右スピーカ442を含み得る。付加的、または代替的に、ユーザに音声を送信することは、無線通信リンク445を介して聴取デバイス(例えば、補聴器、イヤホンなど)に音声を送信することを含み得る。例えば、ARグラスは、音声(例えば、ビームフォーミング音声)を、左ワイヤレスイヤホン446及び右ワイヤレスイヤホン447に送信し得る。ユーザの視点(x、y)を追跡するビームフォーミング音声である場合、視点を含む視野領域からの音声内の音は、増幅され得るが、他の視野領域からの音は、増幅され得ないまたは減衰され得る。言い換えると、ARデバイスのスピーカには、ARグラス400と通信可能に接続された(すなわち、ペアリングされた)スピーカ(例えば、イヤホン)、またはARグラス400に統合された(すなわち、内蔵された)スピーカが含まれ得る。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0051
【補正方法】変更
【補正の内容】
【0051】
ビームフォーミングが行われるべきときを判断するために(例えば、図7の項目720)、ユーザの視線が視点から動かないことを特定することが、オフライン(例えば、前述のトレーニング)及び/またはオンラインで利用され得る。図11は、本開示の実施態様による、ビームフォーミングのための視線を検出するためのフローチャートを示す。方法は、視点(すなわち、視点座標)(x、y)を特定すること(1105)を含む。視線の特定は、急速な眼球運動(すなわち、サッカード)により、困難になり得る。したがって、方法はさらに、視線座標を時間的にフィルタリングすること(1110)を含む。例えば、経時的に変化の少ない視線に対応する時間変動信号を生成するために、リアルタイムの視標追跡から得られる視線座標は、低域フィルタリングされ得る。可能な実施態様では、視標追跡座標は、経時的に測定され、平均化されて、平均視標追跡座標が取得され得る。平均視標追跡座標が滞留時間の基準を満たすと、ユーザの視線方向が特定され得る。例えば、範囲(例えば、領域)内で閾値時間よりも長く留まる平均視標追跡座標は、安定した視線を示し得る。ビームフォーミングは、視線の安定性に基づいて決定され得る。例えば、視線が安定している場合(1115)、ビームフォーミングは、フィルタリングされた視線座標から特定された視線に対応する方向で実行され得、平均視標追跡座標に対応する方向で終結し得る。安定した視線(1115)は、ARグラスがビームフォーミングモード(1120)になることをトリガーし得るが、安定していない視線(すなわち、不安定な視線)は、ビームフォーミングをトリガーすることはない(すなわち、ビームフォーミングなし(1125))。例えば、可能な実施態様では、安定した視線が検出されない限り、ARグラスは、ビームフォーミングモードに設定されることはない。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0052
【補正方法】変更
【補正の内容】
【0052】
格納されたビームパターン及びルックアップ手法の計算効率、電力効率、及び速度により、新たなビームフォーミングアプリケーションが可能になり得る。例えば、ビームフォーミングは、ある方向で徐々に焦点合わせ(ズームイン)または焦点ぼかし(ズームアウト)が行われ得る。言い換えると、ビームフォーミングは、経時的に変更され得る。ビームフォーミングをスイッチのようにオン/オフで有効化するのではなく、ビームフォーミングをズームすることは、ビームフォーミングを経時的に増加/減少させることに対応し、ユーザが視覚的焦点を合わせている対象の「音声ズーム」体験を生み出す。上記の滞留時間視線検出と組み合わせた場合、段階的なビームフォーミング(すなわち、ビームフォーミングのズーム)は、焦点合わせしたビームフォーミングへのまたは焦点合わせしたビームフォーミングからのスムーズな音声遷移が可能になり得る。
【国際調査報告】