IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピクシーダストテクノロジーズ株式会社の特許一覧 ▶ 大日本住友製薬株式会社の特許一覧

特開2023-108945情報処理装置、情報処理方法、及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023108945
(43)【公開日】2023-08-07
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G09B 21/00 20060101AFI20230731BHJP
   H04R 3/00 20060101ALI20230731BHJP
   G06F 3/16 20060101ALI20230731BHJP
   G06F 3/01 20060101ALI20230731BHJP
【FI】
G09B21/00 F
H04R3/00 320
G06F3/16 620
G06F3/01 510
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022010272
(22)【出願日】2022-01-26
(71)【出願人】
【識別番号】517182918
【氏名又は名称】ピクシーダストテクノロジーズ株式会社
(71)【出願人】
【識別番号】000002912
【氏名又は名称】住友ファーマ株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】西村 晴輝
(72)【発明者】
【氏名】田畑 愛実
(72)【発明者】
【氏名】遠藤 彰
(72)【発明者】
【氏名】羽原 恭寛
(72)【発明者】
【氏名】五味 蔵酒
(72)【発明者】
【氏名】平良 優大
(72)【発明者】
【氏名】平岡 尚
(72)【発明者】
【氏名】高澤 和希
【テーマコード(参考)】
5D220
5E555
【Fターム(参考)】
5D220BA06
5D220BC05
5E555AA27
5E555AA42
5E555AA63
5E555BA02
5E555BA04
5E555BA05
5E555BA06
5E555BB04
5E555BC13
5E555BE08
5E555BE17
5E555CA42
5E555CA47
5E555CB64
5E555CC03
5E555DA08
5E555DA09
5E555DB21
5E555DB39
5E555DB41
5E555DB53
5E555DC13
5E555DD11
5E555EA11
5E555EA14
5E555EA23
5E555FA00
(57)【要約】
【課題】音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれを抑制する。
【解決手段】情報処理装置は、複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、ユーザ入力に応じて、基準座標系におけるマルチマイクデバイスの位置および向きを決定する手段と、マルチマイクデバイスに対する音源の方向である第1方向の推定結果と、基準座標系におけるマルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する音源の方向である第2方向を推定する手段と、音源から発せられた音に関する情報を、ディスプレイデバイスの表示部内の第2方向に応じた表示位置に表示させる手段とを具備する。
【選択図】図6

【特許請求の範囲】
【請求項1】
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、
前記ユーザ入力に応じて、基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段と、
前記マルチマイクデバイスに対する音源の方向である第1方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する前記音源の方向である第2方向を推定する手段と、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部内の前記第2方向に応じた表示位置に表示させる手段と
を具備する、情報処理装置。
【請求項2】
前記ユーザ入力を取得する前に、前記ディスプレイデバイスの表示部に、位置情報を保持する第1オブジェクト、および向き情報を保持する第2オブジェクトを表示する手段をさらに具備し、
前記基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段は、前記ユーザ入力に応じて前記第1オブジェクトに設定された位置情報と前記第2オブジェクトに設定された向き情報とに基づいて、前記基準座標系における前記マルチマイクデバイスの位置および向きを決定する、
請求項1に記載の情報処理装置。
【請求項3】
前記ディスプレイデバイスの表示部に表示される前記第1オブジェクトの位置および前記第2オブジェクトの向きは、前記ユーザ入力に応じて変更可能であって、
前記第1オブジェクトの位置の変更とともに前記第1オブジェクトが保持する位置情報を更新する手段と、
前記第2オブジェクトの向きの変更とともに前記第2オブジェクトが保持する向き情報を更新する手段とをさらに具備する、
請求項2に記載の情報処理装置。
【請求項4】
前記第1オブジェクトの位置を変更するユーザ入力は、前記第1オブジェクトの位置に対する複数の候補のいずれかの選択を含み、
前記第2オブジェクトの向きを変更するユーザ入力は、前記第2オブジェクトの向きに対する複数の候補のいずれかの選択を含む、
請求項3に記載の情報処理装置。
【請求項5】
前記マルチマイクデバイスから前記音源までの距離である第1距離と、前記ディスプレイデバイスから前記音源までの距離である第2距離との少なくとも1つに関するユーザ指示を取得する手段と、
前記ユーザ指示に応じて、前記第1距離または前記第2距離の少なくとも1つを決定する手段とをさらに具備し、
前記第2方向を推定する手段は、前記第1距離または前記第2距離の少なくとも1つにさらに基づいて前記第2方向を推定する、
請求項1乃至請求項4のいずれかに記載の情報処理装置。
【請求項6】
前記ユーザ指示を受け付ける前に、前記第1距離または前記第2距離の少なくとも1つに対する複数の候補を提示する手段をさらに具備し、
前記ユーザ指示は、前記複数の候補の1つを選択する指示を含み、
前記第1距離または前記第2距離の少なくとも1つを決定する手段は、前記ユーザ指示によって選択された候補に対応する値を前記第1距離または前記第2距離の少なくとも1つとして決定する、
請求項5に記載の情報処理装置。
【請求項7】
前記ユーザ指示を受け付ける前に、前記音源、前記マルチマイクデバイス、およびユーザを収容する空間のレイアウトを前記ディスプレイデバイスの表示部に表示させる手段をさらに具備し、
前記ユーザ指示は、前記表示部に表示されたレイアウト上で、前記音源の位置、前記マルチマイクデバイスの位置、前記マルチマイクデバイスの向き、および前記ユーザの位置の少なくとも1つを指定する指示を含む、
請求項5に記載の情報処理装置。
【請求項8】
前記マルチマイクデバイスは、前記空間内の既定位置に配置され、
前記ユーザ指示は、前記表示部に表示されたレイアウト上で、前記音源の位置を指定する指示を含み、
前記第1距離または前記第2距離の少なくとも1つを決定する手段は、前記ユーザ指示によって指定された前記音源の位置と前記空間内の既定位置とに基づいて、前記第1距離を決定する、
請求項7に記載の情報処理装置。
【請求項9】
前記基準座標系において前記ユーザの正面に対応する方向と、前記第1方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、前記マルチマイクデバイスから前記音源までの距離である第1距離と、前記ディスプレイデバイスから前記音源までの距離である第2距離との少なくとも1つを決定する手段をさらに具備し、
前記第2方向を推定する手段は、前記第1距離または前記第2距離の少なくとも1つにさらに基づいて前記第2方向を推定する、
請求項5に記載の情報処理装置。
【請求項10】
ディスプレイデバイスの表示部に、位置情報を保持する第1オブジェクト、および向き情報を保持する第2オブジェクトを、当該第1オブジェクトの位置および当該第2オブジェクトの向きをユーザの操作に応じて変更可能に表示する手段と、
前記第1オブジェクトの位置の変更に応じて前記第1オブジェクトが保持する位置情報を更新する手段と、
前記第2オブジェクトの向きの変更に応じて前記第2オブジェクトが保持する向き情報を更新する手段と、
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きに関する第1ユーザ指示を取得する手段と、
前記第1ユーザ指示を受け付けた時に前記第1オブジェクトが保持していた位置情報と前記第2オブジェクトが保持していた向き情報とに基づいて、基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段と、
前記マルチマイクデバイスから音源までの距離である第1距離、または前記ディスプレイデバイスから前記音源までの距離である第2距離の少なくとも1つに対する複数の候補を提示する手段と、
前記複数の候補の1つを選択する第2ユーザ指示を取得する手段と、
前記第2ユーザ指示によって選択された候補に対応する値を前記第1距離または前記第2距離の少なくとも1つとして決定する手段と、
前記マルチマイクデバイスに対する前記音源の方向である第1方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きと、前記第1距離または前記第2距離の少なくとも1つとに基づいて、前記ディスプレイデバイスに対する前記音源の方向である第2方向を推定する手段と、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部のうち前記第2方向に応じた表示位置に表示させる手段と
を具備する、情報処理装置。
【請求項11】
表示部を備えるディスプレイデバイスと、
前記ディスプレイデバイスを制御するコントローラと
を具備する情報処理システムであって、
前記コントローラは、
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、
前記ユーザ入力に応じて、基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段と、
前記マルチマイクデバイスに対する音源の方向である第1方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、前記ディスプレイデバイスに対する前記音源の方向である第2方向を推定する手段と、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部内の前記第2方向に応じた表示位置に表示させる手段と
を備える、
情報処理システム。
【請求項12】
コンピュータが、
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得するステップと、
前記ユーザ入力に応じて、基準座標系における前記マルチマイクデバイスの位置および向きを決定するステップと、
前記マルチマイクデバイスに対する音源の方向である第1方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する前記音源の方向である第2方向を推定するステップと、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部内の前記第2方向に応じた表示位置に表示させるステップと
を具備する、情報処理方法。
【請求項13】
コンピュータに、請求項1~請求項10の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。
【0003】
特許文献1には、マイクにより集音された音に基づき、音の発生方向を特定し、特定した音の発生方向に対応するディスプレイ上の位置に、音に対応する情報を表示するウェアラブルデバイスが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2016/075782号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載のウェアラブルデバイスには、表示装置とマイクが内蔵されている。他方、例えばウェアラブルデバイスの軽量化などの目的で、装着可能なディスプレイデバイスとは独立したマイクデバイスを用いる構成も考えられる。このような構成においては、マイクデバイスに対する音源の方向と、ディスプレイデバイスに対する音源の方向とは必ずしも一致しない。かかる場合に、音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれが大きくなるおそれがある。
【0006】
本開示の目的は、音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれを抑制することである。
【課題を解決するための手段】
【0007】
本開示の一態様の情報処理装置は、複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、ユーザ入力に応じて、基準座標系におけるマルチマイクデバイスの位置および向きを決定する手段と、マルチマイクデバイスに対する音源の方向である第1方向の推定結果と、基準座標系におけるマルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する音源の方向である第2方向を推定する手段と、音源から発せられた音に関する情報を、ディスプレイデバイスの表示部内の第2方向に応じた表示位置に表示させる手段とを具備する。
【図面の簡単な説明】
【0008】
図1】本実施形態の情報処理システムの構成を示すブロック図である。
図2】本実施形態のディスプレイデバイスの外観を示す図である。
図3】本実施形態のコントローラの構成を示すブロック図である。
図4】本実施形態のディスプレイデバイスと、マルチマイクデバイスと、音源との位置関係の一例の説明図である。
図5】音に関する情報がディスプレイデバイスの適切な位置に表示されない例を示す図である。
図6】本実施形態の一態様を示す図である。
図7】本実施形態の環境設定処理のフローチャートである。
図8】環境設定処理において表示される画面例を示す図である。
図9】環境設定処理において表示される画面例を示す図である。
図10】環境設定処理において表示される画面例を示す図である。
図11】環境設定処理において表示される画面例を示す図である。
図12】環境設定処理および音声処理において参照されるパラメータの説明図である。
図13】環境設定処理において表示される画面例を示す図である。
図14】環境設定処理において表示される画面例を示す図である。
図15】本実施形態の音声処理のフローチャートである。
図16】マイクロホンによる集音を説明するための図である。
図17】基準座標系における音源の方向を説明するための図である。
図18】ディスプレイデバイスにおける表示例を表す図である。
図19】装着者の視界における見え方を説明するための図である。
図20】ディスプレイデバイスの表示例を表す図である。
図21】ディスプレイデバイスの表示の他の一例を示す図である。
図22】ディスプレイデバイスの表示の他の一例を示す図である。
図23】ディスプレイデバイスの表示の他の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0010】
以降の説明において、ある時点におけるディスプレイデバイスの位置及び向きを基準とする座標系(基準座標系)と、マルチマイクデバイスの位置及び向きを基準とする座標系(マイク座標系)とを区別して取り扱う。基準座標系は、ディスプレイデバイスに応じた位置(例えばディスプレイデバイスのブリッジ部の重心位置)を原点とし、当該原点においてX軸およびY軸が直交する。基準座標系において、X+方向はディスプレイデバイスを装着したユーザの前方に対応し、X-方向は当該ユーザの後方に対応し、Y+方向は当該ユーザの左方向に対応し、Y-方向は当該ユーザの右方向に対応する。他方、マイク座標系は、マルチマイクデバイスの位置(例えばマルチマイクデバイスの重心位置)を原点とし、当該原点においてx軸およびy軸が直交する。マイク座標系において、x+方向をマルチマイクデバイスの前方としたとき、x-方向をマルチマイクデバイスの後方、y+方向をマルチマイクデバイスの左方向、y-方向をマルチマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。
【0011】
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
【0012】
図1に示すように、情報処理システム1は、ディスプレイデバイス10と、コントローラ30と、マルチマイクデバイス50とを備える。
ディスプレイデバイス10およびコントローラ30は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetooth(登録商標)チャネル)を介して接続される。
同様に、コントローラ30およびマルチマイクデバイス50は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetoothチャネル)を介して接続される。
【0013】
ディスプレイデバイス10は、1以上のディスプレイを備える。ディスプレイデバイス10は、コントローラ30から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス10は、人間の頭部に装着可能であるように構成される。ディスプレイデバイス10は、例えば、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスである。
【0014】
コントローラ30は、ディスプレイデバイス10およびマルチマイクデバイス50を制御する。コントローラ30は、情報処理装置の一例である。コントローラ30は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。
【0015】
マルチマイクデバイス50は、ディスプレイデバイス10から独立して設置可能である。つまり、マルチマイクデバイス50の位置および向きは、ディスプレイデバイス10の位置および向きから独立して決定することができる。
【0016】
(1-1)ディスプレイデバイスの構成
ディスプレイデバイスの構成について説明する。図2は、本実施形態のディスプレイデバイスの外観を示す図である。
【0017】
図2に示されるように、グラス型ディスプレイに相当するディスプレイデバイス10は、ディスプレイ11-1,11-2(「表示部」の一例)と、筐体20とを備える。なお、以下ではディスプレイデバイス10が2つのディスプレイ11-1,11-2を備える場合を中心に説明するが、ディスプレイデバイス10が備えるディスプレイ11の数は2つに限定されず、1つ又は3つ以上でもよい。例えば、ディスプレイデバイス10をユーザが装着した場合、ユーザの右目の前には透過型のディスプレイが配置され、ユーザの左目の前にはレンズが配置されてもよい。
【0018】
筐体20は、ユーザの頭部に装着可能であるように構成される。筐体20は、右テンプル21と、右ヨロイ22と、ブリッジ23と、左ヨロイ24と、左テンプル25と、リム26とを備える。
【0019】
ディスプレイ11-1,11-2は、透過性を有する部材(例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも1つ)である。この場合、ディスプレイ11-1,11-2は、ディスプレイデバイス10を装着したユーザの視野に入るように配置される。
【0020】
ディスプレイ11-1,11-2は、リム26により支持される。ディスプレイ11-1は、ユーザがディスプレイデバイス10を装着した際に当該ユーザの右眼前に位置するように配置される。ディスプレイ11-2は、ユーザがディスプレイデバイス10を装着した際に当該ユーザの左眼前に位置するように配置される。
【0021】
ディスプレイ11-1,11-2は、コントローラ30による制御に従い、画像を提示(例えば、表示)する。例えば、右テンプル21の裏側に配置される非図示の投影器からディスプレイ11-1へ画像が投影され、左テンプル25の裏側に配置される非図示の投影器からディスプレイ11-2へ画像が投影される。これにより、ディスプレイ11-1及びディスプレイ11-2は画像を提示する。ユーザは、画像を視認すると同時に、ディスプレイ11-1及びディスプレイ11-2を透過した景色(例えば、ユーザの前方に設置されたマルチマイクデバイス50)も視認することが可能である。
【0022】
なお、ディスプレイデバイス10がユーザに画像を提示する方法は上記の例に限定されない。例えば、ディスプレイデバイス10は、投影器からユーザの眼に画像を直接投影してもよい。
【0023】
ディスプレイデバイス10は、ディスプレイデバイス10の動き及び状態を検出するセンサ(図示せず)をさらに備えてもよい。例えば、ディスプレイデバイス10は、ディスプレイデバイス10の加速度、回転加速度、及び傾きを検出するセンサを含むIMU(Inertial Measurement Unit)を有する。ただし、センサの種別及び検出される状態の内容はこの例に限定されない。
【0024】
ディスプレイデバイス10は、ユーザによる操作を受け付ける操作部(図示せず)をさらに備えてもよい。操作部は、例えば、物理ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せであり、ディスプレイデバイス10に対するユーザ操作を検出する。ただし、操作部の種別及び検出される操作の内容はこの例に限定されない。例えば、ディスプレイデバイス10は、ユーザのジェスチャ入力又は音声入力による操作を受け付けてもよい。
【0025】
(1-2)コントローラの構成
コントローラの構成について説明する。図3は、本実施形態のコントローラの構成を示すブロック図である。
【0026】
図3に示すように、コントローラ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0027】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0028】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
【0029】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0030】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、コントローラ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Array)
【0031】
入出力インタフェース33は、コントローラ30に接続される入力デバイスから情報(例えば、ユーザの指示)を取得し、かつ、コントローラ30に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0032】
通信インタフェース34は、コントローラ30と外部装置(例えば、ディスプレイデバイス10、およびマルチマイクデバイス50)との間の通信を制御するように構成される。
【0033】
(1-3)マルチマイクデバイスの構成
マルチマイクデバイス50は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス50は、5つのマイクロホン51-1,・・・,51-5(以下、特に区別しない場合は単にマイクロホン51と表記する。)を備えることとする。マルチマイクデバイス50は、マイクロホン51-1,・・・、51-5を用いて、音源から発せられた音を受信することで音声信号を生成する。また、マルチマイクデバイス50は、マイク座標系における音の到来方向(つまり、音源の方向)を推定する。また、マルチマイクデバイス50は、後述するビームフォーミング処理を行う。
【0034】
マイクロホン51は、例えば、マルチマイクデバイス50の周辺の音を集音する。マイクロホン51により集音される音には、例えば以下の少なくとも1つの音が含まれる。
・人物による発話音
・マルチマイクデバイス50が使用される環境の音(以下「環境音」という)
【0035】
マルチマイクデバイス50には、例えば筐体の表面にマルチマイクデバイス50の基準方向(例えば、前方であるが、その他の所定の方向であってもよい)を示す目印50aが付されている。これにより、ユーザは、マルチマイクデバイス50の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス50の向きを認識するための手段はこれに限られない。目印50aは、マルチマイクデバイス50の筐体と一体化されていてもよい。
【0036】
マルチマイクデバイス50は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マルチマイクデバイス50は、当該マルチマイクデバイス50の動き及び状態を検出するためにIMU(Inertial Measurement Unit)を備えることができる。
【0037】
(2)実施形態の一態様
本実施形態の一態様について説明する。図4は、本実施形態のディスプレイデバイス10と、マルチマイクデバイス50と、音源との位置関係の一例の説明図である。図5は、音に関する情報がディスプレイデバイスの適切な位置に表示されない例を示す図である。図6は、本実施形態の一態様を示す図である。
【0038】
図4に示すように、ディスプレイデバイス10およびマルチマイクデバイス50の周囲に人物PR1および人物PR2が位置しており、人物PR2が「こんにちは」と発話したとする。人物PR2は、基準座標系ではディスプレイデバイス10の右前方(X+方向とY-方向との間)に位置しているが、マイク座標系ではマルチマイクデバイス50の左前方(X+方向とY+方向との間)に位置している。マルチマイクデバイス50は、人物PR2の発話した音声が、左前方から到来した(つまり、音源は左前方に存在する)と推定する。
【0039】
人物PR2の発話した音声に対応する情報(例えば、「こんにちは」のテキスト画像)をディスプレイデバイス10に表示する場合に、当該情報の表示位置をマルチマイクデバイス50によって推定された音源の方向の情報のみに基づいて決定すると、ディスプレイデバイス10を装着しているユーザに違和感を与えかねない。例えば、図5に示すように、ディスプレイデバイス10が、テキスト画像TB1をユーザの視野における左前方に提示したとする。この場合に、ユーザは、テキスト画像TB1の表示位置付近に存在する人物(例えば人物PR1)が「こんにちは」と発話したと誤解したり、テキスト画像TB1の表示位置付近に存在する人物が見当たらず発話者が誰であるか混乱したりするおそれがある。
【0040】
本実施形態のディスプレイデバイス10は、ユーザ入力に基づいて基準座標系におけるマルチマイクデバイス50の位置および向きを決定し、当該位置および向きと、マイク座標系における音源の方向(「第1方向」の一例)とに基づいて、基準座標系における音源の方向すなわちディスプレイデバイス10に対する音源の方向(「第2方向」の一例)を推定する。ディスプレイデバイス10は、音源から到来した音に関する情報(例えば、音声信号に対応するテキスト画像)を、ディスプレイデバイス10のディスプレイ11内の表示位置であって、基準座標系における当該音源の方向に応じた表示位置に表示させる。
【0041】
この結果、図6に示すように、ディスプレイデバイス10は、テキスト画像TB1を例えばユーザの視野における右前方に提示できる。故に、ユーザは、テキスト画像TB1の表示位置付近に存在する人物PR2が「こんにちは」と発話したことを容易に理解できる。つまり、音に関する情報を適切な位置に表示することができる。
【0042】
(3)情報処理
本実施形態の情報処理について説明する。
【0043】
(3-1)環境設定処理
本実施形態の環境設定処理について説明する。図7は、本実施形態の環境設定処理のフローチャートである。図8は、環境設定処理において表示される画面例を示す図である。図9は、環境設定処理において表示される画面例を示す図である。図10は、環境設定処理において表示される画面例を示す図である。図11は、環境設定処理において表示される画面例を示す図である。図12は、環境設定処理および音声処理において参照されるパラメータの説明図である。図13は、環境設定処理において表示される画面例を示す図である。図14は、環境設定処理において表示される画面例を示す図である。
【0044】
図7の環境設定処理は、以下の開始条件のいずれかの成立に応じて開始してもよい。
・コントローラ30、または他のデバイス(ディスプレイデバイス10またはマルチマイクデバイス50)が所定の状態(例えば、電源投入)になった。
・ユーザが図7の環境設定処理を呼び出すための操作を行った。
【0045】
図7に示すように、コントローラ30は、第1ユーザ指示の取得(S130)を実行する。
具体的には、コントローラ30は、マルチマイクデバイス50の位置および向きに関するユーザ入力(以下、「第1ユーザ指示」という)を受け付けるためのUI(User Interface)を、ディスプレイデバイス10を介してユーザに提示する。コントローラ30は、提示したUIを介して、第1ユーザ指示を取得する。
【0046】
第1ユーザ指示の取得(S130)の第1例では、コントローラ30は、ディスプレイデバイス10のディスプレイ11に、図8の画面を表示する。
図8の画面は、オブジェクトIC10(「第1オブジェクト」の一例)と、テキストボックスTB10とを含む。
【0047】
オブジェクトIC10は、位置情報を保持する。ディスプレイデバイス10のディスプレイ11に表示されるオブジェクトIC10の位置はユーザの操作に応じて変更可能(つまり、移動可能)である。例えば、ユーザは、リモートコントローラ、コントローラ30に接続された入力デバイス、またはディスプレイデバイス10に対するジェスチャ(例えば首振り)によって種々のオブジェクトに対する操作を行うことができる。ジェスチャは、例えばディスプレイデバイス10が備えるジャイロセンサの検出結果に基づいて判定される。また、コントローラ30は、ユーザの操作を補助するために、仮想レーザーポインター、仮想スライドバーなどを表示してもよい。コントローラ30は、ユーザ操作に応じて、ディスプレイ11におけるオブジェクトIC10の表示位置を変更するとともに、当該オブジェクトIC10が保持する位置情報を更新する。
テキストボックスTB10は、ユーザに要求する操作を説明するテキストを表示する。
【0048】
ユーザは、図8の画面を見ながら、ディスプレイ11におけるオブジェクトIC10の表示位置が、ディスプレイ11を透過して視認されるマルチマイクデバイス50の像と重なる位置に移動するように、操作を行う。
【0049】
ユーザがオブジェクトIC10の移動完了を示す操作を行うと、コントローラ30は、ディスプレイデバイス10のディスプレイ11に、図9の画面を表示する。
図9の画面は、オブジェクトIC10と、オブジェクトIC11(「第2オブジェクト」の一例)と、テキストボックスTB11とを含む。
【0050】
オブジェクトIC11は、向き情報を保持する。ディスプレイデバイス10のディスプレイ11-1,11-2に表示されるオブジェクトIC11の向きはユーザの操作に応じて変更可能(つまり、回転可能)である。コントローラ30は、ユーザ操作に応じて、ディスプレイ11に表示されるオブジェクトIC11の向きを変更するとともに、当該オブジェクトIC11が保持する向き情報を更新する。
テキストボックスTB11は、ユーザに要求する操作を説明するテキストを表示する。
【0051】
ユーザは、図9の画面を見ながら、ディスプレイ11におけるオブジェクトIC11の向きが、ディスプレイ11を透過して視認されるマルチマイクデバイス50の基準方向に一致するように、操作を行う。ユーザがオブジェクトIC11の回転完了を示す操作を行うと、コントローラ30は、オブジェクトIC10が保持していた位置情報と、オブジェクトIC11が保持していた向き情報とを取得する。
【0052】
第1ユーザ指示の取得(S130)の第2例では、コントローラ30は、ディスプレイデバイス10のディスプレイ11に、図10の画面を表示する。
図10の画面は、オブジェクトIC12a(「第1オブジェクト」の一例)と、オブジェクトIC12b(「第2オブジェクト」の一例)と、テキストボックスTB12とを含む。
【0053】
オブジェクトIC12aは、位置情報を保持する。ディスプレイデバイス10のディスプレイ11に表示されるオブジェクトIC12aの位置はユーザの操作に応じて変更可能(一例として、複数の候補から選択可能)である。コントローラ30は、ユーザ操作に応じて、ディスプレイ11におけるオブジェクトIC12aの表示位置を変更するとともに、当該オブジェクトIC12aが保持する位置情報を更新する。
【0054】
オブジェクトIC12bは、向き情報を保持する。ディスプレイデバイス10のディスプレイ11に表示されるオブジェクトIC12bの向きはユーザの操作に応じて変更可能(一例として、複数の候補から選択可能)である。コントローラ30は、ユーザ操作に応じて、ディスプレイ11に表示されるオブジェクトIC12bの向きを変更するとともに、当該オブジェクトIC12bが保持する向き情報を更新する。
テキストボックスTB12は、ユーザに要求する操作を説明するテキストを表示する。
【0055】
ユーザは、図10の画面を見ながら操作を行い、マルチマイクデバイス50について希望する設置条件に合わせて、オブジェクトIC12aの位置およびオブジェクトIC12bの向きを決定する。
【0056】
ユーザがオブジェクトIC12aの位置およびオブジェクトIC12bの向きの決定完了を示す操作を行うと、コントローラ30は、ディスプレイデバイス10のディスプレイ11-1,11-2に、図11の画面を表示する。
図11の画面は、オブジェクトIC12aと、オブジェクトIC12bと、テキストボックスTB13とを含む。
テキストボックスTB13は、ユーザに要求する操作を説明するテキストを表示する。
【0057】
ユーザは、図11の画面を見ながら、ディスプレイ11を介して視認されるマルチマイクデバイス50の位置および向きが、ディスプレイ11に表示されたオブジェクトIC12aの位置およびオブジェクトIC12bの向きに一致するように、当該マルチマイクデバイス50を設置する。ユーザがマルチマイクデバイス50の設置完了を示す操作を行うと、コントローラ30は、オブジェクトIC12aが保持していた位置情報と、オブジェクトIC12bが保持していた向き情報とを取得する。
【0058】
第1ユーザ指示の取得(S130)の第1例および第2例は組み合わせ可能である。例えば、位置に関する第1ユーザ指示を第1例に従って取得し、向きに関する第1ユーザ指示を第2例に従って取得してもよい。或いは、位置に関する第1ユーザ指示を第2例に従って取得し、向きに関する第1ユーザ指示を第1例に従って取得してもよい。
【0059】
ステップS130の後、コントローラ30は、位置および向きの決定(S131)を実行する。
具体的には、コントローラ30は、ステップS130においてユーザ入力に応じて設定されたオブジェクトの位置情報及び向き情報に基づいて、基準座標系におけるマルチマイクデバイス50の位置および向きを決定する。
なお、コントローラ30が取得する第1ユーザ指示は、マルチマイクデバイス50の位置及び向きのうち一方に関するユーザ入力であってもよい。例えば、コントローラ30は、第1例又は第2例に従って取得したマルチマイクデバイス50の位置に関する第1ユーザ指示に応じて、基準座標系におけるマルチマイクデバイス50の位置を決定し、予め設定された情報に従って基準座標系におけるマルチマイクデバイス50の向きを決定してもよい。また例えば、コントローラ30は、第1例又は第2例に従って取得したマルチマイクデバイス50の向きに関する第1ユーザ指示に応じて、基準座標系におけるマルチマイクデバイス50の向きを決定し、予め設定された情報に従って基準座標系におけるマルチマイクデバイス50の位置を決定してもよい。コントローラ30は、基準座標系におけるマルチマイクデバイス50の位置又は向きが予め設定された情報に従って決定した場合、図11に示した例と同様に、当該位置又は向きに従ってマルチマイクデバイス50を設置するようにユーザに通知を行ってもよい。
【0060】
ディスプレイデバイス10、マルチマイクデバイス50、および音源の間の位置関係は、図12に示すように一般化することができる。図12において、ディスプレイデバイス10は「G」、マルチマイクデバイスは「M」、音源は「S」のシンボルで表現される。故に、基準座標系におけるマルチマイクデバイス50(M)の位置は、ディスプレイデバイス10(G)からマルチマイクデバイス50(M)までの距離dmと、ディスプレイデバイス10(G)に対するマルチマイクデバイス50(M)の方向ψmとによって表現可能である。また、基準座標系におけるマルチマイクデバイス50の向きは、基準座標系のX軸とマイク座標系のx軸とがなす角度φmによって表現可能である。
【0061】
ステップS131の後、コントローラ30は、第2ユーザ指示の取得(S132)を実行する。
具体的には、コントローラ30は、マルチマイクデバイス50から音源までの距離(以下、「第1距離」という)と、基準座標系の原点から音源までの距離すなわちディスプレイデバイス10から音源までの距離(以下、「第2距離」という)との少なくとも1つに関するユーザ入力(以下、「第2ユーザ指示」という)を受け付けるためのUIを、ディスプレイデバイス10を介してユーザに提示する。コントローラ30は、提示したUIを介して、第2ユーザ指示を取得する。
ここで、第1距離は、図12の距離rmにより表現可能である。第2距離は、図12の距離rgにより表現可能である。
【0062】
第2ユーザ指示の取得(S132)の第1例では、コントローラ30は、ディスプレイデバイス10のディスプレイ11-1,11-2に、図13の画面を表示する。
図13の画面は、オブジェクトOBJ14を含む。
【0063】
オブジェクトOBJ14は、第1距離または第2距離の少なくとも1つに対する複数の候補を提示し、かつ当該候補の1つを選択するユーザ入力を受け付ける。オブジェクトOBJ14は、例えばラジオボタンオブジェクトである。
【0064】
ユーザは、図13の画面を見ながら操作を行い、オブジェクトOBJ14が示す複数の候補の1つを選択する。
ユーザが複数の候補の1つの選択完了を示す操作を行うと、コントローラ30はオブジェクトOBJ14の選択状態を示す情報(値)を取得する。オブジェクトOBJ14の選択状態を示す情報は、選択に応じた特定の距離を示す。例えば図13の例において、「近い」が選択されたことを示す情報は1メートルという距離を示し、「中程度」が選択されたことを示す情報は3メートルという距離を示し、「遠い」が選択されたことを示す情報は5メートルという距離を示す。なお、コントローラ30は、ユーザが第1距離及び第2距離の少なくとも何れかを数値で直接指定できるようなUI表示を行ってもよい。
【0065】
第2ユーザ指示の取得(S132)の第2例では、コントローラ30は、ディスプレイデバイス10のディスプレイ11-1,11-2に、図14の画面を表示する。
図14の画面は、オブジェクトSL15と、テキストボックスTB15とを含む。
【0066】
オブジェクトSL15は、ディスプレイデバイス10、マルチマイクデバイス50および音源の周囲の空間(例えば、会議室)のレイアウトを表示する。オブジェクトSL15は、オブジェクトIC15a、IC15bを含む。レイアウト情報は、例えばコントローラ30が外部のサーバから通信を介して取得する。
【0067】
オブジェクトIC15aは、オブジェクトSL15によって表示されるレイアウトにおいて音源(例えば人間)が存在する可能性が高い場所(例えば座席)を示す。
【0068】
オブジェクトIC15bは、オブジェクトSL15によって表示されるレイアウトにおいてマルチマイクデバイス50が配置される既定位置(例えばテーブルの中心)を示す。
テキストボックスTB15は、ユーザに要求する操作を説明するテキストを表示する。
【0069】
ユーザが複数のオブジェクトIC15aのいずれかを選択することで音源の空間内位置を指定する操作を行うと、コントローラ30は選択されたオブジェクトIC15aに応じて音源の空間内位置を決定する。コントローラ30は、決定された音源の空間内位置と、マルチマイクデバイス50の既定位置とを参照することで、第1距離を決定できる。
【0070】
なお、第2ユーザ指示の取得(S132)の第2例は、種々の変形が可能である。
例えば、上記の第2例では、マルチマイクデバイス50が空間内の既定位置に配置されることを想定しているが、マルチマイクデバイス50を任意の位置に配置できるようにしてもよい。この場合に、ユーザは、マルチマイクデバイス50の空間内位置、マルチマイクデバイス50の向き、またはディスプレイデバイス10(つまり、自己)の空間内位置の少なくとも1つを、オブジェクトSL15上で指定してもよい。あるいは、ユーザ操作により、オブジェクトIC15bの位置を移動させてもよい。
また例えば、ユーザが空間内におけるディスプレイデバイス10の位置(つまり、自己の位置)をオブジェクトSL15上で指定し、コントローラ30がその指定に応じてディスプレイデバイス10の空間内位置を決定してもよい。この場合、コントローラ30は、決定されたディスプレイデバイス10の空間内位置と、音源の空間内位置とを参照することで、第2距離を決定できる。
以上のように、コントローラ30は、ユーザの指定に応じてマルチマイクデバイス50またはディスプレイデバイス10の少なくとも1つの空間内位置を決定し、指定された音源の空間内位置をさらに参照することで、第1距離または第2距離の少なくとも1つを決定可能である。
或いは、コントローラ30は、ユーザに音源の空間内位置を指定させることなく、マルチマイクデバイス50による音源方向推定の結果を用いて、音源の空間内位置を決定してもよい。例えば、コントローラ30は、複数のオブジェクトIC15aのいずれかに対応する空間内位置に音源が存在するとの仮定の下で、マルチマイクデバイス50に対する音の到来方向に基づいて、実際に音源が存在する空間内位置を推定してもよい。そしてコントローラ30は、音源の空間内位置の推定結果に基づいて、第1距離または第2距離の少なくとも1つを決定してもよい。
また、コントローラ30は、図14の画面を、ディスプレイ11以外の表示部、例えばコントローラ30に接続されたディスプレイに表示してもよい。
【0071】
第2ユーザ指示の取得(S132)の第3例では、ユーザは、音源に顔(つまり、ディスプレイデバイス10の正面方向)を向けたことを示す操作を行う。コントローラ30は、かかる操作に応じて、基準座標系においてユーザの正面に対応する方向を取得する。コントローラ30は、取得された情報と、マルチマイクデバイス50によって推定された音源の方向(つまり、θm)と、ステップS131において決定した基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、第1距離および第2距離を決定可能である。本例は、ユーザの意識的な操作の代わりに、顔の向きの変化などのユーザの無意識な動作をトリガとすることもできる。
【0072】
ステップS132の後、コントローラ30は、距離の決定(S133)を実行する。
具体的には、コントローラ30は、ステップS132においてユーザ入力に基づいて取得した情報に応じて、第1距離または第2距離の少なくとも1つを決定する。なお、コントローラ30は、ユーザ入力を参照せずに、予め設定された情報に従って、第1距離又は第2距離の少なくとも1つ(例えばユーザ操作による指定が行われなかった場合の第1距離)を決定してもよい。空間内に複数の音源が存在する場合、第2ユーザ指示の取得(S132)および距離の決定(S133)は、音源毎に個別に行われてもよいし、全音源に対して共通で行われてもよい。
【0073】
ステップS133の後、図7の環境設定処理は終了する。ただし、コントローラ30は、必要に応じて図7の環境設定処理を再実行してもよい。例えば、マルチマイクデバイス50が備えるIMUの検出結果に基づいて算出された当該マルチマイクデバイス50の位置または向きの変化量(例えばΔdm、Δψm、Δφm、又はΔrm)が閾値以上である場合に、コントローラ30は環境設定処理を自動的に再実行してもよいし、再実行をユーザに促す通知を行ってもよい。これにより、例えばユーザが意図せず触れてマルチマイクデバイス50がずれてしまった場合でも、環境設定処理により設定される情報を正しく更新できる。また、音源(話者)が新たに検出された場合に、コントローラ30は、環境設定処理のうち第2ユーザ指示の取得(S132)および距離の決定(S133)を自動的に再実行してもよいし、再実行をユーザに促す通知を行ってもよい。
【0074】
(3-2)音声処理
本実施形態の音声処理について説明する。図15は、本実施形態の音声処理のフローチャートである。図16は、マイクロホンによる集音を説明するための図である。図17は、基準座標系における音源の方向を説明するための図である。
【0075】
図15に示す音声処理は、ディスプレイデバイス10、コントローラ30、およびマルチマイクデバイス50の電源がONになり、かつ初期設定および図7の環境設定処理が完了した後に開始される。ただし、図15に示す処理の開始タイミングはこれに限定されない。
【0076】
マルチマイクデバイス50は、マイクロホン51を介して音声信号の取得(S250)を実行する。
【0077】
具体的には、マルチマイクデバイス50の備える複数のマイクロホン51-1,・・・、51-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン51-1~51-5は、図16に示される複数のパスを介して到来した発話音を集音する。マイクロホン51-1~51-5は、集音した発話音を音声信号へ変換する。
【0078】
マルチマイクデバイス50が備えるプロセッサは、マイクロホン51-1~51-5から、話者PR3,PR4,及びPR5の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン51-1~51-5から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報(例えば遅延や位相変化)が含まれている。
【0079】
ステップS250の後、マルチマイクデバイス50は、到来方向の推定(S251)を実行する。
マルチマイクデバイス50の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
【0080】
到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。
【0081】
マルチマイクデバイス50は、到来方向推定モデルに、マイクロホン51-1~51-5から受信した音声信号を入力することで、マイクロホン51-1~51-5により集音された発話音の到来方向(つまり、マルチマイクデバイス50に対する発話音の音源の方向)を推定する。このとき、マルチマイクデバイス50は、例えば、マイク座標系において、マイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マルチマイクデバイス50の前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する。図17に示される例では、マルチマイクデバイス50は、話者PR3から発せられた発話音の到来方向を、x軸から左方向に角度A2ずれた方向と推定する。マルチマイクデバイス50は、話者PR4から発せられた発話音の到来方向を、x軸から左方向に角度A3ずれた方向と推定する。マルチマイクデバイス50は、話者PR5から発せられた発話音の到来方向を、x軸から右方向に角度A1ずれた方向と推定する。
【0082】
ステップS251の後、マルチマイクデバイス50は、音声信号の抽出(S252)を実行する。
マルチマイクデバイス50が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
【0083】
マルチマイクデバイス50は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
【0084】
図17に示される例では、マルチマイクデバイス50は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
【0085】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0086】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0087】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0088】
マルチマイクデバイス50は、抽出した音声信号を、ステップS251において推定した当該音声信号に対応する音源の方向の情報とともに、コントローラ30へ送信する。
【0089】
ステップS252の後、コントローラ30は、音声認識処理(S230)を実行する。
記憶装置31には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置31の代わりに、コントローラ30がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
【0090】
コントローラ30は、音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。
【0091】
図17に示される例では、コントローラ30は、角度A1~A3について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。
【0092】
ステップS230の後、コントローラ30は、座標系の変換(S231)を実行する。
具体的には、コントローラ30は、ステップS251において推定された音源の方向(マイク座標系における音源の方向)と、環境設定処理(図7)において設定された各種の情報とに基づいて、基準座標系における音源の方向(つまり、ディスプレイデバイス10に対する音源の方向)を推定する。
【0093】
ここで、マイク座標系における音源の方向は、図12のθmにより表現可能である。また、基準座標系における音源の方向は、図12のθgにより表現可能である。要するに、コントローラ30は、マイク座標系における音源の方向θmを、基準座標系における音源の方向θgへと変換する。図12に関して、以下の数式(1)が成立する。
【数1】

数式(1)をθgについて解くと、以下の数式(2)を導出できる。
【数2】
コントローラ30は、数式(2)に、ステップS231において推定された音源の方向(θm)と、環境設定処理(図7)において設定された各種の情報とを代入することで、基準座標系における音源の方向を算出する。
【0094】
ステップS231の後、コントローラ30は、テキスト画像の生成(S232)を実行する。
具体的には、コントローラ30は、ステップS230における音声認識処理の結果に基づくテキストを表すテキスト画像(「音に関する情報」の一例)を生成する。
【0095】
ステップS232の後、コントローラ30は、表示態様の決定(S233)を実行する。
具体的には、コントローラ30は、ステップS231において取得した基準座標系における音源の方向に基づいて、ディスプレイデバイス10のディスプレイ11-1,11-2にステップS232において生成したテキスト画像を含む表示画像をどのような態様で表示するかを決定する。
【0096】
ステップS233の後、コントローラ30は、画像表示(S234)を実行する。
具体的には、コントローラ30は、ステップS233において決定された表示態様に応じた表示画像を、ディスプレイデバイス10に表示させる。
【0097】
(3-2-1)ディスプレイデバイスの第1表示例
ディスプレイデバイスの第1表示例について説明する。図18は、ディスプレイデバイスにおける表示例を表す図である。図19は、装着者の視界における見え方を説明するための図である。
【0098】
以下では、ステップS233における表示態様の決定に応じた表示画像の例を詳細に説明する。コントローラ30は、少なくとも基準座標系における音源の方向(θg)に基づいて、ディスプレイデバイス10の表示部におけるテキスト画像の表示位置を決定する。
【0099】
ここでは、テキスト画像の左右方向の表示位置について説明する。ここで、図18において破線で描かれている話者P2~P4の像は、ディスプレイ11を透過してユーザP1の目に映る実像を表したものであり、ディスプレイ11に表示される画像には含まれない。また、図18において描かれているテキスト画像T1~T3は、ディスプレイ11に表示されてユーザP1の目に映る画像を表したものであり、実空間には存在しない。なお、ディスプレイ11-1を介して見る視界とディスプレイ11-2を介して見る視界とは、視差に応じて互いに像の位置が異なる。
【0100】
図18及び図19に示すように、コントローラ30は、テキスト画像に係る音声を発した音源のの方向(θg)に対応する位置を、テキスト画像の表示位置として決定する。より詳細には、コントローラ30は、ディスプレイデバイス10に対して角度A1の方向から到来する音声(話者P2の発話音)に対応するテキスト画像T1の表示位置を、ユーザP1の視点から見て角度A1に対応する方向に見える位置に決定する。
コントローラ30は、ディスプレイデバイス10に対して角度A2の方向から到来する音声(話者P3の発話音)に対応するテキスト画像T2の表示位置を、ユーザP1の視点から見て角度A2に対応する方向に見える位置に決定する。
コントローラ30は、ディスプレイデバイス10に対して角度A3の方向から到来する音声(話者P4の発話音)に対応するテキスト画像T3の表示位置を、ユーザP1の視点から見て角度A3に対応する方向に見える位置に決定する。
なお、ここで角度A1~A3は方位角を表す。
【0101】
このように、ディスプレイ11において基準座標系における各音源の方向に応じた表示位置にテキスト画像T1~T3が表示される。これにより、ディスプレイデバイス10のユーザP1に対して、話者P2の発言内容を表すテキスト画像T1が、ディスプレイ11を透過して視認される話者P2の像と共に提示されることになる。また、ユーザP1に対して、話者P3の発言内容を表すテキスト画像T2が、ディスプレイ11を透過して視認される話者P3の像と共に提示されることになる。また、ユーザP1に対して、話者P4の発言内容を表すテキスト画像T3が、ディスプレイ11を透過して視認される話者P4の像と共に提示されることになる。すなわち、ディスプレイ11に表示されるテキスト画像の左右方向の表示位置は、基準座標系における音源の方向(θg)の推定結果に応じて決まる。ディスプレイデバイス10の向き(すなわちユーザP1の顔の向き)が変わった場合、同様に発言者の像と発言内容のテキスト画像とがユーザP1から見て同じ方向に見えるように、ディスプレイ11におけるテキスト画像の表示位置が変更される。
【0102】
(3-2-2)ディスプレイデバイスの第2表示例
ディスプレイデバイスの第2表示例について説明する。図20は、ディスプレイデバイスの表示例を表す図である。
【0103】
以下では、ステップS233における表示態様の決定に応じた表示画像の例を詳細に説明する。コントローラ30は、ディスプレイデバイス10の表示部であるディスプレイ11における所定のテキスト表示領域に、音声に対応するテキスト画像を表示させる。併せて、コントローラ30は、当該テキスト画像に対応する発話音の音源の方向(θg)に応じた表示位置に、当該テキスト画像に関連付けられたシンボル画像(「音に関する情報」の一例)を表示させる。
【0104】
画面901は、ディスプレイデバイス10を装着するユーザがディスプレイ11を介して見ている視界を表している。ここで、話者P3及び話者P4の像は、ディスプレイ11を透過してユーザの目に映っている実像であり、ウィンドウ902、シンボル905、シンボル906、及びマーク907は、ディスプレイ11に表示された画像である。なお、ディスプレイ11-1を介して見る視界とディスプレイ11-2を介して見る視界とは、実際には互いに像の位置が少し異なるが、ここでは説明を単純化するために、各視界が共通の画面901で表されるものとして説明する。
【0105】
ウィンドウ902は、画面901内の所定の位置に表示される。ウィンドウ902には、S232で生成された音声認識結果に対応するテキスト画像903が表示される。テキスト画像903は、複数の話者の発言を識別可能な態様で表示される。例えば、話者P3の発言に続いて話者P4の発言が発生した場合、それぞれの発言に対応するテキストは別の行に分かれて表示される。ウィンドウ902内に表示されるテキストの行が増えると、テキスト画像903がスクロール表示され、古い発言のテキストは非表示になって新しい発言のテキストが表示される。
【0106】
また、ウィンドウ902には、テキスト画像903に含まれる各テキストが誰の発言を表すのかを識別可能にするためのシンボル904が表示される。音源とシンボル種別とは、例えば図示しないテーブルにより対応付けられる。コントローラ30は、記憶装置31に記憶されたテーブルを参照して、ウィンドウ902に表示させるシンボルの種別を決定する。図20の例では、話者P3の発言に対応するテキストの隣にはハート型のシンボルが表示されており、話者P4の発言に対応するテキストの隣には顔型のシンボルが表示されている。
【0107】
そして、画面901において、基準座標系における話者P3の方向に応じた位置(図20の例では当該方向に存在する話者P3の像と重なる位置)にハート型のシンボル905が表示される。また、基準座標系における話者P4の方向に応じた位置(図20の例では当該方向に存在する話者P4の像と重なる位置)に顔型のシンボル906が表示されている。シンボル905及びシンボル906の種別は、ウィンドウ902においてテキスト画像903と共に表示されたシンボル904の種別と対応している。すなわち、ウィンドウ902において話者P3の発言を表すテキストと共に表示されるシンボル904は、画面901において話者P3に対応する位置に表示されるシンボル905と同種のシンボルである。このような表示により、ユーザは、ウィンドウ902内のテキスト画像903に含まれるテキストがそれぞれ誰の発言を表すのかを容易に識別できる。なお、コントローラ30は、シンボルの種別をS230における音声認識の結果に基づいて決定してもよい。例えば、コントローラ30は、S230において音声認識により話者の感情を推定し、推定された感情に基づいて当該話者に対応するシンボルの表情や色を決定してもよい。これにより、話者の感情に関する情報をディスプレイデバイス10を介してユーザに提示することができる。
【0108】
さらに、画面901において、シンボル906の周辺には、シンボル906に対応する話者P4が発言中であることを示すマーク907が表示されている。すなわち、マーク907は、基準座標系における音源の方向に応じた位置に表示され、その方向に位置する音源から音が発せられていることを表す。
【0109】
なお、コントローラ30は、複数の話者の発言の識別を、音源の方向の推定結果に基づいて行う。すなわち、ある発言に対応する音源の方向と別の発言に対応する音源の方向との差が所定の角度以上である場合に、コントローラ30は、それらの発言が別々の話者の発言(つまり別々の音源から発せられた音声)であると判断する。そしてコントローラ30は、音源の方向が異なる複数の発言に対応するテキストを識別可能なようにテキスト画像903を表示させ、各テキストに関連付けられたシンボル905及びシンボル906を基準座標系における各音源の方向に応じた位置に表示させる。かかる話者の識別は、基準座標系における音源の方向に基づいて行うこともできるし、マイク座標系における音源の方向に基づいて行うこともできる。
【0110】
なお、図20の例では、話者P3の発言を表すテキスト画像903と、話者P3の方向を示すシンボル905とは、シンボル905と同種のシンボル904がテキスト画像903の近傍に表示されることにより関連付けられるものとした。ただし、特定の話者の発言を表すテキスト画像と当該話者の方向を示すシンボル画像とを関連付ける方法はこの例に限定されない。例えば、テキスト画像903において、互いに音源の方向が異なる発言に対応するテキストが、異なる色で表示されてもよい。そして、特定の方向にある音源から発せられた音声に対応するテキスト画像とその特定の方向を示すシンボル画像とが、同種の色で表示されることにより関連付けられてもよい。具体的には、話者P3の発言に対応するテキストが第1の色で表示され、第1の色のシンボルが話者P3の方向を示す位置に表示されてもよい。そして、話者P4の発言に対応するテキストが第2の色で表示され、第2の色のシンボルが話者P4の方向を示す位置に表示されてもよい。第1の色のシンボルと第2の色のシンボルの形状は、異なっていてもよいし、同一形状であってもよい。
【0111】
図21は、ディスプレイデバイスの表示の他の一例を示す図である。画面901には、図20の例と同様に話者P3と話者P4の像が含まれており、ウィンドウ902とテキスト画像903が表示されている。一方、図20におけるシンボル904、シンボル905、及びシンボル906の代わりに、方向マーク1004、シンボル1005、及びシンボル1006が表示されている。
【0112】
シンボル1005及びシンボル1006は、音源の方向、すなわち話者の位置を示している。シンボル1005とシンボル1006とは互いに異なる話者に対応付けられているが、同種のシンボルであってもよい。方向マーク1004は、テキスト画像903に含まれる各テキストに対応する音声を発した音源の方向を示している。図21の例では、ユーザの正面方向(すなわち画面901の法線方向)に対して音源が右に位置するか左に位置するかが、矢印により表されている。具体的には、ユーザの正面より右に位置する話者P3の発言に対応するテキストの隣には右方向の矢印が表示され、ユーザの正面より左に位置する話者P4の発言に対応するテキストの隣には左方向の矢印が表示される。このように、特定の方向にある音源からの音声に対応するテキストの近傍に、画面901内のシンボル1005及びシンボル1006のうちその特定の方向に対応するシンボルを特定可能な記号又は図形が表示されることで、テキスト画像とシンボル画像とが関連付けられる。このような表示により、ユーザは、ウィンドウ902内のテキスト画像903に含まれるテキストが、それぞれどの方向に位置する音源から発せられた音声を表すのかを容易に識別できる。
【0113】
なお、方向マーク1004は右方向と左方向を示す2種類に限定されず、より多様な方向を示すマークであってもよい。これにより、話者が3人以上いる場合であっても、どのテキストがどの話者の発言を表すのかを識別可能となる。また、方向マーク1004が示す方向は、ユーザの正面方向を基準とした音源の位置により決まるものに限定されず、例えば、複数の音源の相対位置に基づいて決まってもよい。例えば、ユーザの正面より右側に2人の話者が位置する場合に、相対的に右に位置する話者の発言に対応するテキストの隣には右方向の矢印が表示され、相対的に左に位置する話者の発言に対応するテキストの隣には左方向の矢印が表示されてもよい。
【0114】
図22は、ディスプレイデバイスの表示の他の一例を示す図である。図23は、ディスプレイデバイスの表示の他の一例を示す図である。図22の例は、話者P3及び話者P4が、ディスプレイデバイス10を装着するユーザの視界から右に外れた位置に存在する場合における画面901を表している。図23の例は、話者P3がユーザの視界から右に外れた位置に存在し、話者P4がユーザの視界内に存在する場合における画面901を表している。すなわち、図22の画面901を見ているユーザが少し右を向くと、図23の画面901が見えることとなる。
【0115】
図22において、画面901には、音声に対応するテキストを表すウィンドウ902に加えて、ディスプレイデバイス10のFOV(Field of View)に対する音源の方向を示す方向指示枠1101と、FOVと音源の方向との関係を示す俯瞰マップ1102とが表示される。FOVは、ディスプレイデバイス10に予め設定された角度範囲であり、基準座標系の基準方向(装着者の正面方向)を中心に、仰角方向及び方位角方向にそれぞれ所定の幅を有する。ディスプレイデバイス10のFOVは、ディスプレイデバイス10を介してユーザが見ている視界に含まれる。
【0116】
方向指示枠1101には、FOVに対する音源の方向を示す矢印と、矢印が示す方向に存在する音源を識別するシンボルとが表示される。図22の例ではFOVより右方向に音源が存在するため、画面901における右端部分に方向指示枠1101が表示されているが、FOVより左方向に音源が存在する場合には、画面901における左端部分に方向指示枠1101が表示される。すなわち、方向指示枠1101及びその内部のシンボルは、画面901の端部のうち基準座標系における音源の方向(θg)に対応する端部に表示される。このように、テキスト画像903に関連付けられたシンボル画像が音源の方向に応じた位置に表示される。これにより、ユーザは、ウィンドウ902内に表示されたテキストに対応する音声が、ディスプレイデバイス10を介して見えている視野に対してどの方向に存在する音源から発せられているかを容易に認識できる。
【0117】
図23に示すように、話者P4がFOV外からFOV内に入ると、話者P4に対応するシンボルは方向指示枠1101に表示されなくなる。
【0118】
なお、方向指示枠1101の表示位置は画面901の端に限定されない。また、方向指示枠1101内に表示される内容は、シンボルと矢印に限定されず、これらの少なくともいずれかが方向指示枠1101に含まれていなくてもよいし、他の図形または記号が方向指示枠1101に含まれていてもよい。方向指示枠1101に矢印などの方向を示す記号又は図形が含まれる場合、方向指示枠1101は音源の方向に依存しない位置に表示されてもよい。
【0119】
俯瞰マップ1102には、ディスプレイデバイス10のFOVを示すエリア1103と、音源の方向を表すシンボルとが表示される。エリア1103は俯瞰マップ1102上の固定位置に表示され、テキスト画像903に関連付けられたシンボルは俯瞰マップ1102内において音源の方向を表す位置(すなわち基準座標系における音源の方向(θg)に応じた位置)に表示される。このような俯瞰マップ1102が表示されることにより、ユーザは、ウィンドウ902内に表示されたテキストに対応する音声が、ディスプレイデバイス10を介して見えている視野に対してどの方向に存在する音源から発せられているかを容易に認識できる。なお、俯瞰マップ1102に表示されるエリア1103は、ディスプレイデバイス10のFOVと厳密に一致していなくてもよい。例えば、エリア1103は、ディスプレイデバイス10を装着したユーザの視野に含まれる範囲を表していてもよい。また例えば、俯瞰マップ1102において、FOVの代わりにディスプレイデバイス10の基準方向(装着者の正面方向)が示されていてもよい。
【0120】
図23に示すように、話者P4がFOV内に入ると、俯瞰マップ1102において話者P4に対応するシンボルはエリア1103と重なる位置に表示される。
【0121】
(4)小括
以上説明したように、本実施形態のコントローラ30は、第1ユーザ指示に応じて基準座標系におけるマルチマイクデバイス50の位置および向きを決定する。コントローラ30は、マルチマイクデバイス50に対する音源の方向の推定結果と、基準座標系におけるマルチマイクデバイス50の位置および向きとに基づいて、ディスプレイデバイス10に対する当該音源の方向を推定する。コントローラ30は、音源から発せられた音に関する情報を、ディスプレイ11内の、ディスプレイデバイス10に対する当該音源の方向に応じた表示位置に表示させる。これにより、マルチマイクデバイス50がディスプレイデバイス10から独立している構成においても、音に関する情報を適切に表示することができる。具体的には、音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれを抑制することができる。
【0122】
コントローラ30は、第1ユーザ指示を取得する前に、ディスプレイ11に、位置情報を保持する第1オブジェクトおよび向き情報を保持する第2オブジェクトを表示してもよい。コントローラ30は、第1ユーザ指示に応じて第1オブジェクトおよび第2オブジェクトに設定された情報に基づいて、基準座標系におけるマルチマイクデバイス50の位置および向きを決定してもよい。これにより、ユーザは、自らの指定しようとする位置および向きを視覚的に把握することができる。また、第1オブジェクトの位置および第2オブジェクトの向きはユーザ入力に応じて変更可能とし、コントローラ30は、第1オブジェクトの位置および第2オブジェクトの向きを変更するとともに、第1オブジェクトおよび第2オブジェクトが保持する情報を更新してもよい。これにより、ユーザは、自らの指定しようとする位置および向きを容易に変更することができる。
【0123】
コントローラ30は、第2ユーザ指示に応じて、第1距離または第2距離の少なくとも1つを決定し、決定した第1距離または第2距離の少なくとも1つにさらに基づいて、ディスプレイデバイス10に対する音源の方向を推定してもよい。これにより、ディスプレイデバイス10に対する音源の方向の推定の精度を高めることができる。ここで、コントローラ30は、第1距離または第2距離の少なくとも1つに対する複数の候補を提示し、当該複数の候補の1つを選択する第2ユーザ指示に応じて、選択された候補に対応する値を第1距離または第2距離の少なくとも1つとして決定してもよい。これにより、簡単な操作で大凡の距離を設定できるので、ユーザの操作負担を抑制しながら音源の方向の推定精度を向上させることができる。或いは、コントローラ30は、第2ユーザ指示を受け付ける前に、音源、マルチマイクデバイス50、およびユーザを収容する空間のレイアウトをディスプレイ11に表示させ、当該レイアウト上で音源の位置、マルチマイクデバイス50の位置、マルチマイクデバイス50の向き、またはユーザ位置の少なくとも1つを指定する第2ユーザ指示を取得してもよい。これにより、ユーザは音源、マルチマイクデバイス50、またはユーザの少なくとも1つの位置を直感的に指定可能であるので、第1距離または第2距離として妥当な値を導出することができる。さらに、マルチマイクデバイス50は空間内の既定位置に配置されるように定められてもよく、この場合にコントローラ30は音源の位置を指定する第2ユーザ指示と当該既定位置とに基づいて第1距離を決定してもよい。これにより、マルチマイクデバイス50が例えば会議室における固定マイクに相当する場合に、ユーザの操作負担を抑制しながら音源の方向の推定精度を向上させることができる。
【0124】
コントローラ30は、基準座標系においてユーザの正面に対応する方向と、マルチマイクデバイス50に対する音源の方向の推定結果と、基準座標系におけるマルチマイクデバイス50の位置および向きとに基づいて、第1距離と第2距離との少なくとも1つを決定してもよい。これにより、ユーザは音源に顔を向ける動作により第1距離または第2距離が決定可能となるので、ユーザの操作負担を抑制しながら音源の方向の推定精度を向上させることができる。
【0125】
(5)その他の変形例
記憶装置31は、ネットワークNWを介して、コントローラ30と接続されてもよい。
【0126】
上記の情報処理の各ステップは、ディスプレイデバイス10、コントローラ30及びマルチマイクデバイス50の何れでも実行可能である。例えば、コントローラ30は、マルチマイクデバイス50によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定(S251)、および音声信号の抽出(S252)を行ってもよい。
【0127】
上記説明では、コントローラ30が第1ユーザ指示および第2ユーザ指示の両方を取得する例を示した。しかしながら、第2ユーザ指示の取得は省略可能である。
第1例として、コントローラ30は、第1距離または第2距離の少なくとも1つを定数(例えば、音声の届く一般的な距離として、第1距離を3mと仮定可能)として取り扱うことができる。これにより、ユーザの操作負担を軽減しつつ、音に関する情報を適切に表示することができる。
第2例として、コントローラ30は、音圧または共分散の少なくとも1つと距離との相関関係を利用し、観測された音圧または共分散から第1距離を推定してもよい。
【0128】
上記説明では、位置情報を保持するオブジェクト(例えば、オブジェクトIC10またはオブジェクトIC12a)を利用して、基準座標系におけるマルチマイクデバイス50の位置(つまり、dmおよびψm)を決定する例を示した。しかしながら、他の方法により、基準座標系におけるマルチマイクデバイス50の位置の決定を補助することもできる。例えば、ユーザが特定のキーワードを発話し、マルチマイクデバイス50は当該発話音の到来方向を推定する。マルチマイクデバイス50の向き(つまり、φm)が既知であるならば、発話音の到来方向の推定結果と、マルチマイクデバイス50の向きとに基づいて、基準座標系においてマルチマイクデバイス50が存在する方向(つまりψm)を決定することができる。
【0129】
上記説明では、ディスプレイデバイス10およびコントローラ30が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス10およびコントローラ30は一体化されてもよい。また、マルチマイクデバイス50とコントローラ30とが一体化されてもよい。また例えば、コントローラ30がクラウドサーバ内に存在してもよい。
【0130】
上述した実施形態では、ディスプレイデバイス10が光学シースルー型のグラス型ディスプレイデバイスである場合を中心に説明した。ただし、ディスプレイデバイス10の形式はこれに限定されない。例えば、ディスプレイデバイス10はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス10はカメラを備えてもよい。そしてディスプレイデバイス10は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ11に表示させてもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス10はユーザの頭部に装着可能なデバイスに限定されず、例えばスマートフォン、PC又はタブレット端末であってもよい。この場合、ディスプレイデバイス10は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよい。
【0131】
また、ディスプレイデバイス10はスマートフォン、PC又はタブレット端末でもよい。この場合、前述のディスプレイデバイスの第2表示例に関して、ディスプレイデバイス10はPC又はタブレット端末のディスプレイに、上述したテキスト画像903と俯瞰マップ1102とを表示させてもよい。この場合の俯瞰マップ1102にはエリア1103が表示されなくてもよく、俯瞰マップ1102の上方向はディスプレイデバイス10の基準方向に対応する。このような構成によれば、ユーザは、マルチマイクデバイス50が集音した会話の内容をテキスト画像903で確認できるとともに、各テキストの発言者がディスプレイデバイス10の基準方向に対してどの方向に存在するかを俯瞰マップ1102により容易に認識することができる。
【0132】
前述のディスプレイデバイスの第2表示例では、ディスプレイ11においてテキスト画像903が表示される所定のテキスト表示領域が、ウィンドウ902である場合を中心に説明した。ただし、所定のテキスト表示領域はこの例に限定されず、ディスプレイ11の向きによらずに決まる領域であればよい。所定のテキスト表示領域にはウィンドウ902が表示されなくてもよい。また、テキスト表示領域におけるテキスト画像の表示形式は図20乃至図23の例に限定されない。例えば、複数の異なる到来方向からの発言がテキスト表示領域内のそれぞれ異なる部分に表示されてもよい。
【0133】
上述した実施形態では、ディスプレイデバイス10の備える操作部からユーザの指示が入力される例を説明したが、これに限らない。コントローラ30(例えば、スマートフォン)のアプリケーションによって提示される駆動ボタンオブジェクトからユーザの指示が入力されてもよい。
【0134】
ディスプレイ11は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ11は、例えば、以下の実現方法により実現可能である。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
【0135】
マルチマイクデバイス50による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マルチマイクデバイス50は、例えば、以下の方法により音声信号を抽出してもよい。
・Frostビームフォーマ
・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
【0136】
上述の説明では、基準座標系に対するマルチマイクデバイス50の方向及び音源の方向と、ディスプレイデバイス10に対するマルチマイクデバイス50の方向及び音源の方向とが、一致する場合を中心に説明した。ただし、基準座標系はある時点(例えば図7の環境設定処理が開始された時点)におけるディスプレイデバイス10の位置及び向きを基準とする座標系であり、ディスプレイデバイス10の位置及び向きの少なくとも何れかが変化した場合(例えばディスプレイデバイス10を装着したユーザが動いた場合)、これらが一致しなくなる。この場合、コントローラ30は、ディスプレイデバイス10が有するIMUの出力情報に基づいて基準座標系におけるディスプレイデバイス10の位置及び向きを特定する。そしてコントローラ30は、その特定結果と、マルチマイクデバイス50に対する音源の方向に基づいて推定した基準座標系における音源の方向とに基づいて、ディスプレイデバイス10に対する音源の方向を特定すればよい。また、コントローラ30は、特定したディスプレイデバイス10に対する音源の方向に応じて、音源から発せられた音に関する情報を表示させてもよい。
なお、ディスプレイデバイス10の位置及び向きが変化した場合における情報の表示位置の補正方法はこれに限定されない。例えば、ディスプレイデバイス10の動きに追従するように基準座標系を更新するとともに、基準座標系に対するマルチマイクデバイス50の方向を更新することでも、ディスプレイデバイス10に対する音源の方向を特定することができる。
【0137】
上述の説明では、説明を簡単にするために、2次元座標系における座標変換が行われる例を示した。ただし、本実施形態は3次元座標系における座標変換にも適用可能である。具体的には、コントローラ30は、3次元(X/Y/Z軸)の基準座標系におけるマルチマイクデバイス50の位置及び向きを決定する。そして、コントローラ30は、マルチマイクデバイス50に対する音源の3次元方向の推定結果と、3次元の基準座標系におけるマルチマイクデバイス50の位置及び向きとに基づいて、ディスプレイデバイス10に対する当該音源の方向を推定してもよい。このような構成によれば、例えば、ディスプレイデバイス10に対する音源位置の高さに応じて、ディスプレイ11に表示される情報の上下方向における表示位置を制御することができる。その結果、表示された情報に対応する音源の識別がユーザにとってより容易になる。
【0138】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0139】
1 :情報処理システム
10 :ディスプレイデバイス
11 :ディスプレイ
20 :筐体
21 :右テンプル
22 :右ヨロイ
23 :ブリッジ
24 :左ヨロイ
25 :左テンプル
26 :リム
30 :コントローラ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :マルチマイクデバイス
51 :マイクロホン
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23