特開2023-108945 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ピクシーダストテクノロジーズ株式会社の特許一覧 ▶ 大日本住友製薬株式会社の特許一覧

特開2023-108945情報処理装置、情報処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023108945

(43)【公開日】2023-08-07

(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム

(51)【国際特許分類】

G09B 21/00 20060101AFI20230731BHJP

H04R 3/00 20060101ALI20230731BHJP

G06F 3/16 20060101ALI20230731BHJP

G06F 3/01 20060101ALI20230731BHJP

【ＦＩ】

G09B21/00 F

H04R3/00 320

G06F3/16 620

G06F3/01 510

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022010272

(22)【出願日】2022-01-26

(71)【出願人】

【識別番号】517182918

【氏名又は名称】ピクシーダストテクノロジーズ株式会社

(71)【出願人】

【識別番号】000002912

【氏名又は名称】住友ファーマ株式会社

(74)【代理人】

【識別番号】110002815

【氏名又は名称】ＩＰＴｅｃｈ弁理士法人

(72)【発明者】

【氏名】西村晴輝

(72)【発明者】

【氏名】田畑愛実

(72)【発明者】

【氏名】遠藤彰

(72)【発明者】

【氏名】羽原恭寛

(72)【発明者】

【氏名】五味蔵酒

(72)【発明者】

【氏名】平良優大

(72)【発明者】

【氏名】平岡尚

(72)【発明者】

【氏名】高澤和希

【テーマコード（参考）】

5D220

5E555

【Ｆターム（参考）】

5D220BA06

5D220BC05

5E555AA27

5E555AA42

5E555AA63

5E555BA02

5E555BA04

5E555BA05

5E555BA06

5E555BB04

5E555BC13

5E555BE08

5E555BE17

5E555CA42

5E555CA47

5E555CB64

5E555CC03

5E555DA08

5E555DA09

5E555DB21

5E555DB39

5E555DB41

5E555DB53

5E555DC13

5E555DD11

5E555EA11

5E555EA14

5E555EA23

5E555FA00

(57)【要約】

【課題】音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれを抑制する。
【解決手段】情報処理装置は、複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、ユーザ入力に応じて、基準座標系におけるマルチマイクデバイスの位置および向きを決定する手段と、マルチマイクデバイスに対する音源の方向である第１方向の推定結果と、基準座標系におけるマルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する音源の方向である第２方向を推定する手段と、音源から発せられた音に関する情報を、ディスプレイデバイスの表示部内の第２方向に応じた表示位置に表示させる手段とを具備する。
【選択図】図６

【特許請求の範囲】

【請求項1】

複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、
前記ユーザ入力に応じて、基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段と、
前記マルチマイクデバイスに対する音源の方向である第１方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する前記音源の方向である第２方向を推定する手段と、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部内の前記第２方向に応じた表示位置に表示させる手段と
を具備する、情報処理装置。

【請求項2】

前記ユーザ入力を取得する前に、前記ディスプレイデバイスの表示部に、位置情報を保持する第１オブジェクト、および向き情報を保持する第２オブジェクトを表示する手段をさらに具備し、
前記基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段は、前記ユーザ入力に応じて前記第１オブジェクトに設定された位置情報と前記第２オブジェクトに設定された向き情報とに基づいて、前記基準座標系における前記マルチマイクデバイスの位置および向きを決定する、
請求項１に記載の情報処理装置。

【請求項3】

前記ディスプレイデバイスの表示部に表示される前記第１オブジェクトの位置および前記第２オブジェクトの向きは、前記ユーザ入力に応じて変更可能であって、
前記第１オブジェクトの位置の変更とともに前記第１オブジェクトが保持する位置情報を更新する手段と、
前記第２オブジェクトの向きの変更とともに前記第２オブジェクトが保持する向き情報を更新する手段とをさらに具備する、
請求項２に記載の情報処理装置。

【請求項4】

前記第１オブジェクトの位置を変更するユーザ入力は、前記第１オブジェクトの位置に対する複数の候補のいずれかの選択を含み、
前記第２オブジェクトの向きを変更するユーザ入力は、前記第２オブジェクトの向きに対する複数の候補のいずれかの選択を含む、
請求項３に記載の情報処理装置。

【請求項5】

前記マルチマイクデバイスから前記音源までの距離である第１距離と、前記ディスプレイデバイスから前記音源までの距離である第２距離との少なくとも１つに関するユーザ指示を取得する手段と、
前記ユーザ指示に応じて、前記第１距離または前記第２距離の少なくとも１つを決定する手段とをさらに具備し、
前記第２方向を推定する手段は、前記第１距離または前記第２距離の少なくとも１つにさらに基づいて前記第２方向を推定する、
請求項１乃至請求項４のいずれかに記載の情報処理装置。

【請求項6】

前記ユーザ指示を受け付ける前に、前記第１距離または前記第２距離の少なくとも１つに対する複数の候補を提示する手段をさらに具備し、
前記ユーザ指示は、前記複数の候補の１つを選択する指示を含み、
前記第１距離または前記第２距離の少なくとも１つを決定する手段は、前記ユーザ指示によって選択された候補に対応する値を前記第１距離または前記第２距離の少なくとも１つとして決定する、
請求項５に記載の情報処理装置。

【請求項7】

前記ユーザ指示を受け付ける前に、前記音源、前記マルチマイクデバイス、およびユーザを収容する空間のレイアウトを前記ディスプレイデバイスの表示部に表示させる手段をさらに具備し、
前記ユーザ指示は、前記表示部に表示されたレイアウト上で、前記音源の位置、前記マルチマイクデバイスの位置、前記マルチマイクデバイスの向き、および前記ユーザの位置の少なくとも１つを指定する指示を含む、
請求項５に記載の情報処理装置。

【請求項8】

前記マルチマイクデバイスは、前記空間内の既定位置に配置され、
前記ユーザ指示は、前記表示部に表示されたレイアウト上で、前記音源の位置を指定する指示を含み、
前記第１距離または前記第２距離の少なくとも１つを決定する手段は、前記ユーザ指示によって指定された前記音源の位置と前記空間内の既定位置とに基づいて、前記第１距離を決定する、
請求項７に記載の情報処理装置。

【請求項9】

前記基準座標系において前記ユーザの正面に対応する方向と、前記第１方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、前記マルチマイクデバイスから前記音源までの距離である第１距離と、前記ディスプレイデバイスから前記音源までの距離である第２距離との少なくとも１つを決定する手段をさらに具備し、
前記第２方向を推定する手段は、前記第１距離または前記第２距離の少なくとも１つにさらに基づいて前記第２方向を推定する、
請求項５に記載の情報処理装置。

【請求項10】

ディスプレイデバイスの表示部に、位置情報を保持する第１オブジェクト、および向き情報を保持する第２オブジェクトを、当該第１オブジェクトの位置および当該第２オブジェクトの向きをユーザの操作に応じて変更可能に表示する手段と、
前記第１オブジェクトの位置の変更に応じて前記第１オブジェクトが保持する位置情報を更新する手段と、
前記第２オブジェクトの向きの変更に応じて前記第２オブジェクトが保持する向き情報を更新する手段と、
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きに関する第１ユーザ指示を取得する手段と、
前記第１ユーザ指示を受け付けた時に前記第１オブジェクトが保持していた位置情報と前記第２オブジェクトが保持していた向き情報とに基づいて、基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段と、
前記マルチマイクデバイスから音源までの距離である第１距離、または前記ディスプレイデバイスから前記音源までの距離である第２距離の少なくとも１つに対する複数の候補を提示する手段と、
前記複数の候補の１つを選択する第２ユーザ指示を取得する手段と、
前記第２ユーザ指示によって選択された候補に対応する値を前記第１距離または前記第２距離の少なくとも１つとして決定する手段と、
前記マルチマイクデバイスに対する前記音源の方向である第１方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きと、前記第１距離または前記第２距離の少なくとも１つとに基づいて、前記ディスプレイデバイスに対する前記音源の方向である第２方向を推定する手段と、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部のうち前記第２方向に応じた表示位置に表示させる手段と
を具備する、情報処理装置。

【請求項11】

表示部を備えるディスプレイデバイスと、
前記ディスプレイデバイスを制御するコントローラと
を具備する情報処理システムであって、
前記コントローラは、
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、
前記ユーザ入力に応じて、基準座標系における前記マルチマイクデバイスの位置および向きを決定する手段と、
前記マルチマイクデバイスに対する音源の方向である第１方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、前記ディスプレイデバイスに対する前記音源の方向である第２方向を推定する手段と、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部内の前記第２方向に応じた表示位置に表示させる手段と
を備える、
情報処理システム。

【請求項12】

コンピュータが、
複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得するステップと、
前記ユーザ入力に応じて、基準座標系における前記マルチマイクデバイスの位置および向きを決定するステップと、
前記マルチマイクデバイスに対する音源の方向である第１方向の推定結果と、前記基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する前記音源の方向である第２方向を推定するステップと、
前記音源から発せられた音に関する情報を、前記ディスプレイデバイスの表示部内の前記第２方向に応じた表示位置に表示させるステップと
を具備する、情報処理方法。

【請求項13】

コンピュータに、請求項１～請求項１０の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

【背景技術】

【0002】

難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。

【0003】

特許文献１には、マイクにより集音された音に基づき、音の発生方向を特定し、特定した音の発生方向に対応するディスプレイ上の位置に、音に対応する情報を表示するウェアラブルデバイスが開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】国際公開第２０１６／０７５７８２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１に記載のウェアラブルデバイスには、表示装置とマイクが内蔵されている。他方、例えばウェアラブルデバイスの軽量化などの目的で、装着可能なディスプレイデバイスとは独立したマイクデバイスを用いる構成も考えられる。このような構成においては、マイクデバイスに対する音源の方向と、ディスプレイデバイスに対する音源の方向とは必ずしも一致しない。かかる場合に、音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれが大きくなるおそれがある。

【0006】

本開示の目的は、音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれを抑制することである。

【課題を解決するための手段】

【0007】

本開示の一態様の情報処理装置は、複数のマイクロホンを備えるマルチマイクデバイスの位置および向きの少なくとも何れかに関するユーザ入力を取得する手段と、ユーザ入力に応じて、基準座標系におけるマルチマイクデバイスの位置および向きを決定する手段と、マルチマイクデバイスに対する音源の方向である第１方向の推定結果と、基準座標系におけるマルチマイクデバイスの位置および向きとに基づいて、ディスプレイデバイスに対する音源の方向である第２方向を推定する手段と、音源から発せられた音に関する情報を、ディスプレイデバイスの表示部内の第２方向に応じた表示位置に表示させる手段とを具備する。

【図面の簡単な説明】

【0008】

【図1】本実施形態の情報処理システムの構成を示すブロック図である。

【図2】本実施形態のディスプレイデバイスの外観を示す図である。

【図3】本実施形態のコントローラの構成を示すブロック図である。

【図4】本実施形態のディスプレイデバイスと、マルチマイクデバイスと、音源との位置関係の一例の説明図である。

【図5】音に関する情報がディスプレイデバイスの適切な位置に表示されない例を示す図である。

【図6】本実施形態の一態様を示す図である。

【図7】本実施形態の環境設定処理のフローチャートである。

【図8】環境設定処理において表示される画面例を示す図である。

【図9】環境設定処理において表示される画面例を示す図である。

【図10】環境設定処理において表示される画面例を示す図である。

【図11】環境設定処理において表示される画面例を示す図である。

【図12】環境設定処理および音声処理において参照されるパラメータの説明図である。

【図13】環境設定処理において表示される画面例を示す図である。

【図14】環境設定処理において表示される画面例を示す図である。

【図15】本実施形態の音声処理のフローチャートである。

【図16】マイクロホンによる集音を説明するための図である。

【図17】基準座標系における音源の方向を説明するための図である。

【図18】ディスプレイデバイスにおける表示例を表す図である。

【図19】装着者の視界における見え方を説明するための図である。

【図20】ディスプレイデバイスの表示例を表す図である。

【図21】ディスプレイデバイスの表示の他の一例を示す図である。

【図22】ディスプレイデバイスの表示の他の一例を示す図である。

【図23】ディスプレイデバイスの表示の他の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

【0010】

以降の説明において、ある時点におけるディスプレイデバイスの位置及び向きを基準とする座標系（基準座標系）と、マルチマイクデバイスの位置及び向きを基準とする座標系（マイク座標系）とを区別して取り扱う。基準座標系は、ディスプレイデバイスに応じた位置（例えばディスプレイデバイスのブリッジ部の重心位置）を原点とし、当該原点においてＸ軸およびＹ軸が直交する。基準座標系において、Ｘ＋方向はディスプレイデバイスを装着したユーザの前方に対応し、Ｘ－方向は当該ユーザの後方に対応し、Ｙ＋方向は当該ユーザの左方向に対応し、Ｙ－方向は当該ユーザの右方向に対応する。他方、マイク座標系は、マルチマイクデバイスの位置（例えばマルチマイクデバイスの重心位置）を原点とし、当該原点においてｘ軸およびｙ軸が直交する。マイク座標系において、ｘ＋方向をマルチマイクデバイスの前方としたとき、ｘ－方向をマルチマイクデバイスの後方、ｙ＋方向をマルチマイクデバイスの左方向、ｙ－方向をマルチマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。

【0011】

（１）情報処理システムの構成
情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

【0012】

図１に示すように、情報処理システム１は、ディスプレイデバイス１０と、コントローラ３０と、マルチマイクデバイス５０とを備える。
ディスプレイデバイス１０およびコントローラ３０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetooth（登録商標）チャネル）を介して接続される。
同様に、コントローラ３０およびマルチマイクデバイス５０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetoothチャネル）を介して接続される。

【0013】

ディスプレイデバイス１０は、１以上のディスプレイを備える。ディスプレイデバイス１０は、コントローラ３０から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス１０は、人間の頭部に装着可能であるように構成される。ディスプレイデバイス１０は、例えば、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスである。

【0014】

コントローラ３０は、ディスプレイデバイス１０およびマルチマイクデバイス５０を制御する。コントローラ３０は、情報処理装置の一例である。コントローラ３０は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。

【0015】

マルチマイクデバイス５０は、ディスプレイデバイス１０から独立して設置可能である。つまり、マルチマイクデバイス５０の位置および向きは、ディスプレイデバイス１０の位置および向きから独立して決定することができる。

【0016】

（１－１）ディスプレイデバイスの構成
ディスプレイデバイスの構成について説明する。図２は、本実施形態のディスプレイデバイスの外観を示す図である。

【0017】

図２に示されるように、グラス型ディスプレイに相当するディスプレイデバイス１０は、ディスプレイ１１－１，１１－２（「表示部」の一例）と、筐体２０とを備える。なお、以下ではディスプレイデバイス１０が２つのディスプレイ１１－１，１１－２を備える場合を中心に説明するが、ディスプレイデバイス１０が備えるディスプレイ１１の数は２つに限定されず、１つ又は３つ以上でもよい。例えば、ディスプレイデバイス１０をユーザが装着した場合、ユーザの右目の前には透過型のディスプレイが配置され、ユーザの左目の前にはレンズが配置されてもよい。

【0018】

筐体２０は、ユーザの頭部に装着可能であるように構成される。筐体２０は、右テンプル２１と、右ヨロイ２２と、ブリッジ２３と、左ヨロイ２４と、左テンプル２５と、リム２６とを備える。

【0019】

ディスプレイ１１－１，１１－２は、透過性を有する部材（例えば、ガラス、プラスチック、及び、ハーフミラーの少なくとも１つ）である。この場合、ディスプレイ１１－１，１１－２は、ディスプレイデバイス１０を装着したユーザの視野に入るように配置される。

【0020】

ディスプレイ１１－１，１１－２は、リム２６により支持される。ディスプレイ１１－１は、ユーザがディスプレイデバイス１０を装着した際に当該ユーザの右眼前に位置するように配置される。ディスプレイ１１－２は、ユーザがディスプレイデバイス１０を装着した際に当該ユーザの左眼前に位置するように配置される。

【0021】

ディスプレイ１１－１，１１－２は、コントローラ３０による制御に従い、画像を提示（例えば、表示）する。例えば、右テンプル２１の裏側に配置される非図示の投影器からディスプレイ１１－１へ画像が投影され、左テンプル２５の裏側に配置される非図示の投影器からディスプレイ１１－２へ画像が投影される。これにより、ディスプレイ１１－１及びディスプレイ１１－２は画像を提示する。ユーザは、画像を視認すると同時に、ディスプレイ１１－１及びディスプレイ１１－２を透過した景色（例えば、ユーザの前方に設置されたマルチマイクデバイス５０）も視認することが可能である。

【0022】

なお、ディスプレイデバイス１０がユーザに画像を提示する方法は上記の例に限定されない。例えば、ディスプレイデバイス１０は、投影器からユーザの眼に画像を直接投影してもよい。

【0023】

ディスプレイデバイス１０は、ディスプレイデバイス１０の動き及び状態を検出するセンサ（図示せず）をさらに備えてもよい。例えば、ディスプレイデバイス１０は、ディスプレイデバイス１０の加速度、回転加速度、及び傾きを検出するセンサを含むＩＭＵ（Inertial Measurement Unit）を有する。ただし、センサの種別及び検出される状態の内容はこの例に限定されない。

【0024】

ディスプレイデバイス１０は、ユーザによる操作を受け付ける操作部（図示せず）をさらに備えてもよい。操作部は、例えば、物理ボタン、キーボード、ポインティングデバイス、タッチパネル、リモートコントローラ、スイッチ、又は、それらの組合せであり、ディスプレイデバイス１０に対するユーザ操作を検出する。ただし、操作部の種別及び検出される操作の内容はこの例に限定されない。例えば、ディスプレイデバイス１０は、ユーザのジェスチャ入力又は音声入力による操作を受け付けてもよい。

【0025】

（１－２）コントローラの構成
コントローラの構成について説明する。図３は、本実施形態のコントローラの構成を示すブロック図である。

【0026】

図３に示すように、コントローラ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

【0027】

記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

【0028】

プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーションのプログラム

【0029】

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

【0030】

プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、コントローラ３０の機能を実現するコンピュータである。プロセッサ３２は、例えば、以下の少なくとも１つである。
・ＣＰＵ（Central Processing Unit）
・ＧＰＵ（Graphic Processing Unit）
・ＡＳＩＣ（Application Specific Integrated Circuit）
・ＦＰＧＡ（Field Programmable Array）

【0031】

入出力インタフェース３３は、コントローラ３０に接続される入力デバイスから情報（例えば、ユーザの指示）を取得し、かつ、コントローラ３０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。

【0032】

通信インタフェース３４は、コントローラ３０と外部装置（例えば、ディスプレイデバイス１０、およびマルチマイクデバイス５０）との間の通信を制御するように構成される。

【0033】

（１－３）マルチマイクデバイスの構成
マルチマイクデバイス５０は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス５０は、５つのマイクロホン５１－１，・・・，５１－５（以下、特に区別しない場合は単にマイクロホン５１と表記する。）を備えることとする。マルチマイクデバイス５０は、マイクロホン５１－１，・・・、５１－５を用いて、音源から発せられた音を受信することで音声信号を生成する。また、マルチマイクデバイス５０は、マイク座標系における音の到来方向（つまり、音源の方向）を推定する。また、マルチマイクデバイス５０は、後述するビームフォーミング処理を行う。

【0034】

マイクロホン５１は、例えば、マルチマイクデバイス５０の周辺の音を集音する。マイクロホン５１により集音される音には、例えば以下の少なくとも１つの音が含まれる。
・人物による発話音
・マルチマイクデバイス５０が使用される環境の音（以下「環境音」という）

【0035】

マルチマイクデバイス５０には、例えば筐体の表面にマルチマイクデバイス５０の基準方向（例えば、前方であるが、その他の所定の方向であってもよい）を示す目印５０ａが付されている。これにより、ユーザは、マルチマイクデバイス５０の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス５０の向きを認識するための手段はこれに限られない。目印５０ａは、マルチマイクデバイス５０の筐体と一体化されていてもよい。

【0036】

マルチマイクデバイス５０は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マルチマイクデバイス５０は、当該マルチマイクデバイス５０の動き及び状態を検出するためにＩＭＵ（Inertial Measurement Unit）を備えることができる。

【0037】

（２）実施形態の一態様
本実施形態の一態様について説明する。図４は、本実施形態のディスプレイデバイス１０と、マルチマイクデバイス５０と、音源との位置関係の一例の説明図である。図５は、音に関する情報がディスプレイデバイスの適切な位置に表示されない例を示す図である。図６は、本実施形態の一態様を示す図である。

【0038】

図４に示すように、ディスプレイデバイス１０およびマルチマイクデバイス５０の周囲に人物ＰＲ１および人物ＰＲ２が位置しており、人物ＰＲ２が「こんにちは」と発話したとする。人物ＰＲ２は、基準座標系ではディスプレイデバイス１０の右前方（Ｘ＋方向とＹ－方向との間）に位置しているが、マイク座標系ではマルチマイクデバイス５０の左前方（Ｘ＋方向とＹ＋方向との間）に位置している。マルチマイクデバイス５０は、人物ＰＲ２の発話した音声が、左前方から到来した（つまり、音源は左前方に存在する）と推定する。

【0039】

人物ＰＲ２の発話した音声に対応する情報（例えば、「こんにちは」のテキスト画像）をディスプレイデバイス１０に表示する場合に、当該情報の表示位置をマルチマイクデバイス５０によって推定された音源の方向の情報のみに基づいて決定すると、ディスプレイデバイス１０を装着しているユーザに違和感を与えかねない。例えば、図５に示すように、ディスプレイデバイス１０が、テキスト画像ＴＢ１をユーザの視野における左前方に提示したとする。この場合に、ユーザは、テキスト画像ＴＢ１の表示位置付近に存在する人物（例えば人物ＰＲ１）が「こんにちは」と発話したと誤解したり、テキスト画像ＴＢ１の表示位置付近に存在する人物が見当たらず発話者が誰であるか混乱したりするおそれがある。

【0040】

本実施形態のディスプレイデバイス１０は、ユーザ入力に基づいて基準座標系におけるマルチマイクデバイス５０の位置および向きを決定し、当該位置および向きと、マイク座標系における音源の方向（「第１方向」の一例）とに基づいて、基準座標系における音源の方向すなわちディスプレイデバイス１０に対する音源の方向（「第２方向」の一例）を推定する。ディスプレイデバイス１０は、音源から到来した音に関する情報（例えば、音声信号に対応するテキスト画像）を、ディスプレイデバイス１０のディスプレイ１１内の表示位置であって、基準座標系における当該音源の方向に応じた表示位置に表示させる。

【0041】

この結果、図６に示すように、ディスプレイデバイス１０は、テキスト画像ＴＢ１を例えばユーザの視野における右前方に提示できる。故に、ユーザは、テキスト画像ＴＢ１の表示位置付近に存在する人物ＰＲ２が「こんにちは」と発話したことを容易に理解できる。つまり、音に関する情報を適切な位置に表示することができる。

【0042】

（３）情報処理
本実施形態の情報処理について説明する。

【0043】

（３－１）環境設定処理
本実施形態の環境設定処理について説明する。図７は、本実施形態の環境設定処理のフローチャートである。図８は、環境設定処理において表示される画面例を示す図である。図９は、環境設定処理において表示される画面例を示す図である。図１０は、環境設定処理において表示される画面例を示す図である。図１１は、環境設定処理において表示される画面例を示す図である。図１２は、環境設定処理および音声処理において参照されるパラメータの説明図である。図１３は、環境設定処理において表示される画面例を示す図である。図１４は、環境設定処理において表示される画面例を示す図である。

【0044】

図７の環境設定処理は、以下の開始条件のいずれかの成立に応じて開始してもよい。
・コントローラ３０、または他のデバイス（ディスプレイデバイス１０またはマルチマイクデバイス５０）が所定の状態（例えば、電源投入）になった。
・ユーザが図７の環境設定処理を呼び出すための操作を行った。

【0045】

図７に示すように、コントローラ３０は、第１ユーザ指示の取得（Ｓ１３０）を実行する。
具体的には、コントローラ３０は、マルチマイクデバイス５０の位置および向きに関するユーザ入力（以下、「第１ユーザ指示」という）を受け付けるためのＵＩ（User Interface）を、ディスプレイデバイス１０を介してユーザに提示する。コントローラ３０は、提示したＵＩを介して、第１ユーザ指示を取得する。

【0046】

第１ユーザ指示の取得（Ｓ１３０）の第１例では、コントローラ３０は、ディスプレイデバイス１０のディスプレイ１１に、図８の画面を表示する。
図８の画面は、オブジェクトＩＣ１０（「第１オブジェクト」の一例）と、テキストボックスＴＢ１０とを含む。

【0047】

オブジェクトＩＣ１０は、位置情報を保持する。ディスプレイデバイス１０のディスプレイ１１に表示されるオブジェクトＩＣ１０の位置はユーザの操作に応じて変更可能（つまり、移動可能）である。例えば、ユーザは、リモートコントローラ、コントローラ３０に接続された入力デバイス、またはディスプレイデバイス１０に対するジェスチャ（例えば首振り）によって種々のオブジェクトに対する操作を行うことができる。ジェスチャは、例えばディスプレイデバイス１０が備えるジャイロセンサの検出結果に基づいて判定される。また、コントローラ３０は、ユーザの操作を補助するために、仮想レーザーポインター、仮想スライドバーなどを表示してもよい。コントローラ３０は、ユーザ操作に応じて、ディスプレイ１１におけるオブジェクトＩＣ１０の表示位置を変更するとともに、当該オブジェクトＩＣ１０が保持する位置情報を更新する。
テキストボックスＴＢ１０は、ユーザに要求する操作を説明するテキストを表示する。

【0048】

ユーザは、図８の画面を見ながら、ディスプレイ１１におけるオブジェクトＩＣ１０の表示位置が、ディスプレイ１１を透過して視認されるマルチマイクデバイス５０の像と重なる位置に移動するように、操作を行う。

【0049】

ユーザがオブジェクトＩＣ１０の移動完了を示す操作を行うと、コントローラ３０は、ディスプレイデバイス１０のディスプレイ１１に、図９の画面を表示する。
図９の画面は、オブジェクトＩＣ１０と、オブジェクトＩＣ１１（「第２オブジェクト」の一例）と、テキストボックスＴＢ１１とを含む。

【0050】

オブジェクトＩＣ１１は、向き情報を保持する。ディスプレイデバイス１０のディスプレイ１１－１，１１－２に表示されるオブジェクトＩＣ１１の向きはユーザの操作に応じて変更可能（つまり、回転可能）である。コントローラ３０は、ユーザ操作に応じて、ディスプレイ１１に表示されるオブジェクトＩＣ１１の向きを変更するとともに、当該オブジェクトＩＣ１１が保持する向き情報を更新する。
テキストボックスＴＢ１１は、ユーザに要求する操作を説明するテキストを表示する。

【0051】

ユーザは、図９の画面を見ながら、ディスプレイ１１におけるオブジェクトＩＣ１１の向きが、ディスプレイ１１を透過して視認されるマルチマイクデバイス５０の基準方向に一致するように、操作を行う。ユーザがオブジェクトＩＣ１１の回転完了を示す操作を行うと、コントローラ３０は、オブジェクトＩＣ１０が保持していた位置情報と、オブジェクトＩＣ１１が保持していた向き情報とを取得する。

【0052】

第１ユーザ指示の取得（Ｓ１３０）の第２例では、コントローラ３０は、ディスプレイデバイス１０のディスプレイ１１に、図１０の画面を表示する。
図１０の画面は、オブジェクトＩＣ１２ａ（「第１オブジェクト」の一例）と、オブジェクトＩＣ１２ｂ（「第２オブジェクト」の一例）と、テキストボックスＴＢ１２とを含む。

【0053】

オブジェクトＩＣ１２ａは、位置情報を保持する。ディスプレイデバイス１０のディスプレイ１１に表示されるオブジェクトＩＣ１２ａの位置はユーザの操作に応じて変更可能（一例として、複数の候補から選択可能）である。コントローラ３０は、ユーザ操作に応じて、ディスプレイ１１におけるオブジェクトＩＣ１２ａの表示位置を変更するとともに、当該オブジェクトＩＣ１２ａが保持する位置情報を更新する。

【0054】

オブジェクトＩＣ１２ｂは、向き情報を保持する。ディスプレイデバイス１０のディスプレイ１１に表示されるオブジェクトＩＣ１２ｂの向きはユーザの操作に応じて変更可能（一例として、複数の候補から選択可能）である。コントローラ３０は、ユーザ操作に応じて、ディスプレイ１１に表示されるオブジェクトＩＣ１２ｂの向きを変更するとともに、当該オブジェクトＩＣ１２ｂが保持する向き情報を更新する。
テキストボックスＴＢ１２は、ユーザに要求する操作を説明するテキストを表示する。

【0055】

ユーザは、図１０の画面を見ながら操作を行い、マルチマイクデバイス５０について希望する設置条件に合わせて、オブジェクトＩＣ１２ａの位置およびオブジェクトＩＣ１２ｂの向きを決定する。

【0056】

ユーザがオブジェクトＩＣ１２ａの位置およびオブジェクトＩＣ１２ｂの向きの決定完了を示す操作を行うと、コントローラ３０は、ディスプレイデバイス１０のディスプレイ１１－１，１１－２に、図１１の画面を表示する。
図１１の画面は、オブジェクトＩＣ１２ａと、オブジェクトＩＣ１２ｂと、テキストボックスＴＢ１３とを含む。
テキストボックスＴＢ１３は、ユーザに要求する操作を説明するテキストを表示する。

【0057】

ユーザは、図１１の画面を見ながら、ディスプレイ１１を介して視認されるマルチマイクデバイス５０の位置および向きが、ディスプレイ１１に表示されたオブジェクトＩＣ１２ａの位置およびオブジェクトＩＣ１２ｂの向きに一致するように、当該マルチマイクデバイス５０を設置する。ユーザがマルチマイクデバイス５０の設置完了を示す操作を行うと、コントローラ３０は、オブジェクトＩＣ１２ａが保持していた位置情報と、オブジェクトＩＣ１２ｂが保持していた向き情報とを取得する。

【0058】

第１ユーザ指示の取得（Ｓ１３０）の第１例および第２例は組み合わせ可能である。例えば、位置に関する第１ユーザ指示を第１例に従って取得し、向きに関する第１ユーザ指示を第２例に従って取得してもよい。或いは、位置に関する第１ユーザ指示を第２例に従って取得し、向きに関する第１ユーザ指示を第１例に従って取得してもよい。

【0059】

ステップＳ１３０の後、コントローラ３０は、位置および向きの決定（Ｓ１３１）を実行する。
具体的には、コントローラ３０は、ステップＳ１３０においてユーザ入力に応じて設定されたオブジェクトの位置情報及び向き情報に基づいて、基準座標系におけるマルチマイクデバイス５０の位置および向きを決定する。
なお、コントローラ３０が取得する第１ユーザ指示は、マルチマイクデバイス５０の位置及び向きのうち一方に関するユーザ入力であってもよい。例えば、コントローラ３０は、第１例又は第２例に従って取得したマルチマイクデバイス５０の位置に関する第１ユーザ指示に応じて、基準座標系におけるマルチマイクデバイス５０の位置を決定し、予め設定された情報に従って基準座標系におけるマルチマイクデバイス５０の向きを決定してもよい。また例えば、コントローラ３０は、第１例又は第２例に従って取得したマルチマイクデバイス５０の向きに関する第１ユーザ指示に応じて、基準座標系におけるマルチマイクデバイス５０の向きを決定し、予め設定された情報に従って基準座標系におけるマルチマイクデバイス５０の位置を決定してもよい。コントローラ３０は、基準座標系におけるマルチマイクデバイス５０の位置又は向きが予め設定された情報に従って決定した場合、図１１に示した例と同様に、当該位置又は向きに従ってマルチマイクデバイス５０を設置するようにユーザに通知を行ってもよい。

【0060】

ディスプレイデバイス１０、マルチマイクデバイス５０、および音源の間の位置関係は、図１２に示すように一般化することができる。図１２において、ディスプレイデバイス１０は「Ｇ」、マルチマイクデバイスは「Ｍ」、音源は「Ｓ」のシンボルで表現される。故に、基準座標系におけるマルチマイクデバイス５０（Ｍ）の位置は、ディスプレイデバイス１０（Ｇ）からマルチマイクデバイス５０（Ｍ）までの距離ｄｍと、ディスプレイデバイス１０（Ｇ）に対するマルチマイクデバイス５０（Ｍ）の方向ψｍとによって表現可能である。また、基準座標系におけるマルチマイクデバイス５０の向きは、基準座標系のＸ軸とマイク座標系のｘ軸とがなす角度φｍによって表現可能である。

【0061】

ステップＳ１３１の後、コントローラ３０は、第２ユーザ指示の取得（Ｓ１３２）を実行する。
具体的には、コントローラ３０は、マルチマイクデバイス５０から音源までの距離（以下、「第１距離」という）と、基準座標系の原点から音源までの距離すなわちディスプレイデバイス１０から音源までの距離（以下、「第２距離」という）との少なくとも１つに関するユーザ入力（以下、「第２ユーザ指示」という）を受け付けるためのＵＩを、ディスプレイデバイス１０を介してユーザに提示する。コントローラ３０は、提示したＵＩを介して、第２ユーザ指示を取得する。
ここで、第１距離は、図１２の距離ｒｍにより表現可能である。第２距離は、図１２の距離ｒｇにより表現可能である。

【0062】

第２ユーザ指示の取得（Ｓ１３２）の第１例では、コントローラ３０は、ディスプレイデバイス１０のディスプレイ１１－１，１１－２に、図１３の画面を表示する。
図１３の画面は、オブジェクトＯＢＪ１４を含む。

【0063】

オブジェクトＯＢＪ１４は、第１距離または第２距離の少なくとも１つに対する複数の候補を提示し、かつ当該候補の１つを選択するユーザ入力を受け付ける。オブジェクトＯＢＪ１４は、例えばラジオボタンオブジェクトである。

【0064】

ユーザは、図１３の画面を見ながら操作を行い、オブジェクトＯＢＪ１４が示す複数の候補の１つを選択する。
ユーザが複数の候補の１つの選択完了を示す操作を行うと、コントローラ３０はオブジェクトＯＢＪ１４の選択状態を示す情報（値）を取得する。オブジェクトＯＢＪ１４の選択状態を示す情報は、選択に応じた特定の距離を示す。例えば図１３の例において、「近い」が選択されたことを示す情報は１メートルという距離を示し、「中程度」が選択されたことを示す情報は３メートルという距離を示し、「遠い」が選択されたことを示す情報は５メートルという距離を示す。なお、コントローラ３０は、ユーザが第１距離及び第２距離の少なくとも何れかを数値で直接指定できるようなＵＩ表示を行ってもよい。

【0065】

第２ユーザ指示の取得（Ｓ１３２）の第２例では、コントローラ３０は、ディスプレイデバイス１０のディスプレイ１１－１，１１－２に、図１４の画面を表示する。
図１４の画面は、オブジェクトＳＬ１５と、テキストボックスＴＢ１５とを含む。

【0066】

オブジェクトＳＬ１５は、ディスプレイデバイス１０、マルチマイクデバイス５０および音源の周囲の空間（例えば、会議室）のレイアウトを表示する。オブジェクトＳＬ１５は、オブジェクトＩＣ１５ａ、ＩＣ１５ｂを含む。レイアウト情報は、例えばコントローラ３０が外部のサーバから通信を介して取得する。

【0067】

オブジェクトＩＣ１５ａは、オブジェクトＳＬ１５によって表示されるレイアウトにおいて音源（例えば人間）が存在する可能性が高い場所（例えば座席）を示す。

【0068】

オブジェクトＩＣ１５ｂは、オブジェクトＳＬ１５によって表示されるレイアウトにおいてマルチマイクデバイス５０が配置される既定位置（例えばテーブルの中心）を示す。
テキストボックスＴＢ１５は、ユーザに要求する操作を説明するテキストを表示する。

【0069】

ユーザが複数のオブジェクトＩＣ１５ａのいずれかを選択することで音源の空間内位置を指定する操作を行うと、コントローラ３０は選択されたオブジェクトＩＣ１５ａに応じて音源の空間内位置を決定する。コントローラ３０は、決定された音源の空間内位置と、マルチマイクデバイス５０の既定位置とを参照することで、第１距離を決定できる。

【0070】

なお、第２ユーザ指示の取得（Ｓ１３２）の第２例は、種々の変形が可能である。
例えば、上記の第２例では、マルチマイクデバイス５０が空間内の既定位置に配置されることを想定しているが、マルチマイクデバイス５０を任意の位置に配置できるようにしてもよい。この場合に、ユーザは、マルチマイクデバイス５０の空間内位置、マルチマイクデバイス５０の向き、またはディスプレイデバイス１０（つまり、自己）の空間内位置の少なくとも１つを、オブジェクトＳＬ１５上で指定してもよい。あるいは、ユーザ操作により、オブジェクトＩＣ１５ｂの位置を移動させてもよい。
また例えば、ユーザが空間内におけるディスプレイデバイス１０の位置（つまり、自己の位置）をオブジェクトＳＬ１５上で指定し、コントローラ３０がその指定に応じてディスプレイデバイス１０の空間内位置を決定してもよい。この場合、コントローラ３０は、決定されたディスプレイデバイス１０の空間内位置と、音源の空間内位置とを参照することで、第２距離を決定できる。
以上のように、コントローラ３０は、ユーザの指定に応じてマルチマイクデバイス５０またはディスプレイデバイス１０の少なくとも１つの空間内位置を決定し、指定された音源の空間内位置をさらに参照することで、第１距離または第２距離の少なくとも１つを決定可能である。
或いは、コントローラ３０は、ユーザに音源の空間内位置を指定させることなく、マルチマイクデバイス５０による音源方向推定の結果を用いて、音源の空間内位置を決定してもよい。例えば、コントローラ３０は、複数のオブジェクトＩＣ１５ａのいずれかに対応する空間内位置に音源が存在するとの仮定の下で、マルチマイクデバイス５０に対する音の到来方向に基づいて、実際に音源が存在する空間内位置を推定してもよい。そしてコントローラ３０は、音源の空間内位置の推定結果に基づいて、第１距離または第２距離の少なくとも１つを決定してもよい。
また、コントローラ３０は、図１４の画面を、ディスプレイ１１以外の表示部、例えばコントローラ３０に接続されたディスプレイに表示してもよい。

【0071】

第２ユーザ指示の取得（Ｓ１３２）の第３例では、ユーザは、音源に顔（つまり、ディスプレイデバイス１０の正面方向）を向けたことを示す操作を行う。コントローラ３０は、かかる操作に応じて、基準座標系においてユーザの正面に対応する方向を取得する。コントローラ３０は、取得された情報と、マルチマイクデバイス５０によって推定された音源の方向（つまり、θｍ）と、ステップＳ１３１において決定した基準座標系における前記マルチマイクデバイスの位置および向きとに基づいて、第１距離および第２距離を決定可能である。本例は、ユーザの意識的な操作の代わりに、顔の向きの変化などのユーザの無意識な動作をトリガとすることもできる。

【0072】

ステップＳ１３２の後、コントローラ３０は、距離の決定（Ｓ１３３）を実行する。
具体的には、コントローラ３０は、ステップＳ１３２においてユーザ入力に基づいて取得した情報に応じて、第１距離または第２距離の少なくとも１つを決定する。なお、コントローラ３０は、ユーザ入力を参照せずに、予め設定された情報に従って、第１距離又は第２距離の少なくとも１つ（例えばユーザ操作による指定が行われなかった場合の第１距離）を決定してもよい。空間内に複数の音源が存在する場合、第２ユーザ指示の取得（Ｓ１３２）および距離の決定（Ｓ１３３）は、音源毎に個別に行われてもよいし、全音源に対して共通で行われてもよい。

【0073】

ステップＳ１３３の後、図７の環境設定処理は終了する。ただし、コントローラ３０は、必要に応じて図７の環境設定処理を再実行してもよい。例えば、マルチマイクデバイス５０が備えるＩＭＵの検出結果に基づいて算出された当該マルチマイクデバイス５０の位置または向きの変化量（例えばΔｄｍ、Δψｍ、Δφｍ、又はΔｒｍ）が閾値以上である場合に、コントローラ３０は環境設定処理を自動的に再実行してもよいし、再実行をユーザに促す通知を行ってもよい。これにより、例えばユーザが意図せず触れてマルチマイクデバイス５０がずれてしまった場合でも、環境設定処理により設定される情報を正しく更新できる。また、音源（話者）が新たに検出された場合に、コントローラ３０は、環境設定処理のうち第２ユーザ指示の取得（Ｓ１３２）および距離の決定（Ｓ１３３）を自動的に再実行してもよいし、再実行をユーザに促す通知を行ってもよい。

【0074】

（３－２）音声処理
本実施形態の音声処理について説明する。図１５は、本実施形態の音声処理のフローチャートである。図１６は、マイクロホンによる集音を説明するための図である。図１７は、基準座標系における音源の方向を説明するための図である。

【0075】

図１５に示す音声処理は、ディスプレイデバイス１０、コントローラ３０、およびマルチマイクデバイス５０の電源がＯＮになり、かつ初期設定および図７の環境設定処理が完了した後に開始される。ただし、図１５に示す処理の開始タイミングはこれに限定されない。

【0076】

マルチマイクデバイス５０は、マイクロホン５１を介して音声信号の取得（Ｓ２５０）を実行する。

【0077】

具体的には、マルチマイクデバイス５０の備える複数のマイクロホン５１－１，・・・、５１－５は、話者から発せられる発話音をそれぞれ集音する。マイクロホン５１－１～５１－５は、図１６に示される複数のパスを介して到来した発話音を集音する。マイクロホン５１－１～５１－５は、集音した発話音を音声信号へ変換する。

【0078】

マルチマイクデバイス５０が備えるプロセッサは、マイクロホン５１－１～５１－５から、話者ＰＲ３，ＰＲ４，及びＰＲ５の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン５１－１～５１－５から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報（例えば遅延や位相変化）が含まれている。

【0079】

ステップＳ２５０の後、マルチマイクデバイス５０は、到来方向の推定（Ｓ２５１）を実行する。
マルチマイクデバイス５０の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。

【0080】

到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したＭＵＳＩＣ（Multiple Signal Classification）、最小ノルム法、又はＥＳＰＲＩＴ（Estimation of Signal Parameters via Rotational Invariance Techniques）などが用いられる。

【0081】

マルチマイクデバイス５０は、到来方向推定モデルに、マイクロホン５１－１～５１－５から受信した音声信号を入力することで、マイクロホン５１－１～５１－５により集音された発話音の到来方向（つまり、マルチマイクデバイス５０に対する発話音の音源の方向）を推定する。このとき、マルチマイクデバイス５０は、例えば、マイク座標系において、マイクロホン５１－１～５１－５を基準として定められた基準方向（本実施形態においては、マルチマイクデバイス５０の前方（ｘ＋方向））を０度とする軸からの偏角で発話音の到来方向を表現する。図１７に示される例では、マルチマイクデバイス５０は、話者ＰＲ３から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ２ずれた方向と推定する。マルチマイクデバイス５０は、話者ＰＲ４から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ３ずれた方向と推定する。マルチマイクデバイス５０は、話者ＰＲ５から発せられた発話音の到来方向を、ｘ軸から右方向に角度Ａ１ずれた方向と推定する。

【0082】

ステップＳ２５１の後、マルチマイクデバイス５０は、音声信号の抽出（Ｓ２５２）を実行する。
マルチマイクデバイス５０が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。

【0083】

マルチマイクデバイス５０は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

【0084】

図１７に示される例では、マルチマイクデバイス５０は、計算された角度Ａ１をビームフォーミングモデルに入力し、ｘ軸から右方向に角度Ａ１ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス５０は、計算された角度Ａ２をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ２ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス５０は、計算された角度Ａ３をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ３ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。

【0085】

マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ１に対応する方向の音源から到来した発話音についての音声信号を抽出する。

【0086】

マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ２に対応する方向の音源から到来した発話音についての音声信号を抽出する。

【0087】

マルチマイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ３に対応する方向の音源から到来した発話音についての音声信号を抽出する。

【0088】

マルチマイクデバイス５０は、抽出した音声信号を、ステップＳ２５１において推定した当該音声信号に対応する音源の方向の情報とともに、コントローラ３０へ送信する。

【0089】

ステップＳ２５２の後、コントローラ３０は、音声認識処理（Ｓ２３０）を実行する。
記憶装置３１には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置３１の代わりに、コントローラ３０がネットワーク（例えばインターネット）を介してアクセス可能な外部装置（例えばクラウドサーバ）に保存されていてもよい。

【0090】

コントローラ３０は、音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。

【0091】

図１７に示される例では、コントローラ３０は、角度Ａ１～Ａ３について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。

【0092】

ステップＳ２３０の後、コントローラ３０は、座標系の変換（Ｓ２３１）を実行する。
具体的には、コントローラ３０は、ステップＳ２５１において推定された音源の方向（マイク座標系における音源の方向）と、環境設定処理（図７）において設定された各種の情報とに基づいて、基準座標系における音源の方向（つまり、ディスプレイデバイス１０に対する音源の方向）を推定する。

【0093】

ここで、マイク座標系における音源の方向は、図１２のθｍにより表現可能である。また、基準座標系における音源の方向は、図１２のθｇにより表現可能である。要するに、コントローラ３０は、マイク座標系における音源の方向θｍを、基準座標系における音源の方向θｇへと変換する。図１２に関して、以下の数式（１）が成立する。

【数1】

数式（１）をθｇについて解くと、以下の数式（２）を導出できる。

【数2】

コントローラ３０は、数式（２）に、ステップＳ２３１において推定された音源の方向（θｍ）と、環境設定処理（図７）において設定された各種の情報とを代入することで、基準座標系における音源の方向を算出する。

【0094】

ステップＳ２３１の後、コントローラ３０は、テキスト画像の生成（Ｓ２３２）を実行する。
具体的には、コントローラ３０は、ステップＳ２３０における音声認識処理の結果に基づくテキストを表すテキスト画像（「音に関する情報」の一例）を生成する。

【0095】

ステップＳ２３２の後、コントローラ３０は、表示態様の決定（Ｓ２３３）を実行する。
具体的には、コントローラ３０は、ステップＳ２３１において取得した基準座標系における音源の方向に基づいて、ディスプレイデバイス１０のディスプレイ１１－１，１１－２にステップＳ２３２において生成したテキスト画像を含む表示画像をどのような態様で表示するかを決定する。

【0096】

ステップＳ２３３の後、コントローラ３０は、画像表示（Ｓ２３４）を実行する。
具体的には、コントローラ３０は、ステップＳ２３３において決定された表示態様に応じた表示画像を、ディスプレイデバイス１０に表示させる。

【0097】

（３－２－１）ディスプレイデバイスの第１表示例
ディスプレイデバイスの第１表示例について説明する。図１８は、ディスプレイデバイスにおける表示例を表す図である。図１９は、装着者の視界における見え方を説明するための図である。

【0098】

以下では、ステップＳ２３３における表示態様の決定に応じた表示画像の例を詳細に説明する。コントローラ３０は、少なくとも基準座標系における音源の方向（θｇ）に基づいて、ディスプレイデバイス１０の表示部におけるテキスト画像の表示位置を決定する。

【0099】

ここでは、テキスト画像の左右方向の表示位置について説明する。ここで、図１８において破線で描かれている話者Ｐ２～Ｐ４の像は、ディスプレイ１１を透過してユーザＰ１の目に映る実像を表したものであり、ディスプレイ１１に表示される画像には含まれない。また、図１８において描かれているテキスト画像Ｔ１～Ｔ３は、ディスプレイ１１に表示されてユーザＰ１の目に映る画像を表したものであり、実空間には存在しない。なお、ディスプレイ１１－１を介して見る視界とディスプレイ１１－２を介して見る視界とは、視差に応じて互いに像の位置が異なる。

【0100】

図１８及び図１９に示すように、コントローラ３０は、テキスト画像に係る音声を発した音源のの方向（θｇ）に対応する位置を、テキスト画像の表示位置として決定する。より詳細には、コントローラ３０は、ディスプレイデバイス１０に対して角度Ａ１の方向から到来する音声（話者Ｐ２の発話音）に対応するテキスト画像Ｔ１の表示位置を、ユーザＰ１の視点から見て角度Ａ１に対応する方向に見える位置に決定する。
コントローラ３０は、ディスプレイデバイス１０に対して角度Ａ２の方向から到来する音声（話者Ｐ３の発話音）に対応するテキスト画像Ｔ２の表示位置を、ユーザＰ１の視点から見て角度Ａ２に対応する方向に見える位置に決定する。
コントローラ３０は、ディスプレイデバイス１０に対して角度Ａ３の方向から到来する音声（話者Ｐ４の発話音）に対応するテキスト画像Ｔ３の表示位置を、ユーザＰ１の視点から見て角度Ａ３に対応する方向に見える位置に決定する。
なお、ここで角度Ａ１～Ａ３は方位角を表す。

【0101】

このように、ディスプレイ１１において基準座標系における各音源の方向に応じた表示位置にテキスト画像Ｔ１～Ｔ３が表示される。これにより、ディスプレイデバイス１０のユーザＰ１に対して、話者Ｐ２の発言内容を表すテキスト画像Ｔ１が、ディスプレイ１１を透過して視認される話者Ｐ２の像と共に提示されることになる。また、ユーザＰ１に対して、話者Ｐ３の発言内容を表すテキスト画像Ｔ２が、ディスプレイ１１を透過して視認される話者Ｐ３の像と共に提示されることになる。また、ユーザＰ１に対して、話者Ｐ４の発言内容を表すテキスト画像Ｔ３が、ディスプレイ１１を透過して視認される話者Ｐ４の像と共に提示されることになる。すなわち、ディスプレイ１１に表示されるテキスト画像の左右方向の表示位置は、基準座標系における音源の方向（θｇ）の推定結果に応じて決まる。ディスプレイデバイス１０の向き（すなわちユーザＰ１の顔の向き）が変わった場合、同様に発言者の像と発言内容のテキスト画像とがユーザＰ１から見て同じ方向に見えるように、ディスプレイ１１におけるテキスト画像の表示位置が変更される。

【0102】

（３－２－２）ディスプレイデバイスの第２表示例
ディスプレイデバイスの第２表示例について説明する。図２０は、ディスプレイデバイスの表示例を表す図である。

【0103】

以下では、ステップＳ２３３における表示態様の決定に応じた表示画像の例を詳細に説明する。コントローラ３０は、ディスプレイデバイス１０の表示部であるディスプレイ１１における所定のテキスト表示領域に、音声に対応するテキスト画像を表示させる。併せて、コントローラ３０は、当該テキスト画像に対応する発話音の音源の方向（θｇ）に応じた表示位置に、当該テキスト画像に関連付けられたシンボル画像（「音に関する情報」の一例）を表示させる。

【0104】

画面９０１は、ディスプレイデバイス１０を装着するユーザがディスプレイ１１を介して見ている視界を表している。ここで、話者Ｐ３及び話者Ｐ４の像は、ディスプレイ１１を透過してユーザの目に映っている実像であり、ウィンドウ９０２、シンボル９０５、シンボル９０６、及びマーク９０７は、ディスプレイ１１に表示された画像である。なお、ディスプレイ１１－１を介して見る視界とディスプレイ１１－２を介して見る視界とは、実際には互いに像の位置が少し異なるが、ここでは説明を単純化するために、各視界が共通の画面９０１で表されるものとして説明する。

【0105】

ウィンドウ９０２は、画面９０１内の所定の位置に表示される。ウィンドウ９０２には、Ｓ２３２で生成された音声認識結果に対応するテキスト画像９０３が表示される。テキスト画像９０３は、複数の話者の発言を識別可能な態様で表示される。例えば、話者Ｐ３の発言に続いて話者Ｐ４の発言が発生した場合、それぞれの発言に対応するテキストは別の行に分かれて表示される。ウィンドウ９０２内に表示されるテキストの行が増えると、テキスト画像９０３がスクロール表示され、古い発言のテキストは非表示になって新しい発言のテキストが表示される。

【0106】

また、ウィンドウ９０２には、テキスト画像９０３に含まれる各テキストが誰の発言を表すのかを識別可能にするためのシンボル９０４が表示される。音源とシンボル種別とは、例えば図示しないテーブルにより対応付けられる。コントローラ３０は、記憶装置３１に記憶されたテーブルを参照して、ウィンドウ９０２に表示させるシンボルの種別を決定する。図２０の例では、話者Ｐ３の発言に対応するテキストの隣にはハート型のシンボルが表示されており、話者Ｐ４の発言に対応するテキストの隣には顔型のシンボルが表示されている。

【0107】

そして、画面９０１において、基準座標系における話者Ｐ３の方向に応じた位置（図２０の例では当該方向に存在する話者Ｐ３の像と重なる位置）にハート型のシンボル９０５が表示される。また、基準座標系における話者Ｐ４の方向に応じた位置（図２０の例では当該方向に存在する話者Ｐ４の像と重なる位置）に顔型のシンボル９０６が表示されている。シンボル９０５及びシンボル９０６の種別は、ウィンドウ９０２においてテキスト画像９０３と共に表示されたシンボル９０４の種別と対応している。すなわち、ウィンドウ９０２において話者Ｐ３の発言を表すテキストと共に表示されるシンボル９０４は、画面９０１において話者Ｐ３に対応する位置に表示されるシンボル９０５と同種のシンボルである。このような表示により、ユーザは、ウィンドウ９０２内のテキスト画像９０３に含まれるテキストがそれぞれ誰の発言を表すのかを容易に識別できる。なお、コントローラ３０は、シンボルの種別をＳ２３０における音声認識の結果に基づいて決定してもよい。例えば、コントローラ３０は、Ｓ２３０において音声認識により話者の感情を推定し、推定された感情に基づいて当該話者に対応するシンボルの表情や色を決定してもよい。これにより、話者の感情に関する情報をディスプレイデバイス１０を介してユーザに提示することができる。

【0108】

さらに、画面９０１において、シンボル９０６の周辺には、シンボル９０６に対応する話者Ｐ４が発言中であることを示すマーク９０７が表示されている。すなわち、マーク９０７は、基準座標系における音源の方向に応じた位置に表示され、その方向に位置する音源から音が発せられていることを表す。

【0109】

なお、コントローラ３０は、複数の話者の発言の識別を、音源の方向の推定結果に基づいて行う。すなわち、ある発言に対応する音源の方向と別の発言に対応する音源の方向との差が所定の角度以上である場合に、コントローラ３０は、それらの発言が別々の話者の発言（つまり別々の音源から発せられた音声）であると判断する。そしてコントローラ３０は、音源の方向が異なる複数の発言に対応するテキストを識別可能なようにテキスト画像９０３を表示させ、各テキストに関連付けられたシンボル９０５及びシンボル９０６を基準座標系における各音源の方向に応じた位置に表示させる。かかる話者の識別は、基準座標系における音源の方向に基づいて行うこともできるし、マイク座標系における音源の方向に基づいて行うこともできる。

【0110】

なお、図２０の例では、話者Ｐ３の発言を表すテキスト画像９０３と、話者Ｐ３の方向を示すシンボル９０５とは、シンボル９０５と同種のシンボル９０４がテキスト画像９０３の近傍に表示されることにより関連付けられるものとした。ただし、特定の話者の発言を表すテキスト画像と当該話者の方向を示すシンボル画像とを関連付ける方法はこの例に限定されない。例えば、テキスト画像９０３において、互いに音源の方向が異なる発言に対応するテキストが、異なる色で表示されてもよい。そして、特定の方向にある音源から発せられた音声に対応するテキスト画像とその特定の方向を示すシンボル画像とが、同種の色で表示されることにより関連付けられてもよい。具体的には、話者Ｐ３の発言に対応するテキストが第１の色で表示され、第１の色のシンボルが話者Ｐ３の方向を示す位置に表示されてもよい。そして、話者Ｐ４の発言に対応するテキストが第２の色で表示され、第２の色のシンボルが話者Ｐ４の方向を示す位置に表示されてもよい。第１の色のシンボルと第２の色のシンボルの形状は、異なっていてもよいし、同一形状であってもよい。

【0111】

図２１は、ディスプレイデバイスの表示の他の一例を示す図である。画面９０１には、図２０の例と同様に話者Ｐ３と話者Ｐ４の像が含まれており、ウィンドウ９０２とテキスト画像９０３が表示されている。一方、図２０におけるシンボル９０４、シンボル９０５、及びシンボル９０６の代わりに、方向マーク１００４、シンボル１００５、及びシンボル１００６が表示されている。

【0112】

シンボル１００５及びシンボル１００６は、音源の方向、すなわち話者の位置を示している。シンボル１００５とシンボル１００６とは互いに異なる話者に対応付けられているが、同種のシンボルであってもよい。方向マーク１００４は、テキスト画像９０３に含まれる各テキストに対応する音声を発した音源の方向を示している。図２１の例では、ユーザの正面方向（すなわち画面９０１の法線方向）に対して音源が右に位置するか左に位置するかが、矢印により表されている。具体的には、ユーザの正面より右に位置する話者Ｐ３の発言に対応するテキストの隣には右方向の矢印が表示され、ユーザの正面より左に位置する話者Ｐ４の発言に対応するテキストの隣には左方向の矢印が表示される。このように、特定の方向にある音源からの音声に対応するテキストの近傍に、画面９０１内のシンボル１００５及びシンボル１００６のうちその特定の方向に対応するシンボルを特定可能な記号又は図形が表示されることで、テキスト画像とシンボル画像とが関連付けられる。このような表示により、ユーザは、ウィンドウ９０２内のテキスト画像９０３に含まれるテキストが、それぞれどの方向に位置する音源から発せられた音声を表すのかを容易に識別できる。

【0113】

なお、方向マーク１００４は右方向と左方向を示す２種類に限定されず、より多様な方向を示すマークであってもよい。これにより、話者が３人以上いる場合であっても、どのテキストがどの話者の発言を表すのかを識別可能となる。また、方向マーク１００４が示す方向は、ユーザの正面方向を基準とした音源の位置により決まるものに限定されず、例えば、複数の音源の相対位置に基づいて決まってもよい。例えば、ユーザの正面より右側に２人の話者が位置する場合に、相対的に右に位置する話者の発言に対応するテキストの隣には右方向の矢印が表示され、相対的に左に位置する話者の発言に対応するテキストの隣には左方向の矢印が表示されてもよい。

【0114】

図２２は、ディスプレイデバイスの表示の他の一例を示す図である。図２３は、ディスプレイデバイスの表示の他の一例を示す図である。図２２の例は、話者Ｐ３及び話者Ｐ４が、ディスプレイデバイス１０を装着するユーザの視界から右に外れた位置に存在する場合における画面９０１を表している。図２３の例は、話者Ｐ３がユーザの視界から右に外れた位置に存在し、話者Ｐ４がユーザの視界内に存在する場合における画面９０１を表している。すなわち、図２２の画面９０１を見ているユーザが少し右を向くと、図２３の画面９０１が見えることとなる。

【0115】

図２２において、画面９０１には、音声に対応するテキストを表すウィンドウ９０２に加えて、ディスプレイデバイス１０のＦＯＶ（ＦｉｅｌｄｏｆＶｉｅｗ）に対する音源の方向を示す方向指示枠１１０１と、ＦＯＶと音源の方向との関係を示す俯瞰マップ１１０２とが表示される。ＦＯＶは、ディスプレイデバイス１０に予め設定された角度範囲であり、基準座標系の基準方向（装着者の正面方向）を中心に、仰角方向及び方位角方向にそれぞれ所定の幅を有する。ディスプレイデバイス１０のＦＯＶは、ディスプレイデバイス１０を介してユーザが見ている視界に含まれる。

【0116】

方向指示枠１１０１には、ＦＯＶに対する音源の方向を示す矢印と、矢印が示す方向に存在する音源を識別するシンボルとが表示される。図２２の例ではＦＯＶより右方向に音源が存在するため、画面９０１における右端部分に方向指示枠１１０１が表示されているが、ＦＯＶより左方向に音源が存在する場合には、画面９０１における左端部分に方向指示枠１１０１が表示される。すなわち、方向指示枠１１０１及びその内部のシンボルは、画面９０１の端部のうち基準座標系における音源の方向（θｇ）に対応する端部に表示される。このように、テキスト画像９０３に関連付けられたシンボル画像が音源の方向に応じた位置に表示される。これにより、ユーザは、ウィンドウ９０２内に表示されたテキストに対応する音声が、ディスプレイデバイス１０を介して見えている視野に対してどの方向に存在する音源から発せられているかを容易に認識できる。

【0117】

図２３に示すように、話者Ｐ４がＦＯＶ外からＦＯＶ内に入ると、話者Ｐ４に対応するシンボルは方向指示枠１１０１に表示されなくなる。

【0118】

なお、方向指示枠１１０１の表示位置は画面９０１の端に限定されない。また、方向指示枠１１０１内に表示される内容は、シンボルと矢印に限定されず、これらの少なくともいずれかが方向指示枠１１０１に含まれていなくてもよいし、他の図形または記号が方向指示枠１１０１に含まれていてもよい。方向指示枠１１０１に矢印などの方向を示す記号又は図形が含まれる場合、方向指示枠１１０１は音源の方向に依存しない位置に表示されてもよい。

【0119】

俯瞰マップ１１０２には、ディスプレイデバイス１０のＦＯＶを示すエリア１１０３と、音源の方向を表すシンボルとが表示される。エリア１１０３は俯瞰マップ１１０２上の固定位置に表示され、テキスト画像９０３に関連付けられたシンボルは俯瞰マップ１１０２内において音源の方向を表す位置（すなわち基準座標系における音源の方向（θｇ）に応じた位置）に表示される。このような俯瞰マップ１１０２が表示されることにより、ユーザは、ウィンドウ９０２内に表示されたテキストに対応する音声が、ディスプレイデバイス１０を介して見えている視野に対してどの方向に存在する音源から発せられているかを容易に認識できる。なお、俯瞰マップ１１０２に表示されるエリア１１０３は、ディスプレイデバイス１０のＦＯＶと厳密に一致していなくてもよい。例えば、エリア１１０３は、ディスプレイデバイス１０を装着したユーザの視野に含まれる範囲を表していてもよい。また例えば、俯瞰マップ１１０２において、ＦＯＶの代わりにディスプレイデバイス１０の基準方向（装着者の正面方向）が示されていてもよい。

【0120】

図２３に示すように、話者Ｐ４がＦＯＶ内に入ると、俯瞰マップ１１０２において話者Ｐ４に対応するシンボルはエリア１１０３と重なる位置に表示される。

【0121】

（４）小括
以上説明したように、本実施形態のコントローラ３０は、第１ユーザ指示に応じて基準座標系におけるマルチマイクデバイス５０の位置および向きを決定する。コントローラ３０は、マルチマイクデバイス５０に対する音源の方向の推定結果と、基準座標系におけるマルチマイクデバイス５０の位置および向きとに基づいて、ディスプレイデバイス１０に対する当該音源の方向を推定する。コントローラ３０は、音源から発せられた音に関する情報を、ディスプレイ１１内の、ディスプレイデバイス１０に対する当該音源の方向に応じた表示位置に表示させる。これにより、マルチマイクデバイス５０がディスプレイデバイス１０から独立している構成においても、音に関する情報を適切に表示することができる。具体的には、音源から発せられた音に関する情報の表示位置とディスプレイデバイスに対する音源の方向に応じた位置とのずれを抑制することができる。

【0122】

コントローラ３０は、第１ユーザ指示を取得する前に、ディスプレイ１１に、位置情報を保持する第１オブジェクトおよび向き情報を保持する第２オブジェクトを表示してもよい。コントローラ３０は、第１ユーザ指示に応じて第１オブジェクトおよび第２オブジェクトに設定された情報に基づいて、基準座標系におけるマルチマイクデバイス５０の位置および向きを決定してもよい。これにより、ユーザは、自らの指定しようとする位置および向きを視覚的に把握することができる。また、第１オブジェクトの位置および第２オブジェクトの向きはユーザ入力に応じて変更可能とし、コントローラ３０は、第１オブジェクトの位置および第２オブジェクトの向きを変更するとともに、第１オブジェクトおよび第２オブジェクトが保持する情報を更新してもよい。これにより、ユーザは、自らの指定しようとする位置および向きを容易に変更することができる。

【0123】

コントローラ３０は、第２ユーザ指示に応じて、第１距離または第２距離の少なくとも１つを決定し、決定した第１距離または第２距離の少なくとも１つにさらに基づいて、ディスプレイデバイス１０に対する音源の方向を推定してもよい。これにより、ディスプレイデバイス１０に対する音源の方向の推定の精度を高めることができる。ここで、コントローラ３０は、第１距離または第２距離の少なくとも１つに対する複数の候補を提示し、当該複数の候補の１つを選択する第２ユーザ指示に応じて、選択された候補に対応する値を第１距離または第２距離の少なくとも１つとして決定してもよい。これにより、簡単な操作で大凡の距離を設定できるので、ユーザの操作負担を抑制しながら音源の方向の推定精度を向上させることができる。或いは、コントローラ３０は、第２ユーザ指示を受け付ける前に、音源、マルチマイクデバイス５０、およびユーザを収容する空間のレイアウトをディスプレイ１１に表示させ、当該レイアウト上で音源の位置、マルチマイクデバイス５０の位置、マルチマイクデバイス５０の向き、またはユーザ位置の少なくとも１つを指定する第２ユーザ指示を取得してもよい。これにより、ユーザは音源、マルチマイクデバイス５０、またはユーザの少なくとも１つの位置を直感的に指定可能であるので、第１距離または第２距離として妥当な値を導出することができる。さらに、マルチマイクデバイス５０は空間内の既定位置に配置されるように定められてもよく、この場合にコントローラ３０は音源の位置を指定する第２ユーザ指示と当該既定位置とに基づいて第１距離を決定してもよい。これにより、マルチマイクデバイス５０が例えば会議室における固定マイクに相当する場合に、ユーザの操作負担を抑制しながら音源の方向の推定精度を向上させることができる。

【0124】

コントローラ３０は、基準座標系においてユーザの正面に対応する方向と、マルチマイクデバイス５０に対する音源の方向の推定結果と、基準座標系におけるマルチマイクデバイス５０の位置および向きとに基づいて、第１距離と第２距離との少なくとも１つを決定してもよい。これにより、ユーザは音源に顔を向ける動作により第１距離または第２距離が決定可能となるので、ユーザの操作負担を抑制しながら音源の方向の推定精度を向上させることができる。

【0125】

（５）その他の変形例
記憶装置３１は、ネットワークＮＷを介して、コントローラ３０と接続されてもよい。

【0126】

上記の情報処理の各ステップは、ディスプレイデバイス１０、コントローラ３０及びマルチマイクデバイス５０の何れでも実行可能である。例えば、コントローラ３０は、マルチマイクデバイス５０によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定（Ｓ２５１）、および音声信号の抽出（Ｓ２５２）を行ってもよい。

【0127】

上記説明では、コントローラ３０が第１ユーザ指示および第２ユーザ指示の両方を取得する例を示した。しかしながら、第２ユーザ指示の取得は省略可能である。
第１例として、コントローラ３０は、第１距離または第２距離の少なくとも１つを定数（例えば、音声の届く一般的な距離として、第１距離を３ｍと仮定可能）として取り扱うことができる。これにより、ユーザの操作負担を軽減しつつ、音に関する情報を適切に表示することができる。
第２例として、コントローラ３０は、音圧または共分散の少なくとも１つと距離との相関関係を利用し、観測された音圧または共分散から第１距離を推定してもよい。

【0128】

上記説明では、位置情報を保持するオブジェクト（例えば、オブジェクトＩＣ１０またはオブジェクトＩＣ１２ａ）を利用して、基準座標系におけるマルチマイクデバイス５０の位置（つまり、ｄｍおよびψｍ）を決定する例を示した。しかしながら、他の方法により、基準座標系におけるマルチマイクデバイス５０の位置の決定を補助することもできる。例えば、ユーザが特定のキーワードを発話し、マルチマイクデバイス５０は当該発話音の到来方向を推定する。マルチマイクデバイス５０の向き（つまり、φｍ）が既知であるならば、発話音の到来方向の推定結果と、マルチマイクデバイス５０の向きとに基づいて、基準座標系においてマルチマイクデバイス５０が存在する方向（つまりψｍ）を決定することができる。

【0129】

上記説明では、ディスプレイデバイス１０およびコントローラ３０が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス１０およびコントローラ３０は一体化されてもよい。また、マルチマイクデバイス５０とコントローラ３０とが一体化されてもよい。また例えば、コントローラ３０がクラウドサーバ内に存在してもよい。

【0130】

上述した実施形態では、ディスプレイデバイス１０が光学シースルー型のグラス型ディスプレイデバイスである場合を中心に説明した。ただし、ディスプレイデバイス１０の形式はこれに限定されない。例えば、ディスプレイデバイス１０はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス１０はカメラを備えてもよい。そしてディスプレイデバイス１０は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ１１に表示させてもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス１０はユーザの頭部に装着可能なデバイスに限定されず、例えばスマートフォン、ＰＣ又はタブレット端末であってもよい。この場合、ディスプレイデバイス１０は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してＡＲ（Augmented Reality）表示を行ってもよい。

【0131】

また、ディスプレイデバイス１０はスマートフォン、ＰＣ又はタブレット端末でもよい。この場合、前述のディスプレイデバイスの第２表示例に関して、ディスプレイデバイス１０はＰＣ又はタブレット端末のディスプレイに、上述したテキスト画像９０３と俯瞰マップ１１０２とを表示させてもよい。この場合の俯瞰マップ１１０２にはエリア１１０３が表示されなくてもよく、俯瞰マップ１１０２の上方向はディスプレイデバイス１０の基準方向に対応する。このような構成によれば、ユーザは、マルチマイクデバイス５０が集音した会話の内容をテキスト画像９０３で確認できるとともに、各テキストの発言者がディスプレイデバイス１０の基準方向に対してどの方向に存在するかを俯瞰マップ１１０２により容易に認識することができる。

【0132】

前述のディスプレイデバイスの第２表示例では、ディスプレイ１１においてテキスト画像９０３が表示される所定のテキスト表示領域が、ウィンドウ９０２である場合を中心に説明した。ただし、所定のテキスト表示領域はこの例に限定されず、ディスプレイ１１の向きによらずに決まる領域であればよい。所定のテキスト表示領域にはウィンドウ９０２が表示されなくてもよい。また、テキスト表示領域におけるテキスト画像の表示形式は図２０乃至図２３の例に限定されない。例えば、複数の異なる到来方向からの発言がテキスト表示領域内のそれぞれ異なる部分に表示されてもよい。

【0133】

上述した実施形態では、ディスプレイデバイス１０の備える操作部からユーザの指示が入力される例を説明したが、これに限らない。コントローラ３０（例えば、スマートフォン）のアプリケーションによって提示される駆動ボタンオブジェクトからユーザの指示が入力されてもよい。

【0134】

ディスプレイ１１は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ１１は、例えば、以下の実現方法により実現可能である。
・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
・液晶ディスプレイ
・網膜投影ディスプレイ
・ＬＥＤ（Light Emitting Diode）ディスプレイ
・有機ＥＬ（Electro Luminescence）ディスプレイ
・レーザディスプレイ
・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。

【0135】

マルチマイクデバイス５０による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マルチマイクデバイス５０は、例えば、以下の方法により音声信号を抽出してもよい。
・Ｆｒｏｓｔビームフォーマ
・適応フィルタビームフォーミング（一例として、一般化サイドローブキャンセラ）
・ビームフォーミング以外の音声抽出方法（一例として、周波数フィルタ、又は機械学習）

【0136】

上述の説明では、基準座標系に対するマルチマイクデバイス５０の方向及び音源の方向と、ディスプレイデバイス１０に対するマルチマイクデバイス５０の方向及び音源の方向とが、一致する場合を中心に説明した。ただし、基準座標系はある時点（例えば図７の環境設定処理が開始された時点）におけるディスプレイデバイス１０の位置及び向きを基準とする座標系であり、ディスプレイデバイス１０の位置及び向きの少なくとも何れかが変化した場合（例えばディスプレイデバイス１０を装着したユーザが動いた場合）、これらが一致しなくなる。この場合、コントローラ３０は、ディスプレイデバイス１０が有するＩＭＵの出力情報に基づいて基準座標系におけるディスプレイデバイス１０の位置及び向きを特定する。そしてコントローラ３０は、その特定結果と、マルチマイクデバイス５０に対する音源の方向に基づいて推定した基準座標系における音源の方向とに基づいて、ディスプレイデバイス１０に対する音源の方向を特定すればよい。また、コントローラ３０は、特定したディスプレイデバイス１０に対する音源の方向に応じて、音源から発せられた音に関する情報を表示させてもよい。
なお、ディスプレイデバイス１０の位置及び向きが変化した場合における情報の表示位置の補正方法はこれに限定されない。例えば、ディスプレイデバイス１０の動きに追従するように基準座標系を更新するとともに、基準座標系に対するマルチマイクデバイス５０の方向を更新することでも、ディスプレイデバイス１０に対する音源の方向を特定することができる。

【0137】

上述の説明では、説明を簡単にするために、２次元座標系における座標変換が行われる例を示した。ただし、本実施形態は３次元座標系における座標変換にも適用可能である。具体的には、コントローラ３０は、３次元（Ｘ／Ｙ／Ｚ軸）の基準座標系におけるマルチマイクデバイス５０の位置及び向きを決定する。そして、コントローラ３０は、マルチマイクデバイス５０に対する音源の３次元方向の推定結果と、３次元の基準座標系におけるマルチマイクデバイス５０の位置及び向きとに基づいて、ディスプレイデバイス１０に対する当該音源の方向を推定してもよい。このような構成によれば、例えば、ディスプレイデバイス１０に対する音源位置の高さに応じて、ディスプレイ１１に表示される情報の上下方向における表示位置を制御することができる。その結果、表示された情報に対応する音源の識別がユーザにとってより容易になる。

【0138】

以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

【符号の説明】

【0139】

１：情報処理システム
１０：ディスプレイデバイス
１１：ディスプレイ
２０：筐体
２１：右テンプル
２２：右ヨロイ
２３：ブリッジ
２４：左ヨロイ
２５：左テンプル
２６：リム
３０：コントローラ
３１：記憶装置
３２：プロセッサ
３３：入出力インタフェース
３４：通信インタフェース
５０：マルチマイクデバイス
５１：マイクロホン

【図1】