特開2024-119506 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ピクシーダストテクノロジーズ株式会社の特許一覧 ▶ 大日本住友製薬株式会社の特許一覧

特開2024-119506情報処理装置、方法、プログラム、およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024119506

(43)【公開日】2024-09-03

(54)【発明の名称】情報処理装置、方法、プログラム、およびシステム

(51)【国際特許分類】

G06F 3/16 20060101AFI20240827BHJP

G10L 13/00 20060101ALI20240827BHJP

G10L 21/043 20130101ALI20240827BHJP

G10L 15/22 20060101ALI20240827BHJP

H04R 3/00 20060101ALN20240827BHJP

【ＦＩ】

G06F3/16 610

G06F3/16 690

G06F3/16 640

G10L13/00 100Z

G10L21/043 100

G10L15/22 460Z

H04R3/00 320

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2023026464

(22)【出願日】2023-02-22

(71)【出願人】

【識別番号】517182918

【氏名又は名称】ピクシーダストテクノロジーズ株式会社

(71)【出願人】

【識別番号】000002912

【氏名又は名称】住友ファーマ株式会社

(74)【代理人】

【識別番号】110002815

【氏名又は名称】ＩＰＴｅｃｈ弁理士法人

(72)【発明者】

【氏名】西村晴輝

(72)【発明者】

【氏名】田畑愛実

(72)【発明者】

【氏名】平岡尚

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220BA06

5D220BC05

(57)【要約】

【課題】話者の発言に関する補足的な情報を利用可能とする技術を提供する。
【解決手段】本開示の一態様の情報処理装置は、少なくとも１つのマイクロホンによって集音された第１音声情報を取得する手段と、第１音声情報に関するメタ情報を取得する手段と、第１音声情報とメタ情報に対応する音声情報である第２音声情報とを出力する手段とを具備する。
【選択図】図３

【特許請求の範囲】

【請求項1】

少なくとも１つのマイクロホンによる集音に基づく第１音声情報を取得する手段と、
前記第１音声情報に関するメタ情報を取得する手段と、
前記第１音声情報と前記メタ情報に対応する音声情報である第２音声情報とを出力する手段と、
を具備する情報処理装置。

【請求項2】

前記出力する手段は、前記第１音声情報と前記第２音声情報とを、音声認識エンジン、または音声認識エンジンにアクセス可能な他の情報処理装置に出力する、
請求項１に記載の情報処理装置。

【請求項3】

前記第２音声情報は、前記メタ情報に対応するテキスト情報に基づいて音声合成を行うことで得られた音声情報である、
請求項１に記載の情報処理装置。

【請求項4】

前記メタ情報は、前記第１音声情報に対応する音源に関する情報を含む、
請求項１に記載の情報処理装置。

【請求項5】

前記第１音声情報に対応する音源に関する情報は、当該音源の方向、当該音源の名称の少なくとも１つを示す情報を含む、
請求項４に記載の情報処理装置。

【請求項6】

前記メタ情報は、前記第１音声情報の属性に関する情報を含む、
請求項１に記載の情報処理装置。

【請求項7】

前記第１音声情報の属性に関する情報は、話者の感情、発話速度、または発話の明瞭さの少なくとも１つを示す情報を含む、
請求項６に記載の情報処理装置。

【請求項8】

前記第１音声情報に関するメタ情報とは異なる他のメタ情報を取得する手段と、
前記出力する手段は、さらに、前記他のメタ情報に対応する音声情報である第３音声情報を出力する、
請求項１に記載の情報処理装置。

【請求項9】

前記他のメタ情報は、前記情報処理装置、もしくは前記マイクロホンを搭載するマイクデバイスの少なくとも１つのバッテリ残量に関する情報、前記第１音声情報の音源種別に関する情報、またはスケジュールされている予定に関する情報の少なくとも１つを含む、
請求項８に記載の情報処理装置。

【請求項10】

前記出力する手段は、前記第２音声情報を前記第１音声情報の直後または直前に続けて出力する、
請求項１に記載の情報処理装置。

【請求項11】

発話者の切り替わりを検知する手段をさらに具備し、
前記出力する手段は、第１発話者から第２発話者への切り替えが検知された場合に、前記第１発話者の発話に基づく第１音声情報を出力してから、前記第２発話者の発話に基づく第１音声情報を出力するまでの間に、前記第１発話者または前記第２発話者の発話に基づく第１音声情報に関するメタ情報に対応する第２音声情報を出力する、
請求項１に記載の情報処理装置。

【請求項12】

前記第１音声情報は、前記マイクロホンにより集音された音声情報を、少なくとも一部の区間において等倍を超える速度で再生されるように加工することで得られた音声情報である、
請求項１に記載の情報処理装置。

【請求項13】

前記第１音声情報は、複数のマイクロホンによって集音された音声信号に、当該複数のマイクロホンに対して特定の方向から到来する音声を強調するビームフォーミング処理を行うことで生成された音声情報である、
請求項１に記載の情報処理装置。

【請求項14】

第１情報処理装置と第２情報処理装置とを具備するシステムであって、
前記第１情報処理装置は、請求項１に記載の情報処理装置であり、
前記第２情報処理装置は、
前記第１情報処理装置によって出力された前記第１音声情報と前記第２音声情報とを取得する手段と、
前記第１音声情報に対して音声認識処理を行うことで得られた第１テキスト情報と、前記第２音声情報に対して音声認識処理を行うことで得られた第２テキスト情報とを表示部に表示する手段と
を備える、
システム。

【請求項15】

前記第１テキスト情報と前記第２テキスト情報とを前記表示部に表示する手段は、前記第１音声情報と前記第２音声情報とを音声認識エンジンに出力することで、前記第１テキスト情報および前記第２テキスト情報を前記表示部に表示する、
請求項１４に記載のシステム。

【請求項16】

コンピュータが、
少なくとも１つのマイクロホンによって集音された第１音声情報を取得するステップと、
前記第１音声情報に関するメタ情報を取得するステップと、
前記第１音声情報と前記メタ情報に対応する音声情報である第２音声情報とを出力するステップと
を実行する方法。

【請求項17】

コンピュータに、請求項１～請求項１３の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、方法、プログラム、およびシステムに関する。

【背景技術】

【0002】

音声認識アプリケーション、または音声認識ＳａａＳ（Software as a Service）を用いることで、会議の文字起こしを容易に行うことができる。しかしながら、音声認識アプリケーションまたはＳａａＳの多くは、発言の内容そのものについてはテキストとして記録できるものの、誰がどの発言を行ったか、といった情報を表示することはできない。

【0003】

特許文献１には、テキストデータと音源位置とを紐づけ、ユーザが、テキストデータを選択することにより、音源位置の確認が可能となる技術思想が記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開2021-135453号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１の技術思想では、音声データ、音源位置データ、およびタイムスタンプを対応させ、テキストには表れない情報をアイコン画像で表示するなどの機能を備える独自の音声認識装置が用いられる。換言すれば、特許文献１の技術思想は、同様の機能を備えていない多くの音声認識手段に適用することができない。

【0006】

本開示の目的は、話者の発言に関する補足的な情報を利用可能とする技術を提供することである。

【課題を解決するための手段】

【0007】

本開示の一態様の情報処理装置は、少なくとも１つのマイクロホンによって集音された第１音声情報を取得する手段と、第１音声情報に関するメタ情報を取得する手段と、第１音声情報とメタ情報に対応する音声情報である第２音声情報とを出力する手段とを具備する。

【図面の簡単な説明】

【0008】

【図1】本実施形態の情報処理システムの構成を示すブロック図である。

【図2】本実施形態のコントローラの構成を示すブロック図である。

【図3】本実施形態の一態様の説明図である。

【図4】本実施形態の音源データベースのデータ構造を示す図である。

【図5】本実施形態のマイクロホン処理のフローチャートである。

【図6】マイクロホンによる集音を説明するための図である。

【図7】音源の方向を説明するための図である。

【図8】本実施形態の発話情報表示処理（コントローラ側）のフローチャートである。

【図9】本実施形態の発話情報表示処理（ディスプレイデバイス側）のフローチャートである。

【図10】本実施形態の発話情報表示処理において表示される画面例を示す図である。

【図11】本実施形態の音源設定処理のフローチャートである。

【図12】本実施形態の音源設定処理において表示される画面の例を示す図である。

【図13】本実施形態の音源設定処理において表示される画面の例を示す図である。

【図14】本実施形態の非発話情報表示処理（コントローラ側）のフローチャートである。

【発明を実施するための形態】

【0009】

以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

【0010】

以降の説明において、マイクデバイスの位置及び向きを基準とする座標系（マイク座標系）を用いることがある。マイク座標系は、マイクデバイスの位置（例えばマイクデバイスの重心位置）を原点とし、当該原点においてｘ軸およびｙ軸が直交する。マイク座標系において、ｘ＋方向をマイクデバイスの前方としたとき、ｘ－方向をマイクデバイスの後方、ｙ＋方向をマイクデバイスの左方向、ｙ－方向をマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。

【0011】

（１）情報処理システムの構成
情報処理システムの構成について説明する。図１は、本実施形態の情報処理システムの構成を示すブロック図である。

【0012】

図１に示すように、情報処理システム１は、ディスプレイデバイス１０と、コントローラ３０と、マイクデバイス５０とを備える。
情報処理システム１には、複数のユーザが関与し得る。ユーザの少なくとも１人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい（つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい）。

【0013】

ディスプレイデバイス１０およびコントローラ３０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetooth（登録商標）チャネル）を介して接続される。
同様に、コントローラ３０およびマイクデバイス５０は、通信ケーブル、または無線チャネル（例えば、Wi-Fiチャネル又はBluetoothチャネル）を介して接続される。

【0014】

ディスプレイデバイス１０は、１以上のディスプレイ（「表示部」の一例）を備える。ディスプレイデバイス１０は、コントローラ３０から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス１０は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ装置、または会議用ディスプレイ装置などである。ディスプレイデバイス１０は、ユーザの指示を取得するための入力デバイスまたは操作部を備えていてもよい。

【0015】

コントローラ３０は、ディスプレイデバイス１０およびマイクデバイス５０を制御する。コントローラ３０は、情報処理装置の一例である。コントローラ３０は、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータである。

【0016】

マイクデバイス５０は、ディスプレイデバイス１０から独立して設置可能に構成されてよい。つまり、マイクデバイス５０の位置および向きは、ディスプレイデバイス１０の位置および向きから独立して決定することができる。

【0017】

（１－１）コントローラの構成
コントローラの構成について説明する。図２は、本実施形態のコントローラの構成を示すブロック図である。

【0018】

図２に示すように、コントローラ３０は、記憶装置３１と、プロセッサ３２と、入出力インタフェース３３と、通信インタフェース３４とを備える。

【0019】

記憶装置３１は、プログラム及びデータを記憶するように構成される。記憶装置３１は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、及び、ストレージ（例えば、フラッシュメモリ又はハードディスク）の組合せである。

【0020】

プログラムは、例えば、以下のプログラムを含む。
・ＯＳ（Operating System）のプログラム
・情報処理を実行するアプリケーションのプログラム

【0021】

データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ（つまり、情報処理の実行結果）

【0022】

プロセッサ３２は、記憶装置３１に記憶されたプログラムを起動することによって、コントローラ３０の機能を実現するコンピュータである。プロセッサ３２は、例えば、以下の少なくとも１つである。
・ＣＰＵ（Central Processing Unit）
・ＧＰＵ（Graphic Processing Unit）
・ＡＳＩＣ（Application Specific Integrated Circuit）
・ＦＰＧＡ（Field Programmable Array）

【0023】

入出力インタフェース３３は、コントローラ３０に接続される入力デバイスから情報（例えば、ユーザの指示、音声信号）を取得し、かつ、コントローラ３０に接続される出力デバイスに情報（例えば画像信号）を出力するように構成される。
入力デバイスは、例えば、マイクデバイス５０、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイデバイス１０である。

【0024】

通信インタフェース３４は、コントローラ３０と外部装置（例えば、ディスプレイデバイス１０、およびマイクデバイス５０）との間の通信を制御するように構成される。

【0025】

なお、ディスプレイデバイス１０の構成も、図２に示すコントローラ３０の構成と同様である。ただし、ディスプレイデバイス１０は、画像を表示する表示部を備える。

【0026】

（１－２）マイクデバイスの構成
マイクデバイスの構成について説明する。

【0027】

マイクデバイス５０は、少なくとも１つのマイクロホンを備える。以下の説明では、マイクデバイス５０は、複数のマイクロホンを備えることとする。換言すれば、マイクデバイス５０は、マルチマイクデバイスであることとする。マイクデバイス５０は、マイクロホンを用いて、音源から発せられた音を受信（集音）することで音声信号（「音声情報」の一例）を生成する。また、マイクデバイス５０は、集音した音声信号に基づいて、マイク座標系における音の到来方向（つまり、音源の方向）を推定する。また、マイクデバイス５０は、集音した音声信号に対して、推定した音源の方向に応じて後述するビームフォーミング処理を行う。

【0028】

マイクロホンは、例えば、マイクデバイス５０の周辺の音を集音する。マイクロホンにより集音される音には、例えば以下の少なくとも１つの音が含まれる。
・人物による発話音
・マイクデバイス５０周辺の環境音

【0029】

マイクデバイス５０には、例えば、筐体の表面にマイクデバイス５０の基準方向（例えば、前方（つまり、ｘ＋方向）であるが、その他の所定の方向であってもよい）を示す目印が付されていてもよい。これにより、ユーザは、マイクデバイス５０の向きを視覚情報から容易に認識することができる。なお、マイクデバイス５０の向きを認識するための手段はこれに限られない。目印は、マイクデバイス５０の筐体と一体化されていてもよい。

【0030】

マイクデバイス５０は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マイクデバイス５０は、当該マイクデバイス５０の動き及び状態を検出するためにＩＭＵ（Inertial Measurement Unit）を備えることができる。

【0031】

（２）実施形態の一態様
本実施形態の一態様について説明する。図３は、本実施形態の一態様の説明図である。

【0032】

図３に示すように、コントローラ３０は、マイクデバイス５０から音声情報Ｓ１１を取得する。音声情報Ｓ１１は、例えば、話者であるＡさんが発話した「おはようございます。本日はどうぞよろしくお願いいたします。」の音を、マイクデバイス５０によって集音することで得られた音声波形の情報を備える。

【0033】

コントローラ３０は、さらに、音声情報Ｓ１１に依存するメタ情報Ｍ１２を取得する。メタ情報Ｍ１２は、例えば、音声情報Ｓ１１に対応する音源（話者）が人物Ａであることを表す識別子（例えば後述する音源ＩＤ）、または音声情報Ｓ１１に対応する音源がある方向を表す情報（例えば後述する音源方向情報）である。コントローラ３０は、メタ情報Ｍ１２に基づいて、例えば「Ａさんが話しています。」などのテキストを生成する。

【0034】

コントローラ３０は、メタ情報Ｍ１２に基づくテキストに対して音声合成処理を行うことで、メタ情報Ｍ１２に対応する音声情報Ｓ１３を生成する。音声合成処理は、コントローラ３０の機能（音声合成エンジン）により実現されてもよいし、コントローラ３０が例えばクラウドサーバなどの外部装置の機能（音声合成エンジン）を利用することで実現されてもよい。なお、コントローラ３０がメタ情報Ｍ１２として音声情報を外部から取得可能である場合には、音声合成処理は不要である。

【0035】

コントローラ３０は、音声情報Ｓ１３の後に音声情報Ｓ１１を結合することで、音声情報Ｓ１４を生成する。

【0036】

コントローラ３０は、音声情報Ｓ１４に対して音声認識処理を行うことで、テキスト情報Ｔ１５を生成する。音声認識処理は、コントローラ３０の機能（音声認識エンジン）により実現されてもよいし、コントローラ３０が例えばクラウドサーバなどの外部装置の機能（音声認識エンジン）を利用することで実現されてもよい。テキスト情報Ｔ１５は、音声情報Ｓ１３に由来するテキスト情報「Ａさんが話しています。」と、音声情報Ｓ１１に由来するテキスト情報「おはようございます。本日はどうぞよろしくお願いいたします。」とを含む。

【0037】

コントローラ３０は、テキスト情報Ｔ１５をディスプレイデバイス１０の画面に表示する。これにより、ディスプレイデバイス１０を見た者は、話者の発言内容に加えて、例えば話者が誰であるかなどの発言に関する補足的な情報を把握することができる。このように、本実施形態によれば、音声をテキストに変換するという音声認識エンジンの基本的な機能を利用して、話者の発言内容に留まらず当該発言に関する補足的な情報を音声認識結果に埋め込むことができる。換言すれば、本実施形態のコントローラ３０は、特殊な機能を備えた音声認識手段（音声認識エンジン）や音声認識手段のカスタマイズを要しないので、任意の音声認識手段を採用することができ、汎用性が高い。例えば、コントローラ３０が音声情報Ｓ１４を既存の音声認識アプリケーションに入力することで、本来は発言内容を表示する機能のみを有している既存の音声認識アプリケーションに、音源方向などの補足的な情報も表示させることができる。これによりユーザは、普段使い慣れている既存の音声認識アプリケーションを利用しつつ、従来は得られなかった補足的な情報を視覚的に得ることができる。

【0038】

（３）データベース
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置３１に記憶される。

【0039】

（３－１）音源データベース
本実施形態の音源データベースについて説明する。図４は、本実施形態の音源データベースのデータ構造を示す図である。

【0040】

音源データベースには、音源情報が格納される。音源情報は、コントローラ３０によって識別された、マイクデバイス５０の周囲の音源（典型的には、話者）に関する情報である。

【0041】

図４に示すように、音源データベースは、「ＩＤ」フィールドと、「方向」フィールドと、「名称」フィールドと、「表現」フィールドとを含む。各フィールドは、互いに関連付けられている。

【0042】

「ＩＤ」フィールドには、音源ＩＤが格納される。音源ＩＤは、音源を識別する情報である。コントローラ３０は、新たな音源を検出すると、新規の音源ＩＤを発行し、当該音源ＩＤを当該音源に割り当てる。

【0043】

「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マイクデバイス５０に対する音源の方向に関する情報である。一例として、音源の方向は、マイク座標系において基準方向（本実施形態においては、マイクデバイス５０の前方（ｘ＋方向））を０度とする軸からの偏角として表現される。

【0044】

「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ３０は、音源名情報を、自動的に決定してもよいし、後述するようにユーザ指示に応じて設定してもよい。コントローラ３０は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。

【0045】

「表現」フィールドには、表現情報が格納される。表現情報は、対応する音源名情報によって表される音源（話者）による音（音声）であることを示すテキストの表現パターン（テンプレート）に関する情報である。コントローラ３０は、表現情報の示すテンプレートに、対応する音源名情報の示す音源名（話者名）を当てはめることで、音声情報が当該音源（話者）に由来することを表すテキスト（「メタ情報に対応するテキスト情報」の一例）を生成できる。

【0046】

その他、音源データベースに格納される音源情報は、以下の情報の少なくとも１つを含んでもよい。
・認識言語情報
・翻訳言語情報
・音源距離情報

【0047】

認識言語情報は、音源（話者）の使用言語に関する情報である。音源の認識言語情報に基づいて、当該音源から発生される音声に適用される音声認識エンジンが選択される。認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。

【0048】

翻訳言語情報は、音源から発せられる音声に対する音声認識結果（テキスト）に機械翻訳を適用する場合における目的言語に関する情報である。音源の翻訳言語情報に基づいて、当該音源から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の音源ではなく全音源に対して一括で設定されてもよいし、ディスプレイデバイス１０毎に設定されてもよい。

【0049】

音源距離情報は、マイクデバイス５０から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マイクデバイス５０に対する音源の相対位置（つまり、マイクデバイス５０の座標系における音源の座標）に関する情報である。

【0050】

（４）情報処理
本実施形態の情報処理について説明する。

【0051】

（４－１）マイクロホン処理
本実施形態のマイクロホン処理について説明する。図５は、本実施形態のマイクロホン処理のフローチャートである。図６は、マイクロホンによる集音を説明するための図である。図７は、音源の方向を説明するための図である。

【0052】

本実施形態のマイクロホン処理は、ディスプレイデバイス１０、コントローラ３０、およびマイクデバイス５０の電源がＯＮになり、かつ初期設定が完了した後に、例えばユーザ指示に応じて開始される。ただし、本実施形態のマイクロホン処理の開始タイミングはこれに限定されない。本実施形態のマイクロホン処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム１のユーザはリアルタイムに更新されるテキスト情報を閲覧することができる。

【0053】

マイクデバイス５０は、マイクロホンを介して、音声信号の取得（Ｓ１５０）を実行する。
具体的には、マイクデバイス５０が５個のマイクロホン５１－１，・・・，５１－５を備えていたとする。これら複数のマイクロホン５１－１，・・・、５１－５は、話者から発せられる発話音をそれぞれ集音する。マイクロホン５１－１～５１－５は、図６に示される複数のパスを介して到来した発話音を集音する。マイクロホン５１－１～５１－５は、集音した発話音を音声信号へ変換する。

【0054】

マイクデバイス５０が備えるプロセッサは、マイクロホン５１－１～５１－５から、話者ＰＲ１，ＰＲ２，及びＰＲ３の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン５１－１～５１－５から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報（例えば遅延や位相変化）が含まれている。

【0055】

ステップＳ１５０の後、マイクデバイス５０は、到来方向の推定（Ｓ１５１）を実行する。
マイクデバイス５０の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。

【0056】

到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したＭＵＳＩＣ（Multiple Signal Classification）、最小ノルム法、又はＥＳＰＲＩＴ（Estimation of Signal Parameters via Rotational Invariance Techniques）などが用いられる。

【0057】

マイクデバイス５０は、到来方向推定モデルに、マイクロホン５１－１～５１－５から受信した音声信号を入力することで、マイクロホン５１－１～５１－５により集音された発話音の到来方向（つまり、マイクデバイス５０に対する発話音の音源の方向）を推定する。このとき、マイクデバイス５０は、例えば、マイク座標系において、マイクロホン５１－１～５１－５を基準として定められた基準方向（本実施形態においては、マイクデバイス５０の前方（ｘ＋方向））を０度とする軸からの偏角で発話音の到来方向を表現する。図７に示される例では、マイクデバイス５０は、話者ＰＲ１から発せられた発話音の到来方向を、ｘ軸から右方向に角度Ａ１ずれた方向と推定する。マイクデバイス５０は、話者ＰＲ２から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ２ずれた方向と推定する。マイクデバイス５０は、話者ＰＲ３から発せられた発話音の到来方向を、ｘ軸から左方向に角度Ａ３ずれた方向と推定する。

【0058】

ステップＳ１５１の後、マイクデバイス５０は、音声信号の抽出（Ｓ１５２）を実行する。
マイクデバイス５０が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。

【0059】

マイクデバイス５０は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

【0060】

図７に示される例では、マイクデバイス５０は、計算された角度Ａ１をビームフォーミングモデルに入力し、ｘ軸から右方向に角度Ａ１ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス５０は、計算された角度Ａ２をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ２ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス５０は、計算された角度Ａ３をビームフォーミングモデルに入力し、ｘ軸から左方向に角度Ａ３ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。

【0061】

マイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ１について計算したパラメータで増幅、又は減衰させる。マイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ１に対応する方向の音源から到来した発話音についての音声信号を抽出する。

【0062】

マイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ２について計算したパラメータで増幅、又は減衰させる。マイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ２に対応する方向の音源から到来した発話音についての音声信号を抽出する。

【0063】

マイクデバイス５０は、マイクロホン５１－１～５１－５から取得した音声信号を、角度Ａ３について計算したパラメータで増幅、又は減衰させる。マイクデバイス５０は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度Ａ３に対応する方向の音源から到来した発話音についての音声信号を抽出する。

【0064】

マイクデバイス５０は、抽出した音声信号を、ステップＳ１５１において推定した当該音声信号に対応する音源の方向を示す情報（つまり、マイクデバイス５０に対する音源の方向の推定結果であり、以下、「到来方向情報」という）とともに、コントローラ３０へ送信する（Ｓ１５３）。

【0065】

換言すれば、マイクデバイス５０は、音源として特定された方向についてのみ音声信号を抽出（強調）し、それ以外の方向についての音声信号を抑圧（消去）して、コントローラ３０へ送信する。これにより、送信する音声信号のデータ量を抑制しながら、音声認識対象として優先度の高い音声信号を効率的にコントローラ３０に提供することができる。

【0066】

なお、複数の音源が特定された場合には、マイクデバイス５０は、各音源の音声信号をバッファリングしておき、順番にコントローラ３０へ送信してもよい。これにより、複数人が同時に発話した場合であっても、各話者の発話内容に対して個別にメタ情報の生成及び音声認識処理を行うことができる。

【0067】

（４－２）発話情報表示処理
本実施形態の発話情報表示処理について説明する。図８は、本実施形態の発話情報表示処理（コントローラ側）のフローチャートである。図９は、本実施形態の発話情報表示処理（ディスプレイデバイス側）のフローチャートである。図１０は、本実施形態の発話情報表示処理において表示される画面例を示す図である。

【0068】

本実施形態の発話情報表示処理は、例えば本実施形態のマイクロホン処理とともに開始され得る。
図８に示すように、コントローラ３０は、到来方向情報および音声信号の取得（Ｓ１３０）を実行する。
具体的には、コントローラ３０は、本実施形態のマイクロホン処理の結果、マイクデバイス５０から送信された到来方向情報および音声信号（以下、便宜的に「第１音声信号」という）を取得する。

【0069】

ステップＳ１３０の後に、コントローラ３０は、音源の識別（Ｓ１３１）を実行する。
具体的には、コントローラ３０は、ステップＳ１３０において取得した到来方向情報、すなわち音源の方向（以下、「対象方向」という）の推定結果に基づいて、マイクデバイス５０の周囲に存在する音源を識別する。

【0070】

一例として、コントローラ３０は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定し、当該対象方向に対応する音源が識別済みの音源でない場合に、新たな音源ＩＤ（図４）を割り当てる。具体的には、コントローラ３０は、対象方向を、識別済みの音源についての音源方向情報（図４）と比較する。そして、コントローラ３０は、対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、当該対象方向に対応する音源を、適合した音源方向情報を持つ（識別済みの）音源として扱う。他方、コントローラ３０は、対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出し、当該新たな音源に新規の音源ＩＤを付与する。ここで、対象方向が音源方向情報に適合することとは、少なくとも対象方向が音源方向情報の示す方向に一致することを含み、さらに対象方向の音源方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。

【0071】

ステップＳ１３１において識別された音源が、前回の発話情報表示処理（図８）の実行時の当該ステップＳ１３１において識別された音源と同一でなかった場合に、コントローラ３０は、第１メタ情報の取得（Ｓ１３２）を実行する。
具体的には、コントローラ３０は、音源データベース（図４）を参照し、ステップＳ１３１において識別された音源に対応する音源情報（特に、音源名情報および表現情報）を取得する。コントローラ３０は、取得した情報に基づいて、第１音声信号がいずれの話者（音源）に由来するかを表すテキスト情報を第１メタ情報に対応するテキスト情報として生成する。

【0072】

ステップＳ１３２において、オプションとして、コントローラ３０は、例えばステップＳ１３０において取得した音声信号に基づいて、当該音声信号の音源である話者の感情を推定してもよい。そして、コントローラ３０は、話者の感情の推定結果（例えば喜怒哀楽のいずれか）を表すテキスト情報を第１メタ情報に対応するテキスト情報の一部として生成してもよい。

【0073】

ステップＳ１３２において、別のオプションとして、コントローラ３０は、例えばステップＳ１３０において取得した音声信号に基づいて、当該音声信号の音源である話者の発話速度を判定してもよい。一例として、コントローラ３０は、話者の発話速度を計算し、当該発話速度が閾値を上回っていれば発話速度が速すぎると判定し、そうでなければ発話速度が適切と判定する。別の例として、コントローラ３０は、音声信号に対して音声認識処理を行い、認識率が閾値を下回っていれば発話速度が速すぎると判定し、そうでなければ発話速度が適切と判定する。認識率は、例えば、発話時間長に対して認識された単語の数で計算可能である。そして、コントローラ３０は、話者の発話速度の判定結果（例えば適切か速すぎるか）を表すテキスト情報（例えば、「早口気味です」、または「もう少しゆっくりしゃべりましょう」）を第１メタ情報に対応するテキスト情報の一部として生成してもよい。

【0074】

ステップＳ１３２において、さらなる別のオプションとして、コントローラ３０は、例えばステップＳ１３０において取得した音声信号に基づいて、当該音声信号の音源である話者の発話の明瞭さを判定してもよい。一例として、コントローラ３０は、音声信号に対して音声認識処理を行い、認識率が閾値を下回っていれば発話が明瞭でないと判定し、そうでなければ発話が明瞭と判定する。そして、コントローラ３０は、話者の発話の明瞭さの判定結果（例えば明瞭か明瞭でないか）を表すテキスト情報（例えば、「語尾をはっきりましょう」）を第１メタ情報に対応するテキスト情報の一部として生成してもよい。

【0075】

ステップＳ１３２の後に、コントローラ３０は、第１メタ音声信号の取得（Ｓ１３３）を実行する。
具体的には、コントローラ３０は、ステップＳ１３２において取得した第１メタ情報に対応するテキスト情報に対して、音声合成処理を行うことで、第１メタ情報に対応する音声情報である第１メタ音声信号を取得する。第１メタ音声信号は、第１メタ情報に対応する音声を表す。

【0076】

ステップＳ１３３の後に、コントローラ３０は、音声信号の結合（Ｓ１３４）を実行する。
具体的には、コントローラ３０は、ステップＳ１３３において取得した第１メタ音声信号の後に、ステップＳ１３０において取得した第１音声信号を結合することで、音声信号（以下、便宜的に「第２音声信号」という）を生成する。

【0077】

ステップＳ１３４の後、コントローラ３０は、音声信号の出力（Ｓ１３５）を実行する。
具体的には、コントローラ３０は、ステップＳ１３４において生成した第２音声信号を外部装置へ出力する。外部装置は、例えばディスプレイデバイス１０であるが、これに限られず音声認識エンジン、または音声認識エンジンにアクセス可能な別の情報処理装置であってもよい。

【0078】

なお、ステップＳ１３１において識別された音源が、前回の発話情報表示処理（図８）の実行時の当該ステップＳ１３１において識別された音源と同一であった場合に、コントローラ３０は、第１メタ情報の取得（Ｓ１３２）、第１メタ音声情報の取得（Ｓ１３３）、および音声信号の結合（Ｓ１３４）の実行をスキップする。この場合に、コントローラ３０は、Ｓ１３５において、第２音声信号ではなく第１音声信号を外部装置へ出力する。かかる分岐は必須ではないが、これにより、同一の話者が継続して発話している場合に、第１メタ情報に対応する音声情報の挿入を省略できるので、コントローラ３０から出力される音声信号が冗長となることを防ぐことができる。その結果、その後の音声認識処理における悪影響（発話からテキスト表示までの遅延の増加、後述する圧縮による認識率の低下）を防ぐことができる。

【0079】

コントローラ３０は、音声信号の出力（Ｓ１３５）において、出力する音声信号（第２音声信号または第１音声信号）の少なくとも一部の区間において、等倍を超える速度で再生されるように音声を加工（以下、「圧縮」という）してもよい。一例として、コントローラ３０は、第２音声信号のうち第１メタ音声信号に相当する部分の少なくとも一部の区間（例えば無音区間）を圧縮してもよい。別の例として、コントローラ３０は、第２音声信号のうち第１音声信号に相当する部分の少なくとも一部の区間（例えば無音区間）を圧縮してもよい。また別の例として、コントローラ３０は、出力する音声信号の全体を圧縮してもよい。

【0080】

ステップＳ１３５の後、図９に示すように、ディスプレイデバイス１０は、音声信号の取得（Ｓ１１０）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ１３５においてコントローラ３０によって出力された音声信号を取得する。

【0081】

ステップＳ１１０の後、ディスプレイデバイス１０は、音声認識（Ｓ１１１）を実行する。
一例として、ディスプレイデバイス１０が備える記憶装置には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。別の例として、音声認識モデルは、ディスプレイデバイス１０が備える記憶装置の代わりに、ディスプレイデバイス１０がネットワーク（例えばインターネット）を介してアクセス可能な外部装置（例えばクラウドサーバ）に保存されていてもよい。

【0082】

ディスプレイデバイス１０は、音声認識モデルに、ステップＳ１１０において取得した音声信号を入力することで、入力した音声信号に対応するテキスト情報を得る。ディスプレイデバイス１０は、音声信号に対応する音源の認識言語情報に基づいて音声認識エンジンを選択してもよい。

【0083】

ディスプレイデバイス１０は、音声認識（Ｓ１１１）において、オプションとして、音声認識処理に加えて機械翻訳処理を実行してもよい。
具体的には、ディスプレイデバイス１０は、コントローラ３０がステップＳ１３０において取得した第１音声信号に対応する音源に翻訳言語情報が設定されている場合に、第２音声信号に対して音声認識処理に加えて機械翻訳処理を行う。これにより、ディスプレイデバイス１０は、翻訳言語情報によって指定された言語のテキスト情報を得る。ディスプレイデバイス１０は、第１音声信号に対応する音源の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。ディスプレイデバイス１０は、本オプションを採用する場合であっても、ステップＳ１３０において取得した第１音声信号に対応する音声の音源に翻訳言語情報が設定されていない場合に、機械翻訳処理を省略し、音声認識処理のみを行ってもよい。

【0084】

ステップＳ１１１の後、ディスプレイデバイス１０は、テキスト出力（Ｓ１１２）を実行する。
具体的には、ディスプレイデバイス１０は、ステップＳ１１１における音声認識処理の結果（または上述の機械翻訳処理の結果）に基づくテキスト情報を表示部に表示する。

【0085】

一例として、ディスプレイデバイス１０は、音声認識（Ｓ１１１）およびテキスト出力（Ｓ１１２）を、任意の音声認識アプリケーションまたは音声認識ＳａａＳにより実現してもよい。すなわち、ディスプレイデバイス１０は、第２音声信号（または第１音声信号）を、音声認識アプリケーション（または音声認識ＳａａＳ）の入力として提供し、当該音声認識アプリケーションのＵＩ（User Interface）（これは、ディスプレイデバイス１０によって提示される）上に認識結果であるテキストを表示してもよい。

【0086】

本ステップにおいて表示される画面例を図１０に示す。図１０の画面は、音声認識アプリケーション（または音声認識ＳａａＳ）のＵＩに相当し、当該音声認識アプリケーションに提供した入力音声信号の音声認識結果であるテキスト情報を時系列（入力順）に表示する。例えば、オブジェクトＪ２０は、２０２２年８月２日９時００分００秒に、音声認識アプリケーションに入力された音声信号の音声認識結果を表示する。オブジェクトＪ２０は、話者の発言内容（第１音声信号）に基づくテキスト情報に加え、当該発言がいずれの話者（音源）に由来するかを表すテキスト情報Ｔ２０ａを表示する。テキスト情報Ｔ２０ａは、第１メタ音声信号の音声認識結果を示す情報である。

【0087】

（４－３）音源設定処理
本実施形態の音源設定処理について説明する。図１１は、本実施形態の音源設定処理のフローチャートである。図１２は、本実施形態の音源設定処理において表示される画面の例を示す図である。図１３は、本実施形態の音源設定処理において表示される画面の例を示す図である。

【0088】

図１１に示す音源設定処理は、図７に示すマイクロホン処理の開始後に、情報処理システム１のユーザによる指示に応じて開始する。ただし、図１１に示す音源設定処理の開始タイミングはこれに限定されない。例えば、図１１の処理は、図７に示すマイクロホン処理の開始前の初期設定処理として実行されてもよい。

【0089】

図１１に示すように、コントローラ３０は、画面表示（Ｓ２３０）を実行する。
具体的には、コントローラ３０は、ユーザが音源情報および各メタ情報の通知の有効化／無効化を設定するための音源設定ＵＩをディスプレイデバイス１０に表示する。一例として、コントローラ３０は、図１２の画面をディスプレイデバイス１０に表示する。

【0090】

図１２の画面は、オブジェクトＪ３０～Ｊ３６を含む。
オブジェクトＪ３０は、個別設定を行う話者（音源）を選択するためのユーザ指示を受け付ける。一例として、オブジェクトＪ３０は、音源データベースに登録されている各レコードの音源名情報が列挙されたプルダウンリストを表示し、いずれかを選択するユーザ指示を受け付ける。

【0091】

オブジェクトＪ３１は、オブジェクトＪ３０において選択されている話者に対する個別設定を開始するためのユーザ指示を受け付ける。

【0092】

オブジェクトＪ３２は、バッテリに関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。バッテリに関するメタ情報の説明は後述する。コントローラ３０は、オブジェクトＪ３２に対する選択に応じて、バッテリに関するメタ情報の通知の有効化／無効化を切り替える。

【0093】

オブジェクトＪ３３は、環境音に関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。環境音に関するメタ情報の説明は後述する。コントローラ３０は、オブジェクトＪ３３に対する選択に応じて、環境音に関するメタ情報の通知の有効化／無効化を切り替える。

【0094】

オブジェクトＪ３４は、感情に関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。感情に関するメタ情報は発話情報表示処理に関して説明したとおりである。コントローラ３０は、オブジェクトＪ３４に対する選択に応じて、感情に関するメタ情報の通知の有効化／無効化を切り替える。

【0095】

オブジェクトＪ３５は、発話速度に関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。発話速度に関するメタ情報は発話情報表示処理に関して説明したとおりである。コントローラ３０は、オブジェクトＪ３５に対する選択に応じて、発話速度に関するメタ情報の通知の有効化／無効化を切り替える。

【0096】

オブジェクトＪ３６は、発話の明瞭さに関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。発話の明瞭さに関するメタ情報は発話情報表示処理に関して説明したとおりである。コントローラ３０は、オブジェクトＪ３６に対する選択に応じて、発話の明瞭さに関するメタ情報の通知の有効化／無効化を切り替える。

【0097】

ステップＳ２３０の後に、コントローラ３０は、音源の選択（Ｓ２３１）を実行する。
具体的には、コントローラ３０は、ステップＳ２３０において表示した画面上での操作に応じて、音源情報（特に、音源名情報および表現情報）の設定対象となる話者（音源）を選択する。一例として、コントローラ３０は、オブジェクトＪ３０およびオブジェクトＪ３１に対するユーザ指示に応じて、オブジェクトＪ３０で指定された音源を選択し、図１３に示す画面をディスプレイデバイス１０に表示する。

【0098】

図１３の画面は、オブジェクトＪ４０～Ｊ４３を含む。
オブジェクトＪ４０は、設定対象として選択されている話者が、マイク座標系においてどの方向にあるかを示す情報（画像）を表示する。コントローラ３０は、かかる情報を、設定対象として選択されている話者（音源）に対応する音源方向情報に基づいて生成する。

【0099】

オブジェクトＪ４１は、設定対象として選択されている話者に対応する音源名情報の指定を受け付ける。オブジェクトＪ４１は、例えばテキストフィールドである。

【0100】

オブジェクトＪ４２は、設定対象として選択されている話者に対応する表現情報の指定を受け付ける。オブジェクトＪ４２は、選択可能な表現情報が列挙されたプルダウンリストを表示し、いずれかを選択するユーザ指示を受け付ける。

【0101】

オブジェクトＪ４３は、オブジェクトＪ４１に対する入力、およびオブジェクトＪ４２に対する入力を確定させるためのユーザ指示を受け付ける。

【0102】

ステップＳ２３１の後に、コントローラ３０は、音源情報の取得（Ｓ２３２）を実行する。
具体的には、コントローラ３０は、ステップＳ２３１において選択した音源に設定する音源情報をユーザ指示に応じて取得する。一例として、コントローラ３０は、選択した音源についての音源名情報または表現情報の少なくとも１つを取得する。図１３の例によれば、コントローラ３０は、オブジェクトＪ４３が選択されると、オブジェクトＪ４１に対する入力、およびオブジェクトＪ４２に対する入力に基づいて音源情報および表現情報を取得し、図１２に示す画面をディスプレイデバイス１０に表示する。

【0103】

ステップＳ２３２の後に、コントローラ３０は、音源情報の更新（Ｓ２３３）を実行する。
具体的には、コントローラ３０は、音源データベース（図４）において、ステップＳ２３１において選択した音源を識別する音源ＩＤに対応するレコードを、ステップＳ２３２において取得した音源情報に基づいて更新する。

【0104】

ステップＳ２３３を以て、コントローラ３０は、図１１に示す音源設定処理を終了してもよい。或いは、コントローラ３０は、ユーザが音源設定処理の終了を指示するまで、音源設定処理を繰り返し実行してもよい。

【0105】

（４－４）非発話情報表示処理
本実施形態の非発話情報表示処理について説明する。図１４は、本実施形態の非発話情報表示処理（コントローラ側）のフローチャートである。

【0106】

本実施形態の非発話情報表示処理は、例えば本実施形態のマイクロホン処理または発話情報表示処理とともに開始され得る。

【0107】

図１４に示すように、コントローラ３０は、通知条件の判定（Ｓ３３０）を実行する。
具体的には、コントローラ３０は、有効化されている通知条件について、当該通知条件が成立するか否かを判定する。通知条件は、人の発話に依存しないメタ情報（以下、「第２メタ情報」という）毎に定められる。

【0108】

通知条件の第１例は、ディスプレイデバイス１０、コントローラ３０、またはマイクデバイス５０の少なくとも１つのバッテリ残量が閾値を下回ること、である。閾値は、固定であってもよいし、ユーザによって設定可能であってもよい。また、コントローラ３０は、ディスプレイデバイス１０またはマイクデバイス５０からバッテリ残量の情報を取得してもよい。かかる通知条件が成立する場合に、バッテリ残量が低下していることを表すテキストが出力されることになる。

【0109】

通知条件の第２例は、マイクデバイス５０から取得した音声信号が環境音（例えば、ノック音、アラーム音、サイレン、など）と判定されること、である。環境音の判定は、例えばマイクデバイス５０から取得した音声信号を用いて学習済みモデルによって行われてもよい。かかる通知条件が成立する場合に、判定された環境音の種別を表すテキストが出力されることになる。

【0110】

通知条件の第３例は、スケジュールされているユーザの予定の終了または開始の所定時間前であること、である。コントローラ３０は、スケジュールされているユーザの予定の情報（例えば、予定の名称、開始時刻、または終了時刻の少なくとも１つ）を、例えば、スケジュールのためのアプリケーションまたはＳａａＳから取得可能である。かかる通知条件が成立する場合に、スケジュールされているユーザの予定の終了または開始が近いことを表すテキストが出力されることになる。

【0111】

ステップＳ３３０において、有効化されている通知条件のいずれかが成立すると判定した場合に、コントローラ３０は、第２メタ情報の取得（Ｓ３３１）を実行する。
具体的には、コントローラ３０は、ステップＳ３３０において成立すると判定された通知条件に対応するテキスト情報を第２メタ情報として生成する。

【0112】

ステップＳ３３１の後に、コントローラ３０は、第２メタ音声信号の取得（Ｓ３３２）を実行する。
具体的には、コントローラ３０は、ステップＳ３３１において取得した第２メタ情報に対応するテキスト情報に対して、音声合成処理を行うことで、第２メタ情報に対応する音声情報である第２メタ音声信号を取得する。第２メタ音声信号は、第２メタ情報に対応する音声を表す。

【0113】

ステップＳ３３２の後、コントローラ３０は、音声信号の出力（Ｓ３３３）を実行する。
具体的には、コントローラ３０は、ステップＳ３３２において取得した第２メタ音声信号を外部装置へ出力する。外部装置は、例えばディスプレイデバイス１０であるが、これに限られず音声認識エンジン、または音声認識エンジンにアクセス可能な別の情報処理装置であってもよい。

【0114】

ステップＳ３３３の後、ディスプレイデバイス１０は、図９と同様に、音声信号の取得（Ｓ１１０）、音声認識（Ｓ１１１）、およびテキスト出力（Ｓ１１２）を実行し得る。つまり、ディスプレイデバイス１０は、第２メタ音声信号を第２音声信号と同様に扱うことができる。

【0115】

なお、コントローラ３０は、第２メタ音声信号の出力（Ｓ３３３）の実行を無音区間の到来まで待機してもよい。一例として、コントローラ３０は、発話情報表示処理（図８）のステップＳ１３０において取得される音声信号の音量が閾値を一定期間下回るまで、第２メタ音声信号の出力（Ｓ３３３）の実行を保留してもよい。これにより、話者が発話してから発話内容のテキストが表示されるまでの遅延を抑制しながら、第２メタ情報に基づく通知を適時に行うことができる。

【0116】

（５）小括
以上説明したように、本実施形態のコントローラ３０は、マイクデバイス５０による集音に基づく第１音声情報と、当該第１音声情報に関する第１メタ情報を取得する。コントローラ３０は、第１音声情報と、第１メタ情報に対応する音声情報とを出力する。これにより、第１メタ情報も第１音声情報と同様に、音声認識エンジンの入力として利用することができる。

【0117】

コントローラ３０は、第１音声情報と、第１メタ情報に対応する音声情報とを音声認識エンジン、または音声認識エンジンにアクセス可能な別の情報処理装置（例えばディスプレイデバイス１０）に出力してもよい。これにより、第１音声情報と、第１メタ情報に対応する音声情報との音声認識結果を、話者の発言内容に加えて、例えば話者が誰であるかなどの発言に関する補足的な情報を伝えるために利用することができる。

【0118】

第１メタ情報は、第１音声情報に対応する音源に関する情報を含んでもよい。これにより、ディスプレイデバイス１０を見た者は、話者の発言内容に加えて、当該話者（音源）に関する補足的な情報を把握することができる。

【0119】

第１音声情報に対応する音源に関する情報は音源の方向、または当該音源の名称の少なくとも１つを示す情報を含んでもよい。これにより、ディスプレイデバイス１０を見た者は、話者の発言内容に加えて、話者が居る方向、または話者の名称の少なくとも１つを把握することができる。

【0120】

第１メタ情報は、第１音声情報の属性に関する情報を含んでもよい。これにより、ディスプレイデバイス１０を見た者は、話者の発言内容に加えて、発話態様などの第１音声情報の属性を把握することができる。

【0121】

第１音声情報の属性に関する情報は、話者の感情、発話速度、または発話の明瞭さの少なくとも１つを示す情報を含んでもよい。これにより、ディスプレイデバイス１０を見た者は、話者の発話内容に加えて当該話者の感情、発話速度、または発話の明瞭さを把握することができる。

【0122】

コントローラ３０は、第１メタ情報とは異なる第２メタ情報を取得し、さらに、第２メタ情報に対応する音声情報を出力してもよい。これにより、さらに第２メタ情報も第１音声情報および第１メタ情報と同様に、音声認識エンジンの入力として利用することができる。

【0123】

第２メタ情報は、ディスプレイデバイス１０、コントローラ３０、もしくはマイクデバイス５０の少なくとも１つのバッテリ残量に関する情報、第１音声情報の音源種別に関する情報、またはスケジュールされている予定に関する情報の少なくとも１つを含んでもよい。これにより、ディスプレイデバイス１０を見た者は、さらに、バッテリ残量に関する情報、環境音の種別に関する情報、またはユーザのスケジュールされている予定に関する情報を把握することができる。

【0124】

コントローラ３０は、発話者の切り替わりを検知してもよい。コントローラ３０は、第１発話者から第２発話者への切り替えが検知された場合に、第１発話者からの第１音声情報を出力してから、第２発話者からの第１音声情報を出力するまでの間に、第１発話者または第２発話者からの第１音声情報に関する第１メタ情報に対応する音声情報を出力してもよい。これにより、同一の話者が継続して発話している場合に、第１メタ情報に対応する音声情報の挿入を省略できるので、音声認識結果が冗長となることを防ぎ、かつ、音声認識処理の入力（音声信号）長が過度に長くなることによる悪影響（発話からテキスト表示までの遅延の増加、圧縮による認識率の低下）を防ぐことができる。

【0125】

第１音声情報は、マイクデバイス５０の備える複数のマイクロホンによって集音された音声信号に、当該複数のマイクロホンに対して特定の方向から到来する音声を強調するビームフォーミング処理を行うことで生成された音声情報であってもよい。これにより、複数の話者が同時に発話した場合であっても、各話者の発言内容について個別に処理を行うことができる。

【0126】

コントローラ３０は、ディスプレイデバイス１０とともに情報処理システム１を構成してもよい。ディスプレイデバイス１０は、コントローラ３０によって出力された第１音声情報と、第１メタ情報に対応する音声情報とを取得してもよい。ディスプレイデバイス１０は、第１音声情報に対して音声認識処理を行うことで得られた第１テキスト情報と、第１メタ情報に対応する音声情報に対して音声認識処理を行うことで得られた第２テキスト情報とを表示部に表示してもよい。これにより、ディスプレイデバイス１０の表示部を見た者は、話者の発言内容に加えて、例えば話者が誰であるかなどの発言に関する補足的な情報を把握することができる。加えて、音声をテキストに変換するという音声認識エンジンの基本的な機能を利用して、話者の発言内容に留まらず当該発言に関する補足的な情報を音声認識結果に埋め込むことができる。換言すれば、かかるコントローラ３０は、特殊な機能を備えた音声認識手段（音声認識エンジン）や音声認識手段のカスタマイズを要しないので、任意の音声認識手段を採用することができ、汎用性が高い。

【0127】

ディスプレイデバイス１０は、第１音声情報および第１メタ情報に対応する音声情報を音声認識エンジンに出力することで、第１テキスト情報および第２テキスト情報を表示部に表示してもよい。これにより、任意の音声認識アプリケーションまたは音声認識ＳａａＳのＵＩを利用してテキスト情報を取得および提示することができる。

【0128】

第１メタ情報に対応する音声情報は、第１メタ情報に対応するテキスト情報を音声合成することで得られた音声情報を、少なくとも一部の区間において等倍を超える速度で再生（つまり、圧縮）することで得られた音声情報であってもよい。これにより、音声認識処理の入力（音声信号）長が過度に長くなることによる悪影響（発話からテキスト表示までの遅延の増加）を防ぐことができる。

【0129】

ディスプレイデバイス１０は、第１テキスト情報の直前に位置するように第２テキスト情報を表示部に表示してもよい。これにより、ディスプレイデバイス１０の表示部を見た者は、第２テキスト情報が、第１テキスト情報を補足していることを容易に理解することができる。なお、ディスプレイデバイス１０は、第１テキスト情報の直後に位置するように第２テキスト情報を表示部に表示することも可能である。また、ディスプレイデバイス１０は、例えば表現情報により、第２テキスト情報が第１テキスト情報の直前に配置されるか直後に配置されるかを切り替えてもよい。

【0130】

第１音声情報は、マイクデバイス５０による集音に基づき生成された音声情報を、少なくとも一部の区間において等倍を超える速度で再生（つまり圧縮）することで得られた音声情報であってもよい。これにより、音声認識処理の入力（音声信号）長が過度に長くなることによる悪影響（発話からテキスト表示までの遅延の増加）を防ぐことができる。

【0131】

（６）その他の変形例
記憶装置３１は、ネットワークを介して、コントローラ３０と接続されてもよい。

【0132】

上記の情報処理の各ステップは、ディスプレイデバイス１０、コントローラ３０及びマイクデバイス５０の何れでも実行可能である。例えば、コントローラ３０は、マイクデバイス５０によって生成された音声信号を取得し、到来方向の推定（Ｓ１５１）、および音声信号の抽出（Ｓ１５２）を行ってもよい。

【0133】

上記説明では、ディスプレイデバイス１０およびコントローラ３０が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス１０およびコントローラ３０は一体化されてもよい。例えば、ディスプレイデバイス１０およびコントローラ３０が１台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マイクデバイス５０とディスプレイデバイス１０またはコントローラ３０とが一体化されてもよい。また例えば、コントローラ３０がクラウドサーバ内に存在してもよい。

【0134】

上記説明では、ディスプレイデバイス１０が、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス１０は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス１０は、グラス型ディスプレイデバイス、ヘッドマウントディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス１０は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス１０の形式はこれに限定されない。例えば、ディスプレイデバイス１０はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス１０はカメラを備えてもよい。そしてディスプレイデバイス１０は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、表示部に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス１０は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してＡＲ（Augmented Reality）表示を行ってもよい。

【0135】

ディスプレイデバイス１０の表示部は、ユーザに画像を提示することができれば、その実現方法は問わない。表示部は、例えば、以下の実現方法により実現可能である。
・光学素子（一例として、導光板）を用いたＨＯＥ（Holographic optical element）又はＤＯＥ（Diffractive optical element）
・液晶ディスプレイ
・網膜投影ディスプレイ
・ＬＥＤ（Light Emitting Diode）ディスプレイ
・有機ＥＬ（Electro Luminescence）ディスプレイ
・レーザディスプレイ
・光学素子（一例として、レンズ、ミラー、回折格子、液晶、ＭＥＭＳミラー、ＨＯＥ）を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。

【0136】

上述した実施形態では、コントローラ３０の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス１０の備える操作部からユーザの指示が入力されてもよい。

【0137】

マイクデバイス５０による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マイクデバイス５０は、例えば、以下の方法により音声信号を抽出してもよい。
・Ｆｒｏｓｔビームフォーマ
・適応フィルタビームフォーミング（一例として、一般化サイドローブキャンセラ）
・ビームフォーミング以外の音声抽出方法（一例として、周波数フィルタ、又は機械学習）

【0138】

上記説明では、マイクデバイス５０が複数のマイクロホンを備えることを前提に述べた。しかしながら、例えば音源の方向を推定する代わりに、声紋による話者識別を行う場合には、単一のマイクロホンのみを備えたマイクデバイス５０が利用可能である。すなわち、コントローラ３０は、声紋認識によって特定された話者を示す情報を第１メタ情報として取得してもよい。

【0139】

上記説明では、第１メタ音声信号に第１音声信号を結合する例を示した。しかしながら、コントローラ３０は、これらを結合する代わりに、連続した入力として音声認識エンジンに提供してもよい。

【0140】

上記説明では、感情、発話速度、または発話の明瞭さに関するメタ情報に基づく音声信号を、発話内容を表す音声信号と結合してからテキスト化し、表示する例を示した。しかしながら、これらのメタ情報に基づく音声信号は、発話内容を表す音声信号とは独立してテキスト化および表示されてもよい。例えば、発話内容を表す音声信号と結合させることなく、メタ情報に基づく音声信号をテキスト化し、例えば「Ａさんは楽しそうです。」というテキスト情報が表示されてもよい。また、これらのメタ情報の通知の有効化／無効化は話者毎に固定されてもよいし、ユーザによって設定可能としてもよい。発話速度、または発話の明瞭に関するメタ情報の通知は、自己の発話態様の認識が困難な者（例えば難聴者）に相当するユーザについてのみ有効化されてもよい。これにより、かかる者がうまく発話できるように補助することができる。

【0141】

上記説明では、発言毎に当該発言の話者を示す第１メタ情報を取得する例を示した。しかしながら、コントローラ３０は、複数の発言が略同時に行われた場合に、これら複数の話者を示す第１メタ情報に対応するテキスト情報（例えば、「ＡさんとＢさんが話しています」）を取得してもよい。これにより、短時間に第１メタ情報に関する音声認識処理の入力（音声信号）が集中することによる悪影響（発話からテキスト表示までの遅延の増加）を防ぐことができる。

【0142】

上記説明では、メタ情報に対応するテキスト情報を音声合成することで得られた音声情報を音声認識アプリ（または音声認識ＳａａＳ）に入力として提供する例を述べた。しかしながら、音声認識アプリの仕様次第では、コントローラ３０は例えばテキスト情報または識別子に相当するメタ情報を入力として提供し、音声認識アプリは当該メタ情報に基づくテキスト情報をディスプレイデバイス１０に表示してもよい。
また、コントローラ３０は、利用する音声認識アプリ（または音声認識ＳａａＳ）に応じて、例えば以下の少なくとも１つを変更してもよい。
・メタ情報の音声化に用いられる変換辞書
・メタ情報の圧縮方法
・音声認識アプリに入力として提供されるメタ情報のデータ形式（例えば、音声、テキスト、または識別子）
・メタ情報の内容

【0143】

以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。

【符号の説明】

【0144】

１：情報処理システム
１０：ディスプレイデバイス
３０：コントローラ
３１：記憶装置
３２：プロセッサ
３３：入出力インタフェース
３４：通信インタフェース
５０：マイクデバイス
５１：マイクロホン

【図1】