IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピクシーダストテクノロジーズ株式会社の特許一覧 ▶ 大日本住友製薬株式会社の特許一覧

特開2024-119506情報処理装置、方法、プログラム、およびシステム
<>
  • 特開-情報処理装置、方法、プログラム、およびシステム 図1
  • 特開-情報処理装置、方法、プログラム、およびシステム 図2
  • 特開-情報処理装置、方法、プログラム、およびシステム 図3
  • 特開-情報処理装置、方法、プログラム、およびシステム 図4
  • 特開-情報処理装置、方法、プログラム、およびシステム 図5
  • 特開-情報処理装置、方法、プログラム、およびシステム 図6
  • 特開-情報処理装置、方法、プログラム、およびシステム 図7
  • 特開-情報処理装置、方法、プログラム、およびシステム 図8
  • 特開-情報処理装置、方法、プログラム、およびシステム 図9
  • 特開-情報処理装置、方法、プログラム、およびシステム 図10
  • 特開-情報処理装置、方法、プログラム、およびシステム 図11
  • 特開-情報処理装置、方法、プログラム、およびシステム 図12
  • 特開-情報処理装置、方法、プログラム、およびシステム 図13
  • 特開-情報処理装置、方法、プログラム、およびシステム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024119506
(43)【公開日】2024-09-03
(54)【発明の名称】情報処理装置、方法、プログラム、およびシステム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20240827BHJP
   G10L 13/00 20060101ALI20240827BHJP
   G10L 21/043 20130101ALI20240827BHJP
   G10L 15/22 20060101ALI20240827BHJP
   H04R 3/00 20060101ALN20240827BHJP
【FI】
G06F3/16 610
G06F3/16 690
G06F3/16 640
G10L13/00 100Z
G10L21/043 100
G10L15/22 460Z
H04R3/00 320
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2023026464
(22)【出願日】2023-02-22
(71)【出願人】
【識別番号】517182918
【氏名又は名称】ピクシーダストテクノロジーズ株式会社
(71)【出願人】
【識別番号】000002912
【氏名又は名称】住友ファーマ株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】西村 晴輝
(72)【発明者】
【氏名】田畑 愛実
(72)【発明者】
【氏名】平岡 尚
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】話者の発言に関する補足的な情報を利用可能とする技術を提供する。
【解決手段】本開示の一態様の情報処理装置は、少なくとも1つのマイクロホンによって集音された第1音声情報を取得する手段と、第1音声情報に関するメタ情報を取得する手段と、第1音声情報とメタ情報に対応する音声情報である第2音声情報とを出力する手段とを具備する。
【選択図】図3
【特許請求の範囲】
【請求項1】
少なくとも1つのマイクロホンによる集音に基づく第1音声情報を取得する手段と、
前記第1音声情報に関するメタ情報を取得する手段と、
前記第1音声情報と前記メタ情報に対応する音声情報である第2音声情報とを出力する手段と、
を具備する情報処理装置。
【請求項2】
前記出力する手段は、前記第1音声情報と前記第2音声情報とを、音声認識エンジン、または音声認識エンジンにアクセス可能な他の情報処理装置に出力する、
請求項1に記載の情報処理装置。
【請求項3】
前記第2音声情報は、前記メタ情報に対応するテキスト情報に基づいて音声合成を行うことで得られた音声情報である、
請求項1に記載の情報処理装置。
【請求項4】
前記メタ情報は、前記第1音声情報に対応する音源に関する情報を含む、
請求項1に記載の情報処理装置。
【請求項5】
前記第1音声情報に対応する音源に関する情報は、当該音源の方向、当該音源の名称の少なくとも1つを示す情報を含む、
請求項4に記載の情報処理装置。
【請求項6】
前記メタ情報は、前記第1音声情報の属性に関する情報を含む、
請求項1に記載の情報処理装置。
【請求項7】
前記第1音声情報の属性に関する情報は、話者の感情、発話速度、または発話の明瞭さの少なくとも1つを示す情報を含む、
請求項6に記載の情報処理装置。
【請求項8】
前記第1音声情報に関するメタ情報とは異なる他のメタ情報を取得する手段と、
前記出力する手段は、さらに、前記他のメタ情報に対応する音声情報である第3音声情報を出力する、
請求項1に記載の情報処理装置。
【請求項9】
前記他のメタ情報は、前記情報処理装置、もしくは前記マイクロホンを搭載するマイクデバイスの少なくとも1つのバッテリ残量に関する情報、前記第1音声情報の音源種別に関する情報、またはスケジュールされている予定に関する情報の少なくとも1つを含む、
請求項8に記載の情報処理装置。
【請求項10】
前記出力する手段は、前記第2音声情報を前記第1音声情報の直後または直前に続けて出力する、
請求項1に記載の情報処理装置。
【請求項11】
発話者の切り替わりを検知する手段をさらに具備し、
前記出力する手段は、第1発話者から第2発話者への切り替えが検知された場合に、前記第1発話者の発話に基づく第1音声情報を出力してから、前記第2発話者の発話に基づく第1音声情報を出力するまでの間に、前記第1発話者または前記第2発話者の発話に基づく第1音声情報に関するメタ情報に対応する第2音声情報を出力する、
請求項1に記載の情報処理装置。
【請求項12】
前記第1音声情報は、前記マイクロホンにより集音された音声情報を、少なくとも一部の区間において等倍を超える速度で再生されるように加工することで得られた音声情報である、
請求項1に記載の情報処理装置。
【請求項13】
前記第1音声情報は、複数のマイクロホンによって集音された音声信号に、当該複数のマイクロホンに対して特定の方向から到来する音声を強調するビームフォーミング処理を行うことで生成された音声情報である、
請求項1に記載の情報処理装置。
【請求項14】
第1情報処理装置と第2情報処理装置とを具備するシステムであって、
前記第1情報処理装置は、請求項1に記載の情報処理装置であり、
前記第2情報処理装置は、
前記第1情報処理装置によって出力された前記第1音声情報と前記第2音声情報とを取得する手段と、
前記第1音声情報に対して音声認識処理を行うことで得られた第1テキスト情報と、前記第2音声情報に対して音声認識処理を行うことで得られた第2テキスト情報とを表示部に表示する手段と
を備える、
システム。
【請求項15】
前記第1テキスト情報と前記第2テキスト情報とを前記表示部に表示する手段は、前記第1音声情報と前記第2音声情報とを音声認識エンジンに出力することで、前記第1テキスト情報および前記第2テキスト情報を前記表示部に表示する、
請求項14に記載のシステム。
【請求項16】
コンピュータが、
少なくとも1つのマイクロホンによって集音された第1音声情報を取得するステップと、
前記第1音声情報に関するメタ情報を取得するステップと、
前記第1音声情報と前記メタ情報に対応する音声情報である第2音声情報とを出力するステップと
を実行する方法。
【請求項17】
コンピュータに、請求項1~請求項13の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、方法、プログラム、およびシステムに関する。
【背景技術】
【0002】
音声認識アプリケーション、または音声認識SaaS(Software as a Service)を用いることで、会議の文字起こしを容易に行うことができる。しかしながら、音声認識アプリケーションまたはSaaSの多くは、発言の内容そのものについてはテキストとして記録できるものの、誰がどの発言を行ったか、といった情報を表示することはできない。
【0003】
特許文献1には、テキストデータと音源位置とを紐づけ、ユーザが、テキストデータを選択することにより、音源位置の確認が可能となる技術思想が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2021-135453号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術思想では、音声データ、音源位置データ、およびタイムスタンプを対応させ、テキストには表れない情報をアイコン画像で表示するなどの機能を備える独自の音声認識装置が用いられる。換言すれば、特許文献1の技術思想は、同様の機能を備えていない多くの音声認識手段に適用することができない。
【0006】
本開示の目的は、話者の発言に関する補足的な情報を利用可能とする技術を提供することである。
【課題を解決するための手段】
【0007】
本開示の一態様の情報処理装置は、少なくとも1つのマイクロホンによって集音された第1音声情報を取得する手段と、第1音声情報に関するメタ情報を取得する手段と、第1音声情報とメタ情報に対応する音声情報である第2音声情報とを出力する手段とを具備する。
【図面の簡単な説明】
【0008】
図1】本実施形態の情報処理システムの構成を示すブロック図である。
図2】本実施形態のコントローラの構成を示すブロック図である。
図3】本実施形態の一態様の説明図である。
図4】本実施形態の音源データベースのデータ構造を示す図である。
図5】本実施形態のマイクロホン処理のフローチャートである。
図6】マイクロホンによる集音を説明するための図である。
図7】音源の方向を説明するための図である。
図8】本実施形態の発話情報表示処理(コントローラ側)のフローチャートである。
図9】本実施形態の発話情報表示処理(ディスプレイデバイス側)のフローチャートである。
図10】本実施形態の発話情報表示処理において表示される画面例を示す図である。
図11】本実施形態の音源設定処理のフローチャートである。
図12】本実施形態の音源設定処理において表示される画面の例を示す図である。
図13】本実施形態の音源設定処理において表示される画面の例を示す図である。
図14】本実施形態の非発話情報表示処理(コントローラ側)のフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0010】
以降の説明において、マイクデバイスの位置及び向きを基準とする座標系(マイク座標系)を用いることがある。マイク座標系は、マイクデバイスの位置(例えばマイクデバイスの重心位置)を原点とし、当該原点においてx軸およびy軸が直交する。マイク座標系において、x+方向をマイクデバイスの前方としたとき、x-方向をマイクデバイスの後方、y+方向をマイクデバイスの左方向、y-方向をマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。
【0011】
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
【0012】
図1に示すように、情報処理システム1は、ディスプレイデバイス10と、コントローラ30と、マイクデバイス50とを備える。
情報処理システム1には、複数のユーザが関与し得る。ユーザの少なくとも1人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい(つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい)。
【0013】
ディスプレイデバイス10およびコントローラ30は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetooth(登録商標)チャネル)を介して接続される。
同様に、コントローラ30およびマイクデバイス50は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetoothチャネル)を介して接続される。
【0014】
ディスプレイデバイス10は、1以上のディスプレイ(「表示部」の一例)を備える。ディスプレイデバイス10は、コントローラ30から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス10は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ装置、または会議用ディスプレイ装置などである。ディスプレイデバイス10は、ユーザの指示を取得するための入力デバイスまたは操作部を備えていてもよい。
【0015】
コントローラ30は、ディスプレイデバイス10およびマイクデバイス50を制御する。コントローラ30は、情報処理装置の一例である。コントローラ30は、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータである。
【0016】
マイクデバイス50は、ディスプレイデバイス10から独立して設置可能に構成されてよい。つまり、マイクデバイス50の位置および向きは、ディスプレイデバイス10の位置および向きから独立して決定することができる。
【0017】
(1-1)コントローラの構成
コントローラの構成について説明する。図2は、本実施形態のコントローラの構成を示すブロック図である。
【0018】
図2に示すように、コントローラ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0019】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0020】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
【0021】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0022】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、コントローラ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Array)
【0023】
入出力インタフェース33は、コントローラ30に接続される入力デバイスから情報(例えば、ユーザの指示、音声信号)を取得し、かつ、コントローラ30に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
入力デバイスは、例えば、マイクデバイス50、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイデバイス10である。
【0024】
通信インタフェース34は、コントローラ30と外部装置(例えば、ディスプレイデバイス10、およびマイクデバイス50)との間の通信を制御するように構成される。
【0025】
なお、ディスプレイデバイス10の構成も、図2に示すコントローラ30の構成と同様である。ただし、ディスプレイデバイス10は、画像を表示する表示部を備える。
【0026】
(1-2)マイクデバイスの構成
マイクデバイスの構成について説明する。
【0027】
マイクデバイス50は、少なくとも1つのマイクロホンを備える。以下の説明では、マイクデバイス50は、複数のマイクロホンを備えることとする。換言すれば、マイクデバイス50は、マルチマイクデバイスであることとする。マイクデバイス50は、マイクロホンを用いて、音源から発せられた音を受信(集音)することで音声信号(「音声情報」の一例)を生成する。また、マイクデバイス50は、集音した音声信号に基づいて、マイク座標系における音の到来方向(つまり、音源の方向)を推定する。また、マイクデバイス50は、集音した音声信号に対して、推定した音源の方向に応じて後述するビームフォーミング処理を行う。
【0028】
マイクロホンは、例えば、マイクデバイス50の周辺の音を集音する。マイクロホンにより集音される音には、例えば以下の少なくとも1つの音が含まれる。
・人物による発話音
・マイクデバイス50周辺の環境音
【0029】
マイクデバイス50には、例えば、筐体の表面にマイクデバイス50の基準方向(例えば、前方(つまり、x+方向)であるが、その他の所定の方向であってもよい)を示す目印が付されていてもよい。これにより、ユーザは、マイクデバイス50の向きを視覚情報から容易に認識することができる。なお、マイクデバイス50の向きを認識するための手段はこれに限られない。目印は、マイクデバイス50の筐体と一体化されていてもよい。
【0030】
マイクデバイス50は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マイクデバイス50は、当該マイクデバイス50の動き及び状態を検出するためにIMU(Inertial Measurement Unit)を備えることができる。
【0031】
(2)実施形態の一態様
本実施形態の一態様について説明する。図3は、本実施形態の一態様の説明図である。
【0032】
図3に示すように、コントローラ30は、マイクデバイス50から音声情報S11を取得する。音声情報S11は、例えば、話者であるAさんが発話した「おはようございます。本日はどうぞよろしくお願いいたします。」の音を、マイクデバイス50によって集音することで得られた音声波形の情報を備える。
【0033】
コントローラ30は、さらに、音声情報S11に依存するメタ情報M12を取得する。メタ情報M12は、例えば、音声情報S11に対応する音源(話者)が人物Aであることを表す識別子(例えば後述する音源ID)、または音声情報S11に対応する音源がある方向を表す情報(例えば後述する音源方向情報)である。コントローラ30は、メタ情報M12に基づいて、例えば「Aさんが話しています。」などのテキストを生成する。
【0034】
コントローラ30は、メタ情報M12に基づくテキストに対して音声合成処理を行うことで、メタ情報M12に対応する音声情報S13を生成する。音声合成処理は、コントローラ30の機能(音声合成エンジン)により実現されてもよいし、コントローラ30が例えばクラウドサーバなどの外部装置の機能(音声合成エンジン)を利用することで実現されてもよい。なお、コントローラ30がメタ情報M12として音声情報を外部から取得可能である場合には、音声合成処理は不要である。
【0035】
コントローラ30は、音声情報S13の後に音声情報S11を結合することで、音声情報S14を生成する。
【0036】
コントローラ30は、音声情報S14に対して音声認識処理を行うことで、テキスト情報T15を生成する。音声認識処理は、コントローラ30の機能(音声認識エンジン)により実現されてもよいし、コントローラ30が例えばクラウドサーバなどの外部装置の機能(音声認識エンジン)を利用することで実現されてもよい。テキスト情報T15は、音声情報S13に由来するテキスト情報「Aさんが話しています。」と、音声情報S11に由来するテキスト情報「おはようございます。本日はどうぞよろしくお願いいたします。」とを含む。
【0037】
コントローラ30は、テキスト情報T15をディスプレイデバイス10の画面に表示する。これにより、ディスプレイデバイス10を見た者は、話者の発言内容に加えて、例えば話者が誰であるかなどの発言に関する補足的な情報を把握することができる。このように、本実施形態によれば、音声をテキストに変換するという音声認識エンジンの基本的な機能を利用して、話者の発言内容に留まらず当該発言に関する補足的な情報を音声認識結果に埋め込むことができる。換言すれば、本実施形態のコントローラ30は、特殊な機能を備えた音声認識手段(音声認識エンジン)や音声認識手段のカスタマイズを要しないので、任意の音声認識手段を採用することができ、汎用性が高い。例えば、コントローラ30が音声情報S14を既存の音声認識アプリケーションに入力することで、本来は発言内容を表示する機能のみを有している既存の音声認識アプリケーションに、音源方向などの補足的な情報も表示させることができる。これによりユーザは、普段使い慣れている既存の音声認識アプリケーションを利用しつつ、従来は得られなかった補足的な情報を視覚的に得ることができる。
【0038】
(3)データベース
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
【0039】
(3-1)音源データベース
本実施形態の音源データベースについて説明する。図4は、本実施形態の音源データベースのデータ構造を示す図である。
【0040】
音源データベースには、音源情報が格納される。音源情報は、コントローラ30によって識別された、マイクデバイス50の周囲の音源(典型的には、話者)に関する情報である。
【0041】
図4に示すように、音源データベースは、「ID」フィールドと、「方向」フィールドと、「名称」フィールドと、「表現」フィールドとを含む。各フィールドは、互いに関連付けられている。
【0042】
「ID」フィールドには、音源IDが格納される。音源IDは、音源を識別する情報である。コントローラ30は、新たな音源を検出すると、新規の音源IDを発行し、当該音源IDを当該音源に割り当てる。
【0043】
「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マイクデバイス50に対する音源の方向に関する情報である。一例として、音源の方向は、マイク座標系において基準方向(本実施形態においては、マイクデバイス50の前方(x+方向))を0度とする軸からの偏角として表現される。
【0044】
「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ30は、音源名情報を、自動的に決定してもよいし、後述するようにユーザ指示に応じて設定してもよい。コントローラ30は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。
【0045】
「表現」フィールドには、表現情報が格納される。表現情報は、対応する音源名情報によって表される音源(話者)による音(音声)であることを示すテキストの表現パターン(テンプレート)に関する情報である。コントローラ30は、表現情報の示すテンプレートに、対応する音源名情報の示す音源名(話者名)を当てはめることで、音声情報が当該音源(話者)に由来することを表すテキスト(「メタ情報に対応するテキスト情報」の一例)を生成できる。
【0046】
その他、音源データベースに格納される音源情報は、以下の情報の少なくとも1つを含んでもよい。
・認識言語情報
・翻訳言語情報
・音源距離情報
【0047】
認識言語情報は、音源(話者)の使用言語に関する情報である。音源の認識言語情報に基づいて、当該音源から発生される音声に適用される音声認識エンジンが選択される。認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。
【0048】
翻訳言語情報は、音源から発せられる音声に対する音声認識結果(テキスト)に機械翻訳を適用する場合における目的言語に関する情報である。音源の翻訳言語情報に基づいて、当該音源から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の音源ではなく全音源に対して一括で設定されてもよいし、ディスプレイデバイス10毎に設定されてもよい。
【0049】
音源距離情報は、マイクデバイス50から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マイクデバイス50に対する音源の相対位置(つまり、マイクデバイス50の座標系における音源の座標)に関する情報である。
【0050】
(4)情報処理
本実施形態の情報処理について説明する。
【0051】
(4-1)マイクロホン処理
本実施形態のマイクロホン処理について説明する。図5は、本実施形態のマイクロホン処理のフローチャートである。図6は、マイクロホンによる集音を説明するための図である。図7は、音源の方向を説明するための図である。
【0052】
本実施形態のマイクロホン処理は、ディスプレイデバイス10、コントローラ30、およびマイクデバイス50の電源がONになり、かつ初期設定が完了した後に、例えばユーザ指示に応じて開始される。ただし、本実施形態のマイクロホン処理の開始タイミングはこれに限定されない。本実施形態のマイクロホン処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム1のユーザはリアルタイムに更新されるテキスト情報を閲覧することができる。
【0053】
マイクデバイス50は、マイクロホンを介して、音声信号の取得(S150)を実行する。
具体的には、マイクデバイス50が5個のマイクロホン51-1,・・・,51-5を備えていたとする。これら複数のマイクロホン51-1,・・・、51-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン51-1~51-5は、図6に示される複数のパスを介して到来した発話音を集音する。マイクロホン51-1~51-5は、集音した発話音を音声信号へ変換する。
【0054】
マイクデバイス50が備えるプロセッサは、マイクロホン51-1~51-5から、話者PR1,PR2,及びPR3の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン51-1~51-5から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報(例えば遅延や位相変化)が含まれている。
【0055】
ステップS150の後、マイクデバイス50は、到来方向の推定(S151)を実行する。
マイクデバイス50の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
【0056】
到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。
【0057】
マイクデバイス50は、到来方向推定モデルに、マイクロホン51-1~51-5から受信した音声信号を入力することで、マイクロホン51-1~51-5により集音された発話音の到来方向(つまり、マイクデバイス50に対する発話音の音源の方向)を推定する。このとき、マイクデバイス50は、例えば、マイク座標系において、マイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マイクデバイス50の前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する。図7に示される例では、マイクデバイス50は、話者PR1から発せられた発話音の到来方向を、x軸から右方向に角度A1ずれた方向と推定する。マイクデバイス50は、話者PR2から発せられた発話音の到来方向を、x軸から左方向に角度A2ずれた方向と推定する。マイクデバイス50は、話者PR3から発せられた発話音の到来方向を、x軸から左方向に角度A3ずれた方向と推定する。
【0058】
ステップS151の後、マイクデバイス50は、音声信号の抽出(S152)を実行する。
マイクデバイス50が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
【0059】
マイクデバイス50は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
【0060】
図7に示される例では、マイクデバイス50は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス50は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マイクデバイス50は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
【0061】
マイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。マイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0062】
マイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。マイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0063】
マイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。マイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0064】
マイクデバイス50は、抽出した音声信号を、ステップS151において推定した当該音声信号に対応する音源の方向を示す情報(つまり、マイクデバイス50に対する音源の方向の推定結果であり、以下、「到来方向情報」という)とともに、コントローラ30へ送信する(S153)。
【0065】
換言すれば、マイクデバイス50は、音源として特定された方向についてのみ音声信号を抽出(強調)し、それ以外の方向についての音声信号を抑圧(消去)して、コントローラ30へ送信する。これにより、送信する音声信号のデータ量を抑制しながら、音声認識対象として優先度の高い音声信号を効率的にコントローラ30に提供することができる。
【0066】
なお、複数の音源が特定された場合には、マイクデバイス50は、各音源の音声信号をバッファリングしておき、順番にコントローラ30へ送信してもよい。これにより、複数人が同時に発話した場合であっても、各話者の発話内容に対して個別にメタ情報の生成及び音声認識処理を行うことができる。
【0067】
(4-2)発話情報表示処理
本実施形態の発話情報表示処理について説明する。図8は、本実施形態の発話情報表示処理(コントローラ側)のフローチャートである。図9は、本実施形態の発話情報表示処理(ディスプレイデバイス側)のフローチャートである。図10は、本実施形態の発話情報表示処理において表示される画面例を示す図である。
【0068】
本実施形態の発話情報表示処理は、例えば本実施形態のマイクロホン処理とともに開始され得る。
図8に示すように、コントローラ30は、到来方向情報および音声信号の取得(S130)を実行する。
具体的には、コントローラ30は、本実施形態のマイクロホン処理の結果、マイクデバイス50から送信された到来方向情報および音声信号(以下、便宜的に「第1音声信号」という)を取得する。
【0069】
ステップS130の後に、コントローラ30は、音源の識別(S131)を実行する。
具体的には、コントローラ30は、ステップS130において取得した到来方向情報、すなわち音源の方向(以下、「対象方向」という)の推定結果に基づいて、マイクデバイス50の周囲に存在する音源を識別する。
【0070】
一例として、コントローラ30は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定し、当該対象方向に対応する音源が識別済みの音源でない場合に、新たな音源ID(図4)を割り当てる。具体的には、コントローラ30は、対象方向を、識別済みの音源についての音源方向情報(図4)と比較する。そして、コントローラ30は、対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、当該対象方向に対応する音源を、適合した音源方向情報を持つ(識別済みの)音源として扱う。他方、コントローラ30は、対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出し、当該新たな音源に新規の音源IDを付与する。ここで、対象方向が音源方向情報に適合することとは、少なくとも対象方向が音源方向情報の示す方向に一致することを含み、さらに対象方向の音源方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。
【0071】
ステップS131において識別された音源が、前回の発話情報表示処理(図8)の実行時の当該ステップS131において識別された音源と同一でなかった場合に、コントローラ30は、第1メタ情報の取得(S132)を実行する。
具体的には、コントローラ30は、音源データベース(図4)を参照し、ステップS131において識別された音源に対応する音源情報(特に、音源名情報および表現情報)を取得する。コントローラ30は、取得した情報に基づいて、第1音声信号がいずれの話者(音源)に由来するかを表すテキスト情報を第1メタ情報に対応するテキスト情報として生成する。
【0072】
ステップS132において、オプションとして、コントローラ30は、例えばステップS130において取得した音声信号に基づいて、当該音声信号の音源である話者の感情を推定してもよい。そして、コントローラ30は、話者の感情の推定結果(例えば喜怒哀楽のいずれか)を表すテキスト情報を第1メタ情報に対応するテキスト情報の一部として生成してもよい。
【0073】
ステップS132において、別のオプションとして、コントローラ30は、例えばステップS130において取得した音声信号に基づいて、当該音声信号の音源である話者の発話速度を判定してもよい。一例として、コントローラ30は、話者の発話速度を計算し、当該発話速度が閾値を上回っていれば発話速度が速すぎると判定し、そうでなければ発話速度が適切と判定する。別の例として、コントローラ30は、音声信号に対して音声認識処理を行い、認識率が閾値を下回っていれば発話速度が速すぎると判定し、そうでなければ発話速度が適切と判定する。認識率は、例えば、発話時間長に対して認識された単語の数で計算可能である。そして、コントローラ30は、話者の発話速度の判定結果(例えば適切か速すぎるか)を表すテキスト情報(例えば、「早口気味です」、または「もう少しゆっくりしゃべりましょう」)を第1メタ情報に対応するテキスト情報の一部として生成してもよい。
【0074】
ステップS132において、さらなる別のオプションとして、コントローラ30は、例えばステップS130において取得した音声信号に基づいて、当該音声信号の音源である話者の発話の明瞭さを判定してもよい。一例として、コントローラ30は、音声信号に対して音声認識処理を行い、認識率が閾値を下回っていれば発話が明瞭でないと判定し、そうでなければ発話が明瞭と判定する。そして、コントローラ30は、話者の発話の明瞭さの判定結果(例えば明瞭か明瞭でないか)を表すテキスト情報(例えば、「語尾をはっきりましょう」)を第1メタ情報に対応するテキスト情報の一部として生成してもよい。
【0075】
ステップS132の後に、コントローラ30は、第1メタ音声信号の取得(S133)を実行する。
具体的には、コントローラ30は、ステップS132において取得した第1メタ情報に対応するテキスト情報に対して、音声合成処理を行うことで、第1メタ情報に対応する音声情報である第1メタ音声信号を取得する。第1メタ音声信号は、第1メタ情報に対応する音声を表す。
【0076】
ステップS133の後に、コントローラ30は、音声信号の結合(S134)を実行する。
具体的には、コントローラ30は、ステップS133において取得した第1メタ音声信号の後に、ステップS130において取得した第1音声信号を結合することで、音声信号(以下、便宜的に「第2音声信号」という)を生成する。
【0077】
ステップS134の後、コントローラ30は、音声信号の出力(S135)を実行する。
具体的には、コントローラ30は、ステップS134において生成した第2音声信号を外部装置へ出力する。外部装置は、例えばディスプレイデバイス10であるが、これに限られず音声認識エンジン、または音声認識エンジンにアクセス可能な別の情報処理装置であってもよい。
【0078】
なお、ステップS131において識別された音源が、前回の発話情報表示処理(図8)の実行時の当該ステップS131において識別された音源と同一であった場合に、コントローラ30は、第1メタ情報の取得(S132)、第1メタ音声情報の取得(S133)、および音声信号の結合(S134)の実行をスキップする。この場合に、コントローラ30は、S135において、第2音声信号ではなく第1音声信号を外部装置へ出力する。かかる分岐は必須ではないが、これにより、同一の話者が継続して発話している場合に、第1メタ情報に対応する音声情報の挿入を省略できるので、コントローラ30から出力される音声信号が冗長となることを防ぐことができる。その結果、その後の音声認識処理における悪影響(発話からテキスト表示までの遅延の増加、後述する圧縮による認識率の低下)を防ぐことができる。
【0079】
コントローラ30は、音声信号の出力(S135)において、出力する音声信号(第2音声信号または第1音声信号)の少なくとも一部の区間において、等倍を超える速度で再生されるように音声を加工(以下、「圧縮」という)してもよい。一例として、コントローラ30は、第2音声信号のうち第1メタ音声信号に相当する部分の少なくとも一部の区間(例えば無音区間)を圧縮してもよい。別の例として、コントローラ30は、第2音声信号のうち第1音声信号に相当する部分の少なくとも一部の区間(例えば無音区間)を圧縮してもよい。また別の例として、コントローラ30は、出力する音声信号の全体を圧縮してもよい。
【0080】
ステップS135の後、図9に示すように、ディスプレイデバイス10は、音声信号の取得(S110)を実行する。
具体的には、ディスプレイデバイス10は、ステップS135においてコントローラ30によって出力された音声信号を取得する。
【0081】
ステップS110の後、ディスプレイデバイス10は、音声認識(S111)を実行する。
一例として、ディスプレイデバイス10が備える記憶装置には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。別の例として、音声認識モデルは、ディスプレイデバイス10が備える記憶装置の代わりに、ディスプレイデバイス10がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
【0082】
ディスプレイデバイス10は、音声認識モデルに、ステップS110において取得した音声信号を入力することで、入力した音声信号に対応するテキスト情報を得る。ディスプレイデバイス10は、音声信号に対応する音源の認識言語情報に基づいて音声認識エンジンを選択してもよい。
【0083】
ディスプレイデバイス10は、音声認識(S111)において、オプションとして、音声認識処理に加えて機械翻訳処理を実行してもよい。
具体的には、ディスプレイデバイス10は、コントローラ30がステップS130において取得した第1音声信号に対応する音源に翻訳言語情報が設定されている場合に、第2音声信号に対して音声認識処理に加えて機械翻訳処理を行う。これにより、ディスプレイデバイス10は、翻訳言語情報によって指定された言語のテキスト情報を得る。ディスプレイデバイス10は、第1音声信号に対応する音源の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。ディスプレイデバイス10は、本オプションを採用する場合であっても、ステップS130において取得した第1音声信号に対応する音声の音源に翻訳言語情報が設定されていない場合に、機械翻訳処理を省略し、音声認識処理のみを行ってもよい。
【0084】
ステップS111の後、ディスプレイデバイス10は、テキスト出力(S112)を実行する。
具体的には、ディスプレイデバイス10は、ステップS111における音声認識処理の結果(または上述の機械翻訳処理の結果)に基づくテキスト情報を表示部に表示する。
【0085】
一例として、ディスプレイデバイス10は、音声認識(S111)およびテキスト出力(S112)を、任意の音声認識アプリケーションまたは音声認識SaaSにより実現してもよい。すなわち、ディスプレイデバイス10は、第2音声信号(または第1音声信号)を、音声認識アプリケーション(または音声認識SaaS)の入力として提供し、当該音声認識アプリケーションのUI(User Interface)(これは、ディスプレイデバイス10によって提示される)上に認識結果であるテキストを表示してもよい。
【0086】
本ステップにおいて表示される画面例を図10に示す。図10の画面は、音声認識アプリケーション(または音声認識SaaS)のUIに相当し、当該音声認識アプリケーションに提供した入力音声信号の音声認識結果であるテキスト情報を時系列(入力順)に表示する。例えば、オブジェクトJ20は、2022年8月2日9時00分00秒に、音声認識アプリケーションに入力された音声信号の音声認識結果を表示する。オブジェクトJ20は、話者の発言内容(第1音声信号)に基づくテキスト情報に加え、当該発言がいずれの話者(音源)に由来するかを表すテキスト情報T20aを表示する。テキスト情報T20aは、第1メタ音声信号の音声認識結果を示す情報である。
【0087】
(4-3)音源設定処理
本実施形態の音源設定処理について説明する。図11は、本実施形態の音源設定処理のフローチャートである。図12は、本実施形態の音源設定処理において表示される画面の例を示す図である。図13は、本実施形態の音源設定処理において表示される画面の例を示す図である。
【0088】
図11に示す音源設定処理は、図7に示すマイクロホン処理の開始後に、情報処理システム1のユーザによる指示に応じて開始する。ただし、図11に示す音源設定処理の開始タイミングはこれに限定されない。例えば、図11の処理は、図7に示すマイクロホン処理の開始前の初期設定処理として実行されてもよい。
【0089】
図11に示すように、コントローラ30は、画面表示(S230)を実行する。
具体的には、コントローラ30は、ユーザが音源情報および各メタ情報の通知の有効化/無効化を設定するための音源設定UIをディスプレイデバイス10に表示する。一例として、コントローラ30は、図12の画面をディスプレイデバイス10に表示する。
【0090】
図12の画面は、オブジェクトJ30~J36を含む。
オブジェクトJ30は、個別設定を行う話者(音源)を選択するためのユーザ指示を受け付ける。一例として、オブジェクトJ30は、音源データベースに登録されている各レコードの音源名情報が列挙されたプルダウンリストを表示し、いずれかを選択するユーザ指示を受け付ける。
【0091】
オブジェクトJ31は、オブジェクトJ30において選択されている話者に対する個別設定を開始するためのユーザ指示を受け付ける。
【0092】
オブジェクトJ32は、バッテリに関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。バッテリに関するメタ情報の説明は後述する。コントローラ30は、オブジェクトJ32に対する選択に応じて、バッテリに関するメタ情報の通知の有効化/無効化を切り替える。
【0093】
オブジェクトJ33は、環境音に関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。環境音に関するメタ情報の説明は後述する。コントローラ30は、オブジェクトJ33に対する選択に応じて、環境音に関するメタ情報の通知の有効化/無効化を切り替える。
【0094】
オブジェクトJ34は、感情に関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。感情に関するメタ情報は発話情報表示処理に関して説明したとおりである。コントローラ30は、オブジェクトJ34に対する選択に応じて、感情に関するメタ情報の通知の有効化/無効化を切り替える。
【0095】
オブジェクトJ35は、発話速度に関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。発話速度に関するメタ情報は発話情報表示処理に関して説明したとおりである。コントローラ30は、オブジェクトJ35に対する選択に応じて、発話速度に関するメタ情報の通知の有効化/無効化を切り替える。
【0096】
オブジェクトJ36は、発話の明瞭さに関するメタ情報の通知を有効にするか否かを設定するユーザ指示を受け付ける。発話の明瞭さに関するメタ情報は発話情報表示処理に関して説明したとおりである。コントローラ30は、オブジェクトJ36に対する選択に応じて、発話の明瞭さに関するメタ情報の通知の有効化/無効化を切り替える。
【0097】
ステップS230の後に、コントローラ30は、音源の選択(S231)を実行する。
具体的には、コントローラ30は、ステップS230において表示した画面上での操作に応じて、音源情報(特に、音源名情報および表現情報)の設定対象となる話者(音源)を選択する。一例として、コントローラ30は、オブジェクトJ30およびオブジェクトJ31に対するユーザ指示に応じて、オブジェクトJ30で指定された音源を選択し、図13に示す画面をディスプレイデバイス10に表示する。
【0098】
図13の画面は、オブジェクトJ40~J43を含む。
オブジェクトJ40は、設定対象として選択されている話者が、マイク座標系においてどの方向にあるかを示す情報(画像)を表示する。コントローラ30は、かかる情報を、設定対象として選択されている話者(音源)に対応する音源方向情報に基づいて生成する。
【0099】
オブジェクトJ41は、設定対象として選択されている話者に対応する音源名情報の指定を受け付ける。オブジェクトJ41は、例えばテキストフィールドである。
【0100】
オブジェクトJ42は、設定対象として選択されている話者に対応する表現情報の指定を受け付ける。オブジェクトJ42は、選択可能な表現情報が列挙されたプルダウンリストを表示し、いずれかを選択するユーザ指示を受け付ける。
【0101】
オブジェクトJ43は、オブジェクトJ41に対する入力、およびオブジェクトJ42に対する入力を確定させるためのユーザ指示を受け付ける。
【0102】
ステップS231の後に、コントローラ30は、音源情報の取得(S232)を実行する。
具体的には、コントローラ30は、ステップS231において選択した音源に設定する音源情報をユーザ指示に応じて取得する。一例として、コントローラ30は、選択した音源についての音源名情報または表現情報の少なくとも1つを取得する。図13の例によれば、コントローラ30は、オブジェクトJ43が選択されると、オブジェクトJ41に対する入力、およびオブジェクトJ42に対する入力に基づいて音源情報および表現情報を取得し、図12に示す画面をディスプレイデバイス10に表示する。
【0103】
ステップS232の後に、コントローラ30は、音源情報の更新(S233)を実行する。
具体的には、コントローラ30は、音源データベース(図4)において、ステップS231において選択した音源を識別する音源IDに対応するレコードを、ステップS232において取得した音源情報に基づいて更新する。
【0104】
ステップS233を以て、コントローラ30は、図11に示す音源設定処理を終了してもよい。或いは、コントローラ30は、ユーザが音源設定処理の終了を指示するまで、音源設定処理を繰り返し実行してもよい。
【0105】
(4-4)非発話情報表示処理
本実施形態の非発話情報表示処理について説明する。図14は、本実施形態の非発話情報表示処理(コントローラ側)のフローチャートである。
【0106】
本実施形態の非発話情報表示処理は、例えば本実施形態のマイクロホン処理または発話情報表示処理とともに開始され得る。
【0107】
図14に示すように、コントローラ30は、通知条件の判定(S330)を実行する。
具体的には、コントローラ30は、有効化されている通知条件について、当該通知条件が成立するか否かを判定する。通知条件は、人の発話に依存しないメタ情報(以下、「第2メタ情報」という)毎に定められる。
【0108】
通知条件の第1例は、ディスプレイデバイス10、コントローラ30、またはマイクデバイス50の少なくとも1つのバッテリ残量が閾値を下回ること、である。閾値は、固定であってもよいし、ユーザによって設定可能であってもよい。また、コントローラ30は、ディスプレイデバイス10またはマイクデバイス50からバッテリ残量の情報を取得してもよい。かかる通知条件が成立する場合に、バッテリ残量が低下していることを表すテキストが出力されることになる。
【0109】
通知条件の第2例は、マイクデバイス50から取得した音声信号が環境音(例えば、ノック音、アラーム音、サイレン、など)と判定されること、である。環境音の判定は、例えばマイクデバイス50から取得した音声信号を用いて学習済みモデルによって行われてもよい。かかる通知条件が成立する場合に、判定された環境音の種別を表すテキストが出力されることになる。
【0110】
通知条件の第3例は、スケジュールされているユーザの予定の終了または開始の所定時間前であること、である。コントローラ30は、スケジュールされているユーザの予定の情報(例えば、予定の名称、開始時刻、または終了時刻の少なくとも1つ)を、例えば、スケジュールのためのアプリケーションまたはSaaSから取得可能である。かかる通知条件が成立する場合に、スケジュールされているユーザの予定の終了または開始が近いことを表すテキストが出力されることになる。
【0111】
ステップS330において、有効化されている通知条件のいずれかが成立すると判定した場合に、コントローラ30は、第2メタ情報の取得(S331)を実行する。
具体的には、コントローラ30は、ステップS330において成立すると判定された通知条件に対応するテキスト情報を第2メタ情報として生成する。
【0112】
ステップS331の後に、コントローラ30は、第2メタ音声信号の取得(S332)を実行する。
具体的には、コントローラ30は、ステップS331において取得した第2メタ情報に対応するテキスト情報に対して、音声合成処理を行うことで、第2メタ情報に対応する音声情報である第2メタ音声信号を取得する。第2メタ音声信号は、第2メタ情報に対応する音声を表す。
【0113】
ステップS332の後、コントローラ30は、音声信号の出力(S333)を実行する。
具体的には、コントローラ30は、ステップS332において取得した第2メタ音声信号を外部装置へ出力する。外部装置は、例えばディスプレイデバイス10であるが、これに限られず音声認識エンジン、または音声認識エンジンにアクセス可能な別の情報処理装置であってもよい。
【0114】
ステップS333の後、ディスプレイデバイス10は、図9と同様に、音声信号の取得(S110)、音声認識(S111)、およびテキスト出力(S112)を実行し得る。つまり、ディスプレイデバイス10は、第2メタ音声信号を第2音声信号と同様に扱うことができる。
【0115】
なお、コントローラ30は、第2メタ音声信号の出力(S333)の実行を無音区間の到来まで待機してもよい。一例として、コントローラ30は、発話情報表示処理(図8)のステップS130において取得される音声信号の音量が閾値を一定期間下回るまで、第2メタ音声信号の出力(S333)の実行を保留してもよい。これにより、話者が発話してから発話内容のテキストが表示されるまでの遅延を抑制しながら、第2メタ情報に基づく通知を適時に行うことができる。
【0116】
(5)小括
以上説明したように、本実施形態のコントローラ30は、マイクデバイス50による集音に基づく第1音声情報と、当該第1音声情報に関する第1メタ情報を取得する。コントローラ30は、第1音声情報と、第1メタ情報に対応する音声情報とを出力する。これにより、第1メタ情報も第1音声情報と同様に、音声認識エンジンの入力として利用することができる。
【0117】
コントローラ30は、第1音声情報と、第1メタ情報に対応する音声情報とを音声認識エンジン、または音声認識エンジンにアクセス可能な別の情報処理装置(例えばディスプレイデバイス10)に出力してもよい。これにより、第1音声情報と、第1メタ情報に対応する音声情報との音声認識結果を、話者の発言内容に加えて、例えば話者が誰であるかなどの発言に関する補足的な情報を伝えるために利用することができる。
【0118】
第1メタ情報は、第1音声情報に対応する音源に関する情報を含んでもよい。これにより、ディスプレイデバイス10を見た者は、話者の発言内容に加えて、当該話者(音源)に関する補足的な情報を把握することができる。
【0119】
第1音声情報に対応する音源に関する情報は音源の方向、または当該音源の名称の少なくとも1つを示す情報を含んでもよい。これにより、ディスプレイデバイス10を見た者は、話者の発言内容に加えて、話者が居る方向、または話者の名称の少なくとも1つを把握することができる。
【0120】
第1メタ情報は、第1音声情報の属性に関する情報を含んでもよい。これにより、ディスプレイデバイス10を見た者は、話者の発言内容に加えて、発話態様などの第1音声情報の属性を把握することができる。
【0121】
第1音声情報の属性に関する情報は、話者の感情、発話速度、または発話の明瞭さの少なくとも1つを示す情報を含んでもよい。これにより、ディスプレイデバイス10を見た者は、話者の発話内容に加えて当該話者の感情、発話速度、または発話の明瞭さを把握することができる。
【0122】
コントローラ30は、第1メタ情報とは異なる第2メタ情報を取得し、さらに、第2メタ情報に対応する音声情報を出力してもよい。これにより、さらに第2メタ情報も第1音声情報および第1メタ情報と同様に、音声認識エンジンの入力として利用することができる。
【0123】
第2メタ情報は、ディスプレイデバイス10、コントローラ30、もしくはマイクデバイス50の少なくとも1つのバッテリ残量に関する情報、第1音声情報の音源種別に関する情報、またはスケジュールされている予定に関する情報の少なくとも1つを含んでもよい。これにより、ディスプレイデバイス10を見た者は、さらに、バッテリ残量に関する情報、環境音の種別に関する情報、またはユーザのスケジュールされている予定に関する情報を把握することができる。
【0124】
コントローラ30は、発話者の切り替わりを検知してもよい。コントローラ30は、第1発話者から第2発話者への切り替えが検知された場合に、第1発話者からの第1音声情報を出力してから、第2発話者からの第1音声情報を出力するまでの間に、第1発話者または第2発話者からの第1音声情報に関する第1メタ情報に対応する音声情報を出力してもよい。これにより、同一の話者が継続して発話している場合に、第1メタ情報に対応する音声情報の挿入を省略できるので、音声認識結果が冗長となることを防ぎ、かつ、音声認識処理の入力(音声信号)長が過度に長くなることによる悪影響(発話からテキスト表示までの遅延の増加、圧縮による認識率の低下)を防ぐことができる。
【0125】
第1音声情報は、マイクデバイス50の備える複数のマイクロホンによって集音された音声信号に、当該複数のマイクロホンに対して特定の方向から到来する音声を強調するビームフォーミング処理を行うことで生成された音声情報であってもよい。これにより、複数の話者が同時に発話した場合であっても、各話者の発言内容について個別に処理を行うことができる。
【0126】
コントローラ30は、ディスプレイデバイス10とともに情報処理システム1を構成してもよい。ディスプレイデバイス10は、コントローラ30によって出力された第1音声情報と、第1メタ情報に対応する音声情報とを取得してもよい。ディスプレイデバイス10は、第1音声情報に対して音声認識処理を行うことで得られた第1テキスト情報と、第1メタ情報に対応する音声情報に対して音声認識処理を行うことで得られた第2テキスト情報とを表示部に表示してもよい。これにより、ディスプレイデバイス10の表示部を見た者は、話者の発言内容に加えて、例えば話者が誰であるかなどの発言に関する補足的な情報を把握することができる。加えて、音声をテキストに変換するという音声認識エンジンの基本的な機能を利用して、話者の発言内容に留まらず当該発言に関する補足的な情報を音声認識結果に埋め込むことができる。換言すれば、かかるコントローラ30は、特殊な機能を備えた音声認識手段(音声認識エンジン)や音声認識手段のカスタマイズを要しないので、任意の音声認識手段を採用することができ、汎用性が高い。
【0127】
ディスプレイデバイス10は、第1音声情報および第1メタ情報に対応する音声情報を音声認識エンジンに出力することで、第1テキスト情報および第2テキスト情報を表示部に表示してもよい。これにより、任意の音声認識アプリケーションまたは音声認識SaaSのUIを利用してテキスト情報を取得および提示することができる。
【0128】
第1メタ情報に対応する音声情報は、第1メタ情報に対応するテキスト情報を音声合成することで得られた音声情報を、少なくとも一部の区間において等倍を超える速度で再生(つまり、圧縮)することで得られた音声情報であってもよい。これにより、音声認識処理の入力(音声信号)長が過度に長くなることによる悪影響(発話からテキスト表示までの遅延の増加)を防ぐことができる。
【0129】
ディスプレイデバイス10は、第1テキスト情報の直前に位置するように第2テキスト情報を表示部に表示してもよい。これにより、ディスプレイデバイス10の表示部を見た者は、第2テキスト情報が、第1テキスト情報を補足していることを容易に理解することができる。なお、ディスプレイデバイス10は、第1テキスト情報の直後に位置するように第2テキスト情報を表示部に表示することも可能である。また、ディスプレイデバイス10は、例えば表現情報により、第2テキスト情報が第1テキスト情報の直前に配置されるか直後に配置されるかを切り替えてもよい。
【0130】
第1音声情報は、マイクデバイス50による集音に基づき生成された音声情報を、少なくとも一部の区間において等倍を超える速度で再生(つまり圧縮)することで得られた音声情報であってもよい。これにより、音声認識処理の入力(音声信号)長が過度に長くなることによる悪影響(発話からテキスト表示までの遅延の増加)を防ぐことができる。
【0131】
(6)その他の変形例
記憶装置31は、ネットワークを介して、コントローラ30と接続されてもよい。
【0132】
上記の情報処理の各ステップは、ディスプレイデバイス10、コントローラ30及びマイクデバイス50の何れでも実行可能である。例えば、コントローラ30は、マイクデバイス50によって生成された音声信号を取得し、到来方向の推定(S151)、および音声信号の抽出(S152)を行ってもよい。
【0133】
上記説明では、ディスプレイデバイス10およびコントローラ30が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス10およびコントローラ30は一体化されてもよい。例えば、ディスプレイデバイス10およびコントローラ30が1台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マイクデバイス50とディスプレイデバイス10またはコントローラ30とが一体化されてもよい。また例えば、コントローラ30がクラウドサーバ内に存在してもよい。
【0134】
上記説明では、ディスプレイデバイス10が、タブレット端末、パーソナルコンピュータ、スマートフォン、モニタ、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス10は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス10は、グラス型ディスプレイデバイス、ヘッドマウントディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス10は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス10の形式はこれに限定されない。例えば、ディスプレイデバイス10はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス10はカメラを備えてもよい。そしてディスプレイデバイス10は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、表示部に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス10は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよい。
【0135】
ディスプレイデバイス10の表示部は、ユーザに画像を提示することができれば、その実現方法は問わない。表示部は、例えば、以下の実現方法により実現可能である。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
【0136】
上述した実施形態では、コントローラ30の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス10の備える操作部からユーザの指示が入力されてもよい。
【0137】
マイクデバイス50による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マイクデバイス50は、例えば、以下の方法により音声信号を抽出してもよい。
・Frostビームフォーマ
・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
【0138】
上記説明では、マイクデバイス50が複数のマイクロホンを備えることを前提に述べた。しかしながら、例えば音源の方向を推定する代わりに、声紋による話者識別を行う場合には、単一のマイクロホンのみを備えたマイクデバイス50が利用可能である。すなわち、コントローラ30は、声紋認識によって特定された話者を示す情報を第1メタ情報として取得してもよい。
【0139】
上記説明では、第1メタ音声信号に第1音声信号を結合する例を示した。しかしながら、コントローラ30は、これらを結合する代わりに、連続した入力として音声認識エンジンに提供してもよい。
【0140】
上記説明では、感情、発話速度、または発話の明瞭さに関するメタ情報に基づく音声信号を、発話内容を表す音声信号と結合してからテキスト化し、表示する例を示した。しかしながら、これらのメタ情報に基づく音声信号は、発話内容を表す音声信号とは独立してテキスト化および表示されてもよい。例えば、発話内容を表す音声信号と結合させることなく、メタ情報に基づく音声信号をテキスト化し、例えば「Aさんは楽しそうです。」というテキスト情報が表示されてもよい。また、これらのメタ情報の通知の有効化/無効化は話者毎に固定されてもよいし、ユーザによって設定可能としてもよい。発話速度、または発話の明瞭に関するメタ情報の通知は、自己の発話態様の認識が困難な者(例えば難聴者)に相当するユーザについてのみ有効化されてもよい。これにより、かかる者がうまく発話できるように補助することができる。
【0141】
上記説明では、発言毎に当該発言の話者を示す第1メタ情報を取得する例を示した。しかしながら、コントローラ30は、複数の発言が略同時に行われた場合に、これら複数の話者を示す第1メタ情報に対応するテキスト情報(例えば、「AさんとBさんが話しています」)を取得してもよい。これにより、短時間に第1メタ情報に関する音声認識処理の入力(音声信号)が集中することによる悪影響(発話からテキスト表示までの遅延の増加)を防ぐことができる。
【0142】
上記説明では、メタ情報に対応するテキスト情報を音声合成することで得られた音声情報を音声認識アプリ(または音声認識SaaS)に入力として提供する例を述べた。しかしながら、音声認識アプリの仕様次第では、コントローラ30は例えばテキスト情報または識別子に相当するメタ情報を入力として提供し、音声認識アプリは当該メタ情報に基づくテキスト情報をディスプレイデバイス10に表示してもよい。
また、コントローラ30は、利用する音声認識アプリ(または音声認識SaaS)に応じて、例えば以下の少なくとも1つを変更してもよい。
・メタ情報の音声化に用いられる変換辞書
・メタ情報の圧縮方法
・音声認識アプリに入力として提供されるメタ情報のデータ形式(例えば、音声、テキスト、または識別子)
・メタ情報の内容
【0143】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0144】
1 :情報処理システム
10 :ディスプレイデバイス
30 :コントローラ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :マイクデバイス
51 :マイクロホン
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14