IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピクシーダストテクノロジーズ株式会社の特許一覧 ▶ 大日本住友製薬株式会社の特許一覧

特開2024-27122情報処理装置、情報処理方法、及びプログラム
<>
  • 特開-情報処理装置、情報処理方法、及びプログラム 図1
  • 特開-情報処理装置、情報処理方法、及びプログラム 図2
  • 特開-情報処理装置、情報処理方法、及びプログラム 図3
  • 特開-情報処理装置、情報処理方法、及びプログラム 図4
  • 特開-情報処理装置、情報処理方法、及びプログラム 図5
  • 特開-情報処理装置、情報処理方法、及びプログラム 図6
  • 特開-情報処理装置、情報処理方法、及びプログラム 図7
  • 特開-情報処理装置、情報処理方法、及びプログラム 図8
  • 特開-情報処理装置、情報処理方法、及びプログラム 図9
  • 特開-情報処理装置、情報処理方法、及びプログラム 図10
  • 特開-情報処理装置、情報処理方法、及びプログラム 図11
  • 特開-情報処理装置、情報処理方法、及びプログラム 図12
  • 特開-情報処理装置、情報処理方法、及びプログラム 図13
  • 特開-情報処理装置、情報処理方法、及びプログラム 図14
  • 特開-情報処理装置、情報処理方法、及びプログラム 図15
  • 特開-情報処理装置、情報処理方法、及びプログラム 図16
  • 特開-情報処理装置、情報処理方法、及びプログラム 図17
  • 特開-情報処理装置、情報処理方法、及びプログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027122
(43)【公開日】2024-02-29
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20240221BHJP
   G10L 25/51 20130101ALI20240221BHJP
   G10L 15/20 20060101ALI20240221BHJP
   G10L 15/00 20130101ALI20240221BHJP
【FI】
G06F3/16 600
G06F3/16 620
G06F3/16 650
G10L25/51 400
G10L15/20 370E
G10L15/00 200C
G10L15/00 200U
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023199974
(22)【出願日】2023-11-27
(62)【分割の表示】P 2023523217の分割
【原出願日】2023-02-20
(31)【優先権主張番号】P 2022024504
(32)【優先日】2022-02-21
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】517182918
【氏名又は名称】ピクシーダストテクノロジーズ株式会社
(71)【出願人】
【識別番号】000002912
【氏名又は名称】住友ファーマ株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】西村 晴輝
(72)【発明者】
【氏名】田畑 愛実
(72)【発明者】
【氏名】遠藤 彰
(72)【発明者】
【氏名】羽原 恭寛
(72)【発明者】
【氏名】五味 蔵酒
(72)【発明者】
【氏名】平良 優大
(72)【発明者】
【氏名】平岡 尚
(72)【発明者】
【氏名】高澤 和希
(57)【要約】      (修正有)
【課題】音源の方向に応じたマップ画像を表示する情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】ディスプレイデバイスと、コントローラと、複数のマイクロホンを備えるマルチマイクデバイスと、を備える情報処理システムにおいて、コントローラは、少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得し、音源から発せられ、マルチマイクデバイスによって集音された音声の内容に関する情報を取得し、音声の内容に関する情報を、マルチマイクデバイスに対する音声の音源の方向に応じた位置に配置したマップ画像を生成し、ディスプレイデバイスの表示部にマップ画像を表示する。
【選択図】図14
【特許請求の範囲】
【請求項1】
少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
ディスプレイデバイスの表示部に前記マップ画像を表示する手段と
を具備する、情報処理装置。
【請求項2】
前記音源の方向を示す情報に基づいて、前記マルチマイクデバイスの周囲に存在する音源を識別する手段と、
識別された前記音源に関する音源情報をユーザ指示に応じて設定する手段とをさらに具備する、
請求項1に記載の情報処理装置。
【請求項3】
前記設定する手段は、前記識別された音源の名称、当該音源の使用言語、または当該音源から発せられた音声の内容に関するテキストに適用される機械翻訳の目的言語の少なくとも1つを設定する、
請求項2に記載の情報処理装置。
【請求項4】
前記音声の内容に関する情報に基づいて議事録を生成する手段と、
前記議事録を前記マップ画像とともに前記ディスプレイデバイスの表示部に表示する手段とをさらに具備する、
請求項1乃至請求項3のいずれかに記載の情報処理装置。
【請求項5】
前記議事録を生成する手段は、取得された前記音声の内容に関する情報を時系列順に配置することで前記議事録を生成する、
請求項4に記載の情報処理装置。
【請求項6】
前記議事録に配置されたテキストをユーザ指示に応じて編集する手段をさらに具備する、
請求項4または請求項5に記載の情報処理装置。
【請求項7】
チャット参加者によって投稿されたテキストを取得する手段をさらに具備し、
前記議事録を生成する手段は、前記チャット参加者によって投稿されたテキストと前記音声の内容に関する情報とを配置することで前記議事録を生成する、
請求項4乃至請求項6のいずれかに記載の情報処理装置。
【請求項8】
前記マップ画像を生成する手段は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるように前記マップ画像を生成する、
請求項1乃至請求項7のいずれかに記載の情報処理装置。
【請求項9】
前記マップ画像を生成する手段は、前記音源が音声を発している間、当該音源を表すアイコンまたは当該音声の内容に関する情報を強調するように前記マップ画像を生成する、
請求項8に記載の情報処理装置。
【請求項10】
チャット参加者によって投稿されたテキストを取得する手段を具備し、
前記マップ画像を生成する手段は、前記チャット参加者を表す投稿者アイコンと、当該チャット参加者によって投稿されたテキストを含むように前記マップ画像を生成する、
請求項8または請求項9に記載の情報処理装置。
【請求項11】
前記マップ画像における前記投稿者アイコンの表示位置をユーザ指示に応じて移動する手段をさらに具備する、
請求項10に記載の情報処理装置。
【請求項12】
前記マップ画像を生成する手段は、前記音源アイコンの1つが前記マップ画像上で所定の方向に位置するように、前記音源アイコンおよび前記音声の内容に関する情報の表示位置を前記マイクアイコンの表示位置を中心に回転する、
請求項8乃至請求項11のいずれかに記載の情報処理装置。
【請求項13】
前記マップ画像を生成する手段は、同一の音源から発せられた音声に関する複数のテキストを、対応する発言日時が古い順に前記マップ画像の座標系の中心から遠ざかるように前記マップ画像上に配置する、
請求項1乃至請求項12のいずれかに記載の情報処理装置。
【請求項14】
前記少なくとも1つのマルチマイクデバイスは、異なる場所に設置された第1マルチマイクデバイスおよび第2マルチマイクデバイスを含み、
前記音源の方向を示す情報を取得する手段は、前記第1マルチマイクデバイスに対する音源の方向を示す情報と前記第2マルチマイクデバイスに対する音源の方向を示す情報とを取得し、
前記音声の内容に関する情報を取得する手段は、前記第1マルチマイクデバイスによって集音された第1音声に関する第1テキストと、前記第2マルチマイクデバイスによって集音された第2音声に関する第2テキストとを取得し、
前記マップ画像を生成する手段は、前記第1テキストを、当該第1テキストに対応する第1音声の音源の前記第1マルチマイクデバイスに対する方向に応じた位置に配置した第1マップ画像と、前記第2テキストを、当該第2テキストに対応する第2音声の音源の前記第2マルチマイクデバイスに対する方向に応じた位置に配置した第2マップ画像とを生成し、
前記マップ画像を表示する手段は、前記ディスプレイデバイスの表示部に前記第1マップ画像および前記第2マップ画像を表示する、
請求項1乃至請求項13のいずれかに記載の情報処理装置。
【請求項15】
少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
ディスプレイデバイスの表示部に前記マップ画像を表示するステップと
を具備する、情報処理方法。
【請求項16】
コンピュータに、請求項1~請求項14の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。
【0003】
特許文献1には、複数の使用者それぞれに対応する表示領域を表示部の画像表示領域に設定し、ある使用者の音声に対する音声認識結果であるテキストを、他の使用者に設定された画像表示領域に表示する会話支援装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2017-129873号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載の会話支援装置では、ある使用者に設定された画像表示領域に、他の使用者の発言が集約された状態で表示される。故に、特に会話の参加者が3名以上である場合に、どの発言が誰によるものなのか、また誰がどんな発言をしたのか、を即座に把握することが困難である。
【0006】
本開示の目的は、ユーザが視覚情報に基づいて話者と発言内容とを直感的に関連付けられるようにすることである。
【課題を解決するための手段】
【0007】
本開示の一態様の情報処理装置は、少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、ディスプレイデバイスの表示部に前記マップ画像を表示する手段とを具備する。
【図面の簡単な説明】
【0008】
図1】本実施形態の情報処理システムの構成を示すブロック図である。
図2】本実施形態のコントローラの構成を示すブロック図である。
図3】本実施形態のマルチマイクデバイスの外観を示す図である。
図4】本実施形態の一態様を示す図である。
図5】本実施形態の音源データベースのデータ構造を示す図である。
図6】本実施形態の音声処理のフローチャートである。
図7】マイクロホンによる集音を説明するための図である。
図8】基準座標系における音源の方向を説明するための図である。
図9】マップ画像の一例を示す図である。
図10】本実施形態の音源設定処理のフローチャートである。
図11】本実施形態の音源設定処理において表示される画面例を示す図である。
図12】変形例1の一態様を示す図である。
図13】変形例1の発言データベースのデータ構造を示す図である。
図14】変形例1の音声処理のフローチャートである。
図15】変形例2のマップ画像の一例を示す図である。
図16】変形例2のマップ画像の別の例を示す図である。
図17】変形例3のマップ画像の例を示す図である。
図18】変形例1の画像表示の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0010】
以降の説明において、マルチマイクデバイスの位置及び向きを基準とする座標系(マイク座標系)を用いることがある。マイク座標系は、マルチマイクデバイスの位置(例えばマルチマイクデバイスの重心位置)を原点とし、当該原点においてx軸およびy軸が直交する。マイク座標系において、x+方向をマルチマイクデバイスの前方としたとき、x-方向をマルチマイクデバイスの後方、y+方向をマルチマイクデバイスの左方向、y-方向をマルチマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。
【0011】
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
【0012】
図1に示すように、情報処理システム1は、ディスプレイデバイス10と、コントローラ30と、マルチマイクデバイス50とを備える。
情報処理システム1は、複数のユーザによって使用される。ユーザの少なくとも1人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい(つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい)。
【0013】
ディスプレイデバイス10およびコントローラ30は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetooth(登録商標)チャネル)を介して接続される。
同様に、コントローラ30およびマルチマイクデバイス50は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetoothチャネル)を介して接続される。
【0014】
ディスプレイデバイス10は、1以上のディスプレイ11(「表示部」の一例)を備える。ディスプレイデバイス10は、コントローラ30から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス10は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、会議用ディスプレイ装置である。ディスプレイデバイス10は、ユーザの指示を取得するための入力デバイスまたは操作部を備えていてもよい。
【0015】
コントローラ30は、ディスプレイデバイス10およびマルチマイクデバイス50を制御する。コントローラ30は、情報処理装置の一例である。コントローラ30は、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータである。
【0016】
マルチマイクデバイス50は、ディスプレイデバイス10から独立して設置可能である。つまり、マルチマイクデバイス50の位置および向きは、ディスプレイデバイス10の位置および向きから独立して決定することができる。
【0017】
(1-1)コントローラの構成
コントローラの構成について説明する。図2は、本実施形態のコントローラの構成を示すブロック図である。
【0018】
図2に示すように、コントローラ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0019】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0020】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
【0021】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0022】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、コントローラ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Array)
【0023】
入出力インタフェース33は、コントローラ30に接続される入力デバイスから情報(例えば、ユーザの指示)を取得し、かつ、コントローラ30に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0024】
通信インタフェース34は、コントローラ30と外部装置(例えば、ディスプレイデバイス10、およびマルチマイクデバイス50)との間の通信を制御するように構成される。
【0025】
(1-2)マルチマイクデバイスの構成
マルチマイクデバイスの構成について説明する。図3は、本実施形態のマルチマイクデバイスの外観を示す図である。
【0026】
マルチマイクデバイス50は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス50は、5つのマイクロホン51-1,・・・,51-5(以下、特に区別しない場合は単にマイクロホン51と表記する)を備えることとする。マルチマイクデバイス50は、マイクロホン51-1,・・・、51-5を用いて、音源から発せられた音を受信(集音)することで音声信号を生成する。また、マルチマイクデバイス50は、マイク座標系における音の到来方向(つまり、音源の方向)を推定する。また、マルチマイクデバイス50は、後述するビームフォーミング処理を行う。
【0027】
マイクロホン51は、例えば、マルチマイクデバイス50の周辺の音を集音する。マイクロホン51により集音される音には、例えば以下の少なくとも1つの音が含まれる。
・人物による発話音
・マルチマイクデバイス50が使用される環境の音
【0028】
マルチマイクデバイス50には、例えば筐体の表面にマルチマイクデバイス50の基準方向(例えば、前方(つまり、x+方向)であるが、その他の所定の方向であってもよい)を示す目印50aが付されている。これにより、ユーザは、マルチマイクデバイス50の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス50の向きを認識するための手段はこれに限られない。目印50aは、マルチマイクデバイス50の筐体と一体化されていてもよい。
【0029】
マルチマイクデバイス50は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マルチマイクデバイス50は、当該マルチマイクデバイス50の動き及び状態を検出するためにIMU(Inertial Measurement Unit)を備えることができる。
【0030】
(2)実施形態の一態様
本実施形態の一態様について説明する。図4は、本実施形態の一態様を示す図である。
【0031】
コントローラ30は、複数の参加者(つまり、情報処理システム1のユーザ)による会話(例えば、会議)が行われている間、マップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。マップ画像は、マルチマイクデバイス50の周囲の音源(話者)環境を俯瞰した図に相当し、マルチマイクデバイス50に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキスト(「音声の内容に関する情報」の一例)が配置される。コントローラ30は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、直近の会話の内容(特に、誰が何を話しているか)を視覚的にリアルタイムに把握するためのUI(User Interface)の役割を果たす。
【0032】
具体的には、図4に示すように、マップ画像は、マイクアイコンMI31と、円周CI31と、音源アイコンSI31,SI32,SI33,SI34と、テキスト画像TI32,TI34とを含む。
【0033】
マイクアイコンMI31は、マルチマイクデバイス50を表す。マイクアイコンMI31は、当該マイクアイコンMI31の向きを示す目印MR31を備える。マップ画像の観者は、目印MR31を確認することで、マップ画像においてマイクアイコンMI31がどこを向いているかを認識することができる。マイクアイコンMI31および目印MR31の外観をマルチマイクデバイス50および目印50aの外観に似せることで、マップ画像の観者は、現実世界における参加者と、マップ画像における音源アイコンとの対応付けを容易に行うことができる。ただし、マイクアイコンMI31および目印MR31の外観をマルチマイクデバイス50および目印50aの外観と類似させることは、必須ではない。
【0034】
円周CI31は、マイクアイコンMI31を中心とする円周に相当する。図4の例では、コントローラ30は、会話の参加者に相当する音源アイコンSI31,SI32,SI33,SI34を、円周CI31上に配置する。具体的には、コントローラ30は、音源アイコンSI31,SI32,SI33,SI34の各々を、円周CI31上のうち、マルチマイクデバイス50に対する当該音源アイコンの表す音源の方向に応じた位置に配置する。一例として、コントローラ30は、マイク座標系をマップ画像の座標系(以下、「マップ座標系」)に変換する。そして、コントローラ30は、マイクアイコンMI31の表示位置(「マップ座標系の原点」の一例)からマップ座標系で表現される音源の(推定)方向に延びる直線と円周CI31との交点に当該音源を表現する音源アイコンを配置する。
【0035】
音源アイコンSI31は、複数の参加者のうち特定の一人(例えば、難聴者であり、他の参加者に比べてマップ画像を見る機会の多い者。以下、「あなた」ということもある)を表す。コントローラ30は、「あなた」を表す音源アイコンSI31に、例えば他の音源を表す音源アイコンとは異なる特定の書式(例えば、色、テクスチャ、光学的効果、形状、大きさ、など)を設定してよい。
【0036】
音源アイコンSI32は、複数の参加者のうちDさんを表す。図4の例では、Dさんは発言中である。コントローラ30は、発言中の話者(音源)を表す音源アイコンSI32に、他の状態の話者(音源)を表す音源アイコンとは異なる書式を設定してよい。つまり、コントローラ30は、音源アイコンの書式を、当該音源アイコンの表す音源の状態に依存して動的に変更可能である。
【0037】
テキスト画像TI32は、Dさんの直近の発言内容(Dさんから発せられた音声に対する音声認識結果)を表す。コントローラ30は、マップ画像の観者がテキスト画像TI32と音源アイコンSI32とが対応することを認識しやすい形態でテキスト画像TI32をマップ画像上に配置する。一例として、コントローラ30は、テキスト画像TI32を、音源アイコンSI32に対して所定の位置(例えば右下)に配置する。また、コントローラ30は、テキスト画像TI32を、音源アイコンSI32と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、音源アイコンSI32とテキスト画像TI32の背景または文字とを同系色に揃えてよい。
【0038】
音源アイコンSI33は、複数の参加者のうちTさんを表す。図4の例では、Tさんは発言していない。コントローラ30は、発言していない話者(音源)を表す音源アイコンSI33に、他の状態の話者(音源)を表す音源アイコンとは異なる書式を設定してよい。
【0039】
音源アイコンSI34は、複数の参加者のうちHさんを表す。図4の例では、Hさんは、発言を終えた直後である。コントローラ30は、発言を終えた直後の話者(音源)を表す音源アイコンSI34に、他の状態の話者(音源)を表す音源アイコンとは異なる書式を設定してよい。
【0040】
テキスト画像TI34は、Hさんの直近の発言内容を表す。コントローラ30は、マップ画像の観者がテキスト画像TI34と音源アイコンSI34とが対応することを認識しやすい形態でテキスト画像TI34をマップ画像上に配置する。一例として、コントローラ30は、テキスト画像TI34を、音源アイコンSI34に対して所定の位置(例えば右下)に配置する。また、コントローラ30は、テキスト画像TI34を、音源アイコンSI34と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、音源アイコンSI34とテキスト画像TI34の背景または文字とを同系色に揃えてよい。
【0041】
このように、コントローラ30は、話者から発せられた音声に対応するテキストを、マルチマイクデバイス50に対する話者の方向の推定結果に応じた位置に配置することでマップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像の観者は、話者と発言内容とを直感的に関連付けることができる。
【0042】
(3)データベース
本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
【0043】
(3-1)音源データベース
本実施形態の音源データベースについて説明する。図5は、本実施形態の音源データベースのデータ構造を示す図である。
【0044】
音源データベースには、音源情報が格納される。音源情報は、コントローラ30によって識別された、マルチマイクデバイス50の周囲の音源(典型的には、話者)に関する情報である。
【0045】
図5に示すように、音源データベースは、「ID」フィールドと、「名称」フィールドと、「アイコン」フィールドと、「方向」フィールドと、「認識言語」フィールドと、「翻訳言語」フィールドとを含む。各フィールドは、互いに関連付けられている。
【0046】
「ID」フィールドには、音源IDが格納される。音源IDは、音源を識別する情報である。コントローラ30は、新たな音源を検出すると、新規の音源IDを発行し、当該音源IDを当該音源に割り当てる。
【0047】
「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ30は、音源名情報を、自動的に決定してもよいし、後述するようにユーザ指示に応じて設定してもよい。コントローラ30は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。
【0048】
「アイコン」フィールドには、アイコン情報が格納される。アイコン情報は、音源のアイコンに関する情報である。一例として、アイコン情報は、アイコン画像(例えば、プリセットアイコン画像のいずれか、またはユーザによって提供された写真、もしくは絵)、またはアイコンの書式(例えば、色、テクスチャ、光学的効果、形状、など)を特定可能な情報を含むことができる。コントローラ30は、アイコン情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ30は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期アイコンを割り当てることができる。
ただし、後述する変形例2のようにマップ画像に音源のアイコンを表示しない場合には、アイコン情報を音源情報から省略することができる。
【0049】
「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マルチマイクデバイス50に対する音源の方向に関する情報である。一例として、音源の方向は、マイク座標系においてマイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マルチマイクデバイス50の前方(x+方向))を0度とする軸からの偏角として表現される。
【0050】
「認識言語」フィールドには、認識言語情報が格納される。認識言語情報は、音源(話者)の使用言語に関する情報である。音源の認識言語情報に基づいて、当該音源から発生される音声に適用される音声認識エンジンが選択される。前記認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。
【0051】
「翻訳言語」フィールドには、翻訳言語情報が格納される。翻訳言語情報は、音源から発せられる音声に対する音声認識結果(テキスト)に機械翻訳を適用する場合における目的言語に関する情報である。音源の翻訳言語情報に基づいて、当該音源から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の音源ではなく全音源に対して一括で設定されてもよいし、ディスプレイデバイス10毎に設定されてもよい。
【0052】
その他、音源情報は、音源距離情報を含んでもよい。音源距離情報は、マルチマイクデバイス50から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マルチマイクデバイス50に対する音源の相対位置(つまり、マルチマイクデバイス50の座標系における音源の座標)に関する情報である。
【0053】
(4)情報処理
本実施形態の情報処理について説明する。
【0054】
(4-1)音声処理
本実施形態の音声処理について説明する。図6は、本実施形態の音声処理のフローチャートである。図7は、マイクロホンによる集音を説明するための図である。図8は、基準座標系における音源の方向を説明するための図である。図9は、マップ画像の一例を示す図である。
【0055】
図6に示す音声処理は、ディスプレイデバイス10、コントローラ30、およびマルチマイクデバイス50の電源がONになり、かつ初期設定が完了した後に開始される。ただし、図6に示す処理の開始タイミングはこれに限定されない。図6に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム1のユーザはリアルタイムに更新されるマップ画像を閲覧することができる。
【0056】
マルチマイクデバイス50は、マイクロホン51を介して音声信号の取得(S150)を実行する。
具体的には、マルチマイクデバイス50の備える複数のマイクロホン51-1,・・・、51-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン51-1~51-5は、図7に示される複数のパスを介して到来した発話音を集音する。マイクロホン51-1~51-5は、集音した発話音を音声信号へ変換する。
【0057】
マルチマイクデバイス50が備えるプロセッサは、マイクロホン51-1~51-5から、話者PR3,PR4,及びPR5の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン51-1~51-5から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報(例えば遅延や位相変化)が含まれている。
【0058】
ステップS150の後、マルチマイクデバイス50は、到来方向の推定(S151)を実行する。
マルチマイクデバイス50の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
【0059】
到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。
【0060】
マルチマイクデバイス50は、到来方向推定モデルに、マイクロホン51-1~51-5から受信した音声信号を入力することで、マイクロホン51-1~51-5により集音された発話音の到来方向(つまり、マルチマイクデバイス50に対する発話音の音源の方向)を推定する。このとき、マルチマイクデバイス50は、例えば、マイク座標系において、マイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マルチマイクデバイス50の前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する。図8に示される例では、マルチマイクデバイス50は、話者PR3から発せられた発話音の到来方向を、x軸から左方向に角度A2ずれた方向と推定する。マルチマイクデバイス50は、話者PR4から発せられた発話音の到来方向を、x軸から左方向に角度A3ずれた方向と推定する。マルチマイクデバイス50は、話者PR5から発せられた発話音の到来方向を、x軸から右方向に角度A1ずれた方向と推定する。
【0061】
ステップS151の後、マルチマイクデバイス50は、音声信号の抽出(S152)を実行する。
マルチマイクデバイス50が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
【0062】
マルチマイクデバイス50は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
【0063】
図8に示される例では、マルチマイクデバイス50は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
【0064】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0065】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0066】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0067】
マルチマイクデバイス50は、抽出した音声信号を、ステップS151において推定した当該音声信号に対応する音源の方向を示す情報(つまり、マルチマイクデバイス50に対する音源の方向の推定結果)とともに、コントローラ30へ送信する。
【0068】
ステップS152の後、コントローラ30は、音源の識別(S130)を実行する。
具体的には、コントローラ30は、ステップ151において取得した音源の方向(以下、「対象方向」という)の推定結果に基づいて、マルチマイクデバイス50の周囲に存在する音源を識別する。
【0069】
一例として、コントローラ30は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定し、当該対象方向に対応する音源が識別済みの音源でない場合に、新たな音源ID(図5)を割り当てる。具体的には、コントローラ30は、対象方向を、識別済みの音源についての音源方向情報(図5)と比較する。そして、コントローラ30は、対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、当該対象方向に対応する音源を、適合した音源方向情報を持つ(識別済みの)音源として扱う。他方、コントローラ30は、対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出し、当該新たな音源に新規の音源IDを付与する。ここで、対象方向が音源方向情報に適合することとは、少なくとも対象方向が音源方向情報の示す方向に一致することを含み、さらに対象方向の音源方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。
【0070】
ステップS130の後、コントローラ30は、音声認識処理(S131)を実行する。
記憶装置31には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置31の代わりに、コントローラ30がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
【0071】
コントローラ30は、音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。コントローラ30は、音声信号に対応する音源の認識言語情報に基づいて音声認識エンジンを選択してもよい。
【0072】
図8に示される例では、コントローラ30は、角度A1~A3について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。
【0073】
ステップS131の後、コントローラ30は、機械翻訳(S132)を実行する。
具体的には、コントローラ30は、ステップS131において生成したテキストに対応する音声の音源に翻訳言語情報(図5)が設定されている場合に、当該テキストの機械翻訳を行う。これにより、コントローラ30は、翻訳言語情報によって指定された言語のテキストを得る。コントローラ30は、音声信号に対応する音源の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。他方、コントローラ30は、ステップS131において生成したテキストに対応する音声の音源に翻訳言語情報(図5)が設定されていない場合(すなわち、音声を翻訳せずにテキストに変換する場合)に、本ステップを省略可能である。
【0074】
ステップS132の後、コントローラ30は、マップ画像の生成(S133)を実行する。
具体的には、コントローラ30は、ステップS131における音声認識処理の結果、またはステップS132における機械翻訳処理の結果に基づくテキストを表すテキスト画像を生成する。コントローラ30は、識別済みの音源を表す音源アイコンを、当該音源のマルチマイクデバイス50に対する方向(つまり、ステップS151の推定結果)に基づいて、マイクアイコンの周囲(一例として、マイクアイコンを中心とする円周上)に配置する。コントローラ30は、前述のテキスト画像を、対応する音声の音源を表す音源アイコンに対して所定の位置に配置する。
【0075】
一例として、コントローラ30は、図9に示すマップ画像を生成する。図9のマップ画像では、マイクアイコンMI31の前方(x+方向)がマップ画像の上方向を向くように、マイク座標系がマップ座標系に変換されている。しかしながら、コントローラ30は、マイク座標系とマップ座標系との対応関係を変更可能である。一例として、コントローラ30は、ユーザ指示に応じて、特定の音源アイコンがマップ座標系の所定の方向(例えば、下方向)に位置するようにマイクアイコンMI31の表示位置を中心に各音源アイコンの表示位置を回転してもよい。例えば図4のマップ画像は、音源アイコンSI31がマップ画像の下方向に位置するように、図9のマップ画像においてマイクアイコンMI31の表示位置を中心に各音源アイコンSI31~SI34の表示位置を左回りに90度回転し、テキスト画像TI32,TI34を回転後の音源アイコンSI32,SI34に対して所定の位置(例えば「右下」)に移動させることで生成可能である。
【0076】
また、コントローラ30は、音源が音声を発している間、当該音源を表す音源アイコンまたは当該音声に関するテキストを強調するようにマップ画像を生成してもよい。コントローラ30は、例えば以下の少なくとも1つにより音源アイコンまたはテキストを強調してもよい。
・アニメーションの付加
・拡大表示
・色、テクスチャ、光学的効果、または形状の変更
【0077】
ステップS133の後、コントローラ30は、情報表示(S134)を実行する。
具体的には、コントローラ30は、ステップS133において生成したマップ画像を、ディスプレイデバイス10のディスプレイ11に表示する。
【0078】
(4-2)音源設定処理
本実施形態の音源設定処理について説明する。図10は、本実施形態の音源設定処理のフローチャートである。図11は、本実施形態の音源設定処理において表示される画面例を示す図である。
【0079】
図10に示す音源設定処理は、図6に示す音声処理の開始後に、情報処理システム1のユーザによる指示に応じて開始する。ただし、図10に示す音源設定処理の開始タイミングはこれに限定されない。例えば、図10の処理は、図6に示す音声処理の開始前の初期設定処理として実行されてもよい。
【0080】
図10に示すように、コントローラ30は、音源の選択(S230)を実行する。
具体的には、コントローラ30は、ユーザが音源情報を設定するための音源設定UIをディスプレイデバイス10のディスプレイ11に表示する。一例として、コントローラ30は、図11の画面をディスプレイデバイス10のディスプレイ11に表示する。図11の画面は、マップ画像MP40と、音源設定UI(画像)CU40とを含む。
【0081】
音源設定UI CU40は、表示オブジェクトA41,A42と、操作オブジェクトB43とを含む。
表示オブジェクトA41は、登録済み参加者の情報(例えば、音源アイコンおよび登録された音源名称)を表示する。ここで、登録済み参加者とは、図6の音源の識別(S130)において識別された音源(話者)のうち、図10に示す音源設定処理によって音源名情報が登録された音源を意味する。
【0082】
表示オブジェクトA42は、未登録の参加者の情報(例えば、音源アイコンおよび初期音源名称)を表示する。ここで、未登録の参加者とは、図6の音源の識別(S130)において識別された音源(話者)のうち、音源名情報が登録されていない音源(つまり、コントローラ30によって決定された初期音源名称を使用する音源)を意味する。
【0083】
操作オブジェクトB43は、参加者を追加する操作を受け付ける。具体的には、情報処理システム1のユーザは、操作オブジェクトB43を選択し、さらに未登録の参加者のいずれかを指定する。コントローラ30は、未登録の参加者の指定を受け付けるために、入力フォーム(例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ)をディスプレイデバイス10に提示してもよい。
【0084】
コントローラ30は、ユーザ指示に応じて、音源情報の設定対象となる音源(未登録の参加者)を選択する。
【0085】
ステップS230の後に、コントローラ30は、音源情報の取得(S231)を実行する。
具体的には、コントローラ30は、ステップS230において選択した音源に設定する音源情報をユーザ指示に応じて取得する。一例として、コントローラ30は、選択した音源についての音源名情報を取得する。さらに、コントローラ30は、選択した音源についてのアイコン情報、認識言語情報、翻訳言語情報、またはそれらの組み合わせを取得してもよい。コントローラ30は、音源情報を取得するために、入力フォーム(例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ)をディスプレイデバイス10のディスプレイ11に表示してもよい。コントローラ30は、会話の参加者情報を取得し、当該参加者情報に基づいて入力フォーム(メニュー、ラジオボタン、またはチェックボックス)の要素を生成してもよい。会話の参加者情報は、会話の開始前に手動で設定されてもよいし、情報処理システム1、または連携する会議システムにログインしているアカウント名から取得されてもよい。
【0086】
ステップS231の後に、コントローラ30は、音源情報の更新(S232)を実行する。
具体的には、コントローラ30は、ステップS231において取得した音源情報を、ステップS230において選択した音源を識別する音源IDに関連付けて音源データベース(図5)に登録することで、音源情報を更新する。
【0087】
ステップS232を以て、コントローラ30は、図10に示す音源設定処理を終了してもよい。或いは、コントローラ30は、ユーザが音源設定処理の終了を指示するか、または未登録の参加者の全てに音源情報が設定されるまで、音源設定処理を繰り返し実行してもよい。
【0088】
(5)小括
以上説明したように、本実施形態のコントローラ30は、マルチマイクデバイス50に対する音源の方向を示す推定結果を取得し、当該音源から発せられ、マルチマイクデバイス50によって集音された音声の内容に関する情報を取得する。コントローラ30は、テキストを、マルチマイクデバイス50に対する当該テキストに対応する音源の方向に応じた位置に配置したマップ画像を生成し、当該マップ画像をディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像の観者は、音源(例えば話者)と当該音源から発せられる音声(例えば発言)の内容との関連付けを直感的に認識することができる。
【0089】
コントローラ30は、音源の方向の推定結果に基づいて、マルチマイクデバイス50の周囲に存在する個々の音源を識別し、識別された音源に関する音源情報を例えばユーザ指示に応じて設定してもよい。これにより、マップ画像において表示されるテキストに対応する音源について音源情報を適切に設定することができる。コントローラ30は、識別された音源についての音源名情報、認識言語情報、または翻訳言語情報の少なくとも1つを設定してもよい。これにより、マップ画像において表示されるテキストが誰の発言によるものかを明確化したり、正確な、またはユーザにとって理解しやすいテキストを生成したりすることができる。
【0090】
コントローラ30は、マルチマイクデバイス50を表すマイクアイコンと、音源を表す音源アイコンとを含み、音源アイコンがマイクアイコンを中心とする円周上のうちマルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるようにマップ画像を生成してもよい。これにより、マップ画像の観者は、マップ画像に表示されるテキストが、マルチマイクデバイス50に対してどの方向に位置する音源から発せられた音声に対応するかを直感的に認識することができる。また、マップ画像の観者は、マップ画像に表示される音源アイコンが、現実空間におけるどの音源に対応するかを直感的に認識することができる。また、コントローラ30は、音源が音声を発している間、当該音源を表す音源アイコンまたは当該音声の内容に関する情報を強調するようにマップ画像を表示してもよい。これにより、マップ画像に複数の音源アイコンおよび複数のテキストが表示されている場合であっても、観者は注目すべき音源およびテキスト(例えば、発言中の話者およびその発言内容)を容易に判別することができる。また、コントローラ30は、特定の音源アイコンがマップ画像上で特定の方向(例えば下方向)に位置するように、各音源アイコンおよび各テキストの表示位置をマイクアイコンの表示位置を中心に回転してもよい。これにより、特定の音源アイコンに対応する話者(例えば難聴者)は、他の話者(音源)と、マップ画像における音源アイコンとの対応を容易に把握することができる。
【0091】
(6)変形例
本実施形態の変形例について説明する。
【0092】
(6-1)変形例1
変形例1について説明する。変形例1は、マップ画像に加えて議事録を生成する例である。
【0093】
(6-1-1)変形例1の一態様
変形例1の一態様について説明する。図12は、変形例1の一態様を示す図である。
【0094】
コントローラ30は、複数の参加者による会話が行われている間、マップ画像および議事録を生成し、ディスプレイデバイス10のディスプレイ11に表示する。議事録は、マルチマイクデバイス50の周囲の音源(話者)による発言内容を時系列順に配置した発言履歴に相当する。コントローラ30は、参加者の発言に応じて、マップ画像および議事録を更新する。これにより、議事録は、これまでの会話の流れ(特に、誰が何を話してきたか)を視覚的にリアルタイムに把握するためのUIの役割を果たす。
【0095】
具体的には、図12に示すように、コントローラ30は、マップ画像MP50および議事録(画像)MN50を例えば一画面に並べてディスプレイデバイス10のディスプレイ11に表示する。議事録MN50は、表示オブジェクトA51を含む。なお、コントローラ30は、マップ画像MP50および議事録MN50を一画面に並べる代わりに、マップ画像MP50および議事録MN50のうちユーザによって選択された一方のみをディスプレイデバイス10のディスプレイ11に表示してもよい。
【0096】
表示オブジェクトA51は、話者の発言の情報(例えば、話者(音源)のアイコンもしくは名称、発言時間、発言内容、またはそれらの組み合わせ)を表示する。情報処理システム1のユーザ(例えば、発言者であるが、他のユーザであってもよい)は、議事録MN50に配置された発言内容に誤り(例えば、音声認識の誤り、または機械翻訳の誤り)を発見した場合に、当該発言内容を表示する表示オブジェクトA51を選択し、当該発言内容を編集することができる。コントローラ30は、編集後の発言内容を例えば入力フォームを介してユーザから取得し、当該発言内容に基づいて表示オブジェクトA51を更新する。さらに、コントローラ30は、編集後の発言内容に対応するテキストがマップ画像MP50に含まれる場合に、当該テキストを更新してもよい。また、コントローラ30は、図12に示す画面の代わりに、図18に示す画面をディスプレイ11に表示させてもよい。図18の例では、話者のアイコンに円弧上の印を表示することで、マルチマイクデバイス50に対する話者の方向を表している。これによりユーザは、マップ画像MP50を確認しなくても、議事録MN50を確認するだけで、各発言の発言者がマルチマイクデバイス50に対してどの方向に存在するかを把握することができる。
【0097】
このように、コントローラ30は、マルチマイクデバイス50の周囲に存在する話者による発言内容の履歴に相当する議事録を生成し、ディスプレイデバイス10のディスプレイ11に表示する。これにより、議事録の観者は、会話の流れを容易に振り返ることができる。
【0098】
(6-1-2)データベース
変形例1のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
【0099】
(6-1-2-1)発言データベース
変形例1の音源データベースについて説明する。図13は、変形例1の発言データベースのデータ構造を示す図である。
【0100】
発言データベースには、発言情報が格納される。発言情報は、マルチマイクデバイス50によって集音された音声(発言)に関する情報である。
【0101】
図13に示すように、発言データベースは、「発言ID」フィールドと、「音源IDフィールド」と、「発言日時」フィールドと、「発言内容」フィールドとを含む。
各フィールドは、互いに関連付けられている。
【0102】
「発言ID」フィールドには、発言IDが格納される。発言IDは、発言を識別する情報である。コントローラ30は、音声認識結果または機械翻訳結果から新たな発言を検出すると、新規の発言IDを発行し、当該発言IDを当該発言に割り当てる。コントローラ30は、発言を、話者の交代に応じて区切る。また、コントローラ30は、同一の話者による一連の発言であっても、音声上の境界(例えば無音区間)またはテキストの意味上の境界に応じて区切ることができる。
【0103】
「音源ID」フィールドには、音源IDが格納される。音源IDは、発言を行った話者(音源)を識別する情報である。音源IDは、図5の音源データベースを親テーブルとして参照するための外部キーに相当する。
【0104】
「発言日時」フィールドには、発言日時情報が格納される。発言日時情報は、発言が行われた日時に関する情報である。発言日時情報は、絶対的な日時を示す情報であってもよいし、会話の開始からの経過時間を示す情報であってもよい。
【0105】
「発言内容」フィールドには、発言内容情報が格納される。発言内容情報は、発言の内容に関する情報である。発言内容情報は、例えば、発言に対する音声認識結果、もしくは当該音声認識結果に対する機械翻訳結果、またはこれらに対するユーザによる編集結果である。
【0106】
なお、発言データベースは、本実施形態において、特定の時点におけるマップ画像を再生するために用いることもできる。
【0107】
(6-1-3)情報処理
変形例1の情報処理について説明する。
【0108】
(6-1-3-1)音声処理
変形例1の音声処理について説明する。図14は、変形例1の音声処理のフローチャートである。
【0109】
図14に示す音声処理は、ディスプレイデバイス10、コントローラ30、およびマルチマイクデバイス50の電源がONになり、かつ初期設定が完了した後に開始される。ただし、図14に示す処理の開始タイミングはこれに限定されない。図14に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム1のユーザはリアルタイムに更新されるマップ画像および議事録を閲覧することができる。
【0110】
図14に示すように、マルチマイクデバイス50は図6と同様に、音声信号の取得(S150)、到来方向の推定(S151)、および音声信号の抽出(S152)を実行する。
【0111】
ステップS152の後、コントローラ30は図6と同様に、音源の識別(S130)、音声認識処理(S131)、機械翻訳(S132)、およびマップ画像の生成(S133)を実行する。なお、コントローラ30は、ステップS130~ステップS132の間に、発言情報を発言データベース(図13)に登録する。
【0112】
ステップS133の後、コントローラ30は、議事録生成(S334)を実行する。
具体的には、コントローラ30は、発言データベース(図13)を参照し、議事録を生成する。一例として、コントローラ30は、ステップS130~ステップS132の間に発言データベースに登録した発言情報(つまり、新規の発言情報)に基づいて、前回のステップS334の実行時に生成した議事録(以下、「前回議事録」という)を更新してもよい。
【0113】
ステップS334の後、コントローラ30は、情報表示(S335)を実行する。
具体的には、コントローラ30は、ステップS133において生成したマップ画像およびステップS334において生成した議事録を、ディスプレイデバイス10のディスプレイ11に表示する。
【0114】
(6-1-4)小括
以上説明したように、変形例1のコントローラ30は、マルチマイクデバイス50の周囲に存在する音源(話者)による発言に関するテキスト(つまり、音声認識結果、または機械翻訳結果)に基づいて議事録を生成し、当該議事録をマップ画像と並べてディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像および議事録の観者は、マップ画像を閲覧することで話者と当該話者による発言の内容との関連付けを直感的に認識することができるとともに、議事録を閲覧することでそれまでの会話の流れを容易に振り返ることができる。また、コントローラ30は、発言に関するテキストを発言日時の時系列順に配置することで議事録を生成してもよい。これにより、議事録の観者は、それまでの会話の流れを直感的に認識することができる。また、コントローラ30は、議事録に配置されたテキストをユーザ指示に応じて編集してもよい。これにより、音声認識または機械翻訳の誤りによりユーザ(特に難聴者)が発言内容を誤解した場合であっても、発言した本人または周りのユーザが誤りを速やかに訂正できるので、円滑なコミュニケーションを促進することができる。また、会議終了後に会議中の発言内容を確認するための正確な議事録を残すことができる。
【0115】
(6-2)変形例2
変形例2について説明する。変形例2は、本実施形態とは異なるマップ画像を生成する例である。図15は、変形例2のマップ画像の一例を示す図である。図16は、変形例2のマップ画像の別の例を示す図である。
【0116】
コントローラ30は、複数の参加者による会話が行われている間、マップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。マップ画像は、マルチマイクデバイス50の周囲の音源(話者)環境を俯瞰した図に相当し、マルチマイクデバイス50に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキストが配置される。コントローラ30は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、直近の会話の内容(特に、誰が何を話しているか)を視覚的にリアルタイムに把握するためのUIの役割を果たす。
【0117】
具体的には、図15に示すマップ画像は、マイクアイコンMI61と、円周CI61と、表示オブジェクトA61,A62と、テキスト画像TI61a,TI61b,TI62とを含む。
【0118】
マイクアイコンMI61は、マイクアイコンMI31(図4)と同様に、マルチマイクデバイス50を表す。マイクアイコンMI61は、当該マイクアイコンMI61の向きを示す目印MR61を備える。
円周CI61は、円周CI31(図4)と同様に、マイクアイコンMI61を中心とする円周に相当する。
【0119】
テキスト画像TI61aは、第1話者による発言であって、図15に表示されるテキスト画像TI61a,TI61b,TI62のうち発言日時が第二番目に新しい発言内容に対応する。テキスト画像TI61aは、マルチマイクデバイス50に対する第1話者の方向に応じた位置に配置される。具体的には、テキスト画像TI61aは、マイクアイコンMI61の表示位置(「マップ座標系の原点」の一例)から第1話者の(推定)方向へ延びる直線に沿って配置される。
【0120】
テキスト画像TI61bは、第1話者による発言であって、図15に表示されるテキスト画像TI61a,TI61b,TI62のうち発言日時が最も新しい発言内容に対応する。テキスト画像TI61bは、マルチマイクデバイス50に対する第1話者の方向に応じた位置に配置される。具体的には、テキスト画像TI61bは、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、テキスト画像TI61bは、より古い発言日時に対応するテキスト画像TI61aに比べてマイクアイコンMI61の表示位置に近い位置に配置される。
【0121】
表示オブジェクトA61は、マルチマイクデバイス50に対する第1話者(音源)の(推定)方向を表示する。表示オブジェクトA61は、マイクアイコンMI61の表示位置から第1話者の方向へ延びる直線を中心として所定の角度幅を有する扇形に相当する。コントローラ30は、表示オブジェクトA61に、他の話者の方向を表示するオブジェクトとは異なる特定の書式を設定してよい。コントローラ30は、表示オブジェクトA61を、テキスト画像TI61a,TI61bと少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、表示オブジェクトA61をテキスト画像TI61a,TI61bの背景または文字と同系色に揃えてよい。
【0122】
テキスト画像TI62は、第2話者による発言であって、図15に表示されるテキスト画像TI61a,TI61b,TI62のうち発言日時が最も古い発言内容に対応する。テキスト画像TI62は、マルチマイクデバイス50に対する第2話者の方向に応じた位置に配置される。具体的には、テキスト画像TI62は、マイクアイコンMI61の表示位置から第2話者の(推定)方向へ延びる直線に沿って配置される。
【0123】
表示オブジェクトA62は、マルチマイクデバイス50に対する第2話者(音源)の(推定)方向を表示する。表示オブジェクトA62は、マイクアイコンMI61の表示位置から第2話者の方向へ延びる直線を中心として所定の角度幅を有する扇形に相当する。コントローラ30は、表示オブジェクトA62に、他の話者の方向を表示するオブジェクトとは異なる特定の書式を設定してよい。コントローラ30は、表示オブジェクトA62を、テキスト画像TI62と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、表示オブジェクトA62をテキスト画像TI62の背景または文字と同系色に揃えてよい。
【0124】
コントローラ30は、参加者による新たな発言に応じて、図15に示すマップ画像を図16に示すマップ画像へと更新する。
【0125】
具体的には、図16に示すマップ画像は、マイクアイコンMI61と、円周CI61と、表示オブジェクトA61と、テキスト画像TI61a,TI61b,TI61cとを含む。
【0126】
テキスト画像TI61aは、第1話者による発言であって、図16に表示されるテキスト画像TI61a,TI61b,TI61cのうち発言日時が最も古い発言内容に対応する。テキスト画像TI61aは図15と同様に、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、コントローラ30は、図15に示すマップ画像に比べて、テキスト画像TI61aの表示位置を、マイクアイコンM61の表示位置から遠ざかる方向に移動させる。
【0127】
テキスト画像TI61bは、第1話者による発言であって、図16に表示されるテキスト画像TI61a,TI61b,TI61cのうち発言日時が第二番目に新しい発言内容に対応する。テキスト画像TI61bは、図15と同様に、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、コントローラ30は、図15に示すマップ画像に比べて、テキスト画像TI61bの表示位置を、マイクアイコンM61の表示位置から遠ざかる方向に移動させる。これにより、テキスト画像TI61bは、より古い発言日時に対応するテキスト画像TI61aに比べてマイクアイコンMI61の表示位置に近い位置、かつより新しい発言日時に対応するテキスト画像TI61cに比べてマイクアイコンMI61の表示位置から遠い位置、に配置される。
【0128】
テキスト画像TI61cは、第1話者による発言であって、図16に表示されるテキスト画像TI61a,TI61b,TI61cのうち発言日時が最も新しい発言内容に対応する。テキスト画像TI61cは、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、テキスト画像TI61cは、より古い発言日時に対応するテキスト画像TI61a,TI61bに比べてマイクアイコンMI61の表示位置に近い位置に配置される。
【0129】
なお、図16の例では、コントローラ30は、テキスト画像TI61aに比べてより古い発言位置に対応するテキスト画像TI62をマップ画像上に配置せず、かつ表示オブジェクトA62をマップ画像上に配置しない。これにより、マップ画像の観者は、直近の発言の内容と話者に意識を向けやすくなる。
【0130】
このように、コントローラ30は、同一の話者から発せられた音声に対応するテキストを、対応する発生日時が古い順にマップ座標系の原点(例えばマイクアイコンMI61の表示位置)から遠ざかるように、マルチマイクデバイス50に対する話者の(推定)方向に沿って配置することでマップ画像を生成する。これにより、マップ画像の観者は、話者と発言内容との関連付けを直感的に認識することができるとともに、発言の時間的順序を、当該発言に対応するテキストの表示位置とマップ座標系の原点との間の距離を元に把握することができる。なお、図15及び図16の例では各テキスト画像が音源の方向に対応する向きに回転して表示されるものとしたが、これに限らず、各テキスト画像が音源の方向にかかわらず直立していてもよい。
【0131】
(6-3)変形例3
変形例3について説明する。変形例3は、異なる場所に設置された複数のマルチマイクデバイスのそれぞれについてマップ画像を生成する例である。図17は、変形例3のマップ画像の例を示す図である。
【0132】
コントローラ30は、異なる場所(例えば、異なる会議室、異なる事業所、または異なる会社)に存在する複数の参加者による会話が行われている間、それぞれの場所についてマップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。各マップ画像は、それぞれの場所に設置されたマルチマイクデバイス50の周囲の音源(話者)環境を俯瞰した図に相当し、各マルチマイクデバイス50に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキストが配置される。コントローラ30は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、それぞれの場所での直近の会話の内容(特に、どの場所で誰が何を話しているか)を視覚的にリアルタイムに把握するためのUIの役割を果たす。
【0133】
具体的には、図17に示すように、コントローラ30は、第1の場所のマップ画像MP71と、第2の場所のマップ画像MP72とを例えば一画面に並べてディスプレイデバイス10のディスプレイ11に表示する。なお、コントローラ30は、マップ画像MP71,MP72を一画面に並べる代わりに、マップ画像MP71,MP72のうちユーザによって選択された一方のみをディスプレイデバイス10のディスプレイ11に表示してもよい。
【0134】
このように、コントローラ30は、異なる場所に設置された複数のマルチマイクデバイス50のそれぞれについてマップ画像を生成する。これにより、例えば、異なる場所に居る複数の参加者がリモート会議を行う場合であっても、マップ画像の観者は、場所と話者と発言内容との関連付けを直感的に認識することができる。特に、第1の場所に居る参加者は、第2の場所に居る参加者に比べて当該第2の場所において誰が発言しているかを正確に把握しづらいが、第2の場所のマップ画像を閲覧することで、第2の場所における発言者を容易に特定できる。つまり、リモート会議による臨場感の低下を補うことができる。
【0135】
(7)その他の変形例
記憶装置31は、ネットワークを介して、コントローラ30と接続されてもよい。
【0136】
上記の情報処理の各ステップは、ディスプレイデバイス10、コントローラ30及びマルチマイクデバイス50の何れでも実行可能である。例えば、コントローラ30は、マルチマイクデバイス50によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定(S151)、および音声信号の抽出(S152)を行ってもよい。
【0137】
上記説明では、ディスプレイデバイス10およびコントローラ30が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス10およびコントローラ30は一体化されてもよい。例えば、ディスプレイデバイス10およびコントローラ30が1台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マルチマイクデバイス50とディスプレイデバイス10またはコントローラ30とが一体化されてもよい。また例えば、コントローラ30がクラウドサーバ内に存在してもよい。
【0138】
上記説明では、ディスプレイデバイス10が、タブレット端末、パーソナルコンピュータ、スマートフォン、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス10は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス10は、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス10は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス10の形式はこれに限定されない。例えば、ディスプレイデバイス10はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス10はカメラを備えてもよい。そしてディスプレイデバイス10は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ11に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス10は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよい。
【0139】
また、1台のコントローラ30に複数のディスプレイデバイス10が接続されてよい。この場合に、例えば、マップ画像のレイアウト(例えば、マイク座標系とマップ座標系との対応関係)、および翻訳言語情報は、ディスプレイデバイス10毎に変更可能に構成されてよい。
【0140】
ディスプレイ11は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ11は、例えば、以下の実現方法により実現可能である。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
【0141】
ディスプレイ11には、前述のマップ画像の一部(例えば上半分)のみが表示されてもよい。これにより、ディスプレイ11の表示領域が小さい場合であっても、テキスト画像等の視認性を保つことができる。ディスプレイ11に表示されるマップ画像の一部は、ユーザ指示に応じてまたは自動的に切り替えられてよい。
【0142】
上述した実施形態では、コントローラ30の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス10の備える操作部からユーザの指示が入力されてもよい。
【0143】
マルチマイクデバイス50による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マルチマイクデバイス50は、例えば、以下の方法により音声信号を抽出してもよい。
・Frostビームフォーマ
・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
【0144】
本実施形態または各変形例において、複数の参加者による発言に関するテキスト(画像)をマップ画像上に配置する例を示した。コントローラ30は、会話と関連付けられるチャットにおいてチャット参加者によって投稿されたテキストを取得し、当該テキスト(画像)をマップ画像上に配置してもよい。また、コントローラ30は、音源アイコンと同様に、チャット参加者を表す投稿者アイコンをマップ画像上に配置してもよい。これにより、会話の参加者がチャット参加者による投稿内容を認識しやすくなる。この場合に、チャット参加者によって投稿されたテキスト(以下、「投稿テキスト」という)または投稿者アイコンの表示位置は、様々な技法により決定することができる。
第1例として、コントローラ30は、投稿者アイコンまたは投稿テキストを、例えば円周CI31またはCI61の外側に表示することで、音源アイコンまたは発言に関するテキストと区別してもよい。第2例として、コントローラ30は、チャット参加者がいずれかの話者と同一人物であることを検出した場合に、当該話者による発言に関するテキストと同一のルールで当該話者による投稿テキストを表示することで、同一人物による発言内容および投稿内容を集約してもよい。第3例として、コントローラ30は、ユーザ指示に応じて、マルチマイクデバイス50に対するチャット参加者の方向を決定し、決定された方向に基づいて投稿者アイコンまたは投稿テキストを配置(例えば円周CI31上に配置)してもよい。つまり、コントローラ30は、ユーザ指示に応じて、マップ画像における投稿者アイコンまたは投稿テキストの表示位置を移動してもよい。これにより、チャット参加者が全く発言せずマルチマイクデバイス50に対するチャット参加者の方向を推定することができない場合であっても、投稿者アイコンまたは投稿テキストの表示位置を適正化(例えば、発言者の音源アイコン及びテキスト画像と同様に表示)することができる。
【0145】
変形例1では、議事録を生成し、当該議事録に配置された発言内容をユーザが編集可能に構成する例を説明した。ユーザは、発言内容そのものの修正に限らず、発言に関する補足説明を追加してもよい。これにより、議事録の観者に、発言の趣旨が伝わらなかったり、誤って伝わったりするのを防止することができる。
【0146】
変形例1では、複数の参加者による会話における発言内容を示すテキストを時系列順に配置した議事録を生成する例を示した。コントローラ30は、会話と関連付けられるチャットにおいてチャット参加者によって投稿されたテキストを取得し、当該テキストにさらに基づいて議事録を生成してもよい。この場合に、コントローラ30は、投稿日時または発言日時の時系列順に、投稿されたテキストまたは発言内容を示すテキストを配置することで議事録を生成する。例えば、投稿されたテキストと発言内容を示すテキストとを同じウインドウ内に時系列順に並べて配置してもよい。これにより、会話の参加者がチャット参加者による投稿内容を認識しやすくなるとともに、議論の流れを振り返る場合にチャット参加者の投稿内容の見落としを防ぐことができる。
【0147】
変形例2では、発生日時が新しい順に3つの発言内容に対応するテキスト画像をマップ画像上に配置する例を示した。しかしながら、マップ画像上に配置されるテキスト画像の数は2以下であってもよいし、4以上であってもよい。また、マップ画像上に配置されるテキスト画像の数は、固定であってもよいし、種々の条件(例えば、マップ画像のサイズ、発言内容に含まれる文字数)などに応じて可変であってもよい。また、マップ画像上に配置されるテキスト画像は、当該テキスト画像に対応する発言日時からの経過時間が閾値以内であるか否かによって決定されてもよい。
【0148】
本実施形態で説明したマップ画像と、変形例2で説明したマップ画像とは組み合わせることができる。一例として、変形例2で説明したマップ画像において、マルチマイクデバイス50に対する話者の(推定)方向を示す表示オブジェクトA61,A62の代わりに、またはこれらに加えて、本実施形態で説明した音源アイコンが表示されてもよい。
【0149】
変形例3では、2つの場所についてのマップ画像を生成する例を示した。しかしながら、コントローラ30は、3以上の場所についてのマップ画像を生成してもよい。また、変形例1,3を組み合わせることも可能である。一例として、コントローラ30は、複数の場所における参加者の発言内容を時系列順に並べて議事録を生成してもよい。この場合に、コントローラ30は、参加者がどの場所に居るかに関わらず各参加者の発言を同一の議事録に集約してもよい。
【0150】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0151】
1 :情報処理システム
10 :ディスプレイデバイス
11 :ディスプレイ
30 :コントローラ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :マルチマイクデバイス
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18