特開2022-144417 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立システムズの特許一覧

特開2022-144417聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022144417

(43)【公開日】2022-10-03

(54)【発明の名称】聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム

(51)【国際特許分類】

G10L 17/00 20130101AFI20220926BHJP

G10L 15/22 20060101ALI20220926BHJP

G06F 3/16 20060101ALI20220926BHJP

【ＦＩ】

G10L17/00 200C

G10L15/22 460Z

G06F3/16 640

G06F3/16 650

G06F3/16 620

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021045420

(22)【出願日】2021-03-19

(71)【出願人】

【識別番号】000233491

【氏名又は名称】株式会社日立システムズ

(74)【代理人】

【識別番号】110000198

【氏名又は名称】弁理士法人湘洋特許事務所

(72)【発明者】

【氏名】木村英志

(57)【要約】

【課題】複数人が発話する状況での聞き取りを支援する技術を提供する。
【解決手段】
聞き取り支援装置であって、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、いずれかの話者による発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、混成音声情報から発話を分離して得た第一の発言のテキストと、個別音声情報から話者のいずれかの発話を特定した第二の発言のテキストと、を得る話者分離部と、第一の発言のテキストと、第二の発言のテキストと、の類似を判定する発言類似判定部と、第一の発言のテキストと、第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離部と、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定部と、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、
を備えることを特徴とする聞き取り支援装置。

【請求項2】

請求項１に記載の聞き取り支援装置であって、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストと表示態様を異ならせる、
ことを特徴とする聞き取り支援装置。

【請求項3】

請求項１または２に記載の聞き取り支援装置であって、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストよりも視認性を低く抑える、
ことを特徴とする聞き取り支援装置。

【請求項4】

請求項１～３のいずれか一項に記載の聞き取り支援装置であって、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストよりも強調表示する、
ことを特徴とする聞き取り支援装置。

【請求項5】

請求項１～４のいずれか一項に記載の聞き取り支援装置であって、
前記混成音声取得部は、前記混成音声情報をリアルタイムに取得し、
前記個別音声取得部は、前記個別音声情報をリアルタイムに取得し、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストを表示する際に、前記個別音声情報に係る前記話者とは異なる話者が発話している旨を前記第二の発言のテキストの発言リストに表示する、
ことを特徴とする聞き取り支援装置。

【請求項6】

請求項１～５のいずれか一項に記載の聞き取り支援装置であって、
前記個別音声取得部は、複数の前記個別音声情報を、複数の所定の音声入力装置から取得する、
ことを特徴とする聞き取り支援装置。

【請求項7】

請求項１～６のいずれか一項に記載の聞き取り支援装置であって、
前記発言類似判定部は、前記第一の発言のテキストと略同一時刻の前記第二の発言のテキストとの類似を判定する、
ことを特徴とする聞き取り支援装置。

【請求項8】

請求項１～７のいずれか一項に記載の聞き取り支援装置であって、
前記混成音声情報および前記個別音声情報は、同一のオンライン会議の音声であり、前記他の装置は、前記オンライン会議を制御する装置である、
ことを特徴とする聞き取り支援装置。

【請求項9】

聞き取り支援装置を用いた聞き取り支援方法であって、
前記聞き取り支援装置は、処理部を備え、
前記処理部は、
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、
を実施することを特徴とする聞き取り支援方法。

【請求項10】

コンピュータを、聞き取り支援装置として機能させる聞き取り支援プログラムであって、
前記コンピュータは、プロセッサを備え、
前記プロセッサに、
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、
を実施させることを特徴とする聞き取り支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラムに関するものである。

【背景技術】

【0002】

特許文献１には、「複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法」について記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－１８７３４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記技術は、話者の口の形状が含まれている映像を用いて、オーディオデータに含まれる音声の話者を特定することはできるが、口の形状が含まれる映像がない状況、すなわち映像データを用いないオンライン電話会議等の複数人が発話する環境下では、聞き取りの支援を行うことはできない。

【0005】

本発明の目的は、複数人が発話する状況での聞き取り支援を行う技術を提供することにある。

【課題を解決するための手段】

【0006】

本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る聞き取り支援装置は、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離部と、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定部と、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、を備えることを特徴とする。

【0007】

また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストと表示態様を異ならせるものであってもよい。

【0008】

また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストよりも視認性を低く抑えるものであってもよい。

【0009】

また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストよりも強調表示するものであってもよい。

【0010】

また例えば、上記の聞き取り支援装置において、前記混成音声取得部は、前記混成音声情報をリアルタイムに取得し、前記個別音声取得部は、前記個別音声情報をリアルタイムに取得し、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストを表示する際に、前記個別音声情報に係る前記話者とは異なる話者が発話している旨を前記第二の発言のテキストの発言リストに表示するものであってもよい。

【0011】

また例えば、上記の聞き取り支援装置において、前記個別音声取得部は、複数の前記個別音声情報を、複数の所定の音声入力装置から取得するものであってもよい。

【0012】

また例えば、上記の聞き取り支援装置において、前記発言類似判定部は、前記第一の発言のテキストと略同一時刻の前記第二の発言のテキストとの類似を判定するものであってもよい。

【0013】

また例えば、上記の聞き取り支援装置において、前記混成音声情報および前記個別音声情報は、同一のオンライン会議の音声であり、前記他の装置は、前記オンライン会議を制御する装置であってもよい。

【0014】

また、本発明の別の態様にかかる聞き取り支援方法は、聞き取り支援装置を用いた聞き取り支援方法であって、前記聞き取り支援装置は、処理部を備え、前記処理部は、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、を実施することを特徴とする。

【0015】

また、本発明の別の態様にかかる聞き取り支援プログラムは、コンピュータを、聞き取り支援装置として機能させる聞き取り支援プログラムであって、前記コンピュータは、プロセッサを備え、前記プロセッサに、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、を実施させることを特徴とする。

【発明の効果】

【0016】

本発明によると、映像データを用いず複数人が発話する状況での聞き取り支援を行う技術を提供することができる。

【0017】

上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

【図面の簡単な説明】

【0018】

【図1】リモート会議支援システムの構成を例示するブロック図である。

【図2】マイク利用者記憶部のデータ構造例を示す図である。

【図3】全体会話録記憶部のデータ構造例を示す図である。

【図4】話者別発話記憶部のデータ構造例を示す図である。

【図5】聞き取り支援装置のハードウェア構成例を示す図である。

【図6】会議記録フローの例を示す図である。

【図7】発話認識処理フローの例を示す図である。

【図8】会話確認画面の例を示す図である。

【図9】会話確認画面の別の例を示す図である。

【発明を実施するための形態】

【0019】

以下に、本発明の一態様に係る実施形態を適用した聞き取り支援システムとなるリモート会議支援システム１について、図面を参照して説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。また、「Ａからなる」、「Ａよりなる」、「Ａを有する」、「Ａを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。

【0020】

以下の説明では、「表示部２２０」、「ブラウザ部」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェースデバイス。Ｉ／Ｏインターフェースデバイスは、Ｉ／Ｏデバイスと聞き取り支援装置１００とのうちの少なくとも一つに対するインターフェースデバイスである。聞き取り支援装置１００に対するＩ／Ｏインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのＩ／Ｏデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（ＨｏｓｔＢｕｓＡｄａｐｔｅｒ））であってもよい。

【0021】

また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

【0022】

また、以下の説明では、「記憶部」または「ストレージ」は、メモリと永続記憶装置のうちメモリかまたは両方であればよい。具体的には、永続記憶装置は例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＮＶＭＥ（Ｎｏｎ－ＶｏｌａｔｉｌｅＭｅｍｏｒｙＥｘｐｒｅｓｓ）ドライブ、又は、ＳＣＭ（ＳｔｏｒａｇｅＣｌａｓｓＭｅｍｏｒｙ）でよい。

【0023】

また、以下の説明では、「処理部」または「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のようなマイクロプロセッサデバイスでよいが、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路（例えばＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）又はＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ））といった広義のプロセッサデバイスでもよい。

【0024】

また、以下の説明では、「ｙｙｙ部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路（例えばＦＰＧＡ又はＡＳＩＣ）によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び／又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。

【0025】

また、以下の説明では、「プログラム」や「処理部」を主語として処理を説明する場合があるが、プログラムを主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。また、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。

【0026】

また、以下の説明では、「ｘｘｘテーブル」や「ｙｙｙ部」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のテーブルでもよいし、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「ｘｘｘテーブル」あるいは「ｙｙｙ部」を「ｘｘｘ情報」と言うこともできる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。

【0027】

また、以下の説明では、「リモート会議支援システム」は、一つ以上の物理的な計算機で構成されたシステムでもよいし、物理的な計算リソース群（例えば、クラウド基盤）上に実現されたシステム（例えば、クラウドコンピューティングシステム）でもよい。リモート会議支援システムが表示用情報を「表示する」ことは、計算機が有する表示デバイスに表示用情報を表示することであってもよいし、計算機が表示用計算機に表示用情報を送信することであってもよい（後者の場合は表示用計算機によって表示用情報が表示される）。

【0028】

会話において発話者を認識することは重要である。従来、リモート会議ではユーザーごとに音声入力系統が分けられており、音声入力があったユーザーのアイコンを強調表示させる機能などがある。また、リモート会議でのリアルタイム音声認識処理においては、音声入力系統が完全に分かれている前提で、話者のタグをつけた上でテキストを表示させることができる。

【0029】

特に、聴覚障碍者がリモート会議に参加する場合には、話者が紐づけられた発話を視覚的に読み取れることが重要である。一方で、リアルタイムの音声認識処理においては、音声入力系統がユーザーごとに完全に分けられているものばかりでなく、同一の部屋から複数人が共用のマイクロフォンを用いて参加することもあり、話者識別精度によっては誰の発話かわからないこともある。このような場合であっても、聴覚障碍者は少なくとも話者ではない参加者を推定する等、話者を推定する糸口となる情報を少しでも多く得たい。

【0030】

つまり、音声入力系統からは一部の話者までしか絞り込めないような場合においても、発話が音声入力系統から話者を特定することができる話者によるものでないことが推定できる場合には、その推定結果または示唆を視覚的に示すことが重要である。

【0031】

本実施形態に係る聞き取り支援装置１００では、リモート会議装置２００が出力する全参加者の発話が混成され得る音声情報を用いて、発話を特定できる音声入力系統を用いている参加者の発話のいずれかと類似／非類似を視覚的に示すことで、聴覚障碍者等の聞き取り支援を行う。

【0032】

図１は、本実施形態に係るリモート会議支援システムの構成を例示するブロック図である。リモート会議支援システム１では、会議参加者は、典型的には、端末装置（ノートパソコンやタブレット、スマートフォン等の参加者Ａ端末４００）を用いてインターネットあるいはイントラネット等のネットワーク４０を介して遠隔からリモート会議装置２００に接続し、他の参加者と会話によるリモート会議を行う。あるいは、別の参加者は、所定の会議室に配された会議室端末５００を用いてリモート会議装置２００に接続し、他の参加者と会話によるリモート会議を行う。

【0033】

参加者Ａ端末４００は、マイクロフォンＡ４１０が設けられており、参加者Ａの発話を集音し、リモート会議装置２００にリアルタイムに送信する。参加者Ａおよび参加者Ａ端末４００は、会議室端末５００とは別の場所（例えば、遠隔地等）にあり、参加者Ａの発話のみを拾うものとする。会議室端末５００は、複数のマイクロフォン（共用マイクロフォン５１０あるいはマイクロフォンＤ５２０）が設けられており、会議室にて同席している参加者Ｂ、Ｃ、Ｄの発話を集音し、リモート会議装置２００および聞き取り支援装置１００にリアルタイムに送信する。なお、マイクロフォンＤ５２０は、ピンマイク等であり、参加者Ｄの発言を専ら集音するものとする。共用マイクロフォン５１０は、参加者Ｂ、参加者Ｃおよび参加者Ｄの間で共用され、集音方向の区別を行わないものとする。ただし、これに限られず、集音方向の区別を行うことが可能なマイクロフォンであってもよい。すなわち、参加者Ｄの発話は、マイクロフォンＤ５２０によってほぼ確実に音声入力されるが、共用マイクロフォン５１０によっては参加者Ｄの発言の音圧や発話方向に応じ音声入力されない場合もある。

【0034】

リモート会議装置２００は、いわゆるオンライン会議システムであり、会議の開催／運営／終了を制御する会議制御部２１０と、表示制御を行う表示部２２０と、参加者Ａ端末４００、会議室端末５００、および聞き取り支援装置１００との通信を行う通信部２３０と、を備える。会議制御部２１０は、会議の都度、マイクロフォンＡ４１０の識別情報（マイクロフォンＩＤ）とその利用者である参加者Ａを対応付けて記憶する。また、会議制御部２１０は、会議の都度、マイクロフォンＤ５２０の識別情報（マイクロフォンＩＤ）とその利用者である参加者Ｄについても、対応付けて記憶する。なお、会議制御部２１０は、マイクロフォンＡ４１０と、共用マイクロフォン５１０と、マイクロフォンＤ５２０と、から入力された音声を統合し、重複する音声があれば重複を排除する。つまり、参加者Ｂ、Ｃの発言が共用マイクロフォン５１０およびマイクロフォンＤ５２０の両方に入力された場合でも、会議制御部２１０は、マイクロフォンＤ５２０からの入力を排除する。同様に、参加者Ｄの発言が共用マイクロフォン５１０およびマイクロフォンＤ５２０の両方に入力された場合でも、会議制御部２１０は、共用マイクロフォン５１０からの入力を排除する。通信部２３０は、ネットワーク４０、ネットワーク５０を介して他の装置との通信制御を行う。また、リモート会議装置２００は、聞き取り支援装置１００から会議の音声情報の要求を受け付けると、会議の全体会話を混成させた全体会話の音声情報を、ストリーミングあるいは音声ファイルの送信により聞き取り支援装置１００に受け渡す。

【0035】

また、リモート会議支援システム１は、参加者の一人以上が閲覧可能な閲覧装置３００を備える。閲覧装置３００は、独立した端末装置であってもよいし、会議室端末５００あるいは参加者Ａ端末４００と兼用するものであってもよい。参加者は、閲覧装置３００のブラウザ部を介して聞き取り支援装置１００に画面情報を要求し、聞き取り支援装置１００から全体会話録と、話者別発言とを併記表示する画面を受け取ると、表示する。

【0036】

ネットワーク４０は、インターネットあるいはイントラネット等のネットワークである。ネットワーク４０は、これに限られず、さらに、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、携帯電話網等、あるいはこれらが複合した通信網であってもよい。当該ネットワーク４０は、携帯電話通信網等の無線通信網上のＶＰＮ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）等であってもよい。

【0037】

ネットワーク５０は、インターネットあるいはイントラネット等のネットワークである。ネットワーク５０は、これに限られず、さらに、ＷＡＮ、携帯電話網等、あるいはこれらが複合した通信網であってもよい。当該ネットワーク５０は、携帯電話通信網等の無線通信網上のＶＰＮ等であってもよい。また、ネットワーク５０は、ネットワーク４０と同一のものであってもよい。

【0038】

聞き取り支援装置１００は、リモート会議装置２００に会議の音声情報の要求を送信し、会議の全体会話を混成させた全体会話の音声情報を、ストリーミングあるいは音声ファイルによりリモート会議装置２００から受け取る。そして、聞き取り支援装置１００は、閲覧装置３００から画面情報の要求を受け付けると、全体会話録と、話者別発言とを併記表示する画面を閲覧装置３００に送信する。

【0039】

聞き取り支援装置１００には、記憶部１１０と、処理部１２０と、通信部１３０と、が含まれる。記憶部１１０には、マイク利用者記憶部１１１と、全体会話録記憶部１１２と、話者別発話記憶部１１３と、が含まれる。

【0040】

図２は、マイク利用者記憶部のデータ構造例を示す図である。マイク利用者記憶部１１１には、マイクロフォンＩＤ１１１Ａと、利用者名１１１Ｂと、が対応付けて記憶される。マイクロフォンＩＤ１１１Ａは、参加者が会議に利用するマイクロフォンを識別する情報である。利用者名１１１Ｂは、マイクロフォンＩＤ１１１Ａにより識別されるマイクロフォンを会議で使用する参加者（一人以上。二人以上の場合は共用マイクとなる）を識別する情報である。つまり、マイク利用者記憶部１１１は、マイクロフォンを利用する参加者を関連付け特定する情報である。

【0041】

図３は、全体会話録記憶部のデータ構造例を示す図である。全体会話録記憶部１１２には、発話識別子１１２Ａと、発話時刻１１２Ｂと、発話テキスト１１２Ｃと、が対応付けて記憶される。発話識別子１１２Ａは、会議内における発話を識別する情報である。発話時刻１１２Ｂは、会議の参加者により発話がなされた日時を特定する情報である。発話テキスト１１２Ｃは、会議の参加者による発話をテキスト化した情報である。

【0042】

図４は、話者別発話記憶部のデータ構造例を示す図である。話者別発話記憶部１１３には、利用者１１３Ａと、発話識別子１１３Ｂと、発話時刻１１３Ｃと、発話テキスト１１３Ｄと、マイクロフォンＩＤ１１３Ｅと、が対応付けて記憶される。利用者１１３Ａは、参加者を識別する情報である。発話識別子１１３Ｂは、会議内における発話を識別する情報である。発話時刻１１３Ｃは、会議の参加者により発話がなされた日時を特定する情報である。発話テキスト１１３Ｄは、会議の参加者による発話をテキスト化した情報である。マイクロフォンＩＤ１１３Ｅは、参加者が会議に利用したマイクロフォンを識別する情報である。

【0043】

図１の説明に戻る。処理部１２０には、混成音声取得部１２１と、個別音声取得部１２２と、話者分離部１２３と、音響モデリング部１２４と、言語モデリング部１２５と、発言類似判定部１２６と、併記表示作成部１２７と、が含まれる。

【0044】

混成音声取得部１２１は、複数の話者の発話を含む混成音声情報を他の装置から取得する。具体的には、混成音声取得部１２１は、リモート会議装置２００に会議の混成音声情報を要求し、参加者の発言のすべてを含む全体会話の混成音声情報を取得する。

【0045】

個別音声取得部１２２は、いずれかの話者による発話を含む個別音声情報を所定の音声入力装置から取得する。具体的には、個別音声取得部１２２は、共用マイクロフォン５１０と、マイクロフォンＤ５２０と、から個別音声情報を取得する。

【0046】

話者分離部１２３は、混成音声情報から発話を分離して得た第一の発言のテキスト（以降、混成音声テキストともいう）と、個別音声情報から話者のいずれかの発話を特定した第二の発言のテキスト（以降、個別音声テキスト）と、を得る。具体的には、話者分離部１２３は、音響モデリング部１２４および言語モデリング部１２５が作成した音素モデルと言語モデルを用いて、発話をテキスト化した情報を得る。あるいは、話者分離部１２３は、所定のアルゴリズムを用いて音程および音圧の差、抑揚等に着目して深層学習を行ったニューラルネットワークを構築し、話者ダイアライゼーション処理を行い、環境音、話者別の発話の分離およびそのテキスト化を行うものであってもよい。あるいは、話者分離部１２３は、図示しない外部のクラウドサービスとしての音声認識サービスを利用して発話をテキスト化した情報を得るものであってもよい。

【0047】

音響モデリング部１２４は、混成音声情報および個別音声情報から分離した発話を対象として波形の特徴量の類似を発音辞書とパターンマッチ処理し、音素列を推定するための音素モデルを作成する。

【0048】

言語モデリング部１２５は、音素列に対し適用して類似する単語や語にあてはめ推論を行ってテキスト化を行うための言語モデルを作成する。

【0049】

発言類似判定部１２６は、ほぼ同一の時刻において混成音声情報から発話を分離した第一の発言のテキスト（混成音声テキスト）と、個別音声情報から発話を特定した第二の発言のテキスト（個別音声テキスト）と、の類似を判定する。具体的には、発言類似判定部１２６は、コサイン類似度等を算出してテキスト間距離を算出し、類否を判定する。なお、これに限られず、発言類似判定部１２６は、テキスト間の類似を判定する公知の各種手段により類似を判定するものであってよい。

【0050】

併記表示作成部１２７は、混成音声テキストと、個別音声テキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する。例えば、併記表示作成部１２７は、発言類似判定部１２６により個別音声テキストのいずれかと類似すると判定された混成音声テキストについては、個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストとは表示態様を異ならせて画面情報を作成する。

【0051】

あるいは、併記表示作成部１２７は、発言類似判定部１２６により個別音声テキストのいずれかと類似すると判定された混成音声テキストについては、個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストよりも視認性を低く抑えて（フォントサイズの小型化、文字色の彩度低下等を行い）画面情報を作成する。

【0052】

また、併記表示作成部１２７は、発言類似判定部１２６により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストについては、個別音声テキストのいずれかと類似すると判定された混成音声テキストよりも強調表示（太字化、フォントサイズの大型化、下線表示、点滅表示等）するように画面情報を作成するものであってもよい。

【0053】

なお、併記表示作成部１２７は、発言類似判定部１２６により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストを表示する際に、個別音声情報に係る話者とは異なる話者が発話している旨を個別音声テキストの発言リストに表示するようにしてもよい。このようにすることで、少なくとも容易に特定可能な話者ではない参加者が話者であることを示すことができる。

【0054】

通信部１３０は、ネットワーク５０を介してリモート会議装置２００との通信を行う。

【0055】

図５は、聞き取り支援装置のハードウェア構成例を示す図である。聞き取り支援装置１００は、いわゆるサーバー装置、ワークステーション、パーソナルコンピューター、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。聞き取り支援装置１００は、プロセッサ１０１と、メモリ１０２と、ストレージ１０３と、通信装置１０４と、各装置をつなぐバス１０７と、を備える。リモート会議装置２００についても、同様である。また他に、リモート会議装置２００は、タッチパネルやキーボード、ディスプレイ等の入出力装置を備える。

【0056】

プロセッサ１０１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置である。

【0057】

メモリ１０２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのメモリ装置である。

【0058】

ストレージ１０３は、デジタル情報を記憶可能な、いわゆるハードディスク（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）あるいはフラッシュメモリなどの不揮発性記憶装置である。

【0059】

通信装置１０４は、ネットワークカード等の有線通信装置、あるいは無線通信装置である。

【0060】

上記した聞き取り支援装置１００の混成音声取得部１２１と、個別音声取得部１２２と、話者分離部１２３と、音響モデリング部１２４と、言語モデリング部１２５と、発言類似判定部１２６と、併記表示作成部１２７とは、プロセッサ１０１に処理を行わせるプログラムによって実現される。このプログラムは、メモリ１０２、ストレージ１０３または図示しないＲＯＭ装置内に記憶され、実行にあたってメモリ１０２上にロードされ、プロセッサ１０１により実行される。

【0061】

また、聞き取り支援装置１００の記憶部１１０は、メモリ１０２及びストレージ１０３により実現される。また、通信部１３０は、通信装置１０４により実現される。以上が、聞き取り支援装置１００のハードウェア構成例である。

【0062】

聞き取り支援装置１００の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。

【0063】

また、各処理部（混成音声取得部１２１と、個別音声取得部１２２と、話者分離部１２３と、音響モデリング部１２４と、言語モデリング部１２５と、発言類似判定部１２６と、併記表示作成部１２７）は、それぞれの機能を実現する専用のハードウェア（ＡＳＩＣ、ＧＰＵなど）により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。

【0064】

次に、本実施形態におけるリモート会議支援システム１の動作を説明する。

【0065】

図６は、会議記録フローの例を示す図である。会議記録フローは、例えばリモート会議装置２００に対するいずれかの参加者からの操作により開始される。

【0066】

まず、リモート会議装置２００は、会議を開始する（ステップＳ００１）。具体的には、会議制御部２１０は、リモート会議室を開設し、参加者と利用するマイクロフォンＩＤの対応付けの入力を参加者から受け付けて、聞き取り支援装置１００のマイク利用者記憶部１１１に格納する。

【0067】

会議開始後、共用マイクロフォン５１０において発話を受け付けた場合には、共用マイクロフォン５１０は、受け付けた発話Ｐの音声データを聞き取り支援装置１００および会議室端末５００に送信する。図示しないが、会議室端末５００は、発話Ｐの音声データをリモート会議装置２００に送信する（ステップＳ００２）。そして、リモート会議装置２００の会議制御部２１０は、発話Ｐを受け付けると、発話Ｐを全体会話を構成する発話Ｐ´として盛り込んだ混成音声情報を作成し、聞き取り支援装置１００に送信する（ステップＳ００３）。

【0068】

聞き取り支援装置１００の混成音声取得部１２１はリモート会議装置２００から全体会話として発話Ｐ´を受け付け、個別音声取得部１２２は共用マイクロフォン５１０から個別音声の発話Ｐを発話Ｐ´´として受け付ける。

【0069】

そして、聞き取り支援装置１００は、発話Ｐ´と発話Ｐ´´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置３００に送信する（ステップＳ００４）。

【0070】

閲覧装置３００のブラウザ部は、発話Ｐ´と、発話Ｐ´´とについて、テキスト化した情報を受け付けて、表示する（ステップＳ００５）。

【0071】

参加者Ａ端末４００のマイクロフォンＡ４１０において発話者Ａによる発話を受け付けた場合には、参加者Ａ端末４００は、受け付けた発話Ｑの音声データをリモート会議装置２００に送信する（ステップＳ００６）。そして、リモート会議装置２００の会議制御部２１０は、発話Ｑを受け付けると、発話Ｑを全体会話を構成する発話Ｑ´として盛り込んだ混成音声情報を作成し、聞き取り支援装置１００に送信する（ステップＳ００７）。

【0072】

聞き取り支援装置１００の混成音声取得部１２１はリモート会議装置２００から全体会話として発話Ｑ´を受け付ける。

【0073】

そして、聞き取り支援装置１００は、発話Ｑ´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置３００に送信する（ステップＳ００８）。

【0074】

閲覧装置３００のブラウザ部は、発話Ｑ´について、テキスト化した情報を受け付けて、表示する（ステップＳ００９）。

【0075】

マイクロフォンＤ５２０において発話を受け付けた場合には、マイクロフォンＤ５２０は、受け付けた発話Ｒの音声データを聞き取り支援装置１００および会議室端末５００に送信する。図示しないが、会議室端末５００は、発話Ｒの音声データをリモート会議装置２００に送信する（ステップＳ０１０）。そして、リモート会議装置２００の会議制御部２１０は、発話Ｒを受け付けると、発話Ｒを全体会話を構成する発話Ｒ´として盛り込んだ混成音声情報を作成し、聞き取り支援装置１００に送信する（ステップＳ０１１）。

【0076】

聞き取り支援装置１００の混成音声取得部１２１はリモート会議装置２００から全体会話として発話Ｒ´を受け付け、個別音声取得部１２２はマイクロフォンＤ５２０から個別音声の発話Ｒを発話Ｒ´´として受け付ける。

【0077】

そして、聞き取り支援装置１００は、発話Ｒ´と発話Ｒ´´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置３００に送信する（ステップＳ０１２）。

【0078】

閲覧装置３００のブラウザ部は、発話Ｒ´と、発話Ｒ´´とについて、テキスト化した情報を受け付けて、表示する（ステップＳ０１３）。

【0079】

このような会議記録を会議の終了まで繰り返し実施し、リモート会議装置２００は、会議を終了させる（ステップＳ０１４）。

【0080】

以上が、会議記録フローである。会議記録フローによれば、会議の開始から終了までの間、会議に参加している参加者と、利用するマイクロフォンからの入力とを対応付けて記録し、閲覧装置３００の画面上に全体会話と対比可能に表示することができる。

【0081】

図７は、発話認識処理フローの例を示す図である。発話認識処理フローは、会議記録フローのステップＳ００４、Ｓ００８、Ｓ０１２において、聞き取り支援装置１００において開始される。

【0082】

まず、混成音声取得部１２１および個別音声取得部１２２は、音声データを受信する（ステップＳ１０１）。具体的には、混成音声取得部１２１および個別音声取得部１２２はそれぞれ、リモート会議装置２００から混成音声情報と、共用マイクロフォン５１０およびマイクロフォンＤ５２０から個別音声情報を受信する。

【0083】

そして、話者分離部１２３は、受信した音声データが全体会話であるか否か判定する（ステップＳ１０２）。具体的には、話者分離部１２３は、ステップＳ１０１にて受信した音声データについて、混成音声取得部１２１が取得したものであれば全体会話であると判定し、個別音声取得部１２２が取得したものであれば全体会話でないと判定する。

【0084】

受信した音声データが全体会話でない場合（ステップＳ１０２にて「ＮＯ」の場合）には、話者分離部１２３は、発話元のマイクロフォンＩＤを特定する（ステップＳ１０３）。そして、話者分離部１２３は、マイク利用者記憶部１１１を参照して、話者を絞り込む（ステップＳ１０４）。具体的には、話者分離部１２３は、ステップＳ１０３において特定したマイクロフォンＩＤについて対応付けられている利用者を、マイク利用者記憶部１１１を検索して特定する。

【0085】

そして、話者分離部１２３は、受信した音声データから、音声と環境音を分離する（ステップＳ１０５）。この処理では、話者分離部１２３は、音響モデリング部１２４に、個別音声情報を対象として音素モデルを構築させ、音素モデルを用いて音素列を推定する。

【0086】

そして、話者分離部１２３は、音素列を音声認識してテキスト化する（ステップＳ１０６）。具体的には、話者分離部１２３は、話者分離部１２３により推定された音素列について、言語モデルを適用して類似する単語や語にあてはめ推論を行ってテキスト化を行う。

【0087】

そして、併記表示作成部１２７は、話者ごとにテキストを表示する画面を作成する（ステップＳ１０７）。そして、作成した話者区別画面を閲覧装置３００に送信する（ステップＳ１０８）。

【0088】

受信した音声データが全体会話である場合（ステップＳ１０２にて「ＹＥＳ」の場合）には、話者分離部１２３は、受信した音声データから、音声と環境音を分離する（ステップＳ１０９）。この処理では、話者分離部１２３は、音響モデリング部１２４に、混成音声情報を対象としてフーリエ変換を行って合成されているサイン波に分離し、各波形の特徴量を特定する。

【0089】

そして、話者分離部１２３は、音声について話者ごとに分離する（ステップＳ１１０）。具体的には、話者分離部１２３は、分離した各波形について音響モデリング部１２４に音素モデルを構築させ、音素モデルを用いて音素列を推定する。

【0090】

そして、話者分離部１２３は、話者分離に成功したか否か判定する（ステップＳ１１１）。具体的には、話者分離部１２３は、音素モデルの作成に成功した場合には、話者分離に成功したと判定する。

【0091】

話者分離に成功しなかった場合（ステップＳ１１１にて「ＮＯ」の場合）には、言語モデリング部１２５は、認識不能の発話であるとして、音声データを「識別不能」等のダミーテキストに置き換える（ステップＳ１１２）。そして、併記表示作成部１２７は、制御をステップＳ１１５に進める。

【0092】

話者分離に成功した場合（ステップＳ１１１にて「ＹＥＳ」の場合）には、話者分離部１２３は、音素列を音声認識してテキスト化する（ステップＳ１１３）。具体的には、話者分離部１２３は、音響モデリング部１２４により構築された音素モデルを用いて音素を推定し、言語モデルを適用して類似する単語や語にあてはめ推論を行ってテキスト化を行う。

【0093】

そして、発言類似判定部１２６は、個別会話テキストと類似しないテキストをマーキングする（ステップＳ１１４）。具体的には、発言類似判定部１２６は、ステップＳ１１３にて得た話者ごとのテキストそれぞれについて、ステップＳ１０６において得た略同一時刻における個別音声情報のテキストとの類似距離を算出して、類似しない場合には該話者のテキストをマーキングする。

【0094】

そして、併記表示作成部１２７は、マーキングしたテキストを強調表示して画面を作成する（ステップＳ１１５）。具体的には、併記表示作成部１２７は、混成音声テキストと、個別音声テキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する。例えば、併記表示作成部１２７は、マーキングされなかったテキストをマーキングされたテキストよりも視認性を低く抑えて（フォントサイズの小型化、文字色の彩度低下等を行い）画面情報を作成する。あるいは、マーキングされたテキストをマーキングされなかったテキストよりも強調表示（太字化、フォントサイズの大型化、下線表示、点滅表示等）するように画面情報を作成する。

【0095】

そして、併記表示作成部１２７は、作成した全体会話画面を閲覧装置３００に送信する（ステップＳ１１６）。

【0096】

以上が、発話認識処理フローの例である。発話認識処理によれば、個別音声情報についてはテキスト化を行って表示し、混成音声情報についてはテキスト化を行って表示するとともに、個別音声情報と類似するテキストについては類似しないテキストよりも淡く目立たないように並列して表示することができる。このようにすることで、発話者が不明なマイクロフォンによる入力がなされた場合においても、発話者を推定する糸口となる情報を提示することができる。

【0097】

なお、併記表示作成部１２７は、ステップＳ１１５において、発言類似判定部１２６により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストを表示する際に、個別音声情報に係る話者とは異なる話者が発話している旨を個別音声テキストの発言リストに表示する画面を作成するようにしてもよい。このようにすることで、少なくとも容易に特定可能な話者ではない参加者が話者であることを示すことができる。

【0098】

図８は、会話確認画面の例を示す図である。会話確認画面６００の例は、発話認識処理のステップＳ１０８およびステップＳ１１６において作成される各画面を話者別発話領域６０２と全体会話録領域６０１とにそれぞれ表示させる統合画面の例である。

【0099】

話者別発話領域６０２には、発話者の特定が可能なマイクロフォンから入力された発話について、発話者と、発話内容のテキストと、発話時刻と、が時系列に示される。なお、話者別発話領域６０２は、発話者の昇順／降順にソートをして再表示したり、発話時刻の昇順／降順にソートして再表示したりするように指示を受ける入力領域、およびスクロール操作を受け付けるスクロールバーを備えている。

【0100】

全体会話録領域６０１には、発話者の特定が可能なマイクロフォンおよび発話者の特定が不可能なマイクロフォンから入力された会議内のすべての発話について、発話内容のテキストが時系列に示される。なお、全体会話録領域６０１は、話者別発話領域６０２に表示されているテキストと類似しないテキストが太字協調表示され、発話が不明瞭あるいは分離不能に発話期間が重複する発話がある場合には「認識エラー」のテキストが表示される。このように表示することで、映像データを用いない音声会議の場合であっても、複数人が発話する状況での聞き取りを支援することができる。

【0101】

図９は、会話確認画面の別の例を示す図である。会話確認画面６００´は、基本的には会話確認画面６００と同様の画面である。相違点としては、会話確認画面６００において示した会話録において、話者別発話領域６０２に表示されているテキストと類似しないテキストが太字協調表示される際に話者別発話領域６０２に個別音声情報に係る話者とは異なる話者が発話している旨が表示される点である。

【0102】

このように会話確認画面６００´を示すことで、特に聴覚障碍者等は、話者の特定ができない場合であっても、少なくとも話者ではない参加者を推定する等、話者を推定する糸口となる情報を得ることができる。

【0103】

以上が、実施形態に係るリモート会議支援システムの例である。該実施形態に係るリモート会議支援システム１の例によれば、映像データを用いない音声会議の場合であっても、複数人が発話する状況での聞き取りを支援することができる

【0104】

また、上記実施形態の例は、一般的なリモート会議について説明したものであるが、発話者の顔や口の映像データを得るリモート会議について適用することもできる。この場合には、発話者を特定する情報がさらに多く得られるため、発話者の特定精度をさらに高めることができるといえる。

【0105】

また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。

【0106】

以上、本発明について、実施形態を中心に説明した。

【符号の説明】

【0107】

１・・・リモート会議支援システム、４０、５０・・・ネットワーク、１００・・・聞き取り支援装置、１１０・・・記憶部、１１１・・・マイク利用者記憶部、１１２・・・全体会話録記憶部、１１３・・・話者別発話記憶部、１２０・・・処理部、１２１・・・混成音声取得部、１２２・・・個別音声取得部、１２３・・・話者分離部、１２４・・・音響モデリング部、１２５・・・言語モデリング部、１２６・・・発言類似判定部、１２７・・・併記表示作成部、１３０・・・通信部、２００・・・リモート会議装置、２１０・・・会議制御部、２２０・・・表示部、２３０・・・通信部、３００・・・閲覧装置、４００・・・
参加者Ａ端末、４１０・・・マイクロフォン、５００・・・会議室端末、５１０・・・共用マイクロフォン、５２０・・・マイクロフォンＤ。

【図1】