IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立システムズの特許一覧

特開2022-144417聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム
<>
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図1
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図2
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図3
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図4
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図5
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図6
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図7
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図8
  • 特開-聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022144417
(43)【公開日】2022-10-03
(54)【発明の名称】聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム
(51)【国際特許分類】
   G10L 17/00 20130101AFI20220926BHJP
   G10L 15/22 20060101ALI20220926BHJP
   G06F 3/16 20060101ALI20220926BHJP
【FI】
G10L17/00 200C
G10L15/22 460Z
G06F3/16 640
G06F3/16 650
G06F3/16 620
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021045420
(22)【出願日】2021-03-19
(71)【出願人】
【識別番号】000233491
【氏名又は名称】株式会社日立システムズ
(74)【代理人】
【識別番号】110000198
【氏名又は名称】弁理士法人湘洋特許事務所
(72)【発明者】
【氏名】木村 英志
(57)【要約】
【課題】複数人が発話する状況での聞き取りを支援する技術を提供する。
【解決手段】
聞き取り支援装置であって、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、いずれかの話者による発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、混成音声情報から発話を分離して得た第一の発言のテキストと、個別音声情報から話者のいずれかの発話を特定した第二の発言のテキストと、を得る話者分離部と、第一の発言のテキストと、第二の発言のテキストと、の類似を判定する発言類似判定部と、第一の発言のテキストと、第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離部と、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定部と、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、
を備えることを特徴とする聞き取り支援装置。
【請求項2】
請求項1に記載の聞き取り支援装置であって、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストと表示態様を異ならせる、
ことを特徴とする聞き取り支援装置。
【請求項3】
請求項1または2に記載の聞き取り支援装置であって、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストよりも視認性を低く抑える、
ことを特徴とする聞き取り支援装置。
【請求項4】
請求項1~3のいずれか一項に記載の聞き取り支援装置であって、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストよりも強調表示する、
ことを特徴とする聞き取り支援装置。
【請求項5】
請求項1~4のいずれか一項に記載の聞き取り支援装置であって、
前記混成音声取得部は、前記混成音声情報をリアルタイムに取得し、
前記個別音声取得部は、前記個別音声情報をリアルタイムに取得し、
前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストを表示する際に、前記個別音声情報に係る前記話者とは異なる話者が発話している旨を前記第二の発言のテキストの発言リストに表示する、
ことを特徴とする聞き取り支援装置。
【請求項6】
請求項1~5のいずれか一項に記載の聞き取り支援装置であって、
前記個別音声取得部は、複数の前記個別音声情報を、複数の所定の音声入力装置から取得する、
ことを特徴とする聞き取り支援装置。
【請求項7】
請求項1~6のいずれか一項に記載の聞き取り支援装置であって、
前記発言類似判定部は、前記第一の発言のテキストと略同一時刻の前記第二の発言のテキストとの類似を判定する、
ことを特徴とする聞き取り支援装置。
【請求項8】
請求項1~7のいずれか一項に記載の聞き取り支援装置であって、
前記混成音声情報および前記個別音声情報は、同一のオンライン会議の音声であり、前記他の装置は、前記オンライン会議を制御する装置である、
ことを特徴とする聞き取り支援装置。
【請求項9】
聞き取り支援装置を用いた聞き取り支援方法であって、
前記聞き取り支援装置は、処理部を備え、
前記処理部は、
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、
を実施することを特徴とする聞き取り支援方法。
【請求項10】
コンピュータを、聞き取り支援装置として機能させる聞き取り支援プログラムであって、
前記コンピュータは、プロセッサを備え、
前記プロセッサに、
複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、
いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、
前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、
前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、
を実施させることを特徴とする聞き取り支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラムに関するものである。
【背景技術】
【0002】
特許文献1には、「複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法」について記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-187346号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記技術は、話者の口の形状が含まれている映像を用いて、オーディオデータに含まれる音声の話者を特定することはできるが、口の形状が含まれる映像がない状況、すなわち映像データを用いないオンライン電話会議等の複数人が発話する環境下では、聞き取りの支援を行うことはできない。
【0005】
本発明の目的は、複数人が発話する状況での聞き取り支援を行う技術を提供することにある。
【課題を解決するための手段】
【0006】
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る聞き取り支援装置は、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得部と、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得部と、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離部と、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定部と、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成部と、を備えることを特徴とする。
【0007】
また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストと表示態様を異ならせるものであってもよい。
【0008】
また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストよりも視認性を低く抑えるものであってもよい。
【0009】
また例えば、上記の聞き取り支援装置において、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストについては、前記第二の発言のテキストのいずれかと類似すると判定された前記第一の発言のテキストよりも強調表示するものであってもよい。
【0010】
また例えば、上記の聞き取り支援装置において、前記混成音声取得部は、前記混成音声情報をリアルタイムに取得し、前記個別音声取得部は、前記個別音声情報をリアルタイムに取得し、前記併記表示作成部は、前記発言類似判定部により前記第二の発言のテキストのいずれかと類似すると判定されなかった前記第一の発言のテキストを表示する際に、前記個別音声情報に係る前記話者とは異なる話者が発話している旨を前記第二の発言のテキストの発言リストに表示するものであってもよい。
【0011】
また例えば、上記の聞き取り支援装置において、前記個別音声取得部は、複数の前記個別音声情報を、複数の所定の音声入力装置から取得するものであってもよい。
【0012】
また例えば、上記の聞き取り支援装置において、前記発言類似判定部は、前記第一の発言のテキストと略同一時刻の前記第二の発言のテキストとの類似を判定するものであってもよい。
【0013】
また例えば、上記の聞き取り支援装置において、前記混成音声情報および前記個別音声情報は、同一のオンライン会議の音声であり、前記他の装置は、前記オンライン会議を制御する装置であってもよい。
【0014】
また、本発明の別の態様にかかる聞き取り支援方法は、聞き取り支援装置を用いた聞き取り支援方法であって、前記聞き取り支援装置は、処理部を備え、前記処理部は、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、を実施することを特徴とする。
【0015】
また、本発明の別の態様にかかる聞き取り支援プログラムは、コンピュータを、聞き取り支援装置として機能させる聞き取り支援プログラムであって、前記コンピュータは、プロセッサを備え、前記プロセッサに、複数の話者の発話を含む混成音声情報を他の装置から取得する混成音声取得ステップと、いずれかの前記話者による前記発話を含む個別音声情報を所定の音声入力装置から取得する個別音声取得ステップと、前記混成音声情報から前記発話を分離して得た第一の発言のテキストと、前記個別音声情報から前記話者のいずれかの前記発話を特定した第二の発言のテキストと、を得る話者分離ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、の類似を判定する発言類似判定ステップと、前記第一の発言のテキストと、前記第二の発言のテキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する併記表示作成ステップと、を実施させることを特徴とする。
【発明の効果】
【0016】
本発明によると、映像データを用いず複数人が発話する状況での聞き取り支援を行う技術を提供することができる。
【0017】
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0018】
図1】リモート会議支援システムの構成を例示するブロック図である。
図2】マイク利用者記憶部のデータ構造例を示す図である。
図3】全体会話録記憶部のデータ構造例を示す図である。
図4】話者別発話記憶部のデータ構造例を示す図である。
図5】聞き取り支援装置のハードウェア構成例を示す図である。
図6】会議記録フローの例を示す図である。
図7】発話認識処理フローの例を示す図である。
図8】会話確認画面の例を示す図である。
図9】会話確認画面の別の例を示す図である。
【発明を実施するための形態】
【0019】
以下に、本発明の一態様に係る実施形態を適用した聞き取り支援システムとなるリモート会議支援システム1について、図面を参照して説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。また、「Aからなる」、「Aよりなる」、「Aを有する」、「Aを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。
【0020】
以下の説明では、「表示部220」、「ブラウザ部」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/Oインターフェースデバイスは、I/Oデバイスと聞き取り支援装置100とのうちの少なくとも一つに対するインターフェースデバイスである。聞き取り支援装置100に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
【0021】
また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
【0022】
また、以下の説明では、「記憶部」または「ストレージ」は、メモリと永続記憶装置のうちメモリかまたは両方であればよい。具体的には、永続記憶装置は例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、NVME(Non-Volatile Memory Express)ドライブ、又は、SCM(Storage Class Memory)でよい。
【0023】
また、以下の説明では、「処理部」または「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスでよいが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路(例えばFPGA(Field-Programmable Gate Array)、CPLD(Complex Programmable Logic Device)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。
【0024】
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
【0025】
また、以下の説明では、「プログラム」や「処理部」を主語として処理を説明する場合があるが、プログラムを主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。また、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。
【0026】
また、以下の説明では、「xxxテーブル」や「yyy部」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のテーブルでもよいし、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「xxxテーブル」あるいは「yyy部」を「xxx情報」と言うこともできる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。
【0027】
また、以下の説明では、「リモート会議支援システム」は、一つ以上の物理的な計算機で構成されたシステムでもよいし、物理的な計算リソース群(例えば、クラウド基盤)上に実現されたシステム(例えば、クラウドコンピューティングシステム)でもよい。リモート会議支援システムが表示用情報を「表示する」ことは、計算機が有する表示デバイスに表示用情報を表示することであってもよいし、計算機が表示用計算機に表示用情報を送信することであってもよい(後者の場合は表示用計算機によって表示用情報が表示される)。
【0028】
会話において発話者を認識することは重要である。従来、リモート会議ではユーザーごとに音声入力系統が分けられており、音声入力があったユーザーのアイコンを強調表示させる機能などがある。また、リモート会議でのリアルタイム音声認識処理においては、音声入力系統が完全に分かれている前提で、話者のタグをつけた上でテキストを表示させることができる。
【0029】
特に、聴覚障碍者がリモート会議に参加する場合には、話者が紐づけられた発話を視覚的に読み取れることが重要である。一方で、リアルタイムの音声認識処理においては、音声入力系統がユーザーごとに完全に分けられているものばかりでなく、同一の部屋から複数人が共用のマイクロフォンを用いて参加することもあり、話者識別精度によっては誰の発話かわからないこともある。このような場合であっても、聴覚障碍者は少なくとも話者ではない参加者を推定する等、話者を推定する糸口となる情報を少しでも多く得たい。
【0030】
つまり、音声入力系統からは一部の話者までしか絞り込めないような場合においても、発話が音声入力系統から話者を特定することができる話者によるものでないことが推定できる場合には、その推定結果または示唆を視覚的に示すことが重要である。
【0031】
本実施形態に係る聞き取り支援装置100では、リモート会議装置200が出力する全参加者の発話が混成され得る音声情報を用いて、発話を特定できる音声入力系統を用いている参加者の発話のいずれかと類似/非類似を視覚的に示すことで、聴覚障碍者等の聞き取り支援を行う。
【0032】
図1は、本実施形態に係るリモート会議支援システムの構成を例示するブロック図である。リモート会議支援システム1では、会議参加者は、典型的には、端末装置(ノートパソコンやタブレット、スマートフォン等の参加者A端末400)を用いてインターネットあるいはイントラネット等のネットワーク40を介して遠隔からリモート会議装置200に接続し、他の参加者と会話によるリモート会議を行う。あるいは、別の参加者は、所定の会議室に配された会議室端末500を用いてリモート会議装置200に接続し、他の参加者と会話によるリモート会議を行う。
【0033】
参加者A端末400は、マイクロフォンA410が設けられており、参加者Aの発話を集音し、リモート会議装置200にリアルタイムに送信する。参加者Aおよび参加者A端末400は、会議室端末500とは別の場所(例えば、遠隔地等)にあり、参加者Aの発話のみを拾うものとする。会議室端末500は、複数のマイクロフォン(共用マイクロフォン510あるいはマイクロフォンD520)が設けられており、会議室にて同席している参加者B、C、Dの発話を集音し、リモート会議装置200および聞き取り支援装置100にリアルタイムに送信する。なお、マイクロフォンD520は、ピンマイク等であり、参加者Dの発言を専ら集音するものとする。共用マイクロフォン510は、参加者B、参加者Cおよび参加者Dの間で共用され、集音方向の区別を行わないものとする。ただし、これに限られず、集音方向の区別を行うことが可能なマイクロフォンであってもよい。すなわち、参加者Dの発話は、マイクロフォンD520によってほぼ確実に音声入力されるが、共用マイクロフォン510によっては参加者Dの発言の音圧や発話方向に応じ音声入力されない場合もある。
【0034】
リモート会議装置200は、いわゆるオンライン会議システムであり、会議の開催/運営/終了を制御する会議制御部210と、表示制御を行う表示部220と、参加者A端末400、会議室端末500、および聞き取り支援装置100との通信を行う通信部230と、を備える。会議制御部210は、会議の都度、マイクロフォンA410の識別情報(マイクロフォンID)とその利用者である参加者Aを対応付けて記憶する。また、会議制御部210は、会議の都度、マイクロフォンD520の識別情報(マイクロフォンID)とその利用者である参加者Dについても、対応付けて記憶する。なお、会議制御部210は、マイクロフォンA410と、共用マイクロフォン510と、マイクロフォンD520と、から入力された音声を統合し、重複する音声があれば重複を排除する。つまり、参加者B、Cの発言が共用マイクロフォン510およびマイクロフォンD520の両方に入力された場合でも、会議制御部210は、マイクロフォンD520からの入力を排除する。同様に、参加者Dの発言が共用マイクロフォン510およびマイクロフォンD520の両方に入力された場合でも、会議制御部210は、共用マイクロフォン510からの入力を排除する。通信部230は、ネットワーク40、ネットワーク50を介して他の装置との通信制御を行う。また、リモート会議装置200は、聞き取り支援装置100から会議の音声情報の要求を受け付けると、会議の全体会話を混成させた全体会話の音声情報を、ストリーミングあるいは音声ファイルの送信により聞き取り支援装置100に受け渡す。
【0035】
また、リモート会議支援システム1は、参加者の一人以上が閲覧可能な閲覧装置300を備える。閲覧装置300は、独立した端末装置であってもよいし、会議室端末500あるいは参加者A端末400と兼用するものであってもよい。参加者は、閲覧装置300のブラウザ部を介して聞き取り支援装置100に画面情報を要求し、聞き取り支援装置100から全体会話録と、話者別発言とを併記表示する画面を受け取ると、表示する。
【0036】
ネットワーク40は、インターネットあるいはイントラネット等のネットワークである。ネットワーク40は、これに限られず、さらに、WAN(Wide Area Network)、携帯電話網等、あるいはこれらが複合した通信網であってもよい。当該ネットワーク40は、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
【0037】
ネットワーク50は、インターネットあるいはイントラネット等のネットワークである。ネットワーク50は、これに限られず、さらに、WAN、携帯電話網等、あるいはこれらが複合した通信網であってもよい。当該ネットワーク50は、携帯電話通信網等の無線通信網上のVPN等であってもよい。また、ネットワーク50は、ネットワーク40と同一のものであってもよい。
【0038】
聞き取り支援装置100は、リモート会議装置200に会議の音声情報の要求を送信し、会議の全体会話を混成させた全体会話の音声情報を、ストリーミングあるいは音声ファイルによりリモート会議装置200から受け取る。そして、聞き取り支援装置100は、閲覧装置300から画面情報の要求を受け付けると、全体会話録と、話者別発言とを併記表示する画面を閲覧装置300に送信する。
【0039】
聞き取り支援装置100には、記憶部110と、処理部120と、通信部130と、が含まれる。記憶部110には、マイク利用者記憶部111と、全体会話録記憶部112と、話者別発話記憶部113と、が含まれる。
【0040】
図2は、マイク利用者記憶部のデータ構造例を示す図である。マイク利用者記憶部111には、マイクロフォンID111Aと、利用者名111Bと、が対応付けて記憶される。マイクロフォンID111Aは、参加者が会議に利用するマイクロフォンを識別する情報である。利用者名111Bは、マイクロフォンID111Aにより識別されるマイクロフォンを会議で使用する参加者(一人以上。二人以上の場合は共用マイクとなる)を識別する情報である。つまり、マイク利用者記憶部111は、マイクロフォンを利用する参加者を関連付け特定する情報である。
【0041】
図3は、全体会話録記憶部のデータ構造例を示す図である。全体会話録記憶部112には、発話識別子112Aと、発話時刻112Bと、発話テキスト112Cと、が対応付けて記憶される。発話識別子112Aは、会議内における発話を識別する情報である。発話時刻112Bは、会議の参加者により発話がなされた日時を特定する情報である。発話テキスト112Cは、会議の参加者による発話をテキスト化した情報である。
【0042】
図4は、話者別発話記憶部のデータ構造例を示す図である。話者別発話記憶部113には、利用者113Aと、発話識別子113Bと、発話時刻113Cと、発話テキスト113Dと、マイクロフォンID113Eと、が対応付けて記憶される。利用者113Aは、参加者を識別する情報である。発話識別子113Bは、会議内における発話を識別する情報である。発話時刻113Cは、会議の参加者により発話がなされた日時を特定する情報である。発話テキスト113Dは、会議の参加者による発話をテキスト化した情報である。マイクロフォンID113Eは、参加者が会議に利用したマイクロフォンを識別する情報である。
【0043】
図1の説明に戻る。処理部120には、混成音声取得部121と、個別音声取得部122と、話者分離部123と、音響モデリング部124と、言語モデリング部125と、発言類似判定部126と、併記表示作成部127と、が含まれる。
【0044】
混成音声取得部121は、複数の話者の発話を含む混成音声情報を他の装置から取得する。具体的には、混成音声取得部121は、リモート会議装置200に会議の混成音声情報を要求し、参加者の発言のすべてを含む全体会話の混成音声情報を取得する。
【0045】
個別音声取得部122は、いずれかの話者による発話を含む個別音声情報を所定の音声入力装置から取得する。具体的には、個別音声取得部122は、共用マイクロフォン510と、マイクロフォンD520と、から個別音声情報を取得する。
【0046】
話者分離部123は、混成音声情報から発話を分離して得た第一の発言のテキスト(以降、混成音声テキストともいう)と、個別音声情報から話者のいずれかの発話を特定した第二の発言のテキスト(以降、個別音声テキスト)と、を得る。具体的には、話者分離部123は、音響モデリング部124および言語モデリング部125が作成した音素モデルと言語モデルを用いて、発話をテキスト化した情報を得る。あるいは、話者分離部123は、所定のアルゴリズムを用いて音程および音圧の差、抑揚等に着目して深層学習を行ったニューラルネットワークを構築し、話者ダイアライゼーション処理を行い、環境音、話者別の発話の分離およびそのテキスト化を行うものであってもよい。あるいは、話者分離部123は、図示しない外部のクラウドサービスとしての音声認識サービスを利用して発話をテキスト化した情報を得るものであってもよい。
【0047】
音響モデリング部124は、混成音声情報および個別音声情報から分離した発話を対象として波形の特徴量の類似を発音辞書とパターンマッチ処理し、音素列を推定するための音素モデルを作成する。
【0048】
言語モデリング部125は、音素列に対し適用して類似する単語や語にあてはめ推論を行ってテキスト化を行うための言語モデルを作成する。
【0049】
発言類似判定部126は、ほぼ同一の時刻において混成音声情報から発話を分離した第一の発言のテキスト(混成音声テキスト)と、個別音声情報から発話を特定した第二の発言のテキスト(個別音声テキスト)と、の類似を判定する。具体的には、発言類似判定部126は、コサイン類似度等を算出してテキスト間距離を算出し、類否を判定する。なお、これに限られず、発言類似判定部126は、テキスト間の類似を判定する公知の各種手段により類似を判定するものであってよい。
【0050】
併記表示作成部127は、混成音声テキストと、個別音声テキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する。例えば、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定された混成音声テキストについては、個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストとは表示態様を異ならせて画面情報を作成する。
【0051】
あるいは、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定された混成音声テキストについては、個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストよりも視認性を低く抑えて(フォントサイズの小型化、文字色の彩度低下等を行い)画面情報を作成する。
【0052】
また、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストについては、個別音声テキストのいずれかと類似すると判定された混成音声テキストよりも強調表示(太字化、フォントサイズの大型化、下線表示、点滅表示等)するように画面情報を作成するものであってもよい。
【0053】
なお、併記表示作成部127は、発言類似判定部126により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストを表示する際に、個別音声情報に係る話者とは異なる話者が発話している旨を個別音声テキストの発言リストに表示するようにしてもよい。このようにすることで、少なくとも容易に特定可能な話者ではない参加者が話者であることを示すことができる。
【0054】
通信部130は、ネットワーク50を介してリモート会議装置200との通信を行う。
【0055】
図5は、聞き取り支援装置のハードウェア構成例を示す図である。聞き取り支援装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピューター、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。聞き取り支援装置100は、プロセッサ101と、メモリ102と、ストレージ103と、通信装置104と、各装置をつなぐバス107と、を備える。リモート会議装置200についても、同様である。また他に、リモート会議装置200は、タッチパネルやキーボード、ディスプレイ等の入出力装置を備える。
【0056】
プロセッサ101は、例えばCPU(Central Processing Unit)などの演算装置である。
【0057】
メモリ102は、例えばRAM(Random Access Memory)などのメモリ装置である。
【0058】
ストレージ103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
【0059】
通信装置104は、ネットワークカード等の有線通信装置、あるいは無線通信装置である。
【0060】
上記した聞き取り支援装置100の混成音声取得部121と、個別音声取得部122と、話者分離部123と、音響モデリング部124と、言語モデリング部125と、発言類似判定部126と、併記表示作成部127とは、プロセッサ101に処理を行わせるプログラムによって実現される。このプログラムは、メモリ102、ストレージ103または図示しないROM装置内に記憶され、実行にあたってメモリ102上にロードされ、プロセッサ101により実行される。
【0061】
また、聞き取り支援装置100の記憶部110は、メモリ102及びストレージ103により実現される。また、通信部130は、通信装置104により実現される。以上が、聞き取り支援装置100のハードウェア構成例である。
【0062】
聞き取り支援装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
【0063】
また、各処理部(混成音声取得部121と、個別音声取得部122と、話者分離部123と、音響モデリング部124と、言語モデリング部125と、発言類似判定部126と、併記表示作成部127)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
【0064】
次に、本実施形態におけるリモート会議支援システム1の動作を説明する。
【0065】
図6は、会議記録フローの例を示す図である。会議記録フローは、例えばリモート会議装置200に対するいずれかの参加者からの操作により開始される。
【0066】
まず、リモート会議装置200は、会議を開始する(ステップS001)。具体的には、会議制御部210は、リモート会議室を開設し、参加者と利用するマイクロフォンIDの対応付けの入力を参加者から受け付けて、聞き取り支援装置100のマイク利用者記憶部111に格納する。
【0067】
会議開始後、共用マイクロフォン510において発話を受け付けた場合には、共用マイクロフォン510は、受け付けた発話Pの音声データを聞き取り支援装置100および会議室端末500に送信する。図示しないが、会議室端末500は、発話Pの音声データをリモート会議装置200に送信する(ステップS002)。そして、リモート会議装置200の会議制御部210は、発話Pを受け付けると、発話Pを全体会話を構成する発話P´として盛り込んだ混成音声情報を作成し、聞き取り支援装置100に送信する(ステップS003)。
【0068】
聞き取り支援装置100の混成音声取得部121はリモート会議装置200から全体会話として発話P´を受け付け、個別音声取得部122は共用マイクロフォン510から個別音声の発話Pを発話P´´として受け付ける。
【0069】
そして、聞き取り支援装置100は、発話P´と発話P´´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置300に送信する(ステップS004)。
【0070】
閲覧装置300のブラウザ部は、発話P´と、発話P´´とについて、テキスト化した情報を受け付けて、表示する(ステップS005)。
【0071】
参加者A端末400のマイクロフォンA410において発話者Aによる発話を受け付けた場合には、参加者A端末400は、受け付けた発話Qの音声データをリモート会議装置200に送信する(ステップS006)。そして、リモート会議装置200の会議制御部210は、発話Qを受け付けると、発話Qを全体会話を構成する発話Q´として盛り込んだ混成音声情報を作成し、聞き取り支援装置100に送信する(ステップS007)。
【0072】
聞き取り支援装置100の混成音声取得部121はリモート会議装置200から全体会話として発話Q´を受け付ける。
【0073】
そして、聞き取り支援装置100は、発話Q´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置300に送信する(ステップS008)。
【0074】
閲覧装置300のブラウザ部は、発話Q´について、テキスト化した情報を受け付けて、表示する(ステップS009)。
【0075】
マイクロフォンD520において発話を受け付けた場合には、マイクロフォンD520は、受け付けた発話Rの音声データを聞き取り支援装置100および会議室端末500に送信する。図示しないが、会議室端末500は、発話Rの音声データをリモート会議装置200に送信する(ステップS010)。そして、リモート会議装置200の会議制御部210は、発話Rを受け付けると、発話Rを全体会話を構成する発話R´として盛り込んだ混成音声情報を作成し、聞き取り支援装置100に送信する(ステップS011)。
【0076】
聞き取り支援装置100の混成音声取得部121はリモート会議装置200から全体会話として発話R´を受け付け、個別音声取得部122はマイクロフォンD520から個別音声の発話Rを発話R´´として受け付ける。
【0077】
そして、聞き取り支援装置100は、発話R´と発話R´´について後述する発話認識処理を行い、話者区別画面と全体会話画面とを含む画面情報を作成し閲覧装置300に送信する(ステップS012)。
【0078】
閲覧装置300のブラウザ部は、発話R´と、発話R´´とについて、テキスト化した情報を受け付けて、表示する(ステップS013)。
【0079】
このような会議記録を会議の終了まで繰り返し実施し、リモート会議装置200は、会議を終了させる(ステップS014)。
【0080】
以上が、会議記録フローである。会議記録フローによれば、会議の開始から終了までの間、会議に参加している参加者と、利用するマイクロフォンからの入力とを対応付けて記録し、閲覧装置300の画面上に全体会話と対比可能に表示することができる。
【0081】
図7は、発話認識処理フローの例を示す図である。発話認識処理フローは、会議記録フローのステップS004、S008、S012において、聞き取り支援装置100において開始される。
【0082】
まず、混成音声取得部121および個別音声取得部122は、音声データを受信する(ステップS101)。具体的には、混成音声取得部121および個別音声取得部122はそれぞれ、リモート会議装置200から混成音声情報と、共用マイクロフォン510およびマイクロフォンD520から個別音声情報を受信する。
【0083】
そして、話者分離部123は、受信した音声データが全体会話であるか否か判定する(ステップS102)。具体的には、話者分離部123は、ステップS101にて受信した音声データについて、混成音声取得部121が取得したものであれば全体会話であると判定し、個別音声取得部122が取得したものであれば全体会話でないと判定する。
【0084】
受信した音声データが全体会話でない場合(ステップS102にて「NO」の場合)には、話者分離部123は、発話元のマイクロフォンIDを特定する(ステップS103)。そして、話者分離部123は、マイク利用者記憶部111を参照して、話者を絞り込む(ステップS104)。具体的には、話者分離部123は、ステップS103において特定したマイクロフォンIDについて対応付けられている利用者を、マイク利用者記憶部111を検索して特定する。
【0085】
そして、話者分離部123は、受信した音声データから、音声と環境音を分離する(ステップS105)。この処理では、話者分離部123は、音響モデリング部124に、個別音声情報を対象として音素モデルを構築させ、音素モデルを用いて音素列を推定する。
【0086】
そして、話者分離部123は、音素列を音声認識してテキスト化する(ステップS106)。具体的には、話者分離部123は、話者分離部123により推定された音素列について、言語モデルを適用して類似する単語や語にあてはめ推論を行ってテキスト化を行う。
【0087】
そして、併記表示作成部127は、話者ごとにテキストを表示する画面を作成する(ステップS107)。そして、作成した話者区別画面を閲覧装置300に送信する(ステップS108)。
【0088】
受信した音声データが全体会話である場合(ステップS102にて「YES」の場合)には、話者分離部123は、受信した音声データから、音声と環境音を分離する(ステップS109)。この処理では、話者分離部123は、音響モデリング部124に、混成音声情報を対象としてフーリエ変換を行って合成されているサイン波に分離し、各波形の特徴量を特定する。
【0089】
そして、話者分離部123は、音声について話者ごとに分離する(ステップS110)。具体的には、話者分離部123は、分離した各波形について音響モデリング部124に音素モデルを構築させ、音素モデルを用いて音素列を推定する。
【0090】
そして、話者分離部123は、話者分離に成功したか否か判定する(ステップS111)。具体的には、話者分離部123は、音素モデルの作成に成功した場合には、話者分離に成功したと判定する。
【0091】
話者分離に成功しなかった場合(ステップS111にて「NO」の場合)には、言語モデリング部125は、認識不能の発話であるとして、音声データを「識別不能」等のダミーテキストに置き換える(ステップS112)。そして、併記表示作成部127は、制御をステップS115に進める。
【0092】
話者分離に成功した場合(ステップS111にて「YES」の場合)には、話者分離部123は、音素列を音声認識してテキスト化する(ステップS113)。具体的には、話者分離部123は、音響モデリング部124により構築された音素モデルを用いて音素を推定し、言語モデルを適用して類似する単語や語にあてはめ推論を行ってテキスト化を行う。
【0093】
そして、発言類似判定部126は、個別会話テキストと類似しないテキストをマーキングする(ステップS114)。具体的には、発言類似判定部126は、ステップS113にて得た話者ごとのテキストそれぞれについて、ステップS106において得た略同一時刻における個別音声情報のテキストとの類似距離を算出して、類似しない場合には該話者のテキストをマーキングする。
【0094】
そして、併記表示作成部127は、マーキングしたテキストを強調表示して画面を作成する(ステップS115)。具体的には、併記表示作成部127は、混成音声テキストと、個別音声テキストと、をそれぞれ時系列に連ねた発言リストを併せて表示する表示画面を作成する。例えば、併記表示作成部127は、マーキングされなかったテキストをマーキングされたテキストよりも視認性を低く抑えて(フォントサイズの小型化、文字色の彩度低下等を行い)画面情報を作成する。あるいは、マーキングされたテキストをマーキングされなかったテキストよりも強調表示(太字化、フォントサイズの大型化、下線表示、点滅表示等)するように画面情報を作成する。
【0095】
そして、併記表示作成部127は、作成した全体会話画面を閲覧装置300に送信する(ステップS116)。
【0096】
以上が、発話認識処理フローの例である。発話認識処理によれば、個別音声情報についてはテキスト化を行って表示し、混成音声情報についてはテキスト化を行って表示するとともに、個別音声情報と類似するテキストについては類似しないテキストよりも淡く目立たないように並列して表示することができる。このようにすることで、発話者が不明なマイクロフォンによる入力がなされた場合においても、発話者を推定する糸口となる情報を提示することができる。
【0097】
なお、併記表示作成部127は、ステップS115において、発言類似判定部126により個別音声テキストのいずれかと類似すると判定されなかった混成音声テキストを表示する際に、個別音声情報に係る話者とは異なる話者が発話している旨を個別音声テキストの発言リストに表示する画面を作成するようにしてもよい。このようにすることで、少なくとも容易に特定可能な話者ではない参加者が話者であることを示すことができる。
【0098】
図8は、会話確認画面の例を示す図である。会話確認画面600の例は、発話認識処理のステップS108およびステップS116において作成される各画面を話者別発話領域602と全体会話録領域601とにそれぞれ表示させる統合画面の例である。
【0099】
話者別発話領域602には、発話者の特定が可能なマイクロフォンから入力された発話について、発話者と、発話内容のテキストと、発話時刻と、が時系列に示される。なお、話者別発話領域602は、発話者の昇順/降順にソートをして再表示したり、発話時刻の昇順/降順にソートして再表示したりするように指示を受ける入力領域、およびスクロール操作を受け付けるスクロールバーを備えている。
【0100】
全体会話録領域601には、発話者の特定が可能なマイクロフォンおよび発話者の特定が不可能なマイクロフォンから入力された会議内のすべての発話について、発話内容のテキストが時系列に示される。なお、全体会話録領域601は、話者別発話領域602に表示されているテキストと類似しないテキストが太字協調表示され、発話が不明瞭あるいは分離不能に発話期間が重複する発話がある場合には「認識エラー」のテキストが表示される。このように表示することで、映像データを用いない音声会議の場合であっても、複数人が発話する状況での聞き取りを支援することができる。
【0101】
図9は、会話確認画面の別の例を示す図である。会話確認画面600´は、基本的には会話確認画面600と同様の画面である。相違点としては、会話確認画面600において示した会話録において、話者別発話領域602に表示されているテキストと類似しないテキストが太字協調表示される際に話者別発話領域602に個別音声情報に係る話者とは異なる話者が発話している旨が表示される点である。
【0102】
このように会話確認画面600´を示すことで、特に聴覚障碍者等は、話者の特定ができない場合であっても、少なくとも話者ではない参加者を推定する等、話者を推定する糸口となる情報を得ることができる。
【0103】
以上が、実施形態に係るリモート会議支援システムの例である。該実施形態に係るリモート会議支援システム1の例によれば、映像データを用いない音声会議の場合であっても、複数人が発話する状況での聞き取りを支援することができる
【0104】
また、上記実施形態の例は、一般的なリモート会議について説明したものであるが、発話者の顔や口の映像データを得るリモート会議について適用することもできる。この場合には、発話者を特定する情報がさらに多く得られるため、発話者の特定精度をさらに高めることができるといえる。
【0105】
また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。
【0106】
以上、本発明について、実施形態を中心に説明した。
【符号の説明】
【0107】
1・・・リモート会議支援システム、40、50・・・ネットワーク、100・・・聞き取り支援装置、110・・・記憶部、111・・・マイク利用者記憶部、112・・・全体会話録記憶部、113・・・話者別発話記憶部、120・・・処理部、121・・・混成音声取得部、122・・・個別音声取得部、123・・・話者分離部、124・・・音響モデリング部、125・・・言語モデリング部、126・・・発言類似判定部、127・・・併記表示作成部、130・・・通信部、200・・・リモート会議装置、210・・・会議制御部、220・・・表示部、230・・・通信部、300・・・閲覧装置、400・・・
参加者A端末、410・・・マイクロフォン、500・・・会議室端末、510・・・共用マイクロフォン、520・・・マイクロフォンD。
図1
図2
図3
図4
図5
図6
図7
図8
図9