IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NSD先端技術研究所の特許一覧

<>
  • 特開-発言切り分けシステムとその方法 図1
  • 特開-発言切り分けシステムとその方法 図2
  • 特開-発言切り分けシステムとその方法 図3
  • 特開-発言切り分けシステムとその方法 図4
  • 特開-発言切り分けシステムとその方法 図5
  • 特開-発言切り分けシステムとその方法 図6
  • 特開-発言切り分けシステムとその方法 図7
  • 特開-発言切り分けシステムとその方法 図8
  • 特開-発言切り分けシステムとその方法 図9
  • 特開-発言切り分けシステムとその方法 図10
  • 特開-発言切り分けシステムとその方法 図11
  • 特開-発言切り分けシステムとその方法 図12
  • 特開-発言切り分けシステムとその方法 図13
  • 特開-発言切り分けシステムとその方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022071960
(43)【公開日】2022-05-17
(54)【発明の名称】発言切り分けシステムとその方法
(51)【国際特許分類】
   G10L 21/028 20130101AFI20220510BHJP
   G10L 17/00 20130101ALI20220510BHJP
   G10L 25/78 20130101ALI20220510BHJP
【FI】
G10L21/028 C
G10L17/00 200Z
G10L25/78
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2020181115
(22)【出願日】2020-10-29
(71)【出願人】
【識別番号】519210295
【氏名又は名称】株式会社NSD先端技術研究所
(74)【代理人】
【識別番号】100141221
【弁理士】
【氏名又は名称】山田 和明
(74)【代理人】
【識別番号】100091764
【弁理士】
【氏名又は名称】窪谷 剛至
(74)【代理人】
【識別番号】100103366
【弁理士】
【氏名又は名称】鈴木 礼至
(72)【発明者】
【氏名】ソロビヨフ・イワン
(72)【発明者】
【氏名】平井 開
(57)【要約】
【課題】同一空間に複数の話者が存在しても、確実にしかもリアルタイムで話者とその発言を切り出す。
【解決手段】発言切り分けシステム2は、話者A~N毎に対応して装着されたマイクM1~Mnと、マイク毎M1~Mnに取得される混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知する発言区間検知部4と、その音声データを蓄積する検知音声蓄積部5と、各マイクM1~Mnから取得された音声データを同期させて参照し、取得した音声データの類似度を算出して類似度の高低を比較判別する類似度判別部6と、類似度判別部6で類似度が高い同一とみなされた音声データについて、音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別されたマイクを特定し、そのマイクから取得され蓄積された音声データをマイクの話者と関連付けする音声エネルギ判別部7とを備えて構成される。
【選択図】図2
【特許請求の範囲】
【請求項1】
複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、
自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、
これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けることを特徴とする発言切り分けシステム。
【請求項2】
自己の発言と特定された音声入力部に基づいて、話者とその発言を特定することを特徴とする請求項1に記載の発言切り分けシステム。
【請求項3】
複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、
自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、
各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、
発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、
各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、
類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、
特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すことを特徴とする発言切り分けシステム。
【請求項4】
音声入力部には、自他の話者の音声が話者毎のマイクを通じて入力されるか、または自他の話者の音声が自己の端末のマイクを通じて入力されることを特徴とする請求項3に記載の発言切り分けシステム。
【請求項5】
音声入力部には、自他の話者の音声が、マイクを通じてリアルタイムで入力されるか、またはすでに取得されて入力され音声データとして記録された記録部を通じて入力されることを特徴とする請求項3または4に記載の発言切り分けシステム。
【請求項6】
各音声入力部には、複数の話者からなる話者グループの音声が入力され、話者グループとその話者グループの発言を切り出すことを特徴とする請求項3ないし5のうちいずれか1に記載の発言切り分けシステム。
【請求項7】
発言区間検知部には、入力される音声データが一定間隔毎に区切られた音声フレームとして入力されるとともに、
音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更する発言開始検知部と、
検知状態が検知中の間、検知音声蓄積部へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更する発言終了検知部とを有することを特徴とする請求項3ないし6のうちいずれか1に記載の発言切り分けシステム。
【請求項8】
音声入力部には、自他の音声とノイズが混在して入力され、
発言区間検知部に入力される音声フレームについて、
この音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの閾値に基づいて、人の音声か音声以外の雑音か否かを判別する発言判別部を有し、
音声以外の雑音と判別された音声データに基づいて特定された発言区間検知部の検知音声蓄積部に蓄積され雑音と判別された音声データを削除することを特徴とする請求項7に記載の発言切り分けシステム。
【請求項9】
類似度判別部により判別された同一話者の音声データについて、予め求められた音声の時間の長さの閾値に基づいて音声の時間が所定の長さを有するか否かを判別する音声長さ判別部を有し、
所定時間長さを有する場合、音声エネルギ判別部で音声エネルギの大小を比較判別し、所定時間長さを有していない場合、蓄積された音声データを検知音声蓄積部から削除することを特徴とする請求項3ないし8のうちいずれ1に記載の発言切り分けシステム。
【請求項10】
検知音声蓄積部に蓄積された音声データに対し、蓄積された音声データ間の時間のずれを求め、この求められた時間的ずれを用いて音声データの時間ずれを補正する時間ずれ補正部を有することを特徴とする請求項3ないし9のうちいずれか1に記載の発言切り分けシステム。
【請求項11】
発言区間検知部の検知音声蓄積部を通じて特定された話者とその音声データが出力されると、特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力する表示出力部を有することを特徴とする請求項3ないし10のうちいずれか1に記載の発言切り分けシステム。
【請求項12】
音声入力部を端末に接続されるマイクにより構成し、マイクは、同一の場所に集まった話者、コールセンターの通話者または会話をインカムを通じて行う会話者の何れかに装着されることを特徴とする請求項4ないし11のうちいずれか1に記載の発言切り分けシステム。
【請求項13】
複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、
自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、
これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、
各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、
これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有することを特徴とする発言切り分け方法。
【請求項14】
自己の発言と特定された音声入力部に基づいて、話者とその発言を特定することを特徴とする請求項13に記載の発言切り分け方法。
【請求項15】
特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力することを特徴とする請求項13または14に記載の発言切り分け方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議における議事録作成やコールセンター等の通話記録作成に供される発言切り分けシステムとその方法に関するものである。
【背景技術】
【0002】
従来、会議や打ち合わせ等、複数の話者が発言する場において、他者と重複することのない発言区間を切り出すには、例えば、会場に設置されたマイクアレイの各マイクの音声信号に基づいて、最も信号強度の強い収音ビーム信号を選択し、それに対応する方位を検出し、方位データに基づき音の到来方向を予測し、話者を同定して識別するようにしたものが知られている(例えば、特許文献1参照)。
【0003】
また、複数のマイクから取得される複数の音声信号について、音声データから重複分を取り除く処理を行い、2以上の音声が含まれる場合、音声毎に分離して各音声信号を出力するようにしたものが知られている(例えば、特許文献2参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開WO2007-139040A1号公報
【特許文献2】特開2008-309856号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記先行技術文献1では、方位データにより話者を識別しているので、発言を重複させないで切り分けにくく、さらに正確に話者が特定しにくいという問題がある。また、上記先行技術文献2では、分離した音声信号について、話者の発言を特徴量毎に音声信号として記憶し、特徴量毎に用意された辞書を用いるだけでなく、分離フィルタを更新する必要があり、フィルタ演算の処理が複雑になるという問題がある。
【0006】
本発明は上記課題を解決するためになされたもので、独立性の評価や音声の分離処理を必要とせず、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場において、あるいは、オンライン会議などで、他の話者の音声を自己の端末のスピーカを通じて聞きながら話し合う場において複数の話者の音声を重複することなくしかも話者とその発言を正確に特定して切り出すことができる発言切り分けシステムとその方法を提供することを目的としている。
【課題を解決するための手段】
【0007】
本発明の請求項1に係る発言切り分けシステムは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けることを特徴とするものである。
【0008】
本発明の請求項1に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けるようにしたことにより、話者の発言内容を迅速かつ正確に重複することなく切り出すことができる。
【0009】
また、本発明に係る発言切り分けシステムは、自己の発言と特定された音声入力部に基づいて、話者とその発言を特定することが好ましい。係る構成とすることにより、話者の発言を、発言内容だけでなく発言内容とその話者を特定して切り出すことができる。
【0010】
本発明の請求項3に係る発言切り分けシステムは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すことを特徴とするものである。
【0011】
本発明の請求項3に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すようにしたことにより、各音声入力部毎に話者が予め特定されており、発言区間毎に蓄積された音声データについて同期させて参照し、類似度判別部により類似度の高低を比較判別し、類似度の高い同一の話者とみなされた音声データについて、音声エネルギ判別部により音声エネルギの大小を比較判別するだけで、迅速かつ正確に話者とその話者が発言した音声データを重複なく切り出すことができる。
【0012】
また、本発明に係る発言切り分けシステムは、音声入力部には、自他の話者の音声が話者毎のマイクを通じて入力されるか、または自他の話者の音声が自己の端末のマイクを通じて入力されるようにすることが好ましい。係る構成とすることにより、音声入力部を自他の話者の音声が話者毎のマイクを通じて入力されるよう構成すれば、同一空間内で複数の話者が発言しても重複することなく話者とその発言を特定することができ、自他の話者の音声が自己の端末のマイクを通じて入力されるように構成すれば、遠隔地で複数の話者が端末を通じて発言しても重複することなく話者とその発言を特定することができる。さらに、本発明に係る発言切り分けシステムは、音声入力部には、自他の話者の音声が、マイクを通じてリアルタイムで入力されるか、またはすでに取得されて入力され音声データとして記録された記録部を通じて入力されるように構成することが好ましい。係る構成とすることにより、音声入力部に、自他の話者の音声が、マイクを通じてリアルタイムで入力される場合、話し合い終了後、直ちに話者とその発言のデータを入手することができる。一旦、記録部に音声データを記録してさえおけば、記録部を通じていつでも必要な時に話者とその発言のデータを入手することができる。また、本発明に係る発言切り分けシステムは、各音声入力部には、複数の話者からなる話者グループの音声が入力され、話者グループとその話者グループの発言を切り出すように構成することが好ましい。係る構成とすることにより、話者一人ひとりでなく話者グループとその話者グループ毎の発言のデータを入手することができる。
【0013】
また、本発明に係る発言切り分けシステムは、発言区間検知部には、入力される音声データが一定間隔毎に区切られた音声フレームとして入力されるとともに、音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更する発言開始検知部と、検知状態が検知中の間、検知音声蓄積部へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更する発言終了検知部とを有することが好ましい。係る構成とすることにより、正確に発言区間の音声データを入手することができる。さらに、本発明に係る発言切り分けシステムは、音声入力部には、自他の音声とノイズが混在して入力され、発言区間検知部に入力される音声フレームについて、この音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの閾値に基づいて、人の音声か音声以外の雑音か否かを判別する発言判別部を有し、音声以外の雑音と判別された音声データに基づいて特定された発言区間検知部の検知音声蓄積部に蓄積され雑音と判別された音声データを削除することが好ましい。係る構成とすることにより、音声以外の雑音を音声データから取り除くことができ、人の音声のみを確実に取り込むこことができる。そして、音声エネルギの閾値を会場や端末の条件により変更して適用することができ、精度の向上を図ることができる。また、本発明に係る発言切り分けシステムは、類似度判別部により判別された同一話者の音声データについて、予め求められた音声の時間の長さの閾値に基づいて音声の時間が所定の長さを有するか否かを判別する音声長さ判別部を有し、所定時間長さを有する場合、音声エネルギ判別部で音声エネルギの大小を比較判別し、所定時間長さを有していない場合、蓄積された音声データを検知音声蓄積部から削除することが好ましい。係る構成とすることにより、話者の発声のうち、咳払いや舌打ち等意味のない発声を音声データから除き、思考に基づいてある程度の長さで発話される意味のある発言のみを音声データとして取り込むことができ、無駄な発声を取り除くことができる。また、音声データの欠損をなくすことができる。さらに、本発明に係る発言切り分けシステムは、検知音声蓄積部に蓄積された音声データに対し、蓄積された音声データ間の時間のずれを求め、この求められた時間的ずれを用いて音声データの時間ずれを補正する時間ずれ補正部を有するようにすることが好ましい。係る構成とすることにより、本来の音声を欠けることなく確実に音声データとして取り込むことができる。また、本発明に係る発言切り分けシステムは、発言区間検知部の検知音声蓄積部を通じて特定された話者とその音声データが出力されると、特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力する表示出力部を有するようにすることが好ましい。係る構成とすることにより、会議や通話記録終了後、直ちに会議録や音声記録を入手することができる。さらに、本発明に係る発言切り分けシステムは、マイクは、同一の場所に集まった話者、コールセンターの通話者または会話をインカムを通じて行う会話者の何れかに装着されることが好ましい。係る構成とすることにより、多様な用途に利用することができる。
【0014】
本発明の請求項13に係る発言切り分け方法は、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有することを特徴とするものである。
【0015】
本発明の請求項13に係る発言切り分け方法では、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有するようにしたことにより、話者の発言内容を迅速かつ正確に重複することなく切り出すことができる。
【0016】
また、本発明の発言切り分け方法は、自己の発言と特定された音声入力部に基づいて、話者とその発言を特定することが好ましい。係る構成とすることにより、話者の発言を、発言内容と話者とを特定して切り出すことができる。さらに、本発明に係る発言切り分け方法は、特定された話者とその音声データを、文字データ、文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1として表示または出力することが好ましい。係る構成とすることにより、会議や通話記録終了後、直ちに会議録や音声記録を入手することができる。
【発明の効果】
【0017】
本発明の請求項1に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積し、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分けるようにしたことにより、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場やオンライン会議等の場において、複数の話者の音声を重複することなくそれぞれの発言を正確に特定して切り出すことができるので、正確な会議録や通話記録を得ることができる。
【0018】
また、本発明の請求項3に係る発言切り分けシステムでは、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分けシステムであって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部と、各音声入力部毎に設けられ、自己の音声入力部から取得され混在する複数の音声データから自己の音声データの発言開始から発言終了までの発言区間を検知する発言区間検知部と、発言区間検知部毎にそれぞれ設けられ、検知された自己の発言区間の音声データを蓄積する検知音声蓄積部と、各発言区間検知部とその検知音声蓄積部とを同期させて参照し、各発言区間検知部の検知音声蓄積部に蓄積された音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは複数の音声入力部から取得された同一話者の音声データとみなす類似度判別部と、類似度判別部により判別された同一話者の音声データについて、音声データ毎に音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが相対的に高いと判別された音声データが取得された発言区間検知部を特定する音声エネルギ判別部とを有し、特定された発言区間検知部とその検知音声蓄積部に蓄積された音声データに基づいて、話者とその発言を切り出すようにしたことにより、複数の話者の発言に対して、類似度と音声エネルギとをそれぞれ比較判別して容易かつ確実に話者とその話者が発言した音声データを重複することなく特定することができ、より精密な会議録や通話記録を得ることができる。
【0019】
さらに、本発明の請求項13に係る発言切り分け方法では、複数の話者の音声が混在して取得されて入力される音声データに基づいて、発言を切り出す発言切り分け方法であって、自己の音声と他者の音声が混在して入力される話者毎の音声入力部を備え、これら音声入力部毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己の音声入力部から入力された自己の音声データを蓄積する第1のステップと、各音声入力部から取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは同一話者の音声データとみなす第2のステップと、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己の音声入力部から入力された自己の発言と特定し、自他の発言を切り分ける第3のステップとを有するようにしたことにより、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場やオンライン会議等の場において、複数の話者の音声を重複することなくそれぞれの発言を正確に特定して切り出すことができるので、正確な会議録や通話記録を得ることができる。
【図面の簡単な説明】
【0020】
図1図1は、本発明の一実施形態に係る発言切り分けシステムの概念を示す概略構成図である。
図2図2は、図1の発言切り分けシステムの全体構成を模式的に示すシステム構成図である。
図3図3の(A)、(B)はそれぞれ、図1の発言切り分けシステムにおいて同一空間内において話者毎にマイクがセットされる一例を示す説明図および特定(自己)の話者が自らの端末のマイクを通じて遠隔地の他の話者と話し合う場合であって他の話者の音声が自らの端末のマイクを通じて入力される一例を示す説明図である。
図4図4は、図2の発言切り分けシステムにおける発言区間検知部の構成を示す構成図である。
図5図5は、図4の発言区間検知部における発言開始検知部の動作を示すフローチャートである。
図6図6は、図4の発言区間検知部における発言終了検知部の動作を示すフローチャートである。
図7図7は、図4の発言区間検知部における類似度判別部と音声エネルギ判別部との動作を示すフローチャートである。
図8図8の(A)、(B)はそれぞれ、マイク毎の発言区間検知部の検知音声蓄積部に蓄積される音声データのイメージを示す説明図およびその音声データのイメージに対して相互相関関数により類似している音声のみを抽出したイメージを示す説明図である。
図9図9は、音声入力部に、自他の話者の音声が話者毎のマイクを通じて入力される場合を示し、話者の発言が特定された検知音声蓄積部に蓄積された音声データの出力を示す説明図である。
図10図10は、音声入力部には、自他の話者グループの音声が話者グループ毎のマイクを通じて入力される場合を示し、話者グループの発言が特定された検知音声蓄積部に蓄積された音声データの出力を示す説明図である。
図11図11の(A)、(B)はそれぞれ、特定(自己)の話者の発言中、特定の話者の音声を他の複数の話者のマイクで取得した場合の蓄積された音声データの出力を示す説明図および自他の話者がそれぞれ異なる発言をした場合の蓄積された音声データの出力を示す説明図である。
図12図12の(A)、(B)はそれぞれ、図2の発言切り分けシステムにより、複数の話者の発言がない場合の動作を、順を追って説明するフローチャートおよび図1の発言切り分けシステムにより、複数の話者のうち一人が発言する場合の動作を、順を追って説明するフローチャートおよびである。
図13図13は、図2の発言切り分けシステムにより、特定の話者の発言中に、他の話者が発言した場合の動作を説明するフローチャートである。
図14図14は、図2の発言切り分けシステムにより、特定の話者の発言が他の話者のマイクを通じて取得された場合の動作を説明するフローチャートである。
【発明を実施するための形態】
【0021】
以下、図面に示す一実施形態により本発明を説明する。本発明の一実施形態に係る発言切り分けシステム2は、図1ないし図3の(A)に示すように、同一空間内において自己の音声と他者の音声が混在して入力される話者毎のマイク(音声入力部)M1~Mnを備え、これらマイクM1~Mn毎に取得され混在する複数の音声データを、各音声データの開始から終了までの発言区間毎に検知して自己のマイクM1~Mnから入力された自己の音声データを蓄積し、各マイクM1~Mnから取得された話者毎の蓄積された音声データを同期させて参照し、取得した話者毎の音声データの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなし、類似度が高い音声データは話者の同一の音声データとみなし、これら類似度が高い話者が同一とみなされた音声データについて音声エネルギの大小を比較判別し、音声エネルギが相対的に大きいと判別された音声データを、自己のマイクMxから入力された自己の発言と特定し、自他の発言を切り分けるようにしたものである。つまり、発言者を特定せず発言のみ重複することなく切り分けるようにしたものである。また、本実施形態に係る発言切り分けシステム2は、自己の発言と特定されたマイクMxに基づいて、そのマイクMxから取得され蓄積された音声データをマイクMxの話者と関連付けするようにしたものである。
【0022】
本実施形態に係る発言切り分けシステム2は、図1に示すように、会議などの参加者(話者)A~N(Nは2以上の任意の整数)毎に装着されたマイクM1~Mnからの音声を、切り分けて出力することができるだけでなく、話者とその発言を特定して、切り分け出力するシステムである。この発言切り分けシステム2は、図2に示すように、同一空間内で行われる会議などの参加者(話者)A~N(Nは2以上の任意の整数)毎にマイクM1~Mnが装着されるか、話者A~Nの近傍に配置される(図3の(A)参照)。つまり、話者Aを自己とすると(自己AのマイクM1)、自己のマイクM1以外の他の話者のマイクM2~Mnより最も近い距離に配置されるのが、自己のマイクM1となるように配置される。マイクM1~Mnは、装着された話者A~N毎に対応して関連付けされる。これらマイクM1~Mnは、話者A~Nと関連付けされてハードウェア(ハードディスク、情報処理部、記憶部)、コンピュータあるいはクラウドコンピュータ3に音声データを入力可能に接続される。本実施例では、情報処理部(CPU)と記憶部と入出力部と表示部とを有するコンピュータ(PC)3を例に説明する。PC3には、後述する動作を行うソフトウェアが収納される。
【0023】
本実施形態に係る発言切り分けシステム2は、各マイクM1~Mn毎の音声データが入力される発言区間検知部4(4:M1、4:M2・・・4:Mn)と、発言区間検知部4毎に設けられ発言区間検知部4で検知された発言区間の音声データを蓄積する検知音声蓄積部5(5:M1、5:M2・・・5:Mn)と、類似度判別部6と、音声エネルギ判別部7と、音声長さ判別部8と、蓄積音声出力部9と、発言判別部(ノイズ判別部)10と、発言開始検知部11と、発言終了検知部12と、時間ずれ補正部13とを有して構成される。
【0024】
発言区間検知部4は、図4に示すように、各マイクM1~Mn毎に互いに同期して設けられ、対応するマイクから取得され混在する複数の音声データの発言開始から発言終了までのそれぞれの発言区間を検知するようになっている。すなわち、発言区間検知部4は、発言判別部10と発言開始検知部11と発言終了検知部12とにより発言区間を検知するようになっている(図2参照)。発言区間検知部4は、入力される音声データを短時間の一定間隔毎に区切られた音声フレーム(本実施形態では、例えば、30msec分の音声データ)として入力する。発言判別部10は、発言区間検知部4に入力された音声フレームを、発言開始直後または発言終了直前のうち少なくともいずれか一方で、音声エネルギの大小を予め求められた音声エネルギの第1の閾値THR1または第2の閾値THR2に基づいて、人の音声か音声以外の雑音か否かを判別するようになっている。また、発言判別部10で音声以外の雑音と判別された音声データは、情報処理部により削除されるようになっている。発言開始検知部11は、音声フレームを、未検知または検知中の何れかの状態として検知し、初期状態を未検知とし、検知状態が未検知で発言の開始を検知すると検知状態を検知中に変更するようになっている。発言終了検知部は12は、検知状態が検知中の間、検知音声蓄積部5へ音声データの蓄積を行い、発言の終了を検知すると検知音声蓄積部5に蓄積された音声データを出力あるいは削除し、検知状態を未検知に変更するようになっている。つまり、発言開始検知部11は、図5に示すように、関連付けされた単一のマイクMxから取得される、他の話者の音声データが混在する複数の音声データが入力されると(ステップS1)、音声フレーム毎に情報処理部により音声エネルギを算出し(本実施形態では、例えば、音声の二乗平均平方根(RMS)を用いている)(ステップS2)、算出された値を、発言判別部10により予め設定された音声エネルギの第1の閾値THR1と比較判別し(ステップS3)、この第1の閾値THR1以上の場合、音声データの検知状態Sを「検知中」に変更する(ステップS4)。第1の閾値THR1未満の場合、このマイクMxから拾った聞き取りにくい音声エネルギの低い音声データとみなし、検知状態Sを「未検知」のままとし処理を終了する(ステップS5)。つまり、検知状態Sを参照し、「未検知」であれば入力された音声フレームを解析し、人の音声であると判別すると検知状態を「検知中」に変更するようになっている。なお、本実施形態では、音声フレームを、30msec分の音声データとしているがこれに限られるものではなく、状況や環境あるいは用途に応じて適宜変更可能であることは言うまでもない。また、本実施形態では、音声エネルギの算出に当たり、システム負荷が軽い音声の二重平均平方根(RMS)を用いているがこれに限られるものではなく、他の算出方法を用いてもよい。
【0025】
発言判別部10は、発言開始検知部11が音声フレームを検知し、音声データの蓄積が始まると、つまり、発言開始直後に音声フレームの音声エネルギの大小を、予め求められた音声エネルギの第1の閾値THR1に基づいて、人の音声か音声以外の雑音か否かを判別するようになっている(図5のステップS2~ステップSS5参照)。また、発言判別部10は、発言終了検知部12が音声フレームを検知すると、その音声フレームの音声エネルギの大小を、予め求められた音声エネルギの第2の閾値THR2に基づいて、人の音声か音声以外の雑音か否かを判別するようになっている(図6のステップS15~ステップS16参照)。すなわち、ステップS14で、類似度の結果がTrueである場合、音声エネルギを算出し、算出された値を音声エネルギの第2の閾値THR2と比較判別し(ステップS16)、第2の閾値THR2未満の場合、発言終了とみなし、音声長さ判別部8に検知音声蓄積部5の音声データを出力する(ステップS17参照)。第2の閾値THR未満の場合、終了処理は行わず、次の音声フレームの入力を待つ。なお、第2の閾値THR2は、会場やマイクの条件に応じて、第1の閾値THRと同一であってもよいし、異ならせてもよい。
【0026】
このように、上記実施形態に係る話者とその発言切り分けシステム2では、図9に示すように、話者A~Nそれぞれに装着したマイクM1~Mnから音声データを取得する。取得した複数の音声データをそれぞれ発言区間検知部4に入力すると、発言区間ごとに分離された音声が出力される。従って、発言区間検知部4は録音に使用するマイクの数だけ必要となる。発言区間検知部4は、図4のような構造となっている。発言区間検知部4には、マイクM1~Mnから取得された音声データが入力される。音声データは一定間隔で区切られた音声フレームであり、音声フレームが入力されるたびに発言区間検知部4が処理を行う。発言区間検知部4は常に検知状態Sを保持している。検知状態Sは 「未検知」と「検知中」のいずれかの状態を示し、初期状態は「未検知」である。また、検知状態Sは自身の、あるいは同時に動作している他の発言区間検知部4から参照される。音声を解析する音声解析部10、11、12、6、7、13では、入力が発言であるかどうかを判断する。音声解析部10、11、12、6、7、13は検知状態Sによって動作が異なり、検知状態が「未検知」であれば発言開始、「検知中」であれば発言終了を検知するための解析を行う。
【0027】
発言開始検知部11および発言終了検知部12はそれぞれ、図5および図6のように動作する。発言開始検知部11では、入力の音声エネルギを算出し、この音声エネルギを予め設定していた閾値(第1の閾値THR1)と比較する。比較の結果が第1の閾値THR1以上であれば検知状態を「検知中」に変更し、次の音声フレームの入力に対して処理を行う。終了検知処理では、開始検知処理で行った音声エネルギの比較、検知状態の変更に加え、検知音声蓄積部5の入出力処理と、他の話者の発言が含まれているかどうかを判断するための類似度の算出処理が行われる。終了検知処理では、はじめに音声フレームを検知音声蓄積部5に格納する。次に、類似度の算出を行い、類似度の結果がTrueでなかった場合、つまり、音声が同一のものでないと判断された場合、、検知状態Sを「未検知」に変更後、次の入力の処理を行う。類似度の結果がTrueである場合は、音声エネルギの判定を行う。音声エネルギが発言判別部10の第2の閾値THR2を上回っている場合は次の音声フレームの処理を実行するが、下回っている場合は、発言が終了したとみなし、検知音声蓄積部5に格納されている音声データを音声長さ判別部8に出力し、検知状態を「未検知」に戻す。
【0028】
類似度判別部6では、他の発言区間検知部4の検知音声蓄積部5に格納されている音声データに同一音声が含まれていないかを確認する。同期させて発言区間検知部4の数だけ処理が必要なため、内部はループ構造を有している(ステップS32参照)。同一の音声データの確認にあたって、まず他の発言区間検知部4の検知状態Sを参照する(ステップS33参照)。対象となる発言区間検知部4の検知状態Sが「未検知」の場合はTrueを出力し、他の発言区間検知部4の確認に移る。一方で、「検知中」であれば検知音声蓄積部5に同一音声が含まれている可能性があるため、自身の発言区間検知部4(Mx)と対象の発言区間検知部4[(M1~Mn)-Mx]の検知音声蓄積部5に格納されている音声データの類似度を算出する(ステップS35参照、本実施形態では、例えば、ピアソンの積率相関係数Cを類似度として算出する)。類似度が予め設定した第2の閾値THR2を下回る場合、この音声は同一のものではないと判断され(ステップS36参照)、Trueを出力して他の発言区間検知部4の確認に移る。第2の閾値THR2を上回る場合は音声が同一であるため、検知音声蓄積部5の音声のエネルギを算出し(ステップS37参照)、自身の音声エネルギが大きい場合は、Trueを出力する(ステップS38、S39参照)。
【0029】
以上の処理を他の発言区間検知部4すべてに対して実行することで、他の発言区間検知部4の数だけ確認結果が得られる。確認結果がすべてTrueになっていれば、自身の音声は独立した発言であるため、Trueを出力し、発言終了検知部12で適切な処理が行われる。その結果、同一音声に対しては、「検知中」の状態を持つ発言区間検知部4が常に一つとなり、音声の重複を防ぐことができる。このようにして発言区間検知部4は動作するが、各発言区間検知部4は同期的に動作する必要がある。具体的には、ある時刻に対するすべての音声フレームの処理が各発言区間検知部で終了するまで、次の音声は入力しないようにしている。そうしなければ、検知状態に時間的なずれが生じるため、同一音声の検知ができなくなるからである。
【0030】
類似度判別部6は、各発言区間検知部4とその検知音声蓄積部5とを同期させて参照し、各発言区間検知部4に入力される音声データと各マイクの検知音声蓄積部5に格納された発言区間の音声データについて、類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなして判別する対象から除き(図11の(B)参照)、類似度が高い音声データは複数のマイク(例えば、マイクM1~M3)から取得された同一の音声データとみなし、これら複数のマイクの同一の音声データを判別しこれら判別された同一の音声データを有する発言区間検知部4(4:M1、4:M2、4:M3)を特定するようになっている(図11の(A)参照)。
【0031】
つまり、類似度判別部6は、各発言区間検知部4(4:M1~4:Mn)とその検知音声蓄積部5(5:M1~5:Mn)とを同期させて参照するようになっている。この類似度判別部6は、各マイクM1~Mnに対応する各発言区間検知部4(4:M1~4:Mn)の検知音声蓄積部5にそれぞれ格納された発言区間の音声データについて、特定のマイクMx(自己のマイクM1)に対応する発言区間検知部4(4:Mx)の検知音声蓄積部5に蓄積された音声データと、それ以外の他のマイク[(M1~Mn)-Mx]に対応する発言区間検知部4[(4:M1~4:Mn)―(4:Mx)]の検知音声蓄積部5に蓄積された音声データとの類似度をそれぞれ算出し、特定(自己)の検知音声蓄積部5から取得した音声データに対して他の音声データとの類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなして判別する対象から除き、類似度が高い音声データは複数のマイクから取得された同一の音声データとみなし、これら複数のマイクの同一の音声データVidM1、VidM2、VidM3(図14参照)を判別して特定するようになっている。
【0032】
言い換えれば、類似度判別部6は、各音声蓄積部5に蓄積された発言区間の音声データ(例えば、VidM1、VidM2、VidM3、・・・)について、各検知音声蓄積部5(5:M1~5:Mn)と各発言区間検知部4(4:M1~4:Mn)を同期させて参照し、情報処理部により類似度を算出し(図6のステップS13)、特定(自己)の発言区間検知部4(4:M1)について、類似度の結果がTrueかどうか判別する(ステップS14)。類似度の結果がTrueでない場合、つまり、音声データが同一のものであると判断された場合、音声長さ判別部8に音声データを出力し(ステップS17)、音声データの長さが予め設定された長さより長いかどうか判別するようになっている。類似度の結果がTrueである場合、発言判別部10に音声データを出力するようになっている(ステップS15参照)。
【0033】
音声エネルギ判別部7は、類似度判別部6により判別され特定された同一の音声データVidM1、VidM2、VidM3について、蓄積された音声データの音声エネルギを算出して音声エネルギの大小を比較判別し、音声エネルギが低い場合(例えば、同一の音声データVidM1、VidM2、VidM3のうちVidM2、VidM3)、話者B、CのマイクM2、M3から取得された自己の音声データとみなし、音声エネルギが相対的に最も高いと判別された音声データ(例えば、音声データVidM1)を特定される対象とみなし、音声が取得されたマイクM1を特定し、そのマイクM1から取得され蓄積された音声データをマイクM1の話者Aと関連付けして特定し、蓄積音声出力部9により外部に出力するようになっている。音声エネルギが相対的に最も高いか否かは算出された値を比較して判別される。なお、本実施形態に係る発言切り分けシステム2では、話者とその発言(音声データ)を紐付けして話者と発言とを特定するようにしているがこれに限られるものではなく、話者を特定せず、異なる発言者の発言のみを切り出すようにしてもよいことは言うまでもない。
【0034】
音声長さ判別部8は、音声データが予め設定された所定の長さ(本実施形態の場合、1秒未満で、好ましくは0.5秒に設定)を有しているかどうかを判別し、話者の発声のうち、咳払いや舌打ち等意味のない発声を音声データから除き、思考に基づいてある程度の長さで発話される意味のある発言のみを音声データとして取り込むようにしている。
【0035】
音声長さ判別部8は、ステップS16で、発言判別部10から第2の閾値THR2未満の音声データが入力されるか、ステップS14で類似度の結果がTrueでない場合、つまり、音声データが同一のものであると判断された場合、音声データが設定された一定の長さを有するかどうか判別し、一定の長さを有していれば、自己(特定)の音声データとして検知音声蓄積部5から蓄積された音声データを出力し(ステップS18)、次に、その音声データを削除し(ステップS19)、検知状態Sを「未検知」に変更後(ステップS20)、次の入力処理を行う。一定の長さを有していない場合、自己(特定)の検知音声蓄積部5から蓄積された音声データを削除し(ステップS19)、検知状態Sを「未検知」に変更する(ステップS20)。
【0036】
類似度判別部6は、各検知音声蓄積部5を参照して(ステップS31)、動作中の発言区間検知部4の数(例えば、VidM1、VidM2、VidM3であれば3回)をループし(ステップS32)、動作中の各発言区間検知部Dn(Dn=5:M1~5:Mn)から検知状態S(S-1、S-2、S-3)を取得し(ステップS33)、検知状態Sが「検知中」か否かを判別し(ステップS34)、「検知中」であれば、自己(特定)の検知音声蓄積部5(5:M1)と他の検知音声蓄積部5(5:M2、5:M3)とにそれぞれ格納されている音声データから音声の類似度(本実施形態では、積率相関係数C)を算出し(ステップS35)、この類似度が予め設定された第3の閾値THR3より大きいか小さいかを判別する(ステップS36)。
【0037】
音声エネルギ判別部7は、図7に示すように、音声データVidM1、VidM2、VidM3の類似度が第3の閾値THR3より大きい場合、自己(特定)の検知音声蓄積部5(5:M1)と他の検知音声蓄積部5(5:M2、5:M3)とにそれぞれ格納されている音声データの音声エネルギE_s(E_s:VidM1)、E_Dn(E_d:VidM2、E_d:VidM3)を算出する(ステップS37)。そして、これら算出された音声エネルギE_s(E_s:VidM1)、E_Dn(E_d:VidM2、E_d:VidM3)の大小を判別し(ステップS38)、算出された数値が最も大きい音声エネルギをTrueとして出力する(ステップS39)。このステップS39で音声エネルギE_s(E_s:VidM1)が、最も高いものがTrueとして出力されると、話者A(マイクM1)が特定され、その発言区間の音声データVidM1が関連付けされて出力されるようになっている。このステップS39で、例えば、音声エネルギE_Dn(E_d:VidM2)が最も大きければ、話者Bとその発言区間の音声データが、音声エネルギE_Dn(E_d:VidM3)が最も大きければ、話者Cとその発言区間の音声データが、それぞれ特定される。こうして、同一の音声に対しては、「検知中」の状態を持つ発言区間検知部4が常に一つとなるため、音声の重複を防いで話者とその発言区間の音声データを特定することができる。
【0038】
なお、ステップS34で、検知状態Sが「未検知」であれば、該当する検知音声蓄積部5の音声データは自己の音声データを優先し、蓄積され続ける。また,ステップS36で、「検知中」の自己と他の検知音声蓄積部5に蓄積された音声データの類似度が第3の閾値THR3より小さい場合、該当する検知音声蓄積部5の音声データは蓄積され続ける。
【0039】
また、本実施形態に係る発言切り分けシステム2は、時間ずれ補正部13を有している。時間ずれ補正部13は、検知音声蓄積部5に蓄積された音声データについて、発言判別部10により音声エネルギの第1の閾値THR1に基づいて音声エネルギを算出する際、音声データ間の時間のずれを求め、この求められた時間的ずれを用いて音声データの時間ずれを補正するようになっている。つまり、時間ずれ補正部13は、類似している音声のみを抽出し、発話の音声エネルギを算出する際、相互相関関数を用い、音声間がずれている時間を求めるようにしている。つまり、相互相関関数が最大値をとるとき、音声間がずれている時間が得られる。その時間を用いて元の音声を切り出すことができるようになっている。図8の(A)、(B)はそれぞれ、マイク毎の発言区間検知部4の検知音声蓄積部5に蓄積される音声データのイメージを示す説明図およびその音声データのイメージに対して相互相関関数により類似している音声のみを抽出したイメージを示す説明図である。
【0040】
すなわち、時間ずれは、次のようにして生じる。話者特定を現実に使用すると、話者同士の発言に区切りがなく連続して会話が行われる場合がある。例として、話者Aの発言の直後に話者Bの発言があった場合を想定し、それぞれの発言を自己の発言区間検知部4:Aと他の発言区間検知部4:Bで検知する場合を想定する。このとき、話者Bの発言は発言区間検知部4:Aでも取得されており、そのエネルギが閾値(第1の閾値THR1)を超えているとする。まず、話者Aの発言が発言区間検知部4:Aの検知音声蓄積部5:Aに蓄積される。続けて話者Bの発言が開始されると、自己(A)と他(B)の発言区間検知部4:A、4:B両方で音声エネルギが閾値(第1の閾値THR1)を超えているため、類似度の算出が行われる。このとき、類似度算出に用いられる音声データは自他それぞれの発言区間検知部4:A、4:Bの検知音声蓄積部5:A、5:Bに蓄積された音声であるため、発言区間検知部4:Aでは、話者Aの発言と話者Bの発言とが含まれることなる。
【0041】
図8の(A)は、各発言区間検知部4:A、4:Bの検知音声蓄積部5:A、5:Bの音声データのイメージを示している。薄い部分で表示しているのが、話者AのマイクM1の発言区間検知部4:A、濃い部分で表示しているのが話者BのマイクM2の発言区間検知部4:Bの音声データを示している。類似度の算出においては話者Bの発言が両方に含まれているため、類似していると判断されるが、エネルギ算出時に問題が生じる。エネルギ算出に使われる音声データも各検知音声蓄積部5:A、5:Bの音声を用いるため、話者Aの発言の音声エネルギが大きかった場合、その影響を受けて話者Aの発言の音声エネルギが大きいと判断されることがある。結果、類似度の判定は正しく動作するが、より音声エネルギの大きい話者Aの発言が優先され、話者Bの発言が話者Aのものとなってしまう虞がある。この問題はエネルギ算出を検知音声蓄積部5:A、5;Bに蓄積された音声データ全体で行っているために生じる。これを解決するには、類似している音声のみを抽出し、時間ずれ補正部13によりエネルギ算出をし、ずれている時間を用いて元の音声を切り出せばよい(図8の(B)参照)。
【0042】
また、本実施形態に係る発言切り分けシステム2は、発言判別部10が人の音声かどうか判別するだけでなくノイズ判別の機能も有している。発言判別部10は、発言区間検知部4に入力された音声データについて、人の音声か音声以外の雑音かを判別し、音声以外の雑音と判別すると、音声エネルギにかかわらず、ステップS3、あるいはステップS13の結果がFalseとなるように構成される。
【0043】
また、本実施形態に係る発言切り分けシステム2は、発言区間検知部4の検知音声蓄積部5から発言終了検知部12により蓄積音声出力部9を通じて特定された話者Aとその音声データVM1を受け取ると、テキスト等の文字データ、この文字データを翻訳した翻訳データまたは音声のうち少なくともいずれか1を画面上に表示したり、出力する表示出力部20を有している(図1参照)。表示出力部20は、端末や表示装置から構成される。
【0044】
次に、本発明に係る発言切り分け方法について、上記実施形態に係る発言切り分けシステム2の作用に基づいて説明する。上記実施形態に係る発言切り分けシステム2では、図2に示すように、PC3には、情報処理部(CPU)と記憶部と入出力部と表示部とを備えるとともに、発言区間検知部4と検知音声蓄積部5と類似度判別部6と音声エネルギ判別部7と蓄積音声出力部9と発言開始検知部11と発言終了検知部12と時間ずれ補正部13とを備えて構成される。PC3には、端末や表示装置から構成される表示出力部20が接続される。本実施形態に係る発言切り分けシステム2では、第1のステップ(S101)で、マイクM1~Mn毎に、マイク1~Mnから取得される混在する複数の音声データを、発言区間検知部4により各音声データの開始から終了までの発言区間毎に検知してその音声データV:M1~V:Mnを各発言区間検知部4に対応する検知音声蓄積部5に蓄積するようになっている。次に、第2のステップ(S102)で、各マイク1~Mnから取得された音声データV:M1~V:Mnを同期させて参照し、類似度判別部6により取得した音声データV:M1~V:Mnの類似度を算出して類似度の高低を比較判別し、類似度が低い音声データは異なる話者の音声データとみなして判別する対象から除き、類似度が高い音声データ(例えば、VidM1、VidM2、VidM3)について同一の音声データとみなすようになっている。そして、第3のステップ(S103)で、これら類似度が高い同一とみなされた音声データ(例えば、VidM1、VidM2、VidM3)について、音声エネルギ判別部7により音声エネルギの大小を比較判別し、音声エネルギが相対的に大きい音声データ(例えば、VidM1>VidM2>VidM3)と判別されたマイクMx(M1)を特定し、そのマイクMx(M1)から取得され蓄積された音声データ(例えば、VidM1)をマイクMx(M1)の話者Aと関連付けし、蓄積音声出力部9により外部に出力するようになっている。表示出力部20では、受け取った話者Aとその話者の発言した音声データVM1を、テキスト等の文字データ、この文字データを翻訳した翻訳データまたは音声のファイルとして画面上に表示したり、出力することができるようになっている。
【0045】
次に、一連の動作を、2人の話者A、Bが存在することを想定して説明する。各話者A、Bには、それぞれマイクM1、M2が装着され(図3参照)、各マイクM1、M2に対して発言区間検知部4:M1、4:M2を用いて発言区間を取り出す。
まず、話者A、Bともに発言していない場合について説明する。
図12の(A)(条件a参照)に示すように、発言区間検知部4:M1、4:M2の各発言開始検知部11:M1、9:M2において入力された音声フレーム(音声データ)の音声エネルギE_1、E_2が算出されるが、第1の閾値THR1を超えることがないため、検知状態Sは常に「未検知」となり、この処理が繰り返される。
【0046】
次に、図12の(B)(条件b参照)に示すように、話者Aのみが発言している場合について説明する。
話者Aの発言区間検知部4:M1の発言開始検知部11:M1において、音声フレームの検知状態Sが「検知中」に変更され、発言中は発言終了検知部12:M1が動作する。発言終了検知処理の類似度算出では、話者Bの発言区間検知部4:M2の検知状態Sが参照されるが、これは話者Bが発言しておらず常に「未検知」であるため、類似度判別部6の話者Aの類似度算出の結果がTrueとなる。従って、話者Aの発言区間検知部4:M1の発言終了検知部12:M1で検知音声蓄積部5:M1に音声フレームが格納され続け、音声エネルギE_1が第1の閾値THR1を下回ると、発言終了で発言区間が確定され、検知音声蓄積部5の音声が出力される。
【0047】
次に、図13(条件c参照)に示すように、話者Aの発言中に話者Bが発言した場合について説明する。
話者Aの発言中、話者Bが発言するまでは、図12の(B)に示す条件bと同様である。話者Aの発言中、話者Bが発言すると、話者Aの発言区間検知部4:M1での類似度算出において、話者Bの発言区間検知部4:M2の検知状態Sが参照され、検知状態Sが「検知中」で取得される。そうすると、話者Aと話者Bとの発言区間検知部4:M1、4:M2それぞれの検知音声蓄積部5:M1、5:M2に格納されている音声データに対して音声の積率相関係数(類似度)Cを算出しこの値が第3の閾値THR3を超えているかどうかを判定する。今回の条件では話者Bは話者Aとは異なる発言をしているため、音声は同一のものではない。よって、類似度判別部6からTrueが出力されるため、話者A、Bの発言区間検知部4:M1、4:M2それぞれで、上記条件bと同様の処理となる。話者Bについて、発言が継続していれば、話者Bの検知音声蓄積部5:M2では、音声データの蓄積が継続される。
【0048】
次に、図14(条件d参照)に示すように、話者Aの発言が話者BのマイクM2でも取得された場合について説明する。
類似度算出までは上記条件cと同様であるが、話者Aの検知音声蓄積部5:M1に入力されている音声データは話者Aに装着されたマイクM1から取得されたものであるため、音声エネルギは他に比べて大きくなっているはずである。従って、話者Aの発言区間検知部4:M1での類似度結果はTrueとなり、検知され続ける。話者Bの発言区間検知部4:M2では音声エネルギが小さいため、類似度の結果がTrueにならず、発言終了検知部12:M2において検知状態が「未検知」に変更され、検知音声蓄積部5:M2の音声が出力されることはない。
【0049】
つまり、話者A、Bの発言を処理する際、話者A、Bのそれぞれの発言区間検知部4:M1、4:M2において、話者Aが発言していると、発言区間検知部4:M1の検知状態Sは「検知中」となり、ここで話者Bが発言した場合、類似度判別部6で類似度が計算される。話者A、Bの発言がそれぞれ独立していれば、互いの類似度は低い値となり、話者Bの発言区間検知部4:M2の検知状態Sは「検知中」となり、検知される。話者BのマイクM2で話者Aの発言を拾ってしまった場合には、類似度が高くなるため、より音声エネルギの大きい話者Aの音声が優先され、話者Bの音声は検知されない。
【0050】
さらに、時間的な処理について、本実施形態では、リアルタイム処理が可能となっている。つまり、発言区間検知部4には一定区間の音声データが、短時間で一定間隔毎に区切られた音声フレームとして入力される。二人の話者A、Bが存在し、それぞれマイクM1、M2を装着し、マイクM1、M2に対応する発言区間検知部4:M1、4:M2では30msecごとに音声データX_M1[n]、X_M2[n]がそれぞれ音声フレームとして入力されるとすると、話者Aの発言区間検知部4:M1にはX_M1[0]、X_M1[1]…と次々と30msec分の音声データが入力されるが、話者Bの発言区間検知部4:M2にも時間的に同じ音声データX_M2[0]、X_M2[1]…が入力され続ける。始めに動作する発言区間検知部4が話者Aの発言区間検知部4:M1だった場合、発言区間検知部4:M1では、X_M1[0]の入力に対する処理を行う。直後に次の音声データX_M1[1]の処理を開始するのではなく、話者Bの発言区間検知部4:M2でX_M2[0]に対する処理の完了を待たなければ、発言区間検知部4毎の時間ずれが発生してしまうため、同期をとる必要がある。この例では、時刻nの音声データに対する発言区間検知部4:M1、4:M2の処理が30msec以内で完了するならば、リアルタイムでの処理が可能となる。
【0051】
このように、本実施形態に係る発言切り分けシステム2とその方法では、類似度と音量を用いるだけの簡素な構成で、同一空間に複数の話者が存在する会議やコールセンター、インカム通話などの場において、あるいは、オンライン会議などで、他の話者の音声を自己の端末のスピーカを通じて聞きながら話し合う場において、複数の話者の音声を重複することなくしかも話者とその発言を正確に特定してリアルタイムで切り出すことができる。また、話者とその発言とを関連付けしなければ、異なる話者の発言を重複なく切り出すことができる。
【0052】
なお、上記実施形態に係る発言切り分けシステム2では、図3の(A)に示すように、同一空間内において話者A~N毎にマイクM1~Mnを装着し、これらマイクM1~Mnから自己の音声と他者の音声が混在して入力される音声データを重複なく切り出すようにしているが、これに限られるものではなく、図3の(B)に示すように、特定(自己)の話者A-Rが自らの端末M-1のマイクを通じて遠隔地の他の話者B-R、C-R・・N-Rと端末M-2~M-nを通じて話し合う場合であって、他の話者B-R~N-Rの音声が自らの端末M-1のマイクを通じて入力される場合も同様に、音声データを異なる話者毎に発言を重複なく切り出すことができる。さらに、話者を特定しないで、異なる話者の発言として切り出すこともできる。音声入力部としての端末M-1~M-nには、ノートPC、デスクトップPC、スマートフォンが含まれる。
【0053】
また、上記実施形態に係る発言切り分けシステム2では、図3の(A)、(B)に示すように、同一空間内の話者A~N毎に装着され関連付けされた個別の音声入力部、すなわち、マイクM1~Mnを通じて自他の音声が入力されるか、または遠隔地の話者A-R~N-R毎に関連付けされた端末M-1~M-Rのマイクを通じて自他の音声が入力されるようになっているが、これに限られるものではなく、図10に示すように、個別の音声入力部(マイクまたは端末)G・M1~G・Mn毎に複数の話者(a1、a2、a3)、(b1、b2、b3)・・(n1、n2、n4)の発言が入力されるようにしてもよい。すなわち、複数の話者からなる話者グループG・A、G・B、・・G・N毎に音声入力部G・M1~G・Mnを対応させるようにしている。このように構成することにより、話者一人ひとりでなく話者グループとその話者グループ毎の発言の音声データを入手することができる。つまり、話者グループ毎にG・A、G・B、・・G・N毎に発言を切り出す場合、自他の検知音声蓄積部5を同期させて類似度の高低を判別し、類似度が低いと異なる話者グループの発言とみなし、類似度が高いと同一の話者グループの発言とみなし、音声エネルギの相対的大小を判別して話者グループを特定し、検知音声蓄積部5から蓄積された音声データを出力し、話者グループとしての発言を切り出すようにしている。ただし、発言者グループ内の個別の話者は特定しないようになっている。
【0054】
なお、上記実施形態では、短時間で一定間隔毎に区切られた音声フレームを、例えば、30msec分の音声データとしているがこれに限られるものではなく、用途や会議場の状況マイクの性能等に応じて適宜変更してもよいことは言うまでもない。また、本実施形態では、音声長さ判別部8で予め設定された所定の長さを、1秒未満で、好ましくは0.5秒に設定しているがこれに限られるものではなく、条件に応じて設定してよいことはいうまでもない。
【符号の説明】
【0055】
2 発言切り分けシステム
4 発言区間検知部
5 検知音声蓄積部
6 類似度判別部
7 音声エネルギ判別部
A~N 話者
M1~Mn マイク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14