特開2015-118247(P2015-118247A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 村田機械株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2015-118247(P2015-118247A)
(43)【公開日】2015年6月25日
(54)【発明の名称】音声処理システム
(51)【国際特許分類】
   G10L 15/20 20060101AFI20150529BHJP
   G10L 15/28 20130101ALI20150529BHJP
   G10L 21/028 20130101ALI20150529BHJP
【FI】
   G10L15/20 370Z
   G10L15/28 400
   G10L21/028 B
【審査請求】未請求
【請求項の数】6
【出願形態】OL
【全頁数】35
(21)【出願番号】特願2013-261420(P2013-261420)
(22)【出願日】2013年12月18日
(71)【出願人】
【識別番号】000006297
【氏名又は名称】村田機械株式会社
(74)【代理人】
【識別番号】110000202
【氏名又は名称】新樹グローバル・アイピー特許業務法人
(72)【発明者】
【氏名】傳田 遊亀
(57)【要約】      (修正有)
【課題】音声処理システムにおける音声処理の実行負荷の上昇を抑制する。
【解決手段】音声処理装置51−1は、音声入力部511と、話者位置特定部513と、グループ作成部514と、信号処理部515と、音声認識部516と、を備える。音声入力部511は、各話者の音声に基づいた音声信号をそれぞれ入力する。話者位置特定部513は、各話者の位置を特定する。グループ作成部514は、複数の話者のうち、所定の範囲内に位置する複数の話者を1つのグループとして選択する。信号処理部515は、グループ内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。音声認識部516は、信号処理の結果に基づいて音声信号に対して音声認識処理を行う。
【選択図】図12
【特許請求の範囲】
【請求項1】
複数の話者に対する音声処理を行うためのシステムであって、
各話者の音声に基づいた音声信号をそれぞれ入力する複数の音声入力部と、
各話者の位置を特定する話者位置特定部と、
前記複数の話者のうち、所定の範囲内に位置する複数の話者を1つのグループとして選択するグループ作成部と、
前記グループ内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う信号処理部と、
前記信号処理の結果に基づいて音声信号に対して音声認識処理を行う音声認識部と、
を備える音声処理システム。
【請求項2】
前記複数の話者が存在する空間の所定の位置に取り付けられ、位置特定信号を発信する固定局と、
前記複数の話者にそれぞれ装着され、前記位置特定信号を受信する複数の移動局と、をさらに備え、
前記話者位置特定部は、前記複数の移動局において受信する前記位置特定信号に基づいて、各話者の位置を特定する、請求項1に記載の音声処理システム。
【請求項3】
前記複数の話者にそれぞれ装着され、前記位置特定信号を発信する複数の移動局と、
前記複数の話者が存在する空間の所定の位置に取り付けられ、前記複数の前記移動局から送信される複数の前記位置特定信号を受信する固定局と、
前記話者位置特定部は、前記固定局において受信する前記複数の位置特定信号に基づいて、各話者の位置を特定する、請求項1に記載の音声処理システム。
【請求項4】
前記複数の話者にそれぞれ装着され、位置特定信号を受信及び送信する複数の信号送発信部をさらに備え、
前記話者位置特定部は、他の前記信号送発信部から発信された前記位置特定信号に基づいて、各話者の位置を特定する、請求項1に記載の音声処理システム。
【請求項5】
前記信号処理部は、前記信号処理として、前記グループ内の複数の話者の音声信号を互いに分離する音声分離処理を行う、請求項1〜4のいずれかに記載の音声処理システム。
【請求項6】
前記信号処理部は、前記信号処理として、前記グループ内の複数の話者の音声信号に基づいて発話検出処理を行うことで、音声認識処理の対象となる音声入力部を特定する、請求項1〜5のいずれかに記載の音声処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の話者に対する音声処理を行う音声処理システムに関する。
【背景技術】
【0002】
従来、他の話者の音声など他の音信号が含まれる音声信号から、音声認識を行うべき話者の音声信号を選択する技術が知られている。
【0003】
例えば、特許文献1には、複数搭乗者による同時発話に対しても計算量の増加を招かずに各々の発話を理解でき、装置側から誰の発話であるかを認識し、詳細な制御が行えるようにする複数搭乗者機器用の音声制御装置が開示されている。
この音声制御装置では、まず、n個の音声入力部からの音声入力を発話者推定部にて受理して音声入力を行った発話者の位置を推定し、推定された発話者位置情報を用いて発話者位置の近傍の音声を重点的に取り込むように音声入力部を制御する。そして、音声理解部が、発話者推定部を通じて得られる発話者の音声信号を解析し、発話内容を理解する。さらに、制御部が、音声理解部での音声理解結果及び発話者位置情報をもとに適切な制御を行う。
【0004】
また、特許文献2には、重畳量決定部と、軽減信号重畳部と、を備えることを特徴とする妨害軽減装置が開示されている。この妨害軽減装置では、重畳量決定部が、音声を認識するときに妨害となる妨害成分に基づき、音声に重畳することにより音声の認識において妨害成分の影響を軽減する軽減信号を求める。軽減信号重畳部が、音声に軽減信号を重畳する。
これにより、妨害信号の存在する音声を人間が視聴する際に目的音声を聞き取りやすくできる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2001−13994号公報
【特許文献2】国際公開第2007/080886号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の音声制御装置及び妨害軽減装置においては、認識すべき話者と他の話者(あるいは妨害音の発生源)の位置関係とは無関係に、目的音声を選択する処理を行っている。すなわち、入力された音声信号に、他の話者の音声又は妨害音が混入していない、あるいは、混入していても無視できる程度に小さい場合においても、目的音声を選択する処理が行われている。
その結果、これらの装置では、音声信号の処理の無駄が大きい。このような無駄な処理は、上記の音声制御装置及び妨害軽減装置のような音声処理システムにおいては、音声処理システムの音声処理のための処理負荷を高めることになる。
【0007】
本発明の課題は、複数の話者に対して音声処理を実行するに際し、音声処理システムにおける音声処理の実行負荷を抑制することにある。
【課題を解決するための手段】
【0008】
以下に、課題を解決するための手段として複数の態様を説明する。これら態様は、必要に応じて任意に組み合せることができる。
本発明の一見地に係る音声処理システムは、複数の話者に対する音声処理を行うためのシステムである。音声処理システムは、音声入力部と、話者位置特定部と、グループ作成部と、信号処理部と、音声認識部と、を備える。
音声入力部は、各話者の音声に基づいた音声信号をそれぞれ入力する。話者位置特定部は、各話者の位置を特定する。グループ作成部は、複数の話者のうち、所定の範囲内に位置する複数の話者を1つのグループとして選択する。信号処理部は、グループ内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。音声認識部は、信号処理の結果に基づいて音声信号に対して音声認識処理を行う。
【0009】
この音声処理システムでは、まず、話者位置特定部が、各話者の位置を特定する。そして、グループ作成部が、所定の範囲内に位置する複数の話者を1つのグループとして選択する。その後、音声入力部が話者からの音声に基づいて音声信号を出力すると、信号処理部が、グループ内の選択された複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。そして、音声認識部が、信号処理部における信号処理結果に基づいて、音声信号に対して音声認識処理を行う。
このように、信号処理部が、音声の混信が生じる可能性がある話者(所定の範囲内に位置する複数の話者)の音声信号に対して、音声混信を解消するための信号処理を行う。つまり、グループとして選択されなかった話者の音声信号には信号処理が行われないので、その結果、音声処理システムにおける音声処理の実行負荷を抑制できる。
【0010】
音声処理システムは、固定局と、複数の移動局と、をさらに備えていてもよい。固定局は、複数の話者が存在する空間の所定の位置に取り付けられている。また、固定局は、位置特定信号を発信する。移動局は、複数の話者にそれぞれ装着されている。また、移動局は、位置特定信号を受信する。
このとき、話者位置特定部は、複数の移動局において受信する位置特定信号に基づいて、各話者の位置を特定してもよい。
移動局において受信した位置特定信号に基づいて、話者の位置を特定することにより、話者の位置を精度良く特定できる。その結果、グループ作成部は、各話者の位置に基づいて、1つのグループに所属する複数の話者を適切に選択できる。
【0011】
音声処理システムは、固定局と、複数の移動局と、をさらに備えていてもよい。移動局は、複数の話者にそれぞれ装着されている。また、移動局は、位置特定信号を発信する。固定局は、複数の話者が存在する空間の所定の位置に取り付けられている。また、固定局は、複数の移動局から送信される複数の位置特定信号を受信する。
このとき、話者位置特定部は、固定局において受信する複数の位置特定信号に基づいて、各話者の位置を特定してもよい。
複数の移動局から発信され、固定局におけて受信された複数の位置特定信号に基づいて、話者の位置を特定することにより、話者の位置を精度良く特定できる。その結果、グループ作成部は、各話者の位置に基づいて、1つのグループに所属する複数の話者を適切に選択できる。
【0012】
音声処理システムは、複数の信号送発信部をさらに備えていてもよい。信号送発信部は、複数の話者にそれぞれ装着されている。また、信号送発信部は、位置特定信号を受信及び送信する。
このとき、話者位置特定部は、他の信号送発信部から発信された位置特定信号に基づいて、各話者の位置を特定してもよい。
信号送発信部が位置特定信号を発信することにより、他の話者に対して自分の位置を知らせることができる。そして、信号送発信部が他の信号送発信部からの位置特定信号を受信し、話者位置特定部が受信した位置特定信号に基づいて各話者の位置を特定することにより、精度良く各話者の位置を特定できる。その結果、グループ作成部は、各話者の位置に基づいて、1つのグループに所属する複数の話者(信号処理対象となる話者)を適切に選択できる。
さらに、信号送発信部が位置特定信号を発信し受信することにより、他の信号受信装置又は信号発信装置を必要とすることなく、各話者の位置を精度良く特定できる。
【0013】
信号処理部は、信号処理として、音声分離処理を行ってもよい。音声分離処理とは、グループ内の複数の話者の音声信号を互いに分離する処理のことをいう。
信号処理部が、複数の話者の音声信号を分離する処理(音声分離処理)を行うことにより、グループ内の複数の話者が同時に発話した場合であっても、それぞれの話者の発話を適切に選別できる。その結果、複数の話者が同時に発話した場合であっても、音声認識部は、それぞれの話者の発話の音声認識処理を実行できる。
【0014】
信号処理部は、信号処理として、発話検出処理を行うことで、音声認識処理の対象となる音声入力部を特定してもよい。ここで、発話検出処理とは、グループ内の複数の話者の音声信号に基づいて行われる処理のことをいう。
信号処理部が発話検出処理を行い音声認識処理の対象となる音声入力部を特定することにより、音声認識処理をすべき音声信号を適切に特定できる。その結果、音声認識部における音声認識処理による処理負荷が抑制される。
【発明の効果】
【0015】
音声処理を行うべき音声信号を適切に選択し、音声処理システムにおける音声処理の実行負荷を抑制できる。
【図面の簡単な説明】
【0016】
図1】第1実施形態に係る音声処理システムの全体構成を示す図
図2A】移動局を有する話者端末の構成を示す図
図2B】固定局と移動局を用いて話者の位置を特定する様子を示す図
図2C】信号送発信部を有する話者端末の構成を示す図
図3】音声処理サーバーの構成を示す図
図4A】音声処理システムの基本動作を示すフローチャート
図4B】話者端末に移動局を、話者の存在する空間に固定局を備えた、音声処理システムにおける話者の位置特定方法を示すフローチャート
図4C】話者端末に信号送発信部を備えた音声処理システムにおける話者の位置特定方法を示すフローチャート
図4D】話者のグループへの割り当て方法の一例を示すフローチャート
図4E】音声エネルギーに基づく発話検出処理動作を示すフローチャート
図4F】発話タイミングに基づく発話検出処理動作を示すフローチャート
図5A】特定された話者の位置の一例を示す図
図5B】複数の話者のグループへの割り当ての一例を示す図
図6】話者が存在する空間を小領域に分割した一例を示す図
図7A】小領域における受信強度分布の一例を示す図
図7B】小領域における受信強度分布の一例を示す図
図8】2つの小領域の尤度を比較した結果を示す図
図9】話者間の距離が所定の範囲内であるかどうかを示す対応表の一例を示す図
図10A】音声エネルギーに基づく発話検出処理動作を模式的に示す図
図10B】発話タイミングに基づく発話検出処理動作を模式的に示す図
図11】第2実施形態に係る音声処理システムの全体構成を示す図
図12】音声処理装置の構成を示す図
図13】音声分離処理方法を模式的に示す図
【発明を実施するための形態】
【0017】
(1)第1実施形態
1.全体構成
まず、第1実施形態に係る音声処理システム100について、図1を参照しながら説明する。図1は、第1実施形態に係る音声処理システム100の全体構成を示す図である。音声処理システム100は、複数の話者の音声信号を一括して受信する音声処理サーバーにて音声信号処理を行うシステムである。
音声処理システム100は、複数の話者端末1−1、1−2、1−3、・・・1−nと、音声処理サーバー2と、を備える。
【0018】
話者端末1−1、1−2、1−3、・・・1−nは、それぞれ、話者3−1、3−2、3−3、・・・3−nに装着されている。話者端末1−1、1−2、1−3、・・・1−nは、それぞれ、話者3−1、3−2、3−3、・・・3−nの発話を音声信号に変換する。また、話者端末1−1、1−2、1−3、・・・1−nは、それぞれ、位置特定信号(後述)を受信する。
本実施形態において、話者端末1−1、1−2、1−3、・・・1−nは、話者3−1、3−2、3−3、・・・3−nにおける位置特定信号の受信強度を算出している。
そして、話者端末1−1、1−2、1−3、・・・1−nは、変換された音声信号(図2A及び図2C)及び受信強度情報(図2A及び図2C)を、音声処理サーバー2(後述)へ送信する。ここで、受信強度情報とは、位置特定信号の受信強度に関する情報のことを言う。
【0019】
音声処理サーバー2は、話者端末1−1、1−2、1−3、・・・1−nと信号送受信可能となっている。これにより、音声処理サーバー2は、話者端末1−1、1−2、1−3、・・・1−nから送信される音声信号と受信強度情報とを受信する。
音声処理サーバー2は、受信したそれぞれの受信強度情報に基づいて、話者3−1、3−2、3−3、・・・3−nのそれぞれの位置を特定し、所定の範囲内に位置する複数の話者を1つのグループとして選択する。
【0020】
そして、音声処理サーバー2は、受信した複数の音声信号に対して、必要に応じて信号処理を行う。具体的には、音声処理サーバー2は、上記グループ内の話者の音声信号に対しては、信号処理を行った後、音声認識処理を行う。一方、音声処理サーバー2は、その他の(孤立した)話者の音声信号に対しては、信号処理を行わず音声認識処理を行う。
本実施形態において、グループ内の話者の音声信号に対して行われる信号処理は、発話検出処理である。発話検出処理とは、音声処理サーバー2において実行する音声認識処理の対象となる音声信号を選択する信号処理のことを言う。
【0021】
このように、音声処理サーバー2は、特定の範囲内に位置する(グループ内の)複数の話者を選択し、選択された話者の音声信号に対して発話検出処理を行っている。なぜなら、グループ内の話者の発話による音声信号には、当該グループ内の他の話者の発話による音声信号が雑音として含まれる場合があるからである。そして、特定の話者の音声信号に対して音声認識を行うためには、特定の話者の音声信号を適切に選択する必要があるからである。
一方、グループに属さない孤立した話者の音声信号に対しては、発話検出処理が行われない。なぜなら、孤立した話者の発話による音声信号には、他の話者の発話に基づく音声信号が雑音として含まれていない、又は、含まれていても無視できる程度に小さいからである。そして、孤立した話者の発話による音声信号については、特定の話者の音声信号を適切に選択する必要がないからである。
【0022】
このように、音声処理サーバー2がグループ内の話者の音声信号に対してのみ発話検出処理(信号処理)を実行することにより、音声処理サーバー2において実行される音声処理の負荷の上昇を抑制できる。
【0023】
以下、第1実施形態に係る音声処理システム100の話者端末1−1、1−2、1−3、・・・1−n及び音声処理サーバー2の構成について、詳しく説明する。
【0024】
2.話者端末の構成
次に、第1実施形態に係る音声処理システム100の話者端末1−1、1−2、1−3、・・・1−nの構成について、図2A図2Cを用いて説明する。図2Aは、移動局を有する話者端末の構成を示す図である。図2Bは、固定局と移動局を用いて話者の位置を特定する様子を示す図である。図2Cは、信号送発信部を有する話者端末の構成を示す図である。ここでは、話者3−1に装着されている話者端末1−1の構成を例にとって説明する。なぜなら、他の話者端末1−2、1−3、・・・1−nも、話者端末1−1と同じ構成を有しているからである。
【0025】
話者端末1−1は、音声入力部11と、移動局13と、信号送信部15と、を有する。
音声入力部11は、信号送信部15と信号送受信可能となっている。なお、音声入力部11と信号送信部15は、電気ケーブルなどで接続され、有線にて信号送受信可能となっていてもよい。または、音声入力部11と信号送信部15は、無線にて信号送受信可能となっていてもよい。
【0026】
音声入力部11は、話者端末1−1が装着された話者3−1の音声に基づいた音声信号を入力する。そして、当該音声信号を信号送信部15に送信する。なお、「話者の音声に基づいた音声信号」は、話者3−1の音声のみによる音声信号のみでなく、他の話者からの音声なども雑音として含んだ音声による音声信号も含む。
音声入力部11としては、例えば、マイクロフォンを用いることができる。
【0027】
移動局13は、信号送信部15と、有線にて又は無線にて、信号送受信可能となっている。移動局13は、複数の固定局14(図2B)から発信される位置特定信号(後述)を受信する。
固定局14は、図2Bに示すように、話者が存在する空間Sの所定の位置(本実施形態では、紙面左上方、右上方、及び右下方の3カ所)に取り付けられている。固定局14は、それぞれから、位置特定信号S、S、Sを発信する。位置特定信号とは、話者の位置を特定するために使用される信号のことを言う。
【0028】
位置特定信号としては、例えば、無線LAN(Local Area Network)において用いられている電波信号などを用いることができる。この場合、移動局13としては、無線LANにおいて用いられる無線電波受信装置を用いることができる。無線電波受信装置としては、例えば、無線LAN子機などを用いることができる。
固定局14としては、無線LANにおいて用いられる無線電波送信装置を用いることができる。無線電波送信装置としては、例えば、無線LANのAP(Access Point)として動作する無線LAN親機など(無線LANルータなど)を用いることができる。
【0029】
本実施形態において、移動局13と固定局14とを用いた話者の位置の特定は、固定局14から発信された位置特定信号S、S、Sを、移動局13において受信したときの受信強度に基づいて行われる。移動局13と固定局14を用いた話者の位置の特定方法については、後ほど詳しく説明する。
【0030】
信号送信部15は、音声入力部11及び移動局13と信号送受信可能となっている。そして、信号送信部15は、音声入力部11から受信した音声信号と、移動局13から受信した受信強度情報を、音声処理サーバー2へ送信する。
なお、信号送信部15と音声処理サーバー2との信号のやりとりは、無線LAN又はbluetooth(登録商標)などによる無線通信を用いて行うことができる。そのため、信号送信部15としては、無線LAN又はbluetoothなどにおいて用いられる無線信号を送信するための無線信号発生装置を用いることができる。
【0031】
なお、話者端末1−1の変形例として、図2Cに示すように、上記の話者端末1−1の移動局13に代えて、信号送発信部17を有した話者端末1−1を用いることもできる。
この場合、信号送発信部17は、位置特定信号の受信のみでなく、位置特定信号の送信も行う。これにより、信号送発信部17は、他の話者端末1−2、1−3、・・・1−nの信号送発信部17と互いに通信可能となる。そして、信号送発信部17は、本実施形態においては、他の話者端末1−2、1−3、・・・1−nのそれぞれから受信した位置特定信号の受信強度に基づいて、話者3−1と他の話者3−2、3−3、・・・3−nとの位置関係を特定できる(すなわち、各話者の位置を特定できる)。
信号送発信部17としては、無線LAN、bluetooth、又は赤外線通信などにおいて用いられる、電波又は光信号を送受信可能な機器を用いることができる。
【0032】
なお、信号送発信部17を有する話者端末1−1においては、移動局13を有する上述の話者端末1−1の場合とは異なり、固定局14を必要としない。なぜなら、信号送発信部17が、位置特定信号の受信と同時に送信も可能であるからである。
このように、信号送発信部17を有する話者端末1−1においては、固定局などの外部の機器を必要とすることなく精度良く話者の位置を特定できる。
【0033】
3.音声処理サーバーの構成
次に、第1実施形態に係る音声処理システム100の音声処理サーバー2の構成について、図3を用いて説明する。図3は、音声処理サーバーの構成を示す図である。音声処理サーバー2は、CPU(Central Processing Unit)と、記憶部(RAM(Random Access Memory)、ROM(Read Only Memory)、及び/又は、ハードディスク又はSSD(Solid State Drive)などの記憶装置)と、各種インターフェースなど、とを備えるコンピュータである。以下に示す、音声処理サーバー2の各要素の一部又は全部は、音声処理サーバー2の記憶部に記憶されたプログラムにより実現されていてもよく、カスタムICなどにより実現されていてもよい。
音声処理サーバー2は、音声信号受信部21と、信号処理部23と、話者位置特定部25と、グループ作成部27と、音声認識部29と、を有する。
【0034】
音声信号受信部21は、信号処理部23と信号送受信可能に接続されている。音声信号受信部21は、話者端末1−1、1−2、1−3、・・・1−nから送信された音声信号を受信し、信号処理部23に送信する。音声信号受信部21としては、無線LANやbluetoothなどにおいて用いられる無線信号を受信する無線信号受信装置を用いることができる。
なお、音声信号受信部21は、話者端末1−1、1−2、1−3、・・・1−nのそれぞれに対応する、n個の無線信号受信装置により構成されていてもよく、nより少ない個数(例えば、1つ)の無線信号受信装置により構成されていてもよい。
【0035】
音声信号受信部21がnより少ない個数の無線信号受信装置により構成されている場合、話者端末1−1、1−2、1−3、・・・1−nから送信される音声信号には、例えば、話者端末を識別するための識別信号(例えば、MAC(Media Access Control)アドレス、又は、IP(Internet Protocol)アドレス、など)を含めてもよい。この場合、音声信号受信部21は、当該識別信号に基づき、受信した音声信号がどの話者端末から送信されてものであるかを識別できる。
そして、音声信号受信部21は、当該識別信号に基づいて、信号処理部23の処理切替部231(図3)のどの入力端子に受信した音声信号を送信すべきか決定し、決定された入力端子に受信した音声信号を送信する。
【0036】
信号処理部23は、音声信号受信部21と、グループ作成部27(図3)と、音声認識部29(図3)と、信号送受信可能に接続されている。信号処理部23は、グループ作成部27において作成されたグループ内の話者の音声信号に対して音声混信を解消するための信号処理(本実施形態においては、発話検出処理)を行う。信号処理部23は、発話検出処理を行った後、発話検出処理により選択された音声信号を、音声認識部29へ出力する。
一方、信号処理部23は、グループ作成部27において選択されていない話者、すなわち、いずれのグループにも属さない孤立した話者の音声信号に対しては、発話検出処理(信号処理)を行なわずに、受信した音声信号を音声認識部29に出力する。このように、グループとして選択されなかった話者の音声信号には信号処理が行われないので、その結果、音声処理システムにおける音声処理の負荷を抑制できる。
なお、信号処理部23の構成については、後ほど詳しく説明する。
【0037】
話者位置特定部25は、各話者3−1、3−2、・・・3−nのそれぞれに装着された話者端末1−1、1−2、・・・1−nから送信される受信強度情報を受信する。そして、話者位置特定部25は、受信した受信強度情報に基づいて、各話者3−1、3−2、・・・3−nの位置を特定する。
また、話者位置特定部25は、グループ作成部27に信号送受信可能に接続されている。従って、話者位置特定部25は、特定した各話者3−1、3−2、・・・3−nの位置に関する情報を、位置特定情報としてグループ作成部27に出力する。
なお、話者位置特定部25は、話者端末1−1、1−2、・・・1−nから送信された受信強度情報を受信するため、無線LAN又はbluetoothなどにおいて用いられている無線信号を受信する機能を有している。従って、話者位置特定部25は、その一部が無線信号を受信する無線信号受信装置などにより構成されている。
【0038】
グループ作成部27は、話者位置特定部25と信号送受信可能に接続されている。そのため、グループ作成部27は、話者位置特定部25から送信された位置特定情報を受信する。そして、グループ作成部27は、位置特定情報に基づいて、所定の範囲内に位置する複数の話者を1つのグループとして選択する。
具体的には、例えば、グループ作成部27は、ある話者(話者3−1とする)の位置と他の話者の位置とを、位置特定情報から抽出し、話者3−1と他の話者それぞれとの間の距離を逐次算出する。そして、当該算出された距離が所定の値以下となった場合に、話者3−1と他の話者とが同一グループ内に存在するものと判断する。
【0039】
また、グループ作成部27は、信号処理部23と信号送受信可能に接続されている。このため、グループ作成部27は、上記の話者選択結果を、話者選択結果情報として信号処理部23に出力できる。
【0040】
音声認識部29は、信号処理部23と信号送受信可能に接続されている。従って、音声認識部29は、信号処理部23から出力された音声信号を受信し、受信した音声信号に対して音声認識処理を行う。音声認識部29において受信される音声信号は、信号処理部23において実行される発話検出処理により選択された音声信号と、発話検出処理されなかった音声信号である。
このように、信号処理部23にて発話検出処理された音声信号に対しては、発話検出処理により選択された音声信号のみが、音声認識部29にて音声認識処理される。よって、全ての音声信号に対して音声認識処理を行う場合と比較して、音声処理サーバー2の計算負荷を軽減できる。
【0041】
なお、音声認識部29は、話者3−1、3−2、・・・3−nの数(n)の音声認識モジュール(図示せず)を実行可能となっていてもよく、話者3−1、3−2、・・・3−nの数よりも少ない音声認識モジュールを実行可能となっていてもよい。
nよりも少ない個数の音声認識モジュールを実行可能な場合であって、実行可能な音声モジュールの数よりも多くの音声信号が入力された場合、音声認識部29は、タイムシェア処理などにより、入力された音声信号を音声認識処理が終了したモジュールに逐次入力していく。
音声認識部29が実行可能な音声認識モジュールの数は、音声処理サーバー2の信号処理能力、及び/又は、音声処理すべき話者の人数などに応じて適宜決定できる。
【0042】
3−1.信号処理部の詳細構成
次に、音声処理サーバー2の信号処理部23の詳細構成について、図3を用いて説明する。
信号処理部23は、処理切替部231と、音声信号処理部233と、を有する。
処理切替部231は、音声信号受信部21と信号送受信可能に接続されている。従って、処理切替部231は、音声信号受信部21から音声信号を受信できる。また、処理切替部231は、音声信号処理部233(後述)と信号送受信可能に接続されている。従って、処理切替部231は、音声信号処理部233に音声信号を出力できる。さらに、処理切替部231は、音声認識部29と信号送受信可能に接続されている。従って、処理切替部231は、音声認識部29に音声信号を出力できる。
【0043】
処理切替部231は、入力端子a1、a2、・・・anと、第1出力端子b1、b2、・・・bnと、第2出力端子c1、c2、・・・cnと、を有する。入力端子a1、a2、・・・anは、音声信号受信部21と接続されている。そのため、入力端子a1、a2、・・・anには、音声信号受信部21が受信した、話者端末1−1、1−2、・・・1−nそれぞれからの音声信号が入力される。
第1出力端子b1、b2、・・・bnは、音声認識部29と接続されている。このため、第1出力端子b1、b2、・・・bnからは、話者端末1−1、1−2、・・・1−nそれぞれからの音声信号が、音声認識部29に送信される。
第2出力端子c1、c2、・・・cnは、音声信号処理部233と接続されている。このため、第2出力端子c1、c2、・・・cnからは、話者端末1−1、1−2、・・・1−nそれぞれからの音声信号が、音声信号処理部233に送信される。
【0044】
また、処理切替部231は、グループ作成部27から出力される話者選択結果情報に基づいて、入力端子a1、a2、・・・anを、それぞれ、第1出力端子b1、b2、・・・bnに接続するか、又は、第2出力端子c1、c2、・・・cnに接続する。これにより、処理切替部231は、話者選択結果情報に基づいて、音声信号を音声認識部29へ直接入力するか、音声信号処理部233に入力するかを選択できる。
【0045】
上記の端子の接続先の決定方法を具体的に説明するため、例えば、話者選択結果情報において、話者3−kがグループ内の話者であり、話者3−mが孤立した話者(グループに属しない話者)であるとされている場合を考える。
処理切替部231は、上記の話者選択結果情報に基づき、話者端末1−k(話者3−kに装着)から受信した音声信号が入力された入力端子akを、対応する第2出力端子ckに接続する。一方、処理切替部231は、話者端末1−m(話者3−mに装着)から受信した音声信号が入力された入力端子amを、対応する第1出力端子bmに接続する。
他の入力端子に対しても、上記と同様にして、第1出力端子に接続するか第2出力端子に接続するかが決定される。
これにより、グループに属する話者の音声信号は、音声信号処理部233に入力される。一方、孤立した話者の音声信号は、音声認識部29に入力される。
【0046】
このように、グループ内の話者の音声信号を音声信号処理部233に入力し、孤立した話者の音声信号を直接音声認識部29に入力することにより、グループ内の話者に対しては音声信号処理部233において発話検出処理を行い、孤立した話者の音声信号に対しては発話検出処理を行わないと決定できる。これにより、話者3−1、3−2、・・・3−nの音声信号に対して、不必要な発話検出処理(信号処理)を抑制できる。
【0047】
音声信号処理部233は、処理切替部231の第2出力端子c1、c2、・・・cnから出力された音声信号に対して、信号処理を行う。上記のように、本実施形態において音声信号処理部233において行われる信号処理は、発話検出処理である。発話検出処理を行うことにより、音声信号処理部233は、入力された音声信号について、どの音声信号を音声認識部29における音声認識処理の対象とするかを適切に選択できる。その結果、音声認識部29が不必要に音声認識処理を行うことを抑制できる。これにより、音声認識部29における音声認識処理による処理負荷の上昇を抑制できる。
【0048】
なお、音声信号処理部233は、話者3−1、3−2、・・・3−nの数(n)の発話検出モジュール(図示せず)を実行可能となっていてもよく、話者3−1、3−2、・・・3−nの数よりも少ない発話検出モジュールを実行可能となっていてもよい。
nよりも少ない個数の発話検出モジュールを実行可能な場合であって、実行可能な発話検出モジュールの数よりも多くの音声信号が入力された場合、音声信号処理部233は、タイムシェア処理などにより、入力された音声信号を発話検出処理が終了したモジュールに逐次入力していく。
音声信号処理部233が実行可能な発話検出モジュールの数は、音声処理サーバー2の信号処理能力、及び/又は、音声処理すべき話者の人数などに応じて適宜決定できる。
【0049】
4.音声処理システムの動作
4−1.音声処理システムの基本動作
次に、音声処理システム100の動作について説明する。まず、音声処理システム100の基本動作について図4Aを用いて説明する。図4Aは、音声処理システム100の基本動作を示すフローチャートである。
音声処理システム100が音声処理を開始すると、まず、音声処理サーバー2の話者位置特定部25が、複数の話者の現在位置を特定する(ステップS1)。そして、話者位置特定部25は、複数の話者の現在位置の特定結果を、位置特定結果情報として出力する。
今、話者位置特定部25が、例えば、話者が存在する空間Sにおいて、話者3−1、3−2、・・・3−12(すなわち、n=12)の位置を図5Aに示すように特定したとする。図5Aは、特定された話者の位置の一例を示す図である。
なお、音声処理システム100における複数の話者の現在位置の特定方法は、後ほど説明する。
【0050】
ステップS1において話者位置特定部25が話者の現在位置を特定した後、グループ作成部27が、上記の位置特定情報に基づいて、所定の範囲内に位置する複数の話者を1つのグループとして選択する(ステップS2)。そして、グループ作成部27は、複数の話者のグループへの割り当て結果を、話者選択結果情報として出力する。
【0051】
図5Aに示すような話者の位置関係において、グループ作成部27は、図5Bに示すように、グループGr1〜Gr4を作成する。図5Bは、複数の話者のグループへの割り当ての一例を示す図である。
この場合、グループ作成部27は、図5Bの空間Sに存在する話者3−1、3−2、・・・3−12に対して、以下のようにグループへの割り当てを行う。
(i)話者3−1、3−7、及び3−8は孤立した話者
(ii)グループGr1:話者3−3及び3−4
(iii)グループGr2:話者3−2、3−5、及び3−6
(iv)グループGr3:話者3−6、3−9、3−11、3−12
(v)グループGr4:話者3−9〜3−11
【0052】
なお、上記のように、話者3−6、3−9、及び3−11は、2つのグループに属している。このように1の話者が複数のグループに属することになったとしても、グループ作成部27は、1の話者が属する複数のグループを1つにまとめる処理は行わない。なぜなら、図5Bに示すような場合、3つのグループGr2〜Gr4を1つのグループとした場合、例えば、話者3−5と話者3−10は、所定の範囲外に存在しているにもかかわらず、同じグループに属するものとされてしまい、それは好ましくないためである。
【0053】
話者3−5と話者3−10が同じグループに属するものとされた場合、話者3−5と話者3−10とが、例えば、話者3−5に装着された話者端末1−5の音声入力部11に話者3−10の音声が混入しない程度に離れて存在しているにも関わらず、話者3−5からの音声信号と話者3−10からの音声信号に対して、音声信号処理部233における信号処理(発話検出処理)が実行される。
この場合、話者端末1−5の音声入力部11において、話者3−10の音声はほとんど入力されないため、話者3−5からの音声信号と話者3−10からの音声信号に対して行われる上記信号処理は、不必要な信号処理である。
【0054】
従って、グループ作成部27が、1の話者が複数のグループに属する場合に、当該複数のグループを1つのグループにまとめる処理を行わないことにより、不必要に音声信号処理部233における信号処理が実行されることを抑制できる。
なお、グループ作成部27による、複数の話者のグループへの割り当て方法については、後ほど詳しく説明する。
【0055】
ステップS2においては、グループ作成部27が話者選択結果情報を出力後、信号処理部23の処理切替部231が、出力された話者選択結果情報に基づき、処理切替部231の入力端子a1、a2、・・・anを、第1出力端子b1、b2、・・・bnに接続するか、第2出力端子c1、c2、・・・cnに接続するかを決定する。そして、処理切替部231は、入力端子a1、a2、・・・anを、決定された出力端子に接続する。
【0056】
図5Bに示された話者3−1、3−2、・・・3−12のグループ割り当てにおいては、話者3−1の音声信号が入力される入力端子a1、話者3−7の音声信号が入力される入力端子a7、及び、話者3−8の音声信号が入力される入力端子a8は、それぞれ、第1出力端子b1、b7、及びb8に接続される。
一方、残りの入力端子a2〜a6及びa9〜a12については、それぞれ、第2出力端子c2〜c6及びc9〜c12に接続される。
【0057】
ステップS2において所定の範囲内に位置する複数の話者を1つのグループとして選択後、話者位置特定部25が、位置特定情報の更新時期であるかどうかを確認する(ステップS3)。位置特定情報の更新時期は、例えば、所定の周期時間毎とすることができる。
話者位置特定部25が、位置特定情報の更新時期であると判断した場合(ステップS3において「Yes」の場合)、ステップS1及びS2を再び実行する。これにより、話者位置特定部25が位置特定情報を更新する。そして、当該更新された位置特定情報に基づいて、グループ作成部27が話者選択結果情報を更新する。これにより、話者が頻繁に移動している場合であっても、複数の話者のグループへの割り当てを適切に行える。
一方、話者位置特定部25が、位置特定情報の更新時期でないと判断した場合(ステップS3において「No」の場合)、次のステップS4へ進む。
【0058】
ステップS4において、音声信号受信部21は、音声信号を、音声入力部11を介して受信するために待機する。音声信号受信部21において音声信号が受信された場合(ステップS4において「Yes」の場合)、ステップS5に進む。
一方、音声信号受信部21において音声信号が受信されない場合(ステップS4において「No」の場合)は、ステップS3に戻る。その結果、音声信号が音声信号受信部21に受信されない間も、必要に応じて、グループ作成部27が複数の話者のグループへの割り当てを更新できる。
【0059】
ステップS5において、音声信号は、信号処理部23の処理切替部231を介して、音声信号処理部233又は音声認識部29へ送信される。ここで、処理切替部231に入力された音声信号が、グループに属する話者の音声信号の場合(ステップS5において「Yes」の場合)、当該音声信号が入力された処理切替部231の入力端子a2〜a6及びa9〜a12は、それぞれ、第2出力端子c2〜c6及びc9〜c12に接続されているため、当該音声信号は音声信号処理部233に入力される。そして、ステップS6へと進む。
【0060】
一方、処理切替部231に入力された音声信号が、グループに属さない孤立した話者の音声信号の場合(ステップS5において「No」の場合)、当該音声信号が入力された処理切替部231の入力端子a1、a7、及びa8は、それぞれ、第1出力端子b1、b7、及びb8に接続されているため、当該音声信号は音声認識部29に入力される。そして、ステップS7へと進む。
【0061】
このように、音声処理システム100においては、グループに属する話者の音声信号は音声信号処理部233に送信され、グループに属しない孤立した話者の音声信号は音声認識部29に送信される。すなわち、信号処理(発話検出処理)が必要である所定の範囲内にある話者の音声信号と、信号処理を必要としない孤立した話者の音声信号とが、適切に選択されている。
これにより、音声処理システム100においては、音声信号処理部233による信号処理(発話検出処理)を不必要に実行することを抑制できる。その結果、音声処理システム100の音声処理の負荷が上昇することを抑制できる。
【0062】
ステップS6において、音声信号処理部233は、入力された音声信号に対して発話検出処理を実行する。
ここで、音声信号処理部233は、まず、入力された音声信号がどの話者の音声信号であるかを判定する。入力された音声信号がどの話者の音声信号であるかは、例えば、音声信号に含められた話者(話者端末)の識別情報に基づき、行うことができる。
次に、音声信号処理部233は、音声信号の上記識別情報と話者選択結果情報に基づいて、同一のグループ内の複数の話者の複数の音声信号を特定する。そして、音声信号処理部233は、当該特定された複数の音声信号に対して1の発話検出処理を実行することにより、同一グループ内の複数の話者の音声信号の内、どの音声信号を音声認識部29へ送信するかを特定する。
【0063】
なお、音声信号処理部233において実行される発話検出処理数は、グループ作成部27にて作成されたグループ数に対応する。従って、音声信号処理部233から出力される音声信号の数も、グループ作成部27において作成されてグループ数に対応する数となる。すなわち、図5Bに示すような4つのグループGr1〜Gr4が作成された場合は、音声信号処理部233から出力される音声信号の数は4となる。
【0064】
このように、音声信号処理部233が発話検出処理により音声認識処理すべき音声信号を選択することにより、音声認識部29における音声認識処理対象の音声信号の数の上昇を抑制できる。その結果、音声認識部29における音声認識処理の負荷を抑制できる。
なお、音声信号処理部233における発話検出処理については、後ほど詳しく説明する。ステップS6において、音声信号処理部233により音声認識部29へ送信すべき音声信号を特定後、ステップS7へ進む。
【0065】
ステップS7において、音声認識部29が、入力された音声信号に対して音声認識処理を実行する。上記のように、音声認識部29に入力される音声信号は、処理切替部231の第1出力端子b1、b2、・・・bn(のいずれか)から出力された音声信号(すなわち、孤立した話者の音声信号)と、音声信号処理部233にて実行された発話検出処理により選択された音声信号(すなわち、グループ内の話者の音声信号の内、選択された話者の音声信号)である。
このように、音声認識部29が適切に選択された音声信号に対して音声認識処理を実行することにより、音声認識部29における音声認識処理による負荷を抑制できる。
ステップS7において、選択された音声信号に対して音声認識処理を実行後、音声処理システム100は、音声処理を終了する。
【0066】
4−2.話者の位置特定方法
次に、図4Aに示したステップS1における話者3−1、3−2、・・・3−nの位置特定方法について説明する。話者3−1、3−2、・・・3−nの位置特定方法として、(i)移動局13と固定局14を用いた話者の位置特定方法、(ii)信号送発信部17を用いた位置特定方法、がある。
以下、それぞれの方法について、図4B及び図4Cを用いて説明する。図4Bは、話者端末に移動局を、話者の存在する空間に固定局を備えた、音声処理システムにおける話者の位置特定方法を示すフローチャートである。図4Cは、話者端末に信号送発信部を備えた音声処理システムにおける話者の位置特定方法を示すフローチャートである。
【0067】
(i)移動局と固定局を用いた話者の位置特定方法
図2A及び図2Bに示したような移動局13と固定局14を用いた話者の位置特定方法においては、話者3−1、3−2、・・・3−nが存在する空間Sを所定の小領域に分割し、固定局14から発信される位置特定信号S、S、Sのそれぞれの、各小領域における受信強度に基づいて、話者3−1、3−2、・・・3−nの位置を特定する。
そのため、まず、位置特定信号S、S、Sのそれぞれの、空間Sの各小領域における受信強度を測定する(ステップS111)。このとき、各小領域における受信強度として、所定の受信強度の位置特定信号が受信される頻度(出現確率)と受信強度との関係を測定する。この所定の受信強度の位置特定信号が受信される頻度(出現確率)と受信強度との関係を、「受信強度分布」と呼ぶこともある。
【0068】
受信強度分布は、具体的には、次のようにして取得する。まず、各小領域において位置特定信号S、S、Sのそれぞれの受信強度を、所定の周期で複数個測定する。次に、位置特定信号S、S、Sのそれぞれについて、位置特定の受信強度の最小値から最大値までの範囲において、各位置特定信号において所定の受信強度の位置特定信号が受信される頻度(出現確率)を算出する。
なお、固定局14から発信される位置特定信号S、S、Sの受信強度は、電波などの受信信号の強度を測定する装置を用いて測定してもよく、話者端末1−1、1−2、・・・、1−nのうちの1つを用いて測定してもよい。
【0069】
今、話者3−1、3−2、・・・3−nが存在する空間Sが、図6に示すように、小領域SS−1、SS−2、・・・、SS−M、・・・、SS−L、・・・、SS−Nに分割されているとする。図6は、話者が存在する空間を小領域に分割した一例を示す図である。そして、図6に示した「AP1」と名付けられた固定局14から位置特定信号Sが、「AP2」と名付けられた固定局14から位置特定信号Sが、「AP3」と名付けられた固定局14から位置特定信号Sが発信されているとする。
【0070】
図6において、小領域SS−Lは、「AP1」と名付けられた固定局14からの距離が最も近く、「AP2」と名付けられた固定局14からの距離と「AP3」と名付けられた固定局14からの距離がほぼ等しい。従って、小領域SS−Lにおいては、図7Aに示すような受信強度分布が取得される。
図7A及び後述の図7Bにおいて、点線は「AP1」と名付けられた固定局14からの受信強度分布を示すグラフであり、一点鎖線は「AP2」と名付けられた固定局14からの受信強度分布を示すグラフであり、実線は「AP3」と名付けられた固定局14からの受信強度分布を示すグラフである。
図7A及び図7Bは、それぞれ、小領域SS−Lにおける受信強度分布の一例を示す図、及び、小領域SS−Mにおける受信強度分布の一例を示す図である。
【0071】
一方、「AP1」と名付けられた固定局14からの距離>「AP2」と名付けられた固定局14からの距離>「AP3」と名付けられた固定局14からの距離、の順にて固定局からの距離が小さくなる小領域SS−Mにおいては、図7Bに示すような受信強度分布が取得される。
【0072】
すべての小領域SS−1、SS−2、・・・SS−Nにて上記の受信強度分布を取得後、取得した受信強度分布を音声処理サーバー2の記憶部などに記憶する。なお、上記の受信強度分布の取得は、音声処理システム100の据え付け時に一度行えばよい。又は、音声処理システム100の保守作業のときに、記憶された受信強度分布を更新するようにしてもよい。
【0073】
ステップS111において受信強度分布を取得後、話者3−1、3−2、・・・、3−nに装着された話者端末1−1、1−2、・・・1−nのそれぞれが、位置特定信号S、S、Sを受信する(ステップS112)。具体的には、話者端末1−1、1−2、・・・1−nのそれぞれに備わった移動局13が、位置特定信号S、S、Sを受信する。そして、移動局13が、位置特定信号S、S、Sのそれぞれの受信強度を信号送信部15に出力する。
その後、信号送信部15が、位置特定信号S、S、Sのそれぞれの受信強度を、受信強度情報として音声処理サーバー2へ送信する。
【0074】
ステップS112において位置特定信号S、S、Sの受信強度を取得後、音声処理サーバー2の話者位置特定部25が、受信した受信強度情報に基づき、話者3−1、3−2、・・・3−nの位置を特定する(ステップS113)。具体的には、以下のようにして、受信強度情報に基づいて話者3−1、3−2、・・・3−nの位置を特定する。
今、受信強度情報において、話者3−jに装着された話者端末1−jの移動局13が、位置特定信号Sを受信強度P1にて受信し、位置特定信号Sを受信強度P2にて受信し、位置特定信号Sを受信強度P3にて受信したと示されているとする。
【0075】
話者3−jの位置を特定するに際し、話者位置特定部25は、まず、各小領域における、移動局13にて受信した位置特定信号の受信強度と、上記の受信強度分布との類似度を表す尤度を算出する。
上記の尤度は、図7A及び図7Bに示した受信強度分布における出現確率に対応する値である。従って、図7Aに示した小領域SS−Lにおける受信強度分布においては、SS−Lにおいて位置特定信号Sを受信強度P1にて受信する場合の尤度はp1L、位置特定信号Sを受信強度P2にて受信する出現確率はp2L、位置特定信号Sを受信強度P3にて受信する出現確率はp3Lと算出される。
【0076】
一方、図7Bに示した小領域SS−Mにおける受信強度分布においては、小領域SS−Mにおいて位置特定信号Sを受信強度P1にて受信する出現確率はp1M(ほぼ0)、位置特定信号Sを受信強度P2にて受信する出現確率はp2M、位置特定信号Sを受信強度P3にて受信する出現確率はp3M(ほぼ0)と算出される。
【0077】
次に、話者位置特定部25は、各小領域における上記の尤度の積を算出する。すなわち、話者位置特定部25は、小領域SS−Lにおける尤度の積を、p1L×p2L×p3Lと算出し、小領域SS−Mにおける尤度の積をp1M×p2M×p3Mと算出する。そして、話者位置特定部25は、各小領域における尤度の積を比較し、上記の尤度の積が最大となった小領域を、話者3−jが存在する位置であると特定する。
【0078】
ここに示した例においては、図8からも分かるように、小領域SS−Lにおける尤度の積p1L×p2L×p3Lは、小領域SS−Mにおける尤度の積p1M×p2M×p3Mよりも大きい。図8は、小領域SS−L及び小領域SS−Mの尤度を比較した結果を示す図である。そして、全小領域の尤度を比較した結果、小領域SS−Lにおける尤度の積が最大である場合には、話者位置特定部25は、話者3−jは小領域SS−Lに存在するものと特定する。
話者位置特定部25が、全ての話者3−1、3−2、・・・3−nに対して位置の特定を行った後、話者位置特定部25は、話者の位置特定結果を位置特定情報として出力する(ステップS114)。
このように、固定局14から発信された位置特定信号の移動局13における受信強度に基づいて、話者3−1、3−2、・・・3−nの位置を特定することにより、話者3−1、3−2、・・・3−nの位置を精度良く特定できる。その結果、グループ作成部27は、各話者3−1、3−2、・・・3−nの位置に基づいて、1つのグループに所属する複数の話者を適切に選択できる。
【0079】
(ii)信号送発信部を用いた位置特定方法
次に、図2Bに示すような信号送発信部17を備えた話者端末1−1、1−2、・・・1−nにおける、話者3−1、3−2、・・・3−nの位置特定方法を、図4Cを用いて説明する。
まず、話者端末1−1、1−2、・・・1−nのそれぞれの信号送発信部17は、位置特定信号S、S、・・・Sを発信する(ステップS121)。なお、位置特定信号S、S、・・・Sには、それぞれの位置特定信号を送信した話者端末を特定するための識別信号が含まれていてもよい。または、位置特定信号S、S、・・・Sの周波数など信号の特性を、各話者端末1−1、1−2、・・・1−nにて異ならせておいて、各位置特定信号がどの話者端末から送信されたものかを識別してもよい。
【0080】
次に、話者端末1−1、1−2、・・・1−nのそれぞれの信号送発信部17は、他の話者端末から発信された位置特定信号S、S、・・・Sを受信する(ステップS122)。そして、他の話者から発信された位置特定信号S、S、・・・Sの受信強度を、受信強度情報として信号送信部15に送信する。さらに、信号送信部15は、受信強度情報を音声処理サーバー2へ送信する。なお、受信強度情報には、当該受信強度情報の発信元の話者端末の識別情報が含まれていてもよい。
【0081】
音声処理サーバー2の話者位置特定部25が、ステップS122にて送信された受信強度情報を受信すると、受信強度情報に示された位置特定信号S、S、・・・Sの受信強度に基づいて、当該受信強度情報を送信してきた話者端末と他の話者端末との距離を算出する(ステップS123)。
当該話者端末間の距離は、例えば、予め分かっている位置特定信号S、S、・・・Sの発信強度と、受信強度情報に示された位置特定信号S、S、・・・Sの受信強度との比(すなわち、信号減衰値)に基づいて算出できる。
【0082】
ステップS123にて、全ての話者端末1−1、1−2、・・・1−nに対して他の話者端末との距離が算出された後、話者位置特定部25は、話者端末間の距離を位置特定情報として出力する(ステップS124)。
なお、信号送発信部17を用いた位置特定方法においては、ステップS123にて話者端末間の距離を算出できた時点にて、位置特定処理を終了する。なぜなら、後述するように、グループ作成部27は、話者間の距離に基づいて、話者のグループへの割り当てを行うからである。
【0083】
上記の信号送発信部17を用いた位置特定方法においては、信号送発信部17が位置特定信号S、S、・・・Sを送信することにより、他の話者(他の話者端末)に対して自分(自分の話者端末)の位置を知らせることができる。
そして、信号送発信部17が他の信号送発信部17からの位置特定信号S、S、・・・Sを受信し、話者位置特定部25が受信した位置特定信号S、S、・・・Sの強度に基づいて各話者3−1、3−2、・・・3−nの位置(話者間の距離)を特定することにより、精度良く各話者3−1、3−2、・・・3−nの位置(話者間の距離)を特定できる。
【0084】
4−3.話者のグループへの割り当て方法
次に、図4AのステップS2における、話者3−1、3−2、・・・3−nのグループへの割り当て方法の一例について、図4Dを用いて説明する。図4Dは、話者のグループへの割り当て方法の一例を示すフローチャートである。まず、グループ作成部27は、各話者3−1、3−2、・・・3−nと他の話者との距離を、位置特定情報を用いて算出する(ステップS21)。
【0085】
このとき、グループ作成部27は、最初に、話者3−1と他の話者3−2、3−3、・・・3−nとの距離を算出し、次に、話者3−2と他の話者3−3、3−4、・・・3−nとの距離を算出し、その後話者3−(n−2)と他の話者との距離まで算出した後、最後に話者3−(n−1)と話者3−nとの距離を算出する。
つまり、例えば、話者3−2と他の話者との距離を算出する際に、話者3−2と話者3−1との距離は算出しない。なぜなら、話者3−2と話者3−1はすでに(話者3−1と他の話者との距離を算出する時点にて)算出されているためである。そして、最後には、話者3−(n−1)と話者3−nの距離のみが算出される。なぜなら、上記と同様に、話者3−(n−1)と話者3−n以外の話者との距離は、すでに算出されているからである。
【0086】
なお、図2Cに示す信号送発信部17を有する話者端末1−1、1−2、・・・1−nを用いた場合、位置特定情報には話者間の距離が記憶されているので、上記の話者間の距離の算出処理は省略できる。この場合、グループ作成部27は、位置特定情報から話者間の距離を抽出する。
【0087】
ステップS21において話者間の距離を算出又は抽出した後、算出又は抽出した話者間の距離が所定の範囲内である話者間の距離を特定する(ステップS22)。話者3−1、3−2、・・・3−12(n=12)が図5Aに示すような位置に存在していることを位置特定情報が示しているとき、グループ作成部27は、図9に示すような対応表を作成できる。図9は話者間の距離が所定の範囲内であるかどうかを示す対応表の一例を示す図である。図9において、黒丸を示した部分が、話者間の距離が所定の範囲内にある場合を示している。
【0088】
例えば、話者3−6と他の話者との距離が所定の範囲内であるかどうかを見た場合、図9の表の点線で囲った部分(列方向)において、話者3−2及び話者3−5に対応する箇所に黒丸が付してある。これは、話者3−6と3−5との距離は所定の範囲内にあり、話者3−6と3−2との距離は所定の範囲内にあることを示している。
また、図9の表の一点鎖線で囲った部分(行方向)において、話者3−9、3−11、及び3−12に対応する箇所に黒丸が付してある。これは、話者3−6と3−9との距離が所定の範囲内、話者3−6と3−11との距離が所定の範囲内、及び話者3−6と3−12との距離が所定の範囲内、であることを示している。
【0089】
次に、算出した話者間の距離が所定の範囲内である話者間の距離を特定したあと、グループ作成部27は、当該特定結果に基づいて、話者3−1、3−2、・・・3−nをグループに割り当てる処理を実行する(ステップS23)。
【0090】
グループ作成部27が図9に示すような対応表を作成する場合、グループ作成部27は、次のようにして話者3−1、3−2、・・・3−nをグループに割り当てる。
まず、グループ作成部27は、図9の対応表において、話者3−1、3−7、及び3−8に対応する行及び列には、黒丸が全く付されていないと判定する。これにより、グループ作成部27は、話者3−1、3−7及び3−8は、他の話者との距離が所定の範囲内にない、すなわち、孤立した話者であると判定する。
また、図9の対応表に示されているように、話者3−3に対応する行においては、話者3−4に対応するセル(要素)のみに黒丸が付されている。この場合、グループ作成部27は、話者3−3と3−4の組み合わせにて1つのグループが作成されると判定する。
【0091】
さらに、図9の対応表において、1つの行又は列において2以上の黒丸が付されている場合、グループ作成部27は、3以上の話者が1つのグループとして選択される可能性があると判定する。例えば、上記のように、話者3−6に対応する行において、話者3−9、3−11、及び3−12の話者に対応する要素に黒丸が付してある。この場合、話者3−9と3−11との距離、話者3−9と3−12との距離、又は話者3−11と3−12との距離、のいずれかが所定の範囲内である場合、3以上の話者が1つのグループとして選択される。
図9に示す例においては、上記3つの話者間の距離はすべて所定の範囲内に存在する。このような場合、グループ作成部27は、話者3−6、3−9、3−11、及び3−12の4の話者を1つのグループとして選択する。
【0092】
なお、話者3−9と3−11との距離、話者3−9と3−12との距離、及び話者3−11と3−12との距離のいずれもが所定の範囲にない場合は、話者3−6と3−9のグループ、話者3−6と3−11のグループ、話者3−6と話者3−12のグループの3のグループが作成される。
一方、話者3−9と3−11との距離、話者3−9と3−12との距離、又は話者3−11と3−12との距離のうち、1つの距離のみが所定の範囲内にある場合は、3の話者にて構成されるグループが作成される。例えば、話者3−9と3−11との距離のみが所定の範囲内の場合、話者3−6、3−9、及び3−11により構成されるグループが作成される。
【0093】
グループ作成部27は、上記のグループ割り当てルールに基づいて、図9に示す対応表から、話者3−1、3−2、・・・3−12に対して、図5Bに示すように以下のようにグループを割り当てる。
(i)話者3−1、3−7、及び3−8は孤立した話者
(ii)グループGr1:話者3−3及び3−4
(iii)グループGr2:話者3−2、3−5、及び3−6
(iv)グループGr3:話者3−6、3−9、3−11、3−12
(v)グループGr4:話者3−9〜3−11
上記のようにして複数の話者をグループに割り当てた後、グループ作成部27は、話者選択結果情報を出力する(ステップS24)。
【0094】
このように、話者間の距離に基づいて、複数の話者を1つのグループとして選択することにより、信号処理部23(の音声信号処理部233)において信号処理(発話検出処理)の対象とする音声信号を適切に選択できる。
これにより、音声処理システム100において、不必要に信号処理部23における信号処理(発話検出処理)を実行することを抑制できる。その結果、音声処理システム100における音声処理の負荷の上昇を抑制できる。
【0095】
4−4.信号処理部における信号処理動作
次に、図4AのステップS6における信号処理動作について、図4E及び図4Fを用いて説明する。図4Eは、音声エネルギーに基づく発話検出処理動作を示すフローチャートである。図4Fは、発話タイミングに基づく発話検出処理動作を示すフローチャートである。
なお、図5Bに示すように、グループ作成部27が4つのグループを作成した場合、音声信号処理部233においては、4つの音声信号処理モジュールが実行される。また、いずれの音声信号処理モジュールへどの音声信号が入力されるかは、話者選択結果情報に基づき決定できる。
【0096】
本実施形態において、信号処理部23の音声信号処理部233において実行される信号処理は、発話検出処理である。発話検出処理とは、音声認識部29における音声認識処理の対象となる音声信号を特定することである。
また、発話検出処理には、(i)音声エネルギーに基づく発話検出処理と、(ii)発話タイミングに基づく発話検出処理と、がある。以下の説明では、それぞれについて説明する。以下の説明では、2の話者3−3及び3−4が所属するグループGr1から出力される2の音声信号に対する発話検出処理を例にとって説明する。
【0097】
(i)音声エネルギーに基づく発話検出処理
まず、音声エネルギーに基づく発話検出処理について図4Eを用いて説明する。ここで、音声エネルギーとは、音声信号の強度と音声信号が継続する時間との積で表される値のことである。
ここで、図10Aに示す同一の時間間隔Tにおいて、話者端末1−3から送信された話者3−3の音声信号A1と、話者端末1−4から送信された話者3−4の音声信号A2が同時に入力されたとする。図10Aは、音声エネルギーに基づく発話検出処理動作を模式的に示す図である。
【0098】
音声信号A1とA2とが入力されて発話検出処理を開始するとき、音声信号処理部233は、音声信号A1の音声エネルギーE、及び、音声信号A2の音声エネルギーEを算出する(ステップS611)。
例えば、音声エネルギーE及びEは、それぞれ、音声信号A1の時間間隔Tにおける積分値、及び、音声信号A2の時間間隔Tにおける積分値、として算出される。
【0099】
音声エネルギーE及びEを算出後、音声信号処理部233は、算出した音声エネルギーE及びEのうち、最大のものを特定する(ステップS612)。
次に、音声信号処理部233は、最大の音声エネルギーを有する音声信号(図10Aにおいては、音声信号A1)を出力する(ステップS613)。このとき、音声信号処理部233は、その内部において、他の音声信号A2を遮断する。
なお、他の音声信号A2が遮断されている間、音声信号処理部233は、音声信号を遮断している話者(図10Aにおいては話者3−4)に対して、例えば、話者3−4が装着しているHMD(Head Mount Display)においてランプを点灯するなどして、音声信号の遮断を通知してもよい。これにより、音声信号を遮断されている話者が、音声信号を遮断されていることを知らされずに、発話を継続することを抑制できる。
【0100】
次に、音声信号処理部233は、音声信号A1が終了したかどうかを判定する(ステップS614)。音声信号A1の終了は、例えば、音声信号A1の出力なし(あるいは、所定の値以下の出力)を検出するか、又は、音声信号A1の出力が0(あるいは、所定の値以下)となってから所定の時間経過したことを検出することにより判定できる。
音声信号処理部233が音声信号A1の終了を検出した場合(ステップS614にて「Yes」の場合)、音声信号処理部233は、他の音声信号A2の遮断を解除する(ステップS615)。そして、音声信号処理部233における発話検出処理を終了する。
一方、音声信号処理部233が音声信号A1の継続を検出した場合(ステップS614にて「No」の場合)、音声信号処理部233は、音声信号A1の出力と音声信号A2の遮断を継続する。
【0101】
このように、音声信号の強度と音声信号が継続する時間との積で表される音声エネルギーが最大の音声信号を出力することにより、グループGr1の話者3−3及び3−4のうち最も大きな声にて発話をした話者の音声信号A1を、音声認識処理を実行すべき音声信号として適切に選択できる。音声エネルギーの計算は,音声信号の全ての周波数を使用して計算してもよいし、特定の周波数帯を使用して計算してもよい。
【0102】
(ii)発話タイミングに基づく発話検出処理
次に、発話タイミングに基づく発話検出処理について、図4Fを用いて説明する。今、図10Bに示すように、話者3−4の音声信号A2が、時間tにて開始され、時間tにて終了している。一方、話者3−3の音声信号A1は、時間tにおいてはまだ開始していない。すなわち、話者3−3の音声信号A1が、話者3−4の音声信号A2よりも先に発せられている。図10Bは、発話タイミングに基づく発話検出処理動作を模式的に示す図である。
まず、音声信号受信部21が時間tにて話者3−4の音声信号A2を受信し、音声信号A2が音声信号処理部233に送信されると(ステップS621)、音声信号処理部233は、話者3−3の音声信号(A1)を遮断する(ステップS622)。
これにより、音声信号処理部233は、最も早く発話を開始した話者3−4の音声信号A2は通過する一方、その他の音声信号を遮断できる。その結果、グループGr1内の複数の話者(話者3−3及び3−4)のうち最も早く発話を開始した話者の音声信号A2を、音声認識処理を実行すべき音声信号として適切に選択できる。
【0103】
そして、音声信号処理部233は、現在通過中の音声信号A2が終了したかどうかを確認する(ステップS623)。音声信号が終了したかどうかは、例えば、音声信号の出力が0(あるいは所定の出力値以下)となったタイミングを検出したとき、又は、出力0(あるいは所定の出力値以下)を検出後、所定の時間経過したとき、とすることができる。
図10Bに示す場合においては、時間tにて音声信号A2の出力0を検出し、当該タイミングを音声信号A2の終了とする。
【0104】
音声信号処理部233が時間tにて音声信号A2が終了したことを検出した場合(ステップS623にて「Yes」の場合)、音声信号処理部233は、遮断していた話者3−3の音声信号(A1)の通過を許可して(ステップS624)、音声信号処理部233における発話検出処理を終了する。これにより、時間t以降に話者3−3が最も早く発話した場合に、話者3−3の音声信号を音声認識部29における音声認識処理の対象とできる。
一方、音声信号処理部233が、音声信号A2が継続中であると判断した場合(ステップS623にて「No」の場合)、ステップS622にもどり、音声信号処理部233は、音声信号A2の通過と話者3−3の音声信号(A1)の遮断を継続する。これにより、音声信号処理部233は、音声信号A2が終了したと判断するまで、音声信号A2の通過と話者3−3の音声信号(A1)の遮断を継続できる。
【0105】
なお、発話タイミングに基づいて発話検出処理を行う場合も同様に、音声信号A1が遮断されている間、音声信号処理部233は、音声信号を遮断している話者(図10Bにおいては話者3−3)に対して、例えば、話者3−3が装着しているHUD(Head Up Display)においてランプを点灯するなどして、音声信号の遮断を通知してもよい。
【0106】
(2)第2実施形態
前記実施形態では、音声信号受信部、信号処理部、話者位置特定部と、グループ作成部、及び音声認識部を有する音声処理システムは音声処理サーバーによって実現されていたが、本発明に係る音声処理システムはそれに限定されない。ここでは、各話者に設けられた複数の音声処理装置によって音声処理システムを実現している実施形態を説明する。
1.全体構成
第2実施形態に係る音声処理システム200について、図11を参照しながら説明する。図11は、第2実施形態に係る音声処理システム200の全体構成を示す図である。音声処理システム200は、複数の話者3−1、3−2、・・・3−nのそれぞれに装着された音声処理装置51−1、51−2、・・・51−nにより音声処理を行うシステムである。
この音声処理システム200においては、音声処理装置51−1、51−2、・・・51−nは、話者3−1、3−2、・・・3−nの位置特定情報など、音声処理装置51−1、51−2、・・・51−nにおける音声処理に必要な情報をお互いに送受信している。
以下、音声処理装置51−1、51−2、・・・51−nの構成及び動作について説明をする。なお、以下の説明において、第1実施形態の音声処理システム100と同じ構成及び/又は動作については、必要に応じて説明を行い、説明が省略可能な箇所については説明を省略する。
【0107】
2.音声処理装置の構成
まず、音声処理装置51−1、51−2、・・・51−nの構成について、図12を用いて説明する。図12は、音声処理装置の構成を示す図である。以下の説明においては、音声処理装置51−1を例にとって説明する。なぜなら、他の音声処理装置51−2、51−3、・・・51−nは、音声処理装置51−1と同じ構成を有するからである。
なお、音声処理装置51−1の一部又は全部は、CPUと、記憶装置と、他の機器との信号のやりとりが可能であるコンピュータ端末にて構成されていてもよい。また、必要に応じて、以下に示す音声処理装置51−1の各要素は、記憶装置に記憶されたプログラムにて実現されていてもよい。
音声処理装置51−1は、音声入力部511と、移動局512と、話者位置特定部513と、グループ作成部514と、信号処理部515と、音声認識部516と、情報送受信部517と、を備える。
【0108】
音声入力部511は、信号処理部515(後述)と信号送受信可能となっている。音声入力部511は、音声処理装置51−1が装着された話者3−1の音声に基づいた音声信号を入力し、信号処理部515へ送信する。音声入力部511としては、マイクロフォンなどを用いることができる。
【0109】
本実施形態においては、移動局512は、話者位置特定部513(後述)と信号送受信可能となっている。また、移動局512は、図示しない固定局(第1実施形態の固定局14に相当するもの)から発信される位置特定信号を受信する。さらに、移動局13は、位置特定信号の受信強度を示す受信強度情報を話者位置特定部513に送信する。
移動局512としては、例えば、無線LANにおいて用いられる無線電波受信装置など用いることができる。一方、固定局としては、無線LANにおいて用いられる無線電波送信装置を用いることができる。
なお、第1実施形態の音声処理システム100において説明したのと同様、移動局512と固定局の代わりに、信号送発信部17を用いて位置特定信号の送受信を行ってもよい。
【0110】
話者位置特定部513は、移動局512から送信される受信強度情報を受信し、受信した受信強度情報に基づいて、話者3−1の位置を特定する。
また、話者位置特定部513は、情報送受信部517(後述)と信号送受信可能となっている。これにより、話者位置特定部513は、情報送受信部517に、位置特定情報を出力する。その結果、情報送受信部517は、他の音声処理装置51−2、51−3、・・・51−nに、音声処理装置51−1の位置特定情報を送信できる。
また、話者位置特定部513は、グループ作成部514(後述)に信号送受信可能に接続されている。従って、話者位置特定部25は、特定した話者3−1の位置を、話者3−1の位置特定情報としてグループ作成部27に出力する。
【0111】
グループ作成部514は、話者位置特定部513と信号送受信可能に接続されている。そのため、グループ作成部514は、話者位置特定部513から送信された話者3−1の位置特定情報を受信する。
また、グループ作成部514は、情報送受信部517と信号送受信可能となっている。これにより、グループ作成部514は、情報送受信部517を介して、他の音声処理装置51−2、51−3、・・・51−nから他の話者3−2、3−3、・・・3−nの位置特定情報を受信する。この結果、グループ作成部514は、全ての話者3−1、3−2、・・・3−nの位置特定情報を受信できる。そして、グループ作成部514は、受信した位置特定情報に基づき、複数の話者を1つのグループとして選択する。
さらに、グループ作成部514は、信号処理部515と信号送受信可能となっている。従って、グループ作成部514は、上記の複数の話者をグループに割り当てた結果(話者選択結果)を、話者選択結果情報として信号処理部515に出力する。
【0112】
信号処理部515は、音声入力部511と、グループ作成部514と、音声認識部516と、信号送受信可能に接続されている。信号処理部515は、音声入力部511から話者3−1の音声信号を受信する。また、信号処理部515は、グループ作成部514から受信した話者選択結果情報に基づいて、グループ内の話者の音声信号に対して信号処理を行う。そして、信号処理部515は、信号処理により選択された音声信号を、音声認識部516へ出力する。
一方、話者選択結果情報において、いずれのグループにも属さない孤立した話者であるとされた話者の音声信号については、信号処理部515は、信号処理を行うことなく音声認識部516に出力する。
【0113】
さらに、信号処理部515は、情報送受信部517と信号送受信可能となっている。これにより、信号処理部515は、他の音声処理装置51−2、51−3、・・・51−nにおける信号処理に必要な情報を、情報送受信部517を介して、他の音声処理装置51−2、51−3、・・・51−nに出力できる。
また、信号処理部515は、信号処理部515における信号処理に必要な情報を、情報送受信部517を介して、他の音声処理装置51−2、51−3、・・・51−nから受信できる。
【0114】
信号処理部515は、処理切替部5151と、音声信号処理部5153と、を有する。処理切替部5151と、音声信号処理部5153の基本的な機能は、第1実施形態における処理切替部231と、音声信号処理部233と同じである。
ただし、処理切替部5151は、第1実施形態の処理切替部231と異なり、1の入力端子a’と、1の第1出力端子b’と、1の第2出力端子c’と、を有している。そして、処理切替部5151は、上記の話者選択結果情報から、話者3−1がいずれかのグループに属しているかどうかを判定し、話者3−1がグループに属している場合には、入力端子a’を第2出力端子c’に接続する。一方、話者3−1が孤立した話者であると判定された場合には、処理切替部5151は、入力端子a’を第1出力端子b’に接続する。
【0115】
これにより、音声処理装置51−1の信号処理部515においては、話者3−1がグループに属しているか孤立した話者であるかに基づき、音声入力部511から入力された話者3−1の音声信号を音声信号処理部5153に送信するか、又は、音声認識部516に送信するかを選択できる。
【0116】
音声認識部516は、信号処理部515と信号送受信可能に接続されている。従って、音声認識部516は、信号処理部515の音声信号処理部5153において信号処理されたグループに属する話者3−1の音声信号、又は、音声信号処理部5153における信号処理が実行されていない孤立した話者3−1の音声信号に対して、音声認識処理を実行する。
【0117】
情報送受信部517は、話者位置特定部513と、グループ作成部514と、信号処理部515と、信号送受信可能となっている。また、情報送受信部517は、他の音声処理装置51−2、51−3、・・・51−nの情報送受信部517と信号送受信可能となっている。
これにより、情報送受信部517は、話者位置特定部513から出力される話者3−1の位置特定情報を、他の音声処理装置51−2、51−3、・・・51−nへ送信する。また、情報送受信部517は、他の話者3−2、3−3、・・・3−nの位置特定情報を他の音声処理装置51−2、51−3、・・・51−nから受信し、グループ作成部514に送信する。これにより、音声処理装置51−1は、他の音声処理装置51−2、51−3、・・・51−nと位置特定情報を共有できる。
【0118】
また、情報送受信部517は、信号処理部515において信号処理を実行するために必要となる情報を、信号処理部515から受信し、他の音声処理装置51−2、51−3・・・51−nへと送信する。さらに、情報送受信部517は、信号処理部515において信号処理を実行するために必要となる情報を、他の音声処理装置51−2、51−3・・・51−nから受信し、信号処理部515に送信する。
これにより、音声処理装置51−1は、他の音声処理装置51−2、51−3、・・・51−nと、信号処理の実行に必要な情報を共有できる。
【0119】
4−3.音声処理装置の動作
次に、音声処理装置51−1、51−2、・・・51−nの動作について説明する。音声処理装置51−1、51−2、・・・51−nの基本動作も、図4Aに示す第1実施形態の音声処理システム100の基本動作と同じである。従って、以下の音声処理装置の基本動作の説明は、図4Aを用いて説明する。以下の説明においては、例として、話者3−1が装着する音声処理装置51−1の動作について説明する。
音声処理装置51−1が音声処理を開始すると、話者位置特定部513が、話者3−1の現在位置を特定する(ステップS1)。そして、話者位置特定部513は、話者3−1の位置特定情報を、情報送受信部517を介して、他の音声処理装置51−2、51−3、・・・51−nに送信する。
なお、話者3−1の現在位置の特定方法は、第1実施形態に係る音声処理システム100において説明した方法と同じである。よって、説明を省略する。
【0120】
ステップS1において話者位置特定部513が話者3−1の現在位置を特定した後、グループ作成部514が、所定の範囲内に位置する複数の話者を1つのグループとして選択する(ステップS2)。このとき、グループ作成部514は、情報送受信部517を介して、他の話者3−2、3−3、・・・3−nの位置特定情報を、他の音声処理装置51−2、51−3、・・・51−nから受信する。
そして、グループ作成部514は、話者3−1の位置特定情報と、他の話者3−2、3−3、・・・3−nの位置特定情報とに基づき、話者3−1、3−2、・・・3−nのグループへの割り当てを行う。その後、グループ作成部514は、割り当て結果を、話者選択結果情報として出力する。
なお、グループ作成部514における話者3−1、3−2、・・・3−nのグループへの割り当てる方法は、第1実施形態に係る音声処理システム100において説明した方法と同じである。よって、説明を省略する。
【0121】
ステップS2においては、グループ作成部514は、さらに、話者選択結果情報に基づき、話者3−1がグループに属しているかどうか判定する。もし、話者3−1がグループに属していると判定された場合には、信号処理部515は、処理切替部5151の入力端子a’を、第2出力端子c’に接続する。一方、話者3−1がグループに属していない(話者3−1が孤立した話者である)と判定された場合には、入力端子a’を第1出力端子b’に接続する。
【0122】
このように、話者3−1がグループに属しているかどうかに基づき、処理切替部5151の入力端子a’をいずれの出力端子に接続するかを決定することにより、話者3−1がグループに属しているかどうかに基づき、話者3−1の音声信号に対して信号処理を実行するかどうかを選択できる。これにより、信号処理部515の音声信号処理部5153が、不必要に信号処理を実行することを抑制できる。その結果、音声処理装置51−1における音声処理の負荷の上昇を抑制できる。
【0123】
ステップS2において所定の範囲内に位置する複数の話者を1つのグループとして選択後、話者位置特定部513が、位置特定情報の更新時期であるかどうかを確認する(ステップS3)。位置特定情報の更新時期であると判断した場合(ステップS3において「Yes」の場合)、ステップS1及びS2を再び実行する。
一方、話者位置特定部513が、位置特定情報の更新時期でないと判断した場合(ステップS3において「No」の場合)、次のステップS4へ進む。
【0124】
ステップS4において、音声入力部511は、音声信号を受信するために待機する。音声信号受信部21において音声信号が受信された場合(ステップS4において「Yes」の場合)、ステップS5に進む。
一方、音声入力部511において音声信号が受信されない場合(ステップS4において「No」の場合)は、ステップS3に戻る。
【0125】
ステップS5において、話者3−1の音声信号は、信号処理部515の処理切替部5151を介して、音声信号処理部5153又は音声認識部516へ送信される。
話者3−1がいずれかのグループに属する場合(ステップS5において「Yes」の場合)、入力端子a’は第2出力端子c’に接続されているため、音声入力部511からの音声信号は音声信号処理部5153に入力される。そして、ステップS6へと進む。
【0126】
一方、話者3−1がグループに属さない孤立した話者の場合(ステップS5において「No」の場合)、入力端子a’は第1出力端子b’に接続されているため、音声入力部511からの音声信号は音声認識部516に入力される。そして、ステップS7へと進む。
【0127】
ステップS6において、音声信号処理部233は、入力された音声信号に対して信号処理を実行する。音声信号処理部5153は、まず、話者3−1の音声信号(音声入力部511からの音声信号)に対して、信号処理を行う。
次に、音声信号処理部5153は、話者3−1が所属するグループ内の他の話者に装着された音声処理装置から、信号処理に必要な情報を受信する。このとき、音声信号処理部5153は、話者選択結果情報を参照し、他の音声処理装置51−2、51−3、・・・51−nのいずれかから、音声信号処理部5153における信号処理に必要な情報を受信するかを判定する。
【0128】
上記の信号処理に必要な情報は、上記の音声エネルギーに基づいた発話検出処理においては、他の話者の音声エネルギーの算出値と音声信号の終了の検出結果である。一方、上記の発話タイミングに基づく発話検出処理において信号処理に必要な情報は、他の話者の発話の通知と音声信号の終了の検出結果である。
なお、音声信号の終了の検出結果の受信は、音声信号処理部5153が話者3−1の音声信号を遮断した場合のみであってもよい。なぜなら、話者3−1の音声信号を音声認識処理の対象とした場合には、音声信号の遮断から通過への切替が不要だからである。
ステップS6において、音声信号処理部5153における信号処理の結果、話者3−1の音声信号を音声認識処理の対象とした場合、音声信号処理部5153は、話者3−1の音声信号を音声認識部516へ出力する。そして、ステップS7へ進む。一方、話者3−1の音声信号が音声認識処理の対象でないとした場合、他の話者の音声信号の音声認識処理を実行中、音声信号処理部5153は、話者3−1の音声信号を遮断する。
【0129】
ステップS7において、音声認識部516は、音声入力部511からの音声信号が入力された場合、当該音声信号に対して音声認識処理を実行する。一方、音声入力部511からの音声信号が入力されない場合は、音声認識部516は、音声信号の入力待ちのみを実行する。
このように、音声認識部516が、話者3−1の音声信号が入力されたときのみ音声認識処理を実行することにより、音声認識部29における音声認識処理による負荷の上昇を抑制できる。
ステップS7において、音声認識部516が音声認識処理を実行後、音声処理装置51−1は、音声処理を終了する。
【0130】
(3)実施形態の効果
本発明の音声処理システム100、200の効果は以下のように記載できる。
音声処理システム100、200(音声処理システムの一例)は、複数の話者3−1、3−2、・・・3−n(複数の話者の一例)に対する音声処理を行うためのシステムである。音声処理システム100、200は、音声入力部11、511(音声入力部の一例)と、話者位置特定部25、513(話者位置特定部の一例)と、グループ作成部27、514(グループ作成部の一例)と、信号処理部23、515(信号処理部の一例)と、音声認識部29、516(音声認識部の一例)と、を備える。
音声入力部11、511は、各話者3−1、3−2、・・・3−nの音声に基づいた音声信号をそれぞれ入力する。話者位置特定部25、513は、各話者3−1、3−2、・・・3−nの位置を特定する。グループ作成部27、514は、複数の話者3−1、3−2、・・・3−nのうち、所定の範囲内に位置する複数の話者をグループGr1〜Gr4のいずれか(1つのグループの一例)として選択する。信号処理部23、515は、グループGr1〜Gr4内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。音声認識部29、516は、信号処理の結果に基づいて音声信号に対して音声認識処理を行う。
【0131】
音声処理システム100、200では、まず、話者位置特定部25、513が、各話者3−1、3−2、・・・3−nの位置を特定する。そして、グループ作成部27、514が、所定の範囲内に位置する複数の話者をグループGr1〜Gr4のいずれかとして選択する。その後、音声入力部11、511が話者からの音声に基づいて音声信号を出力すると、信号処理部23、515が、グループGr1〜Gr4内の選択された複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。そして、音声認識部29、516が、信号処理部23、515における信号処理結果に基づいて、音声信号に対して音声認識処理を行う。
このように、信号処理部23、515が、音声の混信が生じる可能性がある話者(所定の範囲内に位置する複数の話者)の音声信号に対して、音声混信を解消するための信号処理を行う。つまり、グループとして選択されなかった話者の音声信号には信号処理が行われないので、その結果、音声処理システム100、200における音声処理の実行負荷を抑制できる。
【0132】
音声処理システム100、200は、固定局14(固定局の一例)と、複数の移動局13、512(移動局の一例)と、をさらに備えている。固定局14は、複数の話者3−1、3−2、・・・3−nが存在する空間S(空間の一例)の所定の位置に取り付けられている。また、固定局14は、位置特定信号S、S、S(位置特定信号の一例)を発信する。移動局13、512は、複数の話者3−1、3−2、・・・3−nにそれぞれ装着されている。また、移動局13、512は、位置特定信号をS、S、S受信する。
このとき、話者位置特定部25、513は、複数の移動局13、512において受信する位置特定信号S、S、Sの受信強度に基づいて、各話者3−1、3−2、・・・3−nの位置を特定している。
これにより、話者3−1、3−2、・・・3−nの位置を精度良く特定できる。その結果、グループ作成部27、514は、各話者3−1、3−2、・・・3−nの位置に基づいて、グループGr1〜Gr4のいずれかに所属する複数の話者を適切に選択できる。
【0133】
音声処理システム100、200は、複数の信号送発信部17(信号送発信部の一例)をさらに備えている。信号送発信部17は、複数の話者3−1、3−2、・・・3−nにそれぞれ装着されている。また、信号送発信部17は、位置特定信号を受信及び送信する。
このとき、話者位置特定部25、513は、他の信号送発信部17から発信された位置特定信号の受信強度に基づいて、各話者3−1、3−2、・・・3−nの位置を特定している。
これにより、他の話者3−1、3−2、・・・3−nに対して自分の位置を知らせることができる。そして、信号送発信部17が他の信号送発信部17からの位置特定信号を受信し、話者位置特定部25、513が受信した位置特定信号の強度に基づいて各話者3−1、3−2、・・・3−nの位置を特定することにより、精度良く各話者3−1、3−2、・・・3−nの位置を特定できる。その結果、グループ作成部27、514は、各話者3−1、3−2、・・・3−nの位置に基づいて、グループGr1〜Gr4のいずれかに所属する複数の話者(信号処理対象となる話者)を適切に選択できる。
さらに、信号送発信部17が位置特定信号を発信し受信することにより、他の信号受信装置又は信号発信装置を必要とすることなく、各話者3−1、3−2、・・・3−nの位置を精度良く特定できる。
【0134】
音声信号処理部233、5153は、信号処理として、発話検出処理を行うことで、音声認識処理の対象となる音声入力部11、511を特定している。
信号処理部23,515が発話検出処理を行い、音声認識処理の対象となる音声入力部11、511を特定することにより、音声認識処理をすべき音声信号を適切に特定できる。その結果、音声認識部29、516が不必要に音声認識処理を行うことを抑制できる。これにより、音声認識部29、516における音声認識処理による実行負荷を抑制できる。
【0135】
音声信号処理部233、5153における発話検出処理(発話検出処理の一例)は、複数の音声入力部11、511のうち、最大の音声エネルギーを有する音声信号を入力した音声入力部11、511を特定する処理である。
信号処理部23、515の音声信号処理部233、5153(信号処理部)が最大の音声エネルギーを有する音声信号を入力した音声入力部を特定することにより、グループGr1〜Gr4のいずれか内の複数の話者のうち最も大きな声にて発話をした話者の音声信号を、音声認識処理を実行すべき音声信号として適切に選択できる。
【0136】
音声信号処理部233、5153における発話検出処理は、複数の音声入力部11、511のうち、最初に音声信号を入力した音声入力部11、511を特定する処理である。
信号処理部23、515の音声信号処理部233、5153(信号処理部)が最初に音声信号を入力した音声入力部11、511を特定することにより、グループGr1〜Gr4のいずれかの内の複数の話者のうち最も早く発話を開始した話者の音声信号を、音声認識処理を実行すべき音声信号として適切に選択できる。
【0137】
(4)他の実施形態
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、発明の要旨を逸脱しない範囲で種々の変更が可能である。特に、本明細書に書かれた複数の実施形態及び変形例は必要に応じて任意に組み合せ可能である。
(A)移動局と固定局の構成についての他の実施形態
上記の第1実施形態に係る音声処理システム100、及び、第2実施形態に係る音声処理システム200においては、固定局14が位置特定信号を発信し、移動局13、512が位置特定信号を受信していた。しかし、移動局と固定局の信号送受信の関係はこれに限られない、逆に、移動局13、512が位置特定信号を発信し、固定局14が位置特定信号を受信してもよい。
この場合、位置特定信号は、話者端末1−1、1−2、・・・1−n毎、又は、音声処理装置51−1、51−2、・・・51−n毎に、発信される位置特定信号の周波数を異ならせることにより、どの話者端末又は音声処理装置から発信された位置特定信号であるかを識別可能にしてもよい。又は、位置特定信号に、話者端末1−1、1−2、・・・1−n又は音声処理装置51−1、51−2、・・・51−nの識別情報を含ませておいてもよい。
このように、移動局13、512から位置特定信号を発信し、固定局14にて位置特定信号を受信しても、同様に話者3−1、3−2、・・・3−nの位置が特定できる。
【0138】
(B)信号処理部の音声信号処理部についての他の実施形態
上記の第1実施形態に係る音声処理システム100、及び、第2実施形態に係る音声処理システム200においては、信号処理部23、515の音声信号処理部233、5153は、音声信号に対する音声混信を解消するための信号処理として、発話検出処理を実行していた。しかし、音声混信を解消するための信号処理は、これに限られない。音声信号処理部233、5153は、音声分離処理を実行してもよい。
音声分離処理とは、複数の話者3−1、3−2、・・・3−nの音声が混合した音声信号から、各々の話者の音声信号を分離する信号処理をいう。
【0139】
例えば、今、図5Bに示すグループGr1において、グループGr1に所属する話者3−3が音声信号A1を有する発話を行い、話者3−4が音声信号A2を有する発話を行った場合を考える(図13)。図13は、音声分離処理方法を模式的に示す図である。
この場合、話者3−3が発話中に話者3−4が発話を開始した場合、話者3−3の音声入力部11、511からは、話者3−3の発話による音声に話者3−4の発話による音声が混入した音声信号A3が出力される。話者3−4の音声入力部11、511からも同様に、話者3−4の発話による音声に話者3−3の発話による音声が混入した音声信号A4が出力される。
【0140】
音声信号処理部233、5153は、音声分離処理を実行することにより、音声信号A3から音声信号A1を分離し、音声信号A4から音声信号A2を分離できる。
なお、音声分離処理を実行する際、音声信号処理部233、5153は、音声信号A3にどの程度の大きさの音声信号A2が混入しているか、音声信号A4にどの程度の大きさの音声信号A1が混入しているかを、例えば、話者選択結果情報(又は、位置特定情報)に示されている、話者3−3と話者3−4との距離に基づいて決定してもよい。
【0141】
このように、音声信号処理部233、5153が音声分離処理を実行することにより、グループGr1内の話者3−3、3−4が同時に発話した場合であっても、それぞれの話者の発話を適切に選別できる。その結果、グループ内の複数の話者が同時に発話した場合であっても、音声認識部29、516は、それぞれの話者の発話の音声認識処理を実行できる。
【0142】
なお、ここでは、話者端末1−1、1−2、・・・1−n又は音声処理装置51−1、51−2、・・・51−nのそれぞれに、音声入力部11、511が1つ備えられている場合にて、音声信号処理部233、5153における音声分離処理の説明をしたが、音声入力部11、511の数は、話者端末1−1、1−2、・・・1−n又は音声処理装置51−1、51−2、・・51−nのそれぞれに1つとは限られない。
例えば、話者端末1−1、1−2、・・・1−n又は音声処理装置51−1、51−2、・・・51−nに、分離したい音声信号を取得する第1音声入力部と、当該分離したい音声信号に混入する音声信号を取得する第2音声入力部と、2つの音声入力部が備わっていてもよい。
【0143】
(C)位置特定方法についての他の実施形態
上記の実施形態における移動局13と固定局14を用いた話者の位置特定方法においては、固定局14から発信される位置特定信号S、S、Sのそれぞれの、各小領域における受信強度に基づいて、話者3−1、3−2、・・・3−nの位置を特定していた。または、話者端末1−1、1−2、1−3、・・・1−nの信号送発信部17のそれぞれから発信される位置特定信号S、S、・・・Sの受信強度に基づいて、話者3−1、3−2、・・・3−nの位置を特定していた。
しかし、話者3−1、3−2、・・・3−nの位置特定方法は、位置特定信号の受信強度に基づいて実行されることに限られない。例えば、話者3−1、3−2、・・・3−nの位置の特定は、位置特定信号の送信時間と受信時間の時間差(送受信時間差)に基づいて実行されてもよい。
【0144】
固定局14(無線LANなど)又は信号送発信部17から発信される電波などの信号は、空間Sにおいて所定の速度にて伝搬するため、位置特定信号の送信時間と受信時間との差を算出することにより、固定局14と話者3−1、3−2、・・・3−nとの間の距離、又は、話者端末1−1、1−2、・・・1−n間の距離を算出できる。この場合、例えば、次のようにして位置の特定が実行される。
【0145】
まず、音声処理システム100の各構成要素は、音声処理システム100にて共通した時刻を記憶しておく。次に、固定局14(又は信号送発信部17)において位置特定信号S、S、S(S、S、・・・S)を発信した時刻(発信時刻)が上記の各構成要素に通知され、通知された発信時刻を各構成要素が記憶する。さらに、話者端末1−1、1−2、1−3、・・・1−nが位置特定信号S、S、S(S、S、・・・S)を受信すると、位置特定信号S、S、S(S、S、・・・S)の受信時刻が通知され、当該受信時刻が各構成要素に記憶される。
【0146】
次に、話者端末1−1、1−2、1−3、・・・1−n又は音声処理サーバー2が、記憶された受信時刻と発信時刻との差を送受信時間差として算出する。そして、算出された送受信時間差と、空間Sにおける位置特定信号S、S、S(S、S、・・・S)の伝搬速度との積を算出することにより、固定局14と話者3−1、3−2、・・・3−nとの距離(又は話者端末1−1、1−2、・・・1−n間の距離)が算出される。
このようにして、位置特定信号の発信時間と送信時間の送受信時間差によっても、話者3−1、3−2、・・・3−nの位置を特定できる。
【産業上の利用可能性】
【0147】
本発明は、複数の話者に対する音声処理を行う音声処理システムに広く適用できる。
【符号の説明】
【0148】
100、200音声処理システム
1−1、1−2、・・・1−n話者端末
11 音声入力部
13 移動局
14 固定局
15 信号送信部
17 信号送発信部
2 音声処理サーバー
21 音声信号受信部
23 信号処理部
231 処理切替部
233 音声信号処理部
25 話者位置特定部
27 グループ作成部
29 音声認識部
3−1、3−2、・・・3−n話者
51−1、51−2、・・・51−n 音声処理装置
511 音声入力部
512 移動局
513 話者位置特定部
514 グループ作成部
515 信号処理部
5151 処理切替部
5153 音声信号処理部
516 音声認識部
517 情報送受信部
A1、A2、A3、A4 音声信号
E1、E2 音声エネルギー
Gr1、Gr2、Gr3、Gr4 グループ
P1、P2、P3 受信強度
S 空間
SS−1、SS−2、・・・SS−N 小領域
T 時間間隔
a’ 入力端子
a1、a2、・・・an 入力端子
b’ 第1出力端子
b1、b2、・・・bn 第1出力端子
c’ 第2出力端子
c1、c2、・・・cn 第2出力端子
図1
図2A
図2B
図2C
図3
図4A
図4B
図4C
図4D
図4E
図4F
図5A
図5B
図6
図7A
図7B
図8
図9
図10A
図10B
図11
図12
図13