特開2015-118247 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 村田機械株式会社の特許一覧

特開2015-118247音声処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4A
4B
4C
4D
4E
4F
5A
5B
6
7A
7B
8
9
10A
10B
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2015-118247(P2015-118247A)

(43)【公開日】2015年6月25日

(54)【発明の名称】音声処理システム

(51)【国際特許分類】

G10L 15/20 20060101AFI20150529BHJP

G10L 15/28 20130101ALI20150529BHJP

G10L 21/028 20130101ALI20150529BHJP

【ＦＩ】

G10L15/20 370Z

G10L15/28 400

G10L21/028 B

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

【全頁数】35

(21)【出願番号】特願2013-261420(P2013-261420)

(22)【出願日】2013年12月18日

(71)【出願人】

【識別番号】000006297

【氏名又は名称】村田機械株式会社

(74)【代理人】

【識別番号】110000202

【氏名又は名称】新樹グローバル・アイピー特許業務法人

(72)【発明者】

【氏名】傳田遊亀

(57)【要約】（修正有）

【課題】音声処理システムにおける音声処理の実行負荷の上昇を抑制する。
【解決手段】音声処理装置５１−１は、音声入力部５１１と、話者位置特定部５１３と、グループ作成部５１４と、信号処理部５１５と、音声認識部５１６と、を備える。音声入力部５１１は、各話者の音声に基づいた音声信号をそれぞれ入力する。話者位置特定部５１３は、各話者の位置を特定する。グループ作成部５１４は、複数の話者のうち、所定の範囲内に位置する複数の話者を１つのグループとして選択する。信号処理部５１５は、グループ内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。音声認識部５１６は、信号処理の結果に基づいて音声信号に対して音声認識処理を行う。
【選択図】図１２

【特許請求の範囲】

【請求項1】

複数の話者に対する音声処理を行うためのシステムであって、
各話者の音声に基づいた音声信号をそれぞれ入力する複数の音声入力部と、
各話者の位置を特定する話者位置特定部と、
前記複数の話者のうち、所定の範囲内に位置する複数の話者を１つのグループとして選択するグループ作成部と、
前記グループ内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う信号処理部と、
前記信号処理の結果に基づいて音声信号に対して音声認識処理を行う音声認識部と、
を備える音声処理システム。

【請求項2】

前記複数の話者が存在する空間の所定の位置に取り付けられ、位置特定信号を発信する固定局と、
前記複数の話者にそれぞれ装着され、前記位置特定信号を受信する複数の移動局と、をさらに備え、
前記話者位置特定部は、前記複数の移動局において受信する前記位置特定信号に基づいて、各話者の位置を特定する、請求項１に記載の音声処理システム。

【請求項3】

前記複数の話者にそれぞれ装着され、前記位置特定信号を発信する複数の移動局と、
前記複数の話者が存在する空間の所定の位置に取り付けられ、前記複数の前記移動局から送信される複数の前記位置特定信号を受信する固定局と、
前記話者位置特定部は、前記固定局において受信する前記複数の位置特定信号に基づいて、各話者の位置を特定する、請求項１に記載の音声処理システム。

【請求項4】

前記複数の話者にそれぞれ装着され、位置特定信号を受信及び送信する複数の信号送発信部をさらに備え、
前記話者位置特定部は、他の前記信号送発信部から発信された前記位置特定信号に基づいて、各話者の位置を特定する、請求項１に記載の音声処理システム。

【請求項5】

前記信号処理部は、前記信号処理として、前記グループ内の複数の話者の音声信号を互いに分離する音声分離処理を行う、請求項１〜４のいずれかに記載の音声処理システム。

【請求項6】

前記信号処理部は、前記信号処理として、前記グループ内の複数の話者の音声信号に基づいて発話検出処理を行うことで、音声認識処理の対象となる音声入力部を特定する、請求項１〜５のいずれかに記載の音声処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数の話者に対する音声処理を行う音声処理システムに関する。

【背景技術】

【0002】

従来、他の話者の音声など他の音信号が含まれる音声信号から、音声認識を行うべき話者の音声信号を選択する技術が知られている。

【0003】

例えば、特許文献１には、複数搭乗者による同時発話に対しても計算量の増加を招かずに各々の発話を理解でき、装置側から誰の発話であるかを認識し、詳細な制御が行えるようにする複数搭乗者機器用の音声制御装置が開示されている。
この音声制御装置では、まず、ｎ個の音声入力部からの音声入力を発話者推定部にて受理して音声入力を行った発話者の位置を推定し、推定された発話者位置情報を用いて発話者位置の近傍の音声を重点的に取り込むように音声入力部を制御する。そして、音声理解部が、発話者推定部を通じて得られる発話者の音声信号を解析し、発話内容を理解する。さらに、制御部が、音声理解部での音声理解結果及び発話者位置情報をもとに適切な制御を行う。

【0004】

また、特許文献２には、重畳量決定部と、軽減信号重畳部と、を備えることを特徴とする妨害軽減装置が開示されている。この妨害軽減装置では、重畳量決定部が、音声を認識するときに妨害となる妨害成分に基づき、音声に重畳することにより音声の認識において妨害成分の影響を軽減する軽減信号を求める。軽減信号重畳部が、音声に軽減信号を重畳する。
これにより、妨害信号の存在する音声を人間が視聴する際に目的音声を聞き取りやすくできる。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００１−１３９９４号公報

【特許文献2】国際公開第２００７／０８０８８６号

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上記の音声制御装置及び妨害軽減装置においては、認識すべき話者と他の話者（あるいは妨害音の発生源）の位置関係とは無関係に、目的音声を選択する処理を行っている。すなわち、入力された音声信号に、他の話者の音声又は妨害音が混入していない、あるいは、混入していても無視できる程度に小さい場合においても、目的音声を選択する処理が行われている。
その結果、これらの装置では、音声信号の処理の無駄が大きい。このような無駄な処理は、上記の音声制御装置及び妨害軽減装置のような音声処理システムにおいては、音声処理システムの音声処理のための処理負荷を高めることになる。

【0007】

本発明の課題は、複数の話者に対して音声処理を実行するに際し、音声処理システムにおける音声処理の実行負荷を抑制することにある。

【課題を解決するための手段】

【0008】

以下に、課題を解決するための手段として複数の態様を説明する。これら態様は、必要に応じて任意に組み合せることができる。
本発明の一見地に係る音声処理システムは、複数の話者に対する音声処理を行うためのシステムである。音声処理システムは、音声入力部と、話者位置特定部と、グループ作成部と、信号処理部と、音声認識部と、を備える。
音声入力部は、各話者の音声に基づいた音声信号をそれぞれ入力する。話者位置特定部は、各話者の位置を特定する。グループ作成部は、複数の話者のうち、所定の範囲内に位置する複数の話者を１つのグループとして選択する。信号処理部は、グループ内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。音声認識部は、信号処理の結果に基づいて音声信号に対して音声認識処理を行う。

【0009】

この音声処理システムでは、まず、話者位置特定部が、各話者の位置を特定する。そして、グループ作成部が、所定の範囲内に位置する複数の話者を１つのグループとして選択する。その後、音声入力部が話者からの音声に基づいて音声信号を出力すると、信号処理部が、グループ内の選択された複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。そして、音声認識部が、信号処理部における信号処理結果に基づいて、音声信号に対して音声認識処理を行う。
このように、信号処理部が、音声の混信が生じる可能性がある話者（所定の範囲内に位置する複数の話者）の音声信号に対して、音声混信を解消するための信号処理を行う。つまり、グループとして選択されなかった話者の音声信号には信号処理が行われないので、その結果、音声処理システムにおける音声処理の実行負荷を抑制できる。

【0010】

音声処理システムは、固定局と、複数の移動局と、をさらに備えていてもよい。固定局は、複数の話者が存在する空間の所定の位置に取り付けられている。また、固定局は、位置特定信号を発信する。移動局は、複数の話者にそれぞれ装着されている。また、移動局は、位置特定信号を受信する。
このとき、話者位置特定部は、複数の移動局において受信する位置特定信号に基づいて、各話者の位置を特定してもよい。
移動局において受信した位置特定信号に基づいて、話者の位置を特定することにより、話者の位置を精度良く特定できる。その結果、グループ作成部は、各話者の位置に基づいて、１つのグループに所属する複数の話者を適切に選択できる。

【0011】

音声処理システムは、固定局と、複数の移動局と、をさらに備えていてもよい。移動局は、複数の話者にそれぞれ装着されている。また、移動局は、位置特定信号を発信する。固定局は、複数の話者が存在する空間の所定の位置に取り付けられている。また、固定局は、複数の移動局から送信される複数の位置特定信号を受信する。
このとき、話者位置特定部は、固定局において受信する複数の位置特定信号に基づいて、各話者の位置を特定してもよい。
複数の移動局から発信され、固定局におけて受信された複数の位置特定信号に基づいて、話者の位置を特定することにより、話者の位置を精度良く特定できる。その結果、グループ作成部は、各話者の位置に基づいて、１つのグループに所属する複数の話者を適切に選択できる。

【0012】

音声処理システムは、複数の信号送発信部をさらに備えていてもよい。信号送発信部は、複数の話者にそれぞれ装着されている。また、信号送発信部は、位置特定信号を受信及び送信する。
このとき、話者位置特定部は、他の信号送発信部から発信された位置特定信号に基づいて、各話者の位置を特定してもよい。
信号送発信部が位置特定信号を発信することにより、他の話者に対して自分の位置を知らせることができる。そして、信号送発信部が他の信号送発信部からの位置特定信号を受信し、話者位置特定部が受信した位置特定信号に基づいて各話者の位置を特定することにより、精度良く各話者の位置を特定できる。その結果、グループ作成部は、各話者の位置に基づいて、１つのグループに所属する複数の話者（信号処理対象となる話者）を適切に選択できる。
さらに、信号送発信部が位置特定信号を発信し受信することにより、他の信号受信装置又は信号発信装置を必要とすることなく、各話者の位置を精度良く特定できる。

【0013】

信号処理部は、信号処理として、音声分離処理を行ってもよい。音声分離処理とは、グループ内の複数の話者の音声信号を互いに分離する処理のことをいう。
信号処理部が、複数の話者の音声信号を分離する処理（音声分離処理）を行うことにより、グループ内の複数の話者が同時に発話した場合であっても、それぞれの話者の発話を適切に選別できる。その結果、複数の話者が同時に発話した場合であっても、音声認識部は、それぞれの話者の発話の音声認識処理を実行できる。

【0014】

信号処理部は、信号処理として、発話検出処理を行うことで、音声認識処理の対象となる音声入力部を特定してもよい。ここで、発話検出処理とは、グループ内の複数の話者の音声信号に基づいて行われる処理のことをいう。
信号処理部が発話検出処理を行い音声認識処理の対象となる音声入力部を特定することにより、音声認識処理をすべき音声信号を適切に特定できる。その結果、音声認識部における音声認識処理による処理負荷が抑制される。

【発明の効果】

【0015】

音声処理を行うべき音声信号を適切に選択し、音声処理システムにおける音声処理の実行負荷を抑制できる。

【図面の簡単な説明】

【0016】

【図1】第１実施形態に係る音声処理システムの全体構成を示す図

【図2A】移動局を有する話者端末の構成を示す図

【図2B】固定局と移動局を用いて話者の位置を特定する様子を示す図

【図2C】信号送発信部を有する話者端末の構成を示す図

【図3】音声処理サーバーの構成を示す図

【図4A】音声処理システムの基本動作を示すフローチャート

【図4B】話者端末に移動局を、話者の存在する空間に固定局を備えた、音声処理システムにおける話者の位置特定方法を示すフローチャート

【図4C】話者端末に信号送発信部を備えた音声処理システムにおける話者の位置特定方法を示すフローチャート

【図4D】話者のグループへの割り当て方法の一例を示すフローチャート

【図4E】音声エネルギーに基づく発話検出処理動作を示すフローチャート

【図4F】発話タイミングに基づく発話検出処理動作を示すフローチャート

【図5A】特定された話者の位置の一例を示す図

【図5B】複数の話者のグループへの割り当ての一例を示す図

【図6】話者が存在する空間を小領域に分割した一例を示す図

【図7A】小領域における受信強度分布の一例を示す図

【図7B】小領域における受信強度分布の一例を示す図

【図8】２つの小領域の尤度を比較した結果を示す図

【図9】話者間の距離が所定の範囲内であるかどうかを示す対応表の一例を示す図

【図10A】音声エネルギーに基づく発話検出処理動作を模式的に示す図

【図10B】発話タイミングに基づく発話検出処理動作を模式的に示す図

【図11】第２実施形態に係る音声処理システムの全体構成を示す図

【図12】音声処理装置の構成を示す図

【図13】音声分離処理方法を模式的に示す図

【発明を実施するための形態】

【0017】

（１）第１実施形態
１．全体構成
まず、第１実施形態に係る音声処理システム１００について、図１を参照しながら説明する。図１は、第１実施形態に係る音声処理システム１００の全体構成を示す図である。音声処理システム１００は、複数の話者の音声信号を一括して受信する音声処理サーバーにて音声信号処理を行うシステムである。
音声処理システム１００は、複数の話者端末１−１、１−２、１−３、・・・１−ｎと、音声処理サーバー２と、を備える。

【0018】

話者端末１−１、１−２、１−３、・・・１−ｎは、それぞれ、話者３−１、３−２、３−３、・・・３−ｎに装着されている。話者端末１−１、１−２、１−３、・・・１−ｎは、それぞれ、話者３−１、３−２、３−３、・・・３−ｎの発話を音声信号に変換する。また、話者端末１−１、１−２、１−３、・・・１−ｎは、それぞれ、位置特定信号（後述）を受信する。
本実施形態において、話者端末１−１、１−２、１−３、・・・１−ｎは、話者３−１、３−２、３−３、・・・３−ｎにおける位置特定信号の受信強度を算出している。
そして、話者端末１−１、１−２、１−３、・・・１−ｎは、変換された音声信号（図２Ａ及び図２Ｃ）及び受信強度情報（図２Ａ及び図２Ｃ）を、音声処理サーバー２（後述）へ送信する。ここで、受信強度情報とは、位置特定信号の受信強度に関する情報のことを言う。

【0019】

音声処理サーバー２は、話者端末１−１、１−２、１−３、・・・１−ｎと信号送受信可能となっている。これにより、音声処理サーバー２は、話者端末１−１、１−２、１−３、・・・１−ｎから送信される音声信号と受信強度情報とを受信する。
音声処理サーバー２は、受信したそれぞれの受信強度情報に基づいて、話者３−１、３−２、３−３、・・・３−ｎのそれぞれの位置を特定し、所定の範囲内に位置する複数の話者を１つのグループとして選択する。

【0020】

そして、音声処理サーバー２は、受信した複数の音声信号に対して、必要に応じて信号処理を行う。具体的には、音声処理サーバー２は、上記グループ内の話者の音声信号に対しては、信号処理を行った後、音声認識処理を行う。一方、音声処理サーバー２は、その他の（孤立した）話者の音声信号に対しては、信号処理を行わず音声認識処理を行う。
本実施形態において、グループ内の話者の音声信号に対して行われる信号処理は、発話検出処理である。発話検出処理とは、音声処理サーバー２において実行する音声認識処理の対象となる音声信号を選択する信号処理のことを言う。

【0021】

このように、音声処理サーバー２は、特定の範囲内に位置する（グループ内の）複数の話者を選択し、選択された話者の音声信号に対して発話検出処理を行っている。なぜなら、グループ内の話者の発話による音声信号には、当該グループ内の他の話者の発話による音声信号が雑音として含まれる場合があるからである。そして、特定の話者の音声信号に対して音声認識を行うためには、特定の話者の音声信号を適切に選択する必要があるからである。
一方、グループに属さない孤立した話者の音声信号に対しては、発話検出処理が行われない。なぜなら、孤立した話者の発話による音声信号には、他の話者の発話に基づく音声信号が雑音として含まれていない、又は、含まれていても無視できる程度に小さいからである。そして、孤立した話者の発話による音声信号については、特定の話者の音声信号を適切に選択する必要がないからである。

【0022】

このように、音声処理サーバー２がグループ内の話者の音声信号に対してのみ発話検出処理（信号処理）を実行することにより、音声処理サーバー２において実行される音声処理の負荷の上昇を抑制できる。

【0023】

以下、第１実施形態に係る音声処理システム１００の話者端末１−１、１−２、１−３、・・・１−ｎ及び音声処理サーバー２の構成について、詳しく説明する。

【0024】

２．話者端末の構成
次に、第１実施形態に係る音声処理システム１００の話者端末１−１、１−２、１−３、・・・１−ｎの構成について、図２Ａ〜図２Ｃを用いて説明する。図２Ａは、移動局を有する話者端末の構成を示す図である。図２Ｂは、固定局と移動局を用いて話者の位置を特定する様子を示す図である。図２Ｃは、信号送発信部を有する話者端末の構成を示す図である。ここでは、話者３−１に装着されている話者端末１−１の構成を例にとって説明する。なぜなら、他の話者端末１−２、１−３、・・・１−ｎも、話者端末１−１と同じ構成を有しているからである。

【0025】

話者端末１−１は、音声入力部１１と、移動局１３と、信号送信部１５と、を有する。
音声入力部１１は、信号送信部１５と信号送受信可能となっている。なお、音声入力部１１と信号送信部１５は、電気ケーブルなどで接続され、有線にて信号送受信可能となっていてもよい。または、音声入力部１１と信号送信部１５は、無線にて信号送受信可能となっていてもよい。

【0026】

音声入力部１１は、話者端末１−１が装着された話者３−１の音声に基づいた音声信号を入力する。そして、当該音声信号を信号送信部１５に送信する。なお、「話者の音声に基づいた音声信号」は、話者３−１の音声のみによる音声信号のみでなく、他の話者からの音声なども雑音として含んだ音声による音声信号も含む。
音声入力部１１としては、例えば、マイクロフォンを用いることができる。

【0027】

移動局１３は、信号送信部１５と、有線にて又は無線にて、信号送受信可能となっている。移動局１３は、複数の固定局１４（図２Ｂ）から発信される位置特定信号（後述）を受信する。
固定局１４は、図２Ｂに示すように、話者が存在する空間Ｓの所定の位置（本実施形態では、紙面左上方、右上方、及び右下方の３カ所）に取り付けられている。固定局１４は、それぞれから、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３を発信する。位置特定信号とは、話者の位置を特定するために使用される信号のことを言う。

【0028】

位置特定信号としては、例えば、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）において用いられている電波信号などを用いることができる。この場合、移動局１３としては、無線ＬＡＮにおいて用いられる無線電波受信装置を用いることができる。無線電波受信装置としては、例えば、無線ＬＡＮ子機などを用いることができる。
固定局１４としては、無線ＬＡＮにおいて用いられる無線電波送信装置を用いることができる。無線電波送信装置としては、例えば、無線ＬＡＮのＡＰ（ＡｃｃｅｓｓＰｏｉｎｔ）として動作する無線ＬＡＮ親機など（無線ＬＡＮルータなど）を用いることができる。

【0029】

本実施形態において、移動局１３と固定局１４とを用いた話者の位置の特定は、固定局１４から発信された位置特定信号Ｓ_１、Ｓ_２、Ｓ_３を、移動局１３において受信したときの受信強度に基づいて行われる。移動局１３と固定局１４を用いた話者の位置の特定方法については、後ほど詳しく説明する。

【0030】

信号送信部１５は、音声入力部１１及び移動局１３と信号送受信可能となっている。そして、信号送信部１５は、音声入力部１１から受信した音声信号と、移動局１３から受信した受信強度情報を、音声処理サーバー２へ送信する。
なお、信号送信部１５と音声処理サーバー２との信号のやりとりは、無線ＬＡＮ又はｂｌｕｅｔｏｏｔｈ（登録商標）などによる無線通信を用いて行うことができる。そのため、信号送信部１５としては、無線ＬＡＮ又はｂｌｕｅｔｏｏｔｈなどにおいて用いられる無線信号を送信するための無線信号発生装置を用いることができる。

【0031】

なお、話者端末１−１の変形例として、図２Ｃに示すように、上記の話者端末１−１の移動局１３に代えて、信号送発信部１７を有した話者端末１−１を用いることもできる。
この場合、信号送発信部１７は、位置特定信号の受信のみでなく、位置特定信号の送信も行う。これにより、信号送発信部１７は、他の話者端末１−２、１−３、・・・１−ｎの信号送発信部１７と互いに通信可能となる。そして、信号送発信部１７は、本実施形態においては、他の話者端末１−２、１−３、・・・１−ｎのそれぞれから受信した位置特定信号の受信強度に基づいて、話者３−１と他の話者３−２、３−３、・・・３−ｎとの位置関係を特定できる（すなわち、各話者の位置を特定できる）。
信号送発信部１７としては、無線ＬＡＮ、ｂｌｕｅｔｏｏｔｈ、又は赤外線通信などにおいて用いられる、電波又は光信号を送受信可能な機器を用いることができる。

【0032】

なお、信号送発信部１７を有する話者端末１−１においては、移動局１３を有する上述の話者端末１−１の場合とは異なり、固定局１４を必要としない。なぜなら、信号送発信部１７が、位置特定信号の受信と同時に送信も可能であるからである。
このように、信号送発信部１７を有する話者端末１−１においては、固定局などの外部の機器を必要とすることなく精度良く話者の位置を特定できる。

【0033】

３．音声処理サーバーの構成
次に、第１実施形態に係る音声処理システム１００の音声処理サーバー２の構成について、図３を用いて説明する。図３は、音声処理サーバーの構成を示す図である。音声処理サーバー２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、記憶部（ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び／又は、ハードディスク又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの記憶装置）と、各種インターフェースなど、とを備えるコンピュータである。以下に示す、音声処理サーバー２の各要素の一部又は全部は、音声処理サーバー２の記憶部に記憶されたプログラムにより実現されていてもよく、カスタムＩＣなどにより実現されていてもよい。
音声処理サーバー２は、音声信号受信部２１と、信号処理部２３と、話者位置特定部２５と、グループ作成部２７と、音声認識部２９と、を有する。

【0034】

音声信号受信部２１は、信号処理部２３と信号送受信可能に接続されている。音声信号受信部２１は、話者端末１−１、１−２、１−３、・・・１−ｎから送信された音声信号を受信し、信号処理部２３に送信する。音声信号受信部２１としては、無線ＬＡＮやｂｌｕｅｔｏｏｔｈなどにおいて用いられる無線信号を受信する無線信号受信装置を用いることができる。
なお、音声信号受信部２１は、話者端末１−１、１−２、１−３、・・・１−ｎのそれぞれに対応する、ｎ個の無線信号受信装置により構成されていてもよく、ｎより少ない個数（例えば、１つ）の無線信号受信装置により構成されていてもよい。

【0035】

音声信号受信部２１がｎより少ない個数の無線信号受信装置により構成されている場合、話者端末１−１、１−２、１−３、・・・１−ｎから送信される音声信号には、例えば、話者端末を識別するための識別信号（例えば、ＭＡＣ（ＭｅｄｉａＡｃｃｅｓｓＣｏｎｔｒｏｌ）アドレス、又は、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレス、など）を含めてもよい。この場合、音声信号受信部２１は、当該識別信号に基づき、受信した音声信号がどの話者端末から送信されてものであるかを識別できる。
そして、音声信号受信部２１は、当該識別信号に基づいて、信号処理部２３の処理切替部２３１（図３）のどの入力端子に受信した音声信号を送信すべきか決定し、決定された入力端子に受信した音声信号を送信する。

【0036】

信号処理部２３は、音声信号受信部２１と、グループ作成部２７（図３）と、音声認識部２９（図３）と、信号送受信可能に接続されている。信号処理部２３は、グループ作成部２７において作成されたグループ内の話者の音声信号に対して音声混信を解消するための信号処理（本実施形態においては、発話検出処理）を行う。信号処理部２３は、発話検出処理を行った後、発話検出処理により選択された音声信号を、音声認識部２９へ出力する。
一方、信号処理部２３は、グループ作成部２７において選択されていない話者、すなわち、いずれのグループにも属さない孤立した話者の音声信号に対しては、発話検出処理（信号処理）を行なわずに、受信した音声信号を音声認識部２９に出力する。このように、グループとして選択されなかった話者の音声信号には信号処理が行われないので、その結果、音声処理システムにおける音声処理の負荷を抑制できる。
なお、信号処理部２３の構成については、後ほど詳しく説明する。

【0037】

話者位置特定部２５は、各話者３−１、３−２、・・・３−ｎのそれぞれに装着された話者端末１−１、１−２、・・・１−ｎから送信される受信強度情報を受信する。そして、話者位置特定部２５は、受信した受信強度情報に基づいて、各話者３−１、３−２、・・・３−ｎの位置を特定する。
また、話者位置特定部２５は、グループ作成部２７に信号送受信可能に接続されている。従って、話者位置特定部２５は、特定した各話者３−１、３−２、・・・３−ｎの位置に関する情報を、位置特定情報としてグループ作成部２７に出力する。
なお、話者位置特定部２５は、話者端末１−１、１−２、・・・１−ｎから送信された受信強度情報を受信するため、無線ＬＡＮ又はｂｌｕｅｔｏｏｔｈなどにおいて用いられている無線信号を受信する機能を有している。従って、話者位置特定部２５は、その一部が無線信号を受信する無線信号受信装置などにより構成されている。

【0038】

グループ作成部２７は、話者位置特定部２５と信号送受信可能に接続されている。そのため、グループ作成部２７は、話者位置特定部２５から送信された位置特定情報を受信する。そして、グループ作成部２７は、位置特定情報に基づいて、所定の範囲内に位置する複数の話者を１つのグループとして選択する。
具体的には、例えば、グループ作成部２７は、ある話者（話者３−１とする）の位置と他の話者の位置とを、位置特定情報から抽出し、話者３−１と他の話者それぞれとの間の距離を逐次算出する。そして、当該算出された距離が所定の値以下となった場合に、話者３−１と他の話者とが同一グループ内に存在するものと判断する。

【0039】

また、グループ作成部２７は、信号処理部２３と信号送受信可能に接続されている。このため、グループ作成部２７は、上記の話者選択結果を、話者選択結果情報として信号処理部２３に出力できる。

【0040】

音声認識部２９は、信号処理部２３と信号送受信可能に接続されている。従って、音声認識部２９は、信号処理部２３から出力された音声信号を受信し、受信した音声信号に対して音声認識処理を行う。音声認識部２９において受信される音声信号は、信号処理部２３において実行される発話検出処理により選択された音声信号と、発話検出処理されなかった音声信号である。
このように、信号処理部２３にて発話検出処理された音声信号に対しては、発話検出処理により選択された音声信号のみが、音声認識部２９にて音声認識処理される。よって、全ての音声信号に対して音声認識処理を行う場合と比較して、音声処理サーバー２の計算負荷を軽減できる。

【0041】

なお、音声認識部２９は、話者３−１、３−２、・・・３−ｎの数（ｎ）の音声認識モジュール（図示せず）を実行可能となっていてもよく、話者３−１、３−２、・・・３−ｎの数よりも少ない音声認識モジュールを実行可能となっていてもよい。
ｎよりも少ない個数の音声認識モジュールを実行可能な場合であって、実行可能な音声モジュールの数よりも多くの音声信号が入力された場合、音声認識部２９は、タイムシェア処理などにより、入力された音声信号を音声認識処理が終了したモジュールに逐次入力していく。
音声認識部２９が実行可能な音声認識モジュールの数は、音声処理サーバー２の信号処理能力、及び／又は、音声処理すべき話者の人数などに応じて適宜決定できる。

【0042】

３−１．信号処理部の詳細構成
次に、音声処理サーバー２の信号処理部２３の詳細構成について、図３を用いて説明する。
信号処理部２３は、処理切替部２３１と、音声信号処理部２３３と、を有する。
処理切替部２３１は、音声信号受信部２１と信号送受信可能に接続されている。従って、処理切替部２３１は、音声信号受信部２１から音声信号を受信できる。また、処理切替部２３１は、音声信号処理部２３３（後述）と信号送受信可能に接続されている。従って、処理切替部２３１は、音声信号処理部２３３に音声信号を出力できる。さらに、処理切替部２３１は、音声認識部２９と信号送受信可能に接続されている。従って、処理切替部２３１は、音声認識部２９に音声信号を出力できる。

【0043】

処理切替部２３１は、入力端子ａ１、ａ２、・・・ａｎと、第１出力端子ｂ１、ｂ２、・・・ｂｎと、第２出力端子ｃ１、ｃ２、・・・ｃｎと、を有する。入力端子ａ１、ａ２、・・・ａｎは、音声信号受信部２１と接続されている。そのため、入力端子ａ１、ａ２、・・・ａｎには、音声信号受信部２１が受信した、話者端末１−１、１−２、・・・１−ｎそれぞれからの音声信号が入力される。
第１出力端子ｂ１、ｂ２、・・・ｂｎは、音声認識部２９と接続されている。このため、第１出力端子ｂ１、ｂ２、・・・ｂｎからは、話者端末１−１、１−２、・・・１−ｎそれぞれからの音声信号が、音声認識部２９に送信される。
第２出力端子ｃ１、ｃ２、・・・ｃｎは、音声信号処理部２３３と接続されている。このため、第２出力端子ｃ１、ｃ２、・・・ｃｎからは、話者端末１−１、１−２、・・・１−ｎそれぞれからの音声信号が、音声信号処理部２３３に送信される。

【0044】

また、処理切替部２３１は、グループ作成部２７から出力される話者選択結果情報に基づいて、入力端子ａ１、ａ２、・・・ａｎを、それぞれ、第１出力端子ｂ１、ｂ２、・・・ｂｎに接続するか、又は、第２出力端子ｃ１、ｃ２、・・・ｃｎに接続する。これにより、処理切替部２３１は、話者選択結果情報に基づいて、音声信号を音声認識部２９へ直接入力するか、音声信号処理部２３３に入力するかを選択できる。

【0045】

上記の端子の接続先の決定方法を具体的に説明するため、例えば、話者選択結果情報において、話者３−ｋがグループ内の話者であり、話者３−ｍが孤立した話者（グループに属しない話者）であるとされている場合を考える。
処理切替部２３１は、上記の話者選択結果情報に基づき、話者端末１−ｋ（話者３−ｋに装着）から受信した音声信号が入力された入力端子ａｋを、対応する第２出力端子ｃｋに接続する。一方、処理切替部２３１は、話者端末１−ｍ（話者３−ｍに装着）から受信した音声信号が入力された入力端子ａｍを、対応する第１出力端子ｂｍに接続する。
他の入力端子に対しても、上記と同様にして、第１出力端子に接続するか第２出力端子に接続するかが決定される。
これにより、グループに属する話者の音声信号は、音声信号処理部２３３に入力される。一方、孤立した話者の音声信号は、音声認識部２９に入力される。

【0046】

このように、グループ内の話者の音声信号を音声信号処理部２３３に入力し、孤立した話者の音声信号を直接音声認識部２９に入力することにより、グループ内の話者に対しては音声信号処理部２３３において発話検出処理を行い、孤立した話者の音声信号に対しては発話検出処理を行わないと決定できる。これにより、話者３−１、３−２、・・・３−ｎの音声信号に対して、不必要な発話検出処理（信号処理）を抑制できる。

【0047】

音声信号処理部２３３は、処理切替部２３１の第２出力端子ｃ１、ｃ２、・・・ｃｎから出力された音声信号に対して、信号処理を行う。上記のように、本実施形態において音声信号処理部２３３において行われる信号処理は、発話検出処理である。発話検出処理を行うことにより、音声信号処理部２３３は、入力された音声信号について、どの音声信号を音声認識部２９における音声認識処理の対象とするかを適切に選択できる。その結果、音声認識部２９が不必要に音声認識処理を行うことを抑制できる。これにより、音声認識部２９における音声認識処理による処理負荷の上昇を抑制できる。

【0048】

なお、音声信号処理部２３３は、話者３−１、３−２、・・・３−ｎの数（ｎ）の発話検出モジュール（図示せず）を実行可能となっていてもよく、話者３−１、３−２、・・・３−ｎの数よりも少ない発話検出モジュールを実行可能となっていてもよい。
ｎよりも少ない個数の発話検出モジュールを実行可能な場合であって、実行可能な発話検出モジュールの数よりも多くの音声信号が入力された場合、音声信号処理部２３３は、タイムシェア処理などにより、入力された音声信号を発話検出処理が終了したモジュールに逐次入力していく。
音声信号処理部２３３が実行可能な発話検出モジュールの数は、音声処理サーバー２の信号処理能力、及び／又は、音声処理すべき話者の人数などに応じて適宜決定できる。

【0049】

４．音声処理システムの動作
４−１．音声処理システムの基本動作
次に、音声処理システム１００の動作について説明する。まず、音声処理システム１００の基本動作について図４Ａを用いて説明する。図４Ａは、音声処理システム１００の基本動作を示すフローチャートである。
音声処理システム１００が音声処理を開始すると、まず、音声処理サーバー２の話者位置特定部２５が、複数の話者の現在位置を特定する（ステップＳ１）。そして、話者位置特定部２５は、複数の話者の現在位置の特定結果を、位置特定結果情報として出力する。
今、話者位置特定部２５が、例えば、話者が存在する空間Ｓにおいて、話者３−１、３−２、・・・３−１２（すなわち、ｎ＝１２）の位置を図５Ａに示すように特定したとする。図５Ａは、特定された話者の位置の一例を示す図である。
なお、音声処理システム１００における複数の話者の現在位置の特定方法は、後ほど説明する。

【0050】

ステップＳ１において話者位置特定部２５が話者の現在位置を特定した後、グループ作成部２７が、上記の位置特定情報に基づいて、所定の範囲内に位置する複数の話者を１つのグループとして選択する（ステップＳ２）。そして、グループ作成部２７は、複数の話者のグループへの割り当て結果を、話者選択結果情報として出力する。

【0051】

図５Ａに示すような話者の位置関係において、グループ作成部２７は、図５Ｂに示すように、グループＧｒ１〜Ｇｒ４を作成する。図５Ｂは、複数の話者のグループへの割り当ての一例を示す図である。
この場合、グループ作成部２７は、図５Ｂの空間Ｓに存在する話者３−１、３−２、・・・３−１２に対して、以下のようにグループへの割り当てを行う。
（ｉ）話者３−１、３−７、及び３−８は孤立した話者
（ｉｉ）グループＧｒ１：話者３−３及び３−４
（ｉｉｉ）グループＧｒ２：話者３−２、３−５、及び３−６
（ｉｖ）グループＧｒ３：話者３−６、３−９、３−１１、３−１２
（ｖ）グループＧｒ４：話者３−９〜３−１１

【0052】

なお、上記のように、話者３−６、３−９、及び３−１１は、２つのグループに属している。このように１の話者が複数のグループに属することになったとしても、グループ作成部２７は、１の話者が属する複数のグループを１つにまとめる処理は行わない。なぜなら、図５Ｂに示すような場合、３つのグループＧｒ２〜Ｇｒ４を１つのグループとした場合、例えば、話者３−５と話者３−１０は、所定の範囲外に存在しているにもかかわらず、同じグループに属するものとされてしまい、それは好ましくないためである。

【0053】

話者３−５と話者３−１０が同じグループに属するものとされた場合、話者３−５と話者３−１０とが、例えば、話者３−５に装着された話者端末１−５の音声入力部１１に話者３−１０の音声が混入しない程度に離れて存在しているにも関わらず、話者３−５からの音声信号と話者３−１０からの音声信号に対して、音声信号処理部２３３における信号処理（発話検出処理）が実行される。
この場合、話者端末１−５の音声入力部１１において、話者３−１０の音声はほとんど入力されないため、話者３−５からの音声信号と話者３−１０からの音声信号に対して行われる上記信号処理は、不必要な信号処理である。

【0054】

従って、グループ作成部２７が、１の話者が複数のグループに属する場合に、当該複数のグループを１つのグループにまとめる処理を行わないことにより、不必要に音声信号処理部２３３における信号処理が実行されることを抑制できる。
なお、グループ作成部２７による、複数の話者のグループへの割り当て方法については、後ほど詳しく説明する。

【0055】

ステップＳ２においては、グループ作成部２７が話者選択結果情報を出力後、信号処理部２３の処理切替部２３１が、出力された話者選択結果情報に基づき、処理切替部２３１の入力端子ａ１、ａ２、・・・ａｎを、第１出力端子ｂ１、ｂ２、・・・ｂｎに接続するか、第２出力端子ｃ１、ｃ２、・・・ｃｎに接続するかを決定する。そして、処理切替部２３１は、入力端子ａ１、ａ２、・・・ａｎを、決定された出力端子に接続する。

【0056】

図５Ｂに示された話者３−１、３−２、・・・３−１２のグループ割り当てにおいては、話者３−１の音声信号が入力される入力端子ａ１、話者３−７の音声信号が入力される入力端子ａ７、及び、話者３−８の音声信号が入力される入力端子ａ８は、それぞれ、第１出力端子ｂ１、ｂ７、及びｂ８に接続される。
一方、残りの入力端子ａ２〜ａ６及びａ９〜ａ１２については、それぞれ、第２出力端子ｃ２〜ｃ６及びｃ９〜ｃ１２に接続される。

【0057】

ステップＳ２において所定の範囲内に位置する複数の話者を１つのグループとして選択後、話者位置特定部２５が、位置特定情報の更新時期であるかどうかを確認する（ステップＳ３）。位置特定情報の更新時期は、例えば、所定の周期時間毎とすることができる。
話者位置特定部２５が、位置特定情報の更新時期であると判断した場合（ステップＳ３において「Ｙｅｓ」の場合）、ステップＳ１及びＳ２を再び実行する。これにより、話者位置特定部２５が位置特定情報を更新する。そして、当該更新された位置特定情報に基づいて、グループ作成部２７が話者選択結果情報を更新する。これにより、話者が頻繁に移動している場合であっても、複数の話者のグループへの割り当てを適切に行える。
一方、話者位置特定部２５が、位置特定情報の更新時期でないと判断した場合（ステップＳ３において「Ｎｏ」の場合）、次のステップＳ４へ進む。

【0058】

ステップＳ４において、音声信号受信部２１は、音声信号を、音声入力部１１を介して受信するために待機する。音声信号受信部２１において音声信号が受信された場合（ステップＳ４において「Ｙｅｓ」の場合）、ステップＳ５に進む。
一方、音声信号受信部２１において音声信号が受信されない場合（ステップＳ４において「Ｎｏ」の場合）は、ステップＳ３に戻る。その結果、音声信号が音声信号受信部２１に受信されない間も、必要に応じて、グループ作成部２７が複数の話者のグループへの割り当てを更新できる。

【0059】

ステップＳ５において、音声信号は、信号処理部２３の処理切替部２３１を介して、音声信号処理部２３３又は音声認識部２９へ送信される。ここで、処理切替部２３１に入力された音声信号が、グループに属する話者の音声信号の場合（ステップＳ５において「Ｙｅｓ」の場合）、当該音声信号が入力された処理切替部２３１の入力端子ａ２〜ａ６及びａ９〜ａ１２は、それぞれ、第２出力端子ｃ２〜ｃ６及びｃ９〜ｃ１２に接続されているため、当該音声信号は音声信号処理部２３３に入力される。そして、ステップＳ６へと進む。

【0060】

一方、処理切替部２３１に入力された音声信号が、グループに属さない孤立した話者の音声信号の場合（ステップＳ５において「Ｎｏ」の場合）、当該音声信号が入力された処理切替部２３１の入力端子ａ１、ａ７、及びａ８は、それぞれ、第１出力端子ｂ１、ｂ７、及びｂ８に接続されているため、当該音声信号は音声認識部２９に入力される。そして、ステップＳ７へと進む。

【0061】

このように、音声処理システム１００においては、グループに属する話者の音声信号は音声信号処理部２３３に送信され、グループに属しない孤立した話者の音声信号は音声認識部２９に送信される。すなわち、信号処理（発話検出処理）が必要である所定の範囲内にある話者の音声信号と、信号処理を必要としない孤立した話者の音声信号とが、適切に選択されている。
これにより、音声処理システム１００においては、音声信号処理部２３３による信号処理（発話検出処理）を不必要に実行することを抑制できる。その結果、音声処理システム１００の音声処理の負荷が上昇することを抑制できる。

【0062】

ステップＳ６において、音声信号処理部２３３は、入力された音声信号に対して発話検出処理を実行する。
ここで、音声信号処理部２３３は、まず、入力された音声信号がどの話者の音声信号であるかを判定する。入力された音声信号がどの話者の音声信号であるかは、例えば、音声信号に含められた話者（話者端末）の識別情報に基づき、行うことができる。
次に、音声信号処理部２３３は、音声信号の上記識別情報と話者選択結果情報に基づいて、同一のグループ内の複数の話者の複数の音声信号を特定する。そして、音声信号処理部２３３は、当該特定された複数の音声信号に対して１の発話検出処理を実行することにより、同一グループ内の複数の話者の音声信号の内、どの音声信号を音声認識部２９へ送信するかを特定する。

【0063】

なお、音声信号処理部２３３において実行される発話検出処理数は、グループ作成部２７にて作成されたグループ数に対応する。従って、音声信号処理部２３３から出力される音声信号の数も、グループ作成部２７において作成されてグループ数に対応する数となる。すなわち、図５Ｂに示すような４つのグループＧｒ１〜Ｇｒ４が作成された場合は、音声信号処理部２３３から出力される音声信号の数は４となる。

【0064】

このように、音声信号処理部２３３が発話検出処理により音声認識処理すべき音声信号を選択することにより、音声認識部２９における音声認識処理対象の音声信号の数の上昇を抑制できる。その結果、音声認識部２９における音声認識処理の負荷を抑制できる。
なお、音声信号処理部２３３における発話検出処理については、後ほど詳しく説明する。ステップＳ６において、音声信号処理部２３３により音声認識部２９へ送信すべき音声信号を特定後、ステップＳ７へ進む。

【0065】

ステップＳ７において、音声認識部２９が、入力された音声信号に対して音声認識処理を実行する。上記のように、音声認識部２９に入力される音声信号は、処理切替部２３１の第１出力端子ｂ１、ｂ２、・・・ｂｎ（のいずれか）から出力された音声信号（すなわち、孤立した話者の音声信号）と、音声信号処理部２３３にて実行された発話検出処理により選択された音声信号（すなわち、グループ内の話者の音声信号の内、選択された話者の音声信号）である。
このように、音声認識部２９が適切に選択された音声信号に対して音声認識処理を実行することにより、音声認識部２９における音声認識処理による負荷を抑制できる。
ステップＳ７において、選択された音声信号に対して音声認識処理を実行後、音声処理システム１００は、音声処理を終了する。

【0066】

４−２．話者の位置特定方法
次に、図４Ａに示したステップＳ１における話者３−１、３−２、・・・３−ｎの位置特定方法について説明する。話者３−１、３−２、・・・３−ｎの位置特定方法として、（ｉ）移動局１３と固定局１４を用いた話者の位置特定方法、（ｉｉ）信号送発信部１７を用いた位置特定方法、がある。
以下、それぞれの方法について、図４Ｂ及び図４Ｃを用いて説明する。図４Ｂは、話者端末に移動局を、話者の存在する空間に固定局を備えた、音声処理システムにおける話者の位置特定方法を示すフローチャートである。図４Ｃは、話者端末に信号送発信部を備えた音声処理システムにおける話者の位置特定方法を示すフローチャートである。

【0067】

（ｉ）移動局と固定局を用いた話者の位置特定方法
図２Ａ及び図２Ｂに示したような移動局１３と固定局１４を用いた話者の位置特定方法においては、話者３−１、３−２、・・・３−ｎが存在する空間Ｓを所定の小領域に分割し、固定局１４から発信される位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれの、各小領域における受信強度に基づいて、話者３−１、３−２、・・・３−ｎの位置を特定する。
そのため、まず、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれの、空間Ｓの各小領域における受信強度を測定する（ステップＳ１１１）。このとき、各小領域における受信強度として、所定の受信強度の位置特定信号が受信される頻度（出現確率）と受信強度との関係を測定する。この所定の受信強度の位置特定信号が受信される頻度（出現確率）と受信強度との関係を、「受信強度分布」と呼ぶこともある。

【0068】

受信強度分布は、具体的には、次のようにして取得する。まず、各小領域において位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれの受信強度を、所定の周期で複数個測定する。次に、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれについて、位置特定の受信強度の最小値から最大値までの範囲において、各位置特定信号において所定の受信強度の位置特定信号が受信される頻度（出現確率）を算出する。
なお、固定局１４から発信される位置特定信号Ｓ_１、Ｓ_２、Ｓ_３の受信強度は、電波などの受信信号の強度を測定する装置を用いて測定してもよく、話者端末１−１、１−２、・・・、１−ｎのうちの１つを用いて測定してもよい。

【0069】

今、話者３−１、３−２、・・・３−ｎが存在する空間Ｓが、図６に示すように、小領域ＳＳ−１、ＳＳ−２、・・・、ＳＳ−Ｍ、・・・、ＳＳ−Ｌ、・・・、ＳＳ−Ｎに分割されているとする。図６は、話者が存在する空間を小領域に分割した一例を示す図である。そして、図６に示した「ＡＰ１」と名付けられた固定局１４から位置特定信号Ｓ_１が、「ＡＰ２」と名付けられた固定局１４から位置特定信号Ｓ_２が、「ＡＰ３」と名付けられた固定局１４から位置特定信号Ｓ_３が発信されているとする。

【0070】

図６において、小領域ＳＳ−Ｌは、「ＡＰ１」と名付けられた固定局１４からの距離が最も近く、「ＡＰ２」と名付けられた固定局１４からの距離と「ＡＰ３」と名付けられた固定局１４からの距離がほぼ等しい。従って、小領域ＳＳ−Ｌにおいては、図７Ａに示すような受信強度分布が取得される。
図７Ａ及び後述の図７Ｂにおいて、点線は「ＡＰ１」と名付けられた固定局１４からの受信強度分布を示すグラフであり、一点鎖線は「ＡＰ２」と名付けられた固定局１４からの受信強度分布を示すグラフであり、実線は「ＡＰ３」と名付けられた固定局１４からの受信強度分布を示すグラフである。
図７Ａ及び図７Ｂは、それぞれ、小領域ＳＳ−Ｌにおける受信強度分布の一例を示す図、及び、小領域ＳＳ−Ｍにおける受信強度分布の一例を示す図である。

【0071】

一方、「ＡＰ１」と名付けられた固定局１４からの距離＞「ＡＰ２」と名付けられた固定局１４からの距離＞「ＡＰ３」と名付けられた固定局１４からの距離、の順にて固定局からの距離が小さくなる小領域ＳＳ−Ｍにおいては、図７Ｂに示すような受信強度分布が取得される。

【0072】

すべての小領域ＳＳ−１、ＳＳ−２、・・・ＳＳ−Ｎにて上記の受信強度分布を取得後、取得した受信強度分布を音声処理サーバー２の記憶部などに記憶する。なお、上記の受信強度分布の取得は、音声処理システム１００の据え付け時に一度行えばよい。又は、音声処理システム１００の保守作業のときに、記憶された受信強度分布を更新するようにしてもよい。

【0073】

ステップＳ１１１において受信強度分布を取得後、話者３−１、３−２、・・・、３−ｎに装着された話者端末１−１、１−２、・・・１−ｎのそれぞれが、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３を受信する（ステップＳ１１２）。具体的には、話者端末１−１、１−２、・・・１−ｎのそれぞれに備わった移動局１３が、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３を受信する。そして、移動局１３が、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれの受信強度を信号送信部１５に出力する。
その後、信号送信部１５が、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれの受信強度を、受信強度情報として音声処理サーバー２へ送信する。

【0074】

ステップＳ１１２において位置特定信号Ｓ_１、Ｓ_２、Ｓ_３の受信強度を取得後、音声処理サーバー２の話者位置特定部２５が、受信した受信強度情報に基づき、話者３−１、３−２、・・・３−ｎの位置を特定する（ステップＳ１１３）。具体的には、以下のようにして、受信強度情報に基づいて話者３−１、３−２、・・・３−ｎの位置を特定する。
今、受信強度情報において、話者３−ｊに装着された話者端末１−ｊの移動局１３が、位置特定信号Ｓ_１を受信強度Ｐ１にて受信し、位置特定信号Ｓ_２を受信強度Ｐ２にて受信し、位置特定信号Ｓ_３を受信強度Ｐ３にて受信したと示されているとする。

【0075】

話者３−ｊの位置を特定するに際し、話者位置特定部２５は、まず、各小領域における、移動局１３にて受信した位置特定信号の受信強度と、上記の受信強度分布との類似度を表す尤度を算出する。
上記の尤度は、図７Ａ及び図７Ｂに示した受信強度分布における出現確率に対応する値である。従って、図７Ａに示した小領域ＳＳ−Ｌにおける受信強度分布においては、ＳＳ−Ｌにおいて位置特定信号Ｓ_１を受信強度Ｐ１にて受信する場合の尤度はｐ_１Ｌ、位置特定信号Ｓ_２を受信強度Ｐ２にて受信する出現確率はｐ_２Ｌ、位置特定信号Ｓ_３を受信強度Ｐ３にて受信する出現確率はｐ_３Ｌと算出される。

【0076】

一方、図７Ｂに示した小領域ＳＳ−Ｍにおける受信強度分布においては、小領域ＳＳ−Ｍにおいて位置特定信号Ｓ_１を受信強度Ｐ１にて受信する出現確率はｐ_１Ｍ（ほぼ０）、位置特定信号Ｓ_２を受信強度Ｐ２にて受信する出現確率はｐ_２Ｍ、位置特定信号Ｓ_３を受信強度Ｐ３にて受信する出現確率はｐ_３Ｍ（ほぼ０）と算出される。

【0077】

次に、話者位置特定部２５は、各小領域における上記の尤度の積を算出する。すなわち、話者位置特定部２５は、小領域ＳＳ−Ｌにおける尤度の積を、ｐ_１Ｌ×ｐ_２Ｌ×ｐ_３Ｌと算出し、小領域ＳＳ−Ｍにおける尤度の積をｐ_１Ｍ×ｐ_２Ｍ×ｐ_３Ｍと算出する。そして、話者位置特定部２５は、各小領域における尤度の積を比較し、上記の尤度の積が最大となった小領域を、話者３−ｊが存在する位置であると特定する。

【0078】

ここに示した例においては、図８からも分かるように、小領域ＳＳ−Ｌにおける尤度の積ｐ_１Ｌ×ｐ_２Ｌ×ｐ_３Ｌは、小領域ＳＳ−Ｍにおける尤度の積ｐ_１Ｍ×ｐ_２Ｍ×ｐ_３Ｍよりも大きい。図８は、小領域ＳＳ−Ｌ及び小領域ＳＳ−Ｍの尤度を比較した結果を示す図である。そして、全小領域の尤度を比較した結果、小領域ＳＳ−Ｌにおける尤度の積が最大である場合には、話者位置特定部２５は、話者３−ｊは小領域ＳＳ−Ｌに存在するものと特定する。
話者位置特定部２５が、全ての話者３−１、３−２、・・・３−ｎに対して位置の特定を行った後、話者位置特定部２５は、話者の位置特定結果を位置特定情報として出力する（ステップＳ１１４）。
このように、固定局１４から発信された位置特定信号の移動局１３における受信強度に基づいて、話者３−１、３−２、・・・３−ｎの位置を特定することにより、話者３−１、３−２、・・・３−ｎの位置を精度良く特定できる。その結果、グループ作成部２７は、各話者３−１、３−２、・・・３−ｎの位置に基づいて、１つのグループに所属する複数の話者を適切に選択できる。

【0079】

（ｉｉ）信号送発信部を用いた位置特定方法
次に、図２Ｂに示すような信号送発信部１７を備えた話者端末１−１、１−２、・・・１−ｎにおける、話者３−１、３−２、・・・３−ｎの位置特定方法を、図４Ｃを用いて説明する。
まず、話者端末１−１、１−２、・・・１−ｎのそれぞれの信号送発信部１７は、位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎを発信する（ステップＳ１２１）。なお、位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎには、それぞれの位置特定信号を送信した話者端末を特定するための識別信号が含まれていてもよい。または、位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの周波数など信号の特性を、各話者端末１−１、１−２、・・・１−ｎにて異ならせておいて、各位置特定信号がどの話者端末から送信されたものかを識別してもよい。

【0080】

次に、話者端末１−１、１−２、・・・１−ｎのそれぞれの信号送発信部１７は、他の話者端末から発信された位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎを受信する（ステップＳ１２２）。そして、他の話者から発信された位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの受信強度を、受信強度情報として信号送信部１５に送信する。さらに、信号送信部１５は、受信強度情報を音声処理サーバー２へ送信する。なお、受信強度情報には、当該受信強度情報の発信元の話者端末の識別情報が含まれていてもよい。

【0081】

音声処理サーバー２の話者位置特定部２５が、ステップＳ１２２にて送信された受信強度情報を受信すると、受信強度情報に示された位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの受信強度に基づいて、当該受信強度情報を送信してきた話者端末と他の話者端末との距離を算出する（ステップＳ１２３）。
当該話者端末間の距離は、例えば、予め分かっている位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの発信強度と、受信強度情報に示された位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの受信強度との比（すなわち、信号減衰値）に基づいて算出できる。

【0082】

ステップＳ１２３にて、全ての話者端末１−１、１−２、・・・１−ｎに対して他の話者端末との距離が算出された後、話者位置特定部２５は、話者端末間の距離を位置特定情報として出力する（ステップＳ１２４）。
なお、信号送発信部１７を用いた位置特定方法においては、ステップＳ１２３にて話者端末間の距離を算出できた時点にて、位置特定処理を終了する。なぜなら、後述するように、グループ作成部２７は、話者間の距離に基づいて、話者のグループへの割り当てを行うからである。

【0083】

上記の信号送発信部１７を用いた位置特定方法においては、信号送発信部１７が位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎを送信することにより、他の話者（他の話者端末）に対して自分（自分の話者端末）の位置を知らせることができる。
そして、信号送発信部１７が他の信号送発信部１７からの位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎを受信し、話者位置特定部２５が受信した位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの強度に基づいて各話者３−１、３−２、・・・３−ｎの位置（話者間の距離）を特定することにより、精度良く各話者３−１、３−２、・・・３−ｎの位置（話者間の距離）を特定できる。

【0084】

４−３．話者のグループへの割り当て方法
次に、図４ＡのステップＳ２における、話者３−１、３−２、・・・３−ｎのグループへの割り当て方法の一例について、図４Ｄを用いて説明する。図４Ｄは、話者のグループへの割り当て方法の一例を示すフローチャートである。まず、グループ作成部２７は、各話者３−１、３−２、・・・３−ｎと他の話者との距離を、位置特定情報を用いて算出する（ステップＳ２１）。

【0085】

このとき、グループ作成部２７は、最初に、話者３−１と他の話者３−２、３−３、・・・３−ｎとの距離を算出し、次に、話者３−２と他の話者３−３、３−４、・・・３−ｎとの距離を算出し、その後話者３−（ｎ−２）と他の話者との距離まで算出した後、最後に話者３−（ｎ−１）と話者３−ｎとの距離を算出する。
つまり、例えば、話者３−２と他の話者との距離を算出する際に、話者３−２と話者３−１との距離は算出しない。なぜなら、話者３−２と話者３−１はすでに（話者３−１と他の話者との距離を算出する時点にて）算出されているためである。そして、最後には、話者３−（ｎ−１）と話者３−ｎの距離のみが算出される。なぜなら、上記と同様に、話者３−（ｎ−１）と話者３−ｎ以外の話者との距離は、すでに算出されているからである。

【0086】

なお、図２Ｃに示す信号送発信部１７を有する話者端末１−１、１−２、・・・１−ｎを用いた場合、位置特定情報には話者間の距離が記憶されているので、上記の話者間の距離の算出処理は省略できる。この場合、グループ作成部２７は、位置特定情報から話者間の距離を抽出する。

【0087】

ステップＳ２１において話者間の距離を算出又は抽出した後、算出又は抽出した話者間の距離が所定の範囲内である話者間の距離を特定する（ステップＳ２２）。話者３−１、３−２、・・・３−１２（ｎ＝１２）が図５Ａに示すような位置に存在していることを位置特定情報が示しているとき、グループ作成部２７は、図９に示すような対応表を作成できる。図９は話者間の距離が所定の範囲内であるかどうかを示す対応表の一例を示す図である。図９において、黒丸を示した部分が、話者間の距離が所定の範囲内にある場合を示している。

【0088】

例えば、話者３−６と他の話者との距離が所定の範囲内であるかどうかを見た場合、図９の表の点線で囲った部分（列方向）において、話者３−２及び話者３−５に対応する箇所に黒丸が付してある。これは、話者３−６と３−５との距離は所定の範囲内にあり、話者３−６と３−２との距離は所定の範囲内にあることを示している。
また、図９の表の一点鎖線で囲った部分（行方向）において、話者３−９、３−１１、及び３−１２に対応する箇所に黒丸が付してある。これは、話者３−６と３−９との距離が所定の範囲内、話者３−６と３−１１との距離が所定の範囲内、及び話者３−６と３−１２との距離が所定の範囲内、であることを示している。

【0089】

次に、算出した話者間の距離が所定の範囲内である話者間の距離を特定したあと、グループ作成部２７は、当該特定結果に基づいて、話者３−１、３−２、・・・３−ｎをグループに割り当てる処理を実行する（ステップＳ２３）。

【0090】

グループ作成部２７が図９に示すような対応表を作成する場合、グループ作成部２７は、次のようにして話者３−１、３−２、・・・３−ｎをグループに割り当てる。
まず、グループ作成部２７は、図９の対応表において、話者３−１、３−７、及び３−８に対応する行及び列には、黒丸が全く付されていないと判定する。これにより、グループ作成部２７は、話者３−１、３−７及び３−８は、他の話者との距離が所定の範囲内にない、すなわち、孤立した話者であると判定する。
また、図９の対応表に示されているように、話者３−３に対応する行においては、話者３−４に対応するセル（要素）のみに黒丸が付されている。この場合、グループ作成部２７は、話者３−３と３−４の組み合わせにて１つのグループが作成されると判定する。

【0091】

さらに、図９の対応表において、１つの行又は列において２以上の黒丸が付されている場合、グループ作成部２７は、３以上の話者が１つのグループとして選択される可能性があると判定する。例えば、上記のように、話者３−６に対応する行において、話者３−９、３−１１、及び３−１２の話者に対応する要素に黒丸が付してある。この場合、話者３−９と３−１１との距離、話者３−９と３−１２との距離、又は話者３−１１と３−１２との距離、のいずれかが所定の範囲内である場合、３以上の話者が１つのグループとして選択される。
図９に示す例においては、上記３つの話者間の距離はすべて所定の範囲内に存在する。このような場合、グループ作成部２７は、話者３−６、３−９、３−１１、及び３−１２の４の話者を１つのグループとして選択する。

【0092】

なお、話者３−９と３−１１との距離、話者３−９と３−１２との距離、及び話者３−１１と３−１２との距離のいずれもが所定の範囲にない場合は、話者３−６と３−９のグループ、話者３−６と３−１１のグループ、話者３−６と話者３−１２のグループの３のグループが作成される。
一方、話者３−９と３−１１との距離、話者３−９と３−１２との距離、又は話者３−１１と３−１２との距離のうち、１つの距離のみが所定の範囲内にある場合は、３の話者にて構成されるグループが作成される。例えば、話者３−９と３−１１との距離のみが所定の範囲内の場合、話者３−６、３−９、及び３−１１により構成されるグループが作成される。

【0093】

グループ作成部２７は、上記のグループ割り当てルールに基づいて、図９に示す対応表から、話者３−１、３−２、・・・３−１２に対して、図５Ｂに示すように以下のようにグループを割り当てる。
（ｉ）話者３−１、３−７、及び３−８は孤立した話者
（ｉｉ）グループＧｒ１：話者３−３及び３−４
（ｉｉｉ）グループＧｒ２：話者３−２、３−５、及び３−６
（ｉｖ）グループＧｒ３：話者３−６、３−９、３−１１、３−１２
（ｖ）グループＧｒ４：話者３−９〜３−１１
上記のようにして複数の話者をグループに割り当てた後、グループ作成部２７は、話者選択結果情報を出力する（ステップＳ２４）。

【0094】

このように、話者間の距離に基づいて、複数の話者を１つのグループとして選択することにより、信号処理部２３（の音声信号処理部２３３）において信号処理（発話検出処理）の対象とする音声信号を適切に選択できる。
これにより、音声処理システム１００において、不必要に信号処理部２３における信号処理（発話検出処理）を実行することを抑制できる。その結果、音声処理システム１００における音声処理の負荷の上昇を抑制できる。

【0095】

４−４．信号処理部における信号処理動作
次に、図４ＡのステップＳ６における信号処理動作について、図４Ｅ及び図４Ｆを用いて説明する。図４Ｅは、音声エネルギーに基づく発話検出処理動作を示すフローチャートである。図４Ｆは、発話タイミングに基づく発話検出処理動作を示すフローチャートである。
なお、図５Ｂに示すように、グループ作成部２７が４つのグループを作成した場合、音声信号処理部２３３においては、４つの音声信号処理モジュールが実行される。また、いずれの音声信号処理モジュールへどの音声信号が入力されるかは、話者選択結果情報に基づき決定できる。

【0096】

本実施形態において、信号処理部２３の音声信号処理部２３３において実行される信号処理は、発話検出処理である。発話検出処理とは、音声認識部２９における音声認識処理の対象となる音声信号を特定することである。
また、発話検出処理には、（ｉ）音声エネルギーに基づく発話検出処理と、（ｉｉ）発話タイミングに基づく発話検出処理と、がある。以下の説明では、それぞれについて説明する。以下の説明では、２の話者３−３及び３−４が所属するグループＧｒ１から出力される２の音声信号に対する発話検出処理を例にとって説明する。

【0097】

（ｉ）音声エネルギーに基づく発話検出処理
まず、音声エネルギーに基づく発話検出処理について図４Ｅを用いて説明する。ここで、音声エネルギーとは、音声信号の強度と音声信号が継続する時間との積で表される値のことである。
ここで、図１０Ａに示す同一の時間間隔Ｔにおいて、話者端末１−３から送信された話者３−３の音声信号Ａ１と、話者端末１−４から送信された話者３−４の音声信号Ａ２が同時に入力されたとする。図１０Ａは、音声エネルギーに基づく発話検出処理動作を模式的に示す図である。

【0098】

音声信号Ａ１とＡ２とが入力されて発話検出処理を開始するとき、音声信号処理部２３３は、音声信号Ａ１の音声エネルギーＥ_１、及び、音声信号Ａ２の音声エネルギーＥ_２を算出する（ステップＳ６１１）。
例えば、音声エネルギーＥ_１及びＥ_２は、それぞれ、音声信号Ａ１の時間間隔Ｔにおける積分値、及び、音声信号Ａ２の時間間隔Ｔにおける積分値、として算出される。

【0099】

音声エネルギーＥ_１及びＥ_２を算出後、音声信号処理部２３３は、算出した音声エネルギーＥ_１及びＥ_２のうち、最大のものを特定する（ステップＳ６１２）。
次に、音声信号処理部２３３は、最大の音声エネルギーを有する音声信号（図１０Ａにおいては、音声信号Ａ１）を出力する（ステップＳ６１３）。このとき、音声信号処理部２３３は、その内部において、他の音声信号Ａ２を遮断する。
なお、他の音声信号Ａ２が遮断されている間、音声信号処理部２３３は、音声信号を遮断している話者（図１０Ａにおいては話者３−４）に対して、例えば、話者３−４が装着しているＨＭＤ（ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）においてランプを点灯するなどして、音声信号の遮断を通知してもよい。これにより、音声信号を遮断されている話者が、音声信号を遮断されていることを知らされずに、発話を継続することを抑制できる。

【0100】

次に、音声信号処理部２３３は、音声信号Ａ１が終了したかどうかを判定する（ステップＳ６１４）。音声信号Ａ１の終了は、例えば、音声信号Ａ１の出力なし（あるいは、所定の値以下の出力）を検出するか、又は、音声信号Ａ１の出力が０（あるいは、所定の値以下）となってから所定の時間経過したことを検出することにより判定できる。
音声信号処理部２３３が音声信号Ａ１の終了を検出した場合（ステップＳ６１４にて「Ｙｅｓ」の場合）、音声信号処理部２３３は、他の音声信号Ａ２の遮断を解除する（ステップＳ６１５）。そして、音声信号処理部２３３における発話検出処理を終了する。
一方、音声信号処理部２３３が音声信号Ａ１の継続を検出した場合（ステップＳ６１４にて「Ｎｏ」の場合）、音声信号処理部２３３は、音声信号Ａ１の出力と音声信号Ａ２の遮断を継続する。

【0101】

このように、音声信号の強度と音声信号が継続する時間との積で表される音声エネルギーが最大の音声信号を出力することにより、グループＧｒ１の話者３−３及び３−４のうち最も大きな声にて発話をした話者の音声信号Ａ１を、音声認識処理を実行すべき音声信号として適切に選択できる。音声エネルギーの計算は，音声信号の全ての周波数を使用して計算してもよいし、特定の周波数帯を使用して計算してもよい。

【0102】

（ｉｉ）発話タイミングに基づく発話検出処理
次に、発話タイミングに基づく発話検出処理について、図４Ｆを用いて説明する。今、図１０Ｂに示すように、話者３−４の音声信号Ａ２が、時間ｔ_１にて開始され、時間ｔ_２にて終了している。一方、話者３−３の音声信号Ａ１は、時間ｔ_１においてはまだ開始していない。すなわち、話者３−３の音声信号Ａ１が、話者３−４の音声信号Ａ２よりも先に発せられている。図１０Ｂは、発話タイミングに基づく発話検出処理動作を模式的に示す図である。
まず、音声信号受信部２１が時間ｔ_１にて話者３−４の音声信号Ａ２を受信し、音声信号Ａ２が音声信号処理部２３３に送信されると（ステップＳ６２１）、音声信号処理部２３３は、話者３−３の音声信号（Ａ１）を遮断する（ステップＳ６２２）。
これにより、音声信号処理部２３３は、最も早く発話を開始した話者３−４の音声信号Ａ２は通過する一方、その他の音声信号を遮断できる。その結果、グループＧｒ１内の複数の話者（話者３−３及び３−４）のうち最も早く発話を開始した話者の音声信号Ａ２を、音声認識処理を実行すべき音声信号として適切に選択できる。

【0103】

そして、音声信号処理部２３３は、現在通過中の音声信号Ａ２が終了したかどうかを確認する（ステップＳ６２３）。音声信号が終了したかどうかは、例えば、音声信号の出力が０（あるいは所定の出力値以下）となったタイミングを検出したとき、又は、出力０（あるいは所定の出力値以下）を検出後、所定の時間経過したとき、とすることができる。
図１０Ｂに示す場合においては、時間ｔ_２にて音声信号Ａ２の出力０を検出し、当該タイミングを音声信号Ａ２の終了とする。

【0104】

音声信号処理部２３３が時間ｔ_２にて音声信号Ａ２が終了したことを検出した場合（ステップＳ６２３にて「Ｙｅｓ」の場合）、音声信号処理部２３３は、遮断していた話者３−３の音声信号（Ａ１）の通過を許可して（ステップＳ６２４）、音声信号処理部２３３における発話検出処理を終了する。これにより、時間ｔ_２以降に話者３−３が最も早く発話した場合に、話者３−３の音声信号を音声認識部２９における音声認識処理の対象とできる。
一方、音声信号処理部２３３が、音声信号Ａ２が継続中であると判断した場合（ステップＳ６２３にて「Ｎｏ」の場合）、ステップＳ６２２にもどり、音声信号処理部２３３は、音声信号Ａ２の通過と話者３−３の音声信号（Ａ１）の遮断を継続する。これにより、音声信号処理部２３３は、音声信号Ａ２が終了したと判断するまで、音声信号Ａ２の通過と話者３−３の音声信号（Ａ１）の遮断を継続できる。

【0105】

なお、発話タイミングに基づいて発話検出処理を行う場合も同様に、音声信号Ａ１が遮断されている間、音声信号処理部２３３は、音声信号を遮断している話者（図１０Ｂにおいては話者３−３）に対して、例えば、話者３−３が装着しているＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ）においてランプを点灯するなどして、音声信号の遮断を通知してもよい。

【0106】

（２）第２実施形態
前記実施形態では、音声信号受信部、信号処理部、話者位置特定部と、グループ作成部、及び音声認識部を有する音声処理システムは音声処理サーバーによって実現されていたが、本発明に係る音声処理システムはそれに限定されない。ここでは、各話者に設けられた複数の音声処理装置によって音声処理システムを実現している実施形態を説明する。
１．全体構成
第２実施形態に係る音声処理システム２００について、図１１を参照しながら説明する。図１１は、第２実施形態に係る音声処理システム２００の全体構成を示す図である。音声処理システム２００は、複数の話者３−１、３−２、・・・３−ｎのそれぞれに装着された音声処理装置５１−１、５１−２、・・・５１−ｎにより音声処理を行うシステムである。
この音声処理システム２００においては、音声処理装置５１−１、５１−２、・・・５１−ｎは、話者３−１、３−２、・・・３−ｎの位置特定情報など、音声処理装置５１−１、５１−２、・・・５１−ｎにおける音声処理に必要な情報をお互いに送受信している。
以下、音声処理装置５１−１、５１−２、・・・５１−ｎの構成及び動作について説明をする。なお、以下の説明において、第１実施形態の音声処理システム１００と同じ構成及び／又は動作については、必要に応じて説明を行い、説明が省略可能な箇所については説明を省略する。

【0107】

２．音声処理装置の構成
まず、音声処理装置５１−１、５１−２、・・・５１−ｎの構成について、図１２を用いて説明する。図１２は、音声処理装置の構成を示す図である。以下の説明においては、音声処理装置５１−１を例にとって説明する。なぜなら、他の音声処理装置５１−２、５１−３、・・・５１−ｎは、音声処理装置５１−１と同じ構成を有するからである。
なお、音声処理装置５１−１の一部又は全部は、ＣＰＵと、記憶装置と、他の機器との信号のやりとりが可能であるコンピュータ端末にて構成されていてもよい。また、必要に応じて、以下に示す音声処理装置５１−１の各要素は、記憶装置に記憶されたプログラムにて実現されていてもよい。
音声処理装置５１−１は、音声入力部５１１と、移動局５１２と、話者位置特定部５１３と、グループ作成部５１４と、信号処理部５１５と、音声認識部５１６と、情報送受信部５１７と、を備える。

【0108】

音声入力部５１１は、信号処理部５１５（後述）と信号送受信可能となっている。音声入力部５１１は、音声処理装置５１−１が装着された話者３−１の音声に基づいた音声信号を入力し、信号処理部５１５へ送信する。音声入力部５１１としては、マイクロフォンなどを用いることができる。

【0109】

本実施形態においては、移動局５１２は、話者位置特定部５１３（後述）と信号送受信可能となっている。また、移動局５１２は、図示しない固定局（第１実施形態の固定局１４に相当するもの）から発信される位置特定信号を受信する。さらに、移動局１３は、位置特定信号の受信強度を示す受信強度情報を話者位置特定部５１３に送信する。
移動局５１２としては、例えば、無線ＬＡＮにおいて用いられる無線電波受信装置など用いることができる。一方、固定局としては、無線ＬＡＮにおいて用いられる無線電波送信装置を用いることができる。
なお、第１実施形態の音声処理システム１００において説明したのと同様、移動局５１２と固定局の代わりに、信号送発信部１７を用いて位置特定信号の送受信を行ってもよい。

【0110】

話者位置特定部５１３は、移動局５１２から送信される受信強度情報を受信し、受信した受信強度情報に基づいて、話者３−１の位置を特定する。
また、話者位置特定部５１３は、情報送受信部５１７（後述）と信号送受信可能となっている。これにより、話者位置特定部５１３は、情報送受信部５１７に、位置特定情報を出力する。その結果、情報送受信部５１７は、他の音声処理装置５１−２、５１−３、・・・５１−ｎに、音声処理装置５１−１の位置特定情報を送信できる。
また、話者位置特定部５１３は、グループ作成部５１４（後述）に信号送受信可能に接続されている。従って、話者位置特定部２５は、特定した話者３−１の位置を、話者３−１の位置特定情報としてグループ作成部２７に出力する。

【0111】

グループ作成部５１４は、話者位置特定部５１３と信号送受信可能に接続されている。そのため、グループ作成部５１４は、話者位置特定部５１３から送信された話者３−１の位置特定情報を受信する。
また、グループ作成部５１４は、情報送受信部５１７と信号送受信可能となっている。これにより、グループ作成部５１４は、情報送受信部５１７を介して、他の音声処理装置５１−２、５１−３、・・・５１−ｎから他の話者３−２、３−３、・・・３−ｎの位置特定情報を受信する。この結果、グループ作成部５１４は、全ての話者３−１、３−２、・・・３−ｎの位置特定情報を受信できる。そして、グループ作成部５１４は、受信した位置特定情報に基づき、複数の話者を１つのグループとして選択する。
さらに、グループ作成部５１４は、信号処理部５１５と信号送受信可能となっている。従って、グループ作成部５１４は、上記の複数の話者をグループに割り当てた結果（話者選択結果）を、話者選択結果情報として信号処理部５１５に出力する。

【0112】

信号処理部５１５は、音声入力部５１１と、グループ作成部５１４と、音声認識部５１６と、信号送受信可能に接続されている。信号処理部５１５は、音声入力部５１１から話者３−１の音声信号を受信する。また、信号処理部５１５は、グループ作成部５１４から受信した話者選択結果情報に基づいて、グループ内の話者の音声信号に対して信号処理を行う。そして、信号処理部５１５は、信号処理により選択された音声信号を、音声認識部５１６へ出力する。
一方、話者選択結果情報において、いずれのグループにも属さない孤立した話者であるとされた話者の音声信号については、信号処理部５１５は、信号処理を行うことなく音声認識部５１６に出力する。

【0113】

さらに、信号処理部５１５は、情報送受信部５１７と信号送受信可能となっている。これにより、信号処理部５１５は、他の音声処理装置５１−２、５１−３、・・・５１−ｎにおける信号処理に必要な情報を、情報送受信部５１７を介して、他の音声処理装置５１−２、５１−３、・・・５１−ｎに出力できる。
また、信号処理部５１５は、信号処理部５１５における信号処理に必要な情報を、情報送受信部５１７を介して、他の音声処理装置５１−２、５１−３、・・・５１−ｎから受信できる。

【0114】

信号処理部５１５は、処理切替部５１５１と、音声信号処理部５１５３と、を有する。処理切替部５１５１と、音声信号処理部５１５３の基本的な機能は、第１実施形態における処理切替部２３１と、音声信号処理部２３３と同じである。
ただし、処理切替部５１５１は、第１実施形態の処理切替部２３１と異なり、１の入力端子ａ’と、１の第１出力端子ｂ’と、１の第２出力端子ｃ’と、を有している。そして、処理切替部５１５１は、上記の話者選択結果情報から、話者３−１がいずれかのグループに属しているかどうかを判定し、話者３−１がグループに属している場合には、入力端子ａ’を第２出力端子ｃ’に接続する。一方、話者３−１が孤立した話者であると判定された場合には、処理切替部５１５１は、入力端子ａ’を第１出力端子ｂ’に接続する。

【0115】

これにより、音声処理装置５１−１の信号処理部５１５においては、話者３−１がグループに属しているか孤立した話者であるかに基づき、音声入力部５１１から入力された話者３−１の音声信号を音声信号処理部５１５３に送信するか、又は、音声認識部５１６に送信するかを選択できる。

【0116】

音声認識部５１６は、信号処理部５１５と信号送受信可能に接続されている。従って、音声認識部５１６は、信号処理部５１５の音声信号処理部５１５３において信号処理されたグループに属する話者３−１の音声信号、又は、音声信号処理部５１５３における信号処理が実行されていない孤立した話者３−１の音声信号に対して、音声認識処理を実行する。

【0117】

情報送受信部５１７は、話者位置特定部５１３と、グループ作成部５１４と、信号処理部５１５と、信号送受信可能となっている。また、情報送受信部５１７は、他の音声処理装置５１−２、５１−３、・・・５１−ｎの情報送受信部５１７と信号送受信可能となっている。
これにより、情報送受信部５１７は、話者位置特定部５１３から出力される話者３−１の位置特定情報を、他の音声処理装置５１−２、５１−３、・・・５１−ｎへ送信する。また、情報送受信部５１７は、他の話者３−２、３−３、・・・３−ｎの位置特定情報を他の音声処理装置５１−２、５１−３、・・・５１−ｎから受信し、グループ作成部５１４に送信する。これにより、音声処理装置５１−１は、他の音声処理装置５１−２、５１−３、・・・５１−ｎと位置特定情報を共有できる。

【0118】

また、情報送受信部５１７は、信号処理部５１５において信号処理を実行するために必要となる情報を、信号処理部５１５から受信し、他の音声処理装置５１−２、５１−３・・・５１−ｎへと送信する。さらに、情報送受信部５１７は、信号処理部５１５において信号処理を実行するために必要となる情報を、他の音声処理装置５１−２、５１−３・・・５１−ｎから受信し、信号処理部５１５に送信する。
これにより、音声処理装置５１−１は、他の音声処理装置５１−２、５１−３、・・・５１−ｎと、信号処理の実行に必要な情報を共有できる。

【0119】

４−３．音声処理装置の動作
次に、音声処理装置５１−１、５１−２、・・・５１−ｎの動作について説明する。音声処理装置５１−１、５１−２、・・・５１−ｎの基本動作も、図４Ａに示す第１実施形態の音声処理システム１００の基本動作と同じである。従って、以下の音声処理装置の基本動作の説明は、図４Ａを用いて説明する。以下の説明においては、例として、話者３−１が装着する音声処理装置５１−１の動作について説明する。
音声処理装置５１−１が音声処理を開始すると、話者位置特定部５１３が、話者３−１の現在位置を特定する（ステップＳ１）。そして、話者位置特定部５１３は、話者３−１の位置特定情報を、情報送受信部５１７を介して、他の音声処理装置５１−２、５１−３、・・・５１−ｎに送信する。
なお、話者３−１の現在位置の特定方法は、第１実施形態に係る音声処理システム１００において説明した方法と同じである。よって、説明を省略する。

【0120】

ステップＳ１において話者位置特定部５１３が話者３−１の現在位置を特定した後、グループ作成部５１４が、所定の範囲内に位置する複数の話者を１つのグループとして選択する（ステップＳ２）。このとき、グループ作成部５１４は、情報送受信部５１７を介して、他の話者３−２、３−３、・・・３−ｎの位置特定情報を、他の音声処理装置５１−２、５１−３、・・・５１−ｎから受信する。
そして、グループ作成部５１４は、話者３−１の位置特定情報と、他の話者３−２、３−３、・・・３−ｎの位置特定情報とに基づき、話者３−１、３−２、・・・３−ｎのグループへの割り当てを行う。その後、グループ作成部５１４は、割り当て結果を、話者選択結果情報として出力する。
なお、グループ作成部５１４における話者３−１、３−２、・・・３−ｎのグループへの割り当てる方法は、第１実施形態に係る音声処理システム１００において説明した方法と同じである。よって、説明を省略する。

【0121】

ステップＳ２においては、グループ作成部５１４は、さらに、話者選択結果情報に基づき、話者３−１がグループに属しているかどうか判定する。もし、話者３−１がグループに属していると判定された場合には、信号処理部５１５は、処理切替部５１５１の入力端子ａ’を、第２出力端子ｃ’に接続する。一方、話者３−１がグループに属していない（話者３−１が孤立した話者である）と判定された場合には、入力端子ａ’を第１出力端子ｂ’に接続する。

【0122】

このように、話者３−１がグループに属しているかどうかに基づき、処理切替部５１５１の入力端子ａ’をいずれの出力端子に接続するかを決定することにより、話者３−１がグループに属しているかどうかに基づき、話者３−１の音声信号に対して信号処理を実行するかどうかを選択できる。これにより、信号処理部５１５の音声信号処理部５１５３が、不必要に信号処理を実行することを抑制できる。その結果、音声処理装置５１−１における音声処理の負荷の上昇を抑制できる。

【0123】

ステップＳ２において所定の範囲内に位置する複数の話者を１つのグループとして選択後、話者位置特定部５１３が、位置特定情報の更新時期であるかどうかを確認する（ステップＳ３）。位置特定情報の更新時期であると判断した場合（ステップＳ３において「Ｙｅｓ」の場合）、ステップＳ１及びＳ２を再び実行する。
一方、話者位置特定部５１３が、位置特定情報の更新時期でないと判断した場合（ステップＳ３において「Ｎｏ」の場合）、次のステップＳ４へ進む。

【0124】

ステップＳ４において、音声入力部５１１は、音声信号を受信するために待機する。音声信号受信部２１において音声信号が受信された場合（ステップＳ４において「Ｙｅｓ」の場合）、ステップＳ５に進む。
一方、音声入力部５１１において音声信号が受信されない場合（ステップＳ４において「Ｎｏ」の場合）は、ステップＳ３に戻る。

【0125】

ステップＳ５において、話者３−１の音声信号は、信号処理部５１５の処理切替部５１５１を介して、音声信号処理部５１５３又は音声認識部５１６へ送信される。
話者３−１がいずれかのグループに属する場合（ステップＳ５において「Ｙｅｓ」の場合）、入力端子ａ’は第２出力端子ｃ’に接続されているため、音声入力部５１１からの音声信号は音声信号処理部５１５３に入力される。そして、ステップＳ６へと進む。

【0126】

一方、話者３−１がグループに属さない孤立した話者の場合（ステップＳ５において「Ｎｏ」の場合）、入力端子ａ’は第１出力端子ｂ’に接続されているため、音声入力部５１１からの音声信号は音声認識部５１６に入力される。そして、ステップＳ７へと進む。

【0127】

ステップＳ６において、音声信号処理部２３３は、入力された音声信号に対して信号処理を実行する。音声信号処理部５１５３は、まず、話者３−１の音声信号（音声入力部５１１からの音声信号）に対して、信号処理を行う。
次に、音声信号処理部５１５３は、話者３−１が所属するグループ内の他の話者に装着された音声処理装置から、信号処理に必要な情報を受信する。このとき、音声信号処理部５１５３は、話者選択結果情報を参照し、他の音声処理装置５１−２、５１−３、・・・５１−ｎのいずれかから、音声信号処理部５１５３における信号処理に必要な情報を受信するかを判定する。

【0128】

上記の信号処理に必要な情報は、上記の音声エネルギーに基づいた発話検出処理においては、他の話者の音声エネルギーの算出値と音声信号の終了の検出結果である。一方、上記の発話タイミングに基づく発話検出処理において信号処理に必要な情報は、他の話者の発話の通知と音声信号の終了の検出結果である。
なお、音声信号の終了の検出結果の受信は、音声信号処理部５１５３が話者３−１の音声信号を遮断した場合のみであってもよい。なぜなら、話者３−１の音声信号を音声認識処理の対象とした場合には、音声信号の遮断から通過への切替が不要だからである。
ステップＳ６において、音声信号処理部５１５３における信号処理の結果、話者３−１の音声信号を音声認識処理の対象とした場合、音声信号処理部５１５３は、話者３−１の音声信号を音声認識部５１６へ出力する。そして、ステップＳ７へ進む。一方、話者３−１の音声信号が音声認識処理の対象でないとした場合、他の話者の音声信号の音声認識処理を実行中、音声信号処理部５１５３は、話者３−１の音声信号を遮断する。

【0129】

ステップＳ７において、音声認識部５１６は、音声入力部５１１からの音声信号が入力された場合、当該音声信号に対して音声認識処理を実行する。一方、音声入力部５１１からの音声信号が入力されない場合は、音声認識部５１６は、音声信号の入力待ちのみを実行する。
このように、音声認識部５１６が、話者３−１の音声信号が入力されたときのみ音声認識処理を実行することにより、音声認識部２９における音声認識処理による負荷の上昇を抑制できる。
ステップＳ７において、音声認識部５１６が音声認識処理を実行後、音声処理装置５１−１は、音声処理を終了する。

【0130】

（３）実施形態の効果
本発明の音声処理システム１００、２００の効果は以下のように記載できる。
音声処理システム１００、２００（音声処理システムの一例）は、複数の話者３−１、３−２、・・・３−ｎ（複数の話者の一例）に対する音声処理を行うためのシステムである。音声処理システム１００、２００は、音声入力部１１、５１１（音声入力部の一例）と、話者位置特定部２５、５１３（話者位置特定部の一例）と、グループ作成部２７、５１４（グループ作成部の一例）と、信号処理部２３、５１５（信号処理部の一例）と、音声認識部２９、５１６（音声認識部の一例）と、を備える。
音声入力部１１、５１１は、各話者３−１、３−２、・・・３−ｎの音声に基づいた音声信号をそれぞれ入力する。話者位置特定部２５、５１３は、各話者３−１、３−２、・・・３−ｎの位置を特定する。グループ作成部２７、５１４は、複数の話者３−１、３−２、・・・３−ｎのうち、所定の範囲内に位置する複数の話者をグループＧｒ１〜Ｇｒ４のいずれか（１つのグループの一例）として選択する。信号処理部２３、５１５は、グループＧｒ１〜Ｇｒ４内の複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。音声認識部２９、５１６は、信号処理の結果に基づいて音声信号に対して音声認識処理を行う。

【0131】

音声処理システム１００、２００では、まず、話者位置特定部２５、５１３が、各話者３−１、３−２、・・・３−ｎの位置を特定する。そして、グループ作成部２７、５１４が、所定の範囲内に位置する複数の話者をグループＧｒ１〜Ｇｒ４のいずれかとして選択する。その後、音声入力部１１、５１１が話者からの音声に基づいて音声信号を出力すると、信号処理部２３、５１５が、グループＧｒ１〜Ｇｒ４内の選択された複数の話者の音声信号に対して音声混信を解消するための信号処理を行う。そして、音声認識部２９、５１６が、信号処理部２３、５１５における信号処理結果に基づいて、音声信号に対して音声認識処理を行う。
このように、信号処理部２３、５１５が、音声の混信が生じる可能性がある話者（所定の範囲内に位置する複数の話者）の音声信号に対して、音声混信を解消するための信号処理を行う。つまり、グループとして選択されなかった話者の音声信号には信号処理が行われないので、その結果、音声処理システム１００、２００における音声処理の実行負荷を抑制できる。

【0132】

音声処理システム１００、２００は、固定局１４（固定局の一例）と、複数の移動局１３、５１２（移動局の一例）と、をさらに備えている。固定局１４は、複数の話者３−１、３−２、・・・３−ｎが存在する空間Ｓ（空間の一例）の所定の位置に取り付けられている。また、固定局１４は、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３（位置特定信号の一例）を発信する。移動局１３、５１２は、複数の話者３−１、３−２、・・・３−ｎにそれぞれ装着されている。また、移動局１３、５１２は、位置特定信号をＳ_１、Ｓ_２、Ｓ_３受信する。
このとき、話者位置特定部２５、５１３は、複数の移動局１３、５１２において受信する位置特定信号Ｓ_１、Ｓ_２、Ｓ_３の受信強度に基づいて、各話者３−１、３−２、・・・３−ｎの位置を特定している。
これにより、話者３−１、３−２、・・・３−ｎの位置を精度良く特定できる。その結果、グループ作成部２７、５１４は、各話者３−１、３−２、・・・３−ｎの位置に基づいて、グループＧｒ１〜Ｇｒ４のいずれかに所属する複数の話者を適切に選択できる。

【0133】

音声処理システム１００、２００は、複数の信号送発信部１７（信号送発信部の一例）をさらに備えている。信号送発信部１７は、複数の話者３−１、３−２、・・・３−ｎにそれぞれ装着されている。また、信号送発信部１７は、位置特定信号を受信及び送信する。
このとき、話者位置特定部２５、５１３は、他の信号送発信部１７から発信された位置特定信号の受信強度に基づいて、各話者３−１、３−２、・・・３−ｎの位置を特定している。
これにより、他の話者３−１、３−２、・・・３−ｎに対して自分の位置を知らせることができる。そして、信号送発信部１７が他の信号送発信部１７からの位置特定信号を受信し、話者位置特定部２５、５１３が受信した位置特定信号の強度に基づいて各話者３−１、３−２、・・・３−ｎの位置を特定することにより、精度良く各話者３−１、３−２、・・・３−ｎの位置を特定できる。その結果、グループ作成部２７、５１４は、各話者３−１、３−２、・・・３−ｎの位置に基づいて、グループＧｒ１〜Ｇｒ４のいずれかに所属する複数の話者（信号処理対象となる話者）を適切に選択できる。
さらに、信号送発信部１７が位置特定信号を発信し受信することにより、他の信号受信装置又は信号発信装置を必要とすることなく、各話者３−１、３−２、・・・３−ｎの位置を精度良く特定できる。

【0134】

音声信号処理部２３３、５１５３は、信号処理として、発話検出処理を行うことで、音声認識処理の対象となる音声入力部１１、５１１を特定している。
信号処理部２３，５１５が発話検出処理を行い、音声認識処理の対象となる音声入力部１１、５１１を特定することにより、音声認識処理をすべき音声信号を適切に特定できる。その結果、音声認識部２９、５１６が不必要に音声認識処理を行うことを抑制できる。これにより、音声認識部２９、５１６における音声認識処理による実行負荷を抑制できる。

【0135】

音声信号処理部２３３、５１５３における発話検出処理（発話検出処理の一例）は、複数の音声入力部１１、５１１のうち、最大の音声エネルギーを有する音声信号を入力した音声入力部１１、５１１を特定する処理である。
信号処理部２３、５１５の音声信号処理部２３３、５１５３（信号処理部）が最大の音声エネルギーを有する音声信号を入力した音声入力部を特定することにより、グループＧｒ１〜Ｇｒ４のいずれか内の複数の話者のうち最も大きな声にて発話をした話者の音声信号を、音声認識処理を実行すべき音声信号として適切に選択できる。

【0136】

音声信号処理部２３３、５１５３における発話検出処理は、複数の音声入力部１１、５１１のうち、最初に音声信号を入力した音声入力部１１、５１１を特定する処理である。
信号処理部２３、５１５の音声信号処理部２３３、５１５３（信号処理部）が最初に音声信号を入力した音声入力部１１、５１１を特定することにより、グループＧｒ１〜Ｇｒ４のいずれかの内の複数の話者のうち最も早く発話を開始した話者の音声信号を、音声認識処理を実行すべき音声信号として適切に選択できる。

【0137】

（４）他の実施形態
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、発明の要旨を逸脱しない範囲で種々の変更が可能である。特に、本明細書に書かれた複数の実施形態及び変形例は必要に応じて任意に組み合せ可能である。
（Ａ）移動局と固定局の構成についての他の実施形態
上記の第１実施形態に係る音声処理システム１００、及び、第２実施形態に係る音声処理システム２００においては、固定局１４が位置特定信号を発信し、移動局１３、５１２が位置特定信号を受信していた。しかし、移動局と固定局の信号送受信の関係はこれに限られない、逆に、移動局１３、５１２が位置特定信号を発信し、固定局１４が位置特定信号を受信してもよい。
この場合、位置特定信号は、話者端末１−１、１−２、・・・１−ｎ毎、又は、音声処理装置５１−１、５１−２、・・・５１−ｎ毎に、発信される位置特定信号の周波数を異ならせることにより、どの話者端末又は音声処理装置から発信された位置特定信号であるかを識別可能にしてもよい。又は、位置特定信号に、話者端末１−１、１−２、・・・１−ｎ又は音声処理装置５１−１、５１−２、・・・５１−ｎの識別情報を含ませておいてもよい。
このように、移動局１３、５１２から位置特定信号を発信し、固定局１４にて位置特定信号を受信しても、同様に話者３−１、３−２、・・・３−ｎの位置が特定できる。

【0138】

（Ｂ）信号処理部の音声信号処理部についての他の実施形態
上記の第１実施形態に係る音声処理システム１００、及び、第２実施形態に係る音声処理システム２００においては、信号処理部２３、５１５の音声信号処理部２３３、５１５３は、音声信号に対する音声混信を解消するための信号処理として、発話検出処理を実行していた。しかし、音声混信を解消するための信号処理は、これに限られない。音声信号処理部２３３、５１５３は、音声分離処理を実行してもよい。
音声分離処理とは、複数の話者３−１、３−２、・・・３−ｎの音声が混合した音声信号から、各々の話者の音声信号を分離する信号処理をいう。

【0139】

例えば、今、図５Ｂに示すグループＧｒ１において、グループＧｒ１に所属する話者３−３が音声信号Ａ１を有する発話を行い、話者３−４が音声信号Ａ２を有する発話を行った場合を考える（図１３）。図１３は、音声分離処理方法を模式的に示す図である。
この場合、話者３−３が発話中に話者３−４が発話を開始した場合、話者３−３の音声入力部１１、５１１からは、話者３−３の発話による音声に話者３−４の発話による音声が混入した音声信号Ａ３が出力される。話者３−４の音声入力部１１、５１１からも同様に、話者３−４の発話による音声に話者３−３の発話による音声が混入した音声信号Ａ４が出力される。

【0140】

音声信号処理部２３３、５１５３は、音声分離処理を実行することにより、音声信号Ａ３から音声信号Ａ１を分離し、音声信号Ａ４から音声信号Ａ２を分離できる。
なお、音声分離処理を実行する際、音声信号処理部２３３、５１５３は、音声信号Ａ３にどの程度の大きさの音声信号Ａ２が混入しているか、音声信号Ａ４にどの程度の大きさの音声信号Ａ１が混入しているかを、例えば、話者選択結果情報（又は、位置特定情報）に示されている、話者３−３と話者３−４との距離に基づいて決定してもよい。

【0141】

このように、音声信号処理部２３３、５１５３が音声分離処理を実行することにより、グループＧｒ１内の話者３−３、３−４が同時に発話した場合であっても、それぞれの話者の発話を適切に選別できる。その結果、グループ内の複数の話者が同時に発話した場合であっても、音声認識部２９、５１６は、それぞれの話者の発話の音声認識処理を実行できる。

【0142】

なお、ここでは、話者端末１−１、１−２、・・・１−ｎ又は音声処理装置５１−１、５１−２、・・・５１−ｎのそれぞれに、音声入力部１１、５１１が１つ備えられている場合にて、音声信号処理部２３３、５１５３における音声分離処理の説明をしたが、音声入力部１１、５１１の数は、話者端末１−１、１−２、・・・１−ｎ又は音声処理装置５１−１、５１−２、・・５１−ｎのそれぞれに１つとは限られない。
例えば、話者端末１−１、１−２、・・・１−ｎ又は音声処理装置５１−１、５１−２、・・・５１−ｎに、分離したい音声信号を取得する第１音声入力部と、当該分離したい音声信号に混入する音声信号を取得する第２音声入力部と、２つの音声入力部が備わっていてもよい。

【0143】

（Ｃ）位置特定方法についての他の実施形態
上記の実施形態における移動局１３と固定局１４を用いた話者の位置特定方法においては、固定局１４から発信される位置特定信号Ｓ_１、Ｓ_２、Ｓ_３のそれぞれの、各小領域における受信強度に基づいて、話者３−１、３−２、・・・３−ｎの位置を特定していた。または、話者端末１−１、１−２、１−３、・・・１−ｎの信号送発信部１７のそれぞれから発信される位置特定信号Ｓ_１、Ｓ_２、・・・Ｓ_ｎの受信強度に基づいて、話者３−１、３−２、・・・３−ｎの位置を特定していた。
しかし、話者３−１、３−２、・・・３−ｎの位置特定方法は、位置特定信号の受信強度に基づいて実行されることに限られない。例えば、話者３−１、３−２、・・・３−ｎの位置の特定は、位置特定信号の送信時間と受信時間の時間差（送受信時間差）に基づいて実行されてもよい。

【0144】

固定局１４（無線ＬＡＮなど）又は信号送発信部１７から発信される電波などの信号は、空間Ｓにおいて所定の速度にて伝搬するため、位置特定信号の送信時間と受信時間との差を算出することにより、固定局１４と話者３−１、３−２、・・・３−ｎとの間の距離、又は、話者端末１−１、１−２、・・・１−ｎ間の距離を算出できる。この場合、例えば、次のようにして位置の特定が実行される。

【0145】

まず、音声処理システム１００の各構成要素は、音声処理システム１００にて共通した時刻を記憶しておく。次に、固定局１４（又は信号送発信部１７）において位置特定信号Ｓ_１、Ｓ_２、Ｓ_３（Ｓ_１、Ｓ_２、・・・Ｓ_ｎ）を発信した時刻（発信時刻）が上記の各構成要素に通知され、通知された発信時刻を各構成要素が記憶する。さらに、話者端末１−１、１−２、１−３、・・・１−ｎが位置特定信号Ｓ_１、Ｓ_２、Ｓ_３（Ｓ_１、Ｓ_２、・・・Ｓ_ｎ）を受信すると、位置特定信号Ｓ_１、Ｓ_２、Ｓ_３（Ｓ_１、Ｓ_２、・・・Ｓ_ｎ）の受信時刻が通知され、当該受信時刻が各構成要素に記憶される。

【0146】

次に、話者端末１−１、１−２、１−３、・・・１−ｎ又は音声処理サーバー２が、記憶された受信時刻と発信時刻との差を送受信時間差として算出する。そして、算出された送受信時間差と、空間Ｓにおける位置特定信号Ｓ_１、Ｓ_２、Ｓ_３（Ｓ_１、Ｓ_２、・・・Ｓ_ｎ）の伝搬速度との積を算出することにより、固定局１４と話者３−１、３−２、・・・３−ｎとの距離（又は話者端末１−１、１−２、・・・１−ｎ間の距離）が算出される。
このようにして、位置特定信号の発信時間と送信時間の送受信時間差によっても、話者３−１、３−２、・・・３−ｎの位置を特定できる。

【産業上の利用可能性】

【0147】

本発明は、複数の話者に対する音声処理を行う音声処理システムに広く適用できる。

【符号の説明】

【0148】

１００、２００音声処理システム
１−１、１−２、・・・１−ｎ話者端末
１１音声入力部
１３移動局
１４固定局
１５信号送信部
１７信号送発信部
２音声処理サーバー
２１音声信号受信部
２３信号処理部
２３１処理切替部
２３３音声信号処理部
２５話者位置特定部
２７グループ作成部
２９音声認識部
３−１、３−２、・・・３−ｎ話者
５１−１、５１−２、・・・５１−ｎ音声処理装置
５１１音声入力部
５１２移動局
５１３話者位置特定部
５１４グループ作成部
５１５信号処理部
５１５１処理切替部
５１５３音声信号処理部
５１６音声認識部
５１７情報送受信部
Ａ１、Ａ２、Ａ３、Ａ４音声信号
Ｅ１、Ｅ２音声エネルギー
Ｇｒ１、Ｇｒ２、Ｇｒ３、Ｇｒ４グループ
Ｐ１、Ｐ２、Ｐ３受信強度
Ｓ空間
ＳＳ−１、ＳＳ−２、・・・ＳＳ−Ｎ小領域
Ｔ時間間隔
ａ’ 入力端子
ａ１、ａ２、・・・ａｎ入力端子
ｂ’ 第１出力端子
ｂ１、ｂ２、・・・ｂｎ第１出力端子
ｃ’ 第２出力端子
ｃ１、ｃ２、・・・ｃｎ第２出力端子

【図1】