(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-13
(45)【発行日】2023-02-21
(54)【発明の名称】話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
(51)【国際特許分類】
G10L 25/51 20130101AFI20230214BHJP
G10L 15/28 20130101ALI20230214BHJP
【FI】
G10L25/51 400
G10L15/28 400
(21)【出願番号】P 2019102058
(22)【出願日】2019-05-31
【審査請求日】2022-02-08
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100084995
【氏名又は名称】加藤 和詳
(74)【代理人】
【識別番号】100099025
【氏名又は名称】福田 浩志
(72)【発明者】
【氏名】松本 智佳子
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2017-125893(JP,A)
【文献】特開2013-135433(JP,A)
【文献】特開2006-254226(JP,A)
【文献】特開2011-139378(JP,A)
【文献】特開2014-168188(JP,A)
【文献】特開2011-186384(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28,21/00-25/93
(57)【特許請求の範囲】
【請求項1】
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
【請求項2】
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
請求項1に記載のプログラム。
【請求項3】
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
請求項2に記載のプログラム。
【請求項4】
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
請求項2に記載のプログラム。
【請求項5】
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
請求項2に記載のプログラム。
【請求項6】
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
請求項1~請求項5の何れか1項に記載のプログラム。
【請求項7】
前記代表値は時間平均値である、
請求項1~請求項6の何れか1項に記載のプログラム。
【請求項8】
コンピュータが、
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定方法。
【請求項9】
複数のマイクロフォンを含むマイクアレイと、
複数の話者領域の各々を、前記マイクアレイを基点として各々異なる方向に設定する設定部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する位相差算出部と、
前記位相差算出部で算出された位相差、及び前記設定部で設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する代表値算出部と、
前記代表値算出部で算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する判定部と、
を含む、話者方向判定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置に関する。
【背景技術】
【0002】
複数のマイクロフォンを含むマイクアレイを使用して、発声データから、発話者が存在する方向である話者方向を判定する技術が存在する。しかしながら、マイクアレイを使用して話者方向を判定しようとする際に、対象話者の発声ではない音である雑音が多く存在すると、話者方向を適切に判定することが困難となる。
【0003】
話者方向が適切に判定されていないと、マイクアレイを備えたウェアラブル端末などで、話者方向によって実行する処理を切り替える場合に、適切な処理への切り替えが行われない。例えば、翻訳元の言語及び翻訳先の言語を話者方向によって話者を判定して切り替える場合、話者方向が適切に判定されていないと、適切な翻訳が実行されない。したがって、高雑音環境下においても話者方向判定精度を向上させる技術が求められている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2017-125893号公報
【文献】特許5387459号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
話者方向を判定する際に、位相差、即ち、音の到達時間差を使用することが考えられる。例えば、端末の筐体の上面部及び前面部にマイクロフォン(以下、マイクという。)が存在する場合、筐体前方からの音は、上面部のマイクロフォンより先に前面部のマイクに到達する。一方、筐体上方からの音は、前面部のマイクロフォンより先に上面部のマイクに到達する。
【0006】
筐体前方からの音であるか、筐体上方からの音であるかは、予め設定されている音の入射角及び位相差のモデルと、判定境界と、により判定する。しかしながら、高雑音環境下では、音に対応する周波数領域の音信号の位相差に雑音の位相差が混入するため、話者方向を適切に判定することが困難となる。
【0007】
本開示は、高雑音環境下において、話者が存在する方向の判定精度を向上させることを目的とする。
【課題を解決するための手段】
【0008】
1つの実施形態では、複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定する。複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
【発明の効果】
【0009】
本開示は、高雑音環境下において、話者が存在する方向の判定精度を向上させることを可能とする。
【図面の簡単な説明】
【0010】
【
図1】話者方向判定装置を含む翻訳システムを例示するブロック図である。
【
図2】第1実施形態の話者方向判定装置を例示するブロック図である。
【
図3】第1実施形態の話者領域を例示する概念図である。
【
図4】位相差領域に含まれる位相差を例示する概念図である。
【
図5】位相差領域の位相差数を例示する概念図である。
【
図6】第1~第4実施形態の話者方向判定装置のハードウェア構成を例示するブロック図である。
【
図7】第1実施形態の話者方向判定処理の流れを例示するフローチャートである。
【
図8】第2実施形態の話者方向判定装置を例示するブロック図である。
【
図9】話者方向判定装置を含む翻訳システムの外観を例示する概念図である。
【
図11】位相差領域に含まれる位相差を例示する概念図である。
【
図12】位相差領域毎の位相差数の時間平均値を例示する概念図である。
【
図14】第2実施形態の話者方向判定処理の流れを例示するフローチャートである。
【
図15】位相差領域毎の位相差数の時間平均値を例示する概念図である。
【
図16】第3実施形態の話者方向判定装置を例示するブロック図である。
【
図17】第3実施形態の補正係数を例示する概念図である。
【
図18】第3実施形態の話者方向判定処理の流れを例示するフローチャートである。
【
図19】第4実施形態の話者方向判定装置を例示するブロック図である。
【
図20】第4実施形態の補正係数を例示する概念図である。
【
図21】第4実施形態の位相差数取得処理の流れを例示するフローチャートである。
【
図22】話者方向判定結果を例示する概念図である。
【
図23】位相差領域に含まれる位相差を例示する概念図である。
【
図24】位相差領域に含まれる位相差を例示する概念図である。
【発明を実施するための形態】
【0011】
[第1実施形態]
以下、図面を参照して第1実施形態の一例を詳細に説明する。第1実施形態では、話者の各々に対応する話者領域を設定し、話者領域の各々に対応する位相差領域の各々に含まれる位相差数の代表値を比較することで、話者が存在する方向である話者方向を判定する。
【0012】
図1に、翻訳システム1を例示する。翻訳システム1は、話者方向判定装置10A、音声認識装置70及び翻訳装置60を含む。話者方向判定装置10Aは、話者方向判定結果を、音声認識装置70に送信し、話者方向判定結果を受信した音声認識装置70は、判定された話者方向に基づいて、音信号が話者P01の発話であるか、話者P02の発話であるかを判定する。話者P01の発話である場合、音声認識装置60は、音信号に対して第1言語の音声認識を行い、音声認識結果を翻訳装置60に送信する。話者P02の発話である場合、音声認識装置60は、音信号に対して第2言語の音声認識を行い、音声認識結果を翻訳装置60に送信する。
【0013】
翻訳装置60は、受信した音声認識結果を使用して、話者P01の発話である場合、第1言語から第2言語に翻訳し、例えば、スピーカから音声として翻訳結果を出力する。翻訳装置60は、受信した音声認識結果を使用して、話者P02の発話である場合、第2言語から第1言語に翻訳し、例えば、スピーカから音声として翻訳結果を出力する。
【0014】
図2に、話者方向判定装置10Aを例示する。話者方向判定装置10Aは、第1音受付部11、第2音受付部12、第1時間周波数変換部13、第2時間周波数変換部14、位相差算出部15、位相差領域設定部16、位相差数取得部17、位相差数平均値算出部18、及び、方向判定部22を含む。
【0015】
第1音受付部11は、第1マイクロフォン(以下、マイクロフォンをマイクと呼ぶ。)で検出された音のアナログ信号から変換された時間領域の音のデジタル信号(以下、音のデジタル信号を音信号と呼ぶ。)を受け付け、第2音受付部12は、第2マイクで検出された音のアナログ信号から変換された時間領域の音信号を受け付ける。第1時間周波数変換部13は、例えば、FFT(Fast Fourier Transformation)を使用して第1音受付部11で受け付けた時間領域の音信号を周波数領域の音信号に変換し、第2時間周波数変換部14は、第2音受付部12で受け付けた時間領域の音信号を周波数領域の音信号に変換する。
【0016】
位相差算出部15は、第1時間周波数変換部13で周波数領域に変換された音信号と、第2時間周波数変換部14で周波数領域に変換された音信号と、の位相差を時間周波数変換の周波数帯域毎に算出する。
【0017】
設定部の一例である位相差領域設定部16は、話者の各々に対応する話者領域及び話者領域の各々に対応する位相差領域を設定する。話者領域は、対応する話者の位置、移動範囲などに応じて予め決定されている。本実施形態では、話者P01に対応する話者領域E01及び話者P02に対応する話者領域E02を設定し、話者P01に対応する位相差領域A01及び話者P02に対応する位相差領域A02を設定する。
【0018】
図3に、話者P01が存在する領域である話者領域E01及び話者P02が存在する領域である話者領域E02を例示する。話者方向判定装置10Aを含む翻訳システム1の筐体1Aの前面には、第1マイクM01及び第2マイクM02が近接して配置されている。
図3は、筐体1Aを上方から見た図である。
【0019】
話者領域E01及びE02は、第1マイクM01及び第2マイクM02を含むマイクアレイを基点として各々異なる方向に設定される。本実施形態では、話者領域E01の基点に接する頂点の角度と話者領域E02の基点に接する頂点の角度とが略等しい例について説明する。なお、
図3に例示する話者領域E01及びE02の面積は一例であり、面積は、
図3の例示より大きくてもよいし、小さくてもよい。
【0020】
図4は、話者領域E01及びE02が
図3に例示するように設定された場合の位相差領域を例示する。
図4の位相差領域A01は
図3の話者領域E01に対応し、
図4の位相差領域A02は
図3の話者領域E02に対応する。
【0021】
図2の位相差数取得部17は、
図4の位相差領域A01に含まれる位相差の数である位相差数を取得し、位相差領域A02に含まれる位相差の数である位相差数を取得する。
図4に、所定の時刻において、位相差領域A01及び位相差領域A02の各々に含まれる位相差を例示する。
図4の縦軸は位相差[rad]を表し、横軸は周波数[Hz]を表す。
図4において、位相差は丸で表される。
図4の例では、位相差領域A02の位相差数が、位相差領域A01の位相差数より多い。
【0022】
代表値算出部の一例である位相差数平均値算出部18は、位相差領域A01の位相差数の時間平均値、及び、位相差領域A02の位相差数の時間平均値を算出する。位相差数の時間平均値は、位相差数の代表値の一例である。FFTの対象フレームtの対象位相差領域の位相差数の時間平均値AvrNtは、例えば、(4)式を使用して算出される。
AvrNt=(1.0-γ)×AvrNt-1+γ×Nt …(4)
【0023】
γは、忘却係数(γ<1.0)であり、AvrNt-1は、対象フレームtの1つ前のフレームt-1における位相差数の時間平均値であり、Ntは対象フレームtにおいて対象位相差領域に含まれる位相差数である。なお、代表値は時間平均値に限定されず、対象フレームの前後の所定数フレームの位相差数の平均値であってもよいし、対象フレームの前後の所定数フレームの位相差数の中間値であってもよい。
【0024】
判定部の一例である方向判定部22は、位相差領域A01の位相差数の時間平均値と位相差領域A02の位相差数の時間平均値とを比較することで話者方向を判定する。即ち、位相差数の時間平均値が大きい方の位相差領域側に話者が存在することを判定する。
【0025】
図5は、位相差領域A01の位相差数の時間平均値及び位相差領域A02の位相差数の時間平均値を例示する。
図5の縦軸は位相差数の時間平均値を表し、横軸は時間[s]を表す。
図5において、実線は位相差領域A01の位相差数の時間平均値を表し、破線は位相差領域A02の位相差数の時間平均値を表す。
【0026】
例えば、時間T01では、位相差領域A02の位相差数の時間平均値が位相差領域A01の位相差数の時間平均値より大きい。したがって、方向判定部22は、話者P02が発話していると判定する。
【0027】
話者方向判定装置10Aは、一例として、
図6に示すように、CPU(Central Processing Unit)51、一次記憶部52、二次記憶部53、外部インタフェース54、第1マイクM01及び第2マイクM02を含む。CPU51は、ハードウェアであるプロセッサの一例である。CPU51、一次記憶部52、二次記憶部53、外部インタフェース54、第1マイクM01及び第2マイクM02は、バス59を介して相互に接続されている。
【0028】
一次記憶部52は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部53は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
【0029】
二次記憶部53は、プログラム格納領域53A及びデータ格納領域53Bを含む。プログラム格納領域53Aは、一例として、話者方向判定プログラムなどのプログラムを記憶している。データ格納領域53Bは、一例として、位相差領域に関する情報、及び、話者方向判定プログラムを実行している間に生成される中間データなどを記憶する。
【0030】
CPU51は、プログラム格納領域53Aから話者方向判定プログラムを読み出して一次記憶部52に展開する。CPU51は、話者方向判定プログラムをロードして実行することで、
図2の第1音受付部11、第2音受付部12、第1時間周波数変換部13、及び、第2時間周波数変換部14として動作する。CPU51は、また、位相差算出部15、位相差領域設定部16、位相差数取得部17、位相差数平均値算出部18、及び、方向判定部22として動作する。
【0031】
なお、話者方向判定プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部52に展開されてもよい。また、話者方向判定プログラムなどのプログラムは、DVD(Digital Versatile Disc)などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部52に展開されてもよい。
【0032】
外部インタフェース54には外部装置が接続され、外部インタフェース54は、外部装置とCPU51との間の各種情報の送受信を司る。第1マイクM01及び第2マイクM02は、外部インタフェース54を介して、外部装置として、話者方向判定装置10Aと接続されている。第1マイクM01及び第2マイクM02は音を検出する。
【0033】
話者方向判定装置10Aのみが筐体1Aに含まれ、話者方向判定結果は、外部インタフェース54を介して有線または無線の通信により、音声認識装置70に送信されてもよい。話者方向判定装置10Aを含む翻訳システム1は、例えば、パーソナルコンピュータであってもよいし、スマートフォンであってもよいし、専用のデバイスであってもよい。
【0034】
次に、話者方向判定処理の作用の概要について説明する。
図7は、話者方向判定処理の流れを例示する。
【0035】
CPU51は、ステップ101で、第1マイクM01及び第2マイクM02の各々で検出された音に対応する時間領域の音信号を取得する。CPU51は、ステップ102で、取得された時間領域の音信号の各々を周波数領域の音信号に変換する。変換は、例えば、Fourier Frequency Transformation(FFT)で行われる。
【0036】
CPU51は、ステップ103で、周波数領域の音信号の周波数帯域毎の位相差を算出する。CPU51は、ステップ104で、予め設定されている、話者毎の話者領域の各々に対応する位相差領域の各々に含まれる位相差数を取得する。CPU51は、例えば、話者P01の位相差領域A01に含まれる位相差数及び話者P02の位相差領域A02に含まれる位相差数を取得する。
【0037】
CPU51は、ステップ105で、位相差領域の各々の位相差数の時間平均値を算出する。詳細には、CPU51は、例えば、位相差領域A01の位相差数の時間平均値及び位相差領域A02の位相差数の時間平均値を算出する。
【0038】
CPU51は、ステップ107で、位相差領域の各々の位相差数の時間平均値を比較する。CPU51は、例えば、位相差領域A01の位相差数の時間平均値と位相差領域A02の位相差数の時間平均値とを比較する。
【0039】
位相差領域A01の位相差数の時間平均値が位相差領域A02の位相差数の時間平均値以上である場合、CPU51は、ステップ108に進み、話者方向が位相差領域A01側であると判定する。位相差領域A01が話者P01に対応付けられている場合、CPU51は、話者P01が発話していることを判定し、話者方向判定処理を終了する。
【0040】
ステップ107の判定が否定された場合、即ち、位相差領域A01の位相差数の時間平均値が位相差領域A02の位相差数時間平均値より小さい場合、CPU51は、ステップ110に進む。CPU51は、ステップ110で、話者方向が位相差領域A02側であると判定する。位相差領域A02が話者P02に対応付けられている場合、CPU51は、話者P02が発話していることを判定し、話者方向判定処理を終了する。
【0041】
なお、本実施形態は、2つのマイクに限定されない。3つ以上のマイクを使用してもよい。また、本実施形態は、2つの位相差領域に限定されない。3つ以上の位相差領域を設定してもよい。
【0042】
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
【0043】
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。
【0044】
[第2実施形態]
以下、図面を参照して第2実施形態の一例を詳細に説明する。第1実施形態と同様の構成及び作用については、説明を省略する。
【0045】
第2実施形態では、複数の位相差領域の大きさが相互に異なる点が、第1実施形態と異なる。
図8に例示する話者方向判定装置10Bは、補正係数算出部19及び位相差数平均値補正部21を含む点で、
図2に例示した第1実施形態の話者方向判定装置10Aと異なる。
【0046】
第2実施形態では、
図9に例示するように、第1マイクM11は、話者方向判定装置を含む翻訳システム1Dの筐体11Dの上面に配置され、第2マイクM12は、翻訳システム1Dの前面に配置されている。
【0047】
図10に例示するように、翻訳システム1Dを、筐体11Dの背面が話者側を向くように胸元に装着した話者P11が、話者P11より身長が低い話者P12Aと対話する場合が想定される。また、話者P11が、話者P11より身長が高い話者P12Bと対話する場合も想定される。
【0048】
このような場合、
図10に例示するように、話者P11が存在する第1話者領域E11よりも、話者P12A及び話者P12Bの両方に対応することができる第2話者領域E12は、広く設定される。一方、第1話者領域E11は、話者方向判定装置10Bを含む翻訳システム1Dの装着位置と話者P11の口の位置とに基づいて、比較的狭く設定することができる。
【0049】
図11は、
図10に例示するように話者領域が設定された場合の位相差領域を例示する。
図11の位相差領域A11は、
図10の話者領域E11に対応し、
図11の位相差領域A12は
図10の話者領域E12に対応する。
図10に例示するように、話者領域E11が狭く話者領域E12が広いため、話者領域E11に対応する位相差領域A11が狭く、話者領域E12に対応する位相差領域A12が広く設定される。
【0050】
第2位相差領域A12が第1位相差領域A11よりも広いため、
図11に例示するように、位相差領域A12に含まれる位相差数が位相差領域A11に含まれる位相差数よりも多くなる傾向が生じる。位相差領域が広いと、雑音の位相差もより多く含まれるためである。
図11の縦軸は位相差[rad]を表し、横軸は周波数[Hz]を表す。
図11において、位相差は丸で表されている。
【0051】
図12の下図に、第1位相差領域A11の位相差数の時間平均値を実線で例示し、第2位相差領域A12の位相差数の時間平均値を破線で例示する。
図12の下図の縦軸は位相差数の平均値を表し、横軸は時間[s]を表す。
【0052】
図12の上図に例示する話者P11の発話時間である時間T02であっても、
図12の下図に例示するように、第1位相差領域A11の位相差数の時間平均値は、第2位相差領域A12の位相差数の時間平均値よりも小さい。この結果、単に、第1位相差領域A11の位相差数の時間平均値と第2位相差領域A12の位相差数の時間平均値とを比較した場合、話者方向が適切に判定されず、話者P11の発話が話者P12の発話であると誤認識される虞が生じる。
【0053】
第2実施形態では、誤認識を防止するために、広い方の位相差領域である第2位相差領域A12を基準として、補正係数を算出し、算出した補正係数で狭い方の位相差領域である第2位相差領域の位相差数の時間平均値を補正する。補正係数算出部19は、例えば、話者領域の中心角の角度に基づいて、補正係数を算出する。即ち、補正係数は、話者領域各々の面積比から算出される。
【0054】
図13に例示するように、第1話者領域E11の基点に接する頂点の角度がθ
A[°]であり、第2話者領域E12の基点に接する頂点の角度がθ
B[°]である場合、補正係数α
1は、例えば、(5)式を使用して算出される。
α
1=(πr
2×θ
B/360)/(πr
2×θ
A/360)=θ
B/θ
A…(5)
【0055】
ここでは、第1話者領域E11及び第2話者領域E12の各々が、半径rの円に含まれる扇形であると仮定する。位相差数平均値補正部21は、狭い方の位相差領域である第1位相差領域A11の位相差数の時間平均値に補正係数α1を乗算する。
【0056】
次に、話者方向判定処理の作用の概要について説明する。
図14では、
図7のステップ107、ステップ108、及びステップ110がステップ107D、ステップ108D、及びステップ110Dと置き替えられている。CPU51は、ステップ107Dで、第1位相差領域A11の位相差数の時間平均値に補正係数α
1を乗算した値が、第2位相差領域A12の位相差数の時間平均値以上であるか否か判定する。ステップ107Dの判定が肯定された場合、CPU51は、ステップ108Dに進み、話者方向が第1位相差領域A11側であると判定し、話者方向判定処理を終了する。
【0057】
ステップ107Dの判定が否定された場合、即ち、第1位相差領域A11の位相差数の時間平均値に補正係数α1を乗算した値が、第2位相差領域A12の位相差数の時間平均値より小さい場合、CPU51は、ステップ110Dに進む。CPU51は、ステップ110Dで、話者方向が第2位相差領域A12側であると判定し、話者方向判定処理を終了する。
【0058】
補正係数α
1を適用することで、
図15の下図に例示するように、
図15の上図に例示する、話者P11の発話時間である時間T02において、第1位相差領域A11の位相差数の時間平均値が第2位相差領域A12の位相差数の時間平均値よりも大きくなる。これにより、時間T02において、話者P11が発話していることが適切に判定される。
【0059】
なお、狭い方の位相差領域である第1位相差領域A11の位相差数の時間平均値に補正係数を乗算する例について説明したが、本実施形態はこれに限定されない。例えば、広い方の位相差領域である第2位相差領域A12の位相差数の時間平均値を補正係数で除算するようにしてもよい。また、補正係数α1Dを(6)式で算出して、広い方の位相差領域である第2位相差領域A12の位相差数の時間平均値に乗算するようにしてもよい。
α1D=(πr2×θA/360)/(πr2×θB/360)=θA/θB…(6)
【0060】
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域の各々に対応する複数の位相差領域の各々に基づいて、複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対する話者領域の方向を話者の存在方向であると判定する。
【0061】
本実施形態では、複数の話者領域の大きさが相違する場合には、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、話者の存在方向を判定する。
【0062】
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の話者領域の大きさが相違する場合であっても、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。
【0063】
[第3実施形態]
以下、図面を参照して第3実施形態の一例を詳細に説明する。第1実施形態及び第2実施形態と同様の構成及び作用については、説明を省略する。
【0064】
第3実施形態では、補正係数を位相差数の時間平均値に基づいて算出する点で、第2実施形態と異なる。
図16に例示する話者方向判定装置10Cは、補正係数算出部19に代えて、補正係数算出部19Dを含み、位相差数平均値補正部21に代えて、位相差数平均値補正部21Dを含む点で、
図8に例示した第2実施形態の話者方向判定装置10Bと異なる。
【0065】
補正係数算出部19Dは、例えば、
図17に例示するように、(7)式で、補正係数α
2を算出する。avgは、広い方の位相差領域の位相差数の時間平均値であり、C
1、C
2、H
1、及びH
2は所定の定数である。
α
2=C
1(≧1.0) (avg≦H
1である場合)
α
2=C
2(>C
1) (avg≧H
2(>H
1)である場合)
α
2=C
1+(C
2-C
1)×(avg-H
1)/(H
2-H
1)
(H
1<avg<H
2である場合) …(7)
【0066】
図17の横軸は広い方の位相差領域の位相差数の時間平均値を表し、縦軸は補正係数α
2を表す。
【0067】
次に、話者方向判定処理の作用の概要について説明する。
図18では、補正係数α
2を算出するステップ106がステップ105の後に追加され、ステップ107D、ステップ108D、及びステップ110Dがステップ107E、ステップ108E、及びステップ110Eと各々置き替えられている点で、
図14と異なる。ステップ106では、例えば、(7)式を使用して、補正係数α
2を算出する。
【0068】
ステップ107Eでは、狭い方の話者領域に対応する位相差領域である第1位相差領域A21の位相差数の時間平均値に補正係数α2を乗算した値が、第2位相差領域A22の位相差数の時間平均値以上であるか否か判定する。ステップ107Eの判定が肯定された場合、CPU51は、ステップ108Eで、話者方向が第1位相差領域A21側であると判定し、話者方向判定処理を終了する。
【0069】
ステップ107Eの判定が否定された場合、即ち、第1位相差領域A21の位相差数の時間平均値に補正係数α2を乗算した値が、第2位相差領域A22の位相差数の時間平均値より小さい場合、CPU51は、ステップ110Eに進む。CPU51は、ステップ110Eで、話者方向が第2位相差領域A22側であると判定し、話者方向判定処理を終了する。
【0070】
なお、本実施形態では、広い方の話者領域に対応する位相差領域の位相差数の時間平均値に基づいて、話者領域の面積の差による位相差数の差を緩衝する補正係数を算出する。本実施形態では、算出した補正係数を狭い方の話者領域に対応する位相差領域の位相差数の時間平均値に適用する。しかしながら、本実施形態はこれに限定されない。狭い方の話者領域に対応する位相差領域の位相差数の時間平均値に基づいて、面積の差による位相差数の差を緩衝する補正係数を算出し、算出した補正係数を広い方の話者領域に対応する位相差領域の位相差数の時間平均値に適用するようにしてもよい。
【0071】
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
【0072】
本実施形態では、複数の話者領域の大きさが相違する場合には、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する。補正係数は、複数の位相差領域の何れか1つの位相差領域の代表値に基づいて決定される。補正係数は、補正係数の決定に使用した代表値が大きくなるに従って大きくなるように定められる、
【0073】
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の話者領域の大きさが相違する場合であっても、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。
【0074】
また、本実施形態では、補正係数は、複数の位相差領域の何れか1つの位相差領域の代表値に基づいて決定される。補正係数が、位相差数の時間平均値の変動に基づいて変動するため、話者が存在する方向の判定精度を向上させることができる。
【0075】
[第4実施形態]
以下、図面を参照して第4実施形態の一例を詳細に説明する。第1実施形態、第2実施形態、及び第3実施形態と同様の構成及び作用については、説明を省略する。
【0076】
第4実施形態では、信号対雑音比(以下、SNR(Signal to Noise Ratio)と呼ぶ。)が所定値より大きい周波数帯域の位相差を計数する点で、第1実施形態、第2実施形態、及び第3実施形態と異なる。また、補正係数を定常雑音モデル推定値に基づいて算出する点で、第2実施形態、及び第3実施形態と異なる。
【0077】
第4実施形態の話者方向判定装置10Dは、
図19に例示するように、SNR算出部20を含む。話者方向判定装置10Dは、位相差数取得部17及び位相差数平均値補正部21Dに代えて、位相差数取得部17E及び位相差数平均値補正部21Eを有する点で、話者方向判定装置10Cと異なる。
【0078】
SNR算出部20は、複数のマイクの何れかで取得した音に対応する周波数領域の音信号の周波数帯域毎の定常雑音モデルを推定する。定常雑音モデルの推定には、例えば、特許文献2に記されているような既存の技術を適用することができる。位相差数取得部17Eは、周波数領域の音信号の周波数帯域毎のSNRを算出する。SNRは、例えば、周波数帯域毎の音圧の振幅を、対応する定常雑音モデルで除算することで算出することができる。
【0079】
位相差数取得部17Eは、算出したSNRが所定値より大きい場合に、位相差領域の各々の当該周波数帯域に存在する位相差を計数する。例えば、第1位相差領域の当該周波数帯域に存在する位相差を計数し、第2位相差領域の当該周波数帯域に存在する位相差を計数する。即ち、SNRが所定値以下である場合には、当該周波数帯域の位相差を計数しない。
【0080】
補正係数算出部19Eは、
図20に例示するように、例えば、(8)式で、補正係数α
3を算出する。cnmは、広い方の話者領域に対応する位相差領域である第2位相差領域の定常雑音モデル推定値[dBA]であり、D
1、D
2、J
1、及びJ
2は所定の定数である。
α
3=D
1(≧1.0) (cnm≦J
1である場合)
α
3=D
2(>D
1) (cnm≧J
2(>J
1)である場合)
α
3=D
1+(D
2-D
1)×(cnm-J
1)/(J
2-J
1)
(J
1<cnm<J
2である場合) …(8)
【0081】
図20の横軸は、定常雑音モデル推定値[dBA]を表し、縦軸は補正係数α
3を表す。補正係数α
3は、狭い方の話者領域に対応する位相差領域である第1位相差領域の位相差数の時間平均値を補正するために、当該時間平均値に乗算される。
【0082】
次に、話者方向判定処理の作用の概要について説明する。ここでは、第1~第3実施形態と異なる位相差数取得処理について説明する。
図21に、位相差数取得処理の流れを例示する。CPU51は、ステップ121で、変数i、N1及びN2に0をセットする。変数iは、周波数帯域数をカウントし、N1は第1位相差領域の位相差数を計数し、N2は第2位相差領域の位相差数を計数するために使用される。
【0083】
CPU51は、ステップ122で、変数iの値がFFTフレーム数、即ち、周波数帯域数の最大値より小さいか否か判定する。ステップ122の判定が肯定された場合、CPU51は、ステップ123で、i番目の周波数帯域の定常雑音モデルを推定し、ステップ124で、i番目の周波数帯域のSNRを算出する。
【0084】
CPU51は、ステップ125で、SNRが所定値より大きいか否か判定する。ステップ125の判定が肯定された場合、CPU51は、ステップ126で、i番目の周波数帯域の位相差が第1位相差領域内に存在するか否か判定する。ステップ126の判定が肯定された場合、CPU51は、ステップ127で、変数N1の値に1を加算して、ステップ130に進む。
【0085】
ステップ126の判定が否定された場合、CPU51は、ステップ128で、i番目の周波数帯域の位相差が第2位相差領域内に存在するか否か判定する。ステップ128の判定が肯定された場合、CPU51は、ステップ129で、変数N2の値に1を加算して、ステップ130に進む。ステップ128の判定が否定された場合も、CPU51は、ステップ130に進む。
【0086】
CPU51は、ステップ130で、変数iに1を加算して、ステップ122に戻る。ステップ122の判定が否定された場合、即ち、変数iの値がFFTフレーム数以上である場合、CPU51は位相差数取得処理を終了する。
【0087】
なお、本実施形態では、(8)式を使用して補正係数を算出する例について説明した。しかしながら、例えば、本実施形態で、第2及び第3実施形態で説明した補正係数を使用してもよいし、(8)式を使用して算出した補正係数を第2または第3実施形態で説明した例に使用してもよい。また、第1実施形態で説明した例と同様に、本実施形態で、補正係数を使用しなくてもよい。
【0088】
なお、本実施形態では、広い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて補正係数を算出し、狭い方の話者領域に対応する位相差領域の代表値に適用する例について説明しているが、本実施形態はこれに限定されない。例えば、広い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて、広い方の話者領域に対応する位相差領域の代表値を補正する補正係数を算出し、広い方の話者領域に対応する位相差領域に適用してもよい。または、狭い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて、広い方の話者領域に対応する位相差領域の代表値を補正する補正係数を算出し、広い方の話者領域に対応する位相差領域に適用してもよい。
【0089】
本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。
【0090】
本実施形態では、複数の位相差領域の大きさが相違する場合には、複数の位相差領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する。本実施形態では、補正係数は、複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値が大きくなるに従って大きくなるように定められる。また、本実施形態では、複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する。
【0091】
本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の位相差領域の大きさが相違する場合であっても、複数の位相差領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。
【0092】
本実施形態では、補正係数は、複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値の変動に基づいて変動するため、話者が存在する方向の判定精度を向上させることができる。本実施形態では、複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する。即ち、雑音レベルが高い周波数帯域の位相差を計数しないため、話者が存在する方向の判定精度を向上させることができる。
【0093】
【0094】
なお、話者方向判定結果を使用して翻訳を行う翻訳システムの例について説明したが、本実施形態はこれに限定されない。例えば、議事録生成システムにおいて、話者方向に基づいて、発話している話者を判定するために使用されてもよい。
【0095】
[比較例]
図22に、2つの話者領域の大きさが異なる場合、即ち、2つの位相差領域の大きさが異なる場合の話者方向判定の正解率を例示する。広い方の位相差領域の話者方向判定の正解率は、第1実施形態のように、補正係数を使用しない場合、90.1[%]であり、第2及び第3実施形態のように、補正係数を使用する場合、100.0[%]に向上する。
【0096】
狭い方の位相差領域の話者方向判定の正解率は、補正係数を使用しない場合、59.8[%]であり、第2実施形態のように、位相差領域の面積比などに基づいて算出される固定された補正係数を使用する場合、59.8[%]に向上する。また、狭い方の位相差領域の話者方向判定の正解率は、第3実施形態のように、位相差領域の位相差数の時間平均値などに基づいて算出される変動する補正係数を使用する場合、81.0[%]に向上する。
【0097】
関連技術では、音の下限周波数帯域から上限周波数帯域までの位相差の平均値を使用している。したがって、
図23に例示するように、丸で表す雑音の位相差が、三角で表す発話の位相差と混在してしまい、位相差の平均値が影響を受け、話者方向を適切に判定することが困難となる場合がある。一方、本実施形態では、
図24に例示するように、例えば、第1位相差領域A41及び第2位相差領域A42のような複数の位相差領域の各々の位相差数の時間平均値を比較する。したがって、雑音の位相差が存在したとしても、両方の位相差領域に同様な影響を及ぼすため、話者方向を適切に判定することができ、話者方向の判定精度を向上させることができる。
【0098】
以上の各実施形態に関し、更に以下の付記を開示する。
【0099】
(付記1)
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
(付記2)
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記1のプログラム。
(付記3)
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記2のプログラム。
(付記4)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
付記2のプログラム。
(付記5)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記2のプログラム。
(付記6)
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記1~付記5の何れかのプログラム。
(付記7)
前記代表値は時間平均値である、
付記1~付記6の何れかのプログラム。
(付記8)
コンピュータが、
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定方法。
(付記9)
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記8の話者方向判定方法。
(付記10)
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記9の話者方向判定方法。
(付記11)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
付記9の話者方向判定方法。
(付記12)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記9の話者方向判定方法。
(付記13)
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記8~付記12の何れかの話者方向判定方法。
(付記14)
前記代表値は時間平均値である、
付記8~付記13の何れかの話者方向判定方法。
(付記15)
複数のマイクロフォンを含むマイクアレイと、
複数の話者領域の各々を、前記マイクアレイを基点として各々異なる方向に設定する設定部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する位相差算出部と、
前記位相差算出部で算出された位相差、及び前記設定部で設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する代表値算出部と、
前記代表値算出部で算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する判定部と、
を含む、話者方向判定装置。
(付記16)
前記判定部は、前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記15の話者方向判定装置。
(付記17)
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記16の話者方向判定装置。
(付記18)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の前記代表値に基づいて決定される、
付記16の話者方向判定装置。
(付記19)
前記補正係数は、前記複数の位相差領域の何れか1つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記16の話者方向判定装置。
(付記20)
前記複数のマイクロフォンの1つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記15~付記19の何れかの話者方向判定装置。
【符号の説明】
【0100】
10A 話者方向判定装置
15 位相差算出部
16 位相差領域設定部
17 位相差数取得部
18 位相差数平均値算出部
22 方向判定部
51 CPU
52 一次記憶部
53 二次記憶部
M01 第1マイク
M02 第2マイク