特許第6618885号(P6618885)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6618885音声区間検出装置、音声区間検出方法、プログラム
<>
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000007
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000008
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000009
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000010
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000011
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000012
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000013
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000014
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000015
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000016
  • 特許6618885-音声区間検出装置、音声区間検出方法、プログラム 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6618885
(24)【登録日】2019年11月22日
(45)【発行日】2019年12月11日
(54)【発明の名称】音声区間検出装置、音声区間検出方法、プログラム
(51)【国際特許分類】
   G10L 15/04 20130101AFI20191202BHJP
   G10L 25/84 20130101ALI20191202BHJP
【FI】
   G10L15/04 300Z
   G10L25/84
【請求項の数】5
【全頁数】15
(21)【出願番号】特願2016-228953(P2016-228953)
(22)【出願日】2016年11月25日
(65)【公開番号】特開2018-84748(P2018-84748A)
(43)【公開日】2018年5月31日
【審査請求日】2018年12月12日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】福冨 隆朗
(72)【発明者】
【氏名】岡本 学
(72)【発明者】
【氏名】松井 清彰
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2012−48119(JP,A)
【文献】 特開2010−20294(JP,A)
【文献】 Friedrich FAUBEL, et al.,IMPROVING HANDS-FREE SPEECH RECOGNITION IN A CAR THROUGH AUDIO-VISUAL VOICE ACTIVITY DETECTION,2011 Joint Workshop on Hands-free Speech Communication and Microphone Arrays,IEEE,2011年 5月,p.70-75
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/04,25/00−25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
目的話者が発話すると想定される方向(以下、正面方向という)に向けて設置されるマイクロホンをマイクロホン0、それ以外のM個(M≧1)のマイクロホンをマイクロホン1、マイクロホン2、…、マイクロホンMとし、
前記マイクロホン0から見て正面方向を0度の方向とし、
前記マイクロホン0を中心として0度の方向を基準としたM+1個のマイクロホンi(i=0, 1, 2,…, M)の方向をθi(0≦θi≦2π, ただし、θ0=0とする)、前記マイクロホン0とM+1個のマイクロホンi(i=0, 1, 2,…, M)の距離をri(ri≧0, r0=0)とし、
前記マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する尤度計算部と、
前記音声データxi(i=0, 1, 2,…, M)から、各フレームについて、前記マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する目的話者音声到来方向推定部と、
前記目的話者音声到来方向θest,jと、前記マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、前記マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する重み計算部と、
前記目的話者音声到来方向θest,jから、各フレームについて、過去tフレーム分(tは1以上の整数)の目的話者音声到来方向の変化分である目的話者音声到来方向時間変化Δθjを計算する目的話者音声到来方向時間変化計算部と、
前記音声尤度Lspeech_i,j、前記非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、前記重みwi,j(i=0, 1, 2,…, M)と、前記目的話者音声到来方向時間変化Δθjから、各フレームについて、重み付き尤度比Ljを計算する重み付き尤度比計算部と、
前記重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する音声区間判定部と
を含む音声区間検出装置。
【請求項2】
目的話者が発話すると想定される方向(以下、正面方向という)に向けて設置されるマイクロホンをマイクロホン0、それ以外のM個(M≧1)のマイクロホンをマイクロホン1、マイクロホン2、…、マイクロホンMとし、
前記マイクロホン0から見て正面方向を0度の方向とし、
前記マイクロホン0を中心として0度の方向を基準としたM+1個のマイクロホンi(i=0, 1, 2,…, M)の方向をθi(0≦θi≦2π, ただし、θ0=0とする)、前記マイクロホン0とM+1個のマイクロホンi(i=0, 1, 2,…, M)の距離をri(ri≧0, r0=0)とし、
前記マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する尤度計算部と、
前記音声データxi(i=0, 1, 2,…, M)から、各フレームについて、前記マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する目的話者音声到来方向推定部と、
前記目的話者音声到来方向θest,jと、前記マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、前記マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する重み計算部と、
前記音声尤度Lspeech_i,j、前記非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、前記重みwi,j(i=0, 1, 2,…, M)から、各フレームについて、重み付き尤度比Ljを計算する重み付き尤度比計算部と、
前記重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する音声区間判定部と
を含む音声区間検出装置。
【請求項3】
請求項1または2に記載の音声区間検出装置であって、
前記重みwi,j(i=0, 1, 2,…, M)は、前記マイクロホン0とマイクロホンの距離をr、前記マイクロホン0を中心として0度の方向を基準としたマイクロホンの方向をθ、前記マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θestとして、前記距離rと、前記方向θと前記目的話者音声到来方向θestのずれであるθ-θestとの関数w(r, θ-θest)を用いて計算されるものであり、
前記関数w(r, θ-θest)は、rについて、単調減少関数であり、
前記関数w(r, θ-θest)は、θ-θestについて、θ-θest=0のとき最大、θ-θest=πのとき最小となるように単調減少し、w(r, -(θ-θest))=w(r, θ-θest)となる周期2πの関数であることを特徴とする音声区間検出装置。
【請求項4】
目的話者が発話すると想定される方向(以下、正面方向という)に向けて設置されるマイクロホンをマイクロホン0、それ以外のM個(M≧1)のマイクロホンをマイクロホン1、マイクロホン2、…、マイクロホンMとし、
前記マイクロホン0から見て正面方向を0度の方向とし、
前記マイクロホン0を中心として0度の方向を基準としたM+1個のマイクロホンi(i=0, 1, 2,…, M)の方向をθi(0≦θi≦2π, ただし、θ0=0とする)、前記マイクロホン0とM+1個のマイクロホンi(i=0, 1, 2,…, M)の距離をri(ri≧0, r0=0)とし、
音声区間検出装置が、前記マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する尤度計算ステップと、
前記音声区間検出装置が、前記音声データxi(i=0, 1, 2,…, M)から、各フレームについて、前記マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する目的話者音声到来方向推定ステップと、
前記音声区間検出装置が、前記目的話者音声到来方向θest,jと、前記マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、前記マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する重み計算ステップと、
前記音声区間検出装置が、前記目的話者音声到来方向θest,jから、各フレームについて、過去tフレーム分(tは1以上の整数)の目的話者音声到来方向の変化分である目的話者音声到来方向時間変化Δθjを計算する目的話者音声到来方向時間変化計算ステップと、
前記音声区間検出装置が、前記音声尤度Lspeech_i,j、前記非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、前記重みwi,j(i=0, 1, 2,…, M)と、前記目的話者音声到来方向時間変化Δθjから、各フレームについて、重み付き尤度比Ljを計算する重み付き尤度比計算ステップと、
前記音声区間検出装置が、前記重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する音声区間判定ステップと
を含む音声区間検出方法。
【請求項5】
請求項1ないし3のいずれか1項に記載の音声区間検出装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声区間検出技術に関し、特に複数のマイクロホンで収音した音声信号を用いて目的話者が発話した音声区間を検出する技術に関する。
【背景技術】
【0002】
音声認識技術においては、音声区間検出技術を用いて話者が発話した区間(以下、音声区間という)のみを切り出し、音声認識を行う。認識対象となる音声データから音声区間のみを切り出し、話者が発話していない雑音区間(以下、雑音区間のことを非音声区間ともいう)を除去した上で音声認識を行うことで、精度よく音声認識することができる(非特許文献1)。音声区間検出の一手法として、入力した音声データの各フレームに対して、音声が含まれる尤もらしさである音声尤度、音声が含まれない尤もらしさである非音声尤度を算出し、音声区間を決定する手法がある。
【0003】
音声認識技術は、会話ができるロボットであるコミュニケーションロボットやデジタルサイネージ用のデバイスなどに適用されている。このコミュニケーションロボットやデジタルサイネージ用のデバイスでは、話者の位置が正面にくることがある程度想定されるため、特定のマイクロホン(具体的には、ロボットやデバイスの正面に位置するマイクロホン)で収音される音声データを強調した上で音声認識を行うことができる。これにより認識精度を向上させることが可能となる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】藤本雅清, “音声区間検出の基礎と最近の研究動向”, IEICE Technical Report, SP2010-23, pp.7-pp.12, 2010.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、コミュニケーションロボット等の実際の使用環境では、雑音が存在する。雑音がある環境では、雑音の影響により、精度よく音声区間の検出が行えず、結果音声認識精度が低下してしまうという問題がある。
【0006】
この問題を解決する一つの方法として、雑音抑圧技術を用いることが考えられる。雑音抑圧技術を用いることによりある程度雑音の影響を低減することができる。しかし、干渉性雑音である、音声認識の対象となる目的話者と異なる話者の音声の影響を低減することは難しく、人混み等では十分な性能を発揮することができない。
【0007】
そこで本発明は、雑音環境下であっても、目的話者の音声区間を検出することができる音声区間検出技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様は、目的話者が発話すると想定される方向(以下、正面方向という)に向けて設置されるマイクロホンをマイクロホン0、それ以外のM個(M≧1)のマイクロホンをマイクロホン1、マイクロホン2、…、マイクロホンMとし、前記マイクロホン0から見て正面方向を0度の方向とし、前記マイクロホン0を中心として0度の方向を基準としたM+1個のマイクロホンi(i=0, 1, 2,…, M)の方向をθi(0≦θi≦2π, ただし、θ0=0とする)、前記マイクロホン0とM+1個のマイクロホンi(i=0, 1, 2,…, M)の距離をri(ri≧0, r0=0)とし、前記マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する尤度計算部と、前記音声データxi(i=0, 1, 2,…, M)から、各フレームについて、前記マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する目的話者音声到来方向推定部と、前記目的話者音声到来方向θest,jと、前記マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、前記マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する重み計算部と、前記目的話者音声到来方向θest,jから、各フレームについて、過去tフレーム分(tは1以上の整数)の目的話者音声到来方向の変化分である目的話者音声到来方向時間変化Δθjを計算する目的話者音声到来方向時間変化計算部と、前記音声尤度Lspeech_i,j、前記非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、前記重みwi,j(i=0, 1, 2,…, M)と、前記目的話者音声到来方向時間変化Δθjから、各フレームについて、重み付き尤度比Ljを計算する重み付き尤度比計算部と、前記重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する音声区間判定部とを含む。
【0009】
本発明の一態様は、目的話者が発話すると想定される方向(以下、正面方向という)に向けて設置されるマイクロホンをマイクロホン0、それ以外のM個(M≧1)のマイクロホンをマイクロホン1、マイクロホン2、…、マイクロホンMとし、前記マイクロホン0から見て正面方向を0度の方向とし、前記マイクロホン0を中心として0度の方向を基準としたM+1個のマイクロホンi(i=0, 1, 2,…, M)の方向をθi(0≦θi≦2π, ただし、θ0=0とする)、前記マイクロホン0とM+1個のマイクロホンi(i=0, 1, 2,…, M)の距離をri(ri≧0, r0=0)とし、前記マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する尤度計算部と、前記音声データxi(i=0, 1, 2,…, M)から、各フレームについて、前記マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する目的話者音声到来方向推定部と、前記目的話者音声到来方向θest,jと、前記マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、前記マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する重み計算部と、前記音声尤度Lspeech_i,j、前記非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、前記重みwi,j(i=0, 1, 2,…, M)から、各フレームについて、重み付き尤度比Ljを計算する重み付き尤度比計算部と、前記重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する音声区間判定部とを含む。
【発明の効果】
【0010】
本発明によれば、目的話者の音声が到来する方向を推定し、当該方向からの音声を強調したうえで目的話者による音声区間を検出することにより、雑音環境下であっても、目的話者の音声区間を精度よく検出することが可能となる。
【図面の簡単な説明】
【0011】
図1】収音システムの一例を示す図。
図2】音声区間検出装置100の構成の一例を示す図。
図3】音声区間検出装置100の動作の一例を示す図。
図4】尤度計算部110の構成の一例を示す図。
図5】尤度計算部110の動作の一例を示す図。
図6】目的話者音声到来方向の一例を示す図。
図7】重み付き尤度比計算部140の構成の一例を示す図。
図8】重み付き尤度比計算部140の動作の一例を示す図。
図9】音声区間検出装置200の構成の一例を示す図。
図10】音声区間検出装置200の動作の一例を示す図。
図11】重み付き尤度比計算部240の構成の一例を示す図。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0013】
<定義>
以下、各実施形態で用いる用語について説明する。
【0014】
まず、目的話者の発話を収音する複数のマイクロホンからなる収音システムについて説明する。
【0015】
[収音システム]
収音システムは、1個のメインマイクロホンとM個(M≧1)のサブマイクロホンから構成される。メインマイクロホンとは、目的話者が発話すると想定される方向(以下、正面方向という)に向けて設置されるマイクロホンである。例えば、コミュニケーションロボットに搭載されるマイクロホンの場合、ロボットの前面につけられた、正面方向に向けられたマイクロホンのことである。また、サブマイクロホンとは、メインマイクロホン以外のマイクロホンのことをいう。
【0016】
以下、メインマイクロホンをマイクロホン0と、M個のサブマイクロホンをそれぞれマイクロホン1、マイクロホン2、…、マイクロホンMということにする。
【0017】
マイクロホン0から地面に対して垂直となるよう直線を下し、当該直線を法線としマイクロホン0を通る平面Pを考える(図1参照)。この平面P上で目的話者が発話すると想定される方向、つまりマイクロホン0から見て正面方向を0度の方向とする。
【0018】
マイクロホン0を中心として0度の方向を基準としたM+1個のマイクロホンi(i=0, 1, 2,…, M)の方向(以下、マイクロホン0に対するマイクロホンiの方向という)をθi(i=0, 1, 2,…, M)とする(0≦θi≦2π, ただし、θ0=0とする)。また、マイクロホン0とM+1個のマイクロホンi(i=0, 1, 2,…, M)の距離をri(i=0, 1, 2,…, M)とする(ri≧0, r0=0)。つまり、マイクロホンiの位置は、マイクロホン0に対するマイクロホンiの方向θiとマイクロホン0とマイクロホンiの距離riで表される。
【0019】
図1は、メインマイクロホン(マイクロホン0)と2個のサブマイクロホン(マイクロホン1とマイクロホン2)で構成される収音システムの一例(M=2)を示す。図1ではサブマイクロホンが平面P上にある例を示したが、サブマイクロホンは必ずしも平面P上に存在しなくてもよい。平面P上に存在しない場合、サブマイクロホンから平面Pに下した垂線と平面Pの交点を用いてマイクロホン0に対するマイクロホンiの方向θi(iは1以上M以下の整数)を定義する。
【0020】
<第一実施形態>
以下、図2図3を参照して音声区間検出装置100について説明する。
【0021】
図2に示すように音声区間検出装置100は、尤度計算部110、目的話者音声到来方向推定部120、重み計算部130、目的話者音声到来方向時間変化計算部135、重み付き尤度比計算部140、音声区間判定部150、記録部190を含む。記録部190は、音声区間検出装置100の処理に必要な情報を適宜記録する構成部である。例えば、重み計算部130で用いるマイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riや、音声区間判定部150で用いる閾値thを事前に記録しておく。
【0022】
音声区間検出装置100は、収音システムで収音したM+1個の音声データ、つまりマイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxiを入力として、各フレームが音声区間であるか否かの判定結果である音声区間判定結果を生成し、出力する。
【0023】
図3に従い音声区間検出装置100の動作について説明する。尤度計算部110は、マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する(S110)。インデックスjは、例えば、j=0, 1, …とすればよい。
【0024】
以下、図4図5を参照して尤度計算部110について説明する。図4に示すように尤度計算部110は、特徴量抽出部111、尤度算出部113を含む。図5に従い尤度計算部110の動作について説明する。特徴量抽出部111は、入力された音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、特徴量jを抽出する(S111)。特徴量には、MFCC(Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数)やパワーを用いるとよい。尤度算出部113は、S111で抽出した特徴量jから、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)を算出する(S113)。例えば、ガウス混合分布モデルGMM(Gaussian Mixture Model)を用いる方法がある(参考非特許文献1)。この方法では、音声GMMと非音声GMMから、それぞれ音声尤度と非音声尤度を算出する。
(参考非特許文献1)藤本雅清, 有木康雄, “GMMに基づく音声信号推定法と時間領域SVDに基づく音声強調法の併用による雑音下音声認識”, 電子情報通信学会論文誌, D-II, Vol.J88-D-II, No.2, pp.250-265, 2005.
【0025】
目的話者音声到来方向推定部120は、入力された音声データxi(i=0, 1, 2,…, M)から、各フレームについて、マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する(S120)。図6に目的話者とマイクロホン0の位置関係を示す。目的話者音声到来方向の推定には、参考非特許文献2の技術を用いることができる。
(参考非特許文献2)C. H. Knapp, G. C. Carter, “The Generalized Correlation Method for Estimation of Time Delay”, IEEE Transactions on Acoustics, Speech and Signal Processing, Vol.24, No.4, pp.320-327, 1976.
【0026】
この推定技術を用いると、複数のマイクロホンを用いて目的話者にフォーカスし、周囲の雑音の影響を軽減することができる。
【0027】
重み計算部130は、S120で推定した目的話者音声到来方向θest,jと、マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する(S130)。ここで、マイクロホンiの重みとは、マイクロホン0とマイクロホンiの距離と、マイクロホン0に対するマイクロホンiの方向と目的話者音声到来方向のずれに基づいて決定される実数である。例えば、式(1)を用いて、重みwi,j(i=0, 1, 2,…, M)を計算する。
【0028】
【数1】
【0029】
ここで、1/2(1+ri)はマイクロホン0との距離riに依存する項であり、マイクロホン0に近いほど大きい値をとる。また、cos(θiest,j)はマイクロホン0に対する方向θiと目的話者音声到来方向θest,jに依存する項であり、0からπまで変化すると(つまり、θiとθest,jのずれが大きくなるほど)、その値は小さくなる。w0,jはフレームjに対するマイクロホン0の重みを表し、先ほどの式(1)は以下の式(2)のようになる。
【0030】
【数2】
【0031】
したがって、目的話者音声到来方向θest,jが正面方向である(θest,j=0)場合は、w0,j=1となる。
【0032】
一般に、重みwi,jは、マイクロホン0とマイクロホンの距離をr、マイクロホン0を中心として0度の方向を基準としたマイクロホンの方向をθ、マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θestとして、距離rと、方向θと目的話者音声到来方向θestのずれであるθ-θestの関数w(r, θ-θest)を用いて計算される(rは0以上の実数、θ-θestは実数)。関数w(r, θ-θest)は、rについて、単調減少関数となる。また、関数w(r, θ-θest)は、θ-θestについて、θ-θest=0のとき最大、θ-θest=πのとき最小となるように単調減少し、w(r, -(θ-θest))=w(r, θ-θest)となる周期2πの関数となる。上述のような性質を有する関数w(r, θ-θest)を用いて重みwi,jを計算すればよい。
【0033】
目的話者音声到来方向時間変化計算部135は、S120で推定した目的話者音声到来方向θest,jから、各フレームについて、過去tフレーム分(tは1以上の整数)の目的話者音声到来方向の変化分である目的話者音声到来方向時間変化Δθjを計算する(S135)。例えば、1フレームが20msecである場合、t=5程度としてΔθjを計算するとよい。つまり、現フレームの目的話者音声到来方向θest,jとその5フレーム前の目的話者音声到来方向θest,j-5の差θest,jest,j-5をΔθjとする(Δθjest,jest,j-5)。また、目的話者音声到来方向については、逐次記録部190に記録しておくなどすればΔθjを計算することができる。この処理は、目的話者の位置はごく短い時間間隔では大きくは動かないと仮定し(つまり、収音する目的話者の音声が正常であり)、目的話者音声到来方向の時間変化Δθjを後述の重み付き尤度比計算部140における処理で考慮するために行う処理である。
【0034】
重み付き尤度比計算部140は、S110で計算した音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、S130で計算した重みwi,j(i=0, 1, 2,…, M)と、S135で計算した目的話者音声到来方向時間変化Δθjから、各フレームについて、重み付き尤度比Ljを計算する(S140)。以下、図7図8を参照して重み付き尤度比計算部140について説明する。図7に示すように重み付き尤度比計算部140は、重み付き尤度算出部141、重み付き尤度比算出部143を含む。図8に従い重み付き尤度比計算部140の動作について説明する。
【0035】
重み付き尤度算出部141は、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、重みwi,j(i=0, 1, 2,…, M)から、各フレームについて、重み付き音声尤度Lspeech_all,j、重み付き非音声尤度Lnoise_all,jを算出する(S141)。重み付き音声尤度Lspeech_all,j、重み付き非音声尤度Lnoise_all,jは、それぞれ式(3a)、式(3b)のように重み付き加算を用いて算出される。
【0036】
【数3】
【0037】
重み付き尤度比算出部143は、S141で算出した重み付き音声尤度Lspeech_all,j、重み付き非音声尤度Lnoise_all,jと、目的話者音声到来方向時間変化Δθjから、各フレームについて、重み付き尤度比Ljを算出する(S143)。重み付き尤度比Ljは式(4)を用いて算出される。
【0038】
【数4】
【0039】
ここで、Kはフレームが音声区間であると判定される程度を調整するためのパラメータである。通常はK=1とすればよい。音声以外の区間が誤検出されたとしても、音声を含むフレームである正しい音声区間を取りこぼすよりはよいと判断する場合には、Kの値が1より大きい値に調整し、音声区間として判定されやすくなるようにすればよい。
【0040】
また、目的話者音声到来方向時間変化Δθjが大きくなると、重み付き尤度比Ljは小さくなる。このような形で、目的話者音声到来方向時間変化Δθjを重み付き尤度比Ljの計算に反映した理由は、以下の通りである。例えば、コミュニケーションロボットと目的話者の会話を考えると、目的話者は基本的に立ち止まって発話すると考えられる。その結果、目的話者の位置がずれていない(目的話者音声到来方向時間変化Δθjが小さい)ことから目的話者は発話していると、目的話者の位置がずれている(目的話者音声到来方向時間変化Δθjが大きい)ことから目的話者は発話していないと判断できる。そこで、目的話者音声到来方向時間変化Δθjを式(4)のような形で重み付けに利用し、重み付き尤度比Ljを計算することとした。
【0041】
一般に、重み付き尤度比Ljは、重み付き音声尤度Lspeech_allと重み付き非音声尤度Lnoise_allの比であるLspeech_all/Lnoise_all、過去tフレーム分(tは1以上の整数)の目的話者音声到来方向の変化分である目的話者音声到来方向時間変化Δθの関数L(Lspeech_all/Lnoise_all, Δθ)を用いて計算される。関数L(Lspeech_all/Lnoise_all, Δθ)は、Lspeech_all/Lnoise_allについて、単調増加関数となる。また、関数L(Lspeech_all/Lnoise_all, Δθ)は、Δθについて、Δθ=0のとき最大、Δθ=πのとき最小となるように単調減少し、L(Lspeech_all/Lnoise_all, -Δθ)= L(Lspeech_all/Lnoise_all, Δθ)となる周期2πの関数となる。上述のような性質を有する関数L(Lspeech_all/Lnoise_all, Δθ)を用いて重み付き尤度比Ljを計算すればよい。
【0042】
音声区間判定部150は、S140で計算した重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する(S150)。例えば、重み付き尤度比Ljと閾値thを比較し、重み付き尤度比Ljが閾値thより大きい(あるいは閾値th以上である)場合に、音声区間であると判定し、フレームjが音声区間であることを示す音声区間判定結果jを生成する。それ以外については、非音声区間であると判定し、フレームjが非音声区間であることを示す音声区間判定結果jを生成する。
【0043】
本実施形態の発明によれば、複数のマイクロホンで収音した音声データを用いて目的話者の音声が到来する方向を推定し、当該方向からの音声を強調するよう重みづけした音声尤度・非音声尤度を用いて目的話者による音声区間を検出することにより、雑音環境下であっても、目的話者の音声区間を精度よく検出することが可能となる。
【0044】
また、音声区間を精度よく切り出せるようになることにより、音声認識の信頼性を向上させることができる。
【0045】
<第二実施形態>
第一実施形態では、目的話者の動きの程度を示す目的話者音声到来方向時間変化を反映した重み付き尤度比に基づいて音声区間であるか否かを判定したが、目的話者の動きを考慮しない形で重み付き尤度比を計算してもよい。そこで、本実施形態では、目的話者音声到来方向時間変化を用いないで音声区間であるか否かを判定する方法について説明する。
【0046】
以下、図9図10を参照して音声区間検出装置200について説明する。
【0047】
図9に示すように音声区間検出装置200は、尤度計算部110、目的話者音声到来方向推定部120、重み計算部130、重み付き尤度比計算部240、音声区間判定部150、記録部190を含む。
【0048】
音声区間検出装置200は、収音システムで収音したM+1個の音声データ、つまりマイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxiを入力として、各フレームが音声区間であるか否かの判定結果である音声区間判定結果を生成し、出力する。
【0049】
図10に従い音声区間検出装置200の動作について説明する。尤度計算部110は、マイクロホンi(i=0, 1, 2,…, M)で収音した目的話者の音声を含む音声データxi(i=0, 1, 2,…, M)をフレームに分割し、各フレームについて、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M、jはフレーム番号を表すインデックス)を計算する(S110)。
【0050】
目的話者音声到来方向推定部120は、入力された音声データxi(i=0, 1, 2,…, M)から、各フレームについて、マイクロホン0を中心として0度の方向を基準とした目的話者の方向である目的話者音声到来方向θest,j(0≦θest,j≦2π)を推定する(S120)。
【0051】
重み計算部130は、S120で推定した目的話者音声到来方向θest,jと、マイクロホンi(i=0, 1, 2,…, M)の位置を表す方向θiと距離riから、各フレームについて、マイクロホンi(i=0, 1, 2,…, M)の重みwi,jを計算する(S130)。
【0052】
重み付き尤度比計算部240は、S110で計算した音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、S130で計算した重みwi,j(i=0, 1, 2,…, M)から、各フレームについて、重み付き尤度比Ljを計算する(S240)。以下、図11を参照して重み付き尤度比計算部240について説明する。図11に示すように重み付き尤度比計算部240は、重み付き尤度算出部141、重み付き尤度比算出部243を含む。
【0053】
重み付き尤度算出部141は、音声尤度Lspeech_i,j、非音声尤度Lnoise_i,j(i=0, 1, 2,…, M)と、重みwi,j(i=0, 1, 2,…, M)から、各フレームについて、重み付き音声尤度Lspeech_all,j、重み付き非音声尤度Lnoise_all,jを算出する(S141)。
【0054】
重み付き尤度比算出部243は、S141で算出した重み付き音声尤度Lspeech_all,j、重み付き非音声尤度Lnoise_all,jから、各フレームについて、重み付き尤度比Ljを算出する(S243)。重み付き尤度比Ljは式(5)を用いて算出される。
【0055】
【数5】
【0056】
なお、Kを用いない形、つまりK=1としてもよい。
【0057】
音声区間判定部150は、S240で計算した重み付き尤度比Ljから、各フレームについて、音声区間であるか否かの判定結果である音声区間判定結果jを生成する(S150)。
【0058】
本実施形態の発明によれば、複数のマイクロホンで収音した音声データを用いて目的話者の音声が到来する方向を推定し、当該方向からの音声を強調するよう重みづけした音声尤度・非音声尤度を用いて目的話者による音声区間を検出することにより、雑音環境下であっても、目的話者の音声区間を精度よく検出することが可能となる。
【0059】
また、音声区間を精度よく切り出せるようになることにより、音声認識の信頼性を向上させることができる。
【0060】
<変形例>
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0061】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0062】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0063】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0064】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0065】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0066】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0067】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0068】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0069】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11