特許第6794064号(P6794064)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6794064モデル学習装置、音声区間検出装置、それらの方法およびプログラム
<>
  • 特許6794064-モデル学習装置、音声区間検出装置、それらの方法およびプログラム 図000004
  • 特許6794064-モデル学習装置、音声区間検出装置、それらの方法およびプログラム 図000005
  • 特許6794064-モデル学習装置、音声区間検出装置、それらの方法およびプログラム 図000006
  • 特許6794064-モデル学習装置、音声区間検出装置、それらの方法およびプログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6794064
(24)【登録日】2020年11月13日
(45)【発行日】2020年12月2日
(54)【発明の名称】モデル学習装置、音声区間検出装置、それらの方法およびプログラム
(51)【国際特許分類】
   G10L 25/78 20130101AFI20201119BHJP
   G10L 15/04 20130101ALI20201119BHJP
【FI】
   G10L25/78
   G10L15/04 300Z
【請求項の数】8
【全頁数】15
(21)【出願番号】特願2017-159288(P2017-159288)
(22)【出願日】2017年8月22日
(65)【公開番号】特開2019-39946(P2019-39946A)
(43)【公開日】2019年3月14日
【審査請求日】2019年8月26日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】松井 清彰
(72)【発明者】
【氏名】岡本 学
(72)【発明者】
【氏名】山口 義和
(72)【発明者】
【氏名】浅見 太一
(72)【発明者】
【氏名】福冨 隆朗
(72)【発明者】
【氏名】森谷 崇史
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2009−063700(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/78
G10L 15/04
(57)【特許請求の範囲】
【請求項1】
音響信号の各時間区間の音声尤度に対応する音声尤度系列と、前記音響信号の音声状態および非音声状態についての各時間区間での状態遷移の正解値の系列と、の組を含む学習データを用い、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデルを学習するモデル学習装置。
【請求項2】
請求項1のモデル学習装置であって、
前記状態遷移は、音声状態から音声状態への状態遷移、非音声状態から非音声状態への状態遷移、音声状態から非音声状態への状態遷移、および非音声状態から音声状態への状態遷移の何れかである、モデル学習装置。
【請求項3】
入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデルを記憶する記憶部と、
前記入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を前記状態遷移モデルに適用し、前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する推定部と、
を有する音声区間検出装置。
【請求項4】
入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る複数の状態遷移モデルを記憶する記憶部と、
前記入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を複数の前記状態遷移モデルに適用し、複数の前記状態遷移モデルのそれぞれについて、前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する推定部と、
前記推定部から出力された状態遷移の推定結果に対応する結果のうち、各時間区間において最も確からしい結果を選択する後処理部と、
を有する音声区間検出装置。
【請求項5】
音響信号の各時間区間の音声尤度に対応する音声尤度系列と、前記音響信号の音声状態および非音声状態についての各時間区間での状態遷移の正解値の系列と、の組を含む学習データを用い、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデルを学習するモデル学習装置のモデル学習方法。
【請求項6】
入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデルに、前記入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を適用し、前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する音声区間検出装置の音声区間検出方法。
【請求項7】
入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る複数の状態遷移モデルに、前記入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を適用し、複数の前記状態遷移モデルのそれぞれについて、前記入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得、当該状態遷移の推定結果に対応する結果のうち、各時間区間において最も確からしい結果を選択する、音声区間検出装置の音声区間検出方法。
【請求項8】
請求項1もしくは2のモデル学習装置、または、請求項3もしくは4の音声区間検出装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声区間検出技術に関する。
【背景技術】
【0002】
音声区間検出技術の一つにVAD(voice activity detection)と呼ばれる手法がある(例えば、非特許文献1等参照)。VADでは、音の強さや振動の激しさ(ゼロ交差数)、音響特徴量等を用いて音声区間を行っている。しかし、VADには、子音や単語と単語の間の短いポーズ等を非音声区間と判定し、細切れの音声区間を検出してしまうという問題がある。これに対処するため、ハングオーバーという手法が用いられている(例えば、非特許文献1等参照)。これは、VADで得られた2つの音声区間の間の非音声区間のフレーム数が閾値よりも短い場合に、これら2つの音声区間を一続きの音声区間とみなす手法である。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】ITU, “A silence compression scheme for G.729 optimized for terminals conforming to recommendation V.70,” ITUT/Recommendation G.729-Annex B. 1996.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、ハングオーバーを用いた従来手法は柔軟性が低い。すなわち、VADで得られる2つの音声区間の間の非音声区間の長さは、発話タスクやドメインなどの場面によって異なる。そのため、想定される場面ごとに最適な閾値を人手で設定しなければならない。また、同一の場面においても、理想的には、発話ごとに適切な閾値を与えるべきである。しかし、従来手法はそのような柔軟性を持たない。
【0005】
本発明はこのような点に鑑みてなされたものであり、音声区間検出における柔軟性を向上させることを目的とする。
【課題を解決するための手段】
【0006】
入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデルに、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を適用し、入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する。
【発明の効果】
【0007】
本発明では、音声区間検出における柔軟性を向上させることができる。
【図面の簡単な説明】
【0008】
図1図1Aは実施形態のモデル学習装置の機能構成を示すブロック図である。図1Bは実施形態の音声検出装置の機能構成を示すブロック図である。
図2図2は実施形態の状態遷移モデルの状態遷移図である。
図3図3Aおよび図3Bは音響信号を例示した図である。図3CはVADによって検出した音声区間および非音声区間の例示である。図3Dは実施形態の手法によって検出した音声区間および非音声区間の例示である。
図4図4Aは複数の発話区間を有する音響信号を例示した図である。図4Bは実施形態の手法によって検出した音声区間および非音声区間の例示である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を説明する。
[概要]
まず、各実施形態の概要を説明する。各実施形態では、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を状態遷移モデルに適用し、当該入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する。「状態遷移モデル」は、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として、当該入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得るモデルである。この状態遷移モデルは、入力音声尤度系列に対する実際の音声区間および非音声区間の遷移(すなわち、実際の音声区間および非音声区間の表れ方)をモデル化したものである。そのため、この状態遷移モデルに入力音声尤度系列を適用することで、たとえ入力音声尤度系列が子音や短いポーズ等の時間区間を表していたとしても、それが非音声区間ではなく、音声区間の一部であることを適切に推定できる。これにより、子音や短いポーズ等を非音声区間と判定し、細切れの音声区間を検出してしまうという問題を解決できる。また、状態遷移モデルの生成は、多様な入力音声尤度系列に適用できるため、ハングオーバーに比べて柔軟性が高い。特に、本形態の状態遷移モデルは、入力音声尤度系列を入力として音声区間および非音声区間の遷移を推定する。入力音声尤度系列は、環境に応じて変動が激しい入力音響信号を、それよりも変動の小さい音声尤度に対応する系列に集約したものである。そのため、本形態の状態遷移モデルは、多様な環境に柔軟に対応し、精度の高い推定を可能にする。以上のように、各実施形態の手法では、従来に比べ、音声区間検出における柔軟性を向上させることができる。状態遷移モデルの生成は、学習データを用いた機械学習によって可能であり、閾値を人手で設定するハングオーバーに比べてチューニングコストが低い。
【0010】
なお、「入力音響信号」は複数の所定の時間区間(例えば、フレーム、サブフレームなど)ごとに区分された時系列のデジタル音響信号である。時間区間の「音声尤度」は、当該時間区間が音声区間である尤度(尤もらしさ)を表す。「音声尤度」は、当該時間区間が音声区間である尤度をそのまま示してもよいし、当該時間区間が非音声区間である尤度を示すことで間接的に音声区間である尤度を表していてもよい。「入力音声尤度系列」は、各時間区間の「音声尤度」に対応する値の時系列である。「入力音声尤度系列」は、各時間区間の「音声尤度」の時系列であってもよいし、各時間区間の「音声尤度」を表す値の時系列であってもよい。「音声尤度」を表す値は、連続値であってもよいし、バイナリ値であってもよい。例えば、「音声尤度」を表す値は、「音声尤度」の関数値であってもよいし、「音声尤度」を用いて閾値判定されたバイナリ値であってもよい。しかし、推定精度の観点から、「入力音声尤度系列」は、各時間区間の「音声尤度」の時系列または連続値である「音声尤度」を表す値の時系列であることが望ましい。音声状態および非音声状態についての各時間区間での「状態遷移」は、例えば、音声状態から音声状態への状態遷移、非音声状態から非音声状態への状態遷移、音声状態から非音声状態への状態遷移、および非音声状態から音声状態への状態遷移の何れかである。ただし、音声状態から音声状態への状態遷移は、音声状態が持続されること、すなわち「音声状態」を意味する。同様に、非音声状態から非音声状態への状態遷移は、非音声状態が持続されること、すなわち「非音声状態」を意味する。入力音声尤度系列を状態遷移モデルに適用して得られる状態遷移の推定結果は、各状態遷移の尤度であってもよいし、各状態遷移の尤度の関数値であってもよいし、各状態遷移の尤度を比較して得られた値(例えば、最も尤度の高い状態遷移)であってもよい。状態遷移モデルの学習は、音響信号の各時間区間の音声尤度に対応する音声尤度系列と、当該音響信号の音声状態および非音声状態についての各時間区間での状態遷移の正解値の系列と、の組を含む学習データを用いて行われる。この学習データでは、音声尤度系列の各時間区間の要素(例えば、音声尤度)と当該各時間区間での状態遷移の正解値とが互いに対応付けられている。例えば、音声尤度系列の各時間区間の要素と当該各時間区間での状態遷移の正解値とが当該時間区間を表す識別子に対応付けられている。通常、学習データは複数の音響信号についての音声尤度系列と状態遷移の正解値の系列との組を含む。すなわち、学習データは音声尤度系列と状態遷移の正解値の系列との組を複数組含む。しかし、学習データが1個の音響信号についての音声尤度系列と状態遷移の正解値の系列との組のみを含んでもよい。「音響信号」は複数の所定の時間区間(例えば、フレーム、サブフレームなど)ごとに区分された時系列のデジタル音響信号である。学習データの音声尤度系列は、想定される入力音声尤度系列と同一である必要はないが、同じ種別である必要がある。例えば、想定される入力音声尤度系列が各時間区間の音声尤度の時系列であるならば、学習データの音声尤度系列も各時間区間の音声尤度の時系列である必要がある。
【0011】
[第1実施形態]
第1実施形態を説明する。
<モデル学習装置11>
まず本形態のモデル学習装置11について説明する。図1Aに例示するように、本形態のモデル学習装置11は、学習データ111aを記憶する記憶部111、および状態遷移モデル123aを学習する学習部112を有する。
【0012】
学習データ111aは、音響信号の各時間区間の音声尤度に対応する音声尤度系列と、当該音響信号の音声状態および非音声状態についての各時間区間での状態遷移の正解値の系列と、の組を含む。学習部112は、記憶部111から読み出した学習データ111aを用い、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデル123aを得て出力する。本形態の状態遷移は、音声状態から音声状態への状態遷移、非音声状態から非音声状態への状態遷移、音声状態から非音声状態への状態遷移、および非音声状態から音声状態への状態遷移の何れかである。
【0013】
学習データ111aが含む各時間区間の音声尤度系列は、学習データ用の音響信号から音響情報や分析情報を抽出し、それらに公知のVADを適用することで得られる(例えば、非特許文献1等参照)。VADに用いる音響情報や分析情報としては、例えば、音のパワーの変化、波形の一定時間当たりのゼロ交差数、音響特徴量の特性の変化等、およびそれらの組み合わせが例示できる。学習データ用の音響信号は、所定の時間区間ごとに区分された時系列のデジタル音響信号である。学習データ用の音響信号は、マイクロホン等で観測されたアナログ音響信号を所定のサンプリング周波数でAD変換したものであってもよいし、予め作成された任意のデジタル音響信号であってもよい。音声尤度系列の例は前述の通りであり、学習データ用の音響信号の各時間区間に対して得られた値の時系列である。音声尤度系列が各時間区間の音声尤度または音声尤度を表す連続値の系列の場合、音声尤度系列は例えば0.1,0.5,…,0.8のようになる。音声尤度系列が各時間区間の音声尤度を表すバイナリ値の系列の場合、音声尤度系列は例えば0,0,0,1…,1,0のようになる。
【0014】
学習データ111aが含む状態遷移の正解値の系列は、上述の学習データ用の音響信号から得られた音声尤度系列(以下「学習データ用の音声尤度系列」という)の各時間区間に、音声状態および非音声状態についての状態遷移の正解値を付与することで得られる。この状態遷移の正解値について詳細に説明する。例えば「今日は、いい天気です」と読み上げられる場合を想定する。この際、図3Aのように主部(今日は)と述部(いい天気です)とが続けて読み上げられた場合であっても、図3Bのように間隔をあけて主部と述部が読み上げられた場合であっても、その入力音響信号に対応する入力音声尤度系列から「今日は、いい天気です」全体を1つの真の音声区間として推定することを目指す。すなわち、図3Bのように間隔をあけて主部と述部を読み上げた場合、それに対応する入力音声尤度系列は「今日は」と「いい天気です」との間に短い非音声区間を持つことを表す系列となる。例えば、入力音声尤度系列が音声区間と非音声区間とを表すバイナリ系列である場合、この入力音声尤度系列は「今日は」と「いい天気です」との間に非音声区間の時間区間を持つ系列となる(図3C)。本形態では、このように音声区間に挟まれた短い非音声区間による音声尤度の振動を吸収した真の音声区間を適切に推定する。逆に、非音声区間の間に突発的な雑音などが混入した場合であっても、それによる音声尤度の振動を吸収した真の非音声区間を適切に推定する。なお、「真の音声区間」とは、1つの発話区間において最初に音声が観測されてから、最後の音声が観測されなくなるまでの時間区間を意味する。「真の非音声区間」とは真の音声区間以外の時間区間を意味する。「発話区間」とは、「今日は、いい天気です」のように、まとまりのある発話が行われた時間区間を意味する。また「発話開始」とは「発話区間」の開始を意味し、「発話終了」とは「発話区間」の終了を意味する。
【0015】
このような推定を行うため、入力音声尤度系列を入力として入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る状態遷移モデル123aを学習する。本形態では、非音声状態から音声状態への状態遷移(始端遷移状態)、および、音声状態から非音声状態への状態遷移(終端遷移状態)を強調するため、音声状態および非音声状態だけではなく、始端遷移状態および終端遷移状態にもそれぞれに特別なラベルを割り当てる。例えば、各状態遷移に以下のようなラベルを割り当てる。
ラベル“0”:非音声状態から非音声状態への状態遷移(非音声状態)
ラベル“1”:音声状態から音声状態への状態遷移(音声状態)
ラベル“2”:非音声状態から音声状態への状態遷移(始端遷移状態)
ラベル“3”:音声状態から非音声状態への状態遷移(終端遷移状態)
なお、音声状態とは真の音声区間に対応する状態であり、非音声状態とは真の非音声区間に対応する状態である。
【0016】
図2に、このようなラベルが与えられた場合の状態遷移モデル123aの状態遷移図を示す。この状態遷移モデル123aは、入力音声尤度系列を入力として、非音声状態および音声状態をループしつつ、非音声状態、音声状態、始端遷移状態、および終端遷移状態の際にそれぞれに対応するラベルの尤度を出力する。この場合、学習データのパターンは、学習データ用の音声尤度系列に対応する時間区間が、
(1)真の音声区間を含むか、
(2)真の音声区間とその直前の真の非音声区間とを含むか、
(3)真の音声区間とその直後の真の非音声区間とを含むか、
によって細分化できる。
【0017】
パターン1:学習データ用の音声尤度系列に対応する時間区間が、真の音声区間ならびにその直前および直後の真の非音声区間を含む場合
これは最も一般的なパターンである。この場合、学習データ用の音声尤度系列に対応する各時間区間に以下のラベルが与えられる。
・発話開始から非音声状態の終端までの時間区間:非音声状態“0”
・非音声状態の終端から音声状態へ遷移する時間区間:始端遷移状態“2”
・音声状態の始端から終端の時間区間:音声区間“1”
・音声状態の終端から非音声状態へ遷移する時間区間:終端遷移状態“3”
・非音声状態の始端(発話終了)から終端(次の発話開始)までの時間区間:非音声状態“0”
すなわち、当該音声尤度系列に対応する各時間区間での状態遷移の正解値の系列は0,…,0,2,1,…,1,3,0,…,0となる。例えば、図3Aのように主部と述部とが続けて読み上げられた場合であっても、図3Bのように間隔をあけて主部と述部が読み上げられた場合であっても、各時間区間での状態遷移の正解値の系列(ラベルの系列)は、ともに図3Dに例示するように0,…,0,2,1,…,1,3,0,…,0となる。なお、通常、始端遷移状態の時間区間が2つ以上連続することはなく、終端遷移状態の時間区間も2つ以上連続することはない。しかし、これらの時間区間が2つ以上連続してもよい。
【0018】
パターン2:学習データ用の音声尤度系列に対応する時間区間が、真の音声区間およびその直後の真の非音声区間を含むが当該音声区間直前の非音声区間を含まない場合
この場合、先頭の時間区間が始端遷移状態の時間区間とみなされる。すなわち、学習データ用の音声尤度系列に対応する各時間区間に以下のラベルが与えられる。
・先頭の時間区間:始端遷移状態“2”
・次の時間区間から音声状態の終端までの時間区間:音声区間“1”
・音声状態の終端から非音声状態へ遷移する時間区間:終端遷移状態“3”
・非音声状態の始端(発話終了)から終端(次の発話開始)までの時間区間:非音声状態“0”
すなわち、当該音声尤度系列に対応する各時間区間での状態遷移の正解値の系列は2,1,…,1,3,0,…,0となる。
【0019】
パターン3:学習データ用の音声尤度系列に対応する時間区間が、真の音声区間およびその直前の真の非音声区間を含むが当該音声区間直後の非音声区間を含まない場合
この場合、最終の時間区間が終端遷移状態の時間区間とみなされる。すなわち、学習データ用の音声尤度系列に対応する各時間区間に以下のラベルが与えられる。
・発話開始から非音声状態の終端までの時間区間:非音声状態“0”
・非音声状態の終端から音声状態へ遷移する時間区間:始端遷移状態“2”
・音声状態の始端から最終の時間区間直前までの時間区間:音声区間“1”
・最終の時間区間:終端遷移状態“3”
すなわち、当該音声尤度系列に対応する各時間区間での状態遷移の正解値の系列は0,…,0,2,1,…,1,3となる。
【0020】
パターン4:学習データ用の音声尤度系列に対応する時間区間が、真の音声区間を含むがその前後に非音声区間を含まない場合
学習データ用の音声尤度系列に対応する時間区間が全て真の音声区間の場合である。この場合、当該音声尤度系列に対応する各時間区間に以下のラベルが与えられる。
・先頭から最終までの時間区間:音声区間“1”
すなわち、当該音声尤度系列に対応する各時間区間での状態遷移の正解値の系列は1,…,1となる。
【0021】
パターン5:音声尤度系列に対応する時間区間が真の音声区間を含まない場合
この場合、音声尤度系列に対応する各時間区間に以下のラベルが与えられる。
・先頭から最終までの時間区間:音声区間“0”
すなわち、当該音声尤度系列に対応する各時間区間での状態遷移の正解値の系列は0,…,0となる。
【0022】
なお、学習データ111aは、上記のパターン1から5のすべての状態遷移の正解値の系列を含んでいてもよいし、それらの一部の状態遷移の正解値の系列のみを含んでいてもよい。また、音声尤度系列に対応する時間区間が複数の真の音声区間を含んでいてもよい。この場合の学習データ111aは、上記のパターン1から5の状態遷移の正解値の系列の組み合わせからなる。例えば,図4Aおよび図4Bに例示するように、1つ目の真の音声区間Iの前後に真の非音声区間を含み、2つ目の音声区間IIの後に非音声区間が存在しない場合、学習データ111aは、1つ目の真の音声区間Iの音声尤度系列とそれに対応するパターン1の状態遷移の正解値の系列0,…,0,2,1,…,1,3,0,…,0との組、および、2つ目の真の音声区間Iの音声尤度系列とそれに対応するパターン1の状態遷移の正解値の系列0,…,0,2,1,…,1,3との組、を含む。
【0023】
上述したラベルの付与は、学習データ用の音響信号の各時間区間が音声区間であるか非音声区間であるかだけではなく、学習データ用の音響信号の発話区間としての音声区間および非音声区間(各発話区間に紐付けられた音声区間および非音声区間)に基づいて行う必要がある。このようなラベルの付与には様々な方法が考えられる。第1の方法は、人間が学習データ用の音響信号に含まれる一つ一つの発話を視聴し、波形を観測して正確なラベルを付与するものである。第2の方法は、公知の認識用のデコーダを利用することにより、自動的に上記のラベルを付与する方法である。しかし、第2の方法では一部の学習データにおいて誤ったラベルを付与してしまう場合がある。このような場合であっても、学習データ全体として正しくラベルが付与される頻度が高ければ大きな問題はない。第3の方法は、初めに上述のデコーダでラベルを付与した後、人手で誤りをチェックする折衷案である。
【0024】
学習部112は、上述のように生成した学習データ111aを用い、図2の状態遷移図で表される状態遷移モデル123aを学習する。この状態遷移モデル123aは、公知の手法(例えば、参考文献1:Hochreiter, S., & Schmidhuber, J., “Long Short-Term Memory,” Neural Computation, 9(8), 1735-1780, 1997)を用いて表現・学習できる。参考文献1の手法は、非常に長い系列の情報を保持しておくことができ、より時間的に遠い位置の状態や音声尤度を考慮した状態遷移モデル123aを構築することができ、非常に有用である。参考文献1の手法以外にも、時系列を扱えるモデル(RNNやHMM等)を用いることも可能である。ただし、HMMの場合は、その構造上、未来の状態を考慮することができない。
【0025】
<音声区間検出装置12>
次に本形態の音声区間検出装置12について説明する。図1Bに例示するように、本形態の音声区間検出装置12は、入力部121、音声区間検出部122、記憶部123、推定部124、および出力部126を有する。
【0026】
<記憶部123>
記憶部123には、前述のようにモデル学習装置11から出力された状態遷移モデル123aが格納される。状態遷移モデル123aは、音声区間検出装置12での音声区間検出が開始される前に記憶部123に格納されていてもよいし、モデル学習装置11から新たな状態遷移モデル123aが出力されるたびに記憶部123に格納されてもよい。
【0027】
<入力部121>
入力部121には、音声区間検出対象の入力音響信号が入力される。音声区間検出対象の入力音響信号は、所定の時間区間ごとに区分された時系列のデジタル音響信号である。入力音響信号は、マイクロホン等で観測されたアナログ音響信号を所定のサンプリング周波数でAD変換したものであってもよいし、予め作成された任意のデジタル音響信号であってもよい。なお、入力音響信号の時間区間の長さは、前述の学習データ用の音響信号の時間区間の長さと同一または近似することが好ましい。入力音響信号は音声区間検出部122に送られる。
【0028】
<音声区間検出部122>
音声区間検出部122は、入力音響信号から音響情報や分析情報を抽出し、それらに対して公知のVADを適用することで(例えば、非特許文献1等参照)、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を得て出力する。VADに用いる音響情報や分析情報の例は前述の通りである。また入力音声尤度系列の例も前述の通りであるが、入力音声尤度系列の種別は学習データ用の音声尤度系列の種別と同一である。例えば、学習データ用の音声尤度系列が各時間区間の音声尤度の系列である場合、入力音声尤度系列も各時間区間の音声尤度の系列である。入力音声尤度系列は推定部124に送られる。
【0029】
<推定部124>
推定部124は、送られた入力音声尤度系列を、記憶部123から読み出した状態遷移モデル123aに適用し、入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する(post-filter処理)。状態遷移の推定結果の例は、各時間区間での非音声状態(ラベル“0”)の尤度、音声状態(ラベル“1”)の尤度、始端遷移状態(ラベル“2”)の尤度、および終端遷移状態(ラベル“3”)の尤度からなる4つの尤度の系列である。あるいは、各時間区間の非音声状態(ラベル“0”)の尤度の系列のみを状態遷移の推定結果としてもよいし、各時間区間の音声状態(ラベル“1”)の尤度の系列のみを状態遷移の推定結果としてもよい。あるいは、各時間区間の非音声状態(ラベル“0”)の尤度と音声状態(ラベル“1”)の尤度との系列を状態遷移の推定結果としてもよい。その他、各時間区間で最も大きな尤度を持つ状態を表す値の系列を状態遷移の推定結果としてもよい。
【0030】
<出力部126>
推定部124から出力された状態遷移の推定結果は出力部126に送られる。出力部126は、状態遷移の推定結果を音声区間推定結果として出力する。
【0031】
[第2実施形態]
第2実施形態は第1実施形態の変形例である。本形態では、推定部124から出力された状態遷移の推定結果に後処理を行って得られたものを音声区間推定結果とする。以下では第1実施形態との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して説明を簡略化する。
【0032】
<モデル学習装置11>
第1実施形態と同じである。
【0033】
<音声区間検出装置22>
図1Bに例示するように、本形態の音声区間検出装置22は、入力部121、音声区間検出部122、記憶部123、推定部124、後処理部225、および出力部226を有する。以下に第1実施形態との相違点である後処理部225および出力部226の詳細を説明する。
【0034】
<後処理部225>
第1実施形態と異なり、推定部124から出力された状態遷移の推定結果は後処理部225に送られる。後処理部225は、送られた状態遷移の推定結果に対して所定の後処理を行って音声区間推定結果を得て出力する。例えば、状態遷移の推定結果として、各時間区間の非音声状態(ラベル“0”)の尤度、音声状態(ラベル“1”)の尤度、始端遷移状態(ラベル“2”)の尤度、および終端遷移状態(ラベル“3”)の尤度の系列が送られる場合、後処理部225は、これら4つの尤度の系列を用い、各時間区間の代表的な状態(非音声状態、音声状態、始端遷移状態、または終端遷移状態)を選択し、それによって得られた各時間区間の代表的な状態の系列を音声区間推定結果として出力してもよい。例えば、後処理部225は、各時間区間について、送られた4つの状態のうち最も大きな尤度を持つ状態を選択して出力してもよい。すなわち、後処理部225は、送られた4つの状態の尤度系列を最尤状態系列に変換して出力してもよい。例えば、n=0,…,N−1を時間区間に対応する識別子とし、Nを正整数とし、時間区間nでの非音声状態の尤度をPn,0とし、音声状態の尤度をPn,1とし、始端遷移状態の尤度をPn,2とし、および終端遷移状態の尤度をPn,3とする。この場合、後処理部225は、各時間区間nについて、送られた4つの状態の尤度系列(Pn,0,Pn,1,Pn,2,Pn,3)を最尤状態系列sに変換して出力してもよい。
【数1】
【0035】
あるいは、後処理部225は、4つの状態の尤度系列(Pn,0,Pn,1,Pn,2,Pn,3)の特定の状態の尤度を強調したり、弱めたりして得られた尤度系列を最尤状態系列sに変換して出力してもよい。例えば、後処理部225は、尤度系列(Pn,0,Pn,1,Pn,2,Pn,3)を以下の最尤状態系列sに変換して出力してもよい。
【数2】

ただし、αは尤度Pn,iに与えられる重みである。例えば、αは0よりも大きな正値である。あるいは、特定の尤度Pn,iに与えられる重みを0にしてもよい。例えば、α=α=0とすれば、始端遷移状態や終端遷移状態が音声区間推定結果として選択されることを避けることができる。
【0036】
その他、後処理部225が、送られた状態遷移の推定結果に対してVADにおいて一般的に行われる公知の補正手法を適用し、それによって得られた結果を音声区間推定結果として出力してもよい。例えば、各時間区間の音声状態(ラベル“1”)の尤度の系列のみが状態遷移の推定結果として送られる場合、後処理部225が各時間区間の音声状態の尤度と所定の閾値とを比較し、その比較結果の系列に対応する音声区間推定結果を出力してもよい。例えば、後処理部225は、音声状態の尤度が閾値以上の時間区間を音声区間とし、それ以外の時間区間を非音声区間とする音声区間推定結果を出力してもよい。各時間区間の非音声状態(ラベル“0”)の尤度の系列のみが状態遷移の推定結果として送られる場合にも、後処理部225が各時間区間の非音声状態の尤度と所定の閾値とを比較し、その比較結果の系列に対応する音声区間推定結果を出力してもよい。その他、後処理部225が、送られた状態遷移の推定結果の特定の状態の尤度を強調したり、弱めたりして得られた尤度系列に対してVADにおいて一般的に行われる公知の補正手法を適用し、それによって得られた結果を音声区間推定結果として出力してもよい。後処理部225は、音声区間検出の精度向上のためのその他の公知技術を用いてもよい。
【0037】
<出力部226>
推定部224から出力された音声区間推定結果は出力部226に送られる。出力部226はこの音声区間推定結果を出力する。
【0038】
[第3実施形態]
第3実施形態は第1,2実施形態の変形例である。本形態では、モデル学習装置が複数の状態遷移モデルを生成し、音声区間検出装置が入力音声尤度系列をこれら複数の状態遷移モデルに適用し、当該複数の状態遷移モデルのそれぞれについて、入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得、得られた状態遷移の推定結果のうち、各時間区間において最も確からしい推定結果を選択する。以下では第1,2実施形態との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して説明を簡略化する。
【0039】
<モデル学習装置31>
図1Aに例示するように、本形態のモデル学習装置31は、学習データ311aを記憶する記憶部311、および状態遷移モデル323aを学習する学習部312を有する。
【0040】
本形態の学習データ311aは、複数種類の学習データ用の音響信号の各時間区間の音声尤度に対応する音声尤度系列と、当該音響信号の音声状態および非音声状態についての各時間区間での状態遷移の正解値の系列と、の組を複数組含む。これらの組は学習データ用の音響信号の種類に応じてクラス分けされている。例えば、学習データ311aは、複数種類の環境で得られた学習データ用の音響信号に対応する音声尤度系列と状態遷移の正解値の系列との組を複数組含み、これらの組は対応する環境ごとにクラス分けされている。このクラスをc=0,…,C−1(ただし、Cは2以上の整数)とし、学習データ311aに含まれたクラスcに属する音声尤度系列と状態遷移の正解値の系列との組の集合をD(c)と表記する。すなわち、学習データ311aは集合D(0),…,D(C−1)を含む。
【0041】
学習部312は記憶部311から読み出した学習データ311aを用い、入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を入力として入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得る複数の状態遷移モデル323aを得て出力する。すなわち、学習部312は、学習データ311aに含まれた集合D(c)を用い、第1実施形態と同じ方法でクラスcに対応する状態遷移モデルM(c)を生成し、複数の状態遷移モデルM(0),…,M(C−1)を状態遷移モデル323aとして出力する。その他は第1実施形態と同じである。
【0042】
<音声区間検出装置32>
図1Bに例示するように、本形態の音声区間検出装置32は、入力部121、音声区間検出部122、記憶部323、推定部324、後処理部325、および出力部226を有する。以下に第1,2実施形態との相違点である記憶部323、推定部324、および後処理部325の詳細を説明する。
【0043】
<記憶部323>
記憶部323には、学習部312から出力された複数の状態遷移モデル323aが格納される。状態遷移モデル323aは、音声区間検出装置32での音声区間検出が開始される前に記憶部323に格納されていてもよいし、モデル学習装置31から新たな状態遷移モデル323aが出力されるたびに記憶部323に格納されてもよい。
【0044】
<推定部324>
推定部324には、音声区間検出部122から出力された入力音声尤度系列が入力される。推定部324は、この入力音声尤度系列を記憶部323から読み出した複数の状態遷移モデル323aに適用し、複数の状態遷移モデル323aのそれぞれについて、入力音響信号の音声状態および非音声状態についての各時間区間での状態遷移の推定結果を得て出力する。すなわち、推定部324は、入力音声尤度系列を各状態遷移モデルM(c)(ただし、c=0,…,C−1)に適用し、各クラスcについて各時間区間での状態遷移の推定結果R(c)を得て出力する。各クラスcについての推定結果R(c)は後処理部325に送られる。その他は第1,2実施形態と同一である。
【0045】
<後処理部325>
後処理部325は、推定部324から出力された各クラスcについて送られた推定結果R(c)に対応する結果のうち、各時間区間において最も確からしい結果を選択する。この選択には音声区間音声検出の精度向上のための公知の技術を用いることができる。例えば、音声区間検出部122が非常に異なる複数の環境で得られた入力音響信号に対してVADを行う場合、後処理部325が、参考文献2(R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton. “Adaptive mixtures of local experts.” Neural Computation, 3:79-87, 1991.)に記載された手法を用いて最も確からしい推定結果を選択してもよい。すなわち、後処理部325は、送られた推定結果R(0),…,R(C−1)に対応する結果のうち、入力音響信号が得られた環境に対応する推定結果R(c’)に対応する結果を最も確からしい結果として選択する。なお、推定結果R(c)に対応する結果は、推定結果R(c)そのものであってもよいし、推定結果R(c)に対して第2実施形態の後処理部225の処理を行って得られたものであってもよい。後処理部325は、選択した最も確からしい結果を音声区間推定結果として出力してもよいし、選択した最も確からしい結果に第2実施形態の後処理部225の処理を行って得られた音声区間推定結果を出力してもよい。音声区間推定結果は出力部226に送られる。その後の処理は第2実施形態と同じである。
【0046】
[実施形態の手法の特徴]
以上のように、各実施形態では、様々な環境において、人手でのチューニングを行うことなくVADの精度を向上させることができ、コスト削減と精度向上の両方を実現できる。また、単一の環境においても、発話のブレを吸収し、既存手法より高精度に音声区間検出を行うことができる。さらに、状態遷移モデルを用いた推定部の構成はVADに縦続接続するpost-filterであるため、他のVAD精度改善手法と併用することもできる。例えば、従来のハングオーバーの手法を適用した後にこのpost-filterの処理を行うことで更なる性能向上が見込める。
【0047】
従来、音響特徴量を入力として音声状態/非音声状態を出力する状態遷移モデルを用いたVADは存在していた。しかし、音響特徴量は環境による変動が激しく、モデルが膨大になり、かつ大量の学習データが必要であった。これに対し、各実施形態の状態遷移モデルは、VAD処理後の音声尤度系列を入力特徴量として状態遷移の推定結果を得るものである。音声尤度系列は音響特徴量に比べて環境による変動が小さい。そのため、各実施形態の状態遷移モデルは、少量の学習データによって作成できる上に、様々なVAD技術のpost−filterとして頑健に動作する。さらに、各実施形態では、音声区間の始端(始端遷移状態)および終端(終端遷移状態)に特殊なラベルを付与した。これにより、「区間」としての情報をより強く学習することができ、突発的な雑音による一時的な音声状態フレームの出現や、子音、息継ぎなどによる一時的な非音声状態の出現に左右されにくい。
【0048】
[その他の変形例等]
なお、本発明は上述の実施形態に限定されるものではない。例えば、第1,2,3実施形態では、音声区間検出装置12,22,32に入力音響信号が入力され、音声区間検出部122が当該入力音響信号の各時間区間の音声尤度に対応する入力音声尤度系列を得た。しかしながら、音声区間検出装置12,22,32の外部で入力音響信号から入力音声尤度系列が生成され、この入力音声尤度系列が音声区間検出装置12,22,32に入力されてもよい。この場合、音声区間検出装置12,22,32から音声区間検出部122が省略されてもよい。
【0049】
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0050】
上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
【0051】
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
【0052】
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0053】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
【0054】
コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
【産業上の利用可能性】
【0055】
本発明は、例えば、音声認識処理や音声対話処理の前段での音声区間検出に利用できる。本発明をこれらに適用した場合、音声区間の検出精度を向上させ、後段の音声認識や音声対話をより高精度に行うことができる。
【符号の説明】
【0056】
11,31 モデル学習装置
12,22,32 音声区間検出装置
図1
図2
図3
図4