特許第6791816号(P6791816)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特許6791816音声区間検出装置、音声区間検出方法、およびプログラム
<>
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000002
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000003
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000004
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000005
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000006
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000007
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000008
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000009
  • 特許6791816-音声区間検出装置、音声区間検出方法、およびプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6791816
(24)【登録日】2020年11月9日
(45)【発行日】2020年11月25日
(54)【発明の名称】音声区間検出装置、音声区間検出方法、およびプログラム
(51)【国際特許分類】
   G10L 15/04 20130101AFI20201116BHJP
   G10L 25/84 20130101ALI20201116BHJP
   G10L 15/20 20060101ALI20201116BHJP
【FI】
   G10L15/04 300C
   G10L25/84
   G10L15/20 370Z
【請求項の数】12
【全頁数】14
(21)【出願番号】特願2017-141793(P2017-141793)
(22)【出願日】2017年7月21日
(65)【公開番号】特開2019-20685(P2019-20685A)
(43)【公開日】2019年2月7日
【審査請求日】2019年11月11日
(73)【特許権者】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(74)【代理人】
【識別番号】230121430
【弁護士】
【氏名又は名称】安井 友章
(72)【発明者】
【氏名】太刀岡 勇気
【審査官】 中村 天真
(56)【参考文献】
【文献】 特開2013−037152(JP,A)
【文献】 国際公開第2015/059947(WO,A1)
【文献】 藤田悠哉,磯健一,音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出,情報処理学会研究報告,2016年 7月,Vol.2016-SLP-112,No.9,p.1-6
【文献】 Peng Teng, Yunde Jia,Voice Activity Detection Via Noise Reducing Using Non-Negative Sparse Coding,IEEE Signal Processing Letters,2013年 5月,Vol.20, No.5,p.475-478
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声と騒音を含む入力音声を入力する入力部と、
前記入力音声から音声特徴量を求める特徴量算出部と、
音響モデルに基づいて、前記音声特徴量が音声である尤度を求める音響尤度算出部と、
音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出する事後確率算出部であって、前記音響尤度算出部にて算出された尤度をも用いて事後確率を求める事後確率算出部と、
前記事後確率に基づいて音声か非音声かの判定を行う判定部と、
を備える音声区間検出装置。
【請求項2】
前記音響尤度算出部にて算出された尤度のデータの次元を圧縮する次元圧縮部を備え、
前記次元圧縮部にて次元が圧縮された尤度データを前記事後確率算出部に入力する請求項1に記載の音声区間検出装置。
【請求項3】
前記音響尤度算出部にて算出された尤度のデータを用いて音声認識を行う音声認識部を備える請求項1または2に記載の音声区間検出装置。
【請求項4】
音声と騒音を含む入力音声を入力する入力部と、
前記入力音声から音声特徴量を求める特徴量算出部と、
音声強調のモデルに基づいて、前記音声特徴量を音声と騒音とに分離した際のそれぞれの活性化度を算出する活性化度算出部と、
音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出する事後確率算出部であって、前記活性化度算出部にて算出された活性化度をも用いて事後確率を求める事後確率算出部と、
前記事後確率に基づいて音声か非音声かの判定を行う判定部と、
を備える音声区間検出装置。
【請求項5】
前記活性化度算出部は、非負値行列因子分解によって前記音声特徴量を基底と活性化度とに因子分解し、求めた基底から音声の基底と騒音の基底とを求め、音声と騒音のそれぞれの基底に対応する活性化度を求める請求項4に記載の音声区間検出装置。
【請求項6】
クリーンな音声に基づいて音声の基底を学習する基底学習部を備え、
前記活性化度算出部は、学習によって求められた音声の基底を用いて、前記音声特徴量を非負値行列因子分解によって基底と活性化度に因子分解し、音声と騒音のそれぞれの基底に対応する活性化度を求める請求項4に記載の音声区間検出装置。
【請求項7】
前記活性化度算出部にて算出した音声の基底に基づいて、クリーンな音声を選別するデータ選別部を備え、
前記基底学習部は、選別されたクリーンな音声を用いて、音声の基底を再学習する請求項6に記載の音声区間検出装置。
【請求項8】
前記活性化度算出部にて算出された基底及び活性化度のデータを用いて騒音を抑圧する騒音抑圧部を備える請求項4乃至7のいずれかに記載の音声区間検出装置。
【請求項9】
音声区間検出装置によって音声区間を検出する方法であって、
前記音声区間検出装置が、音声と騒音を含む入力音声を入力するステップと、
前記音声区間検出装置が、前記入力音声から音声特徴量を求めるステップと、
前記音声区間検出装置が、音響モデルに基づいて、前記音声特徴量が音声である尤度を求めるステップと、
前記音声区間検出装置が、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記音声特徴量が音声である尤度をも用いて事後確率を求めるステップと、
前記音声区間検出装置が、前記事後確率に基づいて音声か非音声かの判定を行うステップと、
を備える音声区間検出方法。
【請求項10】
音声区間検出装置によって音声区間を検出する方法であって、
前記音声区間検出装置が、音声と騒音を含む入力音声を入力するステップと、
前記音声区間検出装置が、前記入力音声から音声特徴量を求めるステップと、
前記音声区間検出装置が、音声強調のモデルに基づいて、前記音声特徴量を音声と騒音とに分離した際のそれぞれの活性化度を算出するステップと、
前記音声区間検出装置が、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記活性化度をも用いて事後確率を求めるステップと、
前記音声区間検出装置が、前記事後確率に基づいて音声か非音声かの判定を行うステップと、
を備える音声区間検出方法。
【請求項11】
音声区間を検出するためのプログラムであって、コンピュータに、
音声と騒音を含む入力音声を入力するステップと、
前記入力音声から音声特徴量を求めるステップと、
音響モデルに基づいて、前記音声特徴量が音声である尤度を求めるステップと、
音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記音声特徴量が音声である尤度をも用いて事後確率を求めるステップと、
前記事後確率に基づいて音声か非音声かの判定を行うステップと、
を実行させるプログラム。
【請求項12】
音声区間を検出するためのプログラムであって、コンピュータに、
音声と騒音を含む入力音声を入力するステップと、
前記入力音声から音声特徴量を求めるステップと、
音声強調のモデルに基づいて、前記音声特徴量を音声と騒音とに分離した際のそれぞれの活性化度を算出するステップと、
音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記活性化度をも用いて事後確率を求めるステップと、
前記事後確率に基づいて音声か非音声かの判定を行うステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声区間検出装置、音声区間検出方法、およびプログラムに関する。
【背景技術】
【0002】
音声を使ったアプリケーション・機器の普及に伴い、騒音がある環境で、騒音に埋もれた音声の発話時刻を特定する音声区間検出技術の重要性が増している。音声区間を検出する技術は、音声部分を特定しての録音、音声から騒音を取り除く音声強調、音声認識等を行う上で有用である。
【0003】
こうした音声区間検出技術として、従来から、様々な技術が提案されている。特許文献1は、音声のパワーが騒音のパワーよりも大きいことを利用して音声区間を検出する手法を開示している。特許文献2は、音声の到来方向等の他の物理情報を利用する方法を開示している。特許文献3は、事前に大量の音声より学習した音声モデルを使って、音声区間検出の性能を向上させる技術を開示している。また音声認識の結果を用いて、音声区間検出を行う構成も考えられるが、音声認識に必要な計算量は一般的に大きく、音声区間検出は常時行う必要があるため、現実的でない。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−321539号公報
【特許文献2】特開2012−048119号公報
【特許文献3】特開2009−210647号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記した特許文献1に記載された技術では、音声のパワーが騒音レベルのパワーより大きいことを前提としているが、騒音レベルが高い実環境での音声利用が増える中で、必ずしも音声のパワーの方が騒音のパワーよりも大きいことを期待できない場合が増えてきている。また、特許文献2に記載された方法は、他の物理情報を取得するためのセンサが必要である。上記した特許文献3に開示された方法は、大量の音声をすべて混合した音声モデルを使っているため、音声に対する知識を扱いにくいという問題があった。また音声区間検出の特徴上、それほど必要な計算量を増やせないという点に留意する必要がある。
【0006】
本発明は、上記背景に鑑み、計算量の増加を抑えつつ、音声区間の検出の性能を向上させる方法を提案することを目的とする。
【課題を解決するための手段】
【0007】
本発明の音声区間検出装置は、音声と騒音を含む入力音声を入力する入力部と、前記入力音声から音声特徴量を求める特徴量算出部と、音響モデルに基づいて、前記音声特徴量が音声のうちどのサブセットかの尤度を求める音響尤度算出部と、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出する事後確率算出部であって、前記音響尤度算出部にて算出された尤度をも用いて事後確率を求める事後確率算出部と、前記事後確率に基づいて音声か非音声かの判定を行う判定部とを備える。ここで、音声のサブセットとは、例えば「あ」「い」「う」といった音素、もしくは「母音」「子音」といった音素の分類である。
【0008】
この構成により、入力音声の音声特徴量が音声だとすればどのサブセットに属するかを考慮して、音声又は非音声の事後確率を求めるので、音声区間検出の性能を高めることができる。ここで、音響モデルは、音声特徴量で特徴付けられた音がある音(例えば「あ」)である尤度を求めるためのモデルである。これに対し、音声区間検出モデルは、音声と騒音を分類するために、それらの音響的特徴を学習したモデルである。
【0009】
本発明の音声区間検出装置は、前記音響尤度算出部にて算出された尤度のデータの次元を圧縮する次元圧縮部を備え、前記次元圧縮部にて次元が圧縮された尤度データを前記事後確率算出部に入力してもよい。
【0010】
音声の尤度のデータは次元が大きくなりがちであるが、次元圧縮を行うことにより、事後確率算出部における計算量を抑えることができる。なお、次元圧縮部における次元圧縮の手法としては、例えば、ベクトル変換、主成分分析、ニューラルネットワーク等を用いることができる。
【0011】
本発明の音声区間検出装置は、前記音響尤度算出部にて算出された尤度のデータを用いて音声認識を行う音声認識部を備えてもよい。
【0012】
この構成により、音声区間検出のために求めた音声の尤度のデータを、音声認識に用いることができ、音声認識の計算コストを低減することができる。
【0013】
本発明の別の態様の音声区間検出装置は、音声と騒音を含む入力音声を入力する入力部と、前記入力音声から音声特徴量を求める特徴量算出部と、音声強調のモデルに基づいて、前記音声特徴量を音声と騒音とに分離した際のそれぞれの活性化度を算出する活性化度算出部と、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出する事後確率算出部であって、前記活性化度算出部にて算出された活性化度をも用いて事後確率を求める事後確率算出部と、前記事後確率に基づいて音声か非音声かの判定を行う判定部とを備える。
【0014】
この構成により、入力音声の音声特徴量の音声と騒音の活性化度をも含めて、音声又は非音声の事後確率を求めるので、音声区間検出の性能を高めることができる。
【0015】
本発明の音声区間検出装置において、前記活性化度算出部は、非負値行列因子分解によって前記音声特徴量を基底と活性化度とに因子分解し、求めた基底から音声の基底と騒音の基底とを求め、音声と騒音のそれぞれの基底に対応する活性化度を求めてもよい。
【0016】
この構成により、教師なし学習によって音声の基底と騒音の基底に対応する活性化度を求めることができる。
【0017】
本発明の音声区間検出装置は、クリーンな音声に基づいて音声の基底を学習する基底学習部を備え、前記活性化度算出部は、学習によって求められた音声の基底を用いて、前記音声特徴量を非負値行列因子分解によって基底と活性化度に因子分解し、音声と騒音のそれぞれの基底に対応する活性化度を求めてもよい。
【0018】
このように騒音を含まないクリーンな音声に基づいて学習した音声の基底を用いることにより、基底および活性化度の精度を高めることができる。
【0019】
本発明の音声区間検出装置は、前記活性化度算出部にて算出した音声の基底に基づいて、クリーンな音声を選別するデータ選別部を備え、前記基底学習部は、選別されたクリーンな音声を用いて、音声の基底を再学習してもよい。
【0020】
この構成により、発話者や発話内容に近い音声の基底が生成されるので、使用者に応じて音声区間検出の精度をさらに高めることができる。
【0021】
本発明の音声区間検出装置は、前記活性化度算出部にて算出された基底及び活性化度のデータを用いて騒音を抑圧する騒音抑圧部を備えてもよい。
【0022】
この構成により、音声区間検出のために求めた音声と騒音の基底とその活性化度のデータを、騒音抑圧に用いることができ、騒音抑圧の計算コストを低減することができる。
【0023】
本発明の音声区間検出方法は、音声区間検出装置によって音声区間を検出する方法であって、前記音声区間検出装置が、音声と騒音を含む入力音声を入力するステップと、前記音声区間検出装置が、前記入力音声から音声特徴量を求めるステップと、前記音声区間検出装置が、音響モデルに基づいて、前記音声特徴量が音声のうちどのサブセットかの尤度を求めるステップと、前記音声区間検出装置が、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記音声特徴量が音声である尤度をも用いて事後確率を求めるステップと、前記音声区間検出装置が、前記事後確率に基づいて音声か非音声かの判定を行うステップとを備える。
【0024】
本発明の音声区間検出方法は、音声区間検出装置によって音声区間を検出する方法であって、前記音声区間検出装置が、音声と騒音を含む入力音声を入力するステップと、前記音声区間検出装置が、前記入力音声から音声特徴量を求めるステップと、前記音声区間検出装置が、音声強調のモデルに基づいて、前記音声特徴量を音声と騒音とに分離した際のそれぞれの活性化度を算出するステップと、前記音声区間検出装置が、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記活性化度をも用いて事後確率を求めるステップと、前記音声区間検出装置が、前記事後確率に基づいて音声か非音声かの判定を行うステップとを備える。
【0025】
本発明のプログラムは、音声区間を検出するためのプログラムであって、コンピュータに、音声と騒音を含む入力音声を入力するステップと、前記入力音声から音声特徴量を求めるステップと、音響モデルに基づいて、前記音声特徴量が音声のうちどのサブセットかの尤度を求めるステップと、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記音声特徴量が音声である尤度をも用いて事後確率を求めるステップと、前記事後確率に基づいて音声か非音声かの判定を行うステップとを実行させる。
【0026】
本発明のプログラムは、音声区間を検出するためのプログラムであって、コンピュータに、音声と騒音を含む入力音声を入力するステップと、前記入力音声から音声特徴量を求めるステップと、音声強調のモデルに基づいて、前記音声特徴量を音声と騒音とに分離した際のそれぞれの活性化度を算出するステップと、音声区間検出モデルに基づいて、前記音声特徴量から音声又は非音声の事後確率を算出するステップであって、前記活性化度をも用いて事後確率を求めるステップと、前記事後確率に基づいて音声か非音声かの判定を行うステップとを実行させる。
【発明の効果】
【0027】
本発明によれば、音声区間の検出性能を高めることができる。
【図面の簡単な説明】
【0028】
図1】第1の実施の形態の音声区間検出装置の構成を示す図である。
図2】第1の実施の形態の音声区間検出装置の動作を示すフローチャートである。
図3】第2の実施の形態の音声区間検出装置の構成を示す図である。
図4】第3の実施の形態の音声区間検出装置の構成を示す図である。
図5】第4の実施の形態の音声区間検出装置の構成を示す図である。
図6】第4の実施の形態の音声区間検出装置の動作を示すフローチャートである。
図7】第5の実施の形態の音声区間検出装置の構成を示す図である。
図8】第6の実施の形態の音声区間検出装置の構成を示す図である。
図9】第7の実施の形態の音声区間検出装置の構成を示す図である。
【発明を実施するための形態】
【0029】
以下、本発明の実施の形態の音声区間検出装置1について、図面を参照して説明する。
(第1の実施の形態)
図1は、第1の実施の形態の音声区間検出装置1の構成を示す図である。入力部10は、音声区間の検出対象となる入力音声のフレーム単位の入力を受け付ける機能を有する。本書では、音声と騒音が混在している検出対象の音のデータを「入力音声」といい、そのフレーム単位を「入力音声フレーム」という。特徴量算出部11は、入力部10にて入力された入力音声フレームの音声特徴量を算出する。本実施の形態では、音声特徴量として、スペクトル特徴量vを用いる。スペクトル特徴量vは、入力音声フレームに含まれる周波数成分を特徴量とするものである。
【0030】
事後確率算出部12は、スペクトル特徴量vに基づいて、音声または騒音の事後確率を計算する機能を有する。事後確率算出部12は、音声モデル記憶部15及び騒音モデル記憶部16と接続されている。音声モデル及び騒音モデルは、音声区間を検出するための音声区間検出モデルであり、音声モデルは音声の音響的特徴を学習したモデル、騒音モデルは騒音の音響的特徴を学習したモデルである。
【0031】
音声モデル及び騒音モデルは、事後的に学習することもできるが、本実施の形態では、音声モデル及び騒音モデルは事前に学習しておく。多様な状況での使用を考えると、音声モデルの学習データには多種多様な音声を混ぜておくことが好ましい。なお、騒音モデル記憶部16は、任意の構成であり、省略することも可能である。
【0032】
事後確率算出部12は、スペクトル特徴量vに基づいて事後確率wを算出する。音声区間検出モデルによるスペクトル特徴量vから事後確率wへの変換をf( )で表すと、w=f(v)となる。事後確率算出部12は、求めた事後確率wのデータを判定部13に入力する。
【0033】
判定部13は、事後確率wに基づいて、入力音声フレームが音声か非音声を判定する。例えば、w=[音声の事後確率,騒音の事後確率]とし、ベクトルのインデクスを1から始めるとすると、argmax(w)=1のとき当該入力音声フレームは音声、argmax(w)=2のとき当該フレームは騒音と判定することができる。
【0034】
出力部14は、入力音声フレームが音声か騒音か判定された結果を出力する。出力部14は、判定部13によって音声と判定された区間のデータを出力することとしてもよい。
【0035】
本実施の形態の音声区間検出装置1は、さらに、音響尤度算出部17を備えている。特徴量算出部11は、求めたスペクトラム特徴量vのデータを音響尤度算出部17に入力する。なお、本実施の形態では、事後確率算出部12に対して入力したのと同じスペクトラム特徴量vを入力するが、事後確率算出部12と音響尤度特徴部に入力する特徴量は必ずしも同じでなくてもよく、それぞれに異なる特徴量を入力してもよい。
【0036】
音響尤度算出部17は、入力されたスペクトラム特徴量vを音響モデルに適用して、スペクトラム特徴量vが音声である尤度Lを求める。音響尤度算出部17は、モノフォンの状態やトライフォンの状態、これを縮退させた状態等、適切に選択した状態単位で尤度Lを求める。音響モデルは、音響モデル記憶部18に記憶されている。音響モデルとしては、従来から用いられている混合ガウス分布やニューラルネットワーク等を用いることができる。音響尤度算出部17は、算出した尤度Lを事後確率算出部12に入力する。
【0037】
事後確率算出部12は、前述したとおり、音声区間検出モデルによってスペクトル特徴量vから事後確率wを求めるが、本実施の形態においては、さらに尤度Lのデータも用いて事後確率wを求める。すなわち、事後確率算出部12は、元のスペクトル特徴量vに連結して、w=f([v;L])のようにして求める、あるいは、他のモデルg( )を用いてw=α・f(v)+β・g(L)のように求めることができる。ここで、α、βは適当な係数である。なお、ここで挙げた方法は一例であり、線形和に限らず、様々な結合の仕方が考えられる。一般的には、w=h(f(v),g(L))のように、統合モデルh( )に入力する方法が考えられる。
【0038】
以上、第1の実施の形態の音声区間検出装置1の構成について説明したが、音声区間検出装置1のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した音声区間検出装置1が実現される。このようなプログラムも本発明の範囲に含まれる。
【0039】
図2は、第1の実施の形態の音声区間検出装置1の動作を示すフローチャートである。音声区間検出装置1は、まず、入力音声フレームのデータの入力を受け付け(S10)、入力音声フレームのスペクトル特徴量vを求める(S11)。続いて、音声区間検出装置1は、スペクトル特徴量vに基づいて音響尤度Lを求め(S12)、求めた音響尤度Lのデータを事後確率算出部12に入力する。事後確率算出部12は、スペクトル特徴量vを音声モデル及び騒音モデルに適用すると共に音響尤度Lのデータを用いて、音声または騒音の事後確率wを求める(S13)。判定部13は、事後確率wに基づいて、入力音声フレームが音声か騒音かの判定を行い(S14)、音声区間を検出する。音声区間検出装置1は、求められた音声区間のデータを出力する(S15)。
【0040】
以上、第1の実施の形態の音声区間検出装置1の構成および動作について説明した。第1の実施の形態の音声区間検出装置1は、入力音声フレームのスペクトル特徴量が音声である尤度Lをも含めて、音声か騒音かの事後確率を求める。尤度Lは発話内容を多分に反映しているので音声区間の検出に有用であり、事後確率算出部12での事後確率の計算に加えることにより、音声区間検出の性能を高めることができる。
【0041】
(第2の実施の形態)
図3は、第2の実施の形態の音声区間検出装置2の構成を示す図である。第2の実施の形態の音声区間検出装置2の基本的な構成は、第1の実施の形態の音声区間検出装置1と同じであるが、第2の実施の形態の音声区間検出装置2は、第1の実施の形態の音声区間検出装置1の構成に加えてベクトル変換部19を備えており、音響尤度算出部17にて求めた音響尤度Lのベクトルを低次元に変換する点が異なる。
【0042】
音響尤度算出部17にて算出される尤度Lは、スペクトル特徴量vよりも次元が大きくなりがちである。第2の実施の形態の音声区間検出装置2は、ベクトル変換部19により、低次元のベクトルに変換する。ベクトル変換部19で実現される変換の関数をTとし、上述の元の特徴量vに連結して入力する方法を例にすると、w=f([v;T(L)])となる。これにより、事後確率算出部12による計算処理の負担を軽減できる。
【0043】
本実施の形態では、第2の実施の形態の音声区間検出装置2は、次元圧縮を目的としてベクトル変換を行う例を説明したが、次元を小さくする必要がない場合にも、ベクトルの長さの正規化や平均値の補償といった変換を行ってもよい。
【0044】
なお、本実施の形態では、ベクトル変換を行う例を説明したが、次元を圧縮する手法としては、主成分分析やニューラルネットワークによる次元圧縮を用いてもよい。
【0045】
(第3の実施の形態)
図4は、第3の実施の形態の音声区間検出装置3の構成を示す図である。第3の実施の形態の音声区間検出装置3の基本的な構成は、第2の実施の形態の音声区間検出装置2と同じであるが、第3の実施の形態の音声区間検出装置3は、第2の実施の形態の音声区間検出装置2の構成に加えて音声認識部20を備えており、音響尤度算出部17にて求めた音響尤度Lを利用して音声認識を行う点が異なる。
【0046】
このように、音声認識部20を組み合わせることで比較的低コストに音声認識を行うことが可能である。出力部14は、音声認識部20によって認識を行った結果も出力する。なお、本実施の形態では、第2の実施の形態の音声区間検出装置2に対して音声認識部20を付加した構成について説明したが、第1の実施の形態の音声区間検出装置1に音声認識部20を付加してもよいことはもちろんである。
【0047】
(第4の実施の形態)
図5は、第4の実施の形態の音声区間検出装置4の構成を示す図である。上記した実施の形態では、音声認識の仕組みを利用することで発話内容を反映した音声区間検出が行えるようになることを示したが、第4の実施の形態の音声区間検出装置4では、音声強調の仕組みを利用して、話者の特徴と、発話内容の片方もしくは両方利用した音声区間検出について説明する。
【0048】
第4の実施の形態の音声区間検出装置4は、第1〜第3の実施の形態で説明した音響尤度算出部17に代えて、活性化度算出部21を備えている。特徴量算出部11は、入力音声フレームから求めたスペクトル特徴量を活性化度算出部21に入力する。活性化度算出部21は、非負値行列因子分解を用いて、基底と活性化度(アクティベーション)に因子分解する。具体的には、活性化度算出部21は、音声の基底と騒音の基底を算出し、これらに対応する活性化度を算出し、算出した基底と活性化度から特徴量を復元し、これが元の特徴量と近くなるように基底と活性化度を逐次的に更新する。これにより、活性化度算出部21は、音声の基底及び騒音の基底とそれぞれの活性化度を求めることができる。
【0049】
活性化度算出部21にて求めた基底及び活性化度のデータを、ベクトル変換部19を介して次元圧縮して事後確率算出部12に入力する。事後確率算出部12は、入力された基底およびその活性化度のデータも用いて事後確率wを求める。
【0050】
図6は、第4の実施の形態の音声区間検出装置4の動作を示すフローチャートである。音声区間検出装置4は、まず、入力音声フレームの入力を受け付け(S20)、入力音声フレームのスペクトル特徴量vを求める(S21)。続いて、音声区間検出装置4は、スペクトル特徴量vに基づいて、音声及び騒音の基底とそれぞれの活性化度を求め(S22)、求めた基底及び活性化度のデータを事後確率算出部12に入力する。
【0051】
事後確率算出部12は、スペクトル特徴量vを音声モデル及び騒音モデルに適用すると共に音響尤度Lのデータを用いて、音声または騒音の事後確率wを求める(S23)。判定部13は、事後確率wに基づいて、入力音声フレームが音声か騒音かの判定を行い(S24)、音声区間を検出する。音声区間検出装置4は、求められた音声区間のデータを出力する(S25)。
【0052】
以上、第4の実施の形態の音声区間検出装置4の構成および動作について説明した。本実施の形態の音声区間検出装置4は、入力音声フレームを音声及び騒音の基底とそれぞれの活性化度に分解し、この情報を用いて音声か騒音かの事後確率を求める。活性化度は、話者と発話内容の特徴を多分に反映しているので音声区間の検出に有用であり、事後確率算出部12での事後確率の計算に加えることにより、音声区間検出の性能を高めることができる。
【0053】
(第5の実施の形態)
図7は、第5の実施の形態の音声区間検出装置5の構成を示す図である。第5の実施の形態の音声区間検出装置5の基本的な構成は、第4の実施の形態の音声区間検出装置4の構成と同じであるが、第5の実施の形態の音声区間検出装置5は、第4の実施の形態の音声区間検出装置4の構成に加え、基底学習部22と基底学習部22における学習に用いるクリーン音声を記憶したクリーン音声記憶部23を有している。ここで、クリーン音声とは、騒音のない環境で取得された人の音声のみからなるデータである。
【0054】
基底学習部22は、クリーン音声記憶部23に記憶されたクリーン音声のデータを用いて、音声の基底を学習しておくことにより、精度の高い音声基底を求めることができる。第5の実施の形態においては、活性化度算出部21は、スペクトル特徴量を基底と活性化度に因子分解する際に、基底学習部22にて予めクリーン音声に基づいて生成された音声の基底を用いる。これにより、非負値行列因子分解の精度を高めることができ、ひいては音声区間検出の精度を高めることができる。
【0055】
(第6の実施の形態)
図8は、第6の実施の形態の音声区間検出装置6の構成を示す図である。第6の実施の形態の音声区間検出装置6の基本的な構成は、第5の実施の形態の音声区間検出装置5の構成と同じであるが、第6の実施の形態の音声区間検出装置6は、第5の実施の形態の音声区間検出装置5の構成に加え、クリーン音声のデータを選択するデータ選別部24をさらに有している。
【0056】
基底学習部22は、最初にクリーン音声を用いた学習によって音声の基底を生成するが、この音声基底は、多様な話者の多様な発話内容に基づく音声の基底である。本実施の形態では、入力部10より入力音声フレームに基づいて、音声の基底を学習する。すなわち、活性化度算出部21にて、入力音声フレームのスペクトル特徴量から音声の基底とその活性化度を求めると、データ選別部24は、求められた音声基底に近い特徴量を有するクリーン音声を選別する。そして、基底学習部22は、選別されたクリーン音声を用いて、音声の基底の再学習を行う。
【0057】
本実施の形態の音声区間検出装置6は、発話者や発話内容の特徴に応じて、音声の基底をカスタマイズし、音声区間検出の精度を高めることができる。なお、発話者の性別や発話内容(例えば、車載機器に対する指示命令に限定される場合)等があらかじめわかっている場合には、データ選別部24は、それらの情報に基づいてクリーン音声を選別し、基底学習部22に渡してもよい。このように、本実施の形態の音声区間検出装置6は、発話者の特徴・発話内容に応じた使用者のカスタマイズを非常に行いやすい構成である。
【0058】
(第7の実施の形態)
図9は、第7の実施の形態の音声区間検出装置7の構成を示す図である。第7の実施の形態の音声区間検出装置7の基本的な構成は、第4の実施の形態の音声区間検出装置4と同じであるが、第7の実施の形態の音声区間検出装置7は、第4の実施の形態の音声区間検出装置4の構成に加えて騒音抑圧部25を備えており、活性化度算出部21にて求めた音声基底及びその活性化度を利用して騒音抑圧の処理を行う点が異なる。
【0059】
このように、騒音抑圧部25を組み合わせることで比較的低コストに騒音抑圧処理を行うことが可能である。出力部14は、騒音抑圧された音声データも出力する。なお、本実施の形態では、第4の実施の形態の音声区間検出装置4に対して騒音抑圧部25を付加した例を挙げているが、第5の実施の形態や第6の実施の形態の音声区間検出装置5,6に対して、騒音抑圧部25を加えることももちろん可能である。
【0060】
以上、本発明の音声区間検出装置について、実施の形態を挙げて詳細に説明したが、本発明の音声区間検出装置は上記した実施の形態に限定されるものではない。上記した実施の形態では、事後確率算出部による事後確率の算出に、音響尤度Lを用いる例(第1〜第3の実施の形態)と、基底および活性化度を用いる例(第4〜第7の実施の形態)を説明したが、音響尤度Lと基底及び活性化度を組み合わせて用いてもよく、これにより、いっそうの性能向上を期待できる。
【産業上の利用可能性】
【0061】
本発明は、入力音声フレームの音声区間を検出する装置として有用である。
【符号の説明】
【0062】
1〜7 音声区間検出装置
10 入力部
11 特徴量算出部
12 事後確率算出部
13 判定部
14 出力部
15 音声モデル記憶部
16 騒音モデル記憶部
17 音響尤度算出部
18 音響モデル
19 ベクトル変換部
21 活性化度算出部
22 基底学習部
23 クリーン音声記憶部
24 データ選別部
25 騒音抑圧部
図1
図2
図3
図4
図5
図6
図7
図8
図9