特許第5994639号(P5994639)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許5994639有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
<>
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000012
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000013
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000014
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000015
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000016
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000017
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000018
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000019
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000020
  • 特許5994639-有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム 図000021
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5994639
(24)【登録日】2016年9月2日
(45)【発行日】2016年9月21日
(54)【発明の名称】有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
(51)【国際特許分類】
   G10L 25/84 20130101AFI20160908BHJP
   G10L 25/27 20130101ALI20160908BHJP
   H04R 3/00 20060101ALI20160908BHJP
【FI】
   G10L25/84
   G10L25/27
   H04R3/00 320
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2012-555818(P2012-555818)
(86)(22)【出願日】2012年1月25日
(86)【国際出願番号】JP2012051554
(87)【国際公開番号】WO2012105386
(87)【国際公開日】20120809
【審査請求日】2014年12月17日
(31)【優先権主張番号】特願2011-19815(P2011-19815)
(32)【優先日】2011年2月1日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100124154
【弁理士】
【氏名又は名称】下坂 直樹
(72)【発明者】
【氏名】大西 祥史
【審査官】 間宮 嘉誉
(56)【参考文献】
【文献】 特開2008−158035(JP,A)
【文献】 特開2010−217773(JP,A)
【文献】 特開2004−170552(JP,A)
【文献】 特開2003−271166(JP,A)
【文献】 国際公開第2005/024788(WO,A1)
【文献】 国際公開第2008/056649(WO,A1)
【文献】 米国特許出願公開第2006/0204019(US,A1)
【文献】 Yu SHI, et al.,Auto-Segmentation Based Partitioning and Clustering Approach to Robust Endpointing,Proc. ICASSP 2006,フランス,IEEE,2006年 5月14日,Vol.1,pp.793-796
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G10L 21/00−25/93
H04R 3/00− 3/14
Science Direct
IEEE Xplore
CiNii
Scopus
JSTPlus(JDreamIII)
JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、前記クラスタリングされたクラスタのうちのクラスタ中心が最小となるクラスタであるノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影することにより、前記ノイズクラスタの中心ベクトルと前記音声信号のベクトルとの比率を算出し、当該比率を信号ノイズ比とみなし当該信号ノイズ比を利用して有音性指標算出する有音性指標算出手段と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
を備えることを特徴とする有音区間検出装置。
【請求項2】
前記クラスタリング手段が、確率的なクラスタリングを行い、
前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項1に記載の有音区間検出装置。
【請求項3】
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項1又は請求項2に記載の有音区間検出装置。
【請求項4】
複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、前記クラスタリングされたクラスタのうちのクラスタ中心が最小となるクラスタであるノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影することにより、前記ノイズクラスタの中心ベクトルと前記音声信号のベクトルとの比率を算出し、当該比率を信号ノイズ比とみなし当該信号ノイズ比を利用して有音性指標算出する有音性指標算出ステップと、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
を有することを特徴とする有音区間検出方法。
【請求項5】
前記クラスタリングステップが、確率的なクラスタリングを行い、
前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項4に記載の有音区間検出方法。
【請求項6】
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項4又は請求項5に記載の有音区間検出方法。
【請求項7】
複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
前記コンピュータに、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、前記クラスタリングされたクラスタのうちのクラスタ中心が最小となるクラスタであるノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影することにより、前記ノイズクラスタの中心ベクトルと前記音声信号のベクトルとの比率を算出し、当該比率を信号ノイズ比とみなし当該信号ノイズ比を利用して有音性指標算出する有音性指標算出処理と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
を実行させることを特徴とする有音区間検出プログラム。
【請求項8】
前記クラスタリング処理が、確率的なクラスタリングを行い、
前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする請求項7に記載の有音区間検出プログラム。
【請求項9】
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする請求項7又は請求項8に記載の有音区間検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声信号から、音声信号から有音区間を検出する技術に関し、特に、複数のマイクで集音された音声信号を用いて有音区間検出を行う有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムに関する。
【背景技術】
【0002】
複数のマイクで収音された音声信号から有音区間を分類する技術は数多く開示されており、その一例が、例えば特許文献1に記載されている。
【0003】
特許文献1に記載の技術では、複数のマイクそれぞれの有音区間を正しく判定するために、まず周波数領域に変換された時間周波数ごとの各観測信号を音源毎に分類し、その分類された各観測信号について有音区間、無音区間の判定を行なっている。
【0004】
ここで、特許文献1等の背景技術における有音区間分類装置の構成図を図5に示す。背景技術における有音区間分類装置は、一般的に観測信号分類部501と、信号分離部502と有音区間判定部503とから構成されている。
【0005】
このような構成を有する背景技術における音声区間分類装置の動作を示すフローチャートを、図8に示す。
【0006】
背景技術における音声区間分類装置は、まず、M本のマイクで観測された音声を各マイクで時間−周波数分析した多マイク音声信号x(f,t)(ここでmはマイク番号、fは周波数、tは時間を示す)と、各マイクにおける周波数ごとのノイズパワー推定値λ(f)とを入力する(ステップS801)。
【0007】
次いで、観測信号分離部501が、各時間周波数について音源分類を行い、分類結果C(f,t)を算出する(ステップS802)。
【0008】
次いで、信号分離部502が、該分類結果C(f,t)及び多マイク音声信号を用いて、音源ごとの分離信号y(f,t)を算出する(ステップS803)。
【0009】
次いで、有音区間判定部503が、該分離信号y(f,t)とノイズパワー推定値推定値λ(f)とを用いて、音源ごとに、S/N(signal−noise ratio)に基づき有音か無音かを判定する(ステップS804)。
【0010】
ここで、図6に示すように、観測信号分類部501は無音判定部602と分類部601とから構成されており、次のように動作する。観測信号分類部501の動作を示すフローチャートを、図9に示す。
【0011】
まず、無音判定部602のS/N非計算部607が、多マイク音声信号x(f,t)とノイズパワー推定値λ(f)を入力し、各マイクごとに、数1に従いS/N比γ(f,t)を計算する(ステップS901)。
【数1】
【0012】
次いで、非線形変換部608が、各マイクごとに、下式に従い非線形変換を施し、非線形変換後のS/N比G(f,t)を計算する(ステップS902)。
(f,t)=γ(f,t)−lnγ(f,t)−1
【0013】
次に、判定部609が、予め定めた閾値η’と各マイクの非線形変換後のS/N比G(f,t)とを比較して、すべてのマイクにおいて非線形変換後のS/N比G(f,t)が閾値以下であれば、その時間−周波数における信号はノイズであるとみなしてC(f,t)=0を出力する(ステップS903)。なお、分類結果C(f,t)は、0からNまでの値をとるクラスタ情報である。
【0014】
次に、分類部601の正規化部603が、多マイク音声信号x(f,t)を入力し、ノイズと判断されなかった区間において、数2に従いX’(f,t)を計算する(ステップS904)。
【数2】
【0015】
X’(f,t)は、M本のマイクの信号の振幅絶対値|x(f,t)|をM次元ベクトルとし、そのベクトルのノルムで正規化したベクトルである。
【0016】
次いで、尤度計算部604が、あらかじめ定めた平均ベクトルと共分散行列をもつガウス分布で表した話者N人の音源モデルとの尤度p(X’(f,t))n=1,…,Nを計算する(ステップS905)。
【0017】
次いで、最大値決定部606が、尤度p(X’(f,t))が最大値となるnを、C(f,t)=nとして出力する(ステップS906)。
【0018】
ここで、音源数NとMは異なっていてもよいが、音源であるN人の各話者の近くにいずれかのマイクが配置されていると想定しているため、nは1,…,Mをとるものである。
【0019】
また、モデル更新部605は、M次元の各座標軸方向を平均ベクトルとするガウス分布を初期分布とし、話者推定結果を用いて自身の音源モデルに分類された信号を用いて平均ベクトルおよび共分散行列を更新することにより、音源モデルの更新を行う。
【0020】
信号分離部502は、入力された多マイク音声信号x(f,t)と観測信号分類部501で出力されたC(f,t)を用いて、数3に従い音源ごとの信号y(f,t)に分離する。
【数3】
【0021】
ここで、k(n)は音源nの最寄りのマイク番号を表し、音源モデルのガウス分布が近接している座標軸から算出できる。
【0022】
有音区間判定部503は次のように動作する。
【0023】
有音区間判定部503は、まず、信号分離部502で計算された分離信号y(f,t)を用いて、数4に従いG(t)を求める。
【数4】
【0024】
次いで、有音区間判定部503は、算出したG(t)と、予め定めた閾値ηとを比較し、G(t)が閾値ηよりも大きければ、時刻tは音源nの発話区間と判定し、G(t)が閾値η以下であれば、時刻tはノイズ区間であると判定する。
【0025】
なお、Fは考慮する波数の集合であり、|F|は集合Fの要素数である。
【先行技術文献】
【特許文献】
【0026】
【特許文献1】特開2008−158035号公報
【非特許文献】
【0027】
【非特許文献1】P. Fearnhead, “Particle Filters for Mixture Models with an Unknown Number of Components”,Statistics and Computing, vol 14, pp.11−21, 2004.
【非特許文献2】B.A. Olshausen and D.J. Field, “Emergence of simple−cell receptive field properties by learning a sparse code for natural images”, Nature vol. 381, pp607−609, 1996.
【発明の概要】
【発明が解決しようとする課題】
【0028】
特許文献1に記載の技術では、観測信号分類部501において行われる音源分類は、正規化ベクトルX’(f,t)が音源に近いマイクの座標軸方向にあるとして算出している。
【0029】
しかしながら実際には、音源が話者の場合などでは音声パワーは常に変動するため、音源位置が全く移動しない場合においても正規化ベクトルX’(f,t)はマイクの座標軸方向から大きく離れ、十分な精度で観測信号の音源分類が出来ないという課題がある。
【0030】
例えば2つのマイクで観測した信号の場合を図7に示す。今、マイク番号2の近くの話者が発話している場合を考えると、2つのマイクの観測信号絶対値からなる空間において、音源位置が変化していなくても、音声パワーは常に変動するため、図7の太線上を変動することとなる。
【0031】
ここで、λ(f),λ(f)はノイズパワーであり、その平方根が各マイクで観測される最小振幅程度に相当する。
【0032】
この時、正規化ベクトルX’(f,t)は半径1の円弧の上に制約されたベクトルとなるが、マイク番号1の観測振幅が小さくノイズレベルと同等で、マイク番号2の観測振幅がノイズレベルより十分に大きい領域である場合(すなわちγ(f,t)が閾値η’を超えて有音区間とみなせる場合)でも、X’(f,t)はマイク番号2の座標軸(すなわち音源方向)から大きく外れることとなり、図7の太点線上を変動して音源の分類が困難となり、その結果マイク番号2の音声区間を誤って無音と判定し、音声区間検出性能を劣化させる。
【0033】
また、特許文献1に記載の技術では、観測信号分類部501において、音源数Nは未知量であるため、尤度計算部604で音源分類のための適切な音源モデルを設定することは困難であることから、分類結果に誤りが生じ、その結果音声区間検出性能が劣化してしまう課題がある。
【0034】
例えば2マイク3音源(話者)で3番目の話者が2つのマイクの中間近くに位置していた場合、マイク軸近くの音源モデルでは適切に分類することはできない。また、事前の話者数の知識なしにマイク軸から離れた適切な位置に音源モデルを用意することは困難で、観測信号の音源分類が行えず、その結果音声区間検出性能が劣化してしまう。
【0035】
さらに、これら観測信号分類性能劣化の要因は、異なる種類のマイクをキャリブレーションせずに混在して使用するような場合、各マイクの振幅値やノイズレベルに差が生じることにより影響が増大して、音声区間検出性能劣化が大きくなる課題が存在する。
【0036】
(発明の目的)
本発明の目的は、上述した課題を解決し、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の有音区間検出を適切に行うことが出来る、有音区間検出装置、有音区間検出方法、及び有音区間検出プログラムを提供することである。
【発明の効果】
【0037】
本発明によれば、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行うことが出来る。
【図面の簡単な説明】
【0038】
図1】本発明の第1の実施の形態による有音区間検出装置の構成を示すブロック図である。
図2】本発明の第2の実施の形態による有音区間検出装置の構成を示すブロック図である。
図3】本発明の効果を説明する図である。
図4】本発明の効果を説明する図である。
図5】背景技術による多マイク音声検出装置の構成を示すブロック図である。
図6】背景技術による多マイク音声検出装置の構成を示すブロック図である。
図7】背景技術による多マイク音声検出装置の課題を説明する図である。
図8】背景技術による多マイク音声検出装置の動作を示すフローチャートである。
図9】背景技術による多マイク音声検出装置の動作を示すフローチャートである。
図10】本発明の有音区間検出装置のハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0039】
本発明の上記及び他の目的、特徴及び利点を明確にすべく、添付した図面を参照しながら、本発明の実施形態を以下に詳述する。
【0040】
なお、上述の本願発明の目的のほか、他の技術的課題、その技術的課題を解決する手段及びその作用効果についても、以下の実施形態による開示によって明らかとなるものである。また、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0041】
(第1の実施の形態)
本発明の第1の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
【0042】
図1は、本発明の第1の実施の形態による有音区間検出装置100の構成を示すブロック図である。図1を参照すると、本実施の形態による有音区間検出装置100は、ベクトル算出手段101と、クラスタリング手段102と、有音声指標算出手段103と、有音区間判定手段106とを備えている。
【0043】
ベクトル算出手段101は、時間−周波数分析した多マイク音声信号x(f,t)(m=1,…,M)を入力し、数5に従いM次元パワースペクトルのベクトルS(f,t)を算出する。
【数5】
【0044】
ここで、Mはマイクの数を示す。
【0045】
また、ベクトル算出手段101は、数6に示すように、対数パワースペクトルのベクトルLS(f,t)を算出することとしてもよい。
【数6】
【0046】
クラスタリング手段102は、ベクトル算出手段101で算出したM次元空間のベクトルをクラスタリングする。
【0047】
クラスタリング手段102は、周波数fの時刻1からtまでのM次元パワースペクトルのベクトルS(f,1:t)が得られたとき、これらt個のベクトルデータをクラスタリングした状態をzで表す。なお、時刻の単位は、信号を所定の時間長で区切ったものである。
【0048】
また、h(z)はクラスタリング状態zを持つ系から算出できる任意の量hを表す関数とする。本実施の形態においては、クラスタリングは確率的に行うものとする。
【0049】
クラスタリング手段102は、数7の第2項に従い、事後分布p(z|S(f,1:t))を乗じてあらゆるクラスタリング状態zについて積分することでhの期待値を算出することが可能である。
【数7】
【0050】
しかし、実際には数7の第3項に示すようにL個のクラスタリング状態z(l=1,…,L)とその重みωを用いることにより、重み付き和をとることで近似的に算出する。
【0051】
ここで、クラスタリング状態zとは、t個のデータがそれぞれどのようにクラスタリングされたかを表す。例えばt=3の場合は、3個のデータのクラスタリングのすべての組み合わせが考えられ、クラスタリング状態zは、クラスタ番号の集合で表すとz={1,1,1},z={1,1,2},z={1,2,1},z={1,2,2},z={1,2,3}のL=5種類となる。
【0052】
また例えば、h(z)として、時刻tのデータのクラスタ中心ベクトルを算出するものを考えると、前記t=3の場合では、クラスタリング状態zは、各zの集合に含まれるそれぞれのクラスタを、共役な事前分布を持つガウス分布として事後分布を算出し、そのうちt=3のデータを含むクラスタの分布平均の値を取るものとなる。
【0053】
ここで、zおよびωは、ディリクレプロセスミクスチャモデルに粒子フィルタ法適応することにより算出でき、例えば非特許文献1に詳細が記載されている。
【0054】
なお、L=1とした場合には決定的なクラスタリングとなり、その場合も含んでいることとみなせる。
【0055】
有音性指標算出手段103は、前述のクラスタリング手段102におけるh()として,数8に示すG(z)の期待値G(f,t)を計算し、有音性の指標を算出する。
【数8】
【0056】
ここで、数8のQは、zにおける時刻tのクラスタ中心ベクトル、Λはzに含まれるクラスタのうちクラスタ中心が最小となる中心ベクトル、SはS(f,t)を略記したもので「・」は内積を表す。
【0057】
数8におけるγは、クラスタリング状態zにおいて、ノイズパワーベクトルΛとパワースペクトルSをそれぞれクラスタ中心ベクトル方向に射影して算出したS/N比に相当する。すなわちGは
(f,t)=γ(f,t)−lnγ(f,t)−1
をM次元空間上へ拡張したものである。
【0058】
有音区間判定部106は、有音性指標算出手段103で算出されたG(f,t)と、予め定めた閾値ηと比較して、G(f,t)が閾値ηよりも大きければ発話区間と判定し、G(f,t)が閾値η以下であればノイズ区間であると判定する。
【0059】
(第1の実施の形態による効果)
次に、本実施の形態の効果について説明する。
【0060】
本実施の形態では、クラスタリング手段102において、ベクトル算出手段101で算出したM次元空間のベクトルをクラスタリングする。これにより、音源からの音量変動を反映したクラスタリングが行われる。
【0061】
例えば、図3に示すように、2つのマイクで観測する場合を考えると、マイク番号2の近くで話者が発話している場合、あるクラスタリング状態zにおいて、ノイズベクトルΛ(f,t)近くのクラスタ1、マイク番号1の音量が小さい領域でのクラスタ2、より音量が大きい領域のクラスタ3といった、クラスタリングが行われる。
【0062】
ここで、さまざまなクラスタ数を持つクラスタリング状態zを考慮して、それらクラスタリング状態を確率的に取り扱っているため、クラスタ数は予め決める必要はない。
【0063】
本実施の形態では、有音性指標算出手段203において、各時刻のパワースペクトルS(f,t)が入力されたとき、そのデータが属するクラスタ中心ベクトル方向において、有音性指標G(f,t)を算出する。
【0064】
このため、異なる種類のマイクを混在して使用するような場合、すなわち各マイク軸におけるパワースペクトルの値やノイズレベルに差が生じる場合でも、M次元空間でクラスタリングを行い、データ変動の影響を考慮して実現されたクラスタ中心ベクトルを算出し、その方向において有音性指標を評価しているため、マイク差の影響を受けにくい効果がある。
【0065】
また、有音区間判定手段106は、これら算出された有音性指標をもちいて有音区間を判定するため、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音声区間検出を適切に行うことが出来る。
【0066】
なお、本発明では、音源は音声としたが、これに限定されるものではなく、例えば楽器の音等、他の音源についても適用できる。
【0067】
(第2の実施の形態)
次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については適宜省略してあり、図示されていない。
【0068】
図2は本発明の第2の実施の形態による有音区間検出装置100の構成を示すブロック図である。
【0069】
本実施の形態による有音区間検出装置100は、図1に示す第1の実施の形態の構成に加え、差分算出手段104と、音源方向算出手段105とを備えている。
【0070】
差分算出手段104は、前記クラスタリング手段102におけるh()として、数9に示すΔQ(z)の期待値ΔQ(f,t)を計算し、クラスタ中心の変動方向を算出する。
【数9】
【0071】
ここで、数9は、時刻tとt−1のデータが含まれるクラスタ中心ベクトル差分Q−Qt−1を、それら平均ノルム|Q+Qt−1|/2で規格化したものを表す。
【0072】
音源方向推定手段105は、差分算出手段104において算出された、ΔQ(f,t)のf∈F,t∈τのデータを用いて、下式に従い、Iを最小とする基底ベクトルφ(i)、及び係数a(f,t)を算出しする。
I(a,φ)=Σf∈F,t∈τ[Σ{Q(f,t)−Σ(f,t)φ(i)}2]+ξΣ|a(f,t)|]
【0073】
次いで、音源方向推定手段105は、下式に従い、各f,tにおいて、a(f,t)が最大となる基底ベクトルを、音源方向D(f,t)として推定する。
D(f,t)=φ,j=argmax(f,t)
【0074】
Iを最小にするφ及びaは、a及びφについて交互に再急降下法を適応することにより算出でき、この詳細についてはたとえば非特許文献2に記載されている。
【0075】
ここで、Fは考慮する波数の集合であり、τは予め定めたtの前後のバッファ幅である。なお音源方向の不定を減少させるため、t∈{t−τ1,…,t+τ2}として、有音区間判定手段106でノイズ区間と判定された領域を含まないように変動を許したバッファ幅を用いることも出来る。
【0076】
また、基底ベクトルの個数は、十分な数を設定しておけば、不要な基底ベクトルの係数aがゼロとなるため、音源数を事前に知っておく必要はない。
【0077】
有音区間判定手段106は、有音性指標算出手段103で算出された有音性指標G(f,t)と、音源方向推定手段105で推定さた音源方向D(f,t)を用いて、数10に従い、各音源φに分類された周波数の有音性指標G(f,t)の和G(t)を算出する。
【数10】
【0078】
次いで、有音区間判定手段106は、予め定めた閾値ηと、算出したG(t)とを比較し、G(t)が閾値ηよりも大きければ、該音源方向は音源φの発話区間と判定する。
【0079】
また、G(t)が閾値η以下であれば、該音源方向はノイズ区間であると判定する。
【0080】
(第2の実施の形態による効果)
次に、本実施の形態の効果について説明する。
【0081】
本実施の形態では差分算出手段104において、各時刻のパワースペクトルのベクトルS(f,t)が入力されたとき、クラスタリング手段102で算出されたその時刻および前時刻のデータが属するクラスタ中心の差分ベクトルΔQ(f,t)を算出している。これにより、音源からの音量が変動する場合においてもその影響を受けずにΔQ(f,t)は概ね音源方向を正しく示す効果がある。
【0082】
例えば図4に示すように、クラスタ間の差分は太点線で示すベクトルとなり、音源方向を示していることが分かる。
【0083】
また、音源方向推定手段105は、差分算出手段104で算出されたΔQ(f,t)から、その主要成分を、非直交および空間次元を超えることを許して算出する。ここで、音源数を事前に知っておく必要はなく、また初期音源位置などを指定する必要もない。音源数が未知の場合でも、音源方向を算出できる効果がある。
【0084】
また、有音区間判定手段106は、これら算出された有音性指標および音源方向をもちいて有音区間を判定するため、音源からの音量が変動する場合や、音源数が未知の場合、異なる種類のマイクを混在して使用するような場合にも、観測信号の音源分類および音声区間検出を適切に行うことが出来る。
【0085】
次に、本発明の有音区間検出装置100のハードウェア構成例について、図10を参照して説明する。図10は有音区間検出装置100のハードウェア構成例を示すブロック図である。
【0086】
図10を参照すると、有音区間検出装置100は、一般的なコンピュータ装置と同様のハードウェア構成であり、CPU(Central Processing Unit)801、RAM(Random Access Memory)等のメモリからなる、データの作業領域やデータの一時退避領域に用いられる主記憶部802、ネットワークを介してデータの送受信を行う通信部803、入力装置805や出力装置806及び記憶装置807と接続してデータの送受信を行う入出力インタフェース部804、上記各構成要素を相互に接続するシステムバス808を備えている。記憶装置807は、例えば、ROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等で実現される。
【0087】
本発明の有音区間検出装置100のベクトル算出手段101、クラスタリング手段102、差分算出手段104、音源方向推定手段105、有音区間判定手段106、有音声指標算出手段103は、プログラムを組み込んだ、LSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、その機能を提供するプログラムを、記憶装置807に格納し、そのプログラムを主記憶部802にロードしてCPU801で実行することにより、ソフトウェア的に実現することも可能である。
【0088】
なお、ハードウェア構成は上記に限定されるものではない。
【0089】
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
【0090】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【0091】
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
【0092】
また、本発明の方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法およびコンピュータプログラムを実施する時には、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
【0093】
また、本発明の方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
【0094】
さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
【0095】
(付記1)
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出手段と、
前記多次元ベクトル系列をクラスタリングするクラスタリング手段と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出手段と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定手段と
を備えることを特徴とする有音区間検出装置。
【0096】
(付記2)
前記クラスタリング手段が、確率的なクラスタリングを行い、
前記有音性指標算出手段が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記1に記載の有音区間検出装置。
【0097】
(付記3)
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記1又は付記2に記載の有音区間検出装置。
【0098】
(付記4)
複数のマイクで集音した音声信号から、有音区間を検出する有音区間検出装置の有音区間分類方法であって、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出ステップと、
前記多次元ベクトル系列をクラスタリングするクラスタリングステップと、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出ステップと、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定ステップと
を有することを特徴とする有音区間検出方法。
【0099】
(付記5)
前記クラスタリングステップが、確率的なクラスタリングを行い、
前記有音性指標算出ステップが、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記4に記載の有音区間検出方法。
【0100】
(付記6)
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記4又は付記5に記載の有音区間検出方法。
【0101】
(付記7)
複数のマイクで集音した音声信号から、有音区間を検出する有音区間分類装置として機能するコンピュータ上で動作する有音区間検出プログラムであって、
前記コンピュータに、
複数のマイクで集音した音声信号のパワースペクトル時系列から、前記マイクの数の次元を持つパワースペクトルのベクトル系列である多次元ベクトル系列を算出するベクトル算出処理と、
前記多次元ベクトル系列をクラスタリングするクラスタリング処理と、
任意の時間長に区切った前記多次元ベクトル系列の各時刻において、ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトルをそれぞれ算出し、前記ノイズクラスタの中心ベクトルと、当該時刻の前記音声信号のベクトルを、当該時刻の前記音声信号のベクトルが属するクラスタの中心ベクトル方向に射影した後、信号ノイズ比を有音性指標として算出する有音性指標算出処理と、
前記有音性指標を所定の閾値と比較し、前記音声信号のベクトルが有音区間であるか無音区間であるかを判別する有音区間判定処理と
を実行させることを特徴とする有音区間検出プログラム。
【0102】
(付記8)
前記クラスタリング処理が、確率的なクラスタリングを行い、
前記有音性指標算出処理が、前記クラスタリング結果から前記有音性指標の期待値を算出することを特徴とする付記7に記載の有音区間検出プログラム。
【0103】
(付記9)
前記多次元ベクトル系列が、対数パワースペクトルのベクトル系列であることを特徴とする付記7又は付記8に記載の有音区間検出プログラム。
【0104】
この出願は、2011年2月1日に出願された日本出願特願2011−019815を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【産業上の利用可能性】
【0105】
本発明によれば、多マイクを用いて集音して音声認識を行うための、発話区間検出といった用途に適応できる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10