【文献】
Hamed Ketabdar, Herve Bourlard,Enhanced Phone Poteriors for Improving Speech Recognition Systems,IEEE Transctions on Audio, Speech, and Language Processing,米国,2010年 8月,Vo. 18, No. 6,PP.1094-1106
(58)【調査した分野】(Int.Cl.,DB名)
前記第1の境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークであり、前記第2の境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークである、請求項3に記載の方法。
前記プロセッサに連結されるマイクロフォンをさらに備え、前記方法は、前記マイクロフォンを用いて前記音声信号を検出することをさらに含む、請求項13に記載の装置。
中に具体化されたプログラム命令を有する非一時的なコンピュータ可読媒体であって、コンピュータシステムのプロセッサによる前記プログラム命令の実行が、前記プロセッサに音声信号の入力ウィンドウを処理するための方法を遂行させ、前記方法は、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記信号のフレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される1つ以上の聴覚的注意特徴を抽出することと、
前記信号の前記フレームのそれぞれから、1つ以上の音(phone)事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、1つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の1つ以上の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、非一時的なコンピュータ可読媒体。
【発明を実施するための形態】
【0008】
以下の詳細な説明は、例示の目的のために多くの具体的詳細を含むが、当業者であれば誰でも、以下の詳細についての多くの変形および変更が本発明の範囲内であることを理解するだろう。したがって、以下に説明される本発明の例示的実施形態は、特許請求される発明に対する一般性の喪失なしに、かつそれに制限を課すことなく記載される。
【0009】
[序文]
聴覚的注意特徴を使用する境界検出方法が提案されている。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴(mfcc、メルフィルタバンクなど)を与えられた音素クラス事後確率スコアを推定するモデル(例えば、深いニューラルネットワーク)を訓練することによって取得される。事後確率は互いと混同される傾向があるため、通常は境界周辺でこれらモデルの音素分類精度が低下する、即ち、音素セグメントの境界において明確な勝者クラスが典型的にない一方で、音素セグメントの中央では勝者(例えば、事後確率スコアの最大値)は明確であることが知られている。これは確かに、境界検出の目的のために非常に有用な情報である。音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることが提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。
【0010】
本開示において、聴覚的注意特徴を音事後確率と組み合わせる新手のセグメント化方法が提案される。このアルゴリズムは、音写を必要とせず、セグメント化を正確に遂行することができる。
【0011】
聴覚的注意特徴のみを使用する境界検出方法は、2011年4月1日出願の米国特許出願第13/078,866号において説明されており、その全内容は参照により本明細書に組み込まれる。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴(mfcc、メルフィルタバンクなど)を与えられた音素クラス事後確率スコアを推定するモデル(例えば、深いニューラルネットワーク)を訓練することによって取得され得る。事後確率は互いとより混同しやすくなるため、通常は境界の周辺でこれらモデルの音素分類精度が低下することが知られている。例えば、音素事後確率が境界周辺にあるとき明確な勝者クラスがない一方で、音素セグメントの中央では勝者(例えば、事後確率スコアの最大)は明確である。これは確かに、境界検出目的のために非常に有用な情報である。したがって、音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることがここに提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。
【0012】
[考察]
本開示の態様において、記録された音声に対応する信号を分析して、例えば音素境界などの境界を決定することができる。かかる境界検出は、この信号から聴覚的注意特徴を抽出すること、およびこの信号から音素事後確率を抽出することによって、実現することができる。次に聴覚的注意特徴および音素事後確率を組み合わせて、この信号内の境界を検出することができる。本開示の詳細は、以下の通りに要約され得る:第1の聴覚的注意特徴の抽出を説明する。次に、音事後確率の抽出を説明する。次に、境界検出のために聴覚的注意特徴および音素事後確率を組み合わせるための、2つの提案される手法を説明する。
【0013】
本開示において、発話の音素セグメント化のために聴覚的注意合図を使用する新手の方法を提案する。いかなる動作理論に限定されることなく、提案される方法の背景にある動機は以下の通りである。発話スペクトルにおいて、それらは高エネルギーおよび明確なフォルマント構造を示すため、音素境界周辺、特に母音周辺にエッジおよび局所的不連続を通常は見ることができる。例えば、上述の論文"Automatic Phoneme Segmentation Using Auditory Attention Features"の
図1において、「彼のキャプテンは(his captain was)」として音写される発話セグメントのスペクトルが、おおよその音素境界と共に示されている。このスペクトルにおいて、例えば母音ih、ae、ixなどの境界などの音素境界に対応するこれら境界のうちのいくつかを目視観察できる。したがって、関連する配向エッジおよび聴覚スペクトル内の不連続を検出することによって、即ち、視覚的になされるように、発話内の音素セグメントおよび/または境界を位置付けることができる、ということが考えられている。
【0014】
聴覚的注意特徴の抽出
聴覚的注意合図は、生物学的に刺激され、ヒト聴覚系における処理段階を模倣することによって抽出される。一組の多重スケール特徴は、中枢聴覚系における処理段階に基づいて、2Dスペクトル経時的フィルタを使用して、音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される。文献中の先行技術とは異なり、聴覚的注意モデルは、エッジならびに局所時間的およびスペクトル的不連続を検出するための画像のように、音響の2Dスペクトルを分析する。したがって、それは、発話内の境界を成功裏に検出する。
【0015】
聴覚的注意モデルでは、聴覚スペクトルは視覚的場面の画像に類似するものと見なされ得、対照特徴は複数のスケール内のスペクトルから2Dスペクトル経時的受容フィルタを使用して抽出される。抽出された特徴は、異なる局所的配向エッジに調整され得る:例えば、周波数対照特徴は、フォルマントおよびそれらの変化を検出およびキャプチャするために優れる局所的水平配向エッジに調整され得る。次に、低レベルの聴覚的要点特徴が取得され得、ニューラルネットワークを使用して関連する配向エッジを発見し、要点特徴と音素境界との間のマッピングを学習することができる。
【0016】
入力発話信号からの聴覚的注意合図の抽出は、以下の通りに進めることができる。第1のスペクトルは、初期の聴覚系モデルまたは高速フーリエ変換(FFT)に基づいて計算することができる。次に、中枢聴覚系に基づいて多重スケール特徴を抽出することができる。次に、センター−サラウンド差異を計算することができ、微細なスケールとより粗いスケールを比較することができる。各特徴マップをm行n列のグリッドに分割し、グリッドの各少区域の平均を計算することによって、聴覚的要点特徴を計算することができる。次に、例えば、原理成分分析(PCA)および/または離散コサイン変換(DCT)を使用して、聴覚的要点特徴の寸法および重複性を低減することができる。次元縮小および重複性の低減は、本明細書において聴覚的要点と称される最終的な特徴を生成する。
【0017】
聴覚特徴抽出の詳細は、米国特許出願第13/078,866号において説明されている。注意モデルのブロック図および特徴抽出の流れ図を
図1Aに示す。
図1Aの流れ図は、本開示の態様に従う、聴覚的注意合図を使用する発話内の音節/母音/音境界検出のための方法を図示する。聴覚的注意モデルは、生物学的に刺激され、ヒト聴覚系における処理段階を模倣する。それは、音響信号がいつどこで人の注意を引きつけるかを決定するように設計されている。
【0018】
初めに、音響の入力ウィンドウ101が受信される。限定としてではなく、例として、この音響の入力ウィンドウ101は、特定の音響の入力ウィンドウ101を特徴付ける音波をさらなる処理のための電気信号に変換する働きをするマイクロフォンを使用して、いくらかの有限継続時間の時間ウィンドウ上でキャプチャされ得る。音響の入力ウィンドウ101は、人の発話の任意のセグメントであり得る。限定としてではなく、例として、音響の入力ウィンドウ101は、単一の音節、単語、文章、またはこれらの任意の組み合わせを含んでもよい。
【0019】
音響の入力ウィンドウ101は、次に、この音響のウィンドウ101を音声スペクトル105に変換するように動作する一組の処理段階103を通される。これらの処理段階103は、例えばヒト聴覚系などの聴覚系の初期の処理段階に基づき得る。限定としてではなく、例として、処理段階103は、蝸牛フィルタリング、内有毛細胞、および聴覚系内の鼓膜基底板から蝸牛神経核への過程を模倣する側方抑制段階から成る場合がある。蝸牛フィルタリングは、対数周波数軸に沿って均一に分布される中心周波数を有する、128の重なり定Q非対称バンドパスフィルタのバンクを使用して実現することができる。これらのフィルタは、目的を持って作られ得る、適切に構成された電子ハードウェアによって実現されてもよい。あるいは、フィルタは、フィルタの機能を実現するソフトウェアをプログラムされた汎用コンピュータ上で実現されてもよい。分析のために、10msのシフトを有する20msの音声フレームを使用することができ、これは、それぞれが128次元のベクトルによって表される音声フレームをもたらす。
【0020】
音響の入力ウィンドウ101が聴覚スペクトル105に変換されると、107において示される通り、中枢聴覚系内の情報処理段階を模倣することにより、多重スケール特徴117を抽出することによってスペクトル105が分析される。聴覚的注意は、例えば、強度(またはエネルギー)、周波数、時間、ピッチ、音色、FM方向、または傾き(ここでは「配向」と呼ばれる)などの、多種多様な聴覚特徴によってキャプチャされるか、またはそれらに自主的に向けられ得る。これらの特徴は、一次聴覚皮質内の受容野を模倣するように選択および実現され得る。
【0021】
限定としてではなく、例として、モデル内に含まれ前述の特徴を包含し得る4つの特徴は、強度(I)、周波数対照(F)、時間的対照(T)、およびθ={45°,135°}である配向(O
θ)である。強度特徴は、信号の強度またはエネルギーに関連する信号特性をキャプチャする。周波数対照特徴は、信号のスペクトル(周波数)変化に関連する信号特性をキャプチャする。時間的対照特徴は、信号の時間的変化に関連する信号特性をキャプチャする。配向フィルタは、信号内の移動するリップルに対して敏感である。
【0022】
各特徴は、一次聴覚皮質内の特定の受容野を模倣する2次元スペクトル経時的受容フィルタ109、111、113、115を使用して抽出することができる。
図1B〜1Fはそれぞれ、受容フィルタ(RF)109、111、113、115の例を図示する。特長抽出のためにシミュレートされる受容フィルタ(RF)109、111、113、115のそれぞれは、抽出される特長に対応するグレースケール画像と共に図示される。励振位相110および抑制位相112は、それぞれ白および黒色で示される。
【0023】
これらフィルタ109、111、113、115のそれぞれは、信号特性の特定の変化を検出およびキャプチャすることができる。例えば、
図1Bに図示される強度フィルタ109は、音響の入力ウィンドウの継続時間にわたる強度/エネルギーの変化を検出およびキャプチャするように、特定の区域に対して選択性のある励振位相のみを有する聴覚皮質内の受容野を模倣するように構成され得る。同様に、
図1Cに表される周波数対照フィルタ111は、励振位相および同時対称抑制サイドバンドを有する一次聴覚皮質内の受容野に対応するように構成され得る。
図1Dに図示される時間的対照フィルタ113は、抑制位相およびその後の励振位相を有する受容野に対応するように構成され得る。
【0024】
聴覚スペクトルは、視覚的場面の画像に類似すると考えることができ、これらの特徴のいくつかは、異なる局所的配向エッジに調整される;即ち、周波数対照特徴は局所的水平配向エッジに調整され、これはフォルマントおよびそれらの変化を検出およびキャプチャするために良好であり得る。言い換えると、
図1Cに示される周波数対照フィルタ111は、音響ウィンドウの継続時間にわたるスペクトル変化を検出およびキャプチャする。
図1Dに示される時間的対照フィルタ113は、時間的領域内の変化を検出およびキャプチャする。配向フィルタ115’および115’’は、移動するリップルに対する聴覚ニューロン反応の動態を模倣する。配向フィルタ115’は、リップルが上方に移動しているときを検出およびキャプチャするように、
図1Eに示す通り45°の配向を有する励振および抑制位相で構成され得る。同様に、配向フィルタ115’’は、リップルが下方に移動しているときを検出およびキャプチャするように、
図1Fに示す通り135°の配向を有する励振および抑制位相で構成され得る。1つの重要な点は、このモデルでは、絶対特徴強度ではなく特徴対照が計算されることであり、これは変化点/境界検出およびセグメント化のために決定的である。
【0025】
周波数対照111、時間的対照113、および配向特徴115を生成するためのRFは、様々な角度で2次元ガボール(Gabor)フィルタを使用して実現され得る。周波数および時間的対照特徴に使用されるフィルタは、それぞれ水平および垂直配向フィルタとして解釈することができ、0°および90°配向の2次元ガボールフィルタで実現することができる。同様に、配向特徴は、{45°,135°}配向の2次元ガボールフィルタを使用して抽出され得る。強度特徴109を生成するためのRFは、2次元ガウスカーネルを使用して実現される。
【0026】
特徴抽出107は、マルチスケールプラットフォームを使用して完了される。既定のデータセットのスケール空間表現を生成する動機は、オブジェクトは異なるスケールの異なる構造で構成されているという基礎観測に由来する。未知のデータのセットを分析するシステムでは、データに関連する興味深い構造を説明するためにどのようなスケールが適当かを事前に知る手段がない。それ故に、唯一の合理的な手法は、発生し得る未知のスケール変動をキャプチャするために、複数のスケールでの説明を考慮することである。本発明の実施形態では、多重スケール特徴117は、二項ピラミッドを使用して取得され得る(即ち、入力スペクトルはフィルタをかけられ、2分の1に間引かれ、これが繰り返される)。結果として、8つのスケールが作製され(ウィンドウの継続時間が1.28秒を超える場合であり、さもなければより少ないスケールがある)、1:1(スケール1)〜1:128(スケール8)の範囲のサイズ減少係数をもたらす。
【0027】
多重スケール特徴117の取得後、119に示されるように、これらの多重スケール特徴117を使用して特徴マップ121が生成される。これは、「センター」(微細)スケールを「サラウンド」(より粗い)スケールと比較することを伴う、「センター−サラウンド」差異を計算することによって達成される。センター−サラウンド操作は、局所的皮質抑制の性質を模倣し、局所時間的および空間的不連続を検出する。これは、「センター」の微細スケール(c)と「サラウンド」のより粗いスケール(s)との間の全体のスケールの減算(θ)によってシミュレートされ、特徴マップM(c,s):M(c,s)=|M(c)θM(s)|,M∈{I,F,T,O
θ}をもたらす。2つのスケールの間の全体のスケールの減算は、より微細なスケールへの補間および点別の減算によって計算される。限定としてではなく、例として、c={2,3,4}であり、s=c+δであり、δ∈{3,4}が使用され得、これは、8つのスケールで特徴が抽出される際、合計30の特徴マップをもたらす。
【0028】
次に、123に示されるように、聴覚的要点ベクトル125の合計が低解像度の入力音響ウィンドウ101にカバーするように、I,F,T,O
θの各特徴マップ121から、「聴覚的要点」ベクトル125が抽出され得る。既定の特徴マップ121に対する聴覚的要点ベクトル125を決定するため、特徴マップ121は、まず少区域のm行n列のグリッドに分割され、各少区域の、例えば最大値、最小値、平均値、標準偏差などの統計が計算され得る。限定としてではなく、例として、各少区域の平均値を計算して、マップの総合的性質をキャプチャすることができる。高さhおよび幅wを有する特徴マップM
iについては、聴覚的要点ベクトルの計算は、以下のように記述され得る。
【数1】
【0029】
m=4、n=5である聴覚的要点ベクトル抽出123の一例が
図1に示され、ここで、特徴マップを表すために20次元の聴覚的要点ベクトルが使用され得る。これらのmおよびnの特定の値は、本発明のいかなる実施形態を制限するものとしてではなく、例示の目的で提供される。
【0030】
各特徴マップ121から聴覚的要点ベクトル125を抽出した後、聴覚的要点ベクトルを増補し組み合わせて、累積的要点ベクトルを作製することができる。累積的要点ベクトルは次に次元縮小127を経て、音節/母音/音境界検出をより実用的にするために次元および重複性を低減することができる。限定としてではなく、例として、次元縮小127のために主成分分析(PCA)を使用してもよい。次元縮小127の結果は、より少ない次元の累積的要点ベクトル内の情報を伝達する、本明細書において聴覚的要点特徴129と称される最終的な特徴である。PCAは、パターン認識における主要技術として一般的に使用される。一般的に理解されるように、PCAは、データの任意の投射による最大分散が、第1の座標(第1の主成分と呼ばれる)に置かれる用になり、第2の最大分散が第2の座標に置かれる用に成る、などとなるように、データを新しい座標系に変換する直交線形変換として数学的に定義される。PCAは、適切に構成されたソフトウェアをプログラムされたコンピュータ上で実現され得る。PCAを通じて次元縮小を実現することができる商業的に入手可能なソフトウェアの例としては、MathWorks,Inc.of Natick,Massachusetts,U.S.A.によるMatlab、またはUniversity of Waikato,New Zealandで開発されたWeka機械学習ソフトウェアが挙げられる。あるいは、例えば因子分析、カーネルPCA、線形判別分析(LDA)、および同類のものなどの他の線状および非線形次元縮小技術を使用して、次元縮小129を実現してもよい。
【0031】
入力音響ウィンドウ101を特徴付ける聴覚的要点特徴127’が決定された後、聴覚的要点特徴および音事後確率から、音境界、母音境界、音節核、または音節境界が検出され得る。既定の入力音響ウィンドウ上でかかる検出を遂行するため、例えばニューラルネットワーク、最近傍分類器、決定木、および同類のものなどの機械学習アルゴリズム131を使用して、例えば音境界、母音境界、音節核、または音節境界などの境界を分類することができる。限定としてではなく、例として、ニューラルネットワークは、生物学的によく動機付けられるため、機械学習アルゴリズム131として使用することができる。そのような場合、ニューラルネットワーク131は、それに関連する累積的要点ベクトルを与えられる入力音響内の音境界、母音境界、音節核、または音節境界を識別することができる。
【0032】
本明細書で使用される場合、用語「ニューラルネットワーク」とは、計算のコネクショニスト手法に基づいて情報を処理するための計算的/数学的モデルを使用する、自然または人工ニューロンの相互接続されたグループを意味する。ニューラルネットワークは、ネットワーク全体を流れる外部または内部情報に基づいて構造を変化させる適応システムである。それらは、非線形統計データのモデル化を実現するために使用され、入力と出力との間の複雑な関係をモデル化するために使用され得る。
【0033】
ニューラルネットワーク出力推定値は、i)硬判定、ii)軟判定という2つの方法で使用され得る。硬判定では、ニューラルネットワークの最終決定は二分決定として使用される;例えば、1つのフレームにおいて境界がある場合、1、さもなければゼロを出力する。軟判定では、[0,1]の間の値であるニューラルネットワーク確率スコアを、注意特徴を与えられた境界である現在のフレームの事後確率として使用することができる。また、軟判定では、推定事後確率を別のシステムに供給し、別の供給源からの情報と組み合わせて、いずれかのシステムの性能をさらに改善することができる。例えば、境界情報を使用して、発話認識性能を改善するか、または発話認識エンジンからの補足情報を使用して境界検出性能などをさらに改善することができる。さらに、本発明の特定の実施形態は、セグメント内の音節の数、例えば、毎秒または毎発声の音節の数(これは発声速度を推定するために使用され得る)に関する情報を随意に提供することもできる。次に、推定発声速度を使用して、他の口語処理アプリケーションを改善すること、例えば、発話速度に基づいて適当な音響モデルを選択すること、または発話の感情的セグメントを見つけることなどによって、発話認識性能を改善することができる。
【0034】
音節/音/母音境界情報は、単独で、または発話認識などの他の口語処理システムを改善するために使用され得る。また、音/母音/音節境界を階級系として考えることができる。1種類の境界からの情報を使用して別の種類の境界を改善することもできる;即ち、母音境界情報を使用して音または音節境界検出を改善することができる。また、本発明の実施形態は、全ての種類の発話および発声スタイルならびに雑音条件、即ち、分離した発話、連続的発話、自発的発話、演説、クリーン/雑音の多い発話などの分析のために使用され得る。
【0035】
音事後確率:
音事後確率の抽出は、音認識装置と同様である。基本的に、音響特徴が発話から抽出され、モデルまたは音モデルは、特徴と音との間のマッピングを学習するように訓練される。
【0036】
限定としてではなく、例として、音事後確率は以下の通りフレーム毎に抽出され得る。音分類のために使用される第1の音響特徴は、各発話フレームに対して抽出され得る。発話は、シフティングウィンドウを使用して処理され得る;例えば、音響特徴は、10ミリ秒(ms)毎に抽出され得る。特徴は、MFCC、メルフィルタバンク特徴、PLP、聴覚的注意特徴、韻律特徴など、またはこれらの組み合わせであってもよい。コンテキストをキャプチャするため、複数のフレームの特徴を増補して、より大きな次元の特徴ベクトルを形成することができる。典型的に、フレームの数は約9〜25フレームで変動し得る。次に、機械学習アルゴリズムを使用して、特徴と音クラスとの間のマッピングを学習することができる;例えば、ニューラルネットワーク、svn、HMM、DBN(深い信念ネットワーク)が、音分類または認識のために使用されるかかるツールの種類に含まれる。
【0037】
限定としてではなく、例として、J.Lee and S.−Y.Lee, Interpseech 2011による"Deep Learning of Speech Features for Improved Phonetic Recognition"に記載される最新鋭の音分類器を使用して、音事後確率を取得することができる。
【0038】
数値例として、25msの分析ウィンドウを10msのシフトと共に使用して、26バンドの対数メルスペクトル特徴を抽出することができる。210msの時間コンテキストに対応する21の連続したフレームを増補して、546次元の特徴ベクトルを作製することができる。特徴は、DBNに供給される前に正規化された平均および分散であってもよい。
【0039】
例として、DBNは、線形単位(546入力を取る)の1つの入力層、1000二進単位の3つの隠れ層、および正規ロジスティック単位の1つの出力層を有し得る。実験では、原初の61 TIMIT音クラスを使用した。しかしながら、副音素表現はモデル化を改善するため、音素の副音素表現を使用してもよい。各音素は3つの時間的状態を有すると仮定され、したがってDBNの出力層は61×3=183出力を有する。
【0040】
DBNを訓練するために、TIMIT訓練データセットを使用することができる。副音素ラベルを取得するために、均一セグメント化がまず遂行される。ネットワークが収束した後、状態の再整合が、ビタビ(Viterbi)強制整合によって行われる。このアルゴリズムは、教師なしの手段(事前訓練)において層毎に初期化される単純な発生モデルの層と、その後の教師ありの技術を使用する全層の弁別訓練を特徴とする。より低いものからより高いものへ各層を事前訓練することは、制限されたボルツマンマシン(RBM)に基づく教師なし学習アルゴリズムを使用して行われ、最終的な教師あり訓練は、その最終的な分類のためにネットワークを微調整するように周知の誤差逆伝播法アルゴリズムを使用して行われ得る。この訓練は、モデルパラメータが収束するまで、言い換えると、検証セットにおける誤差が増加し始めるまで繰り返される。DBN構成および訓練手順のモデルの更なる詳細は、Leeらによる論文(以前に引用)に見出すことができる。
【0041】
DBNモデルが訓練されると、音クラス事後確率を抽出するために使用され得る。そのために、繰り返すが、対数メル特徴は音響から抽出される。次に、21のフレームからの特徴は各フレームに対して増補され、DBNに供給され得る。DBNの出力において、各状態(副音素)に対する事後確率スコアが取得される。各フレームに対する音素事後確率スコアを取得するために、各音素に対する3つの状態の確率が単純に平均化される。
【0042】
境界検出のための聴覚的注意特徴と音事後確率の組み合わせ
境界検出のために聴覚的注意特徴を音事後確率と組み合わせる1つの方法200aを、
図2Aに図示する。本明細書において「初期融合」と称されるこの技術において聴覚的注意(AA)特徴232および音事後確率(PP)234は、例えば、上述のように、音響信号から並行して抽出され得る。AA特徴および音事後確率は、増補されて機械学習アルゴリズム238、例えば、境界の推定のための3層ニューラルネットワーク(NN)に送信され得る。
【0043】
例えば、音境界検出実験のために、TIMITコア試験セット(192文)が試験のために使用され得、残りの公式試験セットは開発データとして使用される。開発データについては、AAモデルを使用して第1の聴覚的注意特徴が抽出され得る。並行して、TIMIT訓練セットを使用して訓練され得る、訓練されたDBNモデルから対数メル特徴を渡す61の音素事後確率が、各フレームに対して抽出される。次に、音素事後確率スコアは正規化され、各フレームに対して1に合計される。
【0044】
3層ニューラルネットワーク238は、音境界分類のために使用され、ここで、ニューラルネットワークは、D入力(D=D
AA+AA特徴のD
PP次元プラス音事後確率の次元)、(N+D)/2の隠れ単位、およびN=2の出力単位(境界対非境界)を有する。ここで、1つの単一フレームからの音事後確率が上述のDBNと併せて使用されるとき、DBNから取られた61の音事後確率があるため、D
PP=61である。コンテキストも、音事後確率から音境界をトレースするためにも使用され得る。例えば、最高事後確率スコアを有する音を、そのフレームに対する音クラスとして割り当てることができる。同様に、音分類は以前または後続のフレームに対して遂行され得る。次に、音指数が1つのフレームから別のフレームに変化する場合、それは境界の存在を示す。コンテキストが使用されるとき、近傍の左および/または右フレームの音素事後確率も増補され得、これはより大きな特徴ベクトルをもたらす。例として、3つのコンテキストフレーム(現在のフレームならびに近傍の左および右フレームを含む)が使用され、61×3=183の音事後確率がNNに供給され、ここでD
PP=183である。現在のフレームおよび近傍のフレームに対する推定音素指数ですら、境界検出のためにNNに供給され得る。例えば、特定の実験では、単一のフレーム、3つのコンテキストフレーム、および5つのコンテキストフレームを使用した。
【0045】
図2Bに表される代替的な実施例200bでは、2つの境界分類器238a〜bを、それぞれ1)聴覚的注意特徴238a、2)音事後確率238bを使用して訓練することができる。これらの分類器の出力は、境界事後確率、例えば、第1の次元が境界である確率を表し、第2の次元が非境界である確率を表す、2次元特徴である。2つの異なる分類器からのこれらの境界事後確率を使用する較正段階239の間、最良の性能を提示する重みを見つけるための回帰を使用する(即ち、ロジスティック線形回帰を使用する)か、またはデータ駆動型方式において、例えば、機械学習アルゴリズムまたは同様のアルゴリズムを使用するかのいずれかで、性能を最大化することができる。繰り返すが、コンテキストが使用され得、例えば、近傍のフレーム境界確率も較正段階の間に含まれ得る。
【0046】
実験
TIMIT上の音境界検出のための実験を行った。しかしながら、上記の見解は、例えば母音の終わり、音節核、音節核の中央および終わり、または音節の終わりなどの、発話内の母音境界および他の境界の検出のためにも使用され得る。
【0047】
ニューラルネットワークは、そのフレームが境界である確率を返す。次に、ニューラルネットワーク確率スコアを使用して時間の関数としての1次元曲線を作製するように、軟判定を使用することができる。次に、その曲線にピーク検索を行い、閾値を超える場合に検出された境界としてカウントされる極大値を位置決定することができる。他の方法において行われるように、必要な場合は音素境界の周りの20msの誤差を容認した。
【0048】
閾値は、境界情報を使用する次のアプリケーションが必要とする通りに選択することができる。例えば、閾値を低下させることは、精度を低下させつつ(より多くの誤警報がある場合がある)リコール率を上昇させる(またはより多くの境界を検出する)が、閾値を上昇させることは、精度を上昇させ、リコールを減少させる。ここで、表1の結果については単純に0.5の閾値を選択し、パラメータ調整を回避した。
【0049】
異なる方法で取得した結果の比較を以下に示す。表1において、「Dusanら」および「Quiaoら」という注記は、上述の参考文献[1]および参考文献[2]に記述した以前の方法を意味する。音認識のためのDBNフレームレベル音分類およびDBNプラスビタビ復号は、DBNを直接使用して抽出した2つの音素境界検出の基準値である。DBNフレームレベル音分類では、1つのフレームから後続のフレームに音クラスが変化するたび、検出される境界をマークする。ビタビ復号器を通じて音素事後確率スコアを渡すことによって音認識が採用されるとき、発声に対応する音素列がそれらの音素境界と共に返される。表1では、聴覚的注意(AA)特徴およびxフレーム事後確率(AA+PP_xf)を有する音事後確率(PP)を組み合わせることによって達成された音素境界検出結果も示され、ここで、xはフレームの数を表す。結果を以下の表1に示す。
【0051】
上記の表1から解るように、聴覚的注意を音素事後確率スコアと組み合わせることは、総合的なF−スコアを改善し、30%を超える相対的改善を提供することにより、基準値および以前に報告された数値をしのぐ。
【0052】
本開示の態様に従う聴覚的注意と音素事後確率の組み合わせは、様々な音声認識(VR)アプリケーションにおいて有利に使用され得る。例えば、この技術を使用して、音素認識率を改善すること、および自動音声認識(VR)のロバスト性を改善することができる。本開示の態様を使用して、VRの信頼基準を改善することもできる。
【0053】
本開示の態様の具体的な用途は、ハミングまたは単に単一の母音音声による、歌もしくは音声検索を含む。本開示の態様は、発話合成においても使用され得る。本開示の態様は、発声速度を推定するため、歌のテンポを推定するため、音声の採点(歌の採点よりも一般的)を改善するためにも使用され得る。
【0054】
本発明の実施形態は、適切に構成されたコンピュータ装置上で実現され得る。
図3は、本発明の一実施形態に従う、音素事後確率と組み合わせた聴覚的注意合図を使用する音/音節/母音境界検出の方法を実現するために使用され得るコンピュータ装置のブロック図を図示する。装置300は、プロセッサモジュール301およびメモリ305を一般的に含み得る。プロセッサモジュール301は、1つ以上のプロセッサコアを含み得る。複数のプロセッサモジュールを使用する処理システムの一例はセルプロセッサであり、その例は、例えば、http://www−306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdfにてオンラインで入手可能なCell Broadband Engine Architectureに詳述されており、これは参照により本明細書に組み込まれる。
【0055】
メモリ305は、集積回路、例えば、RAM、DRAM、ROM、および同類のものの形態であってもよい。メモリ305はまた、プロセッサモジュールの全てからアクセス可能なメインメモリであってもよい。いくつかの実施形態では、プロセッサモジュール301は、各コアに関連するローカルメモリを有し得る。プログラム303は、プロセッサモジュール上で実行可能なプロセッサ可読命令の形態で、メインメモリ305内に記憶され得る。プログラム303は、音素事後確率と組み合わせた聴覚的注意合図を使用して、音響のウィンドウ上で境界検出を遂行するように構成され得る。プログラム303は、任意の適切なプロセッサ可読言語、例えば、C、C++、JAVA(登録商標)、アセンブリ、MATLAB、FORTRAN、および多数の他の言語で書かれ得る。入力データ307も、メモリ内に記憶され得る。かかる入力データ337は、音響の入力ウィンドウ、特徴マップ、または聴覚的要点ベクトルを含み得る。プログラム303の実行中、プログラムコードおよび/またはデータの複数の部分は、複数のプロセッサコアによる並行処理のために、メモリまたはプロセッサコアのローカルストア内にロードされ得る。
【0056】
装置300はまた、例えば、入力/出力(I/O)要素311、電源(P/S)313、クロック(CLK)315、およびキャッシュ317などの、周知の支援機能309を含んでもよい。装置300は、例えば、ディスクドライブ、CD−ROMドライブ、テープドライブ、または同類のものなどの、プログラムおよび/またはデータを記憶するための大容量記憶デバイス319を、随意に含んでもよい。デバイス300は、装置とユーザとの間の相互作用を容易にするための、ディスプレイユニット321、音声スピーカーユニット322、およびユーザインターフェースユニット325を、随意に含んでもよい。ディスプレイユニット321は、テキスト、数字、図示記号、もしくは画像を表示する陰極線管(CRT)またはフラットパネルスクリーンの形態であり得る。ユーザインターフェース325は、キーボード、マウス、ジョイスティック、ライトペン、またはグラフィカルユーザインターフェース(GUI)と併せて使用され得る他のデバイスを含み得る。装置300はまた、例えばインターネットなどのネットワーク上で、デバイスが他のデバイスと通信することを可能にするための、ネットワークインターフェース323を含み得る。
【0057】
いくつかの実施形態において、システム300は、単一のマイクロフォンまたはマイクロフォンアレイであり得る随意のマイクロフォン329を含み得る。マイクロフォン329は、I/O要素311を介してプロセッサ301に連結され得る。限定としてではなく、例として、異なる音響の入力ウィンドウは、マイクロフォン329を使用して記録され得る。
【0058】
プロセッサ301、メモリ305、支援機能309、大容量記憶デバイス319、ユーザインターフェース325、ネットワークインターフェース323、およびディスプレイ321を含む、システム300の構成要素は、1つ以上のデータバス327を介して互いと作動可能に接続され得る。これらの構成要素は、ハードウェア、ソフトウェア、もしくはファームウェア、またはこれらのうちの2つ以上の何らかの組み合わせにおいて実現されてもよい。
【0059】
装置内の複数のプロセッサを用いて並行処理を合理化する追加の手段が多数ある。例えば、例えば、2つ以上のプロセッサコアにコードを複製し、データの異なる部分を処理するように各プロセッサコアにそのコードを実現させることによって、処理ループを「展開する」ことが可能である。かかる実現は、ループの設定に関連する待ち時間を回避し得る。本発明の実施形態に適用されるように、複数のプロセッサは、入力音響ウィンドウから並行して異なる特徴を抽出することができる。強度抽出フィルタ、周波数対照抽出フィルタ、時間的対照抽出フィルタ、および配向抽出フィルタは全て、聴覚スペクトルを同時に処理することができ、異なるプロセッサ要素上で並行して実現される場合、対応する多重スケール特徴をはるかに効率的に生成することができる。さらに、特徴マップ、ならびにそれらの対応する聴覚的要点ベクトルも、並行して生成され得る。データを並行して処理する能力は貴重な処理時間を節約し、発話内の音/音節/母音境界検出のための、より効率的かつ合理化されたシステムをもたらす。
【0060】
並行処理を実現することができる処理システムのとりわけ一例は、セルプロセッサとして知られている。セルプロセッサと分類され得る異なるプロセッサアーキテクチャが多数ある。限定としてではなく、例として、
図4は、セルプロセッサの1つの種類を図示する。セルプロセッサ400は、メインメモリ401、単一パワープロセッサ要素(PPE)407、および8つのシネジスティックプロセッサ要素(SPE)411を含む。あるいは、セルプロセッサは、任意の数のSPEで構成されてもよい。
図4に関して、メモリ401、PPE407、およびSPE411は、互いと、そしてI/Oデバイス415と、リング型要素相互接続バス417上で通信することができる。メモリ401は、上述の入力データと共通する特徴を有する入力データ403、および上述のプログラムと共通する特徴を有するプログラム405を収容する。SPE411のうちの少なくとも1つは、例えば、上述のように、音節/母音境界検出命令413および/または並行して処理されるべき入力データの一部を、そのローカルストア(LS)内に含み得る。PPE407は、そのL1キャッシュ内に、上述のプログラムと共通する特徴を有する音節/母音境界検出命令409を含み得る。命令405およびデータ403も、必要なときにSPE411およびPPE407によるアクセスのために、メモリ401内に記憶され得る。
【0061】
限定としてではなく、例として、異なるSPE411は、多重スケール特徴の抽出を実現することができる。具体的には、異なるSPE411は、スペクトルからの強度(I)、周波数対照(F)、時間的対照(T)、および配向(O
θ)特徴の並行抽出に、それぞれ専用であってもよい。同様に、異なるSPE411は、強度(I)、周波数対照(F)、時間的対照(T)、および配向(O
θ)特徴の、特徴マップ生成または聴覚的要点ベクトル抽出を、それぞれ実現することができる。
【0062】
例として、PPE407は、関連するキャッシュを有する64ビットのPowerPCプロセッサユニット(PPU)であってもよい。PPE407は、随意のベクトルマルチメディア拡張ユニットを含んでもよい。各SPE411は、シネジスティックプロセッサユニット(SPU)およびローカルストア(LS)を含む。いくつかの実施例では、ローカルストアは、例えば、プログラムおよびデータのための約256キロバイトのメモリの容量を有し得る。SPUは、典型的にシステム管理機能を遂行しないという点で、PPUよりも複雑でない計算単位である。SPUは、単一命令複数データ(SIMD)能力を有し得、典型的に、割り当てられたタスクを遂行するために、データを処理し、任意の必要なデータ転送を開始する(PPEによって設定されるアクセス性質に依存する)。SPE411は、より高い計算単位密度を必要とするアプリケーションをシステムが実現することを可能にし、提供される命令セットを効果的に使用することができる。PPE407によって著しい数のSPE411を管理することは、広範囲の用途にわたってコスト効果が高い処理を可能にする。例として、セルプロセッサは、セルブロードバンドエンジンアーキテクチャ(CBEA)として知られるアーキテクチャを特徴とする場合がある。CBEA対応アーキテクチャでは、複数のPPEをPPEグループに組み合わせることができ、複数のSPEをSPEグループに組み合わせることができる。例示目的のために、セルプロセッサは、単一のSPEおよび単一のPPEを有する、単一のSPEグループおよび単一のPPEグループのみを有するものとして示される。あるいは、セルプロセッサは、パワープロセッサ要素の複数のグループ(PPEグループ)およびシネジスティックプロセッサ要素の複数のグループ(SPEグループ)を含んでもよい。CBEA対応プロセッサは、例えば、http://www−306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdfにてオンラインで入手可能なCell Broadband Engine Architectureに詳述されており、これは参照により本明細書に組み込まれる。
【0063】
上記は、好ましい本発明の実施形態の完全な説明であるが、様々な代替案、修正、および等価物を使用することが可能である。したがって、本発明の範囲は、上記説明を参照して決定されるべきではなく、代わりに、添付の特許請求の範囲をその等価物の全範囲と共に参照して決定されるべきである。好適であろうとなかろうと、本明細書に記載のいかなる特徴は、好適であろうとなかろうと、本明細書に記載の任意の他の特徴と組み合わされ得る。以下の特許請求の範囲において、不定冠詞「1つの(A)」または「1つの(An)」は、別段の明記がない限り、その冠詞に続く事項の1以上の量を意味する。添付の特許請求の範囲は、「するための手段(means for)」という語句を使用して所与の特許請求の範囲においてかかる限定が明記されていない限り、機能と手段を用いた表現(means−plus−function)の限定を含むものとして解釈されるべきではない。