【文献】
JaaP Haitsma、Ton Kalker,A Highly Robust Audio Fingerprinting System,Proc. 3rd International conference on Music Information Retrieval,2002年10月13日,PP1-9,[令和2年1月23日検索],URL,https://pdfs.semanticscholar.org/4f92/768276a0823cffeb9435ccda67beaca1f542.pdf
(58)【調査した分野】(Int.Cl.,DB名)
前記コンピュータによって、前記認識される音声データの前記複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び前記音声データの各フレームの前記ベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換することは、
前記コンピュータによって、
式
【数1】
に従って、前記音声データの各フレームの前記ベクトルデータを前記2進シーケンスに変換することを備え、d
i−2,jは、前記音声データのi−2番目のフレームのj次元のベクトル値を表し、d
i−2,j+1は、前記音声データのi−2番目のフレームのj+1次元のベクトル値を表し、d
i−1,jは、前記音声データのi−1番目のフレームのj次元のベクトル値を表し、d
i−1,j+1は、前記音声データのi−1番目のフレームのj+1次元のベクトル値を表し、d
i+1,jは、前記音声データのi+1番目のフレームのj次元のベクトル値を表し、d
i+1,j+1は、前記音声データのi+1番目のフレームのj+1次元のベクトル値を表し、d
i+2,jは、前記音声データのi+2番目のフレームのj次元のベクトル値を表し、d
i+2,j+1は、前記音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Bit
i,jは、前記音声データのi番目のフレームの2進シーケンスのj番目のビットの値を
表す請求項
1に記載の方法。
前記第1変換部は、MFCC特徴パラメータ抽出アルゴリズムを用いて、前記音声データの各フレームを既定の数の次元のベクトルデータに変換するように構成された請求項8に記載の装置。
前記フレーム分割モジュールは、規定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って前記認識される音声データを分割するように構成された請求項8〜13のいずれか一項に記載の装置。
【発明を実施するための形態】
【0015】
当業者が本願の技術的解決法をよりよく理解できるようにするために、本願の実施の形態の技術的解決法を、本願の実施の形態の添付図面を参照しながら後に明瞭かつ十分に説明する。明らかに、説明する実施の形態は、本願の一部の実施の形態に過ぎず、本願の全ての実施の形態ではない。当業者によって創造的な活動を行うことなく本願の実施の形態に基づいて得ることができる他の全ての実施の形態は、本願の範囲内にある。
【0016】
当業者が本願の技術的解決法をよりよく理解できるようにするために、本願の実施の形態の技術的解決法を、本願の実施の形態の添付図面を参照しながら後に明瞭かつ十分に説明する。明らかに、説明する実施の形態は、本願の一部の実施の形態に過ぎず、本願の全ての実施の形態ではない。当業者によって創造的な活動を行うことなく本願の実施の形態に基づいて得ることができる他の全ての実施の形態は、本願の範囲内にある。
【0017】
図2は、本願による音声認識の例示的な方法のフローチャートである。本願は、以下の実施の形態又は添付図面に示すような方法の動作ステップ又は装置構造を提供するが、更に多い又は更に少ない動作ステップ又はモジュラーユニットを、従来に従って又は創造的な活動を行うことなく方法又は装置に含めることができる。論理に関する必要な因果関係のないステップ又は構造において、これらのステップの実行順序又は装置のモジュール構造は、本願の実施の形態において説明する又は本願の添付図面に示す実行順序又は装置のモジュールに限定されない。例示的な装置又は端末製品に適用するとき、方法又はモジュール構造を、(例えば、並列プロセッサによって、マルチスレッド環境において又は分散処理環境において)実施の形態又は添付図面に示す方法又はモジュール構造に従って順次又は並列に実施することができる。
【0018】
図2に示すように、本願の一部の実施の形態による音声認識のための方法は、以下のものを備えることができる。
【0019】
S1:音声データの複数のフレームを取得するために、認識される音声データを分割すること。
【0020】
認識される音声データを、音声認識ソフトによって記録される音声のセグメント又は双方向TVからの音声のセグメントとすることができる。主目的は、典型的には、音声のセグメントのソースを認識することである。記録後、音声のセグメントをフレームに分割することができる。例えば、30ミリ秒(ms)をデータの1フレームとして用いることができる。音声データの1フレームの長さとして選択されるmsの数は、本願によって限定されず、実際の要求に従って選択することができ、20ms、25ms、40ms等とすることができる。しかしながら、認識される音声データのフレーム分割の規則が予め確立される音声特性値比較表のフレーム分割の原則と同一でなければならないことが保証されるべきである。
【0021】
さらに、フレーム分割の影響により照合及び認識中に誤差が予測される。誤差の影響を低減するために、フレーム分割中に互いに重なり合うようにフレームを設定する必要がある。一例としてフレームごとに30msを用いる場合、第1のフレームは、0ms〜30msであり、第1のフレームは、16ms〜45msであり、第3のフレームは、30ms〜60msである。すなわち、既定の数のミリ秒の重複を有するように隣接するフレームが設定される分割規則に従って、認識される音声データがフレームに分割される。換言すれば、隣接するフレームは重複し、これによって、フレーム分割又は照合規則によって生じる分割の影響を回避する。
【0022】
その後のデータ処理の前に、音声データの各フレームを、音声データを周波数領域に変換するとともに周波数領域の信号を分析するために高速フーリエ変換(FFT)を用いて処理することができる。
【0023】
S2:複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算すること。
【0024】
特徴を決定する処理において、既定の数の次元(例えば、12次元)の特徴ベクトルを、上述したFFTの後に取得した周波数領域結果にMFCC特徴パラメータ抽出アルゴリズムを適用することによって取得してもよい。MFCC特徴パラメータ抽出アルゴリズムを用いる理由は、MFCC特徴の音声認識において信号の著しい変化領域を抽出して良好な区別を行うことができるからであり、MFCCは、メル周波数ケプストラム係数の頭字語であり、メル周波数は、人間の聴覚の特徴に基づいて表され、Hzの周波数の非線形的な対応関係を有する。メル周波数ケプストラム係数(MFCC)は、メル周波数とHzの周波数の間の関係を用いた計算によって取得されるHzのスペクトル特性である。メル周波数とHzの周波数の間の非線形的な対応関係のために、MFCC計算精度は、周波数が上がるに従って下がる。したがって、低周波数のMFCCのみが応用において使用され、中間周波数から高周波数までのMCCCは捨てられる。
【0025】
MCCC特徴計算の後、各フレームの信号は、既定の数の次元のベクトルに変換される。ベクトルが12次元ベクトルであると仮定すると、
図3に示すように、i番目のフレームを(d
i0,d
i1,...d
i10,d
i11)として表すことができ、dは、float型データである。さらに、次の比較及び照合を更に簡単にするために、取得したベクトルをコード化して2進シーケンス又は2進シーケンスに対応する正の数に変換する。例えば、
図3に示すフレーム特徴ベクトルは、以下のようにコード化して変換される。
【0027】
d
i−2,jは、音声データのi−2番目のフレームのj次元のベクトル値を表し、d
i−2,j+1は、音声データのi−2番目のフレームのj+1次元のベクトル値を表し、d
i−1,jは、音声データのi−1番目のフレームのj次元のベクトル値を表し、d
i−1,j+1は、音声データのi−1番目のフレームのj+1次元のベクトル値を表し、d
i+1,jは、音声データのi+1番目のフレームのj次元のベクトル値を表し、d
i+1,j+1は、音声データのi+1番目のフレームのj+1次元のベクトル値を表し、d
i+2,jは、音声データのi+2番目のフレームのj次元のベクトル値を表し、d
i+2,j+1は、音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Bit
i,jは、音声データのi番目のフレームの2進シーケンスのj番目のビットの値を表し、m、nは、一定係数を表す。
【0028】
隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従う計算によって2進シーケンスが得られることが、上記の式からわかる。すなわち、先ず、認識される音声データの各フレームが、既定の数の次元のベクトルデータに変換され、その後、音声データの各フレームのベクトルデータが、隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換される。
【0029】
例えば、上記の式において、2進シーケンスは、データの二つの隣接するフレームのベクトル値及び同一のフレームの隣接するベクトル値に従って取得される。このようにして、フレームの間の及びフレーム内の関係は、特性値の計算に有効に含まれる。
【0030】
しかしながら、上述したm,nを必要に応じて選択できることに留意されたい。例えば、m,nはそれぞれ、2及び3の値を有することができる。したがって、以下のようになる。
【0032】
さらに、二つの隣接するフレームは、上述した例及び式の計算の基礎として用いられる。例示的な実現において、隣接する三つのフレーム、隣接する四つのフレーム等を用いることもできる。適切な数のフレームを、プロセッサの実際の計算精度及び処理能力に基づいて選択することができる。異なる数のフレームを選択するとき、上記の式をそれに応じて調整する必要がある。しかしながら、調整の概念は、同様であり、本願において制約されない。
【0033】
上述した手法で計算によって2進シーケンスを取得するプロセスにおいて、元のベクトルの次元がNである場合、計算によって得られる2進シーケンスの桁はN−1である。例えば、12次元特徴ベクトルを取得する場合、取得される2進シーケンスは11桁である。
【0034】
本例において、取得される2進シーケンスを特性値として用いることができる。代替的には、2進シーケンスに対応する10進数を特性値として用いることができる。例えば、音声データのフレームの2進シーケンスが00000000101である場合、00000000101を最終的な特性値として用いることができる又は5を最終的な特性値として用いることができる。
【0035】
要約すると、フレーム内の隣接関係の係数を比較することができ、それは、イントラフレーム係数の比較と考えられる。その後、二つの隣接するフレームの比較情報を取得する。これらの二つの隣接するフレームの情報及びフレームの各々の内の情報は、最終的な値diffを形成するために用いられる。値diffと零(0)との比較の結果は、対応する桁の最終的なコード化された値を構成する。例えば、1フレームの信号がMFCCによって12次元の特徴ベクトルに変換された後、ベクトルは、11桁の2進シーケンス(Bit
i,0,Bit
i,1...Bit
i,10)となるようにコード化される。2進シーケンスが10進数に変換される場合、対応する範囲は0〜2
11となる。
【0036】
S3:認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うことであって、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されること。
【0037】
音声データの有効な照合を実現するために、データの各フレーム及びデータのフレームに対応する特性値を記録する音声特性比較表を予め確立する必要がある。特性値が音声特性値比較表において2進形式で表される場合、それに応じて、音声認識の間に、認識される音声データは、特性値として2進シーケンスに変換される。特性値が音声特性値比較表において10進形式で表される場合、それに応じて、音声認識の間に、認識される音声データは、特性値として10進シーケンスに変換される。
【0038】
例えば、音声特性値比較表を、次のように確立することができる。
ステップS1:サンプル音声の複数のセグメントを備えるサンプルデータを取得する。
ステップS2:サンプル音声の各セグメントに対する音声データの複数のフレームを取得するために、サンプル音声の複数のセグメントの各々を分割する。
ステップS3:サンプル音声の各セグメントの各フレームの特性値を、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて計算する。
ステップS4:特性値をルートノードとして使用し、対応関係を形成するために、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付ける。
ステップS5:対応関係を音声特性値比較表として使用する。
【0039】
音声特性値比較表を確立する上述したステップにおいて、特性値計算のプロセス並びにそれに伴う原理及び手法は、認識される音声データの特性値を取得する場合と同一であり、ここでは繰り返さない。違いについては、音声特性値比較表を確立するときに、特性値をルートノードとして使用する必要があり、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付ける。例えば、最初に取得したベクトルが12次元であると仮定すると、最終的に取得する確立された音声特性値比較表を
図4に示す。
【0040】
その後の迅速な認識を可能にするために、
図4に示す音声特性値比較表に加えて、特徴アレイを、サンプル音声の全てのセグメントの特性値を記録するために含めることができる。
【0041】
ベクトルが12次元であるので、特性値は、2048(2
11)の可能性がある。したがって、音声特性値比較表は、2048個のルートノードを有する。各ルートノードに対応する特性値を有する音声データの全てのフレーム(すなわち、音声信号のフレーム)は、各ルートノードの後ろに順次格納される。例えば、0番目のルートノードは、0番目のルートノードの後ろに格納された0の特性値を有する全てのフィンガープリント情報を有する。i番目の音声のj番目のフレームに対応する特性値が0であるとともにk番目の音声のl番目のフレームに対応する特性値が0である場合、これらの音声セグメント(i,j)(k,l)は0番目のルートノードの下に格納される。
【0042】
最終的な検索及び認識を実現するために、比較的正確な照合結果を、投票行列を確立することによって決定することができる。例えば、プロセスは、サンプル音声のセグメントの数及びサンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立することを備えることができる。すなわち、投票行列を2次元行列とすることができ、2次元行列の次元の数は、データベースのサンプル音声のセグメントの量、すなわち、データベースの音声信号の数及び音声信号ごとの最大数のデータフレームを表す。投票行列を確立した後、音声特性比較表において、現在のフレームの特性値と同一の特性値を有する音声データの一つ以上のフレームを調べることと、現在のフレームの特性値と同一の特性値を有する音声データの一つ以上のフレームに対応する投票行列の位置に投票ラベルを付すことと、既定のしきい値を超える投票ラベルの最大数を有するサンプル音声のセグメントを認識結果として使用することと、を認識される音声データの各フレームについて行うことができる。
【0043】
例えば、
図5に示すように、認識される音声データのセグメントの各フレームに対する特性値を計算によって取得した後、投票動作を、音声特性値比較表に従って各フレームに対して順次行うことができる。例えば、認識される音声データの各フレームの信号に対して、特性値“v”を最初に見つけ、対応するルートノードを特性指標表で見つけ、“v”の特性値を有する全ての音声信号が、ノードの下に格納される。例えば、認識される音声データの1番目のフレームの特性値が2046である場合、音声特性値比較表の2046番目のルートノードを見つける。このノードの下には、k−1番目の音声信号のl番目のフレームが格納され、k−1番目の音声信号のl番目のフレームの特性値は、2046である。したがって、投票行列の位置(k−1,l)で“+1”動作が行われる。“+1”動作は、投票を表し、投票動作の意味は、認識される音声データのセグメントをk−1番目の音源のl番目のフレームの付近からのものとすることができることを意味する。
【0044】
投票が、認識される音声データの全てのフレームの特性値に行われた後、最高票を取得する音声セグメントのフレームを決定するために、最終的な投票結果を考慮することができ、最高票は、認識される信号がデータベースのこれらの音声セグメントに最も類似することを表す。
【0045】
しかしながら、投票中に変換プロセスが存在することを留意すべきであり、すなわち、認識される音声データの1番目のフレーム及び5番目のサンプル音声の3番目のフレームが照合の際に同一の特性値を有する場合、認識される音声データの4番目のフレーム及び5番目のサンプル音声の6番目のフレームが次の照合の際に同一の特性値を有するときに、ラベル位置は、5番目のサンプル音声の1番目のフレームである。すなわち、投票は、全ての照合結果に対してサンプル音声の最初に照合された位置に行われる。換言すれば、認識される音声データの3番目のフレーム及び8番目のサンプル音声の6番目のフレームが(このサンプル音声との最初の照合である)照合の際に同一の特性値を有する場合、認識される音声データの4番目のフレーム及び8番目のサンプル音声の7番目のフレームが次の照合の際に同一の特性値を有するときに、ラベル位置は、8番目のサンプル音声の6番目のフレームである。すなわち、投票は、全ての照合結果に対してサンプル音声の最初に照合された位置に行われる。
【0046】
他の照合手法を用いることができる。例えば、認識される音声データの各フレームの特性値は、サンプル音声に直接照合され、各サンプル音声との最終的な照合度が統計分析される。このタイプの動作も実現可能である。しかしながら、比較の際には、サンプル音声のフレームが開始フレームとして照合される手法が、明らかに更に正確である。
【0047】
例示的な実現において、条件に適合する複数の結果を、照合の際に時々取得することができる。最終的な結果を更に正確にするために、照合しきい値(T)を設定することができる。順次の正確な照合を、しきい値Tを超えるときのみ行うことができる。例えば、i番目のサンプル音声の3番目のフレームに対する投票がしきい値より大きい場合、セグメントの特性値の比較は、3番目のフレームから開始する。
図6に示すように、voice_iの3番目のフレームの特性値がf3であるとともに認識される信号の1番目のフレームの特性値がf0であると仮定すると、f3及びf0が二つの2進シーケンスに変換されるとともに二つの2進シーケンスの異なる桁の数を計数するような比較が行われる。比較を、表を調べることによって行うことができる。例えば、11桁の2進シーケンスの比較を行う。11桁の2進シーケンスはそれぞれ、10進数の特性値に対応する。したがって、二つの特性値の間の類似の比較のために、先ず、特性値が2進シーケンスに変換され、その後、二つの2進シーケンスの異なる桁の数を計数する。認識される音声データは、典型的には、データの複数のフレームを備えるので、複数のフレームの比較結果を追加することができ、最終的な計数結果の最小値に対応する投票位置は、認識結果であると決定される。
【0048】
すなわち、既定のしきい値より大きい認識される音声データとの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、照合及び認識を、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との間で行うことができる。その後、最高の照合度を有するサンプル音声のセグメントを、認識結果として、サンプル音声の一つ以上のセグメントの間で決定する。例えば、認識される音声データのフレームの数の決定、認識される音声データの各フレームに対する2進シーケンスの取得、及び、同一のビット位置を有するが認識される音声データの各フレームに対する2進シーケンスと認識される音声データに対応するサンプル音声の各セグメントの各フレームに対する2進シーケンスの間で異なるビット値を有する桁数の決定を、サンプル音声の一つ以上のセグメントの各々について行うことと、サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有するサンプル音声のセグメントを認識結果として使用することと、を有してもよい。
【0049】
例えば、第1の2進シーケンスは、0010001であり、第2の2進シーケンスは、10100000であり、比較結果は、1である。
【0050】
上記の例で説明した音声認識のための方法は、良好なロバストネスを有する。同時に、提案した認識方法は、速い認識速度を有し、双方向TV及び音楽認識のような状況において用いることができる。本例において、極値点が周波数領域から抽出されない。代わりに、フレームの間及びフレーム内の比較関係が、比較的安定したコード化結果を取得するために用いられる。そのようなコード化手法は、雑音による干渉に侵されなくなり、これによって、更に正確な音声認識結果を実現する。
【0051】
同一の概念に基づいて、音声認識のための装置を、後の実施の形態で説明するような本発明の実施の形態において提供する。問題を解決するための音声認識のための装置の原理が音声認識のための方法の原理と同様であるので、音声認識のための方法の実現を、音声認識のための装置の実現のために参照することができ、その繰り返しをここでは説明しない。以下で用いる用語「部」又は「モジュール」は、予め設定された機能を実現することができるソフトウェア及び/又はハードウェアの組合せを意味する。以下の実施の形態で説明する装置は、好適には、ソフトウェアによって実現される。しかしながら、装置を、ハードウェア又はソフトウェアとハードウェアの組合せによって実現することもできる。
図7は、本願の一部の実施の形態による音声認識のための装置の構造的なブロック図である。
図7に示すように、装置は、フレーム分割モジュール701と、計算モジュール702と、照合及び認識モジュール703と、を備えることができる。この構造を、以下で説明する。
【0052】
フレーム分割モジュール701は、音声データの複数のフレームを取得するために、認識される音声データを分割するように構成される。
【0053】
計算モジュール702は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算するように構成される。
【0054】
照合及び認識モジュール703は、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行い、音声特性値比較表は、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて確立されるように構成される。
【0055】
一つの実現手法において、上述した音声認識のための装置は、音声特性値比較表を予め確立するように構成された比較表確立モジュールを更に備えることができ、比較表確立モジュールは、サンプル音声の複数のセグメントを備えるサンプルデータを取得するように構成された取得部と、サンプル音声の各セグメントに対する音声データの複数のフレームを取得するためにサンプル音声の複数のセグメントの各々を分割するように構成されたフレーム分割部と、サンプル音声の各セグメントの各フレームの特性値を、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて計算するように構成された計算部と、特性値をルートノードとして使用し、対応関係を形成するために、サンプル音声の各セグメントの各フレームの特性値に従って、サンプル音声の各セグメントの各フレームをルートノードのうちの対応するものの後ろに取り付けるように構成された関係決定部と、対応関係を音声特性値比較表として使用するように構成された生成部と、を備える。
【0056】
一つの実現手法において、照合及び認識モジュール703は、サンプル音声のセグメントの数及びサンプル音声の各セグメントのフレームの数に従って確立される投票行列を確立するように構成された確立部と、現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームを音声特性値比較表で調べること及び現在のフレームの特性値と同一の特性値を有する音声データ一つ以上のフレームに対応する投票行列の位置に投票ラベルを付けることを、認識される音声データの各フレームについて行うように構成された実行部と、既定のしきい値を超える最大数の投票ラベルを有するサンプル音声のセグメントを認識結果として使用するように構成された結果生成部と、を備える。
【0057】
一つの実現手法において、計算モジュール702は、認識される音声データの複数のフレームの各々を既定の数の次元のベクトルデータに変換するように構成された第1変換部と、認識される音声データの複数のフレームの各々のベクトルデータを、隣接する次元の間のベクトル値及び音声データの各フレームのベクトルデータの隣接するフレームのベクトル値に従って2進シーケンスに変換するように構成された第2変換部と、変換から得られる2進シーケンスを音声データの対応するフレームの特性値として使用するように又は2進シーケンスに対応する10進数を音声データの対応するフレームの特性値として使用するように構成された特性値生成部と、を備える。
【0058】
一つの実現手法において、第2変換部は、以下の式に従って、音声データの各フレームのベクトルデータを2進シーケンスに変換するように構成される。
【0060】
d
i−2,jは、音声データのi−2番目のフレームのj次元のベクトル値を表し、d
i−2,j+1は、音声データのi−2番目のフレームのj+1次元のベクトル値を表し、d
i−1,jは、音声データのi−1番目のフレームのj次元のベクトル値を表し、d
i−1,j+1は、音声データのi−1番目のフレームのj+1次元のベクトル値を表し、d
i+1,jは、音声データのi+1番目のフレームのj次元のベクトル値を表し、d
i+1,j+1は、音声データのi+1番目のフレームのj+1次元のベクトル値を表し、d
i+2,jは、音声データのi+2番目のフレームのj次元のベクトル値を表し、d
i+2,j+1は、音声データのi+2番目のフレームのj+1次元のベクトル値を表し、t1、t2、t3、t4及びdiffは、中間変数を表し、Bit
i,jは、音声データのi番目のフレームの2進シーケンスのj番目のビットの値を表し、m、nは、一定係数を表す。
【0061】
一つの実現手法において、第1変換部は、MFCC特徴パラメータ抽出アルゴリズムを用いて、音声データの各フレームを既定の数の次元のベクトルデータに変換するように構成される。
【0062】
一つの実現手法において、既定の数の次元は12である。
【0063】
一つの実現手法において、照合及び認識モジュール703は、既定のしきい値より大きい認識される音声データの照合度を有するサンプル音声の一つ以上のセグメントを見つけるために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行うように構成された認識部と、サンプル音声の一つ以上のセグメントのうちの最高の照合度を有するサンプル音声のセグメントを認識結果として決定するように構成された照合部と、を備える。
【0064】
一つの実現手法において、照合部は、認識される音声データのフレームの数の決定、認識される音声データの各フレームに対する2進シーケンスの取得、認識される音声データに対応するサンプル音声の現在のセグメントの各フレームに対する2進シーケンスの取得、及び、同一のビット位置を有するが認識される音声データの各フレームに対する2進シーケンスとサンプル音声の現在のセグメントの各フレームに対する2進シーケンスの間で異なるビット値を有する桁数の決定を、サンプル音声の一つ以上のセグメントの各々について行うように構成された実行サブユニットと、サンプル音声の一つ以上のセグメントにおいて異なるビット値を有する最小桁を有するサンプル音声のセグメントを認識結果として使用するように構成された照合サブユニットと、を備える。
【0065】
一つの実現手法において、フレーム分割モジュール701は、既定の数のミリ秒の重複を有するように隣接するフレームを設定する分割規則に従って認識される音声データを分割するように構成される。
【0066】
本願による音声認識のための方法及び装置は、音声データの複数のフレームを取得するために、認識される音声データを分割し、複数のフレームの間及び複数のフレームの各々の内の音声変化傾向に基づいて、認識される音声データの各フレームの特性値を計算し、認識結果を取得するために、認識される音声データの各フレームの特性値と予め確立された音声特性値比較表との照合を行う。すなわち、極値点が周波数領域から抽出されない。代わりに、比較的安定した符号化結果を取得するために、複数のフレームの間及びフレーム内の照合関係を使用し、これによって、雑音による干渉に侵されなくなり、更に正確な認識結果となる。本願による解決は、雑音排除性を著しく向上させるだけでなく照合成功率及び照合結果の精度を効果的に向上させることができる。
【0067】
本願の実施の形態の上記の説明は、本願の一部の実施の形態の応用にすぎない。本願の上記実施の形態の解決を、一部の規格、モデル及び方法に基づくわずかな変更による実現によって行うこともできる。本願の上記実施の形態で説明した処理方法のステップの創造的でない変更は、同一の応用を実現することができるが、ここでは繰り返さない。
【0068】
本願は、実施の形態又はフローチャートに示すような方法の動作ステップを提供するが、更に多い又は更に少ない動作ステップを、従来に従って又は創造的な活動を行うことなく方法に含めることができる。実施の形態に挙げたこれらのステップの順序は、複数のステップ実行順序の一つにすぎず、唯一の実行順序を表さない。ステップを、装置又はクライアント製品に適用するときに(例えば、並列プロセッサによって又はマルチスレッド環境において)実施の形態又は添付図面に示す方法に従って順次又は並列に実施することができる。
【0069】
上記実施の形態に記載された装置又はモジュールを、コンピュータチップ若しくはエンティティによって実現してもよい又はある種の機能を有する製品によって実現することができる。説明の便宜のために、上記装置を、各説明の機能に従って種々のモジュールに分割した。本願を実現する際に、モジュールの機能を、一つ又は複数のソフトウェア及び/又はハードウェアで実現することができる。機能のモジュールを、複数のサブモジュール又はサブユニットを組み合わせることによって実施してもよい。
【0070】
本願で説明した方法、装置又はモジュールを、コントローラにより適切な方法でコンピュータ可読プログラムコードを介して実現することができる。例えば、コントローラを、マイクロプロセッサ又はプロセッサ、並びに、(マイクロ)プロセッサ、論理ゲート、特定用途向け集積回路、プログラマブル論理コントローラ及び内蔵のマイクロプロセッサによって実行することができるコンピュータ可読媒体プログラムコード(例えば、ソフトウェア又はファームウェア)を格納するコンピュータ可読媒体の形態としてもよい。コントローラの例は、以下のマイクロコントローラを含むがそれに限定されない:ARC625D,Atmel AT91SAM,Microchip PIC18F26K20及びSilicone Labs C8051F320。メモリコントローラを、メモリの制御論理の一部として実現してもよい。コントローラを純粋なコンピュータ可読プログラムコードの手法で実現するのに加えて、論理ゲート、スイッチ、ASIC、プログラマブル論理コントローラ及び内蔵のマイクロコントローラの形態の同一の機能のコントローラによって実現できるようにする方法のステップにおいて論理プログラミングを実行することが完全に実現可能であることは、当業者によって理解されるべきである。したがって、そのようなコントローラをハードウェア部とみなすことができ、それに対し、ハードウェア部に含まれるとともに種々の機能を実現するように構成された装置をハードウェア部の内部の構造とみなすことができる。代替的には、種々の機能を実現するように構成された装置を、方法又はハードウェア部の内部の構造を実現するソフトウェアモジュールとみなしてもよい。
【0071】
本願による装置の一部のモジュールを、例えば、プログラムモジュールとすることができるコンピュータによって実行されるコンピュータ可読命令の規則的なコンテクストにおいて記載してもよい。一般的には、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を備える。本願を、分散コンピューティング環境において実施してもよい。これらの分散コンピューティング環境において、通信ネットワークを介して接続される遠隔処理装置は、タスクを実行する。分散コンピューティング環境において、プログラムモジュールを、記憶装置を含むローカルコンピュータ記憶媒体及びリモートコンピュータ記憶媒体に配置することができる。
【0072】
実現の手法の上述した説明によれば、当業者は、本願をソフトウェア及び必要なハードウェアによって実現できることを明確に理解することができる。そのような理解に基づいて、本願の技術的解決法を、本質的に又は現在の技術に寄与する部分に関してソフトウェア製品の形態で実現することができる又はデータ移行を実現するプロセスを通じて実現することができる。コンピュータソフトウェア製品を、ROM/RAM、磁気ディスク、光ディスク等のような記憶媒体に格納することができ、コンピュータソフトウェア製品は、本願の実施の形態又は実施の形態の一部で説明した方法を(パーソナルコンピュータ、携帯端末、サーバ又はネットワーク装置とすることができる)コンピュータ装置によって実行できるようにする複数の命令を備えてもよい。
【0073】
本願の実施の形態を進行形で説明した。各実施の形態は、他の実施の形態との差に重点を置き、実施の形態は、実施の形態の同一又は類似の部分を互いに参照している。本願の全て又は一部を、パーソナルコンピュータ、サーバコンピュータ、手持ち式装置又は携帯装置、パネル装置、携帯通信端末、マルチプロセッサシステム、マルチプロセッサベースシステム、プログラマブル電子装置、ネットワークPC、小型コンピュータ、上述したシステム又は装置のいずれかを備える分散コンピューティング環境等のような多数の汎用又は専用コンピュータシステム環境又は形態において用いることができる。
【0074】
本願を実施の形態を用いて説明したが、当業者は、本願の精神から逸脱しない本願の変形及び変更が存在することに気付くべきである。特許請求の範囲が本願の精神から逸脱することなくこれらの変形及び変更を包含することを意味する。