(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-19
(45)【発行日】2023-05-29
(54)【発明の名称】音声認識方法、装置及びコンピュータプログラム
(51)【国際特許分類】
G10L 15/06 20130101AFI20230522BHJP
G10L 15/065 20130101ALI20230522BHJP
G10L 15/16 20060101ALI20230522BHJP
G10L 15/20 20060101ALI20230522BHJP
【FI】
G10L15/06 300C
G10L15/065 A
G10L15/16
G10L15/20 370Z
(21)【出願番号】P 2022520112
(86)(22)【出願日】2020-11-12
(86)【国際出願番号】 CN2020128392
(87)【国際公開番号】W WO2021143327
(87)【国際公開日】2021-07-22
【審査請求日】2022-03-30
(31)【優先権主張番号】202010048780.2
(32)【優先日】2020-01-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】王 ▲ジュン▼
(72)【発明者】
【氏名】林 永▲業▼
【審査官】菊地 陽一
(56)【参考文献】
【文献】特開2019-078857(JP,A)
【文献】国際公開第2019/198265(WO,A1)
【文献】米国特許出願公開第2018/0053087(US,A1)
【文献】米国特許出願公開第2019/0043516(US,A1)
【文献】Max W.Y.Lam et. al.,Extract, Adapt and Recognize: an End-to-end Neural Network for Corrupted Monaural Speech Recognition,INTERSPEECH 2019,2019年09月15日,pp.2778-2782
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/06
G10L 15/065
G10L 15/16
G10L 15/20
(57)【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する音声認識方法であって、
音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得するステップと、
前記第2の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと前記音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するステップと、
前記第1の損失関数と前記第2の損失関数を融合して、ターゲット損失関数を取得するステップと、
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するステップと、を含
み、
前記ターゲット損失関数は、L=L
CL
+λ
SS
L
MSE
によって取得され、ここで、Lがターゲット損失関数であり、L
MSE
が音声分離強化モデルの第1の損失関数であり、L
CL
が音声認識モデルの第2の損失関数であり、λ
SS
が重み係数である、ことを特徴とする方法。
【請求項2】
第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトルと埋め込み特徴行列を抽出するステップと、
埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、
前記埋め込み特徴行列における各行列要素と前記アトラクタとの類似性を計算することにより、前記サンプル音声ストリームのターゲットマスク行列を取得するステップと、
前記ターゲットマスク行列に基づいて、前記サンプル音声ストリームに対応する強化スペクトルを決定するステップと、
前記サンプル音声ストリームに対応する推定スペクトルと前記強化スペクトルとの間の平均二乗誤差損失に基づいて、前記第1のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
【請求項3】
第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出する前記ステップは、
サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得するステップと、
第1のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得するステップと、
第1のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングして、埋め込み特徴行列を取得するステップと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームのアトラクタを決定する前記ステップは、
前記音声スペクトルと音声特徴に基づいて、理想的なマスク行列を決定するステップと、
予め設定されたバイナリ閾値行列に基づいて、前記理想的なマスク行列におけるノイズ要素をフィルタリングするステップと、
埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、を含むことを特徴とする請求項3に記載の方法。
【請求項5】
第2のニューラルネットワークモデルを取得するステップと、
前記第2のニューラルネットワークモデルに対して非負の制約処理を実行して、非負のニューラルネットワークモデルを取得するステップと、
非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得するステップと、
前記微分モデルと前記非負のニューラルネットワークモデルをカスケードして、中間モデルを取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
【請求項6】
非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得する前記ステップは、
音響特徴に対応する特徴ベクトルに対して対数演算を実行するための対数モデルを取得するステップと、
音響特徴に対応する特徴ベクトルに対して差分演算を実行するための差分モデルを取得するステップと、
前記対数モデルと前記差分モデルに基づいて、微分モデルを構築するステップと、を含むことを特徴とする請求項5に記載の方法。
【請求項7】
サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得するステップと、
第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出するステップと、
全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定するステップと、
前記深度特徴と前記中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定するステップと、
前記融合損失に基づいて、前記第3のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
【請求項8】
前記深度特徴と前記中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定する前記ステップは、
前記深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算するステップと、
前記深度特徴と前記中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算するステップと、
前記クラス間混同測度指数と前記クラス内距離ペナルティ指数を融合演算して、融合損失を取得するステップと、を含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングする前記ステップは、
前記ターゲット損失関数によって生成されるグローバル下降勾配を決定するステップと、
前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルのそれぞれに対応するモデルパラメータを、前記ターゲット損失関数の最小化損失値が得られるまで、前記グローバル下降勾配に基づいて繰り返して更新するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項10】
音声認識装置であって、
音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得し、前記第2の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと前記音声認識モデルの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するための中間特徴付け学習モジュールと、
前記第1の損失関数と前記第2の損失関数を融合して、ターゲット損失関数を取得するための損失融合モジュールと、
前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するための共同トレーニングモジュールと、を含
み、
前記ターゲット損失関数は、L=L
CL
+λ
SS
L
MSE
によって取得され、ここで、Lがターゲット損失関数であり、L
MSE
が音声分離強化モデルの第1の損失関数であり、L
CL
が音声認識モデルの第2の損失関数であり、λ
SS
が重み係数である、ことを特徴とする音声認識装置。
【請求項11】
コンピュータによって実行されるとき、前記コンピュータに請求項1から
9のいずれか一項に記載の方法のステップを実行させるコンピュータプログラム。
【請求項12】
メモリとプロセッサーを含むコンピュータデバイスであって、前記メモリは、コンピュータ可読命令を記憶しており、前記コンピュータ可読命令が前記プロセッサーによって実行されるとき、前記プロセッサーに請求項1から
9のいずれか一項に記載の方法のステップを実行させるコンピュータデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年01月16日に中国専利局に提出した、出願番号が第202010048780.2号であって、発明の名称が「音声認識、モデルトレーニング方法、装置及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、その全内容を援用により本出願に組み込む。
【0002】
本出願は、音声処理の技術分野に関し、特に、音声認識方法、装置及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
音声認識技術の発展により、人間と機械が自然言語によってインタラクションすることを可能にする。音声認識技術に基づいて、音声信号をテキストシーケンスに変換できる。このような変換を実現するには、ピックアップされた音声信号に対して、音声分離(Speech Separation,SS)や音声強化(Speech Enhancement,SE)などのフロントエンド処理を実行し、次に、フロントエンド処理によって取得された音響特徴に対して、自動音声認識(Automatic Speech Recognition,ASR)のバックエンド処理を実行する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、音声分離強化モデルによって音声信号に対して音声分離及び音声強化を実行し、次に、音声認識モデルを使用して音声認識することができる。しかしながら、音声認識の正確性が低いという問題がよくある。
【課題を解決するための手段】
【0005】
本出願によって提供される各実施例によれば、音声認識方法、装置及びコンピュータ可読記憶媒体を提供する。
【0006】
コンピュータデバイスが実行する音声認識方法であって、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得するステップと、前記第2の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するステップと、前記第1の損失関数と前記第2の損失関数を融合して、ターゲット損失関数を取得するステップと、前記ターゲット損失関数に基づいて、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するステップと、含む。
【0007】
音声認識装置であって、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得し、前記第2の損失関数に基づいてバックプロパゲーションを実行して、前記音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得するための中間特徴付け学習モジュールと、前記第1の損失関数と前記第2の損失関数を融合して、ターゲット損失関数を取得するための損失融合モジュールと、前記ターゲット損失関数に基づいて、前記音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了するための共同トレーニングモジュールと、を含む。
【0008】
コンピュータデバイスが実行する音声認識方法であって、ターゲット音声ストリームを取得するステップと、音声分離強化モデルに基づいて、前記ターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出するステップと、ロバスト特徴付けモデルに基づいて、前記強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得するステップと、音声認識モデルに基づいて、前記ロバスト特徴を認識して、各オーディオフレームに対応する音素を取得するステップと、を含み、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルは、共同トレーニングによって取得される。
【0009】
音声認識装置であって、ターゲット音声ストリームを取得し、音声分離強化モデルに基づいて、前記ターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出するための音声分離強化モジュールと、ロバスト特徴付けモデルに基づいて、前記強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得するための中間特徴付け遷移モジュールと、音声認識モデルに基づいて、前記ロバスト特徴を認識して、各オーディオフレームに対応する音素を取得するための音声認識モジュールと、含み、前記音声分離強化モデル、前記ロバスト特徴付けモデル、及び前記音声認識モデルは、共同トレーニングによって取得される。
【0010】
コンピュータ可読命令が記憶された1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサーによって実行されるとき、前記プロセッサーに前記音声認識方法のステップを実行させる。
【0011】
メモリとプロセッサーを含むコンピュータデバイスであって、前記メモリはコンピュータ可読命令を記憶しており、前記コンピュータ可読命令が前記プロセッサーによって実行されるとき、前記プロセッサーに前記音声認識方法のステップを実行させる。
【0012】
本出願の1つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本出願の他の特徴、目的及び利点は、明細書、図面、及び特許請求の範囲から明らかになる。
【0013】
本出願の実施例における技術案をより明確に説明するために、実施例の説明に使用される図面を以下に簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。
【図面の簡単な説明】
【0014】
【
図1】一実施例における音声認識方法の適用環境図である。
【
図2】一実施例における音声認識方法の概略フローチャートである。
【
図3】一実施例におけるロバスト特徴付けモデルに基づいて音声分離強化モデルと音声認識モデルをブリッジするモデルアーキテクチャの概略図である。
【
図4】一実施例における音声処理モデルを事前トレーニングするステップの概略フローチャートである。
【
図5】一実施例における中間モデルを構築するステップの概略フローチャートである。
【
図6】一実施例における音声認識モデルを事前トレーニングするステップの概略フローチャートである。
【
図7】1つの具体的な実施例における音声認識方法の概略フローチャートである。
【
図8】一実施例における音声認識方法の概略フローチャートである。
【
図9a】一実施例における5種類のSNR信号対ノイズ比条件下での、異なる音声認識方法に基づいて2つの音響環境からの音声を認識する単語誤り率の比較概略図である。
【
図9b】一実施例における異なるSNR信号対ノイズ比条件下での異なる音声認識システムのパフォーマンスの比較概略図である。
【
図10】1つの具体的な実施例における音声認識方法の概略フローチャートである。
【
図11】一実施例における音声認識装置の構造ブロック図である。
【
図12】別の実施例における音声認識装置の構造ブロック図である。
【
図13】一実施例における音声認識装置の構造ブロック図である。
【
図14】一実施例におけるコンピュータデバイスの構造ブロック図である。
【発明を実施するための形態】
【0015】
以下に、本出願の目的、技術案及び利点をより明確にするために、図面と実施例を結合して本出願をさらに詳細に説明する。ここに説明する具体的な実施例は、本出願を説明するためにのみ使用され、本出願を限定するものではないことを理解すべきである。
【0016】
図1は、一実施例における音声認識モデルのトレーニング方法の適用環境図である。
図1を参照して、当該音声認識方法はモデルトレーニングシステムに適用される。当該音声認識モデルトレーニングシステムは、端末110とサーバー120を含む。端末110とサーバー120は、ネットワークを介して接続される。端末110は、具体的に、デスクトップ端末又はモバイル端末であってもよく、モバイル端末は、具体的に、携帯電話、タブレットコンピューター、ノートパソコンなどのうちの少なくとも1つであってもよい。サーバー120は、独立したサーバー又は複数のサーバーで構成されるサーバークラスターによって実現できる。端末110とサーバー120は、いずれも本出願の実施例で提供される音声認識方法を実行するために独立して使用できる。端末110とサーバー120は、本出願の実施例で提供される音声認識方法を実行するために協調して使用してもよい。
【0017】
本出願の実施例によって提供される解決策は、人工知能による音声認識などの技術に関する。音声技術(Speech Technology)の主な技術は、音声分離(SS)、音声強化(SE)、及び自動音声認識技術(ASR)がある。コンピュータが聞いたり、見たり、話したり、感じたりできるようにすることは、将来のマンマシンインタラクションの発展の方向性であり、その中で、音声は、将来的に最も有望なマンマシンインタラクション方式の1つになる。
【0018】
なお、本出願の実施例は、音声処理のための共同モデルに関する。共同モデルは、異なる部分の音声処理のための3つのモデルを含む。具体的に、フロントエンドの音声分離強化モデルと、バックエンドの音声認識モデルと、音声分離強化モデルと音声認識モデルの間にブリッジされたロバスト特徴付けモデルを含む。3つのモデルのそれぞれは、機械学習モデルであってもよい。機械学習モデルは、サンプルから学習した後にある機能を備えたモデルである。具体的に、例えば、CNN(Convolutional Neural Networks,畳み込みニューラルネットワーク)モデル、RNN(Recurrent Neural Networks,リカレントニューラルネットワーク)モデルなどのニューラルネットワークモデルである。勿論、機械学習モデルは、他のタイプのモデルを採用してもよい。モデルトレーニングの前に、精度要件などに応じて各部分で採用するモデルを柔軟に選択できることが理解できる。このように、各部分は、いずれも最適な配置を採用でき、いずれかの部分のパフォーマンスを妥協する必要がない。換言すれば、本出願に係る3つのモデルのそれぞれは、対応する分野に適した専用モデルを自由に選択できる。その中で、音声分離強化モデルと音声認識モデルはそれぞれ事前にトレーニングされたものであってもよく、このように、本出願は、事前にトレーニングされた音声分離強化モデルと音声認識モデルに基づいて、ロバスト特徴付けモデルを含む共同モデルをトレーニングすることができる。このようにして、少ない反復トレーニング回数で、収束した共同モデルを取得できる。音声分離強化モデルと音声認識モデルを事前にトレーニングする手順、及びロバスト特徴付けモデルと結合して共同でトレーニングする手順について、後続の実施例における詳細な説明を参照することができる。
【0019】
図2に示すように、一実施例では、音声認識方法を提供する。この実施例は、主に、当該方法をコンピュータデバイスに適用することを例として説明し、当該コンピュータデバイスは、具体的に、上記図における端末110又はサーバー120であってもよい。
図2を参照すると、当該音声認識方法は、具体的に、次のステップを含む。
S202、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得する。
【0020】
なお、音声分離強化モデルは、トレーニングされた後に、音声分離及び/又は強化能力を有するためのモデルである。具体的に、サンプル音声ストリームをトレーニングデータとして学習及びトレーニングを行って得られた、ターゲット音声をサンプル音声ストリームにおけるバックグラウンド干渉から分離するためのモデルであってもよい。音声分離強化モデルは、音声信号に対して音声アクティビティ検出(Voice Activity Detection,VAD)、エコー除去、残響除去、又は音源位置決めなどの前処理を実行する能力の少なくとも1つをさらに有することを理解することができ、これに対して制限しない。センサー又はマイクの数に応じて、音声分離強化モデルは、モノラル(単一のマイク)分離強化モデル及びアレイ(複数のマイク)分離強化モデルに分けることができる。モノラル分離の主な方法は、音声強化と計算聴覚シーン分析(Computational Auditory Scene Analysis,CASA)を含む。音声強化は、モノラル混合信号のうちターゲット音声信号と干渉信号の全てのデータを分析することによって、ノイズ付き音声に対するノイズ推定を介して、明瞭な音声を推定することができる。主流の音声強化方法は、スペクトル減算法(spectral subtraction)などを含む。計算聴覚シーン分析は、聴覚シーン分析の知覚理論に基づいて、グループ化キュー(grouping cue)を使用して音声分離を行う。アレイ分離の主な方法は、ビームフォーミング又は空間フィルタなどを含む。ビームフォーミングは、適切なアレイ構造によって特定の方向から到着する音声信号を強化し、さらに他の方向からの音声信号の干渉を低減することであり、例えば、遅延重畳技術である。音声の分離と強化は、人間指向の音声処理タスクである。音声の分離と強化の分野では、例えば、短時間フーリエ変換(Short Time Fourier Transform,STFT)スペクトログラムや修正離散コサイン変換(Modified Discrete Cosine Transform,MDCT)など、人間が理解できるより効果的な特徴付けパラメータをよく採用する。音声の分離と強化の主流のパフォーマンス測度指標は、音声品質の知覚評価(Perceptual Evaluation of Speech Quality,PESQ)、信号歪み比(Signal Distortion Rate,SDR)、及び短時間客観的了解度(Short Time Objective Intelligibility,STOI)などの少なくとも1つを含む。その中で、STOIは、主観的な聴覚了解度と高い関連性がある。音声認識モデルは、トレーニングされた後に音声認識能力を備えた音響モデルであり、具体的に、サンプル音声ストリームをトレーニングデータとして学習及びトレーニングを行って得られた、サンプル音声ストリームに対して音素認識を実行するためのモデルである。音声分離強化モデルと音声認識モデルは、別々に事前トレーニングされたものである。事前トレーニングされた音声分離強化モデルと音声認識モデルは、それぞれ固定のモデル構造とモデルパラメータを有する。音声認識は、マシン指向の音声処理タスクである。例えば、スマートスピーカー、仮想デジタルヒューマンアシスタント、機械翻訳などの自動音声認識などの分野では、メルフィルターバンク(Mel Fbanks)、メル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients,MFCC)などの、機械が理解できるより効率的な特徴付けパラメータをよく採用する。音声認識モデルの主流のパフォーマンス測度指標は、単語誤り率(Word Error Rate,WER)、文字誤り率(Character Error Rate,CER)、又は文誤り率(Sentence Error Rate,SER)などを含む。
【0021】
具体的に、共同モデルトレーニングが必要な場合、コンピュータデバイスは、事前トレーニングされた音声分離強化モデルと音声認識モデル、音声分離強化モデルを事前トレーニングするときに採用される第1の損失関数、及び音声認識モデルを事前トレーニングするときに採用される第2の損失関数を取得する。損失関数(loss function)は、一般的に学習準則として最適化問題に関連付けられ、つまり、損失関数を最小化することによってモデルを解き、評価する。例えば、統計学及び機械学習において、モデルのパラメータ推定(parameteric estimation)に使用される。音声分離強化モデルを事前トレーニングするときに採用される第1の損失関数及び音声認識モデルを事前トレーニングするときに採用される第2の損失関数は、それぞれ、具体的に、平均二乗誤差、平均絶対値誤差、Log-Cosh損失、分位数損失、又は理想分位数損失などであってもよい。第1の損失関数と第2の損失関数は、それぞれ、様々な損失関数の組み合わせであってもよい。
【0022】
S204、第2の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。
【0023】
上記のように、音声処理手順では、フロントエンドの音声分離タスクで採用される特徴付けパラメータとパフォーマンス測度指標は、人間指向、即ち、人間の主観的な聴覚了解度をターゲットとするものであり、バックエンドの音声認識タスクで採用される特徴付けパラメータとパフォーマンス測度指標は、機械指向、即ち、機械認識正確率をターゲットとするものである。このように、フロントエンドとバックエンドの音声処理タスクを融合する場合、2種類の特徴付けカテゴリの違いを克服する必要がある。ブリッジすることは、1つのオブジェクトが少なくとも2つのオブジェクトの間にあり、当該少なくとも2つのオブジェクトを接続していることを意味する。即ち、1つのオブジェクトBの場合、当該オブジェクトがAとCの間にブリッジされていると、オブジェクトBがAとCの間にあり、Bの一方の端がAに接続され、もう一方の端がCに接続されていることを意味する。モデルの場合、中間モデルが音声分離強化モデルと音声認識モデルの間にブリッジされたことは、音声分離強化モデルの出力が中間モデルの入力となり、入力されたデータが中間モデルによって処理され出力されたデータが音声認識モデルの入力となることを表す。
【0024】
図3に示すように、
図3は、一実施例におけるロバスト特徴付けモデルに基づいて音声分離強化モデルと音声認識モデルをブリッジするモデルアーキテクチャの概略図を示す。
図3に示すように、2種類の特徴付けカテゴリ間の違いを克服するために、本出願の実施例は、音声分離強化モデルと音声認識モデルの間にトレーニング対象となる中間モデルをブリッジしている。トレーニングされた中間モデルは、ロバスト性を持ち、ロバスト特徴付けモデルと呼ぶことができる。トレーニング対象となる中間モデルと事前トレーニングされた音声分離強化モデル及び音声認識モデルは、いずれも人工ニューラルネットワークで構成されるモデルであってもよい。人工ニューラルネットワーク(Artificial Neural Networks,ANNsと略称する)は、ニューラルネットワーク(NNs)又は接続モデル(Connection Model)とも呼ばれる。人工ニューラルネットワークは、情報処理の観点から、人間の脳のニューロンネットワークを抽象化して、あるモデルを確立し、異なる接続方式に従って異なるネットワークを構成する。工学や学界では、単にニューラルネットワーク又はニューラルライクネットワークと呼ばれることがよくある。ニューラルネットワークモデルは、例えば、CNN(Convolutional Neural Network,畳み込みニューラルネットワーク)モデル、DNN(Deep Neural Network,ディープニューラルネットワーク)モデル、及びRNN(Recurrent Neural Network,リカレントニューラルネットワーク)モデルなどである。音声分離強化モデルは、さまざまなニューラルネットワークモデルの組み合わせであってもよい。畳み込みニューラルネットワークは、畳み込み層(Convolutional Layer)とプーリング層(Pooling Layer)を含む。ディープニューラルネットワークは、入力層、隠れ層、及び出力層を含み、層と層の間は完全に接続された関係にある。リカレントニューラルネットワークは、シーケンスデータをモデル化するニューラルネットワークであり、即ち、あるシーケンスの現在の出力も前の出力に関連付けられる。具体的な表現形態は、ネットワークが以前の情報を記憶し、それを現在の出力の計算に適用することであり、即ち、隠れ層の間のノードは、接続されないものではなく、接続されており、且つ、隠れ層の入力は、入力層の出力だけでなく、前の時点の隠れ層の出力も含む。リカレントニューラルネットワークモデルは、例えば、LSTM(Long Short-Term Memory Neural Network,長短期記憶ニューラルネットワーク)モデル、及びBiLSTM(Bi-directional Long Short-Term Memory,双方向長短期記憶ニューラルネットワーク)などである。
【0025】
一実施例では、音声の分離と強化のための音声分離強化モデルは、抽出器Extractとも呼ばれる。中間遷移特徴付け学習のためのロバスト特徴付けモデルは、アダプタAdaptとも呼ばれる。音素認識のための音声認識モデルは、認識器Recongnizeとも呼ばれる。以下、抽出器、アダプタ、及び認識器から構成される音声処理システムを、EARシステムと呼ぶ。
【0026】
具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに基づいて、第2の損失関数が各反復手順で生成する局所的な下降勾配を決定する。深層学習最適化アルゴリズムは、具体的に、バッチ最急降下法(Batch Gradient Descent,BGD)、確率的勾配下降(Stochastic Gradient Descent,SGD)、ミニバッチ最急降下法(Mini-Batch Gradient Descent,MBGD)、AdaGrad(自己適応アルゴリズム)、又はRMSProp(Root Mean Square Prop:二乗平均平方根法)、又はAdam(Adaptive Moment Estimation:適応モーメント推定)などである。コンピュータデバイスは、局所的な下降勾配を中間モデルにバックプロパゲーションして、中間モデルに対応するモデルパラメータを更新し、予め設定されたトレーニング停止条件が満たされたときにトレーニングを終了する。確率的勾配下降法を例とし、L
1とL
2はそれぞれ第1の損失関数と第2の損失関数であり、f(x,Θ
adapt)は、入力がxで、モデルパラメータがΘ
adaptである中間モデルを示し、yは、中間モデルがxを入力したときの音声認識モデルに対応する出力ターゲット値であり、サンプル音声ストリームは、n個のオーディオフレーム{x
(1),…,x
(n)}を含み、x
(i)に対応するターゲットはy
(i)であると仮定すると、各反復に対応する局所的な下降勾配は、
【数1】
である。確率的勾配下降アルゴリズムの学習率がηであると仮定すると、モデルパラメータをΘ
adapt-ηgに変更でき、変更されたモデルパラメータを中間モデルの現在のモデルパラメータとして、予め設定されたトレーニング停止条件に達するまで反復を続けることができる。トレーニング停止条件は、第2の損失関数の損失値が予め設定された最小値に達すること、又は予め設定された回数連続して反復しても中間モデルのモデルパフォーマンスに大きな改善がないことなどである。
【0027】
一実施例では、第2の損失関数に基づいてバックプロパゲーションして中間モデルをトレーニングする手順では、トレーニングデータは、音声認識モデルを経由したが、事前トレーニングされた音声認識モデルのモデルパラメータを調整及び更新する必要がない。なお、ユーザーは、モデルの好み又は精度の要件などに応じて、具体的に採用される中間モデル、音声分離強化モデル、及び音声認識モデルを柔軟かつ独立して選択できる。即ち、ユーザーが自分の希望に応じて、新しい先進の音声分離/強化及び音声認識技術を柔軟に導入できることを許可する。換言すれば、本出願に係る3つのモデルのそれぞれは、対応する分野に適した専用モデルを自由に選択できる。例えば、音声分離が得意なモデルは、Aiを含み、ロバスト特徴付け学習が得意なモデルは、Bjを含み、音声認識が得意なモデルは、Ckを含み、ここで、i、j、kは、いずれも正の整数であり、トレーニング対象となる共同モデルは、Ai+Bj+Ckのいずれかである。このように、各モデルは、いずれも最適な配置を採用でき、他のモデルのパフォーマンスを妥協する必要がない。また、ここでの局所的な下降勾配とは、以下の共同トレーニングに係るグローバル下降勾配に対するものであり、第2の損失関数に基づいて決定された下降勾配値の部分的な値と見なすことはできない。
【0028】
S206、第1の損失関数と第2の損失関数を融合して、ターゲット損失関数を取得する。
ここで、ターゲット損失関数は、第1の損失関数と第2の損失関数を組み合わせた総合損失関数である。関数融合とは、1つ又は複数の予め設定された論理演算によって、複数の関数を1つの関数に変換する手順である。予め設定された論理演算は、四則混合演算、加重和、又は機械学習アルゴリズムなどを含むが、これに限定されない。
【0029】
具体的に、コンピュータデバイスは、第1の損失関数と第2の損失関数のそれぞれに対して、予め設定された論理演算を実行することによって、ターゲット損失関数を取得する。加重和を例として、重み係数をλSSと仮定すると、ターゲット損失関数は、L=L2+λSSL1となる。重み係数は、例えば、0.1などの経験的又は実験的に設定された値である。重み係数を調整することにより、複数のモデルを共同でトレーニングする場合の音声分離強化モデルの重要性を調整できることは容易に発見できる。
【0030】
一実施例では、コンピュータデバイスは、1つ又は複数の融合計算式を予め設定し、融合計算式における各パラメータ係数の入力フォーマットを設定する。第1の損失関数と第2の損失関数は、それぞれパラメータ係数として異なる融合計算式に入力され、即ち、異なるターゲット損失関数を取得できる。
【0031】
S208、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。
【0032】
上記のように、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、いずれも人工ニューラルネットワークで構成されるモデルであり得る。このように、本出願によって提供される音声処理のためのモデルアーキテクチャは、完全にニューラルネットワークに基づくものであり、エンドツーエンドの共同トレーニングを実現できる。全体のエンドツーエンドの共同トレーニング手順では、タスクを人為的に分割することはなく、全体の音声処理タスクを完全にニューラルネットワークモデルに渡って、オリジナル音声信号から期待される出力へのマッピングを直接に学習する。具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに基づいて、ターゲット損失関数によって生成されるグローバル下降勾配を決定し、例えば、ターゲット損失関数に基づいて、損失値を計算し、損失値に基づいてグローバル下降勾配を決定する。ローカル下降勾配を決定するための深層学習最適化アルゴリズムとグローバル下降勾配を決定するための深層学習最適化アルゴリズムは、同じであってもよく、異なってもよい。ターゲット損失関数によって生成されたグローバル下降勾配は、音声認識モデルからロバスト特徴付けモデル及び音声分離強化モデルのネットワーク各層に順次にバックプロパゲーションされる。この手順では、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルに対応するモデルパラメータをそれぞれ繰り返し更新し、予め設定されたトレーニング停止条件が満たされるまでトレーニングを終了する。
【0033】
一実施例では、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングすることは、ターゲット損失関数によって生成されるグローバル下降勾配を決定するステップと、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新するステップと、を含む。
【0034】
ミニバッチ確率的勾配下降法を例とし、L
1とL
2をそれぞれ第1の損失関数と第2の損失関数とし、Lをターゲット損失関数とし、Θ
adaptをロバスト特徴付けモデルのモデルパラメータとし、Θ
extractを音声分離強化モデルのモデルパラメータとし、Θ
recogを音声認識モデルのモデルパラメータとし、Θ
EARを共同モデル全体のモデルパラメータとし、αをミニバッチ確率的勾配下降アルゴリズムの学習率とすると、ターゲット損失関数によって生成されるグローバル下降勾配を、常に音声分離強化モデル
【数2】
にバックプロパゲーションし、モデルパラメータを
【数3】
に変更し、変更したモデルパラメータを共同モデルの現在のモデルパラメータとして、予め設定されたトレーニング停止条件に達するまで反復を続ける。トレーニング停止条件は、ターゲット損失関数の損失値が予め設定された最小値に達すること、又は予め設定された回数連続して反復しても中間モデルのモデルパフォーマンスが大きな改善がないことなどである。
【0035】
1つの具体的な実施例では、サンプル音声ストリームのバッチサイズは、24であり、初期の学習率αは、10-4であり、学習率の減衰係数は、0.8であり、そして3回連続して反復してもターゲット損失関数の損失にいずれも改善が見られない場合、共同モデルは収束したと見なされ、共同トレーニングは終了する。
【0036】
上記の音声認識方法では、フロントエンド音声分離強化モデルとバックエンド音声認識モデルの間に中間遷移のためのロバスト特徴付けモデルを導入する新しいエンドツーエンドネットワークアーキテクチャを提案する。このアーキテクチャは、適切な中間遷移特徴付け学習技術を導入することにより、人間指向の音声分離タスクと機械指向の音声認識タスクの間のギャップをうまく埋める。このネットワークアーキテクチャでは、中間モデルは、バックエンド音声認識モデルの第2の損失関数のバックプロパゲーションによってトレーニングを完了するが、音声分離強化モデル及び音声認識モデルは、事前に選択されてトレーニングされたものであってもよい。このように、比較的少ない反復トレーニング回数の後に収束に達することができる。フロントエンドモデルとバックエンドモデルのそれぞれに対応する損失関数の組み合わせに基づいて、エンドツーエンドのネットワークモデルを共同でトレーニングすることで、ネットワークアーキテクチャにおける個々のモデルは、複雑な音響環境からの音声信号における干渉特徴を包括的に学習できるため、グローバルな音声処理タスクのパフォーマンスを保証でき、音声認識の正確性が向上する。また、ネットワークアーキテクチャにおける各モデルは柔軟で独立した選択をサポートしているため、各モデルだけで、単一のモデルを妥協することなく最適な配置を実現できるので、局所的な各音声処理タスクのパフォーマンスを同時に両立でき、音声の客観的な了解度を向上させる。
【0037】
一実施例では、
図4に示すように、上記の音声認識方法は、音声分離強化モデルを事前トレーニングするステップをさらに含む。具体的に、
S402、第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出する。
なお、第1のニューラルネットワークモデル、及び以下に述べる第2のニューラルネットワークモデル、第3のニューラルネットワークモデルは、それぞれ、上記の人工ニューラルネットワークモデルのいずれかであってもよい。本実施例では、第1のニューラルネットワークモデルは、理想的な比率マスク(Ideal Ratio Mask,IRM)に基づく深度アトラクタネットワーク(Deep Attractor Net,DANet)、及び深度抽出ネットワーク(Deep Extractor Net,DENet)によって簡略化されたモデルである。DENetネットワークは、1つ又は複数の畳み込みニューラルネットワークを含む。本実施例では、畳み込みニューラルネットワークは、BiLSTMネットワークを採用できる。BiLSTMネットワークは、音声信号を低次元空間から高次元空間にマッピングする。DANetネットワークは、高次元空間にアトラクタ(Attractor)を埋め込んで、音声信号の時間周波数を結合して一緒にトレーニングに参加する。SGDのバックプロパゲーションに基づいてDENetとDANetネットワークを共同でトレーニングする手順では、DENetネットワークとDANetネットワークは、いずれかの時間の損失を導入していない。サンプル音声ストリームは、異なる複雑な音響環境では、車載システム、電話会議デバイス、スピーカーデバイス、又はオンライン放送デバイスなどのデバイスにおける音声アプリケーションに基づいて収集されたオーディオデータストリームである。音声アプリケーションは、システム電話アプリケーション、インスタントメッセージングアプリケーション、仮想音声アシスタント、又は機械翻訳アプリケーションなどであってもよい。各サンプルオーディオストリームは、複数のオーディオフレームを含んでもよい。サンプルオーディオストリームでオーディオフレームを収集するサンプリング周波数、及び各オーディオフレームのフレーム長とフレームシフトは、必要に応じて自由に設定できる。1つの具体的な実施例では、16kHzのサンプリング周波数、25msのフレーム長、及び10msのフレームシフトを採用してオーディオフレームを収集する。
【0038】
具体的に、コンピュータデバイスは、バッチで複数のサンプル音声ストリームに対して短時間フーリエ変換を実行し、各サンプル音声ストリームにおける音声特徴と音声スペクトルを取得することができる。サンプルオーディオストリームのバッチサイズは、必要に応じて自由に設定でき、例えば、24などに設定する。音声の分離と強化のための第1のニューラルネットワークモデルは、高次元の埋め込み空間で音声の分離と強化をより適切に完了することができるため、コンピュータデバイスは、バッチでサンプル音声ストリームの音声特徴をより高次元の埋め込み空間にマッピングし、変換して埋め込み特徴行列を取得する。コンピュータデバイスは、埋め込み空間で、第1のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行して、推定スペクトルを取得する。推定スペクトルは、第1のニューラルネットワークモデルによって出力されたサンプル音声ストリームのスペクトルである。
【0039】
S404、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。
なお、理想的なマスク行列は、音声信号におけるノイズエネルギー及び音声歪みエネルギーを制限するために確立された自己適応感知マスク行列であり、異なる音声周波数に対応するマスキング閾値を記録している。理想的なマスク行列は、音声信号の低次元の音声特徴と高次元の埋め込み特徴行列から予測できる。アトラクタは、各サンプル音声ストリームの埋め込み空間に存在する一般的な特徴を特徴づけることができる特徴ベクトルである。DANetネットワークに基づく音声分離強化モデルは、ターゲット音声トレーニングサンプルの埋め込み空間内のベクトルの加重平均値を計算し、ターゲット音声の「アトラクタ」として記憶する。従って、埋め込み空間で1つのアトラクタを計算すればよい。具体的に、コンピュータデバイスは、音声信号及び短時間フーリエ変換によって音声信号から抽出された音声スペクトルに基づいて、バッチサンプル音声ストリームに対応する理想的なマスク行列を予測する。理想的なマスク行列は、埋め込み特徴行列と同じ次元の埋め込み空間にある。コンピュータデバイスは、埋め込み特徴行列と理想的なマスク行列の積を計算し、この積結果に基づいて埋め込み空間のアトラクタを決定する。
【0040】
S406、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームのターゲットマスク行列を取得する。
具体的に、コンピュータデバイスは、音声特徴とアトラクタの類似性に基づいて、マスキング閾値を修正し、理想的なマスク行列を再構築して、ターゲットマスク行列を取得する。埋め込み特徴行列における各行列要素とアトラクタの間の類似性の測定方法は、具体的に、ユークリッド距離、マンハッタン距離、チェビシェフ距離、マハラノビス距離、コサイン距離又はハミング距離などを採用することができる。
【0041】
S408、ターゲットマスク行列に基づいてサンプル音声ストリームに対応する強化スペクトルを決定する。
なお、実際の音響シーンで収集される音声信号は、通常、ターゲット音声にノイズが混入された混合信号である。サンプル音声ストリームに対応する強化スペクトルは、音声信号におけるターゲット音声の強化スペクトルである。
具体的に、音声分離強化モデルの後にブリッジされたロバスト特徴付けモデルの計算量を減少するために、高次元の埋め込み特徴行列に対して次元削減処理を実行し、低次元の強化スペクトルに変換する。
【0042】
S410、サンプル音声ストリームに対応する推定スペクトルと強化スペクトルの間の平均二乗誤差損失に基づいて、第1のニューラルネットワークモデルをトレーニングし、音声分離強化モデルを取得する。
具体的に、コンピュータデバイスは、バッチサンプル音声ストリームの強化スペクトルとターゲット音声の強化スペクトルとの間の平均二乗誤差損失MSE(mean-square error)を計算し、当該平均二乗誤差損失MSEによって次の第1のニューラルネットワークモデルを事前トレーニングする。
【0043】
【0044】
その中で、Mは、トレーニングに使用される混合信号サンプル音声ストリームのバッチサイズであり、iは、トレーニングサンプル音声ストリームのインデックスを示し、
【数5】
は、ベクトルの2-ノルムを示し、S
Sは、第1のニューラルネットワークモデルによって直接に出力されたサンプル音声ストリームの推定スペクトルを示し、
【数6】
は、サンプル音声ストリームの強化スペクトルを示す。コンピュータデバイスは、第1の損失関数L
1=L
MSEによって生成された勾配を第1のニューラルネットワークモデルの各ネットワーク層にバックプロパゲーションし、ミニバッチ確率的勾配下降法によって第1のニューラルネットワークモデルのモデルパラメータΘ
extractを更新し、予め設定された収束条件に到達すると、トレーニングを停止し、音声分離強化モデルを取得する。
【0045】
本実施例では、理想的な比率マスクIRMは、効果的な音声分離強化方法であり、IRMに基づく理想的なマスク行列は、音声信号におけるノイズエネルギー及び音声歪みエネルギーを制限でき、音声信号に対応する高次元の埋め込み特徴行列及びその一般的な特性を表すアトラクタを結合して理想的なマスク行列を再構築し、再構築されたターゲットマスク行列に基づいてスペクトルを抽出することで、抽出された推定スペクトルは、サンプル音声ストリームの強化スペクトルにさらに近づけることができるため、スペクトル抽出の有効性が向上する。
【0046】
一実施例では、第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトル及び埋め込み特徴行列を抽出することは、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得することと、第1のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得することと、第1のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得することとを含む。
なお、実際の音響シーンで収集される音声信号は、通常、ノイズを混入した混合信号である。混合信号x(n)は、ターゲット音声信号sS(n)と干渉信号sI(n)との線形重ね合わせであるx(n)=sS(n)+sI(n)であると見なすことができ、その中で、nは、サンプル音声ストリームの数である。混合信号と参照ターゲット音声信号に対して短時間フーリエ変換(STFT)計算を行い、混合信号に対応する音声スペクトルと音声特徴を取得できる。音声特徴は、低次元の混合信号空間RTFにある特徴行列である。フーリエ変換によって抽出された音声特徴の特徴次元は、TxF次元である。ここで、Tは、フレーム数であり、Fは、メルフィルターバンクMFのメルフィルターバンドの数である。
【0047】
DENetは、BiLSTMネットワークによって音声特徴を混合信号空間RTFからより高次元の埋め込み空間RTF*Kにマッピングし、出力が次の埋め込み特徴行列に変更するようにする。
【0048】
【0049】
高次元マッピングに使用される埋め込みベクトルの次元Kは、必要に応じて自由に設定でき、例えば、40などに設定する。
【0050】
一実施例では、第1のニューラルネットワークモデルは、のぞき穴接続(peephole connection)された予め設定された数のBiLSTMモデルを1つの完完全接続層とカスケードしたものである。のぞき穴接続は、通常のカスケードとは異なるモデル接続方式であり、より多くのコンテキスト情報を取得できる。基本的な形態のBiLSTMユニットでは、順方向LSTMと逆方向LSTMのゲートの制御は、いずれも現在の入力x(t)と前の時点の短期的なステータスh(t-1)のみがある。異なるBiLSTMをのぞき穴接続することによって、前の時点の長期的なステータスc(t-1)を忘却ゲート及び入力ゲートによって制御される入力に追加し、現在時点の長期的なステータスを出力ゲートによって制御される入力に追加することができ、各制御ゲートに長期的なステータスを覗き、より多くのコンテキスト情報を取得できる。例えば、1つの具体的な実施例では、第1のニューラルネットワークモデルは、のぞき穴接続された4層のBiLSTMを採用でき、各層に600個の隠れノードがあり、最後のBiLSTM層の後に1つの完全接続層を接続する。完全接続層は、600次元の音声特徴ベクトルを高次元の埋め込み特徴行列にマッピングする。埋め込み特徴行列の次元Kが40であると仮定すると、600次元の音声特徴ベクトルを24000次元の埋め込み特徴ベクトルにマッピングできる。本実施例では、音声信号の低次元の音声特徴を高次元の埋め込み特徴行列にマッピングすることで、第1のニューラルネットワークモデルによる音声分離及び強化の効果を保証できる。
【0051】
一実施例では、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームのアトラクタを決定することは、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定するステップと、予め設定されたバイナリ閾値行列に基づいて理想的なマスク行列におけるノイズ要素をフィルタリングするステップと、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定するステップと、を含む。
なお、埋め込み空間のアトラクタの計算式は、次のとおりである。
【0052】
【0053】
その中で、a
S∈R
Kであり、
【数9】
は、行列要素の乗算を表し、
【数10】
は、理想的なマスク行列であり、w∈R
TFは、バイナリ閾値行列であり、バイナリ閾値行列の計算式は、次のとおりである。
【0054】
【0055】
バイナリ閾値行列wは、ノイズ干渉を減らすために、理想的なマスク行列でエネルギーが低すぎる行列要素を除外するために使用される。そして、アトラクタと埋め込み特徴行列における各行列要素との間の類似性を計算することによって、ターゲット音声のマスク行列を推定することができる。これは、ターゲットマスク行列と略称できる。
【0056】
【0057】
最後に、ターゲット音声の強化スペクトルは、次の計算方式によって抽出できる。
【0058】
【0059】
一実施例では、第1のニューラルネットワークモデルのトレーニングフェーズで計算されたアトラクタが記憶され、これらのアトラクタの平均値を計算し、当該平均値をテスト生産フェーズでグローバルアトラクタとして使用し、テスト用のターゲット音声ストリームの強化スペクトルを抽出する。
【0060】
本実施例では、理想的なマスク行列におけるノイズ要素をフィルタリングした後、アトラクタを計算することで、アトラクタの計算の正確性を向上させ、計算されたアトラクタが音声データの音声特徴をより適切に反映できるようになる。
【0061】
一実施例では、
図5に示すように、上記の音声認識方法は、中間モデルを構築するステップをさらに含む。具体的には、
S502、第2のニューラルネットワークモデルを取得する。
なお、第2のニューラルネットワークモデルは、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にブリッジされるモデルである。本出願が直面する音響環境は、非常に複雑であり、入力されたスペクトログラムがスペクトル推定誤差と時間的歪みを含む欠陥スペクトルである場合、フロントエンドからの音声認識誤差の影響を最小限に抑える必要がある。また、フレームレベルのスペクトログラム抽出と音素レベルの音声認識タスクの間のコンテキストの違いにより、フロントエンドとバックエンドの音声処理タスクの融合の時間的で動的な複雑さも増す。換言すれば、本出願は、第2のニューラルネットワークモデルに基づくブリッジトレーニングによって得られた共同モデルを提供し、より多くの複雑な音響環境に適応できる。ボトムアップ及びトップダウンからの時間的動的影響に適応する機能を持つために、本出願の実施例では、第2のニューラルネットワークモデルは、より複雑なRecurrentモデルアーキテクチャを使用する。典型的に、Recurrentモデルアーキテクチャは、入力スペクトログラムのコンテキストを使用して出力音響特徴空間におけるポイントを予測するモデル構造を含む。例えば、深層畳み込みニューラルネットワークCNN、又はBiLSTMなどである。ここで、BiLSTMモデルは、通常、汎用プログラム近似器と呼ばれ、その分布について明示的な仮定を行うことなく、完全なシーケンスの条件付き事後確率を効率的に推定することで中間特徴付けを学習できる。以下は、第2のニューラルネットワークモデルがBiLSTMモデル構造
【数14】
を採用することを例として説明する。
【0062】
一実施例では、第2のニューラルネットワークモデルは、予め設定された数のBiLSTMモデルをのぞき穴接続することで取得できる。例えば、1つの具体的な実施例では、第2のニューラルネットワークモデルは、のぞき穴接続された2層のBiLSTMを採用でき、各層に、600個の隠れノードがある。
【0063】
S504、第2のニューラルネットワークモデルに対して非負の制約処理を実行し、非負のニューラルネットワークモデルを取得する。
なお、非負の制約処理は、第2のニューラルネットワークモデルが非負であることを保証できる処理ステップである。メルフィルターに基づいてフロントエンドモデルとバックエンドモデルをブリッジする場合、メルフィルターによって出力されるフィルターバンクFbanksは、非負であるが、標準のBiLSTMの出力には非負の制限がない。専門家によって定義された音響特徴に適合させるために、本出願の実施例は、第2のニューラルネットワークモデルに対して非負の制約処理を実行する。
【0064】
一実施例では、第2のニューラルネットワークモデルに対して非負の制約処理を実行することは、第2のニューラルネットワークモデルに対して二乗演算を実行することを含み、第2のニューラルネットワークモデルは、双方向の長短期記憶ネットワークモデルを含む。
具体的に、コンピュータデバイスは、Fbanksの非負性にマッチングするように、第2のニューラルネットワークモデルの出力に1つの二乗処理を追加する。評価によって、二乗処理は、計算ロジックが短いだけでなく、線形整流関数(Rectified Linear Unit, ReLU)などの活性化関数と比較して、第2のニューラルネットワークモデルに対する非線形変換の効果は優れることが分かる。
【0065】
S506、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得し、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。
なお、聴覚適応とは、人間の耳の演算をシミュレートすることにより、音響特性を人間の聴覚習慣に適合させることを指す。微分モデルは、人間の耳の演算をシミュレートする演算式である。研究によると、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。例えば、振幅が1000と10の2つの音声信号について、人間の耳が知覚できる違いは、3と1などの違いだけである可能性がある。また、人間の耳は音声信号の変化に敏感である。
具体的に、コンピュータデバイスは、事前に構築された微分モデルを取得し、微分モデルを非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚マッチングする最適化処理ステップとして、非負のニューラルネットワークモデルの後にカスケードし、中間モデルを取得する。つまり、中間モデルは、非負のニューラルネットワークモデルと微分モデルを含む。このように、人間の耳の演算をシミュレートするロジックを、微分モデルの形で具体化することによって、トレーニングフェーズでは、第2のニューラルネットワークモデルは、人間の耳の演算をシミュレートするロジックを学習する必要がなく、第2のニューラルネットワークモデルの学習の複雑さが軽減され、中間モデルのトレーニング効率を向上させるのに役立つ。なお、別の実施例では、直接に第2のニューラルネットワークモデルを中間モデルとして、第2のニューラルネットワークモデルに対する非負の制約処理も、微分モデルのスプライスも必要としない。このとき、トレーニングフェーズでは、第2のニューラルネットワークモデルは、それ自体で人間の耳の演算ロジックを学習してシミュレートする必要がある。テストによって、専門家の経験に基づいて決定された非負の制約処理ロジック及び微分モデルと比較して、第2のニューラルネットワークモデルに基づく自己学習は、代わりに人間の耳の演算ロジックのより包括的なシミュレーションを学習し、より優れた聴覚マッチング効果を実現できる。テスト生産フェーズでトレーニングされた第2のニューラルネットワークモデル(即ち、ロバスト特徴付けモデル)は、より多くの複雑な音響環境に適応できる。本実施例では、第2のニューラルネットワークモデルに対して非負の制約処理を実行し、人間の耳の演算をシミュレートするための微分モデルをスプライスすることで、モデルによって出力される音響特性に実際の人間の聴覚習慣により適合し、ひいては全体の音声認識パフォーマンスを向上させるのに役立つ。
【0066】
一実施例では、上記の音声認識方法は、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得するステップをさらに含み、このステップは、音響特徴対応特徴ベクトルに対して対数演算を実行するための対数モデルを取得するステップと、音響特徴対応特徴ベクトルに対して差分演算を実行するための差分モデルを取得するステップと、対数モデルと差分モデルに基づいて微分モデルを構築するステップと、を含む。なお、対数モデルは、非負のニューラルネットワークモデルによって出力された音響特徴の特徴ベクトル要素に対して対数演算を実行する。対数モデルは、
【数15】
などの要素対数演算を実現できる任意のモデルであってもよい。ここで、xは、音響特徴ベクトル要素である。以上のように、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。対数モデルに基づいて音響特徴の特徴ベクトル要素に対して対数演算を実行することで、値の間の差異を弱め、音響特徴が異なるベクトル要素の間の差異を、人間の耳が実際に知覚できる信号の違いをよりよく反映させることができる。例えば、上記の例では、振幅が1000と10の2つの音声信号の場合、
【数16】
対数演算の後、ベクトル要素1000が3に変換され、ベクトル要素10が1に変換され、人間の耳が実際に知覚できる信号の違いをよく反映している。差分モデルは、非負のニューラルネットワークモデルによって出力された音響特徴の特徴ベクトル要素に対して差分演算を実行する。差分モデルは、一次差分演算や二次差分演算などの要素差分演算を実現できる任意のモデルである。以上のように、人間の耳は音声信号の変化に敏感である。差分モデルに基づいて音響特徴の特徴ベクトル要素に対して差分演算を実行することで、差分結果は、音響特徴の異なるベクトル要素間の変化を反映できる。
【0067】
具体的に、コンピュータデバイスは、対数モデルと差分モデルを2つの並列モデルとして微分モデルを構築することができ、対数モデルと差分モデルをカスケードして微分モデルを構築することもできる。対数モデルと差分モデルのカスケード順序は、対数モデルが差分モデルの後にカスケードされてもよいし、差分モデルが対数モデルの後にカスケードされてもよい。微分モデルは、聴覚適応のための他のモデルも含むことを理解することができ、これに対して制限しない。コンピュータデバイスは、音声認識モデルを事前トレーニングした後、音声認識モデルのモデルパラメータを固定し、クリーンな音声のスペクトルをトレーニングデータとして使用し続け、第2の損失関数L2を直接にバックプロパゲーションして認識することによって、中間モデルをトレーニングする。
【0068】
【0069】
ここで、Θ
adaptは、中間モデルのモデルパラメータであり、
【数18】
は、第2のニューラルネットワークモデルに対して非負の制約処理を実行し、微分モデルをスプライスすることによって得られた中間モデルであり、
【数19】
は、第2のニューラルネットワークモデル自身である。
【0070】
一実施例では、より速い収束とより優れた一般化を実現するために、コンピュータデバイスは、音響特徴のベクトル要素に対してグローバル平均分散正規化処理を実行してもよい。正規化処理に採用される方法は、具体的には、01正規化、Z-score正規化、又はsigmoid関数正規化などであってもよい。
【0071】
一実施例では、より良い音声平滑化効果を実現するために、コンピュータデバイスは、サンプルオーディオストリームのうち現在のオーディオフレームを中心とする2W+1フレームのコンテキストウィンドウにおける各オーディオフレームの音響特徴をスプライスしてもよい。その中で、Wは、片側コンテキストウィンドウのサイズを表し、具体的なサイズは、必要に応じて自由に設定でき、例えば、5に設定する。
【0072】
本実施例では、非負のニューラルネットワークモデルに対して対数演算を実行することによって、音声信号の音響特性の異なるベクトル要素間の違いが人間の耳が実際に知覚できる信号の違いをよりよく反映するようにする。非負のニューラルネットワークモデルに対して差分演算を実行することによって、音響的特徴の異なるベクトル要素間の変化を反映し、ひいては、人間の耳が音声信号の変化に対してより敏感である聴覚的特徴に適応する。
【0073】
一実施例では、
図6に示すように、上記の音声認識方法は、音声認識モデルを事前トレーニングするステップをさらに含む。具体的に、
S602、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得する。
なお、サンプル音声ストリームにおける各オーディオフレームは、対応するラベリングデータを有する。ラベリングデータは、オーディオフレームにおけるターゲット音声の出力ユーザー又は音声内容に応じて決定されたオーディオフレームに対応する音素カテゴリを含む。
【0074】
S604、第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。
なお、本実施例では、第3のニューラルネットワークモデルは、CLDNN(CONVOLUTIONAL、LONG SHORT-TERM MEMORY、FULLY CONNECTED DEEP NEURAL NETWORKS、CNN、LSTM及びDNNを融合したネットワーク)に基づいて実現した音響モデルであってもよい。さらに、CNN層とLSTM層の出力は、いずれもバッチ正規化できるため、収束が速くなり、一般化が向上する。
【0075】
具体的に、コンピュータデバイスは、第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。第3のニューラルネットワークモデルはSoftmax層を含む。コンピュータデバイスは、Softmax層に基づいて、ロバスト特徴ベクトル要素が各種の音素カテゴリに属する確率を決定できる。
【0076】
一実施例では、サンプルオーディオストリームのうち現在オーディオフレームを中心とする2W+1フレームのコンテキストウィンドウの各オーディオフレームの深度特徴をスプライスでき、スプライス結果を現在オーディオフレームの深度特徴とする。このように、コンテキスト情報を反映する深度特徴を取得できることは、第3のニューラルネットワークモデルの正確性を向上させるのに役立つ。
【0077】
S606、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定する。
【0078】
S608、深度特徴と中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定する。
なお、中心ベクトルは、ターゲットカテゴリにおける全ての深度特徴の中心を記述するために使用される。オーディオフレームのクラス間混同測度指数とは、サンプル音声ストリームがターゲットカテゴリに属する可能性を特徴づけるためのパラメータを指し、異なるターゲットカテゴリ間の区別性を反映できる。クラス間混同測度指数が小さいほど、クラス間の区別性が強くなることを表す。クラス間混同測度指数は、ユークリッド距離によって計算でき、角距離などの他の距離タイプのアルゴリズムを使用して計算することもできる。クラス内距離ペナルティ指数とは、サンプル音声ストリームのクラス内分布のコンパクトさを特徴づけるためのパラメータを指す。クラス内距離のペナルティによって、第3のニューラルネットワークモデルの分類パフォーマンスを強化でき、即ち、クラス内のコンパクトな分布によってクラス内の識別パフォーマンスを満たす。クラス内距離ペナルティ指数が小さいほど、クラス内分布のコンパクトさが強くなることを表し、ひいてはクラス内識別性能の向上が得られる。クラス内距離ペナルティ指数は、センターロス行の数によって実現されるが、これに限定されず、例えば、角度距離のContrastive損失関数、Triplet損失関数、Sphere face損失関数、及びCosFace損失関数などを採用して実現してもよい。
【0079】
具体的に、コンピュータデバイスがクラス間混同測度指数とクラス内距離ペナルティ指数を融合する方式は、予め設定された重み係数に従って、クラス間混同測度指数とクラス内距離ペナルティ指数に対して加重計算を実行する。
LCL=Lce+λCLLct
ここで、LCLは、融合損失であり、Lceは、クラス間混同測度指数であり、Lctは、クラス内距離ペナルティ指数であり、λCLは、重み係数である。
【0080】
S610、融合損失に基づいて、第3のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。
具体的に、コンピュータデバイスは、予め設定された深層学習最適化アルゴリズムに従って、ターゲット損失関数によって生成されるグローバル下降勾配を決定する。ターゲット損失関数によって生成されたグローバル下降勾配は、音声認識モデルからロバスト特徴付けモデル及び音声分離強化モデルのネットワーク各層に順次にバックプロパゲーションする。
【0081】
【0082】
EARシステムでは、DENetネットワークに基づく抽出器は、BiLSTMネットワークを介して高次元の埋め込み特徴行列Vを生成し、ターゲット音声に適したターゲットフロートマスク
【数21】
を予測し、
【数22】
を使用して、抽出器によって出力された推定スペクトルとターゲット音声の強化スペクトルの間の平均二乗誤差MSEを計算し、ターゲット音声に対するロバスト特徴を生成することができ、ロバスト特徴は、アダプタと認識器を介して音声ユニットを続けて予測することができる。抽出器のモデルパラメータが、ターゲット音声スペクトルを可能な限り正確に推定しつつ音声認識のエラー率を減らすために、本出願は、マルチタスク共同トレーニングの形でDENetネットワークのパラメータを更新し、マルチタスク共同損失関数(すなわち、ターゲット損失関数)は、音声分離タスクの第1の損失関数と音声認識の第2の損失関数の加重の組み合わせである。DENetネットワークのフォワードプロセスは、クロスエントロピー、センターロス重み、及びスペクトル平均二乗誤差を同時に計算できるため、バックプロパゲーションによってモデルパラメータにおける各損失関数の勾配を取得することができる。重み係数を追加した後、マルチタスクトレーニング中に音声分離タスクの「重要性」を調整することができる。本実施例では、センターロスに基づいて深度特徴空間の各カテゴリの中心点を学習及び更新でき、深度特徴及びそれに対応するターゲットカテゴリの中心点の間のクラス内距離にペナルティを課すことにより、目に見えない音響環境での音声認識のエラー率を大幅に低減し、ノイズの変動に対する音声認識の一般化能力を効果的に向上させることができ、ひいてはクリーンな音声、トレーニングで目に見える音響環境、及び見えない音響環境の条件下で、低いエラー率を得ることができるため、サンプル音声ストリームの標準は、新しい音響環境でより優れたロバスト性を備え、新しい音響環境でも、新しいアクセントとバックグラウンドノイズによる様々なユーザーに遭遇しても、安定して確実に音声認識を完了することができる。
【0083】
一実施例では、深度特徴と中心ベクトルに基づいて、各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の融合損失を決定することは、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算するステップと、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算するステップと、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、融合損失を取得するステップと、を含む。
【0084】
ここで、クロスエントロピー関数は、深度特徴のクラス間区別性を保証するために使用される。クロスエントロピー関数の計算式は、次の通りである。
【0085】
【0086】
その中で、L
ceは、クラス間混同測度指数であり、Mは、トレーニングに使用されるサンプル音声ストリームのバッチサイズであり、Tは、サンプル音声ストリームにおけるオーディオフレームのフレーム数である。
【数24】
は、第3のニューラルネットワークモデルの出力層でsoftmax動作を実行した後のi番目のノードの出力であり、第3のニューラルネットワークモデルにK個の出力カテゴリを表すK個の出力ノードがある。
【0087】
【0088】
その中で、a
tは、第tのオーディオフレームの時点での第3のニューラルネットワークモデルのsoftmax層の前の層の出力であり、
【数26】
は、第tのオーディオフレームの時点でのsoftmax層の前の層のj番目のノードの出力であり、Wは、softmax層の重み行列であり、Bは、softmax層のバイアスベクトルである。
【0089】
中心損失関数の計算式は、次の通りである。
【0090】
【0091】
その中で、L
ctは、クラス内距離ペナルティ指数であり、
【数28】
は、第tフレームのオーディオフレームの深度特徴であり、即ち、第tのオーディオフレームの時点での第3のニューラルネットワークモデルの最後から2番目の層の出力であり、
【数29】
は、第Ktクラスの深度特徴の中心ベクトルを示し、iは、サンプル音声ストリームのインデックスである。実行されるセンターロス計算の手順では、目標は、中心ベクトルに対するオーディオフレームの深度特徴の距離をできるだけ小さくすることであり、つまり、クラス内の距離u
t-c
Ktが小さいほどよい。
【0092】
具体的に、コンピュータデバイスは、クロスエントロピー損失関数と中心損失関数を融合して、音声認識モデルに対応する第2の損失関数を取得する。一実施例では、クロスエントロピー損失関数と中心損失関数を融合する方式は、予め設定された重み係数に従って、クロスエントロピー損失関数と中心損失関数に対して加重計算を実行することであってもよい。
LCL=Lce+λCLLct
その中で、LCLは、第2の損失関数であり、λCLは、第2の損失関数における中心損失関数の重みを制御するハイパーパラメーターである。それに対応して、クラス間混同測度指数とクラス内距離ペナルティ指数を融合する方式は、予め設定された重み係数λCLに従って、クラス間混同測度指数とクラス内距離ペナルティ指数に対して加重計算を実行することである。
【0093】
本実施例では、中心損失関数を採用することによって、深度特徴空間における各カテゴリの中心点を学習及び更新することができ、深度特徴と対応するクラスの中心点の間の距離にペナルティを課すことにより、深度特徴の区別能力を向上させる。
【0094】
1つの具体的な実施例では、
図7に示すように、当該音声認識方法は、具体的に、以下のステップを含む。
S702、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得する。
S704、第1のニューラルネットワークモデルに基づいて、音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得する。
S706、第1のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得する。
S708、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定する。
S710、予め設定されたバイナリ閾値行列に基づいて、理想的なマスク行列におけるノイズ要素をフィルタリングする。
S712、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。
S714、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームのターゲットマスク行列を取得する。
S716、ターゲットマスク行列に基づいてサンプル音声ストリームに対応する強化スペクトルを決定する。
S718、第1の損失関数に基づいてサンプル音声ストリームに対応する推定スペクトルと強化スペクトルとの間の平均二乗誤差損失を計算する。
S720、平均二乗誤差損失に基づいて、第1のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得する。
S722、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得する。
S724、第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出する。
S726、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定する。
S728、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算する。
S730、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算する。
S732、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、第2の損失関数に基づく融合損失を取得する。
S734、融合損失に基づいて、第3のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。
S736、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得する。
S738、第2のニューラルネットワークモデルを取得する。
S740、第2のニューラルネットワークモデルに対して非負の制約処理を実行し、非負のニューラルネットワークモデルを取得する。
S742、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得する。
S744、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。
S746、第2の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。
S748、第1の損失関数と第2の損失関数を融合して、ターゲット損失関数を取得する。
S750、ターゲット損失関数によって生成されるグローバル下降勾配を決定する。
S752、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新する。
【0095】
ロバスト特徴付けモジュール
【数30】
を介してフロントエンドの音声分離強化モデルとバックエンドの音声認識モデルを接続することにより、EARシステム全体がエンドツーエンドのバックプロパゲーションを実現できるネットワークになり、そして、モジュラーアーキテクチャにより、EARシステム全体のネットワークは、「カリキュラム」というトレーニング方法(Curriculum learning)を採用でき、即ち、バックエンドの音声認識モデルの損失関数に基づいてバックプロパゲーションを実行して、ロバスト特徴付けモデルを個別にトレーニングし、その後、エンドツーエンドでEARシステム全体のネットワークを共同でトレーニングする。事前にトレーニングされた音声分離強化モデルと音声認識モデルに基づいてトレーニングできるため、「カリキュラム」というトレーニング方法を採用することで、収束をすばやく達成することができる。
【0096】
上記の音声認識方法、強力なネットワーク構成、及び「カリキュラム」トレーニング方式により、本出願によって提供される音声認識方法に基づいてトレーニングされた共同モデルは、学習能力が非常に強く、ロバストで効果的な音声強化及び音声分離表現を抽出することにより、自動音声認識のパフォーマンスを向上させ、任意の困難で複雑な干渉音響環境に適応できる。
【0097】
図8に示すように、一実施例では、音声認識方法を提供する。この実施例は、主に、当該方法をコンピュータデバイスに適用することを例として説明し、当該コンピュータデバイスは、具体的に、上図の端末110又はサーバー120であってもよい。端末110とサーバー120は、いずれも独立して本出願の実施例によって提供される音声認識方法を実行することができる。端末110とサーバー120は、協働して本出願の実施例によって提供される音声認識方法を実行することができる。
図8を参照して、当該音声認識方法は、具体的に、次のステップを含む。
S802、ターゲット音声ストリームを取得する。
【0098】
なお、ターゲット音声ストリームは、任意の実際の音響環境で収集されたオーディオデータストリームであってもよい。ターゲット音声ストリームは、事前に収集してコンピュータデバイスに記憶してもよく、コンピュータデバイスによって動的に収集してもよい。例えば、ターゲット音声ストリームは、ゲームアプリケーションに基づいて収集された、ゲーム音声通話中にユーザーによって生成されたオーディオデータストリームであってもよい。このとき、ターゲット音声ストリームは、ゲームのバックグラウンドミュージック及び遠端のボーカルを含むエコー干渉である可能性がある。具体的に、コンピュータデバイスは、ターゲット音声ストリームを取得し、予め設定されたサンプリング周波数に従って、ターゲット音声ストリームからオーディオフレームを収集する。各オーディオフレームのフレーム長と隣接するオーディオフレームの間のフレームシフトは、いずれも必要に応じて自由に設定できる。1つの具体的な実施例では、コンピュータデバイスは、16kHzのサンプリング周波数、25msのフレーム長、及び10msのフレームシフトに基づいてオーディオフレームを収集する。
【0099】
S804、音声分離強化モデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出する。
なお、音声分離強化モデルは、ニューラルネットワークモデルである。具体的に、理想的な比率マスク(Ideal Ratio Mask,IRM)の深度アトラクタネットワーク(Deep Attractor Net,DANet)、及び深度抽出ネットワーク(Deep Extractor Net,DENet)に基づいて簡略化されたモデルである。1つの具体的な実施例では、音声分離強化モデルは、のぞき穴接続された4層BiLSTMを採用でき、各層に600個の隠れノードがあり、最後のBiLSTM層の後に1つの完全接続層を接続する。具体的に、コンピュータデバイスは、バッチで複数のターゲット音声ストリームに対して短時間フーリエ変換を実行し、各ターゲット音声ストリームにおける音声特徴と音声スペクトルを取得することができる。コンピュータデバイスは、音声分離強化モデルに基づいて、バッチターゲット音声ストリームの音声特徴をより高次元の埋め込み空間にマッピングし、埋め込み空間で音声スペクトルに対して音声の分離と強化を実行し、埋め込み特徴行列を取得する。コンピュータデバイスは、事前に記憶されたグローバルアトラクタを取得する。音声分離強化モデルトのレーニングフェーズでは、コンピュータデバイスは、各回のバッチサンプル音声ストリームに基づいて計算されたアトラクタを記憶し、これらのアトラクタの平均値を計算し、当該平均値をテスト生産フェーズのグローバルアトラクタとして使用する。コンピュータデバイスは、グローバルアトラクタとターゲット音声ストリームに対応する埋め込み特徴行列における各行列要素との間の類似性を計算することによって、ターゲット音声ストリームのターゲットマスク行列を取得する。ターゲットマスク行列と埋め込み特徴行列に基づいて、ターゲット音声ストリームの強化スペクトルを抽出することができる。
【0100】
S806、ロバスト特徴付けモデルに基づいて強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得する。
なお、ロバスト特徴付けモデルは、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にブリッジされたニューラルネットワークモデルである。具体的には、Recurrentモデルアーキテクチャに基づくCNN、BiLSTMなどであってもよく、ボトムアップ及びトップダウンからの時間的動的影響に適応する機能を持つ。1つの具体的な実施例では、ロバスト特徴付けモデルは、各層に600個の隠れノードを有するのぞき穴接続された2層のBiLSTMである。ロバスト特徴は、フロントエンドの音声分離強化モデルによって出力された強化スペクトルを変換して、中間遷移特徴を取得するために使用され、当該中間遷移特徴をバックエンドの音声認識モデルの入力とする。
【0101】
具体的に、コンピュータデバイスは、ロバスト特徴付けモデルに基づいて、スペクトルの音響特徴を強化する。人間の聴覚習慣に合わせるために、ロバスト特徴付けモデルは、強化スペクトルの音響特徴に対して聴覚マッチングを実行する。コンピュータデバイスは、ロバスト特徴付けモデルに基づいて、音響特徴に対して非負の制約処理を実行し、非負の制限処理が実行された音響特徴に対して、対数や差分を求めるなどの微分演算を実行し、ロバスト特徴を取得する。例えば、スペクトル振幅の差が非常に大きい高振幅の音声信号と低振幅の音声信号について、人間の耳が知覚できる差は、振幅の差ほど明らかではない可能性がある。対数モデルに基づいて音響特徴の特徴ベクトル要素に対して対数演算を実行することで、値の間の差異を弱め、音響特徴が異なるベクトル要素の間の差異を、人間の耳が実際に知覚できる信号の違いをよりよく反映させることができる。人間の耳は音声信号の変化に比較的に敏感である。差分モデルに基づいて音響特徴の特徴ベクトル要素に対して差分演算を実行することで、差分結果は、音響特徴の異なるベクトル要素間の変化を反映できる。
【0102】
S808、音声認識モデルに基づいてロバスト特徴を認識して、各オーディオフレームに対応する音素を取得し、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。
なお、音声認識モデル、及び上記に言及された音声分離強化モデル、ロバスト特徴付けモデルは、予め共同トレーニングによって取得される。フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルは、事前にトレーニングされたものであってもよい。コンピュータデバイスは、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得し、第2の損失関数に基づいて損失値を計算することで、損失値に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。コンピュータデバイスは、さらに、第1の損失関数と第2の損失関数を融合し、融合して得られたターゲット損失関数に基づいて音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。具体的に、コンピュータデバイスは、ロバスト特徴を音声認識モデルに入力し、ターゲット音声ストリームに対応する音素を取得する。本出願の実施例では、音声認識モデルは、約20,000の音素カテゴリを認識できる。音声認識モデルは、入力されたバッチターゲット音声ストリームのロバスト特徴を処理して、1つの約20,000次元の音素ベクトルを出力する。ロバスト特徴ベクトル要素と音素ベクトル要素の間に対応関係がある。音素ベクトルは、ロバスト特徴ベクトル要素が各音素カテゴリに属する確率を記録している。このように、各ロバスト特徴ベクトル要素に対応する最大確率音素カテゴリに対応する音素文字列を決定することができ、それにより、音素レベルからターゲット音声ストリームに対して音声認識を実行することを実現できる。
【0103】
上記の音声認識方法は、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にロバスト特徴付けモデルを導入する新しいエンドツーエンドネットワークアーキテクチャを提案する。このアーキテクチャは、適切な中間遷移特徴付け学習技術を導入することにより、人間指向の音声分離タスクと機械指向の音声認識タスクの間のギャップをよく埋め、エンドツーエンドのネットワークモデルを共同でトレーニングし、ネットワークアーキテクチャにおける個々のモデルは、複雑な音響環境の音声信号からの干渉特徴を包括的に学習できることで、グローバルな音声処理タスクのパフォーマンスを保証でき、音声認識の正確性を向上させる。また、ネットワークアーキテクチャにおける各モデルは、柔軟で独立した選択をサポートしているため、各モデルだけで、単一のモデルを妥協することなく最適な配置を実現できるため、ローカルの各音声処理タスクのパフォーマンスを同時に両立でき、音声の客観的な了解度を向上させる。
【0104】
一実施例では、音声分離強化モデルは、第1のニューラルネットワークモデルを含み、音声分離強化モデルに基づいてターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出することは、第1のニューラルネットワークモデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出するステップと、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定するステップと、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、ターゲット音声ストリームのターゲットマスク行列を取得するステップと、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定するステップと、を含む。音声分離強化モデルは、第1のニューラルネットワークモデルに基づいてトレーニングされる。音声分離強化モデルに基づいてターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出する手順は、上記のステップS402-S410の説明を参照することができる。ここで、繰り返して説明しない。
【0105】
一実施例では、ロバスト特徴付けモデルは、第2のニューラルネットワークモデルと微分モデルを含み、ロバスト特徴付けモデルに基づいて強化スペクトルに対して聴覚マッチングを実行してロバスト特徴を取得することは、第2のニューラルネットワークモデルに基づいて強化スペクトルから音響の特徴を抽出するステップと、音響特徴に対して非負の制約処理を実行して非負の音響特徴を取得するステップと、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得するステップと、を含む。中間モデルは、第2のニューラルネットワークモデルと微分モデルをつなぎ合わせることによって取得でき、中間モデルをトレーニングすることによって、ロバスト特徴付けモデルを取得する。ロバスト特徴付けモデルに基づいてロバスト特徴を抽出することは、上記のステップS502-S506の説明を参照することができる。ここで、繰り返して説明しない。
【0106】
一実施例では、「バックグラウンドミュージックによる干渉」と「他の話者による干渉」という2つの音響環境からの音声について、5種類の異なるSNR信号対ノイズ比条件(0dB、5dB、10dB、15dB及び20dB)で、異なる音声認識方法に基づく単語誤り率(WER)をテストして比較する。テスト結果について、
図9aを参照できる。本出願で提案されたEARシステムに基づいて音声認識を実行すると、シングルタスクλ
SS=0状態でも、マルチタスクλ
SS≠0(例えば、λ
SS=0.1)の状態でも、その単語誤り率は、クリーンな音声や乱れた音声トレーニングに基づく音声認識モデルASR、音声分離強化モデルSS、及び音声認識モデルASRのカスケードシステムなどの、他の音声認識システムよりも一貫して優れている。
【0107】
図9bを参照すると、
図9bは、一実施例における単一チャネルマルチ話者音声認識タスクにおける異なるSNR信号対ノイズ比条件下での異なる音声認識システムのパフォーマンス比較の概略図を示す。
図9に示すように、異なるマルチタスクトレーニングの重みの下で、本出願で提案されるEARシステムは、音声分離強化モデルを直接に音声認識モデルの前処理ステップとしてカスケードする方式と比べて、短期的な客観的了解度STOIも単語誤り率WER(%)も優れている。即ち、EARシステムは、機械指向の音声明瞭な度(WER)を大幅に向上しながら、人間の聴覚を反映した音声了解度(STOI)を維持することができ、DENetを専用SSモデルとするパフォーマンスと同等又はそれ以上のパフォーマンスを実現できる。
【0108】
本出願の実施例は、人間指向の音声処理タスクと機械指向の音声処理タスクの間のギャップを埋めるために、適切な中間遷移特徴付け学習を導入することの重要性を初めて明らかにし、フロントエンドの音声分離ローカルタスク及びバックエンドの音声認識ローカルタスクの最適なパフォーマンス(人間の主観的な聴覚了解度)及びグローバルタスクの最適なパフォーマンス(機器の認識正確率指標のパフォーマンス)を同時に保証できる。例えば、ゲームでのリアルタイム音声の適用シーンでは、チームの音声通話中に、近端で話す人間の声もあり、ゲーム中に携帯電話で再生される背景音もある。本文で提案されるEARシステムは、ロバスト特徴付けモデルに基づいてノイズ制約をよりよく実行し、ユーザーのゲーム音声通話中のゲーム背景音と遠端の人間の声によるエコー干渉を解決することができる。背景音エコー除去により、ユーザー間の音声通話の品質が保証される。大幅なパフォーマンスの向上に加えて、本出願で提案されるEARシステムフレームワークは高い柔軟性を備え、即ち、いずれかの先進な音声分離強化モデルと音声認識モデルを柔軟に統合してEARシステムフレームワークにおける対応するモジュールに置き換えることを許可し、そして、提案されるエンドツーエンドのトレーニング可能なフレームワークは、いずれかの単一のモジュールのパフォーマンスを犠牲することを代価としない。
【0109】
1つの具体的な実施例では、
図10に示すように、当該音声認識方法は、具体的に、次のステップを含む。
S1002、ターゲット音声ストリームを取得する。
S1004、音声分離強化モデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出する。
S1006、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定する。
S1008、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、ターゲット音声ストリームのターゲットマスク行列を取得する。
S1010、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定する。
S1012、ロバスト特徴付けモデルを取得し、ロバスト特徴付けモデルは第2のニューラルネットワークモデルと微分モデルを含む。
S1014、第2のニューラルネットワークモデルに基づいて、強化スペクトルから音響特徴を抽出する。
S1016、音響特徴に対して非負の制約処理を実行して非負の音響特徴を取得する。
S1018、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得する。
S1020、音声認識モデルに基づいてロバスト特徴を認識し、各オーディオフレームに対応する音素を取得する。音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。
【0110】
上記の音声認識方法は、フロントエンドの音声分離強化モデルとバックエンドの音声認識モデルの間にロバスト特徴付けモデルを導入する新しいエンドツーエンドネットワークアーキテクチャを提案する。このアーキテクチャは、適切な中間遷移特徴付け学習を導入する技術により、人間指向の音声分離タスクと機械指向の音声認識タスクの間のギャップをよく埋め、エンドツーエンドのネットワークモデルを共同でトレーニングすることによって、ネットワークアーキテクチャにおける個々のモデルが複雑な音響環境の音声信号からの干渉特徴を包括的に学習できるため、グローバルな音声処理タスクのパフォーマンスを保証でき、音声認識の正確性を向上させる。また、ネットワークアーキテクチャにおける各モデルは柔軟で独立した選択をサポートしているため、各モデルだけで、単一のモデルを妥協することなく最適な配置を実現できるため、ローカルの各音声処理タスクのパフォーマンスを同時に両立でき、音声の客観的な了解度を向上させる。
【0111】
上記のフローチャートにおける各ステップは、矢印に基づいて順番に表示されるが、これらのステップは、必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書に明示的に記載されていない限り、これらのステップの実行は、厳密には順序に限定されず、これらのステップは、他の順序で実行されてもよい。そして、上記のフローチャートのステップの少なくとも一部は、複数のサブステップ又は複数のフェーズを含み、これらのサブステップ又はフェーズは必ずしも同時に実行されるとは限らず、異なる時点に実行される。これらのサブステップ又はフェーズの実行順序は、必ずしも順番に実行せず、他のステップ又は他のステップのサブステップ又はフェーズの少なくとも一部と輪番又は交互に実行してもよい。
【0112】
図11に示すように、一実施例では、音声認識装置1100を提供し、中間特徴付け学習モジュール1102、損失融合モジュール1104、及び共同トレーニングモジュール1106を含む。
【0113】
中間特徴付け学習モジュール1102は、音声分離強化モデルの第1の損失関数と音声認識モデルの第2の損失関数を取得し、第2の損失関数に基づいてバックプロパゲーションを実行して、音声分離強化モデルと音声認識モデルとの間にブリッジされた中間モデルをトレーニングし、ロバスト特徴付けモデルを取得する。
損失融合モジュール1104は、第1の損失関数と第2の損失関数を融合して、ターゲット損失関数を取得する。
共同トレーニングモジュール1106は、ターゲット損失関数に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルを共同でトレーニングし、予め設定された収束条件を満たすと、トレーニングを終了する。
【0114】
一実施例では、
図12に示すように、上記の音声認識装置1100は、音声分離強化モデル事前トレーニングモジュール1108をさらに含み、当該音声分離強化モデル事前トレーニングモジュール1108は、第1のニューラルネットワークモデルに基づいて、サンプル音声ストリームの推定スペクトルと埋め込み特徴行列を抽出し、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定し、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することにより、サンプル音声ストリームにおけるターゲットマスク行列を取得し、ターゲットマスク行列に基づいて、サンプル音声ストリームに対応する強化スペクトルを決定し、サンプル音声ストリームに対応する推定スペクトルと強化スペクトルの間の平均二乗誤差損失に基づいて、第1のニューラルネットワークモデルをトレーニングして、音声分離強化モデルを取得する。
【0115】
一実施例では、音声分離強化モデル事前トレーニングモジュール1108はさらに、サンプル音声ストリームに対してフーリエ変換を実行し、各オーディオフレームの音声スペクトルと音声特徴を取得し、第1のニューラルネットワークモデルに基づいて音声スペクトルに対して音声の分離と強化を実行し、推定スペクトルを取得し、第1のニューラルネットワークモデルに基づいて、音声特徴を埋め込み空間にマッピングし、埋め込み特徴行列を取得する。
【0116】
一実施例では、音声分離強化モデル事前トレーニングモジュール1108はさらに、音声スペクトルと音声特徴に基づいて理想的なマスク行列を決定し、予め設定されたバイナリ閾値行列に基づいて理想的なマスク行列におけるノイズ要素をフィルタリングし、埋め込み特徴行列及びノイズ要素がフィルタリングされた理想的なマスク行列に基づいて、サンプル音声ストリームに対応するアトラクタを決定する。
【0117】
一実施例では、
図12に示すように、上記の音声認識装置1100は、中間モデル構築モジュール1110をさらに含み、当該中間モデル構築モジュール1110は、第2のニューラルネットワークモデルを取得し、第2のニューラルネットワークモデルに対して非負の制約処理を実行して、非負のニューラルネットワークモデルを取得し、非負のニューラルネットワークモデルによって出力された音響特徴に対して聴覚適応を実行するための微分モデルを取得し、微分モデルと非負のニューラルネットワークモデルをカスケードして、中間モデルを取得する。
【0118】
一実施例では、中間モデル構築モジュール1110はさらに、音響特徴対応特徴ベクトルに対して対数演算を実行するための対数モデルを取得し、音響特徴対応特徴ベクトルに対して差分演算を実行するための差分モデルを取得し、対数モデルと差分モデルに基づいて微分モデルを構築する。
【0119】
一実施例では、
図12に示すように、上記の音声認識装置1100は、音声認識モデル事前トレーニングモジュール1112をさらに含み、当該音声認識モデル事前トレーニングモジュール1112は、サンプル音声ストリーム及び対応するラベル付けされた音素カテゴリを取得し、第3のニューラルネットワークモデルによって、サンプル音声ストリームにおける各オーディオフレームの深度特徴を抽出し、全ての音素カテゴリのオーディオフレームに対応する深度特徴に基づいて、サンプル音声ストリームの中心ベクトルを決定し、深度特徴と中心ベクトルに基づいて各オーディオフレームのクラス間混同測度指数とクラス内距離ペナルティ指数の間の融合損失を決定し、融合損失に基づいて、第3のニューラルネットワークモデルをトレーニングして、音声認識モデルを取得する。
【0120】
一実施例では、音声認識モデル事前トレーニングモジュール1112はさらに、深度特徴をクロスエントロピー関数に入力し、各オーディオフレームのクラス間混同測度指数を計算し、深度特徴と中心ベクトルを中心損失関数に入力し、各オーディオフレームのクラス内距離ペナルティ指数を計算し、クラス間混同測度指数とクラス内距離ペナルティ指数を融合演算して、融合損失を取得する。
【0121】
一実施例では、共同トレーニングモジュール1106は、ターゲット損失関数によって生成されるグローバル下降勾配を決定し、グローバル下降勾配に基づいて、音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルのそれぞれに対応するモデルパラメータを、ターゲット損失関数の最小化損失値が得られるまで繰り返し更新する。
【0122】
図13に示すように、一実施例では、音声認識装置1300を提供し、音声分離強化モジュール1302、中間特徴付け遷移モジュール1304、及び音声認識モジュール1306を含む。音声分離強化モジュール1302は、ターゲット音声ストリームを取得し、音声分離強化モデルに基づいてターゲット音声ストリームにおける各オーディオフレームの強化スペクトルを抽出する。中間特徴付け遷移モジュール1304は、ロバスト特徴付けモデルに基づいて強化スペクトルに対して聴覚マッチングを実行して、ロバスト特徴を取得する。音声認識モジュール1306は、音声認識モデルに基づいてロバスト特徴を認識して、各オーディオフレームに対応する音素を取得する。音声分離強化モデル、ロバスト特徴付けモデル、及び音声認識モデルは、共同トレーニングによって取得される。
【0123】
一実施例では、音声分離強化モデルは、第1のニューラルネットワークモデルを含み、音声分離強化モジュール1302はさらに、第1のニューラルネットワークモデルに基づいて、ターゲット音声ストリームにおける各オーディオフレームの埋め込み特徴行列を抽出し、埋め込み特徴行列と予め設定された理想的なマスク行列に基づいて、ターゲット音声ストリームに対応するアトラクタを決定し、埋め込み特徴行列における各行列要素とアトラクタとの類似性を計算することによって、ターゲット音声ストリームのターゲットマスク行列を取得し、ターゲットマスク行列に基づいて、ターゲット音声ストリームにおける各オーディオフレームに対応する強化スペクトルを決定する。
【0124】
一実施例では、ロバスト特徴付けモデルは、第2のニューラルネットワークモデルと微分モデルを含み、音声認識モジュール1306はさらに、第2のニューラルネットワークモデルに基づいて、強化スペクトルから音響の特徴を抽出し、音響特徴に対して非負の制約処理を実行して、非負の音響特徴を取得し、微分モデルによって非負の音響特徴に対して微分演算を実行し、人間の耳の聴覚習慣にマッチングするロバスト特徴を取得する。
【0125】
図14は、一実施例におけるコンピュータデバイスの内部構成図を示している。当該コンピュータデバイスは、具体的に、
図1における端末110又はサーバー120である。
図14に示すように、当該コンピュータデバイスは、システムバスで接続されるプロセッサー、メモリ、及びネットワークインターフェースを含む。メモリは、不揮発性記憶媒体と内蔵メモリを含む。当該コンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステムを記憶し、コンピュータ可読命令を記憶してもよい。当該コンピュータ可読命令がプロセッサーによって実行される場合、プロセッサーに音声認識方法を実現させる。当該内蔵メモリにも、コンピュータ可読命令を記憶してもよい。当該コンピュータ可読命令がプロセッサーによって実行される場合、プロセッサーに音声認識方法を実行させる。当業者は、
図14に示す構造が、本出願の解決策に関連する構造の一部のブロック図であり、本出願の解決策が適用されるコンピュータ機器を制限するものではなく、具体的なコンピュータデバイスは、図に示されているものよりも多い又は少ない構成要素を含むか、又はある構成要素を組み合わせるか、又は異なる配置を有することを理解することができる。
【0126】
一実施例では、本出願によって提供される音声認識装置は、コンピュータ可読命令の形で実現でき、コンピュータ可読命令は、
図14に示すコンピュータデバイスで実行される。コンピュータデバイスのメモリに、当該音声認識装置を構成する各プログラムモジュール、例えば、
図13に示す音声分離強化モジュール、中間特徴付け遷移モジュール、及び音声認識モジュールを記憶することができる。各プログラムモジュールによって構成されるコンピュータ可読命令は、プロセッサーに本明細書で説明する本出願の各実施例の音声認識方法におけるステップを実行させる。
【0127】
一実施例では、メモリとプロセッサーを含むコンピュータデバイスを提供し、メモリはコンピュータ可読命令を記憶しており、コンピュータ可読命令がプロセッサーによって実行されるとき、プロセッサーに上記の音声認識方法のステップを実行させる。ここで、音声認識方法のステップは、上記の様々な実施例の音声認識方法におけるステップであってもよい。
【0128】
一実施例では、コンピュータ可読命令が記憶されたコンピュータ可読記憶媒体を提供し、コンピュータ可読命令がプロセッサーによって実行されるとき、プロセッサーに上記の音声認識方法のステップを実行させる。ここで、音声認識方法のステップは、上記の様々な実施例の音声認識方法におけるステップであってもよい。
【0129】
一実施例では、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、当該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータデバイスのプロセッサーは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサーは、当該コンピュータ命令を実行することで、当該コンピュータデバイスに上記の各方法実施例におけるステップを実行させる。
【0130】
当業者は、上記の実施例の方法における流れの全部又は一部が、コンピュータ可読命令を介して関連するハードウェアを命令することによって完成され得ることを理解することができる。プログラムは、不揮発性のコンピュータ可読記憶媒体に記憶できる。当該プログラムが実行されるとき、上記の各方法の実施例の流れを含み得る。さらに、本出願によって提供される様々な実施例で使用されるメモリ、記憶、データベース、又は他の媒体への任意の引用は、いずれも不揮発性及び/又は揮発性メモリを含んでもよい。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラマブルROM(EPROM)、電気的に消去可能プログラマブルROM(EEPROM)、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)、又は外部キャッシュメモリを含んでもよい。説明として、限定ではなく、RAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)などの様々な形式で利用できる。
【0131】
上記の実施例の各技術的特徴は、任意に組み合わせることができる。簡潔にするために、上記の実施例における各技術的特徴の全ての可能な組み合わせを説明しない。しかしながら、これらの技術的特徴の組み合わせに矛盾がない限り、全部は本明細書に記載の範囲と見なす。以上の実施例は、本出願のいくつかの実施形態に過ぎず、その説明は、比較的具体的かつ詳細であるが、本出願の特許の範囲に対する制限として理解されるべきではない。なお、当業者にとって、本出願の概念から逸脱することなく、いくつかの修正及び改善を行うことができ、それらは全て本出願の保護範囲に属する。従って、本出願の特許の保護範囲は、添付のクレームに従う。
【符号の説明】
【0132】
110 端末
120 サーバー
1100 音声認識モデルトレーニング装置
1102 中間特徴付け学習モジュール
1104 損失融合モジュール
1106 共同トレーニングモジュール
1108 音声分離強化モデル事前トレーニングモジュール
1110 中間モデル構築モジュール
1112 音声認識モデル事前トレーニングモジュール
1300 音声認識装置
1302 音声分離強化モジュール
1304 中間特徴付け遷移モジュール
1306 音声認識モジュール