(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024167341
(43)【公開日】2024-12-03
(54)【発明の名称】音声認識方法、深層学習モデルのトレーニング方法、装置及び機器
(51)【国際特許分類】
G10L 15/32 20130101AFI20241126BHJP
G10L 15/16 20060101ALI20241126BHJP
【FI】
G10L15/32 200C
G10L15/16
【審査請求】有
【請求項の数】35
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024148016
(22)【出願日】2024-08-29
(31)【優先権主張番号】202311104070.7
(32)【優先日】2023-08-29
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.UNIX
2.Linux
3.WINDOWS PHONE
4.ANDROID
5.ブルートゥース
6.JAVA
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】フー シャオイン
(72)【発明者】
【氏名】ザン チグアン
(72)【発明者】
【氏名】シェン フェンフェン
(72)【発明者】
【氏名】ワン ハイフェン
(72)【発明者】
【氏名】ジア レイ
(57)【要約】 (修正有)
【課題】迅速で正確に応答する音声認識方法及び深層学習モデルのトレーニング方法並びにそれらの装置、電子機器、記憶媒体及びプログラムを提供する。
【解決手段】方法は、複数の音声セグメントに対応する複数の音声セグメント特徴を含む認識すべき音声の第1の音声特徴を取得することと、第1のデコーダを利用して第1の音声特徴を復号し、対応するワードの第1の認識結果を示す複数のワードに対応する複数の第1の復号結果を取得することと、第1の先験情報に基づいて、複数の第1の復号結果を含む第1の音声特徴の中から、複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含む第2の音声特徴を抽出取得することと、第2のデコーダを利用して、第2の音声特徴を復号し、対応するワードの第2の認識結果を示す複数のワードに対応する複数の第2の復号結果を取得することと、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音声認識方法であって、この方法は、
認識すべき音声の第1の音声特徴を取得することであって、前記第1の音声特徴は、前記認識すべき音声中の複数の音声セグメントに対応する複数の音声セグメント特徴を含むことと、
第1のデコーダを利用して前記第1の音声特徴を復号し、前記認識すべき音声中の複数のワードに対応する複数の第1の復号結果を取得することであって、前記第1の復号結果は対応するワードの第1の認識結果を示すことと、
第1の先験情報に基づいて、前記第1の音声特徴の中から第2の音声特徴を抽出取得することであって、前記第1の先験情報は、前記複数の第1の復号結果を含み、前記第2の音声特徴は前記複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含むことと、
第2のデコーダを利用して、前記第2の音声特徴を復号し、前記複数のワードに対応する複数の第2の復号結果を取得することであって、前記第2の復号結果は、対応するワードの第2の認識結果を示すこととを含む音声認識方法。
【請求項2】
第1の先験情報に基づいて、前記第1の音声特徴の中から第2の音声特徴を抽出取得することは、
前記複数のワードの各ワードについて、該ワードに対応する第1の復号結果をアテンションモジュールのクエリ特徴として、前記第1の音声特徴を前記アテンションモジュールのキー特徴およびバリュー特徴とすることによって、前記アテンションモジュールによって出力される、該ワードに対応する第1のワードレベルのオーディオ特徴を取得することを含む請求項1に記載の方法。
【請求項3】
第1の先験情報に基づいて、前記第1の音声特徴の中から第2の音声特徴を抽出取得することは、
第2のエンコーダを利用して、前記複数のワードに対応する複数の第1のワードレベルのオーディオ特徴をグローバル符号化することで、強化された第2の音声特徴を取得することを含む請求項2に記載の方法。
【請求項4】
第2のデコーダを利用して、前記第2の音声特徴を復号し、前記複数のワードに対応する複数の第2の復号結果を取得することは、
前記複数のワードの各ワードについて、該ワードに対応する第1の復号結果を前記第2のデコーダのクエリ特徴として、前記第2の音声特徴を前記第2のデコーダのキー特徴およびバリュー特徴とすることによって、前記第2のデコーダによって出力される、該ワードに対応する第2の復号結果を取得することを含む請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記第2のデコーダは順方向デコーダと逆方向デコーダとを含み、前記順方向デコーダと前記逆方向デコーダは、いずれも前記複数のワードの各ワードについて、該ワードの第1の復号結果を入力されるクエリ特徴として、前記第2の音声特徴を入力されるキー特徴およびバリュー特徴とするように構成され、前記順方向デコーダは、入力される特徴を左から右に時間マスクするように構成され、前記逆方向デコーダは、入力される特徴を右から左に時間マスクするように構成される請求項4に記載の方法。
【請求項6】
前記複数のワードの各ワードについて、該ワードの第1の復号結果を前記第2のデコーダのクエリ特徴として、前記第2の音声特徴を前記第2のデコーダのキー特徴およびバリュー特徴とすることによって、前記第2のデコーダによって出力される、該ワードに対応する第2の復号結果を取得することは、
前記順方向デコーダによって出力される、前記複数のワードに対応する複数の順方向復号特徴と、前記逆方向デコーダによって出力される、前記複数のワードに対応する複数の逆方向復号特徴とを融合し、前記複数のワードに対応する複数の融合特徴を取得することと、
前記複数の融合特徴に基づいて、前記複数の第2の復号結果を取得することとを含む請求項5に記載の方法。
【請求項7】
前記複数のワードの各ワードについて、該ワードの第Nの復号結果を前記第2のデコーダのクエリ特徴として、前記第2の音声特徴を前記第2のデコーダのキー特徴およびバリュー特徴とすることによって、前記第2のデコーダによって出力される、該ワードに対応する第N+1の復号結果を取得することをさらに含み、ここでは、Nは2以上の整数である請求項4に記載の方法。
【請求項8】
第2の先験情報に基づいて、前記第1の音声特徴の中から第3の音声特徴を抽出取得することであって、前記第2の先験情報は、前記複数の第2の復号結果を含み、前記第3の音声特徴は前記複数のワードに対応する複数の第2のワードレベルのオーディオ特徴を含むことと、
前記第2のデコーダを利用して、前記第3の音声特徴を復号し、前記複数のワードに対応する複数の第3の復号結果を取得することであって、前記第3の復号結果は、対応するワードの第3の認識結果を示すこととをさらに含む請求項1~3のいずれか一項に記載の方法。
【請求項9】
認識すべき音声の第1の音声特徴を取得することは、
前記認識すべき音声のオリジナル音声特徴を取得することと、
前記オリジナル音声特徴に基づいて、前記認識すべき音声中の複数のスパイクを確定することと、
前記オリジナル音声特徴を切断し、前記複数のスパイクに一対一で対応する前記複数の音声セグメント特徴を取得することとを含む請求項1~3のいずれか一項に記載の方法。
【請求項10】
前記複数の音声セグメント特徴は、前記オリジナル音声特徴をストリーミング切断することによって順に取得されるものであり、第1のデコーダを利用して前記第1の音声特徴を復号することは、
前記第1のデコーダを利用して、前記複数の音声セグメント特徴を順にストリーミング復号することを含む請求項9に記載の方法。
【請求項11】
認識すべき音声の第1の音声特徴を取得することは、
現在得られた音声セグメント特徴に対して、対応する履歴特徴抽象化情報を取得することであって、前記履歴特徴抽象化情報は先の音声セグメント特徴に対応する第1の復号結果を利用して、前記先の音声セグメント特徴をアテンションモデリングすることによって取得されるものであることと、
第1のエンコーダを利用して、前記履歴特徴抽象化情報と結びつけて、前記現在得られた音声セグメント特徴を符号化することによって、対応する強化された音声セグメント特徴を取得することとを含む請求項10に記載の方法。
【請求項12】
第1のエンコーダを利用して、前記履歴特徴抽象化情報と結びつけて、前記現在得られた音声セグメント特徴を符号化することによって、対応する強化された音声セグメント特徴を取得することは、
前記現在得られた音声セグメント特徴を前記第1のエンコーダのクエリ特徴として、前記履歴特徴抽象化情報と前記現在得られた音声セグメント特徴とのスプライシング結果を前記第1のエンコーダのキー特徴およびバリュー特徴とすることによって、前記第1のエンコーダによって出力される、前記対応する強化された音声セグメント特徴を取得することを含む請求項11に記載の方法。
【請求項13】
前記オリジナル音声特徴を切断し、前記複数のスパイクに一対一で対応する前記複数の音声セグメント特徴を取得することは、
予め設定された時間の長さに基づいて、前記オリジナル音声特徴を切断し、且つ前記複数のスパイクのうちの各スパイクが存在する音声セグメントの音声セグメント特徴を該スパイクに対応する音声セグメント特徴とすることを含む請求項9に記載の方法。
【請求項14】
前記オリジナル音声特徴を切断し、前記複数のスパイクに一対一で対応する前記複数の音声セグメント特徴を取得することは、
前記複数のスパイクに基づいて、前記オリジナル音声特徴を切断し、且つ各隣接する2つのスパイク間の音声セグメントの特徴をそのうちの一つのスパイクに対応する音声セグメント特徴とすることを含む請求項9に記載の方法。
【請求項15】
前記第2のデコーダは音声ラージモデルである請求項1~3のいずれか一項に記載の方法。
【請求項16】
音声認識のための深層学習モデルのトレーニング方法であって、前記深層学習モデルは第1のデコーダと第2のデコーダとを含み、前記トレーニング方法は、
サンプル音声と前記サンプル音声中の複数のワードの実際の認識結果を取得することと、
前記サンプル音声の第1のサンプル音声特徴を取得することであって、前記第1のサンプル音声特徴は、前記サンプル音声中の複数のサンプル音声セグメントに対応する複数のサンプル音声セグメント特徴を含むことと、
第1のデコーダを利用して、前記第1のサンプル音声特徴を復号し、前記サンプル音声中の複数のワードに対応する複数の第1サンプル復号結果を取得することであって、前記第1サンプル復号結果は対応するワードの第1の認識結果を示すことと、
第1のサンプル先験情報に基づいて、前記第1のサンプル音声特徴の中から第2のサンプル音声特徴を抽出取得することであって、前記第1のサンプル先験情報は、前記複数の第1のサンプル復号結果を含み、前記第2のサンプル音声特徴は前記複数のワードに対応する複数の第1のサンプルワードレベルのオーディオ特徴を含むことと、
第2のデコーダを利用して、前記第2のサンプル音声特徴を復号し、前記複数のワードに対応する複数の第2のサンプル復号結果を取得することであって、前記第2のサンプル復号結果は、対応するワードの第2の認識結果を示すことと、
前記複数のワードの実際の認識結果、第1の認識結果と第2の認識結果に基づいて、前記深層学習モデルのパラメータを調整し、トレーニングされた深層学習モデルを取得することとを含む音声認識のための深層学習モデルのトレーニング方法。
【請求項17】
音声認識装置であって、
認識すべき音声の第1の音声特徴を取得するように構成される音声特徴符号化モジュールであって、前記第1の音声特徴は、前記認識すべき音声中の複数の音声セグメントに対応する複数の音声セグメント特徴を含むものと、
前記第1の音声特徴を復号し、前記認識すべき音声中の複数のワードに対応する複数の第1の復号結果を取得するように構成される第1のデコーダであって、前記第1の復号結果は対応するワードの第1の認識結果を示すものと、
第1の先験情報に基づいて、前記第1の音声特徴の中から第2の音声特徴を抽出取得するように構成されるワードレベルの特徴抽出モジュールであって、前記第1の先験情報は、前記複数の第1の復号結果を含み、前記第2の音声特徴は前記複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含むものと、
前記第2の音声特徴を復号し、前記複数のワードに対応する複数の第2の復号結果を取得するように構成される第2のデコーダであって、前記第2の復号結果は、対応するワードの第2の認識結果を示すものとを含む音声認識装置。
【請求項18】
前記ワードレベルの特徴抽出モジュールは、
前記複数のワードの各ワードについて、該ワードに対応する第1の復号結果を前記アテンションモジュールのクエリ特徴として受信し、前記第1の音声特徴を前記アテンションモジュールのキー特徴およびバリュー特徴として受信することによって、該ワードに対応する第1のワードレベルのオーディオ特徴を出力するように構成されるアテンションモジュールを含む請求項17に記載の装置。
【請求項19】
前記ワードレベルの特徴抽出モジュールは、
前記複数のワードに対応する複数の第1のワードレベルのオーディオ特徴をグローバル符号化することで、強化された第2の音声特徴を取得するように構成される第2のエンコーダを含む請求項18に記載の装置。
【請求項20】
前記第2のデコーダは、前記複数のワードの各ワードについて、前記該ワードに対応する第1の復号結果を前記第2のデコーダのクエリ特徴として受信し、前記第2の音声特徴を前記第2のデコーダのキー特徴およびバリュー特徴として受信することによって、該ワードに対応する第2の復号結果を出力するように構成される請求項17~19のいずれか一項に記載の装置。
【請求項21】
前記第2のデコーダは順方向デコーダと逆方向デコーダとを含み、前記順方向デコーダと前記逆方向デコーダは、いずれも前記複数のワードの各ワードについて、該ワードの第1の復号結果を入力されるクエリ特徴として受信し、前記第2の音声特徴を入力されるキー特徴およびバリュー特徴として受信するように構成され、前記順方向デコーダは、入力される特徴を左から右に時間マスクするように構成され、前記逆方向デコーダは、入力される特徴を右から左に時間マスクするように構成される請求項20に記載の装置。
【請求項22】
前記第2のデコーダは、
前記順方向デコーダによって出力される、前記複数のワードに対応する複数の順方向復号特徴と、前記逆方向デコーダによって出力される、前記複数のワードに対応する複数の逆方向復号特徴とを融合し、前記複数のワードに対応する複数の融合特徴を取得し、
前記複数の融合特徴に基づいて、前記複数の第2の復号結果を取得するように構成される請求項21に記載の装置。
【請求項23】
前記第2のデコーダは、
前記複数のワードの各ワードについて、該ワードの第Nの復号結果を前記第2のデコーダのクエリ特徴として受信し、前記第2の音声特徴を前記第2のデコーダのキー特徴およびバリュー特徴として受信することによって、該ワードに対応する第N+1の復号結果を出力するように構成され、ここで、Nは2以上の整数である請求項20に記載の装置。
【請求項24】
前記ワードレベルの特徴抽出モジュールは、第2の先験情報に基づいて、前記第1の音声特徴の中から第3の音声特徴を抽出取得するように構成され、前記第2の先験情報は、前記複数の第2の復号結果を含み、前記第3の音声特徴は前記複数のワードに対応する複数の第2のワードレベルのオーディオ特徴を含み、
ここで、前記第2のデコーダは、前記第3の音声特徴を復号し、前記複数のワードに対応する複数の第3の復号結果を取得するように構成され、前記第3の復号結果は、対応するワードの第3の認識結果を示す請求項17~19のいずれか一項に記載の装置。
【請求項25】
前記音声特徴符号化モジュールは、
前記認識すべき音声のオリジナル音声特徴を取得し、
前記オリジナル音声特徴に基づいて、前記認識すべき音声中の複数のスパイクを確定し、
前記オリジナル音声特徴を切断し、前記複数のスパイクに一対一で対応する前記複数の音声セグメント特徴を取得するように構成される請求項17~19のいずれか一項に記載の装置。
【請求項26】
前記複数の音声セグメント特徴は、前記オリジナル音声特徴をストリーミング切断することによって順に取得されるものであり、前記第1のデコーダは、前記複数の音声セグメント特徴を順にストリーミング復号するように構成される請求項25に記載の装置。
【請求項27】
前記音声特徴符号化モジュールは、
現在得られた音声セグメント特徴に対して、対応する履歴特徴抽象化情報を取得するように構成され、前記履歴特徴抽象化情報は先の音声セグメント特徴に対応する第1の復号結果を利用して、前記先の音声セグメント特徴をアテンションモデリングすることによって取得されるものであり、
ここで、前記音声特徴符号化モジュールは、
前記履歴特徴抽象化情報と結びつけて、現在得られた音声セグメント特徴を符号化することによって、対応する強化された音声セグメント特徴を出力するように構成される第1のエンコーダを含む請求項26に記載の装置。
【請求項28】
前記第1のエンコーダは、
前記現在得られた音声セグメント特徴を前記第1のエンコーダのクエリ特徴として受信し、前記履歴特徴抽象化情報と前記現在得られた音声セグメント特徴とのスプライシング結果を前記第1のエンコーダのキー特徴およびバリュー特徴として受信することによって、前記対応する強化された音声セグメント特徴を出力するように構成される請求項27に記載の装置。
【請求項29】
前記オリジナル音声特徴を切断し、前記複数のスパイクに一対一で対応する前記複数の音声セグメント特徴を取得することは、
予め設定された時間の長さに基づいて、前記オリジナル音声特徴を切断し、且つ前記複数のスパイクのうちの各スパイクが存在する音声セグメントの音声セグメント特徴を該スパイクに対応する音声セグメント特徴とすることを含む請求項25に記載の装置。
【請求項30】
前記オリジナル音声特徴を切断し、前記複数のスパイクに一対一で対応する前記複数の音声セグメント特徴を取得することは、
前記複数のスパイクに基づいて、前記オリジナル音声特徴を切断し、且つ各隣接する2つのスパイク間の音声セグメントの特徴をそのうちの一つのスパイクに対応する音声セグメント特徴とすることを含む請求項25に記載の装置。
【請求項31】
前記第2のデコーダは音声ラージモデルである請求項17~19のいずれか一項に記載の装置。
【請求項32】
音声認識のための深層学習モデルのトレーニング装置であって、前記深層学習モデルは第1のデコーダと第2のデコーダとを含み、前記トレーニング装置は、
サンプル音声と前記サンプル音声中の複数のワードの実際の認識結果を取得するように構成される取得モジュールと、
前記サンプル音声の第1のサンプル音声特徴を取得するように構成される音声特徴符号化モジュールであって、前記第1のサンプル音声特徴は、前記サンプル音声中の複数のサンプル音声セグメントに対応する複数のサンプル音声セグメント特徴を含むものと、
前記第1のサンプル音声特徴を復号し、前記サンプル音声中の複数のワードに対応する複数の第1サンプル復号結果を取得するように構成される第1のデコーダであって、前記第1サンプル復号結果は対応するワードの第1の認識結果を示すものと、
第1のサンプル先験情報に基づいて、前記第1のサンプル音声特徴の中から第2のサンプル音声特徴を抽出取得するように構成されるワードレベルの特徴抽出モジュールであって、前記第1のサンプル先験情報は、前記複数の第1のサンプル復号結果を含み、前記第2のサンプル音声特徴は前記複数のワードに対応する複数の第1のサンプルワードレベルのオーディオ特徴を含むものと、
前記第2のサンプル音声特徴を復号し、前記複数のワードに対応する複数の第2のサンプル復号結果を取得するように構成される第2のデコーダであって、前記第2のサンプル復号結果は、対応するワードの第2の認識結果を示すものと、
前記複数のワードの実際の認識結果、第1の認識結果と第2の認識結果に基づいて、前記深層学習モデルのパラメータを調整し、トレーニングされた深層学習モデルを取得するように構成されるパラメータ調整モジュールとを含む音声認識のための深層学習モデルのトレーニング装置。
【請求項33】
電子機器であって、前記電子機器は、
少なくとも一つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、ここで、
前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、少なくとも1つのプロセッサが請求項1~16のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
【請求項34】
コンピュータに請求項1~16のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶されている、非一時的コンピュータ可読記憶媒体。
【請求項35】
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムはプロセッサによって実行される時に、請求項1~16のいずれか一項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特に音声認識と深層学習などの技術分野に関し、具体的には、音声認識方法、音声認識のための深層学習モデルのトレーニング方法、音声認識装置、音声認識のための深層学習モデルのトレーニング装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
人工インテリジェントは、コンピュータに人間のいくつかの思惟過程及びインテリジェント的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主に自然言語処理技術、コンピュータビジョン技術、音声認識技術、および機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
【0003】
自動音声認識(Auto Speech Recognition、ASR)はコンピュータを介して入力された音声信号を自動的に対応するテキストに変換する技術である。音声認識分野における深層学習技術の深い研究につれて、特にエンドツーエンドの音声認識技術の提出により、モデルのモデリングの複雑さを低減しながら、音声認識の正確率を大幅に向上させた。さまざまなインテリジェント機器の益々の普及に伴い、大語彙オンライン音声認識システムは、音声転写、インテリジェントなカスタマーサービス、車載ナビゲーション、スマートホームなどのさまざまなシーンで広く応用されている。これらの音声認識タスクでは、ユーザは通常、音声入力が完了した後、システムから迅速で正確に応答やフィードバックが得られることができることを望んでいるため、音声認識モデルの正確率とリアルタイムファクターに対する要求が非常に高まる。
【0004】
該部分で説明される方法は、必ずしも以前に想定された方法又は採用された方法ではない。特に断りのない限り、該部分に記載されているいずれの方法は、該部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、該部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
【発明の概要】
【0005】
本開示は、音声認識方法、音声認識のための深層学習モデルのトレーニング方法、音声認識装置、音声認識のための深層学習モデルのトレーニング装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
【0006】
本開示の一態様によれば、音声認識方法を提供し、この音声認識方法は、認識すべき音声の第1の音声特徴を取得することであって、第1の音声特徴は、認識すべき音声中の複数の音声セグメントに対応する複数の音声セグメント特徴を含むことと、第1のデコーダを利用して、第1の音声特徴を復号し、認識すべき音声中の複数のワードに対応する複数の第1の復号結果を取得することであって、第1の復号結果は対応するワードの第1の認識結果を示すことと、第1の先験情報に基づいて、第1の音声特徴の中から第2の音声特徴を抽出取得することであって、第1の先験情報は、複数の第1の復号結果を含み、第2の音声特徴は複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含むことと、第2のデコーダを利用して、第2の音声特徴を復号し、複数のワードに対応する複数の第2の復号結果を取得することであって、第2の復号結果は、対応するワードの第2の認識結果を示すこととを含む。
【0007】
本開示の別の態様によれば、音声認識のための深層学習モデルのトレーニング方法を提供し、深層学習モデルは第1のデコーダと第2のデコーダとを含み、トレーニング方法は、サンプル音声とサンプル音声中の複数のワードの実際の認識結果を取得することと、サンプル音声の第1のサンプル音声特徴を取得することであって、第1のサンプル音声特徴は、サンプル音声中の複数のサンプル音声セグメントに対応する複数のサンプル音声セグメント特徴を含むことと、第1のデコーダを利用して、第1のサンプル音声特徴を復号し、サンプル音声中の複数のワードに対応する複数の第1サンプル復号結果を取得することであって、第1サンプル復号結果は対応するワードの第1の認識結果を示すことと、第1のサンプル先験情報に基づいて、第1のサンプル音声特徴の中から第2のサンプル音声特徴を抽出取得することであって、第1のサンプル先験情報は、複数の第1のサンプル復号結果を含み、第2のサンプル音声特徴は複数のワードに対応する複数の第1のサンプルワードレベルのオーディオ特徴を含むことと、第2のデコーダを利用して、第2のサンプル音声特徴を復号し、複数のワードに対応する複数の第2のサンプル復号結果を取得することであって、第2のサンプル復号結果は、対応するワードの第2の認識結果を示すことと、複数のワードの実際の認識結果、第1の認識結果と第2の認識結果に基づいて、深層学習モデルのパラメータを調整し、トレーニングされた深層学習モデルを取得することとを含む。
【0008】
本開示の別の態様によれば、音声認識装置を提供し、この装置は、認識すべき音声の第1の音声特徴を取得するように構成される音声特徴符号化モジュールであって、第1の音声特徴は、認識すべき音声中の複数の音声セグメントに対応する複数の音声セグメント特徴を含むものと、第1の音声特徴を復号し、認識すべき音声中の複数のワードに対応する複数の第1の復号結果を取得するように構成される第1のデコーダであって、第1の復号結果は対応するワードの第1の認識結果を示すものと、第1の先験情報に基づいて、第1の音声特徴の中から第2の音声特徴を抽出取得するように構成されるワードレベルの特徴抽出モジュールであって、第1の先験情報は、複数の第1の復号結果を含み、第2の音声特徴は複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含むものと、第2の音声特徴を復号し、複数のワードに対応する複数の第2の復号結果を取得するように構成される第2のデコーダであって、第2の復号結果は、対応するワードの第2の認識結果を示すものとを含む。
【0009】
本開示の別の態様によれば、音声認識のための深層学習モデルのトレーニング装置を提供し、深層学習モデルは第1のデコーダと第2のデコーダとを含み、トレーニング装置は、サンプル音声とサンプル音声中の複数のワードの実際の認識結果を取得するように構成される取得モジュールと、サンプル音声の第1のサンプル音声特徴を取得するように構成される音声特徴符号化モジュールであって、第1のサンプル音声特徴は、サンプル音声中の複数のサンプル音声セグメントに対応する複数のサンプル音声セグメント特徴を含むものと、第1のサンプル音声特徴を復号し、サンプル音声中の複数のワードに対応する複数の第1サンプル復号結果を取得するように構成される第1のデコーダであって、第1サンプル復号結果は対応するワードの第1の認識結果を示すものと、第1のサンプル先験情報に基づいて、第1のサンプル音声特徴の中から第2のサンプル音声特徴を抽出取得するように構成されるワードレベルの特徴抽出モジュールであって、第1のサンプル先験情報は、複数の第1のサンプル復号結果を含み、第2のサンプル音声特徴は複数のワードに対応する複数の第1のサンプルワードレベルのオーディオ特徴を含むものと、第2のサンプル音声特徴を復号し、複数のワードに対応する複数の第2のサンプル復号結果を取得するように構成される第2のデコーダであって、第2のサンプル復号結果は、対応するワードの第2の認識結果を示すものと、複数のワードの実際の認識結果、第1の認識結果と第2の認識結果に基づいて、深層学習モデルのパラメータを調整し、トレーニングされた深層学習モデルを取得するように構成されるパラメータ調整モジュールとを含む。
【0010】
本開示の別の態様によれば、電子機器を提供し、該電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、メモリには、少なくとも1つのプロセッサによって実行可能な命令を記憶し、これらの命令は、少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサに上記の方法を実行させることができる。
【0011】
本開示の別の態様によれば、以上に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
【0012】
本開示の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品が提供され、コンピュータプログラムは、プロセッサによって実行されると上述の方法を実現する。
【0013】
本開示の1つ又は複数の実施例によれば、本開示は認識すべき音声の、複数の音声セグメント特徴を含む第1の音声特徴を取得して復号し、認識すべき音声に対する初期認識結果を取得し、さらに、初期認識結果を利用して、第1の音声特徴の中からワードレベルのオーディオ特徴を抽出し、その後、ワードレベルのオーディオ特徴を復号し、最終的な認識結果を取得する。
【0014】
認識すべき音声に対する初期認識結果を先験的なものとして、フレームレベルのオーディオ情報における不等長の音声特徴情報中から、ワードレベルで等長の統一オーディオ特徴表現を抽出取得するとともに、ワードレベルのオーディオ特徴を復号し、最終的な認識結果を取得することによって、従来の音声のフレーミングの特徴表現の長さが不一致するという問題が解決され、音声認識の精度を向上させ、計算効率を向上させる。
【0015】
理解すべきこととして、該部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0016】
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。全ての図面において、同一の符号は、類似しているが、必ずしも同じとは限らない要素を指す。
【0017】
【
図1】本開示の実施例による、本明細書で説明される様々な方法を実施することができる例示的なシステムを示す概略図である。
【
図2】本開示の実施例による音声認識方法を示すフローチャート図である。
【
図3】本開示の実施例による、認識すべき音声の第1の音声特徴を取得することを示すフローチャート図である。
【
図4】本開示の実施例による、履歴特徴抽象化に基づくConformerストリーミングマルチレイヤー切断アテンションモデルを示す概略図である。
【
図5】本開示の実施例による、第1の音声特徴から第2の音声特徴を抽出取得するフローチャート図である。
【
図6】本開示の実施例による音声認識方法を示すフローチャート図である。
【
図7】本開示の実施例による音声認識方法を示すフローチャート図である。
【
図8】本開示の実施例によるエンドツーエンド音声ラージモデルを示す概略図である。
【
図9】本開示の実施例による、音声認識のための深層学習モデルのトレーニング方法を示すフローチャート図である。
【
図10】本開示の実施例による音声認識装置を示す構成ブロック図である。
【
図11】本開示の実施例による、音声認識のための深層学習モデルのトレーニング装置を示す構成ブロック図である。
【
図12】本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
【発明を実施するための形態】
【0018】
以下、図面に合わせて本開示の例示的な実施例を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
【0019】
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、一要素を別の要素から区別するためにのみ使用される。いくつかの例では、第1の要素と第二要素は、要素の同じ例を指してもよく、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
【0020】
本開示の様々な例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、該要素は一つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされたアイテムのいずれか及び可能な全ての組み合わせをカバーする。
【0021】
関連技術において、いくつかの音声認識方法は、オーディオ特徴表現を学習する際に、フレーミングの音声特徴を使用して、表現学習を行うが、音声に含まれる内容情報は話者の話すスピード、イントネーション、トーンなどに伴って、絶え間なく変化し、且つ話者が異なれば、同じ内容に対する表現もまったく異なるため、この特徴表現方式はフレーミングの音声特徴による得られた表現長さが不一致になることをもたらし、音声認識の正確率に影響を与え、且つ得られた特徴表現は冗長な特徴を大量含むため、計算効率が低くなる。
【0022】
上記課題を解決するために、本開示は認識すべき音声の、複数の音声セグメント特徴を含む第1の音声特徴を取得して復号し、認識すべき音声に対する初期認識結果を取得し、さらに、初期認識結果を利用して、第1の音声特徴の中からワードレベルのオーディオ特徴を抽出し、その後、ワードレベルのオーディオ特徴を復号し、最終的な認識結果を取得する。認識すべき音声に対する初期認識結果を先験的なものとして、フレームレベルのオーディオ情報における不等長の音声特徴情報中から、ワードレベルで等長の統一オーディオ特徴表現を抽出取得するとともに、ワードレベルのオーディオ特徴を復号し、最終的な認識結果を取得することによって、従来の音声のフレーミングの特徴表現の長さが不一致するという問題が解決され、音声認識の精度を向上させ、計算効率を向上させる。
【0023】
以下、図面を参照して本開示の実施例について詳細に説明する。
図1は、本開示の実施例によると、本明細書に記載された様々な方法及び装置を、その中で実施することができる例示的なシステム100の概略図を示す。
図1を参照すると、該システム100は、一つ又は複数のクライアントデバイス101、102、103、104、105と106、サーバ120、及び一つ又は複数のクライアントデバイスをサーバ120に結合する一つ又は複数の通信ネットワーク110を含む。クライアントデバイス101、102、103、104、105と106は、一つ又は複数のアプリケーションを実行するように構成されることが可能である。
【0024】
本開示の実施例では、サーバ120は、本開示の音声認識方法および/または音声認識のための深層学習モデルのトレーニング方法の1つまたは複数のサービスまたはソフトウェアアプリケーションを実行できるように動作する。1つの例示的な実施例では、完全な音声認識システムまたは音声認識システムの一部のアセンブリ、例えば、音声ラージモデルをサーバー上にデプロイすることができる。
【0025】
いくつかの実施例では、サーバ120は、非仮想環境と仮想環境を含むことができる他のサービス又はソフトウェアアプリケーションも提供することができる。いくつかの実施例では、これらのサービスは、webベースのサービス又はクラウドサービスとして提供することができ、例えば、ソフトウェアアズアサービス(SaaS)モデルでクライアントデバイス101、102、103、104、105及び/又は106のユーザに提供される。
【0026】
図1に示す構成では、サーバ120は、サーバ120により実行される機能を実現する一つ又は複数のアセンブリを含んでもよい。これらのアセンブリは、一つ以上のプロセッサで実行できるソフトウェアアセンブリ、ハードウェアアセンブリ、又はそれらの組み合わせを含んでもよい。クライアントデバイス101、102、103、104、105及び/又は106を操作するユーザは、これらのアセンブリが提供するサービスを利用するために、一つ又は複数のクライアントアプリケーションを用いてサーバ120とインタラクションすることができる。様々な異なるシステム配置が可能であり、システム100とは異なってもよいことを理解されたい。したがって、
図1は、本明細書に記載の様々な方法を実施するためのシステムの一例であり、制限することを意図していない。
【0027】
ユーザは、クライアントデバイス101、102、103、104、105及び/又は106を用いて認識すべき音声を入力することができる。クライアントデバイスは、クライアントデバイスのユーザがクライアントデバイスとインタラクションするインタフェースを提供することができる。クライアントデバイスは、該インタフェースを介して、例えば音声認識結果をユーザに出力するなど、情報をユーザに出力することもできる。
図1では6つのクライアントデバイスしか図示していないが、当業者であれば理解できるように、本開示はいかなる数のクライアントデバイスにサポートできる。
【0028】
クライアントデバイス101、102、103、104、105及び/又は106は、携帯型ハンドヘルドデバイス、汎用コンピュータ(例えば、パーソナルコンピュータやノートパソコン)、ワークステーションコンピュータ、ウェアラブルデバイス、スマートスクリーンデバイス、セルフサービス端末デバイス、サービスロボット、ゲームシステム、シンクライアント、各種のメッセージングデバイス、センサ、又はその他の検知デバイスなどの様々なタイプのコンピュータデバイスを含んでもよい。これらのコンピュータデバイスは、MICROSOFT Windows、APPLE iOS、類UNIXオペレーティングシステム、Linuxまたは類Linuxオペレーティングシステム(例えばGOOGLE Chrome OS)などの様々なタイプおよびバージョンのソフトウェアアプリケーションやオペレーティングシステムを実行したり、MICROSOFT Windows Mobile OS、iOS、Windows Phone、Androidなどの各種のモバイルオペレーティングシステムを含んだりすることができる。携帯用ハンドヘルドデバイスには、携帯電話、インテリジェントフォン、タブレット、パーソナルデジタルアシスタント(PDA)などを含んでもよい。ウェアラブルデバイスは、ヘッドマウント型ディスプレイ(例えば、スマートグラス)と他の装置を含んでもよい。ゲームシステムは、様々なハンドヘルド型のゲームデバイス、インターネット対応のゲームデバイスなどを含んでもよい。クライアントデバイスは、例えば、インターネットInternet関連アプリケーション、通信アプリケーション(例えば、電子メールアプリケーション)、ショートメッセージサービス(SMS)アプリケーション、さまざまなアプリケーションを実行でき、且つさまざまな通信プロトコルを使用できる。
【0029】
ネットワーク110は、当業者に知られている任意のタイプのネットワークであってもよく、それは、データ通信をサポートするために、複数の利用可能なプロトコルのいずれか1つ(TCP/IP、SNA、IPXなどを含むがこれらに限定されない)を使用することができる。例として、一つ又は複数のネットワーク110は、ローカルエリアネットワーク(LAN)、イーサネットベースのネットワーク、トークンループ、ワイドエリアネットワーク(WAN)、インターネット、仮想ネットワーク、仮想プライベートネットワーク(VPN)、イントラネット、エクストラネット、ブロックチェーンネットワーク、公衆交換電話網(PSTN)、赤外線ネットワーク、無線ネットワーク(例えば、ブルートゥース、WIFI)、及び/又はこれら及び/又はその他のネットワークの任意の組み合わせであってもよい。
【0030】
サーバ120は、一つ又は複数の汎用コンピュータ、専用サーバコンピュータ(例えば、PC(パーソナルコンピュータ)サーバ、UNIXサーバ、ミッドレンジサーバ)、ブレードサーバ、大型コンピュータ、サーバクラスタ、又はその他のいかなる適切な配置及び/又は組み合わせを含んでもよい。サーバ120は、仮想オペレーティングシステムを実行する一つ又は複数の仮想マシン、又は仮想化に関わる他のコンピューティングアーキテクチャ(例えば、サーバの仮想記憶装置を維持するために仮想化された論理記憶デバイスの一つ又は複数のフレキシブルプール)を含んでもよい。様々な実施例では、サーバ120は、以下に説明する機能を提供する一つ又は複数のサービス又はソフトウェアアプリケーションを実行することができる。
【0031】
サーバ120における計算ユニットは、上記した任意のオペレーティングシステム及び任意の商用サーバオペレーティングシステムを含む一つ又は複数のオペレーティングシステムを実行することができる。サーバ120は、HTTPサーバ、FTPサーバ、CGIサーバ、JAVAサーバ、データベースサーバなど、を含む様々な追加のサーバアプリケーション及び/又は中間層アプリケーションのいずれか一つを実行することもできる。
【0032】
いくつかの実施例では、サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106のユーザから受信したデータフィード及び/又はイベントの更新を分析及び統合するための一つ又は複数のアプリケーションを含んでもよい。サーバ120は、クライアントデバイス101、102、103、104、105及び/又は106の一つ又は複数のディスプレイデバイスを介してデータフィード及び/又はリアルタイムイベントを表示する一つ又は複数のアプリケーションを含んでもよい。
【0033】
いくつかの実施形態では、サーバ120は、分散型システムのサーバであってもよいし、ブロックチェーンを組み込んだサーバであってもよい。サーバ120は、クラウドサーバであってもよいし、人工知能技術を備えたインテリジェントクラウドコンピューティングサーバやインテリジェントクラウドホストであってもよい。クラウドサーバはクラウドコンピューティングサービスシステム中のホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS、Virtual Private Server)サービス中に存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決する。
【0034】
システム100は、1つ又は複数のデータベース130を含んでもよい。いくつかの実施例では、これらのデータベースはデータやその他の情報を記憶するために使用できる。例えば、データベース130のうちの一つ又は複数は、オーディオファイルやビデオファイルのような情報を記憶するために使用できる。データベース130は、さまざまな位置に配置することができる。例えば、サーバ120が使用するデータベースは、サーバ120のローカルにあってもよいし、サーバ120から離れて、ネットワーク又は専用の接続を介してサーバ120と通信してもよい。データベース130は、さまざまなタイプであってもよい。いくつかの実施例では、サーバ120が使用するデータベースは、リレーショナルデータベースなどのデータベースであってもよい。これらのデータベースのうちの一つ以上は、命令に応じてデータベースとデータベースからのデータを記憶、更新、検索できる。
【0035】
いくつかの実施例では、データベース130のうちの一つ又は複数は、アプリケーションによって使用され、アプリケーションのデータを記憶することもできる。アプリケーションで使用されるデータベースは、キー値リポジトリ、オブジェクトリポジトリ、ファイルシステムでサポートされる汎用リポジトリなど、様々なタイプのデータベースであってもよい。
【0036】
図1のシステム100は、本開示に基づいて説明した様々な方法及び装置を応用することができるように、様々な方法で配置し操作することができる。
本開示の一態様によれば、音声認識方法を提供する。
図2に示すように、音声認識方法は、ステップS201、認識すべき音声の第1の音声特徴を取得することであって、第1の音声特徴は、認識すべき音声中の複数の音声セグメントに対応する複数の音声セグメント特徴を含むことと、ステップS202、第1のデコーダを利用して、第1の音声特徴を復号し、認識すべき音声中の複数のワードに対応する複数の第1の復号結果を取得することであって、第1の復号結果は対応するワードの第1の認識結果を示すことと、ステップS203、第1の先験情報に基づいて、第1の音声特徴の中から第2の音声特徴を抽出取得することであって、第1の先験情報は、複数の第1の復号結果を含み、第2の音声特徴は複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含むことと、ステップS204、第2のデコーダを利用して、第2の音声特徴を復号し、複数のワードに対応する複数の第2の復号結果を取得することであって、第2の復号結果は、対応するワードの第2の認識結果を示すこととを含む。
【0037】
これにより、認識すべき音声に対する初期認識結果を先験的なものとして、フレームレベルのオーディオ情報における不等長の音声特徴情報中から、ワードレベルで等長の統一オーディオ特徴表現を抽出取得するとともに、ワードレベルのオーディオ特徴を復号し、最終的な認識結果を取得することによって、従来の音声のフレーミングの特徴表現の長さが不一致するという問題が解決され、音声認識の精度を向上させ、計算効率を向上させる。
【0038】
技術思想の説明を容易にするために、本開示の実施例における認識すべき音声中に、複数のワードに対応する音声内容を含む。ステップS201では、既存のさまざまなオーディオ特徴抽出方式を採用して、認識すべき音声の第1のオーディオ特徴を取得することができる。複数の音声セグメントは、認識すべき音声を固定長で切り出すことによって取得されるものであってもよいし、他の切り出す方法によって取得されるものでもよい。複数の音声セグメント特徴は複数の音声セグメントに一対一で対応するものであってもよく、同じ音声セグメントは、複数の音声セグメント特徴に対応するものであってもよい(以下に説明するように)が、ここでは、これらを限定しない。
【0039】
いくつかの実施例によれば、
図3に示されるように、ステップS201、認識すべき音声の第1の音声特徴を取得することは、ステップS301、認識すべき音声のオリジナル音声特徴を取得することと、ステップS302、オリジナル音声特徴に基づいて、認識すべき音声中の複数のスパイクを確定することと、ステップS303、オリジナル音声特徴を切断し、複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得することとを含むことができる。
【0040】
スパイク信号は通常、認識すべき音声中の各ワードと対応関係があるため、先ず、認識すべき音声のスパイク信号を取得し、且つスパイク情報に基づいて複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得することによって、第1のデコーダはスパイク情報の駆動で第1の音声特徴を復号するようにし、正確な初期認識結果を取得する。
【0041】
ステップS301では、認識すべき音声が含む複数の音声フレームに対して音声特徴を抽出し、複数の音声フレーム特徴を含むオリジナル音声特徴を取得することができる。
【0042】
ステップS302では、因果コンフォーマー(Causal Conformer)に基づきモデリングされる二値CTC(Connectionist Temporal Classification、コネクショニスト時系列分類法)モジュールを使用して、オリジナル音声特徴を処理し、これによって、CTCスパイク情報を取得し、認識すべき音声中の複数のスパイクを確定することができる。理解できるように、他の方式によって認識すべき音声中の複数のスパイクを確定することもできるが、ここでは、これらを限定しない。
【0043】
ステップS303では、オリジナル音声特徴への切断は複数の音声フレームに対応する複数の音声フレーム特徴を複数セットの音声フレーム特徴に切断することであってもよく、各セットの音声フレーム/音声フレーム特徴は一つの音声セグメント/音声セグメント特徴を構成する。
【0044】
いくつかの実施例によれば、ステップS303、オリジナル音声特徴を切断し、複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得することは、予め設定された時間の長さに基づいて、オリジナル音声特徴を切断し、且つ複数のスパイクのうちの各スパイクが存在する音声セグメントの音声セグメント特徴を該スパイクに対応する音声セグメント特徴とすることを含むことができる。これにより、上記方式により、各スパイクに対応する音声セグメント特徴は同じ長さがあるようにする。注意すべきこととして、このような方式で、一つの音声セグメント中に一つよりも多いスパイクが含まれる場合、該音声セグメントの音声セグメント特徴は同時にこれらのスパイクのうちの各スパイクに対応する音声セグメントとする。
【0045】
理解できるように、需要に応じて予め設定された時間の長さを設定することができる。
図4に記述される実施例では、予め設定された時間の長さdは五つの音声フレームである。
【0046】
いくつかの実施例によれば、ステップS303、オリジナル音声特徴を切断し、複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得することは、複数のスパイクに基づいて、オリジナル音声特徴を切断し、且つ各隣接する2つのスパイク間の音声セグメントの特徴をそのうちの一つのスパイクに対応する音声セグメント特徴とすることを含むことができる。これにより、上記方式により、各スパイクに対応する音声セグメント特徴は隣接する2つのスパイク間に構成される音声セグメントの完全な音声情報を含む。
【0047】
いくつかの実施例では、オリジナル音声特徴に対して使用(CTCモジュールまたは初期音声認識)を行う前に、オリジナル音声特徴をダウンサンプリング(例えば、畳み込みダウンサンプリング)することができる。
【0048】
いくつかの実施例によれば、複数の音声セグメント特徴は、オリジナル音声特徴をストリーミング切断することによって順に取得されるものであってもよい。ステップS202、第1のデコーダを利用して第1の音声特徴を復号することは、第1のデコーダを利用して、複数の音声セグメント特徴を順にストリーミング復号することを含むことができる。これにより、オリジナル音声特徴をストリーミング切り出し、且つ第1の音声特徴をストリーミング復号することによって、認識すべき音声に対する初期認識結果を迅速に取得することができる。
【0049】
いくつかの実施例によれば、履歴特徴抽象化に基づく方式を使用して、音声セグメント特徴をさらに符号化することができ、これによって、音声セグメント特徴の記述能力を強化し、音声セグメント特徴を復号した後に得られた初期認識結果の正確性を向上させる。
図3に示されるように、ステップS201、認識すべき音声の第1の音声特徴を取得することは、ステップS304、現在得られた音声セグメント特徴に対して、対応する履歴特徴抽象化情報を取得することであって、履歴特徴抽象化情報は、先の音声セグメント特徴に対応する第1の復号結果を利用して、先の音声セグメント特徴をアテンションモデリングすることによって得られるものであることと、ステップS305、第1のエンコーダを利用して、履歴特徴抽象化情報と結びつけて、現在得られた音声セグメント特徴を符号化することによって、対応する強化された音声セグメント特徴を取得することと含むことができる。
【0050】
いくつかの実施例では、現在得られた音声セグメント特徴に対応する履歴特徴抽象化情報は複数の先の音声セグメント特徴のそれぞれに対応する履歴特徴抽象化情報を含み、各先の音声セグメント特徴の履歴特徴抽象化情報は該先の音声セグメント特徴に対応する第1の復号結果を利用して、該先の音声セグメント特徴をアテンションモデリングすることによって得られるものである。1つの例示的な実施例では、該第1の復号結果をクエリ特徴Qとして、該先の音声セグメント特徴をキー特徴Kおよびバリュー特徴Vとして、アテンションメカニズムの計算を行い、これによって、該先の音声セグメント特徴の履歴特徴抽象化情報を取得することができる。アテンションメカニズムの計算プロセスは以下のように表示することができる:
【0051】
【0052】
ここで、dkは特徴の次元である。理解できるように、本開示におけるクエリ特徴、キー特徴、およびバリュー特徴に基づき行われる他の特徴取得およびアテンションメカニズムの計算は、いずれもこの式を参照することができる。注意すべきこととして、この方式によって得られる特徴の数はクエリ特徴に含まれる特徴の数と同じである。
【0053】
いくつかの実施例によれば、ステップS305、第1のエンコーダを利用して、履歴特徴抽象化情報と結びつけて、現在得られた音声セグメント特徴を符号化することによって、対応する強化された音声セグメント特徴を取得することは、現在得られた音声セグメント特徴を第1のエンコーダのクエリ特徴Qとして、履歴特徴抽象化情報と現在得られた音声セグメント特徴とのスプライシング結果を第1のエンコーダのキー特徴Kおよびバリュー特徴Vとすることによって、第1のエンコーダによって出力される、対応する強化された音声セグメント特徴を取得することを含むことができる。
【0054】
これにより、上記方式により、音声特徴におけるより多いタイミング関係と言語関係を十分に発見できるようになり、モデルの履歴抽象化能力を大幅に向上させ、強化された音声セグメント特徴に対する復号結果の正確性も向上する。
【0055】
いくつかの実施例では、第1のエンコーダと第1のデコーダは共に履歴特徴抽象化に基づくストリーミングマルチレイヤー切断アテンション(Streaming Multi-Layer Truncated Attention model、SMLTA)モデルを構成することができる。
図4に示すように、Conformer SMLTAモデル400は主に二つの部分を含み、一つはストリーミング切断されたConformerエンコーダ402(Streaming Truncated Conformer Encoder)、即ち、第1のエンコーダであり、もう一つはTransformerデコーダ404(Transformer Decoder)、即ち、第1のデコーダである。ストリーミング切断されたConformerエンコーダは積み重ねられたConformerモジュールをN個含み、各Conformerモジュールはフィードフォワードモジュール406、マルチヘッドセルフアテンションモジュール408、畳み込みモジュール410およびフィードフォワードモジュール412を含む。Conformerモジュールは音声セグメント特徴をレイヤーごとに符号化し、対応する隠れ特徴(即ち、強化された後の音声セグメント特徴)を取得する。Transformerデコーダは積み重ねられたTransformerモジュールをM個含み、ストリーミングアテンションメカニズムによって、エンコーダによって出力される隠れ特徴をスクリーニングし、初期認識結果を示す第1の復号結果を出力する。
【0056】
図4は履歴特徴抽象化に基づくConformer SMLTA原理をさらに示す。入力されるオリジナル音声特徴414はまず、同じ長さの音声セグメント特徴に切り分けられ、次に、ストリーミングConformerエンコーダは各音声セグメント特徴を特徴符号化する。Transformerデコーダは二値CTCモデルのスパイク情報416に従って、各オーディオセグメントに含まれるスパイクの数を統計し、且つスパイクの数に従って、現在のセグメントの認識結果を復号して出力する。最後に、現在のセグメントの復号結果によって、Conformerエンコーダの各レイヤーの隠れ特徴を相関性アテンションモデリングし、対応する音声セグメントに含まれる履歴特徴抽象化を取得し、各レイヤーの抽象化によって得られる履歴特徴抽象化情報と現在得られる音声セグメント特徴とをスプライシングし、次のセグメントの計算を行う。
【0057】
いくつかの実施例によれば、
図5に示すように、ステップS203、第1の先験情報に基づいて、第1の音声特徴の中から第2の音声特徴を抽出取得することは、ステップS501、複数のワードの各ワードについて、該ワードに対応する第1の復号結果をアテンションモジュールのクエリ特徴Qとして、第1の音声特徴をアテンションモジュールのキー特徴Kおよびバリュー特徴Vとすることによって、アテンションモジュールによって出力される、該ワードに対応する第1のワードレベルのオーディオ特徴を取得することを含むことができる。
【0058】
これにより、複数のワードのそれぞれに対応する第1の復号結果をクエリ特徴Qとして、且つ第1の音声特徴をキー特徴Kおよびバリュー特徴Vとすることによって、認識すべき音声に対する初期認識結果を先験情報として効果的に利用することができ、各ワードに対応するワードレベルのオーディオ特徴を取得することができる。
【0059】
いくつかの実施例では、アテンションモジュールによって出力される第1のワードレベルのオーディオ特徴は対応するQ、K、Vを前述のアテンションメカニズムの式に代入し計算することによって取得することができる。
【0060】
いくつかの実施例によれば、
図5に示すように、ステップS203、第1の先験情報に基づいて、第1の音声特徴の中から第2の音声特徴を抽出取得することは、ステップS502、第2のエンコーダを利用して、複数のワードに対応する複数の第1のワードレベルのオーディオ特徴をグローバル符号化することで、強化された第2の音声特徴を取得することを含むことができる。
【0061】
これにより、複数のワードに対応する複数の第1のワードレベルのオーディオ特徴をグローバル符号化することにより、第1のエンコーダはストリーミング認識を満たす必要があるため、グローバル特徴情報を符号化することができないという不足を効果的に補い、等長の統一特徴表現の記述能力を著しく向上させる。
【0062】
いくつかの実施例では、第2のエンコーダは積み重ねられたConformerモジュールをN層含むことができるConformerエンコーダであってもよい。Conformerモジュールはアテンションモデルと畳み込みモデルを同時に融合するため、オーディオ特徴における遠距離関係とローカル関係を同時に効果的にモデリングすることができ、モデルの記述能力を大幅に向上させる。
【0063】
理解できるように、第1の先験情報に基づいて第1の音声特徴の中から第2の音声特徴を抽出取得することは、アテンションメカニズム、Conformerエンコーダ以外の方法によっても実現できるが、ここでは限定しない。
【0064】
いくつかの実施例によれば、ステップS204、第2のデコーダを利用して、第2の音声特徴を復号し、複数のワードに対応する複数の第2の復号結果を取得することは、複数のワードの各ワードについて、該ワードに対応する第1の復号結果を第2のデコーダのクエリ特徴Qとして、第2の音声特徴を第2のデコーダのキー特徴Kおよびバリュー特徴Vとすることによって、第2のデコーダによって出力される、該ワードに対応する第2の復号結果を取得することを含むことができる。
【0065】
これにより、複数のワードのそれぞれに対応する第1の復号結果をクエリ特徴Qとして、且つ第2の音声特徴をキー特徴Kおよびバリュー特徴Vとすることによって、認識すべき音声に対する初期認識結果を先験情報として効果的に利用することができ、各ワードに対応する第2の復号結果を取得することができる。
【0066】
なお、従来のエンコーダ-デコーダ(Encoder-Decoder)構造またはデコーダオンリー(Decoder-Only)構造は、復号時にキャッシュロード問題に直面している。現在、GPUの計算速度は著しく向上したが、コンピュータのハードウェアリソースの発展によって制限されるため、計算時にデコーダがモデルパラメータをキャッシュにロードする速度は著しく向上せず、音声認識モデルの復号効率をひどく制約する。なお、エンコーダ-デコーダ(Encoder-Decoder)構造の音声認識モデルであっても、またはデコーダオンリー(Decoder-Only)構造の音声認識モデルであっても、復号時に、いずれも前の時点の復号結果に依存する必要があって初めて次の時点の計算を行うことができ、この再帰的な計算方式は、モデルがキャッシュに繰り返しロードされる必要があることをもたらすため、ある程度の計算遅延を引き起こす。特に音声ラージモデルのパラメータの増加に伴って、キャッシュのロードによって引き起こされる計算遅延の問題はさらに顕著であり、オンライン復号の復号リアルタイム性への要求を満たすことができない。しかしながら、既に取得された、複数のワードのそれぞれに対応する第1の復号結果を第2のデコーダのクエリ特徴とすることによって、並列計算を1回だけ行って最終的な認識結果を取得することができるため、大規模なモデルが直面するキャッシュロード問題を効果的に解決することができる。
【0067】
いくつかの実施例によれば、第2のデコーダは順方向デコーダと逆方向デコーダとを含んでもよく、順方向デコーダと逆方向デコーダは、いずれも複数のワードの各ワードについて、該ワードの第1の復号結果を入力されるクエリ特徴Qとして、第2の音声特徴を入力されるキー特徴Kおよびバリュー特徴Vとするように構成されることができ、順方向デコーダは、入力される特徴を左から右に時間マスクするように構成されることができ、逆方向デコーダは、入力される特徴を右から左に時間マスクするように構成されることができる。
【0068】
これにより、入力される特徴を左から右に時間マスクする順方向デコーダと、入力される特徴を右から左に時間マスクする逆方向デコーダを設置することにより、2つの異なる方向で言語モデリングを可能にし、言語コンテキストへの同時モデリングを実現し、モデルの予測能力をさらに向上させる。
【0069】
いくつかの実施例では、順方向デコーダは左から右への(Left-Right)Transformerデコーダとも呼ばれてもよいし、逆方向デコーダは右から左の(Right-Left)Transformerデコーダとも呼ばれてもよい。順方向デコーダと逆方向デコーダには、いずれもK個の積み重ねられたタイムマスクのTransformerモジュールが含まれることができる。
【0070】
いくつかの実施例によれば、複数のワードの各ワードについて、該ワードの第1の復号結果を第2のデコーダのクエリ特徴Qとして、第2の音声特徴を第2のデコーダのキー特徴Kおよびバリュー特徴Vとすることによって、第2のデコーダによって出力される、該ワードに対応する第2の復号結果を取得することは、順方向デコーダによって出力される、複数のワードに対応する複数の順方向復号特徴と、逆方向デコーダによって出力される、複数のワードに対応する複数の逆方向復号特徴とを融合し、複数のワードに対応する複数の融合特徴を取得することと、複数の融合特徴に基づいて、複数の第2の復号結果を取得することとを含むことができる。
【0071】
いくつかの実施例では、順方向復号特徴と逆方向復号特徴を直接加算することで、対応する融合特徴を取得することができる。融合特徴に対してSoftmaxなどの処理を行って、最終的な認識結果を取得することができる。
【0072】
第2の復号結果を取得した後、第2の復号結果を改めて認識結果の先験情報として、ワードレベルのオーディオ特徴を再抽出するかまたは復号のために第2のデコーダを再利用することができる。
【0073】
いくつかの実施例によれば、
図6に示すように、音声認識方法はさらに、ステップS605、複数のワードの各ワードについて、該ワードの第Nの復号結果を第2のデコーダのクエリ特徴Qとして、第2の音声特徴を第2のデコーダのキー特徴Kおよびバリュー特徴Vとすることによって、第2のデコーダによって出力される、該ワードに対応する第N+1の復号結果を取得することを含むことができ、ここでは、Nは2以上の整数である。理解できるように、
図6のステップS601~ステップS604の動作は、
図2のステップS201~ステップS204の動作と類似であるため、ここでは説明を省略する。
【0074】
従って、第2のデコーダを利用して複数回の反復復号を実行することにより、音声認識の正確率を向上させることができる。
いくつかの実施例によれば、
図7に示すように、音声認識方法は、ステップS705、第2の先験情報に基づいて、第1の音声特徴の中から第3の音声特徴を抽出取得することであって、第2の先験情報は、複数の第2の復号結果を含み、第3の音声特徴は複数のワードに対応する複数の第2のワードレベルのオーディオ特徴を含むことと、ステップS706、第2のデコーダを利用して、第3の音声特徴を復号し、複数のワードに対応する複数の第3の復号結果を取得することであって、第3の復号結果は、対応するワードの第3の認識結果を示すこととを含むことができる。
【0075】
従って、第2の復号結果を改めて認識結果の先験的なものとして、ワードレベルのオーディオ特徴を再抽出し、さらに第2のデコーダを利用して、ワードレベルの新しいオーディオ特徴を復号することによって、音声認識の正確率をさらに向上させることができる。
【0076】
理解できるように、
図7のステップS701~ステップS704の動作は、
図2のステップS201~ステップS204の動作と類似であるため、ここでは説明を省略する。
【0077】
いくつかの実施例によれば、第2のデコーダは音声ラージモデルであってもよい。第2のデコーダのモデルサイズは数十億のパラメータに達することができるため、音声に含まれる言語情報を十分に発掘し、モデルのモデリング能力を大幅に向上させることができる。いくつかの例示的な実施例では、第2のデコーダである音声ラージモデルのパラメータ量は2Bにすることができるが、10億レベル以上の他のパラメータ量にすることもできる。
【0078】
いくつかの実施例では、第1のデコーダ(または第1のエンコーダと第1のデコーダとが構成するモデル)のモデルサイズは、例えば数百メガバイトであってもよい。その機能は認識すべき音声に対する初期認識結果をストリーミング出力することであるため、大規模なパラメータは必要ない。
【0079】
いくつかの実施例では、
図8に示すように、第1のエンコーダ810(SMLTA2 Encoder)、第1のデコーダ820(SMLTA2 Decoder)、アテンションモジュール830(Attention Module)、第2のエンコーダ840(Conformer Encoder)及び第2のデコーダ850(順方向デコーダ860(Left-Right Transformer Decoder)と逆方向デコーダ870(Right-Left Transformer Decoder)とを含む)は共にエンドツーエンドの音声ラージモデル800を構成することができる。
【0080】
本開示の別の態様によれば、音声認識のための深層学習モデルのトレーニング方法を提供する。深層学習モデルは第1のデコーダと第2のデコーダとを含む。
図9に示すように、トレーニング方法は、ステップS901、サンプル音声とサンプル音声中の複数のワードの実際の認識結果を取得することと、ステップS902、サンプル音声の第1のサンプル音声特徴を取得することであって、第1のサンプル音声特徴は、サンプル音声中の複数のサンプル音声セグメントに対応する複数のサンプル音声セグメント特徴を含むことと、ステップS903、第1のデコーダを利用して第1のサンプル音声特徴を復号し、サンプル音声中の複数のワードに対応する複数の第1サンプル復号結果を取得することであって、第1サンプル復号結果は対応するワードの第1の認識結果を示すことと、ステップS904、第1のサンプル先験情報に基づいて、第1のサンプル音声特徴の中から第2のサンプル音声特徴を抽出取得することであって、第1のサンプル先験情報は、複数の第1のサンプル復号結果を含み、第2のサンプル音声特徴は複数のワードに対応する複数の第1のサンプルワードレベルのオーディオ特徴を含むことと、ステップS905、第2のデコーダを利用して、第2のサンプル音声特徴を復号し、複数のワードに対応する複数の第2のサンプル復号結果を取得することであって、第2のサンプル復号結果は、対応するワードの第2の認識結果を示すことと、ステップS906、複数のワードの実際の認識結果、第1の認識結果と第2の認識結果に基づいて、深層学習モデルのパラメータを調整し、トレーニングされた深層学習モデルを取得することとを含む。理解できるように、
図9のステップS902~ステップS905の動作は、
図2のステップS201~ステップS204の動作と類似であるため、ここでは説明を省略する。
【0081】
これにより、上記方式により、トレーニングされた深層学習モデルは、認識すべき音声に対する初期認識結果を先験的なものとして、フレームレベルのオーディオ情報における不等長の音声特徴情報中から、ワードレベルで等長の統一オーディオ特徴表現を抽出取得するとともに、ワードレベルのオーディオ特徴を復号し、最終的な認識結果を取得することによって、従来の音声のフレーミングの特徴表現の長さが不一致するという問題が解決され、音声認識の精度を向上させ、計算効率を向上させる。
【0082】
いくつかの実施例では、深層学習モデルは、上述の音声認識方法に係る他のモジュール、例えば、第1のエンコーダ、第2のエンコーダ、アテンションモジュールなどを含むこともできる。深層学習モデル中の各モジュールの動作については、上記の音声認識方法において対応するモジュールに対する動作を参照することもできる。
【0083】
いくつかの実施例では、ステップS906で、実際の認識結果と第2の認識結果に基づいて第1の損失値を確定し、第1の損失値に基づいて深層学習モデルのパラメータを調整することができる。いくつかの実施例では、実際の認識結果と第1の認識結果に基づいて第2の損失値を確定し、第1の損失値と第2の損失値に基づいて深層学習モデルのパラメータを調整することもできる。いくつかの実施例では、第2の損失値は、第1のデコーダ(および第1のエンコーダ)のパラメータを調整するために使用され、第1の損失値は、第2のデコーダ(及びアテンションモジュール、第2のエンコーダ)のパラメータを調整するために使用され、深層学習モデルのパラメータをエンドツーエンドで調整するために使用することもできる。さらに、深層学習モデルの一部のモジュールは、事前に個別にトレーニングされるか、またはプリトレーニングされることができる。理解できるように、他の方式によって深層学習モデルのパラメータを調整することができ、ここでは限定されない。
【0084】
理解できるように、上述した音声認識方法は、上述のトレーニング方法に従ってトレーニングし得られた深層学習モデルを用いて実行することができる。
本開示の別の態様によれば、音声認識装置を提供する。
図10に示すように、装置1000は、認識すべき音声の第1の音声特徴を取得するように構成される音声特徴符号化モジュール1010であって、第1の音声特徴は、認識すべき音声中の複数の音声セグメントに対応する複数の音声セグメント特徴を含むものと、第1の音声特徴を復号し、認識すべき音声中の複数のワードに対応する複数の第1の復号結果を取得するように構成される第1のデコーダ1020であって、第1の復号結果は対応するワードの第1の認識結果を示すものと、第1の先験情報に基づいて、第1の音声特徴の中から第2の音声特徴を抽出取得するように構成されるワードレベルの特徴抽出モジュール1030であって、第1の先験情報は、複数の第1の復号結果を含み、第2の音声特徴は複数のワードに対応する複数の第1のワードレベルのオーディオ特徴を含むものと、第2の音声特徴を復号し、複数のワードに対応する複数の第2の復号結果を取得するように構成される第2のデコーダ1040であって、第2の復号結果は、対応するワードの第2の認識結果を示すものとを含む。理解できるように、装置1000のモジュール1010~モジュール1040の動作は、
図2のステップS201~ステップS204の動作と類似であるため、ここでは説明を省略する。
【0085】
いくつかの実施例によれば、音声特徴符号化モジュール1010は、認識すべき音声のオリジナル音声特徴を取得し、オリジナル音声特徴に基づいて、認識すべき音声中の複数のスパイクを確定し、及びオリジナル音声特徴を切断し、複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得するように構成されることができる。
【0086】
いくつかの実施例によれば、オリジナル音声特徴を切断し、複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得することは、予め設定された時間の長さに基づいて、オリジナル音声特徴を切断し、且つ複数のスパイクのうちの各スパイクが存在する音声セグメントの音声セグメント特徴を該スパイクに対応する音声セグメント特徴とすることを含むことができる。
【0087】
いくつかの実施例によれば、オリジナル音声特徴を切断し、複数のスパイクに一対一で対応する複数の音声セグメント特徴を取得することは、複数のスパイクに基づいて、オリジナル音声特徴を切断し、且つ各隣接する2つのスパイク間の音声セグメントの特徴をそのうちの一つのスパイクに対応する音声セグメント特徴とすることを含むことができる。
【0088】
いくつかの実施例によれば、複数の音声セグメント特徴は、オリジナル音声特徴をストリーミング切断することによって順に取得されるものであってもよく、第1のデコーダは、複数の音声セグメント特徴を順にストリーミング復号するように構成されてもよい。
【0089】
いくつかの実施例によれば、音声特徴符号化モジュールは、現在得られた音声セグメント特徴に対して、対応する履歴特徴抽象化情報を取得するように構成されてもよく、履歴特徴抽象化情報は先の音声セグメント特徴に対応する第1の復号結果を利用して、先の音声セグメント特徴をアテンションモデリングすることによって取得されるものである。音声特徴符号化モジュールは、履歴特徴抽象化情報と結びつけて、現在得られた音声セグメント特徴を符号化し、対応する強化された音声セグメント特徴を出力するように構成される第1のエンコーダを含むことができる。
【0090】
いくつかの実施例によれば、第1のエンコーダは、現在得られた音声セグメント特徴を第1のエンコーダのクエリ特徴として受信し、履歴特徴抽象化情報と現在得られた音声セグメント特徴とのスプライシング結果を第1のエンコーダのキー特徴およびバリュー特徴として受信することによって、対応する強化された音声セグメント特徴を出力するように構成されてもよい。
【0091】
いくつかの実施例によれば、ワードレベルの特徴抽出モジュールは、複数のワードの各ワードについて、該ワードに対応する第1の復号結果をアテンションモジュールのクエリ特徴として受信し、第1の音声特徴をアテンションモジュールのキー特徴およびバリュー特徴として受信することによって、該ワードに対応する第1のワードレベルのオーディオ特徴を出力するように構成されるアテンションモジュールを含むことができる。
【0092】
いくつかの実施例によれば、ワードレベルの特徴抽出モジュールは、複数のワードに対応する複数の第1のワードレベルのオーディオ特徴をグローバル符号化することで、強化された第2の音声特徴を取得するように構成される第2のエンコーダを含むことができる。
【0093】
いくつかの実施例によれば、第2のデコーダは、複数のワードの各ワードについて、該ワードに対応する第1の復号結果を第2のデコーダのクエリ特徴として受信し、第2の音声特徴を第2のデコーダのキー特徴およびバリュー特徴として受信することによって、該ワードに対応する第2の復号結果を出力するように構成されてもよい。
【0094】
いくつかの実施例によれば、第2のデコーダは順方向デコーダと逆方向デコーダとを含んでもよく、順方向デコーダと逆方向デコーダは、いずれも複数のワードの各ワードについて、該ワードの第1の復号結果を入力されるクエリ特徴として受信し、第2の音声特徴を入力されるキー特徴およびバリュー特徴として受信するように構成され、順方向デコーダは、入力される特徴を左から右に時間マスクするように構成され、逆方向デコーダは、入力される特徴を右から左に時間マスクするように構成される。
【0095】
いくつかの実施例によれば、第2のデコーダは、順方向デコーダによって出力される、複数のワードに対応する複数の順方向復号特徴と、逆方向デコーダによって出力される、複数のワードに対応する複数の逆方向復号特徴とを融合し、複数のワードに対応する複数の融合特徴を取得し、及び複数の融合特徴に基づいて、複数の第2の復号結果を取得するように構成されてもよい。
【0096】
いくつかの実施例によれば、第2のデコーダは、複数のワードの各ワードについて、該ワードの第Nの復号結果を第2のデコーダのクエリ特徴として受信し、第2の音声特徴を第2のデコーダのキー特徴およびバリュー特徴として受信することによって、該ワードに対応する第N+1の復号結果を出力するように構成されてもよく、ここで、Nは2以上の整数である。
【0097】
いくつかの実施例によれば、ワードレベルの特徴抽出モジュールは、第2の先験情報に基づいて、第1の音声特徴の中から第3の音声特徴を抽出取得するように構成されてもよく、第2の先験情報は、複数の第2の復号結果を含み、第3の音声特徴は複数のワードに対応する複数の第2のワードレベルのオーディオ特徴を含む。第2のデコーダは、第3の音声特徴を復号し、複数のワードに対応する複数の第3の復号結果を取得するように構成されてもよく、第3の復号結果は、対応するワードの第3の認識結果を示す。
【0098】
いくつかの実施例によれば、第2のデコーダは音声ラージモデルであってもよい。
本開示の別の態様によれば、音声認識のための深層学習モデルのトレーニング装置を提供する。深層学習モデルは第1のデコーダと第2のデコーダとを含む。
図11に示すように、トレーニング装置1100は、サンプル音声とサンプル音声中の複数のワードの実際の認識結果を取得するように構成される取得モジュール1110と、サンプル音声の第1のサンプル音声特徴を取得するように構成される音声特徴符号化モジュール1120であって、第1のサンプル音声特徴は、サンプル音声中の複数のサンプル音声セグメントに対応する複数のサンプル音声セグメント特徴を含むものと、第1のサンプル音声特徴を復号し、サンプル音声中の複数のワードに対応する複数の第1サンプル復号結果を取得するように構成される第1のデコーダ1130であって、第1サンプル復号結果は対応するワードの第1の認識結果を示すものと、第1のサンプル先験情報に基づいて、第1のサンプル音声特徴の中から第2のサンプル音声特徴を抽出取得するように構成されるワードレベルの特徴抽出モジュール1140であって、第1のサンプル先験情報は、複数の第1のサンプル復号結果を含み、第2のサンプル音声特徴は複数のワードに対応する複数の第1のサンプルワードレベルのオーディオ特徴を含むものと、第2のサンプル音声特徴を復号し、複数のワードに対応する複数の第2のサンプル復号結果を取得するように構成される第2のデコーダ1150であって、第2のサンプル復号結果は、対応するワードの第2の認識結果を示すものと、複数のワードの実際の認識結果、第1の認識結果と第2の認識結果に基づいて、深層学習モデルのパラメータを調整し、トレーニングされた深層学習モデルを取得するように構成されるパラメータ調整モジュール1160とを含む。理解できるように、装置1100のモジュール1110~モジュール1160の動作は、
図9のステップS901~ステップS906の動作と類似であるため、ここでは説明を省略する。
【0099】
本開示の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と開示などの処理は、すべて関連法律法規の規定に適合し、公序良俗に反しない。
【0100】
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図12を参照して、本開示の各態様に適用可能なハードウェア装置の一例である、本開示のサーバまたはクライアントとして動作可能な電子機器1200のブロック構成図について説明する。電子機器は、様々な形態のデジタル電子コンピュータデバイス、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、インテリジェントフォン、ウェアラブル機器とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限しない。
【0101】
図12に示すように、電子機器1200は、計算ユニット1201を含み、それはリードオンリーメモリ(ROM)1202に記憶されたコンピュータプログラム又は記憶ユニット1208からランダムアクセスメモリ(RAM)1203にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM1203において、更に電子機器1200を操作するために必要な様々なプログラムとデータを記憶してよい。計算ユニット1201、ROM1202及びRAM1203は、バス1204を介して互いに接続される。入力/出力(I/O)インタフェース1205もバス1204に接続されている。
【0102】
電子機器1200における入力ユニット1206、出力ユニット1207、記憶ユニット1208および通信ユニット1209などの複数の部品は、入力/出力(I/O)インタフェース1205に接続される。入力ユニット1206は、電子機器1200に情報を入力することが可能な任意のタイプの装置であってもよく、入力ユニット1206は、入力された数字又は文字情報と、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含んでもよいが、これらに限定されない。出力ユニット1207は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、ビデオ/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット1208は磁気ディスク、光ディスクを含んでもよいが、これらに限定されない。通信ユニット1209は、電子機器1200が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にし、モデム、ネットワークカード、赤外線通信装置、無線通信送受信機、及び/又はチップセット、例えば、ブルートゥースTM装置、802.11装置、WiFi装置、WiMax装置、セルラー通信装置及び/又は類似物を含んでもよいが、これらに限定されない。
【0103】
計算ユニット1201は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット1201のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット1201は、前文で説明された各方法及び処理、例えば音声認識方法および/または又は音声認識のための深層学習モデルのトレーニング方法を実行する。例えば、いくつかの実施例では、音声認識方法および/または音声認識のための深層学習モデルのトレーニング方法は、機器可読媒体、例えば記憶ユニット1208に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全てはROM1202および/又は通信ユニット1209を経由して電子機器1200にロードおよび/又はインストールされてよい。コンピュータプログラムがRAM1203にロードされて計算ユニット1201によって実行される時、以上で説明される音声認識方法および/または音声認識のための深層学習モデルのトレーニング方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1201は、他のいかなる適切な方式で(例えば、ファームウェアによって)、音声認識方法および/または音声認識のための深層学習モデルのトレーニング方法を実行するように構成されてもよい。
【0104】
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、ソフトウェア・ハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0105】
本開示の方法を実施するプログラムコードは一つ以上のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時に流れ図及び/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0106】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、一つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記内容のいかなる適切な組み合わせを含む。
【0107】
ユーザとの対話を提供するために、ここで説明したシステムおよび技術を、ユーザに情報を表示するための表示装置(例えばCRT(陰極線管)やLCD(液晶ディスプレイ)モニター)、およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備えるコンピュータ上に実装することができ、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。他の種類の装置は、例えば、ユーザに提供されるフィードバックが任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)であってよく、ユーザからの入力が任意の形式(音響入力、音声入力、または触覚入力を含む)で受け取ることが可能であるユーザとの対話を提供するために使用することができる。
【0108】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータであり、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクションを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの例は、例えば、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、インターネットとブロックチェーンネットワークを含む。
【0109】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバでも、又はブロックチェーンと組み合わされたサーバであってもよい。
【0110】
理解すべきこととして、前述した様々な形態のフローを用いて、改めて順位付け、ステップを増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよく、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0111】
本開示の実施例又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施例又は例であり、本発明の範囲はこれらの実施例又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。更に、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができるということである。
【外国語明細書】