IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-151649音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
<>
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図1
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図2
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図3
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図4
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図5
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図6
  • 特開-音声認識モデルのトレーニング方法、装置、機器、および記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022151649
(43)【公開日】2022-10-07
(54)【発明の名称】音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
(51)【国際特許分類】
   G10L 15/16 20060101AFI20220929BHJP
【FI】
G10L15/16
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022025648
(22)【出願日】2022-02-22
(31)【優先権主張番号】202110308608.0
(32)【優先日】2021-03-23
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】シャオ、ジュンヤオ
(72)【発明者】
【氏名】フ、シャオイン
(72)【発明者】
【氏名】ザン、チグアン
(72)【発明者】
【氏名】チェン、ツィジエ
(72)【発明者】
【氏名】リアン、ミンシン
(72)【発明者】
【氏名】ゼン、フアンシン
(72)【発明者】
【氏名】チアン、シェン
(57)【要約】      (修正有)
【課題】音声認識モデルの認識精度を向上させることができる音声認識モデルのトレーニング方法、装置、機器及び記憶媒体を提供する。
【解決手段】音声認識モデルのトレーニング方法は、音響復号化モデルと言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、融合確率に基づいて、予め設定された数の候補テキストを選択し、予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、予測テキストと音声に対応する標準テキストに基づいて、損失関数を取得し、損失関数に基づいて音声認識モデルをトレーニングするステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピュータにより実行される、音声認識モデルのトレーニング方法であって、
前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
前記音声認識モデルのトレーニング方法は、
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップと、
前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするステップと、を備える、
音声認識モデルのトレーニング方法。
【請求項2】
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するステップは、
前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得するステップと、
前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得するステップと、
前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するステップと、を含む、
請求項1に記載の音声認識モデルのトレーニング方法。
【請求項3】
前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するステップは、
前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するステップと、を含む、
請求項2に記載の音声認識モデルのトレーニング方法。
【請求項4】
前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
前記音声認識モデルのトレーニング方法は、
前記音声の音響的特徴を抽出するステップと、
前記エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得するステップと、
前記注意力モデルを使用して、前記符号化特徴を注意力処理して、前記注意力処理後の特徴を取得するステップと、をさらに含む、
請求項2または3に記載の音声認識モデルのトレーニング方法。
【請求項5】
予め設定された数の候補テキストに基づいて予測テキストを決定するステップは、
前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定するステップと、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するステップと、を含む、
請求項1から4のいずれか一項に記載の音声認識モデルのトレーニング方法。
【請求項6】
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得するステップは、
前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得するステップであって、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得されるステップと、
前記予測テキストの累積エラー数に基づいて、損失関数を取得するステップと、を含む、
請求項1から5のいずれか一項に記載の音声認識モデルのトレーニング方法。
【請求項7】
音声認識モデルのトレーニング装置であって、
前記音声認識モデルは、音響復号化モデルと言語モデルとを含み、
前記音声認識モデルのトレーニング装置は、
前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するための処理モジュールと、
前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、
前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするためのトレーニングモジュールと、を備える、
音声認識モデルのトレーニング装置。
【請求項8】
前記処理モジュールは、
前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得し、
前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得し、
前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる、
請求項7に記載の音声認識モデルのトレーニング装置。
【請求項9】
前記処理モジュールは、さらに、
前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる、
請求項8に記載の音声認識モデルのトレーニング装置。
【請求項10】
前記音声認識モデルは、エンコーダと注意力モデルをさらに含み、前記音響関連情報は注意力処理後の特徴であり、
前記音声認識モデルのトレーニング装置は、
前記音声の音響的特徴を抽出するための抽出モジュールと、
前記音響的特徴を符号化して、符号化特徴を取得するための符号化モジュールと、
前記符号化特徴を処理して、前記注意力処理後の特徴を取得するための注意力処理モジュールと、をさらに含む、
請求項8または9に記載の音声認識モデルのトレーニング装置。
【請求項11】
前記決定モジュールは、
前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定し、
前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストで前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる、
請求項7から10のいずれか一項に記載の音声認識モデルのトレーニング装置。
【請求項12】
前記トレーニングモジュールは、
前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、
前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる、
請求項7から11のいずれか一項に記載の音声認識モデルのトレーニング装置。
【請求項13】
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から6のいずれか一項に記載の音声認識モデルのトレーニング方法を実行する、
電子機器。
【請求項14】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1から6のいずれか一項に記載の音声認識モデルのトレーニング方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項15】
プロセッサによって実行される時に請求項1から6のいずれか一項に記載の音声認識モデルのトレーニング方法を実現する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、具体的には、音声認識、深層学習などの技術分野に関し、特に、音声認識モデルのトレーニング方法、装置、機器、および記憶媒体に関する。
【背景技術】
【0002】
自動音声認識(Automatic SPeech Recognition、ASR)は音声をテキストに変換する技術である。音声認識タスクを複数のサブタスクに分割する従来のASR方式とは異なり、エンドツーエンドの音声認識モデルの入力は、音響的特徴であり、出力は、直接に自然言語テキストであるため、モデルトレーニングプロセスを簡略化する。
【0003】
エンドツーエンドの音声認識モデルは、シーケンスツーシーケンス(Seq2Seq)モデルであってもよく、シーケンスツーシーケンスモデルはデコーダ(decoder)を含み、エンドツーエンドの音声認識モデルをトレーニングする時、デコーダは、ビームサーチ(beam search)方式を使用して、複数の復号化結果を取得することができる。
関連技術では、デコーダがビームサーチ(beam search)を実行する時、入力は、前の時刻の出力テキストおよび音響関連情報のみを含む。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、音声認識モデルのトレーニング方法、装置、機器、および記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、音声認識モデルのトレーニング方法を提供し、音響復号化モデルと言語モデルに基づいて、少なくとも一つの候補テキストの融合確率を計算するステップであって、前記候補テキストは、音声に対応する候補テキストであるステップと、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するステップと、前記音声に対応する標準テキストと前記予測テキストに基づいて、損失関数を計算し、前記損失関数に基づいて音声認識モデルをトレーニングするステップと、を含む。
【0006】
本開示の別の態様によれば、音声認識モデルのトレーニング装置を提供し、音響復号化モデルと言語モデルに基づいて、少なくとも一つの候補テキストの融合確率を計算するための処理モジュールであって、前記候補テキストは、音声に対応する候補テキストである処理モジュールと、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するための決定モジュールと、前記音声に対応する標準テキストと前記予測テキストに基づいて、損失関数を計算し、前記損失関数に基づいて音声認識モデルをトレーニングするためのトレーニングモジュールと、を含む。
【0007】
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。
【0008】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。
【0009】
本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。
【0010】
本開示の技術案によれば、音声認識モデルの認識精度を向上させることができる。
【0011】
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
【図面の簡単な説明】
【0012】
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
図1】本開示の第1の実施例による概略図である。
図2】本開示の第2の実施例による概略図である。
図3】本開示の第3の実施例による概略図である。
図4】本開示の第4の実施例による概略図である。
図5】本開示の第5の実施例による概略図である。
図6】本開示の第6の実施例による概略図である。
図7】本開示の実施例の音声認識モデルのトレーニング方法のいずれか一つ方法を実現するための電子機器の概略図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本開示の実施例を表現する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
【0014】
図1は本開示の第1の実施例による概略図である。本実施例は、音声認識モデルのトレーニング方法を提供し、前記音声認識モデル、音響デコーダと言語モデルを含み、当該方法は、以下のようなステップを含む。
101、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得する。
【0015】
102、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定する。
【0016】
103、前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングする。
【0017】
本開示の実施例では、音声認識モデルは、具体的には、エンドツーエンドの音声認識モデルであってもよく、エンドツーエンドの音声認識モデルは、具体的には、注意力(attention-based)に基づくシーケンスツーシーケンスモデルであってもよい。
【0018】
図2に示すように、エンドツーエンドの音声認識モデルは、エンコーダ(encoder)201、注意力モデル(attention)202、およびデコーダ203を含むことができる。エンコーダ201の入力は、音響的特徴であり、ベクトルxで表示し、音響的特徴は、様々な関連技術を使用して音声に対して特徴を抽出した後に取得することができ、例えば、音声信号をフレーム化した後、フレームごとに抽出されたFilterbank特徴である。エンコーダ201は、音響的特徴を符号化して、符号化特徴を取得し、符号化特徴は、ベクトルhencで表示する。注意力モデル202は、異なる符号化特徴に異なる重みを割り当てて、注意力処理後の特徴を取得し、ベクトルcで表示し、uは、時間情報(steP)のインデックスである。デコーダ203は、テキストを出力し、テキスト出力時に文字ごとに出力することができ、すなわち、デコーダ203は、入力特徴に基づいて出力テキストシーケンスを取得し、入力特徴は、前の時刻の出力テキストyu-1と注意力モデル202によって出力されるcを含み、デコーダ203の出力は、現在の時刻の出力テキストyである。さらに、yは、開始文字[SOS]と終了文字[EOS]を含むことができる。例えば、音声が「今日の天気(今天天气)」である場合、開始文字[SOS]に基づいて「今」を予測し、「今」に基づいて「天」を予測し、終了文字[EOS]を出力するまで、これに類推することができる。
【0019】
注意力モデルの出力は、従来のASR方式と類似する音響モデルの出力であることを理解することができ、したがって、注意力モデルの出力cは、音響関連情報であるのを理解することができ、関連技術では、デコーダの入力は、前の時刻の出力テキストyu-1と音響関連情報cのみを含み、これに応じて、関連技術におけるデコーダは、音響復号化モデルのみを含むのを理解することができる。
【0020】
本開示の実施例では、図2を参照して、復号化時に、音響関連情報に依存するだけでなく、言語関連情報にも依存する。図2に示すように、デコーダは、音響復号化モデルを含むだけでなく、言語モデル(Language Model、LM)をさらに含み、LMは、前の時刻の出力テキストに基づいて現在の時刻の出力テキストを予測するために用いられる。音響復号化モデルの出力ノードの数は、候補テキストの総数と同じであり、言語モデルの出力ノードの数も、候補テキストの総数と同じであり、候補テキストの数は、一つまたは複数であってもよく、複数は少なくとも二つを指す。例えば、候補テキストがM個である場合、音響復号化モデルの出力ノードと言語モデルの出力ノードの数はいずれもMであり、音響復号化モデルの出力と言語モデルの出力は、それぞれsoftmax処理を経て、[0、1]との間の数値を取得することができ、候補テキストが一つである場合、当該数値は、すなわち当該一つの候補テキストが標準テキストである確率であり、一般的に、候補テキストが複数である場合、複数の候補テキストにおける各候補テキストに対応する確率を決定する必要があり、各候補テキストに対応する確率を決定することを例として説明し、すなわち当該数値は、各候補テキストが標準テキストである確率であり、標準テキストは、音声に対応する正しいテキストを指す。区別するために、softmax処理後の音響復号化モデルの出力は、第1の確率Pと呼ぶことができ、softmax処理後の言語モデルの出力は、第2の確率Pと呼ぶことができ、その後、第1の確率Pと第2の確率Pに基づいて、各候補テキストの融合確率Pを計算し、例えば、第1の確率Pと第2の確率Pを加重加算し、加重加算値を融合確率Pとする。加重加算時の加重係数は、実際のニーズに応じて設置することができる。融合確率を計算する時、各候補テキストに対応して計算を行い、例えば、候補テキスト「今」に対応して、音響復号化モデルを使用して「今」の第1の確率を決定し、言語モデルを使用して「今」の第2の確率を決定し、また「今」の第1の確率と「今」の第2の確率に基づいて、「今」の融合確率を計算することができる。
【0021】
各候補テキストの融合確率を取得した後、beam searchの幅がNであると仮定すると、融合確率の大きい順にN個の候補テキストを選択することができる。例えば、「今日の天気(今天天气)」で、第1の時刻の出力文字を予測する時に、候補テキストは、「今」、「金」、および「斤」を含むことができ、「今」の融合確率が0.7であり、「金」の融合確率が0.2であり、「斤」の融合確率が0.1であると仮定し、N=2である場合、「今」、「金」を選択することができる。
【0022】
N個の候補テキストを選択した後、N個の候補テキストに基づいて予測テキストを決定することができる。例えば、直接にN個の候補テキストを予測テキストとすることができる。例えば、第1の時刻に対応して、「今」と「金」を予測テキストとする。
【0023】
予測テキストを取得した後、予測テキストと標準テキストに基づいて損失関数を計算することができる。標準テキストは音声の正しいテキストと指し、手動でラベリングする方式を使用して取得することができる、例えば、上記の例では、標準テキストが「今日の天気(今天天气)」である。損失関数は、区別度トレーニングアルゴリズムで使用される損失関数であってもよく、具体的な形式は、交差エントロピー関数など、実際のニーズに応じて選択することができ、本開示の実施例では、損失関数が単語エラー率(word error rate)関数であるのを例とする。以下の式で表示する。
【数1】
【数2】
【数3】
【数4】
【数5】
【数6】
数3は、損失関数であり、yは、i番目の予測テキストであり、N個の予測テキストを共有し、yは標準テキストであり、W(y,y)は、i番目の予測テキストのエラー数であり、すなわち、yは、yに対するエラー数であり、数4は、N個の予測テキストの平均エラー数であり、数5は、正規化後の値であり、数6は、出力文字yの分布確率であり、例えば、yの融合確率Pである。
【0024】
損失関数を取得した後、損失関数に基づいて音声認識モデルをトレーニングすることができ、すなわち、音声認識モデルは、ランダム方式または予めトレーニングモデルをロードする方式を使用して初期化し、初期化後、損失関数が収束するまで、音声認識モデルのパラメータを調整し、損失関数が収束する時の音声認識モデルを最終的に取得された音声認識モデルとする。音声認識モデルは、エンコーダ、注意力モデル、およびデコーダを含み、デコーダは、音響復号化モデルおよび言語モデルを含み、エンコーダ、音響復号化モデル、および言語モデルは、いずれもディープニューラルネットワークモデルであってもよく、具体的なモデル構造は、実際のニーズに応じて選択することができ、例えば、エンコーダ、音響デコーダモデル、言語モデルは、いずれもリカレントニューラルネットワーク(Recurrent Neural Network、RNN)モデルであり、注意力モデルは、マルチヘディング注意力モデル(multi-headed attention)を使用する。
【0025】
本実施例では、音響復号化モデルと言語モデルに基づいて候補テキストの融合確率を計算し、融合確率に基づいて候補テキストを選択し、候補テキストを選択する時に音響関連情報を参照するだけでなく、言語モデルの関連情報も参照することができ、音声認識モデルの認識精度を向上させることができる。
【0026】
図3は、本開示の第3の実施例による概略図である。本実施例は、音声認識モデルのトレーニング方法を提供し、本実施例は文字ごと出力を例として、図2に示す構造を組み合わせて、当該方法は、以下のようなステップを含み、
301、音声の音響的特徴を抽出する。
【0027】
音声は、例えば、「今日の天気(今天天气)」に対応する音声である。
【0028】
様々な関連技術を使用して音響的特徴を抽出することができ、音響的特徴は、例えば、Filterbank特徴である。
【0029】
302、エンコーダを使用して、前記音響的特徴を符号化して、符号化特徴を取得する。
【0030】
エンコーダは、長短期記憶ネットワーク(Long Short-Term Memory、LSTM)モデルのようなRNNモデルであってもよい。
【0031】
303、注意力モデルを使用して、前記符号化特徴に対して注意力処理を行って、注意力処理後の特徴を取得する。
【0032】
注意力モデルは、ルチヘディング注意力モデルのような様々な関連技術におけるモデルを使用することができる。
【0033】
本実施例では、音響的特徴を抽出し、音響的特徴を符号化し、符号化特徴に対して注意力処理を行うことによって、セマンティック特徴を取得することができ、セマンティック特徴を復号化して予測テキストを取得することができ、予測テキストに基づいて音声認識モデルをトレーニングすることができる。
【0034】
304、音響復号化モデルを使用して、前の時刻の出力文字および前記注意力処理後の特徴を処理して、前記音声に対応する少なくとも一つの候補テキスト中の各候補テキストに対応する第1の確率を取得する。
【0035】
音響復号化モデルは、長短期記憶ネットワーク(Long Short-Term Memory、LSTM)モデルのようなRNNモデルであってもよい。
【0036】
例えば、音声は「今日の天気(今天天气)」に対応する音声であり、現在の時刻は「今」を予測する場合、音響復号化モデルを使用して、開始文字[SOS]および現在の時刻注意力処理後の特徴cに基づいて処理して、各候補テキストに対応する第1の確率を取得し、例えば、各候補テキストが今、金などを含む場合、今の第1の確率、金の第1の確率などを予測して取得することができる。
【0037】
305、言語モデルを使用して、前の時刻の出力文字を処理して、前記各候補テキストに対応する第2の確率を取得する。
【0038】
言語モデルは、RNNモデル、Transformerモデルなどのようなニューラルネットワークモデルであってもよい。
【0039】
例えば、現在の時刻は「今」を予測する場合、言語モデルを使用して、開始文字[SOS] に基づいて処理して、各候補テキストに対応する第2の確率を取得することができ、例えば、各候補テキストが今、金などを含む場合、今の第2の確率、金の第2の確率などを予測して取得することができる。
【0040】
306、前記第1の確率と前記第2の確率に基づいて、前記各候補テキストに対応する融合確率を取得する。
【0041】
具体的には、前記各候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定することができる。
【0042】
例えば、「今」に対応して、「今」の第1の確率と第2の確率に対して加重加算した後、「今」の融合確率を取得することができる。
【0043】
本実施例では、第1の確率と第2の確率に対して加重加算して融合確率を取得することによって、融合確率の計算を容易に実現することができる。
【0044】
307、前記融合確率に基づいて、予め設定された数の候補テキストを選択する。
【0045】
具体的には、融合確率の大きい順に、数がbeam searchの幅の候補テキストを選択することができ、例えば、beam searchの幅は、Nで表示し、N=2であると仮定すると、第1の時刻に対応して、「今」と「金」の融合確率が比較的に高い二つであると仮定する場合、「今」と「金」を第1の時刻の候補テキストとして選択することができる。
【0046】
308、前記予め設定された数の候補テキストに前記音声に対応する標準テキストが存在するか否かを判断し、そうである場合、309を実行し、そうでない場合、310を実行する。
【0047】
音声に対応する標準テキストは、手動でラベリングする方式を使用して取得することができる、例えば、第1の時刻に対応して、標準テキストは「今」である。
【0048】
309、前記予め設定された数の候補テキストを予測テキストとして決定する。
【0049】
310、前記標準テキストを使用して前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えて、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定する。
【0050】
例えば、第1の時刻に対応して、標準テキストは「今」であり、選択されたN個の候補テキストの中には「金」と「斤」であり、「今」が含まれない場合、強制的に予測テキストに標準テキスト「今」を含むことができる。具体的には、コードの方式を使用することができ、指定された出力パスまたはランダムに選択された出力パスにおいて、標準テキストを使用して前の候補テキストを置き換えることができ、例えば、「今」を使用して「斤」を置き換えると、予測テキストは「今」と「金」である。
【0051】
関連技術では、区別度をトレーニングする時、一般的に、平均エラー率より高い候補テキストを抑制し、平均エラー率より低い候補テキストを推奨する。ただし、N個の候補テキストに完全に正しい結果がない場合、間違った結果を推奨する問題が発生する可能性がある。
【0052】
本実施例では、標準テキストを使用して候補テキストを置き換える方式によって、強制的に予測テキストに標準テキストを含むことができ、音声認識モデルの認識効果を向上させることができる。
【0053】
311、前記音声に対応する標準テキストと前記予測テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得する。
【0054】
現在のエラー数は、現在の時刻の予測テキストが標準テキストに対するエラー数を指し、履歴エラー数は、現在の時刻の前の履歴時刻の予測テキストが標準テキストに対するエラー数を指す。
【0055】
例えば、図4を参照すると、標準テキストは「今日の天気(今天天气)」であり、関連技術では、図4の上側に示すように、エラー数を計算する時、文全体に基づいて行い、3つの予測テキストの文全体エラー数(グローバルエラー数)はすべて1であるため、局部的なエラー調整を行うことができない。
【0056】
本実施例では、図4の下側に示すように、各時刻に基づいてエラー数を計算し、例えば、第1の時刻に対して、「今」「金」のエラー数を計算し、第2の時刻に対して、「今」と「天」の累積エラー数、および「金」と「天」の累積エラー数を計算し、第3の時刻に対して、「今」、「天」、および「天」の累積エラー数と、「金」、「天」、および「天」の累積エラー数と、「今」、「天」、および「添」の累積エラー数とを計算し、文全体の終了まで、これに類推する。
【0057】
本実施例では、累積エラー数を計算することによって、局部的なエラー調整を実現することができる。
【0058】
312、前記予測テキストの累積エラー数に基づいて、損失関数を取得する。
【0059】
313、前記損失関数に基づいて、音声認識モデルをトレーニングする。
【0060】
本実施例では、音響復号化モデルを使用して第1の確率を計算し、言語モデルを使用して第2の確率を計算し、第1の確率と第2の確率に基づいて融合確率を取得し、融合確率に基づいて候補テキストを選択することによって、より正しい候補テキストを取得し、音声認識モデルの認識効果をさらに向上させることができる。
【0061】
図5は、本開示の第5の実施例による概略図である。本実施例は、音声認識モデルのトレーニング装置を提供し、当該装置500は、処理モジュール501、決定モジュール502、およびトレーニングモジュール503を含む。処理モジュール501は、前記音響復号化モデルと前記言語モデルに基づいて、音声に対応する少なくとも一つの候補テキストの融合確率を取得するために用いられ、決定モジュール502は、前記融合確率に基づいて、予め設定された数の候補テキストを選択し、前記予め設定された数の候補テキストに基づいて予測テキストを決定するために用いられ、トレーニングモジュール503は、前記予測テキストと前記音声に対応する標準テキストに基づいて、損失関数を取得し、前記損失関数に基づいて前記音声認識モデルをトレーニングするために用いられる。
【0062】
いくつかの実施例では、前記処理モジュール501は、具体的には、前記音響復号化モデルを使用して、前の時刻の出力テキストと現在の時刻の音響関連情報を処理して、音声に対応する少なくとも一つの候補テキストに対応する第1の確率を取得し、前記言語モデルを使用して、前の時刻の出力テキストを処理して、前記候補テキストに対応する第2の確率を取得し、前記第1の確率と前記第2の確率に基づいて、前記候補テキストの融合確率を取得するために用いられる。
【0063】
いくつかの実施例では、前記処理モジュール501は、さらに、具体的には、前記候補テキストに対応して、前記第1の確率と前記第2の確率とを加重加算して、加重加算値を取得し、前記加重加算値を対応する候補テキストの融合確率として決定するために用いられる。
【0064】
いくつかの実施例では、前記決定モジュール502は、具体的には、前記予め設定された数の候補テキストに前記標準テキストが含まれる場合、前記予め設定された数の候補テキストを予測テキストとして決定することと、または、前記予め設定された数の候補テキストに前記標準テキストが含まれていない場合、前記標準テキストを使用して前記予め設定された数の候補テキストのうちの一つの候補テキストを置き換えして、置き換え後のテキストを取得し、前記置き換え後のテキストを予測テキストとして決定するために用いられる。
【0065】
いくつかの実施例では、前記トレーニングモジュール503は、具体的には、前記予測テキストと前記音声に対応する標準テキストに基づいて、前記予測テキストの累積エラー数を取得し、前記累積エラー数は、履歴エラー数と現在のエラー数に基づいて取得し、前記予測テキストの累積エラー数に基づいて、損失関数を取得するために用いられる。
【0066】
いくつかの実施例では、図6に示すように、音声認識モデルのトレーニング装置をさらに提供し、当該装置600は、処理モジュール601、決定モジュール602、トレーニングモジュール603を含み、抽出モジュール604、符号化モジュール605、および注意力処理モジュール606をさらに含む。
【0067】
抽出モジュール604は、前記音声の音響的特徴を抽出するために用いられ、符号化モジュール605は、前記音響的特徴を符号化して、符号化特徴を取得するために用いられ、注意力処理モジュール606は、前記符号化特徴を処理して、前記注意力処理後の特徴を取得するために用いられる。
【0068】
本開示の実施例では、音響的特徴を抽出し、音響的特徴を符号化し、符号化特徴に対して注意力処理を行うことによって、セマンティック特徴を取得することができ、セマンティック特徴を復号化して予測テキストを取得することができ、予測テキストに基づいて音声認識モデルをトレーニングすることができる。音響復号化モデルを使用して第1の確率を計算し、言語モデルを使用して第2の確率を計算し、第1の確率と第2の確率に基づいて融合確率を取得し、融合確率に基づいて候補テキストを選択することによって、より正しい候補テキストを取得し、音声認識モデルの認識効果をさらに向上させることができる。第1の確率と第2の確率に対して加重加算して融合確率を取得することによって、融合確率の計算を容易に実現することができる。累積エラー数を計算することによって、局部的なエラー調整を実現することができる。
【0069】
本開示の実施例では、異なる実施例における同一または類似の内容は、お互いに参照することができることを理解されたい。
【0070】
本開示の実施例における「第1」、「第2」などは、区別のためにのみ使用され、重要度の高低、タイミングの前後などを示さないことを理解されたい。
【0071】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。
【0072】
図7に示すように、本開示の実施例の例を実現するための電子機器700のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
【0073】
図7に示すように、電子機器700は計算ユニット701を含み、計算ユニット701は、読み取り専用メモリ(ROM)702に記憶されているコンピュータプログラムまたは記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM703には、電子機器700が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット701、ROM702、およびRAM703は、バス704を介してお互いに接続される。入出力(I/O)インターフェース705もバス704に接続される。
【0074】
電子機器700内の複数のコンポーネントは、I/Oインターフェース705に接続されており、キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカなどの出力ユニット707と、ディスク、光ディスクなどの記憶ユニット708と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を含む。通信ユニット709は、電子機器700が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0075】
計算ユニット701は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、音声認識モデルのトレーニング方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声認識モデルのトレーニング方法は、記憶ユニット708などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して電子機器700にロードおよび/またはインストールされる。コンピュータプログラムがRAM703にロードされて計算ユニット701によって実行される場合、上記の音声認識モデルのトレーニング方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット701は、他の任意の適切な方式(例えば、ファームウェアによって)を介して音声認識モデルのトレーニング方法を実行するように構成されることができる。
【0076】
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0077】
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
【0078】
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ(登録商標))、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
【0079】
ユーザとのインタラクションを提供するために、コンピュータ上においてここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0080】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
【0081】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
【0082】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0083】
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
図1
図2
図3
図4
図5
図6
図7