IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7530412非自己回帰翻訳モデルのトレーニング方法及びその装置
<>
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図1
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図2
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図3
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図4
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図5
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図6
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図7
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図8
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図9
  • 特許-非自己回帰翻訳モデルのトレーニング方法及びその装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-30
(45)【発行日】2024-08-07
(54)【発明の名称】非自己回帰翻訳モデルのトレーニング方法及びその装置
(51)【国際特許分類】
   G06F 40/44 20200101AFI20240731BHJP
【FI】
G06F40/44
【請求項の数】 9
(21)【出願番号】P 2022179428
(22)【出願日】2022-11-09
(65)【公開番号】P2023015236
(43)【公開日】2023-01-31
【審査請求日】2022-11-09
(31)【優先権主張番号】202111353568.8
(32)【優先日】2021-11-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ワン, シーヤン
(72)【発明者】
【氏名】ジャン, ルイキン
(72)【発明者】
【氏名】へー, ゾンジン
(72)【発明者】
【氏名】リー, ジー
(72)【発明者】
【氏名】ウー, フア
【審査官】中元 淳二
(56)【参考文献】
【文献】中国特許出願公開第111368560(CN,A)
【文献】中国特許出願公開第113204979(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
非自己回帰翻訳モデルのトレーニング方法であって、非自己回帰翻訳モデルのトレーニング装置によって実行され、
第1のソース言語テキスト、前記第1のソース言語テキストに対応する第1の目標言語テキスト及び前記第1の目標言語テキストの第1の目標長さを取得するステップと、
前記第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成するステップであって、前記トレーニング対象の非自己回帰翻訳モデルの初期化パラメータが、プレトレーニング翻訳モデルのパラメータに基づいて決定され、前記プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、前記第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、前記第2の混合テキストには、順に配列された前記第2のソース言語テキストに対応する第3の目標言語テキスト、前記セパレータ及び前記第2の目標言語テキストに対応する第3のソース言語テキストが含まれるステップと、
前記第1の目標言語テキスト、前記第1の目標言語予測テキスト、前記第1の目標長さ及び前記第1の予測長さに基づいて前記トレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得るステップと、
前記第1の混合テキスト、前記第2の混合テキスト及び前記第2の混合テキストの第2の目標長さを取得するステップと、
前記第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルに入力し、混合予測テキスト及び第2の予測長さを生成するステップと、
前記第2の混合テキスト、前記混合予測テキスト、前記第2の目標長さ及び前記第2の予測長さに基づいて前記トレーニング対象のプレトレーニング翻訳モデルをトレーニングし、前記プレトレーニング翻訳モデルを得るステップと、
を含み、
前記トレーニング対象のプレトレーニング翻訳モデルが、
前記トレーニング対象のプレトレーニング翻訳モデルにおけるエンコーダが前記第1の混合テキストを符号化して混合符号化情報を生成するステップと、
前記トレーニング対象のプレトレーニング翻訳モデルにおける長さ予測器が前記混合符号化情報に基づいて前記第2の予測長さを生成するステップと、
前記トレーニング対象のプレトレーニング翻訳モデルが前記第1の混合テキストに基づいて混合マスクテキストを生成するステップと、
前記トレーニング対象のプレトレーニング翻訳モデルにおけるデコーダが前記第2の予測長さ及び前記混合符号化情報に基づいて前記混合マスクテキストを復号化して前記混合予測テキストを生成するステップと、
によって前記混合予測テキスト及び前記第2の予測長さを生成する、非自己回帰翻訳モデルのトレーニング方法。
【請求項2】
前記トレーニング対象の非自己回帰翻訳モデルのエンコーダの初期化パラメータが、前記プレトレーニング翻訳モデルのエンコーダのパラメータに基づいて決定され、前記トレーニング対象の非自己回帰翻訳モデルのデコーダの初期化パラメータが、前記プレトレーニング翻訳モデルのデコーダのパラメータに基づいて決定される請求項1に記載のトレーニング方法。
【請求項3】
トレーニング対象のプレトレーニング翻訳モデルが前記第1の混合テキストに基づいて混合マスクテキストを生成するステップが、
前記トレーニング対象のプレトレーニング翻訳モデルが前記第1の混合テキストにおける単語をランダムにマスク操作して前記混合マスクテキストを生成するステップを含む請求項に記載のトレーニング方法。
【請求項4】
第1のソース言語テキスト、前記第1のソース言語テキストに対応する第1の目標言語テキスト及び前記第1の目標言語テキストの第1の目標長さを取得するように構成される第1の取得モジュールと、
前記第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成するように構成される第1の生成モジュールであって、前記トレーニング対象の非自己回帰翻訳モデルの初期化パラメータが、プレトレーニング翻訳モデルのパラメータに基づいて決定され、前記プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、前記第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、前記第2の混合テキストには、順に配列された前記第2のソース言語テキストに対応する第3の目標言語テキスト、前記セパレータ及び前記第2の目標言語テキストに対応する第3のソース言語テキストが含まれる第1の生成モジュールと、
前記第1の目標言語テキスト、前記第1の目標言語予測テキスト、前記第1の目標長さ及び前記第1の予測長さに基づいて前記トレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得るように構成される第1のトレーニングモジュールと、
前記第1の混合テキスト、前記第2の混合テキスト及び前記第2の混合テキストの第2の目標長さを取得するように構成される第2の取得モジュールと、
前記第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルに入力し、混合予測テキスト及び第2の予測長さを生成するように構成される第2の生成モジュールと、
前記第2の混合テキスト、前記混合予測テキスト、前記第2の目標長さ及び前記第2の予測長さに基づいて前記トレーニング対象のプレトレーニング翻訳モデルをトレーニングし、前記プレトレーニング翻訳モデルを得るように構成される第2のトレーニングモジュールと、
を備え
前記第2の生成モジュールが、
前記トレーニング対象のプレトレーニング翻訳モデルにおけるエンコーダが前記第1の混合テキストを符号化して混合符号化情報を生成するように構成される符号化ユニットと、
前記トレーニング対象のプレトレーニング翻訳モデルにおける長さ予測器が前記混合符号化情報に基づいて前記第2の予測長さを生成するように構成される長さ予測ユニットと、
前記トレーニング対象のプレトレーニング翻訳モデルが前記第1の混合テキストに基づいて混合マスクテキストを生成するように構成される生成ユニットと、
前記トレーニング対象のプレトレーニング翻訳モデルにおけるデコーダが前記第2の予測長さ及び前記混合符号化情報に基づいて前記混合マスクテキストを復号化して前記混合予測テキストを生成するように構成される復号化ユニットと、
を備える、非自己回帰翻訳モデルのトレーニング装置。
【請求項5】
前記トレーニング対象の非自己回帰翻訳モデルのエンコーダの初期化パラメータが、前記プレトレーニング翻訳モデルのエンコーダのパラメータに基づいて決定され、前記トレーニング対象の非自己回帰翻訳モデルのデコーダの初期化パラメータが、前記プレトレーニング翻訳モデルのデコーダのパラメータに基づいて決定される請求項に記載のトレーニング装置。
【請求項6】
前記生成ユニットが、
前記トレーニング対象のプレトレーニング翻訳モデルが前記第1の混合テキストにおける単語をランダムにマスク操作して前記混合マスクテキストを生成するように構成される生成サブユニットを備える請求項に記載のトレーニング装置。
【請求項7】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサに通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1からのいずれか一項に記載の方法を実行できる電子機器。
【請求項8】
コンピュータ指令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ指令は、コンピュータが請求項1からのいずれか一項に記載の方法を実行させるために使用される非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項9】
プロセッサによって実行される場合、請求項1からのいずれか一項に記載の方法のステップが実現されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術における深層学習及び自然言語処理分野に関し、特に、非自己回帰翻訳モデルのトレーニング方法及びその装置に関する。
【背景技術】
【0002】
現在、人工知能の発展に伴ってアプリケーション又はスマート端末が異なる言語間の翻訳変換を行うことが一般的になってきており、機械翻訳において、現在広く採用されているモデルアーキテクチャがエンコーダ-デコーダ構造であり、そのやり方として、先ずソース側の言語をエンコーダによって符号化し、テキスト情報をベクトル情報に変換し、それから符号化されたベクトル情報に基づいてデコーダを利用して目標側のテキストに翻訳する。「エンコーダ-デコーダ」構造において、エンコーダ及びデコーダの性能は、翻訳の品質を決定し、翻訳の速度を向上させるために非自己回帰復号化方式を利用して並列復号化を行うことで、1回の翻訳過程で複数の単語を同時に翻訳することができる。
【0003】
しかしながら、非自己回帰翻訳モデルは、データ量が少ない希少な資源言語では比較的良いモデル効果をトレーニングすることが困難であり、モデルは、トレーニング中に局所最適に陥りやすい。
【発明の概要】
【0004】
非自己回帰翻訳モデルのトレーニング方法及びその装置が提供される。
【0005】
第1の態様によれば、非自己回帰翻訳モデルのトレーニング方法が提供され、前記非自己回帰翻訳モデルのトレーニング方法は、第1のソース言語テキスト、前記第1のソース言語テキストに対応する第1の目標言語テキスト及び前記第1の目標言語テキストの第1の目標長さを取得するステップと、前記第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成するステップであって、前記トレーニング対象の非自己回帰翻訳モデルの初期化パラメータが、プレトレーニング翻訳モデルのパラメータに基づいて決定され、前記プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、前記第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、前記第2の混合テキストには、順に配列された前記第2のソース言語テキストに対応する第3の目標言語テキスト、前記セパレータ及び前記第2の目標言語テキストに対応する第3のソース言語テキストが含まれるステップと、前記第1の目標言語テキスト、前記第1の目標言語予測テキスト、前記第1の目標長さ及び前記第1の予測長さに基づいて前記トレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得るステップと、を含む。
【0006】
第2の態様によれば、非自己回帰翻訳モデルのトレーニング装置が提供され、前記非自己回帰翻訳モデルのトレーニング装置は、第1のソース言語テキスト、前記第1のソース言語テキストに対応する第1の目標言語テキスト及び前記第1の目標言語テキストの第1の目標長さを取得するように構成される第1の取得モジュールと、前記第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成するように構成される第1の生成モジュールであって、前記トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニング翻訳モデルのパラメータに基づいて決定され、前記プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、前記第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、前記第2の混合テキストには、順に配列された前記第2のソース言語テキストに対応する第3の目標言語テキスト、前記セパレータ及び前記第2の目標言語テキストに対応する第3のソース言語テキストが含まれる第1の生成モジュールと、前記第1の目標言語テキスト、前記第1の目標言語予測テキスト、前記第1の目標長さ及び前記第1の予測長さに基づいて前記トレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得るように構成される第1のトレーニングモジュールと、を備える。
【0007】
第3の態様によれば、電子機器が提供され、前記電子機器は、プロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが本開示の第1の態様に記載の非自己回帰翻訳モデルのトレーニング方法を実行できる。
【0008】
第4の態様によれば、コンピュータ指令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータ指令は、コンピュータが本開示の第1の態様に記載の非自己回帰翻訳モデルのトレーニング方法を実行させるために使用される。
【0009】
第5の態様によれば、コンピュータプログラムが提供され、前記コンピュータプログラムがプロセッサによって実行される場合、本開示の第1の態様に記載の非自己回帰翻訳モデルのトレーニング方法のステップが実現される。
【0010】
なお、本部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
【図面の簡単な説明】
【0011】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
図1】本開示の第1の実施例に係る非自己回帰翻訳モデルのトレーニング方法の概略フローチャートである。
図2】本開示に係る非自己回帰翻訳モデルのトレーニング方法における非自己回帰翻訳モデルのトレーニングブロック図である。
図3】本開示に係る非自己回帰翻訳モデルのトレーニング方法における非自己回帰翻訳モデルの1回目の概略推論図である。
図4】本開示に係る非自己回帰翻訳モデルのトレーニング方法における非自己回帰翻訳モデルのn+1回目の概略推論図である。
図5】本開示の第2の実施例に係る非自己回帰翻訳モデルのトレーニング方法の概略フローチャートである。
図6】本開示の第3の実施例に係る非自己回帰翻訳モデルのトレーニング方法の概略フローチャートである。
図7】本開示に係る非自己回帰翻訳モデルのトレーニング方法におけるプレトレーニング翻訳モデルの概略図である。
図8】本開示の第1の実施例に係る非自己回帰翻訳モデルのトレーニング装置のブロック図である。
図9】本開示の第1の実施例に係る非自己回帰翻訳モデルのトレーニング装置のブロック図である。
図10】本開示の実施例の非自己回帰翻訳モデルのトレーニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0013】
人工知能(Artificial Intelligence、AIと略称する)は、人間の知能をシミュレート、拡大及び拡張するための理論、方法、技術及び応用ステムを研究、開発するための技術科学である。現在、AI技術は、自動化の程度が高く、精度が高く、コストが低いという利点があり、広く応用されている。
【0014】
深層学習(Deep Learning、DLと略称する)は、機械学習(Machine Learning、MLと略称する)分野における新たな研究方向であり、サンプルデータの内在法則及び表現階層を学習することであり、これらの学習過程で得られる情報は、文字、画像及び音声などのデータの説明に大きく役立つ。究極的な目標は、機械が人間のように分析学習能力を持ち、文字、画像及び音声などのデータを認識できるようにすることである。具体的な研究内容について言えば、畳み込み演算に基づくニューラルネットワークシステムである畳み込みニューラルネットワーク及び多層ニューロンに基づく自己符号化ニューラルネットワークを主に含み、多層自己符号化ネットワークの方式でプレトレーニングし、識別情報を組み合わせてニューラルネットワークの重みの深層信頼ネットワークをさらに最適化する。深層学習は、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推奨及びパーソナライズ技術及び他の関連分野において多くの成果を上げている。深層学習は、機械に視聴や思想などの人間の活動を模倣させ、多くの複雑なパターン認識の課題を解決し、人工知能の関連技術を大きく進歩させた。
【0015】
自然言語処理(Natural Language Processing、NLPと略称する)は、コンピュータ科学分野及び人工知能分野における重要な方向であり、主に人間とコンピュータ間の自然言語による効果的な通信を実現できる様々な理論及び方法を研究しており、自然言語処理は、言語学、コンピュータ科学、数学を一体化した科学であり、したがって、この分野の研究は、自然言語、すなわち、人々が日常的に使う言語に関わるので、言語学の研究と密接に関連しているが、重要な違いがある。自然言語処理は、一般的に自然言語を研究するのではなく、自然言語通信を効果的に実現するコンピュータシステム、特にその中のソフトウェーアシステムを開発することにあるため、コンピュータ科学の一部である。
【0016】
以下に、図面を組み合わせて本開示の実施例の非自己回帰翻訳モデルのトレーニング方法及びその装置を説明する。
【0017】
図1は、本開示の第1の実施例に係る非自己回帰翻訳モデルのトレーニング方法の概略フローチャートである。
【0018】
図1に示すように、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法は、具体的に以下のステップを含むことができる。
【0019】
S101において、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを取得する。
【0020】
具体的に、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法の実行主体は、本開示の実施例に係る非自己回帰翻訳モデルのトレーニング装置であってもよく、当該非自己回帰翻訳モデルのトレーニング装置は、データ情報処理能力を有するハードウェア機器及び/又は当該ハードウェア機器を動作させるために必要なソフトウェアであってもよい。選択可能に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、及び他のデバイスを含むことができる。ここで、ユーザ端末には、携帯電話、パソコン、スマート音声対話装置、スマート家電、車載端末などが含まれるが、これらに限定されない。
【0021】
具体的な実施において、トレーニングデータの複数の言語の中から1つの言語、例えば、中国語をソース言語とし、他の異なる言語、例えば、英語を目標言語として選択し、トレーニングデータからソース言語での翻訳対象のテキストを第1のソース言語テキストとして取得し、第1のソース言語テキストと意味が同じ目標言語でのテキストを第1の目標言語テキストとする。これにより、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを得ることができ、例えば、第1の目標長さが第1の目標言語テキストの単語数及び文字数などであってもよい。
【0022】
例を挙げて説明すると、中国語をソース言語とし、英語を目標言語とし、取得された第1のソース言語テキストは「これはリンゴだ」であり、第1のソース言語テキストに対応する第1の目標言語テキストは「This is an apple」であり、第1の目標言語テキストの第1の目標長さは「This is an apple」の単語数4である。
【0023】
S102において、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成する。
【0024】
本開示の実施例において、オープンソースであるMBARTに基づいてトレーニング対象の非自己回帰翻訳モデルを構築することができ、当該モデルは、エンコーダ、デコーダ及び長さ予測器に基づいてテキスト翻訳を実現する。ここで、トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニングの翻訳モデルのパラメータに基づいて決定することができる。
【0025】
具体的な実施において、非自己回帰翻訳モデルに基づいて対応するトレーニング対象のプレトレーニング翻訳モデルを構築し、大量の単語データに基づいて第1の混合テキスト及び第2の混合テキストを生成し、第1の混合テキスト及び第2の混合テキストをトレーニングデータとしてトレーニング対象のプレトレーニング翻訳モデルをトレーニングし、すなわち、第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルに入力してテキスト翻訳を行い、混合予測テキストを出力し、出力された混合予測テキストを第2の混合テキストと比較することにより、トレーニング対象のプレトレーニング翻訳モデルのパラメータを調整してプレトレーニング翻訳モデルを得る。ここで、第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、第2の混合テキストには、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキストが含まれる。なお、第2のソース言語テキストと第2の目標言語テキストの意味は同じである必要はない。
【0026】
例えば、中国語をソース言語とし、英語を目標言語とし、第1の混合テキストは「他去上学了(彼女は学校に行った)</s>It is sunny today」、第2の混合テキストは「She went to school</s>今天是晴天(今日は晴れだ)」とすることができる。
【0027】
トレーニング対象の非自己回帰翻訳モデルがパラメータ初期化された後、トレーニング対象の非自己回帰翻訳モデルをトレーニングし、図2に示すように、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、エンコーダが第1のソース言語テキストを符号化して符号化情報を生成し、長さ予測器が符号化情報に基づいて第1の予測長さである第1の目標言語予測テキストの長さを生成し、本開示の実施例は、第1のソース言語テキストに対応する第1の目標言語テキストをマスク(Mask)操作し、第1の目標テキストのマスクテキストを生成し、これをデコーダの入力とし、デコーダが符号化情報に基づいて第1の目標言語テキストのマスクテキストを復号化し、第1の目標言語予測テキストを生成する。
【0028】
S103において、第1の目標言語テキスト、第1の目標言語予測テキスト、第1の目標長さ及び第1の予測長さに基づいてトレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得る。
【0029】
本開示の実施例において、第1の目標言語テキストと第1の目標言語予測テキストとのマッチング度及び第1の目標長さと第1の予測長さが同じであるか否かに基いて非自己回帰翻訳モデルのパラメータを調整し、パラメータ調整後の非自己回帰翻訳モデルを再度トレーニングし、反復トレーニングによってパラメータ最適化を継続して非自己回帰翻訳モデルを得る。
【0030】
具体的な実施において、本開示の実施例の非自己回帰翻訳モデルに基づいてソース言語テキストをテキスト翻訳する時に、長さ予測器によって目標言語テキストの長さを予測し、予測長さに基づいて目標言語テキストを生成し、非自己回帰翻訳モデルの効果を向上させる。
【0031】
例を挙げて説明すると、非自己回帰翻訳モデルがソース言語テキストをテキスト翻訳する時に、複数回の推論過程を含み、図3に示すように、非自己回帰翻訳モデルの1回目の推論過程は、翻訳対象のソース言語テキストをトレーニングされた非自己回帰翻訳モデルに入力し、デコーダは、翻訳対象のソース言語テキストを符号化して符号化情報を生成し、長さ予測器は、符号化情報に基づいて予測されたテキスト長さNを出力し、長さがNのマスクテキスト「N個のmask」をデコーダに入力し、デコーダは、符号化情報に基づいてマスクテキストを復号化して出力テキストを得る。
【0032】
例えば、翻訳対象のソース言語テキストが「これはリンゴだ」、予測のテキスト長さNが4である場合、マスクテキストが「<mask> <mask> <mask> <mask>」であり、デコーダによって復号化された後、「that is a apple」などの出力テキストを得る。
【0033】
図4に示すように、非自己回帰翻訳モデルがn+1回目の推論を行った時に(nが0ではない自然数である)、復号化が正確な確率に基づいてn回目の推論過程の出力テキストから確率が比較的高いK個の文字/単語を選択し、残りの文字/単語列をマスク操作してn回目の推論過程の出力テキストに対応するマスクテキストを生成し、これを現在の推論過程におけるデコーダの入力テキストとし、デコーダは、符号化情報に基づいて入力されたテキストを再度復号化し、出力テキストを得る。
【0034】
例えば、2回目の推論を行った時に、デコーダの入力テキストが「<mask> is <mask> apple」であってもよく、デコーダが「<mask> is <mask> apple」を復号化して「This is an apple」などの2回目の推論の出力テキストを得る。
【0035】
なお、最後の推論過程の出力テキストを非自己回帰翻訳モデルが出力した目標言語予測テキストとし、ここで、推論過程の回数は必要に応じて設定してもよく、本開示では限定しない。
【0036】
以上より、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法として、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを取得し、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成し、ここで、トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニング翻訳モデルのパラメータに基づいて決定され、プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、第2の混合テキストには、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキストが含まれ、第1の目標言語テキスト、第1の目標言語予測テキスト、第1の目標長さ及び第1の予測長さに基づいてトレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得る。本開示は、プレトレーニング翻訳モデルによってトレーニング対象の非自己回帰翻訳モデルに対してパラメータ初期化を行い、これに基づいて非自己回帰翻訳モデルのトレーニングを行うことにより、トレーニング時間を短縮し、局所最適を回避し、モデルのトレーニング効果を向上させることができる。
【0037】
図5は、本開示の第2の実施例に係る非自己回帰翻訳モデルのトレーニング方法の概略フローチャートである。
【0038】
図5に示すように、図1に示す実施例に基づいて、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法は、プレトレーニング翻訳モデルの生成方法をさらに含み、具体的に以下のステップを含むことができる。
【0039】
S501において、第1の混合テキスト、第2の混合テキスト及び第2の混合テキストの第2の目標長さを取得する。
【0040】
本開示の実施例は、トレーニングデータから第2のソース言語テキスト、セパレータ、第2の目標言語テキストを順に含む第1の混合テキストを取得し、第2の混合テキストは、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキスト、及び第2の混合テキストの第2の目標長さを含む。
【0041】
S502において、第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルに入力し、混合予測テキスト及び第2の予測長さを生成する。
【0042】
本開示の実施例において、第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルに入力してエンコーダ、長さ予測器及びデコーダによって混合予測テキスト及び第2の予測長さを生成する。
【0043】
S503において、第2の混合テキスト、混合予測テキスト、第2の目標長さ及び第2の予測長さに基づいてトレーニング対象のプレトレーニング翻訳モデルをトレーニングし、プレトレーニング翻訳モデルを得る。
【0044】
本開示の実施例において、第2の混合テキストと混合予測テキストとのマッチング度及び第2の目標長さと第2の予測長さが同じであるか否かに基いてプレトレーニング翻訳モデルのパラメータを調整し、パラメータ調整後のプレトレーニング翻訳モデルを再度トレーニングし、反復トレーニングによってパラメータ最適化を継続してトレーニングされたプレトレーニング翻訳モデルを得る。
【0045】
さらに、上記実施例に基づいて、図6に示すように、トレーニング対象のプレトレーニング翻訳モデルは、以下のステップによって混合予測テキスト及び第2の予測長さを生成する。
【0046】
S601において、トレーニング対象のプレトレーニング翻訳モデルにおけるエンコーダは、第1の混合テキストを符号化し、混合符号化情報を生成する。
【0047】
本開示の実施例において、図7に示すように、第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルにおけるエンコーダに入力し、エンコーダによって第1の混合テキストを符号化し、符号化混合情報を生成する。
【0048】
S602において、トレーニング対象のプレトレーニング翻訳モデルにおける長さ予測器は、混合符号化情報に基づいて第2の予測長さを生成する。
【0049】
S603において、トレーニングされたプレトレーニング翻訳モデルは、第1の混合テキストに基づいて混合マスクテキストを生成する。
【0050】
本開示の実施例は、第1の混合テキストにおける単語をマスク(Mask)操作し、対応する混合マスクテキストを生成し、例えば、第1の混合テキストにおける第2のソース言語テキストと第2の目標言語テキストの順序を反転にし、順序を反転にしたテキストにおける単語をランダムにマスク処理し、例えば、第1の混合テキストが「これはリンゴだ</s>This is an apple」である場合、混合マスクテキストが「<mask> is an apple</s>これ<mask>リンゴだ」であってもよい。
【0051】
S604において、トレーニング対象のプレトレーニング翻訳モデルにおけるエンコーダは、第2の予測長さ及び符号化情報に基づいて混合マスクテキストを復号化し、混合予測テキストを生成する。
【0052】
本開示の実施例において、トレーニング対象のプレトレーニング翻訳モデルにおけるデコーダは、長さ予測器が出力した第2の予測長さ及びエンコーダが出力した符号化情報に基づいて混合マスクテキストを復号化し、混合予測テキストを生成する。
【0053】
これにより、トレーニングされたプレトレーニング翻訳モデルを取得し、プレトレーニング翻訳モデルのエンコーダのパラメータに基づいてトレーニング対象の非自己回帰翻訳モデルの初期化パラメータを決定し、プレトレーニング翻訳モデルのデコーダのパラメータに基づいてトレーニング対象の非自己回帰翻訳モデルのデコーダのパラメータを決定することができる。
【0054】
以上より、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法として、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを取得し、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成し、ここで、トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニング翻訳モデルのパラメータに基づいて決定され、プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、第2の混合テキストには、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキストが含まれ、第1の目標言語テキスト、第1の目標言語予測テキスト、第1の目標長さ及び第1の予測長さに基づいてトレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得る。本開示は、大量の単語データによってトレーニング対象のプレトレーニングモデルをトレーニングし、プレトレーニング翻訳モデルのエンコーダのパラメータに基づいてトレーニング対象の非自己回帰翻訳モデルの初期化パラメータを決定し、プレトレーニング翻訳モデルのデコーダのパラメータに基づいてトレーニング対象の非自己回帰翻訳モデルのデコーダのパラメータを決定し、これに基づいて非自己回帰翻訳モデルのトレーニングを行うことにより、トレーニング時間を短縮し、局所最適を回避し、モデルのトレーニング効果を向上させることができる。
【0055】
図8は、本開示の第1の実施例に係る非自己回帰翻訳モデルのトレーニング装置のブロック図である。
【0056】
図8に示すように、本開示の実施例の非自己回帰翻訳モデルのトレーニング装置800は、第1の取得モジュール801、第1の生成モジュール802及び第1のトレーニングモジュール803を備える。
【0057】
第1の取得モジュール801は、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを取得するように構成される。
【0058】
第1の生成モジュール802は、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成するように構成され、ここで、トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニング翻訳モデルのパラメータに基づいて決定され、プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、第2の混合テキストには、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキストが含まれる。
【0059】
第1のトレーニングモジュール803は、第1の目標言語テキスト、第1の目標言語予測テキスト、第1の目標長さ及び第1の予測長さに基づいてトレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得るように構成される。
【0060】
なお、上述した非自己回帰翻訳モデルのトレーニング方法の実施例に対する説明は、本開示の実施例の非自己回帰翻訳モデルのトレーニング装置にも適用されるが、具体的なプロセスはここで詳しく説明しない。
【0061】
以上より、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法として、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを取得し、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成し、ここで、トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニング翻訳モデルのパラメータに基づいて決定され、プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、第2の混合テキストには、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキストが含まれ、第1の目標言語テキスト、第1の目標言語予測テキスト、第1の目標長さ及び第1の予測長さに基づいてトレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得る。本開示は、プレトレーニング翻訳モデルによってトレーニング対象の非自己回帰翻訳モデルに対してパラメータ初期化を行い、これに基づいて非自己回帰翻訳モデルのトレーニングを行うことにより、トレーニング時間を短縮し、局所最適を回避し、モデルのトレーニング効果を向上させることができる。
【0062】
図9は、本開示の第2の実施例に係る非自己回帰翻訳モデルのトレーニング装置のブロック図である。
【0063】
図9に示すように、本開示の実施例の非自己回帰翻訳モデルのトレーニング装置900は、第1の取得モジュール901、第1の生成モジュール902及び第1のトレーニングモジュール903を備える。
【0064】
ここで、第1の取得モジュール901は、前の実施例における第1の取得モジュール801と同じ構造及び機能を有し、第1の生成モジュール902は、前の実施例における第1の生成モジュール802と同じ構造及び機能を有し、第1のトレーニングモジュール903は、前の実施例における1のトレーニングモジュール803と同じ構造及び機能を有する。
【0065】
さらに、トレーニング対象の非自己回帰翻訳モデルのエンコーダの初期化パラメータは、プレトレーニング翻訳モデルのエンコーダのパラメータに基づいて決定され、トレーニング対象の非自己回帰翻訳モデルのデコーダの初期化パラメータは、プレトレーニング翻訳モデルのデコーダのパラメータに基づいて決定される。
【0066】
さらに、トレーニング装置900は、第1の混合テキスト、第2の混合テキスト及び第2の混合テキストの第2の目標長さを取得するように構成される第2の取得モジュール904と、第1の混合テキストをトレーニング対象のプレトレーニング翻訳モデルに入力し、混合予測テキスト及び第2の予測長さを生成するように構成される第2の生成モジュール905と、第2の混合テキスト、混合予測テキスト、第2の目標長さ及び第2の予測長さに基づいてトレーニング対象のプレトレーニング翻訳モデルをトレーニングし、プレトレーニング翻訳モデルを得るように構成される第2のトレーニングモジュール906と、をさらに備えることができる。
【0067】
さらに、第2の生成モジュール905は、具体的には、トレーニング対象のプレトレーニング翻訳モデルにおけるエンコーダが第1の混合テキストを符号化して混合符号化情報を生成するように構成される符号化ユニットと、トレーニング対象のプレトレーニング翻訳モデルにおける長さ予測器が混合符号化情報に基づいて第2の予測長さを生成するように構成される長さ予測ユニットと、トレーニング対象のプレトレーニング翻訳モデルが第1の混合テキストに基づいて混合マスクテキストを生成するように構成される生成ユニットと、トレーニング対象のプレトレーニング翻訳モデルにおけるデコーダが第2の予測長さ及び符号化情報に基づいて混合マスクテキストを復号化して混合予測テキストを生成するように構成される復号化ユニットと、を備えることができる。
【0068】
さらに、生成ユニットは、具体的には、トレーニング対象のプレトレーニング翻訳モデルが第1の混合テキストにおける単語をランダムにマスク操作して混合マスクテキストを生成するように構成される生成サブユニットを備えることができる。
【0069】
以上より、本開示の実施例の非自己回帰翻訳モデルのトレーニング方法として、第1のソース言語テキスト、第1のソース言語テキストに対応する第1の目標言語テキスト及び第1の目標言語テキストの第1の目標長さを取得し、第1のソース言語テキストをトレーニング対象の非自己回帰翻訳モデルに入力し、第1の目標言語予測テキスト及び第1の予測長さを生成し、ここで、トレーニング対象の非自己回帰翻訳モデルの初期化パラメータは、プレトレーニング翻訳モデルのパラメータに基づいて決定され、プレトレーニング翻訳モデルのトレーニングデータが第1の混合テキスト及び第2の混合テキストであり、第1の混合テキストには、順に配列された第2のソース言語テキスト、セパレータ及び第2の目標言語テキストが含まれ、第2の混合テキストには、順に配列された第2のソース言語テキストに対応する第3の目標言語テキスト、セパレータ及び第2の目標言語テキストに対応する第3のソース言語テキストが含まれ、第1の目標言語テキスト、第1の目標言語予測テキスト、第1の目標長さ及び第1の予測長さに基づいてトレーニング対象の非自己回帰翻訳モデルをトレーニングし、非自己回帰翻訳モデルを得る。本開示は、プレトレーニング翻訳モデルによってトレーニング対象の非自己回帰翻訳モデルに対してパラメータ初期化を行い、これに基づいて非自己回帰翻訳モデルのトレーニングを行うことにより、トレーニング時間を短縮し、局所最適を回避し、モデルのトレーニング効果を向上させることができる。
【0070】
本開示の技術案において、係るユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び開示などの処理は、いずれも関連法律法規の規定に適合し、公序良俗に反していない。
【0071】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。
【0072】
図10は、本開示の実施例を実施するために使用され得る例示的な電子機器1000の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限するものではない。
【0073】
図10に示すように、電子機器1000は、リードオンリーメモリ(ROM)1002に記憶されているコンピュータプログラム、又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット1001を備える。RAM1003には、電子機器1000の動作に必要な様々なプログラム及びデータが記憶されていてもよい。計算ユニット1001、ROM1002及びRAM1003は、バス1004を介して互いに接続されている。入出力(I/O)インタフェース1005もバス1004に接続されている。
【0074】
電子機器1000における、キーボード、マウスなどの入力ユニット1006と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1007と、磁気ディスク、光ディスクなどの記憶ユニット1008と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009と、を備える複数のコンポーネントは、入出力(I/O)インタフェース1005に接続されている。通信ユニット1009は、電子機器1000がインタネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0075】
計算ユニット1001は、各種の処理及び計算能力を有する汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、セントラルプロセッシングユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、各種の専用人工知能(AI)計算チップ、各種の機械学習モデルアルゴリズムを運行する計算ユニット、デジタルシグナルプロセッサ(DSP)、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1001は、上述したそれぞれの方法及び処理、例えば、図1図7に示す非自己回帰翻訳モデルのトレーニング方法を実行する。例えば、いくつかの実施例で、非自己回帰翻訳モデルのトレーニング方法は、記憶ユニット1008のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例で、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1009を介して電子機器1000にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM1003にロッドされて計算ユニット1001によって実行された場合、上述した語句処理方法の1つ又は複数のステップを実行することができる。あるいは、他の実施例で、計算ユニット1001は、他の任意の適切な形態で(例えば、ファーとウェアにより)非自己回帰翻訳モデルのトレーニング方法を実行するように構成されてもよい。
【0076】
本明細書で上述したシステム及び技術の各種の実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組合せにおいて実現してもよい。これらの各種の実施方式は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステムにおいて実行及び/又は解釈することができる1つ又は複数のコンピュータプログラムにおいて実現されてもよく、当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を伝送することができる専用及び/又は汎用プログラマブルプロセッサであってもよい。
【0077】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
【0078】
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM)又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0079】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0080】
ここで説明されるシステム及び技術は、バックエンドユニットを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアユニットを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドユニットを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
【0081】
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つである。サーバは、分散システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。
【0082】
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示の上記実施例に示す非自己回帰翻訳モデルのトレーニング方法のステップが実現される。
【0083】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
【0084】
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10