IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京小米智能科技有限公司の特許一覧

特許7112445機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体
<>
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図1
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図2
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図3
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図4
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図5
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図6
  • 特許-機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-26
(45)【発行日】2022-08-03
(54)【発明の名称】機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体
(51)【国際特許分類】
   G06F 40/44 20200101AFI20220727BHJP
   G06N 20/00 20190101ALI20220727BHJP
【FI】
G06F40/44
G06N20/00
【請求項の数】 11
(21)【出願番号】P 2020055522
(22)【出願日】2020-03-26
(65)【公開番号】P2021096807
(43)【公開日】2021-06-24
【審査請求日】2020-03-26
(31)【優先権主張番号】201911281744.4
(32)【優先日】2019-12-13
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】319003367
【氏名又は名称】北京小米智能科技有限公司
【氏名又は名称原語表記】Beijing Xiaomi Intelligent Technology Co.,Ltd.
【住所又は居所原語表記】NO.003, floor 3, building 6, yard 33, middle Xierqi Road, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】▲孫▼ 于惠
(72)【発明者】
【氏名】李 ▲響▼
(72)【発明者】
【氏名】李 京蔚
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2009-064051(JP,A)
【文献】米国特許第10437933(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/44
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
複数の分野が混合したトレーニングデータセットを取得し、前記トレーニングデータセットは、複数のトレーニングデータペアを含み、各トレーニングデータペアは、セマンティックスが同じであるソース言語シーケンス及び目標言語シーケンスを含むステップと、
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応するステップと、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップと、
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするステップと、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするステップと、を含み、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするステップは、
各前記分野データサブセットを前記混合分野モデルに入力すると共に、前記分野データサブセットに対応する前記指定最適化目標に応じて前記混合分野モデルをトレーニングするステップを含み、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップは、
各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするステップと、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するステップと、
前記少なくとも2つの候補最適化目標に基づいて、前記分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするステップと、を含み、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するステップは、
各前記分野データサブセットに対して最適化目標関数を構築し、前記最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、前記分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足するステップと、
分野の重みpの少なくとも2つの値を選択し、前記最適化目標関数に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を取得するステップと、を含む
ことを特徴とする機械翻訳モデルトレーニング装置によって実行される機械翻訳モデルトレーニング方法。
【請求項2】
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応するステップは、
前記複数の分野が混合したトレーニングデータセットにおける複数の前記トレーニングデータペアをデータ分野の分類モデルに導入して、複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの前記分野データサブセットを取得し、各前記分野データサブセットには、少なくとも1つの前記トレーニングデータペアが含まれるステップを含む
ことを特徴とする請求項1に記載の機械翻訳モデルトレーニング方法。
【請求項3】
各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするステップは、
各前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、前記分野データサブセットに対応する教師モデルをトレーニングするステップを含む
ことを特徴とする請求項に記載の機械翻訳モデルトレーニング方法。
【請求項4】
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするステップは、
各前記分野データサブセットに対応するテストデータセットを構築するステップと、
前記分野データサブセットに対応するテストデータセットに基づいて、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルの正確性をテストするステップと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前期分野データサブセットの指定最適化目標とするステップと、を含む
ことを特徴とする請求項1に記載の機械翻訳モデルトレーニング方法。
【請求項5】
複数の分野が混合したトレーニングデータセットを取得し、前記トレーニングデータセットは、複数のトレーニングデータペアを含み、各トレーニングデータペアは、セマンティックスが同じであるソース言語シーケンス及び目標言語シーケンスを含むように構成される取得モジュールと、
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応するように構成される分類モジュールと、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするように構成される第1トレーニングモジュールと、
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするように構成されるテストモジュールと、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングし、さらに、各前記分野データサブセットを前記混合分野モデルに入力すると共に、前記分野データサブセットに対応する前記指定最適化目標に応じて前記混合分野モデルをトレーニングするように構成される第2のトレーニングモジュールと、を含み、
前記第1のトレーニングモジュールは、
各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするように構成される第1のトレーニングモデルサブモジュールと、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するように構成される確定サブモジュールと、
前記少なくとも2つの候補最適化目標に基づいて、前記分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするように構成される第2のトレーニングサブモジュールと、を含み、
前記確定サブモジュールは、
各前記分野データサブセットに対して最適化目標関数を構築し、前記最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、前記分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足し、
分野の重みpの少なくとも2つの値を選択し、前記最適化目標関数に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を取得するように構成される
ことを特徴とする機械翻訳モデルトレーニング装置。
【請求項6】
前記分類モジュールは、
前記複数の分野が混合したトレーニングデータセットにおける複数の前記トレーニングデータペアをデータ分野の分類モデルに導入して、複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの前記分野データサブセットを取得し、各前記分野データサブセットには、少なくとも1つの前記のトレーニングデータペアが含まれるように構成される
ことを特徴とする請求項に記載の機械翻訳モデルトレーニング装置。
【請求項7】
前記第1のトレーニングサブモジュールは、
各前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、前記分野データサブセットに対応する教師モデルをトレーニングするように構成されることを特徴とする請求項に記載の機械翻訳モデルトレーニング装置。
【請求項8】
前記テストモジュールは、
各前記分野データサブセットに対応するテストデータセットを構築するように構成される構築サブモジュールと、
前記分野データサブセットに対応するテストデータセットに基づいて、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルの正確性をテストするように構成されるテストサブモジュールと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするように構成される選択サブモジュールと、を含む
ことを特徴とする請求項に記載の機械翻訳モデルトレーニング装置。
【請求項9】
プロセッサと、
前記プロセッサの実行可能なコマンドを記憶するメモリと、を含み、
前記プロセッサは、
複数の分野が混合したトレーニングデータセットを取得し、前記トレーニングデータセットは、複数のトレーニングデータペアを含み、各トレーニングデータペアは、セマンティックスが同じであるソース言語シーケンス及び目標言語シーケンスを含み、
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応し、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とし、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングし、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングすることは、
各前記分野データサブセットを前記混合分野モデルに入力すると共に、前記分野データサブセットに対応する前記指定最適化目標に応じて前記混合分野モデルをトレーニングすることを含み、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップは、
各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするステップと、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するステップと、
前記少なくとも2つの候補最適化目標に基づいて、前記分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするステップと、を含み、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するステップは、
各前記分野データサブセットに対して最適化目標関数を構築し、前記最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、前記分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足するステップと、
分野の重みpの少なくとも2つの値を選択し、前記最適化目標関数に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を取得するステップと、を含む
ように構成されることを特徴とする機械翻訳モデルトレーニング装置。
【請求項10】
プロセッサにより実行されることにより、請求項1~のいずれか一項に記載の機械翻訳モデルトレーニング方法を実現することを特徴とするプログラム。
【請求項11】
請求項10に記載のプログラムが記録されるコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語処理技術分野に係り、特に、機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体に関する。
【背景技術】
【0002】
機械翻訳の分野において、言語翻訳の正確性を追求するために、人々は、機械翻訳トレーニング方法に対して改良を絶え間なく行っている。
【0003】
関連技術において、複数のデータ分野の言語データを一緒に混合してトレーニングを行うことにより、複数の分野の翻訳に適用され、且つ各分野での翻訳効果がすべて比較的良い通用の翻訳モデルを得る。
【0004】
異なる分野の言語データについては、言語データを含むデータ量の違いにより、トレーニングの難易度が不一致する問題があり、上記関連技術において、複数のデータ分野の言語データを一緒に混合してトレーニングを行って得られた翻訳モデルは、異なる分野の言語データの翻訳結果の品質が不一致する問題をもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、機械翻訳モデルトレーニング方法、装置、プログラム及び記録媒体を提供し、上記の技術方案は、以下の通りである。
【課題を解決するための手段】
【0006】
本発明の第1の態様は、
複数の分野が混合したトレーニングデータセットを取得し、前記トレーニングデータセットは、複数のトレーニングデータペアを含み、各トレーニングデータペアは、セマンティックスが同じであるソース言語シーケンス及び目標言語シーケンスを含むステップと、
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応するステップと、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップと、
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするステップと、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするステップと、を含む機械翻訳モデルトレーニング方法を提供する。
【0007】
1つの可能な実現方式において、各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップは、
各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするステップと、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するステップと、
前記少なくとも2つの候補最適化目標に基づいて、前記分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするステップと、を含む。
【0008】
1つの可能な実現方式において、前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するステップは、
各前記分野データサブセットに対して最適化目標関数を構築し、前記最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、前記分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足するステップと、
分野の重みpの少なくとも2つの値を選択し、前記最適化目標関数に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を取得するステップと、を含む。
【0009】
1つの可能な実現方式において、前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応するステップは、
前記複数の分野が混合したトレーニングデータセットにおける複数の前記トレーニングデータペアをデータ分野の分類モデルに導入して、複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの前記分野データサブセットを取得し、各前記分野データサブセットには、少なくとも1つの前記トレーニングデータペアが含まれるステップを含む。
【0010】
1つの可能な実現方式において、各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするステップは、
各前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、前記分野データサブセットに対応する教師モデルをトレーニングするステップを含む。
【0011】
1つの可能な実現方式において、各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするステップは、
各前記分野データサブセットに対応するテストデータセットを構築するステップと、
前記分野データサブセットに対応するテストデータセットに基づいて、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルの正確性をテストするステップと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前期分野データサブセットの指定最適化目標とするステップと、を含む。
【0012】
1つの可能な実現方式において、前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするステップは、
各前記分野データサブセットを前記混合分野モデルに入力すると共に、前記分野データサブセットに対応する前記指定最適化目標に応じて前記混合分野モデルをトレーニングするステップを含む。
【0013】
本発明の第2の態様は、複数の分野が混合したトレーニングデータセットを取得し、前記トレーニングデータセットは、複数のトレーニングデータペアを含み、各トレーニングデータペアは、セマンティックスが同じであるソース言語シーケンス及び目標言語シーケンスを含むように構成される取得モジュールと、
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応するように構成される分類モジュールと
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするように構成される第1トレーニングモジュールと、
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするように構成されるテストモジュールと、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするように構成される第2のトレーニングモジュールと、を含む機械翻訳モデルトレーニング装置を提供する。
【0014】
1つの可能な実現方式において、前記第1のトレーニングモジュールは、
各前記分野データサブセットに基づいて、前記分野データサブセットに対応する教師モデルをトレーニングするように構成される第1のトレーニングモデルサブモジュールと、
前記分野データサブセットの各目標言語シーケンス及び前記分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定するように構成される確定サブモジュールと、
前記少なくとも2つの候補最適化目標に基づいて、前記分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするように構成される第2のトレーニングサブモジュールと、を含む。
【0015】
1つの可能な実現方式において、前記確定サブモジュールは、
各前記分野データサブセットに対して最適化目標関数を構築し、前記最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、前記分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足し、
分野の重みpの少なくとも2つの値を選択し、前記最適化目標関数に基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を取得するように構成される。
【0016】
1つの可能な実現方式において、前記分類モジュールは、
前記複数の分野が混合したトレーニングデータセットにおける複数の前記トレーニングデータペアをデータ分野の分類モデルに導入して、複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの前記分野データサブセットを取得し、各前記分野データサブセットには、少なくとも1つの前記のトレーニングデータペアが含まれるように構成される。
【0017】
1つの可能な実現方式において、前記第1のトレーニングサブモジュールは、
各前記分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、前記分野データサブセットに対応する教師モデルをトレーニングするように構成される。
【0018】
1つの可能な実現方式において、前記テストモジュールは、
各前記分野データサブセットに対応するテストデータセットを構築するように構成される構築サブモジュールと、
前記分野データサブセットに対応するテストデータセットに基づいて、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルの正確性をテストするように構成されるテストサブモジュールと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とするように構成される選択サブモジュールと、を含む。
【0019】
1つの可能な実現方式において、前記第2のトレーニングモジュールは、
各前記分野データサブセットを前記混合分野モデルに入力すると共に、前記分野データサブセットに対応する前記指定最適化目標に応じて前記混合分野モデルをトレーニングするように構成される。
【0020】
本発明の第3の態様は、
プロセッサと、
前記プロセッサの実行可能なコマンドを記憶するメモリと、を含み、
前記プロセッサは、
複数の分野が混合したトレーニングデータセットを取得し、前記トレーニングデータセットは、複数のトレーニングデータペアを含み、各トレーニングデータペアは、セマンティックスが同じであるソース言語シーケンス及び目標言語シーケンスを含み、
前記トレーニングデータセットにおける複数の前記トレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各前記分野データサブセットは、1つのデータ分野に対応し、
各前記分野データサブセットに基づいて、前記分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、前記少なくとも2つの候補最適化目標に基づいて、各前記分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、
各前記分野データサブセットに対して、前記分野データサブセットに対応する少なくとも2つの前記候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、前記分野データサブセットの指定最適化目標とし、
前記トレーニングデータセットにおける各前記分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするように構成される機械翻訳モデルトレーニング装置を提供する。
【0021】
本発明の第4の態様は、プロセッサにより実行されることにより、前記第1の態様または第1の態様のいずれかの選択可能な態様に記載の機械翻訳モデルトレーニング方法を実現するプログラムを提供する。
【0022】
本発明の第5の態様は、第4の態様に記載のプログラムが記録されるコンピュータ読み取り可能な記録媒体を提供するする。
【発明の効果】
【0023】
本発明の実施例で提供される技術方案は、以下のような有益な効果を含んでもよい。複数の分野が混合したトレーニングデータセットを取得し、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、各分野データサブセットに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、その分野データサブセットの指定最適化目標とし、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングすることにより、異なる分野の言語データに対して異なる最適化目標を設定してトレーニングを行って機械翻訳モデルを取得することを実現し、機械翻訳モデルが各分野の言語データに対する翻訳結果の品質を向上させることができる。
【図面の簡単な説明】
【0024】
ここの図面は、明細書に組み入れて本明細書の一部分を構成し、本発明に該当する実施例を例示するとともに、明細書とともに本発明の原理を解釈する。
図1】本発明の一例示的な実施形態に係る機械翻訳モデルトレーニング方法を示すフローチャートである。
図2】本発明の一例示的な実施形態に係る機械翻訳モデルトレーニング方法を示すフローチャートである。
図3】本発明の一例示的な実施形態に係るデータ分野の分類モデルを示す分類模式図である。
図4】本発明の一例示的な実施形態に係る異なる最適化目標に基づいて単一分野モデルをトレーニングする模式図である。
図5】本発明の一例示的な実施形態に係る混合分野モデルをトレーニングする模式図である。
図6】一例示的な実施形態に係る機械翻訳モデルトレーニング装置のブロック図である。
図7】一例示的な実施形態に係るコンピュータ機器の構造ブロック図である。
【発明を実施するための形態】
【0025】
以下、例示的な実施例を詳しく説明し、その例示を図面に示す。以下の記載が図面に関わる場合、特に別の説明がない限り、異なる図面における同一符号は、同じ又は類似する要素を示す。以下の例示的な実施形態に記載の実施例は、本発明と一致する全ての実施例を代表するものではない。即ち、それらは、特許請求の範囲に記載の本発明のある側面に一致する装置及び方法の例に過ぎない。
【0026】
本発明に記載される「いくつか」が、1つまたは複数を意味するものであり、「複数」が、2つまたは2つ以上を意味することを理解すべきである。「および/または」は、関連対象の関連関係を説明するものであり、3つの関係が存在することを示すことができ、例えば、Aおよび/またはBは、Aが単独で存在し、AとBが同時に存在し、Bが単独で存在することである3つの場合を示すことができる。符号「/」は、一般的に、前後の関係対象が「または」という関係であることを示す。
【0027】
理解を容易にするために、以下、まず、本発明に係るいくつかの用語について説明する。
【0028】
1)人工知能(Artificial Intelligence、AI)
人工知能は、デジタルコンピュータやデジタルコンピュータによって制御される機械を利用して、人の知能をシミュレーション、延伸、拡大し、環境を感知し、知識を取得すると共に、知識を使用して、最適の結果を得る理論、方法、技術、アプリケーションシステムである。言い換えると、人工知能は、コンピュータサイエンスの1つの総合技術であり、知能の実質を理解すると共に、人類知能に似た方法で反応することができる一種の新しいスマート機械を生産することを企図している。人工知能は、様々なスマート機械の設計原理と実現方法を研究し、機械を感知、推理及び決断の機能を備えさせる。
【0029】
人工知能技術は、1つの総合的な学科であり、これに関連する分野は、広い、ハードウェア的な技術だけでなく、ソフトウェア的な技術もある。人工知能の基礎技術は、一般的に、センサ、専門人工知能チップ、クラウド計算、分布式の保存、ビッグデータ処理技術、オペレーティングシステム、インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は、主にコンピュータ視覚技術、音声処理技術、自然言語処理技術、及び機械学習/深層学習などのいくつかの大きな方向を含む。
【0030】
2)自然言語処理(Nature Language processing、NLP)
自然言語処理は、コンピュータサイエンス分野と人工知能分野のうちの1つの重要な方向として、人とコンピュータとの間に自然言語を利用して効果的な通信を行うことが実現できる様々な理論及び方法を研究する。自然言語処理は、言語学、コンピュータサイエンス、数学を一体化に融合する科学である。したがって、この分野の研究は、自然言語、つまり、人々が日常的に使用される言語に係るため、言語学の研究と密接な関連性を有する。自然言語処理技術は、一般的に、テキスト処理、セマンティックスの理解、機械翻訳、ロボット問答、知識グラフなどの技術を含む。
【0031】
3)知識蒸留(Knowledge Distillation)
知識蒸留は、がんの知識抽出(dark knowledge extract)とも呼ばれており、複雑ですが、推理性能に優れた教師ネットワーク(teacher network)と関連したソフトターゲット(soft-target)を全体の損失(total loss)の一部として、簡素化して複雑が低い学生ネットワーク(student network)のトレーニングを誘導することにより、知識の移転(knowledge transfer)を実現する。
【0032】
ここで、知識移転は、1つの学習が他の1つの学習への影響であり、学習という連続的なプロセスにおいて、どのようなの学習も、学習者が既に備えた知識経験や認知構造、既に得られた動作技能、習得した態度などに基づいて行われるものであり、つまり、新しい知識と古い知識との間の関連性を利用して、学生が新しい知識と古い知識を比較するように啓発し、古い知識から新たな知識を思考し理解して、学習を行う方法である。
【0033】
4)機械翻訳(Machine Translate)
機械翻訳は、自動翻訳とも呼ばれており、コンピュータを利用して1つの自然言語(ソース言語)を他の1つの自然言語(目標言語)に変換する過程であって、一般的に自然言語間のセンテンスと全文の翻訳を意味する。機械翻訳は、自然言語処理の一枝であり、コンピュータ言語学、自然言語理解との間に密不可分の関係がある。機械翻訳は、言語学の原理を運用して、機械が自動的に語法を認識し、保存されたシソーラスを呼び出して、自動的に対応翻訳を行うが、語法、文法などが変化したり、不規則な原因で機械翻訳にはまだ翻訳が正確しない問題がある。
【0034】
関連技術において、異なる分野の言語シーケンスに対して翻訳を行う必要がある場合、微調整(fine-tune)の方式により実現し、その方法の実現プロセスは、以下の通りである。
【0035】
1)1つの一般的な言語のデータ量が比較的大きい分野データ(in-domain)で1つのモデルAをトレーニングし、in-domainのデータでの表現が良好である。
【0036】
2)再び1つの一般的な言語のデータ量が比較的小さな分野データ(out-domain)でモデルAに対してfine-tuneを行ってモデルBを得る。
【0037】
3)モデルBをin-domain及びout-domainの翻訳モデルで取得し、そのモデルBは、in-domianデータでの表現が比較的良いだけでなく、out-domainデータでの表現も比較的良い。
【0038】
しかし、fine-tuneの方式を採用して翻訳モデルの調整を行うことは、以下の問題が存在し、つまり、最終的に得られた翻訳モデルがout-domainデータに適合された後、in-domainデータでの翻訳効果が著しく低下する。また、いくつかの実体用語の異なる分野での意味が一致しないため、例えば、「花王」という用語は、口語表現で花の王の意味であるが、化粧品の分野では、1つの化粧品のブランドで表現し、これにより、1つの単語が異なる翻訳結果に対応するようになる。もし、もともと口語表現分野データのトレーニングを経て得られたモデルAをfine-tuneを介してモデルBにトレーニングすれば、モデルBでは、「花王」という単語の翻訳を「the king of flowers」から「KAO」に変更することになる。したがって、上記の問題を解決するために、複数の分野データを一緒に混合してトレーニングを行う必要がある。
【0039】
分野データに対して混合してトレーニングを行う過程において、各分野の言語データ量が異なり、異なる分野の言語データの語順が異なる問題が発生することになり、これは、異なる分野に対するトレーニングの難易度が異なることを引き起こし、最終的に得られたトレーニングモデルは、言語データ量が比較的多く、語順が比較的簡単な分野で表現が良いが、言語データ量が比較的少なく、語順が比較的困難な分野で表現が劣ることを表現する。
【0040】
本発明は、機械翻訳モデルトレーニング方法を提供し、異なる分野の言語データに対して異なる最適化目標を設定してトレーニングを行って機械翻訳モデルを取得することができることにより、機械翻訳モデルが各分野の言語データに対する翻訳結果の品質を向上させることができる。次に、図面を結合して、本発明の実施例に係る機械翻訳モデルトレーニング方法を詳細に説明する。
【0041】
図1は、本発明の一例示的な実施形態に係る機械翻訳モデルトレーニング方法のフローチャートを示す図であり、その方法は、コンピュータ機器によって実行されてもよい。図1に示すように、その機械翻訳モデルトレーニング方法は、以下のようなステップを含む。
【0042】
ステップ110において、複数の分野が混合したトレーニングデータセットを取得し、このトレーニングデータセットは、複数のトレーニングデータペアを含み、ここで、各トレーニングデータペアは、セマンティックス(semantic)が同じであるソース言語シーケンス及び目標言語シーケンスを含む。
【0043】
ここで、複数の分野が混合したトレーニングデータセットは、1つのトレーニングデータセットに少なくとも2つの分野のトレーニングデータペアが存在し、且つ複数の分野のトレーニングデータペアの間に明確な分野限界がなく、つまり、トレーニングデータセットにおいて、各分野には、1つのトレーニングデータペアを少なくとも含み、異なる分野のトレーニングデータペアが混合して存在し、且つ各トレーニングデータペアが、いずれもセマンティックス(semantic)が同じであるソース言語シーケンス及び目標言語シーケンスを含むことを意味する。
【0044】
目標言語シーケンスは、ソース言語シーケンスに対して予め設けられた翻訳結果であり、例えば、中国語である「苹果」を英語である「Apple」に翻訳する場合、「苹果」は、ソース言語シーケンスであり、対応する「Apple」は、目標言語シーケンスである。
【0045】
ステップ120において、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットは、1つのデータ分野に対応する。
【0046】
複数の分野が混合したトレーニングデータセットに対しては、トレーニングデータセットに混合されたトレーニングデータペアを異なる分野に応じて分類する必要があり、これにより、異なる分野に対応する少なくとも2つの分野データセットを取得する。
【0047】
1つの可能な場合において、異なる分野のトレーニングデータペアに各分野に対応する標識を設定してもよい。例えば、データ分野A及びデータ分野Bの2つのデータ分野を含むトレーニングデータペアのトレーニングデータセットに対しては、トレーニングデータセットにおけるデータ分野Aに属するトレーニングデータペアにデータ分野Aに対応する標識を設定し、トレーニングデータセットにおけるデータ分野Bに属するするトレーニングデータペアにデータ分野Bに対応する標識を設定してもよい、これにより、機械翻訳モデルトレーニングの過程において、異なる分野に属するトレーニングデータペアでの標識に基づいてトレーニングデータセットにおけるトレーニングデータペアに対して分野の区分を行って、対応する分野データサブセットを取得してもよい。
【0048】
ステップ130において、各分野データサブセットに基づいて分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングする。
【0049】
トレーニングデータセットのトレーニング過程において、分野データサブセットを単位として、トレーニングをそれぞれ行って、異なる分野データサブセットにそれぞれ対応する候補最適化目標を確定し、ここで、最適化目標は、機械翻訳の過程において、機械翻訳モデルから出力された予測結果に対して損失関数計算を行う基準を意味するものであり、当該損失関数の計算結果に基づいて機械モデルでのパラメータを調整することにより、パラメータを調整した後の機械翻訳モデルから出力された予測結果が最適化目標に最大限近接するようにし、すなわち、損失関数の計算結果が最小になる。
【0050】
ここで、損失関数は、モデルの予測値と最適化目標の違い大きさを示すものであり、損失関数の値が小さいほど、モデルの予測結果がより正確になる。
【0051】
各分野データサブセットに対しては、少なくとも2つの候補最適化目標を確定して、当該分野データサブセットにおけるトレーニングデータペアに基づいてモデルのトレーニングを行うことができ、これにより、候補最適化目標に対応する少なくとも2つの候補単一分野モデルを取得する。
【0052】
選択的に、少なくとも2つの候補最適化目標に基づいて分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングすることは、ニューラル機械翻訳フレームトランス(transformer)を選択してトレーニングすることができる。
【0053】
ステップ140において、各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、分野データサブセットの指定最適化目標とする。
【0054】
各分野データサブセットに対応する少なくとも2つの候補単一分野モデルを取得した後、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルに対してテストを行う必要があり、テストにおいて、同じセットのテストデータを使用して、同じ分野データサブセットの少なくとも2つの候補単一分野モデルに対してテストを行い、各候補単一分野モデルのテストデータに対する出力結果とテストデータにおける目標テスト結果との類似度に基づいて、テストの正確性が最も高い1つの候補単一分野モデルに対応する最適化目標を選択して、当該分野データサブセットの指定最適化目標とすることができる。例えば、1つの可能な実現方式において、BLEUアルゴリズムを利用して、ある分野データサブセットの各候補単一分野モデルのテストデータに対する出力結果とテストデータにおける目標テスト結果の類似度を計算してもよい。BLEUアルゴリズムの最終結果の値の範囲は、[0,100]であり、最終結果の値が大きいほど、類似度がより高く、つまり、候補単一分野モデルの出力結果がテストデータにおける目標テスト結果と近いほど、その候補単一分野モデルの翻訳品質が高いと判断する。最後に、テストセットでBLEU値が最も大きい1つの候補の分野モデルに対応する最適化目標を取得して、その分野データサブセットの指定最適化目標とする。
【0055】
ステップ150において、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングする。
【0056】
1つの可能な実現方式において、各分野データサブセットに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップは、
各分野データサブセットに基づいて、分野データサブセットに対応する教師モデルをトレーニングするステップと、
分野データサブセットの各目標言語シーケンス及び分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定するステップと、
少なくとも2つの候補最適化目標に基づいて、分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするステップと、を含む。
【0057】
1つの可能な実現方式において、分野データサブセットの各目標言語シーケンス及び分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定するステップは、
各分野データサブセットに対して最適化目標関数を構築し、当該最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足するステップと、
分野の重みpの少なくとも2つの値を選択して、最適化目標関数に基づいて、分野データサブセットの少なくとも2つの候補最適化目標を取得するステップと、を含む。
【0058】
1つの可能な実現方式において、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得するステップは、
複数の分野が混合したトレーニングデータセットにおける複数のトレーニングデータペアをデータ分野の分類モデルに導入して、複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットは、1つのデータ分野に対応し、各分野データサブセットには、少なくとも1つのトレーニングデータペアが含まれるステップを含む。
【0059】
1つの可能な実現方式において、各分野データサブセットに基づいて、分野データサブセットに対応する教師モデルをトレーニングするステップは、
各分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、分野データサブセットに対応する教師モデルをトレーニングするステップを含む。
【0060】
1つの可能な実現方式において、各分野データサブセットに対して分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して分野データサブセットの指定最適化目標とするステップは、
各分野データサブセットに対応するテストデータセットを構築するステップと、
分野データサブセットに対応するテストデータセットに基づいて、分野データサブセットに対応する少なくとも2つの候補単一分野モデルの正確性をテストするステップと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して分野データサブセットの指定最適化目標とするステップと、を含む。
【0061】
1つの可能な実現方式において、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするステップは、
各分野データサブセットを混合分野モデルに入力すると共に、分野データサブセットに対応する指定最適化目標に応じて混合分野モデルをトレーニングするステップを含む。
【0062】
以上のように、本発明の実施形態に係る機械翻訳モデルトレーニング方法は、複数の分野が混合したトレーニングデータセットを取得し、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、各分野データサブセットに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、各分野データサブセットに対して分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、その分野データサブセットの指定最適化目標とし、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングすることにより、異なる分野の言語データに対して異なる最適化目標を設定してトレーニングを行って機械翻訳モデルを取得することを実現し、機械翻訳モデルが各分野の言語データに対する翻訳結果の品質を向上させることができる。
【0063】
図2は、本発明の一例示的な実施形態に係る機械翻訳モデルトレーニング方法を示すフローチャートであり、その方法は、コンピュータ機器によって実行されてもよい。図2に示すように、この機械翻訳モデルトレーニング方法は、以下のようなステップを含む。
【0064】
ステップ210において、複数の分野が混合したトレーニングデータセットを取得し、このトレーニングデータセットは、複数のトレーニングデータペアを含み、ここで、各トレーニングデータペアは、セマンティックス(semantic)が同じであるソース言語シーケンス及び目標言語シーケンスを含む。
【0065】
ステップ220において、複数の分野が混合したトレーニングデータセットにおける複数のトレーニングデータペアをデータ分野の分類モデルに導入して、複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットには、少なくとも1つのトレーニングデータペアが含まれる。
【0066】
1つの可能な場合において、簡単にルールに基づいて分類を行っても良い、例えば、言語シーケンスの長さに基づいて、分類を行ってもよい。1組の複数の分野が混合したトレーニングデータペアをニュース分野及び口語分野の2つの分野に区画すると仮定する場合、ニュース分野の言語シーケンスは、一般的に口語分野の言語シーケンスの長さよりも長いので、1つの言語シーケンスの長さの閾値を設定して、その長さの閾値よりも大きい言語シーケンスが存在するトレーニングデータペアをニュース分野に区画し、当該長さの閾値よりも小さい言語シーケンスが存在するトレーニングデータペアを口語分野に区画してもよい。
【0067】
上記の方法は、簡単なデータ分野の分類の効果を実現することができ、データ分野の分類に対する要求が高い場合において、データ分野の分類モデルにより分類を行うことを採用してもよい。
【0068】
ここで、そのデータ分野の分類モデルは、複数のトレーニングデータペアのトレーニングを介して取得されたものであり、図3は、本発明の一例示的な実施形態に係るデータ分野の分類モデルの分類模式図である。図3に示すように、そのデータ分野の分類モデルは、当該モデルに入力した複数の分野の混合データペアを複数の分野の分野データサブセットに区画する。
【0069】
1つの可能な場合において、当該データ分野の分類モデルは、図1に示す実施例のように、データ分野に対応する分類方法、すなわち、異なる分野データペアに各分野に対応する標識を設定する形式を採用することにより、データ分野の分類結果を出力する。例えば、データ分野Aに属するトレーニングデータペア(X、Y)については、その中のソース言語シーケンスは、X=[x、x、... 、x]であり、目標言語シーケンスは、Y=[y、y、... 、y]であり、データ分野Aに対応する標識Aを設定してもよい、ここで、標識Aは、指定された符号であってもよい、例えば、標識Aが丸括弧の場合、データ分野Aのトレーニングデータペア(X、Y)に標識Aを追加した後、(X=[x、x、...、x]、Y=[y、y、...、y])で表現され、データ分野Bのトレーニングデータペアについて、データ分野Bに対応する標識Bを追加してもよい、これにより、複数の分野が混合したトレーニングデータペアのデータ分野の区画を実現することができる。
【0070】
なお、前記複数の分野が混合したトレーニングデータペアに対してデータ分野の区画を行う方法は、単に例示的なものであり、本発明は、複数の分野が混合したトレーニングデータペアのデータ分野の区画方法に制限されない。
【0071】
ステップ230において、各分野データサブセットに基づいて、分野データサブセットに対応する教師モデルをトレーニングする。
【0072】
教師モデルは、知識蒸留における1つの概念であり、知識蒸留において、1つの教師モデルが生徒モデルを指導する場合、教師モデルがデコードを行って得た各単語の確率を最適化目標として、学生モデルを指導し、つまり、ソフトターゲット(soft-target)を利用して、学生モデルを指導する。これにより、教師モデルの他の間違った単語での確率を十分に利用して、学生モデルを指導することができ、より多くの情報を学生モデルに伝達し、最適化目標の難易度を下げることができる。
【0073】
本発明の実施例において、教師モデルの予測確率分布、即ち、soft-targetを取得するために、各分野データサブセットに基づいて分野データサブセットに対応する教師モデルをトレーニングする必要がある。
【0074】
選択的に、各分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、分野データサブセットに対応する教師モデルをトレーニングしてもよい。
【0075】
例えば、ソース言語シーケンスが「私があなたを愛してる」であり、目標言語シーケンスが「I love you」については、単語表において、I、love、youである3つの単語があり、目標言語シーケンスの実際の確率分布は、集合Yに表現され、ソース言語シーケンスである「私があなたを愛してる」に対して予測を行う場合、実際の確率において、「私」を「I」に翻訳する確率は、1であり、「私」を「love」または「you」に翻訳する確率は、0であり、ソース言語シーケンスにおける「私」に対する予測結果の単語表での実際の確率分布は、[1、0、0]である。したがって、ソース言語シーケンスにおける「私」に対する予測結果の単語表での実際の確率分布である[1、0、0]を最適化目標トレーニング教師モデルとして、対応する教師モデルを得る。
【0076】
一方、目標言語シーケンスの実際の確率分布を最適化目標としてトレーニングして得られた教師モデルにおいては、各単語の単語表での確率を出力することにより結果を予測し、確率が最も大きい1つを選択して、当該単語の翻訳結果とする。例えば、同じソース言語シーケンスである「私があなたを愛してる」に対して翻訳を行う場合、単語表で同じソース言語シーケンスである「私があなたを愛してる」に対して翻訳を行う場合、「私」について、教師モデルにより得られた予測結果の単語表での確率分布は、[0.9、0.1、0]であり、つまり、教師モデルの予測結果は、「私」を 「I」に翻訳する確率が0.9であり、「love」に翻訳する確率が0.1であり、「you」に翻訳する確率が0であることである。最終的には、教師モデルは、確率が最も大きい1つを選択して、「私」の翻訳結果とし、すなわち、「私」を「I」に翻訳する。上記の例における[0.9、0.1、0]は、教師モデルの予測結果である。
【0077】
ステップ240において、分野データサブセットの各目標言語シーケンス及び分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定する。
【0078】
選択的に、各分野データサブセットに対して以下のような最適化目標関数を構築し、
Z=pT(X)+(1-p)Y
ここで、T(X)は、分野データサブセットに対応する教師モデルから出力された予測確率分布であり、Yは、分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足する。
【0079】
分野の重みpの少なくとも2つの値を選択して、最適化目標関数に基づいて分野データサブセットの少なくとも2つの候補最適化目標を取得する。
【0080】
分野の重みpは、教師モデルから出力された予測結果が最適化目標関数に占める重みを意味する。p=0の場合、最適化目標関数は、Z=Yであり、つまり、分野データサブセットの候補最適化目標は、分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、p=1の場合、最適化目標関数は、Z=T(X)であり、つまり、分野データサブセットの候補最適化目標は、分野データサブセットに対応する教師モデルから出力された予測確率分布であり、0<p<1の場合、Z==pT(X)+(1-p)Yであり、つまり、分野データサブセットの候補最適化目標は、分野データサブセットに対応する教師モデルから出力された予測確率分布と分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布が、それぞれの重みの重ね合わせの結果に対応する。
【0081】
例えば、ソース言語シーケンスが「私があなたを愛してる」であり、目標言語シーケンスが「I love you」であり、単語表にI、love、youである3つの単語がある場合、上記の「私」に対する翻訳からわかるように、ソース言語シーケンスでの「私」の予測結果の単語表での実際の確率分布は、[1、0、0]であり、教師モデルから出力された単語表での予測確率分布は、[0.9、0.1、0]であり、p= 0の場合、「私」に対する最適化目標が単語表での実際の確率分布である[1、0、0]であることを確定し、p=1の場合、「私」に対する最適化目標が教師モデルから出力された単語表での予測確率分布である[0.9、0.1、0]であることを確定し、0 <p<1の場合、もしp=0.5なら、「私」に対する最適化目標は、
Z=0.5*[1、0、0]+0.5*[0.9、0.1、0]=[0.95、0.05、0]であり、
つまり、「私」に対する最適化目標は、単語表での確率分布である[0.95、0.05、0]である。
【0082】
ステップ250において、少なくとも2つの候補最適化目標に基づいて、分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、分野データサブセットに対応する少なくとも2つの候補単一分野モデルとする。
【0083】
図4は、本発明の一例示的な実施形態に係る異なる最適化目標に基づいて単一分野モデルをトレーニングする模式図でである。図4に示すように、同じ分野データサブセットは、それぞれ異なる最適化目標でトレーニングを行って、対応する候補単一分野モデルを取得する。図4における分野データサブセットD1は、最適化目標Yでトレーニングして候補単一分野モデルTを得ることができ、構築された最適化目標関数であるZ=pT(X)+(1-p)Yの計算結果を最適化目標としてトレーニングして候補単一分野モデルSを得ることができ、ここで、0≦p≦1であり、p=0の場合、当該最適化目標関数は、Z=Yであり、つまり、最適化目標Yでトレーニングして候補単一分野モデルSを得、候補単一分野モデルTと互いに対応し、p=1の場合、当該最適化目標関数は、Z=T(X)であり、つまり、候補単一分野モデルTの予測結果T(X)を最適化目標としてトレーニングして候補単一分野モデルSを得る。
【0084】
ステップ260において、各分野データサブセットに対応するテストデータセットを構築する。
【0085】
ここで、各分野データサブセットに対応するテストデータセットは、トレーニングデータセットでの全部または一部のトレーニングデータペアにより構成されてもよい、複数のテストデータペアを新たに取得してもよい、各テストデータペアは、セマンティックス(semantic)が同じであるソース言語シーケンス及び目標言語シーケンスを含み、各分野データサブセットに対応するテストデータセットを構成する。
【0086】
ステップ270において、分野データサブセットに対応するテストデータセットに基づいて、分野データサブセットに対応する少なくとも2つの候補単一分野モデルの正確性をテストする。
【0087】
テストする過程において、各分野データサブセットに対応するテストデータセットにおけるソース言語シーケンスを各単一分野モデルに出力して、各単一分野モデルの予測結果を取得し、その予測結果に基づいて、各単一分野モデルの翻訳結果を取得し、テストデータセットにおける目標言語シーケンスに基づいて、各単一分野モデルの翻訳結果の正確性を判断してもよい。
【0088】
ステップ280において、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、分野データサブセットの指定最適化目標とする。
【0089】
ステップ290において、各分野データサブセットを混合分野モデルに入力すると共に、分野データサブセットに対応する指定最適化目標に応じて混合分野モデルをトレーニングする。
【0090】
図5は、本発明の一例示的な実施形態に係る混合分野モデルをトレーニングする模式図である。図5に示すように、各分野データサブセットを混合分野モデルに入力して、各分野のトレーニングデータペアに対してトレーニングを行い、異なる分野のトレーニングデータペアに対して、対応する指定最適化目標に応じてトレーニングを行う。つまり、トレーニング過程において、異なる指定最適化目標を使用して混合分野モデルのパラメータを調整することにより、最終的に取得した混合分野トレーニングモデルの各データ分野での表現が良くする。
【0091】
以上のように、本発明の実施形態に係る機械翻訳モデルトレーニング方法は、複数の分野が混合したトレーニングデータセットを取得し、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、各分野データサブセットに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、その分野データサブセットの指定最適化目標とし、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングすることにより、異なる分野の言語データに対して異なる最適化目標を設定してトレーニングを行って機械翻訳モデルを取得することを実現し、機械翻訳モデルが各分野の言語データに対する翻訳結果の品質を向上させることができる。
【0092】
図6は、1つの例示的な実施形態に係る機械翻訳モデルトレーニング装置のブロック図である。この機械翻訳モデルトレーニング装置は、コンピュータ機器に適用され、上記の図1または図2のうちのいずれかの実施形態に係る方法の全部または一部のステップを実行する。図6に示すように、当該機械翻訳モデルトレーニング装置は、
複数の分野が混合したトレーニングデータセットを取得し、当該トレーニングデータセットは、複数のトレーニングデータペアを含み、ここで、各トレーニングデータペアは、セマンティックス(semantic)が同じであるソース言語シーケンス及び目標言語シーケンスを含むように構成される取得モジュール610と
トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットは、1つのデータ分野に対応するように構成される分類モジュール620と
各分野データサブセットに基づいて分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするように構成される第1のトレーニングモジュール630と、
各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、分野データサブセットの指定最適化目標とするように構成されるテストモジュール640と、
トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするように構成される第2のトレーニングモジュール650と、を含んでもよい。
【0093】
1つの可能な実現方式において、当該第1のトレーニングモジュール630は、
各分野データサブセットに基づいて分野データサブセットに対応する教師モデルをトレーニングするように構成される第1のトレーニングモデルサブモジュールと、
分野データサブセットの各目標言語シーケンス及び分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定するように構成される確定サブモジュールと、
少なくとも2つの候補最適化目標に基づいて、分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするように構成される第2のトレーニングサブモジュールと、を含む。
【0094】
1つの可能な実現方式において、当該確定サブモジュールは、
各分野データサブセットに対して最適化目標関数を構築し、その最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足し、
分野の重みpの少なくとも2つの値を選択して、最適化目標関数に基づいて分野データサブセットの少なくとも2つの候補最適化目標を取得するように構成される。
【0095】
1つの可能な実現方式において、当該分類モジュール620は、
複数の分野が混合したトレーニングデータセットにおける複数のトレーニングデータペアをデータ分野の分類モデルに導入して、複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、各分野データサブセットには、少なくとも1つのトレーニングデータペアが含まれるように構成される。
【0096】
1つの可能な実現方式において、当該第1のトレーニングサブモジュールは、
各分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、分野データサブセットに対応する教師モデルをトレーニングするように構成される。
【0097】
1つの可能な実現方式において、テストモジュール640は、
各分野データサブセットに対応するテストデータセットを構築するように構成される構築サブモジュールと、
分野データサブセットに対応するテストデータセットに基づいて、分野データサブセットに対応する少なくとも2つの候補単一分野モデルの正確性をテストするように構成されるテストサブモジュールと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、分野データサブセットの指定最適化目標とするように構成される選択サブモジュールと、を含む。
【0098】
1つの可能な実現方式において、当該第2のトレーニングモジュール650は、
各分野データサブセットを混合分野モデルに入力すると共に、分野データサブセットに対応する指定最適化目標に応じて混合分野モデルをトレーニングするように構成される。
【0099】
以上のように、本発明の実施形態に係る機械翻訳モデルトレーニング装置は、コンピュータ機器に適用されてもよい、複数の分野が混合したトレーニングデータセットを取得し、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、各分野データサブセットに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、その分野データサブセットの指定最適化目標とし、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングすることにより、異なる分野の言語データに対して異なる最適化目標を設定してトレーニングを行って機械翻訳モデルを取得することを実現し、機械翻訳モデルが各分野の言語データに対する翻訳結果の品質を向上させることができる。
【0100】
本発明の一例示的な実施形態は、機械翻訳モデルトレーニング装置を提供し、その装置は、コンピュータ機器に適用されてもよい、本発明の上記の図1または図2のうちのいずれかの実施形態による方法の全部または一部のステップを実現することができる。この機械翻訳モデルトレーニング装置は、プロセッサと、プロセッサで実行可能なコマンドを記憶するメモリと、を含み、
ここで、プロセッサは、
複数の分野が混合したトレーニングデータセットを取得し、当該トレーニングデータセットは、複数のトレーニングデータペアを含み、ここで、各トレーニングデータペアは、セマンティックス(semantic)が同じであるソース言語シーケンス及び目標言語シーケンスを含み、
トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットは、1つのデータ分野に対応し、
各分野データサブセットに基づいて分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、
各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、分野データサブセットの指定最適化目標とし、
トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするように構成される。
【0101】
各分野データサブセットに基づいて分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングするステップは、
各分野データサブセットに基づいて分野データサブセットに対応する教師モデルをトレーニングするステップと、
分野データサブセットの各目標言語シーケンス及び分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定するステップと、
少なくとも2つの候補最適化目標に基づいて、分野データサブセットに対応する少なくとも2つの学生モデルをトレーニングして、分野データサブセットに対応する少なくとも2つの候補単一分野モデルとするステップと、を含む。
【0102】
1つの可能な実現方式において、分野データサブセットの各目標言語シーケンス及び分野データサブセットに対応する教師モデルの予測結果のうちの少なくとも1つに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定するステップは、
各分野データサブセットに対して最適化目標関数を構築し、その最適化目標関数は、pT(X)+(1-p)Yであり、ここで、T(X)は、分野データサブセットに対応する教師モデルから出力した予測確率分布であり、Yは、分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布であり、pは、分野の重みであり、且つ0≦p≦1を満足するステップと、
分野の重みpの少なくとも2つの値を選択して、最適化目標関数に基づいて分野データサブセットの少なくとも2つの候補最適化目標を取得するステップと、を含む。
【0103】
1つの可能な実現方式において、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットは、1つのデータ分野に対応するステップは、
複数の分野が混合したトレーニングデータセットにおける複数のトレーニングデータペアをデータ分野の分類モデルに導入して、複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、ここで、各分野データサブセットには、少なくとも1つのトレーニングデータペアが含まれるステップを含む。
【0104】
1つの可能な実現方式において、各分野データサブセットに基づいて、分野データサブセットに対応する教師モデルをトレーニングするステップは、
各分野データサブセットに含まれる各目標言語シーケンスの実際の確率分布を最適化目標として、分野データサブセットに対応する教師モデルをトレーニングするステップを含む。
【0105】
1つの可能な実現方式において、各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して分野データサブセットの指定最適化目標とするステップは、
各分野データサブセットに対応するテストデータセットを構築するステップと、
分野データサブセットに対応するテストデータセットに基づいて、分野データサブセットに対応する少なくとも2つの候補単一分野モデルの正確性をテストするステップと、
テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、分野データサブセットの指定最適化目標とするステップと、を含む。
【0106】
1つの可能な実現方式において、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングするステップは、
各分野データサブセットを混合分野モデルに入力すると共に、分野データサブセットに対応する指定最適化目標に応じて混合分野モデルをトレーニングするステップを含む。
【0107】
以上のように、本発明の実施形態に係る機械翻訳モデルトレーニング装置は、コンピュータ機器に適用されてもよい、複数の分野が混合したトレーニングデータセットを取得し、トレーニングデータセットにおける複数のトレーニングデータペアに対してデータ分野の分類を行って、少なくとも2つの分野データサブセットを取得し、各分野データサブセットに基づいて、分野データサブセットの少なくとも2つの候補最適化目標を確定すると共に、少なくとも2つの候補最適化目標に基づいて、各分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれトレーニングし、各分野データサブセットに対して、分野データサブセットに対応する少なくとも2つの候補単一分野モデルをそれぞれテストし、テストの正確性が最も高い候補単一分野モデルに対応する候補最適化目標を選択して、その分野データサブセットの指定最適化目標とし、トレーニングデータセットにおける各分野データサブセット及びそれに対応する指定最適化目標に基づいて、混合分野モデルをトレーニングすることにより、異なる分野の言語データに対して異なる最適化目標を設定してトレーニングを行って機械翻訳モデルを取得することを実現し、機械翻訳モデルが各分野の言語データに対する翻訳結果の品質を向上させることができる。
【0108】
図7は、一例示的な実施形態に係るコンピュータ機器の構造模式図である。当該コンピュータ機器は、上記の実施形態において機械翻訳モデルトレーニングを行うことができるものである。上記コンピュータ機器700は、CPU701と、RAM702及びROM703を含むシステムメモリ704と、システムメモリ704とCPU701を接続するシステムバス705を含む。前記コンピュータ機器700は、コンピュータ内の各コンポーネント間の情報の転送を助ける基本入出力システム(I/Oシステム)706と、オペレーティングシステム713、アプリケーション714および他のプログラムモジュール715を記憶するための大容量記憶装置707をさらに含む。
【0109】
前記基本入出力システム706は、情報を表示するためのディスプレイ708と、ユーザーが情報を入力するためのマウス、キーボードなどの入力機器709を含む。ここで、前記ディスプレイ708と入力機器709は、いずれもシステムバス705の入出力コントローラ710に接続されることにより、CPU701に接続される。前記基本入出力システム706は、キーボード、マウス、または電子タッチペンなどの複数の他の機器からの入力を受信して処理するための入出力コントローラ710をさらに含んでもよい。同様に、入出力コントローラ710は、ディスプレイスクリーン、プリンタ、または他のタイプの出力機器への出力をさらに提供する。
【0110】
前記大容量記憶装置707は、システムバス705に接続される大容量ストレージコントローラ(図示せず)を介してCPU701に接続される。前記大容量記憶装置707とその関連するコンピュータ読み取り可能な媒体は、コンピュータ機器700のために不揮発性記憶を提供する。即ち、前記大容量記憶装置707は、ハードウェアまたはCD-ROMドライバなどのコンピュータ読み取り可能な媒体(図示せず)を含んでもよい。
【0111】
一般性を失うことなく、前記コンピュータ読み取り可能な媒体は、コンピュータ記録媒体と通信媒体を含んでもよい。コンピュータ記録媒体は、コンピュータ読み取り可能なコマンド、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意の方法または技術で実現される揮発性および不揮発性、移動可能、移動不可能な媒体を含む。コンピュータ記録媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリまたは他の固体状態のストレージ技術、CD-ROM、DVD、またはその他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、または他の磁気記憶機器を含む。もちろん、当業者は、上記のコンピュータ記録媒体が上記のいくつかのものに制限されないことを理解する。上記システムメモリ704と大容量ストレージ装置707は、メモリと総称することができる。
【0112】
本発明の各種の実施例によれば、前記コンピュータ機器700は、インターネットなどのネットワークを介してネットワーク上のリモートコンピュータに接続して動作することができる。即ち、コンピュータ機器700は、前記システムバス705に接続されたネットワークインタフェースユニット711を介してネットワーク712に接続され、または、ネットワークインタフェースユニット711を介して他のタイプのネットワークまたはリモートコンピュータシステム(図示せず)に接続してもよい。
【0113】
前記メモリは、1つ以上のプログラムをさらに含み、前記1つ以上のプログラムは、メモリに記憶されており、CPU701は、当該1つ以上のプログラムを実行することにより、図1または図2に示される方法の全部または一部のステップを実現する。
【0114】
当業者は、上記1つまたは複数の例において、本発明の実施例で説明する機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせによって実現されることができる。ソフトウェアを使用して実現する場合、これらの機能をコンピュータ読み取り可能な媒体に保存したり、またはコンピュータ読み取り可能な媒体上の1つまたは複数のコマンドまたはコードとして転送することができる。コンピュータ読み取り可能な媒体は、コンピュータ記録媒体と通信媒体を含み、ここで、通信媒体は、1つの地域から別の地域にコンピュータプログラムを簡単に転送するための任意の媒体を含む。記録媒体は、一般的または専用のコンピュータが保存または取り出し可能な任意の使用可能な媒体であっても良い。
【0115】
本発明の実施例は、コンピュータ読み取り可能な記録媒体をさらに提供する。前記記録媒体は、少なくとも1つのコマンド、少なくとも一段のプログラム、コードセットまたはコマンドセットを記憶するためのものであり、前記少なくとも1つのコマンド、前記少なくとも一段のプログラム、前記コードセットまたは前記コマンドセットは、前記プロセッサによってロードされると共に実行されて、前記機械翻訳モデルトレーニング方法を実現する。例えば、そのコンピュータ読み取り可能な記録媒体は、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ記録装置などであってもよい。
【0116】
当業者は、明細書に対する理解、及び明細書に記載された発明に対する実施を介して、本発明の他の実施形態を容易に取得することができる。本発明は、本発明に対する任意の変形、用途、又は適応的な変化を含み、このような変形、用途、又は適応的な変化は、本発明の一般的な原理に従い、本発明では開示していない本技術分野の公知知識、又は通常の技術手段を含む。明細書及び実施例は、単に例示的なものであって、本発明の本当の範囲と主旨は、以下の特許請求の範囲によって示される。
【0117】
本発明は、上記で記述され、図面で図示した特定の構成に限定されず、その範囲を離脱しない状況で、様々な修正や変更を実施してもよい。本発明の範囲は、添付される特許請求の範囲のみにより限定される。
図1
図2
図3
図4
図5
図6
図7