IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京小米智能科技有限公司の特許一覧

特許7030885機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体
<>
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図1
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図2
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図3
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図4
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図5
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図6
  • 特許-機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-25
(45)【発行日】2022-03-07
(54)【発明の名称】機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体
(51)【国際特許分類】
   G06F 40/44 20200101AFI20220228BHJP
   G06N 3/08 20060101ALI20220228BHJP
【FI】
G06F40/44
G06N3/08 120
【請求項の数】 14
(21)【出願番号】P 2020069723
(22)【出願日】2020-04-08
(65)【公開番号】P2021086601
(43)【公開日】2021-06-03
【審査請求日】2020-04-08
(31)【優先権主張番号】201911167600.6
(32)【優先日】2019-11-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】319003367
【氏名又は名称】北京小米智能科技有限公司
【氏名又は名称原語表記】Beijing Xiaomi Intelligent Technology Co.,Ltd.
【住所又は居所原語表記】NO.003, floor 3, building 6, yard 33, middle Xierqi Road, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】特許業務法人三枝国際特許事務所
(72)【発明者】
【氏名】リー シャン
(72)【発明者】
【氏名】スン ユフイ
(72)【発明者】
【氏名】リー ジンウェイ
(72)【発明者】
【氏名】ジャン ジャリアン
【審査官】成瀬 博之
(56)【参考文献】
【文献】米国特許出願公開第2019/0325308(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
コンピュータが実行する、機械翻訳用のニューラルネットワークモデルの圧縮方法であって、
N個(Nは1より大きい正の整数である)のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得することと、
前記N個のトレーニングサンプルのそれぞれに対して、前記第1の教師モデルの第1のガイダンスコンポーネント、および前記第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定し、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する、学生モデルを最適化するためのサブ最適化ターゲットを決定し、且つ前記N個のトレーニングサンプルのそれぞれおよびそれに対応するサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定することと、
前記共同最適化ターゲットに基づいて、学生モデルをトレーニングすることとを含み、
前記N個のトレーニングサンプルのn番目(nは1より大きいか等しい且つNより小さいか等しい正の整数である)に対して、前記第1の教師モデルの第1のガイダンスコンポーネント、および前記第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定することは、
n番目のターゲット言語シーケンスに対する前記第1の教師モデルの第1の予測結果、n番目のターゲット言語シーケンスの逆シーケンスに対する前記第2の教師モデルの第2の予測結果、およびn番目のターゲット言語シーケンスに対する前記学生モデルの第3の予測結果を取得することと、
前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定して、前記第1のガイダンスコンポーネントとして使用することと、および
前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定して、前記第2のガイダンスコンポーネントとして使用することとを含むことを特徴とする、前記機械翻訳用のニューラルネットワークモデルの圧縮方法。
【請求項2】
前記N個のトレーニングサンプルのn番目のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアを含み、
前記N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得することは、
前記N個のトレーニングサンプルに基づいて、前記第1の教師モデルをトレーニングすることと、
前記N個のトレーニングサンプルに基づいて、N個の逆トレーニングサンプルを取得することであって、n番目の逆トレーニングサンプルに含まれたn番目の逆ターゲット言語シーケンスは、n番目のトレーニングサンプルに含まれたn番目のターゲット言語シーケンスの逆シーケンスであることと、
前記N個の逆トレーニングサンプルに基づいて、前記第2の教師モデルをトレーニングすることとを含むことを特徴とする、
請求項1に記載のニューラルネットワークモデルの圧縮方法。
【請求項3】
前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定することは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第1の教師モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第1の確率分布を取得し、前記第3の確率分布および前記第1の確率分布に基づいて前記第1の損失関数を決定することを含み、
前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定することは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第2の教師モデルが前記n番目のターゲット言語シーケンスの逆シーケンスに含まれる各ターゲット語彙を予測する時の第2の確率分布を取得し、前記第3の確率分布および前記第2の確率分布に基づいて前記第2の損失関数を決定することを含むことを特徴とする、
請求項に記載のニューラルネットワークモデルの圧縮方法。
【請求項4】
n番目のトレーニングサンプルに対して、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応するサブ最適化ターゲットを決定することは、
前記第1のガイダンスコンポーネントに対応する第1の重み、および前記第2のガイダンスコンポーネントに対応する第2の重みを決定することと、および
前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントを取得し、前記自己最適化コンポーネントに対応する第3の重みを決定することと、
前記第1の重み、前記第2の重みおよび前記第3の重みに基づいて、前記第1のガイダンスコンポーネント、前記第2のガイダンスコンポーネントおよび前記自己最適化コンポーネントに対して加重加算を実行して、前記サブ最適化ターゲットを取得することとを含むことを特徴とする、
請求項1に記載のニューラルネットワークモデルの圧縮方法。
【請求項5】
前記第1の重み、前記第2の重み及び前記第3の重みは、1より小さいか等しい値であり、前記第1の重みと前記第2の重みの合計は1であり、前記第3の重みの値は1であることを特徴とする、
請求項に記載のニューラルネットワークモデルの圧縮方法。
【請求項6】
前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントは、
n番目のトレーニングサンプルのターゲット言語シーケンスの長さ、およびトレーニングサンプルのターゲット言語ボキャブラリのサイズに基づいて、前記n番目のトレーニングサンプルに対する前記学生モデルの負の対数尤度損失関数を決定すること、
前記負の対数尤度損失関数を前記自己最適化コンポーネントとして使用することを採用して決定することを特徴とする、
請求項に記載のニューラルネットワークモデルの圧縮方法。
【請求項7】
機械翻訳用のニューラルネットワークモデルの圧縮装置であって、
N個(Nは1より大きい正の整数である)のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得するように構成される教師モデルトレーニングユニットと、
前記N個のトレーニングサンプルのそれぞれに対して、前記第1の教師モデルの第1のガイダンスコンポーネント、および前記第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定し、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する、学生モデルを最適化するためのサブ最適化ターゲットを決定し、且つ前記N個のトレーニングサンプルのそれぞれおよびそれに対応するサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定するように構成される共同最適化ターゲット決定ユニットと、
前記共同最適化ターゲットに基づいて、学生モデルをトレーニングするように構成される学生モデルトレーニングユニットとを含み、
前記N個のトレーニングサンプルのn番目(nは1より大きいか等しい且つNより小さいか等しい正の整数である)に対して、前記共同最適化ターゲット決定ユニットは、
n番目のターゲット言語シーケンスに対する前記第1の教師モデルの第1の予測結果、n番目のターゲット言語シーケンスの逆シーケンスに対する前記第2の教師モデルの第2の予測結果、およびn番目のターゲット言語シーケンスに対する前記学生モデルの第3の予測結果を取得すること、
前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定して、前記第1のガイダンスコンポーネントとして使用すること、および
前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定して、前記第2のガイダンスコンポーネントとして使用することを採用して、前記第1の教師モデルに関連する第1のガイダンスコンポーネント、および前記第2の教師モデルに関連する第2のガイダンスコンポーネントをそれぞれ決定するように構成されることを特徴とする、前記機械翻訳用のニューラルネットワークモデルの圧縮装置。
【請求項8】
前記N個のトレーニングサンプルのn番目のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアを含み、
前記教師モデルトレーニングユニットは、
前記N個のトレーニングサンプルに基づいて、前記第1の教師モデルをトレーニングすること、
前記N個のトレーニングサンプルに基づいて、N個の逆トレーニングサンプルを取得することであって、n番目の逆トレーニングサンプルに含まれたn番目の逆ターゲット言語シーケンスは、n番目のトレーニングサンプルに含まれたn番目のターゲット言語シーケンスの逆シーケンスであること、
前記N個の逆トレーニングサンプルに基づいて、前記第2の教師モデルをトレーニングすることを採用して、N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得するように構成されることを特徴とする、
請求項に記載のニューラルネットワークモデルの圧縮装置。
【請求項9】
前記共同最適化ターゲット決定ユニットは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第1の教師モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第1の確率分布を取得し、前記第3の確率分布および前記第1の確率分布に基づいて前記第1の損失関数を決定することを採用して、前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定するように構成され、
前記共同最適化ターゲット決定ユニットは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第2の教師モデルが前記n番目のターゲット言語シーケンスの逆シーケンスに含まれる各ターゲット語彙を予測する時の第2の確率分布を取得し、前記第3の確率分布および前記第2の確率分布に基づいて前記第2の損失関数を決定することを採用して、前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定するように構成されることを特徴とする、
請求項に記載のニューラルネットワークモデルの圧縮装置。
【請求項10】
n番目のトレーニングサンプルに対して、前記共同最適化ターゲット決定ユニットは、 前記第1のガイダンスコンポーネントに対応する第1の重み、および前記第2のガイダンスコンポーネントに対応する第2の重みを決定すること、および
前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントを取得し、前記自己最適化コンポーネントに対応する第3の重みを決定すること、
前記第1の重み、前記第2の重みおよび前記第3の重みに基づいて、前記第1のガイダンスコンポーネント、前記第2のガイダンスコンポーネントおよび前記自己最適化コンポーネントに対して加重加算を実行して、前記サブ最適化ターゲットを取得することを採用して、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応するサブ最適化ターゲットを決定するように構成されることを特徴とする、
請求項に記載のニューラルネットワークモデルの圧縮装置。
【請求項11】
前記第1の重み、前記第2の重み及び前記第3の重みは、1より小さいか等しい値であり、前記第1の重みと前記第2の重みの合計は1であり、前記第3の重みの値は1であることを特徴とする、
請求項1に記載のニューラルネットワークモデルの圧縮装置。
【請求項12】
前記共同最適化ターゲット決定ユニットは、
n番目のトレーニングサンプルのターゲット言語シーケンスの長さ、およびトレーニングサンプルのターゲット言語ボキャブラリのサイズに基づいて、前記n番目のトレーニングサンプルに対する前記学生モデルの負の対数尤度損失関数を決定すること、
前記負の対数尤度損失関数を前記自己最適化コンポーネントとして使用することを採用して、前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントを決定するように構成されることを特徴とする、
請求項1に記載のニューラルネットワークモデルの圧縮装置。
【請求項13】
機械翻訳用のニューラルネットワークモデルの圧縮装置であって、
プロセッサと、
プロセッサによって実行可能な命令を記憶するように構成されるメモリとを含み、
前記プロセッサは、請求項1ないしのいずれか一項に記載のニューラルネットワークモデルの圧縮方法を実行するように構成される、前記機械翻訳用のニューラルネットワークモデルの圧縮装置。
【請求項14】
非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体の命令がプロセッサによって実行される時、プロセッサが請求項1ないしのいずれか一項に記載のニューラルネットワークモデルの圧縮方法を実行することができるようにする、前記非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年11月25日に中国特許局に提出された、出願番号がCN201911167600.6である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本開示は、コンピュータ技術分野に関し、特に、機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体に関する。
【背景技術】
【0003】
ニューラルネットワークに基づくディープラーニングは、画像分類、機械翻訳、音声認識などの複数の機械学習タスクで優れた性能を達成し、その中でも、ニューラルネットワークを使用した機械翻訳が現在主流の機械翻訳方法となり、幅広い学術および市場的価値を有する。
【0004】
現在、複雑なニューラルネットワークモデルに対して効率的な圧縮を実行し、それにより、モデルストレージのオーバーヘッドを削減し、モデルの推論速度を向上させ、同時に、圧縮による翻訳品質への損害を最小限に抑えることは、機器翻訳用のニューラルネットワークモデルをモバイル端末に適用するための重要な技術になり、現在の学術や産業研究のホットスポットでもある。
【0005】
関連技術において、知識蒸留(Knowledge Distillation)方法を使用して機械翻訳用のニューラルネットワークモデルを圧縮して、モデルの複雑度を軽減し、且つモデル圧縮による予測精度の低下の問題を軽減することができ、現在の主流のニューラルネットワークモデルの圧縮方法となる。知識蒸留方法を使用して機械翻訳用のニューラルネットワークモデルを圧縮することは、1つの高精度の大規模なモデルを使用して小規模なモデルのトレーニングをガイドすることとして理解することができ、大規模は教師モデルと称してもよく、小規模は学生モデルと称してもよい。1つの教師モデルを使用して複数の学生モデルをトレーニングすることができる。
【0006】
ただし、ニューラルネットワークモデルを圧縮するために使用される従来の知識蒸留方法は、情報転送の精度が低いため、学生モデルの翻訳品質が低下し、ニューラルネットワークモデルを使用した機械翻訳のモバイル端末での翻訳効果が低下し、ユーザの体験に影響を与える。
【発明の概要】
【発明が解決しようとする課題】
【0007】
関連技術に存在する問題を解決するために、本開示は、機械翻訳用のニューラルネットワークモデルの圧縮方法、装置および記憶媒体を提供する。
【課題を解決するための手段】
【0008】
本開示の実施例の第1の態様によれば、機械翻訳用のニューラルネットワークモデルの圧縮方法を提供し、前記機械翻訳用のニューラルネットワークモデルの圧縮方法は、
N個(Nは1より大きい正の整数である)のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得することと、前記N個のトレーニングサンプルのそれぞれに対して、前記第1の教師モデルの第1のガイダンスコンポーネント、および前記第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定し、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する、学生モデルを最適化するためのサブ最適化ターゲットを決定し、且つ前記N個のトレーニングサンプルのそれぞれおよびそれに対応するサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定することと、前記共同最適化ターゲットに基づいて、学生モデルをトレーニングすることとを含む。
【0009】
一実施形態において、前記N個のトレーニングサンプルのn番目(nは1より大きいか等しい且つNより小さいか等しい正の整数である)のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアを含み、
前記N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得することは、
前記N個のトレーニングサンプルに基づいて、前記第1の教師モデルをトレーニングすることと、前記N個のトレーニングサンプルに基づいて、N個の逆トレーニングサンプルを取得することであって、n番目の逆トレーニングサンプルに含まれたn番目の逆ターゲット言語シーケンスは、n番目のトレーニングサンプルに含まれたn番目のターゲット言語シーケンスの逆シーケンスであることと、前記N個の逆トレーニングサンプルに基づいて、前記第2の教師モデルをトレーニングすることとを含む。
【0010】
別の実施形態において、前記n番目のトレーニングサンプルに対して、前記第1の教師モデルに関連する第1のガイダンスコンポーネント、および前記第2の教師モデルに関連する第2のガイダンスコンポーネントをそれぞれ決定することは、
n番目のターゲット言語シーケンスに対する前記第1の教師モデルの第1の予測結果、n番目のターゲット言語シーケンスの逆シーケンスに対する前記第2の教師モデルの第2の予測結果、およびn番目のターゲット言語シーケンスに対する前記学生モデルの第3の予測結果を取得することと、前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定し、前記第1のガイダンスコンポーネントとして使用することと、前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定し、前記第2のガイダンスコンポーネントとして使用することとを含む。
【0011】
さらに別の実施形態において、前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定することは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第1の教師モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第1の確率分布を取得し、前記第3の確率分布および前記第1の確率分布に基づいて前記第1の損失関数を決定することを含む。
【0012】
前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定することは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第2の教師モデルが前記n番目のターゲット言語シーケンスの逆シーケンスに含まれる各ターゲット語彙を予測する時の第2の確率分布を取得し、前記第3の確率分布および前記第2の確率分布に基づいて前記第2の損失関数を決定することを含む。
【0013】
さらに別の実施形態において、前記n番目のトレーニングサンプルに対して、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応するサブ最適化ターゲットを決定することは、
前記第1のガイダンスコンポーネントに対応する第1の重み、および前記第2のガイダンスコンポーネントに対応する第2の重みを決定することと、および前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントを取得し、前記自己最適化コンポーネントに対応する第3の重みを決定することと、前記第1の重み、前記第2の重みおよび前記第3の重みに基づいて、前記第1のガイダンスコンポーネント、前記第2のガイダンスコンポーネントおよび前記自己最適化コンポーネントに対して加重加算を実行して、前記サブ最適化ターゲットを取得することとを含む。
【0014】
さらに別の実施形態において、前記第1の重みと前記第2の重みの合計は1である。
【0015】
さらに別の実施形態において、前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントは、
n番目のトレーニングサンプルのターゲット言語シーケンスの長さ、およびトレーニングサンプルのターゲット言語ボキャブラリのサイズに基づいて、前記n番目のトレーニングサンプルに対する前記学生モデルの負の対数尤度損失関数を決定すること、前記負の対数尤度損失関数を前記自己最適化コンポーネントとして使用することを採用して決定する。
【0016】
本開示の実施例の第2の態様によれば、機械翻訳用のニューラルネットワークモデルの圧縮装置を提供し、前記機械翻訳用のニューラルネットワークモデルの圧縮装置は、
N個(Nは1より大きい正の整数である)のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得するように構成される教師モデルトレーニングユニットと、前記N個のトレーニングサンプルのそれぞれに対して、前記第1の教師モデルの第1のガイダンスコンポーネント、および前記第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定し、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する、学生モデルを最適化するためのサブ最適化ターゲットを決定し、且つ前記N個のトレーニングサンプルのそれぞれおよびそれに対応するサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定するように構成される共同最適化ターゲット決定ユニットと、前記共同最適化ターゲットに基づいて、学生モデルをトレーニングするように構成される学生モデルトレーニングユニットとを含む。
【0017】
さらに別の実施形態において、前記N個のトレーニングサンプルのn番目(nは1より大きいか等しい且つNより小さいか等しい正の整数である)のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアを含み、
前記教師モデルトレーニングユニットは、
前記N個のトレーニングサンプルに基づいて、前記第1の教師モデルをトレーニングすること、前記N個のトレーニングサンプルに基づいて、N個の逆トレーニングサンプルを取得することであって、n番目の逆トレーニングサンプルに含まれたn番目の逆ターゲット言語シーケンスは、n番目のトレーニングサンプルに含まれたn番目のターゲット言語シーケンスの逆シーケンスであること、前記N個の逆トレーニングサンプルに基づいて、前記第2の教師モデルをトレーニングすることを採用して、N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得するように構成される。
【0018】
さらに別の実施形態において、n番目のトレーニングサンプルに対して、前記共同最適化ターゲット決定ユニットは、
n番目のターゲット言語シーケンスに対する前記第1の教師モデルの第1の予測結果、n番目のターゲット言語シーケンスの逆シーケンスに対する前記第2の教師モデルの第2の予測結果、およびn番目のターゲット言語シーケンスに対する前記学生モデルの第3の予測結果を取得すること、前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定し、前記第1のガイダンスコンポーネントとして使用すること、および前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定し、第2のガイダンスコンポーネントとして使用することを採用して、前記第1の教師モデルに関連する第1のガイダンスコンポーネント、および前記第2の教師モデルに関連する第2のガイダンスコンポーネントをそれぞれ決定するように構成される。
【0019】
さらに別の実施形態において、前記共同最適化ターゲット決定ユニットは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第1の教師モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第1の確率分布を取得し、前記第3の確率分布および前記第1の確率分布に基づいて前記第1の損失関数を決定することを採用して、前記第1の教師モデルの前記第1の予測結果に対する前記学生モデルの前記第3の予測結果の第1の損失関数を決定するように構成される。
【0020】
前記共同最適化ターゲット決定ユニットは、
前記学生モデルが前記n番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および前記第2の教師モデルが前記n番目のターゲット言語シーケンスの逆シーケンスに含まれる各ターゲット語彙を予測する時の第2の確率分布を取得し、前記第3の確率分布および前記第2の確率分布に基づいて前記第2の損失関数を決定することを採用して、前記第2の教師モデルの前記第2の予測結果に対する前記学生モデルの前記第3の予測結果の第2の損失関数を決定するように構成される。
【0021】
さらに別の実施形態において、n番目のトレーニングサンプルに対して、前記共同最適化ターゲット決定ユニットは、
前記第1のガイダンスコンポーネントに対応する第1の重み、および前記第2のガイダンスコンポーネントに対応する第2の重みを決定すること、および前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化コンポーネントを取得し、前記自己最適化コンポーネントに対応する第3の重みを決定すること、前記第1の重み、前記第2の重みおよび前記第3の重みに基づいて、前記第1のガイダンスコンポーネント、前記第2のガイダンスコンポーネントおよび前記自己最適化コンポーネントに対して加重加算を実行して、前記サブ最適化ターゲットを取得することを採用して、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応するサブ最適化ターゲットを決定するように構成される。
【0022】
さらに別の実施形態において、前記第1の重みと前記第2の重みの合計は1である。
【0023】
さらに別の実施形態において、前記共同最適化ターゲット決定ユニットは、
トレーニングデータサンプル数、n番目のトレーニングサンプルのターゲット言語シーケンスの長さ、およびトレーニングサンプルのターゲット言語ボキャブラリのサイズに基づいて、前記n番目のトレーニングサンプルに対する前記学生モデルの負の対数尤度損失関数を決定すること、前記負の対数尤度損失関数を前記自己最適化コンポーネントとして使用することを採用して、前記n番目のトレーニングサンプルに対する前記学生モデルの自己最適化ターゲットを決定する。
【0024】
本開示の実施例の第3の態様によれば、機械翻訳用のニューラルネットワークモデルの圧縮装置を提供し、前記機械翻訳用のニューラルネットワークモデルの圧縮装置は、
プロセッサと、プロセッサによって実行可能な命令を記憶するように構成されるメモリとを含み、
ここで、前記プロセッサは、第1の態様または第1の態様のいずれか1つの実施形態に記載のニューラルネットワークモデルの圧縮方法を実行するように構成される。
【0025】
本開示の実施例の第4の態様によれば、非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記記憶媒体の命令がプロセッサによって実行される時、プロセッサが第1の態様または第1の態様のいずれか1つの実施形態に記載のニューラルネットワークモデルの圧縮方法を実行するようにする。
【発明の効果】
【0026】
本開示の実施例によって提供される技術的解決策は、以下の有利な効果を含み得る。
【0027】
2つの教師モデルがそれぞれ決定した2つのガイダンスコンポーネントに基づいて、共同最適化ターゲットを決定し、共同最適化ターゲットに基づいて、学生モデルをトレーニングすることは、教師モデルの知識をより効率的に学生モデルに転送し、学生モデルの翻訳品質を向上させることができる。
【0028】
上記の一般的な説明および後述する詳細な説明は、例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0029】
ここでの図面は、本明細書に組み込まれてその一部を構成し、本開示と一致する実施例を示し、明細書とともに本開示の実施例の原理を説明するために使用される。
図1】一例示的な実施例によって示された機械翻訳用のニューラルネットワークモデルの圧縮方法のフローチャートである。
図2】一例示的な実施例によって示されたトレーニングサンプルに対応する共同最適化ターゲットを決定する方法のフローチャートである。
図3】一例示的な実施例によって示された第1の教師モデルおよび第2の教師モデルをトレーニングする方法のフローチャートである。
図4】一例示的な実施例によって示されたガイダンスコンポーネントを決定する方法のフローチャートである。
図5】一例示的な実施例によって示された双方向知識蒸留ニューラル機械翻訳学生モデルのトレーニングのフレームワークである。
図6】一例示的な実施例によって示された機械翻訳用のニューラルネットワークモデルの圧縮装置のブロック図である。
図7】一例示的な実施例によって示された装置のブロック図である。
【発明を実施するための形態】
【0030】
ここで、例示的な実施例を詳細に説明し、その例は添付の図面に示す。別の指示がない限り、以下の説明が図面に関する場合、異なる図面の同じ数字は同じまたは類似な要素を表す。以下の例示的な実施例で説明される実施形態は、本開示と一致するすべての実施形態を表すものではない。むしろ、それらは、添付された特許請求の範囲に詳述されたように、本開示の特定の態様と一致する装置および方法の例である。
【0031】
本開示の実施例によって提供される機械翻訳用のニューラルネットワークモデルの圧縮方法は、バイリンガルの対訳文ペアに対する学生モデルのトレーニングに適用する。ここで、学生モデルは、モバイル端末に配置された機械翻訳用の知識蒸留ニューラルモデルとして理解することができる。モバイル端末に配置された機械翻訳用の学生モデルネットワーク構造の複雑さは、クラウドサーバに配置された機械翻訳用の教師モデルよりはるかに小さいため、パラメータの規模を縮小し、デコード速度を向上させることができるが、同時に、モデルの容量が減少するため、翻訳品質も低下する。
【0032】
これを鑑みて、本開示の実施例は、機械翻訳用のニューラルネットワークモデルの圧縮方法を提供し、N個のトレーニングサンプルに基づいて2つの教師モデルをそれぞれトレーニングし、N個のトレーニングサンプルの各トレーニングサンプルに対して、2つの教師モデルに関連する2つのガイダンスコンポーネントを使用して、トレーニングサンプルの共同最適化ターゲットを決定する。N個のトレーニングサンプルの各トレーニングサンプルおよびそれに対応する共同最適化ターゲットに基づいて、学生モデルをトレーニングすることは、教師モデルの知識をより効果的に学生モデルに転送し、学生モデルの翻訳品質を向上させることができる。
【0033】
一実施形態において、本開示の実施例におけるN個のソース言語端が同じであり、且つターゲット言語端シーケンスが相互に逆であるトレーニングサンプルに基づいて、2つの教師モデルをそれぞれトレーニングする。例えば、N個の左から右へ(L2R:left-to-right)のトレーニングサンプルおよびN個の右から左へ(R2L:right-to-left)のトレーニングサンプルを使用し、負の対数解放関数(NLL:the negative log-likelihood)損失関数を最適化ターゲットとして使用して、それぞれをトレーニングして、L2R教師モデルおよびR2L教師モデルを取得することができる。
【0034】
本開示では、説明の便宜上、2つの教師モデルのうちの1つを第1の教師モデルと称し、別の1つを第2の教師モデルと称する。学生モデルに対する第1の教師モデルのガイダンス情報は第1のガイダンスコンポーネントと称し、学生モデルに対する第2の教師モデルのガイダンス情報は第2のガイダンスコンポーネントと称する。
【0035】
図1は、一例示的な実施例によって示された機械翻訳用のニューラルネットワークモデルの圧縮方法のフローチャートである。図1に示されたように、機械翻訳用のニューラルネットワークモデルの圧縮方法はモバイル端末に適用され、次のステップを含む。
【0036】
ステップS11において、N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得する。
【0037】
ここで、Nは1より大きい正の整数である。
【0038】
本開示の実施例の一実施形態において、N個のトレーニングサンプルはソース言語端が同じであり、且つターゲット言語端シーケンスが相互に逆であるトレーニングサンプルである。例えば、前記N個のトレーニングサンプルのn番目のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアであり、ここで、nは1より大きいか等しい且つNより小さいか等しい正の整数である。n番目のターゲット言語シーケンスにはM個のターゲット語彙が含まれる。ここで、Mは1より大きい正の整数である。
【0039】
ステップS12において、N個のトレーニングサンプルの各トレーニングサンプルに対して、それに対応する、学生モデルを最適化するためのサブ最適化ターゲットをそれぞれ決定する。
【0040】
本開示の実施例において、トレーニングサンプルに対応するサブ最適化ターゲットを決定する場合、図2に示された方法を採用して決定することができる。
【0041】
ステップS121において、n番目のトレーニングサンプルに対して、第1の教師モデルの第1ガイダンスコンポーネント、および第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定する。
【0042】
ステップS122において、n番目のトレーニングサンプルに対して、第1のガイダンスコンポーネントおよび第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する、学生モデルを最適化するためのサブ最適化ターゲットを決定する。
【0043】
本開示の実施例におけるサブ最適化ターゲットは、学生モデルを共同最適化する第1の教師モデルと第2の教師モデルの蒸留損失関数として理解することができる。ここで、蒸留損失関数は、KL発散損失関数(相対エントロピー損失関数とも称する)などであってもよい。
【0044】
ステップS13において、N個のトレーニングサンプルのそれぞれおよびそれに対応するサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定し、決定された共同最適化ターゲットに基づいて学生モデルをトレーニングする。
【0045】
本開示の実施例において、N個のトレーニングサンプルに基づいて、第1の教師モデルおよび第2の教師モデルをそれぞれトレーニングし、N個のトレーニングサンプルの各トレーニングサンプルに対して、第1の教師モデルの第1のガイダンスコンポーネントおよび第2の教師モデルの第2のガイダンスコンポーネントに基づいて、トレーニングサンプルのサブ最適化ターゲットを決定する。N個のトレーニングサンプルの各トレーニングサンプルのサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定し、共同最適化ターゲットに基づいて学生モデルをトレーニングすることは、教師モデルの知識をより効果的に学生モデルに転送し、学生モデルの翻訳品質を向上させることができる。
【0046】
本開示の実施例において、上記の実施例に関するニューラルネットワークモデルの圧縮方法の実施例は、以下、実際の応用と組み合わせて説明される。
【0047】
一実施形態において、本開示の実施例に関するN個のトレーニングサンプルのn番目のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアを含み、n番目個のターゲット言語シーケンスにはM個のターゲット語彙が含まれる。
【0048】
N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得し、図3に示された決定方法を採用してもよい。
【0049】
図3は、本開示の例示的な実施例によって示された第1の教師モデルおよび第2の教師モデルをトレーニングする方法のフローチャートを示す。図3を参照すると、次のステップを含む。
【0050】
ステップS111において、N個のトレーニングサンプルに基づいて、第1の教師モデルをトレーニングする。
【0051】
本開示の実施例において、N個のバイリンガル文のペアを含むトレーニングサンプルが、
【数1】
であると仮定する。
【0052】
エンコーダ―デコーダに基づくニューラル機械翻訳のフレームワークを使用して、左から右へ(L2R:left-to-right)のL2R教師モデルをトレーニングし、即ち第1の教師モデルを取得する。
【0053】
ステップS112において、N個のトレーニングサンプルに基づいて、N個の逆トレーニングサンプルを取得する。ここで、n番目の逆トレーニングサンプルに含まれたn番目の逆ターゲット言語シーケンスは、n番目のトレーニングサンプルに含まれたn番目のターゲット言語シーケンスの逆シーケンスである。
【0054】
例えば、本開示の実施例において、
【数2】
に基づいてターゲット言語シーケンスの右から左へのトレーニングデータ
【数3】
を構築し、
ここで、
【数4】

【数5】
の逆シーケンスであり、例えば、
【数6】
であれば、
【数7】
である。
【0055】
ステップS113において、N個の逆トレーニングサンプルに基づいて、第2の教師モデルをトレーニングする。
【0056】
本開示の実施例において、L2R教師モデルのトレーニング方法に従って、
【数8】
データに基づいて1つの右から左へ(R2L:right-to-left)のR2L教師モデルをトレーニングし、即ち第2の教師モデルを取得する。
【0057】
本開示の実施例において、前記トレーニングによって取得された第1の教師モデルおよび第2の教師モデルは、それら自体をそれぞれ最適化するための最適化ターゲットを有する。
【数2】
および
【数8】
は同じターゲット言語ボキャブラリ(サイズは|V|である)を有するため、同じリソース言語端xを有するトレーニングサンプル
【数9】

【数10】
に対して、L2R教師モデルとR2L教師モデルのクロスエントロピー損失関数は、それら自体を最適化するためのトレーニング最適化ターゲットとして使用することができる。
【0058】
例えば、本開示の実施例において、n番目のトレーニングサンプルに対して、式1を使用して自体を最適化するためのL2R教師モデルのサブ最適化ターゲットを決定し、N個のトレーニングサンプルの各トレーニングサンプルのサブ最適化ターゲットに基づいて、自体を最適化するためのL2R教師モデルの最適化ターゲットを決定することができる。例えば、自体を最適化するためのL2R教師モデルの最適化ターゲットは、式2を使用して表す。
【数11】
【数12】
本開示の実施例において、n番目の逆トレーニングサンプルに対して、式1を使用して自体を最適化するためのR2L教師モデルのサブ最適化ターゲットを決定し、N個のトレーニングサンプルの各トレーニングサンプルのサブ最適化ターゲットに基づいて、自体を最適化するためのR2L教師モデルの最適化ターゲットを決定することができる。例えば、自体を最適化するためのR2L教師モデルの最適化ターゲットは、式2を使用して表す。
【数13】
【数14】
【0059】
ここで、
【数15】
はインジケータ関数であり、Nはトレーニングデータサンプル数を示し、
【数16】
は、n番目のトレーニングサンプルのターゲット言語シーケンスの長さを示し、|V|は、トレーニングサンプルのターゲットボキャブラリのサイズを示す。
【0060】
本開示の実施例が第1の教師モデルおよび第2の教師モデルを取得した後、N個のトレーニングサンプルの各トレーニングサンプルに対して、第1の教師モデルの第1ガイダンスコンポーネント、および第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定することができる。
【0061】
本開示において、N個のトレーニングサンプルのn番目のトレーニングサンプルに対して、図4に示された方法を採用して、第1の教師モデルの第1ガイダンスコンポーネント、および第2の教師モデルの第2のガイダンスコンポーネントを決定することができる。図4を参照すると、次のステップを含む。
【0062】
ステップS1211において、n番目のターゲット言語シーケンスに対する第1の教師モデルの第1の予測結果、n番目のターゲット言語シーケンスの逆シーケンスに対する第2の教師モデルの第2の予測結果、およびn番目のターゲット言語シーケンスに対する学生モデルの第3の予測結果を取得する。
【0063】
本開示の実施例において、学生モデルをトレーニングする時、第1の教師モデル、第2の教師モデルおよび学生モデルを使用して、n番目のターゲット言語シーケンスをそれぞれ予測し、予測結果に従って第1のガイダンスコンポーネントおよび第2のガイダンスコンポーネントを決定することができる。説明の便宜上、本開示において、第1の教師モデルがn番目のターゲット言語シーケンスに対して予測した予測結果を第1の予測結果と称する。第2の教師モデルがn番目のターゲット言語シーケンスに対して予測した予測結果を第2の予測結果と称する。学生モデルがn番目のターゲット言語シーケンスに対する予測結果を第3の予測結果と称する。
【0064】
ステップS1212において、第1の教師モデルの第1の予測結果に対する学生モデルの第3の予測結果の第1の損失関数を決定し、第1のガイダンスコンポーネントとして使用する。および第2の教師モデルの第2の予測結果に対する学生モデルの第3の予測結果の第2の損失関数を決定し、第2のガイダンスコンポーネントとして使用する。
【0065】
一実施形態において、本開示の実施例において、トレーニングされた第1の教師モデルおよび第2の教師モデルを使用して、N個のトレーニングサンプルおよびN個の逆トレーニングサンプルのターゲット言語端の各単語の確率分布をそれぞれ取得し、取得された確率分布を使用して学生モデルを最適化する。例えば、1つの学生モデルを最適化するために使用されるサブ最適化ターゲットを使用し、当該サブ最適化ターゲットの損失関数は3つの部分を含み、損失関数の第1の部分はNLL損失関数であり、損失関数の第2の部分は第1の教師モデルの単語確率分布と学生モデルターゲット言語単語確率分布のKL発散損失関数であり、損失関数の第3の部分は第2の教師モデルの単語確率分布と学生モデルターゲット言語単語確率分布のKL発散損失関数である。
【0066】
一実施形態において、本開示は、第1の教師モデルがn番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の確率分布(以下、第1の確率分布と称する)、第2の教師モデルがn番目のターゲット言語シーケンスの逆シーケンスに含まれる各ターゲット語彙を予測する時の確率分布(以下、第2の確率分布と称する)をそれぞれ決定する。学生モデルがn番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の確率分布(以下、第3の確率分布と称する)を取得し、第3の確率分布および第1の確率分布に基づいて、第1の損失関数を決定する。第3の確率分布および第2の確率分布に基づいて、第2の損失関数を決定する。
【0067】
例えば、第1の教師モデルはL2R教師モデルであり、第2の教師モデルはR2L教師モデルである。学生モデルをトレーニングする時、トレーニングサンプル
【数9】
のターゲット言語シーケンス
【数5】
の各単語を予測する場合、現在のターゲット言語シーケンスの各語彙
【数17】
のターゲット言語ボキャブラリV全体の確率分布
【数18】
を取得することができ、第3の確率分布として理解することができる。
【0068】
トレーニングプロセスでは、L2R教師モデルの
【数9】
シーケンスでの確率分布
【数19】
を同期的に取得し、第1の確率分布として理解することができる。
【0069】
第1の確率分布および第2の確率分布に基づいて、第1の損失関数を決定する。例えば、学生モデルを最適化するためのL2R教師モデルの蒸留損失関数、即ちKL発散損失関数を第1の損失関数として使用し、例えば、第1の損失関数は、
【数20】
である。
【0070】
同様に、学生モデルを最適化するためのR2L教師モデルの蒸留損失関数、即ちKL発散損失関数を第2の損失関数として使用し、例えば、第2の損失関数は、
【数21】
である。
【0071】
一例において、学生モデルの現在使用されているトレーニングサンプル<x、y>において、ここで、x=<a、b、c>、y=<aa、bb、cc>であると仮定する。この場合、ターゲット言語ボキャブラリ全体は[aa、bb、cc]3つの単語である。L2R教師モデルが、<x、y>のサンプルに対してフォワード予測(forward prediction)を一回実行することについて、つまり、(a、b、c)に基づいて、aaの確率(したがって、ボキャブラリは(aa、bb、cc)3つの単語しかないため、予測したaaの確率はaa:0.9、bb:0.05、cc:0.05であってもよく、このボキャブラリの全ての単語の確率の合計は1である)を予測し、(a、b、c、aa)に基づいてbbの確率を予測し、最後に、(a、b、c、bb)に基づいてccの確率を予測し、これらのL2R教師モデルによって予測される確率はPr2l_teacherとして表され、同様に、学生モデルが<x、y>データでトレーニングされた場合にも、同じ(aa、bb、cc)の予測確率Pstudentを取得し、この場合、
【数22】
を使用して、学生モデルのサブ最適化ターゲットの1つの損失関数として使用する。
【0072】
同様に、R2L教師モデルに対して、異なる部分としては、予測した順序が、(a、b、c)によるccの確率の予測、(a、b、c、cc)によるbbの確率の予測、(a、b、c、bb)によるaaの確率の予測と変更し、そして、3つの確率順序を逆に動作して、R2Lモデルの学生モデルに対して使用したトレーニングサンプルx、yのyシーケンス<aa、bb、cc>の単語分布の予測確率を取得し、L2R学生モデルと同様に、この場合、学生モデルのサブ最適化ターゲットに1つのR2L教師モデルによってガイドされる損失コンポーネント
【数23】
をさらに追加する。
【0073】
本開示の実施例において、学生モデルをトレーニングする時、学生モデルのトレーニングサンプルは不変を維持し、学生モデルの最適化ターゲット以外に、第1の教師モデルと第2の教師モデルが同じトレーニングサンプルで取得された教師モデルのターゲット言語シーケンスおよびターゲット言語シーケンスの逆シーケンスにおける各単語のターゲットボキャブラリV上の確率分布予測をさらに追加し、この教師モデルの予測を追加の監視信号として使用して、学生モデルのトレーニングを最適化する。例えば、第1のガイダンスコンポーネントおよび第2のガイダンスコンポーネントは、それぞれ
【数24】
および
【数25】
と表される。n番目のトレーニングサンプルに対して、第1のガイダンスコンポーネントおよび第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する共同最適化ターゲットは
【数26】
の間の加重合計であってもよい。ここで、
【数27】
はn番目のトレーニングサンプルに対する学生モデルの自己最適化コンポーネントである。
【0074】
本開示において、n番目のトレーニングサンプルに対する自己最適化コンポーネントは、n番目のトレーニングサンプルのターゲット言語シーケンスの長さ、およびトレーニングサンプルのターゲット言語ボキャブラリのサイズに基づいて、n番目のトレーニングサンプルに対する学生モデルの負の対数尤度損失関数を決定することを採用して決定され、前記負の対数尤度損失関数は、自己最適化コンポーネントとして理解される。
【0075】
本開示の実施例において、n番目のトレーニングサンプルに対する学生モデルの負の対数尤度の損失関数の決定プロセスは、自体を最適化するための前記教師モデルの最適化ターゲットの決定プロセスを参照してもよく、本開示の実施例は、ここで再び説明しない。
【0076】
本開示の実施例において、第1のガイダンスコンポーネントに対応する重みを第1の重みと称し、第2のガイダンスコンポーネントに対応する重みを第2の重みと称し、n番目のトレーニングサンプルに対する学生モデルの自己最適化コンポーネントの重みを第3の重みと称する。
【0077】
一実施形態において、第1のガイダンスコンポーネントに対応する第1の重み、および第2のガイダンスコンポーネントに対応する第2の重みを決定し、および前記n番目のトレーニングサンプルに対する学生モデルの自己最適化コンポーネントを取得し、自己最適化コンポーネントに対応する第3の重みを決定し、第1の重み、第2の重みおよび第3の重みに基づいて、第1のガイダンスコンポーネント、第2のガイダンスコンポーネントおよび自己最適化コンポーネントに対して加重加算を実行して、n番目のトレーニングサンプルのサブ最適化ターゲットを取得する。即ち、サブ最適化ターゲットは、Lstudentと第3の重みの積、Ll2r_kdと第1の重みの積、およびLr2l_kdと第2の重みの積の3つの合計値であってもよい。
【0078】
本開示の実施例中、第1の重み、第2の重みおよび第3の重みは、0より大きく且つ1より小さいか等しい値である。ここで、第1の重み、第2の重みは、それぞれL2R教師モデルおよびR2L教師モデルを調整して、学生モデルをガイドする重みである。一実施形態において、第3の重みの値は1である。
【0079】
例えば、学生モデルの共同最適化ターゲットは、次の式で表すことができる。
【数28】
【0080】
ここで、αとβは、それぞれL2R教師モデルおよびR2L教師モデルを調整して、学生モデルをガイドする重みであり、0より大きい値である。
【0081】
本開示の実施例において、αとβの合計は1である。
【0082】
本開示の前記実施例に関するニューラルネットワークモデルの圧縮方法は、双方向知識蒸留ニューラル機械翻訳の学生モデルのトレーニングと理解することができる。例えば、図5に示された双方向知識蒸留ニューラル機械翻訳の学生モデルのトレーニングフレームワークであってもよい。
【0083】
図5では、2つの教師モデルは学生モデルより深いネットワーク層を有し、同時に、各層はより多いニューロンの数を有し、ネットワーク構造およびモデルのパラメータ数が異なる以外、教師モデルと学生モデルは同じソース言語およびターゲット言語ボキャブラリを共有する。
【0084】
本開示の実施例において、N個のトレーニングサンプルに基づいて第1の教師モデルおよび第2の教師モデルをそれぞれトレーニングし、N個のトレーニングサンプルの各トレーニングサンプルに対して、第1の教師モデルの第1のガイダンスコンポーネントおよび第2のガイダンスコンポーネントを使用して、トレーニングサンプルの共同最適化ターゲットを決定する。N個のトレーニングサンプルのそれぞれおよびそれに対応する共同最適化ターゲットに基づいて、学生モデルをトレーニングすることは、教師モデルの知識をより効果的に学生モデルに転送し、学生モデルの翻訳品質を向上させることができる。
【0085】
同じ構想に基づいて、本開示の実施例は、機械翻訳用のニューラルネットワークモデルの圧縮装置をさらに提供する。
【0086】
前記機能を実現するために、本開示の実施例によって提供される機械翻訳用のニューラルネットワークモデルの圧縮装置は、各機能を実行することに対応するハードウェア構造および/またはソフトウェアモジュールを含むことを理解すべきである。本開示の実施例に開示される実施例で説明された各例示のユニットおよびアルゴリズムステップを組み合わせることにより、本開示の実施例は、ハードウェア、またはハードウェアとコンピュータソフトウェアの組み合わせの形態で実現されることができる。特定の機能がハードウェアで実行されるかコンピュータソフトウェアの駆動ハードウェアで実行されるかは、技術的解決策の特定の応用および設計の制約条件に依存する。当業者は、各特定のアプリケーションに対して異なる方法を使用して、説明された機能を実現することができるが、このような実現は本開示の実施例の範囲を超えると見なされるべきではない。
【0087】
図6は、一例示的な実施例によって示された機械翻訳用のニューラルネットワークモデルの圧縮装置のブロック図である。図2を参照すると、前記機械翻訳用のニューラルネットワークモデルの圧縮装置100は、教師モデルトレーニングユニット101、共同最適化ターゲット決定ユニット102および学生モデルトレーニングユニット103を含む。
【0088】
教師モデルトレーニングユニット101は、N個(Nは1より大きい正の整数である)のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得するように構成される。共同最適化ターゲット決定ユニット102は、前記N個のトレーニングサンプルのそれぞれに対して、前記第1の教師モデルの第1のガイダンスコンポーネント、および前記第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定し、前記第1のガイダンスコンポーネントおよび前記第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応する、学生モデルを最適化するためのサブ最適化ターゲットを決定し、且つ前記N個のトレーニングサンプルのそれぞれおよびそれに対応するサブ最適化ターゲットに基づいて、共同最適化ターゲットを決定するように構成される。学生モデルトレーニングユニット103は、N個のトレーニングサンプルのそれぞれおよびそれに対応する共同最適化ターゲットに基づいて、学生モデルをトレーニングするように構成される。
【0089】
さらに別の実施形態において、N個のトレーニングサンプルのn番目(nは1より大きいか等しい且つNより小さいか等しい正の整数である)のトレーニングサンプルは、n番目のソース言語シーケンスおよびn番目のターゲット言語シーケンスで構成されるバイリンガル文のペアを含む。
【0090】
教師モデルトレーニングユニット101は、
N個のトレーニングサンプルに基づいて、第1の教師モデルをトレーニングすること、N個のトレーニングサンプルに基づいて、N個の逆トレーニングサンプルを取得することであって、ここで、n番目の逆トレーニングサンプルに含まれたn番目の逆ターゲット言語シーケンスは、n番目のトレーニングサンプルに含まれたn番目のターゲット言語シーケンスの逆シーケンスであること、N個の逆トレーニングサンプルに基づいて、第2の教師モデルをトレーニングすることを採用して、N個のトレーニングサンプルに基づいて、トレーニング後の第1の教師モデルおよびトレーニング後の第2の教師モデルを取得するように構成される。
【0091】
さらに別の実施形態において、n番目のトレーニングサンプルに対して、共同最適化ターゲット決定ユニット102は、
n番目のターゲット言語シーケンスに対する第1の教師モデルの第1の予測結果、n番目のターゲット言語シーケンスの逆シーケンスに対する第2の教師モデルの第2の予測結果、およびn番目のターゲット言語シーケンスに対する学生モデルの第3の予測結果を取得すること、第1の教師モデルの第1の予測結果に対する学生モデルの第3の予測結果の第1の損失関数を決定して、第1のガイダンスコンポーネントとして使用すること、および第2の教師モデルの第2の予測結果に対する学生モデルの第3の予測結果の第2の損失関数を決定して、第1のガイダンスコンポーネントとして使用することを採用して、第1の教師モデルの第1のガイダンスコンポーネント、および第2の教師モデルの第2のガイダンスコンポーネントをそれぞれ決定するように構成される。
【0092】
さらに別の実施形態において、共同最適化ターゲット決定ユニット102は、
学生モデルがn番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および第1の教師モデルがn番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第1の確率分布を取得し、第3の確率分布および第1の確率分布に基づいて第1の損失関数を決定することを採用して、第1の教師モデルの前記第1の予測結果に対する学生モデルの第3の予測結果の第1の損失関数を決定するように構成される。
【0093】
共同最適化ターゲット決定ユニット102は、
学生モデルがn番目のターゲット言語シーケンスに含まれる各ターゲット語彙を予測する時の第3の確率分布、および第2の教師モデルが前記n番目のターゲット言語シーケンスの逆シーケンスに含まれる各ターゲット語彙を予測する時の第2の確率分布を取得し、第3の確率分布および第2の確率分布に基づいて第2の損失関数を決定することを採用して、第2の教師モデルの前記第2の予測結果に対する学生モデルの第3の予測結果の第2の損失関数を決定するように構成される。
【0094】
さらに別の実施形態において、n番目のトレーニングサンプルに対して、共同最適化ターゲット決定ユニット102は、
第1のガイダンスコンポーネントに対応する第1の重み、および第2のガイダンスコンポーネントに対応する第2の重みを決定すること、および、n番目のトレーニングサンプルに対する学生モデルの自己最適化コンポーネントを取得し、自己最適化コンポーネントに対応する第3の重みを決定すること、第1の重み、第2の重みおよび前記第3の重みに基づいて、第1のガイダンスコンポーネント、第2のガイダンスコンポーネントおよび自己最適化コンポーネントに対して加重加算を実行して、サブ最適化ターゲットを取得することを採用して、第1のガイダンスコンポーネントおよび第2のガイダンスコンポーネントに従って、前記トレーニングサンプルに対応するサブ最適化ターゲットを決定するように構成される。
【0095】
さらに別の実施形態において、第1の重みと第2の重みの合計は1である。
【0096】
さらに別の実施形態において、共同最適化ターゲット決定ユニット102は、
n番目のトレーニングサンプルのターゲット言語シーケンスの長さ、およびトレーニングサンプルのターゲット言語ボキャブラリのサイズに基づいて、n番目のトレーニングサンプルに対する学生モデルの負の対数尤度損失関数を決定すること、負の対数尤度損失関数を自己最適化コンポーネントとして使用することを採用して、n番目のトレーニングサンプルに対する学生モデルの自己最適化コンポーネントを決定するように構成される。
【0097】
上記の実施形態の装置に関して、ここで、各モジュールによって実行される動作の具体的な方法は、既に、前記方法に関する方法の実施例で詳細に説明され、ここでは詳細に説明されない。
【0098】
図7は、一例示的な実施例によって示された機械翻訳用のニューラルネットワークモデルの圧縮装置200のブロック図である。例えば、装置200は携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末等であってもよい。
【0099】
図7を参照すれば、装置200は、処理コンポーネント202、メモリ204、電力コンポーネント206、マルチメディアコンポーネント208、オーディオコンポーネント210、入力/出力(I/O)インターフェース212、センサコンポーネント214、及び通信コンポーネント216のうちの1つまたは複数のコンポーネットを含むことができる。
【0100】
処理コンポーネント202は、一般的に、ディスプレイ、電話、データ通信、カメラ操作及び記録操作に関する操作のような装置200の全般的な操作を制御する。処理コンポーネント202は、前記方法のステップの全てまたは一部を完了するために、1つまたは複数のプロセッサ220を含んで命令を実行することができる。加えて、処理コンポーネント202は、処理コンポーネント202と他のコンポーネントの間の相互作用を容易にするために、1つまたは複数のモジュールを含むことができる。例えば、処理コンポーネント202は、マルチメディアコンポーネント208と処理コンポーネント202の間の相互作用を容易にするために、マルチメディアモジュールを含むことができる。
【0101】
メモリ204は、機器200での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置200で動作する任意のアプリケーションまたは方法の指示、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。メモリ204は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせで実装することができる。
【0102】
電力コンポーネント206は、装置200の様々なコンポーネントに電力を提供する。電力コンポーネント206は、電力管理システム、1つまたは複数の電源、及び装置200の電力の生成、管理および分配に関する他のコンポーネントを含むことができる。
【0103】
マルチメディアコンポーネント208は、前記バッテリの充電装置200とユーザとの間の、出力インターフェースを提供するスクリーンを含む。いくつかの実施形態において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含み得る。スクリーンがタッチパネルを含む時、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして具現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサが含まれる。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出する。いくつかの実施例において、マルチメディアコンポーネント208は、フロントカメラ及び/またはリアカメラを含む。機器200が、撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラ及び/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定光学レンズシステムであり、または焦点距離と光学ズーム機能を持つことができる。
【0104】
オーディオコンポーネント210は、オーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント210は、1つのマイクロフォン(MIC)を含み、装置200が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ204にさらに格納されてもよく、または通信コンポーネント216を介して送信されてもよい。いくつかの実施形態において、オーディオコンポーネント210は、オーディオ信号を出力するためのスピーカをさらに含む。
【0105】
I/Oインターフェース212は、処理コンポーネント202と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを含むが、これらに限定されない。
【0106】
センサコンポーネント214は、装置200に各方面の状態の評価を提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント214は、機器200のオン/オフ状態と、装置200のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント214は、装置200または装置200のコンポーネントの位置の変化、ユーザとの装置200の接触の有無、装置200の向きまたは加速/減速、及び装置200の温度の変化も検出することができる。センサコンポーネント214は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを含むことができる。センサコンポーネント214は、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサも含むことができる。いくつかの実施例において、前記センサコンポーネント214は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサをさらに含むことができる。
【0107】
通信コンポーネント216は、装置200と他の装置の間の有線または無線通信を容易にするように構成される。装置200は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、通信コンポーネント216は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント216は、短距離通信を促進するために、近距離通信(NFC)モジュールをさらに含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、ウルトラワイドバンド(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて具現することができる。
【0108】
例示的な実施例において、装置200は、前記方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子部品によって具現されることができる。
【0109】
例示的な実施例において、命令を含むメモリ204などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記命令は、装置200のプロセッサ220によって実行されて前記方法を完了することができる。例示的な実施例において、命令を含むメモリ204などの、命令を含む非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記命令は、装置200のプロセッサ220によって実行されて前記方法を完了することができる。
【0110】
本開示の「複数」は2つまたは2つ以上を指し、他の数量詞はこれと類似することを理解することができる。「および/または」は、関連付けられたオブジェクトを説明する関連付けであり、3種類の関係が存在することができることを示し、例えば、Aおよび/またはBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合など3つの場合を表すことができる。文字「/」は、一般的に、コンテキストオブジェクトが「または」の関係であることを示す。単数形の「1つ」、「前記」および「前記」は、コンテキストで他の意味を明確に示さない限り、複数形も含むことを意図する。
【0111】
用語「第1」、「第2」などは様々な情報を説明するために使用されるが、これらの情報はこれらの用語に限定されないことをさらに理解されたい。これらの用語は、同じタイプの情報をお互いに区別するために使用され、特定の順序または重要性を示すものではない。実際に、「第1」、「第2」などの表現は、お互いに交換して使用することができる。例えば、本開示の範囲から逸脱することなく、第1の情報は第2の情報とも称し得、同様に、第2の情報は第1の情報とも称し得る。
【0112】
本開示の実施例で、図面において特定の順序で動作を説明したが、示された特定の順序または連続した順序に従って、動作が実行されることを要求するものとして理解されるべきではないことをさらに理解することができ、または、示された全ての動作を実行して、目的の結果を取得する。特定の環境では、マルチタスクと並列処理が有利な場合がある。
【0113】
当業者は、明細書を考慮して、本明細書に開示された発明を実施した後に、本開示の他の実施形態を容易に想到し得るであろう。本出願は、本開示のあらゆる変形、応用または適応性変化を網羅することを意図し、これらの変形、応用または適応性変化は、本開示の普通の原理に準拠し、本開示によって開示されない本技術分野における公知知識または従来の技術的手段を含む。明細書と実施例は、例示としてのみ考慮され、本開示の真の範囲および思想は添付の特許請求の範囲によって示される。
【0114】
本開示は、上記に既に説明し、図面に示した正確な構造に限定されるものではなく、その範囲から逸脱することなく様々な修正および変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ制限される。
図1
図2
図3
図4
図5
図6
図7