IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許7538986同時機械翻訳方法、同時機械翻訳装置、及びプログラム
<>
  • 特許-同時機械翻訳方法、同時機械翻訳装置、及びプログラム 図1
  • 特許-同時機械翻訳方法、同時機械翻訳装置、及びプログラム 図2
  • 特許-同時機械翻訳方法、同時機械翻訳装置、及びプログラム 図3
  • 特許-同時機械翻訳方法、同時機械翻訳装置、及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-15
(45)【発行日】2024-08-23
(54)【発明の名称】同時機械翻訳方法、同時機械翻訳装置、及びプログラム
(51)【国際特許分類】
   G06F 40/44 20200101AFI20240816BHJP
   G06N 3/08 20230101ALI20240816BHJP
   G06N 20/00 20190101ALI20240816BHJP
【FI】
G06F40/44
G06N3/08
G06N20/00 130
【請求項の数】 8
(21)【出願番号】P 2021131963
(22)【出願日】2021-08-13
(65)【公開番号】P2023026202
(43)【公開日】2023-02-24
【審査請求日】2023-10-04
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】安井 豪
(72)【発明者】
【氏名】鶴岡 慶雅
【審査官】成瀬 博之
(56)【参考文献】
【文献】米国特許出願公開第2020/0159822(US,A1)
【文献】特開2021-179665(JP,A)
【文献】特開2021-022007(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06N 3/00-99/00
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
第1の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練手順と、
第2の対訳データを用いて、前記第2の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング手順と、
第3の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳手順と、
前記原言語文と前記目的言語文とを対訳文とした第4の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成手順と、
をコンピュータが実行する同時機械翻訳方法。
【請求項2】
前記同時機械翻訳方法には、
前記第4の対訳データを用いて、クロスエントロピー損失を最小化するように前記同時機械翻訳モデルを訓練する訓練手順、が更に含まれる、請求項1に記載の同時機械翻訳方法。
【請求項3】
前記同時機械翻訳方法には、
前記訓練後の同時機械翻訳モデルにより、原言語の入力文を目的言語の出力文に翻訳する同時機械翻訳手順、が更に含まれる請求項2に記載の同時機械翻訳方法。
【請求項4】
前記ファインチューニング手順は、
事前学習済み多言語モデルに基づいて前記第2の対訳データに含まれる対訳文間の単語対応を求め、求めた単語対応の単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングする、請求項1乃至3の何れか一項に記載の同時機械翻訳方法。
【請求項5】
前記単調性スコアは、前記単語対応が表す単語対に含まれる各単語の出現位置を正規化した値の差又は0のいずれか大きい方の平均である、請求項1乃至4の何れか一項に記載の同時機械翻訳方法。
【請求項6】
前記報酬は、1から前記単調性スコアの値を引いた値である、請求項5に記載の同時機械翻訳方法。
【請求項7】
第1の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練部と、
第2の対訳データを用いて、前記第2の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング部と、
第3の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳部と、
前記原言語文と前記目的言語文とを対訳文とした第4の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成部と、
を有する同時機械翻訳装置。
【請求項8】
コンピュータに、請求項1乃至6の何れか一項に記載の同時機械翻訳方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、同時機械翻訳方法、同時機械翻訳装置、及びプログラムに関する。
【背景技術】
【0002】
同時機械翻訳(simultaneous machine translation)とは、ある言語を別の言語にリアルタイムに翻訳するタスクのことである。同時機械翻訳が通常の機械翻訳と最も大きく異なるのは、入力文(原言語文)の文の完了を待たずに翻訳を始める点である。同時機械翻訳は翻訳のリアルタイム性が要求される同時通訳(simultaneous interpretation)やキャプション生成(caption generation)等に応用されるため、原言語文が目的言語文に翻訳されるまでの時間(以下、遅延時間又は単に遅延ともいう。)を小さくすることが求められる。
【0003】
ここで、互いに翻訳になっている二つの文において互いに翻訳になっている単語を同定することを単語対応(word alignment)という。また、互いに翻訳である文対において、互いに翻訳である単語対が出現する順番が同じ(逆転しない)場合、単語対応が単調(monotonic)であるという。より単調な対訳データ(原言語文とそれを目的言語に翻訳した目的言語文との組(つまり、対訳文対)で表されたデータ)を用いて同時機械学習モデルを学習することで、より遅延の小さい同時機械翻訳の実現が期待できることが知られている。
【0004】
語順が大きく異なる言語対(例えば、日本語と英語)の同時機械翻訳において、元の対訳データを変換して、互いに翻訳である単語の出現位置がより単調に近い対訳データを生成する方法が提案されている。このような方法は、人手で変換規則を作成する方法と機械学習により自動的に変換する方法に大別できる。
【0005】
人手で変換規則を作成する方法としては、例えば、非特許文献1や非特許文献2で提案されている方法が知られている。非特許文献1では、日本語から英語への翻訳のように特定の言語対の特定の翻訳方向に対象を絞り、英語の「A of B」を「B's A」と変換することにより日本語の「BのA」と対応する単語の出現順序が同じになるようにするといった個別の変換規則を言語学的な分析に基づいて作成する方法が提案されている。非特許文献2では、一つの長い文を複数のセグメントに分割し、セグメントごとに前から順番に翻訳できるように語句の反復や省略等の調整を加える手法が提案されている。
【0006】
機械学習により自動的に変換する方法としては、例えば、非特許文献3で提案されている方法が知られている。非特許文献3では、人間の同時通訳者が使用する「順送り」という通訳方略の近似として、英語から日本語への翻訳において、統計的機械翻訳における事前並べ替え手法を用いて日本語文を英語文と語順が近くなるように並べ替え、さらに同時通訳文に近い自然かつ流暢な文にするために教師なしニューラル機械翻訳手法を用いてスタイル変換を行う方法が提案されている。
【先行技術文献】
【非特許文献】
【0007】
【文献】He He, Alvin Grissom II, John Morgan, Jordan Boyd-Graber, and Hal Daum´e III. Syntax-based rewriting for simultaneous machine translation. In Proceedings of the EMNLP 2015, pp. 55-64,2015.
【文献】中林明子, 加藤恒昭. 同時機械翻訳のための文脈を考慮したセグメントコーパス. 言語処理学会第27 回年次大会発表論文集, pp. 1659-1663, 2021.
【文献】二又航介, 須藤克仁, 中村哲. 英日同時通訳システムのための疑似同時通訳コーパス自動生成手法の提案. 言語処理学会第26 回年次大会発表論文集, pp. 1281-1284, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、人手で変換規則を作成する従来方法は、言語学的な分析に基づいて言語対と翻訳方向ごとに個別の変換規則を作成しなければならないという問題点がある。また、個別の変換規則を作成するため、その規則によって対応できる言語現象が個別的で網羅性に欠けるという問題点もある。
【0009】
機械学習により自動的に変換する従来方法は、事前並べ替えにより単語対応を単調に近づけることで不自然になった文を、スタイル変換により流暢な文にしているため、単語対応の単調性と流暢さをバランス良く同時に最適化できないという問題点がある。
【0010】
本発明の一実施形態は、上記の点に鑑みてなされたもので、互いに翻訳である単語の出現位置が単調に近い対訳データを同時機械翻訳の学習用データとして生成することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するため、一実施形態に係る同時機械翻訳方法は、第1の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練手順と、第2の対訳データを用いて、前記第2の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング手順と、第3の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳手順と、前記原言語文と前記目的言語文とを対訳文とした第4の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成手順と、をコンピュータが実行する。
【発明の効果】
【0012】
互いに翻訳である単語の出現位置が単調に近い対訳データを同時機械翻訳の学習用データとして生成することができる。
【図面の簡単な説明】
【0013】
図1】本実施形態に係る同時機械翻訳装置の機能構成の一例を示す図である。
図2】本実施形態に係る学習処理の流れの一例を示すフローチャートである。
図3】本実施形態に係る同時機械翻訳処理の流れの一例を示すフローチャートである。
図4】本実施形態に係る同時機械翻訳装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の一実施形態について説明する。本実施形態では、互いに翻訳である単語の出現位置が単調に近い対訳データを同時機械翻訳の学習用データとして生成し、この学習用データにより同時機械翻訳モデルの学習を行うことで、遅延が小さい同時機械翻訳を実現することができる手法(以下、提案手法という。)について説明した後、この提案手法により同時機械翻訳を実現する同時機械翻訳装置10について説明する。なお、「学習」は「訓練」とも呼ばれる。
【0015】
<準備>
提案手法について説明する前に、前提となる技術や用語、概念等を準備する。
【0016】
≪ニューラル機械翻訳≫
通常の機械翻訳と同様に、近年では同時機械翻訳でもニューラルネットワークを用いる方法(ニューラル機械翻訳)が主流になっている。ニューラルネットワークに基づく同時機械翻訳は大きく二つの方法に分けることができる。一つは、入力文の単語を一つずつ逐次的に処理し、ある程度の遅延を伴って出力する方法である。入力文と出力文の間の遅延は、Wait-k翻訳モデルと呼ばれる遅延が固定的である場合(参考文献1)と、強化学習により訓練された政策(policy)に基づく推論により遅延が動的に決定される場合(参考文献2)とがある。もう一つは、再翻訳(re-translation)と呼ばれる、一つの単語が入力されるたびに翻訳を繰り返す方法である(参考文献3、4)。
【0017】
≪再翻訳≫
再翻訳では、接頭辞訓練(prefix training)と呼ばれるデータ拡張(data augmentation)の方法が用いられる(参考文献3、4)。通常のニューラル機械翻訳では互いに翻訳である二つの言語の文対を用いてモデルを訓練するが、接頭辞訓練では、完全な文対だけでなく、互いに翻訳である文対の接頭辞の対も用いてモデルを訓練する。これにより、同時機械翻訳において入力文の接頭辞が入力された際に、翻訳結果の接頭辞を出力できるようになる。
【0018】
接頭辞の対の作り方には、互いに翻訳である文対から互いに翻訳である単語対を相互に矛盾なく含む接頭辞対を抽出する方法と、互いに翻訳である文対からランダムに接頭辞対を抽出する方法とがある。従来研究では、ドイツ語と英語の翻訳や英語とフランス語の翻訳において両者に差がないことが報告されている(参考文献3、4)。しかしながら、日本語と英語のように語順が大きく異なる言語対では、互いに翻訳である単語対を含むことを条件とすると、比較的短い接頭辞対を得ることが困難である。例えば、日本語と英語の翻訳の場合、英語は主語の次の位置に動詞が出現することが多いのに対して日本語は動詞が文末に出現することが多いため、互いに翻訳である単語を相互に矛盾なく含む接頭辞対を作成するのは困難である。
【0019】
なお、上述したように、互いに翻訳になっている二つの文において互いに翻訳になっている単語を同定することを単語対応といい、互いに翻訳になっている単語対の出現順が同じ(逆転しない)ことを単語対応が単調であるという。例えば、原言語の単語a、a、aを目的言語に翻訳した結果の単語をそれぞれb、b、bとする。このとき、単語列aを翻訳した結果がbである場合は単語対応が単調である。一方で、単語列aを翻訳した結果がbである場合、単語対(a,b)と(a,b)の出現順が逆転しているため、単語対応が単調ではない。
【0020】
≪Wait-k翻訳モデル≫
Wait-k翻訳は、固定されたk単語の遅延の後に入力文が逐次的に翻訳されるような同時機械翻訳の手法である。
【0021】
与えられた原言語文X=(x,x,・・・)と目的言語文Y=(y,y,・・・)に対して、Wait-k翻訳モデルは以下の式(1)のように定式化される。
【0022】
【数1】
ここで、g(t)は、目的言語文の単語yを予測する際に処理された原言語文の単語の数を表す単調非減少な関数である。
【0023】
Wait-k翻訳モデルは、原言語文の全体Xではなく、その一部x≦g(t)しか利用できない点が通常のニューラル機械翻訳モデルと異なる。この制約は、訓練条件と推論条件が乖離しないように、推論時だけでなく学習時(訓練時)にも適用される。
【0024】
≪知識蒸留≫
知識蒸留(knowledge distillation)とは、ニューラルネットワークにおいて、正解データを用いて訓練された複数又は大きくて複雑な教師(teacher)モデルの出力を使って、小さくて軽量な生徒(student)モデルを訓練する手法である(参考文献5)。一般に知識蒸留はモデルのパラメータ数の削減や推論の高速化等のために用いられることが多い。ニューラル機械翻訳では、対訳データを用いて訓練した教師モデルにより原言語文を翻訳し、原言語文とその翻訳文の対から作成した疑似対訳(pseudo-parallel)データを用いて生徒モデルを訓練することが有効であると知られている(参考文献6)。この方法は系列レベル知識蒸留(sequence-level knowledge distillation)と呼ばれる。
【0025】
≪事前学習済み多言語モデルに基づく単語対応≫
単語対応の方法には、統計的機械翻訳に基づく方法、ニューラル機械翻訳に基づく方法、事前学習済み多言語モデルに基づく方法がある。
【0026】
統計的機械翻訳に基づく方法は、統計的機械翻訳モデルに基づいて対訳データから教師なしで単語対応を求めるもので、GIZA++(参考文献7)やFastAlign(参考文献8)等のフリーソフトウェアで使用されている。ニューラル機械翻訳に基づく方法は、ニューラル機械翻訳モデルに基づいて対訳データから教師なしで単語対応を求めるもの(参考文献9)と、さらに単語対応の正解データを使用して教師なしで単語対応を求めるもの(参考文献10)とがある。統計的機械翻訳やニューラル機械翻訳に基づく単語対応は、単語対応モデルを訓練するために大量の対訳データを必要とするという問題点がある。
【0027】
近年、multilingual BERTやXLM-RoBERTa等の事前学習済み多言語モデルに基づく単語対応手法が提案されている。事前学習済み多言語モデルは、各言語の単言語データのみから学習されるので、これらの単語対応手法は大量の対訳データを必要とせず、従来の統計的機械翻訳やニューラル機械翻訳に基づく単語対応を上回る精度を実現している。
【0028】
事前学習済み多言語モデルに基づく手法は、単語対応の正解データを用いて教師あり学習を行う方法(参考文献11)と、単語対応の正解データは使用せずに対訳データを弱い教師信号として使用する方法(参考文献12)とがある。前者は、後者に比べて大幅に精度が高いという利点がある。後者は、教師信号を全く使わない場合でも従来の統計的機械翻訳やニューラル機械翻訳に基づく単語対応よりも精度が高いため、事前学習済み多言語モデルがサポートしている言語(例えば、multilingual BERTは104言語)の任意の言語対に対して単語対応を求められるという利点がある。
【0029】
≪強化学習による文生成≫
強化学習(reinforcement learning)とは、現在の状態(state)を観測して取るべき行動(action)を選択するエージェント(agent)とそれに報酬(reward)を返す環境(environment)との間の相互作用を通じて、価値(value)又は累積報酬値を最大化することを目的としてエージェントが行動を選択する方策(policy)を学習する方法である。
【0030】
強化学習は、エージェントの行動を評価する報酬関数が微分可能でなくとも損失関数を計算できるため、ニューラルネットワークのパラメータに関して微分不可能な(勾配を計算できない)評価尺度を最適化するモデルを学習する目的で使用されることが多い。
【0031】
文生成に強化学習を用いる場合、その目的は、モデルの出力系列
【0032】
【数2】
に対する報酬の期待値を最大化することである。すなわち、以下の式(2)を最大化することである。
【0033】
【数3】
ここで、pθはパラメータθを持つモデルである。また、rは単語列を入力とする報酬関数であり、モデルのパラメータθには依存しないと仮定する。以下、明細書のテキスト中ではモデルの出力系列を「^Y」と表す。
【0034】
例えば、機械翻訳において入力文をX、翻訳モデルによる出力文(翻訳結果)を^Y、参照訳(正解)をYとし、報酬R(^Y,Y)を翻訳精度の自動評価尺度BLEUとすれば、強化学習により評価尺度BLEUを最大化するニューラル機械翻訳モデルを学習できる(参考文献13)。
【0035】
シンプルな強化学習の実現方法としてREINFORCE(参考文献14)が知られている。REINFORCEの損失関数は、モデルpθ(^Y|X)から文をサンプリングすることによって以下の式(3)のように近似される。
【0036】
【数4】
ただし、rはサンプリングすることで生じる損失の分散を緩和するための期待報酬の推定量で、ベースライン報酬(baseline reward)と呼ばれる。
【0037】
一般にREINFORCEによる強化学習は、報酬値の分散が大きいために特に学習初期において損失の減少が遅いことが知られている。そこで、はじめにクロスエントロピー損失を用いてモデルを学習し、途中から評価指標に基づく強化学習に移行する方法(参考文献13)や、以下の式(4)のように損失関数としてクロスエントロピー損失と強化学習による損失の線形和を用いる方法等が知られている(参考文献15)。
【0038】
【数5】
ここで、LCEはクロスエントロピー損失、LRLは強化学習による損失である。また、λはクロスエントロピー損失と強化学習による損失との比率を決める値で、一般に非常に小さい値が選ばれる。
【0039】
また、近年、画像キャプション生成等の分野では、CIDErやMETEORのような微分不可能な文レベルの評価尺度を最適化する文生成アルゴリズムとして、REINFORCEを発展させた自己批判的系列学習(self-critical sequence training, SCST)が標準的に用いられている(参考文献16)。SCSTでは、ベースラインを推定するのではなく、テスト時の自分の出力を使って報酬を正規化することにより学習を安定化している。
【0040】
<提案手法>
以下、提案手法について説明する。
【0041】
≪対訳文対の単語対応の単調性スコア≫
本実施形態では、単語対応に基づいて、対訳文対の単語対応が単調である度合いを表現する単調性スコアを定義する。
【0042】
単語対応を求める方法は基本的に任意の方法を用いることができるが、本実施形態では、幅広い言語対に適用可能かつ精度が高い事前学習済み多言語モデルに基づく方法を用いる(参考文献11、12)。
【0043】
第i番目の対訳文対のすべての単語対応の対S=(a,b)(j=0,1,2,・・・)について、対訳文対の単語対応の単調性スコアを以下の式(5)のように定義する。
【0044】
【数6】
ここで、lとlはそれぞれ原言語文と目的言語文の長さである。また、pos(w)は文の中の単語wの位置を表す。
【0045】
式(5)に示すスコア関数(以下、単調性スコア関数ともいう。)は、互いに対応付けられた単語対について正規化された単語出現位置の差の平均を求めたものである。この単調性スコア関数を最小化するように強化学習を用いて翻訳モデルを訓練する。最適化に強化学習を用いる理由は、単調性スコア関数が微分できないからである。単調性スコアは、ケンドールの順位相関係数等、単語対応が単調である度合いを表現するものであれば任意のものを用いることができる。
【0046】
強化学習のための文単位の報酬は以下の式(6)のように定義する。
【0047】
【数7】
また、強化学習アルゴリズムとしてはREINFORCE又はSCSTを用いる。このような強化学習により、単語対応がより単調な対訳データを生成する翻訳モデルを訓練することができる。
【0048】
≪単調性スコアを最適化する同時機械翻訳モデルの訓練≫
本実施形態では、教師モデルと生徒モデルの両方ともTransformerに基づくエンコーダデコーダモデルを用いる(参考文献17)。教師モデルは通常のニューラル機械翻訳モデルであれば任意のモデルを用いることができる。また、生徒モデルは、Wait-kや再翻訳等の同時機械翻訳モデルであれば任意のモデルを用いることができる。
【0049】
本提案手法では、以下の(a)~(c)により同時機械翻訳モデルを訓練(学習)する。
【0050】
(a)対訳データを用いて、クロスエントロピー損失に基づいて教師モデルを訓練する。これは、翻訳モデルの事前訓練(pre-train)に相当する。なお、訓練手法としては、教師モデルとするニューラル機械翻訳モデルに応じて任意の手法を用いることができる。
【0051】
(b)対訳データを用いて、単調性スコアに基づいて強化学習により教師モデルを訓練する。これは、翻訳モデルのファインチューニング(fine-tuning)に相当する。
【0052】
(c)教師モデルの出力を用いて、クロスエントロピー損失に基づいて生徒モデルを訓練する。なお、訓練手法としては、生徒モデルとする同時機械翻訳モデルに応じて任意の手法を用いることができる。
【0053】
一般に強化学習は訓練に時間がかかるため、上記の(a)の事前訓練は、訓練の効率化のために必要である。
【0054】
上記の(b)のファインチューニングに用いられる対訳データは、上記の(a)の事前訓練に用いられる対訳データと異なっていることが望ましい。これは、強化学習の際に未知のデータを用いることでモデルの頑強性が高まるためである。
【0055】
上記の(c)は、知識蒸留における生徒モデルの学習と同様である。上記の(b)で得られた教師モデルにより原言語文を翻訳した結果(目的言語文)を用いて、生徒モデルを訓練する。ただし、一般に知識蒸留は教師モデルよりパラメータ数が少ない生徒モデルを作成することが目的であるのに対して、本提案手法では、汎用的な機械翻訳モデルを教師モデルとして、文の完了を待たずに翻訳を開始できる同時機械翻訳モデルを生徒モデルとして作成することを目的としている。
【0056】
≪同時機械翻訳モデルの推論≫
同時機械翻訳を行う際には、上記の(c)で得られた生徒モデルを同時機械翻訳モデルとして、入力文(原言語文)から出力文(目的言語文)を得る。
【0057】
<同時機械翻訳装置10の機能構成>
本実施形態に係る同時機械翻訳装置10の機能構成を図1に示す。図1に示すように、本実施形態に係る同時機械翻訳装置10は、教師モデル事前訓練部101と、教師モデルファインチューニング部102と、翻訳デコード部103と、対訳作成部104と、生徒モデル訓練部105と、翻訳デコード部106とを有する。これら各部は、例えば、同時機械翻訳装置10にインストールされた1以上のプログラムが、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサに実行させる処理により実現される。
【0058】
教師モデル事前訓練部101は、対訳データ1100を入力として、上記の(a)により教師モデルの事前訓練を行う。この事前学習後の教師モデルを「事前訓練済み教師モデル1200」と表す。なお、事前訓練の際には複数の対訳データ1100(対訳データ1100のデータセット)が用いられる。
【0059】
教師モデルファインチューニング部102は、対訳データ1300を入力として、上記の(b)により事前訓練済み教師モデル1200をファインチューニングする。このファインチューニング後の事前訓練済み教師モデル1200を「ファインチューニング済み教師モデル1400」と表す。なお、ファインチューニングの際には複数の対訳データ1300(対訳データ1300のデータセット)が用いられる。また、上述したように、対訳データ1300のデータセットは、対訳データ1100のデータセットと異なるデータセットすることが好ましい。
【0060】
翻訳デコード部103は、対訳データの原言語文1500を入力として、ファインチューニング済み教師モデル1400により原言語文1500を目的言語文に翻訳する。この目的言語文を「目的言語文1600」と表す。なお、この翻訳の際には複数の原言語文1500が用いられる。また、これら複数の原言語文1500がそれぞれ含まれる複数の対訳データのデータセットとしては、同時機械翻訳モデルの学習用データとして与えられた対訳データのデータセットを用いればよい。
【0061】
対訳作成部104は、原言語文1500と、その翻訳である目的言語文1600とを組とする対訳データ1700を作成する。この対訳データ1700は、原言語文1500が含まれていた元の対訳データをより単調にした新たな対訳データである。
【0062】
生徒モデル訓練部105は、対訳データ1700を入力として、上記の(c)により生徒モデルの訓練を行う。この訓練後の生徒モデルを「生徒モデル1800」を表す。
【0063】
翻訳デコード部106は、入力文(原言語文)を入力として、生徒モデル1800により出力文(目的言語文)に翻訳する。
【0064】
なお、図1では、訓練と推論を同一の同時機械翻訳装置10で行う場合の機能構成例を示しているが、訓練と推論を異なる装置が実行してもよい。例えば、教師モデル事前訓練部101と教師モデルファインチューニング部102と翻訳デコード部103と対訳作成部104と生徒モデル訓練部105は訓練装置(又は学習装置)が有しており、翻訳デコード部106は推論装置が有していてもよい。
【0065】
<学習処理>
同時機械翻訳モデルを学習(訓練)する際の学習処理について図2を参照しながら説明する。
【0066】
まず、教師モデル事前訓練部101は、対訳データ1100を入力として、上記の(a)により教師モデル(ニューラル機械翻訳モデル)の事前訓練を行う(ステップS101)。すなわち、教師モデル事前訓練部101は、当該対訳データ1100を用いて、クロスエントロピー損失を最小化するように教師モデルの訓練を行い、事前訓練済み教師モデル1200を出力する。
【0067】
次に、教師モデルファインチューニング部102は、対訳データ1300を入力として、上記の(b)により事前訓練済み教師モデル1200をファインチューニングする(ステップS102)。すなわち、教師モデルファインチューニング部102は、当該対訳データ1300を用いて、式(6)に示す報酬の累積報酬値を最大化するように(言い換えれば、式(5)に示す単調性スコアの累積値を最小化するように)強化学習により事前訓練済み教師モデル1200の訓練を行い、ファインチューニング済み教師モデル1400を出力する。これにより、原言語文を入力したときに、この原言語文との間で単語対応が単調に近くなる目的言語文を出力するファインチューニング済み教師モデル1400が得られる。なお、上述したように、本実施形態では、単語対応を求める際には事前学習済み多言語モデルに基づく方法を用いる(参考文献11、12)。
【0068】
次に、翻訳デコード部103は、対訳データの原言語文1500を入力として、ファインチューニング済み教師モデル1400により原言語文1500を目的言語文1600に翻訳する(ステップS103)。
【0069】
次に、対訳作成部104は、原言語文1500と、その翻訳である目的言語文1600とを組とする新たな対訳データ1700を作成する(ステップS104)。これにより、原言語文1500が含まれていた元の対訳データよりも単語対応が単調に近い対訳データ1700が得られる。
【0070】
そして、生徒モデル訓練部105は、対訳データ1700を入力として、上記の(c)により生徒モデル(同時機械翻訳モデル)の訓練を行う(ステップS105)。すなわち、生徒モデル訓練部105は、当該対訳データ1700を用いて、クロスエントロピー損失を最小化するように生徒モデルの訓練を行い、訓練済みの生徒モデル1800を出力する。
【0071】
以上により、入力文(原言語文)を出力文(目的言語文)に同時機械翻訳するための同時機械翻訳モデルが生徒モデル1800として得られる。このとき、本実施形態に係る同時機械翻訳装置10は、元の対訳データよりも単語対応が単調な新たな対訳データを作成した上で、この新たな対訳データにより同時機械翻訳モデルを訓練する。
【0072】
また、新たな対訳データを作成する際には、単語対応に基づく単調性を報酬として強化学習により訓練した翻訳モデルを使用する。これにより、より単調かつ流暢な対訳データを作成することが可能になる。更に、事前学習済み多言語モデルに基づく単語対応を使用することにより、幅広い言語対と翻訳方向に対して適用することが可能となる。すなわち、事前学習済み多言語モデルに基づく単語対応と、その単語対応に基づく単調性を報酬とした強化学習とを組み合わせることで、幅広い言語対と翻訳方向に適用可能で、かつ、単調性と流暢性を両立可能な同時機械翻訳向けの対訳データ(学習用データ)を作成することが可能となる。
【0073】
<同時機械翻訳処理>
同時機械翻訳モデルにより原言語文を目的言語文に同時機械翻訳する際の同時機械翻訳処理について図3を参照しながら説明する。
【0074】
翻訳デコード部106は、与えられた入力文(原言語文)を入力する(ステップS201)。
【0075】
次に、翻訳デコード部106は、生徒モデル1800により入力文を出力文(目的言語文)に翻訳する(ステップS202)。
【0076】
そして、翻訳デコード部106は、出力文を所定の出力先に出力する(ステップS203)。なお、出力文の出力先は予め決められた任意の出力先とすればよい。例えば、出力文をディスプレイ等に出力してもよいし、当該出力文を合成音声に変換するプログラムに出力し、スピーカ等から当該合成音声を出力してもよい。
【0077】
以上により、原言語文を入力として、目的言語文を出力する同時機械翻訳を実現することができる。しかも、このとき、上記の学習処理で訓練された生徒モデル1800により、従来技術よりも遅延が小さい同時機械翻訳を実現することができる。
【0078】
<同時機械翻訳装置10のハードウェア構成>
本実施形態に係る同時機械翻訳装置10のハードウェア構成を図4に示す。図4に示すように、本実施形態に係る同時機械翻訳装置10は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、プロセッサ205と、メモリ装置206とを有する。これらの各ハードウェアは、それぞれがバス207により通信可能に接続される。
【0079】
入力装置201は、例えば、キーボードやマウス、タッチパネル、各種物理ボタン等である。表示装置202は、例えば、ディスプレイや表示パネル等である。なお、同時機械翻訳装置10は、例えば、入力装置201及び表示装置202のうちの少なくとも一方を有していなくてもよい。
【0080】
外部I/F203は、記録媒体203a等の外部装置とのインタフェースである。同時機械翻訳装置10は、外部I/F203を介して、記録媒体203aの読み取りや書き込み等を行うことができる。なお、記録媒体203aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
【0081】
通信I/F204は、同時機械翻訳装置10を通信ネットワークに接続するためのインタフェースである。プロセッサ205は、例えば、CPUやGPU等の各種演算装置である。メモリ装置206は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)等の各種記憶装置である。
【0082】
本実施形態に係る同時機械翻訳装置10は、図4に示すハードウェア構成を有することにより、上述した学習処理や同時機械翻訳処理を実現することができる。なお、図4に示すハードウェア構成は一例であって、同時機械翻訳装置10は、例えば、複数のプロセッサ205を有していてもよいし、複数のメモリ装置206を有していてもよいし、図示したハードウェア以外にも様々なハードウェアを有していてもよい。
【0083】
<実施形態のまとめ>
本明細書には、少なくとも下記各項の同時機械翻訳方法、同時機械翻訳装置、及びプログラムが開示されている。
【0084】
(付記項1)
第1の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練手順と、
第2の対訳データを用いて、前記第2の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング手順と、
第3の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳手順と、
前記原言語文と前記目的言語文とを対訳文とした第4の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成手順と、
をコンピュータが実行する同時機械翻訳方法。
【0085】
(付記項2)
前記同時機械翻訳方法には、
前記第4の対訳データを用いて、クロスエントロピー損失を最小化するように前記同時機械翻訳モデルを訓練する訓練手順、が更に含まれる、付記項1に記載の同時機械翻訳方法。
【0086】
(付記項3)
前記同時機械翻訳方法には、
前記訓練後の同時機械翻訳モデルにより、原言語の入力文を目的言語の出力文に翻訳する同時機械翻訳手順、が更に含まれる付記項2に記載の同時機械翻訳方法。
【0087】
(付記項4)
前記ファインチューニング手順は、
事前学習済み多言語モデルに基づいて前記第2の対訳データに含まれる対訳文間の単語対応を求め、求めた単語対応の単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングする、付記項1乃至3の何れか一項に記載の同時機械翻訳方法。
【0088】
(付記項5)
前記単調性スコアは、前記単語対応が表す単語対に含まれる各単語の出現位置を正規化した値の差又は0のいずれか大きい方の平均である、付記項1乃至4の何れか一項に記載の同時機械翻訳方法。
【0089】
(付記項6)
前記報酬は、1から前記単調性スコアの値を引いた値である、付記項5に記載の同時機械翻訳方法。
【0090】
(付記項7)
第1の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練部と、
第2の対訳データを用いて、前記第2の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング部と、
第3の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳部と、
前記原言語文と前記目的言語文とを対訳文とした第4の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成部と、
を有する同時機械翻訳装置。
【0091】
(付記項8)
コンピュータに、付記項1乃至6の何れか一項に記載の同時機械翻訳方法を実行させるプログラム。
【0092】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術の組み合わせ等が可能である。
【0093】
[参考文献]
参考文献1:Mingbo Ma, Liang Huang, Hao Xiong, Renjie Zheng, Kaibo Liu, Baigong Zheng, Chuanqiang Zhang, Zhongjun He, Hairong Liu, Xing Li, Hua Wu, and Haifeng Wang. Stacl: Simultaneous translation with implicit anticipation and controllable latency using prefix-to-prefix framework. In Proceedings of the ACL-2019, pp. 3025-3036, 2019.
参考文献2:Jiatao Gu, Graham Neubig, Kyunghyun Cho, and Victor O.K. Li. Learning to translate in realtime with neural machine translation. In Proceedings of the EACL-2017, pp. 1053-1062, 2017.
参考文献3:Jan Niehues, Ngoc-Quan Pham, Thanh-Le Ha, Matthias Sperber, and Alex Waibel. Low-latency neural speech translation. In Proceedings of Interspeech 2018, pp. 1293-1297, 2018.
参考文献4:Naveen Arivazhagan, Colin Cherry, Wolfgang Macherey, and George Foster. Re-translation versus streaming for simultaneous translation. In Proceedings of IWSLT-2020, pp. 220-227, 2020.
参考文献5:Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. In Proceedings of hte NeurIPS 2014 Deep Learning Workshop, 2014.
参考文献6:Yoon Kim and Alexander M. Rush. Sequence-level knowledge distillation. In Proceedings of the EMNLP-2016, pp. 1317-1327, 2016.
参考文献7:Franz Josef Och and Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, Vol. 29, No. 1, pp. 19-51, 2003.
参考文献8:Chris Dyer, Victor Chahuneau, and Noah A. Smith. A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of the NAACL-HLT-2013, pp. 644-648, 2013.
参考文献9:Thomas Zenkel, JoernWuebker, and John DeNero. End-to-End NeuralWord Alignment Outperforms GIZA++. In Proceeding of the ACL-2020, pp. 1605-1607, 2020.
参考文献10:Sarthak Garg, Stephan Peitz, Udhyakumar Nallasamy, and Matthias Paulik. Jointly Learning to Align and Translate with Transformer Models. In Proceedings of the EMNLP-IJCNLP-2019, pp. 4452-4461, 2019.
参考文献11:Masaaki Nagata, Katsuki Chousa, and Masaaki Nishino. A supervised word alignment method based on cross-language span prediction using multilingual bert. In Proceedings of the EMNLP-2020, pp. 555-565, 2020.
参考文献12:Zi-Yi Dou and Graham Neubig. Word alignment by fine-tuning embeddings on parallel corpora.In Proceedings of the EACL-2021, 2021.
参考文献13:Marc'Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. Sequence level training with recurrent neural networks. In Proceedings of the ICLR-2016, 2016.
参考文献14:Ronald J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, Vol. 8, No. 3-4, pp. 229-256, 1992.
参考文献15:Lijun Wu, Fei Tian, Tao Qin, Jianhuang Lai, and Tie-Yan Liu. A study of reinforcement learning for neural machine translation. In Proceedings of the EMNLP-2018, 2018.
参考文献16:Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jarret Ross, and Vaibhava Goel. Selfcritical sequence training for image captioning. In Proceedings of the CVPR-2017, pp. 7008-7024, 2017.
参考文献17:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.
【符号の説明】
【0094】
10 同時機械翻訳装置
101 教師モデル事前訓練部
102 教師モデルファインチューニング部
103 翻訳デコード部
104 対訳作成部
105 生徒モデル訓練部
106 翻訳デコード部
201 入力装置
202 表示装置
203 外部I/F
203a 記録媒体
204 通信I/F
205 プロセッサ
206 メモリ装置
207 バス
図1
図2
図3
図4