特許7538986 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特許7538986同時機械翻訳方法、同時機械翻訳装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-15

(45)【発行日】2024-08-23

(54)【発明の名称】同時機械翻訳方法、同時機械翻訳装置、及びプログラム

(51)【国際特許分類】

G06F 40/44 20200101AFI20240816BHJP

G06N 3/08 20230101ALI20240816BHJP

G06N 20/00 20190101ALI20240816BHJP

【ＦＩ】

G06F40/44

G06N3/08

G06N20/00 130

【請求項の数】 8

(21)【出願番号】P 2021131963

(22)【出願日】2021-08-13

(65)【公開番号】P2023026202

(43)【公開日】2023-02-24

【審査請求日】2023-10-04

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】安井豪

(72)【発明者】

【氏名】鶴岡慶雅

【審査官】成瀬博之

(56)【参考文献】

【文献】米国特許出願公開第２０２０／０１５９８２２（ＵＳ，Ａ１）

【文献】特開２０２１－１７９６６５（ＪＰ，Ａ）

【文献】特開２０２１－０２２００７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ０６Ｎ３／００－９９／００

Ｇ１０Ｌ１５／００－１７／２６

(57)【特許請求の範囲】

【請求項1】

第１の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練手順と、
第２の対訳データを用いて、前記第２の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング手順と、
第３の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳手順と、
前記原言語文と前記目的言語文とを対訳文とした第４の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成手順と、
をコンピュータが実行する同時機械翻訳方法。

【請求項2】

前記同時機械翻訳方法には、
前記第４の対訳データを用いて、クロスエントロピー損失を最小化するように前記同時機械翻訳モデルを訓練する訓練手順、が更に含まれる、請求項１に記載の同時機械翻訳方法。

【請求項3】

前記同時機械翻訳方法には、
前記訓練後の同時機械翻訳モデルにより、原言語の入力文を目的言語の出力文に翻訳する同時機械翻訳手順、が更に含まれる請求項２に記載の同時機械翻訳方法。

【請求項4】

前記ファインチューニング手順は、
事前学習済み多言語モデルに基づいて前記第２の対訳データに含まれる対訳文間の単語対応を求め、求めた単語対応の単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングする、請求項１乃至３の何れか一項に記載の同時機械翻訳方法。

【請求項5】

前記単調性スコアは、前記単語対応が表す単語対に含まれる各単語の出現位置を正規化した値の差又は０のいずれか大きい方の平均である、請求項１乃至４の何れか一項に記載の同時機械翻訳方法。

【請求項6】

前記報酬は、１から前記単調性スコアの値を引いた値である、請求項５に記載の同時機械翻訳方法。

【請求項7】

第１の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練部と、
第２の対訳データを用いて、前記第２の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング部と、
第３の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳部と、
前記原言語文と前記目的言語文とを対訳文とした第４の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成部と、
を有する同時機械翻訳装置。

【請求項8】

コンピュータに、請求項１乃至６の何れか一項に記載の同時機械翻訳方法を実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、同時機械翻訳方法、同時機械翻訳装置、及びプログラムに関する。

【背景技術】

【0002】

同時機械翻訳（simultaneous machine translation）とは、ある言語を別の言語にリアルタイムに翻訳するタスクのことである。同時機械翻訳が通常の機械翻訳と最も大きく異なるのは、入力文（原言語文）の文の完了を待たずに翻訳を始める点である。同時機械翻訳は翻訳のリアルタイム性が要求される同時通訳（simultaneous interpretation）やキャプション生成（caption generation）等に応用されるため、原言語文が目的言語文に翻訳されるまでの時間（以下、遅延時間又は単に遅延ともいう。）を小さくすることが求められる。

【0003】

ここで、互いに翻訳になっている二つの文において互いに翻訳になっている単語を同定することを単語対応（word alignment）という。また、互いに翻訳である文対において、互いに翻訳である単語対が出現する順番が同じ（逆転しない）場合、単語対応が単調（monotonic）であるという。より単調な対訳データ（原言語文とそれを目的言語に翻訳した目的言語文との組（つまり、対訳文対）で表されたデータ）を用いて同時機械学習モデルを学習することで、より遅延の小さい同時機械翻訳の実現が期待できることが知られている。

【0004】

語順が大きく異なる言語対（例えば、日本語と英語）の同時機械翻訳において、元の対訳データを変換して、互いに翻訳である単語の出現位置がより単調に近い対訳データを生成する方法が提案されている。このような方法は、人手で変換規則を作成する方法と機械学習により自動的に変換する方法に大別できる。

【0005】

人手で変換規則を作成する方法としては、例えば、非特許文献１や非特許文献２で提案されている方法が知られている。非特許文献１では、日本語から英語への翻訳のように特定の言語対の特定の翻訳方向に対象を絞り、英語の「A of B」を「B's A」と変換することにより日本語の「BのA」と対応する単語の出現順序が同じになるようにするといった個別の変換規則を言語学的な分析に基づいて作成する方法が提案されている。非特許文献２では、一つの長い文を複数のセグメントに分割し、セグメントごとに前から順番に翻訳できるように語句の反復や省略等の調整を加える手法が提案されている。

【0006】

機械学習により自動的に変換する方法としては、例えば、非特許文献３で提案されている方法が知られている。非特許文献３では、人間の同時通訳者が使用する「順送り」という通訳方略の近似として、英語から日本語への翻訳において、統計的機械翻訳における事前並べ替え手法を用いて日本語文を英語文と語順が近くなるように並べ替え、さらに同時通訳文に近い自然かつ流暢な文にするために教師なしニューラル機械翻訳手法を用いてスタイル変換を行う方法が提案されている。

【先行技術文献】

【非特許文献】

【0007】

【文献】He He, Alvin Grissom II, John Morgan, Jordan Boyd-Graber, and Hal Daum´e III. Syntax-based rewriting for simultaneous machine translation. In Proceedings of the EMNLP 2015, pp. 55-64,2015.

【文献】中林明子, 加藤恒昭. 同時機械翻訳のための文脈を考慮したセグメントコーパス. 言語処理学会第27 回年次大会発表論文集, pp. 1659-1663, 2021.

【文献】二又航介, 須藤克仁, 中村哲. 英日同時通訳システムのための疑似同時通訳コーパス自動生成手法の提案. 言語処理学会第26 回年次大会発表論文集, pp. 1281-1284, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、人手で変換規則を作成する従来方法は、言語学的な分析に基づいて言語対と翻訳方向ごとに個別の変換規則を作成しなければならないという問題点がある。また、個別の変換規則を作成するため、その規則によって対応できる言語現象が個別的で網羅性に欠けるという問題点もある。

【0009】

機械学習により自動的に変換する従来方法は、事前並べ替えにより単語対応を単調に近づけることで不自然になった文を、スタイル変換により流暢な文にしているため、単語対応の単調性と流暢さをバランス良く同時に最適化できないという問題点がある。

【0010】

本発明の一実施形態は、上記の点に鑑みてなされたもので、互いに翻訳である単語の出現位置が単調に近い対訳データを同時機械翻訳の学習用データとして生成することを目的とする。

【課題を解決するための手段】

【0011】

上記目的を達成するため、一実施形態に係る同時機械翻訳方法は、第１の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練手順と、第２の対訳データを用いて、前記第２の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング手順と、第３の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳手順と、前記原言語文と前記目的言語文とを対訳文とした第４の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成手順と、をコンピュータが実行する。

【発明の効果】

【0012】

互いに翻訳である単語の出現位置が単調に近い対訳データを同時機械翻訳の学習用データとして生成することができる。

【図面の簡単な説明】

【0013】

【図1】本実施形態に係る同時機械翻訳装置の機能構成の一例を示す図である。

【図2】本実施形態に係る学習処理の流れの一例を示すフローチャートである。

【図3】本実施形態に係る同時機械翻訳処理の流れの一例を示すフローチャートである。

【図4】本実施形態に係る同時機械翻訳装置のハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0014】

以下、本発明の一実施形態について説明する。本実施形態では、互いに翻訳である単語の出現位置が単調に近い対訳データを同時機械翻訳の学習用データとして生成し、この学習用データにより同時機械翻訳モデルの学習を行うことで、遅延が小さい同時機械翻訳を実現することができる手法（以下、提案手法という。）について説明した後、この提案手法により同時機械翻訳を実現する同時機械翻訳装置１０について説明する。なお、「学習」は「訓練」とも呼ばれる。

【0015】

＜準備＞
提案手法について説明する前に、前提となる技術や用語、概念等を準備する。

【0016】

≪ニューラル機械翻訳≫
通常の機械翻訳と同様に、近年では同時機械翻訳でもニューラルネットワークを用いる方法（ニューラル機械翻訳）が主流になっている。ニューラルネットワークに基づく同時機械翻訳は大きく二つの方法に分けることができる。一つは、入力文の単語を一つずつ逐次的に処理し、ある程度の遅延を伴って出力する方法である。入力文と出力文の間の遅延は、Wait-k翻訳モデルと呼ばれる遅延が固定的である場合（参考文献１）と、強化学習により訓練された政策（policy）に基づく推論により遅延が動的に決定される場合（参考文献２）とがある。もう一つは、再翻訳（re-translation）と呼ばれる、一つの単語が入力されるたびに翻訳を繰り返す方法である（参考文献３、４）。

【0017】

≪再翻訳≫
再翻訳では、接頭辞訓練（prefix training）と呼ばれるデータ拡張（data augmentation）の方法が用いられる（参考文献３、４）。通常のニューラル機械翻訳では互いに翻訳である二つの言語の文対を用いてモデルを訓練するが、接頭辞訓練では、完全な文対だけでなく、互いに翻訳である文対の接頭辞の対も用いてモデルを訓練する。これにより、同時機械翻訳において入力文の接頭辞が入力された際に、翻訳結果の接頭辞を出力できるようになる。

【0018】

接頭辞の対の作り方には、互いに翻訳である文対から互いに翻訳である単語対を相互に矛盾なく含む接頭辞対を抽出する方法と、互いに翻訳である文対からランダムに接頭辞対を抽出する方法とがある。従来研究では、ドイツ語と英語の翻訳や英語とフランス語の翻訳において両者に差がないことが報告されている（参考文献３、４）。しかしながら、日本語と英語のように語順が大きく異なる言語対では、互いに翻訳である単語対を含むことを条件とすると、比較的短い接頭辞対を得ることが困難である。例えば、日本語と英語の翻訳の場合、英語は主語の次の位置に動詞が出現することが多いのに対して日本語は動詞が文末に出現することが多いため、互いに翻訳である単語を相互に矛盾なく含む接頭辞対を作成するのは困難である。

【0019】

なお、上述したように、互いに翻訳になっている二つの文において互いに翻訳になっている単語を同定することを単語対応といい、互いに翻訳になっている単語対の出現順が同じ（逆転しない）ことを単語対応が単調であるという。例えば、原言語の単語ａ_１、ａ_２、ａ_３を目的言語に翻訳した結果の単語をそれぞれｂ_１、ｂ_２、ｂ_３とする。このとき、単語列ａ_１ａ_２ａ_３を翻訳した結果がｂ_１ｂ_２ｂ_３である場合は単語対応が単調である。一方で、単語列ａ_１ａ_２ａ_３を翻訳した結果がｂ_１ｂ_３ｂ_２である場合、単語対（ａ_２，ｂ_２）と（ａ_３，ｂ_３）の出現順が逆転しているため、単語対応が単調ではない。

【0020】

≪Wait-k翻訳モデル≫
Wait-k翻訳は、固定されたｋ単語の遅延の後に入力文が逐次的に翻訳されるような同時機械翻訳の手法である。

【0021】

与えられた原言語文Ｘ＝（ｘ_１，ｘ_２，・・・）と目的言語文Ｙ＝（ｙ_１，ｙ_２，・・・）に対して、Wait-k翻訳モデルは以下の式（１）のように定式化される。

【0022】

【数1】

ここで、ｇ（ｔ）は、目的言語文の単語ｙ_ｔを予測する際に処理された原言語文の単語の数を表す単調非減少な関数である。

【0023】

Wait-k翻訳モデルは、原言語文の全体Ｘではなく、その一部ｘ_{≦ｇ（ｔ）}しか利用できない点が通常のニューラル機械翻訳モデルと異なる。この制約は、訓練条件と推論条件が乖離しないように、推論時だけでなく学習時（訓練時）にも適用される。

【0024】

≪知識蒸留≫
知識蒸留（knowledge distillation）とは、ニューラルネットワークにおいて、正解データを用いて訓練された複数又は大きくて複雑な教師（teacher）モデルの出力を使って、小さくて軽量な生徒（student）モデルを訓練する手法である（参考文献５）。一般に知識蒸留はモデルのパラメータ数の削減や推論の高速化等のために用いられることが多い。ニューラル機械翻訳では、対訳データを用いて訓練した教師モデルにより原言語文を翻訳し、原言語文とその翻訳文の対から作成した疑似対訳（pseudo-parallel）データを用いて生徒モデルを訓練することが有効であると知られている（参考文献６）。この方法は系列レベル知識蒸留（sequence-level knowledge distillation）と呼ばれる。

【0025】

≪事前学習済み多言語モデルに基づく単語対応≫
単語対応の方法には、統計的機械翻訳に基づく方法、ニューラル機械翻訳に基づく方法、事前学習済み多言語モデルに基づく方法がある。

【0026】

統計的機械翻訳に基づく方法は、統計的機械翻訳モデルに基づいて対訳データから教師なしで単語対応を求めるもので、GIZA++（参考文献７）やFastAlign（参考文献８）等のフリーソフトウェアで使用されている。ニューラル機械翻訳に基づく方法は、ニューラル機械翻訳モデルに基づいて対訳データから教師なしで単語対応を求めるもの（参考文献９）と、さらに単語対応の正解データを使用して教師なしで単語対応を求めるもの（参考文献１０）とがある。統計的機械翻訳やニューラル機械翻訳に基づく単語対応は、単語対応モデルを訓練するために大量の対訳データを必要とするという問題点がある。

【0027】

近年、multilingual BERTやXLM-RoBERTa等の事前学習済み多言語モデルに基づく単語対応手法が提案されている。事前学習済み多言語モデルは、各言語の単言語データのみから学習されるので、これらの単語対応手法は大量の対訳データを必要とせず、従来の統計的機械翻訳やニューラル機械翻訳に基づく単語対応を上回る精度を実現している。

【0028】

事前学習済み多言語モデルに基づく手法は、単語対応の正解データを用いて教師あり学習を行う方法（参考文献１１）と、単語対応の正解データは使用せずに対訳データを弱い教師信号として使用する方法（参考文献１２）とがある。前者は、後者に比べて大幅に精度が高いという利点がある。後者は、教師信号を全く使わない場合でも従来の統計的機械翻訳やニューラル機械翻訳に基づく単語対応よりも精度が高いため、事前学習済み多言語モデルがサポートしている言語（例えば、multilingual BERTは１０４言語）の任意の言語対に対して単語対応を求められるという利点がある。

【0029】

≪強化学習による文生成≫
強化学習（reinforcement learning）とは、現在の状態（state）を観測して取るべき行動（action）を選択するエージェント（agent）とそれに報酬（reward）を返す環境（environment）との間の相互作用を通じて、価値（value）又は累積報酬値を最大化することを目的としてエージェントが行動を選択する方策（policy）を学習する方法である。

【0030】

強化学習は、エージェントの行動を評価する報酬関数が微分可能でなくとも損失関数を計算できるため、ニューラルネットワークのパラメータに関して微分不可能な（勾配を計算できない）評価尺度を最適化するモデルを学習する目的で使用されることが多い。

【0031】

文生成に強化学習を用いる場合、その目的は、モデルの出力系列

【0032】

【数2】

に対する報酬の期待値を最大化することである。すなわち、以下の式（２）を最大化することである。

【0033】

【数3】

ここで、ｐ_θはパラメータθを持つモデルである。また、ｒは単語列を入力とする報酬関数であり、モデルのパラメータθには依存しないと仮定する。以下、明細書のテキスト中ではモデルの出力系列を「＾Ｙ」と表す。

【0034】

例えば、機械翻訳において入力文をＸ、翻訳モデルによる出力文（翻訳結果）を＾Ｙ、参照訳（正解）をＹとし、報酬Ｒ（＾Ｙ，Ｙ）を翻訳精度の自動評価尺度BLEUとすれば、強化学習により評価尺度BLEUを最大化するニューラル機械翻訳モデルを学習できる（参考文献１３）。

【0035】

シンプルな強化学習の実現方法としてREINFORCE（参考文献１４）が知られている。REINFORCEの損失関数は、モデルｐ_θ（＾Ｙ｜Ｘ）から文をサンプリングすることによって以下の式（３）のように近似される。

【0036】

【数4】

ただし、ｒ_ｂはサンプリングすることで生じる損失の分散を緩和するための期待報酬の推定量で、ベースライン報酬（baseline reward）と呼ばれる。

【0037】

一般にREINFORCEによる強化学習は、報酬値の分散が大きいために特に学習初期において損失の減少が遅いことが知られている。そこで、はじめにクロスエントロピー損失を用いてモデルを学習し、途中から評価指標に基づく強化学習に移行する方法（参考文献１３）や、以下の式（４）のように損失関数としてクロスエントロピー損失と強化学習による損失の線形和を用いる方法等が知られている（参考文献１５）。

【0038】

【数5】

ここで、Ｌ_ＣＥはクロスエントロピー損失、Ｌ_ＲＬは強化学習による損失である。また、λはクロスエントロピー損失と強化学習による損失との比率を決める値で、一般に非常に小さい値が選ばれる。

【0039】

また、近年、画像キャプション生成等の分野では、CIDErやMETEORのような微分不可能な文レベルの評価尺度を最適化する文生成アルゴリズムとして、REINFORCEを発展させた自己批判的系列学習（self-critical sequence training, SCST）が標準的に用いられている（参考文献１６）。SCSTでは、ベースラインを推定するのではなく、テスト時の自分の出力を使って報酬を正規化することにより学習を安定化している。

【0040】

＜提案手法＞
以下、提案手法について説明する。

【0041】

≪対訳文対の単語対応の単調性スコア≫
本実施形態では、単語対応に基づいて、対訳文対の単語対応が単調である度合いを表現する単調性スコアを定義する。

【0042】

単語対応を求める方法は基本的に任意の方法を用いることができるが、本実施形態では、幅広い言語対に適用可能かつ精度が高い事前学習済み多言語モデルに基づく方法を用いる（参考文献１１、１２）。

【0043】

第ｉ番目の対訳文対のすべての単語対応の対Ｓ_ｉ＝（ａ_ｊ，ｂ_ｊ）（ｊ＝０，１，２，・・・）について、対訳文対の単語対応の単調性スコアを以下の式（５）のように定義する。

【0044】

【数6】

ここで、ｌ_ａとｌ_ｂはそれぞれ原言語文と目的言語文の長さである。また、ｐｏｓ（ｗ）は文の中の単語ｗの位置を表す。

【0045】

式（５）に示すスコア関数（以下、単調性スコア関数ともいう。）は、互いに対応付けられた単語対について正規化された単語出現位置の差の平均を求めたものである。この単調性スコア関数を最小化するように強化学習を用いて翻訳モデルを訓練する。最適化に強化学習を用いる理由は、単調性スコア関数が微分できないからである。単調性スコアは、ケンドールの順位相関係数等、単語対応が単調である度合いを表現するものであれば任意のものを用いることができる。

【0046】

強化学習のための文単位の報酬は以下の式（６）のように定義する。

【0047】

【数7】

また、強化学習アルゴリズムとしてはREINFORCE又はSCSTを用いる。このような強化学習により、単語対応がより単調な対訳データを生成する翻訳モデルを訓練することができる。

【0048】

≪単調性スコアを最適化する同時機械翻訳モデルの訓練≫
本実施形態では、教師モデルと生徒モデルの両方ともTransformerに基づくエンコーダデコーダモデルを用いる（参考文献１７）。教師モデルは通常のニューラル機械翻訳モデルであれば任意のモデルを用いることができる。また、生徒モデルは、Wait-kや再翻訳等の同時機械翻訳モデルであれば任意のモデルを用いることができる。

【0049】

本提案手法では、以下の（ａ）～（ｃ）により同時機械翻訳モデルを訓練（学習）する。

【0050】

（ａ）対訳データを用いて、クロスエントロピー損失に基づいて教師モデルを訓練する。これは、翻訳モデルの事前訓練（pre-train）に相当する。なお、訓練手法としては、教師モデルとするニューラル機械翻訳モデルに応じて任意の手法を用いることができる。

【0051】

（ｂ）対訳データを用いて、単調性スコアに基づいて強化学習により教師モデルを訓練する。これは、翻訳モデルのファインチューニング（fine-tuning）に相当する。

【0052】

（ｃ）教師モデルの出力を用いて、クロスエントロピー損失に基づいて生徒モデルを訓練する。なお、訓練手法としては、生徒モデルとする同時機械翻訳モデルに応じて任意の手法を用いることができる。

【0053】

一般に強化学習は訓練に時間がかかるため、上記の（ａ）の事前訓練は、訓練の効率化のために必要である。

【0054】

上記の（ｂ）のファインチューニングに用いられる対訳データは、上記の（ａ）の事前訓練に用いられる対訳データと異なっていることが望ましい。これは、強化学習の際に未知のデータを用いることでモデルの頑強性が高まるためである。

【0055】

上記の（ｃ）は、知識蒸留における生徒モデルの学習と同様である。上記の（ｂ）で得られた教師モデルにより原言語文を翻訳した結果（目的言語文）を用いて、生徒モデルを訓練する。ただし、一般に知識蒸留は教師モデルよりパラメータ数が少ない生徒モデルを作成することが目的であるのに対して、本提案手法では、汎用的な機械翻訳モデルを教師モデルとして、文の完了を待たずに翻訳を開始できる同時機械翻訳モデルを生徒モデルとして作成することを目的としている。

【0056】

≪同時機械翻訳モデルの推論≫
同時機械翻訳を行う際には、上記の（ｃ）で得られた生徒モデルを同時機械翻訳モデルとして、入力文（原言語文）から出力文（目的言語文）を得る。

【0057】

＜同時機械翻訳装置１０の機能構成＞
本実施形態に係る同時機械翻訳装置１０の機能構成を図１に示す。図１に示すように、本実施形態に係る同時機械翻訳装置１０は、教師モデル事前訓練部１０１と、教師モデルファインチューニング部１０２と、翻訳デコード部１０３と、対訳作成部１０４と、生徒モデル訓練部１０５と、翻訳デコード部１０６とを有する。これら各部は、例えば、同時機械翻訳装置１０にインストールされた１以上のプログラムが、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサに実行させる処理により実現される。

【0058】

教師モデル事前訓練部１０１は、対訳データ１１００を入力として、上記の（ａ）により教師モデルの事前訓練を行う。この事前学習後の教師モデルを「事前訓練済み教師モデル１２００」と表す。なお、事前訓練の際には複数の対訳データ１１００（対訳データ１１００のデータセット）が用いられる。

【0059】

教師モデルファインチューニング部１０２は、対訳データ１３００を入力として、上記の（ｂ）により事前訓練済み教師モデル１２００をファインチューニングする。このファインチューニング後の事前訓練済み教師モデル１２００を「ファインチューニング済み教師モデル１４００」と表す。なお、ファインチューニングの際には複数の対訳データ１３００（対訳データ１３００のデータセット）が用いられる。また、上述したように、対訳データ１３００のデータセットは、対訳データ１１００のデータセットと異なるデータセットすることが好ましい。

【0060】

翻訳デコード部１０３は、対訳データの原言語文１５００を入力として、ファインチューニング済み教師モデル１４００により原言語文１５００を目的言語文に翻訳する。この目的言語文を「目的言語文１６００」と表す。なお、この翻訳の際には複数の原言語文１５００が用いられる。また、これら複数の原言語文１５００がそれぞれ含まれる複数の対訳データのデータセットとしては、同時機械翻訳モデルの学習用データとして与えられた対訳データのデータセットを用いればよい。

【0061】

対訳作成部１０４は、原言語文１５００と、その翻訳である目的言語文１６００とを組とする対訳データ１７００を作成する。この対訳データ１７００は、原言語文１５００が含まれていた元の対訳データをより単調にした新たな対訳データである。

【0062】

生徒モデル訓練部１０５は、対訳データ１７００を入力として、上記の（ｃ）により生徒モデルの訓練を行う。この訓練後の生徒モデルを「生徒モデル１８００」を表す。

【0063】

翻訳デコード部１０６は、入力文（原言語文）を入力として、生徒モデル１８００により出力文（目的言語文）に翻訳する。

【0064】

なお、図１では、訓練と推論を同一の同時機械翻訳装置１０で行う場合の機能構成例を示しているが、訓練と推論を異なる装置が実行してもよい。例えば、教師モデル事前訓練部１０１と教師モデルファインチューニング部１０２と翻訳デコード部１０３と対訳作成部１０４と生徒モデル訓練部１０５は訓練装置（又は学習装置）が有しており、翻訳デコード部１０６は推論装置が有していてもよい。

【0065】

＜学習処理＞
同時機械翻訳モデルを学習（訓練）する際の学習処理について図２を参照しながら説明する。

【0066】

まず、教師モデル事前訓練部１０１は、対訳データ１１００を入力として、上記の（ａ）により教師モデル（ニューラル機械翻訳モデル）の事前訓練を行う（ステップＳ１０１）。すなわち、教師モデル事前訓練部１０１は、当該対訳データ１１００を用いて、クロスエントロピー損失を最小化するように教師モデルの訓練を行い、事前訓練済み教師モデル１２００を出力する。

【0067】

次に、教師モデルファインチューニング部１０２は、対訳データ１３００を入力として、上記の（ｂ）により事前訓練済み教師モデル１２００をファインチューニングする（ステップＳ１０２）。すなわち、教師モデルファインチューニング部１０２は、当該対訳データ１３００を用いて、式（６）に示す報酬の累積報酬値を最大化するように（言い換えれば、式（５）に示す単調性スコアの累積値を最小化するように）強化学習により事前訓練済み教師モデル１２００の訓練を行い、ファインチューニング済み教師モデル１４００を出力する。これにより、原言語文を入力したときに、この原言語文との間で単語対応が単調に近くなる目的言語文を出力するファインチューニング済み教師モデル１４００が得られる。なお、上述したように、本実施形態では、単語対応を求める際には事前学習済み多言語モデルに基づく方法を用いる（参考文献１１、１２）。

【0068】

次に、翻訳デコード部１０３は、対訳データの原言語文１５００を入力として、ファインチューニング済み教師モデル１４００により原言語文１５００を目的言語文１６００に翻訳する（ステップＳ１０３）。

【0069】

次に、対訳作成部１０４は、原言語文１５００と、その翻訳である目的言語文１６００とを組とする新たな対訳データ１７００を作成する（ステップＳ１０４）。これにより、原言語文１５００が含まれていた元の対訳データよりも単語対応が単調に近い対訳データ１７００が得られる。

【0070】

そして、生徒モデル訓練部１０５は、対訳データ１７００を入力として、上記の（ｃ）により生徒モデル（同時機械翻訳モデル）の訓練を行う（ステップＳ１０５）。すなわち、生徒モデル訓練部１０５は、当該対訳データ１７００を用いて、クロスエントロピー損失を最小化するように生徒モデルの訓練を行い、訓練済みの生徒モデル１８００を出力する。

【0071】

以上により、入力文（原言語文）を出力文（目的言語文）に同時機械翻訳するための同時機械翻訳モデルが生徒モデル１８００として得られる。このとき、本実施形態に係る同時機械翻訳装置１０は、元の対訳データよりも単語対応が単調な新たな対訳データを作成した上で、この新たな対訳データにより同時機械翻訳モデルを訓練する。

【0072】

また、新たな対訳データを作成する際には、単語対応に基づく単調性を報酬として強化学習により訓練した翻訳モデルを使用する。これにより、より単調かつ流暢な対訳データを作成することが可能になる。更に、事前学習済み多言語モデルに基づく単語対応を使用することにより、幅広い言語対と翻訳方向に対して適用することが可能となる。すなわち、事前学習済み多言語モデルに基づく単語対応と、その単語対応に基づく単調性を報酬とした強化学習とを組み合わせることで、幅広い言語対と翻訳方向に適用可能で、かつ、単調性と流暢性を両立可能な同時機械翻訳向けの対訳データ（学習用データ）を作成することが可能となる。

【0073】

＜同時機械翻訳処理＞
同時機械翻訳モデルにより原言語文を目的言語文に同時機械翻訳する際の同時機械翻訳処理について図３を参照しながら説明する。

【0074】

翻訳デコード部１０６は、与えられた入力文（原言語文）を入力する（ステップＳ２０１）。

【0075】

次に、翻訳デコード部１０６は、生徒モデル１８００により入力文を出力文（目的言語文）に翻訳する（ステップＳ２０２）。

【0076】

そして、翻訳デコード部１０６は、出力文を所定の出力先に出力する（ステップＳ２０３）。なお、出力文の出力先は予め決められた任意の出力先とすればよい。例えば、出力文をディスプレイ等に出力してもよいし、当該出力文を合成音声に変換するプログラムに出力し、スピーカ等から当該合成音声を出力してもよい。

【0077】

以上により、原言語文を入力として、目的言語文を出力する同時機械翻訳を実現することができる。しかも、このとき、上記の学習処理で訓練された生徒モデル１８００により、従来技術よりも遅延が小さい同時機械翻訳を実現することができる。

【0078】

＜同時機械翻訳装置１０のハードウェア構成＞
本実施形態に係る同時機械翻訳装置１０のハードウェア構成を図４に示す。図４に示すように、本実施形態に係る同時機械翻訳装置１０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これらの各ハードウェアは、それぞれがバス２０７により通信可能に接続される。

【0079】

入力装置２０１は、例えば、キーボードやマウス、タッチパネル、各種物理ボタン等である。表示装置２０２は、例えば、ディスプレイや表示パネル等である。なお、同時機械翻訳装置１０は、例えば、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

【0080】

外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。同時機械翻訳装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。なお、記録媒体２０３ａとしては、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

【0081】

通信Ｉ／Ｆ２０４は、同時機械翻訳装置１０を通信ネットワークに接続するためのインタフェースである。プロセッサ２０５は、例えば、ＣＰＵやＧＰＵ等の各種演算装置である。メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、フラッシュメモリ、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等の各種記憶装置である。

【0082】

本実施形態に係る同時機械翻訳装置１０は、図４に示すハードウェア構成を有することにより、上述した学習処理や同時機械翻訳処理を実現することができる。なお、図４に示すハードウェア構成は一例であって、同時機械翻訳装置１０は、例えば、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよいし、図示したハードウェア以外にも様々なハードウェアを有していてもよい。

【0083】

＜実施形態のまとめ＞
本明細書には、少なくとも下記各項の同時機械翻訳方法、同時機械翻訳装置、及びプログラムが開示されている。

【0084】

（付記項１）
第１の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練手順と、
第２の対訳データを用いて、前記第２の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング手順と、
第３の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳手順と、
前記原言語文と前記目的言語文とを対訳文とした第４の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成手順と、
をコンピュータが実行する同時機械翻訳方法。

【0085】

（付記項２）
前記同時機械翻訳方法には、
前記第４の対訳データを用いて、クロスエントロピー損失を最小化するように前記同時機械翻訳モデルを訓練する訓練手順、が更に含まれる、付記項１に記載の同時機械翻訳方法。

【0086】

（付記項３）
前記同時機械翻訳方法には、
前記訓練後の同時機械翻訳モデルにより、原言語の入力文を目的言語の出力文に翻訳する同時機械翻訳手順、が更に含まれる付記項２に記載の同時機械翻訳方法。

【0087】

（付記項４）
前記ファインチューニング手順は、
事前学習済み多言語モデルに基づいて前記第２の対訳データに含まれる対訳文間の単語対応を求め、求めた単語対応の単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングする、付記項１乃至３の何れか一項に記載の同時機械翻訳方法。

【0088】

（付記項５）
前記単調性スコアは、前記単語対応が表す単語対に含まれる各単語の出現位置を正規化した値の差又は０のいずれか大きい方の平均である、付記項１乃至４の何れか一項に記載の同時機械翻訳方法。

【0089】

（付記項６）
前記報酬は、１から前記単調性スコアの値を引いた値である、付記項５に記載の同時機械翻訳方法。

【0090】

（付記項７）
第１の対訳データを用いて、クロスエントロピー損失を最小化するようにニューラル機械翻訳モデルを事前訓練する事前訓練部と、
第２の対訳データを用いて、前記第２の対訳データに含まれる対訳文間の単語対応の単調性を表す単調性スコアを報酬とした強化学習により前記事前訓練後のニューラル機械翻訳モデルをファインチューニングするファインチューニング部と、
第３の対訳データに含まれる対訳文のうちの原言語文を用いて、前記ファインチューニング後のニューラル機械翻訳モデルにより前記原言語文を目的言語に翻訳した目的言語文を作成する翻訳部と、
前記原言語文と前記目的言語文とを対訳文とした第４の対訳データを、同時機械翻訳モデルの学習用データとして作成する対訳作成部と、
を有する同時機械翻訳装置。

【0091】

（付記項８）
コンピュータに、付記項１乃至６の何れか一項に記載の同時機械翻訳方法を実行させるプログラム。

【0092】

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術の組み合わせ等が可能である。

【0093】

［参考文献］
参考文献１：Mingbo Ma, Liang Huang, Hao Xiong, Renjie Zheng, Kaibo Liu, Baigong Zheng, Chuanqiang Zhang, Zhongjun He, Hairong Liu, Xing Li, Hua Wu, and Haifeng Wang. Stacl: Simultaneous translation with implicit anticipation and controllable latency using prefix-to-prefix framework. In Proceedings of the ACL-2019, pp. 3025-3036, 2019.
参考文献２：Jiatao Gu, Graham Neubig, Kyunghyun Cho, and Victor O.K. Li. Learning to translate in realtime with neural machine translation. In Proceedings of the EACL-2017, pp. 1053-1062, 2017.
参考文献３：Jan Niehues, Ngoc-Quan Pham, Thanh-Le Ha, Matthias Sperber, and Alex Waibel. Low-latency neural speech translation. In Proceedings of Interspeech 2018, pp. 1293-1297, 2018.
参考文献４：Naveen Arivazhagan, Colin Cherry, Wolfgang Macherey, and George Foster. Re-translation versus streaming for simultaneous translation. In Proceedings of IWSLT-2020, pp. 220-227, 2020.
参考文献５：Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. In Proceedings of hte NeurIPS 2014 Deep Learning Workshop, 2014.
参考文献６：Yoon Kim and Alexander M. Rush. Sequence-level knowledge distillation. In Proceedings of the EMNLP-2016, pp. 1317-1327, 2016.
参考文献７：Franz Josef Och and Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, Vol. 29, No. 1, pp. 19-51, 2003.
参考文献８：Chris Dyer, Victor Chahuneau, and Noah A. Smith. A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of the NAACL-HLT-2013, pp. 644-648, 2013.
参考文献９：Thomas Zenkel, JoernWuebker, and John DeNero. End-to-End NeuralWord Alignment Outperforms GIZA++. In Proceeding of the ACL-2020, pp. 1605-1607, 2020.
参考文献１０：Sarthak Garg, Stephan Peitz, Udhyakumar Nallasamy, and Matthias Paulik. Jointly Learning to Align and Translate with Transformer Models. In Proceedings of the EMNLP-IJCNLP-2019, pp. 4452-4461, 2019.
参考文献１１：Masaaki Nagata, Katsuki Chousa, and Masaaki Nishino. A supervised word alignment method based on cross-language span prediction using multilingual bert. In Proceedings of the EMNLP-2020, pp. 555-565, 2020.
参考文献１２：Zi-Yi Dou and Graham Neubig. Word alignment by fine-tuning embeddings on parallel corpora.In Proceedings of the EACL-2021, 2021.
参考文献１３：Marc'Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. Sequence level training with recurrent neural networks. In Proceedings of the ICLR-2016, 2016.
参考文献１４：Ronald J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, Vol. 8, No. 3-4, pp. 229-256, 1992.
参考文献１５：Lijun Wu, Fei Tian, Tao Qin, Jianhuang Lai, and Tie-Yan Liu. A study of reinforcement learning for neural machine translation. In Proceedings of the EMNLP-2018, 2018.
参考文献１６：Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jarret Ross, and Vaibhava Goel. Selfcritical sequence training for image captioning. In Proceedings of the CVPR-2017, pp. 7008-7024, 2017.
参考文献１７：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.

【符号の説明】

【0094】

１０同時機械翻訳装置
１０１教師モデル事前訓練部
１０２教師モデルファインチューニング部
１０３翻訳デコード部
１０４対訳作成部
１０５生徒モデル訓練部
１０６翻訳デコード部
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置
２０７バス

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版