IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-526652機械翻訳品質予測を用いたデータセット精緻化
<>
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図1
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図2A
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図2B
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図3
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図4
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図5
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図6
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図7A
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図7B
  • 特表-機械翻訳品質予測を用いたデータセット精緻化 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】機械翻訳品質予測を用いたデータセット精緻化
(51)【国際特許分類】
   G06F 40/51 20200101AFI20240711BHJP
【FI】
G06F40/51
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024500313
(86)(22)【出願日】2021-07-06
(85)【翻訳文提出日】2024-02-16
(86)【国際出願番号】 US2021040492
(87)【国際公開番号】W WO2023282887
(87)【国際公開日】2023-01-12
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ジョウ,ジュンペイ
(72)【発明者】
【氏名】リー,ユエジャン
(72)【発明者】
【氏名】チェルバ,シプリアン
(72)【発明者】
【氏名】フォン,ファンシアオユィ
(72)【発明者】
【氏名】リアン,ボウエン
(72)【発明者】
【氏名】ワン,ピドン
(57)【要約】
本技術の態様は、機械翻訳システムの訓練に使用されるデータセットを精緻化するために、機械翻訳品質予測(MTQP)モデルを利用する。これには、機械翻訳品質予測モデルが、ソース文と翻訳された出力との文ペアを受け取ること(802)が含まれる。次いで2つ以上の特徴抽出器のセットを使用して文ペアに対して特徴抽出を実行し、各特徴抽出器は対応する特徴ベクトルを生成する(804)。特徴抽出器のセットからの対応する特徴ベクトル同士が1つに連結される(806)。そして連結された特徴ベクトルはフィードフォワードニューラルネットワークに適用され、フィードフォワードニューラルネットワークは翻訳された出力に関する機械翻訳品質予測スコアを生成する(808)。
【特許請求の範囲】
【請求項1】
機械翻訳品質予測モデルが、ソース文と翻訳された出力との文ペアを受け取ることと、
2つ以上の特徴抽出器のセットを使用して前記文ペアに対して特徴抽出を実行することと、を含み、
各特徴抽出器は対応する特徴ベクトルを生成し、
前記方法は、
前記特徴抽出器のセットからの前記対応する特徴ベクトル同士を連結することと、
前記連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することと、をさらに含み、
前記フィードフォワードニューラルネットワークは前記翻訳された出力に関する機械翻訳品質予測スコアを生成する、
コンピュータが実行する方法。
【請求項2】
前記機械翻訳品質予測スコアを前記翻訳された出力と関連付けてデータベースに格納することをさらに含む、請求項1に記載の方法。
【請求項3】
前記機械翻訳品質予測スコアをユーザに送信することをさらに含む、請求項1に記載の方法。
【請求項4】
前記2つ以上の特徴抽出器のセットは、Quasi-MT特徴抽出器、ニューラル機械翻訳特徴抽出器、言語モデル抽出器、およびLogPr特徴抽出器のうちの少なくとも2つを備える、先行する請求項のいずれか1項に記載の方法。
【請求項5】
前記Quasi-MT特徴抽出器は、前記ソース文とゴールドラベル文との両方の情報を使用して前記ゴールドラベル文の各トークンの予測を試みることによって訓練されるQuasi-MTモデルの内部スコアを使用する、請求項4に記載の方法。
【請求項6】
前記ニューラル機械翻訳特徴抽出器は少なくともニューラル機械翻訳モデルのデコーダからの内部スコアを使用する、請求項4または請求項5に記載の方法。
【請求項7】
前記言語モデル抽出器は2種類の言語モデルからの内部スコアを使用し、前記言語モデルの第1のものはソース言語の選択されたコーパス上で訓練され、前記言語モデルの第2のものは対照言語モデルであって、前記対照言語モデルは、最初に、前記選択されたコーパス上で訓練され、次に、訓練文ペアのセット内のソース文によって形成されるコーパス上で漸進的に訓練される、請求項4~請求項6のいずれか1項に記載の方法。
【請求項8】
1つまたは複数のプロセッサが、前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超えない場合に、前記翻訳された出力をフィルタリングすることと、
をさらに含む、先行する請求項のいずれか1項に記載の方法。
【請求項9】
前記翻訳された出力をフィルタリングすることは、前記機械翻訳品質予測スコアが前記品質閾値を超えないことを示すフラグを前記翻訳された出力とともに格納することを含む、請求項8に記載の方法。
【請求項10】
前記翻訳された出力をフィルタリングすることは、前記翻訳された出力を翻訳された出力文のコーパスから除去することを含む、請求項8に記載の方法。
【請求項11】
1つまたは複数のプロセッサが、前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超える場合に、前記翻訳された出力を翻訳された出力文のコーパスに追加することと、
をさらに含む、先行する請求項のいずれか1項に記載の方法。
【請求項12】
前記機械翻訳品質予測スコアが品質閾値を超える場合に、前記翻訳された出力を使用して機械翻訳モデルを訓練すること
をさらに含む、先行する請求項のいずれか1項に記載の方法。
【請求項13】
ソース文と、対応する翻訳された出力との、キュレートされたデータセットを作成することをさらに含み、
各翻訳された出力は品質閾値を超えており、
前記方法は、
前記キュレートされたデータセットを使用して機械翻訳モデルを訓練すること
をさらに含む、先行する請求項のいずれか1項に記載の方法。
【請求項14】
前記訓練された機械翻訳モデルはニューラル機械翻訳モデルである、請求項13に記載の方法。
【請求項15】
機械翻訳品質予測情報を格納するように構成されているメモリと、
前記メモリに動作可能に結合されている1つまたは複数のプロセッサと、を備え、前記1つまたは複数のプロセッサは、
ソース文と翻訳された出力との文ペアを受け取ることと、
2つ以上の特徴抽出器のセットを使用して前記文ペアに対して特徴抽出を実行することと、によって機械翻訳品質予測モデルを実装するように構成され、
各特徴抽出器は対応する特徴ベクトルを生成し、前記1つまたは複数のプロセッサはさらに、
前記特徴抽出器のセットからの前記対応する特徴ベクトル同士の連結を実行することと、
前記連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することと、によって機械翻訳品質予測モデルを実装するように構成され、
前記フィードフォワードニューラルネットワークは前記翻訳された出力に関する機械翻訳品質予測スコアを生成するように構成されている、
システム。
【請求項16】
前記2つ以上の特徴抽出器のセットは、Quasi-MT特徴抽出器、ニューラル機械翻訳特徴抽出器、言語モデル抽出器、およびLogPr特徴抽出器のうちの少なくとも2つを備える、請求項15に記載のシステム。
【請求項17】
前記1つまたは複数のプロセッサは、
前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超えない場合に、前記翻訳された出力をフィルタリングすることとをするように、さらに構成されている、請求項15または請求項16に記載のシステム。
【請求項18】
前記1つまたは複数のプロセッサは、前記機械翻訳品質予測スコアが前記品質閾値を超えないことを示すフラグを前記翻訳された出力とともに格納することによって、前記翻訳された出力をフィルタリングするように構成されている、請求項15~請求項17のいずれか1項に記載のシステム。
【請求項19】
前記1つまたは複数のプロセッサは、
前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超える場合に、前記翻訳された出力を翻訳された出力文のコーパスに追加することとをするように、さらに構成されている、請求項15~請求項18のいずれか1項に記載のシステム。
【請求項20】
前記1つまたは複数のプロセッサは、前記機械翻訳品質予測スコアが品質閾値を超える場合に、前記翻訳された出力を使用して機械翻訳モデルを訓練するようにさらに構成されている、請求項15~請求項19のいずれか1項に記載のシステム。
【請求項21】
前記1つまたは複数のプロセッサは、
ソース文と、対応する翻訳された出力との、キュレートされたデータセットを作成するように構成され、
各翻訳された出力は品質閾値を超えており、
前記キュレートされたデータセットを前記メモリに格納することと、
前記キュレートされたデータセットを使用して機械翻訳モデルを訓練することをするように、さらに構成されている、請求項15~請求項20のいずれか1項に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
背景
ある言語から別の言語へテキストを翻訳するために、機械ベースの翻訳を使用することできる。機械翻訳品質の評価または予測には、「ゴールド」ラベルの列にアクセスすることなく機械翻訳システムの出力を評価することが含まれる。大規模な並列データセット、例えば数百万(またはそれ以上)の文ペアを使用して、機械翻訳モデルを訓練することができる。しかしながら、実世界のデータセットにはかなりの量のノイズデータが含まれている可能性がある。そのようなデータを使用した機械翻訳モデルでは良好な訓練結果を得ることができず、その結果、低品質の翻訳になる可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0002】
簡単な概要
本技術の態様は、機械翻訳システムの訓練に使用されるデータセットを精緻化するために、機械翻訳品質予測(MTQP)モデルを利用する。MTQPモデルは文ペアの品質の指標を提供するように構成されている。実世界のデータセットから文ペア(例えば、数十万、数百万、または数十億の文ペア)を含む大規模なデータセットが与えられると、MTQPモデルは各文ペアにスコアを割り当てる。このモデルは、選択された閾値を下回る低得点のペアにフラグを立てる。こうして得られた高品質のデータセットペアはその後、ニューラル機械翻訳(NMT)モデルなどの様々なタイプの機械翻訳モデルを訓練するために使用することができる。例示的な実装はこの場合、MTQPモデルを使用して訓練データをフィルタリングし、次にフィルタリングされた訓練データを使用して機械翻訳モデルを訓練する、機械翻訳訓練システムの特定の技術的実装に向けられている。
【課題を解決するための手段】
【0003】
本技術の一態様によれば、コンピュータが実行する方法は、機械翻訳品質予測モデルが、ソース文と翻訳された出力との文ペアを受け取ることと、2つ以上の特徴抽出器のセットを使用して文ペアに対して特徴抽出を実行することと、を含み、各特徴抽出器は対応する特徴ベクトルを生成し、方法は、特徴抽出器のセットからの対応する特徴ベクトル同士を連結することと、連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することと、をさらに含み、フィードフォワードニューラルネットワークは翻訳された出力に関する機械翻訳品質予測スコアを生成する。
【0004】
一例では、方法は、機械翻訳品質予測スコアを翻訳された出力と関連付けてデータベースに格納することをさらに含む。別の例では、方法は、機械翻訳品質予測スコアをユーザに送信することをさらに含む。いずれの場合も2つ以上の特徴抽出器のセットは、Quasi-MT特徴抽出器、ニューラル機械翻訳特徴抽出器、言語モデル抽出器、およびLogPr特徴抽出器のうちの少なくとも2つを備え得る。Quasi-MT特徴抽出器は、ソース文とゴールドラベル文との両方の情報を使用してゴールドラベル文における各トークンの予測を試みることによって訓練されるQuasi-MTモデルの内部スコアを使用し得る。ニューラル機械翻訳特徴抽出器は、少なくともニューラル機械翻訳モデルのデコーダからの内部スコアを使用し得る。言語モデル抽出器は、2種類の言語モデルからの内部スコアを使用することができる。ここでは、言語モデルの第1のものはソース言語の選択されたコーパスで訓練され、言語モデルの第2のものは、対照言語モデルである。対照言語モデルは、最初に、選択されたコーパスで訓練され、次に、訓練文ペアのセット内のソース文によって形成されるコーパスで漸進的に訓練される。
【0005】
さらなる例では、方法はまた、機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、機械翻訳品質予測スコアが品質閾値を超えない場合に、翻訳された出力をフィルタリングすることと、を含む。翻訳された出力をフィルタリングすることは、機械翻訳品質予測スコアが品質閾値を超えないことを示すフラグを翻訳された出力とともに格納することを含み得る。翻訳された出力をフィルタリングすることは、翻訳された出力を翻訳された出力文のコーパスから除去することを含み得る。
【0006】
別の例では、方法は、機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、機械翻訳品質予測スコアが品質閾値を超える場合に、翻訳された出力を翻訳された出力文のコーパスに追加することと、をさらに含み得る。さらに別の例では、方法は、機械翻訳品質予測スコアが品質閾値を超える場合に、翻訳された出力を使用して機械翻訳モデルを訓練することをさらに含む。
【0007】
さらなる例では、方法はまた、ソース文と、対応する翻訳された出力との、キュレートされたデータセットを作成することを含み、各翻訳された出力は品質閾値を超えており、方法は、次いでキュレートされたデータセットを使用して機械翻訳モデルを訓練することをさらに含む。訓練される機械翻訳モデルはニューラル機械翻訳モデルであり得る。
【0008】
本技術の別の態様によれば、機械翻訳品質予測情報を格納するように構成されているメモリと、メモリに動作可能に結合されている1つまたは複数のプロセッサと、を備える、システムが提供される。1つまたは複数のプロセッサは、ソース文と翻訳された出力との文ペアを受け取ることと、2つ以上の特徴抽出器のセットを使用して文ペアに対して特徴抽出を実行することと、によって機械翻訳品質予測モデルを実装するように構成され、各特徴抽出器は対応する特徴ベクトルを生成し、特徴抽出器のセットからの対応する特徴ベクトル同士の連結を実行することと、連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することと、によって機械翻訳品質予測モデルを実装するようにさらに構成され、フィードフォワードニューラルネットワークは翻訳された出力に関する機械翻訳品質予測スコアを生成するように構成される。
【0009】
一例では、2つ以上の特徴抽出器のセットは、Quasi-MT特徴抽出器、ニューラル機械翻訳特徴抽出器、言語モデル抽出器、およびLogPr特徴抽出器のうちの少なくとも2つを備える。
【0010】
別の例では、1つまたは複数のプロセッサは、機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、機械翻訳品質予測スコアが品質閾値を超えない場合に、翻訳された出力をフィルタリングすることとをするように、さらに構成される。1つまたは複数のプロセッサは、機械翻訳品質予測スコアが品質閾値を超えないことを示すフラグを翻訳された出力とともに格納することによって、翻訳された出力をフィルタリングするように構成され得る。1つまたは複数のプロセッサは、機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、機械翻訳品質予測スコアが品質閾値を超える場合に、翻訳された出力を翻訳された出力文のコーパスに追加することとをするように、さらに構成され得る。1つまたは複数のプロセッサは、機械翻訳品質予測スコアが品質閾値を超える場合に、翻訳された出力を使用して機械翻訳モデルを訓練するようにさらに構成され得る。そして、1つ以上のプロセッサは、ソース文と、対応する翻訳された出力との、キュレートされたデータセットを作成するようにさらに構成され、各翻訳された出力は品質閾値を超えており、キュレートされたデータセットをメモリに格納することと、キュレートされたデータセットを使用して機械翻訳モデルを訓練することとをするように、さらに構成され得る。
【図面の簡単な説明】
【0011】
図1】本技術の態様に係る機械翻訳構成の例示のシナリオのセットを示す図である。
図2A】本技術の態様に係る例示の準機械翻訳モデルを示す図である。
図2B】本技術の態様に係る例示の品質推定アーキテクチャを示す図である。
図3】本技術の態様に係る一般的なモデル手法を示す図である。
図4】本技術の態様に係る、ソース文と翻訳された出力とを特徴ベクトルに投影するための例示の手法を示す図である。
図5】本技術の態様に係る予測される品質スコアを生成するための例示のモデル構造を示す図である。
図6】本技術の態様に係るモデルワークフローを示す図である。
図7A】本技術の態様で使用されるシステムを示す図である。
図7B】本技術の態様で使用されるシステムを示す図である。
図8】本技術の態様に係る方法を示す図である。
【発明を実施するための形態】
【0012】
詳細な説明
概説
機械翻訳品質予測(MTQP)は機械翻訳品質推定(MTQE)とも呼ばれ、参照翻訳にアクセスすることなく機械翻訳システムの出力を評価することを目的としている。例えば、ソース文(ソース言語の文)と翻訳出力(機械翻訳システムによって生成された文)とが与えられる場合、機械翻訳システムまたはゴールドラベル文(例えば、人間が生成した参照翻訳文)が既知でなくても、この翻訳の品質スコアを予測できるのが有益である。特に、MTQPは、翻訳出力がソース文の意味に合っているかどうか、およびこのターゲット文が流暢であるかどうかを予測する。
【0013】
機械翻訳の品質を評価するために様々なメトリックが使用され得る。例えば、n-gram精度に基づくBLEUスコアを採用することができる。ここでは、翻訳出力とゴールドラベル文との間でBLEUスコアを計算することができる。翻訳品質を評価するために、ソース文と対応するゴールドラベル文とを含む並列コーパスを使用することができる。例えば、BLEUメトリックをあるコーパスについて平均して、その機械翻訳システムがどの程度良好に訓練されているかの指標を得ることができる。ソース文を与えられた場合の特定の翻訳出力の品質を評価するために、MTQPが使用され得る。BLEUとは対照的に、コーパス全体の平均MTQPを計算することには意味がない可能性があるが、その理由は、MTQPが有益となるのは、後で次のステップのポストエディットの対象となるような、低品質の翻訳出力にフラグを立てる場合であるからである。
【0014】
例として、アプリケーションサービスプロバイダまたは他の顧客にとって、翻訳とともに信頼度スコア(品質推定)を受け取ることは大きな利点となり得る。このスコアを使用して、機械翻訳がポストエディットなしでそのまま使用できるかどうかを、または、ポストエディットがどの程度必要かを判断することができる。ローカリゼーションのワークフローでは人によるポストエディットが最も大きなコストとなるので、コストを削減し翻訳品質に関する追加の情報を提供するために、信頼度スコア機能の重要性は高い。
【0015】
ポストエディットが必要となり得る場合、MTQPによって、専門家は低品質であると推定される翻訳に集中することが可能になり、ポストエディットのコストがさらに削減される。例えば、サービスプロバイダが所与の機械翻訳システムを使用して1千万文を翻訳し、このときさらに、全ての翻訳が良好である、例えば少なくともある程度の閾値品質のものであることが保証されることを望む場合がある。例として、品質閾値を満たすのが、翻訳の上位30~40%(またはその前後)のみである場合がある。1千万文全てをチェックしポストエディットを行うには、人的リソースおよび/またはコンピュータリソースの点で大きなコスト要因が存在し得る。しかしながら、品質推定(QE)スコアが翻訳とともに提供される場合、翻訳をレビューするための閾値を設定することができる。ここでは例えば、サービスプロバイダは、低い方から10,000文だけを選び出し(または閾値QEスコアを設定し)、そのうち閾値を下回った文を専門家に送り、ポストエディットを行わせてもよい。このようなシナリオでは、ポストエディットに関連するコストは、翻訳のセット全体に対するポストエディット評価を行う場合と比較して、99.9%削減できる場合がある。
【0016】
また、ポストエディットは必要ないかもしれないが、迅速な納期が要求されるシナリオもある。このような場合、サービスプロバイダにとって、品質の良い翻訳だけを公表することは特に有益であり得る。ここでは、閾値を下回るより低品質の翻訳はソース言語として維持されてもよい。この種の状況では、MTQPスコアは、高品質の翻訳文を選び出す(または他の方法で選択する)ことに対してのみ、信頼できるメトリックを提供することができる。
【0017】
図1は、翻訳に対処するための様々な手法を有する様々なシナリオの例のセット100を示す。例えば、システムは品質推定(QE)だけを採用することもできるが、システムは別法として、ブロック102に示すように、機械翻訳とQEを併用することもできる。ここでは、提供される(例えば、アプリケーションサービスプロバイダまたは他の顧客から受け取る)各ソース文に対して、システムは、選択された言語での翻訳文とQEスコアとを生成する。
【0018】
ブロック102よりも下のレベルに示すように、システムは、一般的QEまたはカスタムQEおよび一般的機械翻訳またはカスタム機械翻訳のいずれかを使用し得る。一般的QEでは、[ソース文および翻訳出力]ペアが提供され、各文ペアの品質スコアを予測するために、(例えば、システムによってラベル付けされたいくつかの一般的なデータによって訓練された)一般的QEモデルが使用される。カスタムQEでは、[ソース文,翻訳出力,品質ラベル]ペアを含むデータセットが提供される。ここでは、システムは、[ソース文,翻訳出力]ペアに基づいて、QEモデルの微調整または再訓練を行う。この場合、カスタマイズされたQEモデルを使用して、各文ペアに関する品質スコアを予測することができる。一般的な機械翻訳では、受け取ったソース文をニューラル機械翻訳(NMT)モデルが使用して翻訳文を生成する。そしてカスタム機械翻訳の場合、システムは並列コーパスを採用する。ここでは、システムはNMTモデルを微調整して、カスタム機械翻訳モデルを導出する。ソース文をカスタム機械翻訳モデルに適用して翻訳文を生成する。
【0019】
ブロック104は、一般的機械翻訳用の一般的QEを使用する構成を示す。ブロック106は、カスタム機械翻訳用の一般的QEを使用する構成を示す。ブロック108は、一般的機械翻訳用のカスタムQEを使用する構成を示す。ブロック110は、カスタム機械翻訳用のカスタムQEを使用する構成を示す。例えば、顧客が独自のデータ品質ラベル付けおよび/または独自のデータセットを提供可能かどうかに応じて、これらの各々が異なる顧客のニーズに適合する可能性がある。
【0020】
ブロック112は、データがユーザ(例えば顧客)によってラベル付けされるオプションを示し、ブロック114は、データがシステムパイプラインによってラベル付けされるオプションを示す。ブロック112のユーザがラベル付けしたデータについては、ユーザが、QEスコアのラベル付けとともに、データセット中のどの文をラベル付けするかを選択する責任を負う。この手法によって、ユーザが独自のラベル付けルールを設計すること、および/またはMTQPシステム用のガイドラインに従うことが可能になる。ブロック114のようにシステムパイプラインに従うラベル付けの場合、パイプラインは、一般的QEモデルを訓練するための一般的QEデータだけでなく、ユーザのデータに対する翻訳出力のラベル付けにも使用され得る。加えて、一般的QE手法で十分な用途の場合、カスタムQEは必要ない可能性がある。対照的に、映画または他のビデオの場合のように、データが分野固有である可能性のある用途では、カスタムQE+カスタム機械翻訳の手法が最も適切な可能性がある。
【0021】
図2Aは、エンコーダ202およびデコーダ204に関するトランスフォーマの準機械翻訳(Quasi-MT)モデルの例200を示す。示されているように、ソース文(例えば、「He loved to eat.」)が埋め込みブロック206に入力され、これがエンコーダ202に供給される。訓練は並列データのセットを使って行うことができる。エンコーダ202は埋め込みブロック206から受け取ったデータを操作し、208において出力が(デコーダ204のNULLブロックからの出力とともに)足し合わされる。埋め込みブロック206は、各単語を埋め込み空間内のベクトル(例えば、1024次元のベクトル)に埋め込む。NULLブロックはプレースホルダ、または開始記号のような役割を果たし得るが、その理由は、モデルが翻訳における最初の単語の予測を試みるとき、使用できる先行する単語が存在しないからである。208において加算された出力はデコーダ204に供給され、デコーダ204からの出力はソフトマックスブロック210に供給される。ソフトマックスブロック210は、あり得る出力に分数で表せる(例えば小数の)確率を割り当てるように構成されている。確率の合計は必ず1.0になる。
【0022】
例として、Quasi-MTモデル200は、翻訳出力からソース文に基づく各トークンを予測するように訓練される。ソース文[a,b,c]と翻訳文[A,B,C,D]が与えられると、Quasi-MTモデル200は、「ソース文+翻訳文における双方向情報」に基づいて、翻訳文における各トークンを予測しようとする。この例においてより詳細には、モデルは、[a,b,c]および[B,C,D]に基づいて「A」を予測し、[a,b,c]および[A,C,D]に基づいて「B」を予測し、[a,b,c]および[A,B,D]に基づいて「C」を予測し、[a,b,c]および[A,B,C]に基づいて「D」を予測することを試みる。これらの予測は並列的に(互いに独立して)行われる。
【0023】
図2BはQEモデル用の双方向LSTM(Bi-LSTM)型リカレントニューラルネットワーク(RNN)の例200を示しており、この場合、準機械翻訳モジュール200によって生成された特徴が適用される。特徴は、NMT特徴抽出器(図5の504bを参照)など、他の特徴抽出器によって生成することもできる。各特徴抽出器は、内部スコアを処理し固定長の特徴ベクトルを生成するための、それ自体のLSTMを有する。次いで特徴ベクトル同士が連結される。例えば、最終予測を行うために、ソフトマックスブロック210からのQEデータがBi-LSTMの隠れ層に適用される。Bi-LSTMはフィードフォワードニューラルネットワーク(図5の508を参照)とともに訓練可能で、特徴抽出器を微調整することもできる。
【0024】
Quasi-MTモデルを訓練するためのデータは、[ソース文,ゴールドラベル文]ペアである、大規模な並列コーパスであり得る。QEモデルを訓練する場合、データは、[ソース文,翻訳出力,品質ラベル]ペアである、MTQPデータであり得る。
【0025】
訓練データセット
文ペアを入力とする任意の機械学習問題、例えば、含意関係認識、意味類似性、等に対して、本明細書で検討するMTQP手法は、入力に関する特徴スコアとして使用できる。機械翻訳システムの有効性は、機械翻訳モデルの訓練に使用されるデータの品質によって制限される可能性のあることに留意することが重要である。特に、文ペアで訓練されるモデルの場合、所与のモデルの性能はデータセットの品質に大きく依存し得る。多数の(例えば数十万、数百万、またはそれ以上の)文ペアを収集してもよく、その後MTQPサービスを使用して全ての文ペアをスコアリングし、高品質の文ペアのみをデータセットに残す。しかしながら状況によっては、バイアスを回避するために、訓練済みの機械翻訳モデルに対して同じMTQPサービスを使用しない方が有益な場合がある。
【0026】
MTQPモデルの構造
本明細書で検討するように、MTQPモデルは文ペアを入力とし、(予測された)スコアを出力として返す。図3はモデルプロセスの全体的概要300を示す。ブロック302に示すように、文ペアが提供される。ペアは、ある用途のために以前に収集されたデータなど、既存の(レガシー)データに由来してもよい。例えば、翻訳とウェブソースデータを混合したものから文ペアがサンプリングされ、文ペアが一貫した意味を持つ場合にラベル付けが適用される。ペアはまた、ウェブからマイニングされた文ペアなど、マイニングされたデータに由来する場合もある。ここで、システムは翻訳ペアを得るためにウェブをクローリングすることができる。この場合、異なる言語は同じテキストの異なる部分に由来する可能性がある。ブロック304において、文ペアはMTQPモデルに入力される。そしてブロック306において、MTQPモデルは予測されるMTQPスコアを生成する。このことにはあらゆる内部スコアを集計することも含まれる。スコアが高いほど、ソース言語から翻訳される言語への翻訳の品質がより良好である(より忠実である)ことを示す。より低品質の(より忠実度の低い)翻訳を除外するために閾値が使用され、その場合閾値に合格した翻訳を使用して、新しい翻訳モデルを訓練することができる。
【0027】
本技術の一態様によれば、予測されるMTQPスコアには様々な階層が存在し得る。例えば、階層1のシナリオでは、ニューラル機械翻訳モデルは固定的(静的)であってもよく、このことは、このモデルには訓練が必要ない(または既にオフラインで訓練されている)ことを意味する。ここで、サポートされる言語ペアはニューラル機械翻訳モデルに依存する。階層1のシナリオを使用して強制デコーディングスコアを得ることができるが、これは、各トークンのクロスエントロピー(例えば対数確率)を合計し、次いで文の長さで規格化(除算)することによって計算される。
【0028】
例えば、入力文ペアは(「a b c d」,「e f g」)であり得る。強制デコーディングスコア(FDS)を計算するために以下のステップを実行することができる。最初に、この文ペアで翻訳モデルを実行し、第2の文における各トークンにおいて、モデルは確率分布を生成することになる。最初のトークンにおいて生成される分布が{a:0.5,b:0.3,e:0.1,g:0.1}であると仮定する。その場合、最初のトークンにおける「e」に関する対数確率はlog(0.1)である。同様に、「f」に関する対数確率は2番目のトークンで、および「g」に関する対数確率は3番目のトークンで得ることができる。最後に、システムは全ての対数確率を合計し、この例では3である、トークンの数(例えば文の長さ)で割ることができる。このスコアは強制デコーディングスコアである。この手法の利点は追加の訓練データが必要ないことである。これは機械翻訳がサポートする言語ペアにも適用できる。
【0029】
同じモデル構造によって階層2のスコアおよび階層3のスコアなどの他の階層のスコアが生成され得るが、これら異なるデータセットでは静的(階層2)または動的(階層3)に訓練される。階層1に関する手法とは異なり、これら他の階層には訓練が必要である。例として、非常に高品質のMTQPスコアを必要とするユーザ(またはアプリケーション)にとって、階層2の手法は特に有益であり得る。この場合、いくつかの一般的な言語ペアについて大規模な訓練セットを収集することができ、システムはそれらの言語ペアごとに一般的なモデルを訓練してもよい。ここではモデルは静的な(オフラインで訓練される)ものである。データセット中の各エントリには、ソース文と、機械翻訳システムによって生成された翻訳文と、翻訳が十分に良好であるかどうかを示すラベルと、が含まれている。このようにして、MTQPモデルは良い翻訳と悪い翻訳の間の区別を学習することができる。しかしながら、大規模なデータ集合の人によるラベル付けは、特に低リソースの言語の場合、(注釈者が翻訳が良好か否かを判断できるバイリンガルスピーカである必要があることを考慮すると)高い費用がかかる。階層2の手法では、全般的なMTQPモデルの訓練と検証のために、(例えば80,000~120,000サンプルのオーダーの)約100,000サンプルが採用され得る。
【0030】
階層3(動的訓練)の手法の一例では、ユーザは、カスタマイズされたMTQPモデルを訓練するためのカスタム訓練データを提供することができる。例えばこのことには、カスタマイズされたMTQPモデルをゼロから訓練するための、(例えば10,000~20,000のオーダーの)約15,000サンプルが関与し得る。一般的なMTQPモデルからの微調整のために利用されるデータサイズは、1/3のサイズ(例えば5,000サンプル)など、はるかに小さくすることができる。ここでは、カスタム訓練データを特定の用途(例えば映画の字幕)に合わせることができるため、このモデルは非常に効果的な結果を生み出すことができる。
【0031】
図4のビュー400に示すように、階層2または階層3の手法では、ソース文402および翻訳された出力404が特徴ベクトル406に投影される。特徴ベクトル406は他方の言語における最も近い埋め込み文を見つけるために使用され、その後MTQPモデルは、(ソース、翻訳)ペアをスコアリングするために使用される。生成された特徴ベクトル406には、分類および/または回帰を適用することができる。例えば、MTQPモデルを構築する分類器への入力として、ベクトル値のストリームが供給される。以下でさらに検討するように、これらの階層は階層1の手法の性能を顕著に上回る可能性がある。
【0032】
図5は、予測されるMTQPスコアを生成するための階層2または階層3の手法とともに採用され得るモデル構造の、例示の技術的実装500を示す。文ペア[ソース文,翻訳された出力]502が1つ以上の特徴抽出器504に供給される。文ペアごとに、各特徴抽出器は1つの特徴ベクトルを生成した。この例に示すように、特徴抽出器は、quasiMT特徴抽出器504と、NMT特徴抽出器504と、言語モデル特徴抽出器504と、LogPr特徴抽出器504と、を備える。特徴抽出器504によって生成された特徴ベクトルは、ブロック506において1つに連結される。連結された特徴ベクトルはブロック508においてフィードフォワードニューラルネットワークに適用されて、連結された特徴を予測されるスコア510に投影する。訓練されるとそのモデルをフィルタリングに使用することができる。例えばこのモデルを使用して、選択された閾値を下回る低スコアのペアを破棄するか、さもなければそれにフラグを立てることができる。例として、閾値は、翻訳されている文のタイプ、用途(例えば映画の字幕)、過去の翻訳情報、所与のデータセットの人によるラベル付けなどに基づいて選択され得る。あるシナリオでは、異なる言語ペアについて、データのサブセットをラベル付けして、何パーセントが満足のいくものであるか(例えば、30%、70%、または何らかの他の閾値)を識別してもよい。
【0033】
分類設定の場合、予測されるスコアはn次元ベクトルであり、ここでnは分類の数であり、各スコアはその分類の確率を表す。また回帰設定では、予測されるスコアは単一の値である。訓練モード中は損失が計算され、勾配を逆伝播させてMTQPモデルのパラメータを更新することができる。例えば、MTQPモデルを訓練するとき、極小値を求める勾配降下手法を用いることができる。分類設定の場合、損失はクロスエントロピー損失である。回帰設定では、損失は平均二乗誤差(MSE)である。あるシナリオでは、予測されるスコア510は、例えば予測されるスコアの分布を異なる言語間で類似させるために、規格化されてもよい。
【0034】
quasiMT特徴抽出器504は、大規模な並列文コーパスで訓練されるQuasi-MTモデルの内部スコアを使用する。Quasi-MTモデルは、ソース文とゴールドラベル文との両方の情報を使用してゴールドラベル文における各トークンの予測を試みることによって訓練される。例えば、Quasi-MTモデル200に関する上記の考察を考慮して、ソース文[a,b,c]およびゴールドラベル文[A,B,C,D]があると仮定する。この場合、[a,b,c]および[B,C,D]でAを予測する。[a,b,c]および[A,C,D]でBを予測する。[a,b,c]および[A,B,D]でCを予測する。そして[a,b,c]および[A,B,C]でDを予測する。従来のMTモデルでは、モデルが推論時間中に翻訳を生成するときにビームサーチが必要であり、その場合一度に1つのトークンが(逐次的に)処理されることに留意されたい。しかしながら、Quasi-MTは全てのトークンを同時に処理するため、ビームサーチは必要ない。
【0035】
NMT特徴抽出器504は、NMT翻訳モデルのエンコーダおよびデコーダからの内部スコアを使用する。ここで、エンコーダスコアの使用は任意である。この特徴抽出器では、これらの内部スコアのほかに、不整合な特徴およびモンテカルロドロップアウト法による単語レベルの信頼度特徴も使用され得る。デコーダの内部スコアを使用するために、特徴抽出器はソフトマックス層の前のデコーダ(図2Aの204)の出力を使用する。これらのスコアをLSTMに供給すると、固定長の特徴ベクトルが得られる。エンコーダの内部スコアは図2Aの202の出力と同様である。デコーダスコア以外の特徴は全て任意である。所与の入力に対するMTモデルの不確実性を特徴付ける試みとしてモンテカルロ法が採用されるが、その場合、特徴抽出器についてシステムは基礎となるMTモデルを数回実行することができ、このとき同じドロップアウト確率値に対してドロップアウトマスクが毎回異なる。ここで、ターゲットの対数確率logの各々の平均および分散は、固定次元へのLSTMエンコーディングの前に、その他のターゲット側のMT由来の特徴に連結される。
【0036】
言語モデル特徴抽出器504は、2種類の言語モデルからの内部スコアを使用する。第1のものは、ソース言語の大規模なコーパスで訓練された言語モデルである。第2のものは、最初に大規模なコーパスで訓練され、次いで訓練文ペア中のソース文で形成されたコーパスで漸進的に訓練される、対照言語モデルである。2種類の言語モデルからの内部スコアに加えて、この特徴抽出器は、NMT特徴抽出器の場合のように、不整合特徴およびエントロピー特徴も有する。エントロピー(H)は予測変数Pから以下に従って求めることができる。
【0037】
【数1】
【0038】
ここでtは位置kにおける実行中のトークンを表す。例として、P(t)はNMTモデルまたは言語モデルのいずれかに由来し得る。
【0039】
ソース側言語モデルの特徴抽出器504を対照言語モデルを使用することで拡張することができ、その場合、第2の(適合された)言語モデルが、前の言語モデルから信頼度推定訓練データで漸進的に訓練される。この第2の言語モデルの目的は、機械翻訳モデルおよび信頼度推定モデルが採用されることになるドメインと、機械翻訳モデルが訓練されたドメインとの間の違いを捉えることである。ここでは、適合される言語モデルに、ベース言語モデルの場合と同じ特徴が使用される。対照言語モデルの特徴抽出器を使用する場合、2つの言語モデルからの特徴列の連結を2つの差分特徴で補強し、固定次元特徴にエンコーディングするLSTM層に送ることができる。
【0040】
【数2】
【0041】
LogPr特徴抽出器504dは、NMTモデルからターゲット(翻訳)文およびソース文に基づいてlog P(target|source)/len(target)を単一の特徴として計算する。Len(target)はターゲットの長さである。ターゲット文T=[t,…,t,…t{length(T)}]における各位置kにおいてNMTモデルが生成するlog P(t)は、全てのk=1…length(T)にわたって合計される。
【0042】
【数3】
【0043】
理想的には、計算された値は強制デコーディングスコアと等価である。
モデル構造には様々な調整を行うことができる。例えば、モデルの信頼度を評価するために、モデルを異なるドロップアウト率で複数回実行してもよく、または、デコーディング中に様々な上位n個の候補を生成してもよい。結果が多様であるほどモデルの信頼度は低くなり、生成されるMTQPのスコアは低くなるはずである。ドロップアウトには訓練中に無作為にノードを脱落させることが含まれる。例として、上位n個の候補のn値は5またはその前後であり得る。
【0044】
システム性能を評価するために、逆翻訳強制デコーディングスコアも使用できる。例えば、文ペアごとの強制デコーディングスコアは直接計算できるので、システムは文ペアを切り替えて強制デコーディングスコアを再計算することができるが、これが逆翻訳強制デコーディングスコアである。次いでこれら2つの強制デコーディングスコアを使用すると、システムはそれらを組み合わせて(例えば、単に平均値を取って)、性能が向上しているかどうかを確認することができる。このことにはFDSおよび逆翻訳FDSを特徴に追加することが関与する。不整合な特徴とちょうど同じように、システムは任意のFDS特徴を追加することができ、このことによりMTQPモデルを改良することができるが、その理由は、全体としてより多くの特徴が存在することになるからである。
【0045】
別のシナリオでは、NMTデコーダは事後確率の格子を生成し得る。この場合、ターゲット側のトークンごとの事後確率を信頼度スコアリングに使用することができる。この機能性は他の領域においても適用可能であり、例えば、ターゲット側の所与のトークン/フレーズの代替を生成する。
【0046】
評価メトリックおよびテスト
下流の機械翻訳パイプラインに導入されるノイズの量を制御することが有益であり得る。性能の評価を助けるために、様々なメトリックが採用され得る。例えば、ノイズ(すなわち、翻訳データが翻訳システムで使用するのに十分に正確であるかどうか)を評価するには、主要な性能メトリックR@P=tを使用することができる。ここでRは再現率(または感度)を表し、これはシステムが検索した関連インスタンスのパーセンテージに相当する。Pは精度(または正の予測値)を表し、これは検索されたインスタンスの総数からの関連インスタンスのパーセンテージに相当する。この評価では、閾値tを超えるという精度の制約のもとで、精度によって再現率が最大になる。
【0047】
tに高い値を設定することで、下流のパイプラインに導入されるノイズの量が制御される。例として、0.9(例えば±10%)のオーダーのtの値では、ほとんどの機械翻訳状況で十分な精度が得られる。t=0.9であるということは、高いMTQPスコアを有する翻訳をユーザがそのまま使用した場合に、それらの90%が真に良好な(ポストエディットを必要としないような)翻訳であることを意味する。他の例では、tは0.9より高くても低くてもよい。このパラメータは、例えば、翻訳される情報の種類、用途の種類(例えば、ビデオ字幕、科学論文の翻訳など)、またはその他の要因に基づいて調整可能である。
【0048】
データラベルが2値である分類設定では、精度再現率曲線の曲線下面積(AUC)、または受信者動作特性曲線のAUCを取る評価メトリックも採用され得る。そして回帰設定では、データラベルは0~1の間の値を有することができ、以下のメトリックのうちの1つまたは複数が採用され得る:平均二乗誤差(MSE)、平均絶対誤差(MAE)、ピアソン相関係数(ピアソン)、スピアマンの順位相関係数(スピアマン)、またはケンドール順位相関係数(ケンドール)。ユーザによってデータセットが提供される状況では、操作基準を設定するためにユーザによってメトリック情報が考慮され得る。例えば、精度再現率曲線情報を用いて、操作ポイントを決定する(例えば、tを設定する)ことができる。
【0049】
単なる例として、カスタム訓練されたMTQPモデルを使用する階層3のスコアの場合、主要な性能メトリックは以下の通りであり得る:0.2 R@P=0.9、これは精度が0.9であるとき少なくとも0.2の再現率を達成することを意味する。再現率値および精度値はいずれも、例えば5~15%またはその前後で変動し得る。階層1のスコアおよび階層2のスコアについては、目標値tを例えば0.75~0.85まで緩めることができる。
【0050】
以下は、階層1の強制デコーディングスコアを階層3のMTQPスコアと比較した、並列文マイニングの例示の評価である。この例では、データソースは、翻訳とウェブデータを混合したものからサンプリングされた文ペアなどのレガシーデータを含むことができ、一貫した意味を有する文ペアにはラベル付けがされている。データソースはまたマイニングされたデータも含むことができ、その場合、文ペアは大規模なコーパス、例えばウェブの自然データからマイニングされる。ここでは、マイニングされたデータは翻訳データではない場合がある。一例によれば、システムは、ウェブ上に現れた全ての文を重複排除した単言語の文へと分割し、文品質スコアを使用して高品質の部分をフィルタリングすることができる。ここから、言語非依存の埋め込みを用いて、単言語の文から文ペアを直接マイニングすることができる。あるシナリオでは、レガシーデータには約30,000の文ペアがあり、マイニングされたデータには約10,000の文ペアがある。評価された言語ペアは以下を含む:英語(En)-中国語(Zh)、英語(En)-ロシア語(Ru)、英語(En)-ヒンディー語(Hi)、英語(En)-フランス語(Fr)、英語(En)-スペイン語(Es)、英語(En)ポルトガル語(Pt)。
【0051】
【表1】
【0052】
【表2】
【0053】
見てとれるように、MTQPスコアはEn:Frを除く各言語の翻訳について強制デコーディングスコアよりも優れており(つまりより高く)、いくつかの言語では強制デコーディングスコアよりも50%以上高い。
【0054】
上位の翻訳サンプルを考慮した場合に強制デコーディングスコアモデルおよびMTQPモデルがどの程度の性能を発揮するかを示すために、別のメトリックを使用してもよい。このメトリックは、予測されるスコア(強制デコーディングスコアまたはMTQPスコア)に従って最初にサンプルをランク付けすることによって計算され得る。次いで上位Xパーセンタイルが選択される(例えば、10%、15%、20%、25%、および30%)。上位Xパーセンタイルごとに、満足のいく(例えば、ポストエディットを何ら必要としないような)翻訳を提供したグループのサンプルの数と、満足のいかない(例えば、大幅なポストエディットを必要とし得る)翻訳を提供したサンプルの数とを数える。最小限の量のポストエディットを必要とし得るため満足と不満足との間に収まる翻訳があり得ることに留意されたい。このような基準に基づき、En:Zh機械翻訳について、このメトリックを以下の表3に示す。この場合Xは10%~30%の間で評価される。
【0055】
【表3】
【0056】
表4および表5は、階層1の強制デコーディングスコア手法と比較した、階層3のMTQP手法に関する分類または回帰を用いた訓練に適用される他のメトリックの例を示す。表4は英仏翻訳の結果を示し、表5は英露翻訳の結果を示す。これらの例ではR@P=0.9である。MSEまたはMAEについては、値が小さいほど機械翻訳の品質がより高いことを示しており、一方でピアソン、スピアマン、ケンドール、およびR@Pについては、値が大きいほど機械翻訳の品質がより高いことを示している。
【0057】
【表4】
【0058】
【表5】
【0059】
分類と回帰との両方の訓練戦略が様々なメトリックにわたって同等の結果を出していることがわかる。実際の性能は特定の言語ペアに依存し得る。しかしながら、例えば翻訳メモリを訓練データに容易に変換できる場合など、状況によっては、分類手法の方が適している場合もある。加えて、分類設定は回帰データと互換性があり得るが、逆は成り立たない場合がある。その理由は、閾値を設定することによって、回帰ラベルが二値ラベルに変換される可能性があるためである。
【0060】
システムアーキテクチャ
図6は、例えば、MTQPサービスが翻訳アプリケーションプログラミングインターフェース(API)を用いてなどオンライン方式で使用される場合の、1つのMTQPモデルワークフロー600を示す。示されているように、システムには、1人または複数人のユーザ602、翻訳API604、MTQPサービス606、および依存サービス608を含め、いくつかの部分が存在し得る。例えば、ユーザがソース文に対して翻訳API604を呼び出したときフラグを指定することができ、その場合、翻訳API604がMTQPスコアとともに翻訳文を返すことになる。ユーザ602はエンドユーザまたは他の顧客であり得、外部(第三者顧客)であるか内部であるかを問わない。一例では、ユーザ602は、字幕付きビデオストリーミングを提供する外部のアプリケーションサービスプロバイダまたは内部サービスである可能性がある。他の例では、ユーザ602は、例えば以下のような目的で、予測される品質スコアを様々な方法で使用することができる:機械翻訳がポストエディットなしで使用できるかどうかを決定すること、複数のソースの中から最良の翻訳を選択すること、より高品質で正確な機械検証を提供すること、(例えば、特定の翻訳を対象とすることによって)人によるより費用対効果の高い品質レビューを提供すること、機械学習モデルを改善するための信号として、異なる言語での記述を品質スコアに基づいて精緻化すること、優れたローカルのキャプション、字幕、または説明を有するビデオ(またはオーディオ)コンテンツをランク付けすること、等。従属サービス608は訓練モデルを維持することができ、システムは文ペアを評価するためのリモートプロシージャコール(RPC)を送ることができる。
【0061】
矢印610で示すように、ユーザ602は翻訳API604にリクエストを送ることができる。ここで、リクエストは1つまたは複数のソース文を含む。矢印612で示すように、翻訳API604はMTQPサービス606に、受け取ったソース文と1つまたは複数の翻訳された文とを含む、リクエストを送る。矢印614で示すように、MTQPサービス606は、従属サービス608にモデル推論を実行するよう要求し、矢印616により、従属サービス608は予測されるスコアを返す。例えば、文ペアがMTQPサービス606に到達すると、それらの文ペアをMTQPモデルが消費可能なテンソルに変換するための前処理を実行することができる。テンソルは次に従属サービスに渡され、そこでMTQPモデルが提供される。出力テンソルを再び得た後で(矢印616)、MTQPサービス606は、テンソルを予測されるMTQPスコアに変換するための後処理を実行する。予測されたスコアに基づいて、MTQPサービス606は矢印618で示すように、MTQPスコアを翻訳API604に返す。翻訳API604は、矢印620で示すように、MTQPスコアとともに翻訳された文を返す。別法として、矢印622で示すように、ユーザ604は、ソース文と翻訳された文とを含むリクエストを、MTQPサービス606に直接送ってもよい。ここでこれに応答して、MTQPサービス606は(モデル推論を実行し予測されたスコアを受け取った後で)、MTQPスコアをユーザ602に直接提供する。翻訳された文のMTQPスコアに基づいて、システムは、品質閾値を下回る翻訳された文にフラグを立て、これに基づいて翻訳データベースを修正することができる。別法として、品質閾値を満たす翻訳された文にフラグを立ててもよく、それに応じてデータベースを更新してもよい。ユーザは高品質の翻訳にアクセスし、それらを様々な用途で使用することができる。逆に、品質閾値を満たさないとのフラグが立った翻訳を、それらが品質閾値を満たすように調整を行ってポストエディットしてもよい。このように、本技術の一態様によれば、翻訳された文が品質閾値を下回っても、破棄されるものは何もない。MTQPスコアをユーザに提供することによって、それらのスコアをどのように用いるかについての選択はユーザに委ねられる。
【0062】
本明細書に開示される特徴に係るMTQPモデル手法を実装するために、TPU、CPU、または他のコンピューティングアーキテクチャを採用することができる。一例のコンピューティングアーキテクチャを図7Aおよび図7Bに示す。特に、ネットワークを介して接続された複数のコンピューティングデバイスおよびデータベースを含む例示のシステム700の、図7Aは絵図、図7Bは機能図である。例えば、コンピューティングデバイス702はクラウドベースのサーバシステムであり得る。データベース704、706、708は、それぞれ、例えば、ソース文コーパス、翻訳された出力コーパス、異なる特徴抽出器(QuasiMT特徴抽出器、NMT特徴抽出器、言語モデル特徴抽出器、および/またはLogPr特徴抽出器など)を格納することができる。サーバシステムはネットワーク710を介してデータベースにアクセスすることができる。1つまたは複数のユーザデバイスまたはシステムは、例えば並列コーパスおよび/または他の情報をコンピューティングデバイス702に提供するための、コンピューティングシステム712およびデスクトップコンピュータ714を含み得る。
【0063】
図7Bに示すように、コンピューティングデバイス702および712~714の各々は、1つまたは複数のプロセッサ、メモリ、データ、および命令を含み得る。メモリには、1つまたは複数のプロセッサによってアクセス可能な情報、例えば、プロセッサによって実行またはそれ以外で使用され得る命令およびデータ(例えば、機械翻訳モデル、並列コーパス情報、特徴抽出器、等)が格納されている。メモリは、コンピューティングデバイス可読媒体を含め、プロセッサによってアクセス可能な情報を格納できる任意のタイプのものであってよい。メモリは、ハードドライブ、メモリカード、光ディスク、ソリッドステートなどの、非一時的媒体である。システムは上記したものの様々な組合せを含むことができ、その場合、命令およびデータの様々な部分が様々なタイプの媒体に格納される。命令は、プロセッサによって直接的に実行される命令(マシンコードなど)または間接的に実行される命令(スクリプトなど)の、任意のセットであり得る。例えば命令は、コンピューティングデバイス可読媒体上にコンピューティングデバイスコードとして格納され得る。この点に関して、本明細書では、「命令」、「モジュール」、および「プログラム」という用語は、入れ替え可能に使用され得る。命令は、プロセッサが直接処理するためのオブジェクトコード形式で格納されてもよく、または、オンデマンドで解釈されるかもしくは事前にコンパイルされる、スクリプトもしくは独立したソースコードモジュールの集合を含む、任意の他のコンピューティングデバイス言語で格納されてもよい。
【0064】
プロセッサは、市販のCPU、TPU、等の、任意の従来のプロセッサであってよい。別法として、各プロセッサは、ASICまたは他のハードウェアベースのプロセッサなどの専用デバイスであってもよい。図7Bは機能の観点から、所与のコンピューティングデバイスのプロセッサ、メモリ、および他の要素を同じブロック内にあるものとして示しているが、そのようなデバイスは実際には複数のプロセッサ、コンピューティングデバイス、またはメモリを含む場合があり、それらは同じ物理的ハウジング内に格納されていてもいなくてもよい。同様に、メモリは、プロセッサのハウジングとは異なるハウジング内に、例えばサーバ702のクラウドコンピューティングシステム内に配置された、ハードドライブまたは他の記憶媒体であり得る。したがって、プロセッサまたはコンピューティングデバイスへの言及は、並列に動作してもしなくてもよいプロセッサまたはコンピューティングデバイスまたはメモリの集合への言及を含むものと理解される。
【0065】
ソース文または翻訳された出力などの入力データはMTQPモジュールによって操作されて、1つまたは複数の予測されるスコアおよび関連情報を生成し得る。予測されるスコアは、閾値(例えば上位10~40%)を超える結果のみがユーザに提供されるかまたはそれ以外で利用されるよう、翻訳結果をフィルタリングするために使用され得る。ユーザデバイスは、本明細書で検討するような様々な用途に従う正確で高品質な翻訳を提供するために、様々なアプリケーションまたは他のプログラムでこのような情報を利用することができる。例えばこのことは、スコアリングを、より優れた翻訳モデルのための訓練データとして使用するべき高品質な文ペアを識別するための、フィルタとして使用することを含み得る。本技術の一態様によれば、NMT訓練データのフィルタリングを実行するために、MTQPで解析されたデータ(文ペア)が使用される。例えば、文ペアを例えばラベル付けデータとして「指名」するために、MTQPモデルからの品質予測が使用される。このことにより、システムが(何らかの品質メトリックを満たす品質予測を有する)より適切なデータセットをキュレートすることが可能になり、このデータセットはその後、機械翻訳モデル(例えばNMTモデル)を訓練するために使用される。
【0066】
コンピューティングデバイスは、上記したプロセッサおよびメモリなどの、コンピューティングデバイスに関連して通常使用される全ての構成要素に加え、ユーザからの入力を受け取りユーザに情報(例えば、テキスト、画像、および/または他のグラフィカル要素)を提示するための、ユーザインターフェースサブシステムも含み得る。ユーザインターフェースサブシステムは、1つまたは複数のユーザ入力部(例えば、少なくとも1つの正面(ユーザ)向きカメラ、マウス、キーボード、タッチスクリーン、および/またはマイクロフォン)と、1つまたは複数のディスプレイデバイス(例えば、スクリーンを有するモニタ、または情報(例えば、テキスト、画像、および/もしくは他のグラフィカル要素)を表示するように動作可能な任意の他の電気デバイス)と、を含み得る。スピーカなどの他の出力デバイスもユーザに情報を提供し得る。
【0067】
ユーザ関連コンピューティングデバイス(例えば712~714)は、ネットワーク710などの1つまたは複数のネットワークを介して、バックエンドコンピューティングシステム(例えばサーバ702)と通信し得る。ネットワーク710および介在ノードは様々な構成およびプロトコルを含むことができ、それらには、Bluetooth(登録商標)、Bluetooth LE(登録商標)などの近距離通信プロトコル、インターネット、ワールドワイドウェブ、イントラネット、仮想プライベートネットワーク、広域ネットワーク、ローカルネットワーク、1つまたは複数の企業独自の通信プロトコルを使用するプライベートネットワーク、イーサネット(登録商標)、WiFi、HTTP、および上記したものの様々な組合せが含まれる。このような通信は、モデムおよびワイヤレスインターフェースなどの他のコンピューティングデバイスとの間でデータ伝送できる任意のデバイスによって促進され得る。
【0068】
一例では、コンピューティングデバイス702は、データを受け取り、処理し、他のコンピューティングデバイスとの間で伝送する目的で、ネットワークの様々なノードと情報を交換する複数のコンピューティングデバイス、例えば、負荷分散サーバファームまたはクラウドコンピューティングシステムを有する、1つまたは複数のサーバコンピューティングデバイスを含み得る。例えば、コンピューティングデバイス702は、ネットワーク710を介してコンピューティングデバイス712~714のいずれかと通信可能な1つまたは複数のサーバコンピューティングデバイスを含み得る。
【0069】
図8は、ブロック802において機械翻訳品質予測モデルがソース文と翻訳された出力との文ペアを受け取ることを含む、本技術の態様に係る方法800を示す。ブロック804において、方法は、2つ以上の特徴抽出器のセットを使用して文ペアに対して特徴抽出を実行することを含み、各特徴抽出器は対応する特徴ベクトルを生成する。次いで、ブロック806において、特徴抽出器のセットからの対応する特徴ベクトル同士が1つに連結される。そしてブロック808において、方法は、連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することを含む。フィードフォワードニューラルネットワークは、翻訳された出力に関する機械翻訳品質予測スコアを生成する。
【0070】
本技術の態様によれば、文ペア[ソース文および翻訳出力]が与えられると、MTQPサービスは翻訳の品質を示すスコアを返す。MTQPスコアは、アプリケーション、サービス、または他のユーザによって、様々な方法で使用され得る。例えばこのスコアを使用して、文ごとのポストエディットの労力を推定することができる。別法として、選択された閾値を超える高品質の翻訳出力については、ポストエディットを省略してもよい。ここでは、ユーザは高MTQPスコアの翻訳はそのまま使用し、他の翻訳はポストエディット(自動化されたポストエディットまたは人によるポストエディットのいずれか)行わせるべく送り出すことができ、このことによってポストエディットのコストが削減される。このような状況では、ポストエディットを必要としない翻訳に対して上限閾値を設定することができる。この手法はまた、翻訳者が似たようなタイプの作品に集中できるように、異なるキューでスコアをバケット化することで、ポストエディットの効率を改善することもできる。
【0071】
別のシナリオでは、システムは、選択された閾値を下回る低品質の翻訳が確実にポストエディットされるようにすることができる。ここでは、ユーザは翻訳の品質について厳しい要求をしていない場合があるが、このことは、ほとんどの機械翻訳が許容可能となると考えられ、非常に低品質の翻訳(例えば下位10%またはその前後)を選び出しそれらの翻訳をポストエディットしさえすれば、十分である可能性のあることを意味している。この状況では、ポストエディットを必要とする翻訳に対して下限閾値を設定することができる。さらに別のシナリオでは、機械翻訳が不完全な場合、人間が直接翻訳することもある。ここでは、ユーザは人に翻訳させるためにソース文を直接送り出し、非常に低いMTQPスコアを有する対応する機械翻訳は破棄することができるが、その理由は、不完全な翻訳は誤解を招く可能性があり、またポストエディタがその翻訳を読むのにある程度の時間を要する可能性があるからである。この手法では、不完全な機械翻訳の負担が除去され、代わりに人による翻訳を直接行うよう翻訳者が活用されるようになる。
【0072】
本明細書における技術について特定の実施形態を参照して説明してきたが、これらの実施形態は本技術の原理および応用を例示するものに過ぎないことを理解されたい。したがって、例示的な実施形態に多数の修正を行い得ること、および、添付の特許請求の範囲によって規定される本技術の精神および範囲から逸脱することなく、他の構成を考案し得ることを理解されたい。
図1
図2A
図2B
図3
図4
図5
図6
図7A
図7B
図8
【手続補正書】
【提出日】2024-03-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する方法であって、
機械翻訳品質予測モデルが、ソース文と翻訳された出力との文ペアを受け取ることと、
2つ以上の特徴抽出器のセットを使用して前記文ペアに対して特徴抽出を実行することと、を含み、
各特徴抽出器は対応する特徴ベクトルを生成し、
前記方法は、
前記特徴抽出器のセットからの前記対応する特徴ベクトル同士を連結することと、
前記連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することと、をさらに含み、
前記フィードフォワードニューラルネットワークは前記翻訳された出力に関する機械翻訳品質予測スコアを生成する、
コンピュータが実行する方法。
【請求項2】
前記機械翻訳品質予測スコアを前記翻訳された出力と関連付けてデータベースに格納することをさらに含む、請求項1に記載の方法。
【請求項3】
前記機械翻訳品質予測スコアをユーザに送信することをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記2つ以上の特徴抽出器のセットは、Quasi-MT特徴抽出器、ニューラル機械翻訳特徴抽出器、言語モデル抽出器、およびLogPr特徴抽出器のうちの少なくとも2つを備える、請求項1~請求項3のいずれか1項に記載の方法。
【請求項5】
前記Quasi-MT特徴抽出器は、前記ソース文とゴールドラベル文との両方の情報を使用して前記ゴールドラベル文の各トークンの予測を試みることによって訓練されるQuasi-MTモデルの内部スコアを使用する、請求項4に記載の方法。
【請求項6】
前記ニューラル機械翻訳特徴抽出器は少なくともニューラル機械翻訳モデルのデコーダからの内部スコアを使用する、請求項4または請求項5に記載の方法。
【請求項7】
前記言語モデル抽出器は2種類の言語モデルからの内部スコアを使用し、前記言語モデルの第1のものはソース言語の選択されたコーパス上で訓練され、前記言語モデルの第2のものは対照言語モデルであって、前記対照言語モデルは、最初に、前記選択されたコーパス上で訓練され、次に、訓練文ペアのセット内のソース文によって形成されるコーパス上で漸進的に訓練される、請求項4~請求項6のいずれか1項に記載の方法。
【請求項8】
1つまたは複数のプロセッサが、前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超えない場合に、前記翻訳された出力をフィルタリングすることと、
をさらに含む、請求項1~請求項7のいずれか1項に記載の方法。
【請求項9】
前記翻訳された出力をフィルタリングすることは、前記機械翻訳品質予測スコアが前記品質閾値を超えないことを示すフラグを前記翻訳された出力とともに格納することを含む、請求項8に記載の方法。
【請求項10】
前記翻訳された出力をフィルタリングすることは、前記翻訳された出力を翻訳された出力文のコーパスから除去することを含む、請求項8または9に記載の方法。
【請求項11】
1つまたは複数のプロセッサが、前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超える場合に、前記翻訳された出力を翻訳された出力文のコーパスに追加することと、
をさらに含む、請求項1~請求項10のいずれか1項に記載の方法。
【請求項12】
前記機械翻訳品質予測スコアが品質閾値を超える場合に、前記翻訳された出力を使用して機械翻訳モデルを訓練すること
をさらに含む、請求項1~請求項11のいずれか1項に記載の方法。
【請求項13】
ソース文と、対応する翻訳された出力との、キュレートされたデータセットを作成することをさらに含み、
各翻訳された出力は品質閾値を超えており、
前記方法は、
前記キュレートされたデータセットを使用して機械翻訳モデルを訓練すること
をさらに含む、請求項1~請求項12のいずれか1項に記載の方法。
【請求項14】
前記訓練された機械翻訳モデルはニューラル機械翻訳モデルである、請求項13に記載の方法。
【請求項15】
機械翻訳品質予測情報を格納するように構成されているメモリと、
前記メモリに動作可能に結合されている1つまたは複数のプロセッサと、を備え、前記1つまたは複数のプロセッサは、
ソース文と翻訳された出力との文ペアを受け取ることと、
2つ以上の特徴抽出器のセットを使用して前記文ペアに対して特徴抽出を実行することと、によって機械翻訳品質予測モデルを実装するように構成され、
各特徴抽出器は対応する特徴ベクトルを生成し、前記1つまたは複数のプロセッサはさらに、
前記特徴抽出器のセットからの前記対応する特徴ベクトル同士の連結を実行することと、
前記連結された特徴ベクトルをフィードフォワードニューラルネットワークに適用することと、によって機械翻訳品質予測モデルを実装するように構成され、
前記フィードフォワードニューラルネットワークは前記翻訳された出力に関する機械翻訳品質予測スコアを生成するように構成されている、
システム。
【請求項16】
前記2つ以上の特徴抽出器のセットは、Quasi-MT特徴抽出器、ニューラル機械翻訳特徴抽出器、言語モデル抽出器、およびLogPr特徴抽出器のうちの少なくとも2つを備える、請求項15に記載のシステム。
【請求項17】
前記1つまたは複数のプロセッサは、
前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超えない場合に、前記翻訳された出力をフィルタリングすることとをするように、さらに構成されている、請求項15または請求項16に記載のシステム。
【請求項18】
前記1つまたは複数のプロセッサは、前記機械翻訳品質予測スコアが前記品質閾値を超えないことを示すフラグを前記翻訳された出力とともに格納することによって、前記翻訳された出力をフィルタリングするように構成されている、請求項15~請求項17のいずれか1項に記載のシステム。
【請求項19】
前記1つまたは複数のプロセッサは、
前記機械翻訳品質予測スコアが品質閾値を超えるかどうかを判定することと、
前記機械翻訳品質予測スコアが前記品質閾値を超える場合に、前記翻訳された出力を翻訳された出力文のコーパスに追加することとをするように、さらに構成されている、請求項15~請求項18のいずれか1項に記載のシステム。
【請求項20】
前記1つまたは複数のプロセッサは、前記機械翻訳品質予測スコアが品質閾値を超える場合に、前記翻訳された出力を使用して機械翻訳モデルを訓練するようにさらに構成されている、請求項15~請求項19のいずれか1項に記載のシステム。
【請求項21】
前記1つまたは複数のプロセッサは、
ソース文と、対応する翻訳された出力との、キュレートされたデータセットを作成するように構成され、
各翻訳された出力は品質閾値を超えており、
前記キュレートされたデータセットを前記メモリに格納することと、
前記キュレートされたデータセットを使用して機械翻訳モデルを訓練することをするように、さらに構成されている、請求項15~請求項20のいずれか1項に記載のシステム。
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正の内容】
図1
【国際調査報告】