IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-162104機械翻訳方法、装置、デバイス及び記憶媒体
<>
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図1
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図2
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図3
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図4
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図5
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図6
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図7
  • 特開-機械翻訳方法、装置、デバイス及び記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023162104
(43)【公開日】2023-11-08
(54)【発明の名称】機械翻訳方法、装置、デバイス及び記憶媒体
(51)【国際特許分類】
   G06F 40/44 20200101AFI20231031BHJP
【FI】
G06F40/44
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023001658
(22)【出願日】2023-01-10
(31)【優先権主張番号】202210465501.1
(32)【優先日】2022-04-26
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ジャン、ルイキン
(72)【発明者】
【氏名】リウ、フイ
(72)【発明者】
【氏名】ヘ、ジョンジュン
(72)【発明者】
【氏名】リ、ジ
(72)【発明者】
【氏名】ウ、フア
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091EA01
(57)【要約】      (修正有)
【課題】機械翻訳効果を向上させる機械翻訳方法、装置、デバイス及び記憶媒体を提供する。
【解決手段】機械翻訳方法は、初期のNMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得し、前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別し、前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させて調整後のNMTモデルを取得し、前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得する。
【選択図】図1
【特許請求の範囲】
【請求項1】
機械翻訳方法であって、
初期のニューラルネットワーク機械翻訳NMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得することと、
前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別することと、
前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させて調整後のNMTモデルを取得することと、
前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得することと、
を含む方法。
【請求項2】
前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別することは、
訳抜け検出モデルを用いて、入力された前記ソース言語テキスト及び前記第1ターゲット言語テキストを処理して、前記ソース言語テキストにおけるテキストユニットに訳抜けが発生しているかどうかを標識する標識情報を出力することと、
前記標識情報に基づいて、前記ソース言語テキストにおける訳抜け箇所を識別することと、
を含む請求項1に記載の方法。
【請求項3】
前記訳抜け検出モデルは、入力サンプルと訳抜けラベルとを含む訓練データに基づいて得られ、前記訓練データは、
第1ソース言語サンプル及び第1ターゲット言語サンプルを取得し、
前記第1ターゲット言語サンプルにコンテンツ拡張を行って第2ターゲット言語サンプルを取得し、
前記第2ターゲット言語サンプルに基づいて、第2ソース言語サンプルを取得し、
前記第2ソース言語サンプル及び前記第1ターゲット言語サンプルを前記入力サンプルとし、
前記第2ソース言語サンプルと前記第1ソース言語サンプルとを比較して、前記訳抜けラベルを決定する、
ことで生成される請求項2に記載の方法。
【請求項4】
前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させることは、
前記初期のNMTモデルにおける最大のアテンションの重みを決定することと、
前記最大のアテンションの重みに減少処理を行い、前記減少処理の前後における前記最大のアテンションの重みの差を決定することと、
前記差を前記訳抜け箇所に対応するアテンションの重みに加えることと、
を含む請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記訳抜け箇所に複数のテキストユニットが含まれる場合、前記差を前記訳抜け箇所に対応するアテンション力の重みに加えることは、
標準正規分布と前記差とに基づいて、前記複数のテキストユニットのそれぞれに対応する増加すべき値を決定することと、
各テキストユニットに対応する増加すべき値を各テキストユニットに対応するアテンションの重みに加えることと、
を含む請求項4に記載の方法。
【請求項6】
機械翻訳装置であって、
初期のニューラルネットワーク機械翻訳NMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得する第1翻訳モジュールと、
前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別する識別モジュールと、
前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させて調整後のNMTモデルを取得する調整モジュールと、
前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得する第2翻訳モジュールと、
を備える装置。
【請求項7】
前記識別モジュールは、さらに、
訳抜け検出モデルを用いて、入力された前記ソース言語テキスト及び前記第1ターゲット言語テキストを処理して、前記ソース言語テキストにおけるテキストユニットに訳抜けが発生しているかどうかを標識する標識情報を出力し、
前記標識情報に基づいて、前記ソース言語テキストにおける訳抜け箇所を識別する、
請求項6に記載の装置。
【請求項8】
前記訳抜け検出モデルは、入力サンプルと訳抜けラベルとを含む訓練データに基づいて得られ、前記訓練データは、
第1ソース言語サンプル及び第1ターゲット言語サンプルを取得し、
前記第1ターゲット言語サンプルにコンテンツ拡張を行って第2ターゲット言語サンプルを取得し、
前記第2ターゲット言語サンプルに基づいて第2ソース言語サンプルを取得し、
前記第2ソース言語サンプル及び前記第1ターゲット言語サンプルを前記入力サンプルとし、
前記第2ソース言語サンプルと前記第1ソース言語サンプルとを比較して前記訳抜けラベルを決定する、
ことで生成される請求項7に記載の装置。
【請求項9】
前記調整モジュールは、さらに、
前記初期のNMTモデルにおける最大のアテンションの重みを決定し、
前記最大のアテンションの重みに減少処理を行い、前記減少処理の前後における前記最大のアテンションの重みの差を決定し、
前記差を前記訳抜け箇所に対応するアテンションの重みに加える、
請求項6~8のいずれか1項に記載の装置。
【請求項10】
前記訳抜け箇所に複数のテキストユニットが含まれる場合、前記調整モジュールは、さらに、
標準正規分布と前記差とに基づいて、前記複数のテキストユニットのそれぞれに対応する増加すべき値を決定し、
各テキストユニットに対応する増加すべき値を各テキストユニットに対応するアテンションの重みに加える、
請求項9に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1に記載の方法を実行させる電子デバイス。
【請求項12】
コンピュータに請求項1に記載の機械翻訳方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体。
【請求項13】
プロセッサにより実行されると、請求項1に記載の機械翻訳方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、具体的に自然言語処理、ディープラーニング等の人工知能の分野に関し、特に機械翻訳方法、装置、デバイス及び記憶媒体に関する。
【背景技術】
【0002】
機械翻訳(Machine Translation、MT)とは、ソース言語テキストをターゲット言語テキストに変換することである。機械翻訳は、ニューラルネットワーク機械翻訳(Neural Machine Translation、NMT)と統計的機械翻訳(Statistical Machine Translation、SMT)に分けられる。NMTは一般にアテンション(attention)メカニズムに基づいて翻訳される。
【0003】
アテンションメカニズムに制約があるため、NMTは訳抜けを起こしやすく、翻訳効果に影響を与える。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、機械翻訳方法、装置、デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、初期のNMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得し、前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別し、前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加して調整後のNMTモデルを取得し、前記調整後のNMTモデルを使用して前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得することを含む機械翻訳方法が提供される。
【0006】
本開示の別の態様によれば、初期のNMTモデルを使用してソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得する第1翻訳モジュールと、前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別する識別モジュールと、前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加して調整後のNMTモデルを取得する調整モジュールと、前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得する第2翻訳モジュールとを備える機械翻訳装置が提供される。
【0007】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記いずれか一つの態様のいずれか一つに記載された方法を実行させる電子デバイスが提供される。
【0008】
本開示の別の態様によれば、コンピュータに前記いずれか一つの態様のいずれか一つに記載された方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体が提供される。
【0009】
本開示の別の態様によれば、プロセッサにより実行されると、前記いずれか一つの態様のいずれか一つに記載された方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【0010】
本開示の技術案によれば、機械翻訳効果を向上させることができる。
【0011】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
図1】本開示の第1実施形態による概略図である、
図2】本開示の実施形態に係る機械翻訳方法を実施するための適用シーンの概略図である。
図3】本開示の第2実施形態による概略図である。
図4】本開示の実施形態における訳抜け検出モデルの概略図である。
図5】本開示の実施形態における、訳抜け検出モデルの訓練データの拡張過程の概略図である。
図6】本開示の実施形態におけるNMTモデルの調整前後におけるアテンション力の重みの概略図である。
図7】本開示の第3実施形態による概略図である。
図8】本開示の実施形態に係る機械翻訳方法を実現するための電子デバイスの概略図である。
【発明を実施するための形態】
【0013】
以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0014】
アテンションメカニズムに基づくNMTモデルは、逐語翻訳ではなく、文全体を入力してモデルで理解した後に翻訳するため、モデルのアテンションメカニズムの欠陥によって部分的な訳抜けが生じる恐れがあり、特に長文に対して顕著である。
【0015】
機械翻訳効果を向上させるために、本開示は以下の実施形態を提供する。
【0016】
図1は、本開示の第1実施形態に係る概略図である。本実施形態は、初期のNMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得する101と、前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別する102と、前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させて調整後のNMTモデルを取得する103と、前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得する104とを含む機械翻訳方法を提供する。
【0017】
本実施形態では、全体として、訳抜け検出+再翻訳構造を採用することで、訳抜けを低減し、機械翻訳効果を向上させる。
【0018】
第1ターゲット言語テキストとは、1回目の翻訳により得られた翻訳結果である。第2ターゲット言語テキストは、2回目の翻訳(即ち再翻訳)により得られた翻訳結果である。
【0019】
ソース言語テキストにおける訳抜け箇所は、テキストユニットを単位として良い。すなわち、ソース言語テキストにおける訳抜けのテキストユニットを識別することができる。
【0020】
テキストが中国語テキストである場合、中国語テキストのテキストユニットは単語であってよい。それに応じて、ソース言語テキストにおける訳抜け箇所とは、ソース言語テキストにおける訳抜けの単語である。
【0021】
NMTモデルの多くはアテンションメカニズムを採用し、具体的には、NMTモデルには、テキスト内の各テキストユニットのアテンションの重みを決定し、各テキストユニットに対応する特徴をアテンションの重みに基づいて重み付け演算できるアテンションレイヤを含むことができる。アテンションメカニズムの具体的な内容は関連技術を用いて実現することができる。
【0022】
翻訳シーンでは、上記のテキストはソース言語テキストを意味する。ソース言語が中国語である場合、テキストユニットは単語を指すことができる。
【0023】
したがって、訳抜けの単語に基づいて、NMTモデルにおけるソース言語テキスト中の単語に対応するアテンションの重みを調整することができ、具体的には、訳抜けの単語に対応するアテンションの重みを増大させることができる。
【0024】
区別のために、1回目の翻訳に対応するNMTモデルを初期のNMTモデルと呼び、調整されたNMTモデルを調整後のNMTモデルと呼ぶことができる。
【0025】
調整後のNMTモデルを取得した後、調整後のNMTモデルを使用してソース言語テキストを再翻訳することができる。
【0026】
理解すべきなのは、上記の訳抜け検出+再翻訳は、複数回を実行可能である。例えば、第2ターゲット言語テキストを取得した後、予め設定された反復回数に達するまで、再度訳抜け検出及び再翻訳を行うことも可能である。
【0027】
予め設定された反復回数が2回、すなわち2回の翻訳が行われると仮定すると、第2ターゲット言語テキストをソース言語テキストの最終的な翻訳結果とすることができる。
【0028】
本実施形態では、訳抜け箇所を識別し、初期のNMTモデルにおける前記訳抜け箇所のアテンションの重みを大きくし、ソース言語テキストに2回目の翻訳を行うことにより、2回目の翻訳時に訳抜け箇所へのアテンションを高めることができ、訳抜けを低減し、機械翻訳効果を向上させることができる。
【0029】
本開示の実施形態をより良く理解するために、本開示の実施形態が適用される適用シーンについて説明する。
【0030】
図2は、本開示の実施形態に係る機械翻訳方法を実現するための適用シーンの概略図である。本実施形態では、サーバにおいて音声認識を行う場合を例とする。
【0031】
図2に示すように、適用シーンに関連するデバイスは、ユーザデバイス201及びサーバ202を含むことができる。ユーザデバイス201とサーバ202との間は、通信ネットワークを使用してやりとりを行う。ユーザデバイスは、モバイルデバイス(例えば、携帯電話、ポータブルコンピュータなど)、スマートホームデバイス(例えば、スマートスピーカー、スマートテレビなど)、スマートウェアラブルデバイス(例えば、スマートウォッチ、スマートブレスレットなど)などを含むことができる。サーバは、ローカルサーバでも良く、クラウドサーバでも良い。通信ネットワークは、広域ネットワーク、ローカルエリアネットワーク、インターネット、又は任意の他のパブリックネットワーク又はプライベートネットワーク、又は上記の組み合わせであってよい。
【0032】
機械翻訳では、ユーザデバイス201は、ソース言語テキストをサーバ202に送信することができる。サーバ202は、機械翻訳モデルを用いてソース言語テキストを翻訳してターゲット言語テキストである翻訳結果を取得する。その後、サーバ202はターゲット言語テキストをユーザデバイス201にフィードバックし、ユーザデバイス201はユーザインタフェース(User Interface、UI)を介してターゲット言語テキストをユーザに提示することができる。
【0033】
例えば、ソース言語テキストは「我早上不喝茶」である場合に、図2に示すように、対応するターゲット言語テキストである「I don't drink tea in the morning」が得られる。
【0034】
本実施形態では、サーバの機械翻訳の部分は、NMTモデルと、訳抜け検出モデルとを含むことができる。ここで、NMTモデルは、ソース言語テキストをターゲット言語テキストに変換するために使用され、ソース言語テキストを入力とし、ターゲット言語テキストを出力とする。本実施形態では2回の翻訳を例とし、それぞれの翻訳結果を第1ターゲット言語テキスト及び第2ターゲット言語テキストと呼ぶ。訳抜け検出モデルは、ソース言語テキストにおける訳抜け箇所を検出するために用いられ、ソース言語テキストと第1ターゲット言語テキストを入力とし、ソース言語テキストにおける訳抜け箇所の標識情報を出力とするため、当該標識情報に基づいて訳抜け箇所を特定することができる。また、ソース言語テキストの訳抜け箇所に基づいて、NMTモデルにおけるアテンションの重みを調整することができる。
【0035】
理解すべきなのは、本実施形態は、サーバによる機械翻訳を例にするが、ユーザデバイスが機械翻訳の機能を有する場合には、ユーザデバイスにおいてローカルに機械翻訳を行うことも可能である。
【0036】
図2に示される適用シーンに関連して、本開示の実施形態を以下に説明する。
【0037】
図3は、本開示の第2実施形態による概略図である。図3に示されるように、本実施形態の方法は、初期のNMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得する301と、訳抜け検出モデルを用いて、入力された前記ソース言語テキスト及び前記第1ターゲット言語テキストを処理して、前記ソース言語テキストにおける訳抜け箇所を識別する302とを含む。
【0038】
ここで、訳抜け検出モデルの模式図は、図4に示すように、ソース言語テキストとそれに対応するターゲット言語テキストを入力とし、ソース言語テキストにおける訳抜け箇所の標識情報を出力とする。その後、標識情報に基づいて訳抜け箇所を識別することができる。
【0039】
たとえば、ソース言語テキストは「我早上不喝茶」であり、ターゲット言語テキストは「I don't drink tea」である。標識情報「1」が対応する単語が訳抜けであることを示し、標識情報「0」が対応する単語が訳抜けでないことを示すとすると、上記の例に基づいて、図4に示されたような標識情報01000を出力することができる。つまり、ソース言語テキストにおける2番目の単語(すなわち、早上)が訳抜けである。
【0040】
本実施形態では、訳抜け検出モデルを用いることにより、ソース言語テキストにおける各テキストユニットに対応する、対応するテキストユニットに訳抜けが発生しているか否かを標識するための標識情報を取得し、さらに、標識情報に基づいてソース言語テキストにおける訳抜け箇所を識別することができる。モデルは一般に良好な検出性能を有するため、モデルを用いて訳抜け箇所を識別することで、ソース言語テキストにおける訳抜け箇所の検出精度を向上させることができる。
【0041】
また、具体的な処理において、単語は句読点、例えば図4に示された句点を含むことができる。
【0042】
また、入力の際に、ソース言語テキストとターゲット言語テキストは、[SEP]で表される間隔記号を用いて間隔を空けることができる。
【0043】
訳抜け検出モデルのバックボーンは、関連する事前訓練モデルを用いることができ、図4に示すように、双方向TransformerのEncoder(Bidirectional Encoder Representations from Transformers,BERT)モデル、あるいは、知識増強語義表現(Enhanced Representation from kNowledge IntEgration,ERNIE)モデルとすることができる。
【0044】
訳抜け検出モデルは事前に訓練されても良い。その訓練データは、ソース言語テキストとターゲット言語テキストとを含む翻訳ペアを含む入力サンプルと、ソース言語テキストにおける各テキストユニットに訳抜けが発生しているかどうかを標識するために使用される訳抜けラベルとを含む。
【0045】
訓練データは、データを偽造する方式で生成可能である。具体的に、第1ソース言語サンプル及び第1ターゲット言語サンプルを取得し、前記第1ターゲット言語サンプルにコンテンツ拡張を行って第2ターゲット言語サンプルを取得し、前記第2ターゲット言語サンプルに基づいて第2ソース言語サンプルを取得し、前記第2ソース言語サンプル及び前記第1ターゲット言語サンプルを前記入力サンプルとして、前記第2ソース言語サンプルと前記第1ソース言語サンプルとを比較して前記訳抜けラベルを決定することを含んで良い。
【0046】
ここで、第1ソース言語サンプルと第1ターゲット言語サンプルは、(x,y)で表される翻訳ペアであり、xは第1ソース言語サンプルであり、yは第1ターゲット言語サンプルである。
【0047】
第1ソース言語サンプル及び第1ターゲット言語サンプルは、既存のサンプルセットで取得することができる。例えば、x=「我不喝茶」、y=「I dont't drink tea」。
【0048】
その後、第1ターゲット言語サンプルにコンテンツ拡張を行って第2ターゲット言語サンプルを取得することができる。第2ターゲット言語サンプルは、y'で表すことができる。
【0049】
ここで、事前訓練モデルを使用してコンテンツ拡張を実現することができる。例えば、図5を参照して、汎用事前訓練(Generative Pre-Training、GPT)モデル及び/又はマスク言語モデル(Masked Language Model、MLM)モデルを使用して、第1ターゲット言語サンプルに対してコンテンツ拡張を実施する。図5に示すように、GPTモデルについて、第1ターゲット言語サンプルyをGPTモデルへの入力N(y)とし、GPTモデルの処理を経て、第2ターゲット言語サンプルy'を出力することができる。MLMモデルについて、第1ターゲット言語サンプルにマスク処理を行い、例えばランダムに[MASK]識別子を付加し、[MASK]識別子が付加されたテキストをMLMモデルの入力N(y)とし、MLMモデルの処理を経て、第2ターゲット言語サンプルy'を出力することができる。
【0050】
第2ターゲット言語サンプルy'が取得された後、それをソース言語に逆翻訳することができる。例えば、図5を参照すると、ターゲット言語は英語であり、ソース言語は中国語である場合に、NMTモデルを使用して英語のy'を中国語のテキストに逆翻訳することができる。当該テキストは第2ソース言語テキストx'と呼ぶことができる。
【0051】
その後、(x',y)を入力サンプルのペアとし、x'とxとを比較して、x'における単語の訳抜けラベルを決定することができる。具体的に、x'におけるxに対して余った単語の訳抜けラベルを「1」(訳抜けが発生したことを示す)、残りを「0」とすることができる。例えば、図5に示すように、斜体の単語(1行目の「早上」、2行目の
【数1】
、3行目の
【数2】
)の訳抜けラベルを「1」とする。
【0052】
本実施形態では、データを偽造する方式で訳抜け検出モデルの訓練データを生成することができるので、既存のサンプル数が少ない場合でも多くの訓練データを得、訳抜け検出モデルの効果を向上させることができる。
【0053】
303において、前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させて、調整後のNMTモデルを得る。
【0054】
ここで、アテンションの重みは各単語に対応することができる。
【0055】
具体的には、前記初期のNMTモデルにおける最大のアテンションの重みを決定し、前記最大のアテンションの重みに減少処理を行い、前記減少処理の前後における前記減衰すべきアテンションの重みの差を求め、前記差を前記訳抜け箇所に対応するアテンションの重みに加算することを含んで良い。
【0056】
例えば、図6に示すように、初期のNMTモデルの各単語に対応するアテンションの重みが図6の左側に示されたと仮定する。ここで、最大のアテンションの重みが0.6であり、この場合に0.6に対して減少処理を行うことができる。減少処理の具体的な規則は設定することができ、例えば、式p'=p1.5を採用して計算することができる。ここで、p'は減少処理が行われたアテンションの重みであり、pは減少処理が行われる前のアテンションの重みである。たとえば、0.6の場合、減少された値=0.61.5=0.46。
【0057】
図6の右側に示すように、最大のアテンションの重みは、減少処理が行われた後、その差(0.6-0.46=0.14)を訳抜け箇所である「早上」に対応するアテンションの重みに加えることができるため、調整することにより「早上」に対応するアテンションの重み=0.05+0.14=0.19。
【0058】
本実施形態では、初期のNMTモデルにおける最大のアテンションの重みに対応する差を訳抜け箇所に対応するアテンションの重みに加えることにより、最大のアテンションの重みに対する減衰と、訳抜け箇所に対応するアテンションの重みに対する増加を実現し、機械翻訳効果を向上させることができる。
【0059】
さらに、訳抜け箇所が複数のテキストユニットを含む場合、標準正規分布及び前記差に基づいて、前記複数のテキストユニットのそれぞれに対応する増加すべき値を決定し、前記各テキストユニットに対応するアテンションの重みに前記各テキストユニットに対応する増加すべき値を加えて良い。
【0060】
例えば、訳抜け箇所が連続する3単語である場合、標準正規分布N(0,1)を用いてこれら3単語の各単語に対応する値を決定することができる。すなわち、これら3単語の各単語に対応する値の和が上記の差であり、且つこれら3つの値が上記訳抜けの3単語の中間値を中心とする標準正規分布に適合する。さらに、各単語に対応する増加すべき値を、対応する単語のアテンションの重みに加える。
【0061】
本実施形態では、標準正規分布を用いて各訳抜け箇所の増加すべき値を均等化することにより、各訳抜け箇所のアテンションを客観的な分布状況に合わせ、機械翻訳効果を向上させることができる。
【0062】
304において、前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得する。
【0063】
例えば、「早上」という単語へのアテンションの重みを増加した後、「我早上不喝茶」を再翻訳することができる。
【0064】
その後、第2ターゲット言語テキストを最終的な翻訳結果としても良く、上記の訳抜け検出+再翻訳を複数回実行し、予め設定された回数に達した翻訳結果を最終的な翻訳結果としても良い。
【0065】
本実施形態では、訳抜け箇所に対応するアテンションの重みを大きくすることにより、NMTのアテンションメカニズムの観点からNMTモデルの調整を行うことができるため、NMTモデルのアテンションメカニズムに存在する欠陥を根本的に解決し、ひいては訳抜けを低減し、機械翻訳効果を向上させることができる。
【0066】
図7は本開示の第3実施形態による概略図である。本実施形態は機械翻訳装置を提供する。図7に示すように、機械翻訳装置700は、第1翻訳モジュール701と、識別モジュール702と、調整モジュール703と、第2翻訳モジュール704とを備える。
【0067】
第1翻訳モジュール701は、初期のNMTモデルを使用して、ソース言語テキストに1回目の翻訳を行って第1ターゲット言語テキストを取得する。識別モジュール702は、前記ソース言語テキスト及び前記第1ターゲット言語テキストに基づいて、前記ソース言語テキストにおける訳抜け箇所を識別する。調整モジュール703は、前記初期のNMTモデルにおける前記訳抜け箇所に対応するアテンションの重みを増加させて調整後のNMTモデルを取得する。第2翻訳モジュール704は、前記調整後のNMTモデルを使用して、前記ソース言語テキストに2回目の翻訳を行って第2ターゲット言語テキストを取得する。
【0068】
本実施形態では、訳抜け箇所を識別し、初期のNMTモデルにおける前記訳抜け箇所のアテンションの重みを大きくし、ソース言語テキストに2回目の翻訳を行うことにより、2回目の翻訳時に訳抜け箇所へのアテンションを高めることができるため、訳抜けを低減し、機械翻訳効果を向上させることができる。
【0069】
いくつかの実施形態では、前記識別モジュール702は、さらに、訳抜け検出モデルを使用して、入力された前記ソース言語テキスト及び前記第1ターゲット言語テキストを処理して、前記ソース言語テキストにおけるテキストユニットに訳抜けを起こしているかどうかを標識する標識情報を出力し、前記標識情報に基づいて、前記ソース言語テキストにおける訳抜け箇所を識別する。
【0070】
本実施形態では、訳抜け検出モデルを用いることにより、ソース言語テキストにおける各テキストユニットに対応する、対応するテキストユニットに訳抜けが発生しているか否かを標識する標識情報を取得し、さらに、標識情報に基づいてソース言語テキストにおける訳抜け箇所を識別することができる。モデルは一般に良好な検出性能を有するため、モデルを用いて訳抜け箇所を識別することにより、ソース言語テキストにおける訳抜け箇所の検出精度を向上させることができる。
【0071】
いくつかの実施形態では、前記訳抜け検出モデルは、入力サンプル及び訳抜けラベルを含む訓練データに基づいて得られる。前記訓練データは、第1ソース言語サンプル及び第1ターゲット言語サンプルを取得し、前記第1ターゲット言語サンプルにコンテンツ拡張を行って第2ターゲット言語サンプルを取得し、前記第2ターゲット言語サンプルに基づいて第2ソース言語サンプルを取得し、前記第2ソース言語サンプル及び前記第1ターゲット言語サンプルを前記入力サンプルとし、前記第2ソース言語サンプルと前記第1ソース言語サンプルとを比較して前記訳抜けラベルを決定する、という方式で生成される。
【0072】
本実施形態では、データを偽造する方式で訳抜け検出モデルの訓練データを生成することができるため、既存のサンプル数が少ない場合でも多くの訓練データを得、訳抜け検出モデルの効果を向上させることができる。
【0073】
いくつかの実施形態では、前記調整モジュール703は、さらに、前記初期のNMTモデルにおける最大のアテンションの重みを決定し、前記最大のアテンションの重みに減少処理を行い、前記減少処理の前後における前記最大のアテンションの重みの差を特定し、前記差を前記訳抜け箇所に対応するアテンションの重みに加える。
【0074】
本実施形態では、初期のNMTモデルにおける最大のアテンションの重みに対応する差を訳抜け箇所に対応するアテンションの重みに加えることにより、最大のアテンションの重みに対する減衰と、訳抜け箇所に対応するアテンションの重みに対する増加を実現し、機械翻訳効果を向上させることができる。
【0075】
いくつかの実施形態では、前記訳抜け箇所が複数のテキストユニットを含む場合、前記調整モジュールはさらに、標準正規分布及び前記差に基づいて、前記複数のテキストユニットのそれぞれに対応する増加すべき値を決定し、前記各テキストユニットに対応するアテンションの重みに前記各テキストユニットに対応する増加すべき値を加える。
【0076】
本実施形態では、標準正規分布を用いて各訳抜け箇所の増加すべき値を均等化することにより、各訳抜け箇所のアテンションを客観的な分布状況に合わせ、機械翻訳効果を向上させることができる。
【0077】
理解すべきなのは、本開示の実施形態では、異なる実施形態における同一又は類似の内容は相互に参照されてもよい。
【0078】
なお、本開示の実施形態における「第1」、「第2」等は、単に区別するためのものであり、重要度の高さ、タイミングの優先度等を示すものではない。
【0079】
本開示の技術案において、関わるユーザの個人情報の取得、記憶、応用、加工、伝送、提供及び開示等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない。
【0080】
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0081】
図8は、本開示の実施形態を実現可能な例示的な電子デバイス800の概略的なブロック図を示した。電子デバイス800は、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイス800は更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0082】
図8に示すように、デバイス800は、読み取り専用メモリ(ROM)802に記憶されたコンピュータプログラム、又は記憶手段808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段801を含む。RAM803には、電子デバイス800の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段801、ROM802及びRAM803は、バス804を介して接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
【0083】
例えばキーボード、マウス等の入力手段806と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段807と、例えば磁気ディスク、光ディスク等の記憶手段808と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段809を含むデバイス800の複数の構成要素は、I/Oインターフェース805に接続される。通信手段809は、電子デバイス800が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0084】
演算手段801は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段801のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段801は、上述した様々な方法及び処理、例えば機械翻訳方法を実行する。例えば、幾つかの実施形態では、機械翻訳方法は、例えば記憶手段808のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信手段809を介して電子デバイス800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM803にロードされ、演算手段801により実行されると、前記機械翻訳方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段801は、機械翻訳方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0085】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0086】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0087】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0088】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0089】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0090】
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)サービスにおいて管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0091】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0092】
上記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8