(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023007369
(43)【公開日】2023-01-18
(54)【発明の名称】翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体
(51)【国際特許分類】
G06F 40/284 20200101AFI20230111BHJP
G06F 40/58 20200101ALI20230111BHJP
G06F 40/216 20200101ALI20230111BHJP
G06N 20/00 20190101ALI20230111BHJP
G06N 3/08 20230101ALI20230111BHJP
【FI】
G06F40/284
G06F40/58
G06F40/216
G06N20/00 130
G06N3/08
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022032916
(22)【出願日】2022-03-03
(31)【優先権主張番号】202110739519.1
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ジャン、チュアンキアン
(72)【発明者】
【氏名】ジャン、ルイキン
(72)【発明者】
【氏名】ヘ、ジョンジュン
(72)【発明者】
【氏名】リ、ジ
(72)【発明者】
【氏名】ウ、フア
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA03
5B091BA01
5B091EA01
(57)【要約】 (修正有)
【課題】翻訳品質と翻訳遅延とのバランスを効果的に取るための翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体を提供する。
【解決手段】翻訳方法は、ソース言語テキストにおけるトークンに基づいて、前記ソース言語テキストの現在の処理ユニットを取得し、分類モデルを用いて、現在の処理ユニットの分類結果を判定し、分類結果が、現在の処理ユニットが個別に翻訳可能である場合に、現在の処理ユニットを翻訳して現在の処理ユニットに対応するターゲット言語の翻訳結果を得ることを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
翻訳方法であって、
ソース言語テキストにおけるトークンに基づいて、前記ソース言語テキストの現在の処理ユニットを取得することと、
分類モデルを用いて、前記現在の処理ユニットの分類結果を判定することと、
前記分類結果は前記現在の処理ユニットが個別に翻訳可能である場合に、前記現在の処理ユニットを翻訳して前記現在の処理ユニットに対応するターゲット言語の翻訳結果を得ることと、
を含む翻訳方法。
【請求項2】
前記トークンは少なくとも1つであり、
ソース言語テキストにおけるトークンに基づいて、前記ソース言語テキストの現在の処理ユニットを取得することは、
前記少なくとも1つのトークンから、現在のトークンとして1つのトークンを順次選択することと、
前記現在のトークンの前の全てのトークンでトークンシーケンスを構成することと、
前記トークンシーケンスにおける個別に翻訳不可能な部分を前記ソース言語テキストの現在の処理ユニットとすることと、
を含む請求項1に記載の翻訳方法。
【請求項3】
分類モデルを用いて前記現在の処理ユニットの分類結果を判定することは、
前記現在のトークンの後の所定数のトークンに基づいて参照シーケンスを構成することと、
前記トークンシーケンスと前記参照シーケンスを前記分類モデルの入力とし、前記分類モデルを用いて前記入力を処理して前記現在の処理ユニットの分類結果を判定することと、
を含む請求項2に記載の翻訳方法。
【請求項4】
分類モデルの訓練方法であって、
オリジナルサンプルにおけるトークンを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを得ることと、
前記少なくとも1つのユニットサンプルにおける各ユニットサンプルに対応する、前記ユニットサンプルが個別に翻訳可能であるか否かを標識するラベル情報を取得することと、
前記各ユニットサンプル及び前記各ユニットサンプルに対応するラベル情報を用いて訓練データを構築することと、
前記訓練データを用いて分類モデルを訓練することと、
を含む分類モデルの訓練方法。
【請求項5】
前記オリジナルサンプルは少なくとも1つのトークンを含み、
オリジナルサンプルにおけるトークンを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを得ることは、
前記少なくとも1つのトークンから、現在のトークンとして1つのトークンを順次選択することと、
前記現在のトークンの前のすべてのトークンで1つのユニットサンプルを構成することと、
を含む請求項4に記載の分類モデルの訓練方法。
【請求項6】
前記オリジナルサンプルはソース言語テキストであり、
前記少なくとも1つのユニットサンプルのそれぞれに対応する、前記ユニットサンプルが個別に翻訳可能であるか否かを標識するラベル情報を取得することは、
前記ソース言語テキストに対応するターゲット言語の文全体の翻訳結果を得ることと、
前記各ユニットサンプルを翻訳して、前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得ることと、
前記ユニット翻訳結果と前記文全体の翻訳結果の少なくとも一部と内容が同一であり、且つ位置の対応が一致する場合に、前記ラベル情報が前記ユニットサンプルが翻訳可能ユニットであることを標識する情報であると判定することと、
を含む請求項4又は5に記載の分類モデルの訓練方法。
【請求項7】
前記各ユニットサンプルを翻訳して、前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を取得することは、
前記各ユニットサンプルと、前記各ユニットサンプルの後の所定数のトークンとを翻訳モデルの入力とし、前記翻訳モデルを用いて前記入力を翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得る、
ことを含む請求項6に記載の分類モデルの訓練方法。
【請求項8】
翻訳装置であって、
ソース言語テキストにおけるトークンに基づいて、前記ソース言語テキストの現在の処理ユニットを取得する取得モジュールと、
分類モデルを用いて、前記現在の処理ユニットの分類結果を判定する分類モジュールと、
前記分類結果は前記現在の処理ユニットが個別に翻訳可能である場合に、前記現在の処理ユニットを翻訳して前記現在の処理ユニットに対応するターゲット言語の翻訳結果を得る翻訳モジュールと、
を備える翻訳装置。
【請求項9】
前記トークンは少なくとも1つであり、
前記取得モジュールは、具体的に、
前記少なくとも1つのトークンから、現在のトークンとして1つのトークンを順次選択し、
前記現在のトークンの前の全てのトークンでトークンシーケンスを構成し、
前記トークンシーケンスにおける個別に翻訳不可能な部分を前記ソース言語テキストの現在の処理ユニットとする、
請求項8に記載の翻訳装置。
【請求項10】
前記分類モジュールは、具体的に、
前記現在のトークンの後の所定数のトークンに基づいて参照シーケンスを構成し、
前記トークンシーケンスと前記参照シーケンスを前記分類モデルの入力とし、前記分類モデルを用いて前記入力を処理して前記現在の処理ユニットの分類結果を判定する、
請求項9に記載の翻訳装置。
【請求項11】
分類モデルの訓練装置であって、
オリジナルサンプルにおけるトークンを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを得る処理モジュールと、
前記少なくとも1つのユニットサンプルにおける各ユニットサンプルに対応する、前記ユニットサンプルが個別に翻訳可能であるか否かを標識するラベル情報を取得する取得モジュールと、
前記各ユニットサンプル及び前記各ユニットサンプルに対応するラベル情報を用いて訓練データを構築する構築モジュールと、
前記訓練データを用いて分類モデルを訓練する訓練モジュールと、
を備える分類モデルの訓練装置。
【請求項12】
前記オリジナルサンプルは少なくとも1つのトークンを含み、
前記処理モジュールは、具体的に、
前記少なくとも1つのトークンから、現在のトークンとして1つのトークンを順次選択し、
前記現在のトークンの前のすべてのトークンで1つのユニットサンプルを構成する、
請求項11に記載の分類モデルの訓練装置。
【請求項13】
前記オリジナルサンプルはソース言語テキストであり、
前記取得モジュールは、具体的に、
前記ソース言語テキストに対応するターゲット言語の文全体の翻訳結果を取得し、
前記各ユニットサンプルを翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得、
前記ユニット翻訳結果と前記文全体の翻訳結果の少なくとも一部と内容が同一であり且つ位置の対応が一致する場合に、前記ラベル情報が前記ユニットサンプルが翻訳可能ユニットであることを標識する情報であると判定する、
請求項11又は12に記載の分類モデルの訓練装置。
【請求項14】
前記取得モジュールは、具体的に、
前記各ユニットサンプルと、前記各ユニットサンプルの後の所定数のトークンとを翻訳モデルの入力とし、前記翻訳モデルを用いて前記入力を翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得る、
請求項13に記載の分類モデルの訓練装置。
【請求項15】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリに、前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~3のいずれか1項に記載の翻訳方法を実行させる電子デバイス。
【請求項16】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリに、前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項4~7のいずれか1項に記載の分類モデルの訓練方法を実行させる電子デバイス。
【請求項17】
コンピュータに請求項1~3のいずれか1項に記載の翻訳方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
【請求項18】
コンピュータに請求項4~7のいずれか1項に記載の分類モデルの訓練方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
【請求項19】
プロセッサにより実行されると、請求項1~3のいずれか1項に記載の翻訳方法を実現するコンピュータプログラム。
【請求項20】
プロセッサにより実行されると、請求項4~7のいずれか1項に記載の分類モデルの訓練方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術の分野に関し、具体的に自然言語処理、ディープラーニングなどの人工知能の分野に関し、特に翻訳方法及び分類モデルの訓練方法、装置、デバイス及び記憶媒体に関する。
【背景技術】
【0002】
同時通訳システムは、一般に音声認識(Auto Speech Recognition、ASR)システムと機械翻訳(Machine Translation、MT)システムとを含む。ASRシステムは、ソース言語音声を音声認識してソース言語音声に対応するソース言語テキストを得る。MTシステムは、ソース言語テキストを翻訳してソース言語テキストに対応するターゲット言語テキストを得る。
【0003】
同時通訳やその他の類似の場面では、翻訳品質と翻訳遅延のバランスの問題を解決する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の一態様によれば、ソース言語テキストにおけるトークンに基づいて前記ソース言語テキストの現在の処理ユニットを取得し、分類モデルを用いて、前記現在の処理ユニットの分類結果を判定し、前記分類結果は前記現在の処理ユニットが個別に翻訳可能である場合に、前記現在の処理ユニットを翻訳して前記現在の処理ユニットに対応するターゲット言語の翻訳結果を取得することを含む翻訳方法を提供する。
【0006】
本開示の別の態様によれば、オリジナルサンプルにおけるトークンを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを取得し、前記少なくとも1つのユニットサンプルにおける各ユニットサンプルに対応する、前記ユニットサンプルが個別に翻訳可能であるか否かを標識するラベル情報を取得し、前記各ユニットサンプルと、前記各ユニットサンプルに対応するラベル情報とを用いて訓練データを構築し、前記訓練データを用いて分類モデルを訓練することを含む分類モデルの訓練方法を提供する。
【0007】
本開示の別の態様によれば、ソース言語テキストにおけるトークンに基づいて前記ソース言語テキストの現在の処理ユニットを取得する取得モジュールと、分類モデルを用いて前記現在の処理ユニットの分類結果を判定する分類モジュールと、前記分類結果は前記現在の処理ユニットが個別に翻訳可能である場合に、前記現在の処理ユニットを翻訳して前記現在の処理ユニットに対応するターゲット言語の翻訳結果を得る翻訳モジュールと、を備える翻訳装置を提供する。
【0008】
本開示の別の態様によれば、オリジナルサンプルにおけるトークンを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを取得する処理モジュールと、前記少なくとも1つのユニットサンプルにおける各ユニットサンプルに対応する、前記ユニットサンプルが個別に翻訳可能であるか否かを標識するラベル情報を取得する取得モジュールと、前記各ユニットサンプル及び前記各ユニットサンプルに対応するラベル情報を用いて訓練データを構築する構築モジュールと、前記訓練データを用いて分類モデルを訓練する訓練モジュールとを備える分類モデルの訓練装置を提供する。
【0009】
本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記態様のいずれか1項に記載された方法を実行させる電子デバイスを提供する。
【0010】
本開示の別の態様によれば、コンピュータに前記態様のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
【0011】
本開示の別の態様によれば、プロセッサにより実行されると、前記態様のいずれか1項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0012】
本開示の技術案によれば、翻訳品質と翻訳遅延とのバランスを効果的に取ることができる。
【0013】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0014】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
【
図10】本開示の実施形態の翻訳方法又は分類モデルの訓練方法のいずれかを実施するための電子デバイスの概略図である。
【発明を実施するための形態】
【0015】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0016】
同時通訳については、翻訳品質の高さと翻訳遅延の低さは重要な要件である。一般的に、翻訳モデルへの入力情報が多いほど、翻訳品質は高くなるが、翻訳遅延も高くなるため、翻訳品質と翻訳遅延のバランスを考慮する必要がある。
【0017】
図1は本開示の第1実施形態に係る概略図である。本実施形態は以下のことを含む翻訳方法を提供する。
【0018】
101において、ソース言語テキストにおけるトークンに基づいて、ソース言語の現在の処理ユニットを取得する。
【0019】
102において、分類モデルを用いて、前記現在の処理ユニットの分類結果を判定する。
【0020】
103において、前記分類結果は前記現在の処理ユニットが翻訳可能ユニットである場合に、前記現在の処理ユニットを翻訳して、前記現在の処理ユニットに対応するターゲット言語の翻訳結果を得る。
【0021】
同時通訳を例にすると、
図2に示すように、同時通訳システムは、ASRシステムとMTシステムを含むことができる。ASRシステムは、ソース言語音声を音声認識して、ソース言語音声に対応するソース言語テキストを得ることができる。MTシステムは、ソース言語テキストを翻訳して、ソース言語テキストに対応するターゲット言語テキストを得る。本開示の実施形態では、ソース言語が中国語であり、ターゲット言語が英語であることを例に挙げる。
【0022】
ソース言語テキストの中に少なくとも1つのトークンを含むことができ、例えば、X={x1,x2,...,xT}と表すことができる。ここで、Xはソース言語テキストを表し、xi(i=1,2,...T)はソース言語テキストの中のi番目のトークンを表し、Tはソース言語テキストにおけるトークンの総数である。
【0023】
ソース言語テキストは、様々な関連技術のトークン化方法を用いて、上記の少なくとも1つのトークンを得ることができる。例えば、ソース言語テキストが
である場合、トークン化した後、対応するトークンは
となり、異なるトークンはコンマで区切られている。
【0024】
翻訳品質を保証するためには、文を単位で翻訳を行うのが一般的である。例えば、上記の例の
を文とすると、翻訳モデルは
という文全体を待ってから、「At 10 a.m I went to the park」のような翻訳結果を得る必要がある。このような文を単位で翻訳を行う方式の方が遅延が高い。
【0025】
遅延を低減するためには、トークンを単位で翻訳を行うことが可能である。例えば、一定個数のトークンを遅延させてから翻訳を開始することが可能である。前記の例に基づいて、例えば、「10」というトークンが受信された後、「上午,10」を翻訳し始めることができる。しかし、このような個数情報のみを考慮した分割方式では、翻訳品質が高くない可能性がある。
【0026】
翻訳品質と翻訳遅延のバランスをとるために、現在の処理ユニットを取得した後、個別で翻訳可能か否かを判断し、個別で翻訳可能であれば、現在の処理ユニットを翻訳する。
【0027】
あるユニットが「個別で翻訳可能」とは、当該ユニットが「翻訳可能ユニット(Meaningful Unit、MU)」とも呼ばれ、翻訳結果が後続の入力からの影響を受けない最小ユニットを指す。
【0028】
例えば、上記の例では、「上午」の初期翻訳結果は「morning」であり、後続の入力が続くにつれて、例えば入力が「上午,10,点」に更新された場合に、対応する翻訳結果が「At 10 a.m」に更新される。「上午」の翻訳結果が後続の入力からの影響を受けるため、「上午」を翻訳可能ユニットとすることはできない。また、例えば、「上午,10,点」の初期翻訳結果は「At 10 a.m」であり、後続の入力が続くにつれて、例えば入力が「上午,10,点,我」に更新された場合に、対応する翻訳結果が「At 10 a.m、me」となる。ここで、「上午,10,点」というユニットについては、後から「我」が入力されても翻訳結果に影響を与えないので、「上午,10,点」を翻訳可能ユニットとすることができる。
【0029】
現在の処理ユニットが翻訳可能ユニット、又は個別に翻訳可能であれば、その翻訳結果が後続の入力からの影響を受けないため、翻訳品質を保証することができる。
【0030】
本実施形態では、トークンに基づいて得られた現在の処理ユニットを翻訳することにより、文ではなく現在の処理ユニットを単位で翻訳を実現することができるため、翻訳遅延を低減することができる。現在の処理ユニットの分類結果を判定し、現在の処理ユニットを個別に翻訳可能な場合にのみ現在の処理ユニットを翻訳することにより、翻訳品質を保証し、翻訳品質と翻訳遅延のバランスを取ることができる。
【0031】
いくつかの実施形態では、前記トークンは少なくとも1つであり、前記ソース言語テキストにおけるトークンに基づいて、ソース言語の現在の処理ユニットを取得することは、前記少なくとも1つのトークンのうち、現在のトークンとして1つのトークンを順次選択し、前記現在のトークンの前のすべてのトークンのトークンシーケンスを構成し、前記トークンシーケンスにおける個別に翻訳不可能な部分を前記ソース言語の現在の処理ユニットとすることを含む。
【0032】
順次は、時間的な前後順序である。例えば、上記の例に基づいて、第1時点で「上午」を現在のトークンとして選択し、第2時点で「10」を現在のトークンとして選択する。
【0033】
現在のトークンの前の「前」には、現在のトークンが含まれる。第2時点を例にすると、第2時点に対応する第1トークンシーケンスは「上午,10」である。
【0034】
トークンシーケンスにおけるトークンの初期状態は、いずれも個別に翻訳不可能な部分である。現在の処理ユニットを分類することにより、個別に翻訳可能な部分がトークンシーケンスに存在する可能性があり、その後、その部分を除去して現在の処理ユニットとして良い。
【0035】
例えば、第1時点において、トークンシーケンスが「上午」であり、この「上午」は個別に翻訳不可能な部分であるため、「上午」を第1時点の現在の処理ユニットとし、分類モデルによる分類処理の結果、「上午」は個別に翻訳することができない、即ち「上午」は個別に翻訳不可能な部分であると判定されたとする。第2時点において、トークンシーケンスが「上午,10」であり、「上午」は個別に翻訳不可能な部分であり、「10」の初期状態も個別に翻訳不可能な部分であるため、第2時点の「上午,10」は現在の処理ユニットであり、分類モデルによる処理により「上午,10」が個別に翻訳不可能な部分であると判定されたとする。同様に、第3時点において、トークンシーケンスは「上午,10,点」であり、「上午,10」は個別に翻訳不可能な部分であり、「点」の初期状態も個別に翻訳不可能な部分であるため、第3時点の「上午,10,点」が現在の処理ユニットであり、分類モデルによる処理により「上午,10,点」が個別に翻訳可能であるとすると、次の時点、即ち第4時点におけるトークンシーケンスは「上午,10,点,我」であり、そのうちの「上午,10,点」が個別に翻訳可能な部分であり、除去する必要があるため、第4時点に対応する現在の処理ユニットは「我」となる。
【0036】
現在のトークンを順次選択し、現在のトークンに基づいて現在の処理ユニットを取得することにより、実際の翻訳時に順次実行されるシナリオに合わせて現在の処理ユニットを順次分類して翻訳することができる。
【0037】
図2に示すように、現在の処理ユニットが得られた後、分類モデルを用いて現在の処理ユニットを分類して現在の処理ユニットに対応する分類結果を得ることができる。
【0038】
分類モデルは二分類モデルである。具体的には、分類結果は、現在の処理ユニットが個別に翻訳可能であること、又は現在の処理ユニットが個別に翻訳不可能であることを含む。
【0039】
いくつかの実施形態では、前記分類モデルを用いて、前記現在の処理ユニットの分類結果を判定することは、前記現在のトークン後の所定数のトークンに基づいて参照シーケンスを構成し、前記トークンシーケンスと前記参照シーケンスを前記分類モデルの入力とし、前記分類モデルを用いて前記入力を処理して前記現在の処理ユニットの分類結果を判定することを含む。
【0040】
ここで、現在のトークンの後の「後」は現在のトークンを含まない。所定数はmで表すことができ、mは参照単語の個数であり、m=2を例にすると、現在のトークンをxtとする場合に、参照シーケンスは参照シーケンス={x(t+1),...,x(t+m)}と表すことができる。t+mがTより大きい部分については、ヌルを選択する。
【0041】
図3に示すように、ソース言語テキストについては、現在のトークンに基づいてトークンシーケンスと参照シーケンスを得ることができる。分類モデルの入力はトークンシーケンスと参照シーケンスを含み、分類モデルの出力は現在の処理ユニットの分類結果である。ここで、分類モデルの入力はトークンシーケンスを含むので、出力はトークンシーケンスの分類結果であると考えても良い。
【0042】
トークンシーケンスと参照シーケンスを分類モデルの入力とすることにより、分類結果の精度を向上させることができる。
【0043】
現在の処理ユニットが翻訳可能ユニットである場合、次の入力を待つ必要せず、現在の処理ユニットについてリアルタイム(simultaneous)な翻訳及び翻訳結果の出力を行うことができる。出力形式は、テキスト形式や音声形式等であってもよく、例えば、現在の処理ユニットに対応するターゲット言語の翻訳テキストを表示画面に出力したり、翻訳テキストを音声合成してターゲット言語の音声を得た後、対応するターゲット言語の音声をスピーカ等の出力手段を介して再生したりすることができる。
【0044】
上記の例に基づいて、「上午,10,点」、
、
という3つの個別に翻訳可能なユニットが得られたとする。
図4に示すように、翻訳可能ユニットに基づいて、翻訳結果を得るために文全体の入力を待つ(「通常テキスト翻訳結果」で示される)必要がなく、各翻訳可能ユニットの翻訳結果をリアルタイムに得る(「同時通訳翻訳結果」で示される)ことができる。
【0045】
上記の実施形態では、適用の過程を例として分類モデルに係わった。つまり、分類モデルを用いて、ある処理ユニットが翻訳可能ユニットであるか否か、又は個別に翻訳可能であるか否かを判断する必要がある。分類モデルは、適用の過程の前に訓練により得られて良い。以下に分類モデルの訓練過程を説明する。
【0046】
図5は本開示の第4実施形態に係る概略図である。本実施形態は、以下のことを含む分類モデルの訓練方法を提供する。
【0047】
501において、オリジナルサンプルを処理して、前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを取得する。
【0048】
502において、前記少なくとも1つのユニットサンプルのそれぞれに対応する、前記ユニットサンプルが個別に翻訳可能であるかどうかを標識するラベル情報を取得する。
【0049】
503において、前記各ユニットサンプルと、前記各ユニットサンプルに対応するラベル情報とを用いて、訓練データを構築する。
【0050】
504において、前記訓練データを用いて分類モデルを訓練する。
【0051】
依然として
という文を例に説明しているが、訓練の際には、この文をオリジナルサンプルとすることができる。
【0052】
いくつかの実施形態では、前記オリジナルサンプルは、少なくとも1つのトークンを含み、前記オリジナルサンプルを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを得ることは、前記少なくとも1つのトークンのうち、現在のトークンとして1つのトークンを順次選択し、前記現在のトークンの前のすべてのトークンを1つのユニットサンプルとして構成することを含む。
【0053】
ここで、オリジナルサンプルがT個のトークンを含むとすると、T個のユニットサンプルが得られる。上記の例に基づいて、異なる時点tに対応するユニットサンプルctは、表1のように示されて良い。
【表1】
【0054】
さらに、オリジナルサンプルを処理した後、現在のトークンに続く所定数(例えば、m=2)のトークンからなるシーケンスを指す参照サンプルftを得ることもできる。
【0055】
その後、<ユニットサンプル、参照サンプル、ラベル情報>というトライアドに基づいて訓練データを構築することができる。
【0056】
ラベル情報をltで表し、lt=1がユニットサンプルが個別に翻訳可能であることを表し、lt=0がユニットサンプルが個別に翻訳不可能であることを表すとすると、訓練データは表2のように示されて良い。
【表2】
【0057】
現在のトークンに基づいてユニットサンプルを構成することにより、1つのオリジナルサンプルに基づいて複数のユニットサンプルを生成してユニットサンプルの数を拡張することができる。
【0058】
いくつかの実施形態では、前記オリジナルサンプルはソース言語テキストであり、前記少なくとも1つのユニットサンプルのそれぞれに対応するラベル情報を取得することは、前記ソース言語テキストに対応するターゲット言語の文全体の翻訳結果を取得し、前記各ユニットサンプルを翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得、前記ユニット翻訳結果と前記文全体の翻訳結果の少なくとも一部の内容が同一であり、かつ、位置の対応が一致する場合、前記ラベル情報が前記ユニットサンプルが翻訳可能ユニットであることを標識する情報であると判定することを含む。
【0059】
ここで、ユニット翻訳結果と前記文全体の翻訳結果の少なくとも一部の内容が同一であり、かつ位置の対応が一致することは、ユニット翻訳結果が文全体の翻訳結果のプレフィックス(prefix)であると呼ぶことができる。
【0060】
異なる時点tにおけるユニットサンプルに対するユニット翻訳結果をytで示されると、ソース言語テキスト、文全体の翻訳結果、ユニット翻訳結果は、
図6のように示されて良い。
図6を参照すると、「上午,10,点」のユニット翻訳結果が「At 10 a.m」であり、このユニット翻訳結果が文全体の翻訳結果のプレフィックスであるため、「上午,10,点」に対応するラベル情報lt=1である。同様に、
のユニット翻訳結果が「At 10 a.m I went to」であり、このユニット翻訳結果が文全体の翻訳結果のプレフィックスであるため、
に対応するラベル情報lt=1である。
【0061】
ユニット翻訳結果が文全体の翻訳結果のプレフィックスであるか否かに基づいて、対応するユニットサンプルが個別に翻訳可能か否かを判定することにより、個別に翻訳可能なユニットの語義の完備性を保証し、翻訳品質を向上させることができる。
【0062】
各ユニットサンプルのユニット翻訳結果が得られるとき、通常の翻訳方式、即ち各ユニットサンプルを翻訳モデルの入力とし、翻訳モデルを用いて翻訳を行うことによれば、各ユニットサンプルは何れも個別に翻訳不可能である一方、オリジナルサンプルという1文全体のみが個別に翻訳可能である場合があるため、このように上述の訓練データを用いて訓練された分類モデルでは、長い翻訳可能ユニットしか識別できず、翻訳遅延が長すぎる。
【0063】
例えば、オリジナルサンプルが「A,在,北京,与,B,会晤」である場合、通常の翻訳方式では、「A,在,北京,与,B,会晤」という文全体に対応するラベル情報を1とし、その他のユニットサンプルのラベル情報はすべて0とする。
【0064】
このラベル情報1のユニットサンプルの長さが長すぎて、そのユニットサンプルを用いて訓練された分類モデルの適用における翻訳遅延が長すぎる。
【0065】
翻訳遅延を低減するために、翻訳可能ユニットであるユニットサンプルの長さをできるだけ短くすることができる。
【0066】
いくつかの実施形態では、前記オリジナルサンプルにトークンが含まれており、前記各ユニットサンプルを翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得ることは、前記各ユニットサンプルと、前記各ユニットサンプルに続く所定数のトークンとを翻訳モデルの入力とし、前記翻訳モデルを用いて前記入力を翻訳して、前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得ることを含む。
【0067】
ここで、翻訳時に対応する「所定数」は、上記の参照サンプル又は参照シーケンスにおける所定数とは無関係である。つまり、翻訳時に対応する所定数はkで表すことができる。kは、参照サンプル又は参照シーケンスにおけるmと異なり、k個のトークンを遅延してから翻訳することを表す。この翻訳方式はwait-k翻訳と呼ぶことができる。
【0068】
wait-k翻訳方式は予測能力があり、文全体の入力を待つことなく正しい翻訳結果を生成することができる。例えば、「A,在,北京,与,B,会晤」を例にすると、k=2の場合、対応する翻訳結果は
図7のようになる。つまり、「北京」というトークンを受信した後、翻訳結果が「met」であると予測でき、「会晤」というトークンを受信してから「met」として翻訳する必要はない。
【0069】
wait-k翻訳方式によると、同時通訳の際に、「A,在,北京,与,B,会晤」という1文全体のユニットではなく、「A」、「在」、「北京」、「与」、「B」、「会晤」という6つのユニットが個別に翻訳可能であることが分かった。その後、個別に翻訳可能なユニットごとにリアルタイムに翻訳し、翻訳遅延を低減することができる。
【0070】
ユニットサンプルのユニット翻訳結果を得る際に、wait-k方式で翻訳することにより、より長さの短い個別に翻訳可能なユニットサンプルを得ることができる。さらに、このユニットサンプルにより構築された訓練データに基づいて訓練された分類モデルにより、翻訳時により長さの短い個別に翻訳可能なユニットを識別し、翻訳遅延を低減することができる。
【0071】
本実施形態では、分類モデルの訓練データをオリジナルサンプルで構築することにより、訓練データの数を拡張することができる。ユニットサンプルが個別に翻訳可能であるか否かを識別するためにラベル情報を使用することにより、ユニットが個別に翻訳可能であるか否かを識別可能な分類モデルを訓練することができる。さらに、個別に翻訳されたユニットを翻訳し、翻訳品質と翻訳遅延のバランスをとることができる。
【0072】
図8は、本開示の第8実施形態に係る概略図である。本実施形態は翻訳装置を提供する。
図8に示すように、翻訳装置800は、取得モジュール801と、分類モジュール802と、翻訳モジュール803とを備える。
【0073】
取得モジュール801は、ソース言語テキストにおけるトークンに基づいて、前記ソース言語テキストの現在の処理ユニットを取得する。分類モジュール802は、分類モデルを用いて前記現在の処理ユニットの分類結果を判定する。翻訳モジュール803は、前記分類結果は前記現在の処理ユニットが個別に翻訳可能である場合に、前記現在の処理ユニットを翻訳して前記現在の処理ユニットに対応するターゲット言語の翻訳結果を得る。
【0074】
いくつかの実施形態では、前記トークンは少なくとも1つであり、前記取得モジュール801は、具体的に、前記少なくとも1つのトークンのうち、現在のトークンとして1つのトークンを順次選択し、前記現在のトークンの前の全てのトークンでトークンシーケンスを構成し、前記トークンシーケンスにおける個別に翻訳不可能な部分を前記ソース言語の現在の処理ユニットとする。
【0075】
いくつかの実施形態では、前記分類モジュール802は、具体的に、前記現在のトークンの後の所定数のトークンに基づいて参照シーケンスを構成し、前記トークンシーケンスと前記参照シーケンスを前記分類モデルの入力とし、前記分類モデルを用いて前記入力を処理して前記現在の処理ユニットの分類結果を判定する。
【0076】
本実施形態では、トークンに基づいて得られた現在の処理ユニットを翻訳することにより、文ではなく現在の処理ユニットを単位で翻訳を行うことを実現し、翻訳遅延を低減することができる。現在の処理ユニットの分類結果を判定し、現在の処理ユニットを個別に翻訳可能な場合にのみ翻訳することにより、翻訳品質を保証し、翻訳品質と翻訳遅延のバランスを取ることができる。
【0077】
図9は、本開示の第9実施形態に係る概略図である。本実施形態は分類モデルの訓練装置を提供する。
図9に示すように、分類モデルの訓練装置900は、処理モジュール901、取得モジュール902、構築モジュール903、及び訓練モジュール904を備える。
【0078】
処理モジュール901は、オリジナルサンプルにおけるトークンを処理して前記オリジナルサンプルに対応する少なくとも1つのユニットサンプルを取得する。取得モジュール902は、前記少なくとも1つのユニットサンプルのそれぞれに対応する、前記ユニットサンプルが個別に翻訳可能であるか否かを標識するラベル情報を取得する。構築モジュール903は、前記各ユニットサンプル及び前記各ユニットサンプルに対応するラベル情報を使用して訓練データを構築する。訓練モジュール904は、前記訓練データを使用して分類モデルを訓練する。
【0079】
いくつかの実施形態では、前記オリジナルサンプルは少なくとも1つのトークンを含み、前記処理モジュール901は、具体的に、前記少なくとも1つのトークンのうち、現在のトークンとして1つのトークンを順次選択し、前記現在のトークンの前のすべてのトークンで1つのユニットサンプルを構成する。
【0080】
いくつかの実施形態では、前記オリジナルサンプルはソース言語テキストであり、前記取得モジュール902は、具体的に、前記ソース言語テキストに対応するターゲット言語の文全体の翻訳結果を取得し、前記各ユニットサンプルを翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得、前記ユニット翻訳結果と前記文全体の翻訳結果の少なくとも一部の内容が同一であり、かつ、位置の対応が一致する場合、前記ラベル情報が前記ユニットサンプルが翻訳可能ユニットであることを標識する情報であると判定する。
【0081】
いくつかの実施形態では、前記取得モジュール902は、具体的に、前記各ユニットサンプルと、前記各ユニットサンプルに続く所定数のトークンを翻訳モデルの入力とし、前記翻訳モデルを用いて前記入力を翻訳して前記各ユニットサンプルに対応するターゲット言語のユニット翻訳結果を得る。
【0082】
本実施形態では、オリジナルサンプルで分類モデルの訓練データを構成することにより、訓練データの数を拡張することができる。ユニットサンプルが個別に翻訳可能であるか否かを標識するためにラベル情報を使用することにより、ユニットが個別に翻訳可能であるか否かを識別可能な分類モデルを訓練することができる。さらに、個別に翻訳されるユニットを翻訳し、翻訳品質と翻訳遅延のバランスをとることができる。
【0083】
理解すべきなのは、本開示の実施形態では、異なる実施形態における同一又は類似の内容を互いに参照することができる。
【0084】
理解すべきなのは、本開示の実施形態における「第1」、「第2」等は、単に区別するためのものであり、重要度の高低、タイミングの前後等を表すものではない。
【0085】
本開示の実施形態によれば、本開示はさらに、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0086】
図10は、本開示の実施形態を実施するために使用され得る例示的な電子デバイス1000の模式的なブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0087】
図10に示すように、電子デバイス1000は、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、又は記憶手段10010からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段1001を含む。RAM1003には、電子デバイス1000の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段1001、ROM1002及びRAM1003は、バス1004を介して接続されている。入出力(I/O)インターフェース1005もバス1004に接続されている。
【0088】
例えばキーボード、マウス等の入力手段1006と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段1007と、例えば磁気ディスク、光ディスク等の記憶手段1008と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段1009を含む電子デバイス1000の複数の構成要素は、I/Oインターフェース1005に接続される。通信手段1009は、電子デバイス1000が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0089】
演算手段1001は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段1001のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段1001は、上述した様々な方法及び処理、例えば翻訳方法又は分類モデルの訓練方法を実行する。例えば、幾つかの実施形態では、翻訳方法又は分類モデルの訓練方法は、例えば記憶手段1008のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信手段1009を介して電子デバイス1000にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1003にロードされ、演算手段1001により実行されると、上述した翻訳方法又は分類モデルの訓練方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段1001は、翻訳方法又は分類モデルの訓練方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0090】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0091】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0092】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0093】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(声入力、音声入力、又は触覚入力を含む)で受信して良い。
【0094】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0095】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0096】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0097】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。