特許第6965951号(P6965951)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許6965951ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
<>
  • 特許6965951-ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 図000002
  • 特許6965951-ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 図000003
  • 特許6965951-ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 図000004
  • 特許6965951-ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 図000005
  • 特許6965951-ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6965951
(24)【登録日】2021年10月25日
(45)【発行日】2021年11月10日
(54)【発明の名称】ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
(51)【国際特許分類】
   G06F 40/44 20200101AFI20211028BHJP
【FI】
   G06F40/44
【請求項の数】11
【全頁数】14
(21)【出願番号】特願2020-29283(P2020-29283)
(22)【出願日】2020年2月25日
(65)【公開番号】特開2020-140710(P2020-140710A)
(43)【公開日】2020年9月3日
【審査請求日】2020年2月25日
(31)【優先権主張番号】201910142831.5
(32)【優先日】2019年2月26日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ボイェヌ リィウ
(72)【発明者】
【氏名】イハヌ リ
(72)【発明者】
【氏名】シャヌシャヌ ジアン
(72)【発明者】
【氏名】イシュアヌ トォン
(72)【発明者】
【氏名】ビヌ ドォン
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特表2005−521952(JP,A)
【文献】 特表2009−527818(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20−40/58
(57)【特許請求の範囲】
【請求項1】
ニューラル機械翻訳モデルの訓練方法であって、
Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算するステップであって、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、Nは2以上である、ステップと、
前記Nグラムから前記出現頻度が所定閾値より高い高頻度Nグラムを選択し、所定の区切り記号により、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語に合成し、更新されたターゲットセンテンスコーパスを取得するステップと、
ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップと、
訓練されたニューラル機械翻訳モデルを用いて、翻訳すべきセンテンスを翻訳して予測センテンスを取得するステップと、
前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットした後に、前記予測センテンスを出力するステップと、
前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力するステップと、を含むことを特徴とする訓練方法。
【請求項2】
前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットするステップは、
前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得するステップ、を含むことを特徴とする請求項に記載の訓練方法。
【請求項3】
ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップは、
ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練するステップ、を含み、
前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されないことを特徴とする請求項1に記載の訓練方法。
【請求項4】
前記Nグラムは、2グラム、3グラム又は4グラムであることを特徴とする請求項1〜のいずれか1項に記載の訓練方法。
【請求項5】
前記ニューラル機械翻訳モデルは、seq2seqモデル、convS2Sモデル又はtransformerモデルであることを特徴とする請求項に記載の訓練方法。
【請求項6】
ニューラル機械翻訳モデルの訓練装置であって、
Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算する頻度計算ユニットであって、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、Nは2以上である、頻度計算ユニットと、
前記Nグラムから前記出現頻度が所定閾値より高い高頻度Nグラムを選択し、所定の区切り記号により、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語に合成し、更新されたターゲットセンテンスコーパスを取得する単語セットユニットと、
ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するモデル訓練ユニットと、
前記モデル訓練ユニットにより訓練されたニューラル機械翻訳モデルを用いて、翻訳すべきセンテンスを翻訳して予測センテンスを取得し、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットした後に、前記予測センテンスを出力し、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する翻訳ユニットと、を含む訓練装置。
【請求項7】
前記翻訳ユニットは、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得することを特徴とする請求項に記載の訓練装置。
【請求項8】
前記モデル訓練ユニットは、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、
前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されないことを特徴とする請求項に記載の訓練装置。
【請求項9】
前記Nグラムは、2グラム、3グラム又は4グラムであることを特徴とする請求項のいずれか1項に記載の訓練装置。
【請求項10】
前記ニューラル機械翻訳モデルは、seq2seqモデル、convS2Sモデル又はtransformerモデルであることを特徴とする請求項に記載の訓練装置。
【請求項11】
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサに実行されると、請求項1〜のいずれか一項に記載のニューラル機械翻訳モデルの訓練方法のステップが実現されることを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は自然言語処理(NLP、 Natural Language Processing)におけるニューラル機械翻訳技術分野に関し、具体的にはニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体に関する。
【背景技術】
【0002】
ニューラル機械翻訳(NMT、 Neural Machine Translation)はニューラルネットワークを直接に用いてエンドツーエンド方式で翻訳モデリングを行う機械翻訳方法を指す。ディープランニング技術を利用して従来の統計機械翻訳におけるあるモジュールを完璧にする方法と異なり、ニューラル機械翻訳はシンプルで直観的な方法を用いて翻訳作業を実現する。まず、エンコーダ(Encoder)と呼ばれるニューラルネットワークを用いてソース言語センテンスを密集ベクトルに符号化し、次に、デコーダ(Decoder)と呼ばれるニューラルネットワークを用いて該ベクトルからターゲット言語センテンスを復号する。上記ニューラルネットワークモデルは一般的には「エンコーダ-デコーダ(Encoder-Decoder)」構造と呼ばれる。
【0003】
従来技術は、機械翻訳品質を評価するために、二言語相互翻訳品質評価(BLEU、 Blingual Evaluation Understudy)アルゴリズムを使用することが多い。BLEUアルゴリズムの設計思想は機械翻訳の良否を判断する考え方と一致する。即ち、機械翻訳結果が専門的な人工翻訳の結果に近ければ近いほど、翻訳品質が良好である。Nグラム(N-gram)は統計言語モデルであり、該モデルは一つのセンテンスをN個の連続する単語から構成される単語列で表示することができる。コンテキストにおける隣接単語間の組み合わせ情報を利用してセンテンスの確率を計算することにより、この一つのセンテンスのロジックが順当か否かを判断する。BLEUアルゴリズムはN-gramのマッチングルールを用いる。それによって予測訳文と参照訳文とにおけるNグラム類似の占有率を計算し、さらに機械翻訳品質の評価指標を得ることができる。
【0004】
現在のところ、一般的なNMTモデルは系列‐系列(seq2seq)モデル、畳み込み系列−系列(convS2S)モデルおよびtransformerモデルがある。これらの従来技術はニューラル機械モデル自体を改善することによって機械翻訳性能を向上させている。このため、従来のニューラル機械翻訳の翻訳性能をさらに向上させ、ソース言語とターゲット言語との間の翻訳をより正確に実現することは、当技術分野において早急に解決しようとする技術的課題である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の実施例は上記の技術的な課題を鑑みて、ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体を提供し、ニューラル機械翻訳の翻訳性能を向上させる。
【課題を解決するための手段】
【0006】
上記技術的な問題を解決するために、本発明の実施例は、ニューラル機械翻訳モデルの訓練方法であって、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算するステップであって、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、Nは2以上である、ステップと、前記Nグラムから前記出現頻度が所定閾値より高い高頻度Nグラムを選択し、所定の区切り記号により、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語に合成し、更新されたターゲットセンテンスコーパスを取得するステップと、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップと、を含むことを特徴とする訓練方法を提供する。
【0007】
好ましくは、ニューラル機械翻訳モデルを訓練した後に、訓練されたニューラル機械翻訳モデルを用いて、翻訳すべきセンテンスを翻訳して予測センテンスを取得するステップと、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットした後に、前記予測センテンスを出力するステップと、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力するステップと、をさらに含む。
【0008】
好ましくは、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットするステップは、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得するステップ、を含む。
【0009】
好ましくは、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップは、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練するステップ、を含み、前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されない。
【0010】
好ましくは、前記Nグラムは、2グラム、3グラム又は4グラムである。
【0011】
好ましくは、前記ニューラル機械翻訳モデルは、seq2seqモデル、convS2Sモデル又はtransformerモデルである。
【0012】
また、本発明の実施例は、ニューラル機械翻訳モデルの訓練装置であって、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算する頻度計算ユニットであって、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、Nは2以上である、頻度計算ユニットと、前記Nグラムから前記出現頻度が所定閾値より高い高頻度Nグラムを選択し、所定の区切り記号により、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語に合成し、更新されたターゲットセンテンスコーパスを取得する単語セットユニットと、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するモデル訓練ユニットと、を含む訓練装置を提供する。
【0013】
好ましくは、前記訓練装置は、前記モデル訓練ユニットにより訓練されたニューラル機械翻訳モデルを用いて、翻訳すべきセンテンスを翻訳して予測センテンスを取得し、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットした後に、前記予測センテンスを出力し、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する翻訳ユニット、をさらに含む。
【0014】
好ましくは、前記訓練装置において、前記翻訳ユニットは、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得する。
【0015】
好ましくは、前記訓練装置において、前記モデル訓練ユニットは、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されない。
【0016】
好ましくは、前記訓練装置において、前記Nグラムは、2グラム、3グラム又は4グラムである。
【0017】
好ましくは、前記訓練装置において、前記ニューラル機械翻訳モデルは、seq2seqモデル、convS2Sモデル又はtransformerモデルである。
【0018】
更に、本発明の実施例は、ニューラル機械翻訳モデルの訓練装置を提供し、メモリと、プロセッサと、前記メモリに記憶されるコンピュータプログラムとを含み、前記コンピュータプログラムがプロセッサに実行されると、上記ニューラル機械翻訳モデルの訓練方法におけるステップが実現されることを特徴とする装置を提供する。
【0019】
最後に、本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサに実行されると、上記ニューラル機械翻訳モデルの訓練方法のステップが実現されることを特徴とする記憶媒体を提供する。
【0020】
従来技術に比べて、本発明の実施例が提供するニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体は、ニューラル機械翻訳モデルの訓練過程において、ターゲットセンテンスコーパスにおいて発生頻度が所定の閾値よりも高い高頻度Nグラムを分割不可な単語として訓練することにより、訓練されたニューラル機械翻訳モデルを用いて実際の翻訳を行い、得られた予測センテンスに含まれる高頻度NグラムをN個の単語に分割することで、正しく翻訳された単語から構成されるより多くのNグラムを含む翻訳結果が得られる。それにより、ニューラル機械翻訳の採点結果が向上され、機械翻訳品質が向上される。
【図面の簡単な説明】
【0021】
本発明の実施例の技術的解決手段をより明確に説明するために、以下では本発明の実施例の説明に必要な図面を簡単に説明し、明らかなように、以下の説明における図面は本発明のいくつかの実施例に過ぎず、当業者にとっては、創造的な労力を払うことなく、さらにこれら図面に基づいて他の図面を取得することができる。
図1図1は本発明の実施例にかかるニューラル機械翻訳モデルの訓練方法を示すフローチャートである。
図2図2は本発明の実施例にかかるニューラル機械翻訳モデルの訓練方法を示す別のフローチャートである。
図3図3は本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置の構造を概略的に示す図である。
図4図4は本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置の別の構造を概略的に示す図である。
図5図5は本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置のさらに別の構造を概略的に示す図である。
【発明を実施するための形態】
【0022】
本発明が解決しようとする技術的問題、技術的解決手段及び利点をより明確にするために、以下では図面及び具体的な実施例を参照しながら詳細に説明する。以下の説明では、特定の構成および構成要素などの特定の詳細は、本発明の実施形態を完全に理解するのを助けるために提供される。したがって、本発明の範囲および精神から逸脱することなく、本明細書に記載される実施形態に様々な変更および修正を加えることができることが当業者には明らかであろう。また、公知の機能及び構成について、簡潔にするために、その説明を省略する。
【0023】
本明細書全体を通して言及される「一つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本発明の少なくとも1つの実施例に含まれることを意味することが理解されるべきである。したがって、明細書全体を通して出現する「一つの実施例では」または「一実施例では」という用語は必ずしも同じ実施例を指すものではない。さらに、これらの特定の特徴、構造や特性は、任意で適切な方法で1つまたは複数の実施例に組み込むことができる。
【0024】
本発明の様々な実施例において、以下の各プロセスの番号の大きさは実行順序の前後を意味するものではないと理解されるべきである。各プロセスの実行順序はその機能または固有な論理によって決定されるものであり、本発明の実施例にかかる実施プロセスを限定するものでもない。
【0025】
図1は本発明の実施例より提供されるニューラル機械翻訳モデルの訓練方法を示すフローチャートである。該ニューラル機械翻訳モデルの訓練方法は訓練して得られたニューラル機械翻訳モデルの翻訳性能を向上させることができる。具体的には、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデル、畳み込み系列−系列(convS2S)モデル又はtransformerモデルである。当然ながら、本発明の実施例はさらに他のタイプのニューラル機械翻訳モデルを適用することができる。本発明はこれを詳細に限定しない。図1に示すように、本発明の実施例より提供されるニューラル機械翻訳モデルの訓練方法は以下を含む。
【0026】
ステップ101で、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算し、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、前記Nは2以上である。
【0027】
ニューラル機械翻訳モデルの訓練過程において、訓練コーパスは一般的にソースセンテンスコーパス及びターゲットセンテンスコーパスを含む。ソースセンテンスコーパスは複数のソース言語のソースセンテンスを含み、ターゲットセンテンスコーパスは複数のターゲット言語のターゲットセンテンスを含む。ソースセンテンス毎には該当ソースセンテンスに対応するターゲットセンテンスが存在し、両者は一つの平行なコーパスを構成する。本発明の実施例は上記ステップ101において、ターゲットセンテンスコーパスにおける各種のNグラムの出現頻度を計算する。例えば、ターゲットセンテンスのコーパスに100万個のターゲットセンテンスが含まれるとし、あるNグラムはこれらのターゲットセンテンスにおいて合計2万回出現し、該Nグラムの出現頻度は2/100=0.02である。当然のことながら、出現頻度は出現回数に応じて統計することができ、この場合、該Nグラムの出現頻度は20万回である。
【0028】
ここで、Nグラムに関する概念について、従来技術の関連説明を参照することができる。通常、前記Nグラムは対応するセンテンスにおいてN個の連続する単語であってもよく、N個の連続する単語及び句読点であってもよい。これらの単語及び句読点はセンテンスの中で連続すればよく、紙面を節約するために、ここでは詳細な説明を省略する。好ましくは、Nは2以上の整数であり、例えば、2、3又は4の値を取る。当然ながら、他のより大きな数値であってもよい。好ましい実施形態として、BLEUアルゴリズムでは一般的に4グラムを用いて機械翻訳性能を評価するため、本発明の実施例ではNグラムは4グラムであることが好ましい。ターゲット言語が英語であることを例とする場合に、ターゲットセンテンスである「it is said that it will rain tomorrow」に、Nグラムは「it is said that」、「is said that it」、「said that it will」…「it will rain tomorrow」等複数ある。本発明の実施例は、そのうちの「it is said that」に対して、当該4グラムがターゲットセンテンスコーパスのすべてのターゲットセンテンスにおける出現頻度を計算する。
【0029】
ステップ102で、前記Nグラムから前記出現頻度が予め設定された閾値より高い高頻度Nグラムを選択し、且つ所定の区切り記号を介して、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語として構成することにより、更新されたターゲットセンテンスコーパスを得る。
【0030】
ここで、本発明の実施例はNグラムの出現頻度が予め設定された閾値より高いかどうかに基づいて、Nグラムが高頻度Nグラムであるか否かを決定する。高頻度Nグラムは該Nグラムがターゲットセンテンスコーパスにおいて頻繁に出現することを意味する。このため、該Nグラムはしばしば一体として使用される。以上の要因を考慮し、本発明の実施例は高頻度Nグラムを一つの分割不可な一体化単語として構成する。前記分割不可はニューラル機械翻訳モデルの訓練過程において該一体化単語がさらに小さいサブワードに分割されることを禁止することを意味する。
【0031】
モデル訓練の際に、上記高頻度Nグラムからなる一体化単語の識別を容易にするために、本発明の実施例は所定の区切り記号を用いて高頻度Nグラム内の各単語を連結して、一つの一体化単語を形成する。例えば、「@_」をNグラム内の各単語を接続するため区切り記号として使用することができる。上記の「it is said that」を例にとると、上述の区切り記号によって、「it@_is@_said@_that」という一体化単語が得られる。以上の処理により、本発明の実施例はターゲットセンテンスコーパスにおける各ターゲットセンテンスに存在する高頻度Nグラムを一体化単語とすることにより、ターゲットセンテンスコーパスの更新を実現する。当然ながら、あるターゲットセンテンスに高頻度Nグラムが存在しない場合には、上記の処理を行う必要がない。
【0032】
なお、後続のニューラル機械翻訳モデルの訓練過程において採用される単語分割アルゴリズムは特定の区切り記号を使用する場合がある。ステップ102での前記所定の区切り記号は上記単語分割アルゴリズムで使用する区切り記号とは区別する必要があり、即ち、それと異なる区切り記号を使用する。例えば、バイトペアエンコーダ(BPE、 Byte Pair Encoder)アルゴリズムを例にとると、BPEでは「@@」を区切り記号として用いた場合、後続する訓練モデルがBPEアルゴリズムを採用すると、ステップ102において所定の区切り記号は「@@」と異なる区切り記号を用いる必要がある。
【0033】
ステップ103で、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練する。
【0034】
上記ステップ103において、本発明の実施例は更新されたターゲットセンテンスコーパスとオリジナルのソースセンテンスコーパスを利用し、ニューラル機械翻訳モデルを訓練し、 ソース言語からターゲット言語への翻訳用の訓練済みの最終ニューラル機械翻訳モデルを得る。
【0035】
上記訓練過程において、本発明の実施例は、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練する。その中で、前記ターゲットセンテンスに高頻度Nグラムにより構成される一体化単語が存在する場合、訓練過程において、該一体化単語の分割を禁止する。すなわち、訓練過程において、ターゲットセンテンスに前記一体化単語が存在する場合、該一体化単語に対して更なる分割を行わない。
【0036】
なお、本発明の実施例はニューラル機械翻訳モデルに適用されることができる。例えば、上記ステップ103において、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデル、畳み込み系列−系列(convS2S)モデル又はtransformerモデルである。他のタイプのニューラル機械翻訳モデルを適用することもできるが、本発明はこれを詳細に限定しない。
【0037】
以上のステップにより、本発明の実施例は、高頻度Nグラムにより構成される一体化単語を利用してニューラル機械翻訳モデルの訓練を行い、訓練過程において高頻度Nグラムが一体として訓練することを保証される。このように訓練されたニューラル機械翻訳モデルは実際の翻訳時に多くの高頻度Nグラムを含む翻訳結果を得ることにより、ニューラル機械翻訳の採点結果が向上され、機械翻訳品質が向上される。
【0038】
本発明の実施例にかかるニューラル機械翻訳モデルの訓練方法は、以上のステップ101〜103により、より高い翻訳性能を有するニューラル機械翻訳モデルを得ることができる。その後に訓練された前記ニューラル機械翻訳モデルを利用してソース言語からターゲット言語への翻訳を行うことができる。
【0039】
図2は本発明の実施例が提供するニューラル機械翻訳モデルの訓練方法を示す。上記ステップ103の後に、さらに以下のステップを含む。
【0040】
ステップ104で、訓練されたニューラル機械翻訳モデルを用いて、翻訳対象である翻訳センテンスを翻訳して予測センテンスを得る。
【0041】
ステップ105で、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離するN個の単語にリセットした後に、前記予測センテンスを出力する。
【0042】
ステップ106で、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する。
【0043】
以上のステップ104において、ステップ103で得たニューラル機械翻訳モデルを利用して翻訳を行い、翻訳された予測センテンスには高頻度Nグラムで構成される一体化単語が含まれる場合がある。このため、本発明の実施例はステップ105で、その中に存在する可能性がある一体化単語をさらに分割する。具体的には、前記一体化単語における所定の区切り記号に基づいて、隣接する単語間の分割点を確定し、前記予測センテンスに存在する前記一体化単語に対してさらに分割を行うことにより、N個の単語が得られる。もちろん、前記予測センテンスに前記一体化単語が存在しない場合には、ステップ106で該予測センテンスをそのまま出力する。
【0044】
以上のステップにより、本発明の実施例は訓練されたニューラル機械翻訳モデルによる翻訳応用を実現する。予めト訓練されたニューラル機械翻訳モデルは、実際の翻訳時により多くのNグラムを含む翻訳結果を得ることにより、ニューラル機械翻訳のスコア結果が向上され、機械翻訳品質が向上される。
【0045】
以上の方法に基づき、本発明の実施例はさらに上記方法を実施する装置を提供する。図3に示すように、本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置300は、以下のユニットを含む。
【0046】
頻度計算ユニット301は、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算し、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、前記Nは2以上である。
【0047】
単語セットユニット302は、前記Nグラムから前記出現頻度が予め設定された閾値より高い高頻度Nグラムを選択し、且つ所定の区切り記号を介して、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語として構成することにより、更新されたターゲットセンテンスコーパスを得る。
【0048】
モデル訓練ユニット303は、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練する。
【0049】
以上のユニットにより、本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置300は、高頻度Nグラムにより構成される一体化単語を利用してニューラル機械翻訳モデルの訓練を行い、訓練過程において高頻度Nグラムが一体として訓練することを保証される。このように訓練されたニューラル機械翻訳モデルは実際の翻訳時に多くの高頻度Nグラムを含む翻訳結果を得ることにより、ニューラル機械翻訳の採点結果が向上され、機械翻訳品質が向上される。
【0050】
好ましくは、前記モデル訓練ユニット303は、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、その中で、前記ターゲットセンテンスに存在する前記一体化単語の分割は訓練過程において禁止される。
【0051】
好ましくは、前記Nグラムは2グラムまたは3グラム若しくは4グラムである。
【0052】
好ましくは、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデルまたは畳み込み系列−系列(convS2S)モデル若しくはtransformerモデルである。
【0053】
好ましくは、図4に示すように、前記ニューラル機械翻訳モデルの訓練装置300は、更に、前記モデル訓練ユニット303により訓練されたニューラル機械翻訳モデルを用いて、翻訳対象である翻訳センテンスを翻訳して予測センテンスを得;前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離するN個の単語にリセットした後に、前記予測センテンスを出力し;前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する翻訳ユニット304を含む。
【0054】
好ましくは、翻訳ユニット304は、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行うことにより、N個の単語が得られる。
【0055】
図5は本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置のハードウェア構成の一例を示すブロック図である。図5に示すように、該ニューラル機械翻訳モデルの訓練装置500は、プロセッサ502と、コンピュータプログラム指令が記憶されるメモリ504と、を含む。前記コンピュータプログラム指令が前記プロセッサ502によって実行されると、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算し、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、前記Nは2以上であり;前記Nグラムから前記出現頻度が予め設定された閾値より高い高頻度Nグラムを選択し、且つ所定の区切り記号を介して、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語として構成することにより、更新されたターゲットセンテンスコーパスを得;ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップが実行される。
【0056】
また、図5に示すように、該ニューラル機械翻訳モデルの訓練装置500はさらにネットワークインターフェース501、入力装置503、ハードディスク505、及び表示装置506を含む。
【0057】
上記各インターフェースはバスアーキテクチャを介してそれぞれ各装置に接続される。バスアーキテクチャは任意の数の相互接続を含むことができるバスとブリッジである。具体的に、プロセッサ502に代表される1つ又は複数の中央処理器(CPU)と、メモリ504が代表される1つまたは複数のメモリの各種回路が接続される。また、バスアーキテクチャより、例えば外付け機器、レギュレータ―及び電力管理回路などの他の様々な回路が接続される。このように、バスアーキテクチャよりこれらの機器が通信可能に接続される。バスアーキテクチャは、データバス以外に、電源バス、制御バス及び状態信号バスを含む。これらは本発明分野の公知技術であり、本文において詳細な説明を省略する。
【0058】
前記ネットワークインターフェース501は、ネットワーク(例えば、インターネットやLANなど)に接続され、ネットワークからソースセンテンスコーパス及びターゲットセンテンスコーパスを集め、ハードディスク505に記憶させるインターフェースである。
【0059】
前記入力装置503はユーザより入力される各種指令を受け付け、プロセッサ502に送信して実行させる手段である。また、入力装置503はキーボードやクリック手段(例えば、マウス、トラックボール、タッチボード)等がある。
【0060】
前記表示装置506はプロセッサ502が指令を実行した結果を表示する手段である。例えば、モデル訓練の進捗や翻訳するセンテンスの翻訳結果等を表示する。
【0061】
前記メモリ504はオペレティングシステム(OS)実行に必要なプログラムとデータ、及びプロセッサ502の計算過程における中間結果等のデータを記憶するメモリである。
【0062】
本発明の実施例にかかるメモリ504は揮発性メモリ又は非揮発性メモリ、もしくは揮発性と非揮発性の両方を含むメモリである。その中に、非揮発性メモリはROM、PROM、EPROM、EEPROM、フラッシュメモリである。揮発性メモリはRAMであり、外部キャッシュとして使用される。しかし、本明細書に記載される装置及び方法に用いったメモリ504はこれらのメモリに限定されず、他の適切なタイプのメモリでもよい。
【0063】
一部の実施形態において、メモリ504に、実行可能なモジュール又はデータ構成若しくはこれらのサブモジュールや拡張モジュールであるオペレティングシステム(OS)5041及びアプリケーションプログラム(APP)5042が記憶される。
【0064】
その中に、オペレティングシステム5041は、各種システムプログラム、例えばフレームワーク層、コアライブラリ層、駆動層を含み、様々な基幹業務やハードウェアベースのタスクを実現するために用いられる。アプリケーションプログラム442は各種アプリケーションプログラム、例えばウェブブラウザ―(Browser)等を含み、様々なアプリケーション業務を実現するためのものである。本実施例にかかる方法を実行するプログラムはアプリケーションプログラム5042に含む。
【0065】
上記本発明の実施例にかかる方法は、プロセッサ402に適用され、またはプロセッサ402によって実現される。プロセッサ502は信号を処理する能力を持つ集積回路基板である。上記方法の各ステップはプロセッサ502におけるハードウェアである集積論理回路又はソフトウェア形式の指令によって実現される。上記プロセッサ502は汎用プロセッサ、デジタル信号処理装置(DSP)、専用集積回路(ASIC)、既製プログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェア部品であり、本発明の実施例に開示される各方法、ステップ及び論理ボックスを実現又は実行可能なものである。汎用処理器はマイクロプロセッサ又は任意の一般処理器などである。本発明の実施例にかかる方法の各ステップは、ハードウェアであるデコーダにより実行されることで実現されてもよく、または、デコーダにお行けるハードウェアとソフトウェアとの組み合わせによって実現されても良い。ソフトウェアモジュールはランダムメモリ、フラッシュメモリ、読出し専用メモリ、プログラマブル読出し専用メモリ、あるいは電気的消去可能なプログラマブルメモリ、レジスタなど、本分野で成熟した記憶媒体に記憶される。このソフトウェアが記憶される記憶媒体を備えるメモリ504から、プロセッサ502は情報を読み取り、ハードウェアに合わせて上記方法のステップを実現させる。
【0066】
以上に説明した実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実現される。その中に、ハードウェアの実現に関して、処理ユニットは一つまたは複数の専用集積回路(ASIC)、デジタル信号処理プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラム可能論理回路 (PLD)、フィールドプログラマブルゲートアレイ(FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本発明の機能を実行する他の電子ユニット或はその組合せにより実現される。
【0067】
また、ソフトウェアの実現に関しては、以上で説明した機能を実現するモジュール(たとえばプロセス、関数など)により上記技術が実現される。ソフトウェアコードは、メモリに保存され、プロセッサによって実行される。なお、メモリはプロセッサの内部または外部で実現される。
【0068】
具体的に、前記コンピュータプログラムがプロセッサ502により実行される時に、ニューラル機械翻訳モデルを訓練した後に、訓練されたニューラル機械翻訳モデルを用いて、翻訳対象である翻訳センテンスを翻訳して予測センテンスを得;前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離するN個の単語にリセットした後に、前記予測センテンスを出力し;前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力するステップを含む。
【0069】
具体的に、前記コンピュータプログラムがプロセッサ502により実行される時に、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行うことにより、N個の単語が得られるステップを含む。
【0070】
具体的に、前記コンピュータプログラムがプロセッサ502により実行される時に、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、その中で、前記ターゲットセンテンスに存在する前記一体化単語の分割は訓練過程において禁止される。
【0071】
好ましくは、前記Nグラムは2グラムまたは3グラム若しくは4グラムである。
【0072】
好ましくは、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデルまたは畳み込み系列−系列(convS2S)モデル若しくはtransformerモデルである。
【0073】
本発明の技術分野の当業者は、以上で開示された実施例に記載された各例のユニットおよびアルゴリズムのステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現されることが容易に想到される。これらの機能はハードウェアまたはソフトウェアのいずれかで実行することは、発明の特定的な適用や設計制約に依存する。当業者が特定の適用に応じた方法で上記の機能を実現させることができるが、本発明の範囲を超えるべきではない。
【0074】
また、説明上便宜と簡潔性のため、上記のシステム、装置及びユニットの具体的な作業過程に関して、上記した実施例中の対応過程に参照することができることが、当業者とって明らかであるために、詳細な説明を省略する。
【0075】
本願で提供される実施例において、理解すべきことは、開示された装置及び方法は、他の方式で実現されてもよいことである。例えば、以上に説明された装置実施例は概略的なものであり、例えば、前記ユニットの分割は、論理機能分割のみであり、実際に実現する時に別の分割方式を有することができ、例えば複数のユニット又は構成要素を組み合わせ又は集積することができ又はいくつかの特徴を無視することができ、又は実行しないことができる。また、表示又は議論された相互間の結合又は直接結合若しくは通信接続はいくつかのインターフェース、装置又はユニットの間接結合又は通信接続であってもよく、電気的であってもよく、機械的又は他の形式であってもよい。
【0076】
分離部品として説明されたユニットは、物理的に別個であってもなくてもよい。ユニットとして表示される部品は、物理ユニットであってもよく又は物理ユニットでなくてもよく、すなわち一つの場所に位置してもよく、又は複数のネットワークユニットに分散されてもよい。実際のニーズに応じてその中の一部又は全部のユニットを選択して本発明の実施例の解決手段を実現することができる。
【0077】
なお、本発明の実施例にかかる各機能的ユニットは、1つの処理ユニットに集約しても良く、物理的に単独でもよく、2つ以上で一つのユニットとして集約してもよい。
【0078】
前記機能は、ソフトウェア機能ユニットの形で実現し、且つ、独立製品として販売または使用する場合に、コンピュータ読取り可能な記憶媒体に記憶することができる。この場合に、本発明の技術方案は本質的、または従来技術に貢献する部分若しくは前記技術方案の部分はソフトウェア製品の形で表現される。前記コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ装置(パーソナルコンピュータ、サーバ、或はネットワークデバイスなど)により本発明の各実施例にかかる前記方法の全部或は一部のステップを実行させる複数の指令を含む。なお、前述の記憶媒体は、USBメモリ、リムーバブルディスク、ROM、RAM、磁気ディスク、あるいは光ディスクなど、プログラムコードを格納できる様々な媒体を含む。
【0079】
以上のように、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されるものではなく、当業者が本発明に開示する技術範囲内で、容易に変更又は置換することができ、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の保護範囲を基準とすべきである。
図1
図2
図3
図4
図5