(58)【調査した分野】(Int.Cl.,DB名)
前記翻訳ユニットは、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得することを特徴とする請求項6に記載の訓練装置。
前記モデル訓練ユニットは、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、
前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されないことを特徴とする請求項6に記載の訓練装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の実施例は上記の技術的な課題を鑑みて、ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体を提供し、ニューラル機械翻訳の翻訳性能を向上させる。
【課題を解決するための手段】
【0006】
上記技術的な問題を解決するために、本発明の実施例は、ニューラル機械翻訳モデルの訓練方法であって、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算するステップであって、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、Nは2以上である、ステップと、前記Nグラムから前記出現頻度が所定閾値より高い高頻度Nグラムを選択し、所定の区切り記号により、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語に合成し、更新されたターゲットセンテンスコーパスを取得するステップと、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップと、を含むことを特徴とする訓練方法を提供する。
【0007】
好ましくは、ニューラル機械翻訳モデルを訓練した後に、訓練されたニューラル機械翻訳モデルを用いて、翻訳すべきセンテンスを翻訳して予測センテンスを取得するステップと、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットした後に、前記予測センテンスを出力するステップと、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力するステップと、をさらに含む。
【0008】
好ましくは、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットするステップは、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得するステップ、を含む。
【0009】
好ましくは、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップは、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練するステップ、を含み、前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されない。
【0010】
好ましくは、前記Nグラムは、2グラム、3グラム又は4グラムである。
【0011】
好ましくは、前記ニューラル機械翻訳モデルは、seq2seqモデル、convS2Sモデル又はtransformerモデルである。
【0012】
また、本発明の実施例は、ニューラル機械翻訳モデルの訓練装置であって、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算する頻度計算ユニットであって、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、Nは2以上である、頻度計算ユニットと、前記Nグラムから前記出現頻度が所定閾値より高い高頻度Nグラムを選択し、所定の区切り記号により、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語に合成し、更新されたターゲットセンテンスコーパスを取得する単語セットユニットと、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するモデル訓練ユニットと、を含む訓練装置を提供する。
【0013】
好ましくは、前記訓練装置は、前記モデル訓練ユニットにより訓練されたニューラル機械翻訳モデルを用いて、翻訳すべきセンテンスを翻訳して予測センテンスを取得し、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離的なN個の単語にリセットした後に、前記予測センテンスを出力し、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する翻訳ユニット、をさらに含む。
【0014】
好ましくは、前記訓練装置において、前記翻訳ユニットは、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行い、N個の単語を取得する。
【0015】
好ましくは、前記訓練装置において、前記モデル訓練ユニットは、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、前記ターゲットセンテンスに存在する前記一体化単語は、訓練において分割されない。
【0016】
好ましくは、前記訓練装置において、前記Nグラムは、2グラム、3グラム又は4グラムである。
【0017】
好ましくは、前記訓練装置において、前記ニューラル機械翻訳モデルは、seq2seqモデル、convS2Sモデル又はtransformerモデルである。
【0018】
更に、本発明の実施例は、ニューラル機械翻訳モデルの訓練装置を提供し、メモリと、プロセッサと、前記メモリに記憶されるコンピュータプログラムとを含み、前記コンピュータプログラムがプロセッサに実行されると、上記ニューラル機械翻訳モデルの訓練方法におけるステップが実現されることを特徴とする装置を提供する。
【0019】
最後に、本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサに実行されると、上記ニューラル機械翻訳モデルの訓練方法のステップが実現されることを特徴とする記憶媒体を提供する。
【0020】
従来技術に比べて、本発明の実施例が提供するニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体は、ニューラル機械翻訳モデルの訓練過程において、ターゲットセンテンスコーパスにおいて
発生頻度が所定の閾値よりも高い高頻度Nグラムを分割不可な単語として訓練することにより、訓練されたニューラル機械翻訳モデルを
用いて実際の翻訳
を行い、得られた予測センテンスに含まれる高頻度NグラムをN個の単語に分割することで、正しく翻訳された単語から構成されるより多くのNグラムを含む翻訳結果が得られる。それにより、ニューラル機械翻訳の採点結果が向上され、機械翻訳品質が向上される。
【発明を実施するための形態】
【0022】
本発明が解決しようとする技術的問題、技術的解決手段及び利点をより明確にするために、以下では図面及び具体的な実施例を参照しながら詳細に説明する。以下の説明では、特定の構成および構成要素などの特定の詳細は、本発明の実施形態を完全に理解するのを助けるために提供される。したがって、本発明の範囲および精神から逸脱することなく、本明細書に記載される実施形態に様々な変更および修正を加えることができることが当業者には明らかであろう。また、公知の機能及び構成について、簡潔にするために、その説明を省略する。
【0023】
本明細書全体を通して言及される「一つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が、本発明の少なくとも1つの実施例に含まれることを意味することが理解されるべきである。したがって、明細書全体を通して出現する「一つの実施例では」または「一実施例では」という用語は必ずしも同じ実施例を指すものではない。さらに、これらの特定の特徴、構造や特性は、任意で適切な方法で1つまたは複数の実施例に組み込むことができる。
【0024】
本発明の様々な実施例において、以下の各プロセスの番号の大きさは実行順序の前後を意味するものではないと理解されるべきである。各プロセスの実行順序はその機能または固有な論理によって決定されるものであり、本発明の実施例にかかる実施プロセスを限定するものでもない。
【0025】
図1は本発明の実施例より提供されるニューラル機械翻訳モデルの訓練方法を示すフローチャートである。該ニューラル機械翻訳モデルの訓練方法は訓練して得られたニューラル機械翻訳モデルの翻訳性能を向上させることができる。具体的には、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデル、畳み込み系列−系列(convS2S)モデル又はtransformerモデルである。当然ながら、本発明の実施例はさらに他のタイプのニューラル機械翻訳モデルを適用することができる。本発明はこれを詳細に限定しない。
図1に示すように、本発明の実施例より提供されるニューラル機械翻訳モデルの訓練方法は以下を含む。
【0026】
ステップ101で、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算し、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、前記Nは2以上である。
【0027】
ニューラル機械翻訳モデルの訓練過程において、訓練コーパスは一般的にソースセンテンスコーパス及びターゲットセンテンスコーパスを含む。ソースセンテンスコーパスは複数のソース言語のソースセンテンスを含み、ターゲットセンテンスコーパスは複数のターゲット言語のターゲットセンテンスを含む。ソースセンテンス毎には該当ソースセンテンスに対応するターゲットセンテンスが存在し、両者は一つの平行なコーパスを構成する。本発明の実施例は上記ステップ101において、ターゲットセンテンスコーパスにおける各種のNグラムの出現頻度を計算する。例えば、ターゲットセンテンスのコーパスに100万個のターゲットセンテンスが含まれるとし、あるNグラムはこれらのターゲットセンテンスにおいて合計2万回出現し、該Nグラムの出現頻度は2/100=0.02である。当然のことながら、出現頻度は出現回数に応じて統計することができ、この場合、該Nグラムの出現頻度は20万回である。
【0028】
ここで、Nグラムに関する概念について、従来技術の関連説明を参照することができる。通常、前記Nグラムは対応するセンテンスにおいてN個の連続する単語であってもよく、N個の連続する単語及び句読点であってもよい。これらの単語及び句読点はセンテンスの中で連続すればよく、紙面を節約するために、ここでは詳細な説明を省略する。好ましくは、Nは2以上の整数であり、例えば、2、3又は4の値を取る。当然ながら、他のより大きな数値であってもよい。好ましい実施形態として、BLEUアルゴリズムでは一般的に4グラムを用いて機械翻訳性能を評価するため、本発明の実施例ではNグラムは4グラムであることが好ましい。ターゲット言語が英語であることを例とする場合に、ターゲットセンテンスである「it is said that it will rain tomorrow」に、Nグラムは「it is said that」、「is said that it」、「said that it will」…「it will rain tomorrow」等複数ある。本発明の実施例は、そのうちの「it is said that」に対して、当該4グラムがターゲットセンテンスコーパスのすべてのターゲットセンテンスにおける出現頻度を計算する。
【0029】
ステップ102で、前記Nグラムから前記出現頻度が予め設定された閾値より高い高頻度Nグラムを選択し、且つ所定の区切り記号を介して、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語として構成することにより、更新されたターゲットセンテンスコーパスを得る。
【0030】
ここで、本発明の実施例はNグラムの出現頻度が予め設定された閾値より高いかどうかに基づいて、Nグラムが高頻度Nグラムであるか否かを決定する。高頻度Nグラムは該Nグラムがターゲットセンテンスコーパスにおいて頻繁に出現することを意味する。このため、該Nグラムはしばしば一体として使用される。以上の要因を考慮し、本発明の実施例は高頻度Nグラムを一つの分割不可な一体化単語として構成する。前記分割不可はニューラル機械翻訳モデルの訓練過程において該一体化単語がさらに小さいサブワードに分割されることを禁止することを意味する。
【0031】
モデル訓練の際に、上記高頻度Nグラムからなる一体化単語の識別を容易にするために、本発明の実施例は所定の区切り記号を用いて高頻度Nグラム内の各単語を連結して、一つの一体化単語を形成する。例えば、「@_」をNグラム内の各単語を接続するため区切り記号として使用することができる。上記の「it is said that」を例にとると、上述の区切り記号によって、「it@_is@_said@_that」という一体化単語が得られる。以上の処理により、本発明の実施例はターゲットセンテンスコーパスにおける各ターゲットセンテンスに存在する高頻度Nグラムを一体化単語とすることにより、ターゲットセンテンスコーパスの更新を実現する。当然ながら、あるターゲットセンテンスに高頻度Nグラムが存在しない場合には、上記の処理を行う必要がない。
【0032】
なお、後続のニューラル機械翻訳モデルの訓練過程において採用される単語分割アルゴリズムは特定の区切り記号を使用する場合がある。ステップ102での前記所定の区切り記号は上記単語分割アルゴリズムで使用する区切り記号とは区別する必要があり、即ち、それと異なる区切り記号を使用する。例えば、バイトペアエンコーダ(BPE、 Byte Pair Encoder)アルゴリズムを例にとると、BPEでは「@@」を区切り記号として用いた場合、後続する訓練モデルがBPEアルゴリズムを採用すると、ステップ102において所定の区切り記号は「@@」と異なる区切り記号を用いる必要がある。
【0033】
ステップ103で、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練する。
【0034】
上記ステップ103において、本発明の実施例は更新されたターゲットセンテンスコーパスとオリジナルのソースセンテンスコーパスを利用し、ニューラル機械翻訳モデルを訓練し、 ソース言語からターゲット言語への翻訳用の訓練済みの最終ニューラル機械翻訳モデルを得る。
【0035】
上記訓練過程において、本発明の実施例は、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練する。その中で、前記ターゲットセンテンスに高頻度Nグラムにより構成される一体化単語が存在する場合、訓練過程において、該一体化単語の分割を禁止する。すなわち、訓練過程において、ターゲットセンテンスに前記一体化単語が存在する場合、該一体化単語に対して更なる分割を行わない。
【0036】
なお、本発明の実施例はニューラル機械翻訳モデルに適用されることができる。例えば、上記ステップ103において、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデル、畳み込み系列−系列(convS2S)モデル又はtransformerモデルである。他のタイプのニューラル機械翻訳モデルを適用することもできるが、本発明はこれを詳細に限定しない。
【0037】
以上のステップにより、本発明の実施例は、高頻度Nグラムにより構成される一体化単語を利用してニューラル機械翻訳モデルの訓練を行い、訓練過程において高頻度Nグラムが一体として訓練することを保証される。このように訓練されたニューラル機械翻訳モデルは実際の翻訳時に多くの高頻度Nグラムを含む翻訳結果を得ることにより、ニューラル機械翻訳の採点結果が向上され、機械翻訳品質が向上される。
【0038】
本発明の実施例にかかるニューラル機械翻訳モデルの訓練方法は、以上のステップ101〜103により、より高い翻訳性能を有するニューラル機械翻訳モデルを得ることができる。その後に訓練された前記ニューラル機械翻訳モデルを利用してソース言語からターゲット言語への翻訳を行うことができる。
【0039】
図2は本発明の実施例が提供するニューラル機械翻訳モデルの訓練方法を示す。上記ステップ103の後に、さらに以下のステップを含む。
【0040】
ステップ104で、訓練されたニューラル機械翻訳モデルを用いて、翻訳対象である翻訳センテンスを翻訳して予測センテンスを得る。
【0041】
ステップ105で、前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離するN個の単語にリセットした後に、前記予測センテンスを出力する。
【0042】
ステップ106で、前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する。
【0043】
以上のステップ104において、ステップ103で得たニューラル機械翻訳モデルを利用して翻訳を行い、翻訳された予測センテンスには高頻度Nグラムで構成される一体化単語が含まれる場合がある。このため、本発明の実施例はステップ105で、その中に存在する可能性がある一体化単語をさらに分割する。具体的には、前記一体化単語における所定の区切り記号に基づいて、隣接する単語間の分割点を確定し、前記予測センテンスに存在する前記一体化単語に対してさらに分割を行うことにより、N個の単語が得られる。もちろん、前記予測センテンスに前記一体化単語が存在しない場合には、ステップ106で該予測センテンスをそのまま出力する。
【0044】
以上のステップにより、本発明の実施例は訓練されたニューラル機械翻訳モデルによる翻訳応用を実現する。予めト訓練されたニューラル機械翻訳モデルは、実際の翻訳時により多くのNグラムを含む翻訳結果を得ることにより、ニューラル機械翻訳のスコア結果が向上され、機械翻訳品質が向上される。
【0045】
以上の方法に基づき、本発明の実施例はさらに上記方法を実施する装置を提供する。
図3に示すように、本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置300は、以下のユニットを含む。
【0046】
頻度計算ユニット301は、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算し、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、前記Nは2以上である。
【0047】
単語セットユニット302は、前記Nグラムから前記出現頻度が予め設定された閾値より高い高頻度Nグラムを選択し、且つ所定の区切り記号を介して、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語として構成することにより、更新されたターゲットセンテンスコーパスを得る。
【0048】
モデル訓練ユニット303は、ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練する。
【0049】
以上のユニットにより、本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置300は、高頻度Nグラムにより構成される一体化単語を利用してニューラル機械翻訳モデルの訓練を行い、訓練過程において高頻度Nグラムが一体として訓練することを保証される。このように訓練されたニューラル機械翻訳モデルは実際の翻訳時に多くの高頻度Nグラムを含む翻訳結果を得ることにより、ニューラル機械翻訳の採点結果が向上され、機械翻訳品質が向上される。
【0050】
好ましくは、前記モデル訓練ユニット303は、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、その中で、前記ターゲットセンテンスに存在する前記一体化単語の分割は訓練過程において禁止される。
【0051】
好ましくは、前記Nグラムは2グラムまたは3グラム若しくは4グラムである。
【0052】
好ましくは、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデルまたは畳み込み系列−系列(convS2S)モデル若しくはtransformerモデルである。
【0053】
好ましくは、
図4に示すように、前記ニューラル機械翻訳モデルの訓練装置300は、更に、前記モデル訓練ユニット303により訓練されたニューラル機械翻訳モデルを用いて、翻訳対象である翻訳センテンスを翻訳して予測センテンスを得;前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離するN個の単語にリセットした後に、前記予測センテンスを出力し;前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力する翻訳ユニット304を含む。
【0054】
好ましくは、翻訳ユニット304は、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行うことにより、N個の単語が得られる。
【0055】
図5は本発明の実施例にかかるニューラル機械翻訳モデルの訓練装置のハードウェア構成の一例を示すブロック図である。
図5に示すように、該ニューラル機械翻訳モデルの訓練装置500は、プロセッサ502と、コンピュータプログラム指令が記憶されるメモリ504と、を含む。前記コンピュータプログラム指令が前記プロセッサ502によって実行されると、Nグラムのターゲットセンテンスコーパスにおける出現頻度を計算し、前記ターゲットセンテンスコーパスは複数のターゲットセンテンスを含み、前記Nは2以上であり;前記Nグラムから前記出現頻度が予め設定された閾値より高い高頻度Nグラムを選択し、且つ所定の区切り記号を介して、前記ターゲットセンテンスに存在する前記高頻度Nグラムを一つの一体化単語として構成することにより、更新されたターゲットセンテンスコーパスを得;ソースセンテンスコーパス及び更新されたターゲットセンテンスコーパスを利用して、ニューラル機械翻訳モデルを訓練するステップが実行される。
【0056】
また、
図5に示すように、該ニューラル機械翻訳モデルの訓練装置500はさらにネットワークインターフェース501、入力装置503、ハードディスク505、及び表示装置506を含む。
【0057】
上記各インターフェースはバスアーキテクチャを介してそれぞれ各装置に接続される。バスアーキテクチャは任意の数の相互接続を含むことができるバスとブリッジである。具体的に、プロセッサ502に代表される1つ又は複数の中央処理器(CPU)と、メモリ504が代表される1つまたは複数のメモリの各種回路が接続される。また、バスアーキテクチャより、例えば外付け機器、レギュレータ―及び電力管理回路などの他の様々な回路が接続される。このように、バスアーキテクチャよりこれらの機器が通信可能に接続される。バスアーキテクチャは、データバス以外に、電源バス、制御バス及び状態信号バスを含む。これらは本発明分野の公知技術であり、本文において詳細な説明を省略する。
【0058】
前記ネットワークインターフェース501は、ネットワーク(例えば、インターネットやLANなど)に接続され、ネットワークからソースセンテンスコーパス及びターゲットセンテンスコーパスを集め、ハードディスク505に記憶させるインターフェースである。
【0059】
前記入力装置503はユーザより入力される各種指令を受け付け、プロセッサ502に送信して実行させる手段である。また、入力装置503はキーボードやクリック手段(例えば、マウス、トラックボール、タッチボード)等がある。
【0060】
前記表示装置506はプロセッサ502が指令を実行した結果を表示する手段である。例えば、モデル訓練の進捗や翻訳するセンテンスの翻訳結果等を表示する。
【0061】
前記メモリ504はオペレティングシステム(OS)実行に必要なプログラムとデータ、及びプロセッサ502の計算過程における中間結果等のデータを記憶するメモリである。
【0062】
本発明の実施例にかかるメモリ504は揮発性メモリ又は非揮発性メモリ、もしくは揮発性と非揮発性の両方を含むメモリである。その中に、非揮発性メモリはROM、PROM、EPROM、EEPROM、フラッシュメモリである。揮発性メモリはRAMであり、外部キャッシュとして使用される。しかし、本明細書に記載される装置及び方法に用いったメモリ504はこれらのメモリに限定されず、他の適切なタイプのメモリでもよい。
【0063】
一部の実施形態において、メモリ504に、実行可能なモジュール又はデータ構成若しくはこれらのサブモジュールや拡張モジュールであるオペレティングシステム(OS)5041及びアプリケーションプログラム(APP)5042が記憶される。
【0064】
その中に、オペレティングシステム5041は、各種システムプログラム、例えばフレームワーク層、コアライブラリ層、駆動層を含み、様々な基幹業務やハードウェアベースのタスクを実現するために用いられる。アプリケーションプログラム442は各種アプリケーションプログラム、例えばウェブブラウザ―(Browser)等を含み、様々なアプリケーション業務を実現するためのものである。本実施例にかかる方法を実行するプログラムはアプリケーションプログラム5042に含む。
【0065】
上記本発明の実施例にかかる方法は、プロセッサ402に適用され、またはプロセッサ402によって実現される。プロセッサ502は信号を処理する能力を持つ集積回路基板である。上記方法の各ステップはプロセッサ502におけるハードウェアである集積論理回路又はソフトウェア形式の指令によって実現される。上記プロセッサ502は汎用プロセッサ、デジタル信号処理装置(DSP)、専用集積回路(ASIC)、既製プログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェア部品であり、本発明の実施例に開示される各方法、ステップ及び論理ボックスを実現又は実行可能なものである。汎用処理器はマイクロプロセッサ又は任意の一般処理器などである。本発明の実施例にかかる方法の各ステップは、ハードウェアであるデコーダにより実行されることで実現されてもよく、または、デコーダにお行けるハードウェアとソフトウェアとの組み合わせによって実現されても良い。ソフトウェアモジュールはランダムメモリ、フラッシュメモリ、読出し専用メモリ、プログラマブル読出し専用メモリ、あるいは電気的消去可能なプログラマブルメモリ、レジスタなど、本分野で成熟した記憶媒体に記憶される。このソフトウェアが記憶される記憶媒体を備えるメモリ504から、プロセッサ502は情報を読み取り、ハードウェアに合わせて上記方法のステップを実現させる。
【0066】
以上に説明した実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実現される。その中に、ハードウェアの実現に関して、処理ユニットは一つまたは複数の専用集積回路(ASIC)、デジタル信号処理プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラム可能論理回路 (PLD)、フィールドプログラマブルゲートアレイ(FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本発明の機能を実行する他の電子ユニット或はその組合せにより実現される。
【0067】
また、ソフトウェアの実現に関しては、以上で説明した機能を実現するモジュール(たとえばプロセス、関数など)により上記技術が実現される。ソフトウェアコードは、メモリに保存され、プロセッサによって実行される。なお、メモリはプロセッサの内部または外部で実現される。
【0068】
具体的に、前記コンピュータプログラムがプロセッサ502により実行される時に、ニューラル機械翻訳モデルを訓練した後に、訓練されたニューラル機械翻訳モデルを用いて、翻訳対象である翻訳センテンスを翻訳して予測センテンスを得;前記予測センテンスに前記一体化単語が存在する場合、前記予測センテンスに存在する前記一体化単語を分離するN個の単語にリセットした後に、前記予測センテンスを出力し;前記予測センテンスに前記一体化単語が存在しない場合、前記予測センテンスをそのまま出力するステップを含む。
【0069】
具体的に、前記コンピュータプログラムがプロセッサ502により実行される時に、前記一体化単語における所定の区切り記号に基づいて、前記予測センテンスに存在する前記一体化単語に対して分割を行うことにより、N個の単語が得られるステップを含む。
【0070】
具体的に、前記コンピュータプログラムがプロセッサ502により実行される時に、ソースセンテンスコーパスにおけるソースセンテンス及び前記ソースセンテンスに対応するターゲットセンテンスからなる平行コーパスを用いて、ニューラル機械翻訳モデルを訓練し、その中で、前記ターゲットセンテンスに存在する前記一体化単語の分割は訓練過程において禁止される。
【0071】
好ましくは、前記Nグラムは2グラムまたは3グラム若しくは4グラムである。
【0072】
好ましくは、前記ニューラル機械翻訳モデルは系列−系列(seq2seq)モデルまたは畳み込み系列−系列(convS2S)モデル若しくはtransformerモデルである。
【0073】
本発明の技術分野の当業者は、以上で開示された実施例に記載された各例のユニットおよびアルゴリズムのステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現されることが容易に想到される。これらの機能はハードウェアまたはソフトウェアのいずれかで実行することは、発明の特定的な適用や設計制約に依存する。当業者が特定の適用に応じた方法で上記の機能を実現させることができるが、本発明の範囲を超えるべきではない。
【0074】
また、説明上便宜と簡潔性のため、上記のシステム、装置及びユニットの具体的な作業過程に関して、上記した実施例中の対応過程に参照することができることが、当業者とって明らかであるために、詳細な説明を省略する。
【0075】
本願で提供される実施例において、理解すべきことは、開示された装置及び方法は、他の方式で実現されてもよいことである。例えば、以上に説明された装置実施例は概略的なものであり、例えば、前記ユニットの分割は、論理機能分割のみであり、実際に実現する時に別の分割方式を有することができ、例えば複数のユニット又は構成要素を組み合わせ又は集積することができ又はいくつかの特徴を無視することができ、又は実行しないことができる。また、表示又は議論された相互間の結合又は直接結合若しくは通信接続はいくつかのインターフェース、装置又はユニットの間接結合又は通信接続であってもよく、電気的であってもよく、機械的又は他の形式であってもよい。
【0076】
分離部品として説明されたユニットは、物理的に別個であってもなくてもよい。ユニットとして表示される部品は、物理ユニットであってもよく又は物理ユニットでなくてもよく、すなわち一つの場所に位置してもよく、又は複数のネットワークユニットに分散されてもよい。実際のニーズに応じてその中の一部又は全部のユニットを選択して本発明の実施例の解決手段を実現することができる。
【0077】
なお、本発明の実施例にかかる各機能的ユニットは、1つの処理ユニットに集約しても良く、物理的に単独でもよく、2つ以上で一つのユニットとして集約してもよい。
【0078】
前記機能は、ソフトウェア機能ユニットの形で実現し、且つ、独立製品として販売または使用する場合に、コンピュータ読取り可能な記憶媒体に記憶することができる。この場合に、本発明の技術方案は本質的、または従来技術に貢献する部分若しくは前記技術方案の部分はソフトウェア製品の形で表現される。前記コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ装置(パーソナルコンピュータ、サーバ、或はネットワークデバイスなど)により本発明の各実施例にかかる前記方法の全部或は一部のステップを実行させる複数の指令を含む。なお、前述の記憶媒体は、USBメモリ、リムーバブルディスク、ROM、RAM、磁気ディスク、あるいは光ディスクなど、プログラムコードを格納できる様々な媒体を含む。
【0079】
以上のように、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されるものではなく、当業者が本発明に開示する技術範囲内で、容易に変更又は置換することができ、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の保護範囲を基準とすべきである。