(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-11
(45)【発行日】2023-05-19
(54)【発明の名称】文章レベルテキストの翻訳方法及び装置
(51)【国際特許分類】
G06F 40/44 20200101AFI20230512BHJP
【FI】
G06F40/44
(21)【出願番号】P 2020563948
(86)(22)【出願日】2019-04-10
(86)【国際出願番号】 CN2019082039
(87)【国際公開番号】W WO2019218809
(87)【国際公開日】2019-11-21
【審査請求日】2021-01-12
(31)【優先権主張番号】201810463138.3
(32)【優先日】2018-05-15
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】マー,チーチャン
(72)【発明者】
【氏名】リュウ,ジュンファ
(72)【発明者】
【氏名】ウェイ,スー
(72)【発明者】
【氏名】フー,グォピン
【審査官】成瀬 博之
(56)【参考文献】
【文献】国際公開第2014/098640(WO,A1)
【文献】米国特許出願公開第2017/0060855(US,A1)
【文献】J▲o▼rg Tiedemann 他1名,Neural Machine Translation with Extended Context[online],2017年08月20日,(検索日2022年03月25日),URL:https://arxiv.org/pdf/1708.05943/pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される文章レベルテキスト翻訳方法であって、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含み、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するステップを含
み、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得、前記処理とは、前記関連符号化結果内の符号化結果の全部又は一部を対応する前記関連テキストと前記翻訳対象テキストとの前記関連度に応じて前記初期符号化結果に導入することであるステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む
ことを特徴とする文章レベルテキスト翻訳方法。
【請求項2】
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
予め構築された符号化復号化モデルを利用し、前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記
翻訳対象テキストを翻訳するステップを含む
ことを特徴とする請求項1に記載の文章レベルテキスト翻訳方法。
【請求項3】
前記翻訳対象テキストを符号化して初期符号化結果を得るステップは、
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
それに対し、前記関連テキストを符号化して関連符号化結果を得るステップは、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む
ことを特徴とする請求項
1に記載の文章レベルテキスト翻訳方法。
【請求項4】
前記翻訳対象テキスト内の各単語を符号化した後のステップは、
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップをさらに含み、
それに対し、前記関連テキスト内の各テキスト単位の各単語を符号化した後のステップは、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む
ことを特徴とする請求項
3に記載の文章レベルテキスト翻訳方法。
【請求項5】
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む
ことを特徴とする請求項
1に記載の文章レベルテキスト翻訳方法。
【請求項6】
決定された符号化結果に応じて、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理するステップとを含む
ことを特徴とする請求項
5に記載の文章レベルテキスト翻訳方法。
【請求項7】
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち
、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップを含
み、
前記目標符号化結果を復号化する時に、復号化の各時刻に前記上文目標テキストに該当する符号化結果を加える
ことを特徴とする請求項
1ないし
6のいずれかの1項に記載の文章レベルテキスト翻訳方法。
【請求項8】
前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップは、
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度に応じて
、動的に前記上文目標テキストの符号化結果を
選択して用いて復号化で使用される上文目標テキストの符号化結果を得、得られた復号化で使用される上文目標テキストの符号化結果を用いて前記目標符号化結果を復号化するステップとを含む
ことを特徴とする請求項
7に記載の文章レベルテキスト翻訳方法。
【請求項9】
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップは、
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするステップとを含む
ことを特徴とする請求項
8に記載の文章レベルテキスト翻訳方法。
【請求項10】
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニットと、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する関連テキスト取得ユニットと、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニットとを含み、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するステップを含
み、
前記翻訳対象テキスト翻訳ユニットは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第1符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第2符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットであって、前記処理とは、前記関連符号化結果内の符号化結果の全部又は一部を対応する前記関連テキストと前記翻訳対象テキストとの前記関連度に応じて前記初期符号化結果に導入することである結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む
ことを特徴とする文章レベルテキスト翻訳装置。
【請求項11】
前記翻訳対象テキスト翻訳ユニットは具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応
じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するために用いられる
ことを特徴とする請求項
10に記載の文章レベルテキスト翻訳装置。
【請求項12】
前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる
ことを特徴とする請求項
10に記載の文章レベルテキスト翻訳装置。
【請求項13】
プロセッサと、メモリと、システムバスとを含む文章レベルテキスト翻訳装置であって、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
前記メモリは、1つ又は複数のプログラムを記憶し、前記プログラムは前記プロセッサによって実行された時に、前記プロセッサに請求項1ないし
9のいずれかの1項に記載の方法を実行させる命令を含む
ことを特徴とする文章レベルテキスト翻訳装置。
【請求項14】
コンピュータで実行される時に、コンピュータに請求項1ないし
9のいずれかの1項に記載の方法を実行させる命令を記憶する
ことを特徴とするコンピュータ可読記憶媒体。
【請求項15】
端末装置で実行される時に、前記端末装置に請求項1ないし
9のいずれかの1項に記載の方法を実行させる
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【相互参照】
【0001】
本出願は2018年5月15日に中国特許局へ提出された出願番号201810463138.3、出願名称「文章レベルテキストの翻訳方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
【技術分野】
【0002】
本出願は、テキスト翻訳技術分野に関し、特に文章レベルテキストの翻訳方法及び装置に関する。
【背景技術】
【0003】
文章レベルテキストは一連の文から構成されるものであり、例えば、文章レベルテキストとしては、スピーチ原稿、雑誌記事、文学作品などが挙げられる。文章レベルテキストの最も重要な特徴は、文間の連接性と一貫性であるため、文章レベルテキストはただ一連の文の集合であるだけでなく、完全な構造、明確的な機能を備えた意味統一体である。
【0004】
文章レベルテキストについては、文章レベルテキストの翻訳方法を用いて翻訳しなければならない。従来の文章レベルテキストの翻訳方法では、通常、翻訳の対象となる文章レベルテキスト全体を翻訳対象として直接翻訳しているが、翻訳の効果はよくなく、つまり翻訳結果の精度が高くないので、ユーザーエクスペリエンスが低下している。
【発明の概要】
【0005】
本出願の実施例の主要目的は、文章レベルテキストを翻訳する時に、翻訳結果の精度を向上させるための文章レベルテキストの翻訳方法及び装置を提供することである。
【0006】
本出願の実施例は、文章レベルテキスト翻訳方法を提供する。当該方法は、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含む。
【0007】
選択肢として、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップを含む。
【0008】
選択肢として、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処
理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得るステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む。
【0009】
選択肢として、前記翻訳対象テキストを符号化して初期符号化結果を得るステップは、
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
それに対し、前記関連テキストを符号化して関連符号化結果を得るステップは、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む。
【0010】
選択肢として、前記翻訳対象テキスト内の各単語を符号化した後のステップは、
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップをさらに含み、
それに対し、前記関連テキスト内の各テキスト単位の各単語を符号化した後のステップは、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む。
【0011】
選択肢として、前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む。
【0012】
選択肢として、決定された符号化結果に応じて、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理するステップとを含む。
【0013】
選択肢として、前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化す
るステップを含む。
【0014】
選択肢として、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップは、
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化するステップとを含む。
【0015】
選択肢として、前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップは、
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするステップを含む。
【0016】
本出願の実施例はさらに、文章レベルテキスト翻訳装置を提供する。当該装置は、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニットと、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する関連テキスト取得ユニットと、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニットとを含む。
【0017】
選択肢として、前記翻訳対象テキスト翻訳ユニットは具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するために用いられる。
【0018】
選択肢として、前記翻訳対象テキスト翻訳ユニットは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第1符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第2符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む。
【0019】
選択肢として、前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる。
【0020】
また、本出願の実施例は、プロセッサと、メモリと、システムバスとを含む文章レベルテキスト翻訳装置を提供し、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
前記メモリは1つ又は複数のプログラムを格納するために使用され、前記1つ又は複数のプログラムは命令を含み、前記命令は前記プロセッサで実行された時に、前記プロセッサに上記の文章レベルテキスト翻訳方法のうちいずれかの1つの実現方式を実行させる。
【0021】
また、本出願の実施例は、命令を格納するコンピュータ可読記憶媒体を提供し、上記命令はコンピュータで実行される時に、コンピュータに上記の文章レベルテキスト翻訳方法のうちいずれかの1つの実現方式を実行させる。
【0022】
また、本出願の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の文章レベルテキスト翻訳方法のうち、いずれかの実現方式を実行させる。
【0023】
また、本実施例に係る文章レベルテキストの翻訳方法及び装置は、翻訳の対象となる文章レベルテキスト内の各テキスト単位を、それぞれ翻訳対象テキストとし、その後、文章レベルテキストから翻訳対象テキストの関連テキストを取得し、当該関連テキストに応じて翻訳対象テキストを翻訳する。このように、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。
【図面の簡単な説明】
【0024】
本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下に説明される図面は、本出願の実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
【
図1】
図1は本出願の実施例に係る文章レベルテキスト翻訳方法のフローチャートである。
【
図2】
図2は本出願の実施例に係る文章レベルテキストの概略図である。
【
図3】
図3は本出願の実施例に係る符号化復号化モデルのトポロジー概略図である。
【
図4】
図4は本出願の実施例に係る符号化復号化モデルを用いた翻訳フローチャートである。
【
図5】
図5は本出願の実施例に係る初期符号化結果の処理フローチャートである。
【
図6】
図6は本出願の実施例に係るGate Networkのネットワーク構造概略図である。
【
図7】
図7は本出願の実施例に係る文章レベルテキスト翻訳装置の構成図である。
【
図8】
図8は本出願の実施例に係る文章レベルテキスト翻訳装置のハードウェア構成図である。
【発明を実施するための形態】
【0025】
一部の文章レベルテキストの翻訳方法では、翻訳の対象となる文章レベルテキスト全体を翻訳対象として、翻訳モデルを利用し直接にそれを翻訳するが、この方法では、文章レベルテキストの各文を翻訳する時に、翻訳対象文の上下文情報を考慮していないため、翻訳結果の精度が低下し、ユーザーエクスペリエンスも低下する。また、翻訳対象文を翻訳する時に、翻訳モデルの受信情報には冗長な情報が含まれる可能性があり、具体的には、翻訳対象文前の文又は翻訳対象文後の文は翻訳対象文と関連していない場合、文章レベルテキスト全体を翻訳対象とすると、翻訳対象文にとって、翻訳対象文と関係のない前文或いは後文は冗長な情報に相当する。
【0026】
上記の欠陥を解決するために、本出願の実施例は、文章レベルテキスト翻訳方法を提供する。当該方法は、文章レベルテキスト内の各翻訳対象テキスト、例えば、当該翻訳対象テキストを文とすると、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの上下文情報も考慮することから、翻訳対象テキストの
翻訳結果の精度を高め、ユーザーエクスペリエンスも向上させる。さらに、翻訳対象テキストを翻訳する時に、本出願の実施例は、翻訳対象テキストと上下文情報の関連性に応じて、上下文情報を動的に選択することで、翻訳モデルの受信情報内の冗長な情報を低減させるだけでなく、翻訳対象テキストの翻訳結果の精度もより一層高める。さらに、翻訳対象テキストを翻訳する時に、本出願の実施例は、翻訳対象テキストの上文翻訳結果を考慮するため、翻訳対象テキストの翻訳結果を上文の翻訳結果に結びつけることで、翻訳対象テキストの翻訳結果の精度がより向上し、翻訳テキストの流暢さも向上する。つまり、翻訳後の文章レベルテキストの各文間の連接性と一貫性が保証される。
【0027】
本出願の実施例の目的、技術案及び利点をより明確にするために、以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術案を明確且つ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本出願の一部の実施例である。本出願の実施例に基づき、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。
【0028】
<第1実施例>
図1は本出願の実施例に係る文章レベルテキスト翻訳方法のフローチャートであり、当該方法は以下のステップを含む。
【0029】
S101:翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する。
翻訳の対象となる文章レベルテキスト、すなわち、翻訳前の文章レベルテキストは、便益を図るため、以下、文章レベルテキストと略す。本実施例は文章レベルテキストのタイプを制限するものではない。例えば、当該文章レベルテキストとしては、スピーチ原稿、雑誌記事、文学作品などが挙げられる。
【0030】
文章レベルテキストはただ一連の文の集合であり、文章レベルテキストを翻訳する時に、本実施例は、文又はその他のテキスト長さを単位に順次翻訳することができる。文単位で翻訳すると、文章レベルテキストの各文の順位により各文を順次取得し、現在取得した文を翻訳対象テキストとして、次のステップで翻訳する。
【0031】
説明すべき点については、本実施例は文章レベルテキストの翻訳元言語と翻訳先言語を制限するものではない。例えば、翻訳元言語は中国語であり、翻訳先言語は英語である。
【0032】
S102:前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する。
【0033】
本実施例では、前記上文原テキストは、文章レベルテキスト内における翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、文章レベルテキスト内における翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストである。
【0034】
具体的には、文を単位に翻訳すると、翻訳対象テキストの上文原テキストとして、文章レベルテキストから翻訳対象テキストの前の1つ又は複数の文を取得することができる。翻訳対象テキストの下文原テキストとして、文章レベルテキストから翻訳対象テキストの後の1つ又は複数の文を取得することができる。また、文章レベルテキストの各文を順次翻訳するため、翻訳対象テキストを翻訳する時に、上文原テキストはすでに翻訳されることで、上文原テキストの翻訳テキスト(すなわち、上文目標テキスト)を直接取得することができる。
【0035】
説明すべき点については、上文原テキストと下文原テキストの文の件数は同じ場合もあり、異なる場合もある。翻訳対象テキストの前のk個の文を上文原テキストとして使用すると、翻訳対象テキストの後のk個又はl個の文を下文原テキストとして使用することができる。ここで、k、lは整数、k≠l、k≧1、l≧1とする。
【0036】
例えば、
図2に示す文章レベルテキストでは、翻訳対象テキストをXで表すと、X前の1つの文X
-1を上文原テキストとしてもよいし、X前の複数の文、例えば、文X
-1と文X
-2を上文原テキストとしてもよい。同様に、X後の1つの文X
1を上文原テキストとしてもよいし、X後の複数の文、例えば、文X
1、文X
2および文X
3を下文原テキストとしてもよい。
【0037】
S103:前記関連テキストに応じて前記翻訳対象テキストを翻訳する。
【0038】
翻訳対象テキストを翻訳する時に、本実施例は翻訳対象テキストの関連テキスト、すなわち、翻訳対象テキストの上文原テキスト、下文原テキスト及び上文目標テキストのうち少なくとも1つの意味情報を考慮しながら、翻訳対象テキストを翻訳し、翻訳対象テキストの翻訳結果を得る。また、翻訳対象テキストと上文原テキストとの関連性、翻訳対象テキストと下文原テキストとの関連性、及び翻訳対象テキストと上文目標テキストとの関連性を考慮してもよい。このように、翻訳対象テキストと関連テキストの意味内容及び両者間の関連性を考慮することにより、翻訳対象テキストの翻訳結果がより正確になる。
【0039】
説明すべき点については、関連テキストに上文目標テキスト(上文原テキストの翻訳結果)が含まれた場合、すなわち、上文目標テキストを利用して翻訳対象テキストに対し補助翻訳を行う時、翻訳対象テキストの翻訳結果の精度を高めるだけでなく、翻訳対象テキストの翻訳結果を上文原テキストの翻訳結果に結びつけることができる。つまり、翻訳対象テキストの翻訳結果を、意味的に上文翻訳結果によりよく結びつけることで、翻訳後の文章レベルテキストの各文間の連接性と一貫性を保証する。
【0040】
また説明すべき点については、ステップS103の具体的な実現方式は第2実施例を参照する。
【0041】
以上のように、本実施例に係る文章レベルテキストの翻訳方法は、翻訳の対象となる文章レベルテキスト内の各テキスト単位を、それぞれ翻訳対象テキストとし、その後、文章レベルテキストから翻訳対象テキストの関連テキストを取得し、当該関連テキストに応じて翻訳対象テキストを翻訳する。このように、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。
【0042】
<第2実施例>
本実施例は第1実施例のS103の具体的な実施形態を説明する。
【0043】
本実施例では、符号化復号化モデルを文章レベルテキストの翻訳モデルとして予め構築することができる。すなわち、符号化復号化モデルが先に符号化して次に復号化するという方式で、文章レベルテキストの翻訳を実現することを可能にする。これに基づいて、上記のステップS103は具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップを含む。
【0044】
説明すべき点については、次に、本実施例は
図3に示す符号化復号化モデルのトポロジー概略図を参照しながら、どのように符号化復号化モデルを利用して翻訳対象テキストを
翻訳するかを説明する。
【0045】
図3を参照して説明するためには、ここで文を単位に翻訳し、翻訳対象テキストの前のk個の文を上文原テキストとし、翻訳対象テキストの後のk個の文を下文原テキストとすることを例に、説明する。まず、次のように定義する。
【0046】
1.翻訳前の文章レベルテキストを{X-k,…,X-1,X,X1,…,Xk}で表す。ここで、Xは翻訳対象テキストを表し、X-1…X-kは順にX前の1番目の文、…k番目の文を表し、X1…Xkは順にX後の1番目の文…k番目の文を表す。ここで、X-1…X-kを翻訳対象テキストXの上文原テキストとし、X1…Xkを翻訳対象テキストXの下文原テキストとする。
【0047】
簡単に説明するために、ここで各文にn個の単語(実際の応用において単語の実個数に基づく)。
図3に示すように、翻訳対象テキストXの各単語を{x
1,x
2,…,x
n}で表し、ここで、x
1,x
2,…,x
nは順に翻訳テキストXの1番目の単語、2番目の単語…n番目の単語を表す。同様に、上文原テキスト内の文X
-kの各単語を
で表し、ここで、
は順に文X
-kの1番目の単語、2番目の単語…n番目の単語を表し、上文原テキストの他の文を類似の形式で表す。下文原テキスト内の文X
kの各単語を
で表し、ここで、
は順に文X
kの1番目の単語、2番目の単語…n番目の単語を表し、下文原テキストの他の文を類似の形式で表す。
【0048】
2.翻訳後の文章レベルテキストを{Y-k,…,Y-1,Y,Y1,…,Yk}で表し、ここで、Yは翻訳対象テキストXの翻訳テキストを表し、Y-1…Y-kは順に上文原テキストX-1…X-kの翻訳テキストを表し、Y1…Ykは順に下文原テキストX1…Xkの翻訳テキストを表す。ここで、Y-1…Y-kを共に上文目標テキストとする。
【0049】
翻訳対象テキストXの翻訳テキストY内の各単語を{y
1,y
2,…,y
n}で表し、ここで、y
1,y
2,…,y
nは順にYの1番目の単語、2番目の単語…n番目の単語を表す。
図3に示すように、上文目標テキスト内の文Y
-kの各単語を
で表し、ここで、
は順に文Y
-kの1番目の単語、2番目の単語…n番目の単語を表す。上文目標テキスト内の文Y
-1の各単語を
で表し、ここで、
は順に文Y
-1の1番目の単語、2番目の単語…n番目の単語を表す。下文目標テキストの他の文を類似の形式で表す。
【0050】
図3を参照しながら、どのように符号化復号化モデルを利用して翻訳対象テキストを翻訳することを説明する。
【0051】
本実施例の一実現方式において、
図4に示す符号化復号化モデルを用いた翻訳フローチャートを参照し、具体的には以下のステップを含むことができる。
【0052】
S401:前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る。
【0053】
一実現方式において、本ステップS401は具体的に、双方向の回帰型ニューラルネットワーク(Recurrent Neural Networks、略称RNN)を利用し、前記翻訳対象テキスト
を符号化し、初期符号化結果を得ることが含むことができる。
【0054】
本ステップS401又は本ステップS401の具体的な実現方式において、前記翻訳対象テキストを符号化し、具体的に前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得る。
【0055】
具体的には、
図3に示すように、翻訳対象テキストXの各単語、すなわち{x
1,x
2,…,x
n}を、単語ベクトルの形で双方向RNNに入力し、本実施例は既存又は将来現れた方法を用いて各単語を向量化する。
双方向RNNの各隠れ層状態の計算式は次の通りである。
【数1】
【0056】
ここで、i=1、2、…n;fは非線形関数であり、例えば、sigmoid関数又は長・短期記憶ネットワーク(Long Short-Term Memory、略称LSTM)である。WとUは、双方向RNNのトレーニングパラメーターである。
は、単語x
iの単語ベクトルを表す。h
i-1はi-1番目の隠れ層状態を示し、単語x
i-1の意味情報を表す。h
iはi番目の隠れ層状態を示し、単語x
iの意味情報を表す。
【0057】
双方向RNNは、順方向RNNと逆方向RNNを含み、順方向RNNは翻訳対象テキストXの各単語の単語ベクトルを順次読み込んだ後、順方向の隠れ層シーケンス
を生成し、ここで、
は翻訳対象テキストXの順方向情報を表す。逆方向RNNは、翻訳対象テキストXの各単語の単語ベクトルを逆順に読み込んだ後、逆方向の隠れ層シーケンス
を生成し、ここで、
は翻訳対象テキストXの逆方向情報を表す。
【0058】
順方向の隠れ層シーケンス
と逆方向の隠れ層シーケンス
において、位置が互いに対応する隠れ層状態のユニットをつなぎ合わせて当該位置の単語に対応する状態のシーケンスを構成する。つまり、{x
1,x
2,…,x
n}の各単語に対応する状態のシーケンスはそれぞれ、x
1に対応する状態のシーケンスは
x
2に対応する状態のシーケンスは
…x
nに対応する状態のシーケンスは
である。これに基づいて、翻訳対象テキストXの意味情報はH={h
1,h
2,…,h
n}で表され、Hは翻訳対象テキストを符号化して得られた初期符号化結果である。
【0059】
さらに、一実現方式において、翻訳対象テキスト内の各単語を符号化した後には、前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップも含むことができる。この実現方式において、翻訳対象テキストXの符号化結果Hを得た後、Hの各状態シーケンスの累積結果
を、新しい初期符号化結果とし、翻訳対象テキストXの意味情報を特徴付ける。ここで、
である。
【0060】
S402:前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る。
【0061】
一実現方式において、本ステップS402は具体的に、双方向RNNネットワークを利用して前記関連テキストを符号化し、関連符号化結果を得るステップを含む。
【0062】
本ステップS402又は本ステップS402の具体的な実現方式において、前記関連テキストを符号化する時に、具体的に、前記関連テキスト内の各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とする。
【0063】
具体的には、
図3に示すように、前記関連テキストは上文原テキスト、すなわち、翻訳対象テキストX前のK個の文X
-1…X
-kを含む場合、ステップS401における翻訳対象テキストに対する符号化の類似の処理方式に従って、X
-1…X
-kを符号化することができ、翻訳対象テキストXをそれぞれX
-1…X
-kに切り替えればよい。そのため、文X
-1の意味情報を
で表し、…文X
-kの意味情報を
で表し、H
-1、…H
-kは上文原テキストを符号化して得られた符号化結果である。ここで、
において、
であり、
において、
である。
【0064】
前記関連テキストは下文原テキスト、すなわち、翻訳対象テキストX後のK個の文X
1…X
kを含む場合、ステップS401における翻訳対象テキストXに対する符号化の類似の処理方式に従って、X
1…X
kを符号化することができ、翻訳対象テキストXをそれぞれX
1…X
kに切り替えればよい。そのため、文X
1の意味情報を
で表し、…文X
kの意味情報を
で表し、H
1、…H
kは下文原テキストを符号化して得られた符号化結果である。ここで
において、
であり、
において、
である。
【0065】
前記関連テキストは上文目標テキスト、すなわち、翻訳対象テキストX前のK個の文X
-1…X
-kの翻訳テキストY
-1…Y
-kを含む場合、ステップS401における翻訳対象テキストXに対する符号化の類似の処理方式に従って、Y
-1…Y
-kに切り替えればよい。そのため、文Y
-1の意味情報を
で表し、…文X
-kの意味情報を
で表し、
は上文目標テキストを符号化して得られた符号化結果である。ここで、
において、
であり、
において、
である。
【0066】
さらに、一実現方式において、関連テキスト内の各テキスト単位の各単語を符号化した後、ステップA1~C1も含むことができる。
【0067】
ステップA1:前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る。
【0068】
上文原テキストの符号化結果、H
-1…H
-kを得た後、H
-1の各状態シーケンスの累積結果
を用いて文X
-1の意味情報を特徴付け、…H
-kの各状態シーケンスの累積結果
を用いて文X
-kの意味情報を特徴付け、
を共に上文原テキストの符号化結果とし、ここで
である。
【0069】
ステップB1:前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る。
【0070】
下文原テキストの符号化結果、H
1…H
kを得た後、H
1の各状態シーケンスの累積結果
を用いて文X
1の意味情報を特徴付け、…H
kの各状態シーケンスの累積結果
を用いて文X
kの意味情報を特徴付け、
を共に下文原テキストの符号化結果とし、ここで、
である。
【0071】
ステップC1:前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む。
【0072】
上文目標テキストの符号化結果、
を得た後、
の各状態シーケンスの累積結果
を用いて文Y
-1の意味情報を特徴付け、…
の各状態シーケンスの累積結果
を用いて文Y
-kの意味情報を特徴付け、
を共に上文目標テキストの符号化結果とし、ここで、
である。
【0073】
説明すべき点については、本実施例はステップS401とS402の実行順序を制限しなく、同時にS401とS402を実行することができるだけでなく、まずステップS401を実行し、次にステップS402を実行することもでき、又はまずステップS402を実行してからステップS401を実行することもできる。
【0074】
S403:前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、目標符号化結果を得る。ここで、前記目標符号化結果は前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める。
【0075】
本実施例において、上文原テキストの符号化結果H
-1、…H
―k、下文原テキストの符号化結果H
1、…H
k、及び上文目標テキストの符号化結果
については、そのいずれか1つ又は複数の符号化結果を用いて、翻訳対象テキストの初期符号化結果Hを処理し、処理後の符号化結果を目標符号化結果とする。
【0076】
又は、上文原テキストの符号化結果
、下文原テキストの符号化結果
、及び上文目標テキストの符号化結果
については、そのいずれか1つ又は複数の符号化結果を用いて、翻訳対象テキストの初期符号化結果Hを処理し、処理後の符号化結果を目標符号化結果H
cとする。
【0077】
説明すべき点については、初期符号化結果を処理する時に、翻訳対象テキストと関連テキストの関連度に応じて、異なる関連度のある関連テキスト内のテキスト単位の意味情報を選択することにより、目標符号化結果にこれらの異なる関連度のある意味情報を含めると同時に、目標符号化結果で翻訳対象テキストの意味情報Hcを表すことができる。
【0078】
また説明すべき点については、ステップS403の具体的な実現方式は第3実施例を参照する。
【0079】
S404:前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する。
【0080】
H
c目標符号化結果を復号化する時に、既存のアテンションモデル(
図3を参照する)を含む復号化方法又は将来現れる復号化方法を用いて、目標符号化結果H
cを復号化することにより、翻訳対象テキストの翻訳結果を得ることができる。
【0081】
また説明すべき点については、ステップS404の具体的な実現方式は第4実施例を参照する。
【0082】
以上をまとめると、本実施例は、符号化復号化モデルを用いて、翻訳対象テキスト、関連テキストを符号化・復号化し、符号化・復号化方式で翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。
【0083】
<第3実施例>
本実施例は第2実施例のS403の具体的な実施形態を説明する。
【0084】
図5に示す初期符号化結果の処理フローチャートを参照しながら、上記にステップS403の「前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理する」は、具体的に以下のステップを含むことができる。
【0085】
S501:前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定する。
【0086】
本実施例において、上文原テキストの符号化結果は、第2実施例のH
-1…H
-k又は
であってもよい。
【0087】
S502:前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定する。
【0088】
本実施例において、上文原テキストの符号化結果はH
-1…H
-kである場合、下文原テキストの符号化結果は第2実施例内のH
1…H
kであってもよい。同様に、上文原テキストの符号化結果は
である場合、下文原テキストの符号化結果は第2実施例の
であってもよい。
【0089】
S503:決定された符号化結果に応じて、前記初期符号化結果を処理する。
一実現方式において、ステップS503は具体的に、以下のステップA2~C2を含むことができる。
【0090】
ステップA2:前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定する。
【0091】
翻訳対象テキストと上文原テキスト内の各文(以下、「上文の文」という)の関連性は不確定であるため、翻訳対象テキストとある上文の文とは全く関連していない場合、翻訳対象テキストに対し、当該上文の文は冗長であり、当該上文の文に基づいて、翻訳対象テキストを翻訳すると、逆に翻訳対象テキストの翻訳結果の精度に悪い影響を与え、つまり、翻訳結果の精度を低下させるといえる。したがって、より合理的に上文原テキストの符号化結果を利用するために、本実施例はそれぞれ翻訳対象テキストと各上文の文との関連度を決定することにより、関連度の決定結果を用いて、対応する上文の文の意味情報を動的に使用し、上文の文による情報の冗長を防止する。
【0092】
このステップにおいて、翻訳対象テキストの初期符号化結果は
であってもよく、上文原テキスト内の各上文の文の符号化結果はそれぞれ、
であってもよく、ニューラルネットワーク構造Gate Networkを用いて、各上文の文に対応する相関係数を生成し、当該相関係数は、翻訳対象テキストと対応する上文の文との関連度を表す。
【0093】
図6に示すGate Networkネットワーク構造の概略図は、具体的に実現する時に、翻訳対象テキストの初期符号化結果
、及び各上文の文に対応する符号化結果
、をGate Networkの入力とする。その後、Gate Networkで各上文の文に対応する相関係数λ
-iを計算し、計算式は次の通りである。
【数2】
【0094】
ここで、i=1、2…kとする。
は翻訳対象テキストの初期符号化結果である。
は翻訳対象テキストの前のi番目の文の符号化結果である。λ
-iは翻訳対象テキストの
前のi番目の文に対応する相関係数であり、翻訳対象テキストと翻訳対象テキストの前のi番目の文との間の関連度を表す。UとVはGate Networkのトレーニングパラメーターであり、予め大量のデータを収集し、トレーニングして得られ、その次元はすべてd×1である。
【0095】
説明すべき点については、
と
は次元が1×dの行列であり、dは双方向RNNを符号化する時に隠れ層のノード数を指し、予め設定される。したがって、式(2)は行列の乗算で次元が1であるスカラー値が得られ、次に非線形関数(すなわち、sigmoid関数)で変換し、数値範囲が0~1のスカ
ラー値λ
-iを得る。ここで、λ
-iの値が大きいほど、翻訳対象テキストと翻訳対象テキストの前のi番目の文間の関連度が大きくなり、その逆も同様である。
【0096】
このように、上記の式(2)により、上文原テキスト内の各上文の文に対応する相関係数{λ-k,λ-k-1,…,λ-1}を算出することができる。
【0097】
ステップB2:前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定する。
【0098】
翻訳対象テキストと下文原テキスト内の各文(以下、「下文の文」という)の関連性は不確定であるため、翻訳対象テキストとある下文の文とは全く関連していない場合、翻訳対象テキストに対し、当該下文の文は冗長な的ものであり、当該下文の文に基づき、翻訳対象テキストを翻訳すると、逆に翻訳対象テキストの翻訳結果の精度に悪い影響を与え、つまり、翻訳結果の精度を低下させるといえる。したがって、より合理的に下文原テキストの符号化結果を利用するために、本実施例はそれぞれ翻訳対象テキストと各下文の文と
の関連度を決定することにより、関連度の決定結果を用いて、対応する下文の文の意味情報を動的に使用し、下文の文による情報の冗長を防止する。
【0099】
このステップにおいて、翻訳対象テキストの初期符号化結果は
であってもよく、下文原テキスト内の各上文の文の符号化結果はそれぞれ
であってもよく、ニューラルネットワーク構造Gate Networkを用いて、各上文の文に対応する相関係数を生成し、当該相関係数は、翻訳対象テキストと対応する上文の文との関連度を表す。
【0100】
図6に示すように、具体的に実現する時に、翻訳対象テキストの初期符号化結果
、及び各上文の文に対応する符号化結果
、をGate Networkの入力とする。その後、Gate Networkで各上文の文に対応する相関係数λ
iを計算し、計算式は次の通りである。
【数3】
【0101】
ここで、i=1、2…kとする。
は翻訳対象テキストの初期符号化結果である。
は翻訳対象テキストの後のi番目の文の符号化結果である。λ
iは翻訳対象テキストの後
のi番目の文に対応する相関係数であり、翻訳対象テキストと翻訳対象テキストの後のi番目の文との間の関連度を表す。UとVはGate Networkのトレーニングパラメーターであり、予め大量のデータを収集し、トレーニングして得られ、その次元はすべてd×1である。
【0102】
説明すべき点については、
と
は次元が1×dの行列であり、dは双方向RNNを符号化する時に隠れ層のノード数を指し、予め設定される。したがって、式(3)は行列の乗算で次元が1であるスカラー値が得られ、次に非線形関数(すなわち、sigmoid関数)で変換し、数値範囲が0~1のスカ
ラー値λ
iを得る。ここで、λ
iの値が大きいほど、翻訳対象テキストと翻訳対象テキストの後のi番目の文間の関連度が大きくなり、その逆も同様である。
【0103】
このように、上記の式(3)により、下文原テキスト内の各下文の文に対応する相関係数{λ1,λ2,…,λk}を算出することができる。
【0104】
ステップC2:決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理して目標符号化結果を得る。
【0105】
上文原テキスト内の各上文の文に対する相関係数{λ-k,λ-k-1,…,λ-1}を算出した後、これらの相関係数に基づき、上文の文を動的に選択することができる。同様に、下文原テキスト内の各下文の文に対応する相関係数{λ1,λ2,…,λk}を算出した後、これらの相関係数に基づき、下文の文を動的に選択することができる。具体的なプロセスは以下の通りである。
【0106】
第2実施例のステップS401で得られた翻訳対象テキストの初期符号化結果H={h
1,h
2,…,h
n}に応じて、翻訳対象テキストの各単語に対応するh
1(i=1,2…,n)に上下文情報を動的に導入することができ、計算式は次の通りである。
【数4】
【0107】
ここで、{λ
-k,λ
-k-1,…,λ
-1}はGate Networkを通じて得られた各上文の文に対応する相関係数である。{λ
1,λ
2,…,λ
k}はGate Networkを通じて得られた各下文の文に対応する相関係数である。
は各上文の文の符号化結果である。
は各下文の文の符号化結果である。
【0108】
このように、式(3)により、翻訳対象テキストの各単語にそれぞれ上下文情報を導入することができ、上記の符号化過程を経て、翻訳対象テキストの意味情報の表示はH
c={h
1’,h
2’,…,h
n’}となり、すなわち、
図3に示す符号化部分の出力H
cである。
【0109】
説明すべき点については、Hcは翻訳対象テキストの意味情報を含むだけでなく、{λ-k,λ-k-1,…,λ-1}、{λ1,λ2,…,λk}を利用して上下文情報を動的に選択、使用することで、情報の重畳による情報の冗長性を避け、翻訳結果の精度を高める。
【0110】
以上をまとめると、本実施例に係る符号化方式は、符号化側に関連テキスト内の意味情報の全部又は一部を導入し、さらに翻訳対象テキストと導入される関連テキスト間の関連度情報を導入することにより、翻訳対象テキストの上下文情報を動的に選択するため、符
号化復号化モデルの受信情報内の冗長な情報を低減するとともに、翻訳対象テキストの翻訳結果の精度をさらに高めた。
【0111】
<第4実施例>
本実施例は第2実施例のS404の具体的な実施形態を説明する。
【0112】
本実施例において、上記のステップS404の「前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する」は、具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化することを含む。ここで、上文目標テキストの符号化結果は、第2実施例S402内の
又は、
であってもよく、これらの符号化結果を利用し、目標符号化結果H
cを補助的に復号化することにより、翻訳対象テキストの翻訳結果を得ることができる。
【0113】
本実施例の一実現方式において、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化する時に、以下のステップを含むことができる。
【0114】
ステップA3:前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定する。
【0115】
上文目標テキストは上文原テキスト内の各上文の文の翻訳結果(以下、翻訳後の文)を含み、それぞれ各翻訳后の文と翻訳対象テキスト間の関連度を決定することができる。
【0116】
一実現方式において、ステップA3は具体的に、前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とする。この実現方式において、第3実施例のステップA2で算出された上文原テキスト内の各上文の文に対応する相関係数{λ-k,λ-k-1,…,λ-1}で、それぞれ翻訳対象テキストと上文目標テキスト内の各翻訳後の文との間の関連度を特徴付けることができ、例えば、λ-kは翻訳対象テキストと翻訳対象テキストの前のk番目の文の翻訳結果との間の関連性を表す。
【0117】
ステップB3:決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化する。
【0118】
ステップでは、相関係数{λ
-k,λ
-k-1,…,λ
-1}と上文目標テキストの符号化結果
(第2実施例のステップC1を参照する)を用いて、次の式により計算することができる。
【数5】
【0119】
図3に示すように、
は復号化で使用される上文目標テキストの符号化結果を表し、目標符号化結果H
cを復号化する時に、RNNネットワークを用いて順次復号化し、本案は復号化の各時刻に
を加え、計算式は次の通りである。
【数6】
【0120】
ここで、gは非線形関数であり、例えば、sigmoid関数又はLSTMネットワークであ
る。W、U、Vは既存の復号化ネットワークのトレーニングパラメーターであってもよく、Pは本実施例における復号化ネットワークに追加されたトレーニングパラメーターである。sjは現在時刻jの隠れ層状態を表す。sj-1は前時刻j-1の隠れ層状態を表す。yj-1は前時刻の復号化結果の単語ベクトルである。cjはアテンションモデルの出力情報であり、アテンションモデルは共通の符号化復号化構造で使用されるネットワーク構造であってもよく、具体的な復号化計算方法は従来技術と同じであってもよい。
【0121】
復号化して現在時刻jの隠れ層状態sjを得た後、共通の符号化復号化構造内の関数softmaxを用いて、現在時刻jに対応する翻訳対象単語の翻訳結果の確率分布を推定することができ、当該確率分布により、翻訳対象単語の翻訳結果を得る。
【0122】
以上をまとめると、本実施例に係る復号化方式は、復号化側に上文原テキストの翻訳結果(すなわち、上文目標テキスト)を導入し、さらに、翻訳対象テキストと上文目標テキスト間の関連度情報を導入するため、翻訳対象テキストの翻訳結果を上文翻訳結果に結びつけることで、翻訳対象テキストの翻訳結果の精度がより向上し、翻訳テキストの流暢さも向上する。つまり、翻訳後の文章レベルテキストの各文間の連接性と一貫性を保証する。
【0123】
<第5実施例>
本実施例では文章レベルテキスト翻訳装置を説明し、関連内容については、上記方法の実施例を参照する。
【0124】
図7は本出願の実施例に係る文章レベルテキスト翻訳装置の構成図であり、当該装置700は、翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニット701と、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する関連テキスト取得ユニット702と、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニ
ット703とを含む。
【0125】
本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット703は具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するために用いられることができる。
【0126】
本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット703は、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第1符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第2符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む。
【0127】
本実施例の一実現方式において、前記第1符号化サブユニットは、具体的に、前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るために用いられ、
それに対し、前記第2符号化サブユニットは、具体的に、前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするために用いられる。
【0128】
本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット703は、
翻訳対象テキスト内の各単語を符号化した後、前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得る第1累積サブユニットと、
前記関連テキスト内の各テキスト単位の各単語を符号化した後は、前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得て、前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得て、前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る第2累積サブユニットとをさらに含むことができる。
【0129】
本実施例の一実現方式において、前記結果処理サブユニットは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定する第1決定サブユニットと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定する第2決定サブユニットと、
決定された符号化結果に応じて、前記初期符号化結果を処理し、目標符号化結果を得る結果取得サブユニットとを含む。
【0130】
本実施例の一実現方式において、前記結果取得サブユニットは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定する第1関連度決定サブユニットと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期
符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定する第2関連度決定サブユニットと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理して目標符号化結果を得る目標結果取得サブユニットとを含む。
【0131】
本実施例の一実現方式において、前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる。
本実施例の一実現方式において、前記結果実現サブユニットは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記翻訳対象テキストと前記上文目標テキスト間の関連度を決定する第3関連度決定サブユニットと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化する符号化結果処理サブユニットとを含む。
【0132】
本実施例の一実現方式において、前記第3関連度決定サブユニットは具体的に、前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするために用いられる。
【0133】
<第6実施例>
本実施例では別の文章レベルテキスト翻訳装置を説明し、関連内容については、上記方法の実施例を参照する。
【0134】
図8は、本実施例に係る文章レベルテキスト翻訳装置のハードウェア構成図であり、前記音声対話装置800は、メモリ801と、受信機802と、それぞれ前記メモリ801及び前記受信機802に接続されているプロセッサ803とを含み、前記メモリ801は一連のプログラム命令を格納するために用いられ、前記プロセッサ803は前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含む。
【0135】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳する。
【0136】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
【0137】
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得るステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む。
【0138】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
【0139】
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む。
【0140】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
【0141】
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
【0142】
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとを含む。
【0143】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
【0144】
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
【0145】
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む。
【0146】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
【0147】
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理する
ステップとを含む。
【0148】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
【0149】
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップを含む。
【0150】
実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化するステップとを含む。
【0151】
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
【0152】
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とする。
【0153】
一部の実施形態において、前記プロセッサ803は中央処理装置(Central Processing
Unit、CPU)であってもよく、前記メモリ801はランダムアクセスメモリ(Random Access Memory、RAM)型の内部メモリであってもよく、前記受信機802は通常の物
理インターフェースを含め、前記物理インターフェースはイーサネット(Ethernet)インターフェース又は非同期転送モード(Asynchronous Transfer Mode、ATM)インターフェースであってもよい。前記プロセッサ803、受信機802およびメモリ801は、1つ又は複数の独立した回路又はハードウェアに統合されることができ、例えば、特定用途向けの集積回路(Application Specific Integrated Circuit、ASIC)である。
【0154】
さらに、本実施例は、コンピュータで実行される時に、コンピュータに上記の文章レベルテキスト翻訳方法のうちいずれかの1つの実現方式を実行させる命令を記憶するコンピュータ可読記憶媒体を提供する。
【0155】
さらに、本実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の文章レベルテキスト翻訳方法のうち、いずれかの実現方式を実行させる。
【0156】
以上の実施形態の説明から分かるように、当業者は、上記の実施例方法における全部又は一部のステップがソフトウェアに必要な汎用ハードウェアプラットフォームを加えた方式で実現され得ることを明確に理解することができる。このような理解に基づいて、本出願の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピューターソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に格納されることができ、1台のコンピュータ装置(パーソナルパソコン、サーバ、又はメディアゲートウェイのようなネットワーク通信機器などであってもよい)に本明細書の各実施例または実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。
【0157】
説明すべき点については、本明細書の各実施例はプログレッシブな方式で記載され、各実施例はその他の実施形態との相違点について重点を置いて記載され、各実施例の間の同
じまたは類似の部分は互いに参照することがある。実施例で開示された装置にとっては、実施例で開示された方法に対応するため、簡単に記載され、関連部分について方法の説明を参照すればよい。
【0158】
また、説明すべき点については、本明細書で、「第1」及び「第2」のような関係用語は1つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの実体或いは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「1つの…を含む」という文言によって限定される要素は、それ以上の制限がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。
【0159】
開示された実施例の上記の説明から、当業者が本出願を実現または使用することを可能にする。これらの実施例のさまざまな修正は当業者に明らかであり、本明細書で定義された一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は本明細書で示されたこれらの実施例に限定されなく、本明細書で公開されている原理や新規特徴と一致する最も広い範囲と一致しなければならない。