IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

<>
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図1
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図2
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図3
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図4
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図5
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図6
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図7
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図8
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図9
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図10
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図11
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図12
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図13
  • 特許-翻訳方法、翻訳装置及び翻訳システム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-25
(45)【発行日】2022-08-02
(54)【発明の名称】翻訳方法、翻訳装置及び翻訳システム
(51)【国際特許分類】
   G06F 40/44 20200101AFI20220726BHJP
【FI】
G06F40/44
【請求項の数】 24
(21)【出願番号】P 2017245282
(22)【出願日】2017-12-21
(65)【公開番号】P2018120584
(43)【公開日】2018-08-02
【審査請求日】2020-08-19
(31)【優先権主張番号】10-2017-0012361
(32)【優先日】2017-01-26
(33)【優先権主張国・地域又は機関】KR
【前置審査】
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】李 知 ▲ひょん▼
(72)【発明者】
【氏名】羅 輝 棟
(72)【発明者】
【氏名】李 鎬 式
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2015-121992(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
翻訳装置が実行する翻訳方法であって、
ソース文章から、予め決定されたタイプに該当するソースワードを順に選択するステップと、
前記選択されたソースワードにマッピングされる前記選択されたソースワードの位置情報を含むマッピング情報を生成するステップと、
前記ソース文章を翻訳して生成されたターゲットワードに対する特徴値に対応するソースワードの位置情報及び前記マッピング情報に基づいて前記ターゲットワードを補正するステップであって、前記特徴値は、翻訳の際に前記ターゲットワードが選択されることに各ソースワードが寄与している程度を示す、ステップと、
を含み、前記予め決定されたタイプは、固有名詞、数字、数字と文字を含むワード、ターゲット言語で表記されたワード、辞書に登録されていないワード、及びそのうちの1つ以上を含む句のうちいずれか1つに該当し、前記ターゲットワードを補正するステップは、前記ターゲットワードに対して最大特徴値をもたらすソースワードの位置情報が前記マッピング情報に含まれていた場合、前記ターゲットワードを、前記位置情報にマッピングされているソースワードに代替するステップを含む、翻訳方法。
【請求項2】
前記ターゲットワードを補正するステップは、
ワード単位より小さなサブターゲットワードを複数個連結したターゲットワードが決定された場合、前記ターゲットワードに基づいて前記サブターゲットワードそれぞれに対する最大特徴値を決定するステップと、
前記最大特徴値に対応するソースワードの位置情報が前記マッピング情報に含まれている場合、前記ターゲットワードを、前記位置情報にマッピングされているソースワードに代替するステップと、
を含む、請求項1に記載の翻訳方法。
【請求項3】
前記ターゲットワードを補正するステップは、
前記ソース文章の翻訳を完了して生成されたターゲット文章から、前記予め決定されたタイプに該当するターゲットワードを選択するステップと、
前記選択されたターゲットワードに対する最大特徴値に対応するソースワードの位置情報が前記マッピング情報に含まれているか否かを決定するステップと、
前記最大特徴値に対応するソースワードの位置情報が前記マッピング情報に含まれている場合、前記選択されたターゲットワードを、前記位置情報にマッピングされているソースワードに代替するステップと、
を含む、請求項1に記載の翻訳方法。
【請求項4】
前記ターゲットワードを補正するステップは、
前記ソース文章の翻訳を完了して生成されたターゲット文章のターゲットワードであって、ワード単位より小さなサブターゲットワードを複数個連結してターゲットワードを決定するステップと、
前記決定されたターゲットワードが、前記予め決定されたタイプに該当する場合、前記サブターゲットワードそれぞれに対する最大特徴値のうちの最大値又は平均値を代表値として決定するステップと、
前記代表値に対応するソースワードの位置情報が前記マッピング情報に含まれているか否かを決定するステップと、
前記代表値に対応するソースワードの位置情報が前記マッピング情報に含まれている場合、前記決定されたターゲットワードを、前記代表値の位置情報にマッピングされているソースワードに代替するステップと、
を含む、請求項1に記載の翻訳方法。
【請求項5】
前記選択されたソースワードを前処理するステップを含み、前記前処理は、前記選択されたソースワードの表記をローマ字化すること、又は選択された複数のソースワードをカンマなしに並べることを含む、請求項1に記載の翻訳方法。
【請求項6】
前記ソース文章がワード単位より小さなサブワードレベル又は文字レベルのワードで構成される文章である場合、前記ソース文章内のワード単位より小さなサブソースワード又はサブソース文字を、ワード単位の単一ソースワードに変換するステップをさらに含む、請求項1ないしのうち何れか一項に記載の翻訳方法。
【請求項7】
前記マッピング情報を生成するステップは、前記単一ソースワードが、前記予め決定されたタイプに該当する場合、前記ソース文章における前記サブソースワード又は前記サブソース文字それぞれの位置情報を前記単一ソースワードとマッピングするステップを含む、請求項に記載の翻訳方法。
【請求項8】
前記ターゲットワードは、前記ソース文章のニューラル機械翻訳によって生成される、請求項1ないしのうち何れか一項に記載の翻訳方法。
【請求項9】
前記ターゲットワードを補正するステップは、前記ソース文章がターゲット文章における翻訳が完了した後実行される、請求項1に記載の翻訳方法。
【請求項10】
前記ターゲットワードを補正するステップは、前記ターゲットワードが決定されるとき、又は補正される前のターゲット文章が出力されるときに実行される、請求項1に記載の翻訳方法。
【請求項11】
請求項1ないし10のうちいずれか一項に記載の翻訳方法を翻訳装置のコンピュータに実行させるコンピュータプログラム。
【請求項12】
コントローラと、
前記コントローラによって実行可能な少なくとも1つの命令語を含むメモリと、
を含み、前記少なくとも1つの命令語が前記コントローラで実行されると、前記コントローラは、
ソース文章から、予め決定されたタイプに該当するソースワードを順に選択するステップと、
前記選択されたソースワードにマッピングされる前記選択されたソースワードの位置情報を含むマッピング情報を生成するステップと、
前記ソース文章を翻訳して生成されたターゲットワードに対する特徴値に対応するソースワードの位置情報及び前記マッピング情報に基づいて前記ターゲットワードを補正するステップであって、前記特徴値は、翻訳の際に前記ターゲットワードが選択されることに各ソースワードが寄与している程度を示す、ステップと、
を実行し、前記予め決定されたタイプは、固有名詞、数字、数字と文字を含むワード、ターゲット言語で表記されたワード、辞書に登録されていないワード、及びそのうちの1つ以上を含む句のうちいずれか1つに該当し、前記ターゲットワードを補正するステップは、前記ターゲットワードに対して最大特徴値をもたらすソースワードの位置情報が前記マッピング情報に含まれていた場合、前記ターゲットワードを、前記位置情報にマッピングされているソースワードに代替するステップを含む、翻訳装置。
【請求項13】
前記コントローラは、
ワード単位より小さなサブターゲットワードを複数個連結したターゲットワードが決定された場合、前記ターゲットワードに基づいて前記サブターゲットワードそれぞれに対する最大特徴値を決定するステップと、
前記最大特徴値に対応するソースワードの位置情報が前記マッピング情報に含まれている場合、前記ターゲットワードを、前記位置情報とマッピングされているソースワードに代替するステップと、
を実行する、請求項12に記載の翻訳装置。
【請求項14】
前記コントローラは、
前記ソース文章の翻訳を完了して生成された文章から、前記予め決定されたタイプに該当するターゲットワードが選択される場合、前記選択されたターゲットワードに対する最大特徴値に対応するソースワードの位置情報が前記マッピング情報に含まれているか否かを決定するステップと、
前記最大特徴値に対応するソースワードの位置情報が前記マッピング情報に含まれている場合、前記選択されたターゲットワードを、前記位置情報にマッピングされているソースワードに代替するステップと、
を実行する、請求項13に記載の翻訳装置。
【請求項15】
前記コントローラは、
前記ソース文章の翻訳を完了して生成されたターゲット文章のターゲットワードであって、ワード単位より小さなサブターゲットワードを複数個連結してターゲットワードを決定するステップと、
前記決定されたターゲットワードが、前記予め決定されたタイプに該当する場合、前記サブターゲットワードそれぞれに対する最大特徴値のうちの最大値又は平均値を代表値として決定するステップと、
前記代表値に対応するソースワードの位置情報が前記マッピング情報に含まれているか否かを決定するステップと、
前記代表値に対応するソースワードの位置情報が前記マッピング情報に含まれている場合、前記決定されたターゲットワードを、前記代表値の位置情報にマッピングされているソースワードに代替するステップと、
を実行する、請求項12に記載の翻訳装置。
【請求項16】
前記コントローラは、前記選択されたソースワードを前処理するステップを実行し、前記前処理は、前記選択されたソースワードの表記をローマ字化すること、又は選択された複数のソースワードをカンマなしに並べることを含む、請求項12に記載の翻訳装置。
【請求項17】
前記コントローラは、前記ソース文章がワード単位より小さなサブワードレベル又は文字レベルで構成される文章である場合、前記ソース文章内のワード単位より小さなサブソースワード又はサブソース文字を、ワード単位の単一ソースワードに変換するステップを実行する、請求項12ないし16のうち何れか一項に記載の翻訳装置。
【請求項18】
前記コントローラは、前記単一ソースワードが、前記予め決定されたタイプに該当する場合、前記ソース文章における前記サブソースワード又は前記サブソース文字それぞれの位置情報を前記単一ソースワードとマッピングするステップを実行する、請求項17に記載の翻訳装置。
【請求項19】
前記ターゲットワードは、前記ソース文章のニューラル機械翻訳によって生成される、請求項12ないし18のうち何れか一項に記載の翻訳装置。
【請求項20】
前記コントローラは、ーゲット文章におけるターゲットワードが決定されるときに、前記ターゲットワードを補正するステップを実行する、請求項12に記載の翻訳装置。
【請求項21】
前記コントローラは、補正される前のターゲット文章が出力されるときに前記ターゲットワードを補正するステップを実行する、請求項12に記載の翻訳装置。
【請求項22】
ソース文章から、予め決定されたタイプに該当するソースワードを順に選択し、前記選択されたソースワードとマッピングされる前記選択されたソースワードの位置情報を含むマッピング情報を生成する文章分析器と、
前記ソース文章の翻訳に基づいてターゲットワードを決定する翻訳機と、
前記ターゲットワードそれぞれが決定されるごとに決定されたターゲットワードに対する特徴値に対応するソースワードの位置情報及び前記マッピング情報に基づいて、前記決定されたターゲットワードを補正するか否かを決定する補正器であって、前記特徴値は、翻訳の際に前記ターゲットワードが選択されることに各ソースワードが寄与している程度を示し、ターゲット文章の翻訳が終了した場合、前記ターゲット文章から選択されたターゲットワードに対する特徴値に対応するソースワードの位置情報及び前記マッピング情報に基づいて前記選択されたターゲットワードを補正するか否かを決定する補正器と、
を含み、前記予め決定されたタイプは、固有名詞、数字、数字と文字を含むワード、ターゲット言語で表記されたワード、辞書に登録されていないワード、及びそのうちの1つ以上を含む句のうちいずれか1つに該当し、前記補正器は、前記ターゲットワードに対して最大特徴値をもたらすソースワードの位置情報が前記マッピング情報に含まれていた場合、前記ターゲットワードを、前記位置情報にマッピングされているソースワードに代替する、翻訳システム。
【請求項23】
前記選択されたソースワードの位置情報は、前記ソース文章における前記選択されたソースワードの位置を示す、請求項1に記載の翻訳方法。
【請求項24】
前記選択されたソースワードの位置情報は、前記ソース文章における前記選択されたソースワードの位置を示す、請求項12に記載の翻訳装置。
【発明の詳細な説明】
【技術分野】
【0001】
下記の実施形態は翻訳方法及び装置と翻訳システムに関する。
【背景技術】
【0002】
ユーザは、母国語ではない他の言語の文章、節、句、又は、ワードを機械翻訳を用いて翻訳する。機械翻訳の結果に誤りがあれば、ユーザは機械翻訳結果を理解することが難しい。そのため、他の言語の文章を正確に翻訳することが重要である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
一実施形態によれば、翻訳エラーが最小化されて翻訳正確度が増加する。
【課題を解決するための手段】
【0004】
一側面に係る翻訳方法は、ソース文章からソースワードを選択するステップと、前記選択されたソースワードにマッピングされる前記選択されたソースワードの位置情報を含むマッピング情報を生成するステップと、前記ソース文章を翻訳して生成されたターゲットワードに対する特徴値の位置情報及び前記マッピング情報に基づいて前記ターゲットワードを補正するステップとを含む。
【0005】
前記ターゲットワードを補正するステップは、前記特徴値の位置情報が前記マッピング情報に含まれているか否かを決定するステップと、前記特徴値の位置情報が前記マッピング情報に含まれた場合、前記ターゲットワードを前記特徴値の位置情報とマッピングされたソースワードに代替するステップとを含み得る。
【0006】
前記ターゲットワードを補正するステップは、サブターゲットワードに基づいて前記ターゲットワードが決定された場合、前記サブターゲットワードそれぞれに対する最大特徴値を決定するステップと、各最大特徴値の位置情報が前記マッピング情報に含まれた場合、前記ターゲットワードを前記各最大特徴値の位置情報とマッピングされたソースワードに代替するステップとを含み得る。
【0007】
前記ターゲットワードを補正するステップは、前記ソース文章の翻訳を完了して生成されたターゲット文章から予め決定したタイプに該当するターゲットワードを選択するステップと、前記選択されたターゲットワードに対する最大特徴値の位置情報が前記マッピング情報に含まれているか否かを決定するステップと、前記最大特徴値の位置情報が前記マッピング情報に含まれた場合、前記選択されたターゲットワードを前記最大特徴値の位置情報とマッピングされたソースワードに代替するステップとを含み得る。
【0008】
前記ターゲットワードを補正するステップは、前記ソース文章の翻訳を完了して生成されたターゲット文章のサブターゲットワードに基づいてターゲットワードを決定するステップと、前記決定されたターゲットワードが予め決定したタイプに該当する場合、前記サブターゲットワードそれぞれに対する最大特徴値から代表値を決定するステップと、前記代表値の位置情報が前記マッピング情報に含まれているか否かを決定するステップと、前記代表値の位置情報が前記マッピング情報に含まれた場合、前記決定されたターゲットワードを前記代表値の位置情報とマッピングされたソースワードに代替するステップとを含み得る。
【0009】
前記選択されたソースワードは、固有名詞、数字、数字と文字を含むワード、ターゲット言語で表記されたワード、辞書に登録されていないワード、及びそのうちの1つ以上を含む句のうちいずれか1つに該当し得る。
【0010】
前記翻訳方法は、前記選択されたソースワードを前処理するステップをさらに含み得る。
【0011】
前記選択されたソースワードを前処理するステップは、前記選択されたソースワードの表記を変更するステップを含み得る。
【0012】
前記ソース文章がサブワードレベル又は文字レベルの文章である場合、前記ソース文章内のサブソースワード又はサブソース文字を単一ソースワードに変換するステップをさらに含み得る。
【0013】
前記マッピング情報を生成するステップは、前記単一ソースワードが予め決定したタイプに該当する場合、前記ソース文章における前記サブソースワード又は前記ソース文字それぞれの位置情報を前記単一ソースワードとマッピングするステップを含み得る。
【0014】
前記ターゲットワードは、前記ソース文章のニューラル機械翻訳によって生成され得る。
【0015】
前記ターゲットワードを補正するステップは、前記ソース文章が前記ターゲット文章における翻訳が完了した後実行される。
【0016】
前記ターゲットワードを補正するステップは、前記ソース文章の翻訳が完了する前に前記ソース文章を翻訳する間に実行され得る。
【0017】
一実施形態に係る翻訳装置は、コントローラと、前記コントローラによって実行可能な少なくとも1つの命令語を含むメモリとを含み、前記少なくとも1つの命令語が前記コントローラで実行されれば、前記コントローラはソース文章からソースワードを選択し、前記選択されたソースワードにマッピングされる前記選択されたソースワードの位置情報を含むマッピング情報を生成し、前記ソース文章を翻訳して生成されたターゲットワードに対する特徴値の位置情報及び前記マッピング情報に基づいて前記ターゲットワードを補正する。
【0018】
前記コントローラは、前記特徴値の位置情報が前記マッピング情報に含まれているか否かを決定し、前記特徴値の位置情報が前記マッピング情報に含まれた場合、前記ターゲットワードを前記特徴値の位置情報とマッピングされたソースワードに代替し得る。
【0019】
前記コントローラは、サブターゲットワードに基づいて前記ターゲットワードが決定された場合、前記サブターゲットワードそれぞれに対する最大特徴値を決定し、各最大特徴値の位置情報が前記マッピング情報に含まれた場合、前記ターゲットワードを前記各最大特徴値の位置情報とマッピングされたソースワードに代替し得る。
【0020】
前記コントローラは、前記ソース文章の翻訳を完了して生成された文章から予め決定したタイプに該当するターゲットワードが選択される場合、前記選択されたターゲットワードに対する最大特徴値の位置情報が前記マッピング情報に含まれているか否かを決定し、前記最大特徴値の位置情報が前記マッピング情報に含まれた場合、前記選択されたターゲットワードを前記最大特徴値の位置情報とマッピングされたソースワードに代替し得る。
【0021】
前記コントローラは、前記ソース文章の翻訳を完了して生成されたターゲット文章のサブターゲットワードに基づいてターゲットワードを決定し、前記決定されたターゲットワードが予め決定したタイプに該当する場合、前記サブターゲットワードそれぞれに対する最大特徴値から代表値を決定し、前記代表値の位置情報が前記マッピング情報に含まれているか否かを決定し、前記代表値の位置情報が前記マッピング情報に含まれた場合、前記決定されたターゲットワードを前記代表値の位置情報とマッピングされたソースワードに代替し得る。
【0022】
前記選択されたソースワードは、固有名詞、数字、数字と文字を含むワード、ターゲット言語で表記されたワード、辞書に登録されていないワード、及びこのうち1つ以上を含む句のいずれか1つに該当する。
【0023】
前記コントローラは、前記選択されたソースワードを前処理し得る。
【0024】
前記コントローラは、前記選択されたソースワードの表記を変更し得る。
【0025】
前記コントローラは、前記ソース文章がサブワードレベル又は文字レベルの文章である場合、前記ソース文章内のサブソースワード又はサブソース文字を単一ソースワードに変換し得る。
【0026】
前記コントローラは、前記単一ソースワードが予め決定したタイプに該当する場合、前記ソース文章における前記サブソースワード又は前記ソース文字それぞれの位置情報を前記単一ソースワードとマッピングし得る。
【0027】
前記ターゲットワードは、前記ソース文章のニューラル機械翻訳によって生成され得る。
【0028】
前記コントローラは、前記ソース文章が前記ターゲット文章における翻訳が完了した後前記ターゲットワードを補正し得る。
【0029】
前記コントローラは、前記ソース文章の翻訳が完了する前に前記ソース文章を翻訳する間に前記ターゲットワードを補正し得る。
【0030】
一実施形態に係る翻訳システムは、ソース文章からソースワードを選択し、前記選択されたソースワードとマッピングされた前記選択されたソースワードの位置情報を含むマッピング情報を生成する文章分析器と、前記ソース文章の翻訳に基づいてターゲットワードを決定する翻訳機と、前記ターゲットワードそれぞれが決定されるごとに決定されたターゲットワードに対する特徴値の位置情報及び前記マッピング情報に基づいて前記決定されたターゲットワードを補正するか否かを決定し、前記ターゲット文章が完成された場合、前記ターゲット文章から選択されたターゲットワードに対する特徴値の位置情報及び前記マッピング情報に基づいて前記選択されたターゲットワードを補正するか否かを決定する補正器とを含む。
【0031】
前記補正器は、前記決定されたターゲットワードに対する最大特徴値の位置情報が前記マッピング情報に含まれた場合、前記決定されたターゲットワードを前記最大特徴値の位置情報とマッピングされたソースワードに代替し得る。
【0032】
前記補正器は、前記選択されたターゲットワードに対する最大特徴値の位置情報が前記マッピング情報に含まれた場合、前記選択されたターゲットワードを前記最大特徴値の位置情報とマッピングされたソースワードに代替し得る。
【0033】
前記選択されたソースワードの位置情報は、前記ソース文章における前記選択されたソースワードの位置を示し得る。
【0034】
前記特徴値は、ソースワードのうち前記選択されたソースワードが機械翻訳が実行されながら前記ターゲットワードを決定するために寄与する程度を示し得る。
【0035】
前記特徴値は、ソースワードのうち前記選択されたソースワードが機械翻訳が実行されながら前記ターゲットワードを決定するために寄与する程度を示し得る。
【0036】
前記選択されたソースワードの位置情報は、前記ソース文章における前記選択されたソースワードの位置を示し得る。
【発明の効果】
【0037】
一実施形態によれば、翻訳エラーが最小化されて翻訳正確度が増加する。
【図面の簡単な説明】
【0038】
図1】一実施形態に係る翻訳システムの動作の一例を説明するための図である。
図2】一実施形態に係る文章分析器の動作を説明するための図である。
図3】一実施形態に係る翻訳機の動作を説明するための図である。
図4】一実施形態に係る翻訳機の動作を説明するための図である。
図5】一実施形態に係る翻訳機の動作を説明するための図である。
図6】一実施形態に係る補正器の動作の一例を説明するための図である。
図7】一実施形態に係る補正器の動作の一例を説明するための図である。
図8】一実施形態に係る補正器の動作の他の一例を説明するための図である。
図9】一実施形態に係る補正器の動作の他の一例を説明するための図である。
図10】一実施形態に係る翻訳システムの動作の他の一例を説明するための図である。
図11】一実施形態に係る翻訳補正装置を説明するためのブロック図である。
図12】一実施形態に係る翻訳補正方法の一例を説明するためのフローチャートである。
図13】一実施形態に係る翻訳補正方法の他の一例を説明するためのフローチャートである。
図14】一実施形態に係る翻訳補正方法の更なる一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0039】
以下、実施形態を添付する図面を参照しながら詳細に説明する。
【0040】
以下で説明する実施形態には様々な変更が加えられる。以下で説明する実施形態は実施形態に対して限定しようとするものではなく、これに対する全ての変更、均等物ないし代替物を含むものとして理解されなければならない。
【0041】
本明細書で用いた用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0042】
異なる定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0043】
また、添付図面を参照して説明することにおいて、図面符号に関係なく同一の構成要素は同一の参照符号を付与し、これに対する重複する説明は省略することにする。実施形態の説明において関連する公知技術に対する具体的な説明が実施形態の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
【0044】
図1は、一実施形態に係る翻訳システムを説明するための図である。図1を参照すると、一実施形態に係る翻訳システム100は、文章分析器110、翻訳機120、及び補正器130を含む。
【0045】
文章分析器110はソース文章を分析する。例えば、文章分析器110は、ソース文章に形態素分析、構文分析などを行う。文章分析器110は、ソース文章の分析によりコピーリスト(copy list)を生成する。コピーリストは、ターゲット文章でコピーする1つ以上のソースワード及び当該ソースワードの位置情報を含む。文章分析器110の動作については図2を参照して後述する。
【0046】
翻訳機120は、ソース文章に機械翻訳を行ってターゲット文章を完成する。例えば、翻訳機120は、ソース文章を符号化し、復号化によってターゲットワードそれぞれを順次決定し、ターゲットワードを含むターゲット文章を完成する。翻訳機120の動作については図3図5を参照して後述する。
【0047】
補正器130は、復号化時点ごとに(相違する表現で言えば、ターゲットワードそれぞれが決定されるごとに)動作したりターゲット文章が完成されたとき(相違する表現で言えば、全体の復号化が完了したとき)に動作する。一例として、補正器130は、現在の復号化時点tのターゲットワードが決定されれば、現在の時点tのターゲットワードを補正することを決定する。当該決定は、現在の復号化時点tのターゲットワードに対する特徴値のうち少なくとも1つ(例えば、最大特徴値)に関するソースワード位置及びコピーリストに基づく。このような補正器130の動作に対する一例を図6図7を参照して後述する。異なる一例として、補正器130は、ターゲット文章が完成されれば、ターゲット文章の一部ターゲットワードに対する特徴値のうち少なくとも1つ(例えば、最大特徴値)に関するソースワード位置及び当該ソースワード位置がコピーリストにあるか否かに基づいて一部ターゲットワードを補正するかを決定する。このような補正器130の動作については図8図9を参照して後述することにする。
【0048】
補正器130の動作によって翻訳システム100は、補正されたターゲット文章を生成する。そのため、翻訳エラーが最小化されて翻訳正確度が増加し得る。
【0049】
図2は、一実施形態に係る文章分析器の動作を説明するための図である。
【0050】
文章分析器200は、例えば、下記の第1ソース文章及び第2ソース文章を分析すると仮定する。
【0051】
第1ソース文章:以後にその数値は続けて減少した。1990年に4、868、520人、2000年に4、019、991人、そして昨年に3、829、998人であった
第2ソース文章:Hutton、ソク・ミヨン、及びLee Jihyunは相続された家を売ったが譲渡所得税1000万ウォンが賦課された
下記の表1は、第1ソース文章のソースワードの位置情報の一例であり、下記の表2は、第2ソース文章のソースワードの位置情報の一例を示す。
【0052】
【表1】
【0053】
【表2】
文章分析器200は、ソース文章の1つ以上のソースワードを選択する(S210)。文章分析器200は、翻訳エラーが発生し得るソースワードを予め選択する。一実施形態において、文章分析器200は、ソース文章のソースワードのうち予め決定したタイプに該当するソースワードを選択する。例えば、文章分析器200は、固有名詞、数字、数字と文字(一例として、アルファベット、特殊文字など)を含むワード(一例として、口座番号、電話番号、モデル名)、ターゲット言語に表記されたワード、辞書に登録されていないワード、及びそのうちの1つ又は2以上を含む複合名詞/句(phrase)のうち少なくとも1つに該当するソースワードを選択する。
【0054】
例えば、文章分析器200は、上記の第1ソース文章で数字に該当する「1990」、「4、868、520」、「2000」、「4、019、991」、及び「3、829、998」を選択する。文章分析器200は、第2ソース文章で固有名詞に該当する「Hutton」、「ソク・ミヨン」、「Lee」、及び「Jihyun」を選択する。また、文章分析器200は、第2ソース文章で数字に該当する「1000万」を選択する。
【0055】
文章分析器200は、選択されたソースワードを前処理する(S220)。文章分析器200は、選択されたソースワードの表記を変更する。例えば、文章分析器200は、固有名詞「ソク・ミヨン」をローマ字化(Romanization)して「Seok MiYeon」に変更し、「1000万」を「10million」又は「10、000、000」に変更する。また、文章分析器200は、選択されたソースワードを1つのソースワードに処理する。例えば、文章分析器200は「Lee」及び「Jihyun」がカンマ(comma)なしに互いに隣接しているソースワードであるため、「Lee」及び「Jihyun」を1つのソースワード「Lee Jihyun」として処理する。
【0056】
文章分析器200は、選択されたソースワードと選択されたソースワードの位置情報を含むコピーリストを生成する(S230)。相違する表現で言えば、文章分析器200は、選択されたソースワードと選択されたソースワードの位置情報が互いにマッピングされたマッピング情報を生成する。選択されたソースワードが前処理された場合、文章分析器200は、選択されたソースワードの位置情報と前処理結果を互いにマッピングする。例えば、文章分析器200は「ソク・ミヨン」の前処理結果である「Seok MiYeon」と「ソク・ミヨン」の位置情報3を互いにマッピングし、「1000万」の前処理結果である「10million」を「1000万」の位置情報14とマッピングする。また、文章分析器200は、「Lee」及び「Jihyun」の前処理結果である「Lee Jihyun」を「Lee」の位置情報6と「Jihyun」の位置情報7をマッピングする。
【0057】
下記の表3は、第1ソース文章に対するコピーリストの一例であり、下記の表4は、第2ソース文章に対するコピーリストの一例を示す。
【0058】
【表3】
後述するが、補正器(図示せず)は、文章分析器200が生成したコピーリストを用いることができる。
【0059】
図3図5は、一実施形態に係る翻訳機の動作を説明するための図である。
【0060】
翻訳機は、ソース文章を符号化するエンコーダ310と符号化の結果をターゲット言語に復号化するデコーダ330を含むNMT(Neural Machine Translation)モデルであってもよい。ここで、エンコーダ310及びデコーダ330は、ニューラルネットワーク(例えば、再帰的ニューラルネットワーク(Recurrent Neural Network:RNN))に基づく。
【0061】
また、NMTモデルの翻訳機には、ソースワードとソースワードに対応するターゲットワードを整列し得る寄与度機構(メカニズム)(attention mechanism)が適用される。図3に示す例のように、寄与度機構(メカニズム)が適用された翻訳機は、エンコーダ310及びデコーダ330とターゲットワードを決定するために用いられる特徴値を算出する中間ネットワーク320を含む。以下、図4及び5を参照しながら寄与度機構(メカニズム)が適用された翻訳機の動作について説明する。
【0062】
図4を参照すると、翻訳機は、ソース文章のソースワードx、x、...、xそれぞれを符号化する。x、x、...、xで下付き文字1、2、...、nはソースワードの位置情報を示す。ソースワードの符号化の結果、ベクトルh、h、...、hが生成される。ベクトルh、h、...、hそれぞれは実数ベクトルである。
【0063】
ソースワードが符号化されれば、翻訳機は復号化によりターゲットワードを順次決定する。図4に示された例の場合、ターゲットワードyが決定される順であると仮定する。言い換えれば、現在の復号化時点がtであると仮定する。
【0064】
翻訳機は、特徴値at,1、at,2、...、at,nを算出する。一実施形態において、翻訳機は、以前の復号化時点のターゲットワードyt-1に対するRNN隠れ状態情報st-1とベクトルh、h、...、hに基づいて特徴値at,1、at,2、...、at,nを算出する。例えば、翻訳機はst-1とhに基づいてat,1を算出し、at,1の算出方法と同様に、残りの特徴値at,2、...、at,nを算出する。
【0065】
特徴値は、ベクトル(又は、ソースワード)がターゲットワードyを決定するために寄与する程度を示す。例えば、at,1は、h(又は、位置情報1に該当するソースワード)がターゲットワードyを決定するために寄与する程度を示し、at,nは、h(又は、位置情報nに該当するソースワード)がターゲットワードyを決定するために寄与する程度を示す。
【0066】
特徴値は、寄与度(attention)値のように相違する言い方で表現されてもよい。
【0067】
翻訳機は、特徴値とベクトルを用いてコンテキストベクトルcを算出する。例えば、翻訳機はc=at,1×h+at,2×h+...+at,n×hに算出する。
【0068】
翻訳機は、コンテキストベクトルc、以前の復号化時点のターゲットワードyt-1に対するRNN隠れ状態情報st-1、及び以前の復号化時点のターゲットワードyt-1に基づいて現在の復号化時点のRNN隠れ状態情報sを決定する。翻訳機は、現在の復号化時点のRNN隠れ状態情報sに基づいて復号化を行ってターゲットワードyを決定し得る。
【0069】
図5に示された例において、第1ソース文章510が翻訳機に入力されると仮定する。翻訳機は、第1ソース文章510のソースワードそれぞれを符号化してベクトルh、h、...、h19を生成する。
【0070】
4個のターゲットワード「After」、「that」、「カンマ(、)」、及び「the」が決定されたとき、翻訳機は、5番目のターゲットワードを決定する順である。したがって、現在の復号化時点t=5であり、翻訳機は、特徴値a5,1、a5,2、...、a5,19を算出する。翻訳機はベクトルh、h、...、h19と特徴値a5,1、a5,2、...、a5,19を用いてコンテキストベクトルcを算出する。翻訳機は、コンテキストベクトルc、以前のターゲットワード「the」に対するRNN隠れ状態情報、及び以前のターゲットワード「the」に基づいて現在の復号化時点のRNN隠れ状態情報を決定する。翻訳機は、現在の復号化時点のRNN隠れ状態情報に基づいて復号化を行ってターゲットワード「figure」を決定する。ここで、ターゲットワード「figure」を決定するためにベクトルh(相違する表現で言えば、ソースワード「数値は」)の寄与度が最大である。言い換えれば、a5,1、a5,2、...、a5,19のうちa5,3が最大特徴値に該当する。
【0071】
翻訳機は、その後、復号化時点ごとにターゲットワードを決定し、ターゲットワードを含むターゲット文章を完成する。
【0072】
図6図7は、一実施形態に係る補正器の動作の一例を説明するための図である。
【0073】
図6を参照すると、現在の復号化時点tでターゲットワードyが決定された時の補正器600の動作が示されている。補正器600は、ターゲットワードyに対する最大特徴値を決定する(S610)。最大特徴値は、ターゲットワードyに対する特徴値at,1、at,2、...、at,nのうち最大値を示す。補正器600は、最大特徴値の位置情報がコピーリストに含まれているか否かを決定する(S620)。最大特徴値の位置情報は、最大特徴値の算出に利用されたベクトルと対応するソースワードの位置情報を示す。最大特徴値の位置情報がコピーリストに含まれば、補正器600は、ターゲットワードyを最大特徴値に関する位置情報とマッピングされたソースワードに代替する(S630)。最大特徴値の位置情報がコピーリストに含まれなければ、補正器600はターゲットワードyを保持する(S640)。相違する表現で言えば、最大特徴値の位置情報がコピーリストに含まれていなければ、補正器は、ターゲットワードyを補正することができないことがある。
【0074】
図7に示された例で、翻訳機が復号化時点5でターゲットワード「figure」を決定した仮定する(S730)。補正器は、ターゲットワード「figure」に対する特徴値a5,1、a5,2、...、a5,19のうち最大値を決定する。ここで、a5,1、a5,2、...、a5,19のうちa5,3が最大値に該当する。最大値に対しては図5を参照して説明したため、詳しい説明を省略する。最大値が決定されれば、補正器はa5,3の位置情報を確認する。例えば、a5,3の算出時ベクトルhが利用されたため、補正器はベクトルhに対応するソースワードの位置情報3をa5,3の位置情報として確認し得る。補正器は、位置情報3がコピーリスト720に含まれているかを決定する。位置情報3は、コピーリスト720に含まれていないため、補正器はターゲットワード「figure」を保持する。
【0075】
翻訳機が復号化時点6~9で順次にターゲットワードを決定し、復号化時点10でターゲットワード「486、820」を決定する(S740)。補正器は、ターゲットワード「486、820」に対する特徴値a10,1、a10,2、...、a10,19のうち最大値を決定する。a10,1、a10,2、...、a10,18のうちa10,8が最大値に該当するため、翻訳機はターゲットワード「486、820」を決定するために位置情報8に該当するソースワード「4、868、520」に最も集中した。補正器はa10、8の位置情報8がコピーリスト720に含まれているか否かを決定する。位置情報8は、コピーリスト720に含まれているため、補正器は、ターゲットワード「486、820」をコピーリスト内の位置情報8とマッピングされた「4、868、520」に代替し得る。
【0076】
翻訳機は、その後、復号化時点でターゲットワードを決定し、補正器はその後、復号化時点ごとにターゲットワードを補正したり補正することができないことがある。
【0077】
補正されたターゲットワードを含む補正されたターゲット文章750が示されている。補正されたターゲット文章750で補正器によってターゲットワード「486、820」が補正されたターゲットワード「4、868、520」に代替され、ターゲット文章750の翻訳エラーが減少して翻訳の正確度が増加できる。
【0078】
図8図9は、一実施形態に係る補正器の動作の他の一例を説明するための図である。
【0079】
図8を参照すると、ターゲット文章が完成された時の補正器800の動作が示されている。補正器800は、翻訳機からターゲット文章及びターゲットワードそれぞれに対する最大特徴値を受信する。補正器は、ターゲットワードが予め決定したタイプに該当するか否かを決定する。補正器は、補正が必要な予め決定したタイプに該当する1つ以上のターゲットワードを選択する(S810)。補正器は、選択された1つ以上のターゲットワードに対する最大特徴値の位置情報がコピーリストに含まれているか否かを決定する(S820)。最大特徴値の位置情報がコピーリストに含まれば、補正器は選択されたターゲットワードを最大特徴値の位置情報とマッピングされたソースワードに代替する(S830)。最大特徴値の位置情報がコピーリストに含まれていなければ、補正器は選択されたターゲットワードを保持する(S840)。
【0080】
図9に示された例において、翻訳機920がソース文章910に対応するターゲット文章930を完成すると、補正器はターゲット文章930と「Sukmyun」に対する最大特徴値a1,1など、ターゲットワードそれぞれに対する最大特徴値を翻訳機から受信する。最大特徴値に対して上述したように、位置情報1に該当するソースワード「ソク・ミヨンは」が「Sukmyun」を決定するために最も大きい寄与をしたため、「Sukmyun」に対する最大特徴値はa1,1に該当する。
【0081】
補正器は、ターゲット文章930で予め決定したタイプ(例えば、固有名詞、数字、及び文字を含むワード、予め登録されていないワード、又は、数字など)に該当するターゲットワードを選択する。補正器は、ターゲット文章930から予め登録されていないワード又は固有名詞に該当する「Sukmyun」と数字に該当する「100」及び「million」を選択する。
【0082】
補正器は、「Sukmyun」に対する最大特徴値a1,1、「100」に対する最大特徴値a8,8、及び「million」に対する最大特徴値a9,8それぞれの位置情報を確認する。ここで、補正器はa1,1の位置情報を1に確認され、a8,8及びa9,8それぞれの位置情報を8に確認される。
【0083】
補正器は、位置情報1がコピーリスト940に含まれているかを決定する。位置情報1は、コピーリスト940に含まれており、補正器は「Sukmyun」を位置情報1とマッピングされた「Seok MiYeon」に代替し得る。
【0084】
選択されたターゲットワード「100」及び「million」それぞれに対する最大特徴値の位置情報は互いに同一であってもよい。図9に示した例のように、a8、8及びa9、8それぞれの位置情報は8として同一である。この場合、補正器は、当該の位置情報がコピーリスト940に含まれば、選択されたターゲットワードを当該位置情報とマッピングされたソースワードに代替し得る。図9に示された例の場合、位置情報8はコピーリスト940に含まれており、補正器は、選択されたターゲットワードを順に結合した「100million」を位置情報8とマッピングされた「10million」に代替し得る。
【0085】
補正されたターゲット文章950が示されている。ソース文章910内の固有名詞が未知の(unknown)ワードとして処理された場合、又は正確に翻訳され難い場合、補正されたターゲット文章950は、ソース文章910内の固有名詞(又は、前処理された固有名詞)をそのまま含んでもい。例えば、固有名詞「ソク・ミヨン」が未知の(unknown)ワードではない「Sukmyun」として翻訳された場合、補正されたターゲット文章950で前処理された固有名詞「Seok Mi Yeon」が「Sukmyun」に代替される。そのため、翻訳正確度が高まり、翻訳エラーが減少し得る。
【0086】
<サブワード単位のソース文章に対する翻訳:サブワードレベルの機械翻訳>
翻訳システムは、図1ないし図9を参照して説明したように、ワード単位のソース文章を翻訳する。他の実施形態によれば、翻訳システム100は、サブワード単位のソース文章を翻訳する。以下、図10を参照しながらこれに対する一例を説明する。
【0087】
図10は、一実施形態に係る翻訳システムの動作の他の一例を説明するための図である。
【0088】
一実施形態に係る翻訳システムは、ワード単位で構成されたオリジナル(original)ソース文章をサブワード単位のソース文章に変換する。例えば、翻訳システムは、オリジナルソースワード「Hutton」をサブソースワード「H@@」「u@@」「tt@@」、及び「on」に分割する。そのため、オリジナルソース文章
【0089】
は、ソース文章1010
【0090】
に変換される。
【0091】
サブソースワード「H@@」、「u@@」、及び「tt@@」はサブワードであることを示すタグ(tag)「@@」を含んでもよく、サブソースワード「on」はタグを含まなくてもよい。サブソースワード「on」は、オリジナルソースワード「Hutton」の最後のサブソースワードであるためタグを含まなくてもよい。
【0092】
文章分析器1020は、前処理によってサブワード単位のソース文章1010をワード単位の文章に変換する。相違する表現で言えば、文章分析器1020は、前処理によってサブソースワードを結合して単一ソースワードを生成する。例えば、文章分析器1020は、サブソースワード「H@@」、「u@@」、「tt@@」、及び「on」を結合して単一ソースワード「Hutton」を生成する。
【0093】
文章分析器1020は、単一ソースワードが予め決定したタイプに該当するかを決定する。文章分析器1020は、単一ソースワードが予め決定したタイプに該当すると、サブソースワードそれぞれの位置情報を単一ソースワードとマッピングする。例えば、文章分析器200は、「H@@」の位置情報2、「u@@」の位置情報3、「tt@@」の位置情報4、及び「on」の位置情報5を「Hutton」とマッピングする。文章分析器1020は、サブソースワードそれぞれの位置情報と単一ソースワードが互いにマッピングされたコピーリストを生成する。下記の表5は、ソース文章1010に対するコピーリストの一例を示す。
【0094】
【表4】
翻訳機は、サブソースワードを含むソース文章1010を符号化する。例えば、翻訳機は、サブワードレベルのNMTモデルであり得る。
【0095】
翻訳機は、最初のターゲットワード「Dear」が決定された後、2番目のターゲットワードを決定するために特徴値a2,1、a2,2、...、a2,nを算出する。サブソースワード「H@@」はタグを含むため、2番目のターゲットワードはタグを含む。言い換えれば、2番目のターゲットワードは、サブワード単位であるサブターゲットワードに当該する。2番目のターゲットワード、すなわち、最初に決定されたサブターゲットワードsub1が「H@@」であると仮定する。このような方式で、翻訳機は、サブターゲットワードsub2ないしsub4を順次決定する。sub2を「u@@」とし、sub3を「tch@@」とし、sub4を「et」とする。
【0096】
ここで、「H@@」に対する特徴値a2,1、a2,2、...、a2,nのうちa2,2が最大特徴値に当該し、サブターゲットワード「u@@」に対する特徴値a3,1、a3,2、...、a3,nのうちa3,3が最大特徴値に該当する。また、サブターゲットワード「tch@@」に対する特徴値a4,1、a4,2、...、a4,nのうちa4,4が最大特徴値に当該し、サブターゲットワード「et」に対する特徴値a5,1、a5,2、...、a5,nのうちa5,5が最大特徴値に該当する。特徴値のいずれかが最大特徴値に該当するかについては上記で説明したため、詳しい説明を省略する。
【0097】
翻訳機は、決定されたサブターゲットワードを介してターゲットワードを決定する。図10に示された例の場合、復号化が正確ではないためサブターゲットワード「H@@」、「u@@」、「tch@@」、及び「et」が決定される。そのため、オリジナルソースワードと一致しないターゲットワードが存在することがある。
【0098】
補正器1030は、サブターゲットワードを介してターゲットワードが決定されたとき動作したりターゲット文章が完成されたときに動作する。まず、サブターゲットワードを介してターゲットワードが決定されたときの補正器1030の動作について説明する。
【0099】
一実施形態において、補正器1030は、ターゲットワード「Hutchet」が決定されれば、サブターゲットワードそれぞれに対する最大特徴値に関連する位置情報がコピーリストにあるか否かに基づいて、ターゲットワード「Hutchet」を補正する。言い換えれば、ターゲット文章が完成される前に、補正器は、ターゲットワード「Hutchet」が決定された後直ちにターゲットワード「Hutchet」を補正する。図10に示されたコピーリストを参照すると、a2、2の位置情報2、a3,3の位置情報3、a4,4の位置情報4、及びa5,5の位置情報5はコピーリストに含まれている。この場合、補正器はターゲットワード「Hutchet」を「Hutton」に代替し得る。
【0100】
実現により、補正器1030は、サブターゲットワードそれぞれに対する最大特徴値から代表値を決定する。例えば、補正器1030は、サブターゲットワードそれぞれに対する最大特徴値からいずれか1つを選択する。補正器1030は、代表値の位置情報がコピーリストに含まれているかを決定する。補正器1030は、代表値の位置情報がコピーリストに含まれば、ターゲットワードを代表値の位置情報にマッピングされたソースワードに代替し得る。図10に示された例において、補正器1030は、a2,2、a3,3、a4,4、及びa5,5のうち代表値を決定する。一例として、補正器1030はa2,2、a3,3、a4,4、及びa5,5のうち最も大きい値又は平均に最も近い値を代表値として決定する。補正器1030はa2,2を代表値として決定すると仮定する。補正器1030は、a2,2の位置情報2がコピーリストに含まれているかを決定する。位置情報2がコピーリストに含まれているため、補正器1030は、ターゲットワード「Hutchet」を位置情報2とマッピングされたソースワード「Hutton」に代替し得る。
【0101】
オリジナルソースワード「Hutton」がターゲット文章に含まれるため翻訳エラーが減少し得る。
【0102】
ここまでサブターゲットワードを介してターゲットワードが決定されたときの補正器1030の動作について説明した。以下、ターゲット文章が完成されたときの補正器1030は下記のように動作する。一例として、補正器1030は、ターゲット文章「Dear H@@u@@tch@@et、your order...」に対して動作し、サブワード基盤のターゲット文章をワード基盤の文章に変換する。例えば、補正器1030は「H@@」、「u@@」、「tc@@」、及び「et」を介して「Hutchet」を決定し、「Dear H@@u@@tch@@et、your order...」を「Dear Hutchet、your order...」に変換する。
【0103】
補正器1030は、変換されたターゲット文章から予め決定したタイプに該当するターゲットワードを選択する。例えば、補正器1030は、変換されたターゲット文章から予め登録されていないワード(又は、固有名詞)に該当する「Hutchet」を選択する。補正器1030の以後動作に対する説明は、サブターゲットワードを介してターゲットワードが決定された時の補正器1030の動作に対する説明が適用され得るため、詳細な説明は省略する。
【0104】
<文字単位のソース文章に対する翻訳:文字レベルの機械翻訳>
更なる実施形態によれば、翻訳システムは、文字単位のソース文章を翻訳する。翻訳システムは、文字単位ソース文章内の文字それぞれを図10を参照して説明したサブワードを処理する方法と類似の方法で処理して文字単位ソース文章の翻訳を完成する。これに対する一例を説明する。
【0105】
翻訳システムはオリジナルソース文章
【0106】
が入力されれば、オリジナルソース文章の単語間の間隔(word spacing)位置にタグ@を入力し、オリジナルソース文章を文字単位ソース文章の
【0107】
に変換する。ここで、翻訳システムは@を1つの文字と見なす。また、当該文字単位ソース文章で「_」は文字と文字を区分するための表示である。
【0108】
文章分析器は文字単位ソース文章
【0109】
の文字「H」の位置情報6から文字「n」の位置情報11をオリジナルソース文章のソースワード「Hutton」とマッピングして下記の表6のコピーリストを生成する。文字それぞれの位置情報とソースワードのマッピングには、サブソースワードそれぞれの位置情報とソースワードのマッピングに対する説明が適用し得るため、詳細な説明は省略する。
【0110】
【表5】
翻訳機は、文字単位ソース文章を符号化し、符号化の結果に基づいて復号化を行う。翻訳機は、例えば、文字レベルNMTモデルであり得る。翻訳機は、復号化するごとにターゲット文字を決定する。翻訳機は、図3図5を参照して説明した翻訳機がターゲットワードを決定する方法、又は図10を参照して説明した翻訳機がサブターゲットワードを決定する方法と類似の方法でターゲット文字を決定することができるため、詳しい説明を省略する。
【0111】
翻訳機が復号化を行ってターゲット文字「H_u_t_c_h_e_t」を決定した場合、決定された文字に基づいてターゲットワード「Hutchet」を決定する。ここで、補正器は、ターゲットワード「Hutchet」を表6のコピーリストにあるソースワード「Hutton」に代替し得る。言い換えれば、補正器は、翻訳が完了する前にターゲットワード「Hutchet」をソースワード「Hutton」に代替し得る。又は、補正器は、文字単位のターゲット文章における翻訳が完了して当該ターゲット文章がワード単位のターゲット文章に変換されたとき、ワード単位のターゲット文章を補正する。より具体的に、翻訳機は、文字単位のターゲット文章が「D_e_a_r_@_H_u_t_c_h_e_t_、@_y_o_u_r_@_o_r_d_e_r...」であれば、これをワード単位のターゲット文章「Dear Hutchet、your order...」に変換する。ここで、補正器は、変換されたターゲット文章内の「Hutchet」を表6のコピーリストにあるソースワード「Hutton」に代替する。
【0112】
補正器が「Hutchet」を「Hutton」にどのように代替したかについては、図6図10を参照して説明した補正器の動作が適用し得るため、詳しい説明を省略する。
【0113】
図11は、一実施形態に係る翻訳補正装置を説明するためのブロック図である。図11を参照すると、一実施形態に係る翻訳補正装置1100は、コントローラ1110及びメモリ1120を含む。
【0114】
メモリ1120は、コントローラ1100によって実行可能な少なくとも1つの命令語を含む。
【0115】
少なくとも1つの命令語がコントローラ1110で実行されれば、コントローラ1110は、ソース文章からソースワードを選択する。また、コントローラ1110は、選択されたソースワードと選択されたソースワードの位置情報が互いにマッピングされたマッピング情報を生成する。また、コントローラ1110は、ターゲットワードに対する特徴値のうち少なくとも1つに関する位置情報及びマッピング情報に基づいてターゲットワードを補正する。
【0116】
図1図10を参照して記述された事項は、図11を参照して記述された事項に適用し得るため、詳細な説明は省略する。
【0117】
図12は、一実施形態に係る翻訳補正方法の一例を説明するためのフローチャートである。図12を参照して説明される翻訳補正方法は翻訳補正装置又は翻訳システムによって実行される。図12を参照すると、翻訳補正装置(又は翻訳システム)は、ソース文章からソースワードを選択する(S1210)。
【0118】
翻訳補正装置(又は翻訳システム)は、選択されたソースワードと選択されたソースワードの位置情報が互いにマッピングされたマッピング情報を生成する(S1220)。
【0119】
翻訳補正装置(又は翻訳システム)は、ターゲットワードに対する特徴値のうち少なくとも1つに関する位置情報及びマッピング情報に基づいてターゲットワードを補正する(S1230)。
【0120】
図1図11を参照して記述された事項は、図12を参照して記述された事項に適用し得るため、詳細な説明は省略する。
【0121】
図13は、一実施形態に係る翻訳補正方法の他の一例を説明するためのフローチャートである。図13を参照して説明される翻訳補正方法は、翻訳補正装置又は翻訳システムによって実行される。
【0122】
翻訳補正装置(又は翻訳システム)は、ソース文章からソースワードを選択する(S1310)。
【0123】
翻訳補正装置(又は翻訳システム)は、選択されたソースワードと選択されたソースワードの位置情報が互いにマッピングされたマッピング情報を生成する(S1320)。
【0124】
翻訳補正装置(又は翻訳システム)は、翻訳機を用いてターゲットワードを決定する(S1330)。
【0125】
翻訳補正装置(又は翻訳システム)は、ターゲットワードに対する特徴値のうち少なくとも1つに関する位置情報がマッピング情報に含まれているか否かに基づいてターゲットワードを補正する(S1340)。
【0126】
図1図12を参照して記述された事項は、図13を参照して記述された事項に適用し得るため、詳細な説明は省略する。
【0127】
図14は、一実施形態に係る翻訳補正方法の更なる一例を説明するためのフローチャートである。図14を参照して説明される翻訳補正方法は、翻訳補正装置又は翻訳システムによって実行される。
【0128】
翻訳補正装置(又は翻訳システム)は、ソース文章からソースワードを選択する(S1410)。
【0129】
翻訳補正装置(又は翻訳システム)は、選択されたソースワードと選択されたソースワードの位置情報が互いにマッピングされたマッピング情報を生成する(S1420)。
【0130】
翻訳補正装置(又は翻訳システム)は、翻訳機を用いてターゲット文章を完成する(S1430)。
【0131】
翻訳補正装置(又は翻訳システム)は、ターゲット文章から選択されたターゲットワードに対する特徴値のうち少なくとも1つに関する位置情報がマッピング情報に含まれているか否かに基づいて、選択されたターゲットワードを補正する(S1440)。
【0132】
図1図11を参照して記述された事項は図14を参照して記述された事項に適用し得るため、詳細な説明は省略する。
【0133】
実施形態に係る方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0134】
上述したように実施形態をたとえ限定された図面によって説明したが、当技の術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行されたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。
【0135】
したがって、他の具現、他の実施形態、及び請求範囲と均等なものも後述する請求範囲の範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14