IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許-機械翻訳装置およびプログラム 図1
  • 特許-機械翻訳装置およびプログラム 図2
  • 特許-機械翻訳装置およびプログラム 図3
  • 特許-機械翻訳装置およびプログラム 図4
  • 特許-機械翻訳装置およびプログラム 図5
  • 特許-機械翻訳装置およびプログラム 図6
  • 特許-機械翻訳装置およびプログラム 図7
  • 特許-機械翻訳装置およびプログラム 図8
  • 特許-機械翻訳装置およびプログラム 図9
  • 特許-機械翻訳装置およびプログラム 図10
  • 特許-機械翻訳装置およびプログラム 図11
  • 特許-機械翻訳装置およびプログラム 図12
  • 特許-機械翻訳装置およびプログラム 図13
  • 特許-機械翻訳装置およびプログラム 図14
  • 特許-機械翻訳装置およびプログラム 図15
  • 特許-機械翻訳装置およびプログラム 図16
  • 特許-機械翻訳装置およびプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-22
(45)【発行日】2024-03-04
(54)【発明の名称】機械翻訳装置およびプログラム
(51)【国際特許分類】
   G06F 40/44 20200101AFI20240226BHJP
【FI】
G06F40/44
【請求項の数】 7
(21)【出願番号】P 2020012912
(22)【出願日】2020-01-29
(65)【公開番号】P2021117929
(43)【公開日】2021-08-10
【審査請求日】2022-12-26
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】美野 秀弥
(72)【発明者】
【氏名】伊藤 均
(72)【発明者】
【氏名】後藤 功雄
(72)【発明者】
【氏名】山田 一郎
【審査官】成瀬 博之
(56)【参考文献】
【文献】特表2020-501228(JP,A)
【文献】Rico Sennrich 他2名,Controlling Politeness in Neural Machine Translation via Side Constraints[online],ACL Anthology,2016年,35-40頁,[2023年11月24日検索],インターネット<URL:https://aclanthology.org/N16-1005>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
ソース言語で記述された翻訳対象文と、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の文の特徴を表すターゲット言語側特徴タグと、を入力として、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグとに対応して、ターゲット言語で記述された翻訳結果文を出力とするよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する翻訳モデルと、
前記ソース言語で記述されたソース言語側文と前記ターゲット言語で記述されたターゲット言語側文とで構成される文対に、前記ソース言語側文が属するコーパスの種別に応じたソース言語側特徴タグと、前記ターゲット言語側文が属するコーパスの種別に応じたターゲット言語側特徴タグとを付与する学習データ用タグ付与部と、
前記学習データ用タグ付与部が前記ソース言語側特徴タグおよび前記ターゲット言語側特徴タグを付与した前記文対の集合を、機械学習処理で用いるための学習データとして前記翻訳モデルに供給する学習処理部と、
を備え
前記翻訳モデルは、さらに、ソース言語側の文とターゲット言語側の文との間のノイズに関するノイズ関連特徴タグ、を入力として、前記ノイズ関連特徴タグにも対応して前記翻訳結果文を出力するよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ノイズ関連特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する、ものであり、
前記学習データ用タグ付与部は、前記文対に、さらに、所定の前記ノイズ関連特徴タグを付与するものであり、
前記学習処理部は、さらに前記ノイズ関連特徴タグを付与した前記文対の集合を、前記学習データとして前記翻訳モデルに供給する、
機械翻訳装置。
【請求項2】
前記翻訳モデルは、ニューラルネットワークを用いて構成される、
請求項1に記載の機械翻訳装置。
【請求項3】
前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグとを付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグとを付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する翻訳対象文用タグ付与部、
をさらに備える請求項1または2に記載の機械翻訳装置。
【請求項4】
前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグと、所定の前記ノイズ関連特徴タグと、を付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグと前記ノイズ関連特徴タグとを付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する翻訳対象文用タグ付与部、
を備える請求項1から3までのいずれか一項に記載の機械翻訳装置。
【請求項5】
ソース言語で記述された翻訳対象文と、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の文の特徴を表すターゲット言語側特徴タグと、を入力として、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグとに対応して、ターゲット言語で記述された翻訳結果文を出力とするよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する翻訳モデルと、
前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグとを付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグとを付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する翻訳対象文用タグ付与部と、
を備え、
前記翻訳モデルは、学習データを用いて予め機械学習済みであり、
前記翻訳モデルは、さらに、ソース言語側の文とターゲット言語側の文との間のノイズに関するノイズ関連特徴タグ、を入力として、前記ノイズ関連特徴タグにも対応して前記翻訳結果文を出力するよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ノイズ関連特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する、ものであり、
前記翻訳対象文用タグ付与部は、前記翻訳対象文に、さらに、前記ノイズ関連特徴タグを付与し、前記ノイズ関連特徴タグをも付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する、
機械翻訳装置。
【請求項6】
前記翻訳モデルは、ニューラルネットワークを用いて構成される、
請求項に記載の機械翻訳装置。
【請求項7】
コンピューターを、
請求項1からまでのいずれか一項に記載の機械翻訳装置、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳装置およびプログラムに関する。
【背景技術】
【0002】
様々な分野および用途において、機械翻訳処理の精度を上げることは、ますます強く求められている。ニューラル機械翻訳では、ドメインが異なるデータやノイズが含まれているデータを合わせた学習データを用いて機械学習を行うと、翻訳精度が低下する場合がある。このような要因による翻訳精度の低下を回避することは、重要である。
【0003】
例えば、非特許文献1や非特許文献5には、ドメインが異なるデータを合わせた学習データを用いて機械学習を行った後で、実際に翻訳したいドメインのデータのみで構成される学習データを用いて再学習する手法が提案されている。
【0004】
また、非特許文献2や非特許文献3や非特許文献4には、ドメインの特徴を表すドメインタグを付与して機械学習を行う手法が提案されている。この手法は、ドメインアダプテーションの一手法であると捉えることができる。
【先行技術文献】
【非特許文献】
【0005】
【文献】Rico Sennrich,Barry Haddow,Alexandra Birch,Improving Neural Machine Translation Models with Monolingual Data,In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,p.86-96,Association for Computational Linguistics,2016年.
【文献】Catherine Kobus,Josep Crego,Jean Senellart,Domain Control for Neural Machine Translation,In Proceedings of the International Conference Recent Advances in Natural Language Processing,RANLP 2017,p. 372-378,Varna,Bulgaria,September,2017年.
【文献】Alexandre Berard,Ioan Calapodescu,Marc Dymetman,Claude Roux,Jean-Luc Meunier,Vassilina Nikoulina,Machine Translation of Restaurant Reviews: New Corpus for Domain Adaptation and Robustness,In Proceedings of the 3rd Workshop on Neural Generation and Translation (WNGT 2019),p. 168-176,Hong Kong, November,Association for Computational Linguistics,2019年.
【文献】Alexandre Berard,Ioan Calapodescu,Claude Roux, Naver Labs Europe’s Systems for the WMT19 Machine Translation Robustness Task,In Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1),p. 526-532,Florence,Italy,August,Association for Computational Linguistics,2019年.
【文献】Yonatan Belinkov,Yonatan Bisk,Synthetic and Natural Noise Both Break Neural Machine Translation,In 6th International Conference on Learning Representations,Conference Track Proceedings,ICLR 2018,Vancouver,BC,Canada,April 30 - May 3,2018年.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来手法には、いずれも問題がある。非特許文献1や非特許文献5に記載されている手法(異なるドメインを合わせたデータで学習した後で、特定のドメインのみのデータで再学習)は、再学習により特定ドメインの知識の強化を図るものである。しかしながら、特定ドメインだけでの学習結果と、異なるドメインを合わせて学習したときの学習結果とが、上手く分離されず、翻訳精度の低下につながるという問題がある。
【0007】
また、非特許文献2や非特許文献3や非特許文献4に記載されている手法(ドメインの特徴を表すドメインタグを付与して学習)では、学習データとして使用するコーパスによっては、適切なタグ付けができないという問題がある。また、使用するコーパスが持つ特徴が学習結果にも反映されてしまうが、そのコーパスの特徴をタグで表現できないという問題がある。
【0008】
本発明は、上記のような課題認識に基づいて行なわれたものであり、機械学習の効率を上げ、翻訳精度を高めることのできる機械翻訳装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様による機械翻訳装置は、ソース言語で記述された翻訳対象文と、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の文の特徴を表すターゲット言語側特徴タグと、を入力として、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグとに対応して、ターゲット言語で記述された翻訳結果文を出力とするよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する翻訳モデルと、前記ソース言語で記述されたソース言語側文と前記ターゲット言語で記述されたターゲット言語側文とで構成される文対に、前記ソース言語側文が属するコーパスの種別に応じたソース言語側特徴タグと、前記ターゲット言語側文が属するコーパスの種別に応じたターゲット言語側特徴タグとを付与する学習データ用タグ付与部と、前記学習データ用タグ付与部が前記ソース言語側特徴タグおよび前記ターゲット言語側特徴タグを付与した前記文対の集合を、機械学習処理で用いるための学習データとして前記翻訳モデルに供給する学習処理部と、を備えるものである。
【0010】
[2]また、本発明の一態様は、上記[1]の機械翻訳装置において、前記翻訳モデルは、ニューラルネットワークを用いて構成される、ものである。
【0011】
[3]また、本発明の一態様は、上記の機械翻訳装置において、前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグとを付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグとを付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する翻訳対象文用タグ付与部、をさらに備えるものである。
【0012】
[4]また、本発明の一態様は、上記の機械翻訳装置において、前記翻訳モデルは、さらに、ソース言語側の文とターゲット言語側の文との間のノイズに関するノイズ関連特徴タグ、を入力として、前記ノイズ関連特徴タグにも対応して前記翻訳結果文を出力するよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ノイズ関連特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する、ものであり、前記学習データ用タグ付与部は、前記文対に、さらに、所定の前記ノイズ関連特徴タグを付与するものであり、前記学習処理部は、さらに前記ノイズ関連特徴タグを付与した前記文対の集合を、前記学習データとして前記翻訳モデルに供給する、ものである。
【0013】
[5]また、本発明の一態様は、上記[4]の機械翻訳装置において、前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグと、所定の前記ノイズ関連特徴タグと、を付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグと前記ノイズ関連特徴タグとを付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する翻訳対象文用タグ付与部、を備えるものである。
【0014】
[6]また、本発明の一態様による機械翻訳装置は、ソース言語で記述された翻訳対象文と、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の文の特徴を表すターゲット言語側特徴タグと、を入力として、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグとに対応して、ターゲット言語で記述された翻訳結果文を出力とするよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する翻訳モデルと、前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグとを付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグとを付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する翻訳対象文用タグ付与部と、を備え、前記翻訳モデルは、学習データを用いて予め機械学習済みである、ものである。
【0015】
[7]また、本発明の一態様は、上記[6]の機械翻訳装置において、前記翻訳モデルは、ニューラルネットワークを用いて構成される、ものである。
【0016】
[8]また、本発明の一態様は、上記[6]または[7]の機械翻訳装置において、前記翻訳モデルは、さらに、ソース言語側の文とターゲット言語側の文との間のノイズに関するノイズ関連特徴タグ、を入力として、前記ノイズ関連特徴タグにも対応して前記翻訳結果文を出力するよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ノイズ関連特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する、ものであり、前記翻訳対象文用タグ付与部は、前記翻訳対象文に、さらに、前記ノイズ関連特徴タグを付与し、前記ノイズ関連特徴タグをも付与した前記翻訳対象文を、翻訳処理のために前記翻訳モデルに供給する、ものである。
【0017】
[9]また、本発明の一態様は、コンピューターを、上記[1]から[8]までのいずれか一項に記載の機械翻訳装置、として機能させるためのプログラムである。
【発明の効果】
【0018】
本発明によれば、機械翻訳装置は、学習データとして利用するコーパスの特徴を把握しながら機械学習を行う。これにより、機械翻訳装置は、コーパスの特徴に応じて、強く取り入れるべき知識とその他の知識とを区別しながら、知識を蓄積する。これにより、機械翻訳装置の翻訳精度が向上する。
【図面の簡単な説明】
【0019】
図1】本発明の実施形態による機械翻訳装置の概略機能構成を示すブロック図である。
図2】同実施形態による翻訳モデルの学習のために用いる学習データの構成を示す概略図である。
図3】同実施形態による翻訳モデルの機械学習を行うための、タグ情報を含んだ学習データの構成を示す概略図である。
図4】同実施形態による機械翻訳装置が翻訳処理を行うための、タグ情報を含んだ翻訳処理用入力データの構成を示す概略図である。
図5】同実施形態によって付与されるタグの第1例であり、ソース言語側の特徴を表すタグの例と、各タグに関連するコーパスの種別との関係を表す表である。
図6】同実施形態によって付与されるタグの第1例であり、ターゲット言語側の特徴を表すタグの例と、各タグに関連するコーパスの種別との関係を表す表である。
図7】同実施形態で用いるタグの第1例における、タグの組合せの例をリストアップした表である。
図8】同実施形態によって付与されるタグの第2例であり、ソース言語側の特徴を表すタグの例と、各タグに関連するコーパスの種別との関係を表す表である。
図9】同実施形態によって付与されるタグの第2例であり、ターゲット言語側の特徴を表すタグの例と、各タグに関連するコーパスの種別との関係を表す表である。
図10】同実施形態で用いるタグの第2例における、タグの組合せの例をリストアップした表である。
図11】同実施形態において、学習データ用に入力される対訳文対に学習データ用タグ付与部が付与するタグの例を示す概略図である。
図12】同実施形態による翻訳モデルの機械学習を行うための、タグ情報を含んだ学習データ(ノイズに関する特徴タグを含む)の構成を示す概略図である。
図13】同実施形態による機械翻訳装置が翻訳処理を行うための、タグ情報を含んだ翻訳処理用入力データ(ノイズに関する特徴タグを含む)の構成を示す概略図である。
図14】同実施形態によって付与されるタグの第3例であり、ソース言語側の特徴を表すタグの例と、各タグに関連するコーパスの種別との関係を表す表である。
図15】同実施形態によって付与されるタグの第3例であり、ターゲット言語側の特徴を表すタグの例と、各タグに関連するコーパスの種別との関係を表す表である。
図16】同実施形態によって付与されるタグの第3例であり、ノイズに関するタグの例を表す表である。
図17】同実施形態で用いるタグの第3例における、タグの組合せの例をリストアップした表である。
【発明を実施するための形態】
【0020】
次に、本発明の実施形態について説明する。本実施形態による機械翻訳装置は、学習用データにタグを付与することにより、タグに応じた、翻訳対象文と翻訳結果文との関係を学習するものである。タグは、学習データが持つソース言語側の文が属するソース言語側特徴タグと、学習データが持つターゲット言語側の文が属するターゲット言語側特徴タグと、を含む。これらの特徴タグは、各文が属するコーパスの種別に基づいて決まる。さらに、タグは、ソース言語側とターゲット言語側との間の、対応関係におけるいわばノイズの特徴に関するタグ(ノイズ関連特徴タグ)を含んでもよい。本実施形態では、翻訳モデルを、例えばニューラルネットワークを用いて実現する。このように、タグを付与した学習データを用いることにより、翻訳モデルは、学習データが持つ特徴ごとに分類を行いながら学習を進める。これにより、余計な知識の混入を防ぐことが期待できる。よって、本実施形態の機械翻訳装置では、翻訳精度の向上を期待できる。
【0021】
図1は、本実施形態による機械翻訳装置の概略機能構成を示すブロック図である。図示するように、機械翻訳装置1は、コーパス取得部10と、学習データ用タグ付与部20と、学習処理部30と、翻訳対象文入力部40と、翻訳対象文用タグ付与部50と、翻訳モデル60と、翻訳結果文出力部70とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各機能部の機能について次に説明する。
【0022】
本実施形態において、ソース言語(原言語)とは、翻訳対象となる文(翻訳前の文)が書かれている言語である。また、ターゲット言語(目的言語)とは、翻訳結果の文が書かれている言語である。ソース言語およびターゲット言語は、具体的には、それぞれ任意の言語であってよい。ソース言語およびターゲット言語のそれぞれは、例えば、日本語、英語、ドイツ語、フランス語、ロシア語、スペイン語、イタリア語、中国語、韓国語、アラビア語、あるいはその他の言語であってよい。
【0023】
コーパス取得部10は、外部からコーパスのデータを取得する。コーパス取得部10が取得するコーパスは、ソース言語側のコーパスと、ターゲット言語側のコーパスとがある。コーパス取得部10が取得したコーパスに含まれる文は、翻訳モデル60のための学習データとして用いられる文である。コーパスに含まれる文を学習データとして使用する方法等は、後で、図2等を参照しながら説明する。
【0024】
学習データ用タグ付与部20は、機械学習用のデータ(ソース言語側文とターゲット言語側文との対)に、タグ情報を付与する。つまり、学習データ用タグ付与部20は、前記ソース言語で記述されたソース言語側文と前記ターゲット言語で記述されたターゲット言語側文とで構成される文対に、前記ソース言語側文が属するコーパスの種別に応じたソース言語側特徴タグと、前記ターゲット言語側文が属するコーパスの種別に応じたターゲット言語側特徴タグとを付与するものである。
【0025】
学習データ用タグ付与部20は、さらに、ノイズに関する情報を表すタグを付与するものであってもよい。つまり、この場合、学習データ用タグ付与部20は、前記文対に、さらに、所定の前記ノイズ関連特徴タグを付与する。学習データ用タグ付与部20は、ここで付与すべきノイズ関連特徴タグの種類の情報を、外部から取得してよい。
【0026】
学習処理部30は、翻訳モデル60が機械学習を行うための学習データを供給し、翻訳モデル60に学習処理を行わせる。つまり、学習処理部30は、学習データ用タグ付与部20が前記ソース言語側特徴タグおよび前記ターゲット言語側特徴タグを付与した前記文対の集合を、機械学習処理で用いるための学習データとして翻訳モデル60に供給する。学習処理部30は、さらに前記ノイズ関連特徴タグを付与した前記文対の集合を、前記学習データとして前記翻訳モデルに供給するものであってもよい。
【0027】
翻訳対象文入力部40は、翻訳対象の文を取得するものである。翻訳対象文入力部40は、翻訳対象文を、例えば外部の装置等から受信したり、記憶媒体から読み取ったりする。翻訳対象文入力部40は、翻訳対象文を、翻訳対象文用タグ付与部50に渡す。
【0028】
翻訳対象文用タグ付与部50は、翻訳対象文入力部40から渡された翻訳対象文に、タグを付与する。つまり、翻訳対象文用タグ付与部50は、前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグとを付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグとを付与した前記翻訳対象文を、翻訳処理のために翻訳モデル60に供給する。
【0029】
なお、翻訳対象文用タグ付与部50が、ノイズに関するタグ情報をさらに付与するようにしてもよい。つまり、この場合、翻訳対象文用タグ付与部50は、前記ソース言語で記述された翻訳対象文に、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の所望の文の特徴を表すターゲット言語側特徴タグと、所定の前記ノイズ関連特徴タグと、を付与し、前記ソース言語側特徴タグとターゲット言語側特徴タグと前記ノイズ関連特徴タグとを付与した前記翻訳対象文を、翻訳処理のために翻訳モデル60に供給する。
【0030】
翻訳モデル60は、翻訳のためのモデルである。翻訳モデル60は、機械学習の手法を用いる。翻訳モデル60は、例えば、ニューラルネットワークを用いて実現される。この場合、翻訳モデル60は、ニューラル機械翻訳(NMT)を行うよう構成される。ただし、翻訳モデル60として、他の機械学習のための手法を用いてもよい。機械学習を用いた翻訳処理自体は、既存の技術を用いて実現できるが、本実施形態では、タグ情報を用いて、学習効率を上げ、翻訳精度の向上を図る。具体的には、本実施形態では、翻訳モデル60は、入力されるタグに関連付けて、翻訳結果を生成する。つまり、翻訳モデル60は、ソース言語で記述された翻訳対象文と、ソース言語側の文の特徴を表すソース言語側特徴タグと、ターゲット言語側の文の特徴を表すターゲット言語側特徴タグと、を入力として、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグとに対応して、ターゲット言語で記述された翻訳結果文を出力とするよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する。翻訳モデル60は、機械学習を行う際には、学習データを取得する。また、翻訳モデル60の機械学習が完了した後、翻訳処理を行う際には、翻訳対象文を取得する。
【0031】
翻訳モデル60は、さらに、ノイズに関する特徴を表すタグを扱うものであってもよい。つまり、この場合、翻訳モデル60は、さらに、ソース言語側の文とターゲット言語側の文との間のノイズに関するノイズ関連特徴タグ、を入力として、前記ノイズ関連特徴タグにも対応して前記翻訳結果文を出力するよう、前記翻訳対象文と前記ソース言語側特徴タグと前記ノイズ関連特徴タグと前記ターゲット言語側特徴タグと前記翻訳結果文との関係の情報を保持する。この場合、翻訳モデル60は、翻訳処理の際に、ノイズ関連特徴タグにも基づく翻訳結果文を出力する。
【0032】
なお、翻訳モデル60が例えばニューラルネットワークを用いて実現される場合、入出力データは、適宜、適切な形式のデータ(一例としては、ワンホットベクトル等の形式のデータ)に変換され、処理される。ニューラルネットワークの学習のためには、既存の手法である誤差逆伝播法を用いることができる。
【0033】
翻訳結果文出力部70は、翻訳モデル60が生成した翻訳結果文を外部に出力する。
【0034】
図2は、翻訳モデル60の学習のために用いる学習データの構成を示す概略図である。図示するように、学習データは、ソース言語側の文とターゲット言語側の文から成る対訳文対の集合である。同図では、対訳文対1から対訳文対4までのみを示しているが、実際には、大量の文対(一例として、数十万対程度)を用意することが好ましい。この学習データにおいて、ソース言語側の文は、すべて、単一のコーパスに属している。またターゲット言語側の文も、すべて、単一のコーパスに属している。ソース言語側の文が属するソース言語側のコーパス、およびターゲット言語側の文が属するターゲット言語側のコーパスは、それぞれのコーパス種別の情報を持つ。コーパスの種別の情報は、学習データ用タグ付与部20が付与するタグの基となる情報である。つまり、学習データに付与されるタグは、コーパスの種別によって決められる。学習データへのタグの付与の処理については、図3以後でさらに説明する。
【0035】
なお、図2に示した構成を有する学習データ(ソース言語側の文集合が単一のコーパスに属し、且つターゲット言語側の文集合が単一のコーパスに属する学習データ)を、複数セット用いて翻訳モデル60の学習を行うことはできる。
【0036】
図3は、機械翻訳装置1の翻訳モデル60の機械学習を行うための学習データの構成を示す概略図である。学習データは、翻訳モデル60への入力側のデータと出力側のデータとを含んで構成される。学習処理部30は、この学習データの中の入力側のデータを翻訳モデル60に供給するとともに、その結果として翻訳モデル60から出力されるデータと、この学習データの中の出力側のデータとの差、に基づいて、翻訳モデル60に内部のパラメーターを調整させる。つまり、学習データの中の出力側のデータは、正解データとして使用される。図示するように、学習データの入力側のデータは、ソース言語側特徴タグと、ターゲット言語側特徴タグと、ソース言語側文とを含むように構成される。なお、コンピューターを用いて処理する際に、上記のソース言語側特徴タグと、ターゲット言語側特徴タグと、ソース言語側文とは、適宜、適切なセパレーターのデータで区切られていてもよい。一方で、学習データの出力側のデータは、ターゲット言語側文である。ここで、ソース言語側特徴タグは、図示するソース言語側文が属していたソース言語側コーパスの種別(図2を参照)に依存するものである。即ち、このソース言語側特徴タグは、当該ソース言語側コーパスの特徴を表すデータである。また、ターゲット言語側特徴タグは、図示するターゲット言語側文が属していたターゲット言語側コーパスの種別(図2を参照)に依存するものである。即ち、このターゲット言語側特徴タグは、当該ターゲット言語側コーパスの特徴を表すデータである。前述の通り、学習データ用タグ付与部20が、上記のソース言語側特徴タグおよびターゲット言語側特徴タグを、学習データに付与するものである。
【0037】
図3のこのような学習データを使用して機械学習を行うことにより、翻訳モデル60は、ソース言語側特徴タグとターゲット言語側特徴タグとに依存する形での、ソース言語側文とターゲット言語側文との関係を学習する。つまり、そのような機械学習を行うことにより、学習済みの翻訳モデル60は、ソース言語側特徴タグとターゲット言語側特徴タグとに依存した、ソース言語側文とターゲット言語側文との関係を表すものとなる。
【0038】
図3に示したデータは、機械学習のための1対の対訳文対に対応するものである。実際に翻訳モデル60の機械学習を行う際には、この図3に示す構成のデータを、大量に準備する。
【0039】
図4は、機械翻訳装置1の翻訳モデル60が翻訳処理を行うための翻訳処理用入力データの構成を示す概略図である。図示するように、翻訳処理用入力データは、ソース言語側特徴タグと、ターゲット言語側特徴タグと、ソース言語側文とを含むように構成される。なお、学習データの場合(図3)と同様に、コンピューターを用いて処理する際に、上記のソース言語側特徴タグと、ターゲット言語側特徴タグと、ソース言語側文とは、適宜、適切なセパレーターのデータで区切られていてもよい。翻訳処理用入力データにおいて、ソース言語側特徴タグは、翻訳処理の対象であるソース言語側文が属していたコーパスの特徴を表すデータである。あるいは、ソース言語側文がコーパスから得られたものではない場合、ソース言語側特徴タグは、当該ソース言語側文の特徴を表すように適切に選択されたタグのデータである。また、翻訳処理用入力データにおいて、ターゲット言語側特徴タグは、所望のターゲット言語側文(翻訳結果文)の特徴を表すように適切に選択されたタグのデータである。前述の通り、翻訳対象文用タグ付与部50が、上記のソース言語側特徴タグおよびターゲット言語側特徴タグを、翻訳対象文に付与するものである。
【0040】
以上の構成によれば、翻訳モデル60は、学習データを用いて、タグ情報に関連付けられた知識を蓄える。また、翻訳モデル60は、タグ情報に基づいた翻訳処理を行う。
【0041】
以下では、学習データ用タグ付与部20および翻訳対象文用タグ付与部50が付与するタグの実例について説明する。
【0042】
[付与するタグの例(第1例)]
図5は、第1例における、ソース言語側特徴タグの例と、それぞれの特徴タグに関連するソース言語側コーパスの種別との関係を表す表である。本例では、ソース言語は、日本語である。本例では、ソース言語側特徴タグとして、<NHK-S>と、<MT-S>とを用いる。タグ<NHK-S>は、NHKのニュースで使用された日本語ニュース文のコーパスに対応するものである。タグ<MT-S>は、NHKのニュースで使用された英語ニュース文を、機械翻訳処理によって日本語に翻訳した文のコーパスに対応するものである。
【0043】
図6は、第1例における、ターゲット言語側特徴タグの例と、それぞれの特徴タグに関連するターゲット言語側コーパスの種別との関係を表す表である。本例では、ターゲット言語は、英語である。本例では、ターゲット言語側特徴タグとして、<NHK-T>と、<MT-T>と、<AMA-T>とを用いる。タグ<NHK-T>は、NHKのニュースで使用された英語ニュース文のコーパスに対応するものである。タグ<MT-T>は、NHKのニュースで使用された日本語ニュース文を、機械翻訳処理によって英語に翻訳した文のコーパスに対応するものである。タグ<AMA-T>は、NHKのニュースで使用された日本語ニュース文を、素人翻訳者が英語に翻訳した文のコーパスに対応するものである。
【0044】
図7は、第1例における、ソース言語側特徴タグとターゲット言語側特徴タグとの組合せ使用例を示す概略図である。同図において、
(1)の<NHK-S>,<NHK-T>というタグの組合せは、NHKのニュース番組で使用される日本語のニュース文と、それに対応する英語のニュース文との文対が、機械学習の処理時に用いられることを表す。
(2)の<NHK-S>,<AMA-T>というタグの組合せは、NHKのニュース番組で使用される日本語のニュース文と、その日本語のニュース文を素人の翻訳者が英語に翻訳した結果得られる英語の文との文対が、機械学習の処理時に用いられることを表す。
(3)の<NHK-S>,<MT-T>というタグの組合せは、NHKのニュース番組で使用される日本語のニュース文と、その日本語のニュース文を機械翻訳によって英語に翻訳した結果得られる英語の文との文対が、機械学習の処理時に用いられることを表す。
(4)の<MT-S>,<NHK-T>というタグの組合せは、NHKの英語のニュース番組で使用される英語のニュース文(ターゲット言語側の文)と、その英語のニュース文を機械翻訳によって日本語に翻訳した結果得られる日本語の文(ソース言語側の文)との文対が、機械学習の処理時に用いられることを表す。
【0045】
この第1例において、(1)の組合せの特徴は、ソース言語(日本語)側もターゲット言語(英語)側も文の質が高いが、文対に含まれる文間で、内容の過不足が生じ得ることである。(2)の組合せの特徴は、ソース言語(日本語)側の文の質は高いが、ターゲット言語(英語)側の文は、ソース言語側の文の翻訳としては質(翻訳の質)がそれほど高くない可能性があることである。(3)の組合せおよび(4)の組合せの特徴は、機械翻訳処理を用いるため、安価に大量の文対を生成できるが、機械翻訳によって生成される文の質は必ずしも高いものではないことである。
【0046】
以上のように、第1例においては、タグは、放送用に作成されたニュース文であるか否か、素人が翻訳した文であるか否か、そして、機械翻訳によって生成された文であるか否か、といった情報を表す。このようなタグを付加した学習データを用いて機械学習を行うことにより、翻訳モデル60は、タグの情報に関連付ける形で知識を獲得することが可能となる。
【0047】
[付与するタグの例(第2例)]
図8は、第2例における、ソース言語側特徴タグの例と、それぞれの特徴タグに関連するソース言語側コーパスの種別との関係を表す表である。本例においても、ソース言語は、日本語である。本例では、ソース言語側特徴タグとして、<PRO-JA>と、<MTA-JA>と、<MTB-JA>とを用いる。タグ<PRO-JA>は、文章作成のプロが作成した日本語の文のコーパスに対応する。タグ<MTA-JA>は、英語の文を基に、翻訳機器Aの機械翻訳処理で生成した日本語の文のコーパスに対応するものである。タグ<MTB-JA>は、英語の文を基に、翻訳機器Bの機械翻訳処理で生成した日本語の文のコーパスに対応するものである。なお、翻訳機器Aと翻訳機器Bとは、異なる翻訳機器である。つまり、翻訳機器Aが生成する日本語の文と翻訳機器Bが生成する日本語の文とは、互いに異なる特徴を持つ。
【0048】
図9は、第2例における、ターゲット言語側特徴タグの例と、それぞれの特徴タグに関連するターゲット言語側コーパスの種別との関係を表す表である。本例においても、ターゲット言語は、英語である。本例では、ターゲット言語側特徴タグとして、<PRO-EN>と、<AMA-EN>とを用いる。タグ<PRO-EN>は、英語文章作成のプロが作成した英語の文のコーパスに対応するものである。タグ<AMA-EN>は、日本語の文を基に素人翻訳者が英語に翻訳した結果の文のコーパスに対応するものである。
【0049】
図10は、第2例における、ソース言語側特徴タグとターゲット言語側特徴タグとの組合せ使用例を示す概略図である。同図において、(1)の<PRO-JA>,<PRO-EN>というタグの組合せは、プロが作成したソース言語(日本語)側の文と、プロが作成したターゲット言語(英語)側の文とを含む文対を用いて、機械学習を行うことを表す。(2)の<PRO-JA>,<AMA-EN>というタグの組合せは、プロが作成したソース言語(日本語)側の文と、その日本語の文を素人の翻訳者が英語に翻訳した結果の英語文とを含む文対を用いて、機械学習を行うことを表す。(3)の<MTA-JA>,<PRO-EN>というタグの組合せは、プロが作成したターゲット言語(英語)側の文(ニュース文)と、その英語文を翻訳機器Aで機械翻訳した結果得られるソース言語(日本語)側の文とを含む文対を用いて、機械学習を行うことを表す。(4)の<MTB-JA>,<PRO-EN>というタグの組合せは、プロが作成したターゲット言語(英語)側の文(ニュース文)と、その英語文を翻訳機器Bで機械翻訳した結果得られるソース言語(日本語)側の文とを含む文対を用いて、機械学習を行うことを表す。
【0050】
図11は、第2例の特徴タグを用いる場合における、学習用データの一例を示す概略図である。図示するように、学習データ用タグ付与部20がタグを付与する前の対訳文対は、「高梁選手は、今月11日にフランスで開幕するサマージャンプのグランプリ大会に出場する予定で、6日朝、出発前に羽田空港で取材に応じました。」というソース言語(日本語)側の文と、「Saya Takahashi, will be participating in the Ski Jumping Summer Grand Prix due to start in France on August 11. She responded to an interview at Haneda Airport on the morning of August 6, just before departure.」というターゲット言語(英語)側の文である。学習データ用タグ付与部20は、この文対の先頭に、<PRO-JA><PRO-EN>というタグの組み合わせを付与する。学習処理部30は、このタグ付与後の対訳文対を、機械学習を行う際の翻訳モデル60に与える。
【0051】
以上のように、第2例においても、タグは、プロが作成した文であるか否か、素人の翻訳者が訳した文であるか否か、機械翻訳処理の結果得られた文であるか否か(そして、その際に使用された翻訳機器は何か)、という情報を表す。このようなタグを付加した学習データを用いて機械学習を行うことにより、翻訳モデル60は、タグの情報に関連付ける形で知識を獲得することが可能となる。
【0052】
[付与するタグの例(第3例)]
第1例および第2例においては、ソース言語側の特徴タグとターゲット言語側の特徴タグとの各1個、計2個の特徴タグを付与していた。第3例においては、さらに、ノイズに関する特徴タグを付与する。
【0053】
学習データは、一般には、ノイズを含むものである。学習データが持つノイズは、その学習データを用いて機械学習を行った翻訳モデルの質の低下につながるものである。ノイズに関する特徴タグは、ノイズの種別ごとに、コーパスがその種のノイズを含むものであるか否かを表すタグである。ここで、逆翻訳(back-translated)ノイズとは、ターゲット言語側からソース言語側への逆翻訳処理を行うことによって生じるノイズである。また、非同等ノイズとは、ソース言語側の文とターゲット言語側の文とが同等の内容ではないことによって生じるノイズである。非同等ノイズは、例えば、同等であることを特別に意識せずに翻訳を行う場合に生じ得る。一例として、人が日本語でニュース文を記述し、その日本語のニュース文に基づいて何らかの方法による翻訳を用いて英語のニュース文を作成する場合、一般には、元の日本語の文に対して、何らかの内容の追加や削除等が行われることがあり得る。学習データが上記のようなノイズを含む場合には、ノイズの種別ごとに、そのノイズを含むことを表すタグを付与する。また、学習データが上記のようなノイズを含まないようにコーパスを生成することもできる。学習データがノイズを含まない場合には、ノイズの種別ごとに、そのノイズを含まないことを表すタグを付与する。
【0054】
図12は、本実施形態において第3例のタグを付与する場合の学習データの構成を示す概略図である。図12に示す学習データは、図3に示した学習データと同様に、翻訳モデル60への入力側のデータと出力側のデータとを含んで構成される。また、図12に示す学習データでは、図3に示した学習データと同様に、入力側のデータが、ソース言語側特徴タグと、ターゲット言語側特徴タグと、ソース言語側文とを含む。図12に示す学習データの入力側のデータは、さらに、ノイズに関する特徴タグ(「ノイズ関連特徴タグ」とも呼ばれる)を含むように構成される。図12に示す例では、入力側のデータは、ソース言語側特徴タグ、ターゲット言語側特徴タグ、ノイズに関する特徴タグ、ソース言語側文の順に並べられる。ただし、入力側のデータ内における並び方は、任意である。ノイズに関する特徴タグは、上で説明したノイズの有無を表す情報である。なお、図12に示すノイズに関する特徴タグが、ノイズの種別ごとの複数のタグを含んでいてもよい。なお、学習データ用タグ付与部20が、ソース言語側タグ、ターゲット言語側タグ、およびノイズに関する特徴タグを、学習データに付与する。学習データ用タグ付与部20がどのノイズに関する特徴タグを付与するかは、学習データ用タグ付与部20の外部から与えられる指示情報に依る。
【0055】
図12のこのような学習データを使用して機械学習を行うことにより、翻訳モデル60は、ノイズ種別ごとのノイズの有無にも依存する形での、ソース言語側文とターゲット言語側文との関係を学習する。つまり、そのような機械学習を行うことにより、学習済みの翻訳モデル60は、ノイズの有無に依存した、ソース言語側文とターゲット言語側文との関係を表すものとなる。
【0056】
図12に示したデータは、機械学習のための1対の対訳文対に対応するものである。実際に翻訳モデル60の機械学習を行う際には、この図12に示す構成のデータを、大量に準備する。
【0057】
図13は、本実施形態において第3例のタグを付与する場合の、翻訳モデル60が翻訳処理を行うための翻訳処理用入力データの構成を示す概略図である。図13に示す翻訳処理用入力データは、図4に示したデータと同様に、ソース言語側特徴タグと、ターゲット言語側特徴タグと、ソース言語側文とを含む。図13に示す翻訳処理用入力データは、さらに、ノイズに関する特徴タグを含むように構成される。ノイズに関する特徴タグは、図12においても説明したように、ノイズの有無に関する情報を表すタグである。図13に示すノイズに関する特徴タグが、ノイズの種別ごとに複数のタグを含んでいてもよい。図12の学習データを用いて機械学習を行った翻訳モデル60は、図13に示す翻訳処理用入力データを対象として翻訳処理を行う際に、ソース言語側特徴タグやターゲット言語側特徴タグに加えて、ノイズに関する特徴タグにも依存する翻訳処理を行う。即ち、図12の学習データを用いて機械学習を行った翻訳モデル60は、ソース言語側文を基に、ノイズに関する特徴タグにも依存したターゲット言語側文を出力するように処理を行う。なお、翻訳対象文用タグ付与部50が、ソース言語側特徴タグ、ターゲット言語側特徴タグ、およびノイズに関する特徴タグを、翻訳対象文に付与するものである。翻訳対象文用タグ付与部50がどのノイズに関する特徴タグを付与するかは、翻訳対象文用タグ付与部50の外部から与えられる指示情報に依る。
【0058】
図14は、第3例における、ソース言語側特徴タグの例と、それぞれの特徴タグに関連するソース言語側コーパスの種別との関係を表す表である。本例において、ソース言語は、特定の言語に限定されていない。本例では、ソース言語側特徴タグとして、<NS-S>と、<CE-S>とを用いる。タグ<NS-S>は、ソース言語で記述されたニュース文(例えば、放送で用いられるニュース文)のコーパスに対応する。タグ<CE-S>は、下の図15で説明する<NS-T>に基づいて機械翻訳処理によって逆翻訳された文(ソース言語によって記述された文)のコーパスに対応する。
【0059】
図15は、第3例における、ターゲット言語側特徴タグの例と、それぞれの特徴タグに関連するターゲット言語側コーパスの種別との関係を表す表である。本例において、ターゲット言語も、特定の言語には限定されていない。本例では、ターゲット言語側特徴タグとして、<CE-T>と、<NS-T>とを用いる。タグ<CE-T>は、ソース言語側のニュース文(図14で示した<NS-S>の文)と同等な内容を持つターゲット言語側の文のコーパスに対応する。なお「CE」は、「content equivalent」の意味である。タグ<NS-T>は、ターゲット言語で記述されたニュース文(例えば、ターゲット言語による放送で用いられるニュース文)のコーパスに対応する。
【0060】
図16は、第3例における、ノイズに関する特徴タグの例と、それぞれの特徴タグに関連するコーパスの種別との関係を表す表である。本例では、ノイズに関する特徴タグとして、例えば、<NO-BT>と、<BT>と、<NO-AN>と、<AN>とを用いる。タグ<NO-BT>は、逆翻訳ノイズを持たないコーパスに対応するものである。タグ<BT>は、逆翻訳ノイズを持つコーパスに対応するものである。タグ<NO-AN>は、非同等ノイズを持たないコーパスに対応するものである。タグ<AN>は、非同等ノイズを持つコーパスに対応するものである。
【0061】
図17は、第3例における、ソース言語側特徴タグとターゲット言語側特徴タグとの組合せ使用例を示す概略図である。同図において、(1)の<NS-S>,<CE-T>,<NO-BT>,<NO-AN>というタグの組合せは、ソース言語で記述されたニュース文を翻訳対象として、そのソース言語側のニュース文と同等な内容(content equivalent)を持つターゲット言語側の文を用いるものであることを表す。また、(1)の場合に、その文対の間では逆翻訳ノイズや非同等ノイズを持たないことを表す。(2)の<NS-S>,<NS-T>,<NO-BT>,<AN>というタグの組合せは、ソース言語で記述されたニュース文を翻訳対象として、ターゲット言語で記述されたニュース文を用いるものであることを表す。また、(2)の場合に、その文対の間では、逆翻訳ノイズを持たず、非同等ノイズを持ち得るものであることを表す。(3)の<CE-S>,<NS-T>,<BT>,<NO-AN>というタグの組合せは、ターゲット言語で記述されたニュース文に基づいて機械翻訳処理によって逆翻訳されたソース言語の文を学習データにおける翻訳対象文として、ターゲット言語側では上記逆翻訳の処理の基となったターゲット言語で記述されたニュース文を用いるものであることを表す。ただし、ソース言語側の文は、ターゲット言語側の文と同等の内容を持つように作成される。また、(3)の場合に、その文対の間では、逆翻訳ノイズを含み、非同等ノイズを持たないものであることを表す。(4)の<NS-S>,<NS-T>,<BT>,<AN>というタグの組合せは、ソース言語で記述されたニュース文と、ターゲット言語で記述されたニュース文とを用いるものであることを表す。また、(4)の場合に、その文対の間では、逆翻訳ノイズを含み得るものであり、非同等ノイズをも含み得るものであることを表す。
【0062】
この第3例の特徴タグを用いて翻訳モデル60の機械学習を行った場合、翻訳処理においては、所望の結果が得られるように、ノイズに関するタグを選択して付与するようにする。翻訳処理において質の高い翻訳結果を得るためには、通常は、ノイズのない翻訳を行うように、ノイズに関する特徴タグを用いることが考えられる。
【0063】
以上、説明したように、本実施形態による機械翻訳装置1では、機械翻訳処理において、複数の特徴を持つ複数のコーパスを利用して、翻訳モデル60の機械学習を行うことができる。また、機械翻訳装置1は、複数の特徴を持つ複数のコーパスを利用した学習の際に、コーパスごとの特徴を表すタグを、学習データに付与する。これにより、翻訳モデル60は、タグと関連付ける形で知識を獲得することができる。言い換えれば、学習の際に付与されたタグは、翻訳モデル60が保持する情報の中において、コーパスの特徴に応じて知識を分類する作用を生じさせる。これにより、機械翻訳装置1は、複数の特徴を持つコーパスから得られる知識が混じりあうことなく、分類・整理された形で翻訳のための知識を蓄える。
【0064】
上記のような作用を生じさせる本実施形態の機械翻訳装置1を利用することにより、高いコストをかけて質の高いコーパスを活用するだけではなく、質はそれほどには高くないが低コストで大量のデータが得られるコーパスをも活用することができる。つまり、機械翻訳装置1は、全体として低いコストで大量の知識を獲得することができる。
【0065】
なお、機械翻訳装置1は、ソース言語側のコーパスの特徴と、ターゲット言語側のコーパスの特徴とを、区別して扱うことができる。
【0066】
さらに本実施形態による機械翻訳装置1は、第3例で示したタグのように、ノイズに関する特徴タグを用いることもできる。ノイズに関する特徴タグは、ソース言語側のコーパスとターゲット言語側のコーパスとの関係にも依存するノイズの特徴を表すことができる。機械翻訳装置1は、ノイズに関する特徴にも関連付けて、知識を獲得し、その知識を機械翻訳処理に活用することができる。
【0067】
なお、付与するタグの個数や種類が多すぎると、知識の過分類となってしまい、学習効率が悪くなる。付与するタグの個数は、本実施形態で例示したように、2個から4個程度の間が望ましい。また、タグの種類の数も、多すぎないほうが良い。
【0068】
なお、上述した実施形態における機械翻訳装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0069】
なお、機械翻訳装置1を、次のような変形例として実施してもよい。
機械翻訳装置1が、翻訳対象文入力部40と、翻訳対象文用タグ付与部50と、翻訳結果文出力部70とを備えないようにしてもよい。この場合にも、機械翻訳装置1は、翻訳モデル60の機械学習処理を行える。つまり、機械翻訳装置1は、学習装置として機能することができる。
機械翻訳装置1が、コーパス取得部10と、学習データ用タグ付与部20と、学習処理部30とを備えないようにしてもよい。ただし、この場合、翻訳モデル60を機械学習済みとしておく。これにより、機械翻訳装置1は、学習データを用いて学習を行う機能を持たないが、翻訳対象文の翻訳処理を行える。
機械翻訳装置1が、ノイズ関連特徴タグ(タグの第3例を参照)を、扱うようにしてもよいし、扱わないようにしてもよい。いずれの場合も、機械翻訳装置1は、ソース言語側特徴タグと、ターゲット言語側特徴タグとを扱う処理を行う。
【0070】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0071】
[評価実験]
本実施形態の方式を評価するための実験を行った。評価尺度としてはBLEUスコアを用いた。BLEUスコアは、機械翻訳の結果と、参照訳との類似度を、両者のn-gram一致数を基に算出される値であり、機械翻訳の評価によく用いられる。
第1の比較対象として、タグを用いずにニューラル機械翻訳を行った場合のBLEUスコアは、20.36であった。
第2の比較対象として、シングルタグメソッド(Kobus et al.,2017、前記の非特許文献2)を用いた場合のBLEUスコアは、22.41であった。
第3の比較対象として、2種類のタグを利用するメソッド(Kobus et al.,2017)を用いた場合のBLEUスコアは、24.25であった。
一方で、本実施形態の方式を用いた場合のBLEUスコアは、24.56と、従来の技術よりも高い値が得られた。
【産業上の利用可能性】
【0072】
本発明は、例えば、自然言語で書かれた文の機械翻訳処理を利用するあらゆる産業において利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0073】
1 機械翻訳装置
10 コーパス取得部
20 学習データ用タグ付与部
30 学習処理部
40 翻訳対象文入力部
50 翻訳対象文用タグ付与部
60 翻訳モデル
70 翻訳結果文出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17