特許第6703709号(P6703709)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許6703709自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム
<>
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000008
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000009
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000010
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000011
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000012
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000013
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000014
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000015
  • 特許6703709-自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6703709
(24)【登録日】2020年5月13日
(45)【発行日】2020年6月3日
(54)【発明の名称】自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム
(51)【国際特許分類】
   G06F 40/44 20200101AFI20200525BHJP
   G06F 40/51 20200101ALI20200525BHJP
【FI】
   G06F17/28 618
   G06F17/28 654
【請求項の数】5
【全頁数】20
(21)【出願番号】特願2016-34682(P2016-34682)
(22)【出願日】2016年2月25日
(65)【公開番号】特開2017-151804(P2017-151804A)
(43)【公開日】2017年8月31日
【審査請求日】2019年1月10日
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成27年度、総務省、情報通信技術の研究開発、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(74)【代理人】
【識別番号】100099933
【弁理士】
【氏名又は名称】清水 敏
(72)【発明者】
【氏名】今村 賢治
(72)【発明者】
【氏名】隅田 英一郎
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開2013−065202(JP,A)
【文献】 特開2014−170296(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/28
(57)【特許請求の範囲】
【請求項1】
いに異なる複数のドメインの翻訳用の複数のドメイン別統計モデルと、特定のドメインに限定されない翻訳用の汎用統計モデルとを記憶するためのモデル記憶手段と、
前記複数のドメインに対してそれぞれ準備された自然言語の対訳文からなる複数のドメイン開発セットを記憶するためのドメイン開発セット記憶手段として機能するようプログラムされたコンピュータを含む、自動翻訳の素性重み最適化装置であって、
前記各対訳文は、原文と、当該原文の参照訳とを含み、
前記コンピュータはさらに、
記複数のドメイン開発セットを用い、前記対訳文の各々に対し、前記モデル記憶手段に記憶された各前記モデルから得られる素性値又はその対数の線形補間を用いて翻訳を行う際の各素性重みを最適化するための重み最適化手段として機能するようプログラムされており、
前記重み最適化手段は、
記複数のドメイン開発セットに含まれる各対訳文の原文に対して、前記複数のドメイン別統計モデルの中で当該対訳文の属するドメイン用の統計モデルから得られる素性値又はその対数と、前記汎用統計モデルから得られる素性値又はその対数とを、所定の素性重みにより線形補間して算出したスコアを用いて統計的な自動翻訳を行う自動翻訳手段と、
前記複数のドメイン開発セットに記憶された対訳文の各々の原文に対して、前記素性重みを用いて前記自動翻訳手段によって得られた翻訳文と参照訳とに基づき、当該翻訳文が前記参照訳に似ていれば高く、異なっていれば低くなる評価スコアを算出する評価スコア算出手段とを含み、
前記自動翻訳手段は、翻訳の際に、前記汎用統計モデルに含まれる翻訳モデルから得られる素性値、及び、前記複数のドメイン用の統計モデルのうち、翻訳対象の対訳文のドメイン用の統計モデルに含まれる翻訳モデルから得られる素性値の双方を使用し、
前記重み最適化手段はさらに、
各ドメインについて、当該ドメインに属する対訳文の原文に対する前記自動翻訳手段による翻訳文に対して前記評価スコア算出手段により算出された前記評価スコアを蓄積し記憶するための評価スコア記憶手段と、
前記素性重みを変化させながら、前記自動翻訳手段と前記評価スコア算出手段と前記評価スコア記憶手段とによる、前記複数のドメイン開発セットに含まれる各対訳の原文の翻訳と、それに伴う前記評価スコアの算出及び蓄積を第1の終了条件が成立するまで繰返し、繰返しの終了時に、前記評価スコア記憶手段により前記複数のドメインの各々について蓄積された前記評価スコアの合計と、前記素性重みの代表値とを算出し記憶する代表値算出手段と、
前記代表値算出手段による処理を、第2の終了条件が成立するまで繰返した後に、前記代表値算出手段によって記憶された前記評価スコアの前記合計が最大となったときの前記代表値を、全ドメインに対して最適化された前記素性重みとして出力するための素性重み出力手段とを含む、自動翻訳の素性重み最適化装置。
【請求項2】
前記評価スコアは、前記各対訳文の原文を自動翻訳して得られる翻訳文に対して、当該対訳文における前記原文の参照訳との間で算出されるBLEUスコアである、請求項1に記載の自動翻訳の素性重み最適化装置。
【請求項3】
前記自動翻訳手段は、
前記複数のドメイン開発セットに含まれる各対訳文の原文の翻訳のために、当該対訳文の属するドメイン用の統計モデルから素性値を算出するためのドメイン用素性算出手段と、
前記各対訳文の原文の翻訳のために、前記汎用統計モデルから素性値を算出するための汎用素性算出手段と、
前記ドメイン用素性算出手段により算出される素性値又はその対数と、前記汎用素性算出手段により算出される素性値又はその対数とを、前記素性重みを用いて線形補間して算出されるスコアを用いて前記各対訳文の原文に対する統計的な自動翻訳を行うための手段を含む、請求項1又は請求項2に記載の自動翻訳の素性重み最適化装置。
【請求項4】
前記自動翻訳を行うための前記手段は、
前記複数のドメイン開発セットに含まれる各対訳文の原文の各々に対して前記自動翻訳手段による自動翻訳で得られた翻訳仮説の中で、前記評価スコア算出手段により算出される前記評価スコアが上位の所定の複数個の翻訳文を出力するための手段を含む、請求項3に記載の自動翻訳の素性重み最適化装置。
【請求項5】
コンピュータを、請求項1〜請求項のいずれかに記載の自動翻訳の素性重み最適化装置として機能させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、自動翻訳に関し、特に、複数の素性又はその対数を線形補間(線形結合)して得られるスコアを用いて自動翻訳を行うシステムにおいて、各素性に割り当てられる重みを最適化するための装置に関する。
【背景技術】
【0002】
さまざまな種類のテキスト及び音声認識結果が機械翻訳器によって翻訳されるようになってきている。しかし、全てのドメインのデータを適切に翻訳できる機械翻訳器の実現は困難であり、翻訳対象ドメインを絞りこむ必要がある。ここでいうドメインとは、翻訳対象のテキストが属する分野又は局面のことをいう。
【0003】
確実に対象ドメインの翻訳品質を向上させるには、対象ドメインの学習データ(対訳文)を大量に収集し、翻訳器を訓練することが必要である。しかし、多数のドメインについて、対訳文を大量に収集することはコストの観点から困難である。したがって、他のドメインの学習データを用いて対象ドメインの翻訳品質を向上させるドメイン適応技術が研究されている(非特許文献1,2,3及び4)。なお、学習データは対訳文の集合である。各対訳文は、原言語の文(原文)と、その原文の目的言語の訳文とからなる。訳文は、主に翻訳モデルを構築する際に使用される。また、対訳データの一部は後述する開発セットに用いられるが、この場合の訳文は、翻訳仮説の評価を行う際の参照訳としても用いられる。
【0004】
機械翻訳のドメイン適応は、翻訳対象のドメイン(INドメイン)データが少なく、他のドメイン(OUTドメイン)データが大量にある場合、INとOUTのデータ双方を使って、INドメインの翻訳品質を向上させる技術である。
【0005】
図1を参照して、本願発明が対象とする自動翻訳システム30の素性重みの最適化について概略を説明する。一般に、自動翻訳システム30の動作には3つの局面がある。第1の局面は訓練40であり、第2の局面は最適化42であり、第3の局面は翻訳44(テスト)である。訓練40では、訓練コーパス60からモデル学習部62によりモデル64の学習を行う。ここでいうモデル64は、統計的モデルであり、言語モデル、翻訳モデル(フレーズテーブル)、並び替えモデル等を含む。訓練コーパス60をあるドメインの対訳に限定することでそのドメイン用のモデル64の訓練を行える。このモデル学習は既に確立された技術である。
【0006】
第2の局面である最適化42では、開発セット80と初期重み82とを用いた素性重みの最適化が行われる。開発セット80は、対象ドメインの対訳文を含む。一般に、開発セット80に含まれる対訳文の数は訓練コーパス60に含まれる対訳文の数よりも少なく選ばれる。最適化42では、開発セット80に含まれる各対訳文の原文を、デコーダ84により翻訳する。デコーダ84は、原文から得られる翻訳仮説に対してモデル64を適用することで得られる素性ベクトルの要素(素性)又はその対数の線形補間で得られるスコアを用いて、スコアが上位のN個の仮説(Nベスト訳)を出力する。これらの仮説を、原文と対になっていた参照訳と比較して、BLEU(非特許文献7)と呼ばれる方式によって算出されたスコアにより評価する。BLEUは、翻訳仮説と参照訳との相違に基づく値を表す関数と考えることができ、翻訳仮説が参照訳と似ていればBLEUスコアは高くなり、異なっていれば低くなる。このBLEUスコアは、開発セット80の全ての対訳に対して蓄積したBLEU統計量をBLEU統計量算出部86で算出することで、開発セット80の全体としての翻訳の質を測定できる。素性重み最適化部88が、重みの値を変化させながらBLEU統計量算出部86に開発セット80に含まれる対訳文のBLEU統計量を算出させ、その中でBLEUスコアが最大となる素性重み90を特定する。
【0007】
翻訳44では、デコーダ102が、原文100の翻訳仮説を多数生成し、各仮説に対してモデル64を適用して得られた素性を、素性重み90を用いて線形補間したスコアで評価し、最も良いスコアが得られた仮説を翻訳文104として出力する。
【0008】
ドメイン別の翻訳器を構築するための最も単純な方法は、訓練コーパス60を対象ドメインに限定し、開発セット80も対象ドメインに限定してモデルの学習及び素性重みの最適化を行うことである。このように、あるドメインに限定した訓練コーパスで学習したモデルのことをドメイン依存モデル、または単独モデルと呼び、ドメインを限定した開発セットで単独モデルを最適化する方式を単独モデル方式と呼ぶ。この方法では、前述したとおり十分な訓練データを得ることが難しいという問題がある。
【0009】
これに対し、OUTドメインのデータを用いてINドメインに最適化した翻訳器を構築するためのドメイン最適化手法には以下の様なものがある。
【0010】
[コーパス結合]
最もシンプルなベースラインとして用いられている方法は、INドメインとOUTドメインのデータを結合した訓練データで学習し、1つのモデルを構築する方法である。本願明細書ではこれをコーパス結合方式と呼ぶ。一般的な機械学習では、結合されたコーパスで学習したモデルは、INドメイン、OUTドメイン双方の中間的性質を持つ。そのため、モデルの精度もINデータのみ、OUTデータのみで学習されたモデルの中間の精度になることが多い。一方、機械翻訳の場合、コーパスを結合することにより、カバーする語彙が増加する。そのため、未知語が減少し、INモデルより翻訳品質が向上する場合もある。最終的に翻訳品質が向上するか否かは、パラメータの精度低下と未知語の減少のトレードオフになる。
【0011】
図2に、そのようなシステムの構成を示す。図2を参照して、INドメインのデータであるINドメイン訓練コーパス130とOUTドメインのデータであるOUTドメイン訓練コーパス131を結合172し、結合コーパス174を作成する。この結合コーパス174を訓練データとして、モデル学習部132がコーパス結合モデル134の訓練を行う。ここで、コーパス結合モデル134は目的言語の言語モデル190、原言語と目的言語のフレーズテーブル192、及び語彙化並び替えモデル194等を含むものとする。
【0012】
そして、最適化部138が、初期重み136と対象ドメインのINドメイン開発セット178とを用いて、素性の線形補間又は対数線形補間の際の各素性重みを対象ドメインに最適化する。最適化された素性重み180は最適化部138により出力される。
【0013】
[線形補間、対数線形補間]
自動翻訳のドメイン適応方式としては、以下の様な方式が知られている。すなわち、この方式では、翻訳に使用されるサブモデル(言語モデル、フレーズテーブル、語彙化並び替えモデル等)は汎用の訓練コーパスで学習する。翻訳仮説に対してそれらサブモデルから素性値を得る。得られた値を線形補間、対数線形補間で結合してスコアを算出する。この際、ドメイン毎にそれらの素性値の重みを変える。たとえば非特許文献1は、句に基づく統計翻訳方式(以下「PBSMT」という。)(非特許文献5及び6)のサブモデルをドメイン毎に訓練し、線形補間、対数線形補間でドメイン毎の素性重みを変えて翻訳を行っている。非特許文献1ではパープレキシティ等を目標関数にして、独自の重み推定を行っている。近年は、重みの推定に誤り率最小訓練法(MERT)(非特許文献8)等の最適化方法が用いられている(非特許文献2)。
【0014】
図3に、その1例である素性空間拡張法(非特許文献9)を機械翻訳に適用した翻訳システム(非特許文献10)の概略を示す。素性空間拡張法は、翻訳に限らず、機械学習全般に使われるドメイン適応方式で、素性関数の重みをドメイン毎に最適化する。非特許文献10は、これを対数線形補間方式の一種として翻訳に適用し、効果があったと報告している。
【0015】
図3を参照して、このシステムは、複数のドメイン訓練コーパス200を結合202し、全ドメインコーパス204を形成する。モデル学習部132がこの全ドメインコーパス204を訓練データとしてモデル206の学習を行う。モデル206をここでは全ドメイン・コーパス結合モデル206と呼ぶ。全ドメイン・コーパス結合モデル206も、目的言語の言語モデル230,原言語と目的言語のフレーズテーブル232、及び語彙化並び替えモデル234を含む。
【0016】
最適化部210が、初期重み208及び全てのドメイン開発セット212を用いて、全ドメイン・コーパス結合モデル206内の各モデルの素性を対数線形補間する際の重みをドメインごとに最適化し、最適化された素性重み214を出力する。
【0017】
図4に、図3のシステムで用いられる拡張素性空間250の概略を示す。拡張素性空間250は、ドメインごとに分けられたドメインデータ記憶領域(ドメイン1データ、ドメイン2データ、…、ドメインDデータ)を含む。ここではドメインはD個あるものとする。各ドメインデータ記憶領域は、素性記憶領域として共通空間と、ドメイン1空間〜ドメインD空間とを持つ。
【0018】
ドメイン1データ記憶領域の共通領域及びドメイン1空間には、いずれも、全ドメイン・コーパス結合モデル206から得られた素性(コーパス結合モデルスコア、その他素性、及び未知語ペナルティ)が格納される。共通領域及びドメイン1空間以外の素性空間(ドメイン2空間からドメインD空間)にはゼロが素性として記憶される。同様にドメイン2データ記憶領域の共通領域及びドメイン2空間には、いずれも全ドメイン・コーパス結合モデル206から得られた素性が格納され、それ以外の空間には0が記憶される。以下同様で、ドメインDデータ記憶領域の共通領域及びドメインD空間には、いずれも全ドメイン・コーパス結合モデル206から得られた素性が格納され、それ以外の空間には0が記憶される。
【0019】
最適化部210は、ドメイン開発セットの各文を翻訳し、BLEUを近似したスコアを用いて重みを最適化する。
【0020】
[fill-up法]
モデルの重みではなく、モデルが返す値(素性関数値)を変更することによってドメイン適応する方法の一つがfill-up法(非特許文献3)である。これはフレーズテーブルから翻訳候補を取得する際、INドメインの単独モデルにフレーズが存在する場合はその素性関数値を使用し、存在しない場合はOUTドメインの単独モデルからフレーズを取得し、その値を使用するというものである。素性関数値のみでなく、フレーズ候補も変更するため、未知語は減少する。
【先行技術文献】
【非特許文献】
【0021】
【非特許文献1】George Foster and Roland Kuhn. 2007. Mixture-model adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation, pages 128-135, Prague, Czech Republic, June.
【非特許文献2】George Foster, Cyril Goutte, and Roland Kuhn. 2010. Discriminative instance weighting for domain adaptation in statistical machine translation. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 451-459, Cambridge, MA, October.
【非特許文献3】Arianna Bisazza, Nick Ruiz, and Marcello Federico. 2011. Fillup versus interpolation methods for phrase-based smt adaptation. In Proceedings of the International Workshop on Spoken Language Translation (IWSLT), San Francisco, CA.
【非特許文献4】Rico Sennrich, Holger Schwenk, and Walid Aransa. 2013. A multi-domain translation model framework for statistical machine translation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 832-840, Sofia, Bulgaria, August.
【非特許文献5】Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical phrase-based translation. In Marti Hearst and Mari Ostendorf, editors, HLT-NAACL 2003: Main Proceedings, pages 127-133, Edmonton, Alberta, Canada, May 27 - June 1.
【非特許文献6】Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris CallisonBurch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pages 177-180, Prague, Czech Republic, June.
【非特許文献7】Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 311-318.
【非特許文献8】Franz Josef Och. 2003. Minimum error rate training in statistical machine translation. In Erhard Hinrichs and Dan Roth, editors, Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 160-167.
【非特許文献9】Hal Daum´e, III. 2007. Frustratingly easy domain adaptation. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 256-263, Prague, Czech Republiic, June.
【非特許文献10】Jonathan H. Clark, Alon Lavie, and Chris Dyer. 2012. One system, many domains: Open-domain statistical machine translation via feature augmentation. In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas (AMTA 2012), San Diego, CA.
【非特許文献11】Colin Cherry and George Foster. 2012. Batch tuning strategies for statistical machine translation. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 427-436, Montr´eal, Canada, June.
【非特許文献12】Mark Hopkins and Jonathan May. 2011. Tuning as ranking. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1352-1362, Edinburgh, Scotland, UK
【非特許文献13】Kenneth Heafield, Ivan Pouzyrevsky, Jonathan H. Clark, and Philipp Koehn. 2013. Scalable modified kneser-ney language model estimation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 690-696, Sofia, Bulgaria, August.
【発明の概要】
【発明が解決しようとする課題】
【0022】
コーパス結合方式の場合、学習したモデルは、INドメイン、OUTドメイン双方の中間的性質を持つ。したがって、モデルの精度もINデータのみ、OUTデータのみで学習されたモデルの中間の精度になることが多いという問題がある。非特許文献10に記載されたシステムでは、BLEUを近似した値を最適化に用いているため、最適化の精度が落ちるという問題がある。
【0023】
したがって、本発明の目的は、より確実に、素性重みを高い精度で最適化できる素性重みの最適化装置を提供することである。
【課題を解決するための手段】
【0024】
本発明の第1の局面にかかる自動翻訳の素性重み最適化装置は、各々、互いに異なる複数のドメインの翻訳用の複数のドメイン別統計モデルと、特定のドメインに限定されない汎用訓練コーパスから得られた翻訳用の汎用統計モデルとを記憶するためのモデル記憶手段と、複数のドメインに対してそれぞれ準備された自然言語の対訳文からなる複数のドメイン開発セットを記憶するためのドメイン開発セット記憶手段と、ドメイン開発セット記憶手段に記憶された複数のドメイン開発セットを用い、各モデルから得られる素性値又はその対数の線形補間を用いて自然言語の翻訳を行う際の各素性重みを最適化するための重み最適化手段とを含む。重み最適化手段は、複数のドメイン開発セットの各々について設けられたドメイン別素性記憶領域を有する記憶手段を含む。ドメイン別素性記憶領域の各々は、汎用統計モデルから得られる素性値を記憶する第1の領域と、複数のドメイン開発セットからそれぞれ得られる素性値を記憶する複数の第2の領域とを含む。各対訳文は、原文と、当該原文の参照訳とを含む。重み最適化手段はさらに、複数のドメイン開発セットに含まれる各対訳文の原文に対して、当該対訳文の属するドメイン用の統計モデルと、汎用統計モデルから当該原文に対して得られる素性値と、素性重みとを用いて統計的な自動翻訳を行う自動翻訳手段と、複数のドメイン開発セットに記憶された対訳文に対して、前記自動翻訳手段によって得られた翻訳文と参照訳との間の相違を表す値が各ドメインごとに最小となるように、汎用統計モデルから得られる素性重みと、複数のドメイン開発セットからそれぞれ得られる素性重みとを最適化するためのさらなる最適化手段とを含む。
【0025】
好ましくは、自動翻訳手段によって得られた翻訳文と参照訳との相違を表す値は、各対訳文の原文を自動翻訳して得られる翻訳文に対して、当該対訳文における原文の参照訳との間で算出されるBLEUスコアである。
【0026】
より好ましくは、自動翻訳手段は、複数のドメイン開発セットに記憶された各対訳文の原文に対して、当該対訳文の属するドメイン用の統計モデルから素性値を算出するためのドメイン用素性算出手段と、各対訳文の原文に対して汎用統計モデルから素性値を算出するための汎用素性算出手段と、ドメイン用素性算出手段により算出される素性値又はその対数と、汎用素性算出手段により算出される素性値又はその対数とを、記憶手段に記憶された重みを用いて線形補間して算出されるスコアを用いて統計的な自動翻訳を行うための手段とを含む。
【0027】
さらに好ましくは、自動翻訳を行うための手段は、ドメイン用素性算出手段により算出される素性値又はその対数と、汎用素性算出手段により算出される素性値又はその対数とを、記憶手段に記憶された重みを用いて線形補間して算出されるスコアを用いて統計的な自動翻訳を行い、複数個のスコア上位の翻訳文を出力するための手段を含む。
【0028】
さらなる最適化手段は、複数のドメイン開発セットに記憶された対訳文に対して、各ドメインの開発セットのBLEUスコアが最大となるように各文の損失を各翻訳文のBLEUスコアと尤度から算出し、各翻訳文のBLEUスコアは、翻訳文と参照訳を比較することによって得られたBLEU統計量と、ドメインごとに蓄積されたBLEU統計量の累積値から算出して、kベストバッチMIRAアルゴリズム(非特許文献11)により汎用統計モデルから得られる素性重みと複数のドメイン開発セットからそれぞれ得られる素性重みとを最適化するための手段を含んでもよい。
【0029】
本願発明の第2の局面にかかるコンピュータプログラムは、コンピュータを、上記したいずれかの自動翻訳の素性重み最適化装置として機能させる。
【図面の簡単な説明】
【0030】
図1】一般的な自動翻訳の3つの局面を説明するための図である。
図2】従来のコーパス結合方式の最適化方法を説明するためのブロック図である。
図3】従来の素性空間拡張法によるモデルの素性重みの最適化方法を説明するためのブロック図である。
図4図3に示すシステムで採用された拡張素性空間の構成を模式的に示す図である。
図5】本願発明の実施の形態にかかるモデルの素性重みの最適化装置の構成を示すブロック図である。
図6図5に示す装置で採用した拡張素性空間の構成を模式的に示す図である。
図7図5に示す装置をコンピュータハードウェア及びコンピュータプログラムで実現する際の最適化を実行するプログラムの制御構造を示すフローチャートである。
図8図5に示す装置を実現するコンピュータシステムの外観を示す図である。
図9図8に外観を示すコンピュータシステムの内部構成を示すブロック図である。
【発明を実施するための形態】
【0031】
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
【0032】
以下に述べる本発明の実施の形態では、機械翻訳のドメイン適応技術に対し、複数のドメインに同時に適応させるマルチドメイン適応方式を提案する。この実施の形態にかかる方式は、ドメインを限定した場合に翻訳品質がよいドメイン依存モデルと、未知語が少ないコーパス結合モデルを併用する。この実施の形態にかかる方式は、両者のメリットだけを活かす技術である。これを実現するため、機械学習分野におけるドメイン適応方法である素性空間拡張法(非特許文献9)を機械翻訳に適用し、複数ドメイン同時最適化を行う。
【0033】
翻訳品質の測定を行ったところ、以下の効果が観測された。
【0034】
・学習データが少ないドメインでは、単独モデルに比べ、大幅に翻訳品質が向上した。
【0035】
・学習データが100万文規模の大規模ドメインでも、単独モデルを含む従来のドメイン適応方式に比べ、最低限同等品質を保った。
【0036】
・数万文〜数十万文規模の学習データの場合、単独モデル方式、コーパス結合モデル方式に比べ、翻訳品質が高かった。
【0037】
なお、以下の実施の形態で対象とする自動翻訳の方式はPBSMTである。
【0038】
素性空間拡張法は、機械学習における素性重み最適化に用いられる方式である。素性空間を共通、OUTドメイン(ソースドメイン)、INドメイン(ターゲットドメイン)に分割し、各素性を、素性が由来するドメインごとに異なる素性空間に配置し、全体を最適化する。素性空間拡張法ではOUTドメインとINドメインを同等に扱っており、容易にD個のドメインに拡張できる。その場合、素性空間は共通、ドメイン1,…,ドメインDのように、D+1個の空間に分割される。統計的機械翻訳の場合、翻訳モデルスコア、言語モデルスコア等の値が素性関数値なので、これらの値で対数線形モデルを構成し、最適化している。よって、素性空間拡張法を統計翻訳に適用する場合、モデルスコアを異なる素性空間に配置し、最適化装置で最適化することになる。なお、本実施の形態では、最適化にはkbmira(非特許文献11)を使用している。しかし本発明はそのようなものには限定されず、PRO(非特許文献12)、MERT(非特許文献8)等を用いてもよい。
【0039】
なお、機械翻訳では、モデルの重みだけでなく、素性関数値(モデルそのものが返すスコアを含む)も翻訳品質に影響を与える。この素性関数値に影響する要素としては、関数値そのもの(インスタンス)の精度と、インスタンスのカバレッジが考えられる。PBSMTで使われるモデルには、原言語と目的言語のフレーズテーブル、語彙化並び替えモデル、目的言語の言語モデル等がある。これらのうちフレーズテーブルは、句の翻訳対を含み、翻訳仮説生成にも使われるため、カバレッジが十分にないと未知語が頻発することになる。言語モデル等、他のモデルについても、十分なカバレッジがないと様々な素性関数値が未知語と同等扱いになるため、精度が下がると予測される。そこで本実施の形態では、インスタンスのカバレッジを確保するためのコーパス結合モデルと、素性関数値の精度を保証するためのドメイン依存モデルの両方を導入する。具体的には、以下のような構成を用いる。
【0040】
・フレーズテーブル、語彙化並び替えモデル、言語モデル等の各モデルについて、ドメイン依存モデルとコーパス結合モデルを作成しておく。
【0041】
・素性空間拡張では、共通空間にはコーパス結合モデルのスコアを素性関数値として配置し、各ドメインの空間には、ドメイン依存モデルのスコアを配置し、最適化する。
【0042】
・デコーディングの際は、まず、ドメイン依存モデルとコーパス結合モデルのフレーズテーブルをOR検索し、翻訳仮説を生成する。探索の際には、共通空間と対象ドメインの空間の素性だけを使って尤度計算をする。
【0043】
翻訳仮説生成にコーパス結合フレーズテーブルを使用することにより、他のドメインで出現した翻訳対も利用でき、未知語の減少が期待できる。また、インスタンスがドメイン依存モデルに存在している場合、高い精度の素性関数値になることが期待される。
【0044】
表1に、本実施の形態で用いる素性の一覧を示す。
【0045】
【表1】
【0046】
本実施例の方式では、コーパス結合モデル、ドメイン依存モデルのどちらか一方にのみ出現するフレーズ対が多数存在する。これらフレーズに関しても素性関数は値を返す必要がある。この値をempty値と呼ぶ。empty値は、フレーズの翻訳確率分布から算出してもよいし、パイパーパラメータとして扱い、開発コーパスにおけるBLEUスコアが最高になるよう、実験的に設定してもよい。
【0047】
通常の機械学習における最適化と機械翻訳の最適化の大きな相違点は、多くの機械学習の損失関数が、尤度等デコーダが出力するスコアを使用しているのに対して、機械翻訳はBLEU(非特許文献7)のような、翻訳文の自動評価値を使用する点である。この自動評価値は、翻訳文と参照訳との比較によって算出され、コーパス単位に計算される場合が多い。実際、MERT、kbmiraは開発コーパスのBLEUスコアを損失関数の一部に使用している。つまり、複数ドメインを同時に最適化する場合は、ドメイン毎にBLEUスコアを算出しないと、最適化結果がドメイン最適にならないことを意味している。
【0048】
上記問題を解決するため、本実施の形態ではkbmiraのアルゴリズムをマルチドメイン用に変更する。非特許文献11にアルゴリズム1として記載されたものがkbmiraのアルゴリズムであるが、本実施の形態における変更点は、以下のとおりである。
【0049】
1.処理済み翻訳文のBLEU統計量(ngram一致数等)を保存する変数BGを、1つからドメイン数D個に拡張する。
【0050】
2.各翻訳文のBLEUスコアは、その翻訳文およびその翻訳文のドメインdのBLEU統計量BGから算出する。
【0051】
3.素性重みを更新後、その翻訳文のBLEU統計量をBGに追加する。
【0052】
これらの変更によって、各ドメイン空間の素性重みは、そのドメインの開発コーパスに最適化されたものになる。このような変更をしたアルゴリズムを本願明細書ではマルチドメインkbmiraと呼ぶことにする。
【0053】
図5を参照して、本発明の実施の形態にかかる素性重み最適化装置は、前述したとおり、ドメイン毎に準備された複数のドメイン訓練コーパス200を用いる。ドメイン訓練コーパス200は結合202され、全ドメインコーパス204が形成される。これらコーパスは、いずれもコンピュータの記憶装置に記憶される。
【0054】
この素性重み最適化装置は、ドメイン訓練コーパス200の各々の訓練コーパスから各ドメインのドメインモデル272を、全ドメインコーパス204からコーパス結合モデル274を、それぞれ学習するためのモデル学習部270と、ドメインごとに準備された複数のドメイン開発セット212と、初期重み276を記憶する記憶装置と、ドメイン開発セット212に含まれる各対訳の原文に対してドメインモデル272及びコーパス結合モデル274を用いた自動翻訳を行い、それにより得られた翻訳仮説の上位n個をBLEUスコアで評価することを重みの値を変化させながら繰返すことで、初期重み276を最適化し、最適化された素性重み280を出力する最適化部278とを含む。最適化部278による自動翻訳では、ドメイン開発セット212の各ドメインに含まれる対訳の原文の翻訳仮説に対してドメインモデル272及びコーパス結合モデル274を適用してそれぞれ素性を算出し、それらを素性重みで対数補間して得られるスコアを用いて上位N個の仮説を出力する。それら仮説のBLEU統計量を、ドメインごとに累積することで、ドメイン開発セット212のBLEUスコアを算出する。最適化部278は、このBLEUスコアが最大になるように、素性重みを変化させながらドメイン開発セット212の翻訳と訳文の評価とを繰返すことで素性重みを最適化する。
【0055】
図6に、この最適化部278が用いる拡張素性空間300の構成を示す。図6を参照して、拡張素性空間300は、ドメイン毎に設けられたドメイン記憶領域(ドメイン1データ、ドメイン2データ、…、ドメインDデータ)を含む。各ドメイン記憶領域は、共通空間、ドメイン1空間〜ドメインD空間を持つ。
【0056】
例えばドメイン1データの記憶領域は、コーパス結合モデルから得られたスコア等の素性を記憶する共通空間と、ドメイン1モデルから得られたスコア等のスコアを記憶するドメイン1空間と、その他のドメイン空間(ドメイン2空間〜ドメインD空間)とを持つ。共通空間およびドメイン1空間以外のドメイン空間には素性値として0が記憶される。
【0057】
ドメイン2データの記憶領域は、同様に、共通領域と、ドメイン1空間〜ドメインD空間と、ドメイン2のためのBLEU統計量を記憶する領域とを持つ。共通空間はコーパス結合モデルから得られたスコア等の素性を記憶する。ドメイン2空間は、ドメイン2モデルから得られたスコア等の素性を記憶する。ドメイン2モデル以外のドメイン空間には、0が記憶される。以下同様である。
【0058】
このように、素性を各ドメインに対応する領域に記憶する必要があるため、最適化時にドメイン開発セット212に含まれる原文を翻訳する際には、最適化部278は、その原文が属するドメインの識別子(ドメインID)をドメイン開発セット212から読み出す必要がある。
【0059】
拡張素性空間300を用い、全ドメインの重みを同時に最適化するが、それによって各ドメインの重みも最適化される。
【0060】
なお、この最適化により、図6の下部に示されるように、共通空間と、各ドメイン空間との素性重みが算出されるが、あるドメインに属する原文を翻訳する際には、共通空間と、その原文のドメインに対応したドメイン空間との素性重みのみが使用される。
【0061】
図7に、最適化部278をコンピュータハードウェアと協働して実現するためのコンピュータプログラムの制御構造をフローチャート形式で示す。なお、図7においては非特許文献11の記法を採用している。記法については以下の数1を参照されたい。
【数1】
【0062】
図7を参照して、ステップ320は処理に必要な所定の入力を受け、ステップ322は各BLEU統計量を記憶する変数BG〜BGに小さな正の値を代入する。ステップ324は、以下の繰返しに先立って変数tに1を代入し、重みベクトルを表す変数に初期値wを代入する。なお「」は数式及び図では直後の変数の直上に記載され、その変数がベクトルであることを表す記号である。
【0063】
続いて、ステップ326で、繰返し制御変数jを1〜最大エポック数Jまで1ずつ変化させながら以下の処理328を繰返し行う。
【0064】
処理328では、繰返し制御変数iを1からnまでランダムに変化させながら、処理342を実行する。
【0065】
処理342は、処理対象の原文を翻訳して得られたnベストの仮説の各々と参照訳とを比較して、そのドメインdのBLEU統計量BGdを用いてBLEUスコアを計算し、その値に基づいて、図7の処理342の上2つの式にしたがってe及びe´tを求める。さらに、処理342の4行〜6行に記載した式にしたがって重みを更新する。その後、処理対象の原文が属するドメインに対応する変数BG図7の処理342の下から2行目に示す式にしたがって更新し、tに1を加算して次の処理342の繰返しに進む。
【0066】
ステップ340の処理が全てのiについて完了すると、ステップ346の式にしたがって重みwの平均値avgを算出して記憶し、変数jに1加算して次のステップ326の繰返しに進む。
【0067】
処理326が終了した後、ステップ330で、開発データに対するBLEUスコアを最大化する重みの平均値avgを出力してこの処理を終了する。
【0068】
[コンピュータによる実現]
上記実施の形態に係る素性重みの最適化装置は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図8はこのコンピュータシステム930の外観を示し、図9はコンピュータシステム930の内部構成を示す。
【0069】
図8を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
【0070】
図9を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。ネットワークI/F944は、インターネット74に接続されてもよい。
【0071】
コンピュータシステム930を上記した各実施の形態の素性重みの最適化装置を構成する各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムはネットワークI/F944を通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークI/F944を介して、直接にRAM960にプログラムをロードしてもよい。
【0072】
このプログラムは、コンピュータ940を、上記実施の形態に係る素性重みの最適化装置の各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又は、コンピュータ940にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の素性重みの最適化装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記した素性重みの最適化装置としての機能を実現する命令のみを含んでいればよい。コンピュータシステム930の動作は周知である。したがってここでは繰返さない。
【0073】
なお、各種のコーパスは、上記実施の形態ではハードディスク954に記憶され、適宜RAM960に展開される。素性重み、拡張素性、BLEU統計量、作業用の変数、繰り返し制御変数等はいずれもRAM960に記憶される。最終的に最適化された素性重みはRAM960からハードディスク954、DVD962又はUSBメモリ964に格納される。または素性重みはネットワークI/F944を介して別の装置に送信される。
【0074】
[実験]
(実験設定)
−ドメイン/コーパス−
本実験では、英日/日英翻訳を対象に、以下の4つのドメインの同時最適化を行う。各ドメインのコーパスサイズ(文数)を表2に示す。なお、訓練文は表2のうち80単語以下のものだけを使用している。
【0075】
【表2】

MED:病院等における医師(スタッフ)と患者の疑似対話のコーパス。
LIVING:外国人が日本に旅行や在留する際の疑似対話コーパス。
NTCIR:特許コーパス。訓練コーパスと開発コーパスはNTCIR−8、テストコーパスはNTCIR−9のものを使用。
ASPEC:科学技術文献コーパス。ASPEC―JEのうち、対訳信頼度の高い100万文を使用。
【0076】
−翻訳システム−
各コーパスの対訳文は、内部開発の事前並び替えを適用したのちに使用した。翻訳システムの訓練のうち、フレーズテーブル、語彙化並び替えモデルの学習にはMosesツールキット(非特許文献6)をデフォルト設定で使用した。言語モデルはKenLM(非特許文献13)を用いて訓練セットの目的言語側から5グラムモデルを構築した。最適化は前述したマルチドメインkbmiraを使用した。デコーディングには、出願人において内部開発したMosesのクローンデコーダを使用した。デコーダの設定値はMosesのデフォルト値と同じphrase table limit=20、distortion limit=6、ビーム幅200とした。
【0077】
−評価指標−
評価指標にはBLEUを使用した。有意差検定の危険率はp<0.05とした。最適化の揺れを吸収するため、5回最適化を実施し、その平均値を使用した。
【0078】
−比較方式−
以下の方式を比較する。
【0079】
1. 単独モデル:各ドメインコーパスだけでモデルを構築、最適化、テストした場合。これをベースラインとして、他の方式と比較する。
【0080】
2. コーパス結合: 全ドメインのコーパス結合モデルを使用し、各ドメインの開発コーパスで最適化、テストした場合。
【0081】
3. Fill-up法:ドメイン適応方式にfill-up法(非特許文献3)を用いた場合。
【0082】
4. 素性空間拡張法1(Clark):共通空間、ドメイン空間共に、コーパス結合モデルの素性関数を使った素性空間拡張法。非特許文献10の設定と同じだが、最適化方法にはマルチドメインkbmiraを使用した(非特許文献10は最適化方法にPROを使用)。
【0083】
5. 素性空間拡張法2(提案法):本実施の形態にかかる方法。共通空間にはコーパス結合モデルの素性関数を使用し、ドメイン依存空間ではドメイン依存モデルを使用した素性空間拡張法。
【0084】
(翻訳品質)
各方式について、英日翻訳におけるBLEUスコアを表3に、日英翻訳におけるBLEUスコアを表4に示す。なお、表中の(+)は、単独モデル方式をベースラインとしたとき、有意に向上したもの、(-)は有意に悪化したものを表す。
【0085】
【表3】
【0086】
【表4】
【0087】
単独モデルと比較した場合、コーパス結合方式は、翻訳品質も単独モデルより低下する傾向が強かった。素性空間拡張法1(Clark)でも同様で、コーパス結合モデルだけを使う方式は、単独モデルより翻訳品質が下がった。コーパス結合方式は各ドメインが平均化されたモデルが作成され、素性関数の精度が落ちたためと、単独モデル自体が比較的大きな対訳コーパスから構築されており、単独でも翻訳品質が確保できたためと考えられる。Fill-up法は、コーパス結合方式に比べると翻訳品質は向上する場合が多かったが、単独モデルより悪化した。
【0088】
提案法である素性空間拡張法2(提案法)は、すべてのドメインにおいて、単独モデルより有意に向上、または同等品質となり、マルチドメインに対して適切に適応できた。
【0089】
(シングルドメイン適応としての効果)
ドメイン適応が必要となる場面は、新たなドメインデータの翻訳を行わなければならないにも関わらず、十分な量の訓練文が集まらない場合である。ここでは、MED英日翻訳に絞って、訓練コーパスのサイズを変えて翻訳品質を測定する。
【0090】
【表5】

表6は、単独モデル方式、コーパス結合方式と素性空間拡張法2(提案法)を比較した結果である。表中の(+)は単独モデルと比較して有意に高く、(-)は有意に低いことを表す。(†)はコーパス結合と比較して有意に高いことを表している。
【0091】
訓練コーパスが1、000文(1k)しかない場合は、提案法は単独モデルに比べて非常に高い品質となっているが、コーパス結合とはほぼ同じである。訓練コーパスサイズが増えるにしたがい、全方式ともにBLEUスコアが向上するが、コーパス結合の品質向上は単独モデルより緩やかで、約10万文(100k)で単独モデルの品質が逆転する。素性空間拡張法2(提案法)は、3千文(3k)以上では常に単独モデル、コーパス結合の品質を上回っており、両者の利点をうまく融合させた方式であることを示している。
【0092】
以上のように本発明によれば、ドメイン適応において、複数のドメインについて重みを同時に最適化できる。しかも最適化された結果を用いて翻訳を行うと、他の適応方式と比較して確実に翻訳の品質が向上し、訓練コーパスを大規模にしても、単独モデル方式、コーパス結合モデル方式の翻訳品質を上回った。100万文規模の大規模コーパスに適用しても、翻訳品質を下げることがなく、ドメインによっては品質向上の効果があることを示
した。この結果、他の適応方式と比較して、本発明の適応方式によれば確実にドメインごとの翻訳精度を高めることができる。
【0093】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0094】
30 自動翻訳システム
40 訓練
42 最適化
44 翻訳
60 訓練コーパス
64 モデル
80 開発セット
82、136、208、276 初期重み
84、102 デコーダ
86 BLEU統計量算出部
88、 素性重み最適化部
130 INドメイン訓練コーパス
131 OUTドメイン訓練コーパス
132 モデル学習部
134、274 コーパス結合モデル
138、210、278 最適化部
174 結合コーパス
178 INドメイン開発セット
180、214、280 素性重み
190 目的言語の言語モデル
192 フレーズテーブル
194 語彙化並び替えモデル
200 ドメイン訓練コーパス
204 全ドメインコーパス
206 全ドメイン・コーパス結合モデル
212 ドメイン開発セット
250、300 拡張素性空間
272 ドメインモデル
図1
図2
図3
図4
図5
図6
図7
図8
図9