特許6703709 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許6703709自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6703709

(24)【登録日】2020年5月13日

(45)【発行日】2020年6月3日

(54)【発明の名称】自動翻訳の素性重み最適化装置及びそのためのコンピュータプログラム

(51)【国際特許分類】

G06F 40/44 20200101AFI20200525BHJP

G06F 40/51 20200101ALI20200525BHJP

【ＦＩ】

G06F17/28 618

G06F17/28 654

【請求項の数】5

【全頁数】20

(21)【出願番号】特願2016-34682(P2016-34682)

(22)【出願日】2016年2月25日

(65)【公開番号】特開2017-151804(P2017-151804A)

(43)【公開日】2017年8月31日

【審査請求日】2019年1月10日

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２７年度、総務省、情報通信技術の研究開発、産業技術力強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】100099933

【弁理士】

【氏名又は名称】清水敏

(72)【発明者】

【氏名】今村賢治

(72)【発明者】

【氏名】隅田英一郎

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２０１３−０６５２０２（ＪＰ，Ａ）

【文献】特開２０１４−１７０２９６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２０−１７／２８

(57)【特許請求の範囲】

【請求項1】

互いに異なる複数のドメインの翻訳用の複数のドメイン別統計モデルと、特定のドメインに限定されない翻訳用の汎用統計モデルとを記憶するためのモデル記憶手段と、
前記複数のドメインに対してそれぞれ準備された自然言語の対訳文からなる複数のドメイン開発セットを記憶するためのドメイン開発セット記憶手段として機能するようプログラムされたコンピュータを含む、自動翻訳の素性重み最適化装置であって、
前記各対訳文は、原文と、当該原文の参照訳とを含み、
前記コンピュータはさらに、
前記複数のドメイン開発セットを用い、前記対訳文の各々に対し、前記モデル記憶手段に記憶された各前記モデルから得られる素性値又はその対数の線形補間を用いて翻訳を行う際の各素性重みを最適化するための重み最適化手段として機能するようプログラムされており、
前記重み最適化手段は、
前記複数のドメイン開発セットに含まれる各対訳文の原文に対して、前記複数のドメイン別統計モデルの中で当該対訳文の属するドメイン用の統計モデルから得られる素性値又はその対数と、前記汎用統計モデルから得られる素性値又はその対数とを、所定の素性重みにより線形補間して算出したスコアを用いて統計的な自動翻訳を行う自動翻訳手段と、
前記複数のドメイン開発セットに記憶された対訳文の各々の原文に対して、前記素性重みを用いて前記自動翻訳手段によって得られた翻訳文と参照訳とに基づき、当該翻訳文が前記参照訳に似ていれば高く、異なっていれば低くなる評価スコアを算出する評価スコア算出手段とを含み、
前記自動翻訳手段は、翻訳の際に、前記汎用統計モデルに含まれる翻訳モデルから得られる素性値、及び、前記複数のドメイン用の統計モデルのうち、翻訳対象の対訳文のドメイン用の統計モデルに含まれる翻訳モデルから得られる素性値の双方を使用し、
前記重み最適化手段はさらに、
各ドメインについて、当該ドメインに属する対訳文の原文に対する前記自動翻訳手段による翻訳文に対して前記評価スコア算出手段により算出された前記評価スコアを蓄積し記憶するための評価スコア記憶手段と、
前記素性重みを変化させながら、前記自動翻訳手段と前記評価スコア算出手段と前記評価スコア記憶手段とによる、前記複数のドメイン開発セットに含まれる各対訳の原文の翻訳と、それに伴う前記評価スコアの算出及び蓄積を第１の終了条件が成立するまで繰返し、繰返しの終了時に、前記評価スコア記憶手段により前記複数のドメインの各々について蓄積された前記評価スコアの合計と、前記素性重みの代表値とを算出し記憶する代表値算出手段と、
前記代表値算出手段による処理を、第２の終了条件が成立するまで繰返した後に、前記代表値算出手段によって記憶された前記評価スコアの前記合計が最大となったときの前記代表値を、全ドメインに対して最適化された前記素性重みとして出力するための素性重み出力手段とを含む、自動翻訳の素性重み最適化装置。

【請求項2】

前記評価スコアは、前記各対訳文の原文を自動翻訳して得られる翻訳文に対して、当該対訳文における前記原文の参照訳との間で算出されるＢＬＥＵスコアである、請求項１に記載の自動翻訳の素性重み最適化装置。

【請求項3】

前記自動翻訳手段は、
前記複数のドメイン開発セットに含まれる各対訳文の原文の翻訳のために、当該対訳文の属するドメイン用の統計モデルから素性値を算出するためのドメイン用素性算出手段と、
前記各対訳文の原文の翻訳のために、前記汎用統計モデルから素性値を算出するための汎用素性算出手段と、
前記ドメイン用素性算出手段により算出される素性値又はその対数と、前記汎用素性算出手段により算出される素性値又はその対数とを、前記素性重みを用いて線形補間して算出されるスコアを用いて前記各対訳文の原文に対する統計的な自動翻訳を行うための手段を含む、請求項１又は請求項２に記載の自動翻訳の素性重み最適化装置。

【請求項4】

前記自動翻訳を行うための前記手段は、
前記複数のドメイン開発セットに含まれる各対訳文の原文の各々に対して前記自動翻訳手段による自動翻訳で得られた翻訳仮説の中で、前記評価スコア算出手段により算出される前記評価スコアが上位の所定の複数個の翻訳文を出力するための手段を含む、請求項３に記載の自動翻訳の素性重み最適化装置。

【請求項5】

コンピュータを、請求項１〜請求項４のいずれかに記載の自動翻訳の素性重み最適化装置として機能させる、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、自動翻訳に関し、特に、複数の素性又はその対数を線形補間（線形結合）して得られるスコアを用いて自動翻訳を行うシステムにおいて、各素性に割り当てられる重みを最適化するための装置に関する。

【背景技術】

【0002】

さまざまな種類のテキスト及び音声認識結果が機械翻訳器によって翻訳されるようになってきている。しかし、全てのドメインのデータを適切に翻訳できる機械翻訳器の実現は困難であり、翻訳対象ドメインを絞りこむ必要がある。ここでいうドメインとは、翻訳対象のテキストが属する分野又は局面のことをいう。

【0003】

確実に対象ドメインの翻訳品質を向上させるには、対象ドメインの学習データ（対訳文）を大量に収集し、翻訳器を訓練することが必要である。しかし、多数のドメインについて、対訳文を大量に収集することはコストの観点から困難である。したがって、他のドメインの学習データを用いて対象ドメインの翻訳品質を向上させるドメイン適応技術が研究されている（非特許文献１，２，３及び４）。なお、学習データは対訳文の集合である。各対訳文は、原言語の文（原文）と、その原文の目的言語の訳文とからなる。訳文は、主に翻訳モデルを構築する際に使用される。また、対訳データの一部は後述する開発セットに用いられるが、この場合の訳文は、翻訳仮説の評価を行う際の参照訳としても用いられる。

【0004】

機械翻訳のドメイン適応は、翻訳対象のドメイン（ＩＮドメイン）データが少なく、他のドメイン（ＯＵＴドメイン）データが大量にある場合、ＩＮとＯＵＴのデータ双方を使って、ＩＮドメインの翻訳品質を向上させる技術である。

【0005】

図１を参照して、本願発明が対象とする自動翻訳システム３０の素性重みの最適化について概略を説明する。一般に、自動翻訳システム３０の動作には３つの局面がある。第１の局面は訓練４０であり、第２の局面は最適化４２であり、第３の局面は翻訳４４（テスト）である。訓練４０では、訓練コーパス６０からモデル学習部６２によりモデル６４の学習を行う。ここでいうモデル６４は、統計的モデルであり、言語モデル、翻訳モデル（フレーズテーブル）、並び替えモデル等を含む。訓練コーパス６０をあるドメインの対訳に限定することでそのドメイン用のモデル６４の訓練を行える。このモデル学習は既に確立された技術である。

【0006】

第２の局面である最適化４２では、開発セット８０と初期重み８２とを用いた素性重みの最適化が行われる。開発セット８０は、対象ドメインの対訳文を含む。一般に、開発セット８０に含まれる対訳文の数は訓練コーパス６０に含まれる対訳文の数よりも少なく選ばれる。最適化４２では、開発セット８０に含まれる各対訳文の原文を、デコーダ８４により翻訳する。デコーダ８４は、原文から得られる翻訳仮説に対してモデル６４を適用することで得られる素性ベクトルの要素（素性）又はその対数の線形補間で得られるスコアを用いて、スコアが上位のＮ個の仮説（Ｎベスト訳）を出力する。これらの仮説を、原文と対になっていた参照訳と比較して、ＢＬＥＵ（非特許文献７）と呼ばれる方式によって算出されたスコアにより評価する。ＢＬＥＵは、翻訳仮説と参照訳との相違に基づく値を表す関数と考えることができ、翻訳仮説が参照訳と似ていればＢＬＥＵスコアは高くなり、異なっていれば低くなる。このＢＬＥＵスコアは、開発セット８０の全ての対訳に対して蓄積したＢＬＥＵ統計量をＢＬＥＵ統計量算出部８６で算出することで、開発セット８０の全体としての翻訳の質を測定できる。素性重み最適化部８８が、重みの値を変化させながらＢＬＥＵ統計量算出部８６に開発セット８０に含まれる対訳文のＢＬＥＵ統計量を算出させ、その中でＢＬＥＵスコアが最大となる素性重み９０を特定する。

【0007】

翻訳４４では、デコーダ１０２が、原文１００の翻訳仮説を多数生成し、各仮説に対してモデル６４を適用して得られた素性を、素性重み９０を用いて線形補間したスコアで評価し、最も良いスコアが得られた仮説を翻訳文１０４として出力する。

【0008】

ドメイン別の翻訳器を構築するための最も単純な方法は、訓練コーパス６０を対象ドメインに限定し、開発セット８０も対象ドメインに限定してモデルの学習及び素性重みの最適化を行うことである。このように、あるドメインに限定した訓練コーパスで学習したモデルのことをドメイン依存モデル、または単独モデルと呼び、ドメインを限定した開発セットで単独モデルを最適化する方式を単独モデル方式と呼ぶ。この方法では、前述したとおり十分な訓練データを得ることが難しいという問題がある。

【0009】

これに対し、ＯＵＴドメインのデータを用いてＩＮドメインに最適化した翻訳器を構築するためのドメイン最適化手法には以下の様なものがある。

【0010】

［コーパス結合］
最もシンプルなベースラインとして用いられている方法は、ＩＮドメインとＯＵＴドメインのデータを結合した訓練データで学習し、１つのモデルを構築する方法である。本願明細書ではこれをコーパス結合方式と呼ぶ。一般的な機械学習では、結合されたコーパスで学習したモデルは、ＩＮドメイン、ＯＵＴドメイン双方の中間的性質を持つ。そのため、モデルの精度もＩＮデータのみ、ＯＵＴデータのみで学習されたモデルの中間の精度になることが多い。一方、機械翻訳の場合、コーパスを結合することにより、カバーする語彙が増加する。そのため、未知語が減少し、ＩＮモデルより翻訳品質が向上する場合もある。最終的に翻訳品質が向上するか否かは、パラメータの精度低下と未知語の減少のトレードオフになる。

【0011】

図２に、そのようなシステムの構成を示す。図２を参照して、ＩＮドメインのデータであるＩＮドメイン訓練コーパス１３０とＯＵＴドメインのデータであるＯＵＴドメイン訓練コーパス１３１を結合１７２し、結合コーパス１７４を作成する。この結合コーパス１７４を訓練データとして、モデル学習部１３２がコーパス結合モデル１３４の訓練を行う。ここで、コーパス結合モデル１３４は目的言語の言語モデル１９０、原言語と目的言語のフレーズテーブル１９２、及び語彙化並び替えモデル１９４等を含むものとする。

【0012】

そして、最適化部１３８が、初期重み１３６と対象ドメインのＩＮドメイン開発セット１７８とを用いて、素性の線形補間又は対数線形補間の際の各素性重みを対象ドメインに最適化する。最適化された素性重み１８０は最適化部１３８により出力される。

【0013】

［線形補間、対数線形補間］
自動翻訳のドメイン適応方式としては、以下の様な方式が知られている。すなわち、この方式では、翻訳に使用されるサブモデル（言語モデル、フレーズテーブル、語彙化並び替えモデル等）は汎用の訓練コーパスで学習する。翻訳仮説に対してそれらサブモデルから素性値を得る。得られた値を線形補間、対数線形補間で結合してスコアを算出する。この際、ドメイン毎にそれらの素性値の重みを変える。たとえば非特許文献１は、句に基づく統計翻訳方式（以下「ＰＢＳＭＴ」という。）（非特許文献５及び６）のサブモデルをドメイン毎に訓練し、線形補間、対数線形補間でドメイン毎の素性重みを変えて翻訳を行っている。非特許文献１ではパープレキシティ等を目標関数にして、独自の重み推定を行っている。近年は、重みの推定に誤り率最小訓練法（ＭＥＲＴ）（非特許文献８）等の最適化方法が用いられている（非特許文献２）。

【0014】

図３に、その１例である素性空間拡張法（非特許文献９）を機械翻訳に適用した翻訳システム（非特許文献１０）の概略を示す。素性空間拡張法は、翻訳に限らず、機械学習全般に使われるドメイン適応方式で、素性関数の重みをドメイン毎に最適化する。非特許文献１０は、これを対数線形補間方式の一種として翻訳に適用し、効果があったと報告している。

【0015】

図３を参照して、このシステムは、複数のドメイン訓練コーパス２００を結合２０２し、全ドメインコーパス２０４を形成する。モデル学習部１３２がこの全ドメインコーパス２０４を訓練データとしてモデル２０６の学習を行う。モデル２０６をここでは全ドメイン・コーパス結合モデル２０６と呼ぶ。全ドメイン・コーパス結合モデル２０６も、目的言語の言語モデル２３０，原言語と目的言語のフレーズテーブル２３２、及び語彙化並び替えモデル２３４を含む。

【0016】

最適化部２１０が、初期重み２０８及び全てのドメイン開発セット２１２を用いて、全ドメイン・コーパス結合モデル２０６内の各モデルの素性を対数線形補間する際の重みをドメインごとに最適化し、最適化された素性重み２１４を出力する。

【0017】

図４に、図３のシステムで用いられる拡張素性空間２５０の概略を示す。拡張素性空間２５０は、ドメインごとに分けられたドメインデータ記憶領域（ドメイン１データ、ドメイン２データ、…、ドメインＤデータ）を含む。ここではドメインはＤ個あるものとする。各ドメインデータ記憶領域は、素性記憶領域として共通空間と、ドメイン１空間〜ドメインＤ空間とを持つ。

【0018】

ドメイン１データ記憶領域の共通領域及びドメイン１空間には、いずれも、全ドメイン・コーパス結合モデル２０６から得られた素性（コーパス結合モデルスコア、その他素性、及び未知語ペナルティ）が格納される。共通領域及びドメイン１空間以外の素性空間（ドメイン２空間からドメインＤ空間）にはゼロが素性として記憶される。同様にドメイン２データ記憶領域の共通領域及びドメイン２空間には、いずれも全ドメイン・コーパス結合モデル２０６から得られた素性が格納され、それ以外の空間には０が記憶される。以下同様で、ドメインＤデータ記憶領域の共通領域及びドメインＤ空間には、いずれも全ドメイン・コーパス結合モデル２０６から得られた素性が格納され、それ以外の空間には０が記憶される。

【0019】

最適化部２１０は、ドメイン開発セットの各文を翻訳し、ＢＬＥＵを近似したスコアを用いて重みを最適化する。

【0020】

［fill-up法］
モデルの重みではなく、モデルが返す値（素性関数値）を変更することによってドメイン適応する方法の一つがfill-up法（非特許文献３）である。これはフレーズテーブルから翻訳候補を取得する際、ＩＮドメインの単独モデルにフレーズが存在する場合はその素性関数値を使用し、存在しない場合はＯＵＴドメインの単独モデルからフレーズを取得し、その値を使用するというものである。素性関数値のみでなく、フレーズ候補も変更するため、未知語は減少する。

【先行技術文献】

【非特許文献】

【0021】

【非特許文献1】George Foster and Roland Kuhn. 2007. Mixture-model adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation, pages 128-135, Prague, Czech Republic, June.

【非特許文献2】George Foster, Cyril Goutte, and Roland Kuhn. 2010. Discriminative instance weighting for domain adaptation in statistical machine translation. In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 451-459, Cambridge, MA, October.

【非特許文献3】Arianna Bisazza, Nick Ruiz, and Marcello Federico. 2011. Fillup versus interpolation methods for phrase-based smt adaptation. In Proceedings of the International Workshop on Spoken Language Translation (IWSLT), San Francisco, CA.

【非特許文献4】Rico Sennrich, Holger Schwenk, and Walid Aransa. 2013. A multi-domain translation model framework for statistical machine translation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 832-840, Sofia, Bulgaria, August.

【非特許文献5】Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical phrase-based translation. In Marti Hearst and Mari Ostendorf, editors, HLT-NAACL 2003: Main Proceedings, pages 127-133, Edmonton, Alberta, Canada, May 27 - June 1.

【非特許文献6】Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris CallisonBurch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pages 177-180, Prague, Czech Republic, June.

【非特許文献7】Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pages 311-318.

【非特許文献8】Franz Josef Och. 2003. Minimum error rate training in statistical machine translation. In Erhard Hinrichs and Dan Roth, editors, Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, pages 160-167.

【非特許文献9】Hal Daum´e, III. 2007. Frustratingly easy domain adaptation. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 256-263, Prague, Czech Republiic, June.

【非特許文献10】Jonathan H. Clark, Alon Lavie, and Chris Dyer. 2012. One system, many domains: Open-domain statistical machine translation via feature augmentation. In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas (AMTA 2012), San Diego, CA.

【非特許文献11】Colin Cherry and George Foster. 2012. Batch tuning strategies for statistical machine translation. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 427-436, Montr´eal, Canada, June.

【非特許文献12】Mark Hopkins and Jonathan May. 2011. Tuning as ranking. In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1352-1362, Edinburgh, Scotland, UK

【非特許文献13】Kenneth Heafield, Ivan Pouzyrevsky, Jonathan H. Clark, and Philipp Koehn. 2013. Scalable modified kneser-ney language model estimation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 690-696, Sofia, Bulgaria, August.

【発明の概要】

【発明が解決しようとする課題】

【0022】

コーパス結合方式の場合、学習したモデルは、ＩＮドメイン、ＯＵＴドメイン双方の中間的性質を持つ。したがって、モデルの精度もＩＮデータのみ、ＯＵＴデータのみで学習されたモデルの中間の精度になることが多いという問題がある。非特許文献１０に記載されたシステムでは、ＢＬＥＵを近似した値を最適化に用いているため、最適化の精度が落ちるという問題がある。

【0023】

したがって、本発明の目的は、より確実に、素性重みを高い精度で最適化できる素性重みの最適化装置を提供することである。

【課題を解決するための手段】

【0024】

本発明の第１の局面にかかる自動翻訳の素性重み最適化装置は、各々、互いに異なる複数のドメインの翻訳用の複数のドメイン別統計モデルと、特定のドメインに限定されない汎用訓練コーパスから得られた翻訳用の汎用統計モデルとを記憶するためのモデル記憶手段と、複数のドメインに対してそれぞれ準備された自然言語の対訳文からなる複数のドメイン開発セットを記憶するためのドメイン開発セット記憶手段と、ドメイン開発セット記憶手段に記憶された複数のドメイン開発セットを用い、各モデルから得られる素性値又はその対数の線形補間を用いて自然言語の翻訳を行う際の各素性重みを最適化するための重み最適化手段とを含む。重み最適化手段は、複数のドメイン開発セットの各々について設けられたドメイン別素性記憶領域を有する記憶手段を含む。ドメイン別素性記憶領域の各々は、汎用統計モデルから得られる素性値を記憶する第１の領域と、複数のドメイン開発セットからそれぞれ得られる素性値を記憶する複数の第２の領域とを含む。各対訳文は、原文と、当該原文の参照訳とを含む。重み最適化手段はさらに、複数のドメイン開発セットに含まれる各対訳文の原文に対して、当該対訳文の属するドメイン用の統計モデルと、汎用統計モデルから当該原文に対して得られる素性値と、素性重みとを用いて統計的な自動翻訳を行う自動翻訳手段と、複数のドメイン開発セットに記憶された対訳文に対して、前記自動翻訳手段によって得られた翻訳文と参照訳との間の相違を表す値が各ドメインごとに最小となるように、汎用統計モデルから得られる素性重みと、複数のドメイン開発セットからそれぞれ得られる素性重みとを最適化するためのさらなる最適化手段とを含む。

【0025】

好ましくは、自動翻訳手段によって得られた翻訳文と参照訳との相違を表す値は、各対訳文の原文を自動翻訳して得られる翻訳文に対して、当該対訳文における原文の参照訳との間で算出されるＢＬＥＵスコアである。

【0026】

より好ましくは、自動翻訳手段は、複数のドメイン開発セットに記憶された各対訳文の原文に対して、当該対訳文の属するドメイン用の統計モデルから素性値を算出するためのドメイン用素性算出手段と、各対訳文の原文に対して汎用統計モデルから素性値を算出するための汎用素性算出手段と、ドメイン用素性算出手段により算出される素性値又はその対数と、汎用素性算出手段により算出される素性値又はその対数とを、記憶手段に記憶された重みを用いて線形補間して算出されるスコアを用いて統計的な自動翻訳を行うための手段とを含む。

【0027】

さらに好ましくは、自動翻訳を行うための手段は、ドメイン用素性算出手段により算出される素性値又はその対数と、汎用素性算出手段により算出される素性値又はその対数とを、記憶手段に記憶された重みを用いて線形補間して算出されるスコアを用いて統計的な自動翻訳を行い、複数個のスコア上位の翻訳文を出力するための手段を含む。

【0028】

さらなる最適化手段は、複数のドメイン開発セットに記憶された対訳文に対して、各ドメインの開発セットのＢＬＥＵスコアが最大となるように各文の損失を各翻訳文のＢＬＥＵスコアと尤度から算出し、各翻訳文のＢＬＥＵスコアは、翻訳文と参照訳を比較することによって得られたＢＬＥＵ統計量と、ドメインごとに蓄積されたＢＬＥＵ統計量の累積値から算出して、ｋベストバッチＭＩＲＡアルゴリズム（非特許文献１１）により汎用統計モデルから得られる素性重みと複数のドメイン開発セットからそれぞれ得られる素性重みとを最適化するための手段を含んでもよい。

【0029】

本願発明の第２の局面にかかるコンピュータプログラムは、コンピュータを、上記したいずれかの自動翻訳の素性重み最適化装置として機能させる。

【図面の簡単な説明】

【0030】

【図1】一般的な自動翻訳の３つの局面を説明するための図である。

【図2】従来のコーパス結合方式の最適化方法を説明するためのブロック図である。

【図3】従来の素性空間拡張法によるモデルの素性重みの最適化方法を説明するためのブロック図である。

【図4】図３に示すシステムで採用された拡張素性空間の構成を模式的に示す図である。

【図5】本願発明の実施の形態にかかるモデルの素性重みの最適化装置の構成を示すブロック図である。

【図6】図５に示す装置で採用した拡張素性空間の構成を模式的に示す図である。

【図7】図５に示す装置をコンピュータハードウェア及びコンピュータプログラムで実現する際の最適化を実行するプログラムの制御構造を示すフローチャートである。

【図8】図５に示す装置を実現するコンピュータシステムの外観を示す図である。

【図9】図８に外観を示すコンピュータシステムの内部構成を示すブロック図である。

【発明を実施するための形態】

【0031】

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

【0032】

以下に述べる本発明の実施の形態では、機械翻訳のドメイン適応技術に対し、複数のドメインに同時に適応させるマルチドメイン適応方式を提案する。この実施の形態にかかる方式は、ドメインを限定した場合に翻訳品質がよいドメイン依存モデルと、未知語が少ないコーパス結合モデルを併用する。この実施の形態にかかる方式は、両者のメリットだけを活かす技術である。これを実現するため、機械学習分野におけるドメイン適応方法である素性空間拡張法（非特許文献９）を機械翻訳に適用し、複数ドメイン同時最適化を行う。

【0033】

翻訳品質の測定を行ったところ、以下の効果が観測された。

【0034】

・学習データが少ないドメインでは、単独モデルに比べ、大幅に翻訳品質が向上した。

【0035】

・学習データが１００万文規模の大規模ドメインでも、単独モデルを含む従来のドメイン適応方式に比べ、最低限同等品質を保った。

【0036】

・数万文〜数十万文規模の学習データの場合、単独モデル方式、コーパス結合モデル方式に比べ、翻訳品質が高かった。

【0037】

なお、以下の実施の形態で対象とする自動翻訳の方式はＰＢＳＭＴである。

【0038】

素性空間拡張法は、機械学習における素性重み最適化に用いられる方式である。素性空間を共通、ＯＵＴドメイン（ソースドメイン）、ＩＮドメイン（ターゲットドメイン）に分割し、各素性を、素性が由来するドメインごとに異なる素性空間に配置し、全体を最適化する。素性空間拡張法ではＯＵＴドメインとＩＮドメインを同等に扱っており、容易にＤ個のドメインに拡張できる。その場合、素性空間は共通、ドメイン１，…，ドメインＤのように、Ｄ＋１個の空間に分割される。統計的機械翻訳の場合、翻訳モデルスコア、言語モデルスコア等の値が素性関数値なので、これらの値で対数線形モデルを構成し、最適化している。よって、素性空間拡張法を統計翻訳に適用する場合、モデルスコアを異なる素性空間に配置し、最適化装置で最適化することになる。なお、本実施の形態では、最適化にはｋｂｍｉｒａ（非特許文献１１）を使用している。しかし本発明はそのようなものには限定されず、ＰＲＯ（非特許文献１２）、ＭＥＲＴ（非特許文献８）等を用いてもよい。

【0039】

なお、機械翻訳では、モデルの重みだけでなく、素性関数値（モデルそのものが返すスコアを含む）も翻訳品質に影響を与える。この素性関数値に影響する要素としては、関数値そのもの（インスタンス）の精度と、インスタンスのカバレッジが考えられる。ＰＢＳＭＴで使われるモデルには、原言語と目的言語のフレーズテーブル、語彙化並び替えモデル、目的言語の言語モデル等がある。これらのうちフレーズテーブルは、句の翻訳対を含み、翻訳仮説生成にも使われるため、カバレッジが十分にないと未知語が頻発することになる。言語モデル等、他のモデルについても、十分なカバレッジがないと様々な素性関数値が未知語と同等扱いになるため、精度が下がると予測される。そこで本実施の形態では、インスタンスのカバレッジを確保するためのコーパス結合モデルと、素性関数値の精度を保証するためのドメイン依存モデルの両方を導入する。具体的には、以下のような構成を用いる。

【0040】

・フレーズテーブル、語彙化並び替えモデル、言語モデル等の各モデルについて、ドメイン依存モデルとコーパス結合モデルを作成しておく。

【0041】

・素性空間拡張では、共通空間にはコーパス結合モデルのスコアを素性関数値として配置し、各ドメインの空間には、ドメイン依存モデルのスコアを配置し、最適化する。

【0042】

・デコーディングの際は、まず、ドメイン依存モデルとコーパス結合モデルのフレーズテーブルをＯＲ検索し、翻訳仮説を生成する。探索の際には、共通空間と対象ドメインの空間の素性だけを使って尤度計算をする。

【0043】

翻訳仮説生成にコーパス結合フレーズテーブルを使用することにより、他のドメインで出現した翻訳対も利用でき、未知語の減少が期待できる。また、インスタンスがドメイン依存モデルに存在している場合、高い精度の素性関数値になることが期待される。

【0044】

表１に、本実施の形態で用いる素性の一覧を示す。

【0045】

【表1】

【0046】

本実施例の方式では、コーパス結合モデル、ドメイン依存モデルのどちらか一方にのみ出現するフレーズ対が多数存在する。これらフレーズに関しても素性関数は値を返す必要がある。この値をｅｍｐｔｙ値と呼ぶ。ｅｍｐｔｙ値は、フレーズの翻訳確率分布から算出してもよいし、パイパーパラメータとして扱い、開発コーパスにおけるＢＬＥＵスコアが最高になるよう、実験的に設定してもよい。

【0047】

通常の機械学習における最適化と機械翻訳の最適化の大きな相違点は、多くの機械学習の損失関数が、尤度等デコーダが出力するスコアを使用しているのに対して、機械翻訳はＢＬＥＵ（非特許文献７）のような、翻訳文の自動評価値を使用する点である。この自動評価値は、翻訳文と参照訳との比較によって算出され、コーパス単位に計算される場合が多い。実際、ＭＥＲＴ、ｋｂｍｉｒａは開発コーパスのＢＬＥＵスコアを損失関数の一部に使用している。つまり、複数ドメインを同時に最適化する場合は、ドメイン毎にＢＬＥＵスコアを算出しないと、最適化結果がドメイン最適にならないことを意味している。

【0048】

上記問題を解決するため、本実施の形態ではｋｂｍｉｒａのアルゴリズムをマルチドメイン用に変更する。非特許文献１１にアルゴリズム１として記載されたものがｋｂｍｉｒａのアルゴリズムであるが、本実施の形態における変更点は、以下のとおりである。

【0049】

１．処理済み翻訳文のＢＬＥＵ統計量（ｎｇｒａｍ一致数等）を保存する変数ＢＧを、１つからドメイン数Ｄ個に拡張する。

【0050】

２．各翻訳文のＢＬＥＵスコアは、その翻訳文およびその翻訳文のドメインｄのＢＬＥＵ統計量ＢＧ_ｄから算出する。

【0051】

３．素性重みを更新後、その翻訳文のＢＬＥＵ統計量をＢＧ_ｄに追加する。

【0052】

これらの変更によって、各ドメイン空間の素性重みは、そのドメインの開発コーパスに最適化されたものになる。このような変更をしたアルゴリズムを本願明細書ではマルチドメインｋｂｍｉｒａと呼ぶことにする。

【0053】

図５を参照して、本発明の実施の形態にかかる素性重み最適化装置は、前述したとおり、ドメイン毎に準備された複数のドメイン訓練コーパス２００を用いる。ドメイン訓練コーパス２００は結合２０２され、全ドメインコーパス２０４が形成される。これらコーパスは、いずれもコンピュータの記憶装置に記憶される。

【0054】

この素性重み最適化装置は、ドメイン訓練コーパス２００の各々の訓練コーパスから各ドメインのドメインモデル２７２を、全ドメインコーパス２０４からコーパス結合モデル２７４を、それぞれ学習するためのモデル学習部２７０と、ドメインごとに準備された複数のドメイン開発セット２１２と、初期重み２７６を記憶する記憶装置と、ドメイン開発セット２１２に含まれる各対訳の原文に対してドメインモデル２７２及びコーパス結合モデル２７４を用いた自動翻訳を行い、それにより得られた翻訳仮説の上位ｎ個をＢＬＥＵスコアで評価することを重みの値を変化させながら繰返すことで、初期重み２７６を最適化し、最適化された素性重み２８０を出力する最適化部２７８とを含む。最適化部２７８による自動翻訳では、ドメイン開発セット２１２の各ドメインに含まれる対訳の原文の翻訳仮説に対してドメインモデル２７２及びコーパス結合モデル２７４を適用してそれぞれ素性を算出し、それらを素性重みで対数補間して得られるスコアを用いて上位Ｎ個の仮説を出力する。それら仮説のＢＬＥＵ統計量を、ドメインごとに累積することで、ドメイン開発セット２１２のＢＬＥＵスコアを算出する。最適化部２７８は、このＢＬＥＵスコアが最大になるように、素性重みを変化させながらドメイン開発セット２１２の翻訳と訳文の評価とを繰返すことで素性重みを最適化する。

【0055】

図６に、この最適化部２７８が用いる拡張素性空間３００の構成を示す。図６を参照して、拡張素性空間３００は、ドメイン毎に設けられたドメイン記憶領域（ドメイン１データ、ドメイン２データ、…、ドメインＤデータ）を含む。各ドメイン記憶領域は、共通空間、ドメイン１空間〜ドメインＤ空間を持つ。

【0056】

例えばドメイン１データの記憶領域は、コーパス結合モデルから得られたスコア等の素性を記憶する共通空間と、ドメイン１モデルから得られたスコア等のスコアを記憶するドメイン１空間と、その他のドメイン空間（ドメイン２空間〜ドメインＤ空間）とを持つ。共通空間およびドメイン１空間以外のドメイン空間には素性値として０が記憶される。

【0057】

ドメイン２データの記憶領域は、同様に、共通領域と、ドメイン１空間〜ドメインＤ空間と、ドメイン２のためのＢＬＥＵ統計量を記憶する領域とを持つ。共通空間はコーパス結合モデルから得られたスコア等の素性を記憶する。ドメイン２空間は、ドメイン２モデルから得られたスコア等の素性を記憶する。ドメイン２モデル以外のドメイン空間には、０が記憶される。以下同様である。

【0058】

このように、素性を各ドメインに対応する領域に記憶する必要があるため、最適化時にドメイン開発セット２１２に含まれる原文を翻訳する際には、最適化部２７８は、その原文が属するドメインの識別子（ドメインＩＤ）をドメイン開発セット２１２から読み出す必要がある。

【0059】

拡張素性空間３００を用い、全ドメインの重みを同時に最適化するが、それによって各ドメインの重みも最適化される。

【0060】

なお、この最適化により、図６の下部に示されるように、共通空間と、各ドメイン空間との素性重みが算出されるが、あるドメインに属する原文を翻訳する際には、共通空間と、その原文のドメインに対応したドメイン空間との素性重みのみが使用される。

【0061】

図７に、最適化部２７８をコンピュータハードウェアと協働して実現するためのコンピュータプログラムの制御構造をフローチャート形式で示す。なお、図７においては非特許文献１１の記法を採用している。記法については以下の数１を参照されたい。

【数1】

【0062】

図７を参照して、ステップ３２０は処理に必要な所定の入力を受け、ステップ３２２は各ＢＬＥＵ統計量を記憶する変数ＢＧ_１〜ＢＧ_Ｄに小さな正の値を代入する。ステップ３２４は、以下の繰返しに先立って変数ｔに１を代入し、重みベクトルを表す変数^→ｗ_ｔに初期値^→ｗを代入する。なお「^→」は数式及び図では直後の変数の直上に記載され、その変数がベクトルであることを表す記号である。

【0063】

続いて、ステップ３２６で、繰返し制御変数ｊを１〜最大エポック数Ｊまで１ずつ変化させながら以下の処理３２８を繰返し行う。

【0064】

処理３２８では、繰返し制御変数ｉを１からｎまでランダムに変化させながら、処理３４２を実行する。

【0065】

処理３４２は、処理対象の原文を翻訳して得られたｎベストの仮説の各々と参照訳とを比較して、そのドメインdのＢＬＥＵ統計量BG_dを用いてＢＬＥＵスコアを計算し、その値に基づいて、図７の処理３４２の上２つの式にしたがってｅ^＊_ｔ及びｅ^´_tを求める。さらに、処理３４２の４行〜６行に記載した式にしたがって重み^→ｗ_ｔを更新する。その後、処理対象の原文が属するドメインに対応する変数ＢＧ_ｄを図７の処理３４２の下から２行目に示す式にしたがって更新し、ｔに１を加算して次の処理３４２の繰返しに進む。

【0066】

ステップ３４０の処理が全てのｉについて完了すると、ステップ３４６の式にしたがって重み^→ｗの平均値^→ｗ^avg_ｊを算出して記憶し、変数ｊに１加算して次のステップ３２６の繰返しに進む。

【0067】

処理３２６が終了した後、ステップ３３０で、開発データに対するＢＬＥＵスコアを最大化する重みの平均値^→ｗ^avg_ｊを出力してこの処理を終了する。

【0068】

［コンピュータによる実現］
上記実施の形態に係る素性重みの最適化装置は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図８はこのコンピュータシステム９３０の外観を示し、図９はコンピュータシステム９３０の内部構成を示す。

【0069】

図８を参照して、このコンピュータシステム９３０は、メモリポート９５２及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ９５０を有するコンピュータ９４０と、キーボード９４６と、マウス９４８と、モニタ９４２とを含む。

【0070】

図９を参照して、コンピュータ９４０は、メモリポート９５２及びＤＶＤドライブ９５０に加えて、ＣＰＵ（中央処理装置）９５６と、ＣＰＵ９５６、メモリポート９５２及びＤＶＤドライブ９５０に接続されたバス９６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）９５８と、バス９６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）９６０とを含む。コンピュータシステム９３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）９４４を含む。ネットワークI／Ｆ９４４は、インターネット７４に接続されてもよい。

【0071】

コンピュータシステム９３０を上記した各実施の形態の素性重みの最適化装置を構成する各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ９５０又はメモリポート９５２に装着されるＤＶＤ９６２又はリムーバブルメモリ９６４に記憶され、さらにハードディスク９５４に転送される。又は、プログラムはネットワークＩ／Ｆ９４４を通じてコンピュータ９４０に送信されハードディスク９５４に記憶されてもよい。プログラムは実行の際にＲＡＭ９６０にロードされる。ＤＶＤ９６２から、リムーバブルメモリ９６４から、又はネットワークＩ／Ｆ９４４を介して、直接にＲＡＭ９６０にプログラムをロードしてもよい。

【0072】

このプログラムは、コンピュータ９４０を、上記実施の形態に係る素性重みの最適化装置の各機能部として機能させるための複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ９４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又は、コンピュータ９４０にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の素性重みの最適化装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記した素性重みの最適化装置としての機能を実現する命令のみを含んでいればよい。コンピュータシステム９３０の動作は周知である。したがってここでは繰返さない。

【0073】

なお、各種のコーパスは、上記実施の形態ではハードディスク９５４に記憶され、適宜ＲＡＭ９６０に展開される。素性重み、拡張素性、ＢＬＥＵ統計量、作業用の変数、繰り返し制御変数等はいずれもＲＡＭ９６０に記憶される。最終的に最適化された素性重みはＲＡＭ９６０からハードディスク９５４、ＤＶＤ９６２又はＵＳＢメモリ９６４に格納される。または素性重みはネットワークＩ／Ｆ９４４を介して別の装置に送信される。

【0074】

［実験］
（実験設定）
−ドメイン/コーパス−
本実験では、英日/日英翻訳を対象に、以下の４つのドメインの同時最適化を行う。各ドメインのコーパスサイズ（文数）を表２に示す。なお、訓練文は表２のうち８０単語以下のものだけを使用している。

【0075】

【表2】

ＭＥＤ：病院等における医師(スタッフ)と患者の疑似対話のコーパス。
ＬＩＶＩＮＧ：外国人が日本に旅行や在留する際の疑似対話コーパス。
ＮＴＣＩＲ：特許コーパス。訓練コーパスと開発コーパスはＮＴＣＩＲ−８、テストコーパスはＮＴＣＩＲ−９のものを使用。
ＡＳＰＥＣ：科学技術文献コーパス。ＡＳＰＥＣ―ＪＥのうち、対訳信頼度の高い１００万文を使用。

【0076】

−翻訳システム−
各コーパスの対訳文は、内部開発の事前並び替えを適用したのちに使用した。翻訳システムの訓練のうち、フレーズテーブル、語彙化並び替えモデルの学習にはＭｏｓｅｓツールキット（非特許文献６）をデフォルト設定で使用した。言語モデルはＫｅｎＬＭ（非特許文献１３）を用いて訓練セットの目的言語側から５グラムモデルを構築した。最適化は前述したマルチドメインｋｂｍｉｒａを使用した。デコーディングには、出願人において内部開発したＭｏｓｅｓのクローンデコーダを使用した。デコーダの設定値はＭｏｓｅｓのデフォルト値と同じphrase table limit=２０、distortion limit=６、ビーム幅２００とした。

【0077】

−評価指標−
評価指標にはＢＬＥＵを使用した。有意差検定の危険率はｐ＜０．０５とした。最適化の揺れを吸収するため、５回最適化を実施し、その平均値を使用した。

【0078】

−比較方式−
以下の方式を比較する。

【0079】

１．単独モデル:各ドメインコーパスだけでモデルを構築、最適化、テストした場合。これをベースラインとして、他の方式と比較する。

【0080】

２．コーパス結合: 全ドメインのコーパス結合モデルを使用し、各ドメインの開発コーパスで最適化、テストした場合。

【0081】

３． Fill-up法:ドメイン適応方式にfill-up法（非特許文献３）を用いた場合。

【0082】

４．素性空間拡張法１（Ｃｌａｒｋ）:共通空間、ドメイン空間共に、コーパス結合モデルの素性関数を使った素性空間拡張法。非特許文献１０の設定と同じだが、最適化方法にはマルチドメインｋｂｍｉｒａを使用した（非特許文献１０は最適化方法にＰＲＯを使用）。

【0083】

５．素性空間拡張法２（提案法）：本実施の形態にかかる方法。共通空間にはコーパス結合モデルの素性関数を使用し、ドメイン依存空間ではドメイン依存モデルを使用した素性空間拡張法。

【0084】

（翻訳品質）
各方式について、英日翻訳におけるＢＬＥＵスコアを表３に、日英翻訳におけるＢＬＥＵスコアを表４に示す。なお、表中の(+)は、単独モデル方式をベースラインとしたとき、有意に向上したもの、(-)は有意に悪化したものを表す。

【0085】

【表3】

【0086】

【表4】

【0087】

単独モデルと比較した場合、コーパス結合方式は、翻訳品質も単独モデルより低下する傾向が強かった。素性空間拡張法１（Ｃｌａｒｋ）でも同様で、コーパス結合モデルだけを使う方式は、単独モデルより翻訳品質が下がった。コーパス結合方式は各ドメインが平均化されたモデルが作成され、素性関数の精度が落ちたためと、単独モデル自体が比較的大きな対訳コーパスから構築されており、単独でも翻訳品質が確保できたためと考えられる。Fill-up法は、コーパス結合方式に比べると翻訳品質は向上する場合が多かったが、単独モデルより悪化した。

【0088】

提案法である素性空間拡張法２（提案法）は、すべてのドメインにおいて、単独モデルより有意に向上、または同等品質となり、マルチドメインに対して適切に適応できた。

【0089】

（シングルドメイン適応としての効果）
ドメイン適応が必要となる場面は、新たなドメインデータの翻訳を行わなければならないにも関わらず、十分な量の訓練文が集まらない場合である。ここでは、ＭＥＤ英日翻訳に絞って、訓練コーパスのサイズを変えて翻訳品質を測定する。

【0090】

【表5】

表６は、単独モデル方式、コーパス結合方式と素性空間拡張法２（提案法）を比較した結果である。表中の(+)は単独モデルと比較して有意に高く、(-)は有意に低いことを表す。(†)はコーパス結合と比較して有意に高いことを表している。

【0091】

訓練コーパスが１、０００文（１ｋ）しかない場合は、提案法は単独モデルに比べて非常に高い品質となっているが、コーパス結合とはほぼ同じである。訓練コーパスサイズが増えるにしたがい、全方式ともにＢＬＥＵスコアが向上するが、コーパス結合の品質向上は単独モデルより緩やかで、約１０万文（１００ｋ）で単独モデルの品質が逆転する。素性空間拡張法２（提案法）は、３千文（３ｋ）以上では常に単独モデル、コーパス結合の品質を上回っており、両者の利点をうまく融合させた方式であることを示している。

【0092】

以上のように本発明によれば、ドメイン適応において、複数のドメインについて重みを同時に最適化できる。しかも最適化された結果を用いて翻訳を行うと、他の適応方式と比較して確実に翻訳の品質が向上し、訓練コーパスを大規模にしても、単独モデル方式、コーパス結合モデル方式の翻訳品質を上回った。１００万文規模の大規模コーパスに適用しても、翻訳品質を下げることがなく、ドメインによっては品質向上の効果があることを示
した。この結果、他の適応方式と比較して、本発明の適応方式によれば確実にドメインごとの翻訳精度を高めることができる。

【0093】

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

【符号の説明】

【0094】

３０自動翻訳システム
４０訓練
４２最適化
４４翻訳
６０訓練コーパス
６４モデル
８０開発セット
８２、１３６、２０８、２７６初期重み
８４、１０２デコーダ
８６ＢＬＥＵ統計量算出部
８８、素性重み最適化部
１３０ＩＮドメイン訓練コーパス
１３１ＯＵＴドメイン訓練コーパス
１３２モデル学習部
１３４、２７４コーパス結合モデル
１３８、２１０、２７８最適化部
１７４結合コーパス
１７８ＩＮドメイン開発セット
１８０、２１４、２８０素性重み
１９０目的言語の言語モデル
１９２フレーズテーブル
１９４語彙化並び替えモデル
２００ドメイン訓練コーパス
２０４全ドメインコーパス
２０６全ドメイン・コーパス結合モデル
２１２ドメイン開発セット
２５０、３００拡張素性空間
２７２ドメインモデル

【図1】