特許6083645 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許6083645語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

3
4
5
6
7
17
18
1
2
8
9
10
11
12
13
14
15
16
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6083645

(24)【登録日】2017年2月3日

(45)【発行日】2017年2月22日

(54)【発明の名称】語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

(51)【国際特許分類】

G06F 17/28 20060101AFI20170213BHJP

【ＦＩ】

G06F17/28 618

【請求項の数】11

【全頁数】24

(21)【出願番号】特願2013-153643(P2013-153643)

(22)【出願日】2013年7月24日

(65)【公開番号】特開2015-26123(P2015-26123A)

(43)【公開日】2015年2月5日

【審査請求日】2015年8月6日

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】110001519

【氏名又は名称】特許業務法人太陽国際特許事務所

(72)【発明者】

【氏名】須藤克仁

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】韓丹

(72)【発明者】

【氏名】宮尾祐介

【審査官】長由紀子

(56)【参考文献】

【文献】特開平０５−１３５０９９（ＪＰ，Ａ）

【文献】特開２０１１−１７５５００（ＪＰ，Ａ）

【文献】松原茂樹外３名，英日話し言葉翻訳のための漸進的文生成手法，電子情報通信学会技術研究報告，日本，社団法人電子情報通信学会，１９９９年７月２３日，第99巻第228号，p.39-44

【文献】大橋一輝，句に基づく統計翻訳における語句の並べ替えパターンの分析，言語処理学会第１１回年次大会発表論文集 Proceedings of The Eleventh Annual Meeting of The Association for Natural Language Processing，日本，言語処理学会 The Association for Natural Language Processing，２００５年３月１５日，p.863-866

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２０−２８

(57)【特許請求の範囲】

【請求項1】

入力文又は句に含まれる単語について、前記単語間の依存構造を解析する依存構造解析部と、
前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する動詞ブロック同定部と、
前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定する最右目的語同定部と、
予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックに、前記最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替える並べ替え部と、
を含む語順並べ替え装置。

【請求項2】

前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語を、前記動詞ブロックの主辞となる単語として同定し、前記動詞ブロック内の前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞ブロック内の前記動詞に対応する単語と連続する単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定する請求項１記載の語順並べ替え装置。

【請求項3】

前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、動詞に対応する単語であって、かつ、前記依存構造の主辞となる単語であり、かつ、前記単語を主辞とする単語に受動態を表す品詞を含まない単語を、前記動詞ブロックの主辞となる単語として同定し、動詞を修飾する単語であって、かつ、前記単語の主辞が前記動詞ブロックに含まれており、かつ、前記単語の主辞と連続している単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定する請求項２記載の語順並べ替え装置。

【請求項4】

第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置において、
入力文又は句に含まれる単語について、前記単語間の依存構造を解析する依存構造解析部と、
前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する動詞ブロック同定部と、
前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定する最右目的語同定部と、
予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックに、前記最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替える並べ替え部と、
複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第２特定言語で記述された文又は句に翻訳する翻訳部と、
を含む翻訳装置。

【請求項5】

予め用意された、第１特定言語で記述された文又は句と、第１特定言語とは異なる第２特定言語で記述された文又は句との対である対訳データの集合に基づいて、第１特定言語で記述された文又は句を、前記第２特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、
前記対訳データの集合の各対訳データの第１特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析し、単語の各々の主辞となる単語、及び前記単語を修飾する単語を得る学習データ言語解析部と、
各対訳データの第１特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する学習データ動詞ブロック同定部と、
各対訳データの第１特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定する学習データ最右目的語同定部と、
各対訳データの第１特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックに、前記学習データ最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記第１特定言語で記述された文の文末又は句の句末に並べ替える学習データ並べ替え部と、
前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、
前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、
を含む翻訳モデル学習装置。

【請求項6】

依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部とを含む語順並べ替え装置の語順並べ替え方法であって、
前記依存構造解析部は、入力文又は句に含まれる単語について、前記単語間の依存構造を解析し、
前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、
前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定し、
前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックに、前記最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替える
語順並べ替え方法。

【請求項7】

依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部と、翻訳部とを含み第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置の翻訳方法であって、
前記依存構造解析部は、入力文又は句に含まれる単語の各々について、前記単語の依存構造を解析し、
前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、
前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定し、
前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックに、前記最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替え、
前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第２特定言語で記述された文又は句に翻訳する
翻訳方法。

【請求項8】

学習データ言語解析部と、学習データ動詞ブロック同定部と、学習データ最右目的語同定部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部とを含み、予め用意された、第１特定言語で記述された文又は句と、第１特定言語とは異なる第２特定言語で記述された文又は句との対である対訳データの集合に基づいて、第１特定言語で記述された文又は句を、前記第２特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、
前記学習データ言語解析部は、前記対訳データの集合の各対訳データの第１特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析し、
前記学習データ動詞ブロック同定部は、各対訳データの第１特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、
前記学習データ最右目的語同定部は、各対訳データの第１特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定し、
前記学習データ並べ替え部は、各対訳データの第１特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックに、前記学習データ最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記第１特定言語で記述された文の文末又は句の句末に並べ替え、
前記翻訳モデル学習部は、前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習し、
前記モデル重み学習部は、前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する
翻訳モデル学習方法。

【請求項9】

コンピュータを、請求項１記載の語順並べ替え装置を構成する各部として機能させるためのプログラム。

【請求項10】

コンピュータを、請求項４記載の翻訳装置を構成する各部として機能させるためのプログラム。

【請求項11】

コンピュータを、請求項５記載の翻訳モデル学習装置を構成する各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムに係り、特に、入力文の語順を並べ替える語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムに関する。

【背景技術】

【0002】

言語Ａから言語Ｂへの機械翻訳の処理は、言語Ａの語句から言語Ｂの語句への翻訳と、翻訳された言語Ｂの語句の言語Ｂにおける適切な並べ替えとの２つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された言語Ａの語句と言語Ｂの語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、言語Ａの入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される言語Ｂの翻訳文を探索するという方法が採られる。

【0003】

一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。

【0004】

しかし、翻訳の対象となる言語Ａと言語Ｂの組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。

【0005】

上記問題に対処する技術として、翻訳処理を行う前に言語Ａの語句を対応する言語Ｂの語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が存在する(非特許文献１)。いずれの方法も、構文解析によって得られる句構造木や依存構造（係り受け）木において兄弟関係にあるノードの順序を入れ替える規則を利用している。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Dan Hanら, "Head Finalization Reordering for Chinese-to-Japanese Machine Translation",Proceedings of the Sixth Workshop on Syntax, Semantics and Structure in Statistical Translation, pp.57--66, 2012

【発明の概要】

【発明が解決しようとする課題】

【0007】

従来の方法において、構文解析が正しく行われれば妥当な並び替えを可能にする一方で、言語Ａと言語Ｂの構文構造の違いにより句構造木や依存構造木における兄弟ノードの並べ替えだけでは並べ替え可能な範囲に対する制約が強すぎて語順の違いを十分に解消できない可能性が残るという問題がある。

【0008】

例えば、非特許文献１の中国語の事前並べ替え方法においては句構造木を用いている。図１７に示すような句構造を有する中国語の句（図１８参照）に対して、日本語の対訳である「違法行為を厳しく処罰する」に合うように並べ替え（図１９参照）を行うためには、図２０に示す副詞を図２１に示す動詞の直前に移動させなければならない。しかし、図１７の句構造木の制約の下では名詞句（図２参照）と動詞句（図２１参照）の並べ替えは可能である一方、副詞（図２０参照）をその両者の間に割り込ませるような並べ替えを兄弟ノードの順序の入れ替えで表現することはできない。

【0009】

本発明では、上記問題点を解決するために成されたものであり、入力文の語順を精度よく並べ替えることできる語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0010】

上記目的を達成するために、第１の発明に係る語順並べ替え装置は、入力文又は句に含まれる単語について、前記単語間の依存構造を解析する依存構造解析部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する動詞ブロック同定部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定する最右目的語同定部と、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替える並べ替え部と、を含んで構成されている。

【0011】

第２の発明に係る語順並べ替え方法は、依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部とを含む語順並べ替え装置の語順並べ替え方法であって、
前記依存構造解析部は、入力文又は句に含まれる単語について、前記単語間の依存構造を解析し、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替える。

【0012】

第１の発明及び第２の発明によれば、依存構造解析部により入力文又は句に含まれる単語について、単語間の依存構造を解析し、動詞ブロック同定部により、依存構造の解析結果に基づいて、依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、動詞に対応する単語を修飾する単語であって、かつ、動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、最右目的語同定部により、依存構造の解析結果に基づいて、動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、並べ替え部により、動詞ブロックと最右目的語の語順を並べ替える。

【0013】

このように、第１の発明及び第２の発明によれば、入力文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文又は句の語順を精度良く並べ替えを行うことができる。

【0014】

また、第１の発明において、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語を、前記動詞ブロックの主辞となる単語として同定し、前記動詞ブロック内の単語を修飾する単語であって、かつ、前記動詞ブロック内の単語と連続する単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定してもよい。

【0015】

また、第１の発明において、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、動詞に対応する単語であって、かつ、前記依存構造の主辞となる単語であり、かつ、前記単語を主辞とする単語に受動態を表す品詞を含まない単語を、前記動詞ブロックの主辞となる単語として同定し、前記動詞を修飾する単語であって、かつ、前記単語の主辞が前記動詞ブロックに含まれており、かつ、前記単語の主辞と連続している単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定してもよい。

【0016】

また、第１の発明において、前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、前記最右目的語として同定してもよい。

【0017】

また、第１の発明において、前記並べ替え部は、前記動詞ブロックに前記最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替えてもよい。

【0018】

第３の発明に係る翻訳装置は、第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置において、入力文又は句に含まれる単語について、前記単語間の依存構造を解析する依存構造解析部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する動詞ブロック同定部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定する最右目的語同定部と、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替える並べ替え部と、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第２特定言語で記述された文又は句に翻訳する翻訳部と、を含んで構成されている。

【0019】

第４の発明に係る翻訳方法は、依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部と、翻訳部とを含み第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置の翻訳方法であって、前記依存構造解析部は、入力文又は句に含まれる単語の各々について、前記単語の依存構造を解析し、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替え、前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第２特定言語で記述された文又は句に翻訳する。

【0020】

第３の発明及び第４の発明によれば、入力文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文又は句の語順を精度良く並べ替え、入力文又は句を特定言語で記述された文又は句に翻訳することにより、入力文又は句を精度良く翻訳を行うことができる。

【0021】

第５の発明に係る翻訳モデル学習装置は、予め用意された、第１特定言語で記述された文又は句と、第１特定言語とは異なる第２特定言語で記述された文又は句との対である対訳データの集合に基づいて、第１特定言語で記述された文又は句を、前記第２特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、前記対訳データの集合の各対訳データの第１特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析する学習データ言語解析部と、各対訳データの第１特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する学習データ動詞ブロック同定部と、各対訳データの第１特定言語で記述された文又は句について、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記学習動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定する学習データ最右目的語同定部と、各対訳データの第１特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックと、前記学習データ最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記文又は句の語順を並べ替える学習データ並べ替え部と、前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、を含んで構成されている。

【0022】

第６の発明に係る翻訳モデル学習方法は、学習データ言語解析部と、学習データ動詞ブロック同定部と、学習データ最右目的語同定部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部とを含み、予め用意された、第１特定言語で記述された文又は句と、第１特定言語とは異なる第２特定言語で記述された文又は句との対である対訳データの集合に基づいて、第１特定言語で記述された文又は句を、前記第２特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、前記学習データ言語解析部は、前記対訳データの集合の各対訳データの第１特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析し、前記学習データ動詞ブロック同定部は、各対訳データの第１特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、前記学習データ最右目的語同定部は、各対訳データの第１特定言語で記述された文又は句について、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記学習動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、前記学習データ並べ替え部は、各対訳データの第１特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックと、前記学習データ最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記文又は句の語順を並べ替え、前記翻訳モデル学習部は、前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習し、前記モデル重み学習部は、前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第１特定言語で記述された文又は句と、各対訳データの前記第２特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する。

【0023】

第５の発明及び第６の発明によれば、第１特定言語で記述された文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替え、語順を並べ替えた第１特定言語で記述された文又は句と、対応する対訳データに含まれる第２特定言語で記述された文又は句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することができる。

【0024】

また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置、翻訳装置、又は翻訳モデル学習装置を構成する各部として機能させるためのプログラムである。

【発明の効果】

【0025】

以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、入力文の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことができる。

【0026】

また、本発明の翻訳装置、方法、及びプログラムによれば、入力文の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文の語順を精度良く並べ替え、語順を並び替えられた入力文を特定言語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことができる。

【0027】

また、本発明の翻訳モデル学習装置、方法、及びプログラムによれば、第１特定言語で記述された文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替え、語順を並べ替えた第１特定言語で記述された文又は句と、対応する対訳データに含まれる第２特定言語で記述された文又は句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することができる。

【図面の簡単な説明】

【0028】

【図1】中国語を示す図である。

【図2】中国語を示す図である。

【図3】本発明の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。

【図4】本発明の実施の形態に係る翻訳モデル学習装置の機能的構成を示すブロック図である。

【図5】本発明の実施の形態に係る翻訳モデル学習装置における翻訳モデル学習処理ルーチンを示すフローチャートである。

【図6】本発明の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャートである。

【図7】中国語を示す図である。

【図8】中国語の入力文の言語解析結果の例を示す図である。

【図9】中国語を示す図である。

【図10】中国語を示す図である。

【図11】中国語を示す図である。

【図12】中国語を示す図である。

【図13】中国語を示す図である。

【図14】中国語を示す図である。

【図15】中国語を示す図である。

【図16】中国語を示す図である。

【図17】中国語における句構造木の例を示す図である。

【図18】中国語を示す図である。

【図19】中国語を示す図である。

【図20】中国語を示す図である。

【図21】中国語を示す図である。

【発明を実施するための形態】

【0029】

以下、図面を参照して本発明の実施の形態を詳細に説明する。

【0030】

＜発明の概要＞
本発明の実施の形態では、原言語側（本実施の形態においては原言語を中国語とし、目的言語を日本語とする。）の単語を、その単語の品詞及び依存構造情報を利用して並べ替えを行う。また、本発明の実施の形態においては、原言語の並べ替えは（１）動詞ブロックの同定、（２）各動詞ブロックに対応する目的語のうち最も後方にあるもの（以後、最右目的語とする。）の同定、及び（３）動詞ブロックを最右目的語の後方に移動の３つの処理によって実現される。

【0031】

上記（１）〜（３）の処理は、上述する非特許文献１の方法における並べ替えの例のように、単一の動詞のみを目的語の後方に移動するのではなく、複合動詞における複数の動詞や、動詞を修飾する副詞等の単語等をまとまった「動詞ブロック」として捉えている。これにより、副詞を含む動詞ブロックごと、目的語の後方に移動することが出来るようになるため、上述の非特許文献１の方法の例におけるブロック（図１参照）をまとめて目的語（図２参照）の後方に移動するという並べ替え表現が出来るようになる。

【0032】

動詞ブロックの同定は、「動詞ブロック中で主辞となる動詞の同定」と、「主辞に付随して動詞ブロックを構成する単語の同定」によってなされる。動詞や動詞ブロックを構成する単語の同定は、品詞及び依存構造の情報に基づいて行う。最右目的語の同定は、動詞ブロック内の単語を主辞とする単語のうち、別に定められるいくつかの品詞に属し、かつ最も後方にあるものを選択することによって行う。

【0033】

なお、動詞ブロックの同定は、まず文の主辞となっている動詞（主動詞）を含む動詞ブロックを同定し、次に、その動詞ブロック内の単語を主辞とする動詞を含む動詞ブロックを同定する。このように依存構造の根（root）に近い順に行うことで、重なりあわないような動詞ブロックを効率的に同定することが可能となる。

【0034】

＜翻訳装置の構成＞
本発明の実施の形態に係る翻訳装置について説明する。図３に示すように、本発明の実施の形態に係る翻訳装置１００は、ＣＰＵと、ＲＡＭと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部７０とを備えている。

【0035】

入力部１０は、キーボードなどの入力装置から中国語の入力文を受け付ける。なお、入力部１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

【0036】

演算部２０は、言語解析部３０と、動詞ブロック同定部４０と、最右目的語同定部４２と、並べ替え部４４と、翻訳部４６と、モデル記憶部４８と、を備えている。

【0037】

言語解析部３０は、形態素解析部３２と、依存構造解析部３４とを備えている。言語解析部３０は、入力部１０において受け付けた中国語で記述された入力文に対して形態素解析及び依存構造解析を行う。

【0038】

形態素解析部３２は、入力部１０において受け付けた中国語で記述された入力文に対して、公知の形態素解析器を用いて、形態素解析（単語区切りと品詞の同定）を行う。なお、本実施の形態では形態素解析処理に公知のフリーソフトウェア（Stanford Chinese Segmenter）を用いる。

【0039】

依存構造解析部３４は、形態素解析部３２において形態素解析された中国語で記述された文に対して、単語間の依存構造の解析を行い、依存構造解析結果に基づいて、単語の各々の主辞となる単語及び当該単語を修飾する単語が得られる。本実施の形態においては、中国語の単語単位での依存構造を利用するため、公知の依存構造解析器を用いて、依存構造解析を行う。なお、本実施の形態では依存構造解析処理に公知のフリーソフトウェア（Corbit）を用いる。

【0040】

動詞ブロック同定部４０は、言語解析部３０において言語解析された入力文に対し、動詞ブロックを同定する。具体的には、まず、（ａ）品詞が動詞若しくは動詞と等価な役割を果たす品詞である単語（具体的には、Penn Chinese Treebankにおける品詞VV，VE，VC，VA，Pの５種類）であり、（ｂ）依存構造における主辞となる単語であり、かつ（ｃ）当該単語を主辞とする語（修飾語）に、受動態を表す品詞（具体的には、Penn Chinese Treebankにおける品詞LB，SB）を含まない単語を動詞ブロックの中心（主辞）となる単語として同定し、当該主辞となる単語を動詞ブロックに含める。なお、品詞が動詞若しくは動詞と等価な役割を果たす品詞である単語が、動詞に対応する単語の一例である。

【0041】

そして、（ｄ）品詞が動詞を修飾する役割を持つ品詞である単語（具体的には、Penn Chinese Treebankにおける品詞AD，AS，SP，MSP，CC，VV，VE，VC，VA）であり、（ｅ）当該単語の主辞となる単語が既に当該動詞ブロックに含まれている単語であり、（ｆ）当該単語の主辞となる単語が当該単語の直前若しくは直後にあるか、又は当該単語の主辞となる単語との間に並列詞である単語のみが含まれている単語を、主辞となる単語を修飾して動詞ブロックを構成する単語として同定し、当該単語を動詞ブロックに追加する。なお、上記（ｄ）〜（ｆ）の要件を満たす当該動詞ブロックに追加することのできる単語が存在しなくなるまで、入力文から、当該動詞ブロックに追加する単語を同定し、当該動詞ブロックに追加する処理を繰り返す。なお、「（ｆ）当該単語の主辞となる単語が当該単語の直前若しくは直後にあるか、又は当該単語の主辞となる単語との間に並列詞である単語のみが含まれている単語」が、単語の主辞と連続する単語の一例である。当該単語の主辞となる単語との間に並列詞である単語のみが含まれている単語が、動詞ブロックに含まれる場合には、当該並列詞も、動詞ブロックに含まれる。

【0042】

動詞ブロック同定部４０は、上記のように、同定した動詞ブロックの主辞となる単語と、同定した主辞となる単語を修飾して動詞ブロックを構成する単語の各々とを含む少なくとも１つ以上の連続する単語を１単位の動詞ブロックとして同定する。なお、動詞ブロックの同定は、まず、入力文の主辞となっている動詞（主動詞）となる単語を含む動詞ブロックを同定し、その後に、当該入力文に対して、依存構造の根（root）に近い順で重なり合わないように動詞ブロックの同定を繰り返す。

【0043】

最右目的語同定部４２は、動詞ブロック同定部４０において同定された動詞ブロックの各々について、最右目的語を同定する。具体的には、（ｇ）品詞が目的語として働く品詞である単語（具体的には、Penn Chinese Treebankにおける品詞NN，NR，NT，PN，OD，CD，M，FW，CC，ETC，LC，DEV，DT，JJ，SP，IJ，ON）であり、（ｈ）当該単語の主辞となる単語が対象となる動詞ブロックに含まれている単語であり、かつ（ｉ）対象となる動詞ブロックの目的語として最も後方にある単語を、対象となる動詞ブロックの最右目的語として同定する。なお、品詞が目的語として働く品詞である単語が目的語に対応する単語の一例である。

【0044】

並べ替え部４４は、言語解析部３０で得られた中国語で記述された文について、動詞ブロック同定部４０において同定された動詞ブロックの各々と、最右目的語同定部４２において動詞ブロックの各々について同定された最右目的語とを利用して、日本語で記述された文の語順に相似するように動詞ブロックの各々及び単語の各々を並べ替える。具体的には、以下の（ｊ）〜（ｌ）に示す予め定められた動詞ブロック及び単語に関する並べ替え規則により動詞ブロックの各々及び単語の各々を並べ替える。

【0045】

具体的には、動詞ブロックの各々について、最右目的語が存在するか否かを判定し、（ｊ）最右目的語が存在する場合は、動詞ブロックを最右目的語の後方に移動し、（ｋ）最右目的語が存在せず、かつ動詞ブロックが文の主辞を含む場合は、動詞ブロックを文の末尾に移動する（文末に句読点がある場合にはその前でもよい）。なお、翻訳する対象が句である場合には、句の末尾に移動する。

【0046】

また、動詞もしくは動詞と等価な役割を果たす品詞である単語の各々について、（ｌ）動詞もしくは動詞と等価な役割を果たす品詞である単語（具体的にはPenn Chinese Treebankにおける品詞VV、VE、VC、VA、Pの５種類）を修飾する単語のうち、品詞がPenn Chinese TreebankにおけるLB、SB、CSであるものがあれば、その修飾語を、その修飾語の主辞である動詞もしくは動詞と等価な役割を果たす品詞である単語の後方へ移動する。なお、複数の単語が該当する場合は、それらの順序は保ったまま移動する。

【0047】

翻訳部４６は、公知の機械翻訳器を用いて、並べ替え部４４において並べ替えられた中国語の入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部４８に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部７０に出力する。なお、翻訳の方法は、非特許文献２（Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.）の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。

【0048】

モデル記憶部４８は、複数の翻訳モデルと翻訳モデルの各々に対する重みが記憶されている。なお、モデル記憶部４８に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みは、後述する翻訳モデル学習装置２００のモデル記憶部２７０に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みと同一である。

【0049】

出力部７０は、翻訳部４６において翻訳された日本語で記述された文を出力装置もしくはネットワーク等によって外部に出力する。

【0050】

＜翻訳モデル学習装置の構成＞
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図４に示すように、本発明の実施の形態に係る翻訳モデル学習装置２００は、ＣＰＵと、ＲＡＭと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この翻訳モデル学習装置２００は、機能的には図４に示すように入力部２１０と、演算部２２０と、出力部２８０とを備えている。

【0051】

入力部２１０は、キーボードなどの入力装置から複数の中国語と日本語の対訳となっている文対、句対（対訳データ）の集合である学習用並行コーパスを受け付ける。なお、入力部２１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。なお、中国語が第１特定言語の一例であり、日本語が第２特定言語の一例である。

【0052】

演算部２２０は、学習用並行コーパス２５０と、モデル学習部２５２と、モデル記憶部２７０とを備えている。

【0053】

学習用並行コーパス２５０は、入力部２１０において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、中国語と日本語の対訳文が同じ行数の位置に記載されたテキストファイルである。

【0054】

モデル学習部２５２は、学習データ言語解析部２５４と、学習データ動詞ブロック同定部２５６と、学習データ最右目的語同定部２５８と、学習データ並べ替え部２６０と、モデル用並行コーパス２６２と、翻訳モデル学習部２６４と、翻訳部２６６と、モデル重み学習部２６８と、を備えている。モデル学習部２５２は、学習用並行コーパス２５０に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部２７０に記憶する。

【0055】

学習データ言語解析部２５４は、学習用並行コーパスに含まれる中国語及び日本語の対訳データ毎に、中国語及び日本語の言語解析を行う。中国語の言語解析は、翻訳装置１００の言語解析部３０で行われる言語解析と同一の言語解析（形態素解析、依存構造解析）を行う。一方、日本語の言語解析は公知の日本語形態素解析プログラム（MeCab等）を利用し、形態素解析を行い、単語分割を行う。なお、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。

【0056】

学習データ動詞ブロック同定部２５６は、学習データ言語解析部２５４において言語解析された複数の対訳データ毎に、当該対訳データに含まれる中国語の文又は句に対して、翻訳装置１００の動詞ブロック同定部４０と同様に動詞ブロックの各々を同定する。

【0057】

学習データ最右目的語同定部２５８は、学習データ言語解析部２５４において言語解析された複数の対訳データ毎に、学習データ動詞ブロック同定部２５６において動詞ブロックが同定された当該対訳データに含まれる中国語の文又は句の動詞ブロックの各々について、翻訳装置１００の最右目的語同定部４２と同様に最右目的語を同定する。

【0058】

学習データ並べ替え部２６０は、学習データ言語解析部２５４において言語解析された複数の対訳データ毎に、当該対訳データに含まれる中国語の文又は句に対して、翻訳装置１００の並べ替え部４４で用いられている並べ替え規則と同様の並べ替え規則を用いて、動詞ブロックの各々及び単語の各々を並べ替えることによって語順を並べ替える。学習データ並べ替え部２６０は、並べ替えられた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句（単語に区切られたもの）とを併せてモデル用並行コーパスとしてモデル用並行コーパス２６２に各々記憶する。

【0059】

モデル用並行コーパス２６２は、学習データ並べ替え部２６０において並べ替えられた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句（単語に区切られたもの）とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。

【0060】

翻訳モデル学習部２６４は、モデル用並行コーパス２６２に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部２７０に記憶する。統計的な翻訳モデルには、非特許文献２に代表される統計的機械翻訳技術で利用される「句翻訳モデル」、「句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法について、本実施の形態においては、特定の方法に限定されず適用可能である。なお、「句翻訳モデル」、「句並べ替えモデル」、「言語モデル」が複数種類の翻訳モデルの一例である。

【0061】

例えば、翻訳モデル学習部２６４は、モデル用並行コーパス２６２に記憶されている中国語で記述された文又は句と、日本語で記述された文又は句からなる対訳データに基づいて、統計的な句翻訳モデルと句並べ替えモデルの各々を学習する。また、モデル用並行コーパス２６２に記憶されている日本語で記述された文又は句に基づいて、言語モデルを学習する。

【0062】

翻訳部２６６は、重み学習用データであるモデル用並行コーパス２６２に記憶されている中国語の文又は句の各々について、公知の機械翻訳器と、モデル記憶部２７０に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部２７０に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア（例えば、各翻訳モデルのスコアの重み付き加算値）を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。

【0063】

モデル重み学習部２６８は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス２６２に記憶されている当該重み学習用データに対応する日本語で記述された文又は句（正解翻訳）とに基づいて、翻訳部２６６において抽出された各翻訳候補に対する翻訳評価尺度（例えば、ＢＬＥＵ値）を算出する。

【0064】

そして、モデル重み学習部２６８は、翻訳部２６６において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部２７０に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア（例えば、各翻訳モデルのスコアの重み付き加算値）が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部２７０に記憶する。

【0065】

上記の翻訳部２６６において行われる翻訳候補の抽出と、モデル重み学習部２６８において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。なお、複数の翻訳モデルの各々に対する重みの初期値は固定の値でもよいし、ランダムに設定してもよい。また、重みの最適化には非特許文献３（Franz J. Och. 2003. Minimum error rate training for statistical machine translation.In Proceedings of the 41st annual conference of the Association for Computational Linguistics, pp.160--167, 2003.）等の公知の統計的機械翻訳における最適化手法を利用することができる。

【0066】

出力部２８０は、モデル記憶部２７０に記憶されている翻訳モデル及びモデル重みを出力する。

【0067】

＜翻訳モデル学習装置の作用＞
次に、本発明の実施の形態に係る翻訳モデル学習装置２００の作用について説明する。まず、入力部２１０により、中国語と日本語の対訳となっている文対、句対（対訳データ）の集合である学習用並行コーパスが入力され、学習用並行コーパス２５０に記憶される。そして、翻訳モデル学習装置２００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図５に示す翻訳モデル学習処理ルーチンが実行される。

【0068】

まず、ステップＳ２００では、学習用並行コーパス２５０に記憶されている学習用並行コーパスを読み出す。

【0069】

次に、ステップＳ２０２では、ステップＳ２００において読み込んだ学習用並行コーパスに含まれる各対訳データの中国語の文又は句について、公知の形態素解析器を利用し、形態素解析（単語区切りと品詞の同定）を行う。

【0070】

次に、ステップＳ２０４では、ステップＳ２０２において形態素解析された各対訳データの中国語で記述された文又は句について、公知の依存構造解析器を用いて、依存構造解析を行う。

【0071】

次に、ステップＳ２０５では、ステップＳ２００において読み込んだ学習用並行コーパスに含まれる各対訳データの日本語の文又は句について、公知の日本語形態素解析プログラム（MeCab等）を利用し、形態素解析を行い、単語分割する。

【0072】

次に、ステップＳ２０６では、対象の対訳データの中国語で記述された文又は句について、上記ステップＳ２０４による依存構造の解析結果に基づいて、上記（ａ）〜（ｃ）の要件を満たす単語を動詞ブロックの主辞である単語として同定する。

【0073】

次に、ステップＳ２０８では、対象の対訳データの中国語で記述された文又は句について、上記ステップＳ２０４による依存構造の解析結果に基づいて、上記（ｄ）〜（ｆ）の要件を満たす単語をステップＳ２０６において同定された動詞ブロックに追加し動詞ブロックを同定する。

【0074】

次に、ステップＳ２１０では、対象の対訳データの中国語で記述された文又は句について、ステップＳ２０８において同定された動詞ブロックに追加する上記（ｄ）〜（ｆ）の要件を満たす単語が存在するか否かの判定を行う。上記（ｄ）〜（ｆ）の要件を満たす単語が存在する場合には、ステップＳ２０８へ移行し、追加する要件を満たす単語が存在しない場合には、ステップＳ２１２へ移行する。

【0075】

次に、ステップＳ２１２では、対象の対訳データの中国語で記述された文又は句について、既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語があるか否かの判定を行う。既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がある場合には、ステップＳ２０６へ移行し、新たな動詞ブロックを同定する。一方、既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がない場合には、ステップＳ２１４へ移行する。

【0076】

次に、ステップＳ２１４では、全ての対訳データの中国語で記述された文又は句についてステップＳ２０６〜ステップＳ２１２の処理を行ったか否かを判定する。全ての対訳データの中国語の文又は句についてステップＳ２０６〜ステップＳ２１２の処理を行っている場合には、ステップＳ２１６へ移行し、ステップＳ２０６〜ステップＳ２１２の処理を行っていない対訳データの中国語の文又は句が存在する場合には、ステップＳ２０６へ移行し、当該対訳データの中国語の文又は句を対象として、処理を繰り返す。

【0077】

次に、ステップＳ２１６では、ステップＳ２０４において依存構造解析された各対訳データの中国語で記述された文又は句について、上記ステップＳ２０４による依存構造の解析結果に基づいて、ステップＳ２０６〜ステップＳ２１２において同定された当該文又は句の動詞ブロックの各々に対し、上記（ｇ）〜（ｉ）の要件を満たす単語を最右目的語として各々同定する。

【0078】

次に、ステップＳ２１８では、ステップＳ２０４において依存構造解析された各対訳データの中国語で記述された文又は句について、上記（ｊ）〜（ｌ）の動詞ブロック及び単語の並べ替え規則を用いて、ステップＳ２０６〜ステップＳ２１２において同定された動詞ブロックの各々、及び当該文又は句に含まれる単語の各々の語順を並べ替え、並べ替えられた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句（ステップＳ２０５で取得したもの）とを併せてモデル用並行コーパスとしてモデル用並行コーパス２６２に記憶する。

【0079】

次に、ステップＳ２２０では、モデル用並行コーパス２６２に記憶されている中国語で記述された文又は句と、日本語で記述された文又は句とからなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス２６２に記憶されている日本語で記述された文又は句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部２７０に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部２７０に記憶する。

【0080】

次に、ステップＳ２２２では、ステップＳ２１８において語順を並べ替えた中国語で記述された文又は句の各々について、公知の機械翻訳器と、上記ステップＳ２２０で学習した各翻訳モデルと、モデル記憶部２７０に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。

【0081】

ステップＳ２２４では、上記ステップＳ２２２で作成された複数の翻訳候補の各々について、モデル用並行コーパス２６２に記憶されている当該翻訳候補に対応する日本語で記述された文又は句（正解翻訳）に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。

【0082】

そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部２７０に記憶する。

【0083】

次に、ステップＳ２２６では、ステップＳ２２４で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップＳ２２２に移行する。

【0084】

＜翻訳装置の作用＞
次に、本発明の実施の形態に係る翻訳装置１００の作用について説明する。まず、入力部１０により、翻訳モデル学習装置２００によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みが入力されモデル記憶部４８に記憶される。そして、入力部１０により、中国語で記述された文が入力されると、翻訳装置１００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図６に示す翻訳処理ルーチンが実行される。

【0085】

まず、ステップＳ１００において、中国語で記述された入力文を受け付ける。

【0086】

次に、ステップＳ１０２において、ステップＳ１００において受け付けた中国語で記述された入力文に対して、公知の形態素解析器を利用し、形態素解析（単語区切りと品詞の同定）を行う。

【0087】

次に、ステップＳ１０４において、ステップＳ１０２において形態素解析された入力文に対して、公知の依存構造解析器を使用して依存構造解析を行う。

【0088】

次に、ステップＳ１０６では、ステップＳ１０４における依存構造の解析結果に基づいて、入力文について、上記（ａ）〜（ｃ）の要件を満たす単語を動詞ブロックの主辞である単語として同定する。

【0089】

次に、ステップ１０８では、ステップＳ１０４における依存構造の解析結果に基づいて、入力文について、上記（ｄ）〜（ｆ）の要件を満たす単語をステップＳ２０６において同定された動詞ブロックに追加し動詞ブロックを同定する。

【0090】

次に、ステップＳ１１０では、ステップＳ１０８において同定された動詞ブロックに追加する上記（ｄ）〜（ｆ）の要件を満たす単語が入力文に存在するか否かの判定を行う。上記（ｄ）〜（ｆ）の要件を満たす単語が存在する場合には、ステップＳ１０８へ移行し、追加する要件を満たす単語が存在しない場合には、ステップＳ１１０へ移行する。

【0091】

次に、ステップＳ１１０では、入力文について既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語があるか否かの判定を行う。既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がある場合には、ステップＳ１０６へ移行し、既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がない場合には、ステップＳ１１６へ移行する。

【0092】

次に、ステップＳ１１６では、ステップＳ１０４における依存構造の解析結果に基づいて、入力文について、ステップＳ１０６〜ステップＳ１１２において同定された動詞ブロックの各々に対し、上記（ｇ）〜（ｉ）の要件を満たす単語を最右目的語として各々同定する。

【0093】

次に、ステップＳ１１８では、入力文について、上記（ｊ）〜（ｌ）の動詞ブロック及び単語の並べ替え規則を用いて、ステップＳ１０６〜ステップＳ１１０において同定された動詞ブロックの各々、及び単語の各々の語順を並べ替える。

【0094】

次に、ステップＳ１２０において、ステップＳ１１８において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、モデル記憶部４８に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。

【0095】

次に、ステップＳ１２２において、ステップＳ１１４において選択した翻訳結果を出力して処理を終了する。

【0096】

＜翻訳装置１００の実施例＞
次に、図７に示す中国語から日本語への翻訳を行った実施例について以下説明する。

【0097】

まず、入力部１０において中国語で記述された文（図７参照）を受け付け言語解析部３０において言語解析（形態素解析及び依存構造解析）を行う。本実施例では、形態素解析処理に公知のフリーソフトウェア（Stanford Chinese Segmenter）を用い、依存構造解析処理に公知のフリーソフトウェア（Corbit）を用いる。

【0098】

図８に言語解析の処理結果を示す。図８の各行が単語を表し、各列は空白文字で区切られ４つの要素を含んでいる。各要素は、先頭から順に、０から始まる単語ＩＤ、単語の表層文字列、品詞、主辞の単語ＩＤを示す。なお、主辞の単語ＩＤが「−１」となっている単語は文全体の主辞であることを表している。

【0099】

次に、動詞ブロック同定部４０により動詞ブロックの同定を以下のように行う。まず、動詞ブロックの中心となる単語として、文全体の主辞である単語ＩＤ［２］の単語（図９参照）を起点とし、当該単語の動詞ブロックに含まれる単語を求める。

【0100】

具体的には、単語ＩＤ「１」の単語（図１０参照）は、動詞ブロックの主辞である単語（図９参照）を主辞とし、品詞がADであるため、当該動詞ブロックに含まれる。そして、単語ＩＤ「４」の単語（図１１参照）は、動詞ブロックの主辞である単語ＩＤ「２」の単語（図９参照）を主辞とし、品詞がVVであり、また主辞との間には並列詞（品詞CC）のみが含まれるため、当該動詞ブロックに含まれる。また、合わせて単語ＩＤ「３」の並列詞の単語（図１２参照）も当該動詞ブロックに含まれる。また、単語ＩＤ「５」の単語（図１３参照）は、既に動詞ブロックに追加されている単語ＩＤ「４」の単語（図１１参照）を主辞とし、品詞がASであるため、当該動詞ブロックに含まれる。このようにして、単語ＩＤ「１」から「５」までの部分が動詞ブロック（図１４参照）として同定される。

【0101】

次に、最右目的語同定部４２により動詞ブロック同定部４０において同定された動詞ブロック（図１４参照）に対応する最右目的語を同定する。上記（ｇ）〜（ｉ）の最右目的語の要件を満たす単語は、単語ＩＤ「８」の単語（図１５参照）のみであるため、当該単語を最右目的語として同定する。

【0102】

次に、並べ替え部４４により、動詞ブロック同定部４０により同定された動詞ブロック（図１４参照）を、最右目的語同定部４２により同定された最右目的語（図１５参照）の後方に移動し、並べ替える。図１６に並べ替え結果を示す。

【0103】

翻訳装置１００の翻訳部４６は、翻訳モデル学習装置２００において学習されたモデルを用いて、並べ替え部４４により並べ替えた中国語単語列を日本語に翻訳する。並べ替えられた文（図１６参照）に対しては、「学校は一冊の本をすでに編集出版した。」という翻訳結果が得られる。

【0104】

また、本実施例に示した方法によって作成された統計的機械翻訳システムは、本発明の並べ替えを施さないシステムに対して公知の機械翻訳評価尺度ＢＬＥＵの値を若干向上させることを確認した（ＢＬＥＵが0.39から0.40に向上）。

なお、翻訳部４６において用いる機械翻訳器が参照するモデルの学習は以下のような手順で行った。本実施例では、機械翻訳器として公知の統計的機械翻訳ツールキットMoses及び関連プログラム群を利用する。

【0105】

まず、学習データ言語解析部２５４、学習データ動詞ブロック同定部２５６、学習データ最右目的語同定部２５８、学習データ並べ替え部２６０において、原言語である中国語の解析及び並べ替えを、学習用並行コーパス２５０に記憶されている学習用の平行コーパスの中国語部に対して行う。この処理手順は翻訳装置１００の言語解析部３０、動詞ブロック同定部４０、最右目的語同定部４２、並べ替え部４４と同様に処理を行う。また、学習データ言語解析部２５４において、目的言語である日本語について単語への分割処理を行う。具体的には、公知の日本語形態素解析プログラムMeCabを利用し、学習用並行コーパス２５０に記憶されている学習用の並行コーパスの日本語部に対して単語分割を行う。

【0106】

翻訳モデル学習部２６４において、学習データ並べ替え部２６０において並べ替えられた中国語の単語列と、日本語の単語列の組を得て、この単語列組から統計的機械翻訳のモデルの学習を行う。翻訳モデル学習部２６４における句翻訳モデルＤＢ、句並べ替えモデルＤＢ、言語モデルＤＢの学習は公知の統計的機械翻訳の方法（非特許文献２）によって行うことができ、モデル重み学習部２６８における各モデルの重みの学習は公知の最適化の方法（非特許文献３）によって行うことができる。これらの機能は上述のツールキットMosesに実装されている。

【0107】

以上説明したように、本発明の実施の形態に係る翻訳装置によれば、中国語の入力文の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、中国語の入力文の語順を精度良く並べ替え、語順を並び替えられた入力文を日本語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことができる。

【0108】

また、本発明の実施の形態に係る翻訳モデル学習装置によれば、中国語で記述された文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替え、語順を並べ替えた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することができる。

【0109】

また、依存構造解析を利用した事前並べ替え方法を提供し、それに基づく統計的機械翻訳を実現していることで、依存構造木の情報を補助的な制約として利用するに留め、兄弟ノードの並べ替えだけでは表現できないような自由度の高い原言語の事前並べ替えを可能にし、より目的言語の語順に近づけることができる。

【0110】

また、原言語から目的言語への機械翻訳を容易にするための前処理として原言語の単語列を目的言語の語順に近くなるように並べ替える際に、品詞や依存構造の情報を利用しながらも、単純な並べ替え規則による並べ替えが適さないような言語対においても、目的言語の語順により近づけられるような並べ替えを行うことができる。

【0111】

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0112】

本実施の形態においては、原言語を中国語とし、目的言語を日本語とする場合について説明したがこれに限定されるものではなく、他の言語ペアを、原言語及び目的言語としてもよい。

【0113】

また、本実施の形態においては、翻訳装置により翻訳する対象を文とする場合について説明したがこの限りでない。例えば、翻訳する対象を句としてもよい。

【0114】

また、本実施の形態においては、動詞ブロックを同定する際に、まず文の主辞となっている動詞（主動詞）を含む動詞ブロックを同定し、続いて、依存構造の根（root）に近い順に、動詞ブロックの同定を繰り返し行う場合について説明したがこの限りでない。例えば、文頭から順に動詞ブロックを同定する処理を繰り返し行ってもよい。

【符号の説明】

【0115】

１０入力部
２０演算部
３０言語解析部
３２形態素解析部
３４依存構造解析部
４０動詞ブロック同定部
４２最右目的語同定部
４４並べ替え部
４６翻訳部
４８モデル記憶部
７０出力部
１００翻訳装置
２００翻訳モデル学習装置
２１０入力部
２２０演算部
２５０学習用並行コーパス
２５２モデル学習部
２５４学習データ言語解析部
２５６学習データ動詞ブロック同定部
２５８学習データ最右目的語同定部
２６０学習データ並べ替え部
２６２モデル用並行コーパス
２６４翻訳モデル学習部
２６６翻訳部
２６８モデル重み学習部
２７０モデル記憶部
２８０出力部

【図3】