特許6687935 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許6687935単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、機械翻訳方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6687935

(24)【登録日】2020年4月7日

(45)【発行日】2020年4月28日

(54)【発明の名称】単語アライメントモデル構築装置、機械翻訳装置、単語アライメントモデルの生産方法、機械翻訳方法、およびプログラム

(51)【国際特許分類】

G06F 40/45 20200101AFI20200421BHJP

G06F 40/44 20200101ALI20200421BHJP

【ＦＩ】

G06F17/28 627

G06F17/28 618

【請求項の数】6

【全頁数】24

(21)【出願番号】特願2015-174465(P2015-174465)

(22)【出願日】2015年9月4日

(65)【公開番号】特開2017-49917(P2017-49917A)

(43)【公開日】2017年3月9日

【審査請求日】2018年6月26日

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】100115749

【弁理士】

【氏名又は名称】谷川英和

(72)【発明者】

【氏名】内山将夫

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２０１０−１２２９８２（ＪＰ，Ａ）

【文献】特開２００９−０６４０５１（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ４０／２０−４０／５８

(57)【特許請求の範囲】

【請求項1】

第一の言語である第一言語の文である第一言語文と第二の言語である第二言語の文である第二言語文との対であり、第一の閾値（Ｎ１）未満の数の対訳文を有する小規模な対訳データである小規模対訳データを格納し得る小規模対訳データ格納部と、
前記小規模対訳データから取得される単語のアライメントモデルであり、第一言語の単語である第一単語と第二言語の単語である第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第一対応確率情報とを有する複数の単語アライメントデータを有する小規模単語アライメントモデルを格納し得る小規模単語アライメントモデル格納部と、
第二の閾値（Ｎ２，Ｎ２＞Ｎ１）以上の数の対訳文を有する大規模な対訳データである大規模対訳データから取得された単語のアライメントモデルであり、第一単語と第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第二対応確率情報とを有する複数の単語アライメントデータを有する大規模単語アライメントモデルを格納している大規模単語アライメントモデル格納部と、
１以上の対訳文から取得された情報であり、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報ごとに、対訳文単語位置情報に合致する確率に関する対訳文単語位置確率情報を格納し得る対訳文単語位置確率情報格納部と、
前記小規模対訳データに含まれる対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、前記大規模単語アライメントモデルが有する前記一の単語対と対になる第二対応確率情報と、前記対訳文の中における前記一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、前記一の単語対と対になる第一対応確率情報を算出する確率情報算出部と、
単語対ごとに、前記確率情報算出部が最終的に算出した第一対応確率情報を、前記単語対に対応付けて、前記小規模単語アライメントモデル格納部に蓄積する対応確率情報蓄積部とを具備し、
前記確率情報算出部は、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報を取得する前回第一対応確率情報取得手段と、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する第二対応確率情報を、前記大規模単語アライメントモデル格納部から取得する第二対応確率情報取得手段と、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得手段と、
前記対訳文単語位置情報取得手段が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、前記対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得手段と、
前記前回第一対応確率情報取得手段が取得した第一対応確率情報と前記第二対応確率情報取得手段が取得した第二対応確率情報とを予め決められた割合で加算し、当該加算した結果と、前記対訳文単語位置確率情報取得手段が取得した対訳文単語位置確率情報とを乗算し、中間確率値を算出する中間確率値算出手段と、
単語対ごとに、前記中間確率値算出手段が算出した一の単語対の中間確率値を、単語対に対する中間確率値を累積加算した値で除算した値を、前回の正規化前の第一対応確率情報に加算し、正規化前の第一対応確率情報を取得する正規化前第一対応確率情報取得手段と、
単語対ごとに、前記正規化前第一対応確率情報取得手段が取得した正規化前の第一対応確率情報に対して、正規化の処理を行い、第一対応確率情報を取得する正規化手段と、
終了条件を満たすまで、前記前回第一対応確率情報取得手段、前記第二対応確率情報取得手段、前記対訳文単語位置情報取得手段、前記対訳文単語位置確率情報取得手段、前記中間確率値算出手段、前記正規化前第一対応確率情報取得手段、および前記正規化手段の処理を繰り返して行わせる制御手段とを具備する単語アライメントモデル構築装置。

【請求項2】

請求項１に記載の単語アライメントモデル構築装置が有する小規模単語アライメントモデル格納部と、
請求項１に記載の単語アライメントモデル構築装置が有する対訳文単語位置確率情報格納部と、
第二言語文を受け付ける受付部と、
前記小規模単語アライメントモデル格納部に格納されている小規模単語アライメントモデル、および前記対訳文単語位置確率情報格納部に格納されている１以上の対訳文単語位置情報ごとの対訳文単語位置確率情報を用いて、前記受付部が受け付けた第二言語文から第一言語文を取得する翻訳部とを具備する機械翻訳装置。

【請求項3】

記録媒体は、
第一の言語である第一言語の文である第一言語文と第二の言語である第二言語の文である第二言語文との対であり、第一の閾値（Ｎ１）未満の数の対訳文を有する小規模な対訳データである小規模対訳データを格納し得る小規模対訳データ格納部と、
前記小規模対訳データから取得される単語のアライメントモデルであり、第一言語の単語である第一単語と第二言語の単語である第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第一対応確率情報とを有する複数の単語アライメントデータを有する小規模単語アライメントモデルを格納し得る小規模単語アライメントモデル格納部と、
第二の閾値（Ｎ２，Ｎ２＞Ｎ１）以上の数の対訳文を有する大規模な対訳データである大規模対訳データから取得された単語のアライメントモデルであり、第一単語と第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第二対応確率情報とを有する複数の単語アライメントデータを有する大規模単語アライメントモデルを格納している大規模単語アライメントモデル格納部と、
１以上の対訳文から取得された情報であり、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報ごとに、対訳文単語位置情報に合致する確率に関する対訳文単語位置確率情報を格納し得る対訳文単語位置確率情報格納部とを具備し、
確率情報算出部、対応確率情報蓄積部により実現される単語アライメントモデルの生産方法であって、
前記確率情報算出部が、前記小規模対訳データに含まれる対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、前記大規模単語アライメントモデルが有する前記一の単語対と対になる第二対応確率情報と、前記対訳文の中における前記一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、前記一の単語対と対になる第一対応確率情報を算出する確率情報算出ステップと、
前記対応確率情報蓄積部が、単語アライメントモデルの生産方法単語対ごとに、前記確率情報算出ステップで最終的に算出された第一対応確率情報を、前記単語対に対応付けて、前記小規模単語アライメントモデル格納部に蓄積する対応確率情報蓄積ステップとを具備し、
前記確率情報算出ステップは、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報を取得する前回第一対応確率情報取得サブステップと、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する第二対応確率情報を、前記大規模単語アライメントモデル格納部から取得する第二対応確率情報取得サブステップと、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得サブステップと、
前記対訳文単語位置情報取得サブステップで取得された対訳文単語位置情報に対応する対訳文単語位置確率情報を、前記対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得サブステップと、
前記前回第一対応確率情報取得サブステップで取得された第一対応確率情報と前記第二対応確率情報取得サブステップで取得された第二対応確率情報とを予め決められた割合で加算し、当該加算した結果と、前記対訳文単語位置確率情報取得サブステップで取得された対訳文単語位置確率情報とを乗算し、中間確率値を算出する中間確率値算出サブステップと、
単語対ごとに、前記中間確率値算出サブステップで算出された一の単語対の中間確率値を、単語対に対する中間確率値を累積加算した値で除算した値を、前回の正規化前の第一対応確率情報に加算し、正規化前の第一対応確率情報を取得する正規化前第一対応確率情報取得サブステップと、
単語対ごとに、前記正規化前第一対応確率情報取得サブステップで取得された正規化前の第一対応確率情報に対して、正規化の処理を行い、第一対応確率情報を取得する正規化サブステップと、
終了条件を満たすまで、前記前回第一対応確率情報取得サブステップ、前記第二対応確率情報取得サブステップ、前記対訳文単語位置情報取得サブステップ、前記対訳文単語位置確率情報取得サブステップ、前記中間確率値算出サブステップ、前記正規化前第一対応確率情報取得サブステップ、および前記正規化サブステップの処理を繰り返して行わせる制御サブステップとを具備する単語アライメントモデルの生産方法。

【請求項4】

請求項１に記載の単語アライメントモデル構築装置が有する小規模単語アライメントモデル格納部と、請求項１に記載の単語アライメントモデル構築装置が有する対訳文単語位置確率情報格納部と、受付部と、翻訳部とにより実現される機械翻訳方法であって、
前記受付部が、第二言語文を受け付ける受付ステップと、
前記翻訳部が、前記小規模単語アライメントモデル格納部に格納されている小規模単語アライメントモデル、および前記対訳文単語位置確率情報格納部に格納されている１以上の対訳文単語位置情報ごとの対訳文単語位置確率情報を用いて、前記受付ステップで受け付けられた第二言語文から第一言語文を取得する翻訳ステップとを具備する機械翻訳方法。

【請求項5】

コンピュータがアクセス可能な記録媒体は、
第一の言語である第一言語の文である第一言語文と第二の言語である第二言語の文である第二言語文との対であり、第一の閾値（Ｎ１）未満の数の対訳文を有する小規模な対訳データである小規模対訳データを格納し得る小規模対訳データ格納部と、
前記小規模対訳データから取得される単語のアライメントモデルであり、第一言語の単語である第一単語と第二言語の単語である第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第一対応確率情報とを有する複数の単語アライメントデータを有する小規模単語アライメントモデルを格納し得る小規模単語アライメントモデル格納部と、
第二の閾値（Ｎ２，Ｎ２＞Ｎ１）以上の数の対訳文を有する大規模な対訳データである大規模対訳データから取得された単語のアライメントモデルであり、第一単語と第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第二対応確率情報とを有する複数の単語アライメントデータを有する大規模単語アライメントモデルを格納している大規模単語アライメントモデル格納部と、
１以上の対訳文から取得された情報であり、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報ごとに、対訳文単語位置情報に合致する確率に関する対訳文単語位置確率情報を格納し得る対訳文単語位置確率情報格納部とを具備し、
コンピュータを、
前記小規模対訳データに含まれる対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、前記大規模単語アライメントモデルが有する前記一の単語対と対になる第二対応確率情報と、前記対訳文の中における前記一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、前記一の単語対と対になる第一対応確率情報を算出する確率情報算出部と、
単語対ごとに、前記確率情報算出部が最終的に算出した第一対応確率情報を、前記単語対に対応付けて、前記小規模単語アライメントモデル格納部に蓄積する対応確率情報蓄積部として機能させるためのプログラムであって、
前記確率情報算出部は、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報を取得する前回第一対応確率情報取得手段と、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する第二対応確率情報を、前記大規模単語アライメントモデル格納部から取得する第二対応確率情報取得手段と、
前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得手段と、
前記対訳文単語位置情報取得手段が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、前記対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得手段と、
前記前回第一対応確率情報取得手段が取得した第一対応確率情報と前記第二対応確率情報取得手段が取得した第二対応確率情報とを予め決められた割合で加算し、当該加算した結果と、前記対訳文単語位置確率情報取得手段が取得した対訳文単語位置確率情報とを乗算し、中間確率値を算出する中間確率値算出手段と、
単語対ごとに、前記中間確率値算出手段が算出した一の単語対の中間確率値を、単語対に対する中間確率値を累積加算した値で除算した値を、前回の正規化前の第一対応確率情報に加算し、正規化前の第一対応確率情報を取得する正規化前第一対応確率情報取得手段と、
単語対ごとに、前記正規化前第一対応確率情報取得手段が取得した正規化前の第一対応確率情報に対して、正規化の処理を行い、第一対応確率情報を取得する正規化手段と、
終了条件を満たすまで、前記前回第一対応確率情報取得手段、前記第二対応確率情報取得手段、前記対訳文単語位置情報取得手段、前記対訳文単語位置確率情報取得手段、前記中間確率値算出手段、前記正規化前第一対応確率情報取得手段、および前記正規化手段の処理を繰り返して行わせる制御手段とを具備するものとして、前記コンピュータを機能させるためのプログラム。

【請求項6】

コンピュータがアクセス可能な記録媒体は、
請求項１に記載の単語アライメントモデル構築装置が有する小規模単語アライメントモデル格納部と、
請求項１に記載の単語アライメントモデル構築装置が有する対訳文単語位置確率情報格納部とを具備し、
コンピュータを、
第二言語文を受け付ける受付部と、
前記小規模単語アライメントモデル格納部に格納されている小規模単語アライメントモデル、および前記対訳文単語位置確率情報格納部に格納されている１以上の対訳文単語位置情報ごとの対訳文単語位置確率情報を用いて、前記受付部が受け付けた第二言語文から第一言語文を取得する翻訳部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、単語アライメントモデルを構築する単語アライメントモデル構築装置等に関するものである。

【背景技術】

【0002】

統計的機械翻訳（SMT）では、対訳データDataBから、翻訳モデルModelBを作成する。そして、ModelBを利用して、入力文を翻訳する。このとき、入力文がDataBと同様な分野の文である場合には、その翻訳結果は高精度であることが期待できる。けれども、入力文がDataBとは異なる分野の文であるときには、その翻訳精度は低下する。

【0003】

この対策として、DataBと異なる分野の対訳データDataSを利用することにより、翻訳モデルModelSを作成し、ModelBとModelSの双方を利用することにより、DataSと同分野の文の翻訳精度の高精度化を達成可能である。

【0004】

このModelBとModelSの双方を利用する方法としては、非特許文献１等に記載されている。なお、この方法をSMTの分野適応と呼ぶ。

【0005】

分野適応のときの問題点としては、DataBが大規模（10-1000万文程度）であるのに対して、DataSが小規模(100文程度のこともある)であることがある。こうした場合には、DataBからModelBを作成するのは、問題なく高精度に行えるが、DataSからModelSを作成するのを高精度に行うのは困難である。

【0006】

その理由としては、ModelSを作る過程としては、通常、次のステップがとられるからである。
ステップ１．DataSを単語アライメントする
ステップ２．単語アライメントの結果から ModelSを構築する。

【0007】

上記ステップ１の単語アライメントにおいて、オープンソースツールである GIZA++（非特許文献２参照)や fast_align（非特許文献３参照）が利用されることが多い。しかし、これらのツールは、小規模の対訳データにおける単語アライメントは精度よく実行できない。

【0008】

上記の問題設定において、小規模対訳データDataSを単語アライメントする従来技術には、以下の（あ）〜（え）の４つがある。
（あ）DataBから単語アライメントのための単語アライメントモデルAlignBを構築し、AlignBを利用してDataSをアライメントする。
（い）DataSから単語アライメントモデルAlignSを構築し、AlignSを利用してDataSをアライメントする。
（う）DataBとDataSを一つにまとめて、そこから単語アライメントモデル AlignBSを構築し、AlignBSを用いて DataSをアライメントする。
（え）DataBから単語アライメントモデル AlignBを構築する。そして、AlignBを初期モデルとして、 DataSから AlignBSを構築し、AlignBSを利用して DataSをアライメントする（非特許文献４参照）。ただし、AlignBを初期モデルとすることは、単語アライメントの十分統計量のみを AlignBから抽出して、その十分統計量を、DataSを利用して更新することをいう。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】Baskaran Sankaran, Majid Razmara, Atefeh Farzindar, Wael Khreich, Fred Popowich, and Anoop Sarkar; "Domain adaptation techniques for machine translation and their evaluation in a real-world setting",School of Computing Science, Simon Fraser University, Burnaby, BC, Canada, DOI: 10.1007/978-3-642-30353-1_14 Conference: Proceedings of the 25th Canadian conference on Advances in Artificial Intelligence

【非特許文献2】" GIZA++: Training of statistical translation models."、［online］、［平２７年８月６日検索］、インターネット［URL：http://www.statmt.org/moses/giza/GIZA++.html］

【非特許文献3】"clab/fast_align"、［online］、［平２７年８月６日検索］、インターネット［URL：https://github.com/clab/fast_align］

【非特許文献4】Abby Levenberg, Chris Callison-Burch, Miles Osborne; "Stream-based Translation Models for Statistical Machine Translation",NAACL-2010

【発明の概要】

【発明が解決しようとする課題】

【0010】

しかしながら、従来技術においては、小規模対訳コーパスの単語アライメントを精度よく実行できなかった。

【0011】

さらに具体的には、（あ）〜（え）の４つ従来技術は、各々、以下の課題を有する。
（あ）は、AlignBを利用して DataSを単語アライメントするのであるから、そもそもDataBとDataSが異なる以上、単語アライメント精度は低い。
（い）は、DataSが数万文以上あるときには効果的であるが、100文程度のときにはAlignSの精度が低くなるので、単語アライメント精度は低い。
（う）について、DataSとDataBの大きさが極端に違うときには、DataSで特徴的な単語対などが出現したとしても、それはDataBの多数派に打ち消されることが考えられる。たとえば、DataBが電気電子関係の多量の対訳文であり、そのため、「potential」は「電位」とアライメントすることが多い場合に、DataSとして情報関係の少量の対訳文があって、「potential」が「潜在的」とアライメントするとしても、それが大量の対訳文により打ち消される可能性がある。また、DataBとDataSを統合してから単語アライメントをするので、たとえ DataSが小さくても、DataBが大規模なため単語アライメントに多大の時間がかかる。
（え）について、出来上がった単語アライメントモデルAlignBSは、（う）のモデルと同等なものであるので上記（う）と同じ問題がある。（え）の利点は、AlignBを初期値として利用することにより、DataSを処理するだけで（う）と同等なものができる点である。

【0012】

本発明においては、例えば、（え）と同様に DataSを処理するだけで単語アライメントモデルを構築できるが、（え）とは異なり、DataSに特有な単語アライメントも打ち消されない単語アライメントモデルを構築することを目的とする。

【課題を解決するための手段】

【0013】

本第一の発明の単語アライメントモデル構築装置は、第一の言語である第一言語の文である第一言語文と第二の言語である第二言語の文である第二言語文との対であり、第一の閾値（Ｎ１）未満の数の対訳文を有する小規模な対訳データである小規模対訳データを格納し得る小規模対訳データ格納部と、小規模対訳データから取得される単語のアライメントモデルであり、第一言語の単語である第一単語と第二言語の単語である第二単語とを有する単語対と、第一単語と第二単語とが対応する確率に関する対応確率情報である第一対応確率情報とを有する複数の単語アライメントデータを有する小規模単語アライメントモデルを格納し得る小規模単語アライメントモデル格納部と、第二の閾値（Ｎ２，Ｎ２＞Ｎ１）以上の数の対訳文を有する大規模な対訳データである大規模対訳データから取得された単語のアライメントモデルであり、第一単語と第二単語とを有する単語対と、第一単語と第二単語とが対応する確率に関する対応確率情報である第二対応確率情報とを有する複数の単語アライメントデータを有する大規模単語アライメントモデルを格納している大規模単語アライメントモデル格納部と、１以上の対訳文から取得された情報であり、第一言語文の中における第一単語の位置を示す第一単語位置、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報ごとに、対訳文単語位置情報に合致する確率に関する対訳文単語位置確率情報を格納し得る対訳文単語位置確率情報格納部と、小規模対訳データに含まれる対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、大規模単語アライメントモデルが有する一の単語対と対になる第二対応確率情報と、対訳文の中における一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、一の単語対と対になる第一対応確率情報を算出する確率情報算出部と、単語対ごとに、確率情報算出部が最終的に算出した第一対応確率情報を、単語対に対応付けて、小規模単語アライメントモデル格納部に蓄積する対応確率情報蓄積部とを具備する単語アライメントモデル構築装置である。

【0014】

かかる構成により、小規模対訳コーパスの単語アライメントを精度よく実行できる。

【0015】

また、本第二の発明の単語アライメントモデル構築装置は、第一の発明に対して、確率情報算出部は、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、一の単語対に対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報を取得する前回第一対応確率情報取得手段と、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、一の単語対に対応する第二対応確率情報を、大規模単語アライメントモデル格納部から取得する第二対応確率情報取得手段と、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得手段と、対訳文単語位置情報取得手段が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得手段と、前回第一対応確率情報取得手段が取得した第一対応確率情報と第二対応確率情報取得手段が取得した第二対応確率情報とを予め決められた割合で加算し、加算した結果と、対訳文単語位置確率情報取得手段が取得した対訳文単語位置確率情報とを乗算し、中間確率値を算出する中間確率値算出手段と、単語対ごとに、中間確率値算出手段が算出した中間確率値を用いて、正規化前の第一対応確率情報を取得する正規化前第一対応確率情報取得手段と、単語対ごとに、正規化前第一対応確率情報取得手段が取得した正規化前の第一対応確率情報に対して、正規化の処理を行い、第一対応確率情報を取得する正規化手段と、終了条件を満たすまで、前回第一対応確率情報取得手段、第二対応確率情報取得手段、対訳文単語位置情報取得手段、対訳文単語位置確率情報取得手段、中間確率値算出手段、正規化前第一対応確率情報取得手段、および正規化手段の処理を繰り返して行わせる制御手段とを具備する単語アライメントモデル構築装置である。

【0016】

かかる構成により、小規模対訳コーパスの単語アライメントを精度よく実行できる。

【0017】

また、本第三の発明の単語アライメントモデル構築装置は、第一または第二の発明に対して、対訳文単語位置確率情報格納部に格納されている対訳文単語位置確率情報は、大規模対訳データを用いて取得された対訳文単語位置確率情報である単語アライメントモデル構築装置である。

【0018】

かかる構成により、小規模対訳コーパスの単語アライメントをより精度よく実行できる。

【0019】

また、本第四の発明の単語アライメントモデル構築装置は、第一の発明に対して、大規模対訳データが有する各単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得手段と、大規模対訳データが有する各単語対に対して、対訳文単語位置情報取得手段が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得手段とをさらに具備し、対訳文単語位置確率情報格納部に格納されている対訳文単語位置確率情報は、対訳文単語位置確率情報取得手段が取得した対訳文単語位置確率情報である単語アライメントモデル構築装置である。

【0020】

かかる構成により、小規模対訳コーパスの単語アライメントをより精度よく実行できる。

【0021】

また、本第五の発明の機械翻訳装置は、第一から第四いずれか１つの発明に対して、単語アライメントモデル構築装置が有する小規模単語アライメントモデル格納部と、単語アライメントモデル構築装置が有する対訳文単語位置確率情報格納部と、第二言語文を受け付ける受付部と、小規模単語アライメントモデル格納部に格納されている小規模単語アライメントモデル、および対訳文単語位置確率情報格納部に格納されている１以上の対訳文単語位置情報ごとの対訳文単語位置確率情報を用いて、受付部が受け付けた第二言語文から第一言語文を取得する翻訳部とを具備する機械翻訳装置である。

【0022】

かかる構成により、小規模対訳コーパスの単語アライメントを精度よく実行できる結果、精度の良い翻訳結果が得られる。

【発明の効果】

【0023】

本発明による単語アライメントモデル構築装置によれば、小規模対訳コーパスの単語アライメントを精度よく実行できる。

【図面の簡単な説明】

【0024】

【図1】実施の形態１における単語アライメントモデル構築装置１のブロック図

【図2】同単語アライメントモデル構築装置１の動作について説明するフローチャート

【図3】同Ｅ−ｓｔｅｐの詳細について説明するフローチャート

【図4】同中間確率値を算出する処理の詳細について説明するフローチャート

【図5】同単語アライメントモデル構築装置１の動作を示す図

【図6】実施の形態２における機械翻訳装置２のブロック図

【図7】上記実施の形態におけるコンピュータシステムの概観図

【図8】同コンピュータシステムのブロック図

【発明を実施するための形態】

【0025】

以下、単語アライメントモデル構築装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

【0026】

（実施の形態１）
本実施の形態において、２つの言語の単語アライメントモデルを作成する装置であって、大規模データの単語アライメントの確率と小規模データの単語アライメントの確率との両方を用いて、最終的な小規模データの単語アライメントの確率の情報を取得する単語アライメントモデル構築装置について説明する。

【0027】

図１は、本実施の形態における単語アライメントモデル構築装置１のブロック図である。

【0028】

単語アライメントモデル構築装置１は、格納部１１、確率情報算出部１２、および対応確率情報蓄積部１３を備える。

【0029】

格納部１１は、小規模対訳データ格納部１１１、小規模単語アライメントモデル格納部１１２、大規模単語アライメントモデル格納部１１３、および対訳文単語位置確率情報格納部１１４を備える。

【0030】

確率情報算出部１２は、前回第一対応確率情報取得手段１２１、第二対応確率情報取得手段１２２、対訳文単語位置情報取得手段１２３、対訳文単語位置確率情報取得手段１２４、中間確率値算出手段１２５、正規化前第一対応確率情報取得手段１２６、正規化手段１２７、および制御手段１２８を備える。

【0031】

格納部１１は、各種の情報を格納し得る。各種の情報とは、例えば、後述する小規模対訳データ、小規模単語アライメントモデル、大規模単語アライメントモデル、対訳文単語位置確率等である。

【0032】

小規模対訳データ格納部１１１は、小規模対訳データを格納し得る。小規模対訳データは、１以上の対訳文を有する。対訳文は、第一言語文と第二言語文との対である。第一言語文は、第一の言語である第一言語の文である。第二言語文は、第二の言語である第二言語の文である。第二言語文は、第一言語文を第二言語に翻訳した結果である。小規模対訳データは、少ない数の対訳文を有する。小規模対訳データは、通常、第一の閾値（Ｎ１）未満の数の対訳文を有する。小規模対訳データは、例えば、１０〜１０万程度の数の対訳文を有する。

【0033】

また、第一言語と第二言語とは異なる言語であれば、どの言語でも良い。第一言語、第二言語は、例えば、英語、日本語、中国語、フランス語、ドイツ語、スペイン語、韓国語等である。

【0034】

小規模単語アライメントモデル格納部１１２は、小規模単語アライメントモデルを格納し得る。小規模単語アライメントモデルは、小規模対訳データを用いて取得される単語のアライメントモデルである。小規模単語アライメントモデルは、複数の単語アライメントデータを有する。単語アライメントデータは、単語対と、第一対応確率情報とを有する。単語対は、第一言語の単語である第一単語と第二言語の単語である第二単語とを有する。第一対応確率情報は、第一単語と第二単語とが対応する確率に関する情報である対応確率情報である。

【0035】

大規模単語アライメントモデル格納部１１３は、大規模単語アライメントモデルを格納している。大規模単語アライメントモデルは、大規模な対訳データである大規模対訳データから取得された単語のアライメントモデルである。単語のアライメントモデルは、第一単語と第二単語とを有する単語対と、第一単語と第二単語とが対応する確率に関する対応確率情報である第二対応確率情報とを有する。大規模対訳データは、通常、第二の閾値（Ｎ２，Ｎ２＞Ｎ１）以上の数の対訳文を有する。通常、Ｎ２は、Ｎ１と比較して、１桁以上大きい（１０倍以上である）。なお、Ｎ１、Ｎ２は自然数である。

【0036】

対訳文単語位置確率情報格納部１１４は、１以上の対訳文単語位置情報ごとに、対訳文単語位置確率情報を格納し得る。対訳文単語位置情報は、１以上の対訳文から取得された情報であり、第一単語位置、第二単語位置、第一文単語数、および第二文単語数を有する。第一単語位置は、第一言語文の中における第一単語の位置を示す情報である。第二単語位置は、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す情報である。第一文単語数は、第一言語文の単語数である。第二文単語数は、第二言語文の単語数である。対訳文単語位置確率情報は、対訳文単語位置情報に合致する確率に関する情報である。通常、対訳文単語位置確率情報は、対訳文単語位置情報に合致する確率である。

【0037】

対訳文単語位置確率情報格納部１１４は、大規模対訳データが有する１以上の対訳文から取得された対訳文単語位置情報と対訳文単語位置確率情報との組を、２以上、格納していることは好適である。

【0038】

対訳文単語位置確率情報格納部１１４に格納されている対訳文単語位置情報と対訳文単語位置確率情報との組は、大規模対訳データを用いて、後述する対訳文単語位置情報取得手段１２３、対訳文単語位置確率情報取得手段１２４が取得した情報であることは好適である。

【0039】

対訳文単語位置確率情報格納部１１４は、大規模対訳データと小規模対訳データとが有する１以上の対訳文から取得された対訳文単語位置情報と対訳文単語位置確率情報との組を、２以上、格納していても良い。

【0040】

対訳文単語位置確率情報格納部１１４に格納されている対訳文単語位置情報と対訳文単語位置確率情報との組は、大規模対訳データと小規模対訳データとを用いて、後述する対訳文単語位置情報取得手段１２３、対訳文単語位置確率情報取得手段１２４が取得した情報であっても良い。

【0041】

確率情報算出部１２は、小規模対訳データに含まれる対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、大規模単語アライメントモデルが有する一の単語対と対になる第二対応確率情報と、対訳文の中における一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、一の単語対と対になる第一対応確率情報を算出する。

【0042】

前回第一対応確率情報取得手段１２１は、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、一の単語対に対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報を取得する。

【0043】

具体的には、例えば、前回第一対応確率情報取得手段１２１は、第一言語（e）のi番目の単語e(i)と第二言語（f）のj番目の単語f(j)とに対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報「θS(e(i)|f(j))」を取得する。かかる第一対応確率情報は、通常、格納部１１に少なくとも一時的に格納されている。

【0044】

第二対応確率情報取得手段１２２は、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、一の単語対に対応する第二対応確率情報を、大規模単語アライメントモデル格納部１１３から取得する。

【0045】

具体的には、例えば、第二対応確率情報取得手段１２２は、第一言語（e）のi番目の単語e(i)と第二言語（f）のj番目の単語f(j)とに対応する第二対応確率情報「θB(e(i)|f(j))」を大規模単語アライメントモデル格納部１１３から取得する。

【0046】

対訳文単語位置情報取得手段１２３は、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する。

【0047】

具体的には、例えば、対訳文単語位置情報取得手段１２３は、一の対訳文の中の一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置(i)、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置(j)、第一言語文の単語数である第一文単語数(m)、および第二言語文の単語数である第二文単語数(n)を、一の対訳文と一の単語対とから取得する。なお、(i) (j)は、通常、文の中の何番目の単語であるかを示す情報である。

【0048】

対訳文単語位置情報取得手段１２３は、大規模対訳データが有する各単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する。

【0049】

対訳文単語位置確率情報取得手段１２４は、対訳文単語位置情報取得手段１２３が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、対訳文単語位置確率情報格納部１１４から取得する。

【0050】

具体的には、例えば、対訳文単語位置確率情報取得手段１２４は、対訳文単語位置情報取得手段１２３が取得した対訳文単語位置情報（i,j,m,n）に対応する対訳文単語位置確率情報「δS（j|i,m,n）」を、対訳文単語位置確率情報格納部１１４から検索する。

【0051】

対訳文単語位置確率情報取得手段１２４は、大規模対訳データが有する各単語対に対して、対訳文単語位置情報取得手段１２３が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、対訳文単語位置確率情報格納部１１４から取得することは好適である。

【0052】

中間確率値算出手段１２５は、前回第一対応確率情報取得手段１２１が取得した第一対応確率情報と、第二対応確率情報取得手段１２２が取得した第二対応確率情報と、対訳文単語位置確率情報取得手段１２４が取得した対訳文単語位置確率情報とを用いて、中間確率値を算出する。

【0053】

具体的には、例えば、中間確率値算出手段１２５は、前回第一対応確率情報取得手段１２１が取得した第一対応確率情報と第二対応確率情報取得手段１２２が取得した第二対応確率情報とを予め決められた割合で加算し、加算した結果と、対訳文単語位置確率情報取得手段１２４が取得した対訳文単語位置確率情報とを乗算し、中間確率値を算出する。

【0054】

【0055】

正規化前第一対応確率情報取得手段１２６は、単語対ごとに、中間確率値算出手段１２５が算出した中間確率値を用いて、正規化前の第一対応確率情報を取得する。

【0056】

具体的には、例えば、正規化前第一対応確率情報取得手段１２６は、単語対ごとに、中間確率値p(i|j)を用いて、演算式「C(e(i)|f(j))+= p(i|j)/sum」により、正規化前の第一対応確率情報「C(e(i)|f(j))」を算出する。なお、「sum」は、単語対に対応する中間確率値を累積加算した情報である。

【0057】

正規化手段１２７は、単語対ごとに、正規化前第一対応確率情報取得手段１２６が取得した正規化前の第一対応確率情報「C(e(i)|f(j))」に対して、正規化の処理を行い、第一対応確率情報を取得する。

【0058】

具体的には、例えば、正規化手段１２７は、単語対ごとに、正規化前の第一対応確率情報「C(e(i)|f(j))」を平均場近似で正規化して、第一対応確率情報「θS(e(i)|f(j))」を取得する。なお、平均場近似は公知技術であるので、詳細な説明は省略する。

【0059】

また、例えば、正規化手段１２７は、以下の数式１により、正規化前の第一対応確率情報「C(e(i)|f(j))」を正規化し、第一対応確率情報「θS(e(i)|f(j))」を取得しても良い。

【0060】

【数1】

【0061】

なお、数式１において、ｋは任意の単語の添え字である。すなわち、数式１の分母は、全ての単語対についての和をとることを示している。

【0062】

制御手段１２８は、終了条件を満たすまで、前回第一対応確率情報取得手段１２１、第二対応確率情報取得手段１２２、対訳文単語位置情報取得手段１２３、対訳文単語位置確率情報取得手段１２４、中間確率値算出手段１２５、正規化前第一対応確率情報取得手段１２６、および正規化手段１２７の処理を繰り返して行わせる。つまり、制御手段１２８は、終了条件を満たすまで、前回第一対応確率情報取得手段１２１、第二対応確率情報取得手段１２２、対訳文単語位置情報取得手段１２３、対訳文単語位置確率情報取得手段１２４、中間確率値算出手段１２５、正規化前第一対応確率情報取得手段１２６、および正規化手段１２７の処理をループさせる制御を行う。ここで、終了条件とは、例えば、予め決められたループ回数になったことである。また、予め決められたループ回数は、例えば、４回から６回のいずれかである。

【0063】

対応確率情報蓄積部１３は、単語対ごとに、確率情報算出部１２が最終的に算出した第一対応確率情報を、単語対に対応付けて、小規模単語アライメントモデル格納部１１２に蓄積する。なお、確率情報算出部１２が最終的に算出した第一対応確率情報とは、制御手段１２８が終了条件を満たすとして、ループの処理を終了した場合の、最終的な第一対応確率情報である。

【0064】

格納部１１を構成している小規模対訳データ格納部１１１、小規模単語アライメントモデル格納部１１２、大規模単語アライメントモデル格納部１１３、および対訳文単語位置確率情報格納部１１４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

【0065】

格納部１１に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部１１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１で記憶されるようになってもよい。

【0066】

確率情報算出部１２を構成している前回第一対応確率情報取得手段１２１、第二対応確率情報取得手段１２２、対訳文単語位置情報取得手段１２３、対訳文単語位置確率情報取得手段１２４、中間確率値算出手段１２５、正規化前第一対応確率情報取得手段１２６、正規化手段１２７、制御手段１２８、および対応確率情報蓄積部１３は、通常、ＭＰＵやメモリ等から実現され得る。確率情報算出部１２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0067】

次に、単語アライメントモデル構築装置１の動作について、図２のフローチャートを用いて説明する。なお、図２のフローチャートは、２以上の全単語対についての処理である。つまり、図２のフローチャートにおける、E-Stepが全単語対について処理され、次に、M-Stepが全単語対について処理される。

【0068】

（ステップＳ２０１）確率情報算出部１２は、初期化処理を行う。初期化処理は、例えば、各種の変数に初期値を代入する処理である。初期化処理は、例えば、正規化前の第一対応確率情報「C(e(i)|f(j))」に「０」を代入する処理である。また、初期化処理は、例えば、第一対応確率情報「θS(e(i)|f(j))」に「０」を代入する処理である。

【0069】

（ステップＳ２０２）確率情報算出部１２は、Ｅ−ｓｔｅｐを行い、正規化前の第一対応確率情報「C(e(i)|f(j))」を取得する。そして、確率情報算出部１２は、各単語対に対応付けて、正規化前の第一対応確率情報「C(e(i)|f(j))」を図示しないバッファまたは格納部１１に一時蓄積する。Ｅ−ｓｔｅｐの詳細について、図３のフローチャートを用いて後述する。

【0070】

（ステップＳ２０３）正規化手段１２７は、Ｍ−ｓｔｅｐを行い、第一対応確率情報「θS(e(i)|f(j))」を取得する。そして、確率情報算出部１２は、各単語対に対応付けて、第一対応確率情報「θS(e(i)|f(j))」を図示しないバッファまたは格納部１１に一時蓄積する。

【0071】

なお、Ｍ−ｓｔｅｐとは、正規化前の第一対応確率情報「C(e(i)|f(j))」を正規化する処理である。正規化手段１２７は、例えば、上述した平均場近似を用いて、正規化前の第一対応確率情報「C(e(i)|f(j))」を正規化し、第一対応確率情報「θS(e(i)|f(j))」を取得する。

【0072】

（ステップＳ２０４）確率情報算出部１２は、終了条件に合致するか否かを判断する。終了条件に合致する場合は処理を終了し、終了条件に合致しない場合はステップＳ２０２に戻る。なお、終了条件とは、上述したように、例えば、予め決められたループ回数になったこと等である。

【0073】

次に、ステップＳ２０２のＥ−ｓｔｅｐの詳細について、図３のフローチャートを用いて説明する。

【0074】

（ステップＳ３０１）制御手段１２８は、カウンタｓに１を代入する。

【0075】

（ステップＳ３０２）制御手段１２８は、小規模対訳データ格納部１１１に、ｓ番目の対訳文が存在するか否かを判断する。ｓ番目の対訳文が存在する場合はステップＳ３０３に行き、ｓ番目の対訳文が存在しない場合は上位処理にリターンする。

【0076】

（ステップＳ３０３）制御手段１２８は、カウンタｉに１を代入する。

【0077】

（ステップＳ３０４）制御手段１２８は、変数sumに０を代入する。

【0078】

（ステップＳ３０５）制御手段１２８は、カウンタｊに０を代入する。

【0079】

（ステップＳ３０６）確率情報算出部１２は、中間確率値「p(i|j)」を算出する。中間確率値「p(i|j)」を算出する処理の詳細について、図４のフローチャートを用いて後述する。

【0080】

（ステップＳ３０７）制御手段１２８は、変数sumに中間確率値「p(i|j)」を加算する。

【0081】

（ステップＳ３０８）制御手段１２８は、ｊがｎと一致するか否かを判断する。ｊがｎと一致する場合はステップＳ３０９に行き、ｊがｎと一致しない場合はステップＳ３１６に行く。

【0082】

（ステップＳ３０９）制御手段１２８は、カウンタｊに０を代入する。

【0083】

（ステップＳ３１０）正規化前第一対応確率情報取得手段１２６は、現在の正規化前第一対応確率情報に、中間確率値をsumで除算した値を加算し、新しい正規化前第一対応確率情報を取得し、バッファまたは格納部１１に蓄積する。つまり、正規化前第一対応確率情報取得手段１２６は、演算式「C(e(i)|f(j))← C(e(i)|f(j))+ p(i|j)/sum」により、新しい正規化前の第一対応確率情報「C(e(i)|f(j))」を算出し、バッファまたは格納部１１に蓄積する。

【0084】

（ステップＳ３１１）制御手段１２８は、ｊがｎと一致するか否かを判断する。ｊがｎと一致する場合はステップＳ３１２に行き、ｊがｎと一致しない場合はステップＳ３１５に行く。

【0085】

（ステップＳ３１２）制御手段１２８は、ｉがｍと一致するか否かを判断する。ｉがｍと一致する場合はステップＳ３１３に行き、ｉがｍと一致しない場合はステップＳ３１４に行く。

【0086】

（ステップＳ３１３）制御手段１２８は、カウンタｓを１、インクリメントし、ステップＳ３０２に戻る。

【0087】

（ステップＳ３１４）制御手段１２８は、カウンタｉを１、インクリメントし、ステップＳ３０４に戻る。

【0088】

（ステップＳ３１５）制御手段１２８は、カウンタｊを１、インクリメントし、ステップＳ３１０に戻る。

【0089】

（ステップＳ３１６）制御手段１２８は、カウンタｊを１、インクリメントし、ステップＳ３０６に戻る。

【0090】

次に、ステップＳ３０６の中間確率値「p(i|j)」を算出する処理の詳細について、図４のフローチャートを用いて説明する。

【0091】

（ステップＳ４０１）前回第一対応確率情報取得手段１２１は、ｓ番目の対訳文における、第一言語（e）のi番目の単語e(i)と第二言語（f）のj番目の単語f(j)とに対応する初期値の第一対応確率情報「θS(e(i)|f(j))」または前回のループにおいて算出した第一対応確率情報「θS(e(i)|f(j))」を取得する。

【0092】

（ステップＳ４０２）第二対応確率情報取得手段１２２は、ｓ番目の対訳文における、第一言語（e）のi番目の単語e(i)と第二言語（f）のj番目の単語f(j)とに対応する第二対応確率情報「θB(e(i)|f(j))」を、大規模単語アライメントモデル格納部１１３から取得する。

【0093】

（ステップＳ４０３）対訳文単語位置情報取得手段１２３は、ｓ番目の対訳文における、第一言語（e）のi番目の単語e(i)と第二言語（f）のj番目の単語f(j)の対訳文単語位置情報（i,j,m,n）を取得する。

【0094】

（ステップＳ４０４）対訳文単語位置確率情報取得手段１２４は、対訳文単語位置情報取得手段１２３が取得した対訳文単語位置情報（i,j,m,n）に対応する対訳文単語位置確率情報「δS（j|i,m,n）」を、対訳文単語位置確率情報格納部１１４から取得する。

【0095】

（ステップＳ４０５）中間確率値算出手段１２５は、前回第一対応確率情報取得手段１２１が取得した第一対応確率情報「θS(e(i)|f(j))」と、第二対応確率情報取得手段１２２が取得した第二対応確率情報「θB(e(i)|f(j))」と、対訳文単語位置確率情報取得手段１２４が取得した対訳文単語位置確率情報「δS（j|i,m,n）」とを用いて、中間確率値を算出し、上位処理にリターンする。

【0096】

以下、本実施の形態における単語アライメントモデル構築装置１の具体的な動作について説明する。

【0097】

単語アライメントモデル構築装置１は、例えば、図５に示すプログラムのように動作する。また、ここで述べる具体例は、非特許文献５で述べられた方法を拡張したものである。

【0098】

また、単語アライメントモデル構築装置１のポイントは、図５の５０１である。５０１は、確率情報算出部１２の処理である。

【0099】

５０１は、小規模対訳データが有する対訳文ごとに、かつ対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、大規模単語アライメントモデルが有する一の単語対と対になる第二対応確率情報と、対訳文の中における一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、一の単語対と対になる第一対応確率情報を算出する処理である。

【0100】

さらに具体的には、５０１は、中間確率値算出手段１２５が行う処理であり、前回第一対応確率情報取得手段１２１が取得した第一対応確率情報と第二対応確率情報取得手段１２２が取得した第二対応確率情報とを予め決められた割合で加算し、加算した結果と、対訳文単語位置確率情報取得手段１２４が取得した対訳文単語位置確率情報とを乗算し、中間確率値を算出する処理である。
すなわち、単語アライメントモデル構築装置１においては、大規模データDataBから求めた確率θB(e(i)|f(j))を利用して、p(i|j)を求めることにより、大規模データの確率を「θS(e(i)|f(j))」の推定に利用している。

【0101】

以上、本実施の形態によれば、小規模対訳コーパスの単語アライメントを精度よく実行できる。

【0102】

さらに具体的には、本実施の形態によれば、従来技術（え）と同様に、θSを推定するときの計算量は、DataSを利用するときと同程度でありながら、DataBで推定された確率を利用可能である。また、本実施の形態によれば、従来技術（え）とは異なり、上記定数λ「０＜λ＜１」（図５の５０１）を適切に設定することにより、小規模データDataSにおける特徴的な単語アライメントが打ち消されることを防ぐことが可能となる。

【0103】

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における単語アライメントモデル構築装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、第一の言語である第一言語の文である第一言語文と第二の言語である第二言語の文である第二言語文との対であり、第一の閾値（Ｎ１）未満の数の対訳文を有する小規模な対訳データである小規模対訳データを格納し得る小規模対訳データ格納部と、前記小規模対訳データから取得される単語のアライメントモデルであり、第一言語の単語である第一単語と第二言語の単語である第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第一対応確率情報とを有する複数の単語アライメントデータを有する小規模単語アライメントモデルを格納し得る小規模単語アライメントモデル格納部と、第二の閾値（Ｎ２，Ｎ２＞Ｎ１）以上の数の対訳文を有する大規模な対訳データである大規模対訳データから取得された単語のアライメントモデルであり、第一単語と第二単語とを有する単語対と、前記第一単語と前記第二単語とが対応する確率に関する対応確率情報である第二対応確率情報とを有する複数の単語アライメントデータを有する大規模単語アライメントモデルを格納している大規模単語アライメントモデル格納部と、１以上の対訳文から取得された情報であり、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報ごとに、対訳文単語位置情報に合致する確率に関する対訳文単語位置確率情報を格納し得る対訳文単語位置確率情報格納部とを具備し、コンピュータを、前記小規模対訳データに含まれる対訳文が有する単語対ごとに、一の単語対に対して、初期値または前回のループにおいて算出した第一対応確率情報と、前記大規模単語アライメントモデルが有する前記一の単語対と対になる第二対応確率情報と、前記対訳文の中における前記一の単語対に対応する対訳文単語位置確率情報とを用いて、２回以上ループを繰り返して、前記一の単語対と対になる第一対応確率情報を算出する確率情報算出部と、単語対ごとに、前記確率情報算出部が最終的に算出した第一対応確率情報を、前記単語対に対応付けて、前記小規模単語アライメントモデル格納部に蓄積する対応確率情報蓄積部として機能させるためのプログラムである。

【0104】

また、上記プログラムにおいて、前記確率情報算出部は、前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する初期値の第一対応確率情報または前回のループにおいて算出した第一対応確率情報を取得する前回第一対応確率情報取得手段と、前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、当該一の単語対に対応する第二対応確率情報を、前記大規模単語アライメントモデル格納部から取得する第二対応確率情報取得手段と、前記小規模対訳データが有する対訳文ごとに、かつ当該対訳文が有する単語対ごとに、一の単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得手段と、前記対訳文単語位置情報取得手段が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、前記対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得手段と、前記前回第一対応確率情報取得手段が取得した第一対応確率情報と前記第二第一対応確率情報取得手段が取得した第二対応確率情報とを予め決められた割合で加算し、当該加算した結果と、前記対訳文単語位置確率情報取得手段が取得した対訳文単語位置確率情報とを乗算し、中間確率値を算出する中間確率値算出手段と、単語対ごとに、前記中間確率値算出手段が算出した中間確率値を用いて、正規化前の第一対応確率情報を取得する正規化前第一対応確率情報取得手段と、単語対ごとに、前記正規化前第一対応確率情報取得手段が取得した正規化前の第一対応確率情報に対して、正規化の処理を行い、第一対応確率情報を取得する正規化手段と、終了条件を満たすまで、前記前回第一対応確率情報取得手段、前記第二対応確率情報取得手段、前記対訳文単語位置情報取得手段、前記対訳文単語位置確率情報取得手段、前記中間確率値算出手段、前記正規化前第一対応確率情報取得手段、および前記正規化手段の処理を繰り返して行わせる制御手段とを具備するものとして、コンピュータを機能させるプログラムであることは好適である。

【0105】

また、上記プログラムにおいて、前記対訳文単語位置確率情報格納部に格納されている対訳文単語位置確率情報は、前記大規模対訳データを用いて取得された対訳文単語位置確率情報であるものとして、コンピュータを機能させるプログラムであることは好適である。

【0106】

また、上記プログラムにおいて、コンピュータを、前記大規模対訳データが有する各単語対に対して、第一言語文の中における第一単語の位置を示す第一単語位置、当該第一単語に対応する第二単語の位置であり第二言語文の中における位置を示す第二単語位置、第一言語文の単語数である第一文単語数、および第二言語文の単語数である第二文単語数を有する対訳文単語位置情報を取得する対訳文単語位置情報取得手段と、前記大規模対訳データが有する各単語対に対して、前記対訳文単語位置情報取得手段が取得した対訳文単語位置情報に対応する対訳文単語位置確率情報を、前記対訳文単語位置確率情報格納部から取得する対訳文単語位置確率情報取得手段としてさらに機能させ、前記対訳文単語位置確率情報格納部に格納されている対訳文単語位置確率情報は、前記対訳文単語位置確率情報取得手段が取得した対訳文単語位置確率情報であるものとして、コンピュータを機能させるプログラムであることは好適である。

【0107】

（実施の形態２）
本実施の形態において、実施の形態１で構成された単語アライメントモデルを用いた機械翻訳装置について説明する。

【0108】

図６は、本実施の形態における機械翻訳装置２のブロック図である。機械翻訳装置２は、例えば、第二言語文を翻訳し、第一言語文を得る装置である。

【0109】

機械翻訳装置２は、小規模単語アライメントモデル格納部１１２、対訳文単語位置確率情報格納部１１４、受付部２１、および翻訳部２２を備える。

【0110】

受付部２１は、第二言語文を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、音声のマイクによる受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

【0111】

第二言語文の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部２１は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

【0112】

翻訳部２２は、小規模単語アライメントモデル格納部１１２に格納されている小規模単語アライメントモデル、および対訳文単語位置確率情報格納部１１４に格納されている１以上の対訳文単語位置情報ごとの対訳文単語位置確率情報を用いて、受付部２１が受け付けた第二言語文から第一言語文を取得する。なお、翻訳部２２は公知技術であるので詳細な説明は省略する。

【0113】

翻訳部２２は、通常、ＭＰＵやメモリ等から実現され得る。翻訳部２２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

【0114】

以下、本実施の形態における機械翻訳装置２の具体的な動作について説明する。

【0115】

対訳データDataXについて、その中の対訳文を<e,f>とし、e = e(1) e(2) … e(m), f= f(1) f(2) … f(n)のように、m単語とn単語からなるとする。ここで、eは第一言語文、fは第二言語文である、とする。また、e(i)はeのi番目の単語であり、f(j)はfのj番目の単語である。なお、特別な単語NULLとして f(0)を導入する。これは、e中の単語がf中の単語のいずれにも対応しない場合に有用である。

【0116】

次に、DataXにおけるfを条件とするeの確率を「PX(e|f)」とする。

【0117】

また、DataXにおいて、eの単語数が m、ｆの単語数がnのときに、文eのi番目にある単語が、文fのｊ番目の単語とアライメントされる確率を「δX（j|i,m,n）」とする。

【0118】

また、DataXにおいて、e(i)がf(j)にアライメントされる確率を「θX(e(i)|f(j))」とする。

【0119】

このとき、以下の数式２が成り立つ。

【0120】

【数2】

【0121】

また、これらの確率、δX、θXは、データXから上記非特許文献５の手法を利用して推定可能である。なお、PXについては、δXとθXから一意的に計算可能である。

【0122】

ここで、まず、δSの推定法を述べる。それは次のものである。

【0123】

【数3】

【0124】

すなわち、δSとしてはδBと同じ確率を用いる。その理由は、この確率の推定方法として上記非特許文献５で述べられている方法を、１００文程度の対訳データに対して適用すると、この確率分布のパラメータが発散してしまい、有効な確率を推定不可能だからである。また、この確率は、単に、i, j, m, nという単語の数のみから決定可能なものであるので、対訳データが異なったとしても、同じ確率が精度よく利用できるからである。

【0125】

次に、θSの推定方法は、図５のプログラムである。これは、上記非特許文献５と同様にEM法に基づくものである。

【0126】

そして、PS(e|f)が、「δS（j|i,m,n）」「「θS(e(i)|f(j))」より算出される。

【0127】

そして、PS(e|f)の確率値が最も大きい第一言語文ｅが第二言語文ｆの翻訳結果である。

【0128】

以上、本実施の形態によれば、小規模対訳コーパスの単語アライメントを精度よく実行できる結果、精度の良い翻訳結果が得られる。

【0129】

さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムにおいて、コンピュータがアクセス可能な記録媒体は、単語アライメントモデル構築装置が有する小規模単語アライメントモデル格納部と、単語アライメントモデル構築装置が有する対訳文単語位置確率情報格納部とを具備し、コンピュータを、第二言語文を受け付ける受付部と、前記小規模単語アライメントモデル格納部に格納されている小規模単語アライメントモデル、および前記対訳文単語位置確率情報格納部に格納されている１以上の対訳文単語位置情報ごとの対訳文単語位置確率情報を用いて、前記受付部が受け付けた第二言語文から第一言語文を取得する翻訳部として機能させるプログラムである。

【0130】

また、図７は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の単語アライメントモデル構築装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図７は、このコンピュータシステム３００の概観図であり、図８は、システム３００のブロック図である。

【0131】

図７において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブ３０１２を含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

【0132】

図８において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、ＭＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

【0133】

コンピュータシステム３００に、上述した実施の形態の単語アライメントモデル構築装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

【0134】

プログラムは、コンピュータ３０１に、上述した実施の形態の単語アライメントモデル構築装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

【0135】

なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

【0136】

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

【0137】

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。

【0138】

また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

【0139】

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

【産業上の利用可能性】

【0140】

以上のように、本発明にかかる単語アライメントモデル構築装置は、小規模対訳コーパスの単語アライメントを精度よく実行できるという効果を有し、単語アライメントモデル構築装置等として有用である。

【符号の説明】

【0141】

１単語アライメントモデル構築装置
２機械翻訳装置
１１格納部
１２確率情報算出部
１３対応確率情報蓄積部
２１受付部
２２翻訳部
１１１小規模対訳データ格納部
１１２小規模単語アライメントモデル格納部
１１３大規模単語アライメントモデル格納部
１１４対訳文単語位置確率情報格納部
１２１前回第一対応確率情報取得手段
１２２第二対応確率情報取得手段
１２３対訳文単語位置情報取得手段
１２４対訳文単語位置確率情報取得手段
１２５中間確率値算出手段
１２６正規化前第一対応確率情報取得手段
１２７正規化手段
１２８制御手段

【図1】