【文献】
松原 茂樹 外3名,英日話し言葉翻訳のための漸進的文生成手法,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1999年 7月23日,第99巻第228号,p.39-44
【文献】
大橋 一輝,句に基づく統計翻訳における語句の並べ替えパターンの分析,言語処理学会第11回年次大会発表論文集 Proceedings of The Eleventh Annual Meeting of The Association for Natural Language Processing,日本,言語処理学会 The Association for Natural Language Processing,2005年 3月15日,p.863-866
(58)【調査した分野】(Int.Cl.,DB名)
前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語を、前記動詞ブロックの主辞となる単語として同定し、前記動詞ブロック内の前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞ブロック内の前記動詞に対応する単語と連続する単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定する請求項1記載の語順並べ替え装置。
前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、動詞に対応する単語であって、かつ、前記依存構造の主辞となる単語であり、かつ、前記単語を主辞とする単語に受動態を表す品詞を含まない単語を、前記動詞ブロックの主辞となる単語として同定し、動詞を修飾する単語であって、かつ、前記単語の主辞が前記動詞ブロックに含まれており、かつ、前記単語の主辞と連続している単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定する請求項2記載の語順並べ替え装置。
予め用意された、第1特定言語で記述された文又は句と、第1特定言語とは異なる第2特定言語で記述された文又は句との対である対訳データの集合に基づいて、第1特定言語で記述された文又は句を、前記第2特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、
前記対訳データの集合の各対訳データの第1特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析し、単語の各々の主辞となる単語、及び前記単語を修飾する単語を得る学習データ言語解析部と、
各対訳データの第1特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する学習データ動詞ブロック同定部と、
各対訳データの第1特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定する学習データ最右目的語同定部と、
各対訳データの第1特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックに、前記学習データ最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記第1特定言語で記述された文の文末又は句の句末に並べ替える学習データ並べ替え部と、
前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、
前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、
を含む翻訳モデル学習装置。
依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部と、翻訳部とを含み第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置の翻訳方法であって、
前記依存構造解析部は、入力文又は句に含まれる単語の各々について、前記単語の依存構造を解析し、
前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、
前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定し、
前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックに、前記最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替え、
前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第2特定言語で記述された文又は句に翻訳する
翻訳方法。
学習データ言語解析部と、学習データ動詞ブロック同定部と、学習データ最右目的語同定部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部とを含み、予め用意された、第1特定言語で記述された文又は句と、第1特定言語とは異なる第2特定言語で記述された文又は句との対である対訳データの集合に基づいて、第1特定言語で記述された文又は句を、前記第2特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、
前記学習データ言語解析部は、前記対訳データの集合の各対訳データの第1特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析し、
前記学習データ動詞ブロック同定部は、各対訳データの第1特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、
前記学習データ最右目的語同定部は、各対訳データの第1特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、最右目的語として同定し、
前記学習データ並べ替え部は、各対訳データの第1特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックに、前記学習データ最右目的語同定部により同定された最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記第1特定言語で記述された文の文末又は句の句末に並べ替え、
前記翻訳モデル学習部は、前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習し、
前記モデル重み学習部は、前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する
翻訳モデル学習方法。
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来の方法において、構文解析が正しく行われれば妥当な並び替えを可能にする一方で、言語Aと言語Bの構文構造の違いにより句構造木や依存構造木における兄弟ノードの並べ替えだけでは並べ替え可能な範囲に対する制約が強すぎて語順の違いを十分に解消できない可能性が残るという問題がある。
【0008】
例えば、非特許文献1の中国語の事前並べ替え方法においては句構造木を用いている。
図17に示すような句構造を有する中国語の句(
図18参照)に対して、日本語の対訳である「違法行為を厳しく処罰する」に合うように並べ替え(
図19参照)を行うためには、
図20に示す副詞を
図21に示す動詞の直前に移動させなければならない。しかし、
図17の句構造木の制約の下では名詞句(
図2参照)と動詞句(
図21参照)の並べ替えは可能である一方、副詞(
図20参照)をその両者の間に割り込ませるような並べ替えを兄弟ノードの順序の入れ替えで表現することはできない。
【0009】
本発明では、上記問題点を解決するために成されたものであり、入力文の語順を精度よく並べ替えることできる語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、第1の発明に係る語順並べ替え装置は、入力文又は句に含まれる単語について、前記単語間の依存構造を解析する依存構造解析部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する動詞ブロック同定部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定する最右目的語同定部と、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替える並べ替え部と、を含んで構成されている。
【0011】
第2の発明に係る語順並べ替え方法は、依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部とを含む語順並べ替え装置の語順並べ替え方法であって、
前記依存構造解析部は、入力文又は句に含まれる単語について、前記単語間の依存構造を解析し、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替える。
【0012】
第1の発明及び第2の発明によれば、依存構造解析部により入力文又は句に含まれる単語について、単語間の依存構造を解析し、動詞ブロック同定部により、依存構造の解析結果に基づいて、依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、動詞に対応する単語を修飾する単語であって、かつ、動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、最右目的語同定部により、依存構造の解析結果に基づいて、動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、並べ替え部により、動詞ブロックと最右目的語の語順を並べ替える。
【0013】
このように、第1の発明及び第2の発明によれば、入力文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文又は句の語順を精度良く並べ替えを行うことができる。
【0014】
また、第1の発明において、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語を、前記動詞ブロックの主辞となる単語として同定し、前記動詞ブロック内の単語を修飾する単語であって、かつ、前記動詞ブロック内の単語と連続する単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定してもよい。
【0015】
また、第1の発明において、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、動詞に対応する単語であって、かつ、前記依存構造の主辞となる単語であり、かつ、前記単語を主辞とする単語に受動態を表す品詞を含まない単語を、前記動詞ブロックの主辞となる単語として同定し、前記動詞を修飾する単語であって、かつ、前記単語の主辞が前記動詞ブロックに含まれており、かつ、前記単語の主辞と連続している単語を、前記動詞ブロックを構成する単語として同定し、前記動詞ブロックの主辞となる単語と前記動詞ブロックを構成する単語とを含む前記動詞ブロックを同定してもよい。
【0016】
また、第1の発明において、前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、目的語に対応する単語であって、前記単語の主辞が前記動詞ブロックに含まれている単語のうち、最も後方にある単語を、前記最右目的語として同定してもよい。
【0017】
また、第1の発明において、前記並べ替え部は、前記動詞ブロックに前記最右目的語が存在する場合には前記動詞ブロックを前記最右目的語の後方に並べ替え、前記動詞ブロックに前記最右目的語が存在しない場合には前記動詞ブロックを前記入力文の文末又は句の句末に並べ替えてもよい。
【0018】
第3の発明に係る翻訳装置は、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置において、入力文又は句に含まれる単語について、前記単語間の依存構造を解析する依存構造解析部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する動詞ブロック同定部と、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定する最右目的語同定部と、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替える並べ替え部と、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第2特定言語で記述された文又は句に翻訳する翻訳部と、を含んで構成されている。
【0019】
第4の発明に係る翻訳方法は、依存構造解析部と、動詞ブロック同定部と、最右目的語同定部と、並べ替え部と、翻訳部とを含み第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置の翻訳方法であって、前記依存構造解析部は、入力文又は句に含まれる単語の各々について、前記単語の依存構造を解析し、前記動詞ブロック同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、前記最右目的語同定部は、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、前記並べ替え部は、予め定められた並べ替え規則に従って、前記動詞ブロック同定部により同定された動詞ブロックと前記最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記入力文又は句の語順を並べ替え、前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により単語の順序を並べ替えられた前記入力文又は句を、前記第2特定言語で記述された文又は句に翻訳する。
【0020】
第3の発明及び第4の発明によれば、入力文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文又は句の語順を精度良く並べ替え、入力文又は句を特定言語で記述された文又は句に翻訳することにより、入力文又は句を精度良く翻訳を行うことができる。
【0021】
第5の発明に係る翻訳モデル学習装置は、予め用意された、第1特定言語で記述された文又は句と、第1特定言語とは異なる第2特定言語で記述された文又は句との対である対訳データの集合に基づいて、第1特定言語で記述された文又は句を、前記第2特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、前記対訳データの集合の各対訳データの第1特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析する学習データ言語解析部と、各対訳データの第1特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定する学習データ動詞ブロック同定部と、各対訳データの第1特定言語で記述された文又は句について、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記学習動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定する学習データ最右目的語同定部と、各対訳データの第1特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックと、前記学習データ最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記文又は句の語順を並べ替える学習データ並べ替え部と、前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、を含んで構成されている。
【0022】
第6の発明に係る翻訳モデル学習方法は、学習データ言語解析部と、学習データ動詞ブロック同定部と、学習データ最右目的語同定部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部とを含み、予め用意された、第1特定言語で記述された文又は句と、第1特定言語とは異なる第2特定言語で記述された文又は句との対である対訳データの集合に基づいて、第1特定言語で記述された文又は句を、前記第2特定言語で記述された文又は句に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、前記学習データ言語解析部は、前記対訳データの集合の各対訳データの第1特定言語で記述された文又は句について、前記文又は句に含まれる単語間の依存構造を解析し、前記学習データ動詞ブロック同定部は、各対訳データの第1特定言語で記述された文又は句について、前記学習データ言語解析部による前記依存構造の解析結果に基づいて、前記依存構造の主辞となる単語であって、かつ、動詞に対応する単語と、前記動詞に対応する単語を修飾する単語であって、かつ、前記動詞に対応する単語と連続する単語とを含む動詞ブロックを同定し、前記学習データ最右目的語同定部は、各対訳データの第1特定言語で記述された文又は句について、前記依存構造解析部による前記依存構造の解析結果に基づいて、前記学習動詞ブロック同定部により同定された動詞ブロックの目的語であり、かつ最も後方にある単語を最右目的語として同定し、前記学習データ並べ替え部は、各対訳データの第1特定言語で記述された文又は句について、予め定められた並べ替え規則に従って、前記学習データ動詞ブロック同定部により同定された動詞ブロックと、前記学習データ最右目的語同定部により同定された最右目的語との順序を並べ替えることにより、前記文又は句の語順を並べ替え、前記翻訳モデル学習部は、前記学習データ並べ替え部により語順を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句とに基づいて、前記複数種類の翻訳モデルを学習し、前記モデル重み学習部は、前記学習データ並べ替え部により単語の順序を並べ替えられた各対訳データの第1特定言語で記述された文又は句と、各対訳データの前記第2特定言語で記述された文又は句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する。
【0023】
第5の発明及び第6の発明によれば、第1特定言語で記述された文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替え、語順を並べ替えた第1特定言語で記述された文又は句と、対応する対訳データに含まれる第2特定言語で記述された文又は句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することができる。
【0024】
また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置、翻訳装置、又は翻訳モデル学習装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0025】
以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、入力文の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことができる。
【0026】
また、本発明の翻訳装置、方法、及びプログラムによれば、入力文の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、入力文の語順を精度良く並べ替え、語順を並び替えられた入力文を特定言語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことができる。
【0027】
また、本発明の翻訳モデル学習装置、方法、及びプログラムによれば、第1特定言語で記述された文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替え、語順を並べ替えた第1特定言語で記述された文又は句と、対応する対訳データに含まれる第2特定言語で記述された文又は句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することができる。
【発明を実施するための形態】
【0029】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0030】
<発明の概要>
本発明の実施の形態では、原言語側(本実施の形態においては原言語を中国語とし、目的言語を日本語とする。)の単語を、その単語の品詞及び依存構造情報を利用して並べ替えを行う。また、本発明の実施の形態においては、原言語の並べ替えは(1)動詞ブロックの同定、(2)各動詞ブロックに対応する目的語のうち最も後方にあるもの(以後、最右目的語とする。)の同定、及び(3)動詞ブロックを最右目的語の後方に移動の3つの処理によって実現される。
【0031】
上記(1)〜(3)の処理は、上述する非特許文献1の方法における並べ替えの例のように、単一の動詞のみを目的語の後方に移動するのではなく、複合動詞における複数の動詞や、動詞を修飾する副詞等の単語等をまとまった「動詞ブロック」として捉えている。これにより、副詞を含む動詞ブロックごと、目的語の後方に移動することが出来るようになるため、上述の非特許文献1の方法の例におけるブロック(
図1参照)をまとめて目的語(
図2参照)の後方に移動するという並べ替え表現が出来るようになる。
【0032】
動詞ブロックの同定は、「動詞ブロック中で主辞となる動詞の同定」と、「主辞に付随して動詞ブロックを構成する単語の同定」によってなされる。動詞や動詞ブロックを構成する単語の同定は、品詞及び依存構造の情報に基づいて行う。最右目的語の同定は、動詞ブロック内の単語を主辞とする単語のうち、別に定められるいくつかの品詞に属し、かつ最も後方にあるものを選択することによって行う。
【0033】
なお、動詞ブロックの同定は、まず文の主辞となっている動詞(主動詞)を含む動詞ブロックを同定し、次に、その動詞ブロック内の単語を主辞とする動詞を含む動詞ブロックを同定する。このように依存構造の根(root)に近い順に行うことで、重なりあわないような動詞ブロックを効率的に同定することが可能となる。
【0034】
<翻訳装置の構成>
本発明の実施の形態に係る翻訳装置について説明する。
図3に示すように、本発明の実施の形態に係る翻訳装置100は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置100は、機能的には
図3に示すように入力部10と、演算部20と、出力部70とを備えている。
【0035】
入力部10は、キーボードなどの入力装置から中国語の入力文を受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
【0036】
演算部20は、言語解析部30と、動詞ブロック同定部40と、最右目的語同定部42と、並べ替え部44と、翻訳部46と、モデル記憶部48と、を備えている。
【0037】
言語解析部30は、形態素解析部32と、依存構造解析部34とを備えている。言語解析部30は、入力部10において受け付けた中国語で記述された入力文に対して形態素解析及び依存構造解析を行う。
【0038】
形態素解析部32は、入力部10において受け付けた中国語で記述された入力文に対して、公知の形態素解析器を用いて、形態素解析(単語区切りと品詞の同定)を行う。なお、本実施の形態では形態素解析処理に公知のフリーソフトウェア(Stanford Chinese Segmenter)を用いる。
【0039】
依存構造解析部34は、形態素解析部32において形態素解析された中国語で記述された文に対して、単語間の依存構造の解析を行い、依存構造解析結果に基づいて、単語の各々の主辞となる単語及び当該単語を修飾する単語が得られる。本実施の形態においては、中国語の単語単位での依存構造を利用するため、公知の依存構造解析器を用いて、依存構造解析を行う。なお、本実施の形態では依存構造解析処理に公知のフリーソフトウェア(Corbit)を用いる。
【0040】
動詞ブロック同定部40は、言語解析部30において言語解析された入力文に対し、動詞ブロックを同定する。具体的には、まず、(a)品詞が動詞若しくは動詞と等価な役割を果たす品詞である単語(具体的には、Penn Chinese Treebankにおける品詞VV,VE,VC,VA,Pの5種類)であり、(b)依存構造における主辞となる単語であり、かつ(c)当該単語を主辞とする語(修飾語)に、受動態を表す品詞(具体的には、Penn Chinese Treebankにおける品詞LB,SB)を含まない単語を動詞ブロックの中心(主辞)となる単語として同定し、当該主辞となる単語を動詞ブロックに含める。なお、品詞が動詞若しくは動詞と等価な役割を果たす品詞である単語が、動詞に対応する単語の一例である。
【0041】
そして、(d)品詞が動詞を修飾する役割を持つ品詞である単語(具体的には、Penn Chinese Treebankにおける品詞AD,AS,SP,MSP,CC,VV,VE,VC,VA)であり、(e)当該単語の主辞となる単語が既に当該動詞ブロックに含まれている単語であり、(f)当該単語の主辞となる単語が当該単語の直前若しくは直後にあるか、又は当該単語の主辞となる単語との間に並列詞である単語のみが含まれている単語を、主辞となる単語を修飾して動詞ブロックを構成する単語として同定し、当該単語を動詞ブロックに追加する。なお、上記(d)〜(f)の要件を満たす当該動詞ブロックに追加することのできる単語が存在しなくなるまで、入力文から、当該動詞ブロックに追加する単語を同定し、当該動詞ブロックに追加する処理を繰り返す。なお、「(f)当該単語の主辞となる単語が当該単語の直前若しくは直後にあるか、又は当該単語の主辞となる単語との間に並列詞である単語のみが含まれている単語」が、単語の主辞と連続する単語の一例である。当該単語の主辞となる単語との間に並列詞である単語のみが含まれている単語が、動詞ブロックに含まれる場合には、当該並列詞も、動詞ブロックに含まれる。
【0042】
動詞ブロック同定部40は、上記のように、同定した動詞ブロックの主辞となる単語と、同定した主辞となる単語を修飾して動詞ブロックを構成する単語の各々とを含む少なくとも1つ以上の連続する単語を1単位の動詞ブロックとして同定する。なお、動詞ブロックの同定は、まず、入力文の主辞となっている動詞(主動詞)となる単語を含む動詞ブロックを同定し、その後に、当該入力文に対して、依存構造の根(root)に近い順で重なり合わないように動詞ブロックの同定を繰り返す。
【0043】
最右目的語同定部42は、動詞ブロック同定部40において同定された動詞ブロックの各々について、最右目的語を同定する。具体的には、(g)品詞が目的語として働く品詞である単語(具体的には、Penn Chinese Treebankにおける品詞NN,NR,NT,PN,OD,CD,M,FW,CC,ETC,LC,DEV,DT,JJ,SP,IJ,ON)であり、(h)当該単語の主辞となる単語が対象となる動詞ブロックに含まれている単語であり、かつ(i)対象となる動詞ブロックの目的語として最も後方にある単語を、対象となる動詞ブロックの最右目的語として同定する。なお、品詞が目的語として働く品詞である単語が目的語に対応する単語の一例である。
【0044】
並べ替え部44は、言語解析部30で得られた中国語で記述された文について、動詞ブロック同定部40において同定された動詞ブロックの各々と、最右目的語同定部42において動詞ブロックの各々について同定された最右目的語とを利用して、日本語で記述された文の語順に相似するように動詞ブロックの各々及び単語の各々を並べ替える。具体的には、以下の(j)〜(l)に示す予め定められた動詞ブロック及び単語に関する並べ替え規則により動詞ブロックの各々及び単語の各々を並べ替える。
【0045】
具体的には、動詞ブロックの各々について、最右目的語が存在するか否かを判定し、(j)最右目的語が存在する場合は、動詞ブロックを最右目的語の後方に移動し、(k)最右目的語が存在せず、かつ動詞ブロックが文の主辞を含む場合は、動詞ブロックを文の末尾に移動する(文末に句読点がある場合にはその前でもよい)。なお、翻訳する対象が句である場合には、句の末尾に移動する。
【0046】
また、動詞もしくは動詞と等価な役割を果たす品詞である単語の各々について、(l)動詞もしくは動詞と等価な役割を果たす品詞である単語(具体的にはPenn Chinese Treebankにおける品詞VV、VE、VC、VA、Pの5種類)を修飾する単語のうち、品詞がPenn Chinese TreebankにおけるLB、SB、CSであるものがあれば、その修飾語を、その修飾語の主辞である動詞もしくは動詞と等価な役割を果たす品詞である単語の後方へ移動する。なお、複数の単語が該当する場合は、それらの順序は保ったまま移動する。
【0047】
翻訳部46は、公知の機械翻訳器を用いて、並べ替え部44において並べ替えられた中国語の入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部48に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部70に出力する。なお、翻訳の方法は、非特許文献2(Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.)の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。
【0048】
モデル記憶部48は、複数の翻訳モデルと翻訳モデルの各々に対する重みが記憶されている。なお、モデル記憶部48に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みは、後述する翻訳モデル学習装置200のモデル記憶部270に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みと同一である。
【0049】
出力部70は、翻訳部46において翻訳された日本語で記述された文を出力装置もしくはネットワーク等によって外部に出力する。
【0050】
<翻訳モデル学習装置の構成>
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。
図4に示すように、本発明の実施の形態に係る翻訳モデル学習装置200は、CPUと、RAMと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この翻訳モデル学習装置200は、機能的には
図4に示すように入力部210と、演算部220と、出力部280とを備えている。
【0051】
入力部210は、キーボードなどの入力装置から複数の中国語と日本語の対訳となっている文対、句対(対訳データ)の集合である学習用並行コーパスを受け付ける。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。なお、中国語が第1特定言語の一例であり、日本語が第2特定言語の一例である。
【0052】
演算部220は、学習用並行コーパス250と、モデル学習部252と、モデル記憶部270とを備えている。
【0053】
学習用並行コーパス250は、入力部210において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、中国語と日本語の対訳文が同じ行数の位置に記載されたテキストファイルである。
【0054】
モデル学習部252は、学習データ言語解析部254と、学習データ動詞ブロック同定部256と、学習データ最右目的語同定部258と、学習データ並べ替え部260と、モデル用並行コーパス262と、翻訳モデル学習部264と、翻訳部266と、モデル重み学習部268と、を備えている。モデル学習部252は、学習用並行コーパス250に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部270に記憶する。
【0055】
学習データ言語解析部254は、学習用並行コーパスに含まれる中国語及び日本語の対訳データ毎に、中国語及び日本語の言語解析を行う。中国語の言語解析は、翻訳装置100の言語解析部30で行われる言語解析と同一の言語解析(形態素解析、依存構造解析)を行う。一方、日本語の言語解析は公知の日本語形態素解析プログラム(MeCab等)を利用し、形態素解析を行い、単語分割を行う。なお、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。
【0056】
学習データ動詞ブロック同定部256は、学習データ言語解析部254において言語解析された複数の対訳データ毎に、当該対訳データに含まれる中国語の文又は句に対して、翻訳装置100の動詞ブロック同定部40と同様に動詞ブロックの各々を同定する。
【0057】
学習データ最右目的語同定部258は、学習データ言語解析部254において言語解析された複数の対訳データ毎に、学習データ動詞ブロック同定部256において動詞ブロックが同定された当該対訳データに含まれる中国語の文又は句の動詞ブロックの各々について、翻訳装置100の最右目的語同定部42と同様に最右目的語を同定する。
【0058】
学習データ並べ替え部260は、学習データ言語解析部254において言語解析された複数の対訳データ毎に、当該対訳データに含まれる中国語の文又は句に対して、翻訳装置100の並べ替え部44で用いられている並べ替え規則と同様の並べ替え規則を用いて、動詞ブロックの各々及び単語の各々を並べ替えることによって語順を並べ替える。学習データ並べ替え部260は、並べ替えられた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句(単語に区切られたもの)とを併せてモデル用並行コーパスとしてモデル用並行コーパス262に各々記憶する。
【0059】
モデル用並行コーパス262は、学習データ並べ替え部260において並べ替えられた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句(単語に区切られたもの)とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。
【0060】
翻訳モデル学習部264は、モデル用並行コーパス262に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部270に記憶する。統計的な翻訳モデルには、非特許文献2に代表される統計的機械翻訳技術で利用される「句翻訳モデル」、「句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法について、本実施の形態においては、特定の方法に限定されず適用可能である。なお、「句翻訳モデル」、「句並べ替えモデル」、「言語モデル」が複数種類の翻訳モデルの一例である。
【0061】
例えば、翻訳モデル学習部264は、モデル用並行コーパス262に記憶されている中国語で記述された文又は句と、日本語で記述された文又は句からなる対訳データに基づいて、統計的な句翻訳モデルと句並べ替えモデルの各々を学習する。また、モデル用並行コーパス262に記憶されている日本語で記述された文又は句に基づいて、言語モデルを学習する。
【0062】
翻訳部266は、重み学習用データであるモデル用並行コーパス262に記憶されている中国語の文又は句の各々について、公知の機械翻訳器と、モデル記憶部270に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。
【0063】
モデル重み学習部268は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス262に記憶されている当該重み学習用データに対応する日本語で記述された文又は句(正解翻訳)とに基づいて、翻訳部266において抽出された各翻訳候補に対する翻訳評価尺度(例えば、BLEU値)を算出する。
【0064】
そして、モデル重み学習部268は、翻訳部266において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部270に記憶する。
【0065】
上記の翻訳部266において行われる翻訳候補の抽出と、モデル重み学習部268において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。なお、複数の翻訳モデルの各々に対する重みの初期値は固定の値でもよいし、ランダムに設定してもよい。また、重みの最適化には非特許文献3(Franz J. Och. 2003. Minimum error rate training for statistical machine translation.In Proceedings of the 41st annual conference of the Association for Computational Linguistics, pp.160--167, 2003.)等の公知の統計的機械翻訳における最適化手法を利用することができる。
【0066】
出力部280は、モデル記憶部270に記憶されている翻訳モデル及びモデル重みを出力する。
【0067】
<翻訳モデル学習装置の作用>
次に、本発明の実施の形態に係る翻訳モデル学習装置200の作用について説明する。まず、入力部210により、中国語と日本語の対訳となっている文対、句対(対訳データ)の集合である学習用並行コーパスが入力され、学習用並行コーパス250に記憶される。そして、翻訳モデル学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、
図5に示す翻訳モデル学習処理ルーチンが実行される。
【0068】
まず、ステップS200では、学習用並行コーパス250に記憶されている学習用並行コーパスを読み出す。
【0069】
次に、ステップS202では、ステップS200において読み込んだ学習用並行コーパスに含まれる各対訳データの中国語の文又は句について、公知の形態素解析器を利用し、形態素解析(単語区切りと品詞の同定)を行う。
【0070】
次に、ステップS204では、ステップS202において形態素解析された各対訳データの中国語で記述された文又は句について、公知の依存構造解析器を用いて、依存構造解析を行う。
【0071】
次に、ステップS205では、ステップS200において読み込んだ学習用並行コーパスに含まれる各対訳データの日本語の文又は句について、公知の日本語形態素解析プログラム(MeCab等)を利用し、形態素解析を行い、単語分割する。
【0072】
次に、ステップS206では、対象の対訳データの中国語で記述された文又は句について、上記ステップS204による依存構造の解析結果に基づいて、上記(a)〜(c)の要件を満たす単語を動詞ブロックの主辞である単語として同定する。
【0073】
次に、ステップS208では、対象の対訳データの中国語で記述された文又は句について、上記ステップS204による依存構造の解析結果に基づいて、上記(d)〜(f)の要件を満たす単語をステップS206において同定された動詞ブロックに追加し動詞ブロックを同定する。
【0074】
次に、ステップS210では、対象の対訳データの中国語で記述された文又は句について、ステップS208において同定された動詞ブロックに追加する上記(d)〜(f)の要件を満たす単語が存在するか否かの判定を行う。上記(d)〜(f)の要件を満たす単語が存在する場合には、ステップS208へ移行し、追加する要件を満たす単語が存在しない場合には、ステップS212へ移行する。
【0075】
次に、ステップS212では、対象の対訳データの中国語で記述された文又は句について、既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語があるか否かの判定を行う。既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がある場合には、ステップS206へ移行し、新たな動詞ブロックを同定する。一方、既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がない場合には、ステップS214へ移行する。
【0076】
次に、ステップS214では、全ての対訳データの中国語で記述された文又は句についてステップS206〜ステップS212の処理を行ったか否かを判定する。全ての対訳データの中国語の文又は句についてステップS206〜ステップS212の処理を行っている場合には、ステップS216へ移行し、ステップS206〜ステップS212の処理を行っていない対訳データの中国語の文又は句が存在する場合には、ステップS206へ移行し、当該対訳データの中国語の文又は句を対象として、処理を繰り返す。
【0077】
次に、ステップS216では、ステップS204において依存構造解析された各対訳データの中国語で記述された文又は句について、上記ステップS204による依存構造の解析結果に基づいて、ステップS206〜ステップS212において同定された当該文又は句の動詞ブロックの各々に対し、上記(g)〜(i)の要件を満たす単語を最右目的語として各々同定する。
【0078】
次に、ステップS218では、ステップS204において依存構造解析された各対訳データの中国語で記述された文又は句について、上記(j)〜(l)の動詞ブロック及び単語の並べ替え規則を用いて、ステップS206〜ステップS212において同定された動詞ブロックの各々、及び当該文又は句に含まれる単語の各々の語順を並べ替え、並べ替えられた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句(ステップS205で取得したもの)とを併せてモデル用並行コーパスとしてモデル用並行コーパス262に記憶する。
【0079】
次に、ステップS220では、モデル用並行コーパス262に記憶されている中国語で記述された文又は句と、日本語で記述された文又は句とからなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス262に記憶されている日本語で記述された文又は句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部270に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部270に記憶する。
【0080】
次に、ステップS222では、ステップS218において語順を並べ替えた中国語で記述された文又は句の各々について、公知の機械翻訳器と、上記ステップS220で学習した各翻訳モデルと、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。
【0081】
ステップS224では、上記ステップS222で作成された複数の翻訳候補の各々について、モデル用並行コーパス262に記憶されている当該翻訳候補に対応する日本語で記述された文又は句(正解翻訳)に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。
【0082】
そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部270に記憶する。
【0083】
次に、ステップS226では、ステップS224で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップS222に移行する。
【0084】
<翻訳装置の作用>
次に、本発明の実施の形態に係る翻訳装置100の作用について説明する。まず、入力部10により、翻訳モデル学習装置200によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みが入力されモデル記憶部48に記憶される。そして、入力部10により、中国語で記述された文が入力されると、翻訳装置100のROMに記憶されたプログラムを、CPUが実行することにより、
図6に示す翻訳処理ルーチンが実行される。
【0085】
まず、ステップS100において、中国語で記述された入力文を受け付ける。
【0086】
次に、ステップS102において、ステップS100において受け付けた中国語で記述された入力文に対して、公知の形態素解析器を利用し、形態素解析(単語区切りと品詞の同定)を行う。
【0087】
次に、ステップS104において、ステップS102において形態素解析された入力文に対して、公知の依存構造解析器を使用して依存構造解析を行う。
【0088】
次に、ステップS106では、ステップS104における依存構造の解析結果に基づいて、入力文について、上記(a)〜(c)の要件を満たす単語を動詞ブロックの主辞である単語として同定する。
【0089】
次に、ステップ108では、ステップS104における依存構造の解析結果に基づいて、入力文について、上記(d)〜(f)の要件を満たす単語をステップS206において同定された動詞ブロックに追加し動詞ブロックを同定する。
【0090】
次に、ステップS110では、ステップS108において同定された動詞ブロックに追加する上記(d)〜(f)の要件を満たす単語が入力文に存在するか否かの判定を行う。上記(d)〜(f)の要件を満たす単語が存在する場合には、ステップS108へ移行し、追加する要件を満たす単語が存在しない場合には、ステップS110へ移行する。
【0091】
次に、ステップS110では、入力文について既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語があるか否かの判定を行う。既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がある場合には、ステップS106へ移行し、既存の動詞ブロックに含まれていない単語であり、かつ動詞ブロックの主辞となる単語がない場合には、ステップS116へ移行する。
【0092】
次に、ステップS116では、ステップS104における依存構造の解析結果に基づいて、入力文について、ステップS106〜ステップS112において同定された動詞ブロックの各々に対し、上記(g)〜(i)の要件を満たす単語を最右目的語として各々同定する。
【0093】
次に、ステップS118では、入力文について、上記(j)〜(l)の動詞ブロック及び単語の並べ替え規則を用いて、ステップS106〜ステップS110において同定された動詞ブロックの各々、及び単語の各々の語順を並べ替える。
【0094】
次に、ステップS120において、ステップS118において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、モデル記憶部48に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。
【0095】
次に、ステップS122において、ステップS114において選択した翻訳結果を出力して処理を終了する。
【0096】
<翻訳装置100の実施例>
次に、
図7に示す中国語から日本語への翻訳を行った実施例について以下説明する。
【0097】
まず、入力部10において中国語で記述された文(
図7参照)を受け付け言語解析部30において言語解析(形態素解析及び依存構造解析)を行う。本実施例では、形態素解析処理に公知のフリーソフトウェア(Stanford Chinese Segmenter)を用い、依存構造解析処理に公知のフリーソフトウェア(Corbit)を用いる。
【0098】
図8に言語解析の処理結果を示す。
図8の各行が単語を表し、各列は空白文字で区切られ4つの要素を含んでいる。各要素は、先頭から順に、0から始まる単語ID、単語の表層文字列、品詞、主辞の単語IDを示す。なお、主辞の単語IDが「−1」となっている単語は文全体の主辞であることを表している。
【0099】
次に、動詞ブロック同定部40により動詞ブロックの同定を以下のように行う。まず、動詞ブロックの中心となる単語として、文全体の主辞である単語ID[2]の単語(
図9参照)を起点とし、当該単語の動詞ブロックに含まれる単語を求める。
【0100】
具体的には、単語ID「1」の単語(
図10参照)は、動詞ブロックの主辞である単語(
図9参照)を主辞とし、品詞がADであるため、当該動詞ブロックに含まれる。そして、単語ID「4」の単語(
図11参照)は、動詞ブロックの主辞である単語ID「2」の単語(
図9参照)を主辞とし、品詞がVVであり、また主辞との間には並列詞(品詞CC)のみが含まれるため、当該動詞ブロックに含まれる。また、合わせて単語ID「3」の並列詞の単語(
図12参照)も当該動詞ブロックに含まれる。また、単語ID「5」の単語(
図13参照)は、既に動詞ブロックに追加されている単語ID「4」の単語(
図11参照)を主辞とし、品詞がASであるため、当該動詞ブロックに含まれる。このようにして、単語ID「1」から「5」までの部分が動詞ブロック(
図14参照)として同定される。
【0101】
次に、最右目的語同定部42により動詞ブロック同定部40において同定された動詞ブロック(
図14参照)に対応する最右目的語を同定する。上記(g)〜(i)の最右目的語の要件を満たす単語は、単語ID「8」の単語(
図15参照)のみであるため、当該単語を最右目的語として同定する。
【0102】
次に、並べ替え部44により、動詞ブロック同定部40により同定された動詞ブロック(
図14参照)を、最右目的語同定部42により同定された最右目的語(
図15参照)の後方に移動し、並べ替える。
図16に並べ替え結果を示す。
【0103】
翻訳装置100の翻訳部46は、翻訳モデル学習装置200において学習されたモデルを用いて、並べ替え部44により並べ替えた中国語単語列を日本語に翻訳する。並べ替えられた文(
図16参照)に対しては、「学校 は 一冊 の 本 を すでに 編集 出版 した 。」という翻訳結果が得られる。
【0104】
また、本実施例に示した方法によって作成された統計的機械翻訳システムは、本発明の並べ替えを施さないシステムに対して公知の機械翻訳評価尺度BLEUの値を若干向上させることを確認した(BLEUが0.39から0.40に向上)。
なお、翻訳部46において用いる機械翻訳器が参照するモデルの学習は以下のような手順で行った。本実施例では、機械翻訳器として公知の統計的機械翻訳ツールキットMoses及び関連プログラム群を利用する。
【0105】
まず、学習データ言語解析部254、学習データ動詞ブロック同定部256、学習データ最右目的語同定部258、学習データ並べ替え部260において、原言語である中国語の解析及び並べ替えを、学習用並行コーパス250に記憶されている学習用の平行コーパスの中国語部に対して行う。この処理手順は翻訳装置100の言語解析部30、動詞ブロック同定部40、最右目的語同定部42、並べ替え部44と同様に処理を行う。また、学習データ言語解析部254において、目的言語である日本語について単語への分割処理を行う。具体的には、公知の日本語形態素解析プログラムMeCabを利用し、学習用並行コーパス250に記憶されている学習用の並行コーパスの日本語部に対して単語分割を行う。
【0106】
翻訳モデル学習部264において、学習データ並べ替え部260において並べ替えられた中国語の単語列と、日本語の単語列の組を得て、この単語列組から統計的機械翻訳のモデルの学習を行う。翻訳モデル学習部264における句翻訳モデルDB、句並べ替えモデルDB、言語モデルDBの学習は公知の統計的機械翻訳の方法(非特許文献2)によって行うことができ、モデル重み学習部268における各モデルの重みの学習は公知の最適化の方法(非特許文献3)によって行うことができる。これらの機能は上述のツールキットMosesに実装されている。
【0107】
以上説明したように、本発明の実施の形態に係る翻訳装置によれば、中国語の入力文の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替えることにより、中国語の入力文の語順を精度良く並べ替え、語順を並び替えられた入力文を日本語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことができる。
【0108】
また、本発明の実施の形態に係る翻訳モデル学習装置によれば、中国語で記述された文又は句の動詞ブロックを同定し、動詞ブロックに対応する最後方の目的語を同定し、同定された動詞ブロックと目的語との順序を並べ替え、語順を並べ替えた中国語で記述された文又は句と、対応する対訳データに含まれる日本語で記述された文又は句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することができる。
【0109】
また、依存構造解析を利用した事前並べ替え方法を提供し、それに基づく統計的機械翻訳を実現していることで、依存構造木の情報を補助的な制約として利用するに留め、兄弟ノードの並べ替えだけでは表現できないような自由度の高い原言語の事前並べ替えを可能にし、より目的言語の語順に近づけることができる。
【0110】
また、原言語から目的言語への機械翻訳を容易にするための前処理として原言語の単語列を目的言語の語順に近くなるように並べ替える際に、品詞や依存構造の情報を利用しながらも、単純な並べ替え規則による並べ替えが適さないような言語対においても、目的言語の語順により近づけられるような並べ替えを行うことができる。
【0111】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0112】
本実施の形態においては、原言語を中国語とし、目的言語を日本語とする場合について説明したがこれに限定されるものではなく、他の言語ペアを、原言語及び目的言語としてもよい。
【0113】
また、本実施の形態においては、翻訳装置により翻訳する対象を文とする場合について説明したがこの限りでない。例えば、翻訳する対象を句としてもよい。
【0114】
また、本実施の形態においては、動詞ブロックを同定する際に、まず文の主辞となっている動詞(主動詞)を含む動詞ブロックを同定し、続いて、依存構造の根(root)に近い順に、動詞ブロックの同定を繰り返し行う場合について説明したがこの限りでない。例えば、文頭から順に動詞ブロックを同定する処理を繰り返し行ってもよい。