特許6404511 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特許6404511翻訳支援システム、翻訳支援方法、および翻訳支援プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6404511

(24)【登録日】2018年9月21日

(45)【発行日】2018年10月10日

(54)【発明の名称】翻訳支援システム、翻訳支援方法、および翻訳支援プログラム

(51)【国際特許分類】

G06F 17/28 20060101AFI20181001BHJP

G06F 17/27 20060101ALI20181001BHJP

【ＦＩ】

G06F17/28 654

G06F17/27 635

G06F17/27 615

【請求項の数】12

【全頁数】23

(21)【出願番号】特願2018-34514(P2018-34514)

(22)【出願日】2018年2月28日

(65)【公開番号】特開2018-152060(P2018-152060A)

(43)【公開日】2018年9月27日

【審査請求日】2018年2月28日

(31)【優先権主張番号】62/469,255

(32)【優先日】2017年3月9日

(33)【優先権主張国】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】399037405

【氏名又は名称】楽天株式会社

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100113435

【弁理士】

【氏名又は名称】黒木義樹

(74)【代理人】

【識別番号】100144440

【弁理士】

【氏名又は名称】保坂一之

(72)【発明者】

【氏名】村上浩司

(72)【発明者】

【氏名】須藤清

【審査官】長由紀子

(56)【参考文献】

【文献】特開２００８−２７６５１７（ＪＰ，Ａ）

【文献】特開２００６−４３６６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／３０３３５２（ＵＳ，Ａ１）

【文献】米国特許第８８５５９９５（ＵＳ，Ｂ１）

【文献】嶋田雅彦外１名，機械翻訳選択のためのサービス品質評価手法，電子情報通信学会技術研究報告，日本，社団法人電子情報通信学会，２０１１年２月２１日，第110巻第428号，pp.57-62

【文献】赤部晃一外４名，機械翻訳システムの誤り分析のための誤り箇所選択手法，自然言語処理，日本，一般社団法人言語処理学会，２０１６年１月２５日，第23巻第1号，pp.87-117

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２０−２８

(57)【特許請求の範囲】

【請求項1】

対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、前記翻訳言語で記述され且つ前記対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得部と、
前記対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと前記正解語集合との一致度を求め、該一致度に基づいて前記対象翻訳文の妥当性を判定する判定部と
を備え、
前記判定部が、翻訳単語の第１の単語ｎ−ｇｒａｍでの第１の一致率および第１の重みの積と、前記翻訳単語の第２の単語ｎ−ｇｒａｍでの第２の一致率および第２の重みの積とを少なくとも用いて前記一致度を求め、ここで、前記第２の単語ｎ−ｇｒａｍが前記第１の単語ｎ−ｇｒａｍよりも値ｎが大きく、前記第２の重みが前記第１の重みよりも大きい、
翻訳支援システム。

【請求項2】

前記判定部が、前記翻訳単語の単語ユニグラムでの前記第１の一致率および前記第１の重みの前記積と、前記翻訳単語の単語バイグラムでの前記第２の一致率および前記第２の重みの前記積とを少なくとも用いて前記一致度を求める、
請求項１に記載の翻訳支援システム。

【請求項3】

前記判定部が、前記翻訳単語の単語トライグラムでの第３の一致率および第３の重みの積をさらに用いて前記一致度を求め、ここで、前記第３の重みが前記第２の重みよりも大きい、
請求項２に記載の翻訳支援システム。

【請求項4】

前記取得部が、前記対象翻訳文と同じカテゴリに属する参照文を構成する前記参照単語ｎ−ｇｒａｍの集合を前記正解語集合として取得する、
請求項１〜３のいずれか一項に記載の翻訳支援システム。

【請求項5】

複数の前記参照文を分析して、各参照文に含まれる単語と前記対象翻訳文に含まれる単語との一致度に基づいて、前記対象翻訳文と同じカテゴリに属する前記参照文を抽出する抽出部をさらに備え、
前記取得部が、前記抽出部により抽出された参照文から前記正解語集合を取得する、
請求項４に記載の翻訳支援システム。

【請求項6】

辞書データを辞書データベースに格納する生成部をさらに備え、
複数の前記対象翻訳文および複数の前記対象原文が存在し、
前記生成部が、
前記１以上の翻訳単語ｎ−ｇｒａｍのうち前記正解語集合と一致しなかった単語ユニグラムを選択し、該単語ユニグラムを含む１以上の単語バイグラムまたは１以上の単語トライグラムを抽出し、抽出した単語バイグラムまたは単語トライグラムのうち自己相互情報量が所定の閾値以上である単語バイグラムまたは単語トライグラムを誤訳単語ｎ−ｇｒａｍとして取得し、
前記複数の対象翻訳文のそれぞれについて、該対象翻訳文の前記翻訳単語ｎ−ｇｒａｍのセットと、該対象翻訳文に対応する前記対象原文の原単語ｎ−ｇｒａｍのセットとのペアを取得し、
前記誤訳単語ｎ−ｇｒａｍを含む１以上の前記ペアの中から、該誤訳単語ｎ−ｇｒａｍと共に出現する度合いに基づいて、一つの前記原単語ｎ−ｇｒａｍを決定し、
前記決定された一つの原単語ｎ−ｇｒａｍを含む１以上の前記ペアの中から、該原単語ｎ−ｇｒａｍと共に出現する度合いに基づいて、一つの正しい翻訳単語ｎ−ｇｒａｍを決定し、
前記決定された一つの原単語ｎ−ｇｒａｍと前記決定された一つの翻訳単語ｎ−ｇｒａｍとが少なくとも関連付けられた辞書データを辞書データベースに格納する、
請求項１〜５のいずれか一項に記載の翻訳支援システム。

【請求項7】

少なくとも一つのプロセッサを備える翻訳支援システムにより実行される翻訳支援方法であって、
対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、前記翻訳言語で記述され且つ前記対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得ステップと、
前記対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと前記正解語集合との一致度を求め、該一致度に基づいて前記対象翻訳文の妥当性を判定する判定ステップと
を含み、
前記判定ステップでは、翻訳単語の第１の単語ｎ−ｇｒａｍでの第１の一致率および第１の重みの積と、前記翻訳単語の第２の単語ｎ−ｇｒａｍでの第２の一致率および第２の重みの積とを少なくとも用いて前記一致度を求め、ここで、前記第２の単語ｎ−ｇｒａｍが前記第１の単語ｎ−ｇｒａｍよりも値ｎが大きく、前記第２の重みが前記第１の重みよりも大きい、
翻訳支援方法。

【請求項8】

前記判定ステップでは、前記翻訳単語の単語ユニグラムでの前記第１の一致率および前記第１の重みの前記積と、前記翻訳単語の単語バイグラムでの前記第２の一致率および前記第２の重みの前記積とを少なくとも用いて前記一致度を求める、
請求項７に記載の翻訳支援方法。

【請求項9】

前記判定ステップでは、前記翻訳単語の単語トライグラムでの第３の一致率および第３の重みの積をさらに用いて前記一致度を求め、ここで、前記第３の重みが前記第２の重みよりも大きい、
請求項８に記載の翻訳支援方法。

【請求項10】

対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、前記翻訳言語で記述され且つ前記対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得ステップと、
前記対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと前記正解語集合との一致度を求め、該一致度に基づいて前記対象翻訳文の妥当性を判定する判定ステップと
をコンピュータシステムに実行させ、
前記判定ステップでは、翻訳単語の第１の単語ｎ−ｇｒａｍでの第１の一致率および第１の重みの積と、前記翻訳単語の第２の単語ｎ−ｇｒａｍでの第２の一致率および第２の重みの積とを少なくとも用いて前記一致度を求め、ここで、前記第２の単語ｎ−ｇｒａｍが前記第１の単語ｎ−ｇｒａｍよりも値ｎが大きく、前記第２の重みが前記第１の重みよりも大きい、
翻訳支援プログラム。

【請求項11】

前記判定ステップでは、前記翻訳単語の単語ユニグラムでの前記第１の一致率および前記第１の重みの前記積と、前記翻訳単語の単語バイグラムでの前記第２の一致率および前記第２の重みの前記積とを少なくとも用いて前記一致度を求める、
請求項１０に記載の翻訳支援プログラム。

【請求項12】

前記判定ステップでは、前記翻訳単語の単語トライグラムでの第３の一致率および第３の重みの積をさらに用いて前記一致度を求め、ここで、前記第３の重みが前記第２の重みよりも大きい、
請求項１１に記載の翻訳支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一側面は翻訳支援システム、翻訳支援方法、および翻訳支援プログラムに関する。

【背景技術】

【0002】

従来から、人または機械による翻訳の妥当性を評価する手法が知られている。例えば、下記の非特許文献１には、ＢＬＥＵ、ＮＩＳＴ、およびＤＰ−ｂａｓｅｄ法といういくつかの自動評価を用いた一対比較法により音声翻訳を評価する手法が記載されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Keiji Yasuda, Fumiaki Sugaya, Toshiyuki Takezawa, Seiichi Yamamoto,and Masuzo Yanagida, "Applications of automatic evaluation methods tomeasuring a capability of speech translation system," In Proceedings ofthe 10th Conference of the European Chapter of the Association forComputational Linguistics (EACL 2003), April 2003, pages 371-378.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、非特許文献１に記載の技術は翻訳文の正解（参照訳）が存在することを前提とするので、個々の翻訳文を評価するためにその正解を予め用意しておく必要がある。この事前準備は非常に手間が掛かるので、評価対象の翻訳文の正解を用いることなく該翻訳文の妥当性を評価することが望まれている。

【課題を解決するための手段】

【0005】

本発明の一側面に係る翻訳支援システムは、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得部と、対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定部とを備える。

【0006】

本発明の一側面に係る翻訳支援方法は、少なくとも一つのプロセッサを備える翻訳支援システムにより実行される翻訳支援方法であって、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得ステップと、対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定ステップとを含む。

【0007】

本発明の一側面に係る翻訳支援プログラムは、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得ステップと、対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定ステップとをコンピュータシステムに実行させる。

【0008】

このような側面においては、対象翻訳文（評価対象の翻訳文）の妥当性を判定する基準として用意される参照文は、対象原文とは独立した文であり、したがって、対象原文の翻訳文（対象翻訳文）とも独立した文である。すなわち、対象翻訳文の妥当性を評価するために該翻訳文の正解を用意する必要がない。正解語集合は参照文の単語ｎ−ｇｒａｍ（参照単語ｎ−ｇｒａｍ）の集合であり、これは正しいと見なすことができる単語または句の集合である。したがって、対象翻訳文の単語ｎ−ｇｒａｍと正解語集合との一致度を見ることで、評価対象の翻訳文の正解を用いることなく該翻訳文の妥当性を評価することができる。

【発明の効果】

【0009】

本発明の一側面によれば、評価対象の翻訳文の正解を用いることなく該翻訳文の妥当性を評価することができる。

【図面の簡単な説明】

【0010】

【図1】実施形態に係る翻訳支援システムで用いられるコンピュータのハードウェア構成を示す図である。

【図2】実施形態に係る翻訳支援システムの機能構成を示す図である。

【図3】実施形態に係る翻訳支援システムの動作を示すフローチャートである。

【図4】データを取得する処理の詳細を示すフローチャートである。

【図5】翻訳の妥当性を判定する処理の詳細を示すフローチャートである。

【図6】辞書データを生成する処理の詳細を示すフローチャートである。

【図7】辞書データを生成する処理の詳細を示すフローチャートである。

【図8】辞書データを生成する処理の詳細を示すフローチャートである。

【図9】辞書データを生成する処理の一例を示す図である。

【図10】実施形態に係る翻訳支援プログラムの構成を示す図である。

【発明を実施するための形態】

【0011】

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。

【0012】

［システムの構成］
実施形態に係る翻訳支援システム１０は、人手による翻訳または機械翻訳の妥当性を評価するコンピュータシステムである。「翻訳の妥当性を評価する」とは、翻訳結果が意味的にまたは表現上どれくらい正しいかを所定の基準に従って客観的に判定することをいう。翻訳支援システム１０の特徴の一つは、評価対象の翻訳文の正解（本来このように翻訳されるべきということを示す参照訳）を用いることなく該翻訳文の妥当性を評価する点にある。より具体的には、翻訳支援システム１０は、評価対象の翻訳文が本来どのように翻訳されるべきものであるかという情報が無い状況で、その翻訳文とは独立した他の手掛かりに基づいてその翻訳文の妥当性を評価する。翻訳支援システム１０の更なる特徴は、その評価結果に基づいて正しい翻訳辞書を生成する点にある。

【0013】

図１は翻訳支援システム１０を構成するコンピュータ１００の一般的なハードウェア構成を示す。例えば、コンピュータ１００はプロセッサ１０１、主記憶部１０２、補助記憶部１０３、通信制御部１０４、入力装置１０５、および出力装置１０６を備える。プロセッサ１０１はオペレーティングシステムおよびアプリケーション・プログラムを実行する。主記憶部１０２は例えばＲＯＭおよびＲＡＭで構成される。補助記憶部１０３は例えばハードディスクまたはフラッシュメモリで構成され、一般に主記憶部１０２よりも大量のデータを記憶する。通信制御部１０４は例えばネットワークカードまたは無線通信モジュールで構成される。入力装置１０５は例えばキーボード、マウス、タッチパネルなどで構成される。出力装置１０６は例えばモニタおよびスピーカで構成される。

【0014】

翻訳支援システム１０の各機能要素は、プロセッサ１０１または主記憶部１０２の上に所定のソフトウェア（例えば、後述する翻訳支援プログラムＰ１）を読み込ませてそのソフトウェアを実行させることで実現される。プロセッサ１０１はそのソフトウェアに従って、通信制御部１０４、入力装置１０５、または出力装置１０６を動作させ、主記憶部１０２または補助記憶部１０３におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部１０２または補助記憶部１０３内に格納される。

【0015】

翻訳支援システム１０は１台のコンピュータで構成されてもよいし、複数台のコンピュータで構成されてもよい。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネットやイントラネットなどの通信ネットワークを介して接続されることで、論理的に一つの翻訳支援システム１０が構築される。

【0016】

翻訳支援システム１０はインターネットやイントラネットなどの通信ネットワークを介してデータベースにアクセスすることができる。データベースは、プロセッサまたは外部のコンピュータからの任意のデータ操作（例えば、抽出、追加、削除、上書きなど）に対応できるようにデータ集合を記憶する機能要素または装置である。データベースの実装方法は限定されず、例えばデータベース管理システム（ＤＢＭＳ）が用いられてよいし、テキストファイルがデータベースとして機能してもよい。本実施形態では、翻訳支援システム１０は図２に示す対象原文データベース２１、対象翻訳データベース２２、参照文データベース２３、および辞書データベース２４にアクセス可能である。

【0017】

対象原文データベース２１、対象翻訳データベース２２、参照文データベース２３、および辞書データベース２４が設けられる位置は限定されない。本実施形態ではこれらのデータベースが翻訳支援システム１０とは別の装置であるとする。しかし、翻訳支援システム１０を構成するコンピュータの中に少なくとも一つのデータベースが構築されてもよい。あるいは、少なくとも一つのデータベースが、翻訳支援システム１０とは独立したコンピュータシステム内に設置されてもよい。四つのデータベースの管理主体は同じであってもよいし、互いに異なってもよい。

【0018】

対象原文データベース２１は１以上の対象原文を記憶するデータベースであり、例えば多数の対象原文を記憶する。「対象原文」とは翻訳元言語（ｓｏｕｒｃｅｌａｎｇｕａｇｅ）で記述された文、すなわち、翻訳される前の文である。翻訳元言語とは翻訳の際に起点となる言語である。「文」とはまとまった内容を表す一続きの言葉である。文の構成は何ら限定されず、例えば、文は主語および述語を含んでもよいし、名詞の羅列でもよい。

【0019】

対象翻訳データベース２２は１以上の対象翻訳文を記憶するデータベースであり、例えば多数の対象翻訳文を記憶する。「対象翻訳文」とは、対象原文を翻訳言語で翻訳および記述することで得られる文である。したがって、一つの対象翻訳文は一つの対象原文に対応する。翻訳支援システム１０はこの対象翻訳文の妥当性を評価する。

【0020】

対象原文データベース２１内の個々の対象原文と対象翻訳データベース２２内の個々の対象翻訳文とは予め互いに関連付けられており、このリンクにより、翻訳支援システム１０はどの対象原文がどのように翻訳されたかを知ることができる。対象原文と対象翻訳文とを関連付ける方法は限定されない。例えば、対象原文と対象翻訳文との対応表が用いられてもよいし、対象原文が記述されたウェブページと対象翻訳文が記述されたウェブページとがハイパーリンクによりつながっていてもよい。このように対象原文および対象翻訳文が関連付けられるので、対象翻訳文の品質を考慮しなければ、形式上、対象原文および対象翻訳文のセットをパラレルコーパスとして利用することができる。

【0021】

参照文データベース２３は１以上の参照文を記憶するデータベースであり、例えば多数の参照文を記憶する。個々の参照文は翻訳言語で記述されたものである。参照文は、ある文の翻訳である必要はなく、他言語の文とは関係なく最初から翻訳言語で記述された文であってもよい。参照文の一部または全部は対象原文とは独立した文である。１以上の参照文の一部が対象翻訳文の正解であってもよいが、参照文の少なくとも一部は対象原文とは独立したものである。「対象原文とは独立した文」とは、対象原文とは無関係に作成された文、または対象原文に依存しない文のことをいう。対象原文とは独立した参照文は、対象原文を翻訳言語に翻訳した文ではなく、したがって対象原文の翻訳の正解ではない。参照文は対象原文および対象翻訳文とは異なる外部の情報源であるともいえる。

【0022】

参照文は、例えば翻訳言語のネイティブ・スピーカ、または翻訳言語について一定の水準以上の語学力を有する者により記述された文である。したがって、参照文は、翻訳言語を理解できる者から見て自然な表現および言い回しで記述された文である。本明細書における「正解」という語は、翻訳言語による表現として間違っていないことを意味するものであり、別の表現の存在を否定するものではないことに留意されたい。

【0023】

これに対して、妥当性が評価される対象翻訳文は、例えば機械翻訳（自動翻訳サービス）、または翻訳言語の語学力が一定の水準を満たさない者により記述される場合がある。そのため、対象翻訳文は誤訳を含むか、または翻訳言語を理解できる者が違和感を覚える表現または言い回しを含む可能性がある。その一方で、対象翻訳文の中には適切に翻訳された文も存在し得る。したがって、対象翻訳文の品質は文によって大きく異なり得る。翻訳支援システム１０は、自然な表現および言い回しで記述され且つ対象翻訳文とは独立した参照文を手掛かりに個々の対象翻訳文の表現または言い回しを評価する。

【0024】

当然ながら、翻訳元言語と翻訳言語とは互いに異なる。翻訳元言語および翻訳言語は何ら限定されず、したがって翻訳支援システム１０は世界に存在する多数の言語から翻訳元言語および翻訳言語を選択することができる。本実施形態では翻訳元言語が日本語であり翻訳言語が英語であるとする。

【0025】

対象原文および対象翻訳文が表す内容は何ら限定されず、参照文が表す内容も何ら限定されない。参照文は対象原文および対象翻訳文と独立しているから、参照文が属するカテゴリは、対象翻訳文が属するカテゴリと全く無関係であってもよいし対応してもよい。文のカテゴリとは、文の内容に基づく分類である。双方のカテゴリが対応するとは、双方のカテゴリが同一であるか、一方が他方を包含するか、または双方が共通の領域を意味することである。対象原文、対象翻訳文、および参照文のそれぞれに文のカテゴリが関連付けられた状態でそれぞれの文がデータベースに予め記憶されてもよい。

【0026】

例えば、対象原文データベース２１は、日本向けの第１の電子商取引サイト（ＥＣサイト）上に掲載される日本語の商品タイトルを対象原文として記憶してもよい。この場合には、対象翻訳データベース２２は、第１のＥＣサイトの英語版に掲載される英訳された商品タイトルを対象翻訳文として記憶する。参照文データベース２３は、英語圏で作成された任意の英文を参照文として記憶してよく、例えば、第１のＥＣサイト内の商品タイトルとは独立し且つ英語で記述された別の商品タイトル（例えば第２のＥＣサイト内の商品タイトル）を記憶してもよい。あるいは、参照文データベース２３は、商品タイトルとは全く異なる種類の文（例えばニュースの記事、ブログから抽出した文）を参照文として記憶してもよい。

【0027】

対象原文、対象翻訳文、および参照文がいずれもＥＣサイト上の商品タイトルである場合には、翻訳支援システム１０は双方のカテゴリが対応し合うものとしてこれらの文を処理してもよい。あるいは、翻訳支援システム１０は、第１のＥＣサイトおよび第２のＥＣサイトのそれぞれについて、個々の商品のカテゴリに基づいてそれぞれの文を処理してもよい。例えば、翻訳支援システム１０は、「炊飯器」というカテゴリに属する炊飯器の商品タイトルと、「文具」というカテゴリに属する万年筆の商品タイトルとでは、カテゴリが相異なると判断してもよい。

【0028】

いずれにしても、現実には、評価対象の翻訳文に対する正解が存在しないことが多い。対象翻訳文を準備する者にとっては、対象翻訳文の正解を自力で作成することも他者に依頼して手に入れることも一般に難しいので、従来技術のように評価対象の翻訳文の正解を当てにすることができない。ＥＣサイトの商品タイトルのように評価対象の翻訳文が大量に存在する場合には、そのような従来の評価手法を適用するのはなおさら困難である。そこで、翻訳支援システム１０では翻訳言語で記述され且つ対象原文（および対象翻訳文）と独立した既存の文を参照文として用いて、対象翻訳文の妥当性を評価する。

【0029】

辞書データベース２４は、翻訳元言語と翻訳言語との対応を示す辞書データ、すなわち翻訳辞書を記憶するデータベースである。辞書データの各レコードは、翻訳元言語で記述された単語または句と、翻訳言語で記述された正しい単語または句（すなわち、正しい翻訳）とのペアを含む。あるいは、各レコードは翻訳元言語で記述された単語または句と、翻訳言語で記述された誤った単語または句（すなわち誤訳）と、翻訳言語で記述された正しい単語または句（正しい翻訳）との組を含んでもよい。この辞書データベース２４は自動翻訳システム（図示せず）により利用されてもよい。

【0030】

図２は翻訳支援システム１０の機能構成を示す。翻訳支援システム１０は機能的構成要素として取得部１１、判定部１２、および生成部１３を備える。

【0031】

取得部１１は対象翻訳文および正解語集合を取得する機能要素である。取得部１１は対象翻訳データベース２２にアクセスして少なくとも一つの対象翻訳文を読み出す。また、取得部１１は対象原文データベース２１にアクセスしてその対象翻訳文に対応する少なくとも一つの対象原文を読み出す。さらに、取得部１１は参照文データベース２３にアクセスして１以上の（例えば複数の）参照文を読み出す。

【0032】

複数の対象翻訳文および複数の対象原文を取得する場合には、取得部１１はカテゴリが共通する対象翻訳文および対象原文を読み出してもよい。この場合に、取得部１１は対象翻訳文と同じカテゴリに属する１以上の参照文のみを読み出してもよい。各データベースの対象原文、対象翻訳文、および参照文のそれぞれにカテゴリが関連付けられている場合には、取得部１１は読み出した対象翻訳文と同じカテゴリに属する参照文を取得してもよい。あるいは、取得部１１は、対象翻訳文を構成する１以上の単語ｎ−ｇｒａｍと参照文を構成する１以上の単語ｎ−ｇｒａｍ（後述する正解語集合）とを比較し、対象翻訳文との単語ｎ−ｇｒａｍの一致度が所定の閾値以上である参照文を、同じカテゴリに属する参照文として取得してもよい。このように、取得部１１は、複数の参照文を分析して、各参照文に含まれる単語と対象翻訳文に含まれる単語との一致度に基づいて、対象翻訳文と同じカテゴリに属する参照文を抽出する抽出部としての機能も備えてもよい。単語ｎ−ｇｒａｍについては後述する。

【0033】

あるいは、取得部１１はカテゴリに関係なく複数の対象翻訳文および複数の対象原文を読み出してもよい。また、取得部１１はカテゴリに関係なく１以上の参照文を読み出してもよい。すなわち、取得部１１は対象翻訳文と参照文とでカテゴリが同じか否かにかかわらず１以上の参照文を参照文データベース２３から読み出してもよい。

【0034】

続いて、取得部１１は取得した１以上の参照文から単語ｎ−ｇｒａｍを作成する。「単語ｎ−ｇｒａｍ」とは、ｎ個の単語の単位で文を分割することで得られる１以上の単語の並びである。本実施形態ではｎ＝１，２，３であり、したがって翻訳支援システム１０は単語ユニグラム（ｗｏｒｄｕｎｉｇｒａｍ）、単語バイグラム（ｗｏｒｄｂｉｇｒａｍ）、および単語トライグラム（ｗｏｒｄｔｒｉｇｒａｍ）を扱う。翻訳言語が大文字および小文字の概念を有する場合には、取得部１１は参照文をすべて小文字に変換する。そして、取得部１１はその参照文を１以上の単語に分割することで単語の並びを取得し、この並びに基づいて単語ｎ−ｇｒａｍ（ｎ＝１，２，３）を生成する。取得部１１は各参照文から単語ｎ−ｇｒａｍ（ｎ＝１，２，３）を生成する。本明細書では、参照文から得られる単語ｎ−ｇｒａｍを「参照単語ｎ−ｇｒａｍ」ともいい、参照単語ｎ−ｇｒａｍのセットを「正解語集合」という。

【0035】

単語分割の方法は周知であり、例えば取得部１１は、文が英語で記述されていれば空白の位置で文を区切ることで１以上の単語を得ることができるし、文が日本語で記述されていれば「ｉｐａｄｉｃ」などの辞書を用いた形態素解析により１以上の単語を得ることができる。また、取得部１１は、共起する複数の単語（例えば２単語、３単語）を一括りにした形で文を区切ってもよい。

【0036】

取得部１１は同様に、対象翻訳文および対象原文のそれぞれから単語ｎ−ｇｒａｍ（ｎ＝１，２，３）のセットを生成する。本明細書では、対象原文から得られる単語ｎ−ｇｒａｍを「原単語ｎ−ｇｒａｍ」ともいい、対象翻訳文から得られる単語ｎ−ｇｒａｍを「翻訳単語ｎ−ｇｒａｍ（ｔｒａｎｓｌａｔｅｄｗｏｒｄｎ−ｇｒａｍ）」ともいう。取得部１１は一つの対象原文から得られた単語ｎ−ｇｒａｍのセットと、その対象原文に対応する一つの対象翻訳文から得られた単語ｎ−ｇｒａｍのセットとのペアを生成する。本明細書ではこのペアを「対象翻訳ペア」ともいい、その対象翻訳ペアの集合を「データセット」という。

【0037】

取得部１１はこれらの処理により以下のデータを得ると、そのデータを判定部１２に出力する。
・参照単語ｎ−ｇｒａｍセット（正解語集合）：Ｕ＝｛ｕ_１，…，ｕ_Ｍ｝
・各対象原文の原単語ｎ−ｇｒａｍセット：ｔ_ｋ
・各対象翻訳文の翻訳単語ｎ−ｇｒａｍセット：ｔ＾_ｋ

【0038】

対象翻訳ペアの集合、すなわちデータセットＤは

【数1】

で表される。

【0039】

正解語集合に含まれる単語ユニグラムは参照文を構成する単語であり、正解語集合に含まれる単語バイグラムおよび単語トライグラムは参照文を構成する句（複数の単語からなる表現単位）である。対象原文に含まれる単語ユニグラムは対象原文を構成する単語であり、対象原文に含まれる単語バイグラムおよび単語トライグラムは対象原文を構成する句である。対象翻訳文に含まれる単語ユニグラムは対象翻訳文を構成する単語であり、対象翻訳文に含まれる単語バイグラムおよび単語トライグラムは対象翻訳文を構成する句である。

【0040】

取得部１１は、原単語ｎ−ｇｒａｍセットおよび翻訳単語ｎ−ｇｒａｍセットからストップワードを除去した上でデータセットを判定部１２に出力してもよい。ストップワードを予め取り除くことで、対象翻訳文に関するデータセットの量が減るので、ハードウェア資源（例えば、プロセッサおよびメモリ）の消費量を低減したり、処理速度を上げたりすることが可能になる。ストップワードとして指定される表現は限定されず、例えば記号であってもよいし、特殊文字であってもよいし、数字を含む表現（例えば、商品の型番）であってもよい。

【0041】

判定部１２は、対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと正解語集合との一致度を求め、その一致度に基づいて該対象翻訳文の妥当性を判定する機能要素である。一致度とは、対象翻訳文を構成する単語または句がどのくらい正解語集合内の単語または句と一致するかを示す度合いである。判定部｜はそれぞれの対象翻訳文について以下の処理を実行する。

【0042】

判定部１２は対象翻訳文のｎ−ｇｒａｍの個数ｃ_ｎ（ｔ＾_ｋ）を下記の式（１）により求める。ここで、｜｜ｔ＾_ｋ｜｜は、対象翻訳文を構成する単語の個数を示す。

【数2】

【0043】

次に、判定部１２は単語ｎ−ｇｒａｍ（ｎ＝１，２，３）のそれぞれについて（すなわち、単語ユニグラム、単語バイグラム、および単語トライグラムのそれぞれについて）、対象翻訳文内の各翻訳単語ｎ−ｇｒａｍと正解語集合Ｕとの一致を調べ、一致する単語ｎ−ｇｒａｍの個数ｈ_ｎ（ｔ＾_ｋ，Ｕ）を下記の式（２）により求める。この個数はｎ−ｇｒａｍ一致数ともいう。

【数3】

ここで、ｘは単語ｎ−ｇｒａｍを示す。ｃ（ｔ＾_ｋ，ｘ）はｘが翻訳単語ｎ−ｇｒａｍセットｔ＾_ｋに出現した回数を示し、ｃ（Ｕ，ｘ）はｘが正解語集合Ｕに出現した回数を示す。

【0044】

続いて、判定部１２は単語ｎ−ｇｒａｍ（ｎ＝１，２，３）のそれぞれについて、翻訳単語ｎ−ｇｒａｍセットｔ＾_ｋのｎ−ｇｒａｍ一致率ａ_ｎ（ｔ＾_ｋ，Ｕ）を下記の式（３）により求める。ｎ−ｇｒａｍ一致率とは、対象翻訳文を構成する翻訳単語ｎ−ｇｒａｍのうち、正解語集合内の参照単語ｎ−ｇｒａｍと一致するものの割合である。

【数4】

【0045】

そして、判定部１２はそれぞれの単語ｎ−ｇｒａｍ（ｎ＝１，２，３）の一致率に所定の重みを乗じた値の総和を最終的なスコアとして求める。すなわち、判定部１２は下記の式（４）によりそのスコアを求める。このスコアは、一致度を示す数値の一例である。

【数5】

ここで、一致率ａ_１，ａ_２，ａ_３はそれぞれ、第１の一致率（単語ユニグラムでの一致率）、第２の一致率（単語バイグラムでの一致率）、および第３の一致率（単語トライグラムでの一致率）である。また、α，β，γはそれぞれ、第１の重み、βは第２の重み、第３の重みである。

【0046】

α，β，γの値は限定されないが、例えばα＜β＜γの関係が成り立つようにこれらの重みを設定してもよい。これは、単に単語が一致するよりも句が一致する（複数の単語の並びが一致する）方が翻訳の質が高いといえるからである。例えば、経験的にα＝２、β＝５、γ＝７と設定されてもよい。

【0047】

判定部１２は求めたスコアと所定の閾値とを比較し、スコアが閾値以上であれば対象翻訳文が妥当であると判定し、スコアが閾値未満であれば対象翻訳文が妥当でないと判定する。「対象翻訳文が妥当である」とは、対象翻訳文が対象原文の訳として、意味的にまたは表現上、一定の基準以上の正しさを有することをいう。「対象翻訳文が妥当でない」とは、対象翻訳文の正しさがその基準まで達していないことをいう。

【0048】

単語ｎ−ｇｒａｍの一致度に基づく判定の意義の一つは、翻訳文全体の流暢さおよび文法的な正しさよりも、適切な単語または句が用いられているか否かを重視することである。判定部１２は、文法を考慮せずに、単純に単語ｎ−ｇｒａｍの一致度で翻訳文の妥当性を判断するので、処理が簡易であり、したがってコンピュータの処理負荷も抑えられる。その一方で、一般には、単語または句の正確さは文法の正確さよりも翻訳文の印象に大きく影響するので、単語または句の正確さで翻訳文の妥当性を判断するのは効率的である。すなわち、翻訳支援システム１０はコンピュータの処理負荷を抑えつつ効率的に翻訳文の妥当性を評価することができる。

【0049】

判定部１２は個々の対象翻訳文についての処理結果を生成部１３に渡す。さらに、判定部１２は任意の手法で評価結果を出力してよい。例えば、判定部１２は評価結果をモニタ上に表示してもよいし、所定のデータベースに格納してもよいし、他のコンピュータまたはコンピュータシステムに送信してもよい。判定部１２は処理したすべての対象翻訳文について評価結果を出力してもよいし、妥当でないと判定した対象翻訳文についてのみその評価結果を出力してもよい。ユーザはその評価結果を参照することで、修正が必要な対象翻訳文を容易に突き止めることができる。

【0050】

生成部１３は、翻訳元言語と翻訳言語との間の正しい翻訳を示す辞書データを生成し、その辞書データを辞書データベース２４に格納する機能要素である。

【0051】

対象翻訳文の評価が低くなる要因の一つに、表現（単語または句）が文のカテゴリに特有であり（文のカテゴリに依存し）、機械翻訳（自動翻訳サービス）がその表現を網羅していないことが挙げられる。この典型的な例の一つを下記の表１に示す。

【表1】

【0052】

表１における日本語の単語は企業名の略称または通称を示す固有名詞であり、二つの漢字から成る。この単語は本来は“ＺＯＪＩＲＵＳＨＩ”と英語に訳されるべきである。しかし、機械翻訳（自動翻訳サービス）の辞書がこの固有名詞を網羅していないために、表１に示すような誤訳が発生し得る。表１に示す二つの誤訳はいずれも、二つの漢字のそれぞれが単独でも意味を有するために別々に訳されてしまうことで生じたものである。生成部１３は、誤訳された原文の単語または句を正しい訳と関連付けることで辞書データを生成する。辞書データが蓄積された辞書データベース２４を参照することで、翻訳の精度を上げることが可能になる。

【0053】

生成部１３は、判定部１２により妥当でないと判定された１以上の対象翻訳文から誤訳単語ｎ−ｇｒａｍを取得する。翻訳の品質を全体的に向上させるために、生成部１３は、評価が低かった対象翻訳文を構成する単語ｎ−ｇｒａｍのうち出現頻度が高いものに着目してもよい。生成部１３は以下の処理を実行することで、出現頻度が高い単語ｎ−ｇｒａｍを誤訳単語ｎ−ｇｒａｍとして取得する。

【0054】

具体的には、生成部１３はその対象翻訳文を構成する単語ユニグラム（すなわち、単語）のうち正解語集合と一致しなかったものを抽出する。生成部１３は、抽出した単語群からストップワードを除去してもよい。ストップワードを予め取り除くことで、処理される単語の量が減るので、ハードウェア資源（例えば、プロセッサおよびメモリ）の消費量を低減したり、処理速度を上げたりすることが可能になる。上述したように、ストップワードとして指定される表現は限定されない。続いて、生成部１３は、抽出された単語のうち出現回数が所定の閾値以上であるものを選択する。

【0055】

次いで、生成部１３は選択した単語を含む単語バイグラムおよび単語トライグラムをデータセット（１以上の対象翻訳文の単語ｎ−ｇｒａｍセット）から抽出する。単語（単語ユニグラム）を単独で見ただけでは、それが正しい訳なのか誤訳なのかを判断することが困難である。そこで、生成部１３はその単語を含む単語バイグラムおよび単語トライグラムを考慮することで（すなわち、句を考慮することで）、その単語ｎ−ｇｒａｍが誤訳か否かを判定する。

【0056】

生成部１３は、そのように抽出した単語バイグラムおよび単語トライグラムのそれぞれについて自己相互情報量（ＰＭＩ：ＰｏｉｎｔｗｉｓｅＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）を計算する。生成部１３は、翻訳単語ｎ−ｇｒａｍがバイグラムである場合には下記の式（５）によりＰＭＩを求め、翻訳単語ｎ−ｇｒａｍがトライグラムである場合には下記の式（６）によりＰＭＩを求める。

【数6】

【数7】

ここで、Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｚ）はそれぞれ、単語ｘが文中に出現する確率、単語ｙが文中に出現する確率、および単語ｚが文中に出現する確率を示す。Ｐ（ｘ，ｙ）は単語ｘ，ｙの並びが文中に出現する確率であり、Ｐ（ｙ，ｚ）は単語ｙ，ｚの並びが文中に出現する確率である。Ｐ（ｘ，ｙ，ｚ）は単語ｘ，ｙ，ｚの並びが文中に出現する確率である。

【0057】

生成部１３はＰＭＩが所定の閾値以上の単語バイグラムまたは単語トライグラム（すなわち、ＰＭＩが所定の閾値以上の句）を誤訳単語ｎ−ｇｒａｍ（ｎ＝２，３）として取得する。

【0058】

続いて、生成部１３はそれぞれの誤訳単語ｎ−ｇｒａｍについて、誤訳ペアを決定し、さらに正しい翻訳ペアを決定する。対象翻訳文に含まれる誤訳は対象原文中にある何かしらの表現（単語または句）を翻訳した結果であるが、どの部分が誤訳であるかはこの時点では不明である。生成部１３は誤訳単語ｎ−ｇｒａｍに対応する原単語ｎ−ｇｒａｍを特定し、その原単語ｎ−ｇｒａｍの正しい翻訳を推定することで、翻訳元言語の単語または句と、翻訳言語の単語または句との正しい対応を求める。対象翻訳文の中には誤訳もあれば正しい翻訳（適切な翻訳）も存在する。例えば、対象翻訳文の集合内には、機械翻訳により得られた文と、人により適切に翻訳された文とが混在し得る。そのため、対象原文中の表現が誤って翻訳される場合（すなわち誤訳）と正しく翻訳される場合とがあり、これら２種類の翻訳は一つの対象翻訳文の中に同時に出現しないと考えられる。そこで生成部１３は、対象翻訳ペアの集合であるデータセットＤを下記の二つのグループＤ´_ｅｊ，Ｄ´´_ｅｊに分ける。

【数8】

【数9】

グループＤ´_ｅｊは誤訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含む対象翻訳ペアの集合であり、グループＤ´´_ｅｊはその誤訳単語ｎ−ｇｒａｍを含まない対象翻訳ペアの集合である。

【0059】

続いて、生成部１３はグループＤ´_ｅｊ内の原単語ｎ−ｇｒａｍセットｔ_ｋ＝（ｕ_１，…，ｕ_Ｊ）を構成するすべての原単語ｎ−ｇｒａｍについてカイ二乗値（χ^２）を求める。カイ二乗値の計算方法は限定されないが、例えば生成部１３は下記の式（７）によりカイ二乗値を求めてもよい。

【数10】

ここで、変数ａ，ｂ，ｃ，ｄ，ｎの意味は以下の通りである。
・ａ：対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含み且つ対象翻訳文中に誤訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含む対象翻訳ペアの個数。
・ｂ：対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含み且つ対象翻訳文中に誤訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含まない対象翻訳ペアの個数。
・ｃ：対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含まず且つ対象翻訳文中に誤訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含む対象翻訳ペアの個数。
・ｄ：対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含まず且つ対象翻訳文中に誤訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含まない対象翻訳ペアの個数。
・ｎ：対象翻訳ペアの総数であり、ｎ＝ａ＋ｂ＋ｃ＋ｄである。

【0060】

変数ａ〜ｄの関係を下記の表２に示す。

【表2】

【0061】

生成部１３はある一つの誤訳単語ｎ−ｇｒａｍと対象原文中の各原単語ｎ−ｇｒａｍとの間のカイ二乗値を求め、そのカイ二乗値に基づいて、誤訳単語ｎ−ｇｒａｍに対応する一つの原単語ｎ−ｇｒａｍを決定する。この誤訳単語ｎ−ｇｒａｍおよび原単語ｎ−ｇｒａｍの対応を「誤訳ペア」という。

【0062】

生成部１３は誤訳ペアを半自動的に決めてもよい。具体的には、生成部１３はカイ二乗値の降順に原単語ｎ−ｇｒａｍを並べた上で、上位ｍ個の原単語ｎ−ｇｒａｍをユーザ端末（図示せず）に送信する。そして、生成部１３は、その送信に応じてユーザ端末で選択され翻訳支援システム１０に送られてきた一つの原単語ｎ−ｇｒａｍを誤訳単語ｎ−ｇｒａｍと関連付けることで誤訳ペアを決定する。あるいは、生成部１３はカイ二乗値が最高の原単語ｎ−ｇｒａｍをその誤訳単語ｎ−ｇｒａｍと関連付けることで誤訳ペアを自動的に決定してもよい。ある原単語ｎ−ｇｒａｍのカイ二乗値が高いということは、誤訳単語ｎ−ｇｒａｍを含むデータセットの中にその原単語ｎ−ｇｒａｍが特徴的に現れ、この誤訳単語ｎ−ｇｒａｍと原単語ｎ−ｇｒａｍとが対応しているであろうと推定できることを意味する。

【0063】

誤訳ペアを得ると、生成部１３は、そのペアを構成する原単語ｎ−ｇｒａｍの正しい翻訳と推定される翻訳単語ｎ−ｇｒａｍを得る。具体的には、生成部１３は対象翻訳ペアの集合であるデータセットＤを下記の二つのグループＤ´_ｊｅ，Ｄ´´_ｊｅに分ける。

【数11】

【数12】

グループＤ´_ｊｅは原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含む対象翻訳ペアの集合であり、グループＤ´´_ｊｅはその原単語ｎ−ｇｒａｍを含まない対象翻訳ペアの集合である。

【0064】

続いて、生成部１３はグループＤ´_ｊｅ内の翻訳単語ｎ−ｇｒａｍセットｔ＾_ｋ＝（ｕ＾_１，…，ｕ＾_Ｉ）を構成するすべての翻訳単語ｎ−ｇｒａｍについて、上記の式（７）によりカイ二乗値（χ^２）を求める。この計算における変数ａ，ｂ，ｃ，ｄ，ｎの意味は以下の通りであり、変数ａ〜ｄの関係は上記の表２と同様に示すことができる。
・ａ：対象翻訳文中に翻訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含み且つ対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含む対象翻訳ペアの個数。
・ｂ：対象翻訳文中に翻訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含み且つ対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含まない対象翻訳ペアの個数。
・ｃ：対象翻訳文中に翻訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含まず且つ対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含む対象翻訳ペアの個数。
・ｄ：対象翻訳文中に翻訳単語ｎ−ｇｒａｍ（ｕ＾_ｉ）を含まず且つ対象原文中に原単語ｎ−ｇｒａｍ（ｕ_ｊ）を含まない対象翻訳ペアの個数。
・ｎ：対象翻訳ペアの総数であり、ｎ＝ａ＋ｂ＋ｃ＋ｄである。

【0065】

生成部１３はある一つの原単語ｎ−ｇｒａｍと対象翻訳中の各翻訳単語ｎ−ｇｒａｍとの間のカイ二乗値を求め、そのカイ二乗値に基づいて、原単語ｎ−ｇｒａｍに対応する一つの翻訳単語ｎ−ｇｒａｍを決定する。この原単語ｎ−ｇｒａｍおよび翻訳単語ｎ−ｇｒａｍの対応を「正しい翻訳ペア」という。

【0066】

生成部１３は正しい翻訳ペアを半自動的に決めてもよい。具体的には、生成部１３は、カイ二乗値の降順に翻訳単語ｎ−ｇｒａｍを並べた上で、上位ｍ´個の翻訳単語ｎ−ｇｒａｍをユーザ端末（図示せず）に送信する。そして、生成部１３は、この送信に応じてユーザ端末で選択され翻訳支援システム１０に送られてきた一つの翻訳単語ｎ−ｇｒａｍをその原単語ｎ−ｇｒａｍと関連付けることで正しい翻訳ペアを決定する。あるいは、生成部１３はカイ二乗値が最高の翻訳単語ｎ−ｇｒａｍをその原単語ｎ−ｇｒａｍと関連付けることで正しい翻訳ペアを自動的に決定してもよい。ある翻訳単語ｎ−ｇｒａｍのカイ二乗値が高いということは、原単語ｎ−ｇｒａｍを含むデータセットの中にその翻訳単語ｎ−ｇｒａｍが特徴的に現れ、この原単語ｎ−ｇｒａｍと翻訳単語ｎ−ｇｒａｍとが対応しているであろうと推定できることを意味する。

【0067】

上記の処理により、生成部１３は誤訳単語ｎ−ｇｒａｍと、原単語ｎ−ｇｒａｍと、正しい訳と推定される翻訳単語ｎ−ｇｒａｍとの組を得る。あるいは、生成部１３は原単語ｎ−ｇｒａｍと、正しい訳と推定される翻訳単語ｎ−ｇｒａｍとの組を得る。上記の処理は、誤訳単語ｎ−ｇｒａｍを含む１以上のペアの中から、該誤訳単語ｎ−ｇｒａｍと共に出現する度合いに基づいて、一つの原単語ｎ−ｇｒａｍを決定し、その原単語ｎ−ｇｒａｍを含む１以上のペアの中から、該原単語ｎ−ｇｒａｍと共に出現する度合いに基づいて、一つの正しい翻訳単語ｎ−ｇｒａｍを決定する処理の一例である。本実施形態では、ある原単語ｎ−ｇｒａｍが誤訳単語ｎ−ｇｒａｍと共に出現する度合いと、ある翻訳単語ｎ−ｇｒａｍが原単語ｎ−ｇｒａｍと共に出現する度合いとをいずれもカイ二乗値により求める。しかし、これらの度合いの計算方法はカイ二乗値に限定されない。

【0068】

生成部１３は取得した組を辞書データのレコードとして辞書データベース２４に格納する。この結果、対象翻訳文を作成した人またはコンピュータが対応できなかった表現についての辞書データが得られる。

【0069】

［システムの動作］
次に、図３〜図９を参照しながら、翻訳支援システム１０の動作を説明するとともに本実施形態に係る翻訳支援方法について説明する。

【0070】

図３は翻訳支援システム１０の全体的な動作を示すフローチャートである。この図に示すように、翻訳支援システム１０はまず対象原文および対象翻訳文のペア（データセット）を取得すると共に、正解語集合を取得する（ステップＳ１、取得ステップ）。続いて、翻訳支援システム１０は正解語集合との一致度に基づいて対象翻訳文の妥当性を判定する（ステップＳ２、判定ステップ）。さらに、翻訳支援システム１０は翻訳元言語と翻訳言語との正しい対応を示す辞書データを生成する（ステップＳ３、生成ステップ）。

【0071】

図４はデータを取得する処理（ステップＳ１）の詳細を示すフローチャートである。ステップＳ１では、取得部１１が１以上の対象原文を対象原文データベース２１から取得し、各対象原文の単語ｎ−ｇｒａｍセット（原単語ｎ−ｇｒａｍセット）を生成する（ステップＳ１１）。また、取得部１１は１以上の対象翻訳文を対象翻訳データベース２２から取得し、各対象翻訳文の単語ｎ−ｇｒａｍセット（翻訳単語ｎ−ｇｒａｍセット）を生成する（ステップＳ１２）。そして、取得部１１は対象原文と対象翻訳文との間の単語ｎ−ｇｒａｍセットのペア（対象翻訳ペア）を生成する（ステップＳ１３）。さらに、取得部１１は１以上の参照文を参照文データベース２３から取得し、各参照文の単語ｎ−ｇｒａｍセット（参照単語ｎ−ｇｒａｍセット）を生成し、それらの参照単語ｎ−ｇｒａｍセットを正解語集合として取得する（ステップＳ１４）。

【0072】

次いで、図５に示す処理に移る。図５は翻訳の妥当性を判定する処理（ステップＳ２）の詳細を示すフローチャートである。ステップＳ２では、判定部１２が一つの対象翻訳文を選択し（ステップＳ２１）、その対象選択文の単語ｎ−ｇｒａｍセットと正解語集合との一致率を算出する（ステップＳ２２）。判定部１２は単語ユニグラム、単語バイグラム、および単語トライグラム（すなわち、ｎ＝１，２，３）のそれぞれについてその一致率を求める。

【0073】

続いて、判定部１２はその一致率を用いて、翻訳単語ｎ−ｇｒａｍセットと正解語集合との一致度を示すスコアを求める（ステップＳ２３）。そして、判定部１２はそのスコアを所定の閾値と比較する（ステップＳ２４）。判定部１２は、スコアが閾値以上であれば（ステップＳ２４においてＹＥＳ）対象翻訳文が妥当であると判定し（ステップＳ２５）、スコアが閾値未満であれば（ステップＳ２４においてＮＯ）対象翻訳文が妥当でないと判定する（ステップＳ２６）。この結果、一つの対象翻訳文の妥当性についての評価結果が得られる。判定部１２は評価すべき対象翻訳文のすべてについてステップＳ２１〜Ｓ２６の処理を実行する（ステップＳ２７を参照）。

【0074】

次いで、図６〜図８に示す処理に移る。図６〜図８は辞書データを生成する処理（ステップＳ３）の詳細を示すフローチャートである。ステップ３では、生成部１３が１以上の対象翻訳文の単語（単語ユニグラム）のうち正解語集合と一致しなかったものを抽出し（ステップＳ３１）、抽出した単語のうち、出現回数が所定の閾値以上であるものを選択する（ステップＳ３２）。続いて、生成部１３は選択した単語を含む１以上の単語バイグラムおよび１以上の単語トライグラムを抽出し（ステップＳ３３）、これらの単語バイグラムおよび単語トライグラムのそれぞれについてＰＭＩを求める（ステップＳ３４）。そして、生成部１３はＰＭＩが所定の閾値以上の単語バイグラムまたは単語トライグラムを誤訳単語ｎ−ｇｒａｍ（ｎ＝２，３）として取得する（ステップＳ３５）。

【0075】

次いで、図７に示す処理に移る。生成部１３は一つの誤訳単語ｎ−ｇｒａｍを選び（ステップＳ３６）、この誤訳単語ｎ−ｇｒａｍを含むデータセットＤ´_ｅｊから一つの原単語ｎ−ｇｒａｍを選択する（ステップＳ３７）。ここで選択される原単語ｎ−ｇｒａｍは単語ユニグラム、単語バイグラム、または単語トライグラムである。続いて、生成部１３は誤訳単語ｎ−ｇｒａｍ（ｎ＝２または３）と選択した原単語ｎ−ｇｒａｍ（ｎ＝１、２、または３）との間のカイ二乗値を求める（ステップＳ３８）。生成部１３はデータセットＤ´_ｅｊ内のすべての原単語ｎ−ｇｒａｍについてステップＳ３７およびＳ３８の処理を実行する（ステップＳ３９を参照）。そして、生成部１３はカイ二乗値に基づいて、選択した誤訳単語ｎ−ｇｒａｍに対応する原単語ｎ−ｇｒａｍを決定する（ステップＳ４０）。この処理は誤訳ペアの決定である。生成部１３はこのペアを自動的に決定してもよいし、ユーザの入力に従って半自動的に決定してもよい。

【0076】

次いで、図８に示す処理に移る。生成部１３は決定した原単語ｎ−ｇｒａｍ、すなわち誤訳ペアの原単語ｎ−ｇｒａｍを含むデータセットＤ´_ｊｅから一つの翻訳単語ｎ−ｇｒａｍを選択する（ステップＳ４１）。ここで選択される翻訳単語ｎ−ｇｒａｍは単語ユニグラム、単語バイグラム、または単語トライグラムである。続いて、生成部１３は原単語ｎ−ｇｒａｍ（ｎ＝１、２、または３）と選択した翻訳単語ｎ−ｇｒａｍ（ｎ＝１、２、または３）との間のカイ二乗値を求める（ステップＳ４２）。生成部１３はデータセットＤ´_ｊｅ内のすべての翻訳単語ｎ−ｇｒａｍについてステップＳ４１およびＳ４２の処理を実行する（ステップＳ４３を参照）。そして、生成部１３はカイ二乗値に基づいて、原単語ｎ−ｇｒａｍに対応する翻訳単語ｎ−ｇｒａｍを決定する（ステップＳ４４）。この処理は正しい翻訳ペアの決定である。生成部１３はこのペアを自動的に決定してもよいし、ユーザの入力に従って半自動的に決定してもよい。

【0077】

誤訳ペアおよび正しい翻訳ペアを決めると、生成部１３は少なくとも正しい翻訳ペアを含む辞書データを生成し、この辞書データを辞書データベース２４に格納する（ステップＳ４５）。生成部１３は、ステップＳ３５で取得したすべての誤訳単語ｎ−ｇｒａｍについてステップＳ３６〜Ｓ４５の処理を実行する（ステップＳ４６を参照）。

【0078】

図９はステップＳ３の処理により得られる誤訳ペアおよび正しい翻訳ペアの一例を示し、これは辞書データの生成の一例ともいうことができる。図９の例は、実際に構築した翻訳支援システム１０において発生した事象である。生成部１３がステップＳ３６において、上記表１に示す誤訳単語ｎ−ｇｒａｍ“ｅｌｅｐｈａｎｔｍａｒｋｅｄ”を選択したとする。この場合、生成部１３はステップＳ４０において、その誤訳単語ｎ−ｇｒａｍに対して、図９に示す原単語ｎ−ｇｒａｍ９０を選択し、これらの単語ｎ−ｇｒａｍのペアを誤訳ペアとして決定する。原単語ｎ−ｇｒａｍ９０は本来は１単語の固有名詞であるが、図９に示すように、二つの原単語９１，９２の並び、すなわち単語バイグラムとして取得されることがある。ｉｐａｄｉｃを用いた形態素解析では、その辞書にない単語（例えば固有名詞）が、一般名詞を意味する複数の単語の並びに分割されることがあり得る。原単語９１，９２の間のスラッシュは、本来は１単語である原単語９０が二つの原単語９１，９２に分割されたことを意味する。生成部１３はステップＳ４４において、この原単語ｎ−ｇｒａｍ９０に対応する翻訳単語ｎ−ｇｒａｍとして“ＺＯＪＩＲＵＳＨＩ”を得て、これらの単語ｎ−ｇｒａｍのペアを正しい翻訳ペアとして決定することができる。

【0079】

図９に示す例のように、翻訳元言語の単語が辞書に登録されていないためにその単語が正しく認識されない場合でも、翻訳支援システム１０は翻訳元言語と翻訳言語との間で単語ｎ−ｇｒａｍを比較することで、正しい翻訳ペアを得ることが可能である。

【0080】

［プログラム］
次に、図１０を参照しながら、コンピュータを翻訳支援システム１０として機能させるための翻訳支援プログラムＰ１を説明する。図１０は翻訳支援プログラムＰ１の構成を示す図である。

【0081】

翻訳支援プログラムＰ１はメインモジュールＰ１０、取得モジュールＰ１１、判定モジュールＰ１２、および生成モジュールＰ１３を含む。メインモジュールＰ１０は翻訳支援を統括的に管理する部分である。取得モジュールＰ１１、判定モジュールＰ１２、および生成モジュールＰ１３を実行することで、取得部１１、判定部１２、および生成部１３が実現する。

【0082】

翻訳支援プログラムＰ１は、例えば、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、翻訳支援プログラムＰ１は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

【0083】

［効果］
以上説明したように、本発明の一側面に係る翻訳支援システムは、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語ｎ−ｇｒａｍを含む集合を正解語集合として取得する取得部と、対象翻訳文を構成する１以上の翻訳単語ｎ−ｇｒａｍと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定部とを備える。

【0084】

【0085】

【0086】

【0087】

本発明のその側面では、分類器による判定スコアを用いず、対象翻訳文と参照文との間の単語ｎ−ｇｒａｍの一致度を求めるという単純な手法により翻訳文の妥当性を評価する。したがって、コンピュータの処理負荷を抑えつつ翻訳文を適切に評価することができる。

【0088】

人が翻訳文を評価すれば参照訳は不要であるが、評価基準が曖昧になるおそれがあり、大量の翻訳文を処理する場合には時間が掛かってコストが高くなってしまう。これに対して、本発明の上記側面によれば、大量の評価対象の翻訳文を高速に且つ客観的に評価することができる。

【0089】

他の側面に係る翻訳支援システムでは、判定部が、翻訳単語の単語ユニグラムでの第１の一致率および第１の重みの積と、翻訳単語の単語バイグラムでの第２の一致率および第２の重みの積と、翻訳単語の単語トライグラムでの第３の一致率および第３の重みの積とを用いて一致度を求め、ここで、第２の重みが第１の重みよりも大きく、第３の重みが第２の重みよりも大きくてもよい。単語だけでなく句（複数の単語の並び）も考慮することで、評価対象の翻訳文の妥当性を正確に判定することができる。また、多くの単語を含む句についての一致率が高いほど、対象翻訳文の妥当性は高いといえるので、単語の並びが多くなるほど重みを大きくすることで、評価対象の翻訳文の妥当性を正確に判定することができる。

【0090】

他の側面に係る翻訳支援システムでは、取得部が、対象翻訳文と同じカテゴリに属する参照文を構成する参照単語ｎ−ｇｒａｍの集合を正解語集合として取得してもよい。評価対象の翻訳文と参照文との間でカテゴリを合わせることで、そのカテゴリにおいて特徴的な単語または句の妥当性をより正確に判定できる。翻訳元言語の一つの単語または句が翻訳言語の複数の単語または句に対応することがあり得る。このような場面で文のカテゴリを考慮することで、翻訳元言語の一つの単語または句に対応する翻訳言語の単語または句を一つに絞ることが可能になる。その結果、評価対象の翻訳文の妥当性をより正確に判定することが可能になる。

【0091】

他の側面に係る翻訳支援システムでは、複数の参照文を分析して、各参照文に含まれる単語と対象翻訳文に含まれる単語との一致度に基づいて、対象翻訳文と同じカテゴリに属する参照文を抽出する抽出部をさらに備え、取得部が、抽出部により抽出された参照文から正解語集合を取得してもよい。この場合には、人手に頼ることなく、対象翻訳文および参照文を自動的に分類して、評価対象の翻訳文と参照文との間でカテゴリを合わせることができる。

【0092】

他の側面に係る翻訳支援システムは、判定部により妥当でないと判定された対象翻訳文から抽出した一つの誤訳単語ｎ−ｇｒａｍに対応する一つの原単語ｎ−ｇｒａｍを対象原文から決定し、該原単語ｎ−ｇｒａｍに対応する一つの正しい翻訳単語ｎ−ｇｒａｍを対象翻訳文から決定し、少なくとも該原単語ｎ−ｇｒａｍおよび該正しい翻訳単語ｎ−ｇｒａｍが関連付けられた辞書データを辞書データベースに格納する生成部をさらに備えてもよい。まず誤訳単語ｎ−ｇｒａｍから原単語ｎ−ｇｒａｍを導き、次いでその原単語ｎ−ｇｒａｍから正しい翻訳単語ｎ−ｇｒａｍを導出することで、翻訳元言語と翻訳言語との間の正しい翻訳を辞書に登録することができる。

【0093】

他の側面に係る翻訳支援システムでは、複数の対象翻訳文および複数の対象原文が存在し、生成部が、複数の対象翻訳文のそれぞれについて、該対象翻訳文の翻訳単語ｎ−ｇｒａｍのセットと、該対象翻訳文に対応する対象原文の原単語ｎ−ｇｒａｍのセットとのペアを取得し、誤訳単語ｎ−ｇｒａｍを含む１以上のペアの中から、該誤訳単語ｎ−ｇｒａｍと共に出現する度合いに基づいて、一つの原単語ｎ−ｇｒａｍを決定し、決定された原単語ｎ−ｇｒａｍを含む１以上のペアの中から、該原単語ｎ−ｇｒａｍと共に出現する度合いに基づいて、一つの正しい翻訳単語ｎ−ｇｒａｍを決定してもよい。このように誤訳単語ｎ−ｇｒａｍから原単語ｎ−ｇｒａｍを導きその原単語ｎ−ｇｒａｍから翻訳単語ｎ−ｇｒａｍを決定することで、翻訳元言語と翻訳言語との間の正しい翻訳をより正確に得ることができる。

【0094】

他の側面に係る翻訳支援システムでは、生成部が、１以上の翻訳単語ｎ−ｇｒａｍのうち正解語集合と一致しなかった単語ユニグラムを選択し、該単語ユニグラムを含む１以上の単語バイグラムまたは１以上の単語トライグラムを抽出し、抽出した単語バイグラムまたは単語トライグラムのうち自己相互情報量が所定の閾値以上である単語バイグラムまたは単語トライグラムを誤訳単語ｎ−ｇｒａｍとして取得してもよい。単に正解語集合と一致しなかった単語ｎ−ｇｒａｍを誤訳単語ｎ−ｇｒａｍとして処理するのではなく、出現しやすい単語バイグラムまたは単語トライグラムに限定して辞書データを生成することで、コンピュータの処理負荷を抑えつつ辞書データを効率的に生成できる。より具体的に言うと、誤訳の頻度が高い句を正すための辞書データが生成されるので、辞書の品質を効率良く向上させることができる。

【0095】

［変形例］
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

【0096】

上記実施形態では翻訳支援システム１０が生成部１３を備えるが、生成部は必須の構成要素ではなく、省略されてもよい。この場合には翻訳支援システムは辞書データベースにアクセスしなくてもよい。

【0097】

上記実施形態では取得部１１が参照文を１以上の単語に分割することで正解語集合を取得したが、正解語集合が予め参照文データベースに記憶されていてもよい。この場合には、取得部はその参照文データベースから正解語集合を読み出し、判定部（および生成部）はその正解語集合をそのまま用いることができる。この変形例では、個々の参照単語ｎ−ｇｒａｍにカテゴリが関連付けられてもよい。

【0098】

上記実施形態では翻訳支援システム１０が単語ユニグラム、単語バイグラム、および単語トライグラムを処理したが、翻訳支援システムは単語トライグラムを用いることなく単語ユニグラムおよび単語バイグラムのみを用いて上記の一連の処理を実行してもよい。

【0099】

少なくとも一つのプロセッサにより実行される翻訳支援方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ（処理）の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の２以上のステップが組み合わされてもよいし、ステップの一部が修正又は削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。

【0100】

翻訳支援システム内で二つの数値の大小関係を比較する際には、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」という二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。

【符号の説明】

【0101】

１０…翻訳支援システム、１１…取得部、１２…判定部、１３…生成部、２１…対象原文データベース、２２…対象翻訳データベース、２３…参照文データベース、２４…辞書データベース、Ｐ１…翻訳支援プログラム、Ｐ１０…メインモジュール、Ｐ１１…取得モジュール、Ｐ１２…判定モジュール、Ｐ１３…生成モジュール。

【図1】