【文献】
嶋田 雅彦 外1名,機械翻訳選択のためのサービス品質評価手法,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2011年 2月21日,第110巻第428号,pp.57-62
【文献】
赤部 晃一 外4名,機械翻訳システムの誤り分析のための誤り箇所選択手法,自然言語処理,日本,一般社団法人言語処理学会,2016年 1月25日,第23巻第1号,pp.87-117
(58)【調査した分野】(Int.Cl.,DB名)
対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、前記翻訳言語で記述され且つ前記対象原文とは独立した参照文を構成する参照単語n−gramを含む集合を正解語集合として取得する取得部と、
前記対象翻訳文を構成する1以上の翻訳単語n−gramと前記正解語集合との一致度を求め、該一致度に基づいて前記対象翻訳文の妥当性を判定する判定部と
を備え、
前記判定部が、翻訳単語の第1の単語n−gramでの第1の一致率および第1の重みの積と、前記翻訳単語の第2の単語n−gramでの第2の一致率および第2の重みの積とを少なくとも用いて前記一致度を求め、ここで、前記第2の単語n−gramが前記第1の単語n−gramよりも値nが大きく、前記第2の重みが前記第1の重みよりも大きい、
翻訳支援システム。
複数の前記参照文を分析して、各参照文に含まれる単語と前記対象翻訳文に含まれる単語との一致度に基づいて、前記対象翻訳文と同じカテゴリに属する前記参照文を抽出する抽出部をさらに備え、
前記取得部が、前記抽出部により抽出された参照文から前記正解語集合を取得する、
請求項4に記載の翻訳支援システム。
対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、前記翻訳言語で記述され且つ前記対象原文とは独立した参照文を構成する参照単語n−gramを含む集合を正解語集合として取得する取得ステップと、
前記対象翻訳文を構成する1以上の翻訳単語n−gramと前記正解語集合との一致度を求め、該一致度に基づいて前記対象翻訳文の妥当性を判定する判定ステップと
をコンピュータシステムに実行させ、
前記判定ステップでは、翻訳単語の第1の単語n−gramでの第1の一致率および第1の重みの積と、前記翻訳単語の第2の単語n−gramでの第2の一致率および第2の重みの積とを少なくとも用いて前記一致度を求め、ここで、前記第2の単語n−gramが前記第1の単語n−gramよりも値nが大きく、前記第2の重みが前記第1の重みよりも大きい、
翻訳支援プログラム。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
【0012】
[システムの構成]
実施形態に係る翻訳支援システム10は、人手による翻訳または機械翻訳の妥当性を評価するコンピュータシステムである。「翻訳の妥当性を評価する」とは、翻訳結果が意味的にまたは表現上どれくらい正しいかを所定の基準に従って客観的に判定することをいう。翻訳支援システム10の特徴の一つは、評価対象の翻訳文の正解(本来このように翻訳されるべきということを示す参照訳)を用いることなく該翻訳文の妥当性を評価する点にある。より具体的には、翻訳支援システム10は、評価対象の翻訳文が本来どのように翻訳されるべきものであるかという情報が無い状況で、その翻訳文とは独立した他の手掛かりに基づいてその翻訳文の妥当性を評価する。翻訳支援システム10の更なる特徴は、その評価結果に基づいて正しい翻訳辞書を生成する点にある。
【0013】
図1は翻訳支援システム10を構成するコンピュータ100の一般的なハードウェア構成を示す。例えば、コンピュータ100はプロセッサ101、主記憶部102、補助記憶部103、通信制御部104、入力装置105、および出力装置106を備える。プロセッサ101はオペレーティングシステムおよびアプリケーション・プログラムを実行する。主記憶部102は例えばROMおよびRAMで構成される。補助記憶部103は例えばハードディスクまたはフラッシュメモリで構成され、一般に主記憶部102よりも大量のデータを記憶する。通信制御部104は例えばネットワークカードまたは無線通信モジュールで構成される。入力装置105は例えばキーボード、マウス、タッチパネルなどで構成される。出力装置106は例えばモニタおよびスピーカで構成される。
【0014】
翻訳支援システム10の各機能要素は、プロセッサ101または主記憶部102の上に所定のソフトウェア(例えば、後述する翻訳支援プログラムP1)を読み込ませてそのソフトウェアを実行させることで実現される。プロセッサ101はそのソフトウェアに従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納される。
【0015】
翻訳支援システム10は1台のコンピュータで構成されてもよいし、複数台のコンピュータで構成されてもよい。複数台のコンピュータを用いる場合には、これらのコンピュータがインターネットやイントラネットなどの通信ネットワークを介して接続されることで、論理的に一つの翻訳支援システム10が構築される。
【0016】
翻訳支援システム10はインターネットやイントラネットなどの通信ネットワークを介してデータベースにアクセスすることができる。データベースは、プロセッサまたは外部のコンピュータからの任意のデータ操作(例えば、抽出、追加、削除、上書きなど)に対応できるようにデータ集合を記憶する機能要素または装置である。データベースの実装方法は限定されず、例えばデータベース管理システム(DBMS)が用いられてよいし、テキストファイルがデータベースとして機能してもよい。本実施形態では、翻訳支援システム10は
図2に示す対象原文データベース21、対象翻訳データベース22、参照文データベース23、および辞書データベース24にアクセス可能である。
【0017】
対象原文データベース21、対象翻訳データベース22、参照文データベース23、および辞書データベース24が設けられる位置は限定されない。本実施形態ではこれらのデータベースが翻訳支援システム10とは別の装置であるとする。しかし、翻訳支援システム10を構成するコンピュータの中に少なくとも一つのデータベースが構築されてもよい。あるいは、少なくとも一つのデータベースが、翻訳支援システム10とは独立したコンピュータシステム内に設置されてもよい。四つのデータベースの管理主体は同じであってもよいし、互いに異なってもよい。
【0018】
対象原文データベース21は1以上の対象原文を記憶するデータベースであり、例えば多数の対象原文を記憶する。「対象原文」とは翻訳元言語(source language)で記述された文、すなわち、翻訳される前の文である。翻訳元言語とは翻訳の際に起点となる言語である。「文」とはまとまった内容を表す一続きの言葉である。文の構成は何ら限定されず、例えば、文は主語および述語を含んでもよいし、名詞の羅列でもよい。
【0019】
対象翻訳データベース22は1以上の対象翻訳文を記憶するデータベースであり、例えば多数の対象翻訳文を記憶する。「対象翻訳文」とは、対象原文を翻訳言語で翻訳および記述することで得られる文である。したがって、一つの対象翻訳文は一つの対象原文に対応する。翻訳支援システム10はこの対象翻訳文の妥当性を評価する。
【0020】
対象原文データベース21内の個々の対象原文と対象翻訳データベース22内の個々の対象翻訳文とは予め互いに関連付けられており、このリンクにより、翻訳支援システム10はどの対象原文がどのように翻訳されたかを知ることができる。対象原文と対象翻訳文とを関連付ける方法は限定されない。例えば、対象原文と対象翻訳文との対応表が用いられてもよいし、対象原文が記述されたウェブページと対象翻訳文が記述されたウェブページとがハイパーリンクによりつながっていてもよい。このように対象原文および対象翻訳文が関連付けられるので、対象翻訳文の品質を考慮しなければ、形式上、対象原文および対象翻訳文のセットをパラレルコーパスとして利用することができる。
【0021】
参照文データベース23は1以上の参照文を記憶するデータベースであり、例えば多数の参照文を記憶する。個々の参照文は翻訳言語で記述されたものである。参照文は、ある文の翻訳である必要はなく、他言語の文とは関係なく最初から翻訳言語で記述された文であってもよい。参照文の一部または全部は対象原文とは独立した文である。1以上の参照文の一部が対象翻訳文の正解であってもよいが、参照文の少なくとも一部は対象原文とは独立したものである。「対象原文とは独立した文」とは、対象原文とは無関係に作成された文、または対象原文に依存しない文のことをいう。対象原文とは独立した参照文は、対象原文を翻訳言語に翻訳した文ではなく、したがって対象原文の翻訳の正解ではない。参照文は対象原文および対象翻訳文とは異なる外部の情報源であるともいえる。
【0022】
参照文は、例えば翻訳言語のネイティブ・スピーカ、または翻訳言語について一定の水準以上の語学力を有する者により記述された文である。したがって、参照文は、翻訳言語を理解できる者から見て自然な表現および言い回しで記述された文である。本明細書における「正解」という語は、翻訳言語による表現として間違っていないことを意味するものであり、別の表現の存在を否定するものではないことに留意されたい。
【0023】
これに対して、妥当性が評価される対象翻訳文は、例えば機械翻訳(自動翻訳サービス)、または翻訳言語の語学力が一定の水準を満たさない者により記述される場合がある。そのため、対象翻訳文は誤訳を含むか、または翻訳言語を理解できる者が違和感を覚える表現または言い回しを含む可能性がある。その一方で、対象翻訳文の中には適切に翻訳された文も存在し得る。したがって、対象翻訳文の品質は文によって大きく異なり得る。翻訳支援システム10は、自然な表現および言い回しで記述され且つ対象翻訳文とは独立した参照文を手掛かりに個々の対象翻訳文の表現または言い回しを評価する。
【0024】
当然ながら、翻訳元言語と翻訳言語とは互いに異なる。翻訳元言語および翻訳言語は何ら限定されず、したがって翻訳支援システム10は世界に存在する多数の言語から翻訳元言語および翻訳言語を選択することができる。本実施形態では翻訳元言語が日本語であり翻訳言語が英語であるとする。
【0025】
対象原文および対象翻訳文が表す内容は何ら限定されず、参照文が表す内容も何ら限定されない。参照文は対象原文および対象翻訳文と独立しているから、参照文が属するカテゴリは、対象翻訳文が属するカテゴリと全く無関係であってもよいし対応してもよい。文のカテゴリとは、文の内容に基づく分類である。双方のカテゴリが対応するとは、双方のカテゴリが同一であるか、一方が他方を包含するか、または双方が共通の領域を意味することである。対象原文、対象翻訳文、および参照文のそれぞれに文のカテゴリが関連付けられた状態でそれぞれの文がデータベースに予め記憶されてもよい。
【0026】
例えば、対象原文データベース21は、日本向けの第1の電子商取引サイト(ECサイト)上に掲載される日本語の商品タイトルを対象原文として記憶してもよい。この場合には、対象翻訳データベース22は、第1のECサイトの英語版に掲載される英訳された商品タイトルを対象翻訳文として記憶する。参照文データベース23は、英語圏で作成された任意の英文を参照文として記憶してよく、例えば、第1のECサイト内の商品タイトルとは独立し且つ英語で記述された別の商品タイトル(例えば第2のECサイト内の商品タイトル)を記憶してもよい。あるいは、参照文データベース23は、商品タイトルとは全く異なる種類の文(例えばニュースの記事、ブログから抽出した文)を参照文として記憶してもよい。
【0027】
対象原文、対象翻訳文、および参照文がいずれもECサイト上の商品タイトルである場合には、翻訳支援システム10は双方のカテゴリが対応し合うものとしてこれらの文を処理してもよい。あるいは、翻訳支援システム10は、第1のECサイトおよび第2のECサイトのそれぞれについて、個々の商品のカテゴリに基づいてそれぞれの文を処理してもよい。例えば、翻訳支援システム10は、「炊飯器」というカテゴリに属する炊飯器の商品タイトルと、「文具」というカテゴリに属する万年筆の商品タイトルとでは、カテゴリが相異なると判断してもよい。
【0028】
いずれにしても、現実には、評価対象の翻訳文に対する正解が存在しないことが多い。対象翻訳文を準備する者にとっては、対象翻訳文の正解を自力で作成することも他者に依頼して手に入れることも一般に難しいので、従来技術のように評価対象の翻訳文の正解を当てにすることができない。ECサイトの商品タイトルのように評価対象の翻訳文が大量に存在する場合には、そのような従来の評価手法を適用するのはなおさら困難である。そこで、翻訳支援システム10では翻訳言語で記述され且つ対象原文(および対象翻訳文)と独立した既存の文を参照文として用いて、対象翻訳文の妥当性を評価する。
【0029】
辞書データベース24は、翻訳元言語と翻訳言語との対応を示す辞書データ、すなわち翻訳辞書を記憶するデータベースである。辞書データの各レコードは、翻訳元言語で記述された単語または句と、翻訳言語で記述された正しい単語または句(すなわち、正しい翻訳)とのペアを含む。あるいは、各レコードは翻訳元言語で記述された単語または句と、翻訳言語で記述された誤った単語または句(すなわち誤訳)と、翻訳言語で記述された正しい単語または句(正しい翻訳)との組を含んでもよい。この辞書データベース24は自動翻訳システム(図示せず)により利用されてもよい。
【0030】
図2は翻訳支援システム10の機能構成を示す。翻訳支援システム10は機能的構成要素として取得部11、判定部12、および生成部13を備える。
【0031】
取得部11は対象翻訳文および正解語集合を取得する機能要素である。取得部11は対象翻訳データベース22にアクセスして少なくとも一つの対象翻訳文を読み出す。また、取得部11は対象原文データベース21にアクセスしてその対象翻訳文に対応する少なくとも一つの対象原文を読み出す。さらに、取得部11は参照文データベース23にアクセスして1以上の(例えば複数の)参照文を読み出す。
【0032】
複数の対象翻訳文および複数の対象原文を取得する場合には、取得部11はカテゴリが共通する対象翻訳文および対象原文を読み出してもよい。この場合に、取得部11は対象翻訳文と同じカテゴリに属する1以上の参照文のみを読み出してもよい。各データベースの対象原文、対象翻訳文、および参照文のそれぞれにカテゴリが関連付けられている場合には、取得部11は読み出した対象翻訳文と同じカテゴリに属する参照文を取得してもよい。あるいは、取得部11は、対象翻訳文を構成する1以上の単語n−gramと参照文を構成する1以上の単語n−gram(後述する正解語集合)とを比較し、対象翻訳文との単語n−gramの一致度が所定の閾値以上である参照文を、同じカテゴリに属する参照文として取得してもよい。このように、取得部11は、複数の参照文を分析して、各参照文に含まれる単語と対象翻訳文に含まれる単語との一致度に基づいて、対象翻訳文と同じカテゴリに属する参照文を抽出する抽出部としての機能も備えてもよい。単語n−gramについては後述する。
【0033】
あるいは、取得部11はカテゴリに関係なく複数の対象翻訳文および複数の対象原文を読み出してもよい。また、取得部11はカテゴリに関係なく1以上の参照文を読み出してもよい。すなわち、取得部11は対象翻訳文と参照文とでカテゴリが同じか否かにかかわらず1以上の参照文を参照文データベース23から読み出してもよい。
【0034】
続いて、取得部11は取得した1以上の参照文から単語n−gramを作成する。「単語n−gram」とは、n個の単語の単位で文を分割することで得られる1以上の単語の並びである。本実施形態ではn=1,2,3であり、したがって翻訳支援システム10は単語ユニグラム(word unigram)、単語バイグラム(word bigram)、および単語トライグラム(word trigram)を扱う。翻訳言語が大文字および小文字の概念を有する場合には、取得部11は参照文をすべて小文字に変換する。そして、取得部11はその参照文を1以上の単語に分割することで単語の並びを取得し、この並びに基づいて単語n−gram(n=1,2,3)を生成する。取得部11は各参照文から単語n−gram(n=1,2,3)を生成する。本明細書では、参照文から得られる単語n−gramを「参照単語n−gram」ともいい、参照単語n−gramのセットを「正解語集合」という。
【0035】
単語分割の方法は周知であり、例えば取得部11は、文が英語で記述されていれば空白の位置で文を区切ることで1以上の単語を得ることができるし、文が日本語で記述されていれば「ipadic」などの辞書を用いた形態素解析により1以上の単語を得ることができる。また、取得部11は、共起する複数の単語(例えば2単語、3単語)を一括りにした形で文を区切ってもよい。
【0036】
取得部11は同様に、対象翻訳文および対象原文のそれぞれから単語n−gram(n=1,2,3)のセットを生成する。本明細書では、対象原文から得られる単語n−gramを「原単語n−gram」ともいい、対象翻訳文から得られる単語n−gramを「翻訳単語n−gram(translated word n−gram)」ともいう。取得部11は一つの対象原文から得られた単語n−gramのセットと、その対象原文に対応する一つの対象翻訳文から得られた単語n−gramのセットとのペアを生成する。本明細書ではこのペアを「対象翻訳ペア」ともいい、その対象翻訳ペアの集合を「データセット」という。
【0037】
取得部11はこれらの処理により以下のデータを得ると、そのデータを判定部12に出力する。
・参照単語n−gramセット(正解語集合): U={u
1,…,u
M}
・各対象原文の原単語n−gramセット: t
k
・各対象翻訳文の翻訳単語n−gramセット: t^
k
【0038】
対象翻訳ペアの集合、すなわちデータセットDは
【数1】
で表される。
【0039】
正解語集合に含まれる単語ユニグラムは参照文を構成する単語であり、正解語集合に含まれる単語バイグラムおよび単語トライグラムは参照文を構成する句(複数の単語からなる表現単位)である。対象原文に含まれる単語ユニグラムは対象原文を構成する単語であり、対象原文に含まれる単語バイグラムおよび単語トライグラムは対象原文を構成する句である。対象翻訳文に含まれる単語ユニグラムは対象翻訳文を構成する単語であり、対象翻訳文に含まれる単語バイグラムおよび単語トライグラムは対象翻訳文を構成する句である。
【0040】
取得部11は、原単語n−gramセットおよび翻訳単語n−gramセットからストップワードを除去した上でデータセットを判定部12に出力してもよい。ストップワードを予め取り除くことで、対象翻訳文に関するデータセットの量が減るので、ハードウェア資源(例えば、プロセッサおよびメモリ)の消費量を低減したり、処理速度を上げたりすることが可能になる。ストップワードとして指定される表現は限定されず、例えば記号であってもよいし、特殊文字であってもよいし、数字を含む表現(例えば、商品の型番)であってもよい。
【0041】
判定部12は、対象翻訳文を構成する1以上の翻訳単語n−gramと正解語集合との一致度を求め、その一致度に基づいて該対象翻訳文の妥当性を判定する機能要素である。一致度とは、対象翻訳文を構成する単語または句がどのくらい正解語集合内の単語または句と一致するかを示す度合いである。判定部|はそれぞれの対象翻訳文について以下の処理を実行する。
【0042】
判定部12は対象翻訳文のn−gramの個数c
n(t^
k)を下記の式(1)により求める。ここで、||t^
k||は、対象翻訳文を構成する単語の個数を示す。
【数2】
【0043】
次に、判定部12は単語n−gram(n=1,2,3)のそれぞれについて(すなわち、単語ユニグラム、単語バイグラム、および単語トライグラムのそれぞれについて)、対象翻訳文内の各翻訳単語n−gramと正解語集合Uとの一致を調べ、一致する単語n−gramの個数h
n(t^
k,U)を下記の式(2)により求める。この個数はn−gram一致数ともいう。
【数3】
ここで、xは単語n−gramを示す。c(t^
k,x)はxが翻訳単語n−gramセットt^
kに出現した回数を示し、c(U,x)はxが正解語集合Uに出現した回数を示す。
【0044】
続いて、判定部12は単語n−gram(n=1,2,3)のそれぞれについて、翻訳単語n−gramセットt^
kのn−gram一致率a
n(t^
k,U)を下記の式(3)により求める。n−gram一致率とは、対象翻訳文を構成する翻訳単語n−gramのうち、正解語集合内の参照単語n−gramと一致するものの割合である。
【数4】
【0045】
そして、判定部12はそれぞれの単語n−gram(n=1,2,3)の一致率に所定の重みを乗じた値の総和を最終的なスコアとして求める。すなわち、判定部12は下記の式(4)によりそのスコアを求める。このスコアは、一致度を示す数値の一例である。
【数5】
ここで、一致率a
1,a
2,a
3はそれぞれ、第1の一致率(単語ユニグラムでの一致率)、第2の一致率(単語バイグラムでの一致率)、および第3の一致率(単語トライグラムでの一致率)である。また、α,β,γはそれぞれ、第1の重み、βは第2の重み、第3の重みである。
【0046】
α,β,γの値は限定されないが、例えばα<β<γの関係が成り立つようにこれらの重みを設定してもよい。これは、単に単語が一致するよりも句が一致する(複数の単語の並びが一致する)方が翻訳の質が高いといえるからである。例えば、経験的にα=2、β=5、γ=7と設定されてもよい。
【0047】
判定部12は求めたスコアと所定の閾値とを比較し、スコアが閾値以上であれば対象翻訳文が妥当であると判定し、スコアが閾値未満であれば対象翻訳文が妥当でないと判定する。「対象翻訳文が妥当である」とは、対象翻訳文が対象原文の訳として、意味的にまたは表現上、一定の基準以上の正しさを有することをいう。「対象翻訳文が妥当でない」とは、対象翻訳文の正しさがその基準まで達していないことをいう。
【0048】
単語n−gramの一致度に基づく判定の意義の一つは、翻訳文全体の流暢さおよび文法的な正しさよりも、適切な単語または句が用いられているか否かを重視することである。判定部12は、文法を考慮せずに、単純に単語n−gramの一致度で翻訳文の妥当性を判断するので、処理が簡易であり、したがってコンピュータの処理負荷も抑えられる。その一方で、一般には、単語または句の正確さは文法の正確さよりも翻訳文の印象に大きく影響するので、単語または句の正確さで翻訳文の妥当性を判断するのは効率的である。すなわち、翻訳支援システム10はコンピュータの処理負荷を抑えつつ効率的に翻訳文の妥当性を評価することができる。
【0049】
判定部12は個々の対象翻訳文についての処理結果を生成部13に渡す。さらに、判定部12は任意の手法で評価結果を出力してよい。例えば、判定部12は評価結果をモニタ上に表示してもよいし、所定のデータベースに格納してもよいし、他のコンピュータまたはコンピュータシステムに送信してもよい。判定部12は処理したすべての対象翻訳文について評価結果を出力してもよいし、妥当でないと判定した対象翻訳文についてのみその評価結果を出力してもよい。ユーザはその評価結果を参照することで、修正が必要な対象翻訳文を容易に突き止めることができる。
【0050】
生成部13は、翻訳元言語と翻訳言語との間の正しい翻訳を示す辞書データを生成し、その辞書データを辞書データベース24に格納する機能要素である。
【0051】
対象翻訳文の評価が低くなる要因の一つに、表現(単語または句)が文のカテゴリに特有であり(文のカテゴリに依存し)、機械翻訳(自動翻訳サービス)がその表現を網羅していないことが挙げられる。この典型的な例の一つを下記の表1に示す。
【表1】
【0052】
表1における日本語の単語は企業名の略称または通称を示す固有名詞であり、二つの漢字から成る。この単語は本来は“ZOJIRUSHI”と英語に訳されるべきである。しかし、機械翻訳(自動翻訳サービス)の辞書がこの固有名詞を網羅していないために、表1に示すような誤訳が発生し得る。表1に示す二つの誤訳はいずれも、二つの漢字のそれぞれが単独でも意味を有するために別々に訳されてしまうことで生じたものである。生成部13は、誤訳された原文の単語または句を正しい訳と関連付けることで辞書データを生成する。辞書データが蓄積された辞書データベース24を参照することで、翻訳の精度を上げることが可能になる。
【0053】
生成部13は、判定部12により妥当でないと判定された1以上の対象翻訳文から誤訳単語n−gramを取得する。翻訳の品質を全体的に向上させるために、生成部13は、評価が低かった対象翻訳文を構成する単語n−gramのうち出現頻度が高いものに着目してもよい。生成部13は以下の処理を実行することで、出現頻度が高い単語n−gramを誤訳単語n−gramとして取得する。
【0054】
具体的には、生成部13はその対象翻訳文を構成する単語ユニグラム(すなわち、単語)のうち正解語集合と一致しなかったものを抽出する。生成部13は、抽出した単語群からストップワードを除去してもよい。ストップワードを予め取り除くことで、処理される単語の量が減るので、ハードウェア資源(例えば、プロセッサおよびメモリ)の消費量を低減したり、処理速度を上げたりすることが可能になる。上述したように、ストップワードとして指定される表現は限定されない。続いて、生成部13は、抽出された単語のうち出現回数が所定の閾値以上であるものを選択する。
【0055】
次いで、生成部13は選択した単語を含む単語バイグラムおよび単語トライグラムをデータセット(1以上の対象翻訳文の単語n−gramセット)から抽出する。単語(単語ユニグラム)を単独で見ただけでは、それが正しい訳なのか誤訳なのかを判断することが困難である。そこで、生成部13はその単語を含む単語バイグラムおよび単語トライグラムを考慮することで(すなわち、句を考慮することで)、その単語n−gramが誤訳か否かを判定する。
【0056】
生成部13は、そのように抽出した単語バイグラムおよび単語トライグラムのそれぞれについて自己相互情報量(PMI:Pointwise Mutual Information)を計算する。生成部13は、翻訳単語n−gramがバイグラムである場合には下記の式(5)によりPMIを求め、翻訳単語n−gramがトライグラムである場合には下記の式(6)によりPMIを求める。
【数6】
【数7】
ここで、P(x),P(y),P(z)はそれぞれ、単語xが文中に出現する確率、単語yが文中に出現する確率、および単語zが文中に出現する確率を示す。P(x,y)は単語x,yの並びが文中に出現する確率であり、P(y,z)は単語y,zの並びが文中に出現する確率である。P(x,y,z)は単語x,y,zの並びが文中に出現する確率である。
【0057】
生成部13はPMIが所定の閾値以上の単語バイグラムまたは単語トライグラム(すなわち、PMIが所定の閾値以上の句)を誤訳単語n−gram(n=2,3)として取得する。
【0058】
続いて、生成部13はそれぞれの誤訳単語n−gramについて、誤訳ペアを決定し、さらに正しい翻訳ペアを決定する。対象翻訳文に含まれる誤訳は対象原文中にある何かしらの表現(単語または句)を翻訳した結果であるが、どの部分が誤訳であるかはこの時点では不明である。生成部13は誤訳単語n−gramに対応する原単語n−gramを特定し、その原単語n−gramの正しい翻訳を推定することで、翻訳元言語の単語または句と、翻訳言語の単語または句との正しい対応を求める。対象翻訳文の中には誤訳もあれば正しい翻訳(適切な翻訳)も存在する。例えば、対象翻訳文の集合内には、機械翻訳により得られた文と、人により適切に翻訳された文とが混在し得る。そのため、対象原文中の表現が誤って翻訳される場合(すなわち誤訳)と正しく翻訳される場合とがあり、これら2種類の翻訳は一つの対象翻訳文の中に同時に出現しないと考えられる。そこで生成部13は、対象翻訳ペアの集合であるデータセットDを下記の二つのグループD´
ej,D´´
ejに分ける。
【数8】
【数9】
グループD´
ejは誤訳単語n−gram(u^
i)を含む対象翻訳ペアの集合であり、グループD´´
ejはその誤訳単語n−gramを含まない対象翻訳ペアの集合である。
【0059】
続いて、生成部13はグループD´
ej内の原単語n−gramセットt
k=(u
1,…,u
J)を構成するすべての原単語n−gramについてカイ二乗値(χ
2)を求める。カイ二乗値の計算方法は限定されないが、例えば生成部13は下記の式(7)によりカイ二乗値を求めてもよい。
【数10】
ここで、変数a,b,c,d,nの意味は以下の通りである。
・a:対象原文中に原単語n−gram(u
j)を含み且つ対象翻訳文中に誤訳単語n−gram(u^
i)を含む対象翻訳ペアの個数。
・b:対象原文中に原単語n−gram(u
j)を含み且つ対象翻訳文中に誤訳単語n−gram(u^
i)を含まない対象翻訳ペアの個数。
・c:対象原文中に原単語n−gram(u
j)を含まず且つ対象翻訳文中に誤訳単語n−gram(u^
i)を含む対象翻訳ペアの個数。
・d:対象原文中に原単語n−gram(u
j)を含まず且つ対象翻訳文中に誤訳単語n−gram(u^
i)を含まない対象翻訳ペアの個数。
・n:対象翻訳ペアの総数であり、n=a+b+c+dである。
【0060】
変数a〜dの関係を下記の表2に示す。
【表2】
【0061】
生成部13はある一つの誤訳単語n−gramと対象原文中の各原単語n−gramとの間のカイ二乗値を求め、そのカイ二乗値に基づいて、誤訳単語n−gramに対応する一つの原単語n−gramを決定する。この誤訳単語n−gramおよび原単語n−gramの対応を「誤訳ペア」という。
【0062】
生成部13は誤訳ペアを半自動的に決めてもよい。具体的には、生成部13はカイ二乗値の降順に原単語n−gramを並べた上で、上位m個の原単語n−gramをユーザ端末(図示せず)に送信する。そして、生成部13は、その送信に応じてユーザ端末で選択され翻訳支援システム10に送られてきた一つの原単語n−gramを誤訳単語n−gramと関連付けることで誤訳ペアを決定する。あるいは、生成部13はカイ二乗値が最高の原単語n−gramをその誤訳単語n−gramと関連付けることで誤訳ペアを自動的に決定してもよい。ある原単語n−gramのカイ二乗値が高いということは、誤訳単語n−gramを含むデータセットの中にその原単語n−gramが特徴的に現れ、この誤訳単語n−gramと原単語n−gramとが対応しているであろうと推定できることを意味する。
【0063】
誤訳ペアを得ると、生成部13は、そのペアを構成する原単語n−gramの正しい翻訳と推定される翻訳単語n−gramを得る。具体的には、生成部13は対象翻訳ペアの集合であるデータセットDを下記の二つのグループD´
je,D´´
jeに分ける。
【数11】
【数12】
グループD´
jeは原単語n−gram(u
j)を含む対象翻訳ペアの集合であり、グループD´´
jeはその原単語n−gramを含まない対象翻訳ペアの集合である。
【0064】
続いて、生成部13はグループD´
je内の翻訳単語n−gramセットt^
k=(u^
1,…,u^
I)を構成するすべての翻訳単語n−gramについて、上記の式(7)によりカイ二乗値(χ
2)を求める。この計算における変数a,b,c,d,nの意味は以下の通りであり、変数a〜dの関係は上記の表2と同様に示すことができる。
・a:対象翻訳文中に翻訳単語n−gram(u^
i)を含み且つ対象原文中に原単語n−gram(u
j)を含む対象翻訳ペアの個数。
・b:対象翻訳文中に翻訳単語n−gram(u^
i)を含み且つ対象原文中に原単語n−gram(u
j)を含まない対象翻訳ペアの個数。
・c:対象翻訳文中に翻訳単語n−gram(u^
i)を含まず且つ対象原文中に原単語n−gram(u
j)を含む対象翻訳ペアの個数。
・d:対象翻訳文中に翻訳単語n−gram(u^
i)を含まず且つ対象原文中に原単語n−gram(u
j)を含まない対象翻訳ペアの個数。
・n:対象翻訳ペアの総数であり、n=a+b+c+dである。
【0065】
生成部13はある一つの原単語n−gramと対象翻訳中の各翻訳単語n−gramとの間のカイ二乗値を求め、そのカイ二乗値に基づいて、原単語n−gramに対応する一つの翻訳単語n−gramを決定する。この原単語n−gramおよび翻訳単語n−gramの対応を「正しい翻訳ペア」という。
【0066】
生成部13は正しい翻訳ペアを半自動的に決めてもよい。具体的には、生成部13は、カイ二乗値の降順に翻訳単語n−gramを並べた上で、上位m´個の翻訳単語n−gramをユーザ端末(図示せず)に送信する。そして、生成部13は、この送信に応じてユーザ端末で選択され翻訳支援システム10に送られてきた一つの翻訳単語n−gramをその原単語n−gramと関連付けることで正しい翻訳ペアを決定する。あるいは、生成部13はカイ二乗値が最高の翻訳単語n−gramをその原単語n−gramと関連付けることで正しい翻訳ペアを自動的に決定してもよい。ある翻訳単語n−gramのカイ二乗値が高いということは、原単語n−gramを含むデータセットの中にその翻訳単語n−gramが特徴的に現れ、この原単語n−gramと翻訳単語n−gramとが対応しているであろうと推定できることを意味する。
【0067】
上記の処理により、生成部13は誤訳単語n−gramと、原単語n−gramと、正しい訳と推定される翻訳単語n−gramとの組を得る。あるいは、生成部13は原単語n−gramと、正しい訳と推定される翻訳単語n−gramとの組を得る。上記の処理は、誤訳単語n−gramを含む1以上のペアの中から、該誤訳単語n−gramと共に出現する度合いに基づいて、一つの原単語n−gramを決定し、その原単語n−gramを含む1以上のペアの中から、該原単語n−gramと共に出現する度合いに基づいて、一つの正しい翻訳単語n−gramを決定する処理の一例である。本実施形態では、ある原単語n−gramが誤訳単語n−gramと共に出現する度合いと、ある翻訳単語n−gramが原単語n−gramと共に出現する度合いとをいずれもカイ二乗値により求める。しかし、これらの度合いの計算方法はカイ二乗値に限定されない。
【0068】
生成部13は取得した組を辞書データのレコードとして辞書データベース24に格納する。この結果、対象翻訳文を作成した人またはコンピュータが対応できなかった表現についての辞書データが得られる。
【0069】
[システムの動作]
次に、
図3〜
図9を参照しながら、翻訳支援システム10の動作を説明するとともに本実施形態に係る翻訳支援方法について説明する。
【0070】
図3は翻訳支援システム10の全体的な動作を示すフローチャートである。この図に示すように、翻訳支援システム10はまず対象原文および対象翻訳文のペア(データセット)を取得すると共に、正解語集合を取得する(ステップS1、取得ステップ)。続いて、翻訳支援システム10は正解語集合との一致度に基づいて対象翻訳文の妥当性を判定する(ステップS2、判定ステップ)。さらに、翻訳支援システム10は翻訳元言語と翻訳言語との正しい対応を示す辞書データを生成する(ステップS3、生成ステップ)。
【0071】
図4はデータを取得する処理(ステップS1)の詳細を示すフローチャートである。ステップS1では、取得部11が1以上の対象原文を対象原文データベース21から取得し、各対象原文の単語n−gramセット(原単語n−gramセット)を生成する(ステップS11)。また、取得部11は1以上の対象翻訳文を対象翻訳データベース22から取得し、各対象翻訳文の単語n−gramセット(翻訳単語n−gramセット)を生成する(ステップS12)。そして、取得部11は対象原文と対象翻訳文との間の単語n−gramセットのペア(対象翻訳ペア)を生成する(ステップS13)。さらに、取得部11は1以上の参照文を参照文データベース23から取得し、各参照文の単語n−gramセット(参照単語n−gramセット)を生成し、それらの参照単語n−gramセットを正解語集合として取得する(ステップS14)。
【0072】
次いで、
図5に示す処理に移る。
図5は翻訳の妥当性を判定する処理(ステップS2)の詳細を示すフローチャートである。ステップS2では、判定部12が一つの対象翻訳文を選択し(ステップS21)、その対象選択文の単語n−gramセットと正解語集合との一致率を算出する(ステップS22)。判定部12は単語ユニグラム、単語バイグラム、および単語トライグラム(すなわち、n=1,2,3)のそれぞれについてその一致率を求める。
【0073】
続いて、判定部12はその一致率を用いて、翻訳単語n−gramセットと正解語集合との一致度を示すスコアを求める(ステップS23)。そして、判定部12はそのスコアを所定の閾値と比較する(ステップS24)。判定部12は、スコアが閾値以上であれば(ステップS24においてYES)対象翻訳文が妥当であると判定し(ステップS25)、スコアが閾値未満であれば(ステップS24においてNO)対象翻訳文が妥当でないと判定する(ステップS26)。この結果、一つの対象翻訳文の妥当性についての評価結果が得られる。判定部12は評価すべき対象翻訳文のすべてについてステップS21〜S26の処理を実行する(ステップS27を参照)。
【0074】
次いで、
図6〜
図8に示す処理に移る。
図6〜
図8は辞書データを生成する処理(ステップS3)の詳細を示すフローチャートである。ステップ3では、生成部13が1以上の対象翻訳文の単語(単語ユニグラム)のうち正解語集合と一致しなかったものを抽出し(ステップS31)、抽出した単語のうち、出現回数が所定の閾値以上であるものを選択する(ステップS32)。続いて、生成部13は選択した単語を含む1以上の単語バイグラムおよび1以上の単語トライグラムを抽出し(ステップS33)、これらの単語バイグラムおよび単語トライグラムのそれぞれについてPMIを求める(ステップS34)。そして、生成部13はPMIが所定の閾値以上の単語バイグラムまたは単語トライグラムを誤訳単語n−gram(n=2,3)として取得する(ステップS35)。
【0075】
次いで、
図7に示す処理に移る。生成部13は一つの誤訳単語n−gramを選び(ステップS36)、この誤訳単語n−gramを含むデータセットD´
ejから一つの原単語n−gramを選択する(ステップS37)。ここで選択される原単語n−gramは単語ユニグラム、単語バイグラム、または単語トライグラムである。続いて、生成部13は誤訳単語n−gram(n=2または3)と選択した原単語n−gram(n=1、2、または3)との間のカイ二乗値を求める(ステップS38)。生成部13はデータセットD´
ej内のすべての原単語n−gramについてステップS37およびS38の処理を実行する(ステップS39を参照)。そして、生成部13はカイ二乗値に基づいて、選択した誤訳単語n−gramに対応する原単語n−gramを決定する(ステップS40)。この処理は誤訳ペアの決定である。生成部13はこのペアを自動的に決定してもよいし、ユーザの入力に従って半自動的に決定してもよい。
【0076】
次いで、
図8に示す処理に移る。生成部13は決定した原単語n−gram、すなわち誤訳ペアの原単語n−gramを含むデータセットD´
jeから一つの翻訳単語n−gramを選択する(ステップS41)。ここで選択される翻訳単語n−gramは単語ユニグラム、単語バイグラム、または単語トライグラムである。続いて、生成部13は原単語n−gram(n=1、2、または3)と選択した翻訳単語n−gram(n=1、2、または3)との間のカイ二乗値を求める(ステップS42)。生成部13はデータセットD´
je内のすべての翻訳単語n−gramについてステップS41およびS42の処理を実行する(ステップS43を参照)。そして、生成部13はカイ二乗値に基づいて、原単語n−gramに対応する翻訳単語n−gramを決定する(ステップS44)。この処理は正しい翻訳ペアの決定である。生成部13はこのペアを自動的に決定してもよいし、ユーザの入力に従って半自動的に決定してもよい。
【0077】
誤訳ペアおよび正しい翻訳ペアを決めると、生成部13は少なくとも正しい翻訳ペアを含む辞書データを生成し、この辞書データを辞書データベース24に格納する(ステップS45)。生成部13は、ステップS35で取得したすべての誤訳単語n−gramについてステップS36〜S45の処理を実行する(ステップS46を参照)。
【0078】
図9はステップS3の処理により得られる誤訳ペアおよび正しい翻訳ペアの一例を示し、これは辞書データの生成の一例ともいうことができる。
図9の例は、実際に構築した翻訳支援システム10において発生した事象である。生成部13がステップS36において、上記表1に示す誤訳単語n−gram“elephant marked”を選択したとする。この場合、生成部13はステップS40において、その誤訳単語n−gramに対して、
図9に示す原単語n−gram90を選択し、これらの単語n−gramのペアを誤訳ペアとして決定する。原単語n−gram90は本来は1単語の固有名詞であるが、
図9に示すように、二つの原単語91,92の並び、すなわち単語バイグラムとして取得されることがある。ipadicを用いた形態素解析では、その辞書にない単語(例えば固有名詞)が、一般名詞を意味する複数の単語の並びに分割されることがあり得る。原単語91,92の間のスラッシュは、本来は1単語である原単語90が二つの原単語91,92に分割されたことを意味する。生成部13はステップS44において、この原単語n−gram90に対応する翻訳単語n−gramとして“ZOJIRUSHI”を得て、これらの単語n−gramのペアを正しい翻訳ペアとして決定することができる。
【0079】
図9に示す例のように、翻訳元言語の単語が辞書に登録されていないためにその単語が正しく認識されない場合でも、翻訳支援システム10は翻訳元言語と翻訳言語との間で単語n−gramを比較することで、正しい翻訳ペアを得ることが可能である。
【0080】
[プログラム]
次に、
図10を参照しながら、コンピュータを翻訳支援システム10として機能させるための翻訳支援プログラムP1を説明する。
図10は翻訳支援プログラムP1の構成を示す図である。
【0081】
翻訳支援プログラムP1はメインモジュールP10、取得モジュールP11、判定モジュールP12、および生成モジュールP13を含む。メインモジュールP10は翻訳支援を統括的に管理する部分である。取得モジュールP11、判定モジュールP12、および生成モジュールP13を実行することで、取得部11、判定部12、および生成部13が実現する。
【0082】
翻訳支援プログラムP1は、例えば、CD−ROM、DVD−ROM、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、翻訳支援プログラムP1は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
【0083】
[効果]
以上説明したように、本発明の一側面に係る翻訳支援システムは、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語n−gramを含む集合を正解語集合として取得する取得部と、対象翻訳文を構成する1以上の翻訳単語n−gramと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定部とを備える。
【0084】
本発明の一側面に係る翻訳支援方法は、少なくとも一つのプロセッサを備える翻訳支援システムにより実行される翻訳支援方法であって、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語n−gramを含む集合を正解語集合として取得する取得ステップと、対象翻訳文を構成する1以上の翻訳単語n−gramと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定ステップとを含む。
【0085】
本発明の一側面に係る翻訳支援プログラムは、対象原文を翻訳言語で翻訳することで得られた対象翻訳文を取得し、翻訳言語で記述され且つ対象原文とは独立した参照文を構成する参照単語n−gramを含む集合を正解語集合として取得する取得ステップと、対象翻訳文を構成する1以上の翻訳単語n−gramと正解語集合との一致度を求め、該一致度に基づいて対象翻訳文の妥当性を判定する判定ステップとをコンピュータシステムに実行させる。
【0086】
このような側面においては、対象翻訳文(評価対象の翻訳文)の妥当性を判定する基準として用意される参照文は、対象原文とは独立した文であり、したがって、対象原文の翻訳文(対象翻訳文)とも独立した文である。すなわち、対象翻訳文の妥当性を評価するために該翻訳文の正解を用意する必要がない。正解語集合は参照文の単語n−gram(参照単語n−gram)の集合であり、これは正しいと見なすことができる単語または句の集合である。したがって、対象翻訳文の単語n−gramと正解語集合との一致度を見ることで、評価対象の翻訳文の正解を用いることなく該翻訳文の妥当性を評価することができる。
【0087】
本発明のその側面では、分類器による判定スコアを用いず、対象翻訳文と参照文との間の単語n−gramの一致度を求めるという単純な手法により翻訳文の妥当性を評価する。したがって、コンピュータの処理負荷を抑えつつ翻訳文を適切に評価することができる。
【0088】
人が翻訳文を評価すれば参照訳は不要であるが、評価基準が曖昧になるおそれがあり、大量の翻訳文を処理する場合には時間が掛かってコストが高くなってしまう。これに対して、本発明の上記側面によれば、大量の評価対象の翻訳文を高速に且つ客観的に評価することができる。
【0089】
他の側面に係る翻訳支援システムでは、判定部が、翻訳単語の単語ユニグラムでの第1の一致率および第1の重みの積と、翻訳単語の単語バイグラムでの第2の一致率および第2の重みの積と、翻訳単語の単語トライグラムでの第3の一致率および第3の重みの積とを用いて一致度を求め、ここで、第2の重みが第1の重みよりも大きく、第3の重みが第2の重みよりも大きくてもよい。単語だけでなく句(複数の単語の並び)も考慮することで、評価対象の翻訳文の妥当性を正確に判定することができる。また、多くの単語を含む句についての一致率が高いほど、対象翻訳文の妥当性は高いといえるので、単語の並びが多くなるほど重みを大きくすることで、評価対象の翻訳文の妥当性を正確に判定することができる。
【0090】
他の側面に係る翻訳支援システムでは、取得部が、対象翻訳文と同じカテゴリに属する参照文を構成する参照単語n−gramの集合を正解語集合として取得してもよい。評価対象の翻訳文と参照文との間でカテゴリを合わせることで、そのカテゴリにおいて特徴的な単語または句の妥当性をより正確に判定できる。翻訳元言語の一つの単語または句が翻訳言語の複数の単語または句に対応することがあり得る。このような場面で文のカテゴリを考慮することで、翻訳元言語の一つの単語または句に対応する翻訳言語の単語または句を一つに絞ることが可能になる。その結果、評価対象の翻訳文の妥当性をより正確に判定することが可能になる。
【0091】
他の側面に係る翻訳支援システムでは、複数の参照文を分析して、各参照文に含まれる単語と対象翻訳文に含まれる単語との一致度に基づいて、対象翻訳文と同じカテゴリに属する参照文を抽出する抽出部をさらに備え、取得部が、抽出部により抽出された参照文から正解語集合を取得してもよい。この場合には、人手に頼ることなく、対象翻訳文および参照文を自動的に分類して、評価対象の翻訳文と参照文との間でカテゴリを合わせることができる。
【0092】
他の側面に係る翻訳支援システムは、判定部により妥当でないと判定された対象翻訳文から抽出した一つの誤訳単語n−gramに対応する一つの原単語n−gramを対象原文から決定し、該原単語n−gramに対応する一つの正しい翻訳単語n−gramを対象翻訳文から決定し、少なくとも該原単語n−gramおよび該正しい翻訳単語n−gramが関連付けられた辞書データを辞書データベースに格納する生成部をさらに備えてもよい。まず誤訳単語n−gramから原単語n−gramを導き、次いでその原単語n−gramから正しい翻訳単語n−gramを導出することで、翻訳元言語と翻訳言語との間の正しい翻訳を辞書に登録することができる。
【0093】
他の側面に係る翻訳支援システムでは、複数の対象翻訳文および複数の対象原文が存在し、生成部が、複数の対象翻訳文のそれぞれについて、該対象翻訳文の翻訳単語n−gramのセットと、該対象翻訳文に対応する対象原文の原単語n−gramのセットとのペアを取得し、誤訳単語n−gramを含む1以上のペアの中から、該誤訳単語n−gramと共に出現する度合いに基づいて、一つの原単語n−gramを決定し、決定された原単語n−gramを含む1以上のペアの中から、該原単語n−gramと共に出現する度合いに基づいて、一つの正しい翻訳単語n−gramを決定してもよい。このように誤訳単語n−gramから原単語n−gramを導きその原単語n−gramから翻訳単語n−gramを決定することで、翻訳元言語と翻訳言語との間の正しい翻訳をより正確に得ることができる。
【0094】
他の側面に係る翻訳支援システムでは、生成部が、1以上の翻訳単語n−gramのうち正解語集合と一致しなかった単語ユニグラムを選択し、該単語ユニグラムを含む1以上の単語バイグラムまたは1以上の単語トライグラムを抽出し、抽出した単語バイグラムまたは単語トライグラムのうち自己相互情報量が所定の閾値以上である単語バイグラムまたは単語トライグラムを誤訳単語n−gramとして取得してもよい。単に正解語集合と一致しなかった単語n−gramを誤訳単語n−gramとして処理するのではなく、出現しやすい単語バイグラムまたは単語トライグラムに限定して辞書データを生成することで、コンピュータの処理負荷を抑えつつ辞書データを効率的に生成できる。より具体的に言うと、誤訳の頻度が高い句を正すための辞書データが生成されるので、辞書の品質を効率良く向上させることができる。
【0095】
[変形例]
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
【0096】
上記実施形態では翻訳支援システム10が生成部13を備えるが、生成部は必須の構成要素ではなく、省略されてもよい。この場合には翻訳支援システムは辞書データベースにアクセスしなくてもよい。
【0097】
上記実施形態では取得部11が参照文を1以上の単語に分割することで正解語集合を取得したが、正解語集合が予め参照文データベースに記憶されていてもよい。この場合には、取得部はその参照文データベースから正解語集合を読み出し、判定部(および生成部)はその正解語集合をそのまま用いることができる。この変形例では、個々の参照単語n−gramにカテゴリが関連付けられてもよい。
【0098】
上記実施形態では翻訳支援システム10が単語ユニグラム、単語バイグラム、および単語トライグラムを処理したが、翻訳支援システムは単語トライグラムを用いることなく単語ユニグラムおよび単語バイグラムのみを用いて上記の一連の処理を実行してもよい。
【0099】
少なくとも一つのプロセッサにより実行される翻訳支援方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップ(処理)の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正又は削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
【0100】
翻訳支援システム内で二つの数値の大小関係を比較する際には、「以上」および「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」および「未満」という二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。