(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022057482
(43)【公開日】2022-04-11
(54)【発明の名称】後編集支援システム、後編集支援方法、後編集支援装置、およびコンピュータプログラム
(51)【国際特許分類】
G06F 40/44 20200101AFI20220404BHJP
G06F 40/45 20200101ALI20220404BHJP
【FI】
G06F40/44
G06F40/45
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2020165761
(22)【出願日】2020-09-30
(71)【出願人】
【識別番号】300010899
【氏名又は名称】NGB株式会社
(74)【代理人】
【識別番号】110001416
【氏名又は名称】特許業務法人 信栄特許事務所
(72)【発明者】
【氏名】土屋 充弘
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA03
5B091AB17
5B091DA04
5B091DA09
5B091DA11
(57)【要約】
【課題】ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減する。
【解決手段】翻訳装置11は、第一言語で記述された第一テキストT1を、ニューラル機械翻訳モデル111を用いて当該第一言語とは異なる第二言語で記述された第二テキストT2に翻訳する。第二テキストT2に含まれる複数の相違する訳語が第一テキストT1に含まれる一つの原語に対応付けられている場合、後編集支援装置12は、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストT3を生成し、第三テキストT3を編集可能な状態で表示装置13に表示させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる後編集支援装置と、
を備えている、
後編集支援システム。
【請求項2】
前記後編集支援装置は、前記一つの訳語を前記第三テキストに含まれる他の訳語と区別可能な態様で前記表示装置に表示させる、
請求項1に記載の後編集支援システム。
【請求項3】
前記後編集支援装置は、前記第三テキストにおいて前記一つの訳語が指定された場合、前記複数の相違する訳語を前記表示装置に表示させる、
請求項2に記載の後編集支援システム。
【請求項4】
前記後編集支援装置は、前記複数の相違する訳語のいずれかを選択可能な態様で前記表示装置に表示させるとともに、前記複数の相違する訳語のいずれかが選択された場合、前記第三テキストに含まれる前記一つの訳語を、当該選択された訳語で置き換える、
請求項3に記載の後編集支援システム。
【請求項5】
前記一つの訳語は、前記複数の相違する訳語のうち最も高い頻度で前記第二テキストに現れる語である、
請求項1から4のいずれか一項に記載の後編集支援システム。
【請求項6】
前記第三テキストに含まれる前記一つの訳語が後編集により別の訳語に変更された場合に、当該別の訳語を記憶する記憶装置を備えており、
前記後編集支援装置は、前記記憶装置に記憶された前記別の訳語が前記複数の相違する訳語に含まれている場合、前記一つの訳語として前記別の訳語を使用する、
請求項1から4のいずれか一項に記載の後編集支援システム。
【請求項7】
原語と訳語の対応関係をユーザが指定可能な辞書を記憶する記憶装置を備えており、
前記後編集支援装置は、前記一つの原語が前記辞書に含まれている場合、当該辞書において前記一つの原語に対応付けられている訳語を、前記一つの訳語として使用する、
請求項1から4のいずれか一項に記載の後編集支援システム。
【請求項8】
前記ニューラル機械翻訳モデルは、知的財産権に関連した書類を翻訳するための学習済みモデルを含んでいる、
請求項1から7のいずれか一項に記載の後編集支援システム。
【請求項9】
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳するステップと、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断するステップと、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成するステップと、
前記第三テキストを編集可能な状態で表示装置に表示させるステップと、
を備えている、
後編集支援方法。
【請求項10】
第一言語で記述された第一テキストを受け付ける第一受付部と、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付ける第二受付部と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる処理部と、
を備えている、
後編集支援装置。
【請求項11】
前記処理部は、
前記第一テキストに形態素解析を適用することにより前記一つの原語を抽出し、
前記一つの原語が前記第一テキスト中に二度以上現れる場合、前記第二テキストにおいて当該一つの原語を含む原文に対応する訳文を特定し、
特定された前記訳文に対して形態素解析を適用するとともに、辞書データベースを参照して前記複数の相違する訳語が含まれているかを判断する、
請求項10に記載の後編集支援装置。
【請求項12】
後編集支援装置の処理部により実行可能なコンピュータプログラムであって、
実行されることにより、前記後編集支援装置に
第一言語で記述された第一テキストを受け付けさせ、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付けさせ、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断させ、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成させ、
前記第三テキストを編集可能な状態で表示装置に表示させる、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械翻訳されたテキストに対する後編集を支援するためのシステムおよび方法に関連する。本発明は、機械翻訳されたテキストに対する後編集を支援するように構成された装置、および当該装置の処理部により実行可能なコンピュータプログラムにも関連する。
【背景技術】
【0002】
特許文献1に開示されているように、ニューラル機械翻訳モデルの普及が進んでいる。ニューラル機械翻訳モデルは、ニューラルネットワークを直接的に用いてエンドツーエンド方式で翻訳モデリングを行なう機械翻訳方法である。ニューラル機械翻訳モデルは、原文の受け付けから訳文の出力までを一貫したモデルとして学習するので、従来の統計的機械翻訳と比べて翻訳精度と訳文の流暢さに優れていることが知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、機械翻訳されたテキスト中の誤訳の有無をチェックし、必要に応じて編集を行なう者(いわゆるポストエディタ)にとっては、人により翻訳されたテキストをチェックする場合とは異質の負担が強いられる場合がある。
【0005】
例えば、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストには、原テキストにおける特定の原語に複数の訳語が対応付けられているという現象が頻繁に見られる。人により翻訳されたテキストにおいてこのような訳語の不統一が見られることは少ないので、ポストエディタは、本来であれば必要のない点に注意を払う必要がある。ニューラル機械翻訳モデルの場合、ルールベースの統計的機械翻訳に見られる入力と出力の因果関係を特定することが原理的に困難であるので、訳語の不統一の発生は、「ニューラル機械翻訳モデルに特有の挙動」として受け入れられているのが現状である。
【0006】
本発明の目的は、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減することである。
【課題を解決するための手段】
【0007】
上記の目的を達成するための一態様は、後編集支援システムであって、
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる後編集支援装置と、
を備えている。
【0008】
上記の目的を達成するための一態様は、後編集支援方法であって、
第一言語で記述された第一テキストを、ニューラル機械翻訳モデルを用いて当該第一言語とは異なる第二言語で記述された第二テキストに翻訳するステップと、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断するステップと、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成するステップと、
前記第三テキストを編集可能な状態で表示装置に表示させるステップと、
を備えている。
【0009】
上記の目的を達成するための一態様は、後編集支援装置であって、
第一言語で記述された第一テキストを受け付ける第一受付部と、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付ける第二受付部と、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成し、当該第三テキストを編集可能な状態で表示装置に表示させる処理部と、
を備えている。
【0010】
上記の目的を達成するための一態様は後編集支援装置の処理部により実行可能なコンピュータプログラムであって、
実行されることにより、前記後編集支援装置に
第一言語で記述された第一テキストを受け付けさせ、
ニューラル機械翻訳モデルを用いて前記第一言語とは異なる第二言語で記述された第二テキストに翻訳する翻訳装置から当該第二テキストを受け付けさせ、
前記第二テキストに含まれる複数の相違する訳語が前記第一テキストに含まれる一つの原語に対応付けられているかを判断させ、
前記複数の訳語が前記一つの原語に対応付けられていると判断された場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の訳語に含まれる残りの訳語が置き換えられた第三テキストを生成させ、
前記第三テキストを編集可能な状態で表示装置に表示させる。
【0011】
上記の各態様に係る構成によれば、翻訳装置において使用されるニューラル機械翻訳モデルに依らず、訳語の統一がなされた第三テキストが表示装置における表示に供される。これにより、ポストエディタは、「訳文において訳語が統一されていない虞がある」という観点に基づく注意を払う必要性から解放される。したがって、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減できる。
【図面の簡単な説明】
【0012】
【
図1】一実施形態に係る後編集支援システムの機能構成を例示している。
【
図2】
図1の後編集支援装置において実行される処理の流れを例示している。
【
図3】
図1の翻訳装置により出力される第二テキストを例示している。
【
図4】
図1の表示装置に表示される第三テキストの一例を示している。
【
図5】
図1の後編集支援装置において実行される処理の流れを例示している。
【
図6】
図1の後編集支援装置において実行される処理の流れを例示している。
【
図7】
図5と
図6に例示された処理を説明するための例を示している。
【
図8】
図1の表示装置に表示される第三テキストの別例を示している。
【
図9】
図8の第三テキストに対して行なわれる後編集処理を例示している。
【
図10】
図8の第三テキストに対して行なわれる後編集処理を例示している。
【
図11】
図8の第三テキストに対して行なわれる後編集処理を例示している。
【発明を実施するための形態】
【0013】
添付の図面を参照しつつ、実施形態の例について以下詳細に説明する。
図1は、一実施形態に係る後編集支援システム10の機能構成を例示している。後編集支援システム10は、翻訳装置11、後編集支援装置12、および表示装置13を含んでいる。
【0014】
翻訳装置11は、第一言語で記述された第一テキストT1を、ニューラル機械翻訳モデル111を用いて当該第一言語とは異なる第二言語で記述された第二テキストT2に翻訳するように構成されている。すなわち、第一テキストT1は原文を含んでおり、第二テキストT2は訳文を含んでいる。第一言語と第二言語の組合せは、ニューラル機械翻訳モデル111がサポートしている複数の言語から任意に選択されうる。第一言語は、例えば日本語である。第二言語は、例えば英語である。
【0015】
ニューラル機械翻訳モデル111の例としては、系列-系列(seq2seq)モデル、畳み込み系列-系列(ConvS2S)モデル、SliceNetモデル、Transformerモデル、(RNMT+)モデルなどが挙げられる。ニューラル機械翻訳モデル111は、エンドツーエンド方式で翻訳モデリングを行なう方式に基づいているのであれば、市販されているかは問わない。ニューラル機械翻訳モデル111は、通信ネットワークを介して無償または有償で利用可能とされているものを含む。
【0016】
ニューラル機械翻訳モデル111は、特定の分野に固有の語句や表現の翻訳精度を高めるためのアダプテーションが施された学習済みモデルを含みうる。例えば、知的財産に関連した書類、投資家向け広報活動(IR)に関連した書類、法令に関連した書類、製品マニュアルなどにおいては、定型的な表現や文章が繰り返される傾向にある。ニューラル機械翻訳モデル111は、そのような傾向を有する文章を翻訳するための学習済みモデルを含むことが好ましい。
【0017】
翻訳装置11により機械翻訳された結果としての第二テキストT2は、誤訳、脱訳、重複訳などを含みうる。したがって、そのような誤りを人手によって発見し、訂正する作業が行なわれることが一般的である。当該作業は、後編集(ポストエディット)と呼ばれている。後編集を行なう者は、ポストエディタと呼ばれることがある。
【0018】
後編集支援装置12は、ポストエディタによる後編集を支援するための装置である。後編集支援装置12は、第一受付部121、第二受付部122、処理部123、出力部124、および編集受付部125を備えている。
【0019】
第一受付部121は、第一テキストT1を入力データとして受け付けるインターフェースとして構成されている。当該インターフェースは、物理的なインターフェースであってもよいし、論理的なインターフェースであってもよい。
【0020】
第二受付部122は、翻訳装置11から出力された第二テキストT2を入力データとして受け付けるインターフェースとして構成されている。当該インターフェースは、物理的なインターフェースであってもよいし、論理的なインターフェースであってもよい。
【0021】
処理部123は、第二テキストT2に含まれる複数の相違する訳語が第一テキストT1に含まれる一つの原語に対応付けられている場合、当該複数の相違する訳語に含まれる一つの訳語で当該複数の相違する訳語に含まれる残りの訳語が置き換えられた第三テキストT3を生成するように構成されている。本処理の詳細については後述する。
【0022】
加えて、処理部123は、第三テキストT3を編集可能な状態で表示装置13に表示させるように構成されている。具体的には、処理部123は、第三テキストT3に対応するデータを出力部124から出力する。表示装置13は、出力部124から出力されたデータに基づいて、第三テキストT3を表示するための画面を備えている。
【0023】
ポストエディタは、表示装置13に表示された第三テキストT3の内容をチェックし、必要に応じて後編集を行なう。編集受付部125は、後編集に対応する入力を受け付けるインターフェースとして構成されている。当該入力は、キーボード、マウス、タッチパネル、タッチパッドなどの適宜のマンマシンインターフェースを介してなされてもよいし、音声認識技術やジェスチャ認識技術を介してなされてもよい。
【0024】
処理部123は、編集受付部125により受付けられた後編集の内容を、第三テキストT3に反映させる処理を実行するように構成されている。処理部123は、後処理が反映された第三テキストT3に対応するデータを出力部124から出力し、後処理後の第三テキストT3を表示装置13に表示させるように構成されている。
【0025】
図2から
図4を参照しつつ、処理部123によって実行される上記の処理について具体的に説明する。
【0026】
処理部123は、第一受付部121を通じて第一テキストT1を受け付ける(STEP11)。本明細書で用いられる「第一テキストT1を受け付ける」という表現は、第一テキストT1に対応するデータを受け付けることを含む意味である。第一テキストT1を受け付けるタイミングは、翻訳装置11によって第一テキストT1が第二テキストT2に翻訳される前であってもよいし、後であってもよい。
【0027】
続いて、処理部123は、第二受付部122を通じて翻訳装置11から第二テキストT2を受け付ける(STEP12)。本明細書で用いられる「第二テキストT2を受け付ける」という表現は、第二テキストT2に対応するデータを受け付けることを含む意味である。STEP11の処理とSTEP12の処理は、並行して行なわれてもよいし、順序が逆にされてもよい。
【0028】
続いて、処理部123は、第二テキストT2に含まれる複数の相違する訳語が第一テキストT1に含まれる一つの原語に対応付けられているかを判断する(STEP13)。前述のように、ニューラル機械翻訳モデルを用いて生成された訳文においては、同じ言語に対して複数の相違する訳語が規則性なく割り当てられる場合がある。本処理は、このような訳語の不統一状態を検出するために行なわれる。
【0029】
図3は、翻訳装置11に入力された第一テキストT1に基づいて翻訳された第二テキストT2を例示している。本例においては、第一テキストT1に含まれる「発光素子」という原語に対して、「light emitting element」、「light emitter」、および「photo emitting element」という相違する訳語が割り当てられている(文番号1、2、5、6)。また、第一テキストT1に含まれる「検出され」という原語に対して、「sensed」と「detected」という相違する訳語が割り当てられている(文番号3、5)。したがって、処理部123は、第二テキストに含まれる複数の相違する訳語が第一テキストT1に含まれる一つの原語に対応付けられていると判断する(STEP13においてYES)。
【0030】
この場合、処理部123は、第三テキストT3を生成する処理を行なう(STEP14)。第三テキストT3においては、第二テキストT2に含まれる複数の相違する訳語のうちの一つで残りの訳語が置き換えられることにより、訳語の統一がなされている。なお、本明細書で用いられる「第三テキストT3を生成する」という表現は、第三テキストT3に対応するデータを生成することを含む意味である。訳語の置き換えに係る規則については後述する。
【0031】
図4は、
図3に例示される第二テキストT2に基づいて生成された第三テキストT3を例示している。第三テキストT3においては、第一テキストT1に含まれる「発光素子」という原語に対して「light emitting element」という訳語のみが割り当てられている。すなわち、「light emitter」と「photo emitting element」が「light emitting element」により置き換えられている。「light emitting element」は、複数の相違する訳語に含まれる一つの訳語の一例である。「light emitter」と「photo emitting element」は、複数の相違する訳語に含まれる残りの訳語の一例である。
【0032】
同様に、第三テキストT3においては、第一テキストT1に含まれる「検出され」という原語に対して「sensed」という訳語のみが割り当てられている。すなわち、「detected」が「sensed」により置き換えられている。「sensed」は、複数の相違する訳語に含まれる一つの訳語の一例である。「detected」は、複数の相違する訳語に含まれる残りの訳語の一例である。
【0033】
続いて、処理部123は、表示装置13に第三テキストT3を表示させるデータを、出力部124から出力する(STEP15)。当該データを受け付けた表示装置13は、第三テキストT3を表示する。表示装置13における第三テキストT3の表示態様は、適宜に定められうる。例えば、
図4に例示されるように、第一テキストT1における原文と第三テキストT3における訳文が文単位で対応付けられた表形式で表示されうる。あるいは、第三テキストT3のみが表示に供されてもよい。
【0034】
ポストエディタは、表示装置13に表示された第三テキストT3に対し、必要に応じて後編集を行なう。前述の通り、処理部123は、編集受付部125を通じて後処理に対応する入力を受け付け、後編集の内容を第三テキストT3に反映させる。処理部123は、後処理が反映された第三テキストT3に対応するデータを出力部124から出力し、後処理後の第三テキストT3を表示装置13に表示させる。
【0035】
第二テキストT2に含まれる複数の相違する訳語が第一テキストT1に含まれる一つの原語に対応付けられていないと判断された場合(STEP13においてNO)、すなわち第二テキストT2において訳語の統一がなされていると判断された場合、処理部123は、表示装置13に編集可能な状態で第二テキストT2を表示させるデータを、出力部124から出力する(STEP16)。当該データを受け付けた表示装置13は、第二テキストT2を表示する。表示装置13における第二テキストT2の表示態様は、適宜に定められうる。例えば、
図3に例示されるように、第一テキストT1における原文と第二テキストT2における訳文が文単位で対応付けられた表形式で表示されうる。あるいは、第二テキストT2のみが表示に供されてもよい。
【0036】
上記のような構成によれば、翻訳装置11において使用されるニューラル機械翻訳モデルに依らず、訳語の統一がなされた第三テキストT3が表示装置13における表示に供される。これにより、ポストエディタは、「訳文において訳語が統一されていない虞がある」という観点に基づく注意を払う必要性から解放される。したがって、ニューラル機械翻訳モデルを用いて機械翻訳されたテキストに対する後編集作業の負担を軽減できる。
【0037】
図5と
図6を参照しつつ、第三テキストT3の生成が必要であるかを判断するために処理部123により実行される具体的な処理の一例を説明する。
【0038】
図5に例示されるように、処理部123は、第一テキストT1に含まれる複数の原文と第二テキストT2に含まれる複数の訳文の各々に通し番号を付与する(STEP21)。
【0039】
例えば、処理部123は、第一受付部121により受け付けられた第一テキストT1に対応するデータに基づいて、第一テキストT1に含まれる句点を検出する。句点が検出される度に当該句点で終了する原文に連続する番号を付与することにより、第一テキストT1に含まれる複数の原文に通し番号が付与される。
【0040】
同様に、処理部123は、第二受付部122により受け付けられた第二テキストT2に対応するデータに基づいて、第二テキストT2に含まれる終止符を検出する。終止符が検出される度に当該終止符で終了する訳文に連続する番号を付与することにより、第二テキストT2に含まれる複数の訳文に通し番号が付与される。
【0041】
句点と終止符は原則として一致するので、ある原文とその訳文は、
図3に例示されるように同じ文番号により対応付けられる。
【0042】
続いて、処理部123は、第一テキストT1に含まれる各原文に対して形態素解析を適用する(STEP22)。これにより、各原文において形態素に対応しうる複数の原語が抽出される。このとき、抽出される原語の品詞を限定してもよい。例えば、名詞、動詞、形容詞、および副詞に限って原語の抽出がなされることにより、処理部123における処理負荷と処理時間の増大を抑制できる。
【0043】
続いて、処理部123は、形態素解析を通じて抽出された全ての原語に対して通し番号Nを付与する(STEP23)。処理部123は、抽出された各原語に対し、通し番号Nとともにフラグを割り当てる。例えば、フラグの初期値は0(オフ状態)とされる。以降の説明は、第一テキストT1全体を通じてn個の原語が抽出された場合について行なう。
【0044】
続いて、処理部123は、フラグがオフ状態である原語のうち最小の通し番号Nminが付与されている原語を特定する(STEP24)。処理の開始時においては、全てのフラグがオフ状態であるので、1番目の原語が特定される。
【0045】
続いて、処理部123は、STEP24で特定された原語に最後の通し番号(N=n)が付与されているかを判断する(STEP25)。1番目の原語に最後の通し番号が付与されていることは通常あり得ないので(STEP25においてNO)、処理部123は、通し番号が(Nmin+1)である原語を特定する(STEP26)。処理の開始時においては、2番目の原語が特定される。
【0046】
続いて、処理部123は、STEP24で特定された原語とSTEP26で特定された原語が同じ語であるかを判断する(STEP27)。
【0047】
両原語が相違している場合(STEP27においてNO)、処理部123は、STEP27の判断に供された原語に最後の通し番号(N=n)が付与されているかを判断する(STEP28)。
【0048】
STEP27の判断に供された原語に最後の通し番号が付与されていない場合(STEP28においてNO)、処理部123は、処理をSTEP26に戻す。すなわち、3番目の原語が特定される。その後、処理部123は、最後の通し番号が付与された原語がSTEP27の判断に供されるまで、STEP26からSTEP28の処理を繰り返す。
【0049】
STEP27の判断に供された原語に最後の通し番号が付与されている場合(STEP28においてYES)、処理部123は、通し番号Nminが付与された原語に割り当てられているフラグの値を1(オン状態)にする(STEP29)。
【0050】
続いて、処理部123は、全てのフラグがオン状態であるかを判断する(STEP30)。全てのフラグがオン状態である場合(STEP30においてYES)、処理は終了する。全てのフラグがオン状態でない場合(STEP30においてNO)、処理部123は、処理をSTEP24に戻す。
【0051】
次に特定された最小の通し番号Nminが付与された原語が、最後の通し番号が付与された原語である場合(STEP25においてYES)、同じ語が存在するかの判断は不要であるので、処理部123は、当該原語に割り当てられているフラグの値を1(オン状態)にする(STEP29)。
【0052】
STEP24で特定された原語(N=Nmin)とSTEP26で特定された原語(N=Nmin+1)が同じ語であると判断された場合(STEP27においてYES)、
図6に例示されるように、処理部123は、通し番号Nmin+1が付与された原語に割り当てられたフラグの値を1(オン状態)にする(STEP31)。
【0053】
続いて、処理部123は、通し番号Nminが付与された原語を含んでいる原文と同じ文番号が付与された訳文を、第二テキストT2から特定する(STEP32)。同様に、処理部123は、通し番号Nmin+1が付与された原語を含んでいる原文と同じ文番号が付与された訳文を、第二テキストT2から特定する。
【0054】
続いて、処理部123は、STEP32において特定された訳文に形態素解析が適用済みであるかを判断する(STEP33)。
【0055】
STEP32において特定された訳文に形態素解析が適用済みでない場合(STEP33においてNO)、処理部123は、当該訳文に形態素解析を適用する(STEP34)。これにより、当該訳文において形態素に対応しうる複数の訳語が抽出される。このとき、抽出される原語の品詞を限定してもよい。例えば、名詞、動詞、形容詞、および副詞に限って訳語の抽出がなされることにより、処理部123における処理負荷と処理時間の増大を抑制できる。
【0056】
STEP32において特定された訳文に形態素解析が適用済みである場合(STEP33においてYES)、処理部123は、STEP34をスキップする。
【0057】
続いて、処理部123は、形態素解析を通じて抽出された複数の訳語から通し番号Nminが付与された原語に対応する訳語を特定する(STEP35)。同様に、処理部123は、形態素解析を通じて抽出された複数の訳語から通し番号Nmin+1が付与された原語に対応する訳語を特定する。
図1に例示されるように、処理部123は、辞書データベース14を参照して訳語を特定するように構成されている。辞書データベース14は、通信ネットワークを介して無償または有償で利用可能とされているものであってもよいし、ルールベースの翻訳エンジンの一部として提供されているものであってもよい。
【0058】
続いて、処理部123は、通し番号Nminが付与された原語に対応する訳語と、通し番号Nmin+1が付与された原語に対応する訳語とが一致しているかを判断する(STEP36)。
【0059】
通し番号Nminが付与された原語に対応する訳語と、通し番号Nmin+1が付与された原語に対応する訳語とが一致していない場合(STEP36においてNO)、処理部123は、相違する複数の訳語を含むリストに対応するデータを作成する(STEP37)。
【0060】
通し番号Nminが付与された原語に対応する訳語と、通し番号Nmin+1が付与された原語に対応する訳語とが一致している場合(STEP36においてYES)、処理部123は、処理を
図5のSTEP28へ進める。
【0061】
図5と
図6を参照して説明した上記の処理を理解するために、
図7に簡単な例を示す。本例においては、
図5のSTEP21からSTEP23の処理を通じて、第一テキストT1において三つの原文と六つの原語が特定されている(n=6)。
【0062】
前述の通り、処理の開始時においては全ての通し番号についてフラグがオフ状態とされているので、通し番号N=1が付与された原語Aが特定される(STEP24)。通し番号N=1は最後の通し番号ではないので(STEP25においてNO)、通し番号N=2が付与された原語Bが続いて特定される(STEP26)。
【0063】
通し番号N=1が付与された原語Aと通し番号N=2が付与された原語Bは相違しており(STEP27においてNO)、かつ通し番号N=2は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=3が付与された原語Aが特定される。
【0064】
通し番号N=1が付与された原語Aと通し番号N=3が付与された原語Aは一致しているので(STEP27においてYES)、通し番号N=3に割り当てられたフラグがオン状態とされる(STEP31)。
【0065】
続いて、通し番号N=1が付与された原語Aを含む原文と同じ文番号1が付与された訳文が、第二テキストT2から特定される(STEP32)。同様に、通し番号N=3が付与された原語Aを含む原文と同じ文番号2が付与された訳文が、第二テキストT2から特定される。
【0066】
文番号1が付与された訳文と文番号2が付与された訳文は、ともに形態素解析に供されていないので(STEP33においてNO)、両訳文に対して形態素解析が適用される(STEP34)。
【0067】
続いて、辞書データベース14を参照することにより、通し番号N=1が付与された原語Aに対応する訳語として、文番号1に付与された訳文に含まれる一つの形態素が特定される(STEP35)。本例においては訳語a1が特定されている。同様に、通し番号N=3が付与された原語Aに対応する訳語として、文番号2に付与された訳文に含まれる一つの形態素が特定される。本例においては、訳語a1が特定されている。
【0068】
通し番号N=1が付与された原語Aに対応する訳語a1と通し番号N=3が付与された原語Aに対応する訳語a1は一致しているので(STEP36においてYES)、処理はSTEP28に進む。
【0069】
通し番号N=3は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=4が付与された原語Cが特定される。
【0070】
通し番号N=1が付与された原語Aと通し番号N=4が付与された原語Cは相違しており(STEP27においてNO)、かつ通し番号N=4は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=5が付与された原語Bが特定される。
【0071】
通し番号N=1が付与された原語Aと通し番号N=5が付与された原語Bは相違しており(STEP27においてNO)、かつ通し番号N=5は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=6が付与された原語Dが特定される。
【0072】
通し番号N=1が付与された原語Aと通し番号N=6が付与された原語Dは相違しており(STEP27においてNO)、かつ通し番号N=6は最後の通し番号であるので(STEP28においてYES)、通し番号N=1に割り当てられたフラグがオン状態とされる(STEP29)。
【0073】
まだ全てのフラグがオン状態ではないので(STEP30においてNO)、処理はSTEP24に戻り、フラグがオフ状態である最小の通し番号が付与された原語が特定される。本例においては、通し番号N=2が付与された原語Bが特定される。
【0074】
通し番号N=2は最後の通し番号ではないので(STEP25においてNO)、通し番号N=3が付与された原語Aが続いて特定される(STEP26)。
【0075】
通し番号N=2が付与された原語Bと通し番号N=3が付与された原語Aは相違しており(STEP27においてNO)、かつ通し番号N=3は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=4が付与された原語Cが特定される。
【0076】
通し番号N=2が付与された原語Bと通し番号N=4が付与された原語Cは相違しており(STEP27においてNO)、かつ通し番号N=4は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=5が付与された原語Bが特定される。
【0077】
通し番号N=2が付与された原語Bと通し番号N=5が付与された原語Bは一致しているので(STEP27においてYES)、通し番号N=5に割り当てられたフラグがオン状態とされる(STEP31)。
【0078】
続いて、通し番号N=2が付与された原語Bを含む原文と同じ文番号1が付与された訳文が、第二テキストT2から特定される(STEP32)。同様に、通し番号N=5が付与された原語Bを含む原文と同じ文番号2が付与された訳文が、第二テキストT2から特定される。
【0079】
文番号1が付与された訳文と文番号2が付与された訳文は、ともに形態素解析が適用済みであるので(STEP33においてYES)、改めての形態素解析は行なわれない。
【0080】
続いて、辞書データベース14を参照することにより、通し番号N=2が付与された原語Bに対応する訳語として、文番号1に付与された訳文に含まれる一つの形態素が特定される(STEP35)。本例においては訳語b1が特定されている。同様に、通し番号N=5が付与された原語Bに対応する訳語として、文番号2に付与された訳文に含まれる一つの形態素が特定される。本例においては、訳語b2が特定されている。
【0081】
通し番号N=2が付与された原語Bに対応する訳語b1と通し番号N=5が付与された原語Bに対応する訳語b2は相違しているので(STEP36においてNO)、訳語b1と訳語b2を含むリストに対応するデータが生成される(STEP37)。その後、処理はSTEP28に進む。
【0082】
通し番号N=5は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=6が付与された原語Dが特定される。
【0083】
通し番号N=2が付与された原語Bと通し番号N=6が付与された原語Dは相違しており(STEP27においてNO)、かつ通し番号N=6は最後の通し番号であるので(STEP28においてYES)、通し番号N=2に割り当てられたフラグがオン状態とされる(STEP29)。
【0084】
まだ全てのフラグがオン状態ではないので(STEP30においてNO)、処理はSTEP24に戻り、フラグがオフ状態である最小の通し番号が付与された原語が特定される。本例においては、通し番号N=4が付与された原語Cが特定される。
【0085】
通し番号N=4は最後の通し番号ではないので(STEP25においてNO)、通し番号N=5が付与された原語Bが続いて特定される(STEP26)。
【0086】
通し番号N=4が付与された原語Cと通し番号N=5が付与された原語Bは相違しており(STEP27においてNO)、かつ通し番号N=5は最後の通し番号ではないので(STEP28においてNO)、処理はSTEP26に戻る。すなわち、通し番号N=6が付与された原語Dが特定される。
【0087】
通し番号N=4が付与された原語Cと通し番号N=6が付与された原語Dは相違しており(STEP27においてNO)、かつ通し番号N=6は最後の通し番号であるので(STEP28においてYES)、通し番号N=4に割り当てられたフラグがオン状態とされる(STEP29)。
【0088】
まだ全てのフラグがオン状態ではないので(STEP30においてNO)、処理はSTEP24に戻り、フラグがオフ状態である最小の通し番号が付与された原語が特定される。本例においては、通し番号N=6が付与された原語Dが特定される。
【0089】
通し番号N=6は最後の通し番号であるので(STEP25においてYES)、通し番号N=6に割り当てられたフラグがオン状態とされる(STEP29)。これにより全てのフラグがオン状態とされたので(STEP30においてYES)、処理が終了する。
【0090】
図5から
図7を参照して説明したように、本実施形態に係る後編集支援装置12の処理部123は、第一テキストT1に形態素解析を適用することにより特定の原語を抽出するように構成されうる。この場合、処理部123は、当該特定の原語が第一テキストT1中に二度以上現れる場合にのみ、当該特定の原語を含む原文に対応する訳文を特定し、特定された訳文に対して形態素解析を適用するように構成される。換言すると、第二テキストT2に対しては、訳語の不一致が検証される必要がある訳文にのみ形態素解析が適用される。
【0091】
すなわち、第一テキストT1に含まれる全ての原文には形態素解析が適用されるが、第二テキストT2に含まれる全ての訳文に対して形態素解析が適用されない場合がある。
図7に示される例においては、文番号3が付与された訳文に対しては、形態素解析が適用されていない。文番号3が付与された原文は、第一テキストT1中に一度だけしか現れない原語のみを含んでいるので、訳語の不一致を検証する必要がないからである。第二テキストT2に対して形態素解析が適用される頻度を必要最小限とすることにより、処理部123における処理負荷と処理時間の増大を抑制できる。
【0092】
図6のSTEP37において複数の訳語を含むリストに対応するデータが生成された事実は、
図2のSTEP13における第三テキストT3の生成要否に係る判断に反映される。すなわち、リストに対応するデータが生成されている場合、一つの原語に複数の相違する訳語が対応付けられていると判断され(STEP13においてYES)、第三テキストT3の生成がなされる(STEP14)。
【0093】
前述の通り、
図4に例示される第三テキストT3においては、第一テキストT1に含まれている「発光素子」という原語に対して「light emitting element」という訳語のみが割り当てられている。このような第三テキストT3を生成するために、
図3に例示される第二テキストT2に含まれている「light emitter」と「photo emitting element」が、「light emitting element」により置き換えられている。
【0094】
なお、
図4に例示される第三テキストT3において、「light emitting element」という訳語は、他の訳語と同じ態様で表示されている。置き換え処理がなされた箇所となされなかった箇所がシームレスに表示されているので、ポストエディタは、どの訳語に対して置き換え処理がなされたのかを認識することはない。このようにして置き換え処理のステルス性を高めることにより、ポストエディタが訳文のチェックに集中できる。
【0095】
あるいは、後編集支援装置12は、置き換え処理がなされた訳語を他の訳語と区別可能な態様で表示装置13に表示させるように構成されうる。例えば、置き換え処理がなされた訳語のフォントサイズ、フォント種、およびフォントスタイル(斜字体、太字体など)の少なくとも一つが、他の訳語とは異なるように変更される。これに加えてあるいは代えて、
図8に例示されるように置き換え処理がなされた訳語に下線が付されたり、置き換え処理がなされた訳語のみ背景色が変更されたりしてもよい。
【0096】
このような構成によれば、どの訳語に対して置き換え処理がなされたのかを知りたいというポストエディタのニーズに応えることができる。置き換え処理が適用された訳語の傾向に基づいて、翻訳装置11が使用しているニューラル機械翻訳モデル111の癖を推定することもできる。
【0097】
置き換え処理がなされた訳語をポストエディタが認識可能な上記の例においては、置き換え処理がなされた特定の訳語の指定が可能とされうる。
図9は、マウスやタッチパッドなどのポインティングデバイスの動作に応じて表示装置13に表示されるカーソルによって特定の訳語の指定がなされる例を示している。具体的には、「sensed」という訳語が指定されている。表示装置13がタッチパネル機能を備えている場合は、特定の訳語が表示されている領域をポストエディタが触れることによって当該訳語の指定がなされてもよい。ポストエディタが特定の訳語を発話することにより、音声認識機能を通じて当該訳語の指定がなされてもよい。
【0098】
後編集支援装置12は、上記のように特定の訳語の指定がなされた場合、置き換え処理に関与した複数の相違する訳語を表示装置13に表示させるように構成されうる。具体的には、
図6のSTEP37において生成されたリストに対応するデータが読み出され、当該リストに含まれている複数の相違する訳語が表示装置13に表示される。
図9に示される例の場合、第三テキストT3において採用されている「sensed」に加えて、第二テキストT2に含まれて「sensed」によって置き換えられた「detected」が表示されている。
【0099】
置き換え処理に関与した複数の相違する訳語の表示態様は、適宜に定められうる。
図9に示される例においては、カーソルによって指定された特定の訳語の近傍に、複数の相違する訳語がフロート表示されている。別例として、表示装置13における第一テキストT1および第三テキストT3が表示されている領域とは異なる位置に、置き換え処理に関与した複数の相違する訳語を表示するための専用の領域が設けられてもよい。
【0100】
上記のような構成によれば、第三テキストT3に含まれている置き換え済みの訳語に対してポストエディタが違和感を覚える場合などにおいて、第二テキストT2に含まれていた置き換え前の訳語を知ることができる。換言すると、特定の原語に対して自動的に訳語が統一される前に翻訳装置11のニューラル機械翻訳モデル111がどのような別の訳語を出力したのかを知ることができる。これにより、ポストエディタによる訳語の再検討を支援できる。
【0101】
図10に例示されるように、後編集支援装置12は、置き換え処理に関与した複数の相違する訳語の一つを選択可能な態様で表示装置13に表示させうる。図示の例においては、フロー表示された複数の相違する訳語の一つが、カーソルによって選択可能とされている。具体的には、「detected」が選択されている。
【0102】
置き換え処理に関与した複数の相違する訳語の一つが選択された場合、後編集支援装置12は、第三テキストT3において表示されている元の訳語を、選択された一つの訳語で置き換えるように構成される。
図11は、第三テキストT3に当初含まれていた訳語である「detected」が、
図10において選択された「detected」に一括変換された例を示している。
【0103】
このような構成によれば、第三テキストT3として当初より統一されて表示されている訳語を別の訳語に一括変換するのみで、ポストエディタがより適当と考える訳語への変更が完了する。すなわち、後編集支援装置12によって自動的に選択された訳語よりも選択されなかった訳語の方が適当であるとポストエディタが考える場合において、後編集作業を効率的に行なうことができる。
【0104】
これまで説明した通り、第三テキストT3の生成にあたっては、第二テキストT2に含まれる複数の相違する訳語のうちの一つで残りの訳語が置き換えられることにより、自動的に訳語の統一がなされる。訳語の置き換えに係る規則について、幾つかの例を挙げて説明する。
【0105】
一例として、後編集支援装置12は、上記の複数の相違する訳語のうち、最も高い頻度で第二テキストT2に現れる訳語で残りの訳語を置き換えるように構成されうる。例えば、
図6のSTEP37において複数の相違する訳語のリストが生成される際に、各訳語が特定された回数をデータとして含めることにより、最も高い頻度で第二テキストT2に現れる訳語の特定が可能とされうる。
【0106】
図3に例示される第二テキストT2においては、第一テキストT1に含まれる「発光素子」という原語に対して、「light emitting element」、「light emitter」、および「photo emitting element」という相違する訳語が割り当てられている。このうち、「light emitting element」が現れる頻度が最も高い。したがって、後編集支援装置12は、「light emitting element」で「light emitter」と「photo emitting element」を置き換えることにより、
図4に例示される第三テキストT3を生成する。
【0107】
このような構成によれば、翻訳装置11が使用するニューラル機械翻訳モデル111の特性を第三テキストT3に反映しやすくできる。
【0108】
第一テキストT1に含まれる特定の原語に対して複数の訳語が対応付けられており、当該複数の訳語のうち最も高い頻度で第二テキストT2に現れる訳語を特定できない場合もありうる。例えば、
図3に例示される第二テキストT2においては、第一テキストT1に含まれる「検出され」という原語に対して、「sensed」と「detected」という相違する訳語が割り当てられている。しかしながら、第二テキストT2において両訳語が現れる頻度は同じである。
【0109】
このような場合、後編集支援装置12は、上記の複数の相違する訳語のうち、最初に第二テキストT2に現れる訳語で残りの訳語を置き換えるように構成されうる。選ばれた訳語が適切であるかは問わない。重要なのは、訳語の不統一が解消された状態で第三テキストT3をポストエディタに提示することである。
【0110】
図1に例示されるように、後編集支援システム10は、記憶装置15を備えうる。
図10と
図11を参照して説明したように第三テキストT3における特定の訳語が後編集により別の訳語に変更された場合、後編集支援装置12は、編集受付部125を通じて当該変更に係る情報を受け付ける。処理部123は、変更後の訳語に対応するデータを記憶装置15に記憶するように構成される。
【0111】
図10に示される例においては、第二テキストT2に当初含まれていた複数の相違する訳語の一つで変更がなされている。しかしながら、ポストエディタがより適切と考える別の訳語によって変更がなされてもよい。この場合においても、処理部123は、変更後の訳語に対応するデータを記憶装置15に記憶する。
【0112】
次回以降に受け付けられた第一テキストT1に基づいて生成された第二テキストT2に含まれる複数の相違する訳語が、当該第一テキストT1に含まれる特定の原語に対応付けられていると判断された場合、処理部123は、記憶装置15に記憶されている当該原語に対応する訳語が当該複数の相違する訳語に含まれているかを判断する。記憶装置15に記憶されている訳語が当該複数の相違する訳語に含まれている場合、処理部123は、記憶装置15に記憶されている訳語で別の訳語を置き換える。
【0113】
例えば、
図10に例示される第三テキストT3に含まれる「light emitting element」が後編集により「light emitter」に置き換えられた場合、「light emitter」が記憶装置15に記憶される。次回以降に受け付けられた第一テキストT1に基づいて生成された第二テキストT2に「発光素子」の訳語として「light emitting element」、「light emitter」、および「photo emitting element」が含まれていた場合、第二テキストT2における各訳語の出現頻度に依らず、「light emitter」で他の訳語が置き換えられる。
【0114】
後編集により当初の訳語が変更された場合、変更後の訳語は、ポストエディタにとってより適切な訳語である蓋然性が高い。上記のような構成によれば、ニューラル機械翻訳モデル111の特性よりもポストエディタの好みが優先されて第三テキストT3が生成されるので、後編集に係る作業量の増大を抑制できる。
【0115】
記憶装置15には、原語と訳語の対応関係をユーザ(ポストエディタ)が指定あるいは定義可能な辞書データが記憶されうる。この場合、第二テキストT2に含まれる複数の相違する訳語が、第一テキストT1に含まれる特定の原語に対応付けられていると判断された場合、処理部123は、当該原語が辞書データに含まれているかを判断する。当該原語が辞書データに含まれている場合、処理部123は、辞書データにおいて当該原語に対応付けられている訳語で別の訳語を置き換える。
【0116】
例えば、辞書データにおいて「発光素子」と「photo emitting element」が含まれており、第二テキストT2に「発光素子」の訳語として「light emitting element」、「light emitter」、および「photo emitting element」が含まれていた場合、第二テキストT2における各訳語の出現頻度に依らず、「photo emitting element」で他の訳語が置き換えられる。
【0117】
このような構成によっても、ニューラル機械翻訳モデル111の特性よりもポストエディタの好みが優先されて第三テキストT3が生成されるので、後編集に係る作業量の増大を抑制できる。
【0118】
これまで説明した各種の機能を有する後編集支援装置12の処理部123は、汎用メモリと協働して動作する汎用マイクロプロセッサにより実現されうる。記憶装置15の少なくとも一部は、当該汎用メモリにより実現されてもよい。汎用マイクロプロセッサとしては、CPU、MPU、GPUが例示されうる。汎用メモリとしては、ROMやRAMが例示されうる。この場合、ROMには、上記の各種処理を実行するコンピュータプログラムが記憶されうる。ROMは、コンピュータプログラムを記憶している記憶媒体の一例である。プロセッサは、ROM上に記憶されたコンピュータプログラムの少なくとも一部を指定してRAM上に展開し、RAMと協働して上述した処理を実行する。上記のコンピュータプログラムは、汎用メモリにプリインストールされてもよいし、不図示の通信ネットワークを介して外部サーバ装置からダウンロードされ、汎用メモリにインストールされてもよい。この場合、外部サーバ装置は、コンピュータプログラムを記憶している記憶媒体の一例である。
【0119】
処理部123は、マイクロコントローラ、ASIC、FPGAなどの上記のコンピュータプログラムを実行可能な専用集積回路によって実現されてもよい。この場合、記憶装置15の少なくとも一部は、当該専用集積回路に含まれる記憶素子により実現されうる。当該記憶素子には、上記のコンピュータプログラムがプリインストールされる。当該記憶素子は、コンピュータプログラムを記憶している記憶媒体の一例である。処理部123は、汎用マイクロプロセッサと専用集積回路の組合せによっても実現されうる。
【0120】
上記の実施形態は、本発明の理解を容易にするための例示にすぎない。上記の実施形態に係る構成は、本発明の趣旨を逸脱しなければ、適宜に変更・改良されうる。
【0121】
後編集支援システム10において、翻訳装置11、後編集支援装置12、表示装置13、および記憶装置15の各々は、独立した装置として提供されうる。あるいは、翻訳装置11、後編集支援装置12、表示装置13、および記憶装置15の少なくとも一つは、単一の装置内において異なる機能ユニットとして提供されうる。
【符号の説明】
【0122】
10:後編集支援システム、11:翻訳装置、111:ニューラル機械翻訳モデル、12:後編集支援装置、121:第一受付部、122:第二受付部、123:処理部、13:表示装置、15:記憶装置、T1:第一テキスト、T2:第二テキスト、T3:第三テキスト