(58)【調査した分野】(Int.Cl.,DB名)
前記チューニング部は、前記類似文および前記類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行い、前記評価の結果に基づき前記機械翻訳エンジンにおける機械翻訳モデルをチューニングする、
請求項1〜4の何れか一項に記載の機械翻訳制御装置。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、本発明に係る一実施形態について説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0013】
図1に示すように一実施形態に係る機械翻訳制御装置10は、機械翻訳モデル22を用いて機械翻訳を行う既存の機械翻訳エンジン20における利用ログ21を参照可能とされ、機械翻訳の対訳データを保管した既存の対訳データベース(対訳DB)30を検索可能とされ、機械翻訳の訳質向上のために機械翻訳モデル22をチューニングする機能を有する装置である。
【0014】
より具体的には、機械翻訳制御装置10は、機械翻訳エンジン20における利用ログ21を参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出部11と、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を対訳DB30から取得する取得部12と、取得された類似文および類似対訳文に基づいて機械翻訳エンジン20における機械翻訳モデル22をチューニングするチューニング部13と、を備える。
【0015】
このうち、抽出部11は、機械翻訳への入力文の文書分類を行って頻出文を抽出してもよく、また、頻出する言い回しが複数ある場合に、言い回しの頻度をさらに基礎として頻出文を抽出してもよい。
【0016】
取得部12は、頻出文に類似する類似文が複数ある場合に、所定基準に基づく類似度をさらに基礎として類似文を取得してもよい。
【0017】
チューニング部13は、例えば、類似文および類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行い、当該評価の結果に基づき機械翻訳エンジンにおける機械翻訳モデルをチューニングしてもよい。
【0018】
また、
図1には、機械翻訳制御装置10が機械翻訳エンジン20および対訳DB30とは別体で構成される例を示した。即ち、抽出部11は、外部に設けられた機械翻訳エンジン20における利用ログ21を参照するよう構成され、また、取得部12は、外部に設けられた対訳DB30から類似文および類似対訳文を取得するよう構成されている。ただし、上記のように別体の構成とすることは必須ではなく、これとは異なる構成、例えば機械翻訳制御装置10が機械翻訳エンジン20と対訳DB30のうち一方又は両方と一体的に構成されてもよい。
【0019】
次に、
図2〜
図5を用いて、機械翻訳制御装置10により実行される処理の一例を説明する。
【0020】
図2に示すように、処理の全体像としては、まず、抽出部11が、機械翻訳エンジン20における利用ログ21を参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出処理を行い(ステップS1)、次に、取得部12が、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を対訳DB30から取得する取得処理を行い(ステップS2)、さらに、チューニング部13が、取得された類似文および類似対訳文に基づいて機械翻訳エンジン20における機械翻訳モデル22をチューニングする処理を行う(ステップS3)。上記のような
図2の処理の実行開始トリガーは特定のトリガーに限定されるものではなく、例えば、予め定められた定期的なタイミングで実行開始されてもよいし、オペレータ等による所定操作により実行開始されてもよい。以下、
図3〜
図5を用いて上記ステップS1〜S3それぞれの処理例を説明する。
【0021】
図3に示すように、上記ステップS1の抽出処理では、抽出部11が、利用ログにおける機械翻訳入力文の文書分類を行い、頻出文を抽出する(ステップS11)。なお、その抽出基準となる出現頻度は特定のものに限定されるものではない。ここで、頻出する言い回しが複数あるか否かが判断され(ステップS12)、複数ある場合は、抽出部11は言い回しの頻度をさらに基礎として頻出文を抽出する(ステップS13)。抽出された頻出文は取得部12へ転送される。
【0022】
図4に示すように、上記ステップS2の取得処理では、取得部12が、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳(類似対訳文)を対訳DB30から取得する(ステップS21)。なお、ここでの「類似文」とは、所定の類似範囲内にある文を意味し、同一の文も含む。また、類似文の取得方法は、特定の方法に限定されるものではなく、既存の方法を採用してもよい。その際、文同士の類似度を計算する方法として、tf-idf(term frequency-inverse document frequency)、LDA(Latent Dirichlet Allocation)、word2vecなどの既存の方法を採用してもよい。ここで、類似文が複数あるか否かが判断され(ステップS22)、複数ある場合は、取得部12は、ステップS21とは異なる所定基準に基づく類似度をさらに基礎として類似文を選択し、選択された類似文および該類似文に関する類似対訳文を対訳DB30から取得する(ステップS23)。取得された類似文および類似対訳文はチューニング部13へ転送される。
【0023】
図5に示すように、上記ステップS3のチューニング処理では、チューニング部13が、類似文および類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行う(ステップS31)。ここで、評価の結果、期待する動作が成されるか否かが判断される(ステップS32)。その判断方法は、特定の方法に限定されるものではなく、既存の方法を採用してもよい。判断の結果、期待する動作が成される場合は、チューニング部13は、機械翻訳エンジン20への投入を行う。即ち、機械翻訳エンジン20における機械翻訳モデル22をチューニングする(ステップS33)。一方、ステップS32の判断の結果、期待する動作が成されない場合は、チューニング部13は、機械翻訳エンジンへの投入を回避する(ステップS34)。
【0024】
以上説明した実施形態によれば、従来から存在する機械翻訳エンジン20および対訳DB30に、さらに機械翻訳制御装置10を設けることで、従来の高スキル者による利用ログの評価等を経ることなく、対訳DB30を活用して、頻出文についての類似文および類似対訳文に基づく機械翻訳モデルのチューニングが行われる。これにより、訳質向上のための作業時間およびコストを抑えつつ、頻出文についての訳質向上を実現し、ユーザ利便性を向上させることができる。また、上記のように作業時間およびコストを抑えることで、後述するプロセッサ等における処理負荷を軽減できるという技術的効果も併せて奏する。
【0025】
個別の機能に着目すると、抽出部11は、機械翻訳への入力文の文書分類を行って頻出文を抽出することができる。その際、頻出する言い回しが複数ある場合でも、抽出部11は言い回しの頻度をさらに基礎とすることで、適切に頻出文を抽出することができる。
【0026】
取得部12は、頻出文に類似する類似文が複数ある場合でも、所定基準に基づく類似度をさらに基礎とすることで、適切に類似文を取得することができる。
【0027】
チューニング部13は、類似文および類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行い、当該評価の結果、期待する動作が成されるか否かを判断し、期待する動作が成される場合にのみ、機械翻訳エンジン20への投入を行うよう制御することで、適切に機械翻訳エンジン20における機械翻訳モデル22をチューニングすることができる。
【0028】
上記の実施形態の説明で用いた
図1のブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
【0029】
例えば、上記の実施形態における機械翻訳制御装置10は、上述した機械翻訳制御装置10の処理を行うコンピュータとして機能してもよい。
図6は、機械翻訳制御装置10のハードウェア構成の一例を示す図である。上述の機械翻訳制御装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0030】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。機械翻訳制御装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0031】
機械翻訳制御装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
【0032】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、機械翻訳制御装置10の各機能部は、プロセッサ1001を含んで実現されてもよい。
【0033】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールおよびデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、機械翻訳制御装置10の各機能部は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0034】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0035】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
【0036】
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。例えば、上述の機械翻訳制御装置10の各機能部は、通信装置1004を含んで実現されてもよい。
【0037】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0038】
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0039】
また、機械翻訳制御装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
【0040】
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
【0041】
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0042】
入出力された情報などは特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報などは、上書き、更新、または追記され得る。出力された情報などは削除されてもよい。入力された情報などは他の装置へ送信されてもよい。
【0043】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0044】
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0045】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0046】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0047】
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0048】
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
【0049】
移動通信端末は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
【0050】
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
【0051】
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0052】
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
【0053】
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。