(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023066183
(43)【公開日】2023-05-15
(54)【発明の名称】言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラム
(51)【国際特許分類】
G06F 40/45 20200101AFI20230508BHJP
G06F 40/242 20200101ALI20230508BHJP
【FI】
G06F40/45
G06F40/242
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021176759
(22)【出願日】2021-10-28
(11)【特許番号】
(45)【特許公報発行日】2022-07-27
(71)【出願人】
【識別番号】516353102
【氏名又は名称】株式会社川村インターナショナル
(74)【代理人】
【識別番号】100137338
【弁理士】
【氏名又は名称】辻田 朋子
(72)【発明者】
【氏名】森口 功造
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA03
5B091BA03
5B091CC01
5B091CC16
5B091CD11
5B091EA01
(57)【要約】
【課題】
本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。
【解決手段】
言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有する言語資産管理システム。
【選択図】
図1
【特許請求の範囲】
【請求項1】
原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、
利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、
前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、
前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、
を有する言語資産管理システム。
【請求項2】
前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成する請求項1に記載の言語資産管理システム。
【請求項3】
前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成する請求項1又は2に記載の言語資産管理システム。
【請求項4】
前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成する請求項1~3の何れかに記載の言語資産管理システム。
【請求項5】
前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、
前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有する請求項1~4の何れかに記載の言語資産管理システム。
【請求項6】
コンピュータを、
利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、
前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、
前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする言語資産管理プログラム。
【請求項7】
利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成するステップと、
前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、
前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行する言語資産管理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語資産管理システム、言語資産管理方法、及び、言語資産管理プログラムに関する。
【背景技術】
【0002】
近年、統計的機械翻訳の性能を向上させるため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。
【0003】
特許文献1では、単語の一致数のみに基づいて文の対応付けを行う場合と比較して、より品質の高い対訳コーパスを作成するための発明が開示されている。
【先行技術文献】
【特許文献】
【0004】
【0005】
特許文献1記載の発明は、第1言語と第2言語の1以上の対訳文を取得し、取得された第1言語の文を第2言語の文に翻訳する。取得された第2言語の文と、翻訳された第2言語の文と、の間の編集距離を算出し、算出された編集距離が閾値よりも大きい対訳文を選別することで、より品質の高い対訳コーパスを作成する。
【0006】
しかしながら、特許文献1に記載の発明では、より品質の高い対訳コーパスを作成するために、第1言語の文と第2言語の文の両方を必要とする。また、特許文献1には対訳コーパスの作成方法について記載されているが、作成した対訳コーパスをどのように管理・利用するかについては記載されていない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記事情を鑑みて、本発明は、言語資産管理システムに係る新規な技術を提供することを、解決すべき課題とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明は、原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて管理する言語資産管理システムであって、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、を有することを特徴とする。このような構成とすることで、本発明は、機械翻訳モデルと、複数の用語集と、を対応付けて管理することができる。
【0009】
本発明の好ましい形態では、前記生成する手段は更に、前記第一言語で記載された文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、利用者が訳文を有していない場合でも、原文のみから翻訳メモリを生成することができる。
【0010】
本発明の好ましい形態では、前記生成する手段は更に、前記翻訳メモリにおける各セグメント間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。
【0011】
前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成することを特徴とする。このような構成とすることで、本発明は、精度の高い翻訳メモリを生成することができる。
【0012】
本発明の好ましい形態では、前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有することを特徴とする。このような構成とすることで、本発明は、翻訳精度の低いセグメントの再利用を行い、当該セグメントの翻訳精度を高めることができる。
【0013】
上記課題を解決するために、本発明は、コンピュータを、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成する手段と、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録する手段と、として機能させことを特徴とする。
【0014】
上記課題を解決するために、本発明は、利用者によってインポートされ、少なくとも原文又は訳文の一方の言語で記述された文章又は用語が記述された転送元ファイルに基づく前記翻訳メモリ及び/又は前記用語集を生成するステップと、前記翻訳メモリ及び/又は前記用語集に識別情報を対応付けて格納する手段と、前記翻訳メモリを用いた前記機械翻訳モデルの学習処理及び/又は前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタム機械翻訳モデルの識別情報に対して前記学習処理及び前記設定処理に用いた前記翻訳メモリ及び/又は前記用語集の識別情報を対応付けて格納する登録するステップと、をコンピュータが実行することを特徴とする。
【発明の効果】
【0015】
本発明は、言語資産管理システムに係る新規な技術を提供することができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の一実施形態に係る機能ブロック図を示す。
【
図2】本発明の一実施形態に係るハードウェア構成図を示す。
【
図3】本発明の一実施形態に係る処理フローチャート図を示す。
【
図4】本発明の一実施形態に係るインポート画面0w1を示す。
【
図5】本発明の一実施形態に係る言語資産編集画面0w2を示す。
【
図6】本発明の一実施形態に係る再学習画面0w3を示す。
【発明を実施するための形態】
【0017】
本明細書は、本発明の一実施形態にかかる構成や作用効果等について、図面を交えて、以下に説明する。
【0018】
本発明は、以下の実施形態に限定されず、様々な構成を採用し得る。また、本発明の実施形態は、各実施形態のそれぞれにおける構成の一部を、本発明が目的とする作用効果の実現を阻害しない範囲で互いに採用してよい。
【0019】
例えば、本実施形態では言語資産管理システムの構成、動作等について説明するが、実行される方法、コンピュータプログラム等によっても、同様の作用効果を奏することができる。本実施形態におけるプログラムは、コンピュータが読み取り可能な非一過性の記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、言語資産管理システムでその機能を実現する為に外部のコンピュータにおいて当該プログラムを起動させてもよい(いわゆるクラウドコンピューティング)。
【0020】
また、本実施形態において「手段」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらハードウェア資源によって具体的に実現され得るソフトウェアの情報処理とを合わせたものも含み得る。本実施形態において「情報」とは、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行され得る。
【0021】
広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)及びメモリ(Memory)等を適宜組み合わせることによって実現される回路である。即ち、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等を含むものである。
【0022】
<全体構成>
図1は、本実施形態における言語資産管理システムの概要図である。言語資産管理システムは、サーバ1と、端末装置2と、1又は複数のサーバ3と、を備える。
【0023】
図1に例示されるように、サーバ1と、端末装置2と、は既知または慣用のネットワークNWを介して、相互に通信可能である。また、サーバ1と、サーバ3と、は既知または慣用のネットワークNWを介して相互に通信可能である。また、端末装置2と、サーバ3と、の間においても同様に、既知または慣用のネットワークNWを介して相互に通信可能であってよい。なお、本実施形態では、サーバ3は第三者がクラウドサービスとして機械翻訳サービスを提供するためのサーバであり、サービスとして当該機械翻訳サービス、後述の学習処理、及び、設定処理を実行可能である。第三者に代わって或いは加えて、言語資産管理システムを提供する主体が当該サービスを提供してもよく、サーバ1において提供されてよく、サーバ1と通信可能なサーバにおいて提供されてもよい。
【0024】
<ハードウェア構成>
図2に例示されるように、サーバ1は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス101、主記憶デバイス102、補助記憶デバイス103、入力デバイス104、出力デバイス105、通信デバイス106、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。
【0025】
本発明の実施形態におけるサーバ1は、1つのサーバ装置として説明するが、複数台のサーバ装置からなるコンピュータ群であってもよい。ここで、コンピュータ群は、ウェブサーバ及び/又はデータベースサーバを含んでよい。コンピュータ群の態様となる場合、あるコンピュータに、後述する各機能部の全部が備えられる必要はなく、コンピュータ群全体で、後述の機能構成要素が実現される。
【0026】
サーバ1は、本発明の一実施形態で扱われる各種情報の少なくとも一部が格納されるデータベースDBを有する。コンピュータ群の場合、データベースDBは、上記データベースサーバであってよい。
【0027】
図2に例示されるように、端末装置2は、既知または慣用のコンピュータの態様をとり、例として、演算デバイス201、主記憶デバイス202、補助記憶デバイス203、入力デバイス204、出力デバイス205、通信デバイス206、及び、バスインタフェースを有し、本発明が発揮する作用効果を実現する上で適宜、用いられる。
【0028】
本発明の実施形態における端末装置2は、1又は複数のコンピュータからなり、PC(Personal Computer)、スマートフォン、タブレット及びラップトップ等のような任意のコンピュータ装置を用いることを想定する。
【0029】
演算デバイス101および201は、命令セットを実行可能なプロセッサである。
【0030】
主記憶デバイス102および202は、命令セットを記憶可能な揮発性メモリである。
【0031】
補助記憶デバイス103および203は、プログラム等を記録可能な記録媒体である。
【0032】
入力デバイス104および204は、操作入力が可能なインタフェースである。当該インタフェースは、キーボードやタッチパネルなどのインタフェースである。
【0033】
出力デバイス105および205は、例としてモニター等の、利用者に対し後述の画面を表示するためのインタフェースである。
【0034】
通信デバイス106および206は、ネットワークへの接続・参加を実現するための有線方式又は無線方式に基づくインタフェースを有する。
【0035】
〈機能ブロック〉
図1に例示されるように、サーバ1は、生成手段11と、格納手段12と、学習手段13と、設定手段14と、翻訳手段15と、出力処理手段16と、データベースDBと、を有する。
【0036】
また、
図1に例示されるように、端末装置2は、インポート手段21と、出力手段22と、入力手段23と、を有する。
【0037】
生成手段11は、後述のインポート手段21によってサーバ1にインポートされた、第一言語の文章が記載された転送元ファイル、又は、第一言語及び第二言語の文章が記載された転送元ファイルを、予め定められた形式の言語資産に変換する。本実施形態では、言語資産は、翻訳メモリと、用語集と、を含み、翻訳メモリは、第一言語の文章と第二言語の文章間の対応を示し、用語集は、転送元ファイルに記載された第一言語の単語と第二言語の単語間の対応を示す。
【0038】
格納手段12は、生成手段11によって生成された言語資産を、データベースDBに格納する。また、格納手段12は、カスタム機械翻訳モデルに対して、学習処理に用いた翻訳メモリを対応付けて格納し、設定済み機械翻訳モデルに対して、設定処理に用いた用語集を対応付けて格納する。
【0039】
学習手段13は、利用者が指定した翻訳メモリを教師データとした、機械翻訳学習サービスの学習処理を行う。なお、本実施形態で指定可能な機械翻訳学習サービスは、みんなの自動翻訳(登録商標)やGlobalese(登録商標)等であるが、それ以外の機械翻訳学習サービスであってもよい。
【0040】
設定手段14は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行う。また、設定手段14は、サーバ3に当該用語集を送信し、記憶させる。
【0041】
翻訳手段15は、利用者によって入力された文章の翻訳処理を行う。
【0042】
出力処理手段16は、端末装置2からのリクエストに応じて、所定の画面を表示処理し、表示処理結果を返送する。端末装置2は、サーバ1から受け取った情報に基づいて、種々の画面を出力手段22に表示させる。これにより、端末装置2において、後述する種々の画面が表示される。
【0043】
データベースDBは、言語資産と、カスタム機械翻訳モデル及び設定済み機械翻訳モデルの詳細情報と、を記憶する。本実施形態において、言語資産には、言語資産名、ファイル形式、インポート区分(後に詳述)、言語資産中に記載されている言語、ファイルサイズ、コメント、及び、当該言語資産の利用可否等の情報が対応付けて記憶されてよい。本実施形態では、カスタム機械翻訳モデルは、翻訳メモリを教師データとして、指定された機械翻訳学習サービスに再学習を行わせることで、特定の分野に特化した機械翻訳モデルである。カスタム機械翻訳モデルの詳細情報は、当該カスタム機械翻訳モデルの識別情報、当該カスタム機械翻訳モデルの名称、選択された機械翻訳学習サービス、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、更新者、教師データとして指定された言語資産及び識別情報、コメント、及び、当該カスタム機械翻訳モデルの利用可否を示す有効状態等の情報である。本実施形態では、設定済み機械翻訳モデルは、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルと、1又は複数の用語集と、が対応付けられた翻訳モデルであり、設定済み機械翻訳モデルを用いて翻訳を行う際は、再学習を行っていない機械翻訳モデル又はカスタム機械翻訳モデルを用いて生成される訳文に、用語集に記載された用語を反映させる。また、設定済み機械翻訳モデルには、設定済み機械翻訳モデルの識別情報、カスタム機械翻訳モデルの名称、機械翻訳学習サービスの名称、翻訳の際に原文となる言語、翻訳の際に訳文となる言語、登録者、評価値、対応付けられた言語資産及び識別情報、コメント、及び、翻訳への利用の可否等の情報が対応付けて記憶されてよい。
【0044】
インポート手段21は、端末装置2を介して選択された転送元ファイルを、サーバ1にインポートする。
【0045】
出力手段22は、端末装置2が出力デバイス205として備えており、液晶ディスプレイや有機EL(エレクトロルミネッセンス)ディスプレイ等を用いて構成された表示パネルを含むディスプレイである。
【0046】
入力手段23は、キーボード、操作ボタン、マウス、出力手段22上に設けられたタッチセンサ等の入力デバイス204を利用して、外部からなされる操作を受け付け、当該操作に応じた信号を端末装置2に入力する。
【0047】
<情報処理手順>
図3が示すように、本発明にかかる一連の処理は以下のステップを含む。なお、
図3に示される各ステップの順序は一例であり、指定がない限り適宜、当該順序は変更され得る。
【0048】
インポート手段21は、インポート画面0w1を介して、利用者が有する第一言語及び/又は第二言語の文章が記載された転送元ファイルをサーバ1にインポートする(ステップS101)。
【0049】
図4に例示されるように、端末装置2の出力手段22は、設定選択部0w1aと、ファイル選択部0w1bと、インポート部0w1cと、を含むインポート画面0w1を表示する。設定選択部0w1aでは、サーバ1へのインポート区分と、閾値の判定に用いる翻訳モデルの種別と、を選択可能である。インポート区分とは、どのような転送元ファイルをサーバ1にインポートするかの区分であり、選択されたインポート区分によって転送元ファイルに対して行われる処理が変動する。本実施形態では、例として、バイリンガルの対訳データを読み込み翻訳メモリとして記憶するバイリンガルデータ変換、モノリンガルの原文と訳文を読み込み翻訳メモリとして記憶するモノリンガルTMアラインメント(標準)、モノリンガルの原文のみを読み込み翻訳メモリを生成するモノリンガルアラインメント(MT活用)、用語集データを読み込み記憶する用語集データ、バイリンガルの対訳データを読み込み記憶するバイリンガルTBアラインメント、モノリンガルのデータを読み込み記憶するモノリンガルTBアラインメント、及び、利用者が有する翻訳メモリを読み込み記憶する翻訳メモリインポート等のインポート区分が選択可能であるが、上記以外のインポート区分を有してよい。ファイル選択部0w1bでは、サーバ1にインポートする転送元ファイルの選択が行われる。対訳関係にある文章が記載されたファイルをインポートする場合、ファイル選択部0w1bでは、第一言語の文章と第二言語の文章のどちらの言語の文章が原文であり訳文であるかを指定可能であってよく、原文及び訳文が何れの言語であるかを選択可能であってよい。インポート部0w1cを押下することで、ファイル選択部0w1bで選択された言語資産がサーバ1にインポートされる。
【0050】
生成手段11は、ステップS101でインポートされたファイルを、予め定められた形式の言語資産に変換する(ステップS102)。なお、ステップS101で選択されたインポート区分が用語集データであった場合、インポートされた用語集は予め定められたファイル形式の用語集として記憶され、インポート区分が翻訳メモリインポートであった場合、インポートされた翻訳メモリは、予め定められたファイル形式の翻訳メモリとして記憶される。
【0051】
本実施形態では、設定選択部0w1aで選択されたインポート区分がモノリンガルTMアラインメント(標準)であった場合、生成手段11は、ファイル選択部0w1bで選択された原文のファイルと訳文のファイルにおける文章の対応付けを行い、各セグメント(対となる行)間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。また、生成手段11は、ファイル選択部0w1bで選択された原文のファイルと訳文のファイルにおける文章から、原文と訳文の間で対応がとれる単語の数と対応がとれない単語の数を数えることでスコア値を算出し、当該算出結果に基づき原文と訳文の対応付けを行ってよい。この際、各セグメントには前述のスコア値が対応付けて記憶されており、生成手段11は、当該スコア値が予め定められた閾値を超えるセグメントを翻訳メモリとして記憶する。
【0052】
また、設定選択部0w1aで選択されたインポート区分がモノリンガルTMアラインメント(MT活用)であった場合、生成手段11は、設定選択部0w1aで選択された翻訳モデルに基づき、ファイル選択部0w1bで選択された転送元ファイルに記載された原文の翻訳を行い、各文章と対応する訳文を生成する。生成手段11は更に、生成された訳文の逆翻訳を行い、原文と逆翻訳文との間の編集距離に基づき翻訳精度をスコア値として評価し、当該スコア値が閾値よりも高いセグメントを翻訳メモリとして記憶する。
【0053】
また、格納手段12は、上記翻訳メモリの生成の際に、スコア値が閾値に満たなかったセグメントを、個別の翻訳メモリであるLeftoverTMとしてデータベースDBに記憶する。なお、本実施形態において、利用者は、入力手段23を介したセグメントの編集を行う、或いはLeftoverTMに機械翻訳を適用することで、翻訳精度を高めることが可能である。また、本実施形態では、LeftoverTMと、他のLeftoverTM又は翻訳メモリと、を結合することで新規な翻訳メモリを作成することが可能であり、LeftoverTM、及び、結合により新規に作成された翻訳メモリは、他の翻訳メモリと同様に、後述のカスタム機械翻訳モデルの生成の際に教師データとして指定可能であってよい。
【0054】
また、生成手段11は、ファイル選択部0w1bで選択されたファイル中の文章の形態素解析を行い、出現頻度が高い単語の対を抽出し、抽出された単語の対を用語集としてデータベースDBに格納する。本実施形態では、設定選択部0w1aで選択されたインポート区分がバイリンガルTBアラインメントであった場合、原文と訳文の対が記述されている転送元ファイルをインポートすることで、生成手段11は、単語同士の対応付けが行われた用語集を生成する。なお、異なる言語間における単語同士の対応付けは、利用者が入力手段23を介して手動で訳語を登録することにより行われる。また、設定選択部0w1aで選択されたインポート区分がモノリンガルTBアラインメントであった場合、原文のみが記述されている転送元ファイルをインポートすることで、生成手段11は、原文に記述される単語のみの用語ファイルを生成する。また、この場合においても、当該用語ファイルが有する単語と、対応する第二言語の単語と、の間における対応付けは、利用者が入力手段23を介して手動で訳語を登録することにより行われる。
【0055】
なお、生成手段11によって生成された用語集及び翻訳メモリは、言語資産一覧(不図示)で確認することができる。言語資産一覧では、用語集と翻訳メモリに対応付けられた詳細情報の確認を行うことが可能であり、言語資産一覧における詳細ボタンを押下することで言語資産詳細画面(不図示)へ移行可能であってよく、編集ボタンを押下することで
図5に例示されるような言語資産編集画面0w2へ移行可能であってよい。言語資産詳細画面では、選択された用語集及び翻訳メモリに対応付けられた詳細情報の編集を行うことが可能であり、例として、コメントの編集や機械翻訳への利用の可否の決定を行うことができる。
【0056】
図5に例示されるように、端末装置2の出力手段22は、セグメント検索部0w2aと、指定された翻訳メモリが有するセグメントの表示と編集を行うセグメント編集部0w2bと、を含む言語資産編集画面0w2を表示する。セグメント検索部0w2aは、特定の翻訳メモリにおける各セグメント中から、利用者が入力した文章と完全一致又は部分一致するセグメントを検索する。セグメント編集部0w2bでは、検索の結果発見されたセグメントが表示され、各セグメントにおける原文と訳文の修正が可能である。また、セグメント編集部0w2bでは、編集を行ったセグメントの一時保存や、新規なセグメントの追加が可能であってよい。
【0057】
学習手段13は、翻訳メモリを用いた機械翻訳学習サービスの学習処理を行う(ステップS103)。本実施形態では、学習手段13は、データベースDBに記憶される1又は複数の翻訳メモリの指定を受け付け、指定された翻訳メモリをクラウドにおける機械学習に適したデータ形式に変換した後に、学習処理として、指定した機械翻訳学習サービスの学習要求と共にサーバ3に送信する。サーバ3では、サーバ1から送信された翻訳メモリを教師データとして、カスタム機械翻訳モデルが生成される。格納手段12は、カスタム機械翻訳モデルの識別情報に対して、学習処理に用いた翻訳メモリの識別情報を対応付けて格納する。この際、教師データである翻訳メモリは、言語資産選択画面(不図示)で選択される。また、ステップS103におけるカスタム機械翻訳モデルの学習は、サーバ1で行われてもよい。
【0058】
図6に例示されるように、端末装置2の出力手段22は、学習サービス選択部0w3aと、言語資産選択部0w3bと、学習設定確定部0w3cと、を含む再学習画面0w3を表示する。学習サービス選択部0w3aでは、どのような分野で用いられるカスタム機械翻訳モデルを生成するかを選択可能であり、アダプテーションが行われる汎用の機械翻訳学習サービスを選択可能である。言語資産選択部0w3bでは、言語資産選択画面(不図示)へ移行するためのボタンと、選択された言語資産(翻訳メモリ)の一覧と、が表示される。言語資産選択画面では、1又は複数の言語資産が選択可能であり、言語資産の名称やアップロードした日付等の条件によって言語資産を検索可能であってよい。言語資産の一覧には、選択された言語資産の名称、ファイルの種類、インポート区分、言語、学習設定、アップロードの日付、及び、データ量等の情報が表示されてよい。本実施形態では、言語資産選択部0w3bで選択された翻訳メモリの原文と訳文の設定を反転可能であってよい。学習設定確定部0w3cを押下することで、選択された機械翻訳学習サービスと、翻訳メモリと、を用いた学習処理が開始され、カスタム機械翻訳モデルが生成される。
【0059】
設定手段14は、カスタム機械翻訳モデルと、用語集と、を対応付ける設定処理を行い、サーバ3に用語集を送信し、記憶させる(ステップS104)。格納手段12は、設定済み機械翻訳モデルの識別情報に対して、設定処理に用いた用語集の識別情報を対応付けて格納する。この際、機械翻訳モデルは1つのみ選択可能であり、用語集は1又は複数選択可能であってよい。また、ステップS104における設定処理は、設定手段14が、サーバ1が予めデータベースDBに記憶する既存の機械翻訳モデルと、用語集と、を対応付けることで行われてよく、格納手段12は、当該設定済み機械翻訳モデルの識別情報と、当該用語集の識別情報を対応付けて格納してよい。
【0060】
翻訳手段15は、利用者による設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定、及び、翻訳を希望する原文の入力を受け付け、当該指定された設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、当該入力された文章の翻訳処理を行う(ステップS105)。本実施形態において、翻訳手段15は翻訳処理として、入力手段23を介して入力された文章及び設定済み機械翻訳モデル又はカスタム機械翻訳モデルの指定を、翻訳要求と共にサーバ3に送信し、サーバ3では、指定された当該設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づき、入力された文章の翻訳を行う。サーバ3は、翻訳された文章をサーバ1に返送し、出力処理手段16は、当該文章を端末装置2に表示処理する。なお、翻訳処理は、サーバ1のデータベースDBに記憶される設定済み機械翻訳モデル又はカスタム機械翻訳モデルに基づいて行われてもよい。
【0061】
本発明によれば、言語資産管理システムに係る新規な技術を提供することができる。
【符号の説明】
【0062】
1 :サーバ
2 :端末装置
3 :サーバ
101 :演算デバイス
102 :主記憶デバイス
103 :補助記憶デバイス
104 :入力デバイス
105 :出力デバイス
106 :通信デバイス
201 :演算デバイス
202 :主記憶デバイス
203 :補助記憶デバイス
204 :入力デバイス
205 :出力デバイス
206 :通信デバイス
11 :生成手段
12 :格納手段
13 :学習手段
14 :設定手段
15 :翻訳手段
16 :出力処理手段
21 :インポート手段
22 :出力手段
23 :入力手段
【手続補正書】
【提出日】2022-04-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて、1又は複数の翻訳メモリと用語集によって利用者が任意にカスタムした機械翻訳モデルを前記機械翻訳モデルとして管理する言語資産管理システムであって、
前記利用者によってインポートされた原文及び訳文の双方の言語による文章又は用語が記述された転送元ファイルに基づき、前記翻訳メモリ及び/又は前記用語集を生成する手段と、
生成した前記翻訳メモリ及び、前記用語集のそれぞれに識別情報を対応付けて格納する手段と、
1又は複数の前記翻訳メモリを用いた前記機械翻訳モデルの学習処理並びに、1又は複数の前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタムされた機械翻訳モデルの識別情報に対して前記学習処理に用いた前記翻訳メモリ及び、前記設定処理に用いた前記用語集の識別情報を対応付けて登録する手段と、を備え、
前記登録する手段は、前記カスタムされた機械翻訳モデルを複数登録可能であって、複数の前記カスタムされた機械翻訳モデルに対応付けられた前記翻訳メモリはそれぞれ異なる言語資産管理システム。
【請求項2】
前記言語資産管理システムは、利用者による翻訳対象である文章の入力及び、登録された複数の前記カスタムされた機械翻訳モデルの中から翻訳に利用する前記カスタムされた機械翻訳モデルの指定を受け付け、指定された前記カスタムされた機械翻訳モデルに基づき入力された前記翻訳対象である文章の翻訳処理を行う手段を有する請求項1に記載の言語資産管理システム。
【請求項3】
前記言語資産管理システムは、アダプテーションの対象となる機械翻訳学習サービスを選択可能に構成され、
前記登録する手段は、選択された前記機械翻訳学習サービスに対して前記学習処理及び、前記設定処理が行われることで、前記カスタムされた機械翻訳モデルを登録可能であり、前記カスタムされた機械翻訳モデルの識別情報に、前記学習処理を行う際に選択された前記機械翻訳学習サービスを対応付けて登録する請求項1又は2に記載の言語資産管理システム。
【請求項4】
前記生成する手段は更に、原文のみが記述された転送元ファイルにおける文章と、前記機械翻訳モデルと、に基づき前記翻訳メモリを生成する請求項1~3の何れかに記載の言語資産管理システム。
【請求項5】
前記生成する手段は更に、前記翻訳メモリにおける前記原文と前記訳文の対である各セグメントにおいて前記訳文の逆翻訳を行うことで逆翻訳文を生成し、前記原文と前記逆翻訳文との間の編集距離に基づいて翻訳精度をスコア値として評価し、前記スコア値が閾値よりも高い前記セグメントから前記翻訳メモリを生成する請求項1~4の何れかに記載の言語資産管理システム。
【請求項6】
前記生成する手段は更に、文章の原文と訳文の間において対応する単語及び対応しない単語の数に基づいて翻訳精度を前記スコア値として評価し、前記スコア値が閾値よりも高い文章同士から前記翻訳メモリを生成する請求項1~5の何れかに記載の言語資産管理システム。
【請求項7】
前記生成する手段は更に、前記翻訳精度が閾値よりも低い前記セグメントから前記翻訳メモリを生成し、
前記言語資産管理システムは更に、前記利用者が前記セグメントの編集を行うための手段を有する請求項5又は6に記載の言語資産管理システム。
【請求項8】
原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて、1又は複数の翻訳メモリと用語集によって利用者が任意にカスタムした機械翻訳モデルを前記機械翻訳モデルとして管理する言語資産管理プログラムであって、コンピュータを、
前記利用者によってインポートされた原文及び訳文の双方の言語による文章又は用語が記述された転送元ファイルに基づき、前記翻訳メモリ及び/又は前記用語集を生成する手段と、
生成した前記翻訳メモリ及び、前記用語集のそれぞれに識別情報を対応付けて格納する手段と、
1又は複数の前記翻訳メモリを用いた前記機械翻訳モデルの学習処理並びに、1又は複数の前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタムされた機械翻訳モデルの識別情報に対して前記学習処理に用いた前記翻訳メモリ及び、前記設定処理に用いた前記用語集の識別情報を対応付けて登録する手段と、として機能させ、
前記登録する手段は、前記カスタムされた機械翻訳モデルを複数登録可能であって、複数の前記カスタムされた機械翻訳モデルに対応付けられた前記翻訳メモリはそれぞれ異なる言語資産管理プログラム。
【請求項9】
原文を訳文に翻訳する機械翻訳モデルと、文章の原文と訳文を対訳表記した翻訳メモリ及び用語の原文と訳文を対訳表記した用語集と、を対応付けて、1又は複数の翻訳メモリと用語集によって利用者が任意にカスタムした機械翻訳モデルを前記機械翻訳モデルとして言語資産管理方法であって、コンピュータが、
前記利用者によってインポートされた原文及び訳文の双方の言語による文章又は用語が記述された転送元ファイルに基づき、前記翻訳メモリ及び/又は前記用語集を生成するステップと、
生成した前記翻訳メモリ及び、前記用語集のそれぞれに識別情報を対応付けて格納するステップと、
1又は複数の前記翻訳メモリを用いた前記機械翻訳モデルの学習処理並びに、1又は複数の前記用語集の前記機械翻訳モデルへの設定処理を行い、カスタムされた機械翻訳モデルの識別情報に対して前記学習処理に用いた前記翻訳メモリ及び、前記設定処理に用いた前記用語集の識別情報を対応付けて登録するステップと、を備え、
前記登録するステップは、前記カスタムされた機械翻訳モデルを複数登録可能であって、複数の前記カスタムされた機械翻訳モデルに対応付けられた前記翻訳メモリはそれぞれ異なる言語資産管理方法。