特開2022-114144 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2022-114144アラインメント装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022114144

(43)【公開日】2022-08-05

(54)【発明の名称】アラインメント装置およびプログラム

(51)【国際特許分類】

G06F 40/44 20200101AFI20220729BHJP

【ＦＩ】

G06F40/44

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021010310

(22)【出願日】2021-01-26

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】後藤功雄

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA03

5B091EA01

(57)【要約】

【課題】精度の高いアラインメントを実現することのできるアラインメント装置およびプログラムを提供する。
【解決手段】アラインメント装置が、キー分散表現生成部と、アラインメントスコア算出部とを備える。キー分散表現生成部は、与えられる対訳文対の入力側の文に含まれる入力側単語のキー分散表現を生成する。アラインメントスコア算出部は、前記対訳文対の前記入力側の文とは異なる出力側の文に含まれる出力側単語のアラインメントのための分散表現であるアライン分散表現と、前記入力側単語の前記キー分散表現と、の類似度に基づいて、前記入力側単語と前記出力側単語とのアラインメントスコアを算出する。
【選択図】図１

【特許請求の範囲】

【請求項1】

与えられる対訳文対の入力側の文に含まれる入力側単語のキー分散表現を生成するキー分散表現生成部と、
前記対訳文対の前記入力側の文とは異なる出力側の文に含まれる出力側単語のアラインメントのための分散表現であるアライン分散表現と、前記入力側単語の前記キー分散表現と、の類似度に基づいて、前記入力側単語と前記出力側単語とのアラインメントスコアを算出するアラインメントスコア算出部と、
を備えるアラインメント装置。

【請求項2】

前記出力側単語を前提として前記入力側単語が対応する確率を表すアテンション確率を算出するアテンション確率算出部、
をさらに備え、
前記アラインメントスコア算出部は、前記アテンション確率算出部が算出した前記アテンション確率にも基づき、前記入力側単語と前記出力側単語との前記アラインメントスコアを算出する、
請求項１に記載のアラインメント装置。

【請求項3】

前記出力側単語を前提として前記入力側単語が対応する確率を表すアテンション確率を算出するアテンション確率算出部と、
前記アテンション確率で重み付けした入力側単語の前記キー分散表現である重み付けキー分散表現を、前記出力側単語ごとに対応して算出する重み付けキー分散表現算出部と、
前記出力側単語ごとの前記重み付けキー分散表現を基に、単語種別ごとの前記アライン分散表現を算出するアライン分散表現算出部と、
をさらに備え、
前記アラインメントスコア算出部は、前記アライン分散表現算出部が算出した前記アライン分散表現に基づいて、前記アラインメントスコアを算出する、
請求項１に記載のアラインメント装置。

【請求項4】

前記アライン分散表現算出部は、前記重み付けキー分散表現の、単語種別ごとの平均値を算出することによって、前記アライン分散表現を算出する、
請求項３に記載のアラインメント装置。

【請求項5】

前記アライン分散表現算出部は、前記出力側単語に対応する前記重み付けキー分散表現と、前記出力側単語についての前記アライン分散表現と、の類似度に基づく評価値が最適化されるように、前記出力側単語についての前記アライン分散表現を推定して求める、
請求項３に記載のアラインメント装置。

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、アラインメント装置およびプログラムに関する。

【背景技術】

【0002】

対訳文対に含まれる各文の間での単語同士の対応関係を自動的に求めたいというニーズが存在する。

【0003】

非特許文献１には、単語対応推定手法が記載されている。非特許文献１に記載された手法は、単語に対応する分散表現を用いない。

【0004】

非特許文献２、３、および４には、ニューラル機械翻訳の手法が記載されている。なお、非特許文献２および３には、ＲＮＮベースのニューラル機械翻訳の手法が記載されている。ＲＮＮは、再帰型ニューラルネットワーク（Recurrent Neural Network）である。非特許文献４には、Ｔｒａｎｓｆｏｒｍｅｒ（トランスフォーマー）ベースのニューラル機械翻訳の手法が記載されている。

【0005】

ニューラルネットワークに基づいた機械翻訳処理（ニューラル機械翻訳，ＮＭＴ，Neural Machine Translation）は、広く用いられている。ニューラル機械翻訳の処理では、目的言語文にあたる単語列が、文頭側の単語から順番に出力される。ニューラル機械翻訳の手法では、アテンション確率と呼ばれる確率値を利用した翻訳処理が行われる。アテンション確率は、入力側の文、即ち原言語文の単語列に含まれる各単語に対する確率値であり、次に翻訳する原言語単語の予測となる値である。つまり、ニューラル機械翻訳で原言語文を翻訳して目的言語文（目的言語単語列）を生成した場合には、出力された目的言語単語列内の各単語のアテンション確率に基づいて、原言語文側の単語と目的言語文側の単語との対応関係を確率的に求めることができる。つまり、目的言語文側の各単語について、原言語文側の各単語のアテンション確率が付与されている。したがって、例えば、ある目的言語文側の単語に関しては、最も高いアテンション確率を有する原言語文側の単語が対応していると推定することができる。

【0006】

上記の、ニューラル機械翻訳でのアテンション確率を用いて、既存の対訳文対における単語間の対応関係の求める方法が考えられる。その方法では、対訳文対に含まれる原言語文を、ニューラル機械翻訳処理への入力とする。ニューラル機械翻訳処理では、対訳文対に含まれる目的言語文を強制的に出力させて、各単語に対応するアテンション確率を計算する。このアテンション確率は、原言語側と目的言語側との間での単語の対応関係の情報を含むものである。

【0007】

しかしながら、上記のようにアテンション確率を計算した場合、目的言語側の出力単語の情報がアラインメントの推定に利用されないため，アラインメント推定の品質が低くなるという問題がある．この問題を解決するため、非特許文献５に記載された手法は、出力する目的言語単語の情報をアテンション確率の計算に利用している。

【先行技術文献】

【非特許文献】

【0008】

【非特許文献1】Franz Josef Och，Hermann Ney，A systematic comparison of various statistical alignment models，Computational Linguistics，Vol. 29，No. 1，pp.19-51，2003年．

【非特許文献2】Dzmitry Bahdanau，Kyunghyun Cho，Yoshua Bengio，Neural machine translation by jointly learning to align and translate，Proceedings of ICLR，2015年．

【非特許文献3】Thang Luong，Hieu Pham，Christopher D. Manning，Effective approaches to attention-based neural machine translation，Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing，pp.1412-1421，Lisbon，Portugal，September 2015，Association for Computational Linguistics．

【非特許文献4】Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Lukasz Kaiser，Illia Polosukhin，Attention is all you need，Advances in Neural Information Processing Systems 30，pp.5998-6008，Curran Associates, Inc.，2017年．

【非特許文献5】Jan-Thorsten Peter，Arne Nix，Hermann Ney，Generating alignments using target foresight in attention-based neural machine translation，PBML，Vol. 108，No. 1，pp.27-36，2017年．

【発明の概要】

【発明が解決しようとする課題】

【0009】

上で説明した先行技術には、解決すべき課題がある。

【0010】

非特許文献１に記載された手法は、単語に対応する分散表現を用いないため、例えばある単語に２種類以上の訳語がある場合に、マイナーな訳語への対応関係の推定精度が低くなってしまうという問題がある。分散表現を用いない場合には、複数の単語の表層表現が異なっている場合に、それら複数の単語間で統計量を共有することができないため、マイナーな訳語への対応関係を推定しづらい。

【0011】

非特許文献５に記載された手法では、目的言語側の単語の分散表現をアテンション確率の計算に追加して、ニューラル機械翻訳の処理におけるすべてのパラメーターを最適化すると、目的言語側の出力単語の情報がパラメーターに直接埋め込まれてしまい、アテンション確率として意味のある学習にならなくなってしまう。そのため、非特許文献５に記載された手法は、ニューラル機械翻訳の処理におけるパラメーターの値のほとんどを固定し、アテンション確率の計算に関わる一部のパラメーターのみを再学習している。この手法で利用している目的言語側の分散表現は次に出力する目的言語側の単語の情報を誤差逆伝播法により埋め込んだものである。即ち、この分散表現は、目的言語側において次に続く単語の情報が埋め込まれたものであり、対訳の原言語側の単語の情報が埋め込まれたものではない。このため、原言語側と目的言語側との間での単語の対応の計算にはあまり有用な情報ではないという問題がある。

【0012】

本発明は、上記の課題認識に基づいて行なわれたものであり、マイナーな訳語にも対応でき、目的言語側の単語の分散表現として原言語側の単語の情報を持つものを構築することで、精度の高いアラインメントを実現することのできる、アラインメント装置およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0013】

［１］上記の課題を解決するため、本発明の一態様によるアラインメント装置は、与えられる対訳文対の入力側の文に含まれる入力側単語のキー分散表現を生成するキー分散表現生成部と、前記対訳文対の前記入力側の文とは異なる出力側の文に含まれる出力側単語のアラインメントのための分散表現であるアライン分散表現と、前記入力側単語の前記キー分散表現と、の類似度に基づいて、前記入力側単語と前記出力側単語とのアラインメントスコアを算出するアラインメントスコア算出部と、を備えるものである。

【0014】

［２］また、本発明の一態様は、上記のアラインメント装置において、前記出力側単語を前提として前記入力側単語が対応する確率を表すアテンション確率を算出するアテンション確率算出部、をさらに備え、前記アラインメントスコア算出部は、前記アテンション確率算出部が算出した前記アテンション確率にも基づき、前記入力側単語と前記出力側単語との前記アラインメントスコアを算出するものである。

【0015】

［３］また、本発明の一態様は、上記のアラインメント装置において、前記出力側単語を前提として前記入力側単語が対応する確率を表すアテンション確率を算出するアテンション確率算出部と、前記アテンション確率で重み付けした入力側単語の前記キー分散表現である重み付けキー分散表現を、前記出力側単語ごとに対応して算出する重み付けキー分散表現算出部と、前記出力側単語ごとの前記重み付けキー分散表現を基に、単語種別ごとの前記アライン分散表現を算出するアライン分散表現算出部と、をさらに備え、前記アラインメントスコア算出部は、前記アライン分散表現算出部が算出した前記アライン分散表現に基づいて、前記アラインメントスコアを算出するものである。

【0016】

［４］また、本発明の一態様は、上記のアラインメント装置において、前記アライン分散表現算出部は、前記重み付けキー分散表現の、単語種別ごとの平均値を算出することによって、前記アライン分散表現を算出するものである。

【0017】

［５］また、本発明の一態様は、上記のアラインメント装置において、前記アライン分散表現算出部は、前記出力側単語に対応する前記重み付けキー分散表現と、前記出力側単語についての前記アライン分散表現と、の類似度に基づく評価値が最適化されるように、前記出力側単語についての前記アライン分散表現を推定して求めるものである。

【0018】

［６］また、本発明の一態様は、与えられる対訳文対の入力側の文に含まれる入力側単語のキー分散表現を生成するキー分散表現生成部と、前記対訳文対の前記入力側の文とは異なる出力側の文に含まれる出力側単語のアラインメントのための分散表現であるアライン分散表現と、前記入力側単語の前記キー分散表現と、の類似度に基づいて、前記入力側単語と前記出力側単語とのアラインメントスコアを算出するアラインメントスコア算出部と、を備えるアラインメント装置、としてコンピューターを機能させるためのプログラムである。

【発明の効果】

【0019】

本発明によれば、アライン分散表現は、目的言語側の単語に対応する分散表現であり、原言語側の単語の情報を持つものである。アラインメント装置は、このようなアライン分散表現に基づいて、精度の高いアラインメントを実現することができる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施形態によるアラインメント装置の概略機能構成を示した第１のブロック図である。

【図2】本発明の実施形態によるアラインメント装置の概略機能構成を示した第２のブロック図である。

【図3】同実施形態によるアラインメント装置が処理対象とする対訳文対のデータの例を示す概略図である。

【図4】同実施形態によるアラインメント装置が、図３に示した対訳文における単語間の対応関係を求めた結果の例を示す概略図である。

【図5】同実施形態によるアラインメント装置の内部構成の例を示すブロック図である。

【発明を実施するための形態】

【0021】

次に、本発明の一実施形態について、図面を参照しながら説明する。

【0022】

図１および図２は、本実施形態によるアラインメント装置の概略機能構成を示すブロック図である。アラインメント装置１は、対訳文対供給部１１と、ｋｅｙ分散表現生成部１３と、ｑｕｅｒｙ分散表現生成部１４と、ｖａｌｕｅ分散表現生成部１５と、アテンション確率算出部１８と、重み付けｋｅｙ分散表現算出部２１と、重み付けｖａｌｕｅ分散表現算出部２２と、アライン分散表現算出部２５と、アラインメントスコア算出部２６と、出力部２９と、原言語文入力部３１と、分散表現変換部３２と、目的言語文入力部３３と、分散表現変換部３４と、アライン分散表現変換部３５と、目的言語単語生成確率計算部３７（デコーダー）とを含んで構成される。なお、対訳文対供給部１１と出力部２９に関しては、図１および図２での記載を省略している。

【0023】

図１は、アラインメント装置１がアライン分散表現を構築する処理のフェーズで使用される機能の構成を示す。一方、図２は、アラインメント装置１が単語対応を計算するフェーズで使用される機能の構成を示す。

【0024】

図１に示すように、アライン分散表現を構築する処理のフェーズにおいて使用される機能部は、ｋｅｙ分散表現生成部１３と、ｑｕｅｒｙ分散表現生成部１４と、ｖａｌｕｅ分散表現生成部１５と、アテンション確率算出部１８と、重み付けｋｅｙ分散表現算出部２１と、重み付けｖａｌｕｅ分散表現算出部２２と、アライン分散表現算出部２５と、原言語文入力部３１と、分散表現変換部３２と、目的言語文入力部３３と、分散表現変換部３４と、目的言語単語生成確率計算部３７とを含む。アライン分散表現構築フェーズでは、アラインメント装置１は、多数の対訳文対に基づいてアライン分散表演を構築する。アライン分散表現算出部２５は、アライン分散表現を出力する。このアライン分散表現は、図２に示す単語対応計算フェーズで参照される。

【0025】

図２に示すように、単語対応を計算する処理のフェーズにおいて使用される機能部は、ｋｅｙ分散表現生成部１３と、アライン分散表現算出部２５と、原言語文入力部３１と、分散表現変換部３２と、目的言語文入力部３３と、アライン分散表現変換部３５とを含む。単語対応計算フェーズでは、アラインメント装置１は、入力される対訳文対でのアラインメントスコアを算出する。つまり、アラインメント装置１は、対訳文対でのアラインメントを推定する。

【0026】

これらの機能部の各々は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

【0027】

本実施形態のアラインメント装置１は、対訳文におけるアラインメントを計算する。アラインメント装置１は、翻訳処理のためのエンコーダー（不図示）とデコーダー（不図示）とを備える。エンコーダーおよびデコーダーは、ニューラルネットワークを用いて実現される。アラインメント装置１は、入力側単語（原言語文側の単語）の分散表現を線形変換して得られる分散表現（ｋｅｙ分散表現）と、デコーダーの分散表現を線形変換して得られる分散表現（ｑｕｅｒｙ分散表現）との類似度により、アテンション確率を計算する。

【0028】

アラインメント装置１は、供給される対訳文に基づいて動作し、対訳文対の文間における単語同士の対応関係（アラインメント）を推定する。アラインメント装置１は、デコーダーに、目的言語文に相当する単語列を強制出力させる。つまり、アラインメント装置１は、デコーダーが算出した目的言語側の単語の確率に関わらず、与えられた対訳文対にしたがって、目的言語側の単語を出力として決定する。アテンション確率は次に翻訳する原言語側の単語を予測する値であるが、対訳文が与えられている場合には次に出力すべき目的言語側の単語は決まっているため、アラインメント装置１はこの情報を活用する。

【0029】

ニューラル機械翻訳（ＮＭＴ）では、目的言語側の単語の分散表現には目的言語側の次の単語の情報が埋め込まれるように、翻訳モデルの学習が行われる。しかしながら、アラインメント装置１がアラインメントの処理のために必要とする情報は、目的言語側の単語に対応する対訳の（原言語側の）単語の情報であり、目的言語側の次の単語の情報はあまり有用な情報ではない。そこで、アラインメント装置１は、アラインメントを計算するために必要な、対訳の単語の情報を埋め込んだ分散表現を計算する手法をとる。

【0030】

本実施形態では、アラインメントを計算するための、目的言語の各語彙（単語種別）に対応する分散表現を、アライン分散表現と呼ぶ。アテンション確率は、前述の通り、次に翻訳する単語を予測するための値であるので、個々の対訳文対において、原言語文を入力して、その対訳の目的言語文を強制的に出力させた場合に、その予測が外れる場合がある。しかしながら、訓練データ（ニューラル機械翻訳のモデルの学習を行うための対訳文対の集合）は、クローズドデータであるので、訓練データに対しては上記の予測は多くの場合には平均的に良い精度で当たることが期待される。

【0031】

つまり、アラインメント装置１は、上記の対訳文対の集合に含まれる対訳文の原言語文を入力し、その対訳の目的言語文を強制的に出力させた場合において、アテンション確率によって重み付けしたｋｅｙ分散表現列の和のベクトル（後述の「アテンション確率重み付けｋｅｙ分散表現」）を計算する。

【0032】

そして、アラインメント装置１は、目的言語側の各語彙に対して、上記のベクトルの平均値（アテンション確率重み付けｋｅｙ分散表現）を計算する。あるいは、アラインメント装置１は、上記のベクトルを用いた所定の目的関数を最適化するベクトルを計算する。ここで求めるベクトル（アライン分散表現）は、目的言語側の各語彙に対応する分散表現である。

【0033】

アラインメント装置１は、上記の方法で得られた目的言語の各語彙に対応する分散表現（アライン分散表現）とエンコーダーの分散表現系列から得られるｋｅｙ分散表現との類似スコアを計算することによって、目的言語文中の各単語に対応する原言語側の単語を推定する。

【0034】

アラインメント装置１が持つ各部（図１、図２参照）の機能は、次の通りである。

【0035】

対訳文対供給部１１は、１つまたは複数の対訳文対を供給する。対訳文対供給部１１が多数の対訳文対を供給してもよい。対訳文対は、２種類の異なる自然言語（例えば、日本語と英語。但し、この組み合わせに限定されない。）で記述された対訳文である。これらの文の一方を原言語文、他方を目的言語文とみなして利用することができる。それぞれの文は、各言語での単語の列として表され得る。対訳文対供給部１１は、それぞれの単語をワンホット（one-hot）ベクトルとして表してもよいし、分散表現のベクトルとして表してもよい。両者はテーブル等を用いて変換可能である。

【0036】

ｋｅｙ分散表現生成部１３（キー分散表現生成部）は、対訳文対に含まれる原言語文の中の特定の単語について、ｋｅｙ分散表現を生成する。つまり、ｋｅｙ分散表現生成部１３は、対訳文対供給部１１が与える対訳文対の入力側（原言語側）の文に含まれる入力側単語のｋｅｙ分散表現を生成する。対訳文対供給部１１が分散表現列として原言語文を提供する場合、ｋｅｙ分散表現生成部１３は、原言語文中の単語に対応する分散表現（ベクトル）に所定のパラメーター行列を作用させて、ｋｅｙ分散表現（ベクトル）を生成する。この場合、原言語の単語の分散表現からｋｅｙ分散表現への変換は、線形変換である。

【0037】

ｑｕｅｒｙ分散表現生成部１４（クエリー分散表現生成部）は、目的言語文の中の特定の単語について、ｑｕｅｒｙ分散表現を生成する。つまり、ｑｕｅｒｙ分散表現生成部１４は、対訳文対供給部１１が与える対訳文対の出力側（目的言語側）の文に含まれる出力側単語のｑｕｅｒｙ分散表現を生成する。ｑｕｅｒｙ分散表現生成部１４は、具体的には、デコーダーの分散表現列内の各々の分散表現（ベクトル）に所定のパラメーター行列を作用させて、ｑｕｅｒｙ分散表現（ベクトル）を生成する。この場合、目的言語の単語の分散表現からｑｕｅｒｙ分散表現への変換は、線形変換である。

【0038】

ｖａｌｕｅ分散表現生成部１５（バリュー分散表現生成部）は、対訳文対に含まれる原言語文の中の特定の単語について、ｖａｌｕｅ分散表現を生成する。つまり、ｖａｌｕｅ分散表現生成部１５は、対訳文対供給部１１が与える対訳文対の入力側（原言語側）の文に含まれる入力側単語のｖａｌｕｅ分散表現を生成する。対訳文対供給部１１が分散表現列として原言語文を提供する場合、ｋｅｙ分散表現生成部１３は、原言語文中の単語に対応する分散表現（ベクトル）に所定のパラメーター行列を作用させて、ｖａｌｕｅ分散表現（ベクトル）を生成する。この場合、原言語の単語の分散表現からｖａｌｕｅ分散表現への変換は、線形変換である。

【0039】

アテンション確率算出部１８は、出力側単語を前提として入力側単語が対応する確率を表すアテンション確率を算出するものである。アテンション確率は、既存の機械翻訳処理においても用いられる値である。

【0040】

重み付けｋｅｙ分散表現算出部２１（重み付けキー分散表現算出部）は、アテンション確率で重み付けした入力側単語のｋｅｙ分散表現である重み付けｋｅｙ分散表現を、出力側単語ごとに対応して算出する。

【0041】

重み付けｖａｌｕｅ分散表現算出部２２（重み付けバリュー分散表現算出部）は、アテンション確率で重み付けした入力側単語のｖａｌｕｅ分散表現である重み付けｖａｌｕｅ分散表現を、出力側単語ごとに対応して算出する。

【0042】

アライン分散表現算出部２５は、目的言語側の単語に関する分散表現であるアライン分散表現を算出する。アライン分散表現は、原言語側の単語の情報を持つ分散表現である。アライン分散表現算出部は、出力側単語ごとの重み付けキー分散表現を基に、単語種別ごとの前記アライン分散表現を算出する。

【0043】

アライン分散表現算出部２５は、例えば、重み付けキー分散表現の、単語種別ごとの平均値を算出することによって、前記アライン分散表現を算出してもよい。アライン分散表現算出部２５は、また例えば別の方法として、出力側単語に対応する重み付けキー分散表現と、出力側単語についての前記アライン分散表現と、の類似度に基づく所定の評価値が最適化されるように、出力側単語についての前記アライン分散表現を推定して求めてもよい。

【0044】

アラインメントスコア算出部２６は、対訳文対の入力側の文とは異なる出力側の文に含まれる出力側単語のアラインメントのための分散表現であるアライン分散表現と、入力側単語のキー分散表現と、の類似度に基づいて、入力側単語と出力側単語とのアラインメントスコアを算出する。ここでの類似度は、一例として、ベクトルの内積で表わされ得るものである。なお、アライン分散表現は、目的言語側の単語に関する分散表現である。また、アライン分散表現は、原言語側の単語の情報を持つ分散表現である。アラインメントスコア算出部２６は、例えば、アライン分散表現算出部２５が算出したアライン分散表現に基づいて、アラインメントスコアを算出してよい。アラインメントスコア算出部２６は、後で変形例として記載するアライン分散表現に基づいて、アラインメントスコアを算出してもよい。

【0045】

アラインメントスコア算出部２６は、アラインメントスコアを算出する際に、アテンション確率を用いるようにしてもよい。その具体的方法については、後で、数式とともに説明する。つまり、アラインメントスコア算出部２６は、アテンション確率算出部１８が算出したアテンション確率にも基づき、入力側単語と出力側単語とのアラインメントスコアを算出する。

【0046】

出力部２９は、アラインメントスコア算出部２６が算出した結果に関わる情報を出力する。具体的には、例えば、出力部２９は、目的言語側（出力側）の文における単語と、原言語側（入力側）の文における単語との対応関係を出力する。その一形態して、出力部２９は、目的言語側の単語位置（数値等）と、原言語側の単語位置（数値等）との対の集合のデータを出力する。また、出力部２９は、目的言語側の単語と原言語側の単語との対の集合のデータを出力してもよい。また、出力部２９は、目的言語側の文内の単語と原言語側の文内の単語とを線で結ぶことなどによって、両者間の対応関係をグラフィカルな形態で出力してもよい。

【0047】

原言語文入力部３１は、原言語文を取得し、分散表現変換部３２に渡す。原言語文は、目的言語文に対応する文である。原言語文入力部３１は、対訳文対供給部１１が供給する対訳文対に含まれる原言語文を取得するものであってよい。

【0048】

分散表現変換部３２は、原言語文入力部３１が取得した原言語文を、分散表現に変換する。

【0049】

目的言語文入力部３３は、目的言語文を取得する。アライン分散表現を構築するフェーズにおいては、目的言語文入力部３３は、取得した目的言語文を分散表現変換部３４に渡す。単語対応を計算するフェーズにおいては、目的言語文入力部３３は、取得した目的言語文をアライン分散表現変換部３５に渡す。目的言語文入力部３３は、対訳文対供給部１１が供給する対訳文対に含まれる目的言語文を取得するものであってよい。

【0050】

分散表現変換部３４は、目的言語文入力部３３が取得した目的言語文を、分散表現に変換する。

【0051】

アライン分散表現変換部３５は、目的言語文入力部３３が取得した目的言語文を、アライン分散表現に変換する。このとき、アライン分散表現変換部３５は、アライン分散表現の構築フェーズで構築されたアライン分散表現を参照する。

【0052】

目的言語単語生成確率計算部３７は、目的言語に属する単語の生成確率を計算する。

【0053】

［処理の詳細］
次に、アラインメント装置１による処理の詳細について説明する。以下での処理の説明における文字の表記について、まず、ここでまとめて説明する。ｘ_１、ｘ_２、・・・、ｘ_ｍという表記において、１、２、・・・、ｍのそれぞれは添え字である。また、分散表現ｈ_１，ｈ_２,・・・，ｈ_ｍという表記においても、１、２、・・・、ｍのそれぞれは添え字である。ｙ_１、ｙ_２、・・・、ｙ_ｎという表記において、１、２、・・・、ｎのそれぞれは添え字である。また、ｓ_１，ｓ_２，・・・，ｓ_ｎという表記においても、１、２、・・・、ｎのそれぞれは添え字である。また、ｘ_ｊおよびｙ_ｉという表記のそれぞれにおいて、ｊおよびｉは添え字である。また、アテンション確率α_ｉｊやアラインメントスコアｆ_ｉｊや、その他β_ｉ、ａ_ｉ、ｂ_ｉｊといった表記において、ｉおよびｊは添え字である。また、分散表現ｋ_ｊ、ｖ_ｊ、ｑ_ｉという表記のそれぞれにおいて、ｊやｉは添え字である。また、行列Ｗ_ｋ、Ｗ_ｖおよびＷ_ｑという表記のそれぞれにおいて、ｋ、ｖ、およびｑは添え字である。また、アライン分散表現ｄ_ｔという表記において、ｔ（語彙）は添え字である。

【0054】

また、第ｉ番目の位置（目的言語文側における位置）の単語に関して、アテンション確率で重み付けされたｖａｌｕｅ分散表現およびｋｅｙ分散表現を、便宜的に、それぞれ、ｃ^ｖ _ｉおよびｃ^ｋ _ｉと表記する場合がある。

【0055】

【数1】

【0056】

アラインメント装置１は、対訳文対を、入力文と出力文との対とみなして処理を行うことができる。入力文とは、翻訳処理における原言語で記述された文（原言語文）である。出力文とは、目的言語で記述された文（目的言語文）である。原言語文と目的言語文のそれぞれは、単語列とみなすことができる。入力文（原言語文）をｘ＝ｘ_１，ｘ_２,・・・，ｘ_ｍと表す。出力文（目的言語文）をｙ＝ｙ_１，ｙ_２,・・・，ｙ_ｎと表す。ｍは入力文の単語列長であり、ｎは出力文の単語列長である。ｘ_ｊ（１≦ｊ≦ｍ）およびｙ_ｉ（１≦ｉ≦ｎ）のそれぞれは、ワンホットベクトルとして表現され得る。上記のｘおよびｙからなる文対が与えられると、デコーダーは、確率Ｐ（ｙ｜ｘ）を、下の式（１）によって計算する。

【0057】

【数2】

【0058】

ここでは、ＲＮＮ（再帰型ニューラルネットワーク）を用いたニューラル機械翻訳の場合を想定して処理の説明を行う。

【0059】

ただし、Ｔｒａｎｓｆｏｒｍｅｒ（トランスフォーマー）を用いたニューラル機械翻訳の場合も、デコーダー内の特定の層（例えば、最終層の１つ前の層）のマルチヘッドアテンション確率の平均を、ＲＮＮを用いる場合のアテンション確率とみなしてもよい。その場合には、当該特定の層の出力である分散表現の系列を、デコーダーの分散表現系列として扱う。これにより、Ｔｒａｎｓｆｏｒｍｅｒを用いる場合にも、ＲＮＮを用いる場合等同様の処理を行うことができる。

【0060】

原言語文の単語列ｘ_１，ｘ_２,・・・，ｘ_ｍを、ＬＳＴＭ（長・短期記憶、Long short-term memory）やセルフアテンションネットワークなどを用いてエンコードした結果の分散表現の系列を、ｈ_１，ｈ_２,・・・，ｈ_ｍと表す。分散表現ｈ_１，ｈ_２,・・・，ｈ_ｍのそれぞれは、ベクトルである。ここで、ｊを原言語文における単語位置とし、ｉを目的言語文における単語位置とする。ｙ_ｉを予測するために用いるアテンション確率をα_ｉｊと表す。アテンション確率α_ｉｊは、ｙ_ｉを予測するために、原言語文側の単語ｘ_ｊを用いる確率である。

【0061】

原言語文側の位置ｊのｋｅｙ（キー）分散表現ｋ_ｊおよびｖａｌｕｅ（バリュー）分散表現ｖ_ｊは、それぞれ、重みパラメーター行列Ｗ_ｋおよびＷ_ｖを用いて、下の式（２）および式（３）のように計算される。

【0062】

【数3】

【0063】

【数4】

【0064】

ｋｅｙ分散表現生成部１３が、分散表現ｈ_ｊに基づいて、ｋｅｙ分散表現ｋ_ｊを生成する。また、ｖａｌｕｅ分散表現生成部１５が、分散表現ｈ_ｊに基づいて、ｖａｌｕｅ分散表現ｖ_ｊを生成する。ｋｅｙ分散表現ｋ_ｊおよびｖａｌｕｅ分散表現ｖ_ｊのそれぞれは、ベクトルである。なお、重みパラメーター行列Ｗ_ｋやＷ_ｖの具体的な値は、適宜与えられる。Ｗ_ｋやＷ_ｖの具体的な値は、例えば、コーパスを用いた学習によって決定される。

【0065】

デコーダーの分散表現系列を、ｓ_１，ｓ_２，・・・，ｓ_ｎと表す。目的言語文側の位置ｉのｑｕｅｒｙ（クエリー）分散表現ｑ_ｉは、重みパラメーター行列Ｗ_ｑを用いて、下の式（４）のように計算される。

【0066】

【数5】

【0067】

ｑｕｅｒｙ分散表現生成部１４が、分散表現ｓ_ｉに基づいて、ｑｕｅｒｙ分散表現ｑ_ｉを生成する。ｑｕｅｒｙ分散表現ｑ_ｉは、ベクトルである。なお、重みパラメーター行列Ｗ_ｑの具体的な値は、上記の行列Ｗ_ｋｋやＷ_ｖと同様に、適宜与えられる。

【0068】

類似度の計算に内積を利用する場合、アテンション確率α_ｉｊは下の式（５）および式（６）のように計算される。式（６）の右辺の演算子「・」は、内積の演算を表す。

【0069】

【数6】

【0070】

【数7】

【0071】

アテンション確率算出部１８が、与えられた対訳文対のｋｅｙ分散表現およびｑｕｅｒｙ分散表現を用いて、上記のアテンション確率を算出する。

【0072】

アテンション確率α_ｉｊを用いてｖａｌｕｅ分散表現を重み付けすることによって得られる分散表現は、下の式（７）のように計算される。式（７）の左辺のｃ^ｖ _ｉの値を、「アテンション確率重み付けｖａｌｕｅ分散表現」あるいは「重み付けｖａｌｕｅ分散表現」と呼んでもよい。

【0073】

【数8】

【0074】

重み付けｖａｌｕｅ分散表現算出部２２が、与えられた対訳文対におけるアテンション確率ａｉｊと、ｖａｌｕｅ分散表現とを用いて、上記の重み付けｖａｌｕｅ分散表現ｃ^ｖ _ｉを算出する。式（７）によって計算される分散表現は、デコーダーに入力され、目的言語文における位置ｉの単語ｙｉの確率計算に用いられるものである。

【0075】

本実施形態では、アテンション確率αｉｊを用いてｋｅｙ分散表現を重み付けすることによって得られる分散表現も、下の式（８）のように計算される。式（８）の左辺のｃ^ｋ _ｉの値を、「アテンション確率重み付けｋｅｙ分散表現」あるいは「重み付けｋｅｙ分散表現」と呼んでもよい。

【0076】

【数9】

【0077】

重み付けｋｅｙ分散表現算出部２１が、与えられた対訳文対におけるアテンション確率ａｉｊと、ｋｅｙ分散表現とを用いて、上記の重み付けｋｅｙ分散表現ｃ^ｋ _ｉを算出する。

【0078】

次に、アライン分散表現算出部２５が、目的言語における各語彙ｔに対応するアライン（ａｌｉｇｎ）分散表現ｄ_ｔを算出する。この計算は、ＮＭＴの全てのパラメーターの訓練終了後に実施する。アライン分散表現算出部２５は、多数の対訳文対（例えば、ニューラル機械翻訳のモデルを学習するための訓練データ全体）に基づいて、アライン分散表現ｄ_ｔを算出する。アライン分散表現算出部２５がアライン分散表現ｄ_ｔを算出するための代表的な２種類の方法を、次に説明する。

【0079】

［アライン分散表現を計算する第１の方法］
第１の方法では、アライン分散表現算出部２５は、ニューラル機械翻訳のためのモデルの訓練が終了した状態で、すべての対訳文についての、目的言語文側単語ｙ_ｉ（文内での位置がｉ）に対するｃ^ｋ _ｉ（アテンション確率重み付けｋｅｙ分散表現）を計算する。そして、アライン分散表現算出部２５は、目的言語側の語彙ｔ（単語種別）におけるｃ^ｋ _ｉの平均値を計算し、そのベクトルをｄ_ｔとする。

【0080】

つまり、アライン分散表現算出部２５は、第１の方法では、アテンション確率重み付けｋｅｙ分散表現の、単語種別ごと（語彙ごと）の平均値を、アライン分散表現ｄ_ｔとして算出する。

【0081】

［アライン分散表現を計算する第２の方法］
第２の方法では、アライン分散表現算出部２５は、訓練データ全体（対訳文対の集合全体）で、所定の目的関数に対して最適なｄ_ｔのパラメーターを計算する。このとき、ｄ_ｔの初期値としては、ランダムな値や、上記第１の方法で求めた値などを用いる。具体的には、アライン分散表現算出部２５は、下の式（９）の値を最大化するようにｄ_ｔのパラメーターを計算する。但し、式（９）内のβ_ｉは、式（１０）に示す通りである。文の集合に対して計算する際は、式（９）の値が文の数だけ得られるが，それらを全て掛け合わせた値とする。なお、式（１０）において、ａ_ｉおよびｂ_ｉｊをそれぞれ定義する式の右辺に現れる演算子「・」はベクトルの内積の演算を表す。

【0082】

【数10】

【0083】

【数11】

【0084】

上の式（９）および（１０）において、ｉは、対訳文対内の目的言語文における単語位置を表す。式（９）の値を最大化（最適化）するためのパラメーターｄ_ｔの推定は、例えば、誤差逆伝播法を用いて行うことができる。

【0085】

つまり、アライン分散表現算出部２５は、第２の方法では、学習データでの出力文（目的言語文）全体についてのすべてのｉに関するβ_ｉ（式（１０））の値の積が最大化（最適化）されるように、ｔ（単語種別）についてのアライン分散表現の値を推定する。なお、β_ｉの値は、式（１０）に示すように、ｂ_ｉｊの値に指数関数を作用させた値のｊについての総和を分母とし、ａ_ｉの値に指数関数を作用させた値を分子とする値である。言うまでもなく指数関数ｅｘｐ（）は入力値に対して単調増加な関数である。このａ_ｉは、ｃ^ｋ _ｉ（アテンション確率重み付けｋｅｙ分散表現）と、単語ｙ_ｉのアライン分散表現との内積である。また、ｂ_ｉｊは、原言語文側の位置ｊのｋｅｙ（キー）分散表現ｋ_ｊと、単語ｙ_ｉのアライン分散表現との内積である。

【0086】

上で得られたｄ_ｔの分散表現を用いて、アラインメントスコアｆ_ｉｊは下の式（１１）のように計算される。あるいは、さらにアテンション確率α_ｉｊの要素を加味して、下の式（１２）のように計算されてもよい。

【0087】

【数12】

【0088】

【数13】

【0089】

アライン分散表現算出部２５が求めたすべてのｔのアライン分散表現ｄ_ｔを参照して、アラインメントスコア算出部２６が、１対の対訳文対におけるアラインメントスコアｆ_ｉｊを算出する。このように求められたアラインメントスコアｆ_ｉｊは、目的言語側の第ｉ番目の単語と、原言語側の第ｊ番目の単語との類似度合いを表す。

【0090】

なお、式（１２）におけるγは、アテンション確率α_ｉｊが寄与する度合い（重み）を調整するためのハイパーパラメーターである。ハイパーパラメーターγの値は、適宜定められる。一例として、テストデータ等を用いて、求められるアラインメントスコアｆ_ｉｊの値の正しさを評価することによって、パラメーターγの値を定めるようにしてもよい。

【0091】

式（１１）あるいは式（１２）で得られたアラインメントスコアを用いて、目的言語文の単語位置ｉの単語に対応する原言語文の単語位置は、下の式（１３）で求められる。

【0092】

【数14】

【0093】

出力部２９が、式（１３）により、目的言語文側の単語位置ｉにもっともよく対応する原言語文側の単語位置ｊを求める。

【0094】

図３は、アラインメント装置１が処理対象とする対訳文対のデータの例を示す概略図である。対訳文対は、原言語文と見なすことのできる所定原語による文と、目的言語文と見なすことのできる他の言語による文との対である。図示する例では、原言語文は、「I bought croissants at a bakery with a good reputation near Ebisu station yesterday.」という英語の文である。また、目的言語文は、「昨日、恵比寿駅近くの評判の良いパン屋さんでクロワッサンを買ってきました。」日本語の文である。これらの２文は、対訳である。なお、原言語あるいは目的言語は、任意の言語であってよい。

【0095】

図４は、アラインメント装置１が、図３に示した対訳文における単語間の対応関係を求めた結果の例を示す概略図である。図示するように、原言語文および目的言語文のそれぞれが、単語の列として表され、各単語の位置が示されている。例えば、原言語文の第６番目の位置の単語は「bakery」であり、目的言語文の第１３番目の単語は「クロワッサン」である。アラインメント装置１は、目的言語文側の単語ごとに、対応する原言語文側の単語の位置を求めている。例えば、第１番目の目的言語文側の単語である「昨日」が対応する原言語文側の単語は、第１４番目の「yesterday」である。目的言語文側の他の単語についても同様である。なお、目的言語文側の単語に対応する原言語文側の単語がない場合には、アラインメント装置１は、その単語に関しては対応関係の情報を出力しない（例えば、目的言語文側の第２番目の位置の単語）。

【0096】

図４に示す例の場合に、目的言語文と原言語文との間での単語の対応関係は、次の通りである。なお、一方の複数の単語が他方の一つの単語に対応する場合もある。目的言語文側の第１番目の「昨日」は、原言語文側の「yesterday」に対応する。目的言語文側の第３番目の「恵比寿」は、原言語文側の「Ebisu」に対応する。目的言語文側の第４番目の「駅」は、原言語文側の「station」に対応する。目的言語文側の第５－６番目の「近く／の」は、原言語文側の「near」に対応する。目的言語文側の第７番目の「評判」は、原言語文側の「reputation」に対応する。目的言語文側の第８－９番目の「の良い」は、原言語文側の「good」に対応する。目的言語文側の第１０－１１番目の「パン屋さん」は、原言語文側の「a / bakery」に対応する。目的言語文側の第１２番目の「で」は、原言語文側の「at」に対応する。目的言語文側の第１３－１４番目の「クロワッサンを」は、原言語文側の「croissants」に対応する。目的言語文側の第１５－１８番目の「買ってきました」は、原言語文側の「bought」に対応する。

【0097】

出力部２９は、例えば、図４に示す原言語文と目的言語文との間での対応関係の情報を出力する。出力部２９が、図４に示す対応関係の情報と等価な、他の形態の情報を出力してもよい。

【0098】

図５は、アラインメント装置１の内部構成の例を示すブロック図である。アラインメント装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

【0099】

なお、アラインメント装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0100】

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。複数の実施形態および変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。

【0101】

［第１変形例］
式（６）では、類似度を計算するためにベクトルの内積の演算を用いた。また、式（１０）におけるａ_ｉやｂ_ｉｊを求める計算でも、ベクトルの内積の演算を用いた。また、式（１１）や式（１２）においてアラインメントスコアを求める計算でも、ベクトルの内積の演算を用いた。第１変形例では、これらのいずれか一部、または全部を、内積の代わりに他の方法で計算してもよい。内積の代わりに、例えば、「ベクトルの内積／ＳＱＲＴ（ベクトルサイズ）」（ＳＱＲＴ（）は平方根関数）を用いてもよい。」また、内積の代わりに、例えば、「（－１）×（二乗誤差）」を用いてもよい。

【0102】

［第２変形例］
上記実施形態では、対訳文対供給部１１が供給する対訳文対の集合に基づいて、アライン分散表現算出部２５が、アライン分散表現（ｄ_ｔ）を算出した。第２変形例では、予め求めておいたアライン分散表現（ｄ_ｔ）を利用して、アラインメントスコアを算出するようにする。つまり、所定の対訳文対の集合に基づいて求められた語彙全体についてのアライン分散表現（ｄ_ｔ）を予め記憶装置等に記憶しておくようにする。つまり、記憶装置には、語彙に対応したそれぞれのアライン分散表現の値が書き込まれている。このアライン分散表現（ｄ_ｔ）のデータは、アラインメント装置１自身によって算出されたものでもよいし、他の装置によって算出されてアラインメント装置１に渡されたものであってもよい。

【0103】

［第３変形例］
上記実施形態では、対訳文対が与えられたとき、アラインメント装置１は、一方の言語の文を原言語文（入力文）とし、他方の言語の文を目的言語文（出力文）として処理を行った。第３変形例では、アラインメント装置１は、この入出力関係を逆転させてもよい。また、アラインメント装置１は、言語Ａを原言語文（入力文）として言語Ｂ（Ａ≠Ｂ）を目的言語文（出力文）とする処理と、逆に言語Ｂを原言語文（入力文）として言語Ａを目的言語文（出力文）とする処理と、の両方の処理を行ってもよい。

【0104】

そして、アラインメントスコア算出部２６は、式（１１）や式（１２）などを用いて、新たな対訳文対のアラインメントスコアｆ_ｉｊを算出する。その際、アラインメントスコア算出部２６は、ｉの値に応じて、即ち目的言語文側の第ｉ番目の単語ｙ_ｉに応じて、適切なアライン分散表現の値（単語ｙ_ｉに対応する分散表現の値）を上記の記憶装置から読み出して、計算に用いる。

【0105】

本実施形態（変形例を実施する場合を含む）によれば、対訳文対の文間における表現の対応関係を自動的に求めることができる。対訳文対の文間における対応関係を自動的に求めることができると、その対訳文のデータを基にした様々な応用を行うことが可能になる（あるいは、少なくとも、その処理効率が上がる）。一例として、対訳文対のデータから、表現の辞書（ある言語における表現と、他の言語における表現との対のデータ）を生成することが可能になる。また、一例として、対訳文対が機械翻訳処理の結果である場合には、その対訳文対において訳抜けが起こっているか否かを自動的に判定する（あるいは、少なくとも、訳抜けに関する情報を自動的に得る）ことが可能となる。訳抜けの検出は、機械翻訳技術の質の向上のための基礎情報となり得る。その他の応用も考えられる。

【0106】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0107】

本発明は、例えば、対訳文対データの分析や評価に利用することができる。その分析や評価とは、例えば、対訳文対における訳抜け等の検出を含む。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0108】

１アラインメント装置
１１対訳文対供給部
１３ｋｅｙ分散表現生成部（キー分散表現生成部）
１４ｑｕｅｒｙ分散表現生成部（クエリー分散表現生成部）
１５ｖａｌｕｅ分散表現生成部（バリュー分散表現生成部）
１８アテンション確率算出部
２１重み付けｋｅｙ分散表現算出部（重み付けキー分散表現算出部）
２２重み付けｖａｌｕｅ分散表現算出部（重み付けバリュー分散表現算出部）
２５アライン分散表現算出部
２６アラインメントスコア算出部
２９出力部
３１原言語文入力部
３２分散表現変換部
３３目的言語文入力部
３４分散表現変換部
３５アライン分散表現変換部
３７目的言語単語生成確率計算部３７（デコーダー）
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版