特開2024-123669 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-123669文対応付け装置、学習装置、文対応付け方法、学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024123669

(43)【公開日】2024-09-12

(54)【発明の名称】文対応付け装置、学習装置、文対応付け方法、学習方法、及びプログラム

(51)【国際特許分類】

G06F 40/45 20200101AFI20240905BHJP

【ＦＩ】

G06F40/45

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023031278

(22)【出願日】2023-03-01

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】帖佐克己

(72)【発明者】

【氏名】福田りょう

(57)【要約】

【課題】精度の良い文対応付けを実現できる技術を提供すること。
【解決手段】本開示の一態様による文対応付け装置は、与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、学習済みの第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算する文脈ベクトル計算部と、前記文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算するスコア計算部と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、学習済みの第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算する文脈ベクトル計算部と、
前記文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算するスコア計算部と、
を有する文対応付け装置。

【請求項2】

与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算する文脈ベクトル計算部と、
前記文脈ベクトルを用いて、第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算するスコア計算部と、
前記スコアと、前記スコアに対する正解を表す正解スコアとの誤差を最小化するように、前記第１のパラメータと前記第２のパラメータとを学習する学習部と、
を有する学習装置。

【請求項3】

与えられた文書対に含まれる文を入力として、第３のパラメータを設定した第３の機械学習モデルにより、前記文を、当該文の特徴を表す文ベクトルに変換する文ベクトル計算部を更に有し、
前記学習部は、
前記誤差を最小化するように、前記第１のパラメータと前記第２のパラメータと前記第３のパラメータとを学習する、請求項２に記載の学習装置。

【請求項4】

前記文脈ベクトルを用いて、１以上の連続する文の文脈ベクトルを表す複数文文脈ベクトルを計算する複数文文脈ベクトル計算部を有し、
前記スコア計算部は、
前記複数文文脈ベクトルを用いて、前記学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記スコアを計算する、請求項１に記載の文対応付け装置。

【請求項5】

前記文脈ベクトルを用いて、１以上の連続する文の文脈ベクトルを表す複数文文脈ベクトルを計算する複数文文脈ベクトル計算部を有し、
前記スコア計算部は、
前記複数文文脈ベクトルを用いて、前記第２のパラメータを設定した第２の機械学習モデルにより、前記スコアを計算し、
前記学習部は、
前記スコアと前記正解スコアとのバイナリ交差エントロピーを前記誤差として前記第１のパラメータと前記第２のパラメータとを学習する、又は、前記文書対に含まれる第１の文書から第２の文書への多クラス分類による文対応付けの損失と前記第２の文書から前記第１の文書への多クラス分類による文対応付けの損失との和を前記誤差として前記第１のパラメータと前記第２のパラメータとを学習する、請求項２に記載の学習装置。

【請求項6】

与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、学習済みの第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算する文脈ベクトル計算手順と、
前記文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算するスコア計算手順と、
をコンピュータが実行する文対応付け方法。

【請求項7】

与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算する文脈ベクトル計算手順と、
前記文脈ベクトルを用いて、第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算するスコア計算手順と、
前記スコアと、前記スコアに対する正解を表す正解スコアとの誤差を最小化するように、前記第１のパラメータと前記第２のパラメータとを学習する学習手順と、
をコンピュータが実行する学習方法。

【請求項8】

コンピュータを、請求項１に記載の文対応付け装置又は請求項２に記載の学習装置、として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、文対応付け装置、学習装置、文対応付け方法、学習方法、及びプログラムに関する。

【背景技術】

【0002】

互いに対応関係にある２つの文書において、互いに対応している文又は文集合の対を同定することは文対応付け（sentence alignment；センテンスアラインメント）と呼ばれる。文対応付けを行うための従来技術として、文の多言語埋め込み表現（特徴量）を表す文ベクトルの類似度に基づいて、再帰的なＤＰ（Dynamic Programming；動的計画法）マッチングを行う技術が知られている（非特許文献１）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Brian Thompson and Philipp Koehn. Vecalign: Improved sentence alignment in linear time and space. In Proceedings of EMNLP-2019, pp. 1342-1348, 2019.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記の従来技術では、文脈情報を利用しないため、文対応付けの対象となる文書のドメイン（例えば、文対応付けの対象となる文書の言語）によっては精度が低下することがある。

【0005】

本開示は、上記の点に鑑みてなされたもので、精度の良い文対応付けを実現できる技術を提供する。

【課題を解決するための手段】

【0006】

本開示の一態様による文対応付け装置は、与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、学習済みの第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算する文脈ベクトル計算部と、前記文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算するスコア計算部と、を有する。

【発明の効果】

【0007】

精度の良い文対応付けを実現できる技術が提供される。

【図面の簡単な説明】

【0008】

【図1】予測時における文対応付け装置のハードウェア構成の一例を示す図である。

【図2】予測時における文対応付け装置の機能構成の一例を示す図である。

【図3】実施例１における文対応付け予測部の詳細な機能構成の一例を示す図である。

【図4】実施例２における文対応付け予測部の詳細な機能構成の一例を示す図である。

【図5】本実施形態に係る文対応付け処理の一例を示すフローチャートである。

【図6】実施例１における文対応付けスコアの予測処理の一例を示すフローチャートである。

【図7】実施例２における文対応付けスコアの予測処理の一例を示すフローチャートである。

【図8】学習時における文対応付け装置の機能構成の一例を示す図である。

【図9】本実施形態に係る多言語言語モデルの学習処理の一例を示すフローチャートである。

【図10】本実施形態に係る文対応付けモデル用学習データの作成処理の一例を示すフローチャートである。

【図11】本実施形態に係る文対応付けモデルの学習処理の一例を示すフローチャートである。

【図12】学習時における文対応付け装置の機能構成の変形例を示す図である。

【図13】予測時における文対応付け装置の機能構成の変形例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の一実施形態について説明する。以下では、文脈情報を考慮することにより、精度の良い文対応付けを実現できる文対応付け装置１０について説明する。ここで、本実施形態に係る文対応付け装置１０は、ニューラルネットワーク等を含む機械学習モデルで実現される文対応付けモデルにより、与えられた文書対の文対応付けを行う。また、本実施形態に係る文対応付け装置１０は、与えられた文書対に含まれる各文の多言語埋め込み表現（特徴量）を表す文ベクトルを得るために、ニューラルネットワーク等を含む機械学習モデルで実現される多言語言語モデルを利用する。

【0010】

このため、本実施形態に係る文対応付け装置１０には、多言語言語モデル及び文対応付けモデルのパラメータを学習する学習時と、学習済みのパラメータを用いた多言語言語モデル及び文対応付けモデルにより文書対の文対応付けを予測する予測時とが存在する。そこで、以下では、文対応付け装置１０の「予測時」と「学習時」について説明する。

【0011】

なお、「予測時」は、例えば、「推論時」等と呼ばれてもよい。また、学習時における文対応付け装置１０は、例えば、「学習装置」等と呼ばれてもよい。更に、以下では、予測時における文対応付け装置１０と学習時における文対応付け装置１０とが同一装置で実現されることを想定して説明するが、予測時と学習時とで異なる装置で実現されてもよい。

【0012】

［予測時］
まず、多言語言語モデル及び文対応付けモデルのパラメータは学習済みであるものとして、学習済みのパラメータを用いて多言語言語モデル及び文対応付けモデルにより文対応付けを行う場合について説明する。ここで、予測時における文対応付け装置１０には、文対応付けの対象となる文書対を表すデータ（以下、入力文書対データという。）が与えられる。

【0013】

なお、以下では、入力文書対データが表す文書対は、互いに異なる言語（例えば、日本語と英語）の対訳関係にある文書対であることを想定する。ただし、これは一例であって、入力文書対データが表す文書対は、互いに異なる言語の対訳関係にある文書対に限られるものではなく、例えば、同一言語の異なる方言の対訳関係にある文書対であってもよい。より一般には、入力文書対データが表す文書対として、何等かの異なるドメイン間で対応関係にあり、一方の文書に含まれる文又は文集合と他方の文書に含まれる文又は文集合との対応付けを行いたいものであれば、任意の文書対を用いることができる。

【0014】

＜予測時における文対応付け装置１０のハードウェア構成例＞
予測時における文対応付け装置１０のハードウェア構成例を図１に示す。図１に示すように、予測時における文対応付け装置１０は、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、ＲＡＭ（Random Access Memory）１０５と、ＲＯＭ（Read Only Memory）１０６と、補助記憶装置１０７と、プロセッサ１０８とを有する。また、これらの各ハードウェアは、それぞれがバス１０９を介して通信可能に接続されている。

【0015】

入力装置１０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置１０２は、例えば、ディスプレイ、表示パネル等である。なお、文対応付け装置１０は、例えば、入力装置１０１及び表示装置１０２のうちの少なくとも一方を有していなくてもよい。

【0016】

外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。文対応付け装置１０は、外部Ｉ／Ｆ１０３を介して、記録媒体１０３ａの読み取りや書き込み等を行うことができる。記録媒体１０３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

【0017】

通信Ｉ／Ｆ１０４は、文対応付け装置１０を通信ネットワークに接続させるためのインタフェースである。ＲＡＭ１０５は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。ＲＯＭ１０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。補助記憶装置１０７は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等のストレージ装置（記憶装置）である。プロセッサ１０８は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の演算装置である。

【0018】

予測時における文対応付け装置１０は、図１に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図１に示すハードウェア構成は一例であって、文対応付け装置１０のハードウェア構成はこれに限られるものではない。例えば、文対応付け装置１０は、複数の補助記憶装置１０７や複数のプロセッサ１０８を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。

【0019】

＜予測時における文対応付け装置１０の機能構成例＞
予測時における文対応付け装置１０の機能構成例を図２に示す。図２に示すように、予測時における文対応付け装置１０は、文対応付け問題生成部２０１と、文変換部２０２と、文対応付け予測部２０３と、文対応生成部２０４とを有する。これら各部は、例えば、文対応付け装置１０にインストールされた１以上のプログラムが、プロセッサ１０８等に実行させる処理により実現される。また、予測時における文対応付け装置１０は、多言語言語モデルパラメータ記憶部２０５と、文対応付けモデルパラメータ記憶部２０６とを有する。これら各記憶部は、例えば、補助記憶装置１０７等により実現可能である。

【0020】

文対応付け問題生成部２０１は、与えられた入力文書対データを多言語言語モデル及び文対応付けモデルを利用した文対応付け問題に入力可能な形式に変換する。具体的には、文対応付け問題生成部２０１は、与えられた入力文書対データが表す文書対に含まれる各文書を文単位に区切ったデータ（以下、文単位入力文書対データともいう。）を作成する。

【0021】

以下では、入力文書対データが表す文書対に含まれる１つ目の文書を文単位に区切ったものを文書Ｅ＝｛ｅ_１，ｅ_２，・・・，ｅ_｜Ｅ｜｝、２つ目の文書を文単位に区切ったものを文書Ｆ＝｛ｆ_１，ｆ_２，・・・，ｆ_｜Ｆ｜｝）とする。ここで、ｅ_ｉ（ｉ＝１，２，・・・，｜Ｅ｜）は文書Ｅに含まれるｉ番目の文、ｆ_ｊ（ｊ＝１，２，・・・，｜Ｆ｜）は文書Ｆに含まれるｊ番目の文を表す。これにより、文単位入力文書対データは（Ｅ，Ｆ）と表される。

【0022】

文変換部２０２には、多言語言語モデルＭ_１が含まれる。文変換部２０２は、多言語言語モデルパラメータ記憶部２０５に記憶されている学習済み多言語言語モデルパラメータを用いて、多言語言語モデルＭ_１により、文単位入力文書対データ（Ｅ，Ｆ）に含まれる各文をその文の多言語埋め込み表現（特徴量）を表す文ベクトルにそれぞれ変換する。なお、これらの文ベクトルは、各文の各々を特徴量に変換したものであるため、文脈情報は考慮されていないものになる。

【0023】

以下、文ｅ_ｉ（ｉ＝１，２，・・・，｜Ｅ｜）の文ベクトルをｈ_ｉ ^ｅ∈Ｒ^ｄとする。同様に、文ｆ_ｊ（ｊ＝１，２，・・・，｜Ｆ｜）の文ベクトルをｈ_ｊ ^ｆ∈Ｒ^ｄとする。ここで、ｄは文ベクトルの次元数である。

【0024】

また、文ベクトルｈ_ｉ ^ｅ∈Ｒ^ｄをｉ番目の行とする｜Ｅ｜行ｄ列の行列をＨ^ｅ＝［ｈ_１ ^ｅ，ｈ_２ ^ｅ，・・・，ｈ_｜Ｅ｜ ^ｅ］∈Ｒ^{｜Ｅ｜×ｄ}と表す。同様に、文ベクトルｈ_ｊ ^ｆをｊ番目の行とする｜Ｆ｜行ｄ列の行列をＨ^ｆ＝［ｈ_１ ^ｆ，ｈ_２ ^ｆ，・・・，ｈ_｜Ｆ｜ ^ｆ］∈Ｒ^{｜Ｆ｜×ｄ}と表す。以下では、これらの行列Ｈ^ｅ，Ｈ^ｆを文ベクトル行列と呼ぶ。

【0025】

なお、多言語言語モデルＭ_１として、文を多言語埋め込み表現に変換可能なものであれば任意の言語モデルを用いることが可能である。また、多言語言語モデルＭ_１として、事前学習済み多言語言語モデルを用いてもよい。例えば、ＬａＢＳＥ（参考文献１）、ＬＡＳＥＲ（参考文献２）等といったモデルを多言語言語モデルＭ_１として用いることができる。

【0026】

ただし、文変換部２０２に含まれる多言語言語モデルＭ_１は多言語言語モデルに限定されるものではなく、文対応付けを行いたい文書対に含まれる各文書がそれぞれ属するドメインの文の埋め込み表現を得ることができるものであれば、任意の文埋め込みモデルを用いることが可能である。例えば、同一言語における第１の方言及び第２の方言間の文対応付けを行いたい場合、文変換部２０２には、当該言語における第１の方言及び第２の方言の文埋め込み表現を得ることができる文埋め込みモデルが含まれるものとしてもよい。

【0027】

文対応付け予測部２０３には、文対応付けモデルＭ_２が含まれる。文対応付け予測部２０３は、文対応付けモデルパラメータ記憶部２０６に記憶されている学習済み文対応付けモデルパラメータを用いて、文対応付けモデルＭ_２により、文ベクトル行列Ｈ^ｅ及びＨ^ｆから文脈情報を考慮した文ベクトル（以下、文脈ベクトルともいう。）を計算した上で、これらの文脈ベクトルから文対応付けスコアを予測する。文対応付けスコアとは、文書Ｅに含まれる文又は文集合と文書Ｆに含まれる文又は文集合とを対応付けるためのスコアを要素とする行列のことである。なお、文対応付け予測部２０３の詳細な機能構成については後述する。

【0028】

文対応生成部２０４は、文対応スコアを用いて、文又は文集合同士を対応付ける既存手法（例えば、ＤＰマッチング、ＩＬＰ（Integer Linear Programming Problem；整数線形計画問題）によるマッチング、閾値処理等）により、文書Ｅに含まれる文又は文集合と文書Ｆに含まれる文又は文集合との対応付けた上で、その対応付け（文アラインメント）を表す文対応データを生成する。

【0029】

多言語言語モデルパラメータ記憶部２０５は、多言語言語モデルＭ_１の学習済みパラメータ（学習済み多言語言語モデルパラメータ）を記憶する。

【0030】

文対応付けモデルパラメータ記憶部２０６は、文対応付けモデルＭ_２の学習済みパラメータ（学習済み文対応付けモデルパラメータ）を記憶する。

【0031】

なお、図２に示す文対応付け装置１０の機能構成例では文変換部２０２と文対応付け予測部２０３とが別々に存在するが、例えば、文変換部２０２は文対応付け予測部２０３に含まれていてもよい。この場合、文対応付けモデルＭ_２には、多言語言語モデルＭ_１が含まれる。

【0032】

＜文対応付け予測部２０３の詳細な機能構成例＞
以下、文対応付け予測部２０３の詳細な機能構成の実施例１及び２について説明する。

【0033】

≪実施例１≫
実施例１における文対応付け予測部２０３の詳細な機能構成例を図３に示す。図３に示すように、実施例１における文対応付け予測部２０３には、文脈ベクトル計算部２１１と、スコア計算部２１２とが含まれる。なお、文脈ベクトル計算部２１１及びスコア計算部２１２は文対応付けモデルＭ_２により実現される。

【0034】

文脈ベクトル計算部２１１は、文ベクトル行列Ｈ^ｅ及びＨ^ｆから文脈ベクトルを計算する。より具体的には、文脈ベクトル計算部２１１は、各文ベクトルに関して、その文ベクトルが属する文書において当該文ベクトルが表す文以外の文に関する情報（つまり、同一文書内の文外文脈情報）と、その文が属しない他方の文書に関する情報（つまり、他ドメイン文書の情報）とを文脈情報として、その文ベクトルから文脈ベクトルを計算する。

【0035】

例えば、文脈ベクトル計算部２１１は、（Ｃ^ｅ，Ｃ^ｓ，Ｃ^ｆ）＝ｇ（［Ｈ^ｅ；ｓ；Ｈ^ｆ］）により文脈ベクトルを計算する。ここで、ｇ（・）はＬ層のＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒによるｓｅｌｆａｔｔｅｎｔｉｏｎ（参考文献３）、ｓは学習済み文対応付けモデルパラメータに含まれる学習済みパラメータである。また、ｇ（・）に含まれる学習可能パラメータは学習済みであり、学習済み文対応付けモデルパラメータに含まれる。Ｃ^ｅ∈Ｒ^{｜Ｅ｜×ｄ}はＨ^ｅに対応するｇ（・）の出力であり、文脈ベクトルを各行とする｜Ｅ｜行ｄ列の行列である。同様に、Ｃ^ｆはＨ^ｆに対応するｇ（・）の出力であり、文脈ベクトルを各行とする｜Ｆ｜行ｄ列の行列である。Ｃ^ｓはｓに対応するｇ（・）の出力である。なお、文脈ベクトル計算部２１１は文対応付けモデルに含まれる文脈ベクトル計算モデルにより実現される。また、学習済みパラメータｓとｇ（・）に含まれる学習済みパラメータは文脈ベクトル計算モデルパラメータであり、文対応付けモデルパラメータ記憶部２０６に含まれる文脈ベクトル計算モデルパラメータ記憶部２１６に記憶される。

【0036】

これにより、文書Ｅと文書Ｆの文脈情報を考慮した文脈ベクトルで構成される行列（以下、文脈ベクトル行列ともいう。）Ｃ^ｅ及びＣ^ｆが得られる。例えば、文ベクトルｅ_ｉに対応する文脈ベクトルをｅ_ｉ'、文ベクトルｆ_ｊに対応する文脈ベクトルをｆ_ｊ'とすれば、文脈ベクトル行列Ｃ^ｅは文脈ベクトルｅ_ｉ'をｉ（１≦ｉ≦｜Ｅ｜）行目とする｜Ｅ｜行ｄ列の行列、文脈ベクトル行列Ｃ^ｆは文脈ベクトルｆ_ｊ'をｊ（１≦ｊ≦｜Ｆ｜）行目とする｜Ｆ｜行ｄ列の行列で表される。なお、Ｃ^ｓも得られるが、Ｃ^ｓは特に利用されない。

【0037】

スコア計算部２１２は、文脈ベクトル行列Ｃ^ｅ及びＣ^ｆから文対応付けスコア＾Ａ∈Ｒ^{｜Ｅ｜×｜Ｆ｜}を計算する。なお、予測値（推定値）を表すハット「＾」は正確にはＡの真上に付与されるが、明細書のテキスト中では、Ａの直前に記載するものとする。

【0038】

例えば、スコア計算部２１２は、文脈ベクトル行列Ｃ^ｅ及びＣ^ｆ同士の直積を多層パーセプトロン層に入力することで文対応付けスコア＾Ａを計算する。すなわち、スコア計算部２１２は、以下の式（１）により文対応付けスコア＾Ａを計算する。

【0039】

【数1】

ここで、ｍｌｐ（・）は多層パーセプトロン層である。ｍｌｐ（・）には学習済み文対応付けモデルパラメータに含まれる学習済みパラメータ（多層パーセプトロン層を構成する各層の重み）が含まれる。なお、スコア計算部２１２は文対応付けモデルに含まれるスコア計算モデルにより実現される。また、ｍｌｐ（・）に含まれる学習済みパラメータはスコア計算モデルパラメータであり、文対応付けモデルパラメータ記憶部２０６に含まれるスコア計算モデルパラメータ記憶部２２６に記憶される。

【0040】

上記の文対応付けスコア＾Ａは、ｉ行ｊ列目の要素＾ａ_ｉｊが文ｅ_ｉと文ｆ_ｊとの間の対応付けスコアを表している。この対応付けスコア＾ａ_ｉｊは、その値が大きいほど文ｅ_ｉと文ｆ_ｊとが対応付けられ、その値が小さいほど文ｅ_ｉと文ｆ_ｊとが対応付けられないことを表している。

【0041】

なお、上記の式（１）では一度ですべてのアラインメント候補（つまり、実施例１では文書Ｅに含まれる文と文書Ｆに含まれる文）の対応付けスコアを計算できるため、例えば、ＳｐａｎＡｌｉｇｎ（参考文献４）等といったスパン予測モデルのスコア計算と比較して、非常に高速に対応付けスコアを計算することができる。

【0042】

≪実施例２≫
実施例２における文対応付け予測部２０３の詳細な機能構成例を図４に示す。図４に示すように、実施例２における文対応付け予測部２０３には、文脈ベクトル計算部２１１と、複数文文脈ベクトル計算部２１３と、スコア計算部２１２とが含まれる。なお、文脈ベクトル計算部２１１、複数文文脈ベクトル計算部２１３及びスコア計算部２１２は文対応付けモデルＭ_２により実現される。

【0043】

文脈ベクトル計算部２１１は、実施例１と同様に、文ベクトル行列Ｈ^ｅ及びＨ^ｆから文脈ベクトル行列Ｃ^ｅ及びＣ^ｆを計算する。

【0044】

複数文文脈ベクトル計算部２１３は、文脈ベクトル行列Ｃ^ｅ及びＣ^ｆに含まれる文脈ベクトルを１以上の連続する文の文脈ベクトル（以下、複数文文脈ベクトルともいう。）に拡張する。

【0045】

例えば、複数文文脈ベクトル計算部２１３は、文脈ベクトル行列Ｃ^ｅ及びＣ^ｆに含まれる文脈ベクトルを文ｎ－ｇｒａｍベクトルに拡張し、これら文ｎ－ｇｒａｍベクトルで構成される複数文文脈ベクトル行列を計算する。具体的には、複数文文脈ベクトル計算部２１３は、以下により複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅ及びＣ_１：Ｎ ^ｆを計算する。

【0046】

Ｃ_１：Ｎ ^ｅ＝［Ｃ_１ ^ｅ；・・・；Ｃ_Ｎ ^ｅ］
Ｃ_ｎ ^ｅ＝ｍａｘ＿ｐｏｏｌｉｎｇ_ｎ（Ｃ^ｅ）
Ｃ_１：Ｎ ^ｆ＝［Ｃ_１ ^ｆ；・・・；Ｃ_Ｎ ^ｆ］
Ｃ_ｎ ^ｆ＝ｍａｘ＿ｐｏｏｌｉｎｇ_ｎ（Ｃ^ｆ）
ここで、Ｎは文ｎ－ｇｒａｍの最大文数を表すハイパーパラメータである。ｍａｘ＿ｐｏｏｌｉｎｇ_ｎはカーネルサイズ（ｎ，１）、ストライド１のＭａｘＰｏｏｌｉｎｇ層を表す。

【0047】

このとき、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅは文脈ベクトル行列Ｃ^ｅの文ｎ－ｇｒａｍへの拡張であり、複数文文脈ベクトル（文ｎ－ｇｒａｍベクトル）を各行とする｜Ｅ_１：Ｎ｜行ｄ列の行列である。同様に、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｆは文脈ベクトル行列Ｃ^ｆの文ｎ－ｇｒａｍへの拡張であり、複数文文脈ベクトル（文ｎ－ｇｒａｍベクトル）を各行とする｜Ｆ_１：Ｎ｜行ｄ列の行列である。ただし、｜Ｅ_１：Ｎ｜＝（Ｎ（２｜Ｅ｜－Ｎ＋１））／２、｜Ｆ_１：Ｎ｜＝（Ｎ（２｜Ｆ｜－Ｎ＋１））／２である。

【0048】

例えば、ｅ_ｉ'，・・・，ｅ_{ｉ＋ｎ－１}'の文ｎ－ｇｒａｍベクトルをｅ_{ｉ：ｉ＋ｎ－１}'と表すことにすれば、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅはｅ_１'，・・・，ｅ_｜Ｅ｜'，ｅ_１：２'，・・・，ｅ_{｜Ｅ｜－Ｎ＋１：｜Ｅ｜}'をそれぞれ１行目、・・・、｜Ｅ｜行目、｜Ｅ｜＋１行目、・・・、｜Ｅ_１：Ｎ｜行目とする｜Ｅ_１：Ｎ｜行ｄ列の行列で表される。同様に、ｆ_ｊ'，・・・，ｆ_{ｊ＋ｎ－１}'の文ｎ－ｇｒａｍベクトルをｆ_{ｊ：ｊ＋ｎ－１}'と表すことにすれば、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｆはｆ_１'，・・・，ｆ_｜Ｆ｜'，ｆ_１：２'，・・・，ｆ_{｜Ｆ｜－Ｎ＋１：｜Ｆ｜}'をそれぞれ１行目、・・・、｜Ｆ｜行目、｜Ｆ｜＋１行目、・・・、｜Ｆ_１：Ｎ｜行目とする｜Ｆ_１：Ｎ｜行ｄ列の行列で表される。

【0049】

これにより、多対多の文対応（つまり、文集合同士の文対応）を行うための文対応付けスコアを計算することが可能となる。なお、文脈ベクトル計算部２１１及び複数文文脈ベクトル計算部２１３は文対応付けモデルに含まれる文脈ベクトル計算モデルにより実現される。

【0050】

スコア計算部２１２は、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅ及びＣ_１：Ｎ ^ｆからスコア＾Ａ∈Ｒ^{｜Ｅ_（１：Ｎ）｜×｜Ｆ_（１：Ｎ）｜}を計算する。なお、｜Ｅ_（１：Ｎ）｜及び｜Ｆ_（１：Ｎ）｜はそれぞれ｜Ｅ_１：Ｎ｜及び｜Ｆ_１：Ｎ｜を表す。

【0051】

例えば、スコア計算部２１２は、実施例１と同様に、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅ及びＣ_１：Ｎ ^ｆ同士の直積を多層パーセプトロン層に入力することで文対応付けスコア＾Ａを計算する。すなわち、スコア計算部２１２は、上記の式（１）のＣ^ｅの代わりにＣ_１：Ｎ ^ｅ、Ｃ^ｆの代わりにＣ_１：Ｎ ^ｆを用いて文対応付けスコア＾Ａを計算する。

【0052】

なお、実施例１と同様に、上記の式（１）では一度ですべてのアラインメント候補（つまり、実施例１では文書Ｅに含まれる文の文ｎ－ｇｒａｍと文書Ｆに含まれる文の文ｎ－ｇｒａｍ）の対応付けスコアを計算できるため、例えば、ＳｐａｎＡｌｉｇｎ（参考文献４）等といったスパン予測モデルのスコア計算と比較して、非常に高速に対応付けスコアを計算することができる。

【0053】

＜文対応付け処理＞
以下、本実施形態に係る文対応付け処理について、図５を参照しながら説明する。

【0054】

まず、文対応付け問題生成部２０１は、与えられた入力文書対データを入力する（ステップＳ１０１）。

【0055】

次に、文対応付け問題生成部２０１は、上記のステップＳ１０１で入力した入力文書対データから文対応付け問題を生成する（ステップＳ１０２）。すなわち、文対応付け問題生成部２０１は、当該入力文書対データを、文対応付け問題に入力可能な形式である文単位入力文書対データ（Ｅ，Ｆ）に変換する。なお、上記のステップＳ１０１で入力した入力文書対データが文対応付け問題に入力可能な形式である場合、文対応付け問題生成部２０１は、この入力文書対データをそのまま文単位入力文書対データとすればよい。

【0056】

次に、文変換部２０２は、学習済み多言語言語モデルパラメータを用いて、多言語言語モデルＭ_１により、上記のステップＳ１０２で得られた文単位入力文書対データ（Ｅ，Ｆ）に含まれる各文を文ベクトルに変換する（ステップＳ１０３）。すなわち、文変換部２０２は、学習済み多言語言語モデルパラメータを用いて、多言語言語モデルＭ_１により、文単位入力文書対データに含まれる文書Ｅを文ベクトル行列Ｈ^ｅに変換すると共に、文単位入力文書対データに含まれる文書Ｆを文ベクトル行列Ｈ^ｆに変換する。

【0057】

次に、文対応付け予測部２０３は、学習済み文対応付けモデルパラメータを用いて、文対応付けモデルＭ_２により、文ベクトル行列Ｈ^ｅ及びＨ^ｆから文対応付けスコア＾Ａを予測する（ステップＳ１０４）。なお、本ステップの処理の詳細については後述する。

【0058】

次に、文対応生成部２０４は、上記のステップＳ１０４で予測された文対応スコアを用いて、文対応データを生成する（ステップＳ１０５）。例えば、上記のステップＳ１０４で実施例１における文対応付け予測部２０３によって文対応付けスコア＾Ａが予測された場合、文対応生成部２０４は、文対応付けスコア＾Ａの要素＾ａ_ｉｊと予め決められた所定の閾値とを比較し、当該閾値以上の値を取る要素＾ａ_ｉｊに対応する文ｅ_ｉ及びｆ_ｊを対応付ける。一方で、上記のステップＳ１０４で実施例２における文対応付け予測部２０３によって文対応付けスコア＾Ａが予測された場合、文対応生成部２０４は、ＤＰマッチングやＩＬＰによるマッチングにより、ｅ_１，・・・，ｅ_｜Ｅ｜，ｅ_１：２，・・・，ｅ_{｜Ｅ｜－Ｎ＋１：｜Ｅ｜}とｆ_１，・・・，ｆ_｜Ｆ｜，ｆ_１：２，・・・，ｆ_{｜Ｆ｜－Ｎ＋１：｜Ｆ｜}とを対応付ける。

【0059】

このように、実施例１における文対応付け予測部２０３によって文対応付けスコア＾Ａを予測する場合、連続する文との対応関係を予測する際に文対応付けスコア＾Ａの各行及び各列で対応付けられるペアが複数個となり得るため、全体最適化が適用できず、閾値処理により文対応を決定することになる。これに対して、実施例２における文対応付け予測部２０３によって文対応付けスコア＾Ａを予測する場合、連続する文との対応関係は文対応付けスコア＾Ａの各行及び各列に値が１の要素が高々１つしか含まれない形で予測することができる。このため、実施例２における文対応付け予測部２０３によって文対応付けスコア＾Ａを予測することで、連続する文との対応付けにＤＰマッチングやＩＬＰによるマッチング等といった全体最適化に基づくアラインメントアルゴリズムの適用が可能になる。

【0060】

ステップＳ１０５に続いて、文対応生成部２０４は、上記のステップＳ１０５で生成した文対応データを予め決められた所定の出力先に出力する（ステップＳ１０６）。なお、所定の出力先としては、例えば、表示装置１０２、補助記憶装置１０７、通信ネットワークを介して接続される他の装置等が挙げられる。

【0061】

＜文対応付けスコアの予測処理＞
以下、上記のステップＳ１０４における文対応付けスコア＾Ａの予測処理の詳細について説明する。

【0062】

≪実施例１における文対応付けスコアの予測処理≫
実施例１における文対応付けスコア＾Ａの予測処理について、図６を参照しながら説明する。

【0063】

まず、文脈ベクトル計算部２１１は、文ベクトル行列Ｈ^ｅ及びＨ^ｆを用いて、（Ｃ^ｅ，Ｃ^ｓ，Ｃ^ｆ）＝ｇ（［Ｈ^ｅ；ｓ；Ｈ^ｆ］）により文脈ベクトル行列Ｃ^ｅ及びＣ^ｆを計算する（ステップＳ２０１）。

【0064】

そして、スコア計算部２１２は、上記のステップＳ２０１で計算された文脈ベクトル行列Ｃ^ｅ及びＣ^ｆを用いて、上記の式（１）により文対応付けスコア＾Ａを計算する（ステップＳ２０２）。

【0065】

≪実施例２における文対応付けスコアの予測処理≫
実施例２における文対応付けスコア＾Ａの予測処理について、図７を参照しながら説明する。

【0066】

まず、文脈ベクトル計算部２１１は、文ベクトル行列Ｈ^ｅ及びＨ^ｆを用いて、（Ｃ^ｅ，Ｃ^ｓ，Ｃ^ｆ）＝ｇ（［Ｈ^ｅ；ｓ；Ｈ^ｆ］）により文脈ベクトル行列Ｃ^ｅ及びＣ^ｆを計算する（ステップＳ３０１）。

【0067】

次に、複数文文脈ベクトル計算部２１３は、上記のステップＳ３０１で計算された文脈ベクトル行列Ｃ^ｅ及びＣ^ｆを用いて、複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅ及びＣ_１：Ｎ ^ｆを計算する（ステップＳ３０２）。

【0068】

そして、スコア計算部２１２は、上記のステップＳ３０２で計算された複数文文脈ベクトル行列Ｃ_１：Ｎ ^ｅ及びＣ_１：Ｎ ^ｆを用いて、Ｃ^ｅの代わりにＣ_１：Ｎ ^ｅ、Ｃ^ｆの代わりにＣ_１：Ｎ ^ｆとした式（１）により文対応付けスコア＾Ａを計算する（ステップＳ３０３）。

【0069】

［学習時］
次に、多言語言語モデルＭ_１及び文対応付けモデルＭ_２のパラメータが学習済みでないものとして、これらのパラメータを学習する場合について説明する。ここで、多言語言語モデルＭ_１のパラメータを学習する場合、学習時における文対応付け装置１０には、多言語言語モデル用学習データが与えられる。一方で、文対応付けモデルＭ_２のパラメータを学習する場合、学習時における文対応付け装置１０には、１以上の学習用文書対データが与えられる。

【0070】

多言語言語モデル用学習データとは、多言語言語モデルＭ_１を学習するための学習データのことである。多言語言語モデル用学習データには、少なくとも文対応付けの対象となる言語を含む複数の言語における各単言語の文書データ（例えば、文対応付けの対象となる言語が英語と日本語である場合、英語の文書データと日本語の文書データ等）が１つ以上含まれる。なお、多言語言語モデル用学習データには、更に、少なくとも文対応付けの対象となる２言語間（又は、同一言語の異なる方言間でもよい。）の対訳データ（例えば、文対応付けの対象となる言語が英語と日本語である場合、英語と日本語の対訳データ等）が１つ以上含まれていてもよい。

【0071】

学習用文書対データとは、文対応付けモデルＭ_２のパラメータ学習に用いられる文対応付けモデル用学習データを作成するための文書対データのことである。学習用文書対データは、文対応付けの対象となる２言語間（又は、同一言語の異なる方言間でもよい。）で何等かの対応関係（例えば、対訳関係）にある文書対のデータである。

【0072】

＜学習時における文対応付け装置１０のハードウェア構成例＞
予測時における文対応付け装置１０のハードウェア構成例と同様としてよいため、その説明を省略する。

【0073】

＜学習時における文対応付け装置１０の機能構成例＞
学習時における文対応付け装置１０の機能構成例を図８に示す。図８に示すように、学習時における文対応付け装置１０は、文変換部２０２及び文対応付け予測部２０３に加えて、多言語言語モデル学習部３０１と、疑似文対応付けデータ作成部３０２と、文対応付け問題回答生成部３０３と、文対応付けモデル学習部３０４とを有する。これら各部は、例えば、文対応付け装置１０にインストールされた１以上のプログラムが、プロセッサ１０８等に実行させる処理により実現される。また、学習時における文対応付け装置１０は、多言語言語モデルパラメータ記憶部２０５と、文対応付けモデルパラメータ記憶部２０６とを有する。これら各記憶部は、例えば、補助記憶装置１０７等により実現可能である。

【0074】

多言語言語モデル学習部３０１は、与えられた多言語言語モデル用学習データを用いて、多言語言語モデルに関する既存の学習手法により、多言語言語モデルパラメータ記憶部２０５に記憶されている多言語言語モデルパラメータを学習する。

【0075】

疑似文対応付けデータ作成部３０２は、与えられた学習用文書対データを用いて、既存の文対応付け手法により文対応を求めた上で、この文対応を疑似的な正解データとして当該学習用文書対データに付与した疑似文対応付けデータを作成する。なお、例えば、Ｋ個の学習用文書対データが与えられた場合、Ｋ個の疑似文対応付けデータが得られる。ただし、例えば、これらの疑似文対応付けデータが人手等で作成され、学習時における文対応付け装置１０に与えられてもよい。

【0076】

文対応付け問題回答生成部３０３は、疑似文対応付けデータに含まれる学習用文書対データを文対応付け問題に入力可能な形式に変換すると共に、当該疑似文対応付けデータに含まれる疑似的な正解データを文対応付けスコア＾Ａと同様の形式に変換する。すなわち、文対応付け問題回答生成部３０３は、学習用文書対データが表す文書対に含まれる各文書を文単位に区切ったデータを作成すると共に、疑似的な正解データを文対応付けスコア＾Ａと同様の行列形式の行列（以下、正解文対応付けスコアといい、Ａで表す。）に変換する。

【0077】

以下では、予測時と同様に、学習用文書対データに含まれる１つ目の文書を文単位に区切ったものを文書Ｅ＝｛ｅ_１，ｅ_２，・・・，ｅ_｜Ｅ｜｝、２つ目の文書を文単位に区切ったものを文書Ｆ＝｛ｆ_１，ｆ_２，・・・，ｆ_｜Ｆ｜｝）とする。これにより、疑似文対応付けデータは（Ｅ，Ｆ，Ａ）との形式に変換される。以下、この形式に変換された疑似文対応付けデータを文対応付けモデル用学習データ（Ｅ，Ｆ，Ａ）という。なお、Ｋ個の学習用文書対データが与えられた場合、Ｋ個の疑似文対応付けデータが作成されるため、Ｋ個の文対応付けモデル用学習データが得られる。

【0078】

文対応付けモデル学習部３０４は、文対応付けモデル用学習データ（Ｅ，Ｆ，Ａ）を用いて、文対応付けモデルパラメータ記憶部２０６に記憶されている文対応付けモデルパラメータを学習する。ここで、文対応付けモデル学習部３０４は、既知の教師あり学習の手法により文対応付けモデルパラメータを学習すればよい。

【0079】

このとき、実施例１又は実施例２における文対応付け予測部２０３が用いられる場合、例えば、以下のＢＣＥ（Binary Cross Entropy）ｌｏｓｓを損失関数として用いることができる。一方で、実施例２における文対応付け予測部２０３が用いられる場合、例えば、以下のＳＣＥ（Softmax Cross Entropy）ｌｏｓｓを損失関数として用いることができる。なお、文対応付けモデルパラメータは、この損失関数の値を最小化するように、勾配法等といった既存の最適化手法を利用して学習（更新）される。

【0080】

・ＢＣＥｌｏｓｓ
文脈ベクトル又は文ｎ－ｇｒａｍベクトルの文対応を二値分類タスクとして学習する。この場合、式（１）に示すｍｌｐの出力層の活性化関数としてシグモイド関数を用いる。ただし、式（１）に示すｍｌｐの出力層の活性化関数として恒等関数を用いて、文対応付けスコア＾Ａの各要素＾ａ_ｉｊに対してシグモイド関数を適用してもよい。

【0081】

損失Ｌ_ｂｃｅは、文対応付け予測部２０３によって予測された文対応付けスコア＾Ａと、正解文対応付けスコアＡとの間のバイナリ交差エントロピーとして以下の式（２）で定義される。

【0082】

【数2】

ここで、σはシグモイド関数である。また、σ（＾ａ_ｉｊ）（０≦σ（＾ａ_ｉｊ）≦１）は文対応付けスコア＾Ａの（ｉ，ｊ）成分の要素（又は、式（１）に示すｍｌｐの出力層の活性化関数として恒等関数を用いた場合は文対応付けスコア＾Ａの（ｉ，ｊ）成分の要素＾ａ_ｉｊに対してシグモイド関数を適用した値）、ａ_ｉｊ∈｛０，１｝は正解文対応付けスコアＡの（ｉ，ｊ）成分の要素である。

【0083】

上記の式（２）で定義される損失Ｌ_ｂｃｅによって、文対応付けモデルは多対多の文対応を直接的に学習することが可能となる。

【0084】

なお、実施例１における文対応付け予測部２０３が用いられる場合、上記の式（２）ではＮ＝１とする。

【0085】

・ＳＣＥｌｏｓｓ
文ｎ－ｇｒａｍベクトルの文対応を多クラス分類タスクとして学習する。この場合、式（１）に示すｍｌｐの出力層の活性化関数としてソフトマックス関数を用いる。

【0086】

損失Ｌ_ｓｃｅは、参考文献５と同様に、Ｅ→Ｆ方向の対応付け損失Ｌ_Ｅ→ＦとＦ→Ｅ方向の対応付け損失Ｌ_Ｆ→Ｅとの和で定義する。すなわち、損失Ｌ_ｓｃｅは、以下の式（３）～（５）で定義される。

【0087】

【数3】

ここで、ｍは正例と負例のスコア（対応付けスコア）の分離を促進するためのマージンである。

【0088】

絶対的な文対応付けスコアの予測を学習するＢＣＥｌｏｓｓとは対照的に、ＳＣＥｌｏｓｓでは相対的な文対応付けスコアの予測を学習する。そのため、ＢＣＥｌｏｓｓで学習する場合と比較して、学習が容易になるという利点がある。

【0089】

＜多言語言語モデルの学習処理＞
以下、本実施形態に係る多言語言語モデルの学習処理について、図９を参照しながら説明する。

【0090】

まず、多言語言語モデル学習部３０１は、与えられた多言語言語モデル用学習データを入力する（ステップＳ４０１）。

【0091】

そして、多言語言語モデル学習部３０１は、上記のステップＳ４０１で入力した多言語言語モデル用学習データを用いて、既存の学習手法により、多言語言語モデルパラメータを学習する（ステップＳ４０２）。例えば、多言語言語モデル学習部３０１は、各単言語の文書データを用いて、単語穴埋めタスクにより多言語言語モデルパラメータを学習する。また、例えば、対訳データが多言語言語モデル用学習データに含まれる場合、多言語言語モデル学習部３０１は、対訳データを用いて、対照学習により多言語言語モデルパラメータを学習する。具体例を挙げれば、多言語言語モデルＭ_１としてＬａＢＳＥを用いる場合、多言語言語モデル学習部３０１は、ＭＬＭ（Masked Language Modeling）と呼ばれる手法により単言語の文書データから多言語言語モデルパラメータを学習すると共に、ＴＬＭ（Translation Language Modeling）と呼ばれる手法により対訳データから多言語言語モデルパラメータを学習する。これにより、文の多言語埋め込み表現を得るための多言語言語モデルパラメータを学習することができる。

【0092】

＜文対応付けモデル用学習データの作成処理＞
以下、本実施形態に係る文対応付けモデル用学習データの作成処理について、図１０を参照しながら説明する。なお、複数の文対応付けモデル用学習データを作成するには、以下のステップＳ５０１～ステップＳ５０３を繰り返し実行すればよい。

【0093】

まず、疑似文対応付けデータ作成部３０２は、与えられた学習用文書対データを入力する（ステップＳ５０１）。

【0094】

次に、疑似文対応付けデータ作成部３０２は、上記のステップＳ５０１で入力された学習用文書対データを用いて、既存の任意の文対応付け手法により文対応を疑似的な正解データとして求めた上で、この疑似的な正解データを当該学習用文書対データに付与して疑似文対応付けデータを作成する（ステップＳ５０２）。

【0095】

そして、文対応付け問題回答生成部３０３は、上記のステップＳ５０２で作成された疑似文対応付けデータを用いて、文対応付けモデル用学習データを作成する（ステップＳ５０３）。すなわち、文対応付け問題回答生成部３０３は、当該疑似文対応付けデータに含まれる学習用文書対データが表す文書対に含まれる各文書を文単位に区切ったデータと、当該疑似文対応付けデータに含まれる疑似的な正解データを文対応付けスコア＾Ａと同様の形式の行列に変換したデータとが含まれる文対応付けモデル用学習データ（Ｅ，Ｆ，Ａ）を作成する。なお、当該学習用文書対データが文対応付け問題に入力可能な形式である場合、文対応付け問題回答生成部３０３は、この学習用文書対データをそのまま文対応付けモデル用学習データに含めればよい。同様に、当該疑似的な正解データが文対応付けスコア＾Ａと同様の形式の行列である場合、文対応付け問題回答生成部３０３は、この疑似的な正解データをそのまま正解文対応付けスコアＡとして文対応付けモデル用学習データに含めればよい。

【0096】

＜文対応付けモデルの学習処理＞
以下、本実施形態に係る文対応付けモデルの学習処理について、図１１を参照しながら説明する。

【0097】

まず、文対応付けモデル学習部３０４は、文対応付けモデル用学習データ（Ｅ，Ｆ，Ａ）を入力する（ステップＳ６０１）。

【0098】

そして、文対応付けモデル学習部３０４は、上記のステップＳ６０１で入力された文対応付けモデル用学習データ（Ｅ，Ｆ，Ａ）を用いて、文対応付けモデルパラメータ記憶部２０６に記憶されている文対応付けモデルパラメータを学習する（ステップＳ６０２）。すなわち、文対応付けモデル学習部３０４は、当該文対応付けモデル用学習データに含まれる文書Ｅ及びＦに含まれる各文を文変換部２０２に入力し、学習済みの多言語言語モデルパラメータを用いて、予測時と同様に、多言語言語モデルＭ_１により、文ベクトル行列Ｈ^ｅ及びＨ^ｆを得る。次に、文対応付けモデル学習部３０４は、それらの文ベクトル行列Ｈ^ｅ及びＨ^ｆを文対応付け予測部２０３に入力し、学習済みでない文対応付けモデルパラメータを用いて、文対応付けモデルＭ_２により、文対応付けスコア＾Ａを予測する。そして、文対応付けモデル学習部３０４は、この文対応付けスコア＾Ａと、当該文対応付けモデル用学習データに含まれる正解文対応付けスコアＡとを用いて、上記のＢＣＥｌｏｓｓ又はＳＣＥｌｏｓｓを最小化するように、既存の最適化手法を利用して文対応付けモデルパラメータを学習（更新）する。これにより、文対応付けモデルパラメータが学習される。

【0099】

＜評価実験＞
本実施形態に係る文対応付け装置１０（以下、提案手法ともいう。）の有効性を確認するために、日本語と英語の実際の新聞記事の対訳データを用いて文対応付けの精度と速度を評価する実験を行った。この実験により、提案手法では、一定の精度を維持したまま、既存手法と比べて高速な文対応付けを実現できることが確認できた。

【0100】

≪実験設定≫
ベースラインには、対訳コーパス作成の際のデファクト・スタンダードな手法の１つであり計算量が小さいＶｅｃａｌｉｇｎ（非特許文献１）と日英間の文アラインメントで世界最高精度を達成しているＳｐａｎＡｌｉｇｎ（参考文献４）を用いた。評価尺度には、文アラインメントの評価尺度として一般的に用いられている、文アラインメント単位でのＦ１スコアを採用した。

【0101】

≪データセット≫
学習、開発、及び評価のデータには、日本語の或る新聞記事とその翻訳となっている英字新聞の記事を使用した。学習データには、参考文献６に記載されている手法を利用して自動抽出した対訳文書２，９８９本とその文書内の文アラインメントを疑似的な正解データとして用いた。これらのデータは、２０１２年に発行された日本語記事３１７，４９１本と英語記事３，８７８本から抽出した。開発及び評価データには、２０１３年に発行された記事から人手でアラインメントを行ったものをそれぞれ１５本ずつ用いた。以下の表１に各データの平均文数を示す。

【0102】

【表1】

≪モデル≫
提案手法では多言語言語モデルＭ_１として事前学習済みのＬａＢＳＥを採用し、そのパラメータを固定して用いた。また、文対応付けモデルＭ_２では、文脈ベクトルを計算するｇ（・）のＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒは１層のｅｎｃｏｄｅｒｌａｙｅｒで構成し、ｍｕｌｔｉ－ｈｅａｄａｔｔｅｎｔｉｏｎのｈｅａｄ数を８、隠れ層の次元を７６８、Ｆｅｅｄｆｏｒｗａｒｄ層の次元を２０４８とした。更に、実施例２における文対応付け予測部２０３を利用する際は、文ｎ－ｇｒａｍの最大文数Ｎは２とした。文対応生成部２０４が実行するアラインメントアルゴリズムとしてはＩＬＰを適用し、ＩＬＰソルバにはＩＢＭＩＬＯＧＣＰＬＥＸ１２．８．０．０を用いた。

【0103】

Ｖｅｃａｌｉｇｎでの文アラインメントには非特許文献１の著者による実装を用いた。アラインメントに含まれる最大文数は８、文埋め込みベクトルを作成する際に結合する最大文数は１０とした。また、多言語文埋め込みにはＬＡＳＥＲ（参考文献２）を用いた。ＳｐａｎＡｌｉｇｎでの文アラインメントについても参考文献４の著者による実装を用いた。更に、各種設定に関しては論文の設定に準拠した。

【0104】

≪実験結果≫
各手法における英日文アラインメントの精度と評価データの推論に要した実行時間を以下の表２に示す。

【0105】

【表2】

提案手法の中で、ＳＣＥｌｏｓｓを用いた手法はＢＣＥｌｏｓｓを用いた手法よりも高いＦ１スコアが得られた。相対的な文対応付けスコアの学習により、スパース性による学習の難しさが緩和されたことが示唆される。

【0106】

また、Ｖｅｃａｌｉｇｎとの比較では、提案手法の文ｎ－ｇｒａｍ＋ＢＣＥｌｏｓｓの方が０．３２ｐｔのＦ１スコアの向上が見られた。文脈ベクトル計算時の文脈情報の利用やＩＬＰによる非単調な文対応の抽出が精度向上に寄与したと考えられる。

【0107】

一方で、ＳｐａｎＡｌｉｇｎとの比較では、提案手法の文ｎ－ｇｒａｍ＋ＢＣＥｌｏｓｓの方が０．４８ｐｔ下回った。ＳｐａｎＡｌｉｇｎはトークン単位の文脈情報を考慮するのに対して、提案手法は文単位に圧縮された文脈情報を利用する。この文脈情報の粒度の違いが精度の差に繋がったと考えられる。評価データの推論に要した実行時間は、提案手法がＳｐａｎＡｌｉｇｎの１／４程度であった。

【0108】

以上により、提案手法は、実用レベルの精度を維持しつつ、既存手法と比べて高速に文アラインメントを行えると結論づけることができる。

【0109】

次に、文脈情報の有効性を検証するため、文ｎ－ｇｒａｍベクトルを用いた予測の際に、文脈ベクトルを計算するｇ（・）を除いたモデル（ｗ／ｏｃｏｎｔｅｘｔ）を作成した。その際のアラインメントの精度を以下の表３に示す。

【0110】

【表3】

ｇ（・）を除いたことにより文脈情報が用いられないため、大きく精度が低下したことがわかる。このため、文書対に含まれる各文書の両方の言語における文脈情報が精度向上に作用しているといえる。

【0111】

＜まとめ＞
以上のように、本実施形態に係る文対応付け装置１０では、第１のドメインに属する第１の文書と第２のドメインに属する第２の文書とで構成される文書対が与えられたときに、第１の文書及び第２の文書に含まれる各文を同一の埋め込み空間内の埋め込み表現（文ベクトル）に変換した上で、これらの文ベクトルを用いて、その文ベクトルが属する文書において当該文ベクトルが表す文以外の文に関する情報（同一文書内の文外文脈情報）と、その文ベクトルが属しない他方の文書に関する情報（他ドメイン文書の情報）とを文脈情報として考慮した文脈ベクトルを計算する。これにより、第１の文書と第２の文書との間における文対応（文アラインメント）の精度を向上させることが可能となる。

【0112】

また、本実施形態に係る文対応付け装置１０では、文脈ベクトルから文対応付けスコアを計算する際に、第１の文書に含まれる文アラインメント候補（文又は文集合）と第２の文書に含まれる文アラインメント候補（文又は文集合）との間のスコアを一度に計算することができる。これにより、文単位での特徴量（文ベクトル）へのダウンサンプリングに加えて、文アラインメントのスコアの計算を一度に行うことができるため、高速な予測を実現することが可能となる。

【0113】

＜変形例＞
以下、本実施形態の変形例について説明する。

【0114】

・変形例１
学習時における文対応付け装置１０は、例えば、図１２に示す機能構成例であってもよい。図１２に示す文対応付け装置１０の機能構成例では、１つの機械学習モデルで実現される文変換部２０２及び文対応付け予測部２０３を有する。なお、文対応付けモデルは文脈ベクトル計算モデルとスコア計算モデルにより実現されるため、図１２に示す例では、文脈ベクトル計算モデルとスコア計算モデルをそれぞれ「第１のモデル」、「第２のモデル」と表記している。また、文変換部２０２を実現するモデルは多言語言語モデルに限られないため、図１２に示す例では任意の文埋め込みモデルを「第３のモデル」と表記している。

【0115】

また、文変換部２０２と文対応付け予測部２０３は１つのモデルＭで実現されており、第１のモデル～第３のモデルは当該モデルＭに含まれる構成としている。第１のモデルパラメータ及び第２のモデルパラメータは第１・第２のモデルパラメータ記憶部２０６Ａに記憶され、第３のモデルパラメータは第３のモデルパラメータ記憶部２０５Ａに記憶されており、第１・第２のモデルパラメータ記憶部２０６Ａ及び第３のモデルパラメータ記憶部２０５Ａはモデルパラメータ記憶部２０７に含まれる構成としている。

【0116】

なお、第３のモデルパラメータを学習する際には、事前学習済みの多言語言語モデルのパラメータを当該第３のモデルパラメータの初期値として学習が行われてもよい。

【0117】

・変形例２
予測時における文対応付け装置１０は、例えば、図１３に示す機能構成例であってもよい。図１３に示す文対応付け装置１０の機能構成例は、図１２と同様に、文脈ベクトル計算モデルとスコア計算モデルをそれぞれ「第１のモデル」、「第２のモデル」、文変換部２０２を実現するモデルを「第３のモデル」と表記している。また、文変換部２０２と文対応付け予測部２０３は１つのモデルＭで実現されており、第１のモデル～第３のモデルは当該モデルＭに含まれる構成としており、第１・第２のモデルパラメータ記憶部２０６Ａ及び第３のモデルパラメータ記憶部２０５Ａはモデルパラメータ記憶部２０７に含まれる構成としている。

【0118】

なお、上記の実施形態に係る文対応付け装置１０は、文対応付けの対象となる文書のドメインによっては精度が低下することがあるという従来手法の課題に対して特定の改善を提供するものであり、文対応付けに係る技術分野の精度向上を示すものである。

【0119】

以上の実施形態に関して、更に以下の付記を開示する。

【0120】

（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含む、
前記プロセッサは、
与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、学習済みの第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算し、
前記文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算する、
文対応付け装置。
（付記項２）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含む、
前記プロセッサは、
与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算し、
前記文脈ベクトルを用いて、第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算し、
前記スコアと、前記スコアに対する正解を表す正解スコアとの誤差を最小化するように、前記第１のパラメータと前記第２のパラメータとを学習する、
学習装置。
（付記項３）
前記プロセッサは、
与えられた文書対に含まれる文を入力として、第３のパラメータを設定した第３の機械学習モデルにより、前記文を、当該文の特徴を表す文ベクトルに変換し、
前記誤差を最小化するように、前記第１のパラメータと前記第２のパラメータと前記第３のパラメータとを学習する、
付記２に記載の学習装置。
（付記項４）
前記プロセッサは、
前記文脈ベクトルを用いて、１以上の連続する文の文脈ベクトルを表す複数文文脈ベクトルを計算し、
前記複数文文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記スコアを計算する、
付記項１に記載の文対応付け装置。
（付記項５）
前記プロセッサは、
前記文脈ベクトルを用いて、１以上の連続する文の文脈ベクトルを表す複数文文脈ベクトルを計算し、
前記複数文文脈ベクトルを用いて、前記第２のパラメータを設定した第２の機械学習モデルにより、前記スコアを計算し、
前記スコアと前記正解スコアとのバイナリ交差エントロピーを前記誤差として前記第１のパラメータと前記第２のパラメータとを学習する、又は、前記文書対に含まれる第１の文書から第２の文書への多クラス分類による文対応付けの損失と前記第２の文書から前記第１の文書への多クラス分類による文対応付けの損失との和を前記誤差として前記第１のパラメータと前記第２のパラメータとを学習する、
付記項２に記載の学習装置。
（付記項６）
文対応付け処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記文対応付け処理は、
与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、学習済みの第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算し、
前記文脈ベクトルを用いて、学習済みの第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算する、
非一時的記憶媒体。
（付記項７）
学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習処理は、
与えられた文書対に含まれる文の特徴を表す文ベクトルを用いて、第１のパラメータを設定した第１の機械学習モデルにより、前記文ベクトルに対応する文が含まれる文書における他の文に関する情報と、前記文ベクトルに対応する文が含まれない文書に関する情報とを文脈情報として考慮した文脈ベクトルを計算し、
前記文脈ベクトルを用いて、第２のパラメータを設定した第２の機械学習モデルにより、前記文書対に含まれる文書間で文又は文集合を対応付けるためのスコアを計算し、
前記スコアと、前記スコアに対する正解を表す正解スコアとの誤差を最小化するように、前記第１のパラメータと前記第２のパラメータとを学習する、
非一時的記憶媒体。

【0121】

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

【0122】

［参考文献］
参考文献１：Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, and Wei Wang. Language-agnostic BERT sentence embedding. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 878-891, Dublin, Ireland, May 2022. Association for Computational Linguistics.
参考文献２：Mikel Artetxe and Holger Schwenk. Margin-based parallel corpus mining with multilingual sentence embeddings. In Proceedings of the ACL-2019, pp. 3197-3203, 2019.
参考文献３：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.
参考文献４：Katsuki Chousa, Masaaki Nagata, and Masaaki Nishino. SpanAlign: Sentence alignment method based on cross-language span prediction and ILP. In Proceedings of the 28th International Conference on Computational Linguistics, pp. 4750-4761, Barcelona, Spain (Online), December 2020. International Committee on Computational Linguistics.
参考文献５：Yinfei Yang, Gustavo Hernandez Abrego, Steve Yuan, Mandy Guo, Qinlan Shen, Daniel Cer, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil. Improving multilingual sentence embedding using bi-directional dual encoder with additive margin softmax. arXiv preprint arXiv:1902.08564, 2019.
参考文献６：Masao Utiyama and Hitoshi Isahara. Reliable measures for aligning japanese-english news articles and sentences. In Proceedings of the ACL-2003, pp. 72-79, 2003.

【符号の説明】

【0123】

１０文対応付け装置
１０１入力装置
１０２表示装置
１０３外部Ｉ／Ｆ
１０３ａ記録媒体
１０４通信Ｉ／Ｆ
１０５ＲＡＭ
１０６ＲＯＭ
１０７補助記憶装置
１０８プロセッサ
１０９バス
２０１文対応付け問題生成部
２０２文変換部
２０３文対応付け予測部
２０４文対応生成部
２０５多言語言語モデルパラメータ記憶部
２０６文対応付けモデルパラメータ記憶部
２０７モデルパラメータ記憶部
２１１文脈ベクトル計算部
２１２スコア計算部
２１３複数文文脈ベクトル計算部
２１６文脈ベクトル計算モデルパラメータ記憶部
２２６スコア計算モデルパラメータ記憶部
３０１多言語言語モデル学習部
３０２疑似文対応付けデータ作成部
３０３文対応付け問題回答生成部
３０４文対応付けモデル学習部

【図1】