特許7586192 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7586192対応装置、学習装置、対応方法、学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-11

(45)【発行日】2024-11-19

(54)【発明の名称】対応装置、学習装置、対応方法、学習方法、及びプログラム

(51)【国際特許分類】

G06F 16/90 20190101AFI20241112BHJP

G06F 40/40 20200101ALI20241112BHJP

【ＦＩ】

G06F16/90 100

G06F40/40

【請求項の数】 8

(21)【出願番号】P 2022564967

(86)(22)【出願日】2020-11-27

(86)【国際出願番号】 JP2020044373

(87)【国際公開番号】W WO2022113306

(87)【国際公開日】2022-06-02

【審査請求日】2023-03-17

【新規性喪失の例外の表示】特許法第３０条第２項適用２０２０年４月２９日にｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２００４．１４５１６及び、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２００４．１４５１６．ｐｄｆにて公開２０２０年４月２９日にｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２００４．１４５１７及び、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２００４．１４５１７．ｐｄｆにて公開２０２０年１０月１９日にｈｔｔｐｓ：／／ｃｏｌｉｎｇ２０２０．ｏｒｇ／ｐａｇｅｓ／ａｃｃｅｐｔｅｄ＿ｐａｐｅｒｓ＿ｍａｉｎ＿ｃｏｎｆｅｒｅｎｃｅにて公開２０２０年１１月１０日にｈｔｔｐｓ：／／ａｃｌａｎｔｈｏｌｏｇｙ．ｏｒｇ／２０２０．ｅｍｎｌｐ－ｍａｉｎ．４１／及び、ｈｔｔｐｓ：／／ａｃｌａｎｔｈｏｌｏｇｙ．ｏｒｇ／２０２０．ｅｍｎｌｐ－ｍａｉｎ．４１．ｐｄｆにて公開２０２０年１１月１６日にｈｔｔｐｓ：／／ｖｉｒｔｕａｌ．２０２０．ｅｍｎｌｐ．ｏｒｇ／ｐａｐｅｒ＿ｍａｉｎ．１５０３．ｈｔｍｌ及び、ｈｔｔｐｓ：／／ａｃｌａｎｔｈｏｌｏｇｙ．ｏｒｇ／２０２０．ｅｍｎｌｐ－ｍａｉｎ．４１／及び、ｈｔｔｐｓ：／／ａｃｌａｎｔｈｏｌｏｇｙ．ｏｒｇ／２０２０．ｅｍｎｌｐ－ｍａｉｎ．４１．ｐｄｆ及び、ｈｔｔｐｓ：／／ｓｌｉｄｅｓｌｉｖｅ．ｃｏｍ／３８９３８９２３／ａ－ｓｕｐｅｒｖｉｓｅｄ－ｗｏｒｄ－ａｌｉｇｎｍｅｎｔ－ｍｅｔｈｏｄ－ｂａｓｅｄ－ｏｎ－ｃｒｏｓｓｌａｎｇｕａｇｅ－ｓｐａｎ－ｐｒｅｄｉｃｔｉｏｎ－ｕｓｉｎｇ－ｍｕｌｔｉｌｉｎｇｕａｌ－ｂｅｒｔにて公開

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】帖佐克己

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】西野正彬

【審査官】原秀人

(56)【参考文献】

【文献】特開２００５－２０８７８２（ＪＰ，Ａ）

【文献】国際公開第２０１５／１４５９８１（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１８／０３００３１２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ４０／２０－４０／５８

(57)【特許請求の範囲】

【請求項1】

第一ドメイン系列情報と第二ドメイン系列情報とを入力とし、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間のスパン予測問題を生成する問題生成部と、
前記第一ドメイン系列情報のドメインと前記第二ドメイン系列情報のドメインとの間のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記問題生成部により生成された前記スパン予測問題の回答となるスパンを予測するスパン予測部と
を備える対応装置。

【請求項2】

前記スパン予測モデルは、前記データを用いて事前学習済みモデルの追加学習を行うことにより得られたモデルである
請求項１に記載の対応装置。

【請求項3】

前記第一ドメイン系列情報及び前記第二ドメイン系列情報における系列情報は文書であり、
前記第一ドメイン系列情報から前記第二ドメイン系列情報へのスパン予測における第一スパンの質問により第二スパンを予測する確率と、前記第二ドメイン系列情報から前記第一ドメイン系列情報へのスパン予測における、前記第二スパンの質問により前記第一スパンを予測する確率とに基づいて、前記第一スパンの文集合と前記第二スパンの文集合とが対応するか否かを判断する対応生成部
を備える請求項１又は２に記載の対応装置。

【請求項4】

前記対応生成部は、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間の文集合の対応関係のコストの和が最小となるように、整数線形計画問題を解くことによって、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間の文集合の対応を生成する
請求項３に記載の対応装置。

【請求項5】

第一ドメイン系列情報に含まれるスパンと第二ドメイン系列情報に含まれるスパンとの対応を示す対応データから、スパン予測問題とその回答とを有するデータを生成する問題回答生成部と、
前記データを用いて、スパン予測モデルを生成する学習部と
を備える学習装置。

【請求項6】

対応装置が実行する対応方法であって、
第一ドメイン系列情報と第二ドメイン系列情報とを入力とし、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間のスパン予測問題を生成する問題生成ステップと、
前記第一ドメイン系列情報のドメインと前記第二ドメイン系列情報のドメインとの間のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記問題生成ステップにより生成された前記スパン予測問題の回答となるスパンを予測するスパン予測ステップと
を備える対応方法。

【請求項7】

学習装置が実行する学習方法であって、
第一ドメイン系列情報に含まれるスパンと第二ドメイン系列情報に含まれるスパンとの対応を示す対応データから、スパン予測問題とその回答とを有するデータを生成する問題回答生成ステップと、
前記データを用いて、スパン予測モデルを生成する学習ステップと
を備える学習方法。

【請求項8】

コンピュータを、請求項１ないし４のうちいずれか１項に記載の対応装置における各部として機能させるためのプログラム、又は、コンピュータを、請求項５に記載の学習装置における各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、互いに対応関係にある２つの文書において互いに対応している文集合（１つ又は複数の文）の対を同定する技術に関連するものである。

【背景技術】

【0002】

互いに対応関係にある２つの文書において互いに対応している文集合の対を同定することを文対応（ｓｅｎｔｅｎｃｅａｌｉｇｎｍｅｎｔ）という。文対応付けシステムは一般に、２つの文書の文同士の類似度スコアを計算する機構と、その機構で得られた文対応の候補とそのスコアから文書全体の文対応を同定する機構から構成される。

【先行技術文献】

【非特許文献】

【0003】

【文献】Brian Thompson and Philipp Koehn. Vecalign: Improved sentence alignment in linear time and space. In Proceedings of EMNLP-2019, pp. 1342-1348, 2019.

【発明の概要】

【発明が解決しようとする課題】

【0004】

文対応を行う従来技術では、文同士の類似度計算を行う際に文脈情報を用いない。更に、近年では、ニューラルネットワークによる文のベクトル表現によって類似度計算を行う方法が高い精度を達成しているが、この方法では文を一度１つのベクトル表現に変換するために単語単位の情報をうまく活用することが出来ない。そのため精度が良くないという問題がある。

【0005】

すなわち、従来技術では、互いに対応関係にある２つの文書において互いに対応している文集合の対を同定する文対応を精度良く行うことができなかった。なお、このような課題は文書に限られない系列情報においても生じ得る課題である。

【0006】

本発明は上記の点に鑑みてなされたものであり、２つの系列情報において互いに対応している情報の対を同定する対応処理を精度良く行うことを可能とする技術を提供することを目的とする。

【課題を解決するための手段】

【0007】

開示の技術によれば、第一ドメイン系列情報と第二ドメイン系列情報とを入力とし、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間のスパン予測問題を生成する問題生成部と、
前記第一ドメイン系列情報のドメインと前記第二ドメイン系列情報のドメインとの間のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記問題生成部により生成された前記スパン予測問題の回答となるスパンを予測するスパン予測部と
を備える対応装置が提供される。

【発明の効果】

【0008】

開示の技術によれば、２つの系列情報において互いに対応している情報の対を同定する対応処理を精度良く行うことを可能とする技術が提供される。

【図面の簡単な説明】

【0009】

【図1】実施例１における装置構成図である。

【図2】処理の全体の流れを示すフローチャートである。

【図3】言語横断スパン予測モデルを学習する処理を示すフローチャートである。

【図4】文対応の生成処理を示すフローチャートである。

【図5】装置のハードウェア構成図である。

【図6】文対応データの例を示す図である。

【図7】各データセットでの平均文数及びトークン数を示す図である。

【図8】対応関係全体でのＦ_１ｓｃｏｒｅを示す図である。

【図9】対応関係中の原言語及び目的言語の文の数毎に評価した文対応付け精度を示す図である。

【図10】学習に使用する対訳文対の量を変化させた際の翻訳精度の比較結果を示す図である。

【図11】実施例２における装置構成図である。

【図12】処理の全体の流れを示すフローチャートである。

【図13】言語横断スパン予測モデルを学習する処理を示すフローチャートである。

【図14】単語対応の生成処理を示すフローチャートである。

【図15】単語対応データの例を示す図である。

【図16】英語から日本語への質問の例を示す図である。

【図17】スパン予測の例を示す図である。

【図18】単語対応の対称化の例を示す図である。

【図19】実験に使用したデータ数を示す図である。

【図20】従来技術と実施形態に係る技術との比較を示す図である。

【図21】対称化の効果を示す図である。

【図22】原言語単語の文脈の重要性を示す図である。

【図23】中英の訓練データの部分集合を用いて訓練した場合の単語対応精度を示す図である。

【発明を実施するための形態】

【0010】

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

【0011】

以下では、本実施の形態として、実施例１と実施例２を説明する。実施例１と実施例２では、主に、対応付けを異なる言語間のテキスト対を例にとって説明しているが、これは例であり、本発明は、異なる言語間のテキスト対の対応付けに限らず、同一言語のテキスト対の異なるドメイン間の対応付けにも適用可能である。同一言語のテキスト対の対応付けとしては、例えば、口語調の文／単語とビジネス調の文／単語との対応付け等がある。

【0012】

言語も「ドメイン」の一種であるので、異なる言語間のテキスト対の対応付けは、異なるドメイン間のテキスト対の対応付けの一例である。

【0013】

また、文、文書、文章はいずれもトークンの系列であり、これらを系列情報と呼んでもよい。また、本明細書において、「文集合」の要素である文の数は、複数であってもよいし、１つでもよい。

【0014】

（実施例１）
まず、実施例１を説明する。実施例１では、文対応の同定を行う問題を、ある言語の文書の連続する文集合に対応する別の言語の文書の連続する文集合（スパン）を独立に予測する問題（言語横断スパン予測）の集合として捉え、既存手法によって作成された疑似的な正解データからニューラルネットワークを用いて言語横断スパン予測モデルを学習して、その予測結果に対して線形計画問題の枠組みで数理最適化を行うことにより、高精度な文対応付けを実現することとしている。具体的には、後述する文対応装置１００が、この文対応に係る処理を実行する。なお、実施例１で使用する線形計画法は、より具体的には、整数線形計画法である。特に断らない限り、実施例１で使用する「線形計画法」は、「整数線形計画法」を意味する。

【0015】

以下では、まず、実施例１に係る技術を理解し易くするために、文対応に関連する参考技術について説明する。その後に、実施例１に係る文対応装置１００の構成及び動作を説明する。

【0016】

なお、実施例１の参考技術等に関連する参考文献の番号と文献名を、実施例１の最後にまとめて記載した。下記の説明において関連する参考文献の番号を"［１］"等のように示している。

【0017】

（実施例１：参考技術の説明）

【0018】

前述したように、文対応付けシステムは一般に、２つの文書の文同士の類似度スコアを計算する機構と、その機構で得られた文対応の候補とそのスコアから文書全体の文対応を同定する機構から構成される。

【0019】

前者の機構に関して、従来手法では文長［１］や対訳辞書［２，３，４］，機械翻訳システム［５］、多言語文ベクトル［６］（前述した非特許文献１）等に基づいた、文脈を考慮しない類似度を用いている。例えばＴｈｏｍｐｓｏｎら［６］は、ＬＡＳＥＲと呼ばれる手法によって言語に依存しない多言語文ベクトルを求め、そのベクトル間のコサイン類似度から文の類似度スコアを計算する手法を提案している。

【0020】

また、後者の文書全体の文対応を同定する機構に関しては、文対応の単調性を仮定した動的計画法（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：ＤＰ）による手法が、Ｔｈｏｍｐｓｏｎら［６］や内山ら［３］の手法等の多くの従来技術で用いられている。

【0021】

内山ら［３］は文書対応のスコアを考慮した文対応付け手法を提案している。この手法では、対訳辞書を用いて一方の言語の文書をもう一方の言語へと翻訳を行い、ＢＭ２５［７］に基づいて文書の対応付けを行う。次に、得られた文書のペアからＳＩＭと呼ばれる文間類似度とＤＰによる対応付けによって文対応を行う。ＳＩＭは２つの文書の間で対訳辞書によって１対１で対応する単語の相対的な頻度をもとに定義される。また、文書対応の信頼性を表すスコアＡＶＳＩＭとして対応する文書中の文対応のＳＩＭの平均を用い、最終的な文対応のスコアとしてＳＩＭとＡＶＳＩＭの積を用いる。これにより、文書の対応付けがあまり正確でない場合に対して頑強な文対応付けを行うことができる。この手法は英語と日本語の間の文対応付け手法として一般的に用いられている。

【0022】

（実施例１：課題について）
上述したような従来技術では、文同士の類似度計算を行う際に文脈情報を用いない。更に近年では、ニューラルネットによる文のベクトル表現によって類似度計算を行う方法が高い精度を達成しているが、これらの手法では文を一度１つのベクトル表現に変換するために単語単位の情報をうまく活用することが出来ない。そのため、文対応の精度を損なう場合がある。

【0023】

また、従来技術の多くは対応関係の単調性を仮定した動的計画法による全体最適化を行っている。しかし、実際の対訳文書の文対応は全てが単調なものではない。特に法律に関する文書には非単調な文対応が含まれていることが知られており、そのような文書に対して従来技術の手法は精度を損なうといった問題がある。

【0024】

以下、上記の問題を解決して、精度の高い文対応を可能とする技術を実施例１として説明する。

【0025】

（実施例１に係る技術の概要）
実施例１では、まず文対応付けを言語横断スパン予測の問題に変換する。少なくとも扱う言語の対に関する単言語データを用いて事前学習された多言語言語モデル（ｍｕｌｔｉｌｉｎｇｕａｌｌａｎｇｕａｇｅｍｏｄｅｌ）を、既存手法で作成した疑似的な文対応正解データを用いてファインチューンすることによって言語横断スパン予測を実現する。この際、モデルにはある文書の文ともう一方の文書が入力されるため、予測の際にスパン前後の文脈を考慮することができる。また、多言語言語モデルにｓｅｌｆ－ａｔｔｅｎｔｉｏｎと呼ばれる構造が用いられているものを使用することで、単語単位の情報を活用することができる。

【0026】

次に、文書全体で一貫性のある対応関係の同定を行うために、スパン予測による文対応の候補に対して、スコアの対称化を行った後に線形計画法で全体最適化を行う。これにより、非対称な言語横断スパン予測の結果の信頼性を向上させ、非単調な文対応を同定することができる。このような方法により、実施例１では高精度な文対応付けを実現する。

【0027】

（装置構成例）
図１に、実施例１における文対応装置１００と事前学習装置２００を示す。文対応装置１００は、実施例１に係る技術により、文対応処理を実行する装置である。事前学習装置２００は、多言語データから多言語モデルを学習する装置である。なお、文対応装置１００と、後述する単語対応装置３００はいずれも「対応装置」と呼んでもよい。

【0028】

図１に示すように、文対応装置１００は、言語横断スパン予測モデル学習部１１０と文対応実行部１２０とを有する。

【0029】

言語横断スパン予測モデル学習部１１０は、文書対応データ格納部１１１、文対応生成部１１２、文対応疑似正解データ格納部１１３、言語横断スパン予測問題回答生成部１１４、言語横断スパン予測疑似正解データ格納部１１５、スパン予測モデル学習部１１６、及び言語横断スパン予測モデル格納部１１７を有する。なお、言語横断スパン予測問題回答生成部１１４を問題回答生成部と呼んでもよい。

【0030】

文対応実行部１２０は、言語横断スパン予測問題生成部１２１、スパン予測部１２２、文対応生成部１２３を有する。なお、言語横断スパン予測問題生成部１２１を問題生成部と呼んでもよい。

【0031】

事前学習装置２００は、既存技術に係る装置である。事前学習装置２００は、多言語データ格納部２１０、多言語モデル学習部２２０、事前学習済み多言語モデル格納部２３０を有する。多言語モデル学習部２２０が、少なくとも文対応を求める対象となる二つの言語又はドメインの単言語テキストを多言語データ格納部２１０から読み出すことにより、言語モデルを学習し、当該言語モデルを事前学習済み多言語モデルとして、事前学習済み多言語モデル格納部２３０に格納する。

【0032】

実施例１では、何等かの手段で学習された事前学習済みの多言語モデルが言語横断スパン予測モデル学習部１１０に入力されればよいため、事前学習装置２００を備えずに、例えば、一般に公開されている汎用の事前学習済みの多言語モデルを用いることとしてもよい。

【0033】

実施例１における事前学習済み多言語モデルは、少なくとも文対応を求める対象となる各言語の単言語テキストを用いて事前に訓練された言語モデルである。本実施の形態では、当該言語モデルとして、ＸＬＭ－ＲｏＢＥＲＴａを使用するが、それに限定されない。ｍｕｌｔｉｌｉｎｇｕａｌＢＥＲＴ等、多言語テキストに対して単語レベルの情報及び文脈情報を考慮した予測ができる事前学習済み多言語モデルであればどのような言語モデルを使用してもよい。また、当該モデルは、多言語に対応可能であるため、「多言語モデル」と呼んでいるが、多言語で訓練を行うことが必須ではなく、例えば、同一言語の異なる複数のドメインのテキストを用いて事前学習を行ってもよい。

【0034】

なお、文対応装置１００を学習装置と呼んでもよい。また、文対応装置１００は、言語横断スパン予測モデル学習部１１０を備えずに、文対応実行部１２０を備えてもよい。また、言語横断スパン予測モデル学習部１１０が単独で備えられた装置を学習装置と呼んでもよい。

【0035】

（文対応装置１００の動作概要）
図２は、文対応装置１００の全体動作を示すフローチャートである。Ｓ１００において、言語横断スパン予測モデル学習部１１０に、事前学習済み多言語モデルが入力され、言語横断スパン予測モデル学習部１１０は、事前学習済み多言語モデルに基づいて、言語横断スパン予測モデルを学習する。

【0036】

Ｓ２００において、文対応実行部１２０に、Ｓ１００で学習された言語横断スパン予測モデルが入力され、文対応実行部１２０は、言語横断スパン予測モデルを用いて、入力文書対における文対応を生成し、出力する。

【0037】

＜Ｓ１００＞
図３のフローチャートを参照して、上記のＳ１００における言語横断スパン予測モデルを学習する処理を説明する。図３のフローチャートの前提として、事前学習済み多言語モデルが既に入力され、言語横断スパン予測モデル学習部１１０の記憶装置に事前学習済み多言語モデルが格納されているとする。また、文対応疑似正解データ格納部１１１には、文対応疑似正解データが格納されているとする。

【0038】

Ｓ１０１において、言語横断スパン予測問題回答生成部１１４は、文対応の疑似正解データ格納部１１３から、文対応疑似正解データを読み出し、読み出した文対応疑似正解データから言語横断スパン予測疑似正解データ、すなわち言語横断スパン予測問題とその疑似回答の対を生成し、言語横断スパン予測疑似正解データ格納部１１３に格納する。

【0039】

ここで、文対応の疑似正解データは、例えば、第一言語と第二言語との間で文対応を求めるとした場合に、第一言語の文書と、それに対応する第二言語の文書と、第一言語の文集合と第二言語の文集合との対応を示すデータとを有する。第一言語の文集合と第二言語の文集合との対応を示すデータとは、例えば、第一言語の文書＝（文１、文２、文３、文４）、第二言語の文書＝（文５、文６、文７、文８）である場合に、（文１、文２）と（文６、文７）が対応し、（文１、文２）と、（文５、文６）が対応するといった対応を示すデータである。

【0040】

上記のように実施例１では文対応の疑似正解データを使用している。文対応の疑似正解データは、人手もしくは自動的に対応付けした文書対のデータから既存手法を用いて文対応付けされたものである。

【0041】

図１に示す構成例では、文書対応データ格納部１１１に、人手もしくは自動的に対応付けした文書対のデータが格納されている。当該データは、文対応を求める文書対と同じ言語（又はドメイン）で構成される文書対応データである。この文書対応データから、文対応生成部１１２が、既存手法により文対応疑似正解データを生成している。より、具体的には、参考技術で説明した内山ら［３］の技術を用いて文対応を求めている。つまり、文書対からＳＩＭと呼ばれる文間類似度とＤＰによる対応付けによって文対応を求める。

【0042】

なお、文対応疑似正解データに代えて、人手により作成された文対応の正解データを使用してもよい。また、「疑似正解データ」と「正解データ」を総称して「正解データ」と称してもよい。

【0043】

Ｓ１０２において、スパン予測モデル学習部１１６は、言語横断スパン予測疑似正解データ及び事前学習済み多言語モデルから言語横断スパン予測モデルを学習し、学習した言語横断スパン予測モデルを言語横断スパン予測モデル格納部１１７に格納する。

【0044】

＜Ｓ２００＞
次に、図４のフローチャートを参照して、上記のＳ２００における文対応を生成する処理の内容を説明する。ここでは、スパン予測部１２２に言語横断スパン予測モデルが既に入力され、スパン予測部１２２の記憶装置に格納されているものとする。

【0045】

Ｓ２０１において、言語横断スパン予測問題生成部１２１に、文書対を入力する。Ｓ２０２において、言語横断スパン予測問題生成部１２１は、入力された文書対から言語横断スパン予測問題を生成する。

【0046】

次に、Ｓ２０３において、スパン予測部１２２は、言語横断スパン予測モデルを用いて、Ｓ２０２で生成された言語横断スパン予測問題に対してスパン予測を行って回答を得る。

【0047】

Ｓ２０４において、文対応生成部１２３は、Ｓ２０３で得られた言語横断スパン予測問題の回答から、全体最適化を行って、文対応を生成する。Ｓ２０５において、文対応生成部１２３は、Ｓ２０４で生成した文対応を出力する。

【0048】

なお、本実施の形態における"モデル"は、ニューラルネットワークのモデルであり、具体的には、重みのパラメータ、関数等からなるものである。

【0049】

（ハードウェア構成例）
実施例１における文対応装置と学習装置、及び実施例２における単語対応装置と学習装置（これらを総称して「装置」と呼ぶ）はいずれも、例えば、コンピュータに、本実施の形態（実施例１、実施例２）で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。

【0050】

上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

【0051】

図５は、上記コンピュータのハードウェア構成例を示す図である。図５のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

【0052】

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0053】

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

【0054】

（実施例１：具体的な処理内容の説明）
以下、実施例１における文対応装置１００の処理内容をより具体的に説明する。

【0055】

＜文対応からスパン予測への定式化＞
実施例１では、文対応付けを、ＳＱｕＡＤ形式の質問応答タスク［８］と同様の言語横断スパン予測問題として定式化している。そこで、まず、文対応からスパン予測への定式化について、例を用いて説明する。文対応装置１００との関連では、ここでは主に言語横断スパン予測モデル学習部１１０における言語横断スパン予測モデルとその学習について説明している。

【0056】

ＳＱｕＡＤ形式の質問応答タスクを行う質問応答システムには、Ｗｉｋｉｐｅｄｉａから選択された段落等の「文脈（ｃｏｎｔｅｘｔ）」と「質問（ｑｕｅｓｔｉｏｎ）」が与えられ、質問応答システムは、文脈の中の「スパン（ｓｐａｎ）」を「回答（ａｎｓｗｅｒ）」として予測する。

【0057】

上記のスパン予測と同様にして、実施例１の文対応装置１００における文対応実行部１２０は、目的言語文書を文脈と見なし、原言語文書の中の文集合を質問と見なして、原言語文書の文集合の翻訳となっている、目的言語文書の中の文集合を、目的言語文書のスパンとして予測する。この予測には、実施例１における言語横断スパン予測モデルが用いられる。

【0058】

――言語横断スパン予測問題回答生成部１１４について――
実施例１では、文対応装置１００の言語横断スパン予測モデル学習部１１０において言語横断スパン予測モデルの教師あり学習を行うが、学習のためには正解データが必要である。実施例１では、言語横断スパン予測問題回答生成部１１４は、この正解データを、文対応疑似正解データから、疑似正解データとして生成する。

【0059】

図６に、実施例１における言語横断スパン予測問題と回答の例を示す。図６（ａ）は、ＳＱｕＡＤ形式の単言語質問応答タスクを示し、図６（ｂ）は、対訳文書からの文対応付けタスクを示す。

【0060】

図６（ａ）に示す言語横断スパン予測問題と回答は、文書及び質問（Ｑ）と、それに対する回答（Ａ）からなる。図６（ｂ）に示す言語横断スパン予測問題と回答は、英語の文書及び日本語の質問（Ｑ）と、それに対する回答（Ａ）からなる。

【0061】

一例として、対象とする文書対が英語文書と日本語文書であるとすると、図１に示した言語横断スパン予測問題回答生成部１１４は、文対応疑似正解データから、図６（ｂ）に示すような文書（文脈）及び質問と回答との組を複数生成する。

【0062】

後述するように、実施例１では、文対応実行部１２０のスパン予測部１２２が、言語横断スパン予測モデルを用いて、第一言語文書（質問）から第二言語文書（回答）への予測と、第二言語文書（質問）から第一言語文書（回答）への予測のそれぞれの方向についての予測を行う。従って、言語横断スパン予測モデルの学習時にも、このように双方向で予測を行えるように、双方向の疑似正解データを生成して、双方向の学習を行うこととしてもよい。

【0063】

なお、上記のように双方向で予測を行うことは一例である。第一言語文書（質問）から第二言語文書（回答）への予測のみ、又は、第二言語文書（質問）から第一言語文書（回答）への予測のみの片方向だけの予測を行うこととしてもよい。

【0064】

――言語横断スパン予測問題の定義について――
実施例１における言語横断スパン予測問題の定義をより詳細に説明する。長さＮのトークンからなる原言語文書ＦをＦ＝｛ｆ_１，ｆ_２，...，ｆ_Ｎ｝とし、長さＭのトークンからなる目的言語文書ＥをＥ＝｛ｅ_１，ｅ_２，...，ｅ_Ｍ｝とする。

【0065】

実施例１における言語横断スパン予測問題は、原言語文書Ｆにおいてｉトークン目からｊトークン目までのトークンからなる原言語文Ｑ＝｛ｆ_ｉ，ｆ_ｉ＋１，...，ｆ_ｊ｝に対して、目的言語文書Ｅ中のスパン（ｋ，ｌ）の目的言語テキストＲ＝｛ｅ_ｋ，ｅ_ｋ＋１，...，ｅ_ｌ｝を抽出することである。なお、「原言語文Ｑ」は、１つの文でもよいし、複数の文でもよい。

【0066】

実施例１における文対応付けでは、１つの文と１つの文との対応付けのみならず、複数の文と複数の文との対応付けが可能である。実施例１では、原言語文書中の任意の連続した文を原言語文Ｑとして入力とすることで、１対１と多対多の対応を同じ枠組みで扱うことができる。

【0067】

――スパン予測モデル学習部１１６について――
スパン予測モデル学習部１１６は、言語横断スパン予測疑似正解データ格納部１１５から読み出した疑似正解データを用いて、言語横断スパン予測モデルの学習を行う。すなわち、スパン予測モデル学習部１１６は、言語横断スパン予測問題（質問と文脈）を言語横断スパン予測モデルに入力し、言語横断スパン予測モデルの出力が正解（疑似正解）の回答になるように、言語横断スパン予測モデルのパラメータを調整する。このパラメータの調整は既存技術で行うことができる。

【0068】

学習された言語横断スパン予測モデルは、言語横断スパン予測モデル格納部１１７に格納される。また、文対応実行部１２０により、言語横断スパン予測モデル格納部１１７から言語横断スパン予測モデルが読み出され、スパン予測部１２２に入力される。

【0069】

――事前学習済みモデルＢＥＲＴについて――
ここで、実施例１において事前学習済み多言語モデルとして使用することが想定される事前学習済みモデルＢＥＲＴについて説明する。ＢＥＲＴ［９］は、Ｔｒａｎｓｆｏｒｍｅｒに基づくエンコーダを用いて、入力系列の各単語に対して前後の文脈を考慮した単語埋め込みベクトルを出力する言語表現モデル（ｌａｎｇｕａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｍｏｄｅｌ）である。典型的には、入力系列は一つの文、又は、二つの文を、特殊記号を挟んで連結したものである。

【0070】

ＢＥＲＴでは、入力系列の中でマスクされた単語を、前方及び後方の双方向から予測する穴埋め言語モデル（ｍａｓｋｅｄｌａｎｇｕａｇｅｍｏｄｅｌ）を学習するタスク、及び、与えられた二つの文が隣接する文であるか否かを判定する次文予測（ｎｅｘｔｓｅｎｔｅｎｃｅｐｒｅｄｉｃｔｉｏｎ）タスクを用いて、大規模な言語データから言語表現モデル（ｌａｎｇｕａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｍｏｄｅｌ）を事前学習（ｐｒｅ－ｔｒａｉｎ）する。このような事前学習タスクを用いることにより、ＢＥＲＴは、一つの文の内部だけなく二つの文にまたがる言語現象に関する特徴を捉えた単語埋め込みベクトルを出力することができる。なおＢＥＲＴのような言語表現モデルを単に言語モデル（ｌａｎｇｕａｇｅｍｏｄｅｌ）と呼ぶこともある。

【0071】

事前学習されたＢＥＲＴに適当な出力層を加え、対象とするタスクの学習データでファインチューン（ｆｉｎｅｔｕｎｅ）すると、テキスト意味類似度、自然言語推論（テキスト含意認識）、質問応答、固有表現抽出等様々なタスクで最高精度を達成できることが報告されている。なお、上記のファインチューンとは、例えば、事前学習済みのＢＥＲＴのパラメータを、目的のモデル（ＢＥＲＴに適当な出力層を加えたモデル）の初期値として使用して、目的のモデルの学習を行うことである。

【0072】

意味テキスト類似度、自然言語推論、質問応答のような文の対を入力とするタスクでは、'［ＣＬＳ］第１文［ＳＥＰ］第２文［ＳＥＰ］'のように二つの文を、特殊記号を用いて連結した系列をＢＥＲＴに入力として与える。ここで［ＣＬＳ］は二つの入力文の情報を集約するベクトルを作成するための特殊なトークンであり、分類トークン（ｃｌａｓｓｉｆｉｃａｔｉｏｎｔｏｋｅｎ）と呼ばれ、［ＳＥＰ］は文の区切りを表すトークンであり、分割トークン（ｓｅｐａｒａｔｏｒｔｏｋｅｎ）と呼ばれる。

【0073】

質問応答（ｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ，ＱＡ）のように入力された二つの文に対して片方の文に基づいて他方の文のスパンを予測するタスクでは、［ＣＬＳ］に対してＢＥＲＴが出力するベクトルから他方の文に抽出すべきスパンが存在するか否かを予測し、他方の文の各単語に対してＢＥＲＴが出力するベクトルからその単語が抽出すべきスパンの開始点になる確率とその単語が抽出すべきスパンの終了点となる確率を予測する。

【0074】

ＢＥＲＴはもともと英語を対象として作成されたが、現在では日本語をはじめ様々な言語を対象としたＢＥＲＴが作成され一般に公開されている。またＷｉｋｉｐｅｄｉａから１０４言語の単言語データを抽出し、これを用いて作成された汎用多言語モデルｍｕｌｔｉｌｉｎｇｕａｌＢＥＲＴが一般に公開されている。

【0075】

更に対訳文を用いて穴埋め言語モデルにより事前学習した言語横断（ｃｒｏｓｓｌａｎｇｕａｇｅ）言語モデルＸＬＭが提案され、言語横断テキスト分類等の応用ではｍｕｌｔｉｌｉｎｇｕａｌＢＥＲＴより精度が高いと報告されており、事前学習済みのモデルが一般に公開されている。

【0076】

――言語横断スパン予測モデルについて――
実施例１における言語横断スパン予測モデルは、学習時及び文対応実行時のそれぞれにおいて、目的言語文書Ｅ中から原言語文Ｑに対応する目的言語テキストＲのスパン（ｋ，ｌ）を選択する。

【0077】

文対応実行部１２０の文対応生成部１２３（又はスパン予測部１２２）において、原言語文Ｑのスパン（ｉ，ｊ）から目的言語テキストＲのスパン（ｋ，ｌ）への対応スコアω_ｉｊｋｌを、開始位置の確率ｐ_１と終了位置の確率ｐ_２の積を用いて、次のように算出する。

【0078】

【数1】

ｐ_１とｐ_２の計算のために、実施例１では上述したＢＥＲＴ［９］を基とした事前学習済み多言語モデルを用いる。これらのモデルは複数言語における単言語での言語理解タスクのために作成されたものであるが、言語横断タスクに対しても驚くほどうまく機能する。

【0079】

実施例１の言語横断スパン予測モデルには、原言語文Ｑと目的言語文書Ｅが結合されて、次のような１つの系列データが入力される。

【0080】

［ＣＬＳ］原言語文Ｑ［ＳＥＰ］目的言語文書Ｅ［ＳＥＰ］
実施例１の言語横断スパン予測モデルは、事前学習済み多言語モデルに対して２つの独立した出力層を加えたものに対して、目的言語文書と原言語文書との間でスパンを予測するタスクの学習データでファインチューンしたモデルである。これらの出力層は目的言語文書中の各トークン位置がそれぞれ回答スパンの開始位置になる確率ｐ_１もしくは終了位置になる確率ｐ_２を予測する。

【0081】

＜スパン予測について＞
次に、文対応実行部１２０の動作を詳細に説明する。

【0082】

――言語横断スパン予測問題生成部１２１、スパン予測部１２２について――
言語横断スパン予測問題生成部１２１は、入力された文書対（原言語文書と目的言語文書）に対し、"［ＣＬＳ］原言語文Ｑ［ＳＥＰ］目的言語文書Ｅ［ＳＥＰ］"の形式のスパン予測問題を原言語文Ｑ毎に作成し、スパン予測部１２２へ出力する。

【0083】

後述するように、実施例１では、双方向の予測を行うことから、文書対を第一言語文書と第二言語文書であるとすると、言語横断スパン予測問題生成部１２１により、第一言語文書（質問）から第二言語文書（回答）へのスパン予測の問題と、第二言語文書（質問）から第一言語文書（回答）へのスパン予測の問題が生成されることとしてもよい。

【0084】

スパン予測部１２２は、言語横断スパン予測問題生成部１２１により生成された各問題（質問と文脈）を入力することで、質問毎に回答（予測されたスパン）と確率ｐ_１、ｐ_２を算出し、質問毎の回答（予測されたスパン）と確率ｐ_１、ｐ_２を文対応生成部１２３に出力する。

【0085】

――文対応生成部１２３について――
文対応生成部１２３は、例えば、原言語文に対する最も良い回答スパン（＾ｋ，＾ｌ）を、次のように、対応スコアω_ｉｊｋｌを最大化するスパンとして選択することができる。文対応生成部１２３は、この選択結果と原言語文とを文対応として出力してもよい。

【0086】

【数2】

ただし、実際の対訳文書（文対応実行部１２０に入力される文書対）には、ある言語の文書の原言語文Ｑに対応する箇所が他方の文書にないものがノイズとして存在する場合がある。そこで、実施例１では、原言語文に対応する目的言語テキストが存在するのかどうかを決定することができる。

【0087】

より具体的には、実施例１では、文対応生成部１２３は、"［ＣＬＳ］"の位置で予測された値を用いて対応なしスコアφ_ｉｊを計算し、このスコアとスパンの対応スコアω_ｉｊｋｌの大小によって、対応する目的言語テキストが存在するかを決定することができる。例えば、文対応実行部１２０は、対応する目的言語テキストが存在しない原言語文を、文対応生成のための原言語文として使用しないこととしてもよい。

【0088】

ここで、「"［ＣＬＳ］"の位置で予測された値を用いて対応なしスコアφ_ｉｊを計算」することは、実質的に、言語横断スパン予測モデルへ入力する系列データの中の"［ＣＬＳ］"の（開始位置，終了位置）を回答スパンと見なした場合の対応スコアω_ｉｊｋｌをスコアφ_ｉｊとすることに相当する。

【0089】

言語横断スパン予測モデルによって予測された回答スパンは必ずしも文書における文の境界と一致していないが、文対応付けのための最適化や評価を行うには予測結果を文の系列へと変換する必要がある。そこで、実施例１では、文対応生成部１２３が、予測された回答スパンに完全に含まれている最も長い文の系列を求め、その系列を文レベルでの予測結果とする。

【0090】

――文対応生成部１２３による線形計画法による予測スパンの最適化―――
次に、文対応生成部１２３により実行される、前述した対応スコアから精度良く多対多の対応関係を同定する方法の例について説明する。以下では、当該方法に対する課題と、当該方法の詳細処理を説明する。

【0091】

＜課題＞
言語横断スパン予測モデルを用いた言語横断スパン予測によって得られた文対応付け（例：式（２）で得られた文対応付け）を直接使用する場合には以下のような課題がある。

【0092】

・言語横断スパン予測モデルが独立に目的言語テキストのスパンを予測するため、予測された多くの対応関係でスパンの重複が起きる。

【0093】

・多対多の対応関係を同定するにあたって入力される原言語文のスパンの決定が非常に重要であるが、適切なスパンを選択する方法が自明でない。

【0094】

＜対応関係同定方法の詳細＞
これらの問題を解決するために、実施例１では線形計画法を導入する。線形計画法による全体最適化により、スパンの一貫性を確保し、文書全体での対応関係のスコアの最大化を行うことができる。事前実験により、スコアの最大化よりも、スコアをコストへと変換してそのコストの最小化を行ったほうが高い精度を達成したため、実施例１では最小化問題として定式化を行う。

【0095】

また、言語横断スパン予測問題はそのままでは非対称であることから、実施例１では、原言語文書と目的言語文書を入れ替えて同様のスパン予測問題を解くことで同様の対応スコアω´_ｉｊｋｌと対応なしスコアφ´_ｋｌを計算し、同じ対応関係に対して最大で２方向の予測結果を得ることとしている。２方向のスコアの両方を用いて対称化することは予測結果の信頼性を高め、文対応付けの精度向上につながることが期待できる。

【0096】

第一言語文書を原言語文書とし、第二言語文書を目的言語文書とした場合、第一言語文書の原言語文のスパン（ｉ，ｊ）から第二言語文書の目的言語テキストのスパン（ｋ，ｌ）への対応スコアがω_ｉｊｋｌであり、第二言語文書を原言語文書とし、第一言語文書を目的言語文書として、第二言語文書の原言語文のスパン（ｋ，ｌ）から第一言語文書の目的言語テキストのスパン（ｉ，ｊ）への対応スコアがω´_ｉｊｋｌである。また、φ_ｉｊは、第一言語文書のスパン（ｉ，ｊ）に対応する第二言語文書のスパンがないことを示すスコアであり、φ´_ｋｌは、第二言語文書のスパン（ｋ，ｌ）に対応する第一言語文書のスパンがないことを示すスコアである。

【0097】

本実施の形態では、ω_ｉｊｋｌとω´_ｉｊｋｌの重み付き平均の形で対称化したスコアを以下のように定義する。

【0098】

【数3】

上記の式３において、λはハイパーパラメータであり、λ＝０もしくはλ＝１のときにはスコアは単方向、λ＝０．５のときには双方向のスコアとなる。

【0099】

実施例１では、文対応を各文書でスパンの重複のないスパン対の集合として定義し、文対応生成部１２３は、対応関係のコストの和が最小となるような集合を見つける問題を線形計画法によって解くことで文対応の同定を行う。実施例１における線形計画法の定式化は次のとおりである。

【0100】

【数4】

【0101】

【数5】

【0102】

【数6】

【0103】

【数7】

上記の式（４）におけるｃ_ｉｊｋｌは、Ω_ｉｊｋｌから後述する式（８）により計算される対応関係のコストであり、対応関係のスコアΩ_ｉｊｋｌが小さくなり、スパンに含まれる文の数が多くなると大きくなるようなコストである。

【0104】

ｙ_ｉｊｋｌは、スパン（ｉ，ｊ）と（ｋ，ｌ）が対応関係であるかどうかを表す二値変数であり、値が１のときに対応しているとする。ｂ_ｉｊ，ｂ′_ｋｌはスパン（ｉ，ｊ）及び（ｋ，ｌ）がそれぞれ対応なしであるかどうかを表す二値変数であり、値が１のときに対応なしとする。式（４）のΣφ_ｉｊｂ_ｉｊ、Σφ´_ｋｌｂ´_ｋｌとはいずれも、対応なしが多くなると増加するコストである。

【0105】

式（６）は、原言語文書中の各文に対して、その文が対応関係中の１つのスパン対にしか出現しないことを保証する制約である。また、式（７）は目的言語文書に対して同様な制約となっている。この２つの制約により、各文書でスパンの重複がなく、各文が対応なしを含めて何かしらの対応関係に紐づくことが保証される。

【0106】

式（６）において、任意のｘは、任意の原言語文に相当する。式（６）は、任意の原言語文ｘを含む全てのスパンに対して、それらスパンに対する任意の目的言語スパンへの対応とｘが対応なしのパターンとの総和が１になるという制約を、すべての原言語文に対して課していることを意味する。式（７）も同様である。

【0107】

対応関係のコストｃ_ｉｊｋｌは、スコアΩから次のように計算される。

【0108】

【数8】

上記の式（８）におけるｎＳｅｎｔｓ（ｉ，ｊ）はスパン（ｉ，ｊ）に含まれる文の数を表す。文の数の和の平均として定義される係数は多対多の対応関係が抽出されるのを抑制させる働きを持つ。これは、１対１の対応関係が複数存在した際に、それらが１つの多対多の対応関係として抽出されると対応関係の一貫性が損なわれることを緩和する。

【0109】

１つの原言語文を入力した際に得られる目的言語テキストのスパンの候補とそのスコアω_ｉｊｋｌは、目的言語文書のトークン数の２乗に比例する数だけ存在する。その全てを候補として計算しようとすると計算コストが非常に大きくなってしまうため、実施例１では各原言語文に対してスコアの高い少数の候補のみを線形計画法による最適化計算に使用する。例えば、予めＮ（Ｎ≧１）を定め、各原言語文に対してスコアの最も高いものからＮ個を使用することとしてもよい。

【0110】

事前実験では、各入力に対して使用する候補を１つから増やしても文対応付け精度の向上が見られなかったため、後述する実験では最もスコアの高い候補のみを各原言語文に対するスパンの候補として使用した。

【0111】

―――文書対応情報を考慮した低品質データのフィルタリング―――
文対応付けによって抽出された対訳文データを下流タスクで実際に使用する際、しばしば文対応のスコアやコストに応じて低品質な対訳文を取り除くことがある。この低品質な対応関係の原因の一つとして、自動で抽出された対訳文書の対応関係が間違っていることがあり、信頼性が高くないことが挙げられる。しかし、これまでに説明した文対応のスコアやコストは文書対応の精度を考慮したものではない。

【0112】

そこで、実施例１では文書対応コストｄを導入し、文対応生成部１２３が、文書対応コストｄ及び文対応コストｃ_ｉｊｋｌの積に応じて低品質な対訳文を取り除くこととしてもよい。文書対応コストｄは、式（４）を抽出した文対応の数で割ることにより、次のようにして算出される。

【0113】

【数9】

対応関係のコストの和が大きく、抽出した文対応の数が少ない場合に、ｄが大きくなる。ｄが大きい場合、文書対応の精度が悪いと推測できる。

【0114】

低品質な対訳文を取り除くこと関して、例えば、文対応実行部１２０に、第一言語の文書１と第二言語の文書２を入力して、文対応生成部１２３が、文対応付けされた１以上の対訳文データを得る。文対応生成部１２３は、例えば、得られた対訳文データのうち、ｄ×ｃ_ｉｊｋｌが閾値よりも大きいものは低品質であると判断し、使用しない（取り除く）。このような処理の他、ｄ×ｃ_ｉｊｋｌの値が小さい順に一定数の対訳文データだけを使用することとしてもよい。

【0115】

（実施例１の効果）
実施例１で説明した文対応装置１００により、従来よりも高精度な文対応付けを実現できる。また、抽出した対訳文は機械翻訳モデルの翻訳精度の向上に寄与する。以下、これらの効果を示す、文対応付け精度及び機械翻訳精度についての実験について説明する。以下、文対応付け精度についての実験を実験１とし、機械翻訳精度についての実験を実験２として説明する。

【0116】

＜実験１：文対応付け精度の比較＞
実際の日本語と英語の新聞記事の自動対訳文書を用いて、実施例１の文対応付け精度での評価を行った。最適化手法の異なりによる精度の差を確認するため、動的計画法（ＤＰ）［１］と線形計画法（ＩＬＰ、実施例１の手法）の２つの方法で言語横断スパン予測の結果を最適化し、比較を行った。また、ベースラインには、様々な言語において最高精度を達成しているＴｈｏｍｐｓｏｎらの手法［６］及び日本語と英語の間でのデファクト・スタンダードな手法である内山ら［３］の手法を使用した。

【0117】

評価尺度としては、文対応付けでの一般的な尺度であるＦ_１ｓｃｏｒｅを用いた。具体的には、「https://github.com/thompsonb/vecalign/blob/master/score.py」のスクリプト中のｓｔｒｉｃｔの値を使用した。この尺度は正解と予測の対応関係の間の完全一致の個数に応じて計算される。一方で、自動抽出された対訳文書には対応関係のない文がノイズとして含まれているのにも関わらず、この尺度は対応関係がない文の抽出精度を直接評価しない。そこで、更に詳細な分析を行うために、対応関係の原言語及び目的言語の文の数毎のＰｒｅｃｉｓｉｏｎ／Ｒｅｃａｌｌ／Ｆ_１ｓｃｏｒｅによる評価も行った。

【0118】

＜実験１：実験データ＞
実験１の実験には、読売新聞とその英語版であるThe Japan News（前the Daily Yomiuri)の新聞記事を購入し、使用した。これらのデータから自動及び手動で文対応付けデータセットを作成した。

【0119】

まず、２０１２年に発行された日本語記事３１７，４９１件及び英語記事３，８７８件から、内山ら［３］の手法を用いて自動的に２，９８９件の文書対応データを作成した。その文書対応データに対して内山ら［３］の手法を用いて文対応付けを行い、その文対応疑似正解データを言語横断スパン予測モデルの学習データとして使用した。

【0120】

開発用及び評価用のデータには、２０１３／０２／０１－２０１３／０２／０７及び２０１３／０８／０１－２０１３／０８／０７の間の英語記事１８２件から、それに対応する日本語記事を人手で探すことで、１３１件の記事と２６件の社説からなる１５７件の対訳文書を作成した。次に、各対訳文書から人手で文対応付けを行い、２，２４３件の多対多の文対応データが得られた。本実験では、そのデータのうちの１５件の記事を開発用、別の１５件の記事を評価用とし、残りのデータに関してはリザーブとした。図７に各データセットでの平均文数およびトークン数を示す。

【0121】

＜実験１：実験結果＞
図８に対応関係全体でのＦ_１ｓｃｏｒｅを示す。最適化手法によらず言語横断スパン予測での結果はベースラインよりも高い精度を示している。このことから、言語横断スパン予測による文対応候補の抽出とスコア計算はベースラインよりも有効に働くことがわかる。また、双方向のスコアを用いた結果が単方向のスコアしか用いない結果よりも良いことから、スコアの対称化は文対応付けに対して非常に効果的であることが確認できる。次に、ＤＰとＩＬＰのスコアを比べると、ＩＬＰのほうが遥かに高い精度を達成している。このことから、ＩＬＰによる最適化は単調性を仮定したＤＰによる最適化よりも良い文対応の同定が行えることがわかる。

【0122】

図９に対応関係中の原言語及び目的言語の文の数毎に評価した文対応付け精度を示す。図９において、Ｎ行Ｍ列の値はＮ対Ｍの対応関係のＰｒｅｃｉｓｉｏｎ／Ｒｅｃａｌｌ／Ｆ_１ｓｃｏｒｅを表す。また、ハイフンはテストセット中にその対応関係が存在しないことを示す。

【0123】

こちらにおいても、言語横断スパン予測による文対応の結果は全ての対においてベースラインの結果を上回っている。更に、１対２の対応関係を除いて、ＩＬＰによる最適化での精度はＤＰによるものよりも高い。特に、対応関係が無い文（１対０及び０対１）に対するＦ_１スコアが８０．０及び９５．１と非常に高く、ベースラインと比較すると非常に大きな改善が見られる。この結果は、実施例１の技術により、対応関係の無い文を非常に高い精度で同定でき、そのような文が含まれる対訳文書において非常に有効であることを示している。

【0124】

なお、本実験ではＮＶＩＤＩＡＴｅｓｌａＫ８０（１２ＧＢ）を用いた。テストセットにおいて、各入力に対するスパンの予測にかかる時間は約１．９秒であり、文書に対して線形計画法による最適化にかかる平均時間は０．３９秒であった。従来、時間計算量の観点から線形計画法よりも小さい計算量となる動的計画法が用いられてきたが、これらの結果から線形計画法においても実用的な時間で最適化を行えることがわかる。

【0125】

＜実験２：機械翻訳精度での比較＞
次に、実験２について説明する。文対応付けによって抽出される対訳文データは機械翻訳システムを主とした言語横断モデルの学習に不可欠である。そこで、実施例１の下流タスクでの有効性を評価するため、実際の新聞記事データから自動抽出した対訳文を用いて、日英機械翻訳モデルでの精度比較実験を行った。本実験では、次の５つの手法の比較を行った。丸括弧内は図１０中の凡例での表記を表す。

【0126】

・言語横断スパン予測＋ＩＬＰ（ＩＬＰｗ／ｏｄｏｃ）
・言語横断スパン予測＋ＩＬＰ＋文書対応コスト（ＩＬＰ）
・言語横断スパン予測＋ＤＰ（ｍｏｎｏｔｏｎｉｃＤＰ）
・Ｔｈｏｍｐｓｏｎらの手法［６］（ｖｅｃａｌｉｇｎ）
・内山らの手法［３］（ｕｔｉｙａｍａ）
実験２の実験に際しては、ＪＰａｒａＣｒａｗｌコーパス［１０］によって事前学習済みの機械翻訳モデルを抽出した対訳文データでファインチューンしたものを評価した。評価尺度には、機械翻訳で一般的に用いられているＢＬＥＵ［１１］を使用した。

【0127】

＜実験２：実験データ＞
実験１と同様に、読売新聞とThe Japan News からデータを作成した。学習用データセットには、１９８９年から２０１５年に発行された記事のうち、開発及び評価で使用したもの以外を使用した。自動文書対応付けには内山らの手法［３］を用い、１１０，８２１件の対訳文書対を作成した。各手法によって対訳文書から対訳文を抽出し、コストやスコアによって品質が高い順に使用した。開発及び評価用のデータセットには、実験１と同様のデータを用い、開発用データとして１５記事１６８対訳、評価用データとして１５記事２３８対訳を使用した。

【0128】

＜実験２：実験結果＞
図１０に、学習に使用する対訳文対の量を変化させた際の翻訳精度の比較結果を示す。言語横断スパン予測による文対応の手法での結果はベースラインよりも高い精度を達成していることがわかる。特に、ＩＬＰと文書対応コストを用いた手法は最高で１９．０ｐｔのＢＬＥＵスコアを達成しており、これはベースラインで最も良い結果よりも２．６ｐｔ高い結果である。これらの結果から、実施例１の技術は自動抽出した対訳文書に対して有効に働き、下流タスクにおいて有用であることがわかる。

【0129】

データの量が小さい部分に着目すると、文書対応コストを用いた手法が、他のＩＬＰのみやＤＰを用いる手法と比べて同程度か高い翻訳精度を達成していることがわかる。このことから、文書対応コストの利用が文対応コストの信頼性を向上させ、低品質な対応関係を取り除くことに有用であることがわかる。

【0130】

（実施例１のまとめ）
以上、説明したように、実施例１では、互いに対応関係にある２つの文書において互いに対応している文集合（文でもよい）の対を同定する問題を、ある言語の文書の連続する文集合に対応する別の言語の文書の連続する文集合をスパンとして独立に予測する問題（言語横断スパン予測問題）の集合として捉え、その予測結果に対して整数線形計画法によって全体最適化を行うことにより、高精度な文対応付けを実現している。

【0131】

実施例１の言語横断スパン予測モデルは、例えば複数の言語についてそれぞれの単言語テキストだけを用いて作成された事前学習済み多言語モデルを、既存手法によって作成された擬似的な正解データを用いてファインチューンすることにより作成する。多言語モデルにｓｅｌｆ－ａｔｔｅｎｔｉｏｎと呼ばれる構造が用いられているモデルを使用し、モデルに原言語文と目的言語文書を結合して入力することにより、予測の際にスパン前後の文脈やトークン単位の情報を考慮することができる。対訳辞書や文のベクトル表現を用いる従来手法がそれらの情報を利用しないのと比較すると、高い精度で文対応関係の候補を予測することができる。

【0132】

なお、正解データを作成するコストは非常に高い。一方、実施例２で説明する単語対応タスクよりも、文対応タスクの方が多くの正解データが必要である。そこで、実施例１では、疑似正解データを正解データとして使うことで、良好な結果が得られている。疑似正解データを使えると、教師あり学習ができるので、教師なしモデルと比較すると、高性能なモデルの学習が可能になる。

【0133】

また、実施例１で用いた整数線形計画法は対応関係の単調性を仮定しない。そのため、単調性を仮定する従来手法と比較して非常に高い精度の文対応を得ることができる。その際に、非対称な言語横断スパン予測から得られる２方向のスコアを対称化したスコアものを用いることで、予測候補の信頼度が向上し、更なる精度改善へと寄与する。

【0134】

互いに対応関係となっている２つの文書を入力として自動的に文対応を同定する技術は、自然言語処理技術に関連する様々な影響がある。例えば、実験２のように、ある言語（例えば日本語）の文書中の文から、文対応に基づいて別の言語に翻訳された文書中の対訳関係にある文へと写像することによって、その言語間の機械翻訳器の学習データを生成することができる。あるいは、ある文書とそれを同じ言語の平易な表現で書き直した文書から、互いに同じ意味を持つ文のペアを文対応に基づいて抽出することで、言い換え文生成器や語彙平易化器の学習データとすることができる。

【0135】

［実施例１の参考文献］
[1] William A. Gale and Kenneth W. Church. A program for aligning sentences in bilingual corpora. Computational Linguistics, Vol. 19, No. 1, pp. 75-102, 1993.
[2] Takehito Utsuro, Hiroshi Ikeda, Masaya Yamane, Yuji Matsumoto, and Makoto Nagao. Bilingual text, matching using bilingual dictionary and statistics. In Proceedings of the COLING-1994, 1994.
[3] Masao Utiyama and Hitoshi Isahara. Reliable measures for aligning japanese-english news articles and sentences. In Proceedings of the ACL-2003, pp. 72-79, 2003.
[4] D. Varga, L. Nemeth, P. Halacsy, A. Kornai, V. Tron, and V. Nagy. Parallel corpora for medium density languages. In Proceedings of the RANLP-2005, pp. 590-596, 2005.
[5] Rico Sennrich and Martin Volk. Iterative, MT-based sentence alignment of parallel texts. In Proceedings of the 18th Nordic Conference of Computational Linguistics (NODALIDA 2011), pp. 175-182, Riga, Latvia, May 2011. Northern European Association for Language Technology (NEALT).
[6] Brian Thompson and Philipp Koehn. Vecalign: Improved sentence alignment in linear time and space. In Proceedings of EMNLP-2019, pp. 1342-1348, 2019.
[7] S. E. Robertson and S. Walker. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval. In Proceedings of the SIGIR-1994, pp. 232-241, 1994.
[8] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine comprehension of text. In Proceedings of EMNLP-2016, pp. 2383-2392, 2016.
[9] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the NAACL-2019, pp. 4171-4186, 2019.
[10] Makoto Morishita, Jun Suzuki, and Masaaki Nagata. JParaCrawl: A large scale web-based English- Japanese parallel corpus. In Proceedings of The 12th Language Resources and Evaluation Conference, pp. 3603-3609, Marseille, France, May 2020. European Language Resources Association.
[11] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311-318, Philadelphia, Pennsylvania, USA, July 2002. Association for Computational Linguistics.
（実施例２）
次に、実施例２を説明する。実施例２では、互いに翻訳になっている２文間の単語対応を同定する技術を説明する。互いに翻訳になっている二つの文において互いに翻訳になっている単語又は単語集合を同定することを単語対応（ｗｏｒｄａｌｉｇｎｍｅｎｔ）という。

【0136】

互いに翻訳になっている二つの文を入力とし、自動的に単語対応を同定する技術には、多言語処理や機械翻訳に関連する様々な応用がある。例えば、ある言語（例えば英語）の文において付与された人名・地名・組織名等の固有表現に関する注釈を、単語対応に基づいて別の言語（例えば日本語）へ翻訳された文へ写像することにより、その言語の固有表現抽出器の学習データを生成することができる。

【0137】

実施例２では、互いに翻訳になっている二つの文において単語対応を求める問題を、ある言語の文の各単語に対応する別の言語の文の単語又は連続する単語列（スパン）を予測する問題（言語横断スパン予測）の集合として捉え、人手により作成された少数の正解データからニューラルネットワークを用いて言語横断スパン予測モデルを学習することにより、高精度な単語対応を実現する。具体的には、後述する単語対応装置３００が、この単語対応に係る処理を実行する。

【0138】

なお、単語対応の応用として、前述した固有表現抽出器の学習データの生成に加えて、例えば、次のようなものがある。

【0139】

ある言語（例えば日本語）のＷｅｂページを別の言語（例えば英語）へ翻訳する際に、元の言語の文においてＨＴＭＬタグ（例えばアンカータグ＜ａ＞...＜／ａ＞）に囲まれた文字列の範囲と意味的に等価な別の言語の文の文字列の範囲を、単語対応に基づいて同定することにより、ＨＴＭＬタグを正しく写像することができる。

【0140】

また、機械翻訳において、対訳辞書等により入力文の特定の語句に対して特定の訳語を指定したい場合、単語対応に基づいて入力文中の語句に対応する出力文の語句を求め、もしその語句が指定された語句でない場合には指定された語句に置き換えることにより、訳語を制御することができる。

【0141】

以下では、まず、実施例２に係る技術を理解し易くするために、単語対応に関連する種々の参考技術について説明する。その後に、実施例２に係る単語対応装置３００の構成及び動作を説明する。

【0142】

なお、実施例２の参考技術等に関連する参考文献の番号と文献名を、実施例２の最後にまとめて記載した。下記の説明において関連する参考文献の番号を"［１］"等のように示している。

【0143】

（実施例２：参考技術の説明）
＜統計的機械翻訳モデルに基づく教師なし単語対応＞
参考技術として、まず、統計的機械翻訳モデルに基づく教師なし単語対応について説明する。

【0144】

統計的機械翻訳［１］では、原言語（翻訳元言語，ｓｏｕｒｃｅｌａｎｇｕａｇｅ）の文Ｆから目的言語（翻訳先言語，ｔａｒｇｅｔｌａｎｇｕａｇｅ）の文Ｅへ変換する翻訳モデルＰ（Ｅ｜Ｆ）を、ベイズの定理を用いて、逆方向の翻訳モデルＰ（Ｆ｜Ｅ）と目的言語の単語列を生成する言語モデルＰ（Ｅ）の積に分解する。

【0145】

【数10】

統計的機械翻訳では、原言語の文Ｆの単語と目的言語の文Ｅの単語の間の単語対応Ａに依存して翻訳確率が決まると仮定し、全ての可能な単語対応の和として翻訳モデルを定義する。

【0146】

【数11】

なお、統計的機械翻訳では、実際に翻訳が行われる原言語Ｆと目的言語Ｅと、逆方向の翻訳モデルＰ（Ｆ｜Ｅ）の中の原言語Ｅと目的言語Ｆが異なる。このために混乱が生じるので、以後は、翻訳モデルＰ（Ｙ｜Ｘ）の入力Ｘを原言語、出力Ｙを目的言語と呼ぶことにする。

【0147】

原言語文Ｘを長さ｜Ｘ｜の単語列ｘ_{１：｜Ｘ｜}＝ｘ_１，ｘ_２，...，ｘ_｜Ｘ｜とし、目的言語文Ｙを長さ｜Ｙ｜の単語列ｙ_{１：｜Ｙ｜}＝ｙ_１，ｙ_２，...，ｙ_｜Ｙ｜とするとき、目的言語から原言語への単語対応Ａをａ_{１：｜Ｙ｜}＝ａ_１，ａ_２，...，ａ_｜Ｙ｜と定義する。ここでａ_ｊは、目的言語文の単語ｙ_ｊが目的言語文の単語ｘ_ａｊに対応することを表す。

【0148】

生成的（ｇｅｎｅｒａｔｉｖｅ）な単語対応では、ある単語対応Ａに基づく翻訳確率を、語彙翻訳確率Ｐ_ｔ（ｙ_ｊ｜...）と単語対応確率Ｐ_ａ（ａ_ｊ｜...）の積に分解する。

【0149】

【数12】

例えば、参考文献［１］に記載のモデル２では、まず目的言語文の長さ｜Ｙ｜を決め、目的語文のｊ番目の単語が原言語文のａ_ｊ番目の単語へ対応する確率Ｐ_ａ（ａ_ｊ｜ｊ，...）は、目的言語文の長さ｜Ｙ｜、原言語文の長さ｜Ｘ｜に依存すると仮定する。

【0150】

【数13】

参考文献［１］に記載のモデルとして、最も単純なモデル１から最も複雑なモデル５までの順番に複雑になる５つのモデルがある。単語対応において使用されることが多いモデル４は、ある言語の一つの単語が別の言語のいくつの単語に対応するかを表す繁殖数（ｆｅｒｔｉｌｉｔｙ）や、直前の単語の対応先と現在の単語の対応先の距離を表す歪み（ｄｉｓｔｏｒｔｉｏｎ）を考慮する。

【0151】

また、ＨＭＭに基づく単語対応［２５］では、単語対応確率は、目的言語文における直前の単語の単語対応に依存すると仮定する。

【0152】

【数14】

これらの統計的機械翻訳モデルでは、単語対応が付与されていない対訳文対の集合から、ＥＭアルゴリズムを用いて単語対応確率を学習する。すなわち教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）により単語対応モデルを学習する。

【0153】

参考文献［１］に記載のモデルに基づく教師なし単語対応ツールとして、ＧＩＺＡ＋＋［１６］、ＭＧＩＺＡ［８］、ＦａｓｔＡｌｉｇｎ［６］等がある。ＧＩＺＡ＋＋とＭＧＩＺＡは参考文献［１］に記載のモデル４に基づいており、ＦａｓｔＡｌｉｇｎは参考文献［１］に記載のモデル２に基づいている。

【0154】

＜再帰ニューラルネットワークに基づく単語対応＞
次に、再帰ニューラルネットワークに基づく単語対応について説明する。ニューラルネットワークに基づく教師なし単語対応の方法として、ＨＭＭに基づく単語対応にニューラルネットワークを適用する方法［２６，２１］と、ニューラル機械翻訳における注意（ａｔｔｅｎｔｉｏｎ）に基づく方法がある［２７，９］。

【0155】

ＨＭＭに基づく単語対応にニューラルネットワークを適用する方法について、例えば田村ら［２１］は、再帰ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）を用いることにより、直前の単語対応だけでなく、文頭からの単語対応の履歴ａ＜_ｊ＝ａ_{１：ｊ－１}を考慮して現在の単語の対応先を決定し、かつ、語彙翻訳確率と単語対応確率を別々にモデル化するのではなく一つのモデルとして単語対応を求める方法を提案している。

【0156】

【数15】

再帰ニューラルネットワークに基づく単語対応は、単語対応モデルを学習するために大量の教師データ（単語対応が付与された対訳文）を必要とする。しかし、一般に人手で作成した単語対応データは大量には存在しない。教師なし単語対応ソフトウェアＧＩＺＡ＋＋を用いて自動的に単語対応を付与した対訳文を学習データとした場合、再起ニューラルネットワークに基づく単語対応は、ＧＩＺＡ＋＋と同等又はわずかに上回る程度の精度であると報告されている。

【0157】

＜ニューラル機械翻訳モデルに基づく教師なし単語対応＞
次に、ニューラル機械翻訳モデルに基づく教師なし単語対応について説明する。ニューラル機械翻訳は、エンコーダデコーダモデル（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒｍｏｄｅｌ，符号器復号器モデル）に基づいて、原言語文から目的言語文への変換を実現する。

【0158】

エンコーダ（ｅｎｃｏｄｅｒ，符号器）は、ニューラルネットワークを用いた非線形変換を表す関数ｅｎｃにより長さ｜Ｘ｜の原言語文Ｘ＝ｘ_{１：｜Ｘ｜}＝ｘ_１，...，ｘ_｜Ｘ｜を、長さ｜Ｘ｜の内部状態の系列ｓ_{１：｜Ｘ｜}＝ｓ_１，...，ｓ_｜Ｘ｜に変換する。各単語に対応する内部状態の次元数をｄとすれば、ｓ_{１：｜Ｘ｜}は｜Ｘ｜×ｄの行列である。

【0159】

【数16】

デコーダ（ｄｅｃｏｄｅｒ，復号器）は、エンコーダの出力ｓ_{１：｜Ｘ｜}を入力として、ニューラルネットワークを用いた非線形変換を表す関数ｄｅｃにより目的言語文のｊ番目の単語ｙ_ｊを文頭から一つずつ生成する。

【0160】

【数17】

ここでデコーダが長さ｜Ｙ｜の目的言語文Ｙ＝ｙ_{１：｜Ｙ｜}＝ｙ_１，...，ｙ_｜Ｙ｜を生成するとき、デコーダの内部状態の系列をｔ_{１：｜Ｙ｜}＝ｔ_１，...，ｔ_｜Ｙ｜と表現する。各単語に対応する内部状態の次元数をｄとすれば、ｔ_{１：｜Ｙ｜}は｜Ｙ｜×ｄの行列である。

【0161】

ニューラル機械翻訳では、注意（ａｔｔｅｎｔｉｏｎ）機構を導入することにより、翻訳精度が大きく向上した。注意機構は、デコーダにおいて目的言語文の各単語を生成する際に、エンコーダの内部状態に対する重みを変えることで原言語文のどの単語の情報を利用するかを決定する機構である。この注意の値を、二つの単語が互いに翻訳である確率とみなすのが、ニューラル機械翻訳の注意に基づく教師なし単語対応の基本的な考え方である。

【0162】

例として、代表的なニューラル機械翻訳モデルであるＴｒａｎｓｆｏｒｍｅｒ［２３］における、原言語文と目的言語文の間の注意（ｓｏｕｒｃｅ－ｔａｒｇｅｔａｔｔｅｎｔｉｏｎ，原言語目的言語注意）を説明する。Ｔｒａｎｓｆｏｒｍｅｒは、自己注意（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）と順伝播型ニューラルネットワーク（ｆｅｅｄ－ｆｏｒｗａｒｄｎｅｕｒａｌｎｅｔｗｏｒｋ）を組み合わせてエンコーダやデコーダを並列化したエンコーダデコーダモデルである。Ｔｒａｎｓｆｏｒｍｅｒにおける原言語文と目的言語文の間の注意は、自己注意と区別するためにクロス注意（ｃｒｏｓｓａｔｔｅｎｔｉｏｎ）と呼ばれる。

【0163】

Ｔｒａｎｓｆｏｒｍｅｒは注意として縮小付き内積注意（ｓｃａｌｅｄｄｏｔ－ｐｒｏｄｕｃｔａｔｔｅｎｔｉｏｎ）を用いる。縮小付き内積注意は、クエリＱ∈Ｒ^{ｌｑ×ｄｋ}、キーＫ∈Ｒ^{ｌｋ×ｄｋ}、値Ｖ∈Ｒ^{ｌｋ×ｄｖ}に対して次式のように定義される。

【0164】

【数18】

ここでｌ_ｑはクエリの長さ、ｌ_ｋはキーの長さ、ｄ_ｋはクエリとキーの次元数、ｄ_ｖは値の次元数である。

【0165】

クロス注意において、Ｑ，Ｋ，Ｖは、Ｗ_Ｑ∈Ｒ^ｄ×ｄｋ，Ｗ_Ｋ∈Ｒ^ｄ×ｄｋ，Ｗ_Ｖ∈Ｒ^ｄ×ｄｖを重みとして以下のように定義される。

【0166】

【数19】

【0167】

【数20】

【0168】

【数21】

ここでｔ_ｊは、デコーダにおいてｊ番目の目的言語文の単語を生成する際の内部状態である。また［］^Ｔは転置行列を表す。

【0169】

このときＱ＝［ｔ_{１：｜Ｙ｜}］^ＴＷ_Ｑとして原言語文と目的言語文の間のクロス注意の重み行列Ａ_{｜Ｙ｜×｜Ｘ｜}を定義する。

【0170】

【数22】

【0171】

【数23】

これは目的言語文のｊ番目の単語ｙ_ｊの生成に対して原言語文の単語ｘ_ｉが寄与した割合を表すので、目的言語文の各単語ｙ_ｊについて原言語文の単語ｘ_ｉが対応する確率の分布を表すとみなすことができる。

【0172】

一般にＴｒａｎｓｆｏｒｍｅｒは複数の層（ｌａｙｅｒ）及び複数のヘッド（ｈｅａｄ，異なる初期値から学習された注意機構）を使用するが、ここでは説明を簡単にするために層及びヘッドの数を１とした。

【0173】

Ｇａｒｇらは、上から２番目の層において全てのヘッドのクロス注意を平均したものが単語対応の正解に最も近いと報告し、こうして求めた単語対応分布Ｇ^ｐを用いて複数ヘッドのうちの特定の一つのヘッドから求めた単語対応に対して以下のようなクロスエントロピー損失を定義し、

【0174】

【数24】

この単語対応の損失と機械翻訳の損失の重み付き線形和を最小化するようなマルチタスク学習（ｍｕｌｔｉ－ｔａｓｋｌｅａｒｎｉｎｇ）を提案した［９］。式（１５）は、単語対応を、目的言語文の単語に対して原言語文のどの単語が対応しているかを決定する多値分類の問題とみなしていることを表す。

【0175】

Ｇａｒｇらの方法は、単語対応の損失を計算する際には式（１０）において、文頭からｊ番目の単語の直前までｔ_{１：ｉ－１}ではなく、目的言語文全体ｔ_{１：｜Ｙ｜}を使用する。また単語対応の教師データＧ^ｐとして、Ｔｒａｎｓｆｏｒｍｅｒに基づくｓｅｌｆ－ｔｒａｉｎｉｎｇではなく、ＧＩＺＡ＋＋から得られた単語対応を用いる。これらにより、ＧＩＺＡ＋＋を上回る単語対応精度を得られると報告している［９］。

【0176】

＜ニューラル機械翻訳モデルに基づく教師あり単語対応＞
次に、ニューラル機械翻訳モデルに基づく教師あり単語対応について説明する。原言語文Ｘ＝ｘ_{１：｜Ｘ｜}と目的言語文Ｙ＝ｙ_{１：｜Ｙ｜}に対して、単語位置の直積集合の部分集合を単語対応Ａと定義する。

【0177】

【数25】

単語対応は、原言語文の単語から目的言語文の単語への多対多の離散的な写像と考えることができる。

【0178】

識別的（ｄｉｓｃｒｉｍｉｎａｔｉｖｅ）な単語対応では、原言語文と目的言語文から単語対応を直接的にモデル化する。

【0179】

【数26】

例えば、Ｓｔｅｎｇｅｌ－Ｅｓｋｉｎらは、ニューラル機械翻訳の内部状態を用いて識別的に単語対応を求める方法を提案した［２０］。Ｓｔｅｎｇｅｌ－Ｅｓｋｉｎらの方法では、まずニューラル機械翻訳モデルにおけるエンコーダの内部状態の系列をｓ_１，...，ｓ_｜Ｘ｜、デコーダの内部状態の系列をｔ_１，...，ｔ_｜Ｙ｜とするとき、パラメータを共有する３層の順伝播ニューラルネットワークを用いて、これらを共通のベクトル空間に射影する。

【0180】

【数27】

【0181】

【数28】

共通空間に射影された原言語文の単語系列と目的言語の単語系列の行列積を、ｓ′_ｉとｔ′_ｊの正規化されていない距離尺度として用いる。

【0182】

【数29】

更に単語対応が前後の単語の文脈に依存するように、３×３のカーネルＷ_ｃｏｎｖを用いて畳み込み演算を行って、ａ_ｉｊを得る。

【0183】

【数30】

原言語文の単語と目的言語文の単語の全ての組み合わせについて、それぞれの対が対応するか否かを判定する独立した二値分類問題として、二値クロスエントロピー損失を用いる。

【0184】

【数31】

ここで＾ａ_ｉｊは、原言語文の単語ｘ_ｉと目的言語文の単語ｙ_ｊが正解データにおいて対応しているか否かを表す。なお、本明細書のテキストにおいては、便宜上、文字の頭の上に置かれるべきハット"＾"を文字の前に記載している。

【0185】

【数32】

Ｓｔｅｎｇｅｌ－Ｅｓｋｉｎらは、約１００万文の対訳データを用いて翻訳モデルを事前に学習した上で、人手で作成した単語対応の正解データ（１，７００文から５，０００文）を用いることにより、ＦａｓｔＡｌｉｇｎを大きく上回る精度を達成できたと報告している。

【0186】

＜事前学習済みモデルＢＥＲＴ＞
単語対応についても、実施例１に文対応と同様に、事前訓練済みモデルＢＥＲＴを使用するが、これについては、実施例１で説明したとおりである。

【0187】

（実施例２：課題について）
参考技術として説明した従来の再帰ニューラルネットワークに基づく単語対応やニューラル機械翻訳モデルに基づく教師なし単語対応では、統計的機械翻訳モデルに基づく教師なし単語対応と同等又は僅かに上回る精度しか達成できていない。

【0188】

従来のニューラル機械翻訳モデルに基づく教師あり単語対応は、統計的機械翻訳モデルに基づく教師なし単語対応に比べて精度が高い。しかし、統計的機械翻訳モデルに基づく方法も、ニューラル機械翻訳モデルに基づく方法も、翻訳モデルの学習のために大量(数百万文程度)の対訳データを必要とするという問題点があった。

【0189】

以下、上記の問題点を解決した実施例２に係る技術を説明する。

【0190】

（実施例２に係る技術の概要）
実施例２では、単語対応を言語横断スパン予測の問題から回答を算出する処理として実現している。まず、少なくとも単語対応を付与する言語対に関するそれぞれの単言語データから学習された事前学習済み多言語モデルを、人手による単語対応の正解から作成された言語横断スパン予測の正解データを用いてファインチューンすることにより、言語横断スパン予測モデルを学習する。次に、学習された言語横断スパン予測モデルを用いて単語対応の処理を実行する。

【0191】

上記のような方法により、実施例２では、単語対応を実行するためのモデルの事前学習に対訳データを必要とせず、少量の人手により作成された単語対応の正解データから高精度な単語対応を実現することが可能である。以下、実施例２に係る技術をより具体的に説明する。

【0192】

（装置構成例）
図１１に、実施例２における単語対応装置３００と事前学習装置４００を示す。単語対応装置３００は、実施例２に係る技術により、単語対応処理を実行する装置である。事前学習装置４００は、多言語データから多言語モデルを学習する装置である。

【0193】

図１１に示すように、単語対応装置３００は、言語横断スパン予測モデル学習部３１０と単語対応実行部３２０とを有する。

【0194】

言語横断スパン予測モデル学習部３１０は、単語対応正解データ格納部３１１、言語横断スパン予測問題回答生成部３１２、言語横断スパン予測正解データ格納部３１３、スパン予測モデル学習部３１４、及び言語横断スパン予測モデル格納部３１５を有する。なお、言語横断スパン予測問題回答生成部３１２を問題回答生成部と呼んでもよい。

【0195】

単語対応実行部３２０は、言語横断スパン予測問題生成部３２１、スパン予測部３２２、単語対応生成部３２３を有する。なお、言語横断スパン予測問題生成部３２１を問題生成部と呼んでもよい。

【0196】

事前学習装置４００は、既存技術に係る装置である。事前学習装置４００は、多言語データ格納部４１０、多言語モデル学習部４２０、事前学習済み多言語モデル格納部４３０を有する。多言語モデル学習部４２０が、少なくとも単語対応を求める対象となる二つの言語の単言語テキストを多言語データ格納部４１０から読み出すことにより、言語モデルを学習し、当該言語モデルを事前学習済み多言語モデルとして、事前学習済み多言語モデル格納部２３０に格納する。

【0197】

なお、実施例２では、何等かの手段で学習された事前学習済みの多言語モデルが言語横断スパン予測モデル学習部３１０に入力されればよいため、事前学習装置４００を備えずに、例えば、一般に公開されている汎用の事前学習済みの多言語モデルを用いることとしてもよい。

【0198】

実施例２における事前学習済み多言語モデルは、少なくとも単語対応を求める対象となる二つの言語の単言語テキストを用いて事前に訓練された言語モデルである。実施例２では、当該言語モデルとして、ｍｕｌｔｉｌｉｎｇｕａｌＢＥＲＴを使用するが、それに限定されない。ＸＬＭ－ＲｏＢＥＲＴａ等、多言語テキストに対して文脈を考慮した単語埋め込みベクトルを出力できる事前学習済み多言語モデルであればどのような言語モデルを使用してもよい。

【0199】

なお、単語対応装置３００を学習装置と呼んでもよい。また、単語対応装置３００は、言語横断スパン予測モデル学習部３１０を備えずに、単語対応実行部３２０を備えてもよい。また、言語横断スパン予測モデル学習部３１０が単独で備えられた装置を学習装置と呼んでもよい。

【0200】

（単語対応装置３００の動作概要）
図１２は、単語対応装置３００の全体動作を示すフローチャートである。Ｓ３００において、言語横断スパン予測モデル学習部３１０に、事前学習済み多言語モデルが入力され、言語横断スパン予測モデル学習部３１０は、事前学習済み多言語モデルに基づいて、言語横断スパン予測モデルを学習する。

【0201】

Ｓ４００において、単語対応実行部３２０に、Ｓ３００で学習された言語横断スパン予測モデルが入力され、単語対応実行部３２０は、言語横断スパン予測モデルを用いて、入力文対（互いに翻訳である二つの文）における単語対応を生成し、出力する。

【0202】

＜Ｓ３００＞
図１３のフローチャートを参照して、上記のＳ３００における言語横断スパン予測モデルを学習する処理の内容を説明する。ここでは、事前学習済み多言語モデルが既に入力され、スパン予測モデル学習部３２４の記憶装置に事前学習済み多言語モデルが格納されているとする。また、単語対応正解データ格納部３１１には、単語対応正解データが格納されている。

【0203】

Ｓ３０１において、言語横断スパン予測問題回答生成部３１２は、単語対応正解データ格納部３１１から、単語対応正解データを読み出し、読み出した単語対応正解データから言語横断スパン予測正解データを生成し、言語横断スパン予測正解データ格納部３１３に格納する。言語横断スパン予測正解データは、言語横断スパン予測問題（質問と文脈）とその回答の対の集合からなるデータである。

【0204】

Ｓ３０２において、スパン予測モデル学習部３１４は、言語横断スパン予測正解データ及び事前学習済み多言語モデルから言語横断スパン予測モデルを学習し、学習した言語横断スパン予測モデルを言語横断スパン予測モデル格納部３１５に格納する。

【0205】

＜Ｓ４００＞
次に、図１４のフローチャートを参照して、上記のＳ４００における単語対応を生成する処理の内容を説明する。ここでは、スパン予測部３２２に言語横断スパン予測モデルが既に入力され、スパン予測部３２２の記憶装置に格納されているものとする。

【0206】

Ｓ４０１において、言語横断スパン予測問題生成部３２１に、第一言語文と第二言語文の対を入力する。Ｓ４０２において、言語横断スパン予測問題生成部３２１は、入力された文の対から言語横断スパン予測問題（質問と文脈）を生成する。

【0207】

次に、Ｓ４０３において、スパン予測部３２２は、言語横断スパン予測モデルを用いて、Ｓ４０２で生成された言語横断スパン予測問題に対してスパン予測を行って回答を得る。

【0208】

Ｓ４０４において、単語対応生成部３２３は、Ｓ４０３で得られた言語横断スパン予測問題の回答から、単語対応を生成する。Ｓ４０５において、単語対応生成部３２３は、Ｓ４０４で生成した単語対応を出力する。

【0209】

（実施例２：具体的な処理内容の説明）
以下、実施例２における単語対応装置３００の処理内容をより具体的に説明する。

【0210】

＜単語対応からスパン予測への定式化＞
前述したように、実施例２では、単語対応の処理を言語横断スパン予測問題の処理として実行することとしている。そこで、まず、単語対応からスパン予測への定式化について、例を用いて説明する。単語対応装置３００との関連では、ここでは主に言語横断スパン予測モデル学習部３１０について説明する。

【0211】

――単語対応データについて――
図１５に、日本語と英語の単語対応データの例を示す。これは一つの単語対応データの例である。図１５に示すとおり、一つの単語対応データは、第一言語（日本語）のトークン（単語）列、第二言語（英語）のトークン列、対応するトークン対の列、第一言語の原文、第二言語の原文の５つデータから構成される。

【0212】

第一言語（日本語）のトークン列、第二言語（英語）のトークン列はいずれもインデックス付けされている。トークン列の最初の要素（最も左にあるトークン）のインデックスである０から始まり、１、２、３、...のようにインデックス付けされている。

【0213】

例えば、３つ目のデータの最初の要素"０－１"は、第一言語の最初の要素"足利"が、第二言語の二番目の要素"ａｓｈｉｋａｇａ"に対応することを表す。また、"２４－２２５－２２６－２"は、"で"、"あ"、"る"がいずれも"ｗａｓ"に対応することを表す。

【0214】

実施例２では、単語対応を、ＳＱｕＡＤ形式の質問応答タスク［１８］と同様の言語横断スパン予測問題として定式化している。

【0215】

ＳＱｕＡＤ形式の質問応答タスクを行う質問応答システムには、Ｗｉｋｉｐｅｄｉａから選択された段落等の「文脈（ｃｏｎｔｅｘｔ）」と「質問（ｑｕｅｓｔｉｏｎ）」が与えられ、質問応答システムは、文脈の中の「スパン（ｓｐａｎ，部分文字列）」を「回答（ａｎｓｗｅｒ）」として予測する。

【0216】

上記のスパン予測と同様にして、実施例２の単語応答装置３００における単語対応実行部３２０は、目的言語文を文脈と見なし、原言語文の単語を質問と見なして、原言語文の単語の翻訳となっている、目的言語文の中の単語又は単語列を、目的言語文のスパンとして予測する。この予測には、実施例２における言語横断スパン予測モデルが用いられる。

【0217】

――言語横断スパン予測問題回答生成部３１２について――
実施例２では、単語対応装置３００の言語横断スパン予測モデル学習部３１０において言語横断スパン予測モデルの教師あり学習を行うが、学習のためには正解データが必要である。

【0218】

実施例２では、図１５に例示したような単語対応データが複数個、言語横断スパン予測モデル学習部３１０の単語対応正解データ格納部３１１に正解データとして格納され、言語横断スパン予測モデルの学習に使用される。

【0219】

ただし、言語横断スパン予測モデルは、言語横断で質問から回答（スパン）を予測するモデルであるため、言語横断で質問から回答（スパン）を予測する学習を行うためのデータ生成を行う。具体的には、単語対応データを言語横断スパン予測問題回答生成部３１２への入力とすることで、言語横断スパン予測問題回答生成部３１２が、単語対応データから、ＳＱｕＡＤ形式の言語横断スパン予測問題（質問）と回答（スパン、部分文字列）の対を生成する。以下、言語横断スパン予測問題回答生成部３１２の処理の例を説明する。

【0220】

図１６に、図１５に示した単語対応データをＳＱｕＡＤ形式のスパン予測問題に変換する例を示す。

【0221】

まず、図１６の（ａ）で示す上半分の部分について説明する。図１６における上半分（文脈、質問１、回答の部分）には、単語対応データの第一言語（日本語）の文が文脈として与えられ、第二言語（英語）のトークン"ｗａｓ"が質問１として与えられ、その回答が第一言語の文のスパン"である"であることが示されている。この"である"と"ｗａｓ"との対応は、図１５の３つ目のデータの対応トークン対"２４－２２５－２２６－２"に相当する。つまり、言語横断スパン予測問題回答生成部３１２は、正解の対応トークン対に基づいて、ＳＱｕＡＤ形式のスパン予測問題（質問と文脈）と回答の対を生成する。

【0222】

後述するように、実施例２では、単語対応実行部３２０のスパン予測部３２２が、言語横断スパン予測モデルを用いて、第一言語文（質問）から第二言語文（回答）への予測と、第二言語文（質問）から第一言語文（回答）への予測のそれぞれの方向についての予測を行う。従って、言語横断スパン予測モデルの学習時にも、このように双方向で予測を行うように学習を行う。

【0223】

なお、上記のように双方向で予測を行うことは一例である。第一言語文（質問）から第二言語文（回答）への予測のみ、又は、第二言語文（質問）から第一言語文（回答）への予測のみの片方向だけの予測を行うこととしてもよい。例えば、英語教育等において、英語文と日本語文が同時に表示されていて、英語文の任意の文字列（単語列）をマウス等で選択してその対訳となる日本語文の文字列（単語列）をその場で計算して表示する処理などの場合には、片方向だけの予測でよい。

【0224】

そのため、実施例２の言語横断スパン予測問題回答生成部３１２は、一つの単語対応データを、第一言語の各トークンから第二言語の文の中のスパンを予測する質問の集合と、第二言語の各トークンから第一言語の文の中のスパンを予測する質問の集合に変換する。つまり、言語横断スパン予測問題回答生成部３１２は、一つの単語対応データを、第一言語の各トークンからなる質問の集合及びそれぞれの回答（第二言語の文の中のスパン）と、第二言語の各トークンからなる質問の集合及びそれぞれの回答（第一言語の文の中のスパン）とに変換する。

【0225】

もしも一つのトークン（質問）が複数のスパン（回答）に対応する場合は、その質問は複数の回答を持つと定義する。つまり、言語横断スパン予測問題回答生成部１１２は、その質問に対して複数の回答を生成する。また、もしも、あるトークンに対応するスパンがない場合、その質問は回答がないと定義する。つまり、言語横断スパン予測問題回答生成部３１２は、その質問に対する回答をなしとする。

【0226】

実施例２では、質問の言語を原言語と呼び、文脈と回答（スパン）の言語を目的言語と呼んでいる。図１６に示す例では、原言語は英語であり、目的言語は日本語であり、この質問を「英語から日本語（Ｅｎｇｌｉｓｈ－ｔｏ－Ｊａｐａｎｅｓｅ）」への質問と呼ぶ。

【0227】

もしも質問が"ｏｆ"のような高頻度の単語であった場合、原言語文に複数回出現する可能性があるので、原言語文におけるその単語の文脈を考慮しなければ、目的言語文の対応するスパンを見つけることが難しくなる。そこで、実施例２の言語横断スパン予測問題回答生成部３１２は、文脈付きの質問を生成することとしている。

【0228】

図１６の（ｂ）で示す下半分の部分に、原言語文の文脈付きの質問の例を示す。質問２では、質問である原言語文のトークン"ｗａｓ"に対して、文脈の中の直前の二つのトークン"ＹｏｓｈｉｍｉｔｓｕＡＳＨＩＫＡＧＡ"と直後の二つのトークン"ｔｈｅ３ｒｄ"が'¶'を境界記号（ｂｏｕｎｄａｒｙｍａｒｋｅｒ）として付加されている。

【0229】

また、質問３では、原言語文全体を文脈として使用し、２つの境界記号で質問となるトークンを挟むようにしている。実験で後述するように、質問に付加される文脈は長ければ長いほどよいので、実施例２では、質問３のように原言語文全体を質問の文脈として使用している。

【0230】

上記のとおり、実施例２では、境界記号として段落記号（ｐａｒａｇｒａｐｈｍａｒｋ）'¶'を使用している。この記号は英語ではピルクロウ（ｐｉｌｃｒｏｗ）と呼ばれる。ピルクロウは、ユニコード文字カテゴリ（Ｕｎｉｃｏｄｅｃｈａｒａｃｔｅｒｃａｔｅｇｏｒｙ）の句読点（ｐｕｎｃｔｕａｔｉｏｎ）に所属し、多言語ＢＥＲＴの語彙の中に含まれ、通常のテキストにはほとんど出現しないことから、実施例２において、質問と文脈を分ける境界記号としている。同様の性質を満足する文字又は文字列であれば、境界記号は何を使用してもよい。

【0231】

また、単語対応データの中には、空対応（ｎｕｌｌａｌｉｇｎｍｅｎｔ，対応先がないこと）が多く含まれている。そこで、実施例２では、ＳＱｕＡＤｖ２．０［１７］の定式化を使用している。ＳＱｕＡＤｖ１．１とＳＱｕＡＤＶ２．０の違いは、質問に対する回答が文脈の中に存在しない可能性を明示的に扱うことである。

【0232】

つまり、ＳＱｕＡＤＶ２．０の形式では、回答できない質問には回答できないことが明示的に示されるため、単語対応データの中の空対応（ｎｕｌｌａｌｉｇｎｍｅｎｔ，対応先がないこと）に対して、適切に質問と回答（回答できないこと）を生成できる。

【0233】

単語対応データに依存して、単語分割を含むトークン化（ｔｏｋｅｎｉｚａｔｉｏｎ）や大文字小文字（ｃａｓｉｎｇ）の扱いが異なるので、実施例２では、原言語文のトークン列は、質問を作成する目的だけに使用することとしている。

【0234】

そして、言語横断スパン予測問題回答生成部３１２が、単語対応データをＳＱｕＡＤ形式に変換する際には、質問と文脈には、トークン列ではなく、原文を使用する。すなわち、言語横断スパン予測問題回答生成部３１２は、回答として、目的言語文（文脈）からスパンの単語又は単語列とともに、スパンの開始位置と終了位置を生成するが、その開始位置と終了位置は、目的言語文の原文の文字位置へのインデックスとなる。

【0235】

なお、従来技術における単語対応手法は、トークン列を入力とする場合が多い。すなわち、図１５の単語対応データの例でいえば、最初の２つのデータが入力であることが多い。それに対して実施例２では、原文とトークン列の両方を言語横断スパン予測問題回答生成部３１２への入力とすることにより、任意のトークン化に対して柔軟に対応できるシステムになっている。

【0236】

言語横断スパン予測問題回答生成部３１２により生成された、言語横断スパン予測問題（質問と文脈）と回答の対のデータは、言語横断スパン予測正解データ格納部３１３に格納される。

【0237】

――スパン予測モデル学習部３１４について――
スパン予測モデル学習部３１４は、言語横断スパン予測正解データ格納部３１３から読み出した正解データを用いて、言語横断スパン予測モデルの学習を行う。すなわち、スパン予測モデル学習部３１４は、言語横断スパン予測問題（質問と文脈）を言語横断スパン予測モデルに入力し、言語横断スパン予測モデルの出力が正解の回答になるように、言語横断スパン予測モデルのパラメータを調整する。この学習は、第一言語文から第二言語文への言語横断スパン予測と、第二言語文から第一言語文への言語横断スパン予測のそれぞれで行われる。

【0238】

学習された言語横断スパン予測モデルは、言語横断スパン予測モデル格納部３１５に格納される。また、単語対応実行部３２０により、言語横断スパン予測モデル格納部３１５から言語横断スパン予測モデルが読み出され、スパン予測部３２２に入力される。

【0239】

言語横断スパン予測モデルの詳細を以下で説明する。また、単語対応実行部３２０の処理の詳細も以下で説明する。

【0240】

＜多言語ＢＥＲＴを用いた言語横断スパン予測＞
既に説明したとおり、実施例２における単語対応実行部３２０のスパン予測部３２２は、言語横断スパン予測モデル学習部３１０により学習された言語横断スパン予測モデルを用いて、入力された文の対から単語対応を生成する。つまり、入力された文の対に対して言語横断スパン予測を行うことで、単語対応を生成する。

【0241】

――言語横断スパン予測モデルについて――
実施例２において、言語横断スパン予測のタスクは次のように定義される。

【0242】

長さ｜Ｘ｜文字の原言語文Ｘ＝ｘ_１ｘ_２...ｘ_｜Ｘ｜、及び、長さ｜Ｙ｜文字の目的言語文Ｙ＝ｙ_１ｙ_２...ｙ_｜Ｙ｜があるとする。原言語文において文字位置ｉから文字位置ｊまでの原言語トークンｘ_ｉ：ｊ＝ｘ_ｉ...ｘ_ｊに対して、目的言語文において文字位置ｋから文字位置ｌまでの目的言語スパンｙ_ｋ：ｌ＝ｙ_ｋ...ｙ_ｌを抽出することが言語横断スパン予測のタスクである。

【0243】

単語対応実行部３２０のスパン予測部３２２は、言語横断スパン予測モデル学習部３１０により学習された言語横断スパン予測モデルを用いて、上記のタスクを実行する。実施例２でも、言語横断スパン予測モデルとして多言語ＢＥＲＴ［５］を用いている。

【0244】

ＢＥＲＴは、実施例２における言語横断タスクに対しても非常に良く機能する。なお、実施例２において使用する言語モデルはＢＥＲＴに限定されるわけではない。

【0245】

より具体的には、実施例２においては、一例として、文献［５］に開示されたＳＱｕＡＤｖ２．０タスク用のモデルと同様のモデルを言語横断スパン予測モデルとして使用している。これらのモデル（ＳＱｕＡＤｖ２．０タスク用のモデル、言語横断スパン予測モデル）は、事前訓練されたＢＥＲＴに文脈中の開始位置と終了位置を予測する二つの独立した出力層を加えたモデルである。

【0246】

言語横断スパン予測モデルにおいて、目的言語文の各位置が回答スパンの開始位置と終了位置になる確率をｐ_{ｓｔａｒｔ}及びｐ_ｅｎｄとし、原言語スパンｘ_ｉ：ｊが与えられた際の目的言語スパンｙ_ｋ：ｌのスコアω^Ｘ→Ｙ _ｉｊｋｌを開始位置の確率と終了位置の確率の積と定義し、この積を最大化する（＾ｋ，＾ｌ）を最良回答スパン（ｂｅｓｔａｎｓｗｅｒｓｐａｎ）としている。

【0247】

【数33】

【0248】

【数34】

ＳＱｕＡＤｖ２．０タスク用のモデル及び言語横断スパン予測モデルのようなＢＥＲＴのＳＱｕＡＤモデルでは、まず質問と文脈が連結された"［ＣＬＳ］ｑｕｅｓｔｉｏｎ［ＳＥＰ］ｃｏｎｔｅｘｔ［ＳＥＰ］"という系列を入力とする。ここで［ＣＬＳ］と［ＳＥＰ］は、それぞれ分類トークン（ｃｌａｓｓｉｆｉｃａｔｉｏｎｔｏｋｅｎ）と分割トークン（ｓｅｐａｒａｔｏｒｔｏｋｅｎ）と呼ぶ。そして開始位置と終了位置はこの系列に対するインデックスとして予測される。回答が存在しない場合を想定するＳＱｕＡＤｖ２．０モデルでは、回答が存在しない場合、開始位置と終了位置は［ＣＬＳ］へのインデックスとなる。

【0249】

実施例２における言語横断スパン予測モデルと、文献［５］に開示されたＳＱｕＡＤｖ２．０タスク用のモデルとは、ニューラルネットワークとしての構造は基本的には同じであるが、ＳＱｕＡＤｖ２．０タスク用のモデルは単言語の事前学習済み言語モデルを使用し、同じ言語の間でスパンを予測するようなタスクの学習データでｆｉｎｅ－ｔｕｎｅ（追加学習／転移学習／微調整／ファインチューン）するのに対して、実施例２の言語横断スパン予測モデルは、言語横断スパン予測に係る二つの言語を含む事前学習済み多言語モデルを使用し、二つの言語の間でスパンを予測するようなタスクの学習データでｆｉｎｅ－ｔｕｎｅする点が異なっている。

【0250】

なお、既存のＢＥＲＴのＳＱｕＡＤモデルの実装では、回答文字列を出力するだけであるが、実施例２の言語横断スパン予測モデルは、開始位置と終了位置を出力することができるように構成されている。

【0251】

ＢＥＲＴの内部において、つまり、実施例２の言語横断スパン予測モデルの内部において、入力系列は最初にトークナイザ（例：ＷｏｒｄＰｉｅｃｅ）によりトークン化され、次にＣＪＫ文字（漢字）は一つの文字を単位として分割される。

【0252】

既存のＢＥＲＴのＳＱｕＡＤモデルの実装では、開始位置や終了位置はＢＥＲＴ内部のトークンへのインデックスであるが、実施例２の言語横断スパン予測モデルではこれを文字位置へのインデックスとしている。これにより単語対応を求める入力テキストのトークン（単語）とＢＥＲＴ内部のトークンとを独立に扱うことを可能としている。

【0253】

図１７は、実施例２の言語横断スパン予測モデルを用いて、質問となる原言語文（英語）の中のトークン"Ｙｏｓｈｉｍｉｔｓｕ"に対して、目的言語文（日本語）の文脈から、回答となる目的言語（日本語）スパンを予測した処理を示している。図１７に示すとおり、"Ｙｏｓｈｉｍｉｔｓｕ"は４つのＢＥＲＴトークンから構成されている。なお、ＢＥＲＴ内部のトークンであるＢＥＲＴトークンには、前の語彙との繋がりを表す「＃＃」（接頭辞）が追加されている。また、入力トークンの境界は点線で示されている。なお、本実施の形態では、「入力トークン」と「ＢＥＲＴトークン」を区別している。前者は学習データにおける単語区切りの単位であり、図１７において破線で示されている単位である。後者はＢＥＲＴの内部で使用されている区切りの単位であり、図１７において空白で区切られている単位である。

【0254】

図１７に示す例では、回答として、"義満"，"義満（あしかがよしみつ"，"足利義満"，"義満（"，"義満（あしかがよし"の５つの候補が示され、"義満"が正解である。

【0255】

ＢＥＲＴにおいては、ＢＥＲＴ内部のトークンを単位としてスパンを予測するので、予測されたスパンは、必ずしも入力のトークン（単語）の境界と一致しない。そこで、実施例２では、"義満（あしかがよし"のように目的言語のトークン境界と一致しない目的言語スパンに対しては、予測された目的言語スパンに完全に含まれている目的言語の単語、すなわちこの例では"義満"，"（"，"あしかが"を原言語トークン（質問）に対応させる処理を行っている。この処理は、予測時だけに行われるものであり、単語対応生成部３２３により行われる。学習時には、スパン予測の第１候補と正解を開始位置及び終了位置に関して比較する損失関数に基づく学習が行われる。

【0256】

――言語横断スパン予測問題生成部３２１、スパン予測部３２２について――
言語横断スパン予測問題生成部３２１は、入力された第一言語文と第二言語文のそれぞれに対し、質問と文脈が連結された"［ＣＬＳ］ｑｕｅｓｔｉｏｎ［ＳＥＰ］ｃｏｎｔｅｘｔ［ＳＥＰ］"の形式のスパン予測問題を質問（入力トークン（単語））毎に作成し、スパン予測部１２２へ出力する。ただし、ｑｕｅｓｔｉｏｎは、前述したように、「"Yoshimitsu ASHIKAGA ¶ was ¶ the 3rd Seii Taishogun of the Muromachi Shogunate and reigned from 1368 to1394.」のように、¶を境界記号に使用した文脈付きの質問としている。

【0257】

言語横断スパン予測問題生成部３２１により、第一言語文（質問）から第二言語文（回答）へのスパン予測の問題と、第二言語文（質問）から第一言語文（回答）へのスパン予測の問題が生成される。

【0258】

スパン予測部３２２は、言語横断スパン予測問題生成部１２１により生成された各問題（質問と文脈）を入力することで、質問毎に回答（予測されたスパン）と確率を算出し、質問毎の回答（予測されたスパン）と確率を単語対応生成部３２３に出力する。

【0259】

なお、上記の確率は、最良回答スパンにおける開始位置の確率と終了位置の確率の積である。単語対応生成部３２３の処理については以下で説明する。

【0260】

＜単語対応の対称化＞
実施例２の言語横断スパン予測モデルを用いたスパン予測では、原言語トークンに対して目的言語スパンを予測するので、参考文献［１］に記載のモデルと同様に、原言語と目的言語は非対称である。実施例２では、スパン予測に基づく単語対応の信頼性を高めるために、双方向の予測を対称化する方法を導入している。

【0261】

まず、参考として、単語対応を対称化する従来例を説明する。参考文献［１］に記載のモデルに基づく単語対応を対称化する方法は、文献［１６］により最初に提案された。代表的な統計翻訳ツールキットＭｏｓｅｓ［１１］では、集合積（ｉｎｔｅｒｓｅｃｔｉｏｎ）、集合和（ｕｎｉｏｎ）、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌ等のヒューリスティクスが実装され、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌがデフォールトである。二つの単語対応の集合積（共通集合）は、適合率（ｐｒｅｃｉｓｉｏｎ）が高く、再現率（ｒｅｃａｌｌ）が低い。二つの単語対応の集合和（和集合）は、適合率が低く、再現率が高い。ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌは集合積と集合和の中間的な単語対応を求める方法である。

【0262】

――単語対応生成部３２３について――
実施例２では、単語対応生成部３２３が、各トークンに対する最良スパンの確率を、二つの方向について平均し、これが予め定めた閾値以上であれば、対応しているとみなす。この処理は、単語対応生成部３２３が、スパン予測部３２２（言語横断スパン予測モデル）からの出力を用いて実行する。なお、図１７を参照して説明したとおり、回答として出力される予測されたスパンは必ずしも単語区切りと一致しないので、単語対応生成部３２３は、予測スパンを片方向の単語単位の対応になるよう調整する処理も実行する。単語対応の対称化について、具体的には下記のとおりである。

【0263】

文Ｘにおいて開始位置ｉ、終了位置ｊのスパンをｘ_ｉ：ｊとする。文Ｙにおいて開始位置ｋ、終了位置ｌのスパンをｙ_ｋ：ｌとする。トークンｘ_ｉ：ｊがスパンｙ_ｋ：ｌを予測する確率をω^Ｘ→Ｙ _ｉｊｋｌとし、トークンｙ_ｋ：ｌがスパンｘ_ｉ：ｊを予測する確率をω^Ｙ→Ｘ _ｉｊｋｌとする。トークンｘ_ｉ：ｊとトークンｙ_ｋ：ｌの対応ａ_ｉｊｋｌの確率をω_ｉｊｋｌとするとき、本実施の形態では、ω_ｉｊｋｌを、ｘ_ｉ：ｊから予測した最良スパンｙ_{＾ｋ：＾ｌ}の確率ω^Ｘ→Ｙ _{ｉｊ＾ｋ＾ｌ}と、ｙ_ｋ：ｌから予測した最良スパンｘ_{＾ｉ：＾ｊ}の確率ω^Ｙ→Ｘ _{＾ｉ＾ｊｋｌ}の平均として算出する。

【0264】

【数35】

ここでＩ_Ａ（ｘ）は指標関数（ｉｎｄｉｃａｔｏｒｆｕｎｃｔｉｏｎ）である。Ｉ_Ａ（ｘ）は、Ａが真のときｘを返し、それ以外は０を返す関数である。本実施の形態では、ω_ｉｊｋｌが閾値以上のときにｘ_ｉ：ｊとｙ_ｋ：ｌが対応するとみなす。ここでは閾値を０．４とする。ただし、０．４は例であり、０．４以外の値を閾値として使用してもよい。

【0265】

実施例２で使用する対称化の方法を双方向平均（ｂｉｄｉｒｅｃｔｉｏｎａｌａｖｅｒａｇｅ，ｂｉｄｉ－ａｖｇ）と呼ぶことにする。双方向平均は、実装が簡単であり、集合和と集合積の中間となる単語対応を求めるという点では、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌと同等の効果がある。なお、平均を用いることは一例である。例えば、確率ω^Ｘ→Ｙ _{ｉｊ＾ｋ＾ｌ}と確率ω^Ｙ→Ｘ _{＾ｉ＾ｊｋｌ}の重み付き平均を用いてもよいし、これらのうちの最大値を用いてもよい。

【0266】

図１８に、日本語から英語へのスパン予測（ａ）と英語から日本語へのスパン予測（ｂ）を双方向平均により対称化したもの（ｃ）を示す。

【0267】

図１８の例において、例えば、"言語"から予測した最良スパン"ｌａｎｇｕａｇｅ"の確率ω^Ｘ→Ｙ _{ｉｊ＾ｋ＾ｌ}が０．８であり、"ｌａｎｇｕａｇｅ"から予測した最良スパン"言語"の確率ω^Ｙ→Ｘ _{＾ｉ＾ｊｋｌ}が０．６であり、その平均が０．７である。０．７は閾値以上であるので、"言語"と"ｌａｎｇｕａｇｅ"は対応すると判断できる。よって、単語対応生成部１２３は、"言語"と"ｌａｎｇｕａｇｅ"の単語対を、単語対応の結果の１つとして生成し、出力する。

【0268】

図１８の例において、"ｉｓ"と"で"という単語対は、片方向（英語から日本語）からしか予測されていないが、双方向平均確率が閾値以上なので対応しているとみなされる。

【0269】

閾値０．４は、後述する日本語と英語の単語対応の学習データを半分に分け、片方を訓練データ、もう片方をテストデータとする予備実験により決定した閾値である。後述する全ての実験でこの値を使用した。各方向のスパン予測は独立に行われるので、対称化のためにスコアを正規化する必要が生じる可能性があるが、実験では双方向を一つのモデルで学習しているので正規化の必要はなかった。

【0270】

（実施例２：実施の形態の効果）
実施例２で説明した単語対応装置３００により、単語対応を付与する言語対に関する大量の対訳データを必要とせず、従来よりも少量の教師データ（人手により作成された正解データ）から、従来よりも高精度な教師あり単語対応を実現できる。

【0271】

（実施例２：実験について）
実施例２に係る技術を評価するために、単語対応の実験を行ったので、以下、実験方法と実験結果について説明する。

【0272】

＜実施例２：実験データについて＞
図１９に、中国語－英語（Ｚｈ－Ｅｎ）、日本語－英語（Ｊａ－Ｅｎ）、ドイツ語－英語（Ｄｅ－Ｅｎ）、ルーマニア語－英語（Ｒｏ－Ｅｎ）、英語－フランス語（Ｅｎ－Ｆｒ）の５つの言語対について、人手により作成した単語対応の正解（ｇｏｌｄｗｏｒｄａｌｉｇｎｍｅｎｔ）の訓練データとテストデータの文数を示す。また、図１９の表にはリザーブしておくデータの数も示されている。

【0273】

従来技術［２０］を用いた実験では、Ｚｈ－Ｅｎデータを使用し、従来技術［９］の実験では、Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒのデータを使用した。本実施の形態の技術に係る実験では、世界で最も遠い（ｄｉｓｔａｎｔ）言語対の一つであるＪａ－Ｅｎデータを加えた。

【0274】

Ｚｈ－Ｅｎデータは、GALE Chinese-English Parallel Aligned Treebank［１２］から得たもので、ニュース放送（ｂｒｏａｄｃａｓｔｉｎｇｎｅｗｓ）、ニュース配信（ｎｅｗｓｗｉｒｅ）、Ｗｅｂデータ等を含む。文献［２０］に記載されている実験条件にできるだけ近付けるために、中国語が文字単位で分割された（ｃｈａｒａｃｔｅｒｔｏｋｅｎｉｚｅｄ）対訳テキストを使用し、対応誤りやタイムスタンプ等を取り除いてクリーニングし、無作為に訓練データ８０％，テストデータ１０％，リザーブ１０％に分割した。

【0275】

日本語－英語データとして、ＫＦＴＴ単語対応データ［１４］を用いた。Kyoto Free Translation Task (KFTT)（http://www.phontron.com/kftt/index.html）は、京都に関する日本語Ｗｉｋｉｐｅｄｉａの記事を人手により翻訳したものであり、４４万文の訓練データ、１１６６文の開発データ、１１６０文のテストデータから構成される。ＫＦＴＴ単語対応データは、ＫＦＴＴの開発データとテストデータの一部に対して人手で単語対応を付与したもので、開発データ８ファイルとテストデータ７ファイルからなる。本実施の形態に係る技術の実験では、開発データ８ファイルを訓練に使用し、テストデータのうち４ファイルをテストに使用して、残りはリザーブとした。

【0276】

Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒデータは、文献［２７］に記載されているものである、著者らは前処理と評価のためのスクリプトを公開している（https://github.com/lilt/alignment-scripts）。従来技術［９］では、これらのデータを実験に使用している。Ｄｅ－Ｅｎデータは文献［２４］（https://www-i6.informatik.rwth-aachen.de/goldAlignment/）に記載されている。Ｒｏ－ＥｎデータとＥｎ－Ｆｒデータは、HLT-NAACL-2003 workshop on Building and Using Parallel Texts［１３］（https://eecs.engin.umich.edu/）の共通タスクとして提供されたものである。Ｅｎ－Ｆｒデータは、もともと文献［１５］に記載されている。Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒデータの文数は５０８，２４８，４４７である。Ｄｅ－ＥｎとＥｎ－Ｆｒについて、本実施の形態では３００文を訓練に使用し、Ｒｏ－Ｅｎについては１５０文を訓練に使用した。残りの文はテストに使用した。

【0277】

＜単語対応の精度の評価尺度＞
単語対応の評価尺度として、実施例２では、適合率（ｐｒｅｃｉｓｉｏｎ）と再現率（ｒｅｃａｌｌ）に対して等しい重みをもつＦ１スコアを用いる。

【0278】

【数36】

一部の従来研究はＡＥＲ（ａｌｉｇｎｍｅｎｔｅｒｒｏｒｒａｔｅ，単語誤り率）［１６］しか報告していないので、従来技術と本実施の形態に係る技術との比較のためにＡＥＲも使用する。

【0279】

人手で作成した正解単語対応（ｇｏｌｄｗｏｒｄａｌｉｇｎｍｅｎｔ）が確実な対応（ｓｕｒｅ，Ｓ）と可能な対応（ｐｏｓｓｉｂｌｅ，Ｐ）から構成されるとする。ただしＳ⊆Ｐである。単語対応Ａの適合率（ｐｒｅｃｉｓｉｏｎ）、再現率（ｒｅｃａｌｌ）、ＡＥＲを以下のように定義する。

【0280】

【数37】

【0281】

【数38】

【0282】

【数39】

文献［７］では、ＡＥＲは適合率を重視し過ぎるので欠陥があると指摘している。つまり、システムにとって確信度が高い少数の対応点だけを出力すると、不当に小さい（＝良い）値を出すことができる。従って、本来、ＡＥＲは使用すべきではない。しかし、従来手法では、文献［９］がＡＥＲを使用している。もしも、ｓｕｒｅとｐｏｓｓｉｂｌｅの区別をすると、再現率と適合率は、ｓｕｒｅとｐｏｓｓｉｂｌｅの区別をしない場合と異なることに注意が必要である。５つのデータのうち、Ｄｅ－ＥｎとＥｎ－Ｆｒにはｓｕｒｅとｐｏｓｓｉｂｌｅの区別がある。

【0283】

＜単語対応の精度の比較＞
図２０に、実施例２に係る技術と従来技術との比較を示す。５つの全てのデータについて実施例２に係る技術は全ての従来技術よりも優れている。

【0284】

例えばＺｈ－Ｅｎデータでは、実施例２に係る技術はＦ１スコア８６．７を達成し、教師あり学習による単語対応の現在最高精度（ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ）である文献［２０］に報告されているＤｉｓｃＡｌｉｇｎのＦ１スコア７３．４より１３．３ポイント高い。文献［２０］の方法は、翻訳モデルを事前訓練するために４百万文対の対訳データを使用しているのに対して、実施例２に係る技術では事前訓練に対訳データを必要としない。Ｊａ－Ｅｎデータでは、実施例２はＦ１スコア７７．６を達成し、これはＧＩＺＡ＋＋のＦ１スコア５７．８より２０ポイント高い。

【0285】

Ｄｅ－ＥＮ，Ｒｏ－ＥＮ，Ｅｎ－Ｆｒデータについては、教師なし学習による単語対応の現在最高精度を達成している文献［９］の方法がＡＥＲのみを報告しているので、本実施の形態でもＡＥＲで評価する。比較のために同じデータに対するＭＧＩＺＡのＡＥＲや従来の他の手法のＡＥＲも記載する［２２，１０］。

【0286】

実験に際して、Ｄｅ－Ｅｎデータはｓｕｒｅとｐｏｓｓｉｂｌｅの両方の単語対応点を本実施の形態の学習に使用したが、Ｅｎ－Ｆｒデータはとても雑音が多いのでｓｕｒｅだけを使用した。Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒデータに対する本実施の形態のＡＥＲは、１１．４，１２．２，４．０であり、文献［９］の方法より明らかに低い。

【0287】

教師あり学習の精度と教師なし学習の精度の精度を比較することは、機械学習の評価としては明らかに不公平である。もともと評価用に人手で作成された正解データよりも少ない量の正解データ（１５０文から３００文程度）を使って、従来報告されている最高精度を上回る精度を達成できることができるので、教師あり単語対応は高い精度を得るための実用的な方法であることを示すことがこの実験の目的である。

【0288】

＜実施例２：対称化の効果＞
実施例２における対称化の方法である双方向平均（ｂｉｄｉ－ａｖｇ）の有効性を示すために、図２１に二方向の予測、集合積、集合和、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌ，ｂｉｄｉ－ａｖｇの単語対応精度を示す。ａｌｉｇｎｍｅｎｔ単語対応精度は目的言語の正書法に大きく影響される。日本語や中国語のように単語と単語の間にスペースを入れない言語では、英語への（ｔｏ－Ｅｎｇｌｉｓｈ）スパン予測精度は、英語からの（ｆｒｏｍ－Ｅｎｇｌｉｓｈ）スパン予測精度より大きく高い。このような場合、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌの方がｂｉｄｉ－ａｖｇより良い。一方、ドイツ語、ルーマニア語、フランス語のように単語間にスペースを入れる言語では、英語へのスパン予測と英語からのスパン予測に大きな違いはなく、ｂｉｄｉ－ａｖｇよりｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌの方がよい。Ｅｎ－Ｆｒデータでは集合積が、一番精度が高いが、これはもともとデータに雑音が多いためであると思われる。

【0289】

＜原言語文脈の重要性＞
図２２に、原言語単語の文脈の大きさを変えた際の単語対応精度の変化を示す。ここではＪａ－Ｅｎデータを使用した。原言語単語の文脈は目的言語スパンの予測に非常に重要であることがわかる。

【0290】

文脈がない場合、実施例２のＦ１スコアは５９．３であり、ＧＩＺＡ＋＋のＦ１スコア５７．６よりわずかに高い程度である。しかし前後２単語の文脈を与えるだけで７２．０になり、文全体を文脈として与えると７７．６になる。

【0291】

＜学習曲線＞
図２３に、Ｚｈ－Ｅｎデータを使った場合における実施例２の単語対応手法の学習曲線を示す。学習データが多ければ多いほど精度が高いのは当然であるが、少ない学習データでも従来の教師あり学習手法より精度が高い。学習データが３００文の際の本実施の形態に係る技術のＦ１スコア７９．６は、現在最高精度である文献［２０］の手法が４８００文を使って学習した際のＦ１スコア７３．４より６．２ポイント高い。

【0292】

（実施例２のまとめ）
以上説明したように、実施例２では、互いに翻訳になっている二つの文において単語対応を求める問題を、ある言語の文の各単語に対応する別の言語の文の単語又は連続する単語列（スパン）を独立に予測する問題（言語横断スパン予測）の集合として捉え、人手により作成された少数の正解データからニューラルネットワークを用いて言語横断スパン予測器を学習（教師あり学習）することにより、高精度な単語対応を実現している。

【0293】

言語横断スパン予測モデルは、複数の言語についてそれぞれの単言語テキストだけを使って作成された事前学習済み多言語モデルを、人手により作成された少数の正解データを用いてファインチューニングすることにより作成する。Ｔｒａｎｓｆｏｒｍｅｒ等の機械翻訳モデルをベースとする従来手法が翻訳モデルの事前学習に数百万文対の対訳データを必要とするのと比較すると、利用できる対訳文の量が少ない言語対や領域に対しても本実施の形態に係る技術を適用することができる。

【0294】

実施例２では、人手により作成された正解データが３００文程度あれば、従来の教師あり学習や教師なし学習を上回る単語対応精度を達成することができる。文献［２０］によれば、３００文程度の正解データは数時間で作成することができるので、本実施の形態により、現実的なコストで高い精度の単語対応を得ることができる。

【0295】

また、実施例２では、単語対応を、ＳＱｕＡＤｖ２．０形式の言語横断スパン予測タスクという汎用的な問題に変換したことにより、多言語の事前学習済みモデルや質問応答に関する最先端の技術を容易に取り入れて性能向上を図ることができる。例えば、より高い精度のモデルを作るためにＸＬＭ－ＲｏＢＥＲＴａ［２］を用いたり、より少ない計算機資源で動くコンパクトなモデルを作るためにｄｉｓｔｉｌｍＢＥＲＴ［１９］を使うことが可能である。

【0296】

［実施例２の参考文献］
[1] Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics,Vol. 19, No. 2, pp. 263-311, 1993.
[2] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. Unsupervised Cross-lingual Representation Learning at Scale. arXiv:1911.02116, 2019.
[3] Alexis Conneau and Guillaume Lample. Cross-lingual Language Model Pretraining. In Proceedings of NeurIPS-2019, pp. 7059-7069, 2019.
[4] John DeNero and Dan Klein. The Complexity of Phrase Alignment Problems. In Proceedings of the ACL-2008, pp. 25-28, 2008.
[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the NAACL-2019, pp. 4171-4186, 2019.
[6] Chris Dyer, Victor Chahuneau, and Noah A. Smith. A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of the NAACL-HLT-2013, pp. 644-648, 2013.
[7] Alexander Fraser and Daniel Marcu. MeasuringWord Alignment Quality for Statistical Machine Translation. Computational Linguistics, Vol. 33, No. 3, pp. 293-303, 2007.
[8] Qin Gao and Stephan Vogel. Parallel Implementations of Word Alignment Tool. In Proceedings of ACL 2008 workshop on Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pp. 49-57, 2008.
[9] Sarthak Garg, Stephan Peitz, Udhyakumar Nallasamy, and Matthias Paulik. Jointly Learning to Align and Translate with Transformer Models. In Proceedings of the EMNLP-IJCNLP-2019, pp.4452-4461, 2019.
[10] Aria Haghighi, John Blitzer, John DeNero, and Dan Klein. Better Word Alignments with Supervised ITG Models. In Proceedings of the ACL-2009, pp. 923-931, 2009.
[11] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the ACL-2007, pp. 177-180, 2007.
[12] Xuansong Li, Stephen Grimes, Stephanie Strassel, Xiaoyi Ma, Nianwen Xue, Mitch Marcus, and Ann Taylor. GALE Chinese-English Parallel Aligned Treebank - Training. Web Download, 2015. LDC2015T06.
[13] Rada Mihalcea and Ted Pedersen. An Evaluation Exercise for Word Alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond, pp. 1-10, 2003.
[14] Graham Neubig. Kyoto Free Translation Task alignment data package. http://www.phontron.com/kftt/, 2011.
[15] Franz Josef Och and Hermann Ney. Improved Statistical Alignment Models. In Proceedings of ACL-2000, pp. 440-447, 2000.
[16] Franz Josef Och and Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, Vol. 29, No. 1, pp. 19-51, 2003.
[17] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know What You Don't Know: Unanswerable Questions for SQuAD. In Proceedings of the ACL-2018, pp. 784-789, 2018.
[18] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. SQuAD: 100,000+ Questions for Machine Comprehension of Text. In Proceedings of EMNLP-2016, pp. 2383-2392, 2016.
[19] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108, 2019.
[20] Elias Stengel-Eskin, Tzu ray Su, Matt Post, and Benjamin Van Durme. A Discriminative Neural Model for Cross-Lingual Word Alignment. In Proceedings of the EMNLP-IJCNLP-2019, pp. 910-920, 2019.
[21] Akihiro Tamura, Taro Watanabe, and Eiichiro Sumita. Recurrent Neural Networks for Word Alignment Model. In Proceedings of the ACL-2014, pp. 1470-1480, 2014.
[22] Ben Taskar, Simon Lacoste-Julien, and Dan Klein. A Discriminative Matching Approach to Word Alignment. In Proceedings of the HLT-EMNLP-2005, pp. 73-80, 2005.
[23] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.
[24] David Vilar, Maja Popovi´c, and Hermann Ney. AER: Do we need to "improve" our alignments? In Proceedings of IWSLT-2006, pp. 2005-212, 2006.
[25] Stephan Vogel, Hermann Ney, and Christoph Tillmann. HMM-Based Word Alignment in Statistical Translation. In Proceedings of COLING-1996, 1996.
[26] Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of the ACL-2013, pp. 166-175, 2013.
[27] Thomas Zenkel, Joern Wuebker, and John DeNero. Adding Interpretable Attention to Neural Translation Models Improves Word Alignment. arXiv:1901.11359, 2019.
（付記）
本明細書には、少なくとも下記付記各項の対応装置、学習装置、対応方法、プログラム、及び記憶媒体が開示されている。なお、下記の付記項１、６、１０の「ドメイン横断のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測する」について、「ドメイン横断のスパン予測問題とその回答からなる」は「データ」に係り、「...．データを用いて作成した」は「スパン予測モデル」に係る。
（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
第一ドメイン系列情報と第二ドメイン系列情報とを入力とし、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間のスパン予測問題を生成し、
ドメイン横断のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測する
対応装置。
（付記項２）
前記スパン予測モデルは、前記データを用いて事前学習済みモデルの追加学習を行うことにより得られたモデルである
付記項１に記載の対応装置。
（付記項３）
前記第一ドメイン系列情報及び前記第二ドメイン系列情報における系列情報は文書であり、
前記プロセッサは、前記第一ドメイン系列情報から前記第二ドメイン系列情報へのスパン予測における第一スパンの質問により第二スパンを予測する確率と、前記第二ドメイン系列情報から前記第一ドメイン系列情報へのスパン予測における、前記第二スパンの質問により前記第一スパンを予測する確率とに基づいて、前記第一スパンの文集合と前記第二スパンの文集合とが対応するか否かを判断する
付記項１又は２に記載の対応装置。
（付記項４）
前記プロセッサは、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間の文集合の対応関係のコストの和が最小となるように、整数線形計画問題を解くことによって、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間の文集合の対応を生成する
付記項３に記載の対応装置。
（付記項５）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
第一ドメイン系列情報と第二ドメイン系列情報とを有する対応データから、スパン予測問題とその回答とを有するデータを生成し、
前記データを用いて、スパン予測モデルを生成する
学習装置。
（付記項６）
コンピュータが、
第一ドメイン系列情報と第二ドメイン系列情報とを入力とし、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間のスパン予測問題を生成する問題生成ステップと、
ドメイン横断のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測ステップと
を行う対応方法。
（付記項７）
コンピュータが、
第一ドメイン系列情報と第二ドメイン系列情報とを有する対応データから、スパン予測問題とその回答とを有するデータを生成する問題回答生成ステップと、
前記データを用いて、スパン予測モデルを生成する学習ステップと
を行う学習方法。
（付記項８）
コンピュータを、付記項１ないし４のうちいずれか１項に記載の対応装置として機能させるためのプログラム。
（付記項９）
コンピュータを、付記項５に記載の学習装置として機能させるためのプログラム。
（付記項１０）
対応処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記対応処理は、
第一ドメイン系列情報と第二ドメイン系列情報とを入力とし、前記第一ドメイン系列情報と前記第二ドメイン系列情報との間のスパン予測問題を生成し、
ドメイン横断のスパン予測問題とその回答からなるデータを用いて作成したスパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測する
非一時的記憶媒体。
（付記項１１）
学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習処理は、
第一ドメイン系列情報と第二ドメイン系列情報とを有する対応データから、スパン予測問題とその回答とを有するデータを生成し、
前記データを用いて、スパン予測モデルを生成する
非一時的記憶媒体。

【0297】

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0298】

１００文対応装置
１１０言語横断スパン予測モデル学習部
１１１文対応データ格納部
１１２文対応生成部
１１３文対応疑似正解データ格納部
１１４言語横断スパン予測問題回答生成部
１１５言語横断スパン予測疑似正解データ格納部
１１６スパン予測モデル学習部
１１７言語横断スパン予測モデル格納部
１２０文対応実行部
１２１単言語横断スパン予測問題生成部
１２２スパン予測部
１２３文対応生成部
２００事前学習装置
２１０多言語データ格納部
２２０多言語モデル学習部
２３０事前学習済み多言語モデル格納部
３００単語対応装置
３１０言語横断スパン予測モデル学習部
３１１単語対応正解データ格納部
３１２言語横断スパン予測問題回答生成部
３１３言語横断スパン予測正解データ格納部
３１４スパン予測モデル学習部
３１５言語横断スパン予測モデル格納部
３２０単語対応実行部
３２１単言語横断スパン予測問題生成部
３２２スパン予測部
３２３単語対応生成部
４００事前学習装置
４１０多言語データ格納部
４２０多言語モデル学習部
４３０事前学習済み多言語モデル格納部
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置

【図1】