特開2023-129119 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東北大学の特許一覧

特開2023-129119対訳情報収集装置、対訳情報収集方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023129119

(43)【公開日】2023-09-14

(54)【発明の名称】対訳情報収集装置、対訳情報収集方法及びプログラム

(51)【国際特許分類】

G06F 40/45 20200101AFI20230907BHJP

G06F 40/51 20200101ALI20230907BHJP

G06Q 50/10 20120101ALI20230907BHJP

【ＦＩ】

G06F40/45

G06F40/51

G06Q50/10

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022033921

(22)【出願日】2022-03-04

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り２０２１年３月８日及び２０２１年３月１８日に言語処理学会第２７回年次大会にて公開

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504157024

【氏名又は名称】国立大学法人東北大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】森下睦

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】鈴木潤

【テーマコード（参考）】

5B091

5L049

【Ｆターム（参考）】

5B091AA03

5B091EA01

5L049CC12

(57)【要約】

【課題】クラウドソーシングを利用して品質の良い対訳文を収集すること。
【解決手段】一実施形態に係る対訳情報収集装置は、クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集するように構成されている収集部と、前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集するように構成されている収集部と、
前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部と、
を有する対訳情報収集装置。

【請求項2】

前記評価部は、
前記文書対に含まれる対訳文の数と前記対訳文の翻訳品質とを表す翻訳品質スコア、及び、前記文書対の領域と前記対象領域との類似度を表す領域類似度スコア、の少なくとも一方を前記評価スコアとして計算するように構成されている、請求項１に記載の対訳情報収集装置。

【請求項3】

前記報酬計算部は、
前記文書対の所在を示す所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている、請求項１又は２に記載の対訳情報収集装置。

【請求項4】

クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得するように構成されている取得部と、
前記所在情報によって示される文書対に含まれる対訳文を抽出するように構成されている抽出部と、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、
を有する対訳情報収集装置。

【請求項5】

前記所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部、を更に有する請求項４に記載の対訳情報収集装置。

【請求項6】

クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集する収集手順と、
前記文書対の品質を所定の指標により評価した評価スコアを計算する評価手順と、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する報酬計算手順と、
をコンピュータが実行する対訳情報収集方法。

【請求項7】

クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得する取得手順と、
前記所在情報によって示される文書対に含まれる対訳文を抽出する抽出手順と、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算する評価手順と、
をコンピュータが実行する対訳情報収集方法。

【請求項8】

コンピュータを、請求項１乃至５の何れか一項に記載の対訳情報収集装置として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、対訳情報収集装置、対訳情報収集方法及びプログラムに関する。

【背景技術】

【0002】

近年、ニューラル機械翻訳の研究が盛んに行われている。ニューラル機械翻訳ではモデル学習等のために対訳コーパスを用意する必要があり、その収集手法も重要な研究対象となっている。

【0003】

対訳コーパスの収集手法として、クラウドソーシングを利用した手法が従来から提案されている。例えば、非特許文献１では、クラウドワーカーを使って人手で単言語データを翻訳し、その単言語データと翻訳後のデータを対訳コーパスとする手法が提案されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Marimuthu Kalimuthu, Michael Barz, Daniel Sonntag, "Incremental Domain Adaptation for Neural Machine Translation in Low-Resource Settings", Proceedings of the Fourth Arabic Natural Language Processing Workshop.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来手法では、クラウドワーカーによってはその作業品質が十分でないことがあった。例えば、非特許文献１では、人手で翻訳を行っているため、クラウドワーカーによっては対訳文の品質が十分でないことがある。

【0006】

本発明の一実施形態は、上記の点に鑑みてなされたもので、クラウドソーシングを利用して品質の良い対訳文を収集することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するため、一実施形態に係る対訳情報収集装置は、クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集するように構成されている収集部と、前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部と、を有する。

【発明の効果】

【0008】

クラウドソーシングを利用して品質の良い対訳文を収集することができる。

【図面の簡単な説明】

【0009】

【図1】本実施形態に係る対訳情報収集システムの全体構成の一例を示す図である。

【図2】クラウドソーシングによる対訳文収集の流れを説明するための図である。

【図3】本実施形態に係る対訳情報収集装置のハードウェア構成の一例を示す図である。

【図4】本実施形態に係る対訳情報収集装置の機能構成の一例を示す図である。

【図5】本実施形態に係る対訳文評価部の詳細な機能構成の一例を示す図である。

【図6】条件取得から条件提示までの処理の流れの一例を示すフローチャートである。

【図7】所在情報取得から報酬のフィードバックまでの処理の流れの一例を示すフローチャートである。

【図8】本実施形態に係る対訳文評価部の詳細な機能構成の変形例１を示す図である。

【図9】本実施形態に係る対訳文評価部の詳細な機能構成の変形例２を示す図である。

【発明を実施するための形態】

【0010】

以下、本発明の一実施形態について説明する。以下で説明する実施形態では、ニューラル機械翻訳の翻訳モデルを学習（ファインチューニング等も含む）するための対訳文を収集する場合を想定し、クラウドソーシングを利用して品質の良い対訳文を収集することができる対訳情報収集システム１について説明する。ここで、対訳文とは、原言語文とその文を目的言語に翻訳した目的言語文との組のことをいう。また、以下では、１以上の原言語文が含まれる文書のことを「原言語文書」、１以上の目的言語文が含まれる文書を「目的言語文書」と呼び、原言語文書とその文書中の少なくとも一部の原言語文を目的言語に翻訳した目的言語文が含まれる目的言語文書との組を「対訳文書」と呼ぶことにする。

【0011】

＜対訳情報収集システム１の全体構成例＞
本実施形態に係る対訳情報収集システム１の全体構成例を図１に示す。図１に示すように、本実施形態に係る対訳情報収集システム１には、対訳情報収集装置１０と、作業依頼者端末２０と、１以上の作業者端末３０とが含まれる。また、対訳情報収集装置１０と作業依頼者端末２０と各作業者端末３０は、インターネット等を含む通信ネットワーク４０を介して通信可能に接続される。

【0012】

対訳情報収集装置１０は、クラウドソーシングを利用して対訳文書の所在情報（つまり、原言語文書の所在情報とそれに対応する目的言語文書の所在情報）を収集し、それらの対訳文書から対訳文を収集するサーバ等のコンピュータ又はコンピュータシステムである。このとき、対訳情報収集装置１０は、作業依頼者によって指定された条件を作業者（クラウドワーカー）に提示し、それらの作業者から対訳文書の所在情報を収集する。また、対訳情報収集装置１０は、作業者から収集した対訳文書の品質を評価した上で、その評価に応じた報酬を作業者に支払う。

【0013】

作業依頼者端末２０は、作業依頼者が利用する各種端末（例えば、ＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末等）であり、対訳文書の所在情報を収集するための条件を対訳情報収集装置１０に指定する。

【0014】

作業者端末３０は、作業者（クラウドワーカー）が利用する各種端末であり、対訳文書の所在情報を対訳情報収集装置１０に提供する。

【0015】

なお、図１に示す対訳情報収集システム１の全体構成は一例であって、これに限られるものではなく、他の構成であってもよい。例えば、作業依頼者の利用する端末が対訳情報収集装置１０として機能する場合には、作業依頼者端末２０は無くてもよい。又は、例えば、作業依頼者が複数存在する場合には、複数の作業依頼者端末２０が存在してもよい。また、例えば、或る同一人物が作業依頼者になると共に作業者になることもあるため、このような場合には、作業依頼者端末２０と作業者端末３０とが同一の端末で実現されていてもよい。

【0016】

＜クラウドソーシングによる対訳文収集の流れ＞
クラウドソーシングにより対訳文を収集する際の流れについて、図２を参照しながら説明する。

【0017】

（１）作業依頼者は、作業依頼者端末２０を用いて、収集対象とする対訳文に関する条件（例えば、領域、言語（原言語、目的言語）等）を対訳情報収集装置１０に指定する。ここで、領域とは、対訳文の収集対象とする分野のことである。領域の具体例としては、例えば、「ニュース」、「科学」、「法律」、「特許」、「ＣＯＶＩＤ－１９」等といったものが挙げられる。言語は、原言語と目的言語の両方が指定されてもよいし、原言語と目的言語のいずれか一方のみが指定されてもよい。以下、上記の条件に含まれる領域を「対象領域」と呼ぶことにする。

【0018】

（２）対訳情報収集装置１０は、作業依頼者から指定された条件を作業者（クラウドワーカー）に提示する。なお、条件の提示方法は任意の方法を用いることができる。例えば、Ｗｅｂページ上に条件を掲載することで提示してもよいし、条件が記載された電子メール等を作業者に送信することで提示してもよい。ここで、条件として対象領域が含まれる場合、その対象領域に関する少量の対訳文（例えば、数１０～１０００文程度の対訳文）が作業依頼者に提示されてもよい。

【0019】

（３）作業者は、対訳情報収集装置１０から提示された条件等に基づいて、対訳文書を見つける。そして、作業者は、作業者端末３０を用いて、その対訳文書の所在を示す所在情報を対訳情報収集装置１０に送信する。ここで、以下では、一例として、文書はＷｅｂページであり、所在情報はそのＷｅｂページのＵＲＬ（Uniform Resource Locator）であるものとする。したがって、以下では、対訳文書の所在情報は、原言語のＷｅｂページのＵＲＬと、それに対応する目的言語のＷｅｂページのＵＲＬとの組である。ただし、これは一例であって、これに限られるものではない。例えば、原言語文書及び目的言語文書はそれぞれ原言語及び目的言語で記載された電子的なコンテンツであり、その所在情報はＤＯＩ（Digital Object Identifier）等であってもよい。

【0020】

（４）対訳情報収集装置１０は、対訳文書の所在情報から対訳文を抽出すると共にその対訳文書の品質を評価し、その評価に応じた報酬（例えば、金銭的な報酬）を計算する。

【0021】

（５）対訳情報収集装置１０は、報酬を作業者にフィードバックする。これにより、各作業者は、より高い報酬が得られるように、より品質の良い対訳文書（例えば、条件を満たし、かつ、多くの対訳文が抽出できる対訳文書等）を探すようになると考えられる。このため、例えば、上記の（３）～（５）を繰り返すことで、品質の良い対訳文の収集が可能になると考えられる。

【0022】

＜対訳情報収集装置１０のハードウェア構成例＞
本実施形態に係る対訳情報収集装置１０のハードウェア構成例を図３に示す。図３に示すように、本実施形態に係る対訳情報収集装置１０は、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、ＲＡＭ（Random Access Memory）１０５と、ＲＯＭ（Read Only Memory）１０６と、補助記憶装置１０７と、プロセッサ１０８とを有する。これらの各ハードウェアは、それぞれがバス１０９を介して通信可能に接続されている。

【0023】

入力装置１０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン、スイッチ等である。表示装置１０２は、例えば、ディスプレイ、表示パネル等である。なお、対訳情報収集装置１０は、例えば、入力装置１０１及び表示装置１０２のうちの少なくとも一方を有していなくてもよい。

【0024】

外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。対訳情報収集装置１０は、外部Ｉ／Ｆ１０３を介して、記録媒体１０３ａの読み取りや書き込み等を行うことができる。なお、記録媒体１０３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

【0025】

通信Ｉ／Ｆ１０４は、対訳情報収集装置１０を通信ネットワーク４０に接続するためのインタフェースである。ＲＡＭ１０５は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。ＲＯＭ１０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。補助記憶装置１０７は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等のストレージ装置（記憶装置）である。プロセッサ１０８は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の演算装置である。

【0026】

本実施形態に係る対訳情報収集装置１０は、図３に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図３に示すハードウェア構成は一例であって、対訳情報収集装置１０のハードウェア構成はこれに限られるものではない。例えば、対訳情報収集装置１０は、複数の補助記憶装置１０７や複数のプロセッサ１０８を有していてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。

【0027】

＜対訳情報収集装置１０の機能構成例＞
本実施形態に係る対訳情報収集装置１０の機能構成例を図４に示す。図４に示すように、本実施形態に係る対訳情報収集装置１０は、条件取得部２０１と、条件提示部２０２と、所在情報取得部２０３と、対訳文書取得部２０４と、対訳文評価部２０５と、報酬計算部２０６と、出力部２０７とを有する。これら各部は、例えば、対訳情報収集装置１０にインストールされた１以上のプログラムが、プロセッサ１０８に実行させる処理により実現される。

【0028】

条件取得部２０１は、作業依頼者端末２０によって指定された条件（例えば、対象領域、言語（原言語、目的言語）等）を取得する。

【0029】

条件提示部２０２は、条件取得部２０１によって取得された条件を作業者端末３０に提示する。なお、このとき、条件提示部２０２は、当該条件に含まれる対象領域に関する少量の対訳文（例えば、数１０～１０００文程度の対訳文）を提示してもよい。以下、これらの対訳文で構成されるコーパスを「Ｄｅｖセット」と呼ぶことにする。

【0030】

ここで、ＤｅｖセットはＭ個の対訳文書から作成されており、Ｄｅｖセットは文書単位に分割されていると仮定する。すなわち、Ｄｅｖセットに含まれる各対訳文の各々は、Ｍ個の対訳文書のいずれかの対訳文書から抽出されたものであると仮定する。

【0031】

所在情報取得部２０３は、対訳文書の所在情報（つまり、原言語のＷｅｂページのＵＲＬと、それに対応する目的言語のＷｅｂページのＵＲＬの組）を作業者端末３０から取得する。

【0032】

対訳文書取得部２０４は、所在情報取得部２０３によって取得された所在情報を用いて、対訳文書を取得する。すなわち、対訳文書取得部２０４は、原言語のＷｅｂページのＵＲＬとそれに対応する目的言語のＷｅｂページのＵＲＬとを用いて、原言語のＷｅｂページとそれに対応する目的言語のＷｅｂページとを対訳文書として取得する。

【0033】

対訳文評価部２０５は、対訳文書取得部２０４によって取得された対訳文書（原言語文書とそれに対応する目的言語文書の組）から対訳文を抽出すると共に、その対訳文書の品質を評価する。以下、対訳文書の品質は何等かの評価指標によって数値として計算されるものとし、対訳文書の品質を表す評価指標値を「評価スコア」と呼ぶことにする。評価スコアとしては、例えば、後述する対訳品質スコアＳ_ａと領域類似度スコアＳ_ｄの少なくとも一方を含むスコアを評価スコアとすればよい。なお、対訳文評価部２０５の詳細については後述する。

【0034】

報酬計算部２０６は、対訳文評価部２０５によって計算された評価スコアを用いて、報酬（例えば、金銭的な報酬額）を計算する。報酬の計算方法としては任意の方法を用いることができる。例えば、報酬計算部２０６は、予め決められた係数α，βと定数項ｃと０又は１を取る変数ｈとを用いて、ｒ＝（ｃ＋αＳ_ａ＋βＳ_ｄ）×ｈにより報酬ｒを計算すればよい。ここで、α，βはそれぞれ対訳品質スコアＳ_ａと領域類似度スコアＳ_ｄの重みを表し、例えば、報酬の予算、収集したい対訳文数等に応じてその値が決定される。定数項ｃは少なくとも１つの対訳文が抽出できたときの最低報酬額を表し、例えば、報酬の予算等に応じてその値が決定される。また、ｈは対訳文書取得部２０４によって取得された対訳文書から少なくとも１つの対訳文が抽出された場合は１、それ以外は０を取る。なお、報酬は金銭に限られるものではなく、例えば、ポイント等といったものでもよく、作業者がより高い報酬を得たいと所望するものであればなんでもよい。

【0035】

出力部２０７は、報酬計算部２０６によって計算された報酬を、対訳文書の所在情報に対するフィードバックとして作業者端末３０に出力する。なお、これに加えて、出力部２０７は、対訳文評価部２０５によって抽出された対訳文を所定の出力先（例えば、補助記憶装置１０７、作業依頼者端末２０、作業者端末３０等）に出力してもよい。

【0036】

≪対訳文評価部２０５の詳細な機能構成例≫
本実施形態に係る対訳文評価部２０５の詳細な機能構成例を図５に示す。図５に示すように、本実施形態に係る対訳文評価部２０５には、対訳文抽出部２１１と、対訳品質推定部２１２と、領域類似度推定部２１３とが含まれる。

【0037】

対訳文抽出部２１１は、対訳文書取得部２０４によって取得された対訳文書から対訳文（つまり、原言語文書と目的言語文書との間で互いに他方の翻訳となっている文対）を抽出する。ここで、対訳文抽出部２１１は、任意の手法により対訳文書から対訳文を抽出すればよい。例えば、対訳文抽出部２１１は、参考文献１の「3.3. Bitext Alignment」に記載されている手法により対訳文を抽出すればよい。具体的には、対訳文抽出部２１１は、ExtractContent（参考文献２）等によりＨＴＭＬ（HyperText Markup Language）形式のＷｅｂページからテキストを抽出し、split-sentences.perl（参考文献３）により文単位に分割した上で、Bitextor（参考文献４）により原言語文書と目的言語文書との間で文の対応付けを行って文対を作成する。そして、対訳文抽出部２１１は、原言語文書の各文に関して、その文が含まれる文対のうち、既存の機械翻訳モデルでその文を目的言語に翻訳したときにＢＬＥＵ（Bilingual Evaluation Understudy）スコアが最も高くなる文対（又は、ＢＬＥＵスコアが或る閾値以上かつ最も高い文対であってもよい。）を対訳文として抽出する。

【0038】

ただし、上記の抽出方法は一例であって、対訳文抽出部２１１は、例えば、文の対応付けにvecalign（参考文献５）を用いてもよい。vecalignは、LASER（参考文献６）の出力である多言語文埋め込みを受け取り、文対とそのスコアを出力するツールである。この場合、対訳文抽出部２１１は、例えば、スコアが０．５以上の文対のみを対訳文として抽出すればよい。

【0039】

対訳品質推定部２１２は、対訳品質推定モデルにより、対訳文抽出部２１１によって抽出された対訳文の品質を表す対訳品質スコアを推定する。対訳品質推定モデルとしては対訳品質スコアを推定又は算出するための任意のモデルを採用することができる。例えば、対訳文抽出部２１１によって抽出された対訳文のスコアの和を対訳品質推定モデルとすることが考えられる。

【0040】

具体的には、対訳文書から抽出された対訳文をＤ＝｛（ｘ_１，ｙ_１），・・・，（ｘ_ｎ，ｙ_ｎ）｝とする。ここで、ｘ_ｉはｉ番目の原言語文、ｙ_ｉはｉ番目の目的言語文である。このとき、対訳品質推定部２１２は、Ｓ_ａ＝Ｖ（ｘ_１，ｙ_１）＋・・・＋Ｖ（ｘ_ｎ，ｙ_ｎ）により対訳品質スコアＳ_ａを算出する。ただし、Ｖ（ｘ_ｉ，ｙ_ｉ）はｉ番目の対訳文のスコア（例えば、vecalignが出力するスコア、ＢＬＥＵスコア等）である。なお、σ（・）をシグモイド関数として、Ｓ_ａ＝σ（Ｖ（ｘ_１，ｙ_１））＋・・・＋σ（Ｖ（ｘ_ｎ，ｙ_ｎ））により対訳品質スコアＳ_ａが算出されてもよい。

【0041】

領域類似度推定部２１３は、領域類似度推定モデルにより、対訳文書に含まれる原言語文書（又は、目的言語文書、若しくは、原言語文書と目的言語文書の両方）の領域と対象領域との類似度を表す領域類似度スコアを推定する。領域類似度推定モデルとしては領域類似度スコアを推定又は算出するための任意のモデルを採用することができる。例えば、（ａ）対象領域の文書全体の平均文埋め込みとのｃｏｓ類似度を用いたモデル、（ｂ）交差エントロピーを用いたドメイン類似度（参考文献７）、等といったものを領域類似度推定モデルとすることができる。以下、一例として、この（ａ）及び（ｂ）により領域類似度スコアを推定する場合について説明する。また、一例として、原言語文書の領域と対象領域の領域類似度スコアを推定する場合について説明する。なお、目的言語文書の領域と対象領域の領域類似度スコアを推定する場合、原言語文書及び目的言語文書の領域と対象領域の領域類似度スコアを推定する場合についても、それぞれ同様に推定することが可能である。

【0042】

（ａ）対象領域の文書全体の平均文埋め込みとのｃｏｓ類似度を用いたモデル
上記と同様に、対訳文書から抽出された対訳文をＤ＝｛（ｘ_１，ｙ_１），・・・，（ｘ_ｎ，ｙ_ｎ）｝とする。また、ｅ＝（１／ｎ）（Ｌ（ｘ_１）＋・・・＋Ｌ（ｘ_ｎ））とする。ここで、Ｌ（ｘ）は文ｘを入力としてLASERから出力される多言語文埋め込みである。

【0043】

一方で、Ｄｅｖセットに含まれる対訳文のうちｍ番目の対訳文書から抽出された対訳文をＤ^（ｍ）＝｛（ｘ_１ ^（ｍ），ｙ_１ ^（ｍ）），・・・，（ｘ_{ｎ_ｍ} ^（ｍ），ｙ_{ｎ_ｍ} ^（ｍ））｝とする（ただし、「ｎ_ｍ」は「ｎ_ｍ」を意味する。）。また、ｅ^（ｍ）＝（１／ｎ_ｍ）（Ｌ（ｘ_１ ^（ｍ））＋・・・＋Ｌ（ｘ_{ｎ_ｍ} ^（ｍ）））とする。

【0044】

このとき、領域類似度推定部２１３は、Ｓ_ｄ＝｜Ｄ｜×ｍａｘ｛（ｅ・ｅ^（１））／（||ｅ|| ||ｅ^（１）||），・・・，（ｅ・ｅ^（Ｍ））／（||ｅ|| ||ｅ^（Ｍ）||）｝により領域類似度スコアＳ_ｄを算出する。すなわち、原言語文書の平均文埋め込みと対象領域の各文書の平均文埋め込みとのｃｏｓ類似度の最大値に対して、対訳文抽出部２１１によって抽出された対訳文数を掛けたものを領域類似度スコアＳ_ｄとする。

【0045】

なお、目的言語文書の領域と対象領域の領域類似度スコアを推定する場合、ｘ_ｉの代わりにｙ_ｉを用いて平均文埋め込みを計算すると共に、ｘ_ｉ ^（ｍ）の代わりにｙ_ｉ ^（ｍ）を用いて平均文埋め込みを計算すればよい。一方で、原言語文書及び目的言語文書の領域と対象領域の領域類似度スコアを推定する場合、ｘ_ｉとｙ_ｉの両方を用いて平均文埋め込みを計算すると共に、ｘ_ｉ ^（ｍ）とｙ_ｉ ^（ｍ）の両方を用いて平均文埋め込みを計算すればよい。

【0046】

（ｂ）交差エントロピーを用いたドメイン類似度
上記と同様に、対訳文書から抽出された対訳文をＤ＝｛（ｘ_１，ｙ_１），・・・，（ｘ_ｎ，ｙ_ｎ）｝とする。このとき、領域類似度推定部２１３は、Ｓ_ｄ＝σ（Ｈ_Ｉ（ｘ_１）－Ｈ_Ｎ（ｘ_１））＋・・・＋σ（Ｈ_Ｉ（ｘ_ｎ）－Ｈ_Ｎ（ｘ_ｎ））により領域類似度スコアＳ_ｄを算出する。ここで、σ（・）はシグモイド関数、Ｈ_Ｉ（・）は対象領域に適応させた単言語モデルによる交差エントロピー、Ｈ_Ｎ（・）は特定領域に特化していない汎用的な単言語モデルによる交差エントロピーである。

【0047】

＜条件取得から条件提示までの処理の流れ＞
条件取得から条件提示までの処理の流れについて、図６を参照しながら説明する。

【0048】

まず、条件取得部２０１は、作業依頼者端末２０によって指定された条件（例えば、対象領域、言語（原言語、目的言語）等）を取得する（ステップＳ１０１）。

【0049】

そして、条件提示部２０２は、上記のステップＳ１０１で取得された条件を作業者端末３０に提示する（ステップＳ１０２）。なお、このとき、条件提示部２０２は、当該条件に含まれる対象領域に関するＤｅｖセットを提示してもよい。

【0050】

以上により、各作業者は、対訳情報収集装置１０から提示された条件に基づいて、その条件を満たす対訳文書を見つけることができる。このとき、各作業者は必ずしも翻訳スキル（原言語から目的言語への翻訳スキル）を要している必要はなく、どの言語のどのような領域の文書（Ｗｅｂページ）であるかを識別することができれば、その条件を満たす対訳文書（Ｗｅｂページ対）を見つけることができる。このため、本実施形態に係る対訳情報収集装置１０によれば、幅広い作業者（クラウドワーカー）に対して条件を提示し、その条件を満たす対訳文書の収集作業を依頼することが可能となる。

【0051】

＜所在情報取得から報酬のフィードバックまでの処理の流れ＞
所在情報取得から報酬のフィードバックまでの処理の流れについて、図７を参照しながら説明する。

【0052】

所在情報取得部２０３は、対訳文書の所在情報（原言語のＷｅｂページのＵＲＬと、それに対応する目的言語のＷｅｂページのＵＲＬの組）を作業者端末３０から取得する（ステップＳ２０１）。

【0053】

次に、対訳文書取得部２０４は、上記のステップＳ２０１で取得された所在情報を用いて、その所在情報によって示される対訳文書を取得する（ステップＳ２０２）。すなわち、対訳文書取得部２０４は、原言語のＷｅｂページとそれに対応する目的言語のＷｅｂページとを対訳文書として取得する。

【0054】

次に、対訳文評価部２０５は、上記のステップＳ２０２で取得された対訳文書の評価スコアを計算する（ステップＳ２０３）。以下、評価スコアとして対訳品質スコアＳ_ａと領域類似度スコアＳ_ｄの少なくとも一方が計算されたものとして説明を続ける。

【0055】

次に、報酬計算部２０６は、上記のステップＳ２０３で計算された評価スコアを用いて、報酬を計算する（ステップＳ２０４）。上述したように、報酬ｒは、例えば、ｒ＝（ｃ＋αＳ_ａ＋βＳ_ｄ）×ｈにより計算される。なお、例えば、対訳品質スコアＳ_ａと領域類似度スコアＳ_ｄのいずれか一方のみを評価スコアとした場合、他方を０として上記の式により報酬ｒを計算すればよい。具体的には、例えば、対訳品質スコアＳ_ａのみを評価スコアとした場合はｒ＝（ｃ＋αＳ_ａ）×ｈにより報酬ｒを計算し、領域類似度スコアＳ_ｄのみを評価スコアとした場合はｒ＝（ｃ＋βＳ_ｄ）×ｈにより報酬ｒを計算すればよい。

【0056】

なお、上記のステップＳ２０４では、報酬ｒを対訳文書単位に計算したが、対訳文単位に報酬が計算されてもよい。例えば、対訳品質スコアＳ_ａのみを評価スコアとした場合、対訳品質スコアＳ_ａはＶ（ｘ_ｉ，ｙ_ｉ）又はσ（Ｖ（ｘ_ｉ，ｙ_ｉ））の和であるため、Ｖ（ｘ_ｉ，ｙ_ｉ）又はσ（Ｖ（ｘ_ｉ，ｙ_ｉ））をｉ番目の対訳文の対訳品質スコアＳ_ａ，ｉとして、ｒ_ｉ＝（ｃ＋αＳ_ａ，ｉ）×ｈによりｉ番目の対訳文に関する報酬ｒ_ｉが計算されてもよい。この場合、報酬ｒ_ｉの和を最終的な報酬ｒとすればよい。

【0057】

そして、出力部２０７は、上記のステップＳ２０４で計算された報酬を対訳文書の所在情報に対するフィードバックとして作業者端末３０に出力する（ステップＳ２０５）。なお、このとき、上記のステップＳ２０３で評価スコアを計算する際に抽出された対訳文が当該作業者端末３０に出力されてもよい。また、それらの対訳文が作業依頼者端末２０に出力されてもよい。

【0058】

以上により、対訳文書の所在情報を提供した作業者に対して報酬を与えることができる。このとき、報酬は、その対訳文書の領域と対象領域との類似度合い、その対訳文書から得られる対訳文の数、翻訳文対としてのその対訳文の正しさ等といった品質に関する評価指標値に応じて計算される。このため、より良い品質の対訳文書の所在情報を提供した作業者には高い報酬が与えられることになり、その結果、各作業者はより良い品質の対訳文書を探すようになることが期待され、より良い品質の対訳文の収集が可能になると考えられる。

【0059】

これにより、例えば、本実施形態に係る対訳情報収集装置１０によって収集された対訳文を用いて汎用翻訳モデルをファインチューニング（追加学習）し、対象領域に特化した高精度な翻訳モデルを作成することが可能となる。特に、既存に公開されている対訳コーパスには十分な量の対訳文が存在しない領域が対象領域である場合に、その対象領域に特化した高精度な翻訳モデルを作成することが可能となる。

【0060】

＜変形例＞
以下、本実施形態に係る対訳文評価部２０５の変形例について説明する。

【0061】

≪変形例１≫
本実施形態に係る対訳文評価部２０５の詳細な機能構成の変形例１を図８に示す。図８に示すように、変形例１における対訳文評価部２０５には、対訳文抽出部２１１のみが含まれる。そして、変形例１では、対訳文抽出部２１１によって対訳文書から抽出された対訳文数を評価スコアとする。なお、評価スコア（対訳文数）をＳとすれば、変形例１では、例えば、ｒ＝（ｃ＋βＳ）×ｈにより報酬ｒを計算すればよい。

【0062】

≪変形例２≫
本実施形態に係る対訳文評価部２０５の詳細な機能構成の変形例２を図９に示す。図９に示すように、変形例２における対訳文評価部２０５には、領域類似度推定部２１３のみが含まれる。そして、変形例２では、領域類似度推定部２１３によって計算された領域類似度スコアＳ_ｄを評価スコアとする。

【0063】

なお、図示していないが、例えば、他の変形例として、対訳文抽出部２１１と対訳品質推定部２１２のみが対訳文評価部２０５に含まれる変形例も考えられる。この場合、対訳品質スコアＳ_ａを評価スコアとすればよい。

【0064】

＜実験＞
以下、本実施形態に係る対訳情報収集装置１０により実験を行った結果について説明する。

【0065】

まず、５日間のクラウドソーシングにより対訳文書の所在情報（ＷｅｂページのＵＲＬ）を収集し、それらの対訳文書から対訳文を抽出する実験を行った。このとき、報酬を固定額（Fixed）とした場合と変動額（Variable）とした場合の２つのケースで実験を行った。また、ベースラインとなる汎用翻訳モデルを準備し、クラウドソーシングを利用して収集及び抽出した対訳文を用いてその汎用翻訳モデルをファインチューニング（追加学習）した上で、Ｄｅｖセットと、このＤｅｖセットとは異なる対訳コーパスであるＴｅｓｔセットとを用いてそれぞれのモデルを評価した。ただし、Ｔｅｓｔセットは、Ｄｅｖセットと同一の領域（対象領域）に関する対訳コーパスである。

【0066】

以下の表１にその結果を示す。

【0067】

【表1】

ここで、表１中、「#URLs」は収集された所在情報数、「#Sentences」は抽出された対訳文数、「Cost(USD)」は報酬額、「Base model」は汎用翻訳モデル、「w/Crawled」はその汎用翻訳モデルをファインチューニングしたモデル（以下、領域特化翻訳モデルという。）を表す。また、「Development BLEU」はＤｅｖセットにより評価したＢＬＥＵスコア、「Test BLEU」はＴｅｓｔセットにより評価したＢＬＥＵスコアを表す。

【0068】

表１に示されるように、汎用翻訳モデルよりも領域特化翻訳モデルの方が、ＢＬＥＵスコアが向上していることがわかる。また、報酬が固定額の場合と変動額の場合とを比較すると、変動額の場合の方がより高いＢＬＥＵスコアとなっていることがわかる。これにより、評価スコアに応じた報酬計算によってより良い品質の対訳文が得られていることがわかる。

【0069】

次に、様々な領域で上記と同様の実験を行った（ただし、クラウドソーシングの期間は１３日、報酬は変動額とした。）。

【0070】

以下の表２にその結果を示す。

【0071】

【表2】

ここで、表２中、「Domain」は対象領域であり、表２では５つの対象領域が示されている。

【0072】

表２に示されるように、すべての領域において、汎用翻訳モデルよりも領域特化翻訳モデルの方が、ＢＬＥＵスコアが向上していることがわかる。

【0073】

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

【0074】

＜実施形態のまとめ＞
本実施形態に係る対訳情報収集装置１０は、クラウドソーシングを利用して対訳文を収集する際にクラウドワーカーによってはその作業品質が十分でないことがあるという従来手法の課題に対して特定の改善を提供するものであり、ニューラル機械翻訳等の自然言語処理技術分野の向上を示すものである。

【0075】

本明細書には、少なくとも下記各項の対訳情報収集装置、対訳情報収集方法及びプログラムが開示されている。

【0076】

（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集し、
前記文書対の品質を所定の指標により評価した評価スコアを計算し、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、
対訳情報収集装置。

【0077】

（付記項２）
前記プロセッサは、
前記文書対に含まれる対訳文の数と前記対訳文の翻訳品質とを表す翻訳品質スコア、及び、前記文書対の領域と前記対象領域との類似度を表す領域類似度スコア、の少なくとも一方を前記評価スコアとして計算する、付記項１に記載の対訳情報収集装置。

【0078】

（付記項３）
前記プロセッサは、
前記文書対の所在を示す所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、付記項１又は２に記載の対訳情報収集装置。

【0079】

（付記項４）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得し、
前記所在情報によって示される文書対に含まれる対訳文を抽出し、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算する、
対訳情報収集装置。

【0080】

（付記項５）
前記プロセッサは、
前記所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、付記項４に記載の対訳情報収集装置。

【0081】

（付記項６）
対訳情報収集処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記対訳情報収集処理は、
クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集し、
前記文書対の品質を所定の指標により評価した評価スコアを計算し、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、
非一時的記憶媒体。

【0082】

（付記項７）
対訳情報収集処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記対訳情報収集処理は、
クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得し、
前記所在情報によって示される文書対に含まれる対訳文を抽出し、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算する、
非一時的記憶媒体。

【0083】

＜参考文献＞
参考文献１：Makoto Morishita, Jun Suzuki, Masaaki Nagata, "JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus", Proceedings of the 12th Language Resources and Evaluation Conference.
参考文献２：ExtractContent, インターネット＜ＵＲＬ：https://github.com/yono/python-extractcontent＞
参考文献３：split-sentences.perl, インターネット＜ＵＲＬ：https://github.com/moses-smt/mosesdecoder/blob/master/scripts/ems/support/split-sentences.perl＞
参考文献４：Bitextor, インターネット＜ＵＲＬ：https://github.com/bitextor/bitextor＞
参考文献５：Brian Thompson and Philipp Koehn. Vecalign: Improved sentence alignment in linear time and space. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1342-1348, 2019.
参考文献６：Mikel Artetxe and Holger Schwenk. Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. Transactions of the Association for Computational Linguistics (TACL), 7:597-610, 2019.
参考文献７：Robert C. Moore, William Lewis, "Intelligent Selection of Language Model Training Data", Proceedings of the ACL 2010 Conference Short Papers.

【符号の説明】

【0084】

１対訳情報収集システム
１０対訳情報収集装置
２０作業依頼者端末
３０作業者端末
４０通信ネットワーク
１０１入力装置
１０２表示装置
１０３外部Ｉ／Ｆ
１０３ａ記録媒体
１０４通信Ｉ／Ｆ
１０５ＲＡＭ
１０６ＲＯＭ
１０７補助記憶装置
１０８プロセッサ
１０９バス
２０１条件取得部
２０２条件提示部
２０３所在情報取得部
２０４対訳文書取得部
２０５対訳文評価部
２０６報酬計算部
２０７出力部
２１１対訳文抽出部
２１２対訳品質推定部
２１３領域類似度推定部

【図1】