(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023129119
(43)【公開日】2023-09-14
(54)【発明の名称】対訳情報収集装置、対訳情報収集方法及びプログラム
(51)【国際特許分類】
G06F 40/45 20200101AFI20230907BHJP
G06F 40/51 20200101ALI20230907BHJP
G06Q 50/10 20120101ALI20230907BHJP
【FI】
G06F40/45
G06F40/51
G06Q50/10
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022033921
(22)【出願日】2022-03-04
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 2021年3月8日及び2021年3月18日に言語処理学会第27回年次大会にて公開
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】森下 睦
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】鈴木 潤
【テーマコード(参考)】
5B091
5L049
【Fターム(参考)】
5B091AA03
5B091EA01
5L049CC12
(57)【要約】
【課題】クラウドソーシングを利用して品質の良い対訳文を収集すること。
【解決手段】一実施形態に係る対訳情報収集装置は、クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集するように構成されている収集部と、前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部と、を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集するように構成されている収集部と、
前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部と、
を有する対訳情報収集装置。
【請求項2】
前記評価部は、
前記文書対に含まれる対訳文の数と前記対訳文の翻訳品質とを表す翻訳品質スコア、及び、前記文書対の領域と前記対象領域との類似度を表す領域類似度スコア、の少なくとも一方を前記評価スコアとして計算するように構成されている、請求項1に記載の対訳情報収集装置。
【請求項3】
前記報酬計算部は、
前記文書対の所在を示す所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている、請求項1又は2に記載の対訳情報収集装置。
【請求項4】
クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得するように構成されている取得部と、
前記所在情報によって示される文書対に含まれる対訳文を抽出するように構成されている抽出部と、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、
を有する対訳情報収集装置。
【請求項5】
前記所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部、を更に有する請求項4に記載の対訳情報収集装置。
【請求項6】
クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集する収集手順と、
前記文書対の品質を所定の指標により評価した評価スコアを計算する評価手順と、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する報酬計算手順と、
をコンピュータが実行する対訳情報収集方法。
【請求項7】
クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得する取得手順と、
前記所在情報によって示される文書対に含まれる対訳文を抽出する抽出手順と、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算する評価手順と、
をコンピュータが実行する対訳情報収集方法。
【請求項8】
コンピュータを、請求項1乃至5の何れか一項に記載の対訳情報収集装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対訳情報収集装置、対訳情報収集方法及びプログラムに関する。
【背景技術】
【0002】
近年、ニューラル機械翻訳の研究が盛んに行われている。ニューラル機械翻訳ではモデル学習等のために対訳コーパスを用意する必要があり、その収集手法も重要な研究対象となっている。
【0003】
対訳コーパスの収集手法として、クラウドソーシングを利用した手法が従来から提案されている。例えば、非特許文献1では、クラウドワーカーを使って人手で単言語データを翻訳し、その単言語データと翻訳後のデータを対訳コーパスとする手法が提案されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Marimuthu Kalimuthu, Michael Barz, Daniel Sonntag, "Incremental Domain Adaptation for Neural Machine Translation in Low-Resource Settings", Proceedings of the Fourth Arabic Natural Language Processing Workshop.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来手法では、クラウドワーカーによってはその作業品質が十分でないことがあった。例えば、非特許文献1では、人手で翻訳を行っているため、クラウドワーカーによっては対訳文の品質が十分でないことがある。
【0006】
本発明の一実施形態は、上記の点に鑑みてなされたもので、クラウドソーシングを利用して品質の良い対訳文を収集することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、一実施形態に係る対訳情報収集装置は、クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集するように構成されている収集部と、前記文書対の品質を所定の指標により評価した評価スコアを計算するように構成されている評価部と、前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算するように構成されている報酬計算部と、を有する。
【発明の効果】
【0008】
クラウドソーシングを利用して品質の良い対訳文を収集することができる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態に係る対訳情報収集システムの全体構成の一例を示す図である。
【
図2】クラウドソーシングによる対訳文収集の流れを説明するための図である。
【
図3】本実施形態に係る対訳情報収集装置のハードウェア構成の一例を示す図である。
【
図4】本実施形態に係る対訳情報収集装置の機能構成の一例を示す図である。
【
図5】本実施形態に係る対訳文評価部の詳細な機能構成の一例を示す図である。
【
図6】条件取得から条件提示までの処理の流れの一例を示すフローチャートである。
【
図7】所在情報取得から報酬のフィードバックまでの処理の流れの一例を示すフローチャートである。
【
図8】本実施形態に係る対訳文評価部の詳細な機能構成の変形例1を示す図である。
【
図9】本実施形態に係る対訳文評価部の詳細な機能構成の変形例2を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について説明する。以下で説明する実施形態では、ニューラル機械翻訳の翻訳モデルを学習(ファインチューニング等も含む)するための対訳文を収集する場合を想定し、クラウドソーシングを利用して品質の良い対訳文を収集することができる対訳情報収集システム1について説明する。ここで、対訳文とは、原言語文とその文を目的言語に翻訳した目的言語文との組のことをいう。また、以下では、1以上の原言語文が含まれる文書のことを「原言語文書」、1以上の目的言語文が含まれる文書を「目的言語文書」と呼び、原言語文書とその文書中の少なくとも一部の原言語文を目的言語に翻訳した目的言語文が含まれる目的言語文書との組を「対訳文書」と呼ぶことにする。
【0011】
<対訳情報収集システム1の全体構成例>
本実施形態に係る対訳情報収集システム1の全体構成例を
図1に示す。
図1に示すように、本実施形態に係る対訳情報収集システム1には、対訳情報収集装置10と、作業依頼者端末20と、1以上の作業者端末30とが含まれる。また、対訳情報収集装置10と作業依頼者端末20と各作業者端末30は、インターネット等を含む通信ネットワーク40を介して通信可能に接続される。
【0012】
対訳情報収集装置10は、クラウドソーシングを利用して対訳文書の所在情報(つまり、原言語文書の所在情報とそれに対応する目的言語文書の所在情報)を収集し、それらの対訳文書から対訳文を収集するサーバ等のコンピュータ又はコンピュータシステムである。このとき、対訳情報収集装置10は、作業依頼者によって指定された条件を作業者(クラウドワーカー)に提示し、それらの作業者から対訳文書の所在情報を収集する。また、対訳情報収集装置10は、作業者から収集した対訳文書の品質を評価した上で、その評価に応じた報酬を作業者に支払う。
【0013】
作業依頼者端末20は、作業依頼者が利用する各種端末(例えば、PC(パーソナルコンピュータ)、スマートフォン、タブレット端末等)であり、対訳文書の所在情報を収集するための条件を対訳情報収集装置10に指定する。
【0014】
作業者端末30は、作業者(クラウドワーカー)が利用する各種端末であり、対訳文書の所在情報を対訳情報収集装置10に提供する。
【0015】
なお、
図1に示す対訳情報収集システム1の全体構成は一例であって、これに限られるものではなく、他の構成であってもよい。例えば、作業依頼者の利用する端末が対訳情報収集装置10として機能する場合には、作業依頼者端末20は無くてもよい。又は、例えば、作業依頼者が複数存在する場合には、複数の作業依頼者端末20が存在してもよい。また、例えば、或る同一人物が作業依頼者になると共に作業者になることもあるため、このような場合には、作業依頼者端末20と作業者端末30とが同一の端末で実現されていてもよい。
【0016】
<クラウドソーシングによる対訳文収集の流れ>
クラウドソーシングにより対訳文を収集する際の流れについて、
図2を参照しながら説明する。
【0017】
(1)作業依頼者は、作業依頼者端末20を用いて、収集対象とする対訳文に関する条件(例えば、領域、言語(原言語、目的言語)等)を対訳情報収集装置10に指定する。ここで、領域とは、対訳文の収集対象とする分野のことである。領域の具体例としては、例えば、「ニュース」、「科学」、「法律」、「特許」、「COVID-19」等といったものが挙げられる。言語は、原言語と目的言語の両方が指定されてもよいし、原言語と目的言語のいずれか一方のみが指定されてもよい。以下、上記の条件に含まれる領域を「対象領域」と呼ぶことにする。
【0018】
(2)対訳情報収集装置10は、作業依頼者から指定された条件を作業者(クラウドワーカー)に提示する。なお、条件の提示方法は任意の方法を用いることができる。例えば、Webページ上に条件を掲載することで提示してもよいし、条件が記載された電子メール等を作業者に送信することで提示してもよい。ここで、条件として対象領域が含まれる場合、その対象領域に関する少量の対訳文(例えば、数10~1000文程度の対訳文)が作業依頼者に提示されてもよい。
【0019】
(3)作業者は、対訳情報収集装置10から提示された条件等に基づいて、対訳文書を見つける。そして、作業者は、作業者端末30を用いて、その対訳文書の所在を示す所在情報を対訳情報収集装置10に送信する。ここで、以下では、一例として、文書はWebページであり、所在情報はそのWebページのURL(Uniform Resource Locator)であるものとする。したがって、以下では、対訳文書の所在情報は、原言語のWebページのURLと、それに対応する目的言語のWebページのURLとの組である。ただし、これは一例であって、これに限られるものではない。例えば、原言語文書及び目的言語文書はそれぞれ原言語及び目的言語で記載された電子的なコンテンツであり、その所在情報はDOI(Digital Object Identifier)等であってもよい。
【0020】
(4)対訳情報収集装置10は、対訳文書の所在情報から対訳文を抽出すると共にその対訳文書の品質を評価し、その評価に応じた報酬(例えば、金銭的な報酬)を計算する。
【0021】
(5)対訳情報収集装置10は、報酬を作業者にフィードバックする。これにより、各作業者は、より高い報酬が得られるように、より品質の良い対訳文書(例えば、条件を満たし、かつ、多くの対訳文が抽出できる対訳文書等)を探すようになると考えられる。このため、例えば、上記の(3)~(5)を繰り返すことで、品質の良い対訳文の収集が可能になると考えられる。
【0022】
<対訳情報収集装置10のハードウェア構成例>
本実施形態に係る対訳情報収集装置10のハードウェア構成例を
図3に示す。
図3に示すように、本実施形態に係る対訳情報収集装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
【0023】
入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン、スイッチ等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、対訳情報収集装置10は、例えば、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。
【0024】
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。対訳情報収集装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。なお、記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
【0025】
通信I/F104は、対訳情報収集装置10を通信ネットワーク40に接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。
【0026】
本実施形態に係る対訳情報収集装置10は、
図3に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、
図3に示すハードウェア構成は一例であって、対訳情報収集装置10のハードウェア構成はこれに限られるものではない。例えば、対訳情報収集装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。
【0027】
<対訳情報収集装置10の機能構成例>
本実施形態に係る対訳情報収集装置10の機能構成例を
図4に示す。
図4に示すように、本実施形態に係る対訳情報収集装置10は、条件取得部201と、条件提示部202と、所在情報取得部203と、対訳文書取得部204と、対訳文評価部205と、報酬計算部206と、出力部207とを有する。これら各部は、例えば、対訳情報収集装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。
【0028】
条件取得部201は、作業依頼者端末20によって指定された条件(例えば、対象領域、言語(原言語、目的言語)等)を取得する。
【0029】
条件提示部202は、条件取得部201によって取得された条件を作業者端末30に提示する。なお、このとき、条件提示部202は、当該条件に含まれる対象領域に関する少量の対訳文(例えば、数10~1000文程度の対訳文)を提示してもよい。以下、これらの対訳文で構成されるコーパスを「Devセット」と呼ぶことにする。
【0030】
ここで、DevセットはM個の対訳文書から作成されており、Devセットは文書単位に分割されていると仮定する。すなわち、Devセットに含まれる各対訳文の各々は、M個の対訳文書のいずれかの対訳文書から抽出されたものであると仮定する。
【0031】
所在情報取得部203は、対訳文書の所在情報(つまり、原言語のWebページのURLと、それに対応する目的言語のWebページのURLの組)を作業者端末30から取得する。
【0032】
対訳文書取得部204は、所在情報取得部203によって取得された所在情報を用いて、対訳文書を取得する。すなわち、対訳文書取得部204は、原言語のWebページのURLとそれに対応する目的言語のWebページのURLとを用いて、原言語のWebページとそれに対応する目的言語のWebページとを対訳文書として取得する。
【0033】
対訳文評価部205は、対訳文書取得部204によって取得された対訳文書(原言語文書とそれに対応する目的言語文書の組)から対訳文を抽出すると共に、その対訳文書の品質を評価する。以下、対訳文書の品質は何等かの評価指標によって数値として計算されるものとし、対訳文書の品質を表す評価指標値を「評価スコア」と呼ぶことにする。評価スコアとしては、例えば、後述する対訳品質スコアSaと領域類似度スコアSdの少なくとも一方を含むスコアを評価スコアとすればよい。なお、対訳文評価部205の詳細については後述する。
【0034】
報酬計算部206は、対訳文評価部205によって計算された評価スコアを用いて、報酬(例えば、金銭的な報酬額)を計算する。報酬の計算方法としては任意の方法を用いることができる。例えば、報酬計算部206は、予め決められた係数α,βと定数項cと0又は1を取る変数hとを用いて、r=(c+αSa+βSd)×hにより報酬rを計算すればよい。ここで、α,βはそれぞれ対訳品質スコアSaと領域類似度スコアSdの重みを表し、例えば、報酬の予算、収集したい対訳文数等に応じてその値が決定される。定数項cは少なくとも1つの対訳文が抽出できたときの最低報酬額を表し、例えば、報酬の予算等に応じてその値が決定される。また、hは対訳文書取得部204によって取得された対訳文書から少なくとも1つの対訳文が抽出された場合は1、それ以外は0を取る。なお、報酬は金銭に限られるものではなく、例えば、ポイント等といったものでもよく、作業者がより高い報酬を得たいと所望するものであればなんでもよい。
【0035】
出力部207は、報酬計算部206によって計算された報酬を、対訳文書の所在情報に対するフィードバックとして作業者端末30に出力する。なお、これに加えて、出力部207は、対訳文評価部205によって抽出された対訳文を所定の出力先(例えば、補助記憶装置107、作業依頼者端末20、作業者端末30等)に出力してもよい。
【0036】
≪対訳文評価部205の詳細な機能構成例≫
本実施形態に係る対訳文評価部205の詳細な機能構成例を
図5に示す。
図5に示すように、本実施形態に係る対訳文評価部205には、対訳文抽出部211と、対訳品質推定部212と、領域類似度推定部213とが含まれる。
【0037】
対訳文抽出部211は、対訳文書取得部204によって取得された対訳文書から対訳文(つまり、原言語文書と目的言語文書との間で互いに他方の翻訳となっている文対)を抽出する。ここで、対訳文抽出部211は、任意の手法により対訳文書から対訳文を抽出すればよい。例えば、対訳文抽出部211は、参考文献1の「3.3. Bitext Alignment」に記載されている手法により対訳文を抽出すればよい。具体的には、対訳文抽出部211は、ExtractContent(参考文献2)等によりHTML(HyperText Markup Language)形式のWebページからテキストを抽出し、split-sentences.perl(参考文献3)により文単位に分割した上で、Bitextor(参考文献4)により原言語文書と目的言語文書との間で文の対応付けを行って文対を作成する。そして、対訳文抽出部211は、原言語文書の各文に関して、その文が含まれる文対のうち、既存の機械翻訳モデルでその文を目的言語に翻訳したときにBLEU(Bilingual Evaluation Understudy)スコアが最も高くなる文対(又は、BLEUスコアが或る閾値以上かつ最も高い文対であってもよい。)を対訳文として抽出する。
【0038】
ただし、上記の抽出方法は一例であって、対訳文抽出部211は、例えば、文の対応付けにvecalign(参考文献5)を用いてもよい。vecalignは、LASER(参考文献6)の出力である多言語文埋め込みを受け取り、文対とそのスコアを出力するツールである。この場合、対訳文抽出部211は、例えば、スコアが0.5以上の文対のみを対訳文として抽出すればよい。
【0039】
対訳品質推定部212は、対訳品質推定モデルにより、対訳文抽出部211によって抽出された対訳文の品質を表す対訳品質スコアを推定する。対訳品質推定モデルとしては対訳品質スコアを推定又は算出するための任意のモデルを採用することができる。例えば、対訳文抽出部211によって抽出された対訳文のスコアの和を対訳品質推定モデルとすることが考えられる。
【0040】
具体的には、対訳文書から抽出された対訳文をD={(x1,y1),・・・,(xn,yn)}とする。ここで、xiはi番目の原言語文、yiはi番目の目的言語文である。このとき、対訳品質推定部212は、Sa=V(x1,y1)+・・・+V(xn,yn)により対訳品質スコアSaを算出する。ただし、V(xi,yi)はi番目の対訳文のスコア(例えば、vecalignが出力するスコア、BLEUスコア等)である。なお、σ(・)をシグモイド関数として、Sa=σ(V(x1,y1))+・・・+σ(V(xn,yn))により対訳品質スコアSaが算出されてもよい。
【0041】
領域類似度推定部213は、領域類似度推定モデルにより、対訳文書に含まれる原言語文書(又は、目的言語文書、若しくは、原言語文書と目的言語文書の両方)の領域と対象領域との類似度を表す領域類似度スコアを推定する。領域類似度推定モデルとしては領域類似度スコアを推定又は算出するための任意のモデルを採用することができる。例えば、(a)対象領域の文書全体の平均文埋め込みとのcos類似度を用いたモデル、(b)交差エントロピーを用いたドメイン類似度(参考文献7)、等といったものを領域類似度推定モデルとすることができる。以下、一例として、この(a)及び(b)により領域類似度スコアを推定する場合について説明する。また、一例として、原言語文書の領域と対象領域の領域類似度スコアを推定する場合について説明する。なお、目的言語文書の領域と対象領域の領域類似度スコアを推定する場合、原言語文書及び目的言語文書の領域と対象領域の領域類似度スコアを推定する場合についても、それぞれ同様に推定することが可能である。
【0042】
(a)対象領域の文書全体の平均文埋め込みとのcos類似度を用いたモデル
上記と同様に、対訳文書から抽出された対訳文をD={(x1,y1),・・・,(xn,yn)}とする。また、e=(1/n)(L(x1)+・・・+L(xn))とする。ここで、L(x)は文xを入力としてLASERから出力される多言語文埋め込みである。
【0043】
一方で、Devセットに含まれる対訳文のうちm番目の対訳文書から抽出された対訳文をD(m)={(x1
(m),y1
(m)),・・・,(xn_m
(m),yn_m
(m))}とする(ただし、「n_m」は「nm」を意味する。)。また、e(m)=(1/nm)(L(x1
(m))+・・・+L(xn_m
(m)))とする。
【0044】
このとき、領域類似度推定部213は、Sd=|D|×max{(e・e(1))/(||e|| ||e(1)||),・・・,(e・e(M))/(||e|| ||e(M)||)}により領域類似度スコアSdを算出する。すなわち、原言語文書の平均文埋め込みと対象領域の各文書の平均文埋め込みとのcos類似度の最大値に対して、対訳文抽出部211によって抽出された対訳文数を掛けたものを領域類似度スコアSdとする。
【0045】
なお、目的言語文書の領域と対象領域の領域類似度スコアを推定する場合、xiの代わりにyiを用いて平均文埋め込みを計算すると共に、xi
(m)の代わりにyi
(m)を用いて平均文埋め込みを計算すればよい。一方で、原言語文書及び目的言語文書の領域と対象領域の領域類似度スコアを推定する場合、xiとyiの両方を用いて平均文埋め込みを計算すると共に、xi
(m)とyi
(m)の両方を用いて平均文埋め込みを計算すればよい。
【0046】
(b)交差エントロピーを用いたドメイン類似度
上記と同様に、対訳文書から抽出された対訳文をD={(x1,y1),・・・,(xn,yn)}とする。このとき、領域類似度推定部213は、Sd=σ(HI(x1)-HN(x1))+・・・+σ(HI(xn)-HN(xn))により領域類似度スコアSdを算出する。ここで、σ(・)はシグモイド関数、HI(・)は対象領域に適応させた単言語モデルによる交差エントロピー、HN(・)は特定領域に特化していない汎用的な単言語モデルによる交差エントロピーである。
【0047】
<条件取得から条件提示までの処理の流れ>
条件取得から条件提示までの処理の流れについて、
図6を参照しながら説明する。
【0048】
まず、条件取得部201は、作業依頼者端末20によって指定された条件(例えば、対象領域、言語(原言語、目的言語)等)を取得する(ステップS101)。
【0049】
そして、条件提示部202は、上記のステップS101で取得された条件を作業者端末30に提示する(ステップS102)。なお、このとき、条件提示部202は、当該条件に含まれる対象領域に関するDevセットを提示してもよい。
【0050】
以上により、各作業者は、対訳情報収集装置10から提示された条件に基づいて、その条件を満たす対訳文書を見つけることができる。このとき、各作業者は必ずしも翻訳スキル(原言語から目的言語への翻訳スキル)を要している必要はなく、どの言語のどのような領域の文書(Webページ)であるかを識別することができれば、その条件を満たす対訳文書(Webページ対)を見つけることができる。このため、本実施形態に係る対訳情報収集装置10によれば、幅広い作業者(クラウドワーカー)に対して条件を提示し、その条件を満たす対訳文書の収集作業を依頼することが可能となる。
【0051】
<所在情報取得から報酬のフィードバックまでの処理の流れ>
所在情報取得から報酬のフィードバックまでの処理の流れについて、
図7を参照しながら説明する。
【0052】
所在情報取得部203は、対訳文書の所在情報(原言語のWebページのURLと、それに対応する目的言語のWebページのURLの組)を作業者端末30から取得する(ステップS201)。
【0053】
次に、対訳文書取得部204は、上記のステップS201で取得された所在情報を用いて、その所在情報によって示される対訳文書を取得する(ステップS202)。すなわち、対訳文書取得部204は、原言語のWebページとそれに対応する目的言語のWebページとを対訳文書として取得する。
【0054】
次に、対訳文評価部205は、上記のステップS202で取得された対訳文書の評価スコアを計算する(ステップS203)。以下、評価スコアとして対訳品質スコアSaと領域類似度スコアSdの少なくとも一方が計算されたものとして説明を続ける。
【0055】
次に、報酬計算部206は、上記のステップS203で計算された評価スコアを用いて、報酬を計算する(ステップS204)。上述したように、報酬rは、例えば、r=(c+αSa+βSd)×hにより計算される。なお、例えば、対訳品質スコアSaと領域類似度スコアSdのいずれか一方のみを評価スコアとした場合、他方を0として上記の式により報酬rを計算すればよい。具体的には、例えば、対訳品質スコアSaのみを評価スコアとした場合はr=(c+αSa)×hにより報酬rを計算し、領域類似度スコアSdのみを評価スコアとした場合はr=(c+βSd)×hにより報酬rを計算すればよい。
【0056】
なお、上記のステップS204では、報酬rを対訳文書単位に計算したが、対訳文単位に報酬が計算されてもよい。例えば、対訳品質スコアSaのみを評価スコアとした場合、対訳品質スコアSaはV(xi,yi)又はσ(V(xi,yi))の和であるため、V(xi,yi)又はσ(V(xi,yi))をi番目の対訳文の対訳品質スコアSa,iとして、ri=(c+αSa,i)×hによりi番目の対訳文に関する報酬riが計算されてもよい。この場合、報酬riの和を最終的な報酬rとすればよい。
【0057】
そして、出力部207は、上記のステップS204で計算された報酬を対訳文書の所在情報に対するフィードバックとして作業者端末30に出力する(ステップS205)。なお、このとき、上記のステップS203で評価スコアを計算する際に抽出された対訳文が当該作業者端末30に出力されてもよい。また、それらの対訳文が作業依頼者端末20に出力されてもよい。
【0058】
以上により、対訳文書の所在情報を提供した作業者に対して報酬を与えることができる。このとき、報酬は、その対訳文書の領域と対象領域との類似度合い、その対訳文書から得られる対訳文の数、翻訳文対としてのその対訳文の正しさ等といった品質に関する評価指標値に応じて計算される。このため、より良い品質の対訳文書の所在情報を提供した作業者には高い報酬が与えられることになり、その結果、各作業者はより良い品質の対訳文書を探すようになることが期待され、より良い品質の対訳文の収集が可能になると考えられる。
【0059】
これにより、例えば、本実施形態に係る対訳情報収集装置10によって収集された対訳文を用いて汎用翻訳モデルをファインチューニング(追加学習)し、対象領域に特化した高精度な翻訳モデルを作成することが可能となる。特に、既存に公開されている対訳コーパスには十分な量の対訳文が存在しない領域が対象領域である場合に、その対象領域に特化した高精度な翻訳モデルを作成することが可能となる。
【0060】
<変形例>
以下、本実施形態に係る対訳文評価部205の変形例について説明する。
【0061】
≪変形例1≫
本実施形態に係る対訳文評価部205の詳細な機能構成の変形例1を
図8に示す。
図8に示すように、変形例1における対訳文評価部205には、対訳文抽出部211のみが含まれる。そして、変形例1では、対訳文抽出部211によって対訳文書から抽出された対訳文数を評価スコアとする。なお、評価スコア(対訳文数)をSとすれば、変形例1では、例えば、r=(c+βS)×hにより報酬rを計算すればよい。
【0062】
≪変形例2≫
本実施形態に係る対訳文評価部205の詳細な機能構成の変形例2を
図9に示す。
図9に示すように、変形例2における対訳文評価部205には、領域類似度推定部213のみが含まれる。そして、変形例2では、領域類似度推定部213によって計算された領域類似度スコアS
dを評価スコアとする。
【0063】
なお、図示していないが、例えば、他の変形例として、対訳文抽出部211と対訳品質推定部212のみが対訳文評価部205に含まれる変形例も考えられる。この場合、対訳品質スコアSaを評価スコアとすればよい。
【0064】
<実験>
以下、本実施形態に係る対訳情報収集装置10により実験を行った結果について説明する。
【0065】
まず、5日間のクラウドソーシングにより対訳文書の所在情報(WebページのURL)を収集し、それらの対訳文書から対訳文を抽出する実験を行った。このとき、報酬を固定額(Fixed)とした場合と変動額(Variable)とした場合の2つのケースで実験を行った。また、ベースラインとなる汎用翻訳モデルを準備し、クラウドソーシングを利用して収集及び抽出した対訳文を用いてその汎用翻訳モデルをファインチューニング(追加学習)した上で、Devセットと、このDevセットとは異なる対訳コーパスであるTestセットとを用いてそれぞれのモデルを評価した。ただし、Testセットは、Devセットと同一の領域(対象領域)に関する対訳コーパスである。
【0066】
以下の表1にその結果を示す。
【0067】
【表1】
ここで、表1中、「#URLs」は収集された所在情報数、「#Sentences」は抽出された対訳文数、「Cost(USD)」は報酬額、「Base model」は汎用翻訳モデル、「w/Crawled」はその汎用翻訳モデルをファインチューニングしたモデル(以下、領域特化翻訳モデルという。)を表す。また、「Development BLEU」はDevセットにより評価したBLEUスコア、「Test BLEU」はTestセットにより評価したBLEUスコアを表す。
【0068】
表1に示されるように、汎用翻訳モデルよりも領域特化翻訳モデルの方が、BLEUスコアが向上していることがわかる。また、報酬が固定額の場合と変動額の場合とを比較すると、変動額の場合の方がより高いBLEUスコアとなっていることがわかる。これにより、評価スコアに応じた報酬計算によってより良い品質の対訳文が得られていることがわかる。
【0069】
次に、様々な領域で上記と同様の実験を行った(ただし、クラウドソーシングの期間は13日、報酬は変動額とした。)。
【0070】
以下の表2にその結果を示す。
【0071】
【表2】
ここで、表2中、「Domain」は対象領域であり、表2では5つの対象領域が示されている。
【0072】
表2に示されるように、すべての領域において、汎用翻訳モデルよりも領域特化翻訳モデルの方が、BLEUスコアが向上していることがわかる。
【0073】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
【0074】
<実施形態のまとめ>
本実施形態に係る対訳情報収集装置10は、クラウドソーシングを利用して対訳文を収集する際にクラウドワーカーによってはその作業品質が十分でないことがあるという従来手法の課題に対して特定の改善を提供するものであり、ニューラル機械翻訳等の自然言語処理技術分野の向上を示すものである。
【0075】
本明細書には、少なくとも下記各項の対訳情報収集装置、対訳情報収集方法及びプログラムが開示されている。
【0076】
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集し、
前記文書対の品質を所定の指標により評価した評価スコアを計算し、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、
対訳情報収集装置。
【0077】
(付記項2)
前記プロセッサは、
前記文書対に含まれる対訳文の数と前記対訳文の翻訳品質とを表す翻訳品質スコア、及び、前記文書対の領域と前記対象領域との類似度を表す領域類似度スコア、の少なくとも一方を前記評価スコアとして計算する、付記項1に記載の対訳情報収集装置。
【0078】
(付記項3)
前記プロセッサは、
前記文書対の所在を示す所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、付記項1又は2に記載の対訳情報収集装置。
【0079】
(付記項4)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得し、
前記所在情報によって示される文書対に含まれる対訳文を抽出し、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算する、
対訳情報収集装置。
【0080】
(付記項5)
前記プロセッサは、
前記所在情報を提供したクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、付記項4に記載の対訳情報収集装置。
【0081】
(付記項6)
対訳情報収集処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記対訳情報収集処理は、
クラウドソーシングを利用して、翻訳対象として所望する領域である対象領域の対訳文が含まれる文書対を収集し、
前記文書対の品質を所定の指標により評価した評価スコアを計算し、
前記文書対の収集に関する作業を行ったクラウドワーカーに対する報酬として、前記評価スコアに応じた報酬を計算する、
非一時的記憶媒体。
【0082】
(付記項7)
対訳情報収集処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記対訳情報収集処理は、
クラウドソーシングを利用して、対訳文が含まれる文書対の所在を示す所在情報を取得し、
前記所在情報によって示される文書対に含まれる対訳文を抽出し、
抽出された前記対訳文に基づいて、前記文書対の品質を所定の指標により評価した評価スコアを計算する、
非一時的記憶媒体。
【0083】
<参考文献>
参考文献1:Makoto Morishita, Jun Suzuki, Masaaki Nagata, "JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus", Proceedings of the 12th Language Resources and Evaluation Conference.
参考文献2:ExtractContent, インターネット<URL:https://github.com/yono/python-extractcontent>
参考文献3:split-sentences.perl, インターネット<URL:https://github.com/moses-smt/mosesdecoder/blob/master/scripts/ems/support/split-sentences.perl>
参考文献4:Bitextor, インターネット<URL:https://github.com/bitextor/bitextor>
参考文献5:Brian Thompson and Philipp Koehn. Vecalign: Improved sentence alignment in linear time and space. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1342-1348, 2019.
参考文献6:Mikel Artetxe and Holger Schwenk. Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond. Transactions of the Association for Computational Linguistics (TACL), 7:597-610, 2019.
参考文献7:Robert C. Moore, William Lewis, "Intelligent Selection of Language Model Training Data", Proceedings of the ACL 2010 Conference Short Papers.
【符号の説明】
【0084】
1 対訳情報収集システム
10 対訳情報収集装置
20 作業依頼者端末
30 作業者端末
40 通信ネットワーク
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 条件取得部
202 条件提示部
203 所在情報取得部
204 対訳文書取得部
205 対訳文評価部
206 報酬計算部
207 出力部
211 対訳文抽出部
212 対訳品質推定部
213 領域類似度推定部