IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特開2024-123924修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム
<>
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図1
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図2
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図3
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図4
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図5
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図6
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図7
  • 特開-修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024123924
(43)【公開日】2024-09-12
(54)【発明の名称】修辞構造解析学習装置、システム、パラメタ最適化方法、及びプログラム
(51)【国際特許分類】
   G06F 40/216 20200101AFI20240905BHJP
   G06F 40/58 20200101ALI20240905BHJP
【FI】
G06F40/216
G06F40/58
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023031747
(22)【出願日】2023-03-02
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】平尾 努
(72)【発明者】
【氏名】奥村 学
(72)【発明者】
【氏名】前川 在
(72)【発明者】
【氏名】小林 尚輝
(57)【要約】      (修正有)
【課題】事前学習時のパラメタ最適化にバイアスをかけることなく、正解データとしての生テキストデータを大量に用意する必要がない修辞構造解析学習装置、パラメタ最適化方法及びプログラムを提供する。
【解決手段】修辞構造解析学習装置及び修辞構造推定装置によって構築されているシステムにおいて、修辞構造解析のパラメタを最適化する修辞構造解析学習装置は、文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張部と、前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習部と、前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習部と、を有する。
【選択図】図3
【特許請求の範囲】
【請求項1】
修辞構造解析のパラメタを最適化する修辞構造解析学習装置であって、
文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張部と、
前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習部と、
前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習部と、
を有する修辞構造解析学習装置。
【請求項2】
前記データ拡張部は、
第1の言語で示された文章から所定の割合の文である選択文を選択する文選択部と、
前記選択文を前記第1の言語とは異なる第2の言語に機械翻訳する機械翻訳部と、
前記第2の言語に翻訳された前記選択文を前記第1の言語に逆翻訳する逆機械翻訳部と、
前記逆翻訳された前記選択文及び前記文選択部によって選択されなかった文である非選択文を合わせて、前記疑似訓練データを生成する疑似訓練データ生成部と、
を有する請求項1に記載の修辞構造解析学習装置。
【請求項3】
請求項1又は2に記載の修辞構造解析学習装置と、
各パラメタに基づいて木構造を推定して得た部分木と正解データで示される木構造の部分木との一致率を示す評価スコアを算出する修辞構造推定装置と、
を有するシステム。
【請求項4】
修辞構造解析の学習を行う修辞構造解析学習装置が実行する修辞構造解析のパラメタを最適化するパラメタ最適化方法であって、
修辞構造解析学習装置は、
文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張処理と、
前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習処理と、
前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習処理と、
を実行するパラメタ最適化方法。
【請求項5】
前記データ拡張処理は、
第1の言語で示された文章から所定の割合の文である選択文を選択する文選択処理と、
前記選択文を前記第1の言語とは異なる第2の言語に機械翻訳する機械翻訳処理と、
前記第2の言語に翻訳された前記選択文を前記第1の言語に逆翻訳する逆機械翻訳処理と、
前記逆翻訳された前記選択文及び前記文選択処理によって選択されなかった文である非選択文を合わせて、前記疑似訓練データを生成する疑似訓練データ生成処理と、
を含む請求項4に記載のパラメタ最適化方法。
【請求項6】
コンピュータに、請求項4又は5に記載の方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示内容は、計算機を用いて言語を処理する自然言語処理分野に属し、特に、文書の構造を自動的に推定する修辞構造解析のパラメタ最適化における擬似訓練データの活用に属する。
【背景技術】
【0002】
修辞構造解析では、文書をElementary Discourse Unit(EDU)と呼ばれる文よりも小さい、節に相当するテキストユニットの系列データとみなす。そして、これらを、終端ノード及びEDUの連なりで形成する木(スパンの関係を非終端ノードがあらわす再帰構造を持った木)として表現する(図7参照)。図7において、終端ノードはEDU(e)である。非終端ノードは、それが支配するスパンの核性(従属関係)、つまり核(N:Nucleus)であるか衛星(S:Satellite)であるかを表す。核(N)はより中心的な情報を表すテキスト領域であり、衛星(S)は核を補足するテキスト領域である。
【0003】
2つの非終端ノードをつなぐエッジには関係ラベルが与えられる。2つの非終端ノードがS、Nの組みである場合、S側のエッジには、Elaborationなどの関係ラベル(全18種)が付与され、N側のエッジには、デフォルトラベルであるspanが与えられる。なお、spanはN側に与えられるデフォルトラベルなので、関係ラベルとしてはとらえられない。また、2つの非終端ノードが、NとNの組みである場合、双方のエッジに対してSame-Unitなどの関係ラベルが与えられる。
【0004】
文書、つまりEDUの系列が与えられた際に修辞木構造を推定する技術は、現在ではニューラルネットワークを用いて実現される。例えば、事前学習済み言語モデルを用いてスパンのベクトルを得たのち、(1)木構造推定(スパンの結合もしくは分割の決定)、(2)核性推定(N-S、S-N、又はN-N のいずれかを選択)、(3)関係ラベル推定(18種の関係のうちいずれかを選択)をニューラルネットワークにより実現する。
【0005】
なお、現状の多くの修辞構造解析はトップダウン、つまり、スパンを分割することで木を推定する。たとえば、非特許文献1について、以降、トップダウン解析器を前提として説明を進めるが、ボトプアップ解析においても本開示内容は問題なく適用できる。
【0006】
続いて、図8に一般的なトップダウン解析器の概要を示す。まず、文書をトークンtの系列としてとらえる。連続したEDUで構成されるスパンのベクトルuは、左端のEDUの左端のトークンの埋め込みベクトルと右端のEDUの右端のトークンの埋め込みベクトルの平均とする。図8中のi番目のEDUからj番目のEDUにより構成されるスパンのベクトルはi番目のEDUの左端のトークンの埋め込みベクトルwb(i)とk番目のEDUの左端のトークンの埋め込みベクトルwe(k)の平均とする。そして、トップダウン解析器が、ベクトルuを順伝播型ニューラルネットワークに入力することでベクトルhを得て、バイアフィン層に入力することで、木構造の推定、核性及び関係ラベルの推定を行う。
【0007】
この場合、i番目のEDUからj番目のEDUで構成されるスパンを
【0008】
【数1】
番目のEDUで分割するスコアは以下の(式1)で定義される。
【0009】
【数2】
ここで、Wはパラメタ行列、vはパラメタベクトルである。hはそれぞれ以下の(式2)及び(式3)で定義される。
【0010】
【数3】
【0011】
【数4】
ここで、FFNは順伝播型ニューラルネットワークを関数として表現したものである。
【0012】
【数5】
【0013】
【数6】
番目のEDUからm番目のEDUで構成されるスパンのベクトルであり、具体的には
【0014】
【数7】
番目のEDUの左端の単語の埋め込みベクトルとm番目のベクトルの右端の単語埋め込みベクトルの平均である。なお、
【0015】
【数8】
は今、着目するi番目のEDUからk番目のEDUで構成されるスパンとk+1番目のEDUからj番目のEDUで構成されるスパンが、(1)同一の段落又は同一の文にあるか否か、(2)連続した段落又は連続した文にあるか否か、(3)段落又は文の先頭にあたるか否か、(4)段落又は文の末尾にあるか否かを表すベクトルである。
【0016】
最終的に以下の(式4)でi番目のEDUとj番目のEDUで構成されるスパンを分割するk番目のEDUが決定される。
【0017】
【数9】
i番目のEDUからj番目のEDUで構成されるスパンを
【0018】
【数10】
番目のEDUで分割する際、核性及び関係ラベルの推定は、以下の(式5)で定義される。
【0019】
【数11】
【0020】
【数12】
【0021】
【数13】
はそれぞれ、パラメタ行列、パラメタベクトルである。これらを用いて、核性及び関係ラベルの推定は、以下の(式6)で定義される。
【0022】
【数14】
なお、Lは核性の推定の際には{N-S,S-N,N-N}とし、関係ラベルの推定の際に以下の18種のラベルの集合となる。
・ Attribution,
・ Background,
・ Cause,
・ Comparison,
・ Condition,
・ Constrast,
・ Elaboration,
・ Enablement,
・ Evaluation,
・ Explanation,
・ Joint,
・ Manner-Means,
・ Topic-Comment,
・ Summary,
・ Temporal,
・ TopicChange,
・ Textual-Ogranization,
・ Same-Unit
すべてのパラメタ、
【0023】
【数15】
はランダムに初期化されており、(式7)に示す損失関数を最小化するように最適化される。なお、
【0024】
【数16】
は、それぞれ正解の分割点、ラベルである。また、
【0025】
【数17】
は、それぞれ現在のパラメタで推定した分割点、ラベルである。
【0026】
【数18】
パラメタが決定されれば、未知の入力文書に対して(式4)及び(式6)で分割点とラベルを決定することで修辞構造木が構築できる。なお、言語モデル(図8中のLanguage model)のパラメタも上記の損失関数を最小化する過程で最適化される。
【0027】
ところが、一般的にニューラルネットワークの学習、つまりパラメタ推定には十分な量の訓練データが必要となる。しかし、修辞構造解析のアノテーションにはコストがかかるため大規模な訓練データ(修辞構造木のデータ)を用意することが困難である。この問題に対し、非特許文献2では、大量の擬似訓練データを用いて解析モデルを事前学習し、訓練データを用いて追加学習する手法が提案されている。具体的に、非特許文献2には、大量の生テキストデータに対して複数の解析器を適用し、その出力結果の間で共通する部分木を擬似訓練データとすることが提案されている。
【先行技術文献】
【非特許文献】
【0028】
【非特許文献1】Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, and Masaaki Nagata. 2020。 Top-down rst parsing utilizing granularity levels in documents. In Proceedings of the 2020 Conference on Artificial Intelligence for the American, pages 8099-8106
【非特許文献2】Naoki Kobayashi, Tsutomu Hirao, Hidetaka Kamigaito, Manabu Okumura, and Masaaki Nagata. 2021. Improving Neural RST Parsing Model with Silver Agreement Subtrees. In Proceedings of the 2021 Conference of NAACL, pages, 1600-1612
【発明の概要】
【発明が解決しようとする課題】
【0029】
しかし、非特許文献2の手法には、共通する部分木のサイズ(木の葉の数)がもとの訓練データよりも小さいもの(数個のEDUからなる部分木)に偏りがちになるため、事前学習時のパラメタ最適化にバイアスがかかるという問題と、対象とするテキストのドメインによっては、そもそも生テキストデータを大量に用意することができないという問題がある。
【0030】
本発明は、上記の点に鑑みてなされたものであって、事前学習時のパラメタ最適化にバイアスをかけることなく、正解データとしての生テキストデータを大量に用意する必要がないようにすることを目的とする。
【課題を解決するための手段】
【0031】
上記課題を解決するため、請求項1に係る発明は、修辞構造解析のパラメタを最適化する修辞構造解析学習装置であって、文章である正解データとしての訓練データに対して翻訳後に逆翻訳を行うことで疑似訓練データを生成するデータ拡張部と、前記疑似訓練データを用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成する事前学習部と、前記所定のパラメタを初期値とし、前記訓練データを用いて、前記所定のパラメタを最適化することで最終的なパラメタを生成する追加学習部と、を有する修辞構造解析学習装置である。
【発明の効果】
【0032】
以上説明したように本発明によれば、訓練データを翻訳後に逆翻訳することで得た文書を擬似訓練データとすることで、事前学習時のパラメタ最適化にバイアスをかけることなく、正解データとしての生テキストデータを大量に用意する必要がないという効果を奏する。
【図面の簡単な説明】
【0033】
図1】実施形態に係る修辞構造解析学習装置及び修辞構造推定装置によって構築されたシステムの全体構成図である。
図2】実施形態に係る修辞構造解析学習装置のハードウェア構成図である。
図3】実施形態に係る修辞構造解析学習装置の機能構成図である。
図4】実施形態に係るデータ拡張部の詳細な機能ブロック図である。
図5】修辞構造解析学習装置の全体の処理を示すフローチャートである。
図6】修辞構造解析学習装置のデータ拡張部の処理を示すフローチャートである。
図7】修辞構造解析における再帰構造を持った木を示す図である。
図8】一般的なトップダウン解析器の概要を示す図である。
【発明を実施するための形態】
【0034】
以下、図面に基づいて本発明の実施形態を説明する。
【0035】
〔実施形態のシステム構成〕
まず、図1を用いて、本実施形態のシステムの構成の概略について説明する。図1は、実施形態に係る修辞構造解析学習装置及び修辞構造推定装置によって構築されたシステムの全体構成図である。
【0036】
図1に示されているように、システムは、修辞構造解析学習装置1、及び修辞構造推定装置2によって構築されている。
【0037】
また、修辞構造解析学習装置1と修辞構造推定装置2は、インターネット、LAN(Local Area Network)等の通信ネットワークを介して通信することができる。通信ネットワークの接続形態は、無線又は有線のいずれでも良い。
【0038】
修辞構造解析学習装置1及び修辞構造推定装置2は、単数又は複数のコンピュータによって構成されている。
【0039】
修辞構造解析学習装置1は、文書の構造を自動的に推定する修辞構造解析の各パラメタを最適化し、この最適化した各パラメタを修辞構造推定装置2に送信する。修辞構造解析学習装置1は、修辞構造推定装置2に対して、事前に正解データを送信する。正解データは、文書を示すテキストデータとこのテキストデータに対応する正解の木との組を複数含んでおり、修辞構造解析の分野では「開発データ」と呼ばれている。
【0040】
修辞構造推定装置2は、修辞構造解析学習装置1から取得したパラメタに基づいて木構造を推定して得た部分木と、正解データで示される木構造の部分木との一致率を示す評価スコアを生成し、修辞構造解析学習装置1に対して評価スコアを送る。評価スコアは、例えば、完全不一致の場合を「0」とし、完全一致の場合を「1」として、0~1の値で示される。
【0041】
〔修辞構造解析学習装置のハードウェア構成〕
続いて、図2を用いて、修辞構造解析学習装置1のハードウェア構成を説明する。図2は、実施形態に係る修辞構造解析学習装置のハードウェア構成図である。なお、修辞構造推定装置2のハードウェア構成は、修辞構造解析学習装置1と同様であるため、説明を省略する。
【0042】
図2に示されているように、修辞構造解析学習装置1は、プロセッサ101、メモリ102、補助記憶装置103、接続装置104、通信装置105、ドライブ装置106を有する。なお、修辞構造解析学習装置1を構成する各ハードウェアは、バス107を介して相互に接続される。
【0043】
プロセッサ101は、修辞構造解析学習装置1全体の制御を行う制御部の役割を果たし、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ101は、各種プログラムをメモリ102上に読み出して実行する。なお、プロセッサ101には、GPGPU(General-purpose computing on graphics processing units)が含まれていてもよい。
【0044】
メモリ102は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ101とメモリ102とは、いわゆるコンピュータを形成し、プロセッサ101が、メモリ102上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
【0045】
補助記憶装置103は、各種プログラムや、各種プログラムがプロセッサ101によって実行される際に用いられる各種情報を格納する。
【0046】
接続装置104は、外部装置(例えば、表示装置110、操作装置111)と修辞構造解析学習装置1とを接続する接続デバイスである。
【0047】
通信装置105は、他の装置との間で各種情報を送受信するための通信デバイスである。
【0048】
ドライブ装置106は(非一時的)記録媒体130をセットするためのデバイスである。ここでいう記録媒体130には、CD-ROM(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体130には、ROM(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
【0049】
なお、補助記憶装置103にインストールされる各種プログラムは、例えば、配布された記録媒体130がドライブ装置106にセットされ、該記録媒体130に記録された各種プログラムがドライブ装置106により読み出されることでインストールされる。あるいは、補助記憶装置103にインストールされる各種プログラムは、通信装置105を介してネットワークからダウンロードされることで、インストールされてもよい。
【0050】
〔修辞構造解析学習装置の機能構成〕
次に、図3及び図4を用いて、修辞構造解析学習装置1の機能構成について説明する。図3は、実施形態に係る修辞構造解析学習装置の機能構成図である。修辞構造解析学習装置1は、入力された疑似訓練データを用いてパラメタを事前学習し、訓練データを用いてパラメタを追加学習することで最終的なパラメタを出力する。そのため、修辞構造解析学習装置1は、入力部10、データ拡張部20、事前学習部30、追加学習部40、及び出力部50を有している。これら各部は、プログラムに基づき図2のプロセッサ101による命令によって実現される機能である。
【0051】
更に、図2のメモリ102又は補助記憶装置103には、後述の機械翻訳部22及び逆機械翻訳部23がそれぞれ機械翻訳の際に用いるための各学習済み言語モデルが記憶されている。
【0052】
入力部10は、ユーザからの訓練データを入力したり、修辞構造推定装置2から送られて来る評価スコア等のデータを入力したりする。
【0053】
データ拡張部20は、入力部10から正解データとしての訓練データを取得し、逆翻訳を用いて擬似訓練データを生成する。
【0054】
事前学習部30は、データ拡張部20から疑似訓練データを取得し、(式7)を用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成し、この所定のパラメタを追加学習部40に入力する。
【0055】
追加学習部40は、事前学習部30から取得した所定のパラメタを初期値とし、入力部10から取得した訓練データ及び(式7)を用いて、再度、所定のパラメタを最適化して最終的なパラメタを生成する。この場合、訓練データはEDUを葉とした木であるため、文内の木構造を構築するためのパラメタも最適化される。なお、予め修辞構造木を文間の修辞構造木、つまり、文を葉として文書をあらわす修辞構造木と文内の修辞構造木、つまりEDUを葉として文をあらわす修辞構造木へと分解しておき、文間の修辞構造木のパラメタ学習に利用してもよい。
【0056】
出力部50は、修辞構造推定装置2に対し、正解データ、及び各パラメタ(最終的なパラメタ)を送信する。
【0057】
続いて、データ拡張部20について更に詳細に説明する。
【0058】
<データ拡張部の機能構成>
図4は、データ拡張部の詳細な機能ブロック図である。データ拡張部20は、訓練データ(文章:文の集合)を受け取り、訓練データを逆翻訳することで擬似訓練データを生成する。なお、訓練データは文書ごとに処理される。そのため、データ拡張部20は、文選択部21、機械翻訳部22、逆機械翻訳部23、及び疑似訓練データ生成部24を有している。
【0059】
これらのうち、文選択部21は、入力部10から、第1の言語である言語sで示された文章及び任意の整数nを取得し、文章中の所定の割合であるn%の文(整数値にならない場合は、少数部の切り捨てなどを行う)をランダムに選択する。そして、文選択部21は、選択したn%の文を機械翻訳部22へ入力する。なお、任意の整数nは、修辞構造解析学習装置1のユーザによって入力される。
【0060】
機械翻訳部22は、文選択部21によって選択された文(選択文)文を言語sから、第2の言語である言語tへと機械翻訳して、逆機械翻訳部23へ入力する。言語tと言語sは異なる言語である。なお、機械翻訳部22には既存の技術を用いればよい。
【0061】
逆機械翻訳部23は、機械翻訳部22によって翻訳された選択文を、言語tから言語sへと機械翻訳して、疑似訓練データ生成部24へ入力する。この場合、再び、言語sに戻されるが、必ずしも文選択部21で選択された最初の内容に翻訳されるとは限らない。なお、選択文のうちの任意の文に対する翻訳候補は通常複数あるものとする。なお、逆機械翻訳部23には既存の機械翻訳技術を用いればよい。
【0062】
疑似訓練データ生成部24は、複数ある翻訳候補からランダムに所定の翻訳文を1つ選択し、この選択した所定の翻訳文、及び文選択部21で選択されなかった文(非選択文)を合わせて文章としての擬似訓練データを生成する。
【0063】
なお、文選択部21でn%の文を選ぶ際の選び方、1文に対する複数の機械翻訳結果からの選び方の組み合わせを考えると1つの訓練データ(文書)に対しては数多くの擬似訓練データ(文書)が得られる。1つの訓練データ(文書)に対していくつの擬似訓練データ(文書)を生成するかは、ユーザが決めればよい。通常は、数十程度選べば良い。
【0064】
また、疑似訓練データ生成部24は、逆翻訳に加え、文書の修辞構造に従い、上述の核(N:Nucleus)と衛星(S:Satellite)を入れ替えることで、さらに擬似訓練データを増やしてもよい。例えば、図7の文s1「e1,e2」と文s2「e3」を入れ替えると、テキストの並びとしては異なるが修辞構造木として等価な木が得られる。
【0065】
また、逆機械翻訳部23に替えて、逆翻訳せずに単に文を言い換えるための言い換え器(言換部)を用いてもよい。
【0066】
〔実施形態の処理又は動作〕
続いて、図5及び図6を用いて、本実施形態の処理又は動作について詳細に説明する。図5は、修辞構造解析学習装置の全体の処理を示すフローチャートである。
【0067】
S11:入力部10から正解データとしての訓練データを取得し、訓練データを逆翻訳することで、擬似訓練データを生成する。
【0068】
ここで、図6を用いて、データ拡張部の処理を説明する。図6は、修辞構造解析学習装置のデータ拡張部の処理を示すフローチャートである。
【0069】
S21:文選択部21は、入力部10から取得した、言語sの文章中のn%の文をランダムに選択する。
【0070】
S22:機械翻訳部22は、文選択部21によって選択された選択文(言語s)を選択文(言語t)へ翻訳する。
【0071】
S23:逆機械翻訳部23は、機械翻訳部22によって翻訳された選択文(言語t)を選択文(言語s)へ逆翻訳する。
【0072】
S24:疑似訓練データ生成部24は、選択文(言語s)と非選択文(言語s)を合わせて疑似訓練データを生成する。
【0073】
これにより、処理S11は終了する。
【0074】
S12:図5に戻り、事前学習部30は、データ拡張部20から疑似訓練データを取得し、(式7)を用いて、ランダムに初期化したパラメタを最適化することで所定のパラメタを生成し、この所定のパラメタを追加学習部40に入力する。
【0075】
S13:追加学習部40は、事前学習部30から取得した所定のパラメタを初期値とし、訓練データ及び(式7)を用いて、再度、所定のパラメタを最適化して最終的なパラメタを生成する。
【0076】
これにより、出力部50は、最終的なパラメタを修辞構造推定装置2に送信するパラメタとして送信する。
【0077】
〔実施形態の主な効果〕
以上説明したように本実施形態によれば、データ拡張部20が翻訳後に逆翻訳を行うことで、もとの訓練データとさほど変わらない大きさの木となる擬似訓練データを大量に得ることができる。そして、事前学習部30が擬似訓練データをパラメタの事前学習に用い、追加学習部40が訓練データをパラメタの追加学習に用いることで、精緻なパラメタの最適化が期待できる。これにより、擬似訓練データの木のサイズをもとの訓練データと同等程度に保ちつつ、テキストのドメインに左右されることもなく、大量の擬似訓練データを得ることができるため、事前学習時のパラメタ最適化にバイアスをかけることなく、正解データとしての生テキストデータを大量に用意する必要がないという効果を奏する。
【0078】
〔補足〕
本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
【0079】
修辞構造解析学習装置1の各構成は、上述のようにコンピュータとプログラムによっても実現できるが、このプログラムを(非一時的な)記録媒体に記録して提要することも、インターネット等のネットワークを通して提供することも可能である。
【符号の説明】
【0080】
1 修辞構造解析学習装置
2 修辞構造推定装置
10 入力部
20 データ拡張部
21 文選択部
22 機械翻訳部(第1の機械翻訳部)
23 逆機械翻訳部(第2の機械翻訳部)
24 疑似訓練データ生成部
30 事前学習部
40 追加学習部
50 出力部
図1
図2
図3
図4
図5
図6
図7
図8