(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-11
(45)【発行日】2022-11-21
(54)【発明の名称】文生成学習方法、文生成学習装置及びプログラム
(51)【国際特許分類】
G06F 40/56 20200101AFI20221114BHJP
G06F 40/44 20200101ALI20221114BHJP
【FI】
G06F40/56
G06F40/44
(21)【出願番号】P 2019136419
(22)【出願日】2019-07-24
【審査請求日】2021-08-18
【新規性喪失の例外の表示】特許法第30条第2項適用 一般社団法人言語処理学会第25回年次大会(NLP2019)、URL:https://www.anlp.jp/proceedings/annual_meeting/2019/index.html、URL:https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P5-12.pdfにて公開
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】安井 豪
(72)【発明者】
【氏名】鶴岡 慶雅
【審査官】木村 大吾
(56)【参考文献】
【文献】特表2019-510290(JP,A)
【文献】特開2017-129995(JP,A)
【文献】Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova,BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,arXiv,2019年05月24日,https://arxiv.org/abs/1810.04805
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
文生成モデルを用いて
、入力文に対する出力文を
文頭の単語から一つずつ生成する文生成手順と、
前記単語が生成されるたびに、当該単語と当該単語の位置、及び正解文からクロスエントロピー損失を計算するクロスエントロピー計算手順と、
前記単語が生成されるたびに、前記入力文に対してこれまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を計算する
類似度計算手順と、
前記単語が生成されるたびに、前記文生成モデルのデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいてベースライン報酬を推定する報酬推定手順と、
前記単語が生成されるたびに、前記クロスエントロピー損失と、前記意味的テキスト類似度と、前記ベースライン報酬の推定値とに基づいて、強化学習の損失を計算する強化学習損失計算手順と、
一つの前記出力文の生成が終わると、前記強化学習の損失に応じて前記文生成モデルの学習パラメタを更新する文生成モデルパラメタ更新手順と、
をコンピュータが実行することを特徴とする文生成学習方法。
【請求項2】
汎用言語モデルBERTを用いて
前記意味的テキスト類似度モデルを学習する意味的テキスト類似度モデル学習手順を前記コンピュータが実行
する、
ことを特徴とする請求項1記載の文生成学習方法。
【請求項3】
文生成モデルを用いて
、入力文に対する出力文を
文頭の単語から一つずつ生成する文生成部と、
前記単語が生成されるたびに、当該単語と当該単語の位置、及び正解文からクロスエントロピー損失を計算するクロスエントロピー計算部と、
前記単語が生成されるたびに、前記入力文に対してこれまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を計算する
類似度計算部と、
前記単語が生成されるたびに、前記文生成モデルのデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいてベースライン報酬を推定する報酬推定部と、
前記単語が生成されるたびに、前記クロスエントロピー損失と、前記意味的テキスト類似度と、前記ベースライン報酬の推定値とに基づいて、強化学習の損失を計算する強化学習損失計算部と、
一つの前記出力文の生成が終わると、前記強化学習の損失に応じて前記文生成モデルの学習パラメタを更新する文生成モデルパラメタ更新部と、
を有することを特徴とする文生成学習装置。
【請求項4】
汎用言語モデルBERTを用いて
前記意味的テキスト類似度モデルを学習する意味的テキスト類似度モデル学習部を
有する、
ことを特徴とする請求項3記載の文生成学習装置。
【請求項5】
請求項1又は2記載の文生成学習方法をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文生成学習方法、文生成学習装置及びプログラムに関する。
【背景技術】
【0002】
機械翻訳、対話文生成、要約などまず現在のニューラルネットに基づく文生成の主流である、アテンション付きエンコーダデコーダモデル(attention-based encoder-decoder model, 注意機構付き符号化復号化モデル)について説明する。
【0003】
エンコーダデコーダモデルにおいて、入力系列X=x1・・・xnに対する正解の出力系列Y=y1・・・ymとすれば、この出力系列に対するクロスエントロピー損失LCEは以下のように定義される。
【0004】
【数1】
ここで、p
θ(y
j|y
j-1,s
j)はモデルがj番目の単語を生成する確率、θはモデルのパラメタ、s
jはステップjにおけるデコーダの内部状態である。
【0005】
エンコーダ(encoder,符号化器)は、非線形変換により入力系列Xを内部状態系列(hidden states,隠れ層の状態)H=h1・・・hnに写像するリカレントニューラルネットワーク(recurrent neural network)である。デコーダ(decoder,復号器)は、出力系列Yを先頭から一つずつ生成するリカレントニューラルネットワークである。
【0006】
エンコーダデコーダモデルのパラメタθは、確率的勾配降下法(stochastic gradient descent,SGD)を使って対訳データC={(X,Y)}に対するクロスエントロピー損失LCEを最小化するように学習される。
【0007】
【数2】
アテンション付きエンコーダデコーダモデルは、アテンション層(attention layer)と呼ばれるフィードフォワードニューラルネットワーク(feed-forward neural network)を持つエンコーダデコーダモデルである。
【0008】
アテンション(attention)ai,jは、入力文の各単語xiに対応するエンコーダの内部状態hiと出力文の次の単語yjを予測する際に使用するデコーダの内部状態の類似度を正規化することにより求められる。アテンションは、デコーダにおいて次の単語を予測する際に使用する、原言語の各単語に対応するエンコーダの内部状態に対する重みであり、確率付きの単語対応(word alignment)と考えることができる。
【0009】
一方、意味的テキスト類似度(Semantic Textual Similarity,STS)(非特許文献1)は、文間の類似度を決定するタスクである。二つの文に対して6段階のラベルを付与し、0は全く類似していない、5は完全に同じ内容であることを示す。評価用データはクラウドソーシングにより作成し、複数のアノテータが付与した数値の平均をとっているので文対データに実際に付与されている数値は整数とは限らない。意味的テキスト類似度を計算するシステムの性能は、システムが計算した類似度と人手により付与した類似度とのピアソン相関係数により評価する。
【0010】
なお、意味的テキスト類似度は英語を中心に研究されているが、英語以外の言語や異なる言語の間でも同様の枠組みで意味的テキスト類似度を定義できる。
【0011】
意味的テキスト類似度タスクは、2つの文の関係を決定するという意味では、言い換え検出(paraphrase detection)やテキスト含意認識(recognizing textual entailment)に似ている。意味的テキスト類似度は対称性が成り立つという点でテキスト含意認識より言い換え検出に近い。また、言い換え検出やテキスト含意認識は、「成立する」又は「成立しない」の二値であるが、意味的テキスト類似度は二値より粒度が細かい。
【0012】
意味的テキスト類似度タスクは、BERT(Bidirectional Encoder Representations from Transformers)のような事前学習(pre-training)済みの言語モデルを、意味的テキスト類似度の学習データを用いてfine tuningすることにより最高精度を実現できると報告されている(非特許文献2)。
【0013】
BERTは、機械翻訳において最高性能を達成しているTransformerに基づくエンコーダを用いて言語表現を学習するモデルである。BERTは、入力系列中の単語を前方及び後方の双方向から予測するニューラル言語モデル(neural language model)を、単語列の中でマスクされた単語を予想するタスクと与えられた二つの文が隣接文であるかを予測するタスクで事前学習することにより、単語単位だけでなく文単位の特徴量を捉えることができる。また、事前学習された言語モデルを対象とするタスクの学習データでfine tuningすると、意味的テキスト類似度、テキスト含意認識、質問応答、固有表現抽出など様々なタスクで最高精度を達成できることが報告されている。
【0014】
また、強化学習(reinforcement learning)は、現在の状態(state)を観測して取るべき行動(action)を選択するエージェント(agent)とそれに報酬(reward)を返す環境(environment)の間の相互作用を通じて、価値(value)又は累積報酬値を最大化することを目的としてエージェントが行動を選択する方策(policy)を学習する。
【0015】
強化学習は、エージェントの行動を評価する報酬関数が微分可能でなくとも損失関数を計算できるので、ニューラルネットワークのパラメタに対して微分不可能な(勾配を計算できない)評価尺度を最適化するモデルを学習する目的で使用される。文生成に強化学習を用いる場合、その目的は次式のモデルの出力系列Y^=y^1・・・y^mに対する報酬の期待値を最大化することである。なお、本文中におけるY^は、以下の数式においてYの上に^が付与された記号に対応する。y^についても同様である。
【0016】
【数3】
ここでrは、単語列を入力とする報酬関数でありモデルのパラメタθには依存しないと仮定する。
【0017】
例えば、機械翻訳において入力文X、翻訳モデルによる出力文(翻訳結果)Y^、参照訳(正解)Yとし、報酬r(Y^,Y)を翻訳精度の自動評価尺度BLEUとすれば、強化学習により評価尺度BLEUを最大化するニューラル機械翻訳モデルを学習できる(非特許文献3)。
【0018】
シンプルな強化学習の実現方法としてREINFORCEが知られている。REINFORCEの損失関数は、モデルpθ(Y^|X)から文をサンプリングすることによって次式のように近似される。
【0019】
【数4】
ただし、r
bはサンプリングすることで生じる損失の分散を緩和するための期待報酬の推定量で、ベースライン報酬(baseline reward)と呼ばれる。
【0020】
文生成におけるベースライン報酬rbのモデルとしては、デコーダの各出力ステップにおいて隠れ状態stを入力とし、以下のような線形変換とシグモイド関数から構成されるニューラルネットワークを用いて推定する方法が知られている(非特許文献3)。
【0021】
【数5】
ただし、ここで報酬は区間[0,1]に正規化されていると仮定する。
【0022】
ベースライン報酬モデルは以下の式のような2乗誤差を損失関数として用いる。
【0023】
【数6】
ここでrb(st)は文生成モデルp
θ(Y|X)とは異なるパラメタを持ち、ベースライン報酬モデルの誤差は文生成モデルの誤差には伝播しない。
【0024】
一般にREINFORCEによる強化学習は、報酬値の分散が大きいために特に学習初期において損失の減少が遅いことが知られている。そこで、はじめにクロスエントロピー損失を用いてモデルを学習し、途中から評価指標に基づく強化学習に移行する方法(非特許文献3)や、次式のように損失関数としてクロスエントロピー損失と強化学習による損失の線形和を用いる方法などが知られている(非特許文献4)。
【0025】
【数7】
ここでλはクロスエントロピーによる損失と強化学習による損失の比率を決める値で、一般に非常に小さい値が選ばれる。
【先行技術文献】
【非特許文献】
【0026】
【文献】Daniel Cer, Mona Diab, Eneko Agirre, Inigo Lopez-Gazpio, and Lucia Specia. Semeval-2017 task1: Semantic textual similarity multilingual and cross-lingual focused evaluation. In Proceedings of the SemEval-2017, pp. 1-14, 2017.
【文献】Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In aiXiv:1810.04805, 2018.
【文献】Marc'Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. Sequence level training with recurrent neural networks. In Proceedings of the ICLR-2016, 2016.
【文献】Lijun Wu, Fei Tian, Tao Qin, Jianhuang Lai, and Tie-Yan Liu. A study of reinforcement learning for neural machine translation. In Proceedings of the EMNLP-2018, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0027】
しかしながら、機械翻訳や対話文生成(チャットボット)のような、文を入力としてニューラルネットに基づく文生成を行うシステムは、「言い換え(paraphrase)」に対して寛容ではない。言い換えとは、例えば、「窮地」と「苦境」あるいは「脚光を浴びる」と「注目される」のような語彙的又は構文的に同じ意味を持つ異なる言語表現のことである。
【0028】
これは、ニューラルネットワークに基づく文生成システムがモデルを学習する際に目的関数として「クロスエントロピー損失(cross entropy loss)」を使用することが一つの原因である。クロスエントロピー損失では、正解文とモデル生成した出力文を比較し、同じ単語でも文内の単語の位置がずれていると誤りとして扱われる。
【0029】
もう一つの原因は、機械翻訳におけるBLEUのような文生成の自動評価尺度が単語の一致に基づいていることである。クロスエントロピー損失では、正解文と出力文を比較し、同じ単語ではなく同義語や類義語が使用されている場合には誤りとして扱われる。
【0030】
本発明は、上記の点に鑑みてなされたものであって、文生成の精度を向上させることを目的とする。
【課題を解決するための手段】
【0031】
そこで上記課題を解決するため、文生成モデルを用いて、入力文に対する出力文を文頭の単語から一つずつ生成する文生成手順と、前記単語が生成されるたびに、当該単語と当該単語の位置、及び正解文からクロスエントロピー損失を計算するクロスエントロピー計算手順と、前記単語が生成されるたびに、前記入力文に対してこれまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を計算する類似度計算手順と、前記単語が生成されるたびに、前記文生成モデルのデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいてベースライン報酬を推定する報酬推定手順と、前記単語が生成されるたびに、前記クロスエントロピー損失と、前記意味的テキスト類似度と、前記ベースライン報酬の推定値とに基づいて、強化学習の損失を計算する強化学習損失計算手順と、一つの前記出力文の生成が終わると、前記強化学習の損失に応じて前記文生成モデルの学習パラメタを更新する文生成モデルパラメタ更新手順と、をコンピュータが実行する。
【発明の効果】
【0032】
文生成の精度を向上させることができる。
【図面の簡単な説明】
【0033】
【
図1】本発明の実施の形態における文生成装置10のハードウェア構成例を示す図である。
【
図2】本発明の実施の形態における文生成装置10の機能構成例を示す図である。
【
図3】文生成処理の処理手順の一例を説明するためのフローチャートである。
【
図4】文生成装置10が実行する学習処理の処理手順の一例を説明するためのフローチャートである。
【
図5】意味的テキスト類似度モデルの学習に関して文生成装置10が有する機能構成例を示す図である。
【
図6】意味的テキスト類似度モデルの学習処理の処理手順の一例を説明するためのフローチャートである。
【
図7】文生成モデルの学習に関して文生成装置10が有する機能構成例を示す図である。
【
図8】文生成モデルの学習処理の処理手順の一例を説明するためのフローチャートである。
【
図9】ベースライン報酬モデルの学習処理の処理手順の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0034】
以下、図面に基づいて本発明の実施の形態を説明する。
図1は、本発明の実施の形態における文生成装置10のハードウェア構成例を示す図である。
図1の文生成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
【0035】
文生成装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0036】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って文生成装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
【0037】
図2は、本発明の実施の形態における文生成装置10の機能構成例を示す図である。
図2において、文生成装置10は、文生成部11、文生成モデル学習部12及び意味的テキスト類似度モデル学習部13等を有する。これら各部は、文生成装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。
【0038】
文生成部11は、入力文に対して出力文を生成するアテンション付きエンコーダデコーダである。文生成部11は、アテンション付きエンコーダデコーダに限らず、Transformer(「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.」)などのニューラルネットワークに基づき系列を生成するモデルであれば何でもよい。
【0039】
文生成モデル学習部12は、文生成部11が利用する文生成モデルを学習する。意味的テキスト類似度モデル学習部13は、文生成モデル学習部12が利用する意味的テキスト類似度モデルを学習する。
【0040】
図3は、文生成処理の処理手順の一例を説明するためのフローチャートである。文生成部11は、入力文を入力とし(S101)、文生成モデル学習部12によって学習済みの文生成モデルを用いて出力文を生成する(S103)。文生成部11は、当該出力文を出力する(S103)。
【0041】
図4は、文生成装置10が実行する学習処理の処理手順の一例を説明するためのフローチャートである。本実施の形態では、BERTのような大量の言語データから汎用言語モデル学習部21によって事前に学習された汎用言語モデルが存在することを前提とする。文生成タスクが機械翻訳の場合には、汎用言語モデルの言語は翻訳における翻訳先(目的)言語と一致している必要がある。
【0042】
ステップS201において、意味的テキスト類似度モデル学習部13は、意味的テキスト類似度データと汎用言語モデルから意味的テキスト類似度モデルを学習する。続いて、文生成モデル学習部12は、文生成タスクの入力文と正解となる出力文の対から構成される学習データと意味的テキスト類似度モデルから文生成モデルを学習する(S202)。
【0043】
[事前学習済み汎用言語モデルを用いた意味的テキスト類似度モデルの学習]
図4のステップS201の詳細について説明する。
図5は、意味的テキスト類似度モデルの学習に関して文生成装置10が有する機能構成例を示す図である。
【0044】
意味的テキスト類似度モデルは、汎用言語モデルBERT及び回帰分析部14を含み、二つの文を入力として、0から5までの意味的テキスト類似度を出力するモデルである。
【0045】
図5において、意味的テキスト類似度モデル学習部13は、損失計算部131及び意味的テキスト類似度モデルパラメタ更新部132を含む。意味的テキスト類似度モデル学習部13は、意味的テキスト類似度タスクの学習データを用いて事前学習済み汎用言語モデルBERTをfine tuningすることにより意味的テキスト類似度モデルを生成する(非特許文献2)。
【0046】
図6は、意味的テキスト類似度モデルの学習処理の処理手順の一例を説明するためのフローチャートである。
【0047】
ステップS301において、汎用言語モデル(BERT)は、意味的テキスト類似度データの二つの文Y1とY2の間に文区切り記号を挿入した一つの系列を入力とし、中間表現を出力する。
【0048】
続いて、回帰分析部14は、次式のようにBERTの最上位層にプーリング層及びReLUを活性化関数とする線形層を加えたもので、BERTが出力する中間表現から意味的テキスト類似度の推定値として一つの実数値を出力する(S302)。
【0049】
【数8】
続いて、損失計算部131は、学習データにある2つの入力文に対する意味的テキスト類似度の推定値と学習データにある正解vの意味的テキスト類似度から損失関数として平均二乗誤差(mean squared error)を求める(S303)。
【0050】
【数9】
意味的テキスト類似度モデルパラメタ更新部132は、損失の減少が収束するまで意味的テキスト類似度モデルの学習パラメタの更新を繰り返し(S304、S305)、損失の減少が収束すると(S305でYes)、その際の学習パラメタを保存する(S306)。なお、学習パラメタの更新は、文単位で行われてもよいし、ミニバッチと呼ばれる複数の文のまとまりを単位として行われてもよい。
【0051】
[意味的テキスト類似度を報酬とする強化学習による文生成モデルの学習]
図4のステップS202の詳細について説明する。文生成モデル学習部12は、意味的テキスト類似度を報酬とする強化学習により文生成モデルを学習する。但し、意味的テキスト類似度は区間[0,5]に分布するので区間[0,1]に正規化するために1/5を掛ける。
【0052】
【数10】
また、本実施の形態において、強化学習アルゴリズムにはREINFORCE(「Ronald J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, Vol. 8, No. 3-4, pp. 229-256, 1992.」)を使用する。さらにREINFORCEによる強化学習の際に損失関数の分散を安定させるためのベースライン報酬として、デコーダの内部状態からニューラルネットを用いて推定する式(5)を用いる。
【0053】
図7は、文生成モデルの学習に関して文生成装置10が有する機能構成例を示す図である。
図7において、文生成モデル学習部12は、文生成部11、クロスエントロピー損失計算部121、意味的テキスト類似度推定部122、ベースライン報酬推定部123、強化学習損失計算部124、文生成モデルパラメタ更新部125、ベースライン報酬モデル損失計算部126及びベースライン報酬モデルパラメタ更新部127等を含む。なお、本実施の形態の文生成部11は、アテンション付きエンコーダデコーダモデルを使用する。アテンション付きエンコーダデコーダモデルは、エンコーダ、デコーダ及びアテンション計算部から構成される。
図7においてアテンション計算部は、便宜上、省略されている。
【0054】
図8は、文生成モデルの学習処理の処理手順の一例を説明するためのフローチャートである。
【0055】
文生成部11は、学習データの中の入力文を一つずつ受け取り(S401)、入力文に対応する出力文を、文頭の単語から一つずつ生成する(S402)。
【0056】
文生成部11が単語を一つ生成すると、クロスエントロピー損失計算部121は、当該単語と当該単語の位置、及び学習データの正解文からクロスエントロピー損失を計算する(S403)。
【0057】
続いて、意味的テキスト類似度推定部122は、これまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を推定(計算)する(S404)。
【0058】
続いて、ベースライン報酬推定部123は、文生成部11のデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいて、ベースライン報酬を推定する(S405)。
【0059】
続いて、強化学習損失計算部124は、クロスエントロピー損失と、意味的テキスト類似度と、ベースライン報酬の推定値から、式(4)に基づいて強化学習(REINFORCE)の損失を計算する(S406)。
【0060】
ステップS402~S406は、一つの出力文が生成されるまで繰り返される。一つの出力文の生成が終わると(S407でYes)、文生成モデルパラメタ更新部125は、文を単位として集計した強化学習の損失の減少が収束したか否かを判定する(S408)。当該損失の減少が収束していない場合(S408でNo)、文生成モデルパラメタ更新部125が文生成モデルの学習パラメタを更新し(S409)、ステップS401以降が繰り返される。当該損失の減少が収束すると(S408でYes)、文生成モデルパラメタ更新部125は、文生成モデルの学習パラメタを保存する(S410)。なお、学習パラメタの更新はミニバッチとよばれる複数の文のまとまりを単位として行われてもよい。
【0061】
本実施の形態では、REINFORCEによる強化学習は報酬の分散が大きいために特に学習の初期に損失の減少が遅いので、初めにある程度クロスエントロピー損失に基づく教師あり学習をしてからREINFORCEを用いた強化学習を行う。また強化学習の際に、報酬に基づく損失だけでは学習が不安定になることがあるので、式(7)のようにクロスエントロピーによる損失と強化学習による損失の線形和を用いる。
【0062】
続いて、ベースライン報酬モデルの学習について説明する。ベースライン報酬モデルは、クロスエントロピー損失に基づく教師あり学習により作成された文生成モデルを用いて、強化学習に基づく文生成モデルの学習(
図8)より前に予め行っておく。
【0063】
図9は、ベースライン報酬モデルの学習処理の処理手順の一例を説明するためのフローチャートである。
【0064】
文生成部11は、学習データの中の入力文を一つずつ受け取り(S501)、入力文に対応する出力文を、文頭の単語から一つずつ生成する(S502)。
【0065】
文生成部11が単語を一つ生成すると、意味的テキスト類似度推定部122は、これまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を推定(計算)する(S503)。
【0066】
続いて、ベースライン報酬推定部123は、文生成部11のデコーダの内部状態からベースライン報酬を推定する(S504)。
【0067】
続いて、ベースライン報酬モデル損失計算部126は、意味的テキスト類似度とベースライン報酬の推定値から、式(6)に基づいてベースライン報酬モデルの損失を計算する(S505)。
【0068】
ステップS502~S505は、一つの出力文が生成されるまで繰り返される。一つの出力文の生成が終わると(S506でYes)、ベースライン報酬モデルパラメタ更新部127は、文を単位として集計したベースライン報酬モデルの損失の減少が収束したか否かを判定する(S507)。当該損失の減少が収束していない場合(S507でNo)、ベースライン報酬モデルパラメタ更新部127がベースライン報酬モデルの学習パラメタを更新し(S508)、ステップS501以降が繰り返される。当該損失の減少が収束すると(S507でYes)、ベースライン報酬モデルパラメタ更新部127は、ベースライン報酬モデルの学習パラメタを保存する(S410)。なお、学習パラメタの更新はミニバッチとよばれる複数の文のまとまりを単位として行われてもよい。
【0069】
以下、本実施の形態に関して行った実験について説明する。
【0070】
事前学習済みのBERTモデルはBERT-base-uncased(https://github.com/google-research/bert)を用いた。また、意味的テキスト類似度の学習データにはSTS-Benchmark(STS-B)(http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark)を用いた。STS-Bは英語のニュース・画像のキャプション・チャット文からなるデータセットであり、学習、検証、評価用にそれぞれ約5700、1500、1400文対と人手による文対の意味的テキスト類似度の評価値が含まれている。
【0071】
翻訳の学習には、WMT(Conference on Machine Translation)の複数メディア翻訳タスクで使われる画像と多言語キャプションのデータセットmulti30k-dataset(https://github.com/multi30k/dataset)を用いた。この中からtask1の英語とドイツ語のキャプション文のデータのみを利用した独英翻訳に関する実験を行った。このデータセットには学習用29000文と検証用の約1000文に加えて、1000文程度の評価用セットが複数含まれている。今回は評価用セットとしてflickr2017とmscoco2017を用いた。
【0072】
クロスエントロピー損失のみで学習させて翻訳モデル(ML)と、そこから更に意味的テキスト類似度を報酬とする強化学習を行った翻訳モデル(RL)の翻訳精度(BLEU(「Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the ACL-2002, pp. 311-318, 2002.」))及び意味的テキスト類似度(STS)を表1に示す。本実施の形態では、意味的テキスト類似度を最大化するようにモデルを学習しているので、意味的テキスト類似度(STS)が向上するのは当然であるが、両方の評価データで、MLに比べてRLの翻訳精度(BLEU)が向上している。
【0073】
【表1】
上述したように、本実施の形態によれば、ニューラルネットに基づく文生成において、意味的テキスト類似度を報酬とする強化学習により機械翻訳モデルを学習することにより、クロスエントロピー損失によりモデルを学習した場合に比べて翻訳精度(文生成の精度)を向上させることができる。
【0074】
具体的には、本実施の形態によれば、文の意味的類似性(意味的テキスト類似度)を報酬とした強化学習を用いることにより、構文構造の違いや単語の揺れや文構造の変化などを許容し、同じ意味を持つ多様な言語表現を生成することが可能となる。
【0075】
なお、本実施の形態は、機械翻訳、対話文生成、要約、質問応答、画像キャプション生成など、ニューラルネットに基づく文生成を行うタスクに対して広く適用することができる。
【0076】
また、本実施の形態において、事前学習済みの汎用言語モデルBERTを用いて意味的テキスト類似度を計算する方法は、言い換え、含意関係など二つの入力文に対して人手により評価値を付与した正解データからその評価値を求める回帰問題に対して広く適用できる。
【0077】
従って、本実施の形態は、このように文対に対して人手により定義された評価値を最大化/最小化するモデルを学習する問題に対して広く適用することができる。
【0078】
なお、本実施の形態において、文生成装置10は、文生成学習装置の一例である。意味的テキスト類似度推定部122は、計算部の一例である。
【0079】
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0080】
10 文生成装置
11 文生成部
12 文生成モデル学習部
13 意味的テキスト類似度モデル学習部
14 回帰分析部
21 汎用言語モデル学習部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
121 クロスエントロピー損失計算部
122 意味的テキスト類似度推定部
123 ベースライン報酬推定部
124 強化学習損失計算部
125 文生成モデルパラメタ更新部
126 ベースライン報酬モデル損失計算部
127 ベースライン報酬モデルパラメタ更新部
131 損失計算部
132 意味的テキスト類似度モデルパラメタ更新部
B バス