IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東北大学の特許一覧

特開2022-70385文変換装置、文変換方法及びプログラム
<>
  • 特開-文変換装置、文変換方法及びプログラム 図1
  • 特開-文変換装置、文変換方法及びプログラム 図2
  • 特開-文変換装置、文変換方法及びプログラム 図3
  • 特開-文変換装置、文変換方法及びプログラム 図4
  • 特開-文変換装置、文変換方法及びプログラム 図5
  • 特開-文変換装置、文変換方法及びプログラム 図6
  • 特開-文変換装置、文変換方法及びプログラム 図7
  • 特開-文変換装置、文変換方法及びプログラム 図8
  • 特開-文変換装置、文変換方法及びプログラム 図9
  • 特開-文変換装置、文変換方法及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022070385
(43)【公開日】2022-05-13
(54)【発明の名称】文変換装置、文変換方法及びプログラム
(51)【国際特許分類】
   G06F 40/44 20200101AFI20220506BHJP
   G06F 16/33 20190101ALI20220506BHJP
   G06F 16/35 20190101ALI20220506BHJP
【FI】
G06F40/44
G06F16/33
G06F16/35
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2020179423
(22)【出願日】2020-10-27
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】森下 睦
(72)【発明者】
【氏名】鈴木 潤
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091EA01
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
【課題】様々なドメインに対応可能な系列変換モデルを提供すること。
【解決手段】文変換装置は、学習済みの符号化器による文の符号化により得られる第1のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第1のベクトルに基づいて学習する学習部と、入力文について前記符号化器による符号化により得られる前記第1のベクトルと、学習済みの前記文クラスタリングモデルから当該第1のベクトルに基づいて出力される第2のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化部と、を有する
【選択図】図6
【特許請求の範囲】
【請求項1】
学習済みの符号化器による文の符号化により得られる第1のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第1のベクトルに基づいて学習する学習部と、
入力文について前記符号化器による符号化により得られる前記第1のベクトルと、学習済みの前記文クラスタリングモデルから当該第1のベクトルに基づいて出力される第2のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化部と、
を有することを特徴とする文変換装置。
【請求項2】
前記学習部は、前記学習データに含まれる文ごとに、前記文クラスタリングモデルから出力される前記第2のベクトルと前記各重心ベクトルとの距離の最小値と特定し、前記学習データに含まれる文ごとに特定した前記最小値の総和が最小になるように、前記モデルパラメタと前記重心ベクトルとを学習する、
ことを特徴とする請求項1記載の文変換装置。
【請求項3】
学習済みの符号化器による文の符号化により得られる第1のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第1のベクトルに基づいて学習する学習手順と、
入力文について前記符号化器による符号化により得られる前記第1のベクトルと、学習済みの前記文クラスタリングモデルから当該第1のベクトルに基づいて出力される第2のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化手順と、
をコンピュータが実行することを特徴とする文変換方法。
【請求項4】
請求項1又は2記載の文変換装置としてコンピュータを機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文変換装置、文変換方法及びプログラムに関する。
【背景技術】
【0002】
ここでは、計算機による自動文章生成技術を取り上げる。計算機により自然言語を処理する技術は、文章に現れる表層的な文字や単語といった離散シンボルの集合を処理する技術と言える。例えば、或る言語の文を入力し、別の言語の文を出力する自動翻訳システムを考える。このシステムでは、入力及び出力の文を単語列(文字列)とみなして処理が行われる。よって、このシステムにより、離散系列(シンボル列)から別の離散系列へ変換する処理が行われているとみなすことができる。また、文書要約システム、対話システム、文書校正システムなどの言語を入出力とするシステムは、前記翻訳システムと同様に、離散系列から別の離散系列へ変換する処理によってシステムが構成されると言える。
【0003】
このように、自然言語を扱うシステムでは、扱う対象が単語、文、文書といった離散系列であるため、入力から出力へどのような変換を行うかという定義の違いはあるにせよ、処理のフレームワークは同じであり、離散系列から離散系列の変換問題に帰着できる(図1参照)。
【0004】
特に、ここでは、任意の与えられた入力文に対して、事前に決められた定義にしたがって出力文を返すシステムを取り上げる。このようなシステムをy=f(x)と表現した場合、当該システムは、入力文xが与えられた際に出力文yを返す関数f(・)とみなすことができる。また、Xを全ての可能な入力文の集合、Yを全ての可能な出力文の集合と考えた場合、上記システムの構築は、あらゆる正しいx∈Xとy∈Yとの対応(x,y)を返すことができる関数f(・)を見つける問題とみなすことができる。但し、一般論としては、全ての可能なペアを用意することは不可能であることや、仮に用意できたとしても、正しい対応となる関数を用意できるとは限らない。したがって、システム構築においては、限られたデータからなるべく間違いが起きにくいと思われる関数の獲得が目指される。
【0005】
このような関数f(・)を獲得する技術は、自然言語処理分野において数多くの方法が開発され、様々な方法論が確立されている。古典的には、人間が系列から系列への変換ルールや規則などを記述することで変換方法が構築されてきた。近年では、正解データを利用したり、最適化法を用いたりするなど、機械学習技術を活用する方法が主流となっている。
【0006】
特に最近では、機械学習法の中でも注目を集めている深層学習やニューラルネットワークの枠組みを使い、離散系列を実数値ベクトルへ符号化し、その実数値ベクトルから離散系列を復号するという方法論で離散系列-離散系列変換問題を解く方法が提案されている。この方法は、人手による事前知識を全く使わず、可変長の系列構造から系列構造への変換を固定長の実数値ベクトルへの符号化と復号化のみで実現されることが大きな特徴である。例えば、非特許文献1の技術を使うと非常に高品質な文章を生成できることが知られている。非特許文献1の技術は、一般的に、系列変換器と呼ばれ、自動翻訳システム、文章要約システム、文章校正システム、自動対話システム等、計算機により自動で文章を生成し提示する機構を有するシステムであり、現在広く用いられている。系列変換器は、おおきくは符号化器と復号化器の二つの構成要素にて構築されている(図2参照)。
【0007】
符号化器及び復号化器のパラメタは、学習用データから自動的に獲得される。パラメタの学習は、予め準備された、理想的な入力と出力のペアの集合を学習用のデータの入力に対して正しく出力できるようにパラメタ調整を行うことで進められる。また、文章生成技術は、深層学習及びニューラルネットの技術を活用することで、従来よりも飛躍的に進歩している。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Ilya Sutskever, Oriol Vinyals, and Quoc V Le, Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 27, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、文章は、口語、文語といったスタイルの違いや、旅行会話、ビジネス、政治といったトピックによる違い、又は話者間の関係や、どのような場面での発話かといった状況など様々な観点において、使われる用語、表現方法及びスタイルなどが大きく異なる。これらの違いを全て網羅するような文章生成器を構築するのは現状の技術をもってしても困難である。
【0010】
ここでは、前述の用語、表現方法、スタイルといった観点において同一の状況で使われる文章の集合を「ドメイン」と呼ぶことにする。実用的な文章生成器を構築するためには、扱うドメインを限定し、そのドメインに属する学習データのみを使って文章生成器を構築することが必要である。これによって、対象としたドメインに限っては生成品質を大幅に向上させることができる。一般的に、ドメインを限定すればするほどそのドメインに限っては品質を向上できる場合が多い。一方で、当然であるが、除外されたドメインの文章に関しては、大幅に品質が低下する。また、多くのドメインを対象とした場合は、全体的に生成品質を高くできるが、特定のドメインに特化した場合と比べると、それぞれのドメインに関する生成品質は低くなってしまう。
【0011】
本発明は、上記の点に鑑みてなされたものであって、様々なドメインに対応可能な系列変換モデルを提供することを目的とする。
【課題を解決するための手段】
【0012】
そこで上記課題を解決するため、文変換装置は、学習済みの符号化器による文の符号化により得られる第1のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第1のベクトルに基づいて学習する学習部と、入力文について前記符号化器による符号化により得られる前記第1のベクトルと、学習済みの前記文クラスタリングモデルから当該第1のベクトルに基づいて出力される第2のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化部と、を有する。
【発明の効果】
【0013】
様々なドメインに対応可能な系列変換モデルを提供することができる。
【図面の簡単な説明】
【0014】
図1】離散系列から離散系列の変換問題に帰着できる各種システムの一例を示す図である。
図2】系列変換器の構成例を示す図である。
図3】本発明の実施の形態における文変換装置10のハードウェア構成例を示す図である。
図4】言語モデルm1の学習に関する文変換装置10の機能構成例を示す図である。
図5】言語モデルm1を説明するための図である。
図6】文クラスタリングモデルm2の学習に関する文変換装置10の機能構成例を示す図である。
図7】文クラスタリングモデルm2を説明するための図である。
図8】系列変換モデルm3の学習に関する文変換装置10の機能構成例を示す図である。
図9】系列変換モデルm3を説明するための図である。
図10】評価フェーズに関する文変換装置10の機能構成例を示す図である。
【発明を実施するための形態】
【0015】
ドメインに特化した生成品質を保持しつつ様々なドメインに対応することを考えた場合に、最も単純な方法として、なるべく多くのドメインに特化した文章生成器を用意し、それを使い分けることで多くのドメインに特化した高品質な文章生成を実現する方法が考えられる。なお、本実施の形態において、ドメインとは、使われる用語、表現方法及びスタイルなどの観点に基づいて区別される文章の集合をいう。
【0016】
しかし、この方法は、(1)ドメインの単位に多くのモデルを用意しなくてはいけない点、(2)未知のデータに対してどのドメインの文章かを高品質に推定する処理が必要な点、に対処する必要がある。
【0017】
本実施の形態では、(1)に関しては、ドメインの情報も文章の生成時に活用することで、ドメインの違いも考慮しつつ、一つのモデルで表現する方法を開示する。より具体的には、ドメイン毎にドメイン特有のベクトル(後述の )を割り当て、それを入力文と共に入力の一部としてシステム(文変換装置10)に与え、追加情報として活用する。活用方法は、ドメイン特有ベクトルにより、用いるニューラルネットワークを仮想的に空間分割し、それにより複数のドメイン特化モデルを一つの生成器として構成する方法である。
【0018】
また、(2)に関しては、人間が決めたドメインは、その粒度や範囲も曖昧であることが多く、計算機(文変換装置10)にとって必ずしも使いやすい分割になっているとは限らないという観点から、人間が決めたドメインではなく、データから計算機(文変換装置10)が効率的に学習しやすいドメイン分割を計算機(文変換装置10)が自動で学習し、文変換装置10が学習の結果(ドメイン分割)を用いることで、性能を向上させる方法を考案する。
【0019】
以下、図面に基づいて本発明の実施の形態を説明する。図3は、本発明の実施の形態における文変換装置10のハードウェア構成例を示す図である。図3の文変換装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
【0020】
文変換装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0021】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って文変換装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
【0022】
本実施の形態では、自動翻訳を題材として説明する。但し、背景技術において述べた通り、入力文xに対して、出力文yを返す関数f(・)とした際に、y=f(x)の形式で定義できるあらゆる系列変換タスク(所定の変換処理)、例えば、文章要約、対話システム、文章校正等に対して、同様の手順を用いて本実施の形態を適用することが可能である。
【0023】
自動翻訳システムは、主に、翻訳モデルを学習する「学習フェーズ」と、学習後のモデルを用いて、未知のデータに適用する「評価フェーズ」で構成される。以下、学習フェーズ及び評価フェーズに分けてそれぞれを説明する。
【0024】
[学習フェーズ]
学習フェーズの目的は、自動翻訳モデルをデータから学習することである。本実施の形態では、各ドメイン特化の(複数の)自動翻訳モデルを一つのモデルで表現したモデルが構築される。その実現のために、(1)入力側言語の言語モデル(以下、「言語モデルm1」という。)、(2)入力側言語の文クラスタリングモデル(以下、「文クラスタリングモデルm2」という。)、(3)系列変換モデルm3の合計3種類のモデルが構築される。構築された3つのモデルが具体的にどのように用いられるかについては、評価フェーズのセクションで詳しく述べる。
【0025】
それぞれのモデルの構築手順は以下のとおりである。
【0026】
[学習フェーズ:手順(1)]
図4は、言語モデルm1の学習に関する文変換装置10の機能構成例を示す図である。図4において、文変換装置10は、言語モデルm1を構成する符号化部11及び推定部12と、言語モデル学習部13とを有する。これら各部は、文変換装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
【0027】
図4に示されるように、文変換装置10は、手順(1)において、入力側言語の文章集合を学習データD={X m=1として言語モデルm1を学習する。但し、本実施の形態では、手順(1)で用いる言語モデルm1の定義(パラメタ構成や計算手順などを含む)は、手順(3)において符号化器e1として用いられることを仮定する。よって、手順(1)で利用できる言語モデルm1の構成は、符号化器e1として利用可能な言語モデルm1であることが条件となる。
【0028】
符号化部11は、言語モデルm1の定義のうち手順(3)で用いられる符号化器e1として用いられる部分(入力文を符号化するニューラルネットワーク)である。符号化部11のモデルパラメタは、Wである。
【0029】
推定部12は、言語モデルm1の定義のうち手順(3)で用いられる符号化器e1に含まれない部分(ニューラルネットワーク)である。推定部12のモデルパラメタは、αである。
【0030】
言語モデル学習部13は、言語モデルm1の学習処理(すなわち、手順(1))を制御する。
【0031】
図5は、言語モデルm1を説明するための図である。図5において、enc(・)は、符号化部11の定義を示す。また、enc2(・)は、推定部12の定義を示す。enc(・)とenc2(・)とでBERTのようなマスク型ニューラル言語モデルの学習時の構成を表している。なお、enc(・)及びenc2(・)は、学習データDと共に、手順(1)に対する入力情報である。
【0032】
ここでは、「Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019.」のようなマスク型ニューラル言語モデルm1を用いる場合を考える。従って、符号化部11(enc(・))は、任意の単語がマスクされた(隠された)入力文を符号化し、推定部12は、マスクされた(隠された)単語を推定する。
【0033】
ここで、入力文がI個の単語の並びで構成されているとする。このときi番目の単語をD次元の列ベクトルx で表現すると定義する。これは、単語埋め込みベクトルなどを用いて、単語からD次元の列ベクトルへ一意に変換することを想定する。次に、入力文X は、I個のD次元列ベクトルのリストと考える。つまり、
【0034】
【数1】
である。また、X は、D×I行列とみなすこともできる。
【0035】
この場合、手順(1)において、言語モデル学習部13は、学習データD={X m=1に対して、以下の最適化問題の解を得ることで、符号化部11のモデルパラメタ^Wを得る。したがって、手順(1)における出力は、符号化部11のモデルパラメタ^Wである。なお、本実施の形態において、^Z(Zは、任意の変数)は、数式及び図において、Zの真上に^が付与された符号を示す。
【0036】
【数2】
但し、noise(X)は、入力文Xにマスクやノイズを加え、Xを少し変形した文とする。また、本実施の形態において、noise(・)は、マスク型言語モデルを用いる際に追加で定義した関数と考える。このとき、手順(1)において、学習部13は、以下の最適化問題を解くことで、目的とする言語モデルm1のパラメタ(^W及び^α)を得る。但し、パラメタ^αは、以降において利用されない。
【0037】
【数3】
は、入力文章X の長さにしたがって、I個の次元ベクトルのリストである。よって、H は、X 同様、D×I行列とみなすこともできる。
【0038】
[学習フェーズ:手順(2)]
手順(2)では、入力側言語の文章集合を、手順(1)で獲得した言語モデルm1の計算結果にしたがってK個のクラスタに分割する。ここで、クラスタは、ドメインを効率的に表現することが可能な粒度に相当する。すなわち、クラスタとドメインとは、必ずしも一対一に対応しなくてよい。例えば、8個のクラスタに分割された場合、クラスタ1,2,5がドメイン1に対応し、クラスタ3,7がドメイン2に対応し、クラスタ4はドメイン1とドメイン2に対応するという場合もあり得る。なお、手順(2)で用いる入力側言語の文章集合は、手順(1)で用いた学習データDとは別の文章集合でもよいし、同じ文書集合でもよい。説明を簡単にするため、ここでは同じDを用いて説明する。
【0039】
図6は、文クラスタリングモデルm2の学習に関する文変換装置10の機能構成例を示す図である。図6中、図4と同一部分には同一符号を付し、その説明は省略する。図6において、文変換装置10は、文クラスタリングモデルm2を構成する符号化部11及び文クラスタリング部21と、文クラスタリングモデル学習部22とを有する。これら各部は、文変換装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
【0040】
文クラスタリング部21は、文のクラスタリングを行うニューラルネットワークである。
【0041】
文クラスタリングモデル学習部22は、文クラスタリングモデルm2の学習処理(すなわち、手順(2))を制御する。
【0042】
図7は、文クラスタリングモデルm2を説明するための図である。図7中、enc(・)は、上記した通りである。一方、cls(・)は、文クラスタリング部21によるクラスタリング法の定義を示す。
【0043】
手順(2)において、まず、文クラスタリングモデル学習部22は、手順(1)で用いられた言語モデルm1のenc(・)部分と、手順(1)で得られた言語モデルm1の学習済みパラメタ^Wとを用いて、学習データD内の各X に対する^H を式(4)に基づいて計算する。したがって、手順(2)において、^Wは固定される。
【0044】
【数4】
以下において、VをK個のD次元ベクトルvを並べて構成されるD×K行列とする。但し、kは、1≦k≦Kの整数であるとし、vは、行列Vのk番目の列ベクトルとする。そして、得られたD×I行列の集合をH=(^H m=1と表記する。
【0045】
続いて、文クラスタリングモデル学習部22は、学習データH=(^H m=1とクラスタリング法の定義cls(・)とを入力とし、文クラスタリング部21のモデルパラメタWとクラスタリングに関する各クラスタの特徴を示すパラメタVとを調整して、学習済みのパラメタ(^W,^V)を得る。具体的には、文クラスタリングモデル学習部22は、以下の最適化問題の解を得ることで、Kクラスタの重心ベクトル^vを求める。
【0046】
【数5】
但し、^vは、vと同様に行列^Vのk番目の列ベクトルとする。
【0047】
なお、手順(2)の出力は、学習済みパラメタ(^W,^V)である。すなわち、文クラスタリングモデル学習部22は、入力文X ごとに、cls(・)から出されるベクトル( )と各vとの距離(L2ノルムの2乗)の最小値を特定し、X ごとに特定した最小値の総和が最小となるように、(^W,^V)が探索(学習)される。
【0048】
また、クラスタリングの性能を向上させるために、
【0049】
【数6】
という制約を加えた上で式(5)の問題が解かれてもよい。さらに、各v同士がなるべく離れるような制約、例えば、v・vk'≦εといった制約を加えることができる(但し、k≠k')。
【0050】
[学習フェーズ:手順(3)]
手順(3)において、文変換装置10は、入力側言語及び出力側言語の対応関係が取れているペアの文章集合を、手順(1)及び(2)で獲得した言語モデルm1及びクラスタリングのパラメタとその定義を利用して、入力側言語の文章から出力側言語の文章を獲得する系列変換モデルm3を学習する。手順(1)及び(2)で用いた入力側言語の文章集合と、手順(3)で用いる学習データの入力側言語の文章とは、必ずしも同じでなくてもよい。ここでは、説明を簡単にするため、入力側言語及び出力側言語の対応関係が取れているペアの文章集合をD={(X ,X )} n=1と表記する。nが共通するX とX は、同じ意味を持つ入力側言語の文章と出力側言語の文章とする。
【0051】
図8は、系列変換モデルm3の学習に関する文変換装置10の機能構成例を示す図である。図8中、図6と同一部分には、同一符号を付し、その説明は省略する。図8において、文変換装置10は、系列変換モデルm3の符号化器e1を構成する符号化部11及び文クラスタリング部21と、系列変換モデルm3の復号化器d1を構成する復号化部31と、文クラスタリングモデル学習部22とを有する。これら各部は、文変換装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
【0052】
復号化部31は、入力文について符号化器e1による符号化結果を復号化することで、入力文に対する翻訳文を出力するニューラルネットワークである。
【0053】
系列変換モデル学習部32は、系列変換モデルm3の学習処理(すなわち、手順(3))を制御する。
【0054】
図9は、系列変換モデルm3を説明するための図である。図9中、enc(・)及びcls(・)は、上記した通りである。一方、dec(・)は、復号化部31の定義(系列変換モデルm3(主に出力側言語のモデル)の定義)である。dec(・)に関しては、例えば、「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, Attention is All you Need. Advances in Neural Information Processing Systems 30, 2017」に開示された構成が用いられてもよい。
【0055】
まず、系列変換モデル学習部32は、手順(2)で用いられたクラスタリング法のcls(・)と、手順(2)で得られた学習済みパラメタ^Wとを用いて、以下の式(7)に従って、学習データD内の各X に対し を計算する。なお、本実施の形態において、Z(Zは、任意の変数)は、数式及び図において、Zの真上に-が付与された符号を示す。
【0056】
【数7】
但し、^H は、式(4)により計算される。
【0057】
続いて、系列変換モデル学習部32は、入力側言語と出力側言語の対応した文章ペアの集合D={(X ,X )} n=1と、dec(・)とを入力とし、以下の式(11)に従って、パラメタWを調整することで、学習済みパラメタ^Wを得る。
【0058】
【数8】
したがって、手順(3)の出力は、パラメタ^Wである。式(10)及び図9からも明らかなように、復号化器d1には、^H のみならず、 に基づくzも入力されて復号器d1の学習(パラメタWの調整が行われる。なお、zは、式(11)から明らかなように、学習済みの各クラスタの重心ベクトル(^v)の行列(^V)と、-h との内積である。
【0059】
[評価フェーズ]
学習フェーズにより、入力側の言語の文章から出力側の言語の文章へ変換するために必要なパラメタ(^W,^W,^V,^W)の学習が完了している。これらの学習済みのパラメタを用いて、文変換装置10が実際に入力側言語の未知の文章に対して変換を行うのが評価フェーズである。評価フェーズでは、学習済みのパラメタは固定されている(値は変わらない)ことを想定する。
【0060】
図10は、評価フェーズに関する文変換装置10の機能構成例を示す図である。図10中、図8と同一部分には同一符号を付し、その説明は省略する。図10において、文変換装置10は、系列変換モデルm3を有する。
【0061】
系列変換モデルm3は、符号化器e1及び復号化器d1を含み、評価対象となる入力側言語の文章(入力文)Xを入力として、Xに対応する出力側言語の文章(出力文)Xを出力する(すなわち、XをXへ変換する)ニューラルネットワークである。
【0062】
系列変換モデルm3の詳細な構成は、図9に示した通りである。
【0063】
評価フェーズにおいて、系列変換モデルm3は、以下の式(12)に従って各jステップを計算して、出力文Xのj番目の単語^x を決定する。
【0064】
【数9】
但し、p(・)は、尤度関数と仮定する。本実施例では、x n,<j,X という条件のもとに、x n,jが選択される条件付き確率を表すこととする。
【0065】
【数10】
但し、 、^H は、それぞれ式(7)、式(4)を用いて計算される。式(13)及び図9からも明らかなように、復号化器d1は、x n,<j及びに^H 加え、zを入力として復号化を行う。
【0066】
上述したように、本実施の形態によれば、ドメインに特化した品質を保持しつつ、様々なドメインに対応可能な系列変換モデルm3を提供することができる。また、各ドメインに特化した生成器を単一のモデルで表現することができる。更に、ドメイン毎に生成器を切り替えるなどの処理が不要となるため、システムのメンテナンスコストなどを大幅に削減することが可能となる。
【0067】
なお、本実施の形態において、H 又はH は、第1のベクトルの一例である。 又は は、第2のベクトルの一例である。文クラスタリングモデル学習部22は、学習部の一例である。
【0068】
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0069】
10 文変換装置
11 符号化部
12 推定部
13 言語モデル学習部
21 文クラスタリング部
22 文クラスタリングモデル学習部
31 復号化部
32 系列変換モデル学習部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 プロセッサ
105 インタフェース装置
B バス
d1 復号化器
e1 符号化器
m1 言語モデル
m2 文クラスタリングモデル
m3 系列変換モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10