特開2022-70385 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東北大学の特許一覧

特開2022-70385文変換装置、文変換方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022070385

(43)【公開日】2022-05-13

(54)【発明の名称】文変換装置、文変換方法及びプログラム

(51)【国際特許分類】

G06F 40/44 20200101AFI20220506BHJP

G06F 16/33 20190101ALI20220506BHJP

G06F 16/35 20190101ALI20220506BHJP

【ＦＩ】

G06F40/44

G06F16/33

G06F16/35

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2020179423

(22)【出願日】2020-10-27

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504157024

【氏名又は名称】国立大学法人東北大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】森下睦

(72)【発明者】

【氏名】鈴木潤

【テーマコード（参考）】

5B091

5B175

【Ｆターム（参考）】

5B091EA01

5B175DA01

5B175FA03

5B175HB03

(57)【要約】

【課題】様々なドメインに対応可能な系列変換モデルを提供すること。
【解決手段】文変換装置は、学習済みの符号化器による文の符号化により得られる第１のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第１のベクトルに基づいて学習する学習部と、入力文について前記符号化器による符号化により得られる前記第１のベクトルと、学習済みの前記文クラスタリングモデルから当該第１のベクトルに基づいて出力される第２のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化部と、を有する
【選択図】図６

【特許請求の範囲】

【請求項1】

学習済みの符号化器による文の符号化により得られる第１のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第１のベクトルに基づいて学習する学習部と、
入力文について前記符号化器による符号化により得られる前記第１のベクトルと、学習済みの前記文クラスタリングモデルから当該第１のベクトルに基づいて出力される第２のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化部と、
を有することを特徴とする文変換装置。

【請求項2】

前記学習部は、前記学習データに含まれる文ごとに、前記文クラスタリングモデルから出力される前記第２のベクトルと前記各重心ベクトルとの距離の最小値と特定し、前記学習データに含まれる文ごとに特定した前記最小値の総和が最小になるように、前記モデルパラメタと前記重心ベクトルとを学習する、
ことを特徴とする請求項１記載の文変換装置。

【請求項3】

学習済みの符号化器による文の符号化により得られる第１のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第１のベクトルに基づいて学習する学習手順と、
入力文について前記符号化器による符号化により得られる前記第１のベクトルと、学習済みの前記文クラスタリングモデルから当該第１のベクトルに基づいて出力される第２のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化手順と、
をコンピュータが実行することを特徴とする文変換方法。

【請求項4】

請求項１又は２記載の文変換装置としてコンピュータを機能させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文変換装置、文変換方法及びプログラムに関する。

【背景技術】

【0002】

ここでは、計算機による自動文章生成技術を取り上げる。計算機により自然言語を処理する技術は、文章に現れる表層的な文字や単語といった離散シンボルの集合を処理する技術と言える。例えば、或る言語の文を入力し、別の言語の文を出力する自動翻訳システムを考える。このシステムでは、入力及び出力の文を単語列（文字列）とみなして処理が行われる。よって、このシステムにより、離散系列（シンボル列）から別の離散系列へ変換する処理が行われているとみなすことができる。また、文書要約システム、対話システム、文書校正システムなどの言語を入出力とするシステムは、前記翻訳システムと同様に、離散系列から別の離散系列へ変換する処理によってシステムが構成されると言える。

【0003】

このように、自然言語を扱うシステムでは、扱う対象が単語、文、文書といった離散系列であるため、入力から出力へどのような変換を行うかという定義の違いはあるにせよ、処理のフレームワークは同じであり、離散系列から離散系列の変換問題に帰着できる（図１参照）。

【0004】

特に、ここでは、任意の与えられた入力文に対して、事前に決められた定義にしたがって出力文を返すシステムを取り上げる。このようなシステムをｙ＝ｆ（ｘ）と表現した場合、当該システムは、入力文ｘが与えられた際に出力文ｙを返す関数ｆ（・）とみなすことができる。また、Ｘを全ての可能な入力文の集合、Ｙを全ての可能な出力文の集合と考えた場合、上記システムの構築は、あらゆる正しいｘ∈Ｘとｙ∈Ｙとの対応（ｘ，ｙ）を返すことができる関数ｆ（・）を見つける問題とみなすことができる。但し、一般論としては、全ての可能なペアを用意することは不可能であることや、仮に用意できたとしても、正しい対応となる関数を用意できるとは限らない。したがって、システム構築においては、限られたデータからなるべく間違いが起きにくいと思われる関数の獲得が目指される。

【0005】

このような関数ｆ（・）を獲得する技術は、自然言語処理分野において数多くの方法が開発され、様々な方法論が確立されている。古典的には、人間が系列から系列への変換ルールや規則などを記述することで変換方法が構築されてきた。近年では、正解データを利用したり、最適化法を用いたりするなど、機械学習技術を活用する方法が主流となっている。

【0006】

特に最近では、機械学習法の中でも注目を集めている深層学習やニューラルネットワークの枠組みを使い、離散系列を実数値ベクトルへ符号化し、その実数値ベクトルから離散系列を復号するという方法論で離散系列－離散系列変換問題を解く方法が提案されている。この方法は、人手による事前知識を全く使わず、可変長の系列構造から系列構造への変換を固定長の実数値ベクトルへの符号化と復号化のみで実現されることが大きな特徴である。例えば、非特許文献１の技術を使うと非常に高品質な文章を生成できることが知られている。非特許文献１の技術は、一般的に、系列変換器と呼ばれ、自動翻訳システム、文章要約システム、文章校正システム、自動対話システム等、計算機により自動で文章を生成し提示する機構を有するシステムであり、現在広く用いられている。系列変換器は、おおきくは符号化器と復号化器の二つの構成要素にて構築されている（図２参照）。

【0007】

符号化器及び復号化器のパラメタは、学習用データから自動的に獲得される。パラメタの学習は、予め準備された、理想的な入力と出力のペアの集合を学習用のデータの入力に対して正しく出力できるようにパラメタ調整を行うことで進められる。また、文章生成技術は、深層学習及びニューラルネットの技術を活用することで、従来よりも飛躍的に進歩している。

【先行技術文献】

【非特許文献】

【0008】

【非特許文献1】Ilya Sutskever, Oriol Vinyals, and Quoc V Le, Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 27, 2014.

【発明の概要】

【発明が解決しようとする課題】

【0009】

しかしながら、文章は、口語、文語といったスタイルの違いや、旅行会話、ビジネス、政治といったトピックによる違い、又は話者間の関係や、どのような場面での発話かといった状況など様々な観点において、使われる用語、表現方法及びスタイルなどが大きく異なる。これらの違いを全て網羅するような文章生成器を構築するのは現状の技術をもってしても困難である。

【0010】

ここでは、前述の用語、表現方法、スタイルといった観点において同一の状況で使われる文章の集合を「ドメイン」と呼ぶことにする。実用的な文章生成器を構築するためには、扱うドメインを限定し、そのドメインに属する学習データのみを使って文章生成器を構築することが必要である。これによって、対象としたドメインに限っては生成品質を大幅に向上させることができる。一般的に、ドメインを限定すればするほどそのドメインに限っては品質を向上できる場合が多い。一方で、当然であるが、除外されたドメインの文章に関しては、大幅に品質が低下する。また、多くのドメインを対象とした場合は、全体的に生成品質を高くできるが、特定のドメインに特化した場合と比べると、それぞれのドメインに関する生成品質は低くなってしまう。

【0011】

本発明は、上記の点に鑑みてなされたものであって、様々なドメインに対応可能な系列変換モデルを提供することを目的とする。

【課題を解決するための手段】

【0012】

そこで上記課題を解決するため、文変換装置は、学習済みの符号化器による文の符号化により得られる第１のベクトルに基づいて前記文のクラスタリングを行う文クラスタリングモデルのモデルパラメタと、各クラスタの重心ベクトルとを、学習データに含まれる各文の前記第１のベクトルに基づいて学習する学習部と、入力文について前記符号化器による符号化により得られる前記第１のベクトルと、学習済みの前記文クラスタリングモデルから当該第１のベクトルに基づいて出力される第２のベクトルと、前記各重心ベクトルとに基づいて、前記入力文についての所定の変換処理の結果である出力文を生成する復号化部と、を有する。

【発明の効果】

【0013】

様々なドメインに対応可能な系列変換モデルを提供することができる。

【図面の簡単な説明】

【0014】

【図1】離散系列から離散系列の変換問題に帰着できる各種システムの一例を示す図である。

【図2】系列変換器の構成例を示す図である。

【図3】本発明の実施の形態における文変換装置１０のハードウェア構成例を示す図である。

【図4】言語モデルｍ１の学習に関する文変換装置１０の機能構成例を示す図である。

【図5】言語モデルｍ１を説明するための図である。

【図6】文クラスタリングモデルｍ２の学習に関する文変換装置１０の機能構成例を示す図である。

【図7】文クラスタリングモデルｍ２を説明するための図である。

【図8】系列変換モデルｍ３の学習に関する文変換装置１０の機能構成例を示す図である。

【図9】系列変換モデルｍ３を説明するための図である。

【図10】評価フェーズに関する文変換装置１０の機能構成例を示す図である。

【発明を実施するための形態】

【0015】

ドメインに特化した生成品質を保持しつつ様々なドメインに対応することを考えた場合に、最も単純な方法として、なるべく多くのドメインに特化した文章生成器を用意し、それを使い分けることで多くのドメインに特化した高品質な文章生成を実現する方法が考えられる。なお、本実施の形態において、ドメインとは、使われる用語、表現方法及びスタイルなどの観点に基づいて区別される文章の集合をいう。

【0016】

しかし、この方法は、（１）ドメインの単位に多くのモデルを用意しなくてはいけない点、（２）未知のデータに対してどのドメインの文章かを高品質に推定する処理が必要な点、に対処する必要がある。

【0017】

本実施の形態では、（１）に関しては、ドメインの情報も文章の生成時に活用することで、ドメインの違いも考慮しつつ、一つのモデルで表現する方法を開示する。より具体的には、ドメイン毎にドメイン特有のベクトル（後述の^－ｈ^ｓ _ｎ）を割り当て、それを入力文と共に入力の一部としてシステム（文変換装置１０）に与え、追加情報として活用する。活用方法は、ドメイン特有ベクトルにより、用いるニューラルネットワークを仮想的に空間分割し、それにより複数のドメイン特化モデルを一つの生成器として構成する方法である。

【0018】

また、（２）に関しては、人間が決めたドメインは、その粒度や範囲も曖昧であることが多く、計算機（文変換装置１０）にとって必ずしも使いやすい分割になっているとは限らないという観点から、人間が決めたドメインではなく、データから計算機（文変換装置１０）が効率的に学習しやすいドメイン分割を計算機（文変換装置１０）が自動で学習し、文変換装置１０が学習の結果（ドメイン分割）を用いることで、性能を向上させる方法を考案する。

【0019】

以下、図面に基づいて本発明の実施の形態を説明する。図３は、本発明の実施の形態における文変換装置１０のハードウェア構成例を示す図である。図３の文変換装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、及びインタフェース装置１０５等を有する。

【0020】

文変換装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0021】

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ及びＧＰＵであり、メモリ装置１０３に格納されたプログラムに従って文変換装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

【0022】

本実施の形態では、自動翻訳を題材として説明する。但し、背景技術において述べた通り、入力文ｘに対して、出力文ｙを返す関数ｆ（・）とした際に、ｙ＝ｆ（ｘ）の形式で定義できるあらゆる系列変換タスク（所定の変換処理）、例えば、文章要約、対話システム、文章校正等に対して、同様の手順を用いて本実施の形態を適用することが可能である。

【0023】

自動翻訳システムは、主に、翻訳モデルを学習する「学習フェーズ」と、学習後のモデルを用いて、未知のデータに適用する「評価フェーズ」で構成される。以下、学習フェーズ及び評価フェーズに分けてそれぞれを説明する。

【0024】

［学習フェーズ］
学習フェーズの目的は、自動翻訳モデルをデータから学習することである。本実施の形態では、各ドメイン特化の（複数の）自動翻訳モデルを一つのモデルで表現したモデルが構築される。その実現のために、（１）入力側言語の言語モデル（以下、「言語モデルｍ１」という。）、（２）入力側言語の文クラスタリングモデル（以下、「文クラスタリングモデルｍ２」という。）、（３）系列変換モデルｍ３の合計３種類のモデルが構築される。構築された３つのモデルが具体的にどのように用いられるかについては、評価フェーズのセクションで詳しく述べる。

【0025】

それぞれのモデルの構築手順は以下のとおりである。

【0026】

［学習フェーズ：手順（１）］
図４は、言語モデルｍ１の学習に関する文変換装置１０の機能構成例を示す図である。図４において、文変換装置１０は、言語モデルｍ１を構成する符号化部１１及び推定部１２と、言語モデル学習部１３とを有する。これら各部は、文変換装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

【0027】

図４に示されるように、文変換装置１０は、手順（１）において、入力側言語の文章集合を学習データＤ^ｓ＝｛Ｘ^ｓ _ｍ｝^Ｍ _ｍ＝１として言語モデルｍ１を学習する。但し、本実施の形態では、手順（１）で用いる言語モデルｍ１の定義（パラメタ構成や計算手順などを含む）は、手順（３）において符号化器ｅ１として用いられることを仮定する。よって、手順（１）で利用できる言語モデルｍ１の構成は、符号化器ｅ１として利用可能な言語モデルｍ１であることが条件となる。

【0028】

符号化部１１は、言語モデルｍ１の定義のうち手順（３）で用いられる符号化器ｅ１として用いられる部分（入力文を符号化するニューラルネットワーク）である。符号化部１１のモデルパラメタは、Ｗ^ｓである。

【0029】

推定部１２は、言語モデルｍ１の定義のうち手順（３）で用いられる符号化器ｅ１に含まれない部分（ニューラルネットワーク）である。推定部１２のモデルパラメタは、αである。

【0030】

言語モデル学習部１３は、言語モデルｍ１の学習処理（すなわち、手順（１））を制御する。

【0031】

図５は、言語モデルｍ１を説明するための図である。図５において、ｅｎｃ（・）は、符号化部１１の定義を示す。また、ｅｎｃ２（・）は、推定部１２の定義を示す。ｅｎｃ（・）とｅｎｃ２（・）とでＢＥＲＴのようなマスク型ニューラル言語モデルの学習時の構成を表している。なお、ｅｎｃ（・）及びｅｎｃ２（・）は、学習データＤ^ｓと共に、手順（１）に対する入力情報である。

【0032】

ここでは、「Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2019.」のようなマスク型ニューラル言語モデルｍ１を用いる場合を考える。従って、符号化部１１（ｅｎｃ（・））は、任意の単語がマスクされた（隠された）入力文を符号化し、推定部１２は、マスクされた（隠された）単語を推定する。

【0033】

ここで、入力文がＩ個の単語の並びで構成されているとする。このときｉ番目の単語をＤ次元の列ベクトルｘ^ｓ _Ｉで表現すると定義する。これは、単語埋め込みベクトルなどを用いて、単語からＤ次元の列ベクトルへ一意に変換することを想定する。次に、入力文Ｘ^ｓ _ｍは、Ｉ_Ｍ個のＤ次元列ベクトルのリストと考える。つまり、

【0034】

【数1】

である。また、Ｘ^ｓ _ｍは、Ｄ×Ｉ_Ｍ行列とみなすこともできる。

【0035】

この場合、手順（１）において、言語モデル学習部１３は、学習データＤ^ｓ＝｛Ｘ^ｓ _ｍ｝^Ｍ _ｍ＝１に対して、以下の最適化問題の解を得ることで、符号化部１１のモデルパラメタ＾Ｗ^ｓを得る。したがって、手順（１）における出力は、符号化部１１のモデルパラメタ＾Ｗ^ｓである。なお、本実施の形態において、＾Ｚ（Ｚは、任意の変数）は、数式及び図において、Ｚの真上に＾が付与された符号を示す。

【0036】

【数2】

但し、ｎｏｉｓｅ（Ｘ^ｓ）は、入力文Ｘ^ｓにマスクやノイズを加え、Ｘ^ｓを少し変形した文とする。また、本実施の形態において、ｎｏｉｓｅ（・）は、マスク型言語モデルを用いる際に追加で定義した関数と考える。このとき、手順（１）において、学習部１３は、以下の最適化問題を解くことで、目的とする言語モデルｍ１のパラメタ（＾Ｗ^ｓ及び＾α）を得る。但し、パラメタ＾αは、以降において利用されない。

【0037】

【数3】

Ｈ^ｓ _ｍは、入力文章Ｘ^ｓ _ｍの長さにしたがって、Ｉ_Ｍ個の次元ベクトルのリストである。よって、Ｈ^ｓ _ｍは、Ｘ^ｓ _ｍ同様、Ｄ×Ｉ_Ｍ行列とみなすこともできる。

【0038】

［学習フェーズ：手順（２）］
手順（２）では、入力側言語の文章集合を、手順（１）で獲得した言語モデルｍ１の計算結果にしたがってＫ個のクラスタに分割する。ここで、クラスタは、ドメインを効率的に表現することが可能な粒度に相当する。すなわち、クラスタとドメインとは、必ずしも一対一に対応しなくてよい。例えば、８個のクラスタに分割された場合、クラスタ１，２，５がドメイン１に対応し、クラスタ３，７がドメイン２に対応し、クラスタ４はドメイン１とドメイン２に対応するという場合もあり得る。なお、手順（２）で用いる入力側言語の文章集合は、手順（１）で用いた学習データＤ^ｓとは別の文章集合でもよいし、同じ文書集合でもよい。説明を簡単にするため、ここでは同じＤ^ｓを用いて説明する。

【0039】

図６は、文クラスタリングモデルｍ２の学習に関する文変換装置１０の機能構成例を示す図である。図６中、図４と同一部分には同一符号を付し、その説明は省略する。図６において、文変換装置１０は、文クラスタリングモデルｍ２を構成する符号化部１１及び文クラスタリング部２１と、文クラスタリングモデル学習部２２とを有する。これら各部は、文変換装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

【0040】

文クラスタリング部２１は、文のクラスタリングを行うニューラルネットワークである。

【0041】

文クラスタリングモデル学習部２２は、文クラスタリングモデルｍ２の学習処理（すなわち、手順（２））を制御する。

【0042】

図７は、文クラスタリングモデルｍ２を説明するための図である。図７中、ｅｎｃ（・）は、上記した通りである。一方、ｃｌｓ（・）は、文クラスタリング部２１によるクラスタリング法の定義を示す。

【0043】

手順（２）において、まず、文クラスタリングモデル学習部２２は、手順（１）で用いられた言語モデルｍ１のｅｎｃ（・）部分と、手順（１）で得られた言語モデルｍ１の学習済みパラメタ＾Ｗ^ｓとを用いて、学習データＤ^ｓ内の各Ｘ^ｓ _ｍに対する＾Ｈ^ｓ _ｍを式（４）に基づいて計算する。したがって、手順（２）において、＾Ｗ^ｓは固定される。

【0044】

【数4】

以下において、ＶをＫ個のＤ次元ベクトルｖ_ｋを並べて構成されるＤ×Ｋ行列とする。但し、ｋは、１≦ｋ≦Ｋの整数であるとし、ｖ_ｋは、行列Ｖのｋ番目の列ベクトルとする。そして、得られたＤ×Ｉ_Ｍ行列の集合をＨ^ｓ＝（＾Ｈ^ｓ _ｍ）^Ｍ _ｍ＝１と表記する。

【0045】

続いて、文クラスタリングモデル学習部２２は、学習データＨ^ｓ＝（＾Ｈ^ｓ _ｍ）^Ｍ _ｍ＝１とクラスタリング法の定義ｃｌｓ（・）とを入力とし、文クラスタリング部２１のモデルパラメタＷ^ｃとクラスタリングに関する各クラスタの特徴を示すパラメタＶとを調整して、学習済みのパラメタ（＾Ｗ^ｃ，＾Ｖ）を得る。具体的には、文クラスタリングモデル学習部２２は、以下の最適化問題の解を得ることで、Ｋクラスタの重心ベクトル＾ｖ_ｋを求める。

【0046】

【数5】

但し、＾ｖ_ｋは、ｖ_ｋと同様に行列＾Ｖのｋ番目の列ベクトルとする。

【0047】

なお、手順（２）の出力は、学習済みパラメタ（＾Ｗ^ｃ，＾Ｖ）である。すなわち、文クラスタリングモデル学習部２２は、入力文Ｘ^ｓ _ｍごとに、ｃｌｓ（・）から出されるベクトル（^－ｈ^ｓ _ｍ）と各ｖ_ｋとの距離（Ｌ２ノルムの２乗）の最小値を特定し、Ｘ^ｓ _ｍごとに特定した最小値の総和が最小となるように、（＾Ｗ^ｃ，＾Ｖ）が探索（学習）される。

【0048】

また、クラスタリングの性能を向上させるために、

【0049】

【数6】

という制約を加えた上で式（５）の問題が解かれてもよい。さらに、各ｖ_ｋ同士がなるべく離れるような制約、例えば、ｖ_ｋ・ｖ_ｋ'≦εといった制約を加えることができる（但し、ｋ≠ｋ'）。

【0050】

［学習フェーズ：手順（３）］
手順（３）において、文変換装置１０は、入力側言語及び出力側言語の対応関係が取れているペアの文章集合を、手順（１）及び（２）で獲得した言語モデルｍ１及びクラスタリングのパラメタとその定義を利用して、入力側言語の文章から出力側言語の文章を獲得する系列変換モデルｍ３を学習する。手順（１）及び（２）で用いた入力側言語の文章集合と、手順（３）で用いる学習データの入力側言語の文章とは、必ずしも同じでなくてもよい。ここでは、説明を簡単にするため、入力側言語及び出力側言語の対応関係が取れているペアの文章集合をＤ^ｔ＝｛（Ｘ^ｓ _ｎ，Ｘ^ｔ _ｎ）｝^Ｎ _ｎ＝１と表記する。ｎが共通するＸ^ｓ _ｎとＸ^ｔ _ｎは、同じ意味を持つ入力側言語の文章と出力側言語の文章とする。

【0051】

図８は、系列変換モデルｍ３の学習に関する文変換装置１０の機能構成例を示す図である。図８中、図６と同一部分には、同一符号を付し、その説明は省略する。図８において、文変換装置１０は、系列変換モデルｍ３の符号化器ｅ１を構成する符号化部１１及び文クラスタリング部２１と、系列変換モデルｍ３の復号化器ｄ１を構成する復号化部３１と、文クラスタリングモデル学習部２２とを有する。これら各部は、文変換装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

【0052】

復号化部３１は、入力文について符号化器ｅ１による符号化結果を復号化することで、入力文に対する翻訳文を出力するニューラルネットワークである。

【0053】

系列変換モデル学習部３２は、系列変換モデルｍ３の学習処理（すなわち、手順（３））を制御する。

【0054】

図９は、系列変換モデルｍ３を説明するための図である。図９中、ｅｎｃ（・）及びｃｌｓ（・）は、上記した通りである。一方、ｄｅｃ（・）は、復号化部３１の定義（系列変換モデルｍ３（主に出力側言語のモデル）の定義）である。ｄｅｃ（・）に関しては、例えば、「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, Attention is All you Need. Advances in Neural Information Processing Systems 30, 2017」に開示された構成が用いられてもよい。

【0055】

まず、系列変換モデル学習部３２は、手順（２）で用いられたクラスタリング法のｃｌｓ（・）と、手順（２）で得られた学習済みパラメタ＾Ｗ^ｃとを用いて、以下の式（７）に従って、学習データＤ^ｔ内の各Ｘ^ｓ _ｎに対し^－ｈ^ｓ _ｎを計算する。なお、本実施の形態において、^－Ｚ（Ｚは、任意の変数）は、数式及び図において、Ｚの真上に－が付与された符号を示す。

【0056】

【数7】

但し、＾Ｈ^ｓ _ｎは、式（４）により計算される。

【0057】

続いて、系列変換モデル学習部３２は、入力側言語と出力側言語の対応した文章ペアの集合Ｄ^ｔ＝｛（Ｘ^ｓ _ｎ，Ｘ^ｔ _ｎ）｝^Ｎ _ｎ＝１と、ｄｅｃ（・）とを入力とし、以下の式（１１）に従って、パラメタＷ^ｔを調整することで、学習済みパラメタ＾Ｗ^ｔを得る。

【0058】

【数8】

したがって、手順（３）の出力は、パラメタ＾Ｗ^ｔである。式（１０）及び図９からも明らかなように、復号化器ｄ１には、＾Ｈ^ｓ _ｎのみならず、^－ｈ^ｓ _ｎに基づくｚ_ｎも入力されて復号器ｄ１の学習（パラメタＷ^ｔの調整が行われる。なお、ｚ_ｎは、式（１１）から明らかなように、学習済みの各クラスタの重心ベクトル（＾ｖ_ｋ）の行列（＾Ｖ）と、－ｈ^ｓ _ｎとの内積である。

【0059】

［評価フェーズ］
学習フェーズにより、入力側の言語の文章から出力側の言語の文章へ変換するために必要なパラメタ（＾Ｗ^ｓ，＾Ｗ^ｃ，＾Ｖ，＾Ｗ^ｔ）の学習が完了している。これらの学習済みのパラメタを用いて、文変換装置１０が実際に入力側言語の未知の文章に対して変換を行うのが評価フェーズである。評価フェーズでは、学習済みのパラメタは固定されている（値は変わらない）ことを想定する。

【0060】

図１０は、評価フェーズに関する文変換装置１０の機能構成例を示す図である。図１０中、図８と同一部分には同一符号を付し、その説明は省略する。図１０において、文変換装置１０は、系列変換モデルｍ３を有する。

【0061】

系列変換モデルｍ３は、符号化器ｅ１及び復号化器ｄ１を含み、評価対象となる入力側言語の文章（入力文）Ｘ^ｓを入力として、Ｘ^ｓに対応する出力側言語の文章（出力文）Ｘ^ｔを出力する（すなわち、Ｘ^ｓをＸ^ｔへ変換する）ニューラルネットワークである。

【0062】

系列変換モデルｍ３の詳細な構成は、図９に示した通りである。

【0063】

評価フェーズにおいて、系列変換モデルｍ３は、以下の式（１２）に従って各ｊステップを計算して、出力文Ｘ^ｔのｊ番目の単語＾ｘ^ｔ _ｊを決定する。

【0064】

【数9】

但し、ｐ（・）は、尤度関数と仮定する。本実施例では、ｘ^ｔ _ｎ，＜ｊ，Ｘ^ｓ _ｎという条件のもとに、ｘ^ｔ _ｎ，ｊが選択される条件付き確率を表すこととする。

【0065】

【数10】

但し、^－ｈ^ｓ _ｎ、＾Ｈ^ｓ _ｎは、それぞれ式（７）、式（４）を用いて計算される。式（１３）及び図９からも明らかなように、復号化器ｄ１は、ｘ^ｔ _ｎ，＜ｊ及びに＾Ｈ^ｓ _ｎ加え、ｚ_ｎを入力として復号化を行う。

【0066】

上述したように、本実施の形態によれば、ドメインに特化した品質を保持しつつ、様々なドメインに対応可能な系列変換モデルｍ３を提供することができる。また、各ドメインに特化した生成器を単一のモデルで表現することができる。更に、ドメイン毎に生成器を切り替えるなどの処理が不要となるため、システムのメンテナンスコストなどを大幅に削減することが可能となる。

【0067】

なお、本実施の形態において、Ｈ^ｓ _ｍ又はＨ^ｓ _ｎは、第１のベクトルの一例である。^－ｈ^ｓ _ｍ又は^－ｈ^ｓ _ｎは、第２のベクトルの一例である。文クラスタリングモデル学習部２２は、学習部の一例である。

【0068】

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0069】

１０文変換装置
１１符号化部
１２推定部
１３言語モデル学習部
２１文クラスタリング部
２２文クラスタリングモデル学習部
３１復号化部
３２系列変換モデル学習部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４プロセッサ
１０５インタフェース装置
Ｂバス
ｄ１復号化器
ｅ１符号化器
ｍ１言語モデル
ｍ２文クラスタリングモデル
ｍ３系列変換モデル

【図1】