特開2023-135193 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コムウェア株式会社の特許一覧

特開2023-135193テキスト変換装置、テキスト変換方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023135193

(43)【公開日】2023-09-28

(54)【発明の名称】テキスト変換装置、テキスト変換方法、およびプログラム

(51)【国際特許分類】

G06F 40/151 20200101AFI20230921BHJP

【ＦＩ】

G06F40/151

【審査請求】有

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022040280

(22)【出願日】2022-03-15

(71)【出願人】

【識別番号】397065480

【氏名又は名称】エヌ・ティ・ティ・コムウェア株式会社

(74)【代理人】

【識別番号】100083806

【弁理士】

【氏名又は名称】三好秀和

(74)【代理人】

【識別番号】100101247

【弁理士】

【氏名又は名称】高橋俊一

(74)【代理人】

【識別番号】100095500

【弁理士】

【氏名又は名称】伊藤正和

(72)【発明者】

【氏名】川前徳章

【テーマコード（参考）】

5B109

【Ｆターム（参考）】

5B109TA11

(57)【要約】

【課題】学習データと計算コストを抑えて条件に沿ったテキストを生成する。
【解決手段】テキスト変換システム１は、学習部１０と生成部２０を備え、条件に従ってテキスト変換する。学習部１０は、変換元テキストと変換後テキストと条件を入力して単語を抽出し、Ｔｒａｎｓｆｏｒｍｅｒにモディファイドアテンションメカニズムを導入した深層学習モデルに変換元テキストと変換後テキストの単語と条件を学習データとして入力し、条件の一部を除いたときの条件の予測精度を表す目的関数と変換元テキストと変換後テキストとの間の編集距離を最小化するように深層学習モデルを学習する。生成部２０は、変換元テキストと条件を学習済みのモデルに入力し、モデルから再帰的に出力される単語をつなげて変換後テキストを生成する。学習部１０は、さらに、変換元テキストの示す評価値を入力し、変換後テキストの内容が評価値に合うようにモデルを学習し、生成部２０は、変換後テキストの示す評価値を生成する。
【選択図】図２

【特許請求の範囲】

【請求項1】

【請求項2】

請求項１に記載のテキスト変換装置であって、
前記学習部は、前記変換元テキストの示す評価値を入力し、前記変換後テキストの内容が当該評価値に合うように前記深層学習モデルを学習し、
前記生成部は、前記変換後テキストの示す評価値を生成する
テキスト変換装置。

【請求項3】

請求項１または２に記載のテキスト変換装置であって、
前記モディファイドアテンションメカニズムは、前記条件のトークンについては全てのトークンへのアクセスを可能とし、前記変換後テキストの単語のトークンについては前記条件のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備える
テキスト変換装置。

【請求項4】

【請求項5】

請求項４に記載のテキスト変換方法であって、
学習時、前記変換元テキストの示す評価値を入力し、前記変換後テキストの内容が当該評価値に合うように前記深層学習モデルを学習し、
生成時、前記変換後テキストの示す評価値を生成する
テキスト変換方法。

【請求項6】

請求項４または５に記載のテキスト変換方法であって、
前記モディファイドアテンションメカニズムは、前記条件のトークンについては全てのトークンへのアクセスを可能とし、前記変換後テキストの単語のトークンについては前記条件のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備える
テキスト変換方法。

【請求項7】

請求項１ないし３のいずれかに記載のテキスト変換装置の各部としてコンピュータを動作させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキスト変換装置、テキスト変換方法、およびプログラムに関する。

【背景技術】

【0002】

ＡＩの応用分野の一つである自然言語処理の世界ではテキストの自動生成が登場している。近年のＡＩで自動生成されたテキストは人間が書いたテキストと見分けるのが難しいぐらいの品質である。次の段階として、条件を与えることで生成するテキストをコントロールすることが期待されている。例えば、条件として「宛先の人名」「タイトル」を与えると、その人名及びタイトルに沿ったテキストを自動生成することが考えられる。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher, "CTRL: A CONDITIONAL TRANSFORMER LANGUAGE MODEL FOR CONTROLLABLE GENERATION", CoRR abs/1909.05858 (2019).

【非特許文献2】Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu, "Plug and Play Language Models: A Simple Approach to Controlled Text Generation", In ICLR 2020.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、条件付テキストの生成は、モデルの学習に必要なデータが多く、そのモデルを学習させるための計算機等のコストが高いという課題がある。

【0005】

本発明は、上記に鑑みてなされたものであり、学習データと計算コストを抑えて条件に沿ったテキストを生成することを目的とする。

【課題を解決するための手段】

【0006】

【発明の効果】

【0007】

本発明によれば、学習データと計算コストを抑えて条件に沿ったテキストを生成できる。

【図面の簡単な説明】

【0008】

【図1】図１は、本実施形態のテキスト変換システムの構成の一例を示す図である。

【図2】図２は、本実施形態で提案する深層学習モデルの一例を示す図である。

【図3】図３は、自己アテンションマスクの一例を示す図である。

【図4】図４は、学習処理の流れの一例を示すフローチャートである。

【図5】図５は、テキスト変換処理の流れの一例を示すフローチャートである。

【発明を実施するための形態】

【0009】

［システム構成］
以下、本発明の実施の形態について図面を用いて説明する。

【0010】

本実施形態のテキスト変換システムは、変換の条件と変換元テキストを入力すると、入力した条件に応じて変換元テキストを変換するとともに、変換後のテキストのメタデータ（評価値）を生成する。例えば、“Ｉｌｉｋｅｔｈｉｓｍｕｓｉｃｂｅｃａｕｓｅｔｈｅａｒｔｉｓｔ・・・”というテキストと「映画」という条件をテキスト変換システムに入力すると、テキスト変換システムは、条件に応じてテキストを変換した“Ｉｌｉｋｅｔｈｉｓｍｏｖｉｅｂｅｃａｕｓｅｔｈｅｄｉｒｅｃｔｏｒ・・・”というようなテキストと「０．６」という評価値を生成する。評価値は、変換後テキストの示す対象に対する評価である。例えば、変換後テキストが映画に対するレビューの場合、評価値はその映画に対する評価である。変換元テキストが好意的なレビューであれば変換後テキストも好意的なレビューとなり、良い評価値が出力される。評価値は、数値でもよいし、評価を示すクラスでもよい。

【0011】

図１は、本実施形態のテキスト変換システムの構成の一例を示す図である。図１に示すテキスト変換システム１は、学習部１０、生成部２０、データ保存部３０、計算結果記憶部４０、および入出力部５０を備える。テキスト変換システム１が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはテキスト変換システム１が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。

【0012】

学習部１０は、条件、変換元テキスト、条件に基づいて変換された変換後テキスト、および評価値を学習データとして入力し、条件とテキストを構成する単語を同じ意味空間に配置できるようにモデルを学習すると同時に、変換元テキストと変換後テキストとの間の編集距離が短くなるようにモデルを学習する。学習部１０は、さらに、変換後テキストの内容が評価値に合うようにモデルを学習する。

【0013】

生成部２０は、条件と変換元テキストを学習済みモデルに入力して変換元テキストを条件に従って変換し、変換後テキストと評価値を生成する。

【0014】

データ保存部３０は、学習用データを保存する。学習データは、変換元テキスト、条件付きテキスト（条件と変換後テキスト）、および評価値を含む。

【0015】

計算結果記憶部４０は、テキストを変換する深層学習モデル、学習によって得られた深層学習モデルのパラメータ、条件や単語の分散ベクトル（分散埋め込み表現）などの計算結果を保持する。

【0016】

入出力部５０は、ユーザ端末５から条件および変換元テキストを入力して生成部２０へ送信し、生成部２０から変換後テキストと評価値を受信してユーザ端末５に返却する。

【0017】

［提案モデル］
図２および図３を参照し、本実施形態で提案するモデルについて説明する。図２に示す提案モデルは、Ｔｒａｎｓｆｏｒｍｅｒにモディファイドアテンションメカニズムを導入した深層学習モデルであり、条件に従ってテキスト（ＳＯＵＲＣＥ）を変換し、変換後のテキスト（ＴＡＲＧＥＴ）と評価値を生成する。Ｔｒａｎｓｆｏｒｍｅｒは主に自然言語処理分野で用いられる深層学習モデルである。ＴｒａｎｓｆｏｒｍｅｒをＬｅｆｔ－ｔｏ－ｒｉｇｈｔＬａｎｇｕａｇｅｍｏｄｅｌとして利用すると、入力した単語からその次に出現する単語を確率的に予測し、これを再帰的に繰り返すことでデキストを生成できる。モディファイドアテンションメカニズムは、単語間、条件間、または単語と条件間の関連度（Ａｔｔｅｎｔｉｏｎ）を計算する際に、条件は双方向で参照でき、単語は条件とテキスト内で以前に出現した単語のみを参照できるようにする仕組みである。モディファイドアテンションメカニズムは、トークン（条件および単語）ごとにコンテキストへのアクセスを制御するための異なる自己アテンションマスクを持つことで、Ｔｒａｎｓｆｏｒｍｅｒが条件側と単語側とでパラメータを共有できる。

【0018】

図３にモディファイドアテンションメカニズムで利用する自己アテンションマスクの一例を示す。図３の例では、自己アテンションマスクを、縦方向に参照元の条件ｃ、単語ｓ、単語ｔを並べ、横方向に参照先の条件ｃ、単語ｓ、単語ｔを並べて示した。図３中のｃは条件のトークンに相当し、ｓは変換元テキストを構成する単語のトークンに相当し、ｔは変換後テキストを構成する単語のトークンに相当する。黒丸は参照可能なトークンを示す。単語ｓに関しては入力のみで出力がないので、単語ｓ，ｔと条件ｃを参照しない。条件ｃは、単語ｓ，ｔと条件ｃの全てを参照できる。単語ｔは、単語ｓの全てと条件ｃの全てと変換後テキストにおいてそれまでに出現した単語ｔのみを参照できる。以下、Ｔｒａｎｓｆｏｒｍｅｒにモディファイドアテンションメカニズムを導入した提案モデルについて説明する。

【0019】

アテンションとはトークン間（条件間、単語間、条件と単語間）の関連度を表すスコアである。各トークンがＱ（クエリ），Ｋ（キー），およびＶ（バリュー）のベクトルを持つ。次式のように、アテンションは、Ｖの加重和であり、その加重はＱとＫを使って計算される。本実施形態では、アテンションの計算にモディファイドアテンションメカニズムを導入し、別のトークンへのアクセスを制御した。

【0020】

【数1】

【0021】

Ｗ_l ^Q，Ｗ_l ^K，Ｗ_l ^V∈Ｒ^d _h ^×d _kは、Ｑ，Ｋ，Ｖ∈Ｒ^x×d _kのそれぞれを計算するための学習可能な重みである。ｘは入力したトークンの数、ｄ_h及びd_kは、クエリとキーの共有次元数である。Ｍ∈Ｒ^x×xは自己アテンションマスクである。アテンションを求める際に、単語のトークンについては後続（ｉ＜ｊ）の単語を参照しないように無限に小さい値とする。ＨはＴｒａｎｓｆｏｒｍｅｒを構成する隠れ層（レイヤ）であり、次式で表される。

【0022】

【数2】

【0023】

Ｈ_a ⁰はＴｒａｎｓｆｏｒｍｅｒへの入力であって、各トークンについて、条件または単語の分散埋め込み表現（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）、位置の分散埋め込み表現（ＰｏｓｉｔｉｏｎａｌＥｍｂｅｄｄｉｎｇ）、およびデータ形式の分散埋め込み表現（ＳｅｇｍｅｎｔＥｍｂｅｄｉｎｇ）を合わせたものである。Ｈ_a ^lはｌ番目のレイヤの出力であり、次のレイヤへの入力である。なお、図２中の［ＣＬＳ］は始まりを示すトークンであり、［ＥＯＣ］は条件の終わりを示すトークンであり、［ＥＯＳ］は変換元テキストの終わりを示すトークンであり、［ＥＯＴ］は変換後テキストの終わりを示すトークンである。

【0024】

提案モデルは、学習タスクとしてＳｕｐｅｒｖｉｓｉｏｎとＭＣＣを導入した。

【0025】

Ｓｕｐｅｒｖｉｓｉｏｎにより変換後テキストに対応する評価値を出力するようにモデルを学習する。提案モデルの備えるマルチレイヤパーセプトロン（ＭＬＰ）でＳｕｐｅｒｖｉｓｉｏｎが計算される。次式でＭＬＰの各レイヤの出力Ｚが求められる。

【0026】

【数3】

【0027】

ここで、ｃ_CはＣ番目の条件であり、Ｗ_lとｂ_lは、ｌ番目のレイヤの学習されるプロジェクション行列とバイアスであり、φはハイパボリックタンジェント関数である。

【0028】

次式で、評価の予測値ｒ（ｒのうえに＾）を求める。

【0029】

【数4】

【0030】

ここで、ｈ^Ｔは最後の隠れ層のエッジの重みであり、σはシグモイド関数であり、ＨはＭＬＰのレイヤ数である。評価の予測値ｒ（ｒのうえに＾）が学習データとして入力した評価値ｒに近くなるようにモデルを学習する。

【0031】

ＭＣＣにより属性を単語と同じ意味空間に配置できるようにモデルを学習する。ＭＣＣは次式で定義される。

【0032】

【数5】

【0033】

ここで、ζは学習するパラメータを表す。ｊ番目の入力における条件群をｃ_j＝｛ｃ_j,1，・・・，ｃ_j,i｝、単語群をｗ_j＝｛ｗ_j,1，・・・，ｗ_j,i｝とする。単語群は、変換元テキスト（ＳＯＵＲＣＥ）と変換後テキスト（ＴＡＲＧＥＴ）の単語を含む。バックスラッシュを付したｍはｍ番目の条件をマスクしたことを表す。ＭＣＣは条件の一部を除いたときの条件の予測精度を表し、ＭＣＣによりマスクした属性を正しく推定できるようにモデルを学習できる。

【0034】

また、変換の評価尺度として編集距離を導入し、次式で表されるレーベンシュタイン距離が近くなるようにモデルを学習する。

【0035】

【数6】

【0036】

ここで、ｘは変換元テキスト、ｙは変換後テキストである。

【0037】

モデルの学習は、以下の目的関数を最小化することで実施する。

【0038】

【数7】

【0039】

Ｌ_CTSはＴｒａｎｓｆｏｒｍｅｒデコーダを学習するための目的関数であり、Ｌ_CTSを最小化することで、自己回帰的に生成する単語の予測精度を向上できる。

【0040】

なお、事前に学習済みのＴｒａｎｓｆｏｒｍｅｒを用いることで、計算量を低減できる。学習で更新したパラメータを次式であらわす。

【0041】

［動作］
次に、図４のフローチャートを参照し、学習処理について説明する。

【0042】

ステップＳ１１にて、学習部１０は、データ保存部３０から学習用データを取得する。

【0043】

ステップＳ１２にて、学習部１０は、学習用データに含まれる変換前のテキストと変換後のテキストのそれぞれを形態素解析により単語に分割する。

【0044】

ステップＳ１３にて、学習部１０は、条件、変換前のテキストの単語、変換後のテキストの単語をモデルに入力し、上記で示した目的関数を最小化するようにモデルのパラメータを更新する。具体的には、図２のモデルのＣＯＮＤＩＴＩＯＮＳに条件、ＳＯＵＲＣＥに変換前のテキストの単語、ＴＡＲＧＥＴに変換後のテキストの単語を入力し、目的関数を最小化するようにモデルのパラメータを更新する。

【0045】

次に、図５のフローチャートを参照し、テキスト変換処理について説明する。

【0046】

ステップＳ２１にて、生成部２０は、元になるテキスト、条件、およびシードワードをモデルに入力する。シードワードはユーザ端末５から受信してもよいし、元になるテキストの最初の数ワードを利用してもよい。

【0047】

ステップＳ２２にて、生成部２０は、シードワードに続く単語をモデルから得る。

【0048】

ステップＳ２３にて、生成部２０は、テキストの生成が終了したか否か判定する。例えば、生成部２０は、テキストの終了を示す“＜ｅｎｄ＞”が出力された場合、またはテキスト長が所定の最大文字数に達した場合に終了と判定する。

【0049】

テキストの生成を続ける場合、ステップＳ２１に戻り、得られた単語をシードワードの後に繋げてモデルに入力する。

【0050】

テキストの生成が終了した場合、ステップＳ２４にて、生成部２０は、シードワードに単語をつなげて変換後のテキストを出力するとともに、モデルから得られる評価値を出力する。生成されたテキストと評価値は、入出力部５０からユーザ端末５へ返却される。

【0051】

以上説明したように、本実施形態のテキスト変換システム１は、学習部１０と生成部２０を備え、条件に従ってテキスト変換するシステムである。学習部１０は、変換元テキストと変換後テキストと条件を入力して単語を抽出し、Ｔｒａｎｓｆｏｒｍｅｒにモディファイドアテンションメカニズムを導入した深層学習モデルに変換元テキストと変換後テキストの単語と条件を学習データとして入力し、条件の一部を除いたときの条件の予測精度を表す目的関数と変換元テキストと変換後テキストとの間の編集距離を最小化するように深層学習モデルを学習する。生成部２０は、変換元テキストと条件を学習済みのモデルに入力し、モデルから再帰的に出力される単語をつなげて変換後テキストを生成する。これにより、学習データと計算コストを抑えて条件に沿ったテキストを生成できる。

【0052】

学習部１０は、さらに、変換元テキストの示す評価値を入力し、変換後テキストの内容が評価値に合うようにモデルを学習し、生成部２０は、変換後テキストの示す評価値を生成する。

【符号の説明】

【0053】

１テキスト変換システム
１０学習部
２０生成部
３０データ保存部
４０計算結果記憶部
５０入出力部
５ユーザ端末

【図1】

【図2】

【図3】

【図4】

【図5】

【手続補正書】

【提出日】2023-07-26

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

条件に従ってテキストを変換するテキスト変換装置であって、
変換元テキストと変換後テキストと条件を入力し、前記変換元テキストと変換後テキストから単語を抽出し、Ｔｒａｎｓｆｏｒｍｅｒにトークンの種別ごとに他のトークンへのアクセスを制御するモディファイドアテンションメカニズムを導入した深層学習モデルに前記変換元テキストと変換後テキストの単語と前記条件を学習データとして入力し、前記条件の一部を除いたときの前記条件の予測精度を表す目的関数と前記変換元テキストと前記変換後テキストとの間の編集距離を最小化するように深層学習モデルを学習する学習部と、
変換元テキストと条件を前記深層学習モデルに入力し、前記深層学習モデルから再帰的に出力される単語をつなげて変換後テキストを生成する生成部を備え、
前記モディファイドアテンションメカニズムは、前記条件のトークンについては全てのトークンへのアクセスを可能とし、前記変換後テキストの単語のトークンについては前記条件のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Ｔｒａｎｓｆｏｒｍｅｒがアテンションを求める際に、単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする
テキスト変換装置。

【請求項2】

【請求項3】

条件に従ってテキストを変換するテキスト変換方法であって、
コンピュータが、
変換元テキストと変換後テキストと条件を入力し、前記変換元テキストと変換後テキストから単語を抽出し、Ｔｒａｎｓｆｏｒｍｅｒにトークンの種別ごとに他のトークンへのアクセスを制御するモディファイドアテンションメカニズムを導入した深層学習モデルに前記変換元テキストと変換後テキストの単語と前記条件を学習データとして入力し、前記条件の一部を除いたときの前記条件の予測精度を表す目的関数と前記変換元テキストと前記変換後テキストとの間の編集距離を最小化するように深層学習モデルを学習し、
変換元テキストと条件を前記深層学習モデルに入力し、前記深層学習モデルから再帰的に出力される単語をつなげて変換後テキストを生成し、
前記モディファイドアテンションメカニズムは、前記条件のトークンについては全てのトークンへのアクセスを可能とし、前記変換後テキストの単語のトークンについては前記条件のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Ｔｒａｎｓｆｏｒｍｅｒがアテンションを求める際に、単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする
テキスト変換方法。

【請求項4】

請求項３に記載のテキスト変換方法であって、
学習時、前記変換元テキストの示す評価値を入力し、前記変換後テキストの内容が当該評価値に合うように前記深層学習モデルを学習し、
生成時、前記変換後テキストの示す評価値を生成する
テキスト変換方法。

【請求項5】

請求項１または２に記載のテキスト変換装置の各部としてコンピュータを動作させるプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０００６

【補正方法】変更

【補正の内容】

【0006】

本発明の一態様のテキスト変換装置は、条件に従ってテキストを変換するテキスト変換装置であって、変換元テキストと変換後テキストと条件を入力し、前記変換元テキストと変換後テキストから単語を抽出し、Ｔｒａｎｓｆｏｒｍｅｒにトークンの種別ごとに他のトークンへのアクセスを制御するモディファイドアテンションメカニズムを導入した深層学習モデルに前記変換元テキストと変換後テキストの単語と前記条件を学習データとして入力し、前記条件の一部を除いたときの前記条件の予測精度を表す目的関数と前記変換元テキストと前記変換後テキストとの間の編集距離を最小化するように深層学習モデルを学習する学習部と、変換元テキストと条件を前記深層学習モデルに入力し、前記深層学習モデルから再帰的に出力される単語をつなげて変換後テキストを生成する生成部を備え、前記モディファイドアテンションメカニズムは、前記条件のトークンについては全てのトークンへのアクセスを可能とし、前記変換後テキストの単語のトークンについては前記条件のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Ｔｒａｎｓｆｏｒｍｅｒがアテンションを求める際に、単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版