特開2024-57460 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-57460プログラム，方法，及び情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024057460

(43)【公開日】2024-04-24

(54)【発明の名称】プログラム，方法，及び情報処理装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20240417BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022164222

(22)【出願日】2022-10-12

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110003649

【氏名又は名称】弁理士法人真田特許事務所

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】錦野敬三郎

(57)【要約】

【課題】機械学習モデルの強化学習における報酬のバラつきを抑制する。
【解決手段】プログラムは、訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、処理をコンピュータに実行させる。
【選択図】図１７

【特許請求の範囲】

【請求項1】

訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
処理をコンピュータに実行させる、プログラム。

【請求項2】

前記強化学習を実行する処理は、
前記訓練データの確率分布の一部と、前記生成器が出力したデータの確率分布の一部とを、第１パラメータに応じた割合で混合して得られる第１の混合分布と、前記訓練データの確率分布の一部と、前記生成器が出力した確率分布の一部とを、第２パラメータに応じた割合で混合して得られる第２の混合分布との距離を前記報酬関数として利用する、処理を含む、
請求項１に記載のプログラム。

【請求項3】

前記強化学習を実行する処理は、
判別器が出力した報酬を前記第１パラメータと前記第２パラメータとに基づく順応の数理モデルに入力して得られる順応報酬を、前記生成器に入力する、処理を含む、
請求項２に記載のプログラム。

【請求項4】

前記強化学習の進捗に応じて、前記第１パラメータ及び前記第２パラメータの一方又は双方を変化させる、
処理を前記コンピュータに実行させる、請求項２又は請求項３に記載のプログラム。

【請求項5】

所定の指標に基づき、前記強化学習の段階ごとに前記第１パラメータ及び前記第２パラメータの一方又は双方を決定する、
処理を前記コンピュータに実行させる、請求項２又は請求項３に記載のプログラム。

【請求項6】

訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
処理をコンピュータが実行する、方法。

【請求項7】

訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
制御部を備える、情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プログラム，方法，及び情報処理装置に関する。

【背景技術】

【0002】

ユーザからの問い合わせ業務の人件費を削減するために、ユーザの質問又は会話に対してＡＩ（Artificial Intelligence）が自動回答を行なうタスクがある。当該タスクは、例えば、Transformer等のＤＮＮ（Deep Neural Network）を用いた言語モデルによる文章生成により実現される。

【0003】

言語モデルは、機械学習モデル（「ＤＮＮモデル」と称されてもよい）の一例であり、最尤推定モデルと称されてもよい。最尤推定モデルは、質問又は会話と回答とのペア（対話）を複数含む対話データセット、例えばＦＡＱ（Frequently Asked Questions）等を用いた教師あり学習によって訓練される。

【0004】

最尤推定モデルによる生成される回答文（以下、「生成回答文」と表記する場合がある）は、人により回答文が生成される場合と比較して、最尤推定モデルにより生成される回答文の精度（換言すれば、適切性）及び多様性が低下する場合がある。

【0005】

生成回答文の精度及び多様性を向上させるための手法の１つとして、最尤推定モデルに敵対的模倣学習モデルを組み合わせたモデル（以下、「最尤推定＆敵対的模倣学習モデル」と表記する場合がある）を用いる手法が知られている。

【0006】

敵対的模倣学習モデルとしては、例えば、ＧＡＮ（Generative Adversarial Network）等の敵対的生成ネットワークを利用したＴｅｘｔＧＡＩＬ（Text Generative Adversarial Imitation Learning）等の機械学習モデルが挙げられる。ＧＡＮは、Generator及びDiscriminatorの２つのネットワークを備え、これらのネットワークを互いに競い合わせることで精度を高める。Generatorは生成器の一例であり、Discriminatorは判別器（「評価器」と称されてもよい）の一例である。

【0007】

最尤推定＆敵対的模倣学習モデルは、敵対的模倣学習を実現するＧＡＮの構成を利用して、最尤推定モデルを強化学習によって再訓練する。例えば、生成器は、生成回答文に基づく回答文（以下、「生成文」と表記する場合がある）を出力する。判別器は、当該生成文を文章評価（判別）し、違和感（確信度：confidence）を報酬として生成器に出力する。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０２１－１８２０３９号公報

【特許文献2】特表２０１９－５２６１０７号公報

【特許文献3】米国特許出願公開第２０１９／０１１５０２７号明細書

【特許文献4】米国特許出願公開第２０１９／０２９７０３３号明細書

【発明の概要】

【発明が解決しようとする課題】

【0009】

最尤推定＆敵対的模倣学習モデルにおいて、判別器から出力される確信度を強化学習の報酬とする場合、報酬値のバラつきが大きくなり、安定した機械学習の実現が困難となる可能性がある。

【0010】

１つの側面では、本発明は、機械学習モデルの強化学習における報酬のバラつきを抑制することを目的の１つとする。

【課題を解決するための手段】

【0011】

１つの側面では、プログラムは、コンピュータに以下の処理を実行させてよい。前記処理は、訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行してよい。

【発明の効果】

【0012】

１つの側面では、本発明は、機械学習モデルの強化学習における報酬のバラつきを抑制することができる。

【図面の簡単な説明】

【0013】

【図1】比較例に係る最尤推定モデルによる自動回答を説明するための図である。

【図2】最尤推定モデルによる生成回答文の生成手法の一例を示す図である。

【図3】最尤推定モデルによる生成回答文の一例を示す図である。

【図4】最尤推定モデルによる生成回答文の一例を示す図である。

【図5】最尤推定＆強化学習モデルによる文章生成の一例を説明するための図である。

【図6】最尤推定モデルの訓練フェーズ及び推論フェーズの一例を説明するための図である。

【図7】最尤推定＆強化学習モデルの訓練フェーズ及び推論フェーズの一例を説明するための図である。

【図8】最尤推定＆敵対的模倣学習モデルの一例を説明するための図である。

【図9】最尤推定＆敵対的模倣学習モデルの一例であるＴｅｘｔＧＡＩＬの構成例を示すブロック図である。

【図10】一実施形態に係るモデルの構成例を示すブロック図である。

【図11】一実施形態に係るモデルの機能を実現するサーバのソフトウェア構成例を示すブロック図である。

【図12】比較検証の一例を説明するための図である。

【図13】比較検証における機械学習の設定例を説明するための図である。

【図14】比較検証におけるデコードの設定例を説明するための図である。

【図15】調整パラメータの設定手法の第１例に係る検証結果を説明するための図である。

【図16】調整パラメータの設定手法の第２例に係る検証結果を説明するための図である。

【図17】一実施形態に係るサーバの動作例を説明するフローチャートである。

【図18】一実施形態に係るサーバの機能を実現するコンピュータのハードウェア構成例を示すブロック図である。

【発明を実施するための形態】

【0014】

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

【0015】

〔Ａ〕比較例
図１は、比較例に係る最尤推定モデル（図１では「Model」と表記する）１００による自動回答を説明するための図である。最尤推定モデル１００（以下、単にモデル１００と表記する場合がある）は、ユーザ１１０からの質問文（「参照文」と表記する場合がある）１２１に対して、生成回答文１２２を出力する。

【0016】

図２は、モデル１００による生成回答文１２２の生成手法の一例を示す図である。図２に示すように、モデル１００には、対応関係１２４に基づき参照文１２１内の単語をＩＤ（Identifier）に変換したＩＤ列１２５が入力される。対応関係１２４は、単語と一意のＩＤとが対応付けられた情報である。モデル１００は、入力されたＩＤ列１２５に基づき、回答文としてのＩＤ列１２６を出力する。ＩＤ列１２６は、対応関係１２４に基づき生成回答文１２２に変換され、ユーザ１１０に出力される。なお、参照文１２１には、開始記号<BOS>，特殊記号<SEP>（図示省略）が含まれ、生成回答文１２２には、終端記号<EOS>が含まれる。

【0017】

図３及び図４は、最尤推定モデル１００による生成回答文１２２Ａ～１２２Ｃの一例を示す図である。

【0018】

生成回答文１２２は、ユーザ１１０にＡＩ特有の違和感を与えることがある。例えば、図３に示すように、モデル１００は、ユーザ１１１（ユーザＡ）からの参照文１２１Ａに対して、人があまり生成しない「同じ内容の文章の繰り返し」の生成回答文１２２Ａを出力する場合がある。

【0019】

このような生成回答文１２２Ａは、サービスの品質の低下、又は、ユーザ１１１の満足度の低下を引き起こす可能性がある。これは、人により回答文を生成する場合と比較して、生成回答文１２２の精度（換言すれば、適切性）が低い場合があることを意味する。

【0020】

また、生成回答文１２２は、各ユーザケースに合わない場合があり、自動回答によってもユーザの質問が解消されない、又は、ユーザとの会話が成立しない場合がある。例えば、図４に示すように、モデル１００は、ユーザ１１２（ユーザＢ）及び１１３（ユーザＣ）からの異なる内容の質問又は会話に対して、互いに似た内容の文章を生成した結果、ユーザ１１３に対しては適した自動回答にならない場合がある。

【0021】

このような生成回答文１２２Ｂ及び１２２Ｃは、ユーザを不快にさせる、又は、ユーザとの会話に対応できない可能性がある。これは、人により回答文を生成する場合と比較して、生成回答文１２２の多様性が低い場合があることを意味する。

【0022】

生成回答文１２２の精度及び多様性の向上を目的として、文章評価を行なうために、最尤推定モデル１００に強化学習モデルを組み合わせたモデル（以下、「最尤推定＆強化学習モデル」と表記する場合がある）２００を用いることも考えられる。

【0023】

図５は、最尤推定＆強化学習モデル２００による文章生成の一例を説明するための図である。図５に例示するように、モデル２００は、最尤推定モデル１００の追加学習として強化学習を行なう生成部２１０及び評価部２２０を備える。生成部２１０は、最尤推定モデル１００を含んでよく、参照文２０１及び報酬に基づき生成文２０２を生成する。評価部２２０は、当該生成文２０２を文章評価（判別）し、文章評価の結果を報酬として生成部２１０に出力する。

【0024】

強化学習の目的関数は、下記式（１）となる。また、強化学習における方策は、評価部２２０が報酬（文章評価）の最大値を目的とするものとなる。

【数1】

【0025】

モデル２００は、生成文２０２に対する文章評価を報酬とすることで文章生成を強化学習させることができる。評価部２２０は、文章の類似度の計測により回答の適切性を評価するBLEU、及び、文章の多様性の評価により回答の多様性を評価するDistinctの一方又は双方の指標を用いて、文章を定量的に評価する。強化学習では、生成文２０２の文章評価の報酬値を最大化するように、生成部２１０及び評価部２２０の訓練が行なわれる。

【0026】

図６は、最尤推定モデル１００の訓練フェーズ及び推論フェーズの一例を説明するための図であり、図７は、最尤推定＆強化学習モデル２００の訓練フェーズ及び推論フェーズの一例を説明するための図である。

【0027】

図６に示すように、最尤推定モデル１００では、訓練フェーズでTeacher Forcing、推論フェーズでFree Runningが採用される。Teacher Forcingは、生成回答文１２２の単語の予測に前回の出力（生成回答文１２２）を再利用せず、参照文１２１を入力として単語を予測する手法である。Free Runningは、生成回答文１２２の単語の予測に前回の出力を再利用する手法であり、前回の生成回答文１２２を入力として単語を予測する手法である。

【0028】

最尤推定モデル１００では、モデル１００の実装後の推論が、訓練時とは異なるタスクとなる。このため、モデル１００が想定外の文章を推論しないかどうかを検証することが重要である。また、モデル２００から出力される文章全体の「自然さ」を向上させる学習機構が存在しないため、当該文章を人が読んだ場合に違和感を与える可能性がある。

【0029】

一方、図７に示すように、最尤推定＆強化学習モデル２００では、訓練フェーズ及び推論フェーズの双方においてFree Runningが採用される。例えば、モデル２００は、参照文２０１及び前回の生成文２０２を入力として、生成文２０２の単語を予測する。

【0030】

このように、モデル２００では、訓練及び推論でFree Runningを利用するため、推論時に、訓練とは想定外の文章を推論しないかどうかを検証するコストを削減可能となる。また、モデル２００では、モデル１００が訓練に利用できない文章評価を利用できるため、機械学習と文章評価との間のギャップを減らすことができる。

【0031】

しかし、最尤推定＆強化学習モデル２００では、文章の違和感に関する文章評価を人が定量的に設計することが困難である。

【0032】

そこで、文章評価の定量的な設計を自動化する手法として、最尤推定＆敵対的模倣学習モデルを用いることが考えられる。

【0033】

図８は、最尤推定＆敵対的模倣学習モデル３００（以下、単にモデル３００と表記する場合がある）の一例を説明するための図である。図８に例示するように、モデル３００は、最尤推定モデル１００の追加学習として敵対的模倣学習を行なう生成部３１０及び評価部３２０を備える。生成部３１０は、最尤推定モデル１００を含んでよく、参照文及び報酬に基づき生成文を生成する。評価部３２０は、当該生成文を文章評価し、違和感（確信度：confidence）を報酬として、参照文とともに生成部３１０に出力する。

【0034】

図９は、最尤推定＆敵対的模倣学習モデル３００の一例であるＴｅｘｔＧＡＩＬ３５０の構成例を示すブロック図である。図９に例示するように、ＴｅｘｔＧＡＩＬ３５０は、生成部３１０，評価部３２０及びリプレイバッファ３６０を備えてよい。

【0035】

リプレイバッファ３６０は、複数のサンプル３５２と、複数のサンプル３５３とを入力とする。サンプル３５２は、複数のコンテキストを含む訓練データ３５１に含まれる、人により生成されたデータ（例えば参照文）のサンプルである。サンプル３５３は、訓練データ３５１に基づき生成部３１０により生成されたデータ（例えば生成文）のサンプルである。

【0036】

リプレイバッファ３６０は、サンプル３５２及び３５３を蓄積し、最新のサンプル３５３と過去のサンプル３５２及び３５３とを評価部３２０に出力する。

【0037】

評価部３２０は、リプレイバッファ３６０から取得したサンプル３５２及び３５３に基づき生成部３１０により生成されたデータを評価し、報酬（確信度）を出力するとともに、Ｄ（評価部３２０、例えばDiscriminator）を更新する。

【0038】

生成部３１０は、報酬に基づき、ＰＰＯ（Proximal Policy Optimization）等の強化学習アルゴリズムに応じてＧ（生成部３１０、例えばGenerator）を更新する。

【0039】

このような敵対的模倣学習により、モデル３００は、各ユーザケースに合わせた自動回答において、生成文に、高品質を担保した多様性を持たせることができる。換言すれば、モデル３００により、精度及び多様性の向上を実現できる。

【0040】

しかしながら、モデル３００において、評価部３２０から出力される確信度を強化学習の報酬とする場合、報酬値のバラつきが大きくなり、安定した機械学習の実現が困難となる可能性がある。

【0041】

例えば、生成部３１０が或る行動（action）を行なった場合に評価部３２０による報酬値が高いにも関わらず、当該行動に類似した行動を行なった場合に報酬値が低いと、強化学習の一貫性が保たれず、高精度なモデル３００が学習され難くなる。

【0042】

また、例えば、報酬が生成部３１０に殆ど与えられない状況において、生成部３１０により生成された稀な文章に高い報酬値が与えられた場合、当該文章が過大評価される結果、当該文章に類似した文章が多く生成され、安定したモデル３００が学習され難くなる。このことは、例えば、敵対的攻撃に対して脆弱性を有することに繋がる。

【0043】

そこで、一実施形態では、機械学習モデルの強化学習における報酬のバラつきを抑制する手法を説明する。

【0044】

〔Ｂ〕一実施形態の構成例
図１０は、一実施形態に係るモデル１の構成例を示すブロック図である。モデル１は、例えば、最尤推定＆敵対的模倣学習モデルに対して、報酬の調節機構を設けた機械学習モデルと位置付けられてよい。一実施形態では、報酬の調節機構として順応のアプローチを導入するものとする。

【0045】

図１０に示すように、モデル１は、例示的に、生成部２，評価部３及び順応モデル４を備えてよい。

【0046】

生成部２は、参照文及び報酬に基づき生成文を生成する生成器の一例である。生成部２は、最尤推定モデル１００を含んでよい。生成文は、強化学習における行動（action）の一例である。参照文は、強化学習における状態（state）の一例である。

【0047】

評価部３は、参照文及び生成文に基づき当該生成文を文章評価し、評価結果として確信度（confidence）を出力する判別器の一例である。評価部３は、参照文を生成部２に出力するとともに、確信度を順応モデル４に出力する。確信度は、生成文の違和感に関する指標であり、強化学習における報酬（reward）の一例である。

【0048】

順応モデル４は、評価部３から入力される報酬を調節（調整）する調節機構（例えば機能ブロック）の一例である。一実施形態では、順応モデル４は、順応の数理モデルに基づいたモデルであってよい。順応とは、刺激に対して、次第に適応するプロセスである。なお、順応モデル４は、最適な報酬を出力するように訓練された機械学習モデルを含んでもよい。

【0049】

例えば、順応モデル４は、敵対的模倣学習の報酬の値（報酬値）を順応に基づき調節可能とした順応報酬を、生成部２に出力する。一例として、順応モデル４は、報酬値のバラつきを抑えるために、順応報酬の下界を調節してよい。順応報酬は、敵対的模倣学習の報酬値の下界を調節可能にしたものであってよい。

【0050】

ここで、報酬を調整する手法として、モデル３００で実施されるように、KL（Kullback-Leibler）距離又はReverse KL距離を最小化するような報酬を生成することが考えられる。KL距離を最小化するような報酬により、モデル１の品質・評価を向上させることができる。また、Reverse KL距離を最小化するような報酬により、モデル１の多様性を向上させることができる。

【0051】

例えば、KL距離の最小化に対応した報酬に基づく、生成部２の訓練に用いられる損失関数は、下記式（２）に示される。また、Reverse KL距離の最小化に対応した報酬に基づく、生成部２の訓練に用いられる損失関数は、下記式（３）に示される。

【数2】

【0052】

上記式（２）及び（３）において、Ｅ_πは、［］内の報酬の期待値を算出する関数である。Ｄは、評価部３から入力される確信度を示し、Ｄ^＊は、モデル１が最適解であるときのＤを示す。なお、最尤推定＆敵対的模倣学習モデルの一例であるＴｅｘｔＧＡＩＬでは、報酬はＤであり、最尤推定＆敵対的模倣学習モデルの一例であるＡＩＲＬ（Adversarial Inverse Reinforcement Learning）では、報酬はｌｏｇ（Ｄ／（１－Ｄ））である。

【0053】

また、ρ_πは、生成部２が生成するデータの確率分布（生成分布）を示し、ρ_Ｅは、モデル１の訓練に利用される訓練データセットが有する複数のデータ（訓練データ）の確率分布（データ分布）を示す。上記式（２）及び（３）により算出される期待値は、生成分布ρ_πと、データ分布ρ_Ｅとの間の距離（分布間距離）となる。

【0054】

しかし、上記式（２）及び（３）のいずれにおいても、報酬に下界が存在せず、報酬が負の無限大の値を取り得る。換言すれば、報酬値のバラつきが大きくなり、モデル１の機械学習が安定しない。

【0055】

そこで、一実施形態に係る順応モデル４は、例えば、順応報酬を調整するためのパラメータ（調整パラメータ）を利用してよい。調整パラメータは、その値が変化したとしても、モデル１の最適解が変化しない、又は、変化を抑制するように、順応報酬の算出ロジックに組み込まれてよい。これにより、順応モデル４は、調整パラメータを変化させることで、敵対的模倣学習の最適解が変化することを抑制しつつ、報酬値の下界を調節することができる。

【0056】

このように、一実施形態に係るモデル１は、報酬値がバラつくことで最尤推定＆敵対的模倣学習モデル３００では安定しない学習環境において、順応を模した順応モデル４により報酬値のバラつきを抑えることができ、強化学習を安定させることができる。

【0057】

例えば、順応モデル４は、下記式（４）に示す順応報酬を出力してよい。また、生成部２は、順応モデル４から入力される順応報酬に基づき、下記式（５）に示す損失関数を用いた機械学習を行なってよい。

【数3】

【0058】

上記式（４）及び（５）において、α及びβの各々は、調整パラメータ（「順応度パラメータ」又は単に「パラメータ」と称されてもよい）を示す。調整パラメータα及びβの各々は、例えば、０以上且つ１未満の実数であってよい。調整パラメータαは、第１パラメータの一例であり、調整パラメータβは、第２パラメータの一例である。

【0059】

例えば、順応モデル４は、評価部３から報酬Ｄ（確信度）を与えられると、調整パラメータα及びβに基づき、上記式（４）に従って順応報酬を算出してよい。順応報酬は、報酬Ｄの数だけ生成されてよい。

【0060】

上記式（５）に示す［］内は、報酬Ｄに基づき生成された順応報酬の全体的な分布になるため、順応報酬の分布の傾向、一例として歪度を導出することができる。モデル１は、このような歪度等を小さくするように調整パラメータα及びβを繰り返し最適化手法により算出することで、最終的に最適であると判定した調整パラメータα及びβを決定してよい。なお、後述するように、調整パラメータα及びβの決定手法は、歪度を小さくするような最適化手法に限定されるものではない。

【0061】

順応モデル４は、このようにして決定された調整パラメータα及びβに基づき、上記式（４）に従い報酬値の下界を調節した順応報酬を、生成部２に出力してよい。

【0062】

ところで、上記式（５）において、Ｄ^＊＝ρ_Ｅ／（ρ_π＋ρ_Ｅ），（１－Ｄ^＊）＝ρ_π／（ρ_π＋ρ_Ｅ）とすると、上記式（５）は、下記式（６）のように変形できる。

【数4】

【0063】

上記式（６）から、調整パラメータαの値が大きい（１に近い）ほど、生成分布ρ_πが多く、データ分布ρ_Ｅが少ない分布となり、調整パラメータβの値が大きい（１に近い）ほど、データ分布ρ_Ｅが多く、生成分布ρ_πが少ない分布となることがわかる。

【0064】

また、上記式（６）において、［］内（順応報酬）の期待値を算出することで分布間距離を求めると、下記式（７）が得られる。下記式（７）の左辺における期待値の中の報酬を最大化すると、下記式（７）の右辺に示す距離は、最小になる。

【数5】

【0065】

ここで、上記式（６）及び（７）において、αρ_π＋（１－α）ρ_Ｅは、生成分布ρ_πの一部と、データ分布ρ_Ｅの一部とを、調整パラメータαに応じた割合で混合して得られる確率分布（混合分布：第１の混合分布）の一例である。また、βρ_π＋（１－β）ρ_Ｅは、生成分布ρ_πの一部と、データ分布ρ_Ｅの一部とを、調整パラメータβに応じた割合で混合して得られる確率分布（混合分布：第２の混合分布）の一例である。

【0066】

換言すれば、調整パラメータα及びβの各々は、混合分布における混合の割合を示すパラメータであって、生成分布ρ_πとデータ分布ρ_Ｅとの間の分布間距離に重みを付与する重みパラメータであるといえる。また、上記式（５）に示す損失関数は、第１及び第２の混合分布の間の距離を示す報酬関数であるといえる。

【0067】

このように、一実施形態では、データ分布ρ_Ｅ及び生成分布ρ_πの分布間距離に重みα及びβを導入する。モデル１は、データ分布ρ_Ｅと生成分布ρ_πとの混合分布を算出して、混合分布どうし（混合分布間）の分布間距離を最小化する。

【0068】

例えば、モデル３００のように、損失関数を生成分布とデータ分布との間の分布間距離に基づくものとすると、報酬値が大きくなり、距離が大きな値を取る。これに対し、モデル１によれば、生成分布とデータ分布とを直接比較するのではなく、生成分布の一部とデータ分布の一部とを混ぜ合わせた混合分布のそれぞれの距離を求めることで、報酬が大きな（過度な）値を取らないように調整することができる。

【0069】

これにより、敵対的模倣学習の報酬は下界を持つようになり、最終的な分布間距離の最適解の変動を抑制しつつ、分布間距離自体を調節できるため、機械学習を安定化させることができる。

【0070】

さらに、生成分布ρ_π及びデータ分布ρ_Ｅの間の分布間距離が小さくなると、訓練データセットに含まれる文章の分布のあり方が、生成部２により出力される文章の分布のあり方と同じになる。このことは、生成部２が、訓練データセットに含まれる文章と同じような文章を生成できるようになったことを意味する。

【0071】

例えば、上記式（７）において、調整パラメータαが１になると、調整パラメータαを含む項は、生成分布ρ_π及びデータ分布ρ_Ｅのうちの生成分布ρ_πのみとなる。また、調整パラメータβが０になると、調整パラメータβを含む項は、生成分布ρ_π及びデータ分布ρ_Ｅのうちのデータ分布ρ_Ｅのみとなる。

【0072】

従って、Ｄが最適解Ｄ^＊であって、且つ、調整パラメータα＝１，β＝０の場合、上記式（７）は、下記式（８）に示すように、生成分布ρ_π及びデータ分布ρ_Ｅの距離と同じになり、上記式（２）に示すようなKL距離の最小化問題に帰着する。

【数6】

【0073】

なお、評価部３は、図８に示す評価部３２０と同様に、参照文及び生成文に基づき、生成文の確信度を出力するように訓練されてよい。例えば、評価部３は、下記式（９）に示す損失関数を用いた機械学習を行なってよい。

【数7】

【0074】

以上のように、一実施形態に係るモデル１は、訓練データの確率分布の一部と、生成部２が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、強化学習が実行される。

【0075】

例えば、上述したモデル３００等のように、報酬を正規化及び標準化する手法では、報酬値が線形に抑えられるため、報酬値が非線形にバラついている場合は、バラつきの抑制が困難になることがある。この場合、大きな報酬値の影響が支配的になり、その他の報酬値が小さく圧縮されて訓練に反映され難くなる。これにより、機械学習におけるサンプルの間で学習の重みが変わるため、ロバストなモデル１が学習され難い。また、報酬のクリッピングや報酬の加工が行なわれると、モデル１の最適解が学習プロセスで変化するため、高評価なモデル１が学習され難い。

【0076】

これに対し、一実施形態に係るモデル１によれば、評価部３から生成部２に与えられる報酬の下界を調節可能となるため、報酬の影響のバラつきを抑えられ、モデル１の機械学習の安定化を図ることができる。これにより、例えば、敵対的攻撃等に対するロバスト性をモデル１に持たせることができる。

【0077】

また、一実施形態に係るモデル１によれば、順応報酬の調整パラメータα及びβの変化によってもモデル１の最適解が学習プロセスで変化しないため、機械学習の一貫性を担保でき、高評価なモデル１の機械学習を実現できる。

【0078】

従って、例えば、モデル１がユーザの質問又は会話に対して自動回答を行なうタスクに適用される場合、ＡＩ特有の違和感を与えない自動回答を実現でき、サービスの質及びユーザの満足度を向上させることができる。

【0079】

また、各ユーザケースに合った自動回答を実現でき、ユーザが不快に思うケース、又は、ユーザとの会話に対応できないケースを減少させることができる。これにより、人による回答の修正頻度を減少させることができ、人件費を大きく削減することが可能となる。

【0080】

〔Ｃ〕サーバのソフトウェア構成例
図１１は、一実施形態に係るモデル１の機能を実現するサーバ１０のソフトウェア構成例を示すブロック図である。サーバ１０は、モデル１の訓練（及びモデル１を用いた推論）を実行する情報処理装置又はコンピュータの一例である。

【0081】

図１１に示すように、サーバ１０は、例示的に、メモリ部１１，取得部１２，訓練部１３，報酬調整部１４，及び出力部１５を備えてよい。また、サーバ１０は、推論部１６を備えてもよい。取得部１２，訓練部１３，報酬調整部１４，出力部１５，及び推論部１６は、制御部１７の一例である。

【0082】

メモリ部１１は、記憶領域の一例であり、サーバ１０が利用する種々のデータを記憶する。メモリ部１１は、例えば、サーバ１０の後述するメモリ２０ｂ及び記憶部２０ｃ（図１８参照）のうちの一方又は双方が有する記憶領域により実現されてもよい。

【0083】

図１１に示すように、メモリ部１１は、例示的に、機械学習モデル１１ａ，複数の訓練データ１１ｂ，複数の生成データ１１ｃ，及び調整パラメータ１１ｄを記憶可能であってよい。また、サーバ１０が推論部１６を備える場合、メモリ部１１は、複数の入力データ１１ｅを記憶可能であってもよい。

【0084】

以下、便宜上、メモリ部１１が格納する情報をテーブル形式で表記するが、これに限定されるものではなく、メモリ部１１が格納する情報のうちの少なくとも１つは、ＤＢ（Database）又は配列等の種々の形式であってもよい。

【0085】

機械学習モデル１１ａは、最尤推定＆敵対的模倣学習モデルの一例であり、例えば、図１０に示すモデル１であってよい。

【0086】

複数の訓練データ１１ｂは、機械学習モデル１１ａの機械学習処理（訓練）に利用されるデータである。訓練データ１１ｂは、図１０に示す参照文の一例である。複数の訓練データ１１ｂは、訓練データセットと称されてもよい。

【0087】

複数の生成データ１１ｃは、機械学習モデル１１ａの訓練フェーズ又は推論フェーズにおいて機械学習モデル１１ａにより生成されるデータである。生成データ１１ｃは、図１０に示す生成文の一例である。

【0088】

調整パラメータ１１ｄは、図１０に示す順応モデル４が利用する調整パラメータα及びβの一例である。調整パラメータ１１ｄ（α及びβ）の値としては、報酬調整部１４又は管理者により予め所定の値が設定されてもよいし、報酬調整部１４又は管理者により更新されてもよい。

【0089】

入力データ１１ｅは、機械学習モデル１１ａによる推論処理に利用されるデータである。例えば、モデル１がユーザの質問又は会話に対して自動回答を行なうタスクを実行する場合、入力データ１１ｅは、ユーザからの質問又は会話等の文章であってよい。

【0090】

取得部１２は、サーバ１０で利用される種々の情報を取得する。例えば、取得部１２は、データを提供する装置（図示省略）から機械学習モデル１１ａ，訓練データ１１ｂ，調整パラメータ１１ｄ，及び入力データ１１ｅのうちの少なくともいずれか１種類のデータを取得し、メモリ部１１に格納してよい。

【0091】

訓練部１３は、訓練フェーズにおいて、複数の訓練データ１１ｂを利用した機械学習モデル１１ａの訓練（機械学習処理，強化学習処理）を行なう。

【0092】

例えば、訓練部１３は、複数の訓練データ１１ｂをモデル１の生成部２に入力して、報酬調整部１４により調整された順応報酬に基づく損失関数（上記式（５）参照）を利用した生成部２の訓練を行なう。

【0093】

また、訓練部１３は、複数の訓練データ１１ｂと、生成部２から出力される複数の生成データ１１ｃとをモデル１の評価部３に入力して、上記式（９）に示す損失関数を利用した評価部３の訓練を行なう。なお、訓練部１３は、評価部３から出力される報酬を報酬調整部１４に出力する。

【0094】

各損失関数を用いた生成部２及び評価部３の強化学習の手法としては、既知の種々の手法が用いられてよい。

【0095】

報酬調整部１４は、評価部３から出力される報酬を、調整パラメータ１１ｄに基づき順応報酬に変換（調整）し、生成部２に出力する。例えば、報酬調整部１４は、図１０に示す順応モデル４の一例である。

【0096】

なお、順応モデル４が機械学習モデルである場合、報酬調整部１４は、調整パラメータ１１ｄを最適化するように順応モデル４の訓練を実行してもよい。この場合、順応モデル４は、機械学習モデル１１ａとは別にメモリ部１１に格納されてもよいし、機械学習モデル１１ａの一部として機械学習モデル１１ａに含まれてもよい。

【0097】

また、報酬調整部１４は、機械学習モデル１１ａの訓練フェーズに先立って、又は、並行して、調整パラメータ１１ｄの決定又は更新等の設定を行なってよい。

【0098】

出力部１５は、出力データを出力する。出力データとしては、例えば、機械学習モデル１１ａ，複数の生成データ１１ｃ，及び調整パラメータ１１ｄのうちの少なくともいずれか１種類のデータが挙げられる。出力データに複数の生成データ１１ｃが含まれる場合、出力データに含まれる生成データ１１ｃとしては、訓練フェーズで生成部２が出力する生成文と、推論フェーズで生成部２が出力する生成文（推論結果）と、のうちの一方又は双方が挙げられる。

【0099】

出力部１５は、出力データの「出力」において、例えば、出力データを図示しない他のコンピュータに送信（提供）してもよいし、出力データをメモリ部１１に蓄積して、サーバ１０又は他のコンピュータから取得可能に管理してもよい。或いは、出力部１５は、出力データの「出力」において、出力データを示す情報をサーバ１０又は管理者端末等の出力装置に画面出力してもよく、その他の種々の態様により出力データを出力してよい。管理者端末は、管理者が利用するコンピュータの一例である。

【0100】

推論部１６は、推論フェーズにおいて、訓練部１３により訓練された機械学習モデル１１ａを用いて、推論処理を行なう。例えば、推論部１６は、機械学習モデル１１ａに推論処理の対象データである入力データ１１ｅを入力し、機械学習モデル１１ａから出力された推論結果をメモリ部１１に格納してよい。

【0101】

〔Ｄ〕調整パラメータの設定例
報酬調整部１４は、種々の手法により、調整パラメータ１１ｄを設定してよい。以下、２つの手法を例に挙げて説明する。

【0102】

なお、以下では、調整パラメータ１１ｄの設定によりモデル１の性能が向上することを示す検証結果を併せて説明する。検証の手法としては、例えば、公開データセットによる比較検証が挙げられる。

【0103】

図１２は、比較検証の一例を説明するための図であり、図１３は、比較検証における機械学習の設定例を説明するための図であり、図１４は、比較検証におけるデコードの設定例を説明するための図である。

【0104】

図１２に例示するように、比較検証では、与えられた複数の単語（符号Ａ１参照）から意味が通る文章を生成するタスクを対象とした。当該タスクでは、例えば、人が生成した文章（符号Ａ２）のような文章を、いくつかの比較例に係るモデルとモデル１とに生成させ、生成されたそれぞれの文章（符号Ａ３）の精度及び多様性が測定された。

【0105】

比較検証では、訓練データセットとして、公開データセットであるCommonGenが用いられた。訓練データ数は67389セットであり、検証データ数は4018セットである。

【0106】

比較検証では、訓練データを学習した生成部２及び評価部３の性能を検証データで測定した。性能は、生成文の精度を表す指標であるBLEUと、生成文の多様性を表す指標であるDistinctとの２つの指標を利用して、精度及び多様性がどの程度改善しているかを目的として測定された。なお、BLEUは、参照文と生成文との間のn-gramの一致割合を表す指標であり、Distinctは、全生成文のユニークなn-gramの割合を表す指標である。

【0107】

図１３の符号Ｂに例示するように、比較検証では、Liner Schedulingによる機械学習のスケジューリングが行なわれた。学習率は、生成部２：2e-5，評価部３：1e-5/5e-6であり、エポック数は、Pretrain：10，Finetuning：1である。

【0108】

図１４の符号Ｃ１及びＣ２に例示するように、比較検証では、デコードの設定として、単語の予測分布のうちの累計確率pからサンプリングを行なうTop-pサンプリングが採用された。Top-pサンプリングでは、例えば、上位0.94の累積確率のものからランダムに文章を選択するというデコードが行なわれる。

【0109】

〔Ｄ－１〕第１例
調整パラメータ１１ｄの設定手法の第１例では、報酬調整部１４は、強化学習の進捗に応じて調整パラメータα及びβの一方又は双方を変化させる。例えば、報酬調整部１４は、学習ステップに伴い、調整パラメータα及びβを増加又は減少させる。調整パラメータα及びβの増加又は減少は、学習ステップ（ステップ数）に対して線形に行なわれてもよいし、非線形に行なわれてもよく、その他、線分どうし，曲線どうし，線分と曲線との組み合わせ等を表す種々の関数に従って行なわれてもよい。

【0110】

例えば、報酬調整部１４は、０≦α＜β≦１の範囲内で、報酬のバラつきが小さい場合に報酬の下界を広げる方向に調整パラメータα及びβを更新し、報酬のバラつきが大きい場合に報酬の下界を狭める方向に調整パラメータα及びβを更新してよい。これにより、学習プロセスの進行に伴って報酬の下界を広げることができる。

【0111】

ここで、調整パラメータα及びβは、下界（＝ａ＊ｌｏｇ（ｂ／ａ））に影響を与えるパラメータである。このため、調整パラメータαが増加すると下界が広がり（負の無限大に近付く）、減少すると下界が狭まる（ゼロに近付く）。また、調整パラメータβが増加すると下界が狭まり（ゼロに近付く）、減少すると下界が広がる（負の無限大に近付く）。従って、第１例では、報酬調整部１４は、報酬の下界を広げる場合、調整パラメータαの増加及び調整パラメータβの減少のうちの一方又は双方を実行し、報酬の下界を狭める場合、調整パラメータαの減少及び調整パラメータβの増加のうちの一方又は双方を実行してよい。

【0112】

図１５は、調整パラメータ１１ｄの設定手法の第１例に係る検証結果を説明するための図である。図１５に符号Ｄ１～Ｄ３で示すグラフは、比較例に係る検証結果であり、符号Ｄ４で示すグラフは、第１例に係る検証結果である。

【0113】

比較例は、最尤推定学習を行なうMLE（Maximum Likelihood Estimation）（符号Ｄ１参照），TextGAIL（符号Ｄ２参照），及びAIRL（符号Ｄ３参照）である。MLEは、図１に示すモデル１００の一例である。TextGAIL及びAIRLは、最尤推定＆敵対的模倣学習モデルであり、図８に示すモデル３００の一例である。

【0114】

第１例に係る手法（符号Ｄ４参照）では、調整パラメータ１１ｄの調整によって、順応度を線形減少させた。

【0115】

なお、図１５に示す符号Ｄ１～Ｄ４のグラフは、温度パラメータをt=0.2/0.4/0.6/0.8/1.0と変化させながらデコードした結果をプロットしたものである。温度パラメータが低いほど、各モデルの検証結果は、精度優先（精度が高く多様性が低い状態）となり、温度パラメータが高いほど、各モデルの検証結果は、多様性優先（精度が低く多様性が高い状態）となる。

【0116】

図１５に示すように、精度を表すBLEU（横軸）と、多様性を表すDistinct（縦軸）とはトレードオフの関係にある。従って、良好なモデルとしては、精度及び多様性の双方を改善されたモデルが期待される。

【0117】

符号Ｄ５で示すように、単純な教師有り学習を行なうMLE（符号Ｄ１）では、精度が低く、単調である。

【0118】

一方、符号Ｄ６で示すように、最尤推定モデルに敵対的模倣学習を適用したTextGAIL，AIRL，第１例によれば、精度及び多様性の双方が改善されている。特に、第１例は、調整パラメータ１１ｄの調整により順応度を線形変化（例えば、調整パラメータαを線形減少，調整パラメータβを線形増加）させたことにより、TextGAIL及びAIRLと同程度の多様性を維持しつつ、TextGAIL及びAIRLよりも精度を向上させることができた。

【0119】

例えば、与えられた複数の単語（wall / stand / climb）から意味が通る文章を生成するタスクについて、正解文を以下として、比較例及び第１例では、以下のサンプルのような生成文が出力される。
正解文：The man climbed the ladder and stood on top of the wall.
MLE：A man stands on a wall with a camera perched on his hip.
TextGAIL：A man stands on a wall with a small torch and climbs down. He is climbing.
第１例：A man stands on a wall with a ladder for climbing on top of wall.

【0120】

上記のように、MLEでは、精度に関し、正解文に関係の無い単語（a camera perched）が出現している。TextGAILでは、多様性に関し、同じ単語（climb）が繰り返し生成されている。これに対し、第１例では、MLE及びTextGAILよりも、正解文と異なる（関係の無い）単語が出現したり、同じ単語が繰り返されたりすることを抑制できている。

【0121】

〔Ｄ－２〕第２例
調整パラメータ１１ｄの設定手法の第２例では、報酬調整部１４は、所定の指標に基づき、強化学習の段階ごとに適した調整パラメータα及びβの一方又は双方を決定する。例えば、報酬調整部１４は、設計された指標に基づいて、各ステップに適した調整パラメータα及びβを決定する（与える）。指標としては、例えば、報酬の歪度等が挙げられる。

【0122】

例えば、報酬調整部１４は、報酬の歪度等の指標を小さくするように設定された目的関数を用いて、当該指標が小さくなるように調整パラメータα及びβを最適化することで、報酬の順応度を調整してよい。これにより、指標に基づいた学習プロセスを実現できる。

【0123】

なお、調整パラメータα及びβの最適化には、例えば、TPE(Tree-structured Parzen Estimator) Sampler等の最適化手法が用いられてよい。

【0124】

図１６は、調整パラメータ１１ｄの設定手法の第２例に係る検証結果を説明するための図である。図１６の紙面左側は、比較例としてAIRLを用いた場合の検証結果であり、紙面右側は、第２例に係る検証結果である。

【0125】

比較例は、モデル１における順応モデル４の調整パラメータ１１ｄをａ＝０，β＝１に固定することで、AIRLを擬似的に再現した。第２例は、報酬の歪度を指標とし、当該指標を小さくするように、最適化手法としてTPE Samplerを用いて順応度を調整した。

【0126】

図１６の上段は、報酬の分布を示す。符号Ｅ１で示す線分は最大値であり、符号Ｅ２で示す線分は最小値である。符号Ｅ３及びＥ６で示す一点鎖線の枠は、上位16%の報酬であり、符号Ｅ４及びＥ７で示す二点鎖線の枠は、下位16%の報酬である。一点鎖線の枠と二点鎖線の枠との間の領域に分布する点群は、中央値の報酬である。

【0127】

図１６の上段から、第２例に係る報酬は、符号Ｅ８で示す破線の枠内において、上位16%の報酬と中央値の報酬との間の空間が、比較例に係る報酬における符号Ｅ５で示す破線の枠内の空間よりも広くなった（空白の領域が大きくなった）ことがわかる。

【0128】

このように、第２例によれば、学習サンプルや報酬の偏りの軽減を達成でき、スパース又は偏った報酬により強化学習が不安定になることを抑制できるため、モデル１の機械学習の安定化を図ることができる。

【0129】

図１６の中段は、報酬の歪度を示す。第２例では、符号Ｅ１０で示す破線の枠内に含まれる点群が、比較例に係る符号Ｅ９で示す破線の枠内の点群よりも少ないことがわかる。これは、比較例において歪度が-0.4～-0.2の間に存在した点群が、第２例では-0.2～0.2の間に（0を中心として）存在するようになったことを意味する。すなわち、第２例により、報酬の歪度が小さくなったことを意味する。

【0130】

図１６の下段は、第２例における調整パラメータα及びβの分布を示す。αで示す点群は、調整パラメータαであり、βで示す点群は、調整パラメータβである。図１６の下段に示すように、調整パラメータ１１ｄは、学習ステップの最初は調整が効いており、学習ステップの進行に応じて徐々に緩やかになることがわかる。従って、機械学習の一貫性が担保され、高評価なモデル１となるような機械学習を実現することができる。

【0131】

例えば、与えられた複数の単語（perform / consist / band / drummer / guitarist）から意味が通る文章を生成するタスクについて、正解文を以下として、比較例及び第２例では、以下のサンプルのような生成文が出力される。
正解文：The band consists of a drummer and a guitarist, the band performs in front of people.
MLE：A guitarist performs a band consisting of musicians.
TextGAIL：A band of musicians perform a band consisting of guitarist, and a band of people.
第２例：A guitarist performs in a band consisting of bassists and drummer.

【0132】

上記のように、MLEでは、精度に関し、尤もらしさを優先して違和感のある文章（musicians）が生成されている。TextGAILでは、多様性に関し、同じ単語（band）が繰り返し生成されている。これに対し、第２例では、MLE及びTextGAILよりも、正解文と同様に具体的な情報（of bassists and drummer）を提示できている。

【0133】

〔Ｅ〕動作例
次に、一実施形態に係るサーバ１０の動作例を説明する。図１７は、一実施形態に係るサーバ１０の動作例を説明するフローチャートである。

【0134】

図１７に例示するように、サーバ１０の取得部１２は、訓練フェーズにおいて、複数の訓練データ１１ｂを取得し（ステップＳ１）、メモリ部１１に格納する。

【0135】

報酬調整部１４は、調整パラメータ１１ｄ（例えばα及びβ）を決定する（ステップＳ２）。調整パラメータ１１ｄの決定手法としては、例えば、上述した第１例又は第２例において説明した手法が挙げられる。

【0136】

報酬調整部１４は、決定した調整パラメータ１１ｄを順応モデル４に適用する（ステップＳ３）。

【0137】

訓練部１３は、順応モデル４を利用して、複数の訓練データ１１ｂを用いた機械学習モデル１１ａ（例えばモデル１）の強化学習を実行する（ステップＳ４）。強化学習において、訓練部１３は、評価部３から出力される報酬を順応モデル４に入力し、順応モデル４から出力される順応報酬を生成部２に入力することで、調整パラメータ１１ｄに応じた損失関数による生成部２の訓練を行なう。強化学習が終了すると、処理が終了する。

【0138】

〔Ｆ〕ハードウェア構成例
一実施形態に係るサーバ１０は、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、サーバ１０の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、サーバ１０の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

【0139】

図１８は、一実施形態に係るサーバ１０の機能を実現するコンピュータ２０のハードウェア（ＨＷ）構成例を示すブロック図である。サーバ１０の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図１８に例示するＨＷ構成を備えてよい。

【0140】

図１８に示すように、コンピュータ２０は、ＨＷ構成として、例示的に、プロセッサ２０ａ、グラフィック処理装置２０ｂ、メモリ２０ｃ、記憶部２０ｄ、ＩＦ（Interface）部２０ｅ、ＩＯ（Input / Output）部２０ｆ、及び読取部２０ｇを備えてよい。

【0141】

プロセッサ２０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ２０ａは、コンピュータ２０内の各ブロックとバス２０ｊで相互に通信可能に接続されてよい。なお、プロセッサ２０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

【0142】

プロセッサ２０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；integrated circuit）が挙げられる。なお、プロセッサ２０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

【0143】

グラフィック処理装置２０ｂは、ＩＯ部２０ｆのうちのモニタ等の出力装置に対する画面表示制御を行なう。また、グラフィック処理装置２０ｂは、機械学習モデル１１ａを利用した機械学習処理及び推論処理を実行するアクセラレータとしての構成を有してよい。グラフィック処理装置２０ｂとしては、種々の演算処理装置、例えば、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等の集積回路（ＩＣ）が挙げられる。

【0144】

メモリ２０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ２０ｃとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

【0145】

記憶部２０ｄは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部２０ｄとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

【0146】

記憶部２０ｄは、コンピュータ２０の各種機能の全部若しくは一部を実現するプログラム２０ｈを格納してよい。プログラム２０ｈには、例えば、機械学習モデル１１ａの機械学習処理（訓練）を実行するための機械学習プログラム，機械学習モデル１１ａを利用した推論処理を実行するための推論プログラム等が含まれてもよい。

【0147】

例えば、サーバ１０のプロセッサ２０ａは、記憶部２０ｄに格納されたプログラム２０ｈをメモリ２０ｃに展開して実行することにより、サーバ１０（例えば図１１に示す制御部１７）としての機能を実現できる。

【0148】

ＩＦ部２０ｅは、サーバ１０と他のコンピュータとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部２０ｅは、イーサネット（登録商標）等のＬＡＮ、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。

【0149】

例えば、サーバ１０は、ＩＦ部２０ｅ及びネットワークを介して、他のコンピュータ，管理者端末等のそれぞれと相互に通信可能に接続されてよい。なお、プログラム２０ｈは、当該通信ＩＦを介して、ネットワークからコンピュータ２０にダウンロードされ、記憶部２０ｄに格納されてもよい。

【0150】

ＩＯ部２０ｆは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等の表示装置が挙げられる。また、ＩＯ部２０ｆは、入力装置及び出力装置が一体となったタッチパネル等を含んでもよい。出力装置は、グラフィック処理装置２０ｂに接続されてよい。

【0151】

読取部２０ｇは、記録媒体２０ｉに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部２０ｇは、記録媒体２０ｉを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部２０ｇとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体２０ｉにはプログラム２０ｈが格納されてもよく、読取部２０ｇが記録媒体２０ｉからプログラム２０ｈを読み出して記憶部２０ｄに格納してもよい。

【0152】

記録媒体２０ｉとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

【0153】

上述したコンピュータ２０のＨＷ構成は例示である。従って、コンピュータ２０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。

【0154】

〔Ｇ〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

【0155】

例えば、図１１に示すサーバ１０が備えるソフトウェア構成は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

【0156】

また、図１１に示すサーバ１０は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成（システム）であってもよい。一例として、メモリ部１１はＤＢサーバ，取得部１２及び出力部１５はＷｅｂサーバ又はアプリケーションサーバ，訓練部１３，報酬調整部１４及び推論部１６はアプリケーションサーバ等であってもよい。この場合、ＤＢサーバ、アプリケーションサーバ及びｗｅｂサーバが、ネットワークを介して互いに連携することにより、サーバ１０としての各処理機能を実現してもよい。

【0157】

〔Ｈ〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

【0158】

（付記１）
訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
処理をコンピュータに実行させる、プログラム。

【0159】

（付記２）
前記強化学習を実行する処理は、
前記訓練データの確率分布の一部と、前記生成器が出力したデータの確率分布の一部とを、第１パラメータに応じた割合で混合して得られる第１の混合分布と、前記訓練データの確率分布の一部と、前記生成器が出力した確率分布の一部とを、第２パラメータに応じた割合で混合して得られる第２の混合分布との距離を前記報酬関数として利用する、処理を含む、
付記１に記載のプログラム。

【0160】

（付記３）
前記強化学習を実行する処理は、
判別器が出力した報酬を前記第１パラメータと前記第２パラメータとに基づく順応の数理モデルに入力して得られる順応報酬を、前記生成器に入力する、処理を含む、
付記２に記載のプログラム。

【0161】

（付記４）
前記強化学習の進捗に応じて、前記第１パラメータ及び前記第２パラメータの一方又は双方を変化させる、
処理を前記コンピュータに実行させる、付記２又は付記３に記載のプログラム。

【0162】

（付記５）
所定の指標に基づき、前記強化学習の段階ごとに前記第１パラメータ及び前記第２パラメータの一方又は双方を決定する、
処理を前記コンピュータに実行させる、付記２又は付記３に記載のプログラム。

【0163】

（付記６）
訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
処理をコンピュータが実行する、方法。

【0164】

（付記７）
前記強化学習を実行する処理は、
前記訓練データの確率分布の一部と、前記生成器が出力したデータの確率分布の一部とを、第１パラメータに応じた割合で混合して得られる第１の混合分布と、前記訓練データの確率分布の一部と、前記生成器が出力した確率分布の一部とを、第２パラメータに応じた割合で混合して得られる第２の混合分布との距離を前記報酬関数として利用する、処理を含む、
付記６に記載の方法。

【0165】

（付記８）
前記強化学習を実行する処理は、
判別器が出力した報酬を前記第１パラメータと前記第２パラメータとに基づく順応の数理モデルに入力して得られる順応報酬を、前記生成器に入力する、処理を含む、
付記７に記載の方法。

【0166】

（付記９）
前記強化学習の進捗に応じて、前記第１パラメータ及び前記第２パラメータの一方又は双方を変化させる、
処理を前記コンピュータが実行する、付記７又は付記８に記載の方法。

【0167】

（付記１０）
所定の指標に基づき、前記強化学習の段階ごとに前記第１パラメータ及び前記第２パラメータの一方又は双方を決定する、
処理を前記コンピュータが実行する、付記７又は付記８に記載の方法。

【0168】

（付記１１）
訓練データの確率分布の一部と、生成器が出力したデータの確率分布の一部とを混合して得られるそれぞれの確率分布間の距離を報酬関数として、機械学習モデルの強化学習を実行する、
制御部を備える、情報処理装置。

【0169】

（付記１２）
前記制御部は、前記強化学習を実行する処理において、
前記訓練データの確率分布の一部と、前記生成器が出力したデータの確率分布の一部とを、第１パラメータに応じた割合で混合して得られる第１の混合分布と、前記訓練データの確率分布の一部と、前記生成器が出力した確率分布の一部とを、第２パラメータに応じた割合で混合して得られる第２の混合分布との距離を前記報酬関数として利用する、
付記１１に記載の情報処理装置。

【0170】

（付記１３）
前記制御部は、前記強化学習を実行する処理において、
判別器が出力した報酬を前記第１パラメータと前記第２パラメータとに基づく順応の数理モデルに入力して得られる順応報酬を、前記生成器に入力する、
付記１２に記載の情報処理装置。

【0171】

（付記１４）
前記制御部は、前記強化学習の進捗に応じて、前記第１パラメータ及び前記第２パラメータの一方又は双方を変化させる、
付記１２又は付記１３に記載の情報処理装置。

【0172】

（付記１５）
前記制御部は、所定の指標に基づき、前記強化学習の段階ごとに前記第１パラメータ及び前記第２パラメータの一方又は双方を決定する、
付記１２又は付記１３に記載の情報処理装置。

【符号の説明】

【0173】