(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-18
(45)【発行日】2024-03-27
(54)【発明の名称】学習装置、学習方法および学習プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240319BHJP
G06F 18/241 20230101ALI20240319BHJP
G06F 18/27 20230101ALI20240319BHJP
【FI】
G06N20/00
G06N20/00 130
G06F18/241
G06F18/27
(21)【出願番号】P 2022545247
(86)(22)【出願日】2020-08-31
(86)【国際出願番号】 JP2020032849
(87)【国際公開番号】W WO2022044315
(87)【国際公開日】2022-03-03
【審査請求日】2023-02-15
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】江藤 力
【審査官】多賀 実
(56)【参考文献】
【文献】韓国登録特許第10-2132375(KR,B1)
【文献】国際公開第2020/158609(WO,A1)
【文献】今井 拓司,「専門家の意図が分かる模倣学習を逆強化学習でNECが単発の意思決定問題から実用へ」,NIKKEI Robotics,日経BP,2019年09月10日,第51号,pp.22-26,ISSN 2189-5783
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/00-18/40
(57)【特許請求の範囲】
【請求項1】
判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、
前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、
最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えた
ことを特徴とする学習装置。
【請求項2】
入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
請求項1記載の学習装置。
【請求項3】
入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける
請求項1または請求項2記載の学習装置。
【請求項4】
最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する
請求項1から請求項3のうちのいずれか1項に記載の学習装置。
【請求項5】
推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する
請求項1から請求項4のうちのいずれか1項に記載の学習装置。
【請求項6】
コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、
前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、
前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する
ことを特徴とする学習方法。
【請求項7】
コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
請求項6記載の学習方法。
【請求項8】
コンピュータに、
判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、
前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、
最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理
を実行させるための学習プログラ
ム。
【請求項9】
コンピュータに、
入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせ
る
請求項8記載の
学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。
【背景技術】
【0002】
機械学習の分野において、逆強化学習の技術が知られている。逆強化学習では、熟練者の意思決定履歴データを利用して、目的関数における特徴量ごとの重み(パラメータ)を学習する。
【0003】
非特許文献1には、逆強化学習の一つである最大エントロピー逆強化学習について記載されている。非特許文献1に記載された方法では、熟練者のデータD={τ1,τ2,…τN}(ただし、τi=((s1,a1),(s2,a2),…,(sN,aN)))からただ1つの報酬関数R(s,a)=θ・f(s,a)を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。
【先行技術文献】
【非特許文献】
【0004】
【文献】B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, “Maximum entropy inverse reinforcement learning”, In AAAI, AAAI’08, 2008.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載されたような逆強化学習を含む機械学習で用いられるアルゴリズムでは、例えば、尤度最大化や誤差関数最小化など、一般に、学習時の目的関数を最大化または最小化する計算が行われる。しかし、学習時の目的関数が、必ずしも、意図する行為を十分に表しきれていない場合も存在する。
【0006】
例えば、正常と異常などの二値判別を行う状況を想定する。一般的な方法で収集されたデータに基づいて判別方法を学習する状況において、正常のデータを正常と判別する場合と、異常のデータを異常と判別する場合とは、通常、平等に扱われる。一方、熟練者などの観点から、判別結果を意図的にいずれかの結果に偏重させたい状況も考えられる。しかし、判別結果に対してどの程度の偏重を持たせるかを考慮して目的関数を設計することは困難である。
【0007】
そこで、本発明は、判別結果を偏重させる度合いを学習できる学習装置、学習方法および学習プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明による学習装置は、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段とを備えたことを特徴とする。
【0009】
本発明による学習方法は、コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、コンピュータが、拡張目的関数のロジスティック回帰の重みを最適化し、コンピュータが、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定することを特徴とする。
【0010】
本発明による学習プログラムは、コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定処理を実行させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、判別結果を偏重させる度合いを学習できる。
【図面の簡単な説明】
【0012】
【
図1】本発明による学習装置の一実施形態の構成例を示すブロック図である。
【
図2】学習装置の動作例を示すフローチャートである。
【
図3】本発明による学習装置の概要を示すブロック図である。
【
図4】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0013】
はじめに、本発明で想定する状況を説明する。通常、判別を行うモデルを構築する場合、学習データに基づいて定量的にモデルが構築される。例えば、二値判別を行うモデルを学習する際に用いられる目的関数として、交差エントロピー誤差関数が知られている。交差エントロピー誤差関数は、例えば、以下に例示する式1で表わされる。
【0014】
【0015】
式1において、aiは、判別を行う予測モデル(予測モデルの出力)であり、yiは、異常または正常などの二値判別結果を示す正解データである。上記式1に示す例では、右辺のΣ内の第一項が、異常を異常と判定すると上昇するスコアを示す項であり、右辺のΣ内の第二項が、正常を正常と判定すると上昇するスコアを示す項である。式1に示すように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」とを平等に扱う。
【0016】
一方、このような判別に際し、どちらか一方の判別精度を向上させたい状況(すなわち、判別結果を意図的にいずれかの結果に偏重させたい状況)が考えられる。例えば、「異常」と「正常」の二値を判別する場合、どちらかの結果を他方の結果より優遇したい場合がある。
【0017】
例えば、感染症の診断を行うような場合、熟練者であれば、正常のデータを正常と判定する精度よりも、異常のデータを異常と判定する精度を向上させたいと考えることが通常である。しかし、上述するように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」を平等に扱ってしまうため、判別結果を意図的にいずれかの結果に偏重させることは難しい。
【0018】
例えば、異常を異常と判定するスコアの算出精度を向上させるため、正常のデータを除外することで異常と正常の学習データの数を偏重させ、異常を示す学習データを多くすることも考えられる。しかし、学習データを偏重させることも意図的であり、例えば、どの正常データを学習データから除外して学習すべきか判断することは困難である。そのため、サンプル数に基づいて二値判別の結果を偏重させることも困難である。
【0019】
そこで、本実施形態では、最適化に用いる目的関数に、各判別結果のスコアの偏重度合いを示すパラメータ(以下、偏重パラメータと記す。)を導入する。この偏重パラメータは、判別結果のスコアそのものの重みを示す既存のハイパーパラメータとは異なり、判別結果を重視する度合いを示すパラメータである。
【0020】
また、いわゆる熟練者の観点での判別結果の重視度合いを推定するため、本実施形態では、逆強化学習により、導入した偏重パラメータを推定する。
【0021】
以下、本発明の実施形態を図面を参照して説明する。
【0022】
図1は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、対象者の行動から報酬(関数)を推定する逆強化学習を行う装置である。学習装置100は、記憶部10と、入力部20と、学習部30と、出力部40とを備えている。
【0023】
記憶部10は、学習装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する学習部30が学習に用いる熟練者の意思決定履歴データ(トラジェクトリと言うこともある。)や、学習に用いる目的関数、予測モデルを記憶していてもよい。目的関数および予測モデルの態様は予め定められる。
【0024】
本実施形態では、二値判別分析の目的関数である交差エントロピー誤差関数をベースとし、偏重パラメータを各判別結果の項に対して乗じた目的関数を例示する。具体的には、偏重パラメータをλ1およびλ2とした場合、偏重パラメータを導入した目的関数(以下、拡張目的関数と記すこともある。)は、以下に例示する式2で表わされる。以下に例示する式2は、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する第一の項と、第二の判別結果に基づくスコアを算出する第二の項のそれぞれに、偏重パラメータλ1およびλ2を乗じた拡張目的関数を示す。
【0025】
【0026】
また、本実施形態では、予測モデルとして、ロジスティック回帰を例示する。ロジスティック回帰は、以下に例示する式3で表わされる。式3において、xiは、特徴量ベクトルであり、wは各特徴量に対する重みである。
【0027】
【0028】
例えば、二値判別問題の一例として、有望な顧客判定が挙げられる。これは、顧客データを入力として、特定の製品を購入するか否か判定する問題である。この場合、購入の可能性が少しでもある顧客については、より注視して判定することが好ましいと言える。この場合、逆強化学習に用いる意思決定履歴データには、例えば、住所や性別、過去に特定の製品を購入したか否か、年収、家族の有無、既婚の有無、特定のコマーシャルの視聴有無、インターネット環境の有無、などの特徴量を含むデータが用いられる。
【0029】
ただし、偏重パラメータを導入した目的関数(すなわち、拡張目的関数)の態様は、上記式2に例示するような、交差エントロピー誤差関数をベースとした関数に限定されず、また、予測モデルの態様も、上記式3に例示するロジスティック回帰に限定されない。すなわち、予測モデルによる各予測結果(分類結果)との誤差に応じて算出されるスコアそれぞれ対して重み付けを行う偏重パラメータが含まれる目的関数であれば、その関数の態様は任意である。具体的には、拡張目的関数として、判別分析の目的関数(ここでは、交差エントロピー誤差関数)における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータ(偏重パラメータ)を乗じた拡張目的関数が用いられる。
【0030】
また、記憶部10は、後述する学習部30を実現するための数理最適化ソルバを記憶していてもよい。なお、数理最適化ソルバの内容は任意であり、実行する環境や装置に応じて決定されればよい。記憶部10は、例えば、磁気ディスク等により実現される。
【0031】
入力部20は、学習装置100が各種処理を行うために必要な情報の入力を受け付ける。入力部20は、例えば、上述する意思決定履歴データの入力を受け付けてもよい。また、入力部20は、後述する学習部30が学習に用いる目的関数の入力を受け付ける。なお、目的関数の内容は後述される。入力部20は、記憶部10に記憶されている目的関数を読み取ることにより、目的関数の入力を受け付けてもよい。
【0032】
学習部30は、入力された意思決定履歴データに基づいて逆強化学習を行うことにより、目的関数(報酬関数)を推定する。具体的には、本実施形態の学習部30は、逆強化学習の順問題として、目的関数を拡張目的関数とするロジスティック回帰問題を設定し、その逆問題として、偏重パラメータを推定する。
【0033】
まず、学習部30は、入力部20が拡張目的関数を受け付けると、偏重パラメータに値を設定した目的関数を生成する。初期状態では、学習部30は、任意の値の偏重パラメータλi(例えば、λi=1)を目的関数に設定すればよい。ここでは、学習部30は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数を用いるものとする。
【0034】
次に、学習部30は、偏重パラメータを固定して予測モデルを学習する。具体的には、学習部30は、偏重パラメータλを固定し、設定されたロジスティック回帰問題について最適化する。学習部30は、例えば、以下に例示する式4を用いた(具体的には、ロジスティック回帰の重みの偏微分を用いた勾配降下法により、ロジスティック回帰の重みwを更新してもよい。
【0035】
【0036】
そして、学習部30は、生成された予測モデルに基づいて意思決定内容を推定する。具体的には、学習部30は、入力された意思決定履歴データを最適化されたロジスティック回帰に適用して、熟練者の意思決定内容を推定する。
【0037】
その後、学習部30は、意思決定履歴データに、推定した意思決定内容を近づけるように偏重パラメータを推定して、拡張目的関数を更新する。なお、意思決定履歴データに意思決定内容を近づける方法は、一般的な逆強化学習で用いる方法と同様であるため、詳細な説明は省略する。
【0038】
以降、学習部30は、予測モデルの学習および偏重パラメータの更新処理を、予め定めた条件を満たすまで繰り返すことで、最終的な目的関数(拡張目的関数)を生成する。
【0039】
出力部40は、生成された目的関数に関する情報を出力する。出力部40は、生成された目的関数そのものを出力してもよく、予測結果に応じて設定された偏重パラメータを出力してもよい。
【0040】
入力部20と、学習部30と、出力部40とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
【0041】
例えば、プログラムは、学習装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、学習部30および出力部40として動作してもよい。また、学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
【0042】
また、入力部20と、学習部30と、出力部40とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
【0043】
また、学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
【0044】
次に、本実施形態の学習装置100の動作を説明する。
図2は、本実施形態の学習装置100の動作例を示すフローチャートである。
【0045】
まず、入力部20は、拡張目的関数の入力を受け付ける(ステップS11)。次に、学習部30は、拡張目的関数のロジスティック回帰の重みを最適化し(ステップS12)、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する(ステップS13)。予め定めた条件が満たされない場合(ステップS14におけるYes)、ステップS12からステップS13の処理が繰り返される。一方、予め定めた条件を満たす場合、出力部40は、最終的な拡張目的関数に関する情報を出力する(ステップS15)。
【0046】
以上のように、本実施形態では、入力部20が拡張目的関数の入力を受け付け、学習部30が、拡張目的関数のロジスティック回帰の重みを最適化し、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する。よって、判別結果を偏重させる度合いを学習できる。
【0047】
次に、本発明の概要を説明する。
図3は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80(例えば、学習装置100)は、判別分析(例えば、二値判別分析)の目的関数(例えば、交差エントロピー誤差関数)における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータ(例えば、λ
1,λ
2)を乗じた拡張目的関数(例えば、上記式2に示す目的関数)の入力を受け付ける入力手段81(例えば、入力部20)と、拡張目的関数のロジスティック回帰(例えば、上記式3)の重み(例えば、上記式3におけるw
T)を最適化する最適化手段82(例えば、学習部30)と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段83(例えば、学習部30)とを備えている。
【0048】
そのような構成により、判別結果を偏重させる度合いを学習できる。
【0049】
また、入力手段81は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項(例えば、式2における第一の項)と、第二の判別結果に基づくスコアを算出する項(例えば、式2における第二の項)のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けてもよい。
【0050】
具体的には、入力手段81は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数(例えば、上記に示す式3)の入力を受け付けてもよい。
【0051】
また、最適化手段82は、拡張目的関数のロジスティック回帰の重みを、そのロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して(例えば、上記に示す式4を用いて)最適化してもよい。
【0052】
また、推定手段83は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を意思決定履歴データに近づけるように偏重パラメータを推定してもよい。
【0053】
図4は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
【0054】
上述の学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
【0055】
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
【0056】
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0057】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0058】
(付記1)判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えたことを特徴とする学習装置。
【0059】
(付記2)入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記1記載の学習装置。
【0060】
(付記3)入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記1または付記2記載の学習装置。
【0061】
(付記4)最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する付記1から付記3のうちのいずれか1つに記載の学習装置。
【0062】
(付記5)推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する付記1から付記4のうちのいずれか1つに記載の学習装置。
【0063】
(付記6)コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定することを特徴とする学習方法。
【0064】
(付記7)コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記6記載の学習方法。
【0065】
(付記8)コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラムを記憶するプログラム記憶媒体。
【0066】
(付記9)コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる学習プログラムを記憶する付記8記載のプログラム記憶媒体。
【0067】
(付記10)コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラム。
【0068】
(付記11)コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる付記10記載の学習プログラム。
【0069】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0070】
10 記憶部
20 入力部
30 学習部
40 出力部
100 学習装置