(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-06
(45)【発行日】2022-05-16
(54)【発明の名称】データ基盤強化学習装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20220509BHJP
【FI】
G06N20/00
(21)【出願番号】P 2020560364
(86)(22)【出願日】2020-02-28
(86)【国際出願番号】 KR2020002927
(87)【国際公開番号】W WO2021015386
(87)【国際公開日】2021-01-28
【審査請求日】2020-10-27
(31)【優先権主張番号】10-2019-0088942
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】520408272
【氏名又は名称】アジャイルソーダ インコーポレイテッド
(74)【代理人】
【識別番号】100079049
【氏名又は名称】中島 淳
(74)【代理人】
【識別番号】100084995
【氏名又は名称】加藤 和詳
(72)【発明者】
【氏名】チャ、ヨン
(72)【発明者】
【氏名】ロ、チョル-キョン
(72)【発明者】
【氏名】イ、クォン-ユル
【審査官】中村 信也
(56)【参考文献】
【文献】国際公開第2018/083671(WO,A1)
【文献】特開2013-225192(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-3/12
G06N 7/08-99/00
G06N 5/00-7/06
(57)【特許請求の範囲】
【請求項1】
強化学習メトリック(Metric)(520,520a,520b)が全体平均よりも高いケース1(400,400,400)と、強化学習メトリック(520,520a,520b)が全体平均に比して変動がないケース2(400a,400a,400a)と、強化学習メトリック(520,520a,520b)が全体平均よりも低いケース3(400b,400b,400b)とに区分され、各ケースにおいて現在限度維持(stay)、現在限度対比一定値増額(up)、現在限度対比一定値減額(down)された個別データ別に強化学習メトリック(520,520a,520b)が最大化するようにアクションを決定するエージェント(100);及び
前記エージェント(100)から決定された個別データのアクションに対して算出される強化学習メトリック(520,520a,520b)の個別変動率と強化学習メトリック(520,520a,520b)の全体変動率との差値を算出し、算出された強化学習メトリック(520,520a,520b)の個別変動率と強化学習メトリック(520,520a,520b)の全体変動率との差値を、前記エージェント(100)の各アクションに対する補償(Reward)として提供する補償制御部300;を含み、
前記算出された差値は、‘0’~‘1’の範囲の値に標準化した値に変換され、補償として提供されることを特徴とするデータ基盤強化学習装置。
【請求項2】
前記強化学習メトリック(520)は、収益率であることを特徴とする、請求項1に記載のデータ基盤強化学習装置。
【請求項3】
前記強化学習メトリック(520a)は、限度消尽率であることを特徴とする、請求項2に記載のデータ基盤強化学習装置。
【請求項4】
前記強化学習メトリック(520b)は、損失率であることを特徴とする、請求項3に記載のデータ基盤強化学習装置。
【請求項5】
前記強化学習メトリック(520,520a,520b)は、個別強化学習メトリックに対して一定大きさのウェイト値又は個別のウェイト値が設定されることを特徴とする、請求項4に記載のデータ基盤強化学習装置。
【請求項6】
前記強化学習メトリック(520,520a,520b)は、設定された個別強化学習メトリックのウェイト値に標準化した変動値を算出して最終補償を決定し、
前記最終補償は、下記の式
(ウェイト1*標準化した収益率の変動値)+(ウェイト2*標準化した限度消尽率の変動値)-(ウェイト3*標準化した損失率の変動値)から決定されることを特徴とする、請求項5に記載のデータ基盤強化学習装置。
【請求項7】
a)
データ基盤強化学習装置のエージェント(100)が、強化学習メトリック(520,520a,520b)が全体平均よりも高いケース1(400,400,400)と、強化学習メトリック(520,520a,520b)が全体平均に比して変動がないケース2(400a,400a,400a)と、強化学習メトリック(520,520a,520b)が全体平均よりも低いケース3(400b,400b,400b)とに区分され、各ケースにおいて、現在限度維持(stay)、現在限度対比一定値増額(up)、現在限度対比一定値減額(down)された個別データ別に強化学習メトリック(520,520a,520b)が最大化するようにアクションを決定する段階;
b)補償制御部300が、エージェント(100)から決定された個別データのアクションに対して算出される強化学習メトリック(520,520a,520b)の個別変動率と収益率の全体変動率との差値を算出する段階;及び
c)前記補償制御部300が、算出された強化学習メトリック(520,520a,520b)の個別変動率と強化学習メトリック(520,520a,520b)の全体変動率との差値を、前記エージェント(100)の各アクションに対する補償として提供する段階;を含み、
前記算出された差値は、‘0’~‘1’の範囲の値に標準化した値に変換され、補償として提供されることを特徴とするデータ基盤強化学習方法。
【請求項8】
前記強化学習メトリック(520)は、収益率であることを特徴とする、請求項7に記載のデータ基盤強化学習方法。
【請求項9】
前記強化学習メトリック(520a)は、限度消尽率であることを特徴とする、請求項8に記載のデータ基盤強化学習方法。
【請求項10】
前記強化学習メトリック(520b)は、損失率であることを特徴とする、請求項9に記載のデータ基盤強化学習方法。
【請求項11】
前記強化学習メトリック(520,520a,520b)は、個別強化学習メトリックに対して一定大きさのウェイト値又は個別のウェイト値が設定されることを特徴とする、請求項10に記載のデータ基盤強化学習方法。
【請求項12】
前記強化学習メトリック(520,520a,520b)は、設定された個別強化学習メトリックのウェイト値に標準化した変動値を算出して最終補償を決定し、
前記最終補償は、下記の式
(ウェイト1*標準化した収益率の変動値)+(ウェイト2*標準化した限度消尽率の変動値)-(ウェイト3*標準化した損失率の変動値)から決定されることを特徴とする、請求項11に記載のデータ基盤強化学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ基盤強化学習装置及び方法に関し、より詳細には、モデルの学習時に反映されるデータを、実ビジネスにおけるデータに基づいて個別件の行動による変動によって全体の変動差を補償と定義して提供するデータ基盤強化学習装置及び方法に関する。
【背景技術】
【0002】
強化学習は、環境(environment)と相互作用しながら目標を達成するエージェントを扱う学習方法であり、ロボットや人工知能分野において多く用いられている。
【0003】
このような強化学習は、学習の行動主体である強化学習エージェント(Agent)がどのような行動をすればより多い補償(Reward)を受けるかを知ることを目的とする。
【0004】
すなわち、定められた答がない状態においても、補償を最大化させるために何をするかを習うことであり、入力と出力が明確な関係を持っている状況で事前にどのような行為をするかを聞いて行うのではなく、試行錯誤をたどりながら補償を最大化させることを習う過程を経る。
【0005】
また、エージェントは、時間ステップが経つにつれて順次にアクションを選択し、前記アクションが環境に及ぼした影響に基づいて補償(reward)を受ける。
【0006】
図1は、従来技術による強化学習装置の構成を示すブロック図であり、
図1に示すように、エージェント10が強化学習モデルの学習を通じてアクション(Action)(又は、行動)Aを決定する方法を学習させ、各アクションであるAはその次の状態(state)Sに影響を及ぼし、成功した程度は補償(Reward)Rから測定できる。
【0007】
すなわち、補償は、強化学習モデルを通じて学習を進行する場合、ある状態(State)によってエージェント10が決定するアクション(行動)に対する補償点数であり、学習によるエージェント10の意思決定に対する一種のフィードバックである。
【0008】
また、補償をどのように策定するかによって学習結果に多い影響が発生するので、強化学習を通じてエージェント10は未来の補償が最大となるようにアクションを取る。
【0009】
しかし、従来技術による強化学習装置は、与えられた環境で目標達成と関連付けて画一的に決定される補償に基づいて学習を進行しているため、目標を達成するために一つの行動パターンしか持つことができないという問題点があった。
【0010】
また、従来技術による強化学習装置は、強化学習において多く適用するゲームのように環境が明確な場合には、補償がゲームスコアとして確定されているが、実際の事業(ビジネス)環境はそうでないため、強化学習のために補償を別に設定しなければならないという問題点がある。
【0011】
また、従来技術による強化学習装置は、アクションに対する補償点数を、例えば、当てると+1点、失敗すると-2点のように画一的に決定される補償点数を付与しているため、使用者にとっては学習結果を見ながら適正な補償値を指定する過程が要求され、毎度、事業目的に符合する補償設定を反復しながら実験しなければならないという不具合があった。
【0012】
また、従来技術による強化学習装置は、最適のモデルを開発するために任意に補償点数を付与し、学習結果を見ながら再調整する数多くの施行錯誤過程が発生し、場合によっては、施行錯誤による膨大な時間とコンピューティングリソースが消費される問題点があった。
【発明の概要】
【発明が解決しようとする課題】
【0013】
このような問題点を解決するために、本発明は、モデルの学習時に反映されるデータを、実ビジネスにおけるデータに基づいて個別件の行動による変動によって全体の変動差を補償と定義して提供するデータ基盤強化学習装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
上記の目的を達成するために、本発明の一実施例は、データ基盤強化学習装置でであって、強化学習メトリック(Metric)が全体平均よりも高いケース1と、強化学習メトリックが全体平均に比して変動がないケース2と、強化学習メトリックが全体平均よりも低いケース3とに区分され、各ケースにおいて、現在限度維持(stay)、現在限度対比一定値増額(up)、現在限度対比一定値減額(down)された個別データ別に強化学習メトリックが最大化するようにアクションを決定するエージェント;及び前記エージェントから決定された個別データのアクションに対して算出される強化学習メトリックの個別変動率と強化学習メトリックの全体変動率との差値を算出し、算出された強化学習メトリックの個別変動率と強化学習メトリックの全体変動率との差値を、前記エージェントの各アクションに対する補償(Reward)として提供する補償制御部;を含み、前記算出された差値は、‘0’~‘1’の範囲の値に標準化した値に変換されて補償として提供されることを特徴とする。
【0015】
また、前記実施例による強化学習メトリックは、収益率であることを特徴とする。
【0016】
また、前記実施例による強化学習メトリックは、限度消尽率であることを特徴とする。
【0017】
また、前記実施例による強化学習メトリックは、損失率であることを特徴とする。
【0018】
また、前記実施例による強化学習メトリックは、個別強化学習メトリックに対して一定大きさのウェイト値又は個別のウェイト値が設定されることを特徴とする。
【0019】
また、前記実施例による強化学習メトリックは、設定された個別強化学習メトリックのウェイト値に標準化した変動値を算出して最終補償を決定し、
【0020】
該最終補償は、下記の式
【0021】
(ウェイト1*標準化した収益率の変動値)+(ウェイト2*標準化した限度消尽率の変動値)-(ウェイト3*標準化した損失率の変動値)から決定されることを特徴とする。
【0022】
また、本発明の一実施例によるデータ基盤強化学習方法は、a)エージェントが、強化学習メトリックが全体平均よりも高いケース1と、強化学習メトリックが全体平均に比して変動がないケース2と、強化学習メトリックが全体平均よりも低いケース3とに区分され、各ケースにおいて、現在限度維持(stay)、現在限度対比一定値増額(up)、現在限度対比一定値減額(down)された個別データ別に強化学習メトリックが最大化するようにアクションを決定する段階;b)補償制御部が、エージェントから決定された個別データのアクションに対して算出される強化学習メトリックの個別変動率と収益率の全体変動率との差値を算出する段階;及びc)前記補償制御部が、算出された強化学習メトリックの個別変動率と強化学習メトリックの全体変動率との差値を、前記エージェントの各アクションに対する補償として提供する段階;を含み、前記算出された差値は、‘0’~’1’の範囲の値に標準化した値に変換され、補償として提供されることを特徴とする。
【0023】
また、前記実施例による強化学習メトリックは、収益率であることを特徴とする。
【0024】
また、前記実施例による強化学習メトリックは、限度消尽率であることを特徴とする。
【0025】
また、前記実施例による強化学習メトリックは、損失率であることを特徴とする。
【0026】
また、前記実施例による強化学習メトリックは、個別強化学習メトリックに対して一定大きさのウェイト値又は個別のウェイト値が設定されることを特徴とする。
【0027】
前記強化学習メトリックは、設定された個別強化学習メトリックのウェイト値に標準化した変動値を算出して最終補償を決定し、該最終補償は、下記の式
【0028】
(ウェイト1*標準化した収益率の変動値)+(ウェイト2*標準化した限度消尽率の変動値)-(ウェイト3*標準化した損失率の変動値)から決定されることを特徴とする。
【発明の効果】
【0029】
本発明は、モデルの学習時に反映されるデータを、実ビジネスにおけるデータに基づいて個別件のアクションによる変動によって全体の変動差を補償(Reward)と定義して提供することによって、補償点数を任意に付与せず、学習結果を見て使用者が手動で再調整する作業過程を省略し、毎度、事業目的に符合する補償設定を反復しながら実験しなければならない不具合を改善できる長所がある。
【0030】
また、本発明は、定義された強化学習の目標(メトリック)に対して、アクション別の個別変動による全体変動との差を補償と定義し、目標と成果を一致させることによって、強化学習を用いたモデルの開発期間を短縮できる長所がある。
【0031】
また、本発明は、最適のモデルを開発するために、任意に補償点数を付与する補償点数の設定に要求される時間と施行錯誤過程を画期的に短縮させることによって、強化学習及び補償点数の再調整に要求される時間とコンピューティングリソースを節約できる長所がある。
【0032】
また、本発明は、強化学習の目標を設定し、定義されたアクションによって目標の変動分に対する差を補償と定義することによって、強化学習の目標と補償が関連付けられ、補償点数に対する直観的な理解が可能になる長所がある。
【0033】
また、本発明は、補償がビジネスのインパクト尺度として理解され、強化学習の作用前と後の効果を定量的に比較及び判断できる長所がある。
【0034】
また、本発明は、目標(metric)に対してそれに相応する補償を定義し、強化学習の行動に対するフィードバックが自然に連結され得る長所がある。
【0035】
また、本発明は、銀行、カード会社又は保険会社などの金融機関において強化学習の目標が収益率の向上である場合、定義されたアクションによって収益率の変動分に対する差を補償として自動設定したり、強化学習の目標が限度消尽率の向上である場合、定義されたアクションによって限度消尽率の変動分に対する差を補償として自動設定したり、又は強化学習の目標が損失率の減少である場合、定義されたアクションによって損失率の変動分に対する差を補償として自動設定することによって、与信による収益性を極大化できる長所がある。
【0036】
また、本発明は、特定メトリックごとに設定されるウェイト(又は、加重値)を個別に設定し、使用者の重要度によって差別化した補償を提供できる長所がある。
【図面の簡単な説明】
【0037】
【
図1】従来技術による強化学習装置の構成を示すブロック図である。
【
図2】本発明の一実施例によるデータ基盤強化学習装置の構成を示すブロック図である。
【
図3】本発明の一実施例によるデータ基盤強化学習方法を説明するためのフローチャートである。
【
図4】
図3の実施例によるデータ基盤強化学習方法を説明するための例示図である。
【
図5】
図3の実施例によるデータ基盤強化学習方法を説明するための他の例示図である。
【
図6】
図3の実施例によるデータ基盤強化学習方法を説明するためのさらに他の例示図である。
【
図7】
図3の実施例によるデータ基盤強化学習方法を説明するためのさらに他の例示図である。
【発明を実施するための形態】
【0038】
以下、添付の図面を参照して本発明の一実施例によるデータ基盤強化学習装置及び方法の好ましい実施例を詳細に説明する。
【0039】
本明細書において、ある部分がある構成要素を“含む”とした表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいという意味である。
【0040】
また、“‥部”、“‥機”、“‥モジュール”などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれらの結合に区分できる。
【0041】
図2は、本発明の一実施例によるデータ基盤強化学習装置の構成を示すブロック図である。
【0042】
図2に示すように、本発明の実施例によるデータ基盤強化学習装置は、任意の環境(Environment)200において現在の状態(state)によって選択可能なアクション(Action)に対する補償(Reward)が最大化となるようにエージェント(Agent)100が強化学習モデルを学習し、各アクションに対して全体変動率対比個別アクションによって変動する全体変動率との差をエージェント100の補償として提供できるように補償制御部300を含んで構成される。
【0043】
エージェント100は、与えられた特定環境200において現在の状態によって選択可能なアクションに対する補償が最大化するように強化学習モデルを学習する。
【0044】
強化学習は、特定目標(Metric)を設定すると、設定された目標を達成するための学習の方向が設定される。
【0045】
例えば、目標として収益率を極大化させるためのエージェントを生成しようとすれば、強化学習は、学習によって様々な状態(State)、アクション(Action)による補償(Reward)を考慮して収益率を高く達成できる最終エージェントを生成する。
【0046】
すなわち、収益率の最大化(又は、極大化)は、強化学習によってエージェント100が達成しようとする究極的な目標(又は、メトリック(Metric))である。
【0047】
そのために、任意の時点tに、エージェント100は、自身の状態St、及び可能なアクションAtを持っており、ここで、エージェント100は、ある行動を取り、環境200から新しい状態St+1及び補償を受ける。
【0048】
このような相互作用に基づいて、エージェント100は、与えられた環境200において、累積された補償値を最大化する政策(Policy)を学習する。
【0049】
補償制御部300は、エージェント100の学習による各アクションに対して、全体変動率対比個別アクションによって変動する全体変動率との差を、エージェント100に補償として提供する構成である。
【0050】
すなわち、補償制御部300は、各アクションに対して、該当のメトリックに対する全体変動対比個別変動した件に対する差を補償として提供する補償関数であり、エージェント100の学習内で最適の政策(Optimal Policy)を探すための状態によるアクションのフィードバックで補償を算出する補償学習を行う。
【0051】
また、補償制御部300は、変動値に対して、あらかじめ設定された標準化した値に変換して同一単位の個別補償体系を構成できる。
【0052】
また、補償制御部300は、強化学習モデルの学習時に反映されるデータを、実ビジネスから取得したデータに基づいて個別件のアクションによる変動と全体との変動差を補償と定義して提供することによって、補償点数を任意に付与し、学習結果を見て再調整する作業過程を省略することができる。
【0053】
また、補償制御部300で算出される変動値は、強化学習の目標(Metric)と補償が関連付け(又は、アライン)されるようにし、補償点数を直観的な理解できるようにする。
【0054】
次に、本発明の一実施例によるデータ基盤強化学習方法を説明する。
【0055】
図3は、本発明の一実施例によるデータ基盤強化学習方法を説明するためのフローチャートであり、
図4は、
図3の実施例によるデータ基盤強化学習方法を説明するための例示図である。
【0056】
図4は、本発明の実施例を説明するための例示に過ぎず、これに限定されるものではない。
【0057】
図2乃至
図4を参照すると、まず、補償を定義する特定フィーチャー(Feature)を設定(S100)する。
【0058】
図4において、例えば、アクション500に対して変動率510を現在限度維持(stay)、現在限度対比20%増額(up)、現在限度対比20%減額(down)の3つと定義し、全体平均よりも高いケース1 400と、全体平均に比して変動がないケース2 400aと、全体平均よりも低いケース3 400bとに区分した強化学習メトリック520に対するデータである。
【0059】
ここで、強化学習メトリック520は、収益率である。
【0060】
S100段階では、
図4に示すように、区分された各ケースにおいて個別件のアクション変動によるフィーチャーを設定する。
【0061】
本実施例では、説明の便宜のために、補償を定義する特定コラムを、ケース1-upコラムをアクションとして設定したことを挙げて説明する。
【0062】
S100段階を行った後、補償制御部300は、エージェント100を用いた強化学習モデルの学習によって、意思決定可能なアクションによる変動値を抽出(S200)する。
【0063】
S200段階では、例えば、全体平均よりも高いケース1 400においてケース1-upコラムの場合、個別アクションによる全体変動値である‘1.132%’を抽出する。
【0064】
補償制御部300は、ケース1-stayコラムのアクションに対して全体変動値‘1.114%’と対比して、抽出されたアクションによる全体変動値‘1.132%との差値である‘0.018’を算出(S300)する。
【0065】
このとき、算出された値は、標準化によって‘0’~‘1’の範囲の値に標準化させ、同一単位の個別補償体系を構成することができる。
【0066】
S300段階で算出された差値は、補償制御部300がエージェント100に補償600として提供(S400)する。
【0067】
すなわち、個別件のアクションによる変動による全体との変動差を補償と定義して提供することによって、補償点数を任意に付与し、学習結果によって再調整する過程無しに補償点数を提供可能になる。
【0068】
また、補償制御部300から提供される変動差と強化学習メトリック(目標)520が関連付けられ、補償点数に対して直観的に理解可能になり、強化学習の適用前/後の効果を定量的に比較及び判断可能になる。
【0069】
一方、本実施例では、強化学習メトリック520、例えば、収益率に対する補償を最終補償として説明したが、これに限定されず、例えば、限度消尽率、損失率などの複数のメトリックに対して最終補償を算出してもよい。
【0070】
図5は、
図3の実施例によるデータ基盤強化学習方法を説明するための他の例示図である。
【0071】
図5において、例えば、アクション500に対して変動率510を、現在限度維持(stay)、現在限度対比20%増額(up)、現在限度対比20%減額(down)の3つと定義し、全体平均よりも高いケース1 400と、全体平均に比して変動がないケース2 400aと、全体平均よりも低いケース3 400bとに区分した強化学習メトリック520aに対するデータである。
【0072】
図5において、強化学習メトリック520aは、限度消尽率で構成できる。
【0073】
例えば、全体平均よりも高いケース1 400において、ケース1-upコラムの場合、個別アクションによる全体変動値である‘34.072%’を抽出する。
【0074】
補償制御部300は、ケース1-stayコラムのアクションに対して全体変動値である‘33.488%’と対比して抽出されたケース1-upアクションによる変動値‘34.072%’との差値‘0.584’を算出し、補償600aとして提供する。
【0075】
このとき、算出された値は、標準化によって‘0’~‘1’の範囲の値に標準化させ、同一単位の個別補償体系を構成することができる。
【0076】
また、
図6は、
図3の実施例によるデータ基盤強化学習方法を説明するためのさらに他の例示図である。
【0077】
図6において、例えば、アクション500に対して変動率510を、現在限度維持(stay)、現在限度対比20%増額(up)、現在限度対比20%減額(down)の3つと定義し、全体平均よりも高いケース1 400と、全体平均に比して変動がないケース2 400aと、全体平均よりも低いケース3 400bとに区分した強化学習メトリック520bに対するデータである。
【0078】
図6において、強化学習メトリック520bは、損失率で構成できる。
【0079】
例えば、全体平均よりも高いケース1 400において、ケース1-upコラムの場合、個別アクションによる全体変動値である‘6.831%’を抽出する。
【0080】
補償制御部300は、ケース1-stayコラムのアクションに対して全体変動値である‘6.903%’と対比して抽出されたケース1-upアクションによる変動値‘6.831%との差値‘0.072’を算出し、補償600bとして提供する。
【0081】
このとき、算出された値は、標準化によって‘0’~‘1’の範囲の値に標準化させ、同一単位の個別補償体系を構成することができる。
【0082】
また、
図7は、
図3の実施例によるデータ基盤強化学習方法を説明するためのさらに他の例示図である。
【0083】
図7に示すように、アクション500に対して変動率510を、現在限度維持(stay)、現在限度対比20%増額(up)、現在限度対比20%減額(down)の3つと定義し、全体平均よりも高いケース1 400と、全体平均に比して変動がないケース2 400aと、全体平均よりも低いケース3 400bとに区分した収益率、限度消尽率、損失率に対する強化学習メトリック520,520a,520bに対するデータである。
【0084】
また、それぞれの収益率、限度消尽率、損失率に対して一定のウェイト値又は互いに異なるウェイト値を付与し、与えられたそれぞれのウェイト値に、標準化した収益率の変動値、標準化した限度消尽率の変動値、標準化した損失率の変動値を反映して最終補償を算出してもよい。
【0085】
最終補償は、次の数式で算出できる。
【0086】
最終補償=(ウェイト1*標準化した収益率の変動値)+(ウェイト2*標準化した限度消尽率の変動値)-(ウェイト3*標準化した損失率の変動値)などのように、あらかじめ設定された数式を用いて様々な方式で算出できる。
【0087】
したがって、強化学習モデルの学習時に反映されるデータを、実ビジネスにおけるデータに基づいて個別件の行動による変動によって全体の変動差を補償と定義して提供することによって、補償点数を任意の点数として付与せず、学習結果を見て使用者が手動で再調整する作業過程を省略することができる。
【0088】
また、定義された強化学習の目標(メトリック)に対して個別行動(アクション)の変動による全体変動との差を補償と定義することによって、補償の調整(又は再調整)無しに強化学習を行うことができる。
【0089】
また、強化学習の目標を設定し、定義されたアクションによって目標の変動分に対する差を補償と定義することによって、強化学習の目標と補償が関連付けられ、補償点数に対する直観的な理解が可能になる。
【0090】
以上、本発明の好ましい実施例を参照して説明したが、当該技術の分野における熟練した当業者であれば、添付する特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更可能であることが理解できよう。
【0091】
また、本発明の特許請求の範囲に記載されている図面番号は、説明の明瞭性と便宜のために記載しただけで、これに限定されるものではなく、実施例を説明する過程で図面に示す線の太さや構成要素の大きさなどは、説明の明瞭性と便宜のために誇張して示されていてもよく、上述した用語は本発明における機能を考慮して定義された用語であり、これは使用者、運用者の意図又は慣例によって変わり得るので、このような用語に対する解釈は本明細書全般における内容に基づいて下されるべきであろう。