(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022074019
(43)【公開日】2022-05-17
(54)【発明の名称】階層構造を有する意思決定エージェント
(51)【国際特許分類】
G06N 20/00 20190101AFI20220510BHJP
【FI】
G06N20/00
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021170044
(22)【出願日】2021-10-18
(31)【優先権主張番号】10-2020-0143282
(32)【優先日】2020-10-30
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】520408272
【氏名又は名称】アジャイルソーダ インコーポレイテッド
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】レ ファム トゥエン
(72)【発明者】
【氏名】盧哲均
(72)【発明者】
【氏名】李聖靈
(72)【発明者】
【氏名】閔豫麟
(57)【要約】 (修正有)
【課題】強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習する階層構造を有する意思決定エージェントを提供する。
【解決手段】エージェント100は、ビジネスドメインに合う強化学習の環境要素を定義する第1階層部110と、強化学習の学習速度及び性能向上のためのオートチューニングアルゴリズムを設定する第2階層部120と、強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部130と、ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第4階層部140と、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ビジネスドメインに合う強化学習の環境要素を定義する第1階層部(110)と、
前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)アルゴリズムを設定する第2階層部(120)と、
前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部(130)と、
前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第4階層部(140)と、を含み、
前記第2階層部(120)は、
ステート部(111)が入力データセットで定義されたステートの形態を分析して重要ステートを選別し、整形データ、イメージデータ、及びテキストデータに対して自動で任意の前処理を行うオートフィーチャリング部(121)と、
前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを検索して、自動でニューラルネットワークアーキテクチャーを設計するオートデザイン部(122)と、
前記強化学習における性能の向上のために、ハイパーパラメータを検索し、検索結果に基づき最適のハイパーパラメータの組合せを提供して、要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部(123)と、
前記強化学習に要求されるリワードが予め設定された補償パターンにより自動で設定されるように、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、選択されたリワードタイプにより自動でリワードを計算するオートリワーディング部(124)と、
を含むことを特徴とする階層構造を有する意思決定エージェント。
【請求項2】
前記第1階層部(110)は、ステート(State)、アクション(Action)、リワード(Reward)、エージェント(Agent)、及びステート遷移(State-Transition)を環境要素として定義することを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。
【請求項3】
前記第1階層部(110)は、
データからD-次元ベクトルを抽出して特徴空間(Feature space)を設計するステートエンコーダ(111a)と、
前記特徴空間からD-次元空間にデータを変形するステートデコーダ(111b)と、 を含むことを特徴とする、請求項2に記載の階層構造を有する意思決定エージェント。
【請求項4】
前記第1階層部(110)は、
D-次元ベクトル空間においてK-次元ベクトルに変換するアクションエンコーダ(112a)と、
前記K-次元ベクトルをアクションの形態に変形するアクションデコーダ(112b) と、を含み、
前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする、
請求項3に記載の階層構造を有する意思決定エージェント。
【請求項5】
前記第1階層部(110)は、ユーザにより定義されて用いられるユーザカスタマイズ(Customized)リワード、データに存在する変数またはそれぞれの会社のKPI(Key Performance Indicator)を加重値調節方式で使用するウィザード(Wizard)リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード(Auto reward)のうちいずれか一つが、報酬関数の設計のための変数として選択されることを特徴とする、請求項4に記載の階層構造を有する意思決定エージェント。
【請求項6】
前記第3階層部(130)は、
エージェントの意思決定に対する解析のためのモデルを提供する説明可能AIモデル部(131)と、
前記エージェントの意思決定時に足りないデータを生成する生成的AIモデル部(132)と、
事前に学習されたモデルを提供する学習されたモデル部(133)と、
を含むことを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。
【請求項7】
前記第4階層部(140)は、
環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部(141)と、
前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部(142)と、
エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部(143)と、
一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部(144)と、
を含むことを特徴とする、請求項1に記載の階層構造を有する意思決定エージェント。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、階層構造を有する意思決定エージェントに係り、さらに詳しくは、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができる、階層構造を有する意思決定エージェントに関する。
【背景技術】
【0002】
企業がビジネスリソースを整理して使用可能にするためには、ビジネス及び情報技術の構成要素の評価、識別、構成、変調、拡張及び統合が行われなければならない。
【0003】
しかしながら、大部分の企業には、戦略的な情報技術計画方案が導入され、これらが必須ビジネス及び情報技術の構成要素を展開するように開発することができる基盤が不足である。
【0004】
したがって、ビジネスは、エンドツーエンドアクティビティ(end-to-end activities)への交差機能的ビジネスプロセスの成功的な情報技術の可用性を保障することができない。
【0005】
ビジネスアーキテクチャーが、技術アーキテクチャーを導入し、また、技術アーキテクチャーがビジネスの実行の新しくて創造的な方法を可能にするか、または提供することにより、ビジネスアーキテクチャーの構成に直接影響を与えるようにする基礎フレームワークまたは構造をビジネスに提供することが要求される。
【0006】
一般のビジネスアーキテクチャー構造を用いるときは、階層化されたアーキテクチャーパターンを主に用いている。
【0007】
このような階層化されたアーキテクチャーパターン内の構成要素は、水平階層で構成され、それぞれの階層は、特定の役割を行うように構成される。
【0008】
階層構造パターンでは、パターンに存在しなければならない階層の数や類型が指定されていないが、一般に、四つの標準階層で構成される。
【0009】
図1は、一般の階層化されたアーキテクチャーパターンのプラットホームを示すブロック図である。
【0010】
図1を参照すると、階層化されたアーキテクチャーパターンのプラットホーム10は、プレゼンテーション階層(Presentation Layer)11、ビジネス階層(Business Layer)12、パーシステンス階層(Persistence Layer)13、データベース階層(Database Layer)14で構成され、ビジネス要請を満たすために行わなければならない作業に対する抽象化を形成する。
【0011】
例えば、要請が入力されると、プレゼンテーション階層11は、前記入力された要請について把握する必要がないか、心配に対する方法または顧客データを得るために、当該要請情報を特定形式の画面にのみ表示する。
【0012】
ビジネス階層12は、画面に表示するために顧客データの形式を指定する方法や顧客データの出処について心配する必要がない。
【0013】
前記ビジネス階層12は、パーシステンス階層13からデータを取り込み、データに対する値を計算するか、データ集計等を行い、当該実行結果の情報をプレゼンテーション階層11に伝えるように構成される。
【0014】
また、要請が入力されると、階層から次の階層に移動するとき、真下の階層を経て、当該階層下の次の階層に移動し、例えば、プレゼンテーション階層11から始まった要請は、ビジネス階層12を通過した後、最終的にデータベース階層14に到達する前にパーシステンス階層13に移動しなければならない。
【0015】
しかしながら、このような従来技術による階層構造のアーキテクチャーは、パーシステンス階層のような隔離階層を介して変更を隔離することができるが、大部分の実現が、モノリシック特性とともに、一般に発見される構成要素の緊密な結合のため、アーキテクチャーのパターンを変更し難く、多くの時間が要求されるという問題がある。
【0016】
また、従来技術による階層構造のアーキテクチャーは、構成要素を一回変更すれば、全体アプリケーション(またはアプリケーションの相当部分)を再配布しなければならないことがあるので、追加配布に対する問題がある。
【0017】
また、従来技術による階層構造のアーキテクチャーパターンは、モノリシックで実現され、このようなアーキテクチャーパターンを用いてビルドするアプリケーションは、階層を別々の物理的配置に分割するか、全体アプリケーションを多くのノードで複製して、階層化されたアーキテクチャーに拡張することができるが、全体的に細分化するには大き過ぎて、拡張し難いという問題点がある。
【0018】
また、従来技術による階層構造のアーキテクチャーは、ビジネス問題を解くための強化学習やAI関連の専門的な知識を有するユーザのみが使用することができ、使用が制限されるという問題点がある。
【先行技術文献】
【特許文献】
【0019】
【特許文献1】大韓民国公開特許公報第10-2002-0026587号
【発明の概要】
【発明が解決しようとする課題】
【0020】
このような問題点を解決するために、本発明は、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができる、階層構造を有する意思決定エージェントを提供することを目的とする。
【課題を解決するための手段】
【0021】
上記した目的を達成するために、本発明の一実施形態は、階層構造を有する意思決定エージェントであって、ビジネスドメインに合う強化学習の環境要素を定義する第1階層部と、前記強化学習の学習速度及び性能向上のためのオートチューニング(Auto tuning)アルゴリズムを設定する第2階層部と、前記強化学習の学習性能または説明のために、生成モデル及び説明可能な人工知能モデルアルゴリズムを選択する第3階層部と、前記ビジネスドメインにより、エージェントの学習を進めるための強化学習アルゴリズムを選択する第4階層部と、を含む。
【0022】
また、前記実施形態による第1階層部は、ステート(State)、アクション(Action)、リワード(Reward)、エージェント(Agent)、及びステート遷移(State-Transition)を環境要素として定義することを特徴とする。
【0023】
また、前記実施形態による第1階層部は、データからD-次元ベクトルを抽出して特徴空間(Feature space)を設計するステートエンコーダと、前記特徴空間からD-次元空間にデータを変形するステートデコーダと、を含むことを特徴とする。
【0024】
また、前記実施形態による第1階層部は、D-次元ベクトル空間においてK-次元ベクトルに変換するアクションエンコーダと、前記K-次元ベクトルをアクションの形態に変形するアクションデコーダと、を含み、前記アクションの形態は、離散的決定、連続的決定、及び、前記離散的決定と前記連続的決定の組合せのうちいずれか一つであることを特徴とする。
【0025】
また、前記実施形態による第1階層部は、ユーザにより定義されて用いられるユーザカスタマイズ(Customized)リワード、データに存在する変数またはそれぞれの会社のKPI(Key Performance Indicator)を加重値調節方式で使用するウィザード(Wizard)リワード、及び、ユーザが簡単な学習及び強化学習ベースラインの確認用途として使えるオートリワード(Auto reward)のうちいずれか一つが、報酬関数の設計のための変数として選択されることを特徴とする。
【0026】
また、前記実施形態による第2階層部は、ステートの形態を分析して整形データ、イメージデータ、及びテキストデータに対して自動で前処理を行うオートフィーチャリング部と、前記ビジネスドメインに適合したニューラルネットワークアーキテクチャーを自動で設計するオートデザイン部と、前記強化学習において性能の向上のために要求されるハイパーパラメータのチューニングを自動で行うオートチューニング部と、前記強化学習に要求されるリワードから、加重値の自動サーチ(search)またはオートリワードのようなリワードタイプを選択し、リワードを自動で計算するオートリワーディング部と、を含むことを特徴とする。
【0027】
また、前記実施形態による第3階層部は、エージェントの意思決定に対する解析のためのモデルを提供する説明可能AIモデル部と、前記エージェントの意思決定時に足りないデータを生成する生成的AIモデル部と、事前に学習されたモデルを提供する学習されたモデル部と、を含むことを特徴とする。
【0028】
また、前記実施形態による第4階層部は、環境に対する特定の仮定なしに、モデルが環境を探索して学習するモデルフリー強化学習部と、前記環境に対する情報に基づいてモデルが学習するモデルベース強化学習部と、エージェントを複数階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習するアルゴリズムを提供する階層型強化学習アルゴリズム部と、一つの環境に複数のエージェントが存在すると、前記エージェント間の競争または協業により学習するようにアルゴリズムを提供するマルチエージェントアルゴリズム部と、を含むことを特徴とする。
【発明の効果】
【0029】
本発明は、強化学習に関する知識のないユーザが、強化学習の核心要素をビジネス問題に容易に設定及び適用して学習することができるという長所がある。
【0030】
また、本発明は、ユーザのドメイン知識と一般の機械学習の知識のみでも、強化学習をユーザのビジネス問題に容易に適用することができるという長所がある。
【0031】
また、本発明は、ユーザが、強化学習によりビジネス問題を解くために、強化学習やAI関連知識よりも、ドメイン知識にさらに集中してAIを導入することができるという長所がある。
【0032】
また、本発明は、一般の強化学習プラットホームよりも、最小限の労力でビジネス問題に様々な強化学習の設計を構築して、高い水準の成果を達成することができるという長所がある。
【図面の簡単な説明】
【0033】
【
図1】一般の階層化されたアーキテクチャーパターンのプラットホームを示すブロック図である。
【
図2】本発明の一実施形態による階層構造を有する意思決定エージェントを示すブロック図である。
【
図3】
図2の実施形態による階層構造を有する意思決定エージェントの第1階層部の構成を示すロック図である。
【
図4】
図3の実施形態による第1階層部のステート部の構成を示すブロック図である。
【
図5】
図3の実施形態による第1階層部のアクション部の構成を示すブロック図である。
【
図6】
図2の実施形態による階層構造を有する意思決定エージェントの第2階層部の構成を示すブロック図である。
【
図7】
図2の実施形態による階層構造を有する意思決定エージェントの第3階層部の構成を示すブロック図である。
【
図8】
図2の実施形態による階層構造を有する意思決定エージェントの第4階層部の構成を示すブロック図である。
【発明を実施するための形態】
【0034】
以下、本発明における好適な実施形態及び添付図面を参照して、本発明について詳しく説明するが、図面における同じ参照符号は、同じ構成要素を指すことを前提として説明する。
【0035】
本発明の実施のための具体的な内容を説明する前に、本発明の技術的要旨と直接的関連のない構成については、本発明の技術的要旨を損なわない範囲内で省略したことに留意しなければならないであろう。
【0036】
また、この明細書及び請求範囲に用いられた用語や単語は、発明者が自分の発明を最善の方法で説明するために用語の概念を適切に定義できるという原則に即して、発明の技術的思想に符合する意味と概念で解釈されなければならない。
【0037】
この明細書において、ある部分がある構成要素を「含む」という表現は、他の構成要素を排除するものではなく、他の構成要素をさらに含んでもよいことを意味する。
【0038】
また、「…部」、「…器」、「…モジュール」等の用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア、またはこれらの結合に分けられる。
【0039】
また、「少なくとも一つの」という用語は、単数及び複数を含む用語として定義され、「少なくとも一つの」という用語が存在しなくても、それぞれの構成要素が単数または複数で存在してもよく、単数または複数を意味し得ることは自明であろう。
【0040】
また、それぞれの構成要素が単数または複数で備えられることは、実施形態により変更可能である。
【0041】
以下、添付された図面を参照して、本発明の一実施形態による階層構造を有する意思決定エージェントの好適な実施形態について詳細に説明する。
【0042】
図2は、本発明の一実施形態による階層構造を有する意思決定エージェントを示すブロック図であり、
図3は、
図2の実施形態による階層構造を有する意思決定エージェントの第1階層部の構成を示すロック図であり、
図4は、
図3の実施形態による第1階層部のステート部の構成を示すブロック図であり、
図5は、
図3の実施形態による第1階層部のアクション部の構成を示すブロック図であり、
図6は、
図2の実施形態による階層構造を有する意思決定エージェントの第2階層部の構成を示すブロック図であり、
図7は、
図2の実施形態による階層構造を有する意思決定エージェントの第3階層部の構成を示すブロック図であり、
図8は、
図2の実施形態による階層構造を有する意思決定エージェントの第4階層部の構成を示すブロック図である。
【0043】
図2乃至
図8を参照すると、本発明の一実施形態による階層構造を有する意思決定エージェント100は、プラットホームで構成されてもよく、コンピュータシステムまたはサーバシステムにインストールされて動作することができ、第1階層部110、第2階層部120、第3階層部130、第4階層部140を含んで構成される。
【0044】
第1階層部110は、ビジネスドメインに合う強化学習の環境要素を定義する構成であって、表現階層(Representation Layer)からなってもよく、ユーザが、任意のユーザインターフェース(UI)上において、ステート、アクション、リワード、エージェント、ステート遷移を環境要素として定義できるようにする。
【0045】
また、第1階層部110は、入力データに応じてステートを定義するステート部111、アクションを定義するアクション部112、リワードを定義するリワード部113、ビジネスドメインに合う強化学習エージェントを選択するエージェント部114、及びビジネス問題の不確実性を測定できるトランジション部115を含んで構成されてもよい。
【0046】
ここで、ビジネスドメインは、エージェントが応答すべき入力及びエージェントに提供される知識であってもよいが、例えば、自動車製造工程の自動化である場合、製造工程のプロセス、材料等をモデリングするときに、必須で知っていなければならないビジネス情報を意味してもよい。
【0047】
ステート部111は、入力データセットにおいて、ステートとして用いられる部分をステートとして定義し、ここで、定義されたステートは、エージェントが学習する間、利用されてもよい。
【0048】
また、整形データ、イメージデータ、テキストデート等の様々なフォーマットのデータとアルゴリズムとにより処理方式が変わるので、ステート部111は、ステート(状態)を定義するためのステートエンコーダ111a及びステートデコーダ111bを含んで構成されてもよい。
【0049】
ステートエンコーダ111aは、入力データセットからD-次元ベクトル(D-dimensional vector)を抽出し、抽出されたD-次元ベクトルから特徴空間を設計する。
【0050】
ステートデコーダ111bは、ステートエンコーダ111aで設計された特徴空間からD-次元空間(Χ∈RD)に表現データ(Representation Data)を変形することにより、ステートを定義する。
【0051】
アクション部112は、アクションを定義する構成であって、実際のビジネスの意思決定の構成が極めて複雑であるので、意思決定を強化学習アルゴリズムで最適化できる形態に変換し、アクションエンコーダ112a及びアクションデコーダ112bを含んで構成されてもよい。
【0052】
アクションエンコーダ112aは、強化学習アルゴリズムを介して、D-次元ベクトル空間(Χ∈RD)においてK-次元ベクトル(Y∈RK)に変換する。
【0053】
アクションデコーダ112bは、K-次元ベクトルをアクションの形態に変形し、ここで変形されるアクションの形態は、はい(Yes)、いいえ(No)、増加(Up)、減少(Down)、維持(Stay)等の離散的決定(Discrete Decision)、フロート値(Float values)等の連続的決定(Continuous Decision)、離散及び連続の組合せ(Combination of Discrete and Continuous)のうちいずれか一つの形態に変形される。
【0054】
リワード部113は、学習のための補償システムの定義のための要素、例えば、正解(label)、目標(Metric)等のリワードの計算に必要な要素を定義する構成であって、正解のあるデータセットにおいて正解(label)として表現されてもよく、収益、費用等の企業の目標(Metric)として表現されてもよい。
【0055】
また、リワードは、ステートにおいてエージェントのアクションにより得られ、エージェントは、総リワードを最大化する行動を行わせることが目標である。
【0056】
また、リワード部113は、報酬関数(または補償関数)の設計のための変数に対して、ユーザカスタマイズ型方式、ウィザード方式、正解を活用する方式により、オートリワードを設定することができる。
【0057】
ユーザカスタマイズ型方式は、ユーザインターフェースを介してユーザから定義されるリワードが、報酬関数の設計のための変数に設定されるようにする。
【0058】
ウィザード方式は、データに存在する変数やそれぞれの会社のKPIを加重値調節方式として使用するリワードを出力し、報酬関数の設計のための変数に設定されるようにする。
【0059】
オートリワードは、ユーザが簡単な学習及び強化学習のベースラインの確認用途として使えるように、報酬関数の設計のための変数に設定されるようにする。
【0060】
また、オートリワードは、正解を活用する方式を使用してもよく、正解を用いて与えられたステート-アクションのペアからリワードを算出するビルトイン報酬関数(A2GAN)を設定してもよい。
【0061】
エージェント部114は、ビジネスドメイン特性と強化学習アルゴリズムに基づいてエージェントを選択する構成であって、例えば、ポリシーに基づくエージェント(Policy-based Agent)は、ポリシーに基づく強化学習アルゴリズムと互換されてもよく、価値に基づくエージェント(Value-based Agent)は、価値に基づく強化学習アルゴリズムのみと互換され、アクションに基づくエージェントは、離散アクションと定義するドメインと互換されてもよい。
【0062】
トランジション部115は、エージェントが任意のアクションを取った場合に、次のステートとして何が出るかまたはエージェントが行ったアクションの効果が何かについて表現する構成であって、遷移モデルを、数学的方法論であるDBNs(Dynamic Bayesian Networks)、HMMs(Hidden Markov Models)、GPs(Gaussian Processes)、及びGMMs(Gaussian Mixture Models)等を用いて表現することができる。
【0063】
また、トランジション部115は、他のビジネス領域に状態遷移関数をカスタマイズ型で構成し、ビジネス領域では、ラベル付きデータを用いて状態遷移モデルが設定されるようにする。
【0064】
第2階層部120は、ユーザインターフェースを用いて、強化学習の学習速度及び性能向上のためのオートチューニングアルゴリズムを設定する構成であって、エージェントが、ユーザインターフェースを用いて、シミュレートされたモデル(Simulated models)に対する速い理解、良好なステート構成、最適のアーキテクチャー構成、及び自動補償関数システムを設定するようにカタリスト階層(Catalyst Layer)からなってもよく、オートフィーチャリング部121、オートデザイン部122、オートチューニング部123、オートリワーディング部124で構成されてもよい。
【0065】
オートフィーチャリング部121は、ステート111の形態を分析して、整形データ、イメージデータ、及びテキストデータに対する前処理を行う構成であって、与えられたシミュレートされたモデルに対するステートを分析して、重要ステートを選別する。
【0066】
また、オートフィーチャリング部121は、アルゴリズムを介して自動で与えられたステートに対する次元の過適合等を回避できるようにする。
【0067】
また、オートフィーチャリング部121は、自動でステートを構成してもよく、ユーザがステートに対する構成を行うように、任意のステートを選択して、データパイプラインで構成できるようにする。
【0068】
また、オートフィーチャリング部121は、整形データに対して、分類と回帰、クラスタリング、次元縮小、モデル選択、前処理に対して様々なアルゴリズムを提供するサイキットラーン(Scikit-Learn)やサイパイ(Scipy)等のような前処理モジュールを用いて欠測値の代替、連続変数、カテゴリ変数、次元縮小、変数選択、異常値除去等のような様々な前処理が行われるようにする。
【0069】
また、オートフィーチャリング部121は、イメージデータに対して、イメージノイズ除去、データ増大、サイズ調整等の前処理が行われるようにする。
【0070】
また、オートフィーチャリング部121は、テキストデータに対して、トークナイザー、フィルタリング、クレンジング等のモジュールを介して前処理が行われるようにする。
【0071】
オートデザイン部122は、ビジネスドメインに適合したニューラルネットワーク(Multi-Layer Perceptron Convolutional Neural Network)アーキテクチャーを自動で設計する構成であって、強化学習、進化(Evolutionary)、ベイズ的最適化(Bayesian Optimization)、勾配ベースの最適化(Gradient-based Optimization)等を介して最適のニューラルネットワークアーキテクチャーを検索する。
【0072】
すなわち、オートデザイン部122は、良い性能のエージェントを学習させるために、当該ビジネスドメインに合う最適のアーキテクチャーが要求されるので、自動で最適のアーキテクチャーを検索する。
【0073】
オートチューニング部123は、強化学習において高い性能を得るために多くの試みが必要なハイパーパラメータのチューニングを自動で行うように動作する構成であって、強化学習エージェントの性能に多くの影響を与えるハイパーパラメータをグリッドサーチ(Grid-Search)、ベイズ的最適化、勾配ベースの最適化、人口ベース最適化(Population based Optimization)を用いて検索し、検索結果に基づいて最適のハイパーパラメータの組合せを提供する。
【0074】
オートリワーディング部124は、強化学習に要求されるリワードが、予め設定された補償パターンにより自動で設定されるように動作する構成であって、リワードにおける加重値の自動サーチまたはオートリワード等のリワードのタイプを選択して、自動でリワードが計算されるようにする。
【0075】
第3階層部130は、第2階層部120で処理された様々な前処理、最適のニューラルネットワークアーキテクチャー、ハイパーパラメータ等のカタリスト(Catalyst)である最適化情報を用いて、強化学習の学習性能または説明力のために、生成モデル及び説明可能な人工知能モデルアルゴリズム等を選択する構成であって、説明可能AIモデル部131、生成的AIモデル部132、学習されたモデル部133を含んで構成されてもよい。
【0076】
また、第3階層部130は、入力されたデータタイプ、例えば、整形データ、イメージデータ、テキストデータ等に基づき、モデルのタイプを区別してもよい。
【0077】
説明可能AIモデル部(Explainable AI Models)131は、エージェントの意思決定に対する解析のためのモデルを提供する構成であって、強化学習を含むニューラルネットワークアルゴリズムは、学習結果に対する説明力が不足であるので、意思決定に対する説明を要するドメインのためのモデルを提供する。
【0078】
生成的AIモデル部(Generative Models)132は、エージェントの意思決定の際に不足なデータを生成するためのモデルを提供する構成であって、欠測値のあるデータは、既存のデータ分布を用いて、欠測値が代替されたデータを生成するモデルを提供する。
【0079】
また、データ不足の問題を解決するために、データを増強させることができ、正解のないデータに対するラベル付けを介して、正解のあるモデルで提供することもできる。
【0080】
学習されたモデル部133は、事前に学習されたモデルを提供する構成であって、事前に学習されたモデルを用いてエージェントを迅速に学習させることができるモデルを提供する。
【0081】
第4階層部140は、ビジネスドメインによりエージェントを学習させるための強化学習アルゴリズムを選択する構成であって、モデルフリー強化学習部(Model free Reinforcement Learning)141、モデルベース強化学習部(Model based Reinforcement Learning)142、階層型強化学習アルゴリズム部(Hierarchical Reinforcement Learning Algorithm)143、マルチエージェントアルゴリズム部(Multi agent Algorithm)144を含んで構成されてもよい。
【0082】
モデルフリー強化学習部141は、アクションを行うアルゴリズムを提供する構成であって、価値に基づくアルゴリズム、ポリシーに基づくアルゴリズムを介してアクションを行う。
【0083】
ここで、価値に基づくアルゴリズムは、DQN(Deep Q Networks)、DDQN(Double Deep Q Networks)、Dueling DDQN(Dueling Double Deep Q Networks)等で構成されてもよい。
【0084】
また、ポリシーに基づくアルゴリズムは、価値関数(Value function)を使用するものと、使用しないものとにより、DPS(Direct Policy Search)とAC(Actor Critic)に分けられる。
【0085】
ACに基づくアルゴリズムは、A2C(Advantage Actor Critic)、TRPO(Trust Region Policy Optimization)、PPO(Proximal Policy Optimization)、DDPG(Deep Deterministic Policy Gradient)、SAC(Soft Actor Critic)等で構成されてもよい。
【0086】
モデルベース強化学習部142は、モデルフリー強化学習部141とは異なり、環境に関する情報がある状態で、モデルが学習するアルゴリズムを提供する構成であって、モデルに基づくアルゴリズムの遷移モデル(transition model)を用いて、エージェントを学習させる。
【0087】
また、モデルに基づくアルゴリズムは、実際のデータとシミュレーション環境から出たデータの両方をポリシーアップデートの際に使用し、実際のデータを用いて遷移モデルを学習させるか、LQR(Linear Quadratic Regulator)のような数理的モデルを用いてもよい。
【0088】
また、モデルベース強化学習部142は、DynA、PILCO(Probabilistic Inference for Learning Control)、MCTS(Monte-Carlo Tree Search)、World Models等で構成されてもよい。
【0089】
階層型強化学習アルゴリズム部143は、ビジネスドメインが極めて複雑であり、単一エージェントでは問題の解決が難しい場合に、エージェントを多くの階層に分けて配置し、それぞれの階層のエージェントがそれぞれの強化学習アルゴリズムで学習し、マスターエージェントの学習を助けることができる構造のアルゴリズムを提供する。
【0090】
マルチエージェントアルゴリズム部144は、一つの環境に複数のエージェントが存在すると、エージェント間の競争または協業により学習するようにアルゴリズムを提供する。
【0091】
また、第4階層部140は、指導学習のようにエージェントを学習させるか、ラベル付きデータセットで補償関数を逆に見い出してラベルなしデータセットの学習に使用するアルゴリズム、LSTM(Long Short Term Memory)、MAML(Model-Agnostic Meta Learning)、MQL(Meta Q Learning)等のメタ強化学習アルゴリズム、環境とリアルタイムの相互作用が難しいビジネスドメインにおいて、オフラインデータを用いて学習するバッチ強化学習アルゴリズム、A2GANを用いたアルゴリズム等を含む、その他のアルゴリズム部145を含んで構成されてもよい。
【0092】
したがって、強化学習に関する知識のないユーザが、強化学習の核心要素をユーザインターフェースを介して選択及び設定することにより、ビジネス問題に容易に適用して学習できるようになる。
【0093】
また、ユーザのドメイン知識と一般の機械学習の知識だけでも、ユーザのビジネス問題に強化学習を容易に適用することができ、ユーザが強化学習によりビジネス問題を解決するために、強化学習やAI関連知識よりも、ドメイン知識にさらに集中してAIを導入することができる。
【0094】
また、一般の強化学習プラットホームよりも、最小限の労力で、ビジネス問題に様々な強化学習の設計を構築して、高い水準の成果を達成することができる。
【0095】
以上、本発明の好適な実施形態を参照して説明したが、当該技術分野における熟練した当業者であれば、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で、本発明を様々に修正及び変更させてもよいことを理解することができるであろう。
【0096】
また、本発明の特許請求の範囲に記載された図面符号は、説明の明瞭性と便宜のために記載されたものであり、これに限定されるものではなく、実施形態を説明するにあたって、図示された線の太さや構成要素の大きさ等は、説明の明瞭性と便宜のために誇張して示されてもよい。
【0097】
また、上述した用語は、本発明における機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例により変わり得るので、このような用語に対する解釈は、この明細書の全般にわたった内容に基づいて行われなければならない。
【0098】
また、明示的に図示または説明されていなくても、本発明が属する技術分野における通常の知識を有する者が、本発明の記載事項から本発明による技術的思想を含む様々な形態の変形を導き出せることは自明であり、これは、依然として本発明の権利範囲に属する。
【0099】
また、添付図面を参照して説明された上記した実施形態は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲は、このような実施形態に限定されるものではない。
【符号の説明】
【0100】
100 エージェント
110 第1階層部
111 ステート部
111a ステートエンコーダ
111b ステートデコーダ
112 アクション
112a アクションエンコーダ
112b アクションデコーダ
113 リワード
114 エージェント部
115 トランジション
120 第2階層部
121 オートフィーチャリング部
122 オートデザイン部
123 オートチューニング部
124 オートリワーディング部
130 第3階層部
131 説明可能AIモデル部
132 生成的AIモデル部
133 学習されたモデル部
140 第4階層部
141 モデルフリー強化学習部
142 モデルベース強化学習部
143 階層型強化学習アルゴリズム部
144 マルチエージェントアルゴリズム部
145 その他のアルゴリズム部