IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ リサーチ ビジネス ファウンデーション ソンギュングァン ユニバーシティの特許一覧

特開2024-76349スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法
<>
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図1
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図2
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図3
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図4
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図5
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図6
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図7
  • 特開-スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024076349
(43)【公開日】2024-06-05
(54)【発明の名称】スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240529BHJP
【FI】
G06N20/00
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023181874
(22)【出願日】2023-10-23
(31)【優先権主張番号】10-2022-0159388
(32)【優先日】2022-11-24
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】517066191
【氏名又は名称】リサーチ アンド ビジネス ファウンデーション ソンギュングァン ユニバーシティ
【氏名又は名称原語表記】RESEARCH & BUSINESS FOUNDATION SUNGKYUNKWAN UNIVERSITY
(74)【代理人】
【識別番号】100130111
【弁理士】
【氏名又は名称】新保 斉
(72)【発明者】
【氏名】ウ、ホン ウク
(72)【発明者】
【氏名】ユ、ミン ジョン
(72)【発明者】
【氏名】チョ、サン ウ
(57)【要約】
【課題】データ品質が一定せず、データが不足しているマルチタスクオフライン強化学習環境において、データ品質を考慮したスキル正規化タスク分解により、制御モデルの効率的かつ安定的な学習が可能な強化学習モデルを提供すること。
【解決手段】品質を考慮したスキル正規化タスク分解モデルと、仮想デモンストレーション生成によるデータ増強モデルと、を含むことができる。前記スキル正規化タスク分解モデルは、2nステップの状態-行動ペア(state-action pair)を使用してスキル埋め込みを実行する動作と、状態、行動、報酬、および次の状態を含むnステップ遷移(transition)を使用してスキル正規化を実行する動作と、エピソード単位のタスクをnステップ単位のサブタスクに分解する動作と、を行うことができる。
【選択図】図1

【特許請求の範囲】
【請求項1】
品質を考慮したスキル正規化タスク分解モデルと、
仮想デモンストレーション生成によるデータ増強モデルと、
を含み、
前記スキル正規化タスク分解モデルは、
2nステップの状態-行動ペア(state-action pair)を使用してスキル埋め込みを実行する動作と、
状態、行動、報酬、および次の状態を含むnステップ遷移(transition)を使用してスキル正規化を実行する動作と、
エピソード単位のタスクをnステップ単位のサブタスクに分解する動作と、を行う
ことを特徴とする強化学習モデル。
【請求項2】
前記スキル正規化タスク分解モデルは、
行動シーケンス(Action Sequence)単位の複数のスキル(Skill)にサブタスク(Sub Task)をマッチングすることにより、タスク(Task)を前記サブタスクに分解し、
前記データ増強モデルは、
複数の前記タスク間で前記サブタスクに対応する前記スキルを共有することにより、強化学習を行う
請求項1に記載の強化学習モデル。
【請求項3】
前記スキル埋め込みを実行する動作を行う際、前記スキル正規化タスク分解モデルは、
オフラインデータの前記2nステップの状態-行動ペアをスキル候補空間にマッピングし、
マッピングされた候補ベクトルを使用して前記2nステップの状態-行動ペアを推論することを特徴とする、
請求項1に記載の強化学習モデル。
【請求項4】
前記スキル埋め込みは、
下記の数式1:
【数1】
のスキル埋め込み損失を使用した学習により行われる
請求項3に記載の強化学習モデル。
【請求項5】
前記スキル正規化を実行する動作を行う際、前記スキル正規化タスク分解モデルは、
前記nステップ遷移をタスク候補空間にマッピングし、
同じスキルで解決され、基準品質以上のデータの場合、同じタスクとして推論し、
前記基準品質未満のデータの場合、異なるタスクとして推論する
請求項1に記載の強化学習モデル。
【請求項6】
前記スキル正規化は、
下記の数式2:
【数2】
のスキル正規化損失を使用した学習により行われる
請求項5に記載の強化学習モデル。
【請求項7】
前記エピソード単位の前記タスクをnステップ単位の前記サブタスクに分解する動作を行う際、前記スキル正規化タスク分解モデルは、
前記スキル正規化過程で学習された前記タスクエンコーダを使用してサブタスクを推論する
請求項6に記載の強化学習モデル。
【請求項8】
前記データ増強モデルは、
前記スキル正規化タスク分解モデルを使用して、与えられたタスクに合ったスキルを実行したときに生成されるデータを推論することにより、前記仮想デモンストレーションを生成し、
サブタスク情報を入力値に追加して学習することにより、学習データを増強する
請求項1に記載の強化学習モデル。
【請求項9】
前記仮想デモンストレーションは、
下記の数式3:
【数3】
に基づいて生成される
請求項8に記載の強化学習モデル。
【請求項10】
品質を考慮したスキル正規化タスク分解を行うステップと、
仮想デモンストレーション生成によるデータ増強を行うステップと、
を含み、
前記スキル正規化タスク分解を行うステップは、
2nステップの状態-行動ペア(state-action pair)を使用してスキル埋め込みを実行するステップと、
状態、行動、報酬、および次の状態を含むnステップ遷移(transition)を使用してスキル正規化を実行するステップと、
エピソード単位のタスクをnステップ単位のサブタスクに分解するステップと、を含む
ことを特徴とする強化学習方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、強化学習モデル及び強化学習方法に関し、より詳細には、スキル正規化タスク分解に基づくマルチタスクオフライン強化学習モデル及びそれを用いたマルチタスクオフライン強化学習方法に関する。
【背景技術】
【0002】
強化学習に基づく制御技術は、様々なオフラインデータを使用して実世界の複雑な問題を効率的に解決する。しかし、実際の環境と相互作用が不可能なデータベースの学習方式では、与えられたデータは、収集した政策の質が低かったり、データの量が不十分だったりすることがある。これらの問題は、オフライン強化学習の性能を著しく低下させる。
【0003】
複数のタスクを学習するマルチタスク学習を行う方式には、第一に、様々なタスクの知識を活用するためにモジュールに基づくネットワーク構造とアテンションを活用する「ソフトモジュラリゼーション(Soft-Modularization)技法」があり、第二に、更新(update)時に発生するグラディエント(gradient)を調整して学習中に発生するタスク間の知識の衝突を調整する「グラディエントサージェリー(Gradient surgery)方式」がある。
【0004】
しかし、ソフトモジュラリゼーション(Soft-Modularization)技法とグラディエントサージェリー(Gradient surgery)方式の両方法には、データ品質が一定せず、データが不足しているオフライン状況では学習性能が低下するという問題がある。
【0005】
また、現在実行するタスクを推論して学習するタスクインファレンス(Task inference)方式は、タスクを小さな単位のサブタスクに分解することができないため、異なるタスク間でのデータ共有が難しいという問題が存在する。そのため、タスクインファレンス(Task inference)方式は、データが不足している状況では学習性能が低下するという問題が発生する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】韓国公開特許第10-2022-0117625号「自律型CPSの性能自己進化のための連合強化学習に基づく自律型CPS自己進化フレームワーク及びそれを用いた自律型CPSの性能自己進化方法」
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、データ品質が一定せず、データが不足しているマルチタスクオフライン強化学習環境において、データ品質を考慮したスキル正規化タスク分解により、制御モデルの効率的かつ安定的な学習が可能な強化学習モデルを提供することである。
【0008】
本発明の他の目的は、データ品質が一定せず、データが不足しているマルチタスクオフライン強化学習環境において、データ品質を考慮したスキル正規化タスク分解により、制御モデルの効率的かつ安定的な学習が可能な強化学習方法を提供することである。
【0009】
ただし、本発明が解決しようとする課題は、上述の課題に限定されるものではなく、本発明の思想及び領域から逸脱しない範囲で多様に拡張できる。
【課題を解決するための手段】
【0010】
本発明の一目的を達成するために、本発明の実施形態による強化学習モデルは、品質を考慮したスキル正規化タスク分解モデルと、仮想デモンストレーション生成によるデータ増強モデルと、を含むことができる。前記スキル正規化タスク分解モデルは、2nステップの状態-行動ペア(state-action pair)を使用してスキル埋め込みを実行する動作と、状態、行動、報酬、および次の状態を含むnステップ遷移(transition)を使用してスキル正規化を実行する動作と、エピソード単位のタスクをnステップ単位のサブタスクに分解する動作と、を行うことができる。
【0011】
一実施形態において、前記スキル正規化タスク分解モデルは、行動シーケンス(Action Sequence)単位の複数のスキル(Skill)にサブタスク(Sub Task)をマッチングすることにより、タスク(Task)を前記サブタスクに分解することができる。前記データ増強モデルは、複数の前記タスク間で前記サブタスクに対応する前記スキルを共有することにより、強化学習を行うことができる。
【0012】
一実施形態において、前記スキル埋め込みを実行する動作を行う際、前記スキル正規化タスク分解モデルは、オフラインデータの前記2nステップの状態-行動ペアをスキル候補空間にマッピングし、マッピングされた候補ベクトルを使用して前記2nステップの状態-行動ペアを推論することができる。
【0013】
一実施形態において、前記スキル埋め込みは、下記の数式1のスキル埋め込み損失を使用した学習により行われ得る。
【0014】
【数1】
【0015】
【0016】
一実施形態において、前記スキル正規化を実行する動作を行う際、前記スキル正規化タスク分解モデルは、前記nステップ遷移をタスク候補空間にマッピングし、同じスキルで解決され、基準品質以上のデータの場合、同じタスクとして推論し、前記基準品質未満のデータの場合、異なるタスクとして推論することができる。
【0017】
一実施形態において、前記スキル正規化は、下記の数式2のスキル正規化損失を使用した学習により行われ得る。
【数2】
【0018】
【0019】
一実施形態において、前記エピソード単位の前記タスクをnステップ単位の前記サブタスクに分解する動作を行う際、前記スキル正規化タスク分解モデルは、前記スキル正規化過程で学習された前記タスクエンコーダを使用してサブタスクを推論することができる。
【0020】
一実施形態において、前記データ増強モデルは、前記スキル正規化タスク分解モデルを使用して、与えられたタスクに合ったスキルを実行したときに生成されるデータを推論することにより、前記仮想デモンストレーションを生成し、サブタスク情報を入力値に追加して学習することにより、学習データを増強することができる。
【0021】
一実施形態において、前記仮想デモンストレーションは、下記の数式3に基づいて生成され得る。
【数3】
【0022】
【0023】
本発明の他の目的を達成するために、本発明の実施形態による強化学習方法は、品質を考慮したスキル正規化タスク分解を行うステップと、仮想デモンストレーション生成によるデータ増強を行うステップと、を含むことができる。前記スキル正規化タスク分解を行うステップは、2nステップの状態-行動ペア(state-action pair)を使用してスキル埋め込みを実行するステップと、状態、行動、報酬、および次の状態を含むnステップ遷移(transition)を使用してスキル正規化を実行するステップと、エピソード単位のタスクをnステップ単位のサブタスクに分解するステップと、を含むことができる。
【発明の効果】
【0024】
本発明の強化学習モデル及び強化学習方法によれば、データ品質が一定せず、データが不足しているマルチタスクオフライン強化学習環境において、データ品質を考慮したスキル正規化タスク分解により、制御モデルの効率的かつ安定的な学習が可能となる。
【0025】
ただし、本発明の効果は、上述の効果に限定されるものではなく、本発明の思想及び領域から逸脱しない範囲で多様に拡張できる。
【図面の簡単な説明】
【0026】
図1】本発明の実施形態による強化学習モデルの構成を示す概念図である。
図2図1の強化学習モデルの動作を示すフローチャートである。
図3】スキル正規化タスク分解ステップの詳細ステップを示すフローチャートである。
図4】品質を考慮したスキル正規化タスク分解モデルの構造を示す図である。
図5】品質を考慮したスキル正規化タスク分解モデルの学習過程を示すアルゴリズムである。
図6】仮想デモンストレーション生成によるデータ増強モデルの構造を示す図である。
図7】本発明の実施形態による強化学習モデルを適用したロボットアーム制御学習性能を示す図である。
図8】本発明の実施形態による強化学習モデルを適用したドローン走行学習性能を示す図である。
【発明を実施するための形態】
【0027】
本明細書に開示されている本発明の概念による実施形態について、特定の構造的または機能的な説明は、単に本発明の概念による実施形態を説明するための目的として例示されたものであり、本発明の概念による実施形態は、様々な形態で実施可能であり、本明細書に説明された実施形態に限定されるものではない。
【0028】
本発明の概念による実施形態は、様々な変更を加えることができ、様々な形態を有することができるので、実施形態を図面に例示し、本明細書で詳細に説明する。しかし、これは、本発明の概念による実施形態を特定の開示形態について限定するものではなく、本発明の思想及び技術範囲に含まれる変更、均等物、又は代替物を含む。
【0029】
第1または第2などの用語を、様々な構成要素を説明するために使用できるが、構成要素は用語によって限定されるべきではない。用語は、一つの構成要素を他の構成要素から区別する目的のみで使用され、例えば、本発明の概念に基づく権利の範囲から逸脱しない範囲で、第1構成要素を第2構成要素と命名してもよく、同様に第2構成要素を第1構成要素と命名してもよい。
【0030】
ある構成要素が他の構成要素に「連結されて」いるか又は「接続されて」いると言及されたときには、前記ある構成要素が前記他の構成要素に直接的に連結されてもよく、または、直接的に接続されてもよいが、これらの間に他の構成要素が存在してもよいものと理解される。一方、ある構成要素が他の構成要素に「直接連結されて」いるか又は「直接接続されて」いると言及されたときには、これらの間に他の構成要素が存在しないものと理解されるべきである。構成要素間の関係を説明する他の表現、すなわち、「~間に」と「すぐに~間に」、または「~に隣り合う」と「~に直接隣り合う」なども同様に解釈される。
【0031】
本明細書で使用される用語は、単に特定の実施形態を説明するために使われるものであって、本発明を限定するものではない。単数の表現は、文脈上明らかに異なるものを意味しない限り、複数の表現を含む。本明細書において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定しようとするものであって、1つまたはそれ以上の他の特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものの存在または付加の可能性を予め排除するものではない。
【0032】
別段の定義がない限り、技術的や科学的な用語を含む、ここで使用される全ての用語は、本発明が属する技術分野における通常の知識を有する者によって一般的に理解されるものと同一の意味がある。辞書に定義された用語のように一般的に使用される用語は、関連技術の文脈上の意味と一致するものと解釈されるべきであり、本明細書で明白に定義しない限り、理想的や過度に形式的な意味に解釈されない。
【0033】
以下、添付の図面を参照して実施形態について詳細に説明する。しかし、特許出願の範囲がこれらの実施形態によって制限あるいは限定されるものではない。各図面に示された同一の参照符号は、同一の部材を示す。
【0034】
図1は、本発明の実施形態による強化学習モデルの構成を示す概念図であり、図2は、図1の強化学習モデルの動作を示すフローチャートである。
【0035】
図1を参照すると、本発明の強化学習モデルは、品質を考慮したスキル正規化タスク分解モデルと、仮想デモンストレーション生成によるデータ増強モデルとを含むことができる。
【0036】
例えば、本発明の強化学習モデルは、観測できない環境変化にも安定した強化学習を行うために、スキル埋め込みモデルとタスク埋め込みモデルとで構成されたスキル正規化タスク分解推論モデルを含むことができる。
【0037】
図2に示すように、強化学習モデルは、品質を考慮したスキル正規化タスク分解(S100)を行い、仮想デモンストレーション生成によるデータ増強(S200)を行うことができる。
【0038】
例えば、前記スキル正規化タスク分解モデルは、行動シーケンス(Action Sequence)単位の複数のスキル(Skill)にサブタスク(Sub Task)をマッチングすることで、タスク(Task)を前記サブタスクに分解することができる。
【0039】
前記タスク(Task)は、強化学習の環境をモデル化するマルコフ決定過程(Markov decision process)を意味し得る。ここで、マルコフ決定過程は、(S,A,P,R)の4タプル(tuple)で表される。(S,A,P,R)の各文字は、以下のものを表すことができる。
【0040】
【0041】
マルチタスク(Multi-task)環境とは、複数のタスクから構成される環境のことで、通常、遷移確率(Transition probability)と報酬関数(reward function)が異なる複数のタスクのセット{(S,A,Pi,Ri )}iで表される。
【0042】
サブタスク(Sub Task)とは、タスク全体を遂行するために短期間で遂行する必要のある目標を指すことができる。サブタスク埋め込み(z)を活用して、マルチタスク環境を単一のマルコフ決定過程である(S×Z,A,P,R)で表すことができる。
【0043】
スキル(Skill)とは、エージェント(Agent)が発生する行動シーケンス(Action Sequence)(例えば,a,a,a,…,aN)を意味し得る。
【0044】
例えば、前記データ増強モデルは、複数の前記タスク間で前記サブタスクに対応する前記スキルを共有することにより、強化学習を行うことができる。
【0045】
これにより、本発明の強化学習モデルは、データ品質が一定せず、データが不足しているマルチタスクオフライン強化学習環境において、データ品質を考慮したスキル正規化タスク分解により、制御モデルの効率的かつ安定的な学習を行うことができる。
【0046】
以下、図3図6に基づいて、本発明の強化学習モデルのより具体的な構成及び動作について説明する。
【0047】
図3は、スキル正規化タスク分解ステップの詳細ステップを示すフローチャートであり、図4は、品質を考慮したスキル正規化タスク分解モデルの構造を示す図であり、図5は、品質を考慮したスキル正規化タスク分解モデルの学習過程を示すアルゴリズムである。
【0048】
図3図5を参照すると、前記スキル正規化タスク分解モデルは、行動シーケンス(Action Sequence)単位の複数のスキル(Skill)にサブタスク(Sub Task)をマッチングすることにより、タスク(Task)を前記サブタスクに分解することができる。
【0049】
例えば、図3に示すように、前記スキル正規化タスク分解モデルは、スキル埋め込みを実行し(S110)、スキル正規化を実行し(S120)、タスクをサブタスクに分解する(S130)ことができる。
【0050】
具体的には、前記スキル正規化タスク分解モデルは、2nステップの状態-行動ペア(state-action pair)を使用してスキル埋め込みを実行する動作と、状態、行動、報酬、および次の状態を含むnステップ遷移(transition)を使用してスキル正規化を実行する動作と、エピソード単位のタスクをnステップ単位のサブタスクに分解する動作とを行うことができる。
【0051】
一実施形態において、スキル埋め込みは、2nステップの状態-行動ペアを使用して、短期間のポリシー関数の行動を特定のベクトルに埋め込むことを目的とすることができる。
【0052】
前記スキル埋め込みを実行する動作を行う際、前記スキル正規化タスク分解モデルは、オフラインデータの前記2nステップの状態-行動ペアをスキル候補空間にマッピングし、マッピングされた候補ベクトルを使用して前記2nステップの状態-行動ペアを推論することができる。
【0053】
具体的には、前記スキル正規化タスク分解モデルは、与えられたオフラインデータの2nステップの状態-行動ペアを特定のスキル潜在空間にマッピングし、マッピングされた潜在ベクトルと状態(state)を使用して、マッピング過程で与えられた2nステップ行動を推論し、スキル埋め込み損失を使用してスキルエンコーダとスキルデコーダを学習させることができる。
【0054】
例えば、前記スキル埋め込みは、下記の数式1のスキル埋め込み損失を使用した学習により行われ得る。
【数4】
【0055】
【0056】
一実施形態において、スキル正規化は、各タスクのデータセットを共有可能なサブタスクに分解することを目的とすることができる。
【0057】
前記スキル正規化を実行する動作を行う際、前記スキル正規化タスク分解モデルは、前記nステップ遷移をタスク候補空間にマッピングし、同じスキルで解決され、基準品質以上のデータの場合、同じタスクとして推論し、前記基準品質未満のデータの場合、異なるタスクとして推論することができる。
【0058】
例えば、前記スキル正規化タスク分解モデルは、与えられたnステップ遷移(状態、行動、報酬、次の状態:state,action,reward,next state)をサブタスクの潜在空間にマッピングし、マッピング過程で、このデータに対して現在実行されているスキルの報酬が高ければ、スキル埋め込みと同じ値を持ち、報酬が低ければ、異なる値を持つようにすることができる。
【0059】
前記スキル正規化タスク分解モデルは、与えられたタスクと、前記与えられたタスクを解決できるスキルとをマッチングすることができる。前記スキル正規化タスク分解モデルは、スキル正規化損失を使用してタスクエンコーダ及びタスクデコーダを学習させることができる。
【0060】
例えば、前記スキル正規化は、下記の数式2のスキル正規化損失を使用した学習により行われ得る。
【数5】
【0061】
【0062】
前記エピソード単位の前記タスクをnステップ単位の前記サブタスクに分解する動作を行うとき、前記スキル正規化タスク分解モデルは、前記スキル正規化過程で学習された前記タスクエンコーダを使用してサブタスクを推論することができる。
【0063】
つまり、前記スキル正規化タスク分解モデルは、タスクとスキルとをマッチングする過程により、エピソード単位のタスクをnステップ単位のサブタスクに分解することができる。
【0064】
図6は、仮想デモンストレーション生成によるデータ増強モデルの構造を示す図である。
【0065】
図6を参照すると、前記データ増強モデルは、複数の前記タスク間で前記サブタスクに対応する前記スキルを共有することにより、強化学習を行うことができる。
【0066】
前記データ増強モデルは、前記スキル正規化タスク分解モデルを使用して、与えられたタスクに合ったスキルを実行したときに生成されるデータを推論することにより、前記仮想デモンストレーションを生成することができる。
【0067】
前記データ増強モデルは、サブタスク情報を入力値に追加して学習することにより、学習データを増強することができる。
【0068】
例えば、前記仮想デモンストレーションは、下記の数式3に基づいて生成され得る。
【数6】
【0069】
【0070】
すなわち、本発明の強化学習モデルは、与えられたデータを使用してスキル正規化タスク分解モデルを学習させ、スキル正規化タスク分解により学習されたスキルデコーダおよびタスクデコーダを活用して高品質の仮想データを生成し、スキル正規化タスク分解により学習されたタスクエンコーダを使用して、サブタスク情報を強化学習エージェント入力値に追加して学習させることができる。
【0071】
このように、本発明の強化学習モデルによれば、データ品質が一定せず、データが不足しているマルチタスクオフライン強化学習環境において、データ品質を考慮したスキル正規化タスク分解により、制御モデルの効率的かつ安定的な学習が可能である。
【0072】
図7は、本発明の実施形態による強化学習モデルを適用したロボットアーム制御学習性能を示す図である。
【0073】
図7を参照すると、本発明の強化学習モデルを用いてロボットアーム制御学習を行った場合(SRTD+ID)は、他の比較群に比べて学習性能が向上していることがわかる。
【0074】
具体的には、図7に示すように、実験を通じて同じ時間学習したとき、本発明の強化学習モデルは、ソフトモジュラリゼーション(Soft Modularization)方式に比べて平均8.67~17.67%の性能向上を示していることがわかる。
【0075】
図8は、本発明の実施形態による強化学習モデルを適用したドローン走行学習性能を示す図である。
【0076】
図8を参照すると、本発明の強化学習モデルを用いてドローン自律走行学習を行った場合(SRTD+ID)は、他の比較群に比べて学習性能が向上していることがわかる。
【0077】
具体的には、図8に示すように、実験を通じて同じ時間学習したとき、本発明の強化学習モデルは、ソフトモジュラリゼーション(Soft Modularization)方式に比べて平均5.01~11.37%の性能向上を示していることがわかる。
【0078】
したがって、本発明の強化学習モデルは、ロボット、自律走行ドローン、スマートファクトリーなどの第4次産業に適用する場合、実際の環境と相互作用せずに強化学習を行う際に、データの品質が一定せず、データが不足するという問題を解決することができ、相互作用が不可能な様々な特性を持つ実際の世界で使用する強化学習を行う際に生じる問題を解決することができる。
【0079】
ただし、これについては上述したことがあるので、それについての重複する説明は省略することにする。
【0080】
以上で説明した装置は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素、及びソフトウェアの構成要素の組み合わせで実現され得る。例えば、実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、演算装置(ALU:arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、フィールドプログラマブルアレイ(FPA:field programmable array)、プログラマブルロジックコントローラ(PLU:programmable logic unit)、マイクロプロセッサ、または、命令(instruction)を実行して応答できる他の任意の装置のように、1つ以上の汎用コンピュータまたは特殊目的のコンピュータを用いて実現され得る。処理装置は、オペレーティングシステム(OS)及び前記オペレーティングシステム上で行われる1つ以上のソフトウェアアプリケーションを実行することができる。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、保存、操作、処理及び生成することもできる。理解の便宜上、処理装置は、1つの処理装置が使用されるものとして説明される場合もあるが、当該技術分野で通常の知識を有する者であれば、処理装置は、複数の処理要素(processing element)及び/又は複数のタイプの処理要素を含むことができることが分かる。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサ及び1つのコントローラを含むことができる。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。
【0081】
実施形態に係る方法は、様々なコンピュータ手段により様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組み合わせを含むことができる。前記媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよいし、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであって使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体(magnetic media)、CD-ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical media)、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを使用してコンピュータによって実行され得る高級言語コードをも含む。上述したハードウェア装置は、実施形態の動作を行うために1つ以上のソフトウェアモジュールで作動するように構成されてもよく、その逆も同様である。
【0082】
以上のように実施形態がたとえ限定された図面によって説明されたが、当該技術分野で通常の知識を有する者であれば、上記の記載から様々な修正及び変形が可能である。例えば、説明された技術が説明された方法とは異なる順序で行われたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって代用又は置換されたりしても、適切な結果を達成することができる。したがって、他の態様、他の実施形態、および特許請求の範囲と均等なものも、後述する特許請求の範囲の範囲に含まれる。

図1
図2
図3
図4
図5
図6
図7
図8