特許7537517 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7537517学習装置、学習方法および学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-13

(45)【発行日】2024-08-21

(54)【発明の名称】学習装置、学習方法および学習プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240814BHJP

【ＦＩ】

G06N20/00

【請求項の数】 9

(21)【出願番号】P 2022570960

(86)(22)【出願日】2020-12-25

(86)【国際出願番号】 JP2020048791

(87)【国際公開番号】W WO2022137520

(87)【国際公開日】2022-06-30

【審査請求日】2023-06-07

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103090

【弁理士】

【氏名又は名称】岩壁冬樹

(74)【代理人】

【識別番号】100124501

【弁理士】

【氏名又は名称】塩川誠人

(72)【発明者】

【氏名】江藤力

【審査官】渡辺一帆

(56)【参考文献】

【文献】国際公開第２０１９／１５５０５２（ＷＯ，Ａ１）

【文献】特開２０２０－１７７０１６（ＪＰ，Ａ）

【文献】国際公開第２０１８／１３１２１４（ＷＯ，Ａ１）

【文献】ラシュカセバスチャンほか，"17.3 畳み込み層とワッサースタイン距離を使って合成画像の品質を改善する"，［第3版］ Python機械学習プログラミング達人データサイエンティストによる理論と実践，第1版，株式会社インプレス，2020年10月，pp. 548-567，ISBN 978-4-295-01007-4

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００－２０／２０

(57)【特許請求の範囲】

【請求項1】

リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力手段と、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定手段と、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する更新手段とを備えた
ことを特徴とする学習装置。

【請求項2】

更新手段は、非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新する
請求項１記載の学習装置。

【請求項3】

更新手段は、パラメータ更新後のワッサースタイン距離が大きくなるように、一回前の更新時のワッサースタイン距離の勾配に対する今回の更新時のワッサースタイン距離の勾配の比の値と、一回前の更新時のステップ幅との積の値以下のステップ幅で報酬関数のパラメータを更新する
請求項１または請求項２記載の学習装置。

【請求項4】

ワッサースタイン距離が収束したか否か判定する判定手段を備え、
ワッサースタイン距離が収束していないと判定された場合、推定手段は、熟練者の軌跡の確率分布と、更新された報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定し、更新手段は、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する
請求項１から請求項３のうちのいずれか１項に記載の学習装置。

【請求項5】

関数入力手段は、線形関数になるように特徴量が設定された報酬関数の入力を受け付ける
請求項１から請求項４のうちのいずれか１項に記載の学習装置。

【請求項6】

リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付け、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定し、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する
ことを、コンピュータに実行させることを特徴とする学習方法。

【請求項7】

非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新する
請求項６記載の学習方法。

【請求項8】

コンピュータに、
リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力処理、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定処理、および、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する更新処理
を実行させるための学習プログラム。

【請求項9】

コンピュータに、
更新処理で、非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新させる
請求項８記載の学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。

【背景技術】

【0002】

機械学習の手法の一つに強化学習（ＲＬ：Reinforcement Learning）が知られている。強化学習は、様々な行動を試行錯誤しながら価値を最大化するような行動を学習する手法である。強化学習では、この価値を評価するための報酬関数が設定され、この報酬関数を最大にするような行動が探索される。しかし、報酬関数の設定は、一般には困難である。

【0003】

この報酬関数の設定を容易にする方法として、逆強化学習（ＩＲＬ：Inverse Reinforcement Learning）が知られている。逆強化学習では、熟練者の意思決定履歴データを利用して、報酬関数を用いた最適化と、報酬関数のパラメータの更新とを繰り返すことで、熟練者の意図を反映する報酬関数を生成する。

【0004】

非特許文献１には、逆強化学習の一つである最大エントロピー逆強化学習（ＭＥ－ＩＲＬ：Maximum Entropy-IRL ）について記載されている。非特許文献１に記載された方法では、熟練者のデータＤ＝｛τ_１，τ_２，…τ_Ｎ｝（ただし、τ_ｉ＝（（ｓ_１，ａ_１），（ｓ_２，ａ_２），…，（ｓ_Ｎ，ａ_Ｎ）））からただ１つの報酬関数Ｒ（ｓ，ａ）＝θ・ｆ（ｓ，ａ）を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。

【0005】

また、非特許文献２には、最大エントロピー逆強化学習を改良した逆強化学習の手法の一つであるＧＣＬ（Guided Cost Learning）について記載されている。非特許文献２に記載された手法では、重点サンプリングを用いて報酬関数の重みを更新する。

【0006】

また、報酬関数を学習する逆強化学習と、方策を直接学習する行動模倣とを合わせて、与えられた行動履歴を再現する模倣学習も知られている（例えば、非特許文献３参照）。

【先行技術文献】

【非特許文献】

【0007】

【文献】B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, “Maximum entropy inverse reinforcement learning”, In AAAI, AAAI’08, 2008.

【文献】Chelsea Finn, Sergey Levine, Pieter Abbeel, "Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization", Proceedings of The 33rd International Conference on Machine Learning, PMLR 48, pp.49-58, 2016.

【文献】Jonathan Ho, Stefano Ermon, "Generative adversarial imitation learning", NIPS'16: Proceedings of the 30th International Conference on Neural Information Processing Systems, pp.4572-4580, December 2016

【発明の概要】

【発明が解決しようとする課題】

【0008】

逆強化学習や模倣学習では、再現したい熟練者の行動履歴と、最適化された実行結果との差異を小さくするように報酬関数が学習される。非特許文献１～３に記載された逆強化学習や模倣学習では、ＫＬ（Kullback-Leibler）ダイバージェンスや、ＪＳ（Jensen-Shannon）ダイバージェンスのような確率的な距離で上述する差異が定義される。

【0009】

ここで、報酬関数のパラメータを更新する際、一般には勾配法が用いられる。しかし、組み合わせ最適化問題では確率分布の設定が難しく、実問題の多くが属している組み合わせ最適化問題に上述するような逆強化学習を適用することが困難である。

【0010】

そこで、本発明は、組み合わせ最適化問題において、安定的に逆強化学習を実施できる学習装置、学習方法および学習プログラムを提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明による学習装置は、リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力手段と、熟練者の軌跡の確率分布と、報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定手段と、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する更新手段とを備えたことを特徴とする。

【0012】

本発明による学習方法は、リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付け、熟練者の軌跡の確率分布と、報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定し、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新することを、コンピュータに実行させることを特徴とする。

【0013】

本発明による学習プログラムは、コンピュータに、リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力処理、熟練者の軌跡の確率分布と、報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定処理、および、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する更新処理を実行させることを特徴とする。

【発明の効果】

【0014】

本発明によれば、組み合わせ最適化問題において、安定的に逆強化学習を実施できる。

【図面の簡単な説明】

【0015】

【図1】本発明による学習装置の一実施形態の構成例を示すブロック図である。

【図2】ワッサースタイン距離を用いた逆強化学習の例を示す説明図である。

【図3】学習装置の動作例を示すフローチャートである。

【図4】本発明による学習装置の概要を示すブロック図である。

【図5】少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

【発明を実施するための形態】

【0016】

まず初めに、一般的な逆強化学習を、組み合わせ最適化問題に適用することが困難な理由を説明する。非特許文献１に記載されたＭＥ－ＩＲＬでは、熟練者の軌跡（行動履歴）を再現する報酬関数が複数存在するという不定性を解決するため、最大エントロピー原理を用いて軌跡の分布を指定し、真の分布へ近づけること（すなわち、最尤推定）により報酬関数を学習する。

【0017】

ＭＥ－ＩＲＬでは、軌跡τは、以下に例示する式１で表わされ、軌跡の分布ｐ_θ（τ）を表わす確率モデルは、以下に例示する式２で表わされる。式２におけるｃ_θ（τ）は、コスト関数であり、符号を逆転させる（すなわち、－ｃ_θ（τ））ことで報酬関数ｒ_θ（τ）を表わす（式３参照）。また、Ｚは、全ての軌跡に対する報酬の総和を表わす（式４参照）。

【0018】

【数1】

【0019】

そして、最尤推定による報酬関数の重みの更新則（具体的には、勾配上昇法）は、以下に例示する式５および式６で表わされる。式５におけるαはステップ幅であり、Ｌ_ＭＥ（θ）は、ＭＥ－ＩＲＬで用いられる分布間の距離尺度である。

【0020】

【数2】

【0021】

上述するように、式６における第２項は、全ての軌跡に対する報酬の総和である。ＭＥ－ＩＲＬでは、この第２項の値を厳密に計算できることを前提としている。しかし、現実的には、全ての軌跡に対する報酬の総和を計算することは困難であるため、非特許文献２に記載されたＧＣＬでは、重点サンプリングで近似的にこの値を算出する。

【0022】

しかし、組み合わせ最適化問題は、離散的な値（言い換えると、連続的ではない値）をとるため、ある値を入力したときに、その値に対応する確率を返す確率分布の設定が難しい。組み合わせ最適化問題では、目的関数における値が少しでも変化すると、結果も大きく変化する可能性があるためである。

【0023】

例えば、典型的な組み合わせ最適化問題の例として、経路問題やスケジューリング問題、切り出し・詰め込み問題や割り当て・マッチング問題などが挙げられる。具体的には、経路問題は、例えば、運搬経路問題や巡回セールスマン問題などであり、スケジューリング問題は、例えば、ジョブショップ問題や勤務スケジュール問題などである。また、切り出し・詰め込み問題は、例えば、ナップサック問題やビンパッキング問題などであり、割り当て・マッチング問題は、最大マッチング問題や一般化割当問題などである。

【0024】

本開示の学習装置を用いることで、これらの組み合わせ最適化問題において、安定的に逆強化学習を実施することが可能になる。以下、本発明の実施形態を図面を参照して説明する。

【0025】

図１は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置１００は、機械学習により、対象者（熟練者）の行動から報酬関数を推定する逆強化学習を行う装置であり、熟練者の行動特性に基づく情報処理を具体的に行う装置である。学習装置１００は、記憶部１０と、入力部２０と、特徴量設定部３０と、重み初期値設定部４０と、数理最適化実行部５０と、重み更新部６０と、収束判定部７０と、出力部８０とを備えている。

【0026】

なお、数理最適化実行部５０、重み更新部６０および収束判定部７０により、後述する逆強化学習が行われることから、数理最適化実行部５０、重み更新部６０および収束判定部７０を含む装置を、逆強化学習装置と言うことができる。

【0027】

記憶部１０は、学習装置１００が各種処理を行うために必要な情報を記憶する。記憶部１０は、後述する入力部２０が受け付けた熟練者の意思決定履歴データ（軌跡）を記憶してもよい。また、記憶部１０は、後述する数理最適化実行部５０および重み更新部６０が学習に用いる報酬関数の特徴量の候補を記憶していてもよい。ただし、特徴量の候補は、必ずしも目的関数に使用される特徴量である必要はない。

【0028】

また、記憶部１０は、後述する数理最適化実行部５０を実現するための数理最適化ソルバを記憶していてもよい。なお、数理最適化ソルバの内容は任意であり、実行する環境や装置に応じて決定されればよい。

【0029】

入力部２０は、学習装置１００が各種処理を行うために必要な情報の入力を受け付ける。入力部２０は、例えば、上述する熟練者の意思決定履歴データ（具体的には、状態と行動のペア）の入力を受け付けてもよい。また、入力部２０は、後述する逆強化学習装置が逆強化学習を行う際に用いる初期状態の制約ｚの入力を受け付けてもよい。

【0030】

特徴量設定部３０は、状態および行動を含むデータから、報酬関数の特徴量を設定する。具体的には、特徴量設定部３０は、後述する逆強化学習装置が分布間の距離尺度としてワッサースタイン（Ｗａｓｓｅｒｓｔｅｉｎ）距離を利用できるように、関数全体で接線の勾配が有限になるように報酬関数の特徴量を設定する。特徴量設定部３０は、例えば、リプシッツ連続条件を満たすように報酬関数の特徴量を設定してもよい。

【0031】

例えば、ｆ_τを軌跡τの特徴量ベクトルとする。コスト関数ｃ_θ（τ）＝θ^Ｔｆ_τと線形に限定した場合、写像Ｆ：τ→ｆ_τがリプシッツ連続であれば、ｃ_θ（τ）もリプシッツ連続である。そのため、特徴量設定部３０は、報酬関数が線形関数になるように特徴量を設定してもよい。

【0032】

なお、例えば、以下に例示する式７は、ａ_０において勾配が無限大になってしまうため、本開示において不適切な報酬関数と言える。

【0033】

【数3】

【0034】

特徴量設定部３０は、例えば、ユーザの指示に応じて特徴量が設定された報酬関数を決定してもよく、記憶部１０からリプシッツ連続条件を満たす報酬関数を取得してもよい。

【0035】

重み初期値設定部４０は、報酬関数の重みを初期化する。具体的には、重み初期値設定部４０は、報酬関数に含まれる個々の特徴量の重みを設定する。なお、重みを初期化する方法は特に限定されず、ユーザ等に応じて予め定められた任意の方法に基づいて重みが初期化されればよい。

【0036】

数理最適化実行部５０は、熟練者の軌跡（行動履歴）の確率分布と、最適化された（報酬関数の）パラメータに基づいて決定される軌跡の確率分布との間の距離を最小にする軌跡τ^＾（τ^＾は、τの上付き＾）を導出する。具体的には、数理最適化実行部５０は、分布間の距離尺度として、ＫＬ／ＪＳダイバージェンスの代わりにワッサースタイン距離を利用して、そのワッサースタイン距離を最小にするよう数理最適化を実行することにより、熟練者の軌跡τ^＾を推定する。

【0037】

ワッサースタイン距離は、以下に例示する式８で定義される。なお、ワッサースタイン距離の制約から、コスト関数ｃ_θ（τ）は、リプシッツ連続条件を満たす関数である必要がある。一方、本実施形態では、特徴量設定部３０によってリプシッツ連続条件を満たすように報酬関数の特徴量が設定されているため、数理最適化実行部５０は、以下に例示するようなワッサースタイン距離を利用することが可能になる。

【0038】

【数4】

【0039】

上記に例示する式８で定義されるワッサースタイン距離は０以下の値をとり、この値を大きくすることが、分布同士を近づけることに対応する。また、式８の第２項において、コスト関数ｃ_θの引数（すなわち、τ^＾（θ，ｚ^（ｉ）））は、パラメータθで最適化したｉ番目の軌跡を表わす。なお、ｚは、軌跡パラメータである。式８の第２項は、組み合わせ最適化問題でも算出可能な項である。そのため、式８に例示するワッサースタイン距離を分布間の距離尺度として用いることで、組み合わせ最適化問題において、安定的に逆強化学習を実施することが可能になる。

【0040】

重み更新部６０は、推定された熟練者の軌跡τ^＾に基づいて分布間の距離尺度を最大にするように報酬関数のパラメータθを更新する。具体的には、重み更新部６０は、上述するワッサースタイン距離を最大にするように報酬関数のパラメータを更新する。重み更新部６０は、例えば、推定された軌跡τ^＾を固定して、勾配上昇法によりパラメータを更新してもよい。

【0041】

また、本実施形態では、重み更新部６０は、報酬関数のパラメータを更新する際、ワッサースタイン距離を単調増加させるために、非拡大写像による更新則（以下、非拡大写像勾配法と記すこともある。）を用いてもよい。以下、非拡大写像勾配法について詳述する。

【0042】

ここでは、報酬関数として線形関数が用いられる場合を例示する。上記のように軌跡τの特徴量ベクトルをｆ_τとすると、報酬関数は、以下に例示する式９のように表される。

【0043】

【数5】

【0044】

このとき、ワッサースタイン距離の単調増加性を保証するため、任意の軌跡τ_ａおよび軌跡τ_ｂ、並びに、各軌跡に対する特徴量ベクトルｆ_τａおよび特徴量ベクトルｆ_τｂについて、以下の式１０に例示する関係を満たす定数Ｋが存在する必要がある。

【0045】

【数6】

【0046】

ここで、上記に示す式１０は、以下に例示する式１１のように書き換えることができる。

【0047】

【数7】

【0048】

ｔ回目に更新される報酬関数のパラメータをθ_ｔ、ワッサースタイン距離をＷ（θ_ｔ）、および、ステップ幅をα_ｔとする。このとき、報酬関数のパラメータの更新則は、以下に例示する式１２のように表すことができる。

【0049】

【数8】

【0050】

重み更新部６０は、報酬関数のパラメータの更新則（すなわち、θ（ｔ）→θ（ｔ＋１））が非拡大写像になるという制約下で、ワッサースタイン距離を大きくする勾配のステップ幅を探索し、そのステップ幅で報酬関数のパラメータを更新する。具体的には、重み更新部６０は、以下の式１３および式１４に示す条件を満たすステップ幅α_ｔで報酬関数のパラメータを更新する。

【0051】

【数9】

【0052】

式１３および式１４は、パラメータ更新後のワッサースタイン距離が大きくなる（Ｗ（θ_ｔ＋１）＞Ｗ（θ_ｔ））ように、一回前の更新時ｔ－１のワッサースタイン距離Ｗ（θ_ｔ－１）の勾配∇Ｗ（θ_ｔ－１）に対する今回の更新時ｔのワッサースタイン距離Ｗ（θ_ｔ）の勾配∇Ｗ（θ_ｔ）の比（||∇Ｗ（θ_ｔ－１）||/||∇Ｗ（θ_ｔ）||）の値と一回前の更新時ｔ－１のステップ幅α_ｔ－１との積以下になるような正のステップ幅α_ｔの値を探索することを示す。

【0053】

例えば、組み合わせ最適化問題の場合、数理最適化実行部５０による推定結果が報酬関数の変化に対して不連続になる場合がある。具体的には、ある値の最大化と最小化とを交互に実施する更新では、多くの場合、その値が振動し、収束するまでに時間を要することがある。一方、本実施形態では、数理最適化実行部５０が、上述する非拡大写像勾配法を用いることで、ワッサースタイン距離の単調増加性を保証しながらパラメータを更新することが可能になる。

【0054】

以降、後述する収束判定部７０によって、ワッサースタイン距離が収束されたと判定されるまで、数理最適化実行部５０による軌跡の推定処理、および、重み更新部６０によるパラメータの更新処理が繰り返される。

【0055】

収束判定部７０は、分布間の距離尺度が収束したか否か判定する。具体的には、収束判定部７０は、ワッサースタイン距離が収束したか否か判定する。判定方法は任意であり、収束判定部７０は、例えば、分布間のワッサースタイン距離の絶対値が予め定めた閾値より小さくなったときに、分布間の距離尺度が収束したと判定してもよい。

【0056】

収束判定部７０は、距離が収束していないと判断した場合、数理最適化実行部５０および重み更新部６０による処理を継続させる。一方、収束判定部７０は、距離が収束したと判断した場合、数理最適化実行部５０および重み更新部６０による処理を終了させる。

【0057】

出力部８０は、学習された報酬関数を出力する。

【0058】

図２は、ワッサースタイン距離を用いた逆強化学習の例を示す説明図である。なお、本開示で示すワッサースタイン距離を用いた逆強化学習のことを、Wasserstein IRL （ＷＩＲＬ）と記すこともある。

【0059】

まず、初期状態の制約ｚおよび初期値が設定されたパラメータθの報酬関数に基づき、最適化ソルバを用いて、ワッサースタイン距離を最小化するよう数理最適化を行うことで軌跡τ^＾を推定する。なお、図２に例示する最適化ソルバは、数理最適化実行部５０に対応する。

【0060】

一方、推定された軌跡τ^＾と入力された熟練者の軌跡τに基づいて、ワッサースタイン距離を最大化するよう数理最適化を行うことで報酬関数（コスト関数）のパラメータを更新する。この処理は、重み更新部６０の処理に対応する。

【0061】

以降、ワッサースタイン距離が収束したと判定されるまで、図２に例示する処理が繰り返される。

【0062】

入力部２０と、特徴量設定部３０と、重み初期値設定部４０と、数理最適化実行部５０と、重み更新部６０と、収束判定部７０と、出力部８０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ））によって実現される。

【0063】

例えば、プログラムは、学習装置１００が備える記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２０、特徴量設定部３０、重み初期値設定部４０、数理最適化実行部５０、重み更新部６０、収束判定部７０および出力部８０として動作してもよい。また、学習装置１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

【0064】

また、入力部２０と、特徴量設定部３０と、重み初期値設定部４０と、数理最適化実行部５０と、重み更新部６０と、収束判定部７０と、出力部８０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

【0065】

また、学習装置１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

【0066】

次に、本実施形態の学習装置１００の動作を説明する。図３は、本実施形態の学習装置１００の動作例を示すフローチャートである。入力部２０は、エキスパートデータ（すなわち、熟練者の軌跡／意思決定履歴データ）の入力を受け付ける（ステップＳ１１）。特徴量設定部３０は、状態および行動を含むデータから、リプシッツ連続条件を満たすように報酬関数の特徴量を設定する（ステップＳ１２）。また、重み初期値設定部４０は、報酬関数の重み（パラメータ）を初期化する（ステップＳ１３）。

【0067】

数理最適化実行部５０は、リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける（ステップＳ１４）。そして、数理最適化実行部５０は、ワッサースタイン距離を最小にするように数理最適化を実行する（ステップＳ１５）。具体的には、数理最適化実行部５０は、熟練者の軌跡の確率分布と、報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する。

【0068】

重み更新部６０は、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する（ステップＳ１６）。重み更新部６０は、例えば、非拡大写像勾配法を用いて報酬関数のパラメータを更新してもよい。

【0069】

収束判定部７０は、ワッサースタイン距離が収束したか否か判定する（ステップＳ１７）。ワッサースタイン距離が収束していないと判定された場合（ステップＳ１７におけるＮｏ）、更新された軌跡を用いてステップＳ１５以降の処理が繰り返される。一方、ワッサースタイン距離が収束したと判定された場合（ステップＳ１７におけるＹｅｓ）、出力部８０は、学習された報酬関数を出力する（ステップＳ１８）。

【0070】

以上のように、本実施形態では、数理最適化実行部５０が、リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付け、熟練者の軌跡の確率分布と、報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する。そして、重み更新部６０が、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する。よって、組み合わせ最適化問題において、安定的に逆強化学習を実施できる。

【0071】

次に、本発明の概要を説明する。図４は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置９０（例えば、学習装置１００）は、リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力手段９１（例えば、数理最適化実行部５０）と、熟練者の軌跡の確率分布と、報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定手段９２（例えば、数理最適化実行部５０）と、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する更新手段９３（例えば、重み更新部６０）とを備えている。

【0072】

そのような構成により、組み合わせ最適化問題において、安定的に逆強化学習を実施できる。

【0073】

更新手段９３は、非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新してもよい。

【0074】

具体的には、更新手段９３は、パラメータ更新後のワッサースタイン距離（例えば、Ｗ（θ））が大きくなるように（すなわち、Ｗ（θ_ｔ＋１）＞Ｗ（θ_ｔ））、一回前の更新時（ｔ－１回目）のワッサースタイン距離の勾配（例えば、∇Ｗ（θ_ｔ－１））に対する今回の更新時（例えば、ｔ回目）のワッサースタイン距離の勾配（例えば、∇Ｗ（θ_ｔ））の比の値と、一回前の更新時のステップ幅（例えば、α_ｔ－１）との積の値以下のステップ幅（例えば、α_ｔ）で報酬関数のパラメータを更新してもよい（例えば、式１３および式１４参照）。

【0075】

また、学習装置９０は、ワッサースタイン距離が収束したか否か判定する判定手段（例えば、収束判定部７０）を備えていてもよい。そして、ワッサースタイン距離が収束していないと判定された場合、推定手段９２は、熟練者の軌跡の確率分布と、更新された報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定し、更新手段９３は、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新してもよい。

【0076】

また、関数入力手段９１は、線形関数になるように特徴量が設定された報酬関数の入力を受け付けてもよい。

【0077】

図５は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

【0078】

上述の学習装置９０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

【0079】

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

【0080】

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0081】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0082】

（付記１）リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力手段と、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定手段と、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する更新手段とを備えた
ことを特徴とする学習装置。

【0083】

（付記２）更新手段は、非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新する
付記１記載の学習装置。

【0084】

（付記３）更新手段は、パラメータ更新後のワッサースタイン距離が大きくなるように、一回前の更新時のワッサースタイン距離の勾配に対する今回の更新時のワッサースタイン距離の勾配の比の値と、一回前の更新時のステップ幅との積の値以下のステップ幅で報酬関数のパラメータを更新する
付記１または付記２記載の学習装置。

【0085】

（付記４）ワッサースタイン距離が収束したか否か判定する判定手段を備え、
ワッサースタイン距離が収束していないと判定された場合、推定手段は、熟練者の軌跡の確率分布と、更新された報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定し、更新手段は、推定された軌跡に基づいてワッサースタイン距離を最大にするように報酬関数のパラメータを更新する
付記１から付記３のうちのいずれか１つに記載の学習装置。

【0086】

（付記５）関数入力手段は、線形関数になるように特徴量が設定された報酬関数の入力を受け付ける
付記１から付記４のうちのいずれか１つに記載の学習装置。

【0087】

（付記６）リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付け、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定し、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する
ことを特徴とする学習方法。

【0088】

（付記７）非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新する
付記６記載の学習方法。

【0089】

（付記８）コンピュータに、
リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力処理、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定処理、および、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する更新処理
を実行させるための学習プログラムを記憶するプログラム記憶媒体。

【0090】

（付記９）コンピュータに、
更新処理で、非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新させる
ための学習プログラムを記憶する付記８記載のプログラム記憶媒体。

【0091】

（付記１０）コンピュータに、
リプシッツ連続条件を満たすように特徴量が設定された報酬関数の入力を受け付ける関数入力処理、
熟練者の軌跡の確率分布と、前記報酬関数のパラメータに基づいて決定される軌跡の確率分布との距離を表わすワッサースタイン距離を最小にする軌跡を推定する推定処理、および、
推定された軌跡に基づいて前記ワッサースタイン距離を最大にするように前記報酬関数のパラメータを更新する更新処理
を実行させるための学習プログラム。

【0092】

（付記１１）コンピュータに、
更新処理で、非拡大写像による更新則である非拡大写像勾配法を用いて報酬関数のパラメータを更新させる
付記１０記載の学習プログラム。

【符号の説明】

【0093】

１０記憶部
２０入力部
３０特徴量設定部
４０重み初期値設定部
５０数理最適化実行部
６０重み更新部
７０収束判定部
１００学習装置

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版