特開2024-161737 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2024-161737制御装置、制御方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024161737

(43)【公開日】2024-11-20

(54)【発明の名称】制御装置、制御方法およびプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241113BHJP

【ＦＩ】

G06T7/00 350B

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2023076716

(22)【出願日】2023-05-08

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】董青秀雄

(72)【発明者】

【氏名】金子敏充

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA05

5L096DA02

5L096EA07

5L096EA16

5L096EA35

5L096KA04

(57)【要約】

【課題】制御対象の行動をより高精度に決定する。
【解決手段】制御装置は、取得部、第１行動計算部、観測加工部、第２行動計算部、決定部、および、対象制御部を備える。取得部は、制御対象の行動の決定に用いる第１観測情報を取得する。第１行動計算部は、第１観測情報を入力して制御対象の第１行動を出力するように学習された第１モデルを用いて、第１観測情報に対する第１行動を計算する。観測加工部は、第１行動に基づいて第１観測情報を加工して第２観測情報を出力する。第２行動計算部は、第２観測情報を入力して制御対象の第２行動を出力するように学習された第２モデルを用いて、第２観測情報に対する第２行動を計算する。決定部は、第１行動と第２行動とに基づいて制御対象の行動を決定する。対象制御部は、決定された行動をとるように制御対象を制御する。
【選択図】図２

【特許請求の範囲】

【請求項1】

制御対象の行動の決定に用いる第１観測情報を取得する取得部と、
前記第１観測情報を入力して前記制御対象の第１行動を出力するように学習された第１モデルを用いて、前記第１観測情報に対する前記第１行動を計算する第１行動計算部と、
前記第１行動に基づいて前記第１観測情報を加工して第２観測情報を出力する観測加工部と、
前記第２観測情報を入力して前記制御対象の第２行動を出力するように学習された第２モデルを用いて、前記第２観測情報に対する前記第２行動を計算する第２行動計算部と、
前記第１行動と前記第２行動とに基づいて前記制御対象の行動を決定する決定部と、
決定された行動をとるように前記制御対象を制御する対象制御部と、
を備える制御装置。

【請求項2】

前記第２観測情報を用いて、前記第２モデルの更新に用いる第２行動価値を計算し、計算した前記第２行動価値を用いて前記第２モデルを更新する第２更新部と、
前記第２観測情報と前記第２行動価値とを用いて、前記第１モデルの更新に用いる第１行動価値を計算し、計算した前記第１行動価値を用いて前記第１モデルを更新する第１更新部と、
をさらに備える、
請求項１に記載の制御装置。

【請求項3】

前記制御対象の行動を加工する行動加工部をさらに備え、
前記観測加工部は、加工された行動に基づいて、前記第１観測情報を加工して前記第２観測情報を出力する、
請求項２に記載の制御装置。

【請求項4】

前記第１更新部は、さらに、前記第１観測情報を用いて前記第１行動価値を計算し、計算した前記第１行動価値を用いて前記第１モデルを更新する、
請求項２に記載の制御装置。

【請求項5】

前記第１更新部は、前記第２行動を実行しないと仮定した更新式と、前記第１行動価値を用いて、前記第１モデルを更新する、
請求項２に記載の制御装置。

【請求項6】

前記第１更新部は、前記第２行動を実行すると仮定した更新式と、前記第１行動価値を用いて、前記第１モデルを更新する、
請求項２に記載の制御装置。

【請求項7】

前記第２更新部は、決定された行動に対する報酬に、決定された行動の乱雑さを付加した項を含む更新式を用いて前記第２モデルを更新する、
請求項２に記載の制御装置。

【請求項8】

前記第１更新部は、決定された行動に対する報酬に、決定された行動の乱雑さを付加した項を含む更新式を用いて前記第１モデルを更新する、
請求項２に記載の制御装置。

【請求項9】

前記第１観測情報は、画像であり、
前記観測加工部は、前記画像の切り取り、回転、および、透視変換のうち少なくとも１つを行う、
請求項１に記載の制御装置。

【請求項10】

前記観測加工部は、前記第１観測情報に対して、前記第１行動を示す情報、前記第１行動について計算された報酬、および、時刻、の少なくとも１つを追加する、
請求項１に記載の制御装置。

【請求項11】

前記決定部は、前記第１行動と前記第２行動とを用いた線形変換、および、前記第１行動と前記第２行動との乗算、の少なくとも一方により、前記制御対象の行動を決定する、
請求項１に記載の制御装置。

【請求項12】

前記観測加工部は、
前記第１観測情報に関連する情報を用いて、前記第１観測情報を加工する、
請求項１に記載の制御装置。

【請求項13】

前記第２行動計算部により計算された前記第２行動を出力する出力制御部をさらに備える、
請求項１に記載の制御装置。

【請求項14】

制御装置で実行される制御方法であって、
制御対象の行動の決定に用いる第１観測情報を取得する取得ステップと、
前記第１観測情報を入力して前記制御対象の第１行動を出力するように学習された第１モデルを用いて、前記第１観測情報に対する前記第１行動を計算する第１行動計算ステップと、
前記第１行動に基づいて前記第１観測情報を加工して第２観測情報を出力する観測加工ステップと、
前記第２観測情報を入力して前記制御対象の第２行動を出力するように学習された第２モデルを用いて、前記第２観測情報に対する前記第２行動を計算する第２行動計算ステップと、
前記第１行動と前記第２行動とに基づいて前記制御対象の行動を決定する決定ステップと、
決定された行動をとるように前記制御対象を制御する対象制御ステップと、
を含む制御方法。

【請求項15】

コンピュータに、
制御対象の行動の決定に用いる第１観測情報を取得する取得ステップと、
前記第１観測情報を入力して前記制御対象の第１行動を出力するように学習された第１モデルを用いて、前記第１観測情報に対する前記第１行動を計算する第１行動計算ステップと、
前記第１行動に基づいて前記第１観測情報を加工して第２観測情報を出力する観測加工ステップと、
前記第２観測情報を入力して前記制御対象の第２行動を出力するように学習された第２モデルを用いて、前記第２観測情報に対する前記第２行動を計算する第２行動計算ステップと、
前記第１行動と前記第２行動とに基づいて前記制御対象の行動を決定する決定ステップと、
決定された行動をとるように前記制御対象を制御する対象制御ステップと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、制御装置、制御方法およびプログラムに関する。

【背景技術】

【0002】

ロボット（制御対象の一例）を用いたピッキング作業において、画像からロボットの行動を決定する方策を強化学習によって習得する技術が提案されている。このような技術では、ピッキングの成否は、基本的にエンドエフェクタと把持対象物（ピッキングの対象物）の周辺画像のみで判別できる。従って、方策として画像の局所的な部分のみに注目すればよい。

【0003】

一方、このような技術では、制御対象の行動は、最も重要なピクセルの周辺画像のみから決定される。従って、全体的な状態、例えばカメラ角度の変更による影響を行動に反映させることは困難である。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】James, S., & Davison, A. J., “Q-attention: Enabling efficient learning for vision-based robotic manipulation,” IEEE Robotics and Automation Letters, 7(2), 1612-1619, (2022).

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、制御対象の行動をより高精度に決定できる制御装置、制御方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

実施形態の制御装置は、取得部、第１行動計算部、観測加工部、第２行動計算部、決定部、および、対象制御部を備える。取得部は、制御対象の行動の決定に用いる第１観測情報を取得する。第１行動計算部は、第１観測情報を入力して制御対象の第１行動を出力するように学習された第１モデルを用いて、第１観測情報に対する第１行動を計算する。観測加工部は、第１行動に基づいて第１観測情報を加工して第２観測情報を出力する。第２行動計算部は、第２観測情報を入力して制御対象の第２行動を出力するように学習された第２モデルを用いて、第２観測情報に対する第２行動を計算する。決定部は、第１行動と第２行動とに基づいて制御対象の行動を決定する。対象制御部は、決定された行動をとるように制御対象を制御する。

【図面の簡単な説明】

【0007】

【図1】実施形態の制御システムの構成例を示す図。

【図2】実施形態の制御装置のブロック図

【図3】観測情報の加工の例を示す図。

【図4】実施形態における制御処理のフローチャート。

【図5】実施形態における学習処理のフローチャート。

【図6】変形例の制御装置のブロック図。

【図7】実施形態の制御装置のハードウェア構成図。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、この発明にかかる制御装置の好適な実施形態を詳細に説明する。以下では、物体（物品）を把持するロボット（ピッキングロボット）を制御する制御装置を含む制御システムを例として説明する。制御対象はロボットに限られず、どのような対象であってもよい。

【0009】

上記のように、画像からロボットの行動を決定する方策を強化学習によって習得する技術が提案されている。例えば、初めに画像のピクセルごとに重要度を計算し、最も重要なピクセルの周辺で画像を切り出し、周辺画像からピッキングロボットの行動を決定する技術が提案されている。この技術でも、最も重要なピクセルの周辺画像のみから行動が決定されるため、全体的な状態の変更による影響を行動の決定に反映させることは困難である。

【0010】

また、上記のような技術では、学習時にはピクセルごとに重要度を計算する部分と、周辺画像からピッキングロボットの行動を計算する部分と、が独立に学習される。従って、一般に学習のサンプル効率が悪くなるという問題がある。

【0011】

以下の実施形態では、上記の２つの部分を適切に変更することで、互いに結び付けて学習することを可能にし、学習効率を向上させることができる。

【0012】

具体的には方策を用いた行動の決定を以下の二段階に分ける。一段階目ではピクセルの重要度の代わりに、大まかな行動が決定される。以下、大まかな行動を行動ＡＡ（第１行動）という。二段階目では、行動ＡＡに従って画像が切り出され、切り出された画像から補正した行動が決定される。以下では、補正した行動を行動ＡＢ（第２行動）という。

【0013】

これによって、全体の情報は行動ＡＡに反映させることができる。一段階目の出力（行動ＡＡ）および二段階目の出力（行動ＡＢ）は、行動の値という意味で同等な出力である。このため、学習時には、行動価値を両方に共通する形で計算することができ、学習のサンプル効率を向上させることができる。

【0014】

最初に、ロボットなどの制御の学習に用いられる強化学習について簡単に説明する。

【0015】

強化学習は、ある時刻ｔにおいて入力された状態ｓ_ｔから行動ａ_ｔを決定する方策を学習する方法である。時刻ｔにおける観測情報またはその一部が状態ｓ_ｔに相当し、制御情報が行動ａ_ｔに相当する。方策は、例えば確率分布π（ａ_ｔ｜ｓ_ｔ）などのモデルにより表される。以下では、確率分布πにより表される方策をπと表す場合がある。

【0016】

観測情報は、例えば、カメラなどの撮影装置により撮像された把持対象物を含む画像、ロボットの内部状態の情報、および、補助的な状態（現在の制御時刻など）を示す情報を含む。制御情報は、制御対象であるロボットを制御するための情報であり、例えば、ロボットが備えるエンドエフェクタの座標および回転角などを示す情報である。

【0017】

エンドエフェクタは、ハンド、または、マニピュレータなどと称される場合がある。エンドエフェクタは、例えば、把持対象物を挟む込むことにより把持するグリッパ、および、把持対象物を吸着することにより保持する吸着パッドの少なくとも一方を備えるように構成することができる。

【0018】

行動ａ_ｔは、どのような形式で表されてもよい。ロボットの場合、行動ａ_ｔは、例えば以下のような要素を含む８次元の情報で表されてもよい。
・位置座標を示す３次元の情報（ｘ、ｙ、ｚ座標など）
・回転を示す４次元の情報（四元数）
・グリッパの開閉を示す１次元の情報

【0019】

方策は、例えば確率値または確率モデルのパラメータを出力するニューラルネットワークモデル（以下、単にニューラルネットワークという場合がある）で学習される。言い換えると、方策は、ニューラルネットワークなどのモデルにより表される。そして、このモデルを学習することにより、方策の学習が実現される。

【0020】

例えば強化学習は、以下の（１）式で表される割引累積報酬の期待値を最大化する方策π（ａ_ｔ｜ｓ_ｔ）を学習することが目的である。

【数1】

【0021】

ここでｒ（ｓ_ｔ，ａ_ｔ）は、状態ｓ_ｔにおいて行動ａ_ｔを行った結果、時刻ｔに得られた報酬である。また、γは割引率であり、遠い将来の報酬をどれだけ考慮して行動を決定するかを調整する０以上１以下のパラメータである。γは、学習を安定化させる正則化の役割も果たしている。

【0022】

強化学習には様々なアルゴリズムが知られているが、以下では行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）の学習を通じて間接的に方策を学習するアルゴリズムを用いる例を説明する。行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）は、状態ｓ_ｔにおいて行動ａ_ｔを取った後に現在の方策に従って行動した場合に得られる割引累積報酬の推定値である。ＴＤ学習（Temporal Difference Learning）では、行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）は、以下の（２）式で表される更新式によって学習される。なお、αは学習率を表す。

【数2】

【0023】

一般に（２）式に含まれる項のうち以下の（３）式で表される項は計算が困難であるため、π（ａ｜ｓ_ｔ＋１）に従ってサンプリングした行動ａの行動価値関数Ｑ（ｓ_ｔ＋１，ａ）が用いられる。

【数3】

【0024】

行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）は、例えば線形モデルおよびニューラルネットワークなどのモデルで学習される。言い換えると、行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）は、線形モデルおよびニューラルネットワークなどのモデルにより表される。行動価値関数を用いることで、方策の学習は行動価値関数の最大化によって実現される。

【0025】

以下、従来の手法により強化学習を行う場合の問題点について説明する。観測情報として主に画像を用いる場合、方策および行動価値関数は、画像という高次元の入力から抽出された特徴量に基づいて計算される必要がある。

【0026】

物体（物品）をピッキングするタスクなどでは、行動を計算する上で重要となる画像は一部の領域（例えば把持対象物とその周辺を含む領域）であることが多い。このため、画像の全体（以下、全体画像）ではなく、全体画像から一部の領域を切り取った画像（以下、局所画像）が用いられることで、より高い精度での制御が可能となる。また、局所画像は、周辺環境（背景など）の影響を受けにくいため、高い頑健性が期待できる。一方で、全体画像からのみ決定できる要素も多い。例えば、カメラの角度が変化した場合、局所画像では、角度の変化の影響を計算することができない。従って、全体画像および局所画像の両方から行動が決定されることが好ましい。

【0027】

次に、本実施形態の制御システムの構成について説明する。図１は、本実施形態の制御システム１０の構成例を示す図である。図１に示すように、制御システム１０は、制御装置１００と、ピッキングロボット２００と、カメラ２５０と、を含む。

【0028】

制御装置１００は、ピッキングロボット２００の行動（動作）を制御する。ピッキングロボット２００は、把持対象物である物体２１０ａ、２１０ｂをピッキング（把持）するためのロボットである。カメラ２５０は、物体２１０ａ、２１０ｂを含む画像を撮影する撮像装置である。カメラ２５０が撮影する画像はどのような形式でもよいが、例えばＲＧＢ画像、深度（デプス）画像、および、ポイントクラウドなどである。

【0029】

カメラ２５０は、１つでもよいし、２つ以上であってもよい。例えば２つ以上のカメラ２５０が、相互に異なる角度から物体２１０ａ、２１０ｂを撮影してもよい。

【0030】

制御装置１００は、観測情報を入力し、ピッキングロボット２００の行動を制御する制御情報を出力する。観測情報は、例えば、カメラ２５０からの画像、ピッキングロボット２００の内部状態の情報（ジョイントの角度、位置など）、および、補助的な状態（現在の制御時刻など）を示す情報を含む。ピッキングロボット２００の制御情報は、例えば、ピッキングロボット２００が備えるエンドエフェクタの座標および回転角などを含む。

【0031】

また、制御装置１００は、物体２１０を把持するための最適な制御情報（行動をとるための制御情報）を出力する方策を学習する。方策は、実際のピッキングロボット２００を動作させて学習されてもよいし、シミュレーション環境で学習されてもよい。

【0032】

図２は、制御装置１００の構成の一例を示すブロック図である。制御装置１００は、全体画像から大まかな行動を決定し、決定した行動に従って局所画像を切り取り、局所画像から行動を補正するように、方策を学習する。

【0033】

図２に示すように、制御装置１００は、記憶部１５１と、表示部１５２と、取得部１０１と、記憶制御部１０２と、出力制御部１０３と、推定部１１０と、学習部１２０と、対象制御部１３０と、を備えている。

【0034】

記憶部１５１は、制御装置１００で用いられる各種情報を記憶する。例えば記憶部１５１は、取得部１０１により取得された観測情報を記憶する。記憶部１５１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0035】

表示部１５２は、制御装置１００で用いられる各種情報を表示するための表示装置であり、例えば液晶ディスプレイなどにより実現される。例えば表示部１５２は、出力制御部１０３による制御に従い、推定部１１０による推定結果（決定された行動など）を表示する。

【0036】

取得部１０１は、制御装置１００で用いられる各種情報を取得する。例えば取得部１０１は、ピッキングロボット２００の行動の決定に用いる観測情報を取得する。以下では、ピッキングロボット２００を制御する時刻を制御時刻ｔと表す。また、制御時刻ｔにピッキングロボット２００から出力された観測情報をｓ_ｔと表し、制御時刻ｔに決定される行動をａ_ｔと表す。制御時刻ｔは、どのような単位で定められてもよい。例えば制御時刻ｔは、ピッキングロボット２００の制御サイクルごとに定められてもよいし、複数の制御サイクルを含む単位として定められてもよい。

【0037】

また、以下では、学習済の方策（モデル）を用いてピッキングロボット２００の行動を決定するとき、および、モデルを学習するときに用いる観測情報を観測情報ＩＡ（第１観測情報）と表す場合がある。

【0038】

取得部１０１は、さらに、制御時刻ｔ－１に決定された過去の行動ａ_ｔ－１によって得られた報酬ｒ_ｔ－１を、ピッキングロボット２００から取得してもよい。なお、報酬は、ピッキングロボット２００により算出されてもよいし、ユーザ等により設定されてもよい。取得部１０１は、記憶制御部１０２を用いて、取得した各種情報を記憶部１５１に記憶するとともに、観測情報ｓ_ｔを行動計算部１１１に出力する。

【0039】

取得部１０１は、ユーザ等により入力される、学習に必要なパラメータを取得してもよい。ユーザ等による情報の入力は、例えば、キーボード、および、マウスなどのポインティングデバイスなどの入力装置により実行されてもよい。

【0040】

記憶制御部１０２は、記憶部１５１に対する各種情報の記憶を制御する。例えば記憶制御部１０２は、取得部１０１からの指示に従い、観測情報を記憶部１５１に記憶する。

【0041】

出力制御部１０３は、制御装置１００で用いられる各種情報の出力を制御する。例えば、出力制御部１０３は、加工された観測情報、および、推定（決定）された行動（行動ＡＢ）、の少なくとも一方を、表示部１５２に出力（表示）してもよい。

【0042】

推定部１１０は、学習済の方策（モデル）を用いて行動を推定（決定）する機能に相当する。学習部１２０は、方策（モデル）を学習する機能に相当する。

【0043】

まず、推定部１１０について説明する。推定部１１０は、行動計算部１１１（第１行動計算部）と、観測加工部１１２と、行動計算部１１３（第２行動計算部）と、決定部１１４と、を含む。

【0044】

行動計算部１１１は、観測情報ＩＡに基づいてピッキングロボット２００の大まかな行動である行動ＡＡを計算する。行動計算部１１１は、上記の一段階目の行動の決定を行う機能に相当する。

【0045】

例えば行動計算部１１１は、行動ＡＡを計算するために用いられる学習済の方策ＰＡ（第１モデル）を用いて行動ＡＡを計算する。例えば、現在、学習により得られている方策ＰＡを確率分布π^１（ａ^１ _ｔ｜ｓ_ｔ）とする。この場合、行動計算部１１１は、取得された観測情報ｓ_ｔを用いて、確率分布π^１（ａ^１ _ｔ｜ｓ_ｔ）に従って行動ａ^１ _ｔを計算する。例えば行動計算部１１１は、確率分布π^１（ａ^１ _ｔ｜ｓ_ｔ）に従う確率で、１つの行動ａ^１ _ｔを求める。行動ａ^１ _ｔは、大まかな行動ＡＡに相当する。

【0046】

観測加工部１１２は、行動ＡＡに基づいて観測情報ＩＡを加工する。例えば観測情報ＩＡが画像の場合、観測加工部１１２は、画像の切り取り、回転、および、透視変換のうち少なくとも１つを行う。以下では、加工後の観測情報を観測情報ＩＢ（第２観測情報）と表す場合がある。

【0047】

制御時刻ｔの行動ＡＡおよび観測情報ＩＡとして、行動ａ^１ _ｔおよび観測情報ｓ_ｔが入力されたとする。この場合、観測加工部１１２は、行動ａ^１ _ｔと用いて観測情報ｓ_ｔを加工し、加工後の観測情報ＩＢとして、観測情報ｓ^２ _ｔ＝ｆ（ｓ_ｔ，ａ^１ _ｔ）を出力する。

【0048】

図３は、観測情報の加工の例を示す図である。画像３０１は、加工前の観測情報ＩＡに相当する。画像３０２は、加工後の観測情報ＩＢに相当する。画像３０２は、例えば、画像３０１から一部の領域を切り取り、回転させた画像に相当する。

【0049】

行動に基づく観測情報の加工方法は、どのような方法であってもよいが、例えば以下のような方法を適用できる。以下の例は、観測情報が画像の場合の例である。
・行動に含まれる位置座標に対応する画像内の座標を求め、求めた座標の周辺の一部の領域を切り取る。
・行動に含まれる回転の情報に応じて、画像を回転または透視変換する。例えば、行動に含まれる回転の値に応じて回転したエンドエフェクタに対する角度が一定になるように、画像を回転または透視変換する。

【0050】

行動に含まれる位置座標と、画像内の座標と、の対応関係は、例えば、ピッキングロボット２００（エンドエフェクタ）で適当な物体を把持したときのエンドエフェクタの位置座標と画像内の物体の画像との対応により、事前に求めることができる。観測加工部１１２は、事前に求めた対応関係を線形補間することなどにより、計算された行動ａ^１ _ｔに含まれる位置座標に対応する画像内の座標を求めることができる。なお、対応関係を求めるときの誤差は、学習部１２０による学習によって吸収できる。このため、対応関係について、高い精度でのキャリブレーションは必要ない。

【0051】

観測加工部１１２は、行動ａ^１ _ｔを示す情報、行動ａ^１ _ｔについて計算された報酬、および、現在の制御時刻の少なくとも１つを、補助的な情報として観測情報ＩＡに対して追加する加工を行ってもよい。

【0052】

また、観測加工部１１２は、複数の種類の加工を行ってもよい。例えば、観測加工部１１２は、上記の画像の切り取り、および、画像の回転の両方を実行してもよい。

【0053】

また、観測情報の次元が高い場合、計算コストを削減するため、取得される観測情報ｓ_ｔとして、縮小された画像、または、複数の角度から撮影された複数の画像のうち一部の画像のみが用いられる場合がある。このよう場合には、観測加工部１１２は、観測情報ｓ_ｔを直接用いるのではなく、観測情報ｓ_ｔに関連する情報を用いて、観測情報ＩＢを計算してもよい。観測情報ｓ_ｔに関連する情報は、例えば以下のような情報である。
・観測情報ｓ_ｔである画像より高解像度の画像（縮小前の画像）
・観測情報ｓ_ｔである画像と、当該画像と異なる角度から撮影された画像とを含む複数の画像

【0054】

複数の角度から撮影された複数の画像は、例えば、複数のカメラ２５０によりそれぞれ撮影された画像であってもよい。観測情報ｓ_ｔに関連する情報は、例えば、記憶部１５１に記憶され、加工時に観測加工部１１２により記憶部１５１から読み出される。

【0055】

図２に戻り、行動計算部１１３は、加工された観測情報ＩＢに基づいて制御対象の行動ＡＢを計算する。行動計算部１１３は、上記の二段階目の行動の決定を行う機能に相当する。

【0056】

例えば行動計算部１１３は、行動ＡＢを計算するために用いられる学習済の方策ＰＢ（第２モデル）を用いて行動ＡＢを計算する。観測加工部１１２から入力された観測情報ＩＢを観測情報ｓ^２ _ｔと表す。また、現在、学習により得られている方策ＰＢを確率分布π^２（ａ^２ _ｔ｜ｓ^２ _ｔ）とする。この場合、行動計算部１１３は、観測情報ｓ^２ _ｔを用いて、確率分布π^２（ａ^２ _ｔ｜ｓ^２ _ｔ）に従って行動ａ^２ _ｔを計算する。例えば行動計算部１１３は、確率分布π^２（ａ^２ _ｔ｜ｓ^２ _ｔ）に従う確率で、１つの行動ａ^２ _ｔを求める。行動ａ^２ _ｔは、行動ａ^１ _ｔに従って加工した観測情報ｓ^２ _ｔを用いているため、行動ａ^１ _ｔを補正した行動ＡＢと解釈できる。

【0057】

決定部１１４は、行動ａ^１ _ｔと行動ａ^２ _ｔとに基づいて制御対象の行動を決定する。例えば決定部１１４は、行動ａ^１ _ｔと行動ａ^２ _ｔを合成することにより、最終的な行動ａ＝ｇ（ａ^１ _ｔ，ａ^２ _ｔ）を出力する。決定部１１４は、決定した行動に対して、スケーリングなどの変換処理を行い、処理後の行動を制御情報として出力してもよい。

【0058】

行動ａ^１ _ｔと行動ａ^２ _ｔを合成する方法はどのような方法でもよいが、例えば線形変換および乗算の少なくとも一方を用いる方法を適用できる。

【0059】

線形変換は、例えば行動に含まれる位置座標を示す情報に対して適用可能な合成方法である。例えば、決定部１１４は、行動に含まれる位置座標について、適当な係数ｃに対して、ｇ（ａ^１ _ｔ，ａ^２ _ｔ）＝ａ^１ _ｔ＋ｃ×ａ^２ _ｔのような線形変換を用いる。

【0060】

乗算は、例えば行動に含まれる回転を示す情報（例えば四元数）に対して適用可能な合成方法である。例えば、決定部１１４は、ｇ（ａ^１ _ｔ，ａ^２ _ｔ）＝ａ^１ _ｔ×ａ^２ _ｔのような乗算を用いる。

【0061】

決定部１１４は、グリッパの開閉などの、加工後の観測情報ＩＢのみから決定できる行動の場合、ｇ（ａ^１ _ｔ，ａ^２ _ｔ）＝ａ^２ _ｔのように行動ａ^２ _ｔのみから、最終的な行動を決定してもよい。

【0062】

次に、学習部１２０について説明する。学習部１２０は、行動の決定に用いる方策（モデル）を学習する機能に相当する。学習部１２０は、観測加工部１２１と、更新部１２２（第２更新部）と、更新部１２３（第１更新部）と、を含む。なお、推定時と学習時とで行動ＡＡに基づく観測情報ＩＡの加工方法は共通する。従って、推定部１１０内の観測加工部１１２、および、学習部１２０内の観測加工部１２１は、共通化されてもよい。

【0063】

なお、制御時刻ｔ＋１の学習時には、記憶部１５１には、取得部１０１により取得された以下の情報が記憶される。
・制御時刻ｔでの観測情報ｓ_ｔ
・実行した行動ａ_ｔ
・行動ａ_ｔによって得られた報酬ｒ_ｔ
・制御時刻ｔ＋１での観測情報ｓ_ｔ＋１

【0064】

観測加工部１２１は、記憶部１５１に記憶された観測情報から選択（サンプリング）された観測情報を適当な行動ＡＡ（行動ａ^１ _ｔ）の下で、観測情報ｓ^２ _ｔ＝ｆ（ｓ_ｔ，ａ^１ _ｔ）に変換する。観測情報ｓ^２ _ｔは、加工後の観測情報ＩＢに相当する。行動ＡＡは、例えば以下のような方法により得られる。
・実際に実行した行動ａ_ｔ
・現在の方策ＰＡである確率分布π^１（ａ^１ _ｔ｜ｓ_ｔ）に従う確率で選択された行動ａ^１ _ｔ

【0065】

更新部１２２は、観測情報ＩＢを用いて、方策ＰＢの学習に用いる行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）の値である行動価値ＡＶＢ（第２行動価値）を計算する。行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）は、第２行動価値関数の一例である。

【0066】

さらに更新部１２２は、計算した行動価値ＡＶＢを用いて方策ＰＢを更新（学習）する。上記のように、方策ＰＢの学習は行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）の最大化によって実現される。

【0067】

すなわち、更新部１２２は、例えば、観測加工部１２１で加工された情報（ｓ^２ _ｔ，ａ_ｔ，ｒ_ｔ，ｓ^２ _ｔ＋１，ａ^１ _ｔ）を用いて計算された行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）の値である行動価値ＡＶＢにより、行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）を更新する。例えばＴＤ学習を用いる場合、更新部１２２は、以下の（４）式に示すように行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）を学習する。

【数4】

【0068】

ここでａ^２ _ｔはａ_ｔ＝ｇ（ａ^１ _ｔ，ａ^２ _ｔ）を満たす。ｇが線形変換および乗算によって与えられる場合には、更新部１２２は、ａ_ｔとａ^１ _ｔから解析的にａ^２ _ｔを求めてもよい。更新部１２２は、サンプリングによってａ^２ _ｔを求めてもよい。また、更新部１２２は、（４）式のうち以下の（５）式に示す項をサンプリングによって求める。また、この項は、行動価値関数Ｑ^１の値（行動価値ＡＶＡ）を用いて以下の（６）式で置き換えてもよい。

【数5】

【数6】

【0069】

更新部１２３は、観測情報ＩＡと、更新部１２２により計算された行動価値ＡＶＢ（行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）の値）とを用いて、方策ＰＡの学習に用いる行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）の値である行動価値ＡＶＡ（第１行動価値）を計算する。行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）は、第１行動価値関数の一例である。

【0070】

さらに更新部１２３は、記憶部１５１に記憶されている情報（観測情報ＩＡ）と、計算した行動価値ＡＶＡと、を用いて、行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）を更新（学習）する。上記のように、方策ＰＡの学習は行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）の最大化によって実現される。

【0071】

例えば、更新部１２３は、行動ＡＢを実行しないと仮定した更新式と、行動価値ＡＶＡと、を用いて、行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）を更新（方策ＰＡを学習）する。行動ＡＢを実行しないとは、例えば、決定部１１４が、最終的な行動ａとして行動ＡＡを決定することである。この場合、行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）および行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）は、以下の（７）式を満たす。

【数7】

【0072】

従って、更新部１２３は、以下の（８）式に示す更新式で行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）を更新する。

【数8】

【0073】

また、更新部１２３は、記憶部１５１に記憶されている情報（観測情報ＩＡ）を用いて、（８）式に加えて以下の（９）式に示す更新式を用いて、行動価値関数Ｑ^１（ｓ_ｔ，ａ_ｔ）をＴＤ学習によって直接学習してもよい。

【数9】

【0074】

例えば決定部１１４が、行動ＡＡの一部の成分を無視して最終的な行動を決定する場合などでは、行動ＡＢを実行しない場合の行動価値を計算する効果が小さい。このような場合は、更新部１２３は、行動ＡＢを実行すると仮定した更新式と、行動価値ＡＶＡと、を用いて、行動価値関数Ｑ^１（ｓ_ｔ，ａ^１ _ｔ）を更新（方策ＰＡを学習）してもよい。

【0075】

例えば行動ａが座標ｘとグリッパの開閉ｈとによってａ＝（ｘ，ｈ）のように分けられ、行動ＡＡおよび行動ＡＢを合成する関数が、ｇ（ｘ^１，ｘ^２）＝ｘ^１＋ｃｘ^２、および、ｇ（ｈ^１，ｈ^２）＝ｈ^２である場合を考える。

【0076】

この場合、行動価値ＡＶＡを計算する上で、ｈの成分を考慮する必要はない。従って、行動価値関数はＱ^１（ｓ_ｔ，ｘ^１ _ｔ）で定義してもよい。この場合、行動価値関数Ｑ^１と行動価値関数Ｑ^２は以下の（１０）式を満たす。従って、更新部１２３は、（８）式の代わりに以下の（１１）式に示す更新式で学習してもよい。

【数10】

【数11】

【0077】

ここで、（１２）式に示す項は、ｈ^２を方策（確率分布）π^２に従ってサンプルした場合の期待値を意味する。

【数12】

【0078】

これまで観測されなかった状態、および、方策の出力する行動が不確実な状態を積極的に探索するために、通常の報酬に対して行動のエントロピーを付加する方法が用いられてもよい。行動のエントロピーは、行動の乱雑さを表す情報の一例である。例えば、（４）式および（９）式において、ｒ_ｔが、エントロピー項Ｈ（π）を追加したｒ_ｔ＋Ｈ（π）に置き換えられてもよい。本実施形態では、２つの方策ＰＡおよびＰＢが用いられる。従って、エントロピー項Ｈ（π）は、２つの方策に対応する２つのエントロピーＨ（π^１）およびＨ（π^２）を含んでもよいし、２つのエントロピーＨ（π^１）およびＨ（π^２）の平均値などの統計情報を含んでもよい。

【0079】

対象制御部１３０は、上記のようにして学習（更新）された方策を用いて、推定部１１０により決定された行動をとるように制御対象を制御する。例えば対象制御部１３０は、推定部１１０（決定部１１４）により決定された行動に対応する制御情報を推定部１１０から受け取り、受け取った制御情報に従いピッキングロボット２００を制御する。

【0080】

上記各部（取得部１０１、記憶制御部１０２、出力制御部１０３、推定部１１０、学習部１２０、および、対象制御部１３０）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

【0081】

次に、本実施形態の制御装置１００による制御処理について説明する。図４は、本実施形態における制御処理の一例を示すフローチャートである。制御処理は、学習済のモデルを用いて制御対象（ピッキングロボット２００）の行動を決定し、決定した行動により制御対象を制御する処理である。制御処理は、制御時刻ｔごとに実行される。

【0082】

取得部１０１は、ピッキングロボット２００から観測情報を取得する（ステップＳ１０１）。取得部１０１は、取得した制御時刻ｔにおける観測情報ｓ_ｔを行動計算部１１１に出力する。また、取得部１０１は、制御時刻ｔ－１における観測情報ｓ_ｔー１、観測情報ｓ_ｔー１を用いて決定された行動ａ_ｔ－１、行動ａ_ｔ－１によってピッキングロボット２００から得られる報酬ｒ_ｔ－１、および、制御時刻ｔにおける観測情報ｓ_ｔを、経験情報として記憶部１５１に記憶する。

【0083】

行動計算部１１１は、取得部１０１から入力された観測情報ｓ_ｔを用いて、行動ＡＡとして行動ａ_ｔを計算する（ステップＳ１０２）。行動計算部１ｌ１は、観測情報ｓ_ｔおよび行動ＡＡを、観測加工部１１２および決定部１１４に出力する。

【0084】

観測加工部１１２は、入力された行動ＡＡを用いて、入力された観測情報ｓ_ｔを加工し、加工した観測情報ＩＢを行動計算部１１３に出力する（ステップＳ１０３）。

【0085】

行動計算部１１３は、観測加工部１１２から入力された観測情報ＩＢを用いて、行動ＡＢを計算し、決定部１１４に出力する（ステップＳ１０４）。

【0086】

決定部１１４は、行動計算部１１１から入力された行動ＡＡと行動計算部１１３から入力された行動ＡＢを結合した行動を決定する（ステップＳ１０５）。決定部１１４は、決定した行動を制御情報に変換して出力してもよい。

【0087】

対象制御部１３０は、決定された行動に対応する制御情報をピッキングロボット２００に出力することにより、ピッキングロボット２００を制御する（ステップＳ１０６）。

【0088】

次に、本実施形態の制御装置１００による学習処理について説明する。図５は、本実施形態における学習処理の一例を示すフローチャートである。学習処理は、制御処理などで用いられるモデルを学習するための処理である。学習処理の前に、例えば、図４に示す制御処理を動作させることにより、複数の経験情報が記憶部１５１に記憶されているものとする。

【0089】

学習部１２０は、記憶部１５１に記憶されている複数の経験情報から、一定数（１以上の整数）の経験情報を取得（サンプリング）し、観測加工部１２１に出力する（ステップＳ２０１）。

【0090】

観測加工部１２１は、入力された経験情報に含まれる行動を行動ＡＡとして用いて、経験情報に含まれる観測情報ＩＡを加工し、加工後の観測情報ＩＢを更新部１２２に出力する（ステップＳ２０２）。行動ＡＡの値は、経験情報に含まれる観測情報ＩＡを用いて行動計算部１１１により計算された値であってもよい。

【0091】

更新部１２２は、加工後の観測情報ＩＢを含む経験情報を用いて、行動価値関数Ｑ^２（方策ＰＢ）を更新する（ステップＳ２０３）。

【0092】

更新部１２２は、方策ＰＢの更新を終了するか否かを判定する（ステップＳ２０４）。終了の判定方法は、どのような方法でもよいが、例えば以下の方法を適用できる。
・誤差項の値が閾値（誤差項の閾値）以下となった場合に終了と判定する。なお、誤差項とは、例えば、（２）式などの更新式の右辺に含まれる差分を計算するための項である。
・更新回数が閾値（更新回数の閾値）を超えた場合に終了と判定する。

【0093】

方策ＰＢの更新を終了しない場合（ステップＳ２０４：Ｎｏ）、ステップＳ２０２に戻り、処理が繰り返される。

【0094】

方策ＰＢの更新を終了する場合（ステップＳ２０４：Ｙｅｓ）、更新部１２３は、経験情報と、更新部１２２により計算された行動価値ＡＶＢ（行動価値関数Ｑ^２（ｓ^２ _ｔ，ａ^２ _ｔ）の値）とを用いて、行動価値関数Ｑ^１（方策ＰＡ）を更新する（ステップＳ２０５）。更新部１２３は、行動価値関数Ｑ^２の値ではなく、経験情報から行動価値関数Ｑ^１（方策ＰＡ）を直接更新してもよい。

【0095】

更新部１２３は、方策ＰＡの更新を終了するか否かを判定する（ステップＳ２０６）。終了の判定方法は、どのような方法でもよいが、方策ＰＢの更新の終了判定と同様の方法を適用できる。

【0096】

方策ＰＡの更新を終了しない場合（ステップＳ２０６：Ｎｏ）、ステップＳ２０５に戻り、処理が繰り返される。

【0097】

方策ＰＡの更新を終了する場合（ステップＳ２０６：Ｙｅｓ）、学習部１２０は、学習処理を終了するか否かを判定する（ステップＳ２０７）。学習の終了の判定方法は、どのような方法でもよいが、例えば以下の方法を適用できる。
・方策の性能が閾値（性能の閾値）以上となった場合に終了と判定する。なお、方策の性能とは、例えば方策により決定された行動の成功率などにより計算される。
・ステップＳ２０１～ステップＳ２０６までの処理の繰り返し回数が閾値（繰り返し回数の閾値）を超えた場合に終了と判定する。

【0098】

次に、出力制御部１０３により表示部１５２に表示される情報の例について説明する。出力制御部１０３は、例えば、以下のような情報のうち一部または全部を表示部１５２に表示する。
・観測加工部１２１による加工の結果を示す情報
・学習時に計算された行動ＡＢの値
・学習時に計算された複数の行動ＡＢの値の統計情報（分散、平均など）を示すグラフ

【0099】

これらの情報は、学習の進行度の判断に用いることができる。例えば観測加工部１２１による加工の結果に、行動ＡＡの補正に必要な情報が常に含まれている場合（把持対象物が常に中心付近にある場合など）には、方策ＰＡが十分学習できていると判断できる。また、観測加工部１２１による加工の結果に、行動ＡＡの補正に必要な情報が含まれていれば常に高い報酬が得られる場合、方策ＰＢが十分学習できていると判断できる。

【0100】

出力制御部１０３が上記のような情報を表示することにより、ユーザは、制御装置１００の性能について判断することができる。また、例えば判断結果に応じて、ユーザが学習率などの学習に必要なパラメータを調整することで、過学習による性能低下を防止し、学習時間を削減することが可能となる。

【0101】

（変形例）
変形例では、行動を加工する機能（行動加工部）が追加される。図６は、変形例の制御装置１００－２の構成の一例を示すブロック図である。図６に示すように、制御装置１００－２は、記憶部１５１と、表示部１５２と、取得部１０１と、記憶制御部１０２と、出力制御部１０３と、推定部１１０と、学習部１２０－２と、対象制御部１３０と、を備えている。

【0102】

変形例では、学習部１２０－２が行動加工部１２４－２をさらに備えること、および、観測加工部１２１－２に入力される行動が行動加工部１２４－２から出力される行動に置き換えられることが、上記実施形態と異なる。その他の構成は図２と同様であるため、同一の符号を付し説明を省略する。

【0103】

行動加工部１２４－２は、制御対象の行動を加工する。加工の対象となる行動は、実際に実行した行動であってもよいし、現在の方策ＰＡに従って計算された行動であってもよい。

【0104】

行動の加工方法はどのような方法であってもよいが、例えば、行動に含まれる要素のうち一部または全部をランダムに変化させる方法を適用できる。このように行動を加工することにより、学習データを増やすことができる。この結果、学習効率をさらに向上させることができる。

【0105】

観測加工部１２１－２は、行動加工部１２４－２により加工された行動を用いて、観測情報を加工する点が、上記実施形態の観測加工部１２１と異なっている。

【0106】

以上説明したとおり、実施形態によれば、制御対象の行動をより高精度に決定することができる。

【0107】

次に、実施形態の制御装置のハードウェア構成について図７を用いて説明する。図７は、実施形態の制御装置のハードウェア構成例を示す説明図である。

【0108】

実施形態の制御装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

【0109】

実施形態の制御装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

【0110】

実施形態の制御装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0111】

さらに、実施形態の制御装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態の制御装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0112】

実施形態の制御装置で実行されるプログラムは、コンピュータを上述した制御装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0113】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0114】

１００、１００－２制御装置
１０１取得部
１０２記憶制御部
１０３出力制御部
１１０推定部
１１１行動計算部
１１２観測加工部
１１３行動計算部
１１４決定部
１２０、１２０－２学習部
１２１、１２１－２観測加工部
１２２更新部
１２３更新部
１２４－２行動加工部
１３０対象制御部
１５１記憶部
１５２表示部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版