特許7551583 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7551583制御装置、制御方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-06

(45)【発行日】2024-09-17

(54)【発明の名称】制御装置、制御方法およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240909BHJP

B25J 13/00 20060101ALI20240909BHJP

【ＦＩ】

G06N20/00

B25J13/00 Z

【請求項の数】 10

(21)【出願番号】P 2021147933

(22)【出願日】2021-09-10

(65)【公開番号】P2023040777

(43)【公開日】2023-03-23

【審査請求日】2023-03-13

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】韓海峰

(72)【発明者】

【氏名】石原義之

(72)【発明者】

【氏名】大賀淳一郎

(72)【発明者】

【氏名】菅原淳

【審査官】山本俊介

(56)【参考文献】

【文献】特開２０１７－０３０１３５（ＪＰ，Ａ）

【文献】特開２０１６－１５７１８８（ＪＰ，Ａ）

【文献】特開２０１９－１８１６２０（ＪＰ，Ａ）

【文献】特開２０２１－０１３９９６（ＪＰ，Ａ）

【文献】欧州特許出願公開第０３８４２７３６（ＥＰ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｂ２５Ｊ１３／００－１３／０８

(57)【特許請求の範囲】

【請求項1】

上方向である第１方向に並べられる複数の物品、および、前記第１方向と交差する第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、前記第１方向のデプスを表す状態情報を取得する取得部と、
前記物品群に含まれるいずれかの前記物品を前記第１方向または前記第２方向に移動させる複数の移動動作のうち、前記状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する学習部と、
学習された前記学習モデルを用いて、指定された前記状態情報に対する移動動作を決定する決定部と、を備え、
前記状態情報は、前記物品群を前記第１方向に撮像して得られるデプス画像を分割した複数の部分領域ごとの前記デプスを表し、
複数の前記部分領域のそれぞれは、前記物品群に含まれるいずれかの前記物品の一辺の長さに対応する形状である、
制御装置。

【請求項2】

第１方向に並べられる複数の物品、および、前記第１方向と異なる第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、前記第１方向のデプスを表す状態情報を取得する取得部と、
前記物品群に含まれるいずれかの前記物品を前記第１方向または前記第２方向に移動させる複数の移動動作のうち、前記状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する学習部と、
学習された前記学習モデルを用いて、指定された前記状態情報に対する移動動作を決定する決定部と、を備え、
前記学習モデルは、複数の前記状態情報のうち１つと、複数の前記移動動作のうち１つとをそれぞれ対応づけた複数の組ごとのＱ値を定めたＱテーブルであり、
前記強化学習は、最適な移動動作に対応する前記Ｑ値がより大きな値になるように前記Ｑテーブルを更新するＱラーニングであり、
前記学習部は、取得された第１状態情報に対して前記Ｑテーブルにより決定した第１移動動作が失敗した場合に、前記第１状態情報と類似する第２状態情報を特定し、前記第１状態情報に対する前記第１移動動作のＱ値と、前記第２状態情報に対して失敗する第２移動動作のＱ値と、を更新する、
制御装置。

【請求項3】

前記状態情報は、前記物品群を前記第１方向に撮像して得られるデプス画像を分割した複数の部分領域ごとの前記デプスを表す、
請求項２に記載の制御装置。

【請求項4】

前記学習部は、前記状態情報に対する最適な移動動作の初期値として、前記物品群に含まれる物品のうち、前記デプスが他の物品より大きい前記物品を、前記デプスがさらに大きくなる方向に移動させる移動動作を設定する、
請求項１または２に記載の制御装置。

【請求項5】

前記第１方向は、前記物品を把持して上方に移動させる動作に対応する上方向であり、
前記第２方向は、前記物品を横から引き出す動作に対応する横方向である、
請求項２に記載の制御装置。

【請求項6】

決定された前記移動動作に従い、前記物品群に含まれる前記物品を移動させる制御部をさらに備える、
請求項１または２に記載の制御装置。

【請求項7】

制御装置に実行させるための制御方法であって、
上方向である第１方向に並べられる複数の物品、および、前記第１方向と交差する第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、前記第１方向のデプスを表す状態情報を取得する取得ステップと、
前記物品群に含まれるいずれかの前記物品を前記第１方向または前記第２方向に移動させる複数の移動動作のうち、前記状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する学習ステップと、
学習された前記学習モデルを用いて、指定された前記状態情報に対する移動動作を決定する決定ステップと、を含み、
前記状態情報は、前記物品群を前記第１方向に撮像して得られるデプス画像を分割した複数の部分領域ごとの前記デプスを表し、
複数の前記部分領域のそれぞれは、前記物品群に含まれるいずれかの前記物品の一辺の長さに対応する形状である、
制御方法。

【請求項8】

コンピュータに、
上方向である第１方向に並べられる複数の物品、および、前記第１方向と交差する第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、前記第１方向のデプスを表す状態情報を取得する取得ステップと、
前記物品群に含まれるいずれかの前記物品を前記第１方向または前記第２方向に移動させる複数の移動動作のうち、前記状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する学習ステップと、
学習された前記学習モデルを用いて、指定された前記状態情報に対する移動動作を決定する決定ステップと、を実行させ、
前記状態情報は、前記物品群を前記第１方向に撮像して得られるデプス画像を分割した複数の部分領域ごとの前記デプスを表し、
複数の前記部分領域のそれぞれは、前記物品群に含まれるいずれかの前記物品の一辺の長さに対応する形状である、
プログラム。

【請求項9】

制御装置に実行させるための制御方法であって、
第１方向に並べられる複数の物品、および、前記第１方向と異なる第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、前記第１方向のデプスを表す状態情報を取得する取得ステップと、
前記物品群に含まれるいずれかの前記物品を前記第１方向または前記第２方向に移動させる複数の移動動作のうち、前記状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する学習ステップと、
学習された前記学習モデルを用いて、指定された前記状態情報に対する移動動作を決定する決定ステップと、を含み、
前記学習モデルは、複数の前記状態情報のうち１つと、複数の前記移動動作のうち１つとをそれぞれ対応づけた複数の組ごとのＱ値を定めたＱテーブルであり、
前記強化学習は、最適な移動動作に対応する前記Ｑ値がより大きな値になるように前記Ｑテーブルを更新するＱラーニングであり、
前記学習ステップは、取得された第１状態情報に対して前記Ｑテーブルにより決定した第１移動動作が失敗した場合に、前記第１状態情報と類似する第２状態情報を特定し、前記第１状態情報に対する前記第１移動動作のＱ値と、前記第２状態情報に対して失敗する第２移動動作のＱ値と、を更新する、
制御方法。

【請求項10】

コンピュータに、
第１方向に並べられる複数の物品、および、前記第１方向と異なる第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、前記第１方向のデプスを表す状態情報を取得する取得ステップと、
前記物品群に含まれるいずれかの前記物品を前記第１方向または前記第２方向に移動させる複数の移動動作のうち、前記状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する学習ステップと、
学習された前記学習モデルを用いて、指定された前記状態情報に対する移動動作を決定する決定ステップと、を実行させ、
前記学習モデルは、複数の前記状態情報のうち１つと、複数の前記移動動作のうち１つとをそれぞれ対応づけた複数の組ごとのＱ値を定めたＱテーブルであり、
前記強化学習は、最適な移動動作に対応する前記Ｑ値がより大きな値になるように前記Ｑテーブルを更新するＱラーニングであり、
前記学習ステップは、取得された第１状態情報に対して前記Ｑテーブルにより決定した第１移動動作が失敗した場合に、前記第１状態情報と類似する第２状態情報を特定し、前記第１状態情報に対する前記第１移動動作のＱ値と、前記第２状態情報に対して失敗する第２移動動作のＱ値と、を更新する、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、制御装置、制御方法およびプログラムに関する。

【背景技術】

【0002】

労働者の不足などに応じて、自動ロジスティックシステムが要望されている。例えば、複数の荷物（物品の一例）を含む物品群を搭載したコンテナ（荷台）から各荷物を取り出す荷降ろし作業の実現は、ロジスティックシステムで共通の問題である。形状が異なるさまざまな物品が、正しくかつ効率的にコンテナから荷降ろしされることが期待される。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２０－０４０７８９号公報

【文献】特開２０２０－０８２２９３号公報

【文献】特開２０１９－０５１５６９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

実施形態は、より効率的な荷降ろしを実現可能な制御装置、制御方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0005】

実施形態の制御装置は、取得部と、学習部と、決定部と、を備える。取得部は、第１方向に並べられる複数の物品、および、第１方向と異なる第２方向に並べられる複数の物品の少なくとも一方を含む物品群の、第１方向のデプスを表す状態情報を取得する。学習部は、物品群に含まれるいずれかの物品を第１方向または第２方向に移動させる複数の移動動作のうち、状態情報に対して最適な移動動作を決定するための学習モデルを、強化学習により学習する。決定部は、学習された学習モデルを用いて、指定された状態情報に対する移動動作を決定する。

【図面の簡単な説明】

【0006】

【図1】本実施形態にかかるロボットシステムのブロック図。

【図2】物品群の一例を示す図。

【図3】デプス画像から変換される状態情報の一例を示す図。

【図4】移動動作の例を示す図。

【図5】Ｑテーブルの一例を示す図。

【図6】学習処理の一例を示すフローチャート。

【図7】制御処理の一例を示すフローチャート。

【図8】荷降ろしに失敗した失敗サンプルの例を示す図。

【図9】類似する状態情報を特定する処理の一例を示す図。

【図10】荷降ろし動作の成功率の一例を示す図。

【図11】荷降ろし動作の成功率の一例を示す図。

【図12】学習カーブの例を示す図。

【図13】学習カーブの例を示す図。

【図14】本実施形態にかかる制御装置のハードウェア構成図。

【発明を実施するための形態】

【0007】

以下に添付図面を参照して、この発明にかかる制御装置の好適な実施形態を詳細に説明する。

【0008】

荷降ろし作業を実現する方法としては、手動で設定したルールに従い荷降ろしを行うルールベースの方法がある。しかしルールベースの方法では、対象となる物品の構造の種類が多数である場合、および、ある物品が他の物品を隠蔽するような場合に、適切にルールを設定できない場合がある。

【0009】

荷降ろし作業での問題としては、物品の衝突および崩壊がある。衝突とは、例えば、荷降ろしの対象とする物品（対象物品）の移動が他の物品により妨げられるため、荷降ろしができないことを示す。崩壊とは、例えば、対象物品を荷降ろしすることにより、他の物品が落下するなど不安定な状態になることを示す。

【0010】

例えば、貪欲法（グリーディ法）は、衝突および崩壊を回避することができる。貪欲法は、物品群から上部の物品を繰り返しピッキングすることにより荷降ろしする方法である。しかし貪欲法は簡単なルールを用いる方法であるため、効率的に荷降ろしできない場合が生じ得る。例えば、上部から物品をピッキングするより横から物品を引き出すほうが短時間で荷降ろしが実行できる場合であっても、横から引き出す動作を最適な動作として採用することができない。

【0011】

本実施形態は、２つの方向に移動させる複数の移動動作から、最適な移動動作を決定する。２つの方向は、例えば、上方にピッキングする方向、および、横に引き出す方向である。本実施形態では、例えば、複数の移動動作から最適な移動動作を決定するための学習モデルが強化学習により学習され、学習された学習モデルを用いて、最適な動作が決定される。これにより、より効率的な荷降ろしを実現可能な制御装置、制御方法およびプログラムを提供することが可能となる。

【0012】

以下では、物品を２つの方向に移動させる機能を有するロボットと、このロボットの動作を制御する制御装置と、を備えるロボットシステムを例に説明する。ロボットシステムは、例えば、物品の荷降ろし作業を含むロジスティックシステムに適用できる。

【0013】

また２つの方向として、物品をピッキングして上方に移動させる動作に対応する上方向（第１方向）と、物品を横から引き出す動作に対応する横方向（第２方向）と、を用いる例を説明する。この場合、ロボットは、例えば、物品を上方にピッキングして移動させる機能と、物品を吸着して引き出して移動させる機能と、を備える。２つの方向はこれらに限られない。例えば、物品を横に押し出す動作に対応する方向が用いられてもよい。この場合、ロボットは、物品を横に押し出す機能を備えればよい。

【0014】

図１は、本実施形態にかかるロボットシステム１０の構成の一例を示すブロック図である。図１に示すように、ロボットシステム１０は、制御装置１００と、ロボット２００と、を備えている。

【0015】

ロボット２００は、エンドエフェクタ２０１と、撮像装置であるカメラ２０２と、を少なくとも備えている。エンドエフェクタ２０１は、物品を移動するために用いられる。

【0016】

カメラ２０２は、物品の画像を撮像する。カメラ２０２は、デプス画像（深度画像）を生成するカメラであってもよいし、ＲＧＢ画像を生成するカメラであってもよい。カメラ２０２の代わりに、デプス画像を生成する距離センサ等が用いられてもよい。カメラ２０２は、ロボット２００の外部に備えられてもよい。以下では、カメラ２０２がデプス画像を生成して出力する場合を例に説明する。

【0017】

制御装置１００は、ロボット２００の動作を制御する装置である。制御装置１００は、ロボット２００と、例えば、シリアルケーブル、および、ＬＡＮ（Local Area Network）などを介して通信可能に接続される。

【0018】

制御装置１００は、記憶部１２１と、取得部１０１と、学習部１０２と、決定部１０３と、制御部１０４と、を備えている。

【0019】

記憶部１２１は、制御装置１００内の各種処理で用いられる各種情報を記憶する。例えば記憶部１２１は、取得部１０１により取得されたデプス画像、および、学習モデルに関する情報を記憶する。記憶部１２１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0020】

取得部１０１は、荷降ろしの対象となる物品群の状態を示す状態情報を取得する。物品群は、上下方向に並べられる複数の物品、および、横方向に並べられる複数の物品の少なくとも一方を含む。状態情報は、例えば、上下方向のデプス（深度）を表す。

【0021】

例えば取得部１０１は、まずカメラ２０２により撮像されたデプス画像をロボット２００から取得する。取得部１０１は、デプス画像を解析することにより、物品群の状態情報を取得する。例えば取得部１０１は、デプス画像を解析し、物品群の状態情報に変換して出力する。

【0022】

図２は、物品群の一例を示す図である。図２に示すように、本実施形態では、サイズが異なる２つの物品Ａおよび物品Ｂが、物品群に含まれる物品となる場合を例に説明する。物品Ｂは立方体形状である。物品Ａは、物品Ｂを２つ重ねた形状に相当する直方体形状である。図２に示すようなｘｙｚ座標系を用いる場合、ｘ軸、ｙ軸、ｚ軸方向のサイズの比率は、物品Ａについては１：１：２、物品Ｂについては１：１：１となる。

【0023】

図２の右上は、物品Ａおよび物品Ｂの１個以上を整列させる、または、重ねることにより得られる物品群の外観の例を示す。このように、物品群は、要素となる物品（物品Ａ、物品Ｂ）の個数および並べ方などに応じてさまざまな外観になりうる。

【0024】

図２の右下は、物品群の外観２２１に対する物品の組み合わせの例を示す。図２では、２つの物品Ａの組み合わせ、４つの物品Ｂの組み合わせ、および、１つの物品Ａと２つの物品Ｂとの組み合わせにより、外観２２１が得られる例が示されている。物品群の外観２２１が得られたとしても、この外観２２１を構成しうる物品Ａおよび物品Ｂの組み合わせの種類を特定することが困難となる場合がある。

【0025】

図３は、取得部１０１によりデプス画像から変換される状態情報の一例を示す図である。本実施形態では、図３に示すように、カメラ２０２は、上方向（図ではｚ軸方向の上方）から物品群を撮像してｚ方向のデプスを示すデプス画像を生成するものとする。

【0026】

取得部１０１は、入力されたデプス画像を複数のセル（部分領域の一例）に分割する。セルは、例えば、物品Ｂの一辺と同じ長さとなる正方形である。例えば、取得部１０１は、デプス画像を３×３＝９個のセルに分割する。９個のセルは、ｘ軸およびｙ軸方向にそれぞれ３個のセルを含むように分割されたセルに相当する。以下では、このような９個のセルに対応する領域に整列された、物品Ａおよび物品Ｂを含みうる物品群を荷降ろしする例を主に説明する。

【0027】

次に取得部１０１は、セルごとにデプス値を設定する。各セルの中では、デプス値は一定になる。図３の数値は、対応するセルに設定されたデプス値を表す。そして取得部１０１は、９個のセルのデプス値を、図３の矢印に示す順で並べることにより、状態情報を生成する。図３の例では、“１００３３０１００”が状態情報として生成される。なおデプス値を並べる順序はこれに限られない。

【0028】

学習部１０２は、荷降ろしのために物品を移動させる複数の移動動作のうち最適な移動動作を決定するための学習モデルを学習する。例えば学習モデルは、物品群に含まれるいずれかの物品を２つの方向（上方向、横方向）のいずれかに移動させる複数の移動動作のうち、状態情報に対して最適な移動動作を決定するためのモデルである。学習部１０２は、このような学習モデルを例えば強化学習により学習する。

【0029】

図４は、移動動作の例を示す図である。図４は、３×３×３の操作空間での移動動作の例である。操作空間とは、操作（移動動作）の対象となる物品が存在し得る空間を表す。上記のようにデプス画像を９個のセルに分割する例では、ｘｙｚ軸方向にそれぞれセル３個分に相当する空間が操作空間となる。

【0030】

このような操作空間が与えられると、まずｘｙ平面およびｙｚ平面で、各セルにラベルが付される。この場合の各セルは、各平面をデプス画像と同様に３×３の９個のセルに分割して得られるセルに相当する。図４の例では、ｙｚ平面の９個のセルに０～８のラベルが付され、ｘｙ平面の９個のセルに９～１７のラベルが付される。

【0031】

１８個のラベルは、１８種類の動作に対応する。例えばラベル０～８に対応する動作０～８は、対応する位置で横から引き出す動作（Ｄｒａｗ）である。ラベル９～１７に対応する動作９～１７は、対応する位置で上部からピッキング（Ｐｉｃｋ）する動作である。例えば図４の動作４０１は、物品Ａを引き出す動作４に相当する。動作４０２は、物品Ｂを引き出す動作１に相当する。動作４１１は、物品Ｂをピッキングする動作１３に相当する。動作４１２は、物品Ａをピッキングする動作１６に相当する。

【0032】

本実施形態では、学習部１０２は、強化学習の一例であるＱラーニングによりＱテーブルを学習モデルとして学習する。Ｑラーニングでは、移動動作が行われるごとに、その移動動作を行うことの報酬（価値）を示す値であるＱ値が更新される。なお適用可能な強化学習はＱラーニングに限られるものではない。

【0033】

図５は、Ｑテーブルの一例を示す図である。Ｑテーブルは、物品群が状態情報が示す状態であるときに、ある移動動作を行うことの報酬（価値）を定めた情報と解釈することができる。図５は、図３に示すような状態情報および図４に示すような動作（移動動作）を用いる場合のＱテーブルの例である。

【0034】

Ｑテーブルの各行は、状態情報に対応する。テーブルの各列は、動作０～１７に対応する。行および列が交差するセルは、状態情報と動作との組に対するＱ値を保持する。３×３×３の操作空間では、デプス画像を分割した９個のセルのデプス値は、０～３の４値を取りうる。従って、状態情報の値の個数は、４^９＝２６２１４４である。また図４で説明したように動作は１８種類である。従って、図５のＱテーブルでは、状態情報と動作との組の個数は、２６２１４４×１８である。

【0035】

状態ｓと動作ａとの組に対するＱ値をＱ（ｓ，ａ）で表す。報酬ｒが設定された動作ａを実行後に状態ｓが状態ｓ’に移行し、Ｑテーブルが更新されると仮定する。Ｑ_ｔは更新前、Ｑ_ｔ＋１は更新後に対応する。この場合、Ｑ値は、以下の（１）式のように更新される。
Ｑ_ｔ＋１（ｓ，ａ）＝
Ｑ_ｔ（ｓ，ａ）＋α（ｒ＋γ×ｍａｘ_ａＱ_ｔ（ｓ’，ａ）－Ｑ_ｔ（ｓ，ａ））（１）

【0036】

学習率α、および、ディスカウントファクタγはハイパーパラメータである。Ｑラーニングが進行すると、Ｑ値は、最適な値に収束する。

【0037】

報酬はどのように設定されてもよい。例えば、引き出す動作の方が効率的であるような場合は、ピッキングする動作の報酬がより大きくなるように設定されてもよい。例えば、ピッキングする動作の成功、引き出す動作の成功、および、動作の失敗の場合に、それぞれ＋２０、＋３０、および、－１００となるように報酬ｒが設定されてもよい。

【0038】

決定部１０３は、学習された学習モデルを用いて、指定された状態情報に対する移動動作を決定する。例えば決定部１０３は、学習済みのＱテーブルを参照し、指定された状態情報に対応する移動動作（動作０～１７）のうち、Ｑ値が最も大きい移動動作を、最適な移動動作として決定する。

【0039】

制御部１０４は、ロボット２００の動作を制御する。例えば制御部１０４は、決定部１０３により決定された移動動作を行うようにロボット２００の動作を制御する。制御部１０４による制御方法はどのような方法であってもよい。例えば制御部１０４は、カメラ２０２により得られるデプス画像を参照しながら、決定された移動動作を実現するようにエンドエフェクタ２０１の動作を制御してもよい。制御部１０４は、カメラ２０２とは異なるセンサ（例えば、ｘ軸方向に物品群を撮像する他のカメラなど）からの情報を参照してロボット２００の動作を制御してもよい。

【0040】

上記各部（取得部１０１、学習部１０２、決定部１０３、および、制御部１０４）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0041】

次に、このように構成された本実施形態にかかる制御装置１００による学習処理について説明する。学習処理は、ＱラーニングによりＱテーブルを学習する処理である。図６は、本実施形態における学習処理の一例を示すフローチャートである。

【0042】

Ｑラーニングでは、学習の単位であるエピソードが複数回繰り返し実行される。１つのエピソードでは、操作空間内に１以上の物品が配置され、配置された物品に対する荷降ろし動作が実行される。すべての荷降ろしが完了するか、動作が失敗した場合に、エピソードが終了する。図６は、１つのエピソードについての学習を示す処理の例である。学習部１０２は、例えば図６に示すような学習処理を、Ｑ値が収束したと判断されるまで繰り返し実行する。

【0043】

学習部１０２は、各エピソードについての初回の処理であるか否かを判定する（ステップＳ１０１）。初回の処理である場合（ステップＳ１０１：Ｙｅｓ）、学習部１０２は、Ｑテーブルを初期化する（ステップＳ１０２）。

【0044】

初期化では、Ｑテーブルの各Ｑ値の初期値が設定される。初期値の設定方法はどのような方法であってもよいが、学習処理をより効率化できるような初期値を設定する方法が望ましい。本実施形態では、上部の物品をピッキングする動作に対するＱ値が大きくなるように初期値を設定する方法を適用する。この方法は、上下方向のデプスが他の物品より大きい物品を、デプスがさらに大きくなる方向に移動させる移動動作を、最適な移動動作の初期値として設定することに相当すると解釈することができる。

【0045】

例えば学習部１０２は、ピッキングする動作に対して固定の報酬に相当する値（例えば上述の＋２０）を初期値として設定する。なお、与えられた状態情報に対して複数のピッキングする動作が対応づけられる場合は、学習部１０２は、例えば複数の動作からランダムに選択した動作について初期値を設定する。

【0046】

ピッキングする動作を採用する方法は、貪欲法と同様に衝突および崩壊を回避することができるため、初期値としては効率的である。なおこの初期値の設定方法は一例でありこれに限られるものではない。例えば、すべてのＱ値に０を初期値として設定する方法が用いられてもよい。

【0047】

なお初回の処理では、決定部１０３は、初期値を設定した移動動作を最適な動作として決定する。

【0048】

初回の処理でない場合（ステップＳ１０１：Ｎｏ）、および、Ｑテーブルの初期化の後、制御部１０４は、決定された移動動作を行うようにロボット２００を動作させる（ステップＳ１０３）。

【0049】

取得部１０１は、移動動作の後にカメラ２０２によって撮像されたデプス画像を解析することにより、状態情報を取得する（ステップＳ１０４）。

【0050】

学習部１０２は、移動動作が失敗したか否かを判定する（ステップＳ１０５）。失敗したかの判定方法はどのような方法であってもよい。例えば、実際に荷降ろし動作を実行して衝突または崩壊などの異常が生じた場合に、ユーザが失敗したことを示す情報を制御装置１００に入力し、学習部１０２がこの情報を参照して判定する方法を用いることができる。学習処理およびロボット２００の移動の制御は、コンピュータシミュレーションにより実行されてもよい。この場合、コンピュータシミュレーションの機能の１つとして、動作の失敗を判定する機能が実現されてもよい。

【0051】

移動動作に失敗していない場合（ステップＳ１０５：Ｎｏ）、学習部１０２は、実行された移動動作に対応するＱテーブルのＱ値を更新する（ステップＳ１０６）。例えば学習部１０２は、上記の（１）式に従いＱ値を更新する。

【0052】

学習部１０２は、荷降ろしが完了したか否かを判定する（ステップＳ１０７）。例えば学習部１０２は、ユーザにより荷降ろしの完了を示す情報が入力された場合に、荷降ろしが完了したと判定する。

【0053】

荷降ろしが完了した場合（ステップＳ１０７：Ｙｅｓ）、学習部１０２は、当該エピソードについての学習処理を終了する。荷降ろしが完了していない場合（ステップＳ１０７：Ｎｏ）、決定部１０３は、次の移動動作を決定する（ステップＳ１０８）。

【0054】

例えば決定部１０３は、εグリーディ法に従い、εの確率でランダムに移動動作を決定し、（１－ε）の確率で、ステップＳ１０４で取得した状態情報に対する移動動作のうちＱ値が最大である移動動作を決定する。その後、ステップＳ１０１に戻り処理が繰り返される。

【0055】

ステップＳ１０５で移動動作に失敗したと判定された場合（ステップＳ１０５：Ｙｅｓ）、学習部１０２は、失敗した移動動作を決定するときに参照された状態情報（第１状態情報）に類似する状態情報（第２状態情報）を特定し、特定した状態情報を失敗した移動動作を決定するときに参照された状態情報と同一のグループに分類する（ステップＳ１０９）。学習部１０２は、分類したグループに含まれる状態情報のＱ値をそれぞれ更新し（ステップＳ１１０）、学習処理を終了する。例えば学習部１０２は、失敗したことを示す報酬（例えば“－１００”）を用いて上記の（１）式に従い、グループに含まれる各状態情報のＱ値を更新する。

【0056】

類似する状態情報は、失敗した移動動作と同じ動作を行った場合に、同様に失敗する（失敗する可能性が高い）状態情報に相当する。類似する状態情報の特定方法の詳細は後述する。このように、本実施形態では、移動動作が決定された状態情報のみでなく、類似する状態情報のＱ値も更新される。これにより、失敗する移動動作が選択されることをより効率的に回避可能となる。その結果、例えば、学習をより早く収束させることができる。

【0057】

次に、このように構成された本実施形態にかかる制御装置１００による制御処理について説明する。制御処理は、学習されたＱテーブルを用いてロボット２００の動作を制御する処理である。図７は、本実施形態における制御処理の一例を示すフローチャートである。

【0058】

カメラ２０２は、荷降ろしの対象となる物品群を撮像する（ステップＳ２０１）。撮像されたデプス画像は、制御装置１００に送信される。取得部１０１は、撮像されたデプス画像を解析することにより、物品群の状態情報を取得する（ステップＳ２０２）。例えば取得部１０１は、図３で説明したように、各セルが０～３の値を取りうる９セル分のデプス値を含む状態情報を取得する。

【0059】

決定部１０３は、取得された状態情報に対する移動動作を、学習済みのＱテーブルを参照して決定する（ステップＳ２０３）。例えば決定部１０３は、取得された状態情報に対応するＱテーブルの移動動作（動作０～動作１７）のうち、Ｑ値が最も大きい移動動作を決定する。制御部１０４は、決定された移動動作を行うようにロボット２００の動作を制御する（ステップＳ２０４）。

【0060】

次に、荷降ろしの動作の例を説明する。図８は、荷降ろしに失敗した失敗サンプルの例を示す図である。失敗サンプルは、例えば物品の衝突および崩壊が生じたサンプルである。失敗サンプル８０１は、物品の衝突が生じる例である。失敗サンプル８０２は、崩壊が生じる例である。失敗サンプルが生じたことは、図６のステップＳ１０９で状態情報をグループに分類する処理の開始の条件となる。

【0061】

次に、類似する状態情報を特定し、グループに分類する処理の詳細について説明する。図９は、類似する状態情報を特定する処理の一例を示す図である。図９は、図４の動作４０１と同様に、物品Ａを引き出す動作４により荷降ろしに失敗した例を示す。状態情報９０１は、この動作を行ったときの状態情報に相当する。

【0062】

学習部１０２は、状態情報９０１から、失敗の原因となる物品の配置を求める。例えば図９の例では、ラベル１０のセルに物品が存在せず、ラベル１３のセルに物品Ｂが配置され、ラベル１６のセルに物品Ａが配置されている。このような配置の場合、他のラベルのセルにどのように物品が配置されていたとしても、動作４を実行すると失敗することが判定できる。すなわち、学習部１０２は、動作４の失敗の原因として、以下のような物品の配置を特定する。
・ラベル１０のセル：物品なし
・ラベル１３のセル：１つの物品Ｂが配置
・ラベル１６のセル：１つの物品Ａが配置

【0063】

そして学習部１０２は、この配置を含む、状態情報９０１以外の状態情報を、類似する状態情報として特定する。状態情報９０２は、特定される状態情報の例を示す。なお状態情報９０２の“Ｘ”は、０～３の値のうちいずれが設定されてもよいことを示す。すなわち学習部１０２は、“Ｘ０ＸＸ１ＸＸ２Ｘ”の形式で表される状態情報を、類似する状態情報として特定する。学習部１０２は、特定した状態情報を、失敗した状態情報と同じグループに分類する。

【0064】

類似する状態情報の特定方法はこれに限られない。失敗する、または、失敗する可能性が高いと判定できる他の状態情報を特定する方法であればどのような方法が用いられてもよい。例えば、図９の例では、物品ＡおよびＢの位置をｙ方向にずらした以下のような配置Ｐ１、Ｐ２についても、対応する方向に動作４をずらした動作３、動作５を実行すると失敗すると判定することができる。
（Ｐ１）
・ラベル９のセル：物品なし
・ラベル１２のセル：１つの物品Ｂが配置
・ラベル１５のセル：１つの物品Ａが配置
（Ｐ２）
・ラベル１１のセル：物品なし
・ラベル１４のセル：１つの物品Ｂが配置
・ラベル１７のセル：１つの物品Ａが配置

【0065】

従って、学習部１０２は、配置Ｐ１に対応する状態情報“０ＸＸ１ＸＸ２ＸＸ”、および、配置Ｐ２に対応する状態情報“ＸＸ０ＸＸ１ＸＸ２”を、類似する状態情報として特定してもよい。この場合のように、Ｑ値を更新する対象となる動作は、失敗した動作に対応する状態情報（状態情報９０１）、および、類似する状態情報の間で異なりうる。

【0066】

学習部１０２は、同じグループに分類された状態情報のＱ値をそれぞれ更新する（図６のステップＳ１１０）。このように、学習部１０２は、１つの失敗サンプルを、対応するグループに属するすべての状態情報を更新するために使用することができる。従って、サンプリング効率を改善し、学習をより早く収束させることが可能となる。

【0067】

図１０および図１１は、荷降ろし動作の成功率の一例を示す図である。図１０および図１１は、それぞれ、３×３×３の操作空間、および、２×２×２の操作空間に対する図である。

【0068】

図１０および図１１は、コンピュータシミュレーションにより、複数のエピソードについて学習処理を繰り返し実行したときの、エピソード数（横軸：Ｅｐｉｓｏｄｅ）に対する成功率（縦軸：Ｓｕｃｃｅｓｓｒａｔｅ）の変化を示す。なお横方向の破線は、成功率が０．９５である位置を示す。また、図１０および図１１では、左側のグラフ１００１、１１０１が、本実施形態の手法を適用しない従来のＱラーニングを行った場合の例を示し、右側のグラフ１００２、１１０２が、本実施形態の手法を適用した場合の例を示す。

【0069】

図１０に示すように、本実施形態では、従来のＱラーニングと比較して高い成功率を維持できている。図１１に示すように、本実施形態では、従来のＱラーニングと比較して、高い成功率をより早期に達成できている。

【0070】

図１２および図１３は、学習カーブの例を示す図である。学習カーブは、複数のエピソードについて学習処理を繰り返し実行したときの、報酬（Ｒｅｗａｒｄ）の変化を示す。
図１２および図１３は、それぞれ、３×３×３の操作空間、および、２×２×２の操作空間に対する図である。

【0071】

図１２の曲線１２０１は、本実施形態の学習カーブの例を示す。範囲１２０２は、複数回の学習処理を実行したときの曲線１２０１の分散に対応する範囲を示す。直線１２１１は、物品群から上部の物品を繰り返しピッキングして荷降ろしする貪欲法を用いる場合の学習カーブの例を示す。範囲１２１２は、複数回の学習処理を実行したときの直線１２１１の分散に対応する範囲を示す。貪欲法は、簡単なルールを用いる方法であるため、エピソードを繰り返し実行したとしても学習による改善効果は得られず、報酬も一定であると近似することができる。

【0072】

図１２に示すように、本実施形態を適用すれば、エピソード数が約２５００に達する位置（直線１２２１）で、より高い報酬を得ることができる荷降ろし動作が利用可能となる。２×２×２の操作空間についても、図１３に示すように、本実施形態を適用すれば、エピソード数が約７００に達する位置（直線１３２１）で、より高い報酬を得ることができる荷降ろし動作が利用可能となる。より高い報酬を得ることは、例えば、より効率的である、横から引き出す動作を採用した荷降ろし動作を実現可能となったことを意味する。

【0073】

このように、本実施形態にかかる制御装置では、２つの方向に移動させる複数の移動動作から最適な移動動作を決定するための学習モデルが強化学習により学習され、学習された学習モデルを用いて、最適な動作が決定される。これにより、より効率的な荷降ろしを実現可能となる。

【0074】

また本実施形態では、荷降ろしの成功率を保証するために、上部の物品をピッキングする動作がより適切な動作として採用されるように初期値を設定する初期化（貪欲法による初期化）が用いられる。これにより、例えば他の物品を隠蔽され見えない物品が存在するような場合であっても、荷降ろし動作が成功する可能性を高めることができる。

【0075】

また本実施形態では、サンプリング効率を改善するために状態情報をグループに分類する処理が実行される。失敗サンプルが、同じグループに含まれるすべての状態情報の更新のために再利用される。これにより、サンプリング効率を改善し、学習をより早く収束させることが可能となる。

【0076】

次に、本実施形態にかかる制御装置のハードウェア構成について図１４を用いて説明する。図１４は、本実施形態にかかる制御装置のハードウェア構成例を示す説明図である。

【0077】

本実施形態にかかる制御装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

【0078】

本実施形態にかかる制御装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

【0079】

本実施形態にかかる制御装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0080】

さらに、本実施形態にかかる制御装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる制御装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0081】

本実施形態にかかる制御装置で実行されるプログラムは、コンピュータを上述した制御装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0082】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0083】

１０ロボットシステム
１００制御装置
１０１取得部
１０２学習部
１０３決定部
１０４制御部
１２１記憶部
２００ロボット
２０１エンドエフェクタ
２０２カメラ

【図1】