特許7566589 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7566589情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-04

(45)【発行日】2024-10-15

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20241007BHJP

G06N 3/08 20230101ALI20241007BHJP

B25J 13/08 20060101ALN20241007BHJP

【ＦＩ】

G06N20/00

G06N3/08

B25J13/08 A

【請求項の数】 11

(21)【出願番号】P 2020185041

(22)【出願日】2020-11-05

(65)【公開番号】P2022074731

(43)【公開日】2022-05-18

【審査請求日】2023-02-06

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】金子敏充

(72)【発明者】

【氏名】下山賢一

(72)【発明者】

【氏名】田中達也

【審査官】渡辺順哉

(56)【参考文献】

【文献】国際公開第２０２０／０７０８７６（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０２１／０１２９３１９（ＵＳ，Ａ１）

【文献】国際公開第２０１９／２２２７３４（ＷＯ，Ａ１）

【文献】特開２００６－３０９５１９（ＪＰ，Ａ）

【文献】特開２０１４－２１１６６７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｂ２５Ｊ１／００－２１／０２

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

推論の対象となる第１対象に関連する１以上の第２対象それぞれの第１時刻の状態を示す１以上の第１状態情報と、１以上の前記第２対象それぞれの第２時刻の状態を示す１以上の第２状態情報とを取得する取得部と、
前記推論に用いる機械学習モデルの強化学習に用いる学習データとして、少なくとも一部が前記第２状態情報のいずれかに置き換えられた前記第１状態情報、および、少なくとも一部が前記第１状態情報のいずれかに置き換えられた前記第２状態情報を含む学習データを生成する生成制御部と、
を備える情報処理装置。

【請求項2】

前記第１対象はロボットであり、
前記第２対象は、前記ロボットが移動させる物体の移動元の領域である第１領域と、前記物体の移動先の領域である第２領域と、を含み、
前記第１状態情報は、前記第１時刻の前記第１領域の状態を示す第３状態情報と、前記第１時刻の前記第２領域の状態を示す第４状態情報と、を含み、
前記第２状態情報は、前記第２時刻の前記第１領域の状態を示す第５状態情報と、前記第２時刻の前記第２領域の状態を示す第６状態情報と、を含む、
請求項１に記載の情報処理装置。

【請求項3】

前記生成制御部は、
前記第６状態情報に置き換えた前記第３状態情報、
前記第５状態情報に置き換えた前記第４状態情報、
前記第４状態情報に置き換えた前記第５状態情報、および、
前記第３状態情報に置き換えた前記第６状態情報、
を含む前記学習データを生成する、
請求項２に記載の情報処理装置。

【請求項4】

前記生成制御部は、
前記第５状態情報に置き換えた前記第４状態情報、および、
前記第３状態情報に置き換えた前記第６状態情報、
を含む前記学習データを生成する、
請求項２に記載の情報処理装置。

【請求項5】

前記生成制御部は、
前記第６状態情報に置き換えた前記第３状態情報、および、
前記第４状態情報に置き換えた前記第５状態情報、
を含む前記学習データを生成する、
請求項２に記載の情報処理装置。

【請求項6】

前記第１領域および前記第２領域は大きさが異なり、
前記取得部は、前記第１状態情報および前記第２状態情報が同じ大きさの領域の状態を示すように、前記第１状態情報および前記第２状態情報の少なくとも一方を修正する、
請求項２に記載の情報処理装置。

【請求項7】

前記第１領域および前記第２領域は大きさが異なり、
前記生成制御部は、前記第１状態情報および前記第２状態情報が同じ大きさの領域の状態を示すように、前記第１状態情報および前記第２状態情報の少なくとも一方を修正し、修正した前記第１状態情報および前記第２状態情報を含む前記学習データを生成する、
請求項２に記載の情報処理装置。

【請求項8】

前記生成制御部は、前記第１状態情報を前記第２状態情報に置き換え可能か否か、および、前記第２状態情報を前記第１状態情報に置き換え可能か否かを判定し、置き換え可能と判定した前記第１状態情報を前記第２状態情報に置き換え、置き換え可能と判定した前記第２状態情報を前記第１状態情報に置き換る、
請求項１に記載の情報処理装置。

【請求項9】

前記第１対象はグリッドワールド内を移動するエージェントの移動経路であり、
前記第２対象は、前記エージェントを含み、
前記第１状態情報は、前記第１時刻の前記エージェントの位置を示し、
前記第２状態情報は、前記第２時刻の前記エージェントの位置を示す、
請求項１に記載の情報処理装置。

【請求項10】

情報処理装置が実行する情報処理方法であって、
推論の対象となる第１対象に関連する１以上の第２対象それぞれの第１時刻の状態を示す１以上の第１状態情報と、１以上の前記第２対象それぞれの第２時刻の状態を示す１以上の第２状態情報とを取得する取得ステップと、
前記推論に用いる機械学習モデルの強化学習に用いる学習データとして、少なくとも一部が前記第２状態情報のいずれかに置き換えられた前記第１状態情報、および、少なくとも一部が前記第１状態情報のいずれかに置き換えられた前記第２状態情報を含む学習データを生成する生成制御ステップと、
を含む情報処理方法。

【請求項11】

コンピュータに、
推論の対象となる第１対象に関連する１以上の第２対象それぞれの第１時刻の状態を示す１以上の第１状態情報と、１以上の前記第２対象それぞれの第２時刻の状態を示す１以上の第２状態情報とを取得する取得ステップと、
前記推論に用いる機械学習モデルの強化学習に用いる学習データとして、少なくとも一部が前記第２状態情報のいずれかに置き換えられた前記第１状態情報、および、少なくとも一部が前記第１状態情報のいずれかに置き換えられた前記第２状態情報を含む学習データを生成する生成制御ステップと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

【背景技術】

【0002】

強化学習は、試行錯誤に繰り返すことにより最適な行動方策の学習を行うため、行動の試行回数に対する学習効率の向上が求められている。ロボットの動作を学習する際に、１回の試行により得られた経験データを面対称な座標系に変換することでデータを拡張し、学習効率を改善する技術が提案されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】Yijiong Lin, Jiancong Huang, Matthieu Zimmer, Yisheng Guan, Juan Rojas, Paul Weng, “Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning” arxiv:1909.10707, 2019．

【文献】Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis, “Human-level control through deep reinforcement learning” Nature 518.7540 (2015): 529-533.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、拡張したデータを学習に用いることができず、学習効率を改善できない場合があった。例えば、ある容器内の対象物を把持して他の容器内に箱詰めする動作をロボットに学習させる構成を考える。このような構成では、面対称な座標変換を行う拡張によると、対象物の移動元と移動先の位置が入れ替わったデータが得られる。しかし、一般的な箱詰め作業では移動元と移動先の位置が入れ替わることはないため、拡張されたデータは強化学習に使うことができない。

【0005】

本発明が解決しようとする課題は、学習効率を改善することができる情報処理装置、情報処理方法およびプログラムを提供することである。

【課題を解決するための手段】

【0006】

実施形態の情報処理装置は、取得部と、生成制御部と、を備える。取得部は、推論の対象となる第１対象に関連する１以上の第２対象それぞれの第１時刻の状態を示す１以上の第１状態情報と、１以上の第２対象それぞれの第２時刻の状態を示す１以上の第２状態情報とを取得する。生成制御部は、推論に用いる機械学習モデルの強化学習に用いる学習データとして、少なくとも一部が第２状態情報のいずれかに置き換えられた第１状態情報、および、少なくとも一部が第１状態情報のいずれかに置き換えられた第２状態情報を含む学習データを生成する。

【図面の簡単な説明】

【0007】

【図1】第１の実施形態にかかるロボットシステムの構成図。

【図2】情報処理装置のブロック図。

【図3】生成制御部のブロック図。

【図4】第１の実施形態における学習処理のフローチャート。

【図5】拡張されたデータの例を示す図。

【図6】拡張されたデータの例を示す図。

【図7】拡張されたデータの例を示す図。

【図8】第２の実施形態にかかる情報処理装置のブロック図。

【図9】第２の実施形態にかかる生成制御部のブロック図。

【図10】第３の実施形態にかかる情報処理装置のブロック図。

【図11】第３の実施形態にかかる生成制御部のブロック図。

【図12】グリッドワールドにおける状態の例を示す図。

【図13】第１から第３の実施形態にかかる情報処理装置のハードウェア構成図。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

【0009】

（第１の実施形態）
第１の実施形態にかかる情報処理装置は、対象物の移動元と移動先、および、移動前と移動後の容器の状態を入れ替えてデータを拡張し、拡張したデータを用いて箱詰めの対象物の把持の位置・姿勢と箱詰めの位置・姿勢を学習する。このようにデータ拡張を行うことにより、１回の対象物の把持および箱詰め動作から２つ以上の経験データを生成して強化学習に用いることができる。従って、学習効率を高めることが可能となる。

【0010】

第１の実施形態では、物品（対象物の一例）を把持し、把持した物品を移動して容器（移動先の一例）に詰める機能を有するロボットを制御するロボットシステムについて主に説明する。

【0011】

第１の実施形態にかかる情報処理装置は、箱詰めの対象物の把持の位置および姿勢（把持位置・姿勢）と、箱詰めの位置および姿勢（箱詰め位置・姿勢）とを併せて決定する方策を学習する際に用いられる。これにより、ロボットにより実行可能で、充填率の高い、または、箱詰め作業時間の短い効率的な箱詰め方策を効率的に学習することが可能となる。ロボットにより実行可能であるとは、例えば、容器および他の物体に干渉することなく対象物を箱詰め可能であることを意味する。

【0012】

図１は、第１の実施形態にかかる情報処理装置１２０を有するロボットシステムの構成の一例を示す図である。図１に示すように、本実施形態のロボットシステムは、ロボット１００と、生成部１１０と、生成部１１１と、情報処理装置１２０と、ネットワーク１３０と、表示部１４０と、入力部１５０と、容器１６０と、容器１７０と、シミュレータ１８０と、を備える。

【0013】

ロボット１００は、操作の対象物１６１を容器１６０から容器１７０へ移動させる機能を有するロボットである。ロボット１００は、多関節ロボット、直行ロボット、および、これらの組み合わせ等により構成することができる。以下では、ロボット１００が多関節アーム１０１、エンドエフェクタ１０２、および、複数のアクチュエータ１０３を備える多関節ロボットである場合を例に説明する。

【0014】

エンドエフェクタ１０２は、対象物（例えば物品）を移動させるために、多関節アーム１０１の先端に取り付けられる。エンドエフェクタ１０２は、例えば対象物を把持可能なグリッパー、および、真空式ロボットハンドなどである。多関節アーム１０１およびエンドエフェクタ１０２は、アクチュエータ１０３による駆動に応じて制御される。より具体的には、多関節アーム１０１は、アクチュエータ１０３による駆動に応じて、移動、回転、および、伸縮（すなわち関節間の角度の変更）等を行う。エンドエフェクタ１０２は、アクチュエータ１０３による駆動に応じて、対象物の把持（グリップまたは吸着）、および、把持の解除（リリース）を行う。

【0015】

情報処理装置１２０は、ロボット１００の動作を制御する。情報処理装置１２０は、コンピュータ、および、ロボット１００の動作を制御するための専用の制御装置等として実現され得る。情報処理装置１２０の機能の詳細は後述する。

【0016】

ネットワーク１３０は、ロボット１００、生成部１１０、生成部１１１、および、情報処理装置１２０などの構成要素を接続する、例えば、ＬＡＮ（ローカルエリアネットワーク）およびインターネットなどのネットワークである。ネットワーク１３０は、有線ネットワークおよび無線ネットワークのいずれであってもよい。ロボット１００、生成部１１０、生成部１１１、および情報処理装置１２０は、ネットワーク１３０を介してデータ（信号）を送受信できる。なお、データの送受信は、ネットワーク１３０を介することなく、コンポーネント間の直接的な有線接続または無線接続を用いて行われてもよい。

【0017】

表示部１４０は、情報処理装置１２０による各種処理で用いられる情報を表示するための装置である。表示部１４０は、例えば、液晶ディスプレイ（ＬＣＤ）等の表示装置により構成できる。表示部１４０は、ロボット１００に関する設定、ロボット１００の状態、および、ロボット１００による作業状況等を表示し得る。

【0018】

入力部１５０は、キーボード、および、マウス等のポインティングデバイスを含む入力装置である。表示部１４０および入力部１５０は、情報処理装置１２０内に組み込まれていてもよい。

【0019】

ロボット１００は、容器１６０（第１容器）に設置された対象物を把持し、容器１７０（第２容器）に詰め込む作業を行う。容器１７０は、空の場合もあるし、既に対象物１７１が詰め込まれている場合もある。容器１６０は、例えば倉庫内で物品を保存または移動するための容器（コンテナ）である。また、容器１７０は、例えば出荷等の用途に用いられる容器（コンテナ）である。容器１７０は、例えば段ボール箱、および、運送用のパレット等である。

【0020】

容器１６０および容器１７０は、それぞれ作業台１６２および作業台１７２の上に配置されている。容器１６０および容器１７０は、それぞれを搬送可能なベルトコンベア上に配置されてもよい。その場合、容器１６０および容器１７０は、ベルトコンベアの動作によりロボット１００が動作可能な範囲に配置される。

【0021】

また、容器１６０および容器１７０の少なくとも一方を使用せず、例えば、ベルトコンベアまたは台車などの作業領域（移動先の一例）に対象物１６１および／または対象物１７１を直接配置するように構成してもよい。

【0022】

本実施形態では、推論の対象はロボット１００である。例えば、把持位置・姿勢、および、箱詰め位置・姿勢が、ロボット１００の動作として推論される。この場合、ロボット１００に関連する対象は、例えば対象物１６１の移動元の領域（第１領域）、および、移動先の領域（第２領域）である。ロボット１００に関連する対象は、ロボット１００（の動作）に影響する対象と解釈することもできる。容器１６０および容器１７０は、それぞれ、移動元の領域、および、移動先の領域の例である。上記のように、ベルトコンベアまたは台車などの作業領域が、第１領域または第２領域となる場合がある。

【0023】

生成部１１０は、容器１６０内の状態を示す状態情報（第１領域の状態情報）を生成する。生成部１１１は、対象物１６１の移動先の状態を示す状態情報（第２領域の状態情報）を生成する。生成部１１０および生成部１１１は、例えば画像を生成するカメラ、および、デプス画像（デプスデータ）を生成する距離センサ等である。生成部１１０および生成部１１１は、ロボット１００を含む環境内（例えば室内の柱、および、天井等）に設置されていてもよいし、ロボット１００に取り付けられていてもよい。

【0024】

作業台１６２と並行な平面をＸＹ平面とし、ＸＹ平面と垂直な方向をＺ軸とする３次元座標を用いる場合、画像は、例えばＺ軸と平行な方向を撮像方向とするカメラにより生成される。また、デプス画像は、例えばＺ軸と平行な方向を測距方向とする距離センサにより生成される。例えばデプス画像は、ＸＹ平面上の各位置（ｘ、ｙ）でのＺ軸方向のデプス値を表す情報である。

【0025】

生成部１１０は、例えば、容器１６０内の少なくとも一部の状態を観測することにより状態情報を生成する。状態情報は、例えば容器１６０内の画像およびデプス画像の少なくとも一方を含む。

【0026】

生成部１１１は、例えば、容器１７０内の少なくとも一部の状態を観測することにより状態情報を生成する。状態情報は、例えば容器１７０内の画像およびデプス画像の少なくとも一方を含む。

【0027】

生成部１１０および生成部１１１は、１つの生成部に統合してもよい。この場合１つの生成部が、容器１６０の状態情報の生成、および、容器１７０の状態情報の生成を実行する。また、３個以上の生成部が備えられてもよい。

【0028】

情報処理装置１２０は、生成部１１０および生成部１１１により生成された状態情報を用いて、少なくとも、対象物１６１の１つを把持し、移動し、容器１７０に詰め込むまでの動作計画を作成する。情報処理装置１２０は、作成された動作計画に基づく制御信号をロボット１００のアクチュエータ１０３に送出することにより、ロボット１００を動作させる。

【0029】

シミュレータ１８０は、ロボット１００による動作を模擬するシミュレータである。シミュレータ１８０は、例えばコンピュータ等の情報処理装置として実現され、ロボット１００による動作の学習および評価に用いられる。なお、ロボットシステムは、シミュレータ１８０を備えなくてもよい。

【0030】

図２は、情報処理装置１２０の機能構成の一例を示すブロック図である。図２に示すように、情報処理装置１２０は、取得部２０１と、推論部２０２と、ロボット制御部２０３と、出力制御部２０４と、報酬決定部２１１と、生成制御部２２０と、学習部２１２と、記憶部２３１と、を備える。

【0031】

取得部２０１は、情報処理装置１２０で実行される各種処理で用いられる各種情報を取得する。例えば取得部２０１は、ネットワーク１３０を介して、生成部１１０および生成部１１１から状態情報を取得（受信）する。

【0032】

以下では、第１時刻に生成部１１０および生成部１１１から取得した状態情報を第１状態情報という。また、第１時刻より後の第２時刻に生成部１１０および生成部１１１から取得した状態情報を第２状態情報という。本実施形態では、生成部１１０および生成部１１１の２つから状態情報が取得されるため、第１状態情報および第２状態情報はそれぞれ２つとなる。

【0033】

取得部２０１は、取得した状態情報を推論部２０２および報酬決定部２１１に出力するが、その際、取得した状態情報をそのまま出力してもよいし、解像度変換、フレームレート変換、クリッピング、および、トリミング等の処理を加えてから出力してもよい。以下では、生成部１１０から取得した時刻ｔの第１領域の状態情報をｓ^（１） _ｔとし、生成部１１１から取得した時刻ｔの第２領域の状態情報をｓ^（２） _ｔとする。

【0034】

時刻ｔを第１時刻とし、時刻ｔ＋１を第２時刻とする場合、時刻ｔの第１領域の状態情報ｓ^（１） _ｔ、および、第２領域の状態情報ｓ^（２） _ｔが、それぞれ第１状態情報に相当する。また、時刻ｔ＋１の第１領域の状態情報ｓ^（１） _ｔ＋１、および、第２領域の状態情報ｓ^（２） _ｔ＋１が、それぞれ第２状態情報に相当する。

【0035】

推論部２０２は、時刻ｔの状態情報ｓ^（１） _ｔおよび状態情報ｓ^（２） _ｔを用いて、ロボット１００が容器１６０内で対象物１６１を把持する際の把持位置・姿勢ａ^（１） _ｔ、および、容器１７０内に対象物１６１を箱詰めする際の箱詰め位置・姿勢ａ^（２） _ｔを決定（推論）する。推論部２０２は、様々な強化学習アルゴリズムを使用して推論を行うことができる。例えばＤＱＮ（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）により推論を行う場合、推論部２０２は、状態情報ｓ^（１） _ｔおよび状態情報ｓ^（２） _ｔを連結した状態ｓ_ｔ＝（ｓ^（１） _ｔ，ｓ^（２） _ｔ）をニューラルネットワークで構成された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）に入力し、以下の（１）式により行動ａ_ｔを決定する。
ａｒｇｍａｘ｛Ｑ（ｓ_ｔ，ａ_ｔ）｝・・・（１）
ａ_ｔ

【0036】

行動ａ_ｔは、把持位置・姿勢ａ^（１） _ｔと箱詰め位置・姿勢ａ^（２） _ｔの組み合わせと１対１に対応する。行動ａ_ｔから把持位置・姿勢ａ^（１） _ｔと箱詰め位置・姿勢ａ^（２） _ｔが決定される。

【0037】

把持位置・姿勢ａ^（１） _ｔは、対象物１６１を把持する際のエンドエフェクタ１０２の位置を決定する座標値、および、対象物１６１を把持する際のエンドエフェクタ１０２の向きまたは傾き等を表す。一方、箱詰め位置・姿勢ａ^（２） _ｔは、対象物１６１を置く際のエンドエフェクタ１０２の位置を決定する座標値、および、対象物１６１を置く際のエンドエフェクタ１０２の向きまたは傾き等を表す。位置を決定する座標値は、例えば予め定められた３次元の座標系における座標値で表される。向きまたは傾きは、例えば、３次元の座標系の各軸回りの回転角度で表される。

【0038】

推論部２０２が推論に用いる機械学習モデルはニューラルネットワークに限られず、同様の入力データから推論が実行できるモデルであればどのようなモデルであってもよい。例えば推論部２０２は、線形モデルを機械学習モデルとして用いてもよい。

【0039】

ロボット制御部２０３は、推論部２０２からの出力情報に基づいて、計画された位置・姿勢で対象物１６１を把持、箱詰めするように、ロボット１００を制御する。例えばロボット制御部２０３は、以下のような動作をそれぞれ実行させるためのアクチュエータ１０３の制御信号を生成する。
・ロボットの１００の現在の状態から推論部２０２によって計画された把持位置・姿勢で対象物１６１を把持するまでの動作
・対象物１６１の把持動作
・対象物１６１を推論部２０２によって計画された箱詰め位置・姿勢まで移動させる動作
・対象物１６１を置く動作
・箱詰め後にロボット１００を所望の状態にするための動作

【0040】

ロボット制御部２０３は、生成した制御信号を例えばネットワーク１３０を介してロボット１００に送出する。制御信号に基づくアクチュエータ１０３の駆動に応じて、ロボット１００が対象物１６１の把持および箱詰め動作を行う。

【0041】

出力制御部２０４は、情報処理装置１２０による各種処理で用いられる各種情報の出力を制御する。例えば出力制御部２０４は、ニューラルネットワークの出力を表示部１４０に表示する処理を制御する。

【0042】

報酬決定部２１１は、ロボット１００の動作結果の好ましさに基づいて強化学習に用いる報酬の値を決定する。報酬決定部２１１は、ロボット制御部２０３に入力された計画に従って対象物１６１を把持および箱詰めした結果、好ましい状態となった場合に大きな報酬、好ましくない状態となった場合に小さな報酬となるように、報酬を決定する。例えば、対象物１６１の把持および箱詰めに成功した場合、報酬決定部２１１は対象物１６１の体積または重量等に基づいて報酬の値を決定する。報酬決定部２１１は、把持から箱詰めまでに要するロボットの作業時間が短いほど大きな報酬となるように決定してもよい。

【0043】

一方、報酬決定部２１１は、以下のような好ましくない状態となった場合、報酬を小さな値（例えば負の値）に決定する。
・対象物１６１の把持に失敗した場合
・対象物１６１の移動および箱詰め時に、容器１６０、容器１７０、または、対象物１７１などに衝突（接触）した場合
・計画された位置および姿勢とは異なる状態で対象物１６１を箱詰めした場合

【0044】

以下では、時刻ｔの報酬をｒ_ｔと表記する。ここで、時刻ｔの行動に対する報酬は時刻ｔ＋１の状態に基づいて時刻ｔ＋１に決定されるため、ｒ_ｔは時刻ｔ－１の行動に対する報酬に相当する。

【0045】

生成制御部２２０は、強化学習に用いる学習データ（経験データ）を生成するデータ生成処理を実行する。例えば生成制御部２２０は、取得部２０１が取得した第１領域の状態情報と第２領域の状態情報、報酬決定部２１１が決定した報酬、並びに、推論部２０２が決定した把持位置・姿勢および箱詰め位置・姿勢から、経験データを生成する。

【0046】

本実施形態では、生成制御部２２０は、推論部２０２による推論の結果に基づきロボット制御部２０３がロボット１００を動作させて得られる経験データのみでなく、この経験データを拡張した経験データも生成する。生成制御部２２０は、少なくとも一部が第２状態情報に置き換えられた第１状態情報、および、少なくとも一部が第１状態情報に置き換えられた第２状態情報を含む経験データを生成する。生成制御部２２０による経験データの生成方法の詳細は後述する。

【0047】

記憶部２３１は、情報処理装置１２０で実行される各種処理で用いられる各種情報を記憶する。例えば記憶部２３１は、生成制御部２２０で生成された経験データを記憶する。記憶部２３１は、記憶する経験データ数に予め上限が設けられてもよい。例えば経験データ数が上限を上回った場合には、記憶部２３１は、既に記憶されている一部の経験データを削除してから新しい経験データを記憶する。例えば記憶部２３１は、古い時刻の経験データから順に削除する。蓄積された経験データを用いて学習する際には、一定の処理間隔で、ランダムサンプリングなどの予め決められた方法で一定数の経験データがサンプリングされ、学習部２１２に出力される。

【0048】

記憶部２３１は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0049】

学習部２１２は、推論部２０２が用いる機械学習モデル（ニューラルネットワーク）の学習処理（強化学習）を実行する。例えば学習部２１２は、記憶部２３１からサンプリングした経験データを用いて、推論部２０２が用いるニューラルネットワークのパラメータの更新量を決定する。推論部２０２がニューラルネットワークで推論を行う場合、パラメータは、ニューラルネットワークの重みおよびバイアスに相当する。ＤＱＮにより強化学習を行う場合には、経験データｘ＝（ｓ_ｔ，ａ_ｔ，ｒ_ｔ＋１，ｓ_ｔ＋１）がサンプリングされたとき、学習部２１２は、以下の（２）式で表される損失関数を用いてバックプロパゲーションを行うことで各パラメータの更新量を決定する。
Ｌ＝（ｒ_ｔ＋１＋γｍａｘ｛Ｑ（ｓ_ｔ＋１，ａ_ｔ＋１）｝－Ｑ（ｓ_ｔ，ａ_ｔ））^２
ａ_ｔ＋１
・・・（２）

【0050】

γは強化学習において割引率と呼ばれる値である。ｍａｘは、ａ_ｔ＋１を変化させて算出されるＱの値のうち最大値を求める関数である。なお損失関数は（２）式に限られるものではない。

【0051】

上記各部（取得部２０１、推論部２０２、ロボット制御部２０３、出力制御部２０４、報酬決定部２１１、生成制御部２２０、および、学習部２１２）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0052】

次に生成制御部２２０の処理を詳細に説明する。図３は、生成制御部２２０の機能構成の一例を示すブロック図である。図３に示すように、生成制御部２２０は、データ制御部２２１と、拡張部２２２と、データ生成部２２３と、一時記憶部２２４と、を備える。

【0053】

まず、容器１６０と容器１７０が同じ大きさ（第１領域と第２領域とが同じ大きさ）である場合について説明する。

【0054】

一時記憶部２２４は、経験データの生成に必要な状態情報と把持位置・姿勢を一時的に記憶する記憶装置である。一時記憶部２２４は、記憶部２３１と同様に、フラッシュメモリ、メモリカード、ＲＡＭ、ＨＤＤ、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。記憶部２３１が一時記憶部２２４として動作するように構成されてもよい。

【0055】

経験データの生成は、経験データの生成に必要な情報が一時記憶部２２４に記憶されている場合に実行される。以下では、時刻ｔの第１領域の状態情報ｓ^（１） _ｔと、第２領域の状態情報をｓ^（２） _ｔと、把持位置・姿勢ａ^（１） _ｔと、箱詰め位置・姿勢ａ^（２） _ｔと、が一時記憶部２２４に記憶されていることを前提とする。

【0056】

データ制御部２２１は、経験データの生成に必要なデータを準備する。まずデータ制御部２２１は、報酬決定部２１１から入力された時刻ｔ＋１の第１領域の状態情報ｓ^（１） _ｔ＋１と第２領域の状態情報をｓ^（２） _ｔ＋１と、推論部２０２から入力された時刻ｔ＋１の把持位置・姿勢ａ^（１） _ｔ＋１と箱詰め位置・姿勢ａ^（２） _ｔ＋１と、を一時記憶部２２４に出力する。

【0057】

次にデータ制御部２２１は、一時記憶部２２４に記憶されている時刻ｔの第１領域の状態情報ｓ^（１） _ｔと、第２領域の状態情報をｓ^（２） _ｔと、把持位置・姿勢ａ^（１） _ｔと、箱詰め位置・姿勢ａ^（２） _ｔと、を読み出す。データ制御部２２１は、読み出した時刻ｔの各情報と、時刻ｔ＋１に得られる各情報（第１領域の状態情報ｓ^（１） _ｔ＋１、第２領域の状態情報ｓ^（２） _ｔ＋１、報酬決定部２１１から入力された報酬ｒ_ｔ＋１）と、を合わせて、経験データの生成に必要な、以下の（３）式で表されるデータｕ_ｔを拡張部２２２に出力する。
ｕ_ｔ＝（ｓ^（１） _ｔ，ｓ^（２） _ｔ，ａ^（１） _ｔ，ａ^（２） _ｔ，ｒ_ｔ＋１，ｓ^（１） _ｔ＋１，ｓ^（２） _ｔ＋１）・・・（３）

【0058】

データｕ_ｔの各項は、それぞれ以下の情報を意味する。
・第１項：時刻ｔの第１領域の状態情報
・第２項：時刻ｔの第２領域の状態情報
・第３項：時刻ｔの把持位置・姿勢
・第４項：時刻ｔの箱詰め位置・姿勢
・第５項：時刻ｔ＋１の報酬
・第６項：時刻ｔ＋１の第１領域の状態情報
・第７項：時刻ｔ＋１の第２領域の状態情報

【0059】

拡張部２２２は、経験データを増やして強化学習の学習効率を高めるためのデータ拡張を行う。拡張部２２２は、まず入力されたデータｕ_ｔがデータ拡張可能か否かを判定する。例えば、把持および箱詰めが成功したデータであれば、拡張部２２２は、データｕ_ｔがデータ拡張可能であると判定する。把持および箱詰めの少なくとも一方が失敗した場合、拡張部２２２は、データｕ_ｔがデータ拡張可能でないと判定する。データ拡張可能か否かを判定することは、少なくとも一部の状態情報が置き換え可能か否かを判定することに相当すると解釈することができる。

【0060】

データ拡張が可能と判定された場合、拡張部２２２は、データｕ_ｔから以下の（４）～（６）式で表されるｆ_１、ｆ_２、ｆ_３の３通りのデータ拡張を行うことができる。
ｆ_１（ｕ_ｔ）＝
（ｓ^（２） _ｔ＋１，ｓ^（１） _ｔ＋１，ａ^（２） _ｔ，ａ^（１） _ｔ，ｒ_ｔ＋１，ｓ^（２） _ｔ，ｓ^（１） _ｔ）
・・・（４）
ｆ_２（ｕ_ｔ）＝
（ｓ^（１） _ｔ，ｓ^（１） _ｔ＋１，ａ^（１） _ｔ，ａ^（１） _ｔ，ｒ_ｔ＋１，ｓ^（１） _ｔ＋１，ｓ^（１） _ｔ）
・・・（５）
ｆ_３（ｕ_ｔ）＝
（ｓ^（２） _ｔ＋１，ｓ^（２） _ｔ，ａ^（２） _ｔ，ａ^（２） _ｔ，ｒ_ｔ＋１，ｓ^（２） _ｔ，ｓ^（２） _ｔ＋１）
・・・（６）

【0061】

拡張部２２２は、データ拡張が可能と判定された場合に、拡張前のデータｕ_ｔに加えて拡張されたデータｆ_１（ｕ_ｔ）、ｆ_２（ｕ_ｔ）、ｆ_３（ｕ_ｔ）の少なくとも１つをデータ生成部２２３に出力する。

【0062】

データ生成部２２３は、強化学習に用いる経験データｘを生成する。拡張部２２２から入力されたデータが（３）式で表されるデータｕ_ｔのとき、データ生成部２２３は、以下の（７）式で表される経験データｘを生成する。
ｘ＝（ｓ_ｔ，ａ_ｔ，ｒ_ｔ＋１，ｓ_ｔ＋１）・・・（７）

【0063】

状態ｓ_ｔは、ｓ_ｔ＝（ｓ^（１） _ｔ，ｓ^（２） _ｔ）で表され、状態ｓ_ｔ＋１は、ｓ_ｔ＋１＝（ｓ^（１） _ｔ＋１，ｓ^（２） _ｔ＋１）で表され、ａ_ｔは、ａ^（１） _ｔとａ^（２） _ｔの組み合わせに対応する行動である。すなわち、データ生成部２２３は、入力されたデータから、以下の規則に従って経験データｘを生成する。
・入力されたデータの第１項、第２項を結合したデータを、経験データの第１項とする。
・入力されたデータの第３項、第４項を結合したデータを、経験データの第２項とする。
・入力されたデータの第５項を、経験データの第３項とする。
・入力されたデータの第６項、第７項を結合したデータを、経験データの第４項とする。

【0064】

データ生成部２２３は、拡張されたデータｆ_１（ｕ_ｔ）、ｆ_２（ｕ_ｔ）、ｆ_３（ｕ_ｔ）についても上記規則に従って経験データを生成することができる。

【0065】

状態情報を以下のように定義する。
・第３状態情報：時刻ｔの第１領域の状態情報ｓ^（１） _ｔ
・第４状態情報：時刻ｔの第２領域の状態情報ｓ^（２） _ｔ
・第５状態情報：時刻ｔ＋１の第１領域の状態情報ｓ^（１） _ｔ＋１
・第６状態情報：時刻ｔ＋１の第２領域の状態情報ｓ^（２） _ｔ＋１

【0066】

この場合、データ生成部２２３は、データｆ_１（ｕ_ｔ）、ｆ_２（ｕ_ｔ）、ｆ_３（ｕ_ｔ）それぞれに対して、以下のような経験データを生成することになる。
・データｆ_１（ｕ_ｔ）：第６状態情報に置き換えた第３状態情報、第５状態情報に置き換えた第４状態情報、第４状態情報に置き換えた第５状態情報、および、第３状態情報に置き換えた第６状態情報を含む経験データ
・データｆ_２（ｕ_ｔ）：第５状態情報に置き換えた第４状態情報、および、第３状態情報に置き換えた第６状態情報を含む経験データ
・データｆ_３（ｕ_ｔ）：第６状態情報に置き換えた第３状態情報、および、第４状態情報に置き換えた第５状態情報を含む経験データ

【0067】

データ生成部２２３は、生成した各経験データを記憶部２３１に出力する。

【0068】

次に、このように構成された第１の実施形態にかかる情報処理装置１２０による学習処理について説明する。図４は、第１の実施形態における学習処理の一例を示すフローチャートである。

【0069】

取得部２０１は、生成部１１０から、移動元の容器１６０時刻ｔの状態情報をｓ^（１） _ｔを取得する（ステップＳ１０１）。取得部２０１は、生成部１１１から、移動先の容器１７０の時刻ｔの状態情報をｓ^（２） _ｔを取得する（ステップＳ１０２）。

【0070】

学習部２１２は、取得された状態情報ｓ^（１） _ｔおよびｓ^（２） _ｔを推論部２０２が用いるニューラルネットワークに入力し、ニューラルネットワークの出力から、ロボット１００の把持位置・姿勢および箱詰め位置・姿勢を決定する（ステップＳ１０３）。

【0071】

ロボット制御部２０３は、決定された把持位置・姿勢および箱詰め位置・姿勢となるようにロボット１００の動作を制御する（ステップＳ１０４）。

【0072】

報酬決定部２１１は、ロボット１００の動作の結果に基づいて報酬の値を決定する（ステップＳ１０５）。

【0073】

生成制御部２２０は、取得された第１領域の状態情報と第２領域の状態情報、決定された報酬の値、並びに、決定された把持位置・姿勢および箱詰め位置・姿勢と用いて、上記のような手順で経験データを生成するデータ生成処理を実行する（ステップＳ１０６）。

【0074】

学習部２１２は、生成された経験データを用いて、バックプロパゲーションにより畳み込み層の重みとバイアスを更新する（ステップＳ１０７）。

【0075】

学習部２１２は、学習を終了するか否かを判定する（ステップＳ１０８）。学習部２１２は、例えば、行動価値関数の値が収束したか、または、学習の繰り返しの回数が上限値に達したかなどにより、学習の終了を判定する。学習を継続する場合は（ステップＳ１０８：Ｎｏ）、ステップＳ１０１に戻り、処理が繰り返される。学習が終了したと判定された場合（ステップＳ１０８：Ｙｅｓ）、学習処理を終了する。

【0076】

次に、生成される経験データの具体例について説明する。図５は、データ拡張ｆ_１により拡張されたデータの例を示す図である。図５の状態情報５０１は、時刻ｔと時刻ｔ＋１における移動元の領域および移動先の領域の状態を表す。

【0077】

具体的には、状態情報５０１は、以下のような第３状態情報５０１－３、第４状態情報５０１－４、第５状態情報５０１－５、および、第６状態情報５０１－６と、を含む。
・第３状態情報５０１－３：時刻ｔにおける移動元の領域（容器１６０）の状態
・第４状態情報５０１－４：時刻ｔにおける移動先の領域（容器１７０）の状態
・第５状態情報５０１－５：時刻ｔ＋１における移動元の領域（容器１６０）の状態
・第６状態情報５０１－６：時刻ｔ＋１における移動先の領域（容器１７０）の状態

【0078】

状態情報５０１は、時刻ｔに把持位置５１３で対象物５１２を把持し、箱詰め位置５１４に箱詰めした結果、時刻ｔ＋１の状態になったことを示す。

【0079】

状態情報５０２は、データ拡張ｆ_１により状態情報５０１を拡張したデータを表す。状態情報５０２は、状態情報５０１の各状態の時刻と容器を共に入れ替えた状態情報となっている。すなわち、状態情報５０２は、以下のような第３状態情報５０２－３、第４状態情報５０２－４、第５状態情報５０２－５、および、第６状態情報５０２－６と、を含む。
・第３状態情報５０２－３：第６状態情報５０１－６に置き換えた状態情報
・第４状態情報５０２－４：第５状態情報５０１－５に置き換えた状態情報
・第５状態情報５０２－５：第４状態情報５０１－４に置き換えた状態情報
・第６状態情報５０２－６：第３状態情報５０１－３に置き換えた状態情報

【0080】

状態情報５０２は、状態情報５０１とは逆に、容器１７０にある対象物５１２を把持位置５１４で把持し、箱詰め位置５１３で容器１６０に箱詰めしたことを示す。状態情報５０２は、実際に移動元の容器（容器１６０）および移動先の容器（容器１７０）の状態が逆であった場合の状態遷移を模擬したデータとなっているため、強化学習の経験データとして利用することができる。

【0081】

図６は、データ拡張ｆ_２により拡張されたデータの例を示す図である。状態情報５０３は、データ拡張ｆ_２により状態情報５０１を拡張したデータを表す。状態情報５０３は、状態情報５０１の容器１７０の状態を逆の時刻の容器１６０の状態に置き換えたデータとなっている。すなわち、状態情報５０３は、以下のような第３状態情報５０３－３、第４状態情報５０３－４、第５状態情報５０３－５、および、第６状態情報５０３－６と、を含む。
・第３状態情報５０３－３：第３状態情報５０１－３と同じ（置き換えなし）
・第４状態情報５０３－４：第５状態情報５０１－５に置き換えた状態情報
・第５状態情報５０３－５：第４状態情報５０１－５と同じ（置き換えなし）
・第６状態情報５０３－６：第３状態情報５０１－３に置き換えた状態情報

【0082】

その結果、状態情報５０３は、容器１６０にある対象物５１２を把持位置５１３で把持し、箱詰め位置５１３で容器１６０に箱詰めしたことを示す。状態情報５０３は、移動元の容器（容器１６０）および移動先の容器（容器１７０）の状態が箱詰め対象物を除いて同じであった場合を模擬したデータとなっているため、強化学習の経験データとして利用することができる。

【0083】

図７は、データ拡張ｆ_３により拡張されたデータの例を示す図である。状態情報５０４は、データ拡張ｆ_３により状態情報５０１を拡張したデータを表す。状態情報５０４は、状態情報５０１の容器１６０の状態を逆の時刻の容器１７０の状態に置き換えたデータとなっている。すなわち、状態情報５０４は、以下のような第３状態情報５０４－３、第４状態情報５０４－４、第５状態情報５０４－５、および、第６状態情報５０４－６と、を含む。
・第３状態情報５０４－３：第３状態情報５０１－６に置き換えた状態情報
・第４状態情報５０４－４：第５状態情報５０１－４と同じ（置き換えなし）
・第５状態情報５０４－５：第４状態情報５０１－４に置き換えた状態情報
・第６状態情報５０４－６：第３状態情報５０１－６と同じ（置き換えなし）

【0084】

その結果、状態情報５０４は、容器１７０にある対象物５１２を把持位置５１４で把持し、箱詰め位置５１４で容器１７０に箱詰めしたことを示す。状態情報５０４は、移動元の容器（容器１６０）および移動先の容器（容器１７０）の状態が箱詰め対象物を除いて同じであった場合を模擬したデータとなっているため、強化学習の経験データとして利用することができる。

【0085】

把持および箱詰めに成功した場合の報酬が、対象物１６１の体積または重量等に基づいて算出されている場合、データ拡張を実行したときに、報酬の値を変更する必要はない。しかし、報酬の定義によってはデータ拡張後の報酬が好ましくないことがある。このような場合は、データ拡張後の状態情報を再び報酬決定部２１１に入力し、報酬ｒ_ｔを算出して用いてもよい。

【0086】

これまでは、容器１６０と容器１７０が同じ大きさである場合の処理について説明した。次に容器１６０と容器１７０の大きさが異なる場合の対応方法について説明する。以下では容器１７０が容器１６０よりも大きな場合について説明するが、容器１７０が容器１６０よりも小さい場合でも同様に処理することが可能である。

【0087】

容器１６０よりも容器１７０が大きい場合の第１の処理方法は、取得部２０１が、各容器内の状態情報を取得した際、容器１６０の状態情報および容器１７０の状態情報の少なくとも一方を、両者が同じ大きさとなるように修正することである。取得部２０１は、容器１７０の状態情報に対してトリミングを行うことによって容器１６０の状態情報と同じ大きさの状態情報を出力してもよいし、容器１６０の状態情報に対してパディングを行うことによって容器１７０の状態情報と同じ大きさの状態情報を出力してもよい。

【0088】

トリミングを行う場合、取得部２０１は、様々なトリミング位置に対してトリミングを行って複数の状態情報を生成し、それぞれの状態情報に対して推論部２０２が把持位置・姿勢と箱詰め位置・姿勢を出力するようにしてもよい。推論部２０２は、最終的には複数の把持位置・姿勢と箱詰め位置・姿勢に対し、予め決められた方法で１組の把持位置・姿勢と箱詰め位置・姿勢を選択する。例えば、ニューラルネットワークの出力（行動価値関数Ｑの出力値など）が最も大きい把持位置・姿勢と箱詰め位置・姿勢に決定する。生成制御部２２０は、推論部２０２が選択した把持位置・姿勢と箱詰め位置・姿勢に対応するトリミング位置でトリミングされた状態情報を用いて経験データを生成する。

【0089】

容器１６０よりも容器１７０が大きい場合の第２の処理方法は、拡張部２２２が、データ拡張を行うときに状態情報のトリミングおよびパディングを行う方法である。データ拡張により移動元の容器（例えば容器１６０）の状態情報を移動先の容器（例えば容器１７０）の状態情報に置き換える場合には、拡張部２２２は、状態情報のトリミングを行うことで状態情報の大きさを合わせる。このとき、箱詰めの対象物がトリミング後の状態情報に含まれるようにトリミング位置を調整する。

【0090】

一方、データ拡張により移動先の容器（例えば容器１７０）の状態情報を移動元の容器（例えば容器１６０）の状態情報に置き換える場合には、拡張部２２２は、状態情報のパディングを行うことで状態情報の大きさを合わせる。パディングの方法としては、例えば、０を挿入するゼロパディング、状態情報の周囲の値を繰り返し複製するパディング、内側の状態情報を外側に折り返すパディング、および、ランダムな値を生成して挿入するパディング、などを用いることができる。

【0091】

第２の処理方法は、置き換え元の状態情報を置き換え先の状態情報の大きさに合わせるように修正する方法であると解釈することができる。第１の処理方法のように取得部２０１が状態情報を修正する場合にも、置き換え元の状態情報を置き換え先の状態情報の大きさに合わせるように修正する方法を適用してもよい。

【0092】

本実施形態では、時刻ｔにおける状態情報と時刻ｔ＋１における状態情報を他方の時刻における状態情報に置き換えることでデータ拡張を行う方法について説明した。このようなデータ拡張は、画像認識の目的で用いられているデータ拡張手法と組み合わせることも可能である。例えば、拡張部２２２は、上記のような手法でデータ拡張を行った後、画像およびデプス画像などの状態情報に対し、さらに反転、アフィン変換、および、ノイズ付与を行うことによりデータ拡張を行ってもよい。ただし、このようなデータ拡張により把持位置・姿勢、および、箱詰め位置・姿勢が変化する場合には、把持位置・姿勢と箱詰め位置・姿勢の修正処理も行う必要がある。

【0093】

このように、第１の実施形態にかかる情報処理装置では、１回の対象物の把持および箱詰め動作から２つ以上の経験データを生成し、強化学習に用いることができる。これにより、把持および箱詰めの試行回数に対する強化学習の学習効率を高めることが可能となる。

【0094】

（第２の実施形態）
第２の実施形態では、第１の実施形態と同様に、物品（対象物の一例）を把持し、把持した物品を移動して容器（移動先の一例）に詰める機能を有するロボットを制御するロボットシステムについて主に説明する。

【0095】

第１の実施形態では、箱詰めの対象物の把持の位置および姿勢（把持位置・姿勢）と、箱詰めの位置および姿勢（箱詰め位置・姿勢）とを併せて決定する方策を学習した。しかし、箱詰めの対象物の把持の位置および姿勢（把持位置・姿勢）が容易に決定できて学習の必要がない場合、箱詰めの位置および姿勢のみを決定する方策を学習することにより、ロボットにより実行可能で、充填率の高い、または、箱詰め作業時間の短い効率的な箱詰め方策を第１の実施形態よりもさらに効率的に学習することが可能となる。

【0096】

第２の実施形態のロボットシステムの構成は図１と同様であるので説明を省略する。第２の実施形態では、ロボットシステム内の情報処理装置の機能が、第１の実施形態と異なっている。

【0097】

図８は、第２の実施形態にかかる情報処理装置１２０－２の構成の一例を示すブロック図である。図８に示すように、情報処理装置１２０－２は、取得部２０１－２と、推論部２０２－２と、ロボット制御部２０３と、出力制御部２０４と、報酬決定部２１１と、生成制御部２２０－２と、学習部２１２と、記憶部２３１と、を備える。

【0098】

図９は、生成制御部２２０－２の機能構成の一例を示すブロック図である。図９に示すように、生成制御部２２０－２は、データ制御部２２１と、拡張部２２２と、データ生成部２２３－２と、一時記憶部２２４と、を備える。

【0099】

第２の実施形態では、取得部２０１－２、推論部２０２－２、並びに、生成制御部２２０－２内の拡張部２２２－２およびデータ生成部２２３－２の機能が、第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態の図２または図３と同様であるので、同一符号を付し、ここでの説明は省略する。

【0100】

箱詰めの位置および姿勢のみを決定する方策を学習する場合、取得部２０１－２は、時刻ｔにおける容器１６０の状態情報ｓ^（１） _ｔに加え、時刻ｔにおける箱詰めの対象物の状態情報ｓ^（о） _ｔを取得する。箱詰めの対象物の状態情報ｓ^（о） _ｔは、箱詰めの対象物の形状および把持姿勢に関する情報を含む。

【0101】

推論部２０２－２は、箱詰めの対象物の状態情報ｓ^（о） _ｔおよび容器１７０の状態情報ｓ^（２） _ｔを入力として把持位置・姿勢、および、箱詰め位置・姿勢を決定する。すなわち、箱詰めの対象物の状態情報ｓ^（о） _ｔおよび容器１７０の状態情報ｓ^（２） _ｔを連結した状態ｓ_ｔ＝（ｓ^（о） _ｔ，ｓ^（２） _ｔ）をニューラルネットワークで構成された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）に入力して行動ａ_ｔを決定する。本実施形態では、行動ａ_ｔは箱詰め位置・姿勢ａ^（２） _ｔと１対１に対応する。

【0102】

拡張部２２２－２は、データｕ_ｔから以下の（８）式で表されるｆ_４に従いデータ拡張を行う。
ｆ_４（ｕ_ｔ）＝（ｓ^（２） _ｔ＋１，ｓ^（１） _ｔ＋１，a^（２） _ｔ，a^（１） _ｔ，ｒ_ｔ＋１，ｓ^（２） _ｔ，ｓ^（１） _ｔ）・・・（８）

【0103】

拡張部２２２－２は、拡張したデータｆ_４（ｕ_ｔ）を、拡張前のデータｕ_ｔと共にデータ生成部２２３－２に出力する。

【0104】

データ生成部２２３－２は、拡張部２２２－２から入力されたデータから経験データｘ＝（ｓ_ｔ，ａ_ｔ，ｒ_ｔ＋１，ｓ_ｔ＋１）を生成して出力する。拡張部２２２－２からデータｕ_ｔ＝（ｓ^（１） _ｔ，ｓ^（２） _ｔ，a^（１） _ｔ，a^（２） _ｔ，ｒ_ｔ＋１，ｓ^（１） _ｔ＋１，ｓ^（２） _ｔ＋１）が入力されたときは、データ生成部２２３－２は、ｓ_ｔ＝（ｓ^（о） _ｔ，ｓ^（２） _ｔ）、ｓ_ｔ＋１＝（ｓ^（о） _ｔ＋１，ｓ^（２） _ｔ＋１）とし、行動ａ_ｔは箱詰め位置・姿勢a^（２） _ｔを一意に特定する値として、経験データｘを生成する。

【0105】

一方、拡張部２２２－２からｆ_４（ｕ_ｔ）が入力されたときは、データ生成部２２３－２は、ｓ_ｔ＝（ｓ^（о） _ｔ，ｓ^（１） _ｔ＋１）、ｓ_ｔ＋１＝（ｓ^（о） _ｔ＋１，ｓ^（１） _ｔ）とし、行動ａ_ｔを箱詰め位置・姿勢a^（１） _ｔを一意に特定する値として、経験データを生成する。

【0106】

このように、第２の実施形態にかかる情報処理装置では、１回の対象物の箱詰め動作から２つの経験データを生成し、強化学習に用いることができる。これにより、箱詰めの試行回数に対する強化学習の学習効率を高めることが可能となる。

【0107】

（第３の実施形態）
上記実施形態のようなデータ拡張の手法は、対象物を移動させるロボットの動作制御の学習以外にも適用可能である。第３の実施形態では、グリッドワールドにおける無人搬送車等のエージェントの行動方策の強化学習に適用する例を説明する。

【0108】

図１０は、第３の実施形態にかかる情報処理装置１２０－３の構成の一例を示すブロック図である。図１０に示すように、情報処理装置１２０－３は、取得部２０１－３と、推論部２０２－３と、と、出力制御部２０４と、報酬決定部２１１－３と、生成制御部２２０－３と、学習部２１２と、記憶部２３１と、を備える。

【0109】

図１１は、生成制御部２２０－３の機能構成の一例を示すブロック図である。図１１に示すように、生成制御部２２０－３は、データ制御部２２１－３と、拡張部２２２－３と、データ生成部２２３－３と、一時記憶部２２４と、を備える。

【0110】

第３の実施形態では、取得部２０１－３、推論部２０２－３、報酬決定部２１１－３、および、生成制御部２２０－３内の一時記憶部２２４以外の構成部の機能、並びに、ロボット制御部２０３を削除したことが、第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態の図２または図３と同様であるので、同一符号を付し、ここでの説明は省略する。

【0111】

取得部２０１－３は、推論に用いる状態情報を取得する。例えば取得部２０１－３は、グリッドワールドにおける時刻ｔの状態ｓ_ｔ（第１状態情報の一例）を取得する。状態情報ｓ_ｔは、例えば、グリッドワールドでのエージェントのスタート位置、エージェントのゴール位置、障害物の位置、および、エージェントの現在位置を含む。

【0112】

推論部２０２－３は、状態ｓ_ｔを用いて、エージェントがグリッドワールド内で次に移動する方向（移動方向）を決定（推論）する。推論部２０２－３は、第１の実施形態の推論部２０２と同様に、様々な強化学習アルゴリズムを使用して推論を行うことができる。例えばＤＱＮにより推論を行う場合、推論部２０２－３は、状態ｓ_ｔをニューラルネットワークで構成された行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）に入力し、上記（１）式により行動ａ_ｔを決定する。行動ａ_ｔは、例えばエージェントの移動方向である。

【0113】

報酬決定部２１１－３は、例えば、ゴールまでの距離の減少分を報酬として決定する。

【0114】

データ制御部２２１－３は、経験データの生成に必要な、以下の（９）式で表されるデータｕ_ｔを拡張部２２２－３に出力する。
ｕ_ｔ＝（ｓ_ｔ，ａ_ｔ，ｒ_ｔ＋１，ｓ_ｔ＋１）・・・（９）

【0115】

データｕ_ｔの各項は、それぞれ以下の情報を意味する。
・第１項：時刻ｔの状態情報
・第２項：時刻ｔの行動（移動方向）
・第３項：時刻ｔ＋１の報酬
・第４項：時刻ｔ＋１の状態情報

【0116】

拡張部２２２－３は、データｕ_ｔから以下の（１０）式で表されるｆ_５に従いデータ拡張を行う。
ｆ_５（ｕ_ｔ）＝（ｓ_ｔ＋１，ａ’_ｔ，ｒ_ｔ＋１，ｓ_ｔ）・・・（１０）

【0117】

行動ａ’_ｔは、行動ａ_ｔが示す方向を逆方向に修正した行動である。例えば、行動ａ_ｔが右方向を示す場合、行動ａ’_ｔは、左方向を示すように修正される。また拡張部２２２－３は、報酬についても必要に応じて修正を行う。例えば、ゴールまでの距離の減少分を報酬とする場合、拡張部２２２－３は、ｒ_ｔ＋１を－ｒ_ｔ＋１に修正する。

【0118】

なお拡張部２２２－３は、時刻ｔ＋１においてエージェントが障害物に衝突した場合、および、ゴールに到達した場合にはデータ拡張は行わない。

【0119】

データ生成部２２３－３は、拡張部２２２－３から入力されたデータが（９）式で表されるデータｕ_ｔのとき、データ生成部２２３－３は、上記の（７）式で表される経験データｘを生成する。すなわち、データ生成部２２３－３は、入力されたデータから、以下の規則に従って経験データｘを生成する。
・入力されたデータの第１項を、経験データの第１項とする。
・入力されたデータの第２項を、経験データの第２項とする。
・入力されたデータの第３項を、経験データの第３項とする。
・入力されたデータの第４項を、経験データの第４項とする。

【0120】

データ生成部２２３－３は、拡張されたデータｆ_５（ｕ_ｔ）についても上記規則に従って経験データを生成することができる。

【0121】

図１２は、グリッドワールドにおける時刻ｔの状態ｓ_ｔと時刻ｔ＋１の状態ｓ_ｔ＋１の例を示す図である。状態情報８０１はエージェントの行動により実際に得られた状態の状態情報である。状態情報８０１は、スタート位置８１１、ゴール位置８１２、エージェントの現在位置８１３、および、障害物の位置８１４を含む。

【0122】

具体的には、状態情報８０１は、以下のような第１状態情報８０１－１、および、第２状態情報８０１－２を含む。
・第１状態情報８０１－１：時刻ｔにおけるグリッドワールドの状態
・第２状態情報８０１－２：時刻ｔ＋１におけるグリッドワールドの状態

【0123】

なお、スタート位置８１１、ゴール位置８１２、および、障害物の位置８１４は、試行のたびにランダムに変化させた値が設定される。

【0124】

本実施形態では、推論部２０２－３は、１回の行動で隣接するどのグリッドに移動するか（移動方向）を決定する。エージェントの目的は、障害物に接触することなく、できるだけ少ない移動回数でゴールに到達することである。言い換えると、本実施形態での推論の対象は、グリッドワールド内を移動するエージェントの移動経路である。また、移動経路に関連する対象は、例えばエージェント自身である。

【0125】

本実施形態では、データ生成部２２３－３は、状態情報８０１に含まれる時刻ｔの状態と時刻ｔ＋１の状態とを相互に入れ替えた状態の状態情報８０２を生成する。

【0126】

状態情報８０２は、データ拡張ｆ_５により状態情報８０１を拡張したデータを表す。状態情報８０２は、状態情報８０１の各状態の時刻を入れ替えた状態情報となっている。すなわち、状態情報８０２は、以下のような第１状態情報８０２－１、および、第２状態情報８０２－２と、を含む。
・第１状態情報８０２－１：第２状態情報８０１－２に置き換えた状態情報
・第２状態情報８０２－２：第１状態情報８０１－１に置き換えた状態情報

【0127】

状態情報８０１では、エージェントは右のグリッドに移動している。一方、状態情報８０２は、エージェントが右のグリッドから左のグリッドに移動した行動を模擬したデータとなっている。

【0128】

このように、第３の実施形態では、グリッドワールドにおける１回の行動から２つ以上の経験データを生成することができる。このため、行動回数に対する強化学習の学習効率を高めることが可能となる。

【0129】

以上説明したとおり、第１から第３の実施形態によれば、学習効率を改善することができる。

【0130】

次に、第１から第３の実施形態にかかる情報処理装置のハードウェア構成について図１３を用いて説明する。図１３は、第１から第３の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。

【0131】

第１から第３の実施形態にかかる情報処理装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

【0132】

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

【0133】

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0134】

さらに、第１から第３の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第３の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0135】

第１から第３の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0136】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0137】

１００ロボット
１１０生成部
１１１生成部
１２０、１２０－２、１２０－３情報処理装置
１３０ネットワーク
１４０表示部
１５０入力部
２０１、２０１－２、２０１－３取得部
２０２、２０２－２、２０２－３推論部
２０３ロボット制御部
２０４出力制御部
２１１、２１１－３報酬決定部
２１２学習部
２２０、２２０－２、２２０－３生成制御部
２２１、２２１－３データ制御部
２２２、２２２－２、２２２－３拡張部
２２３、２２３－２、２２３－３データ生成部
２２４一時記憶部
２３１記憶部

【図1】