2026-28544 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2026-28544情報処理装置、情報処理方法、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2026028544

(43)【公開日】2026-02-20

(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム

(51)【国際特許分類】

B25J 9/22 20060101AFI20260213BHJP

【ＦＩ】

B25J9/22 A

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2024131042

(22)【出願日】2024-08-07

(71)【出願人】

【識別番号】515086908

【氏名又は名称】株式会社トヨタプロダクションエンジニアリング

(71)【出願人】

【識別番号】302066869

【氏名又は名称】株式会社ネクストシステム

(74)【代理人】

【識別番号】110002516

【氏名又は名称】弁理士法人白坂

(72)【発明者】

【氏名】金武完明

(72)【発明者】

【氏名】藤田義生

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707AS01

3C707AS11

3C707AS13

3C707BS10

3C707JS03

3C707LS09

3C707LS11

3C707LS15

3C707LS20

3C707LV05

3C707LW12

(57)【要約】

【課題】強化学習を用いてシミュレーション時のロボットモデルに効率のより良い行動をさせることができる。
【解決手段】情報処理装置は、シミュレーションにおけるロボットモデルの先端部の目標位置及び目標位置における先端部の目標角度を目標情報として取得する目標情報取得部と、現在の先端部の位置及び先端部の角度を現在情報として取得する現在情報取得部と、ロボットモデルが行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部の位置から目標位置までの距離と、現在の先端部の角度と目標位置における先端部の目標角度との角度差と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する中間報酬算出部と、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する強化学習部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置であって、
前記シミュレーションにおける前記ロボットモデルの先端部の目標位置及び前記目標位置における前記先端部の目標角度を目標情報として取得する目標情報取得部と、
現在の前記先端部の位置及び前記先端部の角度を現在情報として取得する現在情報取得部と、
前記ロボットモデルが行動する度に前記エージェントに付与される報酬を即時報酬値として、現在の前記先端部の位置から前記目標位置までの距離と、現在の前記先端部の角度と前記目標位置における前記先端部の目標角度との角度差と、に基づいて算出し、前記シミュレーションの開始から現在までの前記即時報酬値の積算値を中間報酬値として算出する中間報酬算出部と、
前記シミュレーションの終了時の前記中間報酬値が最大となるように前記学習モデルを学習する強化学習部と、
を備えることを特徴とする情報処理装置。

【請求項2】

前記即時報酬値は、前記距離と前記角度差とに加えて、更に前記ロボットモデルのタスク達成時間の短縮に基づいて算出されることを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記ロボットモデルの行動の最終結果に基づいて前記エージェントに付与される報酬を最終報酬値として決定する最終報酬決定部と、
を更に備え、
前記強化学習部は、前記シミュレーションの終了時における、前記中間報酬値と前記最終報酬値との合計値が最大となるように前記学習モデルを学習することを特徴とする請求項１に記載の情報処理装置。

【請求項4】

前記最終報酬決定部は、前記最終結果において、所定制限時間内に前記先端部が前記目標位置に到達するとともに、前記目標位置における前記先端部の角度が目標角度に到達した場合に、前記最終報酬値を最大値に決定することを特徴とする請求項３に記載の情報処理装置。

【請求項5】

前記最終報酬決定部は、前記シミュレーションの途中で前記先端部が被加工物モデルに接触した場合に、前記最終報酬値を最小値に決定することを特徴とする請求項３に記載の情報処理装置。

【請求項6】

前記最終報酬決定部は、所定制限時間内に前記先端部が前記目標位置における前記目標角度に到達しなかった場合に、前記最終報酬値を最小値に決定することを特徴とする請求項３に記載の情報処理装置。

【請求項7】

前記距離及び前記角度差は正規化されて用いられることを特徴とする請求項１に記載の情報処理装置。

【請求項8】

前記ロボットモデルはアームを複数備える多関節ロボットである請求項１に記載の情報処理装置。

【請求項9】

シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置に用いられる制御方法であって、
前記情報処理装置の演算部は、
前記シミュレーションにおける前記ロボットモデルの先端部の目標位置及び前記目標位置における前記先端部の目標角度を目標情報として取得する目標情報取得ステップと、
現在の前記先端部の位置及び前記先端部の角度を現在情報として取得する現在情報取得ステップと、
前記ロボットモデルが行動する度に前記エージェントに付与される報酬を即時報酬値として、現在の前記先端部の位置から前記目標位置までの距離と、現在の前記先端部の角度と前記目標位置における前記先端部の目標角度との角度差と、に基づいて算出し、前記シミュレーションの開始から現在までの前記即時報酬値の積算値を中間報酬値として算出する中間報酬算出ステップと、
前記シミュレーションの終了時の前記中間報酬値が最大となるように前記学習モデルを学習する強化学習ステップと、
を実施することを特徴とする情報処理方法。

【請求項10】

シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置に用いられる制御プログラムであって、
前記情報処理装置の演算部に、
前記シミュレーションにおける前記ロボットモデルの先端部の目標位置及び前記目標位置における前記先端部の目標角度を目標情報として取得する目標情報取得機能と、
現在の前記先端部の位置及び前記先端部の角度を現在情報として取得する現在情報取得機能と、
前記ロボットモデルが行動する度に前記エージェントに付与される報酬を即時報酬値として、現在の前記先端部の位置から前記目標位置までの距離と、現在の前記先端部の角度と前記目標位置における前記先端部の目標角度との角度差と、に基づいて算出し、前記シミュレーションの開始から現在までの前記即時報酬値の積算値を中間報酬値として算出する中間報酬算出機能と、
前記シミュレーションの終了時の前記中間報酬値が最大となるように前記学習モデルを学習する強化学習機能と、
を発揮させることを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関し、特に強化学習に用いられる情報処理装置、情報処理方法、及び情報処理プログラムに関する。

【背景技術】

【0002】

従来、オフラインティーチングによるロボットの制御プログラムの作成には、多大な作業数が必要となり長時間を要する。そのため、オフラインティーチングの効率化及び自動化への取り組みにより作業数の削減が行われてきた。

【0003】

近年では、コンピュータ技術の向上によりロボットの動作の３次元のシミュレーションが広く行われている。さらには、機械学習技術の進歩に伴い、ロボットが実際に使われる空間を模した３次元仮想空間における当該ロボットのロボットモデルの動作のシミュレーションを利用して、ロボットの効率の良い制御について人口知能に強化学習することで、オフラインティーチングの手間や時間を省略することが提案された。ここで言うロボット制御の分野における強化学習とは、ロボット制御の学習の主体であるエージェントに対して報酬を付与することで、エージェントにロボットモデルの効率の良い制御を学習させるものである。

【0004】

特許文献１に開示の学習装置は、ロボットアームの行動を学習する学習部を備える。特許文献１に開示の学習装置の学習部は、ロボットアームの動いた軌跡に応じて報酬を計算する報酬計算部を備え、当該報酬計算部はロボットアームの先端部と目標到達位置との距離が短くなるにつれて報酬を高くして計算を行うとしている。
特許文献１に開示の学習装置は、ロボットアームの先端部と目標到達位置との距離が短くなるにつれて報酬を高くするので、目標到達位置へ到達するまでのロボットアームにおける効率のよい行動を学習することができるとしている。

【0005】

しかし、特許文献１に開示の学習装置は、ロボットアームの行動の効率の良さの点では不十分であり、効率のよりよい行動を学習することへの要求が依然としてある。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２０－８２３１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

そこで、本発明は、強化学習を用いてシミュレーション時のロボットモデルに効率のより良い行動をさせることができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

すなわち、第１の態様に係る情報処理装置は、シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置であって、シミュレーションにおけるロボットモデルの先端部の目標位置及び目標位置における先端部の目標角度を目標情報として取得する目標情報取得部と、現在の先端部の位置及び先端部の角度を現在情報として取得する現在情報取得部と、ロボットモデルが行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部の位置から目標位置までの距離と、現在の先端部の角度と目標位置における先端部の目標角度との角度差と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する中間報酬算出部と、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する強化学習部と、を備えることを特徴とする。

【0009】

第２の態様は、第１の態様に係る情報処理装置において、即時報酬値は、距離と角度差とに加えて、更にロボットモデルのタスク達成時間の短縮に基づいて算出されることとしてもよい。

【0010】

第３の態様は、第１の態様に係る情報処理装置において、ロボットモデルの行動の最終結果に基づいてエージェントに付与される報酬を最終報酬値として決定する最終報酬決定部と、を更に備え、強化学習部は、シミュレーションの終了時における、中間報酬値と最終報酬値との合計値が最大となるように学習モデルを学習することとしてもよい。

【0011】

第４の態様は、第３の態様に係る情報処理装置において、最終報酬決定部は、最終結果において、所定制限時間内に先端部が目標位置に到達するとともに、目標位置における先端部の角度が目標角度に到達した場合に、最終報酬値を最大値に決定することとしてもよい。

【0012】

第５の態様は、第３の態様に係る情報処理装置において、最終報酬決定部は、シミュレーションの途中で先端部が被加工物モデルに接触した場合に、最終報酬値を最小値に決定することとしてもよい。

【0013】

第６の態様は、第３の態様に係る情報処理装置において、最終報酬決定部は、所定制限時間内に先端部が目標位置における目標角度に到達しなかった場合に、最終報酬値を最小値に決定することとしてもよい。

【0014】

第７の態様は、第１の態様に係る情報処理装置において、距離及び角度差は正規化されて用いられることとしてもよい。

【0015】

第８の態様は、第１の態様に係る情報処理装置において、ロボットモデルはアームを複数備える多関節ロボットであることとしてもよい。

【0016】

第９の態様に係る情報処理方法は、シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置に用いられる制御方法であって、情報処理装置の演算部は、シミュレーションにおけるロボットモデルの先端部の目標位置及び目標位置における先端部の目標角度を目標情報として取得する目標情報取得ステップと、現在の先端部の位置及び先端部の角度を現在情報として取得する現在情報取得ステップと、ロボットモデルが行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部の位置から目標位置までの距離と、現在の先端部の角度と目標位置における先端部の目標角度との角度差と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する中間報酬算出ステップと、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する強化学習ステップと、を実施することを特徴とする。

【0017】

第１０の態様に係る情報処理プログラムは、シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置に用いられる制御プログラムであって、情報処理装置の演算部に、シミュレーションにおけるロボットモデルの先端部の目標位置及び目標位置における先端部の目標角度を目標情報として取得する目標情報取得機能と、現在の先端部の位置及び先端部の角度を現在情報として取得する現在情報取得機能と、ロボットモデルが行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部の位置から目標位置までの距離と、現在の先端部の角度と目標位置における先端部の目標角度との角度差と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する中間報酬算出機能と、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する強化学習機能と、を発揮させることを特徴とする。

【発明の効果】

【0018】

本発明に係る情報処理装置等は、シミュレーションにおけるロボットモデルを担うエージェントが使用する学習モデルを学習する情報処理装置であって、シミュレーションにおけるロボットモデルの先端部の目標位置及び目標位置における先端部の目標角度を目標情報として取得する目標情報取得部と、現在の先端部の位置及び先端部の角度を現在情報として取得する現在情報取得部と、ロボットモデルが行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部の位置から目標位置までの距離と、現在の先端部の角度と目標位置における先端部の目標角度との角度差と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する中間報酬算出部と、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する強化学習部と、を備えることを特徴とするので、強化学習を用いてシミュレーション時のロボットモデルに効率のより良い行動をさせることができる。

【図面の簡単な説明】

【0019】

【図1】図１は、本実施形態に係るシミュレーションシステムの概略構成図及び情報処理装置のブロック図である。

【図2】図２は、本実施形態に係るロボットモデルの構成の一例を説明するための図である。

【図3】図３は、本実施形態に係るロボットモデルの各構成部の連結関係の一例を説明するための図である。

【図4】図４は、本実施形態に係るロボットモデルの先端部の構成を説明するための図である。

【図5】図５は、本実施形態に係るロボットモデルの先端部と目標位置及び目標角度との関係を説明するための図である。

【図6】図６は、本実施形態に係るロボットモデルの先端部と被加工物モデルとの関係を説明するための図である。

【図7】図７は、本実施形態に係る情報処理プログラムのフローチャートである。

【図8】図８は、他の実施形態に係る情報処理プログラムのフローチャートである。

【発明を実施するための形態】

【0020】

以下、一実施形態に係る情報処理装置１００について、図面を参照しながら詳細に説明する。
情報処理装置１００は、シミュレーションにおけるロボットモデル１０を担うエージェントが使用する学習モデルを学習し、作業空間３００に含まれるロボット２０、被加工物２２、物体２４を、それぞれロボットモデル１０、被加工物モデル１２、物体モデル１４として仮想空間４００上に３次元モデルとして再現し、ロボット２０の動作のシミュレーションを行う。
なお、図は例示であって、情報処理装置１００は、図示したものに限定されない。また、図は概略であって、図におけるロボットモデル１０及びロボット２０の各構成部の大きさの比率、被加工物モデル１２及び被加工物２２、並びに、仮想空間４００及び作業空間３００に存在する物体モデル１４及び物体２４等の数、位置関係は厳密ではない。

【0021】

＜実施の形態＞
＜システム構成＞
図１は、本実施形態に係る情報処理装置１００を含むシミュレーションシステム５００の概略構成図である。シミュレーションシステム５００は、情報処理装置１００、アームを複数備える多関節ロボット２０、ロボット制御装置２００を備える。ロボット２０は、ロボット制御装置２００の制御を受けて自装置を構成する各アームを駆動し、被加工物２２の塗装を行う塗装ロボットである。なお、図１では、スプレーガンを先端部１０ｆに装着した塗装ロボットを一例として示してあるが、ロボットモデル１０及びロボット２０はこれに限定されず、溶接ロボット、運搬ロボット、ピックアップロボット等であってもよい。ロボットモデル１０は、ロボット２０と同じように、アームを複数備える多関節ロボットである。

【0022】

ここで、物体２４は、ロボット２０の周囲に存在する物体であって、他の被加工物、他のロボット、制御機器類等であってよい。シミュレーションを行う仮想空間４００は、表示部１４１に表示される。表示部１４１は、情報処理装置１００から出力された各種の情報を表示する機能を有するモニターであって、例えば、ＬＣＤ（Liquid Crystal Display）、有機ＥＬディスプレイ等により実現することができる。なお、表示部１４１としては、例えば、携帯端末のモニターや、タブレット端末のモニターなどを用いることとしてもよい。また、オペレータは、キーボード１３１や図示しないマウスといった入力装置により、情報処理装置１００に対する指示を入力することができる。なお、本実施形態に係る情報処理装置１００において、後述する機械学習（強化学習）を実施するにあたり、表示部１４１は必須ではない。

【0023】

ロボット制御装置２００は、情報処理装置１００におけるシミュレーションによって出力されるロボットの制御情報に基づいて、ロボット２０を駆動させる。制御情報は、例えば、ロボット２０を構成する各軸（関節）の目標角度及び角速度、駆動モータのトルク及び駆動電力等の値を含んでよい。なお、図１では、ロボット制御装置２００が情報処理装置１００に接続された態様を示してあるが、本発明はこれに限定されない。すなわち、ロボット制御装置２００は、情報処理装置１００とは別個に存在してよい。

【0024】

シミュレーションシステム５００において、情報処理装置１００は、ロボット２０の複数の動作のシミュレーションにおける負荷を低減させ、効率的な機械学習を行う環境を提供する。

【0025】

次に図２及び図３を参照して、ロボットモデル１０の構成について説明する。図２は、ロボットモデル１０の構成の一例を説明するための図であり、図３はロボットモデル１０の各構成部の連結関係の一例を説明するための図である。
ロボットモデル１０は多関節６軸のアームロボットである。アームロボットの関節は可動部となり、それぞれ軸を中心に回転する。ロボットモデル１０は、台座１０ａ、第１アーム１０ｂ、第２アーム１０ｃ、第３アーム１０ｄ、及びエンドエフェクタ（End Effector）１０ｅを備える。エンドエフェクタ１０ｅの先端には、スプレーガンなどが先端部１０ｆとして装着される。
台座１０ａは仮想空間４００における設置場所に直置きされるロボットモデル１０の土台である。第１アーム１０ｂは台座１０ａに第１軸を介して接続される。第２アーム１０ｃは第２軸を介して第１アーム１０ｂに接続される。第３アーム１０ｄは第３軸及び第４軸を介して第２アーム１０ｃに接続される。エンドエフェクタ１０ｅは、第５軸及び第６軸を介して第３アーム１０ｄに接続される。関節ごとに回転可能角度範囲が設定される。

【0026】

＜ハードウェア構成＞
以下、詳細に説明する。情報処理装置１００は、ハードウェア構成として、演算部１１０、通信Ｉ／Ｆ（インタフェース）１２０、入力Ｉ／Ｆ１３０、出力Ｉ／Ｆ１４０、及び記憶部１７０を備える。

【0027】

演算部１１０は、典型的にはプロセッサであって、中央処理装置（ＣＰＵ）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等を含み、集積回路（ＩＣ（Integrated Circuit）チップ、ＬＳＩ（Large Scale Integration））等に形成された論理回路（ハードウェア）や専用回路によって実現されてよい。演算部１１０は、記憶部１７０に記憶されるプログラムを読み出し、読み出したプログラムに含まれるコード又は命令を実行することによって、各実施形態に示す機能、方法を実行してよい。

【0028】

記憶部１７０は、情報処理装置１００が動作するうえで必要とする各種プログラムや各種データを記憶する。記憶部１７０は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等を含んでよい。また、記憶部１７０は、演算部１１０に対する作業領域を提供するメモリ（ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等）を含んでよい。本実施形態に係る情報処理装置１００は、演算部１１０が記憶部１７０のメモリ上に読み込まれたプログラムを実行することにより、後述する目標情報取得部１１１、現在情報取得部１１２、中間報酬算出部１１３、最終報酬決定部１１４、及び強化学習部１１５として機能する。例えば、記憶部１７０は、仮想空間におけるロボットモデル１０の動作をシミュレーションするためのモーション解析ソフトウェアを記憶してよい。

【0029】

記憶部１７０は、ロボットモデル１０を構成する各アームの形状と、アーム間の連結関係と、各アームの可動範囲とを含むロボット構成情報を記憶する。ロボット構成情報とは、ロボットを構成するアームの縦、横、長さ、関節間の距離（有効長）、各アーム間の連結関係と連結する関節の識別情報を含んでよい。例えば、ロボット構成情報は、ロボット２０のＣＡＤ（Computer Aided Design）データから抽出されてもよい。さらに、ロボット構成情報には、各アームの可動範囲を示す情報として、ソフトリミット値、各関節の回転方向、回転可能角度範囲、含んでよい。なお、これらのデータは、後述する目標情報取得部１１１が、オペレータが入力装置（キーボード）１３１を介して入力したデータを受け付けて記憶してよい。また、図１では、記憶部１７０を情報処理装置１００と一体化して示してあるが、記憶部１７０に記憶されるデータは、情報処理装置１００とは別個の独立したデータベースサーバに格納されてもよい。

【0030】

通信Ｉ／Ｆ１２０は、ネットワークアダプタ等のハードウェアや通信用ソフトウェア、及びこれらの組み合わせとして実装され、例えば、ロボット制御装置２００のような外部装置との間で各種データの送受信を行う。

【0031】

入力Ｉ／Ｆ１３０は、情報処理装置１００に対する各種操作を入力する入力装置との接続インタフェースである。入力装置は、例えば、タッチパネル、キーボード１３１等のハードウェアキーや、マウス等のポインティングデバイス等を含む。

【0032】

出力Ｉ／Ｆ１４０は、情報処理装置１００によるシミュレーション結果等の処理結果を出力する出力装置との接続インタフェースである。出力装置は、例えば、表示部（ディスプレイ）１４１、スピーカ等を含む。

【0033】

＜機能構成＞
演算部１１０は、目標情報取得部１１１、現在情報取得部１１２、中間報酬算出部１１３、最終報酬決定部１１４、及び強化学習部１１５を備える。
図４及び図５を参照して先端部１０ｆの位置及び角度について説明し、図６を参照して先端部１０ｆと被加工物モデル１２との接触について説明する。図４はロボットモデル１０の先端部１０ｆの構成を説明するための図であり、図５はロボットモデル１０の先端部１０ｆと目標位置１１及び目標角度との関係を説明するための図であり、図６はロボットモデル１０の先端部１０ｆと被加工物モデル１２との関係を説明するための図である。

【0034】

目標情報取得部１１１は、シミュレーションにおけるロボットモデル１０の先端部１０ｆの目標位置１１及び目標位置１１における先端部１０ｆの目標角度を目標情報として取得する。
先端部１０ｆの基準点１０ｇは、先端部１０ｆの位置の基準となり、先端部１０ｆの目標位置１１は基準点１０ｇの目標となる。即ち、ロボットモデル１０は、基準点１０ｇが目標位置１１に到達するように制御される。
先端部１０ｆの目標角度とは、先端部１０ｆの基準点１０ｇが目標位置１１に到達した時点における先端部１０ｆの目標となる角度であり、目標位置１１における先端部１０ｆの向くべき方向を規定する。即ち、ロボットモデル１０は、基準点１０ｇが目標位置１１に到達した時点において、先端部１０ｆの角度が目標角度となるように制御される。
先端部１０ｆの角度とは、先端部１０ｆが向く方向に対する１方向に定められる所定の法線方向（以下、先端部１０ｆの法線方向）１０ｈの角度のことをいう。目標角度は、先端部１０ｆの法線方向１０ｈの角度を用いて設定され、基準点１０ｇが目標位置１１に到達した時点における先端部１０ｆの法線方向１１ａ（図５参照）の角度のことをいう。

【0035】

現在情報取得部１１２は、現在の先端部１０ｆの位置及び先端部１０ｆの角度を現在情報として取得する。
現在の先端部１０ｆの位置とは、現在の基準点１０ｇの位置のことをいい、シミュレーションにおける現時点又は着目している時点における基準点１０ｇの位置のことをいう。
現在の先端部１０ｆの角度とは、現在の先端部１０ｆの法線方向１０ｈの角度のことをいい、シミュレーションにおける現時点又は着目している時点における先端部１０ｆの法線方向１０ｈの角度のことをいう。

【0036】

エージェント（Agent）は学習を行う主体であり、ロボットモデル１０を担う。エージェントは状態（State）を受け取り、状態に基づいて行動（Action）を行う。行動は環境（Environment）に対して作用し、その結果として報酬（Reward）を取得する。強化学習ではその状態における行動の評価（報酬）に従って最適な行動を学習していく。

【0037】

本実施形態における状態（State）とは、現在エージェントを取り巻く環境がどのようになっているかを表現する。本実施形態におけるロボットモデル１０の姿勢探索においては、先端部１０ｆの現在の基準点１０ｇの位置、現在の先端部１０ｆの角度、目標位置１１、及び目標位置１１における先端部１０ｆの角度などが含まれる。

【0038】

本実施形態における行動（Action）は、エージェントがある状態のときに行う動作である。本実施形態ではエージェントはロボットモデル１０であり、行動はロボットモデル１０の各軸のアクチュエータの移動量によって実現される。

【0039】

本実施形態における報酬（Reward）は、エージェントがある状態における行動の評価を表す。本実施形態では行動後にロボットモデル１０の先端部１０ｆが目標位置１１に近づくよう行動した場合に良い評価として高い即時報酬値を与えるよう設定した。また、エージェントの最終結果についても評価して、その報酬を最終報酬値としてエージェントに付与するように設定した。最終結果とは、エージェント（ロボットモデル１０）の先端部１０ｆの角度が、目標位置１１における目標角度に到達した、被加工物モデル１２に接触した、又は学習を達成せず最大ステップに到達したといったある一定の状態のことをいう。最終結果が得られたとき、その状態を評価し最終報酬値を決定する。本実施形態では、先端部１０ｆの角度が目標位置１１における目標角度に到達できない、若しくは先端部１０ｆが被加工物モデル１２に接触した場合は評価を低くし、その一方で、先端部１０ｆの角度が目標位置１１における目標角度に到達した場合は評価を高くした。

【0040】

以下、表１、式（１）、式（２）、及び式（３）を参照して、報酬値について説明する。
中間報酬算出部１１３は、ロボットモデル１０が行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部１０ｆの位置から目標位置１１までの距離１５（図５参照）と、現在の先端部１０ｆの角度と目標位置１１における先端部１０ｆの目標角度との角度差１６（図５参照）と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する。
距離１５は、ユークリッド距離として表されてよい。

【0041】

表１の距離評価（Ｒｄ）は、現在の先端部１０ｆの位置から目標位置１１までの距離１５に基づいて算出され、式（１）で表される数式により算出される。式（１）のｍａｘＳｔｅｐは、強化学習の１エピソードの最大ステップを示す。
距離１５及び角度差１６は正規化されて用いられ、正規化距離（ｄ）は距離１５を正規化した値であり、正規化角度差（ａ）は角度差１６を正規化した値である。
正規化は、機械学習においてデータの前処理の一つであり、学習モデルの学習を効率的に行うため、データを正規化して異なる特徴量のスケールを統一する。本実施形態では、距離１５と角度差１６とは正規化されることで異なる特徴量のスケールが統一される。
表１の角度評価（Ｒａ）は、現在の先端部１０ｆの角度と目標位置１１における先端部１０ｆの目標角度との角度差１６に基づいて算出され、式（２）で表される数式により算出される。
距離評価（Ｒｄ）及び角度評価（Ｒａ）は、式（１）及び式（２）に示す様に、負の値に設定される。これは、ロボットモデル１０の行動の回数が少ないほど評価が高く、与えられる報酬が増大することに基づく。

【0042】

即時報酬値は、距離１５と角度差１６とに加えて、ロボットモデル１０のタスク達成時間の短縮に基づいて算出されてもよい。
タスク達成時間とは、シミュレーションの開始からロボットモデル１０の目的を達成するまでの時間のことであり、具体的には、シミュレーションの開始からロボットモデル１０の先端部１０ｆの基準点１０ｇが目標位置１１に到達した時点において、先端部１０ｆの角度が目標角度に到達するまでのロボットモデル１０の行動の回数である。即時報酬値は、シミュレーションの開始からロボットモデル１０の目的を達成するまでの当該ロボットモデル１０の行動の回数が少ないほど報酬を多く受け取ることができ、具体的には、ロボットモデル１０の行動の回数が１回増える度に、（－１／学習最大ステップ数）の値の報酬が減少する。

【0043】

即時報酬全体（Ｒ）は、タスク達成時間短縮による即時報酬値、距離評価（Ｒｄ）、及び角度評価（Ｒａ）の合計値であり式（３）で表される。
中間報酬値は、シミュレーションの開始からタスク達成までの即時報酬全体（Ｒ）の積算値である。
また、即時報酬全体（Ｒ）は、距離評価（Ｒｄ）及び角度評価（Ｒａ）の合計値で表されてもよい。

【0044】

【表1】

【0045】

【数1】

【0046】

【数2】

【0047】

【数3】

【0048】

最終報酬決定部１１４は、ロボットモデル１０の行動の最終結果に基づいてエージェントに付与される報酬を最終報酬値として決定する。

【0049】

最終報酬決定部１１４は、最終結果において、所定制限時間内に先端部１０ｆが目標位置１１に到達するとともに、目標位置１１における先端部１０ｆの角度が目標角度に到達した場合に、最終報酬値を最大値に決定する。この場合、表１のＮｏ．４に示す様に、最終報酬値は１となる。
なお、所定制限時間は、学習における最大ステップ数（ｍａｘＳｔｅｐ）に達する時間としてもよい。

【0050】

最終報酬決定部１１４は、シミュレーションの途中で先端部１０ｆが被加工物モデル１２に接触した場合に、最終報酬値を最小値に決定する。この場合、表１のＮｏ．６に示す様に、最終報酬値は－１となる。
図６を参照して、先端部１０ｆと被加工物モデル１２との接触について説明する。
先端部１０ｆの先端には、「Ray Perception Sensor」が装着される。「Ray Perception Sensor」は、Ｕｎｉｔｙ（登録商標）の強化学習フレームワークであるＭＬ－Ａｇｅｎｔｓ（Unity Machine Learning Agents：Ｕｎｉｔｙ機械学習エージェント）において、物体の接触判定に使用されるセンサーの一種であり、エージェントであるロボットモデル１０から被加工物モデル１２までの距離及び被加工物モデル１２の種類などの情報を取得する。
先端部１０ｆの先端から延伸する光線１７の長さが被加工物モデル１２までの距離を表す（図６（ａ）参照）。先端部１０ｆが被加工物モデル１２に接触した状態では、光線１７の代わりに接触マーク１８が表示される（図６（ｂ）参照）。

【0051】

最終報酬決定部１１４は、所定制限時間内に先端部１０ｆが目標位置１１における目標角度に到達しなかった場合に、最終報酬値を最小値に決定する。この場合、表１のＮｏ．５に示す様に、最終報酬値は－１となる。

【0052】

強化学習部１１５は、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する。
また、強化学習部１１５は、シミュレーションの終了時における、中間報酬値と最終報酬値との合計値が最大となるように学習モデルを学習してもよい。

【0053】

（情報処理プログラム及び情報処理方法について）
次に図７を参照して、本開示の一実施形態に係る情報処理プログラムについて、情報処理方法とともに説明する。図７は本実施形態に係る情報処理プログラムのフローチャートである。情報処理方法は、情報処理プログラムに基づいて、情報処理装置１００の演算部１１０により実行される。

【0054】

情報処理プログラムは、目標情報取得ステップＳ１１１、現在情報取得ステップＳ１１２、中間報酬算出ステップＳ１１３、及び強化学習ステップＳ１１５などを備える。
情報処理プログラムは、演算部１１０に対して、目標情報取得機能、現在情報取得機能、中間報酬算出機能、及び強化学習機能などの各種機能を発揮させる。なお、これらの機能は図７のフローチャートに示される順に実行されるが、適宜、順番を入れ替えて実行することもできる。各種機能は前述の情報処理装置１００の各種機能部の説明と重複するため、その詳細な説明は省略する。

【0055】

目標情報取得機能は、シミュレーションにおけるロボットモデル１０の先端部１０ｆの目標位置１１及び目標位置１１における先端部１０ｆの目標角度を目標情報として取得する（Ｓ１１１：目標情報取得ステップ）。

【0056】

現在情報取得機能は、現在の先端部１０ｆの位置及び先端部１０ｆの角度を現在情報として取得する（Ｓ１１２：現在情報取得ステップ）。

【0057】

中間報酬算出機能は、ロボットモデル１０が行動する度にエージェントに付与される報酬を即時報酬値として、現在の先端部１０ｆの位置から目標位置１１までの距離１５と、現在の先端部１０ｆの角度と目標位置１１における先端部１０ｆの目標角度との角度差１６と、に基づいて算出し、シミュレーションの開始から現在までの即時報酬値の積算値を中間報酬値として算出する（Ｓ１１３：中間報酬算出ステップ）。

【0058】

強化学習機能は、シミュレーションの終了時の中間報酬値が最大となるように学習モデルを学習する（Ｓ１１５：強化学習ステップ）。

【0059】

（他の実施形態に係る情報処理プログラム及び情報処理方法）
図８を参照して、他の実施形態に係る情報処理プログラムについて、情報処理方法とともに説明する。図８は他の実施形態に係る情報処理プログラムのフローチャートである。
図８に係る情報処理プログラムは、図７に係る情報処理プログラムに対して最終報酬決定ステップＳ１１４が追加された点で異なり、更にこの追加に伴い強化学習ステップＳ１１５の処理内容が異なる。
以下、図８に係る情報処理プログラムについて、情報処理方法とともに説明する。
図８に係る情報処理プログラムは、目標情報取得ステップＳ１１１、現在情報取得ステップＳ１１２、中間報酬算出ステップＳ１１３、最終報酬決定ステップＳ１１４及び強化学習ステップＳ１１５などを備える。
図８に係る情報処理プログラムは、演算部１１０に対して、目標情報取得機能、現在情報取得機能、中間報酬算出機能、最終報酬決定機能、及び強化学習機能などの各種機能を発揮させる。なお、これらの機能は図８のフローチャートに示される順に実行されるが、適宜、順番を入れ替えて実行することもできる。各種機能は前述の図７に係る情報処理プログラムの説明と重複するため、その重複する説明は省略する。

【0060】

最終報酬決定機能は、ロボットモデル１０の行動の最終結果に基づいてエージェントに付与される報酬を最終報酬値として決定する（Ｓ１１４：最終報酬決定ステップ）。

【0061】

強化学習機能は、シミュレーションの終了時における、中間報酬値と最終報酬値との合計値が最大となるように学習モデルを学習する（Ｓ１１５：強化学習ステップ）。

【0062】

上記した本実施形態に係る情報処理装置１００によれば、中間報酬値は距離１５と角度差１６とに基づいて算出されるので、中間報酬値を距離１５のみに基づいて算出する場合に比べて、強化学習を用いてロボットモデル１０に効率のより良い行動をさせることができる。

【0063】

また、上記した本実施形態に係る情報処理装置１００によれば、中間報酬値は、距離１５、角度差１６、及びロボットモデル１０のタスク達成時間の短縮に基づいて算出されるので、中間報酬値を距離１５のみに基づいて算出する場合に比べて、強化学習を用いてロボットモデル１０に効率のより良い行動をさせることができる。

【0064】

また、上記した本実施形態に係る情報処理装置１００によれば、エージェントに付与される報酬値は、中間報酬値及び最終報酬値の合計値であるので、中間報酬値及び最終報酬値の何れか一方の場合に比べて、強化学習を用いてロボットモデル１０に効率のより良い行動をさせることができる。

【0065】

なお、本発明は上記した実施形態に係る情報処理装置１００、情報処理方法、及び情報処理プログラムに限定されるものではなく、特許請求の範囲に記載した本発明の要旨を逸脱しない限りにおいて、その他種々の変形例、若しくは応用例により実施可能である。また、上記した実施形態では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。

【符号の説明】

【0066】

１０ロボットモデル
１０ａ台座
１０ｂ第１アーム
１０ｃ第２アーム
１０ｄ第３アーム
１０ｅエンドエフェクタ
１０ｆ先端部
１０ｇ基準点
１０ｈ法線方向
１１目標位置
１１ａ法線方向
１２被加工物モデル
１４物体モデル
１５距離
１６角度差
１７光線
１８接触マーク
２０ロボット
２２被加工物
２４物体
１００情報処理装置
１１０演算部
１１１目標情報取得部
１１２現在情報取得部
１１３中間報酬算出部
１１４最終報酬決定部
１１５強化学習部
１２０通信Ｉ／Ｆ（インタフェース）
１３０入力Ｉ／Ｆ
１３１キーボード（入力部）
１４０出力Ｉ／Ｆ
１４１表示部
１７０記憶部
２００ロボット制御装置
３００作業空間
４００仮想空間
５００シミュレーションシステム

【図1】