2023-167644 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-167644ロボット制御システム、ロボット制御方法、およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023167644

(43)【公開日】2023-11-24

(54)【発明の名称】ロボット制御システム、ロボット制御方法、およびコンピュータプログラム

(51)【国際特許分類】

B25J 19/06 20060101AFI20231116BHJP

B25J 9/16 20060101ALI20231116BHJP

【ＦＩ】

B25J19/06

B25J9/16

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022078972

(22)【出願日】2022-05-12

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】504147243

【氏名又は名称】国立大学法人岡山大学

(71)【出願人】

【識別番号】521432650

【氏名又は名称】技術研究組合産業用ロボット次世代基礎技術研究機構

(74)【代理人】

【識別番号】100125117

【弁理士】

【氏名又は名称】坂田泰弘

(74)【代理人】

【識別番号】100086933

【弁理士】

【氏名又は名称】久保幸雄

(72)【発明者】

【氏名】川部知也

(72)【発明者】

【氏名】西竜志

(72)【発明者】

【氏名】馬場裕康

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707AS01

3C707AS06

3C707BS12

3C707BT05

3C707CT05

3C707CV08

3C707CW08

3C707CX01

3C707CX03

3C707CY01

3C707DS01

3C707ES01

3C707JS02

3C707JS07

3C707KV01

3C707LV02

3C707LV12

3C707LV13

3C707LV14

3C707LW12

3C707MS08

3C707MT06

(57)【要約】

【課題】ロボット同士の衝突を従来よりも柔軟に回避しながら最適性をある程度保つ軌道の生成をできるようにする。
【解決手段】複数の行動それぞれについて第一のロボットのツールと第二のロボットとの衝突を回避する適格性を表わすテーブルを、強化学習アルゴリズムに基づく学習処理を実行することによって学習する機械学習部４０７と、複数の行動のうちのツールと第二のロボットとが接近している際に衝突を回避するのに最適である適格行動をモデルに基づいて推論する最適経路推論部４０８と、ツールと第二のロボットとが接近していない場合に、第一の標準経路５１に沿ってツールが移動するように第一のロボットを制御し、ツールと第二のロボットとが接近している場合に、最適経路推論部４０８によって推論された適格行動を実行するように第一のロボット３Ａを制御する、ロボット制御部４０４と、をサーバ２に設ける。
【選択図】図４

【特許請求の範囲】

【請求項1】

複数の行動それぞれについてロボットの全部分または一部分である移動対象と物体との衝突を回避する適格性を表わすモデルを、強化学習アルゴリズムに基づく学習処理を実行することによって学習する学習手段と、
前記複数の行動のうちの前記移動対象と前記物体とが接近している際に前記衝突を回避するのに最適である適格行動を前記モデルに基づいて推論する推論手段と、
前記移動対象と前記物体とが接近していない場合に、予め算出された経路に沿って前記移動対象が移動するように前記ロボットを制御し、前記移動対象と前記物体とが接近している場合に、前記推論手段によって推論された前記適格行動を実行するように前記ロボットを制御する、制御手段と、
を有することを特徴とするロボット制御システム。

【請求項2】

前記複数の行動のそれぞれは、互いに異なる方向への移動または停止である、
請求項１に記載のロボット制御システム。

【請求項3】

前記学習手段は、前記移動対象と前記物体とが接近している場合に、前記学習処理を実行する、
請求項１または請求項２に記載のロボット制御システム。

【請求項4】

前記モデルは、前記移動対象と前記物体との位置関係の複数の状態それぞれについて前記複数の行動それぞれのＱ値を前記適格性として表わし、
前記学習手段は、前記ロボットと前記物体とが接近し、かつ、前記複数の状態のうちの前記ロボットと前記物体とのカレントの状態について前記Ｑ値が未だ学習されていない場合に、Ｑ学習アルゴリズムを前記強化学習アルゴリズムとして用いて前記学習処理を実行する、
請求項１または請求項２に記載のロボット制御システム。

【請求項5】

前記移動対象と前記物体とが接近しているか否かを判別する判別手段、を有し、
前記移動対象は、前記ロボットのアームおよび前記アームの先端に設けられるツールであり、
前記判別手段は、前記ツールの周囲の所定の領域に前記物体が存在すれば前記移動対象と前記物体とが接近していると判別し、存在しなければ接近していないと判別する、
請求項４に記載のロボット制御システム。

【請求項6】

前記所定の領域は、前記ツールを包含する第一の領域と前記第一の領域を囲う複数の第二の領域とを有し、
前記複数の状態のそれぞれは、前記第一の領域および前記複数の第二の領域それぞれが前記物体と交わっているか否かである、
請求項５に記載のロボット制御システム。

【請求項7】

前記複数の行動のそれぞれは、前記第一の領域および前記複数の第二の領域のうちのいずれかの方向への移動または停止である、
請求項６に記載のロボット制御システム。

【請求項8】

前記物体は、前記ロボットと協同して作業を行う第二のロボットであり、
判別手段は、前記移動対象と前記第二のロボットとが接近しているか否かを、前記第二のロボットの予め算出された第二の経路に基づいて判別する、
請求項５に記載のロボット制御システム。

【請求項9】

強化学習アルゴリズムに基づいて学習された、複数の行動それぞれについてロボットの全部分または一部分である移動対象と物体との衝突を回避する適格性を表わすモデルに基づいて、前記複数の行動のうちの前記移動対象と前記物体とが接近している際に前記衝突を回避するのに最適である適格行動を推論する推論手段と、
前記移動対象と前記物体とが接近していない場合に、予め算出された経路に沿って前記移動対象が移動するように前記ロボットを制御し、前記移動対象と前記物体とが接近している場合に、前記推論手段によって推論された前記適格行動を実行するように前記ロボットを制御する、制御手段と、
を有することを特徴とするロボット制御システム。

【請求項10】

ロボットの全部分または一部分である移動対象と物体とが接近していない場合に、予め算出された経路に沿って前記移動対象が移動するように前記ロボットを制御し、
前記移動対象と前記物体とが接近している場合に、複数の行動それぞれについて前記移動対象と物体との衝突を回避する適格性を表わすモデルを、強化学習アルゴリズムに基づく機械学習によって学習し、前記複数の行動の中から前記移動対象と前記物体とが接近している際に前記衝突を回避するのに最適である適格行動を前記モデルに基づいて推論し、推論した前記適格行動を実行するように前記ロボットを制御する、
ことを特徴とするロボット制御方法。

【請求項11】

ロボットを制御するコンピュータに用いられるコンピュータプログラムであって、
前記コンピュータに、
強化学習アルゴリズムに基づいて学習された、複数の行動それぞれについて前記ロボットの全部分または一部分である移動対象と物体との衝突を回避する適格性を表わすモデルに基づいて、前記複数の行動の中から前記移動対象と前記物体とが接近している際に前記衝突を回避するのに最適である適格行動を推論する推論処理を実行させ、
前記移動対象と前記物体とが接近していない場合に、予め算出された経路に沿って前記移動対象が移動するように前記ロボットを制御する第一の制御処理を実行させ、
前記移動対象と前記物体とが接近している場合に、前記推論処理によって推論された前記適格行動を実行するように前記ロボットを制御する第二の制御処理を実行させる、
ことを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、複数台のロボット同士の衝突を回避しながら最適性をある程度保った軌道の生成技術に関する。

【背景技術】

【0002】

従来、自動車、機械、電気機器、電子機器、食品、化粧品、および医薬品などの製品を大量にかつ高速に生産するために、産業用ロボットなどのロボットが用いられている。ロボットによって省人化および省力化が図られている。また、同一の空間に複数台のロボットを配置し、これらのロボットに作業を行わせることがある。これらのロボットに対して目標姿勢が与えられたとき、互いのロボット同士の衝突を回避しながら、できるだけ効率の良い軌道生成を実現する技術が従来、提案されている。

【0003】

特許文献１に記載される方法は、第１の作業領域有する第１のロボットと、第２の作業領域を有する第２のロボットとを備えるロボットシステムにおいて２つのロボット間の衝突を効率良く回避するための方法である。第１の作業領域は、第２の作業領域と重複し、それによって重複作業領域を画定し、第１のロボットによって実行される第１のロボットの動作に関連する第１の動作情報を提供するステップと、第１の動作情報を取り出すステップと、複数の第２のロボットの動作に関し、第２のロボットの動作が第１のロボットおよび第２のロボット間の衝突のリスクを伴うかどうかを決定するステップと、を有する。第２のロボットの動作が第１のロボットおよび第２のロボット間の衝突のリスクを伴うと決定した場合は、利用可能なロボットの中から他のロボットを第２のロボットとして選択し、第１の動作情報を提供するステップおよびリスクを伴うかどうかを決定するステップをやり直す。そして、リスクを伴わないと決定した場合は、第２のロボットの動作を実行する。

【0004】

非特許文献１に記載される方法は、複数台のロボットそれぞれのアームの軌道生成を行い、その経路上の位置をパラメータとしたグラフを作成して速度の調整を行いながら互いに干渉し合わない軌道を取得する。

【0005】

特許文献２に記載される方法によると、複数のロボットアームの軌道の始点および終点を含む動作指令リストを生成し、動作指令リストに基づき各々の軌道生成を行う順序を決定する。動作指令リスト中の特定のロボットアームに関し、始点および終点に基づき、障害物メモリに他のロボットアームの軌道生成に関して登録された障害物空間を回避するよう、軌道生成を行う。そして、生成軌道で当該ロボットアームを動作させた際、当該アームの躯体によって掃引される掃引空間を、他のロボットアームが回避すべき障害物空間として障害物メモリに追加する。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特許第６５５６２４５号公報

【特許文献2】特開２０１９－１９３９７５号公報

【非特許文献】

【0007】

【非特許文献1】G. Sanchez and J.-C. Latombe, "On delaying collision checking in PRM planning: Application to multi-robot coordination" International Journal of Robotics Research, vol.21, no.1, pp.5-26, 2002

【発明の概要】

【発明が解決しようとする課題】

【0008】

ところで、需要者のニーズに応じて多種多様な製品が次々に開発されており、製品ごとに専用のロボットを導入するとコストが嵩んでしまう。そこで、汎用性のあるロボットが導入され、製品ごとに応じた作業をロボットに実行させている。

【0009】

上述の従来の方法は、ロボット同士の想定される衝突を回避することが可能であるが、予期せぬ事態への柔軟な対応が困難である。例えば、一方のロボットの動作に遅延が生じた場合に対応することが困難である。つまり、従来の方法は、汎用性に乏しく、動作遅延が生じた際にでも衝突を回避しながら、効率良い動作計画を実現することは難しい。また、従来の学習手法ですべての衝突に対する回避方策を学習するためには多大な学習時間と動作計画時間を必要とする。さらに、ロボットの形状が複雑になった場合、あるいはロボットの台数が増加した場合、衝突を回避しながらロボットの目標姿勢までの軌道を最適化するのに、多大な計算時間を必要とする。

【0010】

本発明は、このような問題点に鑑み、ロボット同士の衝突を従来よりも柔軟に回避しながらも最適性をある程度保った動作計画を実現できるようにすることを、目的とする。

【課題を解決するための手段】

【0011】

本発明の一形態に係るロボット制御システムは、複数の行動それぞれについてロボットの全部分または一部分である移動対象と物体との衝突を回避する適格性を表わすモデルを、強化学習アルゴリズムに基づく学習処理を実行することによって学習する学習手段と、前記複数の行動のうちの前記移動対象と前記物体とが接近している際に前記衝突を回避するのに最適である適格行動を前記モデルに基づいて推論する推論手段と、前記移動対象と前記物体とが接近していない場合に、予め算出された経路に沿って前記移動対象移動対象が移動するように前記ロボットを制御し、前記移動対象と前記物体とが接近している場合に、前記推論手段によって推論された前記適格行動を実行するように前記ロボットを制御する、制御手段と、を有する。

【0012】

好ましくは、前記複数の行動のそれぞれは、互いに異なる方向への移動または停止である。

【0013】

または、前記モデルは、前記移動対象と前記物体との位置関係の複数の状態それぞれについて前記複数の行動それぞれのＱ値を前記適格性として表わし、前記学習手段は、前記ロボットと前記物体とが接近し、かつ、前記複数の状態のうちの前記ロボットと前記物体とのカレントの状態について前記Ｑ値が未だ学習されていない場合に、Ｑ学習アルゴリズムを前記強化学習アルゴリズムとして用いて前記学習処理を実行する。

【発明の効果】

【0014】

本発明によると、複数台のロボットが目標姿勢に到達するまでの準最適軌道を効率よく探索しながら、ロボット同士の衝突を従来よりも柔軟に回避することができる。具体的には、一方のロボットが故障あるいは動作遅延を生じる、といった予期せぬ事態が発生した場合でも、ロボットアーム同士の衝突を回避しながら最適性をある程度保った軌道生成を実現することができる。

【図面の簡単な説明】

【0015】

【図1】ロボットシステムの全体的な処理の流れの例を説明するフローチャートである。

【図2】ロボットの機構モデルおよび制御モデルの例を示す図である。

【図3】サーバのハードウェア構成の例を示す図である。

【図4】サーバの機能的構成の例を示す図である。

【図5】第一のロボットおよび第二のロボットの初期姿勢および目標姿勢の例を示す図である。

【図6】ＲＲＴ(Rapidly-Exploring Random Trees)アルゴリズムによる経路探索の処理の流れの例を説明するフローチャートである。

【図7】第一のロボットおよび第二のロボットそれぞれの移動中の姿勢の例を示す図である。

【図8】監視領域の例を示す斜視図である。

【図9】監視領域を真上、真横、および真下それぞれから見た様子の例を示す図である。

【図10】監視領域それぞれの中心のベクトルを示す図である。

【図11】ルックアップテーブルの例を示す図である。

【図12】Ｑ学習アルゴリズムによる機械学習の処理の流れの例を説明するフローチャートである。

【図13】動作計画プログラムのよる全体的な処理の流れの例を説明するフローチャートである。

【発明を実施するための形態】

【0016】

〔１．システムの全体構成〕
図１は、ロボットシステム１の全体的な処理の流れの例を説明するフローチャートである。図２は、ロボット３の機構モデルおよび制御モデルの例を示す図である。図３は、サーバ２のハードウェア構成の例を示す図である。図４は、サーバ２の機能的構成の例を示す図である。

【0017】

ロボットシステム１は、図１に示すようにサーバ２および複数台のロボット３などによって構成され、これらのロボット３が協同してワークに対して処理を施すことによって製品を生産する。

【0018】

ロボット３は、図１または図２に示すように、ベース３０、第一のアーム３１１、第二のアーム３１２、第三のアーム３１３、第四のアーム３１４、第五のアーム３１５、ツール３２、第一の駆動ユニット３３１、第二の駆動ユニット３３２、第三の駆動ユニット３３３、第四の駆動ユニット３３４、第五の駆動ユニット３３５、第六の駆動ユニット３３６、コントローラ３４、および通信インタフェース３５などによって構成される。なお、図２において、点線は、有線または無線の通信路を表わしている。矢印付きの実線は、動力の伝達を表わしている。

【0019】

ベース３０は、本実施形態では、水平面に設置される。第一のアーム３１１は、その基端部がベース３０に支持されており、ベース３０の設置面に垂直な第一の軸３９１を回転軸として回転する。第一の駆動ユニット３３１は、モータ、減速機、および角度センサなどによって構成され、第一のアーム３１１を回転させる。なお、第二の駆動ユニット３３２ないし第六の駆動ユニット３３６も、第一の駆動ユニット３３１と同様に、モータ、減速機、および角度センサなどによって構成される。

【0020】

第二のアーム３１２は、その基端部が第一のアーム３１１の先端部に支持されており、第一の軸３９１および第二のアーム３１２の長手方向の両方に垂直な第二の軸３９２を振り軸として旋回する。第二の駆動ユニット３３２は、第二のアーム３１２を旋回させる。

【0021】

第三のアーム３１３は、その基端部が第二のアーム３１２の先端部に支持されており、第二の軸３９２に平行な第三の軸３９３を振り軸として旋回する。第三の駆動ユニット３３３は、第三のアーム３１３を旋回させる。

【0022】

第四のアーム３１４は、その基端部が第三のアーム３１３の先端部に支持されており、第三のアーム３１３の長手方向に平行な第四の軸３９４を回転軸として回転する。第四の駆動ユニット３３４は、第四のアーム３１４を回転させる。

【0023】

第五のアーム３１５は、その基端部が第四のアーム３１４の先端部に支持されており、第四の軸３９４に垂直な第五の軸３９５を振り軸として旋回する。第五の駆動ユニット３３５は、第五のアーム３１５を旋回させる。

【0024】

ツール３２は、その基端部が第五のアーム３１５の先端部に支持されており、第五のアーム３１５の長手方向に平行な第六の軸３９６を回転軸として回転する。第六の駆動ユニット３３６は、ツール３２を回転させる。作業に応じてハンドまたはネジ締結装置などがツール３２として使用される。

【0025】

第一の駆動ユニット３３１の角度センサは、第一のアーム３１１の、ベース３０の座標系における基準の姿勢と現在の姿勢とがなす角度θ_１を検出する。つまり、第一のアーム３１１が基準の姿勢からどれだけ回転したのかを検出する。第二の駆動ユニット３３２の角度センサは、第一のアーム３１１と第二のアーム３１２とがなす角度θ_２を検出する。

【0026】

第三の駆動ユニット３３３の角度センサは、第二のアーム３１２と第三のアーム３１３とがなす角度θ_３を検出する。第四の駆動ユニット３３４の角度センサは、第四のアーム３１４の、第三のアーム３１３の座標系における基準の姿勢と現在の姿勢とがなす角度θ_４を検出する。つまり、第四のアーム３１４が基準の姿勢からどれだけ回転したのかを検出する。

【0027】

第五の駆動ユニット３３５の角度センサは、第四のアーム３１４と第五のアーム３１５とがなす角度θ_５を検出する。第六の駆動ユニット３３６の角度センサは、ツール３２の、第五のアーム３１５の座標系における基準の姿勢と現在の姿勢とがなす角度θ_６を検出する。つまり、ツール３２が基準の姿勢からどれだけ回転したのかを検出する。

【0028】

そして、第一の駆動ユニット３３１ないし第六の駆動ユニット３３６それぞれの角度センサは、検出した角度θ_１～θ_６を、通信インタフェース３５を介してサーバ２へ送信する。なお、第一のアーム３１１ないし第五のアーム３１５それぞれのリンク部分の長さおよびツール３２の長さはいずれも一定（不変）なので、角度θ_１～θ_６が分かればロボット３の姿勢が一意に定まる。

【0029】

通信インタフェース３５は、ＵＳＢ（Universal Serial Bus）アダプタもしくはＮＩＣ（Network Interface Card）などの有線の規格のインタフェース装置またはＢｌｕｅｔｏｏｔｈアダプタもしくはＷｉ－Ｆｉアダプタなどの無線の規格の通信装置であって、サーバ２との間でデータを送受信する。

【0030】

コントローラ３４は、第一のアーム３１１ないし第五のアーム３１５およびツール３２がサーバ２から通信インタフェース３５が受信した指令の通りの姿勢になるように第一の駆動ユニット３３１ないし第六の駆動ユニット３３６を制御する。または、指令の通りに動作するようにツール３２を制御する。

【0031】

サーバ２は、ワークへの処理のために、複数台のロボット３それぞれに所定の姿勢を取らせる。この際に、これらのロボット３同士の衝突の回避を図る。以下、サーバ２としてラップトップ型のパーソナルコンピュータが用いられる場合を例に説明する。

【0032】

サーバ２は、図３に示すように、メインプロセッサ２０、ＲＡＭ（Random Access Memory）２１、ＲＯＭ（Read Only Memory）２２、補助記憶装置２３、通信インタフェース２４、ディスプレイ２５、キーボード２６、およびポインティングデバイス２７などによって構成される。

【0033】

ＲＯＭ２２または補助記憶装置２３には、オペレーティングシステムのほか動作計画プログラム４０などのコンピュータプログラムがインストールされている。

【0034】

ＲＡＭ２１は、サーバ２のメインメモリである。ＲＡＭ２１には、適宜、動作計画プログラム４０などのコンピュータプログラムがロードされる。

【0035】

メインプロセッサ２０は、ＲＡＭ２１にロードされたコンピュータプログラムを実行する。メインプロセッサ２０として、ＧＰＵ（Graphics Processing Unit）またはＣＰＵ（Central Processing Unit）などが用いられる。

【0036】

通信インタフェース２４は、ロボット３との間でデータの送受信を行う。通信インタフェース２４として、ロボット３で採用される規格の通信装置が用いられる。

【0037】

ディスプレイ２５は、コマンドもしくはデータを入力するための画面またはメインプロセッサ２０による演算の結果を表わす画面などを表示する。

【0038】

キーボード２６およびポインティングデバイス２７は、コマンドまたはデータなどをオペレータが入力するための入力装置である。

【0039】

動作計画プログラム４０によると、図４に示す初期条件記憶部４０１、動作計画部４０２、経路記憶部４０３、ロボット制御部４０４、状態判別部４０５、テーブル記憶部４０６、機械学習部４０７、および最適経路推論部４０８などの機能が実現される。これらの機能によると、複数台のロボット３それぞれの経路（軌道）がＲＲＴ＊（Rapidly-exploring Random Tree star）アルゴリズムで探索され、それぞれの経路に則して各ロボット３が制御される。さらに、衝突を回避するために経路の変更が強化学習によって実行される。

【0040】

以下、ワークへ加工を施すために２台のロボット３が使用される場合を例に、図４に示す各部および各ロボット３の処理について説明する。

【0041】

２台のロボット３をそれぞれ「第一のロボット３Ａ」および「第二のロボット３Ｂ」と区別して記載することがある。同様に、第一のロボット３Ａのベース３０、ツール３２、および角度θ_１～θ_６などをそれぞれ「ベース３０Ａ」、「ツール３２Ａ」、および「角度θ_{１_Ａ}～θ_{６_Ａ}」などと記載し、第二のロボット３Ｂのベース３０、ツール３２、および角度θ_１～θ_６などをそれぞれ「ベース３０Ｂ」、「ツール３２Ｂ」、および「角度θ_{１_Ｂ}～θ_{６_Ｂ}」などと記載することがある。

【0042】

〔２．初期のデータの記憶〕
図５は、第一のロボット３Ａおよび第二のロボット３Ｂの初期姿勢および目標姿勢の例を示す図である。

【0043】

初期条件記憶部４０１（図４参照）には、第一のロボット３Ａおよび第二のロボット３Ｂに関する初期条件などに関する情報として、図５（Ａ）または図５（Ｂ）に示す第一の設置位置Ｐ_{Ｏ_Ａ}および第二の設置位置Ｐ_{Ｏ_Ｂ}それぞれの、作業空間１０における座標、ならびに第一の初期姿勢Ｆ_{Ｓ_Ａ}、第二の初期姿勢Ｆ_{Ｓ_Ｂ}、第一の目標姿勢Ｆ_{Ｇ_Ａ}、および第二の目標姿勢Ｆ_{Ｇ_Ｂ}を表わす情報のほか、第一のロボット３Ａの各リンクの長さ、ツール３２Ａの長さ、第二のロボット３Ｂの各リンクの長さ、およびツール３２Ｂの長さなどが記憶されている。

【0044】

作業空間１０は、第一のロボット３Ａおよび第二のロボット３Ｂが存在する空間である。第一の設置位置Ｐ_{Ｏ_Ａ}および第二の設置位置Ｐ_{Ｏ_Ｂ}は、それぞれ、第一のロボット３Ａのベース３０Ａおよび第二のロボット３Ｂのベース３０Ｂが設置されている位置である。

【0045】

第一の初期姿勢Ｆ_{Ｓ_Ａ}および第二の初期姿勢Ｆ_{Ｓ_Ｂ}は、それぞれ、第一のロボット３Ａおよび第二のロボット３Ｂそれぞれの初期姿勢であって、次のように特定される。オペレータが所定の指令を入力すると、第一のロボット３Ａの６つの角度センサによって角度θ_{１_Ａ}～θ_{６_Ａ}が検出されサーバ２へ送信される。これらの角度θ_{１_Ａ}～θ_{６_Ａ}が第一の初期姿勢Ｆ_{Ｓ_Ａ}を表わしている。同様に、第二のロボット３Ｂの６つの角度センサによって角度θ_{１_Ｂ}～θ_{６_Ｂ}が検出されサーバ２へ送信される。これらの角度θ_{１_Ｂ}～θ_{６_Ｂ}が第二の初期姿勢Ｆ_{Ｓ_Ｂ}を表わしている。

【0046】

第一の目標姿勢Ｆ_{Ｇ_Ａ}および第二の目標姿勢Ｆ_{Ｇ_Ｂ}は、それぞれ、第一のロボット３Ａおよび第二のロボット３Ｂそれぞれの目標姿勢であって、第一の目標姿勢Ｆ_{Ｇ_Ａ}のときの角度θ_{１_Ａ}～θ_{６_Ａ}および第二の目標姿勢Ｆ_{Ｇ_Ｂ}のときの角度θ_{１_Ｂ}～θ_{６_Ｂ}をオペレータが入力することによって指定される。これらの角度を直接入力するのではなく、手動で第一の目標姿勢Ｆ_{Ｇ_Ａ}および第二の目標姿勢Ｆ_{Ｇ_Ｂ}をそれぞれ第一のロボット３Ａおよび第二のロボット３Ｂに取らせ、角度θ_{１_Ａ}～θ_{６_Ａ}および角度θ_{１_Ｂ}～θ_{６_Ｂ}を検知させることによって取得してもよい。

【0047】

そのほか、第一のロボット３Ａのベース３０Ａ、第一のアーム３１１Ａないし第五のアーム３１５Ａ、およびツール３２Ａそれぞれのパーツの三次元形状ならびに第二のロボット３Ｂのベース３０Ｂ、第一のアーム３１１Ｂないし第五のアーム３１５Ｂ、およびツール３２Ｂそれぞれのパーツの三次元形状が初期条件記憶部４０１に記憶されている。

【0048】

〔３．ロボット３の制御〕
オペレータがスタートの指令をサーバ２へ入力すると、第一のロボット３Ａを第一の初期姿勢Ｆ_{Ｓ_Ａ}から第一の目標姿勢Ｆ_{Ｇ_Ａ}へ変化させかつ第二のロボット３Ｂを第二の初期姿勢Ｆ_{Ｓ_Ｂ}から第一の目標姿勢Ｆ_{Ｇ_Ｂ}へ変化させる処理が動作計画部４０２ないし最適経路推論部４０８によって行われる。

【0049】

〔３．１標準の経路に則した移動〕
図６は、ＲＲＴアルゴリズムによる経路探索の処理の流れの例を説明するフローチャートである。図７は、第一のロボット３Ａおよび第二のロボット３Ｂそれぞれの移動中の姿勢の例を示す図である。

【0050】

動作計画部４０２（図４参照）は、第一の標準経路５１および第二の標準経路５２をＲＲＴ＊アルゴリズムによって探索する。

【0051】

第一の標準経路５１は、第一のロボット３Ａを第一の初期姿勢Ｆ_{Ｓ_Ａ}から第一の目標姿勢Ｆ_{Ｇ_Ａ}へ変化させる際のツール３２Ａの経路である。第二の標準経路５２は、第二のロボット３Ｂを第二の初期姿勢Ｆ_{Ｓ_Ｂ}から第二の目標姿勢Ｆ_{Ｇ_Ｂ}へ変化させる際のツール３２Ｂの経路である。

【0052】

ＲＲＴ＊アルゴリズムは、経路探索手法の１つであって、ＲＲＴアルゴリズムを拡張したものである。

【0053】

ＲＲＴアルゴリズムおよびＲＲＴ＊アルゴリズムは、ともに、初期の位置（１番目のノード）から目標の位置（目標のノード）までの経路を、障害物に当たらないように枝（線分）を繋ぎながら探索するアルゴリズムである。

【0054】

ＲＲＴアルゴリズムによると、図６に示す手順で経路が探索される。コンピュータは、１番目のノードをノードリストへ追加する（＃９０１）。追加したノードから目標のノードの方向へ一定の距離Ｄ_１以下の真っ直ぐな枝を障害物に当たることなく伸ばすことができれば（＃９０２でＹｅｓ）、その枝をノードリストへ追加し（＃９０８）、ＲＲＴアルゴリズムを終了する。なお、ステップ＃９０２は、ノードがノードリストへ追加されるごとに行われる。

【0055】

このように枝を伸ばすことができない場合は（＃９０２でＮｏ）、コンピュータは、作業空間１０の任意の点を１つランダムにサンプリングする（＃９０３）。以下、サンプリングした点を「サンプル点」と記載する。ノードリストに格納されているノードの中からサンプル点に最も近いノードを親ノードとして選出する（＃９０４）。親ノードからサンプル点の方向へ距離Ｄ_１の真っ直ぐな枝を伸ばす（＃９０５）。

【0056】

その枝が障害物に当たれば（＃９０６でＹｅｓ）、コンピュータは、ステップ＃９０３に戻って、作業空間１０の任意の点のサンプリングなどをやり直す。

【0057】

一方、その枝が障害物に当たらなければ（＃９０６でＮｏ）、コンピュータは、親ノードをその枝とともにノードリストへ追加する（＃９０７）。そして、追加したノードから目標のノードに届くように距離Ｄ_１以下の真っ直ぐな枝を障害物に当たることなく伸ばすことができれば（＃９０２でＹｅｓ）、その枝をノードリストへ追加し（＃９０８）、ＲＲＴアルゴリズムを終了する。動作計画部４０２は、目標のノードに届く枝が得られるまで、ステップ＃９０３～＃９０７の処理を繰り返し実行する。

【0058】

このような処理を実行することによって、１番目のノードと目標のノードとが１本または複数本の枝によって連結される。これらの連結された枝が、探索結果つまり目的の経路である。ＲＲＴアルゴリズムは、このようにシンプルである。しかし、最適性の保証がない。

【0059】

一方、ＲＲＴ＊アルゴリズムによると、ステップ＃９０７において新たなノードを追加する際に、コンピュータは、新たなノードと親ノードとを結ぶ枝だけでなく、新たなノードと親ノードの近隣の各ノードとを結ぶ枝（ただし、障害物に当たらない枝）にも注目する。そして、これらの枝のうち移動コストの最も低い枝を選出し、ノードリストへ追加する。また、１番目のノードと目標のノードとが１本または複数本の枝によって連結された後も、探索を継続してもよい。すると、移動コストがさらに低い枝が見つかり経路が改善されることがある。

【0060】

つまり、ＲＲＴ＊アルゴリズムによると、新たなノードが追加されるごとに既存のノードへの最短の枝が計算されるので、ＲＲＴアルゴリズムよりも移動コストの低い経路を見つけることができる。また、新たなノードの追加を無限に続けると必ず最短の経路が得られる。しかし、最短の経路が得られたか否かを判別することが困難であり、かつ、新たなノードの追加の回数が多くなるほど処理の時間が長くなるので、探索の時間またはステップ数の上限を決めてＲＲＴ＊アルゴリズムによる処理を実行するのが望ましい。

【0061】

動作計画部４０２は、ＲＲＴ＊アルゴリズムによる第一の標準経路５１および第二の標準経路５２の探索に際して、作業空間１０に実在する物体（例えば、ワーク）を障害物として取り扱う。第一の標準経路５１を探索する際は、さらに、第一のロボット３Ａのアームの関節角度の可動範囲外を障害物と見做す。同様に、第二の標準経路５２を探索する際は、第二のロボット３Ｂのアームの関節角度の可動範囲外を障害物と見做す。障害物に関する情報も、初期条件記憶部４０１に予め記憶させておけばよい。

【0062】

第一の標準経路５１および第二の標準経路５２は、動作計画部４０２によって得られると、経路記憶部４０３に記憶される。

【0063】

ロボットの制御用のソフトウェアであるＲＯＳ（Robot Operating System）にパッケージされているツールの１つである「ＭｏｖｅＩｔ！」によってＲＲＴ＊アルゴリズムに基づく経路探索を行うことができる。そこで、動作計画部４０２をこのツールによって実現してもよい。

【0064】

ところで、第一の標準経路５１および第二の標準経路５２はいずれも、第一のロボット３Ａが第一の初期姿勢Ｆ_{Ｓ_Ａ}でありかつ第二のロボット３Ｂが第二の初期姿勢Ｆ_{Ｓ_Ｂ}であるときに探索される。したがって、その後、第二のロボット３Ｂの姿勢が変化すると、第一の標準経路５１に基づいて第一のロボット３Ａの姿勢を変化させた際に、第一のロボット３Ａが第二のロボット３Ｂに衝突することがある。第一のロボット３Ａの姿勢が変化した場合も同様である。両ロボット３の衝突を回避する方法については、後述する。

【0065】

スタートの指令が入力されると、原則として、動作計画部４０２は、第一の標準経路５１を上述の方法で算出するが、過去に第一のロボット３Ａの同一の初期姿勢と目標姿勢との組合せについて第一の標準経路５１を算出したことがある場合は、算出するのをスキップし、経路記憶部４０３に記憶されている、その第一の標準経路５１が後述の各処理で用いられるようにしてもよい。第二の標準経路５２についても同様である。

【0066】

ロボット制御部４０４は、第一のロボット３Ａおよび第二のロボット３Ｂを次のように制御する。

【0067】

第一のロボット３Ａが第一の通常状態であるときは、ロボット制御部４０４は、第一の標準経路５１に沿ってツール３２Ａが移動するように第一のロボット３Ａを制御する。しかし、第一の要回避状態であるときは、最適経路推論部４０８によって推論される方向へツール３２Ａが移動するように第一のロボット３Ａを制御する。最適経路推論部４０８の処理については、後述する。

【0068】

第一の要回避状態とは、図７のように、ツール３２Ａが第二のロボット３Ｂに接触しそうなくらいに接近しており衝突を回避する必要のある状態である。第一の通常状態とは、ツール３２Ａが第二のロボット３Ｂにあまり接近しておらず回避する必要のない状態である。第一の通常状態であるか第一の要回避状態であるかは、後述するように、状態判別部４０５によって判別される。

【0069】

同様に、第二のロボット３Ｂが第二の通常状態であるときは、ロボット制御部４０４は、第二の標準経路５２に沿ってツール３２Ｂが移動するように第二のロボット３Ｂを制御し、第二の要回避状態であるときは、最適経路推論部４０８によって推論される方向へツール３２Ｂが移動するように第二のロボット３Ｂを制御する。第二の要回避状態とは、ツール３２Ｂが第一のロボット３Ａに接触しそうなくらいに接近しており衝突を回避する必要のある状態であり、第二の通常状態とは、ツール３２Ｂが第一のロボット３Ａにあまり接近しておらず回避する必要のない状態である。

【0070】

ロボット制御部４０４は、そのほか、ツール３２Ａ、３２Ｂによってワークへの加工を行うように第一のロボット３Ａまたは第二のロボット３Ｂへ与える。

【0071】

〔３．２状態の判別〕
図８は、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}の例を示す斜視図である。図９は、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}を真上、真横、および真下それぞれから見た様子の例を示す図である。図１０は、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}それぞれの中心のベクトルを示す図である。

【0072】

状態判別部４０５（図４参照）は、スタートの指令が入力されると、第一のロボット３Ａの姿勢が第一の目標姿勢Ｆ_{Ｇ_Ａ}になるまでリアルタイムで第一のロボット３Ａが第一の要回避状態であるか第一の通常状態であるかを判別し続ける。第一の要回避状態である場合は、さらに、接近状態を判別し続ける。接近状態は、ツール３２Ａと他ロボット領域とがどのように接近しているかの状態であって、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のそれぞれが他ロボット領域に交わっているか否かによって表わされる。したがって、接近状態は、２^１３通りある。また、接近状態は、ツール３２Ａと他ロボット領域との相対的な位置関係を表わしていると、言える。

【0073】

同様に、状態判別部４０５は、第二のロボット３Ｂの姿勢が第二の目標姿勢Ｆ_{Ｇ_Ｂ}になるまでリアルタイムで第二のロボット３Ｂが第二の要回避状態であるか第二の通常状態であるかを判別し続け、第二の要回避状態である場合は接近状態を判別し続ける。以下、第一のロボット３Ａが第一の要回避状態であるか第一の通常状態であるかを判別する方法および接近状態を判別する方法について説明する。

【0074】

状態判別部４０５は、第一のロボット３Ａの姿勢が第一の目標姿勢Ｆ_{Ｇ_Ａ}になるまでリアルタイムで第一の監視位置Ｐ_{Ｍ_Ａ}、図８または図９に示す１３個の監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}それぞれの位置、および他ロボット領域の位置などを検出する。なお、監視領域Ｍ_{１_Ａ}、Ｍ_{２_Ａ}、Ｍ_{３_Ａ}、…、Ｍ_{１３_Ａ}には、それぞれ、監視領域番号として「１」、「２」、「３」、…、「１３」が付されている。

【0075】

第一の監視位置Ｐ_{Ｍ_Ａ}は、ツール３２Ａの、作業空間１０における位置であって（図５参照）、第一のロボット３Ａの現在の姿勢および第一の設置位置Ｐ_{Ｏ_Ａ}などに基づいて特定することができる。現在の姿勢は、第一のロボット３Ａからリアルタイムで角度θ_{１_Ａ}～θ_{６_Ａ}を取得することによって特定することができる。または、第一のロボット３Ａの動作をシミュレーションすることによって特定してもよい。

【0076】

監視領域Ｍ_{１３_Ａ}は、中心が第一の監視位置Ｐ_{Ｍ_Ａ}でありかつ半径長が長さＬ_Ｓである球形の３次元領域である。

【0077】

監視領域Ｍ_{７_Ａ}～Ｍ_{９_Ａ}は、監視領域Ｍ_{１３_Ａ}と同様に半径長が長さＬ_Ｓである球形の３次元領域である。図９（Ａ）に示すように、監視領域Ｍ_{７_Ａ}～Ｍ_{９_Ａ}は、監視領域Ｍ_{１３_Ａ}の上部を囲むように水平に並んでおり、かつ、４つの監視領域Ｍ_{１３_Ａ}、Ｍ_{７_Ａ}～Ｍ_{９_Ａ}は、互いに接している。

【0078】

監視領域Ｍ_{１_Ａ}～Ｍ_{６_Ａ}は、監視領域Ｍ_{１３_Ａ}と同様に半径長が長さＬ_Ｓである球形の３次元領域である。図９（Ｂ）に示すように、監視領域Ｍ_{１_Ａ}～Ｍ_{６_Ａ}は、監視領域Ｍ_{１３_Ａ}に接しながら監視領域Ｍ_{１３_Ａ}の真横を囲むように水平に並んでいる。

【0079】

監視領域Ｍ_{１０_Ａ}～Ｍ_{１２_Ａ}は、監視領域Ｍ_{１３_Ａ}と同様に半径長が長さＬ_Ｓである球形の３次元領域である。図９（Ｃ）に示すように、監視領域Ｍ_{１０_Ａ}～Ｍ_{１２_Ａ}は、監視領域Ｍ_{１_Ａ}の下部を囲むように水平に並んでおり、かつ、４つの監視領域Ｍ_{１０_Ａ}～Ｍ_{１３_Ａ}は、互いに接している。

【0080】

長さＬ_Ｓは、ツール３２Ａが監視領域Ｍ_{１３_Ａ}にちょうど納まる程度に設定されている。または、ツール３２Ａの径方向の断面が監視領域Ｍ_{１３_Ａ}にちょうど納まる程度に設定されている。

【0081】

ツール３２Ａが移動するのに伴って作業空間１０における第一の監視位置Ｐ_{Ｍ_Ａ}が変化するので、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}それぞれの、作業空間１０における位置も変わる。第一の監視位置Ｐ_{Ｍ_Ａ}から監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}それぞれの中心への方向ベクトルは、長さＬ_Ｓが例えば０．０５メートルである場合は、図１０に示す通りである。長さＬ_Ｓは、使用するロボットアームの径によって変更する。また、長さＬ_Ｓを変更することでどの程度余裕をもって衝突回避を行うかを調整することができる。

【0082】

他ロボット領域は、作業領域の中の他のロボット３（本例では、第二のロボット３Ｂ）が占める領域であって、第二のロボット３Ｂの現在の姿勢および第二のロボット３Ｂの各パーツの三次元形状によって特定することができる。第二のロボット３Ｂの姿勢も、第一のロボット３Ａの姿勢と同様、第二のロボット３Ｂからリアルタイムで角度θ_{１_Ｂ}～θ_{６_Ｂ}を取得することによって特定してもよいし、第二のロボット３Ｂの動作をシミュレーションすることによって特定してもよい。

【0083】

状態判別部４０５は、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のうちのいずれかが他ロボット領域に交わっている場合に第一のロボット３Ａが第一の要回避状態であると判別し、交わっていない場合に第一の通常状態であると判別する。

【0084】

さらに、第一の要回避状態である場合に、状態判別部４０５は、その接近状態を判別する。つまり、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のそれぞれが他ロボット領域に交わっているか否かを判別する。

【0085】

状態判別部４０５は、同様の方法によって、第二のロボット３Ｂが第二の要回避状態であるか第二の通常状態であるかを判別し、接近状態を判別する。

【0086】

〔３．３強化学習および回避経路の推論〕
図１１は、ルックアップテーブル６０の例を示す図である。図１２は、Ｑ学習アルゴリズムによる機械学習の処理の流れの例を説明するフローチャートである。

【0087】

上述の通り、ロボット制御部４０４（図４参照）は、第一の要回避状態であるときに、第二のロボット３Ｂとの衝突を回避するようにツール３２Ａを移動させる。同様に、第二の要回避状態であるときに、第一のロボット３Ａとの衝突を回避するようにツール３２Ｂを移動させる。このような回避のための行動は、強化学習アルゴリズムの１つであるＱ学習アルゴリズムの機械学習によって得られたモデルであるルックアップテーブル（Ｑテーブル）に基づいて推論される。

【0088】

以下、第一のロボット３Ａを制御する場合を例に、機械学習および行動の推論それぞれの処理について、説明する。これらの処理は、テーブル記憶部４０６、機械学習部４０７、および最適経路推論部４０８（図４参照）によって行われる。

【0089】

テーブル記憶部４０６には、予め、図１１に示すルックアップテーブル（Ｑテーブル）６０が記憶されている。

【0090】

ルックアップテーブル６０において、「状態」は、ツール３２Ａと他のロボットとの接近状態、すなわち、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}それぞれが他ロボット領域と交わっているか否かの状態であって、（ｂ_１，ｂ_２，ｂ_３，…，ｂ_１３）によって表わされる。ｂ_ｉ＝１、であれば、監視領域Ｍ_{ｉ_Ａ}が他ロボット領域と交わっていることを表わし、ｂ_ｉ＝０、であれば、交わっていることを表わす。ただし、１≦ｉ≦１３、である。

【0091】

「行動」は、第一の監視位置Ｐ_{Ｍ_Ａ}から１３個の監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}それぞれの中心のうちの任意の１つへの方向を進行方向とするツール３２Ａの移動である。移動の距離は一定の距離Ｄ_４である。よって、監視領域Ｍ_{１_Ａ}の中心の方向への距離Ｄ_４のツール３２Ａの移動、監視領域Ｍ_{２_Ａ}の中心の方向への距離Ｄ_４のツール３２Ａの移動、…、監視領域Ｍ_{１３_Ａ}の中心の方向への距離Ｄ_４のツール３２Ａの移動のように、１３通りの行動がある。ただし、監視領域Ｍ_{１３_Ａ}の中心は第一の監視位置Ｐ_{Ｍ_Ａ}と重なるので、監視領域Ｍ_{１３_Ａ}の中心の方向への移動は実質的にストップ（停止）であると、言える。

【0092】

したがって、行動と状態との組合せが１３×２^１３通りある。そして、ルックアップテーブル６０には、組合せごとにＱ値が１つずつ示されている。なお、これらのＱ値の初期値は所定の値（例えば、ゼロ）である。

【0093】

機械学習部４０７は、行動決定部４７１、状態遷移演算部４７２、報酬算出部４７３、およびテーブル更新部４７４によって構成され、図１２に示す手順でＱ学習アルゴリズムによる機械学習を行う。なお、行動決定部４７１およびテーブル更新部４７４がエージェントに相当し、状態遷移演算部４７２および報酬算出部４７３が環境に相当し、ルックアップテーブル６０が方策に相当する。

【0094】

行動決定部４７１は、状態ｓを、第一のロボット３Ａが第一の要回避状態になった時点の接近状態に設定する（図１２の＃７０１）。つまり、初期化を行う。そして、状態ｓにおいて第一のロボット３Ａに実行させる行動ａを上述の１３通りの行動の中から決定する（＃７０２）。行動ａを単にランダムに決定してもよいが、εグリーディ方策またはソフトマックス手法などによって決定してもよい。

【0095】

状態遷移演算部４７２は、状態ｓにおいて第一のロボット３Ａが行動ａを実行するのをシミュレーションし（＃７０３）、実行後に１３個の監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のうちどの監視領域が他ロボット領域と交わっているか（状態ｓ’）を観察（判別）するとともに、第一の監視位置Ｐ_{Ｍ_Ａ}と他ロボット領域との距離ｄを算出する（＃７０４）。なお、他ロボット領域は、ステップ＃７０３において第二のロボット３Ｂの動作をシミュレーションすることによって求めることができる。

【0096】

報酬算出部４７３は、状態遷移演算部４７２によって判別された状態ｓ'および算出された距離ｄに対応する報酬ｒ_ｔを、次の報酬規定に基づいて算出する（＃７０５）。

【0097】

＜報酬規定＞
・ｒ_ｔ＝－３：他ロボットが本ロボットのツール３２の近くにあり、かつ、本ロボットがストップした場合
・ｒ_ｔ＝－２：他ロボットが本ロボットのツール３２の近くにあり、かつ、本ロボットがＲＲＴ＊アルゴリズムによる経路を離脱した場合
・ｒ_ｔ＝－１：他ロボットが本ロボットのツール３２の近くにあり、かつ、本ロボットが上記２つ以外の結果に至った場合（例えば、他ロボットが本ロボットのツール３２の近くにあり、かつ、ＲＲＴ＊アルゴリズムによる経路の通りに移動できた場合）
・ｒ_ｔ＝２：他ロボットが本ロボットのツール３２から遠くにあり、かつ、本ロボットがＲＲＴ＊アルゴリズムによる経路の通りの移動できた場合
・ｒ_ｔ＝０：他ロボットが本ロボットのツール３２から遠くにあり、かつ、本ロボットがＲＲＴ＊アルゴリズムによる経路を離脱した場合
・ｒ_ｔ＝１：他ロボットが本ロボットのツール３２から遠くにあり、かつ、本ロボットが上記２つ以外の結果に至った場合（例えば、他ロボットが本ロボットのツール３２から遠くにあり、かつ、本ロボットがストップした場合）

本例では、第一のロボット３Ａが本ロボットであり、第二のロボット３Ｂが他ロボットである。他ロボットが近くにあるか遠くにあるかは、距離ｄが所定の距離Ｄ_２以上であるか否かによって判別すればよい。すなわち、距離ｄが距離Ｄ_２以上である場合は遠くにあると判別し、距離Ｄ_２未満である場合は近くにあると判別すればよい。

【0098】

また、ＲＲＴ＊アルゴリズムによる経路は、動作計画部４０２によって得られた本ロボットの経路であって、本例では、第一のロボット３Ａの経路すなわち第一の標準経路５１である。なお、上述の通り、本例では、行動ａに係る移動方向が１３通りしかないので、第一の標準経路５１に完全に一致するようにツール３２Ａが移動することは、稀である。そこで、行動ａによる移動後の位置と第一の標準経路５１とのズレが所定の距離Ｄ_３以下である場合は、ＲＲＴ＊アルゴリズムによる経路（第一の標準経路５１）の通りに移動できたと判別してもよい。

【0099】

そして、テーブル更新部４７４は、次の（１）式に基づいて今回のＱ値（行動評価値）を算出し（＃７０６）、次の（２）式に基づいてルックアップテーブル６０を更新する（＃７０７）。
Ｑ^π(ｓ_ｔ,ａ_ｔ)＝Ｅ_π[Ｒ_ｔ|ｓ_ｔ＝ｓ,ａ_ｔ＝ａ] …… （１）
ただし、

【数1】

である。γは割引率であって、０＜γ＜１、である。ｒ_ｔは、行動ａ_ｔを実行した結果に応じて与えられる報酬である。

【数2】

そして、状態ｓ’が、１３個の監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のいずれかが他ロボット領域と交わる状態であれば、つまり、第一のロボット３Ａが第一の要回避状態であれば（＃７０８でＹｅｓ）、状態ｓ’を状態ｓに設定し（＃７０９）、ステップ＃７０２～＃７０７の各処理を実行する。

【0100】

一方、状態ｓ’が、１３個の監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のいずれも他ロボット領域と交わらない状態であれば、つまり、第一のロボット３Ａが第一の通常状態であれば（＃７０８でＮｏ）、他ロボット領域を回避できた状態すなわち最終状態であると考えられるので（＃７０９）、ステップ＃７０１～＃７０８の一連の処理（エピソード）が終了する。

【0101】

行動決定部４７１ないしテーブル更新部４７４は、終了の要件が満たされない間（＃７１０でＮｏ、エピソードを繰り返し実行する。終了の要件が満たされたら（＃７１０でＹｅｓ）、今回の機械学習を終了する。終了の要件は、例えば、エピソードの実行回数が所定の回数に達することである。または、ルックアップテーブル６０の中の、ステップ＃７０１において状態ｓとして設定した接近状態（第一のロボット３Ａが第一の要回避状態になった時点の接近状態）に対応する各Ｑ値が、一定程度または完全に収束することである。

【0102】

最適経路推論部４０８は、機械学習部４０７による機械学習が終了すると、最適な行動すなわちツール３２Ａの最適な移動方向をルックアップテーブル６０に基づいて推論する。具体的には、２^１３通りの接近状態のうち現在の接近状態に対応する行をルックアップテーブル６０の中から検索し、その行に示される１３個のＱ値のうち最も大きいＱ値に対応する行動を特定する。特定した行動に係る方向が最適な移動方向であると推論される。

【0103】

そして、ロボット制御部４０４は、最適経路推論部４０８によって推論された最適な方向へ距離Ｄ_４だけツール３２Ａが移動するように第一のロボット３Ａを制御する。

【0104】

移動後、第一のロボット３Ａが第一の要回避状態であると状態判別部４０５によって判別されたら、上述の方法で、機械学習部４０７によって機械学習が行われ、最適経路推論部４０８によってツール３２Ａの最適な移動方向が推論される。そして、ロボット制御部４０４は、推論された最適な方向へ距離Ｄ_４だけツール３２Ａが移動するように第一のロボット３Ａを制御する。

【0105】

一方、第一のロボット３Ａが第一の通常状態であると判別されたら、ロボット制御部４０４は、ツール３２Ａが第一の標準経路５１へ戻って第一の標準経路５１に沿って移動するように第一のロボット３Ａを制御する。ただし、第一の標準経路５１へ戻る途中でまたは戻った後に、第一の要回避状態であると再び判別されたら、機械学習部４０７および最適経路推論部４０８によって上述の処理が行われ、推論された最適な方向へ距離Ｄ_４だけツール３２Ａが移動するように第一のロボット３Ａが制御される。

【0106】

このように、サーバ２は、第一のロボット３Ａが第一の通常状態であれば第一の標準経路５１に沿ってツール３２Ａが移動するように第一のロボット３Ａを制御する。一方、第一の要回避状態であれば機械学習を行い最適な移動方向を推論し、推論した移動方向へツール３２Ａが移動するように第一のロボット３Ａを制御する。

【0107】

そして、第一のロボット３Ａが目標姿勢に達すると、ロボット制御部４０４は、ワークへの加工などをツール３２Ａに行わせる。

【0108】

なお、ルックアップテーブル６０は、１回の機械学習が行われると、２^１３通りの状態のうちの一部分の状態に係るＱ値が主に改善（更新）される。つまり、機械学習を行うごとに、徐々にルックアップテーブル６０が全体的に完成していく。

【0109】

また、ステップ＃７０１において状態ｓとして設定した接近状態の各Ｑ値が一定程度に収束しまたは完全に収束するまでエピソードを繰り返し実行する場合は、機械学習の回数が増えるに連れて徐々に他の接近状態の各Ｑ値の収束しやすくなり、１回の機械学習における処理数が減る。よって、機械学習に要する時間が短くなる。最終的には、機械学習を経ずにルックアップテーブル６０に基づいて推論することができるようになる。

【0110】

状態判別部４０５によって判別された接近状態の各Ｑ値がルックアップテーブル６０において既に収束していれば（つまり、学習済であれば）、機械学習部４０７による機械学習の処理をスキップし、最適経路推論部４０８が最適な移動方向を推論してもよい。

【0111】

機械学習部４０７および最適経路推論部４０８は、同様の方法で機械学習を行うことによって第二のロボット３Ｂのためのルックアップテーブルを改善（更新）し、そのルックアップテーブルに基づいてツール３２Ｂの最適な移動方向を推論する。そして、ロボット制御部４０４は、推論された移動方向へツール３２Ｂが移動するように第二のロボット３Ｂを制御する。

【0112】

〔４．全体的な処理の流れおよび本実施形態による効果〕
図１３は、動作計画プログラム４０のよる全体的な処理の流れの例を説明するフローチャートである。

【0113】

次に、動作計画プログラム４０によるサーバ２の全体的な処理の流れを、第一のロボット３Ａおよび第二のロボット３Ｂを制御する場合を例に、フローチャートを参照しながら説明する。サーバ２は、動作計画プログラム４０に基づいて、図１３に示す手順で処理を実行する。

【0114】

サーバ２は、第一のロボット３Ａおよび第二のロボット３Ｂそれぞれの第一の標準経路５１および第二の標準経路５２をＲＲＴ＊アルゴリズムによって生成する（図１３の＃１０１）。

【0115】

サーバ２は、第一のロボット３Ａおよび第二のロボット３Ｂそれぞれの状態を監視し始めるとともに、第一のロボット３Ａが第一の要回避状態である間は、どのような接近状態であるかを判別し、第二のロボット３Ｂが第二の要回避状態である間は、どのような接近状態であるかを判別する（＃１０２）。

【0116】

第一のロボット３Ａが第一の通常状態であれば（＃１０３でＹｅｓ）、サーバ２は、第一の標準経路５１に沿ってツール３２Ａが移動するように第一のロボット３Ａを制御する（＃１０４）。なお、後述のステップ＃１０８の処理の結果、第一の通常状態に戻った場合は、ツール３２Ａが第一の標準経路５１へ戻るように第一のロボット３Ａを制御する。

【0117】

同様に、第二のロボット３Ｂが第二の通常状態であれば（＃１０３でＹｅｓ）、サーバ２は、第一の標準経路５１に沿ってツール３２Ａが移動するように第一のロボット３Ａを制御する（＃１０４）。

【0118】

一方、第一のロボット３Ａが第一の要回避状態であれば（＃１０３でＮｏ）、サーバ２は、現時点における接近状態に対応するＱ値がルックアップテーブル６０において改善済すなわち学習済でなければ（＃１０５でＮｏ）、機械学習を行うことによってこれらのＱ値を改善する（＃１０６）。機械学習の方法は、図１２で説明した通りである。学習済であれば（＃１０５でＹｅｓ）、ステップ＃１０６をスキップする。

【0119】

そして、サーバ２は、ルックアップテーブル６０に基づいて最適な進行方向を推論し（＃１０７）、推論した方向へツール３２Ａが距離Ｄ_４だけ移動するように第一のロボット３Ａを制御する（＃１０８）。

【0120】

サーバ２は、第二のロボット３Ｂが第二の要回避状態である場合も同様に、第一のロボット３Ａが第一の要回避状態である場合と同様の処理を行う（＃１０５～＃１０８）。

【0121】

サーバ２は、第一のロボット３Ａの状態に応じてステップ＃１０４の処理およびステップ＃１０５～＃１０８の処理を選択的に実行する。同様に、第二のロボット３Ｂの状態に応じてステップ＃１０４の処理およびステップ＃１０５～＃１０８の処理を選択的に実行する。

【0122】

そして、第一のロボット３Ａが目標姿勢になったら（＃１０９でＹｅｓ）、必要に応じて加工などを第一のロボット３Ａに行わせ、第一のロボット３Ａの制御を終了する。同様に、第二のロボット３Ｂが目標姿勢になったら（＃１０９でＹｅｓ）、必要に応じて加工などを第二のロボット３Ｂに行わせ、第二のロボット３Ｂの制御を終了する。

【0123】

本実施形態によると、ルックアップテーブル６０に基づいて推論される最適な進行方向に従って第一のロボット３Ａまたは第二のロボット３Ｂを制御するので、第一のロボット３Ａと第二のロボット３Ｂとの衝突を従来よりも柔軟に回避することができる。

【0124】

〔５．変形例および応用例〕
本実施形態では、Ｑ学習アルゴリズムによってルックアップテーブル６０をモデルとして用意したが、他の強化学習アルゴリズムによって他のモデルを用意してもよい。例えば、深層強化学習アルゴリズムによってディープニューラルネットワークをモデルとして生成してもよい。

【0125】

本実施形態では、第一のロボット３Ａおよび第二のロボット３Ｂが所定の位置に設置されていたが、少なくともいずれか一方が移動する場合にも、本発明を適用することができる。

【0126】

本実施形態では、第一のロボット３Ａおよび第二のロボット３Ｂの両方を、衝突が回避されるように制御したが、いずれか一方のみを制御してもよい。または、アームを有するロボット以外の動的な物体（例えば、ベルトコンベア上のワーク、自動運転される運搬用ワゴン、ドローン、人間など）との衝突を回避するようにロボット３を制御してもよい。

【0127】

本実施形態では、ロボット３が２台、作業空間１０に存在する場合を例に説明したが、３台以上存在する場合にも、本発明を適用することができる。

【0128】

ルックアップテーブル６０をサーバ２から他のコンピュータへ出力し、他のコンピュータにおいて複数台のロボットを互いに衝突しないように制御するために使用してもよい。

【0129】

本実施形態では、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}の形状が球であったが、他の形状であってもよい。例えば、正六角柱であってもよい。また、監視領域の個数は、１３個よりも少なくてもよいし、多くてもよい。また、監視領域を、ロボット３のツール３２以外の部位に設けてもよい。

【0130】

本実施形態では、ルックアップテーブル６０において、状態として２^１３通りの接近状態を用いた。つまり、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のそれぞれが他ロボット領域に交わっているか否かの状態を用いた。しかし、他の状態を用いてもよい。

【0131】

例えば、監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のそれぞれが他ロボット領域に交わっているか否かの第一の状態と、次の時刻において監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のそれぞれが他ロボット領域に交わっているか否かの第二の状態と、次の時刻において監視領域Ｍ_{１_Ａ}～Ｍ_{１３_Ａ}のうち第一の標準経路５１に最も近い監視領域の識別子と、を組み合わせたものを用いてもよい。この場合は、第一の状態を表わすために１３ビットが必要であり、第二の状態を表わすために１３ビットが必要であり、識別子を表わすために４ビットが必要である。したがって、全部で３０ビットが必要である。よって、ルックアップテーブル６０には、２^３０通りの状態それぞれについて、１３通りの行動のＱ値が含まれる。

【0132】

この場合に、最適経路推論部４０８は、これらの第一の状態、第二の状態、および識別子を取得し、最適な行動を推論する。

【0133】

本実施形態では、報酬算出部４７３は、上述の報酬規定に基づいて報酬ｒ_ｔを算出したが、他の報酬規定に基づいて算出してもよい。例えば、上述の報酬規定に、さらに、本ロボットが他ロボットに衝突する場合に「－１０」を報酬として与える、という条件を加えてもよい。

【0134】

本実施形態では、機械学習部４０７は、他ロボット領域を回避できたことをエピソードが終了する条件として用いたが（図１２の＃７１０参照）、さらに、ツール３２が他ロボット領域と重なったことも終了する条件として用いてもよい。

【0135】

本実施形態では、状態判別部４０５は、第一の通常状態であるか第一の要回避状態であるか、および、接近状態のタイプを、シミュレーションの結果に基づいて判別したが、ツール３２Ａに近接センサを備えておき、近接センサによる検出結果に基づいて判別してもよい。または、外部、あるいはロボットアーム自体に取り付けたカメラ画像の情報をもとに状態空間を定義し、衝突回避を判別してもよい。

【0136】

本実施形態では、ロボット３が６軸ロボットである場合を例に説明したが、７軸以上の多関節ロボットである場合または双腕型ロボットである場合にも、本発明を適用することができる。

【0137】

その他、ロボットシステム１、サーバ２、ロボット３の全体または各部の構成、処理の内容、処理の順序などは、本発明の趣旨に沿って適宜変更することができる。

【符号の説明】

【0138】

２サーバ（ロボット制御システム）
３ロボット
３１１第一のアーム（移動対象、アーム）
３１２第二のアーム（移動対象、アーム）
３１３第三のアーム（移動対象、アーム）
３１４第四のアーム（移動対象、アーム）
３１５第五のアーム（移動対象、アーム）
３２ツール（移動対象）
３Ａ第一のロボット（ロボット）
３Ｂ第二のロボット（ロボット、物体、第二のロボット）
４０４ロボット制御部（制御手段）
４０５状態判別部（判別手段）
４０７機械学習部（学習手段）
４０８最適経路推論部（推論手段）
５１第一の標準経路（経路）
５２第二の標準経路（第二の経路）
６０ルックアップテーブル（モデル）
Ｍ_{１_Ａ}～Ｍ_{１２_Ａ} 監視領域（所定の領域、第二の領域）
Ｍ_{１３_Ａ} 監視領域（所定の領域、第一の領域）

【図1】