(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024155611
(43)【公開日】2024-10-31
(54)【発明の名称】経路計画装置、方法、プログラム、及び移動制御システム
(51)【国際特許分類】
G05D 1/43 20240101AFI20241024BHJP
【FI】
G05D1/02 H
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023070470
(22)【出願日】2023-04-21
(71)【出願人】
【識別番号】000002945
【氏名又は名称】オムロン株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】本田 康平
(72)【発明者】
【氏名】米谷 竜
(72)【発明者】
【氏名】黒瀬(西村) 真衣
【テーマコード(参考)】
5H301
【Fターム(参考)】
5H301AA01
5H301AA06
5H301AA10
5H301BB05
5H301CC03
5H301CC06
(57)【要約】
【課題】適切なタイミングでゴール地点までの低コスト経路を再度算出する。
【解決手段】経路計画装置は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、
を含む経路計画装置。
【請求項2】
過去のスタート地点からゴール地点までの移動履歴データであって、かつ、毎時刻における前記センサ情報、前記移動体の軌跡、毎時刻における前記低コスト経路、及び前記ゴール地点を含む移動履歴データから、強化学習により前記判断モデルを学習する学習部を更に含む請求項1記載の経路計画装置。
【請求項3】
前記強化学習における報酬は、ゴール地点まで到達したか否か、又は前記ゴール地点までの到達時間に基づいて定められる請求項2記載の経路計画装置。
【請求項4】
前記移動履歴データは、前記移動体と同じ移動体について得られたものである請求項2又は3記載の経路計画装置。
【請求項5】
前記移動履歴データは、前記移動体とは異なる移動体について得られたものである請求項2又は3記載の経路計画装置。
【請求項6】
前記移動履歴データは、前記移動体の移動に関するシミュレーションにより得られたものである請求項2又は3記載の経路計画装置。
【請求項7】
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出し、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定し、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得し、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶部に記憶し、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記低コスト経路を再度算出するタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記低コスト経路を再度算出するか否かを判断し、
前記低コスト経路を再度算出すると判断された場合に、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する
ことを含む処理をコンピュータが実行する経路計画方法。
【請求項8】
コンピュータを、
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部、及び
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部
として機能させるための経路計画プログラム。
【請求項9】
制御装置と、移動体とを含む移動制御システムであって、
前記制御装置は、
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、
毎時刻指定された移動体の速度又は角速度を前記移動体に通知する通信部と、を含み、
前記移動体は、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を前記制御装置へ通知し、
通知された前記移動体の速度又は角速度に従って移動する、
移動制御システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、経路計画装置、経路計画方法、経路計画プログラム、及び移動制御システムに関する。
【背景技術】
【0002】
従来、自律移動の実装で一般に用いられるROS Navigation Stackでは、障害物からの距離やロボットの停止時間といった情報からヒューリスティックに「ロボットが先に進めなくなっている」という状態を定義し、それに基づいて経路の再計画を実施することになる。あるいは、1Hzなど適当な周期で経路の再計画を行うこともある。
【0003】
また、「グローバルプランニング(グーバル計画)された経路上で次にどこに向かうべきか」という中継地点を、観測された障害物情報から算出する機械学習モデルを学習する手法がある(例えば非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】K▲a▼stner et al., “Connecting Deep-Reinforcement-Learning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators” https://arxiv.org/pdf/2104.03663.pdf
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記のROS Navigation Stackでは、これらのヒューリスティックなルールがゴール到達確率や所要時間を最適にする保証は全くない。
【0006】
また、上記非特許文献1に記載の手法では、経路自体として、既知の障害物マップから算出したものを利用し続けるため、「新たな障害物が発生して経路の途中が通行止めになってしまっている」というケースに対して、経路の再計画による迂回経路の発見といった対応をすることができない。
【0007】
本開示は、上記の点に鑑みてなされたものであり、適切なタイミングでゴール地点までの低コスト経路を再度算出することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本開示に係る経路計画装置は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、を含んで構成される。ここで、低コスト経路とは、計算しうる経路のうち、移動距離が最短となる経路、移動時間が最短となる経路、移動エネルギーが最少となる経路、移動不能となるリスクの低い経路を含み得る。
【0009】
また、本開示に係る経路計画方法は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出し、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定し、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得し、前記センサ情報の時系列、及び前記移動体の軌跡を記憶部に記憶し、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記低コスト経路を再度算出するタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記低コスト経路を再度算出するか否かを判断し、前記低コスト経路を再度算出すると判断された場合に、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出することを含む処理をコンピュータが実行する。
【0010】
また、本開示に係る経路計画プログラムは、コンピュータを、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部、及び前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部として機能させる。
【0011】
また、本開示に係る移動制御システムは、制御装置と、移動体とを含み、前記制御装置は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、毎時刻指定された移動体の速度又は角速度を前記移動体に通知する通信部と、を含み、前記移動体は、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を前記制御装置へ通知し、通知された前記移動体の速度又は角速度に従って移動する。
【発明の効果】
【0012】
本開示に係る経路計画装置、方法、プログラム、及び移動制御システムによれば、適切なタイミングでゴール地点までの低コスト経路を再度算出することができる。
【図面の簡単な説明】
【0013】
【
図1】移動制御システムの概略構成を示すブロック図である。
【
図2】制御装置のハードウェア構成を示すブロック図である。
【
図3B】センサ情報から認識された障害物を追加した地図の一例を示す図である。
【
図4】経路計画処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法及び比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0015】
<本開示の実施形態の概要>
本開示の実施形態では、センサ情報の時系列、及びエージェントの軌跡に基づいて、低コスト経路を再度算出するタイミングであるかを判断する。
【0016】
自動運転車両や自律移動ロボット、自律飛行ドローンなど、ある地点から別の地点まで、障害物に衝突することなく速く安全に自律移動する必要のある移動体全般に、本開示の技術を応用可能である。とりわけ長距離の移動や障害物の多い環境での移動においては、低コスト経路の算出のためグローバルプランニングの利用が前提となる。一方で、歩行者や椅子・扉など未知・動的な障害物がある環境では、それらの障害物を回避するための経路の再計画が必須となる。この経路の再計画をどのようなタイミングで行うかという判断ルールは、環境や利用しているグローバル計画及びローカル計画の種類に応じて、詳細なパラメタ設定を含む作り込みを、設計者が行う必要があり、多大な時間を要する。
【0017】
そこで、本開示の技術により、経路の再計画のタイミングを判断する判断モデルを、強化学習により学習する。エージェント自身が自律的に判断モデルを獲得できるようになるため、上記の判断ルールの作り込みにかかる人的コストが不要となる。
【0018】
<移動制御システムの構成>
図1に示すように、本実施形態に係る移動制御システム100は、制御装置10と、エージェント50とを含む。
【0019】
エージェント50は、例えば、自動交差点管理における自動運転車両、倉庫や工場内のAMR(Autonomous Mobile Robot)やAGV(Automatic Guided Vehicle)、無人配送システムにおけるドローン等である。エージェント50は、走行、飛行等を行うための移動機構と、制御装置10と通信を行うための通信機構と、計画された経路にしたがって移動するように移動機構を制御する移動制御機構とを有する。なお、エージェントは、移動体の一例である。
【0020】
図2は、制御装置10のハードウェア構成を示すブロック図である。
図2に示すように、制御装置10は、CPU(Central Processing Unit)32、メモリ34、記憶装置36、入力装置38、出力装置40、記憶媒体読取装置42、及び通信I/F(Interface)44を有するコンピュータである。各構成は、バス46を介して相互に通信可能に接続されている。
【0021】
記憶装置36には、経路計画処理を実行するための経路計画プログラムが格納されている。CPU32は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、CPU32は、記憶装置36からプログラムを読み出し、メモリ34を作業領域としてプログラムを実行する。CPU32は、記憶装置36に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。
【0022】
メモリ34は、RAM(Random Access Memory)により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置36は、ROM(Read Only Memory)、及びHDD(Hard Disk Drive)、SSD(Solid State Drive)等により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
【0023】
入力装置38は、例えば、キーボードやマウス等の、各種の入力を行うための装置である。出力装置40は、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための装置である。出力装置40として、タッチパネルディスプレイを採用することにより、入力装置38として機能させてもよい。
【0024】
記憶媒体読取装置42は、CD(Compact Disc)-ROM、DVD(Digital Versatile Disc)-ROM、ブルーレイディスク、USB(Universal Serial Bus)メモリ等の各種記憶媒体に記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。通信I/F44は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
【0025】
制御装置10は、
図1に示すように、機能的には、経路計画部20と、通信部30とを含む。経路計画部20は、さらに、グローバル計画部21と、ローカル計画部22と、センシング部23と、再計画部24と、記憶部25と、タイミング判断部26と、学習部27とを含む。なお、経路計画部20は、本開示の経路計画装置の一例である。各機能構成は、CPU32が記憶装置36に記憶された経路計画プログラムを読み出し、メモリ34に展開して実行することにより実現される。
【0026】
グローバル計画部21は、予め構築された障害物の位置を含む地図に基づいて、障害物に衝突しない経路であって、かつ、スタート地点からゴール地点までの低コスト経路を算出する。
【0027】
本実施形態では、
図3Aに示すように、地図において、静的な障害物(黒塗りの矩形)の位置が定められており、この地図に基づいて、スタート地点からゴール地点までの低コスト経路を計画する。
図3Aの例では、矢印で示すスタート地点から、白抜きの丸印で示すゴール地点までの低コスト経路が、実線で示されている。
【0028】
ローカル計画部22は、計画された低コスト経路を追従するためのエージェント50の速度及び角速度を毎時刻指定する。
【0029】
センシング部23は、毎時刻におけるエージェント50の周囲の障害物を計測したセンサ情報を取得する。具体的には、毎時刻、エージェント50に設けられたセンサによって、エージェント50の周囲の障害物を計測したセンサ情報が、エージェント50から制御装置10に送信され、センシング部23は、受信した毎時刻におけるセンサ情報を取得する。
【0030】
再計画部24は、タイミング判断部26によって再計画部24による算出を行うタイミングであると判断された場合に、地図及びセンシング部23による計測結果に基づいて、ゴール地点までの低コスト経路を再度算出する。
【0031】
本実施形態では、
図3Bに示すように、地図において予め定められた、静的な障害物(黒塗りの矩形)の位置と、センシング部23による計測結果に基づいて認識された、動的な障害物(黒塗りの円)の位置とに基づいて、障害物に衝突しない経路であって、かつ、スタート地点からゴール地点までの低コスト経路を再度計画する。
【0032】
記憶部25は、センサ情報の時系列、及びエージェント50の軌跡を記憶する。具体的には、センサ情報の時系列は、センシング部23によって取得した、現時刻までの毎時刻におけるセンサ情報を含む。また、エージェント50の軌跡は、現時刻までの毎時刻におけるエージェント50の位置を示している。
【0033】
タイミング判断部26は、センサ情報の時系列、エージェント50の軌跡、低コスト経路、及びゴール地点に基づいて、再計画部24による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、再計画部24による算出を行うタイミングであるか否かを判断する。
【0034】
具体的には、学習部27によって学習された、判断モデルとしての方策πを用いて、現時刻tまでのセンサ情報の時系列、現時刻tまでのエージェント50の軌跡、最新の低コスト経路、及びゴール地点を含む状態stに対して、再計画部24による算出を行うタイミングであるか否かを示す行動atを決定する。
【0035】
学習部27は、過去のスタート地点からゴール地点までの移動履歴データであって、毎時刻におけるセンサ情報、エージェント50の軌跡、毎時刻における低コスト経路、及びゴール地点を含む移動履歴データから、強化学習により、判断モデルとしての方策を学習する。
【0036】
強化学習における報酬は、移動履歴データにおいて、ゴール地点まで到達したか否か、又はゴール地点までの到達時間に基づいて定められる。
【0037】
以下、強化学習に関して説明する。強化学習は、環境の中での試行錯誤を通じて最適な行動を学習する手法である。強化学習において、教師データの代わりになるのが報酬である。累積報酬Gtは、報酬の割引率をγ、各時刻での報酬をRtとして、以下の式に示されるように定義される。なお、tは時刻を表す。
【0038】
【0039】
なお、E(st,at)~π[・]は、方策πの下で、状態stにおいて行動atを選択することの期待値を表す。
【0040】
方策πを学習する方法としては、一例として、DQN(Deep Q-Network)のアルゴリズムが挙げられる(非特許文献2)。
【0041】
[非特許文献2]V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al., “Human-level control through deep reinforcement learning,” nature, vol. 518, no. 7540, pp. 529-533, 2015.
【0042】
本実施形態では、現時刻tまでのセンサ情報の時系列、現時刻tまでのエージェント50の軌跡、最新の低コスト経路、及びゴール地点の組み合わせを状態stとし、その状態stと方策πとに応じた、再計画部24による算出を行うタイミングであるか否かを行動atとする。
【0043】
通信部30は、毎時刻指定されたエージェント50の速度及び角速度を、エージェント50に通知する。
【0044】
また、通信部30は、エージェント50から通知された、毎時刻におけるエージェント50の周囲の障害物を計測したセンサ情報を受信する。
【0045】
<移動制御システムの作用>
次に、本実施形態に係る移動制御システム100の作用について説明する。
【0046】
図4は、制御装置10のCPU32により実行される経路計画処理の流れを示すフローチャートである。CPU32が記憶装置36から経路計画プログラムを読み出して、メモリ34に展開して実行することにより、CPU32が制御装置10の各機能構成として機能し、
図4に示す経路計画処理が実行される。ここで、地図、スタート地点、及びゴール地点が、制御装置10に入力されており、エージェント50から、毎時刻のセンサ情報が通知されるものとする。また、判断モデルとしての方策πが、初期設定されているものとする。なお、経路計画処理は、経路計画方法の一例である。
【0047】
ステップS100で、グローバル計画部21は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出する。
【0048】
次に、ステップS102で、ローカル計画部22は、計画された低コスト経路を追従するためのエージェント50の現時刻の速度及び角速度を指定する。そして、通信部30が、エージェント50に、現時刻の速度及び角速度を通知する。
【0049】
次に、ステップS104で、センシング部23は、通信部30により受信した、エージェント50の周囲の障害物を計測したセンサ情報を取得する。
【0050】
次に、ステップS106で、記憶部25に、現時刻までのセンサ情報の時系列、及びエージェント50の軌跡を記憶させる。
【0051】
次に、ステップS108で、タイミング判断部26は、センサ情報の時系列、エージェント50の軌跡、低コスト経路、及びゴール地点に基づいて、判断モデルとしての方策πを用いて、再計画部24による算出を行うタイミングであるか否かを判断する。
【0052】
次に、ステップS110で、上記ステップS108において再計画部24による算出を行うタイミングであると判断されたか否かを判定する。再計画部24による算出を行うタイミングであると判断された場合には、ステップS112へ移行する。一方、再計画部24による算出を行うタイミングでないと判断された場合には、上記ステップS102へ戻る。
【0053】
次に、ステップS112で、再計画部24は、地図及びセンシング部23による計測結果に基づいて、ゴール地点までの低コスト経路を再度算出し、ステップS102へ戻る。
【0054】
エージェント50がゴール地点に到達すると、経路計画処理を終了する。そして、学習部27は、ゴール地点までの移動履歴データに基づいて、強化学習により、判断モデルとしての方策πを学習する。強化学習における報酬は、当該移動履歴データにおいて、ゴール地点まで到達したか否か、又はゴール地点までの到達時間に基づいて定められる。
【0055】
再び、エージェント50がスタート地点からゴール地点へ移動する際に、制御装置10は、経路計画処理を実行する。この際に、学習された判断モデルとしての方策πを用いる。
【0056】
以上説明したように、本実施形態に係る移動制御システムは、センサ情報の時系列、エージェントの軌跡、低コスト経路、及びゴール地点に基づいて、低コスト経路を再度算出するタイミングであるか否かを判断するための予め学習された判断モデルを用いて、低コスト経路を再度算出するか否かを判断する。これにより、適切なタイミングでゴール地点までの低コスト経路を再度算出することができる。
【0057】
また、過去のスタート地点からゴール地点までの移動履歴データであって、かつ、毎時刻におけるセンサ情報、エージェントの軌跡、毎時刻における低コスト経路、及びゴール地点を含む移動履歴データから、強化学習により判断モデルとしての方策を学習する。これにより、エージェントが自律獲得した移動履歴データに基づいて、低コスト経路を再度計画する適切なタイミングを学習することができる。特に、障害物に衝突することなく制限時間内にゴール地点に到達できる確率の最大化、およびゴール地点への到達にかかった時間の最小化を達成するような、低コスト経路を再度計画するタイミングを判断する判断モデルを、移動履歴データから学習することができる。
【0058】
また、本開示の手法は、エージェントとして自律移動ロボットに応用が可能である。この場合、自律移動ロボットがおかれた未知の環境において、ロボットが自身の試行錯誤において、低コスト経路を再度計画する最適なタイミングを判断する判断モデルを自律的に獲得でき、設計者による時間のかかるルールの作りこみや試行錯誤が不要になる。
【0059】
また、グローバル計画部やローカル計画部において、既存の手法を用いることができる。
【0060】
なお、上記実施形態では、エージェント50自身の移動履歴データであって、同じ移動環境での移動履歴データに基づいて、判断モデルを学習する場合を例に説明したが、これに限定されるものではない。エージェント50自身の移動履歴データであって、異なる移動環境での移動履歴データに基づいて、判断モデルを学習するようにしてもよい。
【0061】
また、他のエージェントに移動により得られた移動履歴データを用いて、判断モデルを学習するようにしてもよい。また、エージェントの移動に関するシミュレーションにより得られた移動履歴データを用いて、判断モデルを学習するようにしてもよい。
【0062】
また、上記実施形態では、エージェントとは別の制御装置において、経路計画処理を実行する場合を例に説明したが、これに限定されるものではない。エージェントに搭載されている制御装置において、経路計画処理を実行するようにしてもよい。
【0063】
また、エージェントが2次元環境を移動する場合を想定して説明したが、これに限定されない。ドローンの飛行経路のように、3次元環境における交差領域にも応用することができる。
【0064】
本開示の具体的な適用例として、工場、オフィス、倉庫内の物流のための自律移動ロボット、レストランの自動配膳ロボットが挙げられる。レストランの自動配膳ロボットの場合、予め構築された障害物は、テーブルやパーティションである。また、新たに発生する障害物は、人や、動かされた椅子である。レストランにおいて、人が混雑する場所では障害物に出会う機会が多いため再計画の頻度は高く、広い通路では障害物に出会う機会が少ないため再計画の頻度は低くなる。その結果、低コスト経路を選択できることになる。また、客が多い時間帯、少ない時間帯というように時間帯に区切って再計画の頻度を変更できるようにしてもよい。
【0065】
また、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した経路計画処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、経路計画処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0066】
また、上記実施形態では、経路計画プログラムが記憶装置に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM、DVD-ROM、ブルーレイディスク、USBメモリ等の記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0067】
以下に、本開示に関する付記項を記載する。
【0068】
(付記項1)
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、
を含む経路計画装置。
【0069】
(付記項2)
過去のスタート地点からゴール地点までの移動履歴データであって、かつ、毎時刻における前記センサ情報、前記移動体の軌跡、毎時刻における前記低コスト経路、及び前記ゴール地点を含む移動履歴データから、強化学習により前記判断モデルを学習する学習部を更に含む付記項1記載の経路計画装置。
【0070】
(付記項3)
前記強化学習における報酬は、ゴール地点まで到達したか否か、又は前記ゴール地点までの到達時間に基づいて定められる付記項2記載の経路計画装置。
【0071】
(付記項4)
前記移動履歴データは、前記移動体と同じ移動体について得られたものである付記項2又は3記載の経路計画装置。
【0072】
(付記項5)
前記移動履歴データは、前記移動体とは異なる移動体について得られたものである付記項2又は3記載の経路計画装置。
【0073】
(付記項6)
前記移動履歴データは、前記移動体の移動に関するシミュレーションにより得られたものである付記項2又は3記載の経路計画装置。
【符号の説明】
【0074】
100 移動制御システム
10 制御装置
20 経路計画部
21 グローバル計画部
22 ローカル計画部
23 センシング部
24 再計画部
25 記憶部
26 タイミング判断部
27 学習部
30 通信部
32 CPU
34 メモリ
36 記憶装置
38 入力装置
40 出力装置
42 記憶媒体読取装置
44 通信I/F
46 バス
50 エージェント