特開2024-155611 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特開2024-155611経路計画装置、方法、プログラム、及び移動制御システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024155611

(43)【公開日】2024-10-31

(54)【発明の名称】経路計画装置、方法、プログラム、及び移動制御システム

(51)【国際特許分類】

G05D 1/43 20240101AFI20241024BHJP

【ＦＩ】

G05D1/02 H

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023070470

(22)【出願日】2023-04-21

(71)【出願人】

【識別番号】000002945

【氏名又は名称】オムロン株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】本田康平

(72)【発明者】

【氏名】米谷竜

(72)【発明者】

【氏名】黒瀬（西村）真衣

【テーマコード（参考）】

5H301

【Ｆターム（参考）】

5H301AA01

5H301AA06

5H301AA10

5H301BB05

5H301CC03

5H301CC06

(57)【要約】

【課題】適切なタイミングでゴール地点までの低コスト経路を再度算出する。
【解決手段】経路計画装置は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、
を含む経路計画装置。

【請求項2】

過去のスタート地点からゴール地点までの移動履歴データであって、かつ、毎時刻における前記センサ情報、前記移動体の軌跡、毎時刻における前記低コスト経路、及び前記ゴール地点を含む移動履歴データから、強化学習により前記判断モデルを学習する学習部を更に含む請求項１記載の経路計画装置。

【請求項3】

前記強化学習における報酬は、ゴール地点まで到達したか否か、又は前記ゴール地点までの到達時間に基づいて定められる請求項２記載の経路計画装置。

【請求項4】

前記移動履歴データは、前記移動体と同じ移動体について得られたものである請求項２又は３記載の経路計画装置。

【請求項5】

前記移動履歴データは、前記移動体とは異なる移動体について得られたものである請求項２又は３記載の経路計画装置。

【請求項6】

前記移動履歴データは、前記移動体の移動に関するシミュレーションにより得られたものである請求項２又は３記載の経路計画装置。

【請求項7】

予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出し、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定し、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得し、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶部に記憶し、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記低コスト経路を再度算出するタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記低コスト経路を再度算出するか否かを判断し、
前記低コスト経路を再度算出すると判断された場合に、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する
ことを含む処理をコンピュータが実行する経路計画方法。

【請求項8】

コンピュータを、
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部、及び
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部
として機能させるための経路計画プログラム。

【請求項9】

制御装置と、移動体とを含む移動制御システムであって、
前記制御装置は、
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、
毎時刻指定された移動体の速度又は角速度を前記移動体に通知する通信部と、を含み、
前記移動体は、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を前記制御装置へ通知し、
通知された前記移動体の速度又は角速度に従って移動する、
移動制御システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、経路計画装置、経路計画方法、経路計画プログラム、及び移動制御システムに関する。

【背景技術】

【0002】

従来、自律移動の実装で一般に用いられるＲＯＳＮａｖｉｇａｔｉｏｎＳｔａｃｋでは、障害物からの距離やロボットの停止時間といった情報からヒューリスティックに「ロボットが先に進めなくなっている」という状態を定義し、それに基づいて経路の再計画を実施することになる。あるいは、１Ｈｚなど適当な周期で経路の再計画を行うこともある。

【0003】

また、「グローバルプランニング（グーバル計画）された経路上で次にどこに向かうべきか」という中継地点を、観測された障害物情報から算出する機械学習モデルを学習する手法がある（例えば非特許文献１）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】K▲a▼stner et al., “Connecting Deep-Reinforcement-Learning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators” https://arxiv.org/pdf/2104.03663.pdf

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記のＲＯＳＮａｖｉｇａｔｉｏｎＳｔａｃｋでは、これらのヒューリスティックなルールがゴール到達確率や所要時間を最適にする保証は全くない。

【0006】

また、上記非特許文献１に記載の手法では、経路自体として、既知の障害物マップから算出したものを利用し続けるため、「新たな障害物が発生して経路の途中が通行止めになってしまっている」というケースに対して、経路の再計画による迂回経路の発見といった対応をすることができない。

【0007】

本開示は、上記の点に鑑みてなされたものであり、適切なタイミングでゴール地点までの低コスト経路を再度算出することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本開示に係る経路計画装置は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、を含んで構成される。ここで、低コスト経路とは、計算しうる経路のうち、移動距離が最短となる経路、移動時間が最短となる経路、移動エネルギーが最少となる経路、移動不能となるリスクの低い経路を含み得る。

【0009】

また、本開示に係る経路計画方法は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出し、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定し、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得し、前記センサ情報の時系列、及び前記移動体の軌跡を記憶部に記憶し、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記低コスト経路を再度算出するタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記低コスト経路を再度算出するか否かを判断し、前記低コスト経路を再度算出すると判断された場合に、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出することを含む処理をコンピュータが実行する。

【0010】

また、本開示に係る経路計画プログラムは、コンピュータを、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部、及び前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部として機能させる。

【0011】

また、本開示に係る移動制御システムは、制御装置と、移動体とを含み、前記制御装置は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、毎時刻指定された移動体の速度又は角速度を前記移動体に通知する通信部と、を含み、前記移動体は、毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を前記制御装置へ通知し、通知された前記移動体の速度又は角速度に従って移動する。

【発明の効果】

【0012】

本開示に係る経路計画装置、方法、プログラム、及び移動制御システムによれば、適切なタイミングでゴール地点までの低コスト経路を再度算出することができる。

【図面の簡単な説明】

【0013】

【図1】移動制御システムの概略構成を示すブロック図である。

【図2】制御装置のハードウェア構成を示すブロック図である。

【図3A】地図の一例を示す図である。

【図3B】センサ情報から認識された障害物を追加した地図の一例を示す図である。

【図4】経路計画処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法及び比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

【0015】

＜本開示の実施形態の概要＞
本開示の実施形態では、センサ情報の時系列、及びエージェントの軌跡に基づいて、低コスト経路を再度算出するタイミングであるかを判断する。

【0016】

自動運転車両や自律移動ロボット、自律飛行ドローンなど、ある地点から別の地点まで、障害物に衝突することなく速く安全に自律移動する必要のある移動体全般に、本開示の技術を応用可能である。とりわけ長距離の移動や障害物の多い環境での移動においては、低コスト経路の算出のためグローバルプランニングの利用が前提となる。一方で、歩行者や椅子・扉など未知・動的な障害物がある環境では、それらの障害物を回避するための経路の再計画が必須となる。この経路の再計画をどのようなタイミングで行うかという判断ルールは、環境や利用しているグローバル計画及びローカル計画の種類に応じて、詳細なパラメタ設定を含む作り込みを、設計者が行う必要があり、多大な時間を要する。

【0017】

そこで、本開示の技術により、経路の再計画のタイミングを判断する判断モデルを、強化学習により学習する。エージェント自身が自律的に判断モデルを獲得できるようになるため、上記の判断ルールの作り込みにかかる人的コストが不要となる。

【0018】

＜移動制御システムの構成＞
図１に示すように、本実施形態に係る移動制御システム１００は、制御装置１０と、エージェント５０とを含む。

【0019】

エージェント５０は、例えば、自動交差点管理における自動運転車両、倉庫や工場内のＡＭＲ（ＡｕｔｏｎｏｍｏｕｓＭｏｂｉｌｅＲｏｂｏｔ）やＡＧＶ（ＡｕｔｏｍａｔｉｃＧｕｉｄｅｄＶｅｈｉｃｌｅ）、無人配送システムにおけるドローン等である。エージェント５０は、走行、飛行等を行うための移動機構と、制御装置１０と通信を行うための通信機構と、計画された経路にしたがって移動するように移動機構を制御する移動制御機構とを有する。なお、エージェントは、移動体の一例である。

【0020】

図２は、制御装置１０のハードウェア構成を示すブロック図である。図２に示すように、制御装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３２、メモリ３４、記憶装置３６、入力装置３８、出力装置４０、記憶媒体読取装置４２、及び通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）４４を有するコンピュータである。各構成は、バス４６を介して相互に通信可能に接続されている。

【0021】

記憶装置３６には、経路計画処理を実行するための経路計画プログラムが格納されている。ＣＰＵ３２は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ３２は、記憶装置３６からプログラムを読み出し、メモリ３４を作業領域としてプログラムを実行する。ＣＰＵ３２は、記憶装置３６に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

【0022】

メモリ３４は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置３６は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

【0023】

入力装置３８は、例えば、キーボードやマウス等の、各種の入力を行うための装置である。出力装置４０は、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための装置である。出力装置４０として、タッチパネルディスプレイを採用することにより、入力装置３８として機能させてもよい。

【0024】

記憶媒体読取装置４２は、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ、ブルーレイディスク、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の各種記憶媒体に記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。通信Ｉ／Ｆ４４は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

【0025】

制御装置１０は、図１に示すように、機能的には、経路計画部２０と、通信部３０とを含む。経路計画部２０は、さらに、グローバル計画部２１と、ローカル計画部２２と、センシング部２３と、再計画部２４と、記憶部２５と、タイミング判断部２６と、学習部２７とを含む。なお、経路計画部２０は、本開示の経路計画装置の一例である。各機能構成は、ＣＰＵ３２が記憶装置３６に記憶された経路計画プログラムを読み出し、メモリ３４に展開して実行することにより実現される。

【0026】

グローバル計画部２１は、予め構築された障害物の位置を含む地図に基づいて、障害物に衝突しない経路であって、かつ、スタート地点からゴール地点までの低コスト経路を算出する。

【0027】

本実施形態では、図３Ａに示すように、地図において、静的な障害物（黒塗りの矩形）の位置が定められており、この地図に基づいて、スタート地点からゴール地点までの低コスト経路を計画する。図３Ａの例では、矢印で示すスタート地点から、白抜きの丸印で示すゴール地点までの低コスト経路が、実線で示されている。

【0028】

ローカル計画部２２は、計画された低コスト経路を追従するためのエージェント５０の速度及び角速度を毎時刻指定する。

【0029】

センシング部２３は、毎時刻におけるエージェント５０の周囲の障害物を計測したセンサ情報を取得する。具体的には、毎時刻、エージェント５０に設けられたセンサによって、エージェント５０の周囲の障害物を計測したセンサ情報が、エージェント５０から制御装置１０に送信され、センシング部２３は、受信した毎時刻におけるセンサ情報を取得する。

【0030】

再計画部２４は、タイミング判断部２６によって再計画部２４による算出を行うタイミングであると判断された場合に、地図及びセンシング部２３による計測結果に基づいて、ゴール地点までの低コスト経路を再度算出する。

【0031】

本実施形態では、図３Ｂに示すように、地図において予め定められた、静的な障害物（黒塗りの矩形）の位置と、センシング部２３による計測結果に基づいて認識された、動的な障害物（黒塗りの円）の位置とに基づいて、障害物に衝突しない経路であって、かつ、スタート地点からゴール地点までの低コスト経路を再度計画する。

【0032】

記憶部２５は、センサ情報の時系列、及びエージェント５０の軌跡を記憶する。具体的には、センサ情報の時系列は、センシング部２３によって取得した、現時刻までの毎時刻におけるセンサ情報を含む。また、エージェント５０の軌跡は、現時刻までの毎時刻におけるエージェント５０の位置を示している。

【0033】

タイミング判断部２６は、センサ情報の時系列、エージェント５０の軌跡、低コスト経路、及びゴール地点に基づいて、再計画部２４による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、再計画部２４による算出を行うタイミングであるか否かを判断する。

【0034】

具体的には、学習部２７によって学習された、判断モデルとしての方策πを用いて、現時刻ｔまでのセンサ情報の時系列、現時刻ｔまでのエージェント５０の軌跡、最新の低コスト経路、及びゴール地点を含む状態ｓ_ｔに対して、再計画部２４による算出を行うタイミングであるか否かを示す行動ａ_ｔを決定する。

【0035】

学習部２７は、過去のスタート地点からゴール地点までの移動履歴データであって、毎時刻におけるセンサ情報、エージェント５０の軌跡、毎時刻における低コスト経路、及びゴール地点を含む移動履歴データから、強化学習により、判断モデルとしての方策を学習する。

【0036】

強化学習における報酬は、移動履歴データにおいて、ゴール地点まで到達したか否か、又はゴール地点までの到達時間に基づいて定められる。

【0037】

以下、強化学習に関して説明する。強化学習は、環境の中での試行錯誤を通じて最適な行動を学習する手法である。強化学習において、教師データの代わりになるのが報酬である。累積報酬Ｇｔは、報酬の割引率をγ、各時刻での報酬をＲ_ｔとして、以下の式に示されるように定義される。なお、ｔは時刻を表す。

【0038】

【0039】

なお、Ｅ_{（ｓｔ，ａｔ）～π}［・］は、方策πの下で、状態ｓ_ｔにおいて行動ａ_ｔを選択することの期待値を表す。

【0040】

方策πを学習する方法としては、一例として、ＤＱＮ（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）のアルゴリズムが挙げられる（非特許文献２）。

【0041】

［非特許文献２］V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al., “Human-level control through deep reinforcement learning,” nature, vol. 518, no. 7540, pp. 529-533, 2015.

【0042】

本実施形態では、現時刻ｔまでのセンサ情報の時系列、現時刻ｔまでのエージェント５０の軌跡、最新の低コスト経路、及びゴール地点の組み合わせを状態ｓ_ｔとし、その状態ｓ_ｔと方策πとに応じた、再計画部２４による算出を行うタイミングであるか否かを行動ａ_ｔとする。

【0043】

通信部３０は、毎時刻指定されたエージェント５０の速度及び角速度を、エージェント５０に通知する。

【0044】

また、通信部３０は、エージェント５０から通知された、毎時刻におけるエージェント５０の周囲の障害物を計測したセンサ情報を受信する。

【0045】

＜移動制御システムの作用＞
次に、本実施形態に係る移動制御システム１００の作用について説明する。

【0046】

図４は、制御装置１０のＣＰＵ３２により実行される経路計画処理の流れを示すフローチャートである。ＣＰＵ３２が記憶装置３６から経路計画プログラムを読み出して、メモリ３４に展開して実行することにより、ＣＰＵ３２が制御装置１０の各機能構成として機能し、図４に示す経路計画処理が実行される。ここで、地図、スタート地点、及びゴール地点が、制御装置１０に入力されており、エージェント５０から、毎時刻のセンサ情報が通知されるものとする。また、判断モデルとしての方策πが、初期設定されているものとする。なお、経路計画処理は、経路計画方法の一例である。

【0047】

ステップＳ１００で、グローバル計画部２１は、予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出する。

【0048】

次に、ステップＳ１０２で、ローカル計画部２２は、計画された低コスト経路を追従するためのエージェント５０の現時刻の速度及び角速度を指定する。そして、通信部３０が、エージェント５０に、現時刻の速度及び角速度を通知する。

【0049】

次に、ステップＳ１０４で、センシング部２３は、通信部３０により受信した、エージェント５０の周囲の障害物を計測したセンサ情報を取得する。

【0050】

次に、ステップＳ１０６で、記憶部２５に、現時刻までのセンサ情報の時系列、及びエージェント５０の軌跡を記憶させる。

【0051】

次に、ステップＳ１０８で、タイミング判断部２６は、センサ情報の時系列、エージェント５０の軌跡、低コスト経路、及びゴール地点に基づいて、判断モデルとしての方策πを用いて、再計画部２４による算出を行うタイミングであるか否かを判断する。

【0052】

次に、ステップＳ１１０で、上記ステップＳ１０８において再計画部２４による算出を行うタイミングであると判断されたか否かを判定する。再計画部２４による算出を行うタイミングであると判断された場合には、ステップＳ１１２へ移行する。一方、再計画部２４による算出を行うタイミングでないと判断された場合には、上記ステップＳ１０２へ戻る。

【0053】

次に、ステップＳ１１２で、再計画部２４は、地図及びセンシング部２３による計測結果に基づいて、ゴール地点までの低コスト経路を再度算出し、ステップＳ１０２へ戻る。

【0054】

エージェント５０がゴール地点に到達すると、経路計画処理を終了する。そして、学習部２７は、ゴール地点までの移動履歴データに基づいて、強化学習により、判断モデルとしての方策πを学習する。強化学習における報酬は、当該移動履歴データにおいて、ゴール地点まで到達したか否か、又はゴール地点までの到達時間に基づいて定められる。

【0055】

再び、エージェント５０がスタート地点からゴール地点へ移動する際に、制御装置１０は、経路計画処理を実行する。この際に、学習された判断モデルとしての方策πを用いる。

【0056】

以上説明したように、本実施形態に係る移動制御システムは、センサ情報の時系列、エージェントの軌跡、低コスト経路、及びゴール地点に基づいて、低コスト経路を再度算出するタイミングであるか否かを判断するための予め学習された判断モデルを用いて、低コスト経路を再度算出するか否かを判断する。これにより、適切なタイミングでゴール地点までの低コスト経路を再度算出することができる。

【0057】

また、過去のスタート地点からゴール地点までの移動履歴データであって、かつ、毎時刻におけるセンサ情報、エージェントの軌跡、毎時刻における低コスト経路、及びゴール地点を含む移動履歴データから、強化学習により判断モデルとしての方策を学習する。これにより、エージェントが自律獲得した移動履歴データに基づいて、低コスト経路を再度計画する適切なタイミングを学習することができる。特に、障害物に衝突することなく制限時間内にゴール地点に到達できる確率の最大化、およびゴール地点への到達にかかった時間の最小化を達成するような、低コスト経路を再度計画するタイミングを判断する判断モデルを、移動履歴データから学習することができる。

【0058】

また、本開示の手法は、エージェントとして自律移動ロボットに応用が可能である。この場合、自律移動ロボットがおかれた未知の環境において、ロボットが自身の試行錯誤において、低コスト経路を再度計画する最適なタイミングを判断する判断モデルを自律的に獲得でき、設計者による時間のかかるルールの作りこみや試行錯誤が不要になる。

【0059】

また、グローバル計画部やローカル計画部において、既存の手法を用いることができる。

【0060】

なお、上記実施形態では、エージェント５０自身の移動履歴データであって、同じ移動環境での移動履歴データに基づいて、判断モデルを学習する場合を例に説明したが、これに限定されるものではない。エージェント５０自身の移動履歴データであって、異なる移動環境での移動履歴データに基づいて、判断モデルを学習するようにしてもよい。

【0061】

また、他のエージェントに移動により得られた移動履歴データを用いて、判断モデルを学習するようにしてもよい。また、エージェントの移動に関するシミュレーションにより得られた移動履歴データを用いて、判断モデルを学習するようにしてもよい。

【0062】

また、上記実施形態では、エージェントとは別の制御装置において、経路計画処理を実行する場合を例に説明したが、これに限定されるものではない。エージェントに搭載されている制御装置において、経路計画処理を実行するようにしてもよい。

【0063】

また、エージェントが２次元環境を移動する場合を想定して説明したが、これに限定されない。ドローンの飛行経路のように、３次元環境における交差領域にも応用することができる。

【0064】

本開示の具体的な適用例として、工場、オフィス、倉庫内の物流のための自律移動ロボット、レストランの自動配膳ロボットが挙げられる。レストランの自動配膳ロボットの場合、予め構築された障害物は、テーブルやパーティションである。また、新たに発生する障害物は、人や、動かされた椅子である。レストランにおいて、人が混雑する場所では障害物に出会う機会が多いため再計画の頻度は高く、広い通路では障害物に出会う機会が少ないため再計画の頻度は低くなる。その結果、低コスト経路を選択できることになる。また、客が多い時間帯、少ない時間帯というように時間帯に区切って再計画の頻度を変更できるようにしてもよい。

【0065】

また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した経路計画処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、経路計画処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

【0066】

また、上記実施形態では、経路計画プログラムが記憶装置に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ブルーレイディスク、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

【0067】

以下に、本開示に関する付記項を記載する。

【0068】

（付記項１）
予め構築された障害物の位置を含む地図に基づいて、スタート地点からゴール地点までの低コスト経路を算出するグローバル計画部と、
前記低コスト経路を追従するための移動体の速度又は角速度を毎時刻指定するローカル計画部と、
毎時刻における前記移動体の周囲の障害物を計測したセンサ情報を取得するセンシング部と、
前記地図及び前記センサ情報に基づいて、前記低コスト経路を再度算出する再計画部と、
前記センサ情報の時系列、及び前記移動体の軌跡を記憶する記憶部と、
前記センサ情報の時系列、前記移動体の軌跡、前記低コスト経路、及び前記ゴール地点に基づいて、前記再計画部による算出を行うタイミングであるか否かを判断するための予め学習された判断モデルを用いて、前記再計画部による算出を行うか否かを判断するタイミング判断部と、
を含む経路計画装置。

【0069】

（付記項２）
過去のスタート地点からゴール地点までの移動履歴データであって、かつ、毎時刻における前記センサ情報、前記移動体の軌跡、毎時刻における前記低コスト経路、及び前記ゴール地点を含む移動履歴データから、強化学習により前記判断モデルを学習する学習部を更に含む付記項１記載の経路計画装置。

【0070】

（付記項３）
前記強化学習における報酬は、ゴール地点まで到達したか否か、又は前記ゴール地点までの到達時間に基づいて定められる付記項２記載の経路計画装置。

【0071】

（付記項４）
前記移動履歴データは、前記移動体と同じ移動体について得られたものである付記項２又は３記載の経路計画装置。

【0072】

（付記項５）
前記移動履歴データは、前記移動体とは異なる移動体について得られたものである付記項２又は３記載の経路計画装置。

【0073】

（付記項６）
前記移動履歴データは、前記移動体の移動に関するシミュレーションにより得られたものである付記項２又は３記載の経路計画装置。

【符号の説明】

【0074】

１００移動制御システム
１０制御装置
２０経路計画部
２１グローバル計画部
２２ローカル計画部
２３センシング部
２４再計画部
２５記憶部
２６タイミング判断部
２７学習部
３０通信部
３２ＣＰＵ
３４メモリ
３６記憶装置
３８入力装置
４０出力装置
４２記憶媒体読取装置
４４通信Ｉ／Ｆ
４６バス
５０エージェント

【図1】

【図2】

【図3A】

【図3B】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版