IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヒュンダイ・モービス・カンパニー・リミテッドの特許一覧

特開2024-68044隊列走行制御装置及び隊列走行制御方法
<>
  • 特開-隊列走行制御装置及び隊列走行制御方法 図1
  • 特開-隊列走行制御装置及び隊列走行制御方法 図2
  • 特開-隊列走行制御装置及び隊列走行制御方法 図3
  • 特開-隊列走行制御装置及び隊列走行制御方法 図4
  • 特開-隊列走行制御装置及び隊列走行制御方法 図5
  • 特開-隊列走行制御装置及び隊列走行制御方法 図6
  • 特開-隊列走行制御装置及び隊列走行制御方法 図7
  • 特開-隊列走行制御装置及び隊列走行制御方法 図8
  • 特開-隊列走行制御装置及び隊列走行制御方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024068044
(43)【公開日】2024-05-17
(54)【発明の名称】隊列走行制御装置及び隊列走行制御方法
(51)【国際特許分類】
   G08G 1/00 20060101AFI20240510BHJP
   B60W 30/14 20060101ALI20240510BHJP
   B60W 30/10 20060101ALI20240510BHJP
【FI】
G08G1/00 X
B60W30/14
B60W30/10
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022199710
(22)【出願日】2022-12-14
(31)【優先権主張番号】10-2022-0145278
(32)【優先日】2022-11-03
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】507098483
【氏名又は名称】ヒュンダイ・モービス・カンパニー・リミテッド
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】チョ ヘウン ラエ
【テーマコード(参考)】
3D241
5H181
【Fターム(参考)】
3D241BA01
3D241BA11
3D241CC01
3D241CC08
3D241CC17
3D241CE03
3D241CE05
3D241CE08
3D241DC21Z
5H181AA01
5H181AA27
5H181BB04
5H181BB20
5H181CC04
5H181CC14
5H181LL01
5H181LL04
5H181LL09
(57)【要約】
【課題】隊列走行の際に映像情報及び自車の走行軌跡に対する制御点を用いて強化学習を行うことにより、隊列走行が安定的かつ効率的に行われるようにする隊列走行制御装置及び隊列走行制御方法を提供する。
【解決手段】本発明によれば、フィードバック信号及び映像情報に基づいて強化学習を行い、前記強化学習の結果に基づいて前記後方車両が前記自車の走行軌跡を追従することができるように前記自車の走行を制御する学習装置と、前記後方車両の座標と前記自車の走行軌跡に対する制御点の座標とを比較して前記フィードバック信号を生成する報酬判断部と、を含む隊列走行制御装置、及び隊列走行制御方法を提供する。
【選択図】図1
【特許請求の範囲】
【請求項1】
フィードバック信号、及び隊列走行中の自車と後方車両にそれぞれ備えられたカメラから出力される映像情報に基づいて強化学習を行い、前記強化学習の結果に基づいて前記後方車両が前記自車の走行軌跡を追従することができるように前記自車の走行を制御する学習装置と、
前記後方車両の座標を取得し、前記後方車両の座標と前記自車の走行軌跡に対する制御点の座標とを比較して前記フィードバック信号を生成する報酬判断部と、を含む、隊列走行制御装置。
【請求項2】
前記報酬判断部は、
前記後方車両が前記制御点に基づいて前記自車の走行軌跡を追従するように、前記制御点の座標を後方車両に伝達することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項3】
前記制御点は、
前記自車の走行軌跡に対応するスプライン曲線の形状を制御する点に該当することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項4】
前記報酬判断部は、
前記後方車両の座標が前記制御点の座標に比べて走行車路の外側にある場合、前記フィードバック信号をネガティブフィードバックとして出力することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項5】
前記報酬判断部は、
前記後方車両の座標が前記制御点の座標から所定の危険距離の外にある場合、前記フィードバック信号をネガティブフィードバックとして出力することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項6】
前記報酬判断部は、
前記後方車両の座標が前記制御点の座標に比べて走行車路の内側にあり、前記後方車両の座標が前記制御点の座標から所定の危険距離内にある場合、前記フィードバック信号をポジティブフィードバックとして出力することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項7】
前記学習装置は、
前記後方車両の座標が前記制御点の座標に比べて走行車路の外側にあるか、或いは前記後方車両の座標が前記制御点の座標から所定の危険距離の外にある場合、前記自車の走行軌跡が前記後方車両の走行軌跡に対応するように前記自車の走行方向及び走行速力のうちの少なくとも一つを制御することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項8】
前記報酬判断部は、
前記自車と前記後方車両との第1間隔が所定の第1範囲に含まれるか否かに応じて、前記フィードバック信号をポジティブフィードバック及びネガティブフィードバックのうちのいずれか一つとして出力することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項9】
前記学習装置は、
前記第1間隔が前記第1範囲に含まれない場合、前記第1間隔が前記第1範囲に含まれるように前記自車の走行速力を制御することを特徴とする、請求項8に記載の隊列走行制御装置。
【請求項10】
前記第1間隔は、
前記後方車両から受信した無線信号の受信強度に基づいて判断されることを特徴とする、請求項8に記載の隊列走行制御装置。
【請求項11】
前記報酬判断部は、
前記自車の後方で前記隊列走行中の車両以外の別途車両が認識されるか否かを考慮して前記フィードバック信号を出力することを特徴とする、請求項8に記載の隊列走行制御装置。
【請求項12】
前記報酬判断部は、
前記別途車両が認識される場合、前記第1間隔と、前記自車の座標と前記別途車両の座標との第2間隔との比率が所定の第2範囲に含まれるか否かに応じて、前記フィードバック信号をポジティブフィードバック及びネガティブフィードバックのうちのいずれか一つとして出力することを特徴とする、請求項11に記載の隊列走行制御装置。
【請求項13】
前記第2間隔は、
前記自車に備えられた後方カメラから出力される後方映像情報、及び前記自車に備えられたレーダー検知結果のうちの少なくとも一つに基づいて判断されることを特徴とする、請求項12に記載の隊列走行制御装置。
【請求項14】
前記学習装置は、
前記第1間隔と前記第2間隔との比率が前記第2範囲に含まれない場合、前記第1間隔と前記第2間隔との比率が前記第2範囲に含まれるように前記自車の走行速力を制御することを特徴とする、請求項12に記載の隊列走行制御装置。
【請求項15】
前記学習装置は、
前記自車の操舵制御信号、制動制御信号及び加速制御信号の出力を介して前記自車の走行を制御することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項16】
前記学習装置は、
自車の走行速力を制御する場合、前記自車の前方から一定の範囲以内に位置する前方障害物の存否を考慮することを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項17】
前記映像情報は、
前記自車の後方カメラから出力される後方映像情報と、前記後方車両の前方カメラから出力される前方映像情報とを含み、
前記学習装置は、
前記後方映像情報及び前記前方映像情報に基づいて、前記自車の後方映像及び前記後方車両の前方映像で相互重畳する部分を判断し、判断結果に基づく前記後方映像と前記前方映像との重畳度を前記強化学習に対する学習データとして用いることを特徴とする、請求項1に記載の隊列走行制御装置。
【請求項18】
前記学習装置に含まれたニューラルネットワークに対するパラメータを更新し、更新された前記パラメータに基づいて前記映像情報を受信して、前記後方車両が前記自車の走行軌跡を追従することができるように前記自車を制御する推論用ニューラルネットワーク装置をさらに含む、請求項1に記載の隊列走行制御装置。
【請求項19】
フィードバック信号、及び隊列走行中の自車と後方車両にそれぞれ備えられたカメラから出力される映像情報に基づいて強化学習を行うステップと、
前記強化学習の結果に基づいて、前記後方車両が前記自車の走行軌跡を追従することができるように前記自車の走行を制御するステップと、
前記後方車両の座標を取得し、前記後方車両の座標と前記自車の走行軌跡に対する制御点の座標とを比較して前記フィードバック信号を生成するステップと、を含む、隊列走行制御方法。
【請求項20】
隊列走行中の自車の前方で隊列走行車両以外の別途車両が認識される場合、前記自車の座標と隊列走行中の前方車両の座標との第1間隔と、前記自車の座標と前記別途車両の座標との第2間隔との比率が所定の範囲に含まれるか否かを判断するステップと、
前記判断の結果に基づいてフィードバック信号を生成するステップと、
前記フィードバック信号、及び前記自車と前記前方車両にそれぞれ備えられたカメラから出力される映像情報に基づいて強化学習を行うステップと、
前記強化学習の結果に基づいて、前記第1間隔と前記第2間隔との比率が前記所定の範囲に含まれるように前記自車の走行速力を制御するステップと、を含む、隊列走行制御方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、隊列走行が安定的かつ効率的に行われるように強化学習を行う隊列走行制御装置及び隊列走行制御方法に関する。
【背景技術】
【0002】
一般に、隊列走行(platooning)とは、1つのグループにまとめられた複数の車両が相互に走行情報を共有し、外部環境を考慮しながら道路を走行することを意味する。
【0003】
隊列走行を安定的に運営するためには、隊列走行中の車両の車間距離を適切に保ち、後方車両が前方車両の走行軌跡を追従するように制御することが重要である。
【0004】
自律走行システムは、自律走行車両が隊列走行時に最適な行動(action)を取るように、隊列走行についての強化学習(reinforcement learning)を行うことができる。
【0005】
強化学習は、機械学習方法の1つであり、試行と失敗(trial and error)を介して現在の状態(state)でどのような行動(action)を取るのが最適であるかを学習することである。行動を取るたびに報酬(reward)が与えられ、このような報酬が最大になる方向に学習が進められる。
【0006】
上記の背景技術として説明された事項は、本発明の背景に対する理解を増進するためのものに過ぎず、当該技術分野における通常の知識を有する者に既に知られている従来技術に該当することを認めるものと受け入れられてはならないだろう。
【発明の概要】
【発明が解決しようとする課題】
【0007】
そこで、本発明は、隊列走行の際に映像情報及び自車の走行軌跡に対する制御点を用いて強化学習を行うことにより、隊列走行が安定的かつ効率的に行われるようにすることを技術的課題とする。
【0008】
本発明で解決しようとする技術的課題は、上述した技術的課題に限定されず、上述していない別の技術的課題は、以降の記載から本発明の属する技術分野における通常の知識を有する者に明確に理解できるだろう。
【課題を解決するための手段】
【0009】
上記の技術的課題を解決するための手段として、隊列走行制御装置は、フィードバック信号、及び隊列走行中の自車と後方車両にそれぞれ備えられたカメラから出力される映像情報に基づいて強化学習を行い、前記強化学習の結果に基づいて前記後方車両が前記自車の走行軌跡を追従することができるように前記自車の走行を制御する学習装置と、前記後方車両の座標を取得し、前記後方車両の座標と前記自車の走行軌跡に対する制御点の座標とを比較して前記フィードバック信号を生成する報酬判断部と、を含む。
【0010】
また、上記の技術的課題を解決するための手段として、隊列走行制御方法は、フィードバック信号、及び隊列走行中の自車と後方車両にそれぞれ備えられたカメラから出力される映像情報に基づいて強化学習を行うステップと、前記強化学習の結果に基づいて、前記後方車両が前記自車の走行軌跡を追従することができるように前記自車の走行を制御するステップと、前記後方車両の座標を取得し、前記後方車両の座標と前記自車の走行軌跡に対する制御点の座標とを比較して前記フィードバック信号を生成するステップと、を含む。
【0011】
また、上記の技術的課題を解決するための手段として、隊列走行制御方法は、隊列走行中の自車の前方で隊列走行車両以外の別途車両が認識される場合、前記自車の座標と隊列走行中の前方車両の座標との第1間隔と、前記自車の座標と前記別途車両の座標との第2間隔との比率が所定の範囲に含まれるか否かを判断するステップと、前記判断の結果に基づいてフィードバック信号を生成するステップと、前記フィードバック信号、及び前記自車と前記前方車両にそれぞれ備えられたカメラから出力される映像情報に基づいて、強化学習を行うステップと、前記強化学習の結果に基づいて、前記第1間隔と前記第2間隔との比率が前記所定の範囲に含まれるように前記自車の走行速力を制御するステップと、を含む。
【発明の効果】
【0012】
本発明によれば、隊列走行の際に映像情報及び自車の走行軌跡に対する制御点を用いて強化学習を行うことにより、自車が後方車両を安定的かつ効率的にリードすることができる。
【0013】
また、隊列走行の隊列に別途車両が流入するか、或いは隊列走行の隊列に流入していた別途車両が離脱する場合でも、隊列走行の隊列を安定的かつ効率的に管理することができる。
【0014】
本発明で得られる効果は、上述した効果に限定されず、上述していない別の効果は、以降の記載から本発明の属する技術分野における通常の知識を有する者に明確に理解できるであろう。
【図面の簡単な説明】
【0015】
図1】本発明の一実施形態による隊列走行制御装置の構成に対する一例を示すブロック図である。
図2】本発明の一実施形態による隊列走行の際に自車と後方車両との間で情報が交換される過程を説明するためのシーケンス図である。
図3】本発明の一実施形態による隊列走行進行中の車両の前方映像及び後方映像を説明するための図である。
図4】本発明の一実施形態によって前方車両の走行軌跡に対する制御点を生成する過程の一例である。
図5】本発明の一実施形態による自車、後方車両、別途車両間の間隔を判断する過程の一例である。
図6】本発明の一実施形態によって自車の走行軌跡に対する制御点に基づいて強化学習に対するフィードバックを行う過程を説明するためのフローチャートである。
図7】本発明の一実施形態による隊列走行の際に後方車両の座標に応じてフィードバックが行われる過程を説明するための図である。
図8】本発明の一実施形態において、自車が前方車両である場合に複数の車両間の間隔に基づいて強化学習に対するフィードバックを行う過程を説明するためのフローチャートである。
図9】本発明の一実施形態において、自車が後方車両である場合に複数の車両間の間隔に基づいて強化学習に対するフィードバックを行う過程を説明するためのフローチャートである。
【発明を実施するための形態】
【0016】
以下、添付図面を参照して、本明細書に開示された実施形態を詳細に説明するが、図面符号に関係なく、同一又は類似の構成要素は、同一の参照番号を付与し、これについての重複説明は省略する。以下の説明において使用される構成要素に対する接尾辞「モジュール」及び「部」は、明細書作成の容易さのみが考慮されて付与又は混用されるものであって、それ自体で互いに区別される意味又は役割を有するものではない。また、本明細書に開示された実施形態を説明するにあたり、関連する公知の技術についての具体的な説明が、本明細書に開示された実施形態の要旨を乱すおそれがあると判断された場合、その詳細な説明を省略する。また、添付図面は、本明細書に開示された実施形態を容易に理解することができるようにするためのものに過ぎず、添付図面によって、本明細書に開示された技術的思想が限定されず、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物又は代替物を含むものと理解されるべきである。
【0017】
「第1」、「第2」等の序数を含む用語は多様な構成要素の説明に使用できるが、これらの構成要素はこれらの用語によって限定されるものではない。これらの用語は一つの構成要素を他の構成要素から区別する目的のみで使われる。
【0018】
ある構成要素が他の構成要素に「連結されて」いる或いは「接続されて」いるとしたときには、該他の構成要素に直接連結又は接続されている場合もあるが、それらの間に別の構成要素が介在している場合も含むと理解されるべきである。これに対し、ある構成要素が他の構成要素に「直接連結されて」いる或いは「直接接続されて」いるとしたときには、それらの間に別の構成要素が介在しないと理解されるべきである。
【0019】
単数の表現は、文脈上明白に異なる意味ではない限り、複数の表現を含む。
【0020】
本明細書において、「含む」又は「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品又はこれらの組み合わせが存在することを指定しようとするもので、一つ又はそれ以上の他の特徴や数字、段階、動作、構成要素、部品又はこれらの組み合わせの存在又は付加の可能性を予め排除しないものと理解されるべきである。
【0021】
本発明の一実施形態では、隊列走行の際にフィードバック信号、及び自車と後方車両に備えられたカメラから出力される映像情報を用いて強化学習を行うことにより、後方車両が自車の走行軌跡を追従することができるように自車の走行を制御することを提案する。
【0022】
より具体的には、自車と後方車両との距離や角度などによっては、後方車両が自車の走行軌跡を追従して隊列走行の隊列を一定の範囲内で保ち難い場合が発生することがあるので、強化学習に基づく自車の走行制御を介して後方車両が自車の走行軌跡を追従することができるようにすることを提案する。
【0023】
以下で登場する自車、後方車両及び前方車両は、隊列走行の隊列に含まれた車両を意味し、隊列走行中の車両以外の車両は、別途車両と表現する。
【0024】
また、自車の走行軌跡は、自車が現時点まで通り過ぎた経路に対する軌跡だけでなく、自車の向後の走行に応じて決定される経路に対する軌跡も含むことを意味することができる。
【0025】
本発明の実施形態による隊列走行制御方法を説明する前に、図1を参照して、一実施形態による隊列走行制御装置の構成について説明する。
【0026】
図1は、本発明の一実施形態による隊列走行制御装置の構成に対する一例を示すブロック図である。
【0027】
図1に示すように、隊列走行制御装置は、学習装置100、報酬判断部200、及び推論用ニューラルネットワーク装置300を含むことができる。図1は、本発明に関連する構成要素を中心に示すものであり、実際の隊列走行装置は、これより多い或いは少ない構成要素が含まれて実現できるのは言うまでもない。
【0028】
以下、隊列走行制御装置の各構成要素について説明する。
【0029】
まず、学習装置100は、隊列走行に対する強化学習の対象となるエージェント(Agent)に該当することができる。
【0030】
学習装置100は、フィードバック信号及び隊列走行中の自車と後方車両にそれぞれ備えられたカメラから出力される映像情報に基づいてニューラルネットワーク(Neural network)を介して強化学習を行い、強化学習の結果に基づいて、後方車両が自車の走行軌跡を追従することができるように自車の走行を制御することができる。
【0031】
この場合、学習装置100は、操舵制御信号、制動制御信号及び加速制御信号を出力して自車の走行を制御することができる。
【0032】
映像情報は、自車の後方カメラから出力される後方映像情報、及び後方車両の前方カメラから出力される前方映像情報を含むことができる。後方映像情報及び前方映像情報は、隊列走行に対する状態(State)に該当し、自車が現在走行中の実道路(Real road)の特性を反映することができる。
【0033】
これにより、学習装置100は、現在の隊列走行状態に該当する後方映像情報及び前方映像情報を介して強化学習を行うことにより、例外的な隊列走行状況においても後方車両が自車の走行軌跡を安定的に追従することができるように制御することができ、これにより自車の後方車両リード性能を改善することができる。
【0034】
フィードバック信号は、強化学習に対する報酬(Reward)に該当することができる。より具体的には、フィードバック信号は、自車が前方車両の走行軌跡を追従するか否かについてのポジティブフィードバック(Positive feedback)及びネガティブフィードバック(Negative feedback)のうちのいずれか一つを示すことができる。これにより、学習装置100は、フィードバック信号に応じて強化学習に関する方策(Policy)を維持又は修正することができる。
【0035】
操舵制御信号、制動制御信号及び加速制御信号は、強化学習に対する行動(Actio)に該当する。より具体的には、学習装置100は、自車の走行に要求される制御信号を操舵、制動、駆動等の走行関連制御器に伝達することにより、自車の走行状態(例えば、走行方向、走行速力など)を制御することができる。
【0036】
例えば、学習装置100は、操舵制御信号をステアリングホイールの回転角などを調整する操舵制御器(図示せず)に出力して自車の操舵角を制御し、制動制御信号を、油圧制動量を調整する制動制御器(図示せず)又は回生制動量を調整するモータ制御器(図示せず)などに出力して自車の制動量を制御することができる。また、学習装置100は、加速制御信号を、電気モータ又はエンジンの出力トルクを調整するパワートレイン制御器(図示せず)に出力して自車の加速度を制御することができる。
【0037】
また、学習装置100は、自車の走行速力を制御する場合、自車の前方から一定の範囲以内に位置する前方障害物の存否を考慮して自車の走行制御の際に衝突発生の可能性を緩和することができる。
【0038】
一方、報酬判断部200は、強化学習に対する行動(Action)に該当する操舵制御信号、制動制御信号及び加速制御信号に基づいて、強化学習に対する報酬(Reward)に該当するフィードバック信号を生成すことができる。
【0039】
また、報酬判断部200は、自車から自車の走行軌跡に対する制御点(Control point)の座標及び後方車両の座標を取得し、制御点の座標を後方車両の座標と比較してフィードバック信号を生成することができる。
【0040】
この場合、後方車両の座標は、後方車両から受信して取得されるか、或いは自車に備えられたカメラ、レーダー(RADAR)、ライダー(LiDAR)などのセンサを介して取得され得る。
【0041】
また、報酬判断部200は、後方車両が制御点に基づいて自車の走行軌跡を追従するように制御点の座標を後方車両に伝達することができる。これにより、後方車両は、伝達された制御点を介して自車の軌跡を追従して走行することができ、制御点に基づいて自車を追従する後方車両の座標を強化学習に反映することができるため、生成して学習装置100の強化学習完成度を向上させることができる。
【0042】
一実施形態において、制御点は、自車の走行軌跡に対応するスプライン曲線(Spline Curve)の形状を制御する特徴点として定義できる。
【0043】
スプライン曲線は、スプライン関数を用いて自車の走行軌跡を表現する滑らかな曲線に該当することができる。実施形態によって、スプライン曲線は、制御点を通過する補間スプライン曲線(Interpolating spline curve)又は中間制御点を通過しない近似スプライン曲線(Approximating spline curve)のうちのいずれか一つに該当することができる。ここで、近似スプライン曲線が開始制御点及び終了制御点を通過するか否かは、実施形態によって異なるように設定できる。
【0044】
以下では、自車の走行軌跡に対応するスプライン曲線が近似スプライン曲線に該当する場合を仮定して、報酬判断部200がフィードバック信号を生成する動作方法について説明する。
【0045】
報酬判断部200は、後方車両の座標が制御点の座標に比べて走行車路の外側にある場合、後方車両が制御点方向に自車の走行軌跡から外れたと判断し、フィードバック信号をネガティブフィードバックとして出力することができる。ここで、走行車路は、後方車両が現在走行中である車路に該当する。
【0046】
また、報酬判断部200は、後方車両の座標が制御点の座標から所定の危険距離の外にある場合、後方車両が制御点の反対方向に自車の走行軌跡から外れたと判断し、フィードバック信号をネガティブフィードバックとして出力することができる。
【0047】
このとき、学習装置100は、後方車両の座標が制御点の座標に比べて走行車路の外側にあるか、制御点の座標から所定の危険距離の外にある場合、後方車両が自車の走行軌跡を追従することができるように自車の走行方向及び走行速力のうちの少なくとも一つを制御して、後方車両が自車の走行軌跡を追従することができるようにすることができる。
【0048】
例えば、学習装置100は、制動制御信号を介して、自車の制動量が増加するように制御し、操舵制御信号を介して、自車の操舵角が減少するように制御して、後方車両が自車の走行軌跡を追従することができるように自車の走行を制御することができる。
【0049】
一方、学習装置100の操舵制御信号、加速制御信号及び制動制御信号の出力による自車走行制御と報酬判断部200のフィードバック信号の出力との先後関係は問わない。
【0050】
例えば、報酬判断部200のフィードバック信号の出力に応じて学習装置100が自車の走行を制御することができ、これとは異なり、フィードバック信号と自車走行制御のための信号が報酬判断部200及び学習装置100からそれぞれ同時に出力されてもよい。
【0051】
一方、報酬判断部200は、後方車両の座標が制御点の座標に比べて走行車路の内側にあり、後方車両の座標が制御点から所定の危険距離内にある場合、後方車両が自車の走行軌跡を安定的に追従していると判断することができる。この場合、報酬判断部200は、フィードバック信号をポジティブフィードバックとして出力することができる。
【0052】
これにより、一実施形態による報酬判断部200は、自車の走行軌跡に対する制御点の座標に基づいて、後方車両が自車の走行軌跡を追従するか否かに関するフィードバックを学習装置100に提供することにより、自車の走行軌跡に対するデータサイズ及び演算量を減らすことができる。
【0053】
また、報酬判断部200は、自車と後方車両との第1間隔が所定の第1範囲に含まれるか否かに応じて、フィードバック信号をポジティブフィードバック又はネガティブフィードバックのうちのいずれか一つとして出力することができる。
【0054】
例えば、報酬判断部200は、自車と後方車両との第1間隔が所定の第1範囲に含まれる場合、後方車両が自車との車間距離を安定的に保つと判断し、フィードバック信号をポジティブフィードバックとして出力することができる。
【0055】
これとは異なり、報酬判断部200は、自車と後方車両との第1間隔が所定の第1範囲に含まれない場合、フィードバック信号をネガティブフィードバックとして出力することができる。
【0056】
このとき、学習装置100は、自車と後方車両との第1間隔が所定の第1範囲から外れる場合、自車と後方車両との第1間隔が所定の第1範囲に含まれるように自車の走行速力を制御することができる。
【0057】
より具体的には、学習装置100は、自車と後方車両との第1間隔が所定の第1範囲の上限値を超える場合、自車と後方車両との第1間隔が所定の第1範囲以内となるように自車の制動制御を行うことができる。
【0058】
一方、自車と後方車両との第1間隔が所定の第1範囲の下限値未満である場合、学習装置100は、自車と後方車両との第1間隔が所定の第1範囲に含まれるように自車の加速制御を行うことができる。
【0059】
一方、自車と後方車両との第1間隔は、後方車両から受信した無線信号の受信強度に基づいて判断できる。
【0060】
この場合、無線信号の受信強度が大きいほど、自車と後方車両とが近づいているので、第1間隔が狭く、無線信号の受信強度が小さいほど、自車と後方車両とが遠くに離れているので、第1間隔が広いと見なすことができる。
【0061】
ここで、無線信号の受信強度は、例えばRSSI(Received Signal Strength Indication)であってもよい。
【0062】
さらに、自車と後方車両との第1間隔に対する所定の第1範囲は、実施形態に従って様々に設定できる。
【0063】
したがって、一実施形態による報酬判断部200は、無線信号の受信信号強度によって自車と後方車両との第1間隔を安定的に維持するか否かに関するフィードバックを学習装置100に提供することができる。学習装置100は、報酬判断部200から提供されたフィードバックを介して後方車両との第1間隔に対する加速及び制動特性を学習することができる。
【0064】
実現において、報酬判断部200は、学習装置100の強化学習に関するフィードバックを専担する制御器に該当し、そのために他の制御器やセンサと通信する通信装置、オペレーティング体制やロジック命令語、出力情報などを記憶するメモリ、及び担当機能の制御に必要な判断、演算、決定などを行う1つ以上のプロセッサを含むことができる。
【0065】
推論用ニューラルネットワーク装置300は、学習装置100で行われる隊列走行に対する強化学習が安定化された後、学習装置100に含まれているニューラルネットワーク(neural network)に対するパラメータを周期的に更新することができる。
【0066】
推論用ニューラルネットワーク装置300は、報酬判断部200のフィードバックなしに、更新されたパラメータに基づいて前方映像情報及び後方映像情報を受信して、後方車両が自車の走行軌跡を追従することができるように自車の走行を制御することができる。
【0067】
このとき、推論用ニューラルネットワーク装置300は、学習装置100と同様に、操舵制御信号、制動制御信号及び加速制御信号を出力することにより、自車の走行を制御することができる。
【0068】
これにより、推論用ニューラルネットワーク装置300は、隊列走行に対する強化学習が安定化された後、追加の強化学習なしに映像情報のみを介して自車の操舵制御、制動制御及び加速制御を行うことにより、隊列走行制御装置の強化学習に対する演算量を減らすことができる。
【0069】
上述した本発明の一実施形態によれば、強化学習結果を介して相対的に前方で走行する自車の走行を制御する場合、自車に後続する後方車両の走行軌跡追従度が向上することができる。
【0070】
これにより、後方車両に後続する次順位の後方車両の走行軌跡追従度も連鎖的に向上することができ、この場合、自車の後方車両に対しては、既存に適用される追従制御だけでも隊列走行の隊列を管理することができるため、全体隊列走行制御の効率が向上することができる。
【0071】
図1は、一実施形態による隊列走行制御装置の構成と各構成が行う機能を説明するためのものであり、隊列走行過程での情報交換については、図2を参照して説明する。
【0072】
図2は、本発明の一実施形態による隊列走行の際に自車と後方車両との間で情報が交換される過程を説明するためのシーケンス図である。
【0073】
図2において、自車Fは、図1を参照して前述した構成を有し、後方車両Rは、自車Fと共に隊列走行中の車両であって、自車Fと直接通信するか或いはインフラストラクチャ等を介した通信を支援する車両であると仮定する。
【0074】
まず、自車Fは、後方カメラから出力される映像情報をダウンスケーリング及び圧縮して後方映像情報を生成し(S101)、後方車両Rは、前方カメラから出力される映像情報をダウンスケーリング及び圧縮して前方映像情報を生成することができる(S103)。
【0075】
その後、自車Fは、後方車両Rに後方映像情報と無線信号を伝送し、後方車両Rは、自車Fに前方映像情報と無線信号を伝送することができる(S105)。
【0076】
自車Fは、受信した前方映像情報を復元し、後方車両Rから受信した無線信号の受信信号強度を測定することができる(S107)。同様に、後方車両Rは、受信した後方映像情報を復元し、自車Fから受信した無線信号の受信信号強度を測定することができる(S109)。
【0077】
自車Fは、後方カメラから出力される映像情報と後方車両Rから受信した前方映像情報とを介して、ビジョンベースの軌跡(vision-based trajectory)を生成し(S111)、ビジョンベースの軌跡に沿って制御点の座標を生成することができる(S113)。
【0078】
また、自車Fは、制御点の座標を後方車両Rに伝達して後方車両Rが制御点に基づいて自車の走行軌跡を追従することができるようにすることができる。これにより、後方車両の座標が制御点に対応するようにして、制御点に基づいて自車Fを追従する後方車両Rの座標を強化学習に反映することができる。
【0079】
自車Fは、制御点の座標及び無線信号の受信信号強度に対する測定値に基づいて強化学習へのフィードバックを行うことができ(S115)、実施形態によっては、フィードバックに応じて後方車両Rの走行を制御するために操舵制御、制動制御及び加速制御信号を後方車両Rに伝送することもできる(S117)。
【0080】
フィードバック以後には、強化学習の結果に基づいて、自車Fの操舵制御、制動制御及び加速制御を行って自車Fの走行を制御することができる(S119)。
【0081】
以下、図3図5を参照して、強化学習に活用される要素を説明する。
【0082】
図3は、本発明の一実施形態による隊列走行進行中の車両の前方映像及び後方映像を説明するための図である。
【0083】
図3を参照すると、自車Fの前方には、自車Fより先行する前方車両F’が位置してもよく、自車Fの後方には、後方車両Rが位置してもよい。また、自車Fと後方車両Rとの間には、隊列走行中の車両以外の別途車両Cが位置してもよい。
【0084】
前方映像FVは各車両の前方カメラを介して撮影され、後方映像RVは各車両の後方カメラを介して撮影されることができる。
【0085】
このとき、自車Fの学習装置100は、自車Fの後方映像情報及び後方車両Rの前方映像情報に基づいて、自車Fの後方映像RV、及び後方車両Rで撮影された前方画像FVで相互重畳する部分を判断し、判断結果に基づく後方画像RVと前方画像FVとの重畳度を強化学習に対する学習データとして用いることができる。これは、図3に示すように、先行車両F’と自車Fとの関係においても同様に適用できる。
【0086】
例えば、学習装置100は、車線や路面標識など、路面に表示された形状や特徴点抽出などに基づいて重畳度を判断することができるが、これは、例示的なものであって、必ずしもこれに限定されるものではない。
【0087】
一方、図3に示すように、自車Fと後方車両Rとの間に隊列走行中の車両以外の別途車両Cが存在する場合、自車Fの後方映像情報及び後方車両Rの前方映像情報には、別途車両Cの存否や位置などが含まれることができる。
【0088】
図4は、本発明の一実施形態によって前方車両の走行軌跡に対する制御点を生成する過程の一例である。
【0089】
図4を参照すると、自車Fは、後方カメラを介して出力される後方映像情報、及び後方車両から受信した前方映像情報に基づいて、ビジョンベースの軌跡を生成することができる。その後、自車Fは、ビジョンベースの軌跡を介して自車の走行軌跡に対する制御点の座標を生成することができる。
【0090】
図5は、本発明の一実施形態による自車、後方車両、別途車両間の間隔を判断する過程の一例である。図5は、自車Fと後方車両Rとの間に隊列走行中の車両以外の別途車両Cが存在する場合を仮定する。
【0091】
この場合、自車Fと後方車両Rとの第1間隔D1は、無線信号の受信強度に基づいて判断でき、自車Fと別途車両Cとの第2間隔D2は、後方映像情報、及び自車に備えられたレーダー検知結果などに基づいて判断できる。ただし、これは例示的なものであり、第1間隔D1及び第2間隔D2の判断方式は必ずしもこれに限定されるものではない。
【0092】
また、後方車両Rの立場においても、同様に、自車Fとの第1間隔D1、別途車両Cとの第2間隔D2’が判断できる。
【0093】
以下、図3図5を参照して説明した要素を介して強化学習フィードバックを行う過程について、図6図9を参照して説明する。
【0094】
図6は、本発明の一実施形態によって自車の走行軌跡に対する制御点に基づいて強化学習に対するフィードバックを行う過程を説明するためのフローチャートである。
【0095】
図6では、学習装置100が映像情報及びフィードバック信号に基づいて行われた強化学習の結果に応じて後方車両が自車の走行軌跡を追従している状況を仮定する。
【0096】
まず、報酬判断部200は、自車の座標を介して走行軌跡に対する制御点の座標を判断し(S201)、後方車両の座標と制御点の座標を介して後方車両の走行軌跡を生成することができる(S203)。
【0097】
報酬判断部200は、制御点の座標を後方車両の座標と比較し(S205、S211)、比較結果に基づいてフィードバック信号を生成することができる(S207、S213)。
【0098】
まず、報酬判断部200は、後方車両の座標が制御点の座標に比べて走行車路の外側にあるか否かを判断することができる(S205)。
【0099】
後方車両の座標が制御点の座標に比べて走行車路の外側にある場合(S205のYes)、報酬判断部200は、フィードバック信号をネガティブフィードバックとして出力することができる(S207)。このとき、学習装置100は、自車の制動量が増加するように制御し、自車の操舵角を制御するなど、自車の走行を制御することができる(S209)。
【0100】
後方車両の座標が制御点の座標に比べて走行車の内側にある場合(S205のNo)、報酬判断部200は、後方車両の座標が制御点の座標から所定の危険距離の外にあるか否かを判断することができる(S211)。
【0101】
後方車両の座標が制御点の座標から所定の危険距離の外にある場合(S211のYes)、報酬判断部200は、フィードバック信号をネガティブフィードバックとして出力することができる(S207)。このとき、学習装置100は、ネガティブフィードバックに応じて自車の制動量が増加するように制御し、自車の操舵角を制御するなど、自車の走行を制御することができる(S209)。
【0102】
後方車両の座標が制御点の座標から所定の危険距離内にある場合(S211のNo)、報酬判断部200は、フィードバック信号をポジティブフィードバックとして出力することができる(S213)。
【0103】
図7は、本発明の一実施形態による隊列走行の際に後方車両の座標に基づいてフィードバックが行われる過程を説明するための図である。
【0104】
図7は、本発明の一実施形態による隊列走行の際に後方車両の座標に基づいてフィードバックが行われる過程を説明するための図である。
【0105】
図7の左側を参照すると、自車Fの走行軌跡に対する第1~第4制御点(control point<1:4>)が示されている。
【0106】
図7の中央の場合、後方車両Rの座標が第2制御点(control point<2>)の座標に比べて走行車路の外側にある場合に該当する。このとき、報酬判断部200は、フィードバック信号をネガティブフィードバックとして出力することができる。
【0107】
図7の右側の場合、後方車両Rの座標が第2制御点(control point<2>)の座標に比べて走行車路の内側にあり、第2制御点(control point<2>)の座標から危険距離D3内にある場合に該当する。このとき、報酬判断部200は、フィードバック信号をポジティブフィードバックとして出力することができる。
【0108】
図8は、本発明の一実施形態において、自車が前方車両である場合に複数の車両間の間隔に基づいて強化学習に対するフィードバックを行う過程を説明するためのフローチャートである。
【0109】
図8では、学習装置100が映像情報及びフィードバック信号に基づいて行われた強化学習の結果に応じて後方車両が自車の走行軌跡を追従することができるように制御している状況を仮定する。
【0110】
また、図8において、自車と後方車両との第1間隔D1、及び自車と別途車両との第2間隔D2は、後方車両から受信した無線信号の受信強度によって判断されることを仮定する。
【0111】
報酬判断部200は、後方車両から無線信号を受信し(S301)、無線信号の受信信号強度を測定することができる(S303)。
【0112】
その後、自車の後方で隊列走行の隊列に進入(Cut-in)した或いは離脱(Cut-out)中の別途車両が認識されるか否か(S305のYes又はNo)によって強化学習及び自車制御が行われる。
【0113】
まず、別途車両が認識されていない場合(S305のNo)、報酬判断部200は、無線信号の受信信号強度が所定の範囲に含まれるか否かを判断し(S307、S313)、判断結果に基づいてフィードバック信号をポジティブフィードバック及びネガティブフィードバックのうちのいずれか一つとして出力することができる(S309、S315)。
【0114】
より具体的には、報酬判断部200は、無線信号の受信信号強度が所定の範囲の上限値以下であるか否かを判断することができる(S307)。
【0115】
受信信号強度が所定の範囲の上限値を超える場合(S307のNo)、報酬判断部200は、第1間隔D1が所定の第1範囲の下限値未満であると判断して、フィードバック信号をネガティブフィードバックとして出力することができる(S309)。
【0116】
このとき、学習装置100は、自車の前方から一定の範囲以内に位置する前方障害物が存在する場合には、衝突防止のために自車の加速制御を行わず、前方障害物が存在しない場合に自車の加速制御を介して第1間隔D1を増加させて第1間隔D1が第1範囲に含まれるように制御することができる(S311)。
【0117】
一方、受信信号強度が所定の範囲の上限値以下である場合(S307のYes)、報酬判断部200は、受信信号強度が所定の範囲の下限値以上であるか否かを判断して、第1間隔D1が第1範囲に含まれるか否かを判断することができる(S313)。
【0118】
受信信号強度が所定の範囲の下限値未満である場合(S313のNo)、報酬判断部200は、第1間隔D1が所定の第1範囲の上限値を超えると判断して、フィードバック信号をネガティブフィードバックとして出力することができる(S315)。
【0119】
このとき、学習装置100は、第1間隔D1が減少して第1範囲に含まれるように自車の制動制御を行うことができる(S317)。
【0120】
一方、受信信号強度が所定の範囲の下限値以上である場合(S313のYes)、報酬判断部200は、第1間隔D1が第1範囲内に含まれたと判断して、フィードバック信号をポジティブフィードバックとして出力することができる(S319)。
【0121】
これとは異なり、別途車両が認識された場合(S305のYes)、報酬判断部200は、自車と後方車両との第1間隔D1と、自車と別途車両との第2間隔D2との比率(D1/D2が所定の第2範囲に含まれるか否かを判断し(S321、S327)、判断結果に基づいてフィードバック信号をポジティブフィードバック及びネガティブフィードバックのうちのいずれか一つとして出力することができる(S323、S329)。
【0122】
より具体的には、報酬判断部200は、第1間隔と第2間隔との比率D1/D2が第2範囲の上限値以下であるか否かを判断することができる(S321)。
【0123】
第1間隔と第2間隔との比率(D1/D2)が第2範囲の上限値を超える場合(S321のNo)、報酬判断部200は、隊列走行車両間の第1間隔D1を考慮すると、自車と別途車両との第2間隔D2の比重が増加する必要があると判断して、フィードバック信号をネガティブフィードバックとして出力することができる(S323)。
【0124】
このとき、学習装置100は、自車の前方から一定の範囲以内に位置する前方障害物が存在する場合には、衝突防止のために自車の加速制御を行わず、前方障害物が存在しない場合には、第1間隔と第2間隔の比率(D1/D2)が減少して第2範囲に含まれるように自車の加速制御を行うことができる(S325)。
【0125】
これに対し、第1間隔と第2間隔との比率(D1/D2)が第2範囲の上限値以下である場合(S321のYes)、報酬判断部200は、第1間隔と第2間隔との比率(D1/D2)が第2範囲に含まれるか否かを判断することができる(S327)。
【0126】
第1間隔と第2間隔との比率(D1/D2)が第2範囲の下限値未満である場合(S327のNo)、報酬判断部200は、隊列走行車両間の第1間隔D1を考慮すると、自車と別途車両との第2間隔D2の比重が増加する必要があると判断して、フィードバック信号をネガティブフィードバックとして出力することができる(S329)。
【0127】
このとき、学習装置100は、第1間隔と第2間隔との比率D1/D2が増加して第2範囲に含まれるように自車の制動制御を行うことができる(S331)。
【0128】
一方、第1間隔と第2間隔との比率(D1/D2)が第2範囲の下限値以上である場合(S327のYes)、報酬判断部200は、第1間隔と第2間隔との比率(D1/D2)が第2範囲内に含まれていると判断して、フィードバック信号をポジティブフィードバックとして出力することができる(S333)。
【0129】
図9は、本発明の一実施形態において、自車が後方車両である場合に複数の車両間の間隔に基づいて強化学習に対するフィードバックを行う過程を説明するためのフローチャートである。
【0130】
図8図9はいずれも、複数の車両間の間隔に基づいて強化学習に対するフィードバックを行う過程に関するものであるが、図9の場合、後方車両を基準とするという点で、前方車両を基準とする図8とは相違する。
【0131】
したがって、以下では、図9において後方車両を基準として強化学習及びフィードバック制御が行われるという点以外は図8と同様の制御が行われると前提し、後方車両を基準として強化学習及びフィードバック制御が行われることによる図8との相違点を重点的に説明する。
【0132】
図9を参照すると、報酬判断部200は、前方車両から無線信号を受信し(S401)、受信した無線信号の受信強度を測定することができる(S403)。その後、無線信号の受信強度が所定の範囲に含まれるか否か(S407、S413)を判断し、判断結果に応じて強化学習及び走行制御が行われることができる(S409、S411、S415、S417)。
【0133】
この場合、無線信号の受信強度が所定の範囲の上限値を超える場合(S407のNo)、学習装置100は、自車の制動制御によって第1間隔D1を増加させて第1間隔D1が第1範囲に含まれるように制御することができる(S411)。
【0134】
自車が後方車両である場合、第1間隔D1が増加するためには、自車が前方車両に比べて遅くならなければならないので、学習装置100が制動制御を行い、前方車両の走行軌跡を追従して走行するので、前方障害物の考慮を省略して制御過程をより簡素化することもできる。
【0135】
一方、無線信号の受信強度が所定の範囲の下限値未満である場合(S413のNo)、学習装置100は、自車の加速制御を介して第1間隔D1を減少させることができる(S417)。
【0136】
自車が後方車両である場合、第1間隔D1が減少するためには、自車が前方車両に比べて速くならなければならないので、学習装置100が加速制御を行う。
【0137】
一方、自車の前方で隊列走行中の車両以外の別途車両が認識された場合(S405のYes)、報酬判断部200は、自車と前方車両との第1間隔D1と、自車と別途車両との第2間隔D2’との比率D1/D2’が所定の範囲に含まれるか否かを判断し(S421、S427)、判断結果に基づいてフィードバック信号をポジティブフィードバック及びネガティブフィードバックのうちのいずれか一つとして出力することができる(S423、S429)。
【0138】
具体的には、報酬判断部200は、第1間隔と第2間隔との比率D1/D2’が所定の範囲の上限値以下であるか否かを判断することができる(S421)。
【0139】
第1間隔と第2間隔との比率D1/D2’が所定の範囲の上限値を超える場合(S421のNo)、報酬判断部200は、隊列走行車両間の第1間隔D1を考慮すると、自車と別途車両との第2間隔D2’の比重が増加する必要があると判断して、フィードバック信号をネガティブフィードバックとして出力することができる(S423)。
【0140】
このとき、学習装置100は、第1間隔と第2間隔との比率D1/D2’が減少して所定の範囲に含まれるように自車の制動制御を行うことができる(S425)。
【0141】
一方、第1間隔と第2間隔との比率(D1/D2’)が所定の範囲の上限値以下である場合(S421のYes)、報酬判断部200は、第1間隔と第2間隔との比率D1/D2’が所定の範囲に含まれるか否かを判断することができる(S427)。
【0142】
第1間隔と第2間隔との比率D1/D2’が所定の範囲の下限値未満である場合(S427のNO)、報酬判断部200は、隊列走行車両間の第1間隔D1を考慮すると、自車と別途車両との第2間隔D2’の比重が増加する必要があると判断して、フィードバック信号をネガティブフィードバックとして出力することができる(S429)。
【0143】
このとき、学習装置100は、第1間隔と第2間隔との比率(D1/D2’)が増加して所定の範囲に含まれるように自車の加速制御を行うことができる(S431)。
【0144】
一方、第1間隔と第2間隔との比率D1/D2’が所定の範囲の下限値以上である場合(S427のYes)、報酬判断部200は、第1間隔と第2間隔との比率D1/D2’が所定の範囲内に含まれていると判断して、フィードバック信号をポジティブフィードバックとして出力することができる(S433)。
【0145】
上述した本発明の実施形態によれば、隊列走行の際に映像情報、及び自車の走行軌跡に対する制御点を用いて強化学習を行うことにより、自車が後方車両を安定的かつ効率的にリードすることができる。
【0146】
また、隊列走行の隊列に別途車両が流入するか、或いは隊列走行の隊列に流入していた別途車両が離脱する場合でも、隊列走行の隊列を安定的かつ効率的に管理することができる。
【0147】
上述したように、本発明の特定の実施形態に関連して図示及び説明したが、以下の特許請求の範囲によって提供される本発明の技術的思想を逸脱することなく、本発明に様々な改良及び変更を加え得ることは、当業分野における通常の知識を有する者にとって自明であろう。
【符号の説明】
【0148】
100 学習装置
200 報酬判断部
300 推論用ニューラルネットワーク装置
図1
図2
図3
図4
図5
図6
図7
図8
図9