(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024176907
(43)【公開日】2024-12-19
(54)【発明の名称】制御装置
(51)【国際特許分類】
B60W 50/08 20200101AFI20241212BHJP
B60W 60/00 20200101ALI20241212BHJP
B60W 50/00 20060101ALI20241212BHJP
【FI】
B60W50/08
B60W60/00
B60W50/00
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023095777
(22)【出願日】2023-06-09
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】高橋 祐希
(72)【発明者】
【氏名】右立 真輝
【テーマコード(参考)】
3D241
【Fターム(参考)】
3D241BA29
3D241CD27
3D241CE08
(57)【要約】
【課題】ユーザによる介入頻度を低減可能な自動制御技術を提供する。
【解決手段】本開示の一側面に係る制御装置は、選択モデルにより、複数の制御モデルから1つ以上の制御モデルを選択し、選択された1つ以上の制御モデルを使用して、移動体の制御指令を導出し、介入の操作がない場合、導出された制御指令に従って、移動体の動作を制御し、かつ介入の操作がある場合、導出された制御指令を破棄又は導出された制御指令にオーバーラップして、ユーザによる介入の操作に従い、移動体の動作を制御する。選択モデルは、ユーザの介入履歴から介入の発生を避けるよう1つ以上の制御モデルを選択するように構成される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の制御モデル及び選択モデルを記憶する記憶部、並びに
制御部、
を備える制御装置であって、
前記各制御モデルは、移動体の移動を自動制御するために、制御指令を導出するように構成され、
前記制御部は、
前記選択モデルにより、前記複数の制御モデルから1つ以上の制御モデルを選択すること、
選択された前記1つ以上の制御モデルを使用して、前記移動体の制御指令を導出すること、
ユーザによる介入の操作がない場合、導出された前記制御指令に従って、前記移動体の動作を制御すること、及び
前記ユーザによる介入の操作がある場合、導出された前記制御指令を破棄又は導出された前記制御指令にオーバーラップして、前記ユーザによる介入の操作に従い、前記移動体の動作を制御すること、
を実行するように構成され、並びに
前記選択モデルは、前記ユーザの介入履歴から前記ユーザによる介入の発生を避けるよう前記1つ以上の制御モデルを選択するように構成されている、
制御装置。
【請求項2】
前記複数の制御モデルは、訓練済み機械学習モデル及びルールベースモデルを含む、
請求項1に記載の制御装置。
【請求項3】
前記1つ以上の制御モデルを選択することは、前記訓練済み機械学習モデルを使用して前記移動体の自動制御を実施している間に前記ユーザによる介入が発生したことを示す記録が前記介入履歴に含まれている場合に、当該記録により示される条件下で、前記ルールベースモデルを選択することを含む、
請求項2に記載の制御装置。
【請求項4】
前記1つ以上の制御モデルを選択することは、
1つの制御モデルを選択すること、又は
2つ以上の制御モデルを選択すること、
により構成され、かつ
前記移動体の制御指令を導出することは、
前記1つの制御モデルから前記制御指令を得ること、又は
前記2つ以上の制御モデルそれぞれから得られた制御指令を統合することで、前記制御指令を導出すること、
により構成される、
請求項1に記載の制御装置。
【請求項5】
前記移動体は車両である、
請求項1から4のいずれか1項に記載の制御装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、制御装置に関する。
【背景技術】
【0002】
特許文献1には、訓練済みのニューラルネットワークを使用して、ルート、GPSデータ及びセンサデータから車両のコマンドを決定するように構成された自律的車両制御のためのシステムが提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の目的の一つは、ユーザによる介入頻度を低減可能な自動制御技術を提供することである。
【課題を解決するための手段】
【0005】
本開示の第1態様に係る制御装置は、複数の制御モデル及び選択モデルを記憶する記憶部、並びに制御部を備える。前記各制御モデルは、移動体の移動を自動制御するために、制御指令を導出するように構成される。前記制御部は、前記選択モデルにより、前記複数の制御モデルから1つ以上の制御モデルを選択すること、選択された前記1つ以上の制御モデルを使用して、前記移動体の制御指令を導出すること、ユーザによる介入の操作がない場合、導出された前記制御指令に従って、前記移動体の動作を制御すること、及び前記ユーザによる介入の操作がある場合、導出された前記制御指令を破棄又は導出された前記制御指令にオーバーラップして、前記ユーザによる介入の操作に従い、前記移動体の動作を制御すること、を実行するように構成される。そして、前記選択モデルは、前記ユーザの介入履歴から前記ユーザによる介入の発生を避けるよう前記1つ以上の制御モデルを選択するように構成される。なお、複数の制御モデル及び選択モデルの少なくともいずれかには、訓練済みの機械学習モデルが用いられてよい。機械学習モデルには、ニューラルネットワークが用いられてよい。
【発明の効果】
【0006】
本開示によれば、ユーザによる介入頻度の低減を期待することができる。
【図面の簡単な説明】
【0007】
【
図1】
図1は、本開示が適用される場面の一例を模式的に示す。
【
図2】
図2は、本開示の介入履歴のデータ構成の一例を模式的に示す。
【
図3】
図3は、本開示の制御装置のハードウェア構成の一例を模式的に示す。
【
図4】
図4は、本開示の制御装置による制御に関する処理手順の一例を示す。
【発明を実施するための形態】
【0008】
従来、ルールベースによる自動運転システムが知られている。また、特許文献1等の方法によれば、訓練済み機械学習モデルを使用することで、自動運転システムを構築することができる。しかしながら、制御モデル(ルールベースモデル又は機械学習モデル)による自動運転の制御は必ずしもユーザに適合するとは限らない。制御モデルによる自動運転の制御がユーザに適合しない場合には、ユーザによる介入の操作が発生し、自動運転は実
施されずに、手動運転が実施されることになる。制御モデルによる自動運転がユーザに大きく適合しない場合には、自動運転システムは殆ど使用されず、ユーザによる介入操作が頻発してしまう恐れがある。なお、この問題点は、車両の種類を問わず生じ得る。また、このような問題点が生じるのは、車両を制御する場面に限られない。移動を制御する点では、車両以外の移動体でも同様である。そのため、車両以外のあらゆる移動体を制御する場面でも、同様の問題点が生じ得る。
【0009】
これに対して、本開示の第1態様に係る制御装置は、複数の制御モデル及び選択モデルを記憶する記憶部、並びに制御部を備える。各制御モデルは、移動体の移動を自動制御するために、制御指令を導出するように構成される。制御部は、選択モデルにより、複数の制御モデルから1つ以上の制御モデルを選択すること、選択された1つ以上の制御モデルを使用して、移動体の制御指令を導出すること、ユーザによる介入の操作がない場合、導出された制御指令に従って、移動体の動作を制御すること、及びユーザによる介入の操作がある場合、導出された制御指令を破棄又は導出された制御指令にオーバーラップして、ユーザによる介入の操作に従い、移動体の動作を制御すること、を実行するように構成される。選択モデルは、ユーザの介入履歴からユーザによる介入の発生を避けるよう1つ以上の制御モデルを選択するように構成される。
【0010】
本開示の第1態様では、選択モデルは、ユーザによる過去の介入操作の記録を示す介入履歴に基づいて、ユーザによる介入の発生を避けるよう制御モデルを選択するように構築される。単純な一例では、選択モデルは、過去に介入の生じた場面において、その場面で使用した制御モデルを新たな機会には使用せず、別の制御モデルを選択するように構築されてよい。このように、介入履歴から構築された選択モデルを用いて、自動制御に使用する制御モデルを調整することで、導出される制御指令をユーザに適合させることができる。これにより、本開示によれば、ユーザによる介入頻度の低減を期待することができる。
【0011】
上記態様に係る制御装置の別の形態として、本開示の一側面は、以上の各構成要素の全部又はその一部を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータ等の機械が読み取り可能な記憶媒体であってもよい。ここで、機械が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。
【0012】
[1 適用例]
図1は、本開示を適用した場面の一例を模式的に示す。本実施形態に係る制御装置1は、対象の移動体Mの自動的な移動を制御するように構成された1台以上のコンピュータである。本実施形態では、制御装置1は、移動体Mに搭載され、選択モデル20及び複数の制御モデル30を保持する。各制御モデル30は、移動体Mの移動の自動制御を実行するために、制御指令を導出するように構成されている。
【0013】
本実施形態では、制御装置1は、選択モデル20により、複数の制御モデル30から1つ以上の制御モデル35を選択し、選択された1つ以上の制御モデル35を使用して、移動体Mの制御指令50を導出する。導出された制御指令50が適切であれば、その制御指令50による自動制御を受け入れやすく、ユーザによる介入の操作55が生じ難いが、導出された制御指令50が適切でなければ、ユーザによる介入の操作55が生じやすいと想定される。例えば、制御モデル35による自動制御における移動体Mの速度がユーザに適していれば、加速又は減速の介入の生じる可能性は低いが、移動体Mの速度が遅い又は早ければ、加速又は減速の介入の生じる可能性は高くなると想定される。
【0014】
制御装置1は、ユーザによる介入の操作55がない場合、導出された制御指令50に従って、移動体Mの動作を制御する。一方で、制御装置1は、ユーザによる介入の操作55
がある場合、導出された制御指令50を破棄又は導出された制御指令50にオーバーラップして、ユーザによる介入の操作55に従い、移動体Mの動作を制御する。介入の操作55が生じた場合、制御装置1は、その介入を示す情報を介入履歴60として記録する。ユーザの介入が生じるほど、介入履歴60は蓄積される。選択モデル20は、ユーザの介入履歴60からユーザによる介入の発生を避けるように1つ以上の制御モデル35を選択するように構成される。
【0015】
過去に介入の生じた場面と同一又は類似する場面において、介入の生じた場面と同じ自動制御を繰り返し遂行すると、ユーザによる介入が再び生じる可能性が高いと推測される。そこで、本実施形態では、ユーザによる過去の介入操作の記録(介入履歴60)から、ユーザによる介入の発生を避けるよう制御モデル35を選択するように選択モデル20を構築する。つまり、本実施形態では、複数の制御モデル30を配備した上で、介入履歴60を使用して、ユーザによる過去の介入の傾向から、自動制御に使用される(すなわち、選択モデル20に選択される)制御モデル35を最適化する。これにより、制御装置1に対して、複数の制御モデル30のうち、過去の介入の傾向から対象の場面でユーザに適合しないと推測される制御モデルの使用を避け、ユーザに適合する可能性の高い制御モデルを積極的に使用させることができる。その結果、本実施形態によれば、ユーザによる介入頻度の低減を期待することができる。加えて、ユーザによる操作頻度を減らすことで、移動体Mの操作具(例えば、移動体Mが車両の場合、ハンドル、アクセルペダル、ブレーキペダル等)の摩耗を抑え、操作具の長寿命化を期待することができる。
【0016】
(移動体)
機械制御により自動的に移動可能であれば、移動体Mの種類は、実施の形態に応じて適宜選択されてよい。移動体Mは、例えば、車両、飛行体、船舶、ロボット装置等の移動可能な装置であってよい。飛行体は、ドローン等の無人機及び有人機の少なくともいずれかであってよい。一例では、
図1のとおり、移動体Mは、車両であってよい。この場合、車両の自動走行を実施する際に、ユーザによる介入頻度の低減を期待することができる。なお、移動体Mが車両である場合、車両の種類(車輪数、動力源、大きさ等)は任意に選択されてよい。典型例として、移動体Mは、レベル2以上の自動運転の能力を有した自動車であってよい。
【0017】
(動作を制御すること)
一例では、対象の移動体Mの動作を制御することは、対象の移動体Mを直接的に制御することにより構成されてよい。他の一例では、移動体Mは、例えば、コントローラ等の専用の制御装置を備えてよい。この場合、制御装置1による対象の移動体Mの動作を制御することは、当該専用の制御装置に導出結果を与えることで、対象の移動体Mを間接的に制御することにより構成されてよい。なお、制御装置1は任意の場所に配備されてよい。一例では、
図1に示されるように、制御装置1は、移動体Mに搭載されてよい。他の一例では、制御装置1は、移動体Mから離れて配置され、移動体Mを遠隔的に制御してもよい。
【0018】
(制御モデル)
各制御モデル30は、移動体Mの環境に応じて制御指令を導出するように構築される。環境は、移動体M自身及び周囲の少なくとも一方で観測される事象である。一例では、少なくとも一部の環境は、移動体Mの内部又は外部に配置された1つ以上のセンサSにより観測されてよい。センサSは、移動体Mの移動する任意の環境を観測可能であれば、その種類は、特に限られなくてよく、実施の形態に応じて適宜選択されてよい。一例では、1つ以上のセンサSは、カメラ(画像センサ)、レーダ、LiDAR(Light Detection And Ranging)、ソナー(超音波センサ)、赤外線センサ、GNSS(Global Navigation Satellite System)/GPS(Global Positioning Satellite)モジュール等を含んでよい。
【0019】
移動体Mの環境から制御指令を導出可能であれば、各制御モデル30の入出力の形式は、実施の形態に応じて適宜選択されてよい。一例では、複数の制御モデル30のうちの少なくともいずれかの制御モデルは、1時点以上のセンサの観測データから制御指令を導出するように構成されてよい。他の一例では、少なくともいずれかの制御モデルは、周辺環境の認識結果から制御指令を導出するように構成されてよい。この場合、制御装置1は、センサの観測データから周辺環境の認識結果を推論する解析モデルを更に備えてよい。或いは、少なくともいずれかの制御モデルは、解析モデルを含んでよい。解析モデルは、任意に構成されてよい。一例では、解析モデルは、機械学習モデルにより構成されてよい。少なくともいずれかの制御モデルの入力には、その他の情報が任意で追加されてよい。少なくともいずれかの制御モデルは、例えば、設定速度、制限速度、位置、地図情報、ナビ情報等の任意の情報の入力を更に受け付けるように構成されてよい。
【0020】
各制御モデル30は、訓練済み機械学習モデル及びルールベースモデルの少なくともいずれかにより構成されてよい。ルールベースモデルは、与えられた入力(例えば、観測データ、周辺環境の認識結果等の環境を示す情報)をルールに照合し、照合の結果に応じて(適合するルールに従って)、制御指令を導出するように構成される。ルールは、手動又は少なくとも一部自動で設定されてよい。機械学習モデルは、機械学習により調整可能な1つ以上の演算パラメータを有するように構成される。1つ以上の演算パラメータは、目的とする推論(本開示では、制御指令の導出)の演算に使用される。機械学習は、学習データを使用して、演算パラメータの値を調整(最適化)することである。機械学習モデルは、例えば、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木モデル等により構成されてよい。機械学習の方法は、採用する機械学習モデルに応じて、適宜選択されてよい(例えば、誤差逆伝播法等)。
【0021】
一例として、少なくともいずれかの制御モデルは、ニューラルネットワークにより構成されてよい。ニューラルネットワークの構造は、実施の形態に応じて適宜決定されてよく、例えば、入力層から出力層までの層の数、各層の種類、各層に含まれるノード(ニューロン)の数、各層のノード同士の結合関係等により特定されてよい。一例では、ニューラルネットワークは、再帰構造を有してよい。また、ニューラルネットワークは、例えば、全結合層、畳み込み層、プーリング層、逆畳み込み層、アンプーリング層、正規化層、ドロップアウト層、LSTM(Long short-term memory)等の任意の層を含んでよい。ニューラルネットワークは、Attention機構等の任意の機構を有してよい。ニューラルネットワー
クは、GNN(Graph neural network)、diffusionモデル、生成モデル(例えば、Generative Adversarial Network、Transformer等)等の任意のモデルを含んでよい。ニューラルネットワークを制御モデルに使用する場合、制御モデルに含まれる各ノード間の結合の重み及び各ノードの閾値が、演算パラメータの一例である。なお、機械学習モデルを採用する場合、制御モデルは、end-to-endモデルの構造で構成されてよい。
【0022】
なお、複数の制御モデル30のうち、少なくともいずれかの制御モデルは、他の制御モデルに対して、同一の環境又は同一の移動態様下で異なる制御指令を導出し得るように構成される。これにより、複数の制御モデル30のうちのいずれかによる自動制御がユーザに適合しなかった(介入が生じた)場合に、別の制御モデルを使用することで、ユーザに適合する自動制御の実行可能性を担保することができる。すなわち、選択モデル20の選択によりユーザに適合する制御モデル35が発見される可能性を確保することができる。
【0023】
一例では、訓練済み機械学習モデル及びルールベースモデルの構造は異なり得る。そのため、訓練済み機械学習モデル及びルールベースモデルの自動制御の特性は互いに相違し得る。そこで、複数の制御モデル30は、1つ以上の訓練済み機械学習モデル及び1つ以上のルールベースモデルを含んでよい。これにより、自動制御の特性のバリエーションを確保し、ユーザに適合する制御モデル30の存在する確率を高めることができる。その結
果、ユーザによる介入頻度の低減をより期待することができる。
【0024】
他の一例では、訓練済み機械学習モデルの自動制御の特性は、学習条件に依存し得る。そのため、異なる学習条件(例えば、機械学習に使用する訓練サンプルが相違する、サンプリング確率を変更する等)で訓練された機械学習モデルの特性は相違し得る。また、機械学習モデルの構造が異なれば、機械学習モデルの推論結果も相違し得る。そこで、複数の制御モデル30は、学習条件及び構造の少なくともいずれかがそれぞれ相違する複数の訓練済み機械学習モデルを含んでよい。これにより、上記と同様の作用効果を期待することができる。複数の制御モデル30が複数のルールベースモデルを含む場合、各ルールベースモデルのルールは相違していてよい。
【0025】
また、シーン毎に要求される制御は異なり得る。そのため、各制御モデル30は、シーン毎に用意されてよい。一例では、移動体Mが車両の場合、車線変更、車線維持、緊急停車(EDSS:Emergency Driving Stop System)等のシーン毎に異なる複数の制御モデル3
0が用意されてよい。この場合、複数の制御モデル30は、自動制御を遂行する対象となるシーンのうちの少なくともいずれか同一又は重複するシーンでの自動制御に使用可能な少なくとも2つ以上の制御モデルを含むように構成されてよい。すなわち、制御装置1は、同一又は重複するシーンを対象に2つ以上の制御モデルを保持してよい。一例として、移動体Mが車両の場合に、複数の制御モデル30は、同一の車線変更を対象とする第1制御モデル及び第2制御モデルを含んでよい。このとき、第1制御モデル及び第2制御モデルは、同一の車線変更の場面でも、車線変更のタイミング、速度、操舵角等の制御内容が互いに相違するよう異なる制御指令を導出するように構成されてよい。
【0026】
(制御指令)
制御指令(制御指令50)は、移動体Mの動作に関する。制御指令の構成は、実施の形態に応じて適宜選択されてよい。一例では、制御指令は、加速、減速、操舵又はこれらの組み合わせにより構成されてよい。加速及び減速は、ギアチェンジを含んでよい。加速、減速及び操舵の少なくともいずれかを含む場合、制御指令は、パスにより表現されてよい。これに応じて、各制御モデル30は、パスプランナと表現されてよい。また、制御指令は、移動体Mの操作に関する指令を更に含んでよい。一例として、移動体Mが車両である場合、制御指令は、ウィンカー、ハザード、クラクション、通信処理(例えば、センタにデータを送信する、緊急コールを発信する等)等の車両操作を含んでよい。
【0027】
一例では、各制御モデル30は、制御指令を直接的に出力するように構成されてよい。他の一例では、各制御モデル30は、制御指令を間接的に出力するように構成され、各制御モデル30の出力に対して任意の情報処理(解釈処理)を実行することで制御指令が得られてもよい。制御指令は、例えば、アクセル制御量、ブレーキ制御量、ハンドル操舵角等の移動体Mの制御量(制御指示値、制御出力量)を直接的に示すように構成されてもよい。或いは、制御指令は、例えば、パス、制御後の状態等のように、移動体Mの制御量を間接的に示すように構成されてよい。この場合、任意の情報処理を実行することで、制御指令から移動体Mの制御量が得られてよい。
【0028】
(1つ以上の制御モデルを選択)
1つ以上の制御モデル35を選択することは、1つの制御モデル35を選択すること、又は2つ以上の制御モデル35を選択することにより構成されてよい。これに応じて、移動体Mの制御指令50を導出することは、選択された1つの制御モデル35から制御指令50を導出すること、又は選択された2つ以上の制御モデル35それぞれから得られた制御指令を統合することで、制御指令50を導出することにより構成されてよい。統合は、合計、平均、加重平均等の任意の演算で実施されてよい。これにより、制御指令50を適切に得ることができる。
【0029】
(破棄又はオーバーラップ)
破棄(無視)は、自動制御から手動制御に即時に切り替えること、すなわち、1つ以上の制御モデル35から導出された制御指令50による制御からユーザによる介入の操作55に従った制御に即時に切り替えることであってよい。一方、オーバーラップは、自動制御から手動制御(ユーザ制御)に徐々に切り替えることであってよい。
【0030】
(選択モデル)
選択モデル20は、介入の発生の蓋然性が低い又は介入が発生しないと介入履歴60から推測される制御モデル35を選択するように構成される。一例では、選択モデル20の選択ルールは、過去に介入が生じた条件の環境と同一又は近傍の環境(すなわち、過去の介入が生じた環境の範囲)で、その際に使用した制御モデルをそのまま使用しないように調整されてよい。同一又は近傍の条件であるか否かは、センサSにより得られる観測データ等の環境の情報から推論されてよい。
【0031】
一例では、選択ルールを規定する方策は、介入の生じた選択モデルを避けて、適当な1つの制御モデルを選択することであってよい(例えば、ランダム、所定順に指定等)。単純には、選択モデル20は、過去に介入が生じた環境の範囲で、その際に使用した制御モデル以外の他の制御モデルを選択するように構成されてよい。好ましくは、選択モデル20は、その際に与えられたユーザによる介入操作の制御指令と同一又は近傍の制御指令を導出可能な1つの制御モデルを選択するように構成されてよい。
【0032】
また、他の一例では、選択ルールを規定する方策は、2つ以上の制御モデルを任意に選択し、選択された2つ以上の制御モデルの統合比率を導出することであってよい。選択モデル20は、過去に介入が生じた環境の範囲で、2つ以上の制御モデルを選択するように構成されてよい。2つ以上の制御モデルは、その際に使用した制御モデル及び1つ以上の他の制御モデル、又はその際に使用した制御モデル以外の2つ以上の他の制御モデルにより構成されてよい。2つ以上の制御モデルの統合比率は、その際のユーザ介入による制御指令に適合するように適宜算出されてよい。
【0033】
制御モデル35の選択に介入履歴60を反映可能であれば、選択モデル20の構成は、実施の形態に応じて適宜決定されてよい。一例では、選択モデル20は、ルールベースモデル及び訓練済み機械学習モデルの少なくともいずれかにより構成されてよい。ルールベースモデルを採用する場合、選択モデル20では、介入履歴60の情報がそのまま選択ルールに反映されてよい。一例では、選択モデル20は、介入履歴60の情報と介入履歴60から選択ルールを設定する基準とで構成されてよい。選択ルールは、手動又は少なくとも部分的に自動で設定されてよい。機械学習モデルを採用する場合、介入履歴60により示される過去に介入が生じた環境を示す情報を訓練サンプル(入力データ)として使用し、上記選択ルールに従って選択される制御モデル(及び統合比率)をラベル(教師信号、正解データ)として使用して、選択モデル20の訓練が実行されてよい。これにより、上記方策に従った選択ルールが反映された訓練済み機械学習モデル(選択モデル20)を生成することができる。
【0034】
なお、複数の制御モデル30は、訓練済み機械学習モデル及びルールベースモデルを含んでよい。これに応じて、1つ以上の制御モデル35を選択することは、訓練済み機械学習モデルを使用して移動体Mの自動制御を実施している間にユーザによる介入が発生したことを示す記録(情報)が介入履歴60に含まれている場合に、当該記録により示される条件下で、ルールベースモデルを選択することを含んでよい。記録により示される条件は、介入の生じた環境と同一又は近傍の範囲であってよい。近傍の範囲は任意に規定されてよい。これにより、訓練済み機械学習モデルがユーザに適合しない環境下で、使用する制
御モデルを訓練済み機械学習モデルからルールベースモデルに切り替えることができる。
【0035】
(介入履歴)
介入履歴60は、過去において複数の制御モデル30の少なくともいずれかを使用して、移動体Mの自動制御を実施している間に発生したユーザによる介入の情報(過去に発生した介入の記録)により構成される。介入履歴60のデータ形式は、実施の形態に応じて適宜決定されてよい。介入履歴60は、任意のデータベース形式で保持されてよい。
【0036】
介入履歴60として保存する情報の項目は、選択モデル20を形成可能であれば、特に限られなくてよく、実施の形態に応じて適宜選択されてよい。一例では、介入履歴60は、介入の生じた環境の条件(位置、ルート等)、及びその条件の環境で使用された制御モデルを識別するための情報(例えば、識別子等)を含んでよい。
【0037】
また、介入履歴60は、選択モデル20の形成に使用する情報の他、制御モデル30の改善に使用可能な情報(ルールを策定するための情報又は機械学習に使用するデータセットを生成するための情報)を更に含んでよい。一例では、介入履歴60は、ユーザによる介入の操作又はその操作による制御指令を更に含んでよい。制御モデル30が機械学習モデルで構成される場合、介入履歴60に含まれる介入の生じた環境の条件を示す情報を訓練サンプルとして使用し、ユーザによる介入の操作又はその操作による制御指令をラベルとして使用して、制御モデル30のアップデートのための機械学習(再学習、追加学習等)が実施されてよい。アップデートのための機械学習は、制御装置1で実行されてもよいし、或いは制御装置1以外のコンピュータ(例えば、外部サーバ)で実行されてもよい。
【0038】
図2は、本実施形態に係る介入履歴60のデータ構成の一例を模式的に示す。
図2の例では、介入履歴60のレコードは、タイムスタンプ、使用された制御モデルの識別情報(使用モデル)、介入の生じた環境の条件、及び介入の操作を示す情報を含む。タイムスタンプは、介入の生じた日時を示す。タイムスタンプにより示される日時は、古いレコードの削除、(一定期間内の介入履歴を選択モデルに反映する場合における)選択モデル20に反映するレコードの特定、等に使用されてよい。なお、介入履歴60のレコードは、介入操作毎に生成されてよい。レコードにより示される介入操作の単位は任意に決定されてよい。一例では、1回の介入操作毎に1件のレコード(介入履歴のサンプル)が生成されてよい。他の一例では、複数回の介入に応じて1件のレコードが生成されてもよい。
【0039】
(ユーザ)
ユーザは、特定のユーザを指してもよいし、或いは不特定のユーザを指してもよい。一例では、対象のユーザが制御装置1を使用している間に、対象のユーザのみの介入履歴60が制御モデル35の選択ルールに反映されてよい。他の一例では、対象ユーザ以外のユーザを含む任意のユーザの介入履歴60が制御モデル35の選択ルールに反映されてもよい。なお、移動体Mが車両の場合、典型的には、ユーザは、ドライバである。
【0040】
[2 構成例]
図3は、本実施形態に係る制御装置1のハードウェア構成の一例を模式的に示す。本実施形態に係る制御装置1は、制御部11、記憶部12、外部インタフェース13、入力装置14、出力装置15、及びドライブ16が電気的に接続されたコンピュータである。
【0041】
制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory
)、ROM(Read Only Memory)等を含み、プログラム及び各種データに基づいて任意の情報処理を実行するように構成される。制御部11(CPU)は、プロセッサ・リソースの一例である。記憶部12は、例えば、ハードディスクドライブ、ソリッドステートドライブ等により構成されてよい。記憶部12(及びRAM、ROM)は、メモリ・リソース
の一例である。本実施形態では、記憶部12は、制御プログラム81、制御モデルデータ300、選択モデルデータ200、介入履歴データ600等の各種情報を記憶する。
【0042】
制御プログラム81は、移動体Mの制御に関する情報処理(後述の
図4)を制御装置1に実行させるためのプログラムである。制御プログラム81は、当該情報処理の一連の命令を含む。制御モデルデータ300は、制御モデル30に関する情報を示すように構成される。選択モデルデータ200は、選択モデル20に関する情報を示すように構成される。一例では、制御モデルデータ300及び選択モデルデータ200の少なくとも一方は、機械学習により調整された演算パラメータの値を示す情報を含んでよい。制御モデルデータ300及び選択モデルデータ200の少なくとも一方は、機械学習モデルの構成(例えば、ニューラルネットワークの構造等)を示す情報を更に含んでもよい。他の一例では、制御モデルデータ300及び選択モデルデータ200の少なくとも一方は、ルールベースモデル(ルール)を示す情報を含んでよい。介入履歴データ600は介入履歴60を示す情報を含むように適宜構成されてよい。
【0043】
外部インタフェース13は、例えば、USB(Universal Serial Bus)ポート、専用ポート、無線通信ポート等であってよく、有線又は無線で外部装置と接続するように構成される。本実施形態では、制御装置1は、外部インタフェース13を介して、センサSに接続されてよい。入力装置14は、例えば、マウス、キーボード等の入力を行うための装置である。出力装置15は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。入力装置14及び出力装置15は、例えば、タッチパネルディスプレイ等により一体的に構成されてもよい。
【0044】
ドライブ16は、記憶媒体91に記憶されたプログラム等の各種情報を読み込むための装置である。上記制御プログラム81、制御モデルデータ300、選択モデルデータ200及び介入履歴データ600の少なくともいずれかは、記憶部12に代えて又は記憶部12と共に、記憶媒体91に格納されていてもよい。記憶媒体91は、コンピュータ等の機械が各種情報(記憶されたプログラム等)を読み取り可能なように、電気的、磁気的、光学的、機械的又は化学的作用により当該情報を蓄積するように構成される。制御装置1は、上記制御プログラム81、制御モデルデータ300、選択モデルデータ200及び介入履歴データ600の少なくともいずれかを記憶媒体91から取得してよい。なお、記憶媒体91は、CD、DVD等のディスク型の記憶媒体であってもよいし、或いは半導体メモリ(例えば、フラッシュメモリ)等のディスク型以外の記憶媒体であってもよい。ドライブ16の種類は、記憶媒体91の種類に応じて適宜選択されてよい。
【0045】
なお、制御装置1の具体的なハードウェア構成に関して、実施の形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部11は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、FPGA(field-programmable gate array)、DSP(digital signal processor)、ECU
(Electronic Control Unit)、GPU(Graphics Processing Unit)等により構成され
てよい。外部インタフェース13、入力装置14、出力装置15及びドライブ16の少なくともいずれかは省略されてもよい。制御装置1は、提供されるサービス専用に設計されたコンピュータの他、汎用のコンピュータ、端末装置等であってよい。
【0046】
[3 動作例]
図4は、本実施形態に係る制御装置1による移動体Mの制御に関する処理手順の一例を示す。以下の処理手順は、コンピュータにより実行される制御方法の一例である。ただし、以下の処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0047】
ステップS101では、制御部11は、取得部111として動作し、センサSの観測データ125を取得する。制御部11は、直接的又は間接的にセンサSから観測データ125を取得してよい。ステップS102では、制御部11は、選択部112として動作し、選択モデル20により、複数の制御モデル30から1つ以上の制御モデル35を選択する。一例では、選択モデル20がルールベースモデルを含む場合、制御部11は、ルールに従って、観測データ125の少なくとも一部により示される環境から制御モデル35の選択結果を導出してよい。他の一例では、選択モデル20が訓練済み機械学習モデルを含む場合、制御部11は、観測データ125の少なくとも一部を訓練済み機械学習モデルに入力し、訓練済み機械学習モデルの演算処理を実行することで、制御モデル35の選択結果を取得してよい。ステップS103では、制御部11は、導出部113として動作し、選択された1つ以上の制御モデル35を使用して、取得された観測データ125の少なくとも一部から移動体Mの制御指令50を導出する。選択モデル20と同様に、一例では、制御モデル35がルールベースモデルを含む場合、制御部11は、ルールに従って、制御指令50を導出してよい。他の一例では、制御モデル35が訓練済み機械学習モデルを含む場合、制御部11は、訓練済み機械学習モデルの演算処理を実行することで、制御指令50を導出してよい。
【0048】
なお、ステップS102では、制御部11は、1つの制御モデル35又は2つ以上の制御モデル35を選択してよい。これに応じて、ステップS103では、制御部11は、選択された1つの制御モデル35から制御指令50を導出してよい。或いは、制御部11は、選択された2つ以上の制御モデル35それぞれから得られた制御指令を統合することで、制御指令50を導出してよい。また、ステップS102及びステップS103の順序はこのような例に限られなくてよい。他の一例では、ステップS103は、ステップS102よりも前に実行されてよい。この場合、制御部11は、選択されるか否かに関係なく、選択される可能性のある全ての制御モデル30から制御指令を導出してよい。そして、制御部11は、導出された制御指令のうち、ステップS102により選択された制御モデル35の制御指令を抽出してもよい。
【0049】
ステップS104では、制御部11は、介入受付部114として動作し、ユーザによる介入の操作55の有無を判定する。制御部11は、移動体Mの動作を制御している間、ユーザによる介入の操作55を随時受け付けてよい。介入の操作55を受け付けた(すなわち、介入の操作55がある)場合、制御部11は、ステップS106に処理を進める。一方で、介入の操作55を受け付けなかった(介入の操作55がない)場合、制御部11は、ステップS105に処理を進める。
【0050】
ステップS105では、制御部11は、動作制御部116として動作し、導出された制御指令50に従って、移動体Mの動作を制御する。動作の制御が完了すると、制御部11は、次のステップS108に処理を進める。
【0051】
ステップS106では、制御部11は、動作制御部116として動作し、導出された制御指令50を破棄又は導出された制御指令50にオーバーラップして、ユーザによる介入の操作55に従い、移動体Mの動作を制御する。ステップS107では、制御部11は、履歴生成部115として動作し、ユーザによる介入の操作55を示す情報を生成し、生成された情報を介入履歴60として所定の記憶領域に保存する。所定の記憶領域(保存先)は任意に選択されてよい。一例では、所定の記憶領域は、RAM、記憶部12、記憶媒体91等であってよい。制御装置1が通信可能に構成されている場合、所定の記憶領域は、外部コンピュータであってもよい。なお、ステップS107の処理タイミングは、このような例に限られなくてよく、適宜変更されてよい。介入履歴60の記録(介入履歴データ600の更新)が完了すると、制御部11は、次のステップS108に処理を進める。
【0052】
ステップS108では、制御部11は、移動体Mの制御を終了するか否かを判定する。判定の基準は任意に設定されてよい。一例では、移動体Mを起動している間、制御部11は、移動体Mの制御を終了しないと判定するのに対して、任意の終了指示(例えば、入力装置14を介したユーザによる終了の操作)に応じて、移動体Mの制御を終了すると判定してよい。制御を終了しないと判定した場合、制御部11は、ステップS101に戻り、ステップS101から処理を再度実行する。一方で、制御を終了すると判定した場合、制御部11は、ステップS109に処理を進める。
【0053】
ステップS109では、制御部11は、モデル更新部117として動作し、生成された介入履歴60により、選択モデル20を更新する。一例では、制御部11は、上記方策に従って、選択モデル20を更新してよい。これにより、選択モデル20は、ユーザの介入履歴60からユーザによる介入の発生を避けるように1つ以上の制御モデル35を選択するように構成される。なお、
図4の例では、制御終了の度にステップS109が実行され、選択モデル20が更新される。しかしながら、ステップS109の処理タイミングは、このような例に限られなくてよく、実施の形態に応じて適宜決定されてよい。他の一例では、制御部11は、一定期間おき(例えば、1か月おき等)にステップS109を実行することで、選択モデル20を更新してよい。選択モデル20の更新が完了すると、制御部11は、本動作例に係る制御装置1の処理手順を終了する。
【0054】
[特徴]
本実施形態では、上記ステップS107及びステップS109の処理により、選択モデル20は、ユーザによる過去の介入操作の記録から、ユーザによる介入の発生を避けるよう制御モデル35を選択するように構築される。この選択モデル20をステップS102で使用することで、制御装置1に対して、複数の制御モデル30のうち、過去の介入の傾向から対象の場面でユーザに適合しないと推測される制御モデルの使用を避け、ユーザに適合する可能性の高い制御モデルを積極的に使用させることができる。その結果、本実施形態によれば、ユーザによる介入頻度の低減を期待することができる。
【0055】
[4 変形例]
以上、本開示の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本開示の例示に過ぎない。本開示の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。本開示において説明した処理及び手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
【符号の説明】
【0056】
1…制御装置、
11…制御部、12…記憶部、
20…選択モデル、30・35…制御モデル、
50…制御指令、55…操作、60…介入履歴
M…移動体、S…センサ