特開2024-176832 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

特開2024-176832モデル生成方法、データ収集方法及び制御プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
8A
8B
9
10A
10B
11A
11B
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024176832

(43)【公開日】2024-12-19

(54)【発明の名称】モデル生成方法、データ収集方法及び制御プログラム

(51)【国際特許分類】

G08G 1/16 20060101AFI20241212BHJP

G06N 20/00 20190101ALI20241212BHJP

【ＦＩ】

G08G1/16 D

G06N20/00 130

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2023095654

(22)【出願日】2023-06-09

(71)【出願人】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】高橋祐希

(72)【発明者】

【氏名】橋本龍

【テーマコード（参考）】

5H181

【Ｆターム（参考）】

5H181AA01

5H181AA25

5H181AA26

5H181BB04

5H181BB05

5H181BB13

5H181BB17

5H181BB20

5H181CC02

5H181CC04

5H181CC11

5H181CC12

5H181FF33

5H181LL01

5H181LL02

5H181LL04

5H181LL09

5H181LL15

(57)【要約】

【課題】適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデルを得るための技術を提供することである。
【解決手段】本開示の一側面に係るモデル生成方法は、コンピュータが、訓練データ及び正解データの組み合わせによりそれぞれ構成される複数のデータセットを取得すること、及び取得された複数のデータセットを使用して、制御モデルの機械学習を実施することを含む。複数のデータセットを使用することは、正解データにより示される制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に使用することを含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータにより実行されるモデル生成方法であって、
前記モデル生成方法は、
移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを取得することと、
取得された前記複数のデータセットを使用して、制御モデルの機械学習を実施することと、
を含み、
前記機械学習を実施することは、前記各データセットについて、前記制御モデルを使用して前記移動体の制御指令を前記訓練データから導出した結果が前記正解データに適合するものとなるように前記制御モデルを訓練することを含み、かつ
前記複数のデータセットを使用することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に使用することを含む、
モデル生成方法。

【請求項2】

前記反応速度が適切と評価されるデータセットほど優先的に使用することは、
前記複数のデータセットのうちの前記反応速度が適切と評価される第１データセットの前記機械学習におけるサンプリング確率を高くし、かつ
前記反応速度が適切と評価されない第２データセットを前記機械学習の対象から除外せず、当該第２データセットの前記機械学習におけるサンプリング確率を前記第１データセットより低くする、
ことにより構成される、
請求項１に記載のモデル生成方法。

【請求項3】

前記移動体は、センサを備え、
前記訓練データは、前記センサにより得られるセンサデータを含み、
前記訓練データにおける前記イベントの開始時刻は、前記センサデータにより特定される、
請求項１又は２に記載のモデル生成方法。

【請求項4】

前記移動体は、車両である、
請求項１又は２に記載のモデル生成方法。

【請求項5】

前記イベントは、先行車両の減速、並走車両のカットイン、駐停車車両の発生、障害物の発生、及び信号機の変化の少なくともいずれかを含む、
請求項４に記載のモデル生成方法。

【請求項6】

前記制御指令は、前記車両の加速、減速及び操舵の少なくともいずれかを含む、
請求項４に記載のモデル生成方法。

【請求項7】

コンピュータにより実行されるデータ収集方法であって、
前記データ収集方法は、
移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを収集することと、
機械学習に使用するために、収集された複数のデータセットを出力することと、
を含み、
前記複数のデータセットを収集することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に収集することを含む、
データ収集方法。

【請求項8】

前記反応速度が適切と評価されるデータセットほど優先的に収集することは、前記コンピュータの記憶領域に一時的に保存されたデータセットのうち、前記所定の条件により前記反応速度が適切であると評価されるデータセットを維持し、前記所定の条件により前記反応速度が適切ではないと評価されるデータセットを削除することにより構成される、
請求項７に記載のデータ収集方法。

【請求項9】

前記複数のデータセットを出力することは、
前記所定の条件により前記反応速度が適切であると評価されるデータセットを外部サーバに送信し、かつ
前記所定の条件により前記反応速度が適切ではないと評価されるデータセットの前記外部サーバへの送信を省略すること、
により構成される、
請求項７に記載のデータ収集方法。

【請求項10】

コンピュータに、
対象の移動体の移動する環境を示す対象データを取得することと、
訓練済みの制御モデルを使用して、取得された対象データから制御指令を導出することと、
前記制御指令を導出した結果に従って、前記対象の移動体の動作を制御することと、
を実行させるための制御プログラムであって、
前記訓練済みの制御モデルは、訓練用の移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記訓練用の移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを使用した機械学習を実施することにより生成されたものであり、
前記機械学習を実施することは、前記各データセットについて、前記制御モデルを使用して前記移動体の制御指令を前記訓練データから導出した結果が前記正解データに適合するものとなるように前記制御モデルを訓練することを含み、かつ
前記複数のデータセットを前記機械学習に使用することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど前記機械学習に優先的に使用することを含む、
制御プログラム。

【請求項11】

前記対象の移動体は、車両である、
請求項１０に記載の制御プログラム。

【請求項12】

前記イベントは、先行車両の減速、並走車両のカットイン、駐停車車両の発生、障害物の発生、及び信号機の変化の少なくともいずれかを含む、
請求項１１に記載の制御プログラム。

【請求項13】

前記制御指令は、前記車両の加速、減速及び操舵の少なくともいずれかを含む、
請求項１１に記載の制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、モデル生成方法、データ収集方法及び制御プログラムに関する。

【背景技術】

【0002】

特許文献１には、運転操作を示す情報及び当該運転操作時における運転状況を示す情報を取得し、取得された情報に基づいて運転状況が学習に適切であるか否かを判定し、並びに不適切と判定された運転状況における運転操作を学習の対象外と判定するように構成された運転支援装置が提案されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－１２７２０７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本開示の目的は、適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデルが得られる蓋然性を高めるための技術又はそれにより得られた訓練済みの機械学習モデルを使用した移動体の制御技術を提供することである。

【課題を解決するための手段】

【0005】

本開示の第１の態様に係るモデル生成方法は、コンピュータにより実行される。当該モデル生成方法は、移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを取得することと、取得された前記複数のデータセットを使用して、制御モデルの機械学習を実施することと、を含む。前記機械学習を実施することは、前記各データセットについて、前記制御モデルを使用して前記移動体の制御指令を前記訓練データから導出した結果が前記正解データに適合するものとなるように前記制御モデルを訓練することを含む。そして、前記複数のデータセットを使用することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に使用することを含む。制御モデルは、ニューラルネットワークにより構成されてよい。

【0006】

本開示の第２の態様に係るデータ収集方法は、コンピュータにより実行される。当該データ収集方法は、移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを収集することと、機械学習に使用するために、収集された複数のデータセットを出力することと、を含む。そして、前記複数のデータセットを収集することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に収集することを含む。

【0007】

本開示の第３の態様に係る制御プログラムは、コンピュータに、対象の移動体の移動する環境を示す対象データを取得することと、訓練済みの制御モデルを使用して、取得された対象データから制御指令を導出することと、前記制御指令を導出した結果に従って、前記対象の移動体の動作を制御することと、を実行させるためのプログラムである。前記訓練済みの制御モデルは、訓練用の移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記訓練用の移動体に対する制御指令を時系列に示す正解データの組み合
わせによりそれぞれ構成される複数のデータセットを使用した機械学習を実施することにより生成されたものである。前記機械学習を実施することは、前記各データセットについて、前記制御モデルを使用して前記移動体の制御指令を前記訓練データから導出した結果が前記正解データに適合するものとなるように前記制御モデルを訓練することを含む。そして、前記複数のデータセットを前記機械学習に使用することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど前記機械学習に優先的に使用することを含む。

【発明の効果】

【0008】

本開示によれば、適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデルが得られる蓋然性を高めるための技術又はそれにより得られた訓練済みの機械学習モデルを使用した移動体の制御技術を提供することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、本開示が適用される場面の一例を模式的に示す。

【図2】図２は、実施の形態に係るモデル生成装置のハードウェア構成の一例を模式的に示す。

【図3】図３は、実施の形態に係る制御装置のハードウェア構成の一例を模式的に示す。

【図4】図４は、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に示す。

【図5】図５は、実施の形態に係る制御装置のソフトウェア構成の一例を模式的に示す。

【図6】図６は、実施の形態に係るモデル生成装置による制御モデルの機械学習に関する処理手順の一例を示すフローチャートである。

【図7A】図７Ａは、実施の形態に係るイベントの一例を模式的に示す。

【図7B】図７Ｂは、図７Ａのイベントにおける反応速度を評価する手法の一例を模式的に示す。

【図8A】図８Ａは、実施の形態に係るイベントの一例を模式的に示す。

【図8B】図８Ｂは、図８Ａのイベントにおける反応速度を評価する手法の一例を模式的に示す。

【図9】図９は、実施の形態に係るイベントの一例を模式的に示す。

【図10A】図１０Ａは、実施の形態に係るイベントの一例を模式的に示す。

【図10B】図１０Ｂは、図１０Ｂのイベントにおける反応速度を評価する手法の一例を模式的に示す。

【図11A】図１１Ａは、実施の形態において、所定の条件により反応速度が適切と評価されるデータセットほど優先的に使用することの一例を模式的に示す。

【図11B】図１１Ｂは、実施の形態において、所定の条件により反応速度が適切と評価されるデータセットほど優先的に使用することの一例を模式的に示す。

【図12】図１２は、実施の形態に係る制御装置による移動体の動作制御に関する処理手順の一例を示すフローチャートである。

【図13】図１３は、本開示が適用される他の場面の一例を模式的に示す。

【図14】図１４は、他の形態に係るデータ収集装置のハードウェア構成の一例を模式的に示す。

【図15】図１５は、他の形態に係るデータ収集装置のソフトウェア構成の一例を模式的に示す。

【図16】図１６は、他の形態に係るデータ収集装置によるデータ収集に関する処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

特許文献１により提案される方法によれば、不適切と判定された運転状況における運転操作を学習の対象外とすることで、適切な運転操作のみを実行する能力を獲得した自動運転モデルが生成されることを期待することができる。しかしながら、本件発明者らは、従来の方法には次のような問題点があることを見出した。

【0011】

すなわち、車両の自動運転を遂行する能力を機械学習によりモデルに獲得させる場面を想定する。この場合、訓練済みの機械学習モデルに獲得される能力は、機械学習に使用される学習データに依存する。学習データは、様々なドライバから収集され得る。このとき、ドライバの能力は一定とは限らない。例えば、先行車の減速等のイベントに対する反応（運転操作の実行）速度の早いドライバが存在する一方で、当該イベントに対する反応速度の遅いドライバも存在する。したがって、収集される学習データに表れるドライバの反応速度は分散し得る。

【0012】

この点に関して、従来の方法では、不適切と判定された運転操作を学習の対象外とするに過ぎない。適切な運転操作でも反応速度の違いは生じ得る。そのため、従来の方法では、適切な反応速度で自動運転を遂行する能力を獲得した訓練済みの機械学習モデルが得られるとは限らなかった。

【0013】

なお、この問題点は、車両の種類（例えば、車輪数（二輪車、四輪車等）、大きさ（大型、普通、小型等）、動力源（電気、燃料等）等）を問わず生じ得る。また、このような問題点が生じるのは、車両を制御する場面に限られない。移動を制御する点では、車両以外の移動体でも同様である。そのため、車両以外のあらゆる移動体（例えば、飛行体（ドローン等）、船舶等）を制御する場面でも、同様の問題点が生じ得る。

【0014】

これに対して、本開示の第１の態様に係るモデル生成方法は、コンピュータにより実行される。当該モデル生成方法は、移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを取得することと、取得された前記複数のデータセットを使用して、制御モデルの機械学習を実施することと、を含む。前記機械学習を実施することは、前記各データセットについて、前記制御モデルを使用して前記移動体の制御指令を前記訓練データから導出した結果が前記正解データに適合するものとなるように前記制御モデルを訓練することを含む。そして、前記複数のデータセットを使用することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に使用することを含む。

【0015】

機械学習により生成される訓練済みモデルの能力は、当該機械学習に使用されるデータセットに依存する。本開示の第１の態様では、反応速度が適切と評価されるデータセットほど機械学習に優先的に使用される。そのため、適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデルが得られる蓋然性を高めることができる。

【0016】

また、本開示の第２の態様に係るデータ収集方法は、コンピュータにより実行される。当該データ収集方法は、移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを収集することと、機械学習に使用するために、収集された複数のデータセットを出力することと、を含む。そして、前記複数のデータセットを収集することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に収集することを含む。

【0017】

本開示の第２の態様では、反応速度が適切と評価されるデータセットほど優先的に収集
することにより、上記第１の態様と同様に、当該反応速度が適切と評価されるデータセットほど機械学習に優先的に使用されるようにすることができる。したがって、適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデルが得られる蓋然性を高めることができる。

【0018】

また、本開示の第３の態様に係る制御プログラムは、コンピュータに、対象の移動体の移動する環境を示す対象データを取得することと、訓練済みの制御モデルを使用して、取得された対象データから制御指令を導出することと、前記制御指令を導出した結果に従って、前記対象の移動体の動作を制御することと、を実行させるためのプログラムである。前記訓練済みの制御モデルは、訓練用の移動体の移動する環境を時系列に示す訓練データ及び前記環境における前記訓練用の移動体に対する制御指令を時系列に示す正解データの組み合わせによりそれぞれ構成される複数のデータセットを使用した機械学習を実施することにより生成されたものである。前記機械学習を実施することは、前記各データセットについて、前記制御モデルを使用して前記移動体の制御指令を前記訓練データから導出した結果が前記正解データに適合するものとなるように前記制御モデルを訓練することを含む。そして、前記複数のデータセットを前記機械学習に使用することは、前記正解データにより示される前記制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど前記機械学習に優先的に使用することを含む。

【0019】

上記各態様のとおり、反応速度が適切と評価されるデータセットほど機械学習に優先的に使用することで、適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデルを得ることができる。本開示の第３の態様によれば、そのような訓練済みの制御モデル（機械学習モデル）を使用することで、適切な反応速度で移動体の制御を遂行可能であることを期待することができる。

【0020】

以下、本開示の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本開示の例示に過ぎない。本開示の範囲を逸脱することなく種々の改良又は変形が行われてよい。本開示の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

【0021】

［１適用例］
図１は、本開示を適用した場面の一例を模式的に示す。本実施形態に係るシステムは、モデル生成装置１及び制御装置２を備える。

【0022】

本実施形態に係るモデル生成装置１は、機械学習を実施することで、訓練済みの制御モデル５を生成するように構成される１台以上のコンピュータである。本実施形態では、モデル生成装置１は、訓練データ４１及び正解データ４５の組み合わせによりそれぞれ構成される複数のデータセット４を取得する。訓練データ４１は、移動体（訓練用の移動体）の移動する環境を時系列に示すように構成される。正解データ４５は、対応する訓練データ４１により示される環境における移動体に対する制御指令の真値を時系列に示すように構成される。

【0023】

モデル生成装置１は、取得された複数のデータセット４を使用して、制御モデル５の機械学習を実施する。この機械学習を実施することは、各データセット４について、制御モデル５を使用して移動体の制御指令を訓練データ４１から導出した結果が対応する正解データ４５に適合するものとなるように制御モデル５を訓練することを含む。そして、当該機械学習において、複数のデータセット４を使用することは、正解データ４５により示さ
れる制御指令のイベントに対する反応速度が所定の条件に適合することで当該反応速度が適切と評価されるデータセットほど優先的に使用することを含む。この機械学習により、移動体の移動する環境に応じて制御指令を導出する能力を獲得した訓練済みの制御モデル５を生成することができる。

【0024】

一方、本実施形態に係る制御装置２は、訓練済みの制御モデル５を使用して、対象の移動体Ｍの移動を制御するように構成された１台以上のコンピュータである。本実施形態では、制御装置２は、対象の移動体Ｍの移動する環境を示す対象データ２２１を取得する。制御装置２は、訓練済みの制御モデル５を使用して、取得された対象データ２２１から制御指令を導出する。そして、制御装置２は、制御指令を導出した結果に従って、対象の移動体Ｍの動作を制御する。

【0025】

以上のとおり、本実施形態では、モデル生成装置１において、反応速度が適切と評価されるデータセットほど機械学習に優先的に使用して、訓練済みの制御モデル５が生成される。機械学習により生成される訓練済みモデルの能力は、当該機械学習に使用されるデータセットに依存するため、本実施形態によれば、適切な反応速度で移動体の制御を遂行する能力を習得した訓練済みの制御モデル５の獲得を期待することができる。そして、本実施形態に係る制御装置２では、そのような訓練済みの制御モデル５を使用することで、適切な反応速度で対象の移動体Ｍの制御を遂行可能であることを期待することができる。

【0026】

（移動体）
機械制御により自動的に移動可能であれば、移動体（移動体Ｍ）の種類は、特に限られなくてよく、実施の形態に応じて適宜選択されてよい。移動体（移動体Ｍ）は、例えば、車両、飛行体、船舶、ロボット装置等の任意の移動可能な装置であってよい。飛行体は、ドローン等の無人機及び有人機の少なくともいずれかであってよい。

【0027】

一例では、図１に示されるとおり、移動体（移動体Ｍ）は、車両であってよい。この場合、モデル生成装置１では、適切な反応速度で車両の制御を遂行する能力を習得した訓練済みの制御モデル５の獲得を期待することができる。また、制御装置２では、そのような訓練済みの制御モデル５を使用することで、適切な反応速度で対象の車両の制御を遂行可能であることを期待することができる。

【0028】

なお、移動体が車両である場合、車両の種類は任意に選択されてよい。車両は、例えば、二輪車、三輪車、四輪車等から選択されてよい。車両の動力源は、例えば、電気、燃料等から選択されてよい。車両が自動車である場合、車両の大きさは、大型、中型、準中型、普通、大型特殊、小型特殊等から選択されてよい。車両が二輪車である場合、車両の大きさは、大型、普通等から選択されてよい。典型例として、移動体（移動体Ｍ）は、レベル２以上の自動運転の能力を有した自動車であってよい。

【0029】

（環境／センサ）
環境は、移動体自身及び周囲の少なくとも一方で観測される事象である。一例では、少なくとも一部の環境は、移動体（移動体Ｍ）の内部又は外部に配置された１つ以上のセンサＳにより観測されてよい。これに応じて、訓練データ４１及び対象データ２２１はそれぞれ、１つ以上のセンサＳにより得られるセンサデータＳＤを含んでよい。

【0030】

センサＳは、移動体の移動する任意の環境を観測可能であれば、その種類は、特に限られなくてよく、実施の形態に応じて適宜選択されてよい。一例では、１つ以上のセンサＳは、カメラ（画像センサ）、レーダ、LiDAR（Light Detection And Ranging）、ソナー（超音波センサ）、赤外線センサ、ＧＮＳＳ（Global Navigation Satellite System）／ＧＰＳ（Global Positioning Satellite）モジュール等を含んでよい。

【0031】

（制御指令）
制御指令は、移動体の動作に関する。制御指令の構成は、実施の形態に応じて適宜決定されてよい。例えば、制御指令は、加速、減速、操舵又はこれらの組み合わせにより構成されてよい。加速及び減速は、ギアチェンジを含んでよい。この場合、モデル生成装置１では、加速、減速、操舵又はこれらの組み合わせの制御を適切な反応速度で遂行する能力を習得した訓練済みの制御モデル５の獲得を期待することができる。また、制御装置２では、そのような訓練済みの制御モデル５を使用することで、加速、減速、操舵又はこれらの組み合わせの制御を適切な反応速度で遂行可能であることを期待することができる。

【0032】

一例では、移動体（移動体Ｍ）が車両である場合に、制御指令は、当該車両の加速、減速及び操舵の少なくともいずれかを含んでよい。加速、減速及び操舵の少なくともいずれかを含む場合、制御指令は、パスにより表現されてよい。これに応じて、制御モデル５は、パスプランナと表現されてよい。

【0033】

また、制御指令は、移動体の操作に関する指令を更に含んでよい。一例として、移動体（移動体Ｍ）が車両である場合、制御指令は、ウィンカー、ハザード、クラクション、通信処理（例えば、センタにデータを送信する、緊急コールを発信する等）等の車両操作を含んでよい。

【0034】

（データセット）
各データセット４は、適宜生成されてよい。各データセット４は、コンピュータの動作により自動的に生成されてもよいし、或いは少なくとも部分的にオペレータの操作を含むことで手動的に生成されてもよい。典型的には、被験者が全て手動操作で移動体を制御している間に、当該移動体の操作データ及び環境データが収集されてよい。環境データ（観測データ）は、移動体に搭載されたセンサＳにより得られてよい。操作データは、被験者による手動操作を記録することで得られてよい。そして、各データセット４の訓練データ４１は、環境データから生成されてよい。正解データ４５は、操作データから生成されてよい。すなわち、典型的には、被験者による手動操作（例えば、車両の手動運転）の結果からデータセット４が生成されてよい。移動体を利用してデータセット４を得る場合、データセット４を得る対象となる移動体は、生成された訓練済みの制御モデル５を使用する対象となる移動体Ｍを含んでいてもよいし、移動体Ｍを含んでいなくてもよい。すなわち、訓練用の移動体は、対象の移動体Ｍを含んでもよいし、対象の移動体Ｍを含んでいなくてもよい。訓練用の移動体は、エンドユーザにより使用される移動体を含んでよい。この場合、エンドユーザが、被検者であってよい。また、訓練用の移動体は、実験的に使用される移動体を含んでよい。

【0035】

ただし、データセット４を生成する方法は、このような例に限られなくてよく、実施の形態に応じて適宜選択されてよい。他の一例では、上記一例と同様に、被験者による手動操作の結果からデータセット４が生成されてもよいが、手動操作は、任意の自動制御に対するオーバーライド操作等の部分的な自動制御の動作中における被験者による操作を含んでよい。他の一例では、少なくとも一部のデータセット４は、シミュレーション等の仮想的な方法により得られてよい。他の一例では、少なくとも一部のデータセット４は、強化学習のフレームワークにより獲得されてもよい。また、他の一例では、少なくとも一部のデータセット４は、任意のデータセットに対するデータ拡張（Data Augmentation）によ
り得られてもよい。データ拡張は、訓練データの属性値を変更することで、新たな訓練データを生成することにより構成される。例えば、訓練データが画像を含む場合、パラメータの変更は、画像に対する平行移動、拡大、縮小、回転、ノイズ付与等の画像処理により構成されてよい。少なくとも一部のデータセット４をデータ拡張により得る場合、任意のデータセット（元のデータセット）の訓練データに対して反応速度及び反応速度に依存す
る属性の少なくともいずれか以外の他の属性の値を変更し、それに応じた正解データを付与することで、１以上の新たなデータセットが生成されてよい。複数のデータセット４は、生成された新たなデータセットを含んでよい。

【0036】

（制御モデル）
制御モデル５は、機械学習により調整可能な１つ以上の演算パラメータを有する機械学習モデルにより構成される。１つ以上の演算パラメータは、目的とする推論（本件では、制御指令の導出）の演算に使用される。機械学習は、学習データ（本件では、複数のデータセット４）を使用して、演算パラメータの値を調整（最適化）することである。機械学習モデルの構成及び種類はそれぞれ、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。機械学習モデルは、例えば、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木モデル等により構成されてよい。

【0037】

一例として、制御モデル５は、ニューラルネットワークにより構成されてよい。ニューラルネットワークの構造は、実施の形態に応じて適宜決定されてよい。ニューラルネットワークの構造は、例えば、入力層から出力層までの層の数、各層の種類、各層に含まれるノード（ニューロン）の数、各層のノード同士の結合関係等により特定されてよい。一例では、ニューラルネットワークは、再帰構造を有してもよい。また、ニューラルネットワークは、例えば、全結合層、畳み込み層、プーリング層、逆畳み込み層、アンプーリング層、正規化層、ドロップアウト層、LSTM（Long short-term memory）等の任意の層を含んでよい。ニューラルネットワークは、Attention機構等の任意の機構を有してもよい。制
御モデル５（ニューラルネットワーク）は、ＧＮＮ（Graph neural network）、diffusionモデル、生成モデル（例えば、Generative Adversarial Network、Transformer等）等の任意のモデルを含んでよい。ニューラルネットワークを制御モデル５に使用する場合、制御モデル５（ニューラルネットワーク）に含まれる各ノード間の結合の重み及び各ノードの閾値が、演算パラメータの一例である。

【0038】

移動体の環境から制御指令を導出可能であれば、制御モデル５の入出力の形態は、特に限られなくてよく、実施の形態に応じて適宜選択されてよい。例えば、制御モデル５は、１以上の時点の環境データから１以上の時点の制御指令を導出するように構成されてよい。また、制御モデル５は、その構造により時系列データを受け入れ可能に構成されてよい。一例として、制御モデル５は、再帰型に構成されることで、時系列データを受け入れ可能に構成されてよい。他の一例として、制御モデル５は、複数の時点の環境データを一括で入力されるように構成されてもよい。或いは、制御モデル５は、構造上は、時系列データを受け入れ不能に構成されてよい。例えば、制御モデル５は、１時点の環境データから１時点の制御指令を導出するように構成されてよい。この場合、制御モデル５は、時系列データにおける各時点のデータを順次受け取り、演算結果を順次出力することにより、時系列データに対する演算結果を得るように使用されてよい。更に、制御モデル５は、制御指令を即時的に導出するように構成されてよい。或いは、制御モデル５は、複数の未来の時点の制御指令を一括で導出するように構成されてよい。この場合、一括で導出される制御指令の少なくとも一部が移動体（移動体Ｍ）の制御に使用されてよい。

【0039】

制御モデル５は、移動体の環境から制御指令を導出する推論処理の少なくとも一部に関与しているのであれば、制御モデル５により実行される処理内容は、特に限られなくてよく、実施の形態に応じて適宜選択されてよい。一例では、制御モデル５は、周辺認識及びパスプランニング（経路／軌道計画）を実行するように構成されてよい。制御モデル５は、モーションプランニング（動作／制御計画）を更に実行するように構成されてもよい。すなわち、制御モデル５は、end-to-endモデルであってよい。

【0040】

また、制御モデル５の出力により移動体の動作を制御可能であれば、制御モデル５の出
力形式は、実施の形態に応じて適宜選択されてよい。制御モデル５は、制御指令を直接的に出力するように構成されてもよい。或いは、制御モデル５の出力に対して任意の情報処理（解釈処理）を実行することで制御指令が得られてもよい。制御指令は、例えば、アクセル制御量、ブレーキ制御量、ハンドル操舵角等の移動体の制御量（制御指示値、制御出力量）を直接的に示すように構成されてもよい。或いは、制御指令は、例えば、パス、制御後の状態等のように、移動体の制御量を間接的に示すように構成されてよい。この場合、任意の情報処理を実行することで、制御指令から移動体の制御量が得られてよい。一例では、移動体が車両の場合、制御モデル５から得られた推論結果を車両モデルに適用することで、車両の制御量が得られてよい。車両モデルは、アクセル、ブレーキ、ハンドル操舵等の各種パラメータを有してよく、間接情報（パス、制御後状態等）から制御量を導出するよう適宜構成されてよい。

【0041】

なお、各データセット４の正解データ４５は、制御指令を直接的又は間接的に示すように適宜構成されてよい。制御モデル５の出力から任意の演算処理を実行することで制御指令が導出される場合、正解データ４５は、制御モデル５の出力から導出される制御指令に対して与えられてもよい（すなわち、正解データ４５は、制御指令を直接的に示すように構成されてよい）。或いは、正解データ４５は、制御モデル５の出力に対して与えられてよい（すなわち、正解データ４５は、制御指令を間接的に示すように構成されてよい）。

【0042】

（イベント）
イベントは、移動体の操作に関与し得るあらゆる事象を含んでよい。また、イベントは、センサＳにより検知可能なあらゆる事象を含んでよい。センサＳにより検知することは、センサ値により判定することである。すなわち、イベントの開始時刻が、センサデータにより特定されてよい。検知（判定、特定）方法は、イベントに応じて適宜決定されてよい。センサデータは任意の方法で解析されてよく、これにより、イベントの開始時刻が特定されてよい（すなわち、イベントの発生が検知されてよい）。

【0043】

これに応じて、移動体（移動体Ｍ）は、センサＳを備えてよい。訓練データ４１は、センサＳにより得られるセンサデータＳＤを含んでよい。そして、訓練データ４１におけるイベントの開始時刻は、センサデータＳＤにより特定されてよい。これにより、各データセット４における反応速度を機械的に評価可能であるため、機械学習において優先的に使用するデータセット４の判別の効率化を図ることができる。すなわち、優先的に使用するデータセット４の選別作業を少なくとも部分的に自動化することができ、これにより、手間の削減を図ることができる。なお、イベントに対する操作の開始時刻は、正解データ４５に表れる。そのため、この形態では、訓練データ４１及び正解データ４５からイベントに対する反応速度（すなわち、イベントの発生時刻から操作の開始時刻までの時間）を特定することができる。

【0044】

（イベントの例）
一例として、移動体（移動体Ｍ）が車両の場合、イベントは、当該車両に対する先行車両の減速、並走車両のカットイン、駐停車車両の発生、障害物の発生、及び信号機の変化の少なくともいずれかを含んでよい。障害物は、車両の走行を阻害する可能性を有するあらゆる物体を含んでよい。障害物は、例えば、歩行者、自転車等であってよい。この場合、モデル生成装置１では、これらのイベントの少なくともいずれかに対して、適切な反応速度で車両の制御を遂行する能力を習得した訓練済みの制御モデル５の獲得を期待することができる。また、制御装置２では、そのような訓練済みの制御モデル５を使用することで、これらのイベントの少なくともいずれかに対して、適切な反応速度で対象の車両の制御を遂行可能であることを期待することができる。

【0045】

なお、自動運転（自動制御）の対象とするイベントに先行車両の減速が含まれる場合、
制御指令は、先行車両に応じた減速の指令を含んでよい。対象とするイベントに並走車両のカットインが含まれる場合、制御指令は、並走車両に応じた減速の指令を含んでよい。対象とするイベントに駐停車車両の発生が含まれる場合、制御指令は、駐停車車両に応じた減速及び操舵の少なくともいずれかを含んでよい。対象とするイベントに障害物の発生が含まれる場合、制御指令は、障害物に応じた減速及び操舵の少なくともいずれかを含んでよい。対象とするイベントに信号機の変化が含まれる場合、制御指令は、信号機に応じた加速又は減速の指令を含んでよい。これらのイベントは、他種の移動体（例えば、飛行体、船舶等）にも転用されてよい。

【0046】

（所定の条件に適合する）
所定の条件は、イベントに応じて適切な反応速度を評価可能に適宜規定されてよい。一例では、所定の条件は、反応速度が速いほど適切と評価するように規定されてよい。この場合、イベントに対する反応速度が速いデータセットほど（適切な反応速度と評価され）機械学習に優先的に使用されてよい。ただし、所定の条件は、このような例に限定されなくてよい。他の一例では、所定の条件は、適切な反応速度の範囲（上限値及び下限値）を規定してよい。この場合、所定の条件で規定された範囲に反応速度が属するデータセットは機械学習に優先的に使用され、それ以外のデータセット（すなわち、所定の条件で規定された範囲の反応速度より反応速度が速い又は遅いデータセット）は機械学習に優先的には使用されなくてよい。

【0047】

（優先的に使用）
反応速度が適切と評価されるデータセットほど優先的に使用することは、優先的に使用されるデータセットが、優先的に使用されないデータセットより制御モデル５の訓練に反映されやすくする任意の方法で構成されてよい。

【0048】

一例として、優先するか否かに応じて、単純に使用するか否かを決定してよい。すなわち、反応速度が適切と評価されるデータセットほど優先的に使用することは、反応速度が適切と評価されるデータセットを制御モデル５の訓練に使用し、反応速度が適切と評価されていないデータセットを制御モデル５の訓練に使用しないことにより構成されてよい。この方法によれば、反応速度の評価を極めて簡単に機械学習に反映することができる。

【0049】

他の一例として、複数のデータセット４のうちの反応速度が適切と評価されるデータセットを第１データセットとし、反応速度が適切と評価されない（すなわち、所定の条件に適合しない）データセットを第２データセットとする。反応速度が適切と評価されるデータセットほど優先的に使用することは、複数のデータセット４のうちの第１データセットの機械学習におけるサンプリング確率を高くし、かつ第２データセットの機械学習におけるサンプリング確率を第１データセットより低くすることにより構成されてよい。

【0050】

この場合、反応速度が適切と評価されるデータセットほど優先的に使用することは、第２データセットの少なくとも一部を機械学習の対象から除外する（すなわち、サンプリング確率を０にする）ことにより更に構成されてよい。或いは、反応速度が適切と評価されるデータセットほど優先的に使用することは、第２データセットを機械学習の対象から除外しない（すなわち、サンプリング確率を０にしない）ことにより更に構成されてよい。実際の場面では、外的要因により、適正な操作として、反応速度の遅い操作が実行されることもあり得る。例えば、急ブレーキ、急操舵等の急な操作が、反応速度の遅い操作として想定される。また、イベントが検知された後、操作を要するまでの期間が長いことで、見かけ上、反応速度が遅いと評価される可能性もあり得る。この点、第２データセットを機械学習の対象から除外しないことで、これらの操作も制御モデル５に習得させることができる。そのため、イベントに対する操作のロバスト性の向上を期待することができる。

【0051】

更に他の一例として、反応速度が適切と評価されるデータセットほど優先的に使用することは、複数のデータセット４のうちの第１データセットの訓練の重みを大きくし、第２データセットの訓練の重みを小さくすることにより構成されてよい。例えば、訓練の重みを大きくすることは、学習率を高くすることにより構成され、訓練の重みを小さくすることは、学習率を低くすることにより構成されてよい。つまり、反応速度が適切と評価されるデータセットほど優先的に使用することは、１回の訓練における制御モデル５のパラメータの更新量が優先されるデータセットほど大きくなるようにすることにより構成されてよい。更に他の一例では、優先的に使用することは、上記サンプリング確率及び重みの両方の手法を含んでよい。

【0052】

なお、使用に対する優先度は、適宜設定されてよい。一例では、優先度は、２段階（すなわち、優先する／優先しないの２段階）であってよい。他の一例では、優先度は、３段階以上に設定されてよい。この場合、優先的に使用されるデータセットの間で、優先度が相違してよい（すなわち、優劣があってよい）。同様に、優先的に使用されないデータセットの間で優先度が相違してもよい。

【0053】

（動作を制御すること）
一例では、対象の移動体Ｍの動作を制御することは、対象の移動体Ｍを直接的に制御することにより構成されてよい。他の一例では、移動体（移動体Ｍ）は、例えば、コントローラ等の専用の制御装置を備えてよい。この場合、制御装置２による対象の移動体Ｍの動作を制御することは、当該専用の制御装置に導出結果を与えることで、対象の移動体Ｍを間接的に制御することにより構成されてよい。

【0054】

（システム構成）
一例では、図１に示されるとおり、モデル生成装置１及び制御装置２は、ネットワークを介して互いに通信（接続）可能に構成されてよい。ネットワークの種類は、特に限定されなくてよく、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。ただし、モデル生成装置１及び制御装置２の間でデータをやり取りする方法は、このような例に限定されなくてよく、実施の形態に応じて適宜選択されてよい。他の一例では、記憶媒体を利用して、データのやり取りが行われてよい。

【0055】

また、図１の例では、モデル生成装置１及び制御装置２は、それぞれ別個のコンピュータである。しかしながら、システム構成は、このような例に限定されなくてよい。他の一例では、モデル生成装置１及び制御装置２は、一体のコンピュータにより構成されてよい。また、モデル生成装置１及び制御装置２の少なくとも一方は、複数台のコンピュータにより構成されてよい。

【0056】

また、図１の例では、制御装置２は、移動体Ｍの内部に搭載されている。しかしながら、制御装置２の配置は、このような例に限られなくてよい。制御装置２は、移動体Ｍの動作を直接的又は間接的に制御可能であれば、移動体Ｍの外部に配置されてもよい。

【0057】

［２構成例］
［ハードウェア構成例］
＜モデル生成装置＞
図２は、本実施形態に係るモデル生成装置１のハードウェア構成の一例を模式的に示す。図２に示されるとおり、本実施形態に係るモデル生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、入力装置１４、出力装置１５、及びドライブ１６が電気的に接続されたコンピュータである。

【0058】

制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、
ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。制御部１１（ＣＰＵ）は、プロセッサ・リソースの一例である。

【0059】

記憶部１２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等により構成されてよい。記憶部１２（及びＲＡＭ、ＲＯＭ）は、メモリ・リソースの一例である。本実施形態では、記憶部１２は、モデル生成プログラム８１、複数のデータセット４、学習結果データ１２５等の各種情報を記憶する。

【0060】

モデル生成プログラム８１は、制御モデル５の機械学習に関する情報処理（後述の図６）をモデル生成装置１に実行させるためのプログラムである。モデル生成プログラム８１は、当該情報処理の一連の命令を含む。学習結果データ１２５は、生成された訓練済みの制御モデル５に関する情報を示すように構成される。本実施形態では、学習結果データ１２５は、モデル生成プログラム８１を実行した結果として生成される。

【0061】

通信インタフェース１３は、ネットワークを介した有線又は無線通信を行うためのインタフェースである。通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等により構成されてよい。モデル生成装置１は、通信インタフェース１３を介して、他のコンピュータ（例えば、制御装置２）との間でデータ通信を実行してよい。

【0062】

入力装置１４は、例えば、マウス、キーボード等の入力を行うための装置である。出力装置１５は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置１４及び出力装置１５を利用することで、モデル生成装置１を操作することができる。入力装置１４及び出力装置１５は、例えば、タッチパネルディスプレイ等により一体的に構成されてもよい。

【0063】

ドライブ１６は、記憶媒体９１に記憶されたプログラム等の各種情報を読み込むための装置である。上記モデル生成プログラム８１、複数のデータセット４及び学習結果データ１２５の少なくともいずれかは、記憶部１２に代えて又は記憶部１２と共に、記憶媒体９１に格納されていてもよい。記憶媒体９１は、コンピュータ等の機械が各種情報（記憶されたプログラム等）を読み取り可能なように、電気的、磁気的、光学的、機械的又は化学的作用により当該情報を蓄積するように構成される。モデル生成装置１は、モデル生成プログラム８１及び複数のデータセット４の少なくともいずれかを記憶媒体９１から取得してよい。

【0064】

ここで、図２では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限られなくてよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。ドライブ１６の種類は、記憶媒体９１の種類に応じて適宜選択されてよい。

【0065】

なお、モデル生成装置１の具体的なハードウェア構成に関して、実施の形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）、
ＥＣＵ（Electronic Control Unit）、ＧＰＵ（Graphics Processing Unit）等により構
成されてよい。通信インタフェース１３、入力装置１４、出力装置１５及びドライブ１６の少なくともいずれかは省略されてもよい。モデル生成装置１は、複数台のコンピュータにより構成されてよい。この場合、各コンピュータのハードウェア構成は、一致していて
もよいし、或いは一致していなくてもよい。モデル生成装置１は、提供されるサービス専用に設計されたコンピュータの他、汎用のサーバ装置、汎用のＰＣ（Personal Computer
）、産業用ＰＣ、端末装置（例えば、タブレットＰＣ等）等であってよい。

【0066】

＜制御装置＞
図３は、本実施形態に係る制御装置２のハードウェア構成の一例を模式的に示す。図３に示されるとおり、本実施形態に係る制御装置２は、制御部２１、記憶部２２、通信インタフェース２３、入力装置２４、出力装置２５、ドライブ２６及び外部インタフェース２７が電気的に接続されたコンピュータである。

【0067】

制御装置２の制御部２１～ドライブ２６及び記憶媒体９２はそれぞれ、上記モデル生成装置１の制御部１１～ドライブ１６及び記憶媒体９１それぞれと同様に構成されてよい。制御部２１（ＣＰＵ）は、制御装置２のプロセッサ・リソースの一例であり、記憶部２２（及びＲＡＭ、ＲＯＭ）は、制御装置２のメモリ・リソースの一例である。本実施形態では、記憶部２２は、制御プログラム８２、学習結果データ１２５等の各種情報を記憶する。

【0068】

制御プログラム８２は、訓練済みの制御モデル５による対象の移動体Ｍの自動制御に関する情報処理（後述の図１２）を制御装置２に実行させるためのプログラムである。制御プログラム８２は、当該情報処理の一連の命令を含む。制御プログラム８２及び学習結果データ１２５の少なくともいずれかは、記憶部２２に代えて又は記憶部２２と共に、記憶媒体９２に格納されていてもよい。制御装置２は、制御プログラム８２及び学習結果データ１２５の少なくともいずれかを記憶媒体９２から取得してよい。

【0069】

制御装置２は、通信インタフェース２３を介して、他のコンピュータ（例えば、モデル生成装置１）との間でデータ通信を行ってよい。オペレータは、入力装置２４及び出力装置２５を利用することで、制御装置２を操作することができる。入力装置２４及び出力装置２５は、例えば、タッチパネルディスプレイ等により一体的に構成されてもよい。

【0070】

外部インタフェース２７は、外部装置と接続するためのインタフェースである。外部インタフェース２７は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であってよい。外部インタフェース２７の種類及び数は、接続される外部装置の種類及び数に応じて適宜決定されてよい。本実施形態では、制御装置２は、外部インタフェース２７を介して、センサＳに接続されてよい。対象データ２２１の少なくとも一部は、センサＳにより得られるセンサデータにより構成されてよい。なお、センサＳの接続方法は、このような例に限定されなくてよい。他の一例では、センサＳは、通信インタフェース２３を介して接続されてよい。

【0071】

なお、制御装置２の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部２１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ、ＥＣＵ、ＧＰＵ等により構成されてよい。通信インタフェース２３、入力装置２４、出力装置２５、ドライブ２６及び外部インタフェース２７の少なくともいずれかは省略されてもよい。制御装置２は、複数台のコンピュータにより構成されてよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、或いは一致していなくてもよい。制御装置２は、提供されるサービス専用に設計されたコンピュータの他、汎用のコンピュータ、スマートフォンを含む携帯電話、タブレットＰＣ（Personal Computer）等であってよい。移動体Ｍが車両の場合、制御装置２は、車載装置であってよい。

【0072】

［ソフトウェア構成例］
＜モデル生成装置＞
図４は、本実施形態に係るモデル生成装置１のソフトウェア構成の一例を模式的に示す。モデル生成装置１の制御部１１は、記憶部１２に記憶されたモデル生成プログラム８１をＲＡＭに展開し、モデル生成プログラム８１に含まれる命令をＣＰＵにより実行する。これにより、モデル生成装置１は、学習データ取得部１１１、学習処理部１１２、及び保存処理部１１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

【0073】

学習データ取得部１１１は、訓練データ４１及び正解データ４５の組み合わせによりそれぞれ構成される複数のデータセット４を取得するように構成される。学習処理部１１２は、取得された複数のデータセット４を使用して、制御モデル５の機械学習を実施するように構成される。本実施形態では、機械学習を実施することは、各データセット４について、制御モデル５を使用して移動体の制御指令を訓練データ４１から導出した結果が対応する正解データ４５に適合するものとなるように制御モデル５を訓練することを含む。また、当該機械学習において、複数のデータセット４を使用することは、正解データ４５により示される制御指令のイベントに対する反応速度が所定の条件に適合することで当該反応速度が適切と評価されるデータセットほど優先的に使用することを含む。この機械学習の実行により、訓練済みの制御モデル５が生成される。

【0074】

保存処理部１１３は、機械学習により生成された訓練済みの制御モデル５を保存するように構成される。一例では、保存処理部１１３は、機械学習の結果として生成された訓練済みの制御モデル５を示す学習結果データ１２５を生成するように構成されてよい。訓練済みの制御モデル５の演算処理を実行するための情報を保持可能であれば、学習結果データ１２５の構成は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例として、学習結果データ１２５は、機械学習により調整された演算パラメータの値を示す情報を含むように構成されてよい。場合によっては、学習結果データ１２５は、訓練済みの制御モデル５の構成（例えば、ニューラルネットワークの構造等）を示す情報を含むように構成されてもよい。保存処理部１１３は、生成された学習結果データ１２５を所定の記憶領域に保存するように構成されてよい。学習結果データ１２５は、任意のタイミングで制御装置２に提供されてよい。

【0075】

＜制御装置＞
図５は、本実施形態に係る制御装置２のソフトウェア構成の一例を模式的に示す。制御装置２の制御部２１は、記憶部２２に記憶された制御プログラム８２をＲＡＭに展開し、制御プログラム８２に含まれる命令をＣＰＵにより実行する。これにより、図５に示されるとおり、本実施形態に係る制御装置２は、取得部２１１、導出部２１２、及び動作制御部２１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置１と同様に、制御装置２の各ソフトウェアモジュールも、制御部２１（ＣＰＵ）により実現される。

【0076】

取得部２１１は、対象の移動体Ｍの移動する環境を示す対象データ２２１を取得するように構成される。導出部２１２は、学習結果データ１２５を保持していることで、上記モデル生成装置１により生成された訓練済みの制御モデル５を備えている。導出部２１２は、訓練済みの制御モデル５を使用して、取得された対象データ２２１から制御指令を導出するように構成される。動作制御部２１３は、制御指令を導出した結果（すなわち、訓練済みの制御モデル５により導出された制御指令）に従って、対象の移動体Ｍの動作を制御するように構成される。

【0077】

＜その他＞
本実施形態では、モデル生成装置１及び制御装置２の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、上記ソフトウェアモジュールの一部又は全部は、１又は複数の専用のプロセッサにより実現されてもよい。上記各モジュールは、ハードウェアモジュールとして実現されてもよい。モデル生成装置１及び制御装置２のソフトウェア構成に関して、実施形態に応じて、適宜、モジュールの省略、置換及び追加が行われてもよい。

【0078】

［３動作例］
［モデル生成装置］
図６は、本実施形態に係るモデル生成装置１による制御モデル５の機械学習に関する処理手順の一例を示すフローチャートである。以下の処理手順は、コンピュータにより実行されるモデル生成方法の一例である。ただし、以下のモデル生成装置１の処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0079】

＜ステップＳ１０１＞
ステップＳ１０１では、制御部１１は、学習データ取得部１１１として動作する。すなわち、制御部１１は、訓練データ４１及び正解データ４５の組み合わせによりそれぞれ構成される複数のデータセット４を取得する。

【0080】

訓練データ４１は、移動体の移動する環境を時系列に示すように構成される。一例では、訓練データ４１は、センサＳにより得られるセンサデータＳＤを含んでよい。その他に、訓練データ４１は、例えば、設定速度、制限速度、地図情報、ナビ情報等の制御に関与し得る任意の情報を含んでよい。正解データ４５は、対応する訓練データ４１により示される環境における移動体に対する制御指令を直接的又は間接的に時系列に示すように構成される。

【0081】

上記のとおり、各データセット４は、適宜生成（収集）されてよい。生成された各データセット４は、モデル生成装置１（記憶部１２及び記憶媒体９１の少なくとも一方）で保存されていてよい。或いは、各データセット４は、ネットワークサーバ（例えば、ＮＡＳ：Network Attached Storage）等の他のコンピュータで保存されていてもよい。この場合、機械学習を実施する際に、制御部２１は、ネットワーク、外部記憶装置、記憶媒体９１等を介して、各データセット４を取得してよい。各データセット４は、データベースの形式で保存されていてよい。

【0082】

複数のデータセット４の少なくとも一部の生成は、モデル生成装置１により行われてよい。複数のデータセット４の少なくとも一部の生成は、モデル生成装置１以外の他のコンピュータにより行われてもよい。データセット４が他のコンピュータで生成される場合、制御部１１は、例えば、ネットワーク、外部記憶装置、記憶媒体９１等を介して、他のコンピュータにより生成されたデータセット４を取得してよい。

【0083】

取得するデータセット４の件数は、実施の形態に応じて適宜決定されてよい。複数のデータセット４を取得すると、制御部１１は、次のステップＳ１０２に処理を進める。

【0084】

＜ステップＳ１０２＞
ステップＳ１０２では、制御部１１は、学習処理部１１２として動作する。すなわち、制御部１１は、取得された複数のデータセット４を使用して、制御モデル５の機械学習を実施する。機械学習では、制御部１１は、各データセット４について、制御モデル５を使用して移動体の制御指令を訓練データ４１から導出した結果が対応する正解データ４５に適合するものとなるように制御モデル５を訓練する。

【0085】

制御モデル５（機械学習モデル）は、推論タスクを解く演算処理を実行するための１つ以上の演算パラメータを備える。制御モデル５を訓練することは、与えられた学習データ（複数のデータセット４）に応じて、制御モデル５（機械学習モデル）の演算パラメータの値を最適化（調整）することである。機械学習の方法は、制御モデル５に使用する機械学習モデルのタイプ、構造等の実施の形態に応じて適宜決定されてよい。演算パラメータの調整方法には、例えば、誤差逆伝播法、最適化問題を解く等の任意の方法が採用されてよい。

【0086】

（機械学習方法の一例）
典型例として、制御モデル５がニューラルネットワークにより構成される場合、制御部１１は、まず、機械学習の処理対象となる制御モデル５を用意する。用意する制御モデル５の構造、各ニューロン間の結合の重みの初期値、及び各ニューロンの閾値の初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。再学習を行う場合には、制御部１１は、過去の機械学習を行うことで得られた学習結果データに基づいて、制御モデル５を用意してよい。次に、制御部１１は、各データセット４の訓練データ４１を入力データとして利用し、正解データ４５を教師信号（ラベル）として利用して、制御モデル５の学習処理（教師あり学習）を実行する。

【0087】

図４に示されるとおり、学習処理の一例として、第１のステップでは、制御部１１は、各データセット４の訓練データ４１を入力し、制御モデル５の順伝播の演算処理を実行する。この演算処理の結果、制御部１１は、訓練データ４１に対する推論結果（直接的又は間接的な制御指令の導出結果）に対応する出力値を制御モデル５から取得する。第２のステップでは、制御部１１は、取得された出力値と対応する正解データ４５との間の誤差を算出する。第３のステップでは、制御部１１は、算出された誤差の勾配を算出する。そして、制御部１１は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、制御モデル５の演算パラメータ（各ノード間の結合の重み、各ノードの閾値等）の値の誤差を算出する。第４のステップでは、制御部１１は、算出された誤差に基づいて、演算パラメータの値を更新する。演算パラメータの値を更新する程度は、学習率により調節されてよい。

【0088】

制御部１１は、上記第１～第４のステップを繰り返すことで、各データセット４について、制御モデル５から出力される出力値と正解データ４５との間の誤差の和が小さくなるように、制御モデル５の演算パラメータのあたいを調整する。この演算パラメータの値の調整は、例えば、設定された反復回数の調整を実行する、算出される誤差の和が閾値以下になる等の所定の条件を満たすまで繰り返されてよい。閾値は、実施の形態に応じて適宜設定されてよい。また、誤差を算出するための目的関数（コスト関数、損失関数、誤差関数）、学習率、最適化アルゴリズム等の機械学習の条件は、実施の形態に応じて適宜設定されてよい。

【0089】

この制御モデル５の演算パラメータの値の調整は、ミニバッチに対して実行されてよい。一例として、上記第１～第４のステップの処理を実行する前に、制御部１１は、複数のデータセット４から任意のサンプル（データセット）を抽出することでミニバッチを生成してよい。ミニバッチのサイズは、実施の形態に応じて適宜設定されてよい。そして、制御部１１は、生成されたミニバッチに含まれるデータセット４について、上記第１～第４のステップの処理を実行してよい。第１～第４のステップを繰り返す場合、制御部１１は、ミニバッチを再度生成し、生成された新たなミニバッチに対して、上記第１～第４のステップの処理を実行してよい。

【0090】

なお、機械学習の手法は、このような教師あり学習の例に限られなくてよく、その他の
手法が少なくとも部分的に採用されてもよい。他の一例として、深層強化学習が採用されてよい。この場合、複数のデータセット４の一部は、強化学習におけるエピソードの結果として得られてよい。或いは、制御部１１は、強化学習におけるエピソードの結果から複数の新たなデータセットを生成し、生成された複数の新たなデータセット及び複数のデータセット４を使用して、制御モデル５の演算パラメータを調整（最適化）してもよい。深層強化学習には、例えば、R2D3：Recurrent Replay Distributed DQN from Demonstrations等の任意の手法が採用されてよい。

【0091】

（イベントの具体例）
本実施形態では、上記機械学習において、制御部１１は、正解データ４５により示される制御指令のイベントに対する反応速度が所定の条件に適合することで当該反応速度が適切と評価されるデータセットほど優先的に使用する。

【0092】

上記のとおり、イベントは、移動体の操作に関与し得るあらゆる事象を含んでよい。また、イベントは、センサＳにより検知可能なあらゆる事象を含んでよい。一例として、移動体（移動体Ｍ）は車両であってよく、イベントは、当該車両に対する先行車両の減速、並走車両のカットイン、駐停車車両の発生、障害物の発生、及び信号機の変化の少なくともいずれかを含んでよい。

【0093】

所定の条件は、イベントに応じて適切な反応速度を評価するように適宜規定されてよい。イベントの開始時刻は、センサＳにより得られるセンサデータにより特定されてよい。反応速度は、イベントの開始時刻から当該イベントに対する動作制御（操作）の開始時刻までの間の時刻により定義されてよい。以下に具体例を示す。

【0094】

（Ａ）先行車両の減速
図７Ａは、イベント（先行車両の減速）の一例を模式的に示す。図７Ａの例では、車両ＭＡが、イベントに遭遇している車両である。すなわち、学習段階では、車両ＭＡからデータセット４を得ることを想定してよい。一方、車両ＭＢは、車両ＭＡの先行車両である。

【0095】

先行車両ＭＢの減速に遭遇した場合、車両ＭＡでは、先行車両ＭＢの減速に対処する任意の操作が実行されてよい。車両ＭＡで取り得る制御操作の一例は、先行車両ＭＢに応じた減速操作である。そのため、一例では、反応速度は、先行車両ＭＢが減速を開始した時刻（減速を検知した時刻）から車両ＭＡにおいて減速操作を開始した時刻までの時間で定義されてよい。

【0096】

先行車両ＭＢの減速は、例えば、カメラ、レーダ、LiDAR等の速度、位置又は車間距離
に関するセンサ（センサＳ）で検知可能である。先行車両ＭＢの減速を検知するための指標は適宜規定されてよい。一例では、先行車両ＭＢの減速を検知する指標には、衝突余裕時間（ＴＴＣ：Time-To-Collision）、衝突余裕度（ＭＴＣ：Margin-To-Collision）等の衝突リスク指標が用いられてよい。

【0097】

一方、車両ＭＡにおける減速操作は、車両ＭＡの速度、加速度及びブレーキ量の少なくともいずれかにより検知されてよい。一例として、車両ＭＡにおいて減速の操作を実行したタイミングは、車両ＭＡの速度、加速度及びブレーキ量の少なくともいずれかに対する閾値評価により検知されてよい。

【0098】

したがって、本実施形態の一例では、先行車両ＭＢの減速に対する減速操作の反応速度は、先行車両ＭＢの減速を検知した時刻（イベントの開始時刻）から車両ＭＡの減速操作を検知した時刻（操作の開始時刻）までの時間により定義されてよい。時間が短いほど反
応速度は速いと評価され、時間が長いほど反応速度は遅いと評価される。

【0099】

図７Ｂは、先行車両の減速に対する応答操作の反応速度を評価するための手法の一例を模式的に示す。図７Ｂの例では、先行車両ＭＢの減速を検知するための指標として衝突リスク指標が採用され、減速操作を検知するための指標として車両ＭＡの加速度（負の加速度）が採用されている。閾値ＴＡは、イベント（先行車両ＭＢの減速）の開始時刻を検知するために衝突リスク指標に対して設定され、閾値ＴＢは、減速操作の開始時刻を検知するために車両ＭＡの加速度に対して設定される。閾値ＴＢは、例えば、路面の影響等の外的要因を考慮して設定されてよい。各閾値（ＴＡ、ＴＢ）は、オペレータにより手動的に設定されてもよいし、或いは統計量等により少なくとも部分的に自動的に設定されてもよい。図７Ｂの例では、反応速度は、（衝突リスク指標に基づいて）閾値ＴＡにより検知されるイベント開始時刻から（車両ＭＡの加速度に基づいて）閾値ＴＢにより検知される減速操作の開始時刻までの時間により算定することができる。

【0100】

なお、先行車両ＭＢに対する車両ＭＡの操作（動作制御）は、上記の例のような減速に限られなくてよく、実施の形態に応じて適宜選択されてよい。他の一例では、先行車両ＭＢの減速に遭遇した場合に、車両ＭＡは、車線変更を遂行してよい。この場合、車両ＭＡにおける速度、加速度、ブレーキ量、アクセル量及び操舵量の少なくともいずれかにより車線変更の操作の開始時刻が検知されてよく、これに応じて、反応速度が算定されてよい。操舵量は、例えば、ステアリングトルクにより計測されてよい。その他の一例では、ウィンカー操作等の車両操作により、車線変更の操作の開始時刻が検知されてもよい。また、先行車両ＭＢのストップランプの点灯の有無等の先行車両ＭＢのシグナルが、先行車両ＭＢの減速を検知する指標に用いられてもよい。

【0101】

（Ｂ）並走車両のカットイン
図８Ａは、イベント（並走車両のカットイン）の一例を模式的に示す。図８Ａの例では、車両ＭＣが、イベントに遭遇している車両である。すなわち、学習段階では、車両ＭＣからデータセット４を得ることを想定してよい。一方、車両ＭＤは、車両ＭＣの並走車両である。図８Ａの例では、並走車両ＭＤが、車両ＭＣの前方に割り込むことを想定している。

【0102】

並走車両ＭＤのカットインに遭遇した場合、車両ＭＣでは、並走車両ＭＤのカットインに対処する任意の操作が実行されてよい。車両ＭＣで取り得る制御操作の一例は、並走車両ＭＤのカットインに応じた減速操作である。そのため、一例では、反応速度は、並走車両ＭＤがカットインを開始した時刻（カットインを検知した時刻）から車両ＭＣにおいて減速操作を開始した時刻までの時間で定義されてよい。

【0103】

並走車両ＭＤのカットインは、例えば、カメラ、レーダ、LiDAR等の速度、位置又は車
間距離に関するセンサ（センサＳ）で検知可能である。並走車両ＭＤのカットインを検知するための指標は適宜規定されてよい。一例では、並走車両ＭＤのカットインを検知する指標には、ラップ量、並走車両ＭＤと白線との間の距離等の距離指標が用いられてよい。例えば、ラップ量が一定値以下になったタイミング、並走車両ＭＤが白線上に到達したタイミング等により並走車両ＭＤのカットインが検知されてよい。なお、ラップ量は、他車両（並走車両ＭＤ）と自車（車両ＭＣ）の予測進路ＭＣＡとの間の車幅方向（車両の進行方向に対する左右方向、図の上下方向）の距離である。予測進路ＭＣＡは、例えば、図の点線で示される車両ＭＣの進路予測範囲であってよい。一方、上記（Ａ）と同様に、車両ＭＣにおける減速操作は、車両ＭＣの速度、加速度及びブレーキ量の少なくともいずれかにより検知されてよい。したがって、本実施形態の一例では、並走車両ＭＤのカットインに対する減速操作の反応速度は、並走車両ＭＤのカットインを検知した時刻（イベントの開始時刻）から車両ＭＣの減速操作を検知した時刻（操作の開始時刻）までの時間により
定義されてよい。

【0104】

図８Ｂは、並走車両のカットインに対する応答操作の反応速度を評価するための手法の一例を模式的に示す。図８Ｂの例では、並走車両ＭＤのカットインを検知するための指標としてラップ量が採用され、減速操作を検知するための指標として車両ＭＣの加速度（負の加速度）が採用されている。閾値ＴＣは、イベント（並走車両ＭＤのカットイン）の開始時刻を検知するためにラップ量に対して設定され、閾値ＴＤは、減速操作の開始時刻を検知するために車両ＭＣの加速度に対して設定される。閾値ＴＤは、例えば、路面の影響等の外的要因を考慮して設定されてよい。各閾値（ＴＣ、ＴＤ）は、オペレータにより手動的に設定されてもよいし、或いは統計量等により少なくとも部分的に自動的に設定されてもよい。図８Ｂの例では、反応速度は、（ラップ量に基づいて）閾値ＴＣにより検知されるイベント開始時刻から（車両ＭＣの加速度に基づいて）閾値ＴＤにより検知される減速操作の開始時刻までの時間により算定することができる。

【0105】

なお、並走車両ＭＤに対する車両ＭＣの操作（動作制御）は、上記の例のような減速に限られなくてよく、実施の形態に応じて適宜選択されてよい。他の一例では、並走車両ＭＤのカットインに遭遇した場合、車両ＭＣは、車線変更を遂行してよい。この場合、車両ＭＣにおける速度、加速度、ブレーキ量、アクセル量及び操舵量の少なくともいずれかにより車線変更の操作の開始時刻が検知されてよく、これに応じて、反応速度が算定されてよい。その他の一例では、ウィンカー操作等の車両操作により、車線変更の操作の開始時刻が検知されてもよい。また、並走車両ＭＤのストップランプの点灯の有無、ターンシグナルランプの点灯の有無等の並走車両ＭＤのシグナルが、並走車両ＭＤのカットインを検知する指標に用いられてよい。

【0106】

また、並走車両ＭＤのカットインの態様は場面により異なり得る。一例では、合流路、工事区間等の走行不能箇所におけるカットインでは、それ以外のカットイン（例えば、通常の車線変更）と比べて、並走車両ＭＤを確実に割り込ませるために、車両ＭＣはより早いタイミングでの対処が求められる可能性がある。そのため、カットインのイベントは場面に応じて種類分けされてもよい。

【0107】

（Ｃ）駐停車車両の発生
図９は、イベント（駐停車車両の発生）の一例を模式的に示す。図９の例では、車両ＭＥが、イベントに遭遇している車両である。すなわち、学習段階では、車両ＭＥからデータセット４を得ることを想定してよい。一方、車両ＭＦが、駐停車車両である。図９の例では、車両ＭＥの前方で車両ＭＦが駐停車したことを想定している。

【0108】

駐停車車両ＭＦの発生に遭遇した場合、車両ＭＥでは、駐停車車両ＭＦに対処する任意の操作が実行されてよい。一例では、駐停車車両ＭＦの発生は、先行車両ＭＢを駐停車車両ＭＦに置き換え、上記（Ａ）の先行車両ＭＢの減速と同様に取り扱われてよい。すなわち、一例では、車両ＭＥで取り得る制御操作の一例は、駐停車車両ＭＦの発生に応じた減速又は回避（車線変更等）操作である。反応速度は、駐停車車両ＭＦが発生した時刻（駐停車車両ＭＦを検知した時刻）から車両ＭＥにおいて減速又は回避の操作を開始した時刻までの時間で定義されてよい。

【0109】

駐停車車両ＭＦの発生は、例えば、カメラ、レーダ、LiDAR等の速度、位置又は車間距
離に関するセンサ（センサＳ）で検知可能である。一例では、駐停車車両ＭＦを検知する指標には、上記衝突リスク指標が用いられてよい。駐停車車両ＭＦを検知する衝突リスク指標には、上記衝突余裕時間、衝突余裕度の他、駐停車車両ＭＦまでの距離、車間距離／走行速度（ＴＨＷ：Time Head Way）等の指標が用いられてよい。したがって、本実施形
態の一例では、駐停車車両ＭＦの発生に対する反応速度は、衝突リスク指標の値に対する
閾値判定により検知されるイベント開始時刻から車両ＭＥの動作量（速度、加速度、ブレーキ量、アクセル量及び操舵量の少なくともいずれか）の値に対する閾値判定により検知される操作の開始時刻までの時間により算定されてよい。その他の一例では、ウィンカー操作等の車両操作により、回避の操作の開始時刻が検知されてもよい。また、駐停車車両ＭＦのハザードランプの点灯の有無等の駐停車車両ＭＦのシグナルが、駐停車車両ＭＦの発生を検知する指標に用いられてよい。

【0110】

（Ｄ）障害物の発生
障害物の発生は、上記駐停車車両ＭＦの発生と同様である。上記の例において、駐停車車両ＭＦを障害物に置き換えることで、障害物の発生に対する操作の反応速度は、上記駐停車車両ＭＦの発生に対する操作の反応速度と同様に評価可能である。本実施形態の一例では、障害物の発生に対する反応速度は、衝突リスク指標の値に対する閾値判定により検知されるイベント開始時刻から車両の動作量の値に対する閾値判定により検知される操作の開始時刻までの時間により算定されてよい。衝突リスク指標は、上記駐停車車両ＭＦを障害物に置き換えて計測されてよい。その他の一例では、ウィンカー操作等の車両操作により、回避の操作の開始時刻が検知されてもよい。なお、上記のとおり、障害物は、例えば、歩行者、自転車等であってよい。

【0111】

（Ｅ）信号機の変化
図１０Ａは、イベント（信号機の変化）の一例を模式的に示す。図１０Ａの例では、車両ＭＧが、イベントに遭遇している車両である。すなわち、学習段階では、車両ＭＧからデータセット４を得ることを想定してよい。

【0112】

信号機ＭＴの変化に遭遇した場合、車両ＭＧでは、信号機ＭＴの変化に対処する任意の操作が実行されてよい。一例として、信号機ＭＴが進行信号から減速信号又は注意信号に変わった（青色信号から黄色信号に変わった）場合、車両ＭＧの取り得る制御操作の一例は、信号機ＭＴ前で停車するための減速操作又は信号機ＭＴの設置道路を通過するための加速操作である。そのため、一例では、反応速度は、信号機ＭＴが変化を開始した時刻（変化を検知した時刻）から車両ＭＧにおいて減速又は加速操作を開始した時刻までの時間で定義されてよい。

【0113】

信号機ＭＴの変化は、例えば、カメラ等のセンサ（センサＳ）で検知可能である。信号機ＭＴの変化を検知する指標には、信号機ＭＴにおける点灯信号の色を識別した結果が用いられてよい。信号機ＭＴにおける点灯信号の色は任意の方法で識別されてよい。一方、車両ＭＧにおける減速又は加速操作は、車両ＭＧの速度、加速度、アクセル量及びブレーキ量の少なくともいずれかにより検知されてよい。したがって、本実施形態の一例では、信号機ＭＴの変化に対する減速又は加速操作の反応速度は、信号機ＭＴの変化を検知した時刻（イベントの開始時刻）から車両ＭＧの減速又は加速操作を検知した時刻（操作の開始時刻）までの時間により定義されてよい。減速操作及び加速操作には別々に閾値が設定されてよい。

【0114】

図１０Ｂは、信号機の変化に対する応答操作の反応速度を評価するための手法の一例を模式的に示す。図１０Ｂの例では、信号機ＭＴの色変化は、瞬時的に起きると想定している。この図１０Ｂの例では、信号機ＭＴの変化を検知するための指標として信号機ＭＴにおける点灯信号の色の識別結果が採用され、減速又は加速操作を検知するための指標として車両ＭＧの加速度が採用されている。閾値ＴＥは、減速操作の開始時刻を検知するために車両ＭＧの加速度に対して設定され、閾値ＴＦは、加速操作の開始時刻を検知するために車両ＭＧの加速度に対して設定される。各閾値（ＴＥ、ＴＦ）は、例えば、路面の影響等の外的要因を考慮して設定されてよい。各閾値（ＴＥ、ＴＦ）は、オペレータにより手動的に設定されてもよいし、或いは統計量等により少なくとも部分的に自動的に設定され
てもよい。図１０Ｂの例では、減速操作の反応速度は、信号機ＭＴの変化した時刻（イベント開始時刻）から（車両ＭＧの加速度に基づいて）閾値ＴＥにより検知される減速操作の開始時刻までの時間により算定することができる。また、加速操作の反応速度は、信号機ＭＴの変化した時刻（イベント開始時刻）から（車両ＭＧの加速度に基づいて）閾値ＴＦにより検知される加速操作の開始時刻までの時間により算定することができる。

【0115】

なお、信号機ＭＴの変化のイベントは、上記の例（青色信号から黄色信号に切り替わる）に限られなくてよく、実施の形態に応じて適宜設定されてよい。他の一例では、黄色信号に切り替わるタイミングに代えて、赤色信号に切り替わるタイミングが、信号機ＭＴの変化イベントの開始時刻として検知されてよい。

【0116】

また、上記の例では、信号機ＭＴの変化完了のタイミング（例えば、青信号が点灯した状態から青信号が消灯し、黄色信号が点灯した状態に移り変わったタイミング）が信号機ＭＴの変化時刻（イベントの開始時刻）として定義されている。しかしながら、イベントの開始時刻の定義は、このような例に限られなくてよく、実施の形態に応じて適宜設定されてよい。他の一例では、信号機ＭＴは、車両用の信号機の他に歩行者用の信号機を含んでよい（図１０Ａは車両用の信号機をイメージ）。この場合、歩行者用の信号機の点滅開始から車両用の信号機の変化完了までの任意のタイミングが信号機ＭＴの変化時刻（イベントの開始時刻）として定義されてよい。

【0117】

（優先的に使用の具体例）
制御部１１は、複数のデータセット４のうち、反応速度が適切と評価されるデータセットほど機械学習に優先的に使用する。すなわち、制御部１１は、反応速度が適切と評価されていないデータセットよりも、反応速度が適切と評価されているデータセットを制御モデル５の訓練により反映させる。本実施形態では、優先的に使用することは、以下の３つの方法の少なくともいずれかにより構成されてよい。

【0118】

（１）第１の方法
図１１Ａは、反応速度が適切と評価されるデータセットほど優先的に使用する第１の方法の一例を模式的に示す。第１の方法として、制御部１１は、反応速度が適切と評価されるデータセットを制御モデル５の訓練に使用し、反応速度が適切と評価されていないデータセットを制御モデル５の訓練に使用しないようにしてよい。

【0119】

図１１Ａのグラフは、反応速度に対するイベント（サンプル）の数をヒストグラムで表す。イベントの数は、データセットの数であってもよいし、或いはデータセットの収集とは少なくとも部分的に相違して集計されてもよい。反応速度が適切か否かは任意の統計量により評価されてよい。一例では、統計量は、平均値、最頻値、ｎパーセンタイル値等であってよい。ｎは任意の数値でよい。ｎパーセンタイル値は、例えば、５０パーセンタイル値（中央値）、２５パーセンタイル値等であってよい。

【0120】

一例では、反応速度が適切か否か（所定の条件に適合するか否か）は、この統計量により区分されてよい（図１１Ａの例で設定値が０のケースに相当する）。反応速度が速いほど適切と評価する場合、基準となる統計量よりも反応速度が速いデータセットが、反応速度が適切なデータセットとして機械学習に使用されてよい。すなわち、制御部１１は、基準の統計量を反応速度の上限値として使用してよい。適切な反応速度の範囲が規定される場合、上限値及び下限値はそれぞれ、対応する統計量から設定されてよい。具体例として、反応速度の速いものから集計したと想定した場合に、反応速度の下限値が２５パーセンタイル値により規定され、反応速度の上限値が７５パーセンタイル値により規定されてよい。

【0121】

他の一例では、統計量をそのまま基準には用いず、制御部１１は、統計量に対して任意の演算を実行することで基準値を導出してよい。単純には、制御部１１は、統計量に対して設定値を加算又は減算することで基準値を導出してよい。そして、反応速度が適切か否かは、上記統計量に代えて、導出された基準値により区分されてよい。すなわち、反応速度が速いほど適切と評価する場合、基準値よりも反応速度が速いデータセットが、反応速度が適切なデータセットとして機械学習に使用されてよい。適切な反応速度の範囲が規定される場合、上限値及び下限値はそれぞれ、同一の統計量から導出されてよい。或いは、上限値及び下限値はそれぞれ、異なる統計量から導出されてよい。それぞれのケースにおいて、上限値を導出するための設定値の大きさは、下限値を導出するための設定値の大きさと同じであってもよいし、或いは異なっていてもよい。

【0122】

図１１Ａの例では、評価指標として、最頻値が採用されている。最頻値の反応速度（イベント開始時刻－操作の開始時刻までの間の時間）から設定値を減算することで基準値が算出されている。そして、基準値よりも反応速度が速いデータセットが、反応速度が適切なデータセット（図１１Ａのハッチングされた範囲）として評価されている。この第１の方法では、制御部１１は、反応速度が適切と評価されないデータセットを除外し、反応速度が適切と評価されるデータセットのみを使用して、上記機械学習の処理を実行してよい。

【0123】

（２）第２の方法
図１１Ｂは、反応速度が適切と評価されるデータセットほど優先的に使用する第２の方法の一例を模式的に示す。第２の方法として、制御部１１は、複数のデータセット４のうちの反応速度が適切と評価される第１データセットのサンプリング確率を高くし、反応速度が適切と評価されない第２データセットのサンプリング確率を低く設定してよい。すなわち、制御部１１は、反応速度が適切と評価されるデータセットほど機械学習におけるサンプリング回数を多くしてよい。

【0124】

一例では、サンプリング確率（回数）は、上記機械学習におけるミニバッチに抽出される確率（回数）に対応する。そのため、サンプリング確率が高ければ（サンプリング回数が多ければ）、制御モデル５の演算パラメータの値の調整に使用される回数が多くなる。これにより、反応速度が適切と評価されないデータセットと比べて、反応速度が適切と評価されるデータセットを制御モデル５の訓練により反映することを達成することができる。

【0125】

反応速度に応じてサンプリング確率（回数）を設定する方法は、実施の形態に応じて適宜決定されてよい。一例では、制御部１１は、反応速度が所定の条件に適合するほどサンプリング確率（回数）が大きくなるように適宜設計された関数式を用いて、各データセット４のサンプリング確率（回数）を決定してよい。

【0126】

また、第２の方法において、制御部１１は、反応速度が適切と評価されない第２データセットの少なくとも一部を機械学習の対象から除外する（すなわち、サンプリング確率を０にする）ようにしてよい。或いは、制御部１１は、反応速度が適切と評価されない第２データセットを機械学習の対象から除外しない（すなわち、サンプリング確率を０にしない）ようにしてもよい。

【0127】

図１１Ｂの例では、所定の条件は、反応速度が速いほど適切と評価するように規定されている。すなわち、反応速度の速いデータセットほどサンプリング確率が高く設定される。また、第２データセットが、機械学習の対象から除外されていない。具体例として、複数のデータセット４のうちの反応速度がi番目のデータセットのサンプリング確率P(i)は
、以下の式１により規定されてよい。

【0128】

【数1】

・・・（式１）
aは、正の実数であり、任意に設定されてよい。rank(i)は、反応速度の順位を示す。N
は、最も遅い反応速度の順位を示す。制御部１１は、上記式１により規定されるサンプリング確率P(i)に従って、ミニバッチを生成し、生成されたミニバッチを使用して、上記機械学習の処理を実行してよい。なお、サンプリング確率を規定する関数式は、上記式１の例に限られなくてよく、実施の形態に応じて適宜設計されてよい。

【0129】

また、オプションの施策として、サンプリング確率に応じて、各データセット４の訓練の重みが調整されてよい。一例では、サンプリング確率の低いデータセットが制御モデル５の演算パラメータの値の調整に全く反映されないことが生じ得る。これを避けるため、サンプリング確率の優先度を無効化しない程度に、サンプリング確率の低いデータセットほど訓練の重みを大きくしてよい。上記のとおり、訓練の重みを大きくすることは、学習率を高くすることにより構成されてよい。具体例として、反応速度がi番目のデータセッ
トの訓練の重みw_iは、以下の式２により、サンプリング確率P(i)から算出されてよい。

【0130】

【数2】

・・・（式２）
なお、データセットの訓練の重みを規定する関数式は、上記式２の例に限られなくてよく、実施の形態に応じて適宜設計されてよい。他の一例では、データセットの訓練の重みは、サンプリング確率に依らず規定されてもよい。

【0131】

（３）第３の方法
第３の方法として、制御部１１は、複数のデータセット４のうちの反応速度が適切と評価される第１データセットの訓練の重みを大きく設定し、反応速度が適切と評価されない第２データセットの訓練の重みを小さく設定した上で、上記機械学習の処理を実行してよい。

【0132】

一例では、制御部１１は、上記機械学習における学習率を高くすることで訓練の重みを大きく設定し、学習率を低くすることで訓練の重みを小さく設定してよい。学習率の値が大きくなれば、上記機械学習の第４のステップにおいて、制御モデル５の演算パラメータの値を調整する際の更新量が大きくなる。これにより、反応速度が適切と評価されないデータセットと比べて、反応速度が適切と評価されるデータセットを制御モデル５の訓練により反映することを達成することができる。

【0133】

反応速度に応じて訓練の重みを設定する方法は、実施の形態に応じて適宜決定されてよい。一例では、制御部１１は、反応速度が所定の条件に適合するほど訓練の重みが大きくなるように適宜設計された関数式を用いて、各データセット４の訓練の重みを決定してよい。

【0134】

また、第３の方法において、制御部１１は、反応速度が適切と評価されない第２データセットの少なくとも一部を機械学習の対象から除外する（すなわち、訓練の重みを０にする）ようにしてよい。訓練の重みが０のデータセットは、機械学習に使用されないようにしてよい。或いは、制御部１１は、反応速度が適切と評価されない第２データセットを機械学習の対象から除外しない（すなわち、訓練の重みを０にしない）ようにしてもよい。

【0135】

なお、上記第１の方法～第３の方法において、優先的に使用するデータセットの抽出処理（演算処理）は任意の構成要素により実行されてよい。一例では、当該抽出処理は、制御部１１により実行されてよい。すなわち、制御部１１は、各データセット４の反応速度を参照して、上記第１の方法～第３の方法に従って、各データセット４に対して機械学習の使用に関する優劣を与えてよい。他の一例では、制御部１１が何らかの処理を実行しなくても、当該抽出処理は、データセット４を保管する記憶領域の機構により達成されてよい。具体例として、データセット４がデータベースで保管されている場合、抽出処理は、データベースの処理として達成されてよい。すなわち、制御部１１は、反応速度により機械学習の使用に関する優劣が与えられた（例えば、データベース上で反応速度順にソートされている）状態で各データセット４をデータベースから抽出してよい。上記機械学習に使用しないことは、データベースから抽出されないことで達成されてよい。制御部１１は、データベースから抽出されたデータセットをそのまま機械学習に使用することにより、上記反応速度が適切と評価されるデータセットほど優先的に使用する機械学習を実施してよい。上記第３の方法では、制御部１１は、抽出される順に応じて訓練の重みを設定してよい（例えば、反応速度が速い順に抽出される場合、制御部１１は、先に抽出されるデータセットほど訓練の重みを重くしてよい）。

【0136】

また、上記第１の方法～第３の方法において、イベント開始時刻よりも操作の開始時刻が速いデータセット（図１１Ａ及び図１１Ｂのイベント開始時刻よりも左側に位置するデータセット）を機械学習に使用するか否かは実施の形態に応じて適宜選択されてよい。

【0137】

制御部１１は、上記第１の方法～第３の方法の少なくともいずれかを採用することで、複数のデータセット４のうち、反応速度が適切と評価されるデータセットほど機械学習に優先的に使用してよい。上記第１の方法～第３の方法は、組み合わせて採用されてよい。本実施形態では、制御部１１は、以上のような機械学習の処理を実行することにより、訓練済みの制御モデル５を生成することができる。制御モデル５の機械学習が完了すると、制御部１１は、次のステップＳ１０３に処理を進める。

【0138】

なお、イベント毎に要求される操作は異なり得る。そのため、制御部１１は、訓練済みの制御モデル５をイベント毎に生成してもよい。また、取得される複数のデータセット４は、反応速度により優劣を与える対象のイベント以外の他の事象に関するデータセットを含んでよい。この場合、他の事象に関するデータセットにも、任意の方法で優劣が与えられてよい。或いは、他の事象に関するデータセットは、優劣が与えられずに機械学習に使用されてよい。

【0139】

＜ステップＳ１０３＞
図６に戻り、ステップＳ１０３では、制御部１１は、保存処理部１１３として動作する。すなわち、制御部１１は、機械学習により生成された訓練済みの制御モデル５に関する情報を学習結果データ１２５として生成する。学習結果データ１２５は、訓練済みの制御モデル５を再生するための情報を含むように適宜構成されてよい。制御部１１は、生成された学習結果データ１２５を所定の記憶領域に保存する。

【0140】

所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ
、半導体メモリ等であってよく、制御部１１は、ドライブ１６を介して記憶メディアに学習結果データ１２５を格納してよい。外部記憶装置は、例えば、ＮＡＳ等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習結果データ１２５を格納してよい。また、外部記憶装置は、例えば、外付けの記憶装置であってよい。外付けの記憶装置は、モデル生成装置１に適宜接続されてよい。例えば、モデル生成装置１は、外部インタフェースを更に備えてよく、この外部インタフェースを介して外付けの記憶装置に接続されてよい。

【0141】

機械学習の結果の保存が完了すると、制御部１１は、本動作例に係るモデル生成装置１の処理手順を終了する。

【0142】

なお、生成された学習結果データ１２５は、任意のタイミング及び方法で制御装置２に提供されてよい。例えば、制御部１１は、上記ステップＳ１０３の処理として又はステップＳ１０３の処理とは別に、学習結果データ１２５を制御装置２に転送してよい。制御装置２は、この転送を受信することで、学習結果データ１２５を取得してよい。また、例えば、制御装置２は、通信インタフェース２３を利用して、モデル生成装置１又はデータサーバにネットワークを介してアクセスすることで、学習結果データ１２５を取得してよい。また、例えば、制御装置２は、記憶媒体９２を介して、学習結果データ１２５を取得してよい。また、例えば、学習結果データ１２５は、制御装置２に予め組み込まれてもよい。

【0143】

また、制御部１１は、上記ステップＳ１０１～ステップＳ１０３の処理を定期又は不定期に繰り返し実行することで、学習結果データ１２５を更新又は新たに生成してよい。この繰り返しの際、機械学習に使用するデータセット４の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した又は新たに生成した学習結果データ１２５を任意の方法で制御装置２に提供することで、制御装置２の保持する学習結果データ１２５を更新してよい。

【0144】

［制御装置］
図１２は、本実施形態に係る制御装置２による訓練済みの制御モデル５を使用した対象の移動体Ｍの自動制御に関する処理手順の一例を示すフローチャートである。以下の処理手順は、コンピュータにより実行される制御方法の一例である。ただし、以下の制御装置２の処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0145】

＜ステップＳ２０１＞
ステップＳ２０１では、制御部２１は、取得部２１１として動作する。すなわち、制御部２１は、対象の移動体Ｍの移動する環境を示す対象データ２２１を取得する。一例では、対象データ２２１は、センサＳにより得られるセンサデータを含んでよい。その他に、対象データ２２１は、例えば、設定速度、制限速度、地図情報、ナビ情報等の制御に関与し得る任意の情報を含んでよい。制御部２１は、任意の方法で各種情報を取得してよい。対象データ２２１を取得すると、制御部２１は、次のステップＳ２０２に処理を進める。

【0146】

＜ステップＳ２０２＞
ステップＳ２０２では、制御部２１は、導出部２１２として動作する。すなわち、制御部２１は、訓練済みの制御モデル５を使用して、取得された対象データ２２１から制御指令を導出する。

【0147】

なお、制御部２１は、ステップＳ２０２を実行する前の任意のタイミングで、学習結果
データ１２５を参照して、使用可能な状態（すなわち、演算処理を実行可能な状態）に訓練済みの制御モデル５の設定を行ってよい。また、訓練済みの制御モデル５がイベント毎に生成されている場合、制御部２１は、対象の移動体Ｍが遭遇している又は遭遇する蓋然性のあるイベントを特定してよい。イベントの遭遇又はその蓋然性は、センサＳにより検知可能である。制御部２１は、保持する複数の訓練済みの制御モデル５のうち、特定されたイベントに対応する訓練済みの制御モデル５を選択してよい。そして、制御部２１は、選択された訓練済み制御モデル５を使用して、取得された対象データ２２１から制御指令を導出してよい。

【0148】

訓練済みの制御モデル５の演算処理は、制御モデル５の種類、構成、構造等に応じて適宜決定されてよい。一例では、制御モデル５がニューラルネットワークにより構成される場合、制御部２１は、対象データ２２１を訓練済みの制御モデル５に入力し、訓練済みの制御モデル５の順伝播の演算処理を実行する。この演算処理を実行した結果、制御部２１は、制御指令を導出した結果に対応する出力値を訓練済みの制御モデル５から取得することができる。制御モデル５の出力が制御指令を間接的に示すように構成される場合、制御部２１は、制御モデル５の出力に対して所定の演算処理を実行することで、制御指令を導出してよい。制御指令の導出が完了すると、制御部２１は、次のステップＳ２０３に処理を進める。

【0149】

＜ステップＳ２０３＞
ステップＳ２０３では、制御部２１は、動作制御部２１３として動作する。すなわち、制御部２１は、制御指令を導出した結果に従って、対象の移動体Ｍの動作を制御する。制御部２１は、対象の移動体Ｍの動作を直接的又は間接的に制御してよい。

【0150】

対象の移動体Ｍの制御が完了すると、制御部２１は、本動作例に係る制御装置２の処理手順を終了する。なお、制御部２１は、ステップＳ２０１～ステップＳ２０３の一連の情報処理を繰り返し実行してよい。繰り返すタイミングは、実施の形態に応じて適宜決定されてよい。一例では、制御部２１は、所定期間（例えば、移動体Ｍの動力源が起動されてから停止されるまで）の間、ステップＳ２０１～ステップＳ２０３の一連の情報処理を繰り返し実行してよい。これにより、制御装置２は、移動体Ｍの自動制御を継続的に遂行することができる。

【0151】

［特徴］
本実施形態では、上記ステップＳ１０２の処理において、反応速度が適切と評価されるデータセットほど機械学習に優先的に使用して、訓練済みの制御モデル５が生成される。機械学習により生成される訓練済みモデルの能力は、当該機械学習に使用されるデータセットに依存するため、本実施形態によれば、適切な反応速度で移動体の制御を遂行する能力を習得した訓練済みの制御モデル５の獲得を期待することができる。また、上記ステップＳ２０２に処理において、そのような訓練済みの制御モデル５を使用することで、適切な反応速度で対象の移動体Ｍの制御を遂行可能であることを期待することができる。

【0152】

［４変形例］
以上、本開示の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本開示の例示に過ぎない。本開示の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。

【0153】

図１３は、本開示を適用した他の場面の一例を模式的に示す。変形例に係るシステムは、上記モデル生成装置１及び制御装置２に加えて、データ収集装置３を備える。データ収集装置３は、データセット４を収集するように構成された１台以上のコンピュータである。本変形例では、データ収集装置３は、訓練データ４１及び正解データ４５の組み合わせ
によりそれぞれ構成される複数のデータセット４を収集する。複数のデータセット４を収集することは、正解データ４５により示される制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に収集することを含んでよい。そして、データ収集装置３は、機械学習に使用するために、収集された複数のデータセット４を出力する。

【0154】

図１３の例では、データ収集装置３は、移動体ＭＺに搭載され、被検者による移動体ＭＺの操作に応じて、データセット４を収集することを想定している。この一例では、データ収集装置３は、センサＳから得られるセンサデータ及びその他情報（例えば、設定速度、制限速度、地図情報、ナビ情報等）から訓練データ４１を生成してよい。また、データ収集装置３は、訓練データ４１を構成する情報を獲得している期間における被検者の操作の結果から正解データ４５を生成してよい。そして、データ収集装置３は、生成された訓練データ４１及び正解データ４５を関連付けることで、データセット４を取得してよい。データ収集装置３は、モデル生成装置１等の外部のコンピュータからの指令に応じて、データセット４を収集する処理を実行するように構成されてよい。各装置１～３間のデータのやり取りは任意の方法で行われてよい。

【0155】

なお、データ収集装置３の形態は、図１３に示される例に限られなくてよい。他の一例では、データ収集装置３は、移動体ＭＺに搭載されず、移動体ＭＺとは別個に配置されてもよい。また、他の一例では、データ収集装置３は、制御装置２又はモデル生成装置１と一体的に構成されてよい。すなわち、制御装置２が、データ収集装置３を兼ねてもよい（この場合、移動体ＭＺは、移動体Ｍである）。或いは、モデル生成装置１が、データ収集装置３を兼ねてもよい。

【0156】

［ハードウェア構成］
図１４は、本変形例に係るデータ収集装置３のハードウェア構成の一例を模式的に示す。図１４に示されるとおり、本変形例に係るデータ収集装置３は、制御部３１、記憶部３２、通信インタフェース３３、入力装置３４、出力装置３５、ドライブ３６及び外部インタフェース３７が電気的に接続されたコンピュータである。

【0157】

データ収集装置３の制御部３１～外部インタフェース３７及び記憶媒体９３はそれぞれ、上記制御装置２の制御部２１～外部インタフェース２７及び記憶媒体９２それぞれと同様に構成されてよい。制御部３１（ＣＰＵ）は、データ収集装置３のプロセッサ・リソースの一例であり、記憶部３２（及びＲＡＭ、ＲＯＭ）は、データ収集装置３のメモリ・リソースの一例である。本変形例では、記憶部３２は、データ収集プログラム８３、データセット４等の各種情報を記憶する。

【0158】

データ収集プログラム８３は、データセット４の収集に関する情報処理（後述の図１６）をデータ収集装置３に実行させるためのプログラムである。データ収集プログラム８３は、当該情報処理の一連の命令を含む。データセット４は、データ収集プログラム８３の実行結果として蓄積されてよい。データ収集プログラム８３及びデータセット４の少なくともいずれかは、記憶部３２に代えて又は記憶部３２と共に、記憶媒体９３に格納されていてもよい。データ収集装置３は、データ収集プログラム８３を記憶媒体９３から取得してよい。

【0159】

データ収集装置３は、通信インタフェース３３を介して、他のコンピュータ（例えば、モデル生成装置１）との間でデータ通信を実行してよい。オペレータ（例えば、被検者）は、入力装置３４及び出力装置３５を利用することで、データ収集装置３を操作することができる。入力装置３４及び出力装置３５は、例えば、タッチパネルディスプレイ等により一体的に構成されてもよい。データ収集装置３は、外部インタフェース３７を介して、
センサＳに接続されてよい。ただし、センサＳの接続方法は、このような例に限られなくてよい。他の一例では、データ収集装置３は、通信インタフェース２３を介してセンサＳに接続されてもよい。

【0160】

なお、データ収集装置３の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部３１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ、ＥＣＵ、ＧＰＵ等により構成されてよい。通信インタフェース３３、入力装置３４、出力装置３５、ドライブ３６及び外部インタフェース３７の少なくともいずれかは省略されてもよい。データ収集装置３は、複数台のコンピュータにより構成されてよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、或いは一致していなくてもよい。データ収集装置３は、提供されるサービス専用に設計されたコンピュータの他、汎用のサーバ装置、汎用のコンピュータ、スマートフォンを含む携帯電話、タブレットＰＣ（Personal Computer）等であってよい。移動体ＭＺが車両の場合、
データ収集装置３は、車載装置であってよい。

【0161】

［ソフトウェア構成］
図１５は、本実施形態に係るデータ収集装置３のソフトウェア構成の一例を模式的に示す。データ収集装置３の制御部３１は、記憶部３２に記憶されたデータ収集プログラム８３をＲＡＭに展開し、データ収集プログラム８３に含まれる命令をＣＰＵにより実行する。これにより、図１５に示されるとおり、本実施形態に係るデータ収集装置３は、収集部３１１及び出力部３１２をソフトウェアモジュールとして備えるコンピュータとして動作する。

【0162】

収集部３１１は、訓練データ４１及び正解データ４５の組み合わせによりそれぞれ構成される複数のデータセット４を収集するように構成される。収集部３１１における複数のデータセット４を収集することは、正解データ４５により示される制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に収集することを含んでよい。出力部３１２は、機械学習に使用するために、収集された複数のデータセット４を出力するように構成される。

【0163】

なお、本変形例では、上記モデル生成装置１及び制御装置２と同様に、データ収集装置３の各ソフトウェアモジュールも、制御部３１（ＣＰＵ）により実現される。つまり、データ収集装置３の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、データ収集装置３のソフトウェアモジュールの一部又は全部は、１又は複数の専用のプロセッサにより実現されてもよい。上記各モジュールは、ハードウェアモジュールとして実現されてもよい。データ収集装置３のソフトウェア構成に関して、実施形態に応じて、適宜、モジュールの省略、置換及び追加が行われてもよい。

【0164】

［動作例］
図１６は、本変形例に係るデータ収集装置３によるデータセット４の収集に関する処理手順の一例を示すフローチャートである。以下の処理手順は、コンピュータにより実行されるデータ収集方法の一例である。ただし、以下の処理手順は、一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

【0165】

（ステップＳ３０１）
ステップＳ３０１では、制御部３１は、収集部３１１として動作し、訓練データ４１及び正解データ４５の組み合わせによりそれぞれ構成される複数のデータセット４を収集す
る。このとき、一例では、制御部３１は、反応速度が適切か否かを問わずにデータセット４を収集してよい。他の一例では、制御部３１は、正解データ４５により示される制御指令のイベントに対する反応速度が所定の条件に適合することで適切と評価されるデータセットほど優先的に収集してよい。

【0166】

データセット４を収集することは、データセットを新たに獲得すること又は既に獲得されたデータセットから選別することであってよい。データセットを新たに獲得することは、新たなデータセットを生成すること又は他のコンピュータからデータセットを得ることであってよい。優先的に収集することは、データセットを新たに獲得する段階及び既に獲得されたデータセットから選別する段階の少なくともいずれかで実行されてよい。なお、データセットを新たに獲得する段階は、データを保存（記憶する）最初の入り口の段階に相当し得る。

【0167】

優先的に収集することは、反応速度が適切と評価されるデータセットの量を多くし、反応速度が適切と評価されないデータセットの量を少なくすることにより構成されてよい。一例では、反応速度が適切と評価されないデータセットの量を少なくすることは、適切と評価されない反応速度のうち少なくとも一部の反応速度に関するデータセットを収集しないことを含んでよい。

【0168】

データセットを獲得する装置（第１装置）及び獲得されたデータセットを保存する装置（第２装置）が別々に設けられる場合、優先的に収集することは、以下の３段階のいずれかで実行されてよい。
（１）第１装置のストレージに対象のデータセットを保持し続けるか否か
（２）対象のデータセットを第１装置が第２装置に送信（転送）するか否か
（３）第２装置のストレージで対象のデータセットを保持し続けるか否か
なお、第１装置の一例は、端末装置（ユーザ端末、車載装置等）であり、第２装置の一例は、サーバ装置である。データ収集装置３は第１装置及び第２装置のいずれであってもよい。図１３の例では、データ収集装置３は、第１装置であると想定されている。

【0169】

一例では、データ収集装置３は、第１装置又は第２装置であってよく、上記（１）又は（３）の段階で優先的に収集することを実行してよい。この場合、反応速度が適切と評価されるデータセットほど優先的に収集することは、データ収集装置３の記憶領域（ＲＡＭ、記憶部３２、記憶媒体９３等）に一時的に保存されたデータセットのうち、所定の条件により反応速度が適切であると評価されるデータセットを維持し、所定の条件により反応速度が適切ではないと評価されるデータセットを削除することにより構成されてよい。これにより、反応速度が適切ではないと評価されるデータセットを維持しないことで、データ収集装置３の記憶領域を適切なデータセットの収集に効率的に使用することができる。

【0170】

他の一例では、データ収集装置３は、第１装置であってよく、上記（２）の段階で優先的に収集することを実行してよい。この場合、第２装置は、例えば、外部サーバ等の外部記憶装置である。一例では、外部サーバは、モデル生成装置１又はネットワークサーバ（ＮＡＳ等）であってよい。送信処理は、後述するステップＳ３０２で実行される。そのため、この形態を採用する場合、本ステップＳ３０１では、制御部３１は、送信するか否かを判定するため、得られたデータセットの反応速度を評価してよい。すなわち、優先的に収集することは、反応速度を評価することを含んでよい。

【0171】

なお、各データセット４は、任意の方法で獲得されてよい。上記のとおり、データセット４は、被検者による移動体ＭＺの操作を通じて獲得されてよい。移動体ＭＺの操作は、完全な手動操作の他、任意の自動制御に対するオーバーライド操作を含んでよい。その他、データセット４は、シミュレーション、データ拡張等の方法で獲得されてよい。複数の
データセット４を獲得すると、制御部３１は、次のステップＳ３０２に処理を進める。

【0172】

（ステップＳ３０２）
ステップＳ３０２では、制御部３１は、出力部３１２として動作する。すなわち、制御部３１は、機械学習に使用するために、収集された複数のデータセット４を出力する。

【0173】

機械学習に使用するために出力することは、機械学習に使用可能にするため、収集された複数のデータセット４を区別（識別）可能な状態で保持することであってよい。そのため、収集された複数のデータセット４を出力することは、収集された複数のデータセット４を任意の記憶領域に保存することにより構成されてよい。任意の記憶領域は、ＲＡＭ、記憶部３２、外部記憶装置等であってよい。外部記憶装置は、モデル生成装置１、ネットワークサーバ（ＮＡＳ等）等の外部サーバを含んでよい。

【0174】

一例では、制御部３１は、ネットワークを介して複数のデータセット４をモデル生成装置１に送信してよい。モデル生成装置１は、これに応じて、上記ステップＳ１０２及びステップＳ１０３を実行することで、訓練済みの制御モデル５を生成してよい。なお、データ収集装置３がモデル生成装置１と一体的に構成される場合、上記ステップＳ３０１におけるデータセット４を収集することは、上記ステップＳ１０１又は機械学習において、指定されたバッチサイズのデータセットを取得することに反映されてよい。この場合、ステップＳ３０２の出力処理は、上記ステップＳ１０２に含まれてよい。

【0175】

他の一例では、上記のとおり、データ収集装置３は、上記（２）の段階で優先的に収集することを反映してよい。この場合、複数のデータセット４を出力することは、所定の条件により反応速度が適切であると評価されるデータセットを第２装置に送信し、かつ所定の条件により反応速度が適切ではないと評価されるデータセットの第２装置への送信を省略すること、により構成されてよい。一例では、第２装置は、モデル生成装置１、ネットワークサーバ等の外部サーバであってよい。これにより、反応速度が適切ではないと評価されるデータセットの通信処理を省略することで、データセット４の出力にかかる通信コストの低減を図ることができる。

【0176】

複数のデータセット４の出力が完了すると、制御部３１は、本動作例に係るデータ収集装置３の処理手順を終了する。なお、制御部３１は、ステップＳ３０１～ステップＳ３０２の一連の情報処理を繰り返し実行してよい。繰り返すタイミングは、実施の形態に応じて適宜決定されてよい。典型例では、制御部３１は、モデル生成装置１等の外部のコンピュータからのデータ収集指令に応じて、上記ステップＳ３０１の処理の実行を開始してよい。そして、外部のコンピュータからの収集停止指令を受け付けるまで、制御部３１は、ステップＳ３０１～ステップＳ３０２の一連の情報処理を繰り返し実行してよい。これにより、データ収集装置３は、データ収集の指示が与えられている間、データセット４を継続的に収集するように構成されてよい。

【0177】

（特徴）
本変形例では、データ収集装置３は、ステップＳ３０１の処理において、反応速度が適切と評価されるデータセットほど優先的に収集する。これにより、ステップＳ３０２の処理以降において、当該反応速度が適切と評価されるデータセットほど機械学習に優先的に使用されるようにすることができる。したがって、本変形例によっても、適切な反応速度で移動体の制御を遂行する能力を獲得した訓練済みの機械学習モデル（制御モデル５）の獲得を期待することができる。

【0178】

［５補足］
本開示において説明した処理及び手段は、技術的な矛盾が生じない限りにおいて、自由
に組み合わせて実施することができる。

【0179】

また、１つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。或いは、異なる装置が行うものとして説明した処理が、１つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成によって実現するかは柔軟に変更可能である。

【0180】

本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する１つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクドライブ（ＨＤＤ）等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤディスク、ブルーレイディスク等）など任意のタイプのディスク、読み込み専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、フラッシュメモリ、光学式カード、半導体ドライブ（ソリッドステートドライブ等）、電子的命令を格納するために適した任意のタイプの媒体を含む。

【符号の説明】

【0181】

１…モデル生成装置、
１１…制御部、１２…記憶部、１３…通信インタフェース、
１４…入力装置、１５…出力装置、１６…ドライブ、
８１…モデル生成プログラム、９１…記憶媒体、
１１１…学習データ取得部、１１２…学習処理部、
１１３…保存処理部、１２５…学習結果データ、
２…制御装置、
２１…制御部、２２…記憶部、２３…通信インタフェース、
２４…入力装置、２５…出力装置、２６…ドライブ、
２７…外部インタフェース、
８２…制御プログラム、９２…記憶媒体、
２１１…取得部、２１２…導出部、
２１３…動作制御部、２２１…対象データ、
３…データ収集装置、
３１…制御部、３２…記憶部、３３…通信インタフェース、
３４…入力装置、３５…出力装置、３６…ドライブ、
３７…外部インタフェース、
８３…データ収集プログラム、９３…記憶媒体、
３１１…収集部、３１２…出力部、
４…データセット、
４１…訓練データ、４５…正解データ、
５…制御モデル、
Ｍ…移動体、Ｓ…センサ

【図1】