特開2024-174766 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2024-174766データ生成プログラム、方法、及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024174766

(43)【公開日】2024-12-17

(54)【発明の名称】データ生成プログラム、方法、及び装置

(51)【国際特許分類】

G08G 1/01 20060101AFI20241210BHJP

【ＦＩ】

G08G1/01 A

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023092782

(22)【出願日】2023-06-05

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和３年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「機械学習と社会科学の融合による社会シミュレーションの革新」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(71)【出願人】

【識別番号】504145342

【氏名又は名称】国立大学法人九州大学

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】山田広明

(72)【発明者】

【氏名】山根昇平

(72)【発明者】

【氏名】神山直之

【テーマコード（参考）】

5H181

【Ｆターム（参考）】

5H181AA01

5H181BB04

5H181BB13

5H181BB20

5H181DD04

5H181FF10

5H181FF13

5H181FF27

5H181MC14

5H181MC27

(57)【要約】

【課題】高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成する。
【解決手段】データ生成装置は、第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第１期間内に含まれ第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出し、抽出した経路情報に基づいて、経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、所定の地理範囲の交通の混み具合を示す情報とを生成し、集計情報を入力特徴量とし混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する。
【選択図】図１３

【特許請求の範囲】

【請求項1】

第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第１期間内に含まれ前記第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータに実行させるためのデータ生成プログラム。

【請求項2】

前記第１期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成することをさらに含む処理を前記コンピュータに実行させるための請求項１に記載のデータ生成プログラム。

【請求項3】

前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である請求項２に記載のデータ生成プログラム。

【請求項4】

前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第２期間のそれぞれについて、前記第２期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
請求項１～請求項３のいずれか１項に記載のデータ生成プログラム。

【請求項5】

生成した前記訓練データを用いて、前記機械学習モデルを訓練することをさらに含む処理を前記コンピュータに実行させるための請求項１～請求項３のいずれか１項に記載のデータ生成プログラム。

【請求項6】

【請求項7】

第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第１期間内に含まれ前記第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出する抽出部と、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する生成部と、
を含むデータ生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、データ生成プログラム、データ生成方法、及びデータ生成装置に関する。

【背景技術】

【0002】

従来、交通シミュレーションを用いて、公共交通のスケジュール等を最適化する技術が存在する。例えば、イベント開催時の特別バスの運行スケジュールを決定する場合、交通状況に合わせて特別バスの発着時間を設定して、混雑の発生及び拡大を回避する必要がある。このような場合に、交通シミュレーションを使って混雑を起こさない最適なスケジュールを探索する。

【0003】

交通シミュレーション装置の構築は大変な手間がかかる。また、シミュレーション実行時の計算負荷も高い。一方で、プローブデータから交通需要及び交通密度を抽出し、両者の関係をニューラルネットワーク等の機械学習モデルを用いて学習することで、高精度なシミュレーションの代替モデル（サロゲートモデル）を構築することができる。サロゲートモデルは計算負荷が低いため、シミュレーションによるタスクの最適化の応用範囲を広げることができる。例えば、日々のスケジュールの最適化にも適用可能になる。

【0004】

サロゲートモデルによる交通シミュレーションに関する技術として、人流や交通流の推定を効率的に行うデータ生成装置が提案されている。この装置は、環境を表す第１のパラメータと複数の移動体のそれぞれの環境における移動の属性を表す第２のパラメータとを取得し、第２のパラメータに基づいて、複数の移動体を複数のグループに分類する。また、この装置は、複数のグループのそれぞれに分類された移動体の数を示す第３のパラメータを生成し、第１のパラメータと第３のパラメータとを機械学習モデルに入力し、複数の移動体の環境における移動に関する推定情報を生成する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２２－１３１３９３号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

交通シミュレーションのサロゲートモデルを構築するためには、幅広い状況を網羅する訓練データが必要である。しかし、訓練に用いるデータが高価であったり、そもそも存在しなかったり（訓練に十分な量が実測データとして得られていない）という理由で入手することが困難である。そのため、限られたデータから、高精度なサロゲートモデルを訓練するための多様な訓練データを生成することが必要である。

【0007】

一つの側面として、開示の技術は、高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成することを目的とする。

【課題を解決するための手段】

【0008】

一つの態様として、開示の技術は、第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第２期間内に移動を開始した移動体の経路情報を抽出する。第２期間は、前記第１期間内に含まれ、前記第１期間よりも短い期間である。また、開示の技術は、抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成する。そして、開示の技術は、前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する。

【発明の効果】

【0009】

一つの側面として、高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成することができる、という効果を有する。

【図面の簡単な説明】

【0010】

【図1】交通シミュレーションを説明するための図である。

【図2】道路ネットワークの一例を示す概略図である。

【図3】サロゲートモデルの機械学習フェーズを説明するための図である。

【図4】サロゲートモデルを用いた最適化フェーズを説明するための図である。

【図5】系列データのデータ拡張を説明するための図である。

【図6】通常の系列データのデータ拡張を適用した場合の課題を説明するための図である。

【図7】本実施形態に係るデータ生成装置の機能ブロック図である。

【図8】プローブデータ及び経路情報の一例を示す図である。

【図9】時間ウィンドウの一例を示す図である。

【図10】移動開始時刻リストの一例を示す図である。

【図11】ＩＤリストの一例を示す図である。

【図12】時間ウィンドウ毎に抽出した経路情報の一例を示す図である。

【図13】時間ウィンドウ毎に抽出した経路情報に基づくＯＤ表及び交通密度の生成を説明するための図である。

【図14】データ生成装置として機能するコンピュータの概略構成を示すブロック図である。

【図15】データ生成処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

【0012】

＜交通シミュレーション及びサロゲートモデルの概要及び課題＞
実施形態の詳細を説明する前に、一般的な交通シミュレーション及びサロゲートモデルの概要及び課題について説明する。

【0013】

図１に示すように、交通シミュレーションとは、交通需要を入力とし、その交通需要に応じた交通状態をシミュレーションして出力するものである。例えば、図２に示すように、複数のノードと、ノード間を接続するリンクとで表される道路ネットワークを用いて交通シミュレーションを行うとする。図２の例では、黒丸がノード、ノード間を接続する接続線がリンクを表している。また、ノードに併記した「ｎｉ（ｉ＝１，２，・・・）」はノードの識別番号、リンクに併記した「ｅｊ（ｊ＝１，２，・・・）」はリンクの識別番号である。以下では、識別番号ｎｉのノードを「ノードｎｉ」、識別番号ｅｊのリンクを「リンクｅｊ」と表記する。

【0014】

交通需要は、例えば、各地点（ノード）間を移動した移動体（人、車両等）の数を示すＯＤ表で表される。ＯＤ表は、出発点（Origin）となるノードと到着点（Destination）となるノードとのマトリクスで表され、マトリクスの各マスに対応する出発点から到着点まで移動する移動体の数が、そのマスに格納された表である。また、時間帯別のＯＤを用いて、図１に示すような３次元のテンソルを交通需要としてもよい。また、交通状態は、例えば、リンク毎の交通量で表される交通密度である。

【0015】

交通シミュレーションの機械学習モデル（サロゲートモデル）は、図１に示すような交通シミュレーションの入出力関係を再現する軽量な代替モデルである。図３に示すように、機械学習モデルの機械学習フェーズでは、情報処理装置が、地理データ及び複数のプローブデータから、特徴量となる交通需要及び道路ネットワークを抽出すると共に、正解ラベルとなる交通密度を抽出する。プローブデータとは、各移動体の位置情報（緯度、経度等）がタイムスタンプと共に記録されたデータである。プローブデータは、スマートフォン、各種センサ等により取得され、ネットワークを介して収集される。地理データとは、道路ネットワークの情報を含む様々な地理情報が記録されたデータである。

【0016】

そして、情報処理装置は、抽出した交通需要及び道路ネットワークを特徴量として、ニューラルネットワーク等で構成された機械学習モデルに入力し、機械学習モデルで推論される交通密度を取得する。そして、情報処理装置は、取得した交通密度と、正解ラベルである交通密度との誤差を最小化するように、機械学習モデルのパラメータを更新することで、機械学習モデルを訓練する。

【0017】

訓練済みの機械学習モデルを用いた最適化フェーズでは、図４に示すように、情報処理装置は、道路ネットワーク及び交通需要を機械学習モデルに入力し、目的関数である交通密度を取得する。図４では、イベント開催時のバスの運行スケジュールを最適化する例を示している。図４の例では、情報処理装置は、道路ネットワーク及び日常の交通需要の予報値を定数として、バスの運行スケジュールの案毎のイベント交通需要を決定変数として機械学習モデルへ入力している。なお、道路ネットワークも決定変数として扱ってもよい。そして、情報処理装置は、案毎に得られる交通密度を比較し、交通密度（混雑）が最小となる案を最適な案として選択して出力する。なお、最適化は、遺伝的アルゴリズム等の既存の手法で実行してよい。

【0018】

上述したように、交通シミュレーションの機械学習モデル（サロゲートモデル）の訓練に用いるデータは入手困難な場合が多い。高精度な機械学習モデルを構築するためには、多様な訓練データが必要であるため、データ拡張方法により訓練データを生成することが考えられる。

【0019】

系列データの通常のデータ拡張方法として、系列データから時間ウィンドウでデータを切り出す方法がある。この方法を利用して、第１期間の交通量のデータから、第１期間よりも短い第２期間の時間ウィンドウで切り出したデータに基づいて、特徴量（交通需要）及び正解ラベル（交通密度）を生成することが考えられる。例えば、図５に示すように、１日分（０時～２４時）の交通量のデータから、６時間の時間ウィンドウでデータを切り出す。この６時間の時間ウィンドウを１日の期間内に複数設定することで、１日分の交通量のデータから複数のデータを抽出することができる。なお、図５では、各時刻の交通量を網掛の濃淡で表している。

【0020】

この方法を、機械学習モデルの訓練に用いる特徴量（交通需要）及び正解ラベル（交通密度）に適用した場合、特徴量と正解ラベルとが整合しない場合が生じる。例えば、図６に示すように、ＯＤ表から、時間ウィンドウ（図６の例では、ｔ＝６時～１２時）内のデータを切り出すと共に、交通密度についても、同様の時間ウィンドウでデータを切り出す。この場合、交通密度については、切り出した部分のデータは、前の時間帯の影響を受けている。図６の例では、交通密度として、リンクｅ２の交通密度を示している。例えば、ｔ＝６時の段階で、渋滞によりリンクｅ２で１００台の滞留が発生しており、ｔ＝７時までこの滞留が継続していたとする。この場合、時間ウィンドウで切り出した部分のデータには、上記の滞留分（例えば、図６中の網掛部分）の影響が残っている。一方、ＯＤ表の値は、各時刻における台数であるため、切り出した部分のデータは、前の時間帯の影響を受けていない。

【0021】

このように、特徴量と正解ラベルとが整合していない訓練データを用いて機械学習モデルを訓練した場合には、機械学習モデルによる推論精度を向上させることができない。そこで、本実施形態では、時間ウィンドウでデータを切り出す際に、時間ウィンドウの開始時刻から終了時刻までの間に移動を開始した移動体のデータを切り出す。そして、切り出したデータを用いて特徴量である交通需要、及び正解ラベルである交通密度を生成する。これにより、特徴量側及び正解ラベル側のいずれからも、時間ウィンドウの開始時刻前の影響が除外され、特徴量と正解ラベルとが整合する。

【0022】

＜本実施形態に係るデータ生成装置＞
図７に示すように、本実施形態に係るデータ生成装置１０は、分割部１２と、抽出部１４と、生成部１６と、訓練部１８とを含む。データ生成装置１０には、複数のプローブデータが入力される。データ生成装置１０は、プローブデータから機械学習モデル３０の訓練に用いる訓練データを生成し、機械学習モデル３０を訓練する。機械学習モデル３０は、例えばニューラルネットワーク等で構成される。

【0023】

分割部１２は、データ生成装置１０に入力された複数のプローブデータを取得する。プローブデータは、例えば、１日の間に記録された複数の移動体それぞれの移動状況を示すデータである。すなわち、プローブデータには、ある移動体の一日の履歴が、プローブデータを記録するための記録デバイスの電源を入れた時点から記録されている。したがって、複数の移動体それぞれのプローブデータにおいて、記録開始時刻が、例えば、早朝の時間帯等に集中することが想定される。図８上図に、プローブデータの生データの一例を示す。図８の例は、移動体の識別情報（以下、「移動体ＩＤ」という）が１の移動体についてのプローブデータであり、｛移動体ＩＤ，時刻，緯度，経度｝のデータ形式で表されている。

【0024】

詳細は後述するが、本実施形態では、移動体の移動開始時刻を基準に時間ウィンドウでデータを切り出す。そのため、上記のように、早朝の時間帯等に記録開始時刻が集中しているプローブデータの生データに対して本実施形態の手法を適用すると、第１期間の後半部分に設定した時間ウィンドウからは、ほぼデータが切り出されない状態になってしまう。

【0025】

そこで、分割部１２は、各移動体のプローブデータを「活動」の区切りで分割する。具体的には、分割部１２は、プローブデータが示す時刻と位置情報（緯度及び経度）とに基づいて、移動体の位置が一定範囲に一定時間留まっていることを示す部分の前後でプローブデータを分割する。移動体の位置が一定範囲に一定時間留まっている状態は、そこで何かしらの活動（仕事、就寝等）が行われているとみなし、活動が行われている前後でプローブデータを分割することで、移動を意味するデータを経路情報として利用するためである。

【0026】

例えば、図８上図のプローブデータの生データでは、９：００～９：３０の３０分間、緯度及び経度が±０．０００１の範囲に留まっている。分割部１２は、この滞留部分において、何かしらの活動が行われているとみなし、プローブデータを９：００以前のデータと、９：３０以降のデータとに分割する。滞留を判定するための時間及び距離の閾値は、信号待ち等の一時的な滞留を排除できる値を予め設定しておく。

【0027】

分割後のプローブデータの一例を図８下図に示す。分割部１２は、分割後の各データを経路情報とし、各経路情報に識別情報（以下、「経路ＩＤ」という）を付与する。すなわち、経路情報は、複数の時点毎の移動体の位置情報の系列に経路ＩＤが対応付けられた情報となる。図８下図の例では、経路ＩＤを、移動体ＩＤに、分割した何番目のデータであるかを示す枝番を付与した形式で表している。分割部１２は、複数の移動体についての経路情報をまとめて母集団のデータとする。この際、分割部１２は、各経路情報に通し番号等の新たな経路ＩＤを付与してもよい。

【0028】

抽出部１４は、第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第１期間内に含まれ、かつ第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出する。第１期間は、時間ウィンドウで切り出す前の母集団のデータの期間（例えば、１日）である。第２期間は、時間ウィンドウの期間（例えば、６時間）である。所定の地理範囲とは、道路ネットワークで示されるエリアである。

【0029】

具体的には、抽出部１４は、図９に示すように、第１期間に対して設定する時間ウィンドウの範囲（開始時刻－終了時刻）と、その時間ウィンドウにより切り出されるデータに対して付与するデータ名とを対応付けて用意しておく。また、抽出部１４は、図１０に示すように、母集団のデータから、各経路情報の移動開始時刻を抽出し、その経路情報の経路ＩＤと移動開始時刻とを対応付けた移動開始時刻リストを作成する。図１０の例では、複数の経路情報のそれぞれに含まれる各位置情報を時刻順に並べ替えた母集団のデータを表している。この場合、抽出部１４は、同一の経路ＩＤが付されたデータのうち、最も早い時刻を、その経路ＩＤと対応付ける移動開始時刻として抽出する。図１０において、網掛のデータが、各経路情報の移動開始時刻のデータである。

【0030】

また、抽出部１４は、移動開始時刻リストを参照して、各時間ウィンドウに移動開始時刻が含まれる経路情報の経路ＩＤを、時間ウィンドウに対応するデータ名と対応付けたＩＤリストを作成する。図１１に、ＩＤリストの一例を示す。抽出部１４は、ＩＤリストを参照して、母集団のデータから、各データ名に対応付けられた経路ＩＤのデータを切り出す。図１２に、切り出されたデータの一例を示す。切り出された各データに含まれる、経路ＩＤが同一のデータを時刻順に並べたものが経路情報である。すなわち、切り出されたデータは、時間ウィンドウ毎に抽出された経路情報である。

【0031】

生成部１６は、時間ウィンドウ毎に、抽出部１４により抽出された経路情報に基づいて、経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計したＯＤ表と、所定の地理範囲の交通密度とを生成する。

【0032】

具体的には、生成部１６は、経路情報を道路ネットワークに対応付けて、移動体の位置情報（緯度及び経度）と各リンクの位置情報とを比較し、位置情報の系列である経路情報を、各時刻に移動体が存在するリンクの系列である経路情報に変換する。生成部１６は、リンクの系列である経路情報に基づいて、各経路情報の出発点及び到着点に対応するノードを特定し、各経路情報から、出発点に対応するノードと到着点に対応するノードの組み合わせであるＯＤを抽出する。そして、生成部１６は、同一のＯＤの数をカウントしてＯＤ表の該当のマスに格納することにより、ＯＤ表を生成する。また、生成部１６は、リンクの系列である経路情報に基づいて、各時点において、各リンクに存在する移動体の数で表されるリンク交通流を交通密度として生成する。

【0033】

生成部１６は、生成したＯＤ表を入力特徴量とし、生成した交通密度を正解ラベルとした訓練データを、交通需要に応じた交通の混み具合を導出する機械学習モデル３０の訓練データとして生成する。

【0034】

このように、本実施形態では、図１３に示すように、時間ウィンドウでデータを切り出す際に、時間ウィンドウ内に移動開始時刻が含まれる経路情報を切り出し、切り出した経路情報に基づいて、その時間ウィンドウについての交通需要及び交通密度を生成する。これにより、正解ラベル（交通密度）側においても、時間ウィンドウの開始時刻前の交通状況の影響が除外され、特徴量と正解ラベルとが整合する。

【0035】

なお、移動開始時刻を基準に経路情報を抽出するため、抽出された経路情報には、時間ウィンドウの終了時刻以降のデータも含まれるが、ＯＤ表については、通常、出発点の時刻でＯＤを集計するため、問題ない。また、交通密度については、後端を時間ウィンドウの終了時刻で切り取ればよい。

【0036】

訓練部１８は、生成部１６により生成された訓練データを用いて、機械学習モデル３０を訓練する。具体的には、訓練部１８は、生成されたＯＤ表を特徴量として機械学習モデル３０に入力し、機械学習モデル３０で推論される交通密度を取得する。そして、訓練部１８は、取得した交通密度と、正解ラベルとして生成された交通密度との誤差を最小化するように、機械学習モデル３０のパラメータを更新することで、機械学習モデル３０を訓練する。

【0037】

データ生成装置１０は、例えば図１４に示すコンピュータ５０で実現されてよい。コンピュータ５０は、ＣＰＵ（Central Processing Unit）５１と、ＧＰＵ（Graphics Processing Unit）５２と、一時記憶領域としてのメモリ５３と、不揮発性の記憶装置５４とを備える。また、コンピュータ５０は、入力装置、表示装置等の入出力装置５５と、記憶媒体５９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）装置５６とを備える。また、コンピュータ５０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）５７を備える。ＣＰＵ５１、ＧＰＵ５２、メモリ５３、記憶装置５４、入出力装置５５、Ｒ／Ｗ装置５６、及び通信Ｉ／Ｆ５７は、バス５８を介して互いに接続される。

【0038】

記憶装置５４は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等である。記憶媒体としての記憶装置５４には、コンピュータ５０を、データ生成装置１０として機能させるためのデータ生成プログラム６０が記憶される。データ生成プログラム６０は、分割プロセス制御命令６２と、抽出プロセス制御命令６４と、生成プロセス制御命令６６と、訓練プロセス制御命令６８とを有する。

【0039】

ＣＰＵ５１は、データ生成プログラム６０を記憶装置５４から読み出してメモリ５３に展開し、データ生成プログラム６０が有する制御命令を順次実行する。ＣＰＵ５１は、分割プロセス制御命令６２を実行することで、図７に示す分割部１２として動作する。また、ＣＰＵ５１は、抽出プロセス制御命令６４を実行することで、図７に示す抽出部１４として動作する。また、ＣＰＵ５１は、生成プロセス制御命令６６を実行することで、図７に示す生成部１６として動作する。また、ＣＰＵ５１は、訓練プロセス制御命令６８を実行することで、図７に示す訓練部１８として動作する。これにより、データ生成プログラム６０を実行したコンピュータ５０が、データ生成装置１０として機能することになる。なお、プログラムを実行するＣＰＵ５１はハードウェアである。また、プログラムの一部は、ＧＰＵ５２により実行されてもよい。

【0040】

また、データ生成プログラム６０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等で実現されてもよい。

【0041】

次に、本実施形態に係るデータ生成装置１０の動作について説明する。データ生成装置１０に複数のプローブデータが入力されると、データ生成装置１０において、図１５に示すデータ生成処理が実行される。データ生成処理は、開示の技術のデータ生成方法の一例である。以下、データ生成処理について詳述する。

【0042】

ステップＳ１０で、分割部１２が、データ生成装置１０に入力された複数のプローブデータを取得する。次に、ステップＳ１２で、分割部１２は、プローブデータが示す時刻と位置情報（緯度及び経度）とに基づいて、移動体の位置が一定範囲に一定時間留まっていることを示す部分の前後でプローブデータを分割する。分割部１２は、分割後の各データに経路ＩＤを付与して、経路情報を生成し、複数の移動体についての経路情報をまとめて母集団のデータとする。

【0043】

次に、ステップＳ１４で、抽出部１４が、母集団のデータに対して設定する時間ウィンドウの範囲（開始時刻－終了時刻）と、その時間ウィンドウにより切り出されるデータに対して付与するデータ名とを対応付けて用意しておく。次に、ステップＳ１６で、抽出部１４が、母集団のデータから、各経路情報の移動開始時刻を抽出し、その経路情報の経路ＩＤと移動開始時刻とを対応付けた移動開始時刻リストを作成する。

【0044】

次に、ステップＳ１８で、抽出部１４が、移動開始時刻リストを参照して、各時間ウィンドウに移動開始時刻が含まれる経路情報の経路ＩＤを、時間ウィンドウに対応するデータ名と対応付けたＩＤリストを作成する。次に、ステップＳ２０で、抽出部１４が、ＩＤリストを参照して、母集団のデータから、各データ名に対応付けられた経路ＩＤのデータを切り出す。すなわち、抽出部１４が、時間ウィンドウ毎に経路情報を抽出する。

【0045】

次に、ステップＳ２２で、生成部１６が、上記ステップＳ２０で、時間ウィンドウ毎に抽出された経路情報に基づいて、ＯＤ表と交通密度とを生成する。次に、ステップＳ２４で、ＯＤ表を特徴量、交通密度を正解ラベルとする訓練データを生成し、データ生成処理は終了する。

【0046】

そして、訓練部１８が、データ生成処理により生成された訓練データを用いて、機械学習モデル３０を訓練する。

【0047】

以上説明したように、本実施形態に係るデータ生成装置は、第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出する。また、データ生成装置は、抽出した経路情報に基づいて、経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、所定の地理範囲の交通の混み具合を示す情報とを生成する。そして、データ生成装置は、集計情報を入力特徴量とし、混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する。これにより、高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成することができる。

【0048】

なお、上記実施形態では、訓練部も含むデータ生成装置について説明したが、訓練部は別のコンピュータで構成し、データ生成装置は、生成した訓練データを出力する構成としてもよい。この場合、訓練部を含むコンピュータが、データ生成装置から出力された訓練データを用いて、機械学習モデルを訓練する。

【0049】

また、上記実施形態では、データ生成プログラムが記憶装置に予め記憶（インストール）されているが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。

【0050】

以上の実施形態に関し、さらに以下の付記を開示する。

【0051】

（付記１）
第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第１期間内に含まれ前記第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータに実行させるためのデータ生成プログラム。

【0052】

（付記２）
前記第１期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成することをさらに含む処理を前記コンピュータに実行させるための付記１に記載のデータ生成プログラム。

【0053】

（付記３）
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である付記２に記載のデータ生成プログラム。

【0054】

（付記４）
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第２期間のそれぞれについて、前記第２期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
付記１～付記３のいずれか１項に記載のデータ生成プログラム。

【0055】

（付記５）
生成した前記訓練データを用いて、前記機械学習モデルを訓練することをさらに含む処理を前記コンピュータに実行させるための付記１～付記４のいずれか１項に記載のデータ生成プログラム。

【0056】

（付記６）
第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第１期間内に含まれ前記第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータが実行するデータ生成方法。

【0057】

（付記７）
前記第１期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成することをさらに含む処理を前記コンピュータが実行する付記６に記載のデータ生成方法。

【0058】

（付記８）
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である付記７に記載のデータ生成方法。

【0059】

（付記９）
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第２期間のそれぞれについて、前記第２期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
付記６～付記８のいずれか１項に記載のデータ生成方法。

【0060】

（付記１０）
生成した前記訓練データを用いて、前記機械学習モデルを訓練することをさらに含む処理を前記コンピュータに実行させるための付記６～付記９のいずれか１項に記載のデータ生成方法。

【0061】

（付記１１）
第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第１期間内に含まれ前記第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出する抽出部と、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する生成部と、
を含むデータ生成装置。

【0062】

（付記１２）
前記第１期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成する分割部をさらに含む付記１１に記載のデータ生成装置。

【0063】

（付記１３）
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である付記１２に記載のデータ生成装置。

【0064】

（付記１４）
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記抽出部は、前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第２期間のそれぞれについて、前記第２期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
付記１１～付記１３のいずれか１項に記載のデータ生成装置。

【0065】

（付記１５）
生成した前記訓練データを用いて、前記機械学習モデルを訓練する訓練部をさらに含む付記１１～付記１４のいずれか１項に記載のデータ生成装置。

【0066】

（付記１６）
第１期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第１期間内に含まれ前記第１期間よりも短い第２期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータに実行させるためのデータ生成プログラムを記憶した非一時的記憶媒体。

【符号の説明】

【0067】

１０データ生成装置
１２分割部
１４抽出部
１６生成部
１８訓練部
３０機械学習モデル
５０コンピュータ
５１ＣＰＵ
５２ＧＰＵ
５３メモリ
５４記憶装置
５５入出力装置
５６Ｒ／Ｗ装置
５７通信Ｉ／Ｆ
５８バス
５９記憶媒体
６０データ生成プログラム
６２分割プロセス制御命令
６４抽出プロセス制御命令
６６生成プロセス制御命令
６８訓練プロセス制御命令

【図1】