IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2024-174766データ生成プログラム、方法、及び装置
<>
  • 特開-データ生成プログラム、方法、及び装置 図1
  • 特開-データ生成プログラム、方法、及び装置 図2
  • 特開-データ生成プログラム、方法、及び装置 図3
  • 特開-データ生成プログラム、方法、及び装置 図4
  • 特開-データ生成プログラム、方法、及び装置 図5
  • 特開-データ生成プログラム、方法、及び装置 図6
  • 特開-データ生成プログラム、方法、及び装置 図7
  • 特開-データ生成プログラム、方法、及び装置 図8
  • 特開-データ生成プログラム、方法、及び装置 図9
  • 特開-データ生成プログラム、方法、及び装置 図10
  • 特開-データ生成プログラム、方法、及び装置 図11
  • 特開-データ生成プログラム、方法、及び装置 図12
  • 特開-データ生成プログラム、方法、及び装置 図13
  • 特開-データ生成プログラム、方法、及び装置 図14
  • 特開-データ生成プログラム、方法、及び装置 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024174766
(43)【公開日】2024-12-17
(54)【発明の名称】データ生成プログラム、方法、及び装置
(51)【国際特許分類】
   G08G 1/01 20060101AFI20241210BHJP
【FI】
G08G1/01 A
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023092782
(22)【出願日】2023-06-05
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和3年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「機械学習と社会科学の融合による社会シミュレーションの革新」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】山田 広明
(72)【発明者】
【氏名】山根 昇平
(72)【発明者】
【氏名】神山 直之
【テーマコード(参考)】
5H181
【Fターム(参考)】
5H181AA01
5H181BB04
5H181BB13
5H181BB20
5H181DD04
5H181FF10
5H181FF13
5H181FF27
5H181MC14
5H181MC27
(57)【要約】
【課題】高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成する。
【解決手段】データ生成装置は、第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第1期間内に含まれ第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出し、抽出した経路情報に基づいて、経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、所定の地理範囲の交通の混み具合を示す情報とを生成し、集計情報を入力特徴量とし混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する。
【選択図】図13
【特許請求の範囲】
【請求項1】
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータに実行させるためのデータ生成プログラム。
【請求項2】
前記第1期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成することをさらに含む処理を前記コンピュータに実行させるための請求項1に記載のデータ生成プログラム。
【請求項3】
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である請求項2に記載のデータ生成プログラム。
【請求項4】
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第2期間のそれぞれについて、前記第2期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
請求項1~請求項3のいずれか1項に記載のデータ生成プログラム。
【請求項5】
生成した前記訓練データを用いて、前記機械学習モデルを訓練することをさらに含む処理を前記コンピュータに実行させるための請求項1~請求項3のいずれか1項に記載のデータ生成プログラム。
【請求項6】
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータが実行するデータ生成方法。
【請求項7】
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出する抽出部と、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する生成部と、
を含むデータ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、データ生成プログラム、データ生成方法、及びデータ生成装置に関する。
【背景技術】
【0002】
従来、交通シミュレーションを用いて、公共交通のスケジュール等を最適化する技術が存在する。例えば、イベント開催時の特別バスの運行スケジュールを決定する場合、交通状況に合わせて特別バスの発着時間を設定して、混雑の発生及び拡大を回避する必要がある。このような場合に、交通シミュレーションを使って混雑を起こさない最適なスケジュールを探索する。
【0003】
交通シミュレーション装置の構築は大変な手間がかかる。また、シミュレーション実行時の計算負荷も高い。一方で、プローブデータから交通需要及び交通密度を抽出し、両者の関係をニューラルネットワーク等の機械学習モデルを用いて学習することで、高精度なシミュレーションの代替モデル(サロゲートモデル)を構築することができる。サロゲートモデルは計算負荷が低いため、シミュレーションによるタスクの最適化の応用範囲を広げることができる。例えば、日々のスケジュールの最適化にも適用可能になる。
【0004】
サロゲートモデルによる交通シミュレーションに関する技術として、人流や交通流の推定を効率的に行うデータ生成装置が提案されている。この装置は、環境を表す第1のパラメータと複数の移動体のそれぞれの環境における移動の属性を表す第2のパラメータとを取得し、第2のパラメータに基づいて、複数の移動体を複数のグループに分類する。また、この装置は、複数のグループのそれぞれに分類された移動体の数を示す第3のパラメータを生成し、第1のパラメータと第3のパラメータとを機械学習モデルに入力し、複数の移動体の環境における移動に関する推定情報を生成する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2022-131393号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
交通シミュレーションのサロゲートモデルを構築するためには、幅広い状況を網羅する訓練データが必要である。しかし、訓練に用いるデータが高価であったり、そもそも存在しなかったり(訓練に十分な量が実測データとして得られていない)という理由で入手することが困難である。そのため、限られたデータから、高精度なサロゲートモデルを訓練するための多様な訓練データを生成することが必要である。
【0007】
一つの側面として、開示の技術は、高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成することを目的とする。
【課題を解決するための手段】
【0008】
一つの態様として、開示の技術は、第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第2期間内に移動を開始した移動体の経路情報を抽出する。第2期間は、前記第1期間内に含まれ、前記第1期間よりも短い期間である。また、開示の技術は、抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成する。そして、開示の技術は、前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する。
【発明の効果】
【0009】
一つの側面として、高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成することができる、という効果を有する。
【図面の簡単な説明】
【0010】
図1】交通シミュレーションを説明するための図である。
図2】道路ネットワークの一例を示す概略図である。
図3】サロゲートモデルの機械学習フェーズを説明するための図である。
図4】サロゲートモデルを用いた最適化フェーズを説明するための図である。
図5】系列データのデータ拡張を説明するための図である。
図6】通常の系列データのデータ拡張を適用した場合の課題を説明するための図である。
図7】本実施形態に係るデータ生成装置の機能ブロック図である。
図8】プローブデータ及び経路情報の一例を示す図である。
図9】時間ウィンドウの一例を示す図である。
図10】移動開始時刻リストの一例を示す図である。
図11】IDリストの一例を示す図である。
図12】時間ウィンドウ毎に抽出した経路情報の一例を示す図である。
図13】時間ウィンドウ毎に抽出した経路情報に基づくOD表及び交通密度の生成を説明するための図である。
図14】データ生成装置として機能するコンピュータの概略構成を示すブロック図である。
図15】データ生成処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
【0012】
<交通シミュレーション及びサロゲートモデルの概要及び課題>
実施形態の詳細を説明する前に、一般的な交通シミュレーション及びサロゲートモデルの概要及び課題について説明する。
【0013】
図1に示すように、交通シミュレーションとは、交通需要を入力とし、その交通需要に応じた交通状態をシミュレーションして出力するものである。例えば、図2に示すように、複数のノードと、ノード間を接続するリンクとで表される道路ネットワークを用いて交通シミュレーションを行うとする。図2の例では、黒丸がノード、ノード間を接続する接続線がリンクを表している。また、ノードに併記した「ni(i=1,2,・・・)」はノードの識別番号、リンクに併記した「ej(j=1,2,・・・)」はリンクの識別番号である。以下では、識別番号niのノードを「ノードni」、識別番号ejのリンクを「リンクej」と表記する。
【0014】
交通需要は、例えば、各地点(ノード)間を移動した移動体(人、車両等)の数を示すOD表で表される。OD表は、出発点(Origin)となるノードと到着点(Destination)となるノードとのマトリクスで表され、マトリクスの各マスに対応する出発点から到着点まで移動する移動体の数が、そのマスに格納された表である。また、時間帯別のODを用いて、図1に示すような3次元のテンソルを交通需要としてもよい。また、交通状態は、例えば、リンク毎の交通量で表される交通密度である。
【0015】
交通シミュレーションの機械学習モデル(サロゲートモデル)は、図1に示すような交通シミュレーションの入出力関係を再現する軽量な代替モデルである。図3に示すように、機械学習モデルの機械学習フェーズでは、情報処理装置が、地理データ及び複数のプローブデータから、特徴量となる交通需要及び道路ネットワークを抽出すると共に、正解ラベルとなる交通密度を抽出する。プローブデータとは、各移動体の位置情報(緯度、経度等)がタイムスタンプと共に記録されたデータである。プローブデータは、スマートフォン、各種センサ等により取得され、ネットワークを介して収集される。地理データとは、道路ネットワークの情報を含む様々な地理情報が記録されたデータである。
【0016】
そして、情報処理装置は、抽出した交通需要及び道路ネットワークを特徴量として、ニューラルネットワーク等で構成された機械学習モデルに入力し、機械学習モデルで推論される交通密度を取得する。そして、情報処理装置は、取得した交通密度と、正解ラベルである交通密度との誤差を最小化するように、機械学習モデルのパラメータを更新することで、機械学習モデルを訓練する。
【0017】
訓練済みの機械学習モデルを用いた最適化フェーズでは、図4に示すように、情報処理装置は、道路ネットワーク及び交通需要を機械学習モデルに入力し、目的関数である交通密度を取得する。図4では、イベント開催時のバスの運行スケジュールを最適化する例を示している。図4の例では、情報処理装置は、道路ネットワーク及び日常の交通需要の予報値を定数として、バスの運行スケジュールの案毎のイベント交通需要を決定変数として機械学習モデルへ入力している。なお、道路ネットワークも決定変数として扱ってもよい。そして、情報処理装置は、案毎に得られる交通密度を比較し、交通密度(混雑)が最小となる案を最適な案として選択して出力する。なお、最適化は、遺伝的アルゴリズム等の既存の手法で実行してよい。
【0018】
上述したように、交通シミュレーションの機械学習モデル(サロゲートモデル)の訓練に用いるデータは入手困難な場合が多い。高精度な機械学習モデルを構築するためには、多様な訓練データが必要であるため、データ拡張方法により訓練データを生成することが考えられる。
【0019】
系列データの通常のデータ拡張方法として、系列データから時間ウィンドウでデータを切り出す方法がある。この方法を利用して、第1期間の交通量のデータから、第1期間よりも短い第2期間の時間ウィンドウで切り出したデータに基づいて、特徴量(交通需要)及び正解ラベル(交通密度)を生成することが考えられる。例えば、図5に示すように、1日分(0時~24時)の交通量のデータから、6時間の時間ウィンドウでデータを切り出す。この6時間の時間ウィンドウを1日の期間内に複数設定することで、1日分の交通量のデータから複数のデータを抽出することができる。なお、図5では、各時刻の交通量を網掛の濃淡で表している。
【0020】
この方法を、機械学習モデルの訓練に用いる特徴量(交通需要)及び正解ラベル(交通密度)に適用した場合、特徴量と正解ラベルとが整合しない場合が生じる。例えば、図6に示すように、OD表から、時間ウィンドウ(図6の例では、t=6時~12時)内のデータを切り出すと共に、交通密度についても、同様の時間ウィンドウでデータを切り出す。この場合、交通密度については、切り出した部分のデータは、前の時間帯の影響を受けている。図6の例では、交通密度として、リンクe2の交通密度を示している。例えば、t=6時の段階で、渋滞によりリンクe2で100台の滞留が発生しており、t=7時までこの滞留が継続していたとする。この場合、時間ウィンドウで切り出した部分のデータには、上記の滞留分(例えば、図6中の網掛部分)の影響が残っている。一方、OD表の値は、各時刻における台数であるため、切り出した部分のデータは、前の時間帯の影響を受けていない。
【0021】
このように、特徴量と正解ラベルとが整合していない訓練データを用いて機械学習モデルを訓練した場合には、機械学習モデルによる推論精度を向上させることができない。そこで、本実施形態では、時間ウィンドウでデータを切り出す際に、時間ウィンドウの開始時刻から終了時刻までの間に移動を開始した移動体のデータを切り出す。そして、切り出したデータを用いて特徴量である交通需要、及び正解ラベルである交通密度を生成する。これにより、特徴量側及び正解ラベル側のいずれからも、時間ウィンドウの開始時刻前の影響が除外され、特徴量と正解ラベルとが整合する。
【0022】
<本実施形態に係るデータ生成装置>
図7に示すように、本実施形態に係るデータ生成装置10は、分割部12と、抽出部14と、生成部16と、訓練部18とを含む。データ生成装置10には、複数のプローブデータが入力される。データ生成装置10は、プローブデータから機械学習モデル30の訓練に用いる訓練データを生成し、機械学習モデル30を訓練する。機械学習モデル30は、例えばニューラルネットワーク等で構成される。
【0023】
分割部12は、データ生成装置10に入力された複数のプローブデータを取得する。プローブデータは、例えば、1日の間に記録された複数の移動体それぞれの移動状況を示すデータである。すなわち、プローブデータには、ある移動体の一日の履歴が、プローブデータを記録するための記録デバイスの電源を入れた時点から記録されている。したがって、複数の移動体それぞれのプローブデータにおいて、記録開始時刻が、例えば、早朝の時間帯等に集中することが想定される。図8上図に、プローブデータの生データの一例を示す。図8の例は、移動体の識別情報(以下、「移動体ID」という)が1の移動体についてのプローブデータであり、{移動体ID,時刻,緯度,経度}のデータ形式で表されている。
【0024】
詳細は後述するが、本実施形態では、移動体の移動開始時刻を基準に時間ウィンドウでデータを切り出す。そのため、上記のように、早朝の時間帯等に記録開始時刻が集中しているプローブデータの生データに対して本実施形態の手法を適用すると、第1期間の後半部分に設定した時間ウィンドウからは、ほぼデータが切り出されない状態になってしまう。
【0025】
そこで、分割部12は、各移動体のプローブデータを「活動」の区切りで分割する。具体的には、分割部12は、プローブデータが示す時刻と位置情報(緯度及び経度)とに基づいて、移動体の位置が一定範囲に一定時間留まっていることを示す部分の前後でプローブデータを分割する。移動体の位置が一定範囲に一定時間留まっている状態は、そこで何かしらの活動(仕事、就寝等)が行われているとみなし、活動が行われている前後でプローブデータを分割することで、移動を意味するデータを経路情報として利用するためである。
【0026】
例えば、図8上図のプローブデータの生データでは、9:00~9:30の30分間、緯度及び経度が±0.0001の範囲に留まっている。分割部12は、この滞留部分において、何かしらの活動が行われているとみなし、プローブデータを9:00以前のデータと、9:30以降のデータとに分割する。滞留を判定するための時間及び距離の閾値は、信号待ち等の一時的な滞留を排除できる値を予め設定しておく。
【0027】
分割後のプローブデータの一例を図8下図に示す。分割部12は、分割後の各データを経路情報とし、各経路情報に識別情報(以下、「経路ID」という)を付与する。すなわち、経路情報は、複数の時点毎の移動体の位置情報の系列に経路IDが対応付けられた情報となる。図8下図の例では、経路IDを、移動体IDに、分割した何番目のデータであるかを示す枝番を付与した形式で表している。分割部12は、複数の移動体についての経路情報をまとめて母集団のデータとする。この際、分割部12は、各経路情報に通し番号等の新たな経路IDを付与してもよい。
【0028】
抽出部14は、第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第1期間内に含まれ、かつ第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出する。第1期間は、時間ウィンドウで切り出す前の母集団のデータの期間(例えば、1日)である。第2期間は、時間ウィンドウの期間(例えば、6時間)である。所定の地理範囲とは、道路ネットワークで示されるエリアである。
【0029】
具体的には、抽出部14は、図9に示すように、第1期間に対して設定する時間ウィンドウの範囲(開始時刻-終了時刻)と、その時間ウィンドウにより切り出されるデータに対して付与するデータ名とを対応付けて用意しておく。また、抽出部14は、図10に示すように、母集団のデータから、各経路情報の移動開始時刻を抽出し、その経路情報の経路IDと移動開始時刻とを対応付けた移動開始時刻リストを作成する。図10の例では、複数の経路情報のそれぞれに含まれる各位置情報を時刻順に並べ替えた母集団のデータを表している。この場合、抽出部14は、同一の経路IDが付されたデータのうち、最も早い時刻を、その経路IDと対応付ける移動開始時刻として抽出する。図10において、網掛のデータが、各経路情報の移動開始時刻のデータである。
【0030】
また、抽出部14は、移動開始時刻リストを参照して、各時間ウィンドウに移動開始時刻が含まれる経路情報の経路IDを、時間ウィンドウに対応するデータ名と対応付けたIDリストを作成する。図11に、IDリストの一例を示す。抽出部14は、IDリストを参照して、母集団のデータから、各データ名に対応付けられた経路IDのデータを切り出す。図12に、切り出されたデータの一例を示す。切り出された各データに含まれる、経路IDが同一のデータを時刻順に並べたものが経路情報である。すなわち、切り出されたデータは、時間ウィンドウ毎に抽出された経路情報である。
【0031】
生成部16は、時間ウィンドウ毎に、抽出部14により抽出された経路情報に基づいて、経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計したOD表と、所定の地理範囲の交通密度とを生成する。
【0032】
具体的には、生成部16は、経路情報を道路ネットワークに対応付けて、移動体の位置情報(緯度及び経度)と各リンクの位置情報とを比較し、位置情報の系列である経路情報を、各時刻に移動体が存在するリンクの系列である経路情報に変換する。生成部16は、リンクの系列である経路情報に基づいて、各経路情報の出発点及び到着点に対応するノードを特定し、各経路情報から、出発点に対応するノードと到着点に対応するノードの組み合わせであるODを抽出する。そして、生成部16は、同一のODの数をカウントしてOD表の該当のマスに格納することにより、OD表を生成する。また、生成部16は、リンクの系列である経路情報に基づいて、各時点において、各リンクに存在する移動体の数で表されるリンク交通流を交通密度として生成する。
【0033】
生成部16は、生成したOD表を入力特徴量とし、生成した交通密度を正解ラベルとした訓練データを、交通需要に応じた交通の混み具合を導出する機械学習モデル30の訓練データとして生成する。
【0034】
このように、本実施形態では、図13に示すように、時間ウィンドウでデータを切り出す際に、時間ウィンドウ内に移動開始時刻が含まれる経路情報を切り出し、切り出した経路情報に基づいて、その時間ウィンドウについての交通需要及び交通密度を生成する。これにより、正解ラベル(交通密度)側においても、時間ウィンドウの開始時刻前の交通状況の影響が除外され、特徴量と正解ラベルとが整合する。
【0035】
なお、移動開始時刻を基準に経路情報を抽出するため、抽出された経路情報には、時間ウィンドウの終了時刻以降のデータも含まれるが、OD表については、通常、出発点の時刻でODを集計するため、問題ない。また、交通密度については、後端を時間ウィンドウの終了時刻で切り取ればよい。
【0036】
訓練部18は、生成部16により生成された訓練データを用いて、機械学習モデル30を訓練する。具体的には、訓練部18は、生成されたOD表を特徴量として機械学習モデル30に入力し、機械学習モデル30で推論される交通密度を取得する。そして、訓練部18は、取得した交通密度と、正解ラベルとして生成された交通密度との誤差を最小化するように、機械学習モデル30のパラメータを更新することで、機械学習モデル30を訓練する。
【0037】
データ生成装置10は、例えば図14に示すコンピュータ50で実現されてよい。コンピュータ50は、CPU(Central Processing Unit)51と、GPU(Graphics Processing Unit)52と、一時記憶領域としてのメモリ53と、不揮発性の記憶装置54とを備える。また、コンピュータ50は、入力装置、表示装置等の入出力装置55と、記憶媒体59に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)装置56とを備える。また、コンピュータ50は、インターネット等のネットワークに接続される通信I/F(Interface)57を備える。CPU51、GPU52、メモリ53、記憶装置54、入出力装置55、R/W装置56、及び通信I/F57は、バス58を介して互いに接続される。
【0038】
記憶装置54は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等である。記憶媒体としての記憶装置54には、コンピュータ50を、データ生成装置10として機能させるためのデータ生成プログラム60が記憶される。データ生成プログラム60は、分割プロセス制御命令62と、抽出プロセス制御命令64と、生成プロセス制御命令66と、訓練プロセス制御命令68とを有する。
【0039】
CPU51は、データ生成プログラム60を記憶装置54から読み出してメモリ53に展開し、データ生成プログラム60が有する制御命令を順次実行する。CPU51は、分割プロセス制御命令62を実行することで、図7に示す分割部12として動作する。また、CPU51は、抽出プロセス制御命令64を実行することで、図7に示す抽出部14として動作する。また、CPU51は、生成プロセス制御命令66を実行することで、図7に示す生成部16として動作する。また、CPU51は、訓練プロセス制御命令68を実行することで、図7に示す訓練部18として動作する。これにより、データ生成プログラム60を実行したコンピュータ50が、データ生成装置10として機能することになる。なお、プログラムを実行するCPU51はハードウェアである。また、プログラムの一部は、GPU52により実行されてもよい。
【0040】
また、データ生成プログラム60により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等で実現されてもよい。
【0041】
次に、本実施形態に係るデータ生成装置10の動作について説明する。データ生成装置10に複数のプローブデータが入力されると、データ生成装置10において、図15に示すデータ生成処理が実行される。データ生成処理は、開示の技術のデータ生成方法の一例である。以下、データ生成処理について詳述する。
【0042】
ステップS10で、分割部12が、データ生成装置10に入力された複数のプローブデータを取得する。次に、ステップS12で、分割部12は、プローブデータが示す時刻と位置情報(緯度及び経度)とに基づいて、移動体の位置が一定範囲に一定時間留まっていることを示す部分の前後でプローブデータを分割する。分割部12は、分割後の各データに経路IDを付与して、経路情報を生成し、複数の移動体についての経路情報をまとめて母集団のデータとする。
【0043】
次に、ステップS14で、抽出部14が、母集団のデータに対して設定する時間ウィンドウの範囲(開始時刻-終了時刻)と、その時間ウィンドウにより切り出されるデータに対して付与するデータ名とを対応付けて用意しておく。次に、ステップS16で、抽出部14が、母集団のデータから、各経路情報の移動開始時刻を抽出し、その経路情報の経路IDと移動開始時刻とを対応付けた移動開始時刻リストを作成する。
【0044】
次に、ステップS18で、抽出部14が、移動開始時刻リストを参照して、各時間ウィンドウに移動開始時刻が含まれる経路情報の経路IDを、時間ウィンドウに対応するデータ名と対応付けたIDリストを作成する。次に、ステップS20で、抽出部14が、IDリストを参照して、母集団のデータから、各データ名に対応付けられた経路IDのデータを切り出す。すなわち、抽出部14が、時間ウィンドウ毎に経路情報を抽出する。
【0045】
次に、ステップS22で、生成部16が、上記ステップS20で、時間ウィンドウ毎に抽出された経路情報に基づいて、OD表と交通密度とを生成する。次に、ステップS24で、OD表を特徴量、交通密度を正解ラベルとする訓練データを生成し、データ生成処理は終了する。
【0046】
そして、訓練部18が、データ生成処理により生成された訓練データを用いて、機械学習モデル30を訓練する。
【0047】
以上説明したように、本実施形態に係るデータ生成装置は、第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出する。また、データ生成装置は、抽出した経路情報に基づいて、経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、所定の地理範囲の交通の混み具合を示す情報とを生成する。そして、データ生成装置は、集計情報を入力特徴量とし、混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する。これにより、高精度な交通シミュレーションの機械学習モデルを構築するための多様な訓練データを生成することができる。
【0048】
なお、上記実施形態では、訓練部も含むデータ生成装置について説明したが、訓練部は別のコンピュータで構成し、データ生成装置は、生成した訓練データを出力する構成としてもよい。この場合、訓練部を含むコンピュータが、データ生成装置から出力された訓練データを用いて、機械学習モデルを訓練する。
【0049】
また、上記実施形態では、データ生成プログラムが記憶装置に予め記憶(インストール)されているが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供されてもよい。
【0050】
以上の実施形態に関し、さらに以下の付記を開示する。
【0051】
(付記1)
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータに実行させるためのデータ生成プログラム。
【0052】
(付記2)
前記第1期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成することをさらに含む処理を前記コンピュータに実行させるための付記1に記載のデータ生成プログラム。
【0053】
(付記3)
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である付記2に記載のデータ生成プログラム。
【0054】
(付記4)
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第2期間のそれぞれについて、前記第2期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
付記1~付記3のいずれか1項に記載のデータ生成プログラム。
【0055】
(付記5)
生成した前記訓練データを用いて、前記機械学習モデルを訓練することをさらに含む処理を前記コンピュータに実行させるための付記1~付記4のいずれか1項に記載のデータ生成プログラム。
【0056】
(付記6)
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータが実行するデータ生成方法。
【0057】
(付記7)
前記第1期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成することをさらに含む処理を前記コンピュータが実行する付記6に記載のデータ生成方法。
【0058】
(付記8)
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である付記7に記載のデータ生成方法。
【0059】
(付記9)
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第2期間のそれぞれについて、前記第2期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
付記6~付記8のいずれか1項に記載のデータ生成方法。
【0060】
(付記10)
生成した前記訓練データを用いて、前記機械学習モデルを訓練することをさらに含む処理を前記コンピュータに実行させるための付記6~付記9のいずれか1項に記載のデータ生成方法。
【0061】
(付記11)
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出する抽出部と、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する生成部と、
を含むデータ生成装置。
【0062】
(付記12)
前記第1期間において記録された前記複数の移動体それぞれの移動状況を、前記移動体の活動を基準に分割することで、前記経路情報を生成する分割部をさらに含む付記11に記載のデータ生成装置。
【0063】
(付記13)
前記移動状況における前記移動体の活動の区切りは、前記移動体の位置が一定範囲に一定時間留まっていることを示す部分である付記12に記載のデータ生成装置。
【0064】
(付記14)
前記経路情報は、前記複数の時点毎の移動体の位置情報の系列に前記経路情報の識別情報が対応付けられた情報であり、
前記抽出部は、前記経路情報の移動開始時刻と前記経路情報の識別情報とを対応付けたリストを作成し、開始時刻及び終了時刻がそれぞれ異なる複数の前記第2期間のそれぞれについて、前記第2期間に前記移動開始時刻が含まれる前記経路情報の識別情報を前記リストから抽出し、抽出した前記経路情報の識別情報に対応付けられた前記経路情報を抽出する、
付記11~付記13のいずれか1項に記載のデータ生成装置。
【0065】
(付記15)
生成した前記訓練データを用いて、前記機械学習モデルを訓練する訓練部をさらに含む付記11~付記14のいずれか1項に記載のデータ生成装置。
【0066】
(付記16)
第1期間内における所定の地理範囲における複数の移動体それぞれの移動状況を複数の時点毎に示した経路情報から、前記第1期間内に含まれ前記第1期間よりも短い第2期間内に移動を開始した移動体の経路情報を抽出し、
抽出した前記経路情報に基づいて、前記経路情報に含まれる移動体の移動における出発点と到着点との組み合わせ毎の移動体の数を集計した集計情報と、前記所定の地理範囲の交通の混み具合を示す情報とを生成し、
前記集計情報を入力特徴量とし前記混み具合を示す情報をラベル情報とした訓練データを、集計情報に応じた交通の混み具合を導出する機械学習モデルの訓練データとして生成する、
ことを含む処理をコンピュータに実行させるためのデータ生成プログラムを記憶した非一時的記憶媒体。
【符号の説明】
【0067】
10 データ生成装置
12 分割部
14 抽出部
16 生成部
18 訓練部
30 機械学習モデル
50 コンピュータ
51 CPU
52 GPU
53 メモリ
54 記憶装置
55 入出力装置
56 R/W装置
57 通信I/F
58 バス
59 記憶媒体
60 データ生成プログラム
62 分割プロセス制御命令
64 抽出プロセス制御命令
66 生成プロセス制御命令
68 訓練プロセス制御命令
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15