特許第6857547号(P6857547)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6857547移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
<>
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000002
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000003
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000004
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000005
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000006
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000007
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000008
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000009
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000010
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000011
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000012
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000013
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000014
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000015
  • 特許6857547-移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6857547
(24)【登録日】2021年3月24日
(45)【発行日】2021年4月14日
(54)【発明の名称】移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20210405BHJP
   G06T 7/00 20170101ALI20210405BHJP
【FI】
   G06T7/20 300Z
   G06T7/00 350C
【請求項の数】7
【全頁数】18
(21)【出願番号】特願2017-103358(P2017-103358)
(22)【出願日】2017年5月25日
(65)【公開番号】特開2018-198028(P2018-198028A)
(43)【公開日】2018年12月13日
【審査請求日】2019年9月4日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】山本 修平
(72)【発明者】
【氏名】戸田 浩之
【審査官】 ▲広▼島 明芳
(56)【参考文献】
【文献】 特開2015−108886(JP,A)
【文献】 特開2013−152595(JP,A)
【文献】 遠藤 結城,外2名,移動手段推定のための表現学習を用いたGPSログからの特徴抽出,情報処理学会論文誌 データベース Vol.8 No.3,日本,情報処理学会,2015年,第8巻,pp.12-23
【文献】 伊藤 浩二,画像分野へのDeep Learningの活用,画像ラボ 第28巻 第2号,日本,日本工業出版株式会社,2017年 2月10日,第28巻,pp.45-47
【文献】 前川 卓也,外6名,手首に装着したカメラ付きセンサデバイスを用いた行動認識手法,電子情報通信学会論文誌 (J95−B) 第11号,日本,一般社団法人電子情報通信学会,2012年,第J95-B巻,pp.1480-1490
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/90
(57)【特許請求の範囲】
【請求項1】
移動体に搭載されたカメラの画像データの時系列及び前記移動体に搭載されたセンサのセンサデータの時系列を入力とし、サンプリングしたフレーム毎に、前記フレームの画像の特徴と、前記フレームと対応するセンサデータの特徴とを抽出し、前記フレームの画像の特徴と、前記フレームと対応するセンサデータの特徴とを抽象化した特徴を、系列データとして抽象化し、前記系列データとして抽出化した特徴から、前記移動体の移動状況を認識するためのDNN(Deep Neural Network)モデルであって、更に、前記系列データとして抽象化した特徴から、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築する移動状況認識半教師ありDNNモデル構築部と、
前記画像データの時系列及び前記センサデータの時系列に基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルから出力される、前記復号画像データの時系列及び前記復号センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列とが一致するように、前記DNNモデルのパラメータを学習する移動状況認識DNNモデル教師なし学習部と、
前記学習された前記DNNモデルのパラメータと、前記画像データの時系列及び前記センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列に対して予め付与された移動状況を示すアノテーションとに基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルにより認識される移動状況が、前記アノテーションが示す移動状況と一致するように、前記DNNモデルのパラメータを学習する移動状況認識DNN教師あり学習部と、
を含む移動状況認識モデル学習装置。
【請求項2】
前記画像データの時系列に対して、サンプリング及び正規化を行う映像データ前処理部と、
前記センサデータの時系列に対して、正規化及び特徴ベクトル化を行うセンサデータ前処理部とを更に含み、
前記移動状況認識DNNモデル教師なし学習部は、前記映像データ前処理部の処理結果及び前記センサデータ前処理部の処理結果を用いて、前記DNNモデルのパラメータを学習し、
前記移動状況認識DNNモデル教師あり学習部は、前記映像データ前処理部の処理結果及び前記センサデータ前処理部の処理結果を用いて、前記DNNモデルのパラメータを学習する請求項1記載の移動状況認識モデル学習装置。
【請求項3】
認識対象の移動体についての画像データの時系列及びセンサデータの時系列を、請求項1又は2記載の移動状況認識モデル学習装置によって学習された前記DNNモデルに入力して、前記移動体の移動状況を認識する移動状況認識部
を含む移動状況認識装置。
【請求項4】
前記画像データの時系列に対して、サンプリング及び正規化を行う映像データ前処理部と、
前記センサデータの時系列に対して、正規化及び特徴ベクトル化を行うセンサデータ前処理部とを更に含み、
前記移動状況認識部は、前記映像データ前処理部の処理結果及び前記センサデータ前処理部の処理結果を前記DNNモデルに入力して、前記移動体の移動状況を認識する請求項3記載の移動状況認識装置。
【請求項5】
移動状況認識半教師ありDNNモデル構築部が、移動体に搭載されたカメラの画像データの時系列及び前記移動体に搭載されたセンサのセンサデータの時系列を入力とし、サンプリングしたフレーム毎に、前記フレームの画像の特徴と、前記フレームと対応するセンサデータの特徴とを抽出し、前記フレームの画像の特徴と、前記フレームと対応するセンサデータの特徴とを抽象化した特徴を、系列データとして抽象化し、前記系列データとして抽出化した特徴から、前記移動体の移動状況を認識するためのDNN(Deep Neural Network)モデルであって、更に、前記系列データとして抽象化した特徴から、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築し、
移動状況認識DNNモデル教師なし学習部が、前記画像データの時系列及び前記センサデータの時系列に基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルから出力される、前記復号画像データの時系列及び前記復号センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列とが一致するように、前記DNNモデルのパラメータを学習し、
移動状況認識DNN教師あり学習部が、前記学習された前記DNNモデルのパラメータと、前記画像データの時系列及び前記センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列に対して予め付与された移動状況を示すアノテーションとに基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルにより認識される移動状況が、前記アノテーションが示す移動状況と一致するように、前記DNNモデルのパラメータを学習する
移動状況認識モデル学習方法。
【請求項6】
移動状況認識部が、認識対象の移動体についての画像データの時系列及びセンサデータの時系列を、請求項5記載の移動状況認識モデル学習方法によって学習された前記DNNモデルに入力して、前記移動体の移動状況を認識する
移動状況認識方法。
【請求項7】
コンピュータを、請求項1若しくは2に記載の移動状況認識モデル学習装置、又は請求項3若しくは4に記載の移動状況認識装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラムに係り、特に、ユーザが取得した映像やセンサデータから、ユーザの移動状況を自動認識するための移動状況認識モデル学習装置、移動状況認識装置、方法、及びプログラムに関する。
【背景技術】
【0002】
映像撮影デバイスの小型化や、GPSやジャイロセンサなどの省電力化に伴い、ユーザの行動を、映像、位置情報や加速度などの多様なデータとして容易に記録できるようになった。これらのデータからユーザの行動を詳細に分析することは、様々な用途に役立つ。例えば、グラスウエア等を通じて取得された一人称視点の映像と、ウェアラブルセンサで取得された加速度データ等を利用して、ウインドウショッピングしている状況や、横断歩道を渡っている状況等を自動認識し分析できれば、サービスのパーソナライズ化等様々な用途で役立てられる。
【0003】
従来、センサ情報からユーザの移動状況を自動認識する技術として、GPSの位置情報や速度情報からユーザの移動手段を推定する技術が存在する(非特許文献1)。また、スマートフォンから取得される加速度等の情報を用いて、徒歩やジョギング、階段の昇降等を分析する技術の開発も取組まれてきた(非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Zheng, Y., Liu, L., Wang, L., and Xie, X.: Learning transportation mode from raw GPS data for geographic applications on the web. In Proc. of World Wide Web 2008, pp. 247-256, 2008.
【非特許文献2】Jennifer R. Kwapisz, Gary M. Weiss, Samuel A. Moore: Activity Recognition using Cell Phone Accelerometers, Proc. of SensorKDD 2010.
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、上記従来の方法はセンサ情報のみを利用しているため、映像情報を考慮したユーザの移動状況認識を行うことができなかった。例えば、ウェアラブルセンサのデータから、ユーザの移動状況を把握しようとした場合、歩いていることは理解したとしても、ウインドウショッピングしている状況か、横断歩道を渡っている状況のように詳細なユーザの状況をセンサデータのみから自動認識することは困難である。一方で、映像データとセンサデータの入力を組み合わせて、機械学習技術の一つであるSupport Vector Machine(SVM)などの単純な分類モデルを用いても、映像データとセンサデータの情報の抽象度合が異なることが原因で、高精度な移動状況認識が困難であった。また、SVMに限らず多くの機械学習技術は高精度な分類モデルの構築に、大量の訓練データを要する。移動状況認識のための訓練データを準備するには、映像データとセンサデータの組み合わせに対して、適切な移動状況(訓練ラベル)を人手で付与するアノテーション作業が必要である。大量の映像データとセンサデータの組み合わせに、ユーザがアノテーション作業をすることは困難である。
【0006】
本発明は、上記事情を鑑みて成されたものであり、映像データとセンサデータの双方から、効率的に情報を抽出し組み合わせ、かつ少量の訓練データで、高精度な移動状況認識を実現することができる移動状況認識モデル学習装置、方法、及びプログラムを提供することを目的とする。
【0007】
また、映像データとセンサデータの双方から、移動状況を高精度に認識することができる移動状況認識装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明に係る移動状況認識モデル学習装置は、移動体に搭載されたカメラの画像データの時系列及び前記移動体に搭載されたセンサのセンサデータの時系列を入力とし、画像データの各々の特徴及びセンサデータの各々の特徴を抽出し、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、前記移動体の移動状況を認識するためのDNN(Deep Neural Network)モデルであって、更に、前記画像データの各々の特徴及び前記センサデータの各々の特徴を抽象化したデータから、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築する移動状況認識半教師ありDNNモデル構築部と、前記画像データの時系列及び前記センサデータの時系列に基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルから出力される、前記復号画像データの時系列及び前記復号センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列とが一致するように、前記DNNモデルのパラメータを学習する移動状況認識DNNモデル教師なし学習部と、前記学習された前記DNNモデルのパラメータと、前記画像データの時系列及び前記センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列に対して予め付与された移動状況を示すアノテーションとに基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルにより認識される移動状況が、前記アノテーションが示す移動状況と一致するように、前記DNNモデルのパラメータを学習する移動状況認識DNN教師あり学習部と、を含んで構成されている。
【0009】
また、本発明に係る移動状況認識モデル学習方法は、移動状況認識半教師ありDNNモデル構築部が、移動体に搭載されたカメラの画像データの時系列及び前記移動体に搭載されたセンサのセンサデータの時系列を入力とし、画像データの各々の特徴及びセンサデータの各々の特徴を抽出し、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、前記移動体の移動状況を認識するためのDNN(Deep Neural Network)モデルであって、更に、前記画像データの各々の特徴及び前記センサデータの各々の特徴を抽象化したデータから、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築し、移動状況認識DNNモデル教師なし学習部が、前記画像データの時系列及び前記センサデータの時系列に基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルから出力される、前記復号画像データの時系列及び前記復号センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列とが一致するように、前記DNNモデルのパラメータを学習し、移動状況認識DNN教師あり学習部が、前記学習された前記DNNモデルのパラメータと、前記画像データの時系列及び前記センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列に対して予め付与された移動状況を示すアノテーションとに基づいて、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルにより認識される移動状況が、前記アノテーションが示す移動状況と一致するように、前記DNNモデルのパラメータを学習する。
【0010】
また、本発明に係る移動状況認識装置は、認識対象の移動体についての画像データの時系列及びセンサデータの時系列を、上記の移動状況認識モデル学習装置によって学習された前記DNNモデルに入力して、前記移動体の移動状況を認識する移動状況認識部を含んで構成されている。
【0011】
本発明に係る移動状況認識方法は、移動状況認識部が、認識対象の移動体についての画像データの時系列及びセンサデータの時系列を、上記の移動状況認識モデル学習方法によって学習された前記DNNモデルに入力して、前記移動体の移動状況を認識する。
【0012】
本発明に係るプログラムは、コンピュータを、上記の移動状況認識モデル学習装置、又は上記の移動状況認識装置の各部として機能させるためのプログラムである。
【発明の効果】
【0013】
本発明の移動状況認識モデル学習装置、方法、及びプログラムによれば、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、前記移動体の移動状況を認識するためのDNNモデルであって、更に、前記画像データの各々の特徴及び前記センサデータの各々の特徴を抽象化したデータから、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築し、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルから出力される、前記復号画像データの時系列及び前記復号センサデータの時系列と、前記画像データの時系列及び前記センサデータの時系列とが一致するように、前記DNNモデルのパラメータを学習し、前記画像データの時系列及び前記センサデータの時系列を入力したときに前記DNNモデルにより認識される移動状況が、前記アノテーションが示す移動状況と一致するように、前記DNNモデルのパラメータを学習することにより、画像データの時系列とセンサデータの時系列の双方から、効率的に情報を抽出し組み合わせ、かつ少量の訓練データで、高精度な移動状況認識を実現することができる、という効果が得られる。
【0014】
また、本発明の移動状況認識装置、方法、及びプログラムによれば、画像データの時系列とセンサデータの時系列の双方から、効率的に情報を抽出し組み合わせ、かつ高精度な移動状況認識を実現することができる、という効果が得られる。
【図面の簡単な説明】
【0015】
図1】本発明の実施の形態に係る移動状況認識モデル学習装置の構成を示すブロック図である。
図2】本発明の実施の形態に係る移動状況認識モデル学習装置の処理の流れを示すフローチャートである。
図3】映像データDBの記憶形式の一例を示す図である。
図4】センサデータDBの記憶形式の一例を示す図である。
図5】アノテーションDBの記憶形式の一例を示す図である。
図6】本発明の実施の形態に係る移動状況認識モデル学習装置の映像データ前処理部の処理の流れを示すフローチャートである。
図7】映像データ前処理部が映像データから生成した画像データの時系列の一例を示す図である。
図8】本発明の実施の形態に係る移動状況認識モデル学習装置のセンサデータ前処理部の処理の流れを示すフローチャートである。
図9】DNNモデルのネットワーク構造の一例を示す図である。
図10】本発明の実施の形態に係る移動状況認識モデル学習装置の移動状況認識DNNモデル教師なし学習部の処理の流れを示すフローチャートである。
図11】本発明の実施の形態に係る移動状況認識モデル学習装置の移動状況認識DNNモデル教師あり学習部の処理の流れを示すフローチャートである。
図12】移動状況認識DNNモデルDBの記憶形式の一例を示す図である。
図13】本発明の実施の形態に係る移動状況認識装置の構成を示すブロック図である。
図14】本発明の実施の形態に係る移動状況認識装置の処理の流れを示すフローチャートである。
図15】本発明の実施の形態に係る移動状況認識装置の移動状況認識部の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本発明の実施の形態では、学習フェーズに相当する移動状況認識モデル学習装置と認識フェーズに相当する移動状況認識装置とに本発明を適用した場合を例に説明する。
【0017】
<本発明の実施の形態に係る移動状況認識モデル学習装置の構成>
まず、本発明の実施の形態に係る移動状況認識モデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る移動状況認識モデル学習装置10は、入力部20と、演算部30と、出力部50とを備えている。
【0018】
演算部30は、映像データDB32と、センサデータDB34と、映像データ前処理部36と、センサデータ前処理部38と、アノテーションDB40と、移動状況認識半教師ありDNNモデル構築部42と、移動状況認識DNNモデル教師なし学習部44と、移動状況認識DNNモデル教師あり学習部46と、移動状況認識DNNモデルDB48とを備えており、各々のDBの情報を利用して移動状況認識のためのDNNモデルを出力部50により出力する。ここで映像データDB32とセンサデータDB34は、データIDで関連する映像データとセンサデータの時系列の対応付けがとれるように予め構築されているとする。映像データDB32とセンサデータDB34の構築処理については、例えば、入力部20が、システム運用者によって入力された映像データとセンサデータの時系列のペアを受け付け、それらペアを一意に特定するIDをデータIDとして入力された映像データ及びセンサデータの時系列に付与し、それぞれ映像データDB32、センサデータDB34に格納するようにすればよい。また、アノテーションDB40には、各データIDに対するアノテーション名が格納されている。ここでアノテーションとは、例えばグラスウェアで取得された一人称視点の映像データに対する移動状況を説明したものが想定され、ウインドウショッピングや横断歩道横断中等が該当する。アノテーションDB40の構築処理についても、映像データDB32とセンサデータDB34の構築処理と同様、例えば、入力部20が、システム運用者によって入力された各データIDに対するアノテーションを受け付け、その入力結果をDBに格納するようにすればよい。
【0019】
本発明の実施の形態では、図1に示す構成要素の動作をプログラムとして構築し、移動状況認識モデル学習装置として利用されるコンピュータにインストールして実行させる。
【0020】
映像データ前処理部36は、映像データDB32に格納されている映像データが表わす画像データの時系列に対して、サンプリング及び正規化を行う。
【0021】
センサデータ前処理部38は、センサデータDB34に格納されているセンサデータの時系列に対して、正規化及び特徴ベクトル化を行う。
【0022】
移動状況認識半教師ありDNNモデル構築部42は、画像データの時系列及びセンサデータの時系列を入力とし、画像データの各々の特徴及びセンサデータの各々の特徴を抽出し、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、移動状況を認識するためのDNNモデルであって、更に、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築する。
【0023】
移動状況認識DNNモデル教師なし学習部44は、映像データ前処理部36の処理結果である画像データの時系列、及びセンサデータ前処理部38の処理結果であるセンサデータの時系列に基づいて、画像データの時系列及びセンサデータの時系列を入力したときにモデルから出力される、復号画像データの時系列及び復号センサデータの時系列と、画像データの時系列及びセンサデータの時系列とが一致するように、DNNモデルのパラメータを学習する。
【0024】
移動状況認識DNN教師あり学習部46は、移動状況認識DNNモデル教師なし学習部44により学習されたモデルのパラメータと、映像データ前処理部36の処理結果である画像データの時系列と、センサデータ前処理部38の処理結果であるセンサデータの時系列と、画像データの時系列及びセンサデータの時系列に対して予め付与された移動状況を示すアノテーションとに基づいて、画像データの時系列及びセンサデータの時系列を入力したときにDNNモデルにより認識される移動状況が、アノテーションが示す移動状況と一致すると共に、画像データの時系列及びセンサデータの時系列を入力したときにモデルから出力される、復号画像データの時系列及び復号センサデータの時系列と、画像データの時系列及びセンサデータの時系列とが一致するように、DNNモデルのパラメータを学習する。学習されたDNNモデルのパラメータを、移動状況認識DNNモデルDB48に格納する。
【0025】
<本発明の実施の形態に係る移動状況認識モデル学習装置の作用>
図2は、本発明の一実施の形態における移動状況認識モデル学習装置10により実行されるモデル学習処理ルーチンのフローチャートである。以下、具体的に説明する。
【0026】
<モデル学習処理ルーチン>
ステップS100では、映像データ前処理部36は、映像データDB32からデータを受け取り処理する。処理の詳細は後述する。図3に映像データDB32のデータの記憶形式の例を示す。映像データはMpeg4形式などで圧縮されたファイルで格納されており、それぞれ前述のとおりセンサデータと紐付けるためのデータIDと紐付いている。また、映像データは、移動体の一例であるユーザに装着されたグラスウェア等を通じて取得された一人称視点の映像データである。
【0027】
ステップS110では、センサデータ前処理部38がセンサデータDB34からデータを受け取り処理する。処理の詳細は後述する。図4にセンサデータDB34のデータの記憶形式の例を示す。センサデータは日時、緯度経度、X軸加速度やY軸加速度などの要素を持つ。各センサデータは固有の系列IDを保有する。更に前述のとおり映像データと紐付けるためのデータIDを保有する。各センサデータは、ユーザに装着されたウェアラブルセンサで取得されたデータである。
【0028】
ステップS120では、移動状況認識半教師ありDNNモデル構築部42がDNNモデルを構築する。処理の詳細は後述する。
【0029】
ステップS130では、移動状況認識DNNモデル教師なし学習部44が映像データ前処理部36から処理済みの映像データ、センサデータ前処理部38から処理済みのセンサデータ、及び移動状況認識半教師ありDNNモデル構築部42からDNNモデルを受け取り、DNNモデルのパラメータを学習し、移動状況認識DNNモデルDB48に出力する。
【0030】
ステップS140では、移動状況認識DNNモデル教師あり学習部46が映像データ前処理部36から処理済みの映像データ、センサデータ前処理部38から処理済みのセンサデータ、移動状況認識半教師ありDNNモデル構築部42からDNNモデル、アノテーションDB40からアノテーションデータ、及び移動状況認識モデルDB48からDNNモデルのパラメータを受け取り、DNNモデルのパラメータを学習し、移動状況認識DNNモデルDB48に出力する。図5にアノテーションDB40の記憶形式の例を示す。
【0031】
図6は、上記ステップS100を実現するための、映像データ前処理部36により実行されるサブルーチンを示すフローチャートである。以下、具体的に説明する。
【0032】
ステップS200では、映像データDB32から、映像データを受け取る。
【0033】
ステップS210では、各映像データを縦×横×3チャネルの画素値で表現された画像データの時系列に変換する。例えば縦のサイズを100画素、横のサイズを200画素のように決定する。図7に映像データから生成した画像データの時系列の例を示す。各画像データは元の画像データと対応づくデータID、各フレームの番号、タイムスタンプの情報を保持している。
【0034】
ステップS220では、冗長なデータを削減するために、画像データの時系列から、一定フレーム間隔でNフレームサンプリングする。
【0035】
ステップS230では、画像データをDNNモデルが扱いやすくするために、サンプリングされた各フレームにおける画像データの各画素値を正規化する。例えば、各々の画素値の範囲が0‐1になるように、画素の取りうる最大値で各画素値を除算する。
【0036】
ステップS240では、画像データの時系列として表現された映像データ、及び対応するタイムスタンプの情報を、移動状況認識DNNモデル教師なし学習部44、および移動状況認識DNNモデル教師あり学習部46に受け渡す。
【0037】
図8は、上記ステップS110を実現するための、センサデータ前処理部38により実行されるサブルーチンを示すフローチャートである。
【0038】
ステップS300では、センサデータDB34から、センサデータを受け取る。
【0039】
ステップS310では、センサデータをDNNモデルが扱いやすくするために各センサデータにおける加速度等の値を正規化する。例えば、全センサデータの平均値が0、標準偏差が1になるように標準化する。
【0040】
ステップS320では、各センサデータに対して正規化された各々の値を結合し特徴ベクトルを生成する。
【0041】
ステップS330では、センサの特徴ベクトル、及び対応する日時の情報を、移動状況認識DNNモデル教師なし学習部44、および移動状況認識DNNモデル教師あり学習部46に受け渡す。
【0042】
図9は、本発明の一実施の形態における、移動状況認識半教師ありDNNモデル構築部42によって構築されるDNNモデルのネットワーク構造の一例である。入力として、映像データにおける各フレームの画像データを表す行列、及び対応するセンサデータベクトルを受け取り、出力として各移動状況の確率を獲得する。DNNモデルのネットワーク構造は以下のユニットから構成される。
【0043】
一つ目のユニットは画像データを表す行列から特徴を抽出する畳み込み層である。ここでは、例えば画像を3×3のフィルタで畳み込んだり、特定矩形内の最大値を抽出(最大プーリング)したりする。畳み込み層にはAlexNet(非特許文献3参照)等公知のネットワーク構造や事前学習済みパラメータを利用することも可能である。
【0044】
二つ目のユニットは畳み込み層から得られる特徴を更に抽象化する、全結合層Aである。ここでは、例えばシグモイド関数などを利用して、入力の特徴量を非線形変換する。
【0045】
三つ目のユニットはセンサデータベクトルを画像特徴と同等レベルに抽象化する、全結合層Bである。ここでは、全結合層Aと同様に、入力を非線形変換する。
【0046】
四つ目のユニットは二つの抽象化された特徴を更に系列データとして抽象化する、Long−short−term−memory(LSTM)である。具体的には、系列データを順次受け取り、過去の抽象化された情報を循環させながら、繰り返し非線形変換する。LSTMには忘却ゲートが搭載された公知のネットワーク構造(非特許文献4)を利用することもできる。
【0047】
五つ目のユニットは抽象化された系列特徴を、対象とする移動状況の種類数の次元のベクトルに落とし込み、各移動状況に対する確率を表すベクトルを計算する、全結合層Cである。ここでは、ソフトマックス関数などを利用して入力の特徴量の全要素の総和が1になるように非線形変換する。
【0048】
六つ目のユニットは、LSTMによって系列データとして抽象化された特徴を全結合層Aに入力される特徴と同等レベルに復号化する全結合層Dである。ここでは、全結合層Aと同様に、入力を非線形変換する。
【0049】
七つ目のユニットは全結合層Dから得られる復号化された特徴量を、入力した画像データを表す行列と同等レベルに復号化する逆畳み込み層である。ここでは、例えば3×3の特徴行列を大きな行列サイズに拡大してから畳み込んだり、特徴行列中のある特徴量をN×Nの矩形に複写(逆プーリング)したりする。
【0050】
八つ目のユニットは、LSTMによって系列データとして抽象化された特徴を全結合層Bに入力されるセンサデータと同等レベルに復号化する全結合層Eである。ここでは、全結合層Aと同様に、入力を非線形変換する。
【0051】
九つ目は確率ベクトルの各要素と移動状況を対応付ける、出力層である。例えば確率ベクトルの1番目を、ウインドウショッピング、2番目を横断歩道横断等と対応付ける。
【0052】
[非特許文献3]Krizhevsky, A., Sutskever, I. and Hinton, G. E.: ImageNet Classification with Deep Convolutional Neural Networks, pp.1106-1114, 2012.
【0053】
[非特許文献4]Felix A. Gers, Nicol N. Schraudolph, and Jurgen Schmidhuber: Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research, vol. 3, pp.115-143, 2002.
【0054】
図10は、上記ステップS130を実現するための、移動状況認識DNNモデル教師なし学習部44により実行されるサブルーチンを示すフローチャートである。具体的には下記の処理を行う。
【0055】
ステップS400では、受け取った映像データのタイムスタンプとセンサデータの日時情報を基に、映像データとセンサデータとを対応付ける。
【0056】
ステップS410では、移動状況認識半教師ありDNNモデル構築部42から図9に示すようなネットワーク構造であるDNNモデルを受け取る。
【0057】
ステップS420では、DNNモデルが表すネットワーク構造における各ユニットのモデルパラメータを初期化する。例えば0から1の乱数で初期化する。
【0058】
ステップS430では、映像データ及びセンサデータを用いてDNNモデルのモデルパラメータを計算する。具体的には、入力のデータと、入力のデータに対して得られる出力の復号画像データ行列と復号センサデータベクトルの平均二乗誤差が最小になるように、バックプロパゲーションなど公知の技術を利用して、DNNモデルのモデルパラメータを最適化する。
【0059】
ステップS440では、DNNモデル(ネットワーク構造およびモデルパラメータ)を出力し、出力された結果を移動状況認識DNNモデルDB48に格納する。図12にモデルパラメータの例を示す。各層において行列やベクトルとしてパラメータが格納されている。
【0060】
図11は、上記ステップS140を実現するための、移動状況認識DNNモデル教師あり学習部46により実行されるサブルーチンを示すフローチャートである。具体的には下記の処理を行う。
【0061】
ステップS500では、ステップS400と同様に、受け取った映像データのタイムスタンプとセンサデータの日時情報を基に、映像データとセンサデータとを対応付ける。
【0062】
ステップS510では、ステップS410と同様に、移動状況認識半教師ありDNNモデル構築部42から図9に示すようなネットワーク構造であるDNNモデルを受け取る。
【0063】
ステップS520では、移動状況認識DNNモデルDB48からモデルパラメータを受け取り、DNNモデルのパラメータとする。
【0064】
ステップS530では、映像データ及びセンサデータ、対応するアノテーションデータを用いてモデルパラメータを計算する。具体的には、入力のデータに対して得られる出力の復号画像データ行列と復号センサデータベクトルの平均二乗誤差が最小になるように、また、出力の確率ベクトルとアノテーションから得られるバイナリベクトルとのクロスエントロピー誤差が最小になるように、バックプロパゲーションなど公知の技術を利用して、モデルパラメータを最適化する。
【0065】
ステップS540では、移動状況認識DNNモデル(ネットワーク構造およびモデルパラメータ)を出力し、出力された結果を移動状況認識DNNモデルDB48に格納する。図12にモデルパラメータの例を示す。各層において行列やベクトルとしてパラメータが格納されている。また、出力層に対しては、確率ベクトルの各要素番号と対応する移動状況のテキストが格納されている。
【0066】
<本発明の実施の形態に係る移動状況認識装置の構成>
次に、本発明の実施の形態に係る移動状況認識装置の構成について説明する。図13に示すように、本発明の実施の形態に係る移動状況認識装置100は、入力部120と、演算部130と、出力部150とを備えている。
【0067】
入力部120は、認識対象のユーザについての映像データとセンサデータの時系列とのペアを受け付ける。
【0068】
演算部130は、映像データ前処理部136と、センサデータ前処理部138と、移動状況認識部140と、移動状況認識DNNモデルDB148と、を備えており、入力部120により受け付けた映像データとセンサデータに対する認識結果を出力部150により出力する。
【0069】
本発明の実施の形態では、図13に示す構成要素の動作をプログラムとして構築し、移動状況認識装置として利用されるコンピュータにインストールして実行させる。
【0070】
移動状況認識DNNモデルDB148には、移動状況認識DNNモデルDB48と同じDNNモデルのモデルパラメータが格納されている。
【0071】
映像データ前処理部136は、入力部120により受け付けた映像データが表わす画像データの時系列に対して、映像データ前処理部36と同様に、サンプリング及び正規化を行う。
【0072】
センサデータ前処理部138は、入力部120により受け付けたセンサデータの時系列に対して、センサデータ前処理部38と同様に、正規化及び特徴ベクトル化を行う。
【0073】
移動状況認識部140は、映像データ前処理部136の処理結果である画像データの時系列、センサデータ前処理部138の処理結果であるセンサデータの時系列、及び移動状況認識DNNモデルDB148に格納されているモデルパラメータに基づいて、画像データの時系列及びセンサデータの時系列をDNNモデルに入力して、認識対象のユーザの移動状況を認識する。
【0074】
<本発明の実施の形態に係る移動状況認識装置の作用>
図14は、本発明の一実施の形態における移動状況認識装置100により実行される移動状況認識処理ルーチンのフローチャートである。以下、具体的に説明する。
【0075】
<移動状況認識処理ルーチン>
まず、移動状況認識モデル学習装置10により出力されたDNNモデル(ネットワーク構造及びモデルパラメータ)が移動状況認識装置100に入力されると、移動状況認識装置100によって、入力されたDNNモデルが、移動状況認識DNNモデルDB148へ格納される。そして、移動状況認識装置100は、映像データとセンサデータの時系列とのペアが入力されると、以下の各処理を実行する。
【0076】
ステップS150では、映像データ前処理部136が入力として映像データを受け取り処理する。ステップS150は、図6のフローチャートと同様のフローチャートで実現される。
【0077】
ステップS160では、センサデータ前処理部138が入力としてセンサデータを受け取り処理する。図8のフローチャートと同様のフローチャートで実現される。
【0078】
ステップS170では、移動状況認識部140が映像データ前処理部136から処理済み映像データ、センサデータ前処理部138から処理済みのセンサデータ、移動状況認識DNNモデルDB148から学習済みのDNNモデルを受け取り、移動状況認識結果を計算し、出力部150により出力する。
【0079】
図15は、上記ステップS170を実現するための、移動状況認識部140により実行されるサブルーチンを示すフローチャートである。以下、具体的に説明する。
【0080】
ステップS600では、入力データを前処理した映像データおよびセンサデータの時系列を映像データ前処理部136及びセンサデータ前処理部138から受け取る。
【0081】
ステップS610では、移動状況認識DNNモデルDB148から学習済みのDNNモデル(ネットワーク構造及びモデルパラメータ)を受け取る。
【0082】
ステップS620では、DNNモデルを用いて映像データ及びセンサデータの時系列から各移動状況に対する確率を計算する。
【0083】
ステップS630では、確率の最も高い移動状況を、移動状況認識結果として出力部150により出力する。
【0084】
以上説明したように、本発明の実施の形態に係る移動状況認識モデル学習装置によれば、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、ユーザの移動状況を認識するためのDNNモデルであって、更に、画像データの各々の特徴及びセンサデータの各々の特徴を抽象化したデータから、復号画像データの時系列及び復号センサデータの時系列を復号するDNNモデルを構築し、画像データの時系列及びセンサデータの時系列を入力したときにDNNモデルから出力される、復号画像データの時系列及び復号センサデータの時系列と、画像データの時系列及びセンサデータの時系列とが一致するように、DNNモデルのパラメータを学習し、画像データの時系列及びセンサデータの時系列を入力したときにDNNモデルにより認識される移動状況が、アノテーションが示す移動状況と一致するように、DNNモデルのパラメータを学習することにより、映像データとセンサデータの双方から、効率的に情報を抽出し組み合わせ、かつ少量の訓練データで、高精度な移動状況認識を実現することができる。
【0085】
また、センサデータに加え映像データを利用したDNNモデルを構築して学習し、得られたDNNモデルを移動状況認識に利用することで、従来認識できなかったユーザの移動状況を認識可能になる。
【0086】
また、ユーザの状況認識のために効果的な画像特徴を扱える畳み込み層、適切な抽象度で特徴を抽象化できる全結合層、系列データを効率的に抽象化できるLSTMを備えた、移動状況認識のためのDNNモデルによって、高精度にユーザの移動状況を認識可能になる。
【0087】
また、アノテーションデータのないセンサデータと映像データを用いて、移動状況認識のためのDNNモデルのモデルパラメータを事前学習することによって、少量の学習データでも高精度にユーザの移動状況を認識可能になる。
【0088】
また、映像データ前処理部が、サンプリングや正規化等、映像データを前処理することにより、DNNモデルが扱いやすくなるように前処理することができる。また、センサデータ前処理部が、正規化、特徴ベクトル化等、センサデータを前処理することにより、DNNモデルが扱いやすくなるように前処理することができる。
【0089】
また、本発明の実施の形態に係る移動状況認識装置によれば、移動状況認識モデル学習装置によって学習されたDNNモデルを用いることにより、映像データとセンサデータの双方から、移動状況を高精度に認識する効率的に情報を抽出し組み合わせ、かつ高精度な移動状況認識を実現することができる。
【0090】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0091】
例えば、移動状況認識モデル学習装置と移動状況認識装置とを別々の装置で構成する場合を例に説明したが、これに限定されるものではなく、移動状況認識モデル学習装置と移動状況認識装置とを1つの装置で構成するようにしてもよい。
【0092】
また、ユーザの移動状況を認識する場合を例に説明したが、これに限定されるものではなく、ユーザ以外の移動体の移動状況を認識するようにしてもよい。
【0093】
また、上述の移動状況認識モデル学習装置及び移動状況認識装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0094】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、ハードディスクやフレキシブルディスク、CD-ROM等の可搬記憶媒体に格納して提供することも可能である。また、当該プログラムを、ネットワークを介して流通させることも可能である。
【符号の説明】
【0095】
10 移動状況認識モデル学習装置
20、120 入力部
30、130 演算部
36、136 映像データ前処理部
38、138 センサデータ前処理部
42 移動状況認識半教師ありDNNモデル構築部
44 移動状況認識DNNモデル教師なし学習部
46 移動状況認識DNNモデル教師あり学習部
50、150 出力部
100 移動状況認識装置
140 移動状況認識部
150 出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15