IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7171361データ解析システム、学習装置、及びその方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-07
(45)【発行日】2022-11-15
(54)【発明の名称】データ解析システム、学習装置、及びその方法
(51)【国際特許分類】
   G06F 16/24 20190101AFI20221108BHJP
   G06F 16/28 20190101ALI20221108BHJP
   G06T 7/00 20170101ALI20221108BHJP
   G06F 16/903 20190101ALI20221108BHJP
   G06F 16/909 20190101ALI20221108BHJP
   G06N 20/20 20190101ALI20221108BHJP
【FI】
G06F16/24
G06F16/28
G06T7/00 350B
G06F16/903
G06F16/909
G06N20/20
【請求項の数】 16
(21)【出願番号】P 2018197678
(22)【出願日】2018-10-19
(65)【公開番号】P2020064568
(43)【公開日】2020-04-23
【審査請求日】2021-04-22
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】孔 全
(72)【発明者】
【氏名】村上 智一
(72)【発明者】
【氏名】吉永 智明
(72)【発明者】
【氏名】廣池 敦
(72)【発明者】
【氏名】クリンキグト マルティン
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2011-34342(JP,A)
【文献】中国特許出願公開第108595636(CN,A)
【文献】中国特許出願公開第107562812(CN,A)
【文献】桂井 麻里衣,外1名,「画像・テキスト・感情語の潜在的な相関に基づく画像の感情分類」,第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会) [online] ,日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
学習装置と識別装置からなり、入力データに対する識別を行うデータ解析システムであって、
前記学習装置は、
入力された教師モーダルデータから抽出した教師特徴量と入力された標的モーダルデータから抽出した標的特徴量を同じ共有特徴量空間へ射影する射影モデルを、お互いに距離を縮めるように学習する共有特徴量空間射影モデル学習部と、
前記学習した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いて前記教師モーダルデータ及び前記標的モーダルデータを識別する教師識別情報及び標的識別情報を計算し、計算した教師識別情報及び標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルを更新する標的識別モデル更新部を有し
前記識別装置は、前記入力された標的モーダルデータから抽出した標的特徴量を、前記学習された射影モデルを用いて前記共有特徴量空間へ射影し、射影された標的射影特徴量を基に前記更新された標的識別モデルを用いて標的識別情報を計算し、計算された標的識別情報を基に標的識別結果を推定する識別結果推定部とを備えることを特徴とするデータ解析システム。
【請求項2】
入力された教師モーダルデータから抽出した教師特徴量と入力された標的モーダルデータから抽出した標的特徴量を同じ共有特徴量空間へ射影する射影モデルを、お互いに距離を縮めるように学習する共有特徴量空間射影モデル学習部と、
前記学習した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いて前記教師モーダルデータ及び前記標的モーダルデータを識別する教師識別情報及び標的識別情報を計算し、計算した教師識別情報及び標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルを更新する標的識別モデル更新部を備えることを特徴とする学習装置。
【請求項3】
学習装置と識別装置からなり、入力データに対する識別を行うデータ解析システムにおけるデータ解析方法であって、
前記学習装置は、
入力された教師モーダルデータから抽出した教師特徴量と入力された標的モーダルデータから抽出した標的特徴量を同じ共有特徴量空間へ射影する射影モデルを、お互いに距離を縮めるように学習し、
前記学習した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いて前記教師モーダルデータ及び前記標的モーダルデータを識別する教師識別情報及び標的識別情報を計算し、計算した教師識別情報及び標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルを更新し、
前記識別装置は、前記入力された標的モーダルデータから抽出した標的特徴量を、前記学習された射影モデルを用いて前記共有特徴量空間へ射影し、射影された標的射影特徴量を基に前記更新された標的識別モデルを用いて標的識別情報を計算し、計算された標的識別情報を基に標的識別結果を推定することを特徴とするデータ解析方法。
【請求項4】
学習装置における学習方法であって、
前記学習装置は、
入力された教師モーダルデータから抽出した教師特徴量と入力された標的モーダルデータから抽出した標的特徴量を同じ共有特徴量空間へ射影する射影モデルを、お互いに距離を縮めるように学習し、
前記学習した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いて前記教師モーダルデータ及び前記標的モーダルデータを識別する教師識別情報及び標的識別情報を計算し、計算した教師識別情報及び標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルを更新することを特徴とする学習方法。
【請求項5】
請求項2に記載の学習装置において、
前記入力された教師モーダルデータは複数であって、
それぞれの教師モーダルデータの教師特徴量を抽出する教師特徴量抽出部と、
前記入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部を有し、
前記共有特徴量空間射影モデル学習部は、前記教師特徴量と前記標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習し、
前記共有特徴量空間射影モデル学習部で教師モーダルデータごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、前記教師モーダルデータの識別モデルである教師識別モデルを基に、前記教師モーダルデータを識別する教師識別情報を計算する教師識別情報計算部と、
前記教師識別情報計算部で計算されたそれぞれの教師モーダルデータの前記教師識別情報をアンサンルし教師識別情報を出力する教師識別情報アンサンブル処理部と、
前記共有特徴量空間射影モデル学習部で構築した標的射影モデルから射影した標的射影特徴量を用いて、前記標的モーダルデータの識別モデルである標的識別モデルを基に、前記標的モーダルデータを識別する標的識別情報を計算する標的識別情報計算部と、
前記標的識別情報計算部によって計算された標的識別情報と前記教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算する識別モデル学習コスト計算部を有し、
前記標的識別モデル更新部は、前記計算された学習コストを基に標的識別モデルを更新し、
該計算された学習コストを基に教師識別モデルを更新する教師識別モデル更新部と、
更新済みの前記標的識別モデルと前記教師識別モデルを記憶する識別モデル記憶部と、
前記学習した射影モデルを記憶する共有特徴量空間射影モデル記憶部とを備えることを特徴とする学習装置。
【請求項6】
請求項2に記載の学習装置において、
前記入力された教師モーダルデータは複数であって、
それぞれの教師モーダルデータの教師特徴量を抽出する教師特徴量抽出部と、
前記入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部を有し、
前記共有特徴量空間射影モデル学習部は、
1つの教師モデルごとに、
前記教師特徴量及び前記標的特徴量を共有特徴量空間に正射影し、正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Dを計算し、共有特徴量空間に射影された教師特徴量を元の教師特徴量の空間に逆射影し、逆射影された教師特徴量と元の教師特徴量間の距離D’を計算し、D+D’を最小化するように、正射影モデルと逆射影モデルを更新する処理を繰り返すことを特徴とする学習装置。
【請求項7】
請求項2に記載の学習装置において、
前記入力された教師モーダルデータは複数であって、
それぞれの教師モーダルデータの教師特徴量を抽出する教師特徴量抽出部と、
前記入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部を有し、
前記標的識別モデル更新部は、前記教師特徴量と前記標的特徴量を組として取得し、
入力データ組ごとに、
教師推定クラス確率分布と標的推定クラス確率分布を計算し、
標的射影特徴量と教師射影特徴量を基に、入力された特徴量を分類し、標的モーダルデータになる確率を出力し、分類誤差評価を算出し、
教師推定クラス確率分布と標的推定クラス確率分布を元に、教師誤差評価を算出し、
クラス真値分布と標的推定クラス確率分布を元に、推定誤差評価を算出し、
前記教師誤差評価と前記推定誤差評価と前記分類誤差評価の値と共有特徴量空間射影モデル学習部から出力された射影誤差とから、標的識別モデルと教師識別モデルのパラメータを更新する処理を繰り返すことを特徴とする学習装置。
【請求項8】
請求項に記載の学習装置において、
入力されたデータから所定の標的モーダルデータと所定の教師モーダルデータからなる学習データ組を読み込むマルチモーダルデータ収集装置を有し、
前記学習データ組ごとに、前記所定の標的モーダルデータと前記所定の教師モーダルデータデータを、それぞれ前記入力された標的モーダルデータと前記入力された教師モーダルデータとして処理することを特徴とする学習装置。
【請求項9】
請求項2に記載の学習装置において、
入力されたデータから標的モーダルデータ教師モーダルデータからなる学習データ組を読み込むマルチモーダルデータ収集装置を有し、
該マルチモーダルデータ収集装置は、眼鏡型ウェアラブル装置が有しているウェアラブルカメラ、加速度センサ、ジャイロセンサ、
または、スマートウォッチが有している加速度センサや心拍センサ、
または、スマートフォンが有している加速度センサ、ジャイロセンサ、マイクロフォン、WiFi通信器、
または、スマートシューズやスマートソールが有している、加速度センサ、ジャイロセンサ、圧感センサ、
のいずれかであることを特徴とする学習装置。
【請求項10】
請求項2に記載の学習装置において、
入力されたデータから静止画像及び動画像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込むマルチモーダルデータ収集装置と、
前記静止画像から人物の位置を検出する人物位置検出部と、
人物領域特徴量を抽出する人物領域特徴量抽出部と、
前記動画像から動的特徴量を抽出する動的特徴量抽出部と、
加速度特徴量を抽出する加速度特徴量抽出部を有し、
前記共有特徴量空間射影モデル学習部は、前記人物領域特徴量と前記動的特徴量と前記加速度特徴量を同じ共有特徴量空間へ射影する前記標的モーダルデータと前記教師モーダルデータの射影モデルを、お互いに距離を縮めるように学習し、
前記学習した射影モデルから射影した射影特徴量を用いて前記標的モーダルデータを識別する標的識別情報を計算し、計算した標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルとなる静止画像識別モデルと動画像識別モデルを学習する標的識別モデル学習機構を有することを特徴とする学習装置。
【請求項11】
請求項1に記載のデータ解析システムにおいて、
入力されたデータから静止画像及び動画像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込むマルチモーダルデータ収集装置と、
前記静止画像から人物の位置を検出する人物位置検出部と、
人物領域特徴量を抽出する人物領域特徴量抽出部と、
前記動画像から動的特徴量を抽出する動的特徴量抽出部と、
加速度特徴量を抽出する加速度特徴量抽出部を有し、
前記共有特徴量空間射影モデル学習部は、前記人物領域特徴量と前記動的特徴量と前記加速度特徴量を同じ共有特徴量空間へ射影する前記標的モーダルデータと前記教師モーダルデータの射影モデルを、お互いに距離を縮めるように学習し、
前記学習した射影モデルから射影した射影特徴量を用いて前記標的モーダルデータを識別する標的識別情報を計算し、計算した標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルとなる静止画像識別モデルと動画像識別モデルを学習する標的識別モデル学習機構を有し、
前記識別結果推定部は、前記学習された前記標的識別モデルを基に、標的識別情報を計算し、計算された標的識別情報を基に標的識別結果を推定することを特徴とするデータ解析システム。
【請求項12】
請求項2に記載の学習装置において、
入力されたデータから静止画像及び動画像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込むマルチモーダルデータ収集装置と、
前記静止画像から物体の位置を検出する物体位置検出部と、
物体領域特徴量を抽出する物体領域特徴量抽出部と、
前記動画像から人物動線を検出する動線検出部と、
動線変化の動線特徴量を抽出する動線特徴量抽出部と、
前記センサデータから加速度特徴量を抽出する加速度特徴量抽出部と、
心拍特徴量を抽出する心拍特徴量抽出部と
前記加速度特徴量と前記心拍特徴量のアンサンブル処理を行い1つの教師識別モデルを構築する特徴量アンサンブル処理部を有し、
前記共有特徴量空間射影モデル学習部は、前記物体領域特徴量と前記動線特徴量と前記教師識別モデルを同じ共有特徴量空間へ射影する前記標的モーダルデータと前記教師モーダルデータの射影モデルを、お互いに距離を縮めるように学習し、
前記学習した射影モデルから射影した射影特徴量を用いて前記標的モーダルデータを識別する標的識別情報を計算し、計算した標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルとなる静止画像識別モデルと動画像識別モデルを学習する標的識別モデル学習機構を有することを特徴とする学習装置。
【請求項13】
請求項1に記載のデータ解析システムにおいて、
入力されたデータから静止画像及び動画像である標的モーダルデータ、センサデータである教師モーダルデータからなる学習データ組を読み込むマルチモーダルデータ収集装置と、
前記静止画像から物体の位置を検出する物体位置検出部と、
物体領域特徴量を抽出する物体領域特徴量抽出部と、
前記動画像から人物動線を検出する動線検出部と、
動線変化の動線特徴量を抽出する動線特徴量抽出部と、
前記センサデータから加速度特徴量を抽出する加速度特徴量抽出部と、
心拍特徴量を抽出する心拍特徴量抽出部と
前記加速度特徴量と前記心拍特徴量のアンサンブル処理を行い1つの教師識別モデルを構築する特徴量アンサンブル処理部を有し、
前記共有特徴量空間射影モデル学習部は、前記物体領域特徴量と前記動線特徴量と前記教師識別モデルを同じ共有特徴量空間へ射影する前記標的モーダルデータと前記教師モーダルデータの射影モデルを、お互いに距離を縮めるように学習し、
前記学習した射影モデルから射影した射影特徴量を用いて前記標的モーダルデータを識別する標的識別情報を計算し、計算した標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルとなる静止画像識別モデルと動画像識別モデルを学習する標的識別モデル学習機構を有し、
前記識別結果推定部は、前記学習された前記標的識別モデルを基に、標的識別情報を計算し、計算された標的識別情報を基に標的識別結果を推定することを特徴とするデータ解析システム。
【請求項14】
請求項2に記載の学習装置において、
入力されたデータから人物の画像データを読み込み、該画像データから人物位置を検出するデータ収集装置と、
前記画像データから動作特徴量を抽出する画像動作特徴量抽出部と、
前記動作特徴量を共有空間に射影する共有空間射影部と、
射影した際の画像射影特徴量を格納する画像射影特徴量データベースを有し、
前記共有特徴量空間射影モデル学習部は、前記画像射影特徴量データベースを基に、センサデータのみを用いて、該センサデータの特徴量を抽出し、該センサデータの特徴量を共有空間に射影し、共有射影空間上で距離が近い前記画像射影特徴量データベースの画像の検索処理を行うことを特徴とする学習装置。
【請求項15】
請求項1に記載のデータ解析システムにおいて、
入力されたデータから人物の画像データを読み込み、該画像データから人物位置を検出するデータ収集装置と、
前記画像データから動作特徴量を抽出する画像動作特徴量抽出部と、
前記動作特徴量を共有空間に射影する共有空間射影部と、
射影した際の画像射影特徴量を格納する画像射影特徴量データベースを有し、
前記共有特徴量空間射影モデル学習部は、前記画像射影特徴量データベースを基に、センサデータのみを用いて、該センサデータの特徴量を抽出し、該センサデータの特徴量を共有空間に射影し、共有射影空間上で距離が近い前記画像射影特徴量データベースの画像の検索処理を行ない、
前記識別結果推定部は、前記画像射影特徴量データベースを基に、センサデータのみを用いて、該センサデータの特徴量を抽出し、該センサデータの特徴量を共有空間に射影し、共有射影空間上で距離が近い前記画像射影特徴量データベースの画像の検索処理を行うことを特徴とするデータ解析システム。
【請求項16】
入力データに対する識別を行うデータ解析システムであって、
入力された静止画像または動画像である標的モーダルデータから抽出した標的特徴量と入力された静止画像または動画像以外のセンサデータである教師モーダルデータから抽出した教師特徴量を同じ共有特徴量空間へ射影する射影モデルを、お互いに距離を縮めるように学習する共有特徴量空間射影モデル学習部と、
前記学習した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いて前記教師モーダルデータ及び前記標的モーダルデータを識別する教師識別情報及び標的識別情報を計算し、計算した教師識別情報及び標的識別情報を用いて前記標的モーダルデータの識別モデルである標的識別モデルを更新する標的識別モデル更新部と、
前記入力された静止画像または動画像から抽出した標的特徴量を、前記学習された射影モデルを用いて前記共有特徴量空間へ射影し、射影された標的射影特徴量を基に前記更新された標的識別モデルを用いて標的識別情報を計算し、計算された標的識別情報を基に標的識別結果を推定する識別結果推定部を有することを特徴とするデータ解析システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ解析システム、学習装置、及びその方法に関する。
【背景技術】
【0002】
映像解析において、映像内認識に必要な内容の多様化、認識精度のロバスト化への需要が高まる。そのため、単純に一般の可視光カメラで認識できない情報を得るために、例えば、細粒度の行動や外見で見分けられない物体の性質などを認識する場合は、深度情報を測定できるカメラ(RGB-Dカメラ)やサーマルカメラを併用し、加えて細粒度な情報を伝えるセンサノート、例えば温度センサ、Wi-Fi装置を環境に設置したりすることや、加速度センサ、ジャイロセンサなどを人体に装着する等の傾向がある。
【0003】
上記のようなマルチモーダルの情報を同時に使い、識別や検出モデルに学習させ、シングル(画像のみなど)のモーダルより良い性能を実現する考えは一般的であるが、モデルの学習段階と推論段階における入力データのモダリティの種類が合わないと、推論の実行ができない、あるいは性能が大幅に落ちる課題が存在する。そのため、マルチモーダルの環境と合わない環境では、マルチモーダル環境で学習されたモデルの恩恵が受けられないという問題がある。また、マルチモーダル環境と同等の環境の構築には導入コストが掛かるという課題もある。
【0004】
本技術分野における背景技術として、例えば、特許文献1がある。特許文献1では、マルチモーダルを使用した場合において一部のモーダルが欠損していた場合に、マルチモーダルな信号を探索することができない問題に対して、マルチモーダルとシングルや欠損ありのモーダルの特徴量データを共通の符号へ変換できる欠損なしのマルチモーダルデータで学習したテーブルを用いて、量子化データへ変換することで、一部のモーダルが欠損していてもマルチモーダルな信号を探索できる点が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2017―041206号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1には、検索問題に対して、モーダルが不均等な場合、共通の符号へ変換するテーブルで検索する手法が開示されている。しかしながら、共通の符号への変換のみでは、同じ情報(例えば、識別目標のクラス)を表現する異なるモーダルの特徴データを同じ特徴空間で距離が近くなるように保証することができない、また、マルチモーダルの情報から構築した認識や検出のモデルの性能に近い性能となるようにシングルモーダルで構築したモデルを出力するという考慮もないため、マルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できないという課題がある。
【課題を解決するための手段】
【0007】
本発明は、上記背景技術及び課題に鑑み、その一例を挙げるならば、マルチモーダル学習装置であって、入力された教師マルチモーダルデータからそれぞれのモーダルの教師特徴量を抽出する教師特徴量抽出部と、入力された標的モーダルデータから標的特徴量を抽出する標的特徴量抽出部と、教師特徴量と標的特徴量を同じ特徴量空間へお互いに距離を縮めるように射影モデルを学習する共有特徴量空間射影モデル学習部と、共有特徴量空間射影モデル学習部で教師モーダルごとに構築した教師射影モデルから射影した教師射影特徴量を用いて、教師識別モデルを基に、教師識別情報を計算する教師識別情報計算部と、教師識別情報計算部で計算されたそれぞれのモーダルの教師識別情報をアンサンブルし教師識別情報を出力する教師識別情報アンサンブル処理部と、共有特徴量空間射影モデル学習部で構築した標的射影モデルから射影した標的射影特徴量を用いて、標的識別モデルを基に、標的識別情報を計算する標的識別情報計算部と、標的識別情報計算部によって計算された標的識別情報と教師識別情報アンサンブル処理部から出力された教師識別情報を基に、標的識別モデルと教師識別モデルのパラメータの更新度合いである学習コストを計算する識別モデル学習コスト計算部と、計算された学習コストを基に標的識別モデルを更新する標的識別モデル更新部と、計算された学習コストを基に教師識別モデルを更新する教師識別モデル更新部と、更新済みの標的識別モデルと教師識別モデルを記憶する識別モデル記憶部と、学習した射影モデルを記憶する共有特徴量空間射影モデル記憶部とを備える。
【発明の効果】
【0008】
本発明によれば、シングルや一部のモーダルを有する環境でもマルチモーダル環境と同等の性能、もしくはマルチモーダル環境でしか認識できないパターンを認識できる。
【図面の簡単な説明】
【0009】
図1】実施例1におけるマルチモーダル学習装置の機能構成図である。
図2】実施例1におけるマルチモーダル学習処理を示すフローチャートである。
図3】実施例1におけるマルチモーダル学習装置のハードウェア構成を示すブロック図である。
図4】実施例1における標的モーダル識別装置の機能構成図である。
図5】実施例1における標的モーダル識別処理を示すフローチャートである。
図6】実施例1における標的モーダル識別装置のハードウェア構成を示すブロック図である。
図7A】実施例1における共有特徴量空間射影モデル学習部の構造を示す図である。
図7B】実施例1における共有特徴量空間射影モデル学習処理を説明する図である。
図8】実施例1における共有特徴量空間射影モデル学習処理を示すフローチャートである。
図9】実施例1における標的識別モデル更新部と教師識別モデル更新部の構造を示す図である。
図10】実施例1における標的識別モデル更新処理と教師識別モデル更新処理を示すフローチャートである。
図11】実施例1における記憶部の構造を示す図である。
図12】実施例1におけるマルチモーダルデータ収集装置の具体例を示す図である。
図13】実施例1におけるデータ閲覧装置の閲覧画面を示す図である。
図14】実施例2における細粒度行動認識の学習方法を説明する図である。
図15】実施例2における細粒度行動認識学習処理を示すフローチャートである。
図16】実施例2における細粒度行動認識処理の機能構成図である。
図17】実施例3における荷物重さ推定の学習方法を説明する図である。
図18】実施例3における荷物重さ推定学習処理を示すフローチャートである。
図19】実施例3における荷物重さ推定学習処理の機能構成図である。
図20】実施例4におけるフィジカル情報を用いる画像検索を説明する図である。
図21】実施例4における画像射影特徴量データベースの構築処理を示すフローチャートである。
図22】実施例4におけるフィジカル情報を用いる画像検索処理を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施例について説明する。
【実施例1】
【0011】
本実施例におけるマルチモーダル学習装置は、学習環境で収集できるマルチモーダルのデータから識別環境に利用できないモーダルを教師モーダル、識別環境で利用できるモーダルを標的モーダルとする。まず同一な識別クラスに対して、教師モーダルと標的モーダルを共有特徴量空間上へ射影すると同時に、お互いに距離を縮めるように学習させ、異なるモーダルの特徴表現を近づける。そして標的モーダルのみでは精度が低い認識できないパターンを、高精度あるいは特定のパターンを認識できる教師モーダルから、教師射影特徴量で学習させた教師識別モデルからの教師識別情報を標的射影特徴量で学習させた標的識別モデルに伝搬することで、標的識別モデルの性能を教師モーダルに近づける。
【0012】
なお、ここでいう「モーダル」とは、センサ信号、RGB画像、RGB-D画像、映像などのメディア情報だけではなく、同じメディアで異なる特徴量処理や異なるモデル構造で学習する場合でも、異なるモーダルと定義することもある。
【0013】
図1は、本実施例におけるマルチモーダル学習装置10の機能構成図である。また、マルチモーダル学習装置10のある不特定な物を識別する装置でもある。ユースケースとしては、(1)与えられた画像や映像にある物体のクラス情報を識別する物体識別装置(2)与えられた画像や映像にある人物を識別する人物識別装置(3)与えられたセンサ信号から故障のあり/なしを識別する故障識別装置、等が考えられるが、これに限定されるものではない。
【0014】
本実施例では、マルチモーダル学習装置10は、1種類の標的モーダルデータと2種類の教師モーダルデータを収集した例として説明する。ここで、標的モーダルは1種類以上、教師モーダルも1種類以上であれば良い。マルチモーダル学習装置10は、マルチモーダルデータ収集装置100、標的モーダルデータ取得部101、教師モーダルデータ取得部102、103、標的特徴量抽出部105、教師特徴量抽出部104、共有特徴量空間射影モデル学習部106、標的識別モデル学習機構107、記憶部114から構成される。
【0015】
マルチモーダルデータ収集装置100は、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であり、カメラやセンサ等であり、収集したモーダルデータを記憶媒体やキャッシュメモリに書き込む。標的モーダルデータ取得部101、教師モーダルデータ取得部102、103は画像、映像、音声、センサなど該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
【0016】
教師特徴量抽出部104、標的特徴量抽出部105は、該当モーダルのデータから特徴量を抽出する処理を行う。ここでの特徴量は学習型の特徴量を例として説明する。学習型特徴量は標的と教師識別モデルを畳み込みニューラルネットワーク(CNN)を採用する場合、その中間層の出力を特徴量として利用することが考えられる。CNNの中間層の出力を特徴量として用いた場合、CNNモデルの更新による抽出した特徴量も変わるため、学習型特徴量となる。また、非学習型のハンドクラフト特徴量、例えば画像の場合、SIFT(Scale Invariant Feature Transform)(非特許文献1:David G. Lowe. Object recognition from local scale-invariant features. In Proceedings of the International Conference on Computer Vision, 1999.)などでも良い。
【0017】
共有特徴量空間射影モデル学習部106は、上記特徴量抽出部104、105から抽出したノルムが異なる特徴量を同じノルムを有する特徴量空間へ射影し、射影された特徴量を基に射影誤差を計算し、モーダル特徴量を共有空間へ射影する正射影モデルは計算された射影誤差を基に、正射影モデルは同一クラス情報を有する異なるモーダルの特徴量データから射影した射影特徴量をよりお互いに近くなるようにパラメータを更新する。詳細は図7A,7Bで説明する。
【0018】
標的識別モデル学習機構107は、教師識別モデル更新部108、教師識別情報計算部109、教師識別情報アンサンブル処理部110、標的識別モデル更新部111、標的識別情報計算部112、識別モデル学習コスト計算部113から構成される。
【0019】
教師識別情報計算部109、標的識別情報計算部112は、上記共有特徴量空間射影モデル学習部106で構築した射影モデルから射影した標的射影特徴量と教師射影特徴量を用いるが、それぞれのモーダルに対するクラス情報推定モデルを基に、クラススコアを表すベクトルである下記式(1)
【0020】
【数1】
【0021】
を計算する。ここでは、xは入力された特徴量、f(x)は該当クラスjに識別される確率。1<j<L、Lは識別できるクラスの数、nはモーダルの数。クラス情報推定モデルはSVM(Support Vector Machine)、CNNやMLP(Multilayer perceptron)などの例を挙げられる。
【0022】
教師識別情報アンサンブル処理部110は、上記教師モーダルに該当する識別情報をアンサンブルする処理を行い、教師識別情報H(x)を出力する。
例えば、下記式(2)、(3)
【0023】
【数2】
【0024】
【数3】
ここで、iは教師モーダルの数となる、などのアンサンブル処理が考えられる。
【0025】
識別モデル学習コスト計算部113は、教師識別情報、標的識別情報、標的射影特徴量、教師射影特徴量、外部のデータベースから入手する真値クラス情報から識別モデルの更新度合いとなる学習コストを計算する。詳細は図9で説明する。
【0026】
標的識別モデル更新部111と教師識別モデル更新部108は、識別モデル学習コスト計算部113からの学習コスト関数の勾配から両識別モデルのパラメータを更新する。詳細は図9で説明する。
【0027】
記憶部114は、更新済みの標的識別モデルと教師識別モデルを格納する識別モデル記憶部115と、共有特徴量空間射影モデル学習部106から学習した射影モデルを格納する共有特徴量空間射影モデル記憶部116からなる。
【0028】
図2は、本実施例におけるマルチモーダル学習処理を示すフローチャートである。S101において、学習データ組を読み込む。すなわち、標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込む。そして、S102からS110の間で、学習データ組ごとに処理を繰り返す。S103において、教師特徴量抽出部104、標的特徴量抽出部105によりモーダルデータから特徴量を抽出する。S104において、共有特徴量空間射影モデル学習部106により、抽出したノルムが異なる特徴量を同じノルムを有する特徴量空間へ射影し、射影された特徴量を基に射影誤差を計算し、モーダル特徴量を共有空間へ射影する正射影モデルは計算された射影誤差を基に、正射影モデルは同一クラス情報を有する異なるモーダルの特徴量データから射影した射影特徴量をよりお互いに近くなるようにパラメータを更新する。S105において、教師識別情報を計算し、S106において、教師識別情報のアンサンブル処理を行ない、S107で、標的識別情報を計算し、S108で、識別モデルの更新度合いとなる学習コストを計算する。そして、S109で、標的識別モデル更新部111と教師識別モデル更新部108は、識別モデルのパラメータを更新する。
【0029】
図3は、図1に示したマルチモーダル学習装置10のハードウェア構成を示すブロック図である。図3において、図1と同じ機能は同じ符号を付し、その説明は省略する。図3において、マルチモーダル学習装置10は、マルチモーダルデータ収集装置100、入力装置140、CPU150、外部インターフェース141からなる。
【0030】
マルチモーダルデータ収集装置100は、前述したように、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であり、カメラやセンサ等である。入力装置140は、ユーザからのパラメータ等のデータを入力する装置であり、キーボードやタッチパネル等である。CPU150は学習演算を行う装置であり、図では機能ブロックを記載している。実際には、プログラムをCPUが実行することによりそれらの機能を実行する。外部インターフェース141は外部モニタ等の接続ポートである。
【0031】
以下、CPU150内の機能について説明する。データ入力部120は、図1で説明した、標的モーダルデータ取得部101、教師モーダルデータ取得部102、103に対応し、画像、映像、音声、センサなど該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
【0032】
130は主学習処理部であり、前述した共有特徴量空間射影モデル学習部106、標的識別モデル学習機構107に対応する標的識別モデル学習部131、教師識別モデル学習部132で構成される。
【0033】
主学習処理部130は、モダリティ設定部151、学習モデル選択部152、教師情報重み設定部153で設定されたパラメータを用いて、前述したような学習処理を行う。そして、CPU150は、記憶部114の識別モデル記憶部115に更新済みの標的識別モデルと教師識別モデルを格納し、共有特徴量空間射影モデル記憶部116に学習した射影モデルを格納する。また、学習結果提示部154で記憶部114に格納された学習結果を読み出し、外部インターフェース141へ出力する。
【0034】
図4は、本実施例における標的モーダル識別装置の機能構成図である。図1に示したマルチモーダル学習装置10で学習を行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する識別を行う。標的正射影モデルは前記マルチモーダル学習装置10での学習により、識別に効果がある教師モーダルからの射影特徴量と同じ特徴空間で距離が縮まり、また標的識別モデルも教師モーダルからの識別情報に近づくように学習されたため、標的モーダルのみでもマルチモーダルと近く性能を出すことが可能となる。
【0035】
図4において、標的モーダル入力データ取得部200は識別先となる標的モーダル入力データを取得し、標的特徴量抽出部105から標的特徴量を抽出する。共有特徴量空間射影部202は共有特徴量空間射影モデル記憶部116からの学習済みの標的正射影モデルを用いて、標的特徴量を共有射影空間へ射影する。識別情報計算部203は射影された標的射影特徴量を基に、識別モデル記憶部115から学習済みの標的識別モデルを読み込み、識別情報を計算する。識別結果推定部204は計算された識別情報を基に、識別結果を推定し、識別結果記憶部206に格納し、検索や閲覧などに用いる。識別結果提示部205は識別された結果を画像やテキストの形で表示画面に提示する。なお、識別結果記憶部206は、識別モデル記憶部115、共有特徴量空間射影モデル記憶部116と同様に、記憶部114を構成してもよい。
【0036】
図5は、本実施例における標的モーダル識別処理を示すフローチャートである。S201において標的モーダル入力データを取得し、S202において標的特徴量を抽出する。S203において共有特徴量空間射影モデル記憶部116から学習済みの標的正射影モデルを読み込み、S204において標的特徴量を共有射影空間へ射影する。そして、S205において識別モデル記憶部115から学習済みの標的識別モデルを読み込み、S206において、識別情報計算部203は射影された標的射影特徴量を基に、識別情報を計算する。そして、S207において、識別結果推定部204は計算された識別情報を基に、識別結果を推定し、S208において識別結果を識別結果記憶部206に格納する。
【0037】
図6は、図4に示した標的モーダル識別装置のハードウェア構成を示すブロック図である。図3において、図4と同じ機能は同じ符号を付し、その説明は省略する。図6において、標的モーダル識別装置20は、標的モーダルデータ収集装置201、入力装置240、CPU250、外部インターフェース252からなる。
【0038】
標的モーダルデータ収集装置201は、標的となるモーダルデータを収集する装置であり、カメラ等である。入力装置240は、ユーザからのパラメータ等のデータを入力する装置であり、キーボードやタッチパネル等である。CPU250は識別処理を行う装置であり、図では機能ブロックを記載している。実際には、プログラムをCPUが実行することによりそれらの機能を実行する。外部インターフェース252は外部モニタ等の接続ポートである。
【0039】
以下、CPU250内の機能について説明する。データ入力部220は、図4で説明した、標的モーダル入力データ取得部200に対応し、画像、映像など該当のモーダルのデータを記憶媒体やキャッシュメモリから読み込む処理を行う。
251は識別データ選定部であり、この情報によりデータ入力部220はデータを取得する。以下、105、202、203、204、116,115,206の処理は、図4と同様なので省略する。そして、識別された結果を外部インターフェース252へ出力する。
【0040】
なお、標的モーダル識別装置20は、マルチモーダル学習装置10内に包含され、マルチモーダル学習装置10が標的モーダル識別装置の機能を有してもよい。
【0041】
図7Aは、本実施例における共有特徴量空間投影モデル学習部106の構造を示す図である。また、図7Bは、本実施例における共有特徴量空間射影モデル学習処理を説明する図である。初期化された正射影モデルAであるGは入力された教師特徴量AであるXを共有特徴量空間に特徴量G(X)を射影する。標的正射影モデルTは入力された標的特徴量Xから共有特徴量空間にG(X)を射影する。共有特徴量空間は図7Bに示すように、同じノルムを有する特徴量の集合を示す。
【0042】
正射影ペアワイズ誤差計算部は正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Dを下記式(4)
【0043】
【数4】
で計算する。距離の計算方法Disは、ユークリッド距離やKLダイバージェンスなど挙げられる。
【0044】
逆射影モデルA’であるG’は、共有空間に射影された特徴量G(X)を元の教師特徴量Aの空間に特徴量G’(G(X))を射影する。教師特徴量空間Aは図7Bに示すように、教師特徴量Aのノルムを有する特徴量空間となる。逆射影誤差計算部は逆射影された特徴量と元の特徴量間の距離D’を下記式(5)
【0045】
【数5】
で計算する。
【0046】
射影モデル更新部はD+D’を最小化するように、正と逆射影モデルを更新する。正と逆射影モデルはCNNや全連結層から構成されたニューラルネットワーク(FNN)やMLPで構成されることが考えられる。
【0047】
このようなループ的な学習によって、正射影モデルからの射影特徴量はただお互いに距離を縮めることだけではなく、逆射影誤差により教師射影特徴量は元の教師特徴量の性質を最大限に保つことが可能となる。また、標的射影特徴量は逆射影しないことで、正射影した標的射影特徴量をより教師モーダルの特徴量の性質と近づくことが可能となる。
【0048】
このようにして求められた教師射影特徴量と標的射影特徴量は、教師識別モデル更新部108と標的識別モデル更新部111に入力される。
【0049】
図8は、本実施例における共有特徴量空間射影モデル学習処理を示すフローチャートである。S301において、入力されたデータから教師特徴量、標的特徴量を取得する。S302からS307の間で、教師モダリティ(複数の教師モデル)ごとに処理を繰り返す。S303では、教師特徴量及び標的特徴量を共有特徴量空間に正射影する。S304では、正射影モデルから共有特徴量空間に射影された特徴量ペア間のペアワイズ距離Dを計算する。S305では、共有特徴量空間に射影された教師特徴量を元の教師特徴量の空間に逆射影する。S306は、逆射影された教師特徴量と元の教師特徴量間の距離D’を計算し、D+D’を最小化するように、正と逆射影モデルを更新する。
【0050】
図9は、本実施例における標的識別モデル更新部111と教師識別モデル更新部108の構造を示す図である。クラス情報推定部171は正射影モデルから射影した標的射影特徴量と教師射影特徴量を基に、ソフトヒストラグムとなる教師推定クラス確率分布と標的推定クラス確率分布を計算する。推定された教師クラス確率は標的クラス確率のソフトターゲットとする。また、真値クラス確率は該当入力特徴量に紐つけるクラス情報を1.0とし、他のクラス情報への確率を0.0となるハードヒストラグムをハードターゲットとする。
【0051】
教師誤差評価部172は教師推定クラス確率分布Vと標的推定クラス確率分布Vを元に、標的推定クラス確率分布とソフトターゲットとなる教師推定クラス確率分布とのクロスエントロピーを下記式(6)
【0052】
【数6】
で計算する。
【0053】
推定誤差評価部173は、クラス真値分布Vと標的推定クラス確率分布Vを元に、標的推定クラス確率分布とハードターゲットとなるクラス真値分布とのクロスエントロピーを下記式(7)
【0054】
【数7】
で計算する。
【0055】
モダリティ分類部174は、標的射影特徴量と教師射影特徴量を基に、入力された特徴量は教師や標的のどのモーダルから抽出された特徴量かを2値分類し、標的モーダルになる確率を出力する。
【0056】
分類誤差評価部175は、モダリティ分類部から計算された標的モーダルに分類される確率と入力された特徴量に紐つけるモーダルの真値の元に、2値のクロスエントロピーを下記式(8)
【0057】
【数8】
で計算する。
【0058】
パラメータ更新部176は、L=L+L+Lと、共有特徴量空間射影モデル学習部106から出力された射影誤差D+D’から、L+α(D+D’)を最小化するように、標的識別モデルと教師識別モデルのパラメータを更新する。αは調和用のパラメータとなる。
【0059】
図10は、本実施例における標的識別モデル更新処理と教師識別モデル更新処理を示すフローチャートである。S401において、正射影モデルから射影した標的射影特徴量と教師射影特徴量を組として入力データとして取得する。S402からS409の間で、入力データ組ごとに処理を繰り返す。S403では、クラス方法推定処理として、教師推定クラス確率分布と標的推定クラス確率分布を計算する。また、S404では、モダリティ分類処理として、標的射影特徴量と教師射影特徴量を基に、入力された特徴量は教師や標的のどのモーダルから抽出された特徴量かを2値分類し、標的モーダルになる確率を出力する。S405では、教師誤差評価として、教師推定クラス確率分布と標的推定クラス確率分布を元に、標的推定クラス確率分布と教師推定クラス確率分布とのクロスエントロピーを計算する。S406では、推定誤差評価として、クラス真値分布と標的推定クラス確率分布を元に、標的推定クラス確率分布とクラス真値分布とのクロスエントロピーを計算する。S407では、分類誤差評価として、標的モーダルに分類される確率と入力された特徴量に紐つけるモーダルの真値を元に、2値のクロスエントロピーを計算する。S408では、教師誤差評価と推定誤差評価と分類誤差評価の値と共有特徴量空間射影モデル学習部から出力された射影誤差とから、標的識別モデルと教師識別モデルのパラメータを更新する。
【0060】
図11は、本実施例における記憶部114の構造を示す図である。図11において、(a)は共有特徴量空間射影モデル記憶部116、(b)は識別モデル記憶部115、(c)は識別結果記憶部206を示している。(a)の共有特徴量空間射影モデル記憶部116においては、モダリティIDと、それに対する正射影モデル、逆射影モデルの項目を有し、各正射影モデル及び逆射影モデルは数式及び重み(係数)が格納されている。(b)の識別モデル記憶部115においては、モダリティIDと、それに対する識別モデルの項目を有し、識別モデルは標的識別モデルまたは教師識別モデルの区別とその数式及び重み(係数)が格納されている。また、(c)の識別結果記憶部206においては、データIDと、それに対するRAWデータ、すなわち画像、音声等の元のデータ、取得した時刻、取得した場所、特徴量、クラススコア、推定クラス等の項目を有している。
【0061】
図12は、本実施例におけるマルチモーダルデータ収集装置100の具体例を示す図である。図12において、マルチモーダルデータ収集装置100は、画像、映像、音声、センサからの情報などのモーダルデータを収集する装置であって、例えばショッピングモールのような場所で、映像情報を取得するカメラ161や、人物が有している眼鏡型ウェアラブル装置163が有しているウェアラブルカメラ、加速度センサ、ジャイロセンサ等、スマートウォッチ164が有している加速度センサや心拍センサ等、スマートフォン165が有している加速度センサ、ジャイロセンサ、マイクロフォン、WiFi(登録商標)通信器(WiFi基地局162からの信号強度を受信する)等、スマートシューズやスマートソールが有している、加速度センサ、ジャイロセンサ、圧感センサ等である。これらの収集されたマルチモーダルデータは、ネットワーク177を介して、データ閲覧装置178で閲覧したり、データ記録装置179に記録できる。
【0062】
図13は、本実施例におけるデータ閲覧装置の閲覧画面を示す図である。図13においては、カメラ画像、センサデータ内容、場所、日時、選択カメラの表示、設定ボタン等が表示される。なお、図では、例えばID1の人物を選択した場合の表示がされており、人物の選択を変えることで表示を変えることができる。
【0063】
以上述べてきたように、本マルチモーダル学習装置によれば、学習中に使用したモーダルの一部で構成された運用環境でも、マルチモーダル環境と近く識別性能やマルチモーダル環境しか識別できないパターンの識別が可能となる。
【実施例2】
【0064】
監視カメラから取得した監視映像における行動認識には、距離が遠い場合、遮蔽された場合、またカメラから見分けにくい細微な行動を認識する場合、精度が劇的に降下することがある。例えば、ドアの前に立った人物の行動が、ドアを開ける行動なのか物をとる行動なのか、の細かな行動がカメラの映像だけでは分からない場合がある。本実施例では、マルチモーダル学習装置を細粒度行動に応用する認識方法について述べる。すなわち、画像と映像両方の特徴を活かして、また、加速度センサを微細行動の動き部位につけることによって、学習時微細行動による画像の微細変化を、動かす部位の加速度センサデータで捉える。加速度センサデータを教師モーダルとして、カメラから取得できる画像と映像モーダルを標的モーダルとした場合、カメラからの距離や遮蔽からの影響がなく、また行動の微細変化取りやすい加速度センサをモーダル学習時に利用することによって、行動認識時、加速度センサ不要でも、微細の行動を捉えるようなことが可能となる。
【0065】
図14は、本実施例における細粒度行動認識モデルの学習方法を説明する図である。入力データは監視カメラから取得した映像および映像内で行動を起こすときに身体に装着する加速度センサから取得できる加速度センサデータとなる。まず行動を起こすときの背景からの影響を軽減するため、時刻Tの静止画から人物の位置を人物位置検出部から検出する。検出された人物位置から人物領域画像を用いて、人物領域特徴量抽出部302から静止画の画像特徴量を抽出する。静止画の特徴量は一般のCNNやSIFTなど用いて特徴を抽出することが考えられる。そして、時刻Tまでのt秒間映像から動的特徴量を動的特徴量抽出部303から抽出する。動的特徴量はoptical flowなど例として挙げられる。加速度特徴量抽出部304は身体に装着している三軸加速度データから高速フーリエ(FFT)変換し、変換後のヒストグラムから平均、分散、エネルギーの平均の組み合わせを特徴量とするが、CNNを用いる特徴量を抽出することでも良い。人物領域特徴量、動的特徴量および加速度特徴量を元に、共有特徴量空間射影モデル学習部106でそれぞれのモーダルの射影モデルを学習する。標的識別モデル学習機構107は射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習し、学習済みの射影モデルと識別モデルを記憶部114に格納する。
【0066】
図15は、本実施例における細粒度行動認識学習処理を示すフローチャートである。S501において、学習データ組を読み込む。すなわち、標的モーダルデータ(画像及び映像)、教師モーダルデータ(センサデータ)からなる学習データ組を読み込む。そして、S502からS509の間で、学習データ組ごとに処理を繰り返す。S503において画像から人物位置検出処理により人物の位置を検出し、S504において人物領域特徴量抽出処理により人物領域特徴量を抽出する。そして、S505において映像から動的特徴量抽出処理により動的特徴量を抽出する。また、S506において加速度特徴量抽出処理により加速度特徴量を抽出する。そして、S507において、人物領域特徴量、動的特徴量および加速度特徴量を元に、共有特徴量空間射影モデル学習処理のよりそれぞれのモーダルの射影モデルを学習する。そして、S508において、標的識別モデル学習処理により射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する。
【0067】
図16は、本実施例における細粒度行動認識装置の機能構成図である。図14、15に示した細粒度行動認識学習処理で行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する認識を行う。
【0068】
図16において、図4と同じ機能は同じ符号を付し、その説明は省略する。図16において、モーダル入力データ取得部200は認識先となる標的モーダル入力データを取得し、人物領域特徴量抽出部302で人物領域の特徴量を抽出し、動的特徴量抽出部303で動的特徴量を抽出する。以降は、図4と同じであり、標的特徴量を共有射影空間へ射影し、識別(認識)情報を計算し、識別(認識)結果を推定し、識別(認識)結果を提示する。
【0069】
以上のように、本実施例によれば、マルチモーダル学習装置を細粒度行動に応用でき、加速度センサ不要でも、細粒度行動を認識することが可能となる。
【実施例3】
【0070】
手持ち荷物の重さは不審者や不審行動に繋がる重要な情報となる。例えば、外見とマッチングしない過重な手荷物には不審物を運ぶ可能性が高い。一般の監視映像では荷物の重さを見た目から区別しにくいが、外見が同じでも、重さが異なると、移動の軌跡や靴に与える圧力、また心拍や荷物を持つ手首の加速度変化が明らかに異なる。本実施例では、マルチモーダル学習装置を映像から荷物の重さの推定に応用する認識方法について述べる。荷物の重さが明らかに変化するときに、手荷物の外見における特徴、手荷物を持つ人の動線特徴より、心拍と荷物を持つ手首の加速度変化が顕著となる。荷物の重さを変化するときの心拍と荷物を持つ手首の加速度変化を学習時に利用することによって、荷物の重さを推定するとき、心拍や加速度センサが不要でも、荷物の重さをより正確に推定することが可能となる。
【0071】
図17は、本実施例における荷物重さ推定モデルの学習方法を説明する図である。学習時の入力データは荷物を持つ人が移動する監視映像と移動する人の身体に装着する心拍センサと加速度センサから取得できるセンサデータとなる。それ以外、足に圧感センサや加速度センサを装着することでも良い。まず、時刻Tにおける画像から手荷物の位置を物体位置検出部401から検出し、物体領域特徴量抽出部405から手荷物領域の外見特徴量を抽出する。そして、時刻Tまでのt秒間の映像から人の移動軌跡となる動線を動線検出部402から検出し、動線特徴量抽出部406から動線変化の特徴量を抽出する。動線の検出はtrackletなど挙げられる。また、動線の特徴量は動線の指示方向の方位角の平均と分散の変化量から計算することが考えられる。もしくは、動線を可視化し、CNNから可視化した動線から特徴量を抽出することも考えられる。
【0072】
加速度センサから取得したセンサ信号から実施例2と同様な加速度特徴量抽出が加速度特徴量抽出部403により行われる。また、心拍特徴量抽出部404は、T-tからT時刻までの心拍センサにより高周波区間と低周波空間の平均変化量の差分から心拍特徴量を計算できる、もしくは、CNNの中間層から特徴量を計算することも考えられる。そして、モダリティ間の性質差が少ないセンサ信号の特徴表現を特徴量アンサンブル処理部407によりアンサンブル処理を行い、一つの教師識別モデルを構築することによりモーダルを簡易化することで、標的識別モデルの学習をより容易にできることが考えられる。共有特徴量空間射影モデル学習部106でそれぞれのモーダルの射影モデルを学習する。標的識別モデル学習機構107は射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習し、学習済みの射影モデルと識別モデルを記憶部114に格納する。
【0073】
図18は、本実施例における荷物重さ推定学習処理を示すフローチャートである。S601において、学習データ組を読み込む。すなわち、標的モーダルデータ、教師モーダルデータからなる学習データ組を読み込む。そして、S602からS608の間で、学習データ組ごとに処理を繰り返す。S603において画像から物体位置検出処理により物体の位置を検出し、S604において物体領域特徴量抽出処理により物体領域特徴量を抽出する。そして、S605において映像から人物動線を検出する。また、S606において動線特徴量抽出処理により動線変化の動線特徴量を抽出する。そして、S607において、加速度特徴量抽出処理により加速度特徴量を抽出する。また、S608において、心拍特徴量抽出処理により心拍特徴量を算出する。そして、S609において、特徴量アンサンブル処理によりアンサンブル処理を行い、S610において、それぞれのモーダルの射影モデルを学習する。そして、S611において、標的識別モデル学習処理により射影特徴量を用いて、標的識別モデルとなる画像識別モデルと映像識別モデルを学習する。
【0074】
図19は、本実施例における認識装置の機能構成図である。図17、18に示した荷物重さ推定学習処理で行った学習済みの標的識別モデルと共有空間へ射影する標的正射影モデルを用いて入力データに対する認識を行う。
【0075】
図19において、図4と同じ機能は同じ符号を付し、その説明は省略する。図19において、モーダル入力データ取得部200は認識先となる標的モーダル入力データを取得し、物体領域特徴量抽出部405で物体領域の特徴量を抽出し、動線特徴量抽出部406で動線特徴量を抽出する。以降は、図4と同じであり、標的特徴量を共有射影空間へ射影し、識別(認識)情報を計算し、識別(認識)結果を推定し、識別(認識)結果を提示する。
【0076】
以上のように、本実施例によれば、マルチモーダル学習装置を映像から荷物の重さの推定に応用でき、荷物の重さを推定するとき、心拍や加速度センサが不要でも、荷物の重さをより正確に推定することが可能となる。
【実施例4】
【0077】
本実施例は、実施例1の共有特徴量空間射影モデル学習部106をフィジカル情報から画像を検索する場合に応用する例について述べる。音声、身体動作、ジェスチャなどフィジカル情報をクエリとして画像を検索することは、より複雑且つ文字や類似画像など表現できないシーンの検索が可能となる。例えば、大声を出すシーン、ドアを開けるシーンや走るシーンなど画像や映像の特徴量で検索することが困難の例でも、フィジカルの情報でより容易にクエリを作成できる。例えば、手が動いている画像を検索したい場合などに有効である。このように、フィジカル情報と画像情報を用いて、共有特徴量空間射影モデル学習部で正射影モデルを学習することによって、フィジカル情報と画像情報の射影特徴量はお互いに空間上の距離を縮めたため、フィジカル情報を共有空間へ射影した特徴量から同じ空間に射影した画像特徴量を検索することが可能となる。
【0078】
図20は、本実施例におけるフィジカル情報を用いる画像検索を説明する図である。図20において、画像動作特徴量抽出部501で画像の動作特徴量を抽出し、画像動作特徴量共有空間射影部502で、画像の動作特徴量を共有空間に射影する。また、センサ情報特徴量抽出部503でセンサ情報の特徴量を抽出し、センサ情報特徴量共有空間射影部504で、センサ情報の特徴量を共有空間に射影する。そして、画像検索部505で、共有射影空間上で距離が近い画像を検索する。なお、画像の動作特徴量を共有空間に射影した際の画像射影特徴量を画像射影特徴量データベース506に格納する。
【0079】
図21は、本実施例における画像射影特徴量データベース506の構築処理を示すフローチャートである。S701において画像データを読み込み、S702において画像から人物位置を検出する。そして、S703からS707の間で、人物ごとに処理を繰り返す。S704において画像から動作特徴量を抽出し、S705において画像動作特徴量を共有空間に射影する。そして、S706において射影した際の画像射影特徴量を画像射影特徴量データベースに格納する。
【0080】
図22は、本実施例におけるフィジカル情報を用いる画像検索処理を示すフローチャートである。S801においてクエリ用センサデータを読み込む。そして、S802においてセンサデータの特徴量を抽出し、S803において、実施例1の共有特徴量空間射影モデル学習部106での共有特徴量空間射影処理によりセンサデータの特徴量を共有空間に射影する。そして、S804において、共有射影空間上で距離が近い画像の検索処理を行う。
【0081】
以上のように本実施例によれば、共有特徴量空間射影モデル学習部をフィジカル情報から画像を検索する場合に応用できる。
【0082】
なお、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【符号の説明】
【0083】
10:マルチモーダル学習装置、20:標的モーダル識別装置、100:マルチモーダルデータ収集装置、101:標的モーダルデータ取得部、102、103:教師モーダルデータ取得部、 104:教師特徴量抽出部、105:標的特徴量抽出部、106:共有特徴量空間射影モデル学習部、107:標的識別モデル学習機構、108:教師識別モデル更新部、109:教師識別情報計算部、110:教師識別情報アンサンブル処理部、111:標的識別モデル更新部、112:標的識別情報計算部、113:識別モデル学習コスト計算部、114:記憶部、115:識別モデル記憶部、116:共有特徴量空間射影モデル記憶部、206:識別結果記憶部、178:データ閲覧装置、179:データ記録装置
図1
図2
図3
図4
図5
図6
図7A
図7B
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22