【文献】
西垣 正勝、梅本 功太、山本 匠,“Auto-ID Solution なぞり書き認証方式の提案とその認証精度に関する検討”,月刊自動認識,日本,日本工業出版株式会社,2010年 7月10日,第23巻、第8号,p.33−41
【文献】
中村 友昭ほか,SVMとCRFに基づくロボットによる自然言語理解,第32回日本ロボット学会学術講演会,日本ロボット学会,2014年 9月 4日,p.1649-1652
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の方法では、指や顔の連続的な動作である時系列情報のみを用いてユーザ動作を分類していたため、その分類精度は低いという課題があった。例えば、非特許文献1では、旅行者の状態推定を行う場合、ユーザの位置移動に基づくGPS移動軌跡のみを用いる方法が開示されている。
【0005】
本発明は、上記事情を鑑みてなされたものであり、ユーザ動作の分類精度を改善することを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するため、本発明に係る分析装置は、画像又は動画に係る第1の中間表現ベクトルを出力する画像解析部と、前記画像又は動画に対して移動させた身体部位の位置を時系列に示す時系列情報に係る第2の中間表現ベクトルを出力する時系列情報時系列解析部と、
前記画像又は動画と前記時系列情報とを重畳させた重畳情報に係る第3の中間表現ベクトルを出力する時系列情報同時解析部と、前記第1の中間表現ベクトルと前記第2の中間表現ベクトルと
前記第3の中間表現ベクトルとを用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を任意の分類結果に分類する情報統合部と、を備えることを特徴とする。
【0007】
上記分析装置において、前記画像又は動画に対して行うべき身体部位の移動動作を指示する指示テキストに係る第
4の中間表現ベクトルを出力する指示テキスト解析部を更に備え、前記情報統合部は、前記第
4の中間表現ベクトルを更に用いて、前記身体部位の位置移動の動作結果を任意の分類結果に分類することを特徴とする。
【0008】
上記分析装置において、前記時系列情報のタイムスタンプ毎に前記身体部位の位置移動の動作結果を任意の分類結果に分類する時系列情報分離解析部と、前記タイムスタンプ毎の分類結果を用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を総合的に分類する分離情報分類結果推定部と、を更に備えることを特徴とする。
【0009】
本発明に係る分析方法は、分析装置で行う分析方法において、画像又は動画に係る第1の中間表現ベクト
ルと、前記画像又は動画に対して移動させた身体部位の位置を時系列に示す時系列情報に係る第2の中間表現ベクトル
と、前記画像又は動画と前記時系列情報とを重畳させた重畳情報に係る第3の中間表現ベクトルと、を出力する
第1のステップと、前記第1の中間表現ベクトルと前記第2の中間表現ベクトルと
前記第3の中間表現ベクトルとを用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を任意の分類結果に分類する
第2のステップと、を行うことを特徴とする。
上記分析方法において、前記第1のステップでは、前記画像又は動画に対して行うべき身体部位の移動動作を指示する指示テキストに係る第4の中間表現ベクトルを更に出力し、前記第2のステップでは、前記第4の中間表現ベクトルを更に用いて、前記身体部位の位置移動の動作結果を任意の分類結果に分類することを特徴とする。
上記分析方法において、前記時系列情報のタイムスタンプ毎に前記身体部位の位置移動の動作結果を任意の分類結果に分類するステップと、前記タイムスタンプ毎の分類結果を用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を総合的に分類するステップと、を更に行うことを特徴とする。
【0010】
本発明に係る分析プログラムは、上記分析装置としてコンピュータを機能させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、ユーザ動作の分類精度を向上することができる。
【発明を実施するための形態】
【0013】
以下、本発明を実施する一実施の形態について図面を用いて説明する。
【0014】
<第1の実施形態>
第1の実施形態では、画面に表示された画像・動画に対する時系列情報(指や顔の向き等の移動位置)の全体を分析することとし、本発明の第1の特徴として、身体部位(指、顔の向き等)の移動位置の時系列情報に加えて、画面に表示された画像・動画の情報を併用する。
【0015】
また、第1の実施形態では、指示が与えられた条件下において、画面に表示された画像・動画に対する時系列情報の全体を分析することとし、本発明の第2の特徴として、身体部位の時系列情報に加えて、画面に表示された画像・動画に対して行うべき身体部位の移動動作を指示する指示テキスト(コントロール文)の情報を併用する。
【0016】
すなわち、上記第1の特徴と第2の特徴では、時系列情報のみではなく、画像・動画の情報や指示テキストの情報を併用するので、ユーザ動作の分類精度を向上することが可能となる。
【0017】
(分析装置の構成)
図1は、第1の実施形態に係る分析装置1の機能ブロック構成を示す図である。分析装置1は、
図1に示すように、指示テキスト解析部11と、時系列情報時系列解析部12と、時系列情報同時解析部13と、画像解析部14と、情報統合部15と、学習済モデル記憶部16と、表示部17と、を備えて構成される。分析装置1は、例えば、スマートフォン端末、携帯電話端末、サーバ装置である。
【0018】
指示テキスト解析部11は、指示テキストTを入力し、学習済モデルを用いて、指示テキストTに係るテキスト情報中間表現ベクトル(第
4の中間表現ベクトル)V1を出力する機能を備える。テキスト情報中間表現ベクトルV1は、指示テキストTの特徴量を持つベクトルである。指示テキストTは、例えば表示部17の画面に表示されており、同画面に表示された画像・動画Pに対してユーザが行うべき身体部位(指、顔の向き等)の移動動作命令を示す情報である。
【0019】
時系列情報時系列解析部12は、画像・動画Pに対してユーザが移動させた各時刻tでの身体部位の画面上のx,y座標を示す時系列情報i(t,x,y)を入力し、学習済モデルを用いて、時系列情報iに係る時系列情報中間表現ベクトル(第2の中間表現ベクトル)V2を出力する機能を備える。時系列情報中間表現ベクトルV2は、時系列情報iの特徴量を持つベクトルである。
【0020】
時系列情報同時解析部13は、時系列情報i(t,x,y)と、画像・動画Pの情報と、を入力し、学習済モデルを用いて、時系列情報iと画像・動画情報Pとを重畳させた重畳情報に係る同時情報中間表現ベクトルV3を出力する機能を備える。同時情報中間表現ベクトルV3は、時系列情報iと画像・動画情報Pとの両方の特徴量を持つベクトルである。
【0021】
画像解析部14は、画像・動画Pの情報を入力し、学習済モデルを用いて、画像・動画情報Pに係る画像・動画情報中間表現ベクトル(第1の中間表現ベクトル)V4を出力する機能を備える。画像・動画情報中間表現ベクトルV4は、画像・動画情報Pの特徴量を持つベクトルである。なお、画像・動画とは、静止画である画像と動画とのうちいずれかでもよいし、画像と動画の両方でもよい。
【0022】
情報統合部15は、テキスト情報中間表現ベクトルV1と、時系列情報中間表現ベクトルV2と、同時情報中間表現ベクトルV3と、画像・動画情報中間表現ベクトルV4と、タイプ属性情報Aと、を入力し、学習済モデルを用いて、画像・動画Pに対する身体部位の位置移動の動作結果を任意の分類結果に分類する機能を備える。タイプ属性情報とは、指示テキストTに示された身体部位の移動動作の規則(動作のルール)を示す情報である。
【0023】
学習済モデル記憶部16は、学習済モデルを記憶しておく機能を備える。学習済モデルとは、指示テキスト(T)、画像・動画(P)、移動軌跡データ(時系列情報i)等の入力セットに対して任意の分類結果が紐づいたペアの集合である学習データを元に学習した結果に基づき、ある特徴を有する指示テキストT、画像・動画P、移動軌跡データiを、学習データ内の上記任意の分類結果のいずれかと結びつける(分類する)ためのモデルである。
【0024】
例えば、学習済モデルは、「「る」をなぞる」という指示テキストT、「る」の画像P、指や顔の向きの移動軌跡データiを学習データとして入力としたとき、ユーザが「「る」という画像をなぞった」又は「「る」という画像をなぞらなかった」という分類結果のペアを成すデータがある場合、入力した学習データ、又は当該学習データに近い特徴を持つ未知のデータを、「「る」をなぞった」又は「「る」をなぞらなかった」に分類するモデルである。
【0025】
表示部17は、ユーザに対して身体部位の動作を促すための身体動作誘導プログラムの指示に基づき、身体部位の動作を促すための背景となる画像・動画Pと、身体部位の移動動作を指示する指示テキストTと、を画面に表示する機能を備える。
【0026】
上述した複数の機能部は、全ての機能部(11〜17)を一つの装置に実装してもよいし、複数の装置に実装してもよい。複数の装置に実装する例としては、スマートフォン端末の画面及び表示機能を用いて表示部17を実現し、表示部17以外の各機能部(11〜16)をサーバ装置に実装して、スマートフォン端末とサーバ装置とに通信機能をそれぞれ具備させる実装形態が考えられる。
【0027】
(分析装置の動作)
次に、
図2〜
図7を参照しながら、分析装置1で行う分析処理動作について説明する。
図2は、分析装置1で行う分析処理動作の処理フローを示す図である。
図3は、テキスト情報中間表現ベクトルV1の生成イメージを示す図である。
図4は、時系列情報中間表現ベクトルV2の生成イメージを示す図である。
図5は、同時情報中間表現ベクトルV3の生成イメージを示す図である。
図6は、画像・動画情報中間表現ベクトルV4の生成イメージを示す図である。
図7は、身体部位の位置移動の動作結果の分類例を示す図である。なお、
図4〜
図6では、各中間表現ベクトルの値を「…」で略記している。なお、本動作例では、学習済モデルのアルゴリズムとして、単語列等のデータを扱うLSTM(Long Short Term Memory)、画像系のデータを扱うCNN(Convolutional Neural Network)等を用いる。
【0028】
ステップS101;
上述した身体動作誘導プログラム(以下、単にプログラム)が起動すると、指示テキスト解析部11は、プログラムから指示テキストTを取得し、学習済モデルの一部であるLSTM等を用いて、任意長のベクトル化を行う。例えば、プログラムが「複数の文字のうち「る」という文字を指で早くなぞる」というゲームである場合、
図3に示すように、指示テキストTに含まれる各文字を学習済モデル内の各LSTMへそれぞれ入力し、各LSTMで各文字をそれぞれ学習することにより、5次元のベクトルに変換する。その後、指示テキスト解析部11は、変換したベクトルをテキスト情報中間表現ベクトルV1として情報統合部15へ出力する。なお、学習済モデルであるLSTM、CNN等で文字、画像・動画、時系列情報の学習を行いベクトルに変換する処理自体は、既存技術である。
【0029】
ステップS102;
ステップS101と同時に、時系列情報時系列解析部12は、表示部17に表示されている画像・動画Pに対してユーザが移動させた指の時系列情報i(t,x,y)を取得し、学習済モデルの一部であるLSTM等を用いて、任意長のベクトル化を行う。例えば、
図4に示すように、各時系列情報i(t,x,y)を学習済モデル内の各LSTMへそれぞれ入力し、各LSTMで各時系列情報iをそれぞれ学習することにより、5次元のベクトルに変換する。その後、時系列情報時系列解析部12は、変換したベクトルを時系列情報中間表現ベクトルV2として情報統合部15へ出力する。
【0030】
ステップS103;
ステップS101と同時に、時系列情報同時解析部13は、時系列情報i(t,x,y)と画像・動画情報Pとを取得し、時系列情報iと画像・動画情報Pとを同じ時間空間で重畳して、学習済モデルの一部であるCNNやLSTMを用いて解析し、同時情報中間表現ベクトルV3を得る。その後、時系列情報同時解析部13は、同時情報中間表現ベクトルV3を情報統合部15へ出力する。
【0031】
例えば、背景画面が画像(「る」の文字画像等)である場合、
図5に示すように、時系列情報iを画像P上に画像的に重畳し、重畳した重畳画像を学習済モデル内のCNNで解析して、同時情報中間表現ベクトルV3に変換する。また、背景画面が動画(「る」の文字が書き順に沿って次第に表示される動画等)である場合、時系列情報iを動画P上に画像的に重畳して、重畳した重畳画像を学習済モデル内のCNN及びLSTMで解析して、同時情報中間表現ベクトルV3に変換する。また、背景画像に画像と動画の両方が用いられている場合、時系列情報iと画像及び動画情報Pとを結合し、学習済モデル内のLSTMで解析して、同時情報中間表現ベクトルV3に変換する。
【0032】
ステップS104;
ステップS101と同時に、画像解析部14は、画像・動画情報Pを取得し、学習済モデルの一部であるCNNやLSTMを用いて解析し、画像・動画情報中間表現ベクトルV4を得る。その後、画像解析部14は、画像・動画情報中間表現ベクトルV4を情報統合部15へ出力する。
【0033】
例えば、背景画面が画像である場合、画像解析部14は、
図6に示すように、画像Pを学習済モデル内のCNNで解析して、画像・動画情報中間表現ベクトルV4に変換する。また、背景画面が動画である場合、画像解析部14は、動画Pを学習済モデル内のCNN及びLSTMで解析して、画像・動画情報中間表現ベクトルV4に変換する。
【0034】
ステップS105;
その後、情報統合部15は、
図7に示すように、テキスト情報中間表現ベクトルV1と、時系列情報中間表現ベクトルV2と、同時情報中間表現ベクトルV3と、画像・動画情報中間表現ベクトルV4と、タイプ属性情報Aと、を入力し、全結合層やSoftmax関数等を用いて、画像・動画Pに対する指の位置移動の動作結果に係る成功スコアと失敗スコアとをそれぞれを算出し、それらのスコア値の大小に基づき指の位置移動の動作結果を成功又は失敗に分類する。なお、タイプ属性情報Aとは、例えば「なぞる=1」であり、1ホットベクトル(1 hot vector)等のベクトル表現として与える。
【0035】
最も単純な例としては、情報統合部15は、テキスト情報中間表現ベクトルV1を|v1|次元のベクトル、時系列情報中間表現ベクトルV2を|v2|次元のベクトル、同時情報中間表現ベクトルV3を|v3|次元のベクトル、画像・動画情報中間表現ベクトルV4を|v4|次元のベクトル、タイプ属性情報Aを|a|次元のベクトルとして、全結合層でそれらを結合(concat)することで、{|v1|+|v2|+|v3|+|v4|+|a|}次元の新しいベクトルV’を得る。これに対し、出力する分類クラス数を例えば2つとした場合、全結合層の重みパラメータWは、{|v1|+|v2|+|v3|+|v4|+|a|}行×2列の行列として与えられる。このとき、Softmax(V’W)を計算することにより、2つの分類結果の確率を算出することができる。例えば、
図7に示したように、成功スコアの確率が0.95、失敗スコアの確率が0.05と算出される。この場合、情報統合部15は、成功スコアの方が失敗スコアよりも高いので、ユーザが行った指の位置移動の動作結果を成功に分類する。
【0036】
なお、分類するクラスとしては、成功スコアと失敗クラスの2つ以外にも、他のクラスを定義して3つ以上のクラスを用いることも可能である。クラスの数及び定義は、一般にプログラムで指示される動作方法等に応じて異なる。
【0037】
(ベクトル変換処理)
ステップS101〜ステップS104で行われた文字、画像・動画、時系列情報をLSTM、CNN等で学習してベクトルに変換する処理は、ステップS101で述べたように既存技術である。例えば、CNNについて概説する。CNNでは、畳み込み層が、前段の層(原画像又はプーリング層による処理後の画像)で隣接画素を含む一定の画素領域に対して順次フィルタ処理することで特徴マップを算出し、プーリング層が、畳込み層から出力された特徴マップを縮小して新たな特徴マップを算出する。そして、全結合層が、プーリング層から出力された特徴マップのデータを元にn次元のベクトルを出力する。これにより、入力画像の特徴を維持しながら抽象化された画像に対応するベクトルを算出することができる。
【0038】
(分析装置の動作の変形例1)
上述した動作では、4つ全ての中間ベクトル(V1〜V4)を用いる場合を例に説明したが、情報統合部15は、時系列情報中間表現ベクトルV2に加えて、テキスト情報中間表現ベクトルV1と、同時情報中間表現ベクトルV3と、画像・動画情報中間表現ベクトルV4とのうちいずれか1つ以上を選択的に併用することも可能である。例えば、時系列情報中間表現ベクトルV2と画像・動画情報中間表現ベクトルV4との2つを用いてもよいし、時系列情報中間表現ベクトルV2とテキスト情報中間表現ベクトルV1と画像・動画情報中間表現ベクトルV4との3つを用いてもよい。
【0039】
(分析装置の動作の変形例2)
上述した動作では、「る」という文字画像を指でなぞる場合を例に説明したが、文字以外に、例えば、画像である地図について、GPSを身に着けて出発点から到達点までの経路を移動し、意図した経路(例えば、最短経路)を移動することができたか否かの移動結果を分類する場合にも適用できる。また、「なぞる」というタイプ属性以外に、「タッチする」等の場合も適用できる。更に、画像以外に、例えば、林檎が移動している動画について、移動している林檎を指で追跡し、林檎の移動軌跡に対して指が正しく追跡できたか否かの追跡結果を分類する場合にも適用できる。その他、分析装置1が顔の向きを捉える機能を備える場合、顔の向きに基づく移動軌跡にも応用可能である。
【0040】
(効果)
第1の実施形態によれば、分析装置1が、画像・動画Pに係る画像・動画情報中間表現ベクトルV4を出力する画像解析部14と、画像・動画Pに対して移動させた指の位置を時系列に示す時系列情報iに係る時系列情報中間表現ベクトルV2を出力する時系列情報時系列解析部12と、画像・動画情報中間表現ベクトルV4と時系列情報中間表現ベクトルV2とを用いて、画像・動画Pに対する指の位置移動の動作結果を任意の分類結果に分類する情報統合部15と、を備えるので、ユーザ動作の分類精度を向上することができる。
【0041】
また、第1の実施形態によれば、分析装置1は、画像・動画に対して行うべき指の移動動作を指示する指示テキストに係るテキスト情報中間表現ベクトルV1を出力する指示テキスト解析部11を更に備え、情報統合部15は、テキスト情報中間表現ベクトルV1を更に用いて指の位置移動の動作結果を任意の分類結果に分類するので、ユーザ動作の分類精度を更に向上することができる。
【0042】
<第2の実施形態>
第1の実施形態では、時系列情報の全体を分析する場合について説明した。一方、身体部位の移動途中で急な変化(例えば、指示内容の変化)が生じる場合、時系列情報の全体を通してユーザ動作を分類するよりも、時系列情報の全体を部分的に分け、各部分の時系列情報を用いてユーザ動作を総合的に分類した方が、より適切な分類結果が得られる場合がある。
【0043】
そこで、第2の実施形態では、画像・動画に対する時系列情報を部分的に分析することとし、本発明の第3の特徴として、身体部位の位置移動の動作を任意の分類結果に分類する処理をタイムスタンプ毎に統計し、タイムスタンプ毎の統計量を用いてユーザ動作を総合的に分類する。タイムスタンプ毎の統計量を用いるので、身体部位の移動途中で急な変化が生じる場合でも頑健に分類することが可能となる。
【0044】
(分析装置の構成)
図8は、第2の実施形態に係る分析装置1の機能ブロック構成を示す図である。分析装置1は、
図8に示すように、時系列情報分離解析部18と、分離情報分類結果推定部19と、を備えて構成される。分析装置1は、
図1に示した第1の実施形態に係る分析装置1に組み合わせて構成してもよい。
【0045】
時系列情報分離解析部18は、時系列情報iのタイムスタンプ(時刻t)毎に、身体部位の位置移動の動作結果を任意の分類結果に分類する機能を備える。
【0046】
分離情報分類結果推定部19は、タイムスタンプ(時刻t)毎の分類結果を用いて、画像・動画に対する身体部位の位置移動の動作結果を総合的に分類する機能を備える。
【0047】
(分析装置の動作)
(動作例1)
動作例1では、カーネル密度推定等に基づき分析する場合について説明する。
図9は、分析装置1で行う分析処理動作(動作例1)の処理フローを示す図である。動作例1で用いる学習済モデルは、分類結果が教師ラベルl(成功フラグl
s、失敗フラグl
f)として付与された時系列情報を元に、ラベルl毎に、各時刻tにおけるx,y座標の情報を用いて時刻tのx,y座標に対する確率分布モデルP(x,y;t)をカーネル密度推定法で予め作成しておく。
【0048】
ステップS201;
まず、時系列情報分離解析部18は、各時刻tでの指のx、y座標を示す時系列情報i(x,y;t)を用いて、上記学習済モデルに基づき、時刻t毎に、成功ラベルl
sの成功度スコアP(x,y,;l
s,t)と、失敗ラベルl
fの失敗度スコアP(x,y,;l
f,t)と、をそれぞれ算出する。例えば、成功ラベルl
sについては、P(x,y,;l
s,t
1)=0.94、P(x,y,;l
s,t
2)=0.97、…、のように成功度スコアを算出し、失敗ラベルl
fについては、P(x,y,;l
f,t
1)=0.06、P(x,y,;l
f,t
2)=0.03、…、のように失敗度スコアを算出する。
【0049】
ステップS202;
次に、分離情報分類結果推定部19は、各時刻tの成功度スコアP(x,y,;l
s,t)を全ての時刻tで総和して、成功ラベルl
sの推定スコアP(l
s)を算出するとともに、各時刻tの失敗度スコアP(x,y,;l
f,t)を全ての時刻tで総和して、失敗ラベルl
fの推定スコアP(l
f)を算出する。上記例の場合、成功ラベルl
sの推定スコアP(l
s)は、0.94+0.97+…、となり、失敗ラベルl
fの推定スコアP(l
f)は、0.06+0.03+…、となる。
【0050】
ステップS203;
最後に、分離情報分類結果推定部19は、成功ラベルl
sの推定スコアP(l
s)と失敗ラベルl
fの推定スコアP(l
f)とを比較して、最も高い推定スコアP(l)を分類結果として出力する。このとき、任意の重みwをラベルl毎に掛け合わせてもよい。
【0051】
(動作例2)
動作例2では、識別学習等に基づき分析する場合について説明する。
図10は、分析装置1で行う分析処理動作(動作例2)の処理フローを示す図である。動作例2で用いる学習済モデルは、分析結果が教師ラベルl(成功フラグl
s、失敗フラグl
f)として付与された時系列情報を元に、各時刻tにおける指のx,y座標の情報を用いて時刻tの座標に対する識別モデルP(l;x,y,t)を識別学習によって作成しておく。この識別学習は、既存技術であるSVM(support vector machine)やロジスティック回帰モデル等を用いて処理することが可能である。
【0052】
ステップS301;
まず、時系列情報分離解析部18は、各時刻tでの指のx,y座標を示す時系列情報i(x,y,t)を用いて、上記学習済モデルに基づき、全ての時刻tで総和した成功ラベルl
sの推定スコアP(l
s;x,y,t)と、全ての時刻tで総和した失敗ラベルl
fの推定スコアP(l
f;x,y,t)と、をそれぞれ算出する。上記例の場合、成功ラベルl
sの推定スコアP(l
s;x,y,t)は、0.94+0.97+…、となり、失敗ラベルl
fの推定スコアP(l
f;x,y,t)は、0.06+0.03+…、となる。
【0053】
ステップS302;
その後、分離情報分類結果推定部19は、成功ラベルl
sの推定スコアP(l
s;x,y,t)と失敗ラベルl
fの推定スコア(l
f;x,y,t)とを比較して、最も高い推定スコアP(l)を分類結果として出力する。このとき、任意の重みwをラベルl毎に掛け合わせてもよい。
【0054】
(効果)
第2の実施形態によれば、分析装置1が、時系列情報のタイムスタンプ毎に指の位置移動の動作結果を任意の分類結果に分類する時系列情報分離解析部18と、タイムスタンプ毎の分類結果を用いて、画像・動画に対する指の位置移動の動作結果を総合的に分類する分離情報分類結果推定部19と、を更に備えるので、時系列の途中で急な変化が生じる場合でも、頑健に分類することができる。
【0055】
<その他>
本実施形態で説明した分析装置1は、CPU、メモリ、ハードディスク等を備えたコンピュータで実現可能である。分析装置1としてコンピュータを機能させるための分析プログラム、その分析プログラムの記憶媒体を作成することも可能である。
【解決手段】分析装置1は、画像・動画Pに対して行うべき指の移動動作を指示する指示テキストに係るテキスト情報中間表現ベクトルV1を出力する指示テキスト解析部11と、画像・動画Pに対して移動させた指の位置を時系列に示す時系列情報iに係る時系列情報中間表現ベクトルV2を出力する時系列情報時系列解析部12と、画像・動画Pと時系列情報iとの重畳情報に係る同時情報中間表現ベクトルV3を出力する時系列情報同時解析部13と、画像・動画Pに係る画像・動画情報中間表現ベクトルV4を出力する画像解析部14と、テキスト情報中間表現ベクトルV1と時系列情報中間表現ベクトルV2と同時情報中間表現ベクトルV3と画像・動画情報中間表現ベクトルV4とを用いて、画像・動画Pに対する指の位置移動の動作結果を任意の分類結果に分類する情報統合部15と、を備える。