特許6554223 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フューチャー株式会社の特許一覧

特許6554223分析装置、分析方法及び分析プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6554223

(24)【登録日】2019年7月12日

(45)【発行日】2019年7月31日

(54)【発明の名称】分析装置、分析方法及び分析プログラム

(51)【国際特許分類】

G06F 16/903 20190101AFI20190722BHJP

【ＦＩ】

G06F16/903

【請求項の数】7

【全頁数】13

(21)【出願番号】特願2018-220315(P2018-220315)

(22)【出願日】2018年11月26日

【審査請求日】2018年11月26日

【早期審査対象出願】

(73)【特許権者】

【識別番号】399059049

【氏名又は名称】フューチャー株式会社

(74)【代理人】

【識別番号】100083806

【弁理士】

【氏名又は名称】三好秀和

(74)【代理人】

【識別番号】100101247

【弁理士】

【氏名又は名称】高橋俊一

(74)【代理人】

【識別番号】100095500

【弁理士】

【氏名又は名称】伊藤正和

(74)【代理人】

【識別番号】100098327

【弁理士】

【氏名又は名称】高松俊雄

(72)【発明者】

【氏名】貞光九月

【審査官】西村直史

(56)【参考文献】

【文献】特開２０１８−１８０６２８（ＪＰ，Ａ）

【文献】特開２０１４−１０６８８１（ＪＰ，Ａ）

【文献】西垣正勝、梅本功太、山本匠，“Auto-ID Solution なぞり書き認証方式の提案とその認証精度に関する検討”，月刊自動認識，日本，日本工業出版株式会社，２０１０年７月１０日，第２３巻、第８号，ｐ．３３−４１

【文献】中村友昭ほか，ＳＶＭとＣＲＦに基づくロボットによる自然言語理解，第３２回日本ロボット学会学術講演会，日本ロボット学会，２０１４年９月４日，p.1649-1652

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

(57)【特許請求の範囲】

【請求項1】

画像又は動画に係る第１の中間表現ベクトルを出力する画像解析部と、
前記画像又は動画に対して移動させた身体部位の位置を時系列に示す時系列情報に係る第２の中間表現ベクトルを出力する時系列情報時系列解析部と、
前記画像又は動画と前記時系列情報とを重畳させた重畳情報に係る第３の中間表現ベクトルを出力する時系列情報同時解析部と、
前記第１の中間表現ベクトルと前記第２の中間表現ベクトルと前記第３の中間表現ベクトルとを用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を任意の分類結果に分類する情報統合部と、
を備えることを特徴とする分析装置。

【請求項2】

前記画像又は動画に対して行うべき身体部位の移動動作を指示する指示テキストに係る第４の中間表現ベクトルを出力する指示テキスト解析部を更に備え、
前記情報統合部は、
前記第４の中間表現ベクトルを更に用いて、前記身体部位の位置移動の動作結果を任意の分類結果に分類することを特徴とする請求項１に記載の分析装置。

【請求項3】

前記時系列情報のタイムスタンプ毎に前記身体部位の位置移動の動作結果を任意の分類結果に分類する時系列情報分離解析部と、
前記タイムスタンプ毎の分類結果を用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を総合的に分類する分離情報分類結果推定部と、
を更に備えることを特徴とする請求項１又は２に記載の分析装置。

【請求項4】

分析装置で行う分析方法において、
画像又は動画に係る第１の中間表現ベクトルと、前記画像又は動画に対して移動させた身体部位の位置を時系列に示す時系列情報に係る第２の中間表現ベクトルと、前記画像又は動画と前記時系列情報とを重畳させた重畳情報に係る第３の中間表現ベクトルと、を出力する第１のステップと、
前記第１の中間表現ベクトルと前記第２の中間表現ベクトルと前記第３の中間表現ベクトルとを用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を任意の分類結果に分類する第２のステップと、
を行うことを特徴とする分析方法。

【請求項5】

前記第１のステップでは、前記画像又は動画に対して行うべき身体部位の移動動作を指示する指示テキストに係る第４の中間表現ベクトルを更に出力し、
前記第２のステップでは、
前記第４の中間表現ベクトルを更に用いて、前記身体部位の位置移動の動作結果を任意の分類結果に分類することを特徴とする請求項４に記載の分析方法。

【請求項6】

前記時系列情報のタイムスタンプ毎に前記身体部位の位置移動の動作結果を任意の分類結果に分類するステップと、
前記タイムスタンプ毎の分類結果を用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を総合的に分類するステップと、
を更に行うことを特徴とする請求項４又は５に記載の分析方法。

【請求項7】

請求項１乃至３のいずれかに記載の分析装置としてコンピュータを機能させることを特徴とする分析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、時系列情報を分析する技術に関する。

【背景技術】

【0002】

従来、指や顔の向き等、ユーザが行った連続的な動作（時系列情報）が意図した動作である否か等を分類することが行われている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】笠原、外３名、“環境制約を用いたGPS移動軌跡からの旅行者状態推定”、京都大学学術情報メディアセンター、人工知能学会全国大会、2015年、［online］、［平成30年10月24日検索］、インターネット、＜http://www.mm.media.kyoto-u.ac.jp/wp-content/uploads/2015/06/jsai2015_kasahara-2.pdf＞

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の方法では、指や顔の連続的な動作である時系列情報のみを用いてユーザ動作を分類していたため、その分類精度は低いという課題があった。例えば、非特許文献１では、旅行者の状態推定を行う場合、ユーザの位置移動に基づくＧＰＳ移動軌跡のみを用いる方法が開示されている。

【0005】

本発明は、上記事情を鑑みてなされたものであり、ユーザ動作の分類精度を改善することを目的とする。

【課題を解決するための手段】

【0006】

以上の課題を解決するため、本発明に係る分析装置は、画像又は動画に係る第１の中間表現ベクトルを出力する画像解析部と、前記画像又は動画に対して移動させた身体部位の位置を時系列に示す時系列情報に係る第２の中間表現ベクトルを出力する時系列情報時系列解析部と、前記画像又は動画と前記時系列情報とを重畳させた重畳情報に係る第３の中間表現ベクトルを出力する時系列情報同時解析部と、前記第１の中間表現ベクトルと前記第２の中間表現ベクトルと前記第３の中間表現ベクトルとを用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を任意の分類結果に分類する情報統合部と、を備えることを特徴とする。

【0007】

上記分析装置において、前記画像又は動画に対して行うべき身体部位の移動動作を指示する指示テキストに係る第４の中間表現ベクトルを出力する指示テキスト解析部を更に備え、前記情報統合部は、前記第４の中間表現ベクトルを更に用いて、前記身体部位の位置移動の動作結果を任意の分類結果に分類することを特徴とする。

【0008】

上記分析装置において、前記時系列情報のタイムスタンプ毎に前記身体部位の位置移動の動作結果を任意の分類結果に分類する時系列情報分離解析部と、前記タイムスタンプ毎の分類結果を用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を総合的に分類する分離情報分類結果推定部と、を更に備えることを特徴とする。

【0009】

本発明に係る分析方法は、分析装置で行う分析方法において、画像又は動画に係る第１の中間表現ベクトルと、前記画像又は動画に対して移動させた身体部位の位置を時系列に示す時系列情報に係る第２の中間表現ベクトルと、前記画像又は動画と前記時系列情報とを重畳させた重畳情報に係る第３の中間表現ベクトルと、を出力する第１のステップと、前記第１の中間表現ベクトルと前記第２の中間表現ベクトルと前記第３の中間表現ベクトルとを用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を任意の分類結果に分類する第２のステップと、を行うことを特徴とする。
上記分析方法において、前記第１のステップでは、前記画像又は動画に対して行うべき身体部位の移動動作を指示する指示テキストに係る第４の中間表現ベクトルを更に出力し、前記第２のステップでは、前記第４の中間表現ベクトルを更に用いて、前記身体部位の位置移動の動作結果を任意の分類結果に分類することを特徴とする。
上記分析方法において、前記時系列情報のタイムスタンプ毎に前記身体部位の位置移動の動作結果を任意の分類結果に分類するステップと、前記タイムスタンプ毎の分類結果を用いて、前記画像又は動画に対する前記身体部位の位置移動の動作結果を総合的に分類するステップと、を更に行うことを特徴とする。

【0010】

本発明に係る分析プログラムは、上記分析装置としてコンピュータを機能させることを特徴とする。

【発明の効果】

【0011】

本発明によれば、ユーザ動作の分類精度を向上することができる。

【図面の簡単な説明】

【0012】

【図1】第１の実施形態に係る分析装置の機能ブロック構成を示す図である。

【図2】分析装置で行う分析処理動作の処理フローを示す図である。

【図3】テキスト情報中間表現ベクトルの生成イメージを示す図である。

【図4】時系列情報中間表現ベクトルの生成イメージを示す図である。

【図5】同時情報中間表現ベクトルの生成イメージを示す図である。

【図6】画像・動画情報中間表現ベクトルの生成イメージを示す図である。

【図7】身体部位の位置移動の動作結果の分類例を示す図である。

【図8】第２の実施形態に係る分析装置の機能ブロック構成を示す図である。

【図9】分析装置で行う分析処理動作（動作例１）の処理フローを示す図である。

【図10】分析装置で行う分析処理動作（動作例２）の処理フローを示す図である。

【発明を実施するための形態】

【0013】

以下、本発明を実施する一実施の形態について図面を用いて説明する。

【0014】

＜第１の実施形態＞
第１の実施形態では、画面に表示された画像・動画に対する時系列情報（指や顔の向き等の移動位置）の全体を分析することとし、本発明の第１の特徴として、身体部位（指、顔の向き等）の移動位置の時系列情報に加えて、画面に表示された画像・動画の情報を併用する。

【0015】

また、第１の実施形態では、指示が与えられた条件下において、画面に表示された画像・動画に対する時系列情報の全体を分析することとし、本発明の第２の特徴として、身体部位の時系列情報に加えて、画面に表示された画像・動画に対して行うべき身体部位の移動動作を指示する指示テキスト（コントロール文）の情報を併用する。

【0016】

すなわち、上記第１の特徴と第２の特徴では、時系列情報のみではなく、画像・動画の情報や指示テキストの情報を併用するので、ユーザ動作の分類精度を向上することが可能となる。

【0017】

（分析装置の構成）
図１は、第１の実施形態に係る分析装置１の機能ブロック構成を示す図である。分析装置１は、図１に示すように、指示テキスト解析部１１と、時系列情報時系列解析部１２と、時系列情報同時解析部１３と、画像解析部１４と、情報統合部１５と、学習済モデル記憶部１６と、表示部１７と、を備えて構成される。分析装置１は、例えば、スマートフォン端末、携帯電話端末、サーバ装置である。

【0018】

指示テキスト解析部１１は、指示テキストＴを入力し、学習済モデルを用いて、指示テキストＴに係るテキスト情報中間表現ベクトル（第４の中間表現ベクトル）Ｖ１を出力する機能を備える。テキスト情報中間表現ベクトルＶ１は、指示テキストＴの特徴量を持つベクトルである。指示テキストＴは、例えば表示部１７の画面に表示されており、同画面に表示された画像・動画Ｐに対してユーザが行うべき身体部位（指、顔の向き等）の移動動作命令を示す情報である。

【0019】

時系列情報時系列解析部１２は、画像・動画Ｐに対してユーザが移動させた各時刻ｔでの身体部位の画面上のｘ，ｙ座標を示す時系列情報ｉ（ｔ，ｘ，ｙ）を入力し、学習済モデルを用いて、時系列情報ｉに係る時系列情報中間表現ベクトル（第２の中間表現ベクトル）Ｖ２を出力する機能を備える。時系列情報中間表現ベクトルＶ２は、時系列情報ｉの特徴量を持つベクトルである。

【0020】

時系列情報同時解析部１３は、時系列情報ｉ（ｔ，ｘ，ｙ）と、画像・動画Ｐの情報と、を入力し、学習済モデルを用いて、時系列情報ｉと画像・動画情報Ｐとを重畳させた重畳情報に係る同時情報中間表現ベクトルＶ３を出力する機能を備える。同時情報中間表現ベクトルＶ３は、時系列情報ｉと画像・動画情報Ｐとの両方の特徴量を持つベクトルである。

【0021】

画像解析部１４は、画像・動画Ｐの情報を入力し、学習済モデルを用いて、画像・動画情報Ｐに係る画像・動画情報中間表現ベクトル（第１の中間表現ベクトル）Ｖ４を出力する機能を備える。画像・動画情報中間表現ベクトルＶ４は、画像・動画情報Ｐの特徴量を持つベクトルである。なお、画像・動画とは、静止画である画像と動画とのうちいずれかでもよいし、画像と動画の両方でもよい。

【0022】

情報統合部１５は、テキスト情報中間表現ベクトルＶ１と、時系列情報中間表現ベクトルＶ２と、同時情報中間表現ベクトルＶ３と、画像・動画情報中間表現ベクトルＶ４と、タイプ属性情報Ａと、を入力し、学習済モデルを用いて、画像・動画Ｐに対する身体部位の位置移動の動作結果を任意の分類結果に分類する機能を備える。タイプ属性情報とは、指示テキストＴに示された身体部位の移動動作の規則（動作のルール）を示す情報である。

【0023】

学習済モデル記憶部１６は、学習済モデルを記憶しておく機能を備える。学習済モデルとは、指示テキスト（Ｔ）、画像・動画（Ｐ）、移動軌跡データ（時系列情報ｉ）等の入力セットに対して任意の分類結果が紐づいたペアの集合である学習データを元に学習した結果に基づき、ある特徴を有する指示テキストＴ、画像・動画Ｐ、移動軌跡データｉを、学習データ内の上記任意の分類結果のいずれかと結びつける（分類する）ためのモデルである。

【0024】

例えば、学習済モデルは、「「る」をなぞる」という指示テキストＴ、「る」の画像Ｐ、指や顔の向きの移動軌跡データｉを学習データとして入力としたとき、ユーザが「「る」という画像をなぞった」又は「「る」という画像をなぞらなかった」という分類結果のペアを成すデータがある場合、入力した学習データ、又は当該学習データに近い特徴を持つ未知のデータを、「「る」をなぞった」又は「「る」をなぞらなかった」に分類するモデルである。

【0025】

表示部１７は、ユーザに対して身体部位の動作を促すための身体動作誘導プログラムの指示に基づき、身体部位の動作を促すための背景となる画像・動画Ｐと、身体部位の移動動作を指示する指示テキストＴと、を画面に表示する機能を備える。

【0026】

上述した複数の機能部は、全ての機能部（１１〜１７）を一つの装置に実装してもよいし、複数の装置に実装してもよい。複数の装置に実装する例としては、スマートフォン端末の画面及び表示機能を用いて表示部１７を実現し、表示部１７以外の各機能部（１１〜１６）をサーバ装置に実装して、スマートフォン端末とサーバ装置とに通信機能をそれぞれ具備させる実装形態が考えられる。

【0027】

（分析装置の動作）
次に、図２〜図７を参照しながら、分析装置１で行う分析処理動作について説明する。図２は、分析装置１で行う分析処理動作の処理フローを示す図である。図３は、テキスト情報中間表現ベクトルＶ１の生成イメージを示す図である。図４は、時系列情報中間表現ベクトルＶ２の生成イメージを示す図である。図５は、同時情報中間表現ベクトルＶ３の生成イメージを示す図である。図６は、画像・動画情報中間表現ベクトルＶ４の生成イメージを示す図である。図７は、身体部位の位置移動の動作結果の分類例を示す図である。なお、図４〜図６では、各中間表現ベクトルの値を「…」で略記している。なお、本動作例では、学習済モデルのアルゴリズムとして、単語列等のデータを扱うＬＳＴＭ（Long Short Term Memory）、画像系のデータを扱うＣＮＮ（Convolutional Neural Network）等を用いる。

【0028】

ステップＳ１０１；
上述した身体動作誘導プログラム（以下、単にプログラム）が起動すると、指示テキスト解析部１１は、プログラムから指示テキストＴを取得し、学習済モデルの一部であるＬＳＴＭ等を用いて、任意長のベクトル化を行う。例えば、プログラムが「複数の文字のうち「る」という文字を指で早くなぞる」というゲームである場合、図３に示すように、指示テキストＴに含まれる各文字を学習済モデル内の各ＬＳＴＭへそれぞれ入力し、各ＬＳＴＭで各文字をそれぞれ学習することにより、５次元のベクトルに変換する。その後、指示テキスト解析部１１は、変換したベクトルをテキスト情報中間表現ベクトルＶ１として情報統合部１５へ出力する。なお、学習済モデルであるＬＳＴＭ、ＣＮＮ等で文字、画像・動画、時系列情報の学習を行いベクトルに変換する処理自体は、既存技術である。

【0029】

ステップＳ１０２；
ステップＳ１０１と同時に、時系列情報時系列解析部１２は、表示部１７に表示されている画像・動画Ｐに対してユーザが移動させた指の時系列情報ｉ（ｔ，ｘ，ｙ）を取得し、学習済モデルの一部であるＬＳＴＭ等を用いて、任意長のベクトル化を行う。例えば、図４に示すように、各時系列情報ｉ（ｔ，ｘ，ｙ）を学習済モデル内の各ＬＳＴＭへそれぞれ入力し、各ＬＳＴＭで各時系列情報ｉをそれぞれ学習することにより、５次元のベクトルに変換する。その後、時系列情報時系列解析部１２は、変換したベクトルを時系列情報中間表現ベクトルＶ２として情報統合部１５へ出力する。

【0030】

ステップＳ１０３；
ステップＳ１０１と同時に、時系列情報同時解析部１３は、時系列情報ｉ（ｔ，ｘ，ｙ）と画像・動画情報Ｐとを取得し、時系列情報ｉと画像・動画情報Ｐとを同じ時間空間で重畳して、学習済モデルの一部であるＣＮＮやＬＳＴＭを用いて解析し、同時情報中間表現ベクトルＶ３を得る。その後、時系列情報同時解析部１３は、同時情報中間表現ベクトルＶ３を情報統合部１５へ出力する。

【0031】

例えば、背景画面が画像（「る」の文字画像等）である場合、図５に示すように、時系列情報ｉを画像Ｐ上に画像的に重畳し、重畳した重畳画像を学習済モデル内のＣＮＮで解析して、同時情報中間表現ベクトルＶ３に変換する。また、背景画面が動画（「る」の文字が書き順に沿って次第に表示される動画等）である場合、時系列情報ｉを動画Ｐ上に画像的に重畳して、重畳した重畳画像を学習済モデル内のＣＮＮ及びＬＳＴＭで解析して、同時情報中間表現ベクトルＶ３に変換する。また、背景画像に画像と動画の両方が用いられている場合、時系列情報ｉと画像及び動画情報Ｐとを結合し、学習済モデル内のＬＳＴＭで解析して、同時情報中間表現ベクトルＶ３に変換する。

【0032】

ステップＳ１０４；
ステップＳ１０１と同時に、画像解析部１４は、画像・動画情報Ｐを取得し、学習済モデルの一部であるＣＮＮやＬＳＴＭを用いて解析し、画像・動画情報中間表現ベクトルＶ４を得る。その後、画像解析部１４は、画像・動画情報中間表現ベクトルＶ４を情報統合部１５へ出力する。

【0033】

例えば、背景画面が画像である場合、画像解析部１４は、図６に示すように、画像Ｐを学習済モデル内のＣＮＮで解析して、画像・動画情報中間表現ベクトルＶ４に変換する。また、背景画面が動画である場合、画像解析部１４は、動画Ｐを学習済モデル内のＣＮＮ及びＬＳＴＭで解析して、画像・動画情報中間表現ベクトルＶ４に変換する。

【0034】

ステップＳ１０５；
その後、情報統合部１５は、図７に示すように、テキスト情報中間表現ベクトルＶ１と、時系列情報中間表現ベクトルＶ２と、同時情報中間表現ベクトルＶ３と、画像・動画情報中間表現ベクトルＶ４と、タイプ属性情報Ａと、を入力し、全結合層やＳｏｆｔｍａｘ関数等を用いて、画像・動画Ｐに対する指の位置移動の動作結果に係る成功スコアと失敗スコアとをそれぞれを算出し、それらのスコア値の大小に基づき指の位置移動の動作結果を成功又は失敗に分類する。なお、タイプ属性情報Ａとは、例えば「なぞる＝１」であり、１ホットベクトル（1 hot vector）等のベクトル表現として与える。

【0035】

最も単純な例としては、情報統合部１５は、テキスト情報中間表現ベクトルＶ１を｜ｖ１｜次元のベクトル、時系列情報中間表現ベクトルＶ２を｜ｖ２｜次元のベクトル、同時情報中間表現ベクトルＶ３を｜ｖ３｜次元のベクトル、画像・動画情報中間表現ベクトルＶ４を｜ｖ４｜次元のベクトル、タイプ属性情報Ａを｜ａ｜次元のベクトルとして、全結合層でそれらを結合（ｃｏｎｃａｔ）することで、｛｜ｖ１｜＋｜ｖ２｜＋｜ｖ３｜＋｜ｖ４｜＋｜ａ｜｝次元の新しいベクトルＶ’を得る。これに対し、出力する分類クラス数を例えば２つとした場合、全結合層の重みパラメータＷは、｛｜ｖ１｜＋｜ｖ２｜＋｜ｖ３｜＋｜ｖ４｜＋｜ａ｜｝行×２列の行列として与えられる。このとき、Ｓｏｆｔｍａｘ（Ｖ’Ｗ）を計算することにより、２つの分類結果の確率を算出することができる。例えば、図７に示したように、成功スコアの確率が０．９５、失敗スコアの確率が０．０５と算出される。この場合、情報統合部１５は、成功スコアの方が失敗スコアよりも高いので、ユーザが行った指の位置移動の動作結果を成功に分類する。

【0036】

なお、分類するクラスとしては、成功スコアと失敗クラスの２つ以外にも、他のクラスを定義して３つ以上のクラスを用いることも可能である。クラスの数及び定義は、一般にプログラムで指示される動作方法等に応じて異なる。

【0037】

（ベクトル変換処理）
ステップＳ１０１〜ステップＳ１０４で行われた文字、画像・動画、時系列情報をＬＳＴＭ、ＣＮＮ等で学習してベクトルに変換する処理は、ステップＳ１０１で述べたように既存技術である。例えば、ＣＮＮについて概説する。ＣＮＮでは、畳み込み層が、前段の層（原画像又はプーリング層による処理後の画像）で隣接画素を含む一定の画素領域に対して順次フィルタ処理することで特徴マップを算出し、プーリング層が、畳込み層から出力された特徴マップを縮小して新たな特徴マップを算出する。そして、全結合層が、プーリング層から出力された特徴マップのデータを元にｎ次元のベクトルを出力する。これにより、入力画像の特徴を維持しながら抽象化された画像に対応するベクトルを算出することができる。

【0038】

（分析装置の動作の変形例１）
上述した動作では、４つ全ての中間ベクトル（Ｖ１〜Ｖ４）を用いる場合を例に説明したが、情報統合部１５は、時系列情報中間表現ベクトルＶ２に加えて、テキスト情報中間表現ベクトルＶ１と、同時情報中間表現ベクトルＶ３と、画像・動画情報中間表現ベクトルＶ４とのうちいずれか１つ以上を選択的に併用することも可能である。例えば、時系列情報中間表現ベクトルＶ２と画像・動画情報中間表現ベクトルＶ４との２つを用いてもよいし、時系列情報中間表現ベクトルＶ２とテキスト情報中間表現ベクトルＶ１と画像・動画情報中間表現ベクトルＶ４との３つを用いてもよい。

【0039】

（分析装置の動作の変形例２）
上述した動作では、「る」という文字画像を指でなぞる場合を例に説明したが、文字以外に、例えば、画像である地図について、ＧＰＳを身に着けて出発点から到達点までの経路を移動し、意図した経路（例えば、最短経路）を移動することができたか否かの移動結果を分類する場合にも適用できる。また、「なぞる」というタイプ属性以外に、「タッチする」等の場合も適用できる。更に、画像以外に、例えば、林檎が移動している動画について、移動している林檎を指で追跡し、林檎の移動軌跡に対して指が正しく追跡できたか否かの追跡結果を分類する場合にも適用できる。その他、分析装置１が顔の向きを捉える機能を備える場合、顔の向きに基づく移動軌跡にも応用可能である。

【0040】

（効果）
第１の実施形態によれば、分析装置１が、画像・動画Ｐに係る画像・動画情報中間表現ベクトルＶ４を出力する画像解析部１４と、画像・動画Ｐに対して移動させた指の位置を時系列に示す時系列情報ｉに係る時系列情報中間表現ベクトルＶ２を出力する時系列情報時系列解析部１２と、画像・動画情報中間表現ベクトルＶ４と時系列情報中間表現ベクトルＶ２とを用いて、画像・動画Ｐに対する指の位置移動の動作結果を任意の分類結果に分類する情報統合部１５と、を備えるので、ユーザ動作の分類精度を向上することができる。

【0041】

また、第１の実施形態によれば、分析装置１は、画像・動画に対して行うべき指の移動動作を指示する指示テキストに係るテキスト情報中間表現ベクトルＶ１を出力する指示テキスト解析部１１を更に備え、情報統合部１５は、テキスト情報中間表現ベクトルＶ１を更に用いて指の位置移動の動作結果を任意の分類結果に分類するので、ユーザ動作の分類精度を更に向上することができる。

【0042】

＜第２の実施形態＞
第１の実施形態では、時系列情報の全体を分析する場合について説明した。一方、身体部位の移動途中で急な変化（例えば、指示内容の変化）が生じる場合、時系列情報の全体を通してユーザ動作を分類するよりも、時系列情報の全体を部分的に分け、各部分の時系列情報を用いてユーザ動作を総合的に分類した方が、より適切な分類結果が得られる場合がある。

【0043】

そこで、第２の実施形態では、画像・動画に対する時系列情報を部分的に分析することとし、本発明の第３の特徴として、身体部位の位置移動の動作を任意の分類結果に分類する処理をタイムスタンプ毎に統計し、タイムスタンプ毎の統計量を用いてユーザ動作を総合的に分類する。タイムスタンプ毎の統計量を用いるので、身体部位の移動途中で急な変化が生じる場合でも頑健に分類することが可能となる。

【0044】

（分析装置の構成）
図８は、第２の実施形態に係る分析装置１の機能ブロック構成を示す図である。分析装置１は、図８に示すように、時系列情報分離解析部１８と、分離情報分類結果推定部１９と、を備えて構成される。分析装置１は、図１に示した第１の実施形態に係る分析装置１に組み合わせて構成してもよい。

【0045】

時系列情報分離解析部１８は、時系列情報ｉのタイムスタンプ（時刻ｔ）毎に、身体部位の位置移動の動作結果を任意の分類結果に分類する機能を備える。

【0046】

分離情報分類結果推定部１９は、タイムスタンプ（時刻ｔ）毎の分類結果を用いて、画像・動画に対する身体部位の位置移動の動作結果を総合的に分類する機能を備える。

【0047】

（分析装置の動作）
（動作例１）
動作例１では、カーネル密度推定等に基づき分析する場合について説明する。図９は、分析装置１で行う分析処理動作（動作例１）の処理フローを示す図である。動作例１で用いる学習済モデルは、分類結果が教師ラベルｌ（成功フラグｌ_ｓ、失敗フラグｌ_ｆ）として付与された時系列情報を元に、ラベルｌ毎に、各時刻ｔにおけるｘ，ｙ座標の情報を用いて時刻ｔのｘ，ｙ座標に対する確率分布モデルＰ（ｘ，ｙ；ｔ）をカーネル密度推定法で予め作成しておく。

【0048】

ステップＳ２０１；
まず、時系列情報分離解析部１８は、各時刻ｔでの指のｘ、ｙ座標を示す時系列情報ｉ（ｘ，ｙ；ｔ）を用いて、上記学習済モデルに基づき、時刻ｔ毎に、成功ラベルｌ_ｓの成功度スコアＰ（ｘ，ｙ，；ｌ_ｓ，ｔ）と、失敗ラベルｌ_ｆの失敗度スコアＰ（ｘ，ｙ，；ｌ_ｆ，ｔ）と、をそれぞれ算出する。例えば、成功ラベルｌ_ｓについては、Ｐ（ｘ，ｙ，；ｌ_ｓ，ｔ_１）＝０．９４、Ｐ（ｘ，ｙ，；ｌ_ｓ，ｔ_２）＝０．９７、…、のように成功度スコアを算出し、失敗ラベルｌ_ｆについては、Ｐ（ｘ，ｙ，；ｌ_ｆ，ｔ_１）＝０．０６、Ｐ（ｘ，ｙ，；ｌ_ｆ，ｔ_２）＝０．０３、…、のように失敗度スコアを算出する。

【0049】

ステップＳ２０２；
次に、分離情報分類結果推定部１９は、各時刻ｔの成功度スコアＰ（ｘ，ｙ，；ｌ_ｓ，ｔ）を全ての時刻ｔで総和して、成功ラベルｌ_ｓの推定スコアＰ（ｌ_ｓ）を算出するとともに、各時刻ｔの失敗度スコアＰ（ｘ，ｙ，；ｌ_ｆ，ｔ）を全ての時刻ｔで総和して、失敗ラベルｌ_ｆの推定スコアＰ（ｌ_ｆ）を算出する。上記例の場合、成功ラベルｌ_ｓの推定スコアＰ（ｌ_ｓ）は、０．９４＋０．９７＋…、となり、失敗ラベルｌ_ｆの推定スコアＰ（ｌ_ｆ）は、０．０６＋０．０３＋…、となる。

【0050】

ステップＳ２０３；
最後に、分離情報分類結果推定部１９は、成功ラベルｌ_ｓの推定スコアＰ（ｌ_ｓ）と失敗ラベルｌ_ｆの推定スコアＰ（ｌ_ｆ）とを比較して、最も高い推定スコアＰ（ｌ）を分類結果として出力する。このとき、任意の重みｗをラベルｌ毎に掛け合わせてもよい。

【0051】

（動作例２）
動作例２では、識別学習等に基づき分析する場合について説明する。図１０は、分析装置１で行う分析処理動作（動作例２）の処理フローを示す図である。動作例２で用いる学習済モデルは、分析結果が教師ラベルｌ（成功フラグｌ_ｓ、失敗フラグｌ_ｆ）として付与された時系列情報を元に、各時刻ｔにおける指のｘ，ｙ座標の情報を用いて時刻ｔの座標に対する識別モデルＰ（ｌ；ｘ，ｙ，ｔ）を識別学習によって作成しておく。この識別学習は、既存技術であるＳＶＭ（support vector machine）やロジスティック回帰モデル等を用いて処理することが可能である。

【0052】

ステップＳ３０１；
まず、時系列情報分離解析部１８は、各時刻ｔでの指のｘ，ｙ座標を示す時系列情報ｉ（ｘ，ｙ，ｔ）を用いて、上記学習済モデルに基づき、全ての時刻ｔで総和した成功ラベルｌ_ｓの推定スコアＰ（ｌ_ｓ；ｘ，ｙ，ｔ）と、全ての時刻ｔで総和した失敗ラベルｌ_ｆの推定スコアＰ（ｌ_ｆ；ｘ，ｙ，ｔ）と、をそれぞれ算出する。上記例の場合、成功ラベルｌ_ｓの推定スコアＰ（ｌ_ｓ；ｘ，ｙ，ｔ）は、０．９４＋０．９７＋…、となり、失敗ラベルｌ_ｆの推定スコアＰ（ｌ_ｆ；ｘ，ｙ，ｔ）は、０．０６＋０．０３＋…、となる。

【0053】

ステップＳ３０２；
その後、分離情報分類結果推定部１９は、成功ラベルｌ_ｓの推定スコアＰ（ｌ_ｓ；ｘ，ｙ，ｔ）と失敗ラベルｌ_ｆの推定スコア（ｌ_ｆ；ｘ，ｙ，ｔ）とを比較して、最も高い推定スコアＰ（ｌ）を分類結果として出力する。このとき、任意の重みｗをラベルｌ毎に掛け合わせてもよい。

【0054】

（効果）
第２の実施形態によれば、分析装置１が、時系列情報のタイムスタンプ毎に指の位置移動の動作結果を任意の分類結果に分類する時系列情報分離解析部１８と、タイムスタンプ毎の分類結果を用いて、画像・動画に対する指の位置移動の動作結果を総合的に分類する分離情報分類結果推定部１９と、を更に備えるので、時系列の途中で急な変化が生じる場合でも、頑健に分類することができる。

【0055】

＜その他＞
本実施形態で説明した分析装置１は、ＣＰＵ、メモリ、ハードディスク等を備えたコンピュータで実現可能である。分析装置１としてコンピュータを機能させるための分析プログラム、その分析プログラムの記憶媒体を作成することも可能である。

【符号の説明】

【0056】

１…分析装置
１１…指示テキスト解析部
１２…時系列情報時系列解析部
１３…時系列情報同時解析部
１４…画像解析部
１５…情報統合部
１６…学習済モデル記憶部
１７…表示部
１８…時系列情報分離解析部
１９…分離情報分類結果推定部

【要約】

【課題】ユーザ動作の分類精度を改善する。
【解決手段】分析装置１は、画像・動画Ｐに対して行うべき指の移動動作を指示する指示テキストに係るテキスト情報中間表現ベクトルＶ１を出力する指示テキスト解析部１１と、画像・動画Ｐに対して移動させた指の位置を時系列に示す時系列情報ｉに係る時系列情報中間表現ベクトルＶ２を出力する時系列情報時系列解析部１２と、画像・動画Ｐと時系列情報ｉとの重畳情報に係る同時情報中間表現ベクトルＶ３を出力する時系列情報同時解析部１３と、画像・動画Ｐに係る画像・動画情報中間表現ベクトルＶ４を出力する画像解析部１４と、テキスト情報中間表現ベクトルＶ１と時系列情報中間表現ベクトルＶ２と同時情報中間表現ベクトルＶ３と画像・動画情報中間表現ベクトルＶ４とを用いて、画像・動画Ｐに対する指の位置移動の動作結果を任意の分類結果に分類する情報統合部１５と、を備える。
【選択図】図１

【図1】