IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧

<>
  • 特開-推定装置、推定方法及びプログラム 図1
  • 特開-推定装置、推定方法及びプログラム 図2
  • 特開-推定装置、推定方法及びプログラム 図3
  • 特開-推定装置、推定方法及びプログラム 図4
  • 特開-推定装置、推定方法及びプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023104106
(43)【公開日】2023-07-28
(54)【発明の名称】推定装置、推定方法及びプログラム
(51)【国際特許分類】
   G06T 7/20 20170101AFI20230721BHJP
【FI】
G06T7/20
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022004906
(22)【出願日】2022-01-17
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】五十川 麻理子
(72)【発明者】
【氏名】永井 隆昌
(72)【発明者】
【氏名】小森 英人
(72)【発明者】
【氏名】三上 弾
(72)【発明者】
【氏名】青木 義満
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096HA02
5L096HA09
5L096JA03
5L096KA04
(57)【要約】
【課題】動作パターンの推定の精度を向上させる。
【解決手段】推定対象の動作パターンの推定を行う推定装置であり、目指す結果が推定対象の動作と同一である動作を写す構成動画のデータと、動画の開始からの経過時間を独立変数とし前記推定の結果に対する影響の強さを示す推定影響度を従属変数としグラフがピークを1つ有するM種類の初期影響度関数とに基づき、推定影響度を重みとして構成動画の各フレームを重畳した非線形モーション履歴画像の画像データを初期影響度関数ごとに生成し、各非線形モーション履歴画像に写る動作パターンを推定し、推定された各動作パターンと構成動画に写る動作パターンとの一致の度合を取得し、ピークを与える経過時間がiである初期影響度関数を用いて得られた前記度合を推定対象の動画の経過時間iにおけるフレームの推定影響度として取得し、得られた推定影響度を用いて推定対象の動作パターンを推定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
推定対象の動作のパターンの推定を行う推定装置であって、
目指す結果が前記推定対象の動作と同一である動作を撮影した動画である構成動画のデータと、動画の開始からの経過時間である動画時間を独立変数とし前記推定の結果に対する影響の強さを示す推定影響度を従属変数とする予め定められた関数であってグラフがピークを1つ有する関数であるM種類(Mは2以上の整数)の初期影響度関数と、に基づき、初期影響度関数ごとに、前記推定影響度を重みとして前記構成動画の各フレームを重畳した画像である非線形モーション履歴画像の画像データを生成する画像集合生成処理部と、
前記画像集合生成処理部の生成したM個の非線形モーション履歴画像の画像データそれぞれに対して処理の対象の非線形モーション履歴画像に写る動作のパターンを推定する推定モデルを実行する推定モデル実行部と、
前記推定モデル実行部によって推定されたM個の動作のパターンそれぞれについて、前記構成動画に写る動作のパターンとの一致の度合を取得する一致度取得部と、
前記ピークを与える動画時間がi(iは実数)である前記初期影響度関数を用いて得られた前記度合を、前記推定対象の動画の動画時間iにおけるフレームの推定影響度として取得する推定影響度取得部と、
前記推定影響度取得部が取得した前記推定影響度を用いて前記推定対象の動作のパターンを推定する主推定処理実行部と、
を備える推定装置。
【請求項2】
前記主推定処理実行部は、
前記推定影響度取得部が取得した前記推定影響度を重みとして、前記推定対象の動画の各フレームを重畳した画像である対象画像を生成する対象画像生成部と、
前記対象画像に基づき、前記推定対象の動作のパターンを推定する動作パターン推定部と、
を備える請求項1に記載の推定装置。
【請求項3】
前記推定モデル実行部の実行する前記推定モデルは、前記画像集合生成処理部の生成したM個の前記非線形モーション履歴画像を用いて学習された学習済みの推定モデルである、
請求項1又は2に記載の推定装置。
【請求項4】
前記主推定処理実行部は、前記推定モデル実行部の実行する推定モデルを用いて前記推定対象の動作のパターンを推定する、
請求項1から3のいずれか一項に記載の推定装置。
【請求項5】
前記主推定処理実行部は、前記推定モデル実行部の実行する推定モデルが、前記画像集合生成処理部の生成したM個の前記非線形モーション履歴画像を用いた学習により更新された学習済みの推定モデルである場合に、前記学習による更新が行われる前の推定モデルを用いて前記推定対象の動作のパターンを推定する、
請求項1から3のいずれか一項に記載の推定装置。
【請求項6】
推定対象の動作のパターンの推定を行う推定方法であって、
目指す結果が前記推定対象の動作と同一である動作を撮影した動画である構成動画のデータと、動画の開始からの経過時間である動画時間を独立変数とし前記推定の結果に対する影響の強さを示す推定影響度を従属変数とする予め定められた関数であってグラフがピークを1つ有する関数であるM種類(Mは2以上の整数)の初期影響度関数と、に基づき、初期影響度関数ごとに、前記推定影響度を重みとして前記構成動画の各フレームを重畳した画像である非線形モーション履歴画像の画像データを生成する画像集合生成処理ステップと、
前記画像集合生成処理ステップの生成したM個の非線形モーション履歴画像の画像データそれぞれに対して処理の対象の非線形モーション履歴画像に写る動作のパターンを推定する推定モデルを実行する推定モデル実行ステップと、
前記推定モデル実行ステップによって推定されたM個の動作のパターンそれぞれについて、前記構成動画に写る動作のパターンとの一致の度合を取得する一致度取得ステップと、
前記ピークを与える動画時間がi(iは実数)である前記初期影響度関数を用いて得られた前記度合を、前記推定対象の動画の動画時間iにおけるフレームの推定影響度として取得する推定影響度取得ステップと、
前記推定影響度取得ステップが取得した前記推定影響度を用いて前記推定対象の動作のパターンを推定する主推定処理実行ステップと、
を有する推定方法。
【請求項7】
請求項1から5のいずれか一項に記載の推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定装置、推定方法及びプログラムに関する。
【背景技術】
【0002】
近年、動画に含まれる対象の動きが示す動作のパターンの推定に、機械学習を用いた技術開発が行われている。このような技術では、動画そのもののデータ量が多いことから、学習に必要なデータ量が膨大になり、学習に時間がかかってしまうという問題がある。この問題を解決するため、例えば非特許文献1のように、動画を構成するフレームに所定の情報が付与されたTemporal Templateと呼ばれる時系列データを用いた学習が行われる場合がある。
【0003】
Temporal Templateは時系列のデータであるが、同じような情報を静止画で表現する技術が存在する。それが、例えば非特許文献1に記載のモーション履歴画像(Motion history image:MHI)である。非特許文献1に記載のモーション履歴画像は、近い時刻の情報ほど輝度が高く、過去の情報ほど輝度が薄くなる残像が残ったような動きの軌跡を表示する画像である。すなわち、モーション履歴画像はTemporal Templateの各フレームを輝度の変化を付けて重畳した結果の画像である。したがって、モーション履歴画像を用いることで、映像を入力とするよりも少ない情報量で動き情報に着目した学習が可能になると期待される。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】A. Bobick, J. Davis, “The recognition of human movement using temporal templates,” IEEE Transactions on Pattern Analysis and Machine Intelligence, VOL.23, NO.3, 2001.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1等の従来の技術におけるMHIは、変化が大きいほど、又は、最終フレームに近いほど、動作のパターンである動作パターンの推定にとって重要なフレームであるように、各フレームが重畳された静止画である。しかしながら、動作パターンの推定において、必ずしも大きな変化がある箇所が重要なわけではない。また、動作パターンの推定において、必ずしも最終フレームに近いフレームが重要なわけでもない。そのため、例えばテニスのストロークにおけるストレートショットや、クロスショットのように、類似する動作のパターンの細かな違いを見分け、動作パターンを推定する必要がある場合には、非特許文献1のような、画一的な情報の与え方では、真に重要な対象の動きを適切に推定できない場合がある。すなわち、非特許文献1のような画一的な情報の与え方では、推定の結果に強く影響するタイミングを適切に用いない場合があるため、推定の結果の精度が悪い場合があった。
【0006】
上記事情に鑑み、本発明は、動作パターンの推定の精度を向上させる技術の提供を目的としている。
【課題を解決するための手段】
【0007】
本発明の一態様は、推定対象の動作のパターンの推定を行う推定装置であって、目指す結果が前記推定対象の動作と同一である動作を撮影した動画である構成動画のデータと、動画の開始からの経過時間である動画時間を独立変数とし前記推定の結果に対する影響の強さを示す推定影響度を従属変数とする予め定められた関数であってグラフがピークを1つ有する関数であるM種類(Mは2以上の整数)の初期影響度関数と、に基づき、初期影響度関数ごとに、前記推定影響度を重みとして前記構成動画の各フレームを重畳した画像である非線形モーション履歴画像の画像データを生成する画像集合生成処理部と、前記画像集合生成処理部の生成したM個の非線形モーション履歴画像の画像データそれぞれに対して処理の対象の非線形モーション履歴画像に写る動作のパターンを推定する推定モデルを実行する推定モデル実行部と、前記推定モデル実行部によって推定されたM個の動作のパターンそれぞれについて、前記構成動画に写る動作のパターンとの一致の度合を取得する一致度取得部と、前記ピークを与える動画時間がi(iは実数)である前記初期影響度関数を用いて得られた前記度合を、前記推定対象の動画の動画時間iにおけるフレームの推定影響度として取得する推定影響度取得部と、前記推定影響度取得部が取得した前記推定影響度を用いて前記推定対象の動作のパターンを推定する主推定処理実行部と、を備える推定装置である。
【0008】
推定対象の動作のパターンの推定を行う推定方法であって、目指す結果が前記推定対象の動作と同一である動作を撮影した動画である構成動画のデータと、動画の開始からの経過時間である動画時間を独立変数とし前記推定の結果に対する影響の強さを示す推定影響度を従属変数とする予め定められた関数であってグラフがピークを1つ有する関数であるM種類(Mは2以上の整数)の初期影響度関数と、に基づき、初期影響度関数ごとに、前記推定影響度を重みとして前記構成動画の各フレームを重畳した画像である非線形モーション履歴画像の画像データを生成する画像集合生成処理ステップと、前記画像集合生成処理ステップの生成したM個の非線形モーション履歴画像の画像データそれぞれに対して処理の対象の非線形モーション履歴画像に写る動作のパターンを推定する推定モデルを実行する推定モデル実行ステップと、前記推定モデル実行ステップによって推定されたM個の動作のパターンそれぞれについて、前記構成動画に写る動作のパターンとの一致の度合を取得する一致度取得ステップと、前記ピークを与える動画時間がi(iは実数)である前記初期影響度関数を用いて得られた前記度合を、前記推定対象の動画の動画時間iにおけるフレームの推定影響度として取得する推定影響度取得ステップと、前記推定影響度取得ステップが取得した前記推定影響度を用いて前記推定対象の動作のパターンを推定する主推定処理実行ステップと、を有する推定方法である。
【0009】
本発明の一態様は、上記の推定装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0010】
本発明により、動作パターンの推定の精度を向上させることが可能となる。
【図面の簡単な説明】
【0011】
図1】実施形態の推定装置の概要を説明する説明図。
図2】実施形態における影響度情報の一例を示す図。
図3】実施形態の推定装置のハードウェア構成の一例を示す図。
図4】実施形態の推定装置が備える制御部の機能構成の一例を示す図。
図5】実施形態における推定装置が実行する処理の流れの一例を示すフローチャート。
【発明を実施するための形態】
【0012】
(実施形態)
図1は、実施形態の推定装置1の概要を説明する説明図である。推定装置1は、推定対象の動作のパターンの推定を行う。以下の動作のパターンを動作パターンという。推定装置1の推定対象の動作は、動作の全工程のうちの一部のタイミングの動作が他のタイミングの動作よりも推定結果により強い影響を与える動作である。全工程のうちの一部のタイミングの動作が他のタイミングの動作よりも推定結果に対してより強い影響を与える動作は、例えばテニスプレイヤーによるストロークの動作である。
【0013】
また、推定装置1の推定対象の動作は、動作の開始から終わりまでの長さが略同一である。推定装置1は、より具体的には、推定対象の動作を撮影した動画のデータに基づいて推定対象の動作パターンの推定を行う。以下、推定対象の動作を撮影した動画を対象動画という。また、以下、対象動画を含め、動作を撮影した動画を動作動画という。
【0014】
推定装置1は、事前推定処理を実行する。事前推定処理は、対象動画の各フレームの推定影響度を推定する処理である。推定影響度は、動作動画に写る動作パターンの推定の結果に対する影響の強さである。推定影響度が高いフレームほどそのフレームの変化が推定の結果を変化させる。
【0015】
なお、動作動画の各フレームの推定影響度とは、動作動画に写る各タイミングの動作が、動画に写る動作パターンの推定の結果へ与える影響の強さを意味する。なぜなら、フレームは動画を構成する画像であり推定対象の動作の一瞬を写す画像だからである。
【0016】
推定装置1は、推定影響度を重みとして、動作動画の各フレームを重畳した画像の画像データを生成する。推定影響度を重みとして画像を重畳するとは、具体的には、推定影響度の重みに応じた輝度で画像を重畳することを意味する。推定影響度の重みに応じた輝度は、例えば推定影響度の重みが重いほど高い輝度である。以下、推定影響度を重みとして動作動画の各フレームを重畳した画像を非線形モーション履歴画像という。以下、非線形モーション履歴画像を生成する処理を、非線形モーション履歴画像生成処理という。
【0017】
非線形モーション履歴画像生成処理の対象の1つは、対象動画のデータである。以下、対象動画のデータを非線形モーション履歴画像生成処理の対象として得られた非線形モーション履歴画像を対象画像という。対象動画のデータを処理の対象とする非線形モーション履歴画像生成処理では、推定影響度として事前推定処理で推定された推定影響度が用いられる。
【0018】
事前処理においても非線形モーション履歴画像生成処理は実行される。事前処理においても非線形モーション履歴画像生成処理は、複数の動作動画に対して実行される。事前処理における非線形モーション履歴画像生成処理では、重みとして予め定められた推定影響度が用いられる。
【0019】
推定装置1は、事前推定処理の実行後に、主推定処理を実行する。主推定処理は、事前推定処理の結果を用いて対象画像を生成する処理と、対象画像に基づいて推定対象の動作パターンを推定する処理とを含む。
【0020】
<事前推定処理>
事前推定処理についてより具体的に説明する。事前推定処理において推定装置1は、M種類(Mは2以上の整数)の初期影響度関数を取得する。初期影響度関数は、動画の開始からの経過時間を独立変数とし推定影響度を従属変数とする予め定められた関数であって、グラフがピークを1つ有する予め定められた関数である。初期影響度関数は予め定められているので、初期影響度関数の推定影響度は各独立変数に1対1に予め定められた値である。以下、動画の開始からの経過時間を動画時間という。
【0021】
以下、初期値影響度関数のピークを与える動画時間をピーク時間という。初期影響度関数の種類の違いは、具体的にはピーク時間の違いである。初期影響度関数のグラフは例えば正規分布である。
【0022】
初期影響度関数は、例えばユーザが入力してもよいし、例えば予め所定の記憶装置に記憶済みであってもよい。初期影響度関数をユーザが入力する場合には、推定装置1は、入力された初期影響度関数を取得する。初期影響度関数が予め所定の記憶装置に記憶済みの場合には、推定装置1はその記憶装置から初期影響度関数を読み出すことで初期影響度関数を取得する。以下、説明の簡単のため初期影響度関数が予め所定の記憶装置に記憶済みである場合を例に推定装置1の説明を行う。
【0023】
事前推定処理において推定装置1は、目指す結果が推定対象の動作と同一である動作を撮影した動画(以下「構成動画」という。)のデータと、構成動画に写る動作パターンを示す情報(以下「正解情報」という。)と、の組を取得する。構成動画も、対象動画と同様に、動作動画の一種である。
【0024】
目指す結果が推定対象の動作と同一である動作の具体例を説明する。例えば推定対象の動作がテニスにおけるストロークの場合、推定対象の動作を実行した人とは異なる人の実行したストロークは、目指す結果が推定対象の動作と同一である動作の一例である。どちらもストロークによる打球の打ち返しという結果を目指す動作だからである。
【0025】
構成動画のデータと正解情報との組は、例えばユーザが入力してもよいし、例えば予め所定の記憶装置に記憶済みであってもよい。構成動画のデータと正解情報との組をユーザが入力する場合には、推定装置1は、入力された構成動画のデータと正解情報とを取得する。構成動画のデータと正解情報とが予め所定の記憶装置に記憶済みの場合には、推定装置1はその記憶装置から構成動画のデータと正解情報とを読み出すことで構成動画を取得する。以下、説明の簡単のため構成動画のデータと正解情報とがユーザによる入力である場合を例に推定装置1の説明を行う。
【0026】
事前推定処理において推定装置1は、取得したM種類の初期影響度関数ごとに、処理の対象を構成動画の画像データとする非線形モーション履歴画像生成処理を実行する(001)。以下、取得したM種類の初期影響度関数ごとの非線形モーション履歴画像生成処理であって処理の対象を構成動画の画像データとする非線形モーション履歴画像生成処理を画像集合生成処理という。
【0027】
画像集合生成処理の実行により、M種類の初期影響度関数ごとに、非線形モーション履歴画像の画像データが生成される。すなわち、画像集合生成処理の実行により、M個の非線形モーション履歴画像の画像データが生成される。
【0028】
事前推定処理において推定装置1は、生成されたM個の非線形モーション履歴画像の画像データに対して推定モデルを実行する(002)。推定モデルは、処理の対象を非線形モーション履歴画像の画像データとする数理モデルであって、処理の対象の非線形モーション履歴画像に写る動作パターンを推定する数理モデルである。M個の非線形モーション履歴画像の画像データに対する推定モデルの実行により、非線形モーション履歴画像ごとに推定モデルの推定した動作パターンが得られる。
【0029】
事前推定処理において推定装置1は、M個の各非線形モーション履歴画像について、非線形モーション履歴画像に対する推定モデルの推定した動作パターンと正解情報の示す動作パターンとの一致の度合(以下「推定一致度」という。)を算出する(003)。すなわち、事前推定処理において推定装置1は、推定モデルの推定の結果に基づき、M個の推定一致度を取得する。
【0030】
事前推定処理において推定装置1は、対象動画の動画時間i(iは実数)におけるフレームの推定影響度として、ピーク時間が時間iである初期値影響度関数を用いて得られた非線形モーション履歴画像の推定一致度を取得する(004)。なお、画像Aの推定一致度とは、画像Aに対する推定モデルの推定した動作パターンと正解情報の示す動作パターンとの一致の度合を意味する。
【0031】
以下、ピーク時間がiである初期値影響度関数を用いて得られた非線形モーション履歴画像の推定一致度を、対象動画の動画時間iにおける推定影響度として示す情報を、影響度情報という。
【0032】
このように、事前推定処理において推定装置1は、推定モデルの推定の結果に基づき影響度情報を取得する。なお、推定モデルの推定の結果とは、推定モデルが推定した動作パターンである。
【0033】
上述したように、初期影響度関数の種類の違いは具体的にはピーク時間の違いである。したがって、複数種類の初期影響度関数を用いて推定一致度を得ることは、初期影響度関数のグラフのピークの位置をさまざまに変えることで、推定一致度の分布を得ることを意味する。一般にグラフの最大値の位置は作用の対象に対する作用の強さを表すので、非線形モーション履歴画像に関してもピーク位置のフレームが動作パターンの推定に他のフレームよりも大きな影響を及ぼす。そのため、推定一致度の分布は各動作時間をピーク位置とする初期影響度関数を用いて推定された動作パターンと正解情報の示す動作パターンとの一致の度合を示すものの、各動作時間のフレームが動作パターンの推定の結果に与える影響の強さを表すとも言える。このことは、例えば初期影響度関数がδ関数を想定すれば理解が容易である。初期影響度関数がδ関数でなくとも、ピークを1つ有する関数であればδ関数の場合の現象と相関を持つ現象が生じる。
【0034】
図2は、実施形態における影響度情報の一例を示す図である。図2の横軸は、動画時間を表す。したがって、図2の横軸は動画のフレームを示す情報でもある。図2の縦軸は、推定影響度を示す。図2の例では、推定影響度を表現する関数w(t)は、動画時間t´においてピークを有する。
【0035】
なお、推定一致度の算出に用いられる動作パターンを推定する推定モデルは、学習済み推定モデルであってもよいし、非学習済み推定モデルであってもよい。学習済み推定モデルは、画像集合生成処理によって生成された複数の非線形モーション履歴画像の画像データを用いた学習により処理の内容が更新された後の推定モデルである。非学習済み推定モデルは、学習による更新は行われない推定モデルである。すなわち、非学習済み推定モデルは、予め定められた処理の内容が更新されない推定モデルである。
【0036】
推定モデルが学習済み推定モデルである場合、学習では、推定モデルの推定した動作パターンと正解情報が示す動作パターンとの違いを小さくするように推定モデルが更新される。すなわち、推定モデルが学習済み推定モデルである場合における損失関数は、推定モデルの推定した動作パターンと正解情報が示す動作パターンとの違いを示す関数である。
【0037】
<主推定処理>
主推定処理についてより具体的に説明する。主推定処理において推定装置1は、対象動画のデータを処理の対象とする非線形モーション履歴画像生成処理を実行する(005)。対象動画のデータを処理の対象とする非線形モーション履歴画像生成処理では、上述したように、事前推定処理により推定された推定影響度が用いられる。具体的には、対象動画のデータを処理の対象とする非線形モーション履歴画像生成処理では、影響度情報の示す各フレームの推定影響度を重みとして対象動画の各フレームを重畳した画像が生成される。影響度情報の示す各フレームの推定影響度を重みとして対象動画の各フレームを重畳した画像が対象画像である。
【0038】
主推定処理において推定装置1は、得られた対象画像に対して推定モデルを実行する(006)。対象画像に対する推定モデルの実行の結果が、推定対象の動作の推定の結果である。
【0039】
なお、主推定処理における推定モデルは、事前推定処理における推定モデルが学習により更新済みである場合には、学習済み推定モデルであってもよいし、学習による更新が行われる前の初期状態の推定モデルであってもよい。ただし、学習済み推定モデルが用いられる場合、事前推定処理の影響が推定の結果に現れてしまう場合がある。そのため、学習による更新が行われる前の初期状態の推定モデルが用いられる方が望ましい。また、事前推定処理における推定モデルが非学習済み推定モデルである場合には、主推定処理における推定モデルは、事前推定処理における推定モデルである。
【0040】
なお、推定装置1は、新たな対象動画を推定する場合に、必ずしも事前推定処理を実行し直す必要は無い。新たな対象動画を推定する場合には、事前推定処理を実行せずに主推定処理が実行されてよい。
【0041】
なお、上述のように推定装置1は、入力された構成動画のデータを構成動画のデータとして処理し入力された対象動画のデータを対象動画のデータとして処理する。このような技術は、入力された動画のデータを構成動画のデータは構成動画のデータとして処理し対象動画のデータを対象動画のデータとして処理できればどのような技術であってもよい。例えば、各動画のデータが、構成動画のデータであるか対象動画のデータであるかを示す情報を含んでいてもよい。このような場合、推定装置1は、入力された動画のデータごとに構成動画のデータであるか対象動画のデータであるかを示す情報に基づき、構成動画のデータに対して事前推定処理を実行し、対象動画のデータに対しては主推定処理を実行する。
【0042】
例えば、構成動画のデータの入力が終了したことを示す情報が推定装置1に入力されてもよい。このような場合、推定装置1は、構成動画のデータの入力が終了したことを示す情報が入力されるまでは事前推定処理を実行し、構成動画のデータの入力が終了したことを示す情報が入力された後は主推定処理を実行する。
【0043】
例えば、対象動画のデータの入力を開始することを示す情報が推定装置1に入力されてもよい。このような場合、推定装置1は、対象動画のデータの入力を開始することを示す情報が入力されるまでは事前推定処理を実行し、対象動画のデータの入力を開始することを示す情報が入力された後は主推定処理を実行する。
【0044】
例えば、推定装置1は、構成動画のデータの入力が開始されてから1つ等の予め定められた所定の数の動画のデータに対して事前推定処理が実行されるまでは主推定処理を実行せず、予め定められた所定の数の動画のデータに対して事前推定処理が実行された後に入力された動画のデータに対しては主推定処理を実行する。具体的には、推定装置1は、例えば1つの動画のデータに対して事前推定処理を実行した後に入力された動画のデータに対して主推定処理を実行する。
【0045】
図3は、実施形態の推定装置1のハードウェア構成の一例を示す図である。推定装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。推定装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0046】
より具体的には、推定装置1は、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、推定装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0047】
制御部11は、推定装置1が備える各種機能部の動作を制御する。制御部11は、例えば事前推定処理を実行する。制御部11は、例えば主推定処理を実行する。
【0048】
入力部12は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を推定装置1に接続するインタフェースを含んで構成されてもよい。
【0049】
通信部13は、推定装置1を外部装置に接続するためのインタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は例えば構成動画の送信元の装置である。通信部13は、構成動画のデータと正解情報との組の送信元の装置との通信によって、構成動画のデータと正解情報との組を取得する。外部装置は、例えば推定対象の動作を撮影した動画のデータの送信元の装置である。通信部13は、推定対象の動作を撮影した動画のデータの送信元の装置との通信によって、推定対象の動作を撮影した動画のデータを取得する。
【0050】
記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は、推定装置1に関する各種情報を記憶する。記憶部14は、例えば制御部11が実行する処理の結果生じた各種情報を記憶する。記憶部14は、例えば予めM種類の初期影響度関数を記憶する。
【0051】
出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を推定装置1に接続するインタフェースを含んで構成されてもよい。
【0052】
図4は、実施形態の推定装置1が備える制御部11の機能構成の一例を示す図である。制御部11は、動画データ取得部111、動作モード判定部112、画像集合生成処理部113、推定モデル実行部114、一致度取得部115、推定影響度取得部116、主推定処理実行部117、通信制御部118、記憶制御部119及び出力制御部120を備える。
【0053】
動画データ取得部111は、通信部13に入力された動画のデータを取得する。動画データ取得部111の取得する動画のデータの候補は、具体的には、構成動画のデータと、対象動画のデータとである。
【0054】
動作モード判定部112は、動画データ取得部111の取得した動画のデータに対して事前推定処理と主推定処理とのいずれを実行するかを判定する。動作モード判定部112は、例えば、主推定処理を実行する条件(以下「主推定処理実行条件」という。)が満たされたか否かを判定する。
【0055】
動作モード判定部112によって主推定処理実行条件が満たされたと判定された場合、推定装置1は主推定処理を実行する。一方、動作モード判定部112によって主推定処理実行条件が満たされたと判定されない場合、推定装置1は事前推定処理を実行する。
【0056】
主推定処理実行条件は、例えば、動画データ取得部111の取得した動画のデータが対象動画のデータであることを示す情報を含む、という条件である。主推定処理実行条件は、例えば、構成動画のデータの入力が終了したことを示す情報が入力部12又は通信部13等の所定のインタフェースに入力された、という条件であってもよい。主推定処理実行条件は、例えば対象動画のデータの入力を開始することを示す情報が入力部12又は通信部13等の所定のインタフェースに入力された、という条件であってもよい。主推定処理実行条件は、例えば、予め定められた所定の数の動画のデータに対して事前推定処理が実行された、という条件であってもよい。
【0057】
画像集合生成処理部113は、動画データ取得部111の取得した構成動画のデータに対して画像集合生成処理を実行する。画像集合生成処理の実行により、M個の非線形モーション履歴画像の画像データが生成される。
【0058】
推定モデル実行部114は、画像集合生成処理部113の生成したM個の非線形モーション履歴画像の画像データそれぞれに対して推定モデルを実行する。
【0059】
一致度取得部115は、推定モデル実行部114によって推定されたM個の動作のパターンそれぞれについて、構成動画に写る動作のパターンとの一致の度合である推定一致度を取得する。
【0060】
推定影響度取得部116は、ピークを与える動画時間がi(iは実数)である初期影響度関数を用いて得られた推定一致度を、推定対象の動画の動画時間iにおけるフレームの推定影響度として取得する。すなわち、推定影響度取得部116は記憶部14等の予め定められた所定の記憶装置に、推定対象の動画の動画時間iにおけるフレームの推定影響度としてピークを与える動画時間がi(iは実数)である初期影響度関数を用いて得られた推定一致度を記録する。
【0061】
主推定処理実行部117は、推定影響度取得部116が取得した推定影響度を用いて、動画データ取得部111の取得した対象動画のデータが示す対象動画に写る推定対象の動作のパターンを推定する。主推定処理実行部117は、例えば対象画像生成部171と、動作パターン推定部172とを備える。対象画像生成部171は、推定影響度取得部116が取得した推定影響度を重みとして、推定対象の動画の各フレームを重畳した画像である対象画像を生成する。動作パターン推定部172は、対象画像生成部171の生成した対象画像に基づき、対象動画に写る動作パターンを推定する。すなわち、動作パターン推定部172は、対象画像生成部171の生成した対象画像に基づき、推定対象の動作のパターンを推定する。
【0062】
通信制御部118は通信部13の動作を制御する。記憶制御部119は記憶部14の動作を制御する。出力制御部120は出力部15の動作を制御する。
【0063】
図5は、実施形態における推定装置1が実行する処理の流れの一例を示すフローチャートである。動画データ取得部111が動画のデータを取得する(ステップS101)。次に動作モード判定部112が、主推定処理実行条件が満たされたか否かを判定する(ステップS102)。
【0064】
動作モード判定部112によって、主推定処理実行条件が満たされないと判定された場合(ステップS102:NO)、画像集合生成処理部113が、動画データ取得部111の取得した動画のデータに対して画像集合生成処理を実行する(ステップS103)。次に推定モデル実行部114が、画像集合生成処理部113の生成したM個の非線形モーション履歴画像の画像データそれぞれに対して推定モデルを実行する(ステップS104)。
【0065】
次に一致度取得部115は、推定モデル実行部114によって推定されたM個の動作のパターンそれぞれについて、構成動画に写る動作のパターンとの一致の度合である推定一致度を取得する(ステップS105)。
【0066】
次に推定影響度取得部116は、ピークを与える動画時間がi(iは実数)である初期影響度関数を用いて得られた推定一致度を、推定対象の動画の動画時間iにおけるフレームの推定影響度として取得する(ステップS106)。
【0067】
ステップS106の次にステップ101の処理に戻る。
【0068】
一方、動作モード判定部112によって、主推定処理実行条件が満たされたと判定された場合(ステップS102:YES)、主推定処理実行部117が、動画データ取得部111の取得した動画のデータが示す動画に写る動作のパターンを推定する(ステップS107)。より具体的には主推定処理実行部117が、ステップS106で得られた推定影響度を用いて、動画データ取得部111の取得した動画のデータが示す動画に写る動作のパターンを推定する。主推定処理実行部117の推定した動作のパターンが推定対象の動作のパターンである。
【0069】
このように構成された推定装置1は、主推定処理の実行前に、目指す結果が推定対象の動作と同一である動作を撮影した動画である構成動画と、複数種類の初期影響度関数とを用いて推定一致度を得る。したがって、推定装置1は、推定対象の動作に応じて、動作パターンの推定結果により強い影響を与えるフレームに重きを置いて動作パターンの推定を行うことができる。そのため、推定装置1は、動作パターンの推定の精度を向上させることができる。
【0070】
また、このように構成された推定装置1は、推定対象の動画の動画時間iにおけるフレームの推定影響度を、人手ではなく、M個の非線形モーション履歴画像の画像データに基づいて取得する。そのため推定装置1は、人手で推定影響度を推定する場合に比べて、動作パターンの推定に要する労力を軽減することができる。
【0071】
(変形例)
なお、推定モデル実行部114の実行する推定モデルは、例えば、画像集合生成処理部113の生成したM個の非線形モーション履歴画像を用いた学習により得られた学習済み推定モデルであってもよい。画像集合生成処理部113の生成したM個の非線形モーション履歴画像を用いた学習は、例えば推定モデル実行部114が実行する。
【0072】
なお、主推定処理実行部117は、推定モデル実行部114の実行する推定モデルを用いて推定対象の動作のパターンを推定してもよい。すなわち、推定モデル実行部114の実行する推定モデルが、学習済み推定モデルである場合に、主推定処理実行部117は、学習済み推定モデルを用いて推定対象の動作のパターンを推定してもよい。また、推定モデル実行部114の実行する推定モデルが、非学習済み推定モデルである場合に、主推定処理実行部117は、非学習済み推定モデルを用いて推定対象の動作のパターンを推定してもよい。
【0073】
主推定処理実行部117は、推定モデル実行部114の実行する推定モデルが、学習済み推定モデルである場合に、学習による更新が行われる前の推定モデルを用いて推定対象の動作のパターンを推定してもよい。
【0074】
なお、推定装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。例えば、推定装置1は、事前推定処理を実行する事前推定処理実行装置と、主推定処理を実行する主推定処理実行部とを備える装置として実装されてもよい。
【0075】
なお、推定装置1の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0076】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0077】
1…推定装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 111…動画データ取得部、 112…動作モード判定部、 113…画像集合生成処理部、 114…推定モデル実行部、 115…一致度取得部、 116…推定影響度取得部、 117…主推定処理実行部、 118…通信制御部、 119…記憶制御部、 120…出力制御部、 171…対象画像生成部、 172…動作パターン推定部、 91…プロセッサ、 92…メモリ
図1
図2
図3
図4
図5