(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-26
(45)【発行日】2025-06-03
(54)【発明の名称】行動分類装置、行動分類方法、およびプログラム
(51)【国際特許分類】
G06T 7/246 20170101AFI20250527BHJP
G06T 7/00 20170101ALI20250527BHJP
【FI】
G06T7/246
G06T7/00 660B
(21)【出願番号】P 2023561979
(86)(22)【出願日】2021-11-17
(86)【国際出願番号】 JP2021042229
(87)【国際公開番号】W WO2023089691
(87)【国際公開日】2023-05-25
【審査請求日】2024-05-15
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】吉田 登
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2012-178036(JP,A)
【文献】特開2019-144830(JP,A)
【文献】特開2011-100175(JP,A)
【文献】特開2009-009413(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/292
(57)【特許請求の範囲】
【請求項1】
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出手段と、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出手段と、
複数の前記時系列特徴量が同数のフレーム分のデータであるか否かを判定し、判定結果に応じた手法で、複数の前記時系列特徴量間の類似度を算出する類似度算出手段と、
前記類似度に基づき、抽出された複数の人の動きを分類する分類手段と、
を有する行動分類装置。
【請求項2】
前記類似度算出手段は、
互いに異なる数のフレーム分の2つの前記時系列特徴量間の類似度を算出する場合、
各フレームにおける人の姿勢の特徴量の類似度に基づき、一方の前記時系列特徴量の各フレームに対応する他方の前記時系列特徴量のフレームを特定し、
互いに対応するフレームにおける人の姿勢の特徴量の類似度に基づき、2つの前記時系列特徴量間の類似度を算出する請求項1に記載の行動分類装置。
【請求項3】
前記類似度算出手段は、
互いに異なる数のフレーム分の2つの前記時系列特徴量間の類似度を算出する場合、
一方の前記時系列特徴量の前記任意数のフレームの中から複数のキーフレームを抽出し、
他方の前記時系列特徴量の前記任意数のフレームの中から、人の姿勢の特徴量に基づき、複数の前記キーフレーム各々に対応するキー対応フレームを特定し、
複数の前記キーフレーム各々における人の姿勢の特徴量と複数の前記キー対応フレーム各々における人の姿勢の特徴量との間の類似度である姿勢類似度、複数の前記キーフレーム間の時間間隔と複数の前記キー対応フレーム間の時間間隔の類似度である時間間隔類似度、複数の前記キーフレームにおける人の姿勢の特徴量の変化の方向と複数の前記キー対応フレームにおける人の姿勢の特徴量の変化の方向の類似度である変化方向類似度、及び前記キー対応フレームの特定結果の中の少なくとも1つに基づき、2つの前記時系列特徴量間の類似度を算出する請求項1に記載の行動分類装置。
【請求項4】
前記類似度算出手段は、
前記姿勢類似度、前記時間間隔類似度、及び前記変化方向類似度の中の複数種類の類似度に基づき、複数の前記時系列特徴量間の類似度を算出し、
複数種類の前記類似度各々に設定された重みに基づき、複数の前記時系列特徴量間の類似度を算出する請求項3に記載の行動分類装置。
【請求項5】
前記類似度算出手段は、
ユーザ入力で設定された複数種類の前記類似度各々の重みに基づき、複数の前記時系列特徴量間の類似度を算出する請求項4に記載の行動分類装置。
【請求項6】
前記抽出手段は、
同一人物を追跡する追跡エンジンを用いて、前記動画の中から、任意数のフレームに連続して現れる複数の人物を検出し、
前記検出された複数の人物各々が前記任意数のフレームで示す動きを、前記任意数のフレームで示される人の動きとして抽出する請求項1から5のいずれか1項に記載の行動分類装置。
【請求項7】
前記抽出手段は、
前記検出された人物が連続して現れるフレーム数が下限数以下である場合、前記下限数以下のフレームで示される人の動きを、前記任意数のフレームで示される人の動きとして抽出しない請求項6に記載の行動分類装置。
【請求項8】
前記抽出手段は、
前記検出された人物が上限数以上のフレームに連続して出現している場合、その人物が連続して出現している複数のフレームを複数のグループに分割し、複数のグループ各々に属する複数のフレームで示される人の動き各々を、前記任意数のフレームで示される人の動きとして抽出する請求項6又は7に記載の行動分類装置。
【請求項9】
コンピュータが、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出工程と、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出工程と、
複数の前記時系列特徴量が同数のフレーム分のデータであるか否かを判定し、判定結果に応じた手法で、複数の前記時系列特徴量間の類似度を算出する類似度算出工程と、
前記類似度に基づき、抽出された複数の人の動きを分類する分類工程と、
を有する行動分類方法。
【請求項10】
コンピュータを、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出手段、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出手段、
複数の前記時系列特徴量が同数のフレーム分のデータであるか否かを判定し、判定結果に応じた手法で、複数の前記時系列特徴量間の類似度を算出する類似度算出手段、
前記類似度に基づき、抽出された複数の人の動きを分類する分類手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、行動分類装置、行動分類方法、およびプログラムに関する。
【背景技術】
【0002】
本発明に関連する技術が特許文献1乃至3及び非特許文献1に開示されている。
【0003】
特許文献1には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき、画像から抽出した人体の複数の姿勢や複数の動きを似たもの同士を集めて分類する技術が開示されている。
【0004】
特許文献2には、ユーザの日ごとの時系列な位置データの特徴量に基づいて、ユーザの1日ごとの移動パターンを複数のクラスタに分類する技術が開示されている。
【0005】
特許文献3には、人体部位の時系列な位置データを複数の位置データ群に分類し、複数の位置データ群それぞれについて動作を解析する技術が開示されている。
【0006】
非特許文献1には、人物の骨格推定に関連する技術が開示されている。
【先行技術文献】
【特許文献】
【0007】
【文献】国際公開第2021/084677号
【文献】国際公開第2017/187584号
【文献】特開2021-022323号
【非特許文献】
【0008】
【文献】Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299
【発明の概要】
【発明が解決しようとする課題】
【0009】
複数枚のフレームで示される人の動きを似たもの同士で集めて分類する場合、2つの動きの類似度を算出する必要がある。特許文献1に開示されている2つの動きの類似度を算出する技術は、2つの動きが同数のフレームで示されていることを前提としている。分類対象の動きの全てが同数のフレームで示されているという制限があると、利便性が悪い。いずれの特許文献及び非特許文献も、当該課題及びその解決手段を開示していない。
【0010】
本発明の目的は、複数枚のフレームで示される人の動きを似たもの同士で集めて分類する技術の利便性を向上させることである。
【課題を解決するための手段】
【0011】
本発明によれば、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出手段と、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出手段と、
複数の前記時系列特徴量間の類似度を算出する類似度算出手段と、
前記類似度に基づき、抽出された複数の人の動きを分類する分類手段と、
を有する行動分類装置が提供される。
【0012】
また、本発明によれば、
コンピュータが、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出工程と、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出工程と、
複数の前記時系列特徴量間の類似度を算出する類似度算出工程と、
前記類似度に基づき、抽出された複数の人の動きを分類する分類工程と、
を有する行動分類方法が提供される。
【0013】
また、本発明によれば、
コンピュータを、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出手段、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出手段、
複数の前記時系列特徴量間の類似度を算出する類似度算出手段、
前記類似度に基づき、抽出された複数の人の動きを分類する分類手段、
として機能させるプログラムが提供される。
【発明の効果】
【0014】
本発明によれば、複数枚のフレームで示される人の動きを似たもの同士で集めて分類する技術の利便性が向上する。
【図面の簡単な説明】
【0015】
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
【0016】
【
図1】本実施形態の行動分類装置のハードウエア構成の一例を示す図である。
【
図2】本実施形態の行動分類装置の機能ブロック図の一例を示す図である。
【
図3】本実施形態の行動分類装置が処理する情報の一例を模式的に示す図である。
【
図4】本実施形態の行動分類装置の処理の流れの一例を示すフローチャートである。
【
図5】本実施形態の行動分類装置の人の動きを抽出する処理の一例を説明するための図である。
【
図6】本実施形態の行動分類装置の人の動きを抽出する処理の一例を説明するための図である。
【
図7】本実施形態の行動分類装置により検出される人体モデルの骨格構造の一例を示す図である。
【
図8】本実施形態の行動分類装置により検出された人体モデルの骨格構造の一例を示す図である。
【
図9】本実施形態の行動分類装置により検出された人体モデルの骨格構造の一例を示す図である。
【
図10】本実施形態の行動分類装置により検出された人体モデルの骨格構造の一例を示す図である。
【
図11】本実施形態の行動分類装置により算出されたキーポイントの特徴量の一例を示す図である。
【
図12】本実施形態の行動分類装置により算出されたキーポイントの特徴量の一例を示す図である。
【
図13】本実施形態の行動分類装置により算出されたキーポイントの特徴量の一例を示す図である。
【
図14】本実施形態の行動分類装置の処理の流れの一例を示すフローチャートである。
【
図15】本実施形態の行動分類装置によるフレームの対応関係を特定する処理を説明するための図である。
【
図16】本実施形態の行動分類装置の処理の流れの一例を示すフローチャートである。
【
図17】本実施形態の行動分類装置によるキーフレームを抽出する処理を説明するための図である。
【
図18】本実施形態の行動分類装置によるキーフレームを抽出する処理を説明するための図である。
【
図19】本実施形態のキー対応フレーム、複数のキーフレーム間の時間間隔及び複数のキー対応フレーム間の時間間隔を説明するための図である。
【
図20】本実施形態の行動分類装置が出力する画面の一例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0018】
<第1の実施形態>
「概要」
本実施形態の行動分類装置は、任意数のフレームで示される人の動き同士の類似度を算出し、算出結果に基づき複数の人の動きを似たもの同士で集めて分類する。本実施形態の場合、分類対象となる動きは、任意数のフレームで示されればよい。分類対象となる動きを示すフレームの数がある1つの値に制限される場合に比べて、利便性が向上する。
【0019】
「ハードウエア構成」
次に、行動分類装置のハードウエア構成の一例を説明する。行動分類装置の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
【0020】
図1は、行動分類装置のハードウエア構成を例示するブロック図である。
図1に示すように、行動分類装置は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。行動分類装置は周辺回路4Aを有さなくてもよい。なお、行動分類装置は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
【0021】
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
【0022】
「機能構成」
図2に、本実施形態の行動分類装置10の機能ブロック図の一例を示す。図示する行動分類装置10は、抽出部11と、時系列特徴量算出部12と、類似度算出部13と、分類部14とを有する。
【0023】
抽出部11は、動画の中から、任意数のフレームで示される人の動きを複数抽出し、抽出結果を記憶部に記憶する。記憶部は、行動分類装置10内に設けられてもよいし、行動分類装置10からアクセス可能に構成された外部装置内に設けられてもよい。
【0024】
「任意数のフレーム」は、フレームの数が予め定められた1つの数に制限されるのでなく、複数の選択肢の中のどの数でもよいことを意味する。すなわち、本実施形態で抽出される人の動きを示すフレームの数は、例えば「5フレーム」のように1つの固定値に制限されず、例えば「5~20フレームの中のいずれか」のように一定の幅を設けて設定された数値範囲の中の任意の数になればよい。
【0025】
上記数値範囲は、要求性能に応じて任意に決定できる。この数値範囲を大きくするほど、フレーム数の制限を少なくすることができる。この数値範囲を十分に広くすることで、フレーム数の制限を実質上なくすことができる。一方で、この数値範囲を広くし過ぎると、互いのフレーム数の相違が非常に大きい複数の人の動きが存在するようになり、動きの類似度の算出などが面倒になる。この数値範囲をある程度絞ると、互いのフレーム数の相違が非常に大きい複数の人の動きが存在しなくなり、動きの類似度の算出などが容易になる。
【0026】
図3に、記憶部に記憶される抽出結果の一例を模式的に示す。図示する例では、動き識別情報と、フレーム番号と、画像内位置情報とが互いに紐付けられている。
【0027】
動き識別情報は、抽出部11により抽出された複数の人の動きを互いに識別するための情報である。新たな人の動きが抽出される毎に、新たな動き識別情報が発行される。
【0028】
フレーム番号は、抽出された人の動き各々を示すフレームの番号である。
図3に示す例の場合、動き識別情報「000001」で特定される人の動きは、フレーム番号「00001から00016」のフレームで示されている。
【0029】
画像内位置情報は、各動きをする人が、各フレーム内のどこに位置するかを示す情報である。図示する例では、各動きをする人を囲む矩形の4つの頂点の座標で各動きをする人の位置を示しているが、この手法は一例であり、他の手法でフレーム内の人の位置を示してもよい。
【0030】
なお、
図3の抽出結果は、1つの動画ファイルの中から人の動きを複数抽出することを前提としているが、複数の動画ファイルの中から人の動きを複数抽出し、抽出結果を記憶部に記憶してもよい。この場合、
図3に示すような抽出結果において、動き識別情報に紐付けて、さらに、各人の動きが抽出された動画ファイルの識別情報を登録してもよい。
【0031】
抽出部11が、動画の中から、任意数のフレームで示される人の動きを抽出する手段は様々であり、あらゆる技術を採用できる。例えば、ユーザが、行動分類装置10に対し、複数の人の動き各々に対応して、その人の動きを示す任意数のフレームの開始フレーム及び終了フレームと、その動きをする人の各フレーム内の位置とを指定する入力を行ってもよい。そして、抽出部11は、ユーザ入力に基づき、動画の中から複数の人の動きを抽出し、抽出結果を記憶部に記憶してもよい。
【0032】
その他、上述のような開始フレーム、終了フレーム、及びフレーム内の位置を指定するユーザ入力なしで、コンピュータによる演算処理により、動画の中から任意数のフレームで示される人の動きを抽出してもよい。コンピュータによる演算処理で実現する手段の一例は、以下の実施形態で説明する。
【0033】
図2に戻り、時系列特徴量算出部12は、抽出部11により抽出された人の動き毎に、任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の特徴量が時系列に並んだ時系列特徴量を算出する。そして、時系列特徴量算出部12は、算出した任意数のフレーム分の時系列特徴量を、上述した記憶部に記憶させる。
【0034】
ここで、
図3に示す動き識別情報「000001」で特定される動きを例にとり、時系列特徴量算出部12の処理をより詳細に説明する。この例の場合、時系列特徴量算出部12は、フレーム番号「00001~00016」の16個のフレーム各々を処理し、各々における人の姿勢の特徴量を算出する。なお、時系列特徴量算出部12は、各フレームの全体を解析対象とするのでなく、
図3のフレーム内位置情報で示される各フレーム内でその動きをする人が存在するエリアのみを解析対象とすることができる。以上のように、16個のフレーム各々に基づき、各々における人の姿勢の特徴量を算出することで、16個の人の姿勢の特徴量が得られる。この16個の人の姿勢の特徴量を、16個のフレームの時系列順に並べることで、16個のフレーム分の時系列特徴量が得られる。
【0035】
本実施形態では、人の姿勢の特徴量の算出手段として、あらゆる技術を採用できる。以下の実施形態で一例を説明する。
【0036】
図2に戻り、類似度算出部13は、複数の時系列特徴量間の類似度を算出する。なお、類似度を算出する対象である2つの時系列特徴量が同数のフレーム分の時系列特徴量である場合と、互いに異なる数のフレーム分の時系列特徴量である場合とが考えられる。類似度算出部13は、類似度を算出する対象である2つの時系列特徴量が同数のフレーム分の時系列特徴量であるか否かを判定した後、判定結果に応じた手法で、その2つの時系列特徴量間の類似度を算出することができる。
【0037】
同数のフレーム分の2つの時系列特徴量間の類似度を算出する手段は特段制限されず、あらゆる技術を採用できる。例えば、類似度算出部13は、特許文献1に開示の技術を利用して、2つの時系列特徴量間の類似度を算出してもよい。
【0038】
その他、類似度算出部13は、例えばフレームの出現順に基づき、一方の時系列特徴量の各フレームに対応する他方の時系列特徴量のフレームを特定してもよい。類似度算出部13は、出現順が同じもの同士で対応付ける。そして、類似度算出部13は、互いに対応するフレームのペア毎に人の姿勢の特徴量の類似度を算出し、複数のペア各々に対応して算出した類似度の統計値(平均値、中央値、最頻値、最大値、最小値等)を、その2つの時系列特徴量間の類似度として算出してもよい。
【0039】
一方、類似度を算出する対象である2つの時系列特徴量が互いに異なる数のフレーム分の時系列特徴量である場合、類似度算出部13は、例えば「互いに異なる要素数の集合の類似度を算出する技術」を用いて、その2つの時系列特徴量間の類似度を算出してもよい。なお、以下の実施形態で、互いに異なる数のフレーム分の2つの時系列特徴量の類似度を算出する手段の他の例を説明する。
【0040】
分類部14は、類似度算出部13が算出した複数の時系列特徴量間の類似度に基づき、抽出部11により抽出された複数の人の動きを似たもの同士でまとめて分類する。分類の手法は様々であるが、例えば、互いの時系列特徴量間の類似度が基準値以上である複数の人の動きが同じクラスタ(似た動きのグループ)となるように分類してもよい。
【0041】
次に、
図4のフローチャートを用いて、行動分類装置10の処理の流れの一例を説明する。
【0042】
まず、行動分類装置10は、動画の中から、任意数のフレームで示される人の動きを複数抽出する(S10)。次いで、行動分類装置10は、S10で抽出された人の動き毎に、任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する(S11)。次いで、行動分類装置10は、複数の時系列特徴量間の類似度を算出する(S12)。そして、行動分類装置10は、S12で算出された類似度に基づき、抽出された複数の人の動きを分類する(S13)。
【0043】
「作用効果」
本実施形態の行動分類装置10は、任意数のフレームで示される人の動き同士の類似度を算出し、算出結果に基づき複数の人の動きを似たもの同士で集めて分類する。本実施形態の場合、分類対象となる動きは、任意数のフレームで示されればよい。分類対象となる動きを示すフレームの数がある1つの値に制限される場合に比べて、利便性が向上する。
【0044】
<第2の実施形態>
本実施形態の行動分類装置10によれば、動画の中から任意数のフレームで示される人の動きを複数抽出する処理が自動化される。以下、詳細に説明する。
【0045】
抽出部11は、同一人物を追跡する追跡エンジンを用いて、動画の中から、任意数のフレームに連続して現れる複数の人物を検出する。そして、抽出部11は、追跡エンジンで検出された複数の人物各々が任意数のフレームで示す動きを、任意数のフレームで示される人の動きとして抽出する。
【0046】
追跡エンジンは、顔の特徴量、服装の特徴量、所持物の特徴量、人の姿勢の特徴量、及びフレーム内の位置の中の少なくとも1つに基づき、同一人物を追跡する。
【0047】
追跡エンジンは、例えば顔の特徴量が基準レベル以上類似する場合、同一人物と判断してもよい。また、追跡エンジンは、服装の特徴量が基準レベル以上類似する場合、同一人物と判断してもよい。また、追跡エンジンは、所持物の特徴量が基準レベル以上類似する場合、同一人物と判断してもよい。
【0048】
また、追跡エンジンは、時系列順が連続する2つのフレーム間において、姿勢が基準レベル以上類似する場合、同一人物と判断してもよい。また、追跡エンジンは、時系列順が連続する2つのフレーム間において、フレーム内の位置が基準レベル以上類似する場合、同一人物と判断してもよい。
【0049】
また、追跡エンジンは、上記複数種類の特徴量の中の任意の2種類以上の特徴量の類似度に基づき算出される統合類似度が基準値以上である場合、同一人物と判断してもよい。統合類似度は、2種類以上の特徴量の類似度の平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等が例示されるが、これらに限定されない。統合類似度を算出する場合、複数種類の特徴量の類似度を正規化し、互いに比較可能にすることが好ましい。
【0050】
図5を用いて、抽出部11の処理の具体例を説明する。図示する例では、顔追跡エンジンで、動画内から人物を検出している。顔追跡エンジンは、動画内から人物Aと人物Bを検出している。
【0051】
人物Aは、時間t11から時間t15まで動画内に存在していた。そして、人物Aは、時間t11からt12の間は歩き、時間t12から時間t13の間は立ち止まり、時間t13から時間t15の間は倒れていた。
【0052】
人物Bは、時間t11から時間t12まで動画内に存在していた。そして、人物Bは、時間t11からt12の間、歩いていた。
【0053】
このような動画を顔追跡エンジンで処理した場合、例えば、時間t11からt14の間は、人物Aを同一人物として追跡しているが、時間t14の時点で、何らかの理由で(例えば、人物Aが倒れたことにより顔の特徴量が十分に取得できなくなった)、人物Aの追跡が一度途絶えている。そして、時間t14からt15の間は、時間t11からt14の間まで追跡していた人物と異なる人物として認識して、追跡している。結果、時間t11からt14の間の人物Aに対して1つの人物識別情報(図示する「ID:1」)が付与され、時間t14からt15の間の人物Aに対して別の人物識別情報(図示する「ID:2」)が付与されている。
【0054】
また、時間t11からt12の間、人物Bを同一人物として追跡している。結果、時間t11からt12の間の人物Bに対して1つの人物識別情報(図示する「ID:3」)が付与されている。
【0055】
抽出部11は、このような顔追跡エンジンの追跡結果に基づき、時間t11からt14の間に人物A(図示する「ID:1」)が示す動きを1つの人の動きとして抽出し、時間t14からt15の間に人物A(図示する「ID:2」)が示す動きを他の1つの人の動きとして抽出し、時間t11からt12の間に人物B(図示する「ID:3」)が示す動きを他の1つの人の動きとして抽出する。
【0056】
図6は、抽出部11の処理の他の具体例を説明する。図示する例では、姿勢追跡エンジンで、動画内から人物を検出している。
図6の例で処理した動画は、
図5の例で処理した動画と同じ動画である。
図5及び
図6に示すように、同じ動画を処理した場合でも、使用する追跡エンジンの種類に応じて、追跡結果は異なり得る。
【0057】
図6の例の場合、抽出部11は、時間t
21からt
23の間に人物A(図示する「ID:1」)が示す動きを1つの人の動きとして抽出し、時間t
23からt
25の間に人物A(図示する「ID:2」)が示す動きを他の1つの人の動きとして抽出し、時間t
25からt
26の間に人物A(図示する「ID:3」)が示す動きを他の1つの人の動きとして抽出し、時間t
21からt
22の間に人物B(図示する「ID:4」)が示す動きを他の1つの人の動きとして抽出する。
【0058】
なお、抽出部11は、追跡エンジンで検出された人物が予め定められた上限数(設計的事項)以上のフレームに連続して出現している場合、その人物が連続して出現している複数のフレームを任意の手法で複数のグループに分割し、複数のグループ各々に属する複数のフレームで示される人の動き各々を、1つの人の動きとして抽出してもよい。この場合、各グループに属する複数のフレームが示す人の動きに対して1つの動き識別情報(
図3参照)が付与される。そして、1つのグループに属する複数のフレームが示す人の動きが、分類処理の1つの対象となる。
【0059】
図5の例の場合、抽出部11は、ID1、ID2及びID3各々に対して、各IDに対応する人物が連続して出現しているフレーム数が上限を超えていないか判断することとなる。ID1に対応する人物が連続して出現しているフレーム数は、時間t
11からt
14までの間のフレーム数である。ID2に対応する人物が連続して出現しているフレーム数は、時間t
14からt
15までの間のフレーム数である。ID3に対応する人物が連続して出現しているフレーム数は、時間t
11からt
12までの間のフレーム数である。
【0060】
複数のフレームを複数のグループに分割する手法は特段制限されず、各グループに属するフレームの数が予め定められた上限数未満となればよい。例えば、複数のフレームの時系列順に、所定数(予め定められた上限数未満)ずつをまとめて1つのグループにしてもよい。なお、1つのフレームが複数のグループに重複して属してもよいし、このような重複は許さないようにしてもよい。
【0061】
また、抽出部11は、検出された人物が連続して現れるフレーム数が下限数(設計的事項)以下である場合、その下限数以下のフレームで示される人の動きを、1つの人の動きとして抽出しなくてもよい。
【0062】
本実施形態の行動分類装置10のその他の構成は、第1の実施形態と同様である。
【0063】
本実施形態の行動分類装置10によれば、第1の実施形態と同様の作用効果が実現される。また、本実施形態の行動分類装置10によれば、動画の中から任意数のフレームで示される人の動きを複数抽出する処理が自動化される。結果、利便性が向上する。
【0064】
<第3の実施形態>
本実施形態では、人の姿勢の特徴量の算出手段が具体化される。以下、詳細に説明する。
【0065】
時系列特徴量算出部12は、骨格構造検出部と、特徴量算出部と、を有する。
【0066】
骨格構造検出部は、フレームに含まれる人体のN(Nは2以上の整数)個のキーポイントを検出する処理を行う。骨格構造検出部による当該処理は、特許文献1に開示されている技術を用いて実現される。詳細は省略するが、特許文献1に開示されている技術では、非特許文献1に開示されたOpenPose等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン(ボーンリンク)」とから構成される。
【0067】
図7は、骨格構造検出部により検出される人体モデル300の骨格構造を示しており、
図8乃至
図10は、骨格構造の検出例を示している。骨格構造検出部は、OpenPose等の骨格推定技術を用いて、2次元の画像から
図7のような人体モデル(2次元骨格モデル)300の骨格構造を検出する。人体モデル300は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された2次元モデルである。
【0068】
骨格構造検出部は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のN個のキーポイントを検出する。検出するN個のキーポイントは予め定められる。検出するキーポイントの数(すなわち、Nの数)や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。
【0069】
図7の例では、人物のキーポイントとして、頭A1、首A2、右肩A31、左肩A32、右肘A41、左肘A42、右手A51、左手A52、右腰A61、左腰A62、右膝A71、左膝A72、右足A81、左足A82を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭A1と首A2を結ぶボーンB1、首A2と右肩A31及び左肩A32をそれぞれ結ぶボーンB21及びボーンB22、右肩A31及び左肩A32と右肘A41及び左肘A42をそれぞれ結ぶボーンB31及びボーンB32、右肘A41及び左肘A42と右手A51及び左手A52をそれぞれ結ぶボーンB41及びボーンB42、首A2と右腰A61及び左腰A62をそれぞれ結ぶボーンB51及びボーンB52、右腰A61及び左腰A62と右膝A71及び左膝A72をそれぞれ結ぶボーンB61及びボーンB62、右膝A71及び左膝A72と右足A81及び左足A82をそれぞれ結ぶボーンB71及びボーンB72を検出する。
【0070】
図8は、直立した状態の人物を検出する例である。
図8では、直立した人物が正面から撮像されており、正面から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ重ならずに検出され、右足のボーンB61及びボーンB71は左足のボーンB62及びボーンB72よりも多少折れ曲がっている。
【0071】
図9は、しゃがみ込んでいる状態の人物を検出する例である。
図9では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ検出され、右足のボーンB61及びボーンB71と左足のボーンB62及びボーンB72は大きく折れ曲がり、かつ、重なっている。
【0072】
図10は、寝込んでいる状態の人物を検出する例である。
図10では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンB1、ボーンB51及びボーンB52、ボーンB61及びボーンB62、ボーンB71及びボーンB72がそれぞれ検出され、右足のボーンB61及びボーンB71と左足のボーンB62及びボーンB72は折れ曲がり、かつ、重なっている。
【0073】
特徴量算出部は、検出された2次元の骨格構造の特徴量を算出する。例えば、特徴量算出部は、検出されたキーポイント各々の特徴量を算出する。
【0074】
骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態(姿勢や動き)を分類するための要素となる。通常、この特徴量は、複数のパラメータを含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係、当該骨格領域の左右方向における複数のキーポイントの相対的な位置関係等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向(高さ方向または縦方向)は、画像における上下の方向(Y軸方向)であり、例えば、地面(基準面)に対し垂直な方向である。また、左右方向(横方向)は、画像における左右の方向(X軸方向)であり、例えば、地面に対し平行な方向である。
【0075】
なお、ユーザが望む分類を行うためには、分類処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない分類を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。
【0076】
特徴量算出部による上記処理は、特許文献1に開示されている技術を用いて実現される。
【0077】
図11は、特徴量算出部が求めた複数のキーポイント各々の特徴量の例を示している。なお、ここで例示するキーポイントの特徴量はあくまで一例であり、これに限定されない。
【0078】
この例では、キーポイントの特徴量は、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係を示す。首のキーポイントA2を基準点とするため、キーポイントA2の特徴量は0.0となり、首と同じ高さの右肩のキーポイントA31及び左肩のキーポイントA32の特徴量も0.0である。首よりも高い頭のキーポイントA1の特徴量は-0.2である。首よりも低い右手のキーポイントA51及び左手のキーポイントA52の特徴量は0.4であり、右足のキーポイントA81及び左足のキーポイントA82の特徴量は0.9である。この状態から人物が左手を挙げると、
図12のように左手が基準点よりも高くなるため、左手のキーポイントA52の特徴量は-0.4となる。一方で、Y軸の座標のみを用いて正規化を行っているため、
図13のように、
図11に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、当該例の特徴量(正規化値)は、骨格構造(キーポイント)の高さ方向(Y方向)の特徴を示しており、骨格構造の横方向(X方向)の変化に影響を受けない。
【0079】
このような特徴量で示される姿勢の類似度の算出の仕方は様々である。例えば、キーポイント毎に特徴量の類似度を算出した後、複数のキーポイントの特徴量の類似度に基づき、姿勢の類似度を算出してもよい。例えば、複数のキーポイントの特徴量の類似度の平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等が、姿勢の類似度として算出されてもよい。加重平均値や加重和を算出する場合、各キーポイントの重みはユーザが設定できてもよいし、予め定められていてもよい。
【0080】
本実施形態の行動分類装置10のその他の構成は、第1及び第2の実施形態と同様である。
【0081】
本実施形態の行動分類装置10によれば、第1及び第2の実施形態と同様の作用効果が実現される。また、本実施形態の行動分類装置10によれば、姿勢の類似度を精度よく算出することが可能となる。結果、行動分類の精度が向上する。
【0082】
<第4の実施形態>
本実施形態では、互いに異なる数のフレーム分の2つの時系列特徴量間の類似度の算出手段が具体化される。以下、詳細に説明する。
【0083】
類似度算出部13は、互いに異なる数のフレーム分の2つの時系列特徴量間の類似度を算出する場合、
図14のフローチャートで示す処理を実行することで、2つの時系列特徴量間の類似度を算出する
。
【0084】
S20では、類似度算出部13は、各フレームにおける人の姿勢の特徴量の類似度に基づき、一方の時系列特徴量の各フレームに対応する他方の時系列特徴量のフレームを特定する。以下、詳細に説明する。
【0085】
類似度算出部13は、一方の時系列特徴量の1つの第1のフレームにおける人の姿勢と同様の姿勢(類似度が閾値以上)をとる1つ又は複数のフレームを、他方の時系列特徴量のフレームの中から検索し、検索した1つ又は複数のフレームを、その第1のフレームに対応付ける。対応関係を特定した結果の一例を
図15に示す。
図15では、互いに対応するフレーム同士を線で結んでいる。図示するように、1つのフレームが複数のフレームに対応付けられてもよい。また、1つのフレームが1つのフレームに対応付けられてもよい。
【0086】
上記対応関係の特定は、例えば、DTW(Dinamic Time Warping)等の技術を利用して実現することができる。この時、対応関係の特定に必要な距離スコアとしては、特徴量間の距離(マンハッタン距離やユークリッド距離)などを用いることができる。
【0087】
図14に戻り、S21では、類似度算出部13は、互いに対応するフレームにおける人の姿勢の特徴量の類似度を算出する。すなわち、類似度算出部13は、対応するフレームのペア毎に、人の姿勢の特徴量の類似度を算出する。
【0088】
S22では、類似度算出部13は、S21で算出した類似度に基づき、2つの時系列特徴量間の類似度を算出する。類似度算出部13は、例えば、複数のペア各々に対応して算出した類似度の統計値(平均値、中央値、最頻値、最大値、最小値等)を、その2つの時系列特徴量間の類似度として算出する。
【0089】
本実施形態の行動分類装置10のその他の構成は、第1乃至第3の実施形態と同様である。
【0090】
本実施形態の行動分類装置10によれば、第1乃至第3の実施形態と同様の作用効果が実現される。また、本実施形態の行動分類装置10によれば、互いに異なる数のフレーム分の2つの時系列特徴量間の類似度を、精度よく算出することが可能となる。結果、行動分類の精度が向上する。
【0091】
<第5の実施形態>
本実施形態では、互いに異なる数のフレーム分の2つの時系列特徴量間の類似度の算出手段が、第4の実施形態と異なる手法で具体化される。以下、詳細に説明する。
【0092】
類似度算出部13は、互いに異なる数のフレーム分の2つの時系列特徴量間の類似度を算出する場合、
図16のフローチャートで示す処理を実行することで、2つの時系列特徴量間の類似度を算出する。
【0093】
S30では、類似度算出部13は、一方の時系列特徴量の任意数のフレームの中から複数のキーフレームを抽出する。
【0094】
「キーフレーム」は、一方の時系列特徴量の任意数のフレームの中の一部のフレームである。類似度算出部13は、
図17及び
図18に示すように、時系列な複数のフレームの中から、間欠的に、キーフレームを抽出することができる。キーフレーム間の時間間隔(フレームの数)は一定であってもよいし、バラバラであってもよい。類似度算出部13は、例えば以下の抽出処理1乃至3のいずれかを実行することができる。
【0095】
-抽出処理1-
抽出処理1では、類似度算出部13は、ユーザ入力に基づきキーフレームを抽出する。すなわち、ユーザが、複数のフレームの中の一部をキーフレームとして指定する入力を行う。そして、類似度算出部13は、ユーザにより指定されたフレームをキーフレームとして抽出する。
【0096】
-抽出処理2-
抽出処理2では、類似度算出部13は、予め定められた規則に従ってキーフレームを抽出する。
【0097】
具体的には、類似度算出部13は、
図17に示すように、複数のフレームの中から所定の一定間隔で複数のキーフレームを抽出する。すなわち、類似度算出部13は、Mフレームおきに、キーフレームを抽出する。Mは整数であり、例えば2以上10以下が例示されるが、これに限定されない。Mは予め定められていてもよいし、ユーザが選択できてもよい。
【0098】
-抽出処理3-
抽出処理3では、類似度算出部13は、予め定められた規則に従ってキーフレームを抽出する。
【0099】
具体的には、類似度算出部13は、
図18に示すように、1つのキーフレームを抽出した後(例えば、一番初めのフレーム)、そのキーフレームと、時系列順がそのキーフレーム以降のフレーム各々との間の類似度を算出する。類似度は、各フレームに含まれる人体の姿勢の類似度である。姿勢の類似度の算出手段は特段制限されないが、例えば第3の実施形態で説明した手段を採用することができる。そして、類似度算出部13は、類似度が基準値(設計的事項)以下であり、かつ時系列順が最も早いフレームを、新たなキーフレームとして抽出する。
【0100】
次いで、類似度算出部13は、新たに抽出したキーフレームと、時系列順がそのキーフレーム以降のフレーム各々との間の類似度を算出する。そして、類似度算出部13は、類似度が基準値(設計的事項)以下であり、かつ時系列順が最も早いフレームを、新たなキーフレームとして抽出する。類似度算出部13は、当該処理を繰り返して、複数のキーフレームを抽出する。この処理によれば、隣り合うキーフレームに含まれる人体の姿勢は、互いにある程度異なる。従って、キーフレームが増加することを抑制しつつ、人体の特徴的な姿勢を示した複数のキーフレームを抽出することができる。上記基準値は予め定められていてもよいし、ユーザが選択できてもよいし、その他の手段で設定されてもよい。
【0101】
図16に戻り、S31では、類似度算出部13は、他方の時系列特徴量の任意数のフレームの中から、人の姿勢の特徴量に基づき、S30で抽出された複数のキーフレーム各々に対応するキー対応フレームを特定する。
【0102】
「キー対応フレーム」は、キーフレームに含まれる人体の姿勢と所定レベル以上似た姿勢の人体を含むフレームである。姿勢の類似度の算出手段は特段制限されないが、例えば第3の実施形態で説明した手段を採用することができる。Q(Qは2以上の整数)個のキーフレームが抽出された場合、Q個のキーフレーム各々に対応するQ個のキー対応フレームが抽出されることとなる。
【0103】
図19では、一方の時系列特徴量のフレームの数は10であり、その中から5個のフレームがキーフレームとして抽出されている。具体的には、図中、星マークがついた1番目、4番目、6番目、8番目及び10番目のフレームが、キーフレームとして抽出されている。以下、複数のキーフレームの中の時系列順がN番目のキーフレームを、「第Nのキーフレーム」と呼ぶ。Nは1以上の整数である。
図19の例の場合、一方の時系列特徴量のフレームの中の1番目のフレームを第1のキーフレームと呼び、4番目のフレームを第2のキーフレームと呼び、6番目のフレームを第3のキーフレームと呼び、8番目のフレームを第4のキーフレームと呼び、10番目のフレームを第5のキーフレームと呼ぶ。
【0104】
そして、
図19の例では、他方の時系列特徴量のフレームの数は12であり、その中から5個のフレームがキー対応フレームとして特定されている。具体的には、図中、星マークがついた1番目、3番目、7番目、8番目及び12番目のフレームが、キー対応フレームとして特定されている。以下、第Nのキーフレームに対応するキー対応フレームを、「第Nのキー対応フレーム」と呼ぶ。
図19の例の場合、他方の時系列特徴量のフレームの中の1番目のフレームが第1のキー対応フレームであり、3番目のフレームが第2のキー対応フレームであり、7番目のフレームが第3のキー対応フレームであり、8番目のフレームが第4のキー対応フレームであり、12番目のフレームが第5のキー対応フレームである。
【0105】
図16に戻り、S32では、類似度算出部13は、姿勢類似度、時間間隔類似度、変化方向類似度、及びキー対応フレームの特定結果の中の少なくとも1つに基づき、2つの時系列特徴量間の類似度を算出する。以下、詳細に説明する。
【0106】
-第1の算出方法-
第1の算出方法では、類似度算出部13は、姿勢類似度に基づき、2つの時系列特徴量間の類似度を算出する。
【0107】
「姿勢類似度」は、複数のキーフレーム各々における人の姿勢の特徴量と、複数のキー対応フレーム各々における人の姿勢の特徴量との間の類似度である。
【0108】
まず、類似度算出部13は、互いに対応するキーフレーム及びキー対応フレームのペア毎に、人の姿勢の特徴量の類似度(姿勢類似度)を算出する。姿勢類似度の算出手段は特段制限されないが、例えば第3の実施形態で説明した手段を採用することができる。そして、類似度算出部13は、複数のペア各々に対応して算出した姿勢類似度の統計値(平均値、中央値、最頻値、最大値、最小値等)を、2つの時系列特徴量間の類似度として算出する。なお、類似度算出部13は、算出した統計値を所定のルールで規格化した値を、2つの時系列特徴量間の類似度として算出してもよい。
【0109】
-第2の算出方法-
第2の算出方法では、類似度算出部13は、時間間隔類似度に基づき、2つの時系列特徴量間の類似度を算出する。
【0110】
「時間間隔類似度」は、複数のキーフレーム間の時間間隔と複数のキー対応フレーム間の時間間隔の類似度である。
【0111】
まず、
図19を用いて、「複数のキー対応フレーム間の時間間隔」及び「複数のキーフレーム間の時間間隔」の概念を説明する。
【0112】
複数のキー対応フレーム間の時間間隔は、図示する例の場合、第1乃至第5のキー対応フレーム間の時間間隔である。
【0113】
例えば、複数のキー対応フレーム間の時間間隔は、時間的に隣接するキー対応フレーム間の時間間隔を含む概念であってもよい。
図19の例の場合、時間的に隣接するキー対応フレーム間の時間間隔は、第1及び第2のキー対応フレーム間の時間間隔、第2及び第3のキー対応フレーム間の時間間隔、第3及び第4のキー対応フレーム間の時間間隔、及び第4及び第5のキー対応フレーム間の時間間隔である。
【0114】
その他、複数のキー対応フレーム間の時間間隔は、時間的に最初と最後のキー対応フレーム間の時間間隔を含む概念であってもよい。
図19の例の場合、時間的に最初と最後のキー対応フレーム間の時間間隔は、第1及び第5のキー対応フレーム間の時間間隔である。
【0115】
その他、複数のキー対応フレーム間の時間間隔は、任意の手法で決定した基準のキー対応フレームと、その他のキー対応フレーム各々との間の時間間隔を含む概念であってもよい。
図19の例の場合、例えば第1のキー対応フレームを基準のキー対応フレームとすると、基準のキー対応フレームとその他のキー対応フレーム各々との間の時間間隔は、第1及び第2のキー対応フレーム間の時間間隔、第1及び第3のキー対応フレーム間の時間間隔、第1及び第4のキー対応フレーム間の時間間隔、及び第1及び第5のキー対応フレーム間の時間間隔である。なお、基準のキー対応フレームは、1つであってもよいし、複数であってもよい。
【0116】
「複数のキー対応フレーム間の時間間隔」は、上述した複数種類の時間間隔の中のいずれか1つであってもよいし、複数を含んでもよい。予め、上述した複数種類の時間間隔の中のいずれを複数のキー対応フレーム間の時間間隔とするか、定義されている。
図19の例の場合、第1及び第2のキー対応フレーム間の時間間隔、第2及び第3のキー対応フレーム間の時間間隔、第3及び第4のキー対応フレーム間の時間間隔、第4及び第5のキー対応フレーム間の時間間隔(以上、時間的に隣接するキー対応フレーム間の時間間隔)、第1及び第5のキー対応フレーム間の時間間隔(以上、時間的に最初と最後のキー対応フレーム間の時間間隔)、第1及び第2のキー対応フレーム間の時間間隔、第1及び第3のキー対応フレーム間の時間間隔、第1及び第4のキー対応フレーム間の時間間隔、第1及び第5のキー対応フレーム間の時間間隔(以上、基準のキー対応フレームとその他のキー対応フレーム各々との間の時間間隔の一例)の中のいずれか1つ又は複数が、複数のキー対応フレーム間の時間間隔となる。
【0117】
複数のキーフレーム間の時間間隔の概念は、上述した複数のキー対応フレーム間の時間間隔の概念と同様である。
【0118】
なお、2つのフレーム間の時間間隔は、その2つのフレーム間のフレーム数で示されてもよいし、その2つのフレーム間のフレーム数とフレームレートに基づき算出された2つのフレーム間の経過時間で示されてもよい。
【0119】
次に、時間間隔類似度の算出方法を説明する。複数のキー対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、1種類の時間間隔である場合、類似度算出部13は、その時間間隔の相違を、時間間隔類似度として算出する。時間間隔の相違は、差や変化率である。なお、類似度算出部13は、算出した時間間隔の相違を所定のルールで規格化した値を、時間間隔類似度として算出してもよい。当該例の場合、算出された時間間隔類似度が、2つの時系列特徴量間の類似度となる。
【0120】
一方、複数のキー対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、複数種類の時間間隔を含む場合、類似度算出部13は、まず、各種時間間隔毎に、その時間間隔の相違を、時間間隔類似度として算出する。時間間隔の相違は、差や変化率である。その後、類似度算出部13は、各種時間間隔毎に算出した時間間隔類似度の統計値を、2つの時系列特徴量間の類似度として算出する。統計値は、平均値、最大値、最小値、最頻値、中央値等が例示されるが、これらに限定されない。なお、類似度算出部13は、算出した統計値を所定のルールで規格化した値を、2つの時系列特徴量間の類似度として算出してもよい。
【0121】
-第3の算出方法-
第3の算出方法では、類似度算出部13は、変化方向類似度に基づき、2つの時系列特徴量間の類似度を算出する。
【0122】
「変化方向類似度」は、複数のキーフレームにおける人の姿勢の特徴量の変化の方向と、複数のキー対応フレームにおける人の姿勢の特徴量の変化の方向との類似度である。
【0123】
まず、類似度算出部13は、時系列な複数のキーフレームの時間軸に沿った特徴量の変化の方向を算出する。類似度算出部13は、例えば時系列順が隣接するキーフレーム間で人の姿勢の特徴量の変化の方向を算出する。
【0124】
例えば、特徴量は、
図11乃至
図13を用いて説明したキーポイントの特徴量であってもよい。この場合、類似度算出部13は、キーポイント毎に、数値の変化の方向を算出する。数値の変化の方向は、「数値が大きくなる方向」、「数値の変化なし」、「数値が小さくなる方向」の3つに分かれる。「数値の変化なし」は、特徴量の変化量の絶対値が0の場合であってもよいし、特徴量の変化量の絶対値が閾値以下の場合であってもよい。
【0125】
隣接するキーフレーム間で上記数値の変化の方向を算出することで、類似度算出部13は、キーポイント毎に、特徴量の変化の方向の時系列な変化を示す時系列データを算出することができる。当該時系列データは、例えば、「数値が大きくなる方向」→「数値が大きくなる方向」→「数値が大きくなる方向」→「数値の変化なし」→「数値の変化なし」→「数値が大きくなる方向」等のようになる。「数値が大きくなる方向」を例えば「1」、「数値の変化なし」を例えば「0」、「数値が小さくなる方向」を例えば「-1」と表すと、当該時系列データは、例えば「111001」のように数値列で表すことができる。
【0126】
その他、姿勢の特徴量は、骨格領域の高さや面積、また所定の関節の角度(3つのキーポイントのなす角)等で示されてもよい。この場合も、数値の変化の方向は、「数値が大きくなる方向」、「数値の変化なし」、「数値が小さくなる方向」の3つに分かれる。そして、3つ以上のキーフレームを処理対象とした場合、類似度算出部13は、上述の通り、特徴量の変化の方向の時系列な変化を示す時系列データを算出することができる。
【0127】
類似度算出部13は、上述のようにして算出した数値列間の類似度(変化方向類似度)を、2つの時系列特徴量間の類似度として算出する。なお、類似度算出部13は、上述のようにして算出した数値列間の類似度(変化方向類似度)を所定のルールで規格化した値を、2つの時系列特徴量間の類似度として算出してもよい。2つの数値列間の類似度の算出方法は特段制限されないが、例えば、数値列を文字列と捉え、2つの文字列間の類似度を算出する手法を採用してもよい。
【0128】
また、上記数値列が複数種類算出された場合(例えば、キーポイント毎の数値列、複数の関節の角度の数値列等)、類似度算出部13は、各種数値列間の類似度(変化方向類似度)を算出した後、各種数値列間の類似度の統計値を、2つの時系列特徴量間の類似度として算出する。統計値は、平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等であるが、これらに限定されない。加重平均値及び加重和とする場合の各種数値列間の類似度の重みは、ユーザが設定できてもよいし、予め定められていてもよい。
【0129】
-第4の算出方法-
第4の算出方法では、類似度算出部13は、キー対応フレームの特定結果に基づき、2つの時系列特徴量間の類似度を算出する。
【0130】
上述の通り、キー対応フレームは、キーフレームに含まれる人体の姿勢と所定レベル以上似た姿勢の人体を含むフレームである。キーフレームがQ個である場合、Q個のキー対応フレームが特定される場合もあれば、それより少ない数のキー対応フレームが特定される場合もある。また、Q個のキーフレームの時系列順と、特定された複数のキー対応フレームの時系列順とが一致する場合もあれば、異なる場合もある。類似度算出部13は、当該観点に基づき、2つの時系列特徴量間の類似度を算出する。
【0131】
例えば、類似度算出部13は、キーフレームと同数のキー対応フレームが特定されているか否かを判定する。そして、類似度算出部13は、その判定結果に基づき、2つの時系列特徴量間の類似度を算出する。類似度算出部13は、キーフレームと同数のキー対応フレームが特定されている場合、キーフレームよりも少ない数のキー対応フレームが特定されている場合に比べて、高い類似度を算出する。また、キーフレームよりも少ない数のキー対応フレームが特定されている場合、類似度算出部13は、特定されているキー対応フレームの数が多いほど、高い類似度を算出する。当該基準で類似度を算出するアルゴリズムは特段制限されず、あらゆる手法を採用できる。
【0132】
その他、類似度算出部13は、複数のキーフレームの時系列順と、複数のキー対応フレームの時系列順との類似度を、2つの時系列特徴量間の類似度として算出する。時系列順の類似度の算出手法は特段制限されないが、例えば、以下の手法を採用してもよい。
【0133】
複数のキーフレームの時系列順は、上述したNの値を用いて、例えば「12345」のような数値列で示すことができる。この数値列は、第1乃至第5のキーフレームの時系列順が、「第1のキーフレーム→第2のキーフレーム→第3のキーフレーム→第4のキーフレーム→第5のキーフレーム」であることを示す。同様に、複数のキー対応フレームの時系列順も、上述したNの値を用いて、例えば「12435」のような数値列で示すことができる。この数値列は、第1乃至第5のキー対応フレームの時系列順が、「第1のキー対応フレーム→第2のキー対応フレーム→第4のキー対応フレーム→第3のキー対応フレーム→第5のキーフレーム」であることを示す。そして、類似度算出部13は、この数値列を文字列と捉え、2つの文字列間の類似度を算出する手法を用いて、複数のキーフレームの時系列順と、複数のキー対応フレームの時系列順との類似度を算出してもよい。
【0134】
-第5の算出手法-
第5の算出手法では、類似度算出部13は、第1乃至第4の算出手法の中の複数を用いて、2つの時系列特徴量間の類似度を算出する。
【0135】
類似度算出部13は、第1乃至第4の算出手法のいずれか複数で算出した類似度を、互いに比較可能に規格化する。そして、類似度算出部13は、各方法で算出した類似度の統計値を、2つの時系列特徴量間の類似度として算出する。統計値は、平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等であるが、これらに限定されない。加重平均値及び加重和とする場合の各種算出方法で算出した類似度の重みは、ユーザが設定できてもよいし、予め定められていてもよい。
【0136】
本実施形態の行動分類装置10のその他の構成は、第1乃至第3の実施形態と同様である。
【0137】
本実施形態の行動分類装置10によれば、第1乃至第3の実施形態と同様の作用効果が実現される。また、本実施形態の行動分類装置10によれば、互いに異なる数のフレーム分の2つの時系列特徴量間の類似度を、精度よく算出することが可能となる。結果、行動分類の精度が向上する。
【0138】
<第6の実施形態>
本実施形態の行動分類装置10は、特徴的なUI(user interface)画面を出力する。以下、詳細に説明する。
【0139】
分類部14は、
図20に示すようなUI画面をディスプレイに表示する。図示するUI画面は、動画確認画面を表示する領域と、分類結果を表示する領域と、各種重みを指定するユーザ入力を受付けるUI部品を表示する領域とを有する。
【0140】
分類結果を表示する領域には、抽出部11により抽出された複数の人の動きを分類した結果が示される。上述の通り、分類部14は、抽出部11により抽出された複数の人の動きを似たもの同士でまとめて複数のクラスタを作成する。
図20の例では、クラスタごとに分けて、各クラスタに属する人の動きの中の代表のサムネイルが表示されている。
図20の例では、3つクラスタが表示されている。そして、クラスタごとに、2つ又は3つの代表のサムネイルが表示されている。
【0141】
代表の選出手法としては、(1)クラスタの中心から近い方から順に所定数を選ぶ手法や、(2)ランダムに所定数を選ぶ手法等が考えられる。また、同一人物の動きが重複して代表となることを除外する等の所定の条件を設けてもよい。クラスタの中心の算出方法は特段制限されず、あらゆる技術を採用できる。
【0142】
動画確認画面では、解析した動画が再生される。再生位置は、ユーザが指定できる。例えば、ユーザは、図示する分類結果の中から1つのサムネイルを選択する入力を行ってもよい。そして、分類部14は、選択された人の動きを含むシーンの冒頭から(又は、そこよりも所定時間前から)、動画を再生してもよい。なお、図示する例では、各人物から検出されたキーポイントやボーンを各人物に重畳表示しているが、キーポイントやボーンの表示はあってもよいし、なくてもよい。
【0143】
各種重みを指定するユーザ入力を受付けるUI部品を表示する領域においては、「形」、「変化」及び「長さ」各々に対応したスライダーが表示されている。そして、各々に対応して、0~1の範囲で重みを指定可能になっている。「形」は、第5の実施形態で説明した姿勢類似度に対応する。「変化」は、第5の実施形態で説明した変化方向類似度に対応する。「長さ」は、第5の実施形態で説明した時間間隔類似度に対応する。
【0144】
なお、この例では、姿勢類似度、変化方向類似度、及び時間間隔類似度の3つの重みを指定可能になっているが、これは一例であり、これに限定されない。さらに、第5の実施形態で説明したキー対応フレームの特定結果の重みを指定可能になっていてもよいし、いずれか2種類の重みを指定可能になっていてもよい。
【0145】
また、図示する例では、複数のキーポイント各々の重みを指定可能になっている。図中に、各キーポイントに紐付けて表示された1及び2が、各キーポイントの重みである。そして、黒く塗りつぶされていないキーポイントは、重みが0(類似度算出において考慮されない)ことを意味する。例えば、ユーザは、キーポイント毎に所定の入力を行うことで、図示するように、キーポイント毎の重みを設定することができる。そして、ユーザは、図示する画面より、現時点で設定している各種重みを把握することができる。
【0146】
なお、図示するUI部品においてユーザが各種重みを変更する入力を行うと、それに応じて、類似度算出部13は新たに設定された重みに基づき、類似度を算出し直してもよい。そして、分類部14は、新たに算出された類似度に基づき、動画から抽出された複数の人の動きを分類し直し、図示する分類結果を新たな分類結果に更新してもよい。
【0147】
本実施形態の行動分類装置10のその他の構成は、第1乃至第5の実施形態と同様である。
【0148】
本実施形態の行動分類装置10によれば、第1乃至第5の実施形態と同様の作用効果が実現される。また、本実施形態の行動分類装置10によれば、ユーザは、各種重みを容易に設定し、容易に現在の設定内容を把握することができる、また、ユーザは、分類結果を容易に把握することができる。
【0149】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。
【0150】
また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。
【0151】
上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1. 動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出手段と、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出手段と、
複数の前記時系列特徴量間の類似度を算出する類似度算出手段と、
前記類似度に基づき、抽出された複数の人の動きを分類する分類手段と、
を有する行動分類装置。
2. 前記類似度算出手段は、
互いに異なる数のフレーム分の2つの前記時系列特徴量間の類似度を算出する場合、
各フレームにおける人の姿勢の特徴量の類似度に基づき、一方の前記時系列特徴量の各フレームに対応する他方の前記時系列特徴量のフレームを特定し、
互いに対応するフレームにおける人の姿勢の特徴量の類似度に基づき、2つの前記時系列特徴量間の類似度を算出する1に記載の行動分類装置。
3. 前記類似度算出手段は、
互いに異なる数のフレーム分の2つの前記時系列特徴量間の類似度を算出する場合、
一方の前記時系列特徴量の前記任意数のフレームの中から複数のキーフレームを抽出し、
他方の前記時系列特徴量の前記任意数のフレームの中から、人の姿勢の特徴量に基づき、複数の前記キーフレーム各々に対応するキー対応フレームを特定し、
複数の前記キーフレーム各々における人の姿勢の特徴量と複数の前記キー対応フレーム各々における人の姿勢の特徴量との間の類似度である姿勢類似度、複数の前記キーフレーム間の時間間隔と複数の前記キー対応フレーム間の時間間隔の類似度である時間間隔類似度、複数の前記キーフレームにおける人の姿勢の特徴量の変化の方向と複数の前記キー対応フレームにおける人の姿勢の特徴量の変化の方向の類似度である変化方向類似度、及び前記キー対応フレームの特定結果の中の少なくとも1つに基づき、2つの前記時系列特徴量間の類似度を算出する1に記載の行動分類装置。
4. 前記類似度算出手段は、
前記姿勢類似度、前記時間間隔類似度、及び前記変化方向類似度の中の複数種類の類似度に基づき、複数の前記時系列特徴量間の類似度を算出し、
複数種類の前記類似度各々に設定された重みに基づき、複数の前記時系列特徴量間の類似度を算出する3に記載の行動分類装置。
5. 前記類似度算出手段は、
ユーザ入力で設定された複数種類の前記類似度各々の重みに基づき、複数の前記時系列特徴量間の類似度を算出する4に記載の行動分類装置。
6. 前記抽出手段は、
同一人物を追跡する追跡エンジンを用いて、前記動画の中から、任意数のフレームに連続して現れる複数の人物を検出し、
前記検出された複数の人物各々が前記任意数のフレームで示す動きを、前記任意数のフレームで示される人の動きとして抽出する1から5のいずれかに記載の行動分類装置。
7. 前記抽出手段は、
前記検出された人物が連続して現れるフレーム数が下限数以下である場合、前記下限数以下のフレームで示される人の動きを、前記任意数のフレームで示される人の動きとして抽出しない6に記載の行動分類装置。
8. 前記抽出手段は、
前記検出された人物が上限数以上のフレームに連続して出現している場合、その人物が連続して出現している複数のフレームを複数のグループに分割し、複数のグループ各々に属する複数のフレームで示される人の動き各々を、前記任意数のフレームで示される人の動きとして抽出する6又は7に記載の行動分類装置。
9. コンピュータが、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出工程と、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出工程と、
複数の前記時系列特徴量間の類似度を算出する類似度算出工程と、
前記類似度に基づき、抽出された複数の人の動きを分類する分類工程と、
を有する行動分類方法。
10. コンピュータを、
動画の中から、任意数のフレームで示される人の動きを複数抽出する抽出手段、
抽出された前記人の動き毎に、前記任意数のフレーム各々における人の姿勢の特徴量を算出することで、任意数のフレーム分の時系列特徴量を算出する時系列特徴量算出手段、
複数の前記時系列特徴量間の類似度を算出する類似度算出手段、
前記類似度に基づき、抽出された複数の人の動きを分類する分類手段、
として機能させるプログラム。
【符号の説明】
【0152】
10 行動分類装置
11 抽出部
12 時系列特徴量算出部
13 類似度算出部
14 分類部
1A プロセッサ
2A メモリ
3A 入出力I/F
4A 周辺回路
5A バス