IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7655156類似映像検索プログラム、装置、及び方法
<>
  • 特許-類似映像検索プログラム、装置、及び方法 図1
  • 特許-類似映像検索プログラム、装置、及び方法 図2
  • 特許-類似映像検索プログラム、装置、及び方法 図3
  • 特許-類似映像検索プログラム、装置、及び方法 図4
  • 特許-類似映像検索プログラム、装置、及び方法 図5
  • 特許-類似映像検索プログラム、装置、及び方法 図6
  • 特許-類似映像検索プログラム、装置、及び方法 図7
  • 特許-類似映像検索プログラム、装置、及び方法 図8
  • 特許-類似映像検索プログラム、装置、及び方法 図9
  • 特許-類似映像検索プログラム、装置、及び方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-25
(45)【発行日】2025-04-02
(54)【発明の名称】類似映像検索プログラム、装置、及び方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20250326BHJP
   G06F 16/735 20190101ALI20250326BHJP
【FI】
G06T7/20 300A
G06F16/735
【請求項の数】 9
(21)【出願番号】P 2021143541
(22)【出願日】2021-09-02
(65)【公開番号】P2023036473
(43)【公開日】2023-03-14
【審査請求日】2024-05-09
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】齊藤 孝広
【審査官】豊田 好一
(56)【参考文献】
【文献】国際公開第2018/025831(WO,A1)
【文献】国際公開第2011/089884(WO,A1)
【文献】特開2007-323268(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
G06F 16/735
(57)【特許請求の範囲】
【請求項1】
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識し、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類し、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する
ことを含む処理をコンピュータに実行させる類似映像検索プログラム。
【請求項2】
前記第一の映像に含まれる物体をさらに認識し、
前記動作の種類は、人物に対する対人動作、及び物体に対する対物動作を含む
請求項1に記載の類似映像検索プログラム。
【請求項3】
前記複数のグループのいずれかに分類する処理は、対人動作の動作主である人物と前記対人動作の対象の人物とを同一のグループに分類すること、及び、同一の物体に対する対物動作の動作主である人物を同一のグループに分類することを含む請求項2に記載の類似映像検索プログラム。
【請求項4】
前記第一の特徴量は、前記第一の映像に含まれる人物の総数に対する、前記対人動作又は前記対物動作を行うグループに属する人物の数の割合、及び、前記対人動作又は前記対物動作を行うグループに属する人物の数に対する、前記対人動作又は前記対物動作を行うグループの数の割合の少なくとも一方を含む請求項2又は請求項3に記載の類似映像検索プログラム。
【請求項5】
前記第二の映像を特定する処理は、同一種類の動作のグループに含まれる人物同士の動作に関する第二の特徴量の類似度に基づいて、前記第二の映像を特定することを含む請求項1~請求項4のいずれか1項に記載の類似映像検索プログラム。
【請求項6】
前記第二の映像を特定する処理は、前記複数の映像の中から、前記第一の特徴量の類似度と、前記第二の特徴量の類似度とを統合した統合類似度が所定値以上となる映像、又は前記統合類似度が高い順に上位所定個の映像を特定することを含む請求項5に記載の類似映像検索プログラム。
【請求項7】
前記第二の映像を特定する処理は、
前記複数の映像の中から、前記第一の特徴量の類似度が所定値以上となる映像、又は前記第一の特徴量の類似度が高い順に上位所定個の映像を、候補映像として抽出し、
前記候補映像の中から、前記第二の特徴量の類似度若しくは前記第一の特徴量の類似度と前記第二の特徴量の類似度とを統合した統合類似度が所定値以上となる映像、又は前記第二の特徴量の類似度若しくは前記統合類似度が高い順に上位所定個の候補映像を、前記第二の映像として特定する
ことを含む請求項5に記載の類似映像検索プログラム。
【請求項8】
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識する認識部と、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類する分類部と、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する特定部と、
を含む類似映像検索装置。
【請求項9】
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識し、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類し、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する
ことを含む処理をコンピュータが実行する類似映像検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、類似映像検索プログラム、類似映像検索装置、及び類似映像検索方法に関する。
【背景技術】
【0002】
従来、1つの映像を入力として、多量に蓄積された映像アーカイブの中から、入力された映像に類似する映像を検索することが行われている。類似する映像を検索する手法としては、色の分布が似ている等の画像的な類似度に基づく手法、物体認識により、入力映像中の物体とそのカテゴリを認識し、同じカテゴリの物体が映っている映像を検索する手法等がある。また、行動認識により、入力映像中の人物の行動と同じような行動を行っている人物が映っている映像を検索する手法もある。
【0003】
例えば、入力された映像から顔姿勢データを検出し、検出された顔姿勢データと、分類の区分となる各種シーン毎に、シーンと対応させて顔姿勢データを参照顔姿勢データとの類似度に基づいて、入力された映像のシーンを分類する映像分類装置が提案されている。
【0004】
また、例えば、一の動画コンテンツから動画コンテンツの特徴を表す複数の特徴量を抽出し、抽出された特徴量を人物又は背景に対応付け、対応付けされた特徴量と、他の動画コンテンツにおける特徴量との一致度を判定する情報処理装置が提案されている。この情報処理装置は、特徴量が抽出された一の動画コンテンツの一シーンと、他の動画コンテンツの一シーンとで複数の特徴量を比較した比較結果によって、一の動画コンテンツの一シーンと他の動画コンテンツの一シーンの関係性を推測する。
【0005】
また、例えば、複数の動作映像及び各動作映像を特徴付ける特徴データを記憶する映像記憶部を有する映像提供装置が提案されている。この映像提供装置は、ユーザの身体の動作から特徴データを取得し、取得された特徴データと映像記憶部に記憶された特徴データとを比較して、映像記憶部からユーザの身体の動作に類似する動作映像を取得する。
【先行技術文献】
【特許文献】
【0006】
【文献】国際公開2006/025272号公報
【文献】特開2011-188342号公報
【文献】特開2007-323268号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
行動認識により類似する映像を検索する手法において、行動認識として、ジェスチャ等の動作を認識する技術は知られている。しかし、特定のジェスチャを認識する技術では、一人の行動を認識することに限定される。複数人が映っている映像を入力し、その中の一人の行動が類似する映像を検索するのではなく、類似するシーンを検索したい場合がある。この場合、上述のジェスチャを認識する技術のように、個人の行動に着目する行動認識を用いた場合には、所望の類似する映像を検索することができない場合がある。
【0008】
一つの側面として、開示の技術は、複数の人物の行動が類似する映像を検索することを目的とする。
【課題を解決するための手段】
【0009】
一つの態様として、開示の技術は、第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識する。また、開示の技術は、認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類する。そして、開示の技術は、前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する。
【発明の効果】
【0010】
一つの側面として、複数の人物の行動が類似する映像を検索することができる、という効果を有する。
【図面の簡単な説明】
【0011】
図1】類似映像検索装置の機能ブロック図である。
図2】認識及び分類の結果の一例を示す図である。
図3】映像DBの一例を示す図である。
図4】類似映像検索装置として機能するコンピュータの概略構成を示すブロック図である。
図5】類似映像検索処理の一例を示すフローチャートである。
図6】類似映像検索装置の処理の概略を示す図である。
図7】入力映像及び対象映像の各々の傾向特徴量の一例を示す図である。
図8】入力映像と対象映像との傾向類似度の一例を示す図である。
図9】入力映像と対象映像とのAグループ間類似度の一例を示す図である。
図10】入力映像と対象映像との映像間類似度の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
【0013】
図1に示すように、本実施形態に係る類似映像検索装置10は、機能的には、認識部12と、分類部14と、特定部16とを含む。また、類似映像検索装置10の所定の記憶領域には、映像DB(Database)20が記憶される。
【0014】
認識部12は、類似映像検索装置10に入力された入力映像を取得し、入力映像に含まれる複数の人物の各々を認識すると共に、複数の人物の各々が行う動作を認識する。さらに、認識部12は、入力映像に含まれる物体を認識する。入力映像は、開示の技術の「第一の映像」の一例である。
【0015】
具体的には、認識部12は、例えば、予め機械学習により生成されたニューラルネットワーク等の人物認識モデルを用いて、入力映像から人物の各々を認識する。認識部12は、認識した人物の各々に識別情報(以下、「人物ID」という)を付与する。また、認識部12は、例えば、予め機械学習により生成されたニューラルネットワーク等の物体認識モデルを用いて、入力映像から物体の各々を認識する。ここでの物体には、壁や柱等の静止物、車両等の移動体、鞄や段ボール箱等の可搬型の物体、動植物等、人物以外の様々なものが含まれる。認識部12は、認識した物体の各々に識別情報(以下、「物体ID」という)を付与する。
【0016】
また、認識部12は、例えば、既存のジェスチャ認識等の行動認識技術により、入力映像から認識した人物の各々の動作を認識する。動作は、例えば、殴る、蹴る、歩く、運ぶ等である。また、認識部12は、認識した動作が、他の人物に対する直接的な動作である対人動作の場合には、動作対象である他の人物の人物IDも認識する。また、認識部12は、認識した動作が、物体に対する直接的な動作である対物動作の場合には、動作対象である物体の物体IDも認識する。認識部12は、入力映像に含まれる人物毎に、人物IDと、その人物について認識した動作と、認識した動作が対人動作又は対物動作の場合には動作対象の人物ID又は物体IDとを対応付けて、所定の記憶領域に記憶する。図2に、人物毎の「人物ID」、「動作」、及び「動作対象」をテーブル形式で記憶した一例を示す。なお、図2における「動作種類」及び「グループ」については後述する。
【0017】
分類部14は、入力映像から認識された複数の人物の各々の動作に基づいて、複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類する。本実施形態では、動作の種類を、上述の対人動作(例えば、殴る、蹴る等)、対物動作(例えば、運ぶ等)、及び動作対象のないその他の動作(例えば、歩く等)とする場合について説明する。分類部14は、人物毎に、その人物の動作の種類を示す識別情報(以下、「種類ID」という)を付与する。ここでは、対人動作の種類IDを「A」、対物動作の種類IDを「B」、その他の動作の種類IDを「C」とする。
【0018】
また、分類部14は、対人動作の動作主である人物と、その対人動作の動作対象である人物とを同一のグループに分類する。具体的には、分類部14は、対人動作を示す種類ID=Aが付与された人物の人物IDと対応付けて記憶された動作対象の人物IDを参照して、動作主及び動作対象となる人物同士の関係を特定することにより、対人動作を行う人物をグループ化する。例えば、分類部14は、人物Sが人物Tを動作対象として対人動作を行っており、人物Tが人物Uを動作対象として対人動作を行っている場合は、人物S、T、及びUの3人を同一のグループに分類する。
【0019】
また、分類部14は、同一の物体に対する対物動作の動作主である人物を同一のグループに分類する。具体的には、分類部14は、対物動作を示す種類ID=Bが付与された人物の人物IDと対応付けて記憶された動作対象の物体IDを参照して、物体IDが共通する動作主である人物を1つのグループに分類する。物体の種別が同一であっても、異なる物体に対する対物動作を行っている人物同士は、異なるグループに分類される。例えば、人物P及び人物Qが、各々段ボール箱を運ぶという対物動作を行っている場合でも、人物Pが運ぶ段ボール箱と、人物Qが運ぶ段ボール箱とが異なる場合、すなわち物体IDが異なる場合、人物Pと人物Qとは異なるグループに分類される。
【0020】
また、分類部14は、その他の動作を行っている人物を同一のグループに分類する。具体的には、分類部14は、その他の動作を示す種類ID=Cが付与された人物をまとめて1つのグループに分類する。分類部14は、分類した各グループに、グループの識別情報(以下、「グループID」という)を付与する。図2の「動作種類」は、対応する人物IDが示す人物の動作の種類の種類IDであり、「グループ」は、対応する人物IDが示す人物が分類されたグループのグループIDである。図2の例では、グループIDとして、種類IDがX(X=A,B,C)である人物が属するグループを、種類IDを小文字にしたx(x=a,b,c)と、例えば通し番号等の識別番号kとを組み合わせた「xk」で表している。以下では、種類IDがXの動作の種類を「動作種類X」、動作種類Xのグループを「Xグループ」、グループIDがxkのグループを「グループxk」ともいう。
【0021】
特定部16は、分類部14により分類されたグループの数及びグループ毎に属する人物の数の少なくとも一方に基づいて、入力映像に含まれる複数の人物による行動の大まかな傾向を表す傾向特徴量を算出する。傾向特徴量は、開示の技術の「第一の特徴量」の一例である。具体的には、特定部16は、入力映像に含まれる人物の総数に対する、対人動作又は対物動作を行うグループに属する人物の数の割合を含む傾向特徴量を算出してよい。また、特定部16は、対人動作又は対物動作を行うグループに属する人物の数に対する、対人動作又は対物動作を行うグループの数の割合を含む傾向特徴量を算出してもよい。
【0022】
例えば、特定部16は、下記(i)~(iv)の各値を要素とする特徴ベクトルを、傾向特徴量として算出してよい。
(i)入力映像に含まれる人物の総数に対する、Aグループに属する人物の数の割合
(ii)Aグループに属する人物の数に対する、Aグループのグループ数の割合
(iii)入力映像に含まれる人物の総数に対する、Bグループに属する人物の数の割合
(iv)Bグループに属する人物の数に対する、Bグループのグループ数の割合
【0023】
特定部16は、算出した入力映像の傾向特徴量に基づいて、映像DB20に記憶された複数の映像の中から、入力映像と類似する映像を特定する。入力映像と類似する映像は、開示の技術の「第二の映像」の一例である。
【0024】
映像DB20には、例えば、図3に示すように、複数の映像の各々について、映像の識別情報(以下、「映像ID」という)と、映像データと、傾向特徴量と、動作特徴量とが対応付けて記憶されている。傾向特徴量は、上記の入力映像の傾向特徴量と同様の算出方法により、各映像について事前に算出されたものである。動作特徴量の詳細は後述するが、傾向特徴量と同様に、後述する算出方法により、各映像について事前に算出されたものである。
【0025】
具体的には、特定部16は、映像DB20に記憶された複数の映像のうち、入力映像との類似を判定する対象の映像(以下、「対象映像」という)と入力映像との傾向特徴量の類似度である傾向類似度を算出する。例えば、特定部16は、傾向特徴量を表す特徴ベクトル間のコサイン類似度を傾向類似度として算出してよい。
【0026】
また、特定部16は、同一種類の動作のグループに含まれる人物同士の動作に関する動作特徴量に基づくグループ間類似度を算出する。動作特徴量は、開示の技術の「第二の特徴量」の一例である。動作特徴量としては、例えば、各人物の動作を認識する際に利用した行動認識技術において算出される特徴量、例えば、ジェスチャ認識で得られる各関節の座標値等を利用してよい。具体的には、特定部16は、入力映像においてAグループに含まれる人物と、対象映像においてAグループに含まれる人物との全ての組み合わせについて、動作特徴量の類似度を算出する。この類似度としては、上記と同様に、例えば、動作特徴量を表す特徴ベクトル間のコサイン類似度としてよい。そして、特定部16は、算出した各々の動作特徴量の平均、最大値等の統計値を、Aグループのグループ間類似度(以下、「Aグループ間類似度」という)として算出する。特定部16は、Bグループ及びCグループの各々についても同様に、Bグループ間類似度及びCグループ間類似度を算出する。そして、特定部16は、Aグループ間類似度、Bグループ間類似度、及びCグループ間類似度の平均、最大値等の統計値を、入力映像と対象映像とのグループ間類似度として算出する。
【0027】
また、特定部16は、入力映像と対象映像との傾向類似度及びグループ間類似度を統合した映像間類似度を算出する。映像間類似度は、開示の技術の「統合類似度」の一例である。例えば、特定部16は、傾向類似度とグループ間類似度との和、重み付き和、又は積等を映像間類似度として算出する。特定部16は、映像DB20に記憶された複数の映像の中から、映像間類似度が所定値以上となる映像、又は映像間類似度が高い順に上位所定個の映像を、入力映像に類似する映像として特定する。特定部16は、特定した映像を検索結果として出力する。
【0028】
類似映像検索装置10は、例えば図4に示すコンピュータ40で実現されてよい。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
【0029】
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現されてよい。記憶媒体としての記憶部43には、コンピュータ40を、類似映像検索装置10として機能させるための類似映像検索プログラム50が記憶される。類似映像検索プログラム50は、認識プロセス52と、分類プロセス54と、特定プロセス56とを有する。また、記憶部43は、映像DB20を構成する情報が記憶される情報記憶領域60を有する。
【0030】
CPU41は、類似映像検索プログラム50を記憶部43から読み出してメモリ42に展開し、類似映像検索プログラム50が有するプロセスを順次実行する。CPU41は、認識プロセス52を実行することで、図1に示す認識部12として動作する。また、CPU41は、分類プロセス54を実行することで、図1に示す分類部14として動作する。また、CPU41は、特定プロセス56を実行することで、図1に示す特定部16として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、映像DB20をメモリ42に展開する。これにより、類似映像検索プログラム50を実行したコンピュータ40が、類似映像検索装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
【0031】
なお、類似映像検索プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
【0032】
次に、本実施形態に係る類似映像検索装置10の作用について説明する。類似映像検索装置10に入力映像が入力され、類似映像の検索が指示されると、類似映像検索装置10において、図5に示す類似映像検索処理が実行される。なお、類似映像検索処理は、開示の技術の類似映像検索方法の一例である。
【0033】
ステップS10で、認識部12が、類似映像検索装置10に入力された入力映像を取得する。次に、ステップS12で、認識部12が、取得した入力映像に含まれる複数の人物の各々、物体の各々、及び複数の人物の各々が行う動作を認識する。そして、認識部12が、入力映像に含まれる人物毎に、人物IDと、その人物について認識した動作と、認識した動作が対人動作又は対物動作の場合には動作対象の人物ID又は物体IDとを対応付けて、所定の記憶領域に記憶する。
【0034】
次に、ステップS14で、分類部14が、入力映像から認識された複数の人物の各々の動作に基づいて、複数の人物の各々の動作の種類を特定し、人物IDに対応付けて動作の種類を示す種類ID(A、B、又はC)を記憶する。また、分類部14が、図6のEに示すように、対人動作の動作主である人物と、その対人動作の動作対象である人物とを同一のグループ(Aグループ)に分類し、同一の物体に対する対物動作の動作主である人物を同一のグループ(Bグループ)に分類する。また、分類部14が、その他の動作を行っている人物を同一のグループに分類する。そして、分類部14が、分類した各グループにグループIDを付与し、人物IDに対応付けて、各人物が属するグループのグループIDを記憶する。
【0035】
次に、ステップS16で、特定部16が、入力映像について、例えば、上記(i)~(iv)の各値を要素とする特徴ベクトルを、傾向特徴量として算出する。次に、ステップS18で、特定部16が、映像DB20に記憶された複数の映像から対象映像を1つ選択する。次に、ステップS20で、特定部16が、図6のFに示すように、上記ステップS16で算出した入力映像の傾向特徴量と、映像DB20に対象映像に対応付けて記憶されている対象映像の傾向特徴量との類似度である傾向類似度を算出する。
【0036】
次に、ステップS22で、特定部16が、入力映像においてAグループに含まれる人物と、対象映像においてAグループに含まれる人物との全ての組み合わせについて、動作特徴量の類似度を算出する。そして、図6のGに示すように、特定部16が、算出した各々の動作特徴量の統計値(例えば、最大値)をAグループ間類似度として算出し、同様に、Bグループ間類似度及びCグループ間類似度を算出する。そして、特定部16が、Aグループ間類似度、Bグループ間類似度、及びCグループ間類似度の統計値(例えば、最大値)を、入力映像と対象映像とのグループ間類似度として算出する。
【0037】
次に、ステップS24で、特定部16は、図6のHに示すように、入力映像と対象映像との傾向類似度及びグループ間類似度を乗算するなどして統合した映像間類似度を算出する。次に、ステップS26で、特定部16が、映像間類似度が所定値以上か否かを判定する。映像間類似度が所定値以上の場合には、ステップS28へ移行し、特定部16が、上記ステップS18で選択した対象映像を検索結果リストに追加し、ステップS32へ移行する。
【0038】
一方、映像間類似度が所定値未満の場合には、ステップS30へ移行し、特定部16が、映像DB20に次の対象映像が存在するか否かを判定する。対象映像が存在する場合には、ステップS18に戻り、存在しない場合には、ステップS32へ移行する。ステップS32では、特定部16が、検索結果リストに含まれる映像を、各映像について算出された映像間類似度が高い順に並べ替えるなどして検索結果を生成し、生成した検索結果を出力し、類似映像検索処理は終了する。
【0039】
次に、具体例に基づいて、本実施形態に係る類似映像検索装置10における、入力映像と対象映像との類似の判定の一例について説明する。
【0040】
入力映像を、10人が入り乱れて殴り合う路上での乱闘の映像であって、乱闘とは無関係な3人の通行人も映っている映像とする。また、対象映像1を、2人の選手がリング上で殴り合うボクシングの試合の映像であって、リング上の2人の他に、レフリー1人、セコンド2人を含む他の人物も映っている映像とする。また、対象映像2を、2人の練習生がリング上でスパーリングしているボクシングジムでの練習風景の映像であって、リング上の2人の他に、それぞれが器具等を用いてトレーニングしている10人の練習生、及びコーチ1人も映っている映像とする。また、対象映像3を、12人が入り乱れて殴り合う路上での乱闘の映像であって、無関係な通行人は映っていない映像とする。
【0041】
人物及び物体の認識において、いずれの映像からも、複数の人物が認識される。また、対象映像2からは、対物動作の動作対象の物体として、サンドバッグ、トレーニング機器等も認識される。また、人物の動作の認識において、いずれの映像からも、「人を殴る」という対人動作が認識される。また、対象映像2からは、「トレーニング機械の操作」という対物動作も認識される。
【0042】
人物の動作の種類に基づくグループへの分類の処理まで終えたところで、入力映像について、図2に示すように、人物毎の動作、動作対象、動作の種類、及びグループが得られたとする。例えば、人物IDがi1の人物(以下、「人物i1」という。他の人物IDについても同様)と人物i2が殴り合っているとする。この場合、図2に示すように、人物i1及び人物i2でグループa1が構成される。また、例えば、人物i3及び人物i4は、人物i5を攻撃し、人物i5は人物i4に反撃しているとする。この場合、図2に示すように、人物i3、人物i4、及び人物i5でグループa2が構成される。
【0043】
図7に、各映像の傾向特徴量の一例を示す。図7の例では、上記(i)~(iv)を要素とする特徴ベクトルで表される傾向特報量が算出される場合を表している。図8に、図7に示す傾向特徴量を用いて算出した、入力映像と各対象映像との傾向類似度を示す。図8は、傾向特徴量間のコサイン類似度を傾向類似度として算出した例である。例えば、入力映像と対象映像1との傾向類似度は、図7に示す傾向特徴量を用いて、下記のように算出される。
【0044】
傾向類似度(入力映像,対象映像1)
=(10/13*2/5+4/10*1/2+0*0+0*0)/
{sqrt((10/13)^2+(4/10)^2+0^2+0^2)*sqrt((2/5)^2+(1/2)^2+0^2+0^2)}
=0.91
【0045】
Aグループに属する人物間で動作の類似性を評価すると、3つの対象映像の全部で類似する動作(「殴る」)が観測される。Aグループ間類似度として、Aグループに含まれる人物間の動作特徴量の類似度の最大値を採用した場合、例えば、図9に示すようにAグループ間類似度が算出される。入力映像中の人物と非常に似ている動作をしている人物が対象映像2に含まれていたとすると、対象映像2のAグループ間類似度が極めて高くなる。一方、入力映像には、Bグループに属する人物は存在しないため、Bグループ間類似度は0となる。
【0046】
図10に、グループ間類似度を、Aグループ間類似度とBグループ間類似度との最大値とし、映像間類似度を「映像間類似度=グループ間類似度×傾向類似度」とした場合の、入力映像と各対象映像との映像間類似度を示す。映像に含まれる複数の人物の行動を考慮することなく、映像中の特定人物の動作の類似度を用いて映像間の類似度を判定する場合、入力映像に最も類似する映像は対象映像2であると判定されてしまう。一方、本実施形態によれば、映像に含まれる複数の人物の動作の傾向を示す傾向特徴量による傾向類似度を加味するため、対象映像3を、入力映像に最も類似する映像として判定することができる。これにより、対象映像3をランキング1位とする検索結果を出力することができる。
【0047】
以上説明したように、本実施形態に係る類似映像検索装置は、入力映像に含まれる複数の人物の各々、及び物体の各々を認識すると共に、複数の人物の各々が行う動作を認識する。そして、類似映像検索装置は、認識された複数の人物の各々が行う動作に基づいて、複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類する。さらに、類似映像検索装置は、グループの数及びグループ毎に属する人物の数の少なくとも一方に関する傾向特徴量に基づいて、複数の映像の中から、入力映像と類似する映像を特定し、特定した映像を検索結果として出力する。これにより、複数の人物の行動が類似する映像を検索することができる。
【0048】
なお、上記実施形態では、映像DBに記憶された全ての映像を対象映像として映像間類似度を算出する場合について説明したが、これに限定されない。例えば、入力映像との傾向類似度が所定値以上、又は傾向類似度が上位所定個の映像を候補映像として抽出し、候補映像の中から、グループ間類似度又は映像間類似度に基づいて、検索結果を得るようにしてもよい。また、例えば、類似度の判定精度が緩くてもよい場合などには、入力映像との傾向類似度のみで検索結果を得るようにしてもよい。
【0049】
開示の技術は、例えば、ニュース等のテレビ番組で利用するための参照映像を、映像アーカイブから検索する場合や、監視カメラの映像から犯罪等の現場を検出する場合等に利用することができる。
【0050】
また、上記実施形態では、類似映像検索プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の非一時的記憶媒体に記憶された形態で提供することも可能である。
【0051】
以上の実施形態に関し、さらに以下の付記を開示する。
【0052】
(付記1)
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識し、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類し、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する
ことを含む処理をコンピュータに実行させる類似映像検索プログラム。
【0053】
(付記2)
前記第一の映像に含まれる物体をさらに認識し、
前記動作の種類は、人物に対する対人動作、及び物体に対する対物動作を含む
付記1に記載の類似映像検索プログラム。
【0054】
(付記3)
前記複数のグループのいずれかに分類する処理は、対人動作の動作主である人物と前記対人動作の対象の人物とを同一のグループに分類すること、及び、同一の物体に対する対物動作の動作主である人物を同一のグループに分類することを含む付記2に記載の類似映像検索プログラム。
【0055】
(付記4)
前記第一の特徴量は、前記第一の映像に含まれる人物の総数に対する、前記対人動作又は前記対物動作を行うグループに属する人物の数の割合、及び、前記対人動作又は前記対物動作を行うグループに属する人物の数に対する、前記対人動作又は前記対物動作を行うグループの数の割合の少なくとも一方を含む付記2又は付記3に記載の類似映像検索プログラム。
【0056】
(付記5)
前記第二の映像を特定する処理は、同一種類の動作のグループに含まれる人物同士の動作に関する第二の特徴量の類似度に基づいて、前記第二の映像を特定することを含む付記1~付記4のいずれか1項に記載の類似映像検索プログラム。
【0057】
(付記6)
前記第二の映像を特定する処理は、前記複数の映像の中から、前記第一の特徴量の類似度と、前記第二の特徴量の類似度とを統合した統合類似度が所定値以上となる映像、又は前記統合類似度が高い順に上位所定個の映像を特定することを含む付記5に記載の類似映像検索プログラム。
【0058】
(付記7)
前記第二の映像を特定する処理は、
前記複数の映像の中から、前記第一の特徴量の類似度が所定値以上となる映像、又は前記第一の特徴量の類似度が高い順に上位所定個の映像を、候補映像として抽出し、
前記候補映像の中から、前記第二の特徴量の類似度若しくは前記第一の特徴量の類似度と前記第二の特徴量の類似度とを統合した統合類似度が所定値以上となる映像、又は前記第二の特徴量の類似度若しくは前記統合類似度が高い順に上位所定個の候補映像を、前記第二の映像として特定する
ことを含む付記5に記載の類似映像検索プログラム。
【0059】
(付記8)
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識する認識部と、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類する分類部と、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する特定部と、
を含む類似映像検索装置。
【0060】
(付記9)
前記認識部は、前記第一の映像に含まれる物体をさらに認識し、
前記動作の種類は、人物に対する対人動作、及び物体に対する対物動作を含む
付記8に記載の類似映像検索装置。
【0061】
(付記10)
前記分類部は、対人動作の動作主である人物と前記対人動作の対象の人物とを同一のグループに分類すること、及び、同一の物体に対する対物動作の動作主である人物を同一のグループに分類する付記9に記載の類似映像検索装置。
【0062】
(付記11)
前記第一の特徴量は、前記第一の映像に含まれる人物の総数に対する、前記対人動作又は前記対物動作を行うグループに属する人物の数の割合、及び、前記対人動作又は前記対物動作を行うグループに属する人物の数に対する、前記対人動作又は前記対物動作を行うグループの数の割合の少なくとも一方を含む付記9又は付記10に記載の類似映像検索装置。
【0063】
(付記12)
前記特定部は、同一種類の動作のグループに含まれる人物同士の動作に関する第二の特徴量の類似度に基づいて、前記第二の映像を特定する付記8~付記11のいずれか1項に記載の類似映像検索装置。
【0064】
(付記13)
前記特定部は、前記複数の映像の中から、前記第一の特徴量の類似度と、前記第二の特徴量の類似度とを統合した統合類似度が所定値以上となる映像、又は前記統合類似度が高い順に上位所定個の映像を特定する付記12に記載の類似映像検索装置。
【0065】
(付記14)
前記特定部は、
前記複数の映像の中から、前記第一の特徴量の類似度が所定値以上となる映像、又は前記第一の特徴量の類似度が高い順に上位所定個の映像を、候補映像として抽出し、
前記候補映像の中から、前記第二の特徴量の類似度若しくは前記第一の特徴量の類似度と前記第二の特徴量の類似度とを統合した統合類似度が所定値以上となる映像、又は前記第二の特徴量の類似度若しくは前記統合類似度が高い順に上位所定個の候補映像を、前記第二の映像として特定する
付記12に記載の類似映像検索装置。
【0066】
(付記15)
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識し、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類し、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する
ことを含む処理をコンピュータが実行する類似映像検索方法。
【0067】
(付記16)
前記第一の映像に含まれる物体をさらに認識し、
前記動作の種類は、人物に対する対人動作、及び物体に対する対物動作を含む
付記15に記載の類似映像検索方法。
【0068】
(付記17)
前記複数のグループのいずれかに分類する処理は、対人動作の動作主である人物と前記対人動作の対象の人物とを同一のグループに分類すること、及び、同一の物体に対する対物動作の動作主である人物を同一のグループに分類することを含む付記16に記載の類似映像検索方法。
【0069】
(付記18)
前記第一の特徴量は、前記第一の映像に含まれる人物の総数に対する、前記対人動作又は前記対物動作を行うグループに属する人物の数の割合、及び、前記対人動作又は前記対物動作を行うグループに属する人物の数に対する、前記対人動作又は前記対物動作を行うグループの数の割合の少なくとも一方を含む付記16又は付記17に記載の類似映像検索方法。
【0070】
(付記19)
前記第二の映像を特定する処理は、同一種類の動作のグループに含まれる人物同士の動作に関する第二の特徴量の類似度に基づいて、前記第二の映像を特定することを含む付記15~付記18のいずれか1項に記載の類似映像検索方法。
【0071】
(付記20)
第一の映像に含まれる複数の人物の各々を認識すると共に、前記複数の人物の各々が行う動作を認識し、
認識された前記複数の人物の各々が行う動作に基づいて、前記複数の人物の各々を、動作の種類毎に設定される複数のグループのいずれかに分類し、
前記グループの数及び前記グループ毎に属する人物の数の少なくとも一方に関する第一の特徴量に基づいて、複数の映像の中から、前記第一の映像と類似する第二の映像を特定する
ことを含む処理をコンピュータに実行させる類似映像検索プログラムを記憶した非一時的記憶媒体。
【符号の説明】
【0072】
10 類似映像検索装置
12 認識部
14 分類部
16 特定部
20 映像DB
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 類似映像検索プログラム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10