(58)【調査した分野】(Int.Cl.,DB名)
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を備えた、
情報処理システム。
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラム。
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
情報処理方法。
【発明を実施するための形態】
【0015】
<実施形態1>
本発明の第1の実施形態を、
図1乃至
図9を参照して説明する。
図1は、情報処理システムの構成を示すブロック図である。
図2乃至
図3は、映像解析処理の様子を示す図であり、
図4は映像解析処理の動作を示すフローチャートである。
図4乃至
図8は、映像検索処理の様子を示す図であり、
図9は映像検索処理の動作を示すフローチャートである。
【0016】
本実施形態における情報処理システムは、まず、動画像データである映像に映っている物体を検出して追跡し、かかる物体の要素である物体要素の特徴量を抽出して記憶しておく。そして、情報処理システムは、記憶した物体要素の特徴量を用いて、所望の検索を行う。例えば、本発明は、ある街中にカメラを設置し、かかるカメラにて撮影した映像から人物を検索する、というシステムとして利用可能である。但し、以下に説明する情報処理システムは本発明の一例にすぎず、本発明における情報処理システムは、他の用途に利用してもよい。
【0017】
図1に示すように、本実施形態における情報処理システムは、まず、所定範囲の映像を撮影するカメラ1と、カメラ1にて撮影された映像を取得する映像入力部2と、を備える。また、情報処理システムは、取得した映像を解析する映像解析部10と、映像及び映像の解析結果を記憶するオブジェクト特徴量記憶部20と、を備える。さらに、情報処理システムは、映像内から所定の検索を行うオブジェクト検索部30と、オブジェクト検索部30に対して検索指示を行う検索クライアント部40と、を備えている。
【0018】
そして、本発明の情報処理システムは、1台又は複数台の情報処理装置を備えて構成されている。例えば、映像入力部2や映像解析部10、オブジェクト検索部30、検索クライアント部40は、それぞれ個別の情報処理装置にて構成されていてもよく、あるいは、
図1に示すすべての構成が1台の情報処理装置で構成されていてもよい。
【0019】
上記映像解析部10は、装備された演算装置に所定のプログラムが組み込まれることにより構築された、オブジェクト追跡・検出部11と、オブジェクト特徴量抽出部12と、オブジェクト特徴量集約部13と、映像別解析設定部14と、ベストフレーム選択部15と、を備えている。また、オブジェクト検索部30は、装備された演算装置に所定のプログラムが組み込まれることにより構築された、検索対象ベストフレーム選択部31と、特徴量検索部32と、を備えている。なお、オブジェクト特徴量記憶部20は、所定の情報処理装置に装備された記憶装置内に形成されている。以下、各構成について詳述すると共に、その動作を
図4及び
図9のフローチャートを参照して説明する。
【0020】
上記映像別解析設定部14は、映像の特性や外部条件に応じて、後述するオブジェクト追跡・検出部11やオブジェクト特徴量抽出部12による物体等の検出時や特徴量の抽出時の設定を行う(
図4のステップS1)。例えば、時刻や天気によって変化する映像の明るさに応じて、適切なパラメータの設定を行う。また、映像別解析設定部14は、後述するベストフレーム選択部15によるフレーム画像のフレーム選択基準を、映像の特性や外部条件に応じて変更設定してもよい。
【0021】
上記オブジェクト追跡・検出部11(物体検出部)は、まず、カメラ1にて撮影され、映像入力部2にて取得した映像である複数のフレーム画像からなる動画像データの入力を受け付ける(
図4のステップS2)。そして、オブジェクト追跡・検出部11は、各フレーム画像に映る物体(オブジェクト)である「人物」を検出して追跡する(
図4のステップS3)。例えば、オブジェクト追跡・検出部11は、フレーム画像を解析して、肌の色や輪郭など特定の特徴を有するオブジェクトを「人物」と判別し、かかる「人物」のフレーム画像内における領域を抽出する。そして、この「人物」の領域に、この人物を識別する識別情報である人物IDを付与する。そして、連続する複数のフレーム画像において、あるいは、所定のフレーム間隔をあけた複数のフレーム画像において、同一の「人物」の領域を追跡して、同一の人物IDを付与する。
【0022】
さらに、オブジェクト追跡・検出部11は、フレーム画像中の検出した「人物」の領域から、予め設定された人物の要素を表す「モーダル」を検出する(
図4のステップS3)。ここで、「モーダル」とは、例えば、「人物」を構成する要素である「顔」や「服」、さらには、「人物」の属性を表す要素である「性別・年齢」を含む。但し、「モーダル」は、上述した要素に限定されない。
【0023】
具体的に、オブジェクト追跡・検出部11は、まず、上述した各「モーダル」を、当該モーダルごとに予め設定された検出方法によって検出する。例えば、モーダルの1つである「顔」については、検出した「人物」の領域のうち、上部に位置する肌色部分の領域を「顔」の位置情報を検出する。また、モーダルの1つである「服」については、検出した「人物」の領域のうち、上述したように検出した顔の位置よりも下部に位置する領域を「服」の位置情報として検出する。さらに、モーダルの1つである「性別・年齢」については、上述したように検出した顔の領域を、「性別・年齢」の位置情報として検出する。なお、
図2に、各フレーム画像から各モーダルの位置情報を検出した例を示す。この図において符号R1は、モーダルである「顔」と「性別・年齢」の位置情報を表し、符号R2は、モーダルである「服」の位置情報を表す。
【0024】
そして、オブジェクト追跡・検出部11は、各フレーム画像のデータに、当該各フレーム画像から検出された「人物」の領域を特定する情報及び人物IDと、各モーダルの位置情報と、を関連付けて、オブジェクト特徴量抽出部12に渡す。
【0025】
上記オブジェクト特徴量抽出部12(特徴量抽出部)は、各フレーム画像から、同一の人物IDが関連付けられた各「モーダル」について、当該各「モーダル」の特徴量を抽出する(
図4のステップS4)。例えば、モーダルの1つである「顔」については、検出した「顔」の位置情報の範囲内の画像から、両目の距離や、両目と鼻と口との位置を表す情報など、顔照合する際に利用可能な特徴量を抽出する。また、モーダルの1つである「服」については、検出した「服」の位置情報の範囲内の画像から、服の色を特徴量として抽出する。また、モーダルの1つである「性別・年齢」については、検出した「顔」の位置情報の範囲内の画像から、両目の距離や、顔のしわなど、性別・年齢を特定する際に利用可能な特徴量を抽出する。
【0026】
そして、オブジェクト特徴量抽出部12は、上述したように各フレーム画像のデータに関連付けられた各モーダルの位置情報に、さらに各モーダルの特徴量を関連付けて、オブジェクト特徴量集約部13に渡す。
【0027】
上記オブジェクト特徴量集約部13(特徴量関連付け部)は、オブジェクト特徴量抽出部12から渡された各モーダルの特徴量を、当該特徴量が抽出されたフレーム画像を特定するフレーム番号(フレーム特定情報)に関連付けて、オブジェクト特徴量記憶部20に記憶する。このとき、オブジェクト特徴量集約部13は、すべての特徴量をオブジェクト特徴量記憶部20に記憶するわけではなく、ベストフレーム選択部15でモーダルごとにベストフレームとして選択されたフレーム画像から抽出された特徴量のみを記憶する(
図4のステップS5,S6)。
【0028】
ここで、上記ベストフレーム選択部15(フレーム選択部)について説明する。ベストフレーム選択部15は、予めモーダル毎に設定されたフレーム選択基準に従って、モーダル毎にベストフレームを選択する。ここで、本実施形態では、
図3Aに示すように、各フレーム画像を映像の再生時間に沿って予め設定された時間範囲である各タイムボックスB1,B2の範囲で区切り、各タイムボックスB1,B2に属する各フレーム画像から、各モーダルにつき1つのベストフレームをそれぞれ選択する。
【0029】
例えば、
図3Aの例では、5フレーム間隔で5つのフレーム画像を1つのタイムボックスに含めるよう設定されている。つまり、
図3Aの符号B1に示すタイムボックスには、5,10,15,20,25番目のフレーム画像(5f,10f,15f,20f,25f)が含まれる。また、
図3Aの符号B2に示すタイムボックスには、30,35,40,45,50番目のフレーム画像(30f,35f,40f,45f,50f)が含まれる。
【0030】
そして、モーダルの1つである「顔」については、例えば、タイムボックス内で、目間サイズが最も大きい、顔の正面向き度合いが最も高い、顔のボケ具合が最も小さい、などのフレーム選択基準が設定されている。このため、ベストフレーム選択部15は、例えば、タイムボックス内のフレーム画像のうち、目間サイズが最も大きいフレーム画像を、モーダル「顔」についてのベストフレームとして選択する(
図4のステップS5)。
図3Aの例では、ベストフレーム選択部15が、タイムボックスB1内において符号10fのフレーム画像を「顔」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部13に通知する。これを受けたオブジェクト特徴量集約部13は、タイムボックスB1内では、「顔」について選択されたベストフレームのフレーム番号10fに、当該ベストフレームから抽出された「顔」の特徴量を関連付けて、オブジェクト特徴量記憶部20に記憶する(
図4のステップS6)。逆に、オブジェクト特徴量集約部13は、「顔」についてベストフレームとして選択されなかったフレーム画像については、「顔」の特徴量は記憶しない。
【0031】
また、モーダルの1つである「服」については、例えば、タイムボックス内で、服色の信頼度が最も高い、などのフレーム選択基準が設定されている。このため、ベストフレーム選択部15は、例えば、タイムボックス内のフレーム画像のうち、上記フレーム選択基準を満たすフレーム画像を、モーダル「服」についてのベストフレームとして選択する。
図3Aの例では、ベストフレーム選択部15が、タイムボックスB1内において符号15fのフレーム画像を「服」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部13に通知する。これを受けたオブジェクト特徴量集約部13は、タイムボックスB1内では、「服」について選択されたベストフレームのフレーム番号15fに、当該ベストフレームから抽出された「服」の特徴量を関連付けて、オブジェクト特徴量記憶部20に記憶する。逆に、オブジェクト特徴量集約部13は、「服」についてベストフレームとして選択されなかったフレーム画像については、「服」の特徴量は記憶しない。
【0032】
また、モーダルの1つである「性別・年齢」については、例えば、タイムボックス内で、目間サイズが最も大きいなど、性別・年齢を判別する際に有効なフレームを選択可能なフレーム選択基準が設定されている。このため、ベストフレーム選択部15は、例えば、タイムボックス内のフレーム画像のうち、上記フレーム選択基準を満たすフレーム画像を、モーダル「性別・年齢」についてのベストフレームとして選択する。
図3Aの例では、ベストフレーム選択部15が、タイムボックスB1内における符号20fのフレーム画像を、「性別・年齢」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部13に通知する。これを受けたオブジェクト特徴量集約部13は、タイムボックスB1内では、「性別・年齢」について選択されたベストフレームのフレーム番号20fに、当該ベストフレームから抽出された「性別・年齢」の特徴量を関連付けて、オブジェクト特徴量記憶部20に記憶する。逆に、オブジェクト特徴量集約部13は、「性別・年齢」ベストフレームとして選択されなかったフレーム画像については、「性別・年齢」の特徴量は記憶しない。
【0033】
このように、本実施形態では、モーダル毎に異なるフレーム選択基準を設けているため、モーダル毎に異なるベストフレームが選択されうるものの、モーダル毎にそれぞれ適切なフレーム画像から特徴量を抽出することができ、特徴量の高品質化を図ることができる。そして、本実施形態では、ベストフレームとして選択されたフレーム画像から抽出された特徴量のみを記憶するため、データベースの容量の増大を抑制することができる。
【0034】
なお、上述したフレーム選択の際に用いられる値である、目間サイズや、服色の信頼度は、例えば、上記オブジェクト特徴量抽出部12にて顔や服の特徴量を抽出する際に算出された値である。また、フレーム選択の際に用いられる値である顔の正面向き度合い、顔のボケ具合などは、上述したオブジェクト追跡・検出部11にて人物やモーダルの検出時に算出された値である。但し、ベストフレーム選択部15は、上述した方法とは別の方法によって、例えば、フレーム選択用に特別な解析処理を行って、フレーム画像を選択してもよい。
【0035】
また、上記では、各モーダルの検出及び特徴量の抽出を行ってから、モーダル毎のベストフレームを選択する場合を例示したが、かかる順番で処理を行うことに限定されない。例えば、モーダル毎の特徴量の抽出の前にモーダル毎のベストフレームの選択を行い、選択されたベストフレームに対してのみ特徴量の抽出処理を行ってもよい。
【0036】
上記オブジェクト特徴量集約部13は、モーダル毎にベストフレームとして選択されたフレーム画像についての特徴量をオブジェクト特徴量記憶部20に記憶するが、この他に、フレーム画像内における各モーダルの位置情報も記憶する。具体的に、オブジェクト特徴量集約部13は、
図3Aの四角記号に示すように、すべてのフレーム画像のフレーム番号に、モーダル毎の位置情報を関連付けて記憶する。なお、
図3Aの黒丸記号は、モーダル毎の特徴量を表しており、上述したように選択されたフレーム画像の特徴量のみが記憶されることとなる。
【0037】
また、オブジェクト特徴量集約部13は、検出された人物毎に、
図3Aに示す各モーダルの特徴量及び位置情報を記憶する。つまり、オブジェクト特徴量集約部13は、人物ID毎にフレーム番号を関連付けて記憶すると共に、さらに、フレーム番号に各モーダルの特徴量と位置情報とを関連付けて記憶する。
【0038】
このように、人物を識別する人物IDや、モーダル毎の位置情報を記憶しておくことで、同一人物についての検索や、指定したモーダル毎の検索を行うことができるなど、検索の自由度が増す。
【0039】
ここで、上記では、ベストフレーム選択部15がモーダル毎にタイムボックス内で1つのベストフレームを選択する場合を例示したが、タイムボックス内で1つのモーダルにつき複数のフレーム画像を選択してもよい。そして、ベストフレーム選択部15は、選択された複数のフレーム画像からそれぞれ抽出されたモーダルの特徴量を、オブジェクト特徴量記憶部20に記憶してもよい。この場合、モーダル毎に設定されるフレーム選択基準としては、「目間サイズが最も大きい」というような1つのフレームを選択する基準ではなく、「ある値が閾値以上」というように、複数のフレーム画像を選択可能な基準が設定される。
【0040】
また、本実施形態では、ベストフレーム選択部15が予め設定されたタイムボックス内から1つ又は複数のフレーム画像を選択することとしているが、タイムボックスは設けられていなくてもよい。つまり、ベストフレーム選択部15は、単に、モーダル毎に設定されたフレーム選択基準を満たすフレーム画像を随時選択してもよい。このとき、ベストフレーム選択部15は、モーダル毎に所定の時間以上離れたフレーム画像を選択してもよい。例えば、
図3Bに示すように、タイムボックスを設けず、モーダル「顔」について設定されたフレーム選択基準を満たすフレーム画像として、フレーム番号10f,15f,35fのものが選択されたとする(黒丸印参照)。この場合、フレーム番号10fと15fとの時間間隔D1は、予め設定された閾値よりも短いため、フレーム番号15fはモーダル「顔」については選択しない(バツ印参照)。一方、フレーム番号10fと35fとの時間間隔D2は、予め設定された閾値よりも長いため、フレーム番号10fと35fは、モーダル「顔」については選択する。
【0041】
次に、上述したようにオブジェクト特徴量記憶部20に記憶されたモーダル毎の特徴量を用いて、モーダル及び人物の検索を行うオブジェクト検索部30(検索部)の構成について説明する。なお、オブジェクト検索部30は、検索対象ベストフレーム選択部31と特徴量検索部32とを備えており、検索クライアント部40からの検索要求に応じて作動する。
【0042】
本実施形態では、検索の一例として、まず、一次検索として、「赤い服」を検索し、かかる検索にヒットしたものの中から、二次検索として、赤い服を着た人物の「顔」を検索する場合を説明する。
【0043】
まず、検索クライアント部40は、所定のフレーム画像から検索対象となるモーダルを指定して検索要求を入力する。具体的に、検索者は、映像中に「赤い服」を着ている人物が映っているフレーム画像を目視にて検索し、検索クライアント部40にてかかるフレーム画像を選択する。続いて、検索者は、検索クライアント部40にて、
図5(A)の矢印に示すように、フレーム画像中のモーダル「服」の位置R2を選択する(
図9のステップS11)。すると、検索クライアント部40は、選択されたフレーム画像のフレームIDと位置R2の位置情報を、検索対象ベストフレーム選択部31に通知して、検索要求を行う。
【0044】
続いて、検索対象ベストフレーム選択部31は、オブジェクト特徴量記憶部20に記憶された各モーダルの位置情報に基づいて、検索クライアント部40から通知されたフレームID及び位置情報に対応するモーダルを特定する。ここでは、
図6の矢印Y1に示すように、選択されたモーダルが「服」であるとして特定される。
【0045】
続いて、検索対象ベストフレーム選択部31は、選択されたモーダル「服」について、上記ベストフレーム選択部15にて選択されたベストフレームをオブジェクト特徴量記憶部20内から検索する。具体的に、検索対象ベストフレーム選択部31は、
図6の矢印Y2に示すように、オブジェクト特徴量記憶部20内で、モーダル「服」の特徴量が記憶されているフレーム画像のフレーム番号を特定する。そして、特定したフレーム番号に関連付けられたモーダル「服」の特徴量を読み出し(
図9のステップS12)、特徴量検索部32に渡す。
【0046】
特徴量検索部32は、ベストフレームにおけるモーダル「服」の特徴量にマッチする他のフレーム画像を、オブジェクト特徴量記憶部20内から検索する(
図9のステップS13)。このとき、他の各タイムブロックにおいてモーダル「服」についてベストフレームと判断されたフレーム画像から抽出された特徴量のみを検索対象として、「赤い服」の検索を行う。
【0047】
続いて、特徴量検索部32は、「赤い服」の検索にヒットした全てのフレーム画像を特定して、かかるフレーム画像及び当該フレーム画像に関連付けられた人物ID、各モーダルの位置情報を抽出する。そして、特徴量検索部32は、検索にヒットした全てのフレーム画像を検索クライアント部40に返すことで、当該検索クライアント部40には
図5(B)に示すように、検索でヒットしたフレーム画像が表示される(
図9のステップS14)。
【0048】
続いて、検索クライアント部40は、
図7(A)に示すように、検索されたフレーム画像A1を用いて次の検索を行う。ここでは、上述した「赤い服」による検索によってヒットしたフレーム画像の中から、当該フレーム画像に映る「顔」の人物を検索する場合を説明する。
【0049】
検索クライアント部40は、上述したように検索されたフレーム画像中から、目視により検索したい人物であると思われる人物が映るフレーム画像を特定し、
図7(A)の矢印に示すように、当該フレーム画像中の検索対象となるモーダルである「顔」の領域R1を選択する(
図9のステップS15)。すると、検索対象ベストフレーム選択部31は、オブジェクト特徴量記憶部20に記憶された各モーダルの位置情報に基づいて、検索クライアント部40にて選択されたフレーム画像中の位置R1に対応するモーダルを特定する。ここでは、
図8の矢印Y11に示すように、選択されたモーダルが「顔」であるとして特定される。
【0050】
続いて、検索対象ベストフレーム選択部31は、
図8の矢印Y12に示すように、上記ベストフレーム選択部15にて選択された、モーダル「顔」についてのベストフレームをオブジェクト特徴量記憶部20内から選択する。つまり、上述したように検索クライアント部40にて「顔」が選択されたフレームは、モーダル「服」についてベストフレームであるが、「顔」についてはベストフレームではないため、同一のタイムブロック内から「顔」についてのベストフレームを選択する。具体的に、検索対象ベストフレーム選択部31は、検索クライアント部40にて選択された人物と同一の人物IDが関連付けられたフレーム画像を対象として、
図8の矢印Y12に示すように、オブジェクト特徴量記憶部20内で、モーダル「顔」の特徴量が記憶されているフレーム画像のフレーム番号を特定する。そして、検索対象ベストフレーム選択部31は、かかるフレーム番号に関連付けられたモーダル「顔」の特徴量を読み出して(
図9のステップS16)、特徴量検索部32に渡す。
【0051】
特徴量検索部32は、オブジェクト特徴量記憶部20から読み出したモーダル「顔」の特徴量にマッチする他のフレーム画像を、オブジェクト特徴量記憶部20内から検索する(
図9のステップS17)。このとき、他の各タイムブロックにおいてモーダル「顔」についてベストフレームと判断されたフレーム画像から抽出された特徴量のみを検索対象として、「顔」の検索を行う。
【0052】
続いて、特徴量検索部32は、「顔」の検索にヒットした全てのフレーム画像を特定して、かかるフレーム画像及び当該フレーム画像に関連付けられた人物ID、各モーダルの位置情報を抽出する。そして、特徴量検索部32は、検索にヒットした全てのフレーム画像を検索クライアント部40に返すことで(
図9のステップS18)、当該検索クライアント部40には
図7(B)に示すように、検索でヒットしたフレーム画像が表示される。
【0053】
以上のように、本発明によると、動画像データ内の人物のモーダルごとに、それぞれフレーム選択基準を満たすフレーム画像が選択され、モーダルごとにその特徴量が記憶される。このため、記憶される特徴量は、モーダルごとのベストフレームから抽出されたものとなるため、高品質のものとなる。その結果、特徴量を用いたモーダルの検索の精度を高めることができる。
【0054】
また、モーダルごとのベストフレームから抽出された特徴量のみを記憶するため、すべての特徴量を記憶する必要がなく、記憶容量の低減を図ることができる。また、これに伴い、検索対象となる特徴量の数が減少するため、検索の高速化を図ることができる。
【0055】
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理システム(
図10、
図11参照)、プログラム、情報処理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
【0056】
(付記1)(
図10参照)
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部101と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部102と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部103と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部105に記憶する特徴量関連付け部104と、
を備えた情報処理システム100。
【0057】
上記発明によると、まず、動画像データ内の物体の物体要素ごとに、それぞれフレーム選択基準を満たすフレーム画像を選択する。そして、物体要素ごとに、選択されたフレーム画像を特定するフレーム特定情報に、当該フレーム画像から抽出された物体要素の特徴量を関連付けて記憶する。これにより、各物体要素の特徴量は、当該物体要素ごとのフレーム選択基準を満たすフレーム画像から抽出されたものとなるため、かかる特徴量は物体要素ごとに高品質のものとなる。従って、その後、特徴量を用いた物体要素の検索の精度を高めることができる。
【0058】
(付記2)
付記1に記載の情報処理システムであって、
前記フレーム選択部は、前記物体検出部による検出結果、及び、前記特徴量抽出部による抽出結果のうち、少なくとも一方を用いて、前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。
【0059】
このように、実際の物体や物体要素の検出結果、特徴量の抽出結果を用いて、物体要素ごとにフレーム画像を選択することで、当該各物体要素について適切なフレーム画像を選択することができる。このため、各物体要素について選択されたフレーム画像からの特徴量は高品質となり、かかる特徴量を用いた物体要素の検索を高精度に行うことができる。
【0060】
(付記3)
付記1又は2に記載の情報処理システムであって、
前記フレーム選択部は、前記動画像データの再生時間に沿って予め区切られた時間範囲ごとに、当該時間範囲内に属する前記フレーム画像から前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。
【0061】
(付記4)
付記3に記載の情報処理システムであって、
前記フレーム選択部は、前記時間範囲ごとに、当該時間範囲内において少なくとも1つの前記フレーム画像を前記物体要素ごとに選択する、
情報処理システム。
【0062】
(付記5)
付記1又は2に記載の情報処理システムであって、
前記フレーム選択部は、前記物体要素ごとに、所定の時間以上離れた前記フレーム画像を選択する、
情報処理システム。
【0063】
これにより、各物体要素について、区切られた時間範囲ごとに、あるいは、所定の時間以上離れて、所定の基準を満たすフレーム画像が選択されることとなる。そのため、適度な間隔をあけて各フレーム画像の特徴量を記憶することができ、その後の検索精度の向上を図ることができる。
【0064】
(付記6)
付記1乃至5のいずれかに記載の情報処理システムであって、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部を備えた、
情報処理システム。
【0065】
(付記7)
付記6に記載の情報処理システムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
【0066】
(付記8)
付記6又は7に記載の情報処理システムであって、
前記物体検出部は、動画像データ内から検出した前記物体ごとに当該物体を識別する物体識別情報を付与し、
前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された物体に付与された前記物体識別情報を関連付けて所定の記憶部に記憶し、
前記検索部は、前記フレーム特定情報に関連付けられている前記物体識別情報に基づいて、所定の条件にて指定された前記フレーム画像と同一の前記物体が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
【0067】
(付記9)
付記6乃至8のいずれかに記載の情報処理システムであって、
前記物体検出部は、前記物体の前記物体要素の位置情報を当該物体要素ごとに検出し、
前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された前記物体要素の位置情報を関連付けて所定の記憶部に記憶し、
前記検索部は、前記フレーム特定情報に関連付けられている前記物体要素の位置情報に基づいて、所定の条件にて指定された前記フレーム画像内のさらに指定された位置にある前記物体要素を特定し、その物体要素と同一の物体要素が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記特徴量を用いて、当該物体要素の検索を行う、
情報処理システム。
【0068】
(付記10)
付記7乃至9のいずれかに記載の情報処理システムであって、
前記検索部は、所定の条件にて指定された前記フレーム画像から、前記動画像データの再生時間に沿って前後して所定の範囲内に位置する前記他のフレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
【0069】
これにより、物体要素ごとにフレーム選択基準を満たすフレーム画像から抽出された特徴量を用いて、物体要素ごとの検索を行うことができる。その結果、物体要素の検索の精度を高めることができる。
【0070】
(付記11)(
図11参照)
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部202を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部201を備えた、
情報処理システム200。
【0071】
(付記12)
付記11に記載の情報処理システムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
【0072】
(付記13)
情報処理装置に、
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を実現させるためのプログラム。
【0073】
(付記14)
付記13に記載のプログラムであって、
前記情報処理装置に、さらに、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部、
を実現させるためのプログラム。
【0074】
(付記15)
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラム。
【0075】
(付記16)
付記15に記載のプログラムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
プログラム。
【0076】
(付記17)
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
情報処理方法。
【0077】
(付記18)
付記17に記載の情報処理方法であって、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。
【0078】
(付記19)
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
情報処理方法。
【0079】
(付記20)
付記19に記載の情報処理方法であって、
所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。
【0080】
ここで、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
【0081】
以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
【0082】
なお、本発明は、日本国にて2013年9月26日に特許出願された特願2013−200065の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。