特許第6005837号(P6005837)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許6005837画像解析装置、画像解析システム、画像解析方法
<>
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000004
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000005
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000006
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000007
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000008
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000009
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000010
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000011
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000012
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000013
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000014
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000015
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000016
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000017
  • 特許6005837-画像解析装置、画像解析システム、画像解析方法 図000018
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6005837
(24)【登録日】2016年9月16日
(45)【発行日】2016年10月12日
(54)【発明の名称】画像解析装置、画像解析システム、画像解析方法
(51)【国際特許分類】
   G06T 7/00 20060101AFI20160929BHJP
   G06T 1/00 20060101ALI20160929BHJP
【FI】
   G06T7/00 300F
   G06T1/00 200E
【請求項の数】13
【全頁数】26
(21)【出願番号】特願2015-502616(P2015-502616)
(86)(22)【出願日】2013年2月27日
(86)【国際出願番号】JP2013055033
(87)【国際公開番号】WO2014132349
(87)【国際公開日】20140904
【審査請求日】2015年7月15日
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜特許業務法人
(72)【発明者】
【氏名】渡邉 裕樹
(72)【発明者】
【氏名】廣池 敦
【審査官】 佐田 宏史
(56)【参考文献】
【文献】 特開平11−261812(JP,A)
【文献】 国際公開第2012/176317(WO,A1)
【文献】 特開2008−236015(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00−7/60
(57)【特許請求の範囲】
【請求項1】
画像と前記画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、
オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、
前記対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、前記類似画像に含まれる前記検出済オブジェクトの情報と、を前記画像記憶部から検索する類似画像検索部と、
前記類似画像に含まれる前記検出済オブジェクトの情報から、前記対象画像に対して行われる検出処理に使用するパラメータを決定するパラメータ決定部と、
決定されたパラメータに従って前記対象画像からオブジェクトを検出する検出部と、
検出されたオブジェクトおよび前記対象画像を前記画像記憶部に蓄積する画像登録部と、
検出されたオブジェクトの情報を出力するデータ出力部と、を備え
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトのIDのリストを生成して前記検出部に渡し、
前記検出部は、前記リストに含まれるオブジェクトのIDに対し、前記画像記憶部から類似する特徴量を有する類似オブジェクトの情報を取得して前記リストに追加し、
前記検出部は、前記リストに含まれるオブジェクトの特徴量に基づいて、前記対象画像に含まれるオブジェクトを検出すること
を特徴とする画像解析装置。
【請求項2】
請求項1に記載の画像解析装置であって、
前記画像記憶部に記憶される情報は、前記画像から抽出した特徴量と、前記検出済オブジェクトの位置情報と、前記検出済オブジェクトから抽出した特徴量であること
を特徴とする画像解析装置。
【請求項3】
請求項2に記載の画像解析装置であって、
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトの位置情報から、前記検出処理で使用する走査窓のサイズと走査範囲を決定するパラメータ推定処理を行うこと
を特徴とする画像解析装置。
【請求項4】
請求項3に記載の画像解析装置であって、
前記パラメータ決定部は、ユーザからの入力に従って、前記パラメータ推定処理を行うこと
を特徴とする画像解析装置。
【請求項5】
請求項2に記載の画像解析装置であって、
前記検出部は、前記類似画像に含まれる前記検出済オブジェクトの特徴量に類似する特徴量を持つ領域を前記対象画像に含まれるオブジェクトとして検出すること
を特徴とする画像解析装置。
【請求項6】
請求項2に記載の画像解析装置であって、
前記画像入力部は、複数の前記対象画像が入力された際に、前記対象画像の特徴量に基づいて複数の前記対象画像をグループ化する処理を行い、
前記パラメータ決定部は、前記画像入力部においてグループ化されたグループに対して1のパラメータを決定し、
前記検出部は、前記グループに対して、前記1のパラメータを用いて検出を行うこと
を特徴とする画像解析装置。
【請求項7】
画像を撮影するカメラと、
画像と前記画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、
オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、
前記対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、前記類似画像に含まれる前記検出済オブジェクトの情報と、を前記画像記憶部から検索する類似画像検索部と、
前記類似画像に含まれる前記検出済オブジェクトの情報から、前記対象画像に対して行われる検出処理に使用するパラメータを決定するパラメータ決定部と、
決定されたパラメータに従って前記対象画像からオブジェクトを検出する検出部と、
検出されたオブジェクトおよび前記対象画像を前記画像記憶部に蓄積する画像登録部と、
検出されたオブジェクトの情報を表示する表示部と、を備え
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトのIDのリストを生成して前記検出部に渡し、
前記検出部は、前記リストに含まれるオブジェクトのIDに対し、前記画像記憶部から類似する特徴量を有する類似オブジェクトの情報を取得して前記リストに追加し、
前記検出部は、前記リストに含まれるオブジェクトの特徴量に基づいて、前記対象画像に含まれるオブジェクトを検出すること
を特徴とする画像解析システム。
【請求項8】
請求項7に記載の画像解析システムであって、
前記画像記憶部に記憶される情報は、前記画像から抽出した特徴量と、前記検出済オブジェクトの位置情報と、前記検出済オブジェクトから抽出した特徴量であること
を特徴とする画像解析システム。
【請求項9】
請求項8に記載の画像解析システムであって、
前記パラメータ決定部は、前記類似画像に含まれる前記検出済オブジェクトの位置情報から、前記検出処理で使用する走査窓のサイズと走査範囲を決定するパラメータ推定処理を行うこと
を特徴とする画像解析システム。
【請求項10】
請求項9に記載の画像解析システムであって、
ユーザからの入力を受け付ける外部入力部をさらに有し、
前記パラメータ決定部は、前記外部入力部からの入力に従って、前記パラメータ推定処理を行うこと
を特徴とする画像解析システム。
【請求項11】
請求項8に記載の画像解析システムであって、
前記検出部は、前記類似画像に含まれる前記検出済オブジェクトの特徴量に類似する特徴量を持つ領域を前記対象画像に含まれるオブジェクトとして検出すること
を特徴とする画像解析システム。
【請求項12】
請求項8に記載の画像解析システムであって、
前記画像入力部は、複数の前記対象画像が入力された際に、前記対象画像の特徴量に基づいて複数の前記対象画像をグループ化する処理を行い、
前記パラメータ決定部は、前記画像入力部においてグループ化されたグループに対して1のパラメータを決定し、
前記検出部は、前記グループに対して、前記1のパラメータを用いて検出を行うこと
を特徴とする画像解析システム。
【請求項13】
入力された対象画像からオブジェクトを検出する画像解析方法であって、
前記対象画像の特徴量を抽出する抽出ステップと、
抽出した前記対象画像の特徴量と類似する特徴量を持つ類似画像を画像記憶部から検索する検索ステップと、
検索された前記類似画像に含まれる検出済オブジェクトの情報をもとに、前記対象画像に対する検出処理で用いるパラメータを決定する決定ステップと、
決定した前記パラメータに基づいて、前記対象画像に対し検出処理を行いオブジェクトを検出する検出ステップと、
前記対象画像から検出されたオブジェクトを出力するステップと、
前記対象画像および検出されたオブジェクトを、前記画像記憶部に記憶する記憶ステップと、を有し
前記パラメータの決定ステップでは、前記類似画像に含まれる前記検出済オブジェクトのIDのリストを生成して前記検出ステップに渡し、
前記検出ステップでは、前記リストに含まれるオブジェクトのIDに対し、前記画像記憶部から類似する特徴量を有する類似オブジェクトの情報を取得して前記リストに追加し、
前記検出ステップでは、前記リストに含まれるオブジェクトの特徴量に基づいて、前記対象画像に含まれるオブジェクトを検出すること
を特徴とする画像解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データに含まれる任意のオブジェクト領域を検出する技術に関するものである。
【背景技術】
【0002】
ITインフラの発展に伴い、大量のマルチメディアデータ(文書、映像・画像、音声、種々のログデータなど)が大規模なストレージに蓄積されるようになった。蓄積された大量のデータから効率的に情報を引き出すために、個々のメディアデータに関しては、様々な情報抽出/検索技術が考案され、実用化されてきた。
【0003】
マルチメディアデータに対する情報抽出の例として、画像内に含まれるオブジェクト(抽出したい対象物やその部分等を示す)や特定の領域を検出することが考えられる。画像中のオブジェクト検出や領域特定は、文書解析における形態素解析(文書を単語に区切り、品詞を判定する手段)に相当し、画像の意味を解析する上では重要な要素技術である。
【0004】
画像中のオブジェクト検出手法としては、非特許文献1の手法が広く知られており、デジタルカメラや監視システムにおける顔領域検出機能として、広く製品化されている。非特許文献1の手法においては、検出対象のオブジェクトのサンプル画像を大量に集め、機械学習によって、画像の輝度値に基づく弱識別器を複数生成する。この弱識別器を連結させたロバストな判別器を用いて、画像中の部分領域をしらみ潰しに探索することにより、オブジェクト領域を特定する。
【0005】
検出対象となるオブジェクトのカテゴリとしては、現在のところ人物の正面顔が最も一般的である。しかし、ストレージに蓄積される幅広いコンテンツを対象とした場合、例えば、車両、動物、建物、図形、種々の物品など、多様なカテゴリを検出対象とすることが望まれている。また、大規模なデータを処理するために、解析処理効率の向上が必要とされている。
【0006】
解析処理効率の向上に関して、下記特許文献1には、オブジェクトの存在確率を利用して、オブジェクト領域を検出するための画像処理を実施する領域を限定する手法が開示されている。特許文献1の手法は、焦点距離や解像度など、撮像系の静的な情報を利用して、画像処理を実施する領域を決定するものであり、車載カメラのように撮影環境や撮影機器が限定され、構造化されたデータが管理される環境においては有効であると考えられる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2010−003254号
【非特許文献】
【0008】
【非特許文献1】P. Viola and M. Jones, “Robust real−time object detection”, IJCV2001, Vol. 57, No. 2, pp. 137−154, 2002.
【発明の概要】
【発明が解決しようとする課題】
【0009】
特許文献1に記載されている技術は、撮影環境がある程度特定され、画像処理の対象となるデータが構造化されていることを前提としている。しかし一般的には、撮影環境や被写体の位置は必ずしも事前に予測できるとは限らない。また、画像処理の対象となるデータがアドホックに生じる環境においては、そのデータは構造化されてないことになる。かかる環境においては、特許文献1に記載されている手法はオブジェクトを検出する時間を短縮するために有効ではないと考えられる。
【0010】
非特許文献1に記載されている技術は、例えば顔検出のように検出対象物があらかじめ定まっている場合には有効であるが、検出対象物をユーザが逐次指定するような用途においては、サンプルの収集や機械学習を都度実施する必要があるので、処理時間の観点で現実的でない。
【0011】
本発明は、上記のような課題に鑑みてなされたものであり、画像データのなかから検出対象物を高速に検出することができる画像解析技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記課題を解決するために、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像解析装置であって、画像と画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、類似画像に含まれる検出済オブジェクトの情報と、を画像記憶部から検索する類似画像検索部と、類似画像に含まれる検出済オブジェクトの情報から、対象画像に対して行われる検出処理に使用するパラメータを決定する検出パラメータ決定部と、決定されたパラメータに従って対象画像からオブジェクトを検出する任意オブジェクト検出部と、検出されたオブジェクトおよび対象画像を画像記憶部に蓄積する画像登録部と、検出されたオブジェクトの情報を出力するデータ出力部と、を備えることを特徴とする。
【0013】
あるいは、入力された対象画像からオブジェクトを検出する画像解析方法であって、対象画像の特徴量を抽出する抽出ステップと、抽出した対象画像の特徴量と類似する特徴量を持つ類似画像を画像記憶部から検索する検索ステップと、検索された類似画像に含まれる検出済オブジェクトの情報をもとに、対象画像に対する検出処理で用いるパラメータを決定する決定ステップと、決定したパラメータに基づいて、対象画像に対し検出処理を行いオブジェクトを検出する検出ステップと、対象画像から検出されたオブジェクトを出力するステップと、対象画像および検出されたオブジェクトを、画像記憶部に記憶する記憶ステップと、を有する画像解析方法。
【発明の効果】
【0014】
本発明に係る画像解析装置によれば、画像中から任意のオブジェクトを高速に抽出することができる。上記した以外の課題、構成、および効果は、以下の実施形態の説明により明らかになるであろう。
【図面の簡単な説明】
【0015】
図1】実施形態1に係る画像解析システム100の構成図である。
図2】画像データベース108の構成とデータ例を示す図である。
図3】類似画像検索部109における画像特徴量の抽出処理と類似画像検索について説明するための図である。
図4】任意オブジェクト検出部111が、画像中のオブジェクトを検出する方法を説明する図である。
図5】任意オブジェクト検出部111が、画像中のオブジェクトを検出する処理手順を説明するフローチャートである。
図6】検出パラメータ決定部110が、シーン判別を用いてオブジェクト検出処理に使用するパラメータを決定する方法を説明するための図である。
図7】画像解析装置105が、シーン判別に基づくオブジェクト検出を行う処理を説明するためのフローチャートである。
図8】検出パラメータ決定部110が、シーン判別を用いてオブジェクト検出処理に使用するテンプレートを決定する方法を説明するための図である。
図9】検出パラメータ決定部110が、シーン判別を用いてオブジェクト検出処理に使用するテンプレートを決定する処理を説明するためのフローチャートである。
図10】画像解析システム100が、シーン判別を用いて画像中のオブジェクトを検出する処理における各機能部間の処理シーケンスを説明するための図である。
図11】任意オブジェクト検出部111で使用するテンプレートを登録するための操作画面の構成例を示す図である。
図12】シーン判別を用いたオブジェクト検出処理を制御するための操作画面の構成例を示す図である。
図13】画像解析装置105が、解析対象の画像集合をグループ化して一括処理する様子を説明するための図である。
図14】画像解析装置105が、解析対象の画像集合をグループ化して一括処理する手順を説明するためのフローチャートである。
図15】実施形態3に係るコンテンツクラウドシステム1500の概略図である。
【発明を実施するための形態】
【実施例1】
【0016】
<システム構成>
図1は、本発明の実施形態1に係る画像解析システム100の構成図である。画像解析システム100は、蓄積された大量の画像から、ユーザが登録したテンプレート画像に類似したオブジェクトの領域を検出することを目的とするシステムである。画像解析システム100は、画像・映像記憶装置101、入力装置102、表示装置103、データ格納装置104、画像解析装置105を備える。また、図1には図示していないが、監視カメラからの映像を直接解析できるよう、カメラを備えていてもよい。
【0017】
画像・映像記憶装置101は、画像データや映像(動画像)データを保存する記憶媒体であり、コンピュータに直接接続されたハードディスクドライブ、NAS(Network Attached Storage)やSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成することができる。また、例えば、カメラから継続的に入力される映像データを一時的に保持するキャッシュメモリであっても良い。画像解析システム100が処理対象の規模は、例えば、画像であれば数十万件以上、映像であれば数千時間以上の大規模データを想定している。
【0018】
入力装置102は、マウス、キーボード、タッチデバイスなど、ユーザ操作を画像解析装置105に伝えるための入力インタフェースである。表示装置103は、液晶ディスプレイなどの出力インタフェースであり、画像解析装置105の画像解析結果の表示、ユーザとの対話的操作などのために用いられる。データ格納装置104は、画像解析装置105の解析結果を記録するストレージであり、解析結果を上位のアプリケーションで利用するために用いられる。
【0019】
画像解析装置105は、入力画像中のオブジェクト領域を検出する装置であり、類似画像検索を用いたシーン判別によって検出時のパラメータを決定する。類似画像検索の方法については後述する。シーンとは、画像に映っている場面を説明する単語であり、例えば「室内」、「風景」、「街中」などである。本実施例におけるシーン判別とは、入力画像の画像特徴量と類似した画像特徴量を持つ画像をデータベースから検索することである。本実施例では、検索の結果得られた画像そのものから検出時のパラメータを決定するため、シーンを単語化する必要はない。検出対象は、ユーザがテンプレート画像を登録することで、自由に変更することができる。テンプレート画像とは、検出対象の典型的な画像であり、検出処理ではテンプレート画像と類似したオブジェクトが検出される。画像解析装置105は、画像入力部106、ユーザ操作入力部107、画像データベース108、類似画像検索部109、検出パラメータ決定部110、任意オブジェクト検出部111、画像登録部112、データ出力部113、を備える。
【0020】
画像入力部106は、画像・映像記憶装置101から、画像・映像データを読み出し、画像解析装置105内部で使用するデータ形式に変換する。この際、映像データは複数のフレーム画像データに分解される。読み込まれたデータは、ユーザがテンプレートを登録する際に画像登録部112に送られ、解析処理を行う際には類似画像検索部109に送られる。
【0021】
ユーザ操作入力部107は、ユーザによる入力装置102の操作を検知し、その信号を類似画像検索部109、検出パラメータ決定部110、画像登録部112に伝え、各部の処理の実行を制御したり、処理に用いるパラメータを変更したりする。
【0022】
画像データベース108は、画像データとその特徴量、オブジェクトの情報と特徴量を保存するデータベースである。画像データベース108は、類似画像検索部109、任意オブジェクト検出部111、画像登録部112からアクセスされ、登録済みデータに対する検索/読み出しと、新規データの登録操作が行われる。画像データベースの構造について、詳しくは図2の説明として後述する。
【0023】
類似画像検索部109は、入力画像と見た目の類似した画像を、画像データベース108から取得する。検索クエリとして、入力画像から抽出した画像特徴量を用いる。画像特徴量は、例えば、固定長のベクトルで表され、検索処理ではベクトル間のユークリッド距離が近い画像を探索する。通常、類似画像検索は、類似画像のIDと類似度のリストを返す操作であるが、類似画像検索部109においては、類似画像に含まれるオブジェクトの情報もデータベースから読み出す。類似画像検索について、詳しくは図3の説明として後述する。
【0024】
検出パラメータ決定部110は、類似画像検索部109から得られた類似画像に含まれるオブジェクトの情報から、任意オブジェクト検出部111の画像認識処理で用いられるパラメータを決定する。パラメータは、例えば、検出したいオブジェクトのサイズ、画像中の位置、種類、特徴量である。類似画像を用いたパラメータの決定について詳しくは、図6図8を用いて後述する。画像解析装置105は、検出パラメータ決定部110で決定されたパラメータをそのまま用いても良いし、データ出力部113を介して推定したパラメータの候補をユーザに伝え、ユーザ操作入力部107を介してユーザからの使用するパラメータを受け取ってもよい。
【0025】
任意オブジェクト検出部111は、画像認識処理によって、画像中からオブジェクトの存在する領域の座標を特定する。任意オブジェクトの検出手法について詳しくは、図4の説明として後述する。図4の手法では、テンプレート画像を入れ替えることで、検出対象を柔軟に変えることができる。また、複数のテンプレート画像を使うことで、同時に複数カテゴリ(例えば、人の顔、車、星マーク、など)を検出対象とすることができる。検出結果は、オブジェクトの外接矩形の座標(例えば、[矩形の左上隅の水平座標, 矩形の左上隅の垂直座標, 矩形の右下隅の水平座標, 矩形の右下隅の垂直座標])と「物体らしさ」を表す信頼度として、画像登録部112とデータ出力部113に送られる。
【0026】
画像解析装置105は、ユーザからの指示によって、シーン判別を無効にすることもできる。ユーザ操作入力部107から、シーン判別を無効とする指示が出された場合は、類似画像検索部109と検出パラメータ決定部110での処理はスキップされ、任意オブジェクト検出部111の処理が実行される。
【0027】
画像登録部112は、入力画像と任意オブジェクト検出部111で検出されたオブジェクトの画像特徴量を抽出し、画像データベース108に登録する。入力画像の画像特徴量については、類似画像検索部109で抽出済みであれば、改めて抽出する必要はない。また、必ずしも任意オブジェクト検出部111で出力された全てのオブジェクトを登録する必要はなく、信頼度が一定以上のオブジェクトのみを登録してもよいし、ユーザとの対話操作によって、登録対象を決定してもよい。登録された画像は、以降に入力される画像を解析する際に、類似画像検索部109や任意オブジェクト検出部111で利用される。
【0028】
データ出力部113は、検出パラメータ決定部110から得られたパラメータ、任意オブジェクト検出部111で検出されたオブジェクトの情報を必要に応じて整形/データ変換し、表示装置103とデータ格納装置104に出力する。
【0029】
図2は、画像データベース108の構成とデータ例を示す図である。ここではテーブル形式の構成例を示すが、データ形式は任意でよい。画像データベース108は、画像テーブル200と、オブジェクトテーブル210から構成され、画像と画像中のオブジェクトの情報を関連付けて記録する。
【0030】
画像テーブル200は、画像IDフィールド201、画像データフィールド202、画像特徴量フィールド203、画像サイズフィールド204を有する。必要に応じて、書誌情報(カテゴリ分類、日時、場所など)を保持するフィールドを追加しても良い。
【0031】
画像IDフィールド201は、各画像データの識別番号を保持する。画像データフィールド202は、画像データをバイナリ形式で保持するフィールドであり、ユーザが解析結果を確認する際に用いられる。画像特徴量フィールド203は、画像特徴量データを保持する。画像特徴量は、画像そのものの持つ色や形状などの特徴を数値化した、固定長の数値ベクトルデータである。画像特徴量フィールドを複数用意し、例えば、形状特徴量と色特徴を別のフィールドで管理しても良い。画像サイズフィールド204は、画像のサイズを保持する。画像のサイズは、例えば、2次元のベクトル[水平方向のピクセル数,垂直方向のピクセル数]で表現する。図2では一例として、全て同じサイズの場合を示しているが、サイズの異なる画像であっても構わない。サイズが異なる画像の場合には、後述する正規化処理を行う。
【0032】
オブジェクトテーブル210は、オブジェクトIDフィールド211、画像IDフィールド212、領域座標フィールド213、画像特徴量フィールド214を有する。必要に応じて、オブジェクトのカテゴリ(人、マーク、車、などの抽象概念を表すラベル)を保持するフィールドを追加しても良い。
【0033】
オブジェクトIDフィールド211は、各画像データの識別番号を保持する。画像IDフィールド212は、該当オブジェクトの映っている画像のIDを保持する。画像IDは、画像テーブル200で管理されるIDを使用する。領域座標フィールド213は、オブジェクトの外接矩形の情報を保持する。外接矩形の情報は、例えば、4次元のベクトル[矩形の左上隅の水平座標, 矩形の左上隅の垂直座標, 矩形の右下隅の水平座標, 矩形の右下隅の垂直座標]で表現する。画像特徴量フィールド214は、オブジェクト領域の画像特徴量データを保持する。オブジェクト領域の画像特徴量は、必ずしも画像全体の特徴量と同じアルゴリズムで計算しなくてもよい。
【0034】
画像テーブル200には、画像に含まれるオブジェクトの情報を高速に読み出すために、オブジェクトIDのリストを保持するフィールドを追加しても良い。
【0035】
<各部の動作>
以上、画像解析システム100の全体構成を説明した。以下では画像解析システム100の動作原理を概説した上で、各機能部の詳細動作を説明する。
【0036】
(類似画像検索の説明)
図3は、画像解析システム100で用いる画像特徴量の抽出手順の一例である。本手法では、まず入力画像から複数の解像度の画像を生成する。次に、各解像度の画像を領域分割する。各領域に含まれる特徴的なエッジパターンの数を集計することでヒストグラムをつくり、これを多次元のベクトルとする。パターン毎の分布の偏りを補正するための正規化を行い、得られた数千次元のベクトルを主成分分析などにより次元圧縮することで、システムが扱いやすい数百次元程度の固定長ベクトルデータとして保存する。このようにして得られたベクトルデータは、見た目の似た画像間で近い値になるため、類似画像検索に用いることができる。なお、画像の見た目の特徴を表すベクトルデータであれば、一般に広く知られているMPEG−7で規定されているエッジヒストグラム特徴など、他の特徴量を用いてもよい。
【0037】
類似画像検索は、画像特徴量のベクトル間の類似度を評価することで、似たデータを探索する処理である。2つのn次元ベクトルXとYの非類似度dは、例えば、数1のように、ユークリッド距離の2乗で求めることができる。XiとYiは、それぞれベクトルXとベクトルYのi番目の要素である。
【0038】
【数1】
【0039】

・・・数1
類似画像を得るには、基本的には、データベース内の全ての画像に対して、数1を用いてクエリ画像の特徴量との非類似度を求め、非類似度の小さい順にソーティングして出力すればよい。しかし、データ量に応じて処理時間が線形に増加するため、大規模なデータベースを検索することは困難である。そこで、予め似たデータを集めたグループを生成するクラスタリング処理を事前に行なっておく。クラスタリングの手法として、例えば、K−means法が知られている。K−means法は、クラスタの平均値を用いて、データ集合を与えられたクラスタ数K個のクラスタに自動分割する。検索時には、まず、クラスタの平均ベクトルとの距離を求め、距離の近いクラスタに所属する画像に対してのみ、類似度を評価する。クラスタリング済みのデータベースを用いることで、大規模データベースに対する高速類似画像検索を実現することができる。例えば、200次元の特徴量を用いて、400万件の画像データベースから1000枚の類似画像を検索する処理は、一般的なPCサーバを用いた場合でも、10ミリ秒程度で実行できる。
【0040】
以上に述べた手順に従うと、画像の見た目の特徴を表す固定長ベクトルの特徴量表現であれば、どのような特徴量を用いても類似画像検索を実現することができるが、データベース画像とクエリ画像の特徴量は同一のアルゴリズムで抽出される必要がある。
(任意オブジェクト検出の説明)
図4は、任意オブジェクト検出部111におけるオブジェクト領域の検出方法の一例について説明する図である。本手法は、検出したいオブジェクトの典型的な画像(テンプレート画像)を複数枚用意しておき、いずれかのテンプレートと見た目の類似する領域を探索することにより、画像内においてオブジェクトが存在する領域を検出するものである。
【0041】
まず、検出したいオブジェクトのテンプレート画像の画像特徴量を抽出し、あらかじめテンプレートデータベース404に保存しておく。テンプレートデータベース404は、例えば複数のオブジェクトを検出したい場合は、それら各オブジェクトに対応する複数のテンプレート(検出対象物の画像)を保持することができる。画像解析システム100において、テンプレートの特徴量とは、画像データベース108に蓄積されたオブジェクトの特徴量そのものである。解析処理を実行する際には効率化のため、あらかじめ画像データベース108からオブジェクトの特徴量を読み出し、計算機のメモリ上にテンプレートデータベースとして記憶しておく。
【0042】
任意オブジェクト検出部111は、入力画像401が与えられると、走査窓402の位置やサイズを変動させ、オブジェクトの候補領域403を抽出する。画像の撮影条件に制約がない場合、画像中のオブジェクトの相対的なサイズは不定であるため、図4のように様々なサイズの操作窓を用いて、大量の候補領域を抽出する必要がある。
【0043】
次に、全ての候補領域403に対して、テンプレートデータベース404内の複数のテンプレートの中から、特徴量ベクトルが候補領域403の特徴量ベクトルと最も近いもの(最近傍テンプレート)を探索する。最近傍テンプレートの距離が所定閾値以下であれば、候補領域403にはそのテンプレートのオブジェクトが含まれていると判定し、その候補領域403を検出結果に加える。検出結果407は、オブジェクト領域の座標と、最近傍テンプレートとの距離のリストで出力される。このとき、最近傍テンプレートとの距離を、検出結果の信頼度として用いることができる。
【0044】
最近傍テンプレートの探索処理は、テンプレートデータベース404に登録されるテンプレート数に応じて遅くなる。類似画像検索の説明で述べたとおり、予め特徴量ベクトルのクラスタリング処理を実施しておけば、テンプレート数の増加に伴う速度劣化をある程度は抑えることができるが、高速化のためには比較されるテンプレート数を極力減らすことが望ましい。
【0045】
図5は、任意オブジェクト検出部111がオブジェクトを検出する処理を説明するフローチャートである。以下、図5の各ステップについて説明する。
図5:ステップS500)
任意オブジェクト検出部111は、画像データベース108からユーザーがテンプレートとして指定したオブジェクトの特徴量を読み出し、テンプレートデータベースとしてメモリに保持する。複数の入力画像に対して、同じ条件で検出処理を行う場合は、本ステップは最初の1回のみ実施すれば良い。
図5:ステップS501)
任意オブジェクト検出部111は、入力画像401内の候補領域403を抽出する。候補領域403は、走査窓をステップ毎に移動し、またはサイズ変更することにより、機械的に抽出される。
図5:ステップS502〜S506)
任意オブジェクト検出部111は、全ての候補領域403について、ステップS502〜ステップS506を実施する。
図5:ステップS503)
任意オブジェクト検出部111は、候補領域403の信頼度を算出する。信頼度の算出方法としては、例えば図4で述べたように、最近傍テンプレートの特徴量と候補領域403の特徴量の間の距離を用いることができる。
図5:ステップS504〜S505)
ステップS503で求めた候補領域403の信頼度が所定閾値以下であればステップS505に移動し、それ以外であればステップS505をスキップする(S504)。任意オブジェクト検出部111は、信頼度が所定閾値である候補領域403を、検出結果リストに追加する(S505)。
図5:ステップS507)
任意オブジェクト検出部111は、検出結果リストを出力し、本処理フローを終了する。検出結果は、入力画像401内の座標情報(例えば、[矩形の左上隅の水平座標, 矩形の左上隅の垂直座標, 矩形の右下隅の水平座標, 矩形の右下隅の垂直座標])と信頼度の組として出力される。
【0046】
図4の手法は、入力画像に対する事前知識となる情報(例えば、特定の地点を撮影した固定カメラ映像、など)がない場合は、あらゆるサイズの候補領域に対して、全てのテンプレートを対象とした最近傍テンプレート探索を行う必要があるため、非常に計算コストが高い。
【0047】
例えば、10000枚のテンプレートを使用して、横幅640、縦幅480の画像から横幅32、縦幅32以上のオブジェクトを検出するという条件での処理時間は、一般的なPCサーバを用いた場合、平均600ミリ秒程度となる。監視映像の解析などのように、リアルタイムの応答が必要になる場合や、ストレージに蓄積され続ける大量の画像データを対象とした場合は、実用上の課題になる。
【0048】
また、精度面においても、画像の見た目の特徴を用いた判定を行なっているため、サイズが小さく、特徴が安定しない領域は、誤検出の原因になりやすい。
そこで、本システムでは、蓄積された画像とオブジェクトの情報を用いて、入力画像のシーンを自動判定し、シーンに適応した検出パラメータを推定することで、効率的な検出処理を実現する。
【0049】
図6は、シーン判定を用いた検出パラメータの決定方法を説明する図である。本手法では、まず、入力画像601をクエリとした類似画像検索を行い、画像データベース108から画像全体の見た目が類似した画像602を取得する。特徴量抽出および類似画像検索の方法は、図3の説明として前述したとおりである。
【0050】
通常の類似画像検索では、類似画像とその類似度が出力となるが、本実施例の画像解析システム100では、画像データベース108に、過去にオブジェクトを検出済の画像を蓄積しておくことにより、類似画像602およびその中に含まれるオブジェクトの位置とサイズとを合わせて取得することができる。図6において、類似画像602の点線の矩形がオブジェクトの位置を表している。
【0051】
類似画像602が得られると、検出パラメータ決定部110では、類似画像602に含まれるオブジェクトの情報から、検出処理の対象となる領域のマスキング処理603と、走査窓の種類の決定処理604を行う。
【0052】
領域のマスキング処理603では、各類似画像に含まれるオブジェクトの領域を2次元座標上に投影することで、領域の加算処理を行う。この際、画像間でサイズの違いがあるため、座標の正規化を行う。画像データベース108に十分な数の画像が蓄積されており、類似画像602が多数得られる場合は、単純に領域の重なりを求め、類似画像にオブジェクトが存在する場所を検出処理対象の領域にすればよい。類似画像の数が少ない場合は、例えば、各オブジェクト領域をガウス分布で近似し、検出対象領域をオブジェクト領域より広げてもよい。
【0053】
走査窓の決定処理604では、オブジェクトの矩形毎に出現数を集計し、出現数が所定閾値以上になった大きさの矩形を、走査窓として用いる。この際、類似した矩形については同一のものとして集計する。例えば、32×32ピクセルの矩形と32×30ピクセルの矩形は、同一の矩形と考える。
【0054】
このように、類似画像602中にオブジェクトの情報をもとに、入力画像におけるオブジェクト検出する検出対象領域と走査窓の大きさを有る程度限定することで、オブジェクト検出に係る処理負荷を低減することができる。
【0055】
図7は、画像解析装置105が、シーン判定を用いたオブジェクト検出を行う処理手順を表したフローチャートである。以下、図7の各ステップについて説明する。
図7:ステップS701)
画像入力部106は、画像・映像記憶装置101から画像データを読み出し、装置内で利用可能なデータ形式に変換する。映像データの場合は、複数のフレーム画像に分割し、それぞれを以降のステップで処理する。
図7:ステップS702)
ユーザ操作入力部107は、シーン判別処理を行うか否かの判断をユーザから受け取り、シーン判別処理を行う場合はステップS703へ移動し、行わない場合は、ステップS703〜S705をスキップし、ステップS706へ移動する。
図7:ステップS703)
類似画像検索部109は、ステップS701で読み込まれた入力画像をクエリとして画像データベース108に対して類似画像検索を行い、類似画像のIDと類似度のリストを得る。
図7:ステップS704)
類似画像検索部109は、類似画像のIDから類似画像中に含まれるオブジェクトの情報(画像中に占めるオブジェクトの位置、サイズ)を、画像データベース108から読み出す。
図7:ステップS705)
検出パラメータ決定部110は、類似画像に含まれるオブジェクトの情報を用いて、オブジェクト検出に用いるパラメータを決定する。パラメータの決定方法は図6で述べたとおりであり、解析対象となる領域や走査窓の種類が決定される。
図7:ステップS706)
任意オブジェクト検出部111は、決定された検出パラメータに従って、入力画像中から任意のオブジェクト領域を検出する。検出方法の一例と手順は、それぞれ図4図5の説明として記載したとおりである。シーン判別を行わない場合は、パラメータを絞りこまず網羅的に探索する。
図7:ステップS707)
画像登録部112は、ユーザ操作入力部107から、検出結果をデータベースに蓄積するか否かの指示を受け取り、蓄積する場合はステップS708を実施し、蓄積しない場合にはS708をスキップする。
図7:ステップS708)
画像登録部112は、入力画像と検出されたオブジェクトを関連付けて画像データベース108に登録する。入力画像については類似画像検索部109で類似画像検索処理に用いるための特徴量を抽出し、オブジェクト領域については任意オブジェクト検出部111でオブジェクト検出処理に用いるための特徴量を抽出する。
図7:ステップS709)
データ出力部113は、外部のデバイスに出力して本処理フローを終了する。アプリケーションに応じて、表示装置103に表示しても良いし、データ格納装置104に出力しても良い。
【0056】
図8は、シーン判定を用いた検出対象の絞り込み処理を説明するための図である。本手法では、図6と同様に、入力画像601をクエリとした類似画像検索を行い、画像データベース108から画像全体の見た目が類似した画像602を取得する。
【0057】
類似画像602が得られると、検出パラメータ決定部110では、類似画像602に含まれるオブジェクトのIDを取得し、オブジェクトIDのリストを任意オブジェクト検出部111に渡す。
【0058】
任意オブジェクト検出部111は、図4で説明したとおり、入力画像から候補領域を抽出し、各候補領域に対してテンプレートデータベース内の各画像との距離計算を行い、最近傍テンプレートを求める。ここで使用するテンプレートとは、画像データベース108に登録された、オブジェクトの特徴量に他ならない。そのため、オブジェクトのIDを指定することで、使用するテンプレートを限定することが可能である。
【0059】
そこで、本手法では、検出パラメータ決定部110から送られてきたオブジェクトIDのリストを利用し、リストに含まれるオブジェクトをテンプレートとし、類似画像602中のオブジェクトとのみ距離計算を行う。概念的には、図8に示すように、テンプレートデータベース全体の特徴量空間404から、シーンに適応した部分特徴量空間801を切り出して、候補領域403の判定に用いていることになる。
【0060】
この際に、類似画像602中に含まれるオブジェクトだけでなく、各オブジェクトに類似するオブジェクトを取得し、テンプレートを増やしてもよい。また、画像データベース108のオブジェクトテーブル210にオブジェクトのカテゴリの情報が含まれている場合には、同一カテゴリのオブジェクトをテンプレートに加えても良い。
【0061】
図4の方法では、最近傍テンプレートを求めるために全てのテンプレートとの距離計算が必要になるため、テンプレートの数に応じて処理速度が劣化する。一方、図8の手法では、シーンに応じてテンプレートの数を限定する事ができるため、高速な処理が可能となる。また、本手法は、オブジェクトの誤検出を防止する効果も期待できる。例えば、航空写真が入力された場合、顔のテンプレートを用いると誤って顔のパターンに似た地形の領域が検出される可能性がある。予めシーン判定によって、「航空写真には顔が存在することはありえない」という情報を暗に与えてやることにより、シーンに不適当なテンプレートを除去することができる。
【0062】
図9は、画像解析装置105が、シーン判定を用いた検出対象の絞り込みを行う処理手順を表したフローチャートである。本処理は、図7のステップS705の検出パラメータの決定処理に追加される処理であり、類似画像検索を用いたシーン判別処理は、図7のステップS703〜S704と同様である。
以下、図9の各ステップについて説明する。
図9:開始(図7のステップS703〜S704))
類似画像検索部109は、入力画像と類似する画像を画像データベース108から取得し、各類似画像のIDから類似画像に含まれるオブジェクトのIDを取得する。
図9:ステップS901)
検出パラメータ決定部110は、類似画像に含まれるオブジェクトのIDのリストを生成する。
図9:ステップS902)
ユーザ操作入力部107は、類似テンプレートを使用するか否かの判断をユーザから受け取り、使用する場合はステップS902〜S906の処理を実施し、使用しない場合はS907に移動する。
図9:ステップS903〜S906)
検出パラメータ決定部110は、ステップS901で生成したリストの含まれる全てのオブジェクトIDに対して、ステップS903〜S906を実施する。
図9:ステップS904)
検出パラメータ決定部110は、オブジェクトIDを指定して、画像データベース108から類似オブジェクトを取得する。類似オブジェクトの検索は、入力画像をクエリとした類似画像検索と同様に、類似特徴量ベクトルの検索処理である。画像データベース108にはオブジェクト領域の特徴量が登録済みであるため、改めて特徴量を抽出する必要はなく、特徴量の比較処理のみが実施される。
図9:ステップS905)
検出パラメータ決定部110は、検索結果から類似度が所定範囲に収まるオブジェクトをリストに加える。
画像データベース108のオブジェクトテーブル210にオブジェクトのカテゴリの情報が含まれるなら、S904〜S905は、同一カテゴリのオブジェクトを検索し、リストに加える処理に置き換えても良い。
図9:ステップS907)
任意オブジェクト検出部111は、リストに含まれるオブジェクトの特徴量を画像データベースから読み出し、テンプレートデータベースとする。ステップS907は、図5のステップS500を置き換える処理である。
【0063】
図10は、画像解析システム100が、画像中の物体領域を特定する処理における、ユーザ1001、計算機1002、画像データベース108の処理シーケンスを説明する図である。以下、図10の各ステップについて説明する。
[シーン判定処理](図10:ステップS1003〜S1005)
ユーザ1001は画像・映像記憶装置101に格納されている画像からオブジェクト検出する画像を選択し、入力装置102を介してシーン判定の有無を計算機1002に入力する(S1003)。計算機1002は、類似画像検索部109において、入力された画像から特徴量を抽出し(S703)、その特徴量ベクトルをクエリとして画像データベース108に対して、類似画像検索の実行を要求する(S1004)。画像データベース108は、類似画像のIDと類似度のリストを返却する(S1005)。
[パラメータ決定処理](図10:ステップS1006〜S1009)
計算機1002は、類似画像のIDをクエリとした書誌情報検索を画像データベース108に対して要求する(S1006)。画像データベース108は、各オブジェクトの情報をリストとして返却する(S1007)。計算機1002は、検出パラメータ決定部110において、オブジェクト検出に用いるパラメータとテンプレートを決定する(S705)。計算機1002は、表示装置103を介して、ユーザ1001にパラメータを伝える(S1008)。ユーザ1001は、計算機から提示されたパラメータを確認し、必要であればパラメータの調整指示を、入力装置102を介して計算機1002に伝える(S1009)。
[オブジェクト検出処理](図10:ステップS1010〜S1012)
計算機1002は、任意オブジェクト検出部111において、オブジェクトのIDリストを指定して、テンプレートとして使用するオブジェクトの特徴量を画像データベース108に要求する(S1010)。画像データベース108は、リストに含まれるオブジェクトの特徴量を計算機1002に返却する(S1011)。計算機1002は、任意オブジェクト検出部111において、取得したテンプレートのデータベースを用いて、入力画像からオブジェクトの領域を検出する(S706)。検出結果は、表示装置103を介して、ユーザ1001に提示される(S1012)。
[登録処理](図10:ステップS1013〜S1016)
ユーザ1001は、表示された検索結果を確認し、登録指示を計算機1002に伝える(S1013)。計算機1002は、画像登録部112において、入力画像のオブジェクト領域における画像特徴量を抽出する(S708)。画像登録部112は、入力画像、入力画像の特徴量、オブジェクトの情報、オブジェクトの特徴量を関連付けて、画像データベース108に登録する(S1014)。画像データベース108は、登録の成否を計算機1002に伝え(S1015)、計算機1002は表示装置103を介して、その結果をユーザに提示する(S1016)。
【0064】
上記の通り、画像解析装置105は、検出されたオブジェクトを画像データベース108に登録することで、テンプレートを拡充し、認識精度を向上させることができる。しかし、初期状態で画像データベース108に画像が登録されていない場合は、オブジェクトを検出することができない。そのため、システム導入時には、人手でテンプレートを登録する必要がある。また、運用時に新しいカテゴリのオブジェクトを検出したくなった場合も、テンプレートの追加処理が必要になる。
【0065】
図11は、画像データベース108に新規にデータを追加する際に使用する操作画面の構成例を示す図である。本画面は、表示装置103上で提供することができる。ユーザは、入力装置102を用いて、画面に表示されたカーソル1107を操作することにより、ユーザ操作入力部107に操作情報を送る。
図11の操作画面は、ファイルパス入力領域1101、画像読込ボタン1102、画像表示領域1103、画像登録ボタン1104、登録済みオブジェクト表示領域1105、検出テストボタン1106を有する。
【0066】
ユーザは、まず、画像・映像記憶装置101に保存された画像のファイルパスを、ファイルパス入力領域1101に入力し、画像読込ボタン1102をクリックする。入力方法は、例えば、ファイルシステムのファイルパスを指定するダイアログを用いてもよいし、ドラッグ&ドロップによる直感的な入力操作にしてもよい。読み込まれた画像は、画像表示領域1103に表示される。
【0067】
次に、画像表示領域1103に表示された画像中から、カーソル1107を操作して、オブジェクトの外接矩形を指定する。画像中に複数のオブジェクトが含まれる場合は、この操作を繰り返し行う。図11では、選択済みのオブジェクトを点線の矩形で、選択中のオブジェクトを太枠の矩形で表している。
【0068】
画像に含まれるすべてのオブジェクトを選択した後、画像登録ボタン1104をクリックする。この結果、入力画像とオブジェクト領域の矩形情報が、画像解析装置105に送られる。送られたデータは、画像登録部112によって、画像データベース108に登録される。
【0069】
登録されたデータは、登録済みオブジェクト表示領域1105に表示される。登録済みのオブジェクトを選択して、削除したり、オブジェクトに関連付けられたシーンの画像を表示させたりする機能を加えても良い。また、検出テストボタン1106をクリックすることで、登録済みのオブジェクトをテンプレートとしたオブジェクト検出を試すことができる。
【0070】
画像解析装置105は、画像データベース108に十分なオブジェクトが登録されると、与えられた画像中から登録データに類似したオブジェクトを自動的に検出できるようになる。
【0071】
図12は、オブジェクト検出を実行するために使用する操作画面の構成例を表す図である。本画面は、表示装置103上で提供することができる。ユーザは、入力装置102を用いて、画面に表示されたカーソル1107を操作することにより、ユーザ操作入力部107に操作情報を送る。
【0072】
図12の操作画面は、ファイルパス入力領域1201、画像読込ボタン1202、シーン判定ボタン1203、オブジェクト検出ボタン1204、検出結果登録ボタン1205、シーン判定の設定フィールド1206、オブジェクト検出の設定フィールド1207、検出パラメータ表示フィールド1208、画像表示領域1209を有する。
【0073】
ユーザは、まず、画像・映像記憶装置101に保存された画像のファイルパスを、ファイルパス入力領域1201に入力し、画像読込ボタン1202をクリックする。入力方法は、例えば、ファイルシステムのファイルパスを指定するダイアログを用いてもよいし、ドラッグ&ドロップによる直感的な入力操作にしてもよい。読み込まれた画像は、画像表示領域1209に表示される。
【0074】
次に、シーン判定の設定フィールド1206を用いて、シーン判定処理に関するパラメータをシステムに入力する。シーン判定の設定フィールド1206は、例えば、シーン判定処理を行うか否かを指定するラジオボタン、シーン判定に用いる類似画像の距離の閾値を指定するフィールド、推定結果を画面に表示するか否かを指定するチェックボックスを有する。類似度sは、特徴量空間内での距離が小さいほど大きい値となる。例えば、(数2)で計算すると、類似度sは0〜1の値域の実数値であり、sが大きいほどテンプレートとオブジェクトとが似ている、と解釈できる。ここで、eは自然対数の底である。
【0075】
【数2】
【0076】
…数2
ユーザが、シーン判定ボタン1203をクリックすると、入力された設定がユーザ操作入力部107を経由して、類似画像検索部109および検出パラメータ決定部110に伝わり、シーン判定による検出パラメータの推定処理が実行される。推定されたパラメータは検出パラメータ表示フィールド1208および画像表示領域1209に表示される。例えば、画面において走査窓の種類、検出対象の種類については、使用されないパラメータ/テンプレートは灰色で表示されている。また、画像表示領域1209において、検出処理の対象外領域は灰色で表示されている。ユーザは、提示されたパラメータを確認し、パラメータを調整することができる。また、オブジェクト検出の設定フィールド1207において、最近傍テンプレートとの距離の閾値を入力する。
【0077】
ユーザがオブジェクト検出ボタン1204をクリックすると、推定されたパラメータを使用して、任意オブジェクト検出部111が画像中のオブジェクトを検出する。検出結果は、画像表示領域1209にオブジェクトの外接矩形として重畳表示される。矩形に加えて、非信頼度の数値を表示しても良い。
【0078】
ユーザが検出結果登録ボタン1205をクリックすると、以上の操作で検出されたオブジェクトが画像データベース108に登録される。
【0079】
図12の画面例は、画像解析装置105の各処理の過程を確認しながら順次実行するための画面であり、大量の画像を処理する際には、各ボタンのクリック操作を省略して一括実行する画面を使用する。
【0080】
以上を踏まえ、本実施例に記載の画像解析装置は、画像と画像に含まれる検出済オブジェクトの情報とを記憶する画像記憶部と、オブジェクトを検出する対象となる対象画像を受け取る画像入力部と、対象画像から抽出した特徴量と類似する特徴量を有する類似画像と、類似画像に含まれる検出済オブジェクトの情報と、を画像記憶部から検索する類似画像検索部と、類似画像に含まれる検出済オブジェクトの情報から、対象画像に対して行われる検出処理に使用するパラメータを決定するパラメータ決定部と、決定されたパラメータに従って対象画像からオブジェクトを検出する検出部と、検出されたオブジェクトおよび対象画像を画像記憶部に蓄積する画像登録部と、検出されたオブジェクトの情報を出力するデータ出力部と、を備えることを特徴とする。
【0081】
また、本実施例に記載の画像解析方法は、入力された対象画像からオブジェクトを検出する画像解析方法であって、対象画像の特徴量を抽出する抽出ステップと、抽出した対象画像の特徴量と類似する特徴量を持つ類似画像を画像記憶部から検索する検索ステップと、検索された類似画像に含まれる検出済オブジェクトの情報をもとに、対象画像に対する検出処理で用いるパラメータを決定する決定ステップと、決定したパラメータに基づいて、対象画像に対し検出処理を行いオブジェクトを検出する検出ステップと、対象画像から検出されたオブジェクトを出力するステップと、対象画像および検出されたオブジェクトを、画像記憶部に記憶する記憶ステップと、を有することを特徴とする。
【0082】
係る特徴によれば、オブジェクト検出を行う入力画像を用いて類似画像検索をおこない、蓄積されたオブジェクト検出済の類似画像に基づいてオブジェクト検出のパラメータを決定することで、処理負荷・処理時間を低減することができる。
【実施例2】
【0083】
実施例1では、画像解析装置105に一枚の画像が入力された場合の動作について説明した。一方で、本発明の画像解析システム100では、画像・映像記憶装置101に蓄積された大量の画像を解析することを目的としており、大量の画像を一括で処理することで効率的な処理が実現可能である。以下、本実施例では、大量の入力画像を解析対象とした際の処理手順について説明する。
【0084】
図13は、解析対象のグループ化を用いた一括処理を説明するための図である。
解析対象の画像集合1301が与えられると、画像解析装置105は、画像特徴量を用いて画像集合を複数のグループに分割する(1302)。グループの分割方法としては、図3の類似画像検索の説明で述べたK−means法を用いることができる。
【0085】
グループが形成されると、類似画像検索部109と検出パラメータ決定部110において、各グループの画像を解析するための検出パラメータの推定処理が行われる。この時、類似画像検索のクエリとして、グループの平均特徴量ベクトルや、グループ内の代表的な画像の特徴量を用いる(1303)。また、代表画像を複数枚選んで、類似画像検索の結果を統合して用いても良い。この結果、各グループについてひとつの検出パラメータが推定される(1304)。
【0086】
任意オブジェクト検出部111は、各グループに属する全画像に対して、そのグループ用に推定されたパラメータを用いて検出処理を行う(1305)。本手法では、画像毎にパラメータ推定やテンプレートの読み出しを行う必要がないため、大量の画像に対して効率的な処理が可能になる。
【0087】
図14は、画像解析装置105が、入力画像のグループ化を用いた一括処理を行う手順を表したフローチャートである。
以下、図14の各ステップについて説明する。[解析対象の画像集合の読み出し]
図14:ステップS1401)
画像入力部106は、画像・映像記憶装置101から複数枚の画像を読み出す。解析対象が映像(動画像)の場合は、複数のフレーム画像に分解する。
[画像集合のグループ化]
図14:ステップS1402)
類似画像検索部109は、読み込まれた複数の画像それぞれから画像特徴量を抽出する。
図14:ステップS1403)
類似画像検索部109は、画像特徴量に関して画像集合を複数のグループに分割する。
図14:ステップS1404〜S1412)
画像解析装置105は、ステップS1403で生成された各グループに対して、ステップS1404〜S1412を実施する。
[代表画像または特徴量の平均値算出]
図14:ステップS1405)
類似画像検索部109は、グループの平均特徴量を計算する。特徴量が固定長ベクトルで表現される場合、ベクトルの要素毎の平均値を計算することで、平均特徴量ベクトルが得られる。
[グループ毎の検出パラメータの決定](図14:ステップS1406)
類似画像検索部109は、平均特徴量ベクトルをクエリとして、画像データベース108から類似画像を取得する。
図14:ステップS1407)
類似画像検索部109は、類似画像のIDから類似画像中に含まれるオブジェクトの情報(画像中の位置、サイズ)を、画像データベース108から読み出す。
図14:ステップS1408)
検出パラメータ決定部110は、類似画像に含まれるオブジェクトの情報を用いて、オブジェクト検出に用いるパラメータを決定する。パラメータの決定方法は図6で述べたとおりであり、解析対象となる領域や走査窓の種類が決定される。また、図8で述べたように、オブジェクト検出処理に使用するテンプレートを決定する。
[グループ内の全画像に対する検出処理]
図14:ステップS1409〜S1411)
画像解析装置105は、ステップS1408で決定されたパラメータおよびテンプレートを用いて、グループ内の全画像に対してオブジェクト検出処理を行い、結果を出力/データベースに登録する。詳細な処理手順は図7と同様である。
【実施例3】
【0088】
本発明の実施形態3では、画像解析システム100をコンテンツクラウドシステムへ組み込んだ構成例について説明する。以下ではまず、コンテンツクラウドシステムの概要を説明し、その後、画像解析システム100を解析モジュールとしてコンテンツクラウドシステムへ組み込む方法について説明する。画像解析システム100の構成は実施形態1〜2と同様である。
【0089】
図15は、本実施形態3に係るコンテンツクラウドシステム1500の概略図である。コンテンツクラウドシステム1500は、Extract Transform Load(ETL)モジュール1503、コンテンツストレージ1504、検索エンジン1505、メタデータサーバ1506、マルチメディアサーバ1507を有する。コンテンツクラウドシステムは1つ以上のCPU、メモリ、記憶装置を備えた一般的な計算機上で動作し、システム自体は様々なモジュールで構成されている。また、それぞれのモジュールが独立した計算機で実行されることもあり、その場合、各ストレージとモジュール間はネットワーク等で接続されおり、それらを介してデータ通信を行う分散処理で実現される。
【0090】
アプリケーションプログラム1508は、ネットワーク等を経由してコンテンツクラウドシステム1500に対してリクエストを送り、コンテンツクラウドシステム1500はリクエストに応じた情報をアプリケーションプログラム1508に送信する。
【0091】
コンテンツクラウドシステム1500は、入力として映像データ、画像データ、文書データ、音声データなどの任意の形式のデータ1501を受け取る。データ1501は、例えば、図形商標とその広報文書、ウェブサイトの画像とHTML文書、クローズドキャプションまたは音声付き映像データなどであり、構造化されたデータでもよいし非構造化データでもよい。コンテンツクラウドシステム1500へ入力されるデータはストレージ1502に一時的に蓄えられる。
【0092】
ETL1503は、ストレージ1502を監視しており、ストレージ1502へデータ1501が格納されると、ファイルシステムから得られる情報(メタデータ)をコンテンツストレージ1504にアーカイブ化して保存する。
【0093】
コンテンツストレージ1504は、ETL1503が抽出した情報およびストレージ1502に一時的に蓄えられている処理前のデータ1501を保存する。
【0094】
検索エンジン1505は、アプリケーションプログラム1508からのリクエストがあると、例えばテキスト検索であれば、ETL1503が作成したインデックスを元にテキスト検索を実施し、検索結果をアプリケーションプログラム1508に送信する。検索エンジン1505のアルゴリズムに関しては、公知の技術を適用することができる。検索エンジン1505はテキストだけでなく、画像、音声などのデータを検索するモジュールを搭載することもできる。
【0095】
メタデータサーバ1506は、RDB(Relational DataBase)に蓄えられたメタデータを管理する。例えば、ETL1503が抽出した、データのファイル名、データ登録年月日、元データの種類、メタデータテキスト情報、などがRDBに登録されていると仮定する。アプリケーションプログラム1508からリクエストの要求があると、メタデータサーバ1506はそのリクエストに従って、RDB内の情報をアプリケーションプログラム1508に送信する。
【0096】
マルチメディアサーバ1507は、コンテンツストレージ1504にアーカイブ化されたデータに対して、そのデータに合わせた情報抽出処理モジュール1509を動作させ、データの内容に関するメタデータを抽出する。
【0097】
情報抽出処理モジュール1509は、例えば、テキストのインデックスモジュール、画像認識モジュールなどで構成されている。メタデータの例としては、時刻、N−gramインデックス、画像認識結果(物体名、画像中の領域座標)、画像特徴量とその関連語、音声認識結果、などが該当する。情報抽出処理モジュール1509として、何らかの情報(メタデータ)抽出を行うプログラムすべてを用いることができ、公知の技術を採用することができるので、ここでは情報抽出処理モジュール1509の説明を省略する。
【0098】
各メディアデータから抽出されたメタデータは、互いに関連付けられ、グラフ形式で構造化されたグラフDB1511に蓄積される。関連図付けの一例としては、コンテンツストレージ1504に蓄えられた「リンゴ」という音声認識結果に対して、元の音声ファイル、画像データ、関連語などの対応関係をネットワーク形式で表現することができる。マルチメディアサーバ1507は、アプリケーション1508からのリクエストがあると、それに応じたメタ情報をアプリケーション1508に送信する。例えば、「リンゴ」というリクエストがあると、構築されたグラフ構造に基づき、リンゴを含む画像、平均相場、アーティストの曲名、などのネットワークグラフ上で関連付けられたメタ情報を提供する。
【0099】
上記のコンテンツクラウドシステム1500において、画像解析システム100は、マルチメディアサーバ1507における情報抽出処理モジュール1509として機能する。図1における画像・映像記憶装置101、データ格納装置104は、図15においては、それぞれコンテンツストレージ1504、グラフDB1511に対応する。また、画像解析装置105は情報抽出処理モジュール1509に相当する。マルチメディアサーバ1507に複数の情報抽出処理モジュール1509が組み込まれる場合は、1台の計算機のリソースをシェアしてもよいし、モジュール毎に独立した計算機を用いてもよい。図1の画像データベース108は、マルチメディアサーバ1507が情報抽出する際に必要な辞書データ1510に相当する。
<実施の形態3:まとめ>
以上のように、本発明に係る画像解析システム100は、コンテンツクラウドシステム1500の構成要素として適用することができる。コンテンツクラウドシステム1500は、各メディアデータに共通して利用可能なメタデータを生成することにより、メディア間にまたがって情報を統合することができる。これにより、付加価値がより高い情報をユーザへ提供することが期待される。
【0100】
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。
【0101】
上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。
【符号の説明】
【0102】
100:画像解析システム、
101:画像・映像記憶装置、
102:入力装置、
103:表示装置、
104:データ格納装置、
105:画像解析装置、
106:画像入力部、
107:ユーザ操作入力部、
108:画像データベース、
109:類似画像検索部、
110:検出パラメータ決定部、
111:任意オブジェクト検出部、
112:画像登録部、
113:データ出力部、
1500:コンテンツクラウドシステム。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15