特許第6811645号(P6811645)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧
<>
  • 特許6811645-画像検索装置及び画像検索方法 図000002
  • 特許6811645-画像検索装置及び画像検索方法 図000003
  • 特許6811645-画像検索装置及び画像検索方法 図000004
  • 特許6811645-画像検索装置及び画像検索方法 図000005
  • 特許6811645-画像検索装置及び画像検索方法 図000006
  • 特許6811645-画像検索装置及び画像検索方法 図000007
  • 特許6811645-画像検索装置及び画像検索方法 図000008
  • 特許6811645-画像検索装置及び画像検索方法 図000009
  • 特許6811645-画像検索装置及び画像検索方法 図000010
  • 特許6811645-画像検索装置及び画像検索方法 図000011
  • 特許6811645-画像検索装置及び画像検索方法 図000012
  • 特許6811645-画像検索装置及び画像検索方法 図000013
  • 特許6811645-画像検索装置及び画像検索方法 図000014
  • 特許6811645-画像検索装置及び画像検索方法 図000015
  • 特許6811645-画像検索装置及び画像検索方法 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6811645
(24)【登録日】2020年12月17日
(45)【発行日】2021年1月13日
(54)【発明の名称】画像検索装置及び画像検索方法
(51)【国際特許分類】
   G06F 16/532 20190101AFI20201228BHJP
   G06F 16/538 20190101ALI20201228BHJP
【FI】
   G06F16/532
   G06F16/538
【請求項の数】8
【全頁数】19
(21)【出願番号】特願2017-35677(P2017-35677)
(22)【出願日】2017年2月28日
(65)【公開番号】特開2018-142160(P2018-142160A)
(43)【公開日】2018年9月13日
【審査請求日】2019年12月13日
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】100098660
【弁理士】
【氏名又は名称】戸田 裕二
(72)【発明者】
【氏名】渡邉 裕樹
(72)【発明者】
【氏名】森田 健一
(72)【発明者】
【氏名】段 清柱
(72)【発明者】
【氏名】廣池 敦
(72)【発明者】
【氏名】村上 智一
【審査官】 原 秀人
(56)【参考文献】
【文献】 特開2016−167237(JP,A)
【文献】 特開2014−016968(JP,A)
【文献】 特開2006−318375(JP,A)
【文献】 特開2016−110626(JP,A)
【文献】 特開2007−242065(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
画像を検索するための検索条件を受け付ける検索条件入力部と、
前記検索条件に基づき第1のクエリを生成するクエリ生成部と、
前記第1のクエリに基づきデータベース内の画像を検索する画像検索部と、を備える画
像検索装置において、
検索によりヒットした画像のうち、所定操作により選択された複数画像間の関連性を推
定する関連性推定部と、
前記複数画像間の関連性に基づき第2のクエリを生成するクエリ補正部と、
前記クエリ補正部により生成された第2のクエリをインターフェースに表示させる機能
と、
前記関連性推定部は、前記複数の画像其々につき、画像内に含まれる属性及び当該属性
の信頼度を前記データベースから取得し、前記信頼度を用いた所定の統計処理により前記
複数画像間の関連性を推定し、各属性における信頼度の分布を所定の統計処理により解析し、信頼度の分散値が所定値以下かつ平均値が所定値以上の属性を追加属性の候補とし、信頼度の平均値が所定値以下の属性を除外属性とすることを以て前記複数の画像間の関連性を推定する、ことを特徴とする画像検索装置。
【請求項2】
請求項に記載の画像検索装置において、
前記インタフェースは、関連属性推定ボタンを備えており、
前記所定操作のトリガーは、ユーザによる画像選択および前記関連性推定ボタンの押下であることを特徴とする画像検索装置。
【請求項3】
請求項に記載の画像検索装置において、
前記検索条件は、前記インタフェースに表示される複数の属性からユーザが特定の属性
を選択すること、又は、ユーザから入力されたクエリ画像を解析することにより決定され
る、ことを特徴とする画像検索装置。
【請求項4】
請求項に記載の画像検索装置において、
ユーザから指定された所定条件に基づき画像データ群を記憶装置から取得し、所定の変
換処理を実施した上で前記データベースに登録する画像入力部を更に備えることを特徴と
する画像検索装置。
【請求項5】
請求項に記載の画像検索装置において、
前記関連性推定部は、ユーザにより選択された画像との類似度が所定値以上の画像を前
記データベースから選択し、前記関連性推定の対象として追加する、ことを特徴とする画
像検索装置。
【請求項6】
請求項に記載の画像検索装置において、
前記関連性推定部は、信頼性の高い属性が分布する領域を示す注視点マップを属性毎に
作成し、前記インタフェースに出力する、ことを特徴とする画像検索装置。
【請求項7】
請求項に記載の画像検索装置において、
前記関連性推定部は、属性のペア毎に注視点マップの類似度を算出し、当該類似度が所
定値以上となる属性ペアを新たな属性として前記インタフェースに出力する、ことを特徴
とする画像検索装置。
【請求項8】
検索条件入力部が画像を検索するための検索条件を受け付けるステップと、
クエリ生成部が前記検索条件に基づき第1のクエリを生成するステップと、
画像検索部が前記第1のクエリに基づきデータベース内の画像を検索するステップと、
関連性推定部が、検索によりヒットした画像のうち、所定操作により選択された複数画
像間の関連性を推定するステップと、
前記関連性推定部が、前記複数の画像其々につき、画像内に含まれる属性及び当該属性の信頼度を前記データベースから取得し、前記信頼度を用いた所定の統計処理により前記複数画像間の関連性を推定するステップと、
前記関連性推定部が、各属性における信頼度の分布を所定の統計処理により解析し、信頼度の分散値が所定値以下かつ平均値が所定値以上の属性を追加属性の候補とし、信頼度の平均値が所定値以下の属性を除外属性とすることを以て前記複数の画像間の関連性を推定するステップと、
クエリ補正部が、前記複数画像間の関連性に基づき第2のクエリを生成するステップと
、を備えることを特徴とする画像検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像検索装置、及び画像検索方法に関する。
【背景技術】
【0002】
テレビ映像のデジタルアーカイブ化やインターネット上の動画配信サービスの普及により、大規模な画像データを高速に検索・分類する必要性が増加している。また、セキュリティ向けに蓄積された監視画像の解析に対する期待が高まっている。これらの膨大な画像に対して人手でテキスト情報を付与することが困難なことから、画像特徴量による類似画像検索や、画像認識技術によって自動付与されたメタデータを用いて検索が効率を向上することが求められている。
【0003】
例えば、特許文献1では、検索対象および検索非対象の物体属性の統計情報にもとづいて、属性ごとの識別性能を評価し、検索対象の属性の偏りに依存することなく、効率的な検索を行うことのできる画像検索装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015−106300
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1には、ユーザの主観的な検索意図を画像検索に精度よく反映させるための発想については言及されていない。すなわち、画像検索によりヒットした多数の画像のうちユーザに指定された複数画像間の関連性に基づき新たなクエリを生成する構成は開示されておらず、ユーザの検索意図を高精度で画像検索に反映させることはできない。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明が提供する画像検索装置は、画像を検索するための検索条件を受け付ける検索条件入力部と、検索条件に基づき第1のクエリを生成するクエリ生成部と、第1のクエリに基づきデータベース内の画像を検索する画像検索部と、検索によりヒットした画像のうち、所定操作により選択された複数画像間の関連性を推定する関連性推定部と、複数画像間の関連性に基づき第2のクエリを生成するクエリ補正部と、クエリ補正部により生成された第2のクエリをインターフェースに表示させる機能と、を備える。
【発明の効果】
【0007】
本発明によれば、画像検索によりヒットした多数の画像のうちユーザに指定された複数画像間の関連性に基づき新たなクエリを生成することが可能となる結果、ユーザの検索意図を高精度で画像検索に反映させることができる。
【図面の簡単な説明】
【0008】
図1】画像検索システムの構成を示すブロック図である。
図2】画像検索システムのハードウェア構成を示すブロック図である。
図3】画像データベースの構造を示す図である。
図4】データベース登録処理を示すフローチャートである。
図5】画像検索処理を示すフローチャートである。
図6】関連属性推定処理を説明する図である。
図7】関連属性推定処理を示すフローチャートである。
図8】検索画面を示す図である。
図9】検索画面の画面遷移を示す図である。
図10】システム全体の処理を示すシーケンス図である。
図11】実施例2における関連属性推定を説明する図である。
図12】実施例2における画像データベースの構造の拡張例を示す図である。
図13】実施例3における関連属性推定処理を示す概念図である。
図14】実施例3における関連属性推定処理を示すフローチャートである。
図15】実施例4における新規属性生成処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。各図において共通の構成については同一の参照符号が付されている。
【実施例1】
【0010】
本実施形態の画像検索装置は、新規に登録する画像から多数の属性を認識し、認識の信頼度付きの属性情報を画像データベースに登録する。検索時には、入力された検索条件に従い属性集合を取得し、属性集合から検索クエリベクトルを生成し、画像データベースからベクトル間距離の近いデータを取得する。ユーザは取得した検索結果に対して適合性評価を行い画像検索装置に入力する。画像検索装置は、適合検索結果の属性を取得し、統計解析により信頼度の分布をもとめ、所定の条件に合致する属性を追加または除外する属性としてユーザに提示する。ユーザは、提示された属性を参考に検索を繰り返すことで検索意図を反映した属性集合を得ることができ、画像検索の精度が向上する。
【0011】
なお、ここでいう「属性」とは人物を特定するための情報を指し、例えば性別や年齢等の身体属性、「黒髪」「メガネ着用」「キャリーケース所持」等の外見属性、「立ち止まる」「しゃがむ」等の行動特性を含むものとする。詳細は後述する。
【0012】
また、ここでいう「信頼度」は、属性毎に設定される、当該属性が所定領域内に存在する確率を示す値であり、統計情報に基づき算出される。詳細は後述する。
【0013】
また、以下「画像」といったときと動画または静止画を示す情報を意味し、「映像」といったときは画像以外の音声データ等も含む情報を意味するものとする。
【0014】
図1は、実施例1の画像検索システム100の構成例を示すブロック図である画像検索システム100のユースケースとしては、警察組織職員が特定の駅構内の監視カメラ画像内から特定の不審人物の探索を実施したい場合、大規模商業施設管理会社社員等のユーザが施設内の監視カメラ画像内から迷子や遺失物等の探索を実施したい場合、等が考えられるが、これに限定されるものではない。以下、各構成につき説明する。
【0015】
画像検索システム100は、ユーザが検索条件として入力した属性で画像データベース107を検索し、検索結果に対する適合性評価を元に検索条件に追加する属性を推定し、ユーザに提示する機能とインタフェースを備えることで、多数の属性を用いた映画像検索を効率的に実行する。 画像検索システム100は、画像記憶装置101、入力装置102、表示装置103、及び画像検索装置104から構成される。画像記憶装置101は、静止画データまたは動画データを保存する記憶媒体であり、コンピュータ内蔵のハードディスクドライブ、または、NAS(Network Attached Storage)もしくはSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成される。また、画像記憶装置101は、カメラから継続的に入力される画像データを一時的に保持するキャッシュメモリであってもよい。
【0016】
入力装置102は、マウス、キーボード、タッチデバイスなどの、ユーザの操作を画像検索装置104に伝えるための入力インタフェースである。表示装置103は、液晶ディスプレイなどの出力インタフェースであり、画像検索装置104の検索結果の表示、ユーザとの対話的操作などのために用いられる。
【0017】
画像検索装置104は、検索に必要な情報を抽出しデータベース化するための登録処理、及び登録されたデータを用いた検索処理を行う装置である。以下、登録処理について説明する。なお、登録処理の詳細は図4のフローチャートでも説明する。登録処理では、画像記憶装置101に蓄積された静止画データまたは動画データから、必要に応じて認識対象領域を抽出し、抽出された領域から画像認識処理によって属性を取得し、画像データベース107に登録する。なお、この際、一つの処理領域から複数の属性を抽出し、かつ各属性に画像認識処理の信頼度を付与する。属性の信頼度は、0以上1以下の実数値で与えられ、1に近いほど処理領域にその属性が含まれている確率が高いことを示す。例えば外見属性の場合、画像内に存在する人物から顔領域を抽出し、当該顔領域から属性として「メガネ着用」が取得され、信頼度「0.9」が出力された場合、90%の確率で当該顔領域に「メガネ着用」属性が含まれていることを意味する。信頼度算出の手法については後述する。
【0018】
また、画像検索装置104は、ユーザが入力装置102から指定した検索条件を用いて、画像データベース107から検索条件に合致する画像を検索し、表示装置103に情報提示するための、検索処理を行う。検索処理において、ユーザは複数の属性を検索条件として指定する。ユーザは、例えば、表示装置103に表示される属性ごとのチェックボックスをクリックすることで、検索に使用する属性を決定する。詳細は図8で後述する。なお、使用する属性を特定することができれば、文章や音声で入力してもよい。
【0019】
画像検索装置104は、画像データベース107に蓄積されたデータから、指定された属性に合致する画像を検索し、表示装置103に検索結果を表示する。ユーザは、表示された検索結果を確認し、所望の検索結果であるかどうかの適合性判定を行い、画像検索装置104に入力する。画像検索装置104は、適合する検索結果に共通して現れる属性を調べることで、検索条件に追加する属性を推定し、ユーザに提示する。ユーザは提示された属性を条件に追加して再検索を行うことで、システムに用意された多数の属性のなかから、所望の画像を検索するために好適な属性集合を効率的に選択することができる。
【0020】
画像検索装置104は、画像入力部105、属性認識部106、画像データベース107、検索条件入力部108、クエリ生成部109、画像検索部110、関連属性推定部111、クエリ補正部112から構成される。
【0021】
画像入力部105は、画像記憶装置101から、静止画データまたは動画データの入力を受け付け、データを画像検索装置104内部で使用するデータ形式に変換する。例えば、画像入力部105が受け付けたデータが動画データであった場合には、画像入力部105は、フレーム(静止画データ形式)に分解する動画デコード処理を行う。
【0022】
属性認識部106は、入力された画像に含まれる属性を認識する。属性認識は、システムに規定されたオブジェクト単位で行う。例えば、人物を一つのオブジェクトとして扱うシステムであれば、まず画像に含まれる人物を検出し、検出された領域毎に属性認識処理を行う。検出処理は公知の手法を用いることができる。
【0023】
なお、属性認識を行うためには、特定の画像特徴に反応する識別器を事前に用意しておく必要がある。近年の深層学習を用いた画像特徴量の自動学習を用いると、比較的容易に属性識別器を増やすことが可能となる。本実施例の属性認識部106は、例えば、数十から数百種類の属性を認識し、統計情報に基づき各属性の信頼度を出力することを想定している。認識する属性は、人物に関するものであれば、例えば、身体的・外見的情報を表す性別(男性、女性)、年齢層(10代、20代、30代)、服装(カジュアル、フォーマル、色の種類)、姿勢(体の向き、顔の向き)などである。また、動画の入力を受け付ける場合は、時系列特徴を用いて行動(歩く、走る、しゃがむ)を属性としてもよい。さらに、映像に含まれる画像の情報以外を属性として認識してもよい。例えば、映像に含まれる音声信号や距離センサ、温度センサなどのデータを属性認識処理の入力として与えても良い。
【0024】
画像データベース107は、登録処理によって得られた、画像データと属性データとを保持する。画像データベース107は、画像検索装置104の各部の問合わせに対して、与えられた条件を満たす登録データを検索したり、指定されたIDのデータを読み出したりすることができる。画像データベース107の構造の詳細は図3で後述する。
【0025】
以上が、画像検索装置104の登録処理における各部の動作である。次に、画像検索装置104の検索処理における各部の動作を説明する。なお、検索処理の詳細は図5のフローチャートでも説明する。
【0026】
検索条件入力部108は、ユーザが入力装置102を介して指定した検索条件を受け付ける。検索条件は、一つ以上の属性からなる属性集合で与えられるが、その指定は必ずしも入力画面にチェックを入れる手法でなくてもよい。例えば、画像そのものを受け付け、属性認識部106と同様の処理を行うことで、属性集合に変換してもよい。あるいは、音声やテキストを入力として音声認識や自然言語処理を行うことで、属性集合に変換してもよい。また、検索条件に含まれる各属性には、検索時にどの程度重視するかを表す重み情報を付与してもよい。更に、検索条件入力部108は、検索条件として除外対象の属性を指定してもよい。例えば、メガネをかけている人物を除外したい場合には、除外対象の属性集合に「メガネ着用」属性を追加する。
【0027】
クエリ生成部109は、検索条件入力部108で得られた属性集合を検索クエリに変換する。検索クエリは、数値ベクトルで表現される。例えば、属性1と属性2を含み、属性3を含まない画像を探す場合は、検索クエリベクトルVq=(1,1,0)となる。
【0028】
画像検索部110は、クエリ生成部109で得られたクエリベクトルを用いて画像データベース107から該当する登録データを取得する。検索処理では、クエリベクトルと、登録データのベクトル間の距離を計算し、距離の近い順に並び替えて一定数を出力する。距離計算には平方ユークリッド距離が用いられる。例えばクエリベクトルがVq=(q1,q2,q3、・・・)、登録データのベクトルがVp=(p1,p2,p3、・・・)とすると、平方ユークリッド距離d(Vp,Vq)は、d(Vp,Vq)=(p1―q1)^2+(p2―q2)^2+(p3―q3)^2+・・・で計算される。ここで「^2」は2乗を意味する。平方ユークリッド距離が小さいほど、検索条件に合致する登録データに近い画像と考えることができる。なお、前述の通り、属性の重要度に応じて重み情報を与えてもよい。例えば、重みベクトルW=(w1,w2,w3,・・・)とすると、d(p1,q1,W)=w1×(p1―q1)^2+w2×(p2―q2)^2+w3×(p3―q3)^2+・・・、となる。この例では画像間の類似度の指標として平方ユークリッド距離を用いる例を説明したが、クエリと登録データの合致性を評価できる計算方法であれば、任意の指標を用いてデータを検索することができる。
【0029】
関連属性推定部111は、検索条件に適合する検索結果の属性情報を画像データベース107から取得し関連属性を推定する処理部である。検索結果が検索条件に適合するか否かは、ユーザが検索結果を確認して画像検索装置104に入力してもよいし、画像検索部110で求めた距離が所定値以下のものを自動的に「適合する」と判定してもよい。関連属性は、検索条件には含まれていなかった属性であり、検索結果に特異に現れる属性である。関連属性推定処理の詳細は図6で後述する。
【0030】
クエリ補正部112は、関連属性推定部111で推定され、ユーザに提示された関連属性をのうち、ユーザが指定した属性を検索条件に追加し、クエリ生成部109に伝える。
【0031】
以上の検索条件入力処理、検索処理、関連属性推定処理を繰り返し行うことで、ユーザの検索意図に合致する検索結果が絞り込まれる。これにより、ユーザはシステムに提示された大量の属性から、適切な属性集合を効率的に選択することが可能となる。一連の検索処理で得られた適切な属性集合は、ユーザが任意でシステムに登録しておいても良い。また、複数の属性の組み合わせを、一つの新しい属性としてデータベースに登録しておくことで検索を効率化してもよい。
【0032】
以上が、画像検索装置104の検索処理における各部の動作である。なお、画像検索装置104の登録処理と検索処理は、同時に実行することもできる。この場合、ユーザは検索処理の結果得られた属性集合を再利用することで、新たに登録されたデータから質の高い検索結果を得ることができる。
【0033】
図2は、本実施例の画像検索システム100のハードウェア構成例を示すブロック図である。画像検索装置104は、相互に接続されたプロセッサ201及び記憶装置202を備える。記憶装置202は、任意の種類の記憶媒体によって構成される。記憶装置202は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成される。
【0034】
なお、図1に示した画像入力部105、属性認識部106、検索条件入力部108、クエリ生成部109、画像検索部110、関連属性推定部111、クエリ補正部112といった機能部は、プロセッサ201が記憶装置202に格納された処理プログラム203を実行することによって実現される。言い換えると、各機能部が実行する処理は、処理プログラム203に基づいて、プロセッサ201により実行される。また、画像データベース107のデータは、記憶装置202に格納される。なお、処理負荷分散などを目的として画像検索システム100を複数の装置で構成する場合は、画像データベース107を備える装置と処理プログラム203を実行する装置とは、ネットワークで接続された物理的に異なる装置であってもよい。
【0035】
画像検索装置104は、さらに、プロセッサ201に接続されたネットワークインターフェース装置(NIF)204を含む。画像記憶装置101は、ネットワークインターフェース装置204を介して画像検索装置104に接続された、NASまたはSANであることが想定される。なお、画像記憶装置101は、記憶装置202に含まれてもよい。
【0036】
図3は、本実施例の画像データベース107の構成及びデータ例を示す説明図である。なお、本実施形態において、システムが使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。図3はテーブル形式の例を示しているが、例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
【0037】
画像テーブル300は、画像IDフィールド301、画像データフィールド302、及び属性信頼度フィールド303から構成される。
【0038】
画像IDフィールド301は、各画像データの識別番号を保持する。画像データフィールド302は、検索結果を表示する際に用いられる画像データをバイナリで保持する。属性信頼度フィールド303は、画像から認識された属性の信頼度を保持する。属性の信頼度は、前述の通り、0以上1以下の実数値で与えられ、1に近いほど処理領域にその属性が含まれている確率が高い。また、属性信頼度フィールドは、304、305のように複数のフィールドを保持していてもよい。
【0039】
なお、図3の各テーブル構成及び各テーブルのフィールド構成は、あくまで一例であり、アプリケーションに応じてテーブル及びフィールドが追加されてもよい。例えば、画像の撮影時間や撮影場所の情報を保持することで検索オプションに使用してもよいし、画像特徴量を保持することで画像の類似性に基づく検索機能を追加してもよい。また、同様の情報を保持していれば、テーブル構成を変えてもよい。
【0040】
本実施例の画像検索装置104は、前述の通り、入力された画像から抽出した多数の属性から、ユーザの検索意図に適した属性集合を推定することにより、特定の属性を持つ画像を効率的に検索することができる。ここで、ユーザが指定した検索条件から属性情報に基づく検索を実行するために、検索対象のデータベース登録処理を実行しておく必要がある。図3で説明したデータベースの構成例の情報が蓄積されていれば登録時の手順は任意で良いが、例えば図4のフローチャートに示す手順を用いることができる。
【0041】
図4は、データベース登録の処理フローを表す図である。以下、図4の各ステップについて説明する。なお、データ登録処理フローのトリガーは、ユーザが所定のシーンにおける画像データ群を要求すること等である。トリガーの詳細は、登録処理および検索処理の全体シーケンス図である図10で後述する
画像入力部105は、画像記憶装置101から画像データを取得し、取得した画像データを必要に応じてシステム内部で利用可能な形式に変換する(S401)。例えば、動画データの入力を受け付けた場合には、動画データをフレーム(静止画データ形式)に分解する動画デコード処理等が変換処理に該当する。
【0042】
属性認識部106は、入力された画像から認識対象となる領域を検出する。例えば、人物を検索するアプリケーションの場合は、人物の全身または顔領域を検出する(S402)。検出処理には公知の人検出アルゴリズム、顔検出アルゴリズムを用いることができる。また、入力として複数フレームの連続画像が与えられた場合は、フレーム間で物体を追跡することにより、複数枚の領域画像を関連付けて出力してもよい。画像全体から属性を抽出する場合など領域抽出が不要な場合は、S402の処理をスキップしてもよい。
【0043】
属性認識部106は、ステップS402で得られた各領域に関して、ステップS404からステップS405を実行する(S403)。
【0044】
属性認識部106は、画像認識処理により画像に含まれる複数の属性情報を抽出する(S404)。この処理は、属性ごとに異なるアルゴリズムを用いてもよいし、多数の属性を同時に認識可能なアルゴリズムを用いてもよい。ただし、後の検索処理では各属性の信頼度が同一の尺度であることを前提とするため、複数の異なるアルゴリズムを用いる場合には、アルゴリズム間で信頼度の正規化処理を行う。
【0045】
属性認識部106は、ステップS402で得られた領域画像とステップS404で得られた属性を関連付けて画像データベース107に登録する(S405)。
【0046】
画像検索装置104は、画像記憶装置101に含まれる所定の画像データの処理が完了した場合、処理を終了する(S407)。監視カメラなど継続的に新しいデータが画像記憶装置101に記録される場合は、新しいデータが記憶されるまで待ってからステップS401に戻り登録処理を繰り返す。
【0047】
図5は、属性を用いた画像検索の処理フローを表す図である画像検索装置104は、属性集合を用いた検索結果に対するユーザの適合性判定を元に、関連属性を推定し検索条件の補正を支援する。以下、図5の各ステップについて説明する。
【0048】
検索条件入力部108は、ユーザが入力した検索条件を受け付ける(S501)。検索条件は属性の集合である。例えばユーザは表示装置103に表示された属性毎のチェックボックスを入力装置102によって操作し、システムに検索条件の属性を与える。または、入力された音声やテキストを処理することで、属性集合に変換しても良い。
【0049】
クエリ生成部109は、ステップS501で入力された検索条件を画像データベース107に対するクエリベクトルに変換する(ステップS502)。変換方法は、図1で前述したとおり、使用する属性を1、除外する属性を0で表す数値ベクトルで表現する。
【0050】
画像検索部110は、ステップS502で得られたクエリベクトルを用いて、画像データベース107内のデータを検索する(ステップS503)。検索処理では、図1で前述したとおり、データベースに登録されている比較対象のデータの属性信頼度から生成した数値ベクトルとクエリベクトルとの平方ユークリッド距離を計算し、距離の小さい順に所定数のデータを取得する。
【0051】
画像検索装置104は、画像検索部110で取得されたデータを表示装置103に表示する(ステップS504)。表示画面の詳細は、図8で後述する。
【0052】
画像検索装置104は、ユーザから再検索の指示を受けた場合、ステップS506以降の再検索処理を行い、そうでなければ処理を終了する(ステップS505)。
【0053】
関連属性推定部111は、ステップS503で取得した検索結果の適合性評価を取得する(S506)。適合性の評価は、ユーザが表示装置103に表示された検索結果を確認し、ユーザが「適合する」と判断した画像を、入力装置102を用いて画像検索装置104に指定することにより行われる。他方、前述の通り、適合性評価処理は自動化してもよい。すなわち、ベクトル間のユークリッド距離が所定値以下の検索結果を自動的に「適合する」と判定し、所定値以上の検索結果を自動的に「不適合」と判定してもよい。
【0054】
関連性推定部111は、ステップS506で取得した適合性評価結果を用いて、検索条件に含まれない関連属性を推定する(S507)。関連属性の推定方法については、図6及び図7で後述する。
【0055】
画像検索装置104は、ステップS507で推定された関連属性を表示装置103に表示する(S508)。
【0056】
クエリ補正部112は、ステップS508で表示された関連属性を参考にユーザが新たに指定した属性を検索条件に追加し、ステップS502に戻って検索処理を繰り返す(509)。ステップS502〜ステップS509を繰り返すことで、ユーザの検索意図に合う検索結果を得られやすくなる。
【0057】
図6は、関連属性の推定処理(S507)を詳細に説明する図である。本処理では、ユーザが与えた検索結果に対する適合性評価を用いて、再検索の条件に追加または除外する属性を推定する。
【0058】
まず、初期の検索条件を用いて画像データベース107から取得された検索結果に対して、ユーザが適合・不適合のフラグを与える(601)。次に、適合として選択されたデータに付随する属性を取得する(602)。個々で取得する属性は、初期の検索条件に含まれないものとする。取得する情報は、各属性の認識処理の信頼度である。図6の602では、バーの長い属性ほど信頼度が高いことを表している。次に、得られた信頼度のデータに対して、属性ごとに統計処理を行い、関連性の高い属性を抽出する(603)。例えば、選択された複数のデータ内の各属性につき、信頼度のばらつき(分散値)が所定値以下で、かつ平均値が所定値以上のものを追加属性の候補とし(604)、信頼度の平均値が所定値以下のものを除外属性の候補とする(605)。信頼度が2箇所以上に分かれて分布している場合、追加または除外することで既存の検索結果の並び順が変動する可能性が高いため、係る属性は分岐候補としてユーザに提示してもよい(606)。
【0059】
図7は、関連属性推定の処理(S507)を詳細なフローチャートで示す図である。以下、各ステップについて説明する。
【0060】
関連属性推定部111は、ユーザによる検索結果の適合性評価に従い、画像毎に適合検索結果を取得する(S701)。
【0061】
関連属性推定部111は、すべての適合検索結果に対してステップS703を実行する(S702)。
【0062】
関連属性推定部111は、画像データベース107から検索結果のデータに付随する属性データを取得する(S703)。この時、すでに検索条件に含まれる属性のデータは取得しない。
【0063】
関連属性推定部111は、ステップS703で取得対象となった全ての属性について、ステップS706、ステップS707を実行する(S705)。
【0064】
関連属性推定部111は、ステップS702からステップS704で取得された該当属性の信頼度の分布を統計処理によって解析する(S706)。
【0065】
関連属性推定部111は、ステップS706で得られた統計情報を元に、該当属性を検索条件に追加する候補とするか、除外候補とするか、分岐候補とするかの判定を行う(S707)。判定方法は、例えば、図6の説明として前述したとおり、属性の信頼度の平均値、分散値を基準とする方法を用いる。
【0066】
すべての属性について追加、分岐、又は除外の判定が完了したら、処理を終了する。
【0067】
図8は、本実施例の画像検索装置104を用いて、画像検索を行うための操作画面の構成例を示す図である。また、同様に図9は画像検索を行う操作画面であり、図8からの画面遷移を説明するための図である。まず図8について説明する。
【0068】
操作画面は、表示装置103上でユーザに提示される。ユーザは、入力装置102を用いて、画面上に表示されたカーソル800を操作することで、画像検索装置104に処理の指示を与える。なお、図8の例は、据え置き型の操作端末であるが、入力と表示が可能なデバイスであれば、様々な形態をとりうる。例えば、スマートフォンやタブレットのように、タッチ操作を用いても良い。また、ヘッドマウント型のディスプレイや、情報表示可能なメガネ型のデバイスを表示装置として用い、音声入力やジェスチャを受け付ける入力装置を使用してもよい。このような、ウェアラブル・携帯デバイスを用いる場合、据え置き型コンピュータに比べて検索条件の入力の簡略化が求められるため、本実施例の関連属性推定と提示機能はより顕著な効果を発揮する。
【0069】
操作画面は、検索条件入力領域801、検索ボタン802、関連属性推定ボタン803、及び検索結果表示領域804を含む。
【0070】
検索条件入力領域801に表示される情報は、検索条件入力部108およびクエリ補正部112によって表示装置103に出力される。検索結果表示領域804に表示される情報は、画像検索部110によって表示装置103に出力される。
【0071】
この画面において、まず、ユーザは初期の検索条件を入力する(S501に相当)。図8の例では、人物を検索するために、複数の属性ごとにチェックボックスを表示している。ユーザは、チェックボックスをクリックすることで検索したい人物の属性をシステムに入力する。また、検索したい人物のサンプル画像がある場合は、画像を入力するインタフェースを用意し、属性認識を実行した後、認識の信頼度の高い属性に自動的にチェックを入れても良い。この場合、自動入力後に手入力で検索に用いる属性を修正してもよい。
【0072】
初期の検索条件の入力後、ユーザが検索ボタン802をクリックすると検索が実行される(S503に相当)。なお、動作速度の問題がなければ、明示的に検索ボタンを押すことなく、検索条件が変更された時点で自動的に検索を実行するように変えても良い。
【0073】
図9は、検索が実行された後における検索結果表示画面を示す図である。
【0074】
検索が実行されると、検索結果表示領域804に検索結果901の一覧が表示される(S504に相当)。ユーザは、検索結果を確認し、検索意図に適合するか否かの判定を行う(S506に相当)。適合判定評価は、前述の通り、検索結果毎に用意されたチェックボックス902のうち、ユーザが「適合する」と判断する画像のチェックボックスをクリックすることにより、適合するものが指定される。
【0075】
適合評価の入力後、ユーザが関連属性推定ボタン803をクリックすると関連属性推定処理が実行される(S507に相当)。この際、検索と同様に、速度上の問題がなければ、適合評価を入力する度に、関連属性推定処理を実行してもよい。
【0076】
関連属性推定処理により、追加又は除外の候補となった属性は、検索条件入力領域でハイライト表示される(903)。ユーザは、ハイライト表示にて提示された属性を参考に、検索条件を補正し、所望の検索結果が得られるまで繰り返し検索を行う。
【0077】
図10は、本実施例の画像検索システム100の処理の一例を説明するシーケンス図である。図10は、具体的には前述した画像検索システム100の画像登録及び画像検索処理における、ユーザ1000、画像記憶装置101、計算機1001、及び画像データベース107間の処理シーケンスを示す。なお、計算機1001は、画像検索装置104を実現する計算機である。
【0078】
S1010は登録処理を、S1020は検索処理を示す。登録処理S1010は、ステップS1011〜ステップS1018に示す処理を含む。ユーザ1000が登録要求を出すと(S1011)、一連の登録処理が開始される(S1012)。S1011の具体的なユースケースは、後述する。一連の登録処理は、図4で説明した処理に相当し、ユーザが指定したファイル数や所定時間、繰り返し実行される。計算機1001は画像記憶装置101に画像データ取得要求を出し(S1013)、画像記憶装置101から画像データを取得する(S1014)。計算機1001は、取得した画像から処理対象となる領域を検出し(S1015)、検出された領域から画像認識により複数の属性データを抽出する(S1016)。得られた画像、属性データは、画像データベース107に登録される(S1017)。
【0079】
ユーザ1000が、計算機1001に対して検索条件を入力すると(S1021)、検索処理S1022が実行される。検索処理S1022は、ステップS1023〜ステップS1030に示す処理を含み、図5で説明した一連の検索処理に相当する。計算機1001は、入力された検索条件をクエリベクトルに変換し(S1023)、画像データベース107から画像を検索し(S1024)、検索結果をユーザ1000に提示する(S1025)。ユーザ1000は検索結果を確認し、適合性評価を計算機1001に伝える(S1026)。計算機1001は、適合する検索結果に付随する属性データを画像データベース107から取得し(S1027)、関連属性を推定し(S1028)、ユーザ1000に提示する(S1029)。ユーザ1000は、提示された属性を参考に検索条件を修正し、計算機1001に伝える(S1001)。以上の一連の検索処理S1022を繰り返し行うことで、ユーザは質の高い検索結果を求めるための属性集合を得ることができる。
【0080】
ここで、ユースケース毎の、S1011の位置付けについて説明する。例えば、警察組織職員が特定の駅構内の監視カメラ画像内から特定の不審人物の探索を実施したい場合を想定すると、S1011は、画像記憶装置101に相当する駅サーバに対して、不審人物が映っていると思しき画像データ群を要求する処理に該当する。また、大規模商業施設管理会社社員等のユーザが施設内の監視カメラ画像内から迷子や遺失物等の探索を実施したい場合を想定すると、S1011は、画像記憶装置101に相当する施設内サーバに対して、迷子や遺失物等が映っていると思しき画像データ群を要求する処理に該当する。なお、S1011の際、ユーザが具体的に日付や時間帯等を指定することで、取得するデータ群の母数を絞り込むこともできる。
【0081】
なお、図10では、登録処理S1010が完了した後に、検索処理S1020を実行しているが、同時に実行されても良い。例えば、監視カメラから継続的に入力される画像に対して常に登録処理を実行し、ユーザは随時、検索処理を実行して監視画像中から人物を検索可能なシステムとしても良い。 また、撮像された画像は、当該画像を撮像した監視カメラのIDと対応付けて管理してもよい。これにより、検索により発見された人物等を撮像した時刻および撮像位置を特定することが容易となり、検索対象物のトレース効率を向上することが可能となる。
【0082】
以上述べてきたように、本画像検索システムによれば、多様なユースケースにおいて、ユーザの検索意図に則した画像検索が可能となる。
【実施例2】
【0083】
実施例1で示した関連属性推定では、図6で示したとおり、ユーザが適合性評価を行った検索結果のみを用いて、属性の信頼度の分布を求める。ここで、ユーザが少数の検索結果しか評価しない場合は、統計解析に十分なデータが集まらない可能性が高い。そこで実施例2の画像検索装置104では、関連属性推定部111において、ユーザが指定した適合検索結果と外見が類似するデータを画像データベース107から自動的に取得し、統計分析に与えるデータを拡張する。
【0084】
図11は、類似データを用いた関連属性推定の処理フローである。図11は、図7の処理フローを拡張したものである。具体的には、S701とS702の間に、S1101〜S1104が挿入されている。なお、実施例1と共通する処理の説明は省略する。
【0085】
関連属性推定部111は、ステップS701で取得された適合検索結果に対してステップS1102を実行する(S1101)。
【0086】
関連属性推定部111は、検索結果の類似データを画像データベース107から取得する。データの類似性は、例えば、色や形状の特徴を数値化した固定長のベクトルを用いて、ベクトル間の距離が小さいデータを、類似データと解釈する等が想定される。類似データを検索するために、属性認識部106は、属性の信頼度に加えて画像特徴量をも抽出し、画像データベース107に登録しておく必要がある。
【0087】
図12は、図3のデータベース構成を実施例2に適した構成に拡張したものである。具体的には、図3の画像テーブル103に、特徴量フィールド1201及び1202が挿入されたデータベース構成となっている。なお、実施例1と共通する構成の説明は省略する。
【0088】
特徴量は、汎用的な特徴量を1種類のみ保持してもよいし、属性ごとに特化した特徴量を保持してもよい。また、動画像のように連続する時系列データが入力される場合は、属性認識部106でフレーム間の物体追跡を行い、追跡IDを映像データベース107に登録してもよい。この場合、画像テーブル103は、追跡IDフィールド1203を挿入する。すなわち、追跡IDが同一のデータを類似データと解釈して用いることができる。
【0089】
このように、実施例2に記載の収集データ拡張処理を行うことで、統計処理に十分なデータを収集することができ、関連属性推定の精度を向上させることが可能となる。
【実施例3】
【0090】
実施例1で示した関連属性推定部111では、関連属性を推定するために画像認識処理の信頼度のみを使用しているため、画像上の特定の領域のみから抽出した属性が検索に使用されることとなる。例えば人物を検索する場合、顔の特徴のみが関連属性として提示され、服装の特徴などが候補に上がらないことも想定し得る。そこで、実施例3の関連属性推定部111では、属性の空間分布を用いて、提示する属性を選別する。
【0091】
属性の空間分布は、システムの構築時に開発者が予め指定してもよいし、深層学習を用いた畳み込みニューラルネットワークによる属性認識において属性毎に畳み込み層の出力が活性化する画像領域を取得することで特徴量マップを得ても良い。例えば、図13のように、登録時にある属性の信頼度が高い画像の特徴量マップを集約すると、属性認識に使用される画像領域を注視点マップとして得ることができる。この場合、関連属性選択時には、図13下部のように、すでに選択済みの属性の注視点マップを重ねあわせたマップを用意しておき、そこに新たな属性を配置可能かどうか判定する。具体的な処理フローについては図14で後述する。
【0092】
図14は、注視点マップを用いた関連属性の推定処理のフローチャートを表す図である。以下、図14の各ステップについて説明する。
【0093】
関連属性推定部111は、累積注視点マップを作成する(S1401)。
【0094】
関連属性推定部111は、図7の処理の結果得られた関連属性に関して、ステップS1403〜ステップS1406を実行する(S1402)。
【0095】
関連属性推定部111は、該当属性の注視点マップを取得する(S1403)。
【0096】
関連属性推定部111は、ステップS1403で取得した注視点マップと、ステップS1401で作成した累計注視点マップとを比較し、該当属性が配置可能かどうかを判定する(S1404)。配置可能であれば、ステップS1405に移動し、配置不可であれば、ステップS1407に移動し、次の属性の判定処理に移る。
【0097】
関連属性推定部111は、累積注視点マップに、ステップS1403で取得した注視点マップを加算する(S1405)。
【0098】
関連属性推定部111は、該当属性を関連属性として出力する(S1406)。
【0099】
全ての属性についての判定処理が完了したら、処理を終了する。
【0100】
このように、実施例3に記載の関連属性推定処理を実施することで、検索に効果的な関連属性をより網羅的にユーザに提示することができ、関連属性推定の精度を向上させることが可能となる。
【実施例4】
【0101】
図1の説明において、検索処理によって得られた属性の組み合わせを、新たな属性としてシステムに登録可能であることを述べた。しかし、属性間の関連性が低い場合は、新しい属性として不適切な場合も想定し得る。例えば、顔の属性と、靴の属性は関連性が低く、新しい属性としては不適切な場合がある。
【0102】
そこで、実施例4の画像検索装置104は、属性の登場頻度や空間情報を用いて、属性間の共起性を求めておき、当該共起性に基づき、新しい属性を追加する際に組み合わせを候補として提示するかどうかを決定する。なお、空間情報は、実施例3で述べた注視点マップを利用することができる。注視点マップにおいて類似性の高い属性は、新しい属性の組み合わせとして適切である可能性が高い。例えば、「下半身の服装が紺色である属性」と「ジーンズを履いている属性」は注視点が重なるため、「下半身の服装が紺色のジーンズ」という新しい属性の候補を上げることができる。
【0103】
図15は、属性間の共起性を用いた、新規属性の追加の処理フローである。
【0104】
画像検索装置104は、図5の一連の検索処理の結果得られた属性集合から属性のペアを生成し、各属性ペアについてステップS1502〜ステップS1505を実行する(S1501)。
【0105】
画像検索装置104は、属性ペアの各属性から注視点マップを取得する(S1502)。
【0106】
画像検索装置104は、ステップS1502で得られた2つの注視点マップの類似度を計算する(S1503)。類似度計算は、例えば注視点マップをベクトル化して平方ユークリッド距離を求め、距離が小さいほど類似度が高いとして計算する。
【0107】
画像検索装置104は、ステップ1503で求めた類似度が所定値以上(すなわち距離が所定値以下)であればステップS1505を実行し、そうでなければステップS1506に遷移し次の属性ペアを評価する。
【0108】
画像検索装置104は、属性ペアを新たな属性候補として、表示装置103を用いてユーザに提示する。
【0109】
すべての属性ペアに関して評価が完了したら、処理を終了する。また、上記の処理を繰り返せば3種類以上の属性の組み合わせを評価することも可能である。
【0110】
このように、実施例4に記載の新規属性生成処理を実施することで、検索に効果的な新たな属性を生成してユーザに提示することができ、画像検索の精度を向上させることが可能となる。
【0111】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0112】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0113】
更に、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15