(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5774985
(24)【登録日】2015年7月10日
(45)【発行日】2015年9月9日
(54)【発明の名称】画像の類似検索システム及び方法
(51)【国際特許分類】
G06F 17/30 20060101AFI20150820BHJP
G06T 1/00 20060101ALI20150820BHJP
【FI】
G06F17/30 350C
G06F17/30 170B
G06T1/00 200E
【請求項の数】15
【全頁数】17
(21)【出願番号】特願2011-512422(P2011-512422)
(86)(22)【出願日】2008年6月6日
(65)【公表番号】特表2011-523137(P2011-523137A)
(43)【公表日】2011年8月4日
(86)【国際出願番号】US2008007208
(87)【国際公開番号】WO2009148422
(87)【国際公開日】20091210
【審査請求日】2011年5月25日
【審判番号】不服2014-11205(P2014-11205/J1)
【審判請求日】2014年6月12日
(73)【特許権者】
【識別番号】501263810
【氏名又は名称】トムソン ライセンシング
【氏名又は名称原語表記】Thomson Licensing
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(74)【復代理人】
【識別番号】100115624
【弁理士】
【氏名又は名称】濱中 淳宏
(74)【復代理人】
【識別番号】100115635
【弁理士】
【氏名又は名称】窪田 郁大
(72)【発明者】
【氏名】チャン ドン−チン
(72)【発明者】
【氏名】ラジャン ジョシ
(72)【発明者】
【氏名】アナ ビー.ベニテス
(72)【発明者】
【氏名】ルオ イン
(72)【発明者】
【氏名】グオ ジュ
【合議体】
【審判長】
金子 幸一
【審判官】
川崎 優
【審判官】
石川 正二
(56)【参考文献】
【文献】
特開2003−256427(JP,A)
【文献】
特開2006−059036(JP,A)
【文献】
特開2006−164008(JP,A)
【文献】
特開2001−160057(JP,A)
【文献】
国際公開第2007/117615(WO,A1)
【文献】
特開2004−234228(JP,A)
【文献】
国際公開第2006/095292(WO,A1)
【文献】
岩崎ほか,大量画像データベースへの効率的アクセスを可能とする統合画像アクセスインタフェース,情報処理学会論文誌,社団法人情報処理学会,2001年1月15日,第42巻 No.SIG1(TOD8),P.32−42
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30 G06T 1/00
(57)【特許請求の範囲】
【請求項1】
関心画像に関して、情報処理装置によって実施される複数の画像を検索する方法であって、
それぞれが前記複数の画像のサブセットを表す画像カテゴリーを少なくとも2つ含む分類構造を、前記複数の画像に対して構築するステップであって、前記分類構造を構築するステップは、前記少なくとも2つの画像カテゴリーのうちの前記複数の画像のそれぞれからオブジェクトを認識するステップと、それぞれの画像の前記認識されたオブジェクトに基づいて、それぞれの画像カテゴリーに関する分類器であって、前記少なくとも2つの画像カテゴリーの1つに画像を分類する前記分類器を決定するステップをさらに含む、前記構築するステップと、
クエリ画像を受信するステップと、
前記少なくとも2つの画像カテゴリーのうちの少なくとも2つにおいて、前記クエリ画像を分類するステップと、
前記クエリ画像を用いて前記少なくとも2つの画像カテゴリーにおける前記認識されたオブジェクトの分類に基づいて前記関心画像を検索するステップと、
前記少なくとも2つのカテゴリーのそれぞれにおいて見つけられた各画像に対して、類似スコアを決定するステップと、
最高の前記類似スコアを持つ前記画像を、前記関心画像として選択するステップと
を備える、前記方法。
【請求項2】
前記分類構造は、意味分類検索ツリーである、請求項1に記載の方法。
【請求項3】
前記クエリ画像を分類するステップは、
前記クエリ画像から特徴を抽出するステップと、
前記抽出された特徴に基づいて前記少なくとも2つの画像カテゴリーのうちの1つを特定するステップと
を含む、請求項1に記載の方法。
【請求項4】
前記クエリ画像を分類するステップは、パターン認識関数により実行される、請求項1に記載の方法。
【請求項5】
前記分類構造を構築するステップは、前記複数の画像にクラスタリング機能を適用することにより、それぞれの前記画像カテゴリーに関する分類器を決定するステップを含み、
前記分類器は、前記少なくとも2つの画像カテゴリーの1つに画像を分類する、
請求項1に記載の方法。
【請求項6】
決定された前記分類器のそれぞれに対して少なくとも1つのサブ分類器を決定するステップをさらに含む、請求項5に記載の方法。
【請求項7】
決定された前記分類器に基づいて前記複数の画像のそれぞれを分類するステップと、
前記複数の画像のそれぞれを、前記複数の画像のサブセットのうちの少なくとも1つに格納するステップと
をさらに含む、請求項5に記載の方法。
【請求項8】
前記分類構造を構築するステップは、
前記複数の画像の各画像に、特徴キーワードをタグ付けするステップと、
前記複数の画像のそれぞれを、前記特徴キーワードに基づいて前記複数の画像のサブセットのうちの少なくとも1つに格納するステップと、
前記特徴キーワードに基づいて画像カテゴリーのそれぞれについて分類器を決定するステップと
を含む、請求項1に記載の方法。
【請求項9】
関心画像に関して、複数の画像を検索するシステムであって、
それぞれが前記複数の画像のサブセットを表す画像意味カテゴリーの少なくとも2つに構造化される前記複数の画像を含むデータベースと、
少なくとも1つのクエリ画像を取得する手段と、
前記少なくとも2つの画像カテゴリーのうちの少なくとも2つにおいて前記クエリ画像を分類する画像分類モジュールと、
前記少なくとも2つの画像カテゴリーにおいて前記クエリ画像を用いて、前記関心画像を検索し、前記少なくとも2つの画像カテゴリーのそれぞれにおいて見つけられた各画像に対して、類似スコアを決定し、及び、最高の前記類似スコアを持つ前記画像を、前記関心画像として選択する画像検索モジュールと、
前記少なくとも2つの画像カテゴリーの前記複数の画像のそれぞれからオブジェクトを認識するオブジェクト認識器と
を備え、
前記画像分類モジュールは、それぞれの画像の前記認識されたオブジェクトに基づいて、それぞれの画像カテゴリーに関する分類器を決定する、前記システム。
【請求項10】
前記クエリ画像から特徴を抽出する特徴抽出部をさらに備え、前記画像分類モジュールは、前記抽出された特徴に基づいて少なくとも2つの前記画像カテゴリーのうちの1つを特定する、請求項9に記載のシステム。
【請求項11】
前記画像分類モジュールは、パターン認識関数を含む、請求項9に記載のシステム。
【請求項12】
画像カテゴリーのそれぞれに関する分類器を含む意味分類検索ツリーを構築する手段をさらに備え、前記分類器は、前記複数の画像にクラスタリング機能を適用することにより、少なくとも2つの前記画像カテゴリーのうちの1つに画像を分類する、請求項9に記載のシステム。
【請求項13】
前記画像分類モジュールは、決定された分類器それぞれに対してサブ分類器を決定する、請求項12に記載のシステム。
【請求項14】
前記画像分類モジュールは、前記決定された分類器に基づいて前記複数の画像のそれぞれを分類し、かつ、前記複数の画像のそれぞれを前記データベース内の前記複数画像のサブセットに格納する、請求項12に記載のシステム。
【請求項15】
前記複数の画像の各画像に特徴キーワードをタグ付けし、かつ、前記特徴キーワードに基づいて前記データベースの前記複数の画像のサブセットに前記複数の画像のそれぞれを格納するキーワードタグ付け部をさらに備え、前記画像分類モジュールは、前記特徴キーワードに基づいて、画像カテゴリーのそれぞれに関して前記分類器を決定する、請求項12に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピューターグラフィック処理及び表示システムに関し、特に、画像の類似検索に関する。
【背景技術】
【0002】
クエリ画像に類似する画像の検出及び検索は、実社会における様々なアプリケーションに非常に有益である。本開示で記載される技術は、画像データベースをクエリすることの課題を扱い、好ましくは意味的な水準(つまり、同一のオブジェクト及び背景を含むが、場合により様々なバリエーションを含む画像)でクエリ画像に類似する画像を見つけ出すことである。この課題は、様々なアプリケーションで生じ、例えば、モバイル端末での位置認識サービスであり、ユーザーがランドマークの画像を撮影し、次に、このモバイル端末がユーザーにランドマークの位置と説明を知らせることができる場合である。別のアプリケーションでは、ユーザーが店内で複数の製品の画像を撮影し、次に、このモバイル端末が、異なる小売店で提供される同一の製品を対応する価格でウェブページを返すことができる。著作権侵害の発見において、未許可画像の使用に対してインターネット上を検索することにより、著作権侵害となりうるものを識別することができる。マルチメディアのコンテンツ管理において、複製物及びこれに準じる物は、多数のソースのビデオ、報道及びウェブページにおける記事でのストーリーへのリンクを支援することができる。
【0003】
本開示で記載される技術は一般画像又はビデオ検索に適用することができるけれども、本発明の開示は、色やテクスチャ(texture)等の低水準の特徴に基づく視覚による検索よりも、意味的な水準で画像又はビデオを検索することに焦点をあてる。低水準の特徴に基づく画像又はビデオの検索は十分に研究されており、高効率の検索アルゴリズムが大規模データベースに対して利用可能である。意味的な水準で画像又はビデオを検索することは、上記低水準の特徴の検索よりもはるかに困難なものである。その理由は、画像又はビデオに含まれるオブジェクトの比較が含まれるからである。上述のアプリケーション等、多くの実社会のアプリケーションにとって、低水準特徴型検索は、一般に、異なるオブジェクトを含む画像が類似の色又はテクスチャを有さないので十分ではない。
【0004】
意味的なレベルでの画像又はビデオ検索は、画像内のオブジェクトの比較を要求する。この趣旨において定義される類似画像は、同一のオブジェクト及び背景を含むべきものであるが、オブジェクト動作、明暗の変化等のいくつかの変更を有しうる。課題は、非常に困難なものであり、なぜならば、コンピューターや計算装置等にとって意味的な水準で画像を理解し又は表現することが困難だからである。意味的な水準で画像及びビデオの検索を実行するいくつかの初期の研究が存在した。例えば、D. Q. Zhang 及びS. F. Chang著の「Detecting Image Near-Duplicate by Stochastic Attributed Relational Graph Matching with Learning」2004年10月、ACM Multimedia(米国ニューヨーク)には、機械学習法を用いて精密近似複製検出及び検索する部分型類似測定が記載されている。Zhang等により述べられる類似測定は、画像内のオブジェクト同士を実際に比較して、高精度な結果を得ることができる。しかし、本方法は、低水準特徴(例えば、色ヒストグラム)を用いる従来の検索方法と比較してとても遅く、また、実社会のアプリケーションに適用するのが困難である。
【0005】
従って、意味的な水準で画像を効果的に検索するための技術に対するニーズが存在する。
【発明の概要】
【0006】
分類構造で効果的に画像の意味類似検索をするためのシステム及び方法が提供される。本システム及び方法は、画像データベースをクエリして、意味的な水準、つまりクエリ画像と同じオブジェクト及び背景を含み、いくつかの変形を持つ画像であって、クエリ画像に類似するものを発見することを可能にする。本開示の技術は、ある特定のクラス又はカテゴリー内の画像の意味類似検索を制限することにより、類似性計算を大幅に減少させる。まず、データベース内の全ての画像に対して分類検索ツリーが構築される。次に、入力クエリ画像それぞれに対して、クエリ画像が1又は複数のカテゴリー(通常、人々、屋内、屋外等の意味カテゴリー)に分類される。カテゴリーは、全体の画像空間、つまり複数の画像のデータベースのサブセットを表す。画像類似性計算は、次に、サブセット内に限定される。
【0007】
本開示の1つの態様に従って、関心画像に関して、複数の画像を検索する方法が提供される。本方法は、複数の画像に対して分類構造を構築する。分類構造は、少なくとも2つの画像カテゴリーを含み、画像カテゴリーのそれぞれは複数の画像のサブセットを表す。そして、本方法は、次に、クエリ画像を受信して、少なくとも2つの画像カテゴリーのうちの選択された1つに対して、関心画像に対する検索を制限する。
【0008】
別の態様に従って、関心画像に関して、複数の画像を検索するシステムは、少なくとも2つの意味カテゴリーに構造化される複数の画像を含むデータベースを含む。各意味カテゴリーは、複数の画像のサブセットを表す。また、本システムは、少なくとも1つの画像を取得する手段と、クエリ画像を分類して少なくとも2つの意味カテゴリーのうちの1つを選択する画像分類モジュールと、クエリ画像を用いて関心画像を検索する画像検索モジュールとを含み、検索が、少なくとも2つの意味カテゴリーのうちの選択された1つに制限されることを特徴とする。
【0009】
さらに別の態様に従って、機械により実行可能なプロラム命令を明確に実行して、関心画像に関して、複数の画像を検索する複数のステップを実行するための機械可読プログラム媒体装置が提供される。本方法は、複数の画像に対して分類構造を構築することを含む。分類構造は、少なくとも2つの画像カテゴリーを含み、画像カテゴリーのそれぞれは、複数の画像のサブセットを表す。また、本方法は、クエリ画像を受信し、クエリ画像を少なくとも2つの画像カテゴリーのうちの選択された1つに分類し、関心画像に対する検索を少なくとも2つの画像カテゴリーのうちの選択された1つに制限する。
【図面の簡単な説明】
【0010】
図面において同じ参照番号は、全体の一覧において類似の要素を示す。
【
図1】
図1は、本開示の態様に従う画像の類似検索のためのシステムの例示的な図である。
【
図2】
図2は、本開示の態様に従う画像の類似検索のための例示的な方法のフロー図である。
【
図3】
図3は、本開示に従う分類検索ツリーを示す。
【
図4】
図4は、本開示に従う分類検索ツリーにおいて実行される単純検索を示す。
【
図5】
図5は、本開示に従う分類検索ツリーにおいて実行される冗長検索を示す。
【
図6】
図6は、本開示の態様に従う分類検索ツリーを構築又は生成するための方法を示す。
【
図7】
図7は、タグ付けされたキーワードを持つ画像に関する特徴ベクトルを示す。
【
図8】
図8は、本開示の態様に従う分類検索データベースに新しい画像を追加するための方法を示す。
【発明を実施するための形態】
【0011】
本開示によるこれら及び他の態様、特徴、及び利点が説明され、又は添付の図面と関連して参照されることにより好適な実施形態における詳細な説明から明確なものになる。
【0012】
図に示す各要素は、ハードウェア、ソフトフェア、またはその組み合わせによる様々な形態で実施されうることが理解されよう。これら各要素は、ハードウェアと、適切にプログラムされた1以上の汎用デバイスであって、プロセッサー、メモリー、入出力インターフェースを含むことが可能な汎用デバイス上のソフトウェアと、を組み合わせて実施される。
【0013】
本明細書の記載は、本開示による原則を示す。したがって、ここで明確に記載又は示されていなくとも、当業者であれば、本開示による原則を具現化し、そしてその主旨および範囲内に含まれる様々な配置を考案できることが理解されよう。
【0014】
ここに列挙される全ての例及び条件付の用語は、本開示による原則と、技術促進への寄与に向けられた発明者による概念と、を読み手が理解するのを支援する教育的目的を意図するものであり、また、この特別に列挙された例及び条件に限定されることなしに解釈されるものである。
【0015】
さらに、ここで、本開示による原則、態様、実施形態及びその特定の例を列挙している全ての記載は、構造的及び機能的な均等物の双方を包含することを目的とする。また、これら均等物は、現在公知の均等物及び将来開発される均等物、つまり構造に関係なく、同一の機能を発揮するように開発されたいかなる要素をも含むように意図される。
【0016】
したがって、例えば、ここで示されるブロック図は、本開示による原則を具現化する図示による概念的回路を表すことを当業者に理解されよう。同様に、いかなるフローチャート、フロー図、状態遷移図、及び擬似コード等は、実質的にコンピューター可読媒体に表され、また、コンピューター又はプロセッサーが明示されていてもいなくても、コンピューター又はプロセッサーにより実行される様々な処理を示す。
【0017】
図に示す様々な要素による機能は、専用ハードウェア及び最適なソフトウェアと共同してソフトウェアを実行することができるハードウェアの利用により提供可能である。プロセッサーにより提供される場合、単一の専用プロセッサー、単一の共有プロセッサー、又は複数の単一プロセッサー(幾分かは共有可能)により、提供可能である。さらに、語句「プロセッサー」又は「コントローラー」のような明示的使用は、専らソフトウェア実行可能なハードウェアのみに言及されていると解釈されるべきではなく、限定することなく、DSP(Digital Signal Processor)ハードウェア、ソフトウェアを格納するROM(Read Only Memory)、RAM(Random Access Memory)、及び不揮発性記憶を含むことが可能である。
【0018】
他の従来型またはカスタムハードウェアもまた含まれる。同様に、図に示す任意のスイッチは単に概念的なものである。それらの機能は、専用ロジック、制御プログラム及び専用ロジックの相互作用による論理プログラムの動作、または手動により実行可能であり、特定の技術は、文脈によりとりわけ理解されるような実行機により選択される。
【0019】
特許請求の範囲に関し、特定の機能を実施する手段として表現されたいかなる要素も、例えば、a)当該機能を実行する回路素子の組み合わせ、又はb)当該機能を実行するソフトウェアを実行する適切な回路と結合される、ファームウェア、マイクロコード等を含任意の形態のソフトウェア、を含む機能を実行する任意の方法を包含するものである。この特許請求の範囲により定義される本開示は、列挙された様々な手段により提供される機能が結合され、そして特許請求の範囲に記載された方法において当該機能が共に実行されることを含む。したがって、これら機能を提供することが可能な手段は、本明細書に示すものと等しいとみなすことができる。
【0020】
クエリ画像に類似する画像の検出及び検索は、実社会における様々なアプリケーションに非常に有用である。課題は、クエリ画像に意味的な基準で類似する画像(つまり、同一のシーンにおいて撮影されたもの、及び同一の対象を有するもの)を効果的に発見することである。いくつかの従来の技術では、低速で意味画像検索する高精度アルゴリズムが提案されている。効率に関する課題は、画像データベースが巨大である場合に特に重要である。通常、画像データベースを検索する時間は、データベースの大きさに直線的に比例する。本開示によるシステム及び方法は、画像データベース構造及び画像の意味を利用することにより、検索を高速化する。
【0021】
階層処理により画像またはビデオを効果的に検索するためのシステム及び方法が提供される。高品質画像/ビデオ類似アルゴリズム又は関数がすでに利用可能であると仮定すれば、アルゴリズムのスピードは、従来の特徴型の類似性計算アルゴリズムよりも低速である。したがって、本開示によるシステム及び方法は、画像またはビデオデータベースを意味検索することを加速する高速化処理を提供する。省略を目的として、本開示は、ビデオつまり連続する画像にも適用可能であるが、画像検索に焦点をあてることとする。このシステム及び方法は、画像のコンテンツ空間(content space)の構造を利用することにより、検索アルゴリズムを高速化する。本開示による技術は、特定のクラス又はカテゴリーの範囲内で画像の視覚類似検索を制限して、類似性計算を大幅に削減する。最初に、分類構造が、分類ツリーに限定されないが、データベースの全ての画像に対して構築される。次に、各入力クエリ画像に対して、全体の画像空間のサブセットを表す1以上のカテゴリー(典型的に意味カテゴリーは、人々、屋内、屋外等である)に画像が分類される。画像の類似性計算は次に、当該サブセット内で制限される。
【0022】
ここで、各図面を参照すると、
図1には、本開示による実施形態に従う例示のシステムコンポーネント100が記載されている。スキャン装置103は、フィルムプリント104をスキャンするものであり、例えば、カメラフィルムのネガを、デジタルフォーマット例えば、Cineon−formatまたはSMPTE(Society of Motion Picture and Television Engineers)のDPX(Digital Picture Exchange)のファイルにする。スキャン装置103は、テレシネ(telecine)装置、又はビデオ出力するArri LocPro(登録商標)のようなフィルムからのビデオ出力を生成しうる装置を含むことができる。または、ポスト生成プロセス又はデジタルシネマ106(例えば、コンピューター可読形態のファイル)からのファイルを直接に用いることができる。コンピューター可読ファイルのソースには、AVID(登録商標)エディター、DPXファイル、D5テープとすることができる。
【0023】
デジタル画像またはスキャンされたフィルムプリントは、コンピューター等の後処理装置102に入力される。このコンピューターは、1以上の中央処理装置(CPU)、RAMやROM等のメモリー110、キーボード、カーソル制御装置(例えば、マウスやジョイスティック)、及びディスプレイ装置等の入出力(I/O)ユーザーインターフェース112等のハードウェアを有する公知の様々な任意のコンピューターフォーム上で実施される。このコンピュータープラットフォームは、オペレーティングシステムやマイクロインストラクションコードをもまた含む。ここに記載される様々な処理や機能は、マイクロインストラクションコードの一部とすること、またはオペレーティングシステムを介して実行されるソフトウェアアプリケーションの一部(または、これらの組み合わせ)とすることができる。1つの実施形態において、ソフトウェアアプリケーションプログラムは、プログラム記憶装置上で明確に具現化される。このソフトウェアアプリケーションプログラムは、アップロード可能であり、また、後処理装置102のような任意の適切な装置によって実行される。また、様々なインターフェースや、パラレルポート、シリアルポート、又はUSB(Universal Serial Bus)等のバス構造により、他の様々な周辺装置を、このコンピュータープラットフォームに接続することができる。他の周辺装置は、追加の記憶装置124およびプリンター128を含むことができる。
【0024】
また、コンピューター可読形態106(例えば、外部ハードドライブ124に格納可能なデジタルシネマ)におけるファイル/フィルムプリントは、コンピューター102に直接入力される。
【0025】
ソフトウェアプログラムは、メモリー110に格納される類似検索モジュール114を含み、クエリ画像に基づいて関心画像を効率よく検索する。類似検索モジュール114はさらに画像分類モジュール116を含み、画像分類モジュール116は、複数の分類器(classifier)及びサブ分類器を生成して、クエリ画像を少なくとも1つのカテゴリーに分類する。特徴抽出部118は、画像から特徴を抽出する。特徴抽出部は、当業者に既知のものであり、テクスチャ、線方向、エッジ等の特徴を抽出するが、これに限定されない。1つの実施形態において、分類器は、抽出された特徴に基づいて、クエリ画像を分類するパターン認識関数を含む。
【0026】
類似検索モジュール114はさらに、画像データベース122の画像サブセットをそれぞれ検索するように構成された画像検索部を複数含む画像検索モジュール119を含む。各画像検索部は、類似測定を用いて、クエリ画像から関心画像を決定する。
【0027】
キーワードタグ付け部120は、データベースの各画像に特徴をタグ付けする。1つの実施形態において、キーワードタグ付け部120はNキーワードの辞書を含み、キーワードタグ付け部120はキーワードから特徴ベクトルを生成するために用いられる。タグ付けされる特徴は、画像を複数のサブセットに格納するために用いることができる。さらに、1つの実施形態において、画像分類モジュール116は、キーワードを用いて分類器を生成する。
【0028】
さらに、類似検索モジュール114は、データベース中の画像においてオブジェクト(対象)を認識するためのオブジェクト認識部121を含む。認識されたオブジェクトを用いることにより、画像分類モジュール116は、当該オブジェクトから学習し、また、当該オブジェクトに基づいて分類器を構築することができる。
【0029】
図2は、本発明の開示による態様に従う、これに限定されるものではないが、分類検索ツリー等の分類データ構造を用いた画像の類似検索のための例示的方法のフロー図である。まず、ステップ202において、以下に詳細に説明する分類検索ツリーが構築される。次に、ステップ204において、後処理装置102は、少なくとも1つの2次元(2D)画像、例えばクエリ画像を取得する。後処理装置102は、例えば民生用カメラを介して、コンピューター可読フォーマットにおけるデジタル画像ファイルを得ることにより、クエリ画像を取得することができる。本開示による技術は画像に関して記載されているけれども、連続する画像、例えばビデオ等の動画も、本開示による技術を利用することができる。デジタルビデオファイルは、デジタルカメラで一時的な一連の動画をキャプチャすることにより取得することができる。または、通常のフィルムタイプカメラにより、ビデオシーケンスをキャプチャすることができる。この場合、当該フィルムは、スキャン装置103を介してスキャンされる。ステップ206において、クエリ画像は、分類器により分類されて、続けて、ツリーのより低位の最下層または枝に到達するまで、ステップ208においてサブ分類器により分類される。ステップ210において、全体の画像空間またはデータベースに対するよりもむしろデータベース122の画像サブセットの範囲内で検索部による検索が実行される。分類検索ツリーの構築または生成、及びツリー内の検索の詳細は、以下に記載する。
【0030】
本開示によるシステム及び方法は、ツリー型検索を採用してデータベースの小サブセット内の画像比較を制限する。ツリー型検索は、以下に記載の画像分類に基づいている。分類ツリーは、自動的に又は手動で画像にキーワードをタグ付けすることにより構築される。
【0031】
本開示によるシステム及び方法は、分類検索ツリーの枝に沿うようにして関心画像の検索を制限することにより、検索処理を高速化する。検索の実行において、高精度類似測定値S(I
q,I
d)が利用されることが想定され、ここでI
qは、クエリ画像であり、I
dはデータベース中の画像である。類似測定値は、2つの画像の類似性を示す数であり、例えば、1.0は2つの画像が同一であることを意味し、0.0は2つの画像が完全に異なることを意味する。通常、距離が類似の逆数として考慮される。類似の1つの例は、2つの画像の色ダイアグラムの距離の逆数である。類似測定は、当業者に知られているものであり、また、画像の類似測定値は、ある画像カテゴリーに対して「学習可能」であり、当該カテゴリー内で類似検索が最適されうる。この類似測定が、ある画像カテゴリーに対して手動で設計されることもありうる。いずれの場合にも、類似測定が画像カテゴリーCに適用され、S
C(I
q,I
d)として表される。
【0032】
分類検索ツリーは、当該ツリーにおける各中間ノードが分類器を用いて画像における1つ以上のカテゴリーを検出し又は分類するためのツリーである。ツリーにおける各枝は、カテゴリーを表す。検出されたカテゴリーの枝のみが、次に、ツリーにトラバースされる。
図3に示すように、ツリー中の各リーフノード302、304、306、308、310は、特定のカテゴリーに対応する画像を表す。分類検索ツリーは、複数の層及びレベルを有することができる。例えば、
図3におけるツリーは、3つのレベルを有する。さらに、
図3に示すように、分類検索ツリーは分類器及び検索器を含む。
【0033】
分類器は、クエリ画像をカテゴリーに分類するために用いられる。1つの実施形態において、分類器は、パターン認識、又は装置学習アルゴリズム、又は例えばカラー及びテクスチャ等の自動的に抽出された特徴に基づく関数である。分類の一般的な手順は次の通りである。まず、特徴ベクトルが画像から抽出され、次に、パターン認識アルゴリズム又は関数が特徴ベクトルを取得して、1以上のクラスラベルを、1以上のある画像カテゴリーを表す選択信頼性スコア(例えば、クラスID及びスコア)とともに出力する。一般に、パターン認識アルゴリズムは、入力として特徴ベクトルを取得し、クラスIDを示す整数を出力し、あるいは、パターン認識関数は、抽出されたベクトルを記憶されるベクトルと比較する。他のパターン認識アルゴリズムまたは関数が当業者に知られている。分類器はまた、2値とすることができる。この場合、分類器は、画像がそれぞれあるカテゴリーに属するかどうかを示すyesラベル又はnoラベルを出力する。分類器は、手動による設計又は例示的データから自動的に構築することができる。
【0034】
検索器は、画像の類似性を計算し、クエリ画像に最も類似する関心画像を発見するために用いられるプログラムである。
【0035】
簡単な分類検索の場合、クエリ画像が1つに分類され、リーフカテゴリーがカテゴリーCならば、各レベルで1つのカテゴリーのみとなる。分類の終了後、すなわち、クエリ画像が分類検索ツリーの底(リーフ層)に到達した後、類似測定値S
C(I
q,I
d)計算が実行されて、
図4に示すように、画像カテゴリーCに相当するデータベースのサブセットの範囲内にある画像を検索する。
図4及び残りの図において、検索中にトラバースされる枝又はリーフノードを実線で示し、トラバースされない分類器及び検索器を破線で示す。例えば、
図4において、クエリ画像が受信され、分類器0に出力される。分類器0において、この画像が、例えばサブ分類器である分類器0.1でさらに分類されるかが決定される。分類器0.1から、クエリ画像が分類器0.1.1に出力され、ここで、画像サブセット0.1.1.2に、クエリ画像に類似する画像を検索するために検索器0.1.1.2を用いるかどうかが判定される。関心画像の検索を画像サブセット0.1.1.2に制限することにより、検索がより効率よく、かつ早急に実行されることが理解されよう。
【0036】
この場合、分類器の出力は、2値またはn変数にすることができる。2値分類器の場合、この分類器の出力は、カテゴリーに属するクエリ画像であるか否かを示す。同様に、n変数の分類器の場合、この分類器の出力は、クエリ画像がどのカテゴリーに属するかを示す整数値にできる。分類検索ツリーにおいて分類器の全てが2値である場合、ツリーは2値ツリーであり、そうでなければ、非2値分類検索器でありうる。
【0037】
簡単な分類検索の1つの課題は、分類に誤りがあった場合にクエリ画像が完全に間違ったカテゴリーに進み、結果として誤った検索結果となりうることである。この課題は、1つのカテゴリーよりもむしろ複数のカテゴリーが検索されるようにする冗長な検索により解決することができる。
【0038】
図5を参照すると、冗長な分類検索の場合において、クエリ画像は、例えば、分類器0.1及び分類器0.2といった1以上のリーフカテゴリーに分類される。分類の終了後、すなわち、クエリ画像が分類検索ツリーの底(リーフ層)における各自のカテゴリー、例えば分類器0.1.1及び分類器0.2に到達した後、類似測定値S
C(I
q,I
d)計算が実行され、例えば
図5に示すように、検索器0.1.1.2が画像サブセット0.1.1.2を検索し、また検索器0.2.1が画像サブセット0.2.1を検索するようにして、選択された画像カテゴリーCに相当するデータベースのサブセットの範囲内で画像を検索する。
【0039】
冗長な分類検索を実現するために、分類器の出力は、クラスラベルのリスト、及びクエリ画像において存在するカテゴリーに相当する信頼性を表す浮動値のリストである必要がある。次に、閾値化手順が用いられて、分類器の出力が閾値よりも大きなカテゴリーのリストを得ることができる。クエリ画像は、結果として得られるカテゴリーのリストに属するようにされる。ツリーの底のレベルに到着後、カテゴリーのリストからの各画像に対する類似性スコアが決定されて、次に、最大の類似性スコアをもつ画像が関心画像として選択される。
【0040】
画像に対して効率的な検索を可能にするために、分類検索ツリーが構築されて、画像空間を構造化して、毎回全ての画像が検索されないようにする。
図6を参照すると、分類検索ツリーを構築することまたは生成することは、2つの段階を含んでいる。第1の段階において、ツリーの全ての枝が構築され、この際に、分類検索ツリーが複数の層を有する場合、全ての分類器を構築してツリーに分類器を編成する。第2の段階において、データベース中の画像がカテゴリーに分類されて、データベース中に画像のサブセットを形成する。さらに検索器が、画像のサブセットのそれぞれの範囲内を検索するために定義される。
【0041】
分類検索ツリーを構築するために、ツリー中の中間ノードの分類器が最初に構築されなければならない。各分類器は、1つの意味クラス(例えば、屋外シーン、木、人間の顔等)に相当する。この意味クラスは、人間により手動で決定することも、また、自動的にクラスタリング関数又はアルゴリズムを用いることもできる。分類器同士の間(つまり、ツリー構造)の関係は、人間の設計により定義することができる。
【0042】
ひとたび意味クラスが定義されれば、意味分類器が、中間ノード、例えば、サブ分類器304、306、308、310に対して構築される。各分類器又はサブ分類器は、1つずつ、異なる手順で構築することができる。1つの実施形態において、「包括的な」分類器が提供されて、次に、「包括的な」分類器は、各画像カテゴリーの例示的画像から学習する。この手順は、本開示によるシステム及び方法が、特別に各分類器を設計することなくたくさんの意味分類器を構築できるようにしている。この形式の分類器は、学習型シーン(learning−based scene)又はオブジェクト認識と呼ばれる。例示の学習型シーン又はオブジェクト認識は、R. Fergus, P. Perona, and A. Zissermanによる、Object Class Recognition by Unsupervised Scale-Invariant Learning", Proc. of the IEEE Conf on Computer Vision and Pattern Recognition 2003に開示されている。Fergusらの論文において、スケールが不変の方法で、ラベル付けされていないかつセグメント化されていない散乱したシーンから学習し、オブジェクトクラスモデルを認識する方法が記載されている。この方法において、オブジェクトは、パーツのフレキシブルな集合としてモデル化される。確率的表現が、全てのオブジェクトの態様、形態、外観、閉鎖及び相対スケールに対して用いられる。エントロピー型特徴検出器は、画像内の領域およびスケールを選択するために用いられる。学習において、スケール不変のオブジェクトモデルが評価される。これは、最大尤度設定における期待値最大化を用いることにより行われる。認識において、この方法は、画像を分類するためにベイシアン方に用いられている。
【0043】
分類器を定義し、構築する別の方法は、画像ユーザーによる「キーワードタグ付け」を用いることである。「キーワードタグ付け」に関し、画像ユーザーは、手動で「木」「顔」「青空」等のキーワードを画像に割り当てる。これら手動によりタグ付けされたキーワードは、画像の特徴の種類が考慮されており、したがって、分類を目的として用いることができる。例えば、キーワードスポット分類器が構築されて、ひとたび分類器があるキーワードを発見すると、画像をあるクラスに分類することができる。より高性能に、タグ付けされたキーワードは、ある種の特徴として取り扱われ、特徴ベクトルに変換される。これは、「term vector」(タームベクトル)と呼ばれるイメージ検索に用いられる技術により実現される。基本的に、Nキーワードをもつ辞書が構築されて、そしてキーワードがタグ付けされた各画像に対してN次元のキーワード特徴ベクトルが画像に割り当てられる。画像が辞書におけるi番目のキーワードでタグ付けされた場合、次に、タームベクトルのi番目の要素に1が割り当てられ、もしくは0が割り当てられる。結果として、各画像に関するタームベクトルが提供されて、画像の意味を表すこととなる。このタームベクトルは、上述の特徴ベクトルで連結することができ、
図7に示すように画像分類のための新たな特徴ベクトルを形成する。
【0044】
各画像のサブセットに関し、画像検索器が手動で設計されるか、又は学習される。画像検索器は、データベースのサブセット内で類似検索を実行するために用いられる。
【0045】
分類器が定義され構築された後に、データベースにおける各画像がサブセットに分類される。画像のサブセットを構築する方法は、分類−検索処理に非常に類似している。画像がデータベースに入力された場合、
図8に示すように底レベルの分類器の1つに相当する画像プールに画像が置かれる分類ツリーの底レベルに到達するまで、分類ツリーに自動的に分類される。
【0046】
潜在的な課題は、画像が2以上のオブジェクトを含むことであり、例えば、人々と木とを含むような画像である。例えば、「人々」と「木」のように、分類ツリーに2つの意味クラスがある場合、画像を1つのクラスに分類するのに曖昧さが存在しうる。この課題は、上述の冗長分類により解決することができる。すなわち、入力画像は、2つのサブセットに分類される。
【0047】
本開示による教唆を組み込んだ実施形態が、ここで詳細に説明されているけれども、当業者であれば、これら教唆をやはり組み込んだ他の様々な多くの実施形態をたやすく考案できる。分類検索ツリーで画像を効率よく意味類似検索するシステム及び方法の好適な実施形態を記載したことは(説明したものに限られないが)、上述の教唆に照らし合わせて、当業者により修正及び変形が可能であることに留意されたい。したがって、添付の特許請求の範囲により説明される開示の範囲内で、開示された開示の特定の実施形態において変更可能であることが理解されよう。
付記1
関心画像に関して、複数の画像を検索する方法であって、
前記複数の画像のサブセットを表す画像カテゴリーを少なくとも2つ含む分類構造を、前記複数の画像に対して構築するステップと、
クエリ画像を受信するステップと、
前記少なくとも2つの画像カテゴリーのうちの1つを選択するための前記クエリ画像を分類するステップと、
前記関心画像の画像に関して、前記少なくとも2つの画像カテゴリーのうちの選択された1つへの検索を制限するステップと
を備えることを特徴とする方法。
付記2
前記分類構造は、意味分類検索ツリーであることを特徴とする付記1に記載の方法。
付記3
前記クエリ画像を分類するステップは、
前記クエリ画像から特徴を抽出するステップと、
抽出された特徴に基づいて前記少なくとも2つの画像カテゴリーのうちの1つを特定するステップと
を含むことを特徴とする付記1に記載の方法。
付記4
前記クエリ画像を分類するステップは、パターン認識関数により実行されることを特徴とする付記1に記載の方法。
付記5
前記分類構造を構築するステップは、それぞれの前記画像カテゴリーに関する分類器を決定するステップを含み、
前記分類器は、前記少なくとも2つの画像カテゴリーの1つに画像を分類する
ことを特徴とする付記1に記載の方法。
付記6
前記分類器を決定するステップは、クラスタリング関数を前記複数の画像に用いることにより実行されることを特徴とする付記5に記載の方法。
付記7
決定された前記分類器のそれぞれに対して少なくとも1つのサブ分類器を決定するステップをさらに含むことを特徴とする付記5に記載の方法。
付記8
決定された前記分類器に基づいて前記複数の画像のそれぞれを分類するステップと、
前記複数の画像のそれぞれを、前記複数の画像のサブセットのうちの少なくとも1つに格納するステップと
をさらに含むことを特徴とする付記5に記載の方法。
付記9
前記分類構造を構築するステップは、
前記複数の画像の各画像に、特徴キーワードをタグ付けするステップと、
前記複数の画像のそれぞれを、前記特徴キーワードに基づいて前記複数の画像のサブセットのうちの少なくとも1つに格納するステップと
を含むことを特徴とする付記1に記載の方法。
付記10
前記特徴キーワードに基づく画像カテゴリーのそれぞれに対する分類器を決定するステップをさらに含むことを特徴とする付記9に記載の方法。
付記11
前記分類構造を構築するステップは、
前記少なくとも2つの画像カテゴリーの前記複数の画像のそれぞれからオブジェクトを認識するステップと、
各画像の前記認識されたオブジェクトに基づいて画像カテゴリーのそれぞれに対する分類器を決定するステップと、
をさらに含み、
前記分類器は、前記少なくとも2つのカテゴリーのうちの1つに画像を分類する
ことを特徴とする付記1に記載の方法。
付記12
前記関心画像に対する前記検索は、類似性測定により実行されることを特徴とする付記1に記載の方法。
付記13
前記少なくとも2つの画像カテゴリーのうちの少なくとも2つに前記クエリ画像を分類するステップと、
前記少なくとも2つの画像カテゴリー内の前記クエリ画像を用いて前記関心画像を検索するステップと、
前記少なくとも2つのカテゴリーのそれぞれの中で発見された画像のそれぞれに対して類似性スコアを決定し、
最高の前記類似性スコアをもつ前記画像を前記関心画像として選択するステップと
をさらに含むことを特徴とする付記1に記載の方法。
付記14
関心画像に関して、複数の画像を検索するシステムであって、
前記複数の画像のサブセットを表す画像意味カテゴリーの少なくとも2つに構造化される前記複数の画像を含むデータベースと、
少なくとも1つのクエリ画像を取得する手段と、
前記クエリ画像を分類して、少なくとも2つの前記画像意味カテゴリーのうちの1つを選択する画像分類モジュールと、
前記クエリ画像を用いて前記関心画像を検索する画像検索モジュールと、
を備え、
前記検索は、少なくとも2つの前記画像意味カテゴリーのうちの選択された1つに制限される
ことを特徴とするシステム。
付記15
前記クエリ画像から特徴を抽出する特徴抽出部をさらに備え、前記画像分類モジュールは、前記抽出された特徴に基づいて少なくとも2つの前記画像意味カテゴリーのうちの1つを決定することを特徴とする付記14に記載のシステム。
付記16
前記画像分類モジュールは、パターン認識関数を含むことを特徴とする付記14に記載のシステム。
付記17
前記画像意味カテゴリーのそれぞれに関する分類器を含む意味分類検索ツリーを構築す
る手段をさらに備え、前記分類器は、少なくとも2つの前記画像意味カテゴリーのうちの
1つに画像を分類することを特徴とする付記14に記載のシステム。
付記18
前記画像分類モジュールは、クラスタリング関数を前記複数の画像に適用することにより前記分類器を決定することを特徴とする付記17に記載のシステム。
付記19
前記画像分類モジュールは、決定された分類器それぞれに対してサブ分類器を決定することを特徴とする付記17に記載のシステム。
付記20
前記画像分類モジュールは、前記決定された分類器に基づいて前記複数の画像のそれぞれを分類し、かつ、前記複数の画像のそれぞれを前記データベース内の前記複数画像のサブセットに格納することを特徴とする付記17に記載のシステム。
付記21
前記複数の画像の各画像に特徴キーワードをタグ付けし、かつ、前記特徴キーワードに基づいて前記データベースの前記複数の画像のサブセットに前記複数の画像のそれぞれを格納するキーワードタグ付け部をさらに備えることを特徴とする付記17に記載のシステム。
付記22
前記画像分類モジュールは、前記特徴キーワードに基づいて前記画像意味カテゴリーの
それぞれに対して前記分類器を決定することを特徴とする付記21に記載のシステム。
付記23
少なくとも2つの画像意味カテゴリーの前記複数の画像のそれぞれからオブジェクトを識別するオブジェクト識別部をさらに備え、前記画像分類モジュールは、各画像の前記認識されたオブジェクトに基づいて画像意味カテゴリーに対する分類器を決定することを特徴とする付記17に記載のシステム。
付記24
前記画像検索モジュールは、類似測定を含むことを特徴とする付記14に記載のシステム。
付記25
前記画像分類モジュールは、前記クエリ画像を少なくとも2つの前記画像意味カテゴリーのうちの少なくとも2つに分類し、前記画像検索モジュールは、前記クエリ画像を用いて、少なくとも2つの前記画像意味カテゴリーにおいて前記関心画像を検索し、少なくとも2つの前記画像意味カテゴリーのそれぞれにおいて発見された各画像について類似性スコアを決定し、最高の前記類似性スコアを持つ前記画像を前記関心画像として選択することを特徴とする付記14に記載のシステム。
付記26
関心画像に関して複数の画像を検索する複数の方法ステップを実行するために機械により実行可能なプロラム命令を明確に実行する機械可読可能なプログラム記憶装置であって、
前記方法は、
前記複数の画像のサブセットを表す画像カテゴリーを少なくとも2つ含む分類構造を、前記複数の画像に対して構築するステップと、
クエリ画像を受信するステップと、
前記クエリ画像を分類して、少なくとも2つの画像カテゴリーのうちの1つを選択するステップと、
前記関心画像に対する前記検索を前記少なくとも2つの画像カテゴリーのうちの選択された1つに制限するステップと、
を備えることを特徴とする方法。