【文献】
黒川雅人 外1名,“形状情報を用いた画像の類似検索システム”,情報処理学会論文誌,日本,社団法人情報処理学会,1991年 6月15日,第32巻,第6号,p.721−730
(58)【調査した分野】(Int.Cl.,DB名)
前記抽出アルゴリズムは、Linderbergスケール不変性理論に基づいた特徴検出器、またはDavid Loweのスケール不変特性変換(SIFT)様の高次元記述子アルゴリズムであることを特徴とする請求項2に記載の方法。
前記特徴抽出ユニットが、スケール不変性を用いる抽出アルゴリズムを使用することによって、前記サンプル画像から前記領域特徴を抽出し、前記抽出アルゴリズムは、Linderbergスケール不変性理論に基づいた特徴検出器、またはDavid Loweのスケール不変特性変換(SIFT)様の高次元記述子アルゴリズムであることを特徴とする請求項6に記載の装置。
前記領域特徴が領域特徴ベクトルであり、前記クラスタリングユニットが定義されたクラスタリングアルゴリズムを使用して、前記サンプル画像の前記領域特徴ベクトルの間のそれぞれの距離を計算し、前記サンプル画像の領域内にあり、かつ距離閾値より小さいそれぞれの距離を有する前記領域特徴の数を同じノードに分類することを特徴とする請求項6に記載の装置。
【発明の概要】
【0008】
本開示は、画像監視の精度を向上するために、サンプル画像インデックステーブルを作成し、画像をフィルタリングするための方法および装置を提供する。
【0009】
一態様に従い、サンプル画像インデックステーブルを作成するための方法は、サンプル画像から領域特徴を抽出することと、サンプル画像の領域特徴を複数のノードにクラスタリングすることであって、それぞれのノードのそれぞれの領域特徴が、同じ類似度を有し、各ノードがそれぞれのノード識別に対応することと、サンプル画像インデックステーブルを確立することであって、サンプル画像インデックステーブルが、複数のノードのうちの第1のノードの第1のノード識別と、サンプル画像の識別と、第1のノードのそれぞれの領域特徴がサンプル画像に出現する回数との間の相関を記憶し、サンプル画像インデックステーブルが、サンプル画像のノードのノード識別と、サンプル画像の中のノードの数のカウントとをさらに記憶することと、を含む。
【0010】
一実施形態において、サンプル画像から領域特徴を抽出することは、スケール不変性を用いる抽出アルゴリズムを使用することによって、サンプル画像から領域特徴を抽出することを含むことができる。抽出アルゴリズムは、Linderbergスケール不変性理論(scale invariability theory)に基づいた特徴検出器またはDavid Loweのスケール不変特性変換(SIFT)様の高次元記述子アルゴリズムであってもよい。
【0011】
一実施形態において、領域特徴は、領域特徴ベクトルであってもよく、サンプル画像の領域特徴をクラスタリングすることは、定義されたクラスタリングアルゴリズムを使用して、サンプル画像の領域特徴ベクトルの間のそれぞれの距離を計算することと、サンプル画像の領域内にあり、かつ距離閾値よりも小さいそれぞれの距離を有する、領域特徴の数を同じノードに分類することと、を含むことができる。
【0012】
別の態様に従い、画像フィルタリングのための方法は、サンプル画像インデックステーブルを確立することであって、サンプル画像インデックステーブルが、複数のノードのノード識別と、複数のノードにクラスタリングされる領域特徴を有するサンプル画像の識別と、ノードの各々のそれぞれの領域特徴がサンプル画像に出現する回数との間の相関を記憶し、サンプル画像インデックステーブルが、サンプル画像のノードのノード識別と、サンプル画像の中のノードの数のカウントとをさらに記憶することと、検索される画像から領域特徴を抽出することと、検索される画像の領域特徴を対応するノードにクラスタリングすることと、検索される画像のノードのノード識別を使用して、サンプル画像インデックステーブルをインデックスすることによって、対応するサンプル画像識別を取得することと、検索される画像と、サンプル画像との間の重複ノードの数を判定することと、検索される画像のノードの数およびサンプル画像のノードの数に基づいて、検索される画像の類似度を取得することと、検索される画像とサンプル画像との間の類似度が類似性の閾値を超える場合に、検索される画像をフィルタリング除去することと、をさらに含む。
【0013】
一実施形態において、検索される画像の類似度の程度を取得することは、検索される画像のノードの数と、サンプル画像のノードの数とを比較して、両者のうちの小さい方の数を提供することと、検索される画像とサンプル画像との間の類似度の程度を、検索される画像とサンプル画像との間の重複ノードの数と小さい方の数との比率として取得することと、を含むことができる。
【0014】
別の実施形態において、検索される画像の類似度の程度を取得することは、検索される画像のノードの数と、サンプル画像のノードの数とを比較して、両者の間の大きい方の数を提供することと、検索される画像とサンプル画像との間の類似度を、検索される画像とサンプル画像との間の重複ノードの数と大きい方の数との比率として取得することと、を含むことができる。
【0015】
別の態様に従い、サンプル画像インデックステーブルを作成するための装置は、サンプル画像から領域特徴を抽出する、特徴抽出ユニットと、サンプル画像の領域特徴を、各々が同じ類似度を有するそれぞれの数の領域特徴を有する複数のノードにクラスタリングする、クラスタリングユニットであって、各ノードが、それぞれのノード識別に対応する、クラスタリングユニットと、サンプル画像インデックステーブルを確立する記憶ユニットであって、サンプル画像インデックステーブルが、複数のノードのうちの第1のノードの第1のノード識別と、サンプル画像の識別と、第1のノードのそれぞれの領域特徴がサンプル画像に出現する回数との間の相関を記憶し、サンプル画像インデックステーブルが、サンプル画像のノードのノード識別と、サンプル画像の中のノードの数のカウントとをさらに記憶する、記憶ユニットと、を備えることができる。
【0016】
一実施形態において、特徴抽出ユニットは、スケール不変性を用いる抽出アルゴリズムを使用することによって、サンプル画像から領域特徴を抽出してもよい。抽出アルゴリズムは、Linderbergスケール不変性理論に基づいた特徴検出器またはDavid Loweのスケール不変特性変換(SIFT)様の高次元記述子アルゴリズムであってもよい。
【0017】
一実施形態において、領域特徴は、領域特徴ベクトルであってもよく、クラスタリングユニットは、定義されたクラスタリングアルゴリズムを使用して、サンプル画像の領域特徴ベクトルの間のそれぞれの距離を計算し、サンプル画像の領域内にあり、かつ距離閾値より小さいそれぞれの距離を有する領域特徴の数を同じノードに分類することができる。
【0018】
別の態様に従い、画像フィルタリングのための装置は、サンプル画像インデックステーブルを記憶する記憶ユニットであって、サンプル画像インデックステーブルが、複数のノードのノード識別と、複数のノードにクラスタリングされる領域特徴を有するサンプル画像の識別と、ノードの各々のそれぞれの領域特徴がサンプル画像に出現する回数との間の相関を記憶し、サンプル画像インデックステーブルが、サンプル画像のノードのノード識別と、サンプル画像の中のノードの数のカウントとをさらに記憶する、記憶ユニットと、検索される画像から領域特徴を抽出する、抽出ユニットと、検索される画像の領域特徴を対応するノードにクラスタリングする、ノード判定ユニットと、検索される画像のノードのノード識別を使用してサンプル画像インデックステーブルをインデックスすることによって、対応するサンプル画像識別を取得する、インデックスユニットと、検索される画像と、サンプル画像との間の重複ノードの数を計算する、計算ユニットと、検索される画像のノードの数およびサンプル画像のノードの数に基づいて、検索される画像の類似度を取得する、類似度計算ユニットと、検索される画像とサンプル画像との間の類似度が類似性の閾値を超える場合に、検索される画像をフィルタリング除去する、出力フィルタリングユニットと、を備えることができる。
【0019】
一実施形態において、類似度計算ユニットは、検索される画像のノードの数と、サンプル画像のノードの数とを比較して、両者の間の小さい方の数を提供し、検索される画像とサンプル画像との間の類似度の程度を、検索される画像とサンプル画像との間の重複ノードの数と小さい方の数との比率として取得するようにさらに構成されてもよい。
【0020】
別の実施形態において、類似度計算ユニットは、検索される画像のノードの数と、サンプル画像のノードの数とを比較して、両者の間の大きい方の数を提供し、検索される画像とサンプル画像との間の類似度を、検索される画像とサンプル画像との間の重複ノードの数と大きい方の数との比率として取得するように、さらに構成されてもよい。
【0021】
また別の態様に従い、画像検索のための方法は、サンプル画像インデックステーブルを確立することであって、サンプル画像インデックステーブルが、複数のノードのノード識別と、複数のノードにクラスタリングされる領域特徴を有するサンプル画像の識別と、ノードの各々のそれぞれの領域特徴がサンプル画像に出現する回数との間の相関を記憶し、サンプル画像インデックステーブルが、サンプル画像のノードのノード識別と、サンプル画像の中のノードの数のカウントとをさらに記憶することと、検索される画像から領域特徴を抽出することと、検索される画像の領域特徴を対応するノードにクラスタリングすることと、検索される画像のノードのノード識別を使用してサンプル画像インデックステーブルをインデックスすることによって、対応するサンプル画像識別を取得することと、検索される画像と、サンプル画像との間の重複ノードの数を計算することと、検索される画像のノードの数およびサンプル画像のノードの数に基づいて、検索される画像の類似度を取得することと、検索される画像とサンプル画像との間の類似度が類似性の閾値を超える場合に、検索結果としてサンプル画像を提供することと、を含んでもよい。
【0022】
一実施形態において、検索される画像の類似度を取得することは、検索される画像のノードの数と、サンプル画像のノードの数とを比較して、両者の間の小さい方の数を提供することと、検索される画像とサンプル画像との間の類似度の程度を、検索される画像とサンプル画像との間の重複ノードの数と小さい方の数との比率として取得することと、を含んでもよい。
【0023】
別の実施形態において、検索される画像の類似度を取得することは、検索される画像のノードの数と、サンプル画像のノードの数とを比較して、両者の間の大きい方の数を提供することと、検索される画像とサンプル画像との間の類似度を、検索される画像とサンプル画像との間の重複ノードの数と大きい方の数との比率として取得することと、を含んでもよい。
【0024】
本開示の実施形態は、検索される画像から領域特徴を抽出することができる。検索される画像の領域特徴に対応するノードは、クラスタリングアルゴリズムによって取得することができる。対応するサンプル画像識別は、サンプル画像インデックステーブルをインデックスするために、各領域特徴に対応するノード識別を使用することによって、取得することができる。検索される画像とサンプル画像との間の類似度が計算される。検索される画像とサンプル画像との間の類似度が類似性の閾値を超える場合、検索される画像はさらなる検証のためにフィルタリング除去される。画像監視の精度が向上する。
【0025】
同様に、本開示の技法は、画像検索のプロセスにおいて適用することができる。検索される画像からのある領域特徴は、検索される取得された画像から抽出することができる。検索される画像の領域特徴に対応するノードは、クラスタリングアルゴリズムによって取得することができる。対応するサンプル画像識別は、サンプル画像インデックステーブルをインデックスするために、各領域特徴に対応するノード識別を使用することによって、取得することができる。検索される画像とサンプル画像との間の類似度が計算される。検索される画像とサンプル画像との間の類似度が類似性の閾値を超える場合、サンプル画像が検索結果として使用される。画像検索の精度は高い。
【発明を実施するための形態】
【0027】
本開示の実施形態において、サンプル画像インデックステーブルは、画像フィルタリングの精度を向上するように記憶されることが必要である。サンプル画像インデックステーブルは、サンプル画像に含有される領域特徴のノード情報を記憶する。領域特徴が検索される画像から抽出される際、検索される画像の領域特徴に対応するノードが取得され、各領域特徴に対応するノード識別は、サンプル画像をインデックスしてサンプル画像識別を取得するために使用される。検索される画像と、対応するサンプル画像の各々との間の重複するノードの数は、統計法によって計算される。検索される画像の類似度は、インデックステーブルから取得される、クラスタリング後の検索される画像の抽出された領域特徴のノードの数、およびクラスタリング後のサンプル画像の抽出された領域特徴のノードの数を使用することによって取得される。検索される画像とサンプル画像との間の類似度が既定の類似性の閾値より高い場合、検索される画像は、画像検証ユニットにフィルタリング入力される。
【0028】
図1を参照し、サンプル画像インデックステーブルを作成するための方法を以下に記載する。
【0029】
101で、方法は、既定の抽出アルゴリズムを使用することによって、サンプル画像からある領域特徴の情報を抽出する。
【0030】
サンプル画像は、予め選択され、フィルタリングの基準として使用することができる画像である。領域特徴は、複数のサンプル画像から抽出することができる。サンプル画像の選択もまたユーザの必要性によって画定することができる。例えば、サンプル画像としてポルノ画像を選択することができる。サンプル画像として、書籍、薬物、武器、個人情報、および化粧品の画像も選択することができる。
【0031】
本明細書では、抽出アルゴリズムは、Linderbergスケール不変性理論に基づいた特徴検出器およびDavid Loweのスケール不変特性変換(SIFT)様の高次元記述子アルゴリズム等、スケール不変性を用いる任意の領域特徴抽出アルゴリズムとすることができる。これらの抽出アルゴリズムは、画像の構造のスケールを自動的に取得することができ、スケール分散、光分散、角度分散、および回転分散等の多様な分散に対するスケールに基づいた領域特徴を計算することができる。領域特徴が取得された後、画像は、何百もの領域特徴として表現される。領域特徴の情報は、抽出された領域特徴ベクトルにすることができる。本開示は、サンプル画像から領域特徴の情報を抽出するために使用される抽出アルゴリズムの種類を制限しない。
【0032】
102で、方法は、既定のクラスタリングアルゴリズムを使用することによって、サンプル画像の領域特徴の情報の全てをクラスタリングする。
【0033】
定義された類似度を持つ領域特徴は、1つのノードに分類される。各ノードは、対応するノード識別を有する。
【0034】
動作102において、複数の領域特徴は、類似度に基づいて、いくつかの群に分類することができる。換言すると、相対的に類似した領域特徴は1つの群に分類される。各群は1つのノードとして参照される。各群の領域特徴は、対応するノードに属する。
【0035】
領域特徴情報が領域特徴ベクトルを含む場合、102で、方法は、既定のクラスタリングアルゴリズムを使用して、各サンプル画像の領域特徴ベクトルの間の距離を計算することができる。その距離が既定の距離閾値より小さい領域特徴は、同じノードに分類される。
【0036】
103で、方法はサンプル画像インデックステーブルを確立する。サンプル画像インデックステーブルは、ノード識別と、そのノードに領域特徴がクラスタリングされるサンプル画像識別と、領域特徴が対応するサンプル画像に出現する回数との間の対応関係を記憶するために使用される。サンプル画像インデックステーブルはまた、ノード識別と、サンプル画像に含まれるノードの数とを記憶するためにも使用される。
【0037】
図2を参照して、画像フィルタリングのための方法を以下に記載する。
【0038】
201で、方法は、既定の抽出アルゴリズムを使用することによって、検索される画像からある領域特徴を抽出する。
【0039】
202で、方法は、既定のクラスタリングアルゴリズムを使用することによって、検索される画像の領域特徴に対応するノードを取得し、サンプル画像インデックステーブルをインデックスするために、各領域特徴に対応するそれぞれのノード識別を使用することによって、対応するサンプル画像識別を取得する。
【0040】
203で、方法は、検索される画像と対応するサンプル画像との間の重複ノードの数を判定する。
【0041】
204で、方法は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を使用することによって、検索される画像の類似度を取得する。
【0042】
検索される画像の類似度は、以下に記載の様式で取得することができる。
【0043】
抽出された領域特徴のクラスタリング後の検索される画像のノードの数と、対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数とが比較されて、小さい方の数が選択される。検索される画像と対応するサンプル画像との間の重複ノードの数と小さい方の数との比率が、検索される画像とサンプル画像との間の類似度として使用される。代替として、本開示は、検索される画像のノードの数とサンプル画像インテックステーブルから取得された対応するサンプル画像のノードの数との間の大きい方の数を、類似度の計算数として使用することもできる。本開示は、小さい方の数と大きい方の数とのどちらが使用されるかを制限しない。
【0044】
205で、方法は、検索される画像とサンプル画像との間の類似度が既定の類似性の閾値を超えるかどうかを判定する。超える場合、検索される画像は、画像検証ユニットにフィルタリング入力され、超えない場合は、正常画像として見なされる。
【0045】
図3を参照して、画像フィルタリングのための別の方法を以下に記載する。
【0046】
300で、方法は、既定のアルゴリズムを使用することによって、サンプル画像からある領域特徴をサンプル画像の画像特徴として抽出し、クラスタリングアルゴリズムを使用することによって、類似した領域特徴を同じノードに数値化し、インデックステーブルを確立する。インデックステーブルは、ノード識別と、そのノードに領域特徴がクラスタリングされるサンプル画像識別と、領域特徴が対応するサンプル画像に出現する回数との間の対応関係を含む。クラスタリング方法は、高次元領域特徴の計算量を削減するために使用することができる。
【0047】
例えば、以下の表1において、ノード識別が「1」であるノードは、画像識別が「#Img3307」および「#Img4615」であるサンプル画像に属する。この例において、ノード「1」はサンプル画像「#Img3307」に2回、サンプル画像「#Imag4615」に3回出現する。同様に、この例では、ノード識別が「N」であるノードは、画像識別が「#Img2948」および「#Img3693」であるサンプル画像に属する。ノード「N」は、サンプル画像「#Img2948」に3回、サンプル画像「#Img3693」に5回出現する。サンプル画像の番号は、サンプル画像識別に相当する。
【0049】
301で、方法は、コンテンツ安全性フィルタリングシステムを起動して、ユーザからアップロードされた画像を受信後に、ユーザによってアップロードされた画像の記憶パスを収集する。
【0050】
302で、方法は、記憶パスを通じて、ファイルシステムからユーザによってアップロードされた画像を取得する。
【0051】
303で、方法は、検索される画像として取得された画像を、画像検索データベースへ送信する。
【0052】
304で、画像検索データベースは、
図2に関して記載したアルゴリズムと同じアルゴリズムを使用することによって、検索される画像の画像特徴として、検索される画像のある領域特徴を抽出する。
【0053】
305で、画像検索データベースは、
図2に関して記載したアルゴリズムと同じクラスタリングアルゴリズムを使用することによって、検索される画像の類似した領域特徴を対応するノードに数値化する。
【0054】
306で、画像検索データベースは、検索される画像に対応するノード識別を使用することによって、インデックステーブルをインデックスし、検索される画像に含まれる各ノード識別の対応するサンプル画像番号を取得し、検索される画像と各サンプル画像との間の重複ノードの数を計算する。
【0055】
307で、方法は、検索される画像とサンプル画像との間の重複ノードの数、および検索される画像の中のノードの数とサンプル画像の中のノードの数との間の小さい方のノードの数を使用することによって、検索される画像とサンプル画像との間の類似度を取得する。
【0056】
全てのサンプル画像から抽出された領域特徴は、最終的に、異なるノードにクラスタリングまたは分類される。検索される画像ImgAの領域特徴は、ノードセットA={a1,a2,…,aN}に分類される。同様に、サンプル画像ImgBの領域特徴は、ノードセットB={b1,b2,…,bM}に分類され、式中、a1,a2,…,aNおよびb1,b2,…,bMはノード番号を表す。重複ノードの数は、A∩BまたはAとBの交わりと呼ばれる。ノード数の小さい方は、min(N,M)である。
【0057】
308で、方法は、検索される画像とサンプル画像との間の類似度が、既定の類似性の閾値より高い、すなわちこれを超える場合に、検索される画像を画像検証ユニットにフィルタリング入力する。
【0058】
検索される画像とサンプル画像との間の類似度が類似性の閾値を超える場合、検索される画像は疑わしい画像として見なされる。検索される画像のリスクをさらに判定するために、そのような画像は、手動判定のために画像検証ユニットに入力される。
【0059】
画像検証ユニットの中のサンプル画像は、システムによって自動的に判定されたリスクの高い画像である。手動検証を必要とする、少数の判定エラーが存在する場合がある。さらに、システムによって判定されたリスクの高い画像の中で、いくつかは、サンプル画像に類似するが、同一ではない。そのような種類の画像は、サンプル画像データベースをさらに向上するために、検証後にサンプルデータベースに追加することができる。
【0060】
サンプル画像データベースの管理は手動で実行することができる。禁忌画像は時々変化する場合があるので、本開示は、サンプル画像データベースを手動で変更するための機能も提供する。サンプル画像データベースが更新された後、インデックステーブルもリアルタイムで変更され、検索結果に適時に反映され、従って高い効率を達成する。
【0061】
図4を参照すると、本開示は、サンプル画像インデックステーブルを確立するための装置を開示する。装置は、特徴抽出ユニット41と、クラスタリングユニット42と、記憶ユニット43とを含む。
【0062】
特徴抽出ユニット41は、既定の抽出アルゴリズムを使用することによって、サンプル画像からある領域特徴情報を抽出するように構成される。
【0063】
クラスタリングユニット42は、既定のクラスタリングアルゴリズムを使用することによって、サンプル画像の領域特徴の情報をクラスタリングするように構成される。定義された類似度を持つ領域特徴は、1つのノードに分類される。各ノードは、対応するノード識別を有する。
【0064】
記憶ユニット43は、サンプル画像インデックステーブルを確立するように構成される。サンプル画像インデックステーブルは、ノード識別と、そのノードに領域特徴がクラスタリングされるサンプル画像識別と、領域特徴が対応するサンプル画像に出現する回数との間の対応関係を記憶するために使用される。サンプル画像インデックステーブルはまた、ノード識別と、サンプル画像に含まれるノードの数とを記憶するためにも使用される。
【0065】
抽出アルゴリズムは、スケール不変性を用いる任意の領域特徴抽出アルゴリズムにすることができる。
【0066】
抽出アルゴリズムは、Linderbergスケール不変性理論に基づいた特徴検出器、またはSIFT様高次元記述子アルゴリズムにすることができる。
【0067】
領域特徴情報は、抽出された領域特徴ベクトルにすることができる。クラスタリングユニット42は、既定のクラスタリングアルゴリズムを使用して、各サンプル画像の領域特徴ベクトルの間の距離を計算することができる。その距離が既定の距離閾値より小さい領域特徴は、同じノードに分類される。
【0068】
図5を参照して、本開示は、画像フィルタリングのための装置を開示する。装置は、記憶ユニット51と、抽出ユニット52と、ノード判定ユニット53と、インデックスユニット54と、計算ユニット55と、類似度計算ユニット56と、出力フィルタリングユニット57とを含む。
【0069】
記憶ユニット51は、サンプル画像インデックステーブルを記憶するように構成される。サンプル画像インデックステーブルは、ノード識別と、そのノードに領域特徴がクラスタリングされるサンプル画像識別と、領域特徴が対応するサンプル画像に出現する回数との間の対応関係を記憶するために使用される。サンプル画像インデックステーブルはまた、ノード識別と、サンプル画像に含まれるノードの数とを記憶するためにも使用される。
【0070】
抽出ユニット52は、既定の抽出アルゴリズムを使用することによって、検索される画像からある領域特徴情報を抽出するように構成される。
【0071】
ノード判定ユニット53は、既定のクラスタリングアルゴリズムを使用することによって、検索される画像の領域特徴に対応するノードを取得するように構成される。
【0072】
インデックスユニット54は、サンプル画像インデックステーブルをインデックスするために、各領域特徴に対応するノード識別を使用することによって、対応するサンプル画像識別を取得するように構成される。
【0073】
計算ユニット55は、検索される画像と対応するサンプル画像との間の重複ノードの数を計算するように構成される。
【0074】
類似度計算ユニット56は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を使用することによって、検索される画像の類似度を取得するように構成される。
【0075】
出力フィルタリングユニット57は、検索される画像とサンプル画像との間の類似度が、既定の類似性の閾値より高い、すなわちこれを超える場合に、検索される画像をフィルタリングするように構成される。
【0076】
類似度計算ユニット56は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を比較するように構成される。両者のうちの小さい方の数が選択される場合がある。検索される画像と対応するサンプル画像との間の重複ノードの数と小さい方の数との比率が、検索される画像とサンプル画像との間の類似度として使用される。
【0077】
本開示の実施形態のフィルタリング技術は、画像検索に基づき、アップロードされた画像を、監視を必要とする1つ以上のサンプル画像と比較する。アップロードされた画像がサンプル画像に非常に類似する場合、アップロードされた画像は、検証のために検証ユニットへ送信される。本技術の利点は、高速、および高精度である。一方、手動検証は、エラー率をさらに削減することができる。
【0078】
本開示の実施形態は、画像のコンテンツを認識することを意図せず、アップロードされた画像を1つ以上のサンプル画像と単純かつ効率的に比較し、アップロードされた画像のリスクの程度として、類似度を分析することを意図する。高いリスクの可能性がある画像に対して、さらなる手動の検証を行う場合がある。オンライン取引に関する画像のほとんどが売買品の画像であり、売買品の画像を繰り返し使用する、または簡単な変化後の売買品の画像を繰り返して使用する高い可能性があることから、画像検索および比較の利用によって、ほとんどの違法な画像を監視することができる。その上、サンプル画像データベースはリアルタイムで手動により維持される。監視ルールに変化が存在する場合、サンプル画像データベースの変更によって、監視ルールを変更することができる。異なる商品に対して異なる監視ターゲットを使用して、範囲問題を解決することができる。一方、異なる売買品の特徴に対して、画像の特徴を分析することができ、監視の柔軟度は、精度を向上するように設定することができる。
【0079】
同様に、本開示の画像インデックスの発想は、画像検索分野においても使用することができる。画像データベースは、事前に検索エンジンサーバにおいて確立される必要がある。画像データベースに記憶される画像は、例えば、ウェブサイトにログインするユーザによってアップロードされた画像、他のシステムからインポートされた画像、大量のウェブページからネットワークスパイダーによって抽出された画像、他の情報源からの画像、および1つ以上の上記の情報源の組み合わせからの画像である可能性がある。本開示は、画像の情報源を限定しない。インターネット上の大量のウェブページからネットワークスパイダーによって画像を抽出するための技術は、周知の技術であり、本明細書には詳細を記載しない。画像データベースの中の画像に関して、領域特徴情報は、サンプル画像インデックステーブルを確立するために取得される。サンプル画像インデックステーブルは、ノード識別と、そのノードに領域特徴がクラスタリングされるサンプル画像識別と、領域特徴が対応するサンプル画像に出現する回数との間の対応関係を記憶し、さらにノード識別と、サンプル画像の中に含まれるノードの数とを記憶するために使用される。検索エンジンのクライアントが画像検索のための命令を送信すると、検索エンジンサーバは、検索される画像を分析し、サンプル画像インデックステーブルで問い合わせを行い、検索される画像を含む同一または類似の画像を取得し、検索エンジンのクライアントに結果を返す。
【0080】
図6を参照して、本開示は、以下に記載の画像検索のための方法を提供する。
【0081】
601で、方法は、検索される画像からある領域特徴を抽出する。
【0082】
602で、方法は、検索される画像の領域特徴に対応するノードを取得し、サンプル画像インデックステーブルをインデックスするために、各領域特徴に対応するノード識別を使用することによって、対応するサンプル画像識別を取得する。
【0083】
603で、方法は、検索される画像と対応するサンプル画像との間の重複ノードの数を計算する。
【0084】
604で、方法は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を使用することによって、検索される画像の類似度を取得する。
【0085】
検索される画像の類似度は、以下に記載の様式で取得することができる。
【0086】
抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数が比較されて、小さい方の数が選択される。検索される画像と対応するサンプル画像との間の重複ノードの数と小さい方の数との比率が、検索される画像とサンプル画像との間の類似度として使用される。代替として、本開示は、検索される画像のノードの数とサンプル画像インテックステーブルから取得された対応するサンプル画像のノードの数との間の大きい方の数を、類似度の計算数として使用することもできる。
【0087】
605で、方法は、検索される画像とサンプル画像との間の類似度が既定の類似性の閾値を超える場合、検索結果としてサンプル画像を使用する。
【0088】
図7を参照して、本開示は、画像検索のための装置を提供する。装置は、記憶ユニット71と、抽出ユニット72と、ノード判定ユニット73と、インデックスユニット74と、計算ユニット75と、類似度計算ユニット76と、出力検索ユニット77とを含む。
【0089】
記憶ユニット71は、サンプル画像インデックステーブルを記憶するように構成される。サンプル画像インデックステーブルは、ノード識別と、そのノードに領域特徴がクラスタリングされるサンプル画像識別と、領域特徴が対応するサンプル画像に出現する回数との間の対応関係を記憶するために使用される。サンプル画像インデックステーブルはまた、ノード識別と、サンプル画像に含まれるノードの数とを記憶するためにも使用される。
【0090】
抽出ユニット72は、検索される画像から、ある領域特徴情報を抽出するように構成される。
【0091】
ノード判定ユニット73は、検索される画像の領域特徴に対応するノードを取得するように構成される。
【0092】
インデックスユニット74は、サンプル画像インデックステーブルをインデックするために、各領域特徴に対応するノード識別を使用することによって、対応するサンプル画像識別を取得するように構成される。
【0093】
計算ユニット75は、検索される画像と対応するサンプル画像との間の重複ノードの数を計算するように構成される。
【0094】
類似度計算ユニット76は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を使用することによって、検索される画像の類似度を取得するように構成される。
【0095】
出力検索ユニット77は、検索される画像とサンプル画像との間の類似度が既定の類似性の閾値を超える場合に、サンプル画像を出力するように構成される。
【0096】
類似度計算ユニット76は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を比較するように構成される。両者のうちの小さい方の数が選択さてもよい。検索される画像と対応するサンプル画像との間の重複ノードの数と小さい方の数との比率が、検索される画像とサンプル画像との間の類似度として使用される。
【0097】
類似度計算ユニット76は、抽出された領域特徴のクラスタリング後の検索される画像のノードの数、および対応するサンプル画像の領域特徴のクラスタリング後のサンプル画像インデックステーブルから取得された対応するサンプル画像のノードの数を比較するように構成することもできる。両者のうちの大きい方の数が選択されてもよい。検索される画像と対応するサンプル画像との間の重複ノードの数と大きい方の数との比率が、検索される画像とサンプル画像との間の類似度として使用される。
【0098】
本開示の上記の技法は、画像検索のプロセスにおいて適用することができる。検索される画像が取得された場合、検索される画像からある領域特徴を抽出することができる。検索される画像の領域特徴に対応するノードは、クラスタリングアルゴリズムによって取得することができる。対応するサンプル画像識別は、サンプル画像インデックステーブルをインデックスするために、各領域特徴に対応するノード識別を使用することによって、取得することができる。検索される画像とサンプル画像との間の類似度が計算される。検索される画像とサンプル画像との間の類似度が既定の類似性の閾値を超える場合、サンプル画像が検索結果として使用される。画像検索の精度は高い。
【0099】
当業者は、本開示の精神および範囲から逸脱することなく、多種多様な方式で本開示を変更または修正することができることが理解される。したがって、これらの修正および変形は、本開示の請求項およびそれらの均等物の範囲内であると考えられるべきである。