IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼市商▲湯▼科技有限公司の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-12
(54)【発明の名称】ピクチャ検索方法及び装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220705BHJP
   G06F 16/53 20190101ALI20220705BHJP
【FI】
G06T7/00 300F
G06F16/53
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021566478
(86)(22)【出願日】2020-04-23
(85)【翻訳文提出日】2021-11-09
(86)【国際出願番号】 CN2020086455
(87)【国際公開番号】W WO2021036304
(87)【国際公開日】2021-03-04
(31)【優先権主張番号】201910806958.2
(32)【優先日】2019-08-29
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】519453342
【氏名又は名称】深▲せん▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 201, Building A, No. 1, Qianwan Road, Qianhai Shenzhen-Hongkong Modern Service Industry Cooperation Zone Shenzhen, Guangdong 518000 (CN)
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲曠▼章▲輝▼
(72)【発明者】
【氏名】▲張▼▲偉▼
(72)【発明者】
【氏名】宋泓臻
(72)【発明者】
【氏名】▲陳▼益民
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175FA01
5B175HB03
5B175KA12
5L096AA06
5L096BA08
5L096DA02
5L096HA11
5L096JA03
5L096JA11
5L096JA18
(57)【要約】
本願は、ピクチャ検索方法及び装置を提供する。該方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることと、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することと、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含む。
【特許請求の範囲】
【請求項1】
ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。
【請求項2】
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
請求項1に記載の方法。
【請求項3】
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
請求項1又は2に記載の方法。
【請求項4】
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
前記積のユークリッドノルムを算出することと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
請求項1-3のうちいずれか一項に記載の方法。
【請求項5】
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
前記重み値を正規化処理した後、正規化重み値を得ることと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
請求項1-4のうちいずれか一項に記載の方法。
【請求項6】
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
請求項1-5のうちいずれか一項に記載の方法。
【請求項7】
ピクチャ検索装置であって、前記装置は、
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。
【請求項8】
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
請求項7に記載の装置。
【請求項9】
前記特徴抽出モジュールは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備えることを特徴とする
請求項7又は8に記載の装置。
【請求項10】
前記算出モジュールは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、第1算出サブモジュールと、
前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、
前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備えることを特徴とする
請求項7-9のうちいずれか一項に記載の装置。
【請求項11】
前記無向グラフ作成モジュールは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、
前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備えることを特徴とする
請求項7-10のうちいずれか一項に記載の装置。
【請求項12】
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記マッチング結果決定モジュールは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成される第4決定サブモジュールを備えることを特徴とする
請求項7-11のうちいずれか一項に記載の装置。
【請求項13】
機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
【請求項14】
ピクチャ検索装置であって、前記装置は、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。
【請求項15】
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、請求項1-6のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、画像処理分野に関し、特にピクチャ検索方法及び装置に関する。
【背景技術】
【0002】
既存のピクチャとピクチャライブラリにおけるピクチャに対してマッチングサーチを行う場合、ニューラルネットワークを利用して2枚のピクチャのグローバルな類似度を算出し、既存のピクチャとマッチングするピクチャをピクチャライブラリから見付けることができる。
【0003】
しかしながら、2枚のピクチャのグローバルな類似度を算出する場合、ピクチャにおける背景干渉情報は、算出結果に大きな影響を与えてしまう。例えば、ピクチャの角度の相違、、ピクチャのコンテンツ情報の相違又は遮蔽などの要因により、最終的なサーチ結果が正確でないことを引き起こしてしまう。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、ピクチャ検索方法及び装置を提供する。
【課題を解決するための手段】
【0005】
本願の実施例の第1態様によれば、ピクチャ検索方法を提供する。前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含む。上記実施例において、所定の複数のスケールに応じて、第1ピクチャ及びピクチャライブラリにおける第2ピクチャに対して特徴抽出を行い、第1ピクチャに対応する第1特徴マップ及び第2ピクチャに対応する第2特徴マップを得て、任意の2つの空間位置に位置する第1特徴マップと第2特徴マップとの間の類似度値を算出し、ターゲットスケール組み合わせに対応する類似度値を得ることができる。各ターゲットスケール組み合わせに対応する類似度値に基づいて、無向グラフを作成する。無向グラフを事前構築されたグラフニューラルネットワークに入力することで、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定することができる。上記プロセスにより、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、2枚のピクチャがマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
【0006】
幾つかの任意選択的な実施例において、前記所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、前記第3スケールは、前記第1ピクチャにおける全ての画素点を含むスケールであり、前記第4スケールは、前記第3スケールより小さい。上記実施例において、所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、第3スケールは、第1ピクチャの全体スケールであり、第4スケールは、第3スケールより小さくてもよい。従って、第1ピクチャと第2ピクチャとの類似度を算出する場合、2枚のピクチャの全体類似度に限定されず、異なるスケールでのピクチャの間の類似度を考慮する。従って、マッチング結果の精度を向上させることができ、ロバスト性がより高い。
【0007】
幾つかの任意選択的な実施例において、所定の複数のスケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含む。上記実施例において、最大プーリング化の方式で、各スケールでの第1ピクチャの複数の第1特徴点及び第2ピクチャの複数の第2特徴点に対して処理を行い、第1ピクチャ及び第2ピクチャにおける重要な要素情報に更に注目する。これにより、後続で第1特徴マップと第2特徴マップとの間の類似度値の算出の正確性を向上させると共に、演算量を低減させる。
【0008】
幾つかの任意選択的な実施例において、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出し、ターゲットスケール組み合わせに対応する前記類似度値を得ることは、第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、前記積のユークリッドノルムを算出することと、前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含む。上記実施例において、任意の2つの空間位置での、第1スケールに対応する第1特徴マップと第2スケールに対応する第2特徴マップとの間の類似度値を算出することができる。ここで、第1スケールと第2スケールは同じであっても異なってもよく、利用可能性が高い。
【0009】
幾つかの任意選択的な実施例において、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定し、前記重み値を正規化処理した後、正規化重み値を得ることと、各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含む。上記実施例において、無向グラフを作成する場合、各ターゲットスケール組み合わせに対応する前記類似度値を無向グラフのノードとし、任意の2つのノードの間の重み値を正規化処理した後に得られた正規化重み値を無向グラフの辺とし、無向グラフにより、複数のスケールでの2枚のピクチャの類似度を融合することで、マッチング結果の精度を向上させ、ロバスト性がより高い。
【0010】
幾つかの任意選択的な実施例において、前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含む。上記実施例において、無向グラフをグラフニューラルネットワークに入力し、グラフニューラルネットワークから出力された無向グラフのノードの間の類似度の確率値が所定の閾値より大きいかどうかに基づいて、第2ピクチャが第1ピクチャとマッチングするかどうかを決定することができる。ノードの間の類似度の確率値が大きい場合、第2ピクチャを第1ピクチャとマッチングするターゲットピクチャとする。上記プロセスにより、ピクチャライブラリから、第1ピクチャとマッチングするターゲットピクチャをより正確に見付けることができ、サーチ結果がより正確である。
【0011】
本願の実施例の第2態様によれば、ピクチャ検索装置を提供する。前記装置は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備える。上記実施例において、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、2枚のピクチャがマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
【0012】
本願の実施例の第3態様によれば、機器可読記憶媒体を提供する。前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、上記第1態様のいずれか一項に記載のピクチャ検索方法を実行するように構成される。
【0013】
本願の実施例の第4態様によれば、ピクチャ検索装置を提供する。前記装置は、プロセッサと、前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、第1態様のいずれか一項に記載のピクチャ検索方法を実現させるように構成される。
【0014】
本願の実施例の第5態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、第1態様のいずれか一項に記載の方法を実行する。
【0015】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【図面の簡単な説明】
【0016】
図1】本願の一例示的な実施例によるピクチャ検索方法を示すフローチャートである。
図2A】本願の一例示的な実施例による異なるスケールに対応する第1ピクチャを示す概略図である。
図2B】本願の一例示的な実施例による異なるスケールに対応する第1ピクチャを示す概略図である。
図2C】本願の一例示的な実施例による異なるスケールに対応する第1ピクチャを示す概略図である。
図3A】本願の一例示的な実施例による異なるスケールに対応する第2ピクチャを示す概略図である。
図3B】本願の一例示的な実施例による異なるスケールに対応する第2ピクチャを示す概略図である。
図3C】本願の一例示的な実施例による異なるスケールに対応する第2ピクチャを示す概略図である。
図4】本願の一例示的な実施例によるピクチャのピラミッド構造を示す概略図である。
図5A】本願の一例示的な実施例によるピクチャに対する空間ウィンドウの分割を示す概略図である。
図5B】本願の一例示的な実施例によるピクチャに対する空間ウィンドウの分割を示す概略図である。
図6】本願の一例示的な実施例による類似度値のピラミッド構造を示す概略図である。
図7】本願の一例示的な実施例によるターゲット無向グラフの構造を示す概略図である。
図8】本願の一例示的な実施例によるスケールに応じてピクチャを分割することを示す概略図である。
図9】本願の一例示的な実施例によるもう1つのピクチャ検索方法を示すフローチャートである。
図10A】本願の一例示的な実施例によるプーリング化処理を示す概略図である。
図10B】本願の一例示的な実施例によるプーリング化処理を示す概略図である。
図11】本願の一例示的な実施例によるもう1つのピクチャ検索方法を示すフローチャートである。
図12】本願の一例示的な実施例によるピクチャ検索ネットワークの構造を示す図である。
図13】本願の一例示的な実施例によるピクチャ検索装置を示すブロック図である。
図14】本願の一例示的な実施例によるピクチャ検索装置に用いられる構造を示す概略図である。
【0017】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【発明を実施するための形態】
【0018】
ここで、例示的な実施例を説明し、その例を図面に示す。下記記述が図面に係る場合、別途明記されない限り、異なる図面における同一の数字は、同一又は類似する要素を表す。下記例示的な実施例に記載の実施形態は、本願と一致した全ての実施形態を表すものではない。逆に、それらは、添付の特許請求の範囲に詳述したような本願のいくつかの態様と一致する装置及び方法の例だけである。
【0019】
本願において使用される用語は、特定の実施例を説明することだけを目的としており、本願を限定することは意図されていない。本願及び添付の特許請求の範囲で使用されるとき、単数形の「1つの」、「前記」及び「該」は、文脈が明らかに違うように示さない限り、複数形も含む意図である。本明細書において使用される「及び/又は」という用語は、列挙された1つ以上の関連する対象物の任意の又は全ての可能的な組み合わせを参照かつ包含することも理解されるべきである。
【0020】
本願では、用語である第1、第2、第3などを用いて各種情報を記述する可能性があるが、これらの情報はこれらの用語に限定されないことが理解されるべきである。これらの用語は、同一種類の情報をお互いに区別するためだけに用いられる。例えば、本願の範囲を逸脱しない限り、第1情報は第2情報と称されてもよく、同様に、第2情報は第1情報と称されてもよい。文脈によっては、ここで使用される語句「とすれば」は「…場合」、「…時」又は「と決定されるのに応答して」と解釈される。
【0021】
本願の実施例は、ピクチャ検索方法を提供する。該方法は、ピクチャ検索を行う機器又は装置に適用可能である。又は、該方法は、プロセッサによりコンピュータによる実行可能なコードを実行することで実行される。一例示的な実施例によるピクチャ検索方法を示す図1を参照すると、前記方法は、下記ステップを含む。
【0022】
ステップ101において、所定の複数のスケール(scale)のうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得る。
【0023】
第1ピクチャは、マッチングサーチを必要とするターゲットピクチャであり、第2ピクチャは、ピクチャライブラリにおけるいずれか1枚のピクチャである。該ピクチャライブラリは、例えば、第1ピクチャのコンテンツに関連するピクチャライブラリである。ここで、第1ピクチャ及び第2ピクチャの大きさは、同じであってもよく、異なってもよい。本願は、これを限定しない。
【0024】
例えば、第1ピクチャは、衣類に関わるピクチャである場合、ピクチャライブラリは、よく知られているDeepFashion及びStreet2Shopピクチャライブラリ、又は衣類に関連する他のピクチャライブラリであってもよい。第2ピクチャは、該ピクチャライブラリにおけるいずれか一枚のピクチャである。
【0025】
特徴抽出を行う前に、まず、前記複数のスケールのうちの各スケールに対して、該スケールでの第1ピクチャ及び第2ピクチャに対応するピクチャをそれぞれ得ることができる。
【0026】
例えば、得られた第1ピクチャの、スケール1(例えば、1 × 1)に対応するピクチャは、図2Aに示すとおりであり、スケール2(例えば、2 × 2)に対応するピクチャは、図2Bに示すとおりであり、スケール3(例えば、3 × 3)に対応するピクチャは、図2Cに示すとおりである。同様に、得られた第2ピクチャの、スケール1に対応するピクチャは、図3Aに示すとおりであり、スケール2に対応するピクチャは、図3Bに示すとおりであり、スケール3に対応するピクチャは、図3Cに示すとおりである。
【0027】
この場合、例えば、図4に示すように、第1ピクチャ及び第2ピクチャに対してピクチャピラミッドをそれぞれ形成することができる。図2Aのピクチャを第1ピクチャのピクチャピラミッドの第1層とし、図2Bのピクチャを第1ピクチャのピクチャピラミッドの第2層とし、図2Cのピクチャを第1ピクチャのピクチャピラミッドの第3層とする。このように類推すると、第1ピクチャのピクチャピラミッドを得る。同様に、第2ピクチャのピクチャピラミッドを得ることができる。ピクチャピラミッドの各層はいずれも1つのスケールに対応する。
【0028】
続いて、第1ピクチャのピクチャピラミッド及び第2ピクチャのピクチャピラミッドに対して、各スケールで第1ピクチャに対応する第1特徴マップ及び第2ピクチャに対応する第2特徴マップをそれぞれ取得する。
【0029】
例えば、スケール集合{1,2,……L}におけるいずれか1つのスケールに対して、SIFT(Scale Invariant Feature Transform:スケール不変特徴変換)の方式又は訓練されたニューラルネットワークを利用して、第1ピクチャのピクチャピラミッドの第
【0030】
【化1】
【0031】
層のピクチャ及び第2ピクチャのピクチャピラミッドの第
【0032】
【化2】
【0033】
層のピクチャに対してそれぞれ特徴抽出を行い、スケール
【0034】
【化3】
【0035】
での第1ピクチャに対応する第1特徴マップ及びスケール
【0036】
【化4】
【0037】
での第2ピクチャに対応する第2特徴マップを得る。ここで、
【0038】
【化5】
【0039】
は、上記スケール集合におけるいずれか1つのスケールである。任意選択的に、訓練されたニューラルネットワークとしてgooglenetネットワークを用いることができる。本願は、これを限定するものではない。
【0040】
例えば、図5Aに示すように、スケール集合におけるスケール2を利用して、第1ピクチャに対して、左上隅、左下隅、右上隅及び右下隅という4つの空間ウィンドウにそれぞれ対応する4つの第1特徴マップを抽出することができる。例えば、図5Bに示すように、スケール集合におけるスケール3を利用して、第2ピクチャに対して、9個の空間ウィンドウにそれぞれ対応する9個の第2特徴マップを抽出することができる。
【0041】
ステップ102において、前記所定の複数のスケールのうちの各スケールに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出する。
【0042】
本願の実施例において、任意の2つの空間位置は、同じであってもよく、異なってもよい。ターゲットスケール組み合わせは、所定の複数のスケールのうちのいずれか1つの第1スケール及びいずれか1つの第2スケールを含み、第1スケールと第2スケールは、同じであってもよく、異なってもよい。ここで、第1特徴マップは、第1スケールに対応し、第2特徴マップは、第2スケールに対応する。
【0043】
例えば、第1スケールをスケール2とすれば、第1ピクチャに対して、現在のスケールで、4つの空間ウィンドウにそれぞれ対応する4つの第1特徴マップをそれぞれ抽出することができる。第2スケールをスケール3とすれば、第2ピクチャに対して、9個の空間ウィンドウにそれぞれ対応する9個の第2特徴マップをそれぞれ抽出することができる。
【0044】
この場合、スケール2及びスケール3からなるターゲットスケール組み合わせで、第1ピクチャの任意の1つの空間位置の第1特徴マップと第2ピクチャの任意の1つの空間位置の第2特徴マップとの間の類似度値を算出する必要がある。計4×9=36個の類似度値を算出する。
【0045】
勿論、第2スケールと第1スケールが同じであり、いずれもスケール2であると、4×4=16個の類似度値を得る。
【0046】
本願の実施例において、第1スケールと第2スケールが同じであることを例として、類似度値ピラミッドを得ることができる。例えば、図6に示すように、第1スケールと第2スケールがいずれもスケール1である場合、1つの類似度値を得て、即ち、グローバルな類似度値を得る。該類似度値は、類似度値ピラミッドの第1層とする。第1スケールと第2スケールがいずれもスケール2である場合、16個の局所的類似度値を得る。該16個の類似度値は、類似度値ピラミッドの第2層とする。第1スケールと第2スケールがいずれもスケール3である場合、81個の局所的類似度値を得る。該81個の類似度値は、類似度値ピラミッドの第3層とする。類推すると、類似度値ピラミッドを得ることができる。
【0047】
ステップ103において、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成する。
【0048】
本願の実施例において、例えば図7に示すように、ターゲット無向グラフの各ノードは、1つの類似度値に対応し、各類似度値は、1つのターゲットスケール組み合わせに対応し、ターゲット無向グラフの辺は、2つノードの間の重み値であらわされてもよく、該重み値は、正規化処理された正規化重み値であってもよい。ターゲット無向グラフにより、2枚のピクチャの間の類似度をより直観的に表すことができる。
【0049】
ステップ104において、前記ターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力し、前記ターゲットグラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定する。
【0050】
本願の実施例において、ターゲットグラフニューラルネットワークは、事前構築された、複数のグラフ畳み込み層及び非線形活性化関数ReLU層を含むグラフニューラルネットワークであってもよい。該グラフニューラルネットワークの出力結果は、無向グラフのノードの間の類似度の確率値である。
【0051】
グラフニューラルネットワークを訓練する場合、サンプルピクチャライブラリにおける任意の2枚のタグ付きサンプルピクチャを用いて、まず、所定の複数のスケールのうちの各スケールで2枚のサンプルピクチャにそれぞれ対応するピクチャを得て、続いて、得られたピクチャに対してそれぞれ特徴抽出を行い、2枚のサンプルピクチャの、各スケールに対応する複数のサンプル特徴マップをそれぞれ得て、各ターゲットスケール組み合わせで、2枚のサンプル特徴マップの間の類似度値を算出し、各前記ターゲットスケール組み合わせに対応するサンプル特徴マップの間の前記類似度値に基づいて、サンプル無向グラフを作成する。上記プロセスは、ステップ101から103と同じであり、ここで、詳細な説明を省略する。
【0052】
該2枚のサンプルピクチャがタグ又は他の情報を持つため、該2枚のサンプルピクチャがマッチングするかどうかを決定することができる。該2枚のサンプルピクチャがマッチングすると仮定すれば、サンプル無向グラフをグラフニューラルネットワークの入力値として、グラフニューラルネットワークを訓練し、マッチングする該2枚のサンプルピクチャにより、グラフニューラルネットワークから出力されたサンプル無向グラフのノードの間の類似度の確率値を所定の閾値より大きくすることで、本願の実施例に必要なターゲットグラフニューラルネットワークを得る。
【0053】
本願の実施例において、ターゲットグラフニューラルネットワークが事前構築された後、ステップ103で得られたターゲット無向グラフをターゲットグラフニューラルネットワークに直接的に入力し、ターゲットグラフニューラルネットワークから出力されたターゲット無向グラフのノードの間の類似度の確率値に基づいて、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャであるかどうかを決定することができる。
【0054】
任意選択的に、ターゲット無向グラフのノードの間の類似度の確率値が所定の閾値より大きいと、第2ピクチャは、第1ピクチャとマッチングするターゲットピクチャであり、そうでなければ、第2ピクチャは、第1ピクチャとマッチングするターゲットピクチャではない。
【0055】
本願の実施例において、ピクチャライブラリにおける各第2ピクチャに対して上記方式でサーチした後、該ピクチャライブラリにおける、第1ピクチャとマッチングするターゲットピクチャを得ることができる。
【0056】
上記実施例において、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及びピクチャライブラリにおける第2ピクチャに対して特徴抽出を行い、第1ピクチャに対応する複数の第1特徴マップ及び第2ピクチャに対応する複数の第2特徴マップを得る。前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する第1特徴マップと第2特徴マップとの間の類似度値を算出する。これにより、各ターゲットスケール組み合わせに対応する類似度値に基づいて、ターゲット無向グラフを作成する。ターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力することで、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定することができる。上記プロセスにより、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、ピクチャの間がマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
【0057】
幾つかの任意選択的な実施例において、所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含む。ここで、第3スケールは、前記第1ピクチャにおける全ての画素点を含むスケールである。例えば、第3スケールは、スケール集合におけるスケール1であり、ピクチャの全体スケールに対応する。
【0058】
第4スケールは、前記第3スケールより小さく、例えば、第4スケールはスケール2である。例えば、図8に示すように、対応的に、第1ピクチャ又は第2ピクチャを2×2個の小スケールのピクチャに分割する。
【0059】
本願の実施例において、第1ピクチャと第2ピクチャとの全体類似度に限定されず、異なるスケールでのピクチャの間の類似度を考慮することで、マッチング結果の精度を向上させることができ、ロバスト性がより高い。
【0060】
幾つかの任意選択的な実施例において、例えば図9に示すように、ステップ101は、下記ステップを含んでもよい。
【0061】
ステップ101-1において、前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得る。
【0062】
本願の実施例において、まず、例えばスケール集合{1,2,…L}における各スケールのような所定の複数のスケールに応じて、第1ピクチャに対応するピクチャ及び第2ピクチャに対応するピクチャをそれぞれ得る。例えば、スケール2で、第1ピクチャは、4つのピクチャに対応し、第2ピクチャも4つのピクチャに対応する。
【0063】
更に、例えばSIFT又は訓練されたニューラルネットワークを利用して、各スケールで第1ピクチャに対応するピクチャ及び第2ピクチャに対応するピクチャに対してそれぞれ特徴抽出を行い、各スケールで第1ピクチャに対応する複数の第1特徴点及び第2ピクチャに対応する複数の第2特徴点を得る。例えば、スケール2で、第1ピクチャに対応する4つのピクチャに対してそれぞれ特徴抽出を行い、スケール2で、第1ピクチャに対応する複数の第1特徴点を得ることができる。
【0064】
任意選択的に、訓練されたニューラルネットワークとしてgooglenetネットワークを用いることができる。本願は、これを限定するものではない。
【0065】
ステップ101-2において、前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とする。
【0066】
所定のプーリングウィンドウは、複数の特徴点を含む事前設定されたプーリングウィンドウである。本願の実施例において、各所定のプーリングウィンドウ内で、各所定のプーリングウィンドウに含まれる全ての特徴点に対して特徴次元低減を行うことができる。例えば、最大プーリング化の方式で、各所定のプーリングウィンドウに含まれる全ての特徴点から特徴値が最も大きい特徴点を選択して該所定のプーリングウィンドウに対応するターゲット特徴点とする。該所定のプーリングウィンドウ内の他の特徴点は捨てられてもよい。
【0067】
例えば、所定のプーリングウィンドウ内に含まれる特徴点の数は、4であると、各スケールで第1ピクチャに対応する複数の第1特徴点のうち、図10Aに示すように、各所定のプーリングウィンドウ内の全ての第1特徴点のうちの特徴値が最も大きい第1特徴点を第1ターゲット特徴点とすることができる。例えば、図10Aにおいて、第1特徴点3を最初の所定のプーリングウィンドウ内の第1ターゲット特徴点とし、第1特徴点5を2番目の所定のプーリングウィンドウ内の第1ターゲット特徴点とする。
【0068】
ステップ101-3において、前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とする。
【0069】
各スケールでの第1ピクチャに対してステップ101-2と同様な方式で、第2ターゲット特徴点を決定する。
【0070】
上記ステップ101-2及び101-3は、各スケールでの第1ピクチャに対応する複数の第1特徴点及び第2ピクチャに対応する複数の第2特徴点に対してそれぞれ最大プーリング化処理を行う。本願の実施例において、最大プーリング化処理に限定されず、各スケールでの第1ピクチャに対応する複数の第1特徴点及び第2ピクチャに対応する複数の第2特徴点に対してそれぞれ平均プーリング化処理などを行うこともできる。ここで、平均プーリング化処理は、各所定のプーリングウィンドウ内の全ての特徴点の特徴値の平均値を求め、該平均値を該所定のプーリングウィンドウ内の画像領域に対応する特徴値とすることである。
【0071】
例えば、図10Bに示すように、ある所定のプーリングウィンドウ内に4つの第1特徴点が含まれ、対応する特徴値は、それぞれ7、8、2、7である。4つの値の平均値は、6である。平均プーリング化処理を行う場合、該所定のプーリングウィンドウ内の画像領域の特徴値を平均値6と決定することができる。
【0072】
ステップ101-4において、前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得る。
【0073】
各スケールに対して決定された全ての第1ターゲット特徴点は、各スケールに対応する第1特徴マップを構成し、全ての第2ターゲット特徴点は、各スケールに対応する第2特徴マップを構成する。
【0074】
幾つかの任意選択的な実施例において、ステップ102に対して、下記式1により、ターゲットスケール組み合わせに対応する前記類似度値
【0075】
【化6】
【0076】
を算出することができる。
【0077】
【数1】
【0078】
ただし、
【0079】
【化7】
【0080】
は、第1スケール
【0081】
【化8】
【0082】
での第
【0083】
【化9】
【0084】
個の前記空間位置での、第1ピクチャの特徴値であり、
【0085】
【化10】
【0086】
は、第2スケール
【0087】
【化11】
【0088】
での第
【0089】
【化12】
【0090】
個の前記空間位置での、第2ピクチャの特徴値である。
【0091】
【化13】
【0092】
は、所定の投影行列であり、特徴差分ベクトルをC次元からD次元に低減させることができる。
【0093】
【化14】
【0094】
は、実数集合を表す。
【0095】
【化15】
【0096】
は、実数からなるD次元×C次元の行列を表す。
【0097】
【化16】
【0098】
は、*のL2ノルムであり、つまり、ユークリッドノルムである。i及びjはそれぞれプーリングウィンドウのインデックスを表す。例えば、第1スケールが3×3であると、iは、[1,9]にある任意の自然数であってもよく、第2スケールが2×2であると、jは、[1,4]にある任意の自然数であってもよい。
【0099】
本願の実施例において、第1スケールと第2スケールが同じであるかどうかに関わらず、上記式1により、ターゲットスケール組み合わせに対応する前記類似度値を算出することもできる。ここで、ターゲットスケール組み合わせは、上記第1スケール及び第2スケールを含む。
【0100】
幾つかの任意選択的な実施例において、例えば、図11に示すように、上記ステップ103は、下記ステップを含んでもよい。
【0101】
ステップ103-1において、各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの類似度値の間の重み値を決定する。
【0102】
本願の実施例において、下記式2により、任意の2つの類似度値の間の重み値
【0103】
【化17】
【0104】
を直接的に算出することができる。
【0105】
【数2】
【0106】
ただし、
【0107】
【化18】
【0108】
である。
【0109】
【化19】
【0110】
は、各ノードの出力辺の線形変換行列に対応する。
【0111】
【化20】
【0112】
は、各ノードの入力辺の線形変換行列に対応する。
【0113】
【化21】
【0114】
は、実数集合を表す。
【0115】
【化22】
【0116】
は、実数からなるD次元xD次元の行列を表す。任意選択的に、スケール
【0117】
【化23】
【0118】
は、同じであってもよく、異なってもよい。
【0119】
本願の実施例において、ターゲット無向グラフにおけるノードが同一のスケール
【0120】
【化24】
【0121】
の第1特徴マップと第2特徴マップとの間の類似度値であると、該ノードの重み値の算出方式は、式3に示すとおりである。
【0122】
【数3】
【0123】
ただし、argmaxは、最大値を求めるための演算である。
【0124】
ターゲット無向グラフにおけるノードがスケール
【0125】
【化25】
【0126】
に対応する第1特徴マップとスケール
【0127】
【化26】
【0128】
に対応する第2特徴マップとの間の類似度値であり、
【0129】
【化27】
【0130】
が異なる場合、上記式3に対して適応的変換を行うことができる。式3を基礎として変換を行うことで得られた重み値の如何なる演算方式は、いずれも本願の保護範囲内に含まれる。
【0131】
ステップ103-2において、前記重み値を正規化処理した後、正規化重み値を得る。
【0132】
例えば、softmax関数のような正規化関数を利用して、2つの類似度値
【0133】
【化28】
【0134】
との間の重み値
【0135】
【化29】
【0136】
の正規化値を算出することができる。
【0137】
ステップ103-3において、各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記ターゲット無向グラフのノードとし、前記正規化重み値を前記ターゲット無向グラフの辺とし、前記ターゲット無向グラフを作成する。
【0138】
例えば、
【0139】
【化30】
【0140】
をターゲット無向グラフの2つのノードとすると、該2つのノード間の辺は、
【0141】
【化31】
【0142】
との間の正規化重み値である。上記方式でターゲット無向グラフを得ることができる。
【0143】
幾つかの任意選択的な実施例において、上記ステップ104に対して、ステップ103で作成されたターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力することができる。
【0144】
本願の実施例において、ターゲットグラフニューラルネットワークを構築する場合、まず、複数のグラフ畳み込み層及び非線形活性化関数ReLU層を含むグラフニューラルネットワークを構築し、サンプルピクチャライブラリにおける任意の2枚のタグ付きサンプルピクチャを利用して、上記ステップ101から103と同様な方式でサンプル無向グラフを構築することができる。ここで、詳細な説明を省略する。
【0145】
該2枚のサンプルピクチャがタグ又は他の情報を持つため、該2枚のサンプルピクチャがマッチングするかどうかを決定することができる。該2枚のサンプルピクチャがマッチングすると仮定すれば、サンプル無向グラフを該グラフニューラルネットワークの入力値として、グラフニューラルネットワークを訓練し、マッチングする該2枚のサンプルピクチャにより、グラフニューラルネットワークから出力されたサンプル無向グラフのノードの間の類似度の確率値を所定の閾値より大きくすることで、本願の実施例に必要なターゲットグラフニューラルネットワークを得る。
【0146】
ターゲットグラフニューラルネットワークにおいて、例えばsoftmax関数のような正規化関数により、類似度の確率値を出力することができる。
【0147】
本願の実施例において、ターゲット無向グラフを上記ターゲットグラフニューラルネットワークに入力することができる。スケール集合にスケールを追加する毎に得られたターゲット無向グラフは、異なる。例えば、スケール集合にスケール1及びスケール2のみが含まれる場合、ターゲット無向グラフ1を得る。スケール集合にスケール1、スケール2及びスケール3が含まれる場合、ターゲット無向グラフ2を得る。ターゲット無向グラフ1とターゲット無向グラフ2は異なる。ターゲットグラフニューラルネットワークは、スケール集合におけるスケールの数に応じてターゲット無向グラフを随時に更新することができる。
【0148】
更に、上記ステップ104は、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングする前記ターゲットピクチャに属すると決定することを含んでもよい。
【0149】
ターゲットグラフニューラルネットワークを利用して、入力されたターゲット無向グラフを分析し、出力されたターゲット無向グラフのノードの間の類似度の確率値に基づいて、類似度の確率値が所定の閾値より大きい第2ピクチャを第1ピクチャとマッチングするターゲットピクチャとする。
【0150】
上記方式で、ピクチャライブラリにおける全てのピクチャをサーチし、第1ピクチャとマッチングするターゲットピクチャを得ることができる。
【0151】
上記実施例において、異なるスケールでの第1ピクチャと第2ピクチャの局所的特徴を結合して、ピクチャの間の類似度を評価することができる。マッチング精度がより高く、ロバスト性がより高い。
【0152】
幾つかの任意選択的な実施例において、例えば、ユーザがあるAppを閲覧する場合、該Appが当季の新しく登場された服装を推奨したことを発見した。ユーザは、もう1つのショッピングウェブサイトから、新しく登場された服装と類似する服装を購入したい。この場合、Appで提供された新しく登場された服装のピクチャを第1ピクチャとし、ショッピングウェブサイトで提供された全ての服装のピクチャを第2ピクチャとすることができる。
【0153】
本願の実施例の上記ステップ101から104の方法により、ショッピングウェブサイトにおいて、ユーザの購入したい新しく登場された服装と類似する服装のピクチャが直接的に見つかることができる。ユーザは、発注して購入することができる。
【0154】
また例えば、ユーザは、オフラインの実店舗で一台の家電が気に入った。ユーザは、ウェブサイトから類似する製品をサーチしたい。この場合、ユーザは、携帯電話などの端末により実店舗における家電の写真を撮り、撮られたピクチャを第1ピクチャとして、サーチしたいウェブサイトを開き、該ウェブサイトにおける全てのピクチャをいずれも第2ピクチャとする。
【0155】
同様に、本願の実施例の上記ステップ101から104の方法により、該ウェブサイトにおいて、類似する家電のピクチャ及び該家電の価格が見つかることができる。ユーザは、価格がより低い家電を選択して購入することができる。
【0156】
幾つかの任意選択的な実施例において、例えば、図12は、本願で提供されるピクチャ検索ネットワークの構造図である。
【0157】
該ピクチャ検索ネットワークは、特徴抽出部と、類似度算出部と、マッチング結果決定部と、を備える。
【0158】
ここで、第1ピクチャ及びピクチャライブラリにおける第2ピクチャに対して特徴抽出部により、特徴抽出を行い、複数のスケールでの第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることができる。任意選択的に、特徴抽出部としてgooglenetネットワークを用いることができる。ここで、第1ピクチャ及び第2ピクチャは、同一の特徴抽出器を共有してもよく、又は2つの特徴抽出器は、同一組のパラメータを共有してもよい。
【0159】
更に、類似度算出部により、上記式1を用いて、同一の前記スケールで、同一の空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出し、複数の類似度値を得ることができる。
【0160】
更に、マッチング結果決定部により、まず、複数の類似度値に基づいて、ターゲット無向グラフを作成し、ターゲット無向グラフを事前構築されたターゲットグラフニューラルネットワークに入力し、ターゲットグラフニューラルネットワークに基づいて、図形推論を行い、最後に出力されたターゲット無向グラフの前記ノードの間の類似度の確率値に基づいて、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャに属するかどうかを決定する。
【0161】
上記実施例において、異なるスケールでの第1ピクチャと第2ピクチャの局所的特徴を結合して、ピクチャの間の類似度を評価することができ、マッチング精度がより高く、ロバスト性がより高い。
【0162】
上記方法実施例に対応するように、本願は、装置の実施例を更に提供する。
【0163】
図13に示すように、図13は、本願の一例示的な実施例によるピクチャ検索装置を示すブロック図である。装置は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュール210であって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュール210と、前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュール220であって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュール220と、各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュール230と、前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュール240と、を備える。
【0164】
上記実施例において、2枚のピクチャの全体スケールによりグローバルな類似度の分析することに限定されず、所定の複数のスケールにより、類似度の分析を行い、任意の2つの空間位置に位置する、第1スケールの第1ピクチャに対応する第1特徴マップと第2スケールの第2ピクチャに対応する第2特徴マップとの局所的類似度値に基づいて、2枚のピクチャがマッチングするかどうかを決定する。従って、マッチング精度がより高く、ロバスト性がより高い。
【0165】
幾つかの任意選択的な実施例において、前記所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、前記第3スケールは、前記第1ピクチャにおける全ての画素点を含むスケールであり、前記第4スケールは、前記第3スケールより小さい。
【0166】
上記実施例において、所定の複数のスケールは、第3スケール及び少なくとも1つの第4スケールを含み、第3スケールは、第1ピクチャの全体スケールであり、第4スケールは、第3スケールより小さくてもよい。従って、第1ピクチャと第2ピクチャとの類似度を算出する場合、2枚のピクチャの全体類似度に限定されず、異なるスケールでのピクチャの間の類似度を考慮する。従って、マッチング結果の精度を向上させることができ、ロバスト性がより高い。
【0167】
幾つかの任意選択的な実施例において、前記特徴抽出モジュール210は、前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備える。
【0168】
上記実施例において、最大プーリング化の方式で、各スケールでの第1ピクチャの複数の第1特徴点及び第2ピクチャの複数の第2特徴点に対して処理を行い、第1ピクチャ及び第2ピクチャにおける重要な要素情報に更に注目する。これにより、後続で第1特徴マップと第2特徴マップとの間の類似度値の算出の正確性を向上させると共に、演算量を低減させる。
【0169】
幾つかの任意選択的な実施例において、前記算出モジュール220は、第i個の空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第j個の空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールと、前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備える。
【0170】
上記実施例において、任意の2つの空間位置での、第1スケールに対応する第1特徴マップと第2スケールに対応する第2特徴マップとの間の類似度値を算出することができる。ここで、第1スケールと第2スケールは同じであってもよく、異なってもよく、利用可能性が高い。
【0171】
幾つかの任意選択的な実施例において、前記無向グラフ作成モジュール230は、各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備える。
【0172】
上記実施例において、無向グラフを作成する場合、各ターゲットスケール組み合わせに対応する前記類似度値を無向グラフのノードとし、任意の2つのノードの間の重み値を正規化処理した後に得られた正規化重み値を無向グラフの辺とし、ターゲット無向グラフにより、複数のスケールでの2枚のピクチャの類似度を融合することで、マッチング結果の精度を向上させ、ロバスト性がより高い。
【0173】
幾つかの任意選択的な実施例において、前記ターゲットグラフニューラルネットワークの前記出力結果は、前記ターゲット無向グラフの前記ノードの間の類似度の確率値を含み、前記マッチング結果決定モジュール240は、前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングする前記ターゲットピクチャに属すると決定するように構成される第4決定サブモジュールを備える。
【0174】
上記実施例において、ターゲット無向グラフをターゲットグラフニューラルネットワークに入力し、ターゲットグラフニューラルネットワークから出力されたターゲット無向グラフのノードの間の類似度の確率値が所定の閾値より大きいかどうかに基づいて、第2ピクチャが第1ピクチャとマッチングするターゲットピクチャであるかどうかを決定することができる。ノードの間の類似度の確率値が大きい場合、第2ピクチャを第1ピクチャとマッチングするターゲットピクチャとする。上記プロセスにより、ピクチャライブラリから、第1ピクチャとマッチングするターゲットピクチャをより正確に見付けることができ、サーチ結果がより正確である。
【0175】
装置実施例にとって、それは、ほぼ方法実施例に対応する。従って、関連する部分は方法実施例の部分的な説明を参照すればよい。以上に記載した装置の実施例はただ例示的なものである。分離部材として説明したユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本願の方策の目的を実現することができる。当業者は創造的な労働を経ずに、理解し実施することができる。
【0176】
本願の実施例は、機器可読記憶媒体を更に提供する。前記記憶媒体に、機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、上記いずれか一項に記載のピクチャ検索方法を実行するように構成される。
【0177】
本願の実施例は、ピクチャ検索装置を更に提供する。前記装置は、プロセッサと、前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、上記いずれか一項に記載のピクチャ検索方法を実現させるように構成される。
【0178】
幾つかの任意選択的な実施例において、本願の実施例は、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが装置で実行される場合、装置におけるプロセッサは、上記いずれか1つの実施例で提供されるピクチャ検索方法を実現するための命令を実行する。
【0179】
幾つかの任意選択的な実施例において、本願の実施例は、もう1つのコンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するためのものであり、命令が実行される場合、コンピュータに、上記いずれか1つの実施例で提供されるピクチャ検索方法を実行させる。
【0180】
該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はそれらの組み合わせにより実現することができる。任意選択的な実施例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として具現化され、もう1つの任意選択的な実施例において、コンピュータプログラム製品は具体的には、例えば、ソフトウェア開発キット(Software Development Kit:SDK)などのようなソフトウェア製品として具現化される。
【0181】
幾つかの任意選択的な実施例において、幾つかの実施例によるピクチャ検索装置1400の構造を示す概略図である図14に示すように、装置1400は、処理コンポーネント1422とメモリ1432で表されるメモリリソースとを備え、処理コンポーネント1422は、1つ又は複数のプロセッサを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント1422により実行される命令を記憶するためのものである。メモリ1432に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント1422は、命令を実行して、上記いずれか1つのピクチャ検索方法を実行するように構成される。
【0182】
装置1400は、装置1400の電源管理を実行するように構成される電源コンポーネント1426と、装置1400をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1450と、入力出力(I/O)インタフェース1458を更に備えてもよい。装置1400は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTM又は類似するものような、メモリ1432に記憶されているオペレーティングシステムを実行することができる。
【0183】
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、前記方法を実行する。
【0184】
当業者は明細書を検討し、ここで開示した発明を実践した後、本発明のその他の実施方案を容易に思いつくことができる。本願は、本願の実施例のいかなる変形、用途または適応的変化を含むことを目指し、これらの変化、変形、用途または適応的変化が、本開示の一般的な原理に従いかつ本開示に開示されない本技術分野の周知常識と慣用技術手段を含む。明細書と実施例は、ただ例示的なものであって、本願の本当の範囲と主旨は、以下の特許請求の範囲によって示される。
【0185】
以上は、本願の好適な実施例に過ぎず、本願を限定するものではない。本発明の主旨及び原則内でのいずれの修正、等同の交換、改進などのすべてが本発明の保護範囲内に含まれる。
図1
図2A
図2B
図2C
図3A
図3B
図3C
図4
図5A
図5B
図6
図7
図8
図9
図10A
図10B
図11
図12
図13
図14
【手続補正書】
【提出日】2021-11-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。
【請求項2】
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
請求項1に記載の方法。
【請求項3】
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
請求項1又は2に記載の方法。
【請求項4】
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
前記積のユークリッドノルムを算出することと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
請求項1-3のうちいずれか一項に記載の方法。
【請求項5】
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
前記重み値を正規化処理した後、正規化重み値を得ることと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
請求項1-4のうちいずれか一項に記載の方法。
【請求項6】
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
請求項1-5のうちいずれか一項に記載の方法。
【請求項7】
ピクチャ検索装置であって、前記装置は、
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。
【請求項8】
機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
【請求項9】
ピクチャ検索装置であって、前記装置は、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、請求項1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。
【請求項10】
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される場合、前記電子機器におけるプロセッサに、請求項1-6のうちいずれか一項に記載の方法を実行させることを特徴とする、コンピュータプログラム。


【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0015
【補正方法】変更
【補正の内容】
【0015】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
例えば、本願は以下の項目を提供する。
(項目1)
ピクチャ検索方法であって、前記方法は、所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、ことと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、ことと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することと、を含むことを特徴とする、ピクチャ検索方法。
(項目2)
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
項目1に記載の方法。
(項目3)
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得ることは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得ることと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とすることと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とすることと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得ることと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出することは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出することであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、ことと、
前記平方和と所定の投影行列との積を算出することであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、ことと、
前記積のユークリッドノルムを算出することと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とすることと、を含むことを特徴とする
項目1-3のうちいずれか一項に記載の方法。
(項目5)
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成することは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定することと、
前記重み値を正規化処理した後、正規化重み値を得ることと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成することと、を含むことを特徴とする
項目1-4のうちいずれか一項に記載の方法。
(項目6)
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定することは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングすると決定することを含むことを特徴とする
項目1-5のうちいずれか一項に記載の方法。
(項目7)
ピクチャ検索装置であって、前記装置は、
所定の複数のスケールのうちの各スケールに応じて、第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記第1ピクチャに対応する第1特徴マップ及び前記第2ピクチャに対応する第2特徴マップを得るように構成される特徴抽出モジュールであって、前記第2ピクチャは、ピクチャライブラリにおけるいずれか1つのピクチャである、特徴抽出モジュールと、
前記所定の複数のスケールのいずれか1つのターゲットスケール組み合わせに対して、任意の2つの空間位置に位置する前記第1特徴マップと前記第2特徴マップとの間の類似度値を算出するように構成される算出モジュールであって、前記ターゲットスケール組み合わせは、前記第1特徴マップに対応する第1スケール及び前記第2特徴マップに対応する第2スケールを含み、前記第1スケール及び前記第2スケールはそれぞれ、前記所定の複数のスケールのうちの任意のスケールである、算出モジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値に基づいて、無向グラフを作成するように構成される無向グラフ作成モジュールと、
前記無向グラフを事前構築されたグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力結果に基づいて、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成されるマッチング結果決定モジュールと、を備えることを特徴とする、ピクチャ検索装置。
(項目8)
前記所定の複数のスケールは、第1ピクチャにおける全ての画素点を含むスケールであることを特徴とする
項目7に記載の装置。
(項目9)
前記特徴抽出モジュールは、
前記所定の複数のスケールのうちの各スケールに応じて、前記第1ピクチャ及び第2ピクチャに対してそれぞれ特徴抽出を行い、前記各スケールで前記第1ピクチャに対応する複数の第1特徴点及び前記第2ピクチャに対応する複数の第2特徴点を得るように構成される特徴抽出サブモジュールと、
前記各スケールで前記第1ピクチャに対応する前記複数の第1特徴点のうち、各所定のプーリングウィンドウ内に位置する全ての第1特徴点のうちの特徴値が最も大きい前記第1特徴点を第1ターゲット特徴点とするように構成される第1決定サブモジュールと、
前記各スケールで前記第2ピクチャに対応する前記複数の第2特徴点のうち、前記各所定のプーリングウィンドウ内に位置する全ての第2特徴点のうちの特徴値が最も大きい前記第2特徴点を第2ターゲット特徴点とするように構成される第2決定サブモジュールと、
前記各スケールに対応する、前記第1ターゲット特徴点からなる第1特徴マップ及び前記第2ターゲット特徴点からなる第2特徴マップをそれぞれ得るように構成される取得サブモジュールと、を備えることを特徴とする
項目7又は8に記載の装置。
(項目10)
前記算出モジュールは、
第1空間位置での、前記第1スケールに対応する前記第1特徴マップの特徴値と、第2空間位置での、前記第2スケールに対応する前記第2特徴マップの特徴値との差の平方和を算出するように構成される第1算出サブモジュールであって、前記第1空間位置は、前記第1特徴マップの任意のプーリングウィンドウ位置を表し、前記第2空間位置は、前記第2特徴マップの任意のプーリングウィンドウ位置を表す、第1算出サブモジュールと、
前記平方和と所定の投影行列との積を算出するように構成される第2算出サブモジュールであって、前記所定の投影行列は、特徴差分ベクトル次元を低減させるための投影行列である、第2算出サブモジュールと、
前記積のユークリッドノルムを算出するように構成される第3算出サブモジュールと、
前記積と前記ユークリッドノルムとの商をターゲットスケール組み合わせに対応する前記類似度値とするように構成される第4算出サブモジュールと、を備えることを特徴とする
項目7-9のうちいずれか一項に記載の装置。
(項目11)
前記無向グラフ作成モジュールは、
各前記ターゲットスケール組み合わせに対応する前記類似度値のうちの任意の2つの前記類似度値の間の重み値を決定するように構成される第3決定サブモジュールと、
前記重み値を正規化処理した後、正規化重み値を得るように構成される正規化処理サブモジュールと、
各前記ターゲットスケール組み合わせに対応する前記類似度値をそれぞれ前記無向グラフのノードとし、前記正規化重み値を前記無向グラフの辺とし、前記無向グラフを作成するように構成される無向グラフ作成サブモジュールと、を備えることを特徴とする
項目7-10のうちいずれか一項に記載の装置。
(項目12)
前記グラフニューラルネットワークの前記出力結果は、前記無向グラフの前記ノードの間の類似度の確率値を含み、
前記マッチング結果決定モジュールは、
前記類似度の確率値が所定の閾値より大きい場合、前記第2ピクチャが前記第1ピクチャとマッチングするかどうかを決定するように構成される第4決定サブモジュールを備えることを特徴とする
項目7-11のうちいずれか一項に記載の装置。
(項目13)
機器可読記憶媒体であって、前記記憶媒体に機器による実行可能な命令が記憶されており、前記機器による実行可能な命令は、項目1-6のうちいずれか一項に記載のピクチャ検索方法を実行するように構成されることを特徴とする、機器可読記憶媒体。
(項目14)
ピクチャ検索装置であって、前記装置は、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶するための記憶媒体と、を備え、
前記プロセッサは、前記記憶媒体に記憶される実行可能な命令を呼び出して、項目1-6のうちいずれか一項に記載のピクチャ検索方法を実現させるように構成されることを特徴とする、ピクチャ検索装置。
(項目15)
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、項目1-6のうちいずれか一項に記載の方法を実行することを特徴とする、コンピュータプログラム。
【国際調査報告】