特許7192966 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧

特許7192966検索装置、学習装置、検索方法、学習方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-12

(45)【発行日】2022-12-20

(54)【発明の名称】検索装置、学習装置、検索方法、学習方法及びプログラム

(51)【国際特許分類】

G06F 16/43 20190101AFI20221213BHJP

G06T 7/00 20170101ALI20221213BHJP

【ＦＩ】

G06F16/43

G06T7/00 350C

【請求項の数】 9

(21)【出願番号】P 2021508692

(86)(22)【出願日】2019-09-10

(86)【国際出願番号】 JP2019035526

(87)【国際公開番号】W WO2020194792

(87)【国際公開日】2020-10-01

【審査請求日】2021-09-17

(31)【優先権主張番号】P 2019059437

(32)【優先日】2019-03-26

(33)【優先権主張国・地域又は機関】JP

【新規性喪失の例外の表示】特許法第３０条第２項適用２０１９年４月１７日にｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／Ｘｐｌｏｒｅ／ｈｏｍｅ．ｊｓｐ及びｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／８６８２７１４のウェブサイトで公開されている論文サイトＩＥＥＥＸｐｌｏｒｅＤｉｇｉｔａｌＬｉｂｒａｒｙにて発表２０１９年７月２６日にｈｔｔｐ：／／ｃｖｉｍ．ｉｐｓｊ．ｏｒ．ｊｐ／ＭＩＲＵ２０１９／のウェブサイトで公開されている第２２回画像の認識・理解シンポジウム（ＭＩＲＵ２０１９）のＥｘｔｅｎｄｅｄＡｂｓｔｒａｃｔ集にて発表

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】オンカークリシュナ

(72)【発明者】

【氏名】入江豪

(72)【発明者】

【氏名】武小萌

(72)【発明者】

【氏名】川西隆仁

(72)【発明者】

【氏名】柏野邦夫

【審査官】吉田誠

(56)【参考文献】

【文献】特開２００６－２２１５２５（ＪＰ，Ａ）

【文献】特開２００９－２５１６６７（ＪＰ，Ａ）

【文献】特開２００６－３３８３１３（ＪＰ，Ａ）

【文献】特開２０１９－２８７００（ＪＰ，Ａ）

【文献】特開２０１８－２２３９０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

クエリデータに一致する目標領域を求めてメディアデータを検索する検索装置であって、
第１の学習済みニューラルネットワークを用いて、前記クエリデータから第１の特徴ベクトルを抽出する第１の特徴抽出部と、
前記メディアデータから第１の領域を取得し、第２の学習済みニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２の特徴抽出部と、
第３の学習済みニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する位置特定部と、
前記決定された目標領域の候補を、前記第２の特徴抽出部により用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２の特徴抽出部及び前記位置特定部の動作を繰り返す制御部と、
を有する検索装置。

【請求項2】

学習用クエリデータが前記第１の特徴抽出部に入力され、学習用メディアデータが前記第２の特徴抽出部に入力された場合、前記第１の学習済みニューラルネットワーク、前記第２の学習済みニューラルネットワーク及び前記第３の学習済みニューラルネットワークは、前記位置特定部により決定された前記目標領域の候補が、前記目標領域を捉えたか否かを判定した結果に基づいて、学習用クエリデータ及び学習用メディアデータを用いて学習されている、請求項１に記載の検索装置。

【請求項3】

前記第１の学習済みニューラルネットワークのパラメータは、前記第２の学習済みニューラルネットワークのパラメータと同じである、請求項１又は２に記載の検索装置。

【請求項4】

前記メディアデータをダウンサンプリング後のメディアデータにダウンサンプリングし、第４の学習済みニューラルネットワークを用いて、前記ダウンサンプリング後のメディアデータに基づいて前記第１の領域を取得する初期領域予測部を更に有する、請求項１乃至３のうちいずれか１項に記載の検索装置。

【請求項5】

クエリデータに一致する目標領域を求めてメディアデータを検索するために用いられるニューラルネットワークを学習する学習装置であって、
第１のニューラルネットワークを用いて、学習用クエリデータから第１の特徴ベクトルを抽出する第１の特徴抽出部と、
学習用メディアデータから第１の領域を取得し、第２のニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２の特徴抽出部と、
第３のニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する位置特定部と、
前記決定された目標領域の候補を、前記第２の特徴抽出部により用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２の特徴抽出部及び前記位置特定部の動作を繰り返す制御部と、
前記位置特定部により決定された前記目標領域の候補が、前記目標領域を捉えたか否かを判定し、当該判定結果に基づいて、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークのパラメータを更新する学習部と、
を有する学習装置。

【請求項6】

前記学習用メディアデータをダウンサンプリング後の学習用メディアデータにダウンサンプリングし、第４のニューラルネットワークを用いて、前記ダウンサンプリング後の学習用メディアデータに基づいて前記第１の領域を取得する初期領域予測部を更に有し、
前記第４のニューラルネットワークのパラメータは、前記位置特定部により決定された前記目標領域の候補が、前記目標領域を捉えたか否かを判定し、当該判定結果に基づいて、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークのパラメータと共に更新される、請求項５に記載の学習装置。

【請求項7】

クエリデータに一致する目標領域を求めてメディアデータを検索する検索装置により使用される検索方法であって、
第１の学習済みニューラルネットワークを用いて、前記クエリデータから第１の特徴ベクトルを抽出する第１のステップと、
前記メディアデータから第１の領域を取得し、第２の学習済みニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２のステップと、
第３の学習済みニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する第３のステップと、
前記決定された目標領域の候補を、前記第２のステップにより用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２のステップ及び前記第３のステップを繰り返す第４のステップと、
を有する検索方法。

【請求項8】

クエリデータに一致する目標領域を求めてメディアデータを検索するために用いられるニューラルネットワークを学習する学習装置により使用される学習方法であって、
第１のニューラルネットワークを用いて、学習用クエリデータから第１の特徴ベクトルを抽出する第１のステップと、
学習用メディアデータから第１の領域を取得し、第２のニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２のステップと、
第３のニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する第３のステップと、
前記決定された目標領域の候補を、前記第２のステップにより用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２のステップ及び前記第３のステップを繰り返す第４のステップと、
前記目標領域の候補が、前記目標領域を捉えたか否かを判定し、当該判定結果に基づいて、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークのパラメータを更新する第５のステップと、
を有する学習方法。

【請求項9】

請求項１乃至６のうちいずれか１項に記載の装置としてコンピュータを機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、クエリデータに一致する目標領域を求めてメディアデータを検索するために用いることができる検索装置、学習装置、検索方法、学習方法及びプログラムに関する。

【背景技術】

【0002】

画像キャプチャ技術の近年の進展によって、様々なフォーマットの大量の画像が世界中で日々利用可能になっている。さらに、これらの画像の量、複雑性、多様性及び次元も増加している。画像の増加に伴い、参照画像の中の多数の候補領域からクエリ画像に一致する目標領域を効率的且つ正確に見つけるための要求が増加している。これは、画像の位置合わせ、検証、トラッキング、ステレオ画像処理、圧縮、画像の繋ぎ合わせ及びレンダリングのような広範囲のアプリケーションにおける基本的な課題である。

【0003】

この課題を解決するための望ましい方法は、複雑背景（background clutter）、オクルージョン及び幾何学変換のような実世界のシナリオで発生する状況において正確な一致を見つけることができるように、十分にロバストな方法であることが望まれる。また、妥当な時間内に参照画像の中の多数の候補領域からクエリ画像を特定することができるように、十分に高速な方法であることが望まれる。

【0004】

スライディングウィンドウを用いた網羅的な検索方法は、十分な一致精度を提供する。しかし、網羅的な検索方法は、多数のウィンドウを評価する必要があるため、しばしば高コストとなる。既存の方法のほとんどは、最終的な結果に影響及ぼさないようなウィンドウ又は画素をスキップすることによって実行時間を減少させることを目的として、枝刈り（pruning）の概念を取り入れることによりこの問題を克服している。

【0005】

非特許文献１は、ウィンドウを１画素より多く適応的にスライドさせることにより、実行時間を減少させる。スライドの量についての判断は、パターンにおける特徴量毎に定義されたランク（rank）に基づく。非特許文献２は、画素のペアの部分集合（通常では小さい部分集合）を用いることで、複雑背景に対する頑健性と高速性を担保する方法を提案している。非特許文献３は、幾何変換と距離近似法及び分岐限定法（branch-and-bound search）のランダムなサンプリングを組み合わせることにより、検索処理を高速化している。非特許文献４は、主成分方向の差分特徴量（principal orientation difference features）に基づいて一致しない位置をスキップすることにより、計算コストを減少させている。

【先行技術文献】

【非特許文献】

【0006】

【文献】Pele O, Werman M, "Accelerating pattern matching or how much can you slide?", In Asian Conference on Computer Vision, 2007 Nov. 18 (pp. 435-446), Springer, Berlin, Heidelberg.

【文献】Dekel T, Oron S, Rubinstein M, Avidan S, Freeman WT, "Best-buddies similarity for robust template matching", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015 (pp. 2021-2029).

【文献】Korman S, Reichman D, Tsur G, Avidan S, "Fast-match: Fast affine template matching", In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013 (pp. 2331-2338).

【文献】Jiao J, Wang X, Deng Z, Cao J, Tang W, "A fast template matching algorithm based on principal orientation difference", International Journal of Advanced Robotic Systems, 2018 May 25; 15(3):1729881418778223.

【文献】Ba J, Mnih V, Kavukcuoglu K, "Multiple object recognition with visual attention", arXiv preprint arXiv:1412.7755, 2014 Dec. 24.

【文献】Ablavatski A, Lu S, Cai J, "Enriched deep recurrent visual attention model for multiple object recognition", In Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on, 2017 Mar. 24 (pp. 971-978).

【文献】Mnih V, Heess N, Graves A, "Recurrent models of visual attention", In Advances in neural information processing systems, 2014 (pp. 2204-2212).

【文献】Hel-Or Y, Hel-Or H, David E, "Fast template matching in non-linear tone-mapped images", In Computer Vision (ICCV), 2011 IEEE International Conference on, 2011 Nov. 6 (pp. 1355-1362).

【発明の概要】

【発明が解決しようとする課題】

【0007】

上記の非特許文献１～４に記載の枝刈りに基づく画像検索方法は、クエリ画像に一致する目標領域を特定するために、依然として多数のウィンドウ又は画像を評価する必要があり、これは全体の検索処理を非効率にしている。

【0008】

さらに、上記の方法は、目標領域を特定しつつ、目標領域を特定するための検索パス（すなわち、評価対象のウィンドウ又は画素の順序）を最適化することを考慮していない。したがって、上記の方法は、例えば、複雑背景、オクルージョン、幾何学変換等に対してロバストではない。

【0009】

評価対象のウィンドウ又は画素のような候補領域の数を減少させることは、画像検索用途だけでなく、動画像や音響信号のようなメディアデータを扱う他の用途においても望まれる。

【0010】

本発明は、上記の課題に鑑みてなされたものであり、本発明は、メディアデータにおける評価対象の候補領域の数を減少させ、メディアデータからクエリデータに一致する目標領域をより効率的に見つけることができる検索装置、学習装置、検索方法、学習方法及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明の一形態は、クエリデータに一致する目標領域を求めてメディアデータを検索する検索装置を提供し、当該検索装置は、
第１の学習済みニューラルネットワークを用いて、前記クエリデータから第１の特徴ベクトルを抽出する第１の特徴抽出部と、
前記メディアデータから第１の領域を取得し、第２の学習済みニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２の特徴抽出部と、
第３の学習済みニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する位置特定部と、
前記決定された目標領域の候補を、前記第２の特徴抽出部により用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２の特徴抽出部及び前記位置特定部の動作を繰り返す制御部と、
を有する。

【0012】

本発明の他の形態は、クエリデータに一致する目標領域を求めてメディアデータを検索するために用いられるニューラルネットワークを学習する学習装置を提供し、当該学習装置は、
第１のニューラルネットワークを用いて、学習用クエリデータから第１の特徴ベクトルを抽出する第１の特徴抽出部と、
学習用メディアデータから第１の領域を取得し、第２のニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２の特徴抽出部と、
第３のニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する位置特定部と、
前記決定された目標領域の候補を、前記第２の特徴抽出部により用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２の特徴抽出部及び前記位置特定部の動作を繰り返す制御部と、
前記位置特定部により決定された前記目標領域の候補が、前記目標領域を捉えたか否かを判定し、当該判定結果に基づいて、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークのパラメータを更新する学習部と、
を有する。

【0013】

本発明の他の形態は、クエリデータに一致する目標領域を求めてメディアデータを検索する検索装置により使用される検索方法を提供し、当該検索方法は、
第１の学習済みニューラルネットワークを用いて、前記クエリデータから第１の特徴ベクトルを抽出する第１のステップと、
前記メディアデータから第１の領域を取得し、第２の学習済みニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２のステップと、
第３の学習済みニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する第３のステップと、
前記決定された目標領域の候補を、前記第２のステップにより用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２のステップ及び前記第３のステップを繰り返す第４のステップと、
を有する。

【0014】

本発明の他の形態は、クエリデータに一致する目標領域を求めてメディアデータを検索するために用いられるニューラルネットワークを学習する学習装置により使用される学習方法を提供し、当該学習方法は、
第１のニューラルネットワークを用いて、学習用クエリデータから第１の特徴ベクトルを抽出する第１のステップと、
学習用メディアデータから第１の領域を取得し、第２のニューラルネットワークを用いて、前記第１の領域から第２の特徴ベクトルを抽出する第２のステップと、
第３のニューラルネットワークを用いて、前記第１の特徴ベクトルと、前記第２の特徴ベクトルと、前記第１の領域又は前記第１の領域の位置とに基づいて、前記目標領域の候補を決定する第３のステップと、
前記決定された目標領域の候補を、前記第２のステップにより用いられる前記第１の領域として使用することにより、所定の条件が満たされるまで、前記第２のステップ及び前記第３のステップを繰り返す第４のステップと、
前記目標領域の候補が、前記目標領域を捉えたか否かを判定し、当該判定結果に基づいて、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークのパラメータを更新する第５のステップと、
を有する。

【0015】

本発明の他の形態は、上記の検索装置又は学習装置としてコンピュータを機能させるプログラムを提供する。

【発明の効果】

【0016】

本発明によれば、メディアデータにおける評価対象の候補領域の数を減少させ、メディアデータからクエリデータに一致する目標領域をより効率的に見つけることが可能になる。

【図面の簡単な説明】

【0017】

【図1】本発明の第１の実施例に係る検索装置の機能構成を示す図である。

【図2】本発明の第１の実施例に係る学習装置の機能構成を示す図である。

【図3】本発明の第２の実施例に係る検索装置の概念図である。

【図4】本発明の第２の実施例に係る画像検索方法のフローチャートである。

【図5】初期領域予測部におけるＣＮＮの詳細図である。

【図6】第１の特徴抽出部及び第２の特徴抽出部におけるＣＮＮの詳細図である。

【図7】本発明の第２の実施例に係る学習方法のフローチャートである。

【図8】画像検索成功率を示す表である。

【図9】クエリ画像を特定するために評価されたウィンドウの数を示す表である。

【図10】クエリ画像を特定するための平均実行時間を示す表である。

【図11】クエリ画像を特定するための検索パスを示す図である。

【図12】本発明の実施例に係る各装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0018】

本発明の実施例について図面を参照して以下に説明する。

【0019】

＜第１の実施例＞
第１の実施例では、クエリデータに一致する目標領域（以下、「目標ウィンドウ」とも呼ばれる）を求めてメディアデータを検索する検索装置の全体構成について説明する。例えば、メディアデータ及びクエリデータは、それぞれ、静止画像、動画像、音響信号又は他のデータである。検索装置は、メディアデータの中の複数の目標領域の候補（以下、「候補領域」又は「候補ウィンドウ」とも呼ばれる）からクエリデータに一致する目標領域を見つけるために、学習装置により学習されたモデル（具体的には、ニューラルネットワーク）を用いる。具体的には、検索装置は、学習済みモデルを用いることにより、クエリデータと候補領域とを繰り返し比較し、候補領域がクエリデータに一致するか否かを判断することによって、目標領域を見つける。モデルは、評価対象の候補領域を減少させるように学習されているため、検索装置は、より少ない数の候補領域で目標領域を見つけることができる。

【0020】

第１の実施例では、検索装置により使用されるモデルを学習する学習装置について更に説明する。学習装置は、検索装置と異なってもよく、検索装置と同じでもよい。以下の説明では、学習装置が検索装置と異なる装置であると仮定する。

【0021】

［検索装置］
図１は、本発明の第１の実施例に係る検索装置１００の機能構成を示す図である。検索装置１００の目的は、メディアデータＲの中の特定の位置l_gに存在する、クエリデータＱによって表される目標領域を特定することである。位置l_gは領域の中心でもよく、領域の角でもよく、領域を定義するために用いることができる他の位置でもよい。メディアデータＲが静止画像である場合、位置l_gはxy画像座標により表すことができる。メディアデータＲが動画像である場合、位置l_gはタイムスタンプ（又はフレームインデックス）により表すことができる。この場合、位置l_gは時間フレームのxy画像座標を含んでもよい。メディアデータＲが音響信号である場合、位置l_gはタイムスタンプにより表すことができる。検索装置１００は、ウィンドウサイズ、方向又は上記のいずれかの組み合わせ等のように、目標領域を定義するために用いられる他の種類の情報を決定してもよい。

【0022】

検索装置１００は、クエリデータＱとメディアデータＲの中の候補領域とを繰り返し比較し、候補領域がクエリデータＱに一致するか否かを判断する。位置lにおけるメディアデータＲの領域をＲ(l)と表すとすると、目標領域はＲ(l_g)により表すことができる。また、繰り返し回数tにおける評価対象の候補領域はＲ(l_t)により表す。以下に説明するように、検索装置１００は、より小さい繰り返し回数Tで目標領域が位置特定できるように、学習済みモデルを用いて検索パス{l_t}_t=0 ^T（すなわち、候補領域の位置の順序）を決定する。ただし、Tは最大繰り返し回数である。

【0023】

検索装置１００は、第１の特徴抽出部１２０と、第２の特徴抽出部１３０と、位置特定部１４０と、制御部１５０とを含む。検索装置１００は、初期領域予測部１１０を更に含んでもよい。

【0024】

初期領域予測部１１０は、メディアデータＲを入力とし、評価対象の初期領域Ｒ(l₀)又はその位置l₀を出力とするニューラルネットワークである。ニューラルネットワークは畳み込みニューラルネットワーク（ＣＮＮ：convolutional neural network）でもよく、他のニューラルネットワークでもよい。音響信号の場合、再帰型ニューラルネットワーク（ＲＮＮ：recurrent neural network）又は長短期記憶ネットワーク（ＬＳＴＭ：long-short term memory）が用いられてもよい。初期領域予測部１１０は、メディアデータＲをダウンサンプリング後のメディアデータＲ_coarseにダウンサンプリングし、ダウンサンプリング後のメディアデータＲ_coarseに基づいて初期領域Ｒ(l₀)を取得する。初期領域Ｒ(l₀)は初期位置l₀においてメディアデータから抽出される領域であり、初期位置l₀はダウンサンプリング後のメディアデータＲ_coarseの特徴量を位置ベクトルに線形射影することにより取得されてもよい。初期領域Ｒ(l₀)は、第２の特徴抽出部１３０により評価される最初の候補領域である。

【0025】

なお、初期領域予測部１１０は検索装置１００に含まれなくてもよく、初期位置l₀は任意に決定されてもよい。

【0026】

第１の特徴抽出部１２０は、クエリデータＱを入力とし、クエリデータＱの特徴ベクトルf(Ｑ)を出力とするニューラルネットワークである。ニューラルネットワークはＣＮＮでもよく、他のニューラルネットワークでもよい。音響信号の場合、ＲＮＮ又はＬＳＴＭが用いられてもよい。第１の特徴抽出部１２０は、クエリデータＱから特徴ベクトルf(Ｑ)を抽出する。

【0027】

第２の特徴抽出部１３０は、メディアデータＲ及び候補領域Ｒ(l_t)又はその位置l_t（t=0の場合には初期領域Ｒ(l₀)又はその位置l₀）を入力とし、メディアデータＲの候補領域の特徴ベクトルf(Ｒ(l_t))を出力とするニューラルネットワークである。位置l_tが第２の特徴抽出部１３０に入力された場合、第２の特徴抽出部１３０は、メディアデータＲから位置l_tにおける候補領域Ｒ(l_t)を抽出する。第２の特徴抽出部１３０のニューラルネットワークは、第１の特徴抽出部１２０のニューラルネットワークと同じであり、第１の特徴抽出部１２０のニューラルネットワークと同じパラメータを共有する。例えば、双方のニューラルネットワークがＣＮＮである場合、フィルタのサイズ、ストライド等のような同じパラメータを用いる。第２の特徴抽出部１３０は、候補領域Ｒ(l_t)を取得し、候補領域Ｒ(l_t)から特徴ベクトルf(Ｒ(l_t))を抽出する。第２の特徴抽出部１３０のニューラルネットワークは第１の特徴抽出部１２０のニューラルネットワークと同じパラメータを共有するため、候補領域Ｒ(l_t)のサイズは、クエリデータＱのサイズと同じである必要がある。

【0028】

位置特定部１４０は、特徴ベクトルf(Ｑ)、特徴ベクトルf(Ｒ(l_t))及び候補領域Ｒ(l_t)又はその位置l_t（t=0の場合には初期領域Ｒ(l₀)又はその位置l₀）を入力とし、次の候補領域Ｒ(l_t+1)又はその位置l_t+1（t<T）、或いは最終結果（t=Tの場合の候補領域Ｒ(l_T)又はその位置l_T、或いはクエリデータＱに一致する目標領域又はその位置）を出力するニューラルネットワークである。位置特定部１４０のニューラルネットワークはＬＳＴＭでもよく、他のニューラルネットワークでもよい。位置特定部１４０は、特徴ベクトルf(Ｑ)と、特徴ベクトルf(Ｒ(l_t))と、候補領域Ｒ(l_t)又はその位置l_tとに基づいて、次の候補領域Ｒ(l_t+1)を決定する。より具体的には、位置特定部１４０は、特徴ベクトルf(Ｑ)と特徴ベクトルf(Ｒ(l_t))とを単一のベクトルに結合し、その後、結合されたベクトルと、現在の候補領域Ｒ(l_t)又はその位置l_tと、位置特定部１４０の現在の内部状態（「隠れ状態」とも呼ばれる）とに基づいて、次の候補位置Ｒ(l_t+1)又はその位置l_t+1を決定する。以下に説明するように、最大繰り返し回数Tで制御部１５０が繰り返しを終了した場合、位置特定部１４０は、候補領域Ｒ(l_T)又はその位置l_Tを出力する。また、候補領域Ｒ(l_t)がクエリデータＱに一致した場合、位置特定部１４０は、候補領域Ｒ(l_T)がクエリデータＱに一致する目標領域であると判断し、目標領域又はその位置を出力する。

【0029】

制御部１５０は、次の候補領域Ｒ(l_t+1)又はその位置l_t+1、或いは最終結果を入力とし、繰り返しを終了するか否かを判断する処理部である。制御部１５０は、次の候補領域Ｒ(l_t+1)又はその位置l_t+1を第２の特徴抽出部１３０に入力し、所定の条件が満たされるまで、第２の特徴抽出部１３０及び位置特定部１４０の動作を繰り返す。例えば、制御部１５０は、繰り返し毎に繰り返し回数を１だけ増加させ、繰り返し回数tが所定の制限値Tになった場合、繰り返しを終了する。また、例えば、制御部１５０は、位置特定部１４０によって、候補領域Ｒ(l_t))がクエリデータに一致する目標領域であると判断された場合、繰り返しを終了してもよい。

【0030】

以下に説明するように、第１の特徴抽出部１２０、第２の特徴抽出部１３０及び位置特定部１４０（及び初期領域予測部１１０が含まれる場合には初期領域予測部１１０）のニューラルネットワークは、学習用クエリデータ及び学習用メディアデータを用いて学習されている。学習用クエリデータが第１の特徴抽出部１２０に入力され、学習用メディアデータが第２の特徴抽出部１３０（又は初期領域予測部１１０が含まれる場合には初期領域予測部１１０）に入力された場合、ニューラルネットワークのパラメータは、位置特定部１４０により決定された候補領域Ｒ(l_t+1)が目標領域を捉えたか否かを判定した結果に基づいて学習されている。また、ニューラルネットワークは、第１の特徴抽出部１２０により抽出された特徴ベクトルf(Ｑ)と、第２の特徴抽出部１３０により抽出された特徴ベクトルf(Ｒ(l_t))との類似度が大きくなるように学習されている。

【0031】

［学習装置］
図２は、本発明の第１の実施例に係る学習装置２００の機能構成を示す図である。学習装置２００の目的は、目標領域を特定しつつ、より小さい繰り返し回数Tで検索パス{l_t}_t=0 ^Tを決定することである。

【0032】

学習装置２００は、第１の特徴抽出部２２０と、第２の特徴抽出部２３０と、位置特定部２４０と、制御部２５０と、学習部２６０とを含む。学習装置２００は、初期領域予測部２１０を更に含んでもよい。初期領域予測部２１０、第１の特徴抽出部２２０、第２の特徴抽出部２３０、位置特定部２４０及び制御部２５０は、検索装置１００における初期領域予測部１１０、第１の特徴抽出部１２０、第２の特徴抽出部１３０、位置特定部１４０及び制御部１５０とそれぞれ同じである。

【0033】

学習装置２００は、入力として学習用メディアデータＲ及び学習用クエリデータＱを含む学習用データ（「クエリ参照ペア」とも呼ばれる）を用いる。学習用クエリデータＱは学習用メディアデータＲの一部でもよく、学習用メディアデータＲの一部に類似したデータでもよい。学習用メディアデータＲの中の学習用クエリデータＱの正確な位置は必ずしも与えられる必要はない。

【0034】

入力として学習用メディアデータＲ及び学習用クエリデータＱを用いることにより、特徴ベクトルf(Ｑ)が第１の特徴抽出部２２０により取得でき、特徴ベクトルf((Ｒ(l_t))が第２の特徴抽出部２３０により取得でき、次の候補領域Ｒ(l_t+1)又はその位置l_t+1、或いは最終結果が位置特定部２４０により取得できる。

【0035】

学習部２６０は、特徴ベクトルf(Ｑ)、特徴ベクトルf((Ｒ(l_t))及び次の候補領域Ｒ(l_t+1)又はその位置l_t+1、或いは最終結果を入力とし、第１の特徴抽出部２２０、第２の特徴抽出部２３０及び位置特定部２４０（及び初期領域予測部２１０が含まれる場合には初期領域予測部２１０）のニューラルネットワークのパラメータを出力する処理部である。学習部２６０は、位置特定部２４０により決定された候補領域Ｒ(l_t+1)が目標領域を捉えたか否かを判定した結果に基づいて、ニューラルネットワークのパラメータを更新する。また、学習部２６０は、特徴ベクトルf(Ｑ)と特徴ベクトルf((Ｒ(l_t))との類似度を計算し、特徴ベクトルf(Ｑ)と特徴ベクトルf((Ｒ(l_t))との類似度に基づいて、ニューラルネットワークのパラメータを更新する。さらに、学習部２６０は、位置の系列{l_τ}_τ=1 ^t-1を用いて報酬（reward）を計算し、報酬に基づいてニューラルネットワークのパラメータを更新してもよい。

【0036】

＜第２の実施例＞
第２の実施例では、第１の実施例の概念を用いた画像検索方法について説明する。第２の実施例では、メディアデータは参照画像Ｒであり、クエリデータはクエリ画像Ｑである。

【0037】

［検索装置］
図３は、第２の実施例に係る検索装置１００の概念図である。

【0038】

初期領域予測部１１０において、参照画像Ｒは、低解像度の参照画像Ｒ_coarseにダウンサンプリングされ、特徴ベクトルf(Ｒ_coarse)がＣＮＮによって低解像度の参照画像Ｒ_coarseから抽出され、特徴ベクトルf(Ｒ_coarse)が位置l₀に線形射影される。

【0039】

第１の特徴抽出部１２０において、画像特徴量を表す特徴ベクトルf(Ｑ)はＣＮＮによってクエリ画像Ｑから抽出される。第２の特徴抽出部１３０において、画像特徴量を表す特徴ベクトルf(Ｒ(l₀))はＣＮＮによって位置l₀における参照画像Ｒから抽出される。

【0040】

そして、位置特定部１４０において、現在位置l₀が特徴ベクトルf(Ｒ_coarse)又はf(R(l₀))と同じ次元を有する位置ベクトルに線形射影され、次の隠れ状態が、特徴ベクトルf(Ｒ_coarse)及びf(R(l₀))の組み合わせと、位置特定部１４０の現在の隠れ状態と、位置ベクトルとに基づいてＬＳＴＭによって決定され、次の隠れ状態が次の位置l₁に線形射影される。

【0041】

そして、次の位置l₁が与えられると、制御部１５０（図３に図示せず）は、繰り返し回数が所定の制限値Tになるまで、第２の特徴抽出部１３０及び位置特定部１４０の動作を繰り返す。制限値になった場合、画像検索処理は終了し、画像検索結果が出力される。

【0042】

以下、検索装置１００により実行される画像検索方法の各ステップについて、図４を参照して詳細に説明する。

【0043】

ステップＳ１０１～Ｓ１０３は初期化ステップに関し、初期化ステップでは、参照画像Ｒを入力とし、初期位置l₀を出力する。

【0044】

ステップＳ１０１において、初期領域予測部１１０は、参照画像Ｒを低解像度の参照画像Ｒ_coarseにダウンサンプリングする。参照画像Ｒのダウンサンプリングは、3のスケーリング係数を用いて行われてもよい。

【0045】

ステップ１０２については、図５を参照して詳細に説明する。図５は、初期領域予測部１１０におけるＣＮＮの詳細図である。

【0046】

初期領域予測部１１０は、ダウンサンプリング後の参照画像Ｒ_coarseを特徴ベクトルf(Ｒ_coarse)にマッピングする３つの畳み込み層を使用する。特徴ベクトルf(Ｒ_coarse)はダウンサンプリング後の参照画像Ｒ_coarseから取得されるため、所与の参照画像Ｒの中で潜在的に関心のある領域がどこにあるかという示唆を効果的に与える。より具体的には、第１の畳み込み層は、Ｒ_coarseを入力とし、サイズ7×7の３２個の２Ｄ畳み込みフィルタに続いて、ストライド2の最大プーリング層を適用する。第２及び第３の畳み込み層のそれぞれは、同じサイズ3×3の３２個の２Ｄ畳み込みフィルタに続いて、同じストライド2の最大プーリング層で構成される。最後に、第３の畳み込み層の出力を受け取り、長さ256の固定長の特徴ベクトルを生成する全結合（ＦＣ：fully-connected）層が存在する。

【0047】

ステップＳ１０３において、ステップＳ１０２において取得された特徴ベクトルf(Ｒ_coarse)に線形射影が適用され、長さ256の特徴ベクトルf(Ｒ_coarse)を長さ2の位置ベクトルに変換する。さらに、位置ベクトルは-1から1の範囲に正規化される。

【0048】

ステップＳ１０４～Ｓ１０６は特徴抽出ステップに関する。

【0049】

ステップＳ１０４において、ステップＳ１０３の位置ベクトルを用いて、当該位置ベクトルにより表される位置l₀において画像領域が参照画像Ｒから抽出される。

【0050】

ステップＳ１０５及びＳ１０６については、図６を参照して詳細に説明する。図６は、第１の特徴抽出部１２０及び第２の特徴抽出部１３０におけるＣＮＮの詳細図である。位置l_tは制御部１５０の制御で繰り返し決定されるため、以下の説明において、一般的に繰り返し回数をtとして示す。なお、繰り返し回数が0であるときに、初期位置l₀が用いられる。

【0051】

第１の特徴抽出部１２０及び第２の特徴抽出部１３０は、クエリ画像Ｑ及び抽出された画像領域Ｒ(l_t)をそれぞれ特徴ベクトルf(Ｑ)及びf(Ｒ(l_t))にマッピングする５個の畳み込み層を使用する。より具体的には、第１の特徴抽出部１２０及び第２の特徴抽出部１３０は、一連の５つの畳み込み正規化線形ユニット（Ｃｏｎｖ－ＲｅＬＵ：convolutional-rectified linear unit）層（２Ｄ畳み込みの後のＲｅＬＵ活性化）に続いて、大域的平均プーリング（ＧＡＰ：global average pooling）層を有するように設計された、同じパラメータを有するＣＮＮである。これは全層畳み込み（fully-convolutional）であり、全結合層を有さない。この構成の利点は、任意のサイズの入力画像から同じ長さ（128）の特徴ベクトルを抽出することができることにある。各畳み込み層の仕様は、第１層：３２個の２Ｄ畳み込みフィルタ（フィルタ：7×7及びストライド：1×1）、第２層：６４個の２Ｄ畳み込みフィルタ（フィルタ：5×5及びストライド：1×1）、第３層：１２８個の２Ｄ畳み込みフィルタ（フィルタ：3×3及びストライド：1×1）、第４層：２５６個の２Ｄ畳み込みフィルタ（フィルタ：1×1及びストライド：1×1）、第５層：１２８個の２Ｄ畳み込みフィルタ（フィルタ：1×1及びストライド1×1）である。

【0052】

ステップＳ１０７において、第１の特徴抽出部１２０及び第２の特徴抽出部１３０から取得された固定長の特徴ベクトルf(Ｑ)及びf(Ｒ(l_t))は、長さ256の単一のベクトルに結合される。

【0053】

ステップＳ１０８～Ｓ１１０は位置特定ステップに関し、位置特定部１４０は、画像の特徴ベクトルf(Ｑ)及びf(Ｒ(l_t))と、現在位置l_tと、ＬＳＴＭの現在状態h_tとを含む３つの入力に基づいて、ＬＳＴＭによって次の位置l_t+1を順に予測する。

【0054】

位置l_tは特徴ベクトル（256）に比べて次元が低いため（２Ｄであるため）、結果のベクトルは特徴ベクトルの要素に支配され、有用な位置情報を取得することが困難になる。これを回避するため、ステップＳ１０８において、まず、現在位置l_tは、線形射影によって特徴ベクトルと同じ次元を有する位置ベクトルに符号化され、次に、特徴ベクトルと組み合わせて処理される。

【0055】

ステップＳ１０９において、t=0の場合、ＬＳＴＭの初期の隠れ状態h₀は、ステップＳ１０１において取得されたダウダンプリング後の低解像度の参照画像の特徴ベクトルf(Ｒ_coarse)により決定される。次に、結合されたベクトルと、現在位置l_tと、現在の隠れ状態h_tとを含む３つの入力が組み合わされ、単一のベクトルを形成してＬＳＴＭに入力される。位置特定部１４０の出力は、次の隠れ状態h_t+1の固定長のベクトル（256）である。

【0056】

ステップＳ１１０において、ＬＳＴＭの結果の次の隠れ状態h_t+1は、線形射影により次の領域の予測位置の期待値

【0057】

【数1】

に変換される。次の領域の位置l_t+1が実際にはガウス分布に従う確率変数であり、

【0058】

【数2】

が平均ベクトルとなることを仮定する。具体的には、l_t+1は

【0059】

【数3】

として、分布

【0060】

【数4】

からのサンプルとして取得される。ただし、Iは単位行列であり、λはネットワークのハイパーパラメータである。

【0061】

次にステップＳ１１１において、制御部１５０は繰り返し回数tを１だけ増加させ、最大繰り返し回数Tになるまで、ステップＳ１０４及びＳ１０６～１１０を繰り返す。最大繰り返し回数Tになった場合、位置l_tが出力される。簡単にするため、最大繰り返し回数Tは6に固定されてもよい。また、Tは適応的に決定されてもよい。

【0062】

［学習装置］
以下、学習装置２００により実行される学習方法の各ステップについて、図７を参照して詳細に説明する。

【0063】

目標領域は順に特定されるため（すなわち、現在の決定は全ての過去の決定に依存して行われるため）、各繰り返し回数における決定は独立して評価できない。したがって、サンプルが独立同分布であると仮定する一般的な教師あり学習法又は教師なし学習法は適用できない。過去の決定における依存性に対処するために、決定過程は部分可観測マルコフ決定過程（ＰＯＭＤＰ：partially observable Markov decision process）としてモデル化され、学習は強化学習方式で行うことができる。具体的には、ニューラルネットワークを学習するために、方策勾配法が用いられる。

【0064】

この問題では、方策（policy）は、マッチングさせる次の位置をどのように選択するかを決定することである。この問題を解決するために、次の位置が平均値

【0065】

【数5】

及び標準偏差λのガウス分布に従う確率変数であると仮定する。また、平均値

【0066】

【数6】

のみが学習対象であり、λはハイパーパラメータであると仮定する。

【0067】

学習処理は、学習用データ（クエリ参照ペア）を初期領域予測部２１０に入力することから始まる。

【0068】

ステップＳ２０１～Ｓ２０３において、初期領域予測部２１０は、ステップＳ１０１～Ｓ１０３において説明したように、初期位置l₀を出力する。

【0069】

ステップＳ２０４～Ｓ２０６において、第１の特徴抽出部２２０及び第２の特徴抽出部２３０は、ステップＳ２０４～Ｓ２０６において説明したように、特徴ベクトルを抽出する。

【0070】

ステップＳ２０７～Ｓ２１０において、ランダムな確率過程（ガウス分布）が位置特定部２４０の出力に適用され、結果（すなわち、次の予測位置l_t）を生成する。

【0071】

ステップＳ２１１において、学習部２６０は、予測位置l_tの精度に基づいて報酬を計算する。さらに、ステップＳ２１２において、学習部２６０は、特徴ベクトルf(Ｑ)と特徴ベクトルf(Ｒ(l_t))との類似度を計算する。

【0072】

ステップＳ２１３において、計算された報酬及び類似度を用いて、学習部２６０は、ニューラルネットワークのパラメータを更新するためにバックプロパゲーションを開始する。バックプロパゲーションはステップＳ２１０の確率過程を迂回し、位置特定部２４０、第２の特徴抽出部２３０、第１の特徴抽出部２２０及び初期領域予測部２１０のニューラルネットワークのパラメータを更新する。

【0073】

概念的には、ニューラルネットワークのバックプロパゲーションは、より多くの報酬が将来的に与えられるよう、ニューラルネットワークのパラメータが更新されると考えられる。

【0074】

要するに、この学習方法は、画像の特徴量と検索パス（すなわち、検索対象の位置の順序）とを統一した枠組みで一緒に学習することができる。非特許文献５、非特許文献６及び非特許文献７において提案されているように、いくつかの再帰型アテンションモデル（recurrent attention model）が存在する。これらの非特許文献とは異なり、第２の実施例の学習方法は、画像検索タスクにカスタマイズされており、類似検索のための画像特徴量を効果的に学習するように設計されている。さらに、全体のモデルは教師なしで学習できるようにされており、すなわち、上記のモデルとは異なり、学習用のクラスラベルは必要とされない。

【0075】

以下、学習方法について詳細に更に説明する。

【0076】

Θ={θ_f,θ_l}が全体のモデルの一式のパラメータであり、θ_fが第１の特徴抽出部２２０及び第２の特徴抽出部２３０の一式のパラメータであり、θ_lが位置特定部２４０の一式のパラメータであると仮定する。或いは、Θ={θ_f,θ_l,θ_i}が定義されてもよく、θ_iは初期領域予測部２１０の一式のパラメータである。Θを調整するために、強化学習が用いられる。

【0077】

上記のように位置l_tは順に決定されるため、l_tは全ての過去の位置を条件として決定される。表記を簡潔にするために、s_t-1={{l_τ}_τ=1 ^t-1,Ｑ,Ｒ}と定義する。このモデルの方策は、条件付分布π(l_t|s_t-1;Θ)として表すことができる。学習の目的は、Θに関して報酬R=Σ_t=1 ^Tr_tを最大化することである。ただし、r_tは報酬関数である。一般的には、報酬関数r_tは、繰り返し回数tにおける検索の成功又は失敗に基づくものとすることができる。すなわち、繰り返し回数tにおけるウィンドウが位置l_gを正確に捉えた場合、r_t=1であり、そうでない場合にはr_t=0である。ウィンドウが位置l_gを正確に捉えるか否かは、ウィンドウと領域Ｒ(l_g)とのＩｏＵ（intersection over union）に基づいて決定されてもよい。全体の報酬の期待値は以下の式(1)として与えられる。このように、学習においては、目標位置の候補である繰り返し回数ｔにおけるウィンドウが目標位置である位置l_tを正確に捉えたか否か、言い換えれば目標位置の候補である繰り返し回数ｔにおけるウィンドウが目標位置である位置l_tと整合するか否かに基づいて、学習のパラメータを決定する。

【0078】

【数7】

だたし、p(s_T;Θ)は、方策πに依存するs_Tの確率分布である。上記の期待値の定義を用いることにより、位置l_tに対する全体の期待報酬は以下の式(2)のように書き直すことができる。

【0079】

【数8】

繰り返し回数tにおける期待報酬の勾配は以下の式(3)のように定義できる。

【0080】

【数9】

式(3)における加算と勾配とを入れ替え、方策で乗算及び除算することにより、式(3)は以下の式(4)のように書き直すことができる。

【0081】

【数10】

以下の式(5)及び(6)は、

【0082】

【数11】

であるという事実を単に使用することにより、式(4)から導かれる。

【0083】

【数12】

式(6)の左辺は、将来的に報酬を高くするために、現在位置l_tにおいてパラメータが報酬関数の勾配の方向に更新されるべきであることを意味しており、この勾配の方向は、報酬Rを用いて位置l_tの尤度logπ(l_t|s_t-1;Θ)を最大化する方向（式(6)の右辺）と同じである。

【0084】

Θに関する勾配の計算は簡単ではないが、モンテカルロ法と同様に、方策から{l_t;s_t-1}_t=1 ^Tの系列をサンプリングすることにより近似的に計算することができ、以下の式(7)のようになる。

【0085】

【数13】

ただし、Mはサンプル系列の数である。式(7)を用いることにより、Θは勾配が上昇する方向に繰り返し更新できる。

【0086】

強化学習のみでのモデルの学習は、しばしば予測結果を不安定にする。したがって、第２の実施例では、学習処理の安定性を向上させるために、他のロス関数が取り入れられる。具体的には、第１の特徴抽出部２２０及び第２の特徴抽出部２３０からそれぞれ抽出された画像の特徴ベクトルf(Ｑ)及びf(Ｒ(l_t))が、f(Ｑ)とf(Ｒ(l_t))との類似度を測定するために用いられる。一致するペアの場合、２つの特徴ベクトルの距離は小さくなり、不一致のペアの場合、２つの特徴ベクトルの距離は大きくなるはずである。

【0087】

一致するペア及び不一致のペアについての真値ラベルを取得するために、教師ありの情報を用いる必要はない。真値ラベルは、ニューラルネットワークの学習中にそれぞれのペアに対して与えられる報酬から直接的に推測できる。報酬が1である場合、ペアは一致し、そうでない場合、不一致のペアであるとして扱われる。このため、広く用いられているシャムネットワーク（Siamese network）の対比ロス関数（contrastive loss function）と同様に、第１の特徴抽出部２２０及び第２の特徴抽出部２３０から以下のロス関数(8)が取り入れられる。

【0088】

【数14】

ただし、d=||f(Ｑ)-f(Ｒ(l_t))||であり、mはマージンである。これはθ_fに関して区分的微分可能であるため、勾配降下によって最適化できる。

【0089】

＜評価結果＞
本発明の実施例に記載の画像検索方法を評価するために、MNIST（http://yann.lecun.com/exdb/mnist/）及びFlickrLogos-32（http://www.multimedia-computing.de/flickrlogos/）という２つのベンチマーク用データセットを用いた。

【0090】

［データセット］
MNISTに関して、３つのデータセットをMNISTデータセットに基づいて生成した。第１のデータセットは「Translated MNIST」と呼ばれ、各参照画像は、28×28の数字の画像（28×28画素の画像）を100×100のブランク画像のランダムな位置に配置することにより生成された。より具体的には、位置座標は、0からブランク画像と数字の画像とのサイズ差までの範囲内の乱数である。この範囲は、ブランク画像の境界位置に数字の画像を配置することを回避するために設定されたものである。

【0091】

第２のデータセットは「Cluttered MNIST」と呼ばれ、複雑背景に関して画像検索方法のロバスト性を評価するために用いられるものである。ここで、各参照画像は、他のランダムな数字の画像からのランダムな9×9の部分画像（sub-patch）を、Translated MNIST参照画像のランダムな位置に追加することにより生成された。具体的には、まず、28×28の数字の画像がランダムに選択され、次に、他の数字の画像の9×9の画素の部分画像がランダムな位置で切り取られ、最後に、9×9の画素の部分画像が100×100のTranslated MNIST参照画像のランダムに選択された位置に埋め込まれた。部分画像は、既存の数字の画像に重ならないように埋め込まれた。クラッターは、挿入される部分画像の総数を固定することで制御された。

【0092】

第３のデータセットは「Mixed MNIST」と呼ばれる。目標の数字の画像とは異なるランダムに選択された28×28の数字の画像が、各Cluttered MNIST参照画像のランダムな位置に配置された。Translated MNISTと同様に、位置座標は、境界位置を回避し、且つ、既存の数字の画像と重ならないように選択された。

【0093】

それぞれの100×100の画像を参照画像とし、0～9の１０個の数字が中心にあるクリーンな画像のマスターセットから、目標の数字の画像と同じ数字を有する28×28のクエリ画像を選択することにより、上記の３種類のMNISTに関するデータセットについて全てのクエリ参照ペアが用意された。MNISTの標準的な意図に従って、テスト用に10,000個のクエリ参照ペアが用いられ、学習用に60,000個のクエリ参照ペアが用いられた。

【0094】

FlickrLogos-32に関して、このデータセットは、元々は8,240個の画像で構成されており、学習用セットの320個のロゴ画像と、検証セットの3,260個の画像（3,000個の非ロゴ画像）と、テストセットの3,960個の画像（3,000個の非ロゴ画像）と分けられる。ここで、ロゴ毎に70個の画像を有する32個の異なるロゴのロゴ画像（2,240個）のみを検討した。学習用セット及びテストセットは、それぞれ2,000個及び240個のクエリ参照ペアで構成された。

【0095】

各ペアは、データセット内のロゴ画像を参照画像として考え、クエリ画像と同じブランド名のちょうど切り取られたロゴをクエリ画像として考えることにより生成された。個々のロゴにそれぞれ対応して、合計で32個のクエリ画像を生成した。全ての参照画像は、元のサイズの半分にリサイズされ、各クエリ画像は、参照画像のロゴと同じサイズにリサイズされた。

【0096】

［評価の設定］
性能指標に関して、画像検索方法を精度及び速度の観点で評価した。クエリ画像及び参照画像を与えて、参照画像の中の領域に対応する予測ウィンドウを出力し、精度を評価するためにこの予測ウィンドウを用いた。特に、画像検索は、物体検出手法と同じ基準に従って、予測ウィンドウと真値ウィンドウとのＩｏＵ（intersection over union）が0.5より大きい場合に成功であると考えられるものとした。成功率は、全てのペアに対する正確に一致した画像ペアの数の比である。

【0097】

効率面は２つの指標の観点で評価された。一方は評価されたウィンドウの数であり、他方は各クエリ参照ペアを処理するために必要な実行時間である。具体的には、実行時間は、テストセットのクエリ参照ペアをマッチングするために必要な合計時間の平均を取ることにより決定した。

【0098】

実施例に係る画像検索方法は、BBS（非特許文献２）及びMTM（非特許文献８）の２つの既存の画像検索方法と比較して評価された。各方法について同じハードウェア環境が用いられ、これらの方法のハイパーパラメータは注意深く調整された。

【0099】

実施例に係るモデルは、MNISTでは64のバッチサイズ及びFlickrLogos-32では1のバッチサイズを有するAdamを用いて始めから学習された。学習レートは、指数関数的減衰によって範囲[10_-4,10_-3]に保持された。学習用セットにおいて、MNISTデータセットの結果は３エポック数だけ繰り返され、FlickrLogos-32の結果は４５エポック数だけ繰り返された。次の位置をサンプリングするために用いられるガウス分布のハイパーパラメータλは0.22に固定した。

【0100】

対比ロス関数のハイパーパラメータのマージンは0.2に固定した。マージンを高く設定しすぎると、ネットワークは「不一致」についてのみ考慮するようになり、マージンを低く設定しすぎると、ネットワークは「不一致」について何も学習しなくなるというように、マージンの選択においてトレードオフが存在する。この評価において、適切なマージンは手動で決定した。

【0101】

強化学習により記述される確率的なネットワークの勾配の更新（式(7)）を実現するために、勾配をニューラルネットワークに直接渡すための勾配停止関数を用いることにより、ニューラルネットワークを近似的にのみ学習させるためのロス関数が用いられた。具体的には、ニューラルネットワークのパラメータは、ニューラルネットワークから所望の平均値が出力されるように更新された。

【0102】

［結果］
全てのデータセットについて、成功率、評価されたウィンドウの数及び実行時間を、それぞれ図８～図１０に示す。図８～１０において、「Joint-Training」は本発明の実施例の結果である。本発明の実施例に従ってクエリ画像を特定するための検索パスは図１１に示されている。

【0103】

Translated MNISTについての結果に関して、図８に示すように、実施例の方法の成功率は、全ての画像検索方法の中で最高である。実施例の最大利得はBBSに対して0.25にもなり、MTMに対して0.27にもなる。この結果は、実施例がTranslated MNISTデータセットにおいて検索パスを非常に正確に学習できることを明確に示している。次に、図９に示すように、実施例は、クエリ画像を特定するために評価された候補ウィンドウの総数の観点でBBS及びMTMより明らかに優れている。実施例の方法は６個の候補ウィンドウのみを評価しているが、他の方法は数千以上ものウィンドウを評価している。数ウィンドウのみを処理する利点は、実行時間に反映されている。各方法は画素毎に異なる計算要件を有するため、実行時間は処理されたウィンドウの数に正比例しない。それにもかかわらず、実施例の方法は、他の２つの方法に対して同等以上に高速であり、一方で、図１０に示すように非常に良好な一致精度を有する。

【0104】

Cluttered MNIST及びMixed MNISTに関して、図８に示すように、実施例の方法の成功率は、全ての画像検索方法の中で最高である。これは、広範囲に複雑背景のクラッターが存在する場合であっても、実施例の方法が検索パスの学習に成功することを示している。BBSの成功率は３つの方法の中で最低である。これは、BBSにおけるクエリ画像と候補ウィンドウとの一致が画素の分布の整合性に従って評価されているためであり、(x,y,R,G,B)空間における画素の分布が似ているときに２つのウィンドウが一致するペアであると判断されるためである。この方法は、ノイズが目標画像と同じ分布を有し得るCluttered MNIST及びMixed MNISTでは有効ではない。図９に示すように、実施例の方法は、Cluttered MNIST及びMixed MNISTの双方について、８個の候補ウィンドウだけでクエリ画像を正確に特定することができる。また、実施例の方法は、図１０に示すように実行時間の観点で同等以上に優れている。

【0105】

FlickrLogos-32についての結果に関して、様々な縮尺の変化、視点の変化及びゆがみ等を起因として目標画像がクエリ画像とは異なっているため、このデータセットは最も処理が困難である。図８は、実施例の方法が精度に関して全ての他の方法より優れていることを示している。実行時間に関して、図１０に示すように、実施例の方法の利得はMNISTデータセットの場合に比べて大きい。これは、参照画像のサイズがMNISTのときより大きく、BBS及びMTMの実行時間は参照画像のサイズにほぼ線形性があるからである。実施例の方法の実行時間は、評価対象のウィンドウの数のみに依存し、図９に示すように、２つの基準となる方法よりかなり小さい。これは、より現実的で大きいサイズの画像に適用されるときに、実施例の方法の方が効率的であることを示している。

【0106】

定性的な結果に関して、図１１は、クエリ画像を特定するための検索パスを示している。実施例の方法は、検索パスを学習する優れた能力を有することが分かる。MNISTデータセットにおける結果は、クラッターのため検索レベルが困難になった場合であっても、ほぼ同じ数の評価される候補ウィンドウでクエリ画像の特定に成功することができることを示している。これは、実施例の方法が、マッチングのための検索パスと有効な特徴量とを一緒に学習するためである。

【0107】

＜実施例の効果＞
上記のように、本発明の実施例は、参照画像の中の領域に対してクエリ画像をマッチングする問題に対処する。当該方法は、各繰り返し回数において目標領域に向かって次の位置を順に出力するニューラルネットワーク（例えば、ＣＮＮ及びＬＳＴＭの組み合わせ）に基づいている。より具体的には、本発明の実施例は、参照画像のどこで次の領域を抽出するかを決定するために位置特定部を用いる。位置特定部の性能を最大化するために、本発明の実施例は、次の位置を予測するための強化学習に基づく技術を取り入れる。したがって、参照画像の関係する領域に着目することが可能になり、クエリ画像を特定するために必要なウィンドウ（候補領域）の数がかなり減少し、特に大きい参照画像の場合には、より高速な画像検索をもたらす。

【0108】

クエリ画像と参照画像との類似度に基づいて、検索パスと有効な特徴量とを一緒に学習することができるため、第１に、クエリ画像を特定するために処理される候補ウィンドウの数を既存の方法よりかなり小さくすることができ、特に大きい参照画像の場合にはより高速な画像検索をもたらす。第２に、評価結果から分かるように、相当な複雑背景のクラッターを有する参照画像であっても、クエリ画像を正確に特定することができる。

【0109】

＜ハードウェア構成＞
図１２に、本発明の実施例における各装置（検索装置１００又は学習装置２００）のハードウェア構成例を示す。各装置は、ＣＰＵ（Central Processing Unit）１５１等のプロセッサ、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等のメモリ装置１５２、ハードディスク等の記憶装置１５３等から構成されたコンピュータでもよい。例えば、各装置の機能及び処理は、記憶装置１５３又はメモリ装置１５２に格納されているデータやプログラムをＣＰＵ１５１が実行することによって実現される。また、各装置に必要な情報は、入出力インタフェース装置１５４から入力され、各装置において求められた結果は、入出力インタフェース装置１５４から出力されてもよい。

【0110】

＜補足＞
説明の便宜上、本発明の実施例に係る各装置（検索装置１００又は学習装置２００）は機能的なブロック図を用いて説明しているが、各装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係る各装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。

【0111】

以上、メディアデータにおける評価対象の候補領域の数を減少させ、メディアデータからクエリデータに一致する目標領域をより効率的に見つけることができるための手法について説明したが、本発明は、上記の実施例に限定されることなく、請求の範囲内において、種々の変更・応用が可能で。ある。

【0112】

本国際出願は２０１９年３月２６日に出願した日本国特許出願２０１９－０５９４３７号に基づく優先権を主張するものであり、２０１９－０５９４３７号の全内容を本国際出願に援用する。

【符号の説明】

【0113】

１００検索装置
１１０初期領域予測部
１２０第１の特徴抽出部
１３０第２の特徴抽出部
１４０位置特定部
１５０制御部
２００学習装置
２１０初期領域予測部
２２０第１の特徴抽出部
２３０第２の特徴抽出部
２４０位置特定部
２５０制御部
２６０学習部

【図1】