特表2024-519504 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2024-519504ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-14

(54)【発明の名称】ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索

(51)【国際特許分類】

G06F 16/583 20190101AFI20240507BHJP

【ＦＩ】

G06F16/583

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023567990

(86)(22)【出願日】2022-05-18

(85)【翻訳文提出日】2023-11-02

(86)【国際出願番号】 IB2022054647

(87)【国際公開番号】W WO2022243912

(87)【国際公開日】2022-11-24

(31)【優先権主張番号】63/189,956

(32)【優先日】2021-05-18

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/482,290

(32)【優先日】2021-09-22

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

２．ＢＬＵＥＴＯＯＴＨ

３．Ｗ－ＣＤＭＡ

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100141553

【弁理士】

【氏名又は名称】鈴木信彦

(72)【発明者】

【氏名】イジョンファ

(72)【発明者】

【氏名】ガーグプラッギャ

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA02

5B175FB03

5B175HB03

(57)【要約】

逆画像検索のための電子装置及び方法を提供する。電子装置は画像を受け取る。電子装置は、画像に関連する第１の画像特徴セットをＤＮＮモデルによって抽出し、第１の画像特徴セットに基づいて第１の特徴ベクトルを生成する。電子装置は、画像に関連する第２の画像特徴セットを画像特徴検出モデルによって抽出し、第２の画像特徴セットに基づいて第２の特徴ベクトルを生成する。電子装置は、第１及び第２の特徴ベクトルの結合に基づいて第３の特徴ベクトルを生成する。電子装置は、第３の特徴ベクトルと、予め記憶された画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定し、類似度メトリックに基づいて予め記憶された画像を識別する。電子装置は、予め記憶された画像に関連する情報を表示するようにディスプレイ装置を制御する。
【選択図】図１

【特許請求の範囲】

【請求項1】

電子装置であって、
第１の画像を受け取り、
前記受け取った第１の画像に関連する第１の画像特徴セットをディープニューラルネットワーク（ＤＮＮ）モデルによって抽出し、
前記抽出された第１の画像特徴セットに基づいて、前記受け取った第１の画像に関連する第１の特徴ベクトルを生成し、
前記受け取った第１の画像に関連する第２の画像特徴セットを画像特徴検出モデルによって抽出し、
前記抽出された第２の画像特徴セットに基づいて、前記受け取った第１の画像に関連する第２の特徴ベクトルを生成し、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの結合に基づいて、前記受け取った第１の画像に関連する第３の特徴ベクトルを生成し、
前記受け取った第１の画像に関連する前記生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定し、
前記決定された類似度メトリックに基づいて、前記予め記憶された第２の画像セットから予め記憶された第３の画像を識別し、
前記識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置を制御する、
ように構成された回路を備える、
ことを特徴とする電子装置。

【請求項2】

前記画像特徴検出モデルは、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルのうちの少なくとも１つを含む、
請求項１に記載の電子装置。

【請求項3】

前記第３の特徴ベクトルの前記生成は、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルの前記結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づく、
請求項１に記載の電子装置。

【請求項4】

前記類似度メトリックは、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含む、
請求項１に記載の電子装置。

【請求項5】

前記回路は、
前記ＤＮＮモデル及び前記画像特徴検出モデルとは異なる機械学習モデルによって、前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを決定し、
前記決定された第１の重み及び前記決定された第２の重みに基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合し、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成する、
ようにさらに構成される、請求項１に記載の電子装置。

【請求項6】

前記回路は、
前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを含むユーザ入力を受け取り、
前記受け取ったユーザ入力に基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合し、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成する、
ようにさらに構成される、請求項１に記載の電子装置。

【請求項7】

前記回路は、
前記ＤＮＮモデルによって、前記受け取った第１の画像を前記ＤＮＮモデルに関連する画像タグの組からの第１の画像タグに分類し、
前記ＤＮＮモデルに関連する訓練データセットにおいて前記第１の画像タグに関連する第１の画像カウントを決定し、
前記第１の画像タグに関連する前記決定された第１の画像カウントに基づいて、前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを決定し、
前記決定された第１の重み及び前記決定された第２の重みに基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合し、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成する、
ようにさらに構成される、請求項１に記載の電子装置。

【請求項8】

前記回路は、
前記抽出された第１の画像特徴セット又は前記抽出された第２の画像特徴セットの少なくとも一方に基づいて、前記受け取った第１の画像に関連する画質スコアを決定し、
前記決定された画質スコアに基づいて、前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを決定し、
前記決定された第１の重み及び前記決定された第２の重みに基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合し、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成する、
ようにさらに構成される、請求項１に記載の電子装置。

【請求項9】

前記画質スコアは、前記受け取った第１の画像に関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ、又はアーチファクトのうちの少なくとも１つに対応する、
請求項８に記載の電子装置。

【請求項10】

前記回路は、第１のビデオと、該第１のビデオに関連する予め記憶された第２のビデオに対応する前記識別された予め記憶された第３の画像とから前記第１の画像を抽出するようにさらに構成される、
請求項１に記載の電子装置。

【請求項11】

電子装置において、
第１の画像を受け取ることと、
前記受け取った第１の画像に関連する第１の画像特徴セットをディープニューラルネットワーク（ＤＮＮ）モデルによって抽出することと、
前記抽出された第１の画像特徴セットに基づいて、前記受け取った第１の画像に関連する第１の特徴ベクトルを生成することと、
前記受け取った第１の画像に関連する第２の画像特徴セットを画像特徴検出モデルによって抽出することと、
前記抽出された第２の画像特徴セットに基づいて、前記受け取った第１の画像に関連する第２の特徴ベクトルを生成することと、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの結合に基づいて、前記受け取った第１の画像に関連する第３の特徴ベクトルを生成することと、
前記受け取った第１の画像に関連する前記生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定することと、
前記決定された類似度メトリックに基づいて、前記予め記憶された第２の画像セットから予め記憶された第３の画像を識別することと、
前記識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置を制御することと、
を含むことを特徴とする方法。

【請求項12】

前記画像特徴検出モデルは、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルのうちの少なくとも１つを含む、
請求項１１に記載の方法。

【請求項13】

前記第３の特徴ベクトルの前記生成は、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルの前記結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づく、
請求項１１に記載の方法。

【請求項14】

前記類似度メトリックは、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含む、
請求項１１に記載の方法。

【請求項15】

前記ＤＮＮモデル及び前記画像特徴検出モデルとは異なる機械学習モデルによって、前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを決定することと、
前記決定された第１の重み及び前記決定された第２の重みに基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合することと、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成することと、
をさらに含む、請求項１１に記載の方法。

【請求項16】

前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを含むユーザ入力を受け取ることと、
前記受け取ったユーザ入力に基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合することと、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成することと、
をさらに含む、請求項１１に記載の方法。

【請求項17】

前記ＤＮＮモデルによって、前記受け取った第１の画像を前記ＤＮＮモデルに関連する画像タグの組からの第１の画像タグに分類することと、
前記ＤＮＮモデルに関連する訓練データセットにおいて前記第１の画像タグに関連する第１の画像カウントを決定することと、
前記第１の画像タグに関連する前記決定された第１の画像カウントに基づいて、前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを決定することと、
前記決定された第１の重み及び前記決定された第２の重みに基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合することと、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成することと、
をさらに含む、請求項１１に記載の方法。

【請求項18】

前記抽出された第１の画像特徴セット又は前記抽出された第２の画像特徴セットの少なくとも一方に基づいて、前記受け取った第１の画像に関連する画質スコアを決定することと、
前記決定された画質スコアに基づいて、前記生成された第１の特徴ベクトルに関連する第１の重みと、前記生成された第２の特徴ベクトルに関連する第２の重みとを決定することと、
前記決定された第１の重み及び前記決定された第２の重みに基づいて、前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとを結合することと、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの前記結合に基づいて前記第３の特徴ベクトルを生成することと、
をさらに含む、請求項１１に記載の方法。

【請求項19】

前記画質スコアは、前記受け取った第１の画像に関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ、又はアーチファクトのうちの少なくとも１つに対応する、
請求項１８に記載の方法。

【請求項20】

コンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、電子装置によって実行された時に、
第１の画像を受け取ることと、
前記受け取った第１の画像に関連する第１の画像特徴セットをディープニューラルネットワーク（ＤＮＮ）モデルによって抽出することと、
前記抽出された第１の画像特徴セットに基づいて、前記受け取った第１の画像に関連する第１の特徴ベクトルを生成することと、
前記受け取った第１の画像に関連する第２の画像特徴セットを画像特徴検出モデルによって抽出することと、
前記抽出された第２の画像特徴セットに基づいて、前記受け取った第１の画像に関連する第２の特徴ベクトルを生成することと、
前記生成された第１の特徴ベクトルと前記生成された第２の特徴ベクトルとの結合に基づいて、前記受け取った第１の画像に関連する第３の特徴ベクトルを生成することと、
前記受け取った第１の画像に関連する前記生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定することと、
前記決定された類似度メトリックに基づいて、前記予め記憶された第２の画像セットから予め記憶された第３の画像を識別することと、
前記識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置を制御することと、
を含む動作を前記電子装置に実行させる、ことを特徴とする非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願との相互参照／引用による組み入れ〕
本出願は、２０２１年５月１８日に出願された米国仮特許出願シリアル番号第６３／１８９，９５６号の優先権を主張するものであり、この文献の内容は全体が引用により本明細書に組み入れられる。

【0002】

本開示の様々な実施形態は、逆画像検索に関する。具体的には、本開示の様々な実施形態は、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための電子装置及び方法に関する。

【背景技術】

【0003】

情報通信技術の進歩は、様々なインターネットベースの画像検索システム（例えば、ウェブ検索エンジン）をもたらした。従来、ユーザは、入力画像を検索クエリとしてウェブ検索エンジンにアップロードすることができる。このような場合、ウェブ検索エンジンは、（逆画像検索法を使用して）インターネットから出力画像セットを提供することができる。出力画像セットは、入力画像に類似したものであることができる。このような逆画像検索法は、入力画像に類似する出力画像セットを決定するために機械学習モデルを採用することができる。場合によっては、機械学習モデルが入力画像内の１又は２以上のオブジェクトを誤分類した結果、出力画像セットが望ましくない又は無関係な画像を含んでしまう場合がある。

【発明の概要】

【発明が解決しようとする課題】

【0004】

当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。

【課題を解決するための手段】

【0005】

実質的に少なくとも１つの図に関連して図示及び／又は説明し、特許請求の範囲にさらに完全に示すような、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための電子装置及び方法を提供する。

【0006】

全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

【図面の簡単な説明】

【0007】

【図1】本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的なネットワーク環境を示すブロック図である。

【図2】本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な電子装置を示すブロック図である。

【図3】本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な動作を示す図である。

【図4】本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な方法を示すフローチャートである。

【発明を実施するための形態】

【0008】

逆画像検索の精度を高めるためにディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づいて逆画像検索を行うための開示する電子装置及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、逆画像検索のためのディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルを実装する電子装置を提供する。電子装置は、（ユーザが類似する画像を検索する必要がある画像などの）第１の画像を受け取ることができる。電子装置は、受け取った第１の画像に関連する第１の画像特徴セットをディープニューラルネットワーク（ＤＮＮ）モデルによって抽出し、抽出された第１の画像特徴セットに基づいて、受け取った第１の画像に関連する第１の特徴ベクトルを生成する。電子装置は、受け取った第１の画像に関連する第２の画像特徴セットを画像特徴検出モデルによって抽出し、抽出された第２の画像特徴セットに基づいて、受け取った第１の画像に関連する第２の特徴ベクトルを生成することができる。画像特徴検出モデルの例としては、以下に限定するわけではないが、スケール不変特徴変換（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ：ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（Ｓｐｅｅｄｅｄ－ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅ：ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯｒｉｅｎｔｅｄＦＡＳＴａｎｄＲｏｔａｔｅｄＢＲＩＥＦ：ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦａｓｔＬｉｂｒａｒｙｆｏｒＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ：ＦＬＡＮＮ）ベースのモデルを挙げることができる。画像特徴検出モデルは、ＤＮＮモデル１０８によって一部が誤検出及び／又は誤分類された可能性のある画像特徴を抽出することができる。

【0009】

電子装置は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像に関連する第３の特徴ベクトルをさらに生成することができる。ある例では、第３の特徴ベクトルの生成が、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づくことができる。電子装置は、受け取った第１の画像に関連する生成された第３の特徴ベクトルと、（データベースに記憶された画像などの）予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックをさらに決定することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。電子装置は、決定された類似度メトリックに基づいて、予め記憶された第２の画像セットから（受け取った第１の画像と同一又は同様の画像などの）予め記憶された第３の画像をさらに識別し、識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置を制御することができる。

【0010】

開示する電子装置は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像に関連する第３の特徴ベクトルを自動的に生成することができる。この結果、第３の特徴ベクトルは、ＤＮＮモデルによって決定できる第１の画像特徴セットと、画像特徴検出モデルによって決定できる第２の画像特徴セットとを含むことができる。第１の画像特徴セットは、受け取った第１の画像に関連する高水準画像特徴（例えば、目、鼻、耳、髪などの顔の特徴）を含み、第２の画像特徴セットは、受け取った第１の画像に関連する低水準画像特徴（例えば、顔のエッジ、ライン、輪郭）を含む。高水準画像特徴及び低水準画像特徴の両方を第３の特徴ベクトルに含めることで、類似する画像の識別を補完し合うことができる。例えば、受け取った第１の画像が、ＤＮＮモデルの訓練データセット内で十分に表現されていない画像である場合、第１の画像特徴セットは、受け取った第１の画像に類似する画像を予め記憶された第２の画像セットから識別できるほど十分なものでない可能性がある。しかしながら、第２の画像特徴セットは、受け取った第１の画像に関連する低水準画像特徴を含むことができるので、第２の画像特徴セットを第３の特徴ベクトルに含めることで、受け取った第１の画像に類似する画像を予め記憶された第２の画像セットから識別する精度を高めることができる。一方で、画像の品質が良くない場合（例えば、解像度が低い不鮮明な画像の場合）、第１の画像特徴セット（すなわち、高水準画像特徴）は、類似する画像を識別できるほど十分なものでない可能性がある。このような場合には、第２の画像特徴（すなわち、低水準画像特徴）の方が、類似する画像の識別にとって有用かつ正確な場合がある。

【0011】

図１は、本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的なネットワーク環境を示すブロック図である。図１にはネットワーク環境１００を示す。ネットワーク環境１００は、電子装置１０２、サーバ１０４、及びデータベース１０６を含むことができる。さらに、サーバ１０４に実装されたディープニューラルネットワーク（ＤＮＮ）モデル１０８及び画像特徴検出モデル１１０も示す。図１に示すように、データベース１０６には訓練データセット１１２を記憶することができる。電子装置１０２、サーバ１０４及びデータベース１０６は、通信ネットワーク１１４を介して互いに通信可能に結合することができる。さらに、電子装置１０２に関連するユーザ１１６も示す。図１には電子装置１０２及びサーバ１０４を２つの独立した装置として示しているが、いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ１０４の機能全体を電子装置１０２に組み込むこともできる。

【0012】

電子装置１０２は、第１の画像にＤＮＮモデル１０８及び画像特徴検出モデル１１０を実装することに基づいて第１の画像に類似する画像セットを識別して表示するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。電子装置１０２の例としては、以下に限定するわけではないが、画像検索エンジン、サーバ、パーソナルコンピュータ、ラップトップ、コンピュータワークステーション、メインフレームマシン、ゲーム装置、仮想現実（ＶＲ）／拡張現実（ＡＲ）／複合現実（ＭＲ）装置、スマートフォン、携帯電話機、コンピュータ装置、タブレット、及び／又はいずれかの消費者向け電子（ＣＥ）装置を挙げることができる。

【0013】

ＤＮＮモデル１０８は、画像特徴検出タスクに基づいて第１の画像内の第１の画像特徴セットを検出するように訓練できる深層畳み込みニューラルネットワークモデルとすることができる。ＤＮＮモデル１０８は、例えば（単複の）活性化関数、重みの数、コスト関数、正則化関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。ＤＮＮモデル１０８は、計算ネットワーク又は（ノードとも呼ばれる）人工ニューロンのシステムと呼ぶことができる。ＤＮＮモデル１０８のノードは、ＤＮＮモデル１０８のニューラルネットワークトポロジーで定められるような複数の層状に配置することができる。ＤＮＮモデル１０８の複数の層は、入力層、１又は２以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、１又は２以上のノード（又は人工ニューロン）を含むことができる。入力層における全てのノードの出力は、（単複の）隠れ層の少なくとも１つのノードに結合することができる。同様に、各隠れ層の入力は、ＤＮＮモデル１０８の他の層における少なくとも１つのノードの出力に結合することができる。各隠れ層の出力は、ＤＮＮモデル１０８の他の層における少なくとも１つのノードの入力に結合することができる。最終層の（単複の）ノードは、少なくとも１つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、ＤＮＮモデル１０８のハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセット１１２に基づくＤＮＮモデル１０８の訓練前又は訓練中に設定することができる。

【0014】

ＤＮＮモデル１０８の各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数（例えば、シグモイド関数又は正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ））に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、ＤＮＮモデル１０８の他の（単複の）層（例えば、前の（単複の）層）のノードからの１又は２以上の入力に基づいて、数学関数を使用して出力を計算することができる。ＤＮＮモデル１０８のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。

【0015】

ＤＮＮモデル１０８の訓練では、（訓練データセットからの）所与の入力に対する最終層の出力がＤＮＮモデル１０８の損失関数に基づく正しい結果に一致するかどうかに基づいてＤＮＮモデル１０８の各ノードの１又は２以上のパラメータを更新することができる。上記プロセスは、損失関数の最小値が達成されて訓練エラーが最小化されるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。

【0016】

ある実施形態では、ＤＮＮモデル１０８が、例えば電子装置１０２又はサーバ１０４上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。ＤＮＮモデル１０８は、電子装置１０２又はサーバ１１０などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック／命令に依拠することができる。ＤＮＮモデル１０８は、入力画像内の画像特徴を検出するための１又は２以上の動作を電子装置１０２又はサーバ１０４などのコンピュータ装置が実行できるようにするコンピュータ実行可能コード又はルーチンを含むことができる。これに加えて又は代えて、ＤＮＮモデル１０８は、プロセッサ、（例えば、１又は２以上の動作の実行又はその制御を行う）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。例えば、電子装置１０２（又はサーバ１０４）には、画像特徴検出タスクのためのＤＮＮモデル１０８の計算を加速させる推論アクセラレータチップを含めることができる。いくつかの実施形態では、ＤＮＮモデル１０８を、ハードウェア及びソフトウェアの両方の組み合わせを使用して実装することができる。ＤＮＮモデル１０８の例としては、以下に限定するわけではないが、人工ニューラルネットワーク（ＡＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、ＲｅｇｉｏｎｓｗｉｔｈＣＮＮ（Ｒ－ＣＮＮ）、ＦａｓｔＲ－ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ（ＹＯＬＯ）ネットワーク、残差ニューラルネットワーク（Ｒｅｓ－Ｎｅｔ）、特徴ピラミッドネットワーク（ＦＰＮ）、網膜ネット、シングルショット検出器（ＳＳＤ）、及び／又はこれらの組み合わせを挙げることができる。

【0017】

画像特徴検出モデル１１０は、第１の画像に関連する画像特徴を抽出するように構成された画像処理アルゴリズムとすることができる。画像特徴検出モデル１１０は、例えば画像特徴の数、エッジ閾値、重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。画像特徴検出モデル１１０のハイパーパラメータは、画像特徴検出モデル１１０のコスト関数の大域的極小値に向かうように調整することができ、重みもそのように更新することができる。画像特徴検出モデル１１０は、例えば電子装置１０２又はサーバ１０４上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。画像特徴検出モデル１１０は、電子装置１０２又はサーバ１０４などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック／命令に依拠することができる。画像特徴検出モデル１１０は、第１の画像に関連する画像特徴セットを抽出することなどの１又は２以上の動作を電子装置１０２又はサーバ１０４などのコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、画像特徴検出モデル１１０は、プロセッサ、（例えば、１又は２以上の動作の実行又はその制御を行う）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、画像特徴検出モデル１１０を、ハードウェアとソフトウェアとの組み合わせを使用して実装することもできる。画像特徴検出モデル１１０の例としては、以下に限定するわけではないが、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルを挙げることができる。

【0018】

サーバ１０４は、ＤＮＮモデル１０８及び画像特徴検出モデル１１０を記憶するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。サーバ１０４は、ＤＮＮモデル１０８を使用して第１の画像に関連する第１の特徴ベクトルを生成し、画像特徴検出モデル１１０を使用して第１の画像に関連する第２の特徴ベクトルを生成することができる。サーバ１０４は、ＤＮＮモデル１０８及び画像特徴検出モデル１１０とは異なる機械学習モデルをさらに記憶することができる。記憶された機械学習モデルは、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを決定するように構成することができる。例示的な実施形態では、サーバ１０４がクラウドサーバとして実装され、ウェブアプリケーション、クラウドアプリケーション、ＨＴＴＰリクエスト、リポジトリ操作及びファイル転送などを通じて動作を実行することができる。サーバ１０４の他の実装例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。

【0019】

少なくとも１つの実施形態では、当業者に周知の複数の技術を使用することにより、サーバ１０４を複数の分散型クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲を２つの別個のエンティティとしてのサーバ１０４及び電子装置１０２の実装に限定しないこともできると理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ１０４の機能を全体的に又は少なくとも部分的に電子装置１０２に組み込むこともできる。

【0020】

データベース１０６は、ＤＮＮモデル１０８のための訓練データセット１１２を記憶するように構成できる好適なロジック、インターフェイス及び／又はコードを含むことができる。訓練データセット１１２は、予め記憶された訓練画像セット、及び予め記憶された訓練画像セットの各画像に割り当てられた所定のタグを含むことができる。特定の訓練画像に割り当てられる所定のタグは、特定の訓練画像について予め決定しておくことができる画像特徴に対応するラベルを含むことができる。ＤＮＮモデル１０８は、訓練データセット１１２に基づいて画像特徴検出タスクのために予め訓練することができる。ある実施形態では、データベース１０６を、予め記憶された第２の画像セットを記憶するようにさらに構成することができる。データベース１０６は、リレーショナルデータベース又は非リレーショナルデータベースとすることができる。また、いくつかの事例では、データベース１０６をクラウドサーバなどのサーバ（例えば、サーバ１０４）上に記憶し、又は電子装置１０２上にキャッシュして記憶することもできる。これに加えて又は代えて、データベース１０６は、プロセッサ、（例えば、１又は２以上の動作の実行又はその制御を行う）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。他のいくつかの事例では、データベース１０６を、ハードウェアとソフトウェアとの組み合わせを使用して実装することができる。

【0021】

通信ネットワーク１１４は、電子装置１０２、サーバ１０４及びデータベース１０６が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク１１４の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、（無線ローカルエリアネットワーク）ＷＬＡＮ、ローカルエリアネットワーク（ＬＡＮ）、電話回線（ＰＯＴＳ）、及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。ネットワーク環境１００内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク１１４に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラー通信プロトコル、又はＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルのうちの少なくとも１つ、或いはこれらの組み合わせを挙げることができる。

【0022】

動作中、電子装置１０２は、逆画像検索クエリを開始することができる。ある実施形態では、逆画像検索を、（図２に示す）ディスプレイ装置を介して受け取られたユーザ入力に基づいて開始することができる。電子装置１０２は、逆画像検索の開始時に第１の画像を画像検索クエリとして受け取るように構成することができる。例えば、第１の画像は、ユーザ入力に基づいて電子装置１０２の（図２に示す）Ｉ／Ｏ装置を通じてアップロードされた画像に対応することができる。第１の画像は、前景又は背景オブジェクトが固定された静止画像、又はビデオから抽出された画像に関連することができる。電子装置１０２は、受け取った第１の画像に関連する第１の画像特徴セットをＤＮＮモデル１０８によって抽出するように構成することができる。電子装置１０２は、受け取った第１の画像に関連する第２の画像特徴セットを画像特徴検出モデル１１０によって抽出するように構成することができる。第１の画像特徴セット及び第２の画像特徴セットの詳細については、例えば図３に示す。画像特徴検出モデル１１０の例としては、以下に限定するわけではないが、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルを挙げることができる。

【0023】

電子装置１０２は、抽出された第１の画像特徴セットに基づいて、受け取った第１の画像に関連する第１の特徴ベクトルを生成するようにさらに構成することができる。電子装置１０２は、抽出された第２の画像特徴セットに基づいて、受け取った第１の画像に関連する第２の特徴ベクトルを生成するようにさらに構成することができる。受け取った第１の画像に関連する第１の特徴ベクトルは、第１の画像特徴セットに関する情報を含むことができるベクトルとすることができ、受け取った第１の画像に関連する第２の特徴ベクトルは、第２の画像特徴セットに関する情報を含むことができるベクトルとすることができる。電子装置１０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像に関連する第３の特徴ベクトルを生成するようにさらに構成することができる。第３の特徴ベクトルは、以下に限定するわけではないが、生成された第１の特徴ベクトル及び生成された第２のベクトルを含む。ある実施形態では、第３の特徴ベクトルの生成が、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づくことができる。第３の特徴ベクトルの生成の詳細については、例えば図３で説明する。

【0024】

電子装置１０２は、受け取った第１の画像に関連する生成された第３の特徴ベクトルと、（データベース１０６に記憶された画像などの）予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。電子装置１０２は、決定された類似度メトリックに基づいて、予め記憶された第２の画像セットから（受け取った第１の画像と同一又は同様の画像などの）予め記憶された第３の画像を識別するように構成することができる。電子装置１０２は、識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置を制御するようさらに構成することができる。類似度メトリックの決定及び予め記憶された第３の画像の識別の詳細については、例えば図３でさらに説明する。

【0025】

図２は、本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な電子装置を示すブロック図である。図２の説明は、図１の要素に関連して行う。図２には、電子装置１０２のブロック図２００を示す。電子装置１０２は、回路２０２、メモリ２０４、入力／出力（Ｉ／Ｏ）装置２０６、及びネットワークインターフェイス２０８を含むことができる。Ｉ／Ｏ装置２０６は、ディスプレイ装置２１０をさらに含むことができる。ネットワークインターフェイス２０８は、通信ネットワーク１１４を介して電子装置１０２をサーバ１０４及びデータベース１０６に接続することができる。

【0026】

回路２０２は、電子装置１０２によって実行される異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。回路２０２は、独立したプロセッサとして実装できる１又は２以上の特殊処理ユニットを含むことができる。ある実施形態では、１又は２以上の特殊処理ユニットを、１又は２以上の特殊処理ユニットの機能をまとめて実行するように構成できる統合プロセッサ又はプロセッサ群として実装することができる。回路２０２は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。回路２０２の実装例は、Ｘ８６ベースのプロセッサ、グラフィックプロセッシングユニット（ＧＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、マイクロコントローラ、中央処理装置（ＣＰＵ）、及び／又はその他の制御回路とすることができる。

【0027】

メモリ２０４は、回路２０２によって実行されるプログラム命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。少なくとも１つの実施形態では、メモリ２０４を、ＤＮＮモデル１０８及び画像特徴検出モデル１１０を記憶するように構成することができる。メモリ２０４は、以下に限定するわけではないが、類似度メトリック、ＤＮＮモデル１０８及び画像特徴検出モデル１１０とは異なる機械学習モデル（例えば、図３の機械学習モデル３１６）、生成された第１の特徴ベクトルに関連する第１の重み、及び生成された第２の特徴ベクトルに関連する第２の重みのうちの１つ又は２つ以上を記憶するように構成することができる。ある実施形態では、メモリ２０４が、第１の画像、及び識別された予め記憶された第３の画像を記憶することができる。メモリ２０４の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的に消去可能なプログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードなどを挙げることができる。

【0028】

Ｉ／Ｏ装置２０６は、入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。Ｉ／Ｏ装置２０６は、回路２０２と通信するように構成できる様々な入力及び出力装置を含むことができる。ある例では、電子装置１０２が、逆画像検索クエリを含むユーザ入力を（Ｉ／Ｏ装置２０６を介して）受け取ることができる。逆画像検索クエリは、第１の画像を含むことができる。別の例では、電子装置１０２が、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを含むユーザ入力を（Ｉ／Ｏ装置２０６を介して）受け取ることができる。電子装置１０２は、識別された予め記憶された第３の画像を出力するようにＩ／Ｏ装置２０６を制御することができる。Ｉ／Ｏ装置２０６の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、ディスプレイ装置（例えば、ディスプレイ装置２１０）、マイク、又はスピーカを挙げることができる。

【0029】

ディスプレイ装置２１０は、電子装置１０２の出力を表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ディスプレイ装置２１０は、識別された予め記憶された第３の画像に関連する情報を表示するために利用することができる。いくつかの実施形態では、ディスプレイ装置２１０を、電子装置１０２に関連する外部結合ディスプレイ装置とすることができる。ディスプレイ装置２１０は、ユーザ１１６がディスプレイ装置２１０を介してユーザ入力を提供できるようにするタッチ画面とすることができる。タッチ画面は、抵抗膜式タッチ画面、静電容量式タッチ画面、熱式タッチ画面、或いはディスプレイ装置２１０に入力を提供するために使用できる他のいずれかのタッチ画面のうちの少なくとも１つとすることができる。ディスプレイ装置２１０は、以下に限定するわけではないが、液晶ディスプレイ（ＬＣＤ）ディスプレイ、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイ、又は有機ＬＥＤ（ＯＬＥＤ）ディスプレイ技術、又はその他のディスプレイ装置のうちの少なくとも１つなどの複数の既知の技術を通じて実現することができる。

【0030】

ネットワークインターフェイス２０８は、通信ネットワーク１１４を介した電子装置１０２、サーバ１０４及びデータベース１０６の間の通信を容易にするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。ネットワークインターフェイス２０８は、様々な既知の技術を使用して通信ネットワーク１１２との間の電子装置１０２の有線又は無線通信をサポートするように実装することができる。ネットワークインターフェイス２０８は、以下に限定するわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ－デコーダ（ＣＯＤＥＣ）チップセット、加入者ＩＤモジュール（ＳＩＭ）カード、又はローカルバッファ回路を含むことができる。

【0031】

ネットワークインターフェイス２０８は、インターネット、イントラネット、無線ネットワーク、セルラー電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）又はメトロポリタンエリアネットワーク（ＭＡＮ）などのネットワークと有線通信、無線通信又はこれらの組み合わせを介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多重アクセス（Ｗ－ＣＤＭＡ）、ロングタームエボリューション（ＬＴＥ）、符号分割多重アクセス（ＣＤＭＡ）、時分割多重アクセス（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、（ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ又はＩＥＥＥ８０２．１１ｎなどの）ワイヤレスフィデリティ（ＷｉＦｉ）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、ライトフィデリティ（Ｌｉ－Ｆｉ）、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス（Ｗｉ－ＭＡＸ）、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス（ＳＭＳ）などの複数の通信標準、プロトコル及び技術のうちの１つ又は２つ以上を使用するように構成することができる。

【0032】

回路２０２の動作については、例えば図３及び図４でさらに説明する。なお、図２に示す電子装置１０２は、他の様々なコンポーネント又はシステムを含むこともできる。電子装置１０２の他のコンポーネント又はシステムの説明については、簡潔にするために本開示からは省略する。

【0033】

図３は、本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な動作を示す図である。図３の説明は、図１及び図２の要素に関連して行う。図３には、ＤＮＮモデル１０８及び画像特徴検出モデル１１０に基づく逆画像検索のための３０２～３１４の例示的な動作を示すブロック図３００を示す。例示的な動作は、例えば図１の電子装置１０２又は図２の回路２０２などのいずれかのコンピュータシステムによって実行することができる。

【0034】

３０２において、第１の画像を受け取ることができる。ある実施形態では、回路２０２を、第１の画像を受け取るように構成することができる。例えば、第１の画像３０２Ａを受け取ることができる。第１の画像３０２Ａは、例えば電子装置１０２上の（メモリ２０４のような）永続記憶装置、画像取り込み装置、クラウドサーバ、又はこれらの組み合わせなどのデータソースから受け取ることができる。第１の画像３０２Ａは、ユーザ１１６が逆画像検索を使用して同様又は同一の画像結果を必要とし得る関心オブジェクトを含むことができる。或いは、第１の画像３０２Ａは、第１のビデオの一連の画像からの画像に対応することもできる。回路２０２は、第１のビデオから第１の画像３０２Ａを抽出するように構成することができる。第１のビデオは、ユーザ１１６が逆画像検索を使用して同様又は同一のビデオ結果を必要とする関心オブジェクトを含むビデオに対応することができる。第１の画像３０２Ａは、前景又は背景が固定された画像を表すことができる。例えば、図示のように、第１の画像３０２Ａは、映画のワンシーン（例えば、図３に示すような、関心オブジェクトとしてのスパイダーマンの画像）を表すことができる。

【0035】

回路２０２は、第１の画像３０２Ａを受け取った後に、受け取った第１の画像３０２Ａを画像特徴抽出のためにＤＮＮモデル１０８及び画像特徴検出モデル１１０に入力することができる。回路２０２は、ＤＮＮモデル１０８を使用して、例えば３０４で説明するように第１の画像３０２Ａに関連する第１の画像特徴セットを抽出することができる。さらに、回路２０２は、画像特徴検出モデル１１０を使用して、例えば３０６で説明するように第１の画像３０２Ａに関連する第２の画像特徴セットを抽出することができる。動作３０４及び３０６は、本開示の範囲から逸脱することなくあらゆる順序で実行することができる。

【0036】

３０４において、第１の画像特徴を抽出することができる。ある実施形態では、回路２０２を、受け取った第１の画像３０２Ａに関連する第１の画像特徴セットを（ＤＮＮモデル１０８などの）ディープニューラルネットワーク（ＤＮＮ）モデルによって抽出するように構成することができる。抽出される第１の画像特徴セットは、受け取った第１の画像３０２Ａ内の１又は２以上のオブジェクトに関連する固有の特徴に対応することができる。ＤＮＮモデル１０８は、予め記憶された訓練画像セットのうちの所定のタグが割り当てられた訓練データセット１１２に基づいて画像特徴抽出タスクのために予め訓練することができる。特定の訓練画像に割り当てられる所定のタグは、特定の訓練画像について予め決定しておくことができる画像特徴に対応するラベルを含むことができる。回路２０２は、ＤＮＮモデル１０８に第１の画像３０２Ａを入力として供給し、ＤＮＮモデル１０８によって第１の画像３０２Ａに対して実行された画像特徴検出タスクに基づいて、ＤＮＮモデル１０８からの出力として第１の画像特徴セット（すなわち、第１の画像３０２Ａに関連する画像特徴セット）を受け取ることができる。

【0037】

ある実施形態では、抽出される第１の画像特徴セットが、含まれている各オブジェクトを特定のオブジェクトクラスに分類するために必要とされる情報を含むことができる。抽出される第１の画像特徴セットの例としては、以下に限定するわけではないが、形状、テクスチャ、色、及びその他の高水準画像特徴を挙げることができる。例えば、図３に示すように、第１の画像３０２Ａに関連する抽出された第１の画像特徴３０４Ａは、（スパイダーマンの顔などの）関心オブジェクト上のグレイシェードとして示す色を含むことができる。例えば、第１の画像３０２Ａにおいてスパイダーマン又はその他の人物／キャラクタなどの人物の顔が関心オブジェクトである場合、第１の画像特徴セット３０４Ａは、目の形、耳の形、鼻の形、及び人物／キャラクタの他の高水準な顔の細部の形／テクスチャを含むことができる。ＤＮＮモデル１０８による第１の画像特徴セットの抽出の詳細な実装は当業者に周知であると考えられ、従ってこのような第１の画像特徴セットの抽出の詳細な説明については、簡潔にするために本開示からは省略する。

【0038】

回路２０２は、抽出された第１の画像特徴セットに基づいて、受け取った第１の画像３０２Ａに関連する第１の特徴ベクトルを生成するように構成することができる。このような第１の特徴ベクトルは、固有の第１の画像特徴セットと呼ぶこともできる。生成された第１の特徴ベクトルは、それぞれが抽出された第１の画像特徴セットからの画像特徴に対応できる複数のベクトル要素を含むことができる。第１の特徴ベクトルの各ベクトル要素は、第１の画像特徴セットからの特定の第１の画像特徴に対応できる値を記憶することができる。例えば、受け取った第１の画像３０２Ａが高精細画像（例えば、「１０２４×１０２４」画素の画像）である場合、第１の特徴ベクトルは、２０４８個のベクトル要素を有する「１×２０４８」ベクトルであることができる。第１の特徴ベクトルのｉ番目の要素は、ｉ番目の第１の画像特徴の値を表すことができる。

【0039】

３０６において、第２の画像特徴セットを抽出することができる。ある実施形態では、回路２０２を、受け取った第１の画像３０２Ａに関連する第２の画像特徴セットを（画像特徴検出モデル１１０などの）画像特徴検出モデルによって抽出するように構成することができる。抽出される第２の画像特徴セットは、受け取った第１の画像３０２Ａに含まれる１又は２以上のオブジェクトに関連する特定の固有の特徴に対応することができる。いくつかの実施形態では、第２の画像特徴セットは、（例えば、３０４において）ＤＮＮモデル１０８によって誤検出された又は未検出のままである可能性がある画像特徴とすることができる。ある実施形態では、抽出される第２の画像特徴セットが、（第１の画像３０２Ａ内の）各オブジェクトを特定のオブジェクトクラスに最適に分類するために必要とされる情報を含むことができる。第２の画像特徴セットの例としては、以下に限定するわけではないが、エッジ、ライン、輪郭及びその他の低水準画像特徴を挙げることができる。画像特徴検出モデル１１０の例としては、以下に限定するわけではないが、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルを挙げることができる。これらの例示的な方法の詳細な実装は当業者に周知であると考えられ、従ってこのような方法の詳細な説明については、簡潔にするために本開示からは省略する。例えば、図３に示すように、第１の画像３０２Ａに関連する第２の画像特徴セット３０６Ａは、ＳＩＦＴベースのモデルに基づいて抽出された第２の画像特徴セットを示し、第１の画像３０２Ａに関連する第２の画像特徴セット３０６Ｂは、ＳＵＲＦベースのモデルに基づいて抽出された第２の画像特徴セットを示す。例えば、第１の画像３０２Ａ内のスパイダーマン又は他のいずれかの人物／キャラクタなどの人物の顔が関心オブジェクトである場合、第２の画像特徴セット３０６Ａ（又は第２の画像特徴セット３０６Ｂ）は、目のエッジ及び輪郭、耳のエッジ及び輪郭、鼻のエッジ及び輪郭、並びに人物／キャラクタの他の低水準な顔の詳細を含むことができる。

【0040】

回路２０２は、抽出された第２の画像特徴セットに基づいて、受け取った第１の画像３０２Ａに関連する第２の特徴ベクトルを生成するようにさらに構成することができる。このような第２の特徴ベクトルは、固有の第２の画像特徴セットと呼ぶこともできる。生成された第２の特徴ベクトルは、それぞれが抽出された第２の画像特徴セットからの画像特徴に対応できる複数のベクトル要素を含むことができる。第２の特徴ベクトルの各ベクトル要素は、第２の画像特徴セットからの特定の第２の画像特徴に対応できる値を記憶することができる。例えば、受け取った第１の画像３０２Ａが高精細画像（例えば、「１０２４×１０２４」画素の画像）である場合、第２の特徴ベクトルは、２０４８個のベクトル要素を有する「１×２０４８」ベクトルであることができる。第２の特徴ベクトルのｉ番目の要素は、ｉ番目の第２の画像特徴の値を表すことができる。

【0041】

３０８において、特徴ベクトルを結合することができる。ある実施形態では、回路２０２を、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像３０２Ａに関連する第３の特徴ベクトルを生成するように構成することができる。ある実施形態では、回路２０２を、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを自動的に結合するように構成することができる。例えば、受け取った第１の画像３０２Ａが高精細画像（例えば、「１０２４×１０２４」画素の画像）である場合、第１の特徴ベクトルは、２０４８個のベクトル要素を有する「１×２０４８」ベクトルであることができ、第２の特徴ベクトルも、２０４８個のベクトル要素を有する「１×２０４８」ベクトルであることができる。このような場合、第３の特徴ベクトルは、４０９６個のベクトル要素を有する「１×４０９６」ベクトルであることができる。

【0042】

ある実施形態では、回路２０２を、機械学習モデル３１６（すなわち、ＤＮＮモデル１０８及び画像特徴検出モデル１１０とは異なる機械学習モデル）によって、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを決定するように構成することができる。機械学習モデル３１６は、同様のサイズの特徴ベクトルセットに基づいて訓練できる回帰モデルとすることができ、各ベクトルにはユーザが定義した重み値をタグ付けすることができる。機械学習モデル３１６は、特徴ベクトル重み割り当てタスクに基づいて訓練することができ、ここでは、機械学習モデル３１６が、２つの同様のサイズの特徴ベクトルセットを入力として受け取り、２つの同様のサイズの特徴ベクトルセットの各々の重みを出力することができる。機械学習モデル３１６は、例えば重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。機械学習モデル３１６のハイパーパラメータは、機械学習モデル３１６のコスト関数の大域的極小値に向かうように調整することができ、重みもそのように更新することができる。機械学習モデル３１６は、訓練データセット内の特徴情報に基づく数エポックの訓練後に、入力セットの重み値を出力するように訓練することができる。この出力は、入力セットの各入力（例えば、第１の特徴ベクトル及び第２の特徴ベクトル）の重み値を示すことができる。

【0043】

機械学習モデル３１６は、例えば電子装置１０２上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。機械学習モデル３１６は、回路２０２などのプロセッサを含むコンピュータ装置による実行のためにライブラリ、外部スクリプト又は他のロジック／命令に依拠することができる。機械学習モデル３１６は、第１の特徴ベクトルに関連する第１の重みの決定、及び第２の特徴ベクトルに関連する第２の重みの決定のための１又は２以上の動作を回路２０２などのプロセッサを含むコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、機械学習モデル３１６は、プロセッサ、（例えば、１又は２以上の動作の実行又はその制御を行う）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、機械学習モデル３１６を、ハードウェアとソフトウェアとの組み合わせを使用して実装することができる。

【0044】

生成された第１の特徴ベクトルに関連する第１の重み及び生成された第２の特徴ベクトルに関連する第２の重みの各々は、画像内の関心オブジェクトの識別、従って関心オブジェクトを含むことができる類似する画像の識別のためのそれぞれの特徴ベクトルの信頼性の尤度を示すことができる。第１の重み及び第２の重みは、信頼性のための信頼値を（０～１の確率値で）指定することができる。従って、信頼性の高い特徴ベクトルほど高い重み値を有することができる。例えば、受け取った第１の画像３０２Ａが高解像度画像であり、抽出された第１の画像特徴セットの方が抽出された第２の画像特徴セットよりも精密である場合、生成された第１の特徴ベクトルは生成された第２の特徴ベクトルよりも高い信頼性を有することができる。このような例では、生成された第１の特徴ベクトルに関連する第１の重みが、生成された第２の特徴ベクトルに関連する第２の重み（例えば、０．４値）と比べて高い重み値（例えば、０．６値）を有することができる。対照的に、受け取った第１の画像３０２Ａが低解像度画像であり、抽出された第２の画像特徴セットの方が抽出された第１の画像特徴セットよりも精密である場合、生成された第２の特徴ベクトルは、生成された第１の特徴ベクトルよりも高い信頼性を有することができる。このような例では、生成された第１の特徴ベクトルに関連する第１の重みが、生成された第２の特徴ベクトルに関連する第２の重み（例えば、０．６値）と比べて低い重み値（例えば、０．４値）を有することができる。さらに、受け取った第１の画像３０２Ａが中解像度画像（例えば、標準解像度画像）である場合、生成された第１の特徴ベクトルに関連する第１の重みは、生成された第２の特徴ベクトルに関連する第２の重み（例えば、０．５値）と比べて等しい重み値（例えば、０．５）を有することができる。回路２０２は、決定された第１の重み及び決定された第２の重みに基づいて、生成された第１の特徴ベクトル及び生成された第２の特徴ベクトルを結合し、この結合に基づいて第３の特徴ベクトルをさらに生成するようにさらに構成することができる。

【0045】

ある実施形態では、回路２０２を、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを含むユーザ入力を受け取るように構成することができる。ある例では、受け取ったユーザ入力が、生成された第１の特徴ベクトルに関連する第１の重みを「０．４」として示すことができ、この結果、回路２０２は、生成された第２の特徴ベクトルに関連する第２の重みを「０．６」として決定するように構成することができる。別の例では、受け取ったユーザ入力が、生成された第１の特徴ベクトルに関連する第１の重みを「０．５」として示し、生成された第２の特徴ベクトルに関連する第２の重みを「０．５」として示すことができる。回路２０２は、受け取ったユーザ入力に基づいて、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを結合し、この結合に基づいて第３の特徴ベクトルをさらに生成するようにさらに構成することができる。

【0046】

ある実施形態では、回路２０２を、ＤＮＮモデル１０８によって、受け取った第１の画像３０２ＡをＤＮＮモデル１０８に関連する画像タグの組からの第１の画像タグに分類するように構成することができる。第１の画像タグは、受け取った第１の画像３０２Ａが属することができる画像タグを指定することができる。例えば、受け取った第１の画像３０２Ａは、スパイダーマンのキャラクタなどの画像タグを有することができる。回路２０２は、ＤＮＮモデル１０８に関連する（訓練データセット１１２などの）訓練データセット内で、第１の画像タグに関連する第１の画像カウントを決定するようにさらに構成することができる。例えば、回路２０２は、第１の画像タグを、訓練データセット１１２内の予め記憶された訓練画像セットからの予め記憶された訓練画像の画像タグと比較することができる。訓練データセット１１２内の予め記憶された訓練画像の画像タグが第１の画像タグに一致する場合、回路２０２は、第１の画像タグに関連する第１の画像カウントを１だけ増分する。同様に、回路２０２は、訓練データセット１１２内の予め記憶された訓練画像の各々の画像タグと第１の画像タグとの比較に基づいて第１の画像カウントを決定することができる。回路２０２は、第１の画像タグに関連する決定された第１の画像カウントに基づいて、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを決定するようにさらに構成することができる。例えば、訓練データセット１１２内の第１の画像カウントが一定の閾値（例えば、訓練データセット１１２内の全画像の閾値カウント又はパーセンテージ）よりも高い場合、生成された第１の特徴ベクトルに関連する第１の重みは、生成された第２の特徴ベクトルに関連する第２の重みと比べて高い重み値を有することができる。対照的に、訓練データセット１１２内の第１の画像カウントが閾値又は公称値（例えば、１００万の画像の訓練データセット１１２内の数百の画像などの容易に無視できる値）よりも低い場合、生成された第１の特徴ベクトルに関連する第１の重みは、生成された第２の特徴ベクトルに関連する第２の重みと比べて低い重み値を有することができる。回路２０２は、決定された第１の重み及び決定された第２の重みに基づいて、生成された第１の特徴ベクトル及び生成された第２の特徴ベクトルを結合して第３の特徴ベクトルを生成し、この結合に基づいて第３の特徴ベクトルをさらに生成するように構成することができる。

【0047】

ある実施形態では、回路２０２を、抽出された第１の画像特徴セット又は抽出された第２の画像特徴セットの少なくとも一方に基づいて、受け取った第１の画像３０２Ａに関連する画質スコアを決定するように構成することができる。画質スコアは、受け取った第１の画像３０２Ａの忠実度に関連する定性的値を示すことができる。画質スコアが高ければ高いほど、受け取った第１の画像３０２Ａの忠実度が高いことを示すことができる。画質スコアは、以下に限定するわけではないが、受け取った第１の画像３０２Ａに関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現（ｔｏｎｅｒｅｐｒｏｄｕｃｔｉｏｎ）、コントラスト、彩度、歪曲収差、口径食（ｖｉｇｎｅｔｔｉｎｇ）、露光精度、色収差、レンズフレア、色モアレ（ｃｏｌｏｒｍｏｉｒｅ）、又はアーチファクトに対応することができる。鮮明さは、受け取った第１の画像３０２Ａに関連する画像特徴に関連する詳細に対応することができる。例えば、受け取った第１の画像３０２Ａの画素数又はフォーカスが高い場合、受け取った第１の画像３０２Ａの鮮明さは高いものであることができる。ノイズは、受け取った第１の画像３０２Ａにおける画素レベルでの望ましくない変動などの、受け取った第１の画像３０２Ａにおける外乱に対応することができる。ダイナミックレンジは、受け取った第１の画像３０２Ａ内に取り込まれた光の最も明るい陰影と最も暗い陰影との間の階調差（ｔｏｎａｌｄｉｆｆｅｒｅｎｃｅ）の量に対応することができる。階調再現は、受け取った第１の画像３０２Ａ内に取り込まれた光の量と、受け取った第１の画像３０２Ａが曝される光の量との間の相関に対応することができる。コントラストは、受け取った第１の画像３０２Ａにおける色変化の量に対応することができる。彩度は、受け取った第１の画像３０２Ａにおける色の強さに対応することができる。歪曲収差は、受け取った第１の画像３０２Ａにおける望ましくない画素変化に対応することができる。口径食は、受け取った第１の画像３０２Ａの中央部と比較した、受け取った第１の画像３０２Ａの隅部からの黒化、鮮明さの低下又は彩度の低下に対応することができる。露光精度は、受け取った第１の画像３０２Ａを最適な明度で取り込むことに対応することができる。色収差は、受け取った第１の画像３０２Ａにおける色の歪みに対応することができる。レンズフレアは、明るい光に対する画像取り込み装置の反応に対応することができる。色モアレは、受け取った第１の画像３０２Ａに現れる反復的色縞（ｒｅｐｅｔｉｔｉｖｅｃｏｌｏｒｓｔｒｉｐｅｓ）に対応することができる。受け取った第１の画像３０２Ａに関連するアーチファクトは、受け取った第１の画像３０２Ａ内に存在し得るいずれかの仮想オブジェクトに対応することができる。

【0048】

回路２０２は、決定された画質スコアに基づいて、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを決定するようにさらに構成することができる。例えば、決定された画質スコアが高い場合、生成された第１の特徴ベクトルに関連する第１の重みには、生成された第２の特徴ベクトルに関連する第２の重みと比べて高い重み値を割り当てることができる。対照的に、決定された画質スコアが低い又はわずか（ｎｏｍｉｎａｌ）である場合、生成された第１の特徴ベクトルに関連する第１の重みには、生成された第２の特徴ベクトルに関連する第２の重みと比べて低い重み値を割り当てることができる。ある実施形態では、画質スコアが閾値を上回る場合、決定される第１の重みは決定される第２の重みよりも高いことができる。閾値は、例えば「０．４」、「０．６」及び「０．８」などの画質スコアを含むことができる。ある実施形態では、回路２０２を、画質スコアの閾値を設定するユーザ入力を受け取るように構成することができる。別の実施形態では、回路２０２を、画質スコアの閾値を自動的に設定するように構成することができる。回路２０２は、決定された第１の重み及び決定された第２の重みに基づいて、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを結合するように構成することができる。その後、回路２０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて第３の特徴ベクトルを生成するようにさらに構成することができる。

【0049】

３１０において、次元性を低減することができる。ある実施形態では、回路２０２を、生成された第３の特徴ベクトルの次元性を低減するように構成することができる。いくつかの実施形態では、回路２０２が、生成された第３の特徴ベクトルを特徴抽出器の入力層のサイズに一致するようにサイズ変更（又は圧縮）し、サイズ変更された生成された第３の特徴ベクトルを特徴抽出器の入力層に受け渡すことができる。これにより、生成された第３の特徴ベクトルから望ましくない情報又は反復的情報を低減することができる。第３の特徴ベクトルの生成は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づくことができる。例えば、生成された第３のベクトルが４０９６個のベクトル要素を有する「１×４０９６」ベクトルである場合、ＰＣＡ変換の適用後には、生成された第３のベクトルを、２５６個のベクトル要素を有する「１×２５６」ベクトルに縮小することができる。ＰＣＡ変換の詳細な実装は当業者に周知であると考えられ、従ってこのような変換の詳細な説明については、簡潔にするために本開示からは省略する。

【0050】

３１２において、類似度メトリックを決定することができる。ある実施形態では、回路２０２を、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。予め記憶された第２の画像セットはデータベース１０６に記憶することができる。ある実施形態では、回路２０２を、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルを生成するように構成することができる。例えば、回路２０２は、予め記憶された第２の画像セットの各画像にＤＮＮモデル１０８、画像特徴検出モデル１１０、又はこれらの両方の組み合わせを適用して、それぞれの予め記憶された第２の画像の第４の特徴ベクトルを生成することができる。別の例では、各それぞれの予め記憶された第２の画像の第４の特徴ベクトルを予め決定して、それぞれの予め記憶された第２の画像と共にデータベース１０６に予め記憶しておくことができる。類似度メトリックは、受け取った第１の画像３０２Ａに類似する画像を予め記憶された第２の画像セットから決定するための類似度尺度に対応することができる。このような事例では、類似する画像を識別するために、決定された類似度メトリックに基づいて、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルを予め記憶された第２の画像セットの各画像の第４の特徴ベクトルと比較することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。コサイン距離類似度では、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間のコサイン距離を決定することができる。例えば、特定の予め記憶された第２の画像の第４の特徴ベクトルが生成された第３のベクトルに対して小さなコサイン距離を有する場合、この特定の予め記憶された第２の画像を、受け取った第１の画像３０２Ａに類似する画像のうちの１つとして識別することができる。

【0051】

３１４において、類似する画像を識別することができる。ある実施形態では、回路２０２を、決定された類似度メトリックに基づいて、予め記憶された第３の画像を予め記憶された第２の画像セットからの類似する画像として識別するように構成することができる。例えば、回路２０２は、類似度メトリックに基づいて、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルを、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルと比較することができる。類似度メトリックに基づいて、特定の予め記憶された第２の画像の第４の特徴ベクトルが、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルに一致すると判定された場合、回路２０２は、予め記憶された第２の画像セットからの特定の予め記憶された第２の画像を予め記憶された第３の画像（すなわち、類似する画像）として識別することができる。

【0052】

回路２０２は、識別された予め記憶された第３の画像に関連する情報を表示するように（ディスプレイ装置２１０などの）ディスプレイ装置を制御するようさらに構成することができる。識別された予め記憶された第３の画像に関連する情報は、以下に限定するわけではないが、予め記憶された第３の画像自体、予め記憶された第３の画像に関連するメタデータ、第３の特徴ベクトルと第４の特徴ベクトルとの間の特徴マップ、予め記憶された第３の画像のファイルサイズ、予め記憶された第３の画像に関連する記憶位置、又は予め記憶された第３の画像に関連するファイルダウンロード経路などの情報を含むことができる。ある実施形態では、識別された予め記憶された第３の画像が、予め記憶された第２のビデオに対応することができる。予め記憶された第２のビデオは第１のビデオに関連することができる。例えば、予め記憶された第３の画像は、予め記憶された第２のビデオ内の画像フレームセットからの画像フレームのうちの１つとすることができる。ある実施形態では、第１のビデオから第１の画像３０２Ａを抽出することができる。予め記憶された第３の画像は、受け取った第１の画像３０２Ａに関連又は類似することができるので、予め記憶された第２のビデオは、第１のビデオに関連又は類似することができる。

【0053】

図３に示す例として、ＤＮＮモデル１０８及び（ＳＩＦＴベースのモデルなどの）画像特徴検出モデル１１０に基づいて識別できる識別された予め記憶された第３の画像に関連する情報３１４Ａを示す。情報３１４Ａは、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、識別された予め記憶された第３の画像に関連する第４の特徴ベクトルとの間の特徴マップを含むことができる。図３に示す例として、ＤＮＮモデル１０８及び（ＳＵＲＦベースのモデルなどの）画像特徴検出モデル１１０に基づいて識別できる識別された予め記憶された第３の画像に関連する情報３１４Ｂをさらに示す。情報３１４Ｂも、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、識別された予め記憶された第３の画像に関連する第４の特徴ベクトルとの間の特徴マップを含むことができる。

【0054】

上述したように、開示する電子装置１０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像３０２Ａに関連する第３の特徴ベクトルを自動的に生成することができる。この結果、第３の特徴ベクトルは、ＤＮＮモデル１０８によって決定できる第１の画像特徴セットと、画像特徴検出モデル１１０によって決定できる第２の画像特徴セットとを含むことができる。第１の画像特徴セットは、受け取った第１の画像３０２Ａ（例えば、人物の顔の画像）に関連する高水準な画像特徴（例えば、目、鼻、耳、髪などの顔の特徴）を含むことができ、第２の画像特徴セットは、低水準な画像特徴（例えば、点、エッジ、線、輪郭、又は顔の基本オブジェクト及び形状）を含むことができる。高水準画像特徴及び低水準画像特徴の両方を第３の特徴ベクトルに含めることで、類似する画像の識別を補完し合うことができる。あるシナリオでは、第１の画像特徴セットが、受け取った第１の画像３０２Ａ内に存在し得る全ての特徴を検出して抽出しないことがある。例えば、いくつか特徴がＤＮＮモデル１０８によって誤検出され又は未検出のままの場合がある。例えば、受け取った第１の画像３０２ＡがＤＮＮモデル１０８の訓練データセット１１２内で十分に表現されていない画像である場合、第１の画像特徴セットは、受け取った第１の画像に類似する画像を予め記憶された第２の画像セットから識別できるほど十分なものでない可能性がある。しかしながら、第２の画像特徴セット（すなわち、画像特徴検出モデル１１０によって決定される第２の画像特徴セット）は、受け取った第１の画像３０２Ａに関連する低水準画像特徴を含むことができるので、第２の画像特徴セットを第３の特徴ベクトルに含めることで、受け取った第１の画像３０２Ａに類似する画像を予め記憶された第２の画像セットから識別する精度をさらに高めることができる。例えば、画像の品質が良くない場合（例えば、解像度が低い不鮮明な画像の場合）、第１の画像特徴セット（すなわち、高水準画像特徴）は、類似する画像を識別するできるほど十分なものでない可能性がある。このような場合には、第２の画像特徴（すなわち、低水準画像特徴）の方が、類似する画像の識別にとって有用かつ正確な場合がある。

【0055】

図４は、本開示の実施形態による、ディープニューラルネットワーク（ＤＮＮ）モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な方法を示すフローチャートである。図４の説明は、図１、図２及び図３の要素に関連して行う。図４にはフローチャート４００を示す。フローチャート４００に示す方法は、電子装置１０２又は回路２０２などのいずれかのコンピュータシステムによって実行することができる。方法は４０２から開始して４０４に進むことができる。

【0056】

４０４において、（第１の画像３０２Ａなどの）第１の画像を受け取ることができる。１又は２以上の実施形態では、回路２０２を、第１の画像３０２Ａを受け取るように構成することができる。第１の画像３０２Ａを受け取ることについては、例えば図３（の３０２）でさらに説明している。

【0057】

４０６において、受け取った（例えば、第１の画像３０２Ａ）第１の画像に関連する（第１の画像特徴セット３０４Ａなどの）第１の画像特徴セットをディープニューラルネットワーク（ＤＮＮ）モデル（例えば、ＤＮＮモデル１０８）によって抽出することができる。１又は２以上の実施形態では、回路２０２を、受け取った第１の画像３０２Ａに関連する第１の画像特徴セット３０４ＡをＤＮＮモデル１０８によって抽出するように構成することができる。第１の画像特徴セット３０４Ａの抽出については、例えば図３（の３０４）でさらに説明している。

【0058】

４０８において、抽出された第１の画像特徴セット３０４Ａに基づいて、受け取った第１の画像３０２Ａに関連する第１の特徴ベクトルを生成することができる。回路２０２は、抽出された第１の画像特徴３０４Ａに基づいて、受け取った第１の画像３０２Ａに関連する第１の特徴ベクトルを生成するように構成することができる。第１の特徴ベクトルの生成については、例えば図３（の３０４）でさらに説明している。

【0059】

４１０において、受け取った第１の画像３０２Ａに関連する（第２の画像特徴セット３０６Ａなどの）第２の画像特徴セットを画像特徴検出モデル（例えば、画像特徴検出モデル１１０）によって抽出することができる。１又は２以上の実施形態では、回路２０２を、受け取った第１の画像３０２Ａに関連する第２の画像特徴セット３０６Ａを画像特徴検出モデル１１０によって抽出するように構成することができる。画像特徴検出モデル１１０は、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルのうちの少なくとも１つを含む。第２の画像特徴セット３０６Ａの抽出については、例えば図３（の３０６）でさらに説明している。

【0060】

４１２において、抽出された第２の画像特徴セット３０６Ａに基づいて、受け取った第１の画像３０２Ａに関連する第２の特徴ベクトルを生成することができる。１又は２以上の実施形態では、回路２０２を、抽出された第２の画像特徴セット３０６Ａに基づいて、受け取った第１の画像３０２Ａに関連する第２の特徴ベクトルを生成するように構成することができる。第２の特徴ベクトルの生成については、例えば図３（の３０６）でさらに説明している。

【0061】

４１４において、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像３０２Ａに関連する第３の特徴ベクトルを生成することができる。１又は２以上の実施形態では、回路２０２を、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像３０２Ａに関連する第３の特徴ベクトルを生成するように構成することができる。第３の特徴ベクトルの生成は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づくことができる。第３の特徴ベクトルの生成については、例えば図３（の３０８）でさらに説明している。

【0062】

４１６において、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定することができる。１又は２以上の実施形態では、回路２０２を、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。ある例では、類似度メトリックが、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含むことができる。類似度メトリックの決定については、例えば図３（の３１２）でさらに説明している。

【0063】

４１８において、決定された類似度メトリックに基づいて、予め記憶された第２の画像セットから（予め記憶された第３の画像などの）予め記憶された第３の画像を識別することができる。１又は２以上の実施形態では、回路２０２を、決定された類似度メトリックに基づいて、予め記憶された第２の画像セットから予め記憶された第３の画像を識別するように構成することができる。予め記憶された第３の画像の識別については、例えば図３（の３１４）でさらに説明している。

【0064】

４２０において、識別された予め記憶された第３の画像に関連する情報を表示するように（ディスプレイ装置２１０などの）ディスプレイ装置を制御することができる。回路２０２は、識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置２１０を制御するよう構成することができる。ディスプレイ装置２１０の制御については、例えば図３（の３１４）でさらに説明している。制御は終了に進む。

【0065】

フローチャート４００については、４０４、４０６、４０８、４１０、４１２、４１６、４１８及び４２０などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、特定の実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。

【0066】

本開示の様々な実施形態は、機械及び／又は（電子装置１０２などの）コンピュータによって実行可能な命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。命令は、機械及び／又はコンピュータに（第１の画像３０２Ａなどの）第１の画像を受け取ることを含む動作を実行させることができる。動作は、受け取った第１の画像３０２Ａに関連する（第１の画像特徴セット３０４Ａなどの）第１の画像特徴セットを（ＤＮＮモデル１０８などの）ディープニューラルネットワーク（ＤＮＮ）モデルによって抽出することをさらに含むことができる。動作は、抽出された第１の画像特徴３０４Ａに基づいて、受け取った第１の画像３０２Ａに関連する第１の特徴ベクトルを生成することをさらに含むことができる。動作は、受け取った第１の画像３０２Ａに関連する（第２の画像特徴セット３０６Ａなどの）第２の画像特徴セットを（画像特徴検出モデル１１０などの）画像特徴検出モデルによって抽出することをさらに含むことができる。動作は、抽出された第２の画像特徴３０４Ａに基づいて、受け取った第１の画像３０２Ａに関連する第２の特徴ベクトルを生成することをさらに含むことができる。動作は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像３０２Ａに関連する第３の特徴ベクトルを生成することをさらに含むことができる。動作は、受け取った第１の画像に関連する生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定することをさらに含むことができる。動作は、決定された類似度メトリックに基づいて、予め記憶された第２の画像セットから予め記憶された第３の画像を識別することをさらに含むことができる。動作は、識別された予め記憶された第３の画像に関連する情報を表示するように（ディスプレイ装置２１０などの）ディスプレイ装置を制御することをさらに含むことができる。

【0067】

本開示の例示的な態様は、（回路２０２などの）回路を含む（図１の電子装置１０２などの）電子装置を提供することができる。回路２０２は、第１の画像３０２Ａを受け取るように構成することができる。回路２０２は、受け取った第１の画像３０２Ａに関連する（第１の画像特徴セット３０４Ａなどの）第１の画像特徴セットをディープニューラルネットワーク（ＤＮＮ）モデル１０８によって抽出するように構成することができる。回路２０２は、抽出された第１の画像特徴３０４Ａに基づいて、受け取った第１の画像３０２Ａに関連する第１の特徴ベクトルを生成するように構成することができる。回路２０２は、受け取った第１の画像３０２Ａに関連する（第２の画像特徴セット３０６Ａなどの）第２の画像特徴セットを画像特徴検出モデル１１０によって抽出するように構成することができる。回路２０２は、抽出された第２の画像特徴３０６Ａに基づいて、受け取った第１の画像３０２Ａに関連する第２の特徴ベクトルを生成するように構成することができる。回路２０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて、受け取った第１の画像３０２Ａに関連する第３の特徴ベクトルを生成するように構成することができる。回路２０２は、受け取った第１の画像３０２Ａに関連する生成された第３の特徴ベクトルと、予め記憶された第２の画像セットの各画像の第４の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。回路２０２は、決定された類似度メトリックに基づいて、予め記憶された第２の画像セットから予め記憶された第３の画像を識別するように構成することができる。回路２０２は、識別された予め記憶された第３の画像に関連する情報を表示するようにディスプレイ装置２１０を制御するよう構成することができる。

【0068】

ある実施形態によれば、画像特徴検出モデル１１０は、以下に限定するわけではないが、スケール不変特徴変換（ＳＩＦＴ）ベースのモデル、高速化ロバスト特徴（ＳＵＲＦ）ベースのモデル、方向付きＦＡＳＴ及び回転ＢＲＩＥＦ（ＯＲＢ）ベースのモデル、又は近似最近傍のための高速ライブラリ（ＦＬＡＮＮ）ベースのモデルのうちの少なくとも１つを含むことができる。

【0069】

ある実施形態によれば、第３の特徴ベクトルの生成は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に対する主成分分析（ＰＣＡ）変換の適用にさらに基づくことができる。ある実施形態によれば、類似度メトリックは、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含むことができる。

【0070】

ある実施形態によれば、回路２０２は、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを、ＤＮＮモデル１０８及び画像特徴検出モデル１１０とは異なる（機械学習モデル３１６などの）機械学習モデルによって決定するようにさらに構成することができる。回路２０２は、決定された第１の重み及び決定された第２の重みに基づいて、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを結合するようにさらに構成することができる。回路２０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて第３の特徴ベクトルを生成するように構成することができる。

【0071】

ある実施形態によれば、回路２０２は、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを含むユーザ入力を受け取るようにさらに構成することができる。回路２０２は、受け取ったユーザ入力に基づいて、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを結合するようにさらに構成することができる。回路２０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて第３の特徴ベクトルを生成するように構成することができる。

【0072】

ある実施形態によれば、回路２０２は、ＤＮＮモデル１０８によって、受け取った第１の画像３０２ＡをＤＮＮモデル１０８に関連する画像タグの組からの第１の画像タグに分類するようにさらに構成することができる。回路２０２は、ＤＮＮモデル１０８に関連する（訓練データセット１１２などの）訓練データセット内で、第１の画像タグに関連する第１の画像カウントを決定するように構成される。回路２０２は、第１の画像タグに関連する画像の決定された第１のカウントに基づいて、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを決定するようにさらに構成することができる。回路２０２は、決定された第１の重み及び決定された第２の重みに基づいて、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを結合するようにさらに構成することができる。回路２０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて第３の特徴ベクトルを生成するように構成することができる。

【0073】

ある実施形態によれば、回路２０２は、抽出された第１の画像特徴セット３０４Ａ又は抽出された第２の画像特徴セット３０６Ａの少なくとも一方に基づいて、受け取った第１の画像３０２Ａに関連する画質スコアを決定するように構成することができる。回路２０２は、決定された画質スコアに基づいて、生成された第１の特徴ベクトルに関連する第１の重みと、生成された第２の特徴ベクトルに関連する第２の重みとを決定するようにさらに構成することができる。回路２０２は、決定された第１の重み及び決定された第２の重みに基づいて、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとを結合するようにさらに構成することができる。回路２０２は、生成された第１の特徴ベクトルと生成された第２の特徴ベクトルとの結合に基づいて第３の特徴ベクトルを生成するように構成することができる。ある実施形態によれば、画質スコアは、以下に限定するわけではないが、受け取った第１の画像３０２Ａに関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ又はアーチファクトのうちの少なくとも１つに対応することができる。

【0074】

ある実施形態によれば、回路２０２は、第１のビデオと、予め記憶された第２のビデオに対応できる識別された予め記憶された第３の画像とから、第１の画像３０２Ａを抽出するようにさらに構成することができる。予め記憶された第２のビデオは第１のビデオに関連することができる。

【0075】

本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。

【0076】

本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはａ）別の言語、コード又は表記法への変換、ｂ）異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。

【0077】

いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。

【符号の説明】

【0078】

１０２電子装置
１０４サーバ
１０６データベース
１０８ディープニューラルネットワーク（ＤＮＮ）モデル
１１０画像特徴検出モデル
１１２訓練データセット
１１４通信ネットワーク
１１６ユーザ

【図1】

【図2】

【図3】

【図4】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版