IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2024-519504ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索
<>
  • 特表-ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索 図1
  • 特表-ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索 図2
  • 特表-ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索 図3
  • 特表-ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-14
(54)【発明の名称】ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索
(51)【国際特許分類】
   G06F 16/583 20190101AFI20240507BHJP
【FI】
G06F16/583
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023567990
(86)(22)【出願日】2022-05-18
(85)【翻訳文提出日】2023-11-02
(86)【国際出願番号】 IB2022054647
(87)【国際公開番号】W WO2022243912
(87)【国際公開日】2022-11-24
(31)【優先権主張番号】63/189,956
(32)【優先日】2021-05-18
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/482,290
(32)【優先日】2021-09-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
2.BLUETOOTH
3.W-CDMA
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100141553
【弁理士】
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】イ ジョンファ
(72)【発明者】
【氏名】ガーグ プラッギャ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA02
5B175FB03
5B175HB03
(57)【要約】
逆画像検索のための電子装置及び方法を提供する。電子装置は画像を受け取る。電子装置は、画像に関連する第1の画像特徴セットをDNNモデルによって抽出し、第1の画像特徴セットに基づいて第1の特徴ベクトルを生成する。電子装置は、画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出し、第2の画像特徴セットに基づいて第2の特徴ベクトルを生成する。電子装置は、第1及び第2の特徴ベクトルの結合に基づいて第3の特徴ベクトルを生成する。電子装置は、第3の特徴ベクトルと、予め記憶された画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定し、類似度メトリックに基づいて予め記憶された画像を識別する。電子装置は、予め記憶された画像に関連する情報を表示するようにディスプレイ装置を制御する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
電子装置であって、
第1の画像を受け取り、
前記受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出し、
前記抽出された第1の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第1の特徴ベクトルを生成し、
前記受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出し、
前記抽出された第2の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第2の特徴ベクトルを生成し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの結合に基づいて、前記受け取った第1の画像に関連する第3の特徴ベクトルを生成し、
前記受け取った第1の画像に関連する前記生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定し、
前記決定された類似度メトリックに基づいて、前記予め記憶された第2の画像セットから予め記憶された第3の画像を識別し、
前記識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御する、
ように構成された回路を備える、
ことを特徴とする電子装置。
【請求項2】
前記画像特徴検出モデルは、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含む、
請求項1に記載の電子装置。
【請求項3】
前記第3の特徴ベクトルの前記生成は、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルの前記結合に対する主成分分析(PCA)変換の適用にさらに基づく、
請求項1に記載の電子装置。
【請求項4】
前記類似度メトリックは、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含む、
請求項1に記載の電子装置。
【請求項5】
前記回路は、
前記DNNモデル及び前記画像特徴検出モデルとは異なる機械学習モデルによって、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定し、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
【請求項6】
前記回路は、
前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取り、
前記受け取ったユーザ入力に基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
【請求項7】
前記回路は、
前記DNNモデルによって、前記受け取った第1の画像を前記DNNモデルに関連する画像タグの組からの第1の画像タグに分類し、
前記DNNモデルに関連する訓練データセットにおいて前記第1の画像タグに関連する第1の画像カウントを決定し、
前記第1の画像タグに関連する前記決定された第1の画像カウントに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定し、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
【請求項8】
前記回路は、
前記抽出された第1の画像特徴セット又は前記抽出された第2の画像特徴セットの少なくとも一方に基づいて、前記受け取った第1の画像に関連する画質スコアを決定し、
前記決定された画質スコアに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定し、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
【請求項9】
前記画質スコアは、前記受け取った第1の画像に関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ、又はアーチファクトのうちの少なくとも1つに対応する、
請求項8に記載の電子装置。
【請求項10】
前記回路は、第1のビデオと、該第1のビデオに関連する予め記憶された第2のビデオに対応する前記識別された予め記憶された第3の画像とから前記第1の画像を抽出するようにさらに構成される、
請求項1に記載の電子装置。
【請求項11】
電子装置において、
第1の画像を受け取ることと、
前記受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出することと、
前記抽出された第1の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第1の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出することと、
前記抽出された第2の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第2の特徴ベクトルを生成することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの結合に基づいて、前記受け取った第1の画像に関連する第3の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する前記生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することと、
前記決定された類似度メトリックに基づいて、前記予め記憶された第2の画像セットから予め記憶された第3の画像を識別することと、
前記識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御することと、
を含むことを特徴とする方法。
【請求項12】
前記画像特徴検出モデルは、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含む、
請求項11に記載の方法。
【請求項13】
前記第3の特徴ベクトルの前記生成は、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルの前記結合に対する主成分分析(PCA)変換の適用にさらに基づく、
請求項11に記載の方法。
【請求項14】
前記類似度メトリックは、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含む、
請求項11に記載の方法。
【請求項15】
前記DNNモデル及び前記画像特徴検出モデルとは異なる機械学習モデルによって、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定することと、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
【請求項16】
前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取ることと、
前記受け取ったユーザ入力に基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
【請求項17】
前記DNNモデルによって、前記受け取った第1の画像を前記DNNモデルに関連する画像タグの組からの第1の画像タグに分類することと、
前記DNNモデルに関連する訓練データセットにおいて前記第1の画像タグに関連する第1の画像カウントを決定することと、
前記第1の画像タグに関連する前記決定された第1の画像カウントに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定することと、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
【請求項18】
前記抽出された第1の画像特徴セット又は前記抽出された第2の画像特徴セットの少なくとも一方に基づいて、前記受け取った第1の画像に関連する画質スコアを決定することと、
前記決定された画質スコアに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定することと、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
【請求項19】
前記画質スコアは、前記受け取った第1の画像に関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ、又はアーチファクトのうちの少なくとも1つに対応する、
請求項18に記載の方法。
【請求項20】
コンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、電子装置によって実行された時に、
第1の画像を受け取ることと、
前記受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出することと、
前記抽出された第1の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第1の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出することと、
前記抽出された第2の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第2の特徴ベクトルを生成することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの結合に基づいて、前記受け取った第1の画像に関連する第3の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する前記生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することと、
前記決定された類似度メトリックに基づいて、前記予め記憶された第2の画像セットから予め記憶された第3の画像を識別することと、
前記識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御することと、
を含む動作を前記電子装置に実行させる、ことを特徴とする非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照/引用による組み入れ〕
本出願は、2021年5月18日に出願された米国仮特許出願シリアル番号第63/189,956号の優先権を主張するものであり、この文献の内容は全体が引用により本明細書に組み入れられる。
【0002】
本開示の様々な実施形態は、逆画像検索に関する。具体的には、本開示の様々な実施形態は、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための電子装置及び方法に関する。
【背景技術】
【0003】
情報通信技術の進歩は、様々なインターネットベースの画像検索システム(例えば、ウェブ検索エンジン)をもたらした。従来、ユーザは、入力画像を検索クエリとしてウェブ検索エンジンにアップロードすることができる。このような場合、ウェブ検索エンジンは、(逆画像検索法を使用して)インターネットから出力画像セットを提供することができる。出力画像セットは、入力画像に類似したものであることができる。このような逆画像検索法は、入力画像に類似する出力画像セットを決定するために機械学習モデルを採用することができる。場合によっては、機械学習モデルが入力画像内の1又は2以上のオブジェクトを誤分類した結果、出力画像セットが望ましくない又は無関係な画像を含んでしまう場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。
【課題を解決するための手段】
【0005】
実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための電子装置及び方法を提供する。
【0006】
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0007】
図1】本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的なネットワーク環境を示すブロック図である。
図2】本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な電子装置を示すブロック図である。
図3】本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な動作を示す図である。
図4】本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な方法を示すフローチャートである。
【発明を実施するための形態】
【0008】
逆画像検索の精度を高めるためにディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づいて逆画像検索を行うための開示する電子装置及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、逆画像検索のためのディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルを実装する電子装置を提供する。電子装置は、(ユーザが類似する画像を検索する必要がある画像などの)第1の画像を受け取ることができる。電子装置は、受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出し、抽出された第1の画像特徴セットに基づいて、受け取った第1の画像に関連する第1の特徴ベクトルを生成する。電子装置は、受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出し、抽出された第2の画像特徴セットに基づいて、受け取った第1の画像に関連する第2の特徴ベクトルを生成することができる。画像特徴検出モデルの例としては、以下に限定するわけではないが、スケール不変特徴変換(Scale-Invariant Feature Transform:SIFT)ベースのモデル、高速化ロバスト特徴(Speeded-Up Robust Feature:SURF)ベースのモデル、方向付きFAST及び回転BRIEF(Oriented FAST and Rotated BRIEF:ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(Fast Library for Approximate Nearest Neighbors:FLANN)ベースのモデルを挙げることができる。画像特徴検出モデルは、DNNモデル108によって一部が誤検出及び/又は誤分類された可能性のある画像特徴を抽出することができる。
【0009】
電子装置は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像に関連する第3の特徴ベクトルをさらに生成することができる。ある例では、第3の特徴ベクトルの生成が、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。電子装置は、受け取った第1の画像に関連する生成された第3の特徴ベクトルと、(データベースに記憶された画像などの)予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックをさらに決定することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。電子装置は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから(受け取った第1の画像と同一又は同様の画像などの)予め記憶された第3の画像をさらに識別し、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御することができる。
【0010】
開示する電子装置は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像に関連する第3の特徴ベクトルを自動的に生成することができる。この結果、第3の特徴ベクトルは、DNNモデルによって決定できる第1の画像特徴セットと、画像特徴検出モデルによって決定できる第2の画像特徴セットとを含むことができる。第1の画像特徴セットは、受け取った第1の画像に関連する高水準画像特徴(例えば、目、鼻、耳、髪などの顔の特徴)を含み、第2の画像特徴セットは、受け取った第1の画像に関連する低水準画像特徴(例えば、顔のエッジ、ライン、輪郭)を含む。高水準画像特徴及び低水準画像特徴の両方を第3の特徴ベクトルに含めることで、類似する画像の識別を補完し合うことができる。例えば、受け取った第1の画像が、DNNモデルの訓練データセット内で十分に表現されていない画像である場合、第1の画像特徴セットは、受け取った第1の画像に類似する画像を予め記憶された第2の画像セットから識別できるほど十分なものでない可能性がある。しかしながら、第2の画像特徴セットは、受け取った第1の画像に関連する低水準画像特徴を含むことができるので、第2の画像特徴セットを第3の特徴ベクトルに含めることで、受け取った第1の画像に類似する画像を予め記憶された第2の画像セットから識別する精度を高めることができる。一方で、画像の品質が良くない場合(例えば、解像度が低い不鮮明な画像の場合)、第1の画像特徴セット(すなわち、高水準画像特徴)は、類似する画像を識別できるほど十分なものでない可能性がある。このような場合には、第2の画像特徴(すなわち、低水準画像特徴)の方が、類似する画像の識別にとって有用かつ正確な場合がある。
【0011】
図1は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的なネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、電子装置102、サーバ104、及びデータベース106を含むことができる。さらに、サーバ104に実装されたディープニューラルネットワーク(DNN)モデル108及び画像特徴検出モデル110も示す。図1に示すように、データベース106には訓練データセット112を記憶することができる。電子装置102、サーバ104及びデータベース106は、通信ネットワーク114を介して互いに通信可能に結合することができる。さらに、電子装置102に関連するユーザ116も示す。図1には電子装置102及びサーバ104を2つの独立した装置として示しているが、いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ104の機能全体を電子装置102に組み込むこともできる。
【0012】
電子装置102は、第1の画像にDNNモデル108及び画像特徴検出モデル110を実装することに基づいて第1の画像に類似する画像セットを識別して表示するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。電子装置102の例としては、以下に限定するわけではないが、画像検索エンジン、サーバ、パーソナルコンピュータ、ラップトップ、コンピュータワークステーション、メインフレームマシン、ゲーム装置、仮想現実(VR)/拡張現実(AR)/複合現実(MR)装置、スマートフォン、携帯電話機、コンピュータ装置、タブレット、及び/又はいずれかの消費者向け電子(CE)装置を挙げることができる。
【0013】
DNNモデル108は、画像特徴検出タスクに基づいて第1の画像内の第1の画像特徴セットを検出するように訓練できる深層畳み込みニューラルネットワークモデルとすることができる。DNNモデル108は、例えば(単複の)活性化関数、重みの数、コスト関数、正則化関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。DNNモデル108は、計算ネットワーク又は(ノードとも呼ばれる)人工ニューロンのシステムと呼ぶことができる。DNNモデル108のノードは、DNNモデル108のニューラルネットワークトポロジーで定められるような複数の層状に配置することができる。DNNモデル108の複数の層は、入力層、1又は2以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、1又は2以上のノード(又は人工ニューロン)を含むことができる。入力層における全てのノードの出力は、(単複の)隠れ層の少なくとも1つのノードに結合することができる。同様に、各隠れ層の入力は、DNNモデル108の他の層における少なくとも1つのノードの出力に結合することができる。各隠れ層の出力は、DNNモデル108の他の層における少なくとも1つのノードの入力に結合することができる。最終層の(単複の)ノードは、少なくとも1つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、DNNモデル108のハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセット112に基づくDNNモデル108の訓練前又は訓練中に設定することができる。
【0014】
DNNモデル108の各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット(rectified linear unit))に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、DNNモデル108の他の(単複の)層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。DNNモデル108のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。
【0015】
DNNモデル108の訓練では、(訓練データセットからの)所与の入力に対する最終層の出力がDNNモデル108の損失関数に基づく正しい結果に一致するかどうかに基づいてDNNモデル108の各ノードの1又は2以上のパラメータを更新することができる。上記プロセスは、損失関数の最小値が達成されて訓練エラーが最小化されるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。
【0016】
ある実施形態では、DNNモデル108が、例えば電子装置102又はサーバ104上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。DNNモデル108は、電子装置102又はサーバ110などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。DNNモデル108は、入力画像内の画像特徴を検出するための1又は2以上の動作を電子装置102又はサーバ104などのコンピュータ装置が実行できるようにするコンピュータ実行可能コード又はルーチンを含むことができる。これに加えて又は代えて、DNNモデル108は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。例えば、電子装置102(又はサーバ104)には、画像特徴検出タスクのためのDNNモデル108の計算を加速させる推論アクセラレータチップを含めることができる。いくつかの実施形態では、DNNモデル108を、ハードウェア及びソフトウェアの両方の組み合わせを使用して実装することができる。DNNモデル108の例としては、以下に限定するわけではないが、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、Regions with CNN(R-CNN)、Fast R-CNN、Faster R-CNN、You Only Look Once(YOLO)ネットワーク、残差ニューラルネットワーク(Res-Net)、特徴ピラミッドネットワーク(FPN)、網膜ネット、シングルショット検出器(SSD)、及び/又はこれらの組み合わせを挙げることができる。
【0017】
画像特徴検出モデル110は、第1の画像に関連する画像特徴を抽出するように構成された画像処理アルゴリズムとすることができる。画像特徴検出モデル110は、例えば画像特徴の数、エッジ閾値、重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。画像特徴検出モデル110のハイパーパラメータは、画像特徴検出モデル110のコスト関数の大域的極小値に向かうように調整することができ、重みもそのように更新することができる。画像特徴検出モデル110は、例えば電子装置102又はサーバ104上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。画像特徴検出モデル110は、電子装置102又はサーバ104などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。画像特徴検出モデル110は、第1の画像に関連する画像特徴セットを抽出することなどの1又は2以上の動作を電子装置102又はサーバ104などのコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、画像特徴検出モデル110は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、画像特徴検出モデル110を、ハードウェアとソフトウェアとの組み合わせを使用して実装することもできる。画像特徴検出モデル110の例としては、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルを挙げることができる。
【0018】
サーバ104は、DNNモデル108及び画像特徴検出モデル110を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。サーバ104は、DNNモデル108を使用して第1の画像に関連する第1の特徴ベクトルを生成し、画像特徴検出モデル110を使用して第1の画像に関連する第2の特徴ベクトルを生成することができる。サーバ104は、DNNモデル108及び画像特徴検出モデル110とは異なる機械学習モデルをさらに記憶することができる。記憶された機械学習モデルは、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するように構成することができる。例示的な実施形態では、サーバ104がクラウドサーバとして実装され、ウェブアプリケーション、クラウドアプリケーション、HTTPリクエスト、リポジトリ操作及びファイル転送などを通じて動作を実行することができる。サーバ104の他の実装例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。
【0019】
少なくとも1つの実施形態では、当業者に周知の複数の技術を使用することにより、サーバ104を複数の分散型クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲を2つの別個のエンティティとしてのサーバ104及び電子装置102の実装に限定しないこともできると理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ104の機能を全体的に又は少なくとも部分的に電子装置102に組み込むこともできる。
【0020】
データベース106は、DNNモデル108のための訓練データセット112を記憶するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。訓練データセット112は、予め記憶された訓練画像セット、及び予め記憶された訓練画像セットの各画像に割り当てられた所定のタグを含むことができる。特定の訓練画像に割り当てられる所定のタグは、特定の訓練画像について予め決定しておくことができる画像特徴に対応するラベルを含むことができる。DNNモデル108は、訓練データセット112に基づいて画像特徴検出タスクのために予め訓練することができる。ある実施形態では、データベース106を、予め記憶された第2の画像セットを記憶するようにさらに構成することができる。データベース106は、リレーショナルデータベース又は非リレーショナルデータベースとすることができる。また、いくつかの事例では、データベース106をクラウドサーバなどのサーバ(例えば、サーバ104)上に記憶し、又は電子装置102上にキャッシュして記憶することもできる。これに加えて又は代えて、データベース106は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。他のいくつかの事例では、データベース106を、ハードウェアとソフトウェアとの組み合わせを使用して実装することができる。
【0021】
通信ネットワーク114は、電子装置102、サーバ104及びデータベース106が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク114の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ロングタームエボリューション(LTE)ネットワーク、(無線ローカルエリアネットワーク)WLAN、ローカルエリアネットワーク(LAN)、電話回線(POTS)、及び/又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク114に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、又はBluetooth(BT)通信プロトコルのうちの少なくとも1つ、或いはこれらの組み合わせを挙げることができる。
【0022】
動作中、電子装置102は、逆画像検索クエリを開始することができる。ある実施形態では、逆画像検索を、(図2に示す)ディスプレイ装置を介して受け取られたユーザ入力に基づいて開始することができる。電子装置102は、逆画像検索の開始時に第1の画像を画像検索クエリとして受け取るように構成することができる。例えば、第1の画像は、ユーザ入力に基づいて電子装置102の(図2に示す)I/O装置を通じてアップロードされた画像に対応することができる。第1の画像は、前景又は背景オブジェクトが固定された静止画像、又はビデオから抽出された画像に関連することができる。電子装置102は、受け取った第1の画像に関連する第1の画像特徴セットをDNNモデル108によって抽出するように構成することができる。電子装置102は、受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデル110によって抽出するように構成することができる。第1の画像特徴セット及び第2の画像特徴セットの詳細については、例えば図3に示す。画像特徴検出モデル110の例としては、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルを挙げることができる。
【0023】
電子装置102は、抽出された第1の画像特徴セットに基づいて、受け取った第1の画像に関連する第1の特徴ベクトルを生成するようにさらに構成することができる。電子装置102は、抽出された第2の画像特徴セットに基づいて、受け取った第1の画像に関連する第2の特徴ベクトルを生成するようにさらに構成することができる。受け取った第1の画像に関連する第1の特徴ベクトルは、第1の画像特徴セットに関する情報を含むことができるベクトルとすることができ、受け取った第1の画像に関連する第2の特徴ベクトルは、第2の画像特徴セットに関する情報を含むことができるベクトルとすることができる。電子装置102は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像に関連する第3の特徴ベクトルを生成するようにさらに構成することができる。第3の特徴ベクトルは、以下に限定するわけではないが、生成された第1の特徴ベクトル及び生成された第2のベクトルを含む。ある実施形態では、第3の特徴ベクトルの生成が、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。第3の特徴ベクトルの生成の詳細については、例えば図3で説明する。
【0024】
電子装置102は、受け取った第1の画像に関連する生成された第3の特徴ベクトルと、(データベース106に記憶された画像などの)予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。電子装置102は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから(受け取った第1の画像と同一又は同様の画像などの)予め記憶された第3の画像を識別するように構成することができる。電子装置102は、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御するようさらに構成することができる。類似度メトリックの決定及び予め記憶された第3の画像の識別の詳細については、例えば図3でさらに説明する。
【0025】
図2は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な電子装置を示すブロック図である。図2の説明は、図1の要素に関連して行う。図2には、電子装置102のブロック図200を示す。電子装置102は、回路202、メモリ204、入力/出力(I/O)装置206、及びネットワークインターフェイス208を含むことができる。I/O装置206は、ディスプレイ装置210をさらに含むことができる。ネットワークインターフェイス208は、通信ネットワーク114を介して電子装置102をサーバ104及びデータベース106に接続することができる。
【0026】
回路202は、電子装置102によって実行される異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。回路202は、独立したプロセッサとして実装できる1又は2以上の特殊処理ユニットを含むことができる。ある実施形態では、1又は2以上の特殊処理ユニットを、1又は2以上の特殊処理ユニットの機能をまとめて実行するように構成できる統合プロセッサ又はプロセッサ群として実装することができる。回路202は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。回路202の実装例は、X86ベースのプロセッサ、グラフィックプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の制御回路とすることができる。
【0027】
メモリ204は、回路202によって実行されるプログラム命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。少なくとも1つの実施形態では、メモリ204を、DNNモデル108及び画像特徴検出モデル110を記憶するように構成することができる。メモリ204は、以下に限定するわけではないが、類似度メトリック、DNNモデル108及び画像特徴検出モデル110とは異なる機械学習モデル(例えば、図3の機械学習モデル316)、生成された第1の特徴ベクトルに関連する第1の重み、及び生成された第2の特徴ベクトルに関連する第2の重みのうちの1つ又は2つ以上を記憶するように構成することができる。ある実施形態では、メモリ204が、第1の画像、及び識別された予め記憶された第3の画像を記憶することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードなどを挙げることができる。
【0028】
I/O装置206は、入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。I/O装置206は、回路202と通信するように構成できる様々な入力及び出力装置を含むことができる。ある例では、電子装置102が、逆画像検索クエリを含むユーザ入力を(I/O装置206を介して)受け取ることができる。逆画像検索クエリは、第1の画像を含むことができる。別の例では、電子装置102が、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を(I/O装置206を介して)受け取ることができる。電子装置102は、識別された予め記憶された第3の画像を出力するようにI/O装置206を制御することができる。I/O装置206の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、ディスプレイ装置(例えば、ディスプレイ装置210)、マイク、又はスピーカを挙げることができる。
【0029】
ディスプレイ装置210は、電子装置102の出力を表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ディスプレイ装置210は、識別された予め記憶された第3の画像に関連する情報を表示するために利用することができる。いくつかの実施形態では、ディスプレイ装置210を、電子装置102に関連する外部結合ディスプレイ装置とすることができる。ディスプレイ装置210は、ユーザ116がディスプレイ装置210を介してユーザ入力を提供できるようにするタッチ画面とすることができる。タッチ画面は、抵抗膜式タッチ画面、静電容量式タッチ画面、熱式タッチ画面、或いはディスプレイ装置210に入力を提供するために使用できる他のいずれかのタッチ画面のうちの少なくとも1つとすることができる。ディスプレイ装置210は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術、又はその他のディスプレイ装置のうちの少なくとも1つなどの複数の既知の技術を通じて実現することができる。
【0030】
ネットワークインターフェイス208は、通信ネットワーク114を介した電子装置102、サーバ104及びデータベース106の間の通信を容易にするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、様々な既知の技術を使用して通信ネットワーク112との間の電子装置102の有線又は無線通信をサポートするように実装することができる。ネットワークインターフェイス208は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、加入者IDモジュール(SIM)カード、又はローカルバッファ回路を含むことができる。
【0031】
ネットワークインターフェイス208は、インターネット、イントラネット、無線ネットワーク、セルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)又はメトロポリタンエリアネットワーク(MAN)などのネットワークと有線通信、無線通信又はこれらの組み合わせを介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、ロングタームエボリューション(LTE)、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11a、IEEE802.11b、IEEE802.11g又はIEEE802.11nなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(Wi-MAX)、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス(SMS)などの複数の通信標準、プロトコル及び技術のうちの1つ又は2つ以上を使用するように構成することができる。
【0032】
回路202の動作については、例えば図3及び図4でさらに説明する。なお、図2に示す電子装置102は、他の様々なコンポーネント又はシステムを含むこともできる。電子装置102の他のコンポーネント又はシステムの説明については、簡潔にするために本開示からは省略する。
【0033】
図3は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な動作を示す図である。図3の説明は、図1及び図2の要素に関連して行う。図3には、DNNモデル108及び画像特徴検出モデル110に基づく逆画像検索のための302~314の例示的な動作を示すブロック図300を示す。例示的な動作は、例えば図1の電子装置102又は図2の回路202などのいずれかのコンピュータシステムによって実行することができる。
【0034】
302において、第1の画像を受け取ることができる。ある実施形態では、回路202を、第1の画像を受け取るように構成することができる。例えば、第1の画像302Aを受け取ることができる。第1の画像302Aは、例えば電子装置102上の(メモリ204のような)永続記憶装置、画像取り込み装置、クラウドサーバ、又はこれらの組み合わせなどのデータソースから受け取ることができる。第1の画像302Aは、ユーザ116が逆画像検索を使用して同様又は同一の画像結果を必要とし得る関心オブジェクトを含むことができる。或いは、第1の画像302Aは、第1のビデオの一連の画像からの画像に対応することもできる。回路202は、第1のビデオから第1の画像302Aを抽出するように構成することができる。第1のビデオは、ユーザ116が逆画像検索を使用して同様又は同一のビデオ結果を必要とする関心オブジェクトを含むビデオに対応することができる。第1の画像302Aは、前景又は背景が固定された画像を表すことができる。例えば、図示のように、第1の画像302Aは、映画のワンシーン(例えば、図3に示すような、関心オブジェクトとしてのスパイダーマンの画像)を表すことができる。
【0035】
回路202は、第1の画像302Aを受け取った後に、受け取った第1の画像302Aを画像特徴抽出のためにDNNモデル108及び画像特徴検出モデル110に入力することができる。回路202は、DNNモデル108を使用して、例えば304で説明するように第1の画像302Aに関連する第1の画像特徴セットを抽出することができる。さらに、回路202は、画像特徴検出モデル110を使用して、例えば306で説明するように第1の画像302Aに関連する第2の画像特徴セットを抽出することができる。動作304及び306は、本開示の範囲から逸脱することなくあらゆる順序で実行することができる。
【0036】
304において、第1の画像特徴を抽出することができる。ある実施形態では、回路202を、受け取った第1の画像302Aに関連する第1の画像特徴セットを(DNNモデル108などの)ディープニューラルネットワーク(DNN)モデルによって抽出するように構成することができる。抽出される第1の画像特徴セットは、受け取った第1の画像302A内の1又は2以上のオブジェクトに関連する固有の特徴に対応することができる。DNNモデル108は、予め記憶された訓練画像セットのうちの所定のタグが割り当てられた訓練データセット112に基づいて画像特徴抽出タスクのために予め訓練することができる。特定の訓練画像に割り当てられる所定のタグは、特定の訓練画像について予め決定しておくことができる画像特徴に対応するラベルを含むことができる。回路202は、DNNモデル108に第1の画像302Aを入力として供給し、DNNモデル108によって第1の画像302Aに対して実行された画像特徴検出タスクに基づいて、DNNモデル108からの出力として第1の画像特徴セット(すなわち、第1の画像302Aに関連する画像特徴セット)を受け取ることができる。
【0037】
ある実施形態では、抽出される第1の画像特徴セットが、含まれている各オブジェクトを特定のオブジェクトクラスに分類するために必要とされる情報を含むことができる。抽出される第1の画像特徴セットの例としては、以下に限定するわけではないが、形状、テクスチャ、色、及びその他の高水準画像特徴を挙げることができる。例えば、図3に示すように、第1の画像302Aに関連する抽出された第1の画像特徴304Aは、(スパイダーマンの顔などの)関心オブジェクト上のグレイシェードとして示す色を含むことができる。例えば、第1の画像302Aにおいてスパイダーマン又はその他の人物/キャラクタなどの人物の顔が関心オブジェクトである場合、第1の画像特徴セット304Aは、目の形、耳の形、鼻の形、及び人物/キャラクタの他の高水準な顔の細部の形/テクスチャを含むことができる。DNNモデル108による第1の画像特徴セットの抽出の詳細な実装は当業者に周知であると考えられ、従ってこのような第1の画像特徴セットの抽出の詳細な説明については、簡潔にするために本開示からは省略する。
【0038】
回路202は、抽出された第1の画像特徴セットに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成するように構成することができる。このような第1の特徴ベクトルは、固有の第1の画像特徴セットと呼ぶこともできる。生成された第1の特徴ベクトルは、それぞれが抽出された第1の画像特徴セットからの画像特徴に対応できる複数のベクトル要素を含むことができる。第1の特徴ベクトルの各ベクトル要素は、第1の画像特徴セットからの特定の第1の画像特徴に対応できる値を記憶することができる。例えば、受け取った第1の画像302Aが高精細画像(例えば、「1024×1024」画素の画像)である場合、第1の特徴ベクトルは、2048個のベクトル要素を有する「1×2048」ベクトルであることができる。第1の特徴ベクトルのi番目の要素は、i番目の第1の画像特徴の値を表すことができる。
【0039】
306において、第2の画像特徴セットを抽出することができる。ある実施形態では、回路202を、受け取った第1の画像302Aに関連する第2の画像特徴セットを(画像特徴検出モデル110などの)画像特徴検出モデルによって抽出するように構成することができる。抽出される第2の画像特徴セットは、受け取った第1の画像302Aに含まれる1又は2以上のオブジェクトに関連する特定の固有の特徴に対応することができる。いくつかの実施形態では、第2の画像特徴セットは、(例えば、304において)DNNモデル108によって誤検出された又は未検出のままである可能性がある画像特徴とすることができる。ある実施形態では、抽出される第2の画像特徴セットが、(第1の画像302A内の)各オブジェクトを特定のオブジェクトクラスに最適に分類するために必要とされる情報を含むことができる。第2の画像特徴セットの例としては、以下に限定するわけではないが、エッジ、ライン、輪郭及びその他の低水準画像特徴を挙げることができる。画像特徴検出モデル110の例としては、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルを挙げることができる。これらの例示的な方法の詳細な実装は当業者に周知であると考えられ、従ってこのような方法の詳細な説明については、簡潔にするために本開示からは省略する。例えば、図3に示すように、第1の画像302Aに関連する第2の画像特徴セット306Aは、SIFTベースのモデルに基づいて抽出された第2の画像特徴セットを示し、第1の画像302Aに関連する第2の画像特徴セット306Bは、SURFベースのモデルに基づいて抽出された第2の画像特徴セットを示す。例えば、第1の画像302A内のスパイダーマン又は他のいずれかの人物/キャラクタなどの人物の顔が関心オブジェクトである場合、第2の画像特徴セット306A(又は第2の画像特徴セット306B)は、目のエッジ及び輪郭、耳のエッジ及び輪郭、鼻のエッジ及び輪郭、並びに人物/キャラクタの他の低水準な顔の詳細を含むことができる。
【0040】
回路202は、抽出された第2の画像特徴セットに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成するようにさらに構成することができる。このような第2の特徴ベクトルは、固有の第2の画像特徴セットと呼ぶこともできる。生成された第2の特徴ベクトルは、それぞれが抽出された第2の画像特徴セットからの画像特徴に対応できる複数のベクトル要素を含むことができる。第2の特徴ベクトルの各ベクトル要素は、第2の画像特徴セットからの特定の第2の画像特徴に対応できる値を記憶することができる。例えば、受け取った第1の画像302Aが高精細画像(例えば、「1024×1024」画素の画像)である場合、第2の特徴ベクトルは、2048個のベクトル要素を有する「1×2048」ベクトルであることができる。第2の特徴ベクトルのi番目の要素は、i番目の第2の画像特徴の値を表すことができる。
【0041】
308において、特徴ベクトルを結合することができる。ある実施形態では、回路202を、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成するように構成することができる。ある実施形態では、回路202を、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを自動的に結合するように構成することができる。例えば、受け取った第1の画像302Aが高精細画像(例えば、「1024×1024」画素の画像)である場合、第1の特徴ベクトルは、2048個のベクトル要素を有する「1×2048」ベクトルであることができ、第2の特徴ベクトルも、2048個のベクトル要素を有する「1×2048」ベクトルであることができる。このような場合、第3の特徴ベクトルは、4096個のベクトル要素を有する「1×4096」ベクトルであることができる。
【0042】
ある実施形態では、回路202を、機械学習モデル316(すなわち、DNNモデル108及び画像特徴検出モデル110とは異なる機械学習モデル)によって、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するように構成することができる。機械学習モデル316は、同様のサイズの特徴ベクトルセットに基づいて訓練できる回帰モデルとすることができ、各ベクトルにはユーザが定義した重み値をタグ付けすることができる。機械学習モデル316は、特徴ベクトル重み割り当てタスクに基づいて訓練することができ、ここでは、機械学習モデル316が、2つの同様のサイズの特徴ベクトルセットを入力として受け取り、2つの同様のサイズの特徴ベクトルセットの各々の重みを出力することができる。機械学習モデル316は、例えば重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。機械学習モデル316のハイパーパラメータは、機械学習モデル316のコスト関数の大域的極小値に向かうように調整することができ、重みもそのように更新することができる。機械学習モデル316は、訓練データセット内の特徴情報に基づく数エポックの訓練後に、入力セットの重み値を出力するように訓練することができる。この出力は、入力セットの各入力(例えば、第1の特徴ベクトル及び第2の特徴ベクトル)の重み値を示すことができる。
【0043】
機械学習モデル316は、例えば電子装置102上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。機械学習モデル316は、回路202などのプロセッサを含むコンピュータ装置による実行のためにライブラリ、外部スクリプト又は他のロジック/命令に依拠することができる。機械学習モデル316は、第1の特徴ベクトルに関連する第1の重みの決定、及び第2の特徴ベクトルに関連する第2の重みの決定のための1又は2以上の動作を回路202などのプロセッサを含むコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、機械学習モデル316は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、機械学習モデル316を、ハードウェアとソフトウェアとの組み合わせを使用して実装することができる。
【0044】
生成された第1の特徴ベクトルに関連する第1の重み及び生成された第2の特徴ベクトルに関連する第2の重みの各々は、画像内の関心オブジェクトの識別、従って関心オブジェクトを含むことができる類似する画像の識別のためのそれぞれの特徴ベクトルの信頼性の尤度を示すことができる。第1の重み及び第2の重みは、信頼性のための信頼値を(0~1の確率値で)指定することができる。従って、信頼性の高い特徴ベクトルほど高い重み値を有することができる。例えば、受け取った第1の画像302Aが高解像度画像であり、抽出された第1の画像特徴セットの方が抽出された第2の画像特徴セットよりも精密である場合、生成された第1の特徴ベクトルは生成された第2の特徴ベクトルよりも高い信頼性を有することができる。このような例では、生成された第1の特徴ベクトルに関連する第1の重みが、生成された第2の特徴ベクトルに関連する第2の重み(例えば、0.4値)と比べて高い重み値(例えば、0.6値)を有することができる。対照的に、受け取った第1の画像302Aが低解像度画像であり、抽出された第2の画像特徴セットの方が抽出された第1の画像特徴セットよりも精密である場合、生成された第2の特徴ベクトルは、生成された第1の特徴ベクトルよりも高い信頼性を有することができる。このような例では、生成された第1の特徴ベクトルに関連する第1の重みが、生成された第2の特徴ベクトルに関連する第2の重み(例えば、0.6値)と比べて低い重み値(例えば、0.4値)を有することができる。さらに、受け取った第1の画像302Aが中解像度画像(例えば、標準解像度画像)である場合、生成された第1の特徴ベクトルに関連する第1の重みは、生成された第2の特徴ベクトルに関連する第2の重み(例えば、0.5値)と比べて等しい重み値(例えば、0.5)を有することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトル及び生成された第2の特徴ベクトルを結合し、この結合に基づいて第3の特徴ベクトルをさらに生成するようにさらに構成することができる。
【0045】
ある実施形態では、回路202を、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取るように構成することができる。ある例では、受け取ったユーザ入力が、生成された第1の特徴ベクトルに関連する第1の重みを「0.4」として示すことができ、この結果、回路202は、生成された第2の特徴ベクトルに関連する第2の重みを「0.6」として決定するように構成することができる。別の例では、受け取ったユーザ入力が、生成された第1の特徴ベクトルに関連する第1の重みを「0.5」として示し、生成された第2の特徴ベクトルに関連する第2の重みを「0.5」として示すことができる。回路202は、受け取ったユーザ入力に基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合し、この結合に基づいて第3の特徴ベクトルをさらに生成するようにさらに構成することができる。
【0046】
ある実施形態では、回路202を、DNNモデル108によって、受け取った第1の画像302AをDNNモデル108に関連する画像タグの組からの第1の画像タグに分類するように構成することができる。第1の画像タグは、受け取った第1の画像302Aが属することができる画像タグを指定することができる。例えば、受け取った第1の画像302Aは、スパイダーマンのキャラクタなどの画像タグを有することができる。回路202は、DNNモデル108に関連する(訓練データセット112などの)訓練データセット内で、第1の画像タグに関連する第1の画像カウントを決定するようにさらに構成することができる。例えば、回路202は、第1の画像タグを、訓練データセット112内の予め記憶された訓練画像セットからの予め記憶された訓練画像の画像タグと比較することができる。訓練データセット112内の予め記憶された訓練画像の画像タグが第1の画像タグに一致する場合、回路202は、第1の画像タグに関連する第1の画像カウントを1だけ増分する。同様に、回路202は、訓練データセット112内の予め記憶された訓練画像の各々の画像タグと第1の画像タグとの比較に基づいて第1の画像カウントを決定することができる。回路202は、第1の画像タグに関連する決定された第1の画像カウントに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。例えば、訓練データセット112内の第1の画像カウントが一定の閾値(例えば、訓練データセット112内の全画像の閾値カウント又はパーセンテージ)よりも高い場合、生成された第1の特徴ベクトルに関連する第1の重みは、生成された第2の特徴ベクトルに関連する第2の重みと比べて高い重み値を有することができる。対照的に、訓練データセット112内の第1の画像カウントが閾値又は公称値(例えば、100万の画像の訓練データセット112内の数百の画像などの容易に無視できる値)よりも低い場合、生成された第1の特徴ベクトルに関連する第1の重みは、生成された第2の特徴ベクトルに関連する第2の重みと比べて低い重み値を有することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトル及び生成された第2の特徴ベクトルを結合して第3の特徴ベクトルを生成し、この結合に基づいて第3の特徴ベクトルをさらに生成するように構成することができる。
【0047】
ある実施形態では、回路202を、抽出された第1の画像特徴セット又は抽出された第2の画像特徴セットの少なくとも一方に基づいて、受け取った第1の画像302Aに関連する画質スコアを決定するように構成することができる。画質スコアは、受け取った第1の画像302Aの忠実度に関連する定性的値を示すことができる。画質スコアが高ければ高いほど、受け取った第1の画像302Aの忠実度が高いことを示すことができる。画質スコアは、以下に限定するわけではないが、受け取った第1の画像302Aに関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現(tone reproduction)、コントラスト、彩度、歪曲収差、口径食(vignetting)、露光精度、色収差、レンズフレア、色モアレ(color moire)、又はアーチファクトに対応することができる。鮮明さは、受け取った第1の画像302Aに関連する画像特徴に関連する詳細に対応することができる。例えば、受け取った第1の画像302Aの画素数又はフォーカスが高い場合、受け取った第1の画像302Aの鮮明さは高いものであることができる。ノイズは、受け取った第1の画像302Aにおける画素レベルでの望ましくない変動などの、受け取った第1の画像302Aにおける外乱に対応することができる。ダイナミックレンジは、受け取った第1の画像302A内に取り込まれた光の最も明るい陰影と最も暗い陰影との間の階調差(tonal difference)の量に対応することができる。階調再現は、受け取った第1の画像302A内に取り込まれた光の量と、受け取った第1の画像302Aが曝される光の量との間の相関に対応することができる。コントラストは、受け取った第1の画像302Aにおける色変化の量に対応することができる。彩度は、受け取った第1の画像302Aにおける色の強さに対応することができる。歪曲収差は、受け取った第1の画像302Aにおける望ましくない画素変化に対応することができる。口径食は、受け取った第1の画像302Aの中央部と比較した、受け取った第1の画像302Aの隅部からの黒化、鮮明さの低下又は彩度の低下に対応することができる。露光精度は、受け取った第1の画像302Aを最適な明度で取り込むことに対応することができる。色収差は、受け取った第1の画像302Aにおける色の歪みに対応することができる。レンズフレアは、明るい光に対する画像取り込み装置の反応に対応することができる。色モアレは、受け取った第1の画像302Aに現れる反復的色縞(repetitive color stripes)に対応することができる。受け取った第1の画像302Aに関連するアーチファクトは、受け取った第1の画像302A内に存在し得るいずれかの仮想オブジェクトに対応することができる。
【0048】
回路202は、決定された画質スコアに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。例えば、決定された画質スコアが高い場合、生成された第1の特徴ベクトルに関連する第1の重みには、生成された第2の特徴ベクトルに関連する第2の重みと比べて高い重み値を割り当てることができる。対照的に、決定された画質スコアが低い又はわずか(nominal)である場合、生成された第1の特徴ベクトルに関連する第1の重みには、生成された第2の特徴ベクトルに関連する第2の重みと比べて低い重み値を割り当てることができる。ある実施形態では、画質スコアが閾値を上回る場合、決定される第1の重みは決定される第2の重みよりも高いことができる。閾値は、例えば「0.4」、「0.6」及び「0.8」などの画質スコアを含むことができる。ある実施形態では、回路202を、画質スコアの閾値を設定するユーザ入力を受け取るように構成することができる。別の実施形態では、回路202を、画質スコアの閾値を自動的に設定するように構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するように構成することができる。その後、回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するようにさらに構成することができる。
【0049】
310において、次元性を低減することができる。ある実施形態では、回路202を、生成された第3の特徴ベクトルの次元性を低減するように構成することができる。いくつかの実施形態では、回路202が、生成された第3の特徴ベクトルを特徴抽出器の入力層のサイズに一致するようにサイズ変更(又は圧縮)し、サイズ変更された生成された第3の特徴ベクトルを特徴抽出器の入力層に受け渡すことができる。これにより、生成された第3の特徴ベクトルから望ましくない情報又は反復的情報を低減することができる。第3の特徴ベクトルの生成は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。例えば、生成された第3のベクトルが4096個のベクトル要素を有する「1×4096」ベクトルである場合、PCA変換の適用後には、生成された第3のベクトルを、256個のベクトル要素を有する「1×256」ベクトルに縮小することができる。PCA変換の詳細な実装は当業者に周知であると考えられ、従ってこのような変換の詳細な説明については、簡潔にするために本開示からは省略する。
【0050】
312において、類似度メトリックを決定することができる。ある実施形態では、回路202を、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。予め記憶された第2の画像セットはデータベース106に記憶することができる。ある実施形態では、回路202を、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルを生成するように構成することができる。例えば、回路202は、予め記憶された第2の画像セットの各画像にDNNモデル108、画像特徴検出モデル110、又はこれらの両方の組み合わせを適用して、それぞれの予め記憶された第2の画像の第4の特徴ベクトルを生成することができる。別の例では、各それぞれの予め記憶された第2の画像の第4の特徴ベクトルを予め決定して、それぞれの予め記憶された第2の画像と共にデータベース106に予め記憶しておくことができる。類似度メトリックは、受け取った第1の画像302Aに類似する画像を予め記憶された第2の画像セットから決定するための類似度尺度に対応することができる。このような事例では、類似する画像を識別するために、決定された類似度メトリックに基づいて、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルを予め記憶された第2の画像セットの各画像の第4の特徴ベクトルと比較することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。コサイン距離類似度では、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間のコサイン距離を決定することができる。例えば、特定の予め記憶された第2の画像の第4の特徴ベクトルが生成された第3のベクトルに対して小さなコサイン距離を有する場合、この特定の予め記憶された第2の画像を、受け取った第1の画像302Aに類似する画像のうちの1つとして識別することができる。
【0051】
314において、類似する画像を識別することができる。ある実施形態では、回路202を、決定された類似度メトリックに基づいて、予め記憶された第3の画像を予め記憶された第2の画像セットからの類似する画像として識別するように構成することができる。例えば、回路202は、類似度メトリックに基づいて、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルを、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルと比較することができる。類似度メトリックに基づいて、特定の予め記憶された第2の画像の第4の特徴ベクトルが、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルに一致すると判定された場合、回路202は、予め記憶された第2の画像セットからの特定の予め記憶された第2の画像を予め記憶された第3の画像(すなわち、類似する画像)として識別することができる。
【0052】
回路202は、識別された予め記憶された第3の画像に関連する情報を表示するように(ディスプレイ装置210などの)ディスプレイ装置を制御するようさらに構成することができる。識別された予め記憶された第3の画像に関連する情報は、以下に限定するわけではないが、予め記憶された第3の画像自体、予め記憶された第3の画像に関連するメタデータ、第3の特徴ベクトルと第4の特徴ベクトルとの間の特徴マップ、予め記憶された第3の画像のファイルサイズ、予め記憶された第3の画像に関連する記憶位置、又は予め記憶された第3の画像に関連するファイルダウンロード経路などの情報を含むことができる。ある実施形態では、識別された予め記憶された第3の画像が、予め記憶された第2のビデオに対応することができる。予め記憶された第2のビデオは第1のビデオに関連することができる。例えば、予め記憶された第3の画像は、予め記憶された第2のビデオ内の画像フレームセットからの画像フレームのうちの1つとすることができる。ある実施形態では、第1のビデオから第1の画像302Aを抽出することができる。予め記憶された第3の画像は、受け取った第1の画像302Aに関連又は類似することができるので、予め記憶された第2のビデオは、第1のビデオに関連又は類似することができる。
【0053】
図3に示す例として、DNNモデル108及び(SIFTベースのモデルなどの)画像特徴検出モデル110に基づいて識別できる識別された予め記憶された第3の画像に関連する情報314Aを示す。情報314Aは、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、識別された予め記憶された第3の画像に関連する第4の特徴ベクトルとの間の特徴マップを含むことができる。図3に示す例として、DNNモデル108及び(SURFベースのモデルなどの)画像特徴検出モデル110に基づいて識別できる識別された予め記憶された第3の画像に関連する情報314Bをさらに示す。情報314Bも、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、識別された予め記憶された第3の画像に関連する第4の特徴ベクトルとの間の特徴マップを含むことができる。
【0054】
上述したように、開示する電子装置102は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを自動的に生成することができる。この結果、第3の特徴ベクトルは、DNNモデル108によって決定できる第1の画像特徴セットと、画像特徴検出モデル110によって決定できる第2の画像特徴セットとを含むことができる。第1の画像特徴セットは、受け取った第1の画像302A(例えば、人物の顔の画像)に関連する高水準な画像特徴(例えば、目、鼻、耳、髪などの顔の特徴)を含むことができ、第2の画像特徴セットは、低水準な画像特徴(例えば、点、エッジ、線、輪郭、又は顔の基本オブジェクト及び形状)を含むことができる。高水準画像特徴及び低水準画像特徴の両方を第3の特徴ベクトルに含めることで、類似する画像の識別を補完し合うことができる。あるシナリオでは、第1の画像特徴セットが、受け取った第1の画像302A内に存在し得る全ての特徴を検出して抽出しないことがある。例えば、いくつか特徴がDNNモデル108によって誤検出され又は未検出のままの場合がある。例えば、受け取った第1の画像302AがDNNモデル108の訓練データセット112内で十分に表現されていない画像である場合、第1の画像特徴セットは、受け取った第1の画像に類似する画像を予め記憶された第2の画像セットから識別できるほど十分なものでない可能性がある。しかしながら、第2の画像特徴セット(すなわち、画像特徴検出モデル110によって決定される第2の画像特徴セット)は、受け取った第1の画像302Aに関連する低水準画像特徴を含むことができるので、第2の画像特徴セットを第3の特徴ベクトルに含めることで、受け取った第1の画像302Aに類似する画像を予め記憶された第2の画像セットから識別する精度をさらに高めることができる。例えば、画像の品質が良くない場合(例えば、解像度が低い不鮮明な画像の場合)、第1の画像特徴セット(すなわち、高水準画像特徴)は、類似する画像を識別するできるほど十分なものでない可能性がある。このような場合には、第2の画像特徴(すなわち、低水準画像特徴)の方が、類似する画像の識別にとって有用かつ正確な場合がある。
【0055】
図4は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な方法を示すフローチャートである。図4の説明は、図1図2及び図3の要素に関連して行う。図4にはフローチャート400を示す。フローチャート400に示す方法は、電子装置102又は回路202などのいずれかのコンピュータシステムによって実行することができる。方法は402から開始して404に進むことができる。
【0056】
404において、(第1の画像302Aなどの)第1の画像を受け取ることができる。1又は2以上の実施形態では、回路202を、第1の画像302Aを受け取るように構成することができる。第1の画像302Aを受け取ることについては、例えば図3(の302)でさらに説明している。
【0057】
406において、受け取った(例えば、第1の画像302A)第1の画像に関連する(第1の画像特徴セット304Aなどの)第1の画像特徴セットをディープニューラルネットワーク(DNN)モデル(例えば、DNNモデル108)によって抽出することができる。1又は2以上の実施形態では、回路202を、受け取った第1の画像302Aに関連する第1の画像特徴セット304AをDNNモデル108によって抽出するように構成することができる。第1の画像特徴セット304Aの抽出については、例えば図3(の304)でさらに説明している。
【0058】
408において、抽出された第1の画像特徴セット304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成することができる。回路202は、抽出された第1の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成するように構成することができる。第1の特徴ベクトルの生成については、例えば図3(の304)でさらに説明している。
【0059】
410において、受け取った第1の画像302Aに関連する(第2の画像特徴セット306Aなどの)第2の画像特徴セットを画像特徴検出モデル(例えば、画像特徴検出モデル110)によって抽出することができる。1又は2以上の実施形態では、回路202を、受け取った第1の画像302Aに関連する第2の画像特徴セット306Aを画像特徴検出モデル110によって抽出するように構成することができる。画像特徴検出モデル110は、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含む。第2の画像特徴セット306Aの抽出については、例えば図3(の306)でさらに説明している。
【0060】
412において、抽出された第2の画像特徴セット306Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成することができる。1又は2以上の実施形態では、回路202を、抽出された第2の画像特徴セット306Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成するように構成することができる。第2の特徴ベクトルの生成については、例えば図3(の306)でさらに説明している。
【0061】
414において、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成することができる。1又は2以上の実施形態では、回路202を、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成するように構成することができる。第3の特徴ベクトルの生成は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。第3の特徴ベクトルの生成については、例えば図3(の308)でさらに説明している。
【0062】
416において、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することができる。1又は2以上の実施形態では、回路202を、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。ある例では、類似度メトリックが、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含むことができる。類似度メトリックの決定については、例えば図3(の312)でさらに説明している。
【0063】
418において、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから(予め記憶された第3の画像などの)予め記憶された第3の画像を識別することができる。1又は2以上の実施形態では、回路202を、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから予め記憶された第3の画像を識別するように構成することができる。予め記憶された第3の画像の識別については、例えば図3(の314)でさらに説明している。
【0064】
420において、識別された予め記憶された第3の画像に関連する情報を表示するように(ディスプレイ装置210などの)ディスプレイ装置を制御することができる。回路202は、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置210を制御するよう構成することができる。ディスプレイ装置210の制御については、例えば図3(の314)でさらに説明している。制御は終了に進む。
【0065】
フローチャート400については、404、406、408、410、412、416、418及び420などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、特定の実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。
【0066】
本開示の様々な実施形態は、機械及び/又は(電子装置102などの)コンピュータによって実行可能な命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。命令は、機械及び/又はコンピュータに(第1の画像302Aなどの)第1の画像を受け取ることを含む動作を実行させることができる。動作は、受け取った第1の画像302Aに関連する(第1の画像特徴セット304Aなどの)第1の画像特徴セットを(DNNモデル108などの)ディープニューラルネットワーク(DNN)モデルによって抽出することをさらに含むことができる。動作は、抽出された第1の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成することをさらに含むことができる。動作は、受け取った第1の画像302Aに関連する(第2の画像特徴セット306Aなどの)第2の画像特徴セットを(画像特徴検出モデル110などの)画像特徴検出モデルによって抽出することをさらに含むことができる。動作は、抽出された第2の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成することをさらに含むことができる。動作は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成することをさらに含むことができる。動作は、受け取った第1の画像に関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することをさらに含むことができる。動作は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから予め記憶された第3の画像を識別することをさらに含むことができる。動作は、識別された予め記憶された第3の画像に関連する情報を表示するように(ディスプレイ装置210などの)ディスプレイ装置を制御することをさらに含むことができる。
【0067】
本開示の例示的な態様は、(回路202などの)回路を含む(図1の電子装置102などの)電子装置を提供することができる。回路202は、第1の画像302Aを受け取るように構成することができる。回路202は、受け取った第1の画像302Aに関連する(第1の画像特徴セット304Aなどの)第1の画像特徴セットをディープニューラルネットワーク(DNN)モデル108によって抽出するように構成することができる。回路202は、抽出された第1の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成するように構成することができる。回路202は、受け取った第1の画像302Aに関連する(第2の画像特徴セット306Aなどの)第2の画像特徴セットを画像特徴検出モデル110によって抽出するように構成することができる。回路202は、抽出された第2の画像特徴306Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成するように構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成するように構成することができる。回路202は、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。回路202は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから予め記憶された第3の画像を識別するように構成することができる。回路202は、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置210を制御するよう構成することができる。
【0068】
ある実施形態によれば、画像特徴検出モデル110は、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含むことができる。
【0069】
ある実施形態によれば、第3の特徴ベクトルの生成は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。ある実施形態によれば、類似度メトリックは、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含むことができる。
【0070】
ある実施形態によれば、回路202は、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを、DNNモデル108及び画像特徴検出モデル110とは異なる(機械学習モデル316などの)機械学習モデルによって決定するようにさらに構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。
【0071】
ある実施形態によれば、回路202は、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取るようにさらに構成することができる。回路202は、受け取ったユーザ入力に基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。
【0072】
ある実施形態によれば、回路202は、DNNモデル108によって、受け取った第1の画像302AをDNNモデル108に関連する画像タグの組からの第1の画像タグに分類するようにさらに構成することができる。回路202は、DNNモデル108に関連する(訓練データセット112などの)訓練データセット内で、第1の画像タグに関連する第1の画像カウントを決定するように構成される。回路202は、第1の画像タグに関連する画像の決定された第1のカウントに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。
【0073】
ある実施形態によれば、回路202は、抽出された第1の画像特徴セット304A又は抽出された第2の画像特徴セット306Aの少なくとも一方に基づいて、受け取った第1の画像302Aに関連する画質スコアを決定するように構成することができる。回路202は、決定された画質スコアに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。ある実施形態によれば、画質スコアは、以下に限定するわけではないが、受け取った第1の画像302Aに関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ又はアーチファクトのうちの少なくとも1つに対応することができる。
【0074】
ある実施形態によれば、回路202は、第1のビデオと、予め記憶された第2のビデオに対応できる識別された予め記憶された第3の画像とから、第1の画像302Aを抽出するようにさらに構成することができる。予め記憶された第2のビデオは第1のビデオに関連することができる。
【0075】
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
【0076】
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0077】
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
【符号の説明】
【0078】
102 電子装置
104 サーバ
106 データベース
108 ディープニューラルネットワーク(DNN)モデル
110 画像特徴検出モデル
112 訓練データセット
114 通信ネットワーク
116 ユーザ
図1
図2
図3
図4
【国際調査報告】