IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特許7668312視覚検索クエリのためのインテリジェントなシステムおよび方法
<>
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図1
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図2
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図3
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図4
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図5
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図6
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図7
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図8
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図9
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図10
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図11
  • 特許-視覚検索クエリのためのインテリジェントなシステムおよび方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-16
(45)【発行日】2025-04-24
(54)【発明の名称】視覚検索クエリのためのインテリジェントなシステムおよび方法
(51)【国際特許分類】
   G06F 16/538 20190101AFI20250417BHJP
   G06F 16/535 20190101ALI20250417BHJP
【FI】
G06F16/538
G06F16/535
【請求項の数】 11
【外国語出願】
(21)【出願番号】P 2023129236
(22)【出願日】2023-08-08
(62)【分割の表示】P 2021152254の分割
【原出願日】2021-09-17
(65)【公開番号】P2023162232
(43)【公開日】2023-11-08
【審査請求日】2023-09-06
(31)【優先権主張番号】17/025,435
(32)【優先日】2020-09-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ブレット・アラジン・バロス
(72)【発明者】
【氏名】ジョシュア・リー・フリートウッド
(72)【発明者】
【氏名】パウロ・ジョゼ・テロ・コエーリョ
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2019-194815(JP,A)
【文献】米国特許出願公開第2016/0063106(US,A1)
【文献】特開2019-149058(JP,A)
【文献】特開2016-201135(JP,A)
【文献】特開2010-113570(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すコンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたときに、前記コンピューティングシステムに複数の動作を実行させる命令を記録する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記複数の動作が、
オブジェクトを示す画像を含む前記視覚検索クエリを取得する動作と、
複数の異なる項目を記述するグラフにアクセスする動作であって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられ、前記複数の異なる項目を記述する前記グラフが、前記複数の異なる項目の階層表現を含む、動作と、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択する動作であって、
前記視覚検索クエリに基づいて、前記画像において示される前記オブジェクトに対応する前記グラフにおける1次項目を識別する動作と、
前記グラフの前記階層表現内の前記1次項目に関係する前記グラフ内の1つまたは複数の追加の項目を識別する動作と、
前記1次項目および前記1つまたは複数の追加の項目を前記複数の選択項目として選択する動作と
を含む、選択する動作と、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻す動作であって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、動作と
を含む、コンピューティングシステム。
【請求項2】
前記複数の異なる項目を記述する前記グラフが、複数のインデックス付きの画像に対応する複数のノードを含み、
前記グラフ内のノードのペア間の距離が、インデックス付きの画像の対応するペア間の視覚的類似性と逆比例関係にあるように、前記複数のノードが、前記インデックス付きの画像の間の視覚的類似性に少なくとも部分的に基づいて前記グラフ内に配置される、請求項1に記載のコンピューティングシステム。
【請求項3】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すコンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたときに、前記コンピューティングシステムに複数の動作を実行させる命令を記録する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記複数の動作が、
オブジェクトを示す画像を含む前記視覚検索クエリを取得する動作と、
複数の異なる項目を記述するグラフにアクセスする動作であって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられる、動作と、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択する動作と、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻す動作であって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、動作と
を含み、
前記複数の異なる項目を記述する前記グラフが、複数のインデックス付きの画像に対応する複数のノードを含み、
前記グラフ内のノードのペア間の距離が、インデックス付きの画像の対応するペア間の視覚的類似性と逆比例関係にあるように、前記複数のノードが、前記インデックス付きの画像の間の視覚的類似性に少なくとも部分的に基づいて前記グラフ内に配置され、
前記グラフの前記複数のノードが、複数のクラスタに配置され、
前記視覚検索クエリに基づいて前記グラフから前記複数の選択項目を選択する動作が、
エッジしきい値アルゴリズムを実行して、前記複数のクラスタの1次クラスタを識別する動作と、
前記1次クラスタに含まれる前記ノードを前記複数の選択項目として選択する動作と
を含む、コンピューティングシステム。
【請求項4】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すコンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたときに、前記コンピューティングシステムに複数の動作を実行させる命令を記録する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記複数の動作が、
オブジェクトを示す画像を含む前記視覚検索クエリを取得する動作と、
複数の異なる項目を記述するグラフにアクセスする動作であって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられる、動作と、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択する動作と、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻す動作であって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、動作と
を含み、
前記複数の異なる項目を記述する前記グラフが、複数のインデックス付きの画像に対応する複数のノードを含み、
前記グラフ内のノードのペア間の距離が、インデックス付きの画像の対応するペア間の視覚的類似性と逆比例関係にあるように、前記複数のノードが、前記インデックス付きの画像の間の視覚的類似性に少なくとも部分的に基づいて前記グラフ内に配置され、
前記視覚検索クエリに基づいて前記グラフから前記複数の選択項目を選択する動作が、
エッジしきい値アルゴリズムを実行して、前記画像により示される前記オブジェクトに対して視覚的に類似する複数の視覚的類似ノードを識別する動作と、
前記複数の選択項目として前記視覚的類似ノードを選択する動作と
を含む、コンピューティングシステム。
【請求項5】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すコンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたときに、前記コンピューティングシステムに複数の動作を実行させる命令を記録する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記複数の動作が、
オブジェクトを示す画像を含む前記視覚検索クエリを取得する動作と、
複数の異なる項目を記述するグラフにアクセスする動作であって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられる、動作と、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択する動作と、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻す動作であって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、動作と
を含み、
前記複数の動作が、
ユーザに関連付けられ、前記ユーザの視覚的関心を記述するユーザ固有のユーザ関心データにアクセスする動作をさらに含み、
前記視覚検索クエリに基づいて前記グラフから複数の選択項目を選択する動作が、前記視覚検索クエリに基づくとともに、前記ユーザ固有のユーザ関心データにさらに基づいて、前記グラフから複数の選択項目を選択する動作を含む、コンピューティングシステム。
【請求項6】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すためにコンピューティングシステムにより実行される方法であって、
オブジェクトを示す画像を含む前記視覚検索クエリを取得するステップと、
複数の異なる項目を記述するグラフにアクセスするステップであって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられ、前記複数の異なる項目を記述する前記グラフが、前記複数の異なる項目の階層表現を含む、ステップと、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択するステップであって、
前記視覚検索クエリに基づいて、前記画像において示される前記オブジェクトに対応する前記グラフにおける1次項目を識別するステップと、
前記グラフの前記階層表現内の前記1次項目に関係する前記グラフ内の1つまたは複数の追加の項目を識別するステップと、
前記1次項目および前記1つまたは複数の追加の項目を前記複数の選択項目として選択するステップと
を含む、選択するステップと、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻すステップであって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、ステップと
を含む、方法。
【請求項7】
前記複数の異なる項目を記述する前記グラフが、複数のインデックス付きの画像に対応する複数のノードを含み、
前記グラフ内のノードのペア間の距離が、インデックス付きの画像の対応するペア間の視覚的類似性と逆比例関係にあるように、前記複数のノードが、前記インデックス付きの画像の間の視覚的類似性に少なくとも部分的に基づいて前記グラフ内に配置される、請求項6に記載の方法。
【請求項8】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すためにコンピューティングシステムにより実行される方法であって、
オブジェクトを示す画像を含む前記視覚検索クエリを取得するステップと、
複数の異なる項目を記述するグラフにアクセスするステップであって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられる、ステップと、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択するステップと、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻すステップであって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、ステップと
を含み、
前記複数の異なる項目を記述する前記グラフが、複数のインデックス付きの画像に対応する複数のノードを含み、
前記グラフ内のノードのペア間の距離が、インデックス付きの画像の対応するペア間の視覚的類似性と逆比例関係にあるように、前記複数のノードが、前記インデックス付きの画像の間の視覚的類似性に少なくとも部分的に基づいて前記グラフ内に配置され、
前記グラフの前記複数のノードが、複数のクラスタに配置され、
前記視覚検索クエリに基づいて前記グラフから前記複数の選択項目を選択するステップが、
エッジしきい値アルゴリズムを実行して、前記複数のクラスタの1次クラスタを識別するステップと、
前記1次クラスタに含まれる前記ノードを前記複数の選択項目として選択するステップと
を含む、方法。
【請求項9】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すためにコンピューティングシステムにより実行される方法であって、
オブジェクトを示す画像を含む前記視覚検索クエリを取得するステップと、
複数の異なる項目を記述するグラフにアクセスするステップであって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられる、ステップと、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択するステップと、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻すステップであって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、ステップと
を含み、
前記複数の異なる項目を記述する前記グラフが、複数のインデックス付きの画像に対応する複数のノードを含み、
前記グラフ内のノードのペア間の距離が、インデックス付きの画像の対応するペア間の視覚的類似性と逆比例関係にあるように、前記複数のノードが、前記インデックス付きの画像の間の視覚的類似性に少なくとも部分的に基づいて前記グラフ内に配置され、
前記視覚検索クエリに基づいて前記グラフから前記複数の選択項目を選択するステップが、
エッジしきい値アルゴリズムを実行して、前記画像により示される前記オブジェクトに対して視覚的に類似する複数の視覚的類似ノードを識別するステップと、
前記複数の選択項目として前記視覚的類似ノードを選択するステップと
を含む、方法。
【請求項10】
視覚検索クエリに応じて複数のカノニカル項目に関するコンテンツを戻すためにコンピューティングシステムにより実行される方法であって、
オブジェクトを示す画像を含む前記視覚検索クエリを取得するステップと、
複数の異なる項目を記述するグラフにアクセスするステップであって、コンテンツのそれぞれのセットが、前記複数の異なる項目の各々と関連付けられる、ステップと、
前記視覚検索クエリに基づいて、前記画像により示される前記オブジェクトに関するグラフから、複数の選択項目を選択するステップと、
前記視覚検索クエリに応答して、コンテンツの組み合わされたセットを検索結果として戻すステップであって、コンテンツの前記組み合わされたセットが、前記複数の選択項目の各々に関連付けられたコンテンツの前記それぞれのセットの少なくとも一部を含む、ステップと
を含み、
前記方法が、ユーザに関連付けられ、前記ユーザの視覚的関心を記述するユーザ固有のユーザ関心データにアクセスするステップをさらに含み、
前記視覚検索クエリに基づいて前記グラフから複数の選択項目を選択するステップが、前記視覚検索クエリに基づくとともに、前記ユーザ固有のユーザ関心データにさらに基づいて、前記グラフから複数の選択項目を選択するステップを含む、方法。
【請求項11】
請求項6から10のうちのいずれか一項に記載の方法を前記コンピューティングシステムに実行させる命令を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、視覚検索クエリを処理するためのシステムおよび方法に関する。より詳細には、本開示は、視覚クエリ内に含まれた画像内のオブジェクトを検出および認識し、より個人化された(personalized)かつ/またはインテリジェントな検索結果を提供するために使用され得る、コンピュータ視覚検索システムに関する。
【背景技術】
【0002】
テキストベースまたは用語ベースの検索は、ユーザが語または句を検索エンジン内に入力し、様々な結果を受信するプロセスである。用語ベースのクエリは、ユーザが語、句、および/または他の用語の形態で検索用語を明示的に提供することを必要とする。したがって、用語ベースのクエリは、テキストベースの入力モダリティによって本質的に限定され、ユーザが像の視覚的特性に基づいて検索することを可能にしない。
【0003】
代替として、視覚検索クエリシステムは、1つまたは複数の画像を含む視覚クエリに応じて、ユーザに検索結果を提供し得る。コンピュータ視覚解析技法は、画像内のオブジェクトを検出および認識するために使用され得る。たとえば、光学文字認識(OCR)技法は、画像内のテキストを認識するために使用され得、かつ/またはエッジ検出技法または他のオブジェクト検出技法(たとえば、機械学習ベースの手法)は、画像内のオブジェクト(たとえば、製品、ランドマーク、動物など)を検出するために使用され得る。検出されたオブジェクトに関するコンテンツがユーザ(たとえば、オブジェクトが検出された画像をキャプチャしたユーザ、またはそうでなければ視覚クエリを提出した、もしく視覚クエリに関連するユーザ)に提供され得る。
【0004】
しかしながら、いくつかの既存の視覚クエリシステムは、いくつかの欠点を有する。一例として、現在の視覚検索クエリシステムおよび方法は、配色、形状など、明示的な視覚的特性に関して視覚クエリに関係し得るだけの結果、または視覚クエリの画像と同じ品目/オブジェクトを示す結果をユーザに提供することができるにすぎない。言い方を変えれば、いくつかの既存の視覚クエリシステムは、クエリ画像に対するいくつかの同様の視覚的特性を含む他の画像の識別のみに焦点を当てており、これはユーザの真の検索意図を反映することができない可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、視覚クエリをよりインテリジェントに処理して、改善された検索結果をユーザに提供し得るシステムが望ましいことになる。
【課題を解決するための手段】
【0006】
本開示の実施形態の態様および利点は、以下の説明に部分的に記載されることになるか、もしくはその説明から学ぶことが可能であるか、またはこれらの実施形態の実践を通して学ぶことが可能である。
【0007】
本開示の1つの例示的な態様は、個人化された視覚検索クエリ結果通知を像上にオーバーレイされたユーザインターフェース内に提供するためのコンピュータ実装方法を対象とする。この方法は、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムが、ユーザに関連する視覚検索クエリを取得するステップであって、視覚検索クエリが画像を含む、取得するステップを含む。この方法は、コンピューティングシステムが、視覚検索クエリに対する複数の候補検索結果を識別するステップであって、各候補検索結果が、画像の特定のサブ部分に関連付けられ、複数の候補視覚結果通知が、複数の候補検索結果にそれぞれ関連付けられる、識別するステップを含む。この方法は、コンピューティングシステムが、ユーザに関連し、かつユーザの視覚的関心を記述する、ユーザ固有のユーザの関心データにアクセスするステップを含む。この方法は、コンピューティングシステムが、ユーザに関連するユーザ固有のユーザの関心データに対する複数の候補検索結果の比較に少なくとも部分的に基づいて、複数の候補検索結果のランク付けを生成するステップを含む。この方法は、コンピューティングシステムが、ランク付けに少なくとも部分的に基づいて、少なくとも1つの選択された検索結果として、複数の候補検索結果のうちの少なくとも1つを選択するステップを含む。この方法は、コンピューティングシステムが、選択された検索結果に関連する画像の特定のサブ部分上にオーバーレイするために、少なくとも1つの選択された検索結果にそれぞれ関連する少なくとも1つの選択された視覚結果通知を提供するステップを含む。
【0008】
本開示の別の例示的な態様は、視覚検索クエリに応じて、複数のカノニカル項目に関するコンテンツを戻すコンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実行させる命令を記憶した、1つまたは複数の非一時的コンピュータ可読媒体とを含む。これらの動作は、視覚検索クエリを取得することであって、視覚検索クエリが、オブジェクトを示す画像を含む、取得することを含む。これらの動作は、複数の異なる項目を記述するグラフにアクセスすることであって、コンテンツのそれぞれのセットが、複数の異なる項目の各々に関連付けられる、アクセスすることを含む。これらの動作は、視覚検索クエリに基づいて、画像が示すオブジェクトに関するグラフから複数の選択された項目を選択することを含む。これらの動作は、視覚検索クエリに応じて、コンテンツの組み合わされたセットを検索結果として戻すことであって、コンテンツの組み合わされたセットが、複数の選択された項目の各々に関連するコンテンツのそれぞれのセットの少なくとも一部分を含む、戻すことを含む。
【0009】
本開示の別の例示的な態様は、オブジェクト固有の視覚クエリとカテゴリー別(categorical)視覚クエリとの間を明確化する(disambiguate)ためのコンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実行させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含む。これらの動作は、視覚検索クエリを取得することであって、視覚検索クエリが、1つまたは複数のオブジェクトを示す画像を含む、取得することを含む。これらの動作は、視覚検索クエリ内に含まれた画像の1つまたは複数の構成特性を識別することを含む。これらの動作は、視覚検索クエリ内に含まれた画像の1つまたは複数の構成特性に少なくとも部分的に基づいて、視覚検索クエリが、視覚検索クエリ内に含まれた画像内で識別された1つまたは複数のオブジェクトに特に関係するオブジェクト固有のクエリを含むかどうか、または視覚検索クエリが、視覚検索クエリ内に含まれた画像内で識別された1つまたは複数のオブジェクトの一般カテゴリーに関係するカテゴリー別クエリを含むかどうかを判定することを含む。これらの動作は、視覚検索クエリがオブジェクト固有のクエリを含むと判定されるとき、視覚検索クエリ内に含まれた画像内で識別された1つまたは複数のオブジェクトに特に関係する、1つまたは複数のオブジェクト固有の検索結果を戻すことを含む。これらの動作は、視覚検索クエリがカテゴリー別クエリを含むと判定されるとき、視覚検索クエリ内に含まれた画像内で識別された1つまたは複数のオブジェクトの一般カテゴリーに関係する、1つまたは複数のカテゴリー別検索結果を戻すことを含む。
【0010】
本開示の別の例示的な態様は、複数の構成されたエンティティに関するコンテンツを視覚検索クエリに戻すためのコンピュータ実装方法を対象とする。この方法は、視覚検索クエリを取得するステップであって、視覚検索クエリが、第1のエンティティを示す画像を含む、取得するステップを含む。この方法は、1つまたは複数のコンテキスト信号に少なくとも部分的に基づいて、視覚検索クエリに関連する1つまたは複数の追加のエンティティを識別するステップを含む。この方法は、第1のエンティティと1つまたは複数の追加のエンティティの組合せに関するコンテンツに対して構成されたクエリを判定するステップを含む。この方法は、視覚検索クエリに応じて、コンテンツのセットを戻すステップであって、コンテンツのセットが、構成されたクエリに応じ、かつ第1のエンティティと1つまたは複数の追加のエンティティの組合せに関する、少なくとも1つのコンテンツ項目を含む、戻すステップを含む。
【0011】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0012】
本開示の様々な実施形態のこれらのおよび他の特徴、態様、および利点は、以下の説明および添付の請求項を参照するとより良く理解されるであろう。本明細書に組み込まれ、その一部分を構成する、添付の図面は、本開示の例示的な実施形態を示し、説明とともに、関係する原理の説明に役立つ。
【0013】
当業者を対象とする実施形態の詳細な考察が、添付の図面を参照する明細書に記載されている。
【図面の簡単な説明】
【0014】
図1】本開示の例示的な実施形態による例示的なコンピューティングシステムのブロック図である。
図2】本開示の例示的な実施形態によるクエリ処理システムを含む例示的な視覚検索システムのブロック図である。
図3】本開示の例示的な実施形態によるクエリ処理システムおよびランク付けシステムを含む例示的な視覚検索システムのブロック図である。
図4】本開示の例示的な実施形態による例示的な視覚検索システムおよびコンテキスト構成要素のブロック図である。
図5】いくつかの実施形態による、差異を例示するための対照的な例示的拡張現実ビジュアル(augmented reality visuals)のスクリーンショットを有するクライアントシステムを示す図である。
図6】いくつかの実施形態による、差異を例示するための、関心のある1つのオブジェクトによる対照的な例示的検索結果のスクリーンショットを有するクライアントシステムを示す図である。
図7】いくつかの実施形態による、例示的検索結果のスクリーンショットを有するクライアントシステムを示す図である。
図8】いくつかの実施形態による、差異を示すための、関心のある複数のオブジェクトによる例示的検索結果のスクリーンショットを有するクライアントシステムを示す図である。
図9】本開示の例示的な実施形態による、ユーザ中心の(user-centric)視覚的関心モデルを使用した、より個人化されたかつ/またはインテリジェントな視覚検索を実行するための例示的な方法のフローチャート図である。
図10】本開示の例示的な実施形態による、視覚検索クエリに対する複数のカノニカル項目を介してより個人化されたかつ/またはインテリジェントな視覚検索を実行するための例示的な方法のフローチャート図である。
図11】本開示の例示的な実施形態による、オブジェクト固有の視覚クエリとカテゴリー別視覚クエリとの間の明確化によって、より個人化されたかつ/またはインテリジェントな視覚検索を実行するための例示的な方法のフローチャート図である。
図12】本開示の例示的な実施形態による、関心のある複数のオブジェクトを検索クエリ内に組み込むことにより、より個人化されたかつ/またはインテリジェントな視覚検索を実行するための例示的な方法のフローチャート図である。
【発明を実施するための形態】
【0015】
複数の図にわたって繰り返される参照番号は、様々な実装形態における同じ特徴を識別することを意図する。
【0016】
概要
概して、本開示は、視覚クエリ内のまたはそれに関するオブジェクトを検出および認識し、視覚クエリに応じて、より個人化されたかつ/またはインテリジェントな検索結果を(たとえば、視覚クエリを拡張するオーバーレイの形で)提供するために使用され得るコンピュータ実装視覚検索システムを対象とする。たとえば、ユーザは、1つまたは複数の画像を含む視覚クエリを提出し得る。テキスト(たとえば、その画像、周囲の画像の中のなど)を認識するために、光学文字認識(OCR)技法など、様々な処理技法が使用可能であり、かつ/または視覚クエリ内のまたはそれに関するオブジェクト(たとえば、製品、ランドマーク、動物、人間など)を検出するために、様々なオブジェクト検出技法(たとえば、機械学習済みオブジェクト検出モデルなど)が使用可能である。検出されたテキストまたはオブジェクトに関するコンテンツが識別され、検索結果としてユーザに潜在的に提供され得る。したがって、本開示の態様は、視覚検索システムが、視覚クエリをよりインテリジェントに処理して、より個人化された検索結果を含めて、改善された検索結果を提供すること、および/または視覚クエリおよび/またはユーザの検索意図の暗示的な特性を明らかにするためにコンテキスト信号を考慮することを可能にする。
【0017】
本開示の例示的な態様は、視覚クエリに応じて、よりインテリジェントな検索結果を提供する。視覚クエリは、1つまたは複数の画像を含み得る。たとえば、視覚クエリ内に含まれた画像は、同時にキャプチャされた像であってよく、または前から存在していた画像であってよい。一例では、視覚クエリは、単一の画像を含み得る。別の例では、視覚クエリは、およそ3秒のビデオキャプチャからの10個の画像フレームを含み得る。さらに別の例では、視覚クエリは、たとえば、ユーザのフォトライブラリ内に含まれたすべての画像など、画像のコーパスを含み得る。たとえば、そのようなライブラリは、ユーザが最近キャプチャした動物園における動物の画像、少し前に(たとえば、2か月前に)ユーザがキャプチャした猫の画像、既存のソースから(たとえば、ウェブサイトまたはスクリーンキャプチャから)ユーザがライブラリ内に保存したトラの画像を含み得る。これらの画像は、ユーザに対する親和性の高い画像のクラスタを表し、ユーザが動物のようなものに「視覚的関心」を有し得るという抽象的なアイデアを(たとえば、グラフによって)具現し得る。いずれの所与のユーザも、各々が語によって十分キャプチャされない関心を表す、多くのそのようなノードクラスタを有し得る。
【0018】
1つの例示的な態様によれば、視覚検索システムは、ユーザ中心の視覚的関心グラフを構築し活用して、より個人化された検索結果を提供し得る。1つの例示的な使用では、視覚検索システムは、ユーザの関心のグラフを使用して、視覚的発見警告、通知、または他の機会をフィルタリングし得る。したがって、ユーザの関心に基づく検索結果の個人化は、検索結果がクエリ画像上の拡張オーバーレイ内に視覚結果通知(たとえば、場合によっては、「グリーム(gleams)」と呼ばれることがある)として提示される例示的な実施形態において特に有利であり得る。
【0019】
より詳細には、いくつかの実装形態では、視覚検索システムは、視覚クエリ内に含まれた画像上のオーバーレイとして検索結果に対する視覚結果通知を提供するのに役立つ拡張オーバーレイユーザインターフェースを含み得るか、または提供し得る。たとえば、視覚結果通知は、検索結果に関連する画像の部分に対応するロケーションにおいて提供され得る(たとえば、視覚結果通知は、対応する検索結果に関連するオブジェクトの「上部に」示され得る)。したがって、視覚検索クエリに応じて、複数の候補検索結果が識別され得、複数の候補視覚結果通知は、それぞれ、複数の候補検索結果に関連付けられ得る。しかしながら、基礎をなす視覚検索システムが特に強力かつ広範である場合、圧倒的な数の候補視覚結果通知が利用可能であり得、その結果、すべての候補視覚結果通知の提示は、混乱を引き起こすほどユーザインターフェースを混雑させることになるか、またはそうでなければ、基礎をなす画像を望ましくなく曖昧にさせることになる。したがって、本開示の一態様によれば、コンピュータ視覚検索システムは、ユーザ中心の視覚的関心グラフを構築し活用して、観測されたユーザの視覚的関心に基づいて、候補視覚結果通知をランク付け、選択、および/またはフィルタリングし、それにより、より直感的かつ合理化されたユーザ経験を提供し得る。
【0020】
いくつかの実装形態では、ユーザ固有の関心データ(たとえば、グラフを使用して表すことができる)は、ユーザが過去に関与した画像を解析することによって少なくとも部分的に、経時的にアグリゲートされ得る。言い方を変えれば、コンピューティングシステムは、ユーザが経時的に関与する画像を解析することによって、ユーザの視覚的関心の理解を試行し得る。ユーザが画像に関与するとき、ユーザが画像の一部の側面について関心を有すると推論され得る。したがって、そのような画像内に含まれるか、またはそうでなければ、それに関する項目(たとえば、オブジェクト、エンティティ、概念、製品など)は、ユーザ固有の関心データ(たとえば、グラフ)に追加され得るか、またはそうでなければ、その中で言及され得る。
【0021】
一例として、ユーザが関与する画像は、ユーザがキャプチャした写真、ユーザがキャプチャしたスクリーンショット、またはユーザが閲覧したウェブベースまたはアプリケーションベースのコンテンツ内に含まれた画像を含み得る。別の潜在的に重複する例では、ユーザが関与する画像は、ユーザが画像に対してアクションが実行されることを要求することによってアクティブに関与した、アクティブに関与された画像を含み得る。たとえば、要求されるアクションは、画像に対する視覚検索を実行すること、または画像がユーザの視覚的関心を含むことをユーザが明示的にマーキングすることを含み得る。別の例として、ユーザが関与する画像は、ユーザに提示されたが、ユーザが特に関与しなかった、受動的に観測された画像を含み得る。視覚的関心はまた、ユーザが入力したテキストコンテンツ(たとえば、テキストまたは用語ベースのクエリ)から推論され得る。
【0022】
いくつかの実装形態では、ユーザ中心の視覚的関心グラフ内で反映されるユーザの関心は、的確な、カテゴリー別、または抽象的な項目(たとえば、エンティティ)であり得る。たとえば、的確な関心は、特定の項目(たとえば、特定の芸術作品)に対応し得、カテゴリー別関心は、項目のカテゴリー(たとえば、アールヌーボー絵画)であり得、抽象的関心は、カテゴリー別にまたはテキストを用いてキャプチャすることが困難な関心に対応し得る(たとえば、「Gustav Klimtによる「The Kiss」に視覚的に類似するように見える芸術作品」)。
【0023】
関心は、的確な関心項目、カテゴリー別関心項目、または抽象的関心項目にわたって可変加重関心レベルをオーバーレイまたは定義すること(たとえば、次いで、周期的に更新すること)によって、ユーザ中心の視覚的関心グラフ内に示され得る。様々な項目に対するユーザの関心は、項目に対するかつ/または関係する項目(たとえば、グラフ内の項目に接続された項目、またはそこからn個のホップ内の項目)に対する可変加重関心レベルを評価することによって推論または判定され得る。
【0024】
いくつかの実装形態では、識別された視覚的関心に割り当てられた可変加重関心バイアス(variable weighted interest bias)は、ユーザ固有の関心データが表された関心の時間枠に少なくとも部分的に基づくように、経時的に減衰する。たとえば、ユーザは、ある持続時間にわたって特定の話題に強い関心を表し、次いで、その後、関心をまったく表さないことがある(たとえば、ユーザは、一年間、特定のバンドに強い関心を表すことがある)。ユーザの関心データは、関心に対するユーザの変化を反映するように経時的に減衰し得、十分な減衰が生じた場合、結果として、視覚検索システムは、ユーザがもはや関心をもたない話題に関するクエリ結果をユーザに引き続き示さなくてよい。
【0025】
したがって、いくつかの実装形態では、視覚的関心グラフは、(たとえば、ユーザが履歴的に見た多くの画像に基づく)ユーザの関心/個人化の記述的収集物であり得る。グラフは、多くの画像の属性を履歴的に解析し、その情報を使用して、他の関心画像(たとえば、ニュース記事の収集物など、概して関連するコンテンツ)を見出すことによって構築され得る。
【0026】
視覚検索システムは、ユーザ固有のユーザの関心データを使用して、ユーザに関連するユーザ固有のユーザの関心データに対する複数の候補検索結果の比較に少なくとも部分的に基づいて、複数の候補検索結果のランク付けを生成し得る。たとえば、候補検索結果に関連する初期検索スコアを修正または再重み付けするために、項目に対する重みが加えられてよい。
【0027】
検索システムは、ランク付けに少なくとも部分的に基づいて、少なくとも1つの選択された検索結果として複数の候補検索結果のうちの少なくとも1つを選択し、次いで、選択された検索結果に関連する画像の特定のサブ部分上にオーバーレイするために、少なくとも1つの選択された検索結果にそれぞれ関連する少なくとも1つの選択された視覚結果通知を提供し得る。そのような様式で、ユーザの関心は、個人化された検索結果を提供し、ユーザインターフェース内のクラッターを低減するために使用され得る。
【0028】
別の例では、ユーザ中心の視覚的関心グラフは、視覚的情報および関心に基づいて、ユーザ固有のフィードをキュレートするために使用され得る。具体的には、フィード内で、単一の特定の画像に基づかずに、個人化されたコンテンツのセットがユーザに表示され得る。むしろ、前の画像の収集物の解析は、たとえば、画像(および/または、示されたエンティティなど、画像メタデータ)をノードとして、次いで、これらのノード同士の間の接続を関心の強度を判定するエッジとして用いて、上記で説明したようにグラフを確立し得る。新しい視覚的メディア項目(たとえば、画像またはビデオ)はまた、その場合、そのグラフに鑑みて、ユーザの関心に対して関連する「強度」を有し得る。この新しいメディアは、次いで、前のクエリなしに(たとえば、ブラウザアプリケーション内で新しいタブを開くなど、一定のコンテキスト内でユーザに提供されるフィードの一部として)ユーザにプロアクティブに示唆され得る。
【0029】
上記の説明に加えて、明細書で説明するシステム、プログラム、または特徴が、ユーザ情報(たとえば、ユーザのソーシャルネットワーク、ソーシャルアクションもしくは活動、専門、ユーザの選好、またはユーザの現在のロケーションに関する情報)の収集を可能にし得る場合と、ユーザにサーバから同意または通信が送られる場合の両方に対して、ユーザが選択することを可能にする制御がユーザに提供され得る。加えて、一定のデータは、個人的に識別可能な情報が除去されるように、そのデータが記憶または使用される前に、1つまたは複数の方法で処理され得る。たとえば、ユーザの識別情報は、ユーザに関する個人的に識別可能な情報を判定することができないように扱われることが可能であり、または(市、郵便番号、または州レベルでなど)ロケーション情報が取得される場合、ユーザの特定のロケーションを判定することができないように、ユーザの地理的ロケーションは一般化され得る。したがって、ユーザは、ユーザに関して何の情報が収集されるか、その情報がどのように使用されるか、また何の情報がユーザに提供されるか、に対して制御を有し得る。
【0030】
別の態様によれば、コンピュータ実装視覚検索システムは、視覚検索クエリに応じて、複数のカノニカル項目に関するコンテンツ(たとえば、ユーザ生成コンテンツ)の組み合わされたセットを識別して戻すことができる。具体的には、視覚検索クエリは検索入力のより表現的かつ流動的なモダリティを可能にするため、ユーザ意図の粒度とオブジェクトの両方を理解することは困難なタスクである。たとえば、ユーザが特定の映画を観たばかりであると想像されたい。その映画に関するコンテンツを受信することに対するユーザの関心を反映することになる視覚クエリとしてユーザが提出し得るかなりの量の視覚的コンテンツが存在する。それは、エンドクレジット、映画の物理的媒体(たとえば、ディスク)、パッケージカバー、映画に対する領収書、または翌日に映画のことをユーザに思い出させる予告編であり得る。したがって、世界規模の像を特定の項目にマッピングすることは、困難な問題である。反対に、ユーザのクエリの意図された粒度を理解することは困難である。たとえば、特定の映画に対するパッケージカバーを示す画像を含む視覚クエリは、その特定の映画に関するコンテンツ、その映画の中の役者に関するコンテンツ、映画の監督に関するコンテンツ、パッケージカバーを生成したアーティストに関するコンテンツ、その映画と同じジャンル(たとえば、ホラー)の映画に関するコンテンツ、またはその映画の特定のバージョン(たとえば、2020年「ディレクターズカット」リリースとその映画のすべてのバージョン、DVDバージョンとBlu-Rayバージョンなど)に特に関するコンテンツなど、さらにより特定のコンテンツに対する検索を意図し得る。
【0031】
本開示は、視覚検索クエリに応じて、複数のカノニカル項目に関するコンテンツの組み合わされたセットを戻すことを可能にすることによって、これらの課題を解決する。具体的には、オブジェクトを示す画像を含む視覚検索クエリに応じて、視覚検索システムは、複数の異なる項目を記述するグラフにアクセスすることができ、コンテンツ(たとえば、製品レビューなど、ユーザ生成コンテンツ)のそれぞれのセットは、複数の異なる項目の各々に関連付けられる。視覚検索システムは、視覚検索クエリに基づいて、画像が示したオブジェクトに関するグラフから複数の選択された項目を選択し、次いで、コンテンツの組み合わされたセットを検索結果として戻すことができ、ここで、コンテンツの組み合わされたセットは、各選択された項目に関連するコンテンツのそれぞれのセットの少なくとも一部分を含む。複数のカノニカル項目に関するコンテンツを戻すことによって、視覚検索システムは、視覚クエリ内で認識され得る特定のエンティティに固有のオーバーレイである結果を提供することを回避し得る。上記の例を続けると、いくつかの既存のシステムは映画の2020年「ディレクターズカット」リリースのみに関するコンテンツを戻すことができるが、提案するシステムは、2020年「ディレクターズカット」リリースに関するコンテンツだけでなく、映画の中の役者に関するコンテンツ、映画の監督に関するコンテンツ、パッケージカバーを生成したアーティストに関するコンテンツなど、他の関係エンティティに関するコンテンツも戻すことができる。
【0032】
グラフからの項目の選択を可能にするために、様々な技法が使用され得る。「美的な2次」視覚検索(たとえば、抽象的な美的特性ではなく、特定の項目に関する情報を探索している検索)の有利な処理を可能にし得る一例では、グラフは、複数の異なる項目の階層表現であり得る。グラフから複数の選択された項目を選択することは、視覚検索クエリに基づいて、画像内に示されたオブジェクト(たとえば、画像内に示された特定の映画)に対応する、グラフ内の1次項目を識別することを含み得る。次に、視覚検索システムは、グラフの階層表現内の1次項目に関する、グラフ内の1つまたは複数の項目を識別し、複数の選択された項目として、1次項目および1つまたは複数の追加項目を選択し得る。追加の項目は、同じ階層レベル(たとえば、同じ監督による他の映画)であってよく、「より高い」階層レベル(たとえば、同じジャンルの他の映画)であってよく、かつ/または「より低い」階層レベル(たとえば、映画の2020年「ディレクターズカット」リリースおよび1990年の元の劇場版リリース)であってよい。
【0033】
「美的な1次」視覚検索(たとえば、特定のカノニカル項目ではなく、抽象的な視覚的または美的な特性に関するコンテンツを探求している検索)の有利な処理を可能にし得る別の例では、複数の異なる項目を記述するグラフは、複数のインデックス付き画像に対応する複数のノードを含み得る。複数のノードは、グラフ内の対のノード同士の間の距離が対応する対のインデックス付き画像同士の間の視覚的類似性と逆比例関係にある(すなわち、より類似性の高い画像に対するノードはグラフ内で互いに「より近い」)ように、インデックス付き画像同士の間の視覚的類似性に少なくとも部分的に基づいて、グラフ内に配置され得る。一例では、グラフの複数のノードは、複数のクラスタになるように配置可能であり、視覚検索クエリに基づいて、グラフから複数の選択された項目を選択することは、複数のクラスタの1次クラスタを識別するためのエッジしきい値アルゴリズムを実行することと、複数の選択された項目として、1次クラスタ内に含まれたノードを選択することとを含み得る。別の例では、視覚検索システムは、エッジしきい値アルゴリズムを実行して、(たとえば、クラスタを識別するのとは対照的に)画像が示したオブジェクトに視覚的に類似する複数の視覚的類似ノードを直接的に識別し得る。視覚検索システムは、複数の選択された項目として、視覚的類似ノードを選択し得る。製品画像検索がマッチし得る「エッジ」または「ディメンション」の例は、カテゴリー(たとえば、「ドレス」)、属性(たとえば、「ノースリーブ」)など、認識派生属性、または機械抽出視覚的特徴または機械生成視覚的埋込みなど、機械生成視覚属性を含めて、「明色アクセントがある暗色」、「明色アクセントが、色空間全体の40%を構成する細線」など、他の意味的ディメンションおよび/または視覚的属性を含む。
【0034】
したがって、視覚検索システムが、ユーザのクエリを「オーバーフィット(overfitting)」させ、ユーザのクエリの意図された焦点ではない可能性がある単一の特定の項目のみに関するコンテンツを戻すのではなく、視覚クエリをよりインテリジェントに処理して、複数のカノニカル項目に関するコンテンツを戻すことを可能にする例示的な技法が提供される。
【0035】
別の態様によれば、コンピュータ実装視覚検索システムは、クエリ画像内に示された特定のオブジェクトとカテゴリー別結果との間の視覚クエリをインテリジェントに明確化し得る。具体的には、オブジェクト固有のクエリとカテゴリー別クエリとを明確化することは、ユーザ意図の粒度およびオブジェクトの理解に関連する課題のもう1つの例である。たとえば、ユーザがシリアルボックスの画像および「どちらが最も多く食物繊維を有するか」を要求するクエリ(たとえば、テキストまたは発話クエリ)を提出すると想像されたい。ユーザの意図が、視覚クエリ内に具体的に含まれたシリアルの中から最も食物繊維が多いシリアルを判定することであるか、またはユーザの意図が、一般的に最も食物繊維が多いシリアルを判定することであるかを見分けることは困難であり得る。提出された画像、ならびにユーザに同じ結果を戻させる可能性があるクエリに対してかなりの変形態が存在し、このタスクの困難さをさらに浮き彫りにする。
【0036】
本開示は、視覚検索クエリがオブジェクト固有のクエリを含むかまたはカテゴリー別クエリを含むかを判定し、次いで、本質的にオブジェクト固有またはカテゴリー別であるコンテンツを戻すことによって、これらの課題を解決する。具体的には、コンピュータ視覚検索システムは、追加のコンテキスト号または情報を使用して、視覚クエリ内に存在する複数の異なるオブジェクト同士の間の関係を明らかにする、よりインテリジェントな検索結果を提供することができる。具体的には、一例として、視覚検索システムは、視覚クエリ内に含まれた画像の1つまたは複数の構成特性を識別し得る。視覚検索システムは、構成特性を使用して、視覚クエリが、検索結果の拡張コーパスが関連するカテゴリー別クエリであるか、または視覚クエリ内で識別された1つまたは複数のオブジェクトに特に関係するオブジェクト固有のクエリであるかを予測し得る。上記で与えられた例を続けると、視覚検索システムは、シリアルを示す画像の構成特性を使用して、視覚クエリ画像が、すべてのシリアルに関係するか、あるブランドまたはタイプのすべてのシリアルに関係するか、または画像内に含まれたそれらのシリアルのみに関係するかを判定し得る。
【0037】
視覚検索クエリがオブジェクト固有のクエリを含むと判定するとすぐに、視覚検索システムは、視覚クエリ内で識別された1つまたは複数のオブジェクトを特に対象とする、1つまたは複数のオブジェクト固有の検索結果(たとえば、画像内でキャプチャされたシリアルからの最も高い食物繊維含有量を有するシリアル)を戻すことができる。代替として、視覚検索クエリがカテゴリー別クエリを含むと判定するとすぐに、視覚検索システムは、視覚クエリ内で識別された1つまたは複数のオブジェクトの一般的なカテゴリーを対象とする、1つまたは複数のカテゴリー別検索結果(たとえば、すべてのシリアルからの最も高い食物繊維含有量を有するシリアル、または別の例として、同じタイプまたはブランドのすべてのシリアルからの最も高い食物繊維含有量を有するシリアル)を戻すことができる。
【0038】
視覚検索システムによって使用される構成特性は、画像の様々な属性を含み得る。一例では、画像の構成特性は、(たとえば、写真をキャプチャしたカメラから)画像内で識別された1つまたは複数のオブジェクトまでの距離を含み得る。たとえば、カメラに近く配置されたオブジェクトを含む画像は、示されたオブジェクトに固有である可能性がより高く、カメラからさらに離れて配置されたオブジェクトを含む画像は、本質的にカテゴリー別である可能性がより高い。例を与えるために、特定のシリアルに関する情報を探求するユーザは、特定のシリアルボックスの近くに立ち、シリアル通路全体に対する視覚クエリをキャプチャする可能性が高い。
【0039】
別の例では、画像の構成特性は、画像内で識別された1つまたは複数のオブジェクトの数を含み得る。具体的には、視覚クエリがオブジェクト固有のクエリを対象とする尤度を示す可能性があり得る、より少ない数のオブジェクトが識別される画像と比較して、より多くのオブジェクトが識別された画像は、視覚クエリがカテゴリー別クエリを対象とする尤度を示す可能性があり得る(たとえば、視覚クエリ内で識別された1つまたは複数のオブジェクトの一般的なカテゴリーを対象とする視覚クエリを示す可能性があり得る、25個のシリアルボックスを有する画像と比較して、3個のシリアルボックスの画像は、視覚クエリ内で識別された1つまたは複数のオブジェクトを特に対象とする視覚クエリを示す可能性があり得る)。
【0040】
別の例では、画像の構成特性は、画像内で識別された1つまたは複数のオブジェクトの互いに対する相対的な類似性を含み得る。具体的には、視覚クエリがオブジェクト固有のクエリを対象とする尤度を示す可能性があり得る、他のオブジェクトの類似性が低い複数のオブジェクトを含む画像と比較して、画像内の他のオブジェクトの類似性が高い複数のオブジェクトを含む画像は、視覚クエリがカテゴリー別クエリを対象とする尤度を示す可能性があり得る。一例として、視覚クエリが視覚クエリ内で識別された1つまたは複数のオブジェクトの一般的なカテゴリーを対象とすることを示す可能性があり得る、複数のシリアルボックスを含む画像と比較して、シリアルボックスおよびボウルを含む画像は、視覚クエリ内で識別された1つまたは複数のオブジェクトを特に対象とする視覚クエリを示す可能性があり得る。
【0041】
別の例として、画像の構成特性は、画像内の1つまたは複数のオブジェクトの角度方位を含み得る。具体的には、視覚クエリがオブジェクト固有のクエリを対象とする尤度を示す可能性があり得る、特定の角度方位を備えたオブジェクトを含む画像と比較して、偶然に角度方位を備えたオブジェクトの画像を含む画像は、視覚クエリがカテゴリー別クエリを対象とする尤度を示す可能性があり得る。たとえば、視覚クエリ内で識別された1つまたは複数のオブジェクトを特に対象とする視覚クエリを示す可能性があり得る、画像のエッジに対して90度の角度でシリアルボックスを含む画像(たとえば、ボックスの面が明瞭に示され、カメラに向いている)と比較して、画像のエッジに対して32度の角度でシリアルボックスを含む画像は、カテゴリー別クエリを対象とする視覚クエリを示す可能性があり得る。
【0042】
別の例として、画像の構成特性は、画像内の1つまたは複数のオブジェクトの中心性(centeredness)(すなわち、オブジェクトが画像の中央に配置される角度)を含み得る。具体的には、視覚クエリがオブジェクト固有のクエリを対象とする尤度を示す可能性があり得る、中央に置かれているか、または中心のしきい値内にあるオブジェクトを含む画像と比較して、中央に置かれていないか、または中心のしきい値内にないオブジェクトを含む画像は、視覚クエリがカテゴリー別クエリを対象とする尤度を示す可能性があり得る。さらに、画像のエッジから識別されたオブジェクトまでの測定比率を使用して、オブジェクトが視覚クエリ内でどの程度中央に配置されているかを得ることができる(たとえば、視覚クエリが視覚クエリ内で識別された1つまたは複数のオブジェクトを特に対象とすることを示す可能性があり得る、1:1:1:1の比率を有するシリアルボックスを含む画面と比較して、1:6:9:3の比率で配置されたシリアルボックスを含む画像は、視覚クエリがカテゴリー別クエリを対象とすることを示す可能性があり得る)。
【0043】
いくつかの実施形態では、視覚クエリ内に存在する複数の異なるオブジェクト同士の間の関係を明らかにする、よりインテリジェントな検索結果を提供するためのコンテキスト信号または情報は、視覚検索クエリ時のユーザのロケーションを含み得る。具体的には、視覚クエリがオブジェクト固有のクエリを対象とする尤度を示す可能性があり得る他のロケーション(たとえば、個人宅)と比較して、視覚検索クエリを行う時点でユーザが配置された一定のロケーション(たとえば、食料品店)は、視覚クエリがカテゴリー別クエリを対象とする尤度を示す可能性があり得る。オブジェクト固有の視覚クエリを示す可能性があり得る、限定されたオプションを備えたロケーションと比較して、ロケーションは、ユーザに利用可能な複数のオプションが存在する尤度が存在する場合、カテゴリー別視覚クエリを示す可能性があり得る。
【0044】
いくつかの実施形態では、視覚検索クエリがオブジェクト固有のクエリを含むかまたはカテゴリー別クエリを含むかを判定することは、視覚検索クエリに関連するフィルタにさらに基づき得る。具体的には、フィルタは、ユーザが視覚クエリの画像を含む1つまたは複数のオブジェクトに対してカテゴリー別クエリを行う可能性が高いかまたはオブジェクト固有のクエリを行う可能性が高いか情報としてユーザ履歴を組み込むことができる。代替または追加として、フィルタは、視覚クエリに関連して、ユーザが入力したテキストまたは口頭クエリを含み得る。たとえば、口頭クエリ「どのシリアルが最も健康によいですか?」は、カテゴリー別である可能性が高く、口頭クエリ「これらの3つのうちどれが最も健康によいですか?」は、オブジェクト固有である可能性が高い。
【0045】
いくつかの実施形態では、視覚検索システムは、視覚クエリ内で識別された1つまたは複数のオブジェクトの一般的なカテゴリーを対象とする、1つまたは複数のカテゴリー別検索結果を戻すことができる。具体的には、視覚クエリ内で識別された1つまたは複数のオブジェクトの一般的なカテゴリーを対象とする、1つまたは複数のカテゴリー別検索結果を戻すことは、画像内の1つまたは複数のオブジェクトのうちの少なくとも1つがその下で分類するオブジェクトの個別カテゴリー(たとえば、項目のカテゴリー、項目のカテゴリー内のブランドなど)の収集物を最初に生成することを含み得る。さらに、視覚検索システムは、次いで、オブジェクトの複数の選択された個別カテゴリーを収集物から選択し得る。より詳細には、視覚検索システムは、少なくとも1つのコンテキスト信号または情報を使用して、個別カテゴリーの収集物の中からどれを選択するかを判定し得る。最終的に、視覚検索システムは、検索結果として、コンテンツの組み合わされたセットを戻すことができ、コンテンツの組み合わされたセットは、オブジェクトの複数の選択された個別カテゴリーの各々に関連する結果を含む。具体的には、視覚検索システムは、複数の結果をユーザに戻すことができ、これらの結果は、最大尤度ごとに階層的に表示され得る。
【0046】
したがって、視覚検索システムが、視覚クエリをよりインテリジェントに処理し、ユーザが提供する視覚クエリ内で提供されるコンテキスト情報に応じて、カテゴリー別コンテンツまたはオブジェクト固有コンテンツに関するコンテンツを戻すことを可能にする例示的な技法が提供される。
【0047】
別の態様によれば、コンピュータ実装視覚検索システムは、複数の構成されたエンティティに関するコンテンツを視覚検索クエリに戻すことができる。具体的には、ユーザがいつ視覚検索クエリ内の複数のエンティティの特定の構成に関する情報を探求しているかを理解することは、ユーザ意図の粒度およびオブジェクトの理解がどの程度困難なタスクであるかのもう1つの例である。たとえば、ユーザが、視覚検索クエリ内に含めるために、アカデミー賞におけるEmma WatsonとDaniel Radcliffeの画像を提出するか、またはそうでなければ選択すると想像されたい。ユーザの意図が、Emma Watsonに関して問い合わせることか、Daniel Radcliffeに関して問い合わせることか、アカデミー賞に関して問い合わせることか、アカデミー賞におけるEmma Watsonに関して問い合わせることか、Harry Potterに関して問い合わせることか、またはエンティティのその他の様々な組合せに関して問い合わせることかを見分けることは困難であり得る。提出された画像、ならびに同じ結果をユーザに戻させる可能性があるクエリに対してかなりの変形態が存在し、このタスクの困難さをさらに浮き彫りにする。いくつかの既存のシステムは、複数のエンティティのいずれの構成をもまったく明らかにすることができないことになり、代わりに、(たとえば、類似する背景色など、画素レベルにおいて)視覚的に最も類似する画像をそのような視覚クエリに単に戻すことになる。
【0048】
対照的に、本開示は、視覚検索システムが、複数のエンティティの構成の判定、およびエンティティのそのような構成に対するクエリの構成に基づいて、コンテンツをユーザに戻すことを可能にすることによって、これらの課題を解決する。具体的には、コンピュータ視覚検索システムは、1つまたは複数のコンテキスト信号または情報に基づいて、視覚検索クエリに関連する1つまたは複数のエンティティを識別し得る。視覚検索クエリに関連する2つ以上のエンティティを識別するとすぐ、視覚検索システムは、第1のエンティティと1つまたは複数の追加のエンティティ(たとえば、「2011年アカデミー賞におけるHarry Potterの受賞」)の組合せに関するコンテンツに対して構成されたクエリを判定し得る。エンティティは、人々、オブジェクト、および/またはイベントなど抽象的なエンティティを含み得る。第1のエンティティと1つまたは複数の追加のエンティティの組合せに関するコンテンツに対して構成されたクエリを判定するとすぐ、視覚検索システムは、コンテンツのセットを取得して戻すことができ、ここで、コンテンツのセットは、構成されたクエリに応じた、第1のエンティティと1つまたは複数の追加のエンティティの組合せに関係する、少なくとも1つのコンテンツ項目を含む。上記で与えられた例を続けると、アカデミー賞におけるEmma WatsonとDaniel Radcliffeの画像に応じて、視覚検索システムは、構成されたクエリを構築し、2011年アカデミー賞においてHarry Potterのキャストおよびクルーが受けたノミネートおよび受賞に関する検索結果を戻すことができる。
【0049】
視覚クエリが複数のエンティティの構成に関するかどうかを判定するために使用されるコンテキスト信号または情報は、画像の様々な属性、ユーザがその画像をどこでソースしたかに関する情報、画像の他の使用またはインスタンスに関する情報、および/または様々な他のコンテキスト情報を含み得る。一例では、視覚検索クエリ内で使用される画像は、ウェブドキュメント(たとえば、ウェブページ)内に存在する。より詳細には、ウェブドキュメントは、1つまたは複数の部分の中のエンティティを参照し得る。具体的には、それらの参照は、テキスト(たとえば、「2011年アカデミー賞デザイナー」)または像(たとえば、2011年アカデミー賞レッドカーペットの写真)であってよく、それらのエンティティは、視覚検索(たとえば、「Emma Watson 2011年アカデミー賞ドレスデザイナー」)に関連する追加のエンティティとして識別され得る。したがって、ユーザが視覚クエリとして提出するためにウェブページ内に含まれたEmma Watsonの画像を選択する場合、他のエンティティの参照(たとえば、テキストおよび/または視覚的参照)を使用して、複数のエンティティの構成を形成するために使用され得る潜在的な追加のエンティティを識別し得る。
【0050】
別の例として、画像のコンテキスト信号または情報は、視覚検索クエリに関連する画像の追加のインスタンスを含む追加のウェブドキュメント(たとえば、Harry Potterがアカデミー賞をどのくらい独占したかを論じる複数の記事)を含み得る。具体的には、1つまたは複数の追加のウェブドキュメントが参照する1つまたは複数の追加のエンティティは、視覚検索(たとえば、「Harry Potter 2011年アカデミー賞」)に関連する追加のエンティティとして識別され得る。したがって、ユーザが視覚クエリとして提出するために第1のウェブページ内に含まれたEmma Watsonの画像の第1のインスタンスを選択する場合、同じ画像の追加のインスタンスが他の異なるウェブページ内で(たとえば、一般的な逆画像検索の実行により)識別され得、次いで、そのような他の異なるウェブページ内に含まれた他のエンティティの参照(たとえば、テキストおよび/または視覚的参照)を使用して、複数のエンティティの構成を形成するために使用され得る潜在的な追加のエンティティを識別し得る。
【0051】
別の例として、画像のコンテキスト信号または情報は、テキストメタデータ(たとえば、「アカデミー賞における受賞後のEmma WatsonとDaniel Radcliffe」)を含み得る。具体的には、テキストメタデータは、アクセスされ得、視覚検索に関連する追加のエンティティ(たとえば、「Harry Potter 2011年アカデミー賞」)として識別され得る。詳細には、テキストメタデータは、ユーザが提出した視覚クエリ内で使用される画像に対する字幕を含み得る。
【0052】
別の例として、画像のコンテキスト信号または情報は、ロケーションまたは時間メタデータ(たとえば、Kodak Theatre、Los Angeles)を含み得る。具体的には、ロケーションまたは時間メタデータは、アクセスされ得、視覚検索に関連する追加のエンティティとして識別され得、視覚検索クエリ内で使用される画像のソースのロケーションは、画像自体の中の他の場所で示されない可能性がある、関係する話題参照を示し得る(たとえば、Emma WatsonとDaniel Radcliffeの画像は、「2011年、Los Angeles、Kodak TheatreにおけるEmma WatsonとDaniel Radcliffe」などの検索クエリにつながる、彼らがアカデミー賞にいたことを表す何の象徴化もその裏に存在しない、レッドカーペット上の彼らの画像のうちの一般的な1つの画像であり得る)。
【0053】
別の例として、画像のコンテキスト信号または情報は、予備的検索を含み得る。より詳細には、第1の検索は、識別された複数のエンティティ(たとえば、「Los Angeles、Kodak TheatreにおけるEmma WatsonとDaniel Radcliffe」)を使用して行われてよく、予備的検索結果の第1のセットを取得するとすぐに、予備的検索結果が参照するさらなるエンティティが識別され得る。具体的には、しきい値を超える、いくつかの予備的結果内で識別されたエンティティは、続くクエリ(たとえば、「アカデミー賞におけるEmma WatsonとDaniel Radcliffe」)内に含まれるのに十分関係すると判定され得る。
【0054】
したがって、視覚検索システムが、視覚クエリをよりインテリジェントに処理し、ユーザが提供する視覚クエリ内のまたはそれによって提供されるコンテキスト信号または情報に応じて、複数の構成されたエンティティに関するコンテンツを戻すことを可能にする例示的な技法が提供される。
【0055】
関連画像または他のコンテンツの識別は、明示的な検索クエリに応じて実行され得るか、またはユーザ向けのコンテンツに対する一般的なクエリに応じて、プロアクティブに実行され得る(たとえば、明示的なクエリなしに、コンテンツをプロアクティブに識別し、ユーザに提供する「発見フィード」などのフィードの部分として)。「検索結果」という用語は、特定の視覚クエリに応じて識別されたコンテンツおよび/またはフィードまたは他のコンテンツレビュー機構内のプロアクティブな結果として含めるためにプロアクティブに識別されたコンテンツの両方を含むことが意図される。たとえば、フィードは、ユーザによる特定の初期の意図の宣言を必要とせずに、ユーザの視覚的関心グラフに基づくコンテンツを含み得る。
【0056】
次に図を参照しながら、本開示の例示的な実施形態について以下でさらに詳細に論じる。
【0057】
例示的なデバイスおよびシステム
図1Aは、本開示の例示的な実施形態による、視覚クエリに少なくとも部分的に応じて、個人化されたかつ/またはインテリジェントな検索を実行する例示的なコンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されたユーザコンピューティングデバイス102および視覚検索システム104を含む。
【0058】
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲーム機またはコントローラ、ウェアラブルコンピューティングデバイス、埋込みコンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、任意のタイプのコンピューティングデバイスであってよい。
【0059】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってよく、1つのプロセッサまたは動作可能に接続された複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、1つまたは複数の非一時的コンピュータ可読記憶媒体、またはそれらの組合せを含み得る。メモリ114は、データ116、およびユーザコンピューティングデバイス102に動作を実行させるためにプロセッサ112によって実行される命令118を記憶し得る。
【0060】
いくつかの実装形態では、ユーザコンピューティングデバイス102のカメラアプリケーション126は、ユーザコンピューティングデバイス102のカメラ124のビューファインダー内で認識されたオブジェクトに関するコンテンツを提示する。
【0061】
カメラアプリケーション126は、特定のプラットフォームに対して開発されたネイティブアプリケーションであり得る。カメラアプリケーション126は、ユーザコンピューティングデバイス102のカメラ124を制御し得る。たとえば、カメラアプリケーション126は、カメラを制御するための専用アプリケーション、アプリケーションの他の特徴とともに使用するためにカメラ124を制御するカメラファースト(camera-first)アプリケーション、またはカメラ124にアクセスし制御し得る別のタイプのアプリケーションであってよい。カメラアプリケーション126は、カメラアプリケーション126のユーザインターフェース158内にカメラ124のビューファインダーを提示し得る。
【0062】
概して、カメラアプリケーション126は、ユーザが、カメラ124のビューファインダー内に示されたオブジェクトに関するコンテンツ(たとえば、情報またはユーザ経験)を閲覧すること、および/またはユーザコンピューティングデバイス102上に記憶されたまたはユーザコンピューティングデバイス102によってアクセス可能な別のロケーションにおいて記憶された画像内に示されるオブジェクトに関するコンテンツを閲覧することを可能にする。ビューファインダーは、カメラのレンズのビューのフィールド内にあるもののライブ画像を提示するユーザコンピューティングデバイス102のディスプレイの一部分である。ユーザがカメラ124を移動させるにつれて(たとえば、ユーザコンピューティングデバイス102を移動させることによって)、ビューファインダーは、レンズのビューの現在のフィールドを提示するように更新される。
【0063】
カメラアプリケーション126は、オブジェクト検出器128、ユーザインターフェース生成器130、およびオンデバイストラッカー132を含む。オブジェクト検出器128は、エッジ検出および/または他のオブジェクト検出技法を使用して、ビューファインダー内のオブジェクトを検出し得る。いくつかの実装形態では、オブジェクト検出器128は、画像がオブジェクトの1つまたは複数の特定のクラス(たとえば、カテゴリー)内のオブジェクトを含むかどうかを判定する粗分類器(coarse classifier)を含む。たとえば、粗分類器は、実際のオブジェクトを認識するかしないかにかかわらず、画像が特定のクラスのオブジェクトを含むと検出し得る。
【0064】
粗分類器は、画像がオブジェクトのクラスを示す1つまたは複数の特徴を含む(たとえば、示す)か否かに基づいて、オブジェクトのクラスの存在を検出し得る。粗分類器は、オブジェクトのそのクラス内のオブジェクトの存在を検出するために低計算解析を実行するための軽量モデルを含み得る。たとえば、粗分類器は、オブジェクトの各クラスに対して、画像がオブジェクトのクラス内に入るオブジェクトを含むかどうかを判定するために、画像内に示された視覚的特徴の限定されたセットを検出し得る。特定の例では、粗分類器は、テキスト、バーコード、ランドマーク、人々、食品、メディアオブジェクト、植物などを含むが、これらに限定されない、クラスのうちの1つまたは複数の中で分類されるオブジェクトを示すかどうかを検出し得る。バーコードの場合、粗分類器は、画像が異なる幅を有する平行線を含むかどうかを判定し得る。同様に、機械可読コード(たとえば、QRコード(登録商標)など)の場合、粗分類器は、画像が機械可読コードの存在を示すパターンを含むかどうかを判定し得る。
【0065】
粗分類器は、オブジェクトのクラスが画像内で検出されているかどうかを指定するデータを出力し得る。粗分類器は、オブジェクトのクラスの存在が画像内で検出されている信頼性を示す信頼性値および/または実際のオブジェクト、たとえば、シリアルボックス、が画像内に示されている信頼性を示す信頼性値を出力することもできる。
【0066】
オブジェクト検出器128は、カメラ124の視野を表す画像データ(たとえば、ビューファインダー内に提示されているもの)を受信し、画像データ内の1つまたは複数のオブジェクトの存在を検出し得る。少なくとも1つのオブジェクトが画像データ内で検出される場合、カメラアプリケーション126は、ネットワーク180を介して画像データを視覚検索システム104に提供(たとえば、送信)することができる。以下で説明するように、視覚検索システム104は、画像データ内のオブジェクトを認識し、オブジェクトに関するコンテンツをユーザコンピューティングデバイス102に提供し得る。
【0067】
視覚検索システム104は、1つまたは複数のフロントエンドサーバ136および1つまたは複数のバックエンドサーバ140を含む。フロントエンドサーバ136は、ユーザコンピューティングデバイス、たとえば、ユーザコンピューティングデバイス102、から画像データを受信し得る。フロントエンドサーバ136は、画像データをバックエンドサーバ140に提供し得る。バックエンドサーバ140は、画像データ内で認識されたオブジェクトに関するコンテンツを識別し、コンテンツをフロントエンドサーバ136に提供し得る。次に、フロントエンドサーバ136は、そこから画像データが受信されたモバイルデバイスにコンテンツを提供し得る。
【0068】
バックエンドサーバ140は、1つまたは複数のプロセッサ142およびメモリ146を含む。1つまたは複数のプロセッサ142は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続された複数のプロセッサであってよい。メモリ146は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、1つまたは複数の非一時的コンピュータ可読記憶媒体、およびそれらの組合せを含み得る。メモリ146は、データ148、および視覚検索システム104に動作を実行させるためにプロセッサ142によって実行される命令150を記憶し得る。バックエンドサーバ140はまた、オブジェクト認識器152、クエリ処理システム154、およびコンテンツランク付けシステム156を含み得る。オブジェクト認識器152は、モバイルデバイス(たとえば、ユーザコンピューティングデバイス102など)から受信された画像データを処理し、もしあれば、画像データ内のオブジェクトを認識し得る。一例として、オブジェクト認識器152は、コンピュータ視覚および/または他のオブジェクト認識技法(たとえば、エッジマッチング、パターン認識、グレースケールマッチング、勾配マッチングなど)を使用して画像データ内のオブジェクトを認識し得る。
【0069】
いくつかの実装形態では、視覚検索システム104は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、それによって実装される。視覚検索システム104が、複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、シーケンシャルコンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらのいくつかの組合せに従って動作し得る。
【0070】
いくつかの実装形態では、オブジェクト認識器152は、複数のオブジェクト認識器モジュールを、たとえば、そのそれぞれのクラス内のオブジェクトを認識するオブジェクトの各クラスに対して1つ、含む。たとえば、オブジェクト認識器152は、画像データ内のテキストを認識する(たとえば、文字、語などを認識する)テキスト認識器モジュール、画像データ内の(QRコード(登録商標)など、機械可読コードを含む)バーコードを認識する(たとえば、復号する)バーコード認識器モジュール、画像データ内のランドマークを認識するランドマーク認識器モジュール、および/またはオブジェクトの特定のクラスを認識する他のオブジェクト認識器モジュールを含み得る。
【0071】
いくつかの実装形態では、クエリ処理システム154は、複数の処理システムを含む。1つの例示的なシステムは、システムが複数の候補検索結果を識別することを可能にし得る。たとえば、システムは、視覚クエリ画像を最初に受信するとすぐに、複数の候補検索結果を識別し得る。他方で、システムは、システムによるさらなる処理がすでに行われた後で、複数の検索結果を識別し得る。詳細には、システムは、システムが生成した、よりターゲットを絞ったクエリに基づいて、複数の検索結果を識別し得る。さらにより詳細には、システムは、システムが最初に視覚クエリ画像を受信したときに、複数の候補検索結果を生成し、次いで、さらなる処理の後、システムが生成した、よりターゲットを絞ったクエリに基づいて、複数の候補検索結果を再生成し得る。
【0072】
別の例として、クエリ処理システム154は、ユーザ固有の関心データ(たとえば、グラフを使用して表すことができる)を生成するシステムを含み得る。より詳細には、ユーザ固有の関心データは、ユーザが複数の候補結果からの何の結果に関心をもつ可能性が最も高いことになるかを判定するために部分的に使用され得る。詳細には、ユーザ固有の関心データは、それらの結果をユーザに示す価値があるように、何の結果がしきい値を超えるかを判定するために部分的に使用され得る。たとえば、視覚検索システムは、ユーザのインターフェース上のオーバーレイ内にすべての候補結果を出力することが可能でないことがある。ユーザ固有の関心データは、どの候補結果が出力されることになり、どれが出力されないことになるかを判定するのに役立ち得る。
【0073】
別の例として、クエリ処理システム154は、コンテンツの組み合わされたセットに関するシステムを含み得る。より詳細には、コンテンツの組み合わされたセットは、視覚検索クエリに応じた複数のカノニカル項目を指すことがある。いくつかの実装形態では、システムは、複数の項目を記述するグラフを含み得、コンテンツのそれぞれのセット(たとえば、製品レビューなど、ユーザ生成コンテンツ)は複数の異なる項目の各々に関連付けられる。コンテンツの組み合わされたセットは、ユーザが、視覚検索クエリに応じて、オブジェクトの視覚クエリ画像に複数のカノニカル項目を提供するときに適用され得る。たとえば、ユーザが特定の映画のBlu-Rayのパッケージカバーの視覚クエリ画像を提供する場合、コンテンツシステムの組み合わされたセットは、その特定の映画のBlu-Rayのみではなく、一般的な映画、キャスト、またはその映画に関する任意の数のコンテンツに関する結果を出力し得る。
【0074】
別の例として、クエリ処理システム154は、視覚クエリ画像の構成特性に関するシステムを含み得る。より詳細には、視覚検索システムが使用する構成特性は、画像の様々な属性(画像内のオブジェクトの数、カメラからのオブジェクトの距離、画像の角度方位など)を含み得る。構成特性システムは、クエリ画像内に示された特定のオブジェクトとカテゴリー別結果との間で視覚クエリをインテリジェントに明確化する一部として使用され得る。たとえば、ユーザは、「最も高い食物繊維を有する」テキストクエリが付随する3つのシリアルボックスの画像を提出し得る。構成特性システムは、システムによって識別された構成特性に基づいて、クエリがキャプチャされた3つのシリアルを目的とするか、もしくはシリアル全体を目的とするか、または特定のブランドのシリアルを目的とするかを明確化するのに役立ち得る。
【0075】
別の例として、クエリ処理システム154は、視覚クエリに関連する複数のエンティティに関するシステムを含み得る。より詳細には、複数のエンティティは、画像内に含まれた複数の主題、ならびにいかなる形でも画像を取り巻くコンテキスト(画像が撮影された場所のGPS座標、画像に付随するテキスト字幕、画像が見出されたウェブページなど)を参照する。複数のエンティティシステムは、ユーザが意図した可能性があるすべての候補検索結果を包含するエンティティの組合せで2次クエリをさらに構成し得る。たとえば、Los AngelesのKodak Theatreの前に立っているEmma WatsonとDaniel Radcliffeの画像は、「Emma Watson」または「Daniel Radcliffe」に対する検索を超えた任意の数のユーザ意図を背景に有し得る。複数のエンティティシステムは、複数の識別されたエンティティに応じて、「アカデミー賞におけるHarry Potter」、「Emma Watsonアカデミー賞デザイナー」など、2次クエリを構成し得る。
【0076】
いくつかの実装形態では、コンテンツランク付けシステム156は、候補検索結果をランク付けするための視覚検索システムプロセスの複数の異なる時点で使用され得る。1つの例示的なアプリケーションは、複数の検索結果が最初に識別された後、検索結果のランク付けを生成するためである。他方で、初期検索結果は、単に予備的であり得、ランク付けシステム156は、クエリ処理システムがよりターゲットを絞ったクエリを生成した後、検索結果のランク付けを生成し得る。さらにより詳細には、ランク付けシステム156は、システムが、初めに、候補検索結果のセットを識別し、次いで、よりターゲットを絞ったクエリが行われた後に再度識別するとき、複数の候補検索結果のランク付けを生成し得る(たとえば、複数のエンティティのどの組合せが最も可能性が高いかを判定するために、予備的ランク付けが使用され得る)。ランク付けシステム156によって生成されたランク付けは、検索結果が何の順序で出力されることになるか、かつ/または候補検索結果が出力されることになるか否かを判定することによって、ユーザに対する候補検索結果の最終的な出力を判定するために使用され得る。
【0077】
クエリ処理システム154内に含まれた複数の処理システムは、最もインテリジェントな結果をユーザに提供するために、ユーザが提出した視覚クエリを最もインテリジェントな方法で処理するように、互いとの任意の組合せで、かつ任意の順序で、使用され得る。さらに、ランク付けシステム156は、任意の組合せでクエリ処理システム154とともに使用され得る。
【0078】
コンテンツが選択された後、コンテンツは、そこから画像データが受信されたユーザコンピューティングデバイス102に提供され、視覚検索システム104のコンテンツキャッシュ130内に記憶され、かつ/またはフロントエンドサーバ136のメモリスタックの上部に記憶され得る。このようにして、コンテンツは、ユーザのコンテンツ要求に応じて、ユーザに直ちに提示され得る。コンテンツがユーザコンピューティングデバイス102に提供される場合、カメラアプリケーション126は、コンテンツをコンテンツキャッシュ134または他の高速アクセスメモリ内に記憶し得る。たとえば、カメラアプリケーション126は、カメラアプリケーション126が、オブジェクトに関するコンテンツを提示する判定に応じて、オブジェクトに対する適切なコンテンツを識別することができるように、オブジェクトに対する基準とともに、オブジェクトに関するコンテンツを記憶し得る。
【0079】
カメラアプリケーション126は、オブジェクトに対する視覚インジケータとのユーザ対話に応じて、オブジェクトに関するコンテンツを提示し得る。たとえば、カメラアプリケーション126は、オブジェクトに対する視覚インジケータとのユーザ対話を検出し、視覚検索システム104からオブジェクトに関するコンテンツを要求し得る。それに応じて、フロントエンドサーバ136は、コンテンツキャッシュ130またはメモリスタックの上部からコンテンツを取得し、コンテンツを、そこから要求が受信されたユーザコンピューティングデバイス102に提供し得る。ユーザ対話が検出されるのに先立って、コンテンツがユーザコンピューティングデバイス102に提供された場合、カメラアプリケーション126は、コンテンツキャッシュ134からコンテンツを取得し得る。
【0080】
いくつかの実装形態では、視覚検索システム104は、たとえば、カメラアプリケーション126ではなく、オブジェクト検出器128を含む。そのような例では、カメラアプリケーション126がアクティブな間、またはユーザが要求コンテンツモードのカメラアプリケーション126を有する間、カメラアプリケーション126は、たとえば、画像のストリーム内で、画像データを視覚検索システム104に連続的に送信し得る。要求コンテンツモードは、カメラアプリケーション126が、画像データ内で認識されたオブジェクトに関するコンテンツを要求するために、画像データを視覚検索システム104に連続的に送ることを可能にし得る。視覚検索システム104は、画像内のオブジェクトを検出し、画像を処理し(たとえば、検出されたオブジェクトに対する視覚インジケータを選択し)、ユーザインターフェース(たとえば、ビューファインダー)内に提示するために結果(たとえば、視覚インジケータ)をカメラアプリケーション126に送ることができる。視覚検索システム104は、画像データを処理し続けて、オブジェクトを認識し、各認識されたオブジェクトに関するコンテンツを選択し、コンテンツをキャッシュするか、またはコンテンツをカメラアプリケーション126に送ることのいずれかを行うことも可能である。
【0081】
いくつかの実装形態では、カメラアプリケーション126は、画像データ内のオブジェクトを認識するオンデバイスオブジェクト認識器を含む。この例では、カメラアプリケーション126は、オブジェクトを認識し、認識されたオブジェクトに関するコンテンツを視覚検索システム104から要求すること、またはオンデバイスコンテンツデータストアからコンテンツを識別することのいずれかが可能である。オンデバイスオブジェクト認識器は、オブジェクトのより限定されたセットを認識する、または視覚検索システム104のオブジェクト認識器152よりも計算的に費用がかからないオブジェクト認識技法を使用する、軽量オブジェクト認識器であってよい。これは、一般的なサーバよりも処理電力が少ないモバイルデバイスがオブジェクト認識プロセスを実行することを可能にする。いくつかの実装形態では、カメラアプリケーション126は、オンデバイス認識器を使用して、オブジェクトの初期識別を行い、確認のために画像データを視覚検索システム104(または、別のオブジェクト認識システム)に提供することができる。オンデバイスコンテンツデータストアは、コンテンツデータ記憶ユニット138よりも限定されたコンテンツセット、またはユーザコンピューティングデバイス102のデータ記憶リソースを保存するためのコンテンツを含むリソースへのリンクを記憶することも可能である。
【0082】
ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122を含んでもよい。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクトのタッチ(たとえば、指またはスタイラス)に敏感なタッチセンシティブ構成要素(たとえば、タッチセンシティブディスプレイスクリーンまたはタッチパッド)であってよい。タッチセンシティブ構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的なユーザ入力構成要素は、マイクロフォン、旧式キーボード、またはユーザがユーザ入力を提供し得る他の手段を含む。
【0083】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、広域ネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、任意のタイプの通信ネットワークであってよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、幅広い通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使用して、任意のタイプのワイヤードおよび/またはワイヤレス接続を介して搬送され得る。図1は、本開示を実装するために使用され得る、1つの例示的なコンピューティングシステムを示す。構成要素の他の異なる分布が同様に使用され得る。たとえば、視覚検索システムの様々な態様のうちのいくつかまたはすべては、代わりに、ユーザコンピューティングデバイス102において配置されかつ/または実装されてよい。
【0084】
例示的なモデル配置
図2は、本開示の例示的な実施形態による、例示的な視覚検索システム200のブロック図を示す。いくつかの実装形態では、視覚検索システム200は、視覚クエリ204を含む入力データのセットを受信し、入力データ204の受信の結果として、より個人化されたかつ/またはインテリジェントな結果をユーザに提供する出力データ206を提供するように構成される。一例として、いくつかの実装形態では、視覚検索システム200は、より個人化されたかつ/またはインテリジェントな視覚クエリ結果の出力を促すように動作可能であるクエリ処理システム202を含み得る。
【0085】
いくつかの実装形態では、クエリ処理システム202は、より個人化された検索結果を提供するためのユーザ中心の視覚的関心グラフを含むか、またはそれを活用する。1つの例示的な使用では、視覚検索システム200は、ユーザの関心のグラフを使用して、視覚発見アラート、通知、または他の機会を含む検索結果をランク付けまたはフィルタリングし得る。ユーザの関心に基づく検索結果の個人化は、検索結果がクエリ画像上の拡張オーバーレイ内に視覚結果通知(たとえば、場合によっては、「グリーム」と呼ばれることがある)として提示される例示的な実施形態において特に有利であり得る。
【0086】
いくつかの実装形態では、ユーザ固有の関心データ(たとえば、グラフを使用して表され得る)は、ユーザが過去に関与した画像を解析することによって少なくとも部分的に、経時的にアグリゲートされ得る。言い方を変えれば、視覚検索システム200は、ユーザが経時的に関与する画像を解析することによって、ユーザの視覚的関心の理解を試行し得る。ユーザが画像に関与するとき、ユーザが画像の何らかの側面に関心をもっていると推論され得る。したがって、そのような画像内に含まれた、またはそうでなければ、関係する項目(たとえば、オブジェクト、エンティティ、概念、製品など)は、ユーザ固有の関心データ(たとえば、グラフ)に追加されるか、またはそうでなければ、その中で言及され得る。
【0087】
一例として、ユーザが関与する画像は、ユーザがキャプチャした写真、ユーザがキャプチャしたスクリーンショット、またはユーザが閲覧したウェブベースまたはアプリケーションベースのコンテンツ内に含まれる画像を含み得る。別の潜在的に重複する例では、ユーザが関与する画像は、ユーザが、その画像に対して実行されるアクションを要求することによってアクティブに関与した、アクティブに関与された画像を含み得る。たとえば、要求されるアクションは、画像に対して視覚検索を実行すること、またはユーザがその画像がユーザの視覚的関心を含むと明示的にマーキングすることを含み得る。別の例として、ユーザが関与する画像は、ユーザに提示されたが、ユーザが特に関与しなかった、受動的に観測された画像を含み得る。視覚的関心は、ユーザが入力したテキストコンテンツ(たとえば、テキストまたは用語ベースのクエリ)から推論されることも可能である。
【0088】
上記の説明に加えて、本明細書で説明するシステム、プログラム、または特徴が、ユーザ情報(たとえば、ユーザのソーシャルネットワーク、ソーシャルアクションもしくは活動、専門、ユーザの選好、またはユーザの現在のロケーションに関する情報)の収集を可能にし得る場合と、ユーザにサーバからコンテンツまたは通信が送られる場合の両方に関して、ユーザが選択することを可能にする制御がユーザに提供され得る。加えて、一定のデータは、個人的に識別可能な情報が除去されるように、そのデータが記憶または使用される前に、1つまたは複数の方法で処理され得る。たとえば、ユーザの識別情報は、ユーザに関する個人的に識別可能な情報を判定することができないように扱われることが可能であり、または(市、郵便番号、または州レベルでなど)ロケーション情報が取得される場合、ユーザの特定のロケーションを判定することができないように、ユーザの地理的ロケーションは一般化され得る。したがって、ユーザは、ユーザに関して何の情報が収集されるか、その情報がどのように使用されるか、また何の情報がユーザに提供されるか、に対して制御を有し得る。
【0089】
視覚検索システム200は、クエリ処理システム202を使用して、ユーザに対する検索結果を選択し得る。ユーザ関心システム202は、クエリ修正、結果識別、および/または視覚検索プロセスの他の段階を含めて、検索プロセスの様々な段階において使用され得る。
【0090】
一例として、図3は、本開示の例示的な実施形態による例示的な視覚検索システム400のブロック図を示す。視覚検索システム400は、2段階プロセスで動作する。第1段階において、クエリ処理システム202は、入力データ204(たとえば、1つまたは複数の画像を含む視覚クエリ)を受信し、視覚クエリに応じる候補検索結果206のセットを生成し得る。たとえば、候補検索結果206は、ユーザ固有の関心を考慮せずに、取得され得る。第2の段階において、ランク付けシステム402は、最終検索結果として(たとえば、出力データ404として)ユーザに戻すための候補検索結果206のうちの1つまたは複数をランク付けするのを支援するために、視覚検索システム400によって使用され得る。
【0091】
一例として、視覚検索システム400は、ランク付けシステム402を使用して、クエリ処理システム202内で取得されたユーザに関連するユーザ固有のユーザの関心データに対する複数の候補検索結果206の比較に少なくとも部分的に基づいて、複数の候補検索結果206のランク付けを生成し得る。たとえば、候補検索結果206に関連する初期検索スコアを修正または再重み付けするために、ユーザの関心データ内でキャプチャされる一定の項目に対する重みが加えられてよく、これは、ユーザへの出力404に先立って、検索結果206の再ランク付けをさらにもたらし得る。
【0092】
視覚検索システム400は、ランク付けに少なくとも部分的に基づいて、少なくとも1つの選択された検索結果として複数の候補検索結果206のうちの少なくとも1つを選択し、次いで、ユーザに表示するために、少なくとも1つの選択された検索結果にそれぞれ関連する少なくとも1つの選択された視覚結果通知を(たとえば、出力データ404)として提供し得る。一例では、選択された検索結果の各々は、選択された検索結果に関連する画像の特定のサブ部分上にオーバーレイするために提供され得る。そのような様式では、ユーザの関心は、個人化された検索結果を提供し、ユーザインターフェース内のクラッターを低減するために使用され得る。
【0093】
別の例示的な変形態として、図4は、本開示の例示的な実施形態による例示的な視覚検索システム500のブロック図を示す。視覚検索システム500は、コンテキスト情報504を受信し、コンテキスト情報504を処理して、視覚クエリおよび/またはユーザの検索意図の暗示的な特性を明らかにするコンテキスト構成要素502をさらに含むことを除いて、視覚検索システム500は、図3の視覚検索システム400と同様である。
【0094】
コンテキスト情報504は、任意の他の利用可能な信号またはクエリの暗示的な特性を理解するのを支援する情報を含み得る。たとえば、ロケーション、時刻、入力モダリティ、および/または様々な他の情報がコンテキストとして使用され得る。
【0095】
別の例として、コンテキスト情報504は、画像の様々な属性、画像がユーザによってどこでソースされたかに関する情報、画像の他の使用またはインスタンスに関する情報、および/または様々な他のコンテキスト情報を含み得る。一例では、視覚検索クエリ内で使用される画像は、ウェブドキュメント(たとえば、ウェブページ)内に存在する。ウェブドキュメント内に含まれる他のエンティティの参照(たとえば、テキストおよび/または視覚的参照)は、複数のエンティティの構成を形成するために使用され得る潜在的に追加のエンティティを識別するために使用され得る。
【0096】
別の例では、コンテキスト情報504は、視覚検索クエリに関連する画像の追加のインスタンスを含む追加のウェブドキュメントから取得された情報を含み得る。別の例として、コンテキスト情報504は、画像に関連するテキストメタデータ(たとえば、EXIFデータ)を含み得る。具体的には、テキストメタデータは、アクセスされ得、視覚検索に関連する追加のエンティティとして識別され得る。詳細には、テキストメタデータは、ユーザが提出した視覚クエリ内で使用される画像に対する字幕を含み得る。
【0097】
別の例として、コンテキスト情報504は、視覚クエリに基づいて予備的検索によって取得された情報を含み得る。より詳細には、第1の検索は、視覚クエリからの情報を使用して行われてよく、予備的検索結果の第1のセットを取得するとすぐに、予備的検索結果が参照するさらなるエンティティが識別され得る。具体的には、しきい値を超える何らかの数の予備的結果の中で識別されるエンティティは、後続のクエリ内に含まれるのに十分関係すると判定され得る。
【0098】
図2図3、および図4の視覚検索システム200、400および/または500のうちのいずれかを参照すると、コンピューティングシステムは、視覚クエリ入力データ204として提供される画像内に示されるオブジェクトを処理するためにエッジ検出アルゴリズムを実装し得る。詳細には、収集された画像は、エッジ検出アルゴリズム(たとえば、勾配フィルタ)を用いてフィルタリングされ、それにより、得られた画像を取得することができ、この画像は、行列内で画像内に含まれるオブジェクトの位置を判定する、水平および垂直方向に測定され得るバイナリ行列を表す。加えて、得られた画像は、さらに、エッジの改善された検出のためにラプラシアンおよび/またはガウスフィルタを使用して有利にフィルタリングされ得る。オブジェクトは、次いで、「AND」および「OR」ブール演算など、ブール演算を用いて、複数のトレーニング画像および/もしくは任意の種類の履歴画像ならびに/またはコンテキスト情報504と比較され得る。ブール演算比較の利用は、好ましい、非常に高速かつ効率的な比較を実現するが、ある状況においては、非ブール演算が所望されることがある。
【0099】
さらに、類似性アルゴリズムが図2図3、および/または図4の視覚検索システム200、400および/または500によってアクセスされ得、ここで、アルゴリズムは、上記で説明したエッジ検出アルゴリズムにアクセスし、出力データを記憶し得る。追加および/または代替として、類似性アルゴリズムは、各画像および/またはクエリ入力データ204と、複数の他の画像および/もしくはクエリならびに/または任意の種類のトレーニングデータおよび/または履歴データであってよいコンテキスト情報504との間のペアワイズ類似性関数を推定し得る。ペアワイズ類似性関数は、2つのデータポイントが類似するか否かを記述し得る。
【0100】
追加または代替として、図2図3、および/または図4の視覚検索システム200、400 および/または500は、視覚クエリ入力データ204として提供される画像を処理するためにクラスタリングアルゴリズムを実装し得る。検索システムは、クラスタリングアルゴリズムを実行し、推定されたペアワイズ類似性関数に基づいて、画像および/またはクエリをクラスタに割り当てることができる。クラスタの数は、クラスタリングアルゴリズムを実行するのに先立って未知であり得、画像/視覚クエリ入力データ204、画像/クエリの各ペアに対して推定されたペアワイズ類似性関数、および各クラスタに割り当てられた初期画像/クエリのランダムまたは疑似ランダム選択に基づいてクラスタリングアルゴリズムの実行ごとに異なり得る。
【0101】
視覚検索システム200、400および/または500は、画像/クエリ入力データ204のセットに対して一度または複数回数クラスタリングアルゴリズムを実行し得る。いくつかの例示的な実施形態では、視覚検索システム200、400および/または500は、所定数繰り返してクラスタリングアルゴリズムを実行し得る。いくつかの例示的な実施形態では、視覚検索システム200、400および/または500は、クラスタリングアルゴリズムを実行し、非推移的であるペアワイズ類似性関数からの距離の測定値に達するまで、結果をアグリゲートし得る。
【0102】
例示的な方法
図9は、本開示の例示的な実施形態による、より個人化された検索結果を提供するための例示的な方法1000のフローチャート図を示す。図9は、例示および考察のためにステップが特定の順序で実行されることを示すが、本開示の方法は、特定の例示された順序または配置に限定されない。方法1000の様々なステップは、本開示の範囲から逸脱せずに、様々な方法で、省かれること、再配置されること、組み合わされること、かつ/または適応されることが可能である。
【0103】
1002において、コンピューティングシステムは、視覚クエリを取得し得る。たとえば、コンピューティングシステム(たとえば、図1のユーザコンピューティングデバイス102および視覚検索システム104)は、視覚クエリ入力データ(たとえば、図2の視覚クエリ入力データ204)をユーザから取得し得る。
【0104】
1004において、コンピューティングシステムは、複数の候補検索結果および対応する検索結通知オーバーレイを識別し得る。たとえば、コンピューティングシステムは、図3の視覚検索結果モデル202の出力として、現在の複数の候補検索結果、および視覚クエリ内に含まれた画像上のオーバーレイとして検索結果に対する視覚結果通知の提供に役立つユーザインターフェース上の対応する拡張されたオーバーレイを受信し得る。
【0105】
より詳細には、コンピューティングシステムは、前に取得された視覚クエリをクエリ処理システム内に入力し得る。たとえば、コンピューティングシステムは、視覚クエリ入力データ204をクエリ処理システム202内に入力し得る。視覚クエリを入力するのに先立って、コンピューティングシステムは、エッジ検出アルゴリズムにアクセスし得る。より詳細には、収集された画像は、エッジ検出アルゴリズム(たとえば、勾配フィルタ)を用いてフィルタリングされ、それにより、得られる画像を取得することができ、この画像は、バイナリ行列内の画像に含まれるオブジェクトの位置を判定する水平および垂直方向で測定され得るバイナリ行列を表す。
【0106】
1006において、コンピューティングシステムは、ユーザ中心の視覚的関心グラフを活用して、観測されたユーザの視覚的関心に基づいて、前に取得された複数の候補検索結果および対応する検索結果通知オーバーレイを選択および/またはフィルタリングし得る。ユーザ中心の視覚的関心グラフは、クエリ処理システム、たとえば、クエリ処理システム202、に含まれ得る。
【0107】
1008において、コンピューティングシステムは、複数の候補検索結果のランク付けを生成し得る。たとえば、コンピューティングシステムは、ランク付けシステム、たとえば、ランク付けシステム402、の出力として、候補検索結果の現在のランク付けおよび対応する検索結果通知オーバーレイを受信し得る。
【0108】
より詳細には、ランク付けシステムは、クエリ処理システム内に含まれたユーザに関連するユーザ固有のユーザの関心データに対する複数の候補検索結果の比較に少なくとも部分的に基づいて、ランク付けを生成し得る。たとえば、候補検索結果に関連する初期検索スコアを修正または再重み付けするために、項目に対する重みが加えられてよい。
【0109】
いくつかの実装形態では、視覚検索システムは、2つ以上の同じオブジェクトを含むとして識別され得る画像内の重複通知オーバーレイを明らかにし得る。視覚検索システムは、同じ検索結果を提供する複数の潜在的な候補検索結果通知オーバーレイの中から1つの潜在的な候補検索結果通知オーバーレイのみを出力し得る。
【0110】
1010において、コンピューティングシステムは、少なくとも1つの選択された検索結果として、複数の候補検索結果のうちの少なくとも1つ、たとえば、出力データ404、を選択し得る。より詳細には、視覚検索システム400は、ランク付けに少なくとも部分的に基づいて、少なくとも1つの選択された検索結果として、複数の候補検索結果のうちの少なくとも1つを選択し、次いで、選択された検索結果に関連する画像の特定のサブ部分上にオーバーレイするために、少なくとも1つの選択された検索結果にそれぞれ関連する少なくとも1つの選択された視覚結果通知を提供し得る。そのような様式で、ユーザの関心は、個人化された検索結果を提供し、ユーザインターフェース内のクラッターを低減するために使用され得る。
【0111】
1012において、コンピューティングシステムは、少なくとも1つの選択された視覚結果通知をユーザに提供し得る。たとえば、コンピューティングシステムは、クエリ処理システム202の出力に基づいて予測される結果を含む出力データ404をユーザに提供し得る。
【0112】
図5は、図9で説明した例示的な方法の利点を例示する。602は、図9で説明した方法を使用しない、例示的な拡張現実ユーザインターフェースを示す。ユーザインターフェース602は、図9で説明した方法を用いずに、インターフェース602が、見通すために使用不可能であり、さらに、通知オーバーレイ604を使用困難な状態にするように、インターフェース602が通知オーバーレイ604で過剰に混雑していることを例示する。
【0113】
対照的に、インターフェース606は、図9で説明した方法を使用した、例示的な拡張現実ユーザインターフェースを示す。インターフェース606は、図9で説明した方法を用いて、ユーザが、選択通知オーバーレイ604を依然として見通すことができ、同様に、すべての選択された通知オーバーレイ604に容易にアクセスすることができるように、選択された通知オーバーレイ604のみが表示されることを示す。
【0114】
図10は、本開示の例示的な実施形態による例示的な方法1100のフローチャート図を示す。図10は、ステップが例示および考察のために特定の順序で実行されることを示すが、本開示の方法は、特定の例示された順序または配置に限定されない。方法1100の様々なステップは、本開示の範囲から逸脱せずに、様々な方法で、省かれること、再配置されること、組み合わされること、かつ/または適応されることが可能である。
【0115】
1102において、コンピューティングシステムは、視覚クエリを取得し得る。たとえば、コンピューティングシステム(たとえば、図1のユーザコンピューティングデバイス102および視覚検索システム104)は、ユーザから視覚クエリ入力データ204を取得し得る。
【0116】
1104において、コンピューティングシステムは、複数の異なる項目を記述するグラフにアクセスし得る。詳細には、コンテンツ(たとえば、製品レビューなど、ユーザ生成コンテンツ)のそれぞれのセットは、複数の異なる項目の各々に関連付けられる。
【0117】
より詳細には、コンピューティングシステムは、前に取得された視覚クエリをクエリ処理システム内に入力し得る。たとえば、コンピューティングシステムは、視覚クエリ入力データ204をクエリ処理システム202内に入力し得る。
【0118】
1106において、コンピューティングシステムは、グラフから複数の選択された項目を選択し得る。より詳細には、クエリ処理システム202は、複数の異なる項目の階層表現であり得るグラフを活用し得る。グラフから複数の選択された項目を選択することは、視覚検索クエリに基づいて、画像内に示されたオブジェクト(たとえば、画像内に示された特定の映画)に対応する、グラフ内の1次項目を識別することを含み得る。次に、視覚検索システムは、グラフの階層表現内の1次項目に関する、グラフ内の1つまたは複数の追加項目を識別し、複数の選択された項目として1次項目および1つまたは複数の追加項目を選択することができる。
【0119】
1108において、コンピューティングシステムは、検索結果として、コンテンツの組み合わされたセットをユーザに提供し得る。たとえば、コンピューティングシステムは、視覚検索結果モデル202の出力に基づいて、予測される結果を含む出力データ404をユーザに提供し得る。
【0120】
図6は、図10で説明した例示的な方法の利点を例示する。ユーザインターフェース702は、図10で説明した方法を用いない例示的な検索結果を示す。ユーザインターフェース702は、図10で説明した方法を用いずに、検索結果が視覚クエリとして使用されるまったく同じオブジェクトのみに関する結果を含むことを例示する。対照的に、ユーザインターフェース704は、図10で説明した方法を使用する例示的な検索結果を示す。ユーザインターフェース704は、図10で説明した方法を用いて、検索結果が拡張され、複数のカノニカルエンティティに関連する結果を含むことを例示する。
【0121】
図11は、本開示の例示的な実施形態による例示的な方法1200のフローチャート図を示す。図11は、ステップが例示および考察のために特定の順序で実行されることを示すが、本開示の方法は、特定の例示された順序または配置に限定されない。方法1200の様々なステップは、本開示の範囲から逸脱せずに、様々な方法で、省かれること、再配置されること、組み合わされること、かつ/または適応されることが可能である。
【0122】
1202において、コンピューティングシステムは、視覚クエリを取得し得る。たとえば、コンピューティングシステム(たとえば、図1のユーザコンピューティングデバイス102および視覚検索システム104)は、ユーザから視覚クエリ入力データ204を取得し得る。
【0123】
1204において、コンピューティングシステムは、視覚クエリ画像の1つまたは複数の構成特性、詳細には、画像の様々な属性(たとえば、識別された1つまたは複数のオブジェクトまでの距離、オブジェクトの数、オブジェクトの相対的な類似性、角度方位など)を識別し得る。
【0124】
より詳細には、コンピューティングシステムは、前に取得された視覚クエリをクエリ処理システム内に入力し得る。たとえば、コンピューティングシステムは、視覚クエリ入力データ204をクエリ処理システム202内に入力し得る。視覚クエリを入力するのに先立って、コンピューティングシステムは、エッジ検出アルゴリズムにアクセスし得る。より詳細には、収集された画像は、エッジ検出アルゴリズム(たとえば、勾配フィルタ)を用いてフィルタリングされ、それにより、得られた画像を取得することができ、この画像は、バイナリ行列内の画像内に含まれるオブジェクトの位置を判定する水平および垂直方向で測定され得るバイナリ行列を表す。
【0125】
1206において、コンピューティングシステムは、視覚検索クエリがオブジェクト固有であるかまたはカテゴリー別であるかを判定し得る。より詳細には、クエリ処理システム202は、識別された構成特性を活用して、視覚クエリが、検索結果の拡張されたコーパスが関連するカテゴリー別クエリであるか、または視覚クエリ内で識別される1つまたは複数のオブジェクトに特に関係するオブジェクト固有のクエリであるかを予測し得る。
【0126】
1208において、コンピューティングシステムは、1つまたは複数のオブジェクト固有の検索結果をユーザに提供し得る。たとえば、コンピューティングシステムは、視覚検索結果モデル202の出力に基づいて予測された結果を含む出力データ404をユーザに提供し得る。
【0127】
1210において、コンピューティングシステムは、1つまたは複数のカテゴリー別検索結果をユーザに提供し得る。たとえば、コンピューティングシステムは、視覚検索結果モデル202の出力に基づいて予測された結果を含む出力データ404をユーザに提供し得る。図7は、図11で説明した例示的な方法の利点を例示する。画像802および804は、同じ付随テキストクエリ(たとえば、「どちらが最も高い食物繊維を有するか?」)を有し得る画像の変形態の2つの例である。2つの例示的な画像802および804に応じて、視覚検索システムは、同じ付随するテキストクエリにもかかわらず、2つの異なる結果を戻すことになる。ユーザインターフェース806は、画像802に応じて、構成特性(たとえば、シリアルボックスが焦点の中央に位置する、シリアルボックスがおよそ90度の角度にある、すなわち、シリアルボックスが斜めに置かれていない、画像内に含まれるすべてのシリアルボックスが特に識別可能である)に基づいて、視覚検索システムが画像内で識別されたシリアルの中から最も高い食物繊維含有量を有するシリアルの画像を戻すことができることを例示する。対照的に、ユーザインターフェース808は、画像804に応じて、構成特性(たとえば、通路全体がビュー内にあるように画像が撮影された、シリアルボックスにまったく焦点が合っていない、シリアルボックスが30度の角度にある、すなわち、より斜めに置かれている)に基づいて、視覚検索システムがすべてのシリアルの中から最も高い食物繊維含有率を有するシリアルの画像を戻すことができることを例示する。
【0128】
図12は、本開示の例示的な実施形態による例示的な方法1300のフローチャート図を示す。図12は、ステップが例示および考察のために特定の順序で実行されることを示すが、本開示の方法は、特定の例示された順序または配置に限定されない。方法1300の様々なステップは、本開示の範囲から逸脱せずに、様々な方法で、省かれること、再配置されること、組み合わされること、かつ/または適応されることが可能である。
【0129】
1302において、コンピューティングシステムは、視覚クエリを取得し得る。たとえば、コンピューティングシステム(たとえば、図1のユーザコンピューティングデバイス102および視覚検索システム104)は、ユーザから視覚クエリ入力データ204を取得し得る。
【0130】
1304において、コンピューティングシステムは、視覚クエリに関連する1つまたは複数の追加のエンティティを識別し得る。具体的には、コンピュータ視覚検索システムは、1つまたは複数のコンテキスト信号または情報に基づいて、視覚検索クエリに関連する1つまたは複数のエンティティを識別し得る。
【0131】
より詳細には、コンピューティングシステムは、前に取得された視覚クエリをクエリ処理システム内に入力し得る。たとえば、コンピューティングシステムは、視覚クエリ入力データ204をクエリ処理システム202内に入力し得る。視覚クエリを入力するのに先立って、コンピューティングシステムは、エッジ検出アルゴリズムにアクセスし得る。より詳細には、収集された画像は、エッジ検出アルゴリズム(たとえば、勾配フィルタ)を用いてフィルタリングされ、それにより、得られる画像を取得することができ、この画像は、バイナリ行列内の画像に含まれるオブジェクトの位置を判定する水平および垂直方向で測定され得るバイナリ行列を表す。
【0132】
1306において、コンピューティングシステムは、第1のエンティティと1つまたは複数の追加のエンティティの組合せに関するコンテンツに対して構成されたクエリを判定し得る。より詳細には、クエリ処理システム202は、複数のエンティティを活用して、第1のエンティティと1つまたは複数の追加のエンティティの組合せに関するコンテンツに対して構成されたクエリを判定し得る。詳細には、エンティティは、人々、オブジェクト、および/または、イベントなど、抽象エンティティを含み得る。
【0133】
1308において、コンピューティングシステムは、第1のエンティティと1つまたは複数の追加のエンティティの組合せに関するコンテンツのセットをユーザに提供し得る。たとえば、コンピューティングシステムは、視覚検索結果モデル202の出力に基づいて予測された結果を含む出力データ404をユーザに提供し得る。
【0134】
図8は、図12で説明した例示的な方法の利点を例示する。ユーザインターフェース904は、例示的な視覚クエリ902に基づく、図12で説明した方法を使用しない例示的な検索結果を示す。ユーザインターフェース904は、図12で説明した方法を用いずに、現在の技術は視覚クエリが与えられた複数のエンティティのクエリを構成することができないことにより、検索結果が視覚クエリ画像内で認識された個々のオブジェクトのみに関する結果を含むことを示す。対照的に、ユーザインターフェース906は、図12で説明した方法を使用して、同じ例示的な視覚クエリ902に基づく例示的な検索結果を示す。この方法は、視覚クエリ内で識別されたすべての顔を考慮に入れ、どれが識別されたすべての顔を含む1次予備的検索結果であったかを示す、特定の授賞式の検索結果をもたらす、それらの顔またはそれらの顔に関するイベントのうちのいくつかまたはすべてを含むクエリを構成する。906は、図12で説明した方法を用いて、検索結果が拡張され、構成特性に基づいて関心のある複数のオブジェクトを考慮に入れることができることを例示する。
【0135】
追加の開示
本明細書で論じる技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースシステム、ならびに行われるアクションおよびそのようなシステム間で送られる情報を参照する。コンピュータベースシステムの固有の柔軟性は、構成要素同士の間のタスクおよび機能性の多種多様な考えられる構成、組合せ、および分割を可能にする。たとえば、本明細書で論じたプロセスは、単一のデバイスまたは構成要素または組み合わせて動作する複数のデバイスまたは構成要素を使用して実装され得る。データベースおよびアプリケーションは、単一システム上で実装されてよく、または複数のシステムにわたって分散されてもよい。分散された構成要素は、連続的にまたは並列に動作し得る。
【0136】
本主題は、その様々な特定の例示的な実施形態に関して詳細に説明されているが、各例は、本開示の限定ではなく、説明として提供される。当業者は、前述の理解を得ると、そのような実施形態に対する変更、変形態、および均等物を容易に作り出すことができる。したがって、本開示は、当業者に容易に明らかになるように、主題に対するそのような修正、変形体、およびまたは追加の包含を妨げない。たとえば、一実施形態の一部として例示または説明した特徴は、またさらなる実施形態をもたらすために別の実施形態とともに使用され得る。したがって、本開示はそのような変更、変形態、および均等物を包含とすることが意図される。
【符号の説明】
【0137】
100 コンピューティングシステム、システム
102 ユーザコンピューティングデバイス
104 視覚検索システム
112 プロセッサ
114 メモリ
116 データ
118 命令
122 ユーザ入力構成要素
124 カメラ
126 カメラアプリケーション
128 オブジェクト検出器
130 ユーザインターフェース生成器、コンテンツキャッシュ
132 オンデバイストラッカー
134 コンテンツキャッシュ
136 フロントエンドサーバ
138 コンテンツデータ記憶ユニット
140 バックエンドサーバ
142 プロセッサ
146 メモリ
148 データ
150 命令
152 オブジェクト認識器
154 クエリ処理システム
156 コンテンツランク付けシステム
158 ユーザインターフェース
180 ネットワーク
200 視覚検索システム、システム
202 クエリ処理システム、ユーザ関心システム、視覚検索結果モデル
204 視覚クエリ、入力データ、視覚クエリ入力データ、画像/視覚クエリ入力データ、画像/クエリ入力データ
206 出力データ、候補検索結果
400 視覚検索システム、システム
402 ランク付けシステム
404 出力データ、出力
500 視覚検索システム、システム
502 コンテキスト構成要素
504 コンテキスト情報
602 インターフェース
604 通知オーバーレイ
606 インターフェース
702 ユーザインターフェース
704 ユーザインターフェース
802 画像
804 画像
806 ユーザインターフェース
808 ユーザインターフェース
902 視覚クエリ
904 ユーザインターフェース
906 ユーザインターフェース
1000 方法
1100 方法
1200 方法
1300 方法
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12