IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特開2024-163063マルチモーダルクエリに応答して提供される情報のための視覚的引用
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024163063
(43)【公開日】2024-11-21
(54)【発明の名称】マルチモーダルクエリに応答して提供される情報のための視覚的引用
(51)【国際特許分類】
   G06F 16/53 20190101AFI20241114BHJP
【FI】
G06F16/53
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024075869
(22)【出願日】2024-05-08
(31)【優先権主張番号】18/314,646
(32)【優先日】2023-05-09
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ハーシット・カルバンダ
(72)【発明者】
【氏名】ジェシカ・リー
(72)【発明者】
【氏名】クリストファー・ジェームズ・ケリー
(72)【発明者】
【氏名】ベリンダ・ルナ・ゼン
(72)【発明者】
【氏名】ルイス・ワン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175DA02
5B175HB03
(57)【要約】
【課題】マルチモーダルクエリのための情報を提供および提示すること。
【解決手段】クエリ画像と結果画像との間の類似性に基づいて、結果画像が取得される。第1のテキストユニットが取得され、第1のテキストユニットは、結果画像を含むソースドキュメントのテキストコンテンツの少なくとも一部分を含む。クエリ画像に関連付けられたプロンプトに応答して、第2のテキストユニットが判断され、第2のテキストユニットは、(a)第1のテキストユニットの少なくとも一部、または(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む。第2のテキストユニットおよび結果画像は、インターフェース内での表示のために提供される。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータにより実施される方法であって、
1つまたは複数のプロセッサデバイスを備えるコンピューティングシステムによって、クエリ画像と結果画像との間の類似性に基づいて前記結果画像を検索するステップと、
前記コンピューティングシステムによって、第1のテキストユニットを取得するステップであって、前記第1のテキストユニットは、前記結果画像を含むソースドキュメントのテキストコンテンツの少なくとも一部分を含む、ステップと、
前記コンピューティングシステムによって、前記クエリ画像に関連付けられたプロンプトに応答して第2のテキストユニットを判断するステップであって、前記第2のテキストユニットは、
(a)前記第1のテキストユニットの少なくとも一部、または
(b)前記第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む、ステップと、
前記コンピューティングシステムによって、前記第2のテキストユニットおよび前記結果画像を、インターフェース内での表示のために提供するステップと
を含む方法。
【請求項2】
前記結果画像を検索するステップは、
前記コンピューティングシステムによって、前記クエリ画像を機械学習型視覚サーチモデルで処理して、前記クエリ画像の中間表現を取得するステップと、
前記コンピューティングシステムによって、前記クエリ画像の前記中間表現と前記結果画像の中間表現との間の類似性の程度に基づいて、前記結果画像を検索するステップと
を含む、請求項1に記載のコンピュータにより実施される方法。
【請求項3】
前記機械学習型視覚サーチモデルで前記クエリ画像を処理するステップは、前記コンピューティングシステムによって、前記クエリ画像を機械学習型埋め込みモデルで処理して、前記クエリ画像のためのクエリ画像埋め込みを取得するステップを含み、
前記結果画像を検索するステップは、前記コンピューティングシステムによって、埋め込みスペース内での、前記クエリ画像埋め込みと前記結果画像の埋め込みとの間の距離に基づいて、前記結果画像を検索するステップを含む、請求項2に記載のコンピュータにより実施される方法。
【請求項4】
前記クエリ画像を処理するのに先立って、前記方法は、前記コンピューティングシステムによって、ユーザコンピューティングデバイスから前記クエリ画像を取得するステップを含む、請求項1に記載のコンピュータにより実施される方法。
【請求項5】
前記インターフェースは、前記ユーザコンピューティングデバイスによって実行されるアプリケーションのユーザインターフェースを含む、請求項4に記載のコンピュータにより実施される方法。
【請求項6】
前記クエリ画像を取得するステップは、前記コンピューティングシステムによって、前記クエリ画像、および前記クエリ画像に関連付けられた前記プロンプトを前記ユーザコンピューティングデバイスから取得するステップを含む、請求項4に記載のコンピュータにより実施される方法。
【請求項7】
前記結果画像を検索するステップは、
前記コンピューティングシステムによって前記インターフェース内での表示のために、前記結果画像を前記ユーザコンピューティングデバイスに提供するステップと、
前記結果画像を提供したことに応答して、前記ユーザコンピューティングデバイスから、前記クエリ画像に関連付けられた前記プロンプトを受信するステップと
をさらに含む、請求項4に記載のコンピュータにより実施される方法。
【請求項8】
前記クエリ画像に関連付けられた前記プロンプトに応答して前記第2のテキストユニットを判断するステップは、
前記コンピューティングシステムによって、前記第2のテキストユニット、および前記クエリ画像に関連付けられた前記プロンプトを機械学習型言語モデルで処理して、前記第2のテキストユニットを含む言語出力を取得するステップを含む、請求項1に記載のコンピュータにより実施される方法。
【請求項9】
前記第2のテキストユニットは前記第1のテキストユニットのサブセットを含む、請求項8に記載のコンピュータにより実施される方法。
【請求項10】
前記第2のテキストユニットは、前記第1のテキストユニットから導出されたテキストを含み、前記第1のテキストユニットから導出された前記テキストは、前記第1のテキストユニットの要約を記述する、請求項8に記載のコンピュータにより実施される方法。
【請求項11】
前記ソースドキュメントは、
ウェブサイトの1つもしくは複数のウェブページ、
記事、
新聞、
本、または
トランスクリプト、を含む、請求項1に記載のコンピュータにより実施される方法。
【請求項12】
前記第2のテキストユニットおよび前記結果画像を提供するステップは、前記コンピューティングシステムによって前記インターフェース内での表示のために、(a)前記ソースドキュメントを識別し、および/または(b)前記ソースドキュメントにアクセス可能なロケーションを示す、属性情報を提供するステップをさらに含む、請求項1に記載のコンピュータにより実施される方法。
【請求項13】
前記ソースドキュメントはウェブページを含み、前記属性情報は前記ウェブページのアドレスを含む、請求項12に記載のコンピュータにより実施される方法。
【請求項14】
前記ソースドキュメントは雑誌を含み、前記属性情報は、前記雑誌内での前記結果画像のロケーションを示す引用を含む、請求項12に記載のコンピュータにより実施される方法。
【請求項15】
前記第2のテキストユニットを判断するのに先立って、前記方法は、前記コンピューティングシステムによって、前記クエリ画像に少なくとも部分的に基づいて、前記クエリ画像に関連付けられた前記プロンプトを生成するステップを含む、請求項1に記載のコンピュータにより実施される方法。
【請求項16】
前記クエリ画像に関連付けられた前記プロンプトを生成するステップは、
前記コンピューティングシステムによって、前記クエリ画像を機械学習型モデルで処理して、前記クエリ画像を記述する意味出力を生成するステップと、
前記コンピューティングシステムによって、前記意味出力に少なくとも部分的に基づいて前記プロンプトを生成するステップと
を含む、請求項15に記載のコンピュータにより実施される方法。
【請求項17】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読記憶媒体と
を備え、前記命令は、前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させ、前記動作は、
クエリ画像および関連付けられたプロンプトを、ユーザコンピューティングデバイスから取得することと、
機械学習型埋め込みモデルで前記クエリ画像を処理して、クエリ画像埋め込みを取得することと、
前記クエリ画像埋め込みと結果画像の埋め込みとの間の類似性に基づいて、前記結果画像を検索することと、
前記結果画像についてのソースドキュメントを識別することであって、前記ソースドキュメントは、前記結果画像、および前記結果画像に関連付けられたテキストコンテンツを含む、ことと、
前記ソースドキュメントからの、前記結果画像に関連付けられた前記テキストコンテンツの少なくとも一部分を含む第1のテキストユニットを判断することと、
前記第1のテキストユニットおよび前記プロンプトを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得することであって、前記第2のテキストユニットは、
(a)前記第1のテキストユニットの少なくとも一部、または
(b)前記第1のテキストユニットから導出されたテキスト、
のうちの1つまたは複数を含む、ことと
前記第2のテキストユニットおよび前記結果画像を、前記ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することと
を含む、コンピューティングシステム。
【請求項18】
前記動作は、
追加情報についての要求を示す情報を前記ユーザコンピューティングデバイスから受信することと、
前記クエリ画像埋め込みと第2の結果画像の埋め込みとの間の類似性に基づいて、前記第2の結果画像を検索することと、
前記結果画像についての第1のソースドキュメントおよび第2のソースドキュメントを識別することであって、前記第1のソースドキュメントおよび前記第2のソースドキュメントの各々は、前記結果画像、および前記結果画像に関連付けられたテキストコンテンツを含み、前記第1のソースドキュメントの前記結果画像に関連付けられた前記テキストコンテンツは、前記第2のソースドキュメントの前記結果画像に関連付けられた前記テキストコンテンツとは異なる、ことと、
前記第1のソースドキュメントまたは前記第2のソースドキュメントのうちの1つまたは複数から、前記結果画像に関連付けられた前記テキストコンテンツの少なくとも一部分を含む追加の第1のテキストユニットを判断することと、
前記追加の第1のテキストユニット、および前記プロンプトを前記機械学習型言語モデルで処理して、追加の第2のテキストユニットを含む第2の言語出力を取得することであって、前記追加の第2のテキストユニットは、
(a)前記追加の第1のテキストユニットの少なくとも一部、または
(b)前記追加の第1のテキストユニットから導出されたテキスト、
のうちの1つまたは複数を含む、ことと、
前記追加の第2のテキストユニットおよび前記第2の結果画像を、前記ユーザコンピューティングデバイスによって実行される前記アプリケーションの前記インターフェース内での表示のために提供することと
をさらに含む、請求項17に記載のコンピューティングシステム。
【請求項19】
前記第2のテキストユニットおよび前記結果画像を提供することは、前記ソースドキュメントを識別する属性情報を、前記ユーザコンピューティングデバイスによって実行される前記アプリケーションの前記インターフェース内での表示のために提供することをさらに含む、請求項17に記載のコンピューティングシステム。
【請求項20】
命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記命令は、コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させ、前記動作は、
クエリ画像の中間表現と、複数の結果画像にそれぞれ関連付けられた複数の中間表現の各々との間の類似性に基づいて、前記複数の結果画像を検索することと、
複数のソースドキュメントを識別することであって、前記複数のソースドキュメントの各々は、前記複数の結果画像のうちのある結果画像および前記結果画像に関連付けられたテキストコンテンツを含む、ことと、
前記複数の結果画像のための複数の第1のテキストユニットをそれぞれ判断することであって、各第1のテキストユニットは、前記結果画像を含む1つまたは複数のソースドキュメントからの、前記結果画像に関連付けられた前記テキストコンテンツの少なくとも一部分を含む、ことと、
機械学習型言語モデルでテキスト入力のセットを処理して、第2のテキストユニットを含む言語出力を取得することであって、前記テキスト入力のセットは、
(a)前記複数の結果画像のうちの2つ以上の結果画像にそれぞれ関連付けられた2つ以上の第1のテキストユニット、および
(b)前記クエリ画像に関連付けられたプロンプト、
を含む、ことと、
前記第2のテキストユニットおよび前記2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のために前記ユーザコンピューティングデバイスに提供することと
を含む、1つまたは複数の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は概して、マルチモーダルクエリのための情報を提供および提示することに関する。より詳細には、本開示は、マルチモーダルクエリに応答して検索された、または導出された情報のための視覚的引用を生成することに関する。
【背景技術】
【0002】
現代社会では、テキストベースのサーチサービスが至る所にあるが、ユーザはしばしば、様々な状況においてテキストベースのクエリを考案するのに苦労する。たとえば、ユーザはしばしば、自分にとって見慣れないオブジェクトについて説明するのが難しいと感じる。別の例では、ユーザは、意図(たとえば、意図したクエリの主題、など)をテキストでは正しく表すことができないことがある。ユーザとサーチサービスとの間のより効率的であり正確な対話を容易にするために、マルチモーダルクエリが提案されている。マルチモーダルクエリとは、複数のタイプ、またはフォーマットのデータ(たとえば、テキストコンテンツ、オーディオデータ、ビデオデータ、画像データなど)を使って考案されたクエリである。たとえば、ユーザは、画像、および関連付けられたテキストプロンプト(たとえば、鳥の画像、および「これは何という種類の鳥?」というテキストクエリ)を含むマルチモーダルクエリを、サーチサービスに提供する場合がある。サーチサービスは、画像および関連付けられたテキストコンテンツなどのサーチ結果を検索するのに、様々なマルチモーダルクエリ処理技法を使用することができ、テキストコンテンツのいくつかの部分を、特定の結果画像に関連付けられるものとして示すように、ユーザに提示され得る。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の実施形態の態様および利点は、以下の説明において部分的に記載されるか、または説明から知ることができるか、または実施形態の実施を通して知ることができる。
【0004】
本開示の1つの例示的態様は、コンピュータにより実施される方法を対象とする。コンピュータにより実施される方法は、1つまたは複数のプロセッサデバイスを備えるコンピューティングシステムによって、クエリ画像と結果画像との間の類似性に基づいて、結果画像を検索するステップを含む。コンピュータにより実施される方法は、コンピューティングシステムによって、第1のテキストユニットを取得するステップを含み、第1のテキストユニットは、結果画像を含むソースドキュメントのテキストコンテンツの少なくとも一部分を含む。コンピュータにより実施される方法は、コンピューティングシステムによって、クエリ画像に関連付けられたプロンプトに応答して第2のテキストユニットを判断するステップを含み、第2のテキストユニットは、(a)第1のテキストユニットの少なくとも一部、または(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む。コンピュータにより実施される方法は、コンピューティングシステムによって、第2のテキストユニットおよび結果画像を、インターフェース内での表示のために提供するステップを含む。
【0005】
本開示の別の例示的態様は、コンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサを含む。コンピューティングシステムは、命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を含み、命令は、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる。動作は、クエリ画像および関連付けられたプロンプトを、ユーザコンピューティングデバイスから取得することを含む。動作は、機械学習型埋め込みモデルでクエリ画像を処理して、クエリ画像埋め込みを取得することを含む。動作は、クエリ画像埋め込みと結果画像の埋め込みとの間の類似性に基づいて、結果画像を検索することを含む。動作は、結果画像用のソースドキュメントを識別することを含み、ソースドキュメントは、結果画像、および結果画像に関連付けられたテキストコンテンツを含む。動作は、ソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む第1のテキストユニットを判断することを含む。動作は、第1のテキストユニットおよびプロンプトを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得することを含み、第2のテキストユニットは、(a)第1のテキストユニットの少なくとも一部、または(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む。動作は、第2のテキストユニットおよび結果画像を、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することを含む。
【0006】
本開示の別の例示的態様は、命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とし、これらの命令は、コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる。動作は、クエリ画像の中間表現と、複数の結果画像にそれぞれ関連付けられた複数の中間表現の各々との間の類似性に基づいて、複数の結果画像を検索することを含む。動作は、複数のソースドキュメントを識別することを含み、複数のソースドキュメントの各々は、複数の結果画像のうちのある結果画像およびその結果画像に関連付けられたテキストコンテンツを含む。動作は、複数の結果画像のための複数の第1のテキストユニットをそれぞれ判断することを含み、各第1のテキストユニットは、結果画像を含む1つまたは複数のソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む。動作は、機械学習型言語モデルでテキスト入力のセットを処理して、第2のテキストユニットを含む言語出力を取得することを含み、テキスト入力のセットは、(a)複数の結果画像のうちの2つ以上の結果画像にそれぞれ関連付けられた2つ以上の第1のテキストユニットと、(b)クエリ画像に関連付けられたプロンプトとを含む。動作は、第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することを含む。
【0007】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0008】
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照すると、よりよく理解されよう。本明細書に組み込まれ本明細書の一部を構成する添付図面は、本開示の例示的な実施形態を示し、この説明と一緒に、関連する原理を説明するために役立つ。
【0009】
当業者を対象とする、実施形態の詳細な考察が本明細書において説明され、本明細書は、添付の図面を参照する。
【図面の簡単な説明】
【0010】
図1】本開示のいくつかの実装形態による例示的視覚サーチシステムのブロック図である。
図2】本開示のいくつかの実装形態による、視覚的クエリに応答して情報および付随する視覚的引用を提供するためのデータフロー図である。
図3】本開示のいくつかの実装形態による、プロンプトに対する応答および対応する視覚的引用の生成を実施するための例示的方法のフローチャート図である。
図4】本開示のいくつかの実装形態による、テキストコンテンツおよび対応するインターフェース要素の表示のための、ユーザコンピューティングデバイスの例示的インターフェースを示す図である。
図5A】本開示のいくつかの他の実装形態による、テキストコンテンツおよび対応するインターフェース要素の表示のための、ユーザコンピューティングデバイスの例示的インターフェースを示す図である。
図5B】本開示のいくつかの実装形態による、ユーザ入力の受信に応答して、図5Aのインターフェースに続いて表示されるユーザコンピューティングデバイスの例示的インターフェースを示す図である。
図6A】本開示のいくつかの実装形態による、第1の時間期間T1におけるユーザフィードバックに応答した、視覚サーチ情報の動的精錬(refinement)のためのデータフロー図である。
図6B】本開示のいくつかの実装形態による、第2の時間期間T2におけるユーザフィードバックに応答した、視覚サーチ情報の動的精錬のためのデータフロー図である。
図7A】本開示のいくつかの実装形態による、導出されたテキストコンテンツおよび対応する結果画像に対するユーザフィードバックを収集するための、ユーザコンピューティングデバイスの例示的インターフェースを示す図である。
図7B】本開示のいくつかの実装形態による、ユーザフィードバックに基づいて精錬された視覚サーチ情報の表示のための、ユーザコンピューティングデバイスの例示的インターフェースを示す図である。
図8】本開示のいくつかの実装形態による、クエリ画像との視覚的類似性に基づいて検索された画像を含むドキュメントから導出された視覚サーチ情報を提供するための例示的方法のフローチャート図である。
図9】本開示のいくつかの実装形態による、ユーザフィードバックに基づいて視覚サーチ情報を絞り込むための例示的方法のフローチャート図である。
図10】本開示のいくつかの実装形態による、視覚サーチ情報の精錬のためにユーザフィードバックの収集を実施するための例示的方法のフローチャート図である。
図11A】本開示のいくつかの実装形態による、視覚またはマルチモーダルサーチサービスを実施する例示的コンピューティングシステムのブロック図である。
図11B】本開示のいくつかの実装形態による、視覚サーチ動作、および/または視覚サーチ情報の精錬を実施する例示的コンピューティングシステムのブロック図である。
【発明を実施するための形態】
【0011】
複数の図にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別するものである。
【0012】
概して、本開示は、マルチモーダルクエリに応答して検索された情報をユーザに提示することを対象とする。より詳細には、本開示は、視覚的クエリまたはマルチモーダルクエリなどのクエリに応答して提供され検索された情報のソースを視覚的に識別する視覚的引用を生成することに関する。マルチモーダルクエリとは、様々なタイプのデータ(たとえば、テキストコンテンツ、オーディオデータ、ビデオデータ、画像データなど)を使って考案されるクエリである。マルチモーダルクエリに応答して、サーチシステムは、様々なマルチモーダルクエリ処理技法を使って情報を検索し、かつ/または導出することができる。
【0013】
例として、ユーザが、鳥のクエリ画像および「これは何という鳥?」などの対応するプロンプトからなるマルチモーダルクエリを提供すると仮定する。視覚サーチシステムは、クエリ画像と視覚的に類似している結果画像を検索すればよい。視覚的に類似した結果画像のソース(たとえば、画像およびテキストコンテンツを含むドキュメント)が、クエリ画像に関連する情報を含む見込みがあるという仮定に基づいて、視覚サーチシステムは、結果画像のソースから情報を抽出することができる。視覚サーチシステムは次いで、プロンプト(たとえば、情報の要約など)に基づいて、抽出された情報からテキストコンテンツを導出し得る。たとえば、視覚サーチシステムは、テキストコンテンツおよびプロンプトを機械学習型言語モデルで処理して、テキストコンテンツを含む言語出力を生成し得る。
【0014】
視覚サーチシステムは、テキストコンテンツ、および視覚的に類似した画像を、ユーザコンピューティングデバイスのインターフェースにおける、ユーザへの表示のために提供することができる。インターフェースは、結果画像についての属性要素を含み得る。属性要素は、結果画像の表現(たとえば、サムネイル)、および画像のソースを識別する情報を含み得る。前の例に従うように、1つの結果画像が、クエリ画像によって示されるのと同じ種の鳥を示し、結果画像のソースがウェブサイトである場合、属性要素は、結果画像のサムネイル、およびウェブサイトを識別する情報(たとえば、ウェブサイトのタイトル、URLなど)を含み得る。このようにして、ユーザは、結果画像とクエリ画像との間の視覚的類似性に基づいて、または結果画像のソースにナビゲートすることによって、テキストコンテンツの正確さを素早く検証することができる。たとえば、結果画像が、クエリ画像によって示された鳥と明らかに同じ種ではない鳥を示す場合、ユーザは、ユーザに提供された対応するテキストコンテンツが不正確である見込みが比較的高いと素早く判断することができる。
【0015】
いくつかの実装形態では、ユーザは、対応する結果画像が不正確であること、およびしたがって、結果画像のソースから導出されたどの情報も、不正確である見込みがあることを示すための属性要素を選択することができる。ユーザの選択に基づいて、視覚サーチシステムはテキストコンテンツを導出することができる。前の例に従うように、視覚サーチシステムは、各々が鳥を示す4つの結果画像を検索することができる。視覚サーチシステムは、4つの結果画像のソースから情報を抽出することができ、機械学習型言語モデルを用いてユーザによって提供されたプロンプトに沿って、抽出された情報を処理して、テキストコンテンツを含む言語出力を取得することができる。視覚サーチシステムは、テキストコンテンツおよび4つの属性要素を、ユーザに関連付けられたユーザコンピューティングデバイスに提供することができる。
【0016】
たとえば、4つの結果画像のうちの1つが、クエリ画像および他の3つの結果画像に示される鳥とは明らかに異なる種である鳥を示すと仮定する。ユーザは、その結果画像を含む属性要素を(たとえば、タッチスクリーンデバイスを介するなどして)選択することができ、ユーザコンピューティングデバイスは、結果画像の選択を視覚サーチシステムに対して示すことができる。以前、視覚サーチシステムは、プロンプトと、4つの結果画像のソースから抽出された情報のコーパスとを機械学習型言語モデルで処理することによって、ユーザに提供されたテキストコンテンツを生成した可能性がある。したがって、結果画像の選択に応答して、視覚サーチシステムは、情報のコーパスからの結果画像のソースから抽出されたどの情報を削除してもよく、次いで、残りの情報を機械学習型言語モデルで処理して、異なるテキストコンテンツを含む第2の言語出力を生成することができる。このテキストコンテンツは、ユーザコンピューティングデバイスに提供され得る。このようにして、視覚サーチシステムは、視覚的引用についてのユーザフィードバックに基づいて、結果を繰り返し強化することができる。
【0017】
本開示の態様は、いくつかの技術的効果および利益を提供する。1つの例示的な技術的効果および利益として、クエリへの直接的返答を提供することができるサーチサービスは、関連ドキュメントのリストを提供するだけのサービスよりも、ユーザにとってはるかに望ましいが、それは、ドキュメントのリストは依然として、さらなる調査を執り行うのにかなりの時間およびエネルギーを費やすことをユーザに対して求めるからである。ただし、ユーザクエリへの返答を提供することが可能なほとんどのサーチサービスが、返答の正確さを検証する機能をユーザに提供しない。返答を検証する機能がないので、多くのユーザが、そのようなサーチサービスを使うことを拒否し得る。
【0018】
ただし、本開示の実装形態は、ユーザに対して、返答の正確さを素早く、効率的に示すための視覚的引用の提供を可能にする。より具体的には、クエリ画像に視覚的に類似している結果画像に関連付けられた情報から、クエリへの応答を導出することによって、ユーザは、結果画像中に示されるものに基づいて、応答の正確さを素早く判断することができる。このようにして、本開示の実装形態は、クエリへの応答を提供することができるとともに、ユーザが応答の正確さを素早く検証することもできるようにする。
【0019】
本明細書に記載される限り、「テキストユニット」、「テキストコンテンツ」、および「テキスト」は交換可能に使われ得ることに留意されたい。概して、上述した用語の各々が、1つまたは複数の英数字のユニットを指し得る。たとえば、テキストコンテンツ、テキストユニット、およびテキストが、個別の段落、単語、単一の数字、英数字列、プログラムコードまたは命令の行、機械言語、機械可読コードなどを指し得る。
【0020】
さらに、本明細書において言及されるどのテキスト、テキストコンテンツ、および/またはテキストユニットも、オーディオデータ、画像データ、視聴覚データなどから導出され得ることに留意されたい。たとえば、本明細書においてさらに定義される「ドキュメント」は、スキャンされ、画像として保存されたニュース記事であってよい。そのような画像から、従来の光学式文字認識技法を使ってテキストを抽出することができる。したがって、テキストを示す画像は、画像からテキストを抽出するのに中間段階処理技法が使用されたとしても、テキストと呼ばれ得る。これは、会話、ビデオ、ポッドキャスト、音楽、ダイアログ付きビデオゲームなどの記録のような、オーディオおよび視聴覚媒体にも適用可能である。より全般的には、発話された発声、テキストの叙述、またはテキストを導出することができるどの他の媒体も概して、本明細書を通して「テキスト」と呼ばれ得ることが、当業者には理解されよう。
【0021】
ここで図面を参照して、本開示の例示的実施形態についてさらに詳しく論じる。
【0022】
図1は、本開示のいくつかの実装形態による例示的視覚サーチシステム100のブロック図を示す。より具体的には、ユーザコンピューティングデバイス102が、入力デバイス104および通信モジュール106を含み得る。入力デバイス104は、ユーザから入力を直接または間接的に受信することができるデバイス(たとえば、マイクロフォン、カメラ、タッチスクリーン、物理的ボタン、赤外線カメラ、マウス、キーボードなど)であるか、またはそうでなければそれらを含むことができる。通信モジュール106は、ネットワーク110を介して視覚サーチコンピューティングシステム108と通信するように集合的に構成されたハードウェアおよび/またはソフトウェアであるか、またはそうでなければそれらを含むことができる。たとえば、通信モジュール106は、ネットワークへのワイヤレス接続を容易にするデバイスを含み得る。
【0023】
ユーザコンピューティングデバイス102は、クエリ画像112および関連付けられたプロンプト114を取得することができる。クエリ画像112は、視覚サーチコンピューティングシステム108へのクエリとして機能する選択された画像であってよい。たとえば、ユーザコンピューティングデバイス102のユーザは、ユーザコンピューティングデバイス102の入力デバイス104を使って、クエリ画像112を取り込むことができる。代替として、ユーザは、何らかの他のやり方で(たとえば、スクリーンキャプチャを実施し、画像をダウンロードし、画像作成ツールにより画像を作成するなどして)クエリ画像112を取得してよい。
【0024】
クエリ画像112に関連付けられたプロンプト114は、ユーザによって提供されたテキストコンテンツを含み得る。たとえば、ユーザは、キーボードまたは入力デバイス104に含まれる何らかの他の入力方法により、プロンプト114のテキストコンテンツを直接プロンプト表示することができる。代替として、ユーザは、プロンプト114を間接的に提供することができる。たとえば、ユーザは発話された発声を生じることができ、ユーザコンピューティングデバイス102は、発話された発声を入力デバイス104で取り込むことができる。ユーザコンピューティングデバイス102は、音声認識技法(たとえば、機械学習型テキスト音声モデルなど)を使用して、発話された発声を処理してプロンプト114を生成することができる。
【0025】
いくつかの実装形態では、クエリ画像112は対応するプロンプト114なしで提供され、ユーザコンピューティングデバイス102は、クエリ画像112に関連付けられた適当なプロンプトを判断してよい。たとえば、クエリ画像112が、画像中で対象となっている主題として鳥を示す場合、ユーザコンピューティングデバイス102は、クエリ画像112とともに提供するための適当なプロンプト114(たとえば、「このオブジェクトを識別して」、「これを説明して」、「もっと教えて」、など)を選択してよい。代替として、いくつかの実装形態では、ユーザコンピューティングデバイス102は、ユーザコンピューティングデバイス102のユーザによって提供されたプロンプト114を修正することができる。たとえば、ユーザコンピューティングデバイス102は、プロンプトにコンテキスト情報(たとえば、時刻、ジオロケーション、ユーザ情報、先行クエリ画像を記述する情報および/またはユーザによって提供されたプロンプトなど)を追加するように、プロンプト114を修正してよい。
【0026】
ユーザコンピューティングデバイス102は、ネットワーク110を介して、視覚サーチコンピューティングシステム108に視覚サーチ要求116を提供することができる。視覚サーチ要求116は、クエリ画像112およびプロンプト114を含み得る。
【0027】
視覚サーチコンピューティングシステム108は、視覚サーチモジュール118を含み得る。視覚サーチモジュール118は、視覚サーチ要求116を処理して、テキストコンテンツ120および結果画像122を取得することができる。テキストコンテンツ120は、プロンプト114およびクエリ画像112に応答し得る。たとえば、クエリ画像112が動物を示し、プロンプト114が「この動物は何か」である場合、テキストコンテンツ120は、プロンプトへの返答を提供することができる(たとえば、その動物の種を、または知っている動物の場合、その動物の名前を識別する)。結果画像122は、クエリ画像112に視覚的に類似した画像であり得る。これらの結果画像122は、テキストコンテンツ120が導出されたドキュメントの中に含められる。視覚サーチモジュール118は、ドキュメントのうちの1つまたは複数に含まれるテキストの少なくとも一部分を抽出することができる。いくつかの実装形態では、視覚サーチモジュール118は、ドキュメントに含まれる結果画像に関連する見込みがある、ドキュメント内のテキストの部分を識別するために、様々な処理技法を実施してよい。
【0028】
より具体的には、視覚サーチモジュール118は、クエリ画像112と結果画像122との間の類似性に基づいて、結果画像122を検索することができる。たとえば、視覚サーチモジュール118は、クエリ画像112と視覚的に類似している画像を識別するのに使うことができる機械学習型モデルを含み得る。視覚サーチモジュール118は、結果画像を含むドキュメントからテキストを取得することができる。ドキュメントは、本明細書に記載する限り、ウェブサイト、学術誌、本、新聞、記事、ソーシャルメディア投稿、トランスクリプト、ブログなどのような、結果画像を含む、どのタイプまたは様式のソース資料であってもよい。いくつかの実装形態では、視覚サーチモジュール118は、ドキュメントから抽出されたテキストから、テキストコンテンツ120を選択することができる。追加または代替として、いくつかの実装形態では、視覚サーチモジュール118は、ドキュメントから抽出されたテキストから、テキストコンテンツ120を導出することができる。たとえば、視覚サーチモジュール118は、大規模言語モデルなどの機械学習型モデルを含むか、またはそうでなければそれにアクセスすることができ、ドキュメントから抽出されたテキストおよびプロンプトを処理して、テキストコンテンツ120を取得することができる。
【0029】
視覚サーチモジュール118は、ネットワーク110を介してユーザコンピューティングデバイス102にインターフェースデータ124を与え得る。インターフェースデータ124は、テキストコンテンツ120および結果画像122を含み得る。たとえば、インターフェースデータ124は、テキストコンテンツ120をハイライトするための、および結果画像122のサムネイル表現を含めるための命令を含むことができ、そうすることによって、ユーザコンピューティングデバイス102のユーザは、結果画像122の正確さを、およびそれに応じて、テキストコンテンツ120の正確さを容易に検証することができる。このようにして、視覚サーチコンピューティングシステム108は、クエリへの応答を提供すると同時に、ユーザによる返答の迅速で正確な検証を容易にすることができる。
【0030】
図2は、本開示のいくつかの実装形態による、視覚的クエリに応答して情報および付随する視覚的引用を提供するためのデータフロー図200を示す。より具体的には、視覚サーチコンピューティングシステム202(たとえば、物理サーバコンピューティングシステム、クラウドコンピューティングシステム、ネットワーク中の仮想化および/または物理計算ノード(たとえば、エッジ計算ノードなど))は、ユーザコンピューティングデバイスからクエリ画像206およびプロンプト208を取得することができる視覚サーチモジュールを含み得る。たとえば、ユーザコンピューティングデバイス203は、ネットワークを介して、視覚サーチコンピューティングシステム202に視覚サーチ要求を提供することができる。
【0031】
いくつかの実装形態では、クエリ画像206は、関連付けられたプロンプトなしで、視覚サーチコンピューティングシステム202から受信され得る。そのような状況において、視覚サーチモジュール204は、クエリ画像206に関連付けられる見込みがあるプロンプトを生成すると判断する場合がある。たとえば、視覚サーチモジュール204は、クエリ画像206の意味記述を生成するようにトレーニングされた機械学習型意味画像モデルを含み得る。いくつかの実装形態では、視覚サーチモジュール204は、クエリ画像206の意味記述を、プロンプト208として使用することができる。代替として、いくつかの実装形態では、視覚サーチモジュール204は、大規模言語モデルなど、別の機械学習型モデルで、クエリ画像206の意味記述を処理して、プロンプト208を生成することができる。
【0032】
いくつかの実装形態では、視覚サーチモジュール204は、ユーザコンピューティングデバイス203から受信されたプロンプト208を修正してよい。たとえば、視覚サーチモジュール204は、プロンプトにコンテキスト情報(たとえば、時刻、ユーザコンピューティングデバイス203のジオロケーション、ユーザコンピューティングデバイス203のユーザに関連付けられた、記憶されているユーザ情報、先行クエリ画像を記述する情報および/またはユーザコンピューティングデバイス203によって提供されたプロンプトなど)を追加するように、プロンプト208を修正してよい。
【0033】
視覚サーチモジュール204は、画像評価モジュール210を含み得る。画像評価モジュール210は、クエリ画像206と視覚的に類似している結果画像212を識別するために、様々な処理技法を実施することができる。たとえば、画像評価モジュール210は、記憶された画像データのコーパスから、クエリ画像206に視覚的に類似している画像を識別するようにトレーニングされる機械学習型視覚サーチモデル214を含み得る。たとえば、いくつかの実装形態では、視覚サーチモデル214は、クエリ画像206の中間表現(たとえば、埋め込みなど)を生成するのに使うことができる、埋め込みモデルなどの機械学習型符号化用モデルであり得る。画像評価モジュール210は、画像サーチスペース215を含み得るか、またはそれにアクセスすることができる。画像サーチスペース215は、複数の記憶された画像のための中間表現を含み得る。たとえば、画像サーチスペース215は、大量の画像を記憶し、視覚サーチサービスを容易にするようにインデックス付けするデータストア(たとえば、データベースなど)に記憶された画像向けに生成された埋め込みを含む埋め込みスペースであってよい。画像評価モジュール210は、埋め込みスペース内のクエリ画像206向けに生成された埋め込みに最も近い埋め込みをもつ結果画像212を選択すればよい。
【0034】
本例は、本開示の例示的実装形態をより明らかに示すためだけに、単一の結果画像212を示すことに留意されたい。ただし、そのような実装形態は、単一の結果画像212の取得に限定されない。そうではなく、結果画像212は、結果画像とクエリ画像206との間の類似性により取得された任意の数の結果画像であってよい。
【0035】
前に記載したように、視覚サーチモジュール204は、視覚サーチサービスを容易にするように、大量の画像をインデックス付けすることができる。視覚サーチモジュール204は、ドキュメントインデックス付け情報216の中の結果画像を含むか、またはそうでなければそれらに関連付けられるソースドキュメントを示す情報をインデックス付けすることもできる。ドキュメントは、本明細書に記載する限り、ウェブサイト、学術誌、本、新聞、記事、ソーシャルメディア投稿、トランスクリプト、ブログなどのような、結果画像を含む、どのタイプまたは様式のソース資料であってもよい。結果画像が、ドキュメントと同じエンティティによって生成され、作成され、ホストされるなどした場合、結果画像はドキュメントに「関連付け」られ得る。たとえば、ドキュメントである。たとえば、結果画像が、ドキュメントの表紙絵として使われ、ドキュメント(たとえば、生成的モデルの出力など)から導出され、ドキュメントがそこから転写されたビデオのフレームである、などの場合、結果画像はドキュメントに関連付けられ得る。結果画像が、現在はドキュメント内にあるか、または結果画像および/もしくはドキュメントがインデックス付けされたときにドキュメント内にあった場合、結果画像はドキュメントに「含まれ」得る。
【0036】
結果画像212は、ドキュメント220の中に含まれ得る。ドキュメント220は、結果画像212およびテキストコンテンツ222を含み得る。いくつかの実装形態では、ドキュメントインデックス付け情報216は、結果画像212を含むか、もしくはそうでなければそれに関連付けられたドキュメント220を含み得るか、またはドキュメント220から抽出されたテキストコンテンツを含み得る。追加または代替として、いくつかの実装形態では、ドキュメントインデックス付け情報216は、ドキュメント220のソースロケーション(たとえば、ネットワーク内のファイルロケーション、ウェブサイトURL、FTPアドレスなど)を記述することができる。追加または代替として、いくつかの実装形態では、ドキュメントインデックス付け情報216は、ドキュメント220の圧縮バージョンを含み得る。
【0037】
結果画像212に関して記載するように、本例は、本開示の例示的実装形態をより明らかに示すためだけに、単一のドキュメント220を示す。ただし、そのような実装形態は、単一のドキュメント220の取得に限定されない。そうではなく、いくつかの実装形態では、複数のドキュメント220が、それぞれの複数の結果画像212(たとえば、5つの結果画像に対して5つのドキュメント)を含み得る。追加または代替として、いくつかの実装形態では、単一のドキュメント220が複数の結果画像212を含み得る。追加または代替として、いくつかの実装形態では、複数のドキュメント220が各々、単一の結果画像212のインスタンスを含み得る。
【0038】
具体例として、クエリ画像206が高速船を示すと、および画像評価モジュール210が、同じ高速船を異なる角度から示す結果画像212を選択すると仮定する。選択された結果画像212が、高速船愛好家向けのウェブサイト(すなわち、ドキュメント)の中にホストされるか、または元来ホストされていた場合、視覚サーチモジュール204は、ウェブサイトへのリンク、ウェブサイトのアーカイブされたバージョン、またはウェブサイトから抽出されたテキストコンテンツを、ドキュメントインデックス付け情報216内に記憶し得る。より一般的には、視覚サーチモジュール204は、ドキュメントと対応する結果画像との間の関連付けを示す情報を、ドキュメントインデックス付け情報216の中に記憶することができる。
【0039】
視覚サーチモジュール204は、ドキュメントコンテンツ選択モジュール218を含み得る。ドキュメントコンテンツ選択モジュール218は、結果画像212を含むドキュメント220を検索することができる。ドキュメント220が検索されると、ドキュメントコンテンツ選択モジュール218は、ドキュメント220のテキストコンテンツ222から、第1のテキストユニット224を抽出することができる。第1のテキストユニット224は、ドキュメント220のテキストコンテンツ222の一部、または全部を含み得る。いくつかの実装形態では、ドキュメントコンテンツ選択モジュール218は、ドキュメント220に含まれる結果画像212に関連する見込みがある、テキスト224内のテキストの部分を識別するために、様々な処理技法を実施してよい。たとえば、ドキュメント220がオンライン記事であり、結果画像212がオンライン記事の途中にある場合、ドキュメントコンテンツ選択モジュール218は、結果画像の前後にあるテキスト(たとえば、段落、文または単語の数、列など)を、第1のテキストユニット224に含めるために発見的に選択してよい。代替として、いくつかの実装形態では、ドキュメントコンテンツ選択モジュール218は、ドキュメントの中に含まれる全テキストを、第1のテキストユニット224に含めるために抽出することができる。
【0040】
視覚サーチモジュール204は、テキスト判断モジュール226を含み得る。テキスト判断モジュール226は、第1のテキストユニット224およびプロンプト208に基づいて、第2のテキストユニット228を判断することができる。いくつかの実装形態では、テキスト判断モジュール226は、機械学習型言語モデル230を使って、第2のテキストユニット228を判断することができる。たとえば、テキスト判断モジュール226は、第1のテキストユニット224およびプロンプト208を処理して、第2のテキストユニット228を取得することができる。いくつかの実装形態では、機械学習型言語モデル230は、複数の生成的タスクを実施するようにトレーニングデータの大規模コーパスでトレーニングされた大規模言語モデルであり得る。さらに、いくつかの実装形態では、機械学習型言語モデル230は、第2のテキストユニット228の生成に関する言語タスクの特定の実施にモデルを調和させ、または最適化するための追加トレーニング反復を経ている場合がある。
【0041】
視覚サーチモジュール204は、インターフェースデータ生成モジュール232を含み得る。インターフェースデータ生成モジュール232は、インターフェースデータ234を生成することができ、インターフェースデータ234をユーザコンピューティングデバイス203へ送信することができる。インターフェースデータ234は、第2のテキストユニット228および結果画像212を含み得る。インターフェースデータ234は、第2のテキストユニット228および結果画像212がユーザコンピューティングデバイス203のインターフェース内に表示されることになるやり方を示すことができる。たとえば、インターフェースデータ234は、ユーザコンピューティングデバイス203によって実行されるアプリケーション(たとえば、視覚サーチアプリケーションなど)のインターフェース内に第2のテキストユニット228および結果画像212を表示するためのやり方を示し得る。ユーザコンピューティングデバイス203によって実行されるアプリケーションのインターフェース内での第2のテキストユニット228および結果画像212の表示については、図4図5A、および図5Bに関してより詳細に論じる。
【0042】
いくつかの実装形態では、インターフェースデータ生成モジュール232は属性情報236を生成することができる。属性情報236は、ドキュメント220を識別する情報であるか、またはそうでなければその情報を含むことができる。たとえば、ドキュメント220がニュース記事である場合、属性情報236は、ニュース記事のタイトルおよび発行元ニュース組織の名称であってよい。別の例では、ドキュメント220が学術論文である場合、属性情報236は、学術論文のタイトル、筆頭著者、著者のリスト、文献引用などであってよい。さらに別の例では、ドキュメント220が、ウェブサイト、またはユーザコンピューティングデバイス203にとってアクセス可能な何らかの他の形のドキュメントである場合、属性情報236は、ドキュメント220へのアクセスを容易にするリンク(たとえば、URLなど)を含み得る。
【0043】
図3は、本開示の例示的実施形態による、プロンプトに対する応答および対応する視覚的引用の生成を実施するための例示的方法300のフローチャート図である。図3は、説明および考察のために、具体的順序で実施される動作を示すが、本開示の方法は、具体的に示す順序または並びには限定されない。方法300の様々な動作は、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
【0044】
302において、コンピューティングシステムが、クエリ画像と結果画像との間の類似性に基づいて結果画像を検索することができる。いくつかの実装形態では、結果画像を検索するために、コンピューティングシステムは、クエリ画像を機械学習型視覚サーチモデルで処理して、クエリ画像の中間表現を取得し、クエリ画像の中間表現と結果画像の中間表現との間の類似性に基づいて結果画像を選択することができる。たとえば、機械学習型視覚サーチモデルは、画像埋め込みスペース向けのクエリ画像の埋め込みを生成する機械学習型埋め込みモデルであってよい。コンピューティングシステムは、結果画像の埋め込みと、複数の他の画像埋め込みとを含む埋め込みスペースを評価して、結果画像を検索することができる。結果画像の埋め込みは、埋め込みスペース内のクエリ画像埋め込みへの埋め込みであり得る。
【0045】
いくつかの実装形態では、結果画像を検索するのに先立って、コンピューティングシステムはユーザコンピューティングデバイスからクエリ画像を取得することができる。いくつかの実装形態では、インターフェースは、ユーザコンピューティングデバイスによって実行されるアプリケーションのユーザインターフェースを含む。たとえば、ユーザコンピューティングデバイスは、コンピューティングシステムによって提供される視覚サーチサービスに関連付けられた視覚サーチアプリケーションを実行することができる。視覚サーチアプリケーションは、クエリ画像およびプロンプトの取込みを、コンピューティングシステムへの送信のために容易にすることができる。
【0046】
いくつかの実装形態では、クエリ画像を取得することは、クエリ画像、およびクエリ画像に関連付けられたプロンプトをユーザコンピューティングデバイスから取得することを含み得る。さらに、いくつかの実装形態では、プロンプトは、コンピューティングシステムによって修正することができる。たとえば、プロンプトは、大規模言語モデルによるプロンプトの処理を容易にする命令を含むように修正することができる。
【0047】
いくつかの実装形態では、結果画像を検索することは、インターフェース内での表示のために、結果画像をユーザコンピューティングデバイスに提供することと、結果画像を提供したことに応答して、クエリ画像に関連付けられたプロンプトをユーザコンピューティングデバイスから受信することとをさらに含む。たとえば、コンピューティングシステムは、クエリ画像を受信し、視覚サーチを実施して、結果画像を取得することができる。コンピューティングシステムは、結果画像を、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することができる。それに応答して、ユーザコンピューティングデバイスのユーザは、ユーザコンピューティングデバイスにクエリを入力すればよく、このクエリはコンピューティングシステムに提供され得る。
【0048】
304において、コンピューティングシステムは、第1のテキストユニットを取得することができ、第1のテキストユニットは、結果画像を含むソースドキュメントのテキストコンテンツの少なくとも一部分を含む。いくつかの実装形態では、ドキュメントは、ウェブサイトの1つもしくは複数のウェブページ、記事、新聞、本、またはトランスクリプトを含む。たとえば、ソースドキュメントがウェブサイト記事である場合、コンピューティングシステムは、記事のテキストコンテンツ、記事のタイトル、記事をホストするウェブサイトに関連した他のテキストコンテンツ、などを含む第1のテキストユニットを取得することができる。
【0049】
306において、コンピューティングシステムは、クエリ画像に関連付けられたプロンプトに応答して、第2のテキストユニットを判断することができ、第2のテキストユニットは、(a)第1のテキストユニットの少なくとも一部、(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む。いくつかの実装形態では、クエリ画像に関連付けられたプロンプトに応答して第2のテキストユニットを判断することは、第2のテキストユニット、およびクエリ画像に関連付けられたプロンプトを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得することを含む。いくつかの実装形態では、第2のテキストユニットは第1のテキストユニットのサブセットを含む。いくつかの実装形態では、第2のテキストユニットは、第1のテキストユニットから導出されたテキストを含み、第1のテキストユニットから導出されたテキストは、第1のテキストユニットの要約を記述する。
【0050】
いくつかの実装形態では、第2のテキストユニットを判断するのに先立って、コンピューティングシステムは、クエリ画像に少なくとも部分的に基づいて、クエリ画像に関連付けられたプロンプトを生成することができる。たとえば、コンピューティングシステムは、意味的画像分析モデルなどの機械学習型モデルでクエリ画像を処理して、クエリ画像を記述する意味出力を生成することができる。コンピューティングシステムは、意味出力をプロンプトとして使用し得る。
【0051】
308において、コンピューティングシステムは、インターフェース内での表示のために、結果画像および第2のテキストユニットを与え得る。たとえば、コンピューティングシステムは、結果画像および第2のテキストユニットを、クエリ画像およびプロンプトを提供したユーザコンピューティングデバイスへ送信してよい。いくつかの実装形態では、結果画像および第2のテキストユニットを提供することは、インターフェース内での表示のために、第2のテキストユニットを含むインターフェース要素と、結果画像、および結果画像を含むドキュメントを識別する属性情報を含む属性要素とを記述するデータを提供することを含む。いくつかの実装形態では、ドキュメントはウェブページを含み、属性情報はウェブページのアドレスを含む。代替として、いくつかの実装形態では、ドキュメントは雑誌を含み、属性情報は、雑誌内での結果画像のロケーションを示す引用を含む。
【0052】
図4は、本開示のいくつかの実装形態による、テキストコンテンツおよび対応するインターフェース要素の表示のための、ユーザコンピューティングデバイスの例示的インターフェース400を示す。図4については、図2とともに論じる。より具体的には、視覚サーチ要求402が、図2のクエリ画像206およびプロンプト208を含み得る。視覚サーチ要求402が、図2に関して記載したように、視覚サーチコンピューティングシステム202に提供され得る。視覚サーチコンピューティングシステム202は、視覚サーチ要求402を処理して、インターフェースデータ234を取得することができる。インターフェースデータ234は、第2のテキストユニット228および結果画像212を含み得る。
【0053】
具体的には、インターフェースデータ234は、結果画像212および第2のテキストユニット228がユーザコンピューティングデバイス203のインターフェース400内で表示されるやり方を示し得る。たとえば、ユーザコンピューティングデバイス203は、視覚サーチアプリケーションを実行することができ、またはユーザコンピューティングデバイス203のオペレーティングシステムに統合されたアプリケーションをすでに実行中である場合がある。アプリケーションは、ユーザコンピューティングデバイス203のディスプレイデバイスに、インターフェース400を表示することができる。
【0054】
図示される例に従うように、クエリ画像206は、ビーグルなど、特定の品種の犬を示し得る。プロンプト208は、「これは何という品種の犬?」などの質問であってよい。視覚サーチコンピューティングシステム202は、視覚サーチ要求402を処理して、第2のテキストユニット228および結果画像212を取得することができ、これらは、インターフェースデータ234に含められ得る。図示されるように、第2のテキストユニット228は、プロンプト208によって課されたクエリへの、「返答:ビーグル」などの返答を含み得る。同様に、結果画像212は、クエリ画像206と結果画像212との間の視覚的類似性により検索することができる。
【0055】
いくつかの実装形態では、インターフェースデータ234は、第2のテキストユニット228および結果画像212が提示されるやり方を記述し得る。たとえば、インターフェースデータ234は、第2のテキストユニット228が、第2のテキストユニット228を強調するように主要インターフェース要素404内に提示されるべきであることを示し得る。インターフェースデータ234は、主要インターフェース要素404が属性要素405を含むべきであることをさらに示し得る。
【0056】
属性要素405は、結果画像212および対応する属性情報236を含み得る。属性情報236は、結果画像212を含むドキュメント(たとえば、図2のドキュメント220)であって、第2のテキストユニット228が抽出または導出されたドキュメントを識別し得る。ドキュメントがウェブサイトであるか、またはそうでなければユーザコンピューティングデバイス203によってアクセス可能である場合、属性情報236は、ドキュメントにアクセスするためのリンクも提供し得る。このようにして、属性要素405は、ユーザコンピューティングデバイス203のユーザが第2のテキストユニット228の正確さを容易に確認することができるための「視覚的引用」として機能し得る。
【0057】
いくつかの実装形態では、第2のテキストユニット228が導出されたドキュメントの中に含まれる結果画像212に加え、インターフェースデータは複数の他の結果画像212を含み得る。インターフェースデータ234は、他の結果画像212を結果画像要素406A、406B、406C、および406D(概して、結果画像要素406)の中に表示するための命令を示し得る。いくつかの実装形態では、結果画像要素406の中に含まれる結果画像212は、主要インターフェース要素404の中に含まれる結果画像よりもクエリ画像206に類似していない結果画像であり得る。たとえば、視覚サーチコンピューティングシステム202は、5つの結果画像212を、インターフェースデータ234に含めるために選択してよい。クエリ画像206に最も類似している結果画像212(たとえば、埋め込みスペース内の、クエリ画像206の埋め込みに最も近い埋め込みをもつ画像)が、主要インターフェース要素404に含めるために示され得る。結果画像要素406は、他の4つの結果画像212を含み得る。
【0058】
主要インターフェース要素404と同様に、結果画像要素406は、結果画像要素406の結果画像212を含むドキュメントを識別する属性情報236を含み得る。図示される例に従うように、各結果画像要素406は、それぞれの結果画像要素406の中に含まれる結果画像212を含むウェブサイトドキュメントへのリンクを含み得る。
【0059】
図5Aは、本開示のいくつかの他の実装形態による、テキストコンテンツおよび対応するインターフェース要素の表示のための、ユーザコンピューティングデバイスの例示的インターフェース500Aを示す。図5については、図2および図4とともに論じる。視覚サーチ要求502が、図2に関して記載したように、視覚サーチコンピューティングシステム202に提供され得る。視覚サーチ要求は、クエリ画像206およびプロンプト208を含み得る。視覚サーチコンピューティングシステム202は、視覚サーチ要求502を処理して、インターフェースデータ234を取得することができる。インターフェースデータ234は、第2のテキストユニット228および結果画像212を含み得る。
【0060】
図示される例に従うように、クエリ画像206は、特定のタイプの旅客ジェット機を示し得る。プロンプト208は、クエリとして機能する場合もそうでない場合もある、「良い飛行機か?」などのステートメントであってよい。視覚サーチコンピューティングシステム202は、視覚サーチ要求502を処理して、第2のテキストユニット228、結果画像212、および属性情報236を取得することができ、これらはインターフェースデータ234の中に含められ得る。図示されるように、第2のテキストユニット228は、プロンプト208によって課されたクエリへの返答を含み得る。同様に、結果画像212は、クエリ画像206と結果画像212との間の視覚的類似性により検索することができる。
【0061】
インターフェース500Aは、図4のインターフェース400においてインターフェース要素が表示されるフォーマットとは異なるフォーマットでインターフェース要素をインターフェース500Aが表示し得ることを除いて、図4のインターフェース400と同様である。たとえば、図4では、主要インターフェース要素404は、第2のテキストユニット228からのテキストコンテンツと、属性要素405とを、ユーザによって課されたクエリへの明快な返答を提供するフォーマットで含む。ただし、主要インターフェース要素404とは異なり、図5Aの主要インターフェース要素504は、プロンプト208においてユーザによって課されたクエリに関するより多くのコンテキスト情報を提供する第1のドキュメントからの抜粋を含むテキストコンテンツの第1の部分228Aを含む。さらに、主要インターフェース要素504は、プロンプト208によって課されたクエリへの返答として機能することが予測される情報をハイライトするか、または強調する強調要素506を含む。第1のドキュメントは、図4の属性要素405に関して記載したのと同じやり方で、属性要素505によって識別することができる。
【0062】
具体的には、プロンプト208を処理するとき、視覚サーチコンピューティングシステム202は、図4のインターフェース要素404など、クエリへの直接的返答を含むインターフェース要素、または図5Aのインターフェース要素504など、ユーザを支援し得るコンテキスト情報を含むインターフェース要素についてのインターフェースデータ234を生成するかどうかを判断することができる。この判断は、プロンプト208に応答して検索された情報に関連付けられた確実性の度合い、プロンプト208の意味的理解、などに基づき得る。図示される例において、「良い飛行機か」は比較的主観的な質問であるので、視覚サーチコンピューティングシステム202は、プロンプト208の意味的理解に基づいて、図示されるインターフェースデータ234を生成すると判断してよい。インターフェースデータ234に含めるべきインターフェース要素のタイプ、様式、フォーマットなどの判断については、図6A図7Bに関してより詳細に論じる。
【0063】
いくつかの実装形態では、インターフェースデータ234は、複数のインターフェース要素内での表示のための情報を含み得る。言い換えると、インターフェースデータ234は、異なるテキストコンテンツを含む複数のインターフェース要素を、含み得るか、または生成するのに使用されてよい。図示される例に従うように、インターフェースデータ234は、主要インターフェース要素504および第2のインターフェース要素508の中に含めるための情報を含み得る。インターフェースデータ234の中に含まれる第2のテキストユニット228は、第1のドキュメントからの第1のテキストコンテンツおよび第2のドキュメントからの第2のテキストコンテンツを含み得る。第1のテキストコンテンツは、主要インターフェース要素504に含めるために提供されてよく、第2のテキストコンテンツは、第2のインターフェース要素508に含めるために提供されてよい。
【0064】
視覚サーチコンピューティングシステム202は、複数のインターフェース要素に含めるための情報を含むインターフェースデータ234を生成するかどうかの判断を行うことができる。主要インターフェース要素504向けのフォーマットの判断と同様に、この判断は、プロンプト208の意味的理解、プロンプト208に応答して検索されたテキストの量、品質、および/または意味的理解、などに基づいて行うことができる。さらに、いくつかの実装形態では、視覚サーチコンピューティングシステム202は、インターフェース要素504および508がユーザに提示されることになる順序を判断してよい。
【0065】
ユーザコンピューティングデバイス203のユーザは、主要インターフェース要素504の中に提示された情報を十分とは思わなかったと仮定する。ユーザは、第2のインターフェース要素508を表示するよう、ユーザコンピューティングデバイス203に命令する入力510を、ユーザコンピューティングデバイス203に与え得る。図示される例に従うように、ユーザは、第2のインターフェース要素508を、要素の大部分が隠される位置から、要素の全体が目に見える位置に動かす「スワイプ」タッチ入力510を与え得る。
【0066】
たとえば、図5Bは、本開示のいくつかの他の実装形態による、ユーザ入力の受信に応答して、図5Aのインターフェース500Aに続いて表示されるユーザコンピューティングデバイスの例示的インターフェース500Bを示す。図5Bに移ると、インターフェース500Bは、ユーザからの入力510の受信に応答して表示される。図示されるように、インターフェース500Bにおいて、主要インターフェース要素504は、完全隠蔽の位置にシフトされているが、第2のインターフェース要素508は、完全可視の位置にシフトされている。主要インターフェース要素504のように、第2のインターフェース要素は、プロンプト208に特に関連することが予測される、第2のテキストコンテンツ228Bの部分を強調し、ハイライトし、またはそうでなければ示す第2の強調要素512を含み得る。
【0067】
いくつかの実装形態では、ユーザコンピューティングデバイス203のインターフェース500Bは、追加情報についての要求を示すためにユーザが選択することができる情報要求要素514を含み得る。たとえば、視覚サーチコンピューティングシステム202が、第2のテキストユニット228に含まれる情報がプロンプト208にとって十分である見込みが比較的あると判断すると仮定する。第3、第4、または第5のインターフェース要素に含めるための情報を検索し続けるのではなく、視覚サーチコンピューティングシステム202は、計算リソース(たとえば、計算周期、メモリ使用、電力、記憶、帯域幅、ネットワークリソースなど)の消費を削減し、レイテンシを削減し、効率を増すために、第1のテキストコンテンツ228Aおよび第2のテキストコンテンツ228Bのみをインターフェースデータ234に含めると判断すればよい。
【0068】
ただし、ユーザが、主要インターフェース要素504および第2のインターフェース要素508に含まれる情報が不十分であると決定した場合、ユーザは、情報要求要素514を選択し得る。情報要求要素514を選択すると、ユーザコンピューティングデバイス203は、要求を視覚サーチコンピューティングシステム202へ送信し得る。それに応答して、視覚サーチコンピューティングシステム202は、追加インターフェースデータを、第3のインターフェース要素(またはそれ以上)に含めるために生成することができる。そのようにして、視覚サーチコンピューティングシステム202は、プロンプト208に応答して情報の反復探査を容易にすると同時に、計算用リソースの不必要な使用をなくすことができる。
【0069】
図6Aは、本開示のいくつかの実装形態による、第1の時間期間T1におけるユーザフィードバックに応答した、視覚サーチ情報の動的精錬のためのデータフロー図である。特に、視覚サーチコンピューティングシステム602(たとえば、図2の視覚サーチコンピューティングシステム202など)は、視覚サーチモジュール604(たとえば、図2の視覚サーチモジュール204など)を含み得る。第1の時間期間T1において、視覚サーチコンピューティングシステム602は、クエリ画像606およびプロンプト608を取得することができ、クエリ画像606およびプロンプト608を視覚サーチモジュール604で処理することができる。
【0070】
より具体的には、第1の時間T1において、視覚サーチモジュール604は、図2の画像評価モジュール210など、前の図面に関して記載したような画像評価モジュール610でクエリ画像606を処理して、結果画像612を取得することができる。結果画像612は、第1の結果画像612A、第2の結果画像612B、および第3の結果画像612Cを含み得る。視覚サーチモジュール604は、結果画像612に関連付けられたドキュメントから、テキストユニット614を取得することができる。具体的には、視覚サーチモジュール604は、ドキュメントコンテンツ選択モジュール616を使用して、結果画像612を含むドキュメントから、ドキュメントインデックス付け情報618に基づいて情報を取得することができる。ドキュメントインデックス付け情報618は、結果画像が、視覚サーチコンピューティングシステムによってインデックス付けされたときにその中にあったドキュメントを示す情報を記憶し得る。
【0071】
図示される例に従うように、結果画像612Aは、視覚サーチコンピューティングシステム602によってインデックス付けされたとき、2つの別々のドキュメント618Aおよび618Bに含められたと仮定する。ドキュメントインデックス付け情報618は、インデックス付けのときにドキュメント618Aおよび618Bに含まれるテキストコンテンツを記憶することができるか、またはドキュメント618Aおよび618Bにそこからアクセスするロケーション(たとえば、URL、ダウンロードリンク、ファイルロケーションなど)を示す情報を記憶してよい。たとえば、ドキュメント618Aおよび618Bが、発表された学術誌記事である場合、視覚サーチコンピューティングシステム602は、テキストコンテンツが時間とともに変わる見込みが比較的ないので、ドキュメントに直接含まれるテキストコンテンツを記憶してよい。逆に、ドキュメント618Aおよび618Bが両方ともウェブサイトページである場合、視覚サーチコンピューティングシステム602は、ウェブサイトページに含まれる情報は、時間とともに更新または反復される見込みが比較的あるので、ドキュメント618Aおよび618BにそこからアクセスすることができるURLを記憶してよい。
【0072】
前の例を続けると、テキストユニット614は、第1のテキストユニット614A、第2のテキストユニット614B、および第3のテキストユニット614Cを含み得る。テキストユニットの各々は、結果画像612を含むドキュメントの中に含まれるテキストコンテンツを含み得る。たとえば、結果画像612Aがドキュメント618Aおよび618Bの中に含まれるので、結果画像612Aに対応するテキストユニット614Aは、ドキュメント618Aと618Bの両方からのテキストコンテンツを含み得る。結果画像612Bに対応するテキストユニット614Bは、結果画像612Bを含むドキュメント618Cからのテキストコンテンツを含み得る。テキストユニット614Cは、結果画像612Cを含むドキュメント618Dからのテキストコンテンツを含み得る。
【0073】
視覚サーチコンピューティングシステム602は、図2のテキスト判断モジュール226に関して記載したように、テキストユニット614およびプロンプト608をテキスト判断モジュール620で処理して、導出されたテキストユニット622を取得することができる。より具体的には、テキスト判断モジュールは、(a)テキストユニット614と(b)プロンプト608とを含むテキスト入力のセットを処理して、導出されたテキストユニット622を取得することができる。たとえば、テキスト判断モジュール620は、大規模言語モデル621を含み得る。大規模言語モデル621は、様々なタイプの言語タスクの実施のための、データの大規模であり多様なコーパスでトレーニングされたモデルであってよい。大規模言語モデル621は、テキスト入力のセットを処理して、導出されたテキストユニット622を生成することができる。テキスト入力のセットは、テキストユニット614およびプロンプト608を含み得る。
【0074】
いくつかの実装形態では、導出されたテキストユニット622は、テキスト判断モジュール620に含まれる機械学習型言語モデルからの言語出力であってよい。したがって、導出されたテキストユニット622は、テキストユニット614から生成されたが、その中には含まれない、何らかのテキストコンテンツを含む生成的言語出力であってよい。追加または代替として、導出されたテキストユニット622は、テキストユニット614の一部の(または全)テキストコンテンツを含む言語出力であってよい。
【0075】
視覚サーチコンピューティングシステム602は、結果画像612および導出されたテキストユニット622を、ユーザコンピューティングデバイス624のインターフェース内での表示のために、ユーザコンピューティングデバイス624に与え得る。さらに、いくつかの実装形態では、視覚サーチコンピューティングシステム602は、結果画像612および導出されたテキストユニット622とともに、属性情報626を、ユーザコンピューティングデバイス624に与え得る。たとえば、属性情報626は、ドキュメント618A~618Dを識別し、かつ/またはそれらへのアクセスを提供するドキュメントインデックス付け情報618に記憶された情報を含み得る。
【0076】
いくつかの実装形態では、結果画像612、導出されたテキストユニット622、および属性情報626を受信したことに応答して、ユーザコンピューティングデバイス624は、視覚サーチコンピューティングシステム602に結果画像選択情報628を与え得る。結果画像選択情報628は、選択された結果画像612が不正確であることを示すためのインターフェース内で結果画像612のうちの1つを選択する、ユーザコンピューティングデバイス624において収集されたユーザ入力に応答して生成された情報であってよい。
【0077】
たとえば、図7Aに移ると、図7Aは、本開示のいくつかの実装形態による、導出されたテキストコンテンツおよび対応する結果画像に対するユーザフィードバックを収集するための、ユーザコンピューティングデバイスの例示的インターフェース700Aを示す。図7Aについては、図6Aに関して論じる。特に、クエリ画像606は旅客ジェット機の画像であり、プロンプト608は「最大距離は?」というクエリであると仮定する。それに応答して、視覚サーチコンピューティングシステム602は、属性情報626、導出されたテキストユニット622、および結果画像612を生成し、ユーザコンピューティングデバイス624のインターフェース700Aでの表示のために提供することができる。
【0078】
ユーザコンピューティングデバイス624は、この情報をインターフェース700Aに表示することができる。インターフェース700Aは、導出されたテキストユニット622を含むインターフェース要素702を含み得る。図示される例に従うように、導出されたテキストユニット622は、プロンプト608に応答して検索されたクエリ画像606に示される旅客ジェット機の最大距離に関する情報を含み得る。ここで、導出されたテキストユニット622は、複数のソースドキュメントから要約された、旅客ジェット機の最大距離に関連した情報である。
【0079】
さらに、インターフェース700Aは、選択可能な属性要素704A、704B、および704C(概して、選択可能な属性要素704)を含み得る。選択可能な属性要素704は、結果画像と、結果画像を含むドキュメントを識別する属性情報とを含むインターフェース要素である。特に、選択可能な属性要素704によって識別されるドキュメントは、導出されたテキストユニット622がそこから導出されたドキュメントである。ドキュメントのテキストコンテンツが、ドキュメントの中に含まれる画像に密接に関連するという仮定に基づいて、ユーザは、ドキュメントに関連付けられた属性要素に含まれる結果画像を閲覧することによって、導出されたテキストユニット622を導出するのに使われたドキュメントの関連性を素早く、効率的に評価することができる。結果画像(およびしたがって、結果画像を含むドキュメント)が関連しないことを示すために、ユーザは、結果画像を含む選択可能な属性要素704を選択すればよい。
【0080】
たとえば、選択可能な属性要素704Aは、結果画像612Aと、結果画像612Aを含むドキュメント(たとえば、ドキュメント618A)のアイデンティティを示す属性情報626とを含む。選択可能な属性要素704Aに含まれる結果画像612Aは、クエリ画像606との厳密な視覚的一致であるので、ユーザは、選択可能な属性要素704Aを選択する見込みがない。ただし、選択可能な属性要素704Bに含まれる結果画像612Bは、明らかにクエリ画像606とは視覚的に似ておらず、というのは、クエリ画像606は旅客ジェット機を示し、結果画像612Bは戦闘機を示すからである。この視覚的不一致により、ユーザは、属性要素704Bを選択する入力706を与え得る。
【0081】
図7Aに示されるように、結果画像612Bを含むドキュメント618C(すなわち、結果画像612Bの「ソース」)に含まれるテキストコンテンツは、旅客ジェット機ではなく戦闘機に関連し、したがって、プロンプト608およびクエリ画像606とは関連性がない。導出されたテキストユニット622は、ドキュメント618Cからのテキストコンテンツに少なくとも部分的に基づいて生成されるので、導出されたテキストユニット622は少なくとも部分的に不正確である見込みが比較的高い。このことは、インターフェース要素702に含まれる、要約された情報に示され、これは、戦闘機に関連した情報を含む(たとえば、「F-37はVTOL構成をしていて、空母から比較的容易に飛び立つ」、「USの同盟国が、200機を超えるF-37飛行機を購入した」、など)。
【0082】
属性要素704Bを選択する入力706を提供することによって、ユーザは、ユーザコンピューティングデバイス624、およびしたがって視覚サーチコンピューティングシステム602に対して、結果画像612Bを含むドキュメントが、プロンプト608とは関連せず、したがって、導出されたテキストユニット622を生成するのに使用されるべきでないことを示すことができる。入力706を受信したことに応答して、ユーザコンピューティングデバイス624は、結果画像選択情報628を生成し、視覚サーチコンピューティングシステム602に提供することができる。
【0083】
図6Bに移ると、図6Bは、本開示のいくつかの実装形態による、第2の時間期間T2におけるユーザフィードバックに応答した、視覚サーチ情報の動的精錬のためのデータフロー図である。具体的には、視覚サーチコンピューティングシステム602が、結果画像選択情報628を受信し得る。結果画像選択情報628は、結果画像612Bがクエリ画像606と視覚的に類似していないことを示し得る。それに応答して、時間T2において、視覚サーチコンピューティングシステム602は、結果画像612Bを含んでいたドキュメント618Bから抽出されたテキストユニット614Bを除く前のテキストユニット614の各々に基づいて生成される、第2の導出されたテキストユニット630を生成し得る。
【0084】
視覚サーチモジュール604は、結果画像612Bを含む属性要素704Bの選択を示す結果画像選択情報628を受信し得る。それに応答して、視覚サーチモジュール604は、導出されたテキストユニット622を生成するのに以前使われた各テキストユニットを識別することができる。視覚サーチモジュール604は次いで、結果画像612Bのソースドキュメントとして機能したドキュメント618C(たとえば、結果画像612Bを含んでいたドキュメント)から取得されたどのテキストユニットも削除してよい。
【0085】
たとえば、導出されたテキストユニット622を生成するために、視覚サーチモジュールは、テキストユニット614A、テキストユニット614B、テキストユニット614C、およびプロンプト608を含んでいたテキスト入力の第1のセットを処理した可能性がある。結果画像選択情報に応答して、視覚サーチモジュール604は、結果画像選択情報628によって示される選択可能な属性要素704Bの中に含まれる結果画像612Bに関連付けられたテキストユニット614B以外の、テキスト入力の第1のセットの各テキストユニットを含むテキスト入力の第2のセットを判断してよい。ここで、テキスト入力の第2のセットは、テキストユニット614A、テキストユニット614C、およびプロンプト608を含み得る。
【0086】
判断すると、視覚サーチモジュール604は、テキスト入力の第2のセットを大規模言語モデル621で処理して、第2の導出されたテキストユニット630を生成することができる。第2の導出されたテキストユニット630は、ユーザによって不正確であると示される情報に基づかないので、第2の導出されたテキストユニット630は、導出されたテキストユニット622の中に含まれる情報よりも正確な情報を含むと仮定することができる。このようにして、視覚サーチコンピューティングシステム602は、ユーザフィードバックに応答して、視覚サーチ情報(たとえば、導出されたテキストユニット、属性情報、結果画像など)を動的に、繰り返し絞り込むことができる。第2のテキストユニット630は、ユーザコンピューティングデバイス624のインターフェース内での表示のために、ユーザコンピューティングデバイス624に提供されてよい。
【0087】
いくつかの実装形態では、視覚サーチモジュール604は第2の属性情報632を生成することができる。第2の属性情報632は、ドキュメント618Cに関連した属性情報以外は、属性情報626に含まれる情報をすべて含み得る。代替として、いくつかの実装形態では、第2の属性情報632は、ドキュメント618Cに関連した情報をユーザコンピューティングデバイス624のインターフェースにおいて表示しないための命令を含み得る。追加または代替として、いくつかの実装形態では、視覚サーチモジュール604は、選択可能な属性要素704Bの中に含まれる結果画像以外の結果画像612を再送信してよい。
【0088】
たとえば、図7Bに移ると、図7Bは、本開示のいくつかの実装形態による、ユーザフィードバックに基づいて精錬された視覚サーチ情報の表示のための、ユーザコンピューティングデバイスの例示的インターフェース700Bを示す。特に、時間T2において、結果画像選択情報628を受信すると、視覚サーチコンピューティングシステム602は、第2の属性情報632および第2の導出されたテキストユニット630を生成し、インターフェース700Bでの表示のために、ユーザコンピューティングデバイス624に提供することができる。
【0089】
インターフェース700Bは、第2の導出されたテキストユニット630を含むインターフェース要素708を含み得る。図示されるように、第2の導出されたテキストユニット630は、ドキュメント618Cの中に含まれる情報に基づいて生成されるわけではないので、第2の導出されたテキストユニット630は、ドキュメント618Cの内容(たとえば、戦闘機に関する情報)に関連付けられた誤りを含まない。さらに、選択可能な属性要素704Bを選択した入力706に応答して、選択可能な属性要素704Bは、インターフェース700Bから削除されている。そうではなく、追加の選択可能な属性要素が、属性要素704Bの代わりに表示されてよい。このようにして、ユーザコンピューティングデバイス624は、視覚サーチコンピューティングシステム602と通信して、ユーザフィードバックに基づいて視覚サーチ情報を絞り込むことができる。
【0090】
図8は、本開示のいくつかの例示的実施形態による、クエリ画像との視覚的類似性に基づいて検索された画像を含むドキュメントから導出された視覚サーチ情報を提供するための例示的方法800のフローチャート図を示す。図8は、例示および説明の目的で、特定の順序で実施されるステップを示すが、本開示の方法は、具体的に示された順序または並びには限定されない。方法800の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
【0091】
802において、コンピューティングシステムが、クエリ画像の中間表現と、複数の結果画像にそれぞれ関連付けられた複数の中間表現の各々との間の類似性に基づいて、複数の結果画像を検索し得る。いくつかの実装形態では、複数の結果画像を検索することは、クエリ画像を機械学習型視覚サーチモデルで処理して、クエリ画像の中間表現(たとえば、埋め込み、符号化、潜在性表現など)を取得することを含み得る。コンピューティングシステムは、クエリ画像の中間表現と、複数の結果画像の中間表現との間の類似性の程度に基づいて、結果画像を検索し得る。
【0092】
いくつかの実装形態では、機械学習型視覚サーチモデルでクエリ画像を処理することは、機械学習型埋め込みモデルでクエリ画像を処理して、クエリ画像のためのクエリ画像埋め込みを取得することを含み得る。コンピューティングシステムは、埋め込みスペース内での、クエリ画像埋め込みと複数の結果画像の埋め込みとの間の距離に基づいて、複数の結果画像を検索することができる。
【0093】
クエリ画像を処理するのに先立って、動作は、ユーザコンピューティングデバイスからクエリ画像を取得することを含む。たとえば、ユーザは、ユーザコンピューティングデバイスを使用して、見慣れないオブジェクトを示す画像を取り込むことができる。そのオブジェクトについてもっと学習するために、ユーザは、画像および関連付けられたプロンプト(たとえば、「このオブジェクトは何か」、など)をコンピューティングシステムに提供することによって、視覚サーチサービスを使い得る。代替として、いくつかの実装形態では、コンピューティングシステムは、画像および関連付けられたプロンプトを、自動化サービスまたはソフトウェアプログラムから受信し得る。たとえば、インデックス付けサービスが、インデックス付けタスクに対応する関連付けられたプロンプト(たとえば、「どの主要キーワードがこの画像に関連付けられるべきか」、など)をもつ画像を、コンピューティングシステムに与え得る。追加または代替として、いくつかの実装形態では、ユーザコンピューティングデバイスは、自動的に画像を取り込み、プロンプトを生成し、画像およびプロンプトをコンピューティングシステムへ送ってよい。たとえば、ユーザコンピューティングデバイスは装着可能拡張現実(AR)/仮想現実(VR)デバイスであってよい。ユーザコンピューティングデバイスは、オブジェクトの画像を取り込み、画像を、自動的に生成されたプロンプト(たとえば、「このオブジェクトを識別し、関連する要約情報を提供して」、など)とともにコンピューティングシステムへ送ることができる。ユーザコンピューティングデバイスは次いで、そのような情報をAR/VRコンテキストにおいて表示してよい。
【0094】
804において、コンピューティングシステムは、複数のソースドキュメントを識別し得る。複数のソースドキュメントの各々は、複数の結果画像のうちのある結果画像と、その結果画像に関連付けられたテキストコンテンツとを含み得る。いくつかの実装形態では、複数のソースドキュメントを識別することは、ソースドキュメントの各々についての属性情報を取得することをさらに含む。属性情報は、(a)ソースドキュメントを識別する識別用情報(たとえば、タイトル、引用、デジタルオブジェクト識別子(DOI)などの数値識別子など)、および/または(b)ソースドキュメントにそこからアクセスすることができるロケーションを記述する情報(たとえば、ファイル経路、アプリケーションをダウンロードもしくは購入するためのリンク、URL、ホットリンク、ドキュメントの物理的コピーを保持し得るライブラリもしくは他の情報リポジトリへのAPIコール、など)、を含み得る。
【0095】
806において、コンピューティングシステムは、複数の結果画像のための複数の第1のテキストユニットをそれぞれ判断し得る。各第1のテキストユニットは、結果画像を含む1つまたは複数のソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含み得る。例として、第1の結果画像を含む第1のドキュメントは、人気ブログのためのオンライン記事であると仮定する。いくつかの事例では、第1の結果画像が、記事の中に含まれる多くの画像のうちの1つである場合、記事内の第1の結果画像の最も近くにあるテキストコンテンツのみが、第1の結果画像に関連する見込みが比較的あり、したがって、コンピューティングシステムは、記事内の第1の結果画像の近くにあるテキストコンテンツを、第1のテキストユニットに含めるために選択すると判断し得る。代替として、記事が比較的小さく、数段落のみを含み、または第1の結果画像のみを含む場合、コンピューティングシステムは、記事のテキストコンテンツをすべて、第1のテキストユニットに含めるために選択すると判断してよい。
【0096】
したがって、コンピューティングシステムは、ソースドキュメントからのテキストコンテンツのどの部分を第1のテキストユニットに含めるかを判断するためのどの従来技術を使用してもよいことを理解されたい。いくつかの実装形態では、コンピューティングシステムは、ソースドキュメントのテキストコンテンツを、分類モデルなどの機械学習型モデルで処理して、テキストコンテンツの様々な部分の、結果画像との関連性を予測することができる。追加または代替として、いくつかの実装形態では、コンピューティングシステムは、第1のテキストユニットに含めるためのテキストコンテンツを選択するためのヒューリスティック手法を使用することができる。たとえば、コンピューティングシステムは、以下のような規則に基づくスキーマを使用してよい。
IF doc_type==記事;
THEN 文X-5~X+5を検索し、ここでXは、ドキュメントの中での画像のロケーションである;
IF doc_length<=1000語;
THEN すべての単語を検索する。
【0097】
808において、コンピューティングシステムは、機械学習型言語モデルでテキスト入力のセットを処理して、言語出力を取得し得る。言語出力は、第2のテキストユニットを含み得る。テキスト入力のセットは、(a)複数の結果画像のうちの2つ以上の結果画像にそれぞれ関連付けられた2つ以上の第1のテキストユニットと、(b)クエリ画像に関連付けられたプロンプトとを含み得る。
【0098】
810において、コンピューティングシステムは、第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに与え得る。いくつかの実装形態では、第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することは、ユーザコンピューティングデバイスにインターフェースデータを提供することを含む。インターフェースデータは、(a)第2のテキストユニットを含むインターフェース要素と、(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素とを生成するための命令を含み得る。各選択可能な属性要素は、関連付けられた結果画像、またはサムネイルなど、結果画像の何らかの表現を含み得る。選択可能な属性要素は、関連付けられた結果画像を含む1つまたは複数のソースドキュメントについての属性情報も含み得る。
【0099】
いくつかの実装形態では、コンピューティングシステムは、ユーザコンピューティングデバイスから、ユーザコンピューティングデバイスのユーザによる、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の選択を示すデータを受信し得る。第1の選択可能な属性要素は、2つ以上の結果画像のうちの第1の結果画像に関連付けられ得る。コンピューティングシステムは、第1の結果画像を含むソースドキュメントからのテキストコンテンツの少なくとも一部分を含む、2つ以上の第1のテキストユニットのうちの、ある第1のテキストユニットを識別し得る。コンピューティングシステムは、テキスト入力のセットからその第1のテキストユニットを削除して、テキスト入力の第2のセットを取得し得る。コンピューティングシステムは、テキスト入力の第2のセットを機械学習型言語モデルで処理して、精錬された第2のテキストユニットを含む第2の言語出力を取得し得る。コンピューティングシステムは、精錬された第2のテキストユニットをユーザコンピューティングデバイスに与えてよい。
【0100】
いくつかの実装形態では、テキスト入力のセットから第1のテキストユニットを削除して、テキスト入力の第2のセットを取得することは、第1の結果画像を含むソースドキュメントに関連付けられた情報を、属性情報から削除して、精錬された属性情報を取得することをさらに含む。精錬された第2のテキストユニットをユーザコンピューティングデバイスに提供することは、精錬された属性情報をユーザコンピューティングデバイスに提供することをさらに含み得る。
【0101】
いくつかの実装形態では、言語出力は、第2のテキストユニットの一部分を、プロンプトに最も関連するものとして予測する予測情報をさらに含み得る。インターフェースデータは、第2のテキストユニットのその部分をハイライトする強調要素を生成するための命令をさらに含み得る。
【0102】
いくつかの実装形態では、第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することは、ユーザコンピューティングデバイスにインターフェースデータを提供することを含み得る。インターフェースデータは、第1のインターフェース要素、第2のインターフェース要素、ならびに第1および第2の属性要素を生成するための命令を含み得る。第1のインターフェース要素は、第2のテキストユニットの第1の部分を含み得る。第2のテキストユニットの第1の部分は、2つ以上の結果画像のうちの第1の結果画像に関連付けられ得る。たとえば、第2のテキストユニットが、第1の結果画像を含む第1のドキュメントおよび第2の結果画像を含む第2のドキュメントの要約である場合、第2のテキストユニットの第1の部分は、第1のドキュメントを要約する部分であり得る。同様に、第2のインターフェース要素は、第2のテキストユニットの第2の部分を含み得る。第2のテキストユニットの第2の部分は、2つ以上の結果画像のうちの第2の結果画像に関連付けられ得る。第1の選択可能な属性要素は、第1の結果画像のサムネイル、結果画像自体、または結果画像から導出された画像を含んでよく、第1の結果画像を含むソースドキュメントについての属性情報を含んでよい。第2の選択可能な属性要素は、第2の結果画像(またはサムネイルもしくはそこから導出された画像)と、第2の結果画像を含むソースドキュメントについての属性情報とを含み得る。
【0103】
図9は、本開示の例示的実施形態による、ユーザフィードバックに基づいて視覚サーチ情報を絞り込むための例示的方法900のフローチャート図を示す。図9は、例示および説明の目的で、特定の順序で実施されるステップを示すが、本開示の方法は、具体的に示された順序または並びには限定されない。方法900の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
【0104】
902において、コンピューティングシステムが、クエリ画像の中間表現と2つ以上の結果画像の中間表現との間の類似性に基づいて、2つ以上の結果画像を検索し得る。たとえば、中間表現は画像埋め込みであってよく、コンピューティングシステムは、埋め込みスペースにおける、画像埋め込みと、2つ以上の結果画像のための画像埋め込みとの間の距離に基づいて、2つ以上の結果画像を検索し得る。
【0105】
904において、コンピューティングシステムは、機械学習型言語モデルでテキスト入力のセットを処理して、テキストコンテンツを含む言語出力を取得し得る。テキスト入力のセットは、2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツと、クエリ画像に関連付けられたプロンプトとを含み得る。
【0106】
いくつかの実装形態では、テキスト入力のセットを機械学習型言語モデルで処理することは、ソースドキュメントの各々についての属性情報を取得することを含み得る。属性情報は、(a)ソースドキュメントを識別する識別用情報、および/または(b)ソースドキュメントにそこからアクセスすることができるロケーションを記述する情報、を含み得る。
【0107】
906において、コンピューティングシステムは、言語出力および2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに与え得る。たとえば、ユーザコンピューティングデバイスが、コンピューティングシステムによって提供される視覚サーチサービスに関連付けられた視覚サーチアプリケーションを実行中である場合、コンピューティングシステムは、言語出力および結果画像を、視覚サーチアプリケーションのインターフェース内での表示のために与え得る。いくつかの実装形態では、コンピューティングシステムは、属性情報も与え得る。
【0108】
いくつかの実装形態では、言語出力および2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することは、ユーザコンピューティングデバイスにインターフェースデータを提供することを含み得る。インターフェースデータは、(a)言語出力を含むインターフェース要素と、(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素とを生成するための命令を含み得る。各属性要素は、関連付けられた結果画像のサムネイルと、関連付けられた結果画像を含む1つまたは複数のソースドキュメントについての属性情報とを含み得る。
【0109】
908において、コンピューティングシステムは、ユーザコンピューティングデバイスから、2つ以上の結果画像のうちの第1の結果画像が、クエリ画像に視覚的に似ていないという、ユーザコンピューティングデバイスのユーザによる指示を記述する情報を受信し得る。いくつかの実装形態では、2つ以上の結果画像のうちの第1の結果画像がクエリ画像に視覚的に似ていないという、ユーザコンピューティングデバイスのユーザによる指示を記述する情報を受信することは、ユーザコンピューティングデバイスのユーザによる、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の選択を示すデータを受信することを含み得る。第1の選択可能な属性要素は、2つ以上の結果画像のうちの第1の結果画像に関連付けられ得る。
【0110】
910において、コンピューティングシステムは、第1の結果画像を含むソースドキュメントに関連付けられたテキストコンテンツを、テキスト入力のセットから削除し得る。いくつかの実装形態では、第1の結果画像を含むソースドキュメントに関連付けられたテキストコンテンツをテキスト入力のセットから削除することは、第1の結果画像を含むソースドキュメントに関連付けられた情報を、属性情報から削除して、精錬された属性情報を取得することをさらに含む。いくつかの実装形態では、精錬された言語出力をユーザコンピューティングデバイスに提供することは、精錬された属性情報をユーザコンピューティングデバイスに提供することをさらに含む。
【0111】
912において、コンピューティングシステムは、テキスト入力のセットを機械学習型言語モデルで処理して、精錬された言語出力を取得し得る。
【0112】
914において、コンピューティングシステムは、精錬された言語出力を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに与え得る。
【0113】
図10は、本開示の例示的実施形態による、視覚サーチ情報の精錬のためにユーザフィードバックの収集を実施するための例示的方法1000のフローチャート図を示す。図10は、例示および説明の目的で、特定の順序で実施されるステップを示すが、本開示の方法は、具体的に示された順序または並びには限定されない。方法1000の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
【0114】
1002において、ユーザコンピューティングデバイスが、クエリ画像を取得し得る。いくつかの実装形態では、クエリ画像を取得することは、ユーザコンピューティングデバイスに関連付けられた画像取込みデバイスを使って画像を取り込むための要求を示す入力を取得することを含む。ユーザコンピューティングデバイスは、入力を取得したことに応答して、ユーザコンピューティングデバイスに関連付けられた画像取込みデバイスを使ってクエリ画像を取り込み得る。
【0115】
1004において、ユーザコンピューティングデバイスは、プロンプトを記述するテキストデータを取得し得る。いくつかの実装形態では、プロンプトを記述するテキストデータを取得することは、ユーザコンピューティングデバイスに関連付けられたオーディオ取込みデバイスにより、発話された発声をユーザから取得することを含み得る。ユーザコンピューティングデバイスは、発話された発声に少なくとも部分的に基づいて、プロンプトを記述するテキストデータを判断し得る。たとえば、ユーザコンピューティングデバイスは、発話された発声を、機械学習型音声認識モデルで処理して、テキストデータを取得することができる。
【0116】
1006において、ユーザコンピューティングデバイスは、クエリ画像と、プロンプトを記述するテキストデータとをコンピューティングシステムに与え得る。たとえば、コンピューティングシステムは、画像と、関連付けられたプロンプトとを含むマルチモーダルクエリに応答して情報を提供するマルチモーダルサーチサービスなどの視覚サーチサービスに関連付けられたシステムであってよい。
【0117】
1008において、ユーザコンピューティングデバイスは、クエリ画像およびプロンプトを提供したことに応答して、コンピューティングシステムから、(a)2つ以上の結果画像と、(b)機械学習型言語モデルからの言語出力とを受信し得る。言語出力は、プロンプトと、2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツとに基づいて生成される。
【0118】
1010において、ユーザコンピューティングデバイスは、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内で、(a)言語出力を含むインターフェース要素と、(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素とを表示し得る。各選択可能な属性要素は、関連付けられた結果画像のサムネイルと、関連付けられた結果画像を含むソースドキュメントを識別する属性情報とを含む。
【0119】
1012において、ユーザコンピューティングデバイスは、ユーザコンピューティングデバイスに関連付けられた入力デバイスを介してユーザから、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素を選択する入力を受信し得る。
【0120】
いくつかの実装形態では、各選択可能な属性要素は、第1の選択可能な部分および第2の選択可能な部分を含み得る。ユーザコンピューティングデバイスは、ユーザコンピューティングデバイスに関連付けられた入力デバイスを介してユーザから、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の第1の選択可能な部分を選択する入力を受信する。第1の選択可能な属性要素の第1の選択可能な部分への入力を受信したことに応答して、ユーザコンピューティングデバイスは、コンピューティングシステムに、第1の選択可能な属性要素の選択を示す情報を与え得る。
【0121】
代替として、いくつかの実装形態では、ユーザコンピューティングデバイスは、ユーザコンピューティングデバイスに関連付けられた入力デバイスを介してユーザから、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の第2の選択可能な部分を選択する入力を受信し得る。第1の選択可能な属性要素の第2の選択可能な部分を選択する入力を受信したことに応答して、ユーザコンピューティングデバイスは、第1の選択可能な属性要素に含まれる属性情報によって識別されるソースドキュメントの表示を引き起こし得る。たとえば、ソースドキュメントがウェブサイトの場合、ユーザコンピューティングデバイスは、ウェブブラウザアプリケーションを実行し、ウェブサイトまでナビゲートすることができる。別の例では、ソースドキュメントがPDFの場合、ユーザコンピューティングデバイスは、PDFリーダアプリケーションを実行し、PDFを開くことができる。
【0122】
1014において、ユーザコンピューティングデバイスは、入力を受信したことに応答して、コンピューティングシステムに、第1の選択可能な属性要素の選択を示す情報を与え得る。
【0123】
1016において、ユーザコンピューティングデバイスは、情報を提供したことに応答して、コンピューティングシステムから、精錬された言語出力を受信し得る。精錬された言語出力は、プロンプトと、第1の選択可能な属性要素に関連付けられた第1の結果画像以外の2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツとに基づいて生成され得る。
【0124】
図11Aは、本開示の例示的実施形態による、視覚またはマルチモーダルサーチサービスを実施する例示的コンピューティングシステム1100のブロック図を示す。システム1100は、ネットワーク1180を介して通信可能に結合されている、ユーザコンピューティングシステム1102、サーバコンピューティングシステム1130、および/またはサードパーティコンピューティングシステム1150を含む。
【0125】
ユーザコンピューティングシステム1102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋め込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスを含んでもよい。
【0126】
ユーザコンピューティングシステム1102は、1つまたは複数のプロセッサ1112およびメモリ1114を含む。1つまたは複数のプロセッサ1112は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ1114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ1114は、データ1116と、ユーザコンピューティングシステム1102に動作を実施させるようにプロセッサ1112によって実行される命令1118とを記憶することができる。
【0127】
いくつかの実装形態では、ユーザコンピューティングシステム1102は、1つまたは複数の機械学習型モデル1120を記憶するか、または含むことができる。たとえば、機械学習型モデル1120は、ニューラルネットワーク(たとえば、深層ニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習型モデルなど、様々な機械学習型モデルであってよく、またはそうでなければ、それらの機械学習型モデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形のニューラルネットワークを含み得る。
【0128】
いくつかの実装形態では、1つまたは複数の機械学習型モデル1120は、ネットワーク1180を介してサーバコンピューティングシステム1130から受信され、ユーザコンピューティングデバイスメモリ1114に記憶され、次いで、1つまたは複数のプロセッサ1112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングシステム1102は、(たとえば、入力データおよび/または検出された特徴の複数のインスタンスにわたって並列機械学習型モデル処理を実施するために)単一機械学習型モデル1120の複数の並列インスタンスを実装することができる。
【0129】
より具体的には、1つまたは複数の機械学習型モデル1120は、1つもしくは複数の検出モデル、1つもしくは複数の分類モデル、1つもしくは複数のセグメント化モデル、1つもしくは複数の拡大モデル、1つもしくは複数の生成的モデル、1つもしくは複数の自然言語処理モデル、1つもしくは複数の光学式文字認識モデル、および/または1つもしくは複数の他の機械学習型モデルを含み得る。1つまたは複数の機械学習型モデル1120は、1つまたは複数のトランスフォーマモデルを含み得る。1つまたは複数の機械学習型モデル1120は、1つもしくは複数のニューラル放射フィールドモデル、1つもしくは複数の拡散モデル、および/または1つもしくは複数の自己回帰言語モデルを含み得る。
【0130】
1つまたは複数の機械学習型モデル1120は、1つまたは複数のオブジェクト特徴を検出するのに使用することができる。検出されたオブジェクト特徴は、分類され、かつ/または埋め込まれ得る。分類および/または埋め込みは次いで、1つまたは複数のサーチ結果を判断するためのサーチを実施するのに使用されてよい。代替および/または追加として、1つまたは複数の検出された特徴は、インジケータ(たとえば、検出された特徴を示すユーザインターフェース要素)が、特徴が検出されたことを示すために提供されるべきであると判断するのに使用され得る。ユーザは次いで、特徴分類、埋め込み、および/またはサーチを実施させるためのインジケータを選択してよい。いくつかの実装形態では、分類、埋め込み、および/またはサーチは、インジケータが選択される前に実施することができる。
【0131】
いくつかの実装形態では、1つまたは複数の機械学習型モデル1120は、画像データ、テキストデータ、オーディオデータ、および/または潜在性符号化用データを処理して、画像データ、テキストデータ、オーディオデータ、および/または潜在性符号化用データを含み得る出力データを生成することができる。1つまたは複数の機械学習型モデル1120は、光学式文字認識、自然言語処理、画像分類、オブジェクト分類、テキスト分類、オーディオ分類、コンテキスト判断、アクション予測、画像訂正、画像拡大、テキスト拡大、感情分析、オブジェクト検出、エラー検出、修復、ビデオ安定化、オーディオ訂正、オーディオ拡大、および/またはデータセグメント化(たとえば、マスクベースのセグメント化)を実施し得る。
【0132】
追加または代替として、1つまたは複数の機械学習型モデル1140は、クライアント-サーバ関係に従ってユーザコンピューティングシステム1102と通信するサーバコンピューティングシステム1130に含まれ、またはそうでなければ、サーバコンピューティングシステム1130によって記憶され、実装され得る。たとえば、機械学習型モデル1140は、ウェブサービス(たとえば、ビューファインダーサービス、視覚サーチサービス、画像処理サービス、アンビエントコンピューティングサービス、および/またはオーバーレイアプリケーションサービス)の一部分として、サーバコンピューティングシステム1130によって実装され得る。したがって、1つまたは複数のモデル1120が、ユーザコンピューティングシステム1102において記憶され、実装されてよく、かつ/または1つもしくは複数のモデル1140が、サーバコンピューティングシステム1130において記憶され、実装されてよい。
【0133】
ユーザコンピューティングシステム1102はまた、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素1122を含むことができる。たとえば、ユーザ入力構成要素1122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチ感応構成要素(たとえば、タッチ感応表示スクリーンまたはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的なユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがそれによってユーザ入力を提供できる他の手段を含む。
【0134】
いくつかの実装形態では、ユーザコンピューティングシステムは、1つまたは複数のアプリケーションに関連付けられ得る1つまたは複数のユーザインターフェースを記憶および/または提供し得る。1つまたは複数のユーザインターフェースは、入力を受信し、かつ/または表示用のデータ(たとえば、画像データ、テキストデータ、オーディオデータ、1つもしくは複数のユーザインターフェース要素、拡張現実エクスペリエンス、仮想現実エクスペリエンス、および/もしくは表示用の他のデータ)を提供するように構成され得る。ユーザインターフェースは、1つまたは複数の他のコンピューティングシステム(たとえば、サーバコンピューティングシステム1130および/またはサードパーティコンピューティングシステム1150)に関連付けられ得る。ユーザインターフェースは、ビューファインダーインターフェース、サーチインターフェース、生成的モデルインターフェース、ソーシャルメディアインターフェース、メディアコンテンツギャラリーインターフェースなどを含み得る。
【0135】
ユーザコンピューティングデバイス1102は、1つまたは複数のセンサー1126からのデータを含み、かつ/または受信し得る。1つまたは複数のセンサー1126は、1つもしくは複数のプロセッサ1112、メモリ1114、および/または、1つもしくは複数のソフトウェアパケットを記憶し、かつ/もしくは実施させ得る1つもしくは複数のハードウェア構成要素を収容する、ハウジング構成要素に収容されてよい。1つまたは複数のセンサー1126は、1つもしくは複数の画像センサー(たとえば、カメラ)、1つもしくは複数のLIDARセンサー、1つもしくは複数のオーディオセンサー(たとえば、マイクロフォン)、1つもしくは複数の慣性センサー(たとえば、慣性測定ユニット)、1つもしくは複数の生体センサー(たとえば、心拍センサー、パルスセンサー、網膜センサー、および/もしくは指紋センサー)、1つもしくは複数の赤外線センサー、1つもしくは複数のロケーションセンサー(たとえば、GPS)、1つもしくは複数のタッチセンサー(たとえば、導電タッチセンサーおよび/もしくは機械的タッチセンサー)、ならびに/または1つもしくは複数の他のセンサーを含み得る。1つまたは複数のセンサーは、ユーザの環境に関連付けられたデータ(たとえば、ユーザの環境の画像、環境の記録、および/またはユーザのロケーション)を取得するのに使用することができる。
【0136】
ユーザコンピューティングシステム1102は、ユーザコンピューティングデバイス1104を含み、かつ/またはその一部であってよい。ユーザコンピューティングデバイス1104は、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、デスクトップコンピュータ、ラップトップコンピュータ、スマートウェアラブル、および/またはスマート器具を含み得る。追加および/または代替として、ユーザコンピューティングシステムはデータを、1つまたは複数のユーザコンピューティングデバイス1104から取得し、かつ/またはそれとともに生成し得る。たとえば、スマートフォンのカメラが、環境を記述する画像データを取り込むのに使用されてよく、かつ/またはユーザコンピューティングデバイス1104のオーバーレイアプリケーションが、ユーザに提供されるデータを追跡および/または処理するのに使用され得る。同様に、スマートウェアラブルに関連付けられた1つまたは複数のセンサーが、ユーザについての、および/またはユーザの環境についてのデータを取得するのに使用されてよい(たとえば、ユーザのスマートグラスに収容されたカメラで、画像データが取得され得る)。追加および/または代替として、データは、データ取得または生成に特化され得る他のユーザデバイスから取得され、アップロードされ得る。
【0137】
サーバコンピューティングシステム1130は、1つまたは複数のプロセッサ1132およびメモリ1134を含む。1つまたは複数のプロセッサ1132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ1134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ1134は、データ1136と、サーバコンピューティングシステム1130に動作を実施させるようにプロセッサ1132によって実行される命令1138とを記憶することができる。
【0138】
いくつかの実装形態では、サーバコンピューティングシステム1130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム1130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
【0139】
上述したように、サーバコンピューティングシステム1130は、1つまたは複数の機械学習型モデル1140を記憶するか、またはそうでなければ含むことができる。たとえば、モデル1140は、様々な機械学習型モデルであってよく、または、そうでなければそれらを含んでよい。例示的機械学習型モデルは、ニューラルネットワークまたは他のマルチレイヤ非線形モデルを含む。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、深層ニューラルネットワーク、回帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。
【0140】
追加および/または代替として、サーバコンピューティングシステム1130は、1つまたは複数のデータベース(および/またはリソース)をクロールするのに使用され得るサーチエンジン1142を含み、かつ/またはそれと通信可能に接続され得る。サーチエンジン1142は、ユーザコンピューティングシステム1102、サーバコンピューティングシステム1130、および/またはサードパーティコンピューティングシステム150からのデータを処理して、入力データに関連付けられた1つまたは複数のサーチ結果を判断することができる。サーチエンジン1142は、用語ベースのサーチ、ラベルベースのサーチ、ブーリアンベースのサーチ、画像サーチ、埋め込みベースのサーチ(たとえば、最近傍サーチ)、マルチモーダルサーチ、および/または1つもしくは複数の他のサーチ技法を実施し得る。
【0141】
サーバコンピューティングシステム1130は、入力データを取得し、かつ/または出力データを1人もしくは複数のユーザに提供するための1つまたは複数のユーザインターフェース1144を記憶および/または提供することができる。1つまたは複数のユーザインターフェース1144は1つまたは複数のユーザインターフェース要素を含むことができ、ユーザインターフェース要素は、入力フィールド、ナビゲーションツール、コンテンツチップ、選択可能なタイル、ウィジェット、データ表示カルーセル、動的アニメーション、情報ポップアップ、画像拡大、テキスト音声、音声テキスト、拡張現実、仮想現実、フィードバックループ、および/または他のインターフェース要素を含み得る。
【0142】
ユーザコンピューティングシステム1102および/またはサーバコンピューティングシステム1130は、ネットワーク1180を介して通信可能に結合されているサードパーティコンピューティングシステム1150との相互作用を介してモデル1120および/または1140をトレーニングすることができる。サードパーティコンピューティングシステム1150は、サーバコンピューティングシステム1130とは別個であり得るか、またはサーバコンピューティングシステム1130の一部分であり得る。代替および/または追加として、サードパーティコンピューティングシステム1150は、1つもしくは複数のウェブリソース、1つもしくは複数のウェブプラットフォーム、1つもしくは複数の他のユーザ、および/または1つもしくは複数のコンテキストに関連付けられ得る。
【0143】
サードパーティコンピューティングシステム1150は、1つまたは複数のプロセッサ1152およびメモリ1154を含み得る。1つまたは複数のプロセッサ1152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ1154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ1154は、データ1156と、サードパーティコンピューティングシステム1150に動作を実施させるようにプロセッサ1152によって実行される命令1158とを記憶することができる。いくつかの実装形態では、サードパーティコンピューティングシステム1150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。
【0144】
ネットワーク1180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク1180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使用して、任意のタイプのワイヤードおよび/またはワイヤレスの接続を介して搬送され得る。
【0145】
本明細書に記載する機械学習型モデルは、様々なタスク、アプリケーション、および/または使用ケースにおいて使われてよい。
【0146】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、画像データであってよい。機械学習型モデルは、画像データを処理して、出力を生成し得る。例として、機械学習型モデルは、画像データを処理して、画像認識出力(たとえば、画像データの認識、画像データの潜在性埋め込み、画像データの符号化表現、画像データのハッシュなど)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像分類出力を生成することができる。別の例として、機械学習型モデルは、画像データを処理して、画像データ変更出力(たとえば、画像データの改変など)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、符号化画像データ出力(たとえば、画像データの符号化および/または圧縮された表現など)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、アップスケールされた画像データ出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、予測出力を生成し得る。
【0147】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、テキストまたは自然言語データであってよい。機械学習型モデルは、テキストまたは自然言語データを処理して、出力を生成し得る。例として、機械学習型モデルは、自然言語データを処理して、言語符号化出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、潜在性テキスト埋め込み出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、変換出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、分類出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、テキストセグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、意味論的意図出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、アップスケールされたテキストまたは自然言語出力(たとえば、入力テキストまたは自然言語よりも高品質であるテキストまたは自然言語データ、など)を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、予測出力を生成し得る。
【0148】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、音声データであってよい。機械学習型モデルは、音声データを処理して、出力を生成し得る。例として、機械学習型モデルは、音声データを処理して、音声認識出力を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、音声翻訳出力を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、潜在性埋め込み出力を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、符号化音声出力(たとえば、音声データの符号化および/または圧縮された表現など)を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、アップスケールされた音声出力(たとえば、入力音声データよりも高品質の音声データなど)を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、テキスト表現出力(たとえば、入力音声データのテキスト表現など)を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、予測出力を生成し得る。
【0149】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、センサーデータであってよい。機械学習型モデルは、センサーデータを処理して、出力を生成し得る。例として、機械学習型モデルは、センサーデータを処理して、認識出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、予測出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、分類出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、視覚化出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、診断出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、検出出力を生成し得る。
【0150】
いくつかの場合には、入力は視覚データを含み、タスクはコンピュータビジョンタスクである。いくつかの場合には、入力は1つまたは複数の画像用のピクセルデータを含み、タスクは画像処理タスクである。たとえば、画像処理タスクは画像分類であってよく、ここで、出力はスコアのセットであり、各スコアは、異なるオブジェクトクラスに対応し、オブジェクトクラスに属するオブジェクトを1つまたは複数の画像が示す見込みを表す。画像処理タスクはオブジェクト検出であってよく、ここで、画像処理出力は、1つまたは複数の画像の中の1つまたは複数の領域と、各領域について、対象のオブジェクトを領域が示す見込みとを識別する。別の例として、画像処理タスクは画像セグメンテーションであってよく、ここで、画像処理出力は、1つまたは複数の画像の中の各ピクセルについて、カテゴリの所定のセット中の各カテゴリについてのそれぞれの見込みを定義する。たとえば、カテゴリのセットは前景および背景であってよい。別の例として、カテゴリのセットはオブジェクトクラスであってよい。別の例として、画像処理タスクは深度推定であってよく、ここで、画像処理出力は、1つまたは複数の画像中の各ピクセルについて、それぞれの深度値を定義する。別の例として、画像処理タスクは動き推定であってよく、ここで、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つの、各ピクセルについて、ネットワーク入力における画像の間のピクセルにおいて示されるシーンの動きを定義する。
【0151】
ユーザコンピューティングシステム1102は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含み得る。各アプリケーションは、それ自体のそれぞれの機械学習ライブラリおよび機械学習型モデルを含み得る。たとえば、各アプリケーションは、機械学習型モデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使用して中央インテリジェンスレイヤ(および、その中に記憶されるモデル)と通信することができる。
【0152】
中央インテリジェンスレイヤは、いくつかの機械学習型モデルを含み得る。たとえば、それぞれの機械学習型モデル(たとえば、モデル)が、アプリケーションごとに設けられること、および中央インテリジェンスレイヤによって管理されることが可能である。他の実装形態では、2つ以上のアプリケーションが単一の機械学習型モデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、単一のモデル(たとえば、単一のモデル)をアプリケーションのすべてに提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングシステム1100のオペレーティングシステム内に含まれるか、またはそうでなければオペレーティングシステムによって実装される。
【0153】
中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングシステム1100向けのデータの集中型リポジトリであってよい。中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使用して各デバイス構成要素と通信することができる。
【0154】
図11Bは、本開示の例示的実施形態による、視覚サーチ動作、および/または視覚サーチ情報の精錬を実施する例示的コンピューティングシステム1250のブロック図を示す。特に、例示的コンピューティングシステム1250は、1つまたは複数の取得されたデータセットの中の特徴についての情報を提供し得る、ユーザにフィードバックするべき、センサー処理システム1260および/または出力判断システム1280によって処理することができる1つまたは複数のデータセットを取得および/または生成するのに使用することができる1つまたは複数のコンピューティングデバイス1252を含み得る。1つまたは複数のデータセットは、画像データ、テキストデータ、オーディオデータ、マルチモーダルデータ、潜在性符号化用データなどを含み得る。1つまたは複数のデータセットは、1つまたは複数のコンピューティングデバイス1252に関連付けられた1つまたは複数のセンサー(たとえば、コンピューティングデバイス1252の中の1つまたは複数のセンサー)により取得され得る。追加および/または代替として、1つまたは複数のデータセットは、記憶されたデータおよび/または検索されたデータ(たとえば、ウェブリソースから検索されたデータ)であってよい。たとえば、画像、テキスト、および/または他のコンテンツ項目が、ユーザと対話することができる。対話されたコンテンツ項目は次いで、1つまたは複数の判断を生成するのに使用することができる。
【0155】
1つまたは複数のコンピューティングデバイス1252は、画像取込み、センサー追跡、データストレージ検索、コンテンツダウンロード(たとえば、ウェブリソースからの、インターネットによる、画像もしくは他のコンテンツ項目のダウンロード)に基づいて、および/または1つもしくは複数の他の技法により、1つまたは複数のデータセットを取得および/または生成することができる。1つまたは複数のデータセットは、センサー処理システム1260で処理することができる。センサー処理システム1260は、1つもしくは複数の機械学習型モデル、1つもしくは複数のサーチエンジンを使う1つもしくは複数の処理技法、および/または1つもしくは複数の他の処理技法を実施し得る。1つまたは複数の処理技法は、任意の組合せで、および/または個々に実施されてよい。1つまたは複数の処理技法は、順次および/または並行して実施することができる。特に、1つまたは複数のデータセットはコンテキスト判断ブロック1262で処理することができ、このブロックは、1つまたは複数のコンテンツ項目に関連付けられたコンテキストを判断し得る。コンテキスト判断ブロック1262は、メタデータ、ユーザプロファイルデータ(たとえば、嗜好、ユーザサーチ履歴、ユーザ閲覧履歴、ユーザ購入履歴、および/もしくはユーザ入力データ)、前の対話データ、世界的傾向データ、ロケーションデータ、時間データ、ならびに/または他のデータを識別および/または処理して、ユーザに関連付けられた特定のコンテキストを判断し得る。コンテキストは、イベント、判断された傾向、特定のアクション、特定のタイプのデータ、特定の環境、ならびに/またはユーザおよび/もしくは検索もしくは取得されたデータに関連付けられた別のコンテキストに関連付けられ得る。
【0156】
センサー処理システム1260は、画像前処理ブロック1264を含み得る。画像前処理ブロック1264は、取得および/または受信された画像の1つまたは複数の値を調節して、画像が1つもしくは複数の機械学習型モデルおよび/または1つもしくは複数のサーチエンジン1274によって処理されるように準備するのに使用され得る。画像前処理ブロック1264は、画像をサイズ変更し、飽和値を調節し、解像度を調節し、メタデータを除去および/もしくは追加し、かつ/または1つもしくは複数の他の動作を実施してよい。
【0157】
いくつかの実装形態では、センサー処理システム1260は1つまたは複数の機械学習型モデルを含んでよく、このモデルは、検出モデル1266、セグメント化モデル1268、分類モデル1270、埋め込みモデル1272、および/または1つもしくは複数の他の機械学習型モデルを含み得る。たとえば、センサー処理システム1260は、処理されたデータセットの中の特定の特徴を検出するのに使用することができる1つまたは複数の検出モデル1266を含み得る。特に、1つまたは複数の画像が、1つまたは複数の画像の中の検出された特徴に関連付けられた1つまたは複数の境界ボックスを生成するように、1つまたは複数の検出モデル1266で処理され得る。
【0158】
追加および/または代替として、1つまたは複数のセグメント化モデル1268が、1つまたは複数のデータセットからのデータセットの1つまたは複数の部分をセグメント化するのに使用することができる。たとえば、1つまたは複数のセグメント化モデル1268は、1つまたは複数のセグメント化マスク(たとえば、手動で生成された、かつ/または1つもしくは複数の境界ボックスに基づいて生成された1つまたは複数のセグメント化マスク)を、画像の一部分、オーディオファイルの一部分、および/またはテキストの一部分をセグメント化するのに使用し得る。セグメント化は、画像から、1つもしくは複数の検出されたオブジェクトを分離すること、および/または1つもしくは複数の検出されたオブジェクトを削除することを含み得る。
【0159】
1つまたは複数の分類モデル1270は、画像データ、テキストデータ、オーディオデータ、潜在性符号化用データ、マルチモーダルデータ、および/または他のデータを処理して、1つまたは複数の分類を生成するのに使用することができる。1つまたは複数の分類モデル1270は、1つもしくは複数の画像分類モデル、1つもしくは複数のオブジェクト分類モデル、1つもしくは複数のテキスト分類モデル、1つもしくは複数のオーディオ分類モデル、および/または1つもしくは複数の他の分類モデルを含み得る。1つまたは複数の分類モデル1270は、データを処理して、1つまたは複数の分類を判断することができる。
【0160】
いくつかの実装形態では、データは、1つまたは複数の埋め込みを生成するように、1つまたは複数の埋め込みモデル1272で処理され得る。たとえば、1つまたは複数の画像を、1つまたは複数の埋め込みモデル1272で処理して、埋め込みスペース中で1つまたは複数の画像埋め込みを生成することができる。1つまたは複数の画像埋め込みは、1つまたは複数の画像の1つまたは複数の画像特徴に関連付けられ得る。いくつかの実装形態では、1つまたは複数の埋め込みモデル1272は、マルチモーダルデータを処理して、マルチモーダル埋め込みを生成するように構成され得る。1つまたは複数の埋め込みは、分類、サーチ、および/または埋め込みスペース分布の学習に使用することができる。
【0161】
センサー処理システム1260は、1つまたは複数のサーチを実施するのに使用することができる1つまたは複数のサーチエンジン1274を含み得る。1つまたは複数のサーチエンジン1274は、1つまたは複数のデータベース(たとえば、1つもしくは複数のローカルデータベース、1つもしくは複数のグローバルデータベース、1つもしくは複数のプライベートデータベース、1つもしくは複数の公開データベース、1つもしくは複数の特化されたデータベース、および/または1つもしくは複数の総合データベース)をクロールして、1つまたは複数のサーチ結果を判断し得る。1つまたは複数のサーチエンジン1274は、特徴照合、テキストベースのサーチ、埋め込みベースのサーチ(たとえば、k最近傍サーチ)、メタデータベースのサーチ、マルチモーダルサーチ、ウェブリソースサーチ、画像サーチ、テキストサーチ、および/またはアプリケーションサーチを実施し得る。
【0162】
追加および/または代替として、センサー処理システム1260は、1つまたは複数のマルチモーダル処理ブロック1276を含んでよく、これは、マルチモーダルデータの処理を助けるのに使用することができる。1つまたは複数のマルチモーダル処理ブロック1276は、1つもしくは複数の機械学習型モデルおよび/または1つもしくは複数のサーチエンジン1274によって処理されるべきマルチモーダルクエリおよび/またはマルチモーダル埋め込みを生成することを含み得る。
【0163】
センサー処理システム1260の出力は次いで、ユーザに提供すべき1つまたは複数の出力を判断するように、出力判断システム1280で処理され得る。出力判断システム1280は、ヒューリスティックベースの判断、機械学習型モデルベースの判断、ユーザ選択ベースの判断、および/またはコンテキストベースの判断を含み得る。
【0164】
出力判断システム1280は、1つまたは複数のサーチ結果をサーチ結果インターフェース1282においてどのように、および/またはどこで提供すべきかを判断し得る。追加および/または代替として、出力判断システム1280は、1つまたは複数の機械学習型モデル出力を機械学習型モデル出力インターフェース1284においてどのように、および/またはどこで提供すべきかを判断し得る。いくつかの実装形態では、1つもしくは複数のサーチ結果および/または1つもしくは複数の機械学習型モデル出力は、1つまたは複数のユーザインターフェース要素による表示のために提供されてよい。1つまたは複数のユーザインターフェース要素は、表示されたデータに重ねられてよい。たとえば、1つまたは複数の検出インジケータが、ビューファインダーの中で、検出されたオブジェクトに重ねられてよい。1つまたは複数のユーザインターフェース要素は、1つもしくは複数の追加サーチおよび/または1つもしくは複数の追加機械学習型モデルプロセスを実施するために選択可能であり得る。いくつかの実装形態では、ユーザインターフェース要素は、特定のアプリケーション用の特化されたユーザインターフェース要素として提供されてよく、かつ/または異なるアプリケーションにわたって一様に提供されてよい。1つまたは複数のユーザインターフェース要素は、ポップアップディスプレイ、インターフェースオーバーレイ、インターフェースタイルおよび/もしくはチップ、カルーセルインターフェース、オーディオフィードバック、アニメーション、対話型ウィジェット、ならびに/または他のユーザインターフェース要素を含み得る。
【0165】
追加および/または代替として、センサー処理システム1260の出力に関連付けられたデータは、拡張現実エクスペリエンスおよび/または仮想現実エクスペリエンス1286を生成および/または提供するのに使用することができる。たとえば、1つまたは複数の取得されたデータセットは、1つもしくは複数の拡張現実レンダリングアセットおよび/または1つもしくは複数の仮想現実レンダリングアセットを生成するように処理されてよく、これらは次いで、拡張現実エクスペリエンスおよび/または仮想現実エクスペリエンス1286をユーザに提供するのに使用することができる。拡張現実エクスペリエンスは、環境に関連付けられた情報を、それぞれの環境にレンダリングし得る。代替および/または追加として、処理されたデータセットに関連したオブジェクトは、ユーザ環境および/または仮想環境にレンダリングされ得る。データセット生成のレンダリングは、1つまたは複数のオブジェクトのための3次元表現を学習するように、1つまたは複数のニューラル放射フィールドモデルをトレーニングすることを含み得る。
【0166】
いくつかの実装形態では、1つまたは複数のアクションプロンプト1288が、センサー処理システム1260の出力に基づいて判断され得る。たとえば、サーチプロンプト、購入プロンプト、生成プロンプト、予約プロンプト、コールプロンプト、リダイレクトプロンプト、および/または1つもしくは複数の他のプロンプトが、センサー処理システム1260の出力に関連付けられていると判断されてよい。1つまたは複数のアクションプロンプト1288は次いで、1つまたは複数の選択可能なユーザインターフェース要素を介してユーザに提供されてよい。1つまたは複数の選択可能なユーザインターフェース要素の選択に応答して、それぞれのアクションプロンプトのそれぞれのアクションが実施されてよい(たとえば、サーチが実施されてよく、購入アプリケーションプログラミングインターフェースが使用されてよく、かつ/または別のアプリケーションが開かれてよい)。
【0167】
いくつかの実装形態では、1つもしくは複数のデータセットおよび/またはセンサー処理システム1260の出力は、モデル生成コンテンツ項目を生成するように、1つまたは複数の生成的モデル1290で処理されてよく、コンテンツ項目は次いで、ユーザに提供され得る。生成は、ユーザ選択に基づいて促されてよく、かつ/または自動的に実施されてよい(たとえば、1つもしくは複数の条件に基づいて自動的に実施されてよく、条件は、識別されないサーチ結果の閾量に関連付けられ得る)。
【0168】
出力判断システム1280は、1つもしくは複数のデータセットおよび/またはセンサー処理システム1260の出力をデータ拡大ブロック1292で処理して、拡大されたデータを生成し得る。たとえば、1つまたは複数の画像をデータ拡大ブロック1292で処理して、1つまたは複数の拡大された画像を生成することができる。データ拡大は、データ訂正、データクロッピング、1つもしくは複数の特徴の削除、1つもしくは複数の特徴の追加、解像度調節、照明調節、飽和調節、および/または他の拡大を含み得る。
【0169】
いくつかの実装形態では、1つもしくは複数のデータセットおよび/またはセンサー処理システム1260の出力は、データ記憶ブロック1294の判断に基づいて記憶されてよい。
【0170】
出力判断システム1280の出力は次いで、ユーザコンピューティングデバイス1252の1つまたは複数の出力構成要素により、ユーザに提供されてよい。たとえば、1つまたは複数の出力に関連付けられた1つまたは複数のユーザインターフェース要素が、ユーザコンピューティングデバイス1252の視覚ディスプレイによる表示用に提供されてよい。
【0171】
プロセスは、繰り返しおよび/または連続して実施されてよい。提供されたユーザインターフェース要素への1つまたは複数のユーザ入力は、後続処理ループを条件付け、かつ/またはループに影響し得る。
【0172】
本明細書で説明した技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびにそのようなシステムとの間で行われるアクションおよび送られる情報を参照する。コンピュータベースのシステムの固有柔軟性により、構成要素の間でのタスクおよび機能性の非常に様々な可能構成、組合せ、および分割ができるようになる。たとえば、本明細書で説明するプロセスは、単一のデバイスもしくは構成要素または組み合わせて働く複数のデバイスもしくは構成要素を使用して実装され得る。データベースおよびアプリケーションは、単一のシステム上で実装されること、または複数のシステムにわたって分散されることが可能である。分散構成要素は、連続的にまたは並行して動作することができる。
【0173】
本主題を、その様々な具体的な例示的実施形態に関して詳しく記載したが、各例は、本開示の限定ではなく、説明として提供されている。当業者は、上記内容を理解すると、そのような実施形態に対する改変、変形、および等価物を容易に生じることができる。したがって、本開示は、当業者には容易に明らかであることになるように、本主題へのそのような修正、変形、および/または追加を含めることを排除しない。たとえば、ある実施形態の一部として図示または説明した特徴は、またさらなる実施形態を生み出すために別の実施形態とともに使用され得る。したがって、本開示がそのような代替、変形、および等価物を包含することが意図されている。
【0174】
実施形態
ここからは、本開示のいくつかの実施形態を記載する。ただし、以下の実施形態は、本開示のすべての実施形態の包括的な列挙ではないことに留意されたい。そうではなく、以下の実施形態は、本開示の実施形態が使用され得る様々なシナリオを例示するために提供される。
【0175】
実施形態1:コンピュータにより実施される方法であって、
- 1つまたは複数のプロセッサデバイスを備えるコンピューティングシステムによって、クエリ画像と結果画像との間の類似性に基づいて結果画像を検索するステップと、
- コンピューティングシステムによって、第1のテキストユニットを取得するステップであって、第1のテキストユニットは、結果画像を含むソースドキュメントのテキストコンテンツの少なくとも一部分を含む、ステップと、
- コンピューティングシステムによって、クエリ画像に関連付けられたプロンプトに応答して第2のテキストユニットを判断するステップであって、第2のテキストユニットは、
○(a)第1のテキストユニットの少なくとも一部、または
○(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む、ステップと、
- コンピューティングシステムによって、第2のテキストユニットおよび結果画像を、インターフェース内での表示のために提供するステップとを含む方法。
【0176】
実施形態2:結果画像を検索するステップは、コンピューティングシステムによって、クエリ画像を機械学習型視覚サーチモデルで処理して、クエリ画像の中間表現を取得するステップと、コンピューティングシステムによって、クエリ画像の中間表現と結果画像の中間表現との間の類似性の程度に基づいて、結果画像を検索するステップとを含む、実施形態1の方法。
【0177】
実施形態3:機械学習型視覚サーチモデルでクエリ画像を処理するステップは、コンピューティングシステムによって、クエリ画像を機械学習型埋め込みモデルで処理して、クエリ画像のためのクエリ画像埋め込みを取得するステップを含み、結果画像を検索するステップは、コンピューティングシステムによって、埋め込みスペース内での、クエリ画像埋め込みと結果画像の埋め込みとの間の距離に基づいて、結果画像を検索するステップを含む、実施形態2のコンピュータにより実施される方法。
【0178】
実施形態4:クエリ画像を処理するのに先立って、方法は、コンピューティングシステムによって、ユーザコンピューティングデバイスからクエリ画像を取得するステップを含む、実施形態1のコンピュータにより実施される方法。
【0179】
実施形態5:インターフェースは、ユーザコンピューティングデバイスによって実行されるアプリケーションのユーザインターフェースを含む、実施形態4のコンピュータにより実施される方法。
【0180】
実施形態6:クエリ画像を取得するステップは、コンピューティングシステムによって、クエリ画像、およびクエリ画像に関連付けられたプロンプトをユーザコンピューティングデバイスから取得するステップを含む、実施形態4のコンピュータにより実施される方法。
【0181】
実施形態7:結果画像を検索するステップは、コンピューティングシステムによってインターフェース内での表示のために、結果画像をユーザコンピューティングデバイスに提供するステップと、結果画像を提供したことに応答して、ユーザコンピューティングデバイスから、クエリ画像に関連付けられたプロンプトを受信するステップとをさらに含む、実施形態4のコンピュータにより実施される方法。
【0182】
実施形態8:クエリ画像に関連付けられたプロンプトに応答して第2のテキストユニットを判断するステップは、コンピューティングシステムによって、第2のテキストユニット、およびクエリ画像に関連付けられたプロンプトを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得するステップを含む、実施形態1のコンピュータにより実施される方法。
【0183】
実施形態9:第2のテキストユニットは第1のテキストユニットのサブセットを含む、実施形態8のコンピュータにより実施される方法。
【0184】
実施形態10:第2のテキストユニットは、第1のテキストユニットから導出されたテキストを含み、第1のテキストユニットから導出されたテキストは、第1のテキストユニットの要約を記述する、実施形態8のコンピュータにより実施される方法。
【0185】
実施形態11:ソースドキュメントは、
- ウェブサイトの1つもしくは複数のウェブページ、
- 記事、
- 新聞、
- 本、または
- トランスクリプト、を含む、実施形態1のコンピュータにより実施される方法。
【0186】
実施形態12:第2のテキストユニットおよび結果画像を提供するステップは、コンピューティングシステムによってインターフェース内での表示のために、(a)ソースドキュメントを識別し、かつ/または(b)ソースドキュメントにそこからアクセス可能なロケーションを示す、属性情報を提供するステップをさらに含む、実施形態1のコンピュータにより実施される方法。
【0187】
実施形態13:ソースドキュメントはウェブページを含み、属性情報はウェブページのアドレスを含む、実施形態12のコンピュータにより実施される方法。
【0188】
実施形態14:ソースドキュメントは雑誌を含み、属性情報は、雑誌内での結果画像のロケーションを示す引用を含む、実施形態12のコンピュータにより実施される方法。
【0189】
実施形態15:第2のテキストユニットを判断するのに先立って、方法は、コンピューティングシステムによって、クエリ画像に少なくとも部分的に基づいて、クエリ画像に関連付けられたプロンプトを生成するステップを含む、実施形態1のコンピュータにより実施される方法。
【0190】
実施形態16:クエリ画像に関連付けられたプロンプトを生成するステップは、コンピューティングシステムによって、クエリ画像を機械学習型モデルで処理して、画像を記述する意味出力を生成するステップと、コンピューティングシステムによって、意味出力に少なくとも部分的に基づいてプロンプトを生成するステップとを含む、実施形態15のコンピュータにより実施される方法。
【0191】
実施形態17:コンピューティングシステムであって、
- 1つまたは複数のプロセッサと、
- 1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、動作は、
○クエリ画像および関連付けられたプロンプトを、ユーザコンピューティングデバイスから取得することと、
○機械学習型埋め込みモデルでクエリ画像を処理して、クエリ画像埋め込みを取得することと、
○クエリ画像埋め込みと結果画像の埋め込みとの間の類似性に基づいて、結果画像を検索することと、
○結果画像用のソースドキュメントを識別することであって、ソースドキュメントは、結果画像、および結果画像に関連付けられたテキストコンテンツを含む、ことと、
○ソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む第1のテキストユニットを判断することと、
○第1のテキストユニットおよびプロンプトを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得することであって、第2のテキストユニットは、
・(a)第1のテキストユニットの少なくとも一部、または
・(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む、ことと、
○第2のテキストユニットおよび結果画像を、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することとを含む、コンピューティングシステム。
【0192】
実施形態18:動作は、
- 追加情報についての要求を示す情報をユーザコンピューティングデバイスから受信することと、
- クエリ画像埋め込みと第2の結果画像の埋め込みとの間の類似性に基づいて、第2の結果画像を検索することと、
- 結果画像用の第1のソースドキュメントおよび第2のソースドキュメントを識別することであって、第1のソースドキュメントおよび第2のソースドキュメントの各々は、結果画像、および結果画像に関連付けられたテキストコンテンツを含み、第1のソースドキュメントの結果画像に関連付けられたテキストコンテンツは、第2のソースドキュメントの結果画像に関連付けられたテキストコンテンツとは異なる、ことと、
- 第1のソースドキュメントまたは第2のソースドキュメントのうちの1つまたは複数から、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む追加の第1のテキストユニットを判断することと、
- 追加の第1のテキストユニット、およびプロンプトを機械学習型言語モデルで処理して、追加の第2のテキストユニットを含む第2の言語出力を取得することであって、追加の第2のテキストユニットは、
○(a)追加の第1のテキストユニットの少なくとも一部、または
○(b)追加の第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む、ことと、
- 追加の第2のテキストユニットおよび第2の結果画像を、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することとをさらに含む、実施形態17のコンピューティングシステム。
【0193】
実施形態19:第2のテキストユニットおよび結果画像を提供することは、ソースドキュメントを識別する属性情報を、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することをさらに含む、実施形態17のコンピューティングシステム。
【0194】
実施形態20:命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに動作を実施させ、動作は、
- クエリ画像と結果画像との間の類似性に基づいて結果画像を検索することと、
- 第1のテキストユニットを取得することであって、第1のテキストユニットは、結果画像を含むソースドキュメントのテキストコンテンツの少なくとも一部分を含む、ことと、
- クエリ画像に関連付けられたプロンプトに応答して、第2のテキストユニットを判断することであって、第2のテキストユニットは、
○(a)第1のテキストユニットの少なくとも一部、または
○(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む、ことと、
- 第2のテキストユニットおよび結果画像を、インターフェース内での表示のために提供することとを含む、1つまたは複数の非一時的コンピュータ可読媒体。
【0195】
実施形態21:コンピューティングシステムであって、
- 1つまたは複数のプロセッサと、
- 1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、動作は、
○クエリ画像の中間表現と、複数の結果画像にそれぞれ関連付けられた複数の中間表現の各々との間の類似性に基づいて、複数の結果画像を検索することと、
○複数のソースドキュメントを識別することであって、複数のソースドキュメントの各々は、複数の結果画像のうちのある結果画像、およびその結果画像に関連付けられたテキストコンテンツを含む、ことと、
○複数の結果画像のための複数の第1のテキストユニットをそれぞれ判断することであって、各第1のテキストユニットは、結果画像を含む1つまたは複数のソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む、ことと、
○機械学習型言語モデルでテキスト入力のセットを処理して、第2のテキストユニットを含む言語出力を取得することであって、テキスト入力のセットは、
・(a)複数の結果画像のうちの2つ以上の結果画像にそれぞれ関連付けられた2つ以上の第1のテキストユニット、および
・(b)クエリ画像に関連付けられたプロンプト、を含む、ことと、
○第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することとを含む、コンピューティングシステム。
【0196】
実施形態22:複数の結果画像を検索することは、クエリ画像を機械学習型視覚サーチモデルで処理して、クエリ画像の中間表現を取得することと、クエリ画像の中間表現と、複数の結果画像の中間表現との間の類似性の程度に基づいて、結果画像を検索することとを含む、実施形態21のコンピューティングシステム。
【0197】
実施形態23:機械学習型視覚サーチモデルでクエリ画像を処理することは、機械学習型埋め込みモデルでクエリ画像を処理して、クエリ画像のためのクエリ画像埋め込みを取得することを含み、複数の結果画像を検索することは、埋め込みスペース内での、クエリ画像埋め込みと複数の結果画像の埋め込みとの間の距離に基づいて、複数の結果画像を検索することを含む、実施形態22のコンピューティングシステム。
【0198】
実施形態24:クエリ画像を処理するのに先立って、動作は、ユーザコンピューティングデバイスからクエリ画像を取得することを含む、実施形態21のコンピューティングシステム。
【0199】
実施形態25:クエリ画像を取得することは、クエリ画像、およびクエリ画像に関連付けられたプロンプトをユーザコンピューティングデバイスから取得することを含む、実施形態21のコンピューティングシステム。
【0200】
実施形態26:複数のソースドキュメントを識別することは、属性情報を取得することをさらに含み、複数のソースドキュメントの各々について、属性情報は、(a)ソースドキュメントを識別する識別用情報、および/または(b)ソースドキュメントにそこからアクセスすることができるロケーションを記述する情報、を含む、実施形態21のコンピューティングシステム。
【0201】
実施形態27:第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することは、ユーザコンピューティングデバイスにインターフェースデータを提供することを含み、インターフェースデータは、(a)第2のテキストユニットを含むインターフェース要素と、(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素とを生成するための命令を含み、各選択可能な属性要素は、関連付けられた結果画像のサムネイルと、関連付けられた結果画像を含む1つまたは複数のソースドキュメントについての属性情報とを含む、実施形態26のコンピューティングシステム。
【0202】
実施形態28:動作は、
- -ユーザコンピューティングデバイスから、ユーザコンピューティングデバイスのユーザによる、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の選択を示すデータを受信することであって、第1の選択可能な属性要素は、2つ以上の結果画像のうちの第1の結果画像に関連付けられる、ことと、
- 第1の結果画像を含むソースドキュメントからのテキストコンテンツの少なくとも一部分を含む、2つ以上の第1のテキストユニットのうちのある第1のテキストユニットを識別することと、
- テキスト入力のセットから第1のテキストユニットを削除して、テキスト入力の第2のセットを取得することと、
- テキスト入力の第2のセットを機械学習型言語モデルで処理して、精錬された第2のテキストユニットを含む第2の言語出力を取得することと、
- 精錬された第2のテキストユニットをユーザコンピューティングデバイスに提供することとをさらに含む、実施形態27のコンピューティングシステム。
【0203】
実施形態29:テキスト入力のセットから第1のテキストユニットを削除して、テキスト入力の第2のセットを取得することは、第1の結果画像を含むソースドキュメントに関連付けられた情報を属性情報から削除して、精錬された属性情報を取得することをさらに含み、精錬された第2のテキストユニットをユーザコンピューティングデバイスに提供することは、精錬された属性情報をユーザコンピューティングデバイスに提供することをさらに含む、実施形態28のコンピューティングシステム。
【0204】
実施形態30:言語出力は、第2のテキストユニットの一部分を、プロンプトに最も関連するものとして予測する予測情報をさらに含み、インターフェースデータは、第2のテキストユニットのその部分をハイライトする強調要素を生成するための命令をさらに含む、実施形態27のコンピューティングシステム。
【0205】
実施形態31:第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供することは、ユーザコンピューティングデバイスにインターフェースデータを提供することを含み、インターフェースデータは、
- 第2のテキストユニットの第1の部分を含む第1のインターフェース要素であって、第2のテキストユニットの第1の部分は、2つ以上の結果画像のうちの第1の結果画像に関連付けられる、第1のインターフェース要素と、
- 第2のテキストユニットの第2の部分を含む第2のインターフェース要素であって、第2のテキストユニットの第2の部分は、2つ以上の結果画像のうちの第2の結果画像に関連付けられる、第2のインターフェース要素と、
- 第1の選択可能な属性要素および第2の選択可能な属性要素であって、第1の選択可能な属性要素は、第1の結果画像のサムネイル、および第1の結果画像を含むソースドキュメントについての属性情報を含み、第2の選択可能な属性要素は、第2の結果画像のサムネイル、および第2の結果画像を含むソースドキュメントについての属性情報を含む、第1の選択可能な属性要素および第2の選択可能な属性要素とを生成するための命令を含む、実施形態26のコンピューティングシステム。
【0206】
実施形態32:第2のテキストユニットは、2つ以上の第1のテキストユニットの要約を含む、実施形態21のコンピューティングシステム。
【0207】
実施形態33:コンピュータにより実施される方法であって、
- 1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、クエリ画像の中間表現と、複数の結果画像にそれぞれ関連付けられた複数の中間表現の各々との間の類似性に基づいて、複数の結果画像を検索するステップと、
- コンピューティングシステムによって、複数のソースドキュメントを識別するステップであって、複数のソースドキュメントの各々は、複数の結果画像のうちのある結果画像およびその結果画像に関連付けられたテキストコンテンツを含む、ステップと、
- コンピューティングシステムによって、複数の結果画像のための複数の第1のテキストユニットをそれぞれ判断するステップであって、各第1のテキストユニットは、結果画像を含む1つまたは複数のソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む、ステップと、
- コンピューティングシステムによって、テキスト入力のセットを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得するステップであって、テキスト入力のセットは、
○(a)複数の結果画像のうちの2つ以上の結果画像にそれぞれ関連付けられた2つ以上の第1のテキストユニット、および
○(b)クエリ画像に関連付けられたプロンプト、を含む、ステップと、
- コンピューティングシステムによって、第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供するステップとを含む方法。
【0208】
実施形態34:複数の結果画像を検索するステップは、コンピューティングシステムによって、クエリ画像を機械学習型視覚サーチモデルで処理して、クエリ画像の中間表現を取得するステップと、コンピューティングシステムによって、クエリ画像の中間表現と、複数の結果画像の中間表現との間の類似性の程度に基づいて、結果画像を検索するステップとを含む、実施形態33のコンピュータにより実施される方法。
【0209】
実施形態35:機械学習型視覚サーチモデルでクエリ画像を処理するステップは、コンピューティングシステムによって、クエリ画像を機械学習型埋め込みモデルで処理して、クエリ画像のためのクエリ画像埋め込みを取得するステップを含み、複数の結果画像を検索するステップは、コンピューティングシステムによって、埋め込みスペース内での、クエリ画像埋め込みと複数の結果画像の埋め込みとの間の距離に基づいて、複数の結果画像を検索するステップを含む、実施形態34のコンピュータにより実施される方法。
【0210】
実施形態36:クエリ画像を処理するのに先立って、方法は、コンピューティングシステムによって、ユーザコンピューティングデバイスからクエリ画像を取得するステップを含む、実施形態33のコンピュータにより実施される方法。
【0211】
実施形態37:クエリ画像を取得するステップは、コンピューティングシステムによって、クエリ画像、およびクエリ画像に関連付けられたプロンプトをユーザコンピューティングデバイスから取得するステップを含む、実施形態33のコンピュータにより実施される方法。
【0212】
実施形態38:複数のソースドキュメントを識別するステップは、コンピューティングシステムによって、属性情報を取得するステップをさらに含み、複数のソースドキュメントの各々について、属性情報は、(a)ソースドキュメントを識別する識別用情報、および/または(b)ソースドキュメントにそこからアクセスすることができるロケーションを記述する情報、を含む、実施形態33のコンピュータにより実施される方法。
【0213】
実施形態39:第2のテキストユニットおよび2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供するステップは、コンピューティングシステムによって、インターフェースデータをユーザコンピューティングデバイスに提供するステップを含み、インターフェースデータは、(a)第2のテキストユニットを含むインターフェース要素と、(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素とを生成するための命令を含み、各属性要素は、関連付けられた結果画像のサムネイルと、関連付けられた結果画像を含む1つまたは複数のソースドキュメントについての属性情報とを含む、実施形態38のコンピュータにより実施される方法。
【0214】
実施形態40:命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、命令は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに動作を実施させ、動作は、
- クエリ画像および関連付けられたプロンプトを、ユーザコンピューティングデバイスから取得することと、
- 機械学習型埋め込みモデルでクエリ画像を処理して、クエリ画像埋め込みを取得することと、
- クエリ画像埋め込みと結果画像の埋め込みとの間の類似性に基づいて、結果画像を検索することと、
- 結果画像用のソースドキュメントを識別することであって、ソースドキュメントは、結果画像、および結果画像に関連付けられたテキストコンテンツを含む、ことと、
- ソースドキュメントからの、結果画像に関連付けられたテキストコンテンツの少なくとも一部分を含む第1のテキストユニットを判断することと、
- 第1のテキストユニットおよびプロンプトを機械学習型言語モデルで処理して、第2のテキストユニットを含む言語出力を取得することであって、第2のテキストユニットは、
○(a)第1のテキストユニットの少なくとも一部、または
○(b)第1のテキストユニットから導出されたテキスト、のうちの1つまたは複数を含む、ことと、
- 第2のテキストユニットおよび結果画像を、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内での表示のために提供することとを含む、1つまたは複数の非一時的コンピュータ可読媒体。
【0215】
実施形態41:コンピュータにより実施される方法であって、
- 1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、クエリ画像の中間表現と2つ以上の結果画像の中間表現との間の類似性に基づいて、2つ以上の結果画像を検索するステップと、
- コンピューティングシステムによって、テキスト入力のセットを機械学習型言語モデルで処理して、テキストコンテンツを含む言語出力を取得するステップであって、テキスト入力のセットは、2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツ、およびクエリ画像に関連付けられたプロンプトを含む、ステップと、
- コンピューティングシステムによって、言語出力および2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供するステップと、
- コンピューティングシステムによってユーザコンピューティングデバイスから、2つ以上の結果画像のうちの第1の結果画像がクエリ画像に視覚的に似ていないという、ユーザコンピューティングデバイスのユーザによる指示を記述する情報を受信するステップと、
- コンピューティングシステムによって、第1の結果画像を含むソースドキュメントに関連付けられたテキストコンテンツをテキスト入力のセットから削除するステップと、
- コンピューティングシステムによって、テキスト入力のセットを機械学習型言語モデルで処理して、精錬された言語出力を取得するステップと、
- コンピューティングシステムによって、精錬された言語出力を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供するステップとを含む方法。
【0216】
実施形態42:2つ以上の結果画像を検索するステップは、コンピューティングシステムによって、クエリ画像を機械学習型視覚サーチモデルで処理して、クエリ画像の中間表現を取得するステップと、コンピューティングシステムによって、クエリ画像の中間表現と、2つ以上の結果画像の中間表現との間の類似性の程度に基づいて、結果画像を検索するステップとを含む、実施形態41のコンピュータにより実施される方法。
【0217】
実施形態43:クエリ画像を処理するのに先立って、方法は、コンピューティングシステムによって、ユーザコンピューティングデバイスからクエリ画像を取得するステップを含む、実施形態42のコンピュータにより実施される方法。
【0218】
実施形態44:テキスト入力のセットを機械学習型言語モデルで処理するステップは、属性情報を取得するステップをさらに含み、ソースドキュメントの各々について、属性情報は、(a)ソースドキュメントを識別する識別用情報、および/または(b)ソースドキュメントにそこからアクセスすることができるロケーションを記述する情報、を含む、実施形態41のコンピュータにより実施される方法。
【0219】
実施形態45:言語出力および2つ以上の結果画像を提供するステップは、コンピューティングシステムによって、属性情報を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供するステップをさらに含む、実施形態44のコンピュータにより実施される方法。
【0220】
実施形態46:言語出力および2つ以上の結果画像を、ユーザコンピューティングデバイスのインターフェース内での表示のためにユーザコンピューティングデバイスに提供するステップは、ユーザコンピューティングデバイスにインターフェースデータを提供するステップを含み、インターフェースデータは、(a)言語出力を含むインターフェース要素と、(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素とを生成するための命令を含み、各属性要素は、関連付けられた結果画像のサムネイルと、関連付けられた結果画像を含む1つまたは複数のソースドキュメントについての属性情報とを含む、実施形態44のコンピュータにより実施される方法。
【0221】
実施形態47:2つ以上の結果画像のうちの第1の結果画像がクエリ画像に視覚的に似ていないという、ユーザコンピューティングデバイスのユーザによる指示を記述する情報を受信するステップは、ユーザコンピューティングデバイスから、ユーザコンピューティングデバイスのユーザによる、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の選択を示すデータを受信するステップであって、第1の選択可能な属性要素は、2つ以上の結果画像のうちの第1の結果画像に関連付けられる、ステップを含む、実施形態46のコンピュータにより実施される方法。
【0222】
実施形態48:第1の結果画像を含むソースドキュメントに関連付けられたテキストコンテンツをテキスト入力のセットから削除するステップは、第1の結果画像を含むソースドキュメントに関連付けられた情報を、属性情報から削除して、精錬された属性情報を取得するステップをさらに含み、精錬された言語出力をユーザコンピューティングデバイスに提供するステップは、精錬された属性情報をユーザコンピューティングデバイスに提供するステップをさらに含む、実施形態47のコンピュータにより実施される方法。
【0223】
実施形態49:言語出力は、言語出力の部分を、プロンプトに最も関連するものであると予測する予測情報をさらに含み、インターフェースデータは、言語出力の部分をハイライトする強調要素を生成するための命令をさらに含む、実施形態46のコンピュータにより実施される方法。
【0224】
実施形態50:コンピュータにより実施される方法であって、
- 1つまたは複数のプロセッサを備えるユーザコンピューティングデバイスによって、クエリ画像を取得するステップと、
- ユーザコンピューティングデバイスによって、プロンプトを記述するテキストデータを取得するステップと、
- ユーザコンピューティングデバイスによって、クエリ画像、およびプロンプトを記述するテキストデータを、視覚サーチサービスに関連付けられたコンピューティングシステムに提供するステップと、
- クエリ画像およびプロンプトを提供したことに応答して、ユーザコンピューティングデバイスによってコンピューティングシステムから、(a)2つ以上の結果画像、および(b)機械学習型言語モデルからの言語出力、を受信するステップであって、言語出力は、プロンプト、および2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツ、に基づいて生成される、ステップと、
- ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内で、
○(a)言語出力を含むインターフェース要素、ならびに
○(b)2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素であって、各選択可能な属性要素は、関連付けられた結果画像のサムネイル、および関連付けられた結果画像を含むソースドキュメントを識別する属性情報、を含む、2つ以上の選択可能な属性要素、を表示するステップとを含む方法。
【0225】
実施形態51:各選択可能な属性要素は、第1の選択可能な部分および第2の選択可能な部分を含む、実施形態50のコンピュータにより実施される方法。
【0226】
実施形態52:方法は、ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスに関連付けられた入力デバイスを介してユーザから、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の第1の選択可能な部分を選択する入力を受信するステップをさらに含む、実施形態51のコンピュータにより実施される方法。
【0227】
実施形態53:第1の選択可能な属性要素の第1の選択可能な部分への入力を受信したことに応答して、ユーザコンピューティングデバイスによってコンピューティングシステムに、第1の選択可能な属性要素の選択を示す情報を提供するステップと、情報を提供したことに応答して、ユーザコンピューティングデバイスによってコンピューティングシステムから、精錬された言語出力を受信するステップであって、精錬された言語出力は、プロンプト、および第1の選択可能な属性要素に関連付けられた第1の結果画像以外の2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツに基づいて生成される、ステップとをさらに含む、実施形態52のコンピュータにより実施される方法。
【0228】
実施形態54:方法は、ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内に、(a)精錬された言語出力を含むインターフェース要素と、(b)1つまたは複数の選択可能な属性要素とを表示するステップをさらに含み、1つまたは複数の選択可能な属性要素は、第1の選択可能な属性要素以外の、2つ以上の選択可能な属性要素の各々を含む、実施形態53のコンピュータにより実施される方法。
【0229】
実施形態55:方法は、ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスに関連付けられた入力デバイスを介してユーザから、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素の第2の選択可能な部分を選択する入力を受信するステップと、第1の選択可能な属性要素の第2の選択可能な部分を選択する入力を受信したことに応答して、ユーザコンピューティングデバイスによって、第1の選択可能な属性要素に含まれる属性情報によって識別されるソースドキュメントの表示を引き起こすステップとをさらに含む、実施形態52のコンピュータにより実施される方法。
【0230】
実施形態56:ソースドキュメントの各々は、
-ウェブサイトの1つもしくは複数のウェブページ、
- 記事、
- 新聞、
- 本、または
- トランスクリプト、を含む、実施形態50のコンピュータにより実施される方法。
【0231】
実施形態57:プロンプトを記述するテキストデータを取得するステップは、ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスに関連付けられたオーディオ取込みデバイスを介してユーザから、発話された発声を取得するステップと、発話された発声に少なくとも部分的に基づいて、ユーザコンピューティングデバイスによって、プロンプトを記述するテキストデータを判断するステップとを含む、実施形態50のコンピュータにより実施される方法。
【0232】
実施形態58:クエリ画像を取得するステップは、ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスに関連付けられた画像取込みデバイスを使って画像を取り込むための要求を示す入力を取得するステップと、入力を取得したことに応答して、ユーザコンピューティングデバイスによって、ユーザコンピューティングデバイスに関連付けられた画像取込みデバイスを使って、クエリ画像を取り込むステップとを含む、実施形態50のコンピュータにより実施される方法。
【0233】
実施形態59:ユーザコンピューティングデバイスであって、
- 1つまたは複数のプロセッサと、
- 命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、命令は、1つまたは複数のプロセッサによって実行されると、ユーザコンピューティングデバイスに動作を実施させ、動作は、
○クエリ画像を取得することと、
○プロンプトを記述するテキストデータを取得することと、
○クエリ画像、およびプロンプトを記述するテキストデータを、視覚サーチサービスに関連付けられたコンピューティングシステムに提供することと、
○クエリ画像およびプロンプトを提供したことに応答して、コンピューティングシステムから、(a)2つ以上の結果画像、および(b)機械学習型言語モデルからの言語出力、を受信することであって、言語出力は、プロンプト、および2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツ、に基づいて生成される、ことと、
○ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内で、
・言語出力を含むインターフェース要素、ならびに
・2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素であって、各選択可能な属性要素は、関連付けられた結果画像のサムネイル、および関連付けられた結果画像を含むソースドキュメントを識別する属性情報、を含む、2つ以上の選択可能な属性要素、を表示することと、
○ユーザコンピューティングデバイスに関連付けられた入力デバイスを介してユーザから、2つ以上の選択可能な属性要素のうちの第1の選択可能な属性要素を選択する入力を受信することと、
○入力を受信したことに応答して、コンピューティングシステムに、第1の選択可能な属性要素の選択を示す情報を提供することと、
○情報を提供したことに応答して、コンピューティングシステムから、精錬された言語出力を受信することであって、精錬された言語出力は、プロンプト、および第1の選択可能な属性要素に関連付けられた第1の結果画像以外の2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツ、に基づいて生成される、こととを含む、ユーザコンピューティングデバイス。
【0234】
実施形態60:命令の第1のセットをまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、命令は、ユーザコンピューティングデバイスの1つまたは複数のプロセッサによって実行されると、ユーザコンピューティングデバイスに動作を実施させ、動作は、
- クエリ画像を取得することと、
- プロンプトを記述するテキストデータを取得することと、
- クエリ画像、およびプロンプトを記述するテキストデータを、視覚サーチサービスに関連付けられたコンピューティングシステムに提供することと、
- クエリ画像およびプロンプトを提供したことに応答して、コンピューティングシステムから、2つ以上の結果画像、および機械学習型言語モデルからの言語出力、を受信することであって、言語出力は、プロンプト、および2つ以上の結果画像を含むソースドキュメントからのテキストコンテンツ、に基づいて生成される、ことと、
- ユーザコンピューティングデバイスによって実行されるアプリケーションのインターフェース内で、
○言語出力を含むインターフェース要素、ならびに
○2つ以上の結果画像にそれぞれ関連付けられた2つ以上の選択可能な属性要素であって、各選択可能な属性要素は、関連付けられた結果画像のサムネイル、および関連付けられた結果画像を含むソースドキュメントを識別する属性情報、を含む、2つ以上の選択可能な属性要素、を表示することとを含む、1つまたは複数の非一時的コンピュータ可読媒体。
【符号の説明】
【0235】
100 視覚サーチシステム
102 ユーザコンピューティングデバイス
104 入力デバイス
106 通信モジュール
108 視覚サーチコンピューティングシステム
110 ネットワーク
112 クエリ画像
114 プロンプト
116 視覚サーチ要求
118 視覚サーチモジュール
120 テキストコンテンツ
122 結果画像
124 インターフェースデータ
202 視覚サーチコンピューティングシステム
203 ユーザコンピューティングデバイス
204 視覚サーチモジュール
206 クエリ画像
208 プロンプト
210 画像評価モジュール
212 結果画像
214 機械学習型視覚サーチモデル、視覚サーチモデル
215 画像サーチスペース
216 ドキュメントインデックス付け情報
218 ドキュメントコンテンツ選択モジュール
220 ドキュメント
222 テキストコンテンツ
224 第1のテキストユニット
226 テキスト判断モジュール
228 第2のテキストユニット
230 機械学習型言語モデル
234 インターフェースデータ
236 属性情報
232 インターフェースデータ生成モジュール
400 インターフェース
402 視覚サーチ要求
404 主要インターフェース要素
405 属性要素
406 結果画像要素
500A インターフェース
500B インターフェース
502 視覚サーチ要求
504 主要インターフェース要素
505 属性要素
506 強調要素
508 第2のインターフェース要素
510 入力
514 情報要求要素
602 視覚サーチコンピューティングシステム
604 視覚サーチモジュール
606 クエリ画像
608 プロンプト
610 画像評価モジュール
612 結果画像
614 テキストユニット
616 ドキュメントコンテンツ選択モジュール
618 ドキュメントインデックス付け情報
620 テキスト判断モジュール
621 大規模言語モデル
622 導出されたテキストユニット
624 ユーザコンピューティングデバイス
626 属性情報
628 結果画像選択情報
630 第2の導出されたテキストユニット
632 第2の属性情報
700A インターフェース
700B インターフェース
702 インターフェース要素
704 選択可能な属性要素
706 入力
1100 コンピューティングシステム、システム
1180 ネットワーク
1102 ユーザコンピューティングシステム
1104 ユーザコンピューティングデバイス
1112 プロセッサ
1114 メモリ
1116 データ
1118 命令
1120 機械学習型モデル、モデル
1122 ユーザ入力構成要素
1126 センサー
1130 サーバコンピューティングシステム
1132 プロセッサ
1134 メモリ
1136 データ
1138 命令
1140 機械学習型モデル、モデル
1142 サーチエンジン
1144 ユーザインターフェース
1150 サードパーティコンピューティングシステム
1152 プロセッサ
1154 メモリ
1156 データ
1158 命令
1250 コンピューティングシステム
1252 コンピューティングデバイス、ユーザコンピューティングデバイス
1260 センサー処理システム
1262 コンテキスト判断ブロック
1264 画像前処理ブロック
1266 検出モデル
1268 セグメント化モデル
1270 分類モデル
1272 埋め込みモデル
1274 サーチエンジン
1276 マルチモーダル処理ブロック
1280 出力判断システム
1282 サーチ結果インターフェース
1284 機械学習型モデル出力インターフェース
1286 拡張現実エクスペリエンスおよび/または仮想現実エクスペリエンス
1288 アクションプロンプト
1290 生成的モデル
1292 データ拡大ブロック
1294 データ記憶ブロック
図1
図2
図3
図4
図5A
図5B
図6A
図6B
図7A
図7B
図8
図9
図10
図11A
図11B
【外国語明細書】