(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024163030
(43)【公開日】2024-11-21
(54)【発明の名称】検索のための人工知能生成バッジ
(51)【国際特許分類】
G06F 16/9535 20190101AFI20241114BHJP
【FI】
G06F16/9535
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024066802
(22)【出願日】2024-04-17
(31)【優先権主張番号】63/501,123
(32)【優先日】2023-05-09
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アラシュ・サダー
(72)【発明者】
【氏名】ユ・タオ
(72)【発明者】
【氏名】ダーリェン・リ
(72)【発明者】
【氏名】ザカリー・ケネス・フィッシャー
(72)【発明者】
【氏名】バルガヴ・カナガル・シャマンナ
(72)【発明者】
【氏名】シンナン・ユ
(72)【発明者】
【氏名】ラジヴ・シャイレンドラ・メンジョゲ
(72)【発明者】
【氏名】マルチン・タデウシュ・ビヤレク
(72)【発明者】
【氏名】グジェゴジ・グロワティ
(72)【発明者】
【氏名】スミット・ケー・サンガイ
(72)【発明者】
【氏名】サンジヴ・クマール
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA05
(57)【要約】
【課題】主題に関連付けられたウェブ情報を処理して、主題の特定の品質を決定することを含み得る、人工知能生成バッジを生成および利用するためのシステムおよび方法を提供すること。
【解決手段】次いで、品質が、1つまたは複数のバッジを生成するために利用され得る。次いで、バッジが、検索結果決定および表示のために利用され得る。バッジは、検索結果ランク付けのために利用され得、検索結果インターフェースにおいて検索結果に注釈を付けるために利用され得る。
【選択図】
図2
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記命令が、前記1つまたは複数のプロセッサによって実行されたとき、前記コンピューティングシステムに動作を実行させ、前記動作が、
特定の製品に関連付けられたウェブデータを取得することであって、前記ウェブデータが、前記特定の製品に関連付けられたウェブ情報を備える、ことと、
1つまたは複数の機械学習済みモデルを用いて、前記ウェブデータを処理して、前記特定の製品に関連付けられた1つまたは複数の特定の使用を決定することであって、前記1つまたは複数の特定の使用が、前記ウェブ情報に基づいて決定される、ことと、
前記1つまたは複数の特定の使用に基づいて、1つまたは複数のバッジを生成することであって、前記1つまたは複数のバッジが、前記1つまたは複数の特定の使用を記述する、ことと、
前記1つまたは複数のバッジを記憶することであって、前記1つまたは複数のバッジが、前記特定の製品との関連付けを記述するデータとともに記憶される、ことと、
検索クエリを取得することであって、前記検索クエリが、製品タイプに関連付けられ、前記特定の製品が、前記製品タイプのものである、ことと、
前記検索クエリおよび前記1つまたは複数のバッジに基づいて、検索結果インターフェースを提供することと
を含む、システム。
【請求項2】
前記ウェブデータが、前記特定の製品のユーザレビューを備える、請求項1に記載のシステム。
【請求項3】
前記1つまたは複数の特定の使用が、ウェブ情報、感情分析、および意味理解における用語の頻度に基づいて決定される、請求項1に記載のシステム。
【請求項4】
前記1つまたは複数の特定の使用が、
前記特定の製品を使用するためのシナリオ、
前記特定の製品を使用するための目的、
前記特定の製品を使用するための時間、または
前記製品を使用するユーザのタイプ
のうちの少なくとも1つに関連付けられる、請求項1に記載のシステム。
【請求項5】
前記動作が、
埋込みモデルを用いて、前記1つまたは複数のバッジを処理して、埋込み空間内の1つまたは複数のそれぞれのバッジ埋込みを生成することと、
前記1つまたは複数のバッジ埋込みに基づいて、前記検索結果インターフェースにおいて表示するための複数の検索結果を決定することと
をさらに含む、請求項1に記載のシステム。
【請求項6】
前記複数の検索結果を決定することが、
前記埋込みモデルを用いて、前記検索クエリを処理して、クエリ埋込みを生成することと、
前記クエリ埋込みが前記バッジ埋込みに関連付けられると決定することと、
前記検索結果インターフェースにおいて、前記特定の製品を記述する製品検索結果を提供することと
を含む、請求項5に記載のシステム。
【請求項7】
前記動作が、
前記埋込みモデルを用いて、複数の他の製品に関連付けられた複数の他のバッジを処理して、複数の他のバッジ埋込みを生成することと、
1つまたは複数のバッジ埋込みおよび前記複数の他のバッジ埋込みに基づいて、1つまたは複数のバッジクラスタを決定することと、
前記1つまたは複数のバッジクラスタに基づいて、前記検索結果インターフェースの1つまたは複数の検索結果を決定することと
をさらに含む、請求項5に記載のシステム。
【請求項8】
前記検索クエリおよび前記1つまたは複数のバッジに基づいて、前記検索結果インターフェースを提供することが、
前記1つまたは複数のバッジが前記検索クエリに関連付けられると決定することと、
前記特定の製品に関連付けられた製品データを取得することであって、前記製品データが、前記特定の製品に関連付けられた1つまたは複数のウェブリソースへの1つまたは複数のリンクを備える、ことと
を含み、
前記検索結果インターフェースが、製品検索結果を備え、前記製品検索結果が、前記製品を記述するデータと、前記1つまたは複数のバッジとを備える、請求項1に記載のシステム。
【請求項9】
前記1つまたは複数の機械学習済みモデルが、自然言語処理モデルを備え、前記1つまたは複数の特定の使用が、感情分析に少なくとも部分的に基づいて決定される、請求項1に記載のシステム。
【請求項10】
前記ウェブ情報が、製品説明と、よくある質問への回答とを備える、請求項1に記載のシステム。
【請求項11】
コンピュータ実装方法であって、
1つまたは複数のプロセッサを備えるコンピューティングシステムによって、物体に関連付けられた1つまたは複数のウェブリソースを決定するステップと、
前記コンピューティングシステムによって、1つまたは複数の機械学習済みモデルを用いて、前記1つまたは複数のウェブリソースの1つまたは複数のコンテンツアイテムを処理して、前記物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの少なくとも1つを決定するステップと、
前記コンピューティングシステムによって、前記物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの前記少なくとも1つに基づいて、1つまたは複数のバッジを生成するステップであって、前記1つまたは複数のバッジが、生成されたテキストラベルを備える、ステップと、
前記コンピューティングシステムによって、ユーザコンピューティングシステムから、検索クエリを取得するステップと、
前記コンピューティングシステムによって、前記物体あるいは前記1つまたは複数のバッジのうちの少なくとも1つが前記検索クエリに関連付けられると決定するステップと、
前記コンピューティングシステムによって、検索結果インターフェースにおける表示のために、特定の物体検索結果を提供するステップであって、前記特定の物体検索結果が、前記物体を記述するデータと、前記1つまたは複数のバッジを記述するユーザインターフェース要素とを備える、ステップと
を含む方法。
【請求項12】
前記コンピューティングシステムによって、前記物体あるいは前記1つまたは複数のバッジのうちの前記少なくとも1つが前記検索クエリに関連付けられると決定するステップが、
前記コンピューティングシステムによって、検索エンジンを用いて、前記検索クエリを処理して、複数の検索結果を決定するステップと、
前記コンピューティングシステムによって、前記複数の検索結果に関連付けられたバッジのセットを決定するステップであって、前記バッジのセットが、前記1つまたは複数のバッジを備える、ステップと、
前記コンピューティングシステムによって、前記バッジのセットに基づいて、前記検索結果インターフェースにおいて特定の検索結果のセットを提供するステップと
を含む、請求項11に記載の方法。
【請求項13】
前記コンピューティングシステムによって、前記物体あるいは前記1つまたは複数のバッジのうちの前記少なくとも1つが前記検索クエリに関連付けられると決定するステップが、
前記コンピューティングシステムによって、前記検索クエリに関連付けられたバッジのセットを決定するステップであって、前記バッジのセットが、前記1つまたは複数のバッジを備える、ステップと、
前記コンピューティングシステムによって、前記バッジのセットのうちの特定のバッジの各々のためのそれぞれの検索結果を決定するステップと、
前記コンピューティングシステムによって、前記バッジのセットに基づいて、前記検索結果インターフェースにおいて前記それぞれの検索結果のセットを提供するステップと
を含む、請求項11に記載の方法。
【請求項14】
前記コンピューティングシステムによって、前記物体を記述するデータを用いて、前記1つまたは複数のバッジにインデックス付けするステップ
をさらに含む、請求項11に記載の方法。
【請求項15】
前記1つまたは複数のウェブリソースを決定するステップが、
前記コンピューティングシステムによって、前記物体を記述するデータを取得するステップと、
前記コンピューティングシステムによって、検索エンジンを用いて、前記物体を記述する前記データを処理して、物体固有の検索結果のセットを決定するステップと、
前記コンピューティングシステムによって、前記物体固有の検索結果のセットから、1つまたは複数の特定の物体固有の検索結果を選択するステップと
を含む、請求項11に記載の方法。
【請求項16】
前記1つまたは複数のウェブリソースが、前記物体のためのウェブマーケットプレイスリスティングを備える、請求項11に記載の方法。
【請求項17】
命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が、1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させ、前記動作が、
検索クエリを取得することであって、前記検索クエリが、特定の物体タイプに関連付けられる、ことと、
前記検索クエリを処理して、前記検索クエリに関連付けられた複数のバッジを決定することであって、前記複数のバッジが、前記特定の物体タイプの複数の異なる物体に関連付けられた複数の特定の利点を備える、ことと、
表示するための前記複数のバッジのサブセットを決定することと、
前記複数のバッジの前記サブセットに関連付けられた複数の検索結果を取得することであって、前記複数の検索結果が、前記複数のバッジの前記サブセットのうちの各特定のバッジのための1つまたは複数のそれぞれの検索結果を備える、ことと、
表示のために検索結果インターフェースを提供することであって、前記検索結果インターフェースが、前記複数の検索結果を備え、前記複数の検索結果の各々が、前記それぞれの検索結果に関連付けられた前記特定のバッジを用いて、注釈を付けられる、ことと
を含む、1つまたは複数の非一時的コンピュータ可読媒体。
【請求項18】
前記複数のバッジが、前記複数の異なる物体の各々についての複数のレビューを処理することによって生成される、請求項17に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項19】
前記検索結果インターフェースが、前記複数の検索結果のための第1のパネルと、モデル生成応答のための第2のパネルとを備え、前記モデル生成応答が、言語モデルを用いて、前記検索クエリを処理して、前記モデル生成応答を生成することによって生成され、前記モデル生成応答が、前記検索クエリに応答するものであり、前記言語モデルが、テキストからテキストへの生成モデルを備える、請求項17に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項20】
前記複数の検索結果が、ウェブリソースの特定のセットに関連付けられた複数の製品検索結果を備え、
前記検索結果インターフェースが、複数の製品検索結果、複数の一般検索結果、および自然言語応答を備え、前記自然言語応答が、機械学習済み生成モデルを用いて生成され、前記複数の一般検索結果が、検索エンジンを用いて決定される、請求項17に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権主張
本出願は、2023年5月9日の出願日を有する米国仮出願第63/501,123号に基づき、その優先権を主張する。出願人は、そのような出願の各々の優先権および利益を主張し、すべてのそのような出願の全体を参照により本明細書に組み込む。
【0002】
本開示は、一般に、検索のための人工知能生成バッジに関する。より詳細には、本開示は、1つまたは複数の機械学習済みモデルを用いて、主題に関連付けられたウェブ情報を処理して、その特定の主題のための特定の使用および/または利点を決定することに基づいて、検索結果のためのバッジを生成することであって、次いで、バッジが、検索結果をランク付けすること、および/または検索結果に注釈を付けることを行うために利用され得る、ことに関する。
【背景技術】
【0003】
異なる物体および環境は、異なる使用、賛否両論を有し得る。たとえば、異なる製品は、特定のロケーションおよび/または特定のユーザにとってより良いものであり得る。しかしながら、どの製品がいくつかの使用のために優れているかを見分けることは、従来の検索結果ページをレビューするとき、困難であり得る。
【0004】
たとえば、従来の検索結果は、従来のテキストクエリ処理に基づいて、ユーザに複数のウェブリソースを提供することができるが、検索結果リストのみは、ユーザが検索結果を選択して、関連するウェブページにナビゲートされない限り、ユーザに最小情報を提供し得る。異なるランディングページへの、検索結果ページとの間のナビゲーションは、時間がかかるものであり、全体的に非生産的であり得る。さらに、従来の検索結果ページは、冗長であり、かつ/または編成されていないことがあり得る。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Zhou他、Mixture-of-Experts with Expert Choice Routing、arXiv:2202.09368v2(2022年10月14日)
【非特許文献2】PaLM 2 Technical Report、Google、https://ai.google/static/documents/palm2techreport.pdf(n.d.)
【非特許文献3】Dosovitskiy他、An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale、arXiv:2010.11929v2(2021年6月3日)
【非特許文献4】Agostinelli他、MusicLM: Generating Music From Text、arXiv:2301.11325v1(2023年1月26日)
【非特許文献5】Jumper他、Highly accurate protein structure prediction with AlphaFold、596 Nature 583(2021年8月26日)
【非特許文献6】Kudo他、SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing、Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (System Demonstrations)、66~71頁(2018年10月31日~11月4日)、https://aclanthology.org/D18-2012.pdf
【非特許文献7】Vaswani他、Attention Is All You Need、arXiv:1706.03762v7(2023年8月2日)
【非特許文献8】Saharia他、Non-Autoregressive Machine Translation with Latent Alignments、arXiv:2004.07437v3(2020年11月16日)
【発明の概要】
【課題を解決するための手段】
【0006】
本開示の実施形態の態様および利点は、以下の説明において部分的に記載されるか、または説明から知ることができるか、または実施形態の実施を通して知ることができる。
【0007】
本開示の1つの例示的な態様は、コンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができ、命令が、1つまたは複数のプロセッサによって実行されたとき、コンピューティングシステムに動作を実行させる。動作は、特定の製品に関連付けられたウェブデータを取得することを含み得る。ウェブデータは、特定の製品に関連付けられたウェブ情報を含み得る。動作は、1つまたは複数の機械学習済みモデルを用いて、ウェブデータを処理して、特定の製品に関連付けられた1つまたは複数の特定の使用を決定することを含み得る。1つまたは複数の特定の使用は、ウェブ情報に基づいて決定され得る。動作は、1つまたは複数の特定の使用に基づいて、1つまたは複数のバッジを生成することを含み得る。いくつかの実装形態では、1つまたは複数のバッジは、1つまたは複数の特定の使用を記述することができる。動作は、1つまたは複数のバッジを記憶することを含み得る。1つまたは複数のバッジは、特定の製品との関連付けを記述するデータとともに記憶され得る。動作は、検索クエリを取得することを含み得る。いくつかの実装形態では、検索クエリは、製品タイプに関連付けられ得る。特定の製品は、製品タイプのものであり得る。動作は、検索クエリおよび1つまたは複数のバッジに基づいて、検索結果インターフェースを提供することを含み得る。
【0008】
いくつかの実装形態では、ウェブデータは、特定の製品のユーザレビューを含み得る。1つまたは複数の特定の使用は、ウェブ情報、感情分析、および意味理解における用語の頻度に基づいて決定され得る。1つまたは複数の特定の使用は、特定の製品を使用するためのシナリオ、特定の製品を使用するための目的、特定の製品を使用するための時間、または製品を使用するユーザのタイプのうちの少なくとも1つに関連付けられ得る。
【0009】
いくつかの実装形態では、動作は、埋込みモデルを用いて、1つまたは複数のバッジを処理して、埋込み空間内の1つまたは複数のそれぞれのバッジ埋込みを生成することと、1つまたは複数のバッジ埋込みに基づいて、検索結果インターフェースにおいて表示するための複数の検索結果を決定することとを含み得る。複数の検索結果を決定することは、埋込みモデルを用いて、検索クエリを処理して、クエリ埋込みを生成することと、クエリ埋込みがバッジ埋込みに関連付けられると決定することと、検索結果インターフェースにおいて、特定の製品を記述する製品検索結果を提供することとを含み得る。動作は、埋込みモデルを用いて、複数の他の製品に関連付けられた複数の他のバッジを処理して、複数の他のバッジ埋込みを生成することと、1つまたは複数のバッジ埋込みおよび複数の他のバッジ埋込みに基づいて、1つまたは複数のバッジクラスタを決定することと、1つまたは複数のバッジクラスタに基づいて、検索結果インターフェースの1つまたは複数の検索結果を決定することとをさらに含み得る。
【0010】
いくつかの実装形態では、検索クエリおよび1つまたは複数のバッジに基づいて、検索結果インターフェースを提供することは、1つまたは複数のバッジが検索クエリに関連付けられると決定することと、特定の製品に関連付けられた製品データを取得することとを含み得る。製品データは、特定の製品に関連付けられた1つまたは複数のウェブリソースへの1つまたは複数のリンクを含み得る。検索結果インターフェースは、製品検索結果を含み得る。製品検索結果は、製品を記述するデータと、1つまたは複数のバッジとを含み得る。いくつかの実装形態では、1つまたは複数の機械学習済みモデルは、自然言語処理モデルを含み得る。1つまたは複数の特定の使用は、感情分析に少なくとも部分的に基づいて決定され得る。ウェブ情報は、製品説明と、よくある質問への回答とを含み得る。
【0011】
本開示の別の例示的な態様は、コンピュータ実装方法を対象とする。方法は、1つまたは複数のプロセッサを含むコンピューティングシステムによって、物体に関連付けられた1つまたは複数のウェブリソースを決定するステップを含み得る。方法は、コンピューティングシステムによって、1つまたは複数の機械学習済みモデルを用いて、1つまたは複数のウェブリソースの1つまたは複数のコンテンツアイテムを処理して、物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの少なくとも1つを決定するステップを含み得る。方法は、コンピューティングシステムによって、物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの少なくとも1つに基づいて、1つまたは複数のバッジを生成するステップを含み得る。いくつかの実装形態では、1つまたは複数のバッジは、生成されたテキストラベルを含み得る。方法は、コンピューティングシステムによって、ユーザコンピューティングシステムから、検索クエリを取得するステップを含み得る。方法は、コンピューティングシステムによって、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定するステップと、コンピューティングシステムによって、検索結果インターフェースにおける表示のために、特定の物体検索結果を提供するステップとを含み得る。特定の物体検索結果は、物体を記述するデータと、1つまたは複数のバッジを記述するユーザインターフェース要素とを含み得る。
【0012】
いくつかの実装形態では、コンピューティングシステムによって、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定するステップは、コンピューティングシステムによって、検索エンジンを用いて、検索クエリを処理して、複数の検索結果を決定するステップと、コンピューティングシステムによって、複数の検索結果に関連付けられたバッジのセットを決定するステップとを含み得る。バッジのセットは、1つまたは複数のバッジを含み得る。コンピューティングシステムによって、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定するステップは、コンピューティングシステムによって、バッジのセットに基づいて、検索結果インターフェースにおいて特定の検索結果のセットを提供するステップを含み得る。
【0013】
いくつかの実装形態では、コンピューティングシステムによって、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定するステップは、コンピューティングシステムによって、検索クエリに関連付けられたバッジのセットを決定するステップを含み得る。バッジのセットは、1つまたは複数のバッジを含み得る。コンピューティングシステムによって、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定するステップは、コンピューティングシステムによって、バッジのセットのうちの特定のバッジの各々のためのそれぞれの検索結果を決定するステップと、コンピューティングシステムによって、バッジのセットに基づいて、検索結果インターフェースにおいてそれぞれの検索結果のセットを提供するステップとを含み得る。
【0014】
いくつかの実装形態では、方法は、コンピューティングシステムによって、物体を記述するデータを用いて、1つまたは複数のバッジにインデックス付けするステップを含み得る。1つまたは複数のウェブリソースを決定するステップは、コンピューティングシステムによって、物体を記述するデータを取得するステップと、コンピューティングシステムによって、検索エンジンを用いて、物体を記述するデータを処理して、物体固有の検索結果のセットを決定するステップと、コンピューティングシステムによって、物体固有の検索結果のセットから、1つまたは複数の特定の物体固有の検索結果を選択するステップとを含み得る。いくつかの実装形態では、1つまたは複数のウェブリソースは、物体のためのウェブマーケットプレイスリスティングを含み得る。
【0015】
本開示の別の例示的な態様は、命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とし、命令が、1つまたは複数のコンピューティングデバイスによって実行されたとき、1つまたは複数のコンピューティングデバイスに動作を実行させる。動作は、検索クエリを取得することを含み得る。検索クエリは、特定の物体タイプに関連付けられ得る。動作は、検索クエリを処理して、検索クエリに関連付けられた複数のバッジを決定することを含み得る。いくつかの実装形態では、複数のバッジは、特定の物体タイプの複数の異なる物体に関連付けられた複数の特定の利点を含み得る。動作は、表示するための複数のバッジのサブセットを決定することを含み得る。動作は、複数のバッジのサブセットに関連付けられた複数の検索結果を取得することを含み得る。複数の検索結果は、複数のバッジのサブセットのうちの各特定のバッジのための1つまたは複数のそれぞれの検索結果を含み得る。動作は、表示のために検索結果インターフェースを提供することを含み得る。いくつかの実装形態では、検索結果インターフェースは、複数の検索結果を含み得る。複数の検索結果の各々は、それぞれの検索結果に関連付けられた特定のバッジを用いて、注釈を付けられ得る。
【0016】
いくつかの実装形態では、複数のバッジが、複数の異なる物体の各々についての複数のレビューを処理することによって生成され得る。検索結果インターフェースは、複数の検索結果のための第1のパネルと、モデル生成応答のための第2のパネルとを含み得る。モデル生成応答は、言語モデルを用いて、検索クエリを処理して、モデル生成応答を生成することによって生成され得る。モデル生成応答は、検索クエリに応答するものであり得る。言語モデルは、テキストからテキストへの生成モデル(text-to-text generative model)を含み得る。
【0017】
いくつかの実装形態では、複数の検索結果は、ウェブリソースの特定のセットに関連付けられた複数の製品検索結果を含み得る。検索結果インターフェースは、複数の製品検索結果、複数の一般検索結果、および自然言語応答を含み得る。自然言語応答は、機械学習済み生成モデルを用いて生成され得る。複数の一般検索結果は、検索エンジンを用いて決定され得る。
【0018】
本開示の別の例示的な態様は、機械学習済みモデルによって決定されたバッジに基づいて、検索結果を提供するためのコンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができ、命令が、1つまたは複数のプロセッサによって実行されたとき、コンピューティングシステムに動作を実行させる。動作は、入力データを取得することを含み得る。入力データは、検索クエリを含み得る。検索クエリは、検索の主題に関連付けられ得る。動作は、検索クエリを処理して、複数の予備検索結果を決定することを含み得る。いくつかの実装形態では、複数の予備検索結果は、検索クエリに応答する複数のコンテンツアイテムを含み得る。動作は、機械学習済みモデルを用いて、複数のコンテンツアイテムの少なくともサブセットを処理して、検索の主題に関連付けられた複数のバッジを決定することを含み得る。複数のバッジは、主題に関連付けられると決定された複数の用語に関連付けられ得る。動作は、複数のバッジに関連付けられた複数の特定の検索結果を決定することを含み得る。いくつかの実装形態では、各特定の検索結果は、複数のバッジのうちのそれぞれのバッジに関連付けられ得る。動作は、複数のバッジとともに、表示のために、複数の特定の検索結果を提供することを含み得る。
【0019】
いくつかの実装形態では、複数の予備検索結果は、ユーザレビューを含む1つまたは複数のウェブリソースを含み得る。複数のバッジのうちの1つまたは複数は、ユーザによって提供されたレビューに基づいて決定され得る。複数の特定の検索結果のうちの各特定の検索結果は、それぞれのバッジを記述するそれぞれのユーザインターフェース要素とともに、表示のために提供され得る。いくつかの実装形態では、機械学習済みモデルは、自然言語処理モデルを含み得る。いくつかの実装形態では、動作は、言語モデルを用いて、検索クエリを処理して、モデル生成応答を生成することであって、モデル生成応答が、検索クエリに応答するものである、ことと、複数の特定の検索結果に隣接して、検索結果インターフェースにおいてモデル生成応答を提供することとを含み得る。モデル生成応答は、言語モデルを用いて、複数の予備検索結果のうちの1つまたは複数を処理することによって決定され得る。
【0020】
いくつかの実装形態では、複数のバッジは、機械学習済みモデルによって実行された感情分析に少なくとも部分的に基づいて決定され得る。複数のバッジは、1つまたは複数の用語の決定された頻度に少なくとも部分的に基づいて決定され得る。主題は、製品タイプを含み得る。複数のバッジは、製品タイプの異なる製品に関連付けられた品質に関連付けられ得る。いくつかの実装形態では、複数の特定の検索結果のうちの各特定の検索結果は、検索クエリに応答すると決定された固有の検索結果と、それぞれのバッジとを含み得る。
【0021】
本開示の別の例示的な態様は、機械学習済みモデルによって決定されたカテゴリー検索のためのコンピュータ実装方法を対象とする。方法は、1つまたは複数のプロセッサを含むコンピューティングシステムによって、入力データを取得するステップを含み得る。入力データは、検索クエリを含み得る。いくつかの実装形態では、検索クエリは、検索の主題に関連付けられ得る。方法は、コンピューティングシステムによって、検索クエリを処理して、複数の予備検索結果を決定するステップを含み得る。複数の予備検索結果は、検索クエリに応答する複数のコンテンツアイテムを含み得る。方法は、コンピューティングシステムによって、機械学習済みモデルを用いて、複数のコンテンツアイテムの少なくともサブセットを処理して、検索の主題に関連付けられた複数のバッジを決定するステップを含み得る。複数のバッジは、主題に関連付けられると決定された複数のトピックに関連付けられ得る。方法は、コンピューティングシステムによって、複数のバッジに関連付けられた複数の特定の検索結果を決定するステップを含み得る。いくつかの実装形態では、各特定の検索結果は、複数のバッジのうちのそれぞれのバッジに関連付けられ得る。方法は、コンピューティングシステムによって、検索結果インターフェースにおいて、複数のバッジとともに、表示のために、複数の特定の検索結果を提供するステップを含み得る。
【0022】
いくつかの実装形態では、検索結果インターフェースは、クエリ入力ボックスと、複数のバッジのうちのそれぞれのバッジの各々を伴う、複数の特定の検索結果と、テキストからテキストへの生成モデル出力とを含み得る。テキストからテキストへの生成モデル出力は、テキストからテキストへの生成モデルを用いて、検索クエリを処理することによって生成され得る。複数のトピックは、主題に関連付けられたウェブリソースを差別化する、1つまたは複数の記述子を記述することができる。いくつかの実装形態では、複数の予備検索結果は、検証されたデータベースに記憶されたウェブドメインに関連付けられた、信用できるウェブリソースを含み得る。
【0023】
いくつかの実装形態では、複数のバッジは、主題に関連付けられた複数の製品を決定することと、複数の製品の各々のためのそれぞれの製品説明を決定することと、複数の製品に関連付けられた複数の差別化要因を決定することと、複数の差別化要因に基づいて、複数のバッジを決定することとに基づいて決定され得る。複数の差別化要因は、主題に関連付けられる1つまたは複数の他の製品から特定の製品を差別化する、品質を記述することができる。
【0024】
本開示の別の例示的な態様は、命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とし、命令が、1つまたは複数のコンピューティングデバイスによって実行されたとき、1つまたは複数のコンピューティングデバイスに動作を実行させる。動作は、入力データを取得することを含み得る。入力データは、検索クエリを含み得る。いくつかの実装形態では、検索クエリは、製品タイプに関連付けられ得る。動作は、入力データを処理して、複数の予備検索結果を決定することを含み得る。複数の予備検索結果は、製品タイプに関連付けられた複数のコンテンツアイテムを含み得る。動作は、機械学習済みモデルを用いて、複数のコンテンツアイテムの少なくともサブセットを処理して、検索の主題に関連付けられた複数のバッジを決定することを含み得る。いくつかの実装形態では、複数のバッジは、製品タイプにおける物体の少なくともサブセットに関連付けられると決定された複数の属性に関連付けられ得る。動作は、複数のバッジに関連付けられた複数の特定の検索結果を決定することを含み得る。各特定の検索結果は、複数のバッジのうちのそれぞれのバッジに関連付けられ得る。動作は、複数のバッジとともに、表示のために、複数の特定の検索結果を提供することを含み得る。
【0025】
いくつかの実装形態では、複数の属性は、固有の使用のための製品タイプの物体の特定のセットのための有効性に関連付けられた1つまたは複数の属性を含み得る。複数の特定の検索結果の各々は、製品タイプのそれぞれの製品に関連付けられ得る。いくつかの実装形態では、動作は、複数のバッジのうちの特定のバッジに関連付けられたバッジ選択を取得することと、特定のバッジに関連付けられた複数のバッジ固有の検索結果を提供することとを含み得る。
【0026】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0027】
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照すると、より良く理解されよう。本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の例示的な実施形態を示し、この説明とともに、関連する原理について説明するために役立つ。
【0028】
当業者を対象とする実施形態の詳細な説明が本明細書に記載され、本明細書は添付の図を参照する。
【図面の簡単な説明】
【0029】
【
図1】本開示の例示的な実施形態による、例示的なバッジ生成および検索システムのブロック図である。
【
図2】本開示の例示的な実施形態による、例示的な検索システムのブロック図である。
【
図3】本開示の例示的な実施形態による、バッジ生成および検索を実行するための例示的な方法のフローチャート図である。
【
図4】本開示の例示的な実施形態による、知識パネルを伴う例示的な検索結果インターフェースの図である。
【
図5】本開示の例示的な実施形態による、モデル生成応答、バッジ付き結果、および一般結果のための隣接するパネルを伴う、例示的な検索結果インターフェースの図である。
【
図6】本開示の例示的な実施形態による、バッジ検索結果タイルを伴う例示的な検索結果インターフェースの図である。
【
図7】本開示の例示的な実施形態による、バッジ生成および検索を実行するための例示的な方法のフローチャート図である。
【
図8】本開示の例示的な実施形態による、バッジ付き検索結果検索を実行するための例示的な方法のフローチャート図である。
【
図9A】本開示の例示的な実施形態による、バッジ生成および検索を実行する例示的なコンピューティングシステムのブロック図である。
【
図9B】本開示の例示的な実施形態による、バッジ生成および検索を実行する例示的なコンピューティングシステムのブロック図である。
【
図10】本開示の例示的な実施形態による、検索によって開始されたバッジ生成を実行するための例示的な方法のフローチャート図である。
【
図11】本開示の例示的な実施形態による、例示的なバッジ生成およびインデックス付けシステムのブロック図である。
【発明を実施するための形態】
【0030】
複数の図にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別するものである。
【0031】
概して、本開示は、人工知能システムを用いてウェブデータを処理することに基づいて、物体および/または環境のためのバッジを生成することを対象とする。詳細には、本明細書で開示するシステムおよび方法は、1つまたは複数の機械学習済みモデルを活用して、主題に関連付けられたウェブ情報を処理して、主題に関連付けられた特定の使用、利点、および/または欠点を決定することができる。特定の使用、利点、および/または欠点は、特定の使用、利点、および/または欠点を記述するバッジを生成するために利用され得る。次いで、バッジは、検索結果を返す際にランク付けするために、および/または人工知能によって決定されたラベルを用いて、検索結果に注釈を付けるために利用され得る。
【0032】
たとえば、物体または環境に関連付けられたウェブデータ(たとえば、ウェブ情報(たとえば、ユーザレビュー))が取得され得る。ウェブデータが、1つまたは複数の機械学習済みモデルを用いて処理されて、特定の物体または環境に関連付けられた属性(たとえば、特定の使用、利点、および/または欠点)が決定され得る。1つまたは複数のバッジが、属性に基づいて生成され得、1つまたは複数のバッジは、特定の物体に関連付けられたデータを用いてインデックス付けされ得る(たとえば、1つまたは複数のバッジは、特定の物体または環境に関連付けられたウェブリソース情報を用いてインデックス付けされ得る)。次いで、インデックス付けされたバッジが、検索クエリの受信に応答してランク付けされ得る。インデックス付けされたバッジのランク付けは、どの検索結果が、および/またはどのようにユーザに提供されるかを決定することができる。検索クエリに関連すると決定されたバッジは、1つまたは複数のそれぞれのウェブリソース(たとえば、それぞれの検索結果)に関連付けられたデータとともに、表示のために提供され得る。
【0033】
人工知能を用いて、かつ/または人工知能に基づいて生成されたバッジは、異なる物体および/または環境の品質についての洞察をユーザに提供することができ、この洞察は、従来は、様々なリソースの、冗長で時間がかかる手動のレビューに基づいて決定され得るものである。バッジは、さらに、検索結果に応答することと、多様であることの両方である、検索結果のセットを提供するために利用され得る。バッジは、同様および/または冗長なバッジを決定するためにクラスタリングされ得る。次いで、クラスタは、多様で非冗長な結果を提供するために利用され得、かつ/またはクラスタが検索クエリに応答することに基づいて、検索結果と、特定のクラスタからのバッジとを提供するために利用され得る。
【0034】
異なる物体および環境は、異なる使用、賛否両論を有し得る。たとえば、異なる製品は、特定のロケーションおよび/または特定のユーザにとってより良いものであり得る。しかしながら、どの製品がいくつかの使用のために優れているかを見分けることは、従来の検索結果ページをレビューするとき、困難であり得る。
【0035】
本明細書で開示するシステムおよび方法は、1つまたは複数の機械学習済みモデルを用いて、製品に関連付けられたウェブレビューを含むウェブ情報を処理して、製品に関連付けられた属性を決定することができる。次いで、1つまたは複数の属性を記述する1つまたは複数のバッジが生成され、製品に関連付けられたデータ(たとえば、製品に関連付けられた1つまたは複数のウェブリソース)を用いてインデックス付けされ得る。1つまたは複数のバッジは、製品の1つまたは複数の決定された属性について、ユーザにインジケータを提供するために、製品に関連付けられたデータを提供するとき、ユーザインターフェース要素として提供され得る。
【0036】
1つまたは複数のバッジは、特定の使用、特定の利点、および/または特定の欠点に関連付けられ得る。いくつかの実装形態では、1つまたは複数のバッジは、同じ物体クラス(またはタイプ)または環境クラス(またはタイプ)における他の物体または環境と比較したとき、特定の物体または環境との間で決定された差に基づいて生成され得る。1つまたは複数のバッジは、検索結果ページ上のテキストラベルとして提供され得、その特定の属性を共有すると決定された複数の物体または環境に関連付けられた検索結果ページにリダイレクトするために選択可能であり得る。
【0037】
いくつかの実装形態では、1つまたは複数のバッジは、どこで(たとえば、使用のためのシナリオ)、なぜ(たとえば、使用のための目的)、いつ(たとえば、使用のための時間)、および/または誰が(たとえば、使用のためのユーザのタイプ)に関連付けられ得る、特定の使用に関連付けられ得る。使用バッジは、物体が使用されるとき、そのために特殊化され、かつ/またはそのために有利であり得る特定の使用を、ユーザに示すために有用であり得る。
【0038】
たとえば、異なるカヤックは、異なるロケーション(たとえば、湖(たとえば、穏やかな水域、フラットウォーターなど)、海、ホワイトウォーター、川、湾、波など)、異なる目的(たとえば、魚釣り、レクリエーション、ツーリング、スキューバダイビング、カモ猟、長旅、キャンプ、遠征など)、異なる時間(たとえば、冬、夏、秋、春、日中、夜など)、および/または異なるユーザ(たとえば、子供、初心者、より大きい人々、タンデム、犬、より背が低い人々、単独使用、より重い人々など)により良く好適であり得る。追加および/または代替として、異なる服装は、異なるロケーション(たとえば、学校、仕事、外出、パーティ、フォーマル、ビーチなど)、異なる目的(たとえば、カジュアル使用(たとえば、あらゆる機会)、休日、旅行、特別な機会、プロム、卒業、運動、デートの夜など)、異なる時間(たとえば、暑い季節、寒い季節、特定の休日、冬、夏、秋、春、日中、夜など)、および/または異なるユーザ(たとえば、結婚式のゲスト、マタニティー、異なる体形、子供、乳児、若年成人、より大きい人々、犬、より背が低い人々、より重い人々、看護師、弁護士、医師、機械工など)のために構成され得る。いくつかの実装形態では、異なるベビーカーが、異なるロケーション(たとえば、自動車のシート、全地形型、ビーチ、遊園地用、旅行、ジョギング、ハイキング、ショッピング、シティユース、飛行機など)における、異なる目的(たとえば、日々の使用、アクティブなど)のための、異なる時間(たとえば、暑い季節、寒い季節、冬、夏、秋、春、日中、夜など)のための、および/または異なるユーザ(たとえば、新生児用、双子用、背の高い親用、三つ子用、幼児、より大きい子供用、背が低い人々、祖父母など)のための使用に関連付けられ得ると決定するために、ユーザレビューが処理され得る。
【0039】
追加および/または代替として、異なるダウンヒルスキーは、異なるロケーション(たとえば、ゲレンデ(たとえば、リゾート)、バックカントリー(たとえば、ゲレンデ外)、モーグル、パーク、凍った状態、悪雪、大きい山、急勾配、森、狭い地形など)、異なる目的(たとえば、パウダー、全山、カービング、フリーライド(たとえば、ツーリング)、レーシング(たとえば、高速)、クイックターンなど)、異なる時間(たとえば、アーリーシーズン、レイトシーズン、冬、雪の後、凍結の後、夏、秋、春、日中、夜など)、および/または異なるユーザ(たとえば、初心者、カジュアルなスキーヤー、競技スキーヤー、プロ、子供、より大きい人々、より小さい人々、ぎこちないユーザ、機敏なユーザなど)のためにより有利であり得る。いくつかの実装形態では、異なる電気掃除機が、異なるロケーション(たとえば、車、レクリエーション車両、階段、堅木張りの床、タイル張りの床、マットレス、ガレージ、カーペット、暖炉、小さい場所、家具、ソファなど)における、異なる目的(たとえば、ペットの毛、灰、虫、コンピュータ、長い髪、脚立、汚れを落とすことなど)のための、異なる時間(たとえば、花粉の季節、冬、夏、秋、春、日中、夜など)のための、および/または異なるユーザ(たとえば、より背が低い人々、より背が高い人々、子供、子供がいる人々、アレルギーがある人々など)のための使用に関連付けられ得ると決定するために、ユーザレビューが処理され得る。
【0040】
本開示のシステムおよび方法は、いくつかの技術的効果および利益を提供する。一例として、システムおよび方法は、特定の使用および/または利点に関連付けられる検索結果を識別し、示すことができる、検索システムを提供することができる。たとえば、本明細書で開示するシステムおよび方法は、1つまたは複数の機械学習済みモデルを活用して、物体および/または環境に関連付けられた特定の使用および/または特定の利点を決定することができ、次いで、決定された特定の使用および/または特定の利点が、直観的なおよび/または適合された検索結果をユーザに提供するために利用され得る。
【0041】
本開示のシステムおよび方法の別の技術的利益は、人工知能生成バッジを活用して、多様なおよびラベル付きの検索結果を提供するための能力である。詳細には、バッジは、特定の物体および/または環境に関連付けられたウェブ情報(たとえば、ウェブレビュー)を処理することに基づいて、生成および記憶され得る。次いで、検索クエリが受信され得、それによって、検索システムに、様々なインデックス付けされたバッジをランク付けさせ得る。バッジおよび関連付けられた検索結果のセットは、検索クエリに応答する、ラベル付き検索結果を提供するために、検索結果インターフェースにおいてユーザに提供され得る。
【0042】
技術的効果および利益の別の例は、向上した計算効率およびコンピューティングシステムの機能の向上に関する。たとえば、本明細書で開示するシステムおよび方法は、バッジ埋込みを活用して、バッジクラスタを決定することができる。バッジクラスタは、同じまたは同様の属性、使用、利点、および/または欠点に関連付けられる、バッジのグループを記述することができる。次いで、システムおよび方法は、バッジクラスタを利用して、冗長なバッジがユーザに提供されないことを保証することができ、したがって、それによって、検索結果を生成および提供する計算コストを制限することができ、その理由は、システムおよび方法が、検索クエリとの関連付けを有すると決定された各クラスタのサブセットのみに、取出しを制限するからである。
【0043】
次に図を参照しながら、本開示の例示的な実施形態について、さらに詳細に説明する。
【0044】
図1は、本開示の例示的な実施形態による、例示的なバッジ生成および検索システム10のブロック図を示す。いくつかの実装形態では、バッジ生成および検索システム10は、特定の物体(たとえば、特定の製品)または環境に関連付けられたウェブ情報を記述するウェブデータ12を受信および/または取得することと、ウェブデータ12の受信の結果として、特定の物体または環境の決定された属性(または品質)を記述するバッジ16を生成、決定、および/または提供することとを行うように構成される。したがって、いくつかの実装形態では、人工知能生成バッジ検索システム10は、特定の物体または環境に関連付けられた特定の使用、利点、および/または欠点を決定するように動作可能である、1つまたは複数の機械学習済みモデル14を含み得る。
【0045】
詳細には、主題(たとえば、特定の物体または環境)に関連付けられたウェブデータ12が取得され得る。ウェブデータ12は、主題に関連付けられたウェブ情報を含み得る。ウェブ情報は、マーケットプレイスリスティング、説明、ユーザレビュー、よくある質問、マーケティング情報、および/またはソーシャルメディアポストを含み得る。ウェブデータは、主題に関連付けられたウェブリソース(たとえば、検索エンジンを用いて、主題を検索するときに決定された、上位検索結果)を決定することによって、取得され得る。
【0046】
ウェブデータ12が、1つまたは複数の機械学習済みモデル14を用いて処理されて、1つまたは複数のバッジ16が生成され得る。1つまたは複数の機械学習済みモデル14は、自然言語処理、シーケンス決定、感情分析、意味解析、および/または1つもしくは複数の分類のために、トレーニングおよび/または構成され得る。1つまたは複数の機械学習済みモデル14は、主題に関連付けられた属性(たとえば、特定の使用、利点、および/または欠点)を識別するようにトレーニングされ得る。1つまたは複数の機械学習済みモデル14は、生成モデル(たとえば、生成言語モデル(たとえば、自己回帰言語モデルを含み得る、大規模言語モデル))を含み得る。1つまたは複数のバッジ16は、識別された属性を記述することができる。1つまたは複数のバッジ16は、主題を記述するデータ(たとえば、1つまたは複数のウェブリソース、テキストデータ、および/または埋込みデータ)とともに記憶(および/またはインデックス付け)され得る。
【0047】
検索クエリ18(たとえば、テキストクエリ、画像クエリ、および/またはマルチモーダルクエリ)が取得され得る。検索クエリ18は、1つまたは複数の検索語を含み得る。1つまたは複数の検索語は、主題に関連付けられ得る(たとえば、主題、主題のための使用、および/または主題に関連付けられた物体タイプを記述する、用語)。
【0048】
検索クエリ18が、検索エンジン20を用いて処理されて、1つまたは複数のバッジ16が検索クエリ18に関連付けられることが決定され得る。1つまたは複数のバッジ16が検索クエリ18に関連付けられることに基づいて、主題に関連付けられた1つもしくは複数の検索結果、および/またはバッジ16が取得され、検索結果インターフェース22を介して、表示のために提供され得る。
【0049】
検索結果インターフェース22は、1つまたは複数のそれぞれのバッジを記述する、1つまたは複数のユーザインターフェース要素とともに、バッジ付き検索結果を含み得る。いくつかの実装形態では、検索結果インターフェースは、モデル生成応答、知識パネル、バッジ付き検索結果、一般検索結果、および/または検索改善提案を含み得る。いくつかの実装形態では、バッジ16は、1つまたは複数の検索結果のためのセクション見出しとして利用され得る。たとえば、(検索結果のセットに関連付けられた)製品のセットは、第1のバッジを共有し得る。次いで、製品のセットが、バッジ説明(またはタイトル)を含むパネルヘッダの下および/または中に、表示のために提供され得る。
【0050】
図2は、本開示の例示的な実施形態による、例示的な検索システム200のブロック図を示す。検索システム200が、バッジ埋込み226を生成するために、埋込みモデル224をさらに含むことを除いて、検索システム200は、
図1のバッジ生成および検索システム10と同様である。
【0051】
詳細には、主題(たとえば、特定の物体または環境)に関連付けられたウェブデータ212が取得され得る。ウェブデータ212は、主題に関連付けられたウェブ情報を含み得る。ウェブ情報は、マーケットプレイスリスティング、説明、ユーザレビュー、よくある質問、マーケティング情報、および/またはソーシャルメディアポストを含み得る。ウェブデータは、主題に関連付けられたウェブリソース(たとえば、検索エンジンを用いて、主題を検索するときに決定された、上位検索結果)を決定することによって、取得され得る。たとえば、主題を記述するクエリ230が、複数の予備検索結果を決定するために、検索エンジン220に提供され得る。複数の予備検索結果が処理されて、ウェブデータ212が取得され得る。いくつかの実装形態では、ウェブデータ212を生成するために、複数の予備検索結果に関連付けられたコンテンツのサブセットが抽出され得る。
【0052】
ウェブデータ212が、1つまたは複数の機械学習済みモデル214(たとえば、1つまたは複数の生成モデル)を用いて処理されて、1つまたは複数のバッジ216が生成され得る。1つまたは複数の機械学習済みモデル214は、1つまたは複数の自然言語処理モデル(たとえば、言語予測モデル、要約モデル、1つもしくは複数の感情分析モデル、および/または1つもしくは複数の傾向予測/分析モデル(たとえば、1つまたは複数のシーケンス予測モデル))を含み得る。1つまたは複数の機械学習済みモデル214は、自然言語処理、シーケンス決定、感情分析、意味解析、および/または1つもしくは複数の分類のために、トレーニングおよび/または構成され得る。1つまたは複数の機械学習済みモデル214は、主題に関連付けられた属性(たとえば、特定の使用、利点、および/または欠点)を識別するようにトレーニングされ得る。1つまたは複数のバッジ216は、識別された属性を記述することができる。1つまたは複数のバッジ216は、主題を記述するデータ(たとえば、1つまたは複数のウェブリソース、テキストデータ、および/または埋込みデータ)とともに記憶(および/またはインデックス付け)され得る。
【0053】
いくつかの実装形態では、1つまたは複数のバッジ216が、埋込みモデル224を用いて処理されて、1つまたは複数のバッジ埋込み226が生成され得る。1つまたは複数のバッジ埋込み226は、特定のバッジのためのトピック関係を記述することができる。バッジ埋込み226は、同様の埋込みを決定するために、および/または検索のためのバッジクラスタを生成するために利用され得る。埋込みモデル224は、同様のトピックに関連付けられたバッジ、検索結果、および/またはクエリのための、同様の埋込みを生成するようにトレーニングされ得る。
【0054】
検索クエリ218(たとえば、テキストクエリ、画像クエリ、および/またはマルチモーダルクエリ)が取得され得る。検索クエリ218は、1つまたは複数の検索語を含み得る。1つまたは複数の検索語は、主題に関連付けられ得る(たとえば、主題、主題のための使用、および/または主題に関連付けられた物体タイプを記述する、用語)。
【0055】
検索クエリ218が、検索エンジン220を用いて処理されて、1つまたは複数のバッジ216が検索クエリ218に関連付けられることが決定され得る。1つまたは複数のバッジ216が検索クエリ218に関連付けられることに基づいて、主題に関連付けられた1つもしくは複数の検索結果、および/またはバッジ216が取得され、検索結果インターフェース222を介して、表示のために提供され得る。いくつかの実装形態では、1つまたは複数の検索結果は、1つまたは複数のバッジ埋込み226に少なくとも部分的に基づいて決定され得る(たとえば、検索クエリが埋め込まれ得、生成されたクエリ埋込みのための埋込みネイバー(たとえば、バッジ埋込みおよび/または検索結果埋込み)が、1つもしくは複数の関連付けられたバッジおよび/または1つもしくは複数の関連付けられた検索結果を決定するために利用され得る)。
【0056】
検索結果インターフェース222は、1つまたは複数のそれぞれのバッジを記述する、1つまたは複数のユーザインターフェース要素とともに、バッジ付き検索結果を含み得る。いくつかの実装形態では、検索結果インターフェースは、モデル生成応答、知識パネル、バッジ付き検索結果、一般検索結果、および/または検索改善提案を含み得る。
【0057】
たとえば、検索結果インターフェース222は、生成モデル228(たとえば、応答/要約自然言語処理モデル)を用いて、検索クエリ218および/または1つもしくは複数の予備検索結果を処理することによって生成され得る、モデル生成応答を含み得る。生成モデル228は、テキストからテキストへの生成モデル、画像からテキストへの生成モデル(image-to-text generative model)、画像生成モデル、および/または1つもしくは複数の他のモデルを含み得る。
【0058】
図3は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示す。
図3は、例示および説明の目的で、特定の順序で実行されるステップを示すが、本開示の方法は、具体的に示された順序または配置に限定されない。方法300の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略されること、並べ替えられること、組み合わせられること、および/または適合されることが可能である。
【0059】
302において、コンピューティングシステムは、特定の製品に関連付けられたウェブデータを取得することができる。ウェブデータは、特定の製品に関連付けられたウェブ情報を含み得る。ウェブデータは、特定の製品のユーザレビューを含み得る。いくつかの実装形態では、ウェブ情報は、製品説明と、よくある質問への回答とを含み得る。
【0060】
304において、コンピューティングシステムは、1つまたは複数の機械学習済みモデルを用いて、ウェブデータを処理して、特定の製品に関連付けられた1つまたは複数の特定の使用を決定することができる。1つまたは複数の特定の使用は、ウェブ情報に基づいて決定され得る。いくつかの実装形態では、1つまたは複数の特定の使用は、ウェブ情報、感情分析、および意味理解における用語の頻度に基づいて決定され得る。1つまたは複数の特定の使用は、特定の製品を使用するためのシナリオ、特定の製品を使用するための目的、特定の製品を使用するための時間、または製品を使用するユーザのタイプのうちの少なくとも1つに関連付けられ得る。いくつかの実装形態では、1つまたは複数の機械学習済みモデルは、自然言語処理モデルを含み得る。1つまたは複数の特定の使用は、感情分析に少なくとも部分的に基づいて決定され得る。
【0061】
306において、コンピューティングシステムは、1つまたは複数の特定の使用に基づいて、1つまたは複数のバッジを生成することができる。バッジは、1つまたは複数の特定の使用を記述することができる。1つまたは複数の特定の使用は、どこで(たとえば、シナリオ)、なぜ(たとえば、目的)、いつ(たとえば、時間)、および/または誰が(たとえば、顧客のタイプ)に関連付けられ得る。特定の使用は、製品のためのバッジとして利用され得る。いくつかの実装形態では、バッジが、埋込みモデルを用いて処理されて、埋込み空間内の1つまたは複数のバッジ埋込みが生成され得る。バッジ埋込みは、バッジクラスタ(たとえば、同様および/または等しい使用を対象とするバッジのグループ)を決定するために利用され得る。バッジクラスタは、検索中に利用され得る。たとえば、検索システムは、冗長性を制限するために、特定のクラスタにおけるバッジのうちの1つまたは小さいサブセットのみを浮上させ得る。代替および/または追加として、検索システムは、クラスタに基づいてランク付けし得、かつ/またはクラスタファミリーメンバーが高位にランク付けされることに基づいて、バッジを提供し得る。いくつかの実装形態では、バッジ埋込みは、バッジおよびそれぞれの検索結果が検索結果インターフェースにおいていつ浮上され得るかを決定するために利用され得る。
【0062】
308において、コンピューティングシステムは、1つまたは複数のバッジを記憶することができる。1つまたは複数のバッジは、特定の製品との関連付けを記述するデータとともに記憶され得る。いくつかの実装形態では、1つまたは複数のバッジは、バッジデータベース内に記憶され得、バッジの主題に関連付けられた1つまたは複数のウェブリソースへの1つまたは複数のリンクとともに記憶され得る。
【0063】
310において、コンピューティングシステムは、検索クエリを取得することができる。検索クエリは、製品タイプに関連付けられ得る。いくつかの実装形態では、特定の製品は、製品タイプのものであり得る。検索クエリは、テキストクエリ、画像クエリ、マルチモーダルクエリ、および/または別のタイプのクエリを含み得る。1つまたは複数のバッジは、第1の時間において生成され得、検索クエリは、第2の時間において取得され得る。第2の時間は、第1の時間の後であり得る。
【0064】
312において、コンピューティングシステムは、検索クエリおよび1つまたは複数のバッジに基づいて、検索結果インターフェースを提供することができる。検索クエリおよび1つまたは複数のバッジに基づいて、検索結果インターフェースを提供することは、1つまたは複数のバッジが検索クエリに関連付けられると決定することと、特定の製品に関連付けられた製品データを取得することとを含み得る。製品データは、特定の製品に関連付けられた1つまたは複数のウェブリソースへの1つまたは複数のリンクを含み得る。検索結果インターフェースは、製品検索結果を含み得る。製品検索結果は、製品を記述するデータと、1つまたは複数のバッジとを含み得る。
【0065】
いくつかの実装形態では、コンピューティングシステムは、埋込みモデルを用いて、1つまたは複数のバッジを処理して、埋込み空間内の1つまたは複数のそれぞれのバッジ埋込みを生成することと、1つまたは複数のバッジ埋込みに基づいて、検索結果インターフェースにおいて表示するための複数の検索結果を決定することとを行うことができる。複数の検索結果を決定することは、埋込みモデルを用いて、検索クエリを処理して、クエリ埋込みを生成することと、クエリ埋込みがバッジ埋込みに関連付けられると決定することと、検索結果インターフェースにおいて、特定の製品を記述する製品検索結果を提供することとを含み得る。
【0066】
いくつかの実装形態では、コンピューティングシステムは、埋込みモデルを用いて、複数の他の製品に関連付けられた複数の他のバッジを処理して、複数の他のバッジ埋込みを生成することと、1つまたは複数のバッジ埋込みおよび複数の他のバッジ埋込みに基づいて、1つまたは複数のバッジクラスタを決定することと、1つまたは複数のバッジクラスタに基づいて、検索結果インターフェースの1つまたは複数の検索結果を決定することとを行うことができる。
【0067】
図4は、本開示の例示的な実施形態による、知識パネルを伴う例示的な検索結果インターフェース400の図を示す。詳細には、検索結果インターフェース400は、検索クエリ入力ボックス402、それぞれのバッジ406を伴う複数の検索結果404、および/または知識パネル408を含み得る。
【0068】
検索クエリ入力ボックス402は、ユーザからクエリ入力を受信するように構成され得る。検索クエリ入力ボックス402は、自由形式テキスト入力、選択入力、データファイル入力、および/または1つもしくは複数の他の入力(たとえば、マルチモーダル入力)を受信することができる。
【0069】
複数の検索結果404は、検索クエリ入力ボックス402に入力されたクエリを処理することによって決定され得る。複数の検索結果404は、キーワード検索、埋込み検索、バッジランク付けおよび検索、バッジクラスタランク付け、ならびに/または特徴検索に基づいて決定され得る。複数の検索結果404は、特定の検索結果のための1つまたは複数のそれぞれのバッジを記述する、1つまたは複数のバッジインジケータ406とともに、表示のために提供され得る。いくつかの実装形態では、複数の検索結果404のうちの各検索結果は、検索結果タイトル、検索結果説明、バッジインジケータ406、および/または1つもしくは複数のメディアコンテンツアイテム(たとえば、画像サムネイル)を含み得る。
【0070】
知識パネル408は、生成モデル(たとえば、生成言語モデル(たとえば、大規模言語モデル))を用いて、検索クエリおよび/または1つもしくは複数のデータセットを処理することによって生成され得る、モデル生成応答を含み得る。いくつかの実装形態では、知識パネル408は、1つもしくは複数のメディアコンテンツアイテム(たとえば、1つまたは複数の画像)、トピック要約、および/または知識データベースから取得された他のデータを含み得る。知識パネル408において提供されたデータは、検索クエリに応答するものであると決定されたトピックに関連付けられ得る。
【0071】
複数の検索結果404は、知識パネル408に隣接し得、かつ/または別個のパネル内にあり得る。
【0072】
図5は、本開示の例示的な実施形態による、モデル生成応答、バッジ付き結果、および一般結果のための隣接するパネルを伴う、例示的な検索結果インターフェース500の図を示す。詳細には、検索結果インターフェース500は、検索クエリ入力ボックス502、複数のバッジ付き検索結果504、複数の一般検索結果512、および/またはモデル生成応答508を含み得る。モデル生成応答508、複数のバッジ付き検索結果504、および/または複数の一般検索結果512は、互いに隣接し得、かつ/または別個のパネル内にあり得る。
【0073】
検索クエリ入力ボックス502は、ユーザからクエリ入力を受信するように構成され得る。検索クエリ入力ボックス502は、自由形式テキスト入力、選択入力、データファイル入力、および/または1つもしくは複数の他の入力(たとえば、マルチモーダル入力)を受信することができる。
【0074】
複数のバッジ付き検索結果504は、検索クエリ入力ボックス502に入力されたクエリを処理することによって決定され得る。複数のバッジ付き検索結果504は、キーワード検索、埋込み検索、バッジランク付けおよび検索、バッジクラスタランク付け、ならびに/または特徴検索に基づいて決定され得る。複数のバッジ付き検索結果504は、特定の検索結果のための1つまたは複数のそれぞれのバッジを記述する、1つまたは複数のバッジインジケータ506とともに、表示のために提供され得る。いくつかの実装形態では、複数の検索結果504のうちの各検索結果は、検索結果タイトル、検索結果説明、バッジインジケータ506、および/または1つもしくは複数のメディアコンテンツアイテム510(たとえば、画像サムネイル)を含み得る。
【0075】
モデル生成応答508は、生成モデルを用いて、検索クエリおよび/または1つもしくは複数のデータセットを処理することによって生成され得る。いくつかの実装形態では、モデル生成応答508は、1つもしくは複数のメディアコンテンツアイテム(たとえば、1つまたは複数の画像)、トピック要約、および/または他の応答データを含み得る。
【0076】
複数の一般検索結果512は、インデックス付けされたバッジを含まないことがある、一般検索結果を含み得る。複数の一般検索結果512は、テキスト検索、特徴検索、および/または埋込み検索に基づいて決定され得る。
【0077】
複数のバッジ付き検索結果504は、インデックス付けされたバッジを伴う製品検索結果であり得る。複数のバッジ付き検索結果504の各々は、1つまたは複数のアクション(たとえば、購入アクション、予約アクション、および/または1つもしくは複数の他のアクション)に関連付けられ得る。
【0078】
図6は、本開示の例示的な実施形態による、バッジ検索結果タイルを伴う例示的な検索結果インターフェース600の図を示す。詳細には、
図6の検索結果インターフェース600は、
図5の検索結果インターフェース500と同様のディスプレイデータタイプを含み得るが、
図6の検索結果インターフェース600は、複数のバッジ付き検索結果604および複数の一般検索結果612のための異なる検索結果フォーマットを含み得る。
【0079】
たとえば、検索結果インターフェース600は、検索クエリ入力ボックス602、タイルフォーマットにおける複数のバッジ付き検索結果604、複数の一般検索結果612、および/またはモデル生成応答608を含み得る。モデル生成応答608、複数のバッジ付き検索結果604、および/または複数の一般検索結果612は、互いに隣接し得、かつ/または別個のパネル内にあり得る。
【0080】
検索クエリ入力ボックス602は、ユーザからクエリ入力を受信するように構成され得る。検索クエリ入力ボックス602は、自由形式テキスト入力、選択入力、データファイル入力、および/または1つもしくは複数の他の入力(たとえば、マルチモーダル入力)を受信することができる。
【0081】
複数のバッジ付き検索結果604は、検索クエリ入力ボックス602に入力されたクエリを処理することによって決定され得る。複数のバッジ付き検索結果604は、水平ラインにおけるタイルとして提供され得、カルーセルインターフェースにおいて提供され得る。複数のバッジ付き検索結果604は、キーワード検索、埋込み検索、バッジランク付けおよび検索、バッジクラスタランク付け、ならびに/または特徴検索に基づいて決定され得る。複数のバッジ付き検索結果604は、特定の検索結果のための1つまたは複数のそれぞれのバッジを記述する、1つまたは複数のバッジインジケータ606とともに、表示のために提供され得る。いくつかの実装形態では、複数の検索結果604のうちの各検索結果は、検索結果タイトル、バッジインジケータ606、および/または1つもしくは複数のメディアコンテンツアイテム610(たとえば、画像サムネイルおよび/またはビデオサムネイル)を含み得る。
【0082】
モデル生成応答608は、生成モデルを用いて、検索クエリおよび/または1つもしくは複数のデータセットを処理することによって生成され得る。いくつかの実装形態では、モデル生成応答608は、1つもしくは複数のメディアコンテンツアイテム(たとえば、1つまたは複数の画像)、トピック要約、および/または他の応答データを含み得る。
【0083】
複数の一般検索結果612は、インデックス付けされたバッジを含まないことがある、一般検索結果を含み得る。複数の一般検索結果612は、テキスト検索、特徴検索、および/または埋込み検索に基づいて決定され得る。
【0084】
複数のバッジ付き検索結果604は、インデックス付けされたバッジを伴う製品検索結果であり得る。複数のバッジ付き検索結果604の各々は、1つまたは複数のアクション(たとえば、購入アクション、予約アクション、および/または1つもしくは複数の他のアクション)に関連付けられ得る。
【0085】
図7は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示す。
図7は、例示および説明の目的で、特定の順序で実行されるステップを示すが、本開示の方法は、具体的に示された順序または配置に限定されない。方法700の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略されること、並べ替えられること、組み合わせられること、および/または適合されることが可能である。
【0086】
702において、コンピューティングシステムは、物体に関連付けられた1つまたは複数のウェブリソースを決定することができる。1つまたは複数のウェブリソースは、物体のためのウェブマーケットプレイスリスティングを含み得る。1つまたは複数のウェブリソースは、1つまたは複数の製品および/または場所についてのユーザレビューを記憶および/または提供する、レビューデータベースを含み得る。いくつかの実装形態では、1つまたは複数のウェブリソースは、製品ファクトシート、マーケットプレイスリスティング、レビュープラットフォーム、ソーシャルメディアプラットフォーム、百科事典リソース、および/または別のアクセス可能なウェブリソースを含み得る。
【0087】
いくつかの実装形態では、1つまたは複数のウェブリソースを決定することは、物体を記述するデータを取得することと、検索エンジンを用いて、物体を記述するデータを処理して、物体固有の検索結果のセットを決定することと、物体固有の検索結果のセットから、1つまたは複数の特定の物体固有の検索結果を選択することとを含み得る。
【0088】
704において、コンピューティングシステムは、1つまたは複数の機械学習済みモデルを用いて、1つまたは複数のウェブリソースの1つまたは複数のコンテンツアイテムを処理して、物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの少なくとも1つを決定することができる。1つもしくは複数の利点および/または1つもしくは複数の欠点は、物体に関連付けられたユーザレビューを処理すること、パースすること、および/または解釈することによって決定され得る。処理すること、およびパースすることは、自然言語処理、感情分析、および/または意味解析を含み得る。決定は、複数のレビューの間の傾向の補間を含み得る。
【0089】
706において、コンピューティングシステムは、物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの少なくとも1つに基づいて、1つまたは複数のバッジを生成することができる。1つまたは複数のバッジは、生成されたテキストラベルを含み得る。バッジは、同様の利点が同様のバッジ埋込みを有するように埋め込まれ得、同様のバッジおよび/または同様の検索結果を決定するために後で使用されるようにクラスタリングされ得る。
【0090】
いくつかの実装形態では、コンピューティングシステムは、物体を記述するデータを用いて、1つまたは複数のバッジにインデックス付けすることができる。
【0091】
708において、コンピューティングシステムは、ユーザコンピューティングシステムから、検索クエリを取得することができる。検索クエリは、1つまたは複数のウェブリソースに関連付けられないことがあるユーザコンピューティングシステムから、取得され得る。検索クエリは、物体タイプに関連付けられた1つもしくは複数の検索語、および/または物体に関連付けられ得るトピックを含み得る。
【0092】
710において、コンピューティングシステムは、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定することができる。たとえば、バッジは、受信された検索クエリに基づいてランク付けされ得、次いで、どの検索結果が提供されることになるかを決定するために利用され得る。代替および/または追加として、複数の検索結果が検索クエリに基づいて決定され得、検索結果に基づいて、バッジおよびそれらのそれぞれの検索結果が決定および提供され得る。
【0093】
いくつかの実装形態では、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定することは、検索エンジンを用いて、検索クエリを処理して、複数の検索結果を決定することと、複数の検索結果に関連付けられたバッジのセットを決定することと、バッジのセットに基づいて、検索結果インターフェースにおいて特定の検索結果のセットを提供することとを含み得る。バッジのセットは、1つまたは複数のバッジを含み得る。
【0094】
代替および/または追加として、物体あるいは1つまたは複数のバッジのうちの少なくとも1つが検索クエリに関連付けられると決定することは、検索クエリに関連付けられたバッジのセットを決定することと、バッジのセットのうちの特定のバッジの各々のためのそれぞれの検索結果を決定することと、バッジのセットに基づいて、検索結果インターフェースにおいてそれぞれの検索結果のセットを提供することとを含み得る。バッジのセットは、1つまたは複数のバッジを含み得る。
【0095】
712において、コンピューティングシステムは、検索結果インターフェースにおける表示のために、特定の物体検索結果を提供することができる。特定の物体検索結果は、物体を記述するデータと、1つまたは複数のバッジを記述するユーザインターフェース要素とを含み得る。
【0096】
図8は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示す。
図8は、例示および説明の目的で、特定の順序で実行されるステップを示すが、本開示の方法は、具体的に示された順序または配置に限定されない。方法800の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略されること、並べ替えられること、組み合わせられること、および/または適合されることが可能である。
【0097】
802において、コンピューティングシステムは、検索クエリを取得することができる。検索クエリは、特定の物体タイプに関連付けられ得る。検索クエリは、テキストデータ、画像データ、潜在性符号化データ、オーディオデータ、および/またはマルチモーダルデータを含み得る。検索クエリは、1つまたは複数のユーザ対話に基づいて、手動で生成および/または自動的に生成され得る。検索クエリは、ユーザに提案するための検索結果を決定するために、自動的に生成され得る。代替および/または追加として、検索クエリは、ユーザが生成モデルにプロンプトを提供することに基づいて生成され得る、モデル生成クエリを含み得る。
【0098】
804において、コンピューティングシステムは、検索クエリを処理して、検索クエリに関連付けられた複数のバッジを決定することができる。複数のバッジは、特定の物体タイプの複数の異なる物体に関連付けられた複数の特定の利点を含み得る。いくつかの実装形態では、複数のバッジが、複数の異なる物体の各々についての複数のレビューを処理することによって生成され得る。
【0099】
806において、コンピューティングシステムは、表示するための複数のバッジのサブセットを決定することができる。決定は、バッジランク付けに基づき得、バッジランク付けは、テキストベースのランク付け、埋込みベースのランク付け、ノードベースのランク付け、および/または機械学習済みモデルベースのランク付けを含み得る。いくつかの実装形態では、複数のバッジクラスタがランク付けされ得、次いで、最も関連するバッジクラスタに関連付けられたバッジがランク付けされ得る。サブセットは、バッジおよび検索結果の多様で非冗長な表示を可能にするために、バッジクラスタからの限られた数のバッジ(たとえば、1つまたは2つ)を含み得る。
【0100】
808において、コンピューティングシステムは、複数のバッジのサブセットに関連付けられた複数の検索結果を取得することができる。複数の検索結果は、複数のバッジのサブセットのうちの各特定のバッジのための1つまたは複数のそれぞれの検索結果を含み得る。
【0101】
810において、コンピューティングシステムは、表示のために検索結果インターフェースを提供することができる。検索結果インターフェースは、複数の検索結果を含み得る。複数の検索結果の各々は、それぞれの検索結果に関連付けられた特定のバッジを用いて、注釈を付けられ得る。いくつかの実装形態では、検索結果インターフェースは、複数の検索結果のための第1のパネルと、モデル生成応答のための第2のパネルとを含み得る。モデル生成応答は、言語モデルを用いて、検索クエリを処理して、モデル生成応答を生成することによって生成され得る。モデル生成応答は、検索クエリに応答するものであり得る。言語モデルは、テキストからテキストへの生成モデルを含み得る。代替および/または追加として、モデル生成応答は、検索クエリに関連付けられた1つまたは複数の検索結果(たとえば、1つまたは複数のウェブリソースのコンテンツ)を処理して、要約応答を生成することによって、生成され得る。いくつかの実装形態では、自然言語応答は、さらなる入力なしに、言語モデルを用いたモデル推論に基づいて決定され得る。バッジ付き検索結果は、製品に関連付けられ得る。追加および/または代替として、バッジ付き検索結果は、特定のアクション(たとえば、購入アクション)に関連付けられ得る。バッジの各々は、特定の製品に関連付けられた特定の使用に関連付けられ得る。
【0102】
いくつかの実装形態では、複数の検索結果は、ウェブリソースの特定のセットに関連付けられた複数の製品検索結果を含み得る。検索結果インターフェースは、複数の製品検索結果、複数の一般検索結果、および自然言語応答を含み得る。自然言語応答は、機械学習済み生成モデルを用いて生成され得る。いくつかの実装形態では、複数の一般検索結果は、検索エンジンを用いて決定され得る。
【0103】
図9Aは、本開示の例示的な実施形態による、バッジ生成および検索を実行する例示的なコンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングシステム102、サーバコンピューティングシステム130、および/またはサードパーティコンピューティングシステム150を含む。
【0104】
ユーザコンピューティングシステム102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲーミングコンソールもしくはコントローラ、ウェアラブルコンピューティングデバイス、埋込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、任意のタイプのコンピューティングデバイスを含み得る。
【0105】
ユーザコンピューティングシステム102は、1つまたは複数のプロセッサ112と、メモリ114とを含む。1つまたは複数のプロセッサ112は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングシステム102に動作を実行させるようにプロセッサ112によって実行される命令118とを記憶することができる。
【0106】
いくつかの実装形態では、ユーザコンピューティングシステム102は、1つまたは複数の機械学習済みモデル120を記憶するか、または含むことができる。たとえば、機械学習済みモデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習済みモデルなど、様々な機械学習済みモデルであってよく、またはそうでなければ、それらの機械学習済みモデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(たとえば、長短期メモリリカレントニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形態のニューラルネットワークを含むことができる。
【0107】
いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使用され、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングシステム102は、(たとえば、入力データおよび/または検出された特徴の複数のインスタンスにわたって並列機械学習済みモデル処理を実行するために)単一の機械学習済みモデル120の複数の並列インスタンスを実装することができる。
【0108】
より詳細には、1つまたは複数の機械学習済みモデル120は、1つもしくは複数の検出モデル、1つもしくは複数の分類モデル、1つもしくは複数のセグメンテーションモデル、1つもしくは複数の拡張モデル、1つもしくは複数の生成モデル、1つもしくは複数の自然言語処理モデル、1つもしくは複数の光学文字認識モデル、および/または1つもしくは複数の他の機械学習済みモデルを含み得る。1つまたは複数の機械学習済みモデル120は、1つまたは複数のトランスフォーマモデルを含み得る。1つまたは複数の機械学習済みモデル120は、1つもしくは複数のニューラル放射輝度場(neural radiance field)モデル、1つもしくは複数の拡散モデル、および/または1つもしくは複数の自己回帰言語モデルを含み得る。
【0109】
1つまたは複数の機械学習済みモデル120は、1つまたは複数の物体特徴を検出するために利用され得る。検出された物体特徴は、分類され、かつ/または埋め込まれ得る。次いで、分類および/または埋込みが、1つまたは複数の検索結果を決定するために、検索を実行するために利用され得る。代替および/または追加として、1つまたは複数の検出された特徴は、特徴が検出されたことを示すために、インジケータ(たとえば、検出された特徴を示すユーザインターフェース要素)が提供されることになると決定するために、利用され得る。次いで、ユーザは、特徴分類、埋込み、および/または検索が実行されることを引き起こすために、インジケータを選択し得る。いくつかの実装形態では、分類、埋込み、および/または検索は、インジケータが選択される前に実行され得る。
【0110】
いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、画像データ、テキストデータ、オーディオデータ、および/または潜在性符号化データを処理して、画像データ、テキストデータ、オーディオデータ、および/または潜在性符号化データを含み得る、出力データを生成することができる。1つまたは複数の機械学習済みモデル120は、光学文字認識、自然言語処理、画像分類、オブジェクト分類、テキスト分類、オーディオ分類、コンテキスト決定、アクション予測、画像修正、画像拡張、テキスト拡張、感情分析、オブジェクト検出、誤り検出、インペインティング、ビデオ安定化、オーディオ修正、オーディオ拡張、および/またはデータセグメンテーション(たとえば、マスクベースのセグメンテーション)を実行し得る。
【0111】
機械学習済みモデルは、1つまたは複数の機械学習済みモデルまたはモデル構成要素であるか、またはそれを含み得る。例示的な機械学習済みモデルは、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)を含み得る。例示的な機械学習済みモデルは、非線形モデルまたは線形モデルを含み得る。例示的な機械学習済みモデルは、ニューラルネットワークの代わりに、またはそれに加えて、他のアーキテクチャを使用することができる。例示的な機械学習済みモデルは、決定ツリーベースのモデル、サポートベクターマシン、隠れマルコフモデル、ベイジアンネットワーク、線形回帰モデル、k平均クラスタリングモデルなどを含み得る。
【0112】
例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、長短期メモリ(LSTM)ベースのリカレントニューラルネットワークを含むリカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、拡散モデル、敵対的生成ネットワーク、または他の形態のニューラルネットワークを含み得る。例示的なニューラルネットワークは、ディープニューラルネットワークであり得る。いくつかの例示的な機械学習済みモデルは、セルフアテンションなどのアテンション機構を活用することができる。たとえば、いくつかの例示的な機械学習済みモデルは、マルチヘッドセルフアテンションモデルを含み得る。
【0113】
機械学習済みモデルは、入力からのデータにおいて動作するように構成された同じモデルの単一または複数のインスタンスを含み得る。機械学習済みモデルは、入力からのデータを処理するために協働的に対話することができる、異なるモデルのアンサンブルを含み得る。たとえば、機械学習済みモデルは、混合エキスパート構造を採用することができる。たとえば、Zhou他、Mixture-of-Experts with Expert Choice Routing、arXiv:2202.09368v2(2022年10月14日)を参照されたい。
【0114】
入力は、一般に、様々なタイプのデータを含むか、またはさもなければ表すことができる。入力は、1つのタイプまたは多くの異なるタイプのデータを含み得る。出力は、入力と比較して、同じタイプのデータ、または異なるタイプのデータであり得る。出力は、1つのタイプまたは多くの異なるタイプのデータを含み得る。
【0115】
入力または出力のための例示的なデータタイプには、自然言語テキストデータ、ソフトウェアコードデータ(たとえば、ソースコード、オブジェクトコード、機械コード、または任意の他の形態のコンピュータ可読命令もしくはプログラミング言語)、機械コードデータ(たとえば、バイナリコード、アセンブリコード、またはコンピュータの中央処理ユニットによって直接実行され得る他の形態の機械可読命令)、アセンブリコードデータ(たとえば、処理ユニットをプログラムするために、機械コード命令の記号表現を使用する、低水準プログラミング言語)、遺伝的データまたは他の化学的もしくは生化学的データ、画像データ、オーディオデータ、オーディオビジュアルデータ、触覚データ、生体データ、医療データ、金融データ、統計データ、地理データ、天文学データ、履歴データ、一般にセンサーデータ(たとえば、オーディオセンサー、光センサー、変位センサーなどからなどの、実際のまたは人工的な入力からの、電圧または他の絶対もしくは相対レベル測定値などの、デジタルまたはアナログ値)などが含まれる。データは、生であるか、または処理され得、任意のフォーマットまたはスキーマにおけるものであり得る。
【0116】
マルチモーダル入力または出力では、データタイプの例示的な組合せには、画像データおよびオーディオデータ、画像データおよび自然言語データ、自然言語データおよびソフトウェアコードデータ、画像データおよび生体データ、センサーデータおよび医療データなどが含まれる。入力または出力におけるデータタイプの任意の組合せが存在し得ることを理解されたい。
【0117】
例示的な入力は、上述の例示的なデータタイプなど、1つまたは複数のデータタイプを含み得る。例示的な出力は、上述の例示的なデータタイプなど、1つまたは複数のデータタイプを含み得る。入力のデータタイプは、出力のデータタイプと同じであるか、または異なり得る。上述の例示的なデータタイプは、説明の目的で提供されるにすぎないことを理解されたい。本開示の範囲内で企図されるデータタイプは、上述のそれらの例に限定されない。
【0118】
いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、ウェブ情報(たとえば、ユーザレビュー、説明、および/または他のコンテンツ)を処理して、特定の物体または環境に関連付けられた、1つもしくは複数の使用、1つもしくは複数の利点、および/または1つもしくは複数の欠点を決定することができる。次いで、決定された1つもしくは複数の使用、1つもしくは複数の利点、および/または1つもしくは複数の欠点が、それぞれの物体または環境のための1つまたは複数のバッジを生成するために利用され得る。
【0119】
いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、1つまたは複数の埋込みモデルを含み得る。1つまたは複数の埋込みモデルは、1つまたは複数のバッジを処理して、埋込み空間内の1つまたは複数のバッジ埋込みを生成することができる。1つまたは複数のバッジ埋込みは、埋込みベースの検索のために、および/またはバッジ関係(たとえば、同様の埋込み)を決定するために利用され得る。たとえば、バッジクラスタは、バッジ埋込みに基づいて決定され得る。バッジクラスタは、同様のトピックに関連付けられたバッジを記述することができる。
【0120】
埋込みモデルは、質問および回答トレーニング例セットにおいてトレーニングされ得る。たとえば、埋込みモデルは、質問例を処理して、質問埋込みを生成するようにトレーニングされ得る。質問埋込みは、同様の回答を伴う質問に関連付けられた1つまたは複数の他の埋込みに対して比較され得る。埋込みモデルの1つまたは複数のパラメータは、埋込み間の差を評価する損失関数の勾配降下出力に基づいて調整され得る。埋込みモデルは、同様の回答を伴う質問のための同様の埋込みと、異なる回答を伴う質問のための異なる埋込みとを出力するようにトレーニングされ得る。いくつかの実装形態では、埋込みモデルは、他のトレーニングデータセットにおいてトレーニングされ得る。
【0121】
いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、検索クエリおよび/または1つもしくは複数のコンテンツアイテムを処理して、モデル生成応答を生成するようにトレーニングされ得る、生成モデルを含み得る。モデル生成応答は、予測された自然言語応答および/または要約応答を含み得る。生成モデルは、テキスト生成モデル(たとえば、テキストからテキストへの自己回帰言語モデル(text-to-text autoregressive language model))、画像生成モデル(たとえば、テキストから画像への拡散モデル(text-to-image diffusion model))、および/または1つもしくは複数の他の生成モデルを含み得る。
【0122】
追加または代替として、1つまたは複数の機械学習済みモデル140は、クライアントサーバ関係に従ってユーザコンピューティングシステム102と通信するサーバコンピューティングシステム130中に含まれるか、またはそうでなければ、サーバコンピューティングシステム130によって記憶および実装され得る。たとえば、機械学習済みモデル140は、ウェブサービス(たとえば、ビューファインダーサービス、視覚検索サービス、画像処理サービス、アンビエントコンピューティングサービス、および/またはオーバーレイアプリケーションサービス)の一部分として、サーバコンピューティングシステム130によって実装され得る。したがって、1つもしくは複数のモデル120が、ユーザコンピューティングシステム102において記憶および実装されることが可能であり、かつ/または1つもしくは複数のモデル140が、サーバコンピューティングシステム130において記憶および実装されることが可能である。
【0123】
ユーザコンピューティングシステム102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122も含み得る。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチセンシティブ構成要素(たとえば、タッチセンシティブディスプレイスクリーンまたはタッチパッド)であってもよい。タッチセンシティブ構成要素は、仮想キーボードを実装するのに役立つことができる。他の例示的なユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を提供することができる他の手段を含む。
【0124】
いくつかの実装形態では、ユーザコンピューティングシステムは、1つまたは複数のアプリケーションに関連付けられ得る、1つまたは複数のユーザインターフェース124を記憶および/または提供することができる。1つまたは複数のユーザインターフェース124は、入力を受信し、かつ/または表示のためのデータ(たとえば、画像データ、テキストデータ、オーディオデータ、1つもしくは複数のユーザインターフェース要素、拡張現実エクスペリエンス、仮想現実エクスペリエンス、および/または表示のための他のデータ)を提供するように構成され得る。ユーザインターフェース124は、1つまたは複数の他のコンピューティングシステム(たとえば、サーバコンピューティングシステム130および/またはサードパーティコンピューティングシステム150)に関連付けられ得る。ユーザインターフェース124は、ビューファインダーインターフェース、検索インターフェース、生成モデルインターフェース、ソーシャルメディアインターフェース、および/またはメディアコンテンツギャラリーインターフェースを含み得る。
【0125】
ユーザコンピューティングシステム102は、1つまたは複数のセンサー126からのデータを含み、かつ/または受信し得る。1つまたは複数のセンサー126は、1つまたは複数のソフトウェアパケットを記憶し、かつ/または実行することを引き起こし得る、1つもしくは複数のプロセッサ112、メモリ114、および/または1つもしくは複数のハードウェア構成要素を収容する、ハウジング構成要素中に収容され得る。1つまたは複数のセンサー126は、1つもしくは複数の画像センサー(たとえば、カメラ)、1つもしくは複数のライダーセンサー、1つもしくは複数のオーディオセンサー(たとえば、マイクロフォン)、1つもしくは複数の慣性センサー(たとえば、慣性測定ユニット)、1つもしくは複数の生物学的センサー(たとえば、心拍数センサー、脈拍センサー、網膜センサー、および/または指紋センサー)、1つもしくは複数の赤外線センサー、1つもしくは複数のロケーションセンサー(たとえば、GPS)、1つもしくは複数のタッチセンサー(たとえば、導電性タッチセンサーおよび/または機械式タッチセンサー)、および/または1つもしくは複数の他のセンサーを含み得る。1つまたは複数のセンサーは、ユーザの環境に関連付けられたデータ(たとえば、ユーザの環境の画像、環境の記録、および/またはユーザのロケーション)を取得するために利用され得る。
【0126】
ユーザコンピューティングシステム102は、ユーザコンピューティングデバイス104を含み、かつ/またはその一部であり得る。ユーザコンピューティングデバイス104は、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、デスクトップコンピュータ、ラップトップコンピュータ、スマートウェアラブル、および/またはスマートアプライアンスを含み得る。追加および/または代替として、ユーザコンピューティングシステムは、1つもしくは複数のユーザコンピューティングデバイス104からデータを取得し、かつ/または1つもしくは複数のユーザコンピューティングデバイス104を用いて、データを生成し得る。たとえば、スマートフォンのカメラは、環境を記述する画像データをキャプチャするために利用され得、かつ/またはユーザコンピューティングデバイス104のオーバーレイアプリケーションは、ユーザに提供されているデータを追跡および/もしくは処理するために利用され得る。同様に、スマートウェアラブルに関連付けられた1つまたは複数のセンサーは、ユーザについての、および/またはユーザの環境についてのデータを取得するために利用され得る(たとえば、画像データは、ユーザのスマートグラス中に収容されたカメラを用いて取得され得る)。追加および/または代替として、データは、データ取得または生成専用であり得る他のユーザデバイスから取得およびアップロードされ得る。
【0127】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132と、メモリ134とを含む。1つまたは複数のプロセッサ132は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実行させるようにプロセッサ132によって実行される命令138とを記憶することができる。
【0128】
いくつかの実装形態では、サーバコンピューティングシステム130は、1つもしくは複数のサーバコンピューティングデバイスを含むか、またはさもなければ1つもしくは複数のサーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
【0129】
上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習済みモデル140を記憶するか、またはそうでなければ含むことができる。たとえば、モデル140は、様々な機械学習済みモデルであってよく、または、そうでなければそれらを含んでよい。例示的な機械学習済みモデルは、ニューラルネットワークまたは他の多層非線形モデルを含む。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的なモデル140について、
図9Bを参照しながら説明する。
【0130】
追加および/または代替として、サーバコンピューティングシステム130は、1つもしくは複数のデータベース(および/またはリソース)をクロールするために利用され得る検索エンジン142を含み、かつ/またはそれと通信可能に接続され得る。検索エンジン142は、ユーザコンピューティングシステム102、サーバコンピューティングシステム130、および/またはサードパーティコンピューティングシステム150からのデータを処理して、入力データに関連付けられた1つまたは複数の検索結果を決定することができる。検索エンジン142は、用語ベースの検索、ラベルベースの検索、ブールベースの検索、画像検索、埋込みベースの検索(たとえば、最近傍検索)、マルチモーダル検索、および/または1つもしくは複数の他の検索技法を実行し得る。
【0131】
サーバコンピューティングシステム130は、入力データを取得し、かつ/または1人もしくは複数のユーザに出力データを提供するための、1つまたは複数のユーザインターフェース144を記憶および/または提供し得る。1つまたは複数のユーザインターフェース144は、1つまたは複数のユーザインターフェース要素を含むことができ、1つまたは複数のユーザインターフェース要素は、入力フィールド、ナビゲーションツール、コンテンツチップ(content chip)、選択可能タイル、ウィジェット、データ表示カルーセル、動的なアニメーション、情報ポップアップ、画像拡張、テキスト音声、音声テキスト、拡張現実、仮想現実、フィードバックループ、および/または他のインターフェース要素を含み得る。
【0132】
ユーザコンピューティングシステム102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されるサードパーティコンピューティングシステム150との対話を介して、モデル120および/または140をトレーニングすることができる。サードパーティコンピューティングシステム150は、サーバコンピューティングシステム130とは別個であり得るか、またはサーバコンピューティングシステム130の一部分であり得る。代替および/または追加として、サードパーティコンピューティングシステム150は、1つもしくは複数のウェブリソース、1つもしくは複数のウェブプラットフォーム、1つもしくは複数の他のユーザ、および/または1つもしくは複数のコンテキストに関連付けられ得る。
【0133】
例示的な機械学習済みモデルは、生成モデル(たとえば、大規模言語モデル、基盤モデル、視覚言語モデル、画像生成モデル、テキストから画像へのモデル(text-to-image model)、オーディオ生成モデル、および/または他の生成モデル)を含み得る。
【0134】
機械学習済みモデルのトレーニングおよび/またはチューニングは、トレーニングインスタンスを取得することを含み得る。トレーニングデータのセットは、複数のデータセット(たとえば、トレーニングデータセット、検証データセット、またはテストデータセット)の間で分割された複数のトレーニングインスタンスを含み得る。トレーニングインスタンスは、ラベルが付けられるか、またはラベルなしであり得る。ランタイム推論は、そのランタイムインスタンスにおけるモデルの性能の評価を使用して、モデルがトレーニングされるとき(たとえば、オンライントレーニング/学習)、トレーニングインスタンスを形成することができる。トレーニングインスタンスのための例示的なデータタイプ、およびそれらに関連付けられた様々なタスクについて、本開示全体を通して説明する。
【0135】
トレーニングおよび/またはチューニングは、1つまたは複数の機械学習済みモデルを使用して、トレーニングインスタンスを処理して、出力を生成することを含み得る。出力は、1つまたは複数の機械学習済みモデルから直接取得され得るか、あるいは1つまたは複数の機械学習済みモデルの出力を含む、処理動作のチェーンのダウンストリーム結果であり得る。
【0136】
トレーニングおよび/またはチューニングは、出力に関連付けられた評価信号を受信することを含み得る。評価信号は、損失関数を使用して取得され得る。平均2乗誤差、尤度損失、クロスエントロピー損失、ヒンジ損失、対照損失(contrastive loss)、または様々な他の損失関数など、損失の様々な決定が使用され得る。評価信号は、知られているグランドトゥルースラベル(たとえば、教師あり学習)、予測もしくは推定されたラベル(たとえば、半教師ありまたは自己教師あり学習)を使用して、またはラベルなし(たとえば、教師なし学習)で計算され得る。評価信号は、報酬(たとえば、強化学習の場合)であり得る。報酬は、受信された出力に基づいて、報酬を生成するように構成された、機械学習済み報酬モデルを使用して計算され得る。報酬は、出力における人間のフィードバックを記述するフィードバックデータを使用して計算され得る。
【0137】
トレーニングおよび/またはチューニングは、評価信号を使用して、機械学習済みモデルを更新することを含み得る。たとえば、機械学習済みモデルのパラメータのための値が、いくつかの実施形態では、たとえば、逆伝播など、様々なトレーニングまたは学習技法を使用して学習され得る。たとえば、評価信号は、(たとえば、パラメータ値に対する評価信号の勾配に基づいて)、モデルの1つまたは複数のパラメータを更新するために、機械学習済みモデルを通して、出力(または評価信号の別のソース)から逆伝播され得る。たとえば、1つまたは複数の機械学習済みモデルを含んでいるシステムは、エンドツーエンド様式においてトレーニングされ得る。勾配降下技法は、いくつかのトレーニング反復にわたってパラメータを反復的に更新するために使用され得る。いくつかの実装形態では、誤差逆伝播を実行することは、打ち切り型通時的逆伝播(truncated backpropagation through time)を実行することを含み得る。トレーニングおよび/またはチューニングは、トレーニングされているモデルの汎化能力を向上させるために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実装することを含み得る。
【0138】
いくつかの実装形態では、上記のトレーニングループは、機械学習モデルを初期化された状態から完全にトレーニングされた状態(たとえば、モデルが、正確さ、精度、リコールなどに基づいてなど、所望の性能プロファイルを示すとき)までトレーニングするために実装され得る。
【0139】
いくつかの実装形態では、上記のトレーニングループは、トレーニング手順の特定の段階について実装され得る。たとえば、いくつかの実装形態では、上記のトレーニングループは、機械学習済みモデルを事前トレーニングするために実装され得る。事前トレーニングは、たとえば、様々なタスク/データタイプにわたる幅広い性能レベルを達成するために、潜在的に雑音の多いデータにわたる大規模トレーニングを含み得る。いくつかの実装形態では、上記のトレーニングループは、機械学習済みモデルをファインチューニングするために実装され得る。ファインチューニングは、たとえば、より高品質の(たとえば、ラベルが付けられた、キュレートされたなどの)データにおけるより小規模のトレーニングを含み得る。ファインチューニングは、機械学習済みモデルのパラメータの全部または一部分に影響を及ぼすことができる。たとえば、機械学習済みモデルの様々な部分は、いくつかのトレーニング段階の間に「凍結」され得る。たとえば、埋込み空間に関連付けられたパラメータは、(たとえば、ファインチューニングデータセット中に存在するよりも広いドメインから学習された情報を保持するために)ファインチューニング中に「凍結」され得る。例示的なファインチューニング手法は、強化学習を含む。強化学習は、使用中のモデル性能におけるユーザフィードバックに基づき得る。
【0140】
サードパーティコンピューティングシステム150は、1つまたは複数のプロセッサ152と、メモリ154とを含み得る。1つまたは複数のプロセッサ152は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ154は、データ156と、サードパーティコンピューティングシステム150に動作を実行させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、サードパーティコンピューティングシステム150は、1つもしくは複数のサーバコンピューティングデバイスを含むか、またはさもなければ1つもしくは複数のサーバコンピューティングデバイスによって実装される。
【0141】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなどの、任意のタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含むことができる。一般に、ネットワーク180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使用して、任意のタイプのワイヤードおよび/またはワイヤレス接続を介して搬送され得る。
【0142】
本明細書で説明する機械学習済みモデルは、様々なタスク、適用例、および/または使用事例において使用され得る。
【0143】
いくつかの実装形態では、本開示の機械学習済みモデルへの入力は、画像データであり得る。機械学習済みモデルは、画像データを処理して、出力を生成することができる。一例として、機械学習済みモデルは、画像データを処理して、画像認識出力(たとえば、画像データの認識、画像データの潜在性埋込み、画像データの符号化された表現、画像データのハッシュなど)を生成することができる。別の例として、機械学習済みモデルは、画像データを処理して、画像セグメンテーション出力を生成することができる。別の例として、機械学習済みモデルは、画像データを処理して、画像分類出力を生成することができる。別の例として、機械学習済みモデルは、画像データを処理して、画像データ修正出力(たとえば、画像データの改変など)を生成することができる。別の例として、機械学習済みモデルは、画像データを処理して、符号化された画像データ出力(たとえば、画像データの符号化されたおよび/または圧縮された表現など)を生成することができる。別の例として、機械学習済みモデルは、画像データを処理して、アップスケールされた画像データ出力を生成することができる。別の例として、機械学習済みモデルは、画像データを処理して、予測出力を生成することができる。
【0144】
いくつかの実装形態では、本開示の機械学習済みモデルへの入力は、テキストまたは自然言語データであり得る。機械学習済みモデルは、テキストまたは自然言語データを処理して、出力を生成することができる。一例として、機械学習済みモデルは、自然言語データを処理して、言語符号化出力を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、潜在性テキスト埋込み出力を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、翻訳出力を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、分類出力を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、テキストセグメンテーション出力を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、意味論的意図出力を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、アップスケールされたテキストまたは自然言語出力(たとえば、入力テキストまたは自然言語よりも高品質であるテキストまたは自然言語データなど)を生成することができる。別の例として、機械学習済みモデルは、テキストまたは自然言語データを処理して、予測出力を生成することができる。
【0145】
いくつかの実装形態では、本開示の機械学習済みモデルへの入力は、音声データであり得る。機械学習済みモデルは、音声データを処理して、出力を生成することができる。一例として、機械学習済みモデルは、音声データを処理して、音声認識出力を生成することができる。別の例として、機械学習済みモデルは、音声データを処理して、音声翻訳出力を生成することができる。別の例として、機械学習済みモデルは、音声データを処理して、潜在性埋込み出力を生成することができる。別の例として、機械学習済みモデルは、音声データを処理して、符号化された音声出力(たとえば、音声データの符号化されたおよび/または圧縮された表現など)を生成することができる。別の例として、機械学習済みモデルは、音声データを処理して、アップスケールされた音声出力(たとえば、入力音声データよりも高品質である音声データなど)を生成することができる。別の例として、機械学習済みモデルは、音声データを処理して、テキスト表現出力(たとえば、入力音声データのテキスト表現など)を生成することができる。別の例として、機械学習済みモデルは、音声データを処理して、予測出力を生成することができる。
【0146】
いくつかの実装形態では、本開示の機械学習済みモデルへの入力は、センサーデータであり得る。機械学習済みモデルは、センサーデータを処理して、出力を生成することができる。一例として、機械学習済みモデルは、センサーデータを処理して、認識出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、予測出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、分類出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、セグメンテーション出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、セグメンテーション出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、視覚化出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、診断出力を生成することができる。別の例として、機械学習済みモデルは、センサーデータを処理して、検出出力を生成することができる。
【0147】
いくつかの場合には、入力は視覚データを含み、タスクはコンピュータビジョンタスクである。いくつかの場合には、入力は、1つまたは複数の画像用のピクセルデータを含み、タスクは画像処理タスクである。たとえば、画像処理タスクは画像分類であってもよく、ここで、出力はスコアのセットであり、各スコアは、異なるオブジェクトクラスに対応し、オブジェクトクラスに属するオブジェクトを1つまたは複数の画像が示す尤度を表す。画像処理タスクはオブジェクト検出であってもよく、ここで、画像処理出力は、1つまたは複数の画像の中の1つまたは複数の領域と、各領域について、領域が対象のオブジェクトを示す尤度とを識別する。別の例として、画像処理タスクは画像セグメンテーションであってもよく、ここで、画像処理出力は、1つまたは複数の画像の中の各ピクセルについて、カテゴリーの所定のセットの中の各カテゴリーについてのそれぞれの尤度を定義する。たとえば、カテゴリーのセットは前景および背景であり得る。別の例として、カテゴリーのセットはオブジェクトクラスであり得る。別の例として、画像処理タスクは深度推定であってもよく、ここで、画像処理出力は、1つまたは複数の画像の中の各ピクセルについて、それぞれの深度値を定義する。別の例として、画像処理タスクは動き推定であってもよく、ここで、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つの各ピクセルについて、ネットワーク入力の中の画像の間のピクセルにおいて示されるシーンの動きを定義する。
【0148】
いくつかの実装形態では、タスクは、生成タスクであり得、1つまたは複数の機械学習済みモデル(たとえば、120および/または140)は、1つまたは複数の入力に鑑みて生成されたコンテンツを出力するように構成され得る。たとえば、入力は、追加のコンテンツを生成するためのコンテキストを符号化する1つもしくは複数のモダリティのデータであり得るか、またはさもなければ、それを表すことができる。
【0149】
いくつかの実装形態では、タスクは、テキスト完成タスクであり得る。機械学習済みモデルは、テキストデータを表す入力を処理することと、入力を含むテキストシーケンスを完成する追加のテキストデータを表す出力を生成することとを行うように構成され得る。たとえば、機械学習済みモデルは、入力によって表されたテキストの一部分から続く文、段落、またはテキストの部分を完成するために、出力を生成するように構成され得る。
【0150】
いくつかの実装形態では、タスクは、タスクに続く命令であり得る。機械学習済みモデルは、機能を実行するために、命令を表す入力を処理することと、命令機能を満たす目的(たとえば、機能を実行するためのマルチステップ手順の少なくとも1つのステップ)を進める出力を生成することとを行うように構成され得る。出力は、入力と同じまたは異なるモダリティのデータを表すことができる。たとえば、入力は、テキストデータ(たとえば、タスクが実行されるための自然言語命令)を表すことができ、機械学習済みモデルは、入力を処理して、命令に応答するテキストデータ(たとえば、自然言語応答、プログラミング言語応答、機械語応答など)を表す出力を生成することができる。入力は、画像データ(たとえば、場合によってはテキスト命令が付随する、タスクが実行されるための画像ベースの命令)を表すことができ、機械学習済みモデルは、入力を処理して、命令に応答するテキストデータ(たとえば、自然言語応答、プログラミング言語応答、機械語応答など)を表す出力を生成することができる。要求された機能を達成することに向かって、ステップを順次処理および達成するために、1つまたは複数の出力が反復的にまたは再帰的に生成され得る。たとえば、初期出力が、外部システムによって実行されるか、または機械学習済みモデルによって処理されて、機能を実行する初期ステップが完了され得る。複数のステップが実行されてよく、初期命令に応答する最終出力が取得される。
【0151】
いくつかの実装形態では、タスクは、質問回答タスクであり得る。機械学習済みモデルは、回答するための質問を表す入力を処理することと、質問への回答を返す目的(たとえば、機能を実行するためのマルチステップ手順の少なくとも1つのステップ)を進める出力を生成することとを行うように構成され得る。出力は、入力と同じまたは異なるモダリティのデータを表すことができる。たとえば、入力は、テキストデータ(たとえば、タスクが実行されるための自然言語命令)を表すことができ、機械学習済みモデルは、入力を処理して、質問に応答するテキストデータ(たとえば、自然言語応答、プログラミング言語応答、機械語応答など)を表す出力を生成することができる。入力は、画像データ(たとえば、場合によってはテキスト命令が付随する、タスクが実行されるための画像ベースの命令)を表すことができ、機械学習済みモデルは、入力を処理して、質問に応答するテキストデータ(たとえば、自然言語応答、プログラミング言語応答、機械語応答など)を表す出力を生成することができる。質問に回答することに向かって、ステップを順次処理および達成するために、1つまたは複数の出力が反復的にまたは再帰的に生成され得る。たとえば、初期出力が、外部システムによって実行されるか、または機械学習済みモデルによって処理されて、質問への回答を取得する(たとえば、データベースをクエリする、計算を実行する、スクリプトを実行するなど)初期ステップが完了され得る。複数のステップが実行されてよく、質問に応答する最終出力が取得される。
【0152】
いくつかの実装形態では、タスクは、画像生成タスクであり得る。機械学習済みモデルは、画像コンテンツの所望の部分に関するコンテキストを表す入力を処理するように構成され得る。コンテキストは、テキストデータ、画像データ、オーディオデータなどを含み得る。機械学習済みモデルは、コンテキストに関係する像を示す画像データを表す出力を生成するように構成され得る。たとえば、機械学習済みモデルは、画像のピクセルデータを生成するように構成され得る。ピクセルデータにおけるピクセルに関連付けられたチャネルのための値は、コンテキストに基づいて(たとえば、コンテキストに基づいて決定された確率に基づいて)選択され得る。
【0153】
いくつかの実装形態では、タスクは、オーディオ生成タスクであり得る。機械学習済みモデルは、オーディオコンテンツの所望の部分に関するコンテキストを表す入力を処理するように構成され得る。コンテキストは、テキストデータ、画像データ、オーディオデータなどを含み得る。機械学習済みモデルは、コンテキストに関係するオーディオデータを表す出力を生成するように構成され得る。たとえば、機械学習済みモデルは、画像の形態で波形データ(たとえば、スペクトログラム)を生成するように構成され得る。画像のピクセルに関連付けられたチャネルのための値は、コンテキストに基づいて選択され得る。機械学習済みモデルは、連続波形の個別サンプルのシーケンスの形態で波形データを生成するように構成され得る。シーケンスの値は、コンテキストに基づいて(たとえば、コンテキストに基づいて決定された確率に基づいて)選択され得る。
【0154】
いくつかの実装形態では、タスクは、データ生成タスクであり得る。機械学習済みモデルは、データ(たとえば、センサーデータ、画像データ、マルチモーダルデータ、統計データなど、様々なデータドメインからのデータ)の所望の部分に関するコンテキストを表す入力を処理するように構成され得る。所望のデータは、たとえば、他の機械学習済みモデルをトレーニングするための合成データであり得る。コンテキストは、任意のデータタイプを含み得る。機械学習済みモデルは、所望のデータと整合するデータを表す出力を生成するように構成され得る。たとえば、機械学習済みモデルは、データセットをポピュレートするためのデータ値を生成するように構成され得る。データオブジェクトのための値は、コンテキストに基づいて(たとえば、コンテキストに基づいて決定された確率に基づいて)選択され得る。
【0155】
ユーザコンピューティングシステムは、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含み得る。各アプリケーションは、それ自体のそれぞれの機械学習ライブラリおよび機械学習済みモデルを含み得る。たとえば、各アプリケーションは、機械学習済みモデルを含み得る。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0156】
各アプリケーションは、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加の構成要素など、コンピューティングデバイスのいくつかの他の構成要素と通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使用して各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
【0157】
ユーザコンピューティングシステム102は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含み得る。各アプリケーションは、中央インテリジェンスレイヤと通信している。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使用して中央インテリジェンスレイヤ(および、その中に記憶されるモデル)と通信することができる。
【0158】
中央インテリジェンスレイヤは、いくつかの機械学習済みモデルを含み得る。たとえば、それぞれの機械学習済みモデル(たとえば、モデル)が各アプリケーションに提供され、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習済みモデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、単一のモデル(たとえば、単一のモデル)をアプリケーションのすべてに提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングシステム100のオペレーティングシステム内に含まれるか、またはさもなければオペレーティングシステムによって実装される。
【0159】
中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングシステム100のためのデータの集中型リポジトリであり得る。中央デバイスデータレイヤは、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加の構成要素など、コンピューティングデバイスのいくつかの他の構成要素と通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使用して、各デバイス構成要素と通信することができる。
【0160】
図9Bは、本開示の例示的な実施形態による、バッジ生成および検索を実行する例示的なコンピューティングシステム50のブロック図を示す。詳細には、例示的なコンピューティングシステム50は、1つまたは複数のデータセットを取得および/または生成するために利用され得る、1つまたは複数のコンピューティングデバイス52を含むことができ、1つまたは複数のデータセットは、センサー処理システム60および/または出力決定システム80によって、1つまたは複数の取得されたデータセットにおける特徴についての情報を提供することができるフィードバックをユーザに与えるために処理され得る。1つまたは複数のデータセットは、画像データ、テキストデータ、オーディオデータ、マルチモーダルデータ、潜在性符号化データなどを含み得る。1つまたは複数のデータセットは、1つまたは複数のコンピューティングデバイス52に関連付けられた1つまたは複数のセンサー(たとえば、コンピューティングデバイス52における1つまたは複数のセンサー)を介して取得され得る。追加および/または代替として、1つまたは複数のデータセットは、記憶されたデータおよび/または取り出されたデータ(たとえば、ウェブリソースから取り出されたデータ)であり得る。たとえば、画像、テキスト、および/または他のコンテンツアイテムが、ユーザによって対話され得る。次いで、対話されたコンテンツアイテムが、1つまたは複数の決定を生成するために利用され得る。
【0161】
1つまたは複数のコンピューティングデバイス52は、画像キャプチャ、センサー追跡、データ記憶取出し、コンテンツダウンロード(たとえば、インターネットを介して、ウェブリソースから画像または他のコンテンツアイテムをダウンロードすること)に基づいて、および/または1つもしくは複数の他の技法を介して、1つまたは複数のデータセットを取得および/または生成することができる。1つまたは複数のデータセットは、センサー処理システム60を用いて処理され得る。センサー処理システム60は、1つもしくは複数の機械学習済みモデル、1つもしくは複数の検索エンジン、および/または1つもしくは複数の他の処理技法を使用して、1つまたは複数の処理技法を実行し得る。1つまたは複数の処理技法は、任意の組合せにおいて、および/または個々に実行され得る。1つまたは複数の処理技法は、直列におよび/または並列に実行され得る。詳細には、1つまたは複数のデータセットは、コンテキスト決定ブロック62を用いて処理され得、コンテキスト決定ブロック62は、1つまたは複数のコンテンツアイテムに関連付けられたコンテキストを決定し得る。コンテキスト決定ブロック62は、メタデータ、ユーザプロファイルデータ(たとえば、選好、ユーザ検索履歴、ユーザブラウジング履歴、ユーザ購入履歴、および/またはユーザ入力データ)、前の対話データ、グローバル傾向データ、ロケーションデータ、時間データ、および/または他のデータを識別および/または処理して、ユーザに関連付けられた特定のコンテキストを決定し得る。コンテキストは、ユーザおよび/または取り出されたかもしくは取得されたデータに関連付けられた、イベント、決定された傾向、特定のアクション、データの特定のタイプ、特定の環境、および/または別のコンテキストに関連付けられ得る。
【0162】
センサー処理システム60は、画像前処理ブロック64を含み得る。画像前処理ブロック64は、取得および/または受信された画像の1つまたは複数の値を調整して、1つもしくは複数の機械学習済みモデルおよび/または1つもしくは複数の検索エンジン74によって処理されるように画像を準備するために利用され得る。画像前処理ブロック64は、画像をリサイズし、彩度値を調整し、解像度を調整し、メタデータを取り外し、かつ/もしくは追加し、ならびに/または1つもしくは複数の他の動作を実行し得る。
【0163】
いくつかの実装形態では、センサー処理システム60は、1つまたは複数の機械学習済みモデルを含むことができ、1つまたは複数の機械学習済みモデルは、検出モデル66、セグメンテーションモデル68、分類モデル70、埋込みモデル72、および/または1つもしくは複数の他の機械学習済みモデルを含み得る。たとえば、センサー処理システム60は、処理されたデータセットにおける特定の特徴を検出するために利用され得る、1つまたは複数の検出モデル66を含み得る。詳細には、1つまたは複数の画像が、1つまたは複数の検出モデル66を用いて処理されて、1つまたは複数の画像における検出された特徴に関連付けられた1つまたは複数のバウンディングボックスが生成され得る。
【0164】
追加および/または代替として、1つまたは複数のセグメンテーションモデル68は、1つまたは複数のデータセットから、データセットの1つまたは複数の部分をセグメント化するために利用され得る。たとえば、1つまたは複数のセグメンテーションモデル68は、1つまたは複数のセグメンテーションマスク(たとえば、手動で生成された、および/または1つもしくは複数のバウンディングボックスに基づいて生成された、1つまたは複数のセグメンテーションマスク)を利用して、画像の一部分、オーディオファイルの一部分、および/またはテキストの一部分をセグメント化し得る。セグメンテーションは、1つもしくは複数の検出されたオブジェクトを分離すること、および/または1つもしくは複数の検出されたオブジェクトを画像から除去することを含み得る。
【0165】
1つまたは複数の分類モデル70は、画像データ、テキストデータ、オーディオデータ、潜在性符号化データ、マルチモーダルデータ、および/または他のデータを処理して、1つまたは複数の分類を生成するために利用され得る。1つまたは複数の分類モデル70は、1つもしくは複数の画像分類モデル、1つもしくは複数のオブジェクト分類モデル、1つもしくは複数のテキスト分類モデル、1つもしくは複数のオーディオ分類モデル、および/または1つもしくは複数の他の分類モデルを含み得る。1つまたは複数の分類モデル70は、データを処理して、1つまたは複数の分類を決定することができる。
【0166】
いくつかの実装形態では、データが、1つまたは複数の埋込みモデル72を用いて処理されて、1つまたは複数の埋込みが生成され得る。たとえば、1つまたは複数の画像が、1つまたは複数の埋込みモデル72を用いて処理されて、埋込み空間内の1つまたは複数の画像埋込みが生成され得る。1つまたは複数の画像埋込みは、1つまたは複数の画像の1つまたは複数の画像特徴に関連付けられ得る。いくつかの実装形態では、1つまたは複数の埋込みモデル72は、マルチモーダルデータを処理して、マルチモーダル埋込みを生成するように構成され得る。1つまたは複数の埋込みは、分類、検索、および/または学習埋込み空間分布のために利用され得る。
【0167】
センサー処理システム60は、1つまたは複数の検索を実行するために利用され得る、1つまたは複数の検索エンジン74を含み得る。1つまたは複数の検索エンジン74は、1つまたは複数のデータベース(たとえば、1つもしくは複数のローカルデータベース、1つもしくは複数のグローバルデータベース、1つもしくは複数のプライベートデータベース、1つもしくは複数の公開データベース、1つもしくは複数の専用データベース、および/または1つもしくは複数の総合データベース)をクロールして、1つまたは複数の検索結果を決定し得る。1つまたは複数の検索エンジン74は、特徴マッチング、テキストベースの検索、埋込みベースの検索(たとえば、k近傍検索)、メタデータベースの検索、マルチモーダル検索、ウェブリソース検索、画像検索、テキスト検索、および/またはアプリケーション検索を実行し得る。
【0168】
追加および/または代替として、センサー処理システム60は、マルチモーダルデータの処理を助けるために利用され得る、1つまたは複数のマルチモーダル処理ブロック76を含み得る。1つまたは複数のマルチモーダル処理ブロック76は、1つもしくは複数の機械学習済みモデルおよび/または1つもしくは複数の検索エンジン74によって処理されるための、マルチモーダルクエリおよび/またはマルチモーダル埋込みを生成することを含み得る。
【0169】
次いで、センサー処理システム60の出力が、出力決定システム80を用いて処理されて、ユーザに提供するための1つまたは複数の出力が決定され得る。出力決定システム80は、ヒューリスティックベースの決定、機械学習済みモデルベースの決定、ユーザ選択ベースの決定、および/またはコンテキストベースの決定を含み得る。
【0170】
出力決定システム80は、どのようにおよび/またはどこで、検索結果インターフェース82において1つまたは複数の検索結果を提供するかを決定し得る。追加および/または代替として、出力決定システム80は、どのようにおよび/またはどこで、機械学習済みモデル出力インターフェース84において1つまたは複数の機械学習済みモデル出力を提供するかを決定し得る。いくつかの実装形態では、1つもしくは複数の検索結果、および/または1つもしくは複数の機械学習済みモデル出力は、1つまたは複数のユーザインターフェース要素を介して、表示のために提供され得る。1つまたは複数のユーザインターフェース要素は、表示されたデータの上にオーバーレイされ得る。たとえば、1つまたは複数の検出インジケータが、ビューファインダー内で検出されたオブジェクトの上にオーバーレイされ得る。1つまたは複数のユーザインターフェース要素は、1つもしくは複数の追加の検索、および/または1つもしくは複数の追加の機械学習済みモデルプロセスを実行するために、選択可能であり得る。いくつかの実装形態では、ユーザインターフェース要素は、特定のアプリケーションのための専用ユーザインターフェース要素として提供され得、かつ/または異なるアプリケーションにわたって一様に提供され得る。1つまたは複数のユーザインターフェース要素は、ポップアップディスプレイ、インターフェースオーバーレイ、インターフェースタイルおよび/もしくはチップ、カルーセルインターフェース、オーディオフィードバック、アニメーション、対話型ウィジェット、ならびに/または他のユーザインターフェース要素を含み得る。
【0171】
追加および/または代替として、センサー処理システム60の出力に関連付けられたデータは、拡張現実エクスペリエンスおよび/または仮想現実エクスペリエンス86を生成および/または提供するために利用され得る。たとえば、1つまたは複数の取得されたデータセットが処理されて、1つもしくは複数の拡張現実レンダリングアセット、および/または1つもしくは複数の仮想現実レンダリングアセットが生成され得、これらが次いで、拡張現実エクスペリエンスおよび/または仮想現実エクスペリエンス86をユーザに提供するために利用され得る。拡張現実エクスペリエンスは、環境に関連付けられた情報をそれぞれの環境にレンダリングし得る。代替および/または追加として、処理されたデータセットに関係するオブジェクトが、ユーザ環境および/または仮想環境にレンダリングされ得る。レンダリングデータセット生成は、1つまたは複数のオブジェクトのための3次元表現を学習するように、1つまたは複数のニューラル放射輝度場モデルをトレーニングすることを含み得る。
【0172】
いくつかの実装形態では、1つまたは複数のアクションプロンプト88が、センサー処理システム60の出力に基づいて決定され得る。たとえば、検索プロンプト、購入プロンプト、生成プロンプト、予約プロンプト、コールプロンプト、リダイレクトプロンプト、および/または1つもしくは複数の他のプロンプトが、センサー処理システム60の出力に関連付けられると決定され得る。次いで、1つまたは複数のアクションプロンプト88は、1つまたは複数の選択可能ユーザインターフェース要素を介して、ユーザに提供され得る。1つまたは複数の選択可能ユーザインターフェース要素の選択に応答して、それぞれのアクションプロンプトのそれぞれのアクションが実行され得る(たとえば、検索が実行され得、購入アプリケーションプログラミングインターフェースが利用され得、かつ/または別のアプリケーションが開かれ得る)。
【0173】
いくつかの実装形態では、センサー処理システム60の1つまたは複数のデータセットおよび/または出力が、1つまたは複数の生成モデル90を用いて処理されて、モデル生成コンテンツアイテムが生成され得、次いで、モデル生成コンテンツアイテムがユーザに提供され得る。生成は、ユーザ選択に基づいてプロンプトされ得、かつ/または自動的に実行され(たとえば、しきい値量の検索結果が識別されないことに関連付けられ得る、1つまたは複数の条件に基づいて、自動的に実行され)得る。
【0174】
1つまたは複数の生成モデル90は、言語モデル(たとえば、大規模言語モデルおよび/または視覚言語モデル)、画像生成モデル(たとえば、テキストから画像への生成モデル(text-to-image generation model)、および/または画像拡張モデル)、オーディオ生成モデル、ビデオ生成モデル、グラフ生成モデル、および/または他のデータ生成モデル(たとえば、他のコンテンツ生成モデル)を含み得る。1つまたは複数の生成モデル90は、1つもしくは複数のトランスフォーマモデル、1つもしくは複数の畳み込みニューラルネットワーク、1つもしくは複数のリカレントニューラルネットワーク、1つもしくは複数のフィードフォワードニューラルネットワーク、1つもしくは複数の敵対的生成ネットワーク、1つもしくは複数のセルフアテンションモデル、1つもしくは複数の埋込みモデル、1つもしくは複数のエンコーダ、1つもしくは複数のデコーダ、および/または1つもしくは複数の他のモデルを含み得る。いくつかの実装形態では、1つまたは複数の生成モデル90は、1つもしくは複数の自己回帰モデル(たとえば、前の挙動データに基づいて、予測値を生成するようにトレーニングされた、機械学習済みモデル)、および/または1つもしくは複数の拡散モデル(たとえば、入力データに関連付けられた分布データを生成および処理することに基づいて、予測されたデータを生成するようにトレーニングされた、機械学習済みモデル)を含み得る。
【0175】
1つまたは複数の生成モデル90は、入力データを処理することと、複数の予測された単語、ピクセル、信号、および/または他のデータを含み得る、モデル生成コンテンツアイテムを生成することとを行うようにトレーニングされ得る。モデル生成コンテンツアイテムは、いかなる既存の作品とも同じでない新規のコンテンツアイテムを含み得る。1つまたは複数の生成モデル90は、学習された表現、文、および/または確率分布を活用して、それらのコンテンツアイテムを生成することができ、それらのコンテンツアイテムは、既存のコンテンツアイテム中に含まれていない、句、筋、設定、オブジェクト、文字、ビート、歌詞、および/または他の態様を含み得る。
【0176】
1つまたは複数の生成モデル90は、視覚言語モデルを含み得る。視覚言語モデルは、画像データおよび/またはテキストデータを処理して、自然言語出力を生成するようにトレーニング、チューニング、および/または構成され得る。視覚言語モデルは、1つまたは複数のエンコーダ(たとえば、1つもしくは複数の画像エンコーダ、および/または1つもしくは複数のテキストエンコーダ)とともに、事前トレーニングされた大規模言語モデル(たとえば、大規模自己回帰言語モデル)を活用して、人間によって構成された自然言語をエミュレートする詳細な自然言語出力を提供し得る。
【0177】
視覚言語モデルは、ゼロショット画像分類、フューショット画像分類、画像キャプショニング、マルチモーダルクエリ蒸留、マルチモーダル質問および回答のために利用され得、かつ/または複数の異なるタスクのためにチューニングおよび/もしくはトレーニングされ得る。視覚言語モデルは、視覚的質問回答、画像キャプション生成、特徴検出(たとえば、(たとえば、不適切なコンテンツについての)コンテンツ監視)、オブジェクト検出、シーン認識、および/または他のタスクを実行することができる。
【0178】
視覚言語モデルは、事前トレーニングされた言語モデルを活用し得、次いで、事前トレーニングされた言語モデルがマルチモダリティのためにチューニングされ得る。視覚言語モデルのトレーニングおよび/またはチューニングは、画像テキストマッチング、マスキングされた言語モデリング、クロスアテンションを伴うマルチモーダル融合、対照学習、プレフィックス言語モデルトレーニング(prefix language model training)、および/または他のトレーニング技法を含み得る。たとえば、視覚言語モデルは、画像を処理して、グランドトゥルーステキストデータ(たとえば、画像のためのグランドトゥルースキャプション)と同様である、予測されたテキストを生成するようにトレーニングされ得る。いくつかの実装形態では、視覚言語モデルは、自然言語テンプレートのマスキングされたトークンを、入力画像に示された特徴を記述するテキストトークンに置き換えるようにトレーニングされ得る。代替および/または追加として、トレーニング、チューニング、および/またはモデル推論は、視覚およびテキスト埋込み特徴の多層連結を含み得る。いくつかの実装形態では、視覚言語モデルは、テキスト特徴および画像特徴を共有埋込み空間にマッピングするジョイント特徴埋込み空間に、埋込みをマッピングするように、システムをトレーニングおよび/またはチューニングすることを含み得る、画像埋込みおよびテキスト埋込み生成を一緒に学習することを介して、トレーニングおよび/またはチューニングされ得る。ジョイントトレーニングは、画像テキストペア並列埋込み(image-text pair parallel embedding)を含み得、かつ/またはトリプレットトレーニングを含み得る。いくつかの実装形態では、画像は、言語モデルへのプレフィックスとして利用および/または処理され得る。
【0179】
1つまたは複数の生成モデル90は、デバイス上に記憶され得、かつ/またはサーバコンピューティングシステム上に記憶され得る。いくつかの実装形態では、1つまたは複数の生成モデル90は、提案された検索、提案されたアクション、および/または提案されたプロンプトを決定するために、オンデバイス処理を実行することができる。1つまたは複数の生成モデル90は、サーバコンピューティングシステムによって記憶および動作される視覚言語モデルよりも少ないパラメータを含み得る、1つまたは複数のコンパクトな視覚言語モデルを含み得る。コンパクトな視覚言語モデルは、蒸留トレーニングを介してトレーニングされ得る。いくつかの実装形態では、視覚言語モデルは、ディスプレイデータを処理して、提案を生成し得る。ディスプレイデータは、スクリーンショットを記述する単一の画像を含み得、かつ/または、現在表示されているコンテンツ(たとえば、過去30秒以内に閲覧されたアプリケーション、画像、ビデオ、メッセージ、および/または他のコンテンツ)に先行する時間期間を記述する、画像データ、メタデータ、および/もしくは他のデータを含み得る。ユーザコンピューティングデバイスは、バッファ中に表示されたコンテンツを記述するデータのローリングバッファウィンドウ(たとえば、30秒)を生成および記憶し得る。時間が経過すると、データが削除され得る。ローリングバッファウィンドウデータは、クエリ、コンテンツ、アクション、および/またはプロンプト提案のために活用され得る、コンテキストを決定するために利用され得る。
【0180】
いくつかの実装形態では、生成モデル90は、機械学習済みシーケンス処理モデルを含み得る。例示的なシステムは、入力をシーケンス処理モデルに渡すことができる。シーケンス処理モデルは、1つまたは複数の機械学習済み構成要素を含み得る。シーケンス処理モデルは、入力からのデータを処理して、入力シーケンスを取得することができる。入力シーケンスは、入力から取得された1つまたは複数の入力要素を含み得る。シーケンス処理モデルは、予測層を使用して、入力シーケンスを処理して、出力シーケンスを生成することができる。出力シーケンスは、入力シーケンスに基づいて生成された1つまたは複数の出力要素を含み得る。システムは、出力シーケンスに基づいて、出力を生成することができる。
【0181】
シーケンス処理モデルは、情報のシーケンスにわたって取り込み、生成し、またはさもなければ推理するように構成された、1つまたは複数の機械学習済みモデル構成要素を含み得る。たとえば、テキストドメインにおけるいくつかの例示的なシーケンス処理モデルは、「大規模言語モデル」またはLLMと呼ばれる。たとえば、PaLM 2 Technical Report、Google、https://ai.google/static/documents/palm2techreport.pdf(n.d.)を参照されたい。他の例示的なシーケンス処理モデルは、例として、画像ドメイン、たとえば、Dosovitskiy他、An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale、arXiv:2010.11929v2(2021年6月3日)を参照されたい、オーディオドメイン、たとえば、Agostinelli他、MusicLM: Generating Music From Text、arXiv:2301.11325v1(2023年1月26日)を参照されたい、生化学的ドメイン、たとえば、Jumper他、Highly accurate protein structure prediction with AlphaFold、596 Nature 583(2021年8月26日)を参照されたい、など、他のドメインにおいて動作することができる。シーケンス処理モデルは、1つまたは複数のタイプのデータを同時に処理することができる。シーケンス処理モデルは、比較的大きいモデル(たとえば、より多くのパラメータ、計算コストが高いなど)、比較的小さいモデル(たとえば、より少ないパラメータ、計算量的に軽量など)、またはその両方を含み得る。
【0182】
概して、シーケンス処理モデルは、入力からのデータを使用して、入力シーケンスを取得することができる。たとえば、入力シーケンスは、シーケンス処理モデルによって理解されるフォーマットにおける入力からのデータの表現を含み得る。シーケンス処理モデルの1つまたは複数の機械学習済み構成要素は、入力からデータを取り込み、(たとえば、「トークン化」を介して)シーケンス処理モデルの処理アーキテクチャに適合するピースにデータをパースし、(たとえば、「埋込み」を介して)予測層に関連付けられた入力空間にピースを投影することができる。
【0183】
シーケンス処理モデルは、入力からデータを取り込み、データを要素のシーケンスにパースして、入力シーケンスを取得することができる。たとえば、入力からの入力データの一部分が、入力データのその部分のコンテンツを集合的に表すピースに分解され得る。それらのピースは、シーケンスの要素を提供することができる。
【0184】
いくつかの実装形態では、入力データを処理することは、トークン化を含み得る。たとえば、トークナイザは、入力ソースの所与の部分を処理し、入力ソースのその部分を表す(たとえば、入力要素に対応する)一連のトークンを出力し得る。トークン化の様々な手法が使用され得る。たとえば、テキスト入力ソースは、バイト対符号化(BPE:byte-pair encoding)技法を使用してトークン化され得る。たとえば、Kudo他、SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing、Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (System Demonstrations)、66~71頁(2018年10月31日~11月4日)、https://aclanthology.org/D18-2012.pdfを参照されたい。画像ベースの入力ソースは、画像からパッチを抽出およびシリアル化することによってトークン化され得る。
【0185】
概して、任意のデータタイプが、入力シーケンスにシリアル化および処理され得る。
【0186】
予測層は、入力要素に基づいて、1つまたは複数の出力要素を予測することができる。予測層は、入力要素からのより高次の意味、および入力要素間の関係を抽出するために、入力を操作および変換する、学習済みパラメータの1つまたは複数の層など、1つまたは複数の機械学習済みモデルアーキテクチャを含み得る。このようにして、たとえば、例示的な予測層は、入力シーケンスによって提供されたコンテキストに鑑みて、新しい出力要素を予測することができる。
【0187】
予測層は、入力シーケンスの部分と特定の出力要素との間の関連付けを評価することができる。これらの関連付けは、特定の出力が入力コンテキストに続く尤度の予測を知らせることができる。たとえば、「大工の道具箱は小さくて重いものだった。それは___でいっぱいだった。(The carpenter's toolbox was small and heavy. It was full of ___.)」というテキストスニペットを考えられたい。例示的な予測層は、それぞれの埋込み間の関係を決定することによって、「それ(It)」が戻って「道具箱(toolbox)」を指すことを識別することができる。例示的な予測層はまた、「それ(It)」を、「小さく(small)」および「重い(heavy)」など、道具箱(toolbox)の属性にリンクさせることもできる。これらの関連付けに基づいて、予測層は、たとえば、「おがくず(sawdust)」という単語よりも「釘(nails)」という単語により高い確率を割り当てることができる。
【0188】
トランスフォーマは、予測層において使用され得る例示的なアーキテクチャである。たとえば、Vaswani他、Attention Is All You Need、arXiv:1706.03762v7(2023年8月2日)を参照されたい。トランスフォーマは、コンテキストウィンドウ内のアイテム間の関連付けを計算するために、アテンション機構を使用する、機械学習済みモデルアーキテクチャの一例である。コンテキストウィンドウは、入力シーケンスおよび潜在的に1つまたは複数の出力要素を含んでいる、シーケンスを含み得る。トランスフォーマブロックは、1つまたは複数のアテンション層と、1つまたは複数のポストアテンション層(post-attention layer)(たとえば、多層パーセプトロンなどのフィードフォワード層)とを含み得る。
【0189】
予測層は、トランスフォーマベースのアーキテクチャに加えて、またはその代わりに、他の機械学習済みモデルアーキテクチャを含み得る。たとえば、リカレントニューラルネットワーク(RNN)および長短期メモリ(LSTM)モデル、ならびに畳み込みニューラルネットワーク(CNN)も使用され得る。概して、予測層は、情報のシーケンスを理解または生成することができる、様々な種類の人工ニューラルネットワークを活用することができる。
【0190】
出力シーケンスは、入力シーケンスと同じまたは異なるデータタイプを含むか、またはさもなければ表すことができる。たとえば、入力シーケンスは、テキストデータを表すことができ、出力シーケンスは、テキストデータを表すことができる。入力シーケンスは、画像、オーディオ、またはオーディオビジュアルデータを表すことができ、出力シーケンスは、(たとえば、画像、オーディオ、またはオーディオビジュアルデータを記述する)テキストデータを表すことができる。予測層、およびシーケンス処理モデルの任意の他の中間モデル構成要素は、入力シーケンスにおいて様々なデータタイプを受信し、出力シーケンスにおいて様々なデータタイプを出力するように構成され得ることを理解されたい。
【0191】
出力シーケンスは、入力シーケンスとの様々な関係を有することができる。出力シーケンスは、入力シーケンスの継続であり得る。出力シーケンスは、入力シーケンスを補足することができる。出力シーケンスは、入力シーケンスを翻訳、変換、拡張、またはさもなければ修正することができる。出力シーケンスは、入力シーケンスに回答し、それを評価し、確認するか、またはさもなければそれに応答することができる。出力シーケンスは、入力シーケンスを介して提供された命令を実施(または実施するための命令を記述する)ことができる。
【0192】
出力シーケンスは、自己回帰的に生成され得る。たとえば、いくつかの適用例では、1つまたは複数の予測層の出力が、1つまたは複数の出力層(たとえば、ソフトマックス層)を通過させられて、コンテキストウィンドウ内の入力要素のセットを条件とする、出力語彙(たとえば、テキストまたは記号語彙)にわたる確率分布が取得され得る。このようにして、たとえば、可能性のある次の出力要素をサンプリングすること、その要素をコンテキストウィンドウに追加すること、および更新されたコンテキストウィンドウに基づいて、確率分布を再生成すること、ならびに可能性のある次の出力要素をサンプリングすることなどによって、出力シーケンスが自己回帰的に生成され得る。
【0193】
出力シーケンスはまた、非自己回帰的に生成され得る。たとえば、出力シーケンスの複数の出力要素が、互いにおける明示的な連続した条件づけなしに、一緒に予測され得る。たとえば、Saharia他、Non-Autoregressive Machine Translation with Latent Alignments、arXiv:2004.07437v3(2020年11月16日)を参照されたい。
【0194】
出力シーケンスは、1つまたは複数の部分または要素を含み得る。例示的なコンテンツ生成構成では、出力シーケンスは、生成された出力シーケンスの複数の部分に対応する複数の要素(たとえば、テキスト文、離散化された波形の値、コンピュータコードなど)を含み得る。例示的な分類構成では、出力シーケンスは、分類出力に関連付けられた単一の要素を含み得る。たとえば、「語彙」という出力は、入力シーケンスが分類されることになるクラスのセットを含み得る。たとえば、ビジョントランスフォーマブロックは、入力画像に関連付けられた可能性のあるクラス値を出力する多層パーセプトロンに、潜在性状態情報を渡すことができる。
【0195】
出力決定システム80は、データ拡張ブロック92を用いて、1つもしくは複数のデータセット、および/またはセンサー処理システム60の出力を処理して、拡張されたデータを生成し得る。たとえば、1つまたは複数の画像が、データ拡張ブロック92を用いて処理されて、1つまたは複数の拡張された画像が生成され得る。データ拡張は、データ修正、データクロッピング、1つもしくは複数の特徴の除去、1つもしくは複数の特徴の追加、解像度調整、照明調整、彩度調整、および/または他の拡張を含み得る。
【0196】
いくつかの実装形態では、1つもしくは複数のデータセット、および/またはセンサー処理システム60の出力は、データ記憶ブロック94の決定に基づいて記憶され得る。
【0197】
次いで、出力決定システム80の出力は、ユーザコンピューティングデバイス52の1つまたは複数の出力構成要素を介して、ユーザに提供され得る。たとえば、1つまたは複数の出力に関連付けられた1つまたは複数のユーザインターフェース要素は、ユーザコンピューティングデバイス52の視覚ディスプレイを介して、表示のために提供され得る。
【0198】
プロセスは、反復的におよび/または連続的に実行され得る。提供されたユーザインターフェース要素への1つまたは複数のユーザ入力は、連続する処理ループを条件づけ、かつ/またはそれに影響を及ぼし得る。
【0199】
図10は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示す。
図10は、例示および説明の目的で、特定の順序で実行されるステップを示すが、本開示の方法は、具体的に示された順序または配置に限定されない。方法1000の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略されること、並べ替えられること、組み合わせられること、および/または適合されることが可能である。
【0200】
1002において、コンピューティングシステムは、入力データを取得することができる。入力データは、検索クエリを含み得る。いくつかの実装形態では、検索クエリは、検索の主題に関連付けられ得る。検索クエリは、製品タイプに関連付けられ得る。
【0201】
1004において、コンピューティングシステムは、検索クエリを処理して、複数の予備検索結果を決定することができる。複数の予備検索結果は、検索クエリに応答する複数のコンテンツアイテムを含み得る。いくつかの実装形態では、複数の予備検索結果は、製品タイプに関連付けられた複数のコンテンツアイテムを含み得る。複数の予備検索結果は、ユーザレビューを含む1つまたは複数のウェブリソースを含み得る。複数の予備検索結果は、検証されたデータベースに記憶されたウェブドメインに関連付けられた、信用できるウェブリソースを含み得る。
【0202】
1006において、コンピューティングシステムは、機械学習済みモデルを用いて、複数のコンテンツアイテムの少なくともサブセットを処理して、検索の主題に関連付けられた複数のバッジを決定することができる。複数のバッジは、主題に関連付けられると決定された複数の用語に関連付けられ得る。いくつかの実装形態では、複数のバッジは、主題に関連付けられると決定された複数のトピックに関連付けられ得る。複数のバッジは、製品タイプにおける物体の少なくともサブセットに関連付けられると決定された複数の属性に関連付けられ得る。複数の属性は、固有の使用のための製品タイプの物体の特定のセットのための有効性に関連付けられた1つまたは複数の属性を含み得る。いくつかの実装形態では、複数のバッジのうちの1つまたは複数は、ユーザによって提供されたレビューに基づいて決定され得る。機械学習済みモデルは、自然言語処理モデルを含み得る。複数のバッジは、機械学習済みモデルによって実行された感情分析に少なくとも部分的に基づいて決定され得る。いくつかの実装形態では、複数のバッジは、1つまたは複数の用語の決定された頻度に少なくとも部分的に基づいて決定され得る。バッジ決定は、用語が使用される頻度、感情分析、意味理解、および/またはコンテキストデータに基づき得る。主題は、製品タイプを含み得る。複数のバッジは、製品タイプの異なる製品に関連付けられた品質に関連付けられ得る。複数のトピックは、主題に関連付けられたウェブリソースを差別化する、1つまたは複数の記述子を記述することができる。
【0203】
いくつかの実装形態では、複数のバッジは、主題に関連付けられた複数の製品を決定することと、複数の製品の各々のためのそれぞれの製品説明を決定することと、複数の製品に関連付けられた複数の差別化要因を決定することと、複数の差別化要因に基づいて、複数のバッジを決定することとに基づいて決定され得る。複数の差別化要因は、主題に関連付けられる1つまたは複数の他の製品から特定の製品を差別化する、品質を記述することができる。
【0204】
1008において、コンピューティングシステムは、複数のバッジに関連付けられた複数の特定の検索結果を決定することができる。各特定の検索結果は、複数のバッジのうちのそれぞれのバッジに関連付けられ得る。いくつかの実装形態では、複数の特定の検索結果のうちの各特定の検索結果は、それぞれのバッジを記述するそれぞれのユーザインターフェース要素とともに、表示のために提供され得る。複数の特定の検索結果のうちの各特定の検索結果は、検索クエリに応答すると決定された固有の検索結果と、それぞれのバッジとを含み得る。複数の特定の検索結果の各々は、製品タイプのそれぞれの製品に関連付けられ得る。
【0205】
1010において、コンピューティングシステムは、複数のバッジとともに、表示のために、複数の特定の検索結果を提供することができる。複数の特定の検索結果は、検索結果インターフェースにおける表示のために提供され得る。検索結果インターフェースは、クエリ入力ボックスと、複数のバッジのうちのそれぞれのバッジの各々を伴う、複数の特定の検索結果と、テキストからテキストへの生成モデル出力とを含み得る。テキストからテキストへの生成モデル出力は、テキストからテキストへの生成モデルを用いて、検索クエリを処理することによって生成され得る。
【0206】
いくつかの実装形態では、コンピューティングシステムは、言語モデルを用いて、検索クエリを処理して、モデル生成応答を生成することができる。モデル生成応答は、検索クエリに応答するものであり得る。コンピューティングシステムは、複数の特定の検索結果に隣接して、検索結果インターフェースにおいてモデル生成応答を提供することができる。モデル生成応答は、言語モデルを用いて、複数の予備検索結果のうちの1つまたは複数を処理することによって決定され得る。
【0207】
追加および/または代替として、コンピューティングシステムは、複数のバッジのうちの特定のバッジに関連付けられたバッジ選択を取得することと、特定のバッジに関連付けられた複数のバッジ固有の検索結果を提供することとを行うことができる。
【0208】
図11は、本開示の例示的な実施形態による、例示的なバッジ生成およびインデックス付けシステム1100のブロック図を示す。詳細には、バッジ生成およびインデックス付けシステム1100は、処理するためのウェブ情報1102を取得および/または決定することを含み得る。ウェブ情報1102は、ユーザレビュー、編集レビュー、TopNページタイトル、および/または購入ガイドページタイトルを含み得る。
【0209】
ウェブ情報1102が、1つまたは複数の使用事例モデル1104を用いて処理されて、ウェブ情報1102の主題に関連付けられた1つまたは複数の候補使用事例1106が決定され得る。1つまたは複数の使用事例モデル1104は、決定された統計値とともに、1つまたは複数の候補使用事例1106を出力することができる。
【0210】
1つまたは複数の候補使用事例1106が、1つまたは複数の埋込みモデルを用いて処理されて、1つまたは複数の候補使用事例埋込み、および/あるいは1つまたは複数の検索結果埋込みが生成され得る。1つまたは複数の候補使用事例埋込みが、他の埋込み(たとえば、1つまたは複数の検索結果埋込み)と比較されて、他の使用事例埋込み、ウェブ結果埋込み、および/またはクエリ埋込みとの埋込み類似性1110が決定され得る。
【0211】
埋込み類似性1110の決定に基づいて、1つまたは複数のバッジクラスタ1112が決定され得る。各バッジクラスタは、類似するトピックまたはトピックのタイプに関連付けられると決定された埋込みのセットに関連付けられ得る。次いで、バッジクラスタ1112は、検索クエリに応答してランク付けおよび/または取得されるために記憶され得る。
【0212】
追加および/または代替として、候補使用事例ペア1114が、1つまたは複数の候補使用事例1106に基づいて決定され得る。候補使用事例ペアは、マルチタスク統合モデル1116を用いて処理され得、マルチタスク統合モデル1116は、第1の候補使用事例および第2の候補使用事例が類似するか否かを決定するために活用され得る出力を生成することができる。類似性決定は、クラスタリング1112を決定および/または拡張するために利用され得る。マルチタスク統合モデル1116は、複合および/またはマルチタスク要求を識別するようにトレーニングされ得、マルチタスク要求を履行するために実行されることになるアクションのセットを決定するようにトレーニングされ得る。マルチタスク統合モデル1116は、ユーザによって要求されている最終リソースに達するために必要とされる検索インスタンスを低減するために、マルチタスク要求履行を実行するように構成および/またはトレーニングされ得る。いくつかの実装形態では、マルチタスク統合モデル1116は、1つまたは複数の生成モデル(たとえば、1つまたは複数のトランスフォーマモデルを含み得る、生成言語モデル)を含み得る。マルチタスク統合モデル1116は、2つの使用事例が類似するタスクに関連付けられるか否かを決定するために活用され得る。
【0213】
クラスタリング1112は、使用事例クラスタを生成するために利用され得る。使用事例クラスタは、ユーザに検索結果をサービスするとき、冗長性および/または混乱を軽減するために利用され得る。詳細には、検索結果インターフェースは、バッジの多様なセットとともに検索結果の多様なセット(および、したがって、使用事例の多様なセット)を提供するために、検索結果表示中に所与のクラスタからのバッジの数を(たとえば、クラスタごとに1つのバッジに)制限し得る。
【0214】
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに行われるアクションおよびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有の柔軟性は、構成要素の間でのタスクおよび機能の多種多様な可能な構成、組合せ、および分割を可能にする。たとえば、本明細書で説明するプロセスは、単一のデバイスもしくは構成要素、または組合せにおいて働く複数のデバイスもしくは構成要素を使用して実装され得る。データベースおよびアプリケーションは、単一のシステム上で実装されるか、または複数のシステムにわたって分散され得る。分散構成要素は、順次、または並行して動作することができる。
【0215】
本主題について、その様々な特定の例示的な実施形態に関して詳細に説明したが、各例は、本開示の限定ではなく、説明として与えられる。当業者は、上記の理解に到達すると、そのような実施形態の改変、変形、および均等物を容易に作り出すことができる。したがって、本開示は、当業者には容易に明らかになるように、本主題へのそのような修正、変形および/または追加を含めることを排除しない。たとえば、1つの実施形態の一部として示されるかまたは説明される特徴は、またさらなる実施形態をもたらすために、別の実施形態とともに使用され得る。したがって、本開示がそのような改変、変形、および均等物をカバーすることが意図される。
【符号の説明】
【0216】
10 バッジ生成および検索システム、人工知能生成バッジ検索システム
12、212 ウェブデータ
14、214 機械学習済みモデル
16、216 バッジ
18、218 検索クエリ
20、220 検索エンジン
22、222、400、500、600 検索結果インターフェース
50 コンピューティングシステム
52 コンピューティングデバイス、ユーザコンピューティングデバイス
60 センサー処理システム
62 コンテキスト決定ブロック
64 画像前処理ブロック
66 検出モデル
68 セグメンテーションモデル
70 分類モデル
72 埋込みモデル
74 検索エンジン
76 マルチモーダル処理ブロック
80 出力決定システム
82 検索結果インターフェース
84 機械学習済みモデル出力インターフェース
86 拡張現実エクスペリエンスおよび/または仮想現実エクスペリエンス
88 アクションプロンプト
90 生成モデル
92 データ拡張ブロック
94 データ記憶ブロック
100 コンピューティングシステム、システム
102 ユーザコンピューティングシステム
104 ユーザコンピューティングデバイス
112、132、152 プロセッサ
114 メモリ、ユーザコンピューティングデバイスメモリ
116、136、156 データ
118、138、158 命令
120、140 機械学習済みモデル、モデル
122 ユーザ入力構成要素
124、144 ユーザインターフェース
126 センサー
130 サーバコンピューティングシステム
134、154 メモリ
142 検索エンジン
150 サードパーティコンピューティングシステム
180 ネットワーク
200 検索システム
224 埋込みモデル
226 バッジ埋込み
228 生成モデル
230 クエリ
402、502、602 検索クエリ入力ボックス
404 検索結果
406 バッジ、バッジインジケータ
408 知識パネル
504、604 バッジ付き検索結果、検索結果
506、606 バッジインジケータ
508、608 モデル生成応答
510、610 メディアコンテンツアイテム
512、612 一般検索結果
1100 バッジ生成およびインデックス付けシステム
1102 ウェブ情報
1104 使用事例モデル
1106 候補使用事例
1110 埋込み類似性
1112 バッジクラスタ、クラスタリング
1114 候補使用事例ペア
1116 マルチタスク統合モデル
【手続補正書】
【提出日】2024-06-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
命令をまとめて記憶する1つまたは複数のコンピュータ可読記憶媒体とを備え、前記命令が、前記1つまたは複数のプロセッサによって実行されたとき、前記コンピューティングシステムに動作を実行させ、前記動作が、
特定の製品に関連付けられたウェブデータを取得することであって、前記ウェブデータが、前記特定の製品に関連付けられたウェブ情報を備える、ことと、
1つまたは複数の機械学習済みモデルを用いて、前記ウェブデータを処理して、前記特定の製品に関連付けられた1つまたは複数の特定の使用を決定することであって、前記1つまたは複数の特定の使用が、前記ウェブ情報に基づいて決定される、ことと、
前記1つまたは複数の特定の使用に基づいて、1つまたは複数のバッジを生成することであって、前記1つまたは複数のバッジが、前記1つまたは複数の特定の使用を記述する、ことと、
前記1つまたは複数のバッジを記憶することであって、前記1つまたは複数のバッジが、前記特定の製品との関連付けを記述するデータとともに記憶される、ことと、
検索クエリを取得することであって、前記検索クエリが、製品タイプに関連付けられ、前記特定の製品が、前記製品タイプのものである、ことと、
前記検索クエリおよび前記1つまたは複数のバッジに基づいて、検索結果インターフェースを提供することと
を含む、システム。
【請求項2】
前記ウェブデータが、前記特定の製品のユーザレビューを備える、請求項1に記載のシステム。
【請求項3】
前記1つまたは複数の特定の使用が、ウェブ情報、感情分析、および意味理解における用語の頻度に基づいて決定される、請求項1に記載のシステム。
【請求項4】
前記1つまたは複数の特定の使用が、
前記特定の製品を使用するためのシナリオ、
前記特定の製品を使用するための目的、
前記特定の製品を使用するための時間、または
前記製品を使用するユーザのタイプ
のうちの少なくとも1つに関連付けられる、請求項1に記載のシステム。
【請求項5】
前記動作が、
埋込みモデルを用いて、前記1つまたは複数のバッジを処理して、埋込み空間内の1つまたは複数のそれぞれのバッジ埋込みを生成することと、
前記1つまたは複数のバッジ埋込みに基づいて、前記検索結果インターフェースにおいて表示するための複数の検索結果を決定することと
をさらに含む、請求項1に記載のシステム。
【請求項6】
前記複数の検索結果を決定することが、
前記埋込みモデルを用いて、前記検索クエリを処理して、クエリ埋込みを生成することと、
前記クエリ埋込みが前記バッジ埋込みに関連付けられると決定することと、
前記検索結果インターフェースにおいて、前記特定の製品を記述する製品検索結果を提供することと
を含む、請求項5に記載のシステム。
【請求項7】
前記動作が、
前記埋込みモデルを用いて、複数の他の製品に関連付けられた複数の他のバッジを処理して、複数の他のバッジ埋込みを生成することと、
1つまたは複数のバッジ埋込みおよび前記複数の他のバッジ埋込みに基づいて、1つまたは複数のバッジクラスタを決定することと、
前記1つまたは複数のバッジクラスタに基づいて、前記検索結果インターフェースの1つまたは複数の検索結果を決定することと
をさらに含む、請求項5に記載のシステム。
【請求項8】
前記検索クエリおよび前記1つまたは複数のバッジに基づいて、前記検索結果インターフェースを提供することが、
前記1つまたは複数のバッジが前記検索クエリに関連付けられると決定することと、
前記特定の製品に関連付けられた製品データを取得することであって、前記製品データが、前記特定の製品に関連付けられた1つまたは複数のウェブリソースへの1つまたは複数のリンクを備える、ことと
を含み、
前記検索結果インターフェースが、製品検索結果を備え、前記製品検索結果が、前記製品を記述するデータと、前記1つまたは複数のバッジとを備える、請求項1に記載のシステム。
【請求項9】
前記1つまたは複数の機械学習済みモデルが、自然言語処理モデルを備え、前記1つまたは複数の特定の使用が、感情分析に少なくとも部分的に基づいて決定される、請求項1に記載のシステム。
【請求項10】
前記ウェブ情報が、製品説明と、よくある質問への回答とを備える、請求項1に記載のシステム。
【請求項11】
コンピュータ実装方法であって、
1つまたは複数のプロセッサを備えるコンピューティングシステムによって、物体に関連付けられた1つまたは複数のウェブリソースを決定するステップと、
前記コンピューティングシステムによって、1つまたは複数の機械学習済みモデルを用いて、前記1つまたは複数のウェブリソースの1つまたは複数のコンテンツアイテムを処理して、前記物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの少なくとも1つを決定するステップと、
前記コンピューティングシステムによって、前記物体に関連付けられた1つもしくは複数の利点または1つもしくは複数の欠点のうちの前記少なくとも1つに基づいて、1つまたは複数のバッジを生成するステップであって、前記1つまたは複数のバッジが、生成されたテキストラベルを備える、ステップと、
前記コンピューティングシステムによって、ユーザコンピューティングシステムから、検索クエリを取得するステップと、
前記コンピューティングシステムによって、前記物体あるいは前記1つまたは複数のバッジのうちの少なくとも1つが前記検索クエリに関連付けられると決定するステップと、
前記コンピューティングシステムによって、検索結果インターフェースにおける表示のために、特定の物体検索結果を提供するステップであって、前記特定の物体検索結果が、前記物体を記述するデータと、前記1つまたは複数のバッジを記述するユーザインターフェース要素とを備える、ステップと
を含む方法。
【請求項12】
前記コンピューティングシステムによって、前記物体あるいは前記1つまたは複数のバッジのうちの前記少なくとも1つが前記検索クエリに関連付けられると決定するステップが、
前記コンピューティングシステムによって、検索エンジンを用いて、前記検索クエリを処理して、複数の検索結果を決定するステップと、
前記コンピューティングシステムによって、前記複数の検索結果に関連付けられたバッジのセットを決定するステップであって、前記バッジのセットが、前記1つまたは複数のバッジを備える、ステップと、
前記コンピューティングシステムによって、前記バッジのセットに基づいて、前記検索結果インターフェースにおいて特定の検索結果のセットを提供するステップと
を含む、請求項11に記載の方法。
【請求項13】
前記コンピューティングシステムによって、前記物体あるいは前記1つまたは複数のバッジのうちの前記少なくとも1つが前記検索クエリに関連付けられると決定するステップが、
前記コンピューティングシステムによって、前記検索クエリに関連付けられたバッジのセットを決定するステップであって、前記バッジのセットが、前記1つまたは複数のバッジを備える、ステップと、
前記コンピューティングシステムによって、前記バッジのセットのうちの特定のバッジの各々のためのそれぞれの検索結果を決定するステップと、
前記コンピューティングシステムによって、前記バッジのセットに基づいて、前記検索結果インターフェースにおいて前記それぞれの検索結果のセットを提供するステップと
を含む、請求項11に記載の方法。
【請求項14】
前記コンピューティングシステムによって、前記物体を記述するデータを用いて、前記1つまたは複数のバッジにインデックス付けするステップ
をさらに含む、請求項11に記載の方法。
【請求項15】
前記1つまたは複数のウェブリソースを決定するステップが、
前記コンピューティングシステムによって、前記物体を記述するデータを取得するステップと、
前記コンピューティングシステムによって、検索エンジンを用いて、前記物体を記述する前記データを処理して、物体固有の検索結果のセットを決定するステップと、
前記コンピューティングシステムによって、前記物体固有の検索結果のセットから、1つまたは複数の特定の物体固有の検索結果を選択するステップと
を含む、請求項11に記載の方法。
【請求項16】
前記1つまたは複数のウェブリソースが、前記物体のためのウェブマーケットプレイスリスティングを備える、請求項11に記載の方法。
【請求項17】
命令をまとめて記憶する1つまたは複数のコンピュータ可読記憶媒体であって、前記命令が、1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させ、前記動作が、
検索クエリを取得することであって、前記検索クエリが、特定の物体タイプに関連付けられる、ことと、
前記検索クエリを処理して、前記検索クエリに関連付けられた複数のバッジを決定することであって、前記複数のバッジが、前記特定の物体タイプの複数の異なる物体に関連付けられた複数の特定の利点を備える、ことと、
表示するための前記複数のバッジのサブセットを決定することと、
前記複数のバッジの前記サブセットに関連付けられた複数の検索結果を取得することであって、前記複数の検索結果が、前記複数のバッジの前記サブセットのうちの各特定のバッジのための1つまたは複数のそれぞれの検索結果を備える、ことと、
表示のために検索結果インターフェースを提供することであって、前記検索結果インターフェースが、前記複数の検索結果を備え、前記複数の検索結果の各々が、前記それぞれの検索結果に関連付けられた前記特定のバッジを用いて、注釈を付けられる、ことと
を含む、1つまたは複数のコンピュータ可読記憶媒体。
【請求項18】
前記複数のバッジが、前記複数の異なる物体の各々についての複数のレビューを処理することによって生成される、請求項17に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項19】
前記検索結果インターフェースが、前記複数の検索結果のための第1のパネルと、モデル生成応答のための第2のパネルとを備え、前記モデル生成応答が、言語モデルを用いて、前記検索クエリを処理して、前記モデル生成応答を生成することによって生成され、前記モデル生成応答が、前記検索クエリに応答するものであり、前記言語モデルが、テキストからテキストへの生成モデルを備える、請求項17に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項20】
前記複数の検索結果が、ウェブリソースの特定のセットに関連付けられた複数の製品検索結果を備え、
前記検索結果インターフェースが、複数の製品検索結果、複数の一般検索結果、および自然言語応答を備え、前記自然言語応答が、機械学習済み生成モデルを用いて生成され、前記複数の一般検索結果が、検索エンジンを用いて決定される、請求項17に記載の1つまたは複数のコンピュータ可読記憶媒体。
【外国語明細書】