(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-05-08
(45)【発行日】2025-05-16
(54)【発明の名称】ユーザリンクノートのプロンプトの生成
(51)【国際特許分類】
G06F 16/9538 20190101AFI20250509BHJP
G06F 16/9535 20190101ALI20250509BHJP
【FI】
G06F16/9538
G06F16/9535
【外国語出願】
(21)【出願番号】P 2024178950
(22)【出願日】2024-10-11
【審査請求日】2024-12-23
(32)【優先日】2023-11-06
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2023-12-21
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(72)【発明者】
【氏名】キントン・チュン
(72)【発明者】
【氏名】ネギン・ネジャティ
(72)【発明者】
【氏名】ミヒエル・フィリップ・コスターズ
(72)【発明者】
【氏名】ローズモンド・ジェロルド・ドーリアンズ
(72)【発明者】
【氏名】ヴィシュ・ゴヤル
(72)【発明者】
【氏名】シェカール・アグラワル・シャラド
(72)【発明者】
【氏名】グルハン・セルハト
(72)【発明者】
【氏名】ロハン・サリス・ロジャース
(72)【発明者】
【氏名】プ・ハン
(72)【発明者】
【氏名】ブラッドレイ・チャールズ・ケレット
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】米国特許第11010436(US,B1)
【文献】米国特許第08214380(US,B1)
【文献】特開2023-008982(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
コメントプロンプト生成及び入力取り出しのためのコンピューティングシステムであって、前記システムは、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されるとき、前記コンピューティングシステムが動作を行うようにする命令をまとめて格納する、1つまたは複数の非一時的コンピュータ可読記憶媒体とを備え、前記動作が、
コンテンツデータを取得することであって、前記コンテンツデータはウェブリソースに関連付けら
れ、前記ウェブリソースは1つ又は複数のコンテンツアイテムを含む、取得することと、
予測プロンプトを生成するために前記コンテンツデータを生成モデルで処理することであって、前記
予測プロンプトは、前記ウェブリソースにコメントすることに関連付けられた予測テキスト文字列を含む、処理することと、
入力プロンプトインターフェースに表示するために前記予測プロンプトを提供することであって、前記入力プロンプトインターフェースは入力を受信するように構成される、提供することと、
前記入力プロンプトインターフェースを介してユーザコンピューティングシステムからコメント入力データを取得することであって、前記コメント入力データは、前記ウェブリソースに対するユーザ生成コメントを含む、取得することと、
ユーザデータを取得することであって、前記ユーザデータは特定のユーザに関連付けられ、前記ユーザコンピューティングシステムは前記特定のユーザに関連付けられる、取得することと、
前記ユーザデータ、前記コンテンツデータ及び前記コメント入力データに基づいてグラフィックカードを生成することであって、前記グラフィックカードは、前記特定のユーザについてのユーザプロファイル識別子と、前記コメント入力データに関連付けられたデータとを含み、前記グラフィックカードは、前記コメント入力データに基づいて画像生成モデルで生成されたグラフィック背景を含む、生成することと、
前記グラフィックカードと、前記コメント入力データに関連付けられたデータとを、前記ウェブリソースに関連付けられたデータと共に格納することであって、前記コメント入力データに関連付けられた前記データは、前記ウェブリソースが検索結果として提供されることに応答して表示のために提供される検索可能なデータベースに格納される、格納することと、
を含む、コンピューティングシステム。
【請求項2】
前記ユーザデータは、ユーザ検索履歴データを含み、前記生成モデルは、前記ウェブリソースのトピックに関連付けられた情報を以前に検索した前記特定のユーザに基づいて、前記予測プロンプトを生成する、請求
項1に記載のシステム。
【請求項3】
前記ユーザデータは、ユーザブラウザ履歴データを含み、前記生成モデルは、前記ウェブリソースのトピックに関連付けられた情報を含む他のウェブリソースを以前に視聴した前記特定のユーザに基づいて、前記予測プロンプトを生成する、請求
項1に記載のシステム。
【請求項4】
前記動作は、
検索クエリを取得することと、
前記ウェブリソースが前記検索クエリに関連付けられていると決定することと、
表示のための特定の検索結果を提供することであって、前記特定の検索結果は、前記ウェブリソースへのリンク、前記ウェブリソースのタイトル、及び前記コメント入力データに関連付けられたデータを含む、提供することと、
をさらに含む、請求項1に記載のシステム。
【請求項5】
前記コメント入力データに関連付けられた前記データを、前記ウェブリソースに関連付けられた前記データと共に格納することは、
ウェブリソースノートを生成することと、
前記ウェブリソースノートを、前記ウェブリソースに関連付けられた複数の他のウェブリソースノートと共に格納することと、を含む、請求項1に記載のシステム。
【請求項6】
前記動作が、
前記ウェブリソースノート及び前記複数の他のウェブリソースノートを複数のグラフィックカードに提供する、ノートインターフェースに、前記ウェブリソースノート及び前記複数の他のウェブリソースノートを提供すること、
をさらに含む、請求
項5に記載のシステム。
【請求項7】
前記動作は、
前記ユーザ生成コメントを拡張するために要求された属性の選択を取得することと、
前記ユーザ生成コメントと、前記生成モデルとともに前記要求された属性を記述するデータとを処理してモデル生成コンテンツアイテムを生成することと、
前記モデル生成コンテンツアイテムを含めるために前記グラフィックカードを拡張することと
をさらに含む、請求項1に記載のシステム。
【請求項8】
前記動作は、
前記グラフィックカードの決定されたトピックに基づいて1つ又は複数のエンティティタグを決定するために前記グラフィックカードを処理することと、
前記1つ又は複数のエンティティタグに基づいて1つ又は複数の追加のメディアコンテンツアイテムを取得するためにメディアコンテンツアイテムデータベースにアクセスすることと、
前記1つ又は複数の追加のメディアコンテンツアイテムを表示のために提供することと
をさらに含む、請求項1に記載のシステム。
【請求項9】
前記動作は、
グラフィックカードカスタマイズインターフェイスを表示のために提供することをさらに含み、前記グラフィックカードカスタマイズインターフェイスは前記グラフィックカードを編集するための複数のオプションを含む
請求項1に記載のシステム。
【請求項10】
前記生成モデルは、自己回帰言語モデルを含み、前記生成モデルは、前記ウェブリソースに関する情報の要求を記述する質問を生成するようにプロンプトされる、請求項1に記載のシステム。
【請求項11】
リンクノートプロンプトのためのコンピュータに実装される方法であって、前記方法は、
1つまたは複数のプロセッサを含むコンピューティングシステムによって、コンテキストデータを取得することであって、前記コンテキストデータは、特定のコンテンツ表示インスタンスに関連付けられ、前記特定のコンテンツ表示インスタンスは、
特定のウェブリソースの特定のコンテンツアイテムを視聴している特定のユーザを含む、取得するステップと、
前記コンピューティングシステムによって、前記コンテキストデータに基づいて入力要求アクションを決定するステップであって、前記入力要求アクションは、ユーザ入力を取得するために入力エントリインターフェースをユーザに提供することを含む、決定するステップと、
前記コンピューティングシステムによって、予測プロンプトを生成するために、前記コンテキストデータを生成的言語モデルで処理するステップであって、前記予測プロンプトは、前記コンテキストデータに基づいて生成された情報の自然言語要求を含む、処理するステップと、
前記コンピューティングシステムによって、前記入力エントリインターフェースにおいて前記予測プロンプトを提供するステップと、
前記コンピューティングシステムによって、前記入力エントリインターフェースを介してユーザ生成コンテンツを取得するステップと、
前記コンピューティングシステムによって、ユーザデータを取得するステップであって、前記ユーザデータは特定のユーザに関連付けられ、前記ユーザ生成コンテンツは前記特定のユーザに関連付けられる、ステップと、
前記コンピューティングシステムによって、前記ユーザデータ及び前記ユーザ生成コンテンツに基づいてグラフィックカードを生成するステップであって、前記グラフィックカードは、前記特定のユーザについてのユーザプロファイル識別子と、前記ユーザ生成コンテンツに関連付けられたデータとを含み、前記グラフィックカードは、前記ユーザ生成コンテンツに基づいて画像生成モデルで生成されたグラフィック背景を含む、ステップと、
前記コンピューティングシステムによって
、前記グラフィックカードを含むリンクノートを前記ユーザ生成コンテンツに基づいて生成するステップであって、前記リンクノートは、前記特定のコンテンツアイテムが検索結果として決定されたことに応答して、検索結果インターフェースに表示するために提供されるように生成される、生成するステップとを含む、
方法。
【請求項12】
前記コンテキストデータは、表示のために提供されているコンテンツのタイプに関連付けられる、請求項11に記載の方法。
【請求項13】
前記コンテキストデータは、前記特定のコンテンツ表示インスタンスに関連付けられた前記特定のユーザに関連付けられ、前記コンテキストデータは、検索履歴データを含む、請求項11に記載の方法。
【請求項14】
表示のために提供されているコンテンツは、特定のウェブリソースに関連付けられており、前記コンテキストデータは、複数のソーシャルネットワークプラットフォームの前記特定のウェブリソースのリンクのインタラクションデータに関連付けられており、前記入力要求アクションは、前記インタラクションデータに基づいて決定される、請求項11に記載の方法。
【請求項15】
前記コンテキストデータは、ユーザデータ及びコンテンツデータを含み、前記入力要求アクションは、表示のために提供されているコンテンツに関連付けられたトピックが、前記ユーザデータに基づいて前記特定のユーザが知識を有すると決定される複数のトピックの1つであることに基づいて決定される、請求項11に記載の方法。
【請求項16】
前記コンテキストデータは、前記特定のユーザによって生成された以前のノートを含み、前記予測プロンプトは、前記以前のノートについての以前の構造に基づいた構造を含む、請求項11に記載の方法。
【請求項17】
1つまたは複数のコンピューティングデバイスによって実行されるとき、前記1つまたは複数のコンピューティングデバイスが動作を行うようにする命令を集合的に格納する、1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記動作が、
第1の時間に第1の検索クエリを取得することと、
ウェブリソースが前記第1の検索クエリに応答すると決定すること
であって、前記ウェブリソースは1つ又は複数のコンテンツアイテムを含む、決定することと、
コンテンツデータを取得することであって、前記コンテンツデータは前記ウェブリソースに関連付けられる、取得することと、
予測プロンプトを生成するために前記コンテンツデータを生成モデルで処理することであって、前記
予測プロンプトは、前記ウェブリソースにコメントすることに関連付けられた予測テキスト文字列を含む、処理することと、
入力プロンプトインターフェース内に表示するために前記予測プロンプトを提供することであって、前記入力プロンプトインターフェースは入力エントリボックスを含む、提供することと、
前記入力プロンプトインターフェースを介してユーザコンピューティングシステムからコメント入力データを取得することであって、前記コメント入力データは、ユーザ生成コンテンツを含む、取得することと、
ユーザデータを取得することであって、前記ユーザデータは特定のユーザに関連付けられ、前記ユーザコンピューティングシステムは前記特定のユーザに関連付けられる、取得することと、
前記ユーザデータ、前記コンテンツデータ及び前記コメント入力データに基づいてグラフィックカードを生成することであって、前記グラフィックカードは、前記特定のユーザについてのユーザプロファイル識別子と、前記コメント入力データに関連付けられたデータとを含み、前記グラフィックカードは、前記コメント入力データに基づいて画像生成モデルで生成されたグラフィック背景を含む、生成することと、
前記グラフィックカードを格納することと、
第2の時間に第2の検索クエリを取得することであって、前記第2の時間が前記第1の時間とは異なる、取得することと、
前記ウェブリソースが前記第2の検索クエリに応答すると決定することと、
検索結果インターフェースの前
記グラフィックカードに、前記ウェブリソースを記述するデータを提供することとを含む、
1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項18】
前記第1の検索クエリと前記第2の検索クエリとが異なる、請求項17に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項19】
前記コメント入力データがマルチモーダルデータを含む、請求項17に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記マルチモーダルデータがテキストデータ及び画像データを含む、請求項19に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、出願日が2023年12月21日である米国非仮出願第18/392,648号に基づいて、優先権を主張し、2023年11月6日に出願された米国仮出願第63/596,484号の利益を主張する。出願人は、係る出願の各々に対する優先権及びその利益を主張し、その全体を参照することにより本明細書に組み込む。
【0002】
本開示は、一般に、リンクノートを取得するためのプロンプトを生成することに関する。より具体的には、本開示は、ウェブリソースに関連付けられたリンクに関するノートを提供するようにユーザにいつ及びどのようにプロンプトするかを決定することに関し、ウェブリソースはその後、他のユーザに提供され得る。
【背景技術】
【0003】
検索結果ページからの検索結果の理解は、タイトルやテキストの断片がユーザの関心と関連していない可能性のある限られた情報を提供し得るので、難しい可能性があり、所望の情報を得られない可能性のある時間を要するウェブリソースのレビューにつながり得る。ウェブリソースに関する追加情報を取得するのは難しい場合があり、関連情報を特定することもしないこともある追加の検索を含む場合がある。
【0004】
さらに、ユーザの洞察を取得することが困難な場合がある。特に、ユーザは、どのワードを使用するかを決定するのに苦労する場合がある。さらに、ワードは、他のユーザが関心のあるポイントに向けられていない場合がある、及び/または所望の結果を生成するのに十分に豊富ではない場合がある。
【発明の概要】
【0005】
本開示の実施形態の態様及び利点は、以下の説明に部分的に示されるか、または説明から学習できるか、または実施形態の実践を通して学習できる。
【0006】
本開示の1つの例示的な態様は、コメントプロンプトの生成及び入力の取り出しのためのコンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるとき、コンピューティングシステムに動作を実行させる命令を集合的に格納する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができる。動作は、コンテンツデータを取得することを含むことができる。コンテンツデータはウェブリソースに関連付けることができる。動作は、予測プロンプトを生成するために生成モデルでコンテンツデータを処理することを含むことができる。プロンプトは、ウェブリソースへのコメントに関連した予測されるテキスト文字列を含むことができる。動作は、入力プロンプトインターフェースを表示のために予測プロンプトに提供することを含むことができる。入力プロンプトインターフェースは、入力を受信するように構成することができる。動作は、入力プロンプトインターフェースを介してユーザコンピューティングシステムからコメント入力データを取得することを含むことができる。いくつかの実施態様では、コメント入力データは、ウェブリソースに対するユーザ生成コメントを含むことができる。動作は、コメント入力データに関連付けられたデータをウェブリソースに関連付けられたデータと共に格納することを含むことができる。コメント入力データに関連付けられたデータは、検索結果として提供されているウェブリソースに応答して表示のために提供される検索可能なデータベースに格納することができる。
【0007】
いくつかの実施態様では、動作は、ユーザデータを取得することを含むことができる。ユーザデータは、特定のユーザに関連付けることができる。ユーザコンピューティングシステムは特定のユーザに関連付けられてもよい。予測プロンプトを生成するために、コンテンツデータを生成モデルにより処理することは、生成モデルによりコンテンツデータ及びユーザデータを処理することを含むことができる。ユーザデータは、ユーザ検索履歴データを含むことができる。生成モデルは、特定のユーザが以前にウェブリソースのトピックに関連付けられた情報を検索していることに基づいて、予測プロンプトを生成することができる。いくつかの実施態様では、ユーザデータは、ユーザブラウザ履歴データを含むことができる。生成モデルは、特定のユーザが以前にウェブリソースのトピックに関連付けられた情報を含む他のウェブリソースを視聴したことに基づいて予測プロンプトを生成することができる。動作は、ユーザデータ、コンテンツデータ、及びコメント入力データに基づいて、グラフィックカードを生成することを含むことができる。グラフィックカードは、特定のユーザのユーザプロファイル識別子、及びコメント入力データに関連付けられたデータを含み得る。動作は、グラフィックカードを格納することを含むことができる。グラフィックカードは、コメント入力データに基づいて画像生成モデルで生成されたグラフィック背景を含むことができる。
【0008】
いくつかの実施態様では、動作は、検索クエリを取得すること、ウェブリソースが検索クエリに関連付けられていると決定すること、及び表示のために特定の検索結果を提供することを含むことができる。特定の検索結果は、ウェブリソースへのリンク、ウェブリソースのタイトル、及びコメント入力データに関連付けられたデータを含むことができる。ウェブリソースに関連付けられたデータと共にコメント入力データに関連付けられたデータを格納することは、ウェブリソースノートを生成すること、及びウェブリソースに関連付けられた複数の他のウェブリソースノートと共にウェブリソースノートを格納することを含むことができる。いくつかの実施態様では、動作は、ウェブリソースノート及び複数の他のウェブリソースノートを複数のグラフィックカードに提供する、ノートインターフェースに、ウェブリソースノート及び複数の他のウェブリソースノートを提供することを含むことができる。生成モデルは、自己回帰言語モデルを含むことができる。生成モデルは、ウェブリソースに関する情報の要求を記述する質問を生成するようにプロンプトできる。
【0009】
本開示の他の例示的な態様は、リンクノートプロンプトのためのコンピュータ実装方法を対象とする。方法は、1つまたは複数のプロセッサを含むコンピューティングシステムによって、コンテキストデータを取得することを含むことができる。コンテキストデータは、特定のコンテンツ表示インスタンスに関連付けることができる。特定のコンテンツ表示インスタンスは、特定のコンテンツアイテムを視聴している特定のユーザを含むことができる。方法は、コンピューティングシステムによって、コンテキストデータに基づいて入力要求アクションを決定することを含むことができる。入力要求アクションは、ユーザ入力を取得するために入力エントリインターフェースをユーザに提供することを含むことができる。方法は、コンピューティングシステムによって、予測プロンプトを生成するために、生成的言語モデルでコンテキストデータを処理することを含むことができる。いくつかの実施態様では、予測プロンプトは、コンテキストデータに基づいて生成された情報の自然言語要求を含むことができる。方法は、コンピューティングシステムによって、入力エントリインターフェースにおける予測プロンプトを提供すること、及びコンピューティングシステムによって、入力エントリインターフェースを介してユーザ生成コンテンツを取得することを含むことができる。方法は、コンピューティングシステムによって、ユーザ生成コンテンツに基づいてリンクノートを生成することを含むことができる。特定のコンテンツアイテムが検索結果として決定されたことに応答して、検索結果インターフェースに表示するために提供されるリンクノートが生成され得る。
【0010】
いくつかの実施態様では、コンテキストデータは、表示のために提供されているコンテンツのタイプに関連付けることができる。コンテキストデータは、特定のコンテンツ表示インスタンスに関連付けられた特定のユーザに関連付けられ得る。コンテキストデータは、検索履歴データを含むことができる。表示のために提供されているコンテンツは、特定のウェブリソースに関連付けることができる。コンテキストデータは、複数のソーシャルネットワークプラットフォームの特定のウェブリソースのリンクのインタラクションデータに関連付けることができる。入力要求アクションは、インタラクションデータに基づいて決定することができる。いくつかの実施態様では、コンテキストデータは、ユーザデータ及びコンテンツデータを含むことができる。入力要求アクションは、表示のために提供されているコンテンツに関連付けられたトピックが、ユーザデータに基づいて特定のユーザが知識を有すると決定された複数のトピックのうちの1つであることに基づいて決定することができる。コンテキストデータは、特定のユーザによって生成された以前のノートを含むことができる。予測プロンプトは、以前のノートについての以前の構造に基づいた構造を含むことができる。
【0011】
本開示の他の例示的な態様は、1つまたは複数のコンピューティングデバイスによって実行されるとき、1つまたは複数のコンピューティングデバイスが動作を行うようにする命令を集合的に格納する1つまたは複数の非一時的コンピュータ可読媒体を対象とする。動作は、第1の時間に第1の検索クエリを取得すること、及びウェブリソースが第1の検索クエリに応答していると決定することを含むことができる。動作は、コンテンツデータを取得することを含むことができる。コンテンツデータはウェブリソースに関連付けることができる。動作は、予測プロンプトを生成するために生成モデルでコンテンツデータを処理することを含むことができる。プロンプトは、ウェブリソースへのコメントに関連付けられた予測されるテキスト文字列を含むことができる。動作は、入力プロンプトインターフェース内に表示のため予測プロンプトを提供することを含むことができる。入力プロンプトインターフェースは、入力エントリボックスを含むことができる。動作は、入力プロンプトインターフェースを介してユーザコンピューティングシステムからコメント入力データを取得することを含むことができる。コメント入力データは、ユーザ生成コンテンツを含むことができる。動作は、ユーザ生成コンテンツを格納することを含むことができる。動作は、第2の時間に第2の検索クエリを取得することを含むことができる。第2の時間は第1の時間とは異なり得る。動作は、ウェブリソースが第2の検索クエリに応答していると決定すること、及びウェブリソースを記述するデータを備えた検索結果インターフェースにユーザ生成コンテンツを提供することを含むことができる。
【0012】
本開示の他の例示的な態様は、グラフィックカード生成のためのコンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるとき、コンピューティングシステムが動作を行うようにする命令を集合的に格納する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができる。動作は、カードデータを取得することを含むことができる。カードデータは、グラフィックカード内のコンテンツを記述することができる。コンテンツは、1つまたは複数のトピックに関連付けられ得る。動作は、コンテンツに関連付けられた1つまたは複数のエンティティタグを決定するために、カードデータを処理することを含むことができる。1つまたは複数のエンティティタグは、1つまたは複数のトピックに関連付けられ得る。動作は、1つまたは複数のメディアコンテンツアイテムを取得するために、メディアコンテンツアイテムデータベースにアクセスすることを含むことができる。1つまたは複数のメディアコンテンツアイテムが、コンテンツに関連する1つまたは複数のエンティティタグに関連付けられているとの決定に基づいて、1つまたは複数のメディアコンテンツアイテムが取得され得る。動作は、表示のために1つまたは複数のメディアコンテンツアイテムを提供することを含むことができる。インタラクティブユーザインターフェースにおける表示のために、1つまたは複数のメディアコンテンツアイテムが提供され得る。1つまたは複数のメディアコンテンツアイテムが、グラフィックカードに挿入されるように選択可能であり得る。
【0013】
いくつかの実施態様では、グラフィックカードは、リンクノートに関連付けられ得る。リンクノートは、特定のウェブリソースにタグ付けされたユーザ生成コンテンツを含むことができる。動作は、1つまたは複数のメディアコンテンツアイテムに関連する入力選択を取得すること、拡張グラフィックカードを生成すること、及び表示のために拡張グラフィックカードを提供することを含むことができる。拡張グラフィックカードは、グラフィックカードのコンテンツの少なくとも一部、及び1つまたは複数のメディアコンテンツアイテムの少なくとも一部を含むことができる。いくつかの実施態様では、動作は、調整入力を取得することを含んでもよい。調整入力は、拡張グラフィックカードを拡張する要求に関連付けられ得る。動作は、調整入力に基づいて更新されたグラフィックカードを生成することを含み得る。更新されたグラフィックカードは、1つまたは複数の調整を行った拡張グラフィックカードを含むことができる。動作は、表示のために更新されたグラフィックカードを提供することを含むことができる。1つまたは複数の調整は、拡張グラフィックカードのレイアウト変更、1つまたは複数のメディアコンテンツアイテムのクロッピング変更、1つまたは複数のコンテンツアイテムのサイズ変更、色の変更、またはテンプレートの変更のうちの少なくとも1つを含むことができる。
【0014】
いくつかの実施態様では、メディアコンテンツアイテムデータベースは、ユーザ固有のデータベースを含むことができる。ユーザ固有のデータベースは、特定のユーザに関連付けられ得る。特定のユーザが、コンテンツの少なくとも一部を生成している場合がある。いくつかの実施態様では、ユーザ固有のデータベースは、特定のユーザに関連付けられる画像ギャラリーを含むことができる。画像ギャラリーは、特定のコンテンツアイテムストレージプラットフォームと関連付けられたサーバコンピューティングシステムに格納され得る。いくつかの実施態様では、ユーザ固有のデータベースは、ユーザコンピューティングデバイスのローカルストレージデータベースを含むことができる。メディアコンテンツアイテムデータベースは、複数のメディアコンテンツアイテムを含むことができる。いくつかの実施態様では、複数のコンテンツアイテムは、複数のそれぞれのメタデータセットを生成するように前処理されていてもよい。
【0015】
本開示の他の例示的な態様は、コンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるとき、コンピューティングシステムが動作を行うようにする命令を集合的に格納する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができる。動作は、表示のために入力ドラフトインターフェースを提供することを含むことができる。入力ドラフトインターフェースは、複数の属性オプションとテキスト入力ボックスを含むグラフィカルユーザインターフェースを含み得る。複数の属性オプションは、コンテンツアイテム生成のための複数の候補属性に関連付けることができる。動作は、入力ドラフトインターフェースを介して、複数の属性オプションのうちの特定の属性オプションの選択を取得することを含むことができる。特定の属性オプションは、特定の候補属性に関連付けることができる。動作は、入力ドラフトインターフェースのテキスト入力ボックスを介してテキスト入力を取得することを含むことができる。テキスト入力は、コンテンツアイテム生成のためのプロンプト意図に関連付けられ得る。動作は、モデル生成コンテンツアイテムを生成するために、生成モデルを用いて特定の属性オプション及びテキスト入力を処理することを含むことができる。モード生成されたコンテンツアイテムは、特定の候補属性を含むことができる。いくつかの実施態様では、モデル生成コンテンツアイテムは、プロンプト意図に関連付けることができる。動作は、入力ドラフトインターフェースを介して、表示のためにモデル生成コンテンツアイテムを提供することを含むことができる。
【0016】
いくつかの実施態様では、動作はさらに、入力ドラフトインターフェースを介して入力選択を取得すること、及び入力選択に基づいて拡張グラフィックカードを生成することを含むことができる。拡張グラフィックカードは、モデル生成コンテンツアイテムを含むように拡張されたグラフィックカードを含むことができる。動作は、表示のために拡張されたグラフィックカードを提供することを含むことができる。複数の候補属性は、複数の異なるスタイルを含むことができる。複数の異なるスタイルは、複数の異なる芸術的スタイルまたは複数の異なる文体のうちの少なくとも1つに関連付けることができる。
【0017】
いくつかの実施態様では、複数の候補属性は、複数の異なるトーンを含むことができる。複数の異なるトーンは、複数の異なる感情または複数の異なるペースタイプのうちの少なくとも1つに関連付けることができる。いくつかの実施態様では、生成モデルは、特定の属性オプションの選択に基づいて、生成モデルデータベースから取得され得る。特定の属性ソフトプロンプトは、特定の属性オプションの選択に基づいて取得することができる。特定の属性ソフトプロンプトは、学習されたパラメータのセットを含むことができる。学習されたパラメータのセットは、モデル生成コンテンツアイテムを生成するために生成モデルで処理され得る。
【0018】
いくつかの実施態様では、第1の検索クエリと第2の検索クエリとが異なる場合がある。コメント入力データは、マルチモーダルデータを含むことができる。マルチモーダルデータは、テキストデータ及び画像データを含むことができる。
【0019】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、及び電子デバイスを対象とする。
【0020】
本開示の様々な実施形態のこれら及び他の特徴、態様及び利点は、以下の説明及び添付の特許請求の範囲を参照して、よりよく理解されるようになる。本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の例示的な実施形態を例示し、発明を実施するための形態と併せて、関連する原理を説明する役目を果たしている。
【0021】
当業者を対象にした実施形態の詳細な説明は、添付図面を参照する本明細書で示されている。
【図面の簡単な説明】
【0022】
【
図1】本開示の例示的な実施形態による例示的なリンクノート生成システムのブロック図を示す。
【
図2】本開示の例示的な実施形態による、例示的なユーザプロンプトシステムのブロック図を示す。
【
図3】本開示の例示的な実施形態による、リンクノートプロンプトを行うための例示的な方法のフローチャート図を示す。
【
図4】本開示の例示的な実施形態による、例示的なプロンプトの図を示す。
【
図5A】本開示の例示的な実施形態による、トピックをプロンプトする例示的なノートインターフェースの図を示す。
【
図5B】本開示の例示的な実施形態による、類似した記事をプロンプトする例示的なノートインターフェースの図を示す。
【
図5C】本開示の例示的な実施形態による、例示的な予測プロンプトの図を示す。
【
図6A】本開示の例示的な実施形態による例示的なリンクノートエントリポイントの図を示す。
【
図6B】本開示の例示的な実施形態による例示的なリンクノートエントリポイントの図を示す。
【
図6C】本開示の例示的な実施形態による例示的なリンクノートエントリポイントの図を示す。
【
図7】本開示の例示的な実施形態による、リンクノート生成を行うための例示的な方法のフローチャート図を示す。
【
図8】本開示の例示的な実施形態による、リンクノート表示を行うための例示的な方法のフローチャート図を示す。
【
図9A】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図9B】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図9C】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図9D】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図9E】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図9F】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図9G】本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。
【
図10】本開示の例示的な実施形態による、例示的なカード生成インターフェースの図を示す。
【
図11】本開示の例示的な実施形態による、例示的なコンテンツアイテム生成インターフェースの図を示す。
【
図12】本開示の例示的な実施形態による、例示的な画像提案インターフェースの図を示す。
【
図13】本開示の例示的な実施形態による、画像の提案を行うための例示的な方法のフローチャート図を示す。
【
図14】本開示の例示的な実施形態による、コンテンツアイテム生成を行うための例示的な方法のフローチャート図を示す。
【
図15A】本開示の例示的な実施形態による、リンクノートプロンプトを行う例示的なコンピューティングシステムのブロック図を示す。
【
図15B】本開示の例示的な実施形態による、リンクノートプロンプトを行う例示的なコンピューティングシステムのブロック図を示す。
【発明を実施するための形態】
【0023】
複数の図面にわたって繰り返される参照番号は、様々な実施態様で同じ特徴を識別することを意図している。
【0024】
一般に、本開示は、ユーザデータエントリのためのプロンプトを生成することを対象とする。特に、本明細書で開示されるシステム及び方法は、コンテキスト決定(例えば、ユーザがノートを提供する可能性が高いコンテキストを決定すること、及び/または特定のリンクについてのコメントギャップ及び/またはコンテンツギャップを決定すること)を活用して、入力エントリインターフェースを決定することができ(例えば、リンクノート入力エントリインターフェース)、提供されて、生成モデル(例えば、大規模言語モデル)を活用して、ユーザデータ(例えば、ユーザ検索履歴及び/またはユーザブラウズ履歴)及び/またはコンテンツデータ(例えば、コンテンツのトピック及び/またはコンテンツのタイプ)に基づいてプロンプトを生成することができる。例えば、ユーザは、検索結果ページで、ウェブリソースのレビューの間に、及び/または次の検索インスタンスで、特定のウェブリソース(及び/または他のコンテンツアイテム)に関するノートを提供するように促され得る。プロンプトは、以前のユーザノート、以前に視聴されたコンテンツ、コンテンツのトピック、及び/またはコンテンツのタイプに基づいて生成され、洞察に満ちたノートを生成するフォーマットの情報を要求するプロンプトをユーザに提供することができる。
【0025】
リンクノートは、ウェブリソースをレビューすることなく、ウェブリソースに関する追加情報を提供することができ、リンクノートは、他のユーザによって提供され得る。システム及び方法は、価値あるノートの取り込みに関連付けられていると判断されたコンテキストに基づいて、リンクノートのプロンプトをユーザにいつ提供するかを決定することができる。例えば、特定のユーザは、以前に取得された知識に基づいて、及び/または以前に生成されたノートに基づいて、特定のトピックに関するより信頼できる情報及び/またはより詳細な情報を提供し得る。追加的及び/または代替的に、特定のコンテンツタイプは、ユーザのコメント及び/またはユーザの混乱に関連付けられるように決定され得る。
【0026】
ユーザに提供されるプロンプトは、より詳細な情報を提供するようにユーザを「インスパイア」することができ、及び/またはウェブリソースの特定のトピック及び/または特徴に関するノートを残すようにユーザに指示することができる。生成モデルは、ユーザデータ及び/またはコンテンツデータを処理して、予測プロンプトを生成することができる。具体的に、生成モデルは、ユーザの検索履歴、ユーザのブラウズ履歴、ユーザの以前のノート、及び/または他のユーザデータを活用して、提案されたノート、応答を促すための質問、及び/またはノートのテンプレートを生成することができる。代替的及び/または追加的に、生成モデルは、ウェブリソース、トピックの分類、コンテンツタイプの分類、ウェブリソースに関連する他のノート、及び/または他のコンテンツデータの意味的な理解を活用して、提案されたノート、応答を促すための質問、及び/またはノートのテンプレートを生成することができる。
【0027】
入力エントリインターフェースは、予測プロンプトをユーザに提供することができる。次に、入力エントリインターフェースは、ユーザから入力(例えば、コメント入力データ)を取得して、リンクノートを記述するユーザ生成コンテンツを生成することができる。いくつかの実施態様では、グラフィックカードは、リンクノートに基づいて生成され得る。グラフィックカードは、リンクノートのユーザ生成コンテンツ、ユーザプロファイル識別子(例えば、名前及び/または画像)、リンク情報、及び/またはグラフィック背景を含むことができる。リンクノート及び/またはグラフィックカードは、ウェブリソースと関連付けて格納され得る。格納されたリンクノート及び/またはグラフィックカードは、次に、ウェブリソースを検索する1人または複数のユーザ、及び/またはノートインターフェースとインタラクトする1人または複数のユーザに応答して取得され得る。
【0028】
検索結果ページからの検索結果の理解は、タイトルやテキストの断片がユーザの関心と関連していない可能性のある限られた情報を提供し得るので、難しい可能性があり、所望の情報を得られない可能性のある時間を要するウェブリソースのレビューにつながり得る。追加的及び/または代替的に、ウェブリソースに関する追加情報を取得するのは難しい場合があり、このことは関連する情報が特定され得るまたは特定され得ない追加の検索を含む可能性がある。ウェブリソース及び/またはウェブリソースに関連付けられたエンティティのソーシャルメディアのポスト、ブログのポスト、及び/またはレビューは、詳細を欠く場合があり、方向性を誤る場合があり、及び/またはコンテキスト及び/または視点を欠く場合がある。
【0029】
リンクノート(例えば、ユーザから取得されたリンクノート及び/または生成モデルによって生成されたリンクノート)は、ウェブリソースに関する追加情報を提供することができ、これは、他のユーザに自分の要求との関連性を通知し得る。リンクノートは、検索結果ページにおいて提供され得、及び/または検索結果ページ及び/またはウェブリソースからアクセスされ得るノートインターフェースにおいて表示され得る。リンクノートは、グラフィックカードで、テキストの断片とインラインのテキストパネルで、及び/または他のフォーマットで提供され得る。
【0030】
ユーザにノートの生成を促す時と方法を決定することは、ノートの不一致の決定(例えば、記事に関して、ブログプラットフォーム及び/またはソーシャルメディアプラットフォームに多数のノートがあるが、検索プラットフォームのノートインターフェースについては比較的少ない)、ユーザ固有の関心の決定(例えば、当該のリソースは、ユーザが過去に視聴した他の記事と同様であるか)、リソース傾向(例えば、このリソース及び/または同様のリソースが以前にコメントされているか)、ノートすべきリソースの決定(例えば、ノートは有用性を与えるか)、及び/または他の決定に基づくことができる。プロンプトは、生成的言語モデル処理に基づいて生成され得、生成的言語モデル処理は、以前のノート(例えば、ユーザ及び/または他のユーザによる他のノート)を処理すること、検索クエリを処理すること、ウェブリソースを処理すること、及び/または他のデータを処理することを含み得る。
【0031】
リンクノートのプロンプトを利用して、次に他のユーザに提供することができるウェブリソースに関する情報の収集を開始し、及び/または促すことができ、それは、ユーザの意見、ユーザの要約、及び/または他のユーザの特定された詳細を識別し得る。取得されたノートは次に、検索結果インターフェース及び/または発見フィードで提供され得る。リンクノートのプロンプトは、ノートの不一致の決定、ユーザ固有の関心の決定、リソースの傾向、ノートすべきリソースの決定、及び/または他の決定に基づいて決定され得る。
【0032】
他のユーザから追加情報を取得することは、従来の検索結果表示からは見分けにくい場合がある検索結果のトピック及び質を判断するためにユーザにとって有用である可能性がある。しかしながら、有用で詳細な情報を得ることが困難な場合がある。ユーザにノート生成を促す時を決定し、コンテキストアウェアなプロンプトを生成することを利用して、関連するユーザから詳細情報を取得するインターフェースを提供することができる。
【0033】
ユーザが検索結果を見たときに、情報(例えば、コメント、レビュー、洞察など)を提供するようにユーザを促すことが困難な場合がある。プロンプト生成システムを利用して、洞察に基づいて、適切な時間/場所に適切なプロンプトを用いて適切なユーザをターゲティングすることができる。特に、プロンプトは、所望の特性(例えば、所望のトピックに関する所望の詳細レベル、及び/または他の特性)を有するポストを作成することを助けることができる。本明細書に開示されるプロンプト生成システムは、特定のユーザにノートを生成(または作成)することを促進することができ、及び/または特定のウェブリソース(及び/またはコンテンツアイテム)がプロンプト生成システムを介してノートを生成(または作成)することを促進することができる。
【0034】
いくつかの実施態様では、本明細書に開示されるシステム及び方法は、ユーザにスタンドアロンコンテンツを生成するように促すために利用することができる。スタンドアロンコンテンツは、ユーザレシピ、ユーザチュートリアル、ユーザグラフィックス、ライフ更新、リンク共有、及び/または他のユーザ生成コンテンツを含み得る。スタンドアロンコンテンツは、自由な形式で、及び/またはモデル生成のプロンプトに基づいて生成され得る。いくつかの実施態様では、1つまたは複数の機械学習済みモデルは、コンテンツテンプレートを生成するために利用され得、及び/またはユーザ提供コンテンツを拡張するために利用され得る(例えば、テキスト、画像、オーディオ、インターフェース要素、及び/またはビデオを再構築及び/またはリスタイルする)。
【0035】
いくつかの実施態様では、リンクノート及び/またはリンクノートとのインタラクションを利用して、ウェブリソースのランク付け、ウェブリソースのタグ付け、ウェブリソースの埋め込み、及び/またはウェブリソースのインデックス付けを調整し得る。例えば、いくつかの実施態様では、リンクノートを処理して、ウェブリソースの質を決定することができる。質の決定は、1つまたは複数の機械学習済みモデル(例えば、感情分析モデル、言語モデル、分類モデルなど)を用いてリンクノートを処理することに基づいて、決定され得る。リンクノートを1つまたは複数の機械学習済みモデルで処理して、ウェブリソースに関連するトピックを特定し、ウェブリソースのバイアス、ウェブリソースの有用性、及び/またはウェブリソースの方向を特定し得る。リンクノートは、追加のコンテンツを提案するために利用されてもよく、埋め込みベースの検索のために埋め込まれてもよく、及び/またはクエリの提案に利用され得る。
【0036】
ノートインターフェースにおけるリンクノートは、インタラクション、機械学習済みモデルが決定した質、クエリへの応答性、詳細のレベル、及び/または他の属性に基づいて、ランク付け及び/または表示され得る。いくつかの実施態様では、ユーザによって生成されたリンクノートは、他のすべてのユーザ、ユーザのソーシャルネットワーク内のユーザのみ、及び/または関心、位置、及び/またはアクティビティに基づいてユーザに関連付けられていると決定されたユーザのみに提供され得る。
【0037】
リンクノートは、複数の異なるコンテンツアイテムに利用することができ、ウェブリソースに限定されない場合がある。例えば、本明細書に開示されるシステム及び方法を利用して、ローカルファイル(例えば、デバイス上のドキュメント、画像、ビデオなど)、イントラネットファイル、及び/または外部ドライブのフォルダー、クラウドのドキュメントなどを含み得るその他のコンテンツアイテムソースのリンクノートを取得、インスパイア、及び/または生成するためのプロンプト及び/またはインターフェースを生成することができる。
【0038】
いくつかの実施態様では、入力インターフェースは、ユーザ入力を行うための1つまたは複数のオプションを提供する開放型入力インターフェースを含むことができる。代替的及び/または追加的に、入力インターフェースは、リンクノート及び/またはスタンドアロンコンテンツに利用され得るユーザ生成コンテンツを生成するための複数の特徴及び/またはオプションを含むことができる。入力インターフェースは、ユーザが画像、リンク、及び/または異なるテンプレートタイプのコンテンツを追加することを可能にし得、インタラクティブであり得る、独立したコンテンツアイテムのユーザインターフェースを含むことができる。インタラクティブなユーザインターフェースは、画像の提案、テンプレートの提案、テキストの提案、レイアウトの提案、リンクの提案、ウィジェットの提案、テンプレートの提案、及び/または他のオプション(例えば、他のタイプの提案)を含むことができる。
【0039】
画像の提案は、ユーザ入力テキスト、ウェブリソースに関連するデータ、生成されたプロンプト、ストックフォトライブラリ、及び/またはユーザに関連付けられた画像データベース(例えば、ユーザに関連付けられたオンライン画像ギャラリー、及び/またはユーザコンピューティングデバイスのローカル画像)を処理して、特定のコンテキストに関連する画像を決定すること(例えば、ユーザ入力、ウェブリソース、及び/または生成されたプロンプトに関連するもの)を含むことができる。画像の提案は、ウェブリソース及び/またはユーザの入力に関連付けられた1つまたは複数のエンティティ、トピック、及び/または特徴を決定すること、次に、ウェブリソース及び/またはユーザ入力に関連付けられた1つまたは複数のエンティティ、トピック、及び/または特徴に関連付けられた1つまたは複数の特定の画像を決定するためにユーザに関連付けられたストックフォトライブラリ及び/または画像データベース(複数可)を処理することを含むことができる。例えば、ウェブリソースがパスタのレシピについて述べている場合、ストック画像ギャラリー及び/またはユーザ画像ギャラリーで、パスタ、調理、パスタの材料、及び/または台所を描出する画像が検索され得る。他の例は、メキシコ旅行に関連付けられ得る生成されたプロンプトのテキストを決定することを含むことができ、ユーザの画像ギャラリーからの1つまたは複数の画像は、位置メタデータ、特徴検出、光学文字認識、及び/またはメキシコ旅行に関連付けられた1つまたは複数の画像を識別するために利用することができるその他の決定技術に基づいて、特定され、提案され得る。いくつかの実施態様では、画像の提案は、プロンプト埋め込み及び/またはウェブリソース埋め込みを生成してから、1つまたは複数の画像データベースに関連付けられた複数の画像埋め込みに基づいて埋め込み検索を行うことに基づき得る。提案の決定及び表示は、画像、ビデオ、ドキュメントファイル、オーディオ、テキストデータ、テンプレート、及び/または他のデータに対して行われ得る。
【0040】
追加的及び/または代替的に、インタラクティブ入力インターフェースは、「Help Me Write」機能を含むことができる。「Help Me write」機能は、ユーザ生成コンテンツのためのテキストを生成するための生成的言語モデルインターフェースを提供することができる選択可能なユーザインターフェース特徴であることができる。「Help Me Write」機能は、モデル生成されたテキストに対して特定のトーン、スタイル、フォーマット、長さ、及び/または他の属性を選択するためのドロップダウンメニューを含むことができる。「Help Me Write」機能は、ユーザ入力を処理して、入力テキストのスタイル、トーン、フォーマット、言語、語彙、長さ、及び/または簡潔さのレベルを調整及び/または変更することができる。例えば、ユーザは、複数のトーンオプションからトーンを選択し、テキスト文字列を入力することができ、入力インターフェースは、テキスト文字列及び選択したトーンプロンプトを生成的言語モデル(例えば、大規模言語モデル)に提供して、その後、ユーザ生成コンテンツ(例えば、リンクノート及び/またはサンドアローンコンテンツ)に利用され得る、モデル生成テキスト応答を生成し得る。代替的及び/または追加的に、入力インターフェースは、異なる属性オプションの選択に応答して、異なる属性に関連付けられた異なる生成的言語モデルとインターフェースすることができる。異なる生成モデルは、特定の属性に対して訓練及び/または調整され得る。
【0041】
本開示のシステム及び方法は、いくつかの技術的効果及び利点を提供する。一例として、システム及び方法は、プロンプトを生成し、ユーザ入力データを取得するために利用できるインタラクティブユーザインターフェースを提供することができる。具体的には、本明細書で開示されるシステム及び方法は、1つまたは複数の機械学習済みモデルを活用して、いつリンクノートを要求するかを決定し、情報を要求するためのプロンプトを生成することができる。例えば、生成モデルは、ユーザデータ、コンテンツデータ、及び/または他のコンテキストデータを処理して、情報アクションの要求が行われるべきであると決定することができる。追加的及び/または代替的に、生成モデルは、ユーザデータ、コンテンツデータ、及び/または他のコンテキストデータに基づいて、情報を要求するプロンプトを生成することができる。プロンプトをユーザに提供することができ、ユーザ入力を受信することができ、リンクノートを生成及び格納することができる。
【0042】
本開示のシステム及び方法の他の技術的な利点は、ユーザデータ及びコンテンツデータを活用して、どのユーザが特定のウェブリソースに関して信頼できる情報を提供し得るかを決定できること、及び/またはいつユーザに情報を提供するように促すかを決定できることである。例えば、ユーザは、特定のトピックに精通している、及び/または所与のタイプのコンテンツの共通のノートのポスターであると決定することができる。決定に基づいて、ユーザは、所与のウェブリソースへのリンクノートを提供するように促され得る。代替的及び/または追加的に、コンテンツのトピック、コンテンツのタイプ、及び/またはコンテンツとの他のインタラクションを利用して、ウェブリソースがコメントするのに「熟達している」と決定することができる。プロンプトは、ユーザアウェア及びコンテンツアウェアの両方であるプロンプトを提供するために、生成モデルで生成され得る。
【0043】
本明細書に開示されるシステム及び方法は、複数のソースからの複数のデータベースからデータを取得、処理、及び送信するコンピュータシステムによって発生する問題に対処する。ユーザが利用可能な膨大な量のデータは、誤情報、誤った方向、及び/または検証の欠如の可能性をもたらす潜在性がある。検索結果インターフェースのテキストの断片、タイトル、及び/または例示的な画像は、ウェブリソースのコンテンツに関するいくらかの詳細を提供する場合がある。ただし、他のユーザからの情報は、トピック、信頼性、及び/または期待することに関するさらなる洞察を提供することができ、これを利用して、ユーザがナビゲート及びレビューする無関係なウェブリソースのインスタンスを減らすことができる。
【0044】
技術的な効果及び利益の他の例は、計算効率の改善及びコンピューティングシステムの機能の改善に関係する。例えば、本明細書で開示されるシステム及び方法は、ノートの生成を活用して、ユーザベースの妥当性確認を提供することにより、冗長な検索結果のレビューを軽減し得る、リンクに関する情報を提供するインターフェースを提供することができる。フォローアップクエリの量が減少し、ページリダイレクトの量が減少すると、ユーザデバイスでのレイテンシが短縮され得、検索エンジンの計算コストが削減され得る。ここで、図を参照して、本開示の例示的な実施形態をさらに詳しく説明する。
【0045】
図1は、本開示の例示的な実施形態による例示的なリンクノート生成システム10のブロック図を示す。いくつかの実施態様では、リンクノート生成システム10は、ウェブページ及び/または視聴スタンスに関連付けられたユーザデータ、コンテンツデータ、及び/または他のコンテキストデータを記述するコンテキストデータ12を受信及び/または取得するように構成され、コンテキストデータ12の受信の結果として、ユーザからの情報の生成された自然言語要求を記述する予測プロンプト18を生成、決定、及び/または提供する。したがって、いくつかの実施態様では、リンクノート生成システム10は、コンテキストデータ12を処理して、質問、コマンド、テンプレート、及び/または提案されたコメントを記述するテキスト文字列を含む予測プロンプト18を生成するように動作可能な生成モデル16を含むことができる。
【0046】
特に、リンクノート生成システム10は、コンテキストデータ12を取得することができる。コンテキストデータ12は、ユーザデータ(例えば、検索結果ページを視聴している、検索クエリを入力した、及び/または発見フィードを視聴しているユーザに関連付けられたデータ)、コンテンツデータ(例えば、ウェブリソース14のコンテンツに関連付けられたデータ)、及び/または他のコンテキストデータ(例えば、時間、クエリの傾向、コメントの傾向、ニュースなど)を含むことができる。コンテキストデータ12は、ユーザ検索履歴データ、ユーザのブラウズ履歴データ、ユーザの購入履歴データ、ユーザプロファイルデータ、ユーザノート履歴データ、ウェブリソースのトピックラベルデータ、ウェブリソースのコンテンツタイプラベル、ウェブリソースに関する他のノート、及び/または他のデータを含むことができる。コンテキストデータ12は、パーソナライズされた機械学習済みモデル及び/または1つまたは複数の他の機械学習済みモデルを用いて生成され得る。
【0047】
コンテキストデータ12は、表示のために提供されている、以前にレビューされている、及び/または検索結果ページの検索結果に関連付けられているウェブリソース14に基づいて取得され得る。コンテキストデータ12は、1つまたは複数のユーザインタラクション、1つまたは複数のグローバル傾向に基づいて、及び/または特定のタイプのコンテンツ(例えば、論説、チュートリアル、ブログ、ニュース記事、スポーツスコアトラッカなど)に関連付けられているウェブリソース14に基づいて、取得及び/または生成され得る。
【0048】
生成モデル16(例えば、自己回帰言語モデル、拡散モデル、及び/または1つまたは複数の他の生成モデル)は、コンテキストデータ12を処理して、予測プロンプト18を生成することができる。生成モデル16は、言語モデル(例えば、大規模言語モデル、視覚言語モデル、及び/または他の言語モデル)、テキストから画像への生成モデル、及び/または他の生成モデルを含むことができる。予測プロンプト18は、テキストデータ、画像データ、オーディオデータ、潜在エンコーディングデータ、及び/またはマルチモーダルデータを含むことができる。予測プロンプト18は、ユーザが応答し得る質問、ノートを起草するためのテンプレート、及び/または1つまたは複数の選択可能なノートオプションを含むことができる。例えば、予測プロンプト18は、ウェブリソースの意味的分析及び/またはトピック決定に基づいて生成された質問を含むことができ、特定のユーザ及び/または他のユーザによる以前に生成されたノートに基づいて生成されたテンプレート、及び/または同様のウェブリソースについて提供された以前のコメントに基づいた選択可能なノートオプションを含むことができる。いくつかの実施態様では、予測プロンプト18は、ウェブリソース14に関する特定のタイプの情報の要求を記述するものであり得る。代替的及び/または追加的に、予測プロンプト18は、ウェブリソース14に関する一般情報を記述し得る。予測プロンプト18は、ユーザによって以前に提供されていない、及び/またはウェブリソース14に関連して提供されていない新規のテキスト文字列を含むことができる。予測プロンプト18は、複数の予測された文字、ワード、ピクセル、信号、及び/または構造を含むことができる。
【0049】
予測プロンプト18は、入力エントリインターフェースにおいて表示するために提供され得る。ユーザは、入力エントリインターフェースとインタラクトして、サーバコンピューティングシステム(例えば、検索エンジンコンピューティングシステム)に送信され得るユーザ生成コンテンツ20を生成することができる。ユーザ生成コンテンツ20は、テキストデータ、画像データ、オーディオデータ、ビデオデータ、潜在的エンコーディングデータ、及び/またはマルチモーダルデータを含むことができる。ユーザ生成コンテンツ20は、ウェブリソース14に関するノートを記述し得る。ノートは、解釈、意見、レビュー、検証、ならびに/または質及び/またはトピックの表示を記述し得る。ユーザ生成コンテンツ20は、1つまたは複数のグラフィックス、1つまたは複数のウィジェット、1つまたは複数のリンク、1つまたは複数のメディアコンテンツアイテム、及び/またはグラフィック背景を有するグラフィックカードに表示されるノートを含むことができる。
【0050】
リンクノート生成システム10は、ウェブリソース14を用いてリンクノート22にインデックスを付けることができる。インデックス付けを活用して、ウェブリソース14の検索結果を提供するときに、表示のためのリンクノートを含むユーザ生成コンテンツ20を提供することができる。代替的及び/または追加的に、ユーザ生成コンテンツ20は、ノートデータベースに格納され、1人または複数のユーザによって選択されたときにノートインターフェースに表示され得る。
【0051】
図2は、本開示の例示的な実施形態による、例示的なユーザプロンプトシステム200のブロック図を示す。ユーザプロンプトシステム200は、ユーザプロンプトシステム200がアクション決定ブロック230をさらに含むことを除いて、
図1のリンクノート生成システム10に類似する。
【0052】
ユーザプロンプトシステム200は、コンテンツデータ224及びユーザデータ226を取得することができる。データは、検索クエリ、検索結果ページへのオンバックイベント(例えば、ウェブリソースを表示した後に検索結果ページに戻る)、次の検索インスタンス、検索結果であるウェブリソースの次のインスタンスに応答して、及び/または他のトリガイベントに基づいて、取得することができる。コンテンツデータ224は、ウェブリソースのコンテンツを記述することができ、テキスト、画像、ビデオ、レイアウト、オーディオファイル、遷移、潜在的エンコーディングデータ、関連するリンク/ウェブリソース、ウェブリソースのインタラクション履歴、及び/またはウェブリソース及び/または他の同様のウェブリソースに関連する他のデータを含み得る。ユーザデータ226は、ユーザ検索履歴(例えば、ユーザから取得された以前のクエリのログ)、ユーザブラウズ履歴(例えば、以前に訪れたウェブページ及び/またはプラットフォームのログ)、ユーザアプリケーション履歴(例えば、アプリケーションと以前にインタラクトされたログ)、ユーザの購入履歴(例えば、以前に取得した製品及び/またはサービスのログ)、ユーザプロファイル(例えば、ユーザ識別子、ユーザプリファレンス、ユーザタイトル、ユーザアカウント、及び/またはユーザコンタクト)、ノート履歴(例えば、以前に提供された/生成されたノートのログ)、及び/またはソーシャルメディアネットワーク及び/またはアクティビティを記述するデータを含むことができる。
【0053】
コンテンツデータ224及び/またはユーザデータ226は、コンテキストを決定するためにコンテキスト決定ブロック228で処理することができる。コンテキスト決定ブロック228は、1つまたは複数の機械学習済みモデル及び/または1つまたは複数の決定論的関数を含むことができる。コンテキスト決定ブロック228は、コンテキストデータを生成することができる。
【0054】
コンテキストデータは、アクション決定ブロック230で処理されて、入力要求アクションが行われると決定することができる。アクション決定ブロック230は、1つまたは複数の機械学習済みモデル及び/または1つまたは複数の決定論的関数を含むことができる。コンテキスト決定及び/またはアクション決定は、ヒューリスティックスに基づいて行われ得る。
【0055】
入力要求アクションは、プロンプトを生成すること、及び所与のウェブリソースのリンクノートを取得するためにプロンプトを用いてユーザに入力エントリインターフェースを提供することを含み得る。入力要求アクションは、ユーザが応答する尤度、ユーザの信頼性、ユーザの経験、ユーザの知識、前のノートプロバイダとの関連付けの異なるユーザ、特定のウェブリソース対類似のウェブリソースに対するノートの違いを記述するコンテンツのギャップ、1つまたは複数のブログまたはソーシャルメディアプラットフォーム対ノートの量のリンクとのインタラクション間の差異を記述するコメントギャップ、ウェブリソースのトピック、検索のトピック、コンテンツタイプ、コンテンツの意図、及び/または他のデータとに基づいて、決定され得る。
【0056】
特定のコンテンツタイプ(例えば、ニュース記事、ショートストーリー、映画、スキット、ブログポスト、及び/またはソーシャルメディアのポスト)は、リンクノート生成のためにインタラクトされる可能性がより高いと決定され得る、及び/またはリンクノートからより多くの利益を受けるように決定され得る。追加的及び/または代替的に、他のプラットフォームのウェブリソースとのインタラクションが決定され得る。他のプラットフォームでのインタラクションの量及び/または質が、現在のプラットフォームと比較して閾値の差を満たすと決定された場合、入力要求アクションは、より頻繁に決定され得る。例えば、入力要求アクションの閾値は、他のプラットフォームでのインタラクションに基づいて調整され得る。代替的及び/または追加的に、閾値は、ウェブリソースに関連する検索及び/または視聴傾向に基づいて調整され得る。
【0057】
入力要求アクションは、決定の直後に行われてよい、及び/または後で「ナッジ」として提供され得、これは、応答の尤度がより高いと決定された時間であり得る(例えば、ユーザが特定の位置(例えば、家)にいるとき、ユーザのカレンダが空の場合、電話アクティビティが増加した日の特定の時刻、及び/または次のユーザ検索インスタンス時)。「ナッジ」は、デバイスの通知、電子メール、及び/またはアプリケーションベースの通知を介して提供され得る。
【0058】
次に、ユーザプロンプトシステム200は、コンテキストデータを活用して、入力要求アクションの決定に基づいてユーザからのノートを要求するためのプロンプトを生成することができる。コンテキストデータは、ユーザデータ226(例えば、検索結果ページを視聴している、検索クエリを入力した、及び/または発見フィードを視聴しているユーザに関連付けられたデータ)、コンテンツデータ224(例えば、ウェブリソースのコンテンツに関連するデータ)、及び/または他のコンテキストデータ(例えば、時間、クエリの傾向、コメントの傾向、ニュースなど)を含むことができる。コンテキストデータは、ユーザ検索履歴データ(例えば、以前に検索された検索クエリのリスト、これはウェブリソースと同じトピックに関連するクエリを含み得る)、ユーザのブラウズ履歴データ(例えば、以前に視聴されたウェブページのリスト、これはウェブリソースと同じトピックに関連付けられたウェブページを含み得る)、ユーザの購入履歴データ、ユーザプロファイルデータ(例えば、ユーザの名前、職業、教育、プリファレンスなど)、ユーザノート履歴データ、ウェブリソースのトピックラベルデータ、ウェブリソースのコンテンツタイプラベル、ウェブリソースに関するその他のノート、及び/またはその他のデータを含み得る。コンテキストデータは、パーソナライズされた機械学習済みモデル及び/または1つまたは複数の他の機械学習済みモデルを用いて生成され得る。
【0059】
コンテキストデータは、表示のために提供されている、以前にレビューされている、及び/または検索結果ページの検索結果に関連付けられているウェブリソースに基づいて取得され得る。コンテキストデータは、1つまたは複数のユーザインタラクション、1つまたは複数のグローバル傾向に基づいて、及び/または特定のタイプのコンテンツ(例えば、論説、チュートリアル、ブログ、ニュース記事、スポーツスコアトラッカなど)に関連付けられているウェブリソースに基づいて、取得及び/または生成され得る。
【0060】
生成モデル216(例えば、テキスト生成モデル、画像生成モデル、オーディオ生成モデル、ビデオ生成モデル、及び/またはマルチモーダルメディアコンテンツアイテム生成モデル)は、コンテキストデータを処理して、予測プロンプト218を生成することができる。生成モデル216は、言語モデル(例えば、大規模言語モデル、視覚言語モデル、及び/または他の言語モデル)、テキストから画像への生成モデル、及び/または他の生成モデルを含むことができる。予測プロンプト218は、テキストデータ、画像データ、オーディオデータ、潜在エンコーディングデータ、及び/またはマルチモーダルデータを含むことができる。予測プロンプト218は、ユーザが応答し得る質問、ノートを起草するためのテンプレート、及び/または1つまたは複数の選択可能なノートオプションを含むことができる。例えば、予測プロンプト218は、ウェブリソースの意味的分析及び/またはトピック決定に基づいて生成された質問を含むことができる(例えば、未解決事件に関する記事の場合、プロンプトには「未解決事件の分析についてどう思いますか?」「誰が犯罪を犯したと思いますか?」「法医学的証拠に関して記事は理解しやすく包括的でしたか?」などを含んでもよい)。いくつかの実施態様では、予測プロンプト218は、特定のユーザ及び/または他のユーザによって以前に生成されたノートに基づいて生成されたテンプレートを含むことができる(例えば、ユーザが通常、自分のノートを前置詞付きにする場合、プロンプトは、前の音のスタイル及びトーンをエミュレートする前置詞で開始するテンプレートを含み得る)。追加的及び/または代替的に、予測プロンプト218は、同様のウェブリソースに対して提供された以前のコメントに基づいて選択可能なノートオプションを含むことができる(例えば、「事件の分析は包括的で理解でき、妥当な結論が得られた」、「法医学的分析は科学的検証の基盤を欠いていました」、「この記事は、実際の記事というよりはファンの創作だ」など)。いくつかの実施態様では、予測プロンプト218は、ウェブリソースに関する特定のタイプの情報の要求を記述するものであり得る(例えば、政治家についてのバイオグラフィーに対して、「彼らの生い立ちについてどう思いましたか?」「エピローグについての見解を言ってください」「議会歴史家としての私の経験では、このバイオグラフィーは正確だ/信頼できない/よく書かれている/構成が悪い」など)。代替的及び/または追加的に、予測プロンプト218は、ウェブリソースに関する一般情報を記述し得る。予測プロンプト218は、ユーザによって以前に提供されていない、及び/またはウェブリソースに関連して提供されていない新規のテキスト文字列を含むことができる。予測プロンプト218は、複数の予測された文字、ワード、ピクセル、信号、及び/または構造を含むことができる。
【0061】
いくつかの実施態様では、検索クエリの特定の用語、詳細、及び/または構造を利用して、特定のトピックに関するユーザの経験及び/または知識のレベルを判断し得る。検索クエリは、コンテキストデータに含まれてよく、生成モデル216は、決定された経験及び/または知識のレベルを反映する予測プロンプト218を生成し得る。追加的及び/または代替的に、以前の検索クエリを活用して、検索の連鎖のクエリを決定し、検索の意図を決定することができる。次に、検索意図を利用して、検索意図に関連付けられた予測プロンプト218を生成することができる。
【0062】
いくつかの実施態様では、予測プロンプト218は、リンクノートを提供するユーザの傾向に基づいて、ユーザの以前のノートに基づいて、ユーザの信用性、及び/または他のユーザデータに基づいて異なる場合がある。ユーザが以前にリンクノートを提供したことがない、及び/または以前に数個のリンクノートだけを提供した場合、予測プロンプト218は、一般プロンプト、複数選択プロンプト、及び/またはフォーマットの会話で構成され得る。経験豊富なユーザの予測プロンプト218は、以前のインタラクションに基づいて、直接プロンプト、ノートテンプレート、及び/またはオプションをユーザに提供するように生成され得る。
【0063】
予測プロンプト218は、入力エントリインターフェースにおいて表示するために提供され得る。ユーザは、入力エントリインターフェースとインタラクトして、サーバコンピューティングシステム(例えば、検索エンジンコンピューティングシステム)に送信され得るユーザ生成コンテンツ220を生成することができる。ユーザ生成コンテンツ220は、テキストデータ、画像データ、オーディオデータ、ビデオデータ、潜在的エンコーディングデータ、及び/またはマルチモーダルデータを含むことができる。ユーザ生成コンテンツ220は、ウェブリソースに関するノートを記述し得る。ノートは、解釈、意見(例えば、「この記事で論じられているトレードは、両チームの長期的な結果に基づいて公平だったと思います」)、レビュー(例えば、「この短編小説はペースと方向性が適切でなく、主人公の成長がまったくありません」)、検証(例えば、「この記事の事実は、他の信頼できる情報源と一致しています」)、ならびに/あるいは質及び/またはトピックのインジケーション(例えば、「戦争で荒廃した町での愛の危険を描いた、非常によく書かれた劇です」)を記述できる。ユーザ生成コンテンツ220は、1つまたは複数のグラフィックス、1つまたは複数のウィジェット、1つまたは複数のリンク、1つまたは複数のメディアコンテンツアイテム、及び/またはグラフィック背景を有するグラフィックカードに表示されるノートを含むことができる。例えば、リンクノートのテキストは、背景として使用されるモデル生成画像と並んだ色を有する定型化したテキストで提供され得る。
【0064】
いくつかの実施態様では、生成モデル216は、ユーザ生成コンテンツ220を処理し得、フォローアッププロンプトを生成し得る。フォローアッププロンプトは、追加情報を要求する場合がある、及び/またはさらなるカスタマイズのためのオプションを提供する場合がある。
【0065】
ユーザプロンプトシステム200は、ウェブリソースと共にノート222を格納することができる。インデックス付けを活用して、ウェブリソースの検索結果を提供するときに、表示のためのリンクノートを含むユーザ生成コンテンツ220を提供することができる。代替的及び/または追加的に、ユーザ生成コンテンツ220は、ノートデータベースに格納され、1人または複数のユーザによって選択されたときにノートインターフェースに表示され得る。
【0066】
例えば、特定のユーザ及び/または他のユーザが検索クエリを入力し得る。検索エンジンシステムは、ウェブリソースが検索クエリに応答していると判断してもよい。ウェブリソースに関連付けられた検索結果は、ウェブリソースのタイトル、メディアの断片、及びリンクノート(例えば、グラフィックカード)を記述するデータを有する検索結果インターフェースにおいて提供され得る。
【0067】
図3は、本開示の例示的な実施形態に従って機能するための例示的な方法のフローチャート図を示す。
図3は、例示及び説明の目的で特定の順序で行われるステップを示しているが、本開示の方法は、特に示された順序または配置に限定されない。方法300の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組み合わせ、及び/または適合され得る。
【0068】
302で、コンピューティングシステムはコンテンツデータを取得することができる。コンテンツデータはウェブリソースに関連付けることができる。コンテンツデータは、ウェブリソースのコンテンツを記述することができ、テキストデータ、画像データ、ビデオデータ、オーディオデータ、潜在的エンコーディングデータ、及び/またはマルチモーダルデータを含むことができる。コンテンツデータは、ウェブリソースのトピック、コンテンツのタイプ、他のユーザから受信した他のノート、ウェブリソースのメタデータ、ウェブリソースの制作者、及び/またはウェブリソースに関連するエンティティの記述データを含むことができる。コンテンツデータは、コンテンツラベル、ウェブリソースコンテンツ全体、コンテンツの要約、メディアの断片、及び/またはコンテンツ埋め込みを含むことができる。
【0069】
304で、コンピューティングシステムは、生成モデルでコンテンツデータを処理して、予測プロンプトを生成することができる。プロンプトは、ウェブリソースへのコメントに関連した予測されるテキスト文字列を含むことができる。生成モデルは、自己回帰言語モデルを含むことができる。いくつかの実施態様において、生成モデルは、ウェブリソースに関する情報の要求を記述する質問を生成するようにプロンプトできる。生成モデルは、トランスフォーマーモデルを含んでもよい。生成モデルは、ウェブリソースで意味的理解を行い、次いで、意味的理解に基づいてプロンプト(例えば、質問)を生成するように、訓練、構成、及び/またはプロンプトされている場合がある。予測プロンプトは、コンテンツデータに基づいて具体的に決定され得る複数の予測文字を含むことができる。予測プロンプトは、ウェブリソースの質について問う場合がある。予測プロンプトは、ウェブリソースの意見及び/またはレビューについて問う場合がある。
【0070】
いくつかの実施態様では、コンピューティングシステムは、ユーザデータを取得することができる。ユーザデータは、特定のユーザに関連付けることができる。予測プロンプトを生成するために、コンテンツデータを生成モデルにより処理することは、生成モデルによりコンテンツデータ及びユーザデータを処理することを含むことができる。ユーザデータは、ユーザ検索履歴データ、ユーザブラウズ履歴データ、ユーザのソーシャルネットワーク、ユーザプリファレンス、ユーザプロファイル情報、ユーザの位置、ユーザ購入履歴、及び/またはユーザコネクションを含むことができる。生成モデルは、特定のユーザが以前にウェブリソースのトピックに関連付けられた情報を検索していることに基づいて、予測プロンプトを生成することができる。代替的に及び/または追加的に、生成モデルは、特定のユーザが以前にウェブリソースのトピックに関連する情報を含む他のウェブリソースを視聴したことに基づいて予測プロンプトを生成することができる。生成モデルは、特定のユーザが特定のトピック、特定のタイプのコンテンツ、特定の意見、及び/またはコメントするための特定のコンテキストに関連付けられていると判断することができ、判断に基づいて予測プロンプトを生成することができる。
【0071】
306で、コンピューティングシステムは、入力プロンプトインターフェースを用いて表示するために予測プロンプトを提供することができる。入力プロンプトインターフェースは、入力を受信するように構成することができる。入力プロンプトインターフェースは、複数の選択可能なユーザインターフェース要素を含むことができる。いくつかの実施態様では、入力プロンプトインターフェースは、ユーザから入力を受信するための入力エントリボックスを含むことができる。入力プロンプトインターフェースは、メディアコンテンツアイテム(例えば、ドキュメント、画像、テキスト、ビデオ、オーディオファイルなど)をアップロードするためのアップロード要素を含むことができる。いくつかの実施態様では、入力プロンプトインターフェースは、ユーザが生成モデルに入力を提供して、ユーザ入力に基づいてモデル生成ノートを生成するためのインターフェースを含むことができる。代替的及び/または追加的に、複数の選択可能なユーザインターフェース要素は、ユーザ生成コンテンツ(例えば、ユーザ生成ノート)を生成するための1つまたは複数の選択可能なテンプレートを含んでもよい。1つまたは複数のテンプレートは、特定のユーザによって以前に生成されたコンテンツアイテム(例えば、以前に生成されたノート)に基づいて生成され得る。
【0072】
308で、コンピューティングシステムは、入力プロンプトインターフェースを介してユーザコンピューティングシステムからコメント入力データを取得することができる。コメント入力データは、テキストデータ、画像データ、オーディオデータ、潜在エンコーディングデータ、及び/またはマルチモーダルデータを含むことができる。コメント入力データは、1つまたは複数の選択、1つまたは複数のテキスト文字列、及び/または1つまたは複数のアップロードされたファイルを含むことができる。コメント入力データは、ウェブリソースに関するユーザ生成コメントを含むことができる。ユーザ生成コメントは、ウェブリソースの質、ウェブリソースのトピック、及び/またはウェブリソースの他の態様に関するコメントを含むことができる。
【0073】
310で、コンピューティングシステムは、コメント入力データに関連付けられたデータを、ウェブリソースに関連付けられたデータと共に格納することができる。ウェブリソースに関連付けられたデータと共にコメント入力データに関連付けられたデータを格納することは、ウェブリソースノートを生成すること、及びウェブリソースに関連付けられた複数の他のウェブリソースノートと共にウェブリソースノートを格納することを含み得る。コメント入力データは、ウェブリソースに関連してインデックス付けすることができ、データベースに格納され、ウェブリソースの検索結果が提供され得る。コメント入力データに関連付けられたデータは、検索可能なデータベースに格納され得、ウェブリソースが決定された、及び/または検索結果として提供されたことに応答して、表示するために提供される
【0074】
いくつかの実施態様では、コンピューティングシステムは、ウェブリソースノート及び複数の他のウェブリソースノートを、ウェブリソースノート及び複数の他のウェブリソースノートを複数のグラフィックカードに提供するノートインターフェースに提供することができる。
【0075】
追加的及び/または代替的に、コンピューティングシステムは、ユーザデータ、コンテンツデータ、及びコメント入力データに基づいて、グラフィックカードを生成することができる。グラフィックカードは、特定のユーザのユーザプロファイル識別子、及びコメント入力データに関連付けられたデータを含み得る。その後、コンピューティングシステムは、グラフィックカードを格納することができる。グラフィックカードは、コメント入力データに基づいて画像生成モデルで生成されたグラフィック背景を含むことができる。
【0076】
いくつかの実施態様では、コンピューティングシステムは、検索クエリを取得し、ウェブリソースが検索クエリに関連付けられていると判断し、表示のために特定の検索結果を提供することができる。特定の検索結果は、ウェブリソースへのリンク、ウェブリソースのタイトル、及びコメント入力データに関連付けられたデータを含むことができる。
【0077】
図4は、本開示の例示的な実施形態による、例示的なプロンプトの図を示す。詳細には、例示的な入力エントリインターフェース402が
図4に示されている。例示的な入力エントリインターフェース402は、入力要求アクションが行われるべきであり、予測プロンプトが生成されるべきであると決定することに応答して提供され得る。入力エントリインターフェース402は、ウェブリソース404へのリンク及び/または参照、ユーザ生成コンテンツの生成中に提供される入力を表示するための構成パネル406、1つまたは複数の選択可能な予測プロンプト408、及び/または1つまたはオーディオ入力及び/またはマルチメディア入力(例えば、画像)を提供するための1つまたは複数のユーザインターフェース要素を含むことができる。
【0078】
1つまたは複数の選択可能な予測プロンプト408は、生成的言語モデルを用いてウェブリソース404のコンテンツを処理することによって生成される予測プロンプトを含むことができる。代替的及び/または追加的に、1つまたは複数の選択可能な予測プロンプト408は、ウェブリソース404によって提供される記事に類似した記事に関連付けられたノートを、生成的言語モデルを用いて処理することによって生成される予測プロンプトを含むことができる。
【0079】
提案される予測プロンプトは、複数のフォーマットで提供され得る。追加的または代替的に、予測プロンプトの数及び/または長さは、コンテンツ、ユーザ、及び/または他のコンテキストデータに基づいて異なり得る。例えば、3つのオプションが提供412され得る、または10個のオプション414が提供され得る。ノートオプションは、リンクノートとして、及び/またはリンクノートの一部としてユーザが選択することができる複数の選択可能なプロンプトを含むことができる。
【0080】
入力エントリインターフェース402は、テキスト入力(例えば、グラフィカルキーボードインターフェースを介する)、オーディオ入力(例えば、1つまたは複数のマイクロフォンを介する)、選択(例えば、予測プロンプトノートオプションに関連付けられたユーザインターフェース要素の選択)、及び/またはメディアコンテンツアイテムの入力(例えば、画像のアップロード)を受信するために利用することができる。受信した入力は、構成パネル406のプレビューウィンドウに表示するために提供され得、次に、リンクノートを含み得るユーザ生成コンテンツアイテムを生成するために利用され得る。
【0081】
図5Aは、本開示の例示的な実施形態による、トピックをプロンプトする例示的なノートインターフェースの図を示す。例示的なノートインターフェースを利用して、ウェブリソース502についてさらに学習し、ウェブリソース502に関する他のユーザの考えを読み取り、及び/またはウェブリソース502に関する新しいノートを生成及び提供することができる。具体的には、
図5Aは、ウェブリソース502へのリンク、以前に提供されたノート504、ユーザからの情報を要求するための1つまたは複数のプロンプト506、及び推奨ユーザインターフェース要素508を示す。ウェブリソース502へのリンクは、サムネイル、URL、及びタイトルを含むことができる。以前に提供されたノート504は、他のユーザによって提供された画像及び/またはテキストを含むことができる。以前に提供されたノート504は、推奨、コメントなどを含むインタラクションデータと共に提供され得る。ユーザから情報を要求するための1つまたは複数のプロンプト506は、ユーザがノートに応答するための議論のトピックを含むことができる。推奨ユーザインターフェース要素508を利用して、ウェブリソース502及び/または以前に提供されたノート504とインタラクトすることができる。
【0082】
図5Bは、本開示の例示的な実施形態による、類似した記事をプロンプトする例示的なノートインターフェースの図を示す。例示的なノートインターフェースを利用して、ウェブリソース502についてさらに学習し、ウェブリソース502に関する他のユーザの考え(例えば、ウェブリソースのトピック及び/またはウェブリソースの質に関する意見)を読み取り、及び/またはウェブリソース502(例えば、ユーザがウェブリソースに関する自分の詳細及び/または考えを提供することができる)に関する新しいノートを生成及び提供することができる。具体的には、
図5Bは、ウェブリソース502へのリンク、以前に提供されたノート504、ウェブリソース502に類似した記事にコメントするユーザインターフェース要素510、及び提案された記事512を示す。ウェブリソース502へのリンクは、サムネイル、URL、及びタイトルを含むことができる。以前に提供されたノート504は、他のユーザによって提供された画像及び/またはテキストを含むことができる。以前に提供されたノート504は、推奨、コメントなどを含むインタラクションデータと共に提供され得る。ウェブリソース502に類似した記事にコメントするユーザインターフェース要素510は、提案された記事512を含み得る、1つまたは複数の同様のウェブリソースに関するリンクノートを提供するための入力エントリインターフェースを開くように選択可能であり得る。
【0083】
図5Cは、本開示の例示的な実施形態による、例示的な予測プロンプトの図を示す。具体的には、ウェブリソースに関連するコンテンツデータ、及び/またはプロンプトされている特定のユーザに関連するユーザデータは、生成モデルで処理されて、1つまたは複数の予測プロンプトを生成することができる。
図5Cは、例示的な質問プロンプト514及び開始点プロンプト516を示す。質問プロンプト514は、特定のトピック及び/またはサブトピックに関する情報を提供するようにユーザに尋ねるための質問を含むことができる。開始点プロンプト516は、ユーザが自身のリンクノートから構築するための導入文を含むことができる。リンクノートを含むユーザ生成コンテンツは、検索結果インターフェース及び/またはノートインターフェースで提供されるときに開始プロンプトを含み得る。
【0084】
図6A~
図6Cは、本開示の例示的な実施形態による例示的なリンクノートエントリポイントの図を示す。リンクノート生成インターフェースへのエントリポイントは、複数の異なるインターフェース及び/または媒体において提供され得る。具体的には、
図6Aは、例示的な検索結果602の例示的な検索結果インターフェースを示す。検索インスタンスに関連するコンテキストデータ(例えば、ユーザデータ、検索クエリ、及び/または検索結果)は、リンクノートプロンプトが提供されると決定するように処理され得る。
図6Aは、ユーザがこのトピックを以前に検索したと決定することに応答して提供される第1の例示的なプロンプト604を示す。さらに、
図6Aは、インタラクション傾向を決定すること、及び/または特定のウェブリソースが、ノート生成のためにインタラクトされることが多いコンテンツタイプであると決定することに応答して、提供される第2の例示的なプロンプト606を示す。
【0085】
図6Bは、リンクノートのプロンプト及び生成のための3つの異なるエントリポイントを示す。第1のエントリポイント608は、ブラウザアプリケーションのドロップダウンメニューを含むことができる。ユーザはオプションのドロップダウンを選択し、そのドロップダウンからノート生成オプションを選択することができる。第2のエントリポイント610は、検索結果インターフェース内に含まれてもよい。ユーザは、検索結果インターフェース内のオプションを選択して、以前に視聴したコンテンツについてコメントすることができる。第3のエントリポイント612は、ウェブリソースのコンテンツの視聴ウィンドウに提供され得るオーバーレイユーザインターフェース要素を含むことができる。オーバーレイユーザインターフェース要素は、ウェブリソース、ブラウザ、及び/またはユーザコンピューティングデバイスのオペレーティングシステムによって提供され得る。
【0086】
図6Cは、検索レビューエントリポイントを表す。具体的には、ウィジェット及び/またはグラフィカルペインをユーザに提供して、以前の検索経験のレビューを提供することができ、これは、ドロップダウンリスト要素614を選択して、視聴されたコンテンツリスト616からウェブリソースを選択し、どのウェブリソースが特定の検索に有用であったかを示すことを含むことができる。選択は、リンクノートの生成、ウェブリソースの再ランク付け、及び/またはリンクノート生成インターフェースにナビゲートするために利用され得る。
【0087】
図7は、本開示の例示的な実施形態に従って行うための例示的な方法のフローチャート図を示す。
図7は、例示及び説明の目的で特定の順序で実行されるステップを示しているが、本開示の方法は、特に示された順序または配置に限定されない。方法700の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組み合わせ、及び/または適合され得る。
【0088】
702で、コンピューティングシステムはコンテキストデータを取得することができる。コンテキストデータは、特定のコンテンツ表示インスタンスに関連付けることができる。特定のコンテンツ表示インスタンスは、特定のコンテンツアイテムを視聴している特定のユーザを含むことができる。いくつかの実施態様では、コンテキストデータは、表示のために提供されているコンテンツのタイプ(例えば、記事、学術論文、ブログポスト、百科全書エントリ、ビデオ、メディアコンテンツライブラリ、及び/または他のタイプのコンテンツ)に関連付けられ得る。追加的または代替的に、コンテキストデータは、特定のコンテンツ表示インスタンスに関連付けられた特定のユーザに関連付けられ得る。コンテキストデータは、検索履歴データ、ブラウズ履歴データ、ユーザプロファイルデータ、購入履歴データ、ソーシャルネットワークデータ、及び/または他のユーザデータを含むことができる。
【0089】
704で、コンピューティングシステムは、コンテキストデータに基づいて入力要求アクションを決定することができる。入力要求アクションは、ユーザ入力を取得するために入力エントリインターフェースをユーザに提供することを含むことができる。表示用に提供されているコンテンツは、特定のウェブリソースに関連付けられ得る。コンテキストデータは、複数のソーシャルネットワークプラットフォームの特定のウェブリソースのリンクのインタラクションデータ(例えば、リンクのポスト、コメント、再ポスト、いいね、及び/またはメンション)に関連付けることができる。いくつかの実施態様では、入力要求アクションは、インタラクションデータに基づいて決定することができる。コンテキストデータは、ユーザデータ及びコンテンツデータを含むことができる。追加的または代替的に、入力要求アクションは、表示用に提供されているコンテンツに関連付けられたトピックが、ユーザデータに基づいて特定のユーザが知識を持っていると判断される複数のトピックの1つであることに基づいて、決定され得る。
【0090】
706で、コンピューティングシステムは、生成的言語モデルでコンテキストデータを処理して、予測プロンプトを生成することができる。予測プロンプトは、コンテキストデータに基づいて生成された情報の自然言語要求を含むことができる。コンテキストデータは、特定のユーザによって生成された以前のノートを含むことができる。予測プロンプトは、以前のノートについての以前の構造に基づいた構造を含むことができる。いくつかの実施態様では、生成モデルは、コンテンツデータを処理して、特定のウェブリソースのコンテンツに基づいて予測プロンプトを生成してよい。
【0091】
708で、コンピューティングシステムは、入力エントリインターフェースに予測プロンプトを提供することができる。予測プロンプトは、入力テキスト及び/または画像を受信して表示するための入力エントリボックスに隣接して提供され得る。入力エントリインターフェースは、特定のウェブリソースの検索結果に隣接するパネルを含むことができる。代替的及び/または追加的に、入力エントリインターフェースは、ポップアップインターフェースにおいて提供されてもよく、及び/または1つまたは複数の入力に基づいてリダイレクトされ得る。
【0092】
710で、コンピューティングシステムは、入力エントリインターフェースを介してユーザ生成コンテンツを取得することができる。ユーザ生成コンテンツは、テキストデータ、画像データ、ビデオデータ、オーディオデータ、潜在的エンコーディングデータ、統計データ、及び/またはマルチモーダルデータを含むことができる。ユーザ生成コンテンツは、アップロードインターフェースを介して、及び/または入力エントリボックスを介して取得され得る。
【0093】
712で、コンピューティングシステムは、ユーザ生成コンテンツに基づいてリンクノートを生成することができる。いくつかの実施態様では、コンピューティングシステムは、リンクノートを含むグラフィックカードを生成することができる。グラフィックカードは、ユーザによって選択され得る、及び/または自動的に生成され得る、グラフィック背景を含むことができる。グラフィック背景は、ウェブリソースのコンテンツ、リンクノートのコンテンツ、及び/またはノートのタイプに基づいて生成され得る。グラフィックカード及び/またはリンクノートは、ウェブリソースに関連するデータを提供するために格納され得る。特定のコンテンツアイテムが検索結果として決定されたことに応答して、検索結果インターフェースに表示するために提供されるリンクノートが生成され得る。
【0094】
図8は、本開示の例示的な実施形態に従って行うための例示的な方法のフローチャート図を示す。
図8は、例示及び説明の目的で特定の順序で行われるステップを示しているが、本開示の方法は、特に示された順序または配置に限定されない。方法800の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組み合わせ、及び/または適合され得る。
【0095】
802で、コンピューティングシステムは、第1の時間に第1の検索クエリを取得し、ウェブリソースが第1の検索クエリに応答していると決定することができる。第1の検索クエリは、テキストクエリ、画像クエリ、オーディオクエリ、埋め込みクエリ、及び/またはマルチモーダルクエリを含むことができる。ウェブリソースは、検索エンジンによって特定され得、検索エンジンは、キーワード検索、埋め込みベースの検索、及び/または他の検索技法を行ってもよい。ウェブリソースは、第1の検索クエリのトピック、質問、及び/または意図に応答するように決定され得る。
【0096】
804で、コンピューティングシステムは、コンテンツデータを取得し、生成モデルでコンテンツデータを処理して、予測プロンプトを生成することができる。コンテンツデータはウェブリソースに関連付けることができる。プロンプトは、ウェブリソースへのコメントに関連付けられた予測されるテキスト文字列を含むことができる。コンテンツデータは、ウェブリソースのコンテンツ全体、メディアの断片、コンテンツの要約、コンテンツラベル、メタデータ、及び/またはウェブリソースに関連する以前に提供されたリンクノートのコンテンツを記述し得る。生成モデルは、コンテンツデータを処理して、トピック、視点、意図、主題、構造、意図したオーディエンス、コンテンツのタイプ、及び/または他のコンテンツの詳細を決定することができる。次に、決定に基づいて予測プロンプトが生成され得る。
【0097】
806で、コンピューティングシステムは、入力プロンプトインターフェース内に表示するために予測プロンプトを提供し、入力プロンプトインターフェースを介してユーザコンピューティングシステムからコメント入力データを取得することができる。入力プロンプトインターフェースは、入力エントリボックスを含むことができる。いくつかの実施態様では、入力プロンプトインターフェースは、コンテンツ(例えば、ノート)を起草するための複数のユーザインターフェース要素を含み得る。コメント入力データは、ユーザ生成コンテンツを含むことができる。いくつかの実施態様では、コメント入力データはマルチモーダルデータを含むことができる。マルチモーダルデータは、テキストデータ及び画像データを含むことができる。
【0098】
808で、コンピューティングシステムは、ユーザ生成コンテンツを格納することができる。ユーザ生成コンテンツは、ウェブリソースへのリンクでインデックス付けされ得る。代替的及び/または追加的に、ウェブリソースは、ユーザ生成コンテンツでインデックスが付けられてよい。ユーザ生成コンテンツは、特定のウェブリソース及び/または特定のユーザに関連する他のユーザノートと共に格納され得る。
【0099】
810で、コンピューティングシステムは、第2の時間に第2の検索クエリを取得し、ウェブリソースが第2の検索クエリに応答していると決定することができる。第2の時間は第1の時間とは異なり得る。いくつかの実施態様において、第1の検索クエリ及び第2の検索クエリが異なり得る。第2の検索クエリは、テキストクエリ、画像クエリ、オーディオクエリ、埋め込みクエリ、及び/またはマルチモーダルクエリを含むことができる。ウェブリソースは、検索エンジンによって特定され得、検索エンジンは、キーワード検索、埋め込みベースの検索、及び/または他の検索技法を行ってもよい。ウェブリソースは、第2の検索クエリのトピック、質問、及び/または意図に応答するように決定され得る。
【0100】
812で、コンピューティングシステムは、ウェブリソースを記述するデータを備えた検索結果インターフェースにユーザ生成コンテンツを提供することができる。ユーザ生成コンテンツには、ウェブリソースへのリンク、タイトル、及びテキストの断片が提供され得る。
【0101】
図9A~
図9Gは、本開示の例示的な実施形態による、例示的なグラフィックカードインターフェースの図を示す。本明細書に開示されるシステム及び方法を利用して、リンクノート及び/またはスタンドアロンコンテンツを含むことができる、ユーザ生成コンテンツ用のグラフィックカードを生成することができる。
【0102】
図9Aは、2つの例示的なグラフィックカードを示す。図示されているグラフィックカードは、ユーザプロファイル識別子902(例えば、ユーザプロファイル画像及び名前)、カード904の本体(例えば、グラフィック背景の上に重ねられた定型化したテキストのリンクノート)、ウィジェットインターフェース要素906(例えば、ウェブリソース及び/または追加コンテンツにリダイレクトするための選択可能なユーザインターフェース要素)、及び/またはインタラクション情報908(例えば、いいね、コメント、及び/またはグラフィックカードへの保存)を含み得る。カード904の本体は、特定のユーザによって構成され得る、及び/またはリンクノート、ウェブリソース、及び/またはユーザプリファレンスに基づいて自動的に生成され得る。ウィジェットインターフェース要素906は、ウェブページへのリンク、画像ギャラリーへのリンク、ビデオへのリンク、ポップアップインターフェースを開くための選択可能な要素、追加のノート、及び/または他のデータを含むことができる。
【0103】
図9Bは、例示的なマルチページのユーザ生成コンテンツ及び例示的なビデオユーザ生成コンテンツを示す。マルチページのユーザ生成コンテンツは、ユーザ生成コンテンツを表示するために循環することができる複数のグラフィックカードを含むことができる。ビデオユーザ生成コンテンツは、グラフィックス及び/またはビデオ上にオーバーレイされるテキストを伴うビデオを含むことができる。
【0104】
ウィジェットインターフェース要素906は、ウェブリソースへのリンク、1つまたは複数の他のウェブリソースへのリンク、表示のためのビデオを提供するように選択可能なビデオ要素、表示のためのメディアコンテンツを提供するためのメディアコンテンツ表示要素(例えば、ビデオ、画像、オーディオファイル、及び/または他のメディア)、ウェブリソースのレビュー、他のノートへのリンク、構造コンテンツアイテム(例えば、構造化されたレシピ及び/または構造化された計算機)、リスト(例えば、材料リスト)、マッププレースカード(例えば、ウェブリソースに関連付けられたマップ及び/またはウェブアプリケーションへのリンク)、ナレッジパネル、及び/またはショッピングインターフェースへのリンクを含むことができる。
【0105】
図9Cは、グラフィックカードとの例示的なインタラクションを示す。例えば、ユーザプロファイル識別子902を選択して、ユーザのプロファイル910をピークにすることができる。追加的及び/または代替的に、ビデオウィジェット要素912が、再生のためのビデオを展開するように、及び/またはビデオプレーヤインターフェースにナビゲートするように選択され得る。グラフィックカードは、アドオン914を最小化するように選択され得る。ナレッジパネルウィジェット要素916を選択して、ナレッジパネルを展開し、表示のための追加情報を提供することができる。インタラクション要素918は、ユーザ生成コンテンツのいいね、コメント、保存、及び/または共有するために選択され得る。
【0106】
図9Dは、ウィジェットインターフェース要素(例えば、アドオン要素)のプロミネンスレベルを示す。具体的に、図示されるスムージーの材料及び指導は、中程度のプロミネンスインターフェース要素922(例えば、詳細なビューの状態)、低プロミネンスインターフェース要素924(例えば、折りたたみ状態)、及び/または高プロミネンスグラフィックパネル926(例えば、展開状態)で提供され得る。いくつかの実施態様では、ユーザはウィジェットインターフェース要素とインタラクトして、詳細のレベル及び/またはサイズの間で移行することができる。
【0107】
図9Eは、検索結果インターフェース930におけるノートの検索結果を示す。ノートの検索結果は、他の検索結果に隣接する別個のタブ、及び/またはカテゴリ別パネル内に提供され得る。ノートの検索結果932は、ユーザ生成コンテンツの拡大ビューを表示する没入型ビューア936にナビゲートするように選択可能であり得る。
【0108】
図9Fは、異なるグラフィックカード表示及び/またはノートインターフェース表示を示す。グラフィックカードは、垂直方向にスクロール可能な単一幅形式940、オフセットされた垂直方向にスクロール可能な2つの幅の形式942、他の検索結果形式内の水平方向にスクロール可能なカルーセルインターフェース944、及び/または整列された垂直方向にスクロール可能な2つの幅の形式946で表示され得る。フォーマットは、トピック、インターフェースのタイプ、ユーザプリファレンス、及び/またはコンテキストに基づいてよい。
【0109】
図9Gは、異なるカスタマイズオプションを示すことができる。例えば、グラフィックカードカスタマイズインターフェースは、グラフィックカードを生成するために提供され得、これは、テキストの編集952、レイアウトの編集954、画像の編集956、及び/または他のカスタマイズオプションを含み得る。具体的に、インタラクティブインターフェースは、コンテンツ生成のための複数のオプション(及び/または特徴)を含むことができる。複数のインターフェース特徴は、テキスト、画像、オーディオ、ビデオ、テンプレート、及び/または他の入力オプションを含むことができる。複数のインターフェース特徴は、コンテンツ提案、テンプレート提案、及び/または生成モデル支援生成のための1つまたは複数の生成モデルインターフェース(例えば、テキストをリライトする及び/またはテキストをプロアクティブに生成するための大規模言語モデル、ウェブリソース、ユーザ入力、及び/または生成されたプロンプトに基づいて新しい画像を生成する画像生成モデル、ナレーション、歌、及び/またはその他のオーディオを生成するためのオーディオ生成モデル、及び/またはウェブリソース、生成されたプロンプト、及び/またはユーザ入力を処理して、リンクノート及び/またはスタンドアロンコンテンツのためユーザに提案できるグラフィックカードを生成するためのグラフィックカード生成モデル)を含むことができる。複数のインターフェース特徴は、レイアウト、フォント(複数可)、インターフェース要素サイズ(複数可)、画像(複数可)、テキスト、遷移(複数可)、トーン、陰影、及び/または他のユーザ生成コンテンツの特徴をカスタマイズするためのカスタマイズオプションを含むことができる。複数のインターフェース特徴は、ユーザ生成コンテンツのグラフィックカードにアクションユーザインターフェース要素を追加するオプションを含むことができる。アクションユーザインターフェース要素は、1つまたは複数のアクション(例えば、APIコール、異なるアプリケーションへのナビゲーション、検索、生成モデルを用いたコンテンツアイテム生成など)を行うための選択可能なオプションを含むことができる。
【0110】
本明細書に開示されるシステム及び方法は、グラフィックカードを生成するための画像の提案及び/または画像の生成を含むことができる。例えば、システム及び方法は、データベース(例えば、サーバデータベース、ローカルデータベース、及び/またはユーザ画像ギャラリー)からの画像が、ウェブリソース、プロンプト、及び/またはリンクノートに関連付けられていると決定し得る。次に、画像は、グラフィックカードで利用される提案として提供され得る。代替的及び/または追加的に、システム及び方法は、グラフィックカードに含める画像を生成するために、画像生成モデル(例えば、テキストから画像への生成モデル)インターフェースを提供し得る。例えば、画像生成モデルインターフェースをユーザに提供することができ、ユーザは画像生成モデルにプロンプトを提供してもよく、画像生成モデルは、次に、グラフィックカードで利用できるモデル生成画像を生成することができる。
【0111】
いくつかの実施態様では、1つまたは複数の機械学習済みモデルを利用して、ウェブリソース及び/またはリンクノートをファクトチェックすることができる。1つまたは複数の機械学習済みモデルは、情報を取得する、及び/または他のアプリケーションとインタラクトするために、APIコールのためのアプリケーションプログラミングインターフェースを利用できる1つまたは複数の生成モデルを含んでもよい。
【0112】
いくつかの実施態様では、生成モデルを利用して、ウェブリソースでインデックス付けされ、リンクノートの例を提供し、及び/または意味的理解ノートを提供することができる1つまたは複数のモデル生成リンクノートが生成され得る。代替的及び/または追加的に、生成モデルを利用して、リンクノート及び/またはサンドアローンコンテンツを書き換え及び/または提案することができる。インタラクティブユーザインターフェースは、生成モデルとインタラクトしてコンテンツ(例えば、テキスト、画像(複数可)、及び/または他のデータ)を生成するためのインターフェースを含むことができる。インタラクティブユーザインターフェースは、トーン、スタイル、フォーマット、レキシコン、ジャンル、及び/または特定の属性を有するコンテンツを生成するように生成モデルを調節するための他の属性を選択するためのオプションを含むことができる。例えば、インタラクティブユーザインターフェースは、ユーザ入力、リンクノートプロンプト、及び/またはウェブリソースに基づいて、生成モデルのためのプロンプトを生成するように構成することができる。
【0113】
検索結果インターフェース及び/または発見インターフェースは、特定の検索の量、ウェブリソース選択の量、及び/またはリンク及び/または検索クエリのインタラクションの傾向に関する統計を提供し得る。
【0114】
いくつかの実施態様では、システム及び方法は、1つまたは複数の寄与傾向モデルを訓練すること、及び/または活用することを含むことができる。寄与傾向モデルは、特定のユーザ及び/またはユーザの特定のセットについてのユーザ信用性(例えば、ユーザの関連する経験、専門知識、及び/または信頼性)を学習する、及び/または決定することができる。追加的及び/または代替的に、寄与傾向モデルは、リンクノートを提供する傾向を学習及び/または決定することができる。
【0115】
寄与傾向モデルは、寄与する尤度、信用性、ノートの有用性、及び/またはユーザ、ウェブリソース、及び/またはコンテキストに関連付けられた他の属性を検出するように訓練され得る。寄与傾向モデルは、ラベル付けされたデータセットで、ラベル付けされていないデータセットに基づいて、及び/またはハイブリッドデータセットに基づいて訓練され得る。いくつかの実施態様では、寄与傾向モデルは、寄与予測タスクを学習するためのインタラクションデータで訓練され得、信用性決定タスクのための検証モデルからの出力で訓練され得、及び/または有用性決定タスクのためのクリック率で訓練され得る。
【0116】
図10は、本開示の例示的な実施形態による、例示的なカード生成インターフェース1000の図を示す。具体的に、ユーザは、リンクノートのグラフィックカードを生成するオプションを選択し得る。その選択に基づいて、テンプレート1002が選択され、表示のために提供され得る。特定のテンプレートは、リンクノートに関連付けられたウェブリソースに基づいて(例えば、ウェブリソースのコンテンツに基づいて)、ユーザインタラクション履歴に基づいて、クエリ履歴に基づいて、ユーザプロファイルデータに基づいて、及び/または他のデータに基づいて選択され得る。
【0117】
カード生成インターフェース1000は、トピックのアイデアを含み得る、リンクノート生成のための複数の提案されたプロンプトに関連付けられたプルアップメニュー1004を含み得る。ユーザは、メニューをプルアップして、提案されたプロンプトの拡大ビュー1006を提供してもよい。拡大ビュー1006は、グラフィックカードに挿入されるテキスト、画像、及び/またはレイアウトを生成するように選択され得る複数の選択可能な提案されたプロンプトを含むことができる。例えば、「プロのようにモンステラに水をやる方法」の提案を選択することができる。選択されたプロンプト提案に関連付けられたコンテンツアイテムが、グラフィックカードに挿入され得、グラフィックカードは編集インターフェース1008に移行し得る。編集インターフェース1008は、テキスト、スタイル、レイアウト、フォント、色、及び/または他の編集を編集するためのオプションを含むことができる。
【0118】
図11は、本開示の例示的な実施形態による、例示的なコンテンツアイテム生成インターフェース1100の図を示す。具体的に、グラフィックカードテンプレートを修正する際に、入力ドラフトインターフェースを利用して、1つまたは複数のコンテンツアイテムを生成し得る。
【0119】
例えば、ユーザは、コンテンツアイテム生成インターフェース1100を開くオプションを選択してもよい。1102で、ユーザはドロップダウンメニューから1つまたは複数の属性を選択してもよい。1つまたは複数の属性は、生成されるコンテンツアイテムの要求された属性に関連付けられ得る。1つまたは複数の属性は、コンテンツのトーン及び/またはスタイルに関連付けられ得る。1104で、ユーザはテキスト入力を生成及び/または提供してもよい。テキスト入力は、トピック、意図、情報、及び/または他のプロンプトの詳細に関連付けることができる。1つまたは複数の属性及びテキスト入力は、モデル生成コンテンツアイテムを生成するために生成モデルで処理することができる。モデル生成コンテンツアイテムは、1つまたは複数の属性を有することができ、テキスト入力のトピック、意図、情報、及び/または他のプロンプトの詳細を対象としてもよい。
【0120】
1106で、モデル生成コンテンツアイテムは、テキスト入力の下に表示するために提供され得、複数のオプションと共に提供され得る。複数のオプションは、1つまたは複数の属性の編集、テキスト入力の編集、データの再処理、モード生成されたコンテンツアイテムの保存、インターフェースから出ること、モデル生成コンテンツアイテムをグラフィックカードに挿入すること、及び/または他のオプションを含むことができる。1108で、修正済みグラフィックカードが、ユーザ選択に基づいてグラフィックカードに挿入されたモデル生成コンテンツアイテムと共に表示のために提供され得る。次に、ユーザは、モデル生成コンテンツアイテム及び/またはグラフィックカードの他のコンテンツのレイアウト、サイズ、色、フォント、及び/または向きを編集することができる。
【0121】
図12は、本開示の例示的な実施形態による、例示的な画像提案インターフェース1200の図を示す。具体的に、画像提案インターフェース1200は、カードデータ、コンテキストデータ、及び/または入力データを取得することができる。次に、カードデータ、コンテキストデータ、及び/または入力データは、グラフィックカードへの挿入のための提案として提供される1つまたは複数の画像(及び/または他のメディアコンテンツアイテム)を決定するよう処理され得る。
【0122】
例えば、1202において、追加のテキスト、ステッカー、及び/または画像を挿入するオプションを伴う表示のために、グラフィックカードが提供される。次に、ユーザは画像追加オプションを選択してもよい。1204で、画像選択インターフェースを表示のために提供することができ、画像選択インターフェースは、グラフィックカードのテキスト、リンクノートに関連付けられたウェブリソースのコンテンツ、ユーザ履歴、及び/または他のデータに基づいて、デフォルト画像、カメラロール画像、及び/または画像の提案を含むことができる。例えば、ユーザの画像ギャラリーからの複数の画像は、グラフィックカードのテキストで参照された位置(例えば、メキシコ)に画像が関連付けられていると決定することに基づいて、グラフィックカードのテキストに関連すると決定され得る。1206で、識別された画像が、選択のため表示のために提供され得る。ユーザは、特定された画像から特定の画像を選択してもよく、画像は処理され、グラフィックカードに挿入され得る。1208において、選択された画像は、トリミングされ、表示のためにグラフィックカードに挿入され得る。
【0123】
図13は、本開示の例示的な実施形態に従って行うための例示的な方法のフローチャート図を示す。
図13は、例示及び説明の目的で特定の順序で行われるステップを示しているが、本開示の方法は、特に示された順序または配置に限定されない。方法1300の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組み合わせ、及び/または適合され得る。
【0124】
1302において、コンピューティングシステムは、カードデータを取得することができる。カードデータは、グラフィックカード内のコンテンツを記述することができる。コンテンツは、1つまたは複数のトピックに関連付けられ得る。グラフィックカードは、リンクノートに関連付けられ得る。リンクノートは、特定のウェブリソースにタグ付けされたユーザ生成コンテンツを含むことができる。グラフィックカードは、背景、1つまたは複数の画像、1つまたは複数のテキスト文字列、及び/または1つまたは複数のユーザインターフェース要素を含むことができる。背景は、単色、複数の色、画像、及び/または他のデータを含み得る。1つまたは複数のユーザインターフェース要素は、表示のための追加情報を提供するための、及び/または1つまたは複数のアクションを行うための選択可能なウィジェットを含むことができる。コンテンツは、テキストデータ、画像データ、ビデオデータ、潜在的エンコーディングデータ、マルチモーダルデータ、及び/またはその他のデータを含むことができる。
【0125】
1304で、コンピューティングシステムは、カードデータを処理して、コンテンツに関連付けられた1つまたは複数のエンティティタグを決定することができる。1つまたは複数のエンティティタグは、1つまたは複数のトピックに関連付けられ得る。カードデータを1つまたは複数の機械学習済みモデル(例えば、生成モデル、分類モデル、及び/または他のモデル)で処理して、エンティティタグを生成し得る。エンティティタグは、1つまたは複数のオブジェクト、1つまたは複数の会社、1つまたは複数の場所、1つまたは複数の個人、1つまたは複数の構造、及び/または他のエンティティに関連付けられ得る。
【0126】
1306で、コンピューティングシステムは、メディアコンテンツアイテムデータベースにアクセスして、1つまたは複数のメディアコンテンツアイテムを取得することができる。1つまたは複数のメディアコンテンツアイテムが、コンテンツに関連する1つまたは複数のエンティティタグに関連付けられていると決定することに基づいて、1つまたは複数のメディアコンテンツアイテムが取得され得る。メディアコンテンツアイテムデータベースは、ユーザ固有のデータベースを含むことができる。いくつかの実施態様において、ユーザ固有のデータベースは、特定のユーザに関連付けられ得る。特定のユーザが、コンテンツの少なくとも一部を生成している場合がある。ユーザ固有のデータベースは、特定のユーザに関連付けられた画像ギャラリーを含むことができる。画像ギャラリーは、特定のコンテンツアイテムストレージプラットフォームと関連付けられたサーバコンピューティングシステムに格納され得る。代替的及び/または追加的に、ユーザ固有のデータベースは、ユーザコンピューティングデバイスのローカルストレージデータベースを含むことができる。メディアコンテンツアイテムデータベースは、複数のメディアコンテンツアイテムを含むことができる。複数のコンテンツアイテムは、複数のそれぞれのメタデータセットを生成するために前処理されている場合がある。1つまたは複数のメディアコンテンツアイテムがコンテンツに関連付けられた1つまたは複数のエンティティタグに関連付けられていると決定することは、1つまたは複数のメディアコンテンツアイテムがエンティティタグに関連付けられた特徴を含むかどうかを決定することを含むことができる。特徴は、メタデータ、画像処理、及び/または他の技術に基づいて決定され得る。1つまたは複数のメディアコンテンツアイテムは、1つまたは複数の画像、1つまたは複数のビデオ、1つまたは複数のアニメーション、1つまたは複数のオーディオファイル、及び/または1つまたは複数の他のコンテンツアイテムを含むことができる。
【0127】
1308で、コンピューティングシステムは、表示のために1つまたは複数のメディアコンテンツアイテムを提供することができる。インタラクティブユーザインターフェースにおいて、1つまたは複数のメディアコンテンツアイテムが提供され得る。1つまたは複数のメディアコンテンツアイテムが、グラフィックカードに挿入されるように選択可能であり得る。インタラクティブユーザインターフェースは、ユーザに関連するメディアコンテンツアイテム、ウェブメディアコンテンツアイテム、及び/または他のメディアコンテンツアイテムを含むことができる、表示用の複数のメディアコンテンツアイテムを提供することができる。
【0128】
いくつかの実施態様では、コンピューティングシステムは、1つまたは複数のメディアコンテンツアイテムに関連付けられた入力選択を取得し、拡張グラフィックカードを生成することができる。拡張グラフィックカードは、グラフィックカードのコンテンツの少なくとも一部、及び1つまたは複数のメディアコンテンツアイテムの少なくとも一部を含むことができる。次に、コンピューティングシステムは、表示用の拡張グラフィックカードを提供することができる。
【0129】
追加的または代替的に、コンピューティングシステムは調整入力を取得することができる。調整入力は、拡張グラフィックカードを拡張する要求に関連付けられ得る。コンピューティングシステムは、調整入力に基づいて、更新されたグラフィックカードを生成することができる。更新されたグラフィックカードは、1つまたは複数の調整を行った拡張グラフィックカードを含むことができる。次に、コンピューティングシステムは、表示用の更新されたグラフィックカードを提供することができる。1つまたは複数の調整は、拡張グラフィックカードのレイアウト変更、1つまたは複数のメディアコンテンツアイテムのクロッピング変更、1つまたは複数のコンテンツアイテムのサイズ変更、色の変更、またはテンプレートの変更のうちの少なくとも1つを含むことができる。
【0130】
図14は、本開示の例示的な実施形態に従って行うための例示的な方法のフローチャート図を示す。
図14は、例示及び説明の目的で特定の順序で行われるステップを示しているが、本開示の方法は、特に示された順序または配置に限定されない。方法1400の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組み合わせ、及び/または適合され得る。
【0131】
1402で、コンピューティングシステムは、表示のために入力ドラフトインターフェースを提供することができる。入力ドラフトインターフェースは、複数の属性オプションとテキスト入力ボックスを含むグラフィカルユーザインターフェースを含み得る。複数の属性オプションは、コンテンツアイテム生成のための複数の候補属性に関連付けることができる。複数の候補属性は、トーン、スタイル、長さ、コンテンツタイプ、及び/または他の詳細を含むことができる。入力ドラフトインターフェースは、グラフィックカードの現在の状態を視聴するためのプレビューウィンドウを含み得る。グラフィックカードは、リンクノートに関連付けられ得る。いくつかの実施態様では、グラフィックカードは、1つまたは複数のユーザ入力に基づいて変更された可能性のあるカードテンプレートを含むことができる。例えば、ユーザは、画像、テキスト、オーディオ、ビデオ、ウィジェット、及び/またはその他のデータを追加した場合がある。
【0132】
1404で、コンピューティングシステムは、入力ドラフトインターフェースを介して、複数の属性オプションのうちの特定の属性オプションの選択を取得することができる。特定の属性オプションは、特定の候補属性に関連付けることができる。いくつかの実施態様では、複数の候補属性は、複数の異なるスタイルを含むことができる。複数の異なるスタイルは、複数の異なる芸術的スタイルまたは複数の異なる文体のうちの少なくとも1つに関連付けることができる。代替的及び/または追加的に、複数の候補属性は、複数の異なるトーンを含むことができる。複数の異なるトーンは、複数の異なる感情及び/または複数の異なるペースタイプのうちの少なくとも1つに関連付けることができる。特定の候補属性は、コンテンツアイテムを生成するために要求されるトーン及び/またはスタイルを含むことができる。選択は、表示のために複数の属性オプションを提供するドロップダウンメニューからの特定の属性オプションの選択に基づいて取得され得る。
【0133】
1406で、コンピューティングシステムは、入力ドラフトインターフェースのテキスト入力ボックスを介してテキスト入力を取得することができる。テキスト入力は、コンテンツアイテム生成のためのプロンプト意図に関連付けられ得る。いくつかの実施態様では、テキスト入力は、グラフィックカードのコンテンツに基づいて、ユーザコンテキストに基づいて、及び/またはプロンプト提案に基づいて、自動で入力され得る。
【0134】
1408で、コンピューティングシステムは、モデル生成コンテンツアイテムを生成するために、生成モデルを用いて特定の属性オプション及びテキスト入力を処理することができる。モード生成コンテンツアイテムは、特定の候補属性を含むことができる。モデル生成コンテンツアイテムは、プロンプト意図に関連付けることができる。モデル生成コンテンツアイテムは、テキストデータ、画像データ、オーディオデータ、マルチモーダルデータ、及び/または他のデータを含むことができる。いくつかの実施態様では、生成モデルは、特定の属性オプションの選択に基づいて、生成モデルデータベースから取得され得る。例えば、生成モデルデータベースは、複数の候補属性に関連付けられた複数の異なる生成モデルを記憶し得る。複数の異なる生成モデルの各々は、それぞれの候補属性に関連付けられたコンテンツアイテムを生成するように構成、訓練、及び/または調整され得る。代替的及び/または追加的に、生成モデルは、複数のコンテンツ生成タスク用に訓練された一般的な生成モデルであってもよい。追加的または代替的に、特定の属性ソフトプロンプトは、特定の属性オプションの選択に基づいて取得され得る。特定の属性ソフトプロンプトは、学習されたパラメータのセットを含むことができる。学習されたパラメータのセットは、モデル生成コンテンツアイテムを生成するために生成モデルで処理され得る。
【0135】
1410において、コンピューティングシステムは、入力ドラフトインターフェースを介して、表示のためにモデル生成コンテンツアイテムを提供することができる。表示のためにモデル生成コンテンツアイテムを提供することは、モデル生成コンテンツアイテムをグラフィックカードに挿入するオプションを提供することを含むことができる。入力ドラフトインターフェースは、複数の事後処理編集オプションを含んでもよく、複数の事後編集オプションは、サイズ、色、フォント、クロッピング、解像度、飽和、着色、及び/または他の詳細を変更するオプションを含んでもよい。
【0136】
いくつかの実施態様では、コンピューティングシステムは、入力ドラフトインターフェースを介して入力選択を取得し、入力選択に基づいて拡張グラフィックカードを生成することができる。拡張グラフィックカードは、モデル生成コンテンツアイテムを含むように拡張されたグラフィックカードを含むことができる。次に、コンピューティングシステムは、表示用の拡張グラフィックカードを提供することができる。
【0137】
図15Aは、本開示の例示的な実施形態による、リンクノートプロンプトを行う例示的なコンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されたユーザコンピューティングシステム102、サーバコンピューティングシステム130、及び/または第3のコンピューティングシステム150を含む。
【0138】
ユーザコンピューティングシステム102は、例えば、パーソナルコンピューティングデバイス(例えば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(例えば、スマートフォンもしくはタブレット)、ゲームコンソールもしくはコントローラ、ウェアラブルコンピューティングデバイス、埋め込みコンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、任意のタイプのコンピューティングデバイスを含むことができる。
【0139】
ユーザコンピューティングシステム102は、1つまたは複数のプロセッサ112と、メモリ114と、を含む。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続された複数のプロセッサであり得る。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスク、など、1つまたは複数の非一時的なコンピュータ可読記憶媒体、及びそれらの組み合わせを含むことができる。メモリ114は、データ116と、ユーザコンピューティングシステム102が動作を行うようにするためにプロセッサ112によって実行される命令118とを格納することができる。
【0140】
いくつかの実施態様では、ユーザコンピューティングシステム102は、1つまたは複数の機械学習済みモデル120を格納する、または含むことができる。例えば、機械学習済みモデル120は、ニューラルネットワーク(例えば、ディープニューラルネットワーク)などの様々な機械学習済みモデル、または非線形モデル及び/または線形モデルを含む他のタイプの機械学習済みモデルであることができ、またはそうでなければ、それらを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(例えば、長短期記憶回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形式のニューラルネットワークを含むことができる。
【0141】
いくつかの実施態様では、1つまたは複数の機械学習済みモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信されることができ、ユーザコンピューティングデバイスメモリ114に格納されることができ、次に、1つまたは複数のプロセッサ112によって使用されることができ、またはそうでなければ、実装され得る。いくつかの実施態様では、ユーザコンピューティングシステム102は、(例えば、入力データ及び/または検出された特徴の複数のインスタンスにわたって並列機械学習済みモデル処理を行うために)単一の機械学習済みモデル120の複数の並列インスタンスを実装できる。
【0142】
より具体的には、1つまたは複数の機械学習済みモデル120は、1つまたは複数の検出モデル、1つまたは複数の分類モデル、1つまたは複数のセグメント化モデル、1つまたは複数の拡張モデル、1つまたは複数の生成モデル、1つまたは複数の自然言語処理モデル、1つまたは複数の光学特性認識モデル、及び/または1つまたは複数のその他の機械学習済みモデルを含み得る。1つまたは複数の機械学習済みモデル120は、1つまたは複数のトランスフォーマーモデルを含むことができる。1つまたは複数の機械学習済みモデル120は、1つまたは複数のニューラルラディアンスフィールドモデル、1つまたは複数の拡散モデル、及び/または1つまたは複数の自己回帰言語モデルを含んでもよい。
【0143】
1つまたは複数の機械学習済みモデル120を利用して、1つまたは複数のオブジェクトの特徴を検出することができる。検出されたオブジェクトの特徴は、分類及び/または埋め込まれていてもよい。次に、分類及び/または埋め込みを利用して検索を行い、1つまたは複数の検索結果を決定し得る。代替的及び/または追加的に、1つまたは複数の検出された特徴を利用して、特徴が検出されたことを示すためにインジケータ(例えば、検出された特徴を示すユーザインターフェース要素)が提供されるべきかを決定し得る。次に、ユーザはインジケータを選択して、特徴の分類、埋め込み、及び/または検索が行われるようにしてもよい。いくつかの実施態様では、インジケータが選択される前に、分類、埋め込み、及び/または検索が行われてもよい。
【0144】
いくつかの実施態様では、1つまたは複数の機械学習済みモデル120は、画像データ、テキストデータ、オーディオデータ、及び/または潜在的エンコーディングデータを処理して、画像データ、テキストデータ、オーディオデータ、及び/または潜在的エンコーディングデータを含むことができる出力データを生成することができる。1つまたは複数の機械学習済みモデル120は、光学文字認識、自然言語処理、画像分類、オブジェクト分類、テキスト分類、オーディオ分類、コンテキスト決定、アクション予測、画像補正、画像拡張、テキスト拡張、感情分析、オブジェクト検出、エラー検出、インペインティング、ビデオ安定化、オーディオ訂正、オーディオ拡張、及び/またはデータセグメント化(例えば、マスクベースのセグメント化)を行ってもよい。
【0145】
追加的または代替的に、1つまたは複数の機械学習済みモデル140は、クライアント-サーバ関係に従ってユーザコンピューティングシステム102と通信するサーバコンピューティングシステム130に含まれることができ、またはその他の方法で格納されることができ、それによって実装されることができる。例えば、機械学習済みモデル140は、ウェブサービス(例えばビューファインダサービス、視覚検索サービス、画像処理サービス、アンビエントコンピューティングサービス、及び/またはオーバーレイアプリケーションサービス)の一部として、サーバコンピューティングシステム130によって実装され得る。そのため、1つまたは複数のモデル120は、ユーザコンピューティングシステム102において格納及び実装されることができ、及び/または、1つまたは複数のモデル140は、サーバコンピューティングシステム130において格納及び実装され得る。
【0146】
ユーザコンピューティングシステム102はまた、ユーザ入力を受信する1つまたは複数のユーザ入力コンポーネント122を含むことができる。例えば、ユーザ入力コンポーネント122は、ユーザ入力オブジェクト(例えば、指またはスタイラス)のタッチ感応型であるタッチセンサ式コンポーネント(例えば、タッチセンサ式表示画面またはタッチパッド)であり得る。タッチセンサ式コンポーネントは、仮想キーボードを実装するように機能することができる。他の例示的なユーザ入力コンポーネントは、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を提供することができる他の手段を含む。
【0147】
いくつかの実施態様では、ユーザコンピューティングシステムは、1つまたは複数のアプリケーションに関連付けられてよい1つまたは複数のユーザインターフェース124を格納及び/または提供することができる。1つまたは複数のユーザインターフェース124は、入力を受信する及び/または表示のためのデータ(例えば、画像データ、テキストデータ、オーディオデータ、1つまたは複数のユーザインターフェース要素、拡張現実体験、仮想現実体験、及び/または表示のための他のデータを提供するように構成できる。ユーザインターフェース124は、1つまたは複数の他のコンピューティングシステム(例えば、サーバコンピューティングシステム130及び/またはサードパーティコンピューティングシステム150)に関連付けられてよい。ユーザインターフェース124は、ビューファインダインターフェース、検索インターフェース、生成モデルインターフェース、ソーシャルメディアインターフェース、及び/またはメディアコンテンツギャラリーインターフェースを含むことができる。
【0148】
ユーザコンピューティングシステム102は、1つまたは複数のセンサ126を含んでもよく、及び/またはセンサ126からデータを受信し得る。1つまたは複数のセンサ126は、1つまたは複数のプロセッサ112、メモリ114、及び/または1つまたは複数のハードウェアコンポーネントを収容する収容コンポーネントに収容されてもよく、ハードウェアコンポーネントは、1つまたは複数のソフトウェアを格納してもよく、及び/または行われるようにしてもよい。1つまたは複数のセンサ126は、1つまたは複数の画像センサ(例えば、カメラ)、1つまたは複数のライダーセンサ、1つまたは複数のオーディオセンサ(例えば、マイクロフォン)、1つまたは複数の慣性センサ(例えば、慣性測定ユニット)、1つまたは複数の生物学的センサ(例えば、心拍センサ、パルスセンサ、網膜センサ、及び/またはフィンガープリントセンサ)、1つまたは複数の赤外線センサ、1つまたは複数の位置センサ(例えば、GPS)、1つまたは複数のタッチセンサ(例えば、導電性タッチセンサ及び/または機械的タッチセンサ)、及び/または1つまたは複数の他のセンサを含むことができる。1つまたは複数のセンサを利用して、ユーザの環境に関連するデータ(例えば、ユーザの環境の画像、環境の記録、及び/またはユーザの場所)を取得することができる。
【0149】
ユーザコンピューティングシステム102は、ユーザコンピューティングデバイス104を含んでもよく、及び/またはその一部であってもよい。ユーザコンピューティングデバイス104は、モバイルコンピューティングデバイス(例えば、スマートフォンまたはタブレット)、デスクトップコンピュータ、ラップトップコンピュータ、スマートウェアラブル、及び/またはスマートアプライアンスを含み得る。追加的及び/または代替的に、ユーザコンピューティングシステムは、1つまたは複数の1つまたは複数のユーザコンピューティングデバイス104からデータを取得してもよく、及び/またはそれらを用いてデータを生成し得る。例えば、スマートフォンのカメラを利用して、環境を記述する画像データをキャプチャしてもよく、及び/またはユーザコンピューティングデバイス104のオーバーレイアプリケーションを利用して、ユーザに提供されているデータを追跡及び/または処理することができる。同様に、スマートウェアラブルに関連付けられた1つまたは複数のセンサを利用して、ユーザに関するデータ及び/またはユーザの環境に関するデータを取得してよい(例えば、画像データは、ユーザのスマートグラスに収容されたカメラによって取得することができる)。追加的及び/または代替的に、データは、データの取得または生成に特化され得る他のユーザデバイスから取得及びアップロードされ得る。
【0150】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132と、メモリ134とを含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、また、1つのプロセッサ、または動作可能に接続された複数のプロセッサであり得る。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスク、など、1つまたは複数の非一時的なコンピュータ可読記憶媒体、及びそれらの組み合わせを含むことができる。メモリ134は、データ136と、サーバコンピューティングシステム130が動作を行うようにするためにプロセッサ132によって実行される命令138とを格納できる。
【0151】
いくつかの実施態様では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、または他の方法でそれらによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、シーケンシャルコンピューティングアーキテクチャ、パラレルコンピューティングアーキテクチャ、またはそれらの何らかの組み合わせに従って動作できる。
【0152】
上記のように、サーバコンピューティングシステム130は、1つまたは複数の機械学習済みモデル140を格納する、またはその他の方法で含むことができる。例えば、モデル140は、様々な機械学習済みモデルであるか、またはそれ以外の場合、様々な機械学習済みモデルを含むことができる。例示的な機械学習済みモデルは、ニューラルネットワークまたはその他の多層非線形モデルを含む。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、回帰型ニューラルネットワーク、及び畳み込みニューラルネットワークを含む。例示的なモデル140は、
図15Bを参照して説明される。
【0153】
追加的及び/または代替的に、サーバコンピューティングシステム130は、1つまたは複数のデータベース(及び/またはリソース)をクロールするために利用され得る検索エンジン142を含むこと、及び/または通信可能に接続されることがある。検索エンジン142は、ユーザコンピューティングシステム102、サーバコンピューティングシステム130、及び/またはサードパーティコンピューティングシステム150からのデータを処理して、入力データに関連付けられた1つまたは複数の検索結果を決定することができる。検索エンジン142は、用語ベースの検索、ラベルベースの検索、ブールベースの検索、画像検索、埋め込みベースの検索(例えば、最近傍検索)、マルチモーダル検索、及び/または1つまたは複数の他の検索手法を行い得る。
【0154】
サーバコンピューティングシステム130は、入力データを取得するため、及び/または1人または複数のユーザに出力データを提供するための1つまたは複数のユーザインターフェース144を格納及び/または提供し得る。1つまたは複数のユーザインターフェース144は、1つまたは複数のユーザインターフェース要素を含むことができ、それは、入力フィールド、ナビゲーションツール、コンテンツチップ、選択可能なタイル、ウィジェット、データ表示カルーセル、動的アニメーション、情報ポップアップ、画像拡張、テキスト音声化、音声テキスト化、拡張現実、仮想現実、フィードバックループ、及び/または他のインターフェース要素を含み得る。
【0155】
ユーザコンピューティングシステム102及び/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されたサードパーティコンピューティングシステム150とのインタラクションを介して、モデル120及び/または140を訓練できる。サードパーティコンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってもよく、またはサーバコンピューティングシステム130の一部であってもよい。代替的及び/または追加的に、サードパーティコンピューティングシステム150は、1つまたは複数のウェブリソース、1つまたは複数のウェブプラットフォーム、1人または複数の他のユーザ、及び/または1つまたは複数のコンテキストに関連付けられてよい。
【0156】
サードパーティコンピューティングシステム150は、1つまたは複数のプロセッサ152と、メモリ154とを含み得る。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(例えば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、かつ、1つのプロセッサ、または動作可能に接続された複数のプロセッサであり得る。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスク、など、1つまたは複数の非一時的なコンピュータ可読記憶媒体、及びそれらの組み合わせを含むことができる。メモリ154は、データ156と、サードパーティコンピューティングシステム150が動作を行うようにするためにプロセッサ152によって実行される命令158とを格納できる。いくつかの実施態様では、サードパーティコンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、または他の方法でそれらによって実装される。
【0157】
ネットワーク180は、ローカルエリアネットワーク(例えば、イントラネット)、ワイドエリアネットワーク(例えば、インターネット)、またはそれらの何らかの組み合わせなどの、任意タイプの通信ネットワークであり得、任意の数の有線リンクまたは無線リンクを含むことができる。概して、ネットワーク180を介した通信は、多種多様な通信プロトコル(例えば、TCP/IP、HTTP、SMTP、FTP)、エンコーディングまたはフォーマット(例えば、HTML、XML)、及び/または保護スキーム(例えば、VPN、セキュアHTTP、SSL)を用いて、任意のタイプの有線接続及び/または無線接続を介して行うことができる。
【0158】
本明細書で説明する機械学習済みモデルは、様々なタスク、用途、及び/またはユースケースで使用され得る。
【0159】
いくつかの実施態様では、本開示の機械学習済みモデル(複数可)への入力は、画像データであり得る。機械学習済みモデル(複数可)は、出力を生成するために、画像データを処理することができる。例として、機械学習済みモデル(複数可)は、画像認識出力(例えば、画像データの認識、画像データの潜在的埋め込み、画像データのエンコードされた表現、画像データのハッシュなど)を生成するために、画像データを処理することができる。他の例として、機械学習済みモデル(複数可)は、画像セグメント化出力を生成するために、画像データを処理することができる。他の例として、機械学習済みモデル(複数可)は、画像分類出力を生成するために、画像データを処理することができる。他の例として、機械学習済みモデル(複数可)は、画像データ修正出力(例えば、画像データの改変など)を生成するために、画像データを処理することができる。他の例として、機械学習済みモデル(複数可)は、エンコードされた画像データ出力(例えば、画像データのエンコードされた及び/または圧縮された表現など)を生成するために、画像データを処理することができる。他の例として、機械学習済みモデル(複数可)は、アップスケールされた画像データ出力を生成するために、画像データを処理することができる。他の例として、機械学習済みモデル(複数可)は、画像データを処理して予測出力を生成できる。
【0160】
いくつかの実施態様では、本開示の機械学習済みモデル(複数可)への入力は、テキストまたは自然言語データであり得る。機械学習済みモデル(複数可)は、出力を生成するために、テキストまたは自然言語データを処理することができる。例として、機械学習済みモデル(複数可)は、言語エンコーディング出力を生成するために、自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、潜在テキスト埋め込み出力を生成するために、テキストまたは自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、変換出力を生成するために、テキストまたは自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、分類出力を生成するために、テキストまたは自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、テキストセグメント化出力を生成するために、テキストまたは自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、意味的出力を生成するために、テキストまたは自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、アップスケールされたテキストまたは自然言語出力(例えば、入力テキストまたは自然言語よりも高品質であるテキストまたは自然言語データなど)を生成するために、テキストまたは自然言語データを処理することができる。他の例として、機械学習済みモデル(複数可)は、予測出力を生成するために、テキストまたは自然言語データを処理することができる。
【0161】
いくつかの実施態様では、本開示の機械学習済みモデル(複数可)への入力は、音声データであり得る。機械学習済みモデル(複数可)は、出力を生成するために、音声データを処理することができる。例として、機械学習済みモデル(複数可)は、音声認識出力を生成するために、音声データを処理することができる。他の例として、機械学習済みモデル(複数可)は、音声変換出力を生成するために、音声データを処理することができる。他の例として、機械学習済みモデル(複数可)は、潜在的な埋め込み出力を生成するために、音声データを処理することができる。他の例として、機械学習済みモデル(複数可)は、エンコードされた音声出力(例えば、音声データのエンコードされた及び/または圧縮された表現など)を生成するために、音声データを処理することができる。他の例として、機械学習済みモデル(複数可)は、アップスケールされた音声出力(例えば、入力音声データよりも高品質の音声データなど)を生成するために、音声データを処理することができる。他の例として、機械学習済みモデル(複数可)は、テキスト表現出力(例えば、入力音声データのテキスト表現など)を生成するために、音声データを処理することができる。他の例として、機械学習済みモデル(複数可)は、予測出力を生成するために、音声データを処理することができる。
【0162】
いくつかの実施態様では、本開示の機械学習済みモデル(複数可)への入力は、センサデータであり得る。機械学習済みモデル(複数可)は、出力を生成するために、センサデータを処理することができる。一例として、機械学習済みモデル(複数可)は、認識出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、予測出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、分類出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、セグメント化出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、セグメント化出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、視覚化出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、診断出力を生成するために、センサデータを処理することができる。他の例として、機械学習済みモデル(複数可)は、検出出力を生成するために、センサデータを処理することができる。
【0163】
いくつかの場合、入力はビジュアルデータを含み、タスクはコンピュータビジョンタスクである。場合によっては、入力は1つまたは複数の画像のピクセルデータを含み、タスクは画像処理タスクである。例えば、画像処理タスクは、画像分類であり得、出力は、スコアのセットであり、各スコアは、異なるオブジェクトクラスに対応し、1つまたは複数の画像がそのオブジェクトクラスに属するオブジェクトを描出する尤度を表す。画像処理タスクは、オブジェクト検出であってよく、画像処理出力は、1つまたは複数の画像の1つまたは複数の領域と、各領域について、その領域が関心のあるオブジェクトを描出する尤度とを識別する。他の例として、画像処理タスクは画像セグメント化であり得、画像処理出力は、1つまたは複数の画像の各ピクセルについて、所定のカテゴリのセット内の各カテゴリのそれぞれの尤度を定義する。例えば、カテゴリのセットは、フォアグラウンド及びバックグラウンドであり得る。他の例として、カテゴリのセットは、オブジェクトクラスであり得る。他の例として、画像処理タスクは、深度推定であり得、画像処理出力は、1つまたは複数の画像のピクセルごとに、それぞれの深度値を定義する。他の例として、画像処理タスクは動き推定であり得、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つのピクセルごとに、ネットワーク入力内の画像間のピクセルに表わされたシーンの動きを定義する。
【0164】
ユーザコンピューティングシステムは、いくつかのアプリケーション(例えば、アプリケーション1~N)を含み得る。各アプリケーションは、独自のそれぞれの機械学習ライブラリと、機械学習済みモデル(複数可)とを含み得る。例えば、各アプリケーションは、機械学習済みモデルを含むことができる。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0165】
各アプリケーションは、例えば1つまたは複数のセンサ、コンテキストマネージャ、デバイスステートコンポーネント、及び/または追加のコンポーネントなど、コンピューティングデバイスのいくつかの他のコンポーネントと通信できる。いくつかの実施態様では、各アプリケーションは、API(例えば、公開API)を使用して各デバイスコンポーネントと通信できる。いくつかの実施態様では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
【0166】
ユーザコンピューティングシステム102は、いくつかのアプリケーション(例えば、アプリケーション1~N)を含み得る。各々のアプリケーションは、中央インテリジェンス層と通信する。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実施態様では、各々のアプリケーションは、API(例えば、すべてのアプリケーションにわたる共通API)を使用して中央インテリジェンス層(及びその中に格納されたモデル(複数可))と通信することができる。
【0167】
中央インテリジェンス層は、いくつかの機械学習済みモデルを含むことができる。例えば、それぞれの機械学習済みモデル(例えば、モデル)は、アプリケーションごとに提供することができ、中央インテリジェンス層によって管理できる。他の実施態様では、2つ以上のアプリケーションは、単一の機械学習済みモデルを共有できる。例えば、いくつかの実施態様では、中央インテリジェンス層は、アプリケーションのすべてに対して単一のモデル(例えば、単一のモデル)を提供することができる。いくつかの実施態様では、中央インテリジェンス層は、コンピューティングシステム100のオペレーティングシステム内に含まれるか、またはそれ以外の場合、コンピューティングシステム100のオペレーティングシステムによって実装される。
【0168】
中央インテリジェンス層は、中央デバイスデータ層と通信することができる。中央デバイスデータ層は、コンピューティングシステム100のデータの集中型リポジトリである場合がある。中央デバイスデータ層は、例えば、1つまたは複数のセンサ、コンテキストマネージャ、デバイスステートコンポーネント、及び/または追加のコンポーネントなど、コンピューティングデバイスの他のいくつかのコンポーネントと通信してもよい。いくつかの実施態様では、中央デバイスデータ層は、API(例えば、プライベートAPI)を使用して各デバイスコンポーネントと通信することができる。
【0169】
図15Bは、本開示の例示的な実施形態による、リンクノートプロンプトを実行する例示的なコンピューティングシステム50のブロック図を示す。詳細には、例示的なコンピューティングシステム50は、センサ処理システム60及び/または出力決定システム80によって処理され得る1つまたは複数のデータセットを取得及び/または生成して、1つまたは複数の取得されたデータセットの特徴に関する情報を提供し得るユーザへフィードバックするために利用できる1つまたは複数のコンピューティングデバイス52を含み得る。1つまたは複数のデータセットは、画像データ、テキストデータ、オーディオデータ、マルチモーダルデータ、潜在的エンコーディングデータなどを含むことができる。1つまたは複数のデータセットは、1つまたは複数のコンピューティングデバイス52(例えば、コンピューティングデバイス52の1つまたは複数のセンサ)に関連付けられた1つ以上のセンサを介して取得され得る。追加的及び/または代替的に、1つまたは複数のデータセットは、格納されたデータ及び/または取り出されたデータ(例えば、ウェブリソースから取り出されたデータ)であり得る。例えば、画像、テキスト、及び/または他のコンテンツアイテムが、ユーザによってインタラクトされ得る。次に、コンテンツとインタラクトされたアイテムを利用して、1つまたは複数の決定を生成することができる。
【0170】
1つまたは複数のコンピューティングデバイス52は、画像キャプチャ、センサ追跡、データストレージ取り出し、コンテンツのダウンロード(例えば、ウェブリソースからインターネットを介して画像または他のコンテンツアイテムをダウンロードすること)に基づいて、及び/または1つまたは複数の他の技術を介して、1つまたは複数のデータセットを取得及び/または生成することができる。1つまたは複数のデータセットは、センサ処理システム60で処理できる。センサ処理システム60は、1つまたは複数の機械学習済みモデル、1つまたは複数の検索エンジン、及び/または1つまたは複数の他の処理技術を用いて、1つまたは複数の処理技術を行ってもよい。1つまたは複数の処理技術は、任意の組み合わせで及び/または個別に行われ得る。1つまたは複数の処理技術は、連続して及び/または並行して行われ得る。特に、1つまたは複数のデータセットは、コンテキスト決定ブロック62で処理され得、コンテキスト決定ブロック62は、1つまたは複数のコンテンツアイテムに関連付けられたコンテキストを決定してもよい。コンテキスト決定ブロック62は、メタデータ、ユーザプロファイルデータ(例えば、プリファレンス、ユーザ検索履歴、ユーザブラウズ履歴、ユーザの購入履歴、及び/またはユーザ入力データ)、以前のインタラクションデータ、グローバル傾向データ、位置データ、時間データ、及び/または他のデータを識別及び/または処理して、ユーザに関連する特定のコンテキストを決定することができる。コンテキストは、イベント、決定された傾向、特定のアクション、特定のタイプのデータ、特定の環境、及び/またはユーザ及び/または取り出されたもしくは取得されたデータに関連付けられた他のコンテキストに関連付けられ得る。
【0171】
センサ処理システム60は、画像前処理ブロック64を含み得る。画像前処理ブロック64を利用して、取得された画像及び/または受信した画像の1つまたは複数の値を調整して、1つまたは複数の機械学習済みモデル及び/または1つまたは複数の検索エンジン74によって処理される画像を準備し得る。画像前処理ブロック64は、画像をリサイズし、飽和値を調整し、解像度を調整し、メタデータを除去及び/または追加し、並びに/あるいは1つまたは複数の他の動作を行ってもよい。
【0172】
いくつかの実施態様では、センサ処理システム60は、検出モデル66、セグメント化モデル68、分類モデル70、埋め込みモデル72、及び/または1つまたは複数の他の機械学習済みモデルを含み得る、1つまたは複数の機械学習済みモデルを含むことができる。例えば、センサ処理システム60は、処理されたデータセットの特定の特徴を検出するために利用できる1つまたは複数の検出モデル66を含んでもよい。詳細には、1つまたは複数の画像を1つまたは複数の検出モデル66で処理して、1つまたは複数の画像において検出された特徴に関連付けられた1つまたは複数の境界ボックスを生成することができる。
【0173】
追加的及び/または代替的に、1つまたは複数のセグメント化モデル68を利用して、データセットの1つまたは複数の部分を1つまたは複数のデータセットからセグメント化することができる。例えば、1つまたは複数のセグメント化モデル68は、1つまたは複数のセグメント化マスク(例えば、手動で生成された及び/または1つまたは複数の境界ボックスに基づいて生成された1つまたは複数のセグメント化マスク)を利用して、画像の一部、オーディオファイルの一部、及び/またはテキストの一部をセグメント化することができる。セグメント化は、1つまたは複数の検出されたオブジェクトを分離すること、及び/または1つまたは複数の検出されたオブジェクトを画像から除去することを含み得る。
【0174】
1つまたは複数の分類モデル70を利用して、画像データ、テキストデータ、オーディオデータ、潜在的エンコーディングデータ、マルチモーダルデータ、及び/または他のデータを処理して、1つまたは複数の分類を生成することができる。1つまたは複数の分類モデル70は、1つまたは複数の画像分類モデル、1つまたは複数のオブジェクト分類モデル、1つまたは複数のテキスト分類モデル、1つまたは複数のオーディオ分類モデル、及び/または1つまたは複数の他の分類モデルを含むことができる。1つまたは複数の分類モデル70は、データを処理して、1つまたは複数の分類を決定することができる。
【0175】
いくつかの実施態様では、データは、1つまたは複数の埋め込みを生成するために、1つまたは複数の埋め込みモデル72で処理されてもよい。例えば、埋め込み空間における1つまたは複数の画像埋め込みを生成するために、1つまたは複数の画像を1つまたは複数の埋め込みモデル72で処理され得る。1つまたは複数の画像埋め込みは、1つまたは複数の画像の1つまたは複数の画像の特徴に関連付けられ得る。いくつかの実施態様では、1つまたは複数の埋め込みモデル72は、マルチモーダル埋め込みを生成するためにマルチモーダルデータを処理するように構成され得る。1つまたは複数の埋め込みは、分類、検索、及び/または埋め込み空間分布の学習に利用することができる。
【0176】
センサ処理システム60は、1つまたは複数の検索を行うために利用できる1つまたは複数の検索エンジン74を含んでもよい。1つまたは複数の検索エンジン74は、1つまたは複数のデータベース(例えば、1つまたは複数のローカルデータベース、1つまたは複数のグローバルデータベース、1つまたは複数のプライベートデータベース、1つまたは複数の公開データベース、1つまたは複数の専用データベース、及び/または1つまたは複数の一般的なデータベース)をクロールして、1つまたは複数の検索結果を決定できる。1つまたは複数の検索エンジン74は、特徴マッチング、テキストベース検索、埋め込みベース検索(例えば、k最近傍検索)、メタデータベース検索、マルチモーダル検索、ウェブリソース検索、画像検索、テキスト検索、及び/またはアプリケーション検索を実行し得る。
【0177】
追加的及び/または代替的に、センサ処理システム60は、マルチモーダルデータの処理を支援するために利用することができる、1つまたは複数のマルチモーダル処理ブロック76を含んでもよい。1つまたは複数のマルチモーダル処理ブロック76は、1つまたは複数の機械学習済みモデル及び/または1つまたは複数の検索エンジン74によって処理されるマルチモーダルクエリ及び/またはマルチモーダル埋め込みを生成することを含み得る。
【0178】
センサ処理システム60の出力(複数可)は、次に、出力決定システム80で処理されて、ユーザに提供する1つまたは複数の出力を決定することができる。出力決定システム80は、ヒューリスティックベースの決定、機械学習済みモデルベースの決定、ユーザ選択ベースの決定、及び/またはコンテキストベースの決定を含み得る。
【0179】
出力決定システム80は、検索結果インターフェース82において1つまたは複数の検索結果を提供する方法及び/または場所を決定し得る。追加的及び/または代替的に、出力決定システム80は、機械学習済みモデル出力インターフェース84において、1つまたは複数の機械学習済みモデルの出力を提供する方法及び/または場所を決定し得る。いくつかの実施態様では、1つまたは複数の検索結果及び/または1つまたは複数の機械学習済みモデルの出力は、1つまたは複数のユーザインターフェース要素を介して表示のために提供され得る。1つまたは複数のユーザインターフェース要素は、表示されたデータ上にオーバーレイされ得る。例えば、1つまたは複数の検出インジケータが、ビューファインダの検出されたオブジェクトの上にオーバーレイされ得る。1つまたは複数のユーザインターフェース要素は、1つまたは複数の追加の検索及び/または1つまたは複数の追加の機械学習済みモデルプロセスを行うように選択可能であり得る。いくつかの実施態様では、ユーザインターフェース要素は、特定のアプリケーションに専用のユーザインターフェース要素として提供されてもよく、及び/または異なるアプリケーションにわたって均一に提供され得る。1つまたは複数のユーザインターフェース要素は、ポップアップディスプレイ、インターフェースオーバーレイ、インターフェースタイル及び/またはチップ、カルーセルインターフェース、オーディオフィードバック、アニメーション、インタラクティブウィジェット、及び/または他のユーザインターフェース要素を含むことができる。
【0180】
追加的及び/または代替的に、センサ処理システム60の出力(複数可)に関連付けられたデータを利用して、拡張現実体験及び/または仮想現実体験86が生成及び/または提供されてもよい。例えば、1つまたは複数の取得されたデータセットを処理して、1つまたは複数の拡張現実レンダリングアセット及び/または1つまたは複数の仮想現実レンダリングアセットが生成されてもよく、次に、これらを利用して、拡張現実体験及び/または仮想現実体験86をユーザに提供し得る。拡張現実体験は、環境に関連する情報をそれぞれの環境にレンダリングし得る。代替的及び/または追加的に、処理されたデータセット(複数可)に関連付けられたオブジェクトは、ユーザ環境及び/または仮想環境内にレンダリングされ得る。レンダリングデータセットの生成は、1つまたは複数のオブジェクトの3次元表現を学習するように1つまたは複数のニューラルラディアンスフィールドモデルを訓練することを含み得る。
【0181】
いくつかの実施態様では、1つまたは複数のアクションプロンプト88が、センサ処理システム60の出力(複数可)に基づいて決定され得る。例えば、検索プロンプト、購入プロンプト、生成プロンプト、予約プロンプト、コールプロンプト、リダイレクトプロンプト、及び/または1つまたは複数の他のプロンプトが、センサ処理システム60の出力(複数可)に関連付けられると決定され得る。次に、1つまたは複数のアクションプロンプト88は、1つまたは複数の選択可能なユーザインターフェース要素を介してユーザに提供され得る。1つまたは複数の選択可能なユーザインターフェース要素の選択に応答して、それぞれのアクションプロンプトのそれぞれのアクションが行われてもよい(例えば、検索が行われてもよい、購入アプリケーションプログラミングインターフェースが利用されてもよい、及び/または他のアプリケーションが、開放されてもよい)。
【0182】
いくつかの実施態様では、センサ処理システム60の1つまたは複数のデータセット及び/または出力(複数可)は、1つまたは複数の生成モデル90により処理されて、モデル生成コンテンツアイテムを生成してもよく、モデル生成コンテンツアイテムは、次にユーザに提供され得る。生成は、ユーザ選択に基づいてプロンプトされてもよく、及び/または自動的に行われてもよい(例えば、識別されていない閾値の量の検索結果に関連付けられ得る、1つまたは複数の条件に基づいて自動的に行われる)。
【0183】
1つまたは複数の生成モデル90は、言語モデル(例えば、大きい言語モデル及び/または視覚言語モデル)、画像生成モデル(例えば、テキストから画像への生成モデル及び/または画像拡張モデル)、オーディオ生成モデル、ビデオ生成モデル、グラフ生成モデル、及び/またはその他のデータ生成モデル(例えば、その他のコンテンツ生成モデル)を含むことができる。1つまたは複数の生成モデル90は、1つまたは複数のトランスフォーマーモデル、1つまたは複数の畳み込みニューラルネットワーク、1つまたは複数の回帰型ニューラルネットワーク、1つまたは複数のフィードフォワードニューラルネットワーク、1つまたは複数の生成的敵対的ネットワーク、1つまたは複数のセルフアテンションモデル、1つまたは複数の埋め込みモデル、1つまたは複数のエンコーダ、1つまたは複数のデコーダ、及び/または1つまたは複数の他のモデルが含まれ得る。いくつかの実施態様では、1つまたは複数の生成モデル90は、1つまたは複数の自己回帰モデル(例えば、以前の挙動データに基づいて予測値を生成するように訓練された機械学習済みモデル)、及び/または1つまたは複数の拡散モデル(例えば、入力データに関連付けられた分布データを生成して処理することに基づいて予測データを生成するように訓練された機械学習済みモデル)を含むことができる。
【0184】
1つまたは複数の生成モデル90は、入力データを処理し、複数の予測されたワード、ピクセル、信号、及び/または他のデータを含み得るモデル生成コンテンツアイテムを生成するように訓練され得る。モデル生成コンテンツアイテムは、いずれの既存のワークとも同じではない新規のコンテンツアイテムを含み得る。1つまたは複数の生成モデル90は、学習された表現、シーケンス、及び/または確率分布を活用して、コンテンツアイテムを生成することができ、コンテンツアイテムは、フレーズ、ストーリー展開、セッティング、オブジェクト、キャラクター、ビート、歌詞、及び/または既存のコンテンツアイテムに含まれない他の態様を含むことができる。
【0185】
1つまたは複数の生成モデル90には、視覚言語モデルが含まれていてもよい。
【0186】
視覚言語モデルは、画像データ及び/またはテキストデータを処理して自然言語出力を生成するように、訓練、調整、及び/または構成することができる。視覚言語モデルは、事前に訓練された大規模言語モデル(例えば、大規模な自己回帰言語モデル)を1つまたは複数のエンコーダ(例えば、1つまたは複数の画像エンコーダ及び/または1つまたは複数のテキストエンコーダ)と活用して、人間によって作られた自然言語をエミュレートする細かな自然言語出力を提供することができる。
【0187】
視覚言語モデルは、ゼロショット画像分類、少数ショット画像分類、画像キャプション付け、マルチモーダルクエリ蒸留、マルチモーダル質問応答のために利用され得る、並びに/あるいは複数の異なるタスク用に調整及び/または訓練され得る。視覚言語モデルは、視覚的質問応答、画像キャプション生成、特徴検出(例えば、コンテンツ監視(不適切なコンテンツなど))、オブジェクト検出、シーン認識、及び/または他のタスクを行うことができる。
【0188】
視覚言語モデルは、事前に訓練された言語モデルを活用することができ、その後、その言語モデルをマルチモーダル用に調整することができる。視覚言語モデルの訓練及び/または調整は、画像-テキストマッチング、マスクされた言語モデリング、交差注意を伴うマルチモーダル融合、対照学習、プレフィックス言語モデル訓練、及び/または他の訓練技術を含み得る。例えば、視覚言語モデルは、画像を処理して、グラウンドトゥルーステキストデータ(例えば、画像のグラウンドトゥルースキャプション)と同様の予測テキストを生成するように訓練され得る。いくつかの実施態様では、視覚言語モデルは、自然言語テンプレートのマスクされたトークンを、入力画像に描出された特徴を記述するテキストトークンに置き換えるように訓練され得る。代替的及び/または追加的に、訓練、調整、及び/またはモデル推定は、視覚及びテキスト埋め込み特徴の多層連結を含んでもよい。いくつかの実施態様では、視覚言語モデルは、画像埋め込みとテキスト埋め込みの生成とを共同で学習することによって、訓練及び/または調整されてよく、これは、テキスト特徴及び画像特徴を、共有された埋め込み空間へマッピングする共同特徴埋め込み空間に、埋め込みをマッピングするシステムを訓練及び/または調整することを含み得る。共同訓練は、画像-テキストペアの平行埋め込みを含み得る、及び/または三重項訓練を含み得る。いくつかの実施態様では、画像は、言語モデルのプレフィックスとして利用及び/または処理され得る。
【0189】
出力決定システム80は、1つまたは複数のデータセット及び/またはセンサ処理システム60の出力(複数可)を、データ拡張ブロック92を用いて処理して、拡張データを生成し得る。例えば、1つまたは複数の画像をデータ拡張ブロック92で処理して、1つまたは複数の拡張画像を生成することができる。データ拡張は、データ補正、データクロッピング、1つまたは複数の特徴の除去、1つまたは複数の特徴の追加、解像度調整、照明調整、飽和調整、及び/または他の拡張を含むことができる。
【0190】
いくつかの実施態様では、センサ処理システム60の1つまたは複数のデータセット及び/または出力(複数可)は、データ記憶ブロック94の決定に基づいて格納され得る。
【0191】
次に、出力決定システム80の出力(複数可)は、ユーザコンピューティングデバイス52の1つまたは複数の出力コンポーネントを介してユーザに提供され得る。例えば、1つまたは複数の出力に関連付けられた1つまたは複数のユーザインターフェース要素を、ユーザコンピューティングデバイス52の視覚的ディスプレイを介して表示するために提供し得る。
【0192】
プロセスは、反復的に及び/または連続的に行われ得る。提供されたユーザインターフェース要素への1つまたは複数のユーザ入力は、連続した処理ループを条件付ける、及び/または影響を及ぼす場合がある。
【0193】
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、及び他のコンピュータベースのシステム、ならびに実行されるアクション及びそのようなシステムに送信される情報及びそのようなシステムから送信される情報を指す。コンピュータベースのシステムに固有の柔軟性により、コンポーネント間のタスク及び機能の多種多様な構成、組み合わせ、分割が可能になる。例えば、本明細書で論じるプロセスは、単一のデバイスまたはコンポーネント、あるいは組み合わせて作動する複数のデバイスまたはコンポーネントを使用して実装できる。データベース及びアプリケーションは、単一のシステムに実装し得るか、または複数のシステムに分散し得る。分散構成要素は、順次または並列に動作できる。
【0194】
本開示の主題は、その様々に具体的で例示的な実施形態について詳細に説明されてきたが、それぞれの例は、説明するために提供されており、本開示を限定するものではない。当業者は、上述の内容を理解すると、そのような実施形態の変更、変形を容易に行い、均等物を容易に作成できる。したがって、本開示は、当業者にとって容易に明らかであろうように、本主題に対するそのような修正、変更、及び/または追加を含めることを除外しない。例えば、一実施形態の一部として図示または説明されている特徴を他の実施形態と使用して、さらに他の実施形態を生み出すことができる。したがって、本開示は、そのような変更、変形、及び均等物を網羅することを意図している。
【要約】
【課題】検索結果ページからの検索結果の理解を高める。
【解決手段】ユーザデータ入力エントリのためのプロンプトを生成するためのシステム及び方法は、コンテキストデータを取得することを含むことができる。入力エントリインターフェースが提供されるかどうかを決定するために、コンテキストデータを処理することができる。入力エントリインターフェースが提供されると決定することに応答して、ユーザに提供することができるプロンプトを生成するために、コンテンツ表示インスタンスに関連付けられたコンテキストデータまたは他のデータは生成モデルで処理され得る。次に、他のユーザに提供されるように、ユーザ入力データを取得し、格納することができる。
【選択図】
図1