(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024059598
(43)【公開日】2024-05-01
(54)【発明の名称】テキストから画像への置換のための視覚的検索の決定
(51)【国際特許分類】
G06F 16/532 20190101AFI20240423BHJP
【FI】
G06F16/532
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023178743
(22)【出願日】2023-10-17
(31)【優先権主張番号】17/968,430
(32)【優先日】2022-10-18
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ハーシット・カルバンダ
(72)【発明者】
【氏名】クリストファー・ジェームズ・ケリー
(72)【発明者】
【氏名】ペンダル・ユーセフィ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA02
5B175GB05
(57)【要約】
【課題】本発明の目的は、テキストから画像への置換のための視覚的検索の決定を提供することである。
【解決手段】テキスト置換のためのシステムおよび方法は、視覚的意図の決定を含むことができ、これにより、視覚的記述子を置き換える画像を選択するためのインターフェースをトリガすることができる。視覚的に説明的な用語を識別することができ、テキスト置換オプションが開始され得ることを示すインジケータを提供することができる。視覚的に説明的な用語を置き換えるために、ユーザによって画像を選択することができる。
【選択図】
図2C
【特許請求の範囲】
【請求項1】
マルチモーダル検索のためのコンピュータ実装方法であって、
1つまたは複数のプロセッサを備えるコンピューティングシステムによって、検索クエリを取得するステップであって、前記検索クエリが1つまたは複数の単語を備える、ステップと、
前記コンピューティングシステムによって、前記1つまたは複数の単語が視覚的意図を備えると決定するステップであって、前記視覚的意図が、1つまたは複数の視覚的特徴に関連付けられる、ステップと、
前記コンピューティングシステムによって、表示用の画像選択インターフェースを提供するステップであって、前記画像選択インターフェースが、選択用の複数の画像を備え、前記画像選択インターフェースが、前記1つまたは複数の単語が前記視覚的意図を備えるという前記決定に基づいて表示のために提供される、ステップと、
前記コンピューティングシステムによって、選択データを取得するステップであって、前記選択データが、画像の選択を記述する、ステップと、
前記コンピューティングシステムによって、前記1つまたは複数の単語の代わりに表示用の前記画像を提供するステップと、
前記コンピューティングシステムによって、前記画像に関連付けられる1つまたは複数の検索結果を決定するステップと、
前記コンピューティングシステムによって、前記1つまたは複数の検索結果を出力として提供するステップと
を備える、コンピュータ実装方法。
【請求項2】
前記コンピューティングシステムによって、表示用の前記画像選択インターフェースを提供するステップが、
前記コンピューティングシステムによって、ユーザインターフェース要素を提供するステップであって、前記ユーザインターフェース要素が、テキスト置換オプションを記述する、ステップと、
前記コンピューティングシステムによって、第1の入力データを取得するステップであって、前記第1の入力データが、前記テキスト置換オプションの第1の選択を記述する、ステップと、
前記コンピューティングシステムによって、前記第1の入力データに基づいて表示用の前記画像選択インターフェースを提供するステップと
を備える、請求項1に記載の方法。
【請求項3】
前記1つまたは複数の検索結果が、検索結果ページを介して提供され、前記検索結果ページが、前記画像を表示するクエリボックスを備え、前記検索結果ページが、前記1つまたは複数の検索結果に関連付けられる情報を表示するための検索結果パネルを備える、請求項1に記載の方法。
【請求項4】
前記検索クエリが1つまたは複数の追加の単語を備え、前記1つまたは複数の検索結果が、前記1つまたは複数の追加の単語に少なくとも部分的に基づいて決定される、請求項1に記載の方法。
【請求項5】
前記検索クエリを取得するステップが、検索インターフェースのクエリボックスを介して前記検索クエリを取得するステップを備える、請求項1に記載の方法。
【請求項6】
前記1つまたは複数の検索結果が、1つまたは複数の画像検索結果を備える、請求項1に記載の方法。
【請求項7】
前記1つまたは複数の検索結果が、前記画像の前記1つまたは複数の視覚的特徴に関連付けられる製品を記述する1つまたは複数の製品検索結果を備える、請求項1に記載の方法。
【請求項8】
テキストから画像への置換のためのコンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体と
を備え、前記動作が、
テキストデータを取得することであって、前記テキストデータが、複数のテキスト文字を記述する、取得することと、
前記複数のテキスト文字のサブセットが視覚的に説明的な用語を備えるかを決定するために、前記テキストデータを処理することであって、前記視覚的に説明的な用語が、1つまたは複数の視覚的特徴と関連付けられる、処理することと、
表示用の画像選択インターフェースを提供することであって、前記画像選択インターフェースが、選択用の複数の画像を備え、前記複数の画像は、前記視覚的に説明的な用語に少なくとも部分的に基づいて取得される、提供することと、
選択データを取得することであって、前記選択データが、画像の選択を記述する、取得することと、
前記複数のテキスト文字の前記サブセットの代わりに表示用の前記画像を提供することと
を備える、コンピューティングシステム。
【請求項9】
表示用の前記画像選択インターフェースを提供することが、
表示用のインジケータを提供することであって、前記インジケータが、前記視覚的に説明的な用語を画像データに置き換えるためのテキスト置換オプションを説明する、提供することと、
第1の入力データを取得することであって、前記第1の入力データが、前記テキスト置換オプションの第1の選択を記述する、取得することと、
前記第1の入力データに基づいて表示用の前記画像選択インターフェースを提供することと、
を備える、請求項8に記載のシステム。
【請求項10】
前記インジケータが、前記複数のテキスト文字の残りの文字とは異なる1つまたは複数の色で表示される前記複数のテキスト文字の前記サブセットを備える、請求項9に記載のシステム。
【請求項11】
前記複数のテキスト文字が、前記複数のテキスト文字の前記サブセットと、第2のサブセットとを備え、
前記動作が、
複数の検索結果を決定するために、前記画像と前記第2のサブセットとを処理することであって、前記複数の検索結果が、前記画像と前記第2のサブセットに基づいて決定される、処理することと、
前記複数の検索結果を、検索結果ページインターフェースにおいて提供することと
をさらに備える、請求項8に記載のシステム。
【請求項12】
前記複数の画像が、
前記複数のテキスト文字の前記サブセットを用いて検索エンジンにクエリを実施することと、
前記複数の画像を受信することと
によって取得される、請求項8に記載のシステム。
【請求項13】
前記複数の画像が、ユーザ固有の画像データベース内の画像データが1つまたは複数の視覚的特徴に関連付けられていると決定することによって取得され、前記1つまたは複数の視覚的特徴に関連付けられている前記画像データが、前記複数の画像を備える、請求項8に記載のシステム。
【請求項14】
表示用の前記画像選択インターフェースを提供することが、
画像検索オプション、ユーザ画像データベースオプション、および画像キャプチャオプションを提供することであって、前記画像検索オプションが、前記複数のテキスト文字の前記サブセットを用いてコンピューティングシステムのネットワークにクエリを実施することを備え、前記ユーザ画像データベースオプションが、ユーザ画像データベースから画像を取得することを備え、前記画像キャプチャオプションが、ユーザデバイスの1つまたは複数の画像センサを利用することを備える、提供することを備える、請求項8に記載のシステム。
【請求項15】
前記視覚的に説明的な用語が、履歴検索データに基づいて決定される、請求項8に記載のシステム。
【請求項16】
前記履歴検索データが、1つまたは複数の画像検索結果を取得するために以前に利用された複数の用語を記述する、請求項15に記載のシステム。
【請求項17】
前記視覚的に説明的な用語が、意味理解モデルを用いた前記テキストデータの処理に基づいて決定される、請求項8に記載のシステム。
【請求項18】
1つまたは複数のコンピューティングデバイスによって実行されると、前記1つまたは複数のコンピューティングデバイスに、動作を実施させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記動作が、
複数の単語を取得することであって、前記複数の単語が、1つまたは複数の特定の単語および1つまたは複数の追加の単語を備える、取得することと、
前記複数の単語のうちの前記1つまたは複数の特定の単語が視覚的意図を備えると決定することであって、前記視覚的意図が1つまたは複数の視覚的特徴に関連付けられる、決定することと、
前記1つまたは複数の特定の単語を識別するインジケータを表示のために前記複数の単語に提供することと、
前記1つまたは複数の特定の単語に関連付けられる複数の画像を決定することであって、前記複数の画像が、前記視覚的意図に関連付けられる、決定することと、
ユーザインターフェースパネルに前記複数の画像を提供することであって、前記ユーザインターフェースパネルが、前記複数の画像に関連付けられる複数の対話型ユーザインターフェース要素を備える、提供することと、
前記複数の画像のうちの特定の画像の選択を取得することと、
前記1つまたは複数の追加の単語および前記1つまたは複数の特定の単語を含まない出力用の前記特定の画像を提供することと
を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【請求項19】
前記動作が、
翻訳出力を生成するために前記出力を処理することであって、前記翻訳出力が、前記特定の画像に少なくとも部分的に基づいて生成される、処理することをさらに備える、請求項18に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項20】
前記動作が、
前記出力を検索エンジンに提供することと、
複数の検索結果を受け取ることであって、前記複数の検索結果が、前記1つまたは複数の追加の単語および前記特定の画像に関連付けられる、受け取ることと
をさらに備える、請求項18に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、決定された視覚的意図に基づいてテキストを画像に置き換えることに関する。より詳細には、本開示は、テキスト文字列を処理することと、視覚的意図を決定することと、画像挿入のためのインターフェースを提供することとに関する。
【背景技術】
【0002】
検索クエリは、特定の項目および/または特定の知識を検索するためのテキスト入力を含むことができる。たとえば、ユーザは特定のスポーツゲームのスコアを知りたい場合がある。あるいは、ユーザは歴史上の人物について詳しく知りたい場合や、企業の連絡先アドレスを見つけたい場合もある。
【0003】
さらに、ユーザは、購入するための特定のオブジェクトを検索したり、特定の位置を検索したりするために、検索クエリを利用し得る。特定のオブジェクトや場所の検索クエリは、取得される検索結果を絞り込む可能性がある説明的な用語を含む場合があるが、ユーザが提供しようとしている詳細をキャプチャすることができない場合がある。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の実施形態の態様および利点は、以下の説明に部分的に記載されるか、説明から知ることができるか、または実施形態の実践を通じて知ることができる。
【0005】
本開示の1つの例示的な態様は、マルチモーダル検索のためのコンピュータ実装方法を対象とする。本方法は、1つまたは複数のプロセッサを含むコンピューティングシステムによって、検索クエリを取得するステップを含むことができる。検索クエリは1つまたは複数の単語を含むことができる。本方法は、コンピューティングシステムによって、1つまたは複数の単語が視覚的意図を含むと決定するステップを含むことができる。いくつかの実装形態では、視覚的意図は、1つまたは複数の視覚的特徴に関連付けることができる。本方法は、コンピューティングシステムによって、表示用の画像選択インターフェースを提供するステップを含むことができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。いくつかの実装形態では、画像選択インターフェースは、1つまたは複数の単語が視覚的意図を備えるという決定に基づいて表示のために提供され得る。本方法は、コンピューティングシステムによって、選択データを取得するステップを含むことができる。選択データは、画像の選択を記述することができる。本方法は、コンピューティングシステムによって、1つまたは複数の単語の代わりに表示用の画像を提供するステップを含むことができる。いくつかの実装形態では、本方法は、コンピューティングシステムによって、画像に関連付けられる1つまたは複数の検索結果を決定するステップと、コンピューティングシステムによって、1つまたは複数の検索結果を出力として提供するステップとを含むことができる。
【0006】
いくつかの実装形態では、表示用の画像選択インターフェースを提供するステップは、コンピューティングシステムによって、ユーザインターフェース要素を提供するステップを含むことができる。ユーザインターフェース要素は、テキスト置換オプションを記述するものにすることができる。表示用の画像選択インターフェースを提供するステップは、コンピューティングシステムによって、第1の入力データを取得するステップを含むことができる。第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。表示用の画像選択インターフェースを提供するステップは、コンピューティングシステムによって、第1の入力データに基づいて表示用の画像選択インターフェースを提供するステップを含むことができる。
【0007】
いくつかの実装形態では、1つまたは複数の検索結果は、検索結果ページを介して提供することができる。検索結果ページは、画像を表示するクエリボックスを含むことができる。検索結果ページは、1つまたは複数の検索結果に関連付けられる情報を表示するための検索結果パネルを含むことができる。いくつかの実装形態では、検索クエリは1つまたは複数の追加の単語を含むことができる。1つまたは複数の検索結果は、1つまたは複数の追加の単語に少なくとも部分的に基づいて決定することができる。いくつかの実装形態では、検索クエリを取得するステップは、検索インターフェースのクエリボックスを介して検索クエリを取得するステップを含むことができる。1つまたは複数の検索結果は、1つまたは複数の画像検索結果を含むことができる。いくつかの実装形態では、1つまたは複数の検索結果は、画像の1つまたは複数の視覚的特徴に関連付けられる製品を記述する1つまたは複数の製品検索結果を含むことができる。
【0008】
本開示の別の例示的な態様は、テキストから画像への置換のためのコンピューティングシステムを対象とする。本システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるとコンピューティングシステムに動作を実施させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができる。本動作は、テキストデータを取得することを含むことができる。テキストデータは、複数のテキスト文字を記述することができる。本動作は、複数のテキスト文字のサブセットが視覚的に説明的な用語を含むかを決定するために、テキストデータを処理するステップを含むことができる。いくつかの実装形態では、視覚的に説明的な用語は、1つまたは複数の視覚的特徴と関連付けることができる。本動作は、表示用の画像選択インターフェースを提供することを含むことができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。いくつかの実装形態では、複数の画像は、視覚的に説明的な用語に少なくとも部分的に基づいて取得することができる。本動作は、選択データを取得することを含むことができる。選択データは、画像の選択を記述することができる。本動作は、複数のテキスト文字のサブセットの代わりに表示用の画像を提供することを含むことができる。
【0009】
いくつかの実装形態では、表示用の画像選択インターフェースを提供するステップは、表示用のインジケータを提供するステップを含むことができる。インジケータは、視覚的に説明的な用語を画像データに置き換えるためのテキスト置換オプションを説明することができる。表示用の画像選択インターフェースを提供するステップは、第1の入力データを取得するステップを含むことができる。第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。表示用の画像選択インターフェースを提供するステップは、第1の入力データに基づいて表示用の画像選択インターフェース提供するステップを含むことができる。いくつかの実装形態では、インジケータは、複数のテキスト文字の残りの文字とは異なる1つまたは複数の色で表示される複数のテキスト文字のサブセットを含むことができる。
【0010】
いくつかの実装形態では、複数のテキスト文字は、複数のテキスト文字のサブセットと、第2のサブセットとを含むことができる。本動作は、複数の検索結果を決定するために、画像と第2のサブセットとを処理することを含むことができる。複数の検索結果は、画像と第2のサブセットに基づいて決定することができる。本動作は、複数の検索結果を、検索結果ページインターフェースにおいて提供するステップを含むことができる。いくつかの実装形態では、複数の画像は、複数のテキスト文字のサブセットを用いて検索エンジンにクエリを実施することと、複数の画像を受信することとによって取得することができる。複数の画像は、ユーザ固有の画像データベース内の画像データが1つまたは複数の視覚的特徴に関連付けられていると決定することによって取得することができる。1つまたは複数の視覚的特徴に関連付けられている画像データは、複数の画像を含むことができる。
【0011】
いくつかの実装形態では、表示用の画像選択インターフェースを提供するステップは、画像検索オプション、ユーザ画像データベースオプション、および画像キャプチャオプションを提供するステップを含むことができる。画像検索オプションは、複数のテキスト文字のサブセットを用いてコンピューティングシステムのネットワークにクエリを実施することを含むことができる。ユーザ画像データベースオプションは、ユーザ画像データベースから画像を取得することを含むことができる。画像キャプチャオプションは、ユーザデバイスの1つまたは複数の画像センサを利用することを含むことができる。いくつかの実装形態では、視覚的に説明的な用語は、履歴検索データに基づいて決定することができる。履歴検索データは、1つまたは複数の画像検索結果を取得するために以前に利用された複数の用語を記述することができる。いくつかの実装形態では、視覚的に説明的な用語は、意味理解モデルを用いたテキストデータの処理に基づいて決定することができる。
【0012】
本開示の別の例示的な態様は、1つまたは複数のコンピューティングデバイスによって実行されると、1つまたは複数のコンピューティングデバイスに、動作を実施させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とする。本動作は、複数の単語を取得することを含むことができる。複数の単語は、1つまたは複数の特定の単語および1つまたは複数の追加の単語を含むことができる。本動作は、複数の単語のうちの1つまたは複数の特定の単語は視覚的意図を備えると決定することを含むことができる。いくつかの実装形態では、視覚的意図は、1つまたは複数の視覚的特徴に関連付けることができる。本動作は、1つまたは複数の特定の単語を識別するインジケータを表示のために複数の単語に提供することを含むことができる。本動作は、1つまたは複数の特定の単語に関連付けられる複数の画像を決定することを含むことができる。複数の画像は、視覚的意図に関連付けることができる。本動作は、ユーザインターフェースパネルに複数の画像を提供することを含むことができる。いくつかの実装形態では、ユーザインターフェースパネルは、複数の画像に関連付けられる複数の対話型ユーザインターフェース要素を含むことができる。本動作は、複数の画像のうちの特定の画像の選択を取得することと、1つまたは複数の追加の単語および1つまたは複数の特定の単語を含まない出力用の特定の画像を提供することとを含むことができる。
【0013】
いくつかの実装形態では、本動作は、翻訳出力を生成するために出力を処理することを含むことができる。翻訳出力は、特定の画像に少なくとも部分的に基づいて生成することができる。本動作は、出力を検索エンジンに提供し、複数の検索結果を受け取ることを含むことができる。いくつかの実装形態では、複数の検索結果は、1つまたは複数の追加の単語および特定の画像に関連付けることができる。
【0014】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0015】
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照することにより、よりよく理解されるであろう。本明細書に組み込まれ、その一部を構成する添付の図面は、本開示の例示的な実施形態を示し、説明とともに関連する原理を説明するために役立つ。
【0016】
当業者を対象とした実施形態の詳細な説明は、添付の図面を参照して本明細書に記載されている。
【図面の簡単な説明】
【0017】
【
図1A】本開示の例示的な実施形態による、テキストから画像への決定を実施する例示的なコンピューティングシステムのブロック図である。
【
図1B】本開示の例示的な実施形態による、テキストから画像への決定を実施する例示的なコンピューティングデバイスのブロック図である。
【
図1C】本開示の例示的な実施形態による、テキストから画像への決定を実施する例示的なコンピューティングデバイスのブロック図である。
【
図2A】本開示の例示的な実施形態による、例示的なクエリインジケータの例を示す図である。
【
図2B】本開示の例示的な実施形態による、例示的な画像選択インターフェースの例を示す図である。
【
図2C】本開示の例示的な実施形態による、例示的な画像選択インターフェースの例を示す図である。
【
図2D】本開示の例示的な実施形態による、例示的な画像選択インターフェースの例を示す図である。
【
図3】本開示の例示的な実施形態による、例示的な検索インターフェースのブロック図である。
【
図4】本開示の例示的な実施形態による、例示的な画像選択インターフェースの例を示す図である。
【
図5】本開示の例示的な実施形態による、例示的なテキストから画像への置換システムを示すブロック図である。
【
図6】本開示の例示的な実施形態による、テキストから画像への置換を実施する例示的な方法のフローチャート図である。
【
図7】本開示の例示的な実施形態による、マルチモーダル検索を実施する例示的な方法のフローチャート図である。
【
図8】本開示の例示的な実施形態による、テキストから画像への置換を実施する例示的な方法のフローチャート図である。
【発明を実施するための形態】
【0018】
複数の図面にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別することを意図している。
【0019】
概要
一般に、本開示は、テキストを視覚トークン(たとえば、画像および/またはビデオ)で置き換えることによって文字列を拡張するためのシステムおよび方法を対象とする。特に、本明細書で開示されるシステムおよび方法は、マルチモーダル出力を提供するためにテキストデータを視覚的データに置き換えるようユーザに促すために、視覚的記述子の決定を活用することができる。たとえば、システムおよび方法は、検索クエリを拡張して、データベースにクエリを実施するためにテキストデータと画像データの両方を活用することができるマルチモーダル検索クエリを取得するために利用することができる。いくつかの実装形態では、本システムおよび方法は、テキストデータを取得することを含むことができる。テキストデータは、複数のテキスト文字を記述することができる。本システムおよび方法は、複数のテキスト文字のサブセットが視覚的に説明的な用語を含むかを決定するために、テキストデータを処理することを含むことができる。視覚的に説明的な用語は、1つまたは複数の視覚的特徴と関連付けることができる。表示用のインジケータを提供することができる。インジケータは、視覚的に説明的な用語を画像データに置き換えるためのテキスト置換オプションを説明することができる。本システムおよび方法は、第1の入力データを取得することを含むことができる。いくつかの実装形態では、第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。画像選択インターフェースを表示用に提供することができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。本システムおよび方法は、第2の入力データを取得することを含むことができる。いくつかの実装形態では、第2の入力データは、画像の第2の選択を記述することができる。画像は、複数のテキスト文字のサブセットの代わりに表示用に提供することができる。
【0020】
本システムおよび方法は、テキストデータを取得することができる。テキストデータは、複数のテキスト文字を記述することができる。複数のテキスト文字は、1つまたは複数の単語を記述することができる。複数の文字は、ユーザインターフェースへの1つまたは複数の入力を介して取得され得る。代替的および/または追加的に、テキストデータは、口頭での発話に関連付けられるオーディオデータを処理することによって生成され得る。
【0021】
複数のテキスト文字のサブセットが視覚的に説明的な用語を含むかを決定するために、テキストデータを処理することができる。視覚的に説明的な用語は、1つまたは複数の視覚的特徴と関連付けることができる。いくつかの実装形態では、視覚的に説明的な用語は、履歴検索データに基づいて決定することができる。履歴検索データは、1つまたは複数の画像検索結果を取得するために利用される複数の用語を記述することができる。いくつかの実装形態では、視覚的に説明的な用語は、意味理解モデルを用いたテキストデータの処理に基づいて決定することができる。視覚的な説明用語は、履歴クリックデータに基づいて決定され得る。履歴選択データは、グローバル選択データ、ユーザ固有の履歴選択データ、地域固有の履歴選択データ、および/またはコンテキスト固有の履歴選択データであってもよい。いくつかの実装形態では、履歴選択データは、特定の用語が入力されたときに画像検索タブが選択される頻度を記述することができる。
【0022】
本システムおよび方法は、表示用のインジケータを提供することができる。インジケータは、視覚的に説明的な用語を画像データに置き換えるためのテキスト置換オプションを説明することができる。インジケータは、複数のテキスト文字の残りの文字とは異なる1つまたは複数の色で表示される複数のテキスト文字のサブセットを含むことができる。いくつかの実装形態では、インジケータはポップアップユーザインターフェース要素を含むことができる。インジケータは、1つまたは複数の単語を強調表示すること、1つまたは複数の単語に下線を引くこと、1つまたは複数の単語を丸で囲むこと、および/または1つまたは複数の単語を点滅させることを含み得る。
【0023】
次いで、第1の入力データを取得することができる。第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。第1の入力データは、オーディオ入力(たとえば、音声コマンド)、タッチ入力(たとえば、タッチスクリーンへの入力)、キーボード入力、および/またはマウス入力を記述することができる。第1の入力データは、インジケータの選択を含むことができる。
【0024】
次いで、画像選択インターフェースを表示用に提供することができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。複数の画像は、ユーザ固有の画像データベース内の画像データが複数の画像を含むと決定することによって取得することができる。いくつかの実装形態では、複数の画像は、1つまたは複数の視覚的特徴に関連付けることができる。いくつかの実装形態では、1つまたは複数の視覚的に説明的な用語に基づいて複数の画像を取得することができる。いくつかの実装形態では、画像選択インターフェースは、視覚的に説明的な用語の決定の直後に提供され得る。代替的および/または追加的に、画像選択インターフェースは、第1の入力データの受信に応じて提供されてもよい。
【0025】
いくつかの実装形態では、複数の画像は、複数のテキスト文字のサブセットを用いて検索エンジンにクエリを実施することと、複数の画像を受信することとによって取得することができる。検索エンジンへのクエリの実施に利用されるクエリは、視覚的に説明的な用語を含むことができる。追加的および/または代替的に、1つまたは複数のコンテキストを取得および/または決定することができる。次いで、検索を絞り込むために、1つまたは複数のコンテキストを利用することができる。1つまたは複数のコンテキストは、ユーザ固有の情報(たとえば、ユーザの位置、アプリケーション履歴、ユーザの検索履歴、ユーザの購入履歴、ユーザの好み、および/またはユーザプロファイル)を含むことができる。いくつかの実装形態では、1つまたは複数のコンテキストは、特定の視覚的に説明的な用語が使用されるときの、時刻、曜日、年間の時期、世界的な傾向、および/または画像の過去の選択を含むことができる。
【0026】
追加的および/または代替的に、表示用の画像選択インターフェースを提供するステップは、画像検索オプション、ユーザ画像データベースオプション、および画像キャプチャオプションを提供するステップを含むことができる。画像検索オプションは、複数のテキスト文字のサブセットを用いてウェブ(たとえば、コンピューティングシステムのネットワーク)にクエリを実施することを含むことができる。ユーザ画像データベースオプションは、ユーザ画像データベースから画像を取得することを含むことができる。画像キャプチャオプションは、ユーザデバイスの1つまたは複数の画像センサを利用することを含むことができる。ユーザ画像データベースは、1つまたは複数のユーザプロファイルに関連付けることができ、また1つまたは複数の画像ギャラリアプリケーションに関連付けることもできる。いくつかの実装形態では、ユーザ画像データベースオプションにより、ローカルに記憶されたデータの選択が可能になる。代替的および/または追加的に、ユーザ画像データベースオプションを使用すると、ユーザは、クラウドストレージ、サーバストレージ、および/またはローカルストレージを含むことができる1つまたは複数の画像ストレージアプリケーションにユーザに関連付けて記憶されている画像を選択できるようになる。
【0027】
本システムおよび方法は、第2の入力データ(たとえば、選択データ)を取得することができる。第2の入力データは、画像の第2の選択を記述することができる。第2の入力データは、オーディオ入力(たとえば、音声コマンド)、タッチ入力(たとえば、タッチスクリーンへの入力)、キーボード入力、および/またはマウス入力を記述することができる。第1の入力データは、選択アイコンの選択、サムネイルの選択、および/またはドロップアンドドラッグ選択を含むことができる。
【0028】
次いで、画像は、複数のテキスト文字のサブセットの代わりとして表示用に提供することができる。たとえば、複数のテキスト文字のサブセットを削除し得、また削除前に複数のテキスト文字のサブセットの位置に画像を追加し得る。
【0029】
いくつかの実装形態では、複数のテキスト文字は、複数のテキスト文字のサブセットと、第2のサブセットとを含むことができる。本システムおよび方法は、複数の検索結果を決定するために、画像と第2のサブセットとを処理することを含み得る。いくつかの実装形態では、複数の検索結果は、画像と第2のサブセットに基づいて決定することができる。次いで、複数の検索結果を、検索結果ページインターフェースにおいて提供することができる。
【0030】
本システムおよび方法は、マルチモーダル検索のために利用することができる。特に、より包括的な検索クエリを生成するために、クエリ文字列の1つまたは複数の単語を画像に置き換えることができる。たとえば、本システムおよび方法は、検索クエリを取得することを含むことができる。検索クエリは1つまたは複数の単語を含むことができる。1つまたは複数の単語は、視覚的意図を含むと決定することができる。いくつかの実装形態では、視覚的意図は、1つまたは複数の視覚的特徴に関連付けることができる。本システムおよび方法は、表示用の画像選択インターフェースを提供することを含むことができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。いくつかの実装形態では、画像選択インターフェースは、視覚的意図を含む1つまたは複数の単語の決定に基づいて表示のために提供され得る。本システムおよび方法は、選択データを取得することを含むことができる。選択データは、画像の選択を記述することができる。次いで、画像を1つまたは複数の単語の代わりとして表示用に提供することができる。追加的および/または代替的に、本システムおよび方法は、画像に関連付けられる1つまたは複数の検索結果を決定することと、1つまたは複数の検索結果を出力として提供することとを含むことができる。
【0031】
本システムおよび方法は、検索クエリを取得することができる。検索クエリは1つまたは複数の単語を含むことができる。いくつかの実装形態では、検索クエリを取得するステップは、検索インターフェースのクエリボックスを介して検索クエリを取得するステップを含むことができる。検索インターフェースは、ウェブプラットフォーム、モバイルアプリケーション、および/またはデスクトップアプリケーションによって提供することができる。検索クエリは、ブール用語、構文、および/または自然言語構造を含むことができる。
【0032】
1つまたは複数の単語は、視覚的意図を含むと決定することができる。視覚的意図は、1つまたは複数の視覚的特徴に関連付けることができる。視覚的意図は、色、パターン、デザイン、オブジェクト、および/または視覚的特徴に関連付けられている1つまたは複数の単語に基づくことができる。この関連付けは、視覚的記述子である1つまたは複数の単語、特定の視覚的特徴のラベルに関連付けられている1つまたは複数の単語、および/あるいは過去の画像検索クエリに関連付けられている1つまたは複数の単語に基づくことができる。色、パターン、形状、および/または他の視覚的記述子を記述する単語は、視覚的意図を含むと決定され得る。
【0033】
本システムおよび方法は、ユーザインターフェース要素を提供することができる。いくつかの実装形態では、ユーザインターフェース要素は、テキスト置換オプションを記述するものにすることができる。ユーザインターフェース要素は、システムおよび方法が、1つまたは複数の単語が視覚的意図に関連付けられていると決定したことを示すインジケータであり得る。ユーザインターフェース要素は視覚効果を含むことができる。ユーザインターフェース要素は、ポップアップ要素、ドロップダウンメニュー、1つまたは複数の単語の表示の変更、および/あるいはアイコンの外観を含むことができる。
【0034】
次いで、本システムおよび方法は、第1の入力データを取得することができる。第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。第1の入力データは、センサデータを含むことができる。第1の入力データは、ユーザインターフェース要素との対話(たとえば、タップ入力、ジェスチャ入力、および/または入力が取得されないまましきい値時間が経過することによる入力の欠如)を記述し得る。
【0035】
次いで、画像選択インターフェースを表示用に提供することができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。画像選択インターフェースは、異なるデータベースからの画像および/あるいは異なる媒体またはタイプの画像を閲覧および選択するための1つまたは複数の異なるタブを含み得る。画像選択インターフェースは、異なるタイプのメディアコンテンツアイテムおよび/または異なるソースからのメディアコンテンツアイテムを提供するための1つまたは複数のパネルを含み得る。
【0036】
次いで、本システムおよび方法は、第2の入力データ(たとえば、選択データ)を取得することができる。第2の入力データ(たとえば、選択データ)は、画像の選択を記述することができる。第2の入力データはセンサデータを含むことができる。第2の入力データは、画像選択インターフェースとの対話(たとえば、タップ入力、ジェスチャ入力、および/または入力が取得されないまましきい値時間が経過することによる入力の欠如)を記述し得る。
【0037】
次いで、画像を1つまたは複数の単語の代わりとして表示用に提供することができる。たとえば、画像のプレビューおよび/またはサムネイルが、検索インターフェースのクエリボックスにおいて表示するために提供され得る。
【0038】
本システムおよび方法は、画像に関連付けられる1つまたは複数の検索結果を決定することを含むことができる。いくつかの実装形態では、1つまたは複数の検索結果は、検索結果ページを介して提供することができる。検索結果ページは、画像を表示するクエリボックスを含むことができる。追加的および/または代替的に、検索結果ページは、1つまたは複数の検索結果に関連付けられる情報を表示するための検索結果パネルを含むことができる。検索クエリは1つまたは複数の追加の単語を含むことができる。いくつかの実装形態では、1つまたは複数の検索結果は、1つまたは複数の追加の単語に少なくとも部分的に基づいて決定することができる。1つまたは複数の検索結果は、1つまたは複数の画像検索結果を含み得る。追加的および/または代替的に、1つまたは複数の検索結果は、画像の1つまたは複数の視覚的特徴に関連付けられる製品を記述する1つまたは複数の製品検索結果を含むことができる。
【0039】
1つまたは複数の検索結果を出力として提供することができる。1つまたは複数の検索結果は、検索結果ページインターフェースにおいて表示するために提供され得る。検索結果は、検索結果のタイプ、検索結果のソース、および/または検索結果の分類に基づいて、異なるパネルにおいて提供され得る。
【0040】
本システムおよび方法は、複数の単語を取得することを含むことができる。複数の単語は、1つまたは複数の特定の単語および1つまたは複数の追加の単語を含むことができる。本システムおよび方法は、複数の単語のうちの1つまたは複数の特定の単語は視覚的意図を含むと決定することを含むことができる。1つまたは複数の特定の単語を識別するインジケータを表示のために複数の単語を提供することができる。本システムおよび方法は、1つまたは複数の特定の単語に関連付けられる複数の画像を決定することを含むことができる。複数の画像は、ユーザインターフェースパネルに提供することができる。本システムおよび方法は、複数の画像のうちの特定の画像の選択を取得することと、1つまたは複数の追加の単語および1つまたは複数の特定の単語を含まない出力用の特定の画像を提供することとを含むことができる。
【0041】
本システムおよび方法は、複数の単語を取得することを含むことができる。複数の単語は、1つまたは複数の特定の単語および1つまたは複数の追加の単語を含むことができる。1つまたは複数の特定の単語は、視覚的に説明的な用語を含むことができる。1つまたは複数の追加の単語は、1つまたは複数の特定の単語を補完するものであってもよく、および/あるいは検索クエリまたはフレーズの異なる記述的態様を対象とするものであってもよい。
【0042】
次いで、本システムおよび方法は、複数の単語のうちの1つまたは複数の特定の単語は視覚的意図を含むと決定することを含むことができる。この決定は、1つまたは複数の出力を生成するために、1つまたは複数の機械学習モデルを用いて複数の単語を処理することに基づくことができる。1つまたは複数の機械学習モデルは、1つまたは複数の検出モデル、1つまたは複数のセグメンテーションモデル、1つまたは複数の分類モデル、および/あるいは1つまたは複数の拡張モデルを含むことができる。いくつかの実装形態では、1つまたは複数の機械学習モデルは、1つまたは複数の自然言語処理モデルを含むことができる。1つまたは複数の機械学習モデルは、1つまたは複数の変圧器モデルを含むことができる。いくつかの実装形態では、決定は履歴検索データに基づき得る。
【0043】
1つまたは複数の特定の単語を識別するインジケータを表示のために複数の単語を提供することができる。インジケータは、識別された1つまたは複数の特定の単語に基づいて実施できる1つまたは複数の可能なアクションを説明する視覚的なインジケータであり得る。インジケータは、説明を含んでもよく、テキストの色の変更を含んでもよく、強調表示を含んでもよく、および/またはポップアップ要素を含んでもよい。
【0044】
次いで、1つまたは複数の特定の単語に関連付けられる複数の画像を決定することができる。この決定は、1つまたは複数の特定の単語を用いてデータベースにクエリを実施することに基づき得る。データベースは、ユーザのデバイスに記憶されているローカルデータベースであってもよく、および/またはネットワーク接続を介してアクセスされるデータベースであってもよい。1つまたは複数の画像は、1つまたは複数の特定の単語に関連付けられる画像の特定の部分を分離するためにクロッピングされ得る。
【0045】
次いで、複数の画像をユーザインターフェースパネルにおいて表示するために提供することができる。ユーザインターフェースパネルはポップアップパネルであってもよく、および/または最初に表示されたインターフェースの一部を置き換えてもよい。
【0046】
複数の画像のうちの特定の画像の選択を取得することができる。いくつかの実装形態では、特定の画像は、画像データベースからクロッピングされた画像であり得る。クロッピングされた画像は、画像の関連部分を検出するために1つまたは複数の機械学習モデルを用いてクロッピングされていない画像を処理し、クロッピングされていない画像から関連部分をセグメント化することによって生成され得る。
【0047】
1つまたは複数の追加の単語および特定の画像は、1つまたは複数の特定の単語なしで出力として提供することができる。特定の画像は、1つまたは複数の特定の単語が以前に表示された位置に配置することができる。いくつかの実装形態では、サムネイルおよび/またはプレビューを完全な特定の画像の代わりに表示するために提供され得る。
【0048】
いくつかの実装形態では、本システムおよび方法は、翻訳出力を生成するために出力を処理することを含むことができる。翻訳出力は、特定の画像に少なくとも部分的に基づいて生成することができる。
【0049】
代替的および/または追加的に、本システムおよび方法は、出力を検索エンジンに提供し、複数の検索結果を受け取ることを含むことができる。複数の検索結果は、1つまたは複数の追加の単語および特定の画像に関連付けられ得る。
【0050】
ユーザは、質問の視覚的な部分をテキストで表現することに慣れている可能性がある。しかしながら、質問の一部は画像を使用した方がより適切に表現できる場合がある。たとえば、ユーザはソーシャルメディアで見たドレスからインスピレーションを受ける場合がある。しかしながら、ユーザは代わりに靴下のパターンを希望する場合がある。特定の柄の靴下を検索するために、ユーザは「カラフルな花柄の靴下」というクエリを入力し得るが、「カラフルな花柄」では意図の忠実性が失われる可能性がある。より的確な検索では、「カラフルな花柄」をユーザが見た実際の画像に置き換えるかどうかが考えられる。
【0051】
本明細書に開示されるシステムおよび方法は、視覚的意図があるように見える文字列を検出することができ、また文字列のその部分を強調表示し得る。ユーザが強調表示をタップすると、本システムおよび方法は、視覚的な検索ツールをトリガし、文字列を画像トークンに交換する簡単な方法をユーザに提供し得る。
【0052】
本開示のシステムおよび方法は、多くの技術的効果および利点を提供する。一例として、本システムおよび方法は、テキストから画像への置換インターフェースを提供することができる。特に、本明細書に開示されるシステムおよび方法は、1つまたは複数の単語を置き換えるための選択のためにユーザに提供する候補画像を決定するために、対話型ユーザインターフェースを活用することができる。
【0053】
本開示のシステムおよび方法の別の技術的利点は、テキストから画像への置換インターフェースをいつ、どの程度提供し得るかを決定するために、視覚的意図決定を活用できることである。たとえば、本システムおよび方法は、1つまたは複数の単語が視覚的意図に関連付けられていることを決定することができる。本システムおよび方法は、ユーザが、1つまたは複数の単語を1つまたは複数の画像で置き換えるために、テキストから画像への置換インターフェースを開くことができるようにするインジケータが提供されることを決定することができる。
【0054】
技術的な効果および利点の別の例は、計算効率の向上およびコンピューティングシステムの機能の改善に関するものである。たとえば、本明細書に開示されるシステムおよび方法は、追加の検索および追加の検索結果ページの閲覧の使用を軽減することができる、より包括的なマルチモーダル検索クエリを提供するために、テキストから画像への置換を活用することができ、これにより、時間と計算能力を節約することができる。
【0055】
次に図面を参照して、本開示の例示的な実施形態をさらに詳細に説明する。
【0056】
例示的なデバイスおよびシステム
図1Aは、本開示の例示的な実施形態による、テキストから画像への決定を実施する例示的なコンピューティングシステム100のブロック図を示している。システム100は、ネットワーク180を介して通信可能に結合されたユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニングコンピューティングシステム150を含む。
【0057】
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲームコンソールまたはコントローラ、ウェアラブルコンピューティングデバイス、組込みコンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなどの、任意のタイプのコンピューティングデバイスであり得る。
【0058】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサまたは動作可能に結合された複数のプロセッサであり得る。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ114は、ユーザコンピューティングデバイス102に動作を実施させるためにプロセッサ112によって実行されるデータ116および命令118を記憶することができる。
【0059】
いくつかの実装形態では、ユーザコンピューティングデバイス102は、1つまたは複数の視覚的意図決定モデル120を記憶または含むことができる。たとえば、視覚的意図決定モデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)、または非線形モデルおよび/または線形モデルを含む他のタイプの機械学習モデルなどの様々な機械学習モデルであってもよいし、そうでなければそれを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(たとえば、長期短期記憶リカレントニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形式のニューラルネットワークを含むことができる。視覚的意図決定モデル120の例については、
図2A~
図5を参照して説明する。
【0060】
いくつかの実装形態では、1つまたは複数の視覚的意図決定モデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使用または実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、(たとえば、テキスト文字列の複数のインスタンスにわたって並列の視覚的意図決定を実施するために)単一の視覚的意図決定モデル120の複数の並列インスタンスを実装することができる。
【0061】
より具体的には、視覚的意図決定モデル120は、1つまたは複数の単語が視覚的意図に関連付けられているかどうかを決定するために、1つまたは複数の単語を処理することができる。視覚的意図決定モデル120は、1つまたは複数の分類モデル、1つまたは複数のセグメンテーションモデル、および/あるいは1つまたは複数の検出モデルを含むことができる。視覚的意図決定モデル120は、自然言語モデルを含み得る。いくつかの実装形態では、視覚的意図決定モデル120は、テキスト文字列の意味理解を記述する意味理解出力を生成し得る。
【0062】
追加的または代替的に、1つまたは複数の視覚的意図決定モデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれるか、またはそうでなければ記憶され、実装され得る。たとえば、視覚的意図決定モデル140は、ウェブサービス(たとえば、テキストから画像への置換サービス)の一部としてサーバコンピューティングシステム130によって実装することができる。したがって、1つまたは複数のモデル120をユーザコンピューティングデバイス102に記憶および実装することができ、および/あるいは1つまたは複数のモデル140をサーバコンピューティングシステム130に記憶および実装することができる。
【0063】
ユーザコンピューティングデバイス102はまた、ユーザ入力を受け取る1つまたは複数のユーザ入力コンポーネント122を含むこともできる。たとえば、ユーザ入力コンポーネント122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチを感知するタッチ感知コンポーネント(たとえば、タッチ感知表示画面またはタッチパッド)であり得る。タッチ感知コンポーネントは、仮想キーボードを実装するために機能する。ユーザ入力コンポーネントの他の例は、マイク、従来のキーボード、またはユーザがユーザ入力を提供できる他の手段を含む。
【0064】
サーバコンピューティングデバイス130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサまたは動作可能に結合された複数のプロセッサであり得る。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ134は、サーバコンピューティングデバイス130に動作を実施させるためにプロセッサ132によって実行されるデータ136および命令138を記憶することができる。
【0065】
いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそれによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの組合せに従って動作することができる。
【0066】
上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習された視覚的意図決定モデル140を記憶するか、そうでなければ含むことができる。たとえば、モデル140は、様々な機械学習されたモデルであってもよく、あるいはそれを含むことができる。機械学習モデルの例は、ニューラルネットワークまたは他の多層非線形モデルを含む。ニューラルネットワークの例は、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的なモデル140については、
図2A~
図5を参照して説明する。
【0067】
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されたトレーニングコンピューティングシステム150との対話を介して、モデル120および/または140をトレーニングすることができる。トレーニングコンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってもよく、サーバコンピューティングシステム130の一部であってもよい。
【0068】
トレーニングコンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサまたは動作可能に結合された複数のプロセッサであり得る。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなどの1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ154は、トレーニングコンピューティングシステム150に動作を実施させるために、プロセッサ152によって実行されるデータ156および命令158を記憶することができる。いくつかの実装形態では、トレーニングコンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそれによって実装される。
【0069】
トレーニングコンピューティングシステム150は、たとえばエラーの逆方向伝播などの様々なトレーニングまたは学習技法を使用して、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130に記憶された機械学習モデル120および/または140をトレーニングするモデルトレーナ160を含むことができる。たとえば、損失関数は、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新するために、モデルを通じて逆伝播され得る。平均二乗誤差、尤度損失、クロスエントロピ損失、ヒンジ損失、および/または他の様々な損失関数など、様々な損失関数を使用することができる。トレーニングを何回も繰り返してパラメータを繰り返し更新するために、勾配降下法を使用することができる。
【0070】
いくつかの実装形態では、エラーの逆方向伝播を実施することは、時間の経過とともに切り捨て逆伝播を実施することを含む場合がある。モデルトレーナ160は、トレーニングされているモデルの一般化能力を向上させるために、多くの一般化技法(たとえば、重みの減衰、ドロップアウトなど)を実施することができる。
【0071】
特に、モデルトレーナ160は、トレーニングデータ162のセットに基づいて視覚的意図決定モデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、トレーニング単語およびフレーズ、グランドトゥルースラベル、履歴検索クエリ、クエリ絞込みに関連付けられる履歴選択データ、大規模言語データセット、および/またはグランドトゥルース意味論的意図マッピングを含むことができる。
【0072】
いくつかの実装形態では、ユーザが同意した場合、トレーニング例をユーザコンピューティングデバイス102によって提供することができる。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信したユーザ固有のデータに基づいてトレーニングコンピューティングシステム150によってトレーニングすることができる。場合によっては、このプロセスはモデルのパーソナライズと呼ばれることがある。
【0073】
モデルトレーナ160は、所望の機能を提供するために利用されるコンピュータロジックを含む。モデルトレーナ160は、ハードウェア、ファームウェア、および/または汎用プロセッサを制御するソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデルトレーナ160は、ストレージデバイスに記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデルトレーナ160は、RAMハードディスク、光学媒体または磁気媒体などの有形のコンピュータ可読ストレージ媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
【0074】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなどの任意のタイプの通信ネットワークであり得、任意の数のワイヤードまたはワイヤレスリンクを含むことができる。一般に、ネットワーク180上の通信は、様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、エンコーディングまたは形式(たとえば、HTML、XML)、および/または保護スキーム(たとえば、VPN、セキュアHTTP、SSL)を使用して、あらゆるタイプのワイヤードおよび/またはワイヤレス接続を介して実施することができる。
【0075】
本明細書で説明されている機械学習モデルは、様々なタスク、アプリケーション、および/またはユースケースにおいて使用され得る。
【0076】
いくつかの実装形態では、本開示の機械学習モデルへの入力は画像データであり得る。機械学習モデルは、出力を生成するために画像データを処理することができる。一例として、機械学習モデルは、画像認識出力(たとえば、画像データの認識、画像データの潜在的な埋込み、画像データのエンコードされた表現、画像データのハッシュなど)を生成するために画像データを処理することができる。別の例として、機械学習モデルは、画像セグメンテーション出力を生成するために画像データを処理することができる。別の例として、機械学習モデルは、画像分類出力を生成するために画像データを処理することができる。別の例として、機械学習モデルは、画像データ修正出力(たとえば、画像データの変更など)を生成するために画像データを処理することができる。別の例として、機械学習モデルは、エンコードされた画像データ出力(たとえば、画像データのエンコードされたおよび/または圧縮された表現など)を生成するために、画像データを処理することができる。別の例として、機械学習モデルは、アップスケールされた画像データ出力を生成するために画像データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するために画像データを処理することができる。
【0077】
いくつかの実装形態では、本開示の機械学習モデルへの入力は、テキストまたは自然言語データであり得る。機械学習モデルは、出力を生成するためにテキストまたは自然言語データを処理することができる。一例として、機械学習モデルは、言語エンコーディング出力を生成するために自然言語データを処理することができる。別の例として、機械学習モデルは、潜在的なテキスト埋込み出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、翻訳出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、分類出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、テキストのセグメンテーション出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、意味論的意図出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、アップスケールされたテキストまたは自然言語出力(たとえば、入力テキストまたは自然言語よりも高品質のテキストまたは自然言語データなど)を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するためにテキストまたは自然言語データを処理することができる。
【0078】
いくつかの実装形態では、本開示の機械学習モデルへの入力はスピーチデータであり得る。機械学習モデルは、出力を生成するためにスピーチデータを処理することができる。一例として、機械学習モデルは、音声認識出力を生成するためにスピーチデータを処理することができる。別の例として、機械学習モデルは、音声翻訳出力を生成するためにスピーチデータを処理することができる。別の例として、機械学習モデルは、潜在的な埋込み出力を生成するためにスピーチデータを処理することができる。別の例として、機械学習モデルは、エンコードされたスピーチ出力(たとえば、スピーチデータのエンコードされたおよび/または圧縮された表現など)を生成するためにスピーチデータを処理することができる。別の例として、機械学習モデルは、アップスケールされたスピーチ出力(たとえば、入力スピーチデータよりも高品質なスピーチデータなど)を生成するためにスピーチデータを処理することができる。別の例として、機械学習モデルは、テキスト表現出力(たとえば、入力スピーチデータのテキスト表現など)を生成するためにスピーチデータを処理することができる。別の例として、機械学習モデルは、予測出力を生成するためにスピーチデータを処理することができる。
【0079】
いくつかの実装形態では、本開示の機械学習モデルへの入力は、潜在的なエンコーディングデータ(たとえば、入力の潜在的な空間表現など)であり得る。機械学習モデルは、出力を生成するために潜在的なエンコーディングデータを処理することができる。一例として、機械学習モデルは、認識出力を生成するために潜在的なエンコーディングデータを処理することができる。別の例として、機械学習モデルは、再構築出力を生成するために潜在的なエンコーディングデータを処理することができる。別の例として、機械学習モデルは、検索出力を生成するために潜在的なエンコーディングデータを処理することができる。別の例として、機械学習モデルは、再クラスタリング出力を生成するために潜在的なエンコーディングデータを処理することができる。別の例として、機械学習モデルは、予測出力を生成するために潜在的なエンコーディングデータを処理することができる。
【0080】
いくつかの実装形態では、本開示の機械学習モデルへの入力は、統計データであり得る。機械学習モデルは、出力を生成するために統計データを処理することができる。一例として、機械学習モデルは、認識出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、分類出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、セグメンテーション出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、セグメンテーション出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、視覚化出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、診断出力を生成するために統計データを処理することができる。
【0081】
場合によっては、入力は視覚データを含み、タスクはコンピュータビジョンタスクである。場合によっては、入力は1つまたは複数の画像のピクセルデータを含み、タスクは画像処理タスクである。たとえば、画像処理タスクは画像分類であり、出力はスコアのセットであり、各スコアは異なるオブジェクトクラスに対応し、1つまたは複数の画像がそのオブジェクトクラスに属するオブジェクトを描写する尤度を表す。画像処理タスクはオブジェクト検出であってもよく、画像処理出力は、1つまたは複数の画像内の1つまたは複数の領域、および領域ごとに、その領域が対象のオブジェクトを表す尤度を識別する。別の例として、画像処理タスクは画像セグメンテーションであり、画像処理出力は、1つまたは複数の画像内のピクセルごとに、あらかじめ決定されたカテゴリのセット内のカテゴリごとのそれぞれの尤度を定義する。たとえば、カテゴリのセットは前景と背景にすることができる。別の例として、カテゴリのセットをオブジェクトクラスにすることができる。別の例として、画像処理タスクは深度推定であり得、画像処理出力は、1つまたは複数の画像内のピクセルごとに、それぞれの深度値を定義する。別の例として、画像処理タスクは動き推定であり得、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つのピクセルごとに、ネットワーク入力内の画像間のピクセルにおいて描かれるシーンの動きを定義する。
【0082】
場合によっては、入力は口頭での発話を表すオーディオデータを含み、タスクはスピーチ認識タスクである。出力は、口頭での発話にマッピングされたテキスト出力を備え得る。場合によっては、タスクは入力データの暗号化または復号化を備える。場合によっては、タスクは、分岐予測またはメモリアドレス変換などのマイクロプロセッサパフォーマンスタスクを備える。
【0083】
図1Aは、本開示を実装するために使用することができる1つの例示的なコンピューティングシステムを示している。他のコンピューティングシステムも使用することができる。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデルトレーナ160およびトレーニングデータセット162を含むことができる。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングおよび使用することができる。そのような実装形態のいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有のデータに基づいてモデル120をパーソナライズするために、モデルトレーナ160を実装することができる。
【0084】
図1Bは、本開示の例示的な実施形態に従って実施する例示的なコンピューティングデバイス10のブロック図を示している。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。
【0085】
コンピューティングデバイス10は、多数のアプリケーション(たとえば、アプリケーション1からN)を含む。各アプリケーションは、独自の機械学習ライブラリおよび機械学習モデルを含む。たとえば、各アプリケーションは機械学習モデルを含むことができる。アプリケーションの例は、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0086】
図1Bに示されるように、各アプリケーションは、たとえば、1つまたは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、および/または追加のコンポーネントなどの、コンピューティングデバイスの他の多数のコンポーネントと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使用して各デバイスコンポーネントと通信することができる。いくつかの実装形態では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
【0087】
図1Cは、本開示の例示的な実施形態に従って実施する例示的なコンピューティングデバイス50のブロック図を示している。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。
【0088】
コンピューティングデバイス50は、多数のアプリケーション(たとえば、アプリケーション1からN)を含む。各アプリケーションは中央のインテリジェンス層と通信する。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通のAPI)を使用して、中央インテリジェンス層(およびそこに記憶されたモデル)と通信することができる。
【0089】
中央インテリジェンス層は、多数の機械学習モデルを含む。たとえば、
図1Cに示されるように、それぞれの機械学習モデル(たとえば、モデル)をアプリケーションごとに提供し、中央インテリジェンス層によって管理することができる。他の実装形態では、2つ以上のアプリケーションが単一の機械学習モデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンス層は、すべてのアプリケーションに対して単一のモデル(たとえば、単一のモデル)を提供することができる。いくつかの実装形態では、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステム内に含まれるか、またはそれによって実装される。
【0090】
中央インテリジェンス層は、中央デバイスデータ層と通信することができる。中央デバイスデータ層は、コンピューティングデバイス50のためのデータの集中リポジトリであり得る。
図1Cに示されるように、中央デバイスデータ層は、たとえば、1つまたは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、および/または追加のコンポーネントなどの、コンピューティングデバイスの他の多数のコンポーネントと通信することができる。いくつかの実装形態では、中央デバイスデータ層は、API(たとえば、プライベートAPI)を使用して各デバイスコンポーネントと通信することができる。
【0091】
例示的なシステム構成
図2Aは、本開示の例示的な実施形態による、例示的なクエリインジケータの例を示している。特に、
図2Aは、検索インターフェース202内のクエリ入力ボックス204を示している。クエリ入力ボックス204は、検索クエリとして利用される入力テキスト文字列を受信および/または表示するように構成することができる。たとえば、ユーザは、「花柄のクラッチ(clutch with floral pattern)」という検索クエリを生成するために、1つまたは複数の入力を提供した可能性がある。1つまたは複数の特定の単語208が視覚的意図に関連付けられているかを決定するために、検索クエリを処理することができる。次いで、インジケータを用いて表示するために、1つまたは複数の特定の単語208を提供ことができる(たとえば、1つまたは複数の特定の単語208を異なる色で提供する、および/または強調表示することができる)。検索クエリ内の1つまたは複数の他の単語206は、通常の形式で、および/または異なるインジケータにおいて表示するために提供することができる。
【0092】
生成および/または提供される画像選択インターフェースを開始するために、視覚的意図に関連付けられるインジケータを選択することができる。インジケータは、入力中にリアルタイムで提供されてもよく、および/または検索クエリが処理され、検索結果が表示のために提供されるときに提供されてもよい。
【0093】
いくつかの実装形態では、検索クエリは、キーボード(たとえば、物理キーボードおよび/またはグラフィックキーボード)を介して、マウスを介して、および/または音声入力を介して入力され得る(たとえば、ユーザは、処理および転写のために音声発話の記録を開始するために、音声コマンドアイコン210を選択し得る)。追加的および/または代替的に、視覚的意図決定および/または検索結果のランキングは、部分的にユーザプロファイル212に基づき得る。
【0094】
図2Bは、本開示の例示的な実施形態による、例示的な画像選択インターフェース220の例を示している。特に、
図2Bは、ユーザ固有の画像ギャラリから画像を選択するための画像選択インターフェース220の例を示している。たとえば、インジケータが検索クエリ入力ボックス222内に提供され得、このインジケータは、検索結果ページ224から初期画像選択ページ226に遷移するために選択され得る。画像選択ページ226は、最近の画像パネル、全画像パネル、および/または関連性パネルを含むことができる複数のパネルを含み得る。最近の画像パネルは、最近保存した画像を含むことができる。すべての画像パネルは、ユーザ固有の画像ギャラリ内のすべての画像にアクセスするためのインターフェースを含むことができる。すべての画像パネルは、画像の保存日、画像の名前、および/あるいは視覚的意図に関連付けられた1つまたは複数の特定の単語と画像の関連性に基づいて並べ替えられた画像を含むことができる。関連性パネルは、ユーザ固有の画像ギャラリから、1つまたは複数の特定の単語および/あるいは視覚的意図に最も関連すると決定された1つまたは複数の画像を含むことができる。関連性は、画像内で検出された1つまたは複数の特徴、画像のメタデータ、画像のソース、画像の名前、および/あるいは画像キャプチャの位置に基づいて決定され得る。
【0095】
画像が選択されると、関心領域を決定するために、選択された画像が処理され得る。インジケータは、領域選択インターフェース228において各関心領域候補とともに表示するために提供され得る。関心領域は、画像内の1つまたは複数の特徴を検出するために1つまたは複数の機械学習モデルによって処理される画像に基づいて決定され得る。次いで、ユーザは特定の候補領域を選択することができ、これによりクロッピングインターフェース230が提供されることになる。クロッピングインターフェース230は、選択された候補領域に基づいて、および/あるいは1つまたは複数の他のユーザ入力に基づいて、提案されたクロッピング領域を提供することができる。
【0096】
クロッピングされた領域が確認されると、画像232(または、画像のサムネイル)は、1つまたは複数の特定の単語を置き換えることができ、クエリ入力ボックスにおいて表示するために提供することができる。次いで、検索結果を画像に基づいて絞り込むことができ、これにより、更新された検索結果ページ234を表示するために提供することができる。
【0097】
図2Cは、本開示の例示的な実施形態による、例示的な画像選択インターフェース240の例を示している。特に、
図2Cは、画像をキャプチャするための画像選択インターフェース240の例を示している。たとえば、検索クエリを提供することができ、視覚的意図を決定するために検索クエリを処理することができ、インジケータ242を提供することができる。インジケータ242を選択すると、検索インターフェースを検索結果インターフェース244から画像キャプチャインターフェース248に遷移させることができる。画像キャプチャオプションは、画像選択インターフェース240によって提供される複数のオプション246から選択され得る。
【0098】
次いで、ユーザのコンピューティングデバイスの1つまたは複数の画像センサを使用して画像をキャプチャすることができる。次いで、画像選択インターフェース240は、クロッピングオプション250をユーザに提供し得る。クロッピングオプション250は、自動的に提案されるクロッピング領域を含み得る。代替的および/または追加的に、クロッピングオプション250は、ユーザが、より具体的な入力領域を提供するために、キャプチャされた画像を手動でクロッピングすることを可能にし得る。
【0099】
次いで、マルチモーダルクエリ252を生成するために、クロッピングされた領域を検索クエリに追加することができる(たとえば、視覚的に説明的な用語を置き換えるため、および/または視覚的に説明的な用語を補完するために)。次いで、複数の検索結果が、マルチモーダルクエリ252に基づいて、更新された検索結果インターフェース254において提供され得る。
【0100】
図2Dは、本開示の例示的な実施形態による、例示的な画像選択インターフェース260の例を示している。特に、
図2Dは、検索エンジンを使用して画像を選択するための例示的な画像選択インターフェース260を示している。たとえば、検索クエリを提供することができ、視覚的意図を決定するために検索クエリを処理することができ、インジケータ262を提供することができる。インジケータ262を選択すると、検索インターフェースを検索結果インターフェース264から画像検索インターフェース268に遷移させることができる。画像検索オプションは、画像選択インターフェース260によって提供される複数のオプション266から選択することができる。
【0101】
画像検索インターフェース268は、複数の候補画像を決定するために視覚的意図に関連付けられた検索クエリの1つまたは複数の特定の単語を処理することができる。次いで、ユーザは特定の画像を選択し得、これにより画像選択インターフェース260を領域選択ステージ270に遷移させることができる。ユーザは領域を選択することができ、画像選択インターフェース260は、自動クロッピングおよび/または手動クロッピングを可能にし得るクロッピングオプション272を提供することができる。
【0102】
クロッピングが完了すると、更新された検索結果ページ276が提供され得る。更新された検索結果ページ276の検索結果は、元の検索クエリの1つまたは複数の単語および選択された画像の少なくとも一部を含むマルチモーダルクエリ274に基づくことができる。
【0103】
図3は、本開示の例示的な実施形態による、例示的な検索インターフェース300のブロック図を示している。本明細書に開示されるシステムおよび方法は、検索エンジン302によって処理できるマルチモーダル検索クエリを生成するために、検索クエリ304の拡張を可能にすることができる。検索クエリ304は、検索エンジン302のクエリ入力ボックスに入力することができ、視覚的意図に関連付けられる視覚的記述子を含み得る。
【0104】
検索クエリ304は、複数の検索結果を決定するために処理することができ、その検索結果は、検索結果ページ306を生成するために利用することができる。検索結果ページ306は、1つまたは複数の決定された視覚的記述子を示すインジケータ308を備えた検索クエリを含むクエリ入力ボックスを含むことができる。インジケータ308を伴う検索クエリは、視覚的意図が決定されたこと、およびマルチモーダル検索クエリを生成することによって検索を絞り込むためにインターフェースを開くことができることを示すことができる。検索結果ページ306は、第1の検索結果310、第2の検索結果312、第3の検索結果314、および/または第nの検索結果316を含み得る。マルチモーダル検索クエリを生成することによる検索の絞込みに基づいて、検索結果ページ306は、異なるランキングの同じ検索結果、異なる検索結果、および/または新しい検索結果と以前に表示された検索結果の混合を含むように更新され得る。
【0105】
図4は、本開示の例示的な実施形態による、例示的な画像選択インターフェース400の例を示している。いくつかの実装形態では、ユーザ固有の画像ギャラリオプション410、画像キャプチャオプション420、および/または画像検索オプション430は、テキスト置換オプションの選択に応じて提供され得る。ユーザ固有の画像ギャラリオプション410、画像キャプチャオプション420、および画像検索オプション430はそれぞれ、特定のオプションに関連付けることができる独自のそれぞれのアイコンを有し得る。アイコンは、あるオプションから別のオプションに移動するために選択可能であり得る。たとえば、ユーザ固有の画像ギャラリオプション410は、重なり合うタイルアイコン412に関連付けることができ、画像キャプチャオプション420は、カメラアイコン422に関連付けることができ、画像検索オプション430は、画像のグローバル検索を示す地球アイコン432に関連付けることができる。
【0106】
各オプションは、画像に対して異なるソースおよび/または重複するソースを提供し得る。ユーザ固有の画像ギャラリオプション410は、ユーザに特に関連付けられた1つまたは複数の画像ギャラリから画像を提供することができる。画像ギャラリは、ユーザデバイスにローカルに記憶することができ、および/またはサーバコンピューティングシステムに記憶することができる。ユーザ固有の画像ギャラリオプション410は、インタラクションのための異なるパネルを含み得、これは、最近のスクリーンショットパネル414、最近のカメラキャプチャパネル、および/または全画像パネル416を含むことができる。
【0107】
画像キャプチャオプション420は、ユーザデバイスの1つまたは複数の画像センサを利用することができ、環境においていつおよび/または何を撮影するかを決定するための画像キャプチャユーザインターフェース要素424を含み得る。
【0108】
画像検索オプション430は、インターネット上の複数のソースから画像データを取得するために検索エンジンを活用することができる。画像検索オプション430は、検索エンジンにクエリを実施するために、入力検索クエリの1つまたは複数の単語を利用し得る。いくつかの実装形態では、新しいクエリは、専用の検索クエリボックス434を介して入力され得る。代替的および/または追加的に、1つまたは複数の単語が調整され得る。複数の画像検索結果を表示し、および/またはユーザによって対話することができる。
【0109】
図5は、本開示の例示的な実施形態による、例示的なテキストから画像への置換システム500のブロック図を示している。テキストから画像への置換システム500は、拡張データ516を生成するためにテキストデータ502を処理することができる。テキストデータ502は、1つまたは複数の単語に関連付けられる複数の文字を記述することができる。1つまたは複数の単語は、検索クエリ、ブログ内のテキスト文字列、メッセージ内のテキスト文字列、および/あるいは質問またはプロンプトに対する応答に関連付けることができる。
【0110】
テキストデータ502に関連付けられる1つまたは複数の特定の単語が視覚的意図に関連付けられているか(たとえば、1つまたは複数の単語が視覚的に説明的な単語である(たとえば、1つまたは複数の視覚的特徴を説明する))を決定するために、テキストデータ502を処理することができる。この決定は、履歴データ504、ヒューリスティック、および/あるいは1つまたは複数の機械学習モデル(たとえば、視覚的意図決定モデル508)に基づいて行うことができる。たとえば、履歴データ504は、1つまたは複数の特定の単語が使用されたときのユーザによる過去の対話を記述することができる。いくつかの実装形態では、ユーザおよび/または複数のユーザは、1つまたは複数の特定の単語を使用する際に、検索結果を画像に絞り込むことができる。代替的および/または追加的に、1つまたは複数の特定の単語は、画像を説明する際(たとえば、画像のキャプションにおいて)によく使用され得る。1つまたは複数の特定の単語は、画像および/または画像特徴との共通の関連付けに基づいて、視覚的意図に関連付けられると決定することができる。いくつかの実装形態では、1つまたは複数の特定の単語が視覚的意図に関連付けられていることを決定するために、単語またはフレーズの自然言語の意味が利用され得る。
【0111】
追加的および/または代替的に、1つまたは複数の特定の単語が視覚的意図に関連付けられることを決定するために、1つまたは複数の機械学習モデル(たとえば、視覚的意図決定モデル508)を利用することができる。視覚的意図決定モデル508は、テキストデータを解析することと、セグメントごとの分類を提供するために各セグメントを処理することと、テキストデータが視覚的意図に関連付けられた1つまたは複数の特定の単語を含むかどうかを記述する出力データ510を生成することとを行うことができる。代替的および/または追加的に、視覚的意図決定モデル508は、出力データ510を生成するために、テキストデータを全体として、および/または様々な構文的に決定されたセグメントにおいて処理することができる自然言語処理モデルを含むことができる。
【0112】
視覚的意図に関連付けられる1つまたは複数の特定の単語の決定に基づいて、インジケータ506を表示のために提供することができる。インジケータ506は、異なる色および/または変化する色を有する1つまたは複数の特定の単語を含むことができる。インジケータ506および/あるいは1つまたは複数の他のユーザインターフェース要素が選択され得る。次いで、テキストから画像への置換インターフェース512が提供され得る。次いで、ユーザは、ユーザ固有の画像ギャラリを検索するか、新しい画像をキャプチャするか、および/またはテキストデータ502の一部の代わりにおよび/またはテキストデータ502の一部とともに利用される特定の画像514をウェブ(たとえば、コンピューティングシステムのネットワーク)で検索するかを選択することができる。
【0113】
次いで、テキストデータ502を拡張し、テキストデータと画像データの両方を含むことができる拡張データ516を生成するために、選択された特定の画像514を利用することができる。いくつかの実装形態では、選択された特定の画像514は、テキストデータ502を拡張する前に処理され得る。たとえば、特定の画像514は、テキストデータ502に追加する拡張画像を生成するために、1つまたは複数の機械学習モデル(たとえば、クロッピングモデル518)によって処理され得る。特に、特定の画像514は、セグメント化する特定の画像514の1つまたは複数の部分を決定して、クロッピングされた画像520を生成するために、クロッピングモデル518によって処理され得る。次に、拡張データ516を生成するために、クロッピングされた画像520を利用することができる。クロッピングモデル518は、1つまたは複数の検出モデル、1つまたは複数の分類モデル、および/あるいは1つまたは複数のセグメンテーションモデルを含むことができる。クロッピングモデルは、特定の画像514に1つまたは複数のオブジェクトが描かれているかを決定し得、1つまたは複数のオブジェクトに関連付けられる1つまたは複数の領域を決定することができ、また、提案されたクロッピング領域をユーザに提供することができる。代替的および/または追加的に、クロッピングモデル518は、特定の画像514の複数の領域のうちのどれが1つまたは複数の特定の単語に関連付けられているかを決定することができる。たとえば、1つまたは複数の特定の単語が「パターン」を含む場合、クロッピングモデル518は、壁の無地の壁紙をセグメント化するよりもストライプのドレスの一部をセグメント化することを決定し得る。
【0114】
例示的な方法
図6は、本開示の例示的な実施形態に従って実施する例示的な方法のフローチャート図を示している。
図6は、例示および議論の目的で特定の順序で実施されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法600の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組合せ、および/または適合させることができる。
【0115】
602において、コンピューティングシステムは、テキストデータを取得することができる。テキストデータは、複数のテキスト文字を記述することができる。複数のテキスト文字は、1つまたは複数の単語を記述することができる。複数の文字は、ユーザインターフェースへの1つまたは複数の入力を介して取得され得る。代替的および/または追加的に、テキストデータは、口頭での発話に関連付けられるオーディオデータを処理することによって生成され得る。
【0116】
604において、コンピューティングシステムは、複数のテキスト文字のサブセットが視覚的に説明的な用語を含むかを決定するために、テキストデータを処理することができる。視覚的に説明的な用語は、1つまたは複数の視覚的特徴と関連付けることができる。いくつかの実装形態では、視覚的に説明的な用語は、履歴検索データに基づいて決定することができる。履歴検索データは、1つまたは複数の画像検索結果を取得するために利用される複数の用語を記述することができる。いくつかの実装形態では、視覚的に説明的な用語は、意味理解モデルを用いたテキストデータの処理に基づいて決定することができる。視覚的な説明用語は、履歴クリックデータに基づいて決定され得る。履歴選択データは、グローバル選択データ、ユーザ固有の履歴選択データ、地域固有の履歴選択データ、および/またはコンテキスト固有の履歴選択データであってもよい。いくつかの実装形態では、履歴選択データは、特定の用語が入力されたときに画像検索タブが選択される頻度を記述することができる。
【0117】
606において、コンピューティングシステムは、表示用のインジケータを提供することができる。インジケータは、視覚的に説明的な用語を画像データに置き換えるためのテキスト置換オプションを説明することができる。インジケータは、複数のテキスト文字の残りの文字とは異なる1つまたは複数の色で表示される複数のテキスト文字のサブセットを含むことができる。いくつかの実装形態では、インジケータはポップアップユーザインターフェース要素を含むことができる。インジケータは、1つまたは複数の単語を強調表示すること、1つまたは複数の単語に下線を引くこと、1つまたは複数の単語を丸で囲むこと、および/または1つまたは複数の単語を点滅させることを含み得る。
【0118】
608において、コンピューティングシステムは、第1の入力データを取得することができる。第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。第1の入力データは、オーディオ入力(たとえば、音声コマンド)、タッチ入力(たとえば、タッチスクリーンへの入力)、キーボード入力、および/またはマウス入力を記述することができる。第1の入力データは、インジケータの選択を含むことができる。
【0119】
610において、コンピューティングシステムは、表示用の画像選択インターフェースを提供することができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。いくつかの実装形態では、複数の画像は、視覚的に説明的な用語に少なくとも部分的に基づいて取得される。複数の画像は、ユーザ固有の画像データベース内の画像データが1つまたは複数の視覚的特徴に関連付けられていると決定することによって取得することができる。コンピューティングシステムは、1つまたは複数の視覚的特徴に関連付けられている画像データが、複数の画像を含むと決定することができる。いくつかの実装形態では、1つまたは複数の視覚的に説明的な用語に基づいて複数の画像を取得することができる。
【0120】
いくつかの実装形態では、複数の画像は、複数のテキスト文字のサブセットを用いて検索エンジンにクエリを実施することと、複数の画像を受信することとによって取得することができる。検索エンジンへのクエリの実施に利用されるクエリは、視覚的に説明的な用語を含むことができる。追加的および/または代替的に、1つまたは複数のコンテキストを取得および/または決定することができる。次いで、検索を絞り込むために、1つまたは複数のコンテキストを利用することができる。1つまたは複数のコンテキストは、ユーザ固有の情報(たとえば、ユーザの位置、アプリケーション履歴、ユーザの検索履歴、ユーザの購入履歴、ユーザの好み、および/またはユーザプロファイル)を含むことができる。いくつかの実装形態では、1つまたは複数のコンテキストは、特定の視覚的に説明的な用語が使用されるときの、時刻、曜日、年間の時期、世界的な傾向、および/または画像の過去の選択を含むことができる。
【0121】
追加的および/または代替的に、表示用の画像選択インターフェースを提供するステップは、画像検索オプション、ユーザ画像データベースオプション、および画像キャプチャオプションを提供するステップを含むことができる。画像検索オプションは、複数のテキスト文字のサブセットを用いてウェブにクエリを実施することを含むことができる。ユーザ画像データベースオプションは、ユーザ画像データベースから画像を取得することを含むことができる。画像キャプチャオプションは、ユーザデバイスの1つまたは複数の画像センサを利用することを含むことができる。ユーザ画像データベースは、1つまたは複数のユーザプロファイルに関連付けることができ、また1つまたは複数の画像ギャラリアプリケーションに関連付けることもできる。いくつかの実装形態では、ユーザ画像データベースオプションにより、ローカルに記憶されたデータの選択が可能になる。代替的および/または追加的に、ユーザ画像データベースオプションを使用すると、ユーザは、クラウドストレージ、サーバストレージ、および/またはローカルストレージを含むことができる1つまたは複数の画像ストレージアプリケーションにユーザに関連付けて記憶されている画像を選択できるようになる。
【0122】
いくつかの実装形態では、コンピューティングシステムは、インジケータを提供することなく、および/または第1の入力データを取得することなく、画像選択インターフェースを提供することができる。たとえば、コンピューティングシステムは、606および608を実施せずに、604を実施し、次いで610を実施してもよい。
【0123】
612において、コンピューティングシステムは第2の入力データを取得することができる。第2の入力データ(または、選択データ)は、画像の第2の選択を記述することができる。第2の入力データは、オーディオ入力(たとえば、音声コマンド)、タッチ入力(たとえば、タッチスクリーンへの入力)、キーボード入力、および/またはマウス入力を記述することができる。第1の入力データは、選択アイコンの選択、サムネイルの選択、および/またはドロップアンドドラッグ選択を含むことができる。
【0124】
614において、コンピューティングシステムは、複数のテキスト文字のサブセットの代わりに表示用の画像を提供することができる。たとえば、複数のテキスト文字のサブセットを削除し得、また削除前に複数のテキスト文字のサブセットの位置に画像を追加し得る。
【0125】
いくつかの実装形態では、複数のテキスト文字は、複数のテキスト文字のサブセットと、第2のサブセットとを含むことができる。コンピューティングシステムは、複数の検索結果を決定するために、画像と第2のサブセットとを処理することを含み得る。いくつかの実装形態では、複数の検索結果は、画像と第2のサブセットに基づいて決定することができる。次いで、複数の検索結果を、検索結果ページインターフェースにおいて提供することができる。
【0126】
図7は、本開示の例示的な実施形態に従って実施する例示的な方法のフローチャート図を示している。
図7は、例示および議論の目的で特定の順序で実施されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法700の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組合せ、および/または適合させることができる。
【0127】
702において、コンピューティングシステムは検索クエリを取得することができる。検索クエリは1つまたは複数の単語を含むことができる。いくつかの実装形態では、検索クエリを取得するステップは、検索インターフェースのクエリボックスを介して検索クエリを取得するステップを含むことができる。検索インターフェースは、ウェブプラットフォーム、モバイルアプリケーション、および/またはデスクトップアプリケーションによって提供することができる。検索クエリは、ブール用語、構文、および/または自然言語構造を含むことができる。
【0128】
704において、コンピューティングシステムは、1つまたは複数の単語が視覚的意図を含むと決定することができる。視覚的意図は、1つまたは複数の視覚的特徴に関連付けることができる。視覚的意図は、色、パターン、デザイン、オブジェクト、および/または視覚的特徴に関連付けられている1つまたは複数の単語に基づくことができる。この関連付けは、視覚的記述子である1つまたは複数の単語、特定の視覚的特徴のラベルに関連付けられている1つまたは複数の単語、および/あるいは過去の画像検索クエリに関連付けられている1つまたは複数の単語に基づくことができる。色、パターン、形状、および/または他の視覚的記述子を記述する単語は、視覚的意図を含むと決定され得る。
【0129】
706において、コンピューティングシステムは、ユーザインターフェース要素を提供することができる。いくつかの実装形態では、ユーザインターフェース要素は、テキスト置換オプションを記述するものにすることができる。ユーザインターフェース要素は、システムおよび方法が、1つまたは複数の単語が視覚的意図に関連付けられていると決定したことを示すインジケータであり得る。ユーザインターフェース要素は視覚効果を含むことができる。ユーザインターフェース要素は、ポップアップ要素、ドロップダウンメニュー、1つまたは複数の単語の表示の変更、および/あるいはアイコンの外観を含むことができる。
【0130】
708において、コンピューティングシステムは、第1の入力データを取得することができる。第1の入力データは、テキスト置換オプションの第1の選択を記述することができる。第1の入力データはセンサデータを含むことができる。第1の入力データは、ユーザインターフェース要素との対話(たとえば、タップ入力、ジェスチャ入力、および/または入力が取得されないまましきい値時間が経過することによる入力の欠如)を記述し得る。
【0131】
710において、コンピューティングシステムは、表示用の画像選択インターフェースを提供することができる。画像選択インターフェースは、選択用の複数の画像を含むことができる。いくつかの実装形態では、画像選択インターフェースは、視覚的意図を含む1つまたは複数の単語の決定に基づいて表示のために提供され得る。画像選択インターフェースは、異なるデータベースからの画像および/あるいは異なる媒体またはタイプの画像を閲覧および選択するための1つまたは複数の異なるタブを含み得る。画像選択インターフェースは、異なるタイプのメディアコンテンツアイテムおよび/または異なるソースからのメディアコンテンツアイテムを提供するための1つまたは複数のパネルを含み得る。
【0132】
いくつかの実装形態では、コンピューティングシステムは、インジケータを提供することなく、および/または第1の入力データを取得することなく、画像選択インターフェースを提供することができる。たとえば、コンピューティングシステムは、706および708を実施せずに、704を実施し、次いで710を実施してもよい。
【0133】
712において、コンピューティングシステムは、選択データを取得することができる。選択データ(たとえば、第2の入力データ)は、画像の第2の選択を記述することができる。選択データはセンサデータを含むことができる。選択データは、画像選択インターフェースとの対話(たとえば、タップ入力、ジェスチャ入力、および/または入力が取得されないまましきい値時間が経過することによる入力の欠如)を記述し得る。
【0134】
714において、コンピューティングシステムは、1つまたは複数の単語の代わりに表示用の画像を提供することができる。たとえば、画像のプレビューおよび/またはサムネイルが、検索インターフェースのクエリボックスにおいて表示するために提供され得る。
【0135】
716において、コンピューティングシステムは、画像に関連付けられる1つまたは複数の検索結果を決定することができる。いくつかの実装形態では、1つまたは複数の検索結果は、検索結果ページを介して提供することができる。検索結果ページは、画像を表示するクエリボックスを含むことができる。追加的および/または代替的に、検索結果ページは、1つまたは複数の検索結果に関連付けられる情報を表示するための検索結果パネルを含むことができる。検索クエリは1つまたは複数の追加の単語を含むことができる。いくつかの実装形態では、1つまたは複数の検索結果は、1つまたは複数の追加の単語に少なくとも部分的に基づいて決定することができる。1つまたは複数の検索結果は、1つまたは複数の画像検索結果を含み得る。追加的および/または代替的に、1つまたは複数の検索結果は、画像の1つまたは複数の視覚的特徴に関連付けられる製品を記述する1つまたは複数の製品検索結果を含むことができる。
【0136】
718において、コンピューティングシステムは、1つまたは複数の検索結果を出力として提供することができる。1つまたは複数の検索結果は、検索結果ページインターフェースにおいて表示するために提供され得る。検索結果は、検索結果のタイプ、検索結果のソース、および/または検索結果の分類に基づいて、異なるパネルにおいて提供され得る。
【0137】
図8は、本開示の例示的な実施形態に従って実施する例示的な方法のフローチャート図を示している。
図8は、例示および議論の目的で特定の順序で実施されるステップを示しているが、本開示の方法は、特に図示された順序または配置に限定されない。方法800の様々なステップは、本開示の範囲から逸脱することなく、様々な方法で省略、再配置、組合せ、および/または適合させることができる。
【0138】
802において、コンピューティングシステムは複数の単語を取得することができる。複数の単語は、1つまたは複数の特定の単語および1つまたは複数の追加の単語を含むことができる。1つまたは複数の特定の単語は、視覚的に説明的な用語を含むことができる。1つまたは複数の追加の単語は、1つまたは複数の特定の単語を補完するものであってもよく、および/あるいは検索クエリまたはフレーズの異なる記述的態様を対象とするものであってもよい。
【0139】
804において、コンピューティングシステムは、複数の単語のうちの1つまたは複数の特定の単語が視覚的意図を含むと決定することができる。視覚的意図は、1つまたは複数の視覚的特徴に関連付けることができる。この決定は、1つまたは複数の出力を生成するために、1つまたは複数の機械学習モデルを用いて複数の単語を処理することに基づくことができる。1つまたは複数の機械学習モデルは、1つまたは複数の検出モデル、1つまたは複数のセグメンテーションモデル、1つまたは複数の分類モデル、および/あるいは1つまたは複数の拡張モデルを含むことができる。いくつかの実装形態では、1つまたは複数の機械学習モデルは、1つまたは複数の自然言語処理モデルを含むことができる。1つまたは複数の機械学習モデルは、1つまたは複数の変圧器モデルを含むことができる。いくつかの実装形態では、決定は履歴検索データに基づき得る。
【0140】
806において、コンピューティングシステムは、1つまたは複数の特定の単語を識別するインジケータを表示のために複数の単語に提供することができる。インジケータは、識別された1つまたは複数の特定の単語に基づいて実施できる1つまたは複数の可能なアクションを説明する視覚的なインジケータであり得る。インジケータは、説明を含んでもよく、テキストの色の変更を含んでもよく、強調表示を含んでもよく、および/またはポップアップ要素を含んでもよい。
【0141】
808において、コンピューティングシステムは、1つまたは複数の特定の単語に関連付けられる複数の画像を決定することができる。追加的および/または代替的に、複数の画像は、視覚的意図に関連付けることができる。この決定は、1つまたは複数の特定の単語を用いてデータベースにクエリを実施することに基づき得る。データベースは、ユーザのデバイスに記憶されているローカルデータベースであってもよく、および/またはネットワーク接続を介してアクセスされるデータベースであってもよい。1つまたは複数の画像は、1つまたは複数の特定の単語に関連付けられる画像の特定の部分を分離するためにクロッピングされ得る。
【0142】
810において、コンピューティングシステムは、ユーザインターフェースパネルに複数の画像を提供することができる。ユーザインターフェースパネルは、複数の画像に関連付けられる複数の対話型ユーザインターフェース要素を含むことができる。ユーザインターフェースパネルはポップアップパネルであってもよく、および/または最初に表示されたインターフェースの一部を置き換えてもよい。
【0143】
812において、コンピューティングシステムは、複数の画像のうちの特定の画像の選択を取得することができる。いくつかの実装形態では、特定の画像は、画像データベースからクロッピングされた画像であり得る。クロッピングされた画像は、画像の関連部分を検出するために1つまたは複数の機械学習モデルを用いてクロッピングされていない画像を処理し、クロッピングされていない画像から関連部分をセグメント化することによって生成され得る。
【0144】
814において、コンピューティングシステムは、1つまたは複数の追加の単語および1つまたは複数の特定の単語を含まない出力用の特定の画像を提供することができる。特定の画像は、1つまたは複数の特定の単語が以前に表示された位置に配置することができる。いくつかの実装形態では、サムネイルおよび/またはプレビューを完全な特定の画像の代わりに表示するために提供され得る。
【0145】
いくつかの実装形態では、コンピューティングシステムは、翻訳出力を生成するために出力を処理することを含むことができる。翻訳出力は、特定の画像に少なくとも部分的に基づいて生成することができる。
【0146】
代替的および/または追加的に、コンピューティングシステムは、出力を検索エンジンに提供し、複数の検索結果を受け取ることを含むことができる。複数の検索結果は、1つまたは複数の追加の単語および特定の画像に関連付けられ得る。
【0147】
追加開示
本明細書で説明する技術では、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに実施されるアクションおよびそのようなシステムとの間で送受信される情報について言及する。コンピュータベースのシステムには固有の柔軟性があるため、コンポーネント間でのタスクと機能の多種多様な構成、組合せ、および分割が可能である。たとえば、本明細書で説明するプロセスは、単一のデバイスまたはコンポーネント、あるいは組み合わせて動作する複数のデバイスまたはコンポーネントを使用して実装することができる。データベースとアプリケーションは、単一のシステムに実装することも、複数のシステムに分散して実装することもできる。分散コンポーネントは、順次または並行して動作することができる。
【0148】
本主題をその様々な特定の例示的な実施形態に関して詳細に説明してきたが、各例は説明のために提供されたものであり、本開示を限定するものではない。当業者は、前述の内容を理解すれば、そのような実施形態に対する変更、変形、および均等物を容易に生み出すことができる。したがって、本開示は、当業者には容易に明らかなような、本主題に対するそのような修正、変形、および/または追加を含むことを妨げるものではない。たとえば、さらに別の実施形態を得るために、一実施形態の一部として図示または説明した特徴を別の実施形態とともに使用することができる。したがって、本開示はそのような変更、変形、および均等物を網羅することが意図されている。
【符号の説明】
【0149】
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
118 命令
120 視覚的意図決定モデル
120 機械学習モデル
122 ユーザ入力コンポーネント
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 視覚的意図決定モデル
140 機械学習モデル
150 トレーニングコンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデルトレーナ
162 トレーニングデータ
162 トレーニングデータセット
180 ネットワーク
202 検索インターフェース
204 クエリ入力ボックス
206 1つまたは複数の他の単語
208 1つまたは複数の特定の単語
210 音声コマンドアイコン
212 ユーザプロファイル
220 画像選択インターフェース
222 検索クエリ入力ボックス
224 検索結果ページ
226 初期画像選択ページ
228 領域選択インターフェース
230 クロッピングインターフェース
232 画像
234 更新された検索結果ページ
240 画像選択インターフェース
242 インジケータ
244 検索結果インターフェース
246 オプション
248 画像キャプチャインターフェース
250 クロッピングオプション
252 マルチモーダルクエリ
254 更新された検索結果インターフェース
260 画像選択インターフェース
262 インジケータ
264 検索結果インターフェース
266 オプション
268 画像検索インターフェース
270 領域選択ステージ
272 クロッピングオプション
274 マルチモーダルクエリ
276 更新された検索結果ページ
300 検索インターフェース
302 検索エンジン
304 検索クエリ
306 検索結果ページ
308 インジケータ
310 第1の検索結果
312 第2の検索結果
314 第3の検索結果
316 第nの検索結果
400 画像選択インターフェース
410 ユーザ固有の画像ギャラリオプション
412 重なり合うタイルアイコン
414 最近のスクリーンショットパネル
416 全画像パネル
420 画像キャプチャオプション
422 カメラアイコン
424 画像キャプチャユーザインターフェース要素
430 画像検索オプション
432 地球アイコン
434 専用の検索クエリボックス
500 置換システム
502 テキストデータ
504 履歴データ
506 インジケータ
508 視覚的意図決定モデル
510 出力データ
512 テキストから画像への置換インターフェース
514 特定の画像
516 拡張データ
518 クロッピングモデル
520 クロッピングされた画像
600 方法
700 方法
800 方法
【外国語明細書】