IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レモン インコーポレイテッドの特許一覧

特許7661638テキストから画像への生成に基づくコンテンツ作成
<>
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図1
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図2
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図3
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図4A
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図4B
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図5
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図6A
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図6B
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図7A
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図7B
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図8
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図9
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図10
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図11
  • 特許-テキストから画像への生成に基づくコンテンツ作成 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-04-04
(45)【発行日】2025-04-14
(54)【発明の名称】テキストから画像への生成に基づくコンテンツ作成
(51)【国際特許分類】
   G06T 11/80 20060101AFI20250407BHJP
【FI】
G06T11/80 A
【請求項の数】 17
(21)【出願番号】P 2024559328
(86)(22)【出願日】2023-03-29
(86)【国際出願番号】 SG2023050205
(87)【国際公開番号】W WO2023195918
(87)【国際公開日】2023-10-12
【審査請求日】2024-10-04
(31)【優先権主張番号】17/715,645
(32)【優先日】2022-04-07
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】521388058
【氏名又は名称】レモン インコーポレイテッド
【氏名又は名称原語表記】Lemon Inc.
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】リィウ,ビンチェン
(72)【発明者】
【氏名】ウォン,キン チュン
(72)【発明者】
【氏名】フュージリアー,ブレーク,ギャレット
(72)【発明者】
【氏名】ジョウ,リンイチン
(72)【発明者】
【氏名】レェオ,ディアナ
【審査官】益戸 宏
(56)【参考文献】
【文献】特表2019-510325(JP,A)
【文献】特開平9-116512(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T11/00
(57)【特許請求の範囲】
【請求項1】
テキストに基づいて視覚効果を生成する方法であって、
インターフェース要素の選択に応じて少なくとも一人のユーザによって入力されるテキストに基づいて視覚効果を生成するプロセスを開始することと、
前記視覚効果を生成することであって、前記視覚効果を生成することは、第1ユーザによって入力される第1テキストに基づいて第1画像を生成することを含むことと、
コンピューティングデバイスの画面上に第1画像を表示することであって、前記第1画像の内容は前記第1テキストと相関することと、
第2ユーザによって入力される第3テキストを受信することであって、前記第3テキストは、前記第1ユーザによって入力され、かつ、それに基づいて前記第1画像が生成される前記第1テキストと同じものであり、前記第2ユーザは第1ユーザと異なることと、
前記第2ユーザによって入力される第3テキストに基づいて第3画像を生成することであって、前記第3テキストに基づいて生成される前記第3画像は、前記第1テキストに基づいて生成される前記第1画像と異なることと
を含む、方法。
【請求項2】
前記第1画像を背景として使用してビデオを生成することをさらに含む、
請求項1に記載の方法。
【請求項3】
前記第1ユーザによって入力される第2テキストを受信することと、
前記第2テキストに基づいて第2画像を生成することであって、前記第2画像の内容は前記第2テキストと相関することと
をさらに含む、請求項1に記載の方法。
【請求項4】
前記第1画像及び前記第2画像に基づいてビデオを生成することであって、前記ビデオは前記第1テキスト及び前記第2テキストによって示されるストーリーをナレーションすることをさらに含む
請求項3に記載の方法。
【請求項5】
前記第1画像及び前記第3画像に基づいてビデオを生成することをさらに含む
請求項1に記載の方法。
【請求項6】
前記第1画像は機械学習モデルによって生成され、前記機械学習モデルはテキストに基づいて画像を生成するように事前訓練される
請求項1に記載の方法。
【請求項7】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信可能に接続され、前記少なくとも一つのプロセッサによって実行されると前記少なくとも一つのプロセッサに操作を実行させるコンピュータ読み取り可能な命令を含む少なくとも一つのメモリとを備えるコンピューティングデバイスであって、前記操作は、
インターフェース要素の選択に応じて少なくとも一人のユーザによって入力されるテキストに基づいて視覚効果を生成するプロセスを開始することと、
前記視覚効果を生成することであって、前記視覚効果を生成することは、第1ユーザによって入力される第1テキストに基づいて第1画像を生成することを含むことと、
コンピューティングデバイスの画面上に第1画像を表示することであって、前記第1画像の内容は前記第1テキストと相関することと、
第2ユーザによって入力される第3テキストを受信することであって、前記第3テキストは、前記第1ユーザによって入力され、かつ、それに基づいて前記第1画像が生成される前記第1テキストと同じものであり、前記第2ユーザは第1ユーザと異なることと、
前記第2ユーザによって入力される第3テキストに基づいて第3画像を生成することであって、前記第3テキストに基づいて生成される前記第3画像は、前記第1テキストに基づいて生成される前記第1画像と異なることと
を含む、コンピューティングデバイス。
【請求項8】
前記操作は、前記第1画像を背景として使用してビデオを生成することをさらに含む、
請求項7に記載のコンピューティングデバイス。
【請求項9】
前記操作は、
前記第1ユーザによって入力される第2テキストを受信することと、
前記第2テキストに基づいて第2画像を生成することであって、前記第2画像の内容は前記第2テキストと相関することと
をさらに含む、請求項7に記載のコンピューティングデバイス。
【請求項10】
前記操作は、前記第1画像及び前記第2画像に基づいてビデオを生成することであって、前記ビデオは前記第1テキスト及び前記第2テキストによって示されるストーリーをナレーションすることをさらに含む
請求項9に記載のコンピューティングデバイス。
【請求項11】
前記操作は、前記第1画像及び前記第3画像に基づいてビデオを生成することをさらに含む
請求項7に記載のコンピューティングデバイス。
【請求項12】
前記第1画像は機械学習モデルによって生成され、前記機械学習モデルはテキストに基づいて画像を生成するように事前訓練される
請求項7に記載のコンピューティングデバイス。
【請求項13】
プロセッサによって実行されると、前記プロセッサに操作を実行させるコンピュータ可読命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記操作は、
インターフェース要素の選択に応じて少なくとも一人のユーザによって入力されるテキストに基づいて視覚効果を生成するプロセスを開始することと、
前記視覚効果を生成することであって、前記視覚効果を生成することは、第1ユーザによって入力される第1テキストに基づいて第1画像を生成することを含むことと、
コンピューティングデバイスの画面上に第1画像を表示することであって、前記第1画像の内容は前記第1テキストと相関することと、
第2ユーザによって入力される第3テキストを受信することであって、前記第3テキストは、前記第1ユーザによって入力され、かつ、それに基づいて前記第1画像が生成される前記第1テキストと同じものであり、前記第2ユーザは第1ユーザと異なることと、
前記第2ユーザによって入力される第3テキストに基づいて第3画像を生成することであって、前記第3テキストに基づいて生成される前記第3画像は、前記第1テキストに基づいて生成される前記第1画像と異なることと
を含む、非一時的なコンピュータ可読記憶媒体。
【請求項14】
前記操作は、前記第1画像を背景として使用してビデオを生成することをさらに含む、
請求項13に記載の非一時的なコンピュータ可読記憶媒体。
【請求項15】
前記操作は、
前記第1ユーザによって入力される第2テキストを受信することと、
前記第2テキストに基づいて第2画像を生成することであって、前記第2画像の内容は前記第2テキストと相関することと
をさらに含む、請求項13に記載の非一時的なコンピュータ可読記憶媒体。
【請求項16】
前記操作は、前記第1画像及び前記第2画像に基づいてビデオを生成することであって、前記ビデオは前記第1テキスト及び前記第2テキストによって示されるストーリーをナレーションすることをさらに含む
請求項15に記載の非一時的なコンピュータ可読記憶媒体。
【請求項17】
前記操作は、前記第1画像及び前記第3画像に基づいてビデオを生成することをさらに含む
請求項13に記載の非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2022年4月7日に出願された米国特許第17/715,645号(発明名称:テキストから画像への生成に基づくコンテンツ作成)の優先権を主張し、該出願の開示内容は、参照により全体として本願に組み込まれる。
【背景技術】
【0002】
インターネットに基づくツールを使って行われるコミュニケーションが増えている。インターネットに基づくツールは、任意のソフトウェア又はプラットフォームとすることができる。既存のソーシャルメディアプラットフォームは、ユーザ同士が静的なアプリケーションやウェブページを介して画像やビデオなどの情報を共有することでコミュニケーションすることを可能にしている。携帯電話などの通信機器がますます高性能化する中、人々は新しいエンターテインメント、ソーシャルネットワークや通信の方法を求め続けている。
【図面の簡単な説明】
【0003】
以下の詳細な説明は、添付図面と合わせて読むとよりよく理解できる。説明のために、本開示の様々な態様の例示的な実施形態が添付図面に示されているが、本発明は、開示されている特定の方法及び手段に限定されない。
【0004】
図1】コンテンツを配信するための例示的なシステムを示す図である。
【0005】
図2】本開示にかかるコンテンツ配信アプリケーションの例示的なユーザインターフェースを示す図である。
【0006】
図3】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0007】
図4A】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0008】
図4B】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0009】
図5】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0010】
図6A】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0011】
図6B】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0012】
図7A】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0013】
図7B】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0014】
図8】本開示にかかるコンテンツ配信アプリケーションの別の例示的なユーザインターフェースを示す図である。
【0015】
図9】本開示にかかるユーザ装置により実行可能な例示的なコンテンツ作成方法を示す図である。
【0016】
図10】本開示にかかるユーザ装置により実行可能な別の例示的なコンテンツ作成方法を示す図である。
【0017】
図11】本開示にかかるユーザ装置により実行可能な別の例示的なコンテンツ作成方法を示す図である。
【0018】
図12】本明細書に開示されたいずれかの方法を実行するために使用可能な例示的なコンピューティング装置を示す図である。
【発明を実施するための形態】
【0019】
ユーザは、1つ又は複数の画像を使用してコンテンツを生成したい可能性がある。例えば、ユーザは、1つ又は複数の画像をバックグラウンド(即ち、背景)として使用してビデオを生成したいかもしれない。しかしながら、ユーザがそのような目的に適した画像を見つけたり生成したりするのは時間がかかり、且つ/又は困難であるかもしれない。例えば、ユーザは、適切な画像を検索するために数分、ひいては数時間を費やさなければならない可能性がある。ユーザが既存の適切な画像を見つけることができない場合、ユーザは、適切な画像をゼロから作成する追加の時間を費やさなければならない可能性がある。既存のテキストから画像を生成する(text-to-image)アプリケーションの中には、ユーザがテキストプロンプトを入力し、入力したテキストプロンプトに関連する生成された画像を受信することを可能にするものがある。しかしながら、このような既存のアプリケーションはユーザインタラクションに欠けている。結果として、このような既存のアプリケーションは、それらのユーザ間で創造性を促進しておらず、ユーザは既存のアプリケーションにすぐに飽きてしまう可能性がある。そのため、テキストから画像への生成を用いたコンテンツ作成のための改善された技術が求められている。
【0020】
本明細書では、テキストから画像への生成を用いたコンテンツ作成のための改善された技術について説明する。このような技術は、テキストから画像を生成するために利用される。この画像は、ビデオを作成するために他のコンテンツ(即ち、ライブカメラフィード、画面上のテキストグラフィックなど)とブレンドされる。本明細書で説明されるテキストから画像への生成を用いたコンテンツ作成のための改善された技術は、より多様なユーザケースシナリオと組み合わされてテキストから画像への生成能力を利用する。例えば、本明細書で説明されるテキストから画像への生成を用いたコンテンツ作成のための改善された技術は、1つのテキストプロンプトだけに反応するのではなく、ストーリーテリングビデオを形成する複数の画像を生成するために一連の文にも反応する。そのため、本明細書で説明されるテキストから画像への生成を用いたコンテンツ作成のための改善された技術は、テキストから画像への生成能力を利用して、より対話的なユーザ体験を提供する。
【0021】
本明細書で説明されるテキストから画像への生成を用いたコンテンツ作成のための改善された技術は、図1に示すシステム100のようなシステムにより利用されてもよい。図1はコンテンツを配信するための例示的なシステム100を示す。システム100は、クラウドネットワーク102と複数のクライアント装置104a~dとを含んでもよい。クラウドネットワーク102と複数のクライアント装置104a~dとは、1つ又は複数のネットワーク120を介して互いに通信してもよい。
【0022】
クラウドネットワーク102は、単一の建物のようなデータセンターに配置されてもよいし、又は異なる地理的位置(例えば、いくつかの建物)に分散されてもよい。クラウドネットワーク102は、該一つ又は複数のネットワーク120を介してサービスを提供してもよい。ネットワーク120は、ルータ、スイッチ、マルチプレクサ、ハブ、モデム、ブリッジ、リピータ、ファイアウォール、プロキシ装置、及び/又は同様の装置など、様々なネットワーク装置を含む。ネットワーク120は、同軸ケーブルリンク、ツイストペアケーブルリンク、光ファイバリンク、それらの組み合わせなどの物理的リンクを含んでもよい。ネットワーク120は、セルラーリンク、衛星リンク、Wi-Fiリンクなどの無線リンクを含んでもよい。
【0023】
クラウドネットワーク102は、様々なサービスをホストする複数のコンピューティングノード118を含んでもよい。一実施形態において、ノード118はコンテンツサービス112をホストする。コンテンツサービス112は、インターネットプロトコルビデオストリーミングサービスのようなコンテンツストリーミングサービスを含んでもよい。コンテンツサービス112は様々な送信技術を介してコンテンツ116を配信するように設定されてもよい。コンテンツサービス112は、ビデオ、音声、テキストデータ、それらの組み合わせなどのコンテンツ116を提供するように設定されている。コンテンツ116は、コンテンツストリーム(例えば、ビデオストリーム、オーディオストリーム、情報ストリーム)、コンテンツファイル(例えば、ビデオファイル、オーディオファイル、テキストファイル)、及び/又は他のデータを含んでもよい。コンテンツ116は、データベース114に格納されることができる。例えば、コンテンツサービス112は、ビデオ共有サービス、ビデオホスティングプラットフォーム、コンテンツ配信プラットフォーム、共同ゲームプラットフォームなどを含んでもよい。
【0024】
一実施形態において、コンテンツサービス112により配信又は提供されるコンテンツ116は、ショートビデオを含む。ショートビデオは、1分、5分、又は他の所定の分など、所定の時間制限以下の持続時間を有することができる。限定ではなく、一例として、ショートビデオは、互いに結合された少なくとも一つ、且つ四つ以下の15秒セグメントを含んでもよい。短いビデオ持続時間は、ユーザが短い時間枠内で大量のビデオを見ることを可能にする、エンターテインメントを迅速且つ連続的に閲覧者に提供することができる。このような迅速で連続的なエンターテインメントは、ソーシャルメディアプラットフォームで流行する可能性がある。
【0025】
ショートビデオは、テレビ番組又は映画からの音楽又は音声のような、事前記録のオーディオオーバーレイを含んでもよい。ショートビデオが事前記録のオーディオオーバーレイを含む場合、ショートビデオは、事前記録のオーディオとともに、1人又は複数の人が口パクやダンスをするか、又はそれらの体を他の方法で動かすことを特徴としてもよい。例えば、ショートビデオは、ヒット曲に合わせて個人で完成させる「ダンスチャレンジ」を特徴としてもよい。又は、ショートビデオは、2人が口パクやダンスデュエット(dancing duet)に参加することを特徴としてもよい。別の例として、ショートビデオは、個人が、事前記録のオーディオオーバーレイに対応するように、例えば、事前記録のオーディオオーバーレイにより特徴付けされる事前記録の歌曲のビート又はリズムに対応するように、自分の体を動かすことを要求するチャレンジを達成することを特徴としてもよい。他のショートビデオは、事前記録のオーディオオーバーライドを含まなくてもよい。例えば、これらのショートビデオは、個人がスポーツをしたり、いたずらをしたり、美容やファッションのアドバイス、料理のコツ、家の内装のコツなどのアドバイスをすることを特徴としてもよい。
【0026】
一実施形態において、コンテンツ116は、ネットワーク120を介して異なるクライアント装置104に出力されてもよい。コンテンツ116は、クライアント装置104にストリーミングされてもよい。コンテンツストリームは、コンテンツサービス112から受信されたショートビデオのストリームであってもよい。複数のクライアント装置104は、コンテンツサービス112からコンテンツ116にアクセスするように設定されてもよい。一実施形態において、クライアント装置104は、コンテンツアプリケーション106を含んでもよい。コンテンツアプリケーション106は、コンテンツ116をクライアント装置104に関連付けられたユーザに出力(例えば、表示、レンダリング、提示)するコンテンツは、ビデオ、音声、コメント、テキストデータなどを含んでもよい。
【0027】
複数のクライアント装置104は、任意のタイプのコンピューティング装置、例えばモバイル装置、タブレット装置、ラップトップコンピュータ、デスクトップコンピュータ、スマートテレビ又は他のスマート装置(例えば、スマートウォッチ、スマートスピーカ、スマート眼鏡、スマートヘルメット)、ゲーム装置、セットトップボックス、デジタルストリーミング装置、ロボット等を含んでもよい。複数のクライアント装置104は、一人又は複数のユーザに関連付けられてもよい。単一のユーザは、複数のクライアント装置104のうちの一つ又は複数を使用してクラウドネットワーク102にアクセスしてもよい。複数のクライアント装置104は、様々な場所に移動し、異なるネットワークを使用してクラウドネットワーク102にアクセスしてもよい。
【0028】
コンテンツサービス112は、ユーザから入力を受け取るように設定されてもよい。ユーザは、コン
テンツサービス112のユーザとして登録されてもよいし、クライアント装置104上で動作するコンテンツアプリケーション106のユーザであってもよい。ユーザ入力は、ユーザにより作成されたショートビデオ、ショートビデオに関連付けられるユーザコメント、又はショートビデオに関連付けられた「いいね」を含んでもよい。ユーザ入力は、接続要求と、テキストデータ、デジタル画像データ又はユーザコンテンツなどのユーザ入力データとを含んでもよい。接続要求は、クライアント装置104a~dからの、コンテンツサービス112に接続する要求を含んでもよい。ユーザ入力データは、ビデオ及び/又はユーザコメントなど、コンテンツサービス112に接続されているユーザがコンテンツサービス112の他の接続されているユーザと共有することを望む情報を含んでもよい。
【0029】
コンテンツサービス112は、異なるタイプのクライアント装置104を使用するユーザから異なるタイプの入力を受信できる可能性がある。例えば、携帯電話又はタブレットなどの第1のユーザ装置上でコンテンツアプリケーション106を使用するユーザは、コンテンツアプリケーション106を使用してショートビデオを作成し、アップロードできる可能性がある。異なる携帯電話又はタブレット上でコンテンツアプリケーション106を使用するユーザは、ショートビデオ又は他のユーザにより書かれたコメントを見たり、コメントしたり、「いいね」できる可能性がある。別の例において、スマートテレビ、ラップトップ、デスクトップ、又はゲーム装置上でコンテンツアプリケーション106を使用するユーザは、コンテンツアプリケーション106を使用してショートビデオを作成及びアップロードしたり、ショートビデオにコメントしたりすることができない可能性がある。代わりに、スマートテレビ、ラップトップ、デスクトップ、又はゲーム装置上でコンテンツアプリケーション106を使用するユーザは、コンテンツアプリケーション106を使用して、ショートビデオを見たり、他のユーザが残したコメントを見たり、ショートビデオを「いいね」したりすることしかできない可能性がある。
【0030】
一実施形態において、ユーザは、クライアント装置104上のコンテンツアプリケーション106を使用して、ショートビデオを作成し、クラウドネットワーク102にアップロードすることができる。クライアント装置104は、コンテンツアプリケーション106のインターフェース108にアクセスすることができる。インターフェース108は、入力要素を含んでもよい。例えば、入力要素は、ユーザがショートビデオを作成することを可能にするように設定されてもよい。ショートビデオを作成するために、ユーザは、クライアント装置104のカメラのような画像取得装置又はマイクにアクセスする許可をコンテンツアプリケーション106に与えてもよい。コンテンツアプリケーション106を使用して、ユーザは、ショートビデオの持続時間を選択するか、又はショートビデオの速度、例えば「スローモーション」又は「スピードアップ」を設定してもよい。
【0031】
ユーザは、コンテンツアプリケーション106を用いてショートビデオを編集することができる。ユーザは、一つ又は複数のテキスト、フィルター、サウンド、又はビューティエフェクトなどのエフェクトをショートビデオに追加してもよい。事前記録のオーディオオーバーレイをショートビデオに追加するために、ユーザは、コンテンツアプリケーション106のサウンドライブラリから歌曲又はサウンドクリップを選択してもよい。サウンドライブラリには、異なる歌曲、サウンドエフェクト、又は映画、アルバム、テレビ番組からのオーディオクリップを含んでもよい。事前記録のオーディオオーバーレイをショートビデオに追加することに加えて、又は追加する代わりに、ユーザは、コンテンツアプリケーション106を使用して、ショートビデオにナレーションを追加することができる。ナレーションは、ユーザがクライアント装置104のマイクを使用して記録したサウンドであってもよい。ユーザは、ショートビデオにテキストオーバーレイを追加することができ、コンテンツアプリケーション106を使用して、テキストオーバーレイがショートビデオにいつ現れることを望むかを指定してもよい。ユーザは、ショートビデオに、字幕、位置タグ、及び一つ又は複数のハッシュタグを割り当てて、ショートビデオの主題を示すことができる。コンテンツアプリケーション106は、ショートビデオについての「カバー画像」として使用するために、ショートビデオのフレームを選択するようにユーザに促してもよい。
【0032】
ユーザがショートビデオを作成した後、ユーザは、コンテンツアプリケーション106を使用して、ショートビデオをクラウドネットワーク102にアップロードし、且つ/又はショートビデオをユーザ装置104にローカルに保存することができる。ユーザがショートビデオをクラウドネットワーク102にアップロードするとき、ユーザは、ショートビデオをコンテンツアプリケーション106の他の全てのユーザが閲覧可能にするか、コンテンツアプリケーション106のユーザのサブセットだけが閲覧可能にするかを選択してもよい。コンテンツサービス112は、アップロードされたショートビデオ及びショートビデオに関連付けられる任意のメタデータを、一つ又は複数のデータベース114に記憶してもよい。
【0033】
一実施形態において、ユーザは、クライアント装置104上のコンテンツアプリケーション106を使用して、ショートビデオ上で入力を提供することができる。クライアント装置104は、ユーザがショートビデオに関連付けられる入力を提供することを可能にするコンテンツアプリケーション106のインターフェース108にアクセスしてもよい。インターフェース106は、入力要素を含んでもよい。例えば、入力要素は、特定のショートビデオに関連付けられるコメント又は「いいね」などのユーザからの入力を受け取るように設定されてもよい。入力がコメントである場合、コンテンツアプリケーション106は、ユーザが自分の入力に関連付けられる絵文字を設定することを許可することができる。コンテンツアプリケーション106は、ユーザがいつコメントを書き込んだかなど、入力についての時間情報を決定することができる。コンテンツアプリケーション106は、入力及び関連付けられているメタデータをクラウドネットワーク102に送信することができる。例えば、コンテンツアプリケーション106は、コメント、コメントを書いたユーザの識別子及びコメントについての時間情報をクラウドネットワーク102に送信してもよい。コンテンツサービス112は、入力及び関連付けられているメタデータをデータベース114に記憶してもよい。
【0034】
コンテンツサービス112は、アップロードされたショートビデオとユーザ入力とを他のユーザに出力するように設定されてもよい。ユーザは、コンテンツサービス112のユーザとして登録され、他のユーザが作成したショートビデオを見てもよい。ユーザは、クライアント装置104上で動作するコンテンツアプリケーション106のユーザであってもよい。コンテンツアプリケーション106は、ショートビデオとユーザコメントとを、クライアント装置104に関連付けられているユーザに出力(表示、レンダリング、提示)してもよい。クライアント装置104は、コンテンツアプリケーション106のインターフェース108にアクセスすることができる。インターフェース108は、出力要素を含んでもよい。出力要素は、ユーザがショートビデオを選択して見られるように、異なるショートビデオに関する情報を表示するように設定されてもよい。例えば、出力要素は、ショートビデオに関連付けられている複数のカバー画像、字幕、又はハッシュタグを表示するように設定されてもよい。出力要素はまた、各ショートビデオに関連付けられているカテゴリに従ってショートビデオを配置するように設定されてもよい。
【0035】
一実施形態において、ショートビデオに関連付けられているユーザコメントは、同じショートビデオを見ている他のユーザに出力されてもよい。例えば、ショートビデオにアクセスしている全てのユーザは、ショートビデオに関連付けられているコメントを見てもよい。コンテンツサービス112は、ショートビデオと関連付けられているコメントとを同時に出力してもよい。コメントは、コンテンツサービス112によりリアルタイム又はほぼリアルタイムに出力されてもよい。コンテンツアプリケーション106は、クライアント装置104上に様々な方法でショートビデオとコメントとを表示することができる。例えば、コメントは、コンテンツ上のオーバーレイに表示されたり、コンテンツの隣のオーバーレイに表示されたりしてもよい。別の例として、ショートビデオに関連付けられている他のユーザのコメントを見たいユーザは、コメントを見るためにボタンを選択する必要がある可能性がある。コメントは表示時にアニメーション表示されてもよい。例えば、コメントはショートビデオを横切って又はオーバーレイを横切ってスクロール表示されてもよい。
【0036】
複数のコンピューティングノード118は、コンテンツサービス112に関連付けられるタスクを処理してもよい。複数のコンピューティングノード118は、一つ又は複数のコンピューティング装置、一つ又は複数のプロセッサ、一つ又は複数の仮想コンピューティングインスタンス、それらの組み合わせなどとして実装されてもよい。複数のコンピューティングノード118は、一つ又は複数のコンピューティング装置により実装されてもよい。一つ又は複数のコンピューティング装置は、仮想化コンピューティングインスタンスを含んでもよい。仮想化コンピューティングインスタンスは、仮想マシン、例えばコンピュータシステム、オペレーティングシステム、サーバなどのエミュレーションを含んでもよい。仮想マシンは、仮想イメージ及び/又はエミュレーションのための特定のソフトウェア(例えば、オペレーティングシステム、専用アプリケーション、サーバ)を定義する他のデータに基づいて、コンピューティング装置によりロードされてもよい。異なるタイプのプロセッシングサービスについてのニーズが変化すると、異なる仮想マシンを一つ又は複数のコンピューティング装置上にロード及び/又は終了されてもよい。同じコンピューティング装置上の異なる仮想マシンの使用を管理するために、ハイパーバイザを実装してもよい。
【0037】
上記したように、ユーザは、クライアント装置104上のコンテンツアプリケーション106を使用して、ショートビデオを作成し、クラウドネットワーク102にアップロードしてもよい。一実施形態において、クライアント装置104上のコンテンツアプリケーション106を介してユーザにより作成されるショートビデオは、ユーザが、事前記録のオーディオオーバーレイ(例えば、上述したような事前記録のオーディオオーバーレイ)のリズム又はビートに従って、身体部分を動かすことを特徴とするショートビデオであってもよい。例えば、ユーザにより作成されたショートビデオは、ユーザが自分の身体部分(例えば、ユーザの頭部及び/又は目)を、歌曲又は歌曲クリップのリズム又はビートに対応するように動かすことを特徴とするショートビデオであってもよい。別の例として、クライアント装置104上のコンテンツアプリケーション106を介してユーザにより作成されるショートビデオは、ユーザが、異なるユーザの身体部分(例えば、異なるユーザの頭部及び/又は目)を、歌曲又は歌曲クリップのリズム又はビートに対応するように動かすことを特徴とするショートビデオであってもよい。他の例において、ショートビデオは、該ショートビデオの複数の画像内で動きを有する少なくとも1つの部分を含むオブジェクトを含む。
【0038】
クライアント装置104は、コンテンツアプリケーション106のインターフェース108にアクセスすることができる。インターフェース108は、入力
要素を含んでもよい。限定ではなく、一例として、入力要素は、ユーザが、オブジェクトがその部分のうちの1つを事前記録のオーディオオーバーレイのリズム又はビートに合わせて動かす(例えば、該ユーザ又は別のユーザが身体部分を動かす)ことを特徴とするショートビデオを作成することを可能にするように設定されてもよい。例えば、ユーザが事前記録のオーディオオーバーレイのリズム又はビートに合わせて身体部分を動かすことを特徴とするショートビデオを作成するために、ユーザは、クライアント装置104のカメラのような画像取得装置又はマイクにアクセスする許可をコンテンツアプリケーション106に与えてもよい。
【0039】
クライアント装置104は、画像取得装置により取得されたフィードを利用して、オブジェクトの1つ又は複数の部分、例えばユーザの1つ又は複数の身体部分を検出(例えば位置決め)してもよい。例えば、クライアント装置104は、画像取得装置により取得されたフィードを利用して、ユーザの頭部又は顔を検出してもよい。カメラにより検出された1つ又は複数の身体部分は、ショートビデオの作成中にユーザが事前記録のオーディオオーバーレイのリズム又はビートに合わせて移動する身体部分を含んでもよい。例えば、ショートビデオの作成中に、ユーザが、事前記録のオーディオオーバーレイのリズム又はビートに合わせて、自分の頭部/顔を動かす場合、クライアント装置104は、画像取得装置により取得されたフィードを利用して、ユーザの頭部又は顔を検出してもよい。
【0040】
一実施形態において、コンテンツサービス112又はクライアント装置104のうちの少なくとも1つは、1つ又は複数の機械学習モデル110を含む。機械学習モデル110は、テキストに少なくとも部分的に基づいて少なくとも1つの画像を生成するために利用されてもよい。テキストは、コンテンツサービス112の少なくとも1つのユーザにより作成されるビデオに関連付けられてもよい。例えば、コンテンツサービス112の少なくとも1つのユーザが花の背景を持つビデオを作成したい場合、テキストには、「花」、「花柄」、「庭」などの単語が含まれてもよい。テキストは、コンテンツサービス112及び/又はクライアント装置104により受信されてもよい。テキストは、例えば、ビデオを作成したい、コンテンツサービス112の少なくとも1つのユーザにより入力されてもよい。例えば、テキストは、少なくとも1つのユーザによりコンテンツアプリケーション106のインターフェース108内に入力されてもよい。テキストは、例えば、クライアント装置104のキーボードを用いて、又は音声コマンドを介して、入力されてもよい。追加として又は代替として、テキストは、1つ又は複数の曲の歌詞を含んでもよい。曲の歌詞は、少なくとも1つのユーザにより(例えば、コンテンツアプリケーション106のインターフェース108内に)手動で入力されてもよいし、且つ/又は、曲は、コンテンツアプリケーション106のサウンドライブラリに予め記憶されている曲であってもよい。曲が、コンテンツアプリケーション106のサウンドライブラリに既に記憶されている曲であれば、その曲に関連付けられている歌詞(即ち、テキスト)が既に既知である可能性がある。
【0041】
いくつかの実施形態において、機械学習モデル110は、テキストとスタイル選択との両方に基づいて、少なくとも1つの画像を生成するために利用されてもよい。スタイル選択は、コンテンツサービス112の少なくとも1つのユーザにより作成されるビデオに関連付けられる色、テクスチャ、又はアートスタイルのうちの少なくとも1つを示してもよい。例えば、コンテンツサービス112の少なくとも1つのユーザが白黒の背景を持つビデオを作成したい場合、スタイル選択は白黒の配色を示してもよい。スタイル選択は、コンテンツサービス112及び/又はクライアント装置104により受信されてもよい。スタイル選択は、例えば、ビデオを作成したい、コンテンツサービス112の少なくとも1つのユーザにより入力されてもよい。例えば、スタイル選択は、少なくとも1つのユーザによりコンテンツアプリケーション106のインターフェース108内に入力されてもよい。スタイル選択は、例えば、クライアント装置104のキーボードを使用し、且つ/又は音声コマンドを介して、コンテンツアプリケーション106のインターフェース108上で所望のスタイルに対応するアイコンを選択することにより、入力されてもよい。
【0042】
図2は、コンテンツアプリケーション106のユーザインターフェース(UI)200の一例を示す。UI 200は、ビデオを作成したい、コンテンツサービス112の少なくとも1つのユーザにより利用されてもよい。該少なくとも1つのユーザは、テキストをテキストボックス202内に入力してもよい。上述したように、テキストは、コンテンツサービス112の該少なくとも1つのユーザにより作成されるビデオに関連付けられてもよい。テキストは、任意の量の文字及び/又は単語を含んでもよい。例えば、テキストは、単一の単語、句、文、1つ又は複数の曲の歌詞、及び/又は任意の他のテキストを含んでもよい。いくつかの実施形態において、テキストは、該少なくとも1つのユーザにより手動で入力されなくてもよいことを、理解すべきである。例えば、テキストに曲の歌詞が含まれている場合、ユーザは、コンテンツアプリケーション106のサウンドライブラリに予め記憶されている曲を選択し、その曲に関連付けられている歌詞(即ち、テキスト)が既に既知である可能性がある。
【0043】
実施形態において、該少なくとも1つのユーザもまた、該少なくとも1つのユーザにより作成されるビデオに関連付けられるスタイルを選択してもよい。スタイルを選択するために、該少なくとも1つのユーザは、ビデオの所望のスタイルに対応する、スタイルボックス204内に位置する1つ又は複数のアイコンを選択してもよい。例えば、スタイルボックス204内に位置する5つのアイコンは、特定のスタイル、例えば、特定の色、テクスチャ、又はアートスタイルに対応してもよい。該少なくとも1つのユーザは、例えば、自分の指でビデオの所望のスタイルに対応する1つ又は複数のアイコンをクリックすることにより、該1つ又は複数の所望のアイコンを選択してもよい。
【0044】
例えば、図3のUI 300に示すように、該少なくとも1つのユーザは既に、テキストボックス202内にテキスト「Cityscape」を入力し、スタイルボックス204の第5のアイコンを選択した。該少なくとも1つのユーザにより入力されたテキストと、該少なくとも1つのユーザにより選択されたスタイルとは、少なくとも1つのユーザが特定のスタイルで都市景観の背景を持つビデオを作成したいことを示す。該少なくとも1つのユーザがテキスト及び/又はスタイル選択を入力した後、ユーザは、ボタン302を選択して、該1つ又は複数の画像の生成を開始してもよい。
【0045】
いくつかの実施形態において、機械学習モデル110は、第1の機械学習モデルを含む。第1の機械学習モデルは、テキスト及び/又はスタイル選択を受信するように設定されてもよい。例えば、ユーザがボタン302を選択して1つ又は複数の画像の生成を開始する場合、テキスト及び/又はスタイルの選択は第1の機械学習モデルに転送又は送信されてもよい。少なくとも1つのユーザがビデオに関連付けられているスタイルを選択した場合、このスタイルは、第1の機械学習モデルに送信される前に、追加のテキストに変換されてもよい。例えば、選択したスタイルは追加のテキストに変換されてもよい。この追加のテキストはテキストボックス202内に入力されたテキストに付加されてもよい。完全なテキストセット(即ち、テキストボックス202内に入力されたテキストと、もしあれば、追加のテキスト)は、第1の機械学習モデルに転送又は送信されてもよい。
【0046】
第1の機械学習モデルは、この完全なテキストセットに少なくとも部分的に基づいて、少なくとも1つの初期画像を生成するように設定されてもよい。完全なテキストセット内の各単語は、数字又は単語トークンにマッピングされてもよい。次に、各数字又は単語トークンは、第1の機械学習モデルにより学習された単語ベクトルに変換されてもよい。各単語ベクトルは512の次元を有してもよい。例えば、完全なテキストセットが「an apple on the car」である場合、5つの単語トークンが生成され(5つの単語があるため)、次に、各単語トークンが512次元の単語ベクトルに変換され、(5つの512次元の単語ベクトルにより構成される)5×512の行列が生成される。この5×512の行列は、第1の機械学習モデルの入力として使用されてもよい。第1の機械学習モデルは、この入力に基づいて少なくとも1つの初期画像を生成してもよい。例えば、第1の機械学習モデルは、少なくとも1つの256×256の画像を出力してもよい。少なくとも1つの初期画像の内容は、該完全なテキストセットの意味と一致してもよい。
【0047】
いくつかの実施形態において、機械学習モデル110は、第2の機械学習モデルを含む。第2の機械学習モデルは、第1の機械学習モデルを訓練するために訓練データを生成するように設定されてもよい。第2の機械学習モデルは、複数の画像を受信し、該複数の画像に対応する複数のテキスト字幕を生成するように設定されてもよい。例えば、第2の機械学習モデルは、白い犬の画像を受信し、白い犬を描く画像に対応するテキスト字幕を生成するように設定されてもよい。第2の機械学習モデルは、数百、数千、又は数百万の画像について、このようなテキスト字幕を生成してもよい。
【0048】
第1の機械学習モデルは、該複数の画像と、該対応する複数のテキスト字幕とを含むデータセット上で訓練されてもよい。こうして、第1の機械学習モデルが正確な画像テキストペア(image-text pair)上で訓練されることを保証することができる。それに比べて、代わりに、第1の機械学習モデルが利用可能なオープンソースデータセットで訓練される場合、これらの利用可能なオープンソースデータセットによく見られる誤りが原因で、第1の機械学習モデルはそれほどうまく機能しない可能性がある。
【0049】
いくつかの実施形態において、機械学習モデル110は、第3の機械学習モデルを含む。第3の機械学習モデルは、第1の機械学習モデルにより出力される初期画像の解像度を向上させるように設定されてもよい。第3の機械学習モデルは、超解像モデルであってもよい。例えば、第3の機械学習モデルは、完全なテキストと少なくとも1つの初期画像との両方を受信してもよい。第3の機械学習モデルは、完全なテキストと該少なくとも1つの初期画像とに基づいて、少なくとも1つの最終画像を生成するように設定されてもよい。該少なくとも1つの最終画像は、該少なくとも1つの初期画像よりも高い解像度を有する。例えば、該少なくとも1つの最終画像は、(少なくとも1つの256×256の初期画像とは異なり、)1024×1024の画像であってもよい。該少なくとも1つの最終画像は、例えば、コンテンツアプリケーション106のインターフェース108を介して、少なくとも1つのユーザに出力されてもよい。
【0050】
いくつかの実施形態において、機械学習モデル110を用いた該少なくとも1つの最終画像の生成プロセスは、時間がかかる場合がある。例えば、機械学習モデル110は、最終画像を生成するのに30秒以上かかる可能性がある。これにより、ユーザが自分のインターフェース108上で30秒以上何も見えないと、ユーザ体験が悪くなる可能性がある。これを改善するために、機械学習モデル110は、最終画像を生成中、中間エフェクト(例えば、画像)を徐々に生成してもよい。例えば、機械学習モデル110は、最初に、インターフェース108上に最終画像の一部(例えば1/8)を生成し、次に、最終画像全体が画面上に表示されるまで、最終画像の別の1/8を(上から下へ、
又はその逆)徐々に表示し続けてもよい。例えば、数秒ごと(即ち、例えば2秒、3秒、4秒、5秒ごと)に、最終画像の別の一部が画面上に表示されてもよい。これにより、ユーザの待ち時間が短縮され、ユーザ体験が向上する。
【0051】
図4A及び図4Bは、コンテンツアプリケーション106のUI 400及び401の例を示す。UI 400及び401は、機械学習モデル110により生成される中間エフェクトを示し、ユーザ待機時間を短縮し、ユーザ体験を改善する。UI 400に示すように、最終画像の一部402aのみが表示される。時間が経つにつれて、最終画像の追加の一部が徐々に表示される。例えば、UI 401により示されるように、最終画像402b全体が画面上に表示されるまで、最終画像の追加の一部が徐々に表示される。
【0052】
いくつかの実施形態において、最終画像がインターフェース108上で完全に生成された場合、コンテンツアプリケーション106は、最終画像のトップに(即ち、オーバーレイされる、置かれる)リアルタイムカメラフィードの少なくとも一部を生成するように設定されてもよい。例えば、図5に描かれたUI 500に示すように、ユーザが自分のクライアント装置104のフロントカメラを使用する場合、最終画像がユーザのビデオの背景として機能するように、ユーザのリアルタイム自撮り502が最終の生成される画像402bの上に現れてもよい。ユーザは、最終画像を背景に、自分自身を記録することができる。
【0053】
いくつかの実施形態において、ユーザは、最終画像を用いてビデオを作成したくない可能性がある。例えば、ユーザは、別の画像を自分のビデオの背景として使用したい可能性がある。そうであれば、ユーザは、ボタン504を選択して、上述した画像生成プロセスを再開することができる。例えば、ユーザがボタン504を選択すると、UI 200が再び現れ、ユーザは、テキスト(同じテキスト又は異なるテキスト)を再入力してもよく、且つ/又はスタイル(同じ又は異なるスタイル)を再選択してもよい。図6Aは、ユーザによりテキストボックス202内に入力した新しいテキストを描くUI 600の例を示す。該ユーザがテキストを再入力した、且つ/又はスタイルを再選択した後、ユーザは、ボタン302を再び選択して、該1つ又は複数の新しい画像の生成を開始してもよい。図6BのUI 601に示すように、コンテンツアプリケーション106は、新しい画像のトップに(即ち、オーバーレイされる、置かれる)リアルタイムカメラフィードの少なくとも一部を生成するように設定されてもよい。例えば、ユーザが自分のクライアント装置104のフロントカメラを使用する場合、新しい画像がユーザのビデオの背景として機能するように、ユーザのリアルタイム自撮り502が新しい画像の上に現れてもよい。ユーザは、該新しい画像を背景に、自分自身を記録することができる。
【0054】
いくつかの実施形態において、コンテンツアプリケーション106は、生成された画像の上に異なる又は追加のコンテンツを配置してもよい。例えば、コンテンツアプリケーション106は、ライブカメラフィードの代わりに、又は、それに加えて、テキストグラフィック又は画像グラフィック(例えば、絵文字)を、生成された画像の上に置いてもよい。このコンテンツは、画像上の様々な位置にオーバーレイされてもよい。様々な位置をランダムに選択してもよいし、且つ/又はアルゴリズムに従って位置を選択してもよい。コンテンツは、任意のサイズ、形状、又は色であってもよい。例えば、コンテンツは、任意のサイズ、色、又はフォントのテキストグラフィックであってもよい。
【0055】
いくつかの実施形態において、1つ又は複数のユーザは、コンテンツアプリケーション106を利用してストーリーをナレーションするビデオを作成したい可能性がある。ストーリーに対応するテキストを利用して、ストーリーに対応する複数の画像を生成してもよい。例えば、機械学習モデル110は、ストーリーの各文または段落について画像を生成してもよい。該複数の画像は、例えば、著作権フリーであってもよい。該複数の画像を利用して、ストーリーをナレーションするビデオを作成してもよい。生成された画像の上に現れるユーザのライブカメラフィードの代わりに、ストーリーに対応するテキストのテキストグラフィックが対応する画像上にオーバーレイされてもよい。例えば、ビデオは、複数のフレームを含み、そのうち各フレームが特定の画像とストーリーの対応するテキストを表示してもよい。図7Aは、機械学習モデル110により生成された画像704にオーバーレイされたストーリーの文を描くテキストグラフィック702を示すUI 700の例を示す。上述したように、画像704は、ストーリーをナレーションするために生成された複数の画像のうちの1つのみの画像であってもよい。
【0056】
いくつかの実施形態において、1つ又は複数のユーザは、コンテンツアプリケーション106を利用して曲のためにミュージックビデオを作成したい可能性がある。曲の歌詞に対応するテキストを利用して、ストーリーに対応する複数の画像を生成してもよい。例えば、機械学習モデル110は、各曲の歌詞について画像を生成してもよい。該複数の画像は、例えば、著作権フリーであってもよい。該複数の画像を利用して、曲のためにミュージックビデオを作成してもよい。生成された画像の上に現れるユーザのライブカメラフィードの代わりに、曲の歌詞のテキストのテキストグラフィックが対応する画像上にオーバーレイされてもよい。例えば、ビデオは、複数のフレームを含み、そのうち各フレームが特定の画像と対応する曲の歌詞を表示してもよい。図7Bは、機械学習モデル110により生成された画像708にオーバーレイされた曲の歌詞を描くテキストグラフィック706を示すUI 701の例を示す。上述したように、画像708は、ミュージックビデオのために生成された複数の画像のうちの1つのみの画像であってもよい。
【0057】
いくつかの実施形態において、機械学習モデル110は、同じ入力テキストプロンプトから複数の異なる画像を生成するように設定されている。例えば、コンテンツサービス112の2つ以上のユーザが同じテキストプロンプトを入力してもよく、機械学習モデル110は、各ユーザのために、そのテキストプロンプトに関連する異なる画像を生成してもよい。複数の異なる画像の各々は、同じ入力テキストからランダムに生成されてもよい。機械学習モデル110は、該複数の異なる画像の各々が入力テキストと正しい相関を有することを保証するように設定されてもよい。
【0058】
複数のユーザは、同じテキスト(即ち、同じ単語、句、又は文)を使用して、該複数の異なる画像を用いて共有される仮想世界を作成することができる。図8は、複数のユーザが、該複数のユーザにより入力された同じテキストに基づいて生成された異なる画像を用いて、ビデオを作成し、仮想世界を共有することを描くUI 800の例を示す図である。該複数のユーザの各々は、仮想世界で旅行、プレイ、又はやりとりすることができる。例えば、該複数のユーザの各々は、複数の生成された画像を背景として、クリエイティブな写真を撮影したり、クリエイティブなビデオを撮影したりすることができる。
【0059】
図9は、クライアント装置(例えば、クライアント装置104)により実行される例示的なプロセス900を示す。クライアント装置104は、処理900を実行して、コンテンツ、例えば、コンテンツサービス(即ち、コンテンツサービス112)にアップロードするためのコンテンツを作成してもよい。コンテンツサービスにアップロードされると、コンテンツは、コンテンツサービスのユーザにより見られてもよい。図9では一連の操作として説明されているが、当業者であれば、様々な実施形態において、説明された操作を追加、削除、並べ替え、又は修正してもよいことを理解できるはずである。
【0060】
上述したように、1つ又は複数の機械学習モデル(即ち、機械学習モデル110)は、テキストに少なくとも部分的に基づいて少なくとも1つの画像を生成するために利用されてもよい。902において、テキストを受信してもよい。テキストは、少なくとも1つのユーザ、例えばコンテンツサービスの1つ又は複数のユーザにより作成されるビデオに関連付けられてもよい。例えば、少なくとも1つのユーザが花の背景を持つビデオを作成したい場合、テキストには、「花」、「花柄」、「庭」などの単語が含まれてもよい。テキストは、例えば、ビデオを作成したい少なくとも1つのユーザにより入力されてもよい。例えば、テキストは、少なくとも1つのユーザによりコンテンツアプリケーションのインターフェース内に入力されてもよい。テキストは、例えば、クライアント装置のキーボードを用いて、又は音声コマンドを介して、入力されてもよい。追加として又は代替として、テキストは、1つ又は複数の曲の歌詞を含んでもよい。曲の歌詞は、少なくとも1つのユーザにより(例えば、コンテンツアプリケーションのインターフェース内に)手動で入力されてもよい。且つ/又は、曲は、コンテンツアプリケーションのサウンドライブラリに予め記憶されている曲であってもよい。曲が、コンテンツアプリケーションのサウンドライブラリに既に記憶されている曲であれば、その曲に関連付けられている歌詞(即ち、テキスト)が既に既知である可能性がある。
【0061】
904において、少なくとも1つの機械学習モデルを用いて、テキストに少なくとも部分的に基づいて、少なくとも1つの画像を生成してもよい。例えば、第1の機械学習モデルは、テキストに少なくとも部分的に基づいて、少なくとも1つの初期画像を生成するように設定されてもよい。該少なくとも1つの初期画像は、例えば、少なくとも1つの256×256の画像を含んでもよい。少なくとも1つの初期画像の内容は、該テキストの意味と一致してもよい。第2の機械学習モデルは、第1の機械学習モデルを訓練するために訓練データを生成するように設定されてもよい。例えば、第2の機械学習モデルは、複数の画像を受信し、該複数の画像に対応する複数のテキスト字幕を生成するように設定されてもよい。第2の機械学習モデルは、数百、数千、又は数百万の画像について、このようなテキスト字幕を生成してもよい。第1の機械学習モデルは、該複数の画像と、該対応する複数のテキスト字幕とを含むデータセット上で訓練されてもよい。こうして、第1の機械学習モデルが正確な画像テキストペア(image-text pair)上で訓練されることを保証することができる。
【0062】
第3の機械学習モデルは、第1の機械学習モデルにより出力される初期画像の解像度を向上させるように設定されてもよい。第3の機械学習モデルは、超解像モデルであってもよい。例えば、第3の機械学習モデルは、完全なテキストと少なくとも1つの初期画像との両方を受信してもよい。第3の機械学習モデルは、完全なテキストと該少なくとも1つの初期画像とに基づいて、少なくとも1つの最終画像を生成するように設定されてもよい。該少なくとも1つの最終画像は、該少なくとも1つの初期画像よりも高い解像度を有する。例えば、該少なくとも1つの最終画像は、(少なくとも1つの256×256の初期画像とは異なり、)1024×1024の画像であってもよい。該少なくとも1つの最終画像は、例えば、コンテンツアプリケーションのインターフェースを介して、少なくとも1つのユーザに出力されてもよい。
【0063】
906において、該少なくとも1つの画像に少なくとも部分的に基づいて、ビデオを生成してもよい。ビデオの少なくとも1つのフレームは、該少なくとも1つの画像上にオーバーレイされたコンテンツを含んでもよい。例えば、コンテンツは、リアルタイムカメラフィードの少なくとも一部を含んでもよい。リアルタイムカメラフィードの該少なくとも一部は、生成された画像の上にオーバーレイされてもよい。例えば、ユーザが自分のクライアント装置のフロントカメラを使用する場合、
生成された画像がユーザのビデオの背景として機能するように、ユーザのリアルタイム自撮りが生成された画像の上に現れてもよい。ユーザは、該生成された画像を背景に、自分自身を記録することができる。追加として又は代替として、コンテンツは、生成された画像の上のテキストグラフィック又は画像グラフィック(例えば、絵文字)を含んでもよい。例えば、上述したように、コンテンツは、曲の歌詞及び/又はストーリーのテキストグラフィックを含んでもよい。このコンテンツは、画像上の様々な位置にオーバーレイされてもよい。様々な位置をランダムに選択してもよい。且つ/又はアルゴリズムに従って位置を選択してもよい。コンテンツは、任意のサイズ、形状、又は色であってもよい。例えば、コンテンツは、任意のサイズ、色、又はフォントのテキストグラフィックであってもよい。
【0064】
図10は、クライアント装置(例えば、クライアント装置104)により実行される例示的なプロセス1000を示す。クライアント装置104は、処理1000を実行して、コンテンツ、例えば、コンテンツサービス(即ち、コンテンツサービス112)にアップロードするためのコンテンツを作成してもよい。コンテンツサービスにアップロードされると、コンテンツは、コンテンツサービスのユーザにより見られてもよい。図10では一連の操作として説明されているが、当業者であれば、様々な実施形態において、説明された操作を追加、削除、並べ替え、又は修正してもよいことを理解できるはずである。
【0065】
上述したように、1つ又は複数の機械学習モデル(即ち、機械学習モデル110)は、テキスト及びスタイル選択に基づいて少なくとも1つの画像を生成するために利用されてもよい。1002において、テキストを受信してもよい。テキストは、少なくとも1つのユーザ、例えばコンテンツサービスの1つ又は複数のユーザにより作成されるビデオに関連付けられてもよい。例えば、少なくとも1つのユーザが花の背景を持つビデオを作成したい場合、テキストには、「花」、「花柄」、「庭」などの単語が含まれてもよい。テキストは、例えば、ビデオを作成したい少なくとも1つのユーザにより入力されてもよい。例えば、テキストは、少なくとも1つのユーザによりコンテンツアプリケーションのインターフェース内に入力されてもよい。テキストは、例えば、クライアント装置のキーボードを用いて、又は音声コマンドを介して、入力されてもよい。追加として又は代替として、テキストは、1つ又は複数の曲の歌詞を含んでもよい。曲の歌詞は、少なくとも1つのユーザにより(例えば、コンテンツアプリケーションのインターフェース内に)手動で入力されてもよい。且つ/又は、曲は、コンテンツアプリケーションのサウンドライブラリに予め記憶されている曲であってもよい。曲が、コンテンツアプリケーションのサウンドライブラリに既に記憶されている曲であれば、その曲に関連付けられている歌詞(即ち、テキスト)が既に既知である可能性がある。
【0066】
1004において、該少なくとも1つのユーザにより作成されるビデオに関連付けられるスタイル選択を受信してもよい。スタイル選択は、コンテンツサービスの少なくとも1つのユーザにより作成されるビデオに関連付けられる色、テクスチャ、又はアートスタイルのうちの少なくとも1つを示してもよい。例えば、少なくとも1つのユーザが白黒の背景を持つビデオを作成したい場合、スタイル選択は白黒の配色を示してもよい。スタイル選択は、例えば、ビデオを作成したい少なくとも1つのユーザにより入力されてもよい。例えば、スタイル選択は、少なくとも1つのユーザによりコンテンツアプリケーションのインターフェース内に入力されてもよい。スタイル選択は、例えば、クライアント装置のキーボードを使用し、且つ/又は音声コマンドを介して、コンテンツアプリケーションのインターフェース上で所望のスタイルに対応するアイコンを選択することにより、入力されてもよい。
【0067】
1006において、少なくとも1つの機械学習モデルを用いて、テキスト及びスタイル選択に基づいて、少なくとも1つの画像を生成してもよい。スタイル選択は、該少なくとも1つの機械学習モデルが該少なくとも1つの画像を生成する前に、追加のテキストに変換されてもよい。例えば、選択したスタイルは追加のテキストに変換されてもよい。この追加のテキストは、完全なテキストセットを作成するために、テキストに付加されてもよい。
【0068】
完全なテキストセット(即ち、テキスト及び追加のテキスト)は、第1の機械学習モデルに転送又は送信されてもよい。第1の機械学習モデルは、この完全なテキストセットに少なくとも部分的に基づいて、少なくとも1つの初期画像を生成するように設定されてもよい。該少なくとも1つの初期画像は、例えば、少なくとも1つの256×256の画像を含んでもよい。少なくとも1つの初期画像の内容は、該完全なテキストセットの意味と一致してもよい。第2の機械学習モデルは、第1の機械学習モデルを訓練するために訓練データを生成するように設定されてもよい。例えば、第2の機械学習モデルは、複数の画像を受信し、該複数の画像に対応する複数のテキスト字幕を生成するように設定されてもよい。第2の機械学習モデルは、数百、数千、又は数百万の画像について、このようなテキスト字幕を生成してもよい。第1の機械学習モデルは、該複数の画像と、該対応する複数のテキスト字幕とを含むデータセット上で訓練されてもよい。こうして、第1の機械学習モデルが正確な画像テキストペア(image-text pair)上で訓練されることを保証することができる。
【0069】
第3の機械学習モデルは、第1の機械学習モデルにより出力される初期画像の解像度を向上させるように設定されてもよい。第3の機械学習モデルは、超解像モデルであってもよい。例えば、第3の機械学習モデルは、完全なテキストと少なくとも1つの初期画像との両方を受信してもよい。第3の機械学習モデルは、完全なテキストと該少なくとも1つの初期画像とに基づいて、少なくとも1つの最終画像を生成するように設定されてもよい。該少なくとも1つの最終画像は、該少なくとも1つの初期画像よりも高い解像度を有する。例えば、該少なくとも1つの最終画像は、(少なくとも1つの256×256の初期画像とは異なり、)1024×1024の画像であってもよい。該少なくとも1つの最終画像は、例えば、コンテンツアプリケーションのインターフェースを介して、少なくとも1つのユーザに出力されてもよい。
【0070】
1008において、該少なくとも1つの画像に少なくとも部分的に基づいて、ビデオを生成してもよい。ビデオの少なくとも1つのフレームは、該少なくとも1つの画像上にオーバーレイされたコンテンツを含んでもよい。例えば、コンテンツは、リアルタイムカメラフィードの少なくとも一部を含んでもよい。リアルタイムカメラフィードの該少なくとも一部は、生成された画像の上にオーバーレイされてもよい。例えば、ユーザが自分のクライアント装置のフロントカメラを使用する場合、生成された画像がユーザのビデオの背景として機能するように、ユーザのリアルタイム自撮りが生成された画像の上に現れてもよい。ユーザは、該生成された画像を背景に、自分自身を記録することができる。追加として又は代替として、コンテンツは、生成された画像の上のテキストグラフィック又は画像グラフィック(例えば、絵文字)を含んでもよい。例えば、上述したように、コンテンツは、曲の歌詞及び/又はストーリーのテキストグラフィックを含んでもよい。このコンテンツは、画像上の様々な位置にオーバーレイされてもよい。様々な位置をランダムに選択してもよいし、且つ/又はアルゴリズムに従って位置を選択してもよい。コンテンツは、任意のサイズ、形状、又は色であってもよい。例えば、コンテンツは、任意のサイズ、色、又はフォントのテキストグラフィックであってもよい。
【0071】
図11は、クライアント装置(例えば、クライアント装置104)により実行される例示的なプロセス1100を示す。クライアント装置104は、処理1100を実行して、コンテンツ、例えば、コンテンツサービス(即ち、コンテンツサービス112)にアップロードするためのコンテンツを作成してもよい。コンテンツサービスにアップロードされると、コンテンツは、コンテンツサービスのユーザにより見られてもよい。図11では一連の操作として説明されているが、当業者であれば、様々な実施形態において、説明された操作を追加、削除、並べ替え、又は修正してもよいことを理解できるはずである。
【0072】
上述したように、1つ又は複数の機械学習モデル(即ち、機械学習モデル110)は、テキストに少なくとも部分的に基づいて少なくとも1つの画像を生成するために利用されてもよい。1102において、第2の機械学習モデルを用いて、複数の画像に対応する複数のテキスト字幕を生成してもよい。第2の機械学習モデルは、複数の画像を受信し、該複数の画像に対応する複数のテキスト字幕を生成するように設定されてもよい。例えば、第2の機械学習モデルは、白い犬の画像を受信し、白い犬を描く画像に対応するテキスト字幕を生成するように設定されてもよい。第2の機械学習モデルは、数百、数千、又は数百万の画像について、このようなテキスト字幕を生成してもよい。
【0073】
第1の機械学習モデルは、該複数の画像と、該対応する複数のテキスト字幕とを含むデータセット上で訓練されてもよい。1104において、第1の機械学習モデルを、該対応する複数のテキスト字幕と該複数の画像とを含むデータセット上で訓練してもよい。第2の機械学習モデルにより生成された画像テキストペア上で第1の機械学習モデルを訓練することにより、第1の機械学習モデルが正確な画像テキストペア上で訓練されることを保証することができる。それに比べて、代わりに、第1の機械学習モデルが利用可能なオープンソースデータセットで訓練される場合、これらの利用可能なオープンソースデータセットによく見られる誤りが原因で、第1の機械学習モデルはそれほどうまく機能しない可能性がある。
【0074】
1106において、テキストを受信してもよい。テキストは、少なくとも1つのユーザ、例えばコンテンツサービスの1つ又は複数のユーザにより作成されるビデオに関連付けられてもよい。例えば、少なくとも1つのユーザが花の背景を持つビデオを作成したい場合、テキストには、「花」、「花柄」、「庭」などの単語が含まれてもよい。テキストは、例えば、ビデオを作成したい少なくとも1つのユーザにより入力されてもよい。例えば、テキストは、少なくとも1つのユーザによりコンテンツアプリケーションのインターフェース内に入力されてもよい。テキストは、例えば、クライアント装置のキーボードを用いて、又は音声コマンドを介して、入力されてもよい。追加として又は代替として、テキストは、1つ又は複数の曲の歌詞を含んでもよい。曲の歌詞は、少なくとも1つのユーザにより(例えば、コンテンツアプリケーションのインターフェース内に)手動で入力されてもよいし、且つ/又は、曲は、コンテンツアプリケーションのサウンドライブラリに予め記憶されている曲であってもよい。曲が、コンテンツアプリケーションのサウンドライブラリに既に記憶されている曲であれば、その曲に関連付けられている歌詞(即ち、テキスト)が既に既知である可能性がある。
【0075】
1108において、第1の機械学習モデルを用いて、テキストに少なくとも部分的に基づいて、少なくとも1つの初期画像を生成してもよい。該少なくとも1つの初期画像は、例えば、少なくとも1つの256×256の画像を含んでもよい。少なくとも1つの初期画像の内容は、該テキストの意味と一致してもよい。 第3の機械学習モデルは、第1の機械学習モデルにより出力される初期画像の解像度を向上させるように設定されてもよい。第3の機械学習モデルは、超解像モデルであってもよい。例えば、第3の機械学習モデルは、テキストと少なくとも1つの初期画
像との両方を受信してもよい。第3の機械学習モデルは、テキストと該少なくとも1つの初期画像とに基づいて、少なくとも1つの画像を生成するように設定されてもよい。1110において、第3の機械学習モデルを用いて、テキストと該少なくとも1つの初期画像とに少なくとも部分的に基づいて、少なくとも1つの画像を生成してもよい。第3の機械学習モデルにより生成された少なくとも1つの画像は、テキストに密接に関連し、該少なくとも1つの初期画像よりも高い解像度を有する。例えば、該少なくとも1つの画像は、(少なくとも1つの256×256の初期画像とは異なり、)1024×1024の画像であってもよい。該少なくとも1つの画像は、例えば、コンテンツアプリケーションのインターフェースを介して、少なくとも1つのユーザに出力されてもよい。
【0076】
1112において、該少なくとも1つの画像に少なくとも部分的に基づいて、ビデオを生成してもよい。ビデオの少なくとも1つのフレームは、該少なくとも1つの画像上にオーバーレイされたコンテンツを含んでもよい。例えば、コンテンツは、リアルタイムカメラフィードの少なくとも一部を含んでもよい。リアルタイムカメラフィードの該少なくとも一部は、生成された画像の上にオーバーレイされてもよい。例えば、ユーザが自分のクライアント装置のフロントカメラを使用する場合、生成された画像がユーザのビデオの背景として機能するように、ユーザのリアルタイム自撮りが生成された画像の上に現れてもよい。ユーザは、該生成された画像を背景に、自分自身を記録することができる。追加として又は代替として、コンテンツは、生成された画像の上のテキストグラフィック又は画像グラフィック(例えば、絵文字)を含んでもよい。例えば、上述したように、コンテンツは、曲の歌詞及び/又はストーリーのテキストグラフィックを含んでもよい。このコンテンツは、画像上の様々な位置にオーバーレイされてもよい。様々な位置をランダムに選択してもよいし、且つ/又はアルゴリズムに従って位置を選択してもよい。コンテンツは、任意のサイズ、形状、又は色であってもよい。例えば、コンテンツは、任意のサイズ、色、又はフォントのテキストグラフィックであってもよい。
【0077】
図12は、図1に示されたサービス、ネットワーク、モジュール、及び/又は装置のような、様々な態様で使用されてもよいコンンピューティング装置を示す。図1のアーキテクチャ例に関して、メッセージサービス、インターフェースサービス、プロセッシングサービス、コンテンツサービス、クラウドネットワーク、及びクライアントはそれぞれ、図12のコンピューティング装置1200の1つ又は複数のインスタンスにより実現されてもよい。図12に示されるコンピュータアーキテクチャは、従来のサーバコンピュータ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、タブレット、ネットワーク装置、PDA、電子リーダ、デジタル携帯電話、又は他のコンピューティングノードを示し、本明細書に記載された方法を実装するなど、本明細書に記載されたコンピュータの任意の態様を実行するために使用されてもよい。
【0078】
コンピューティング装置1200は、システムバス又は他の電気通信経路を介して複数のコンポーネント又は装置に接続されることのできるプリント回路基板である基板又は「マザーボード」を含んでもよい。一つ又は複数の中央処理装置(CPU)1204は、チップセット1206と結合して動作してもよい。CPU 1204は、コンピューティング装置1200の操作に必要な算術演算及び論理演算を実行する標準的なプログラマブルプロセッサであってもよい。
【0079】
CPU 1204は、一つの離散的な物理状態から次の状態に移行して必要な操作を、これらの状態を区別して変化させるスイッチング素子を操作することにより、実行してもよい。スイッチング素子は、二つのバイナリ状態のうちの一つを維持する電子回路、例えばフリップフロップと、一つ又は複数の他のスイッチング素子の状態の論理的な組み合わせに基づいて出力状態を提供する電子回路、例えば論理ゲートとを典型的に含んでもよい。これらの基本スイッチング素子を組み合わせて、レジスタ、加減算器、算術論理ユニット、浮動小数点ユニット等を含むより複雑な論理回路を構成してもよい。
【0080】
CPU 1204は、GPUのような他の処理ユニットで拡張されてもよいし、又はそれらにより置き換えられてもよい。GPUは、グラフィック及び他の視覚化関連処理のような高度な並列計算に特化されているが必ずしもそれに限定されない処理ユニットを含んでもよい。
【0081】
チップセット1206は、CPU 1204と、基板上の残りのコンポーネント及び装置との間のインターフェースを提供してもよい。チップセット1206は、コンピューティング装置1200内の主メモリとして使用されるランダムアクセスメモリ(RAM)1208へのインターフェースを提供してもよい。チップセット1206はまた、コンピューティング装置1200を起動し、様々なコンポーネントと装置との間で情報を送信するのを容易にすることができる基本ルーチンを記憶するために、コンピュータ可読記憶媒体、例えば読取り専用メモリ(ROM)1220又は不揮発性RAM(NVRAM)(図示せず)へのインターフェースを提供してもよい。本明細書で説明される態様によれば、ROM 1220又はNVRAMは、コンピューティング装置1200の操作に必要な他のソフトウェアコンポーネントを記憶してもよい。
【0082】
コンピューティング装置1200は、ローカルエリアネットワーク(LAN)を介した遠隔コンピューティングノード及びコンピュータシステムへの論理接続を使用して、ネットワーク環境で動作してもよい。チップセット1206は、ギガビットイーサネットアダプタなどのネットワークインターフェースコントローラ(NIC)1222を介してネットワーク接続を提供するための機能を含んでもよい。NIC 1222は、ネットワーク1216を介してコンピューティング装置1200を他のコンピューティングノードに接続することが可能であってもよい。複数のNIC 1222はコンピューティング装置1200内に存在して、コンピューティング装置を他のタイプのネットワーク及び遠隔コンピュータシステムに接続してもよいことを理解すべきである。
【0083】
コンピューティング装置1200は、コンピュータのために不揮発性記憶装置を提供する大容量記憶装置1228に接続されてもよい。大容量記憶装置1228は、本明細書でより詳細に説明されたシステムプログラム、アプリケーションプログラム、他のプログラムモジュール、及びデータを記憶してもよい。大容量記憶装置1228は、チップセット1206に接続された記憶コントローラ1224を介してコンピューティング装置1200に接続されてもよい。大容量記憶装置1228は、一つ又は複数の物理記憶ユニットで構成されてもよい。大容量記憶装置1228は、管理コンポーネント1210を含んでもよい。記憶コントローラ1224は、シリアルアタッチドSCSI(SAS)インターフェース、シリアルアドバンスドテクノロジーアタッチメント(SATA)インターフェース、ファイバチャネル(FC)インターフェース、又はコンピュータと物理記憶ユニットとの間で物理的に接続してデータを送信するための他のタイプのインターフェースを介して物理記憶ユニットとインターフェースしてもよい。
【0084】
コンピューティング装置1200は、物理記憶ユニットの物理的状態を変換して記憶されている情報を反映することにより、データを大容量記憶装置1228上に記憶してもよい。物理的状態の特定の変換は、様々な要因及び本明細書の異なる実施態様に依存してもよい。このような要因の例には、物理記憶装置を実現するための技術、及び大容量記憶装置1228が一次記憶装置又は二次記憶装置などとして特徴を有するか否かが含まれるが、これらに限定されるものではない。
【0085】
例えば、コンピューティング装置1200は、磁気ディスクドライブユニット内の特定位置の磁気特性、光学記憶ユニット内の特定位置の反射特性又は屈折特性、又は固体記憶ユニット内の特定のキャパシタ、トランジスタ又は他のディスクリートコンポーネントの電気特性を変更するために、記憶コントローラ1224を介して命令を出すことにより情報を大容量記憶装置1228に記憶してもよい。本明細書の範囲及び精神から逸脱することなく、物理媒体の他の変換が可能であり、前述の例は、単にその説明を容易にするためだけに提供されている。コンピューティング装置1200はさらに、物理記憶ユニット内の一つ又は複数の特定位置の物理的状態又は特徴を検出することにより、大容量記憶装置1228から情報を読み取ってもよい。
【0086】
上述の大容量記憶装置1228に加えて、コンピューティング装置1200は、プログラムモジュール、データ構造、又は他のデータなどの情報を記憶及び検索するために、他のコンピュータ可読記憶媒体にアクセスしてもよい。当業者であれば、コンピュータ可読記憶媒体は、非一時的データの記憶を提供し、コンピューティング装置1200によりアクセス可能な任意の利用可能な媒体とすることができることを理解できるはずである。
【0087】
限定ではなく、一例として、コンピュータ可読記憶媒体は、揮発性及び不揮発性の、一時的コンピュータ可読記憶媒体及び非一時的コンピュータ可読記憶媒体、並びに任意の方法又は技術で実現される取り外し可能な媒体及び取り外し不可能な媒体を含んでもよい。コンピュータ可読記憶媒体は、RAM、ROM、消去可能なプログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)、フラッシュメモリ又は他のソリッドステートメモリ技術、コンパクトディスクROM(CD―ROM)、デジタル多用途ディスク(DVD)、高解像度DVD(「HD―DVD」)、BLU―RAY又は他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、他の磁気記憶装置、又は所望の情報を非一時的な方法で記憶するために使用できる任意の他の媒体を含むが、これらに限定されない。
【0088】
図12に示す大容量記憶装置1228のような大容量記憶装置は、コンピューティング装置1200の操作を制御するためのオペレーティングシステムを記憶してもよい。オペレーティングシステムには、1バージョンのLINUXオペレーティングシステムが含まれてもよい。オペレーティングシステムには、マイクロソフト社の1バージョンのWINDOWS(登録商標) SERVERオペレーティングシステムが含まれてもよい。別の態様によれば、オペレーティングシステムには、1バージョンのUNIX(登録商標)オペレーティングシステムが含まれてもよい。また、IOSやANDROID(登録商標)のような、各種携帯電話オペレーティングシステムを利用してもよい。他のオペレーティングシステムも利用してもよいことを理解すべきである。大容量記憶装置1228は、コンピューティング装置1200により使用される他のシステム又はアプリケーション及びデータを記憶してもよい。
【0089】
大容量記憶装置1228又は他のコンピュータ可読記憶媒体はまた、コンピューティング装置1200にロードされると、コンピューティング装置を汎用コンピューティングシステムから本明細書で説明される態様を実装できる専用コンピュータに変換するコンピュータ実行可能命令で符号化されてもよい。上述したように、これらのコンピュータ実行可能命令は、CPU 1204がどのように状態間を遷移するかを規定することにより、コンピューティング装置1200を変換する。コンピューティング装置1200は、コンピューティング装置1200により実行されたときに本明細書に記載された方法を実行することができるコンピュータ実行可能命令を記憶するコンピュータ可読記憶媒体にアクセスしてもよい。
【0090】
図12に示されるコン
ピューティング装置1200のようなコンピューティング装置は、キーボード、マウス、タッチパッド、タッチスクリーン、電子スタイラスペン、又は他のタイプの入力装置のような複数の入力装置からの入力を受信し、処理するための入出力コントローラ1232をさらに備えてもよい。同様に、入出力コントローラ1232は、コンピュータモニタ、フラットパネルディスプレイ、デジタルプロジェクタ、プリンタ、プロッタ、又は他のタイプの出力装置などのディスプレイに出力を提供してもよい。コンピューティング装置1200は、図12に示された全ての構成要素を含まなくてもよいし、図12に明示的に示されていない他の構成要素を含んでもよいし、又は図12に示されたアーキテクチャとは全く異なるアーキテクチャを利用してもよいことを、理解すべきである。
【0091】
本明細書で説明するように、コンピューティング装置は、図12のコンピューティング装置1200のような物理コンピューティング装置であってもよい。コンピューティングノードはまた、仮想マシンホストプロセス及び一つ又は複数の仮想マシンインスタンスを含んでもよい。コンピュータ実行可能命令は、仮想マシンのコンテキスト内に記憶され実行される命令を解釈及び/又は実行することにより、コンピューティング装置の物理ハードウェアにより間接的に実行されてもよい。
【0092】
方法及びシステムは、特定の方法、特定のコンポーネント、又は特定の実施態様に限定されないことを理解すべきである。本明細書で使用される用語は、特定の実施形態を説明する目的のためだけに使用され、限定することを意図しないことも理解すべきである。
【0093】
明細書及び添付の特許請求の範囲において使用される場合、単数形「一」、「一つ」及び「該」は、文脈が明示的に別段の指示をしない限り、複数の参照対象を含む。範囲は、本明細書では、「約」一つの特定の値から、及び/又は「約」別の特定の値までと表されてもよい。このような範囲が表される場合、別の実施形態は、該一つの特定の値から及び/又は該別の特定の値までの範囲を含む。同様に、先行詞「約」を使用することにより値を近似値として表す場合、該特定の値が他の実施形態を形成することを理解すべきである。さらに、各範囲の端点は、他の端点に対しても、他の端点から独立しても有意であることを理解すべきである。
【0094】
「任意の」又は「任意に」は、後に説明されるイベント又は状況が発生する可能性も発生しない可能性もあり、明細書には、前記イベント又は状況が発生する場合と発生しない場合が含まれることを意味する。
【0095】
本明細書の説明及び特許請求の範囲全体において、単語「含む」及びその単語の変形、例えば「含んでいる」、「包含する」は、「含むが、これに限定されない」ことを意味し、例えば、他の構成要素、整数、又はステップを除外することを意図しない。「例示的」は、「~の例」を表し、好ましい又は望ましい実施形態の指示を伝えることを意図しない。「のような」は制限する意味ではなく、解釈の目的で使われる。
【0096】
記載された方法及びシステムを実行するために使用できる構成要素が記載されている。これらの構成要素の組合せ、サブセット、相互作用、グループ等を説明する際に、これらの構成要素の様々な個別及び集合的な組合せ及び順列のそれぞれに対する具体的な参照は明示的に説明されない場合があり、そのそれぞれが全ての方法及びシステムについて、本明細書で具体的に想定され、説明されることを理解すべきである。これは、記載された方法における操作を含むがこれに限定されない、本願の全ての態様に適用される。したがって、実行可能な様々な追加の操作が存在する場合、これらの追加の操作のそれぞれは、説明された方法の任意の特定の実施形態又は実施形態の組み合わせで実行可能であることを理解すべきである。
【0097】
本方法及びシステムは、以下の好ましい実施形態及びそれに含まれる例の詳細な説明、並びに添付図面及びそれらの説明を参照することにより、より容易に理解することができる。
【0098】
当業者が理解するように、方法及びシステムは、完全なハードウェア実施形態、完全なソフトウェア実施形態、又はソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態をとってもよい。さらに、本方法及びシステムは、記憶媒体に具現化されたコンピュータ可読プログラム命令(例えば、コンピュータソフトウェア)を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品の形態をとってもよい。より具体的には、本方法及びシステムは、ウェブ実装のコンピュータソフトウェアの形態をとってもよい。ハードディスク、CD―ROM、光学記憶装置又は磁気記憶装置を含む任意の適切なコンピュータ可読記憶媒体を利用してもよい。
【0099】
方法、システム、装置、及びコンピュータプログラム製品のブロック図及びフローチャートを参照して、方法及びシステムの実施形態を以下に説明する。ブロック図及びフローチャートの各ブロック、並びにブロック図及びフローチャートのブロックの組み合わせは、それぞれコンピュータプログラム命令により実現されてもよいことを理解すべきである。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置上で実行される命令がフローチャートの一つ又は複数のブロック内で指定された機能を実現するための手段を生成するように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置にロードされてマシンを生成してもよい。
【0100】
これらのコンピュータプログラム命令は、コンピュータ可読メモリに記憶されている命令がフローチャートの一つ又は複数のブロック内で規定された機能を実現するためのコンピュータ可読命令を含む製品を生成するように、コンピュータ又は他のプログラマブルデータ処理装置を特定の方法で動作させるように指示することができるコンピュータ可読メモリに記憶されてもよい。コンピュータプログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置上で実行される命令がフローチャートの一つ又は複数のブロック内で規定された機能を実現するためのステップを提供するように、コンピュータ又は他のプログラマブルデータ処理装置にロードされて、コンピュータ又は他のプログラマブルデータ処理装置上で一連の操作ステップを実行させて、コンピュータ実現プロセスを生成してもよい。
【0101】
上述した様々な特性及びプロセスは、互いに独立して使用されてもよいし、又は様々な方法で組み合わされてもよい。全ての可能な組み合わせ及びサブ組み合わせは、本開示の範囲内に入ることを意図する。さらに、いくつかの実施において、一部の方法又はプロセスブロックを省略してもよい。本明細書で説明される方法及びプロセスは、任意の特定の順序に限定されるものではなく、それに関連するブロック又は状態は、適切な他の順序で実行されてもよい。例えば、説明されたブロック又は状態は、特別に説明された順番以外の順番で実行されてもよいし、或いは、複数のブロック又は状態は、単一のブロック又は状態内で結合されてもよい。例示的なブロック又は状態は、連続的に、並列に、又は何らかの他の方法で実行されてもよい。ブロック又は状態は、説明された例示的な実施形態に追加されてもよいし、開示された例示的な実施形態から削除されてもよい。本明細書に記載された例示的なシステム及びコンポーネントは、説明されたものとは異なるように設定されてもよい。例えば、説明された例示的な実施形態と比較して、要素を追加したり、削除したり、又は再配置したりしてもよい。
【0102】
また、様々なアイテムは、使用中にメモリ内又は記憶装置上に記憶されるように示されており、これらのアイテム又はその一部は、メモリ管理及びデータ完全性の目的のために、メモリと他の記憶装置との間で移転されてもよいことも理解されるはずである。代替として、他の実施形態において、ソフトウェアモジュール及び/又はシステムの一部又は全部を別の装置上でメモリ内で実行し、コンピュータ間通信を介して図示のコンピューティングシステムと通信してもよい。さらに、いくつかの実施形態において、システム及び/又はモジュールの一部又は全部は、他の方法で、例えば少なくとも部分的にファームウェア及び/又はハードウェアで実装又は提供されてもよい。ハードウェアは、一つ又は複数の特定用途向け集積回路(ASIC)、標準集積回路、コントローラ(例えば、適切な命令を実行することにより、また、マイクロコントローラ及び/又は埋め込みコントローラを含む)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブル論理装置(CPLD)などを含むが、これらに限定されない。モジュール、システム、及びデータ構造の一部又は全部は、適切な装置により又は適切な接続を介して読み取るために、ハードディスク、メモリ、ネットワーク、又はポータブルメディア製品などのコンピュータ可読媒体上に(例えば、ソフトウェア命令又は構造化データとして)記憶されてもよい。システム、モジュール、及びデータ構造は、無線に基づく媒体及び有線/ケーブルに基づく媒体を含む、様々なコンピュータ可読送信媒体上で、生成されたデータ信号として(例えば、搬送波又は他のアナログ又はデジタル伝搬信号の一部として)送信されてもよいし、コンピュータ可読送信媒体に含まれ、(例えば、単一又は多重化アナログ信号の一部として、又は複数の離散デジタルパケット又はフレームとして)様々な形態をとってもよい。他の実施形態において、そのようなコンピュータプログラム製品は、他の形態をとることもできる。したがって、本発明は、他のコンピュータシステム構成で実施することができる。
【0103】
好ましい実施形態及び特定の例に関連して方法及びシステムを説明してきたが、本明細書の実施形態は全ての態様において限定的ではなく例示的であることを意図するので、範囲を特定の実施形態に限定することは意図されない。
【0104】
特に明記されない限り、本明細書に記載される方法は、その操作が特定の順序で実行することを要求するものではない。したがって、方法請求項がその操作が従うべき順序を実際に記載していない場合、又は操作が特定の順序に限定されることが請求項又は明細書に具体的に記載されていない場合、いかなる態様においても順序を推論することを意図するものではない。これは、ステップの配置や操作フローに関する論理的な問題、文法的な構成や句読点から得られる単純な意味、明細書に記載されている実施形態の数又はタイプを含む、解釈のための任意の可能な非表現的な根拠に適用される。
【0105】
当業者にとって明らかなように、本開示の範囲又は精神から逸脱することなく、様々な修正及び変更が可能である。本明細書及び本明細書に記載された実践を考慮すると、他の実施形態は当業者にとって自明であろう。本明細書及び例示的な図面は、例示的であるとのみみなされることが意図されており、その真の範囲及び精神は、以下の特許請求の範囲により示される。
【要約】
本開示は、コンテンツを生成するための技術を説明する。テキストを受信してもよい。このテキストは、少なくとも1つのユーザにより作成されるビデオに関連付けられる。少なくとも1つの機械学習モデルを用いて、このテキストに少なくとも部分的に基づいて、少なくとも1つの画像を生成してもよい。該少なくとも1つの画像に少なくとも部分的に基づいて、ビデオを生成してもよい。該ビデオは、該少なくとも1つの画像上にオーバーレイされたコンテンツを含んでもよい。【選択図】 図10
図1
図2
図3
図4A
図4B
図5
図6A
図6B
図7A
図7B
図8
図9
図10
図11
図12