(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024157533
(43)【公開日】2024-11-07
(54)【発明の名称】コンピューティング環境での協調的なコンテンツ作成のためのシステム及び方法
(51)【国際特許分類】
G06T 19/00 20110101AFI20241030BHJP
G06F 3/048 20130101ALI20241030BHJP
【FI】
G06T19/00 A
G06F3/048
【審査請求】未請求
【請求項の数】31
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024067326
(22)【出願日】2024-04-18
(31)【優先権主張番号】18/139,280
(32)【優先日】2023-04-25
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520509030
【氏名又は名称】ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル
(74)【代理人】
【識別番号】100107456
【弁理士】
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【弁理士】
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【弁理士】
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ヤーリ, チェヴァット
【テーマコード(参考)】
5B050
5E555
【Fターム(参考)】
5B050BA09
5B050BA13
5B050CA07
5B050CA08
5B050DA10
5B050EA07
5B050EA13
5B050EA18
5B050EA19
5B050EA28
5B050FA02
5B050FA09
5B050GA08
5E555AA61
5E555BA02
5E555BB02
5E555BC18
5E555BE17
5E555CA42
5E555CB44
5E555CB45
5E555CB47
5E555EA19
5E555FA00
(57)【要約】 (修正有)
【課題】人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行する方法を提供する。
【解決手段】方法は、コンテンツ作成システムにより、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、入力融合システムにより、機械学習モデルを使用することで第1の入力及び第2の入力を分析して、重複データ、冗長性データ及び/又はプロンプトデータの存在を特定するステップと、第1又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムにより、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムにより、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムにより、第1のアクションデータに基づいて第1のアクションを実行するステップと、を含む。
【選択図】
図6
【特許請求の範囲】
【請求項1】
人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための方法であって、
コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、
入力融合システムによって、機械学習モデルを使用することによって前記第1の入力及び前記第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定するステップと、
前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記プロンプトデータの前記存在が特定されると、前記入力融合システムによって、前記プロンプトデータをアクション生成システムに伝送するステップと、
前記アクション生成システムによって、前記プロンプトデータ及び前記機械学習モデルに基づいて第1のアクションデータを生成するステップと、
前記アクション生成システムによって、前記第1のアクションデータに基づいて前記コンピューティング環境で第1のアクションを実行するステップと、
を含む、方法。
【請求項2】
前記第1の入力又は前記第2の入力のうちの少なくとも一方で前記重複データの前記存在が特定されると、前記入力融合システムによって、前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記重複データを除去するステップ、
をさらに含む、請求項1に記載の方法。
【請求項3】
前記第1の入力又は前記第2の入力のうちの少なくとも一方で前記重複データ及び前記冗長性データの前記存在が特定されると、前記入力融合システムによって、前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記重複データ及び前記冗長性データを除去するステップ、
をさらに含む、請求項1に記載の方法。
【請求項4】
前記第1の入力又は前記第2の入力のうちの少なくとも一方が、テキストデータを含む、請求項1に記載の方法。
【請求項5】
前記方法は、
前記入力融合システムによって、前記第1の入力又は前記第2の入力のうちの少なくとも一方を、変換されたデータに変換するステップ、
をさらに含み、
前記第1の入力又は前記第2の入力のうちの少なくとも一方が、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み、
前記変換されたデータが、変換されたテキストデータを含む、
請求項1に記載の方法。
【請求項6】
前記重複データ又は前記冗長性データの前記存在が特定されると、前記入力融合システムによって、前記変換されたテキストデータから、前記重複データ又は前記冗長性データのうちの少なくとも1つに対応するテキストデータを除去するステップ、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記機械学習モデルが、直接的なユーザ入力又は間接的なユーザ入力に基づいて前記重複データ、前記冗長性データ、及び/又は前記プロンプトデータの前記存在を特定することを容易にする、請求項1に記載の方法。
【請求項8】
前記コンピューティング環境が仮想環境である、請求項1に記載の方法。
【請求項9】
前記コンピューティング環境が拡張環境である、請求項1に記載の方法。
【請求項10】
前記第1のアクションが、前記仮想環境の空間内の要素を作成又は修正することである、請求項8に記載の方法。
【請求項11】
前記要素が、視覚要素又はオーディオ要素のうちの少なくとも一方である、請求項10に記載の方法。
【請求項12】
前記第1の入力及び前記第2の入力が、同期的に受信される、請求項1に記載の方法。
【請求項13】
前記第1の入力及び前記第2の入力が、非同期的に受信される、請求項1に記載の方法。
【請求項14】
前記方法は、
前記コンテンツ作成システムによって、前記第1のユーザ又は前記第2のユーザに対してグラフィカルインターフェースを表示するための信号を生成するステップと、
前記コンテンツ作成システムによって、前記第1のユーザ又は前記第2のユーザから選択コマンドを受信するステップと、
前記コンテンツ作成システムによって、前記選択コマンドに基づいて前記コンピューティング環境においてユーザ作成要素を提供するステップと、
をさらに含み、
前記グラフィカルインターフェースが、調整可能なタイムラインを含み、
前記選択コマンドが、前記調整可能なタイムライン上のタイムピリオドを選択し、
前記ユーザ作成要素が、前記タイムピリオドに基づいて前記コンテンツ作成システムによって選択される、
請求項1に記載の方法。
【請求項15】
人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するためのコンピュータシステムであって、
命令を格納しているメモリと、
前記命令を実行してオペレーションを実行するように構成された1つ又は複数のプロセッサと、
を備え、
前記オペレーションが、
コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信することと、
入力融合システムによって、機械学習モデルを使用することによって前記第1の入力及び前記第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することと、
前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記プロンプトデータの前記存在が特定されると、前記入力融合システムによって、前記プロンプトデータをアクション生成システムに伝送することと、
前記アクション生成システムによって、前記プロンプトデータ及び前記機械学習モデルに基づいて第1のアクションデータを生成することと、
前記アクション生成システムによって、前記第1のアクションデータに基づいて前記コンピューティング環境で第1のアクションを実行することと、
を含む、コンピュータシステム。
【請求項16】
前記オペレーションが、
前記重複データの前記存在が特定されると、前記入力融合システムによって、前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記重複データを除去すること、
をさらに含む、請求項15に記載のシステム。
【請求項17】
前記オペレーションが、
前記重複データ及び前記冗長性データの前記存在が特定されると、前記入力融合システムによって、前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記重複データ及び前記冗長性データを除去すること、
をさらに含む、請求項15に記載のシステム。
【請求項18】
前記第1の入力又は前記第2の入力のうちの少なくとも一方が、テキストデータを含む、請求項15に記載のシステム。
【請求項19】
前記オペレーションが、
前記入力融合システムによって、前記第1の入力又は前記第2の入力のうちの少なくとも一方を、変換されたデータに変換すること、
をさらに含み、
前記第1の入力又は前記第2の入力のうちの少なくとも一方が、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み、
前記変換されたデータが、変換されたテキストデータを含む、
請求項15に記載のシステム。
【請求項20】
前記オペレーションが、
前記重複データ又は前記冗長性データの前記存在が特定されると、前記入力融合システムによって、前記変換されたテキストデータから、前記重複データ又は前記冗長性データのうちの少なくとも1つに対応するテキストデータを除去すること、
をさらに含む、請求項19に記載のシステム。
【請求項21】
前記機械学習モデルが、直接的なユーザ入力又は間接的なユーザ入力に基づいて、前記重複データ、前記冗長性データ、及び/又は前記プロンプトデータの前記存在を特定することを容易にする、請求項15に記載のシステム。
【請求項22】
前記コンピューティング環境が仮想環境である、請求項15に記載のシステム。
【請求項23】
前記コンピューティング環境が拡張環境である、請求項15に記載のシステム。
【請求項24】
前記第1のアクションが、前記仮想環境の空間内の要素を作成又は修正することである、請求項22に記載のシステム。
【請求項25】
前記要素が、視覚要素又はオーディオ要素のうちの少なくとも一方である、請求項24に記載のシステム。
【請求項26】
前記第1の入力及び前記第2の入力が、同期的に受信される、請求項15に記載のシステム。
【請求項27】
前記第1の入力及び前記第2の入力が、非同期的に受信される、請求項15に記載のシステム。
【請求項28】
命令を格納しているコンピュータ読み取り可能な記憶媒体であって、
前記命令は、コンピュータシステムの1つ又は複数のプロセッサによって実行されたときに、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための方法を前記コンピュータシステムに実行させ、
前記方法は、
コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、
入力融合システムによって、機械学習モデルを使用することによって前記第1の入力及び前記第2の入力を分析して、重複データ、冗長性データ、又はプロンプトデータのうちの少なくとも1つを検出するステップと、
前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記プロンプトデータが検出されると、前記入力融合システムによって、前記プロンプトデータをアクション生成システムに伝送するステップと、
前記アクション生成システムによって、前記プロンプトデータ及び前記機械学習モデルに基づいて第1のアクションデータを生成するステップと、
前記アクション生成システムによって、前記第1のアクションデータに基づいて前記コンピューティング環境で第1のアクションを実行するステップと、
を含む、コンピュータ読み取り可能な記憶媒体。
【請求項29】
人工知能を使用してコンピューティング環境でコンテンツ作成を実行するための方法であって、
コンテンツ作成システムによって、第1の入力及び第2の入力を受信するステップと、
入力融合システムによって、機械学習モデルを使用することによって前記第1の入力及び前記第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定するステップと、
前記第1の入力又は前記第2の入力のうちの少なくとも一方から前記プロンプトデータの前記存在が特定されると、前記入力融合システムによって、前記プロンプトデータをアクション生成システムに伝送するステップと、
前記アクション生成システムによって、前記プロンプトデータ及び前記機械学習モデルに基づいて第1のアクションデータを生成するステップと、
前記アクション生成システムによって、前記第1のアクションデータに基づいて前記コンピューティング環境で第1のアクションを実行するステップと、
を含む、方法。
【請求項30】
前記第1の入力及び前記第2の入力が、非同期的に受信される、請求項29に記載の方法。
【請求項31】
前記第1の入力及び前記第2の入力が、同期的に受信される、請求項29に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピューティング環境でコンテンツを作成することに関し、より詳細には、複数のユーザが、強化された創造的な能力及び/又は効果を伴って仮想環境でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成を実行するためのシステム及び方法に関する。
【背景技術】
【0002】
現在のテクノロジーによって、人間のユーザは、人工知能(AI)を含むコンピュータプログラムに特定のコマンドを(例えば、音声又はタイピングを通じて)提供して、AIが特定のアクティビティーを実行することを可能にすることができる。AIによって実行されるアクティビティーのうちのいくつかは、AIアルゴリズムの特定のレベルのトレーニングを必要とする創造的なアクティビティーである。例えば、既存のAIプラットフォーム(例えば、Siri、ChatGPT、DALL-E、Mid-Journey、Stable Diffusionなど)はすべて、ユーザの要求に応答するコンテンツを作成するために使用されることが可能であるコンピュータモデルをトレーニングする。
【0003】
注目すべきことに、人間は本来、社会的な存在であり、多くの場合、人間の創造的な能力は、共に対話してコンテンツを作成しているときに強化される。しかしながら、現在のシステム及び方法は、人間がAIコンピュータモデルの助けを借りて共同作成することを可能にしない。代わりに、現在のシステム及び方法は、個人レベルで発生する作成に焦点を合わせている。したがって、発展しているAIテクノロジーの助けを借りて複数のユーザの間で協調的に達成されることが可能である作成の社会的な及び創造的な側面は限られている。例えば、現在のAIプラットフォーム(例えば、Siri、ChatGPT、DALL-E、Mid-Journey、Stable Diffusionなど)を利用するテクノロジーは、音声をテキストに変換し、そのテキストをサーバに提出することが可能であり、音声からテキストへの変換は、エッジ又はクラウドで生じることが可能である。サーバは次いで、テキストをAIに送信し得る。或いは、ユーザが1つ又は複数のプロンプトをコンピュータに手でタイプ及び入力して、AIに送信されるようにすることが可能であり、いくつかのシステムは、ユーザの入力に基づいて画像又は様々なタイプのコンテンツを作成することができる。しかしながら、既存のシステムはすべて、単一のユーザからの入力コマンドを取り込んで、それらの入力コマンドを対応するアクションに転換するだけである。すなわち、既存のシステムのいずれも、複数のユーザによってコンテンツを作成することの協調的な及び創造的な態様を可能にしない。
【発明の概要】
【0004】
本開示は、これらの上述の課題及び欠陥のうちの1つ又は複数を克服することを対象としている。本明細書において提供されている背景の説明は、本開示の文脈を全般的に提示するという目的のためのものである。本明細書において別段の記載がない限り、このセクションで説明されている題材は、本出願での特許請求の範囲に対する従来技術であるわけではなく、このセクションに含まれることによって、従来技術であると、又は従来技術を示唆するものであると認められるわけではない。
【0005】
本開示の特定の態様によれば、複数のユーザが、強化された創造的な能力及び/又は効果を伴って仮想環境でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成を実行するためのシステム及び方法が提供される。
【0006】
一態様によれば、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための方法が提供される。この方法は、コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定するステップと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行するステップとを含み得る。
【0007】
その他の態様では、本明細書に説明されている方法のうちのいずれかが、下記のステップ又は特徴のうちのいずれかを含み得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方で重複データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データを除去し得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方で重複データ及び冗長性データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データ及び冗長性データを除去し得る。第1の入力又は第2の入力のうちの少なくとも一方は、テキストデータを含み得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方を変換されたデータに変換し得る。第1の入力又は第2の入力のうちの少なくとも一方は、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み得る。変換されたデータは、変換されたテキストデータを含み得る。入力融合システムは、重複データ又は冗長性データの存在を特定すると、変換されたテキストデータから、重複データ又は冗長性データのうちの少なくとも1つに対応するテキストデータを除去し得る。機械学習モデルは、直接的なユーザ入力又は間接的なユーザ入力に基づいて重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することを容易にし得る。コンピューティング環境は、仮想環境であり得る。コンピューティング環境は、拡張環境であり得る。第1のアクションは、仮想環境の空間内の要素を作成又は修正することであり得る。要素は、視覚要素又はオーディオ要素のうちの少なくとも一方であり得る。第1の入力及び第2の入力は、同期的に受信され得る。第1の入力及び第2の入力は、非同期的に受信され得る。コンテンツ作成システムは、第1のユーザ又は第2のユーザに対してグラフィカルインターフェースを表示するための信号を生成し得る。コンテンツ作成システムは、第1のユーザ又は第2のユーザから選択コマンドを受信し得る。コンテンツ作成システムは、選択コマンドに基づいてコンピューティング環境においてユーザ作成要素を提供し得る。グラフィカルインターフェースは、調整可能なタイムラインを含み得る。選択コマンドは、調整可能なタイムライン上のタイムピリオドを選択し得る。ユーザ作成要素は、タイムピリオドに基づいてコンテンツ作成システムによって選択され得る。
【0008】
一態様によれば、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するためのコンピュータシステムが提供され得る。このコンピュータシステムは、命令を格納しているメモリと、命令を実行してオペレーションを実行するように構成された1つ又は複数のプロセッサとを含み得る。オペレーションは、コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信することと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送することと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成することと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行することとを含み得る。
【0009】
その他の態様では、本明細書に説明されているシステムのうちのいずれかが、下記のステップ又は特徴のうちのいずれかを含み得る。入力融合システムは、重複データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データを除去し得る。入力融合システムは、重複データ及び冗長性データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データ及び冗長性データを除去し得る。第1の入力又は第2の入力のうちの少なくとも一方は、テキストデータを含み得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方を、変換されたデータに変換し得る。第1の入力又は第2の入力のうちの少なくとも一方は、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み得る。変換されたデータは、変換されたテキストデータを含み得る。入力融合システムは、重複データ又は冗長性データの存在を特定すると、変換されたテキストデータから、重複データ又は冗長性データのうちの少なくとも1つに対応するテキストデータを除去し得る。機械学習モデルは、直接的なユーザ入力又は間接的なユーザ入力に基づいて重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することを容易にし得る。コンピューティング環境は、仮想環境であり得る。コンピューティング環境は、拡張環境であり得る。第1のアクションは、仮想環境の空間内の要素を作成又は修正することであり得る。要素は、視覚要素又はオーディオ要素のうちの少なくとも一方であり得る。第1の入力及び第2の入力は、同期的に受信され得る。第1の入力及び第2の入力は、非同期的に受信され得る。
【0010】
一態様によれば、非一時的コンピュータ可読メディアが、命令を格納することができ、それらの命令は、コンピュータシステムの1つ又は複数のプロセッサによって実行されたときに、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための方法をコンピュータシステムに実行させる。この方法は、コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、又はプロンプトデータのうちの少なくとも1つを検出するステップと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータを検出すると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行するステップとを含み得る。
【0011】
一態様によれば、人工知能を使用してコンピューティング環境でコンテンツ作成を実行するための方法が提供され得る。この方法は、コンテンツ作成システムによって、第1の入力及び第2の入力を受信するステップと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定するステップと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行するステップとを含み得る。
【0012】
その他の態様では、本明細書に説明されている方法のうちのいずれかが、下記のステップ又は特徴のうちのいずれかを含み得る。第1の入力及び第2の入力は、非同期的に受信され得る。第1の入力及び第2の入力は、同期的に受信され得る。
【0013】
前述の全般的な説明及び以降の詳細な説明は両方とも、典型的で説明的なものにすぎず、特許請求されている本発明を制限するものではないということが理解され得る。
【0014】
添付の図面は、本明細書に組み込まれて本明細書の一部を構成しており、本開示の典型的な態様を示し、説明と共に、本開示の原理を説明する役割を果たす。
【図面の簡単な説明】
【0015】
【
図1】本開示のシステム、方法、及びその他の態様が実施され得る例示的な環境の概観を示す図である。
【
図2】本開示の態様による、コンピューティング環境でコンテンツ作成データを生成するための典型的なシステムのブロック図である。
【
図3】本開示の態様による、人工知能を使用して協調的なコンテンツ作成を実行する典型的なコンピューティング環境を示す図である。
【
図4】本開示の態様による、コンピューティング環境で人工知能を使用して協調的なコンテンツ作成を実行する典型的な方法のフローチャートである。
【
図5】本開示の態様による、コンピューティング環境で人工知能を使用して協調的なコンテンツ作成を実行する典型的なユーザインターフェースを示す図である。
【
図6】本開示の態様による、コンピューティング環境で協調的なコンテンツ作成を実行するための別の典型的な方法のフローチャートである。
【
図7】本明細書に説明されている技術を実行し得るコンピュータシステムを示す図である。
【発明を実施するための形態】
【0016】
以降の実施形態では、複数のユーザが、強化された創造的な能力及び/又は効果を伴ってコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成を実行するためのシステム及び方法について説明する。上述されているように、既存のシステムは、個人レベルでAI機能を利用する。すなわち、ユーザは、1つ又は複数の入力コマンドをAIシステムに提供することができ、AIシステムは、限定された及び一方向のアプローチで解決策又は応答を提供する。したがって現在、人工知能プラットフォームを利用するコンピューティング環境で複数のユーザによる協調的なコンテンツ作成を容易にするための技術的な解決策はない。したがって、自然な方法で複数のユーザの間での共同作成を可能にすることができる協調的なレベルでの創造的な機能を達成することに対する多方向の同期的なアプローチを容易にすることができるシステム及び方法に対する必要性が存在する。複数のユーザの間でのそのような協調的な対話は、ユーザどうしが互いの間で単に会話をしているという感覚を生み出すことができる。すなわち、本開示のシステム及び方法は、変換中に重要なキーワードを自動的に及び直観的に検出して、それらのキーワードをプロンプトに変換することができ、それらのプロンプトは、ユーザによって所望されるコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)での創造的なアクションに転換されることが可能である。加えて、これらのシステム及び方法は、1つ又は複数の創造的なセッション中に、単一の又は複数のユーザから、同期的に又は非同期的に、複数の入力の形態を検出して、ユーザ入力の永続的なAI支援処理を容易にして、個性的な又は協調的なコンテンツ作成のための反復的で創造的な提案を提供することができる。したがって、本開示のシステム及び方法は、直観的及び効率的なプロセス、並びに、トレーニングされた機械学習システム又はモジュールによって駆動される創造的なセッションを非従来型の方法で可能にするためのインターフェースを提供することによってコンピューティング環境での1人又は複数のユーザのコンテンツ作成及び協調的な対話を著しく改善する。
【0017】
以降の実施形態では、複数のユーザが、人工知能ベースの手続きテクノロジーを使用してコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)でコンテンツを同期的に又は非同期的に共同作成することを可能にするためのシステム及び方法について説明する。本開示の態様によれば、これらのシステム及び方法は、1人又は複数のユーザからの入力データの取り込みを容易にし得る。入力データは、同期的に又は非同期的に、オーディオデータ(例えば、音声、オーディオファイルなど)、触覚データ、テキストデータ、画像データ、ビデオデータ、又は任意のその他のタイプのデータを含み得るが、それらに限定されない。本開示のシステム及び方法は、データをテキストデータに変換すること、データを分析すること、データをクリーニングすること、データからプロンプトを抽出すること、及びプロンプトをコンピューティング環境での創造的な効果を有する創造的なアクションに変換して創造的な作品又はコンテンツを生成することを容易にし得る。本開示の態様によれば、データをクリーニングするためのプロセスは、例えば、テキストから不要なデータを除去すること(例えば、重複及び冗長性を除去すること)を含み得る。創造的な効果は、グラフィカルであり得、これは、コンピューティング環境で形状、形態、色、明るさ(例えば、光又は光の強さを追加又は除去すること)、寸法、要素(例えば、備品)などでの変更を行うために1つ又は複数のグラフィカル画像を転換することを含み得る。追加として、又は代替として、創造的な効果は、楽曲、アート作品の構成、教科書、ビデオゲームの作成、建築設計、書籍の作成、物品の製造、及び/又はグラフィックデザイン(例えば、企業用の仮想環境の作成)に基づき得る。
【0018】
コンピューティング環境又はコンピューティング環境の特定のエリアは、創造的な効果が適用され得る白いキャンバスと同様に機能し得る。そのような創造的な効果は、リアルタイムに又はほぼリアルタイムに表面又は空間のうちの1つ又は複数で提供され得る。加えて、本開示のシステム及び方法は、1つ又は複数の創造的な提案をコンピューティング環境のユーザに提供することができ、その場合、各提案は、特定のユーザの特定の入力に基づいてそのユーザを対象とし得る。したがって、本開示のシステム及び方法は、1つ又は複数の機械学習モデルを利用することによって、1人又は複数のユーザがコンピューティング環境でコンテンツを作成してその他のユーザと対話することができる方法を改善する。
【0019】
次いで本説明の主題が、以降で添付の図面を参照しながら、より完全に説明されることになり、それらの図面は、この説明の一部を形成しており、例示として、特定の典型的な実施形態を示している。本明細書において「典型的」として説明されている実施形態又は実施態様は、例えば、その他の実施形態又は実施態様よりも好ましい又は有利であると解釈されるべきではなく、むしろ、実施形態(1つ又は複数)が「例示的な」実施形態(1つ又は複数)であるということを反映すること又は示すことが意図されている。主題は、様々な異なる形態で具体化されることが可能であり、そのため、対象とされている又は特許請求されている主題は、本明細書に記載されているいずれの典型的な実施形態にも限定されないと解釈されることを意図されており、典型的な実施形態は、例示となるように提供されているにすぎない。同様に、特許請求されている又は対象とされている主題に関する合理的に広い範囲が意図されている。数ある中でも、例えば、主題は、方法、デバイス、コンポーネント、又はシステムとして具体化され得る。したがって、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せ(ソフトウェア自体は除く)の形態を取り得る。そのため、以降の詳細な説明は、限定的な意味で理解されることを意図されているものではない。
【0020】
本明細書及び特許請求の範囲の全体を通じて、用語は、明示的に記載されている意味を超えて、文脈で示唆又は暗示されるニュアンスの意味を有する場合がある。同様に、本明細書で使用されている「一実施形態で」というフレーズは、必ずしも同じ実施形態を指すとは限らず、本明細書で使用されている「別の実施形態で」というフレーズは、必ずしも異なる実施形態を指すとは限らない。例えば、特許請求されている主題は、全体的に又は部分的に典型的な実施形態どうしの組合せを含むということが意図されている。
【0021】
以降で使用されている専門用語は、たとえその用語が本開示の特定の具体的な例の詳細な説明と共に使用されているとしても、その用語の最も広い合理的な様式で解釈され得る。実際に、特定の用語は、以降で強調される場合さえあるが、何らかの制限された様式で解釈されることを意図されているいかなる専門用語も、この詳細な説明のセクションでは、そのようなものとして明白に及び具体的に定義されることになる。前述の全般的な説明及び以降の詳細な説明は両方とも、典型的で説明的なものにすぎず、特許請求されている特徴を制限するものではない。
【0022】
本開示では、「~に基づく」という用語は、「~に少なくとも部分的に基づく」を意味する。単数形の「a」、「an」、及び「the」は、複数形の指示対象を含む。ただし、文脈上そうではないと示す場合は除く。「exemplary(典型的な)」という用語は、「ideal(理想的な)」ではなく、「example(例示的な)」の意味で使用されている。「or(又は)」という用語は、包括的であることを意図されており、列挙されている項目のうちのどちらか、いずれか、いくつか、又はすべてを意味する。「comprises(備える)」、「comprising(備える)」、「includes(含む)」、「including(含む)」という用語、又はそれらのその他の変形は、非排他的な包含を説明することを意図されており、それによって、要素のリストを備えるプロセス、方法、又は製品は、必ずしもそれらの要素のみを含むとは限らず、明示的にリストアップされていない、又はそのようなプロセス、方法、物品、若しくは装置に固有のその他の要素を含み得る。「実質的に」及び「概して」などの相対的な用語は、記載されている又は理解される値の±10%のあり得る変動を示すために使用されている。
【0023】
ここで添付の図面を参照すると、
図1は、本開示の1つ又は複数の実施形態による例示的な環境(又はシステム(1つ又は複数))100の概観を示している。環境100は、例えば、第1のユーザデバイス(1つ又は複数)110及び第2のユーザデバイス(1つ又は複数)120を含むことができ、これらは、ネットワークシステム(1つ又は複数)130及び協調的コンテンツ作成システム(1つ又は複数)140と通信するように構成される。環境100では2つのユーザデバイス(1つ又は複数)110及び120が示されているが、本開示に従って、同期的に又は非同期的に、ネットワークシステム(1つ又は複数)130及び/又は協調的コンテンツ作成システム(1つ又は複数)140と通信するために、並びに複数のユーザの協調的なコンテンツ作成に参加するために、追加のユーザデバイスが環境100で提供され得る。
【0024】
本開示の態様によれば、ネットワークシステム(1つ又は複数)130は、有線又はワイヤレスネットワークを含む1つ又は複数のネットワークを定義し得る。ネットワークシステム(1つ又は複数)130は、例えば、インターネット及び/又は1つ若しくは複数のクラウドネットワークを含み得る。さらに、ネットワークシステム(1つ又は複数)130は、インターネットなどのパブリックネットワーク、イントラネットなどのプライベートネットワーク、又はそれらの組合せを含むことができ、TCP/IPベースのネットワーキングプロトコルを含むがそれらに限定されない現在利用可能な又は後に開発される様々なネットワーキングプロトコルを利用し得る。ネットワークシステム(1つ又は複数)130は、ユーザデバイス(1つ又は複数)110及び120と協調的コンテンツ作成システム(1つ又は複数)140との間のデータの通信を可能にするためにユーザデバイス(1つ又は複数)110及び120を協調的コンテンツ作成システム(1つ又は複数)140に通信可能に結合するように構成され得る。ネットワークシステム(1つ又は複数)130は一般に、1つのデバイスから別のデバイスへ情報を通信するための任意の形態のコンピュータ可読又はマシン可読メディアを採用することを可能にされ得る。ネットワークシステム(1つ又は複数)130は、コンピューティングデバイスどうしの間を情報が移動し得る通信方法を含み得る。ネットワークシステム(1つ又は複数)130は、パブリック又はプライベートネットワーク接続とみなされることが可能であり、例えば、仮想プライベートネットワーク、又はパブリックインターネット上で採用される暗号化若しくはその他のセキュリティーメカニズムなどを含み得る。
【0025】
一実施形態では、ユーザデバイス(1つ又は複数)110及び120は、協調的コンテンツ作成システム(1つ若しくは複数)140と直接的に、又はネットワークシステム(1つ若しくは複数)130若しくはその他の利用可能な通信チャネルを通じて間接的に通信し得る。ユーザデバイス(1つ又は複数)110及び120が協調的コンテンツ作成システム(1つ又は複数)140と直接通信するケースでは、協調的コンテンツ作成システム(1つ又は複数)140は、例えば、上記のネットワークシステム(1つ又は複数)130に関連して説明されている1つ又は複数の通信方法を介した通信を容易にするように実装及び構成され得る。
【0026】
本開示の態様によれば、協調的コンテンツ作成システム(1つ又は複数)140は、サーバシステム(1つ又は複数)142、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148を含み得る。いくつかの実施形態では、協調的コンテンツ作成システム(1つ又は複数)140は、本開示の態様に従って、サーバシステム(1つ又は複数)142、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148のいくつかの又はすべての機能を実行するように構成され得る1つ又は複数のサーバであり得る。システム(1つ又は複数)は、本開示では、様々な電子及びコンピュータシステムを含むことができる様々な実施態様を含み得る。本明細書に説明されている1つ又は複数の実施態様は、2つ以上の特定の相互接続されたハードウェアモジュール又はデバイスを、モジュールどうしの間で及びモジュールを通じて通信されることが可能である関連した制御及びデータ信号と共に使用して、又は特定用途向け集積回路の部分として、機能を実施し得る。したがって、システム(1つ又は複数)は、ソフトウェア、ファームウェア、及びハードウェアの実施態様を包含する。
【0027】
本開示の態様によれば、サーバシステム(1つ又は複数)142は、クラウドサーバ/ネットワーク、エッジサーバ/ネットワーク上に、ネットワークシステム(1つ若しくは複数)130内に、及び/又は、サーバシステム(1つ若しくは複数)142が協調的コンテンツ作成システム(1つ若しくは複数)140と直接的若しくは間接的に統合され得る場所に配置され得る1つ又は複数のデータサーバ又はデータベースを含み得る。サーバシステム(1つ又は複数)142は、本開示の実施形態に従って、協調的なコンテンツ作成の実行を容易にするために、ユーザデバイス(1つ若しくは複数)110及び/又はネットワークシステム(1つ若しくは複数)130から受信されたデータを格納すること及び処理することが可能である。加えて、サーバシステム(1つ又は複数)142は、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148との間でデータ又はコマンド信号を受信及び伝送して、協調的なコンテンツ作成の実行を容易にすることができる。
【0028】
本開示の態様によれば、入力融合システム(1つ又は複数)144は、第1のユーザ112及び第2のユーザ122から1つ又は複数の入力又はコマンドを受信し得る。上述されているように、環境100は、2人よりも多いユーザ又は2つよりも多いユーザデバイスを含み得る。したがって、入力融合システム(1つ又は複数)144は、2人よりも多いユーザ又は2つよりも多いユーザデバイスから入力及びコマンドを受信し得る。或いは、入力融合システム(1つ又は複数)144は、協調セッションのタイプに応じて第1のユーザ112又は第2のユーザ112のみから1つ又は複数の入力又はコマンドを受信し得る。すなわち、協調的コンテンツ作成システム(1つ又は複数)140は、単一ユーザ作成セッション又は複数ユーザ作成セッションを容易にし得る。本開示では、入力及びコマンドという用語は、言い換え可能に使用され得る。ユーザ入力又はコマンドは、例えば、オーディオ入力、触覚入力、テキスト入力、画像入力、ジェスチャー入力、又はビデオ入力を含み得るが、それらに限定されない。すなわち、例えば、環境100内のユーザデバイスに接続又は統合されたセンサ又はその他の適切な手段を介して受け入れ可能である任意のタイプのデータが、本開示によるユーザ入力又はコマンドであるとみなされ得る。ユーザコマンドは、直接的又は間接的なコマンドであり得る。例えば、直接的なコマンドは、1人又は複数のユーザによって直接入力されているコマンド(例えば、選択されたエリアに特定の色を変更すること)を実行するように協調的コンテンツ作成システム(1つ又は複数)140に指示するように構成され得るコマンドを指し得る。逆に、間接的なコマンドは、コマンド(例えば、ユーザによって言われていること)から情報を推測して解釈し及び抽出するように協調的コンテンツ作成システム(1つ又は複数)140に指示するように構成され得るコマンドを指し得る。例えば、直接的なコマンドは、協調的コンテンツ作成システム(1つ又は複数)140による学習、分析、及び解釈をあまり必要としない場合がある。なぜなら、ユーザは、単に作成の特定のエリアを選択してコマンドを直接送信することができるからである。しかしながら、間接的なコマンドは、より多くのトレーニング(例えば、機械学習モデルのトレーニング)を必要とする場合がある。なぜなら、協調的コンテンツ作成システム(1つ又は複数)140は、データを取り込んで、AI又は機械学習モデルによって解釈されているものに可能な限り近いものであり得るクリーンなコマンドを抽出しようとするからである。例えば、間接的なコマンドは、1人又は複数のユーザが自分たちの間での創造的なセッションで対話をする際に主に使用される場合があり、その創造的なセッションでは、ユーザたちは、自分たちの創造的な作品であると彼らが考えることに関してブレインストーミングしている場合がある。或いは、単一のユーザが単独で創造的なセッションで発言して、創造的な作品であると自分が考え得ることに関してブレインストーミングする場合がある。
【0029】
一実施形態では、第1のユーザ112及び/又は第2のユーザ122はそれぞれ、第1のユーザデバイス(1つ又は複数)110及び第2のユーザデバイス(1つ又は複数)120に同期的に又は非同期的にコマンドを入力し得る。入力融合システム(1つ又は複数)144は、直接的に、又はネットワークシステム(1つ若しくは複数)130及び/若しくはサーバシステム(1つ若しくは複数)142を介して間接的に、ユーザデバイス(1つ又は複数)110及び120からの入力コマンドを受信し得る。入力融合システム(1つ又は複数)144は次いで、入力コマンドをテキストデータに転写又は変換し得る。テキストデータの形態で受信され得る入力コマンドに関しては、入力融合システム(1つ又は複数)144によるテキストデータへの変換は必要ではない場合がある。入力融合システム(1つ又は複数)144は次いで、テキストデータのセマンティクスを取り込むこと(例えば、会話の文脈を理解すること)、重複及び/若しくは冗長性(例えば、不要な情報)を検出すること、テキストデータにラベル付けすること、並びに/又はプロンプトを検出することによって、入力コマンドのタイプ又は形態に応じて、変換されたテキストデータ又は受信されたテキストデータを分析し得る。入力融合システム(1つ又は複数)144は次いで、例えば、検出された重複及び/又は冗長性を除去することによって、分析されたテキストデータを、必要な場合には、クリーニング又は修正し得る。入力融合システム(1つ又は複数)144は次いで、分析されてクリーニングされたテキストデータから、もしもあれば、プロンプトを抽出することへ進み得る。いくつかの実施形態では、入力融合システム(1つ又は複数)144は、トレーニングされた機械学習モデルを利用し得る。入力融合システム(1つ又は複数)144は次いで、抽出されたクリーンなプロンプトを生成AIシステム(1つ又は複数)148に送信し得る。いくつかの実施形態では、データの変換又は転写は、ユーザデバイス(1つ又は複数)110、120上で行われ得る。したがって、ユーザデバイス(1つ又は複数)110、120は、オーディオ又はその他のタイプのデータのテキストへの変換を可能にするコンピュータコードを実施して、転写されたテキストを協調的コンテンツ作成システム(1つ又は複数)140に送信することができる。或いは、上述されているように、データの転写又は変換は、入力融合システム(1つ又は複数)142によって協調的コンテンツ作成システム(1つ又は複数)140内で行われることが可能であり、それによって入力デバイス(1つ又は複数)110、120は、いかなるデータの転写又は変換も実行する必要がない場合がある。或いは、入力融合システム(1つ又は複数)142の機能のうちのすべては、テキストの転写又は変換、入力若しくはコマンドデータの分析、及び/又は、入力若しくはコマンドデータのクリーニングを含めて、生成AIシステム(1つ又は複数)146によって実行され得る。
【0030】
一実施形態では、ラベル付けプロセスは、画像データ、触覚データ、ビデオデータ、オーディオデータ、及び/又はその他のタイプのデータなど、任意のタイプの入力データ又はコマンドデータに対して入力融合システム(1つ又は複数)144によって実行され得る。テキストデータを含まないデータに関しては、ラベル付けプロセスは、コマンドのテキストへの転写の一種と考えられることが可能である。例えば、空間での月を含む、ユーザ(例えば、ユーザ112、122)によって提供された画像が入力融合システム(1つ又は複数)144によって受信された場合、入力融合システム(1つ又は複数)144は、実際のプロンプト及び創造的な作品に変換されることが可能である、例えば、月の、輝く、白い、暗い空間などを含むラベルを生成し得る。別の例として、クラシック音楽の演奏がアップロードされる音楽作成セッションで、入力融合システム(1つ又は複数)144は、実際のプロンプト及び創造的な作品に変換されることが可能である、例えば、和声音楽、クラシック音楽、ソフトミュージックなどを含むラベルを生成し得る。テキストで受信されるデータに関しては、上述のラベル付けプロセスを実行する代わりに、分類プロセスが同様に実行され得る。例えば、空間での月を含むテキストデータが入力融合システム(1つ又は複数)144によって受信された場合、入力融合システム(1つ又は複数)144は、そのテキストデータを、例えば、月の、輝く、白い、暗い空間などで分類し得る。一実施形態では、入力融合システム(1つ又は複数)144は、1人又は複数のユーザから同期的にテキストデータ及び非テキストデータの両方を受信し得る。この実施形態では、入力融合システム(1つ又は複数)144は、転写及び分類の両方を同時に又は順次実行し得る。一例では、ラベル付け又は分類プロセスは、受信された入力の作者(例えば、ユーザ112又は122)を識別するテキストを追加することを含む。そのような識別は、対応するユーザのユーザデバイスを認識すること、又はユーザの音声を、若しくはユーザの画像を(例えば、顔認識を通じて)認識することなどのうちの1つ又は複数によって実行され得る。加えて、入力融合システム(1つ又は複数)144は、テキストデータから分析された情報を、非テキストデータから分析された情報と比較して、実際のプロンプト及び創造的な作品に変換されることが可能であるラベル又はカテゴリーを生成することができる。例えば、非テキストデータから識別された1つ又は複数のラベルと、テキストデータから識別された1つ又は複数の分類とが、入力融合システム(1つ又は複数)144によって共に処理されて、プロンプト及び創造的な作品への変換を行うことが可能である。上述されている変換及び分類プロセスは、共に同時に又は順次実行され得る。
【0031】
本開示の態様によれば、生成AIシステム(1つ又は複数)148は、入力融合システム(1つ又は複数)144から1つ又は複数のプロンプトを受信し得る。一実施形態では、生成AIシステム(1つ又は複数)148は、入力融合システム(1つ又は複数)144から受信された1つ又は複数のプロンプトに基づいて創造的な提案のうちの1つ又は複数を生成し得る。各提案は、特定のユーザの特定の入力に基づいて特定のユーザに関連し得る。例えば、第1のユーザ112が、壁の色を赤に修正するためのコマンドを送信し、第2のユーザ122が、壁の色を青に修正するためのコマンドを送信した場合、生成AIシステム(1つ又は複数)148は、入力融合システム(1つ又は複数)144から受信されたプロンプトに基づいてそれらのコマンドの違いを認識し得る。生成AIシステム(1つ又は複数)146は次いで、第1のコマンドを第1のユーザ112のものとして、及び第2のコマンドを第2のユーザ122のものとしてラベル付けし得る。生成AIシステム(1つ又は複数)146は次いで、第1のユーザ112に対応する第1の提案、及び第2のユーザ122に対応する第2の提案を用意することへ進み得る。もちろん、提案を用意するための同じ又は類似のプロセス又は方法は、様々なその他のタイプのユーザコマンド(例えば、画像、テキスト、触覚など)に適用され得る。生成AIシステム(1つ又は複数)146は次いで、提案をコンピューティング環境生成システム(1つ又は複数)148に伝送し得る。
【0032】
一実施形態では、生成AIシステム(1つ又は複数)146は、1つ又は複数の生成AIモデルを含むことができ、それらの生成AIモデルは、入力融合システム(1つ又は複数)144から受信された入力データを利用すること、及び生成AIシステム(1つ又は複数)146の機能を容易にするために使用され得る出力データを生成することができる。生成AIモデルは、例えば、コンテンツを表して処理するために使用される様々なAIアルゴリズムの組合せを含み得る。さらに、1つ又は複数の創造的な提案を生成するために、生成AIモデルは、テキストを生成するための自然言語処理技術を利用して、文字、句読点、及び単語などの生の文字を、文、品詞、エンティティー、及びアクションに変換することができ、それらは次いで、複数のエンコーディング技術を使用してベクトルとして表され得る。加えて、画像は、生成AIシステム(1つ又は複数)146によって1つ又は複数の創造的な提案として使用されるように、同様にベクトルとして表現される様々な視覚的な要素に変換され得る。一実施形態では、クエリー又はプロンプトに応答して新たなコンテンツを生成するために特定のニューラルネットワークが使用され得る。生成AIシステム(1つ又は複数)146によって創造的な提案のうちの1つ又は複数を生成するために生成逆数ネットワーク(GAN)及び変分オートエンコーダ(VAE)などの技術が利用され得る。一実施形態では、本開示のAIアルゴリズムは、AIシステム(1つ又は複数)146でのAIアルゴリズムの適用よりも前に、事前に特定された数のデータセットを用いてトレーニングされ得る。加えて、AIアルゴリズムは、環境100で実行される創造的なセッション中に学習を継続し得る。例えば、AIシステム(1つ又は複数)146は、それぞれの創造的なセッションの後に各ユーザの創造的なスタイルから学習し得る。AIシステム(1つ又は複数)146は次いで、機械学習を通じてAIアルゴリズムを改善することができ、それによってAIシステム(1つ又は複数)146は、より速く及び/又はよりよい品質で創造的な提案を生成及び提供し得る。
【0033】
本開示の態様によれば、コンピューティング環境生成システム(1つ又は複数)148は、環境100内のユーザ112、122がコンテンツを作成する目的で協調するために利用し得る1つ又は複数のコンピューティング環境の生成を容易にし得る。コンピューティング環境は、例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境を含み得るが、それらに限定されない。コンピューティング実施形態でのコンピューティング環境及びユーザ協調の例が、同時係属中の米国特許出願第17/006,327号にも開示されており、その開示全体は、いかなる免責事項、否認、及び矛盾も除いて、参照によって本明細書に組み込まれる。さらに、その同時係属出願に開示されている機械学習アルゴリズムのうちのいずれも、個別に、又は入力融合システム(1つ若しくは複数)144及び/若しくは生成AIシステム(1つ若しくは複数)148によって使用される機械学習モデルと組み合わせて使用されるように組み込まれ得る。
【0034】
一実施形態では、コンピューティング環境生成システム(1つ又は複数)148は、すでに既存の仮想環境のエリアでの1つ又は複数のコンピューティング環境の生成を容易にし得る。
【0035】
一実施形態では、コンピューティング環境生成システム(1つ又は複数)148は、例えば、ユーザコマンド、プロンプト、及び/又は提案をユーザデバイス(1つ若しくは複数)110及び120、入力融合システム(1つ若しくは複数)144、並びに/又は生成AIシステム(1つ若しくは複数)146から受信し得る。コンピューティング環境生成システム(1つ又は複数)148は次いで、環境100のユーザどうしがコンテンツを作成する目的で互いと対話するために利用し得るグラフィカル及び/又はオーディオインターフェースを生成し得る。例えば、コンピューティング環境生成システム(1つ又は複数)148は、1つ又は複数のユーザグラフィカル表示(UGR)又はオーディオ表示を通じて仮想環境内の1つ又は複数の要素を生成し得る。これらのUGR又はオーディオ表示は、1つ又は複数のカメラ又はマイクロフォン、例えば、ユーザデバイス(例えば、ユーザデバイス(1つ若しくは複数)110、120)と一体化されたカメラ若しくはマイクロフォン、又はユーザデバイスとは別個であるが電気的に接続されているカメラ若しくはマイクロフォンによって取り込まれたリアルタイムのカメラ又はマイクロフォンフィードから作成され得る。UGRは、ユーザどうしが仮想環境でコンテンツを作成するために互いと協調することを支援し得る。例えば、第1のユーザ122が動きを行って、その動きがユーザデバイス(1つ又は複数)110によって検出され得る場合、仮想世界で第1のユーザ112に関連付けられているUGRが、第1のユーザ112によって行われた動きに基づいて移動すること又は1つ若しくは複数の効果を作成することが可能である。同様に、第2のユーザ122が動きを行って、その動きがユーザデバイス(1つ又は複数)120によって検出され得る場合、第2のユーザ122に関連付けられている別のUGRが、第2のユーザ122によって行われた動きに基づいて移動すること又は1つ若しくは複数の効果を作成することが可能である。入力融合システム(1つ若しくは複数)144、及び/又は生成AIシステム(1つ若しくは複数)146は、第1のユーザ112及び第2のユーザ122によって行われた動きに基づいて第1のユーザ112及び/又は第2のユーザ122に提案を提供するためのプロンプトをクリーニング、分析、及び/又は抽出するために1つ又は複数の機械学習モデルを利用し得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、複数のユーザがコンピューティング環境でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成の実行を容易にし得る。
【0036】
図2は、本開示の実施形態に従ってコンテンツ作成データ220を生成するための典型的なシステム200のブロック図を示している。
図1に示されている環境100の協調的コンテンツ作成システム(1つ又は複数)140は、1人又は複数のユーザからユーザデータ210を受信し得る。この実施形態では、協調的コンテンツ作成システム(1つ又は複数)140は、図示及び説明を明確にするために入力融合システム(1つ又は複数)144及び生成AIシステム(1つ又は複数)146のみを伴って示されている。しかしながら、協調的コンテンツ作成システム(1つ又は複数)140は、
図1に示されているシステム(1つ又は複数)のうちのすべて又はいくつかを含み得る。
【0037】
依然として
図2を参照すると、ユーザデータ210は、1人又は複数のユーザが入力又はコマンドを1つ又は複数のユーザデバイス(例えば、ユーザデバイス(1つ又は複数)110、120)に提供した場合に、それらのユーザデバイスによって生成され得る。それらのユーザデバイスは、同期的に又は非同期的に、第1~第nのユーザ入力データ210a~210nを生成し得る。すなわち、2人よりも多いユーザが実質的に同時に入力又はコマンドを提供する場合、ユーザ入力データ210a~210nは同期的に生成されると言われ得る。逆に、2人以上のユーザが実質的に同時に入力又はコマンドを提供しない場合、ユーザ入力データ210a~210nは非同期に生成されると言われ得る。したがって、ユーザ入力データ210a~210nのうちの2つ以上が同期的に協調的コンテンツ作成システム(1つ又は複数)140に送信される場合、前記2つ以上の入力データ210a~210nは、互いと重複する可能性があり、その逆もまた同様である。
図1に関連して上述されているように、ユーザデータ210は、協調的コンテンツ作成システム(1つ若しくは複数)140に直接的に、又はネットワークシステム(1つ若しくは複数)130を介して間接的に送信され得る。
【0038】
一実施形態では、ユーザデータ210は、オーディオデータ(例えば、音声、オーディオファイルなど)、触覚データ、テキストデータ、画像データ、ビデオデータ、又は任意のその他のタイプのデータのうちの任意のものを個々に又は組み合わせて含むことができ、これらは、ユーザデバイス(例えば、ユーザデバイス(1つ又は複数)110、120)に通信可能に接続された1つ又は複数のセンサによって取り込まれること又は感知されることが可能である。代替として、又は追加として、ユーザデータ210は、1人又は複数のユーザによって直接(例えば、コマンドを手でタイプすること、又はテキストファイルをアップロードすることによって)入力され得る。例えば、オーディオデータを入力するケースでは、オーディオデータは、クライアントデバイスの1つ又は複数のマイクロフォンによって取り込まれること又は感知されることが可能である。或いは、オーディオデータは、例えば、事前に録音された音楽及び/又は音声を含むオーディオファイルとして、ユーザによって直接アップロードされ得る。別の例では、入力データは、協調的コンテンツ作成システム(1つ又は複数)140に伝送されるようにユーザデバイスを通じてアップロードされた又はユーザのカメラによって取り込まれた画像ファイルであり得る。オーディオ及び/又は画像ファイルは、そのオーディオ及び/又は画像データ内のあらゆるプロンプトを抽出するために入力融合システム(1つ又は複数)144によって分析され得る。触覚データに関しては、ユーザは、入力デバイス、拡張環境、又は仮想環境上の1つ又は複数の表面を手でタッチし得る。例えば、ユーザは、修正又は操縦されることになる1つ又は複数の表面を物理的に又は仮想的にタッチ又はクリックすることによって入力選択を行い得る。一実施形態では、1人又は複数のユーザが、コンテンツを作成するためにコンピューティング環境内の特定のエリアをペイントすること(例えば、作成又は洗練のための特定のエリアを定義できる2D線又は3D曲線としてブラシストロークをペイントすること)が可能である。
【0039】
依然として
図2を参照すると、協調的コンテンツ作成システム(1つ又は複数)140は、変換システム(1つ又は複数)242、冗長性/重複検出システム(1つ又は複数)244、プロンプト抽出システム(1つ又は複数)246、及びモデル生成システム(1つ又は複数)248を含み得る。一実施形態では、複数のユーザ又は入力デバイスからユーザデータ210を受信すると、入力融合システム(1つ又は複数)144は、1つ又は複数の機械学習モデルを使用してユーザデータ210に対してデータクリーニングを実行し得る。前述の実施形態に説明されているように、ユーザデータ210は、ユーザによって提供された情報の形態又はタイプに応じて、変換システム(1つ又は複数)242によってテキストデータに変換され得る。一実施形態では、変換システム(1つ又は複数)242は、2つ以上の入力デバイスによって実質的に同時に送信されたコマンドがユーザデータ210にあるかどうかを検出し得る。実質的に同時でのユーザコマンドの受信を検出すると、冗長性/重複検出システム(1つ又は複数)244は、AIモデル(例えば、機械学習モデル)が理解又は処理するのに簡単で効率的である様式で入力データ210内の関連情報(例えば、テキスト又は非テキスト情報)をクリーニングし得る。例えば、入力情報のクリーニングは、機械学習モデルに対応するアップロードされたモダリティーに基づいて実行され得る。機械学習モデルは、モデル生成システム(1つ又は複数)248によって生成及び/又はトレーニングされ得る。紛らわしい又は認識できない(若しくは理解できない)コマンドがある場合(例えば、コマンドどうしの重複が不明確なデータをもたらす可能性があるために、又はコマンドの流れを乱す可能性があるノイズに起因して)、冗長性/重複検出システム(1つ又は複数)242は、それらのデータビットを不明確としてフラグ設定すること、及びその特定のコマンド又はメッセージに関する明確性を得るために1つ又は複数の明確化メッセージをユーザに送信することが可能である。入力融合システム(1つ又は複数)144によって利用されるAIモデルは、1つ又は複数のモデル生成システム(1つ又は複数)248によって生成され得る。
【0040】
一実施形態では、モデル生成システム(1つ又は複数)248は、AIモデル(例えば、機械学習モデル)のうちの1つ又は複数を生成及び/又はトレーニングし得る。モデル生成システム(1つ又は複数)248は、入力融合システム(1つ又は複数)144の一部として統合されて入力融合システム(1つ又は複数)144内に存在し得る。或いは、モデル生成システム(1つ又は複数)248は、ネットワークシステム(1つ又は複数)130内に、クラウドサーバ/ネットワーク、又はエッジサーバ/ネットワーク上に配置され得るが、それらに限定されない。モデル生成システム(1つ又は複数)248は、機械学習モデル及び機械学習アプリケーションを生成するためのコンポーネントのライブラリを生成し得る機械学習プラットフォームであり得る。モデル生成システム(1つ又は複数)248は、ユーザが、クラウドベースのネットワークインフラストラクチャーの詳細な知識、又はモデルを構築するためのコードをどのように生成するかの知識を有していなくても機械学習アプリケーションを生成することを可能にし得る。モデル生成システム(1つ又は複数)248は、識別されたデータ、並びにユーザによって提供された所望の予測及びパフォーマンス特性を分析して、機械学習アプリケーション又はモデルを生成するための1つ又は複数のライブラリコンポーネント及び関連付けられているアプリケーションプログラミングインターフェース(API)を選択することができる。機械学習技術は、機械学習モデルの出力をモニタ及び評価して、モデルへのフィードバック及び調整を可能にすることができる。機械学習アプリケーション又はモデルは、スタンドアロンの実行可能コードとしてのエクスポート用にトレーニング、テスト、及びコンパイルされることが可能である。例えば、モデル生成システム(1つ又は複数)248は、アウトペインティングを実行するために利用される1つ又は複数の大規模言語モデル(LLM)及び/又は機械学習モデルを利用し得る。一実施形態では、モデル生成システム(1つ又は複数)248は、その他の機械学習アプリケーション、モデル、及び/又はシステム(例えば、生成AIシステム(1つ又は複数)146)のために使用されることが可能である1つ又は複数のライブラリコンポーネントを生成及び格納し得る。モデル生成システム(1つ又は複数)248は、入力融合システム(1つ又は複数)144が、例えば、ユーザの過去の好みに基づいて推奨を行うことを可能にするプロフィールを生成し得る。生成システム(1つ又は複数)248は、所望のパフォーマンス基準内で所望の結果を達成するために必要なインフラストラクチャーリソースの数及びタイプを検出し得る。
【0041】
一実施形態では、モデル生成システム(1つ又は複数)248によって生成された単一の機械学習モデルが、変換システム(1つ又は複数)242、冗長性/重複検出システム(1つ又は複数)244、及びプロンプト抽出システム(1つ又は複数)246によって同時に又は順次利用され得る。或いは、モデル生成システム(1つ又は複数)248によって生成された複数の機械学習モデルが、変換システム(1つ又は複数)242、冗長性/重複検出システム(1つ又は複数)244、及びプロンプト抽出システム(1つ又は複数)246によって同時に又は順次利用され得る。したがって、入力融合システム(1つ又は複数)144は、1人又は複数のユーザによるコンピューティング環境での同期的な又は非同期的な創造的なセッションを容易にし得る。単一のコマンド又は要求がAIモデルによって一方的な様式で処理されることを一般に必要とする従来のAIプラットフォームとは異なり、本開示のシステム及び方法は、1人又は複数のユーザによって提供される複数の同期的な又は非同期的な入力の処理を容易にする。例えば、コンピューティング環境でのコンテンツ作成に参加する1人又は複数のユーザが、同期的に又は非同期的に入力を提供し得る。協調的コンテンツ作成システム(1つ又は複数)140は、入力のうちのすべてを永続的な様式で同期的に又は非同期的に処理し得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、1つ又は複数の創造的なセッションで1人又は複数のユーザによって入力が提供される前、間、及び/又は後に、1つ又は複数の機械学習モデルに基づいて創造的な効果及び/又は提案を提供した。
【0042】
依然として
図2を参照すると、冗長性/重複検出システム(1つ又は複数)144は、ユーザデータ210内の1つ又は複数の冗長性(例えば、不要な情報)及び/又は重複を検出し得る。例えば、冗長性/重複検出システム(1つ又は複数)144は、ユーザデータ210内で繰り返される単語及びプロンプトを検出することができ、それによって、コンピューティング環境で単一のユーザの又は複数のユーザの間での創造的な作品に価値を付加するコンテンツに関連付けられている情報のみが残っている。例えば、創造的な対話又は会話を行っている3人のユーザがいて、それらのユーザのうちの2人が同じことを言っている場合、冗長性/重複検出システム(1つ又は複数)244は、例えば、モデル生成システム(1つ又は複数)248によって生成された機械学習モデル(1つ又は複数)を利用することによって、冗長性及び/又は重複を検出し、プロンプト抽出システム(1つ又は複数)246が、創造的な作品に価値を付加するプロンプトのみを抽出することを可能にすることができる。一実施形態では、冗長性及び/又は重複の検出は、前述の実施形態に説明されているクリーニング処理の前又は後に実行され得る。加えて、ユーザのうちの何人かが、つなぎ言葉を使用したり、文を繰り返したり、又はコンピューティング環境内の複数のユーザの間での創造的な作品に価値を付加しない音を出したりする場合、冗長性/重複検出システム(1つ又は複数)144は、プロンプト抽出システム(1つ又は複数)246によって、ユーザデータ210内に存在している可能性があるいかなるプロンプトも抽出する前に、ユーザデータ210内の冗長性及び/又は重複を破棄することへ進み得る。この様式では、生成AIシステム(1つ又は複数)146は、創造的なセッションにとって有用であるコマンドのみを受信し、以てユーザ入力に基づいて創造的な効果及び提案を特定する効率及び精度を高めることができる。
【0043】
依然として
図2を参照すると、生成AIシステム(1つ又は複数)146は、提案/効果生成システム(1つ又は複数)252及びモデル生成システム(1つ又は複数)254を含み得る。提案/効果生成システム(1つ又は複数)252は、コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境など)で創造的な効果を生成するためのコンテンツ生成データ220を生成し得る。
図3は、
図1及び
図2に関連して説明されている実施形態のシステム及び方法の機能を容易にし得る例示的な仮想環境を示している。次いで、本開示の実施形態による協調的なコンテンツ作成の特徴の理解を助けるために、
図2の特徴が、
図3での仮想環境300と組み合わせて説明されることになる。もちろん、任意のコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境など)が、本開示の実施形態による協調的なコンテンツ作成を容易にするために適用可能であり得る。
【0044】
一実施形態では、仮想環境300は、生成AIシステム(1つ又は複数)146によって生成されたコンテンツ作成データ220に従ってコンピューティング環境生成システム(例えば、コンピューティング環境生成システム(1つ又は複数)148)によって生成され得る。簡潔さのために、仮想環境300を生成することの詳細は省略されている。コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境など)を生成することの詳細な説明は、同時係属中の米国特許出願第17/006,327号で提供されており、その同時係属出願は、その全体が参照によって本明細書に組み込まれる。仮想環境300は、第1のユーザグラフィカル表示(UGR)302、第2のUGR 304、及び第3のUGR 306を含み得る。UGR 302~306は、第1、第2、及び第3のユーザの画像を取り込む1つ又は複数のカメラから受信されたデータ又は信号に基づいて生成され得る。UGR 302~306は、背景画像を除去する画像除去プロセスに基づいて生成されることが可能であり、これは、ユーザを表す画像のみが仮想環境300に挿入されることを可能にし得る。
【0045】
一実施形態では、仮想環境300は、空間(又は表面)310を含み得る。空間310は、1人又は複数のユーザによる協調的なコンテンツ作成を容易にするために提供され得る。すなわち、1人又は複数のユーザが、例えばUGR 302~306を介して、空間310上で創造的なアクションを実行し得る。例えば、UGR 302~306によって要素308が作成又は修正され得る。一実施形態では、空間は、仮想環境内の創造的な空間であり得る。しかしながら、創造的な空間はまた、仮想環境の選択されたエリア、空間、又はオブジェクトであり得る。例えば、創造的な空間は、壁、実際のアートキャンバス(アート絵画のための)、都市模型、製造品、書籍などであり得、その場合、すべてのコマンドが、その選択されたエリア、空間、又はオブジェクトに関して送信及び処理され得る。
図3にはテーブルが示されているが、本開示の実施形態による協調的なコンテンツ作成を容易にするために任意の空間又は表面が利用され得る。例えば、複数のユーザが協調して要素308(例えば、図面、絵画、文章など)を作成することを可能にするために仮想環境300に「白いキャンバス」が提供され得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、仮想環境300の空間及び表面(例えば、空間310)上で創造的な変化がリアル又はほぼリアルタイムに見られるような方法で、会話を通じて、及び/又はその他の手段を通じて、自然な方法で創造的なセッションが行われることを容易にする又は可能にする。
【0046】
図2を再び参照すると、生成AIシステム(1つ又は複数)146によって生成されるコンテンツ作成データ220は、グラフィカルデータ220a、オーディオデータ220b、テキストデータ220c、及び触覚データ220nを含み得るが、それらに限定されない。例えば、コンテンツ作成データ220は、
図3での仮想環境300で創造的な効果を提供するための情報又は信号を含み得る。一実施形態では、コンテンツ作成データ220は、仮想環境300内の要素308に対する変更を容易にし得る。要素308に対する変更は、要素308の形状、形態、色、明るさ(例えば、光又は光の強さを追加又は除去すること)、寸法などを変更することを含み得る。加えて、要素308は、仮想環境300内のオブジェクト(例えば、備品、建物、車両など)であり得る。さらに、要素308は、楽曲、アート作品の構成、教科書、又は製造品として表現され得るが、それらに限定されない。
【0047】
依然として
図2を参照すると、提案/効果生成システム(1つ又は複数)252は、ユーザに対する1つ又は複数の創造的な提案を生成することができ、その場合、各提案は、特定のユーザの特定の入力に基づいてそのユーザに属し得る。例えば、提案/効果生成システム(1つ又は複数)252は、複数のユーザから受信された入力コマンドに、特定の入力コマンドを提供又は送信する各ユーザに基づいてラベル付けし得る。例えば、ユーザA(例えば、第1のユーザ112)が、コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)での壁の色を赤色に修正するためのコマンドを送信し、ユーザB(例えば、第2のユーザ122)が、壁の色を青色に修正するためのコマンドを送信した場合、提案/効果生成システム(1つ又は複数)252は、それらの2つの別々のコマンドを認識し得る。提案/効果生成システム(1つ又は複数)252は次いで、第1のコマンドをユーザAのものとして、及び第2のコマンドをユーザBのものとしてラベル付けすることができ、ユーザAに対応する1つ又は複数の提案、及びユーザBに対応する異なる提案を生成することができる。もちろん、このプロセスは、その他のタイプのコマンド(例えば、画像、テキスト、触覚など)に同様に適用され得る。
【0048】
一実施形態では、提案/効果生成システム(1つ又は複数)252は、コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)の1つ又は複数の表面又は空間(例えば、空間310)上で1つ又は複数の創造的な効果を容易にするためのコンテンツ作成データ220を生成し得る。この実施形態では、提案/効果生成システム(1つ又は複数)252は、コンピューティング環境のユーザから追加のデータが受信されるにつれて創造的な作品を継続的に洗練し得る。すなわち、提案/効果生成システム(1つ又は複数)252は、ユーザ入力データを持続的に分析して、文脈上の反復に基づいて創造的な効果及び提案を生成することができる。例えば、提案/効果生成システム(1つ又は複数)252が、ユーザによって送信されたコマンドに基づいて特徴のうちのすべて又はほとんどを含むコンピューティング環境で創造的な効果を提供するためのデータ又は信号(例えば、コンテンツ作成データ220)を生成した後に、生成AIシステム(1つ又は複数)146は、創造的なセッションをユーザが継続するにつれて現在の創造的なコンテンツを見直し及び継続的にさらに洗練することができる。さらに、ユーザは、創造的なコンテンツを作成して洗練するための特定のエリアを選択することもできる。例えば、ユーザは、仮想環境300の特定のエリア、オブジェクト、体積、又は空間に対してクリックすること、タッチすること、(例えば、作成若しくは洗練のための特定のエリアを定義するための)2D線若しくは3D曲線としてブラシストロークをペイントすること、テキスト入力すること、又は話しかけることによって選択を行うことができ、その後に自分のコマンドを送信することができる。いくつかの実施形態では、生成AIシステム(1つ又は複数)146は、創造的なセッションが終わった後に、持続的な反復に基づいて、独立して装飾技術を適用し得る。装飾技術は、例えば、色、コントラスト、シャープネス、明るさを改善すること、表面を平滑化すること、オクルージョン又はその他の洗練技術を、最終化された又は準最終化された創造的な作品に適用することを含み得る。同様に、オーディオ作成に関しては、装飾技術は、ノイズ低減、音量増大、トーン強調などを含み得る。
【0049】
一実施形態では、生成AIシステム(1つ又は複数)146は、1人又は複数のユーザが話す際に創造的な作品が実行されるリアルタイムの創造的なセッションを容易にするように構成され得る。しかしながら、いくつかの実施形態では、所望の創造的な作品がさらなる処理を必要とする場合、生成AIシステム(1つ又は複数)146は、完了の推定された時間をユーザに通知することができ、オンライン又はオフラインのどちらかで、必要な時間を取ることへ進むことができる。例えば、ユーザが創造的なセッションを終了した場合、ユーザは、協調的コンテンツ作成システム(1つ又は複数)140が創造的な作品を完成させたということを示す通知を後で受信することができ、ユーザは、見直し及び/又は修正のために完了した創造物にアクセスすることができる。したがって、本開示のシステム及び方法は、入力融合システム(1つ又は複数)144及び生成AIシステム(1つ又は複数)146を利用して、持続的な文脈上の反復を通じてユーザ入力どうしの同期的な又は非同期的な処理を実行して、創造的な協調的セッションの前、間、及び後に創造的な提案及び効果を生成することによって、コンピューティング環境での1人又は複数のユーザのコンテンツ作成及び協調的な対話を著しく改善する。
【0050】
図4は、
図1~
図3に関連して説明されている前述の実施形態に従ってコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)で人工知能を使用して協調的なコンテンツ作成を実行するための典型的な方法400のフローチャートを示している。ステップ402で、協調的コンテンツ作成システム(例えば、協調的コンテンツ作成システム(1つ又は複数)140)は、複数のユーザ(例えば、ユーザ112、122)からマルチユーザ入力コマンドを受信し得る。協調的コンテンツ作成システムは、
図4に示されている方法400を容易にするために、
図1~
図3に関連して説明されている1つ又は複数のシステム(1つ又は複数)及び/又はモジュールを利用し得る。ステップ404で、協調的コンテンツ作成システムは、マルチユーザ入力コマンドをテキストに転写し得る。例えば、協調的コンテンツ作成システムは、テキストの形態で提供されないコマンドに関しては入力コマンドをテキストに変換し得る。これらのコマンドは、例えば、オーディオ入力、触覚入力、画像入力、ジェスチャー入力、又はビデオ入力の形態であり得るが、それらに限定されない。ステップ406で、協調的コンテンツ作成システムは、
図1~
図3に関連した前述の実施形態に従って、変換されたテキストを分析して、冗長性及び重複を検出すること、プロンプトを検出すること、及び/又はテキストデータのラベル付けを実行することが可能である。ステップ408で、協調的コンテンツ作成システムは、分析及び変換されたテキストをクリーニングし得る。すなわち、変換されたテキストに何らかの冗長性及び重複が検出された場合、協調的コンテンツ作成システムは、検出された冗長性及び重複を、変換されたテキストから除去し得る。さらに、必要な場合には、テキストに変換された入力コマンドの形態に基づいて協調的コンテンツ作成システムによってラベル付けが実行され得る。ステップ410で、協調的コンテンツ作成システムは、クリーニング及び変換されたテキストから1つ又は複数のプロンプトを抽出し得る。プロンプトは、コンピューティング環境での創造的な効果の適用を容易にするための情報又はデータを含み得る。コンピューティング環境は、本開示の前述の実施形態に関連して開示されている任意のコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)であり得る。ステップ412で、協調的コンテンツ作成システムは、コンピューティング環境で創造的なアクション又は効果の形態でプロンプトを実行し得る。一実施形態では、本開示の実施形態に従って、コンピューティング世界での複数のユーザによる協調的なコンテンツ作成を容易にするためにステップ404~412で1つ又は複数の機械学習モデルが利用され得る。
【0051】
図5は、本開示の態様による、コンピューティング環境で人工知能を使用して協調的なコンテンツ作成を実行するための典型的なユーザインターフェース500を示している。ユーザインターフェース500は、
図1~
図4に関連して説明されているコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)のうちのいずれでも提供され得る。一実施形態では、ユーザインターフェース500は、入力融合システム(1つ又は複数)144及び/又は生成AIシステム(1つ又は複数)146から受信されたデータに基づいてコンピューティング環境生成システム(1つ又は複数)148によって生成され得る。ユーザインターフェース500は、複数のユーザ502、504、506によって操作又は操縦されるように構成され得る。ユーザ502、504、506のうちの1人又は複数は、
図5に示されているように、ユーザインターフェース510でのタイムライン上のスライダー512を操作し得る。いくつかの実施形態では、スライダー512の代わりに、ボタン、キー、又はその他の適切なグラフィカル若しくはオーディオ要素が利用され得る。タイムラインは、1つ又は複数の時間位置514、516、518を含むことができ、その場合、ユーザは、スライダー512をタイムライン上で前後に位置付けて、特定のタイムピリオドに行われた創造的な効果を見直すこと又は修正することができる。例えば、時間位置514は、あるタイムピリオド(例えば、3:00分)においてある位置(例えば、X、Y、Z座標)に関連付けられているプロンプト(例えば、プロンプト1)を定義し得る。一実施形態では、コンピューティング環境生成システム(1つ又は複数)148は、選択された時間位置(例えば、514、516、又は518)に関連付けられている1つ又は複数のプロンプトを生成し得る。ユーザ(502、504、及び/又は506)は次いで、例えば、コンピューティング環境内のグラフィカル要素として提供され得るプロンプトをクリックすることによって、プロンプトを選択し得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、コンピューティング環境のユーザが、タイムラインを前後にスライドさせ、プロンプト又はコマンドをクリックして、追加コンテンツ作成又は修正を容易にするための永続的な反復機能を実行することを可能にし得る。
【0052】
図6は、本開示の態様による、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための別の典型的な方法600のフローチャートを示している。特に、方法600は、
図1~
図5に関連して説明されている実施形態に従って実行され得る。例えば、方法600は、環境100及びシステム200内の1つ又は複数のシステムによって実行され得る。さらに、方法600は、仮想環境300で実行されること、及びユーザインターフェース500を利用することが可能である。ステップ602で、コンテンツ作成システムは、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信し得る。コンテンツ作成システムは、
図1及び
図2に示されている協調的コンテンツ作成システム(1つ又は複数)140であり得る。一実施形態では、第1のユーザは、第1のユーザ112であり得、第2のユーザは、
図1に示されている第2のユーザ122であり得る。或いは、第1及び第2のユーザは、
図5に示されているユーザ502、504、506のうちのいずれか、又は
図3に示されているUGR 302、304、306によって表されている任意のユーザであり得る。第1の入力又は第2の入力は、
図2に示されているユーザデータ210を含み得る。例えば、第1の入力は、第1のユーザ入力データ210aであり得、第2の入力は、
図2に示されている第2のユーザ入力データ210bであり得る。第1及び第2の入力の各々は、例えば、オーディオデータ(例えば、音声、オーディオファイルなど)、触覚データ、テキストデータ、画像データ、ビデオデータ、又は任意のその他のタイプのデータを含み得る。一実施形態では、第1の入力及び第2の入力は、同期的に又は非同期的に受信され得る。
【0053】
ステップ604で、入力融合システムは、機械学習モデルを使用することによって、第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定する。入力融合システムは、
図1及び
図2に示されている入力融合システム(1つ又は複数)144であり得る。機械学習モデルは、モデル生成システム(1つ若しくは複数)248又はモデル生成システム(1つ若しくは複数)258から生成され得る。一実施形態では、機械学習モデルは、直接的なユーザ入力又は間接的なユーザ入力に基づいて重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することを容易にし得る。一実施形態では、入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方を変換されたデータに変換し得る。この実施形態では、第1の入力又は第2の入力のうちの少なくとも一方は、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み得る。さらに、変換されたデータは、変換されたテキストデータを含み得る。一実施形態では、重複データ又は冗長性データの存在が特定されると、入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方から重複データ又は冗長性データのうちの少なくとも1つを除去し得る。一実施形態では、重複データ又は冗長性データの存在が特定されると、入力融合システムは、変換されたテキストデータから、重複データ又は冗長性データのうちの少なくとも1つに対応するテキストデータを除去し得る。
【0054】
ステップ606で、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムは、プロンプトデータをアクション生成システムに伝送し得る。アクション生成システムは、
図1及び
図2での生成AIシステム(1つ又は複数)146であり得る。
【0055】
ステップ608において、アクション生成システムは、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成し得る。或いは、第1のアクションデータは、第2の機械学習モデルに基づいて生成され得る。一実施形態では、第2の機械学習モデルは、モデル生成システム(1つ又は複数)254又はモデル生成システム(1つ又は複数)248によって生成され得る。
【0056】
ステップ610で、アクション生成システムは、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行し得る。一実施形態では、コンピューティング環境は、仮想環境又は拡張環境のうちの少なくとも一方であり得る。或いは、コンピューティング環境は、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境であり得るが、それらに限定されない。一実施形態では、第1のアクションは、仮想環境又は拡張環境のうちの少なくとも一方の空間内の要素を作成又は修正し得る。さらに、要素は、視覚要素又はオーディオ要素のうちの少なくとも一方であり得る。一実施形態では、コンテンツ作成システムは、第1のユーザ又は第2のユーザに対してグラフィカルインターフェースを表示するための信号を生成し得る。グラフィカルインターフェースは、ユーザインターフェース500であり得る。さらに、コンテンツ作成システムは、第1のユーザ又は第2のユーザから選択コマンドを受信し得る。一実施形態では、選択コマンドは、スライダー512をスライドさせること、又はプロンプトに関連付けられているグラフィカル要素をクリックすることであり得る。さらに、コンテンツ作成システムは、選択コマンドに基づいてコンピューティング環境においてユーザ作成要素を提供し得る。一実施形態では、グラフィカルコントローラは、調整可能なタイムラインである。一実施形態では、選択コマンドは、調整可能なタイムライン上のタイムピリオドを選択し得る。一実施形態では、ユーザ作成要素は、タイムピリオドに基づいてコンテンツ作成システムによって選択され得る。
【0057】
一般に、
図4及び
図6に示されているプロセス、並びに
図1~
図3及び
図5に関連して説明されているシステム及び/又はインターフェースなど、コンピュータで実施可能であると理解される本開示で論じられているいずれのプロセスも、上述されているように、ユーザデバイス(1つ又は複数)110、120、協調的コンテンツ作成システム(1つ又は複数)140、サーバシステム(1つ又は複数)142、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148などのコンピュータシステムの1つ又は複数のプロセッサによって実行されること又はその他の形で実施されることが可能である。1つ又は複数のプロセッサによって実行されるプロセス又はプロセスステップは、オペレーションと呼ばれる場合もある。1つ又は複数のプロセッサは、命令(例えば、ソフトウェア又はコンピュータ可読コード)へのアクセスを有することによって、そのようなプロセスを実行するように構成されることが可能であり、それらの命令は、1つ又は複数のプロセッサによって実行されたときに、それらのプロセスを1つ又は複数のプロセッサに実行させる。命令は、コンピュータシステムのメモリに格納され得る。プロセッサは、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、又は別のタイプの処理ユニットであり得る。
【0058】
ユーザデバイス(1つ若しくは複数)110、120、協調的コンテンツ作成システム(1つ若しくは複数)140、サーバシステム(1つ若しくは複数)142、入力融合システム(1つ若しくは複数)144、生成AIシステム(1つ若しくは複数)146、及びコンピューティング環境生成システム(1つ若しくは複数)148などのコンピュータシステム、又はコンピューティング環境での協調的なコンテンツ作成を容易にするためのオペレーションを実行する任意のその他のシステムは、1つ又は複数のコンピューティングデバイスを含み得る。コンピュータシステムの1つ又は複数のプロセッサが複数のプロセッサとして実装される場合、それらの複数のプロセッサは、単一のコンピューティングデバイスに含まれること、又は複数のコンピューティングデバイスの間で分散されることが可能である。コンピュータシステムが複数のコンピューティングデバイスを含む場合、コンピュータシステムのメモリは、それらの複数のコンピューティングデバイスのうちの各コンピューティングデバイスのそれぞれのメモリを含み得る。
【0059】
図7は、コンピュータシステムのコンピューティングデバイス700の一例を示している。コンピューティングデバイス700は、プロセッサ(1つ又は複数)710(例えば、CPU、GPU、又はその他の処理ユニット)と、メモリ720と、その他のデバイスと通信するための通信インターフェース(1つ又は複数)740(例えば、ネットワークインターフェース)とを含み得る。メモリ720は、RAMなどの揮発性メモリ、並びに/又はROM及びストレージメディアなどの不揮発性メモリを含み得る。ストレージメディアの例は、ソリッドステートストレージメディア(例えば、ソリッドステートドライブ及び/若しくはリムーバブルフラッシュメモリ)、光ストレージメディア(例えば、光ディスク)、並びに/又は磁気ストレージメディア(例えば、ハードディスクドライブ)を含む。前述の命令(例えば、ソフトウェア又はコンピュータ可読コード)は、メモリ720の任意の揮発性の及び/又は不揮発性のメモリコンポーネントに格納され得る。コンピューティングデバイス700は、いくつかの実施形態では、入力デバイス(1つ又は複数)750(例えば、キーボード、マウス、ジョイスティック、コントローラ、又はタッチスクリーン)と、出力デバイス(1つ又は複数)760(例えば、ディスプレイ、ヘッドアップディスプレイ、ARディスプレイ、VRディスプレイ、プリンタ)とをさらに含み得る。例えば、ユーザデバイス(1つ又は複数)110、120がタブレットコンピュータとして具体化され得る場合、ユーザデバイス(1つ又は複数)110、120は、タッチスクリーン及びディスプレイを有し得る。コンピューティングデバイス700の前述の要素どうしは、バス730を通じて互いに接続されることが可能であり、バス730は、1つ又は複数のバスに相当する。いくつかの実施形態では、コンピューティングデバイス700のプロセッサ(1つ又は複数)710は、CPU及びGPUの両方を含む。
【0060】
1つ又は複数のプロセッサによって実行可能な命令は、非一時的コンピュータ可読メディアに格納され得る。そのため、本開示でコンピュータ実施方法が説明されている場合は常に、本開示はまた、命令を格納している非一時的コンピュータ可読メディアを説明しているとして理解されるものとし、それらの命令は、1つ又は複数のプロセッサによって実行されたときに、そのコンピュータ実施方法を実行するように1つ又は複数のプロセッサを構成し、及び/又はそのコンピュータ実施方法を1つ又は複数のプロセッサに実行させる。非一時的コンピュータ可読メディアの例は、RAM、ROM、ソリッドステートストレージメディア(例えば、ソリッドステートドライブ)、光ストレージメディア(例えば、光ディスク)、及び磁気ストレージメディア(例えば、ハードディスクドライブ)を含む。非一時的コンピュータ可読メディアは、コンピュータシステムのメモリの一部であること、又はいかなるコンピュータシステムとも別個であることが可能である。
【0061】
典型的な実施形態の上記の説明では、開示を合理化して様々な発明的側面のうちの1つ又は複数の理解に役立つ目的で、様々な特徴が、単一の実施形態、図、又はその説明にまとめられている場合があるということを理解されたい。しかしながら、この開示方法は、特許請求されている発明が、各請求項に明示的に列挙されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、下記の特許請求の範囲が反映しているように、発明的側面は、単一の前述の開示されている実施形態のすべての特徴よりも少ない中に存在する。それゆえに、詳細な説明に続く特許請求の範囲は、これによってこの詳細な説明に明示的に組み込まれ、それに伴って各請求項は、本開示の個別の実施形態としてそれ自体で成り立つ。
【0062】
さらに、本明細書に説明されているいくつかの実施形態は、その他の実施形態に含まれている特徴のうちのいくつかを含む一方でその他の特徴を含まないが、当業者によって理解されるように、様々な実施形態の特徴どうしの組合せは、本開示の範囲内であること、及び様々な実施形態を形成することを意図されている。例えば、下記の特許請求の範囲では、特許請求されている実施形態のうちのいずれも、任意の組合せで使用されることが可能である。
【0063】
それゆえに、特定の実施形態が説明されてきたが、本開示の趣旨から逸脱することなく、それらの実施形態に対してその他のさらなる修正が行われることが可能であり、すべてのそのような変更及び修正を、本開示の範囲内に収まるものとして主張することが意図されているということを当業者なら認識するであろう。例えば、ブロック図から機能性が追加又は削除されることが可能であり、機能ブロックどうしの間でオペレーションが入れ替えられることが可能である。本開示の範囲内で説明されている方法に対してステップが追加又は削除されることが可能である。
【0064】
上記で開示されている主題は、例示的であって制限的ではないとみなされるべきであり、添付の特許請求の範囲は、本開示の真の趣旨及び範囲内に収まるすべてのそのような修正、強化、及びその他の実施態様を説明することを意図されている。それゆえに、法律によって認められる最大限まで、本開示の範囲は、下記の特許請求の範囲及びそれらの均等物の最も広い許容可能な解釈によって特定されるべきであり、前述の詳細な説明によって制限又は限定されないものとする。本開示の様々な実施態様が説明されてきたが、本開示の範囲内でさらに多くの実施態様及び実装形態が可能であるということは、当業者者にとって明らかであろう。したがって本開示は、制限されるものではない。
【手続補正書】
【提出日】2024-05-27
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピューティング環境でコンテンツを作成することに関し、より詳細には、複数のユーザが、強化された創造的な能力及び/又は効果を伴って仮想環境でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成を実行するためのシステム及び方法に関する。
【背景技術】
【0002】
現在のテクノロジーによって、人間のユーザは、人工知能(AI)を含むコンピュータプログラムに特定のコマンドを(例えば、音声又はタイピングを通じて)提供して、AIが特定のアクティビティーを実行することを可能にすることができる。AIによって実行されるアクティビティーのうちのいくつかは、AIアルゴリズムの特定のレベルのトレーニングを必要とする創造的なアクティビティーである。例えば、既存のAIプラットフォーム(例えば、Siri、ChatGPT、DALL-E、Mid-Journey、Stable Diffusionなど)はすべて、ユーザの要求に応答するコンテンツを作成するために使用されることが可能であるコンピュータモデルをトレーニングする。
【0003】
注目すべきことに、人間は本来、社会的な存在であり、多くの場合、人間の創造的な能力は、共に対話してコンテンツを作成しているときに強化される。しかしながら、現在のシステム及び方法は、人間がAIコンピュータモデルの助けを借りて共同作成することを可能にしない。代わりに、現在のシステム及び方法は、個人レベルで発生する作成に焦点を合わせている。したがって、発展しているAIテクノロジーの助けを借りて複数のユーザの間で協調的に達成されることが可能である作成の社会的な及び創造的な側面は限られている。例えば、現在のAIプラットフォーム(例えば、Siri、ChatGPT、DALL-E、Mid-Journey、Stable Diffusionなど)を利用するテクノロジーは、音声をテキストに変換し、そのテキストをサーバに提出することが可能であり、音声からテキストへの変換は、エッジ又はクラウドで生じることが可能である。サーバは次いで、テキストをAIに送信し得る。或いは、ユーザが1つ又は複数のプロンプトをコンピュータに手でタイプ及び入力して、AIに送信されるようにすることが可能であり、いくつかのシステムは、ユーザの入力に基づいて画像又は様々なタイプのコンテンツを作成することができる。しかしながら、既存のシステムはすべて、単一のユーザからの入力コマンドを取り込んで、それらの入力コマンドを対応するアクションに転換するだけである。すなわち、既存のシステムのいずれも、複数のユーザによってコンテンツを作成することの協調的な及び創造的な態様を可能にしない。
【発明の概要】
【0004】
本開示は、これらの上述の課題及び欠陥のうちの1つ又は複数を克服することを対象としている。本明細書において提供されている背景の説明は、本開示の文脈を全般的に提示するという目的のためのものである。本明細書において別段の記載がない限り、このセクションで説明されている題材は、本出願での特許請求の範囲に対する従来技術であるわけではなく、このセクションに含まれることによって、従来技術であると、又は従来技術を示唆するものであると認められるわけではない。
【0005】
本開示の特定の態様によれば、複数のユーザが、強化された創造的な能力及び/又は効果を伴って仮想環境でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成を実行するためのシステム及び方法が提供される。
【0006】
一態様によれば、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための方法が提供される。この方法は、コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定するステップと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行するステップとを含み得る。
【0007】
その他の態様では、本明細書に説明されている方法のうちのいずれかが、下記のステップ又は特徴のうちのいずれかを含み得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方で重複データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データを除去し得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方で重複データ及び冗長性データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データ及び冗長性データを除去し得る。第1の入力又は第2の入力のうちの少なくとも一方は、テキストデータを含み得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方を変換されたデータに変換し得る。第1の入力又は第2の入力のうちの少なくとも一方は、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み得る。変換されたデータは、変換されたテキストデータを含み得る。入力融合システムは、重複データ又は冗長性データの存在を特定すると、変換されたテキストデータから、重複データ又は冗長性データのうちの少なくとも1つに対応するテキストデータを除去し得る。機械学習モデルは、直接的なユーザ入力又は間接的なユーザ入力に基づいて重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することを容易にし得る。コンピューティング環境は、仮想環境であり得る。コンピューティング環境は、拡張環境であり得る。第1のアクションは、仮想環境の空間内の要素を作成又は修正することであり得る。要素は、視覚要素又はオーディオ要素のうちの少なくとも一方であり得る。第1の入力及び第2の入力は、同期的に受信され得る。第1の入力及び第2の入力は、非同期的に受信され得る。コンテンツ作成システムは、第1のユーザ又は第2のユーザに対してグラフィカルインターフェースを表示するための信号を生成し得る。コンテンツ作成システムは、第1のユーザ又は第2のユーザから選択コマンドを受信し得る。コンテンツ作成システムは、選択コマンドに基づいてコンピューティング環境においてユーザ作成要素を提供し得る。グラフィカルインターフェースは、調整可能なタイムラインを含み得る。選択コマンドは、調整可能なタイムライン上のタイムピリオドを選択し得る。ユーザ作成要素は、タイムピリオドに基づいてコンテンツ作成システムによって選択され得る。
【0008】
一態様によれば、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するためのコンピュータシステムが提供され得る。このコンピュータシステムは、命令を格納しているメモリと、命令を実行してオペレーションを実行するように構成された1つ又は複数のプロセッサとを含み得る。オペレーションは、コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信することと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送することと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成することと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行することとを含み得る。
【0009】
その他の態様では、本明細書に説明されているシステムのうちのいずれかが、下記のステップ又は特徴のうちのいずれかを含み得る。入力融合システムは、重複データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データを除去し得る。入力融合システムは、重複データ及び冗長性データの存在を特定すると、第1の入力又は第2の入力のうちの少なくとも一方から重複データ及び冗長性データを除去し得る。第1の入力又は第2の入力のうちの少なくとも一方は、テキストデータを含み得る。入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方を、変換されたデータに変換し得る。第1の入力又は第2の入力のうちの少なくとも一方は、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み得る。変換されたデータは、変換されたテキストデータを含み得る。入力融合システムは、重複データ又は冗長性データの存在を特定すると、変換されたテキストデータから、重複データ又は冗長性データのうちの少なくとも1つに対応するテキストデータを除去し得る。機械学習モデルは、直接的なユーザ入力又は間接的なユーザ入力に基づいて重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することを容易にし得る。コンピューティング環境は、仮想環境であり得る。コンピューティング環境は、拡張環境であり得る。第1のアクションは、仮想環境の空間内の要素を作成又は修正することであり得る。要素は、視覚要素又はオーディオ要素のうちの少なくとも一方であり得る。第1の入力及び第2の入力は、同期的に受信され得る。第1の入力及び第2の入力は、非同期的に受信され得る。
【0010】
一態様によれば、非一時的コンピュータ可読メディアが、命令を格納することができ、それらの命令は、コンピュータシステムの1つ又は複数のプロセッサによって実行されたときに、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための方法をコンピュータシステムに実行させる。この方法は、コンテンツ作成システムによって、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信するステップと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、又はプロンプトデータのうちの少なくとも1つを検出するステップと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータを検出すると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行するステップとを含み得る。
【0011】
一態様によれば、人工知能を使用してコンピューティング環境でコンテンツ作成を実行するための方法が提供され得る。この方法は、コンテンツ作成システムによって、第1の入力及び第2の入力を受信するステップと、入力融合システムによって、機械学習モデルを使用することによって第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定するステップと、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムによって、プロンプトデータをアクション生成システムに伝送するステップと、アクション生成システムによって、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成するステップと、アクション生成システムによって、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行するステップとを含み得る。
【0012】
その他の態様では、本明細書に説明されている方法のうちのいずれかが、下記のステップ又は特徴のうちのいずれかを含み得る。第1の入力及び第2の入力は、非同期的に受信され得る。第1の入力及び第2の入力は、同期的に受信され得る。
【0013】
前述の全般的な説明及び以降の詳細な説明は両方とも、典型的で説明的なものにすぎず、特許請求されている本発明を制限するものではないということが理解され得る。
【0014】
添付の図面は、本明細書に組み込まれて本明細書の一部を構成しており、本開示の典型的な態様を示し、説明と共に、本開示の原理を説明する役割を果たす。
【図面の簡単な説明】
【0015】
【
図1】本開示のシステム、方法、及びその他の態様が実施され得る例示的な環境の概観を示す図である。
【
図2】本開示の態様による、コンピューティング環境でコンテンツ作成データを生成するための典型的なシステムのブロック図である。
【
図3】
本開示の態様による、コンピューティング環境で人工知能を使用して協調的なコンテンツ作成を実行する典型的な方法のフローチャートである。
【
図4】
本開示の態様による、人工知能を使用して協調的なコンテンツ作成を実行する典型的なコンピューティング環境を示す図である。
【
図5】本開示の態様による、コンピューティング環境で人工知能を使用して協調的なコンテンツ作成を実行する典型的なユーザインターフェースを示す図である。
【
図6】本開示の態様による、コンピューティング環境で協調的なコンテンツ作成を実行するための別の典型的な方法のフローチャートである。
【
図7】本明細書に説明されている技術を実行し得るコンピュータシステムを示す図である。
【発明を実施するための形態】
【0016】
以降の実施形態では、複数のユーザが、強化された創造的な能力及び/又は効果を伴ってコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成を実行するためのシステム及び方法について説明する。上述されているように、既存のシステムは、個人レベルでAI機能を利用する。すなわち、ユーザは、1つ又は複数の入力コマンドをAIシステムに提供することができ、AIシステムは、限定された及び一方向のアプローチで解決策又は応答を提供する。したがって現在、人工知能プラットフォームを利用するコンピューティング環境で複数のユーザによる協調的なコンテンツ作成を容易にするための技術的な解決策はない。したがって、自然な方法で複数のユーザの間での共同作成を可能にすることができる協調的なレベルでの創造的な機能を達成することに対する多方向の同期的なアプローチを容易にすることができるシステム及び方法に対する必要性が存在する。複数のユーザの間でのそのような協調的な対話は、ユーザどうしが互いの間で単に会話をしているという感覚を生み出すことができる。すなわち、本開示のシステム及び方法は、変換中に重要なキーワードを自動的に及び直観的に検出して、それらのキーワードをプロンプトに変換することができ、それらのプロンプトは、ユーザによって所望されるコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)での創造的なアクションに転換されることが可能である。加えて、これらのシステム及び方法は、1つ又は複数の創造的なセッション中に、単一の又は複数のユーザから、同期的に又は非同期的に、複数の入力の形態を検出して、ユーザ入力の永続的なAI支援処理を容易にして、個性的な又は協調的なコンテンツ作成のための反復的で創造的な提案を提供することができる。したがって、本開示のシステム及び方法は、直観的及び効率的なプロセス、並びに、トレーニングされた機械学習システム又はモジュールによって駆動される創造的なセッションを非従来型の方法で可能にするためのインターフェースを提供することによってコンピューティング環境での1人又は複数のユーザのコンテンツ作成及び協調的な対話を著しく改善する。
【0017】
以降の実施形態では、複数のユーザが、人工知能ベースの手続きテクノロジーを使用してコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)でコンテンツを同期的に又は非同期的に共同作成することを可能にするためのシステム及び方法について説明する。本開示の態様によれば、これらのシステム及び方法は、1人又は複数のユーザからの入力データの取り込みを容易にし得る。入力データは、同期的に又は非同期的に、オーディオデータ(例えば、音声、オーディオファイルなど)、触覚データ、テキストデータ、画像データ、ビデオデータ、又は任意のその他のタイプのデータを含み得るが、それらに限定されない。本開示のシステム及び方法は、データをテキストデータに変換すること、データを分析すること、データをクリーニングすること、データからプロンプトを抽出すること、及びプロンプトをコンピューティング環境での創造的な効果を有する創造的なアクションに変換して創造的な作品又はコンテンツを生成することを容易にし得る。本開示の態様によれば、データをクリーニングするためのプロセスは、例えば、テキストから不要なデータを除去すること(例えば、重複及び冗長性を除去すること)を含み得る。創造的な効果は、グラフィカルであり得、これは、コンピューティング環境で形状、形態、色、明るさ(例えば、光又は光の強さを追加又は除去すること)、寸法、要素(例えば、備品)などでの変更を行うために1つ又は複数のグラフィカル画像を転換することを含み得る。追加として、又は代替として、創造的な効果は、楽曲、アート作品の構成、教科書、ビデオゲームの作成、建築設計、書籍の作成、物品の製造、及び/又はグラフィックデザイン(例えば、企業用の仮想環境の作成)に基づき得る。
【0018】
コンピューティング環境又はコンピューティング環境の特定のエリアは、創造的な効果が適用され得る白いキャンバスと同様に機能し得る。そのような創造的な効果は、リアルタイムに又はほぼリアルタイムに表面又は空間のうちの1つ又は複数で提供され得る。加えて、本開示のシステム及び方法は、1つ又は複数の創造的な提案をコンピューティング環境のユーザに提供することができ、その場合、各提案は、特定のユーザの特定の入力に基づいてそのユーザを対象とし得る。したがって、本開示のシステム及び方法は、1つ又は複数の機械学習モデルを利用することによって、1人又は複数のユーザがコンピューティング環境でコンテンツを作成してその他のユーザと対話することができる方法を改善する。
【0019】
次いで本説明の主題が、以降で添付の図面を参照しながら、より完全に説明されることになり、それらの図面は、この説明の一部を形成しており、例示として、特定の典型的な実施形態を示している。本明細書において「典型的」として説明されている実施形態又は実施態様は、例えば、その他の実施形態又は実施態様よりも好ましい又は有利であると解釈されるべきではなく、むしろ、実施形態(1つ又は複数)が「例示的な」実施形態(1つ又は複数)であるということを反映すること又は示すことが意図されている。主題は、様々な異なる形態で具体化されることが可能であり、そのため、対象とされている又は特許請求されている主題は、本明細書に記載されているいずれの典型的な実施形態にも限定されないと解釈されることを意図されており、典型的な実施形態は、例示となるように提供されているにすぎない。同様に、特許請求されている又は対象とされている主題に関する合理的に広い範囲が意図されている。数ある中でも、例えば、主題は、方法、デバイス、コンポーネント、又はシステムとして具体化され得る。したがって、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せ(ソフトウェア自体は除く)の形態を取り得る。そのため、以降の詳細な説明は、限定的な意味で理解されることを意図されているものではない。
【0020】
本明細書及び特許請求の範囲の全体を通じて、用語は、明示的に記載されている意味を超えて、文脈で示唆又は暗示されるニュアンスの意味を有する場合がある。同様に、本明細書で使用されている「一実施形態で」というフレーズは、必ずしも同じ実施形態を指すとは限らず、本明細書で使用されている「別の実施形態で」というフレーズは、必ずしも異なる実施形態を指すとは限らない。例えば、特許請求されている主題は、全体的に又は部分的に典型的な実施形態どうしの組合せを含むということが意図されている。
【0021】
以降で使用されている専門用語は、たとえその用語が本開示の特定の具体的な例の詳細な説明と共に使用されているとしても、その用語の最も広い合理的な様式で解釈され得る。実際に、特定の用語は、以降で強調される場合さえあるが、何らかの制限された様式で解釈されることを意図されているいかなる専門用語も、この詳細な説明のセクションでは、そのようなものとして明白に及び具体的に定義されることになる。前述の全般的な説明及び以降の詳細な説明は両方とも、典型的で説明的なものにすぎず、特許請求されている特徴を制限するものではない。
【0022】
本開示では、「~に基づく」という用語は、「~に少なくとも部分的に基づく」を意味する。単数形の「a」、「an」、及び「the」は、複数形の指示対象を含む。ただし、文脈上そうではないと示す場合は除く。「exemplary(典型的な)」という用語は、「ideal(理想的な)」ではなく、「example(例示的な)」の意味で使用されている。「or(又は)」という用語は、包括的であることを意図されており、列挙されている項目のうちのどちらか、いずれか、いくつか、又はすべてを意味する。「comprises(備える)」、「comprising(備える)」、「includes(含む)」、「including(含む)」という用語、又はそれらのその他の変形は、非排他的な包含を説明することを意図されており、それによって、要素のリストを備えるプロセス、方法、又は製品は、必ずしもそれらの要素のみを含むとは限らず、明示的にリストアップされていない、又はそのようなプロセス、方法、物品、若しくは装置に固有のその他の要素を含み得る。「実質的に」及び「概して」などの相対的な用語は、記載されている又は理解される値の±10%のあり得る変動を示すために使用されている。
【0023】
ここで添付の図面を参照すると、
図1は、本開示の1つ又は複数の実施形態による例示的な環境(又はシステム(1つ又は複数))100の概観を示している。環境100は、例えば、第1のユーザデバイス(1つ又は複数)110及び第2のユーザデバイス(1つ又は複数)120を含むことができ、これらは、ネットワークシステム(1つ又は複数)130及び協調的コンテンツ作成システム(1つ又は複数)140と通信するように構成される。環境100では2つのユーザデバイス(1つ又は複数)110及び120が示されているが、本開示に従って、同期的に又は非同期的に、ネットワークシステム(1つ又は複数)130及び/又は協調的コンテンツ作成システム(1つ又は複数)140と通信するために、並びに複数のユーザの協調的なコンテンツ作成に参加するために、追加のユーザデバイスが環境100で提供され得る。
【0024】
本開示の態様によれば、ネットワークシステム(1つ又は複数)130は、有線又はワイヤレスネットワークを含む1つ又は複数のネットワークを定義し得る。ネットワークシステム(1つ又は複数)130は、例えば、インターネット及び/又は1つ若しくは複数のクラウドネットワークを含み得る。さらに、ネットワークシステム(1つ又は複数)130は、インターネットなどのパブリックネットワーク、イントラネットなどのプライベートネットワーク、又はそれらの組合せを含むことができ、TCP/IPベースのネットワーキングプロトコルを含むがそれらに限定されない現在利用可能な又は後に開発される様々なネットワーキングプロトコルを利用し得る。ネットワークシステム(1つ又は複数)130は、ユーザデバイス(1つ又は複数)110及び120と協調的コンテンツ作成システム(1つ又は複数)140との間のデータの通信を可能にするためにユーザデバイス(1つ又は複数)110及び120を協調的コンテンツ作成システム(1つ又は複数)140に通信可能に結合するように構成され得る。ネットワークシステム(1つ又は複数)130は一般に、1つのデバイスから別のデバイスへ情報を通信するための任意の形態のコンピュータ可読又はマシン可読メディアを採用することを可能にされ得る。ネットワークシステム(1つ又は複数)130は、コンピューティングデバイスどうしの間を情報が移動し得る通信方法を含み得る。ネットワークシステム(1つ又は複数)130は、パブリック又はプライベートネットワーク接続とみなされることが可能であり、例えば、仮想プライベートネットワーク、又はパブリックインターネット上で採用される暗号化若しくはその他のセキュリティーメカニズムなどを含み得る。
【0025】
一実施形態では、ユーザデバイス(1つ又は複数)110及び120は、協調的コンテンツ作成システム(1つ若しくは複数)140と直接的に、又はネットワークシステム(1つ若しくは複数)130若しくはその他の利用可能な通信チャネルを通じて間接的に通信し得る。ユーザデバイス(1つ又は複数)110及び120が協調的コンテンツ作成システム(1つ又は複数)140と直接通信するケースでは、協調的コンテンツ作成システム(1つ又は複数)140は、例えば、上記のネットワークシステム(1つ又は複数)130に関連して説明されている1つ又は複数の通信方法を介した通信を容易にするように実装及び構成され得る。
【0026】
本開示の態様によれば、協調的コンテンツ作成システム(1つ又は複数)140は、サーバシステム(1つ又は複数)142、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148を含み得る。いくつかの実施形態では、協調的コンテンツ作成システム(1つ又は複数)140は、本開示の態様に従って、サーバシステム(1つ又は複数)142、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148のいくつかの又はすべての機能を実行するように構成され得る1つ又は複数のサーバであり得る。システム(1つ又は複数)は、本開示では、様々な電子及びコンピュータシステムを含むことができる様々な実施態様を含み得る。本明細書に説明されている1つ又は複数の実施態様は、2つ以上の特定の相互接続されたハードウェアモジュール又はデバイスを、モジュールどうしの間で及びモジュールを通じて通信されることが可能である関連した制御及びデータ信号と共に使用して、又は特定用途向け集積回路の部分として、機能を実施し得る。したがって、システム(1つ又は複数)は、ソフトウェア、ファームウェア、及びハードウェアの実施態様を包含する。
【0027】
本開示の態様によれば、サーバシステム(1つ又は複数)142は、クラウドサーバ/ネットワーク、エッジサーバ/ネットワーク上に、ネットワークシステム(1つ若しくは複数)130内に、及び/又は、サーバシステム(1つ若しくは複数)142が協調的コンテンツ作成システム(1つ若しくは複数)140と直接的若しくは間接的に統合され得る場所に配置され得る1つ又は複数のデータサーバ又はデータベースを含み得る。サーバシステム(1つ又は複数)142は、本開示の実施形態に従って、協調的なコンテンツ作成の実行を容易にするために、ユーザデバイス(1つ若しくは複数)110及び/又はネットワークシステム(1つ若しくは複数)130から受信されたデータを格納すること及び処理することが可能である。加えて、サーバシステム(1つ又は複数)142は、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148との間でデータ又はコマンド信号を受信及び伝送して、協調的なコンテンツ作成の実行を容易にすることができる。
【0028】
本開示の態様によれば、入力融合システム(1つ又は複数)144は、第1のユーザ112及び第2のユーザ122から1つ又は複数の入力又はコマンドを受信し得る。上述されているように、環境100は、2人よりも多いユーザ又は2つよりも多いユーザデバイスを含み得る。したがって、入力融合システム(1つ又は複数)144は、2人よりも多いユーザ又は2つよりも多いユーザデバイスから入力及びコマンドを受信し得る。或いは、入力融合システム(1つ又は複数)144は、協調セッションのタイプに応じて第1のユーザ112又は第2のユーザ112のみから1つ又は複数の入力又はコマンドを受信し得る。すなわち、協調的コンテンツ作成システム(1つ又は複数)140は、単一ユーザ作成セッション又は複数ユーザ作成セッションを容易にし得る。本開示では、入力及びコマンドという用語は、言い換え可能に使用され得る。ユーザ入力又はコマンドは、例えば、オーディオ入力、触覚入力、テキスト入力、画像入力、ジェスチャー入力、又はビデオ入力を含み得るが、それらに限定されない。すなわち、例えば、環境100内のユーザデバイスに接続又は統合されたセンサ又はその他の適切な手段を介して受け入れ可能である任意のタイプのデータが、本開示によるユーザ入力又はコマンドであるとみなされ得る。ユーザコマンドは、直接的又は間接的なコマンドであり得る。例えば、直接的なコマンドは、1人又は複数のユーザによって直接入力されているコマンド(例えば、選択されたエリアに特定の色を変更すること)を実行するように協調的コンテンツ作成システム(1つ又は複数)140に指示するように構成され得るコマンドを指し得る。逆に、間接的なコマンドは、コマンド(例えば、ユーザによって言われていること)から情報を推測して解釈し及び抽出するように協調的コンテンツ作成システム(1つ又は複数)140に指示するように構成され得るコマンドを指し得る。例えば、直接的なコマンドは、協調的コンテンツ作成システム(1つ又は複数)140による学習、分析、及び解釈をあまり必要としない場合がある。なぜなら、ユーザは、単に作成の特定のエリアを選択してコマンドを直接送信することができるからである。しかしながら、間接的なコマンドは、より多くのトレーニング(例えば、機械学習モデルのトレーニング)を必要とする場合がある。なぜなら、協調的コンテンツ作成システム(1つ又は複数)140は、データを取り込んで、AI又は機械学習モデルによって解釈されているものに可能な限り近いものであり得るクリーンなコマンドを抽出しようとするからである。例えば、間接的なコマンドは、1人又は複数のユーザが自分たちの間での創造的なセッションで対話をする際に主に使用される場合があり、その創造的なセッションでは、ユーザたちは、自分たちの創造的な作品であると彼らが考えることに関してブレインストーミングしている場合がある。或いは、単一のユーザが単独で創造的なセッションで発言して、創造的な作品であると自分が考え得ることに関してブレインストーミングする場合がある。
【0029】
一実施形態では、第1のユーザ112及び/又は第2のユーザ122はそれぞれ、第1のユーザデバイス(1つ又は複数)110及び第2のユーザデバイス(1つ又は複数)120に同期的に又は非同期的にコマンドを入力し得る。入力融合システム(1つ又は複数)144は、直接的に、又はネットワークシステム(1つ若しくは複数)130及び/若しくはサーバシステム(1つ若しくは複数)142を介して間接的に、ユーザデバイス(1つ又は複数)110及び120からの入力コマンドを受信し得る。入力融合システム(1つ又は複数)144は次いで、入力コマンドをテキストデータに転写又は変換し得る。テキストデータの形態で受信され得る入力コマンドに関しては、入力融合システム(1つ又は複数)144によるテキストデータへの変換は必要ではない場合がある。入力融合システム(1つ又は複数)144は次いで、テキストデータのセマンティクスを取り込むこと(例えば、会話の文脈を理解すること)、重複及び/若しくは冗長性(例えば、不要な情報)を検出すること、テキストデータにラベル付けすること、並びに/又はプロンプトを検出することによって、入力コマンドのタイプ又は形態に応じて、変換されたテキストデータ又は受信されたテキストデータを分析し得る。入力融合システム(1つ又は複数)144は次いで、例えば、検出された重複及び/又は冗長性を除去することによって、分析されたテキストデータを、必要な場合には、クリーニング又は修正し得る。入力融合システム(1つ又は複数)144は次いで、分析されてクリーニングされたテキストデータから、もしもあれば、プロンプトを抽出することへ進み得る。いくつかの実施形態では、入力融合システム(1つ又は複数)144は、トレーニングされた機械学習モデルを利用し得る。入力融合システム(1つ又は複数)144は次いで、抽出されたクリーンなプロンプトを生成AIシステム(1つ又は複数)148に送信し得る。いくつかの実施形態では、データの変換又は転写は、ユーザデバイス(1つ又は複数)110、120上で行われ得る。したがって、ユーザデバイス(1つ又は複数)110、120は、オーディオ又はその他のタイプのデータのテキストへの変換を可能にするコンピュータコードを実施して、転写されたテキストを協調的コンテンツ作成システム(1つ又は複数)140に送信することができる。或いは、上述されているように、データの転写又は変換は、入力融合システム(1つ又は複数)142によって協調的コンテンツ作成システム(1つ又は複数)140内で行われることが可能であり、それによって入力デバイス(1つ又は複数)110、120は、いかなるデータの転写又は変換も実行する必要がない場合がある。或いは、入力融合システム(1つ又は複数)142の機能のうちのすべては、テキストの転写又は変換、入力若しくはコマンドデータの分析、及び/又は、入力若しくはコマンドデータのクリーニングを含めて、生成AIシステム(1つ又は複数)146によって実行され得る。
【0030】
一実施形態では、ラベル付けプロセスは、画像データ、触覚データ、ビデオデータ、オーディオデータ、及び/又はその他のタイプのデータなど、任意のタイプの入力データ又はコマンドデータに対して入力融合システム(1つ又は複数)144によって実行され得る。テキストデータを含まないデータに関しては、ラベル付けプロセスは、コマンドのテキストへの転写の一種と考えられることが可能である。例えば、空間での月を含む、ユーザ(例えば、ユーザ112、122)によって提供された画像が入力融合システム(1つ又は複数)144によって受信された場合、入力融合システム(1つ又は複数)144は、実際のプロンプト及び創造的な作品に変換されることが可能である、例えば、月の、輝く、白い、暗い空間などを含むラベルを生成し得る。別の例として、クラシック音楽の演奏がアップロードされる音楽作成セッションで、入力融合システム(1つ又は複数)144は、実際のプロンプト及び創造的な作品に変換されることが可能である、例えば、和声音楽、クラシック音楽、ソフトミュージックなどを含むラベルを生成し得る。テキストで受信されるデータに関しては、上述のラベル付けプロセスを実行する代わりに、分類プロセスが同様に実行され得る。例えば、空間での月を含むテキストデータが入力融合システム(1つ又は複数)144によって受信された場合、入力融合システム(1つ又は複数)144は、そのテキストデータを、例えば、月の、輝く、白い、暗い空間などで分類し得る。一実施形態では、入力融合システム(1つ又は複数)144は、1人又は複数のユーザから同期的にテキストデータ及び非テキストデータの両方を受信し得る。この実施形態では、入力融合システム(1つ又は複数)144は、転写及び分類の両方を同時に又は順次実行し得る。一例では、ラベル付け又は分類プロセスは、受信された入力の作者(例えば、ユーザ112又は122)を識別するテキストを追加することを含む。そのような識別は、対応するユーザのユーザデバイスを認識すること、又はユーザの音声を、若しくはユーザの画像を(例えば、顔認識を通じて)認識することなどのうちの1つ又は複数によって実行され得る。加えて、入力融合システム(1つ又は複数)144は、テキストデータから分析された情報を、非テキストデータから分析された情報と比較して、実際のプロンプト及び創造的な作品に変換されることが可能であるラベル又はカテゴリーを生成することができる。例えば、非テキストデータから識別された1つ又は複数のラベルと、テキストデータから識別された1つ又は複数の分類とが、入力融合システム(1つ又は複数)144によって共に処理されて、プロンプト及び創造的な作品への変換を行うことが可能である。上述されている変換及び分類プロセスは、共に同時に又は順次実行され得る。
【0031】
本開示の態様によれば、生成AIシステム(1つ又は複数)148は、入力融合システム(1つ又は複数)144から1つ又は複数のプロンプトを受信し得る。一実施形態では、生成AIシステム(1つ又は複数)148は、入力融合システム(1つ又は複数)144から受信された1つ又は複数のプロンプトに基づいて創造的な提案のうちの1つ又は複数を生成し得る。各提案は、特定のユーザの特定の入力に基づいて特定のユーザに関連し得る。例えば、第1のユーザ112が、壁の色を赤に修正するためのコマンドを送信し、第2のユーザ122が、壁の色を青に修正するためのコマンドを送信した場合、生成AIシステム(1つ又は複数)148は、入力融合システム(1つ又は複数)144から受信されたプロンプトに基づいてそれらのコマンドの違いを認識し得る。生成AIシステム(1つ又は複数)146は次いで、第1のコマンドを第1のユーザ112のものとして、及び第2のコマンドを第2のユーザ122のものとしてラベル付けし得る。生成AIシステム(1つ又は複数)146は次いで、第1のユーザ112に対応する第1の提案、及び第2のユーザ122に対応する第2の提案を用意することへ進み得る。もちろん、提案を用意するための同じ又は類似のプロセス又は方法は、様々なその他のタイプのユーザコマンド(例えば、画像、テキスト、触覚など)に適用され得る。生成AIシステム(1つ又は複数)146は次いで、提案をコンピューティング環境生成システム(1つ又は複数)148に伝送し得る。
【0032】
一実施形態では、生成AIシステム(1つ又は複数)146は、1つ又は複数の生成AIモデルを含むことができ、それらの生成AIモデルは、入力融合システム(1つ又は複数)144から受信された入力データを利用すること、及び生成AIシステム(1つ又は複数)146の機能を容易にするために使用され得る出力データを生成することができる。生成AIモデルは、例えば、コンテンツを表して処理するために使用される様々なAIアルゴリズムの組合せを含み得る。さらに、1つ又は複数の創造的な提案を生成するために、生成AIモデルは、テキストを生成するための自然言語処理技術を利用して、文字、句読点、及び単語などの生の文字を、文、品詞、エンティティー、及びアクションに変換することができ、それらは次いで、複数のエンコーディング技術を使用してベクトルとして表され得る。加えて、画像は、生成AIシステム(1つ又は複数)146によって1つ又は複数の創造的な提案として使用されるように、同様にベクトルとして表現される様々な視覚的な要素に変換され得る。一実施形態では、クエリー又はプロンプトに応答して新たなコンテンツを生成するために特定のニューラルネットワークが使用され得る。生成AIシステム(1つ又は複数)146によって創造的な提案のうちの1つ又は複数を生成するために生成逆数ネットワーク(GAN)及び変分オートエンコーダ(VAE)などの技術が利用され得る。一実施形態では、本開示のAIアルゴリズムは、AIシステム(1つ又は複数)146でのAIアルゴリズムの適用よりも前に、事前に特定された数のデータセットを用いてトレーニングされ得る。加えて、AIアルゴリズムは、環境100で実行される創造的なセッション中に学習を継続し得る。例えば、AIシステム(1つ又は複数)146は、それぞれの創造的なセッションの後に各ユーザの創造的なスタイルから学習し得る。AIシステム(1つ又は複数)146は次いで、機械学習を通じてAIアルゴリズムを改善することができ、それによってAIシステム(1つ又は複数)146は、より速く及び/又はよりよい品質で創造的な提案を生成及び提供し得る。
【0033】
本開示の態様によれば、コンピューティング環境生成システム(1つ又は複数)148は、環境100内のユーザ112、122がコンテンツを作成する目的で協調するために利用し得る1つ又は複数のコンピューティング環境の生成を容易にし得る。コンピューティング環境は、例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境を含み得るが、それらに限定されない。コンピューティング実施形態でのコンピューティング環境及びユーザ協調の例が、同時係属中の米国特許出願第17/006,327号にも開示されており、その開示全体は、いかなる免責事項、否認、及び矛盾も除いて、参照によって本明細書に組み込まれる。さらに、その同時係属出願に開示されている機械学習アルゴリズムのうちのいずれも、個別に、又は入力融合システム(1つ若しくは複数)144及び/若しくは生成AIシステム(1つ若しくは複数)148によって使用される機械学習モデルと組み合わせて使用されるように組み込まれ得る。
【0034】
一実施形態では、コンピューティング環境生成システム(1つ又は複数)148は、すでに既存の仮想環境のエリアでの1つ又は複数のコンピューティング環境の生成を容易にし得る。
【0035】
一実施形態では、コンピューティング環境生成システム(1つ又は複数)148は、例えば、ユーザコマンド、プロンプト、及び/又は提案をユーザデバイス(1つ若しくは複数)110及び120、入力融合システム(1つ若しくは複数)144、並びに/又は生成AIシステム(1つ若しくは複数)146から受信し得る。コンピューティング環境生成システム(1つ又は複数)148は次いで、環境100のユーザどうしがコンテンツを作成する目的で互いと対話するために利用し得るグラフィカル及び/又はオーディオインターフェースを生成し得る。例えば、コンピューティング環境生成システム(1つ又は複数)148は、1つ又は複数のユーザグラフィカル表示(UGR)又はオーディオ表示を通じて仮想環境内の1つ又は複数の要素を生成し得る。これらのUGR又はオーディオ表示は、1つ又は複数のカメラ又はマイクロフォン、例えば、ユーザデバイス(例えば、ユーザデバイス(1つ若しくは複数)110、120)と一体化されたカメラ若しくはマイクロフォン、又はユーザデバイスとは別個であるが電気的に接続されているカメラ若しくはマイクロフォンによって取り込まれたリアルタイムのカメラ又はマイクロフォンフィードから作成され得る。UGRは、ユーザどうしが仮想環境でコンテンツを作成するために互いと協調することを支援し得る。例えば、第1のユーザ122が動きを行って、その動きがユーザデバイス(1つ又は複数)110によって検出され得る場合、仮想世界で第1のユーザ112に関連付けられているUGRが、第1のユーザ112によって行われた動きに基づいて移動すること又は1つ若しくは複数の効果を作成することが可能である。同様に、第2のユーザ122が動きを行って、その動きがユーザデバイス(1つ又は複数)120によって検出され得る場合、第2のユーザ122に関連付けられている別のUGRが、第2のユーザ122によって行われた動きに基づいて移動すること又は1つ若しくは複数の効果を作成することが可能である。入力融合システム(1つ若しくは複数)144、及び/又は生成AIシステム(1つ若しくは複数)146は、第1のユーザ112及び第2のユーザ122によって行われた動きに基づいて第1のユーザ112及び/又は第2のユーザ122に提案を提供するためのプロンプトをクリーニング、分析、及び/又は抽出するために1つ又は複数の機械学習モデルを利用し得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、複数のユーザがコンピューティング環境でコンテンツを共同作成することを可能にするために人工知能を使用して協調的なコンテンツ作成の実行を容易にし得る。
【0036】
図2は、本開示の実施形態に従ってコンテンツ作成データ220を生成するための典型的なシステム200のブロック図を示している。
図1に示されている環境100の協調的コンテンツ作成システム(1つ又は複数)140は、1人又は複数のユーザからユーザデータ210を受信し得る。この実施形態では、協調的コンテンツ作成システム(1つ又は複数)140は、図示及び説明を明確にするために入力融合システム(1つ又は複数)144及び生成AIシステム(1つ又は複数)146のみを伴って示されている。しかしながら、協調的コンテンツ作成システム(1つ又は複数)140は、
図1に示されているシステム(1つ又は複数)のうちのすべて又はいくつかを含み得る。
【0037】
依然として
図2を参照すると、ユーザデータ210は、1人又は複数のユーザが入力又はコマンドを1つ又は複数のユーザデバイス(例えば、ユーザデバイス(1つ又は複数)110、120)に提供した場合に、それらのユーザデバイスによって生成され得る。それらのユーザデバイスは、同期的に又は非同期的に、第1~第nのユーザ入力データ210a~210nを生成し得る。すなわち、2人よりも多いユーザが実質的に同時に入力又はコマンドを提供する場合、ユーザ入力データ210a~210nは同期的に生成されると言われ得る。逆に、2人以上のユーザが実質的に同時に入力又はコマンドを提供しない場合、ユーザ入力データ210a~210nは非同期に生成されると言われ得る。したがって、ユーザ入力データ210a~210nのうちの2つ以上が同期的に協調的コンテンツ作成システム(1つ又は複数)140に送信される場合、前記2つ以上の入力データ210a~210nは、互いと重複する可能性があり、その逆もまた同様である。
図1に関連して上述されているように、ユーザデータ210は、協調的コンテンツ作成システム(1つ若しくは複数)140に直接的に、又はネットワークシステム(1つ若しくは複数)130を介して間接的に送信され得る。
【0038】
一実施形態では、ユーザデータ210は、オーディオデータ(例えば、音声、オーディオファイルなど)、触覚データ、テキストデータ、画像データ、ビデオデータ、又は任意のその他のタイプのデータのうちの任意のものを個々に又は組み合わせて含むことができ、これらは、ユーザデバイス(例えば、ユーザデバイス(1つ又は複数)110、120)に通信可能に接続された1つ又は複数のセンサによって取り込まれること又は感知されることが可能である。代替として、又は追加として、ユーザデータ210は、1人又は複数のユーザによって直接(例えば、コマンドを手でタイプすること、又はテキストファイルをアップロードすることによって)入力され得る。例えば、オーディオデータを入力するケースでは、オーディオデータは、クライアントデバイスの1つ又は複数のマイクロフォンによって取り込まれること又は感知されることが可能である。或いは、オーディオデータは、例えば、事前に録音された音楽及び/又は音声を含むオーディオファイルとして、ユーザによって直接アップロードされ得る。別の例では、入力データは、協調的コンテンツ作成システム(1つ又は複数)140に伝送されるようにユーザデバイスを通じてアップロードされた又はユーザのカメラによって取り込まれた画像ファイルであり得る。オーディオ及び/又は画像ファイルは、そのオーディオ及び/又は画像データ内のあらゆるプロンプトを抽出するために入力融合システム(1つ又は複数)144によって分析され得る。触覚データに関しては、ユーザは、入力デバイス、拡張環境、又は仮想環境上の1つ又は複数の表面を手でタッチし得る。例えば、ユーザは、修正又は操縦されることになる1つ又は複数の表面を物理的に又は仮想的にタッチ又はクリックすることによって入力選択を行い得る。一実施形態では、1人又は複数のユーザが、コンテンツを作成するためにコンピューティング環境内の特定のエリアをペイントすること(例えば、作成又は洗練のための特定のエリアを定義できる2D線又は3D曲線としてブラシストロークをペイントすること)が可能である。
【0039】
依然として
図2を参照すると、協調的コンテンツ作成システム(1つ又は複数)140は、変換システム(1つ又は複数)242、冗長性/重複検出システム(1つ又は複数)244、プロンプト抽出システム(1つ又は複数)246、及びモデル生成システム(1つ又は複数)248を含み得る。一実施形態では、複数のユーザ又は入力デバイスからユーザデータ210を受信すると、入力融合システム(1つ又は複数)144は、1つ又は複数の機械学習モデルを使用してユーザデータ210に対してデータクリーニングを実行し得る。前述の実施形態に説明されているように、ユーザデータ210は、ユーザによって提供された情報の形態又はタイプに応じて、変換システム(1つ又は複数)242によってテキストデータに変換され得る。一実施形態では、変換システム(1つ又は複数)242は、2つ以上の入力デバイスによって実質的に同時に送信されたコマンドがユーザデータ210にあるかどうかを検出し得る。実質的に同時でのユーザコマンドの受信を検出すると、冗長性/重複検出システム(1つ又は複数)244は、AIモデル(例えば、機械学習モデル)が理解又は処理するのに簡単で効率的である様式で入力データ210内の関連情報(例えば、テキスト又は非テキスト情報)をクリーニングし得る。例えば、入力情報のクリーニングは、機械学習モデルに対応するアップロードされたモダリティーに基づいて実行され得る。機械学習モデルは、モデル生成システム(1つ又は複数)248によって生成及び/又はトレーニングされ得る。紛らわしい又は認識できない(若しくは理解できない)コマンドがある場合(例えば、コマンドどうしの重複が不明確なデータをもたらす可能性があるために、又はコマンドの流れを乱す可能性があるノイズに起因して)、冗長性/重複検出システム(1つ又は複数)242は、それらのデータビットを不明確としてフラグ設定すること、及びその特定のコマンド又はメッセージに関する明確性を得るために1つ又は複数の明確化メッセージをユーザに送信することが可能である。入力融合システム(1つ又は複数)144によって利用されるAIモデルは、1つ又は複数のモデル生成システム(1つ又は複数)248によって生成され得る。
【0040】
一実施形態では、モデル生成システム(1つ又は複数)248は、AIモデル(例えば、機械学習モデル)のうちの1つ又は複数を生成及び/又はトレーニングし得る。モデル生成システム(1つ又は複数)248は、入力融合システム(1つ又は複数)144の一部として統合されて入力融合システム(1つ又は複数)144内に存在し得る。或いは、モデル生成システム(1つ又は複数)248は、ネットワークシステム(1つ又は複数)130内に、クラウドサーバ/ネットワーク、又はエッジサーバ/ネットワーク上に配置され得るが、それらに限定されない。モデル生成システム(1つ又は複数)248は、機械学習モデル及び機械学習アプリケーションを生成するためのコンポーネントのライブラリを生成し得る機械学習プラットフォームであり得る。モデル生成システム(1つ又は複数)248は、ユーザが、クラウドベースのネットワークインフラストラクチャーの詳細な知識、又はモデルを構築するためのコードをどのように生成するかの知識を有していなくても機械学習アプリケーションを生成することを可能にし得る。モデル生成システム(1つ又は複数)248は、識別されたデータ、並びにユーザによって提供された所望の予測及びパフォーマンス特性を分析して、機械学習アプリケーション又はモデルを生成するための1つ又は複数のライブラリコンポーネント及び関連付けられているアプリケーションプログラミングインターフェース(API)を選択することができる。機械学習技術は、機械学習モデルの出力をモニタ及び評価して、モデルへのフィードバック及び調整を可能にすることができる。機械学習アプリケーション又はモデルは、スタンドアロンの実行可能コードとしてのエクスポート用にトレーニング、テスト、及びコンパイルされることが可能である。例えば、モデル生成システム(1つ又は複数)248は、アウトペインティングを実行するために利用される1つ又は複数の大規模言語モデル(LLM)及び/又は機械学習モデルを利用し得る。一実施形態では、モデル生成システム(1つ又は複数)248は、その他の機械学習アプリケーション、モデル、及び/又はシステム(例えば、生成AIシステム(1つ又は複数)146)のために使用されることが可能である1つ又は複数のライブラリコンポーネントを生成及び格納し得る。モデル生成システム(1つ又は複数)248は、入力融合システム(1つ又は複数)144が、例えば、ユーザの過去の好みに基づいて推奨を行うことを可能にするプロフィールを生成し得る。生成システム(1つ又は複数)248は、所望のパフォーマンス基準内で所望の結果を達成するために必要なインフラストラクチャーリソースの数及びタイプを検出し得る。
【0041】
一実施形態では、モデル生成システム(1つ又は複数)248によって生成された単一の機械学習モデルが、変換システム(1つ又は複数)242、冗長性/重複検出システム(1つ又は複数)244、及びプロンプト抽出システム(1つ又は複数)246によって同時に又は順次利用され得る。或いは、モデル生成システム(1つ又は複数)248によって生成された複数の機械学習モデルが、変換システム(1つ又は複数)242、冗長性/重複検出システム(1つ又は複数)244、及びプロンプト抽出システム(1つ又は複数)246によって同時に又は順次利用され得る。したがって、入力融合システム(1つ又は複数)144は、1人又は複数のユーザによるコンピューティング環境での同期的な又は非同期的な創造的なセッションを容易にし得る。単一のコマンド又は要求がAIモデルによって一方的な様式で処理されることを一般に必要とする従来のAIプラットフォームとは異なり、本開示のシステム及び方法は、1人又は複数のユーザによって提供される複数の同期的な又は非同期的な入力の処理を容易にする。例えば、コンピューティング環境でのコンテンツ作成に参加する1人又は複数のユーザが、同期的に又は非同期的に入力を提供し得る。協調的コンテンツ作成システム(1つ又は複数)140は、入力のうちのすべてを永続的な様式で同期的に又は非同期的に処理し得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、1つ又は複数の創造的なセッションで1人又は複数のユーザによって入力が提供される前、間、及び/又は後に、1つ又は複数の機械学習モデルに基づいて創造的な効果及び/又は提案を提供した。
【0042】
依然として
図2を参照すると、冗長性/重複検出システム(1つ又は複数)144は、ユーザデータ210内の1つ又は複数の冗長性(例えば、不要な情報)及び/又は重複を検出し得る。例えば、冗長性/重複検出システム(1つ又は複数)144は、ユーザデータ210内で繰り返される単語及びプロンプトを検出することができ、それによって、コンピューティング環境で単一のユーザの又は複数のユーザの間での創造的な作品に価値を付加するコンテンツに関連付けられている情報のみが残っている。例えば、創造的な対話又は会話を行っている3人のユーザがいて、それらのユーザのうちの2人が同じことを言っている場合、冗長性/重複検出システム(1つ又は複数)244は、例えば、モデル生成システム(1つ又は複数)248によって生成された機械学習モデル(1つ又は複数)を利用することによって、冗長性及び/又は重複を検出し、プロンプト抽出システム(1つ又は複数)246が、創造的な作品に価値を付加するプロンプトのみを抽出することを可能にすることができる。一実施形態では、冗長性及び/又は重複の検出は、前述の実施形態に説明されているクリーニング処理の前又は後に実行され得る。加えて、ユーザのうちの何人かが、つなぎ言葉を使用したり、文を繰り返したり、又はコンピューティング環境内の複数のユーザの間での創造的な作品に価値を付加しない音を出したりする場合、冗長性/重複検出システム(1つ又は複数)144は、プロンプト抽出システム(1つ又は複数)246によって、ユーザデータ210内に存在している可能性があるいかなるプロンプトも抽出する前に、ユーザデータ210内の冗長性及び/又は重複を破棄することへ進み得る。この様式では、生成AIシステム(1つ又は複数)146は、創造的なセッションにとって有用であるコマンドのみを受信し、以てユーザ入力に基づいて創造的な効果及び提案を特定する効率及び精度を高めることができる。
【0043】
依然として
図2を参照すると、生成AIシステム(1つ又は複数)146は、提案/効果生成システム(1つ又は複数)252及びモデル生成システム(1つ又は複数)254を含み得る。提案/効果生成システム(1つ又は複数)252は、コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境など)で創造的な効果を生成するためのコンテンツ生成データ220を生成し得る。図
4は、
図1及び
図2に関連して説明されている実施形態のシステム及び方法の機能を容易にし得る例示的な仮想環境を示している。次いで、本開示の実施形態による協調的なコンテンツ作成の特徴の理解を助けるために、
図2の特徴が、図
4での仮想環境
400と組み合わせて説明されることになる。もちろん、任意のコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境など)が、本開示の実施形態による協調的なコンテンツ作成を容易にするために適用可能であり得る。
【0044】
一実施形態では、仮想環境400は、生成AIシステム(1つ又は複数)146によって生成されたコンテンツ作成データ220に従ってコンピューティング環境生成システム(例えば、コンピューティング環境生成システム(1つ又は複数)148)によって生成され得る。簡潔さのために、仮想環境400を生成することの詳細は省略されている。コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境など)を生成することの詳細な説明は、同時係属中の米国特許出願第17/006,327号で提供されており、その同時係属出願は、その全体が参照によって本明細書に組み込まれる。仮想環境400は、第1のユーザグラフィカル表示(UGR)402、第2のUGR 404、及び第3のUGR 406を含み得る。UGR 402~406は、第1、第2、及び第3のユーザの画像を取り込む1つ又は複数のカメラから受信されたデータ又は信号に基づいて生成され得る。UGR 402~406は、背景画像を除去する画像除去プロセスに基づいて生成されることが可能であり、これは、ユーザを表す画像のみが仮想環境400に挿入されることを可能にし得る。
【0045】
一実施形態では、仮想環境400は、空間(又は表面)410を含み得る。空間410は、1人又は複数のユーザによる協調的なコンテンツ作成を容易にするために提供され得る。すなわち、1人又は複数のユーザが、例えばUGR 402~406を介して、空間410上で創造的なアクションを実行し得る。例えば、UGR 402~406によって要素408が作成又は修正され得る。一実施形態では、空間は、仮想環境内の創造的な空間であり得る。しかしながら、創造的な空間はまた、仮想環境の選択されたエリア、空間、又はオブジェクトであり得る。例えば、創造的な空間は、壁、実際のアートキャンバス(アート絵画のための)、都市模型、製造品、書籍などであり得、その場合、すべてのコマンドが、その選択されたエリア、空間、又はオブジェクトに関して送信及び処理され得る。図4にはテーブルが示されているが、本開示の実施形態による協調的なコンテンツ作成を容易にするために任意の空間又は表面が利用され得る。例えば、複数のユーザが協調して要素408(例えば、図面、絵画、文章など)を作成することを可能にするために仮想環境400に「白いキャンバス」が提供され得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、仮想環境400の空間及び表面(例えば、空間410)上で創造的な変化がリアル又はほぼリアルタイムに見られるような方法で、会話を通じて、及び/又はその他の手段を通じて、自然な方法で創造的なセッションが行われることを容易にする又は可能にする。
【0046】
図2を再び参照すると、生成AIシステム(1つ又は複数)146によって生成されるコンテンツ作成データ220は、グラフィカルデータ220a、オーディオデータ220b、テキストデータ220c、及び触覚データ220nを含み得るが、それらに限定されない。例えば、コンテンツ作成データ220は、図
4での仮想環境
400で創造的な効果を提供するための情報又は信号を含み得る。一実施形態では、コンテンツ作成データ220は、仮想環境
400内の要素
408に対する変更を容易にし得る。要素
408に対する変更は、要素
408の形状、形態、色、明るさ(例えば、光又は光の強さを追加又は除去すること)、寸法などを変更することを含み得る。加えて、要素
408は、仮想環境
400内のオブジェクト(例えば、備品、建物、車両など)であり得る。さらに、要素
408は、楽曲、アート作品の構成、教科書、又は製造品として表現され得るが、それらに限定されない。
【0047】
依然として
図2を参照すると、提案/効果生成システム(1つ又は複数)252は、ユーザに対する1つ又は複数の創造的な提案を生成することができ、その場合、各提案は、特定のユーザの特定の入力に基づいてそのユーザに属し得る。例えば、提案/効果生成システム(1つ又は複数)252は、複数のユーザから受信された入力コマンドに、特定の入力コマンドを提供又は送信する各ユーザに基づいてラベル付けし得る。例えば、ユーザA(例えば、第1のユーザ112)が、コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)での壁の色を赤色に修正するためのコマンドを送信し、ユーザB(例えば、第2のユーザ122)が、壁の色を青色に修正するためのコマンドを送信した場合、提案/効果生成システム(1つ又は複数)252は、それらの2つの別々のコマンドを認識し得る。提案/効果生成システム(1つ又は複数)252は次いで、第1のコマンドをユーザAのものとして、及び第2のコマンドをユーザBのものとしてラベル付けすることができ、ユーザAに対応する1つ又は複数の提案、及びユーザBに対応する異なる提案を生成することができる。もちろん、このプロセスは、その他のタイプのコマンド(例えば、画像、テキスト、触覚など)に同様に適用され得る。
【0048】
一実施形態では、提案/効果生成システム(1つ又は複数)252は、コンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)の1つ又は複数の表面又は空間(例えば、空間410)上で1つ又は複数の創造的な効果を容易にするためのコンテンツ作成データ220を生成し得る。この実施形態では、提案/効果生成システム(1つ又は複数)252は、コンピューティング環境のユーザから追加のデータが受信されるにつれて創造的な作品を継続的に洗練し得る。すなわち、提案/効果生成システム(1つ又は複数)252は、ユーザ入力データを持続的に分析して、文脈上の反復に基づいて創造的な効果及び提案を生成することができる。例えば、提案/効果生成システム(1つ又は複数)252が、ユーザによって送信されたコマンドに基づいて特徴のうちのすべて又はほとんどを含むコンピューティング環境で創造的な効果を提供するためのデータ又は信号(例えば、コンテンツ作成データ220)を生成した後に、生成AIシステム(1つ又は複数)146は、創造的なセッションをユーザが継続するにつれて現在の創造的なコンテンツを見直し及び継続的にさらに洗練することができる。さらに、ユーザは、創造的なコンテンツを作成して洗練するための特定のエリアを選択することもできる。例えば、ユーザは、仮想環境400の特定のエリア、オブジェクト、体積、又は空間に対してクリックすること、タッチすること、(例えば、作成若しくは洗練のための特定のエリアを定義するための)2D線若しくは3D曲線としてブラシストロークをペイントすること、テキスト入力すること、又は話しかけることによって選択を行うことができ、その後に自分のコマンドを送信することができる。いくつかの実施形態では、生成AIシステム(1つ又は複数)146は、創造的なセッションが終わった後に、持続的な反復に基づいて、独立して装飾技術を適用し得る。装飾技術は、例えば、色、コントラスト、シャープネス、明るさを改善すること、表面を平滑化すること、オクルージョン又はその他の洗練技術を、最終化された又は準最終化された創造的な作品に適用することを含み得る。同様に、オーディオ作成に関しては、装飾技術は、ノイズ低減、音量増大、トーン強調などを含み得る。
【0049】
一実施形態では、生成AIシステム(1つ又は複数)146は、1人又は複数のユーザが話す際に創造的な作品が実行されるリアルタイムの創造的なセッションを容易にするように構成され得る。しかしながら、いくつかの実施形態では、所望の創造的な作品がさらなる処理を必要とする場合、生成AIシステム(1つ又は複数)146は、完了の推定された時間をユーザに通知することができ、オンライン又はオフラインのどちらかで、必要な時間を取ることへ進むことができる。例えば、ユーザが創造的なセッションを終了した場合、ユーザは、協調的コンテンツ作成システム(1つ又は複数)140が創造的な作品を完成させたということを示す通知を後で受信することができ、ユーザは、見直し及び/又は修正のために完了した創造物にアクセスすることができる。したがって、本開示のシステム及び方法は、入力融合システム(1つ又は複数)144及び生成AIシステム(1つ又は複数)146を利用して、持続的な文脈上の反復を通じてユーザ入力どうしの同期的な又は非同期的な処理を実行して、創造的な協調的セッションの前、間、及び後に創造的な提案及び効果を生成することによって、コンピューティング環境での1人又は複数のユーザのコンテンツ作成及び協調的な対話を著しく改善する。
【0050】
図
3は、
図1、図2、図4に関連して説明されている前述の実施形態に従ってコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)で人工知能を使用して協調的なコンテンツ作成を実行するための典型的な方法
300のフローチャートを示している。ステップ
302で、協調的コンテンツ作成システム(例えば、協調的コンテンツ作成システム(1つ又は複数)140)は、複数のユーザ(例えば、ユーザ112、122)からマルチユーザ入力コマンドを受信し得る。協調的コンテンツ作成システムは、図
3に示されている方法
300を容易にするために、
図1、図2、図4に関連して説明されている1つ又は複数のシステム(1つ又は複数)及び/又はモジュールを利用し得る。ステップ
304で、協調的コンテンツ作成システムは、マルチユーザ入力コマンドをテキストに転写し得る。例えば、協調的コンテンツ作成システムは、テキストの形態で提供されないコマンドに関しては入力コマンドをテキストに変換し得る。これらのコマンドは、例えば、オーディオ入力、触覚入力、画像入力、ジェスチャー入力、又はビデオ入力の形態であり得るが、それらに限定されない。ステップ
306で、協調的コンテンツ作成システムは、
図1、図2、図4に関連した前述の実施形態に従って、変換されたテキストを分析して、冗長性及び重複を検出すること、プロンプトを検出すること、及び/又はテキストデータのラベル付けを実行することが可能である。ステップ
308で、協調的コンテンツ作成システムは、分析及び変換されたテキストをクリーニングし得る。すなわち、変換されたテキストに何らかの冗長性及び重複が検出された場合、協調的コンテンツ作成システムは、検出された冗長性及び重複を、変換されたテキストから除去し得る。さらに、必要な場合には、テキストに変換された入力コマンドの形態に基づいて協調的コンテンツ作成システムによってラベル付けが実行され得る。ステップ
310で、協調的コンテンツ作成システムは、クリーニング及び変換されたテキストから1つ又は複数のプロンプトを抽出し得る。プロンプトは、コンピューティング環境での創造的な効果の適用を容易にするための情報又はデータを含み得る。コンピューティング環境は、本開示の前述の実施形態に関連して開示されている任意のコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)であり得る。ステップ
312で、協調的コンテンツ作成システムは、コンピューティング環境で創造的なアクション又は効果の形態でプロンプトを実行し得る。一実施形態では、本開示の実施形態に従って、コンピューティング世界での複数のユーザによる協調的なコンテンツ作成を容易にするためにステップ
304~
312で1つ又は複数の機械学習モデルが利用され得る。
【0051】
図5は、本開示の態様による、コンピューティング環境で人工知能を使用して協調的なコンテンツ作成を実行するための典型的なユーザインターフェース500を示している。ユーザインターフェース500は、
図1~
図4に関連して説明されているコンピューティング環境(例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境)のうちのいずれでも提供され得る。一実施形態では、ユーザインターフェース500は、入力融合システム(1つ又は複数)144及び/又は生成AIシステム(1つ又は複数)146から受信されたデータに基づいてコンピューティング環境生成システム(1つ又は複数)148によって生成され得る。ユーザインターフェース500は、複数のユーザ502、504、506によって操作又は操縦されるように構成され得る。ユーザ502、504、506のうちの1人又は複数は、
図5に示されているように、ユーザインターフェース510でのタイムライン上のスライダー512を操作し得る。いくつかの実施形態では、スライダー512の代わりに、ボタン、キー、又はその他の適切なグラフィカル若しくはオーディオ要素が利用され得る。タイムラインは、1つ又は複数の時間位置514、516、518を含むことができ、その場合、ユーザは、スライダー512をタイムライン上で前後に位置付けて、特定のタイムピリオドに行われた創造的な効果を見直すこと又は修正することができる。例えば、時間位置514は、あるタイムピリオド(例えば、3:00分)においてある位置(例えば、X、Y、Z座標)に関連付けられているプロンプト(例えば、プロンプト1)を定義し得る。一実施形態では、コンピューティング環境生成システム(1つ又は複数)148は、選択された時間位置(例えば、514、516、又は518)に関連付けられている1つ又は複数のプロンプトを生成し得る。ユーザ(502、504、及び/又は506)は次いで、例えば、コンピューティング環境内のグラフィカル要素として提供され得るプロンプトをクリックすることによって、プロンプトを選択し得る。したがって、協調的コンテンツ作成システム(1つ又は複数)140は、コンピューティング環境のユーザが、タイムラインを前後にスライドさせ、プロンプト又はコマンドをクリックして、追加コンテンツ作成又は修正を容易にするための永続的な反復機能を実行することを可能にし得る。
【0052】
図6は、本開示の態様による、人工知能を使用してコンピューティング環境で協調的なコンテンツ作成を実行するための別の典型的な方法600のフローチャートを示している。特に、方法600は、
図1~
図5に関連して説明されている実施形態に従って実行され得る。例えば、方法600は、環境100及びシステム200内の1つ又は複数のシステムによって実行され得る。さらに、方法600は、仮想環境
400で実行されること、及びユーザインターフェース500を利用することが可能である。ステップ602で、コンテンツ作成システムは、第1のユーザからの第1の入力及び第2のユーザからの第2の入力を受信し得る。コンテンツ作成システムは、
図1及び
図2に示されている協調的コンテンツ作成システム(1つ又は複数)140であり得る。一実施形態では、第1のユーザは、第1のユーザ112であり得、第2のユーザは、
図1に示されている第2のユーザ122であり得る。或いは、第1及び第2のユーザは、
図5に示されているユーザ502、504、506のうちのいずれか、又は図
4に示されているUGR
402、
404、
406によって表されている任意のユーザであり得る。第1の入力又は第2の入力は、
図2に示されているユーザデータ210を含み得る。例えば、第1の入力は、第1のユーザ入力データ210aであり得、第2の入力は、
図2に示されている第2のユーザ入力データ210bであり得る。第1及び第2の入力の各々は、例えば、オーディオデータ(例えば、音声、オーディオファイルなど)、触覚データ、テキストデータ、画像データ、ビデオデータ、又は任意のその他のタイプのデータを含み得る。一実施形態では、第1の入力及び第2の入力は、同期的に又は非同期的に受信され得る。
【0053】
ステップ604で、入力融合システムは、機械学習モデルを使用することによって、第1の入力及び第2の入力を分析して、重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定する。入力融合システムは、
図1及び
図2に示されている入力融合システム(1つ又は複数)144であり得る。機械学習モデルは、モデル生成システム(1つ若しくは複数)248又はモデル生成システム(1つ若しくは複数)258から生成され得る。一実施形態では、機械学習モデルは、直接的なユーザ入力又は間接的なユーザ入力に基づいて重複データ、冗長性データ、及び/又はプロンプトデータの存在を特定することを容易にし得る。一実施形態では、入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方を変換されたデータに変換し得る。この実施形態では、第1の入力又は第2の入力のうちの少なくとも一方は、画像データ、オーディオデータ、又は触覚データのうちの少なくとも1つを含み得る。さらに、変換されたデータは、変換されたテキストデータを含み得る。一実施形態では、重複データ又は冗長性データの存在が特定されると、入力融合システムは、第1の入力又は第2の入力のうちの少なくとも一方から重複データ又は冗長性データのうちの少なくとも1つを除去し得る。一実施形態では、重複データ又は冗長性データの存在が特定されると、入力融合システムは、変換されたテキストデータから、重複データ又は冗長性データのうちの少なくとも1つに対応するテキストデータを除去し得る。
【0054】
ステップ606で、第1の入力又は第2の入力のうちの少なくとも一方からプロンプトデータの存在が特定されると、入力融合システムは、プロンプトデータをアクション生成システムに伝送し得る。アクション生成システムは、
図1及び
図2での生成AIシステム(1つ又は複数)146であり得る。
【0055】
ステップ608において、アクション生成システムは、プロンプトデータ及び機械学習モデルに基づいて第1のアクションデータを生成し得る。或いは、第1のアクションデータは、第2の機械学習モデルに基づいて生成され得る。一実施形態では、第2の機械学習モデルは、モデル生成システム(1つ又は複数)254又はモデル生成システム(1つ又は複数)248によって生成され得る。
【0056】
ステップ610で、アクション生成システムは、第1のアクションデータに基づいてコンピューティング環境で第1のアクションを実行し得る。一実施形態では、コンピューティング環境は、仮想環境又は拡張環境のうちの少なくとも一方であり得る。或いは、コンピューティング環境は、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境であり得るが、それらに限定されない。一実施形態では、第1のアクションは、仮想環境又は拡張環境のうちの少なくとも一方の空間内の要素を作成又は修正し得る。さらに、要素は、視覚要素又はオーディオ要素のうちの少なくとも一方であり得る。一実施形態では、コンテンツ作成システムは、第1のユーザ又は第2のユーザに対してグラフィカルインターフェースを表示するための信号を生成し得る。グラフィカルインターフェースは、ユーザインターフェース500であり得る。さらに、コンテンツ作成システムは、第1のユーザ又は第2のユーザから選択コマンドを受信し得る。一実施形態では、選択コマンドは、スライダー512をスライドさせること、又はプロンプトに関連付けられているグラフィカル要素をクリックすることであり得る。さらに、コンテンツ作成システムは、選択コマンドに基づいてコンピューティング環境においてユーザ作成要素を提供し得る。一実施形態では、グラフィカルコントローラは、調整可能なタイムラインである。一実施形態では、選択コマンドは、調整可能なタイムライン上のタイムピリオドを選択し得る。一実施形態では、ユーザ作成要素は、タイムピリオドに基づいてコンテンツ作成システムによって選択され得る。
【0057】
一般に、図
3及び
図6に示されているプロセス、並びに
図1、図2、図4及び
図5に関連して説明されているシステム及び/又はインターフェースなど、コンピュータで実施可能であると理解される本開示で論じられているいずれのプロセスも、上述されているように、ユーザデバイス(1つ又は複数)110、120、協調的コンテンツ作成システム(1つ又は複数)140、サーバシステム(1つ又は複数)142、入力融合システム(1つ又は複数)144、生成AIシステム(1つ又は複数)146、及びコンピューティング環境生成システム(1つ又は複数)148などのコンピュータシステムの1つ又は複数のプロセッサによって実行されること又はその他の形で実施されることが可能である。1つ又は複数のプロセッサによって実行されるプロセス又はプロセスステップは、オペレーションと呼ばれる場合もある。1つ又は複数のプロセッサは、命令(例えば、ソフトウェア又はコンピュータ可読コード)へのアクセスを有することによって、そのようなプロセスを実行するように構成されることが可能であり、それらの命令は、1つ又は複数のプロセッサによって実行されたときに、それらのプロセスを1つ又は複数のプロセッサに実行させる。命令は、コンピュータシステムのメモリに格納され得る。プロセッサは、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、又は別のタイプの処理ユニットであり得る。
【0058】
ユーザデバイス(1つ若しくは複数)110、120、協調的コンテンツ作成システム(1つ若しくは複数)140、サーバシステム(1つ若しくは複数)142、入力融合システム(1つ若しくは複数)144、生成AIシステム(1つ若しくは複数)146、及びコンピューティング環境生成システム(1つ若しくは複数)148などのコンピュータシステム、又はコンピューティング環境での協調的なコンテンツ作成を容易にするためのオペレーションを実行する任意のその他のシステムは、1つ又は複数のコンピューティングデバイスを含み得る。コンピュータシステムの1つ又は複数のプロセッサが複数のプロセッサとして実装される場合、それらの複数のプロセッサは、単一のコンピューティングデバイスに含まれること、又は複数のコンピューティングデバイスの間で分散されることが可能である。コンピュータシステムが複数のコンピューティングデバイスを含む場合、コンピュータシステムのメモリは、それらの複数のコンピューティングデバイスのうちの各コンピューティングデバイスのそれぞれのメモリを含み得る。
【0059】
図7は、コンピュータシステムのコンピューティングデバイス700の一例を示している。コンピューティングデバイス700は、プロセッサ(1つ又は複数)710(例えば、CPU、GPU、又はその他の処理ユニット)と、メモリ720と、その他のデバイスと通信するための通信インターフェース(1つ又は複数)740(例えば、ネットワークインターフェース)とを含み得る。メモリ720は、RAMなどの揮発性メモリ、並びに/又はROM及びストレージメディアなどの不揮発性メモリを含み得る。ストレージメディアの例は、ソリッドステートストレージメディア(例えば、ソリッドステートドライブ及び/若しくはリムーバブルフラッシュメモリ)、光ストレージメディア(例えば、光ディスク)、並びに/又は磁気ストレージメディア(例えば、ハードディスクドライブ)を含む。前述の命令(例えば、ソフトウェア又はコンピュータ可読コード)は、メモリ720の任意の揮発性の及び/又は不揮発性のメモリコンポーネントに格納され得る。コンピューティングデバイス700は、いくつかの実施形態では、入力デバイス(1つ又は複数)750(例えば、キーボード、マウス、ジョイスティック、コントローラ、又はタッチスクリーン)と、出力デバイス(1つ又は複数)760(例えば、ディスプレイ、ヘッドアップディスプレイ、ARディスプレイ、VRディスプレイ、プリンタ)とをさらに含み得る。例えば、ユーザデバイス(1つ又は複数)110、120がタブレットコンピュータとして具体化され得る場合、ユーザデバイス(1つ又は複数)110、120は、タッチスクリーン及びディスプレイを有し得る。コンピューティングデバイス700の前述の要素どうしは、バス730を通じて互いに接続されることが可能であり、バス730は、1つ又は複数のバスに相当する。いくつかの実施形態では、コンピューティングデバイス700のプロセッサ(1つ又は複数)710は、CPU及びGPUの両方を含む。
【0060】
1つ又は複数のプロセッサによって実行可能な命令は、非一時的コンピュータ可読メディアに格納され得る。そのため、本開示でコンピュータ実施方法が説明されている場合は常に、本開示はまた、命令を格納している非一時的コンピュータ可読メディアを説明しているとして理解されるものとし、それらの命令は、1つ又は複数のプロセッサによって実行されたときに、そのコンピュータ実施方法を実行するように1つ又は複数のプロセッサを構成し、及び/又はそのコンピュータ実施方法を1つ又は複数のプロセッサに実行させる。非一時的コンピュータ可読メディアの例は、RAM、ROM、ソリッドステートストレージメディア(例えば、ソリッドステートドライブ)、光ストレージメディア(例えば、光ディスク)、及び磁気ストレージメディア(例えば、ハードディスクドライブ)を含む。非一時的コンピュータ可読メディアは、コンピュータシステムのメモリの一部であること、又はいかなるコンピュータシステムとも別個であることが可能である。
【0061】
典型的な実施形態の上記の説明では、開示を合理化して様々な発明的側面のうちの1つ又は複数の理解に役立つ目的で、様々な特徴が、単一の実施形態、図、又はその説明にまとめられている場合があるということを理解されたい。しかしながら、この開示方法は、特許請求されている発明が、各請求項に明示的に列挙されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、下記の特許請求の範囲が反映しているように、発明的側面は、単一の前述の開示されている実施形態のすべての特徴よりも少ない中に存在する。それゆえに、詳細な説明に続く特許請求の範囲は、これによってこの詳細な説明に明示的に組み込まれ、それに伴って各請求項は、本開示の個別の実施形態としてそれ自体で成り立つ。
【0062】
さらに、本明細書に説明されているいくつかの実施形態は、その他の実施形態に含まれている特徴のうちのいくつかを含む一方でその他の特徴を含まないが、当業者によって理解されるように、様々な実施形態の特徴どうしの組合せは、本開示の範囲内であること、及び様々な実施形態を形成することを意図されている。例えば、下記の特許請求の範囲では、特許請求されている実施形態のうちのいずれも、任意の組合せで使用されることが可能である。
【0063】
それゆえに、特定の実施形態が説明されてきたが、本開示の趣旨から逸脱することなく、それらの実施形態に対してその他のさらなる修正が行われることが可能であり、すべてのそのような変更及び修正を、本開示の範囲内に収まるものとして主張することが意図されているということを当業者なら認識するであろう。例えば、ブロック図から機能性が追加又は削除されることが可能であり、機能ブロックどうしの間でオペレーションが入れ替えられることが可能である。本開示の範囲内で説明されている方法に対してステップが追加又は削除されることが可能である。
【0064】
上記で開示されている主題は、例示的であって制限的ではないとみなされるべきであり、添付の特許請求の範囲は、本開示の真の趣旨及び範囲内に収まるすべてのそのような修正、強化、及びその他の実施態様を説明することを意図されている。それゆえに、法律によって認められる最大限まで、本開示の範囲は、下記の特許請求の範囲及びそれらの均等物の最も広い許容可能な解釈によって特定されるべきであり、前述の詳細な説明によって制限又は限定されないものとする。本開示の様々な実施態様が説明されてきたが、本開示の範囲内でさらに多くの実施態様及び実装形態が可能であるということは、当業者者にとって明らかであろう。したがって本開示は、制限されるものではない。
【外国語明細書】