IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエルの特許一覧

特開2024-160978仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入
<>
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図1
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図2
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図3
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図4
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図5
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図6
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図7A
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図7B
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図8
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図9
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図10
  • 特開-仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160978
(43)【公開日】2024-11-15
(54)【発明の名称】仮想環境のシステム及び方法におけるマルチモーダルデータストリームベースの人工知能介入
(51)【国際特許分類】
   H04N 7/15 20060101AFI20241108BHJP
   G10L 25/63 20130101ALI20241108BHJP
   G10L 25/30 20130101ALI20241108BHJP
【FI】
H04N7/15 170
G10L25/63
G10L25/30
H04N7/15 120
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024073841
(22)【出願日】2024-04-30
(31)【優先権主張番号】18/142,302
(32)【優先日】2023-05-02
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520509030
【氏名又は名称】ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル
(74)【代理人】
【識別番号】100107456
【弁理士】
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【弁理士】
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【弁理士】
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ブラック, ロバート ハリー
(72)【発明者】
【氏名】パロミノ, ステファニー
(72)【発明者】
【氏名】ヤーリ, チェヴァット
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164VA11P
5C164VA13S
5C164VA23P
5C164VA35P
(57)【要約】      (修正有)
【課題】人工知能(AI)を使用してビデオ会議テクノロジーを強化するためのシステム及び方法を提供する。
【解決手段】仮想環境での改善されたビデオ会議システムのための方法は、人工知能、大規模言語モデル及び機械学習を使用して、仮想会議での参加者のグループ内の共感及び感情を検出し、音声/視覚ストリーム、その他のセンサデータ及びトレーニングセットなど、様々な入力を使用して、退屈、喜び及び悲しみなど、様々な感情シナリオを検出し、より多くの参加を促すか又は人々を目覚めさせることなど、参加者における所望の行動変化に基づく介入を行う。介入は、カメラの視点における変化又は仮想環境に対する環境変化であり、コンテキストシナリオ、例えば、真剣なビジネスミーティングか又は友達どうしの集まりか、に依存する。
【選択図】図9
【特許請求の範囲】
【請求項1】
1つ又は複数の仮想環境システム内のインタラクティブ仮想会議プラットフォームによって、複数の仮想環境を格納するステップと、
前記1つ又は複数の仮想環境システム内の前記インタラクティブ仮想会議プラットフォームによって、複数のコンテキストシナリオを格納するステップと、
前記1つ又は複数の仮想環境システム内の前記インタラクティブ仮想会議プラットフォームによって、複数の感情のシグナルを格納するステップと、
前記インタラクティブ仮想会議プラットフォームで、仮想会議に参加したいという複数の要求を受信するステップと、
前記インタラクティブ仮想会議プラットフォームによって、前記複数の要求に対応する複数のセッションを接続するステップであって、各セッションが、少なくとも1つ又は複数のビデオ又はオーディオストリームを含む入力データを含み、前記ビデオ又はオーディオストリームが、集合的に複数のビデオ又はオーディオストリームを形成する、当該接続するステップと、
前記インタラクティブ仮想会議プラットフォームのサーバによって、前記複数のビデオ又はオーディオストリームを解析するステップと、
前記インタラクティブ仮想会議プラットフォームによって、前記複数のコンテキストシナリオのうちの1つのコンテキストシナリオ、又は前記入力データからの1つ若しくは複数の感情のシグナルを自動的に検出するステップと、
前記コンテキストシナリオ又は感情のシグナルを検出したことに応じて前記インタラクティブ仮想会議プラットフォームによって、前記解析された入力データ、前記検出されたコンテキストシナリオ、又は前記検出された1つ若しくは複数の感情のシグナルに基づいて介入データベースから介入を選択するステップと、
前記コンテキストシナリオを検出したことに応じて、前記インタラクティブ仮想会議プラットフォームによって、前記介入データベースから前記介入を読み出すステップと、
前記インタラクティブ仮想会議プラットフォームによって、前記介入データベースから読み出された前記介入に基づいて前記仮想会議に介入するステップであって、前記介入が、出力オーディオ信号又は出力ビデオ信号に対する少なくとも1つの変化を含む、当該介入するステップと、
を含む方法。
【請求項2】
前記インタラクティブ仮想会議プラットフォームによって、前記複数のコンテキストシナリオに対応する1つ又は複数のデータセットを1つ又は複数のニューラルネットワークに入力するステップ、
をさらに含む、請求項1に記載の方法。
【請求項3】
前記1つ又は複数のニューラルネットワークが、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)のうちの1つ又は複数を含む、請求項2に記載の方法。
【請求項4】
前記介入についてのフィードバックを受信し、前記フィードバックを前記1つ又は複数のニューラルネットワークに適用して、前記1つ又は複数のニューラルネットワークを、将来の介入に適用するようにトレーニングするステップ、
をさらに含む、請求項2に記載の方法。
【請求項5】
前記フィードバックが、少なくとも1人のユーザからのランキングを含む、請求項4に記載の方法。
【請求項6】
前記フィードバックが、前記ビデオ又はオーディオストリームを介して検出された1人又は複数のユーザからの物理的な反応を含む、請求項5に記載の方法。
【請求項7】
前記介入が、
仮想カメラアングルに対する変化、ショットサイズに対する変化、及び、カメラモーションに対する変化、のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項8】
前記介入が、
前記出力ビデオ信号の明るさを変更すること、前記出力オーディオ信号のトーンを変更すること、及び、前記出力ビデオ信号の色合いを変更すること、のうちの1つ又は複数を含む、請求項1に記載の方法。
【請求項9】
前記介入を選択するステップが、1つ又は複数のユーザプロフィールに基づいて前記介入を選択すること、をさらに含む、請求項1に記載の方法。
【請求項10】
前記1つ又は複数のユーザプロフィールが、コンテキストシナリオを、事前に選択された介入基準と相関付ける1つ又は複数のユーザ設定を含む、請求項9に記載の方法。
【請求項11】
複数のクライアント側ビデオ会議アプリケーションと、
前記複数のクライアント側ビデオ会議アプリケーションからビデオストリーム又はオーディオストリームのうちの1つ又は複数を受信するように構成されたインタラクティブビデオ会議プラットフォームであって、前記1つ又は複数のビデオストリーム又はオーディオストリームを解析するように、及びその解析に基づいてコンテキストシナリオを検出するように構成されている、インタラクティブビデオ会議プラットフォームと、
複数の介入を含む前記インタラクティブビデオ会議プラットフォームの介入データベースであって、前記コンテキストシナリオを検出したことに基づいて、前記インタラクティブビデオ会議プラットフォームが、前記コンテキストシナリオに対応する介入を読み出して実施するようにさらに構成されている、介入データベースと、
を備え、
前記インタラクティブビデオ会議プラットフォームは、出力オーディオ信号又は出力ビデオ信号を含む前記インタラクティブビデオ会議プラットフォームの出力信号を、前記コンテキストシナリオに対応する前記介入に基づいて修正するように構成されている、
コンピュータシステム。
【請求項12】
前記複数の介入が、1つ又は複数のカメラビューに対する変化及び環境変化を含む、請求項11に記載のコンピュータシステム。
【請求項13】
前記インタラクティブビデオ会議プラットフォームが、前記介入についてのフィードバックを受信するように、及び前記フィードバックを1つ又は複数のニューラルネットワークに適用して、前記1つ又は複数のニューラルネットワークを、将来の介入に適用するようにトレーニングするようにさらに構成されている、請求項12に記載のコンピュータシステム。
【請求項14】
タイピングスピード、タイピング音量(キャンセレーション)、ハンドジェスチャー、発話時間の量、顔(マイクロ)表情、マウス/スワイプ速度、地理的場所、ブラウザ、ローディング時間、FPS/タブフォーカス、ミーティングタイトル、参加者の数、頭の位置、言語毒性、デバイス、又は発話のリズムのうちの1つ又は複数を含む入力を受信するように構成されたネットワークインターフェースをさらに備え、前記インタラクティブビデオ会議プラットフォームが、前記入力のうちの1つ又は複数に基づいて前記介入を選択するように構成されている、
請求項11に記載のコンピュータシステム。
【請求項15】
前記介入が、
前記出力ビデオ信号の明るさを変更すること、前記出力オーディオ信号のトーンを変更すること、及び、前記出力ビデオ信号の色合いを変更すること、のうちの1つ又は複数を含む、
請求項11に記載のコンピュータシステム。
【請求項16】
前記コンテキストシナリオに対応する前記介入が、1つ又は複数のユーザプロフィールにさらに対応する、
請求項11に記載のコンピュータシステム。
【請求項17】
前記1つ又は複数のユーザプロフィールが、コンテキストシナリオを、事前に選択された介入基準と相関付ける1つ又は複数のユーザ設定を含む、請求項16に記載のコンピュータシステム。
【請求項18】
命令を記憶したコンピュータ読み取り可能な記憶媒体であって、
前記命令が、プロセッサにより実行されることが可能であり、
前記命令が、
仮想会議に参加したいという複数の要求に基づいて複数のユーザを前記仮想会議に接続することであり、各セッションが、1つ又は複数のビデオ又はオーディオストリームを含み、前記ビデオ又はオーディオストリームが、集合的に複数のビデオ又はオーディオストリームを形成する、接続することと、
前記複数のビデオ又はオーディオストリームを解析して、シナリオデータベースに格納されている複数のコンテキストシナリオから1つのコンテキストシナリオを検出することと、
前記シナリオデータベースに格納されている前記複数のコンテキストシナリオのうちの前記コンテキストシナリオを自動的に検出することと、
前記コンテキストシナリオに基づいて介入データベースから介入を選択することと、
前記介入データベースから前記コンテキストシナリオに基づいて前記介入を読み出すことと、
前記介入データベースから読み出された前記介入に基づいて前記仮想会議に介入することであり、前記介入が、出力オーディオ信号又は出力ビデオ信号に対する少なくとも1つの変化を含む、介入することと、
を含む、コンピュータ読み取り可能な記憶媒体。
【請求項19】
前記命令は、
畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)のうちの1つ又は複数を含む1つ又は複数のニューラルネットワークを解析して、前記コンテキストシナリオを検出すること、
をさらに含む、請求項18に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
前記コンテキストシナリオに対応する前記介入が、1つ又は複数のユーザプロフィールにさらに対応する、請求項18に記載のコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピューティング環境でコンテンツを作成することに関し、より詳細には、人工知能(AI)を使用してビデオ会議テクノロジーを強化するためのシステム及び方法に関する。AIは、典型的な話者のグリッド又は話者へのフォーカスを超えて、よりインタラクティブな視聴体験を生み出すことによって、より関心を引く体験を発展させるために使用される場合がある。
【背景技術】
【0002】
ビデオ会議は、今日の世界でのコミュニケーション及び協調にとって不可欠なツールになっている。しかしながら、ビデオ会議の従来の形式は、多くの場合、関心を引かない非生産的なミーティングをもたらして、参加者からの興味及び注目の欠如につながる。退屈なビデオ会議は、チームメンバーどうしの間での協調及びコミュニケーションの低下につながるだけでなく、ミーティングの目的を達成する際の生産性及び効率が低下する場合がある。そのため、ビデオ会議を改善して、参加者にとってさらに興味深く関心を引くものにする必要がある。これは、ユーザ体験を強化して積極的な参加を促す革新的なテクノロジー及び機能を開発して、より生産的な成功するミーティングをもたらすことを通じて達成され得る。
【0003】
リモートワーク及び仮想協調がますます一般的になるにつれて、従来のビデオ会議形式の限界がさらに明らかになってきた。参加者は、多くの場合、長ったらしい又は体系化されていないミーティング中に集中及び関与を保持するのに苦労することが多く、生産性の低下、並びに協調及び問題解決のための機会の逸失につながる。
【0004】
その上、対面での対話及び言葉によらない感情のシグナルの欠如は、参加者どうしが親密な関係を築いて信頼を確立することを困難にして、潜在的な誤解及び対立につながる場合がある。これは、参加者どうしの間でのさらにダイナミックでインタラクティブなコミュニケーションを促進するビデオ会議に対する新たなアプローチの必要性を浮き彫りにしている。
【0005】
これらの課題に応じて、全体的なミーティング体験を改善し得る革新的なビデオ会議テクノロジーに対する需要が高まっている。これらのテクノロジーのうちのいくつかは、仮想背景、拡張現実オーバーレイ、インタラクティブホワイトボード、及びリアルタイム協調ツールを含む。これらの機能は、参加者の関心を引き、より有意義な会話及び協調を容易にし、最終的に生産性及び意思決定を強化するのに役立ち得る。
【0006】
そのようなわけで、ビデオ会議テクノロジーを、より関心を引く、インタラクティブで、生産的なものにするために、ビデオ会議テクノロジーでの継続的な投資及び開発に対する明らかな必要性がある。そうすることによって、我々は、仮想ミーティング体験を改善すること、並びにリモート又はハイブリッドの職場環境における参加者どうしの間でのよりよいコミュニケーション、協調、及び問題解決を促進することが可能である。
【発明の概要】
【発明が解決しようとする課題】
【0007】
頻繁なオンラインミーティングは、退屈でくどくなって、そのようなミーティングに参加するモチベーションを低減させることがある。この原因として、人間は本来、感情的な存在であり、多様性を楽しむ傾向があり、これを達成し得る多くのタイプの刺激がある。しかしながら、仮想環境でのコミュニケーションを可能にする現在のテクノロジーは、適切なFPS、音質、又はグラフィックス品質を可能にすることによってなど、スムーズなユーザ体験を可能にするための十分な技術的能力を提供することに主に焦点を合わせている。そのため、広範な人間の感情を刺激して、仮想環境でユーザどうしが対話する際のユーザのエネルギー、注意力持続時間、モチベーション、及び生産性でさえ改善することを可能にする技術的な代替策を開発する必要がある。仮想環境は、オフィス又はレストランなどの屋内環境、及び公園又は農場などの屋外環境を含み得る。
【0008】
従来技術の解決策は、わずかの基本的な構成要素を提供しており、これらは、関心を引くビデオ会議又は仮想会議を生み出すことに対するまとまりのある解決策を提供しない。ビデオ会議は、Zoom(登録商標)及びTeams(登録商標)などのアプリケーションと共に、当技術分野でよく知られている。しかしながら、仮想会議は、従来のビデオ会議、及びまた、レストラン又は会議室などの現実世界のシナリオをエミュレートしているさらに精巧な仮想環境を含み得る。本開示のいくつかの実施形態は、入力を処理して所望の出力にすることによってイベントのムードに影響を与えるように適合された動的な情報に基づく改良された自動応答AIロジックを提供する。実施形態は、複数の入力を処理して出力にするマルチモーダルデータストリームベースのAIカメラシステム及び方法を含み得る。入力は、ユーザが仮想イベントに参加する際に、対応するカメラ及びマイクロフォンによって提供されるユーザの音声又は映像フィードであり得る。さらなる入力が、仮想環境内の1つ又は複数の仮想放送カメラによって取り込まれ得る。各ユーザは、仮想環境で提示される自分自身のカメラフィードの形態で、ユーザグラフィカル表示、又はアバターを有する。ユーザを伴うカメラフィードの背景は、その背景を除去されることが可能であり、それによってアバターは、仮想環境にリアルタイムで送信されるユーザのカットアウト画像のみである。このシステムは、仮想環境を格納しているサーバを備え、複数の参加者からの受信されたカメラフィードを処理して配信するように構成される。このシステムは、米国特許第11,218,522号で論じられているような、P2P、クライアント/サーバ、又はそれらの組合せなどのスキームを使用するWebRTCアーキテクチャーを使用し得る。
【0009】
仮想環境は、ユーザがリモートで会って対話するための機会を提供する。そのような仮想環境で対話する場合、ユーザは、自分のカメラビューを、仮想環境でのアクションを追うことが可能であるように能動的に調整する必要があり得る。例えば、多くのユーザを伴う円卓では、ある話者から別の話者に順番を移す際に、ユーザは、新たな話者を見ることが可能であるように自分のカメラビューを調整するために1つ又は複数の動きを行う必要があり得る。Yerliによる特許出願第17/060,516号(その全体が参照によって本明細書に組み込まれる)は、ユーザによって直接見られ得る仮想環境でのアクションを取り込むために使用され得る仮想放送カメラを提案している。しかしながら、そのケースに関しては、仮想放送カメラを管理するためにクライアントデバイスが必要とされ、人の手作業も必要となる。
【0010】
ユーザに提供されるライブアクションを取り込むこととは別に、仮想放送カメラなどの仮想カメラによって撮られた映像が、現実又は仮想イベントのリプレイを作成するためにさらに使用され得る。典型的な方法は、ビデオストリームがサーバ内のストレージデバイスに送信されることを必要とし、それによってコントローラが、視聴者にとって興味があるかもしれないショットを見直して手動で選択及び/又は編集して、多くの労力を伴う。最後に、典型的な仮想イベントは、特定の事前に定義された順序をたどり、これがミーティングを退屈で単調にする場合があり、それらのすべてが、そのようなイベントのリモートの性質によって悪化させられて、疲労及び退屈につながる。
【0011】
本開示の特定の態様によれば、複数の入力を処理して出力にするマルチモーダルデータストリームベースのAIカメラシステムのためのシステム及び方法が提供される。入力は、ユーザによって仮想環境と共有されるカメラ及び音声フィードであり得る。このシステムは、仮想環境を格納しているサーバを備え、複数の参加者からの受信されたカメラフィードを処理して配信するように構成される。このシステムは、受信された入力に応じた様々な可能な出力の構成を可能にする。このシステムは、出力のプログラムによる選択、及び/又は出力を修正することを可能にするために、プリセット、又はコンテキストシナリオをさらに使用する。出力は、仮想環境で、その1つ又は複数の表面に、例えば、イベントが放送されている仮想環境の仮想スクリーンに提示されることが可能であり、より関心を引く仮想環境を生み出すように構成され得る。カメラ出力は、ライブの、修正されていないカメラフィード、リアルタイムのカメラ調整のフィード、又は例えば、イベントの最も関連のあるシーンを含む「最良のもの」を生み出すための、シーンのリプレイのうちの1つ又は複数の形態を取り得る。
【0012】
例えば、参加者が熱意及び興奮を表現しているという感情のシグナルをシステムが検出した場合、システムは、この感情に合うようにイベントのムードを調整し得る。これは、照明及び音響効果を調整すること、話者の口調及び身振り手振りを変えること、並びに会話のペースを調整することによって行われ得る。同様に、参加者が退屈又は関心のなさを感じているということをシステムが検出した場合、システムは、ムードを調整してエネルギー及び興奮を会話に注入することができる。
【0013】
ユーザの感情のシグナルは、身振り手振り、顔表情、声のトーン、及び言葉の選択など、いくつかの要因に基づき得る。下記は、感情のシグナルの例である。
【0014】
身振り手振り:
腕又は脚を組むことは、防御性又は不快感を示す場合がある。
身を乗り出すことは、興味又は関心を示すことがある。
そわそわすること又はコツコツたたくことは、神経質又は焦りを示すことがある。
うつむくこと又は目を合わせないことは、興味のなさ又は不快感を示すことがある。
開放的なリラックスした姿勢は、自信及び安心を示すことがある。
【0015】
顔表情:
ほほえむことは、喜び又は親しみを示すことがある。
顔をしかめること又は眉間にしわを寄せることは、悲しみ又は怒りを示すことがある。
眉をつり上げることは、驚き又は興味を示すことがある。
口を引き締めること又は唇をギュッと結ぶことは、怒り又は緊張を示すことがある。
目を細めること又は狭めることは、疑い又は不信を示すことがある。
【0016】
声のトーン:
甲高い又は震える声は、神経質又は恐怖を示すことがある。
単調な声は、退屈又は興味のなさを示すことがある。
大きな又は張り上げられた声は、怒り又はフラストレーションを示すことがある。
柔らかいゆっくりとした声は、悲しみ又は心配を示すことがある。
早口のエネルギッシュな声は、興奮又は熱意を示すことがある。
【0017】
言葉の選択:
「すごい」、「素晴らしい」、及び「最高」などの肯定的な言葉は、喜び又は熱意を示すことがある。
「ひどい」、「嫌だ」、及び「がっかり」などの否定的な言葉は、怒り又は失望を示すことがある。
「興味はある」、「まあまあ」、又は「どうでもいい」などの中立の言葉又はフレーズは、興味のなさ又は無関心を示すことがある。
「私は感じる」又は「私の意見では」など、個人的な体験を反映する言葉又はフレーズは、個人的な感情的反応を示すことがある。
【0018】
これらの感情のシグナルを認識することをニューラルネットワークに教えるためにデータセットがトレーニングされ得る。
【0019】
感情を検出するための機械学習の使用はまた、仮想イベントの自然性及び自発性を強化し得る。対面での会話では、参加者は、その他の参加者の感情に基づいて自分の口調、身振り手振り、及び発話パターンを自然に調整する。感情を検出するために機械学習を使用することによって、システムは、この自然な行動を仮想イベントで再現し得る。システムは、参加者の感情を解析し、これらの感情を反映するように会話を調整して、より自然で自発的な会話を生み出すことができる。実施形態は、人々が話しているかどうか、人々がハンドジェスチャーを使用しているかどうか及びそれらのジェスチャーのタイプ、身振り手振り、又は、触覚、圧力、温度、湿度、光、心拍等など、キーボード若しくはその他のセンサから受信されたその他の入力などの追加の入力を使用し得る。実施形態が処理し得る追加の情報は、ユーザが仮想環境とどのように対話しているか又は仮想環境でどのように動いているかである。
【0020】
またさらなる入力は、背景音声、及びカットアウト処理によって切り取られるビデオ情報など、いわゆる「デッド」情報を含み得る。セキュリティー又はプライバシーの懸念があり得るが、これは、特定のオプトイン要件又はその他の法的手段によって改善され得る。前景の又はキーとなる音声を抽出又は強化し、その他の音を分類及びセグメント化するためにノイズキャンセレーション処理が使用され得る。
【0021】
これらの入力の各々は、別々の方法で、及び別々の間隔で解析、モデル化、及び処理されて、仮想会議の仮想環境での行動を活発にすることを意図されている介入を選択するのに役立つことが可能である。例えば、誰かが自分の背景で犬に吠えられている場合、システムの抽出アルゴリズムは、これを認識して、基準の短いリストを有するであろう。システムは次いで、窓の外のシーンにいる犬のビデオ/アニメーション3Dモデルを追加し得る。又は誰かが湯沸かしをオンにした場合、部屋の中の湯沸かしが湯気を出し始めることが可能である。又は礼拝時間なら、空に金色の光が灯り得る。原因及び結果は、直接的又は逐語的である必要はない。それらは、累積的又は組合せ的であり得る。例えば、2人又は3人のユーザが同時にチーム通知を鳴らした場合、その音を表す3Dオブジェクトの縮尺が変わり得る。又は電気掃除機をかける騒音が大きくなっている場合、ロボット掃除機が、その音を出しながらユーザに近づき始めることが可能である。部屋の中のオブジェクトが、球体上の水の波紋、外の花火、又は備品/家具の微妙な揺れなど、斬新で芸術的な方法で部屋の中の累積バックグラウンドノイズレベルを表し得る。
【0022】
映像の背景情報に関しても、同様のプロセスがあり得る。誰かが自分の机の上にカップを置いている場合、これは、実際のシーンにシミュレートされ得る。誰かが自分の後ろに緑のカーテンを有している場合、仮想環境のアクセントの細部のうちの1つが変わり得る。窓の外が晴れている場合、3Dの部屋の外の天気が変わり得る。やはりこれも組合せ的であり得る。それゆえに、場所Aが晴れていて場所Bが曇っている場合、雲の切れ間を通って陽が射すこと、又は虹があり得る。又は仮想環境内に共有の本棚又はアートウォールがあり得、そこでは、そこにいるすべての人々の読み物及び背景画の趣味が集約されている。さらに、誰かがビーチの背景画を有している場合、仮想環境の背景はビーチのシーンになり得る。誰かがスタートレックのポスターを有している場合、背景は宇宙空間であり得る、といった具合である。
【0023】
より一般的には、誰かの照明が2つの閾値の間で変化している場合、仮想環境は、この行動に合わせ得る。誰かが背景にアート作品を有している場合、これが識別されてその人の個人の仮想環境に適用されることが可能である。又は誰かがブランド製品を身に着けているか又はブランドの付いたテクノロジーを使用している場合、これは、ブランドを外されること/ぼかされることが可能である。誰かが自分の本棚に本を有している場合、これは、チャットにURLを貼り付ける代わりに、その他の人が見るためにインポート及びリンクされることが可能である。誰かがオブジェクトをカメラにかざした場合、この認識プロセスは、例えばOCRからAIセグメンテーションを使用してアナログ情報をデジタル化することの摩擦を除去するのに役立ち得る。
【0024】
実施形態はまた、例えば、ニューラル輝度場を使用して、1つ又は複数の2D(2次元)画像を用いて3D(3次元)空間を再現することができる。例えば、誰かが自分の電話をチェス盤に向けることが可能であり、そしてそれに合う3Dのプレイ可能なチェス盤が、仮想環境内のテーブルの上に出現し得る。
【0025】
仮想会議又はウェビナーなどの仮想イベントでは、対面での会話の自然な流れ及びムードを再現することが困難である場合がある。しかしながら、感情を検出するために機械学習を使用することによって、システムは、現実に近い自然な会話を苦もなく容易な様式でシミュレートし得る。全体として、感情を検出するための機械学習の使用は、仮想イベントのダイナミズム、自然性、自発性、興奮、及びエネルギーを高める際に著しい利点を有し得る。システムは、リアルタイムで参加者の感情を解析し、それに従ってイベントのトーン及びムードを調整して、より関心を引くダイナミックな体験を生み出すことができる。対面での会話の自然な行動を再現することによって、システムは、仮想イベントの自然性及び自発性を強化することもできる。
【0026】
実施形態は、1つ又は複数の仮想環境システムに複数の仮想環境を格納するインタラクティブ仮想会議プラットフォームを稼働させるための方法及びシステムを含む。プラットフォームはまた、ビジネスミーティング又はパーティーなど、複数のコンテキストシナリオを格納し得る。感情のシグナルも、プラットフォームによって格納され得る。プラットフォームは、仮想会議に参加したいという複数の要求を受信し得る。参加者どうしは、ビデオ及びオーディオストリームを含むセッションどうしを共に接続することによって仮想会議に接続し得る。プラットフォームは、1つ又は複数のニューラルネットワークを使用して複数のビデオ又はオーディオストリームを解析するためのサーバを含み得る。その解析は、複数のコンテキストシナリオのうちの1つのコンテキストシナリオ、又は入力データからの1つ若しくは複数の感情のシグナルを自動的に検出し得る。解析された入力データに基づいて、このシステム及び方法は、解析された入力データ、検出されたコンテキストシナリオ、又は検出された感情のシグナルに基づいて介入データベースから介入を選択し得る。次にプラットフォームは、介入データベースから介入を読み出し得る。介入を読み出した後に、プラットフォームは、介入データベースから読み出された介入に基づいて仮想会議に介入し得る。介入は、出力オーディオ信号又は出力ビデオ信号に対する少なくとも1つの変化を含み得る。
【0027】
いくつかの実施形態では、入力データは、タイピングスピード、タイピング音量(キャンセレーション)、ハンドジェスチャー、発話時間の量、顔(マイクロ)表情、マウス/スワイプ速度、地理的場所、ブラウザ、ローディング時間、FPS/タブフォーカス、ミーティングタイトル、参加者の数、頭の位置、言語毒性、デバイス、又は発話のリズムのうちの1つ又は複数をさらに含む。
【0028】
いくつかの実施形態では、プラットフォームは、プラットフォームの特定のオプションを設定することを可能にする構成アプリケーションをさらに備える。例えば、構成アプリケーションは、参加者どうしが対話するコンテキストシナリオとは無関係に介入の選択を可能にするように構成され得る。別の例では、構成アプリケーションは、コンテキストシナリオに関連する入力データに基づいて介入の選択を可能にするように構成され得る。この例では、特定のコンテキストシナリオでの入力データは、そのコンテキストシナリオに応じて別々の介入をもたらし得る。例えば、参加者がアンケートリアリティーショータイプのコンテキストシナリオで手を挙げた場合、プラットフォームは、その参加者にスポットライトを当てて特定の音楽を流すという介入を選択し得るが、参加者がビジネスコンテキストシナリオで手を挙げると、プラットフォームは、音楽を流すこと又はその参加者にスポットライトを当てることを伴わずに、仮想カメラアングルをその参加者に向け直して、すべてのその他の参加者のマイクロフォンを下げるだけという介入を選択し得る。
【0029】
プラットフォームはまた、1つ又は複数のニューラルネットワークへの複数のコンテキストシナリオに対応する1つ又は複数のデータセットを含む入力を受信し得る。1つ又は複数のニューラルネットワークは、畳み込みニューラルネットワーク(CNN)及びリカレントニューラルネットワーク(RNN)のうちの1つ又は複数を含み得る。
【0030】
システムは、介入についてのフィードバックを受信し、そのフィードバックを1つ又は複数のニューラルネットワークに適用して、1つ又は複数のニューラルネットワークを、将来の介入に適用するようにトレーニングするように構成され得る。フィードバックは、少なくとも1人のユーザからのランキング、又はビデオ若しくはオーディオストリームを介して検出された1人若しくは複数のユーザからの物理的な反応を含み得る。
【0031】
介入は、仮想カメラアングル、ショットサイズ、又は仮想カメラモーションに対する変化を含み得る。介入はまた、出力ビデオ信号の明るさを変更すること、出力オーディオ信号のトーンを変更すること、又は出力ビデオ信号の色合いを変更することを含み得る。
【0032】
介入はまた、イベントの最も興味深いシーンを選択してその要約を作成することによって、仮想環境で行われているイベントを要約することを含み得る。この実施形態では、録画が、広範囲のデータを取り込むイベントで1つ又は複数の仮想放送カメラを通じて行われ得る。それらの録画は、仮想環境のスクリーンになど、仮想環境の1つ若しくは複数の表面に提示されること、又は仮想環境の壁のうちの1つ若しくは複数に投影されることが可能である。
【0033】
実施形態はまた、1つ又は複数のユーザプロフィールに基づいて介入を選択することを含み得る。ユーザプロフィールは、コンテキストシナリオを、事前に選択された介入基準と相関付ける1つ又は複数のユーザ設定を含み得る。
【0034】
さらなる実施形態では、ユーザプロフィールは、ユーザの学習スタイルに関連したデータを含み、介入は、学習を容易にするためにユーザの学習スタイルに基づいてユーザへのデータの提示を調整することを含む。またさらなる実施形態では、プラットフォームは、ユーザフィードバックを読み取り、ユーザフィードバックに基づいてデータの提示を調整するように構成される。その他の実施形態では、プラットフォームは、同様の学習スタイルを有するユーザどうしを分類し、それに従って、グループ学習を容易にするために、同じ分類のもとにあるユーザどうしへの提示のためにデータをクラスタ化するように構成される。
【0035】
さらなる実施形態は、複数のクライアント側ビデオ会議アプリケーションと、複数のクライアント側ビデオ会議アプリケーションからビデオストリーム又はオーディオストリームのうちの1つ又は複数を受信するように構成されたインタラクティブビデオ会議プラットフォームとを含み得る。インタラクティブビデオ会議プラットフォームは、1つ又は複数のビデオストリーム又はオーディオストリームを解析し、その解析に基づいてコンテキストシナリオを検出することができる。これらの実施形態はまた、複数の介入を含む介入データベースを含むことができ、コンテキストシナリオを検出したことに基づいて、実施形態は、コンテキストシナリオに対応する介入を読み出して実施することができる。これらの実施形態はまた、出力オーディオ信号又は出力ビデオ信号を含む出力信号を含むことができ、インタラクティブビデオ会議プラットフォームは、コンテキストシナリオに対応する介入に基づいて出力信号を修正するように構成される。介入は、1つ又は複数のカメラビューに対する変化及び環境変化を含み得る。
【0036】
実施形態はまた、プロセッサ上で実行されることが可能な命令を含む様々な非一時的コンピュータ可読メディアを含み得る。1つの命令は、仮想会議に参加したいという複数の要求に基づいて複数のユーザを仮想会議に接続することであり得、各セッションは、1つ又は複数のビデオ又はオーディオストリームを含み、これらのビデオ又はオーディオストリームは、集合的に複数のビデオ又はオーディオストリームを形成する。さらなる命令は、複数のビデオ又はオーディオストリームを解析して、シナリオデータベースに格納されている複数のコンテキストシナリオから1つのコンテキストシナリオを検出することであり得る。命令はまた、シナリオデータベースに格納されている複数のコンテキストシナリオのうちの1つのコンテキストシナリオを自動的に検出する命令を含み得る。検出後に、メディアは、コンテキストシナリオに基づいて介入データベースから介入を選択し得る。選択後に、介入データベースからコンテキストシナリオに基づいて介入を読み出す命令があり得る。次いで、介入を読み出した後に、メディアは、介入データベースから読み出された介入に基づいて仮想会議に介入する命令を含むことができ、介入は、出力オーディオ信号又は出力ビデオ信号に対する少なくとも1つの変化を含む。
【0037】
前述の全般的な記述及び以降の詳細な記述は、例であり、説明的なものにすぎず、特許請求されている本発明を制限するものではない。
【0038】
添付の図面は、本明細書に組み込まれて本明細書の一部を構成しており、本開示の典型的な態様を示し、記述と共に、本開示の原理を説明している。
【図面の簡単な説明】
【0039】
図1】本開示のシステム、方法、及びその他の態様が実施され得る例示的な環境の概観を示す図である。
図2】本システム及び方法のプロセスフローの一般的な例200を示す図である。
図3】いくつかの実施形態に従って介入を行うための例示的なプロセスを示す図である。
図4】本開示の態様による、コンピューティング環境で人工知能を使用して介入を行う例示的な方法の例示的なフローチャートである。
図5】本開示の態様による、コンピューティング環境で人工知能を使用する例示的なモデルを示す図である。
図6】本開示の態様による例示的な仮想放送環境を示す図である。
図7A】本開示の態様による例示的な入力及び出力を示す図である。
図7B】本開示の態様による追加の例示的な入力及び出力を示す図である。
図8】本開示の特定の実施形態の複数の潜在的なAIカメラシナリオ800を示す図である。
図9】本開示の特定の実施形態による例示的なフローチャートである。
図10】本開示の特定の実施形態による例示的な環境介入フローを示す図である。
図11】本開示の様々な実施形態の方法のための命令を実行することが可能なコンポーネントの例示的なシステムを示す図である。
【発明を実施するための形態】
【0040】
以降の実施形態では、より関心を引く仮想会議プレゼンテーションを生み出すためのシステム及び方法について記述する。現在の仮想会議は、話者の単一のビデオフィードを提供するか、又は何人かの出席者を伴う複数の枠をすべて一度に提供するかのどちらかであるので、比較的静的で退屈である。本開示の実施形態は、より関心を引くプレゼンテーションを生み出すために様々なカメラ効果又はその他の介入を可能にし得る。
【0041】
次いでこの記述の主題が、以降で添付の図面を参照しながら、より完全に記述されることになり、それらの図面は、この記述の一部を形成しており、例示として、特定の典型的な実施形態を示している。本明細書において「典型的」として記述されている実施形態又は実施態様は、例えば、その他の実施形態又は実施態様よりも好ましい又は有利であると解釈されるべきではなく、むしろ、実施形態(1つ又は複数)が「例示的な」実施形態(1つ又は複数)であるということを反映すること又は示すことが意図されている。主題は、様々な異なる形態で具体化されることが可能であり、そのため、対象とされている又は特許請求されている主題は、本明細書に記載されているいずれの典型的な実施形態にも限定されないと解釈されることを意図されており、典型的な実施形態は、例示となるように提供されているにすぎない。同様に、特許請求されている又は対象とされている主題に関する合理的に広い範囲が意図されている。数ある中でも、例えば、主題は、方法、デバイス、コンポーネント、又はシステムとして具体化され得る。したがって、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せ(ソフトウェア自体は除く)の形態を取り得る。そのため、以降の詳細な記述は、限定的な意味で理解されることを意図されているものではない。
【0042】
本明細書及び特許請求の範囲の全体を通じて、用語は、明示的に記載されている意味を超えて、文脈で示唆又は暗示されるニュアンスの意味を有する場合がある。同様に、本明細書で使用されている「一実施形態で」というフレーズは、必ずしも同じ実施形態を指すとは限らず、本明細書で使用されている「別の実施形態で」というフレーズは、必ずしも異なる実施形態を指すとは限らない。例えば、特許請求されている主題は、全体的に又は部分的に典型的な実施形態どうしの組合せを含むということが意図されている。
【0043】
以降で使用されている用語は、たとえその用語が本開示の特定の具体的な例の詳細な記述と共に使用されているとしても、その用語の最も広い合理的な様式で解釈され得る。実際に、特定の用語は、以降で強調される場合さえあるが、何らかの制限された様式で解釈されることを意図されているいかなる用語も、この詳細な記述のセクションでは、そのようなものとして明白に及び具体的に定義されることになる。前述の全般的な記述及び以降の詳細な記述は両方とも、典型的で説明的なものにすぎず、特許請求されている特徴を制限するものではない。
【0044】
本開示では、「~に基づく」という用語は、「~に少なくとも部分的に基づく」を意味する。単数形の「a」、「an」、及び「the」は、複数形の指示対象を含む。ただし、そうではないと文脈が示す場合は除く。「exemplary(典型的な)」という用語は、「ideal(理想的な)」ではなく、「example(例示的な)」の意味で使用されている。「or(又は)」という用語は、包括的であることを意図されており、どちらかの、いずれかの、いくつかの、又はすべての列挙されている項目を意味する。「comprises(備える)」、「comprising(備える)」、「includes(含む)」、「including(含む)」という用語、又はそれらのその他の変形は、非排他的な包含をカバーすることを意図されており、それによって、要素のリストを備えるプロセス、方法、又は製品は、必ずしもそれらの要素のみを含むとは限らず、明示的にリストアップされていない、又はそのようなプロセス、方法、物品、若しくは装置に固有のその他の要素を含み得る。「実質的に」及び「概して」などの相対的な用語は、記載されている又は理解される値の±10%のあり得る変動を示すために使用されている。
【0045】
ここで添付の図面を参照すると、図1は、本開示の1つ又は複数の実施形態による例示的な環境(又はシステム(1つ又は複数))100の概観を示している。環境100は、例えば、第1のユーザデバイス(1つ又は複数)110及び第2のユーザデバイス(1つ又は複数)120を含むことができ、これらは、ネットワークシステム(1つ又は複数)130及び協調的インタラクティブビデオ会議プラットフォーム140と通信するように構成される。環境100では2つのユーザデバイス(1つ又は複数)110及び120が示されているが、本開示に従って、同期的に又は非同期的に、ネットワークシステム(1つ又は複数)130及び/又は協調的インタラクティブビデオ会議プラットフォーム140と通信するために、並びに複数のユーザの協調的なコンテンツ作成に参加するために、追加のユーザデバイスが環境100で提供され得る。
【0046】
本開示の態様によれば、ネットワークシステム(1つ又は複数)130は、有線又はワイヤレスネットワークを含む1つ又は複数のネットワークを定義し得る。ネットワークシステム(1つ又は複数)130は、例えば、インターネット及び/又は1つ若しくは複数のクラウドネットワークを含み得る。さらに、ネットワークシステム(1つ又は複数)130は、インターネットなどのパブリックネットワーク、イントラネットなどのプライベートネットワーク、又はそれらの組合せを含むことができ、TCP/IPベースのネットワーキングプロトコルを含むがそれらに限定されない現在利用可能な又は後に開発される様々なネットワーキングプロトコルを利用し得る。ネットワークシステム(1つ又は複数)130は、ユーザデバイス(1つ又は複数)110及び120と協調的インタラクティブビデオ会議プラットフォーム140との間のデータの通信を可能にするためにユーザデバイス(1つ又は複数)110及び120を協調的インタラクティブビデオ会議プラットフォーム140に通信可能に結合するように構成され得る。ネットワークシステム(1つ又は複数)130は一般に、1つのデバイスから別のデバイスへ情報を通信するための任意の形態のコンピュータ可読又はマシン可読メディアを採用することを可能にされ得る。ネットワークシステム(1つ又は複数)130は、コンピューティングデバイスどうしの間を情報が移動し得る通信方法を含み得る。ネットワークシステム(1つ又は複数)130は、パブリック又はプライベートネットワーク接続とみなされることが可能であり、例えば、仮想プライベートネットワーク、又はパブリックインターネット上で採用される暗号化若しくはその他のセキュリティーメカニズムなどを含み得る。
【0047】
一実施形態では、ユーザデバイス(1つ又は複数)110及び120は、協調的インタラクティブビデオ会議プラットフォーム140と直接、又はネットワークシステム(1つ又は複数)130若しくはその他の利用可能な通信チャネルを通じて間接的に通信し得る。ユーザデバイス(1つ又は複数)110及び120が協調的インタラクティブビデオ会議プラットフォーム140と直接通信するケースでは、協調的インタラクティブビデオ会議プラットフォーム140は、例えば、上記のネットワークシステム(1つ又は複数)130に関連して記述されている1つ又は複数の通信方法を介した通信を容易にするように実装及び構成され得る。
【0048】
本開示の態様によれば、協調的インタラクティブビデオ会議プラットフォーム140は、サーバシステム(1つ又は複数)142、ビデオストレージシステム(1つ又は複数)144、ニューラルネットワーク146、仮想環境システム(1つ又は複数)148、及び介入データベース150を含み得る。いくつかの実施形態では、インタラクティブビデオ会議プラットフォーム140は、本開示の態様に従って、サーバシステム(1つ又は複数)142、ビデオストレージシステム(1つ又は複数)144、ニューラルネットワーク146、仮想環境システム(1つ又は複数)148、及び介入データベース150のいくつかの又はすべての機能を実行するように構成され得る1つ又は複数のサーバであり得る。システム(1つ又は複数)は、本開示では、様々な電子及びコンピュータシステムを含むことができる様々な実施態様を含み得る。本明細書に記述されている1つ又は複数の実施態様は、2つ以上の特定の相互接続されたハードウェアモジュール又はデバイスを、モジュールどうしの間で及びモジュールを通じて通信されることが可能である関連した制御及びデータ信号と共に使用して、又は特定用途向け集積回路の部分として、機能を実施し得る。したがって、システム(1つ又は複数)は、ソフトウェア、ファームウェア、及びハードウェアの実施態様を包含する。
【0049】
本開示の態様によれば、サーバシステム(1つ又は複数)142は、クラウドサーバ/ネットワーク、エッジサーバ/ネットワーク上に、ネットワークシステム(1つ又は複数)130内に、及び/又は、サーバシステム(1つ又は複数)142が協調的インタラクティブ仮想会議プラットフォーム140と直接若しくは間接的に統合され得る場所に配置され得る1つ又は複数のデータサーバ又はデータベースを含み得る。サーバシステム(1つ又は複数)142は、本開示の実施形態に従って、関心を引く仮想会議を生み出すために、ユーザデバイス(1つ又は複数)110及び120並びに/又はネットワークシステム(1つ又は複数)130から受信されたデータを格納すること及び処理することが可能である。加えて、サーバシステム(1つ又は複数)142は、ビデオストレージシステム144、ニューラルネットワーク146、仮想環境システム(1つ又は複数)148、及び介入データベース150との間でデータ又はコマンド信号を受信及び伝送して、関心を引く仮想会議の実行を容易にすることができる。
【0050】
本開示の態様によれば、ビデオストレージシステム(1つ又は複数)144は、第1のユーザ112及び第2のユーザ122から、それらのユーザの対応するユーザデバイス110/120を通じて1つ又は複数の入力又はコマンドを受信し得る。上述されているように、環境100は、2人よりも多いユーザ又は2つのユーザデバイス110及び120よりも多いユーザデバイスを含み得る。したがって、ビデオストレージシステム(1つ又は複数)144は、2人よりも多いユーザ又は2つよりも多いユーザデバイスから入力及びコマンドを受信し得る。或いは、ビデオストレージシステム(1つ又は複数)144は、協調セッションのタイプに応じて第1のユーザ112又は第2のユーザ112のみから1つ又は複数の入力又はコマンドを受信し得る。すなわち、協調的インタラクティブビデオ会議プラットフォーム140は、1つ又は複数の仮想会議を容易にし得る。
【0051】
一実施形態では、第1のユーザ112及び/又は第2のユーザ122はそれぞれ、第1のユーザデバイス(1つ又は複数)110及び第2のユーザデバイス(1つ又は複数)120に同期的に又は非同期的にコマンドを入力し得る。ビデオストレージシステム(1つ又は複数)144は、直接、又はネットワークシステム(1つ又は複数)130及び/若しくはサーバシステム(1つ又は複数)142を介して間接的に、ユーザデバイス(1つ又は複数)110及び120からの入力コマンドを受信し得る。ビデオストレージシステム(1つ又は複数)144は次いで、入力コマンドをテキストデータに転写又は変換し得る。テキストデータの形態で受信され得る入力コマンドに関しては、ビデオストレージシステム(1つ又は複数)144によるテキストデータへの変換は必要ではない場合がある。ビデオストレージシステム(1つ又は複数)144は次いで、テキストデータのセマンティクスを取り込むこと(例えば、会話のコンテキストを理解すること)、重複及び/若しくは冗長性(例えば、不要な情報)を検出すること、テキストデータにラベル付けすること、並びに/又はプロンプトを検出することによって、入力コマンドのタイプ又は形態に応じて、変換されたテキストデータ又は受信されたテキストデータを解析し得る。ビデオストレージシステム(1つ又は複数)144は次いで、例えば、検出された重複及び/又は冗長性を除去することによって、解析されたテキストデータを、必要な場合には、クリーニング又は修正し得る。ビデオストレージシステム(1つ又は複数)144は次いで、解析されてクリーニングされたテキストデータから、もしもプロンプトがあれば、それらのプロンプトを抽出することへ進み得る。いくつかの実施形態では、ビデオストレージシステム(1つ又は複数)144は、トレーニングされた機械学習モデルを利用し得る。ビデオストレージシステム(1つ又は複数)144は次いで、抽出されたクリーンなプロンプトを仮想環境システム(1つ又は複数)148に送信し得る。いくつかの実施形態では、データの変換又は転写は、ユーザデバイス(1つ又は複数)110、120上で行われ得る。したがって、ユーザデバイス(1つ又は複数)110、120は、オーディオ又はその他のタイプのデータのテキストへの変換を可能にするコンピュータコードを実施して、転写されたテキストを協調的インタラクティブビデオ会議プラットフォーム140に送信することができる。或いは、上述されているように、データの転写又は変換は、サーバシステム(1つ又は複数)142によって協調的インタラクティブビデオ会議プラットフォーム140内で行われることが可能であり、それによって入力デバイス(1つ又は複数)110、120は、いかなるデータの転写又は変換も実行する必要がない場合がある。或いは、サーバシステム(1つ又は複数)142のすべての機能は、テキストの転写若しくは変換、入力、若しくはコマンドデータの解析、及び/又は入力若しくはコマンドデータのクリーニングを含めて、ニューラルネットワーク146によって実行され得る。
【0052】
一実施形態では、ラベル付けプロセスは、画像データ、ビデオデータ、及び/又はその他のタイプのオーディオデータなどの任意のタイプの入力又はコマンドデータ、に対してビデオストレージシステム(1つ又は複数)144によって実行され得る。テキストデータを含まないデータに関しては、ラベル付けプロセスは、コマンドのテキストへの転写の一種と考えられることが可能である。例えば、ユーザ112、122の口調が、ビデオストレージシステム(1つ又は複数)144によって特定の感情シグナルに関連付けられる場合、ビデオストレージシステム(1つ又は複数)144は、1つ又は複数のニューラルネットワーク146によって特定され得る、例えば、怒っている、喜ばしい、悲しい、心配している、熱狂しているなどを含むラベルを生成し得る。複数の参加者が、同様の感情、異なる感情、又は相反する感情さえ示している場合がある。ビデオストレージシステム(1つ又は複数)は、トレーニングデータのセットに基づいて各参加者に関するリアルタイムの感情を特定し得る。
【0053】
本開示の態様によれば、仮想環境システム(1つ又は複数)148は、参加者の声のトーン、言葉、及び動作など、特定の要因を解析することができ、仮想会議を円滑に進行し続けるために、又は1人若しくは複数のユーザによって定義された何らかのその他の目的を達成するために仮想会議に特定の介入を行うことができる。
【0054】
本開示の態様によれば、仮想環境システム(1つ又は複数)148は、環境100内のユーザ112、122がコンテンツを作成する目的で協調するために利用し得る1つ又は複数のコンピューティング環境の生成を容易にし得る。コンピューティング環境は、例えば、拡張現実環境、仮想現実環境、及び2次元(2D)又は3次元(3D)のシミュレートされた環境を含み得るが、それらに限定されない。コンピューティング実施形態でのコンピューティング環境及びユーザ協調の例が、同時係属中の米国特許出願第17/006,327号にも開示されており、その米国特許出願は、その全体が参照によって本明細書に組み込まれる。さらに、その同時係属出願に開示されている機械学習アルゴリズムのうちのいずれも、個別に、又はビデオストレージシステム(1つ又は複数)144及び/若しくは仮想環境システム(1つ又は複数)148によって使用される機械学習モデルと組み合わせて使用されるように組み込まれ得る。
【0055】
このシステムは、受信された入力に応じて様々な可能な出力をユーザが構成することを可能にし得る。このシステムは、出力のプログラムによる選択を可能にするために、及び/又は出力を修正するために、プリセット、又はコンテキストシナリオをさらに使用し得る。様々なコンテキストシナリオは、小さなオフィス若しくは大きな会議室でのビジネスミーティング、家での誕生日パーティー、診療所、又はナイトクラブを含み得る。
【0056】
それゆえに、このシステムは、ユーザ及び非ユーザデータソースを含む多くのデータソースから利用可能な複数のデータポイントを利用する。ユーザデータソースは、ユーザアバターのグラフィックスデータ、それらのアバターの位置及び向き、それらのアバターの音声、動き、ユーザアバターによって実行されたアクティビティー等など、ユーザアバターによって生成されたデータを含む。非ユーザデータは、仮想環境内のオブジェクト、周囲のノイズ、周囲の音楽、照明、明るさ、色などを含む。それらのデータが処理されて、ユーザが感情及び行動を生み出すためのさらなる刺激を表すカメラ出力を作成することが可能である。データの処理は、システムによって実施されるニューラルネットワークによる入力の論理的な解釈を含み、これは、対応するカメラ出力を作成するために使用され得る。さらなる刺激の生成は、仮想環境で対話するユーザのさらに広い範囲の人間感情にアクセスするのに役立つことが可能であり、これは、ユーザのモチベーション、共感、学習、つながり、及び全体的なエネルギーを強化して、より興味深く楽しい仮想イベントを生み出し、注意力持続時間、学習能力、及び生産性を潜在的に高めることができる。本開示のシステム及び方法は、仮想作業ミーティング、ビデオゲーム、セールスミーティング、仮想会議、セミナー等など、仮想環境で開催される任意のタイプの仮想イベントのために使用され得る。
【0057】
このシステムは、1つ若しくは複数のカメラビューに対する変化又は環境変化などの介入を生成するためのスマートで共感的な仮想環境を可能にする機械学習された共感を実施し得る。本開示では、共感という用語は、人工知能アルゴリズムを実装しているコンピュータシステムが、ユーザの精神的な観点、感情、及び行動を論理的に理解し、その論理的な理解を使用して、ユーザに影響を与える出力を作成する能力を指す。
【0058】
本開示で採用されている「共感」は、3つのカテゴリーに分けられ得る。
・認知的な共感: ユーザの思考、意図、及び動機を理解して、1つ又は複数の介入を通じてユーザの行動に影響を与える能力。
・感情的な共感: 感情及びムードを理解する能力。これは、ハンドジェスチャー、声のトーン、発話又はタイピングスピード、単語どうし及び/又は文どうしの間のポーズ、顔表情、ハンドジェスチャー等など、微妙な、言葉によらないメッセージに基づいて行われ得る。
・社会的な共感: グループを認知的に及び/又は感情的に理解して、1つ又は複数の介入を通じてユーザの行動に影響を与える能力。このシステムは、いくつかのタイプの入力から様々な認知的な感情のシグナルを読み取り、グループの優勢な視点、感情、及び行動を特定して、所望の出力を作成し得る介入を定義することができる。このシステムは、例えば、ある感じ方が優勢である1つのグループには特定のタイプのカメラ出力を、そして別のグループには別のカメラ出力を提供することによって、介入どうしを、それらの介入の社会的に特定された認知的な及び感情的な優位性に基づいてさらに分類及び区別し得る。
【0059】
実施形態は、肯定的な仮想会議体験を生み出すための介入を生成するために共感検出を使用し得る。
【0060】
例示的な介入は、例えば、あるユーザの音量を上げて、その他のユーザの音量を下げること、あるユーザにスポットライトを当てること、仮想環境の天気を修正すること、仮想環境の照明及び/又は色を変更すること、アクションを取るようユーザに促すテキストを伴うポップアップを生成すること、アクションを取るようユーザに促すオーディオ又は触覚データを生成すること、仮想カメラの1つ又は複数のユーザアバターの視点を修正することなどであり得る。結果として生じるユーザの行動は、システムによってさらに取り込まれ、新たな入力として使用されて、対応する新たな出力を生成することが可能である。
【0061】
カメラ出力は、下記のうちの1つ又は複数の形態を取り得る。
間接的な介入: これらは、どのようなタイプの行動変化がユーザから期待されるかをユーザに直接伝えない、色、音、雰囲気などにおける変化である。例えば、背景の色を変えること、誰かにスポットライトを当てること、音楽又は天気を変えることは、すべて間接的な介入である。
【0062】
直接の介入: 何か、例えば、この質問をすること、彼らに追加のデータを提供すること、情報の要約を提供すること、情報を解析することなどを行うようにユーザに向けて指示するテキスト、ビジュアル、又はオーディオ出力。これは、明確なフィードバックに関連しており、ユーザが解釈する必要があるであろう何かではなく、例えば、しばらく話していないユーザがいる場合、そのユーザに対して質問するように促すテキストプロンプトがあり得るなどの明確なルールにリンクされている。別の例では、あるセールスマンがセールスミーティングでクライアントに販売を行っていて、そのクライアントは、長い間話していない。時間ルールがシステムにおいて構成され、それによって、顧客の長い沈黙をシステムが測定した場合、システムは、セールスマンに対して直接の介入を促して、質問するようセールスマンに促すことができる。そのような時間ルールは、事前に定義された秒数又は分数の後にシステムがプロンプトを送信するように構成されることが可能であり、時間ルールは、会話の意味的なコンテキスト及び/又はその他の要因によってさらに影響を受けることがある。例えば、前の会話が、あるユーザから別のユーザへの、文書の見直しのために5分間を彼らに与えるという指示を含んでいた場合、時間ルールは、その時間を考慮して、その間にはいかなる中断も引き起こさない。プロンプトは、テキスト、触覚、又は音声プロンプトの形態であり得る。テキストがデフォルトであるが、その他の手段もそのように可能である。
【0063】
大規模な行動介入: これらの介入は、ビデオゲーム、又はグループ対話を必要とするその他の用途のために適用され得る。ビデオゲームのケースに関しては、大規模な行動介入は、シナリオを変更するようプレーヤに促すこと、又はプレーヤが他のどこかへ行くように隕石によって世界を攻撃させること、又はプレーヤが他のどこかへ移動するようにモンスターを出現させることが可能である。これらの介入は、例えばミーティングに適用されることが可能であり、その場合、ミーティング中に事態が過熱しているならば、大規模な介入が、休憩を取るよう全員に促すことができる。このような介入は、促されている行動を実行すること以外の選択肢を提供しない。
【0064】
図2は、本システム及び方法のプロセスフローの一般的な例200を示している。このシステムは、システム入力290~299に対応する複数の入力205を有し得る。システム入力290~299は、例えば、ビデオ又はオーディオストリーム、タイピングスピード、タイピング音量(キャンセレーション)、ハンドジェスチャー、発話時間の量、顔(マイクロ)表情、マウス/スワイプ速度、地理的場所、ブラウザ、ローディング時間、FPS/タブフォーカス、ミーティングタイトル、参加者の数、頭の位置、言語毒性、デバイス、又は発話のリズム、帯域幅、スループット、及び入ってくる信号の強度であり得る。
【0065】
このシステムは、ニューラルネットワーク270~285に対応する複数のニューラルネットワークケイデンス210(例えば、顔認識、音解析など)を使用することができ、それらは、システムの構成、及び受信されたシステム入力290~299に応じて、1つ又は複数の入力カテゴリー(例えば、音295、ビデオ299、システム入力290など)を処理し、ネットワーク出力265及び260に対応する様々な形態のネットワークデータ215を生成する。ニューラルネットワーク270~285は、別々のニューラルネットワークケイデンス210で動作し得る。例えば、並列入力ストリームは、それらのストリームが何を取り込んでいるかに応じて別々の間隔又はティックレートで処理され得る。感情は、5~10秒ごとであり得る。動きは、1秒間に数回処理され得る。これはまた、誰が会話の中心であるかに応じて変わり得る。例えば、その話者は、積極的な参加者ではない誰かよりも頻繁に処理され得る。各並列入力ストリームは、入力(1つ又は複数)を生成している人々、彼らが何をしているか、及びその他の要因に応じて、異なって処理され得る。これらのネットワーク出力260及び265は、格納されているルールベースのオペレーション又は論理テスト255の形態でのエンジンコード220を実行することによってさらに処理されて、1つ又は複数の対応するカメラ出力を生成する。カメラ出力は、仮想環境で、その1つ又は複数の表面に、例えば、イベントが放送されている仮想環境の仮想スクリーンに提示され得る。カメラ出力は、環境変化235及び240に対応する、環境変化225のうちの1つ又は複数の形態を取り得る。
・ライブの、修正されていないカメラフィード、
・リアルタイムに近いカメラビューの調整、又は、
・例えば、イベントの最も関連のあるシーンを含む「最良のもの」を生み出すための、シーンのリプレイ。
【0066】
このシステムは次いで、それぞれ要素250及び245に対応する状態変化230を行うことによって環境変化235及び240を実施し得る。
【0067】
実施形態は、カメラ、マイクロフォン、センサ、及びその他の適切な入力デバイスなどの複数のソースからデータを受信するように構成されたプロセッサを備え得る。プロセッサは次いで、フィルタを適用してデータを解析用の適切なフォーマットに変形することによって、データを前処理し得る。いくつかの実施形態では、データは、解析の精度を改善するために、より小さな部分又はフレームにセグメント化され得る。
【0068】
前処理されたデータは次いで、畳み込みニューラルネットワーク(CNN)に通されることが可能であり、CNNは、画像解析に特に適している深層学習アルゴリズムの一種である。CNNは、様々な感情状態に対応するラベル付けされた画像の大規模なデータセットを使用してトレーニングされ得る。トレーニングプロセス中に、CNNは、特定の感情に関連付けられているデータ内のパターンを認識することを学習する。トレーニングされたCNNは次いで、そのCNNが学習したパターンに基づいて新たなデータを分類するために使用され得る。
【0069】
いくつかの実施形態では、このシステムは、複数のCNNを使用することができ、それぞれは、特定のタイプの入力についてトレーニングされる。例えば、あるCNNは、顔表情についてトレーニングされることが可能であり、その一方で別のCNNは、声のイントネーションについてトレーニングされ得る。これらのCNNの出力は次いで、融合アルゴリズムを使用して組み合わされて、感情状態のさらに正確な予測を生成することが可能である。
【0070】
CNNに加えて、リカレントニューラルネットワーク(RNN)又はサポートベクターマシン(SVM)などのその他のAIアルゴリズムが、入力のタイプ及び所望の出力に応じて使用され得る。例えば、RNNは、声のイントネーションなどの時系列データのために使用されることが可能であり、その一方でSVMは、ハンドジェスチャー認識のために使用され得る。
【0071】
全体として、本開示は、様々な入力を使用して感情を検出するために機械学習を使用するための方法及びシステムを提供する。CNN及びその他の適切なAIアルゴリズムの使用は、感情状態の正確な及び堅牢な検出を可能にし、これは、市場調査、メンタルヘルス診断、及びヒューマンコンピュータインタラクションなどの様々な用途で有用であり得る。
【0072】
カメラリプレイで示されるカメラ出力は、イベントのムード及びイベントのダイナミクスに効果を及ぼすように仮想環境内の1人又は複数のユーザの1つ又は複数の行動修正を促すように構成されることが可能であり、これは、より活発な、自発的な、及びリアルなユーザ体験を生み出し得る。カメラ調整の出力は、例えば、ユーザに対してズームイン又はズームアウトを行うこと、カメラをパンすること、カメラのアングルを変更すること、カメラ効果を追加すること、カメラの視野を修正することなどを含み得る。結果として生じるユーザの行動は、仮想カメラによってさらに取り込まれ、新たな入力として使用されて、対応する新たな出力を生成することが可能である。
【0073】
音声入力は、ユーザのマイクロフォンによって取り込まれることが可能であり、ユーザの音声データ、仮想環境の音楽、タイピング音、トーン、及び声のスピード、話すリズム、韻律などを含み得る。ビデオ入力は、現実のカメラ及び仮想カメラによって取り込まれることが可能であり、仮想環境内の様々なユーザ及び要素の仮想カットアウトを、それらの位置及び向き、各ユーザの仮想カメラの現在の視点、ユーザのマイクロ顔表情、ハンドジェスチャー、頭の動きと共に含むことが可能であり、システム入力は、仮想環境の処理システムによって取り込まれることが可能であり、タイピングスピード、ローディングスピード、フレーム/秒(FPS)、マウス/スワイプ速度、現在のシステム負荷、利用可能な帯域幅を含むシステム容量、利用可能なコンピューティングパワー、利用可能なメモリなどを含み得る。
【0074】
ニューラルネットワークは、適切なAIアルゴリズムを使用することができ、それらのAIアルゴリズムは、視覚データなどのデータを取り込み、そのデータを、重み付けが適用される論理グラフに通し、何らかの属性に向けて数値応答が返される。入力のタイプ及び所望の出力に応じて使用され得るAIアルゴリズムどうしの少数の順列がある。1つのそのようなAIアルゴリズムの例が、畳み込みニューラルネットワークである。
【0075】
ネットワーク出力は、1つ又は複数のカテゴリーの処理された入力である場合があり、それらの入力は、論理テストの形態で格納されているルールベースのオペレーションを実行することによってさらに処理されて、1つ又は複数の対応するカメラ出力を生成する。
【0076】
カメラ出力は、本明細書では介入とも呼ばれ、イベントのムード及びイベントのダイナミクスに効果を及ぼすように仮想環境内の1人又は複数のユーザの1つ又は複数の行動修正を促すように構成されることが可能であり、これは、より活発な、自発的な、及びリアルなユーザ体験を生み出し得る。
【0077】
カメラ出力は、ユーザプロフィールに基づいてユーザごとに異なる方法で個別化され得る。ユーザプロフィールは、ユーザの背景、好み(例えば、興味のある話題、音楽、食べ物など)、文化、経歴、年齢層、社会階級、性格、学習タイプなどを含むデータを含み得る。好みはまた、ユーザが大きな介入を好むか又は小さな介入を好むか、様々なコンテキストシナリオ又は感情のシグナルに基づく具体的な介入どうしの間での選択など、事前に選択された介入基準を含み得る。システムは、仮想環境でユーザが行う対話に基づいてユーザプロフィールを継続的に更新するために使用されるさらなるユーザプロフィールデータを生成し得る。それゆえにシステムは、各ユーザから継続的に学習しており、そのデータを使用して、自分自身をさらに改善し、各ユーザをよりよく理解して、自身の共感レベルを高める。それゆえに、リプレイのうちの複数の「最良のもの」がユーザプロフィールに基づいて生成されることが可能であり、それに伴って、少なくとも1つの可能なリプレイが各ユーザに提供される。
【0078】
リプレイに加えて、実施形態は、検出された感情のシグナル、身振り手振り等などの入力に基づいて仮想会議の自動化された要約を生成し得る。その要約は、ミーティングが喜ばしいものであったか、悲しいものであったか、熱狂するものであったか、悪いものであったか、又は販売に至ったかなど、1つ又は複数のミーティング結果を示すスマート解析であり得る。自動化された要約はまた、多くのアクションポイントがあったかどうかのログ、又は笑いの量、尋ねられた質問の数、又は仮想会議への多様な人々の参加などの統計を含み得る。実施形態は、ソーシャルメディアと直接接続されて、自動化された要約をソーシャルメディアプラットフォームに自動的に報告することが可能である。
【0079】
間接的な環境介入が、個人又はグループレベルでユーザに提示され得る。それゆえに、所望の結果に応じて、このシステムは、特定の介入が特定のユーザにのみ示されて、その他のユーザには示されないということを決定し得る。
【0080】
間接的な介入の例では、あるユーザがミーティングでしばらく話していない場合、介入は、そのユーザの好みの曲であることが分かっている個別化された曲を再生することであり得、その曲は、そのユーザにのみ再生されて、活力を得て会話に再び関与するようそのユーザに促すことが可能である。別の例では、例えば、大多数のユーザが苛立ちの兆候(例えば、顔表情、声のトーン、ハンドジェスチャー、使用されている言葉など)を示していることに起因して、仮想ミーティングのエネルギーが苛立ちのものであるとシステムが特定した場合、システムは、より冷静な色、例えば、青、緑、若しくは紫を仮想環境内に追加すること、及び/又は仮想セッションのエネルギーをそらす癒しのバックグラウンドミュージックを仮想環境内に再生することを決定し得る。再生される曲、及び/又は色は、ユーザプロフィールに基づいて個々に選択されることが可能であり、それゆえ、たとえ同様の介入(例えば、色及び音楽を修正すること)が選択されたとしても、各ユーザは、別々の何かを見聞きすることになり得る。システムは、ユーザの現在の仮想カメラのPOVを修正すること、及び/又はユーザの感情に影響を及ぼし得る何かを仮想カメラの前に表示することをさらに決定し得る。
【0081】
同様に、直接の介入は、複数のユーザに同時に送信されることが可能であり、各介入は、ユーザプロフィールに基づく違いを含んでいる。
【0082】
同じロジックは、大規模な行動介入に当てはまる。例えば、ゲームレベルの変更が行われることになる場合、システムは、特定のエリアに移動することに進む旨のすべてのユーザに対するメッセージを表示することができ、その場合、そのメッセージのテキストは、ユーザプロフィールに基づいてユーザごとに異なる色を有する。加えて、再生される音楽は、プロフィールに基づいて各ユーザにとって異なり得る。
【0083】
一実施形態では、仮想環境は3Dボードゲームであり得る。介入は、ボードが爆発することなど、大規模であり得る。行動、アクション、感情等など、検出された入力に基づいて、いくつかの異なる介入がゲームに対して行われ得る。これは、製品の対話性、保持、及び解約に多大なインパクトを及ぼし得る。
【0084】
トレーニング、販売、又は教育環境など、別の実施形態では、3D環境のパワーをビデオ会議サービスと組み合わせることが非常に有用であり得る。多くの場合、エキサイティングなグラフィックス及び光のショーは、生み出すのに非常に費用がかさむ。それらのショーは、仮想環境では大幅に安価であり、同様の効果を引き出し得る。
【0085】
図3では、既存の行動305を特定するためにいくつかのタイプの入力300を取り入れること、そのデータを(ニューラルネットワークを通じて)処理すること、並びに論理テストを通じてネットワーク出力を解析及び評価すること310によって、このシステムは、仮想環境で異なる行動320を促すことを意図されているカメラ出力の形態での介入315を設計し得る。それらの介入は、本明細書の全体を通じて記述されているように、学習された共感に基づいて決定され得る。
【0086】
図4は、マイクロフォン475及びウェブカメラ480によって取り込まれたシステム入力405が、4つのニューラルネットワーク410による処理のために送信される例示的なフローチャート400を示しており、各ニューラルネットワーク410は、別々の要素、例えば、頭の動き455、手の動き460、感情465、及びジェスチャー470(仮想環境でのそれらの位置及び向きを含む)を処理するように構成されている。ニューラルネットワーク455、460、465、及び470は、定期的に(例えば、1秒ごとに)入力データをポーリングし、頭の位置445及び声のトーン450などのネットワークデータ415を生成し得る。ポーリングは、誰が話しているか、頻繁なサンプリングに対する必要性、帯域幅、及びその他の計算リソースなど、いくつかの要因に基づいて別々のニューラルネットワークケイデンス410で発生し得る。ケイデンスの変更は、リアルタイムで生じ得る。選択されたネットワークデータ415は、論理テスト440で使用されて、怒りなどの感情を結論付けることが可能であり、これは、FOVにおける増大430、カメラアングルにおける変化、ユーザに対してカメラを遠ざけること又は近づけること、天気、音、色などにおける変化という形態で、対応する出力425を促し得る。例えば、声のトーン450が高められ、頭の位置445(及び、おそらくは、顔のジェスチャー)が何らかの形で「攻撃的」としてシステムによって特徴付けられた場合、論理テスト440は、ニューラルネットワーク410のトレーニングに基づいて、ユーザが怒りを示していると結論付け得る。
【0087】
出力は、例えば、雷雨を開始すること、雷の音を再生すること、ユーザの声を増幅すること、背景色を(例えば、赤色に)変更すること、又は赤から紫若しくは青へなど、色をフェードすることなど、仮想環境の外側での天気における変化の形態であり得る。環境介入は、行動及び/又は感情をこのように促し得る。行動は、必要に応じてさらなる出力を生成するために仮想環境によってさらに感知される。
【0088】
いくつかの実施形態では、このシステムは、仮想環境内のイベントの録画が、所望される場合にユーザに提示されることを可能にする。その他の実施形態では、このシステムは、イベントを要約することを可能にするAIアルゴリズムを適用して、イベントの最も興味深いシーンを選択してその要約を作成することをさらに可能にする。録画は、ユーザ及び非ユーザデータを含む広範囲のデータを取り込むイベントで1つ又は複数の仮想放送カメラを通じて行われ得る。イベント録画は、仮想環境の1つ若しくは複数の表面に提示されることが可能であり、又はユーザが後の時点で再生する目的でユーザデバイスに後で送信するためにメモリに格納されることが可能である。イベント録画は、ユーザに送信する前に、必要な場合には、さらに処理され得る。イベント録画は、例えば、参加者からの強い反応を識別することによって検出され得る。反応は、一度にいくつかのカメラアングルを使用して格納されること、及び仮想会議が終了した後に、終了時に、又はユーザが再生を要求する任意の時点でなど、後で再生するためにメモリに格納されることが可能である。再生は、ユーザ画面全体に、又は仮想ホワイトボードなど、仮想環境の表面上にあり得る。
【0089】
再生にとって最も重要な部分は、コンテキストシナリオに基づくことも可能である。例えば、ビジネスミーティングは、要点の選り抜きである必要があり得、これは、音声認識と、共感トレーニングされたニューラルネットワークとの組合せを介して検出され得る。或いは、娯楽的な題材のミーティングならば、最も強い反応又は笑いを生み出したアクティビティーを識別することのように、異なるコンテキストを有するであろう。
【0090】
図5は、仮想環境で音を出している人々の位置入力592を含む音入力590などのシステム入力505をシステムが受け取る例示的なモデル500を示している。音及び位置は、510で処理され、588で集約されて、誰が話しているか582、彼らの口調はどうか584、彼らの発話の長さ586、及び彼らのメッセージの受け手587を特定することなど、様々な音パラメータ515を抽出する。各音パラメータ515に関しては、それぞれの応答520があり得、それらの応答は、この例では、「アレックスが話している」565、「彼の口調は落ち着いている」、「彼は10秒間話している」、及び「彼はビルに話しかけている」である。そのような音解析に関しては、必要とされる応答を抽出するために処理され得る貴重なデータを提供するために音のスペクトログラムが使用され得る。スペクトログラム解析は、誰かの声のエネルギー、振幅、又は周波数に焦点を合わせ、次いで、そのカーブの大きさ又はカメラ変化540及び545のペースを解析し、推定することを試みて、それに従ってカメラを動かすパターンを予測することができる。このデータは、ルールベースの論理テスト560などのエンジンコード525を経て、1つ又は複数のカメラ変化530、例えば、カメラを移動すること550、又はカメラテイクのカッティングスピード及び持続時間を修正すること555を決定することができる。例えば、ルールは、同じ人が話している10秒間の後に、カメラカットなどのカメラ変化540、又は話者の変更を促すための、例えば、アレックスの話を遮って質問するようビルに促す、別の話者に向けてのスローパンなど、別のカメラ変化545があるべきであるということであり得る。
【0091】
システムは、自分自身のフィードバックデータ、又はユーザの好み、若しくは入力を使用してユーザ体験ベースの機械学習を改善するようにトレーニングされ得る。例えば、1回又は複数回のラウンドの後に、10秒間の発言の後にカットを実行するのは早すぎるとシステムが考えた場合、システムは、より多くの秒数を次のラウンドに追加し得る。システムは、意味解析及び処理をさらに実行して、イベントで何が言われているかを特定し、それに従ってカメラ出力を生成することができ、例えば、ユーザが「そろそろこのミーティングを終わりにします」と言っている場合、カメラ出力のフレーミング、照明、カットレートなどを修正して、壮大な音楽を追加すること、及び/又は仮想環境の照明を薄暗くすることなど、より劇的な効果又は環境変化を生み出すことが可能である。システムは、直接のユーザフィードバックをさらに使用して、自分自身を改善することができる。Blinkist(登録商標)及びNewsleo(登録商標)を含むプログラムによって使用されるものなど、データを要約するようにトレーニングされ得る様々なアルゴリズムがあり、これがシステムに組み込まれ得る。
【0092】
実施形態は、仮想会議の前、最中、及び後に様々なタイプのフィードバックデータを求め得る。このデータは次いで、人々が何を楽しんだか、又は楽しまなかったかを検出して、その情報に基づいて行動を変更するようにニューラルネットワークをトレーニングするために使用され得る。フィードバックは、例えば、ユーザが仮想会議を楽しんでいるということを示すユーザインターフェース(UI)に含まれているスライダに基づき得る。システムは、介入が行われたときになど、様々な時点で、又は5分ごとになど、周期的に、又はそれら2つの組合せでスライダを動かすようユーザに促し得る。この方法では、システムは、個々の各ユーザに関するスライダの位置に対応するユーザランキングに基づいて、成功した介入と成功しなかった介入との間の違いを特定することが可能であり得る。或いは、ユーザが、1~5の数値、又は「良い」、「まあまあ」、若しくは「悪い」などの値を提供するように求められ得る。その上、システムは、様々な介入の微妙さを特定することが可能であり得る。意味ありげな会話の途切れなど、穏やかな介入を必要とする場合もある。口論又は喧嘩、及び会議が落ち着く必要があるなど、より大きな介入を必要とする場合もあり得る。どの介入を使用するかの選択が、以降でさらに論じられている。
【0093】
システムは、誰かが例えば次にどこで口を動かすかを予測するために、スペクトログラムデータに先行平滑化などのさらなる処理をさらに適用し得る。このコンテキストでは、例えば、誰かが例えば5秒続く発言を行おうとしている場合、それがカメラにセットアップされて、それに従って動かされることが可能であり、又は仮想環境に対して環境変化が行われ得る。この様式では、システムは、ミーティング又はイベントの感情的なエネルギーを取り込み、それに従って、このデータに基づいてカメラを調整すること又は仮想環境を修正することが可能である。
【0094】
先行平滑化は、先行してパズルのピースを移動させることなど、2Dモーション情報のために使用され得るが、それを用いて行われ得ることよりも多くのことがあり得、例えば、誰かが自分の指を追跡されている場合、それは多くのデータであり、それゆえ、それを補間して平滑化することができれば、FPSを高めることができる。実施形態は、指などの細かな特徴の粒度を低減することによってFPSを高めて、より高いスループット及びより少ない帯域幅消費を可能にすることができる。これは、特に大規模な場合に、有利であり得る。なぜなら、何百又は何千もの仮想会議が並行して生じている可能性があるからである。それらの進行している仮想会議の各々についてわずかなデータを節約することは、大量の総計のコンピュータ及びネットワークリソースを節約し得る。
【0095】
図6は、全体的なシステム600を示しており、そこでは、複数の仮想放送カメラ670が、より多数の詳細をシーンから取り込むために使用され得る様々なアングルを取り込むために仮想環境に設置されており、複数のマイクロフォンがシーン内から音を取り込み、その音は、対応する処理635を促すための入力、及び出力であり得る。様々なカメラフィードを使用して、処理635用のさらに多くの可能なデータを生成して、より多くの可能なリプレイを生成し、ライブカメラ調整を定義し、又は環境変化を行って、行動変化を促すことも可能である。システムは、頭640、手645、感情650、及びジェスチャー655に焦点を合わせることなど、例えば仮想会議の仮想環境でのオブジェクト及びアバターのうちの各々の空間的な位置又は場所665、向き、発話内容660、及び状態をさらに取り込み、これらのすべては、任意のアングルから605で再構築されて、対応するリプレイを生成することが可能である。空間的な位置、向き、及び状態は、入力データのメタデータであり得、それゆえ、これを使用して、入力データをさらに特徴付けて、別々のタイプの処理635及び出力を導き出すことが可能である。結果として生じるカメラ出力は、例えば、様々なタイプのカメラフレーミング620、カメラモーション625、カッティング630、環境変化680などであり得る。システムは、結果として生じる出力を生成するためのさらなるフィードバックを提供し得る意味解析615のために使用され得る発話コンテンツをさらに取り込む。
【0096】
本開示は、ビジュアルストーリーテリング体験を強化するために様々なカメラアングルを使用してビデオを取り込むためのシステム及び方法を提供する。詳細には、本開示は、ユニークで人を引き付ける方法でビデオを取り込むために使用され得る、アイレベル、ダッチ、ローアングル、ハイアングル、トップアングル、及びオーバーショルダーを含む様々なカメラアングルについて記述する。
【0097】
アイレベルカメラアングルは、被写体の目と同じ高さでのカメラの配置を指す。このアングルは、多くの場合、インタビュー及び対話シーンで被写体と視聴者との間に親密さ及びつながりの感覚を生み出すために使用される。アイレベルカメラアングルを使用することによって、視聴者は、あたかも自分が被写体と同じ仮想環境にいて被写体と会話をしているかのように感じることができる。
【0098】
ダッチカメラアングルは、斜めアングルとしても知られており、カメラを傾けて、傾斜した又は斜めの構図を生み出すことを指す。このアングルは、視聴者の中に緊張、不安、又は方向感覚喪失の感覚を生み出すために使用され得る。ダッチアングルは、多くの場合、ホラー又はスリラー映画で視聴者の中に不安又は方向感覚喪失の感覚を生み出すために使用される。
【0099】
ローアングルカメラアングルは、被写体の目の高さよりも下で見上げるカメラの配置を指す。このアングルは、被写体の中に力強さ、優位性、又は勇敢さの感覚を生み出すために使用され得る。ローアングルショットは、多くの場合、アクション映画で主人公を実物よりも大きく見せるために使用される。
【0100】
ハイアングルカメラアングルは、被写体の目の高さよりも上で見下ろすカメラの配置を指す。このアングルは、被写体の中に弱さ又は無力の感覚を生み出すために使用され得る。ハイアングルショットは、多くの場合、ホラー映画で被害者の中に弱さの感覚を生み出すために使用される。
【0101】
トップアングルカメラアングルは、被写体の真上で真下に見下ろすカメラの配置を指す。このアングルは、被写体にユニークで興味深い視点を提供するために使用され得る。トップアングルショットは、多くの場合、ドキュメンタリー又は自然映画で被写体を異なる視点から示すために使用される。
【0102】
オーバーショルダーカメラアングルは、ある登場人物の後ろでその人物の肩越しに別の登場人物を見るカメラの配置を指す。このアングルは、登場人物どうしの間に親密さ又は緊張の感覚を生み出すために使用され得る。オーバーショルダーショットは、多くの場合、対話シーンで両方の登場人物の反応を示すために使用される。
【0103】
全体として、本開示は、ビジュアルストーリーテリング体験を強化するために様々なカメラアングルを使用してビデオを取り込むためのシステム及び方法を提供する。様々なカメラアングルを使用することによって、映画製作者は、視聴者の注目を捉えて、より関心を引く効果的な方法でストーリーを伝えるのに役立つ、ユニークで人を引き付ける映像を作成し得る。
【0104】
アップショットカメラショットは、被写体よりも下で見上げるカメラの配置を指す。このショットは、被写体の中に力強さ又は優位性の感覚を生み出すために使用され得る。アップショットショットは、多くの場合、アクション映画で主人公を実物よりも大きく見せるために使用される。
【0105】
ダウンショットカメラショットは、被写体よりも上で見下ろすカメラの配置を指す。このショットは、被写体の中に弱さ又は無力の感覚を生み出すために使用され得る。ダウンショットショットは、多くの場合、ホラー映画で被害者の中に弱さの感覚を生み出すために使用される。
【0106】
オーバーショルダーカメラショットは、ある登場人物の後ろでその人物の肩越しに別の登場人物を見るカメラの配置を指す。このショットは、登場人物どうしの間に親密さ又は緊張の感覚を生み出すために使用され得る。オーバーショルダーショットは、多くの場合、対話シーンで両方の登場人物の反応を示すために使用される。
【0107】
クローズアップカメラショットは、被写体の顔又は体の詳細なビューを取り込む、被写体に非常に近いカメラの配置を指す。このショットは、親密さの感覚を生み出すために、又は被写体の感情を強調するために使用され得る。
【0108】
エクストリームクローズアップカメラショットは、目又は唇などの小さな細部を取り込む、被写体に極めて近いカメラの配置を指す。このショットは、被写体の特定の感情又は特徴を強調するために使用され得る。
【0109】
ミディアムショットカメラショットは、上半身又は腰から上を取り込む、被写体から適度な距離を置いたカメラの配置を指す。このショットは、多くの場合、被写体の身振り手振り又は身体的なやり取りを示すために使用される。
【0110】
ロングショットカメラショットは、全身及び周囲の環境を取り込む、被写体から遠い距離を置いたカメラの配置を指す。このショットは、多くの場合、場所又は設定を確立するために使用される。
【0111】
シングルショットカメラショットは、1つの被写体のみを取り込むカメラの配置を指す。
【0112】
ツーショットカメラショットは、単一のショットで2つの被写体を取り込むカメラの配置を指す。
【0113】
スリーショットカメラショットは、単一のショットで3つの被写体を取り込むカメラの配置を指す。
【0114】
ポイントオブビュー(POV)カメラショットは、登場人物の視点からシーンを取り込むカメラの配置を指す。このショットは、あたかも視聴者がそのシーンを直接体験しているかのような、ユニークで没入感のある体験を視聴者に提供するために使用され得る。
【0115】
本開示は、ビジュアルストーリーテリング体験を強化するために様々なカメラショットを使用してビデオを取り込むためのシステム及び方法を提供する。詳細には、本開示は、ユニークで、人を引き付け、関心を引き、及び人を引き付ける方法でビデオを取り込むために使用され得る、アップショット、ダウンショット、オーバーショルダー、クローズアップ、エクストリーム、ミディアムショット、ロングショット、エクストリーム、シングルショット、ツーショット、スリーショット、及びポイントオブビュー(POV)を含む様々なカメラショットについて記述している。
【0116】
図7A及び図7Bは、入力705と、プリセット710と、適宜組み合わされ得る出力715、720とを含む別々の様々なパラメータ700を示している。プリセット710は、仮想会議が対象とするミーティングのタイプなど、入力が取り込まれるコンテキストシナリオであり、出力715、720は、生成されるものであり、入力に対して実行される論理テストのタイプに影響を与え得る。入力705は、タイピングスピード、タイピング音量(キャンセレーション)、ハンドジェスチャー、発話時間の量、顔(マイクロ)表情、マウス/スワイプ速度、地理的場所、ブラウザ、ローディング時間、FPS/タブフォーカス、ミーティングタイトル、参加者の数、頭の位置、言語毒性、デバイス、又は発話のリズムなどを含み得る。プリセット710は、ミーティング管理者によって事前に選択されることが可能であり、イベントカテゴリー、例えば、そのイベントがビジネスミーティングであるか、セールスミーティングであるか、教室であるか、チャットショーであるか、アルフレッドヒッチコックであるか、トークショーであるか、YouTube(登録商標)であるか、スローパンであるか、ジャンプカットであるか、スノーリカムであるか、予測ビューであるか、スタンリーキューブリックであるか、フリーハンドであるか、TikTok(登録商標)であるか、速いカットレートであるか、黒へのフェードであるか、J/.Lカットであるか、セルフィーカムであるか、ワークショップであるか、又はスタンドアップであるかなどをさらに含み得る。例えば、喜びの表現であると特定されている入力が、友達どうしの間の会話に比較して、ワークショップにおいては、異なる出力715、720をもたらす場合があり、その場合、ワークショップにおいては、リプレイ、音楽、又は環境が、友好的な会話においてよりもフォーマルであるように設定され得る。出力715、720は、明るくすること/明るい色に変えること、被写界深度(DOF)、ブルーム(シェーダ効果)、カッティングスタイル、異なる色設定、カメラアングル、パーティクル、陰影、カッティングスピード、3Dルックアップテーブル、カメラの動き、及びカメラショットサイズを含み得る。
【0117】
役員会議室は、例えば、展示室とは異なり、展示室は販売店とは異なる。あらゆる仮想環境は異なり、入力は、各コンテキストで別々のことを意味し、別の出力715、720を作成する場合があり、それゆえ、それはフレームワークのようなものであり、入力及び出力の両方に影響を与える。プリセットは、ミーティングの前に選択されることが可能であり、ホストによって修正されることが可能である。特定の時間枠では、プリセットは、事前に定義された設定であり、次いでイベントのダイナミクスが変わる場合があり、又はホストが介入して設定を変更するか、若しくは何かが発生して設定を非常に大きく変更するので、それが新たなコンテキスト(出力のようなものなど)になる場合がある。
【0118】
図8は、特定の実施形態の複数の潜在的なAIカメラシナリオ800を示している。これらは、誰かが話している、人々の間の会話、誰かが長い間話していない、誰かがあまりにも長く話している、ミーティングが終わりつつある、及び誰かが怒りを示している等などの状況805を含み得る。データ入力810は、1)発話、リズム、位置、2)複数の人々の発話、リズム、位置、3)最後の発話と今との間の時間の長さ、4)発話の持続時間、5)ミーティングの持続時間、もう話者は残されていない、6)発話、リズム、ジェスチャー、及び口調などを含み得る。出力815は、話者へのカメラのパン又はズーム、複数のカメラがそれらのカメラの間で切り替えを行うこと並びにズームイン及びズームアウトを行うこと、参加者に放送カメラの焦点を合わせてズームすること、話者から離れて別の話者へカメラを移動すること、ズームインして劇的なカメラ効果を生み出すことを含み得る。行動は、話している人に焦点を合わせること、話している人々に対する注目を保つこと、ユーザが話し始めること、ユーザが話し終わること、又はユーザが反応に気づいて行動を調整することなどを含み得る。
【0119】
図9は、一実施形態によるフローチャート900を示している。この実施形態は、1つ又は複数の仮想環境システム内のインタラクティブ仮想会議プラットフォームによって実行されること、及びメモリに格納されている複数の仮想環境を含むことが可能である。プラットフォームはまた、ステップ902に示されているように、複数のコンテキストシナリオ及び感情のシグナルを格納し得る。この実施形態では、ステップ904で仮想会議が始まる。これは、仮想会議に参加したいという1つ又は複数の要求を1つ又は複数のユーザデバイスから受信することを含み得る。システムは次いで、それらの1つ又は複数の要求を、一意の識別子又は事前にプログラムされた値のセットに基づいて共に関連付けることができる。それらの要求が接続されて、仮想会議を形成し得る。ステップ906で、システムは、上でさらに論じられているような、事前にプログラムされたコンテキストシナリオ又は感情のシグナルを探して、1つ又は複数のユーザデバイスからのビデオ及びオーディオフィードを含む受信された入力データを解析し得る。ステップ908で、システムが、入力データを解析することによって、そのようなコンテキストシナリオ又は感情のシグナルを検出した場合、システムは、そのコンテキストシナリオ及び入力データに相関付けられている介入データベースからの1つ又は複数の介入を選択し得る。そのような選択は、トレーニングデータ及びユーザフィードバックに基づいてシステムが学習してきた共感レベルによって影響され得る。上で論じられているように、介入を選択するために、いくつかの入力が使用され得る。例えば、声のトーン、ユーザの好み、及び声のサウンドレベルである。すべてのこの情報は、例えば、会話が怒りを帯びていて、その会話を和らげるために介入が必要とされていると特定するために使用され得る。システムは、介入データベース又はメモリから介入を選択することができ、その介入は、ステップ910で読み出されて適用され得る。例えば、ピエロがスクリーンを横切って進むことが可能であり、又は心地よい音楽が流れ始めることが可能である。ステップ912で、システムは、介入の成功を判定するためにフィードバックを収集し得る。成功は、様々な方法で判定され得る。例えば、会話を和らげることが目的である場合、システムは、会話が和らいだかどうかを判定するために使用される口調又は言葉をモニタし得る。或いは、例えば、娯楽目的で口論を奨励するようにシステムが設定されている場合、より多くの怒りが会話の中にあるかどうかに基づいて成功が判定され得る。1つ又は複数のユーザ入力を介して参加者からのさらなるフィードバックを求めることが可能である。ユーザ入力は、1~10などの尺度であり得、ユーザが介入を楽しんだかどうか、所与の目標に関して介入がどれぐらい効果的であったか、及び異なる介入が好ましかったであろうかどうかなどの項目を含み得る。システムは次いで、このフィードバックを収集して、このフィードバックを将来の仮想会議に組み込んで、将来の仮想会議をより成功させることが可能である。最後に、ステップ914で、システムは仮想会議を終了すること、又はステップ906で始まるプロセスを仮想会議が終わるまで繰り返すことが可能である。
【0120】
図10は、例示的な環境介入フロー1000を示している。例えば、1005で仮想環境において人々が行き詰まっている場合、仮想環境は、1010で言葉による入力の欠如又は活気のない身振り手振りに基づいて、人々が行き詰まっていると評価し得る。仮想環境は、1015で、グループ行動に転換をもたらすノイズ/オブジェクト/キャラクターなどの介入を生成する。将来の介入を改善する目的で、又は介入を変更する目的で、介入が成功であったか又は失敗であったかを判定するために、1020で行動がさらに測定されて入力として使用され得る。例えば、音量、色、トーン、形状などはすべて、介入(1つ又は複数)に対する身体的な及び言葉による反応に基づいてニューラルネットワークが評価できるようになる様々な行動システムを導き出し得る。
【0121】
図11は、コンピュータシステムのコンピューティングデバイス1100の例を示している。コンピューティングデバイス1100は、プロセッサ(1つ又は複数)1110(例えば、CPU、GPU、又はその他の処理ユニット)と、メモリ1120と、その他のデバイスと通信して、それらのデバイスからの入力、例えば、タイピングスピード、タイピング音量(キャンセレーション)、ハンドジェスチャー、発話時間の量、顔(マイクロ)表情、マウス/スワイプ速度、地理的場所、ブラウザ、ローディング時間、FPS/タブフォーカス、ミーティングタイトル、参加者の数、頭の位置、言語毒性、デバイス、又は、発話のリズムを受信するための通信インターフェース(1つ又は複数)1140(例えば、ネットワークインターフェース)を含むことができ、インタラクティブビデオ会議プラットフォームは、それらの入力のうちの1つ又は複数に基づいて介入を選択するように構成されている。メモリ1120は、RAMなどの揮発性メモリ、並びに/又はROM及びストレージメディアなどの不揮発性メモリを含み得る。ストレージメディアの例は、ソリッドステートストレージメディア(例えば、ソリッドステートドライブ及び/又はリムーバブルフラッシュメモリ)、光ストレージメディア(例えば、光ディスク)、及び/又は磁気ストレージメディア(例えば、ハードディスクドライブ)を含む。前述の命令(例えば、ソフトウェア又はコンピュータ可読コード)は、メモリ1120の任意の揮発性及び/又は不揮発性メモリコンポーネントに格納され得る。コンピューティングデバイス1100は、いくつかの実施形態では、入力デバイス(1つ又は複数)1150(例えば、キーボード、マウス、ジョイスティック、コントローラ、又はタッチスクリーン)及び出力デバイス(1つ又は複数)1160(例えば、ディスプレイ、ヘッドアップディスプレイ、ARディスプレイ、VRディスプレイ、プリンタ)をさらに含み得る。例えば、ユーザデバイス(1つ又は複数)110、120がタブレットコンピュータとして具現化され得る場合、ユーザデバイス(1つ又は複数)110、120は、タッチスクリーン及びディスプレイを有し得る。コンピューティングデバイス1100の前述の要素どうしは、バス1130を通じて互いに接続されることが可能であり、バス1130は、1つ又は複数のバスに相当する。いくつかの実施形態では、コンピューティングデバイス1100のプロセッサ(1つ又は複数)1110は、CPU及びGPUの両方を含む。
【0122】
一例として、システムは、ある人が静かである一方であまりにも多くの人が話しているということを検出し得る。システムは、複数の入力からノイズを取り込み、多くの人が積極的であって、1人が消極的(又は無言)であると結論付けて、すべての積極的なユーザの音量における減少と、無言のユーザに対するスポットライトとを促すことができる。この行動介入の結果として、その他のユーザは、より少なく話す可能性があり、無言の人は、より多く話す可能性があり、会議のバランスが回復する。ユーザは、この介入を自分自身又はその他のユーザに対してシステムにどれぐらい積極的に使用してもらいたいかを自分のプロフィールで設定することが可能であり得る。
【0123】
顔ジオメトリ座標を生成するために顔検出AIアルゴリズムが使用され得る。顔ジオメトリ座標は、ユーザの頭の向きに関するステアリングベクトルを作成し得る。ユーザが自分の頭の向きを変える際には、2つの表示が可能である。
【0124】
第1に、位置ベクトルは、3D空間でユーザに面している仮想カメラによって検出されることが可能であり、その仮想カメラは、仮想環境にあり得る仮想会議の3Dジオメトリ内で2Dカメラフィードが正しく向けられているという錯覚を保持するために逆の動きで移動し得る。この技術は、マッチムービングと呼ばれることがある。コントローラとしてのユーザの頭が、ライトなどの仮想環境内のエンティティーに適用されて、ユーザが動き回るにつれて動的な影を投影することも可能である。
【0125】
第2に、位置ベクトルは、3D空間でのユーザの一人称又は二人称視点のどちらかを表すカメラによって検出され得る。ユーザが自分の頭を左右、上下、又は前後に動かす際に、スケーリング/制限及び最小フェンスロジックがあり得る。これは、文字どおりでないジオメトリを3Dエンジンが描くことを可能にし得る。仮想現実の3D空間では、ユーザの動きは、1:1で取り込まれることが可能である一方で、2Dスクリーンでは、ユーザの動きは、適宜拡大縮小される。
【0126】
3D空間でのユーザの指の座標をマッピングするために手のポーズが使用され得る。各指関節/指の3D座標は、基本的にリアルタイムで取り込まれ得る。この情報は次いで、リギングされた手の3Dモデルに渡され得る。ニューラルペース検出ネットワークによって識別された額の代表的なパッチからユーザの肌の色が追加で取り込まれ得る。この色/テクスチャは次いで、リギングされたユーザの手の3Dモデルのテクスチャの発光特性にマッピングされ得る。これは次いで、パーソナライズされたリアルな3Dの手を仮想環境が表示することを可能にし得る。手はまた、ジェスチャー/つかむ/つまむ又はその他の動きに対してリギングされ得る。手のより総体的な動きは、仮想環境の任意の視覚的特性、例えば、天気、照明、外の風などにマッピングされ得る。
【0127】
特定の実施形態が対処し得る追加の問題は、ほとんどの人々が別々の学習スタイル、性格、能力などを有することに起因して、多くの生徒の学習を遅らせ得る標準化された教育環境を含む。ユーザが手元のコンテンツに感情的につながっていない場合、ユーザは退屈になり、これは、学習に対する抵抗及び生徒の中のストレスを増大させる。各ユーザは、ユーザによって入力された好み、又は様々な介入に対するユーザの反応(1つ又は複数)に伴う過去の体験に基づき得る事前に定義されたプロフィールを有し得る。したがって、各プレゼンテーションは各人用にカスタマイズされ得る。ある人は、よりフォーマルな学校のような仮想環境でよりよく学ぶ可能性があり、その一方で別の人は、仮想公園のような環境でよりよく学ぶ可能性がある。
【0128】
一実施形態は、スマートな仮想環境を作成することによって、この問題を解決し得る。この実施形態では、システムは、教室又はセミナーのコンテキストでの学習を強化するために使用され得る。ユーザプロフィールは、好み、例えば、興味のある話題、音楽、食べ物、背景画像、文化、経歴、年齢層、社会階級、性格、学習タイプなどを含み得る。システムは、仮想環境でユーザが行う対話、及び介入に対する反応に基づいてユーザプロフィールを継続的に更新するために使用され得るさらなるユーザプロフィールデータを生成し得る。それゆえにシステムは、各ユーザから継続的に学習しており、そのデータを使用して、自分自身をさらに改善し、各ユーザをよりよく理解して、自身の共感レベルを高める。
【0129】
ユーザの学習スタイルも有用である。なぜなら学習スタイルは、ユーザの学習効率を高めるためには各ユーザがどのように学習するのが好ましいかを特定するからである。
【0130】
管理者(例えば、教師)は、クラスに配信されることになるコンテンツを定義し得る。システムは、コンテンツ及び各生徒のユーザプロフィールを解析することができ、各生徒のユーザプロフィールに最もよくマッチする複数のプレゼンテーションメディアを出力する。したがって各生徒は、同様の情報の別々のプレゼンテーションを受信し得る。各生徒に最もよくマッチするプレゼンテーションメディアを見つけ出すことによって、生徒は、自分の特定の学習スタイルにつながって、コンテンツへの感情的なつながりを高め、学習を促進及び強化することが可能である。
【0131】
ユーザプロフィールを考慮したコンテンツの処理は、生徒ごとに相対的に異なる見解でコンテンツを要約することを含むことができ、その場合、特定の生徒に関しては、システムは、より感情をかき立てられる言葉、又は生徒の特定のプロフィールにさらに共鳴し得る言葉を使用することができ、その一方でその他の生徒に関しては、より専門的であって、より高いレベルの詳細度を伴う言葉を使用することができる。システムはまた、特定の状況を、生徒によりよく共鳴するような方法で例示できる例を生成又は選択し得る。さらに、選択されることになる視覚メディアのタイプは、ユーザごとに異なり得る。例えば、生徒が視覚学習者であると定義されている場合、システムは、ショートムービーを作成すること、及び/又は生徒にとってより効率的な学習プレゼンテーションを構成できる様々なソースからムービーを選択すること若しくは混ぜ合わせることが可能である。より解析的であって読書を好む別のユーザに関しては、より解析的な例を伴うテキスト又はビデオクリップがそのユーザに提供され得る。各生徒の学習を強化するために使用され得る、色、背景、音、雰囲気などにおける変化を含む仮想環境における修正も、個々に行われ得る。
【0132】
いくつかの実施形態では、システムは、実質的にリアルタイムでのユーザ入力の読み取りに基づいて、配信されることになるコンテンツの特定の側面を修正し得る。例えば、ユーザが困惑しているように見えるか、又は疑念を表明している場合、システムは、これを読み取り、ユーザの体験を改善するために行われ得ることがあるとすればそれは何かをユーザに尋ね、選択肢を提供すること、又はユーザが自分の状況を記述するためのスペースを残すことが可能である。システムがユーザの行動における変化を検出した際には、システムは、コンテンツ、ビジュアル、オーディオなどの特定の部分をリアルタイムでさらに適合させることができる。プレゼンテーションは、ビデオ、オーディオ、触覚体験、配信されている、AR及び/又はVRで行われ得るレッスンを表現するための仮想環境の全面的な修正などの形態であり得る。システムはまた、必ずしも仮想環境である必要はなく、これらの様々なタイプのコンテンツプレゼンテーションを提供するプログラムであることも可能であり、それらのコンテンツプレゼンテーションから、それらのうちの1つは、3D仮想環境でのプレゼンテーション用であるが、それに限定されない。システムはまた、この情報を教師又は親に与えて、子供が教材を理解することを確実にするために子供のための追加の介入を行うことが可能である。
【0133】
システムは、同様の学習スタイルを有する生徒どうしをさらに分類し、同様の又は同じメディアでレッスンを提供することができる。これはまた、グループ学習及び対話を促進するのに役立つ場合がある。なぜなら、同じ学習スタイルを有するユーザどうしが、レッスンについての互いの解釈及び処理から利益を得ることができるからである。ユーザは、1つ又は複数の学習スタイル(例えば、視覚又は聴覚)に分類されて、同じ分類のもとにあるユーザと同様の仮想環境及び介入を受けることが可能である。
【0134】
1つ又は複数のプロセッサによって実行可能な命令は、非一時的コンピュータ可読メディア(コンピュータ読み取り可能な記憶媒体)に格納され得る。そのため、本開示でコンピュータ実施方法が記述されている場合は常に、本開示はまた、命令を格納している非一時的コンピュータ可読メディアを記述しているとして理解されるものとし、それらの命令は、1つ又は複数のプロセッサによって実行されたときに、そのコンピュータ実施方法を実行するように1つ又は複数のプロセッサを構成し、及び/又はそのコンピュータ実施方法を1つ又は複数のプロセッサに実行させる。非一時的コンピュータ可読メディアの例は、RAM、ROM、ソリッドステートストレージメディア(例えば、ソリッドステートドライブ)、光ストレージメディア(例えば、光ディスク)、及び磁気ストレージメディア(例えば、ハードディスクドライブ)を含む。非一時的コンピュータ可読メディアは、コンピュータシステムのメモリの一部であること、又はいかなるコンピュータシステムとも別個であることが可能である。
【0135】
典型的な実施形態の上記の記述では、開示を合理化して様々な発明的側面のうちの1つ又は複数の理解に役立つ目的で、様々な特徴が、単一の実施形態、図、又はその記述にまとめられている場合があるということを理解されたい。しかしながら、この開示方法は、特許請求されている発明が、各請求項に明示的に列挙されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、下記の特許請求の範囲が反映しているように、発明的側面は、単一の前述の開示されている実施形態のすべての特徴よりも少ない中に存在する。本明細書における「又は」という言葉の使用は、非排他的であることを意図されており、個々の要素を単独で、又はそれらの任意の組合せを含むと解釈されるべきである。それゆえに、詳細な記述に続く特許請求の範囲は、これによってこの詳細な記述に明示的に組み込まれ、それに伴って各請求項は、本開示の個別の実施形態としてそれ自体で成り立つ。
【0136】
さらに、本明細書に記述されているいくつかの実施形態は、その他の実施形態に含まれている特徴のうちのいくつかを含む一方でその他の特徴を含まないが、当業者によって理解されるであろうように、様々な実施形態の特徴どうしの組合せは、本開示の範囲内であること、及び様々な実施形態を形成することを意図されている。例えば、下記の特許請求の範囲では、特許請求されている実施形態のうちのいずれも、任意の組合せで使用されることが可能である。
【0137】
それゆえに、特定の実施形態が記述されてきたが、本開示の趣旨から逸脱することなく、それらの実施形態に対してその他のさらなる修正が行われることが可能であり、すべてのそのような変更及び修正を、本開示の範囲内に収まるものとして主張することが意図されているということを当業者なら認識するであろう。例えば、ブロック図に対して機能性が追加又は削除されることが可能であり、機能ブロックどうしの間でオペレーションが入れ替えられることが可能である。本開示の範囲内で記述されている方法に対してステップが追加又は削除されることが可能である。
【0138】
上で開示されている主題は、例示的であって制限的ではないとみなされるべきであり、添付の特許請求の範囲は、本開示の真の趣旨及び範囲内に収まるすべてのそのような修正、強化、及びその他の実施態様をカバーすることを意図されている。本明細書における「又は」という用語の使用は、利用可能な選択肢のいずれかのうちの1つ又は複数を意味し、相互に排他的なリストである必要はない。それゆえに、法律によって認められる最大限まで、本開示の範囲は、下記の特許請求の範囲及びそれらの均等物の最も広い許容可能な解釈によって特定されるべきであり、前述の詳細な記述によって制限又は限定されないものとする。本開示の様々な実施態様が記述されてきたが、本開示の範囲内でさらに多くの実施態様が可能であるということは、当技術分野での普通のスキルを有する者にとって明らかであろう。したがって本開示は、制限されるものではない。
図1
図2
図3
図4
図5
図6
図7A
図7B
図8
図9
図10
図11
【外国語明細書】