IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ブレリオン,インコーポレーテッドの特許一覧

特許7583900拡張表示生成器、体験ステーションおよび生成的拡張表示ステーション
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-06
(45)【発行日】2024-11-14
(54)【発明の名称】拡張表示生成器、体験ステーションおよび生成的拡張表示ステーション
(51)【国際特許分類】
   G06F 3/04842 20220101AFI20241107BHJP
   G06T 19/00 20110101ALI20241107BHJP
   G06F 3/14 20060101ALI20241107BHJP
   G06F 3/01 20060101ALI20241107BHJP
【FI】
G06F3/04842
G06T19/00 A
G06F3/14 350A
G06F3/01 510
【請求項の数】 28
【外国語出願】
(21)【出願番号】P 2023197827
(22)【出願日】2023-11-22
(65)【公開番号】P2024144060
(43)【公開日】2024-10-11
【審査請求日】2023-11-22
(31)【優先権主張番号】18/193,329
(32)【優先日】2023-03-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】523441751
【氏名又は名称】ブレリオン,インコーポレーテッド
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】バルマク ヘシュマト デーコルディ
(72)【発明者】
【氏名】クリストファー バルシ
(72)【発明者】
【氏名】アルバート レド サンチェス
【審査官】槙 俊秋
(56)【参考文献】
【文献】米国特許第9684380(US,B2)
【文献】米国特許第9792567(US,B2)
【文献】米国特許出願公開第2005/0021472(US,A1)
【文献】米国特許出願公開第2015/0215497(US,A1)
【文献】米国特許出願公開第2020/0150453(US,A1)
【文献】米国特許出願公開第2021/0166537(US,A1)
【文献】米国特許出願公開第2015/0116364(US,A1)
【文献】米国特許出願公開第2017/0021273(US,A1)
【文献】米国特許出願公開第2017/0087453(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01-3/04895
G06F 3/14- 3/153
G06T 1/00-19/20
(57)【特許請求の範囲】
【請求項1】
複数の入力ストリームを生成又は受信するための入力ストリームモジュールと、
複数の機能を実施する機能モジュールであって、前記複数の機能の各機能が、前記複数の入力ストリームのうちの少なくとも一つの入力ストリームに対して動作するように構成される、機能モジュールと、
複数の視覚的テンプレートであって、前記複数の視覚的テンプレートの各テンプレートが、前記複数の機能からの出力をフォーマットするように構成される、複数の視覚的テンプレートと、
前記複数の機能、複数の入力ストリーム、及び複数の視覚的テンプレートのグラフィック表現を生成するように構成されたグラフィカルユーザインターフェイスと
を備える拡張表示生成器であって、
前記グラフィカルユーザインターフェイスを介した前記複数の機能、複数の入力ストリーム、及び複数の視覚的テンプレートのうちの少なくとも一つのユーザ選択が、表示コンテンツを生成し、
前記表示コンテンツが、前記複数の視覚的テンプレートからの一つの視覚的テンプレートを使用した、前記複数の機能のうちから提示された選択された機能に対応する出力を含む、拡張表示生成器。
【請求項2】
前記表示コンテンツを受信して表示するための拡張表示システムをさらに備える、請求項1に記載の拡張表示生成器。
【請求項3】
前記複数の入力ストリームが第1の入力ストリーム及び第2の入力ストリームを含み、
前記拡張表示システムが、少なくとも一つの主要セクション及び少なくとも一つの拡張セクションを備え、
前記拡張表示システムが、前記第1の入力ストリームに基づく第1の表示コンテンツを前記主要セクションに表示し、第2の表示コンテンツを前記拡張セクションに表示し、前記第2の表示コンテンツが、前記第1の表示コンテンツ及び前記第2の入力ストリームに対して動作するように構成された前記複数の機能のうちの一つの機能から出力される、請求項2に記載の拡張表示生成器。
【請求項4】
前記拡張表示システムが仮想表示システムであり、前記主要セクションが、前記仮想表示システムに第1の奥行きで表示されるように構成され、前記少なくとも一つの拡張セクションが、前記仮想表示システムに複数の異なる奥行きで表示されるように構成された複数の拡張セクションのうちの拡張セクションである、請求項3に記載の拡張表示生成器。
【請求項5】
アイトラッカー、ヘッドトラッカー、及びローカライゼーションデバイスから成るセットからの入力デバイスをさらに備える、請求項3に記載の拡張表示生成器。
【請求項6】
前記拡張表示システムの複数の拡張部分がワイヤレスで通信する、請求項3に記載の拡張表示生成器。
【請求項7】
前記拡張表示システムが仮想表示システムであり、
前記複数の視覚的テンプレートからの一つのテンプレートが、各奥行きで複数の仮想画像をそれぞれフォーマットし、前記各奥行きが、少なくとも二つ以上の固有の奥行きを含む、請求項2に記載の拡張表示生成器。
【請求項8】
前記拡張表示システムが、前記表示コンテンツ内の複数のオブジェクトを複数の焦点面に表示するように構成され、前記複数の焦点面のうちの一つの奥行きが、ユーザの奥行き知覚を最適化するアルゴリズムによって計算される、請求項2に記載の拡張表示生成器。
【請求項9】
前記複数の機能のうちの一つの機能が、前記複数の入力ストリームのうちの第1の入力ストリームに対して動作し、前記第1の入力ストリームの複数の特徴の検出に基づいて注釈を出力するように構成され、
前記拡張表示システムが、前記注釈を第1の焦点面に表示し、前記第1の入力ストリームのコンテンツを、前記第1の焦点面と異なる第2の焦点面に表示するように構成された、仮想表示システムである、請求項2に記載の拡張表示生成器。
【請求項10】
前記拡張表示システムが、電話、腕時計、タブレット、ヘッドセット、ビューア、ビューファインダ、テレビ、又は車両計器クラスタに統合される、請求項2に記載の拡張表示生成器。
【請求項11】
前記複数のテンプレートからの視覚的テンプレートが、ユーザの見通し線に対して実質的に直角な方向に沿ってタイル表示された複数の仮想画像を使用して視野を拡大するように構成される、請求項1に記載の拡張表示生成器。
【請求項12】
前記入力ストリームモジュールが、インターネット、ゲーム、ゲームエンジン、既存のアプリケーション、ウェブサイト、シミュレーション、トレーニングビデオ、カメラビデオ、カメラ画像、ユーザ入力、センサ入力、及びデータセットを含むセットを使用して、又は前記セットから、前記複数の入力ストリームのうちの少なくとも一つを生成するか、又は受信する、請求項1に記載の拡張表示生成器。
【請求項13】
前記複数の機能からの少なくとも一つの機能が、ユーザ入力に基づいて前記表示コンテンツの少なくとも一部を生成するように構成された人工知能(AI)機能である、請求項1に記載の拡張表示生成器。
【請求項14】
験ステーションであって、
複数の入力ストリームを生成または受信する入力ストリームモジュール;
複数の機能を実装した機能モジュールであって、各前記機能は前記複数の入力ストリームのうち少なくとも1つに対して動作する、機能モジュール;
拡張表示システムの拡張部分上に表示するために前記複数の機能からの出力をフォーマットする視覚的テンプレート;
を備え、
前記複数の機能のうちいずれかは、(i)前記複数の入力ストリームを受信することであって、前記入力ストリームのうちの少なくとも一つが、表示コンテンツを前記拡張表示システム主要部分に提供する、受信することと、(ii)ユーザによる一連のアクションを捕捉することと、(iii)前記拡張表示システムに、ユーザによる前記複数の入力ストリームに対する複数の未来の可能なアクションを前記出力として表示させることとを実行するように構成される生成機能である
体験ステーション。
【請求項15】
前記生成機能が、時間的要因を使用して、前記拡張表示システムの前記拡張部分に対する前記複数の未来の可能なアクションを決定するように構成される、請求項14に記載の体験ステーション。
【請求項16】
前記生成機能は、イベントに基づくアクショントリガーを含み、前記アクショントリガーは、トリガーされた場合に、前記拡張表示システムの前記拡張部分でのコンテンツ生成を引き起こす、請求項14に記載の体験ステーション。
【請求項17】
前記生成機能が、前記ユーザのアクションと並列に、前記ユーザによって付与された権限レベルに基づいて予測されたタスクを自動的に提案し、実行するようにさらに構成される、請求項14に記載の体験ステーション。
【請求項18】
前記複数の入力ストリームが、インターネット、ゲーム、既存のアプリケーション、ウェブサイト、ビデオ、画像、及びデータビジュアライザのうちの少なくとも一つを含む、請求項14に記載の体験ステーション。
【請求項19】
前記ユーザの視線を検出し、視線の位置を前記複数の入力ストリームのうちの一つの入力ストリームとして出力するためのセンサをさらに備え、前記生成機能が、前記視線の位置に基づいて前記複数の未来の可能なアクションの前記表示を動的に変更するように構成される、請求項14に記載の体験ステーション。
【請求項20】
複数の入力ストリームを生成または受信する入力ストリームモジュール;
複数の機能を実装した機能モジュールであって、各前記機能は前記複数の入力ストリームのうち少なくとも1つに対して動作する、機能モジュール;
拡張表示システムの拡張部分上に表示するために前記複数の機能からの出力をフォーマットする視覚的テンプレート;
を備え、
複数の入力ストリームのうちの一つの入力ストリームからの第1の表示コンテンツは、前記拡張表示システムの主要部分上において表示され、前記出力は、前記拡張表示システムの前記拡張部分上の第2の表示コンテンツとして表示される、
生成的拡張表示ステーション。
【請求項21】
多層表示が前記複数の入力ストリームからの画像を第1の層に表示し、前記機能モジュールが注釈層を生成するように、前記拡張表示システムが仮想表示システムである、請求項20に記載の生成的拡張表示ステーション。
【請求項22】
ユーザからの情報を捕捉するためのセンサをさらに備え、前記情報が、前記機能モジュールに入力される前記複数の入力ストリームのうちの一つの入力ストリームであり、前記機能モジュールが、前記情報に基づいて前記第1又は第2の表示コンテンツを変更するようにさらに構成される、請求項20に記載の生成的拡張表示ステーション。
【請求項23】
前記第2の表示コンテンツが複数の垂直検索エンジンの推奨になるように、ユーザの問い合わせを入力として受け取るように構成された人工知能(AI)モジュールをさらに備え、第1の垂直検索エンジンの推奨が、前記問い合わせによって決定され、第2の垂直検索エンジンの推奨が、前記第1の垂直検索エンジンの推奨の結果によって少なくとも部分的に決定される、請求項20に記載の生成的拡張表示ステーション。
【請求項24】
前記機能モジュールが、ニューラルネットワーク又はトランスフォーマを備えている人工知能(AIモジュールであり、
前記AIモジュールが、前記複数の入力ストリームのうちの少なくとも二つを比較し、それらの入力ストリームを前記拡張表示システム上の単一の表示コンテンツにマージするように構成される、請求項20に記載の生成的拡張表示ステーション。
【請求項25】
前記拡張表示システムをさらに備える請求項20記載の生成的拡張表示ステーション。
【請求項26】
前記複数の入力ストリーム、前記複数の機能、および前記視覚的テンプレートのグラフィック表現を生成するグラフィカルユーザインターフェイスをさらに備える、請求項20記載の生成的拡張表示ステーション。
【請求項27】
前記拡張表示システムをさらに備える請求項14記載の体験ステーション。
【請求項28】
前記複数の入力ストリーム、前記複数の機能、および前記視覚的テンプレートのグラフィック表現を生成するグラフィカルユーザインターフェイスをさらに備える、請求項14記載の体験ステーション。
【発明の詳細な説明】
【技術分野】
【0001】
[発明の分野]
本発明は、予測的要素及び生成的要素を含むさまざまな表示システムのソフトウェア層の体験に関し、より詳細には、タンデムコンピュータ及び生成的コンテンツエンジンを含む拡張表示システムを伴う、新しいユーザ及び複数ユーザのソフトウェア体験に関する。
【0002】
[発明の背景]
今日の社会では、生産性の向上のためのマルチタスクアプリケーションに加えて、予測モデル化又はコンテンツ作成のいずれかのための、機械学習に基づくコンテンツ及びアプリケーション、或いは生成的人工知能(AI:artificial intelligence)コンテンツ及びアプリケーションにおける開発が増加している。
【0003】
仮想表示システムは、さまざまな仕様を使用して設計され、実装される。例えば、米国特許11,067,825 B2号及び米国特許11,768,825 B1号において、デコルディ(Dehkordi)は、現実的な奥行き知覚効果を実現するために単眼又は両眼の奥行き手掛かりを提供する仮想表示システムについて説明している。米国特許11,592,684 B2号において、デコルディ(Dehkordi)は、光を、空洞を使用する複数回の往復の間に前後に折り曲げ、光源が、物理的表示システムまでの距離と比較して、視聴者からさらに遠くに現れるようにする、フィールド発達空洞(field evolving cavity)と呼ばれる光学的構成要素を開示した。米国特許11,196,976 B2号において、デコルディ(Dehkordi)は、光照射野を、表示システムの瞳孔のサイズを越えて拡張されたサイズ又は奥行きに、モザイク状にすることを対象にする仮想表示システムを開示した。最後に、米国特許11,320,668 B2号において、デコルディ(Dehkordi)他は、光学的融合を使用して表示システムの光学的品質又は特性を変更する方法を開示しており、この方法は、計算方法を光学的アーチファクトと組み合わせて、表示システムによって生成された画像から視覚的アーチファクトを除去する。
【0004】
[発明のサマリー]
一部の態様は、複数の入力ストリームを生成又は受信するための入力ストリームモジュールと、複数の機能を実施する機能モジュールであって、複数の機能の各機能が、複数の入力ストリームのうちの少なくとも一つの入力ストリームに対して動作するように構成される、機能モジュールと、複数の視覚的テンプレートであって、複数の視覚的テンプレートの各テンプレートが、複数の機能からの出力をフォーマットするように構成される、複数の視覚的テンプレートと、複数の機能、複数の入力ストリーム、及び複数の視覚的テンプレートのグラフィック表現を生成するように構成されたグラフィカルユーザインターフェイスとを含んでいる拡張表示生成器に関連しており、グラフィカルユーザインターフェイスを介した複数の機能、入力ストリーム、及び視覚的テンプレートのうちの少なくとも一つのユーザ選択が、生成器に表示コンテンツを生成させ、表示コンテンツが、複数の視覚的テンプレートからの一つの視覚的テンプレートを使用した、複数の機能のうちから提示された選択された機能に対応する出力を含む。
【0005】
一部の実施形態では、拡張表示生成器は、表示コンテンツを受信して表示するための拡張表示システムをさらに備える。
【0006】
拡張表示生成器の一部の実施形態では、複数の入力ストリームが第1の入力ストリーム及び第2の入力ストリームを含み、拡張表示システムは、少なくとも一つの主要セクション及び少なくとも一つの拡張セクションを備え、拡張表示システムは、第1の入力ストリームに基づく第1の表示コンテンツを主要セクションに表示し、第2の表示コンテンツを拡張セクションに表示し、第2の表示コンテンツは、第1の表示コンテンツ及び第2の入力ストリームに対して動作するように構成された複数の機能のうちの一つの機能から出力される。
【0007】
拡張表示生成器の一部の実施形態では、拡張表示システムが仮想表示システムであり、主要セクションが、仮想表示システムに第1の奥行きで表示されるように構成され、少なくとも一つの拡張セクションが、仮想表示システムに複数の異なる奥行きで表示されるように構成された複数の拡張セクションのうちの拡張セクションである。
【0008】
一部の実施形態では、拡張表示生成器は、アイトラッカー、ヘッドトラッカー、及びローカライゼーションデバイスから成るセットからの入力デバイスをさらに備える。
【0009】
拡張表示生成器の一部の実施形態では、拡張表示システムの複数の拡張部分がワイヤレスで通信する。
【0010】
拡張表示生成器の一部の実施形態では、拡張表示システムが仮想表示システムであり、複数の視覚的テンプレートからの一つのテンプレートが、各奥行きで複数の仮想画像をそれぞれフォーマットし、各奥行きは、少なくとも二つ以上の固有の奥行きを含む。
【0011】
拡張表示生成器の一部の実施形態では、拡張表示システムは、表示コンテンツ内の複数のオブジェクトを複数の焦点面に表示するように構成され、複数の焦点面のうちの一つの奥行きが、ユーザの奥行き知覚を最適化するアルゴリズムによって計算される。
【0012】
拡張表示生成器の一部の実施形態では、複数の機能のうちの一つの機能が、複数の入力ストリームのうちの第1の入力ストリームに対して動作し、第1の入力ストリームの複数の特徴の検出に基づいて注釈を出力するように構成され、拡張表示システムは、注釈を第1の焦点面に表示し、第1の入力ストリームのコンテンツを、第1の焦点面と異なる第2の焦点面に表示するように構成された、仮想表示システムである。
【0013】
拡張表示生成器の一部の実施形態では、入力ストリームモジュールは、ユーザ又はセンサによって捕捉された環境に関する情報に基づいて、複数の入力ストリームのうちの第1の入力ストリームを生成するように構成されたセンサを備え、複数の機能のうちの一つの機能が、第1の入力ストリームに対して動作し、拡張表示システムによって生成された表示コンテンツを変更する。
【0014】
拡張表示生成器の一部の実施形態では、複数の入力ストリームのうちの一つがビデオゲームであり、複数の機能のうちの一つが、ビデオゲームから奥行きマップを抽出し、奥行きマップを拡張表示システムに表示するように構成される。
【0015】
拡張表示生成器の一部の実施形態では、拡張表示システムが、電話、腕時計、タブレット、ヘッドセット、ビューア、ビューファインダ、テレビ、又は車両計器クラスタに統合される。
【0016】
拡張表示生成器の一部の実施形態では、複数のテンプレートからの視覚的テンプレートが、ユーザの見通し線に対して実質的に直角な方向に沿ってタイル表示された複数の仮想画像を使用して視野を拡大するように構成される。
【0017】
拡張表示生成器の一部の実施形態では、複数の視覚的テンプレートからの一つのテンプレートが、ユーザ定義される。一部の実施形態では、複数の機能からの一つの機能が、ユーザ定義機能である。
【0018】
拡張表示生成器の一部の実施形態では、入力ストリームモジュールは、インターネット、ゲーム、ゲームエンジン、既存のアプリケーション、ウェブサイト、シミュレーション、トレーニングビデオ、カメラビデオ、カメラ画像、ユーザ入力、センサ入力、及びデータセットを含むセットを使用して、又はこのセットから、複数の入力ストリームのうちの少なくとも一つを生成するか、又は受信する。
【0019】
拡張表示生成器の一部の実施形態では、複数の入力ストリームのうちの一つがビデオゲームであり、複数の機能のうちの一つが、ビデオゲームの表示コンテンツ内の外形を幾何学的に変換するために構成される。
【0020】
拡張表示生成器の一部の実施形態では、複数の機能からの少なくとも一つの機能が、ユーザ入力に基づいて表示コンテンツの少なくとも一部を生成するように構成された、AI機能である。
【0021】
別の態様は、主要部分及び拡張部分を有する仮想表示システム、並びに生成機能を実施するモジュールを含む体験ステーションに関連しており、生成機能は、(i)複数の入力ストリームを受信することであって、入力ストリームのうちの少なくとも一つが、表示コンテンツを仮想表示システムの主要部分に提供する、受信することと、(ii)ユーザによる一連のアクションを捕捉することと、(iii)仮想表示システムに、ユーザによる複数の入力ストリームに対する複数の未来の可能なアクションを拡張部分に表示させることとを実行するように構成される。
【0022】
体験ステーションの一部の実施形態では、生成機能は、時間的要因を使用して、仮想表示システムの拡張部分に対する複数の未来の可能なアクションを決定するように構成される。
【0023】
体験ステーションの一部の実施形態では、生成機能は、イベントに基づくアクショントリガーを含み、アクショントリガーは、トリガーされた場合に、仮想表示システムの拡張部分でのコンテンツの生成を引き起こす。体験ステーションの一部の実施形態では、イベントに基づくアクショントリガーは、ユーザ入力によってトリガーされるように構成される。
【0024】
体験ステーションの一部の実施形態では、生成機能は、ユーザのアクションと並列に、ユーザによって付与された権限レベルに基づいて予測されたタスクを自動的に提案し、実行するようにさらに構成される。
【0025】
体験ステーションの一部の実施形態では、複数の入力ストリームが、インターネット、ゲーム、既存のアプリケーション、ウェブサイト、ビデオ、画像、及びデータビジュアライザのうちの少なくとも一つを含む。
【0026】
体験ステーションの一部の実施形態では、生成機能は、ユーザの複数の過去のアクションの確率的分析に少なくとも部分的に基づいて複数の未来の可能なアクションを決定するように構成される。
【0027】
体験ステーションの一部の実施形態では、生成機能は、仮想表示システムに、複数の未来の可能なアクションを注釈層として出力させるように構成される。
【0028】
体験ステーションの一部の実施形態では、生成機能は、仮想表示システムに、複数の未来の可能なアクションを、複数の仮想的奥行きそれぞれに表示させるように構成される。
【0029】
一部の実施形態では、体験ステーションは、ユーザの視線を検出し、視線の位置を複数の入力ストリームのうちの一つの入力ストリームとして出力するためのセンサをさらに備え、生成機能は、視線の位置に基づいて複数の未来の可能なアクションの表示を動的に変更するように構成される。
【0030】
別の態様は、生成的拡張表示ステーションに関連している。生成的拡張表示ステーションは、主要部分及び拡張部分を含み、複数の入力ストリームのうちの一つの入力ストリームからの第1の表示コンテンツを表示するように構成された拡張表示システムと、複数の入力ストリームのうちの少なくとも一つに対して動作し、第2の表示コンテンツを拡張表示システムの拡張部分に出力するように構成された計算モジュールとを備える。
【0031】
生成的拡張表示ステーションの一部の実施形態では、拡張表示システムの少なくとも一部が、仮想画像を表示して視覚的環境を生成するように構成される。
【0032】
生成的拡張表示ステーションの一部の実施形態では、多層表示が、複数の入力ストリームからの画像を第1の層に表示し、計算モジュールが注釈層を生成するように、拡張表示システムが仮想表示システムである。
【0033】
一部の実施形態では、生成的拡張表示ステーションは、ユーザからの情報を捕捉するためのセンサを含み、この情報は、計算モジュールに入力される複数の入力ストリームのうちの一つの入力ストリームであり、計算モジュールは、この情報に基づいて第1又は第2の表示コンテンツを変更するようにさらに構成される。
【0034】
一部の実施形態では、生成的拡張表示ステーションは、第2の表示コンテンツが複数の垂直検索エンジンの推奨になるように、ユーザの問い合わせを入力として受け取るように構成されたAIモジュールを含み、第1の垂直検索エンジンの推奨が、問い合わせによって決定され、第2の垂直検索エンジンの推奨が、第1の垂直検索エンジンの推奨の結果によって少なくとも部分的に決定される。
【0035】
生成的拡張表示ステーションの一部の実施形態では、第2の表示コンテンツは、ユーザ又はユーザ履歴の設定による影響を受ける。
【0036】
生成的拡張表示ステーションの一部の実施形態では、計算モジュールは、ニューラルネットワーク又はトランスフォーマを備えているAIモジュールである。AIモジュールは、複数の入力ストリームのうちの少なくとも二つを比較し、それらの入力ストリームを拡張表示システム上の単一の表示コンテンツにマージするように構成されてよい。
【0037】
別の態様は、コンテンツを表示するための主要部分及び拡張部分を含んでいる拡張表示システムであって、主要部分が、複数の入力ストリームのうちの一つの入力ストリームによって直接供給されるように構成され、入力ストリームがローカルソースを含む、拡張表示システムと、拡張表示システムに動作可能に接続された少なくとも一つのプロセッサと、少なくとも一つのプロセッサによって実行可能な命令をエンコードしている非一過性コンピュータ可読ストレージ媒体とを備えている拡張表示体験ステーションに関連しており、これらの命令は、(i)複数の入力ストリームのうちの一つの入力ストリームを入力として受け取るように構成された複数の機能、及び(ii)拡張表示システムの主要部分での第1の表示コンテンツが、拡張部分での第2の表示コンテンツと相互作用するように、複数の機能から選択された一つの機能を使用して、拡張表示システムの拡張部分への表示のための第2の表示コンテンツを生成するように構成されたソフトウェアアプリケーションを含む。
【0038】
一部の実施形態では、拡張表示体験ステーションは、ユーザに関する情報をさらに捕捉し、この情報を選択された機能に入力するように構成された、少なくとも一つのセンサをさらに備え、選択された機能は、は、拡張表示システム上の第1及び第2の表示コンテンツのうちの少なくとも一つの動的変更を出力する。
【0039】
拡張表示体験ステーションの一部の実施形態では、拡張表示システムの拡張部分が、主要部分の仮想的奥行きと異なる仮想的奥行きで表示される。
【0040】
拡張表示体験ステーションの一部の実施形態では、少なくとも一つのプロセッサの少なくとも一部が、拡張表示システムと通信するリモートソースの一部であり、リモートソースは、ソフトウェアアプリケーションを実行するように構成される。
【0041】
拡張表示体験ステーションの一部の実施形態では、少なくとも一つのプロセッサの少なくとも一部が、拡張表示システムの一部であり、拡張表示システム上で少なくとも部分的に実行するように構成される。
【0042】
拡張表示体験ステーションの一部の実施形態では、ソフトウェアアプリケーションが、リモートソースと通信し、リモートソースから、拡張表示システムの拡張部分に表示される第2の表示コンテンツを含む支援を受信するようにさらに構成される。
【0043】
拡張表示体験ステーションの一部の実施形態では、入力デバイスが、ユーザから情報を捕捉するように構成され、複数の機能が複数の対話型の補助画像部分を提供するように、ソフトウェアアプリケーションが、トレーニング体験のために構成される。
【0044】
拡張表示体験ステーションの一部の実施形態では、ソフトウェアアプリケーションが、第1のユーザの使用に基づいて第2のユーザのトレーニング体験を更新するように構成される。
【0045】
拡張表示体験ステーションの一部の実施形態では、ソフトウェアアプリケーションがビデオアプリケーションであり、ビデオの特徴が、AIモジュールによる影響を受ける。
【0046】
一部の実施形態では、拡張表示体験ステーションは、ユーザ入力デバイスをさらに備え、ビデオアプリケーションが、クリックできるビデオであり、ユーザ入力デバイスへの入力に基づいて、AI機能が、(i)クリックできるビデオ内のオブジェクトに関する情報、(ii)クリックできるビデオの新しいフレーム、及び(iii)クリックできるビデオに関連する追加コンテンツのうちの一つを生成する。
【0047】
拡張表示体験ステーションの一部の実施形態では、ビデオアプリケーションが、リアルタイムビデオ又はリモート環境であり、AIモジュールが、リアルタイムビデオ内の人又は人のアクションを検出し、リアルタイムビデオの表示と同時に一連のアクションを表示するように構成される。
【0048】
拡張表示体験ステーションの一部の実施形態では、複数の機能のうちの一つが、複数の入力ストリームのうちの一つの特徴を検出し、視覚的に変更された特徴を拡張表示システム上に出力するように構成された、コンピュータビジョン機能である。
【0049】
拡張表示体験ステーションの一部の実施形態では、コンピュータビジョン機能は、拡張表示システムの主要部分に表示された第1の画像のコンテンツを検出し、第2のコンテンツを生成して、拡張表示システムの拡張部分に表示するように構成され、第2のコンテンツは、第1のコンテンツ内の参照によって識別される。
【0050】
一部の実施形態では、拡張表示体験ステーションは、複数のユーザが複数の拡張表示システムと情報をやりとりし、拡張表示システムの各々が、視覚的に共有された環境の一部を表示する、協力的アプリケーションにおいて使用するために構成される。
【0051】
拡張表示体験ステーションの一部の実施形態では、拡張表示システムが、モバイルデバイス上、タブレット上、スマートフォン上、スマートウォッチ上、又はヘッドセット上の拡張表示体験ステーションの一部に通信可能に結合される。
【0052】
別の態様は、拡張表示システムを含んでいる別の拡張表示体験ステーションに関連しており、幾何学変換機能を実施するモジュールが、画像を受信し、画像の少なくとも一部の変更された形状を出力するように構成される。
【0053】
拡張表示体験ステーションの一部の実施形態では、画像が、ビデオ内の複数の画像のうちの画像であり、幾何学変換機能がビデオに適用される。
【0054】
拡張表示体験ステーションの一部の実施形態では、ビデオがビデオゲームであり、幾何学変換機能が、ビデオゲームに対して動作し、ポーズゆがみ、ストライドゆがみ、パースペクティブゆがみ、オリエンテーションゆがみ、及びモーションゆがみのうちの少なくとも一つを提供する。
【0055】
一部の実施形態では、拡張表示体験ステーションは、画像を捕捉するためのカメラ及びテレビ会議アプリケーションをさらに備え、画像は、少なくとも、ユーザ及びユーザの環境の画像であり、モジュールは、幾何学変換機能を使用して変更された形状を含む第2の画像を生成し、画像及び第2の画像が、共有された視覚的環境内で結合される。
【0056】
一部の実施形態では、拡張表示体験ステーションは、ユーザのジェスチャーを捕捉するように構成されたカメラをさらに備え、幾何学変換機能によって出力された画像の少なくとも一部の変更された形状が、ジェスチャーに基づいてそのように変更される。
【0057】
一部の実施形態では、拡張表示体験ステーションは、画像を捕捉するように構成されたカメラをさらに備え、画像が、ユーザの環境の画像であり、画像の一部が仮想現実環境内に表示されるように、幾何学変換機能が、画像の一部に作用するように構成される。
【0058】
別の態様は、多層表示を出力するように構成された拡張表示システムを備えている生成的表示体験ステーションに関連しており、複数の計算モジュールが、多層表示の複数の焦点面の各々からのコンテンツを入力として受け取り、生成的コンテンツを出力するようにそれぞれ構成され、生成的コンテンツが、多層表示内のコンテンツを変更する。
【0059】
生成的表示体験ステーションの一部の実施形態では、複数の計算モジュールのうちの少なくとも一つの計算モジュールがAIモジュールである。生成的表示体験ステーションの一部の実施形態では、コンテンツがテキストソースを含み、AIモジュールが、テキストソースから導出された論理的推論を出力する。
【0060】
拡張表示体験ステーションの一部の実施形態では、多層表示の第1の奥行きが注釈層であり、第2の奥行きがコンピュータシミュレーション又はトレーニングシミュレーションを表示する。一部の実施形態では、第2の奥行きがトレーニングシミュレーションを表示し、注釈層がインストラクターの画像を表示する。
【0061】
一部の実施形態では、生成的表示体験ステーションが、ユーザの視線を検出するためのセンサをさらに含み、ユーザインターフェイスが、多層表示の複数の焦点面のうちの一つにメニューを表示し、検出された視線に基づいてメニューを変更するように構成される。
【0062】
生成的表示体験ステーションの一部の実施形態では、多層表示の奥行き層のサブセットが、少なくとも一つの入力ストリームからの複数の画像を表示し、多層表示の別の層が生成的コンテンツを表示し、生成的コンテンツが、複数の画像間の差異である。一部の実施形態では、少なくとも一つの入力ストリームがビデオであり、差異が、ビデオのフレーム間の時間遅延に基づく。
【0063】
一部の実施形態では、生成的表示体験ステーションは、ユーザからの情報を捕捉するための少なくとも一つのセンサをさらに備え、この情報は、複数の計算モジュールのうちの一つに入力される複数の入力ストリームのうちの一つの入力ストリームであり、計算モジュールは、この情報に基づいて第1又は第2の表示コンテンツを変更するようにさらに構成される。一部の実施形態では、センサがユーザ入力デバイスである。
【0064】
生成的表示体験ステーションの一部の実施形態では、生成的表示コンテンツが、複数のAIモジュールの各々の可能な出力の組み合わせになるように、複数の計算モジュールが、互いに確率的に結合された複数のAIモジュールである。
【0065】
別の態様は、複数の入力ストリームを生成又は受信するための入力ストリームモジュールであって、複数の入力ストリームが第1の入力ストリームを含み、入力ストリームモジュールが、第1の入力ストリームをリモートソースから受信するように構成される、入力ストリームモジュールと、複数の入力ストリームに対して動作するように構成された複数の機能を実装する機能モジュールであって、複数の機能が第1の機能を含む、機能モジュールと、第1の機能から出力されたコンテンツを表示するための拡張表示システムとを備えているタンデムコンピューティングシステム(tandem computing system)に関連している。
【0066】
タンデムコンピューティングシステムの一部の実施形態では、リモートソースが、クラウドソース、インターネット、分散ネットワーク、センサ、及びローカルエリアネットワークのうちの少なくとも一つである。一部の実施形態では、リモートソースが分散ネットワークであり、分散ネットワークからの第1の入力ストリームが第1の機能に入力され、第1の機能から出力された表示コンテンツが、分散ネットワークからの情報から形成された、まとまりのある画像である。
【0067】
タンデムコンピューティングシステムの一部の実施形態では、表示コンテンツの一部が、リモートソースのみからの情報によって生成される。
【0068】
タンデムコンピューティングシステムの一部の実施形態では、複数の入力ストリームが第2の入力ストリームをさらに含み、入力ストリームモジュールが、第2の入力ストリームをローカルソースから受信するように構成され、第1の機能が、少なくとも第1の入力ストリーム及び第2の入力ストリームからの情報の重ね合わせによって生成された表示コンテンツの一部を出力する。
【0069】
タンデムコンピューティングシステムの一部の実施形態では、表示コンテンツが低帯域幅構成要素及び高帯域幅構成要素に分割され、リモートソースが、後で表示コンテンツを変更するために、これらの構成要素のうちの一つに関する情報を拡張表示システムに中継する。
【0070】
一部の実施形態では、タンデムコンピューティングシステムは、ユーザから入力を収集するように構成された少なくとも一つのセンサをさらに備え、複数の機能のうちの少なくとも一つからの出力が、前述の入力に依存する。
【0071】
タンデムコンピューティングシステムの一部の実施形態では、機能のうちの一つが、複数の入力ストリームのうちの二つの入力ストリーム間の差異を計算して表示するように構成された時間遅延機能である。
【0072】
タンデムコンピューティングシステムの一部の実施形態では、リモートソースが、テレビ会議のために構成された共有された視覚的環境の一部であり、第1の機能が、テレビ会議中の会話の特徴を検出するように構成されたAIモジュールであり、拡張表示システム上の表示コンテンツが、これらの特徴に関する情報を含む。
【0073】
タンデムコンピューティングシステムの一部の実施形態では、拡張表示システムが、第1の層及び第2の層を含んでいる多層表示(多層ディスプレイ)であり、複数の入力ストリームが第2の入力ストリームをさらに含み、入力ストリームモジュールが、第2の入力ストリームをローカルソースから受信するように構成され、複数の機能が、第2の入力ストリームを入力として受信し、第2の入力ストリームに基づいて第2の表示コンテンツを出力するように構成された第2の機能をさらに含み、表示コンテンツが、リモートソースに基づく第1の表示コンテンツであり、第1の層に表示され、ローカルソースに基づく第2の表示コンテンツが、第2の層に表示される。
【0074】
一部の実施形態では、タンデムコンピューティングシステムは、遠隔操作アプリケーションのために、リモートに制御される車両に結合されたカメラアレイをさらに備える。一部の実施形態では、センサアレイが、ユーザからデータを収集するように構成され、前述のデータが、頭部追跡、SLAM、及びユーザからの視線のうちの少なくとも一つを含み、複数の機能のうちの少なくとも一つが、前述のデータを入力として受信し、視覚的環境の正確な角度の動的透視図を出力する。
【0075】
タンデムコンピューティングシステムの一部の実施形態では、複数の入力ストリームが、協力的アプリケーションに関与する各リモートユーザに関する情報をそれぞれ含んでいる複数の入力ストリームの少なくとも一部を含む。一部の実施形態では、拡張表示システムが、共有された視覚的環境を表示するように構成され、複数の機能のうちの少なくとも一つの機能が、第1のユーザによって共有されたコンテンツを第2のユーザのための異なる形態に動的に変換するように構成され、異なる形態が、第2のユーザプロフィール及び履歴のうちの少なくとも一つによって決定される。
【0076】
タンデムコンピューティングシステムの一部の実施形態では、拡張表示システムが、共有された視覚的環境を、複数のユーザによって使用するために構成された多層表示に表示し、第1の層が、リモートソースによって生成され、第1の層が、複数のユーザによって共通して見ることができ、複数のユーザの各々の各第2の層による影響を受けるようにさらに構成される。一部の実施形態では、入力センサが、形状又はユーザを検出するように構成され、各ユーザの各々の各第2の層が、第1の層へのウィンドウとして機能し、このウィンドウは形状によって決定される。
【0077】
タンデムコンピューティングシステムの一部の実施形態では、第1のユーザのユーザ入力が、各第2の層のうちの一つの変更されたコンテンツを出力する機能に入力される。
【0078】
別の態様は、複数の入力ストリームを生成又は受信するための入力ストリームモジュールと、複数の入力ストリームのうちの少なくとも一つの入力ストリームを入力として受信し、複数の入力ストリームのうちの少なくとも一つから導出された仮想画像の注釈である生成的視覚情報を出力するように構成されたAI機能を実装するための機能モジュールと、生成的視覚情報を表示するように構成された拡張表示システムとを備えている生成的表示システムに関連している。
【0079】
一部の実施形態では、生成的表示システムは、ユーザ入力を検出するように構成されたユーザ入力デバイスをさらに備え、AI機能が、複数の入力ストリームのうちの少なくとも一つに基づいて生成的視覚情報を継続的に更新するように構成され、AI機能が、ユーザ入力をユーザ入力デバイスから受信し、ユーザ入力に基づいて生成的視覚情報を変更するようにさらに構成される。
【0080】
生成的表示システムの一部の実施形態では、AI機能が、少なくとも一つの焦点面の画像を入力として受け取り、注釈を拡張視野表示画像として出力する。
【0081】
生成的表示システムの一部の実施形態では、複数の入力ストリームのうちの少なくとも一つが、リモートソースから来る。
【0082】
生成的表示システムの一部の実施形態では、生成的な視覚的コンテンツが、ユーザプロフィール又はユーザ履歴によって変更される。
【図面の簡単な説明】
【0083】
図1】本開示の実施形態例における共通の特徴である要素のセットを示す図である。
図2】リモートのコンピューティングソースを使用するか、又は使用しない、拡張表示システム、仮想表示システム、又は多層表示システムを使用するソフトウェアアプリケーションのセットを表す図である。
図3】仮想表示又は多層表示のためのソフトウェア生成メカニズムのフローチャートである。
図4A】拡張表示システム、仮想表示システム、又は多層表示システムのためのソフトウェア生成メカニズムの詳細なドロップダウンメニューを示す図である。
図4B】拡張表示システム、仮想表示システム、又は多層表示システムのためのソフトウェア生成メカニズムの詳細なドロップダウンメニューを示す図である。
図5-1】さまざまなソフトウェア体験を生成するためにソフトウェア生成メカニズムにおいて使用され得る例示的な機能ブロックのセットを示す図である。これらのブロックは、ユーザによって選択されるか、又は特定の時間でのシステムにおけるプロンプト又は入力に基づいて決定されてよい。
図5-2】さまざまなソフトウェア体験を生成するためにソフトウェア生成メカニズムにおいて使用され得る例示的な機能ブロックのセットを示す図である。これらのブロックは、ユーザによって選択されるか、又は特定の時間でのシステムにおけるプロンプト又は入力に基づいて決定されてよい。
図6-1】図5-1および5-2において説明された実施形態例に対応するフローチャート又はブロック図のセットを示す図である。
図6-2】図5-1および5-2において説明された実施形態例に対応するフローチャート又はブロック図のセットを示す図である。
図6-3】図5-1および5-2において説明された実施形態例に対応するフローチャート又はブロック図のセットを示す図である。
図7-1】表示システムを使用して実行され得る、現在の使用と相互関係がある代替のアクションを表示するように構成された、生成されたソフトウェア体験の一連の実施形態を示す図である。
図7-2】表示システムを使用して実行され得る、現在の使用と相互関係がある代替のアクションを表示するように構成された、生成されたソフトウェア体験の一連の実施形態を示す図である。
図8-1】図7-1および7-2における実施形態の一部に関して、代替のアクションを表示するための例示的なメカニズムを示すフローチャートのセットを示す図である。
図8-2】図7-1および7-2における実施形態の一部に関して、代替のアクションを表示するための例示的なメカニズムを示すフローチャートのセットを示す図である。
図9】本開示に記載されたソフトウェアの予測的特徴を実施するために使用され得るニューラルネットワークのブロック図である。
図10】拡張表示システム、仮想表示システム、又は多層表示システム内の代替のアクションを予測することにおいて使用するための自己注意メカニズムを表すブロック図である。
図11-1】拡張表示システム、仮想表示システム、又は多層表示システムのためのソフトウェアアプリケーションの一連の実施形態を示す図である。
図11-2】拡張表示システム、仮想表示システム、又は多層表示システムのためのソフトウェアアプリケーションの一連の実施形態を示す図である。
図12】リモートソース及びローカルソースからのコンテンツを同時に表示するためのメカニズムを説明するフローチャートである。
図13-1】コンテンツがローカルソース又はリモートソースから導出される拡張表示システム、仮想表示システム、又は多層表示システムのための生成的ソフトウェアアプリケーションの一連の実施形態を示す図である。
図13-2】コンテンツがローカルソース又はリモートソースから導出される拡張表示システム、仮想表示システム、又は多層表示システムのための生成的ソフトウェアアプリケーションの一連の実施形態を示す図である。
図13-3】コンテンツがローカルソース又はリモートソースから導出される拡張表示システム、仮想表示システム、又は多層表示システムのための生成的ソフトウェアアプリケーションの一連の実施形態を示す図である。
図14-1】マルチユーザアプリケーション用の拡張表示システム、仮想表示システム、又は多層表示システムのための生成的ソフトウェアアプリケーションの一連の実施形態を示す図である。
図14-2】マルチユーザアプリケーション用の拡張表示システム、仮想表示システム、又は多層表示システムのための生成的ソフトウェアアプリケーションの一連の実施形態を示す図である。
図15】本開示に記載された生成的ソフトウェアアプリケーションの一部の一連のフローチャートである。
図16-1】リモートに供給されるサブセクション及びローカルに供給されるサブセクションへの拡張表示システムの分割を説明する一連のフローチャートである。
図16-2】リモートに供給されるサブセクション及びローカルに供給されるサブセクションへの拡張表示システムの分割を説明する一連のフローチャートである。
図17】シーケンスに従い、生成的ソフトウェアアプリケーションにおいて発生する中心的イベントから分岐することができる、情報及びイベントをグラフィカルに表示する方法を示す補助的な実施形態を示す図である。
【発明を実施するための形態】
【0084】
最新の表示デバイスは、帯域幅共有、コンテンツ作成、及びユーザの対話の新しいチャネルを提供する。拡張現実(AR:augmented reality)、仮想現実(VR:virtual reality)、エクステンデッドリアリティ(XR:extended reality)、複合現実(MR:mixed reality)、ヘッドセット、及び自立型仮想表示システムなどの没入型のコンテンツ及びハードウェアはすべて、人間の生産性及び娯楽を改善するための未開拓の方法及びソフトウェアアプリケーションを提供する手法である。予測的及び生成的な視覚的コンテンツは、機械学習(ML:machine learning)、人工知能(AI:artificial intelligence)アルゴリズム、並びに他のソフトウェアアーキテクチャ及びアルゴリズムと結合されて、ユーザ体験を増幅又は強化するための新しい固有の方法で表示され得る。本発明者は、ユーザの視覚的体験が、協力して実行しているコンピュータの能力を活用して、ユーザの視野(FoV:field of view)に提供される一連の可能性を拡張及び拡大することによって強化され得るということを認識し、理解した。例えば、そのようなコンテンツを、三次元ディスプレイ、仮想ディスプレイ及び多層ディスプレイ、又はマルチモニタ設定さえ含むが、これらに限定されない、さまざまな表示システムに組み込むソフトウェアメカニズムである。一部の実施形態では、表示画像は単に、側面パネル及びモニタに拡張された2D画像である。一部の他の実施形態では、表示は、単眼の奥行きを含む画像を提供し、視聴者は、少なくとも一つの画像面への遠近調節の奥行き手掛かりを体験する。一部の実施形態では、表示画像は、立体画像である。一部の実施形態では、立体的奥行き手掛かり及び単眼の奥行き手掛かりの両方が提供される。開示された技術のユーザは、任意のアプリケーションに関して、改善された生産性、娯楽の価値、又は生成的提案を体験し得る。
【0085】
本開示では、新しいソフトウェアの方法及びソフトウェアアプリケーションが説明される。本明細書に記載された一部の実施形態は、拡張表示システムにおいて使用するために構成された、そのような方法及びアプリケーションを開示し、そのような方法及びアプリケーションは、ソフトウェアアプリケーションを生成するための方法、予測的視覚ソフトウェアの統合、協力的アプリケーション及び単一ユーザアプリケーション、並びにリモートソースを含む複数のソースを伴うソフトウェアアプリケーション及び表示を含む。ユーザの生産性、トレーニング、ビデオ会議、テレプレゼンス、又は娯楽のための視覚的帯域幅を生成するための新しい方法が説明される。
【0086】
用語
「表示システム」又は「ディスプレイ」は、画像を生成する任意のデバイスである。表示画像の物理的ソースは、液晶ディスプレイ(LCD:liquid crystal display)、発光ダイオード(LED:light emitting diode)ディスプレイ、マイクロLEDディスプレイ、有機発光ダイオード(OLED:organic light emitting diode)ディスプレイ、ポリマー発光ダイオード(POLED:polymer light emitting diode)ディスプレイ、アクティブマトリクス有機発光ダイオード(AMOLED:active-matrix organic light emitting diode)ディスプレイ、MOLEDなどの、一つの表示パネル又は複数の表示パネルによって生成されるような、標準的な2D画像又はビデオであることができる。そのような表示技術、又は複数の表示技術は、他の表示システムに組み込まれてもよい。一部の実施形態では、空間光変調器(SLM:spatial light modulators)が使用される。一部の表示システムでは、光源が、マスク又はパターン形成された要素と結合されて、セグメント化されたアドレス指定可能な光源を作り出してよい。他の光源は、例えば、投影に基づく表示システムにおいて使用するために構成された、一つ以上のLED、バックライト、又はレーザービームなどの一般的な光源であってよい。
【0087】
さらに、表示システムは、ヘッドセット、ハンドヘルドデバイス、又は自立型システムであってよく、「自立型」という用語は、デバイスの筐体が、テーブルなどの構造体の上にあることができるということを意味する。一部の実施形態では、表示システムは、メカニカルアームによって構造体に取り付けられるように構成される。
【0088】
本開示では、「拡張表示」又は「拡張表示システム」は、表示に供給された主要コンテンツではない拡張コンテンツに割り当てられたか、拡張コンテンツに拡張されたか、又は拡張コンテンツ専用である画像又は視覚化の一部を含む任意の表示システムである。拡張表示は、マルチモニタ設定、モニタ投影システムのハイブリッド設定、仮想表示システム、拡張頭部追跡表示を含むAR、VR、及びXRヘッドセット、マルチ投影システム、光照射野表示システム、多焦点表示システム、ボリュメトリック表示システム、タイル表示されたビデオの壁、又は同じ環境の接続された部分である任意の表示システムを含む。一部の実施形態では、拡張表示システムは、モニタ上の一つの部分、及び携帯電話、タブレット、ラップトップ画面、タッチ画面、広告画面、又はAR/VR/XR/MRデバイス上の別の部分を含む。拡張表示システムは、任意のアプリケーションにおいて、任意の画面デバイス上の表示の任意の集合に分割され得る。拡張表示システムは、ピクセルの主要な入力セット及びピクセルの拡張セットが存在するような、一つ以上のデバイス上の表示又はピクセルの集合と見なされ得る。ピクセルの拡張セットは、表示コンテンツの「拡張部分(extended portion)」又は「拡張部分(extended part)」と呼ばれてもよい。拡張表示システムは、主要部分を含んでいるとして説明されてよく、主要部分のコンテンツは、一次コンピュータシステム(「ローカルソース」)によって生成され、拡張表示システムは、補助的又は間接的コンピュータシステム又はソース(「リモートソース」)によって生成され得る二次的部分(すなわち、拡張部分)を含んでよい。
【0089】
「仮想表示システム」は、二つ以上の知覚される奥行きで、又は、画像を生成する表示パネルの奥行きと異なる一つの知覚される奥行きで、画像を生成する拡張表示システムである。そのような画像は、単眼の奥行きに依存してよく、立体的、オートステレオスコピック、又は(オート)マルチスコピックであってよい。仮想表示システムは、コンピュータモニタ又はテレビセットのような自立型システムであってよい。仮想表示システムは、携帯電話、タブレット、ヘッドセット、スマートウォッチ、又は任意のポータブルデバイスの一部であってよい。仮想表示システムは、任意のアプリケーションにおける単一ユーザ用又は複数ユーザ用であってよい。仮想表示システムは、ボリュメトリックディスプレイ又は光照射野ディスプレイであってよい。一部の実施形態では、仮想表示システムはホログラフィックディスプレイであり、ホログラフィックディスプレイは、光の干渉を操作することに基づいて画像を生成するために、光の波の性質に依存する。
【0090】
「表示コンテンツ」という用語は、視聴者によって知覚される最終的な画像情報又はソース情報を表すために使用される。一部の実施形態では、仮想表示システムは、視聴者の両目を同時に包含するのに十分なほど大きい体積を有するアイボックス(eyebox)を生成する。別の実施形態では、仮想表示システムは、左目及び右目によって同時に見るためにそれぞれ構成された、左アイボックス及び右アイボックスを生成する。アイボックスのサイズ及び数は、表示の特定の性質及び設計に依存する。
【0091】
仮想表示システムを含む拡張表示システムは、表示の特性に影響を与えるための液晶又は他の偏光に依存する要素、光路の方向を変えるか、任意の次元におけるサイズに影響を与えるか、焦点の奥行きを変更するか、又は収差及び変形を修正するための任意の種類のミラー又はレンズ、任意の表面コーティング、能動要素、画像品質に役立つスペクトルフィルタ又は空間フィルタ、光空洞、或いは視聴者に達する不要な光、迷光、又は周囲光を減らすための遮蔽層又は反射防止層として機能する任意の種類の要素又はコーティングを含む、任意のハードウェアを組み込んでよい。一部の実施形態では、表示システムは、メタマテリアル及びメタサーフェス、非線形光学要素、光結晶、屈折率分布型材料、異方性要素又は双異方性要素、或いは電気光学要素を備える。一部の実施形態では、拡張表示システムは、光学的仮想表示システムである。しかし、拡張表示システムは、人間の聴覚系による消費のために構成された、無線周波又は音響表示システムを含む、任意の手法の拡張表示システムであることができる。一部の実施形態では、表示又は表示の要素は、湾曲してよい。
【0092】
一部の実施形態では、フィールド発達空洞が構成要素として拡張表示システムに含まれる。「フィールド発達空洞」、「FE(field evolving)空洞」、又は「FEC(field evolving cavity)」は光空洞であり、その内部で、光が実質的に折り重なることができる。FECは、三次元知覚のための奥行き手掛かりをユーザに提供することを支援する。一部の実施形態では、奥行き手掛かりは、単眼の奥行き手掛かりである。FECの例は、第1の半反射要素、空気のすき間又は誘電材料、及び第2の半反射要素を含む。光は、第1の半反射要素を通過して、すき間を通り、第2の半反射要素に反射してすき間に戻り、第1の半反射要素に反射し、再びすき間を通って前進し、その後、半反射要素を透過して視聴者に達する。その結果、この場合に光が移動する有効距離は、すき間の距離自体の三倍になる。往復の数は任意である。例えば、ゼロ、一つ、二つ、又は三つの往復が存在してよい。一部の実施形態では、効率を向上させるか、又は往復の数を変更するために、偏光子、波長板、及び偏光ビームスプリッタなどの、偏光依存性要素及び偏光影響要素が使用されてよい。例えば、光源が、ほぼ点光源であるピクセルである場合、FECは、ピクセルの球形波面が、光が一回すき間を通過する場合よりも平坦になることを引き起こす。
【0093】
FECでは、往復の数は、画像の焦点面を決定し、したがって、視聴者の単眼の奥行き手掛かりを決定する。一部の実施形態では、異なる光線が、異なる総距離を移動して、複数の画像の奥行きを有する複数の焦点面又は多焦点画像を生成する。一部の実施形態では、画像の奥行きは、例えば、往復の数を変更する電子光学構造体を介して、動的又は調整可能である。
【0094】
「光照射野」は、幾何学的な光線の近似に依存する、光の伝搬の数学モデルである。一部の光照射野モデルは、回折のような、波に基づく効果を組み込む。光照射野表示は、光照射野モデリングを使用して、ユーザに対して3D効果を引き起こすように設計された三次元表示である。同心の光照射野表示は、視聴者からの固定された半径での表示の任意の二つのピクセルに関して、第1のピクセルの光円錐の主光線が、第2のピクセルの光円錐の主光線と交差する、光照射野表示である。同心の光照射野表示は、すべての点で目に焦点を合わせることができる画像を生成する。
【0095】
表示システムは、画像を生成するか、注釈を既存の画像に重ね合わせるか、表示コンテンツの一つのセットを、対話型の環境の別のセットにフィードバックするか、又は周囲の環境に適応することができる。ユーザは、VR、AR、XR、ビデオシースルー効果を体験するか、リモートシステムを監視して同時の予測的提案を受信するか、デジタルコンテンツ又はオンラインリソースにインプリントを残す権限を持つアバターを提供するか、又は生成的コンテンツの作成のためにAIを使用することができる。一部の実施形態では、表示コンテンツのサブセクションが、別のサブセクションに影響を与えるために、アルゴリズムに入力される。
【0096】
表示コンテンツの「サブセクション」は、表示システムによって生成された表示コンテンツの分割である。一部の実施形態では、サブセクションは、ピクセル又はピクセルのセットである。ピクセルのセットは、ばらばらであるか、又は隣接してよい。一部の実施形態では、サブセクションは、表示コンテンツの特徴の種類に対応する。例えば、人の画像のサブセクションは、頭部又は腕であってよく、別のサブセクションは、手又は目であってよい。一部の実施形態では、サブセクションは、複数の焦点面を生成する表示の、層全体又は層若しくは焦点面の一部であってよい。一部の実施形態では、サブセクションは、任意の数学的基礎において、画像又は画像の一部のスペクトル成分の一部である。サブセクションは、さまざまな時点で、異なる態様で分割されてもよい。
【0097】
表示コンテンツは、さまざまな入力デバイスを介して、ユーザ又はユーザとの対話によって操作されてよい。入力デバイスは、通常は自動的でなく、意図的にユーザ入力を取り込む種類のセンサである。カメラ、キーボード及びマウス入力、タッチ画面、ジェスチャーセンサ、頭部追跡、視標追跡、VRパドル、音声入力、音声検出などの入力デバイスは、複数の手法でのユーザフィードバックを可能にする。一部の実施形態では、さまざまな生物学的センサ又は健康センサが、心拍数、姿勢、座っている向き又は立っている向き、血圧、視線又は焦点などの情報を捕捉し、その情報を、表示されたコンテンツに影響を与えるためにアルゴリズムにおいて使用する。
【0098】
一部の実施形態では、例えば、視線が検出されてよく、視線の位置が追跡されてよい。視線検出は、人の焦点を測定してよく、すなわち、その人がどこを見ているか、その人が何を見ているか、その人がどのようにまばたき又はウインクをしているか、或いはその人の瞳孔が、刺激、映像、又は他のものにどのように反応しているか(例えば、瞳孔のサイズの変化)を測定してよい。赤外線センサなどのセンサは、赤外光を目にあて、目の動きに基づく反射率の変化を検出する。一部の実施形態では、カメラが目の画像を捕捉し、畳み込みニューラルネットワーク(CNN:convolutional neural network)が、視線を推定するために使用される。視線が表示システムによって検出されるか、又は知られた後に、視線に基づいて表示コンテンツが変化してよい。例えば、視線は、ユーザが、メニューを表示することなどの、ユーザが実行し得るアクションに対応する特定の表示コンテンツを見ているようなことであってよい。別の例では、第1の層が、シーン又はマップ上のユーザの位置の広視野画像を表示してよく、視標追跡のフィードバックが、特定の領域を拡大するか、又は視線の焦点である領域に関する注釈を表示する。この例は、テレスコーピング機能と呼ばれてよい。
【0099】
一部の実施形態では、表示システムと直接的又は間接的にインターフェイスをとることができる他のさまざまなセンサ又はAIメカニズムを介して、ユーザ入力又は環境入力が生成され得る。センサは、任意の種類カメラ、圧力センサ又は触覚センサ、人又は環境に関する健康情報、生物学的情報を検出するセンサ、クロックセンサ及び他のタイミングセンサ、温度センサ、音声センサ(任意の種類のマイクロホンを含む)、化学センサ、或いは科学及び工学の目的での計測センサを含む。
【0100】
表示コンテンツのソースは、ローカル又はリモートであってよい。ソースは、ローカルなワークステーション、ラップトップ、コンピュータ、エッジデバイス、分散型センサ、インターネット、クラウドソース、サーバ又はサーバファーム、或いはデータを伝達することができる任意の電子デバイスを含む。ソースは、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate arrays)、クラウドコンピュータ又はサーバ、エッジデバイス、分散ネットワーク、モノのインターネット(IoT:internet of things)を含むことができる。ソースは、データを表示システムに送信する前に、データに対して動作してよく、ソースは、表示システムからデータを受信し、そのデータに対して動作してよい。
【0101】
リモートソースは、クラウドサーバ、インターネット、分散ネットワーク又は分散型センサ、エッジデバイス、ワイヤレスネットワークを経由して接続されたシステム、又はIoTを含むが、これらに限定されない。リモートソースは、必ずしも遠く離れて位置せず、ローカルソース以外のステーションで動作しているプロセッシングユニットト(CPU、GPU、又はニューラルプロセッシングユニット(NPU:neural processing units))を含んでよい。ローカルソースは、ユーザインターフェイスシステムにハード配線され、拡張表示の主要表示部分のための主要ワークステーションとして機能する。
【0102】
「通信チャネル」とは、例えば、ソースと表示の間の情報及びデータの送信を可能にする、少なくとも二つのシステム又はユーザの間のリンクのことを指す。通信チャネルは、ハード配線されるか、又はワイヤレスであってよい。通信チャネルは、イーサネット、USB、ワイヤレスネットワーク、任意の短距離ワイヤレス技術(Bluetoothなど)、光ファイバシステム、デジタル加入者回線(DSL:digital subscriber line)、同軸ケーブルなどの無線周波(RF:radiofrequency)チャネルを含む。
【0103】
「入力ストリーム」とは、データが取り出され得る、ローカル又はリモートのいずれかのデータストレージシステム又はソースからの、データ又は情報のことを指す。データは、リアルタイムに送信され得る。データは、物理的ソース自体に関するか、又は他のコンテンツに関する、メタデータを含むことができる。入力ストリームは、表示システム上の表示を直接の目的とするグラフィックデータであってよい。一部の実施形態では、入力ストリームは、表示システムのサブセクションに向けられた一つ以上の入力ストリームのことを指してよい。一部の実施形態では、入力ストリームは、ユーザのアクションによって、表示の一つのサブセクション内に生成され、別のサブセクションに表示される。
【0104】
待ち時間は、通信チャネルに沿って情報が送信を開始する瞬間と、情報がチャネルの末端で受信される瞬間との間の遅延である。通常、待ち時間とコンテンツの帯域幅の間に、トレードオフが存在する。リモートソースの場合、データ通信の待ち時間は、ソフトウェアアプリケーションの設計に統合され得るパラメータである。リモートに生成されるコンテンツにおける待ち時間は、MLの重み、及びさまざまなニューラルネットワークの線形層に組み込まれ得る。
【0105】
一部の実施形態では、さまざまなAI及びMLアルゴリズムが視覚的予測サービスに組み込まれ得る。生成的トレーニング済みトランスフォーマなどの既存の学習アルゴリズム、及びトランスフォーマからの双方向エンコーダ表現が、本明細書において説明されるように、ユーザのアクションに関して一般化され、一部又は拡張表示全体に命令するために、拡張表示システムに組み込まれてよい。
【0106】
アプリケーションは、グラフィカルな予測アシスタント及び仮想アシスタント、品質管理、遠隔操作、フライトシミュレーション及び防衛、医用及び診断画像、eスポーツ及びゲーム、金融取引を含むが、これらに限定されない。これらの使用事例では、ユーザが情報に基づく決定を行うことができるように、多次元データセットが直感的方法で表示されなければならない。一部の実施形態では、予測分析が計算され得る。一部の実施形態では、ユーザによって付与された権限を持つ仮想アバター又はAIシステムが、これらの予測分析に作用する。AI生成的コンテンツの例としては、テキストから画像へ、画像からテキストへ、画像又はテキストからタスクへ、テキストからコードへ、テキストから推論へ、画像又はテキストから推奨へ、又は任意の他の組み合わせが挙げられる。AIの機能又はモジュールは、コンテンツ生成において、異なるモデル又はトレーニングデータを結合するために、確率的分析によって支援されてよい。
【0107】
「ユーザ」又は「視聴者」という用語は、視覚、聴覚、触覚、又は嗅覚であることができる感覚を使用してシステムと対話する人のことを指す。一部の実施形態では、システムは、表示システム又は拡張表示システムである。ユーザは、非同期的アプリケーションを可能にするために、異なる時間にシステムを使用する未来のユーザであってもよい。「ユーザインターフェイス」又は「UI(user interface)」は、ユーザが対話することができる一連の対話型ツール(トグルボタン、ラジオボタン、スクロールバー、又はドロップダウンメニューなど)及び画面に対応する。同様に、「ユーザ体験」又は「UX(user experience)」は、UIによって決定されるような、ユーザの累積的体験を定義する。
【0108】
「3D画像」は、視聴者において任意の奥行き手掛かりをトリガーする画像であり、その結果、視聴者は、可変の奥行きで表示コンテンツを知覚するか、或いは互いに相対的なさまざまな奥行きでの表示コンテンツ、又は物理的表示システムと異なる奥行きで現れる表示コンテンツの異なる部分を知覚する。一部の実施形態では、視差効果が生み出される。一部の実施形態では、異なる画像を各目に送信することによって、3D効果が立体的にトリガーされる。一部の実施形態では、各目が適切な焦点面に焦点を合わせるか、又は適応する、「単眼の奥行き」手掛かりを使用して、3D効果がトリガーされる。仮想画像は、仮想表示システムに表示される画像である。仮想画像は、多焦点、可変焦点、光照射野画像、ホログラフィック、立体的、オートステレオスコピック、又は(オート)マルチスコピックであってよい。仮想画像の仮想奥行きは、表示システム、ユーザ又はセンサ入力、或いは事前にプログラムされたルーチンにおける制御によって、動的に調整可能であってよい。
【0109】
コンテンツが位置する奥行きは、「焦点面」の「仮想奥行き」と呼ばれる。異なる仮想奥行きで見ることができる表示コンテンツを生成するディスプレイは、「多層表示システム」又は「多層ディスプレイ」と呼ばれる。例えば、多層表示システムは、視聴者が、異なる表示コンテンツを見るために、自分の目を異なる奥行きに合わせて遠近調節しなければならないような方法で、表示コンテンツが表示される表示システムである。多層表示は、一部の実施形態では、透明な表示を備える。特定の仮想奥行きでの表示コンテンツは、「層」、「奥行き層」、又は「仮想層」と呼ばれる。
【0110】
「注釈層」は、コンテキスト、さらなる情報、又は表示システム内の他のコンテンツの説明を提供する表示コンテンツである。例えば、注釈層は、多層表示内の層又は焦点面であってよい。注釈層は、他の層内のコンテンツに関するグラフィックス又はテキストの注釈を提供する。拡張表示の他の形式が注釈を含んでもよい。注釈は、宙に浮いているグラフィックス又は拡張FoV表示に表示されるか、又は単一の画像内の関連する表示コンテンツの上に重ね合わせられてよい。
【0111】
一部の実施形態では、表示コンテンツの他の対象の特性は、解像度、リフレッシュレート、明るさ、FoV、見ることができるゾーン、単眼の奥行き、又は遠近調節、両眼転導、アイボックス又はヘッドボックスを含むが、これらに限定されない。
【0112】
「視覚的テンプレート」とは、仮想表示システム内でデータ及び情報を計算的に構造化して表示するための既定の方法のことを指す。視覚的テンプレートの例は、多層表示によって生成された層のセットである。
【0113】
通常、「視覚的環境」は、互いに情報をやりとりすることができてよい、表示コンテンツ又は仮想画像の集合である。表示コンテンツは、カメラ画像、又はコンピュータグラフィックスなどの計算的に描画された画像を、ソースとして有してよい。視覚的環境は、仮想現実環境であることができ、仮想現実環境内のすべてのコンテンツは、仮想的表示コンテンツであり、視覚的環境は、拡張現実又は複合現実環境であることができ、拡張現実又は複合現実環境内の仮想画像は、物理的環境に重ね合わせられ、又は視覚的環境は、LCDパネルのような表示パネルからの従来の画像コンテンツであることができる。一部の実施形態では、視覚的環境は、一つの仮想画像のみを含む。視覚的環境は、運動用具内の単一のユーザによって使用されてよく、或いは視覚的環境は、例えば、インターネット又は任意の種類の有線ネットワーク若しくはワイヤレスネットワークを介して互いに通信する、複数の表示システムによって共有又は表示されてよい。「共有された視覚的環境」は、テレワークアプリケーション、テレビ会議、ウェブ会議、オンライン授業、又は協力的ゲーム若しくは複数プレイヤーのゲームを含む、任意の協力的活動に使用されてよい視覚的環境である。視覚的環境又は共有された視覚的環境では、異なるユーザが、異なる視点から表示コンテンツを見てよく、一部の実施形態では、共有された視覚的環境は、没入型であり、別々の位置で、ただし同じ共有された視覚的環境内で、表示をそれぞれ使用している二人のユーザが、これらのユーザが物理的に互いに隣接しているということを知覚するようにするか、或いは例えば、視覚的環境内をナビゲートすること、又は仮想的パノラマの周辺エリア内に協力的ユーザが存在することによって、ユーザが表示システムの物理的位置以外の位置にいるということを知覚するようにする。
【0114】
拡張表示システム及び仮想表示システムは、ビデオゲーム、ゲームエンジン、遠隔操作、シミュレーショントレーニング、テレビ会議、及びコンピュータシミュレータを含む、多様なアプリケーションに役立つ。
【0115】
ビデオゲームは、ユーザインターフェイスを介する一人以上のプレイヤーとの対話を伴う電子ゲームであり、音声及び視覚フィードバックを利用して、没入型かつ対話型のゲーム体験を作り出す。ビデオゲームは、コンソール、パーソナルコンピュータ、モバイルデバイス、及び仮想現実システムを含む、さまざまなプラットフォーム用に設計されることがあり、アクション、アドベンチャー、ロールプレイング、シミュレーション、スポーツ、パズル、及び戦略ゲームなどの、さまざまなゲームジャンルを包含することができる。ゲームの仕組み及びルールは、ゲームに応じて変化してよいが、ゲームは通常、ゲームの環境内でプレイヤーが達成しなければならない目的を含む。ゲームエンジンは、ビデオゲームを生成するためのプラットフォームである。
【0116】
遠隔操作は、リモートデバイス又はリモートシステムを制御する方法であり、人間オペレータが、リモートデバイス又はリモートシステム上でタスクをリアルタイムに実行できるようにする。遠隔操作システムは、通常、オペレータがリモート環境を知覚して操作するためのセンサ及びアクチュエータに加えて、フィードバック及び制御をオペレータに提供するユーザインターフェイスを含む。リモートデバイス又はリモートシステムは、達するのが危険又は困難である位置にあることがあり、或いはリモートデバイス又はリモートシステムは、操作するために特殊なスキル又は専門知識を必要とすることがあり、製造、建築、調査、及び遠隔制御方式の車両の使用を含むさまざまな産業において、遠隔操作を有用なツールにする。遠隔操作システムは、オペレータの能力を高め、遠隔操作の特定の側面を自動化するために、人工知能及び機械学習アルゴリズムを組み込んでもよい。
【0117】
テレビ会議は、リモートの参加者が、インターネットなどの通信チャネルを経由して、リアルタイムの会議において情報をやりとりし、協力することを可能にする技術である。テレビ会議システムは、通常、カメラ、マイクロホン、スピーカ、表示画面、及びユーザインターフェイスなどの、参加者が会議に接続し、互いに対話することを可能にするハードウェア構成要素及びソフトウェア構成要素を両方とも含む。システムは、協力体験を改善するために、画面共有、ファイル共有、仮想ホワイトボード、及びチャットメッセージングなどの特徴を組み込んでもよい。テレビ会議は、一般に、リモート会議、プレゼンテーション、講習会、及び相談を容易にし、参加者が、物理的移動を必要とせずに情報をやりとりし、一緒に作業できるようにする。
【0118】
シミュレーショントレーニングは、通常はコンピュータソフトウェア及び特殊なハードウェアを使用して、シミュレートされた環境内でタスクの体験を再現する技術である。一つの例は、航空機を操縦するタスクをシミュレートするフライトシミュレーション技術である。フライトシミュレーションシステムは、通常、実際の航空機の制御及び計器を模倣するコクピットシミュレータ又は制御インターフェイスに加えて、シミュレートされる環境の現実的な表現を提供する視覚的表示システムを含む。シミュレータは、没入型の体験を改善するために、動き及び音響効果を組み込んでもよい。フライトシミュレーションは、パイロットのトレーニング、航空機の設計及びテスト、並びに娯楽などの、さまざまな目的に使用され得る。シミュレーションは、航空機の挙動及び環境を正確に再現するために、現実世界のデータ及び物理モデルに基づくことができ、さまざまな飛行条件及び緊急事態をシミュレートするためのシナリオ及びイベントを組み込むこともある。フライトシミュレーショントレーニングアプリケーションへのユーザ入力は、操縦かん及びスロットル、物理的パネル、又はタッチ画面を含む。
【0119】
コンピュータシミュレーションは、異なる条件下でシステム又はプロセスの挙動及び情報のやりとりを模倣するように設計された、現実世界のシステム又はプロセスのデジタルモデルである。コンピュータシミュレーションは、通常、数学的アルゴリズム、コンピュータプログラム、及びデータ入力を使用して視覚的環境を作成し、この視覚的環境内で、システムの挙動が調査され、分析され得る。シミュレートされるシステムは、気象系、化学反応、電磁現象、又は機械的デバイスなどの物理的オブジェクト又は現象であってよく、或いは市場又はソーシャルネットワークなどの抽象概念であってよい。コンピュータシミュレーションは、科学的研究、工学的設計及びテスト、並びにトレーニング及び教育などの、さまざまな目的に使用され得る。コンピュータシミュレーションの精度及び複雑さは、特定の応用に必要とされる詳細度及び忠実度に応じて幅広く変化することができる。多くの場合、コンピュータシミュレーションは、ユーザが、モデリングパラメータ又は計算パラメータを変更することによって、シミュレートされるシステムの詳細と情報をやりとりすることを可能にする。
【0120】
任意の実施形態において、ユーザ、環境、又は他の外部条件及びシナリオに関する情報を表示システムに提供するために、任意のセンサが使用され得る。一部の実施形態では、例えば、ユーザ又はユーザの環境に関する情報を捕捉するために、カメラが使用される。複数のカメラ又はカメラアレイ或いはカメラシステムが使用され得る。一部の実施形態では、奥行きカメラが、奥行きに関する情報を捕捉するか、又はジェスチャー及び姿勢を感知し、奥行きカメラは任意の種類のカメラであることができる。本開示では、「奥行きカメラ」、「奥行きセンサ」、又は「RBGDカメラ」は、カメラとオブジェクトの位置の間の距離及びオブジェクトの位置までの距離を記録する撮像デバイスである。奥行きカメラは、能動的に照射されるか、又は受動的に照射されることが可能であり、複数のカメラを含むことができる。光検知測距(LIDAR:Light detection and ranging)、及び飛行時間型カメラは、能動的奥行きカメラの例である。奥行きカメラは、光干渉断層撮影検出(すなわち、自己相関)を使用することもできる。奥行きカメラは、赤外線(IR:infrared)照射を使用して、構造又は陰影から奥行きを抽出することができる。奥行きカメラは、ジェスチャー認識又は顔認識の特徴を組み込むことができる。奥行きは、例えば、ステレオ撮像によって、従来のカメラ又は複数の従来のカメラから推定されることも可能である。カメラアレイ又はカメラシステムは、これらのカメラの任意の組み合わせを含むことができる。
【0121】
「ジェスチャー」は、ユーザの動き、顔の表情、又は姿勢の向きであり、通常は、特定の望ましい変化、感情、又は物理的状態を示すために、人によって、又はコンピュータによって解釈される。ジェスチャーは、通常、人間によって観察可能な時間尺度上にある。マイクロジェスチャーは、瞬時に発生する動き、表情、又は向きである。マイクロジェスチャーは、通常、不随意的であり、ジェスチャーと類似する特徴を示す。マイクロジェスチャーは、視線の短いシフト、指でたたくこと、又は他の不随意的アクションを含むことができる。ジェスチャーは、カメラによって捕捉され、深層学習アルゴリズム又は畳み込みニューラルネットワークによって識別又は分類されてよい。
【0122】
一般に、人、ユーザ、オブジェクト、表示画像、又は他の仮想的又は物理的オブジェクトの「形状」は、そのアイテムの位置及び向きの両方を含む用語である。一部の実施形態では、オブジェクトの形状は、オブジェクトがどれくらいゆがめられるか、引き伸ばされるか、曲げられるか、又は一般に変形されるかによって、外形に対応してよい。例えば、空間内の物理的オブジェクトの位置を識別するために、カメラ及びアルゴリズムが一緒に使用されてよい。
【0123】
本文書では、用語「機械可読媒体」、「コンピュータ可読媒体」、及び同様の用語は、特定の方法で機械に動作させるデータ及び/又は命令を格納する、揮発性又は不揮発性の非一過性媒体のことを指すために使用される。機械可読媒体の一般的な形態は、例えば、ハードディスク、半導体ドライブ(SSD:solid state drive)、磁気テープ又は任意の他の磁気データストレージ媒体、光ディスク又は任意の他の光データストレージ媒体、穴のパターンを含む任意の物理的媒体、ランダムアクセスメモリ(RAM:random access memory)、プログラマブル読み取り専用メモリ(PROM:programmable read-only memory)、消去可能プログラマブル読み取り専用メモリ(EPROM:erasable programmable read-only memory)、FLASH-EPROM、不揮発性ランダムアクセスメモリ(NVRAM:non-volatile random access memory)、任意の他のメモリチップ又はカートリッジ、及びこれらのネットワーク化されたバージョンを含む。
【0124】
コンピュータ可読媒体のこれら及び他のさまざまな形態は、一つ以上の命令の一つ以上のシーケンスを実行のために処理デバイスに運ぶことに関与してよい。媒体上で具現化されたそのような命令は、一般に「命令」又は「コード」と呼ばれる。命令は、コンピュータプログラム又は他のグループ化の形態でグループ化されてよい。そのような命令は、実行された場合、処理デバイスが、本明細書において説明されたとおりに本出願の特徴又は機能を実行することを可能にしてよい。
【0125】
「処理デバイス」は、処理動作を実行する単一のプロセッサ、或いは処理動作を実行する専用プロセッサ及び/又は汎用プロセッサの組み合わせとして実装されてよい。処理デバイスは、中央処理装置(CPU:central processing unit)、グラフィック処理装置(GPU:graphics processor unit)、アクセラレーテッドプロセッシングユニット(APU:accelerated processing unit)、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、特定用途向け集積回路(ASIC:application specific integrated circuit)、システムオンチップ(SOC:system on a chip)、及び/又は他の処理回路を含んでよい。
【0126】
AIは、機械によって引き起こされる任意のインテリジェントな動作である。インテリジェントな動作は、知覚、検出、シーンの理解、生成、又は情報の知覚、或いは推論の実行を含む。「ニューラルネットワーク」、「人工ニューラルネットワーク」、又は「ニューラルネット」という用語は、AIの例示的な実装であり、複数のデータソース及び種類からパターンを学習し、以前に見たことがないデータに関する予測を行うことができる、計算ソフトウェアアーキテクチャのことを指す。ニューラルネットワークの種類、アルゴリズム、又はアーキテクチャは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(RNN:recurrent neural networks)、残差ニューラルネットワーク、敵対的生成ネットワーク(GAN:generative adversarial networks)、モジュラニューラルネットワーク、又は畳み込みニューラルネットワーク(CNN)(オブジェクトの検出及び認識に使用される)を含む。ニューラルネットワークは、異なる種類のニューラルネットワークアーキテクチャの組み合わせを含むことができる。ニューラルネットワークのパラメータは、トレーニングデータを使用して決定又はトレーニングされてよい。ニューラルネットワークは、教師あり又は教師なしであることができる。学習は、コスト関数の最適化によって完了することができる。一部の実施形態では、ニューラルネットワークアーキテクチャは、動径基底ネットワーク、多層パーセプトロンアーキテクチャ、長短期記憶(LSTM:long-short term memory)、ホップフィールドネットワーク、又はボルツマンマシンである。ニューラルネットワークアーキテクチャは、1対1、1対多、多対1、多対多であることができる。本開示では、AIアルゴリズムのいずれかが、AIに基づく実施形態において使用され得る。例えば、GANは、損失関数を最小化するために、確率的勾配降下法による最適化を使用してよい。LSTM又はRNNは、逆伝搬と共に勾配降下アルゴリズムを使用してよい。
【0127】
「トランスフォーマ」は、多様な方法で入力データに重み付けするために自己注意(セルフアテンション)に依存する、深層学習における機械学習モデルである。トランスフォーマは、多くの場合、コンピュータビジョン及び自然言語処理(NLP:natural language processing)において使用される。トランスフォーマは、入力データが連続的にではなく同時に処理されるという点において、RNNとは異なっている。生成的なトレーニング済みトランスフォーマ及びトランスフォーマからの双方向エンコーダ表現は、トランスフォーマシステムの例である。応用は、ビデオ又は画像の理解、文書の要約又は生成、言語の翻訳などを含む。
【0128】
学習アルゴリズムは、教師あり又は教師なしであってよい。本明細書で開示された実施形態を実施するために使用される一部の教師あり学習アルゴリズムは、決定木又はランダムフォレスト、サポートベクターマシン、ベイジアンアルゴリズム、及びロジスティック回帰又は線形回帰を含む。教師なし学習は、タグなしデータにおいてパターン及び傾向を理解することによって情報を獲得する。一部のアルゴリズムは、クラスタ化、K平均クラスタ化、及びガウス混合モデルを含む。一部の実施形態では、表示コンテンツを生成するために、非ニューラルネットワーク計算方法が使用される。一部の実施形態では、ニューラルネットワークは、他の計算方法又はアルゴリズムと組み合わせられる。他の計算方法は、最適化アルゴリズム、総当たりアルゴリズム、ランダムアルゴリズム、及び再帰的アルゴリズムを含む。アルゴリズムは、任意の数学演算又は物理現象を実施することができる。
【0129】
「アバター」は、デジタル環境又は視覚的環境内でユーザのキャラクター又は表現を含むことができるコンピュータプログラム又はプログラムインターフェイスである。アバターは、人の似顔絵であってよいが、デフォルトの形態を獲得してもよい。一部の実施形態では、アバターは、似顔絵を全く持たないか、又はテキストモード若しくは音声モードを使用してユーザと通信する。一部の実施形態では、アバターは、ユーザに対して提案を行うか、予測を行うか、又はタスクの実行を支援するためのユーザインターフェイスとして機能する。一部の実施形態では、アバターは、ユーザからの直接的な影響なしでタスクを実行するための権限を持つ。アバターは、AIに基づいてよい。アバターは、ニューラルネットワーク又は他の深層学習メカニズムを使用してよい。
【0130】
「タンデムコンピューティング」は、表示システムが複数のソースからの表示コンテンツを表示するための方法であり、複数のソースのうちの少なくとも一つは、拡張表示システムの拡張部分にコンテンツを表示するリモートソースである。表示コンテンツは、任意のさまざまな表示コンテンツであり、互いに情報をやりとりしてよい。
【0131】
互いに情報をやりとりする二つの表示コンテンツの文脈において、「情報をやりとりする(interact)」は、表示システムの一つの部分の表示コンテンツが、第2の部分の表示コンテンツに動的に影響を与える出力を有する機能に入力されるということ、及びこの逆のこと、すなわち、第2の部分の表示コンテンツが、第1の部分の表示コンテンツに動的に影響を与える出力を有する機能(同じ機能であってよい)に入力されるということを意味する。
【0132】
「描画並列化」は、描画タスクが異なるローカル及び非ローカル計算リソース間で分散され得るように、描画タスクを分割する能力のことを指す。グラフィックスは、ボリュメトリックビデオからのコンテンツ、ニューラルレンダリング、又は神経放射輝度フィールドを活用して、コンピュータグラフィックス技術及び放射輝度方程式を含むさまざまな方法で描画されてよい。
【0133】
「グラフィカルユーザインターフェイス」又は「GUI(graphical user interface)」は、ユーザがグラフィカルな視覚的方法でシステムと対話し、情報やりとりできるようにする、表示システムに表示される任意のインターフェイスのことを指す。GUIは、ラジオボタン、トグルスイッチ、ドロップダウンメニュー、又はスクロールバーなどの、ユーザが情報を入力するためのさまざまな方法を含んでよい。GUIは、ユーザがソフトウェアと情報をやりとりするか、又はソフトウェアを生成するか、或いは電子デバイスと情報をやりとりすることを可能にする。
【0134】
「機能」は、コンテンツの部分を取り込み、コンテンツの異なる部分を生成するマッピングであるか、或いは元のコンテンツに注釈を付けるか、又は元のコンテンツを変更することである。機能は、マッピング又は動作を実施するためのアルゴリズムであってよい。機能は、コンテンツの複数の部分を取り込み、コンテンツの複数の部分を出力してよい。機能は、低レベルであってよく、例えば、数学演算又は画像処理機能であってよい。機能は、中レベルであることができ、例えば、画像を取り込み、シーン内の、エッジなどの特徴を検出することができる。機能は、コンピュータビジョン支援機能であってよい。又は機能は、コンテンツの特性を改善することができる。機能は、高レベルであることができ、例えば、コンテンツを生成するか、又はオブジェクトのクラスを検出するか、或いは入力コンテンツを観察している視聴者によって実行される未来の可能なアクションに関する予測を行うことができる。一部の実施形態では、機能は事前に定義される。一部の実施形態では、機能はユーザ定義される。機能は、ニューラルネットワーク、エンコーダ/デコーダシステム、トランスフォーマ、又はこれらの例の組み合わせを含む、AIによって実行されてよい。機能は、さまざまなデータ又は画像を最適化するか、並べ替えるか、又は順序付けるための、さまざまな方法を含んでもよい。機能は、確定的又は確率的であってよい。機能は、複数の入力を受け取り、時間に依存することができる複数の出力を生成してよい。
【0135】
計算機能の例は、環境のマップを構築又は更新し、マップ内のユーザ又はオブジェクトを追跡する自己位置推定と環境地図作成の同時実行(SLAM:simultaneous localization and mapping)機能である。SLAMアルゴリズムは、カメラなどの感覚データを入力として受け取ること、及び感覚データに基づいてオブジェクトの最も可能性の高い位置を計算することを含んでよい。この解決策は、期待値最大化アルゴリズムを含んでよい。粒子フィルタ又はカルマンフィルタが使用されてよい。
【0136】
別の機能が、頭部追跡の使用事例などにおいて、オブジェクト又はユーザの体の一部を追跡するために使用されてよい。追跡は、等速モデルを使用して実施されてよい。
【0137】
「グラフィックスインテリジェンス」、「インテリジェントな生成的コンテンツ」、又は「生成的コンテンツ」という用語は、少なくとも一つの入力ストリームである入力を有する、コンテンツを出力する機能のことを指す。入力ストリームは、表示システムのために構成されたコンテンツを含んでよい。グラフィックスインテリジェンスの例は、表示画像のセットを入力として受け取り、入力を説明するため、及びユーザに対して、それらの入力と情報をやりとりする方法を提案するためのさまざまな注釈を含む第2の表示画像を出力する、AIモジュール又は機能である。出力コンテンツは、視覚的データであってよい。出力コンテンツは、他の機能の入力として使用されてよい。グラフィックスインテリジェンスは、ユーザ、ユーザの環境、或いは製造倉庫、自動車の周囲、又は他の工業環境などの別の環境の感覚データを入力として受け取ってもよい。「生成機能」は、一つ以上の入力ストリームを入力として受け取り、新しいコンテンツを出力する機能である。一部の実施形態では、生成機能は、ユーザの入力、プロフィール、履歴によって影響も受けるか、又はパラメータ化もされる。ユーザプロフィールは、ユーザに関する情報(例えば、関心、目標、見ることを望むコンテンツ、又は人口統計)を含む。ユーザ履歴は、特定のアプリケーション又はアプリケーションのセットのユーザによって行われた過去の使用である。ユーザ履歴は、例えば、検索履歴、電子メールの通信相手のリスト、特定の期間内にユーザが見た媒体のリストなどであってよい。
【0138】
「協力的ソフトウェアアプリケーション」は、このソフトウェアアプリケーションを介して複数のユーザが互いに情報をやりとりするソフトウェアアプリケーションである。情報のやりとりは、同時又は非同期的であってよい。例としては、テレビ会議又はウェブ会議、オンライン講座、多人数のゲーム、制御センター又は遠隔操作の状況におけるさまざまなアプリケーション、ウェビナー、或いは他のリモートの学習環境が挙げられる。協力的ソフトウェアアプリケーションは、共有された視覚的環境において使用されてよい。
【0139】
本説明では、「実施形態」、「一つの実施形態」、又は同様の単語若しくは語句への参照は、説明されている特徴、機能、構造、又は特性が、本明細書で導入された技術又は発明の例であるということを意味する。本明細書におけるそのような語句の発生は、必ずしもすべてが同じ実施形態を参照していない。一方、本明細書において参照される実施形態は、必ずしも相互に排他的でもない。
【0140】
本明細書において示されたさまざまな実施形態は、例示的なブロック図、フローチャート、及び他の図に関して説明される。当業者が本文書を読んだ後に明らかになるであろうように、示された実施形態及びそれらのさまざまな代替手段が、示された例に制限されずに実施され得る。例えば、ブロック図それらに付随する説明は、特定のアーキテクチャ又は構成を強制すると解釈されるべきではない。
【0141】
本開示におけるすべての図、図面、及び例は、本明細書で導入された技術の選択されたバージョンについて説明しており、本明細書で導入された技術の範囲を制限するよう意図されていない。さらに、本開示全体を通じて、「任意に設計された」は、本発明又は本発明の構成要素が、本発明又は本発明内のその特定の構成要素の目的及び意図を満たすことを可能にする、任意の外形、サイズ、材料、特徴、種類、向き、位置、量、構成要素、及び一つ以上の構成要素を含む構成要素の配置のものであることを指す。
【0142】
そのようなすべての構成要素及びソフトウェアは、望ましいプロフィールを配信するように任意に設計され得る。本明細書において使用されるとき、「任意のパラメータの変形」は、パラメータの変形、変更、調節、プログラミング、ベンチマーキング、最適化、及び/又は制御のことを指し、帯域幅、チャネル容量、明るさ、焦点面の奥行き、視差、権限レベル、センサ又はカメラの感度、周波数範囲、偏光、データレート、形状又は方位、シーケンス又はタイミングの配置、実行時間、或いは他の物理的特性又は計算特性という変形のうちの一つ以上を含むことができる。
【0143】
機能、視覚的テンプレート、グラフィカルユーザインターフェイス、入力ストリームの受信、及び入力ストリームの生成などの、本明細書に記載された一部の能力は、一つ以上のモジュールにおいて実装され得る。モジュールは、能力を実装するためのハードウェア及び/又はソフトウェアを含む。例えば、そのような能力は、一つ以上の非一過性コンピュータ可読ストレージ媒体に格納されたコンピュータコードを実行する一つ以上のプロセッサを含んでいるモジュールによって実装されてよい。一部の実施形態では、能力は、専用ハードウェア(例えば、ASIC、FPGA)を含んでいるモジュールによって少なくとも部分的に実装される。一部の実施形態では、モジュールは、構成要素を共有してよい。例えば、第1の機能モジュール及び第2の機能モジュールは、両方とも(例えば、タイムシェア又はマルチスレッディングによって)共通のプロセッサを利用するか、又は(例えば、異なるメモリ位置で)共通のコンピュータストレージ媒体に格納されたコンピュータ実行可能コードを含んでよい。
【0144】
場合によっては、モジュールは、ハードウェアモジュール又はソフトウェアモジュールとして識別されてよい。ハードウェアモジュールは、モジュールの能力を実装するためのハードウェアを含むか、又は共有する。ハードウェアモジュールはソフトウェアを含んでよく、すなわち、ハードウェアモジュールはソフトウェアモジュールを含んでよい。ソフトウェアモジュールは、例えば、非一過性コンピュータ可読ストレージ媒体に格納されてよい情報を含む。一部の実施形態では、情報は、一つ以上のプロセッサによって実行可能な命令を含んでよい。一部の実施形態では、情報は、FPGAなどのハードウェアを構成するために少なくとも部分的に使用されてよい。一部の実施形態では、機能、視覚的テンプレート、グラフィカルユーザインターフェイス、入力ストリームの受信、及び入力ストリームの生成などの能力を実施するための情報が、ソフトウェアモジュールとして記録されてよい。能力は、例えば、ストレージ媒体からソフトウェアモジュールを読み取り、一つ以上のプロセッサを使用してソフトウェアモジュールを実行することによって、又はストレージ媒体からソフトウェアモジュールを読み取り、情報を使用してハードウェアを構成することによって、実施されてよい。
【0145】
前述のセクションにおいて説明されたプロセス、方法、及びアルゴリズムの各々は、コンピュータハードウェアを備えている一つ以上のコンピュータシステム又はコンピュータプロセッサによって実行されるコード構成要素において具現化され、完全に、又は部分的に自動化されてよい。プロセス及びアルゴリズムは、特定用途向け回路において部分的又は全体的に実装されてよい。前述のさまざまな特徴及びプロセスが、互いに独立して使用されてよく、又はさまざまな方法で組み合わせられてよい。さまざまな組み合わせ及び部分的組み合わせが、本開示の範囲に含まれるよう意図されており、一部の実装では、特定の方法又はプロセスのブロックが省略されることがある。さらに、特に文脈が指示しない限り、本明細書に記載された方法及びプロセスは、いずれかのシーケンスにも限定されず、それらに関連するブロック又は状態は、適切な他のシーケンスで実行されることが可能であり、又は並列に、若しくは何らかの他の方法で、実行されてよい。ブロック又は状態は、開示された実施形態例に追加されるか、又は開示された実施形態例から削除されてよい。特定の動作又はプロセスの実行は、単一の機械内に存在するだけでなく、複数の機械にわたって展開されて、コンピュータシステム又はコンピュータプロセッサ間で分散されてよい。
【0146】
本明細書において使用されるとき、「又は」という用語は、包含的意味又は排他的意味のいずれかで解釈されてよい。さらに、単数形でのリソース、動作、又は構造の説明は、複数形を除外するように読まれるべきでない。特に、「できる(can)」、「できる(could)」、「してよい(might)」、又は「してよい(may)」などの条件付き言語は、文脈内で特に具体的に述べられない限り、又は使用されたときに文脈内で特に理解されない限り、通常は特定の実施形態が特定の特徴、要素、及び/又はステップを含み、一方、他の実施形態がそれらを含まないということを伝えるよう意図されている。
【0147】
本文書において使用される用語及び語句並びにその変形は、特に明示的に述べられない限り、制限することとは対照的に、無制限であると解釈されるべきである。「従来の(conventional)」、「従来の(traditional)」、「通常の」、「標準的な」、「既知の」などの形容詞、及び同様の意味の用語は、説明されたアイテムを、特定の期間にも、特定の時点で使用可能なアイテムにも制限すると解釈されるべきでなく、代わりに、現在又は将来の任意の時点で使用可能又は既知であることがある従来の(conventional)技術、従来の(traditional)技術、通常の技術、又は標準的な技術を包含するように読まれるべきである。「一つ以上の」、「少なくとも」、「これに限定されない」、又は他の類似する語句などの、広がりの単語及び語句は、場合によっては、そのような広がりの語句がない場合に、より狭い事例が意図されるか、又は必要とされるということを意味するように読まれるべきでない。
【0148】
図1は、本開示のすべての図全体を通じて使用される要素を表すアイコンを示しており、辞書の要素又は用語集の要素として役立つ。図1のアイコン1は、本開示において説明される表示システムの一般的ユーザを示している。「ユーザ」という用語は、上で定義されている。アイコン2は、他のユーザとの協力に関与するユーザを示している。協力的ソフトウェアアプリケーションは、テレビ会議、オンライン教育プラットフォーム、複数ユーザのゲーム又は娯楽、同時ストリーミングを含む。協力的ユーザは、共有された視覚的環境内で互いに情報をやりとりしてよい。協力的ユーザは、さまざまな時間に非同期的に、視覚的環境内で情報をやりとりしてもよい。
【0149】
アイコン3は、ソースから引き出される入力ストリームを示している。入力ストリームは、視覚的コンテンツ、メタデータ、プログラミングコード、テキストデータ、データベース情報、数学的量、音声データ、又は数値データなどの、任意のコンテンツであってよい。さらに、データストリームの形式は、任意であり、例えば、圧縮済み又は圧縮形式、ベクトル、或いはビットマップ形式を含むことができる。
【0150】
アイコン4は、リモート又はローカルであることができる一般的ソースを示している。ソースは、表示するためのデータ又はメタデータを提供することができる。ソースは、データ又はメタデータに対して動作することもできる。一般的ソース、ローカルソース、又はリモートソースは、データを表示システムに送信する前にデータに対して動作してもよい。アイコン5はローカルソースを示している。ローカルソースは、物理的に接続されて、拡張表示の主要部分のコンテンツを生成する、ワークステーション、ラップトップ、及びデスクトップコンピュータ、並びにマイクロコントローラ及びマイクロコントローラアレイを含む。アイコン6は、リモートソースを示している。リモートソースは、インターネット、IoT、リモートサーバ、拡張ネットワーク上、分散ネットワーク上の他のコンピュータ、又はエッジデバイスを含む。リモートソースは、「間接的ソース」と呼ばれてもよく、すなわち、リモートソースは、拡張表示上の拡張部分に、直接関係ない情報又は拡張情報或いは表示コンテンツを提供する。リモートソースは、ローカルソースに直接接続されない計算モジュールも含み、計算モジュールは、拡張表示システムの主要部分の表示コンテンツを入力として受け取り、機能を使用してその表示コンテンツに対して動作し、その機能の結果を出力し、出力が拡張表示システムの拡張部分の表示コンテンツに影響を与えるか、又は表示コンテンツの一部になるようにする。すなわち、リモートソースは、ローカルソースによって主要部分の表示コンテンツが生成される方法に関する情報を持つことなく、拡張表示の主要部分の表示コンテンツを使用して、拡張部分の表示コンテンツに影響を与える。
【0151】
アイコン7は、一般的表示システムを示している。本明細書に記載された実施形態では、表示システムが拡張表示システムであるが、当業者は、任意の表示システムにおいて使用するために、本説明を適応させて実行することができる。一部の実施形態では、表示システムは、コンテンツとして表示するためのデータを単に受信する。一部の実施形態では、表示システムは、データを処理してもよい。表示システムは、表示コンテンツに影響を与えるために同期されている、マイクロホン又はスピーカなどの音声システムを含んでよい。音声システムは、表示システムに統合されてよい。アイコン8は、表示システムと組み合わせられたローカルソースを示している。一つの例は、コンピュータモニタ付きのワークステーションである。
【0152】
アイコン9は、表示されている一般的画像又は表示コンテンツを示している。アイコン10は、リモートソースから生成された一般的画像又は表示コンテンツを示している。画像は、独立した表示コンテンツであることができ、又は画像は、より大きい表示コンテンツのサブセクションであることができ、表示コンテンツの他の部分は、別のソースから引き出される。アイコン11は、一つの表示コンテンツの少なくとも一部が第2の表示コンテンツの少なくとも一部と重複する、層のセット又は多層のグラフィカルな情報を示している。層の数は、任意であることができ、例えば、2層、3層、6層、8層などであることができる。一部の実施形態では、焦点の奥行きなどの層の特性は、調整可能である。
【0153】
アイコン12は、一般的入力デバイスを示している。アイコン13は、人、ユーザ、又は環境に関する情報を捕捉し、その情報伝達する一般的センサを示している。一般的センサは、カメラを含んでよい。アイコン14は、一般的カメラ又はカメラシステムを示している。
【0154】
アイコン15は、少なくとも一つのデータストリームに作用する機能を表すブロック図アイコンを示している。アイコン16は、指定された入力に基づいて望ましい出力を生成する、一連の接続された機能又はウィジェットブロックを示している。アイコン17は、一般的注釈を示している。アイコン17は、例えば、多層表示に現れるテキスト又はグラフィックスを含むか、又は注釈を生成する特定の機能として使用されてよい。アイコン18は、一般的AIモジュールを示している。例示的なAIモジュールは、ニューラルネットワーク、トランスフォーマ、又は他の深層学習若しくはMLアルゴリズムを含んでよい。AIモジュールは、例えば、各AIモジュールがそれ自身の出力コンテンツを他のAIモジュールの入力に供給することによって互いに情報をやりとりする、複数のAIモジュールを含んでよい。一部の実施形態では、AIモジュールは、例えば、映画を作成する、相互に関連するタスクを実行する複数のAIモジュールを含み、一つのモジュールが音声コンテンツを生成し、別のモジュールが視覚的コンテンツを生成し、音声コンテンツがビデオコンテンツに影響を与え、ビデオコンテンツが音声コンテンツに影響を与えるようにする。一部の実施形態では、複数のAIモジュールが、個別のタスクを並列に処理するように構成される。一般に、「計算モジュール」は、指定された方法で入力を処理するように構成されたデバイスである。計算モジュールは、特定の機能を有する傾向があり、通常、例えばコンピュータ内の、一般的プロセッサとは異なっている。
【0155】
アイコン19は、一般的幾何学変換機能を示している。幾何学変換アルゴリズムの例は、ポーズゆがみアルゴリズムである。ポーズゆがみ又はモーションゆがみは、オブジェクト上の点の位置の時系列を比較すること、及び動的時系列(動的時系列は、例えば音声認識に使用されてもよい)アルゴリズムを使用してそれらの距離を最適化することを含んでよい。変換機能は、さまざまなパラメータ曲線を変換するために、スプラインに基づいてもよい。そのような変換機能又は変換アルゴリズムは、ストライドゆがみ、パースペクティブゆがみ、オリエンテーションゆがみ、デフォーメーションゆがみ(deformation warping)、又はモーションゆがみに使用されてもよい。幾何学変換機能は、ビデオゲーム内のキャラクターに関するデータなどの合成データに作用してよく、又は幾何学変換機能は、カメラによって捕捉され、機械学習アルゴリズムに基づいて環境からセグメント化されたユーザの画像などの、現実のデータに作用してよい。
【0156】
本開示では、幾何学変換は、シフト、回転、アフィン変換、ホモグラフィ変換を含む、任意の種類の幾何学変換である。幾何学変換は、計算再マッピングも含む。例えば、奥行き再マッピングは、正しい物理的比率又は幾何学的比率を維持する仮想画像を描画するために、カメラまでのユーザの距離が処理される、一つの例である。奥行き再マッピングは、同型写像又はホモグラフィを使用して再マッピングを評価してよい。幾何学変換はゆがみ解除も含み、ゆがみ解除は、魚眼変形又は樽型変形/糸巻型変形を含む、光学システムによって引き起こされることがある変形を除去するために使用される。
【0157】
アイコン20は、ユーザ定義されたアクション又はユーザ定義されたモデル/テンプレートを示している。本明細書では、ソフトウェア技術の任意の構成要素がユーザ定義されてよい。
【0158】
図2A~2Dは、仮想表示システムにおいて使用するために構成された、ソフトウェア生成、予測アプリケーション、単一ユーザアプリケーション及び協力的アプリケーション、並びにローカルソース及びリモートソースを両方とも組み込むソフトウェアアプリケーションを含む、ソフトウェアアプリケーションの実施形態を示している。
【0159】
図2Aは、拡張表示システムにおいて使用するために構成された視覚的コンテンツを生成するための、本明細書では「ストリームウィーバー」(STW: stream weaver)と呼ばれるソフトウェア生成アプリケーションを示している。図2Aは、さまざまなソース4からデータを収集してまとめること、機能15を使用して前述のデータに対して動作すること、及びテンプレート21に従って前述のデータをユーザに表示することに関与しているステップのシーケンスを含んでいる。ステップt1は、N個のソース4のセットを表しており、ソース4からデータが引き出される。ソース4は、リモート、ローカル、又はこれら二つの種類の任意の適切な組み合わせであってよい。ソースは、ビデオの入力ストリーム、カメラの入力ストリーム、ゲームの入力ストリーム、アプリケーション、又は任意のコード接続若しくはデバイス接続であってよい。ステップt2は、ソースから引き出されたデータを処理する機能15のセットを表している。これらの機能は、ソースのメタデータを含む、ソースからの入力ストリームに作用することができる。ステップt3は、選択された視覚的テンプレート21のために構成された、ステップt2で機能によって生成された表示コンテンツを表示するプロセスを表している。エクスポートされる視覚的テンプレート21は、組み込みの選択であるか、又はユーザ定義されてよい。さまざまな視覚的テンプレートの選択肢及び特徴は、表示の種類又はグラフィックスの仕様、焦点面又は仮想画像の配置、解像度、明るさ、及び奥行き解像度を含む。一部の実施形態では、視覚的テンプレートを選択した後、又は視覚的テンプレートの選択と同時に、機能15が選択される。ステップt2で作成された情報を修正、変更、又は改善するために、エラー修正ブロックが追加されてよい。
【0160】
機能及びソースが、順序通りに構成される必要はなく、ソースの数が、使用される機能の数に等しくなる必要はない。一部の実施形態では、機能は、複数のソースを入力として受け取る。例えば、機能「F4」は、「ソース1」、「ソース2」、及び「ソース3」から入力ストリームを入力として受け取ってよい。機能は、複合的に作動してもよい。例えば、機能「F8」は、機能「F7」の出力を入力として受け取ってよい。一部の入力ストリームは、どの機能も入力ストリームに対して全く動作しない、エクスポートテンプレートに統合されてよい。一部の実施形態では、機能が存在せず、すべてのソースが視覚的テンプレートに直接統合される。一部の実施形態では、機能がフィードバックループを含み、そのために、機能の出力が、入力としてこの機能に供給されてよい。これは、例えば、フィードバックが安定性、再帰機能、振動、又は非線形力学のために望ましい場合の事例である。
【0161】
機能自体は、基本的な、又は拡張された数学演算及び計算動作又はグラフィック動作を含む。他の機能は、自己注意トランスフォーマ又はニューラルネットワークなどのMLアーキテクチャを含む。一部の実施形態では、ニューラルネットワークは、辞書及びトレーニングデータを含む。機能は、通常、時間依存性でもあり、動作時のユーザ入力に依存するか、又は表示システム上のユーザのアクションの履歴に依存する。
【0162】
一部の実施形態では、システムに入力されたプロンプトに基づいて、生成的ニューラルネットワークによって機能の完全なセットが決定されてよい。これによって、コンピュータが、それらのプロンプトに基づいて、物事が再形成され、ユーザに視覚的に表示され得る方法を選択することを可能にする。例えば、一つのプロンプトは、「私の検索に関連する1000個のビデオの検索結果の全景を表示し、最も人気があるビデオを強調してください」であってよい。そのようなプロンプトでは、コンピュータは、N=1000を定義し、すべての機能を介してNを集合的に、凝集して送信し、異なる奥行きの層に注釈を表示することを開始する。
【0163】
別の非常に単純な例では、ユーザは、主要コンテンツソース(例えば、ゲームストリーム)のみを有してよく、ユーザは、UIによってナビゲートし、この主要コンテンツソースと情報をやりとりするための他のストリームをどのようにして選択したい(又は生成したい)かを選択する。例えば、ユーザは、主要な中央モニタのフレームごとに、二つのサイドモニタが、主要なゲームストリームの中央画像、中央色、平均色、2秒の時間遅延を伴う複製、或いは反転したバージョン又は幾何学的に変換されたバージョンのアウトペインティングフレームを表示することを選択できる。この場合、述べたように、二つの他のモニタは、中央モニタに表示されたコンテンツに依存する。ストリームは、必ずしもビデオストリームではなく、対話型インターフェイスであってよい。これは、ビデオ編集ソフトウェアにおいて実行されるビデオ混合と、本明細書の一緒に混合される複数の対話型ストリームとの間の顕著な違いである。これらの機能のさらに多くのカテゴリ及び系統樹が、図4A~4B、5A~5J、及び6A~6Jで説明される。
【0164】
本明細書全体を通じて説明され、図面において参照される機能、視覚的テンプレート、グラフィカルユーザインターフェイス、AI、及び他のアルゴリズムが、ソフトウェア、ハードウェア、又はこれらの任意の適切な組み合わせにおいて実装されてよいということが、理解されるべきである。ソフトウェアは、メモリ(例えば、非一過性コンピュータ可読ストレージ媒体)に格納された機械可読コードで構成されてよく、機械可読コードは、処理デバイスによって実行された場合に、処理デバイス自体において、又は処理デバイスに動作可能に接続されたハードウェア(例えば、メモリ、拡張表示システム)において、説明された結果を生み出す。
【0165】
図2Bは、予測ソフトウェアアプリケーション「ファネルエキスパンダー(funnel expander)」又は「イベント」を示しており、中央表示9を見ているユーザ1による過去及び現在のイベント又はアクションを機能15に入力することによって、表示システム8を含むローカルソースが機能し、ユーザが実行できる可能性のあるアクションに対応するコンテンツを、このユーザに表示する。一部の実施形態では、複数のリモートソース又はローカルソースが使用される。過去のアクションは、狭くなっているか、又はあまり目立たない表示9Aに表示されてよく、可能性のあるアクションは、より広い表示9Bに示されてよく、過去及び現在のアクションが、未来の可能性の拡大又はじょうご形を表示するのに役立つようにする。
【0166】
一般的入力デバイス12、カメラ13、又はセンサ14によって捕捉された、ユーザによる現在の入力及びフィードバックが処理される。表示コンテンツは、意味のある方法でユーザ履歴を示す、何らかのインフォグラフィック22を含んでもよい。ユーザ履歴は、どのアプリケーションが使用されたか、アプリケーションのどの特徴が使用されたか、アプリケーションが使用された時間はどれくらいか、どのアプリケーションが順序通りに使用されたか、実行されたアクション、表示された表示コンテンツ、表示された表示コンテンツの持続時間及びタイムスタンプ、並びに生産性などの何らかの指標に対して測定された場合の、表示された表示コンテンツの重要性を含む。機能15は、ユーザが関与する可能性が最も高い予測されたアクションのセットを出力として生成してよい。一部の実施形態では、提案されるコンテンツは、確率的分析とは異なる方法によって形成される。この方法は、イベントに基づくか、優先度に基づくか、時刻に基づくか、ユーザによって事前に選択された設定に基づくか、又は任意の他の適切な方法に基づいてよい。
【0167】
一部の実施形態では、ユーザは、アバター23と情報をやりとりし、アバター23は、ユーザ入力を支援することができるか、又は予測されたアクションを実行できるようにするための権限を与えられ得る。このようにして、ユーザは、複数の並列処理で複数のタスクを実行できる。アバターは、視覚化、テキスト命令のセット、又はユーザには見えないサブルーチンであってよい。
【0168】
一部の実施形態では、機能は確率的であり、最も頻繁に発生するアクション、又は現在のアクション若しくは表示コンテンツと最も相関性があるアクションが、他のアクションより重く重み付けされるようにする。一部の実施形態では、機能は時間的要因に基づき、最近の過去のからのアクションが、遠い過去のアクションより重く重み付けされるようにする。一部の実施形態では、ニューラルネットワーク又はトランスフォーマが、ソフトウェアの予測挙動を決定すること、又は改良することを支援するために使用される。
【0169】
一部の実施形態では、予測的特徴は、ユーザの現在のアクションの成功、又はユーザが現在のアクションを完了するのにかかる時間、及びユーザのスケジュール又はカレンダーがどの程度影響を受ける可能性があるかに関する推定を含む。予測的特徴は、カレンダーを入力として使用して、さまざまなタスクを完了するための代替の時間を提案してよい。
【0170】
この実施形態は、拡張表示画面を、カーソル又はユーザ入力による無限スクロールとして使用して、時間及び空間の両方において、四次元のスクロールを可能にする。一部の実施形態では、ユーザは、拡張表示システムの複数の部分又は奥行きで並列な可能性を確認し、ゲーム化された仕組みを使用して、望ましい選択肢を単に選択することができてよい。どの並列な可能性が表示されるかは、現在のユーザのアクションに依存し、したがって、リアルタイムに動的に変化することができる。この実施形態は、コンピュータデータストリームを作るときに、ユーザが、コンピュータとのほぼリアルタイムの情報のやりとり(行ったり来たりの「ピンポンのような」フィードバック)に達しながら、コンピュータによって生成されたできるだけ多くの可能性のセットを確認することに役立つ。例えば、現在、ワード文書を記述するには、一行ずつ記述しなければならず、或いはテキストがコンピュータによって生成される場合、ユーザは、一度に一つの変形を読み、一行ずつ編集するか、又は異なる変形を要求しなければならない。本明細書で説明される実施形態では、変形の拡大されたセットが、拡張表示の異なる部分に表示され、ユーザが、読みながら、どの変形がテキストに織り込まれるかをリアルタイムに選択も行うようにする。
【0171】
別の例は、回転する画面の実施形態である。現在、ユーザは、ウェブサイト、コンピュータコード、又は垂直に長いデータをスクロールするときに、画面の垂直解像度によって制限されている。三つのモニタの設定の場合、この配置は、より多くのそのような垂直方向のデータを確認することに役立たない。ファネルエキスパンダー(funnel expander)では、ユーザは、サイドモニタ又は正面の奥行きの層を、そのような垂直方向のデータの続きとして持つ。ファネルエキスパンダー(funnel expander)は、モニタ内、他の奥行きの層内、又は周辺FoV内で、でさまざまな可能性又は並列な可能性を提案してもよい。例えば、VRヘッドセットでは、ユーザは、垂直方向の記事を読んでいるときに、周辺において確認され得る、主要な記事の横に現れている複数の他の並列な記事を確認することができる。図7A~7Gで、ファネルエキスパンダー(funnel expander)のさらなる詳細が示される。
【0172】
図2Cは、一人以上のユーザが、図2A又は2Bの実施形態によって生成されたソフトウェアと情報をやりとりする環境内の、ソフトウェアアプリケーションの使用を示している。ユーザは、異なる方法で同じコンテンツと情報をやりとりしてよく、すなわち、コンテンツは、第2のユーザ1Bの形式(形式B)と比較して異なる形式(形式A)又は視覚化で、第1のユーザ1Aに現れてよい。
【0173】
第1のユーザ1Aは、中央表示9に加えて、多層表示画像11、宙に浮いているグラフィックス24、及び2D拡張25を生成する表示システムを使用する。ユーザは、一般的入力12又はセンサ13などの任意の手段によって情報を入力する。ユーザ入力に基づいて、又は表示コンテンツを決定する機能に基づいて、多層表示画像11の各々における表示コンテンツが、機能15を介して、ユーザの見ることができる領域の最前部に対して前方又は後方に押されてよい。表示7は、ローカルソース5に接続されてよい。
【0174】
一部の実施形態では、リモートソース6(例えば、インターネット)を介して複数の表示システムが接続される。第2のユーザ1Bは、ローカルソース、及び第1のユーザ1Aと同様のコンテンツを表示する表示システム8と、情報をやりとりする。形式Bの表示コンテンツは、異なるユーザとは異なるテンプレートを使用して提示されてよい。例えば、一部の実施形態では、視覚的テンプレートは、さまざまな機能を介してそれぞれ情報をやりとりするように構成された、第1の画像9及び多層画像11A及び11Bの複数のセットで構成されてよい。
【0175】
例えば、ユーザ1Bは、マウスなどの一般的入力12を使用して、ビデオゲーム環境をスクロールしてよく、ビデオゲームのキャラクターが環境内を動き回るときに、環境内の異なる奥行きにそれぞれ対応する異なる層が、ユーザ1Bに近づくか、又はユーザ1Bから遠ざかる。第1のユーザ1Aは、ゲーム内のチームメートであってよく、宙に浮いているグラフィックス24を、第1のユーザ1Aのチームメートの健康に関する注釈として使用してよい。
【0176】
別の例では、テレビ会議通話アプリケーションが、ユーザを一つの層に描き、さまざまな通話機能、仮想ホワイトボード、共有された環境、又はメモを、他の層に描く。さまざまな表示コンテンツ及び表示層が、機能を介して互いに情報をやりとりする。例えば、ユーザ1Aの宙に浮いているグラフィックス24は、多層表示構成で、別のユーザ1Bのビデオを含む画像のセットに基づいて、情報を提示してよい。
【0177】
図2Dは、リモートソース及びローカルソースを介して複数のユーザが表示コンテンツと情報をやりとりする実施形態を強調している。一部の実施形態では、一人のユーザのみが存在するが、複数のユーザが存在してよい。図2Dでは、第1のユーザ1Aが、多層画像のセット11内の表示画像の対を見ている。多層画像のセット11の背面層は、リモートソース6によって生成され、共有された視覚的領域に対応してよく、その視覚的領域の同じ表示コンテンツに、複数のユーザがアクセスすることができる。リモートソースからの入力ストリームは、表示される前に、機能15によって操作されてよい。前面層は、表示システム7に接続されたローカルソース5によって生成されるか、又は表示システム8を伴うにローカルソースによって生成されてよい。一部の実施形態では、特定の層又は画像のサブセクション26が、ユーザの入力、履歴、又は設定に基づいて生成される。一部の実施形態では、セクションが隣接していない。一部の実施形態では、サブセクションは、個別のピクセル又はピクセルのセットである。これらの共有された視覚的領域は、例えば、背面層上の共通の空間に対応する共有された視覚的環境、及び前面層に生成されたその共通の空間への透視図又はウィンドウであることができる。
【0178】
一部の実施形態では、ユーザからの入力は、表示システムと相対的なユーザの位置又は向きに基づいてシーンを動的に変更するための動き追跡、SLAM入力、又は向きの入力である。一部の実施形態では、表示画像のサブセクションが、背面層に影響を与える機能15に入力される。一部の実施形態では、データ供給源の分割は、コンテンツに依存する帯域幅、画像モード分析に依存する。ユーザは、能動的なユーザであり、ウィンドウを操作することができるか、又はユーザは、受動的なユーザであり、広告の使用事例において当てはまることができるように、単に決定されたコンテンツを体験することができ、広告の使用事例では、表示コンテンツは、製品又はサービスを紹介するよう意図される。
【0179】
図2Dの一部の実施形態では、例えば、異なるワークステーションから高級な仮想「クラウド」画像を見ている複数のユーザが、異なる環境内に存在することができ、ローカルワークステーションが、共有可能な見ることができるゾーンとして、表示コンテンツ内の異なるウィンドウをクラウド画像に提供する。一部の実施形態では、単一のユーザが、複数の入力ソースからのコンテンツを見ていることができる。一部の実施形態では、表示システムは、モバイルデバイス、タブレット、又は分散ネットワークによる影響を受ける主要ワークステーションを備える。
【0180】
図3A及び3Bは、図2Aのソフトウェア生成プログラムのフローチャートを示している。
【0181】
図3Aのフローチャートは、ステップ27で、ソース情報のセットが最初に選択されるか、又は記述されるということを示している。次に、ステップ28Aで、それらのソースに作用する機能が記述されるか、又は選択される。一部の実施形態では、機能が、一つ以上のソースを入力として受け取り、別のソースを出力として生成する。次に、ステップ29で、視覚的テンプレートが記述されるか、又は選択される。一部の実施形態では、視覚的テンプレートの選択は、視覚的テンプレートの向き、どのソースがどのテンプレートに現れるかなどの、ステップ28Bでのさらなる機能の選択を可能にする。一部の実施形態では、記述又は選択間のエラーフィードバックアクションステップ30A及び30Bが、選択のエラー、不一致、又は不適合についてチェックする。一部の実施形態では、ソフトウェア生成プログラムは、これらのフィードバックループにおいてソース、機能、又はテンプレートの選択を比較することによって、結果として得られたソフトウェアを最適化、変更、又は改善するための提案を行う。これは、ソフトウェアに与えられたプロンプトのために発生してよく、又はユーザ若しくは他の感覚入力に基づいて、動的に発生してよい。最後に、最終的なインターフェイス又はストリームの形態を定義するために、エクスポートインターフェイスストリーム31が、ユーザ又はアルゴリズムによって選択される。この選択は、例えば、特定のフォーマットの種類、圧縮率、又はファイル名であることができる。
【0182】
図3Bのフローチャートは代替のフローチャートを表し、このフローチャートでは、ステップ27Aで、ソースの記述及びテンプレートの記述が同時に発生し、次に、ステップ28で、分離した機能記述ブロックにおいて、すべての可能性のある機能が選択される。その後、ステップ31で、エンドユーザのために、ストリームが最終的なエクスポートストリームにエクスポートされる。図3Aのフローチャートと同様に、一部の実施形態では、フィードバックステップ30が、選択間でエラーチェックモジュールを利用して、選択のエラー、不一致、又は不適合についてチェックする。一部の実施形態では、ソフトウェア生成プログラムは、ソース、機能、又はテンプレートの選択を比較することによって、結果として得られたソフトウェアを最適化、変更、又は改善するための提案を行う。
【0183】
図4A及び4Bは、ストリームウィーバー(STW)プロセスの中心となるパイプラインを示している。このパイプラインは、ユーザがソフトウェアアプリケーションを生成するためのGUI内の一連のドロップダウンメニューであってよい。GUIは、任意の構成のGUIであってよいが、入力ストリーム、機能、ソース、及び視覚的テンプレートに関する情報を明確に示すように構成されてよい。図4Aに示されているSTWプロセスは、データ又は入力ストリームが取り出される元になるソースを決定するために、ソース引き出しステップ32から開始する。プロセスが、機能配置ステップ33に続き、ステップ33で、前のステップで引き出されたデータ及び情報が、さまざまな機能を使用して処理される。すなわち、このステップでは、機能が選択され、機能への入力が選択され、出力が選択される。機能及びソースの選択によって、出力が自動的に決定されてよい。次のステップは、テンプレート選択ステップ34であり、ステップ34で、前のステップで処理された情報を組み立てるための視覚的テンプレートが選択される。最後のステップは、情報をユーザ又は他のアプリケーションにエクスポートするためのエクスポートステップ35である。
【0184】
図4Aは、例示的な入力ストリーム、機能、視覚的テンプレート、及びエクスポートモードも示している。ソースセット36は、カメラ14、ビデオ又はクリップ37(ビデオ又はカメラソースは、任意であってよく、例えばユーザのビデオを捕捉するカメラに限定されない)、音楽又は音声記録38、UX環境39、GPS若しくは他のマッピングデータ40、注釈17を含むか、又は含まないテキスト文書41、ウェブサイト42、ゲームアプリケーション43、メタデータ若しくはハイパーリンク44、一般的データストリーム3、リモートソース6(クラウドベースのデータなど)、機能15の出力、又はライブラリ45、或いは一般的センサデータ13を含むが、これらに限定されない。機能は、個別の機能であってよく、又は機能は、機能ブロックにグループ化されてよい。
【0185】
機能ブロックセット46は、カメラソース機能ブロック47、UX又はUIソース機能ブロック48、テキスト/注釈ソース機能ブロック49、一般的ソース機能ブロック50(この機能ブロック内の機能は任意であるか、又はユーザ定義されてよい)、エンジンソース機能ブロック51、及びAI生成機能ブロック52を含むが、これらに限定されない。これらの機能ブロックでは、例えば、入力ストリームの理解又は分類に基づいて、機能自体がAI生成される。例えば、入力ストリームはビデオであってよく、AI機能が、ビデオの種類を、トレーニングビデオ又は娯楽ビデオとして最初に分類する。次に、別のAI機能が、予想されたユーザの望ましいアプリケーションに基づいて、動作を生成してよい。
【0186】
視覚的テンプレートセット160は、宙に浮いているグラフィックス24、多層画面11、エッジモードのエキスパンダーモード53、横方向の2Dデスクトップ拡張25、タンデム拡張又は仮想帯域幅表示54(リモートソースによって画像の少なくとも一部が生成される表示)、ユーザ定義テンプレート55、及びAI生成テンプレート56などの情報を表示するためのテンプレートを含むが、これらに限定されない。このテンプレートは、前のステップでの機能の出力に基づいて自動的に生成されてよい。例えば、注釈を含むクリックできるトレーニングビデオの出力は、注釈を含んでおり、注釈が付けられているオブジェクトの動きに基づいて自動的にシフトする、複数の宙に浮いているグラフィックスを含む表示であってよい。
【0187】
宙に浮いているグラフィックス24は、視聴者の目が物理的表示システムの距離よりも近い距離に合わせて遠近調節するように、表示コンテンツを表示することができる。このようにして、宙に浮いているグラフィックスは、表示システム自体よりもユーザの近くに現れる。宙に浮いているグラフィックスは、例えば、表示システムからの点光源の焦点がユーザと表示システムの間に合わせられることを引き起こす、位相共役要素、逆反射要素、レトロリフレクティブ(透過における逆反射)要素を使用して生成され得る。
【0188】
多層画像11は、視聴者の目が異なる奥行きに合わせて遠近調節し、その結果、視聴者が焦点に入ってくる異なる表示コンテンツを見るように、表示コンテンツの複数の層を表示する。多層画像11は、例えば、複数の表示パネル、又は移動する経路長を変更できる切り替え可能な要素を含む、フィールド発達空洞を使用して、光の偏光に応じて光を1回以上往復して循環させることによって、生成され得る。
【0189】
エッジモードエキスパンダー53及び2D拡張テンプレート25は、視聴者のFoVを拡張する仮想画像を生成する。この生成は、複数の表示画像から開始し、システムから出る前に異なる方向に移動する経路に沿って光を移動させることによって実現され得る。奥行き面全体にわたってまとまりのある画像を形成するために、分離が、人間の目に見えるものより小さくなるように、例えば、20/20の視力又は20/40の視力を有する人が、表示コンテンツを見るときに見ることができるものより小さい分離になるように、複数の画像が一緒にタイル表示される。一部の実施形態では、すき間が望ましいことがある。一部の実施形態では、タイル表示は、複数の方向に、例えば垂直方向及び水平方向に、発生する。一部の実施形態では、画像又はデータは、任意のテンプレートを使用して拡張FoV内で空間的に分離される。タイル又は空間的に分離された画像の位置は、ユーザ又はセンサ入力或いはさまざまな計算ルーチンに従って、動的に変化してよい。
【0190】
一部の実施形態では、エッジエキスパンダー又は拡張FoVテンプレートは、拡張表示システム内の複数の物理的モニタを使用する。一部の実施形態では、エッジエキスパンダー又は拡張FoVテンプレートは、仮想表示システムによって生成された仮想画像であってよい。
【0191】
タンデム拡張又は仮想帯域幅表示テンプレート54は、表示コンテンツの一部に関する情報がリモートソースによって受信された場合の表示である。この情報は、表示コンテンツ自体(例えば、リモートに描画された表示コンテンツ)、表示コンテンツに関するメタデータ、グラフィックス設定に関する情報、又は環境に関するデータであることができる。この情報は、特定のアプリケーションに固有であることができ、複数のアプリケーションに影響を与えることができる。一部の実施形態では、リモートソースによる影響を受ける表示コンテンツの分割は、ユーザの設定、アプリケーションの特徴、又は帯域幅制約に応じて動的に変化する。
【0192】
エクスポートステップ35の結果は、予測アプリケーションであることができる新しいアプリケーション、対話型ビデオ57A(クリック可能であることができる)、メタデータ、データベース、新しいUX 57B、対話型の特徴若しくは動的ゲームエンジンを含む新しいゲーム57C、及び/又は対話型の媒体を含むが、これらに限定されない、ソフトウェアアプリケーションセット57である。
【0193】
STWによって生成された、結果として得られたアプリケーションは、拡張表示システムに表示されてよい。これらのアプリケーションは、仮想表示システムに表示されてよい。
【0194】
図4Bは、図4Aのユーザ定義テンプレート又はAI生成テンプレートの選択肢の詳細を示している。このプロセスでは、テンプレートドロップダウンメニュー34は、ユーザ定義テンプレート55又はAI生成テンプレート56のみに焦点を合わせている。これらのテンプレートのうちのどちらかが選択された場合、新しい特性ドロップダウンメニュー58が現れる。ユーザは、特性セット59のうちから選択することによって、新しいテンプレートを定義する。
【0195】
特性は、表示コンテンツの外形、向き、及び位置、中心部の解像度、並びに異なるソース又は研究への異なるセクションの割り当てを含む。例えば、一部の実施形態では、ユーザは、表示画像の外形を選択し、外形は、正方形、長方形、任意の四角形、三角形、円形又は泡、或いは任意の組み合わせであることができる。解像度は、高解像度、フル高解像度、ワイドウルトラエクステンデッドグラフィックスアレイ、クアッド高解像度、ワイドクアッド高解像度、又はウルトラ高解像度などの、任意の設定の解像度であることができる。ユーザ定義された視覚的テンプレートは、図4Aに示された視覚的テンプレートの組み合わせであってよい。
【0196】
特性ドロップダウンメニュー58は、AI生成テンプレートのAIパラメータセット60を含んでよい。例えば、ユーザは、機能の出力に対して実行するために、さまざまなAI分析を選択してよい。ユーザは、AI生成テンプレートが、最初に出力の帯域幅を分析し、次に、すべての情報を表示することができるサイズを有する2D拡張を生成することを望むことがある。又はユーザは、最初に画像の奥行き範囲を知覚又は推定し、次に、例えば、奥行き層を人間の視覚系のホロプターに一致させることによって、視聴者の奥行き知覚を最適化する奥行き層を含む多層画像を生成するように、AI生成テンプレートを設定してよい。
【0197】
ユーザ定義テンプレートは、ユーザの対話によって、結果として得られたソフトウェアが、一つのアプリ、複数のアプリを統合できるかどうか、コンピュータのオペレーティングシステム全体に広がることができるかどうか、インターネットアクセスを含むことができるかどうか、又は能動的媒体若しくは受動的媒体を生成できるかどうかを含む、さまざまな権限設定を選択するための権限ドロップダウンメニュー61を含んでもよい。
【0198】
一部の実施形態では、テンプレートは、一般的で動的な2D幾何学的外形又は任意のマスクであってよく、同じ2D表示に表示されてよい。例えば、表示は、ビデオを表示するために三角形に分割されてよく、一方、別の三角形は、より魅力的な形式でのゲームのためのカメラビデオストリームである。一部の実施形態では、ユーザが画面上のテキストファイルを読んでいるときに、視標追跡デバイスからの入力は、ユーザがどこを見ているかを理解してよく、したがって、ユーザの視線の位置に基づいて強調されたエリアを除く表示コンテンツの他の部分を自動的に暗くしてよい。一部の実施形態では、任意の他の異なる方法で、又は異なる特性を使用して、視線のエリアが描画されてよい。例えば、視線のエリアは、より高いグラフィックス忠実度で描画されてよく、又は視線のエリアは、ユーザが周りを見回すときにツールの選択肢のセットを追跡してよく、そのため、ユーザが画面のFoV内のどこを見ていても、ツールセットがよりアクセス可能になる。
【0199】
一部の実施形態では、マスクは、提案的手法を有し、表示コンテンツの分析に基づいて外形又はマスクを生成する内部アルゴリズム又はAIアルゴリズムに基づいて、動的に変化することができる。
【0200】
複数の奥行き層が存在する一部の実施形態では、ユーザの頭部及び視線の位置に追従し、画面に表示された情報の他の部分に基づいて、行う可能性が最も高い選択をユーザに表示する、第1の層に表示されたツールのセットが存在してよい。しかし、この場合ユーザは、固有の基礎になるアプリで、マウスを移動してボタンをクリックする必要がない。代わりに、進むために、表示された提案と共に、単に矢印キー又は他の補助キーがクリックされてよく、これが、マウスを何度も操作することを減らすのに役立つ。
【0201】
一部の実施形態では、表示コンテンツが3D環境の異なるファセットにマッピングされたか、又はファセットを覆ったかのように表示されるように、テンプレートは、表示コンテンツがアフィン変換的な変換を経るように、3D環境内で定義され得る。例えば、広告が、3D環境内の表示のために、透視図に変換される。
【0202】
一部の実施形態では、適用された幾何学的テンプレートは、主要ストリーム又は補助ストリームにおけるイベント又は実行されたアクションアイテムに基づいて、動的に変化してよい。例えば、ゲーム内で、キャラクターの射撃又はジャンプなどのイベントが発生するときに、側面の表示コンテンツが、特定の色を光らせるか、又は特定の画像を表示してよく、或いは拡大又は縮小されてよい。
【0203】
一部の実施形態では、テンプレートは、複数の並列デバイスに表示するために構成されたテンプレートを含む。例えば、携帯電話の画面又はタブレットの画面は、視覚的テンプレートをラップトップと共有してよい。本明細書では、非限定的な例として、ゲームのキャラクターがゲーム内で上下にジャンプしている場合、特定の表示コンテンツが、ラップトップに表示され、二番目に携帯電話に表示され、さらに三番目にタブレットに表示される。
【0204】
別の例では、ユーザが、デスクトップの画面を使用して金融取引トランザクションを実行しており、携帯電話又はタブレットの画面を、STWによって生成されたアプリケーションの一部として選択した。特定のニュースアイテムが来たか、又は特定の株が更新されたときに、そのストリームの関連するコンテンツが携帯電話又はタブレットに送信される。
【0205】
一部の実施形態では、STWは、シミュレーションアプリケーション、トレーニングアプリケーション、又は教育アプリケーションを作成するために使用される。トレーナー又は教育者の役目を果たすユーザは、奥行き層、補助表示、又は拡張FoVの一部を訓練生と共有し、トレーニング媒体及びトレーニング資料に関連する幾何学的に現れるトレーニング指示を提供してよい。一部の実施形態では、トレーナーは、ユーザの意図を予測することによって指示を生成しているチャットボット又はAIに基づくアルゴリズムであってよい。一部の実施形態では、AIは、単にユーザが実行できることを表示するのとは対照的に、一次入力ストリームにアクセスするための権限を持ってよい。一部の実施形態では、ユーザの前で、トレーニングコンテンツがビデオストリームとして段階的に再生されてよい。
【0206】
トレーニング及びシミュレーション体験は、複数のユーザを含んでよい。例えば、インストラクター又はトレーナーは、表示システム上で、トレーニングしているユーザを観察していてよい。インストラクターは、自分自身の表示システムを使用していてよく、又はインストラクターの画像がカメラによって捕捉され、ユーザの拡張表示システムの拡張部分上で、ユーザに表示されてよい。インストラクターは、音声、キーボード又はマウス入力、或いは感覚入力に基づいて、ライブのフィードバックをユーザに提供してよく、このフィードバックは、注釈又は既存の注釈に対する変更として、視覚的コンテンツ又はテキストコンテンツとしてユーザの表示システムに提示されてよい。
【0207】
一部の実施形態では、複数のユーザが、それぞれ表示システムを使用していてよいが、互いに隣にいるという体験を模倣するために、カメラによって捕捉された第1のユーザの画像が第2のユーザの表示システムの拡張部分に表示され、カメラによって捕捉された第2のユーザの画像が第1のユーザの表示システムの拡張部分に表示される。各画像は、現実的な周辺画像を提供するために、ゆがめられているか、又はゆがめられていなくてよい。
【0208】
一部の実施形態では、表示システムは、通信可能に結合された自立型モニタ及びヘッドセットなどの、複数の表示デバイスを含む。例えば、自立型モニタは、シミュレーション又はトレーニング演習の広視野画像を表示してよく、ユーザは、モニタの表示されたコンテンツ又はユーザの形状若しくは視線に基づいて注釈を表示するヘッドセットを装着している。ヘッドセットとモニタの間の通信は、例えば接続ケーブルを介して配線接続されてよく、又は例えばwi-fiネットワーク若しくはリモートの中央ソースを介してワイヤレスであってよい。
【0209】
一部の実施形態では、STWアプリケーションは、権限設定及び出力テンプレートに応じて、ビデオの編集を支援するように構成されてよい。AIプログラムは、拡張表示の一部として現れるビデオストリーム内で、タスクがどのように実行されるかをユーザに見せてよく、或いはAI又はトレーナーは、プログラムを制御し、目の前でタスクを段階的に実行する。ステップのいずれかで、訓練生は、ユーザ又は感覚入力に基づいて、言葉を差し挟むこと、及び/又はトレーナーが行っていることを協力して変更することができる。
【0210】
図5A~5Jは、さまざまなソースに関する機能ブロックの複数の例を示している。これらのさまざまな機能は、視覚的テンプレートに構造化された最終的な表示のために、選択された入力ストリームに対して動作するSTWを使用しているユーザによって選択される。機能ブロックは、STWが使用可能な機能を構造化して選択する方法であってよい。STWを使用しているユーザによって生成された、ソフトウェアに基づく表示コンテンツである最終的なソフトウェア製品は、一般的なアプリ、ビデオ、クリックできるビデオ、メタデータ、予測アプリ、データベース、ゲーム、及び対話型の媒体を含む。以下の実施形態は、STWの機能ブロック及び結果として得られたソフトウェアアプリケーションの一部の両方について説明する。
【0211】
図5Aの「ユーザ入力を使用する媒体アノテータ(Media annotator)」などの一部の実施形態では、ソースは、VR又はARアプリケーション、ビデオシースルー、遠隔操作、他のリモート制御デバイス、テレビ会議、又はビデオコンテンツ作成に使用され得るカメラソースを含み、可能性のある機能の一部が、カメラソース機能ブロック16Aに現れる。結果として得られたソフトウェアが、対話型ビデオアプリケーションに使用される。例えば、カメラソース機能ブロックは、表示システムがデジタルコンテンツを生成してカメラソースコンテンツの上に重ね合わせ、ビデオの特徴を強調するように、アノテータ機能17を備えてよい。デジタルコンテンツは、カメラコンテンツと同じ焦点面に配置されてよく、又はデジタルコンテンツは、宙に浮いているグラフィックス内又は宙に浮いているテキスト内或いは多層テンプレートの別の層内のように、別の焦点面に位置してよい。注釈は、ユーザプロフィール又はアクションに応じて事前にプログラムされてよく、又は注釈は、AIモジュールによって動的に生成されてよい。カメラソース機能ブロックは、ユーザがフィードバックを提供するか、又はコンテンツに関して質問することができるように、コメント機能63を含んでもよい。ユーザフィードバックは、フィードバックに応答することができるチャットボットなどの、AIモジュールに統合されたテキストに基づくフィードバックメカニズムであってよい。さらに一般的には、ユーザ入力機能12が存在してよく、ユーザ入力機能12は、ユーザが、キーボード入力、マウスクリック、ジェスチャー又は顔の表情、或いは音声コマンドを含む、任意の手法で入力をソフトウェアに提供することを可能にする。一部の実施形態では、ユーザ入力機能は、例えば、オンラインクイズ又はトレーニングビデオにおいて使用するために、カメラソース情報の指定されたフレームの入力を要求するように構成される。別の機能は、ユーザが仮想アバター又はアシスタントと情報をやりとりすることができるような、アバター支援機能23である。アバターは、体験中にユーザを導くために、ユーザのコンテンツ又はカメラソース情報に基づいて提案を提供してよい。この機能ブロックの最後には、グラフィックス機能64がある。グラフィックスは、警告ラベル、ユーザのお祝いの画像、又はカメラコンテンツの特徴を強調するためのグラフィックスを含む。グラフィックス機能は、例えばビデオフレームを処理する、標準的なグラフィックス機能として実装されてよく、又はグラフィックス機能は、センサ入力若しくはユーザのユーザ入力に基づいていてよい。例えば、グラフィックス機能は、ユーザの視線を取り込み、ユーザが焦点を合わせている表示の領域を明るくしてよい。
【0212】
図5A~5Bの実施形態では、特定の機能が特定のソースに関連付けられているが、それらの機能は、他の実施形態において使用されてよい。例えば、アバターアシスタント23は、結果として得られたソフトウェアの機能を支援するか、又は機能に影響を与えるために、任意の実施形態において使用され得る。
【0213】
実施形態では、アバターアシスタントは、トレーニングビデオ内のオブジェクトの相対的重要性に基づいて情報を出力するようにプログラムされてよく、有声の質問などのユーザ入力を取り込み、ビデオコンテンツに基づいて、それらの質問に回答することができる。機能は、要求時に追加情報を提供するため、又はビデオの一つの部分から別の部分に概念を結び付ける手掛かりを提供するために、ビデオのコンテンツに関連する辞書、トレーニングデータ、又は検索エンジンに接続されてよい。
【0214】
実施形態では、グラフィックス機能は、ユーザのビデオの進行、センサから捕捉されたユーザの視線、又はユーザのSLAM入力に基づいてビデオ上の特徴を強調してよい。例えば、ビデオは、物理的タスクを実行するときの適切な姿勢のためのトレーニングビデオであってよく、指標機能が、ユーザの姿勢を入力として取り込み、キャラクターの姿勢と比較する。この機能は、例えば、ユーザと比較して、ビデオのキャラクターの背中の姿勢又は肩の姿勢を強調することによって、視聴者がビデオ内のキャラクターと相対的に自分の姿勢をどのように変更するべきかを示すために、ビデオ内の強調表示を出力する。この例のフローチャートが、図6Aに示されている。
【0215】
図5Bは、「電子商取引のスマートレコメンダ/アドバタイザ」の実施形態を示しており、この実施形態では、カメラソース機能ブロック16Bが、オンラインショッピングプラットフォーム又は広告のソースとして使用するために構成される。例えば、多層表示コンテンツは、商業広告であるビデオ層、及びカメラによって捕捉されたユーザの視線に基づくアイテムの注釈を含む第2の層を含んでよい。注釈は、購入できるアイテムを強調するか、又は拡張表示画像内で、さらなる情報を表示してよい。
【0216】
この機能ブロックは、ライブビデオ又はビデオ記録を使用してよい。機能のうちの一つは、ビデオコンテンツ内の購入できるアイテムが強調され、オンラインショッピングプラットフォームへのリンクを含むことができるように構成された、購入機能65を含む。購入できるコンテンツは、販売可能性を決定するオブジェクト検出アルゴリズム及び検索エンジンによって識別されてよく、このソフトウェアは、ユーザ入力又はユーザプロフィールに基づいて、どのオブジェクトを強調するべきかを決定してよい。この例のフローチャートが、図6Bに示されている。例えば、科学機器を閲覧して購入したユーザは、室内装飾に集中している閲覧履歴を有するユーザとは異なる、強調されたオブジェクトを見ることになる。この機能の入力は、ビデオフレーム及びユーザ入力/プロフィールであり、出力は、販売可能情報、購入の選択肢、及びさまざまな代替案を含む、注釈層であってよい。一部の実施形態では、詳細は、ユーザの表示システムでの履歴、以前の購入、検索履歴、又は他のユーザに固有の詳細による影響を受ける。共有機能66は、ユーザがカメラソースからのコンテンツをネットワーク内の他のユーザ又は可能性のあるユーザと共有することを可能にする。この機能は、例えば、ビデオ内で検出されたオブジェクトのクイックレスポンス(QR:quick response)コードを作成してよく、QRコード(登録商標)が、ビデオを見ている他のユーザの宙に浮いているグラフィックスに現れるように、QRコードが他のユーザと共有される。この例では、QRコードは、ユーザがマウス入力を使用してクリックした位置に基づいて生成される。別の機能は、ユーザがビデオ内のオブジェクトをクリックし、ユーザによって生成されたテキスト又は選択されたグラフィックスであることができるフィードバックを、ビデオの作成者又はさまざまなベンダーに提供するように構成された、コメント機能63である。この機能への入力は、購入機能65から生成された注釈層を含む。一部の実施形態では、購入機能又はフィードバック機能は、ディスプレイに接続されたカメラシステムに基づいてユーザの体の種類を入力として受け取り、例えば、装着できるアイテムが適切に適合するかどうかを判定するように構成される。これらの実施形態では、ユーザの形状を画面上の販売可能なアイテムの形状に揃えて、アイテムを装着しているユーザの仮想現実画像を作成するために、幾何学的変換副次機能が使用されなければならない。
【0217】
同様に、照会機能67は、ユーザが、以前の購入に関する顧客の証言を見ることによって、ビデオ内のオブジェクトに関するより多くの情報を獲得すること、又は製品を再検討するオンラインフォーラムに接続されることを可能にする。例えば、一部の実施形態では、ユーザがカーソルを特定のオブジェクトの上に置くと、その製品でのユーザ体験に関するリストが、宙に浮いているグラフィックス又はエッジ拡張表示に表示される。
【0218】
このブロック内の別の機能は、現在の事例におけるユーザのソフトウェア体験のナビゲーションに関する情報が、例えば、さまざまなショッピングプラットフォーム上の複数のユーザのソフトウェアアカウント、個別のユーザの別々のソフトウェアアカウント、又は照会機能67の将来のユーザのメモリバンクに自動的に入力されるように構成された、同期機能68である。例えば、ユーザは、モバイルデバイスに格納されたショッピングプラットフォームアプリケーションを同期してよく、さまざまな注釈及びQRコードが強調されるか、又は強調されないように、ショッピングカート又は閲覧履歴が多層表示装置に入力される。
【0219】
図5Cに示された別の実施形態「遠隔操作/協力的体験ファシリテータ」では、カメラソース機能ブロック16Cが、例えば、オンライン教室、ウェビナー、品質管理監視、制御センター、又は遠隔操作において使用するために、さまざまな協力的な視覚的環境又は監視環境のための機能を含む。一部の実施形態では、カメラソース機能ブロックは、一般的センサ統合機能13を含む。この機能は、ネットワーク上で接続された任意のセンサ、又は(例えば、他のユーザ、リモートの車両又は自律車両、セキュリティカメラ、或いはロボット部分又は機械加工部分を観察しているカメラからの)他のカメラの統合を可能にする。これらの入力は、それらのコンテンツが多層表示内でリアルタイムに重ね合わせられるように、同期されてよい。他の実施形態では、例えば、車両の環境の全景を生成するために、マルチカメラ車両ナビゲーションシステム(multi-camera vehicle navigation system)において使用されるように、拡張FoV内で画像がタイル表示される。別の機能は、画像処理機能69である。この機能は、カメラソース、又は視覚的コンテンツを生成するように構成された任意のセンサソースを操作する、別々の副次機能を含んでよい。例えば、この機能への入力は、ビデオ自体及び感覚入力であってよく、画像処理機能は、ユーザ定義された監視タスクに基づいて、より明るいピクセル領域を出力するか、又は視聴者が注意を集中する必要があるコンテンツを表示するように、プログラムされる。
【0220】
さらに、ホワイトボード機能70は、例えば、オンライン講座のオンラインレッスンにおけるように、ユーザが分離したアプリケーションを共有するか、又は分離したアプリケーションをカメラソースとマージすることを可能にする。共有されたコンテンツは、従来の共有メカニズムであってよく、又は共有されたコンテンツは、コンテンツが、視聴者の必要性に合わせて調整するように動的に変換される、動的メカニズムであってよい。例えば、ホワイトボード機能への入力は、飛行軌道のデータセットであってよく、この機能は、それらのデータを、多層のフライトシミュレータに重ね合わせられる視覚的軌道にプロットするように構成される。
【0221】
例えば、拡張表示システムは、複数のユーザが、カメラによって捕捉されたユーザ自身の仮想画像を介して互いに情報をやりとりすることができる、一つの領域を含んでよい。この領域は、ホワイトボード機能70によって生成される。多層表示又は拡張視野内の第2の層であってよい第2の領域は、視線又はジェスチャーの感知を介してユーザによって操作される仮想ホワイトボード空間であってよい。例えば、センサ統合機能13は、ジェスチャーセンサ又はカメラシステムによって捕捉されたジェスチャーを入力として受け取り、次に、手書きテキストなどの、仮想ホワイトボード空間に表示するアクションを決定してよい。この例が、図6Cでさらに説明される。
【0222】
コンテンツがユーザ又はユーザの体の一部の画像を含んでいる表示の場合、プロジェクションマッピング又は幾何学変換は、表示画像に影響を与えるために使用される画像処理機能の一種であることができる。幾何学的変形は、光学システムの変形を除去することを含んでよい。一般に、幾何学的変形は、任意の方法で除去又は補正されてよい。例えば、レンズ変形又は魚眼変形を除去するために、多項式変形アルゴリズムが使用されてよい。カメラから変形を除去するために、カメラの較正が使用されてもよい。
【0223】
画像処理機能69は、明るさ調整、中心窩で捉えられた表示、エッジ強調、ブラーリング機能、ビデオフィルタ又は画像フィルタ、背景のブラーリング、計算再マッピングなども含む。この機能は、ソース全体に対して動作してよく、又はこの機能は、ユーザによって決定されたか、又はセンサ入力に基づく、ソースの分割に対して動作してよい。この機能は、画像処理を支援するための他のルーチンを必要としてよい。自律車両又は遠隔操作車両では、全景が表示され、これらの画像処理機能のうちの一つが、オブジェクトを識別し、そのオブジェクトの速度を推定し、次に、そのオブジェクトの速度がしきい値を超えている場合に、そのオブジェクトを強調するように構成される。別の機能は、すべての視覚的コンテンツを一緒に分析し、それらのコンテンツに作用するための生成的方法を提案するように構成された、AIモジュール18である。
【0224】
さらに、音声機能71は、音、音楽、及び他の音声効果を変更するための機能である。音声ソースは、表示システムに接続されたマイクロホンであることができ、又は音声ソースは、リモートソースであることができる。この機能は、任意のスピーカ又は他の音声変換器を介して音声を出力するように構成されることも可能である。例えば、ホログラフィック又はビーム形成方法によって、多層表示において第1の層又は第2の層から来るかのような音を出すように、音声信号が構成されてよく、ユーザが、音声を聞くときに、ソースに関連付けられた距離を認識するようにする。これは、例えば、ホワイトボード空間、又は仮想教室内の複数のユーザによって行われた話声に関連する音声効果であることができる。合計音波が、望ましい奥行きからの音源を近似する波面を生成するように、個別の音波をそれぞれ放射するスピーカのアレイを使用することによって、ビーム形成が引き起こされる。個別の音波は、近似がどの程度正確であるかに基づいて個別の音波の相対位相を出力する最適化アルゴリズムによって決定される。
【0225】
図5Dは、カメラソースが一般的画像ソースである、カメラソース機能ブロック16Dの実施形態「マルチソース/コンテンツ生成器及びマージャ」を示している。この機能ブロックは、カメラコンテンツのさまざまな説明又は視覚化がカメラコンテンツに重ね合わせられるか、又はカメラコンテンツの近くに表示され得るように、画像処理機能69及び注釈層機能17を含む。実施形態は、ユーザが他のビデオ又はカメラソースを元のコンテンツと結合することを可能にする、マージ機能72も含む。例えば、この機能ブロックは、遠隔操作又は研究方法を含んでいる実施形態において使用されてよく、この実施形態では、カメラ又は光検出器が、設定に関する光学的情報を記録しており、他のセンサが、使用される機器を監視しており、マージ機能が、重ね合わせられたセンサデータをカメラと結合するようにする。マージ機能は、ユーザ選択されたか、又はユーザ定義された機能によって最初に自動的に分析されてよく、拡張表示のサイドウィンドウが、漸進的量だけシフトされた機器設定を使用して発生した可能性がある代替の結果を表示する。代替の結果は、基礎になる物理法則の数値シミュレーションによって、又は深層学習アルゴリズムによって計算されてよい。
【0226】
一部の実施形態では、マージ機能は、さまざまな相互関係及び傾向のデータを比較するAIニューラルネットワークに基づいてよい。この例では、タッチアップ機能、視覚的データの自動暗号化、又はビデオ媒体のコンテンツ生成を含んでよいユーザの仕様に基づいて、元の画像が、AI生成された画像コンテンツとマージされてよい。
【0227】
実施形態では、ビデオは、職員を監視するための、建設現場又は倉庫などの職場のライブ映像であってよい。この例では、中央表示がライブ映像を表示してよく、拡張表示画像が、ライブ映像のスナップショット又はフレームを表示してよい。この場合、マージ機能72は、ビデオの過去のフレームを拡張表示内のライブのフレームとマージするようにプログラムされる。マージ機能のサブルーチンが、最初にフレームを分析して、正しくない手順のアクション、生産性レベル、又は同僚との対話などの、重要な、又は相関性がある職員のアクションを識別してよい。このサブルーチンは、CNNを使用して類似するオブジェクト又は姿勢を検出してよい。別のサブルーチンは、これらのフレームが表示されたときにユーザが注目するための注釈を追加してよい。例えば、CNNの出力は、倉庫内の職員が重い箱を持ち上げているフレームをすべて検出して表示し、存在する人が少な過ぎるフレームを識別し、介入するようユーザに警告する注釈を追加する。この実施形態が、図6Dでさらに説明される。
【0228】
一部の実施形態では、ビデオ編集環境内でビデオソースが使用される。一部の実施形態では、マージされたコンテンツは、視覚的コンテンツではなく、通常はカメラコンテンツに影響を与えるか、又はカメラコンテンツを改善するための何らかの他の種類の情報である。マージ機能は、多層表示内の特定の層又は対象の層のサブセクションに依存してよい。音声機能71は、ユーザが音声信号を編集、追加、又は放射することを可能にする。最後に、アップロード機能73は、ユーザがコンテンツ又はコンテンツの一部を別のデバイス又はネットワークに送信することを可能にする。アップロード機能は、複数のユーザからコンテンツを収集し、コンテンツを機械学習アルゴリズムのためのデータベース又はトレーニングライブラリに追加する、それ自身のマージサブルーチン又は同期サブルーチンを含んでもよい。
【0229】
別の実施形態「ベンチマーク及び論理アナライザ」が図5Eに示されており、この実施形態では、ソースがテキストに基づくソースであり、機能のセットがテキストソース機能ブロック16Eである。テキストソースは、文書、スプレッドシート、オンライン住所録、雑誌又は出版物、電子書籍、コンピュータコード、又はプレゼンテーションであってよい。この機能ブロックは、複数のテキストソースがマージされ得るようにするマージ機能72を含む。例えば、ユーザは、コンピュータコードの二つのバージョンを結合することを望むことがある。この機能は、複数の選択肢を使用して構成されてよい。第1の選択肢は、別のファイルに書き込まれた更新されたコードを使用して、コードの既存の行を更新することである。第2の選択肢は、コンピュータコードの二つのバージョンを比較し、二つの入力に基づいて最適化された更新されたバージョンを生成することである。一部の実施形態では、ユーザの元のコードが自動的にコンパイルされ、実行され、評価されてよく、調整又は代替アルゴリズムのセットが、ユーザがさまざまな実行を比較できるような方法で配置されて、異なる表示コンテンツ内で提案される。この例が、図6Eでさらに説明される。注釈機能17は、説明的視覚化、グラフィカルな視覚化、又は他の視覚化を、宙に浮いているグラフィックス内又は多層表示内の元のテキストに追加することができる。一部の実施形態では、テキスト又は注釈は、イベントに依存するか、又はオブジェクトによって固定されるように作成されることが可能であり、例えば、QRコードをクリックすることによって作成され得る。一部の実施形態では、SLAM入力又は視線入力が注釈に影響を与える。一部の実施形態では、注釈機能は、論調、一貫性、論理的健全性、又は感情に関してテキストを読み取り、修正を必要とするテキスト内の位置に注釈を付けるか、又は代替の段落若しくは拡張表示画像内の画像を提案するように構成された、サブルーチンを含んでよい。
【0230】
このブロック内の別の機能は論理アナライザ機能74であり、論理アナライザ機能74は、例えば、自明のステートメントをプログラミングコマンドにマッピングすることによって、論理的プログラミングによって生成される。ユーザは、証明の方法を指定し、帰納法によって証明するか、矛盾によって証明するか、又は証明の別の適切な方法によって証明するための機能を設定してよい。代替として、この機能は、AI生成的手法を使用して、オンラインで利用できるさまざまな証明及び定理を収集し、新しい証明を生成してよい。この機能は、テキスト又はコードを、文書の構造に基づいて分析される真理値を有するステートメントに構文解析する。論理アナライザ機能74の出力は、口論の強度をランク付けする分類器であってよく、又は論理的欠陥を指摘してよい。一部の実施形態では、この出力は、論理的誤りを修正するための提案を含んでよい。論理は、アリストテレス論理学の規則に基づく形式的言語論理であってよく、又は論理は、例えば、公理的集合論又は幾何学的証明において使用されるような、数理論理として形式化されてよい。
【0231】
ユーザ入力機能12は、ユーザが、例えばジェスチャーを使用して、テキストと情報をやりとりすることを可能にする。一部の実施形態では、入力は、ソースにおける入力と同じであり、例えば、既存の文書内の次に、新たに入力することである。ユーザ入力は、音声テキスト化機能又は音声計算機能(speech-to-computation function)などの、入力の新しい方法又はモードであることもできる。この実施形態では、最後にコメント機能63があり、コメント機能63は、ユーザが、テキストを直接編集することも変更することもなく、文書のメタデータ又は他の特性に注釈を付けるか、又はそれらを見ることを可能にする。
【0232】
図5Fは、ソフトウェアエンジンを設計する方法として構成されたユーザ定義ソース機能ブロック16Fの実施形態を示しており、すなわち、この実施形態は「ソフトウェアエンジン/データアセンブラ」である。この機能ブロックが作用するソースは、任意のデータ型であってよい。例えば、ソースは、データベース、点群、ルックアップテーブル又は辞書、オンラインリポジトリ、インターネット、或いはコードブロックのライブラリであってよい。生成されるエンジンの種類は、任意である。エンジンは、データベースエンジン、グラフィックスエンジン、物理学エンジン、検索エンジン、プロットエンジン、ウェブ閲覧エンジン、又はゲームエンジンであってよい。STWは、複数のエンジンを作成するための複数の機能ブロックを含んでよい。エンジンは、コンテンツの処理、シーンの理解、又は画像処理を支援することができる。一部の実施形態では、エンジンは、リアルタイムのエンジンとして構成された推奨エンジン、又はアプリに固有の推奨エンジンである。
【0233】
この機能ブロックでは、さまざまなエンジンのライブラリを分類するため、又は新しいライブラリを設計若しくは実装するために、ライブラリ機能45が使用されてよい。一部の実施形態では、ライブラリは、入力にユーザの問い合わせ又は望ましいタスクを有してよく、ライブラリは、AIモジュールに基づいて生成される。例えば、ユーザは、「三次元データをグラフに描くためのすべてのサブルーチンを提供する」というライブラリ機能を入力してよく、ライブラリ機能は、データのグラフィカルな表示の方法を出力するために、ソースデータを検索するか、又はデータ自体を生成する。又はライブラリ機能は、入力データを取り込み、入力データの構造又はサイズに基づいてライブラリを識別してよい。例えば、入力データは、遺伝子配列又は一連のタンパク質に対応してよく、ライブラリ機能は、最初にデータを遺伝子配列又は一連のタンパク質として識別し、すべてのそのような類似するデータセットについてインターネットを検索し、入力データと同じ形式でデータセットのライブラリを構築する、AIに基づく機能である。
【0234】
グラフィックス機能39は、視覚的アプリケーション、物理学に基づくグラフィックス描画又はエンジンにおいて使用するための、解像度、フレームレート、又は明度の変化などの、カスタマイズされたグラフィックス設定を可能にしてよい。一部の実施形態では、グラフィックス機能は、グラフィックスを描画するために、さまざまな物理法則又は動力学的法則を実装する副次機能を含んでよい。この機能の入力データは、ビデオゲーム又は研究目的での科学的画像に使用される点群であってよい。この機能は、さらに具体的なゲームエンジン機能ブロックのサブルーチンであってもよい。
【0235】
UI/UX機能75は、ソースに作用し、役立つ方法又は魅力的な方法でソースを表示する。例えば、UI/UX機能75は、(1)数値データを取り込み、AIモジュールに基づいてデータセットを分類する副次機能、(2)分類及びデータサイズに基づいてプレゼンテーションの最良のモードを最適化する副次機能、並びに(3)ユーザの対話のための注釈/ラベルをグラフィカルに配置し、生成する副次機能を含んでよい。この実施形態が、図6Fでさらに説明される。別の副次機能は、確率的機能、時間依存性の機能、又はニューラルネットワーク若しくは他の深層学習機能であることができる、予測機能を含み、この機能は、ソース及びユーザ入力の履歴の両方を入力として受け取り、ユーザの可能性のある未来のアクションを提案する新しいグラフィックスを生成する。例えば、AIに基づくUI/UX機能は、データを、特定の期間にわたるある領域内の天候データとして分類してよく、ユーザがデータの平均値を求めること、データを未来に外挿すること、又は異なる時間間隔からのデータについてインターネットを検索することを可能にする、ツールバーが生成される。
【0236】
一部の実施形態では、例えば、望ましいエンジンがデータベースエンジンであり、表示パネルが、多層表示として構成され、奥行き層が、例えば、三次元データベースを生成するためのデータの別の次元に対応し、三次元データベースは、画像の点群などのボリュメトリック情報を操作するために使用され得る。UX機能は、データをデータベースから取り込み、データの構造を分析し、場合によっては、データをデータ型のライブラリに対して比較し、データを、インフォグラフィック又は多次元グラフなどの視覚的に魅力的な方法で提示する。
【0237】
コードブロック76は、生成されたエンジンのユーザが、新しいコードを生成し、エンジンを変更又は改良することを可能にする。ニューラルネットワーク機能77は、エンジンが任意のアプリケーションのためのニューラルネットワークを組み込むことを可能にする。例えば、ゲームエンジンでは、ビデオカメラによって捕捉されたシーン内のオブジェクトを検出し、ビデオゲーム環境に組み込むために、CNNが使用されてよい。一部の実施形態では、API機能は、ユーザが、ローカルなハードウェア又はネットワーク上で分散されたハードウェアと情報をやりとりするようにソース情報を構成することをさらに可能にする。例えば、データは、カメラ画像のセットから、又は電化製品又は機械の使用の詳細から、リアルタイムに引き出されてよい。
【0238】
図5Gに示された実施形態「ゲーム及び世界ゆがみエンジン(Game and world warping engines)」では、ソースが既存のゲーム又はゲームエンジンであり、機能ブロックがゲーム機能ブロック16Gである。この機能ブロックは、グラフィックス機能(解像度の効果又は改良など)39、音声機能38、(例えば、マルチプレーヤーゲーム内で)コメントを追加するためのコメント機能63、3D再マッピング効果及びメッシュ作成のための計算再マッピング機能78、並びにゲーム内のゲームキャラクター又はグラフィックスのさまざまなゆがみ効果のための幾何学変換機能19を含む。一部の実施形態では、注釈機能が含まれる。
【0239】
一部の実施形態では、既存のゲームが一人称視点のゲームであり、シーン内のさまざまなアイテムが、多層表示上の異なる奥行きで表示される。一部の実施形態では、層のうちの一つが、ユーザの視線又はキャラクターの動きに基づいてヒントを提供するための注釈層であってよい。別の実施形態では、ユーザは、ゲームをプレイしていてよく、キャラクターは、カメラシステムによって捕捉されたユーザの画像であり、ゲーム内のキャラクターの外形及びサイズを動的に最適化するために、幾何学変換機能19で幾何学的変換が使用される。一部の実施形態では、ゲームは、ゲームのβ版であり、AI構成要素は、ユーザがゲームを評価するときに、延長されたた遅延のウィンドウ内で、異なる視点又は対話を提案する。この例が、図6Gでさらに説明される。
【0240】
図5Hに示されているような一部の実施形態「動的UIクリエータ」では、UI機能ブロック16Hが、ソースのための任意のUIを含む。UIは、ウェブサイトの、特定の特徴、ボタン、リンク、アイコン、視覚要素、又は音声要素を含むランディングページであることができる。UI機能ブロックは、グラフィックス機能39、及びさまざまなグラフィックス品質を設定する能力、入力機能12によってユーザ入力を受け取る能力、アップロード機能73によってローカルソース又はリモートソースの情報を検出又はアップロードする能力、或いはダウンロード機能80によって命令を受信する能力を含む。一部の実施形態では、ユーザ定義機能20は、ユーザが入力ソースを任意に操作することを可能にする。ユーザ定義機能は、画像処理副次機能ブロック、コードを記述し、コンパイルし、実行するためのターミナルウィンドウ、又は本開示で説明された任意の機能であることができる。例えば、一部の実施形態では、この機能ブロックは、ウェブサイトのテストに使用され、ユーザは、チェックボックス又はラジオボタンなどのさまざまな入力要求を使用してウェブサイトをテストする。ユーザがウェブサイトをナビゲートするときに、視線及び情報のやりとりが記録され、その後、注釈の重ね合わせによって、使用されない部分が強調されるか、又は明るくされ、設計者がウェブサイトに関するグラフィカルなフィードバックを得ることができるようにする。又はウェブサイトの特徴は、試験者の過去の使用に基づいて動的に適応してよい。この実施形態例が、図6Hで説明される。
【0241】
図5Iでは、示された実施形態「媒体特徴レコグナイザ及びアノテータ」が表示コンテンツをソースとして含み、この表示コンテンツは、前の機能ブロックから出力された一般的表示コンテンツを含んでよい。例えば、ここで入力は、図5Aの機能によって操作された後のクリックできるトレーニングビデオであってよい。複合機能ブロック16Iは、ソース画像内の特徴を検出するための検出機能81を含む。特徴検出は、低レベル(例えば、エッジ検出)、中レベル(例えば、視線又は顔の追跡)、又は高レベル(人を含んでいる表示コンテンツの感情の検出)であってよい。一部の実施形態では、検出はオブジェクト検出であり、又は検出は、ユーザではなく環境に関連する特徴検出であってよい。別の機能は、ユーザによって決定された任意の機能であるユーザ定義機能94である。一部の実施形態では、ユーザ定義機能20が含まれ、数学演算であってよい。一部の実施形態では、この機能は、ソースを(トレーニングデータ又は入力データ或いはエンコードするデータとして)他の選択済みの機能又は機械学習パイプラインに入力する。さらに機能は、注釈及び注釈層をソースに追加するための注釈機能17、ソースに作用するカスタムコードを生成してコンパイルするためのコードブロック機能76、及び既存の画像処理機能を使用してソース画像又はビデオを処理するための画像処理機能69を含む。
【0242】
コードブロック機能76は、コードブロックが自動的に生成され、トレーニングデータに基づいてソースデータとマージされるように、生成的AIによって支援されてよい。一部の実施形態では、コードブロック機能は、サイドウィンドウ又は側面の表示に端末を表示してよく、ユーザは、フィードバックを介して、リアルタイムにAI生成コードを変更するか、又はAI生成コードに影響を与えることができる。
【0243】
例えば、環境のリモートの調査又は捜索救助活動では、カメラが、ユーザがシーンを調査するための表示の画像を捕捉してよい。一次表示層がシーンを表示し、多層表示の強調において、第2の層が、人又は顔を検出するようにユーザ定義機能によってプログラムされる。さらに、ユーザ定義機能又は並列な機能のサブルーチンは、より高いレベルのシーン理解が、救助チームが救助を優先する人の危険度を定量化することを可能にする。一部の実施形態では、ビデオは、シミュレーションに基づくトレーニングビデオであり、ユーザは、危険度及び救助作戦を決定するよう求められる。この例が、図6Iでさらに説明される。
【0244】
一部の実施形態では、さまざまなML/AIエンジンが、入力に対して動作するための別々の機能である。例えば、クリックできるトレーニングビデオでは、ユーザは、表示コンテンツ内のさまざまな他のデータに基づいて画像の構成要素を選択するよう求められてよい。AIエンジンは、可能な選択に基づいて、又はユーザの視線に基づいて、可能性のある結果を予測する。トレーニングの困難さ、時間応答、及び未来の展開が、ユーザのアクション及びAIトレーニングに基づいて動的に適応する。
【0245】
図5J「仮想環境/UXイマーサー(Visual environment/UX immerser)」では、入力ソースは、視覚的環境の生成のために構成されたソースであることができる。そのような視覚的環境は、仮想没入機能ブロック16Jが使用されるような、没入型のテレビ会議又はオンライン教室のためであってよい。テレビ会議は、協力的ソフトウェアアプリケーションの例である。この機能ブロックは、図5Cで説明された実施形態の一部に使用されてもよい。ここで機能ブロックは、仮想ホワイトボード空間を共有するためのホワイトボード機能70を含み、仮想ホワイトボード空間は、例えば、多層アプリケーションにおいてシースルーの変更を行うように、又は多層表示上の表示のための2D若しくは3Dコンテンツを最適化するように構成された多層機能82を使用して、他のビデオソースに重ね合わせられ得る。この機能は、視覚的コンテンツを取り込み、データを提示するように仮想奥行きを最適化してよい。この最適化は、視聴者の奥行き知覚と比較して、焦点奥行き情報を最小化する。
【0246】
さらに、注釈機能17が注釈を重ね合わせ、幾何学変換機能19が、さまざまな捕捉された画像を調整し、視覚的環境にマッピングし、画像処理機能69が、表示コンテンツのさまざまな層に対して画像処理を実行する。例えば、画像処理機能のうちの一つは、ユーザの画像に対して、樽型変形又は糸巻型変形のための補正、奥行きの再マッピングのための補正、又は自動的なシーンのブラーリング/デブラーリングのための補正への幾何学変換を実行するためにプログラムされた、変形補正機能であってよい。別の例では、現実的な仮想教室を作成するために、共有されたホワイトボード空間が第1の焦点面に投影されてよく、ユーザが第2の焦点面に投影されてよい。幾何学変換機能19は、コンテンツがどの焦点面内にあるかに基づいて、及びウェブカメラと相対的なユーザの物理的位置に基づいて、オブジェクトを自動的にサイズ変更する。
【0247】
一部の実施形態では、ウェブカメラは、捕捉されたコンテンツが、仮想教室又は仮想作業空間などの視覚的環境の一部として表示システムに表示されるような、環境を捕捉するビデオカメラシステムの一部であってよい。オブジェクト検出機能は、視覚的環境にマージされている物理的オブジェクト又は物理的ホワイトボードなどの、シーン内の重要なオブジェクトを認識し、セグメント化してよい。画像処理機能69及び幾何学変換機能19は、環境のシーンに作用し、シーン内のオブジェクトを、視覚的環境に重ね合わせるように幾何学的にゆがませてよい。ユーザの方を向いている別のカメラによって検出された視線に基づいて、表示システムは、神経放射輝度フィールド(NeRF:neural radiance field)を使用して、視覚的環境内のシースルーの構成要素の視点を調整してよい。この例が、図6Jでさらに説明される。
【0248】
別の例として、ホワイトボード機能70は、例えば、オンライン講座のオンラインレッスンにおけるように、ユーザが分離したアプリケーションを共有するか、又は分離したアプリケーションをカメラソースとマージすることを可能にする。共有されたコンテンツは、従来の共有メカニズムであってよく、又は共有されたコンテンツは、コンテンツが、視聴者の必要性に合わせて調整するように動的に変換される、動的メカニズムであってよい。例えば、ホワイトボード機能への入力は、飛行軌道のデータセットであってよく、この機能は、それらのデータを、多層のフライトシミュレータに重ね合わせられる視覚的軌道にプロットするように構成される。
【0249】
これらの実施形態では、特定の入力ソースが説明されたが、任意のデジタルコンテンツがソースとして入力され得る。一部の実施形態では、ソースは、他の既存のアプリ、既存のウェブサイト、ウェブサイトのグループを含む。例えば、仮想環境/UXイマーサー機能ブロック16Jへの入力は、既存の商用ソフトウェアからのテレビ会議通話であってよい。別の例は、ゲーム及び世界ゆがみエンジンの機能ブロック16G又はソフトウェアエンジン/データアセンブラ機能ブロック16Fが、既存のゲームエンジン環境を入力として受け取ることができることである。
【0250】
図6A~6Jは、図5A~5Jの実施形態例のフローチャートをそれぞれ示している。
【0251】
図6Aは、対話型のトレーニングをビデオ生成するように構成された図5Aの機能ブロックに対応するフローチャート601を示している。ステップ83で、ユーザのSLAMデータが姿勢推定機能15Aに入力され、姿勢推定機能15Aは、姿勢の辞書86も入力として有してよい。出力は、ユーザの姿勢の分類である。ソフトウェアは、ステップ84で、ユーザの姿勢がキャラクターの姿勢に十分に一致するかどうかを判定する。姿勢が一致する場合、ステップ85Aで、システムが、トレーニングビデオを完了として示す第1の表示コンテンツを出力するか、又はトレーニングビデオを続行させる。姿勢が一致しない場合、ステップ87で、計算ブロックにおいて差異が計算され、ステップ85Bで、ユーザが自分自身を修正するために、ビデオの強調された部分を示す第2の表示コンテンツが出力される。フィードフォワードニューラルネットワークによって姿勢推定器が生成されてよく、エンコーダを使用してベクトル空間内で姿勢を分類し、ユーザとキャラクターの間の差異することによって、これらの間の差異が計算されてよい。
【0252】
図6Bは、図5Bで説明されたような対話型のビデオのフローチャート602を示している。このフローチャートでは、ユーザの視線が、視焦点を推定するための視焦点推定機能15Bへの入力83である。出力は、表示システム上の視線の位置である。次にソフトウェアは、ステップ84で判定を行う。焦点のオブジェクトが販売可能である場合、このオブジェクトに関する追加情報が、第1の表示コンテンツ85Aとして表示される。焦点のオブジェクトが販売可能でない場合、ディスプレイが、視線が変化するまで同じビデオを維持する第2の表示コンテンツ85Bを表示する。
【0253】
図6Cは、図5Cのアプリケーションを強調するフローチャート603を示している。ユーザのジェスチャーが、ジェスチャー推定機能15C1への第1の入力83Aであり、ジェスチャー推定機能15C1は、識別されたジェスチャーを、表示可能なジェスチャーを示すことができる第1の計算ブロック87Aに出力する。同時に、カメラシステムは、第2の入力83Bとして捕捉された画像を形状推定機能15C2に入力し、形状推定機能15C2は、情報を第2の計算ブロック87Bに出力し、第2の計算ブロック87Bは、二つの機能の出力を、表示可能なジェスチャーを含んでいる表示コンテンツ86に結合してよい。ジェスチャーを、表示される前に変換又はゆがませるために、推定された形状及び表示可能なジェスチャーが結合される。
【0254】
図6Dは、図5Dのシーン分析の例又はアクションレポーターのフローチャート604を示している。リアルタイムビデオが、シーン理解分析機能15Dへの入力83である。この機能は、ビデオのフレームを比較し、関連付ける。この相関関係は、特徴に基づいてよい。計算ブロック87における出力は、どのフレームが、ユーザがあらかじめ決定することができる指定された活動に関連するかを識別する。この出力は、元のリアルタイムビデオと共にフレームのセットで構成される表示コンテンツ85として表示される。シーン理解分析は、CNN又は領域ベースのCNN(R-CNN:region-based CNN)によって、或いは木探索によって、完了してよい。
【0255】
図6Eは、図5Eで説明された実施形態例のフローチャート605を示している。ユーザコードが第1の計算ブロック87Aへの入力83であり、第1の計算ブロック87Aは、コードをコンパイルし、その結果をマージ機能15Eに入力する。コンパイルされたコードは、第2の計算ブロック87Bでも、機能又はベンチマークテストに関して独立して分析され、その結果もマージ機能15Eにも入力される。マージ機能は、ユーザコード及びベンチマークを、ライブラリに保存されていることがある既存のコードブロックと比較し、又はマージ機能は、AIモジュールで生成的トレーニング済みトランスフォーマを使用して新しいコードを生成してよい。次に、もう一つの新しいコードが、マージされたコードとして出力され、その後、マージされたコードは、第3の計算ブロック87Cで機能に関して分析される。結果として得られたマージされたコード及び分析が、ユーザが比較するために、元のコードと共に表示コンテンツ85として表示される。
【0256】
図6Fは、図5Fの実施形態の機能を表すフローチャート606を示している。データベースが、UX分析機能15Fに入力され(83)、UX分析機能15Fは、データ型ライブラリである辞書86を有してよい。データ型ライブラリは、さまざまな形態のデータ、ファイル形式、及びアプリケーションに加えて、プレゼンテーションの最良のモードに関する情報を含んでよい。UX分析は、データベースデータの提案された視覚化を計算ブロック87に出力し、次に、この視覚化が、表示コンテンツ85として表示システムに表示される。
【0257】
図6Gは、ゲームエンジン又はテストのために構成された、図5Gで説明された実施形態に関連するフローチャート607を示している。ユーザは、情報又はユーザの視線を、入力83としてAIコンテンツ生成器機能15Gに入力する。AIコンテンツ生成器は、ゲームスタイル、ジャンル、キャラクター、又はゲーム環境に関する情報を含んでいるゲームエンジン辞書86を有してよい。AIコンテンツ生成器は、新しいゲームモード又はグラフィックスを計算ブロック87に出力し、次に、計算ブロック87が、表示コンテンツ85として表示システムに視覚的に表示される。
【0258】
図6Hは、ウェブサイトテストソフトウェアとして使用するために構成された、図5Hの実施形態のフローチャート608を示している。ユーザ入力83が特徴使用追跡機能15H1に入力され、特徴使用追跡機能15H1は、過去の使用に基づいてウェブサイトの特徴を自動的に更新し、計算ブロック87の結果を第1の表示コンテンツ85Aとして拡張表示に表示する。例えば、この機能は、単にカーソルの座標の位置を時系列として追跡し、その後、カーソルが最も多くの時間を費やした位置を識別してよい。ウェブサイトの更新された特徴は、その後、最も可能性の高いカーソル位置に配置される、特徴のセットからの特徴であってよい。変更されたウェブサイトの拡張表示コンテンツは、ユーザが変更を比較するために、元のウェブサイトの隣にあってよい。追跡機能の出力は、AI機能15H2に入力されてもよく、AI機能15H2は、元のウェブサイトの表示の上の注釈層として、第2の表示コンテンツ85Bとして表示される変更を提案する。
【0259】
図6Iは、捜索救助活動のための図5Iの実施形態例のフローチャート609を示している。リアルタイムビデオが、オブジェクト識別機能15I1に入力される(83)。この機能は、CNN又はR-CNNであってよい。この機能の出力は、第1の計算ブロック87Aで、危険な状態にある職員を識別し、その情報を第1の表示コンテンツ85Aとして表示システムに表示する。表示の方法は、例えば、職員の画像を明るくすること、又は職員の位置に注釈を付けることであることができる。オブジェクト識別機能の出力は、シーン理解機能15I2に入力され、例えば、シーン理解機能15I2は、特定の危険に関してシーンを分析し、火災又は電気の危険性が最も危険であることがある。出力は、第2の計算ブロック87Bでのそれらの危険性の識別であり、次に、この識別が第2の表示コンテンツ85Bとして表示システムに表示される。この出力は、どの職員を救助するべきかの手順又は順序付けを含むことができる。
【0260】
図6Jは、テレビ会議又はARVRアプリケーションの図5Jの実施形態例のフローチャート610を示している。カメラシステムが、ユーザを含むことがある環境を捕捉する。この情報は、第1の入力83Aとしてオブジェクト識別機能15J1に入力され、オブジェクト識別機能15J1は、環境内の重要なオブジェクト又は関連するオブジェクトを識別する。(オブジェクト識別機能15J1は、図6Iのオブジェクト識別機能と比較して、重みの異なるセットと共にCNNを使用するという点において、異なるオブジェクト識別機能であってよい)。識別は、辞書又はルックアップテーブルに関連してよく、或いは重要なオブジェクトは、事前に指定されてよい。出力は、計算ブロック87に示されているように、視覚的環境への環境の画像の重ね合わせである。ユーザの入力、視線、又はSLAMデータが、仮想環境入力83Bと共に、第2の入力としてNeRF機能15J2に入力されてよく、NeRF機能15J2は、完全接続深層ニューラルネットワークとして実装されてよく、視覚的環境のさまざまな透視図を計算する。次に、結果が表示コンテンツ85として表示システムに表示される。
【0261】
図7A~7Gは、ユーザ体験を支援するため、又はユーザ体験に影響を与えるために予測的特徴を使用するさまざまなソフトウェアアプリケーションを示す、図2Bの異なる実施形態を表している。一部の実施形態では、現在説明されているソフトウェアアプリケーションは、図2A及び図5A~5Jの方法に加えて、図4A及び4Bで説明されたSTWインターフェイスを使用して作成される。
【0262】
図7Aは、さまざまな未来のアクション及び可能性の予測を生成するために、ユーザ入力と共に過去のアクション及びイベントが処理される実施形態である一般的「ファネルエキスパンダー(Funnel expander)」を表している。この実施形態では、ユーザ1が中央表示画像9を見ており、中央表示画像9は、過去の使用に関するコンテンツ又は情報を描く過去のコンテンツ表示画像9A、及び未来の使用に関するコンテンツ又は情報を描く未来のコンテンツ表示画像9Bをさらに含んでいる。ユーザは、表示システム8と組み合わせられたローカルソースを介してコンテンツを見ていてよい。一般的機能15A、15Bに加えて、AIモジュール18は、過去のコンテンツ及び現在のコンテンツに加えて、ユーザ入力12を入力として受け取り、未来のアクションの可能性89の拡大された視覚化を生成してよい。インフォグラフィック22は、役立つ方法で過去のコンテンツを表示してよい。
【0263】
機能への入力は、任意の持続時間の現在の使用及び過去の使用であることができる。一部の実施形態では、機能が推奨エンジンであり、ユーザ又はユーザの履歴若しくはプロフィールが、設定アクションを決定する。他の機能は、確率的又は時間依存性である。ニューラルネットワークを含む機能が、システム又はセンサ入力へのユーザ入力を入力として受け取る。一部の実施形態では、過去のアクションの履歴がインフォグラフィックとして表示される。一部の実施形態では、インフォグラフィックは、各枝が、ユーザによって実行される一般的なアクションのセットの集約である、拡張可能な木グラフである。木グラフの幹は、それらのアクションのセットのタイムスタンプを示し、各枝の範囲は、各アクションの種類に費やされる時間量と相関関係を持ってよい。
【0264】
機能として時間遅延を使用する実施形態では、ユーザは、データベースを使用しているか、データ入力を実行しているか、又はシミュレーションの数値結果を分析している。一次表示コンテンツは、ユーザがデータを入力しているスプレッドシートである。最新の活動が、最新のデータが入力されたことであるため、一次画像に隣接する第2の層又は拡張FoVに表示される一次の予測された活動は、継続的なデータ入力である。ソフトウェアは、どのデータを入力するべきかを予測してよく、又はソフトウェアは、データベース又はスプレッドシートの拡張領域を表示してよい。第2の最新の活動が、文書を開くことだったため、ソフトウェアは、二次表示層上の、データベース又はスプレッドシートを保存することの指示を予測し、新しい文書を開くか、又は現在の文書を閉じることを予想する。最も古いアクションは、データを生成するための異なるアプリケーション、例えば、シミュレーションを使用することだった。第3の予測されたアクションは、シミュレーションを再実行してパラメータを変更することである。
【0265】
図7Bは、「確率的予測器」の実施形態を表しており、確率的予測器では、さまざまなアクション及び可能性に関する予測が、重み付けされた時間減衰又は確率的要因に従って表示される。この実施形態では、ユーザが表示画像9を見ており、表示画像9は、過去のコンテンツ表示コンテンツ9A及び未来のコンテンツ表示コンテンツ9Bをさらに含んでいる。過去及び現在の使用が、機能15に入力され、機能15は、例えば、最も可能性が高い次のアクションを計算するために確率分布93を使用し、それに応じて、それらのアクションを表示する。最も可能性が高い未来のアクション91が、表示コンテンツの最も目立つ拡張部分に、中心的に最も目立つように表示される。中程度に可能性が高い未来のアクション92が、中程度に目立つ表示コンテンツの拡張部分にあまり目立たずに表示され、最も可能性が低い未来のアクション93が、最も遠く離れて最も目立たないように表示される。一部の実施形態では、表示コンテンツが多層表示又は宙に浮いているグラフィックスとして表示され、最も可能性が高いコンテンツが、最も明るいか、又はユーザに最も近い。
【0266】
ユーザは、入力デバイス又はセンサ13を介して、情報を直接入力することができ、この情報からのデータは、アクションを再配置するか、又はアクションを動的に変更してよい。一部の実施形態では、センサは、ユーザ又は環境に関する情報を捕捉し、その情報を、予測能力に役立つように表示システムに中継する。
【0267】
確率的方法が、次のように形成されてよい。すべてのユーザのアクションをベクトル空間xにエンコードする。これは、特定のアプリケーションに関してであることができ、又はアプリケーションのセットに関してであることができる。一部の実施形態では、新しいアクションが追加され得るように、基底において非ゼロベクトルがスパースである。次に、確率密度関数を定義する。一部の実施形態では、確率密度関数は、釣鐘曲線(ガウス関数)、ローレンツ関数、又はコーシー関数である。これらの関数は、アクションの個別のセットに関して、離散化され得る。一部の実施形態では、確率密度関数は、特定の標準偏差、スキュー、尖度、又はモーメント若しくは中心モーメントのセットを維持することなどの、特定の制約によって定義される。又は代わりに、特性関数、モーメント生成関数、累積関数が与えられる。一部の実施形態では、確率特性が、ベクトル空間xに属するさまざまなアクションxiの相関関係によって、又はシステムが較正されている期間中のユーザのアクションの相対的頻度によって、定義される。
【0268】
一部の実施形態では、アクションのシーケンスが、ある意味で静的であり、例えば、広い意味で静的であるか、厳密に静的であるか、又は徐々に静的である。一部の実施形態では、システムは静的ではなく、例えば、時刻又は他の外部要因に依存する。
【0269】
アクションの第2のセットが、第2のベクトル空間yにエンコードされる。一部の実施形態では、アクションの三つ以上のセット、例えば、三つ又は四つ又は九つのセットが存在する。ユーザが特定のアクションxiのために表示システムを使用している場合、ソフトウェアは、次式のように、可能性のあるアクションyjごとにすべての条件付き確率を計算する。
pij = P(yj|xi)
二つのイベントA及びBの条件付き確率P(A|B)は、Bが発生したという条件又は制約を伴ってAが発生する確率である。条件付き確率を、次式のように、Bが発生する確率P(B)に対する、A及びBの両方が発生する確率P(A and B)の比率と見なすことが可能である。
P(A|B) = P(A and B) / P(B)
上記の値pijは、最大の確率、2番目に大きい確率、又は何らかの他の指標を有するアクションを決定する。次に、表示システムは、それらの可能性のあるアクションを、二次仮想表示又は表示層のセットに表示する。一部の実施形態では、ユーザのアクションを予測する方法は、超過予測、時系列分析、又は他の系列分析を使用する。
【0270】
一部の実施形態では、図7Bに示されているように、ユーザ1がソーシャルメディアプラットフォームと情報をやりとりしている。中央表示9が、ランディングページを表示する。表示システム又はアプリケーション自体での、ユーザの履歴、及び複数のユーザの履歴に基づいて、確率的機能は、ユーザが一連の更新情報をスクロールする可能性が最も高いということを決定する。最も可能性が高い未来のアクション91が、表示コンテンツの最も目立つ拡張部分に、中心的に最も目立つように表示される。その結果、このコンテンツは、拡張された更新情報又はスクロールフィードを表示する。隣のウィンドウ内で、中程度に可能性が高い未来のアクション92が、中程度に目立つ表示コンテンツの拡張部分にあまり目立たずに表示される。最後に、最も可能性が低い未来のアクション93が、最も遠く離れて最も目立たないように表示される。このコンテンツは、マーケティングキャンペーンをクリックすることを含んでよい。ユーザがソーシャルメディアプラットフォームと情報をやりとりするときに、確率分布が更新され、表示コンテンツが再配置される。さまざまなセンサ13が、ユーザに関する情報を捕捉してよい。ユーザは、任意の入力手段を使用して、任意の提案されたコンテンツをウィンドウに持ち込んでよい。一部の実施形態では、予測されたアクションは、異なるアプリケーションに切り替えることに対応する。
【0271】
予測アルゴリズムは、さまざまな可能性のあるユーザのアクションに関するデータを使用し、イベントは、生産性、成功/失敗、ユーザ満足度に関するメタデータを含む。例えば、最初にソーシャルメディアサイトのナビゲーションを開始するユーザが、広告をクリックしてアイテムを購入する可能性が最も高く、2番目に可能性が高いイベントは、メッセージに応答することである。p11=0.8及びp21=0.5となるように、x1をソーシャルメディアサイトへのナビゲーションとし、y1を広告のクリックとし、y2をメッセージに応答するイベントとする。このシナリオでは、中央の二次表示が、広告に関するコンテンツを表示し、第2の二次表示が、メッセージに応答することに関するコンテンツを表示する。しかし、y11に関するメタデータは、広告をクリックすることが、予算監視アプリにおける過度の引き出し料金につながったことを示す。そのため、表示システムは、p11の値を0.5未満、例えば、0.4に減らしてよい。又は表示システムは、警告メッセージを表示コンテンツに含めてよい。
【0272】
図7Cは「動的プライオリタイザ」の実施形態を表しており、この実施形態では、ユーザの焦点、時刻、生産性スタイル、メタデータ、又は環境要因に基づく優先度基準P1、P2、P3に基づいて、さまざまな選択肢及び可能性が異なる層に表示される。最高の優先度(P1)を有すると見なされるコンテンツが、ユーザ1が見るための中央の主要画面9に表示され、一方、2番目の優先度のコンテンツ(P2)が、リマインダとしてFoV 2D拡張25に自動的に引き出される。優先度の一部は、最高の優先度がユーザに近くなるように、多層表示11内で編成されてよい。通常はユーザが行う提案が、3番目の優先度(P3)として、例えばエッジ表示53として、表示される。中央表示に対するコンテンツの距離は、コンテンツの優先度及び/又は重要性の指示である。一部の実施形態では、この距離は、時間依存性であり、ユーザ履歴に依存する。一部の実施形態では、センサ13は、ユーザ1又は環境に関する情報を捕捉し、その情報を、予測能力に役立つように表示システムに中継する。ユーザは、制御機能に情報を直接入力することによって、特定の優先度を無視するか、リマインダを示すか、又は推奨されるタスクを実行する能力を有する。優先度に基づく実施形態は、カレンダー又はデジタルリストにリストされたアイテムを識別又は比較することによって、生成されてよい。又は、実施形態がユーザ入力及び時刻を含む場合、実施形態は、例えば、異なるユーザの条件に従って異なる時刻にタスクが必要とする持続時間を追跡し、タスクが過去に最も速く完了したときのタスクを提案してよい。
【0273】
一部の実施形態では、表示システムのコンテンツが、生産性のために構成される。ユーザ1は、特定の時刻に表示システムと情報をやりとりしており、中央表示9に表示された主要な優先度のアクションは、電子メールに回答することである。時刻に基づいて、ソフトウェアは、第2のアクションP2が、その時間におけるその第2のアクションでのユーザの生産性レベルのため、高優先度であるということを感知する。一部の実施形態では、次の優先度P2が、カレンダー内で列挙された期限に基づき、FoV 2D拡張25として表示される。第3の優先度P3は、請求書、投資口座、税金などの個人資産管理を監視することであり、これらはすべて、可能性のあるアクションとしてエッジ表示53に現れる。一部の実施形態では、ユーザが、目の焦点を優先度P3に直接合わせることを必要とせずに優先度P3に気付くことができるように、すなわち、優先度P3を周辺の位置に維持することができるように、優先度P3は、多層表示11内の二次層である。
【0274】
一部の実施形態では、異なる優先度が、すべて単一のタスクに関連していてよい。例えば、中央の優先度は、重要な金融取引を行うことを含んでよく、2番目の優先度は、ソフトウェアプログラムが、変更又は他の取引を提案するように、それらの取引の結果に関してキャッシュフローを監視してよく、3番目の優先度は、住宅の頭金のための貯蓄の増加、退職後の活動、又は旅行計画などの一連の長期の金銭的目標を表示してよい。
【0275】
表示システムは、直接関係ない活動を異なる次元に配置してもよい。例えば、金融関連の優先度が、すべて横方向の拡張に表示されてよい。住宅ローンの支払いを含む表示画像は、住宅の改築、必要とされる修理、又は重要な気象警報に関する注釈を含む、複数の奥行き層を含んでもよい。ユーザ入力又は感覚データに基づいて、配置が動的に変化してよい。
【0276】
一部の実施形態では、優先度P1、P2、...が、推奨エンジンに基づく推奨であり、推奨エンジンは、ユーザプロフィールを入力として受け取り、さまざまな推奨される活動を出力する。推奨されるアクションは、(例えば、ユーザの読書履歴に関連する、すべての可能性のあるデジタルライブラリの書籍を表示する)単一のソフトウェアアプリケーション内であってよく、又は推奨されるアクションは、複数のアプリにまたがってよい(例えば、特定のソーシャルメディアアプリ内のチャット機能を使用することのユーザの履歴に基づいて、エンジンが、異なるソーシャルメディアプラットフォームにわたって複数のチャットストリームを推奨する)。
【0277】
図7Dは「並列検索レコメンダ」の実施形態を表し、この実施形態では、一つのアプリケーション内で、又は複数のアプリケーションにわたって、予測及び推奨が行われ得る。一部の実施形態では、予測及び推奨は、垂直検索エンジン機能に基づくことができる。ユーザ1が中央表示画像9を見ており、現在のアクションに基づいて、又はユーザの問い合わせに基づいて、複数の垂直検索エンジンが複数の表示画像内に生成される。例えば、ユーザは、問い合わせを垂直検索エンジン機能94に入力する。一部の実施形態では、表示画像が、多層表示11に配置されるか、又は垂直方向に拡張されたFoVに列として配置される。一つの列内で検索が進むにつれて、ユーザの現在のアクション又は問い合わせに基づいて、検索が動的に更新するが、役に立ち得る他の可能性のある検索にも注意を払い、それらの結果を表示画像の別のセットに提示する。次に、第1の検索において取り出されたデータが機能15に入力され、機能15は、例えば自己注意メカニズムを使用することによって、キーワードに注意を払い、その後、その情報を第2の検索への新しい問い合わせとして使用し、第2の検索が、第2の多層表示11に表示されてよい。一つの検索エンジンが別の検索エンジンを生成するために使用する機能的関係は、さまざまなセクション又は第1の検索における相関関係に注意を払うトランスフォーマであってよい。
【0278】
一部の実施形態では、ユーザが、研究テーマに関する文献検索を実行している。ユーザによって、キーワードA、B、及びCを使用して一次検索が開始される。垂直検索が、仮想表示画像の第1のセットに現れる。ソフトウェアメカニズムが、検索結果を能動的に精査して、新しいキーワードDを発見する。次に、仮想表示画像の第2のセットが、Dのみに関して、又はA~Dの組み合わせに関して、検索結果を報告する。一部の実施形態では、ユーザが、検索パラメータを科学的ソース及び雑誌に制限したが、ソフトウェアが、最初のキーワードの特許履歴を示す語句を検出し、従来技術を第2の検索に表示する。最初の二つの垂直検索の図の分析の後に、第3の検索が、望ましい研究テーマの数値シミュレーション又は定量分析に役立つことができる、さまざまなダウンロードできる実行ファイルを表示してよい。
【0279】
垂直検索エンジンは、標準的な垂直検索アルゴリズム(例えば、巡回、インデックス付け、及びランク付け)を使用してよく、キーワード又は語句を識別して次の検索を開始するために、オブジェクト識別アルゴリズムが使用されてよい。
【0280】
図7Eは、「アバター支援予測器」の実施形態を表しており、この実施形態では、仮想アシスタントアバター23が、中央表示画像9を見ているユーザ1と情報をやりとりするときにFoV 2D拡張25に表示されて、ユーザのコマンドに応答し、電子メールに回答すること、略図又は設計を描くこと、チャットすること、メモを取ることなどの、さまざまなタスク機能15を実現する。ユーザが使用できるさまざまなタスク、予測、及び推奨が、仮想アシスタントに発行されるコマンドとして表示される。一部の実施形態では、仮想アバターは、必ずしもユーザから常に直接見えるとは限らず、又は仮想アバターは、ユーザによって音声コマンドから呼び出される。
【0281】
実施形態では、仮想アバター23は、ユーザが一次目標を完了するのを支援するために、二次タスクを支援している。例えば、ユーザは、テキスト、図、及び参照を必要とする文書を生成している。ユーザ1は、主要なテキストコンテンツを生成しており、図の基本的なパラメータ(図のサイズ、解像度、形式)をアバターシステムに入力した。それに応じて、アバターが、画像ファイルのセットを編集し始め、その後、APIを使用してこれらのファイルを画像に組み込むための権限を持つ。アバターは、画像コンテンツ自体も分析し、トランスフォーマのメカニズムに基づいて、画像を説明する単語を抽出する。これらの単語は、最終生成物を改善するのを支援するための代替案又は改善された図としてユーザに提示されるウェブ検索におけるキーワードになる。
【0282】
一部の実施形態では、ユーザの権限が、表示コンテンツのアバターによって制御されるサブセクション23Aによって定義され、アバターが、表示の特定のウィンドウ内のコンテンツを自動的に監視し、ユーザが、要素をそれらのサブセクションにドラッグするか、又はそれらのサブセクションからドラッグすることによって、情報をやりとりするようにする。これは、リアルタイムにアバターに権限を与えるか、又はアバターの権限を取り消すのに役立ち、特定のコンテンツは、アバターがどの機能を優先するべきであるかを動的に主張する。実施形態では、ユーザは、画像をサブセクションにドラッグしてよく、これによって、アバターが画像処理技術に関与するべきであるということを示し、一方、テキスト文書のフォルダがサブセクションにドラッグされた場合、アバターはこれを、文献検索を実行して文献目録を構築することと解釈する。
【0283】
実施形態では、ユーザが、シミュレーションの結果を分析しており、アバター機能が、結果を既知の結果、動的な検索結果、又は最初の入力パラメータと比較することによって、分析を支援している。例えば、シミュレーションの結果は、入力データとの明白でない相関関係に関してアバター機能が処理するグラフ又は画像を含むことがあり、アバターは、結果が物理的に有効であること、又はシミュレーションに技術的エラーが発生したことを示唆してよい。
【0284】
一部の実施形態では、アバターアシスタントは、ユーザがテキスト又はグラフィックスを入力するための端末であってよく、アバターアシスタントは、入力に基づいて、その後の質問を継続的に引き起こしてよい。例えば、ユーザは、椅子の画像を入力してよく、アバターアシスタントは、「これは何ですか?」という質問を最初に生成し、表示してよい。次に、アバターアシスタントは、このコンテンツの下に、「これは一つの家具です」、「これは茶色です」、「これは木で作られている物体です」という一連の可能な回答を提供してよい。次に、この一連の回答の下に、最初の応答に依存する、さらなる質問の木がある。ユーザはいつでも、アバターによって生成された質問及び回答を中断するか、方向付けるか、又は誘導してよい。質問及び回答の進行は、ユーザの履歴又はユーザの設定に依存してよい。
【0285】
実施形態では、複数のアバターアシスタントが、派生コンテンツに同時に影響を与えていてよい。例えば、アバターアシスタントは、ヘルプセンターのチャットボットであってよく、ユーザは、アバターアシスタントのメッセージングを監視しており、結果にリアルタイムに影響を与えることができる。
【0286】
図7Fは「イベントトリガー予測器」の実施形態を表しており、この実施形態では、さまざまな予測及び可能性を動的に引き出す、マウスクリックのようなユーザ入力12による、ユーザのイベントのクリック又は操作中のクリックに基づいて、さまざまな予測及び推奨が、異なるイベント層E1、E2、E3に表示される。イベントは、ビデオ内又は別のソフトウェアアプリケーション内のトリガーによって自動的に生成されることが可能であり、又はイベントは、ソフトウェアアプリケーションの特定の組み合わせが特定の方法で使用されたときにトリガーされてよい。
【0287】
例えば、一部の実施形態では、ユーザ1は、中央表示画像9で絵画技術のビデオチュートリアルを見ていて、しばらくして、ビデオの画像処理の実行を開始する。チュートリアルの間に、ユーザがビデオのその部分を再生するときに、複数出力機能15によって特定のブラシストロークが検出され、ユーザのクリックがこの機能に入力され、そのブラシストロークに関する同様のチュートリアルが、別のチュートリアルE1において見つけられ、ユーザは、同様のグラフィックデザイン製品の広告がE2に表示されるように、ブラシの画像をクリックしてよく、ユーザがチュートリアルの最終結果を見るためにビデオを一時停止している間に、E3に、完成品を展示するための次回の会場が連絡先情報と共に表示されるか、又は指導者への補足質問のためのオンラインフォームが表示される。イベントが、FoV 2D拡張25に表示されてよい。又はイベントが、多層表示に表示されてよい。一部の実施形態では、機械学習アルゴリズムが、他の表示画像に、同様の効果を実現するためのさまざまな代替技術又は方法を表示してよい。
【0288】
別の実施形態では、ユーザがビデオゲームをプレイしている。ユーザは、ゲームをナビゲートし、特定のマイルストーンに達し、第1のイベントE1は、ゲームの次のステップでどのタスクを完了するべきかの選択であってよい。第2のイベントは、ユーザがビデオゲーム環境内の特定の領域上をスクロールすることであることができ、これによって、このゲームの隠された特徴である表示イベントE2をトリガーする。最後に、ユーザがゲームを一時停止するか、又はリンクをクリックするときに、第3のイベントがトリガーされることが可能であり、E3の表示コンテンツは、ボーナス機能、ゲームの続編、又は他の娯楽の選択肢のためのマーケティングの追加(marketing add)である。任意の実施形態では、イベントに基づく表示コンテンツは、ユーザ履歴による影響を受けることができる。
【0289】
さまざまな実施形態では、表示コンテンツは、任意の方法で配置され得る。実施形態では、表示コンテンツは、例えば視覚的スクロール又は視覚的ベルトを作成するために、横方向に配置され得る。ユーザは、視覚的スクロールが動的に回転され得るように、視線又はジェスチャーを介して入力を提供してよく、ユーザが対象の表示コンテンツに焦点を合わせると、その表示コンテンツが中央の表示位置に移動され、他の表示コンテンツが連続的にシフトされる。例えば、イベントに基づく予測的表示は、E1が左に位置し、E2が中央に位置し、E3が右に位置するように、イベントE1、E2、及びE3の三つの拡張表示を表示してよい。ユーザが視線の焦点をE1に合わせた場合、E1が中央に向かって右方向にシフトされ、E2が右側に向かって右方向にシフトされ、E3が左の位置に移動される。視覚的スクロールは、さまざまな過去又は未来の時刻での単一のイベント又はアクションを表示するように構成されてよい。これは、「時間的スクロール」である。例えば、視覚的スクロールは、一連の可能性のある時間依存性のアクションを含んでよい。視覚的スクロールは、特定のアプリケーションに関する一つのアクション又は複数の異なるアクションのさまざまな様相が別々に表示されるように、空間的に分離されてよい。可能性のあるコンテンツが、時間的にスクロールされたアクション又は空間的に分離されたコンテンツの組み合わせになるように、視覚的スクロールは時空間的に分離されてよい。
【0290】
図7Gは「パラメトリックビジュアライザ(Parametric visualizer)」の実施形態を表しており、この実施形態は、可能性の仮想的連続体が同時に、又は容易に見られ得るように、パラメトリックビジュアライザのメカニズムを考慮する。この実施形態の例は、次のとおりである。ユーザ1が、中央表示画像9で映画を見ている。映画のコンテンツがニューラルネットワーク77及び/又はAIモジュール18に供給され、ニューラルネットワーク77及び/又はAIモジュール18が、現在のシーンの注釈又は代替の結果を生成し、拡張表示システムの拡張部分に表示する。
【0291】
ユーザも、一般的入力デバイス12を使用して、情報をパラメトライザ機能15に入力し、パラメトライザ機能15は、ライブラリ45を入力として受け取ってもよい。このパラメトライザは、ユーザが選好、ユーザの履歴又はプロフィール、注釈の数及び範囲、或いは他の制約をAI機能及びML機能に入力することを可能にする。出力Pは、AI/ML機能を調整するためのパラメータのセットである。
【0292】
この実施形態では、例えば、パラメータ化のうちの一つがプロフィールAをもたらし、プロフィールAは、映画の多層表示コンテンツのセット11を生成し、多層表示コンテンツのセット11のうちの第1のセットは、詳細なより大きい注釈及び視覚的コンテンツと共に、視覚的コンテンツに関する注釈を表す。第2のセットは、音が弱められ、より小さく、関連するサウンドトラックに関する少ない情報のみを含む。第2の形式であるプロフィールBは、音との視覚的情報の相対的重要性が逆転されてよい。宙に浮いているグラフィックス24としての注釈と共に、サウンドトラック情報が目立つように表示され、視覚的コンテンツに関する一部の基本情報が、エッジ表示53として表示される。
【0293】
別の例では、第1のユーザが、映画の科学的詳細に興味があってよく、可能性のある注釈がすべて、映画内のオブジェクト又は動きのうちのいくつかの科学的詳細及び技術的詳細を表示するように、表示コンテンツの「軽い」設定パラメータを設定した。第2のユーザは、インテリアデザイナーであり、表示パラメータを「強い」に設定して、映画のシーンが屋内の部屋のシーンである場合に常に、シーン内の家具、家庭用品、及び他の商品のすべての注釈が、販売可能性、価格、入手可能性、又はベンダーの場所を含むようにする。これは、さまざまな設定に従って、出力される表示がバランス調整される、「表示イコライザー」機能として説明されてよい。
【0294】
図8A~8Dは、図7A図7Gで説明された実施形態の一部において未来のユーザのアクションを予測するための異なるプロセスを表している。
【0295】
図8Aは、図7Aの実施形態に関連するプロセスを表している。ユーザ入力95がユーザ履歴を含んでおり、ユーザの現在のアクション97が予測器機能96に入力され、予測器機能96が、予測されたアクション又は可能性のあるアクションの表示結果99を生成する。次に、ユーザは、どのアクションを実行するべきかに関する決定98を行い、この決定が、次のアクション100を引き起こす。その後、現在のアクション97が、次の予測のために、ユーザ履歴に組み込まれる。図8Bは、図7Bの実施形態に関連するプロセスを表している。ユーザ入力95、ユーザ履歴、及び現在のアクション97が、確率的相関関係予測器96に入力され、確率的相関関係予測器96が、可能性のあるアクション又は予測されたアクションの表示結果99を生成する。ユーザは、決定98を行い、次のアクション100を実行する。その後、現在のアクション97が、次の予測のために、ユーザ履歴に組み込まれる。
【0296】
図8Cは、図7Cの実施形態に関連するプロセスを表している。図8Cでは、ユーザ入力95がユーザ履歴であり、ユーザ履歴が優先度ランク付け機能101に供給され、その後、優先度相関器102に供給される。優先度に基づいて、可能性のあるアクションがランク付けされ、表示結果99が、優先されるアクションを表示する。ユーザは、どれが現在のアクションの次のアクション100であるべきかに関する決定98を行う。一部の実施形態では、優先度相関器は、フィードフォワードネットワーク、RNN、LSTM、注意に基づくトランスフォーマ、これらの組合せを含む、任意の種類のニューラルネットワークである。
【0297】
図8Dは、図7Dの実施形態に関連するプロセスを表している。ユーザ入力95は、第1の垂直検索エンジン103Aに供給される検索問い合わせである。結果が第1の表示99Aに表示される。第1の検索からのデータは、トランスフォーマ104にも入力され、トランスフォーマ104は、第2の垂直検索エンジン103Bに入力するためのキーワードに注意を払い、識別する。この第2の検索の出力が、第2の表示結果99Bとして表示される。一部の実施形態では、三つ以上の垂直検索エンジンが使用される。一部の実施形態では、後の検索の出力が、前の検索を変更するために使用されてよい。
【0298】
図8Eは、アバターアシスタントを含むように構成された、図7Eの実施形態のプロセスを表している。権限105Aを持つアバターが、可能性のあるアクション又は予測されたアクションに対応する表示結果106を生成的に表示する。与えられた権限は、ユーザが現在のアクション97から次のアクション100に移動するときに、アバターがアクションを実行することを可能にする。次のアクションは、アバターアシスタントの権限105Bを変更し、アバターアシスタントによって完了されるタスクの次の反復に影響を与えてよい。
【0299】
図8Fは、図7Fの実施形態のプロセスを表している。ユーザの現在のアクション97が、イベントに基づくトリガー107によって検出され、イベントに基づくトリガー107が、さまざまなアクション又は他のコンテンツに対応する表示結果99を生成する。ユーザは、次のアクション100が何であるべきかに関する決定98を行う。
【0300】
最後の図8Gは、図7Gの実施形態のプロセスを示している。ユーザ入力95(パラメータ設定)がパラメトライザ108に入力され、パラメトライザ108が、AIモジュール18又はニューラルネットワーク77の強度及びコンテンツを決定するパラメータPを生成する。生成的出力が、注釈層に対応する表示結果98をもたらす。
【0301】
図9A及び9Bは、本開示における予測的且つ生成的ソフトウェアを支援するさまざまな機械学習アルゴリズム及び方法を示している。
【0302】
図9Aは、一般的ニューラルネットワークのパイプラインを示しており、入力109はユーザ履歴及び入力であり、それに加えて、可能性のあるアクションのバッグが、ニューラルネットワークのような機械学習アーキテクチャへの入力として機能する。ニューラルネットワーク110は、可能性のあるアクションのセット111を出力する。ニューラルネットワークは、単一のユーザの長期の履歴、表示システム上の複数のユーザ、又はこれらの組合せから導出されたトレーニングデータを含むことができる。
【0303】
一部の実施形態では、ニューラルネットワークは、トレーニングデータに対して学習された辞書を使用する。トレーニングデータは、ローカルな表示システム及び作業環境並びにユーザの固有のセットから来てよい。一部の実施形態では、辞書及び学習は、分散されたユーザからのトレーニングデータに基づいて発生する。
【0304】
図9Bは、長短期記憶(LSTM)ニューラルネットワークとして構成された、回帰型ニューラルネットワークのさらに具体的な例を示している。この図では、ユーザ入力、履歴、及びアクションのバッグが、LSTMに入力される(109)。この入力は、活性化関数g1、g2、g3、g4、及びg5を含むLSTM110に供給される。この入力及び前のセルからの出力値が、活性化関数g1、g2、g3を含むニューラルネットワーク層を介して送信される。次に、これらの値が、乗算演算及び加算演算を介して、前のセルの状態と結合される。可能性のあるアクションが生成される(111A)。セルの状態が、活性化関数g4を含むニューラルネットワークの後に、ニューラルネットワーク及び活性化層g5による作用を受け、現在のアクション及びユーザ入力と結合される。活性化関数は、任意の活性化関数であることができる。一部の実施形態では、活性化関数は、シグモイド関数又は双曲正接関数である。結果が、隠れ層情報114Aと共に、LSTMの次のセルの反復113Aに供給され、これによって、シーケンス内の第2の可能性のあるアクション111Bの出力を生成し、この出力が、更新された隠れ層情報114Bと共に、次のセルの反復113Bに供給される。第3のアクション111Cが生成される、などとなる。一部の実施形態では、ユーザのアバターは、予測されたアクション又はそれらのサブセットの実行112A、112B、112Cのための権限を持つ。活性化関数は、標準的なシグモイド関数又は正接関数であることができる。一部の実施形態では、活性化関数はユーザ定義される。
【0305】
一部の実施形態では、特に、さまざまなアプリケーションにおいてユーザ入力も使用する画像/オブジェクト検出の推奨のために、従来のニューラルネットワーク、簡略化されたRNN、GRU、CNNを含む、さまざまなニューラルネットワークが実装される。一部の実施形態では、アーキテクチャは、1対1、1対多、(分類器におけるような)多対1、又は多対多である。
【0306】
図10A及び10Bは、他のアプリケーションのために構成された、予測されたアクションを導出するか、過去のアクション分類するか、又はアクションのセットをアクションの新しいセットに変換するための、トランスフォーマアーキテクチャにおける注意の使用を示している。図10Aでは、ユーザのアクション及び履歴が、パイプラインに入力され(115)、位置の(連続的な)埋め込み115Aによって変換され、エンコーダブロック116に入力される。問い合わせQ、鍵K、及び値Vを生成するために、入力データが線形層によって操作される。エンコーディングブロックは、Q、K、Vを結合し、例えばソフトマックスを介してこれらを正規化する。フィードフォワード層は、データに作用して注意行列Aを生成する。一部の実施形態では、残差データが、エンコーディングブロック内の要素を迂回する。一部の実施形態では、複数のエンコーディングブロックが並列に作動する。次に、データがデコーディングブロック117に送信され、デコーディングブロック117は、多重ヘッド注意ブロック(multi-head attention block)を含み、データ行列を結合して正規化し、フィードフォワード層を使用してデータに作用する。一部の実施形態では、残差要素又はマスキングブロックが存在する。出力118は、生成的アクション/アバターの反応/可能性のあるアクションの検索結果のセットである。一部の実施形態では、分類ブロック118Aが、現在使用されているアクションの種類を識別する。一部の実施形態では、アクションは、ユーザのアバターによって自動的に実行される。
【0307】
一部の実施形態では、複数のトランスフォーマのヘッド、又は注意の複数の段階、或いはデコーダ及びエンコーダの複数のスタックが存在する。任意の実施形態では、フィードバックメカニズム、マスク、及び位置エンコーダがすべて含まれ得る。
【0308】
注意行列119の例が、図10Bに示されている。各行は、入力(ユーザ履歴からのアクション)115に対応し、各列は、可能性のある出力アクション118に対応する。グレースケール値は、入力アクションと出力アクションの間の相関関係に対応する。例えば、入力アクション1は、出力アクション1と非常に強く相関関係があり(白色の陰影)、出力アクション2及び3と中程度の強度の相関関係があり(灰色の陰影)、出力アクションNと非常に弱く相関関係がある(黒色の陰影)。このようにして、入力アクションのセット、及びそれらのアクションが発生した順序の両方によって、出力アクションのセットが決定される。
【0309】
図11A~11Gは、新しい単一のユーザの使用事例の複数の実施形態を表している。
【0310】
図11Aは、例示的な表示システム「インテリジェントエキスパンダー」を示しており、インテリジェントエキスパンダーは、能動的コンテンツ生成において使用するために構成された、拡張FoV及び宙に浮いているグラフィックスを含む。この実施形態では、ユーザは、予測的特徴を使用して、テキストの動的参照を体験する。時間t1に、中央表示9Aがテキストを表示する。オブジェクト検出器機能81のアナライザが、テキスト内のキーワード及び語句を検出して、方程式及び図を識別し、2D拡張25A内の分離した表示画像に表示する。分離した表示画像は、多層表示の一部であってよく、又は分離した表示画像は、拡張視野画像であることができる。時間t2に、異なるコンテンツが一次表示画像9Bに表示されているときに、二次2D拡張25B内で異なる二次コンテンツが識別されるように、分離した表示コンテンツが自動的に更新される。どちらの場合も、宙に浮いているグラフィックス24が、前の時間からのコンテンツを表示する。例えば、一次表示は、「図1に示されているように」というテキストを含んでよく、宙に浮いているグラフィックスは、「図1」の画像を含む一次テキストの部分を自動的に表示してよい。分離した注釈機能17は、拡張ウィンドウに表示されているコンテンツに関するさらなる情報の注釈を付けるか、又はさらなる情報を追加してよい。例えば、分離した注釈機能17は、関連する図、又は表示された図及び方程式から行われた数学的推論を表示してよい。
【0311】
実施形態では、機能が、中央表示の一部を強調するか、又は拡張表示コンテンツに注釈を付けて、それらのさまざまなコンテンツ間の関係を強調してよい。
【0312】
図11Bは、図11Aの表示の変形「論理的推論エキスパンダー」を示している。一次表示層9が、テキストなどの一次コンテンツを表示する。テキスト内には、ソフトウェアによって論理ステートメントとして自動的に検出されたさまざまなステートメントがある。一部の実施形態では、FoV 2D拡張25又は多層表示である二次表示画像が、論理機能74によって生成されたとおりに、検出されたステートメントの論理的帰結を表示する。例えば、一次テキストが、「方程式1を方程式2に代入する」と述べている場合、方程式1及び2の両方が二次画像に表示され、方程式2への方程式1の代入の生成された結果も二次画像に表示される。二次表示パネルを制御する論理機能は、結果を計算するための事前にプログラムされた数学的論理構造を有する。
【0313】
一部の実施形態では、論理的帰結は、ユーザによって指示される。ユーザは、例えば、「方程式10を証明することができるか?」又は「方程式11及び12は同時に真である、すなわち、相互に一貫しているか?」又は「方程式9の左辺の式の微分可能特性は何か?」を含む、音声入力、さまざまなコマンド、又は質問を使用して、テキストについて問い合わせてよい。AIプログラムは、AIプログラムに格納されているさまざまな数学ライブラリに基づいて、質問に回答することができる。例えば、AIプログラムは、その後、方程式9を構文解析して、左辺の所望の式を識別し、その式の連結性、平滑性、微分可能性、又は他の幾何学的又はトポロジー的特徴を分析し、その結果を二次的な宙に浮いているグラフィックスに出力するか、又は注釈の重ね合わせとして出力してよい。
【0314】
図11Cに示された実施形態は、「スマートフォーマットインテグレータ」であり、コンテンツを編集又は作成するために構成されたアプリケーションマージャ(application merger)として機能する。一部の実施形態では、ユーザが、テキスト文書であるコンテンツを生成している。時間t1に、ユーザは、何らかのテキスト情報を一次表示9Aに生成しており、例えば参照に使用される何らかのソース情報が、FoV 2D拡張25Aとして第2の表示に表示される。一部の実施形態では、第2の表示は、宙に浮いているグラフィックス又は多層表示画像の一部である。時間t1で、ユーザが、マージ機能72を使用して、二つのウィンドウからのコンテンツをマージするためのアクションを実行する。二つのコンテンツの学習された理解に基づいて、ソフトウェアが、二次画像のソース情報を自動的にフォーマットし、フォーマットされた文献目録を一次表示画像に生成する。一部の実施形態では、ユーザのアクションは、マウスをクリックしてドラッグすること、キーストローク、音声コマンド、又はジェスチャーを含む。一部の実施形態では、予測モデルによってマージが提案され、ユーザが、この提案を確認するか、又は拒否する。一部の実施形態では、予測的アバターのユーザの権限に基づいて、マージが自動的に実行される。その結果、時間t2に、ソース情報が統合されて、主要表示画像9Bが変更される。FoV 2D拡張25Bは、時間t2に変更されなくてよい。
【0315】
一部の実施形態では、ライブラリに基づいて、及び何のテキストが書かれるかの分析に基づいて、ソース資料に関する他の提案が行われる。実施形態では、提案は、入力テキストに基づく論文、仮説、又は未解決の問題のセットであってよい。
【0316】
図11Dは、ユーザコンテキストに反応する「インテリジェントプログラミングレコメンダ」の実施形態を示している。一部の実施形態では、ユーザが、コンピュータプログラムであるコンテンツを生成している。一部の実施形態では、コンテンツは、マルチメディア製品或いは芸術的製品若しくは娯楽製品である。中央表示9は、ユーザの一次作業空間であり、表示システムは、二つの仮想側面画像をFoV 2D拡張54として生成する。一部の実施形態では、側面画像は、宙に浮いているグラフィックス又はエッジ表示画像である。左の表示画像が、ユーザのアクションを表示する。右の画像が、ユーザ履歴に基づいて提案された、AIモジュールによって実行されるアクションを表示する。カメラ14は、ジェスチャーセンサとして機能するために、任意選択的に使用可能である。一部の実施形態では、提案された表示コンテンツは、ユーザが生成しようとしている結果と同じ結果を生成する代替方法である。一部の実施形態では、提案されたコンテンツは、ユーザによって生成されたコンテンツの最適化されたバージョンである。ユーザは、カメラを介するジェスチャー認識によって、望ましい結果に関する情報を入力する。一部の実施形態では、ユーザは、キーボード又はマウス或いは音声コマンドを使用する。このソフトウェアアプリケーションは、プログラミング、芸術、或いはa/v又はマルチメディア生成、アーキテクチャ、3dデザイン及び設計、ゲームデザインを含むさまざまな方法で使用されてよい。
【0317】
AIソフトウェアのメカニズムは、他の代替案を表示してよい。例えば、ゲームデザインモジュールでは、ユーザは、話すこと、又はテキストをプロンプトに入力することによって生成されるゲームのキャラクターを作成する。AIソフトウェアは、そのキャラクターを生成し、そのキャラクターの物語、他の特徴、又はキャラクターが物語を実行するために必要とすることがある特性、及びそのキャラクターと対話することがある脇役を提案する。
【0318】
図11Eは「AIのフィードバックを使用する姿勢エンコーダ」の実施形態を示しており、この実施形態では、ユーザが、カメラと共に表示システムを使用する。一部の実施形態では、ソフトウェアアプリケーションは、生成的トレーニング済みトランスフォーマを使用する、チャットボット、自然言語処理、予測的テキスト、又はチャットプロンプトである。ユーザ1は、データをワークステーションに入力し、仮想システムは、時間t1に、結果として得られたコンテンツを中央表示画像9Aに表示する。カメラ9が、ユーザに関するジェスチャー、マイクロジェスチャー、顔の表情、及び姿勢を捕捉し、得られた表示9Aが、それらの物理的特徴を結果に組み込む。一部の実施形態では、結果が注釈情報として、宙に浮いているグラフィックス24Aに現れてよい。同じ要求された対話を使用しても、ソフトウェアは、姿勢又は顔の表情に関する学習されたデータを使用して、t1での結果と比較して異なる結果(宙に浮いているグラフィックス2B及び主要表示画像コンテンツ9B)を、t2に生成する。注釈は、人の物理的特徴がどのように使用されたかを説明し、代替の結果を予測することができる。テレビ会議ソフトウェアの文脈では、表示は、より肯定的な表示コンテンツのために、悪い姿勢、目をそらすことを自動的、計算的に再マッピングするか、又は他の悪い社会的手掛かりを強調するための他の機能を有してよい。
【0319】
図11Fは、宙に浮いているグラフィックス25の目的を有する多層表示11として構成された、表示システムの「グローバルグラフィックスインテリジェントプロファイラ(Global graphics intelligence profiler)」の実施形態を示している。一部の実施形態では、使用事例が医用画像を含む。ユーザは、多層表示11上で、異なる手法から導出されたオブジェクトの画像のセットを観察する。例えば、医用画像を含んでいる一部の実施形態では、異なる層は、CTスキャン、MRI、PETスキャン、X線、又は写真である。これらの画像は、最終層を生成するために、(すべての手法のための辞書データと共に)ニューラルネットワーク77に入力される。最終層は、目的の質問の関心又は確認の領域を示す注釈層である。二次的な宙に浮いている画像24の層は、注釈層を入力として受け取り、AIモジュール18を介して、注釈の説明、診断又は予後、或いは注釈層では詳細でない注釈の他の特徴を生成する。
【0320】
一部の実施形態では、ソースデータは、AI生成され、トレーニングモジュール用に構成される。一部の実施形態では、表示コンテンツが、神経放射輝度フィールドを使用して幾何学的に変換され、AIソフトウェアが、対話型のトレーニング及び提案された授業のための異なる表示を提案する。一部の実施形態では、AIのメカニズムが第2のユーザによって制御され、第2のユーザは、トレーナー又は教育者としての役割を果たし、プログラムの目標に基づいて、どの画像又は注釈が強調されるかを指示する。
【0321】
一部の実施形態では、図11G「多層幾何学的ワーパー」に示されているように、異なる層が、共通のアンカー点又はターゲット点を共有するビデオゲーム内のキャラクターの一連の姿勢資産(pose assets)に対応してよく、宙に浮いているグラフィックスが、共通のアンカーに基づく資産のゆがめられたバージョンである。この実施形態では、機能は、例えばキャラクターの姿勢又は歩幅をゆがませることができる、幾何学変換機能である。多層画像11の層のうちの一つ、例えば背面層は、対象のグラフィックスを含んでよく、この対象のグラフィックスに対して、キャラクターの外観がゆがめられなければならない。アンカー点に基づいてゆがみが動的に調整されるように、対象のグラフィックスは、特定のランドマーク又はアンカー点を含むシーン又は環境であってよい。一部の実施形態では、機能15は、シーンを分析し、キャラクターの姿勢資産のサブセットを表示する。次に、宙に浮いているグラフィックス24内にゆがめられた姿勢を生成するために、それらの姿勢資産が幾何学変換機能19に入力される。ゆがみの種類は任意である。ゆがみ及び幾何学変換は、敵対的生成ネットワーク(GAN:Generative-Adversarial-Networks)を使用して実装されることが可能であり、GANでは、アンカーがGANの「シード」の役割を果たすことができる。
【0322】
図12は、タンデムコンピューティングのソフトウェアメカニズムのフローチャートを示している。複数の入力ストリームは、インターネット6A、ローカルソース5、及び一般的リモートソース6を含む。例としては、クラウドサーバ、ローカルワークステーション、デイジーチェーン接続されたワークステーション、分散ネットワーク、及びエッジデバイスが挙げられる。データは、任意選択的に、さまざまな機能15によって操作され、その後、マージブロック120においてマージされる。結果として得られるマージされたデータは、別の機能15によって操作されてよく、コンテンツ分析ブロック121において、ニューラルネットワークを含むことができる表示システムによって分析される。第2のコンテンツ分析ブロック122は、ユーザのアクション又はタスク、或いは使用されているアプリケーションの現在のコンテキストに関して、コンテンツを理解する。組み立てブロック123において、コンテンツが組み立てられ、次にコンテンツが、表示システム124に表示される。一部の実施形態では、予測的アクション又は提案がコンテンツに含まれる。監視ブロック125で、ユーザの入力、アクション、及び履歴が監視され、分析ユニットにフィードバックされる。このフィードバックは、分析ブロックに向けられる前に、機械学習アルゴリズムのための更新された学習辞書126に存在してよい。
【0323】
一部の実施形態では、マージは、入力ストリームの非線形関数又は多次元関数である。
【0324】
ユーザのアクション及びフィードバックは、アクションの実行の時間遅延、意思決定の選択を含む。提案されたコンテンツは、ソフトウェアに与えられる権限に応じて、自動的であることができる。一部の実施形態では、提案は、サブアプリケーション又は自動補完の形態或いはオンラインのデータ入力要求を呼び出す。一部の実施形態では、提案は、例えば、ユーザの健康データに基づいて休憩、タスクの切り替え、又は焦点の維持を提案することによって、ユーザの健康に影響を与える。
【0325】
図13A~13Iは、エッジコンピューティングデバイス及び分散ネットワークを含む、タンデムコンピューティング方法を使用するさまざまな実施形態を示している。
【0326】
図13Aは、一般的なタンデムコンピューティング環境「タンデム拡大表示システム」を示している。この表示システムは、一般的中央表示9及びFoV 2D拡張25を含む、N個の表示画像を生成する。一部の実施形態では、四つ以上又は二つ以下のパネルが存在する。一部の実施形態では、構成は多層表示パネルである。図13Aでは、表示コンテンツの複数のソースが存在する。ソースのうちの一つは、表示システム7に接続されたローカルソース5であり、表示コンテンツを中央表示画像9全体に生成する。他のソースは、リモートソース6であり、コンテンツをサイドウィンドウに生成する。右側のウィンドウは、完全にリモートに供給され(10)、すなわち、その表示画像全体が、リモートソースに起因する。左側のウィンドウで、リモートソースによって部分10Aが生成され、元のローカルソースが残りの部分を生成する。任意の実施形態では、機能15、例えば、F1、F2、...、FNを使用して、表示コンテンツが操作され得る。すべてのソースが直接、又はさまざまなデイジーチェーン接続された構成を介して、互いに通信することができる。
【0327】
図13Bの実施形態は、遠隔操作、ロボット制御、又は品質管理において使用するために構成された、例示的なタンデムコンピュータ「AI感覚ネットワークインテグレータ」を示している。多層表示11の一つの表示領域が、例えば、リモートソース6からの、製造において使用されるビデオリモート制御ロボットを表示する。製造所、ベンダーのサイト、又は任意の他の場所での分散されたリモートセンサのアレイ13が、ロボットの環境を強調する前面層のコンテンツをリモートに生成する。一部の実施形態では、リモートセンサは、動作温度又は範囲制限のような、ロボットに関する情報を示す。一部の実施形態では、リモートセンサは、製品又はロボットの、品質管理の感知、ランダムな変化、応力、及びひずみ、或いは熱的又は機械的安定性などの、ロボットが操作する製品に関する情報を示す。二重の層の多層表示画像が、両方とも幾何学変換機能19に入力され、幾何学変換機能19は、感覚データをビデオに重ね合わせるために使用される。例えば、感覚データは、温度センサのセットであってよく、幾何学変換機能は、逆伝搬アルゴリズムを使用して、デバイスの温度プロフィールをマッピングする。第2の機能はAIモジュールであり、AIモジュールは、感覚データ及びビデオを入力として取り込み、注釈17を宙に浮いているグラフィックス24に出力する。この注釈は、ロボットに関する説明的コンテンツを提供するか、又は部品の故障を予測するか、又は動作に対する変更を提案するか、又はサポートに関してベンダーに連絡することを提案する。例えば、AIモジュールは、ビデオ上の層状の温度プロフィールに基づいて、ロボットの部品が過熱していること、又は介入が行われない限り、ロボットの部品が近いうちに過熱する可能性があることを示すコンテンツを、生成してよい。
【0328】
図13Cは、仮想現実環境内のテレビ会議のためのタンデムコンピューティング実施形態「多層スマートテレコンファレンサ(Multilayer smart teleconferencer)」を示している。多層表示11は、各層に、共有された仮想現実環境内の特定のユーザを表示する。層のうちの一つは、人のリモートに供給された画像10である。幾何学変換機能19は、シーン内のオブジェクト及び人に作用し、オブジェクト及び人が、ユーザのさまざまな奥行き及び位置に割り当てられる。例えば、オブジェクト検出サブルーチンが、カメラに対する人の位置に依存する、一つの層内の人のサイズを検出し、次に、第2の人の画像を拡大又は縮小して、二人が同様のサイズになるようにする。
【0329】
一部の実施形態では、二次的な宙に浮いているグラフィックス層55は、提案されたフィードバックに基づいてユーザが自分のアクションを変更できるように、各ユーザの顔の表情、視線、調子、又は頭部の位置に基づいて、注釈及びフィードバックを各ユーザに提供する。一部の実施形態では、AIモジュール19は、会話及び会話中の複数のユーザを評価して、会話に影響を与える。例えば、表情アナライザ機能(facial expression analyzer function)は、協力的ユーザの雰囲気を評価し、会話の調子が深刻、公式、非公式、又は気軽であるべきかどうかを示してよい。実施形態は、一緒に組み合わせられてよい。例えば、「多層スマートテレコンファレンサ」は、その動作の一部として、図11Eの「AIのフィードバックを使用する姿勢エンコーダ」を含んでよい。
【0330】
図13Dの実施形態は、フライトシミュレータ、ゲーム体験、トレーニング体験、又は天候/気候モニタとして使用するために構成された、多層タンデムコンピューティングを使用する仮想拡張FoV表示の使用事例を示している。この「多焦点インテリジェントシミュレータ」では、多層表示11の複数の層に、画像10がリモートに供給される。これらの画像は、フライトシミュレータの画像であってよい。入力ストリームが、多層オプティマイザを通って、奥行き知覚を最大化するように表示用のコンテンツを最適化する。AIモジュール18は、シミュレーション画像を取り込み、ユーザ(訓練生)が見るための前面層上の注釈17を提供する。注釈は、次のアクションのための提案、シミュレートされた環境内の危険性、警告、予測された代替案、予測された動き、又は環境の未来の動力学であってよい。注釈層は、計測クラスタ及び測定機器の画像を含んでもよい。一部の実施形態では、中央表示領域がシミュレーションを表示してよく、中央のコンテンツに基づいて、拡張表示が、ユーザが行うことができる選択のAI生成される予測された結果を表示してよい。
【0331】
一部の実施形態では、環境は、例えば、既存の航空機に位置するカメラによって生成されるようなリアルタイムの画像であり、次にこの画像が、フライトシミュレーション又は観察に使用される。又は環境は、遠隔操作環境内でユーザが制御する、リモートに制御される車両のリアルタイムの画像であってよい。一部の実施形態では、注釈層は、待ち時間を包含する遅延に基づいて、未来の時点での予測されたシーン又は予測された動きを表示する。
【0332】
一部の実施形態では、図13Dの拡張表示が、博物館などの環境の仮想旅行として使用するために構成され、注釈層が、環境内のアイテムの注釈を提供する。
【0333】
一部の実施形態では、視覚的環境の個別の部分に影響を与えるか、又は個別の部分を表示するために、表示システムと通信するセンサアレイが、ユーザに関するSLAM情報を収集する。例えば、遠隔操作センターでは、SLAM情報が、仮想コンテンツの透視図を幾何学的に変更して正確な角度の透視図を得るための機能に入力され、正確な角度の透視図は、センサ、カメラ、又は通信チャネルから発生する、変形のない真の透視図である。又は例えば、ユーザが見ている位置を検出するため、及び表示コンテンツのその部分を変更するか、又はその領域を拡大するために、頭部追跡及び視線が使用されてよい。一部の実施形態では、AIモジュールが、指示を注釈として提供することができるトレーナー又はインストラクターに置き換えられるか、或いはトレーナー又はインストラクターによる影響を受ける。視覚的環境が没入型になり、インストラクター及びユーザが同じ場所にいるという感覚を持つように、インストラクターは、ユーザの周辺において可視であってよい。この実施形態では、この没入は、ユーザが、より現実感のある視覚的環境を体験することを可能にする。一部の実施形態では、視点のシフトを模倣するために、頭部追跡又は視線が、シミュレーション環境を変更する幾何学変換機能に入力されてよい。
【0334】
図13Eは「タンデムインテリジェントコンテンツ生成器」の実施形態を示しており、この実施形態では、タンデム表示システムが構成される。多層表示11は、ローカルソースによって生成された主要表示画像9を含み、例えば、科学的データ又はグラフィックスを示す。表示システム6を含むローカルソースが低帯域幅のソースである場合、グラフィックス又はデータは、低解像度であるか、又はFoV、時間分解能、特徴の描写、若しくは空間分解能などの他の方法で制限される。ユーザは、表示画像上のカーソル位置127を移動するカーソル入力を含む、入力を提供する。カーソルの位置が検出され、表示コンテンツの近くの部分がリモートソース6に送信され、リモートソース6が、近くの環境に関するさらなる情報を中継する。リモートソースは、注釈機能17を使用して、望ましい注釈をリモートに供給される画像10内に生成してよい。一部の実施形態では、カーソルが使用されず、代わりに、視標追跡入力デバイスによって生成された視線位置によって、対象のコンテンツが決定される。その追加情報が、多層表示11内の二次表示画像に表示される。この表示は、FoV 2D拡張表示又は宙に浮いているグラフィックスであってよい。追加情報は、環境の高解像度又は他の方法で改善された画像であることができる。一部の実施形態では、追加情報は、説明テキスト、追加の図面又は概略図、(例えば、画像ウェブ検索において使用されるような)類似するオブジェクトの画像である。一部の実施形態では、追加情報は、エッジ表示画像に現れるグラフ又は単純なテキストである。
【0335】
一部の実施形態では、グラフィックス機能39が、高性能な計算ソースから描画された、動的な画像の改良又はアップスケーリングを生成する。一部の実施形態では、異なる機能ブロックが、ユーザが変更、注釈、説明、又は提案の異なるクラスを選択することを可能にする。注釈機能及びグラフィックス機能は、ユーザのプロフィール又は履歴によってパラメータ化されてよい。
【0336】
図13Fの実施形態は、タンデムコンピュータ「時間遅延AI予測器/ディファレンシエータ」の使用を示しており、この実施形態では、多層表示11が、ビデオの複数のフレーム又はオブジェクトの画像の低速度撮影シーケンスを生成する。この実施形態では、第1のリモートに供給される画像10A及び第2のモートに供給される画像10Bが生成され、第2の画像は、第1の画像の時間遅延されたバージョンである。時間遅延128は、ユーザ設定によって制御されるか、又はオブジェクトの動きのビデオの待ち時間を含んでよい。この遅延は、異なる時間尺度に従うように調整され得る。例えば、この遅延は、ユーザが非常に速い変化を考慮することができるように、できるだけ小さくなるように調整されてよく、又はこの遅延は、遅い変化を考慮するために、より大きくなるように調整されてよい。
【0337】
一部の実施形態では、このアプリケーションは天気予報に使用され、対象のオブジェクトは、嵐又は他の局所的な気象影響である。次に、両方の層がAIモジュール18に入力され、AIモジュール18が、オブジェクトの予測された発達を第3の層に出力する。時間遅延が含まれることが可能であり、予測された画像は、複数の可能性のある軌道、例えば、異なる確率が強調された135A及び135Bを表示することができ、又は予測された画像は、異なる時間尺度に基づくさまざまな結果、例えば、気候史における長期傾向のローカルな気象パターンを表示することができる。
【0338】
一部の実施形態では、二つの画像がほぼ同一であり、予測された画像が、二つの画像又はビデオの二つのフレーム間のエッジ又は差異に関する情報を提供する。このようにして、この実施形態は、時間において視覚的コンテンツを差分化する。一部の実施形態では、異なる画像が異なる入力ストリームに由来し、異なる時間尺度上のコンテンツを対比するために、時間差が調整可能である。AIモジュールは、研究中のオブジェクトの動きを表す任意の物理法則を組み込んでよい。
【0339】
図13Gでは、「リアルタイムプログラマブル更新予測器」で自動金融取引プログラムを構築することにおいて使用するために、タンデムコンピュータが構成される。ユーザは、高頻度の取引動作のためのコンピュータコードを表示する中央表示9を見る。複数の仮想エッジ53が中央の画像の周囲に表示され、それらがすべて、リモートソース6によって生成される。エッジ画像は、さまざまな時間での株式市場の値S1及び傾向を含み、ローカルワークステーションがコードをリアルタイムに、自動的にコンパイルする。エッジ表示S2上の真の値と共に、株価における予測された変化を生成して表示するために、コード及びリモートソースデータが機能15に入力される。一部の実施形態では、市況がどのように変化するか、及び将来の改訂においてどのアルゴリズムが有利であり得るかについて予測的提案を行うことにおいて機能を支援するために、待ち時間が時間遅延128に包含される。機能は、AIモジュールであってよく、又は機能は、従来の計量経済学における統計モデルであってよい。一部の実施形態では、証券取引所から物理的に遠くに位置する高頻度の取引の待ち時間を軽減するために、予測手段が使用されてよい。機能は、動的時間ゆがみアルゴリズムに依存して、時系列データを比較し、時系列データ間の一致を最適化する。
【0340】
図13H及び13Iは、ユーザが多層表示を見ている実施形態を示している。図13Hでは、多層表示11がユーザ1によって見られている。各層に、異なるコンテンツが表示される。各層は、異なる焦点奥行きに対応し、この焦点の奥行きに対して、ユーザの目が個別に遠近調節する。センサ13は、視線又は形状などの、ユーザに関する情報を検出してよい。センサは、視聴者によって行われた特定のジェスチャーを識別するジェスチャーカメラであってよい。センサは、環境に関する情報を検出してよい。センサからのデータ及び各層上のコンテンツが、AIモジュール18A及び18Bのセットに入力され、AIモジュール18A及び18Bは、例えば、異なる辞書、トレーニングメカニズム、又はアーキテクチャを使用して、異なって構成されてよい。AIモジュールの出力は、表示コンテンツに影響を与える。例えば、ユーザの視線は、表示の中心にあってよく、各層のコンテンツが内側又は外側へ径方向に移動して、コンテンツが表示される位置を変更する。このようにして、AIモジュールのセットが、視聴者とさまざまな焦点面の間に、フィードバック及び通信のネットワークを作成する。図13Iは、多層表示11内の四つの層、並びに異なるAIモジュール18A、18B、及び18Cを含む同様の設定を示している。ユーザ1は、背面層内の点130に焦点を合わせており、両方の眼球の水晶体がその奥行きに遠近調節するようにする。ユーザが異なる層上のコンテンツを見た場合、水晶体の遠近調節が変化する。どちらの場合も、これらの層にローカルに供給されるか、又はリモートに供給されてよい。
【0341】
図14A~14Eは、新しい複数ユーザ及び協力的使用事例のさまざまな実施形態を示している。協力的使用事例は、アプリケーションのコンテンツの編集/作成/注釈、コンテンツ/データの調査、制御室のアプリケーション、計算/シミュレーション、描画、マッピングなどのプロセスの実行、及び傾向/パターンの分析又は多次元データの視覚化を含むが、これらに限定されない。
【0342】
図14Aは、「コンテンツ認識コンテンツシェアラ(Content-aware content sharer)」の実施形態を示しており、この実施形態では、二人のユーザ2が、ビデオ会議に関与している。中央表示画像9に表示された一人が、情報を送信して説明しており、コンテンツを受信側の協力的ユーザ2に送っている。この実施形態では、送信側のユーザが、受信側のユーザの表示システムの様相の一部を制御する。例えば、送信側のユーザは、コンテンツの最適なプレゼンテーション、又はコンテンツとの情報のやりとりのための、視覚的テンプレートを選択してよい。送信側のユーザは、コンテンツを受信側のユーザの多層表示11に送ることを決定してよく、この多層表示は、ユーザによって作成された注釈を含む、特定のレッスンのための画像のセットである。送信側のユーザは、ジェスチャー、キーボード又はマウス入力、或いは音声駆動を含むさまざまな手段によって、コンテンツ及び表示システム構成を指示する。協力的ユーザ2は、カメラ14を含む一般的入力デバイス12を使用して、表示コンテンツと情報をやりとりすることができる。一部の実施形態では、ユーザから入力を受信するために、センサ又はセンサアレイが使用される。説明者及び受信者の役割は、誰がホストであり誰がゲストであるかを決定するソフトウェアの構成に基づいて、動的に切り替えられ得る。
【0343】
図14Bは、「協力的タスクマネージャ」の実施形態を示しており、この実施形態では、二人の協力的ユーザ2が、航空管制などの複雑なタスクを含むシナリオにおいて協力している。各ユーザは、シナリオ(例えば、航空管制)のさまざまな様相を表示する自分自身の表示システム及びコンテンツを持っている。この実施形態では、表示システムは、両方とも多層画像のセット11を表示する。各ユーザによって処理された情報が、ユーザ間で受け渡され、任意の入力デバイス又はセンサを使用している他のユーザの異なるストリームに送られ得る。例えば、航空管制では、一人のユーザが航空機131のルートを監視し、一方、他のユーザが、異なる最適化されたルートを計算するか、又は予想される軌道132と情報をやりとりする。高度、速度、及び方位などの、第1のユーザによって監視されている交通の情報が、第2のユーザに数値的に送られることが可能であり、第2のユーザは、コード機能76を使用して最適化され、グラフィカルなモードで代替のルートとして第1のユーザに渡されるルートを、生成することができる。ここでソフトウェアが使用する機能はマージ機能72でであり、マージ機能72は、一人のユーザの情報を、第2のユーザによって使用できる形態にマージする。交通を監視しているユーザのための情報表示は、本質的によりグラフィカルであってよく、一方、計算を実行しているユーザのための情報表示は、本質的により数値的な表形式であってよい。ユーザごとのストリームは、処理されている情報の性質に適応することができる。ソフトウェアは、送信されている情報に基づいて、仮想表示コンテンツ又はテンプレートを自動的に調整してよい。
【0344】
図14Cは、オンライン授業のシナリオを含む、「複数ユーザ動的コンテンツトランスレータ」の実施形態を表している。教師が、コンテンツを視聴者(例えば、協力的ユーザ2である学生)に送り、視聴者が、コンテンツのカスタマイズされたバージョンを受信する。この実施形態は、各学生が自分の学習の嗜好及び表示の設定に基づいてコンテンツを異なって受信してよいということを除いて、図14Aのアプリケーションに似ている。例えば、第一の学生は、その学生とのさまざまな較正、テスト、又は面接によって発見された、視覚的学習者であってよく、そのため各表示システムに生成されるコンテンツは、よりグラフィカルである。第2の学生は、各表示が、数学的方程式を含む、よりテキストに基づくものであるような、定量的推論が得意であってよい。次に、ソフトウェア機能が、例えば機械学習アルゴリズムによって、元のコンテンツを複数の表示コンテンツに変換する。例えば、インストラクターは、物理的原理に関する情報を列挙していてよい。音声テキスト変換プログラムがステートメントを転写し、AI生成器が、テキスト、及びテキストを入力として使用するウェブ検索に基づいて、視覚的コンテンツを生成する。この情報が、すべて学生のワークステーションに送信され、次にローカルアナライザが、学生の履歴及び入力に基づいて、どの手法(音声、テキスト、又は画像、或いは任意の組み合わせ)が最適かを決定する。ユーザの各々が、そのような変換機能を組み込む固有のホワイトボード機能70A、70B、70Cを介して、教師によって共有されているコンテンツを受信する。
【0345】
一部の実施形態では、動的変換がデータ又はメタデータを使用し、AIモジュールが、学生の質問を作成するのに役立つ注釈層を提供する。注釈層は、インストラクターのため、又は学生のために表示されてよい。
【0346】
図14Dは、異なる位置にいる二人のユーザ間で映画製作又は娯楽媒体を生成することなどの、協力的シナリオの実施形態を表している。この「生成的コンテンツ複数ユーザ混合器」の実施形態では、二人のユーザ2が多層表示11を共有し、多層表示11は、ユーザの各表示システムに表示される進行中の共通の作業を含む。各ユーザは、実行される作業のさまざまな側面について話し合いながら、他のユーザに送られ得る、FoV 2D拡張25又は多層表示11を持つ。例えば、第1のユーザは、フレーム及びサウンドトラック133の編集に取り組むことができ、一方、第2のユーザは、第1のユーザによって編集されているクリップ及びサウンドトラックに対する人工的影響134の改善及び追加に取り組むことができる。各ユーザは、最終生成物を編集して改善するために、周辺表示を使用して、他のユーザに異なる提案を表示することができる。一部の実施形態では、この構成は、ウェブ会議、マルチプレーヤーゲーム、又は協力的遠隔操作に使用される。
【0347】
一部の実施形態では、注釈層がAI生成されてよい。一人のユーザのための注釈層が、別のユーザの詳細を入力として受け取ってよく、協力的タスクを完了するのを支援するために、ハイパーリンク、広告、又はチャットインターフェイスなどの、さまざまなアプリの提案を出力してよい。
【0348】
図14Eは、協力的シナリオの「協力的コンテンツマージャ」の実施形態を表しており、この実施形態では、必ずしも同じ位置にいる必要がない二人のユーザ1が、例えば、テキスト及びグラフィックスを含む研究論文の作成において、多次元コンテンツを生成している。第1のユーザは、表示画像9内の医用画像の分析及び報告に集中していてよく、一方、第2のユーザは、第2の表示9で、ある薬剤の効果に関する分析及び報告に集中していてよい。両方の報告の結果が、リモートソース6に送信され、次にリモートソース6が、協力的結果をマージしてライブで更新し、その後、協力的結果が、表示システムによって、例えばリモートに供給される画像10内の層として、表示される。複数の画像が一緒に、さまざまな重ね合わせられた注釈17を含むことができる多層表示を形成してよい。作業が進行するにつれて、両方のユーザが同じ共同プロジェクトを見る。一部の実施形態では、二人のユーザが同じ物理的位置に存在し、両方のユーザが共通の表示で同時に見るために、最終結果が一度に表示される。一部の実施形態では、任意の層上で、どちらかのユーザによって、他のユーザが見るためのさまざまな注釈が行われ得る。この実施形態では、ユーザは、異なるソフトウェアアプリケーションを使用していてよい。例えば、両方のユーザがテキストに寄与している場合、一人のユーザが、見たとおりのものが結果に反映される(ウィジウィグ)ソフトウェアを使用しており、一方、別のユーザがプレーンテキストソフトウェアを使用している。個別のコンテンツが生成されるときに、そのコンテンツが共通の形式にローカルに変換される。情報の両方のセットが、リモートソース6にアップロードされ、リモートソース6が、これらの情報のセットを分析し、一緒に統合又はマージする。次に、リモートソースは、マージされた文書をユーザの表示システムに、表示するために返送することができる。
【0349】
図15A及び15Bは、タンデムでの異なるテキスト及びグラフィックの編集手法を表す異なるフローチャートを示している。
【0350】
図15Aは、二人のユーザが同じ文書に取り組んでいる、タンデムのテキスト編集のシナリオのフローチャートを示している。各ユーザは、異なるテキスト編集ツールを使用して作業している。例えば、一人のユーザは、TeXなどのプレーンテキストエディター135Aを使用して作業することができ、他のユーザは、マイクロソフトワードなどのウィジウィグエディター135Bを使用して作業することができる。ローカルプロセッシングユニット136は、入力データを一般的な形式に変換するための変換ブロック136A及び変換ブロック136Bを含む。一般的な形式は、ASCII型データであってよい。この情報がリモートソース6に送信され、分析ブロック137で、リモートソース6がデータを分析する。このブロックは、ニューラルネットワークで使用するために構成された辞書138も取り込む。次に、マージブロック139でデータがマージされ、コンパイルブロック140でコンパイルされる。その後、リモートソースが、結果を表示85のために表示システムに向ける。分析辞書を更新するために、コンパイルされたデータが、辞書データへの変換ブロック141に供給される。
【0351】
図15Bは、リモートソース6によって3D画像が生成されるフローチャートを示している。一部の実施形態では、元のデータは、2D画像142又は2D画像のセットである。リモートソフトウェアは、複数のカメラからのステレオ情報、飛行時間情報、陰影又は外形からの奥行き、射影幾何学、或いは単眼の奥行き推定などの、さまざまな手掛かりに基づいて、画像内の奥行きを推定し、それらの奥行きを3D画像144にマージするために、推定ブロック143を含む。次に、リモートソース6は、この情報をローカルソースに送信し、ローカルソースは、しきい値ブロック145を含み、奥行き情報を、多層表示85の層に対応する奥行き面の離散的なセットにしきい値化するか、又はビン化する。しきい値化の最適化は、人間の視覚系(HVS:human visual system)に関する情報を含むHVS辞書147に加えて、ユーザ又はSLAM情報からの入力146を含めるニューラルネットワークを使用してよい。HVS辞書は、視力又は奥行き知覚に関する情報を含んでよい。奥行き知覚情報は、人間のホロプター及びパーヌムの融合域に関するデータ、年齢によって変化する人間集団の両眼転導又は遠近調節の指標、或いは脳、目、及び接続神経系に関する情報を含んでよい。一部の実施形態では、奥行き知覚情報は、アルゴリズムが視聴者による画像コンテンツの奥行き知覚を最適化するように、他の情報に対して高く重み付けされる。例えば、画像の焦点面が、パーヌムの融合域に関連する外形にマッピングされてよい。
【0352】
図16A~16Cは、表示コンテンツを生成するためにリモートソース及びローカルソースが両方とも使用されるパイプラインのセットを示している。一部の実施形態では、パイプラインは、アプリケーションに依存せず、ローカルワークステーションによって設定される。
【0353】
図16Aでは、ローカルコンピュータ148が、ピクセルを二つのセットsj'及びsjに分割する。ピクセルsjは、何らかの動作Rijによって描画されるために、リモートソース6に送信される。ピクセルsj'は、動作Lijによって描画されるために、ローカルソース5に送信される。結果として得られたピクセルが、合計149として一緒に加算され、ピクセルpi=Lijsj+Rijsj'を生成する。次に、これらのピクセルが表示85として表示される。一部の実施形態では、現在の表示コンテンツに部分的に基づくユーザ入力95が、ローカルコンピュータにフィードバックされ、リモートに送信されたピクセル及びローカルに送信されたピクセルのセットを変更する。一部の実施形態では、セットsj及びsj'は互いに素である。一部の実施形態では、共通部分が、重み付けされた重ね合わせとしてリモートソース及びローカルソースの両方からの寄与を受け取るピクセルのセットを表すように、これらのセットが重複する。
【0354】
図16Bは、帯域幅によってコンテンツが分割される類似するパイプラインを示している。コンテンツコントローラユニット150が、望ましい表示コンテンツを分析する。この情報が基底オプティマイザユニット151に送信され、基底オプティマイザユニット151は、コンテンツを適切な基底に分解する。例えば、基底は、標準的なフーリエ基底であることができ、又は基底は、スパース基底、若しくはウェーブレット基底、又はコンテンツ適応型の基底であることができる。エネルギーの大部分が存在する基底モード(本明細書では、高帯域幅コンテンツと呼ばれる)がリモートソース6に送信され、次にリモートソース6が、そのコンテンツを取り込むか、又は描画する。次に、低帯域幅コンテンツが、ローカルソース5によって取り込まれるか、又は描画される。その後、コンテンツの二つのセットが、合計149として一緒に加算され、この合計が表示85として送信される。一部の実施形態では、ユーザ入力95がコンテンツの種類を調整することができる。例えば、ユーザは、画像を処理することを望むことがあり、又は特定の機能を使用することを望むことがある。ユーザは、手法を選択することができ、さらに、この手法が、特定の画像基底に対応する。基底は、標準的なフーリエ基底、点スパース基底(point-sparse basis)、エッジ基底、又は高レベルのオブジェクト検出のための、より高いレベルの基底であることができる。画像Iは、重みwmを伴う基底モードBmの重ね合わせとして、次のように表され得る。
I(rm)=Σm'wm'Bm'(rm)
次に、wm'をしきい値化し、wm'がしきい値を超えるm'の範囲を見つける。この範囲は、表示コンテンツの帯域幅部分に対応する。その範囲を高帯域幅プロセッサに送信し、ピクセル値を処理して生成する。低帯域幅プロセッサを使用して残りの部分を結合し、結果を加算して、表示システムに送信する。
【0355】
一部の実施形態では、特徴の種類に基づいて、コンテンツが分離される。例えば、リモートソースによって、鋭いエッジを含む表示コンテンツが生成され、ローカルソースによって、広い特徴を含む表示コンテンツが生成される。又は一部の実施形態では、リモートソースによって、被験者に関する情報が生成され、リモートソースによって、風景に関する情報が生成される。選択される基底は、特定のソフトウェアアプリケーションに依存してよく、又は選択される基底は、動的に作成され得る。このようにして、分離は、中心窩で捉えられた描画の形態になる。
【0356】
図16Cでは、多層グラフィック表示のコンテンツが、ローカルコンピュータ148によって分析される。層情報の一部が、表示生成のためにローカルソース5に送信される。結果がリモートソース6に送信される。ローカル及びリモートの表示コンテンツ生成の結果が、合計149として一緒に加算され、表示85として表示される。ユーザ入力95は、ローカルコンピュータの望ましいコンテンツの分析を変更することを可能にする。一部の実施形態では、リモートの表示コンテンツに影響を与えるために、リモートソースの待ち時間に関する情報が、予測モデル化能力を有する時間遅延ブロック152に統合される。
【0357】
図17A~17Dは、時間及び空間に広がるさまざまなイベントのインフォグラフィック表示を含む一部の補助的な実施形態を示している。
【0358】
図17Aは「時間に広がる」実施形態を示しており、この実施形態では、中央表示9が、現在の時間に関連する情報及びイベントを表示し、一方、中央表示の下のバーとしての表示、過去コンテンツグラフィックス155が、現在につながるシーケンス内の過去のイベントを表示する。一方、中央の画面の上の画面が未来コンテンツグラフィックス154を表示し、未来コンテンツグラフィックス154は、近い未来での可能性がより高いイベント/選択肢が、遠い未来のグラフィックス153と比較して、可能性のあるイベント/選択肢より強調されるような方法で、未来の可能性のある選択肢及びイベントのスタックを表示する。一部の実施形態では、バーの幅は、活動の可能性を示し、位置は、(生産性又は時刻のような)他の要因に基づく推奨を示す。泡は、遠い未来での最小の確実性を示す。
【0359】
図17Bは「空間に広がる」実施形態を示しており、この実施形態では、近い未来での可能性のあるイベントのサイズが、ユーザがそのようなイベントを作動させる可能性に関連するような方法で、過去における示されたイベント156A、156B、156C、及び156Dが表示される。一部の実施形態では、異なる要素の陰影又は色は、未来の推奨されるアクションを示す。
【0360】
図17Cは「木に広がる」実施形態を示しており、この実施形態では、対象のイベント157Aが、中央の画面の下の画面に表示されている先行するイベント157Cに接続され、対象のイベントから導出された可能性のあるイベント157Bが、中央の画面の上の画面に表示される。グラフ内のノードは、さまざまな過去、現在、又は未来のアクションに対応する。アクション間の相関関係によって、接続が決定される。一部の実施形態では、各構成要素がグラフであり、一つの構成要素のノードが、どの他の構成要素のノードにも接続されないような、複数の構成要素が存在する。
【0361】
図17Dは、インフォグラフィックの実施形態を示しており、この実施形態では、書き込み、例えば、電子メールにおいて提案された単語の調子が、ユーザの現在の入力に応じて動的に変化する。この調子は、肯定的調子、否定的調子、又は中立的調子の間で変化することができる。現在の表示9は、ユーザが電子メールを作成するための電子メール環境の画像を表示してよい。開始時に、ユーザは、調子に基づいて垂直方向に編成された、最初に提案された単語を提示される。第1の分布158Aは、中立的調子を中心としている。ユーザが単語の選択159を進めるにつれて、ユーザは、わずかに否定的な調子を選択し、そのため次の分布158Bは、選択された調子に基づいて、単語の異なるセットを表示する。第3の分布158Cは、ユーザが調子を否定的から肯定的に変えることに従う。
図1
図2
図3
図4A
図4B
図5-1】
図5-2】
図6-1】
図6-2】
図6-3】
図7-1】
図7-2】
図8-1】
図8-2】
図9
図10
図11-1】
図11-2】
図12
図13-1】
図13-2】
図13-3】
図14-1】
図14-2】
図15
図16-1】
図16-2】
図17