(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-10
(45)【発行日】2024-05-20
(54)【発明の名称】没入型メディアをストリーミングする方法、並びにそのコンピュータシステム、及びコンピュータプログラム
(51)【国際特許分類】
H04N 21/2343 20110101AFI20240513BHJP
H04N 21/854 20110101ALI20240513BHJP
G06V 10/82 20220101ALI20240513BHJP
【FI】
H04N21/2343
H04N21/854
G06V10/82
(21)【出願番号】P 2022559389
(86)(22)【出願日】2021-09-01
(86)【国際出願番号】 US2021048643
(87)【国際公開番号】W WO2022132248
(87)【国際公開日】2022-06-23
【審査請求日】2022-09-28
(32)【優先日】2020-12-17
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-08-20
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】アリアンヌ・ハインズ
(72)【発明者】
【氏名】ステファン・ヴェンガー
【審査官】川中 龍太
(56)【参考文献】
【文献】特表2013-501475(JP,A)
【文献】国際公開第2019/198784(WO,A1)
【文献】特表2014-529954(JP,A)
【文献】米国特許出願公開第2012/0113097(US,A1)
【文献】特表2013-509104(JP,A)
【文献】特表2013-513319(JP,A)
【文献】国際公開第2020/013454(WO,A1)
【文献】特表2018-526723(JP,A)
【文献】特表2017-524183(JP,A)
【文献】米国特許出願公開第2019/0026956(US,A1)
【文献】米国特許出願公開第2020/0380779(US,A1)
【文献】米国特許出願公開第2020/0134911(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
G06V 10/82
(57)【特許請求の範囲】
【請求項1】
プロセッサが実行することができる、没入型メディアをストリーミングする方法であって、
クライアントエンドポイントの特性を示す情報を取得するステップと、 第1の2次元フォーマット又は第1の3次元フォーマットでコンテンツを取り込むステップであって、
前記第1の2次元フォーマット又は前記
第1の3次元フォーマットがニューラルネットワークを参照するステップと、
参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを
前記クライアントエンドポイントの前記特性に適した第2の2次元フォーマット又は第2の3次元フォーマットに変換するステップと、
変換した前記コンテンツを
前記クライアントエンドポイントにストリーミングするステップと、を含
み、
前記ニューラルネットワークは、コード化ビデオストリームと共にストリーミングされる前記ニューラルネットワークのモデルの位置を識別するメタデータによって、またはコード化ビデオストリームと共にストリーミングされる前記コンテンツを説明するメタデータに対応するユニバーサルリソース識別子によって、前記クライアントエンドポイントに参照される、
方法。
【請求項2】
前記コンテンツから深度情報を推論することに基づいて、前記クライアントエンドポイントに関連付けられたシーン固有のボリュームフォーマットに前記コンテンツを適応させるステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークは、前記コンテンツ内のオブジェクトに対応する事前分布に基づいて、前記コンテンツを取り込む前に訓練される、請求項1に記載の方法。
【請求項4】
1つ以上の前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ及び高密度ライトフィールドディスプレイのうちの1つ以上を含む、請求項1に記載の方法。
【請求項5】
没入型メディアをストリーミングするコンピュータシステムであって、
コンピュータプログラムコードを記憶するように構成された1つ以上のコンピュータ可読非一時記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって指示されるように動作するように構成された1つ以上のコンピュータプロセッサと、を含み、前記コンピュータプログラムコードは、
前記1つ以上のコンピュータプロセッサに、クライアントエンドポイントの特性を示す情報を取得させるように構成された取得コードと、
前記1つ以上のコンピュータプロセッサに、第1の2次元フォーマット又は第1の3次元フォーマットでコンテンツを取り込ませるように構成された取り込みコードであって、
前記第1の2次元フォーマット又は前記
第1の3次元フォーマットがニューラルネットワークを参照する取り込みコードと、
前記1つ以上のコンピュータプロセッサに、参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを
前記クライアントエンドポイントの前記特性に適した第2の2次元フォーマット又は第2の3次元フォーマットに変換させるように構成された変換コードと、
前記1つ以上のコンピュータプロセッサに、変換した前記コンテンツを
前記クライアントエンドポイントにストリーミングさせるように構成されたストリーミングコードと、を含
み、
前記ニューラルネットワークは、コード化ビデオストリームと共にストリーミングされる前記ニューラルネットワークのモデルの位置を識別するメタデータによって、またはコード化ビデオストリームと共にストリーミングされる前記コンテンツを説明するメタデータに対応するユニバーサルリソース識別子によって、前記クライアントエンドポイントに参照される、
コンピュータシステム。
【請求項6】
前記コンテンツから深度情報を推論することに基づいて、前記クライアントエンドポイントに関連付けられたシーン固有のボリュームフォーマットに前記コンテンツを適応させることをさらに含む、請求項
5に記載のコンピュータシステム。
【請求項7】
前記ニューラルネットワークは、前記コンテンツ内のオブジェクトに対応する事前分布に基づいて、前記コンテンツを取り込む前に訓練される、請求項
5に記載のコンピュータシステム。
【請求項8】
1つ以上の前記クライアントエンドポイントは、テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ及び高密度ライトフィールドディスプレイのうちの1つ以上を含む、請求項
5に記載のコンピュータシステム。
【請求項9】
没入型メディアをストリーミングするコンピュータプログラムであって、前記コンピュータプログラムは、1つ以上のコンピュータプロセッサに、
クライアントエンドポイントの特性を示す情報を取得させるように構成され、
第1の2次元フォーマット又は第1の3次元フォーマットでコンテンツを取り込ませるステップであって、
前記第1の2次元フォーマットまたは前記
第1の3次元フォーマットがニューラルネットワークを参照するステップを実行するように構成され、
変換コードが、前記1つ以上のコンピュータプロセッサに、参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを
前記クライアントエンドポイントの前記特性に適した第2の2次元フォーマット又は第2の3次元フォーマットに変換させるように構成され、
ストリーミングコードが、前記1つ以上のコンピュータプロセッサに、変換した前記コンテンツを
前記クライアントエンドポイントにストリーミングさせるように構成さ
れ、
前記ニューラルネットワークは、コード化ビデオストリームと共にストリーミングされる前記ニューラルネットワークのモデルの位置を識別するメタデータによって、またはコード化ビデオストリームと共にストリーミングされる前記コンテンツを説明するメタデータに対応するユニバーサルリソース識別子によって、前記クライアントエンドポイントに参照される、
コンピュータプログラム。
【請求項10】
前記コンテンツから深度情報を推論することに基づいて、前記クライアントエンドポイントに関連付けられたシーン固有のボリュームフォーマットに前記コンテンツを適応させることをさらに含む、請求項
9に記載のコンピュータプログラム。
【請求項11】
前記ニューラルネットワークは、前記コンテンツ内のオブジェクトに対応する事前分布に基づいて、前記コンテンツを取り込む前に訓練される、請求項
9に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、米国特許商標庁に(2020年12月17日に)出願された米国仮特許出願第63/127036号と(2021年8月20日に)出願された米国特許出願第17/407816号の優先権を主張し、その全ての内容は、参照により本明細書に組み込まれるものとする。
[技術分野]
本開示は、一般的に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。
【背景技術】
【0002】
「没入型メディア」とは、一般的に、人間の感覚系(視覚、聴覚、体性感覚、嗅覚、場合によっては味覚)のいずれか又は全てを刺激して、メディアの体験に物理的に存在するユーザの認知を作成するか又は強化するメディア、つまり、「レガシーメディア」として知られる、時限2次元(2D)ビデオ及び対応する音声のために既存の商用ネットワーク上で配信されるもの以外のものを指す。没入型メディアとレガシーメディアはいずれも、時限又は非時限として特徴付けることができる。
【0003】
時限メディアとは、時間に従って構造化されて提示されるメディアを指す。例としては、映画特集、ニュースレポート、エピソードコンテンツが挙げられ、これらは全て、期間に従って編成されている。レガシービデオと音声は、一般的に時限メディアと見なされる。
【0004】
非時限メディアとは、時間ではなく、論理的、空間的及び/又は時間的な関係によって構造化されたメディアである。例としては、ユーザがゲームデバイスによって作成された体験を制御できるビデオゲームが挙げられる。非時限メディアのもう1つの例は、カメラによって撮影された静止画像写真である。非時限メディアは、例えば、ビデオゲームシーンの連続繰り返し音声又はビデオセグメントに時限メディアを組み込んでもない。逆に、時限メディアは、例えば、背景として固定された静止画像を有するビデオなどの非時限メディアを組み込んでもない。
【0005】
没入型メディア対応のデバイスとは、没入型メディアにアクセス、解釈及び提示する機能を備えたデバイスを指す。このようなメディアとデバイスは、メディアの量とフォーマット、及びこのようなメディアを大規模に配信するために必要なネットワークリソースの数と種類、つまり、ネットワーク上でレガシービデオ及び音声メディアの配信と同等の配信を実現するために必要なネットワークリソースの数と種類の点で異種である。これに対して、ラップトップディスプレイ、テレビ、モバイルハンドセットディスプレイなどのレガシーデバイスは、全て長方形のディスプレイ画面で構成されており、2D長方形のビデオ又は静止画像を主要なメディアフォーマットとして使用するため、能力の点で同種である。
【発明の概要】
【課題を解決するための手段】
【0006】
実施形態は、没入型メディアをストリーミングする方法、システム及びコンピュータ可読媒体に関する。一態様では、没入型メディアをストリーミングする方法が提供される。該方法は、第1の2次元フォーマット又は第1の3次元フォーマットでコンテンツを取り込むステップであって、前記フォーマットがニューラルネットワークを参照するステップを含んでもよい。参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを第2の2次元フォーマット又は第2の3次元フォーマットに変換する。テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ又は高密度ライトフィールドディスプレイなどのクライアントエンドポイントに変換したコンテンツをストリーミングする。
【0007】
別の態様では、没入型メディアをストリーミングするコンピュータシステムが提供される。コンピュータシステムは、1つ以上のプロセッサと、1つ以上のコンピュータ可読メモリと、1つ以上のコンピュータ可読有形記憶デバイスと、1つ以上のプロセッサのうちの少なくとも1つが1つ以上のメモリのうちの少なくとも1つを介して実行する、1つ以上の記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令と、を含んでもよいため、方法を実行することができる。該方法は、第1の2次元フォーマット又は第1の3次元フォーマットでコンテンツを取り込むステップであって、前記フォーマットがニューラルネットワークを参照するステップを含んでもよい。参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを第2の2次元フォーマット又は第2の3次元フォーマットに変換する。テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ又は高密度ライトフィールドディスプレイなどのクライアントエンドポイントに変換したコンテンツをストリーミングする。
【0008】
さらに別の態様では、没入型メディアをストリーミングするコンピュータ可読媒体が提供される。コンピュータ可読媒体は、1つ以上のコンピュータ可読記憶デバイスと、プロセッサが実行することができる、1つ以上の有形記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含んでもよい。プログラム命令は、プロセッサによって実行可能であり、該プロセッサは、第1の2次元フォーマット又は第1の3次元フォーマットでコンテンツを取り込むステップであって、前記フォーマットがニューラルネットワークを参照するステップをそれに応じて含んでもよい方法を実行する。参照した前記ニューラルネットワークに基づいて、取り込んだ前記コンテンツを第2の2次元フォーマット又は第2の3次元フォーマットに変換する。テレビ、コンピュータ、ヘッドマウントディスプレイ、レンチキュラーライトフィールドディスプレイ、ホログラフィックディスプレイ、拡張現実ディスプレイ又は高密度ライトフィールドディスプレイなどのクライアントエンドポイントに変換したコンテンツをストリーミングする。
【0009】
これら及び他の目的、特徴及び利点は、添付の図面に関連して読まれるべき、例示的な実施形態の以下の詳細な説明から明らかになるであろう。図は、当業者が詳細な説明と併せて本発明を理解することを容易にするためのものであるため、図面の様々な特徴は、縮尺どおりではない。
【図面の簡単な説明】
【0010】
【
図1】時限レガシーメディア配信のエンドツーエンドプロセスの概略図である。
【
図2】時限レガシーメディアのストリーミングに使用される標準メディアフォーマットの概略図である。
【
図3】時限没入型メディアの表現及びストリーミングのためのデータモデルの実施形態の概略図である。
【
図4】非時限没入型メディアの表現及びストリーミングのためのデータモデルの実施形態の概略図である。
【
図5】自然のシーンをキャプチャして、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる表現に変換するプロセスの概略図である。
【
図6】3Dモデリングツールとフォーマットを使用して、異種クライアントエンドポイントにサービスを提供するネットワークの取り込みフォーマットとして使用できる合成シーンの表現を作成するプロセスの概略図である。
【
図8】複数の異種クライアントエンドポイントにサービスを提供するネットワークの概略図である。
【
図9】例えば、特定の没入型メディアのクライアントエンドポイントによる消費のためにメディアを適応させるネットワークのプロセスの前に、メディア取り込みフォーマットで表される特定のメディアに関する適応情報を提供するネットワークの概略図である。
【
図10】ソースメディアを取り込みフォーマットから特定のクライアントエンドポイントに適した特定のフォーマットに変換するメディアレンダーコンバータからなるメディア適応プロセスの系統図である。
【
図11】適応したソースメディアを表現及びストリーミングに適したデータモデルにフォーマットするネットワークの概略図である。
【
図12】図
11のデータモデルをネットワークプロトコルパケットのペイロードにフラグメント化するメディアストリーミングプロセスの系統図である。
【
図13】取り込みフォーマットの特定の没入型メディアを、特定の没入型メディアクライアントエンドポイントのストリーミング可能で適切な配信フォーマットに適応させるネットワークのシーケンス図である。
【
図14】没入型及びレガシーコンテンツフォーマットの両方、すなわち、2Dビデオフォーマットのみ、又は没入型及び2Dビデオフォーマットの両方からなる、
図10の取り込みメディアフォーマット及び資産1002の概略図である。
【
図15】コード化ビデオストリームとともにニューラルネットワークモデル情報の伝送を示す。
【
図16】入力没入型メディア及び資産とともにニューラルネットワークモデル情報の伝送を示す。
【発明を実施するための形態】
【0011】
特許請求される構造及び方法の詳細な実施形態は、本明細書に開示されている。しかしながら、開示された実施形態は、様々な形態で具体化され得る特許請求される構造及び方法を例示するに過ぎないことが理解できる。しかしながら、それらの構造及び方法は、多くの異なる形態で具体化されてもよく、本明細書に記載の例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が徹底的かつ完全であり、当業者に本発明の範囲を完全に伝えるように提供される。説明では、周知の特徴及び技術の詳細は、提示された実施形態を不必要に曖昧にしないように省略されてもよい。
【0012】
実施形態は、一般的に、データ処理の分野に関し、より具体的には、ビデオコーディングに関する。本明細書で説明される技術は、ネットワークが1つ以上の(通常は少数の)ビューを含むメディアの2Dビデオソースを取り込み、2Dメディアのソースを1つ以上のストリーミング可能な「配信フォーマット」に適応させて、フォーマットされたメディアを様々なクライアントエンドポイントに実際に配信する前に、様々な異種クライアントエンドポイントデバイス、それらの様々な特徴及び能力、並びにクライアントエンドポイントに使用されるアプリケーションの要件に対応するために、2Dコード化ビデオストリームがシーン固有のニューラルネットワークモデルをシグナリングすることを可能にする。ネットワークモデルは、SEI構造化フィールドを使用して、コード化ビットストリームのシーン固有のコード化ビデオストリームに直接的に埋め込まれてもよく、或いは、SEIは、配信ネットワークの他の場所に記憶されているが、ニューラルネットワークプロセスがアクセスできる特定のモデルの使用をシグナリングしてもよい。2Dメディアソースを様々なストリーミング可能な配信フォーマットに再フォーマットする機能により、ネットワークが様々な能力と利用可能な計算リソースを備えた様々なクライアントエンドポイントにサービスを同時に提供でき、商用ネットワークでのホログラフィック及びライトフィールドディスプレイなどの新しい没入型クライアントエンドポイントのサポートが可能になる。さらに、シーン固有のニューラルネットワークモデルに基づいてシーン固有の2Dメディアソースを適応させる機能により、最終的な視覚品質を向上させる。2Dメディアソースを適応させるこのような機能は、利用可能な没入型メディアソースがない場合、及びクライアントが2Dメディアに基づく配信フォーマットをサポートできない場合に特に重要である。このシナリオでは、ニューラルネットワークベースのアプローチは、特定のシーン内のオブジェクト又は特定のシーンのコンテキストに一般的に類似している事前分布で訓練されたシーン固有のニューラルネットワークモデルを保持することにより、2Dメディア内に存在する特定のシーンでより最適に使用することができる。これにより、特定のシーンに関する深度ベースの情報を推論するネットワークの機能が向上し、2Dメディアをターゲットクライアントエンドポイントに適したシーン固有のボリュームフォーマットに適応させることができる。
【0013】
前述のように、「没入型メディア」とは、一般的に、人間の感覚系(視覚、聴覚、体性感覚、嗅覚、場合によっては味覚)のいずれか又は全てを刺激して、メディアの体験に物理的に存在するユーザの認知を作成するか又は強化するメディア、つまり、「レガシーメディア」として知られる、時限2次元(2D)ビデオ及び対応する音声のために既存の商用ネットワーク上で配信されるもの以外のものを指す。没入型メディアとレガシーメディアはいずれも、時限又は非時限として特徴付けることができる。
時限メディアとは、時間に従って構造化されて提示されるメディアを指す。例としては、映画特集、ニュースレポート、エピソードコンテンツが挙げられ、これらは全て、期間に従って編成されている。レガシービデオと音声は、一般的に時限メディアと見なされる。
非時限メディアとは、時間ではなく、論理的、空間的及び/又は時間的な関係によって構造化されたメディアである。例としては、ユーザがゲームデバイスによって作成された体験を制御できるビデオゲームが挙げられる。非時限メディアのもう1つの例は、カメラによって撮影された静止画像写真である。非時限メディアは、例えば、ビデオゲームシーンの連続繰り返し音声又はビデオセグメントに時限メディアを組み込んでもない。逆に、時限メディアは、例えば、背景として固定された静止画像を有するビデオなどの非時限メディアを組み込んでもない。
【0014】
没入型メディア対応のデバイスとは、没入型メディアにアクセス、解釈及び提示する機能を備えたデバイスを指す。このようなメディアとデバイスは、メディアの量とフォーマット、及びこのようなメディアを大規模に配信するために必要なネットワークリソースの数と種類、つまり、ネットワーク上でレガシービデオ及び音声メディアの配信と同等の配信を実現するために必要なネットワークリソースの数と種類の点で異種である。これに対して、ラップトップディスプレイ、テレビ、モバイルハンドセットディスプレイなどのレガシーデバイスは、全て長方形のディスプレイ画面で構成されており、2D長方形のビデオ又は静止画像を主要なメディアフォーマットとして使用するため、能力の点で同種である。
【0015】
ネットワーク上の任意のメディアの配信は、メディアを入力又はネットワーク「取り込み」フォーマットから最終的な配信フォーマットに再フォーマットするメディア配信システムとアーキテクチャを使用してもよく、該配信フォーマットは、ターゲットクライアントデバイス及びそのアプリケーションに適するだけでなく、ネットワークを介したストリーミングに役立つ。メディアの「ストリーミング」とは、広義には、メディアの時間的又は空間的構造のいずれか又は両方に従って論理的に編成及び順序付けされた、連続した小さなサイズの「チャンク」でネットワークを介して配信できるようにするための、ソースメディアのフラグメント化とパケット化を指す。このような配信アーキテクチャ及びシステムでは、メディアは、圧縮又は階層化プロセスを受けることにより、最も顕著なメディア情報のみが最初にクライアントに配信されてもよい。場合によっては、クライアントは、同じメディア部分のいずれかをエンドユーザに提示する前に、メディアの一部の重要なメディア情報を全て受信しなければならない。
【0016】
ターゲットクライアントエンドポイントの能力に一致するように入力メディアを再フォーマットするプロセスは、再フォーマットされている特定のメディアのいくつかの事前知識をカプセル化する可能性のあるネットワークモデルを使用するニューラルネットワークプロセスを使用してもよい。例えば、特定のモデルは、屋外の公園のシーン(木、植物、草、及び公園のシーンでよく見られるその他のオブジェクトを備える)を認識するように調整されてもよいのに対し、別の特定のモデルは、屋内の夕食のシーン(夕食のテーブル、調理器具、テーブルに座っている人などを備える)を認識するように調整されてもよい。当業者は、特定のコンテキストからのオブジェクト、例えば、公園のシーンのオブジェクトを認識するように調整されたネットワークモデルと、特定のシーンのコンテンツに一致するように調整されたネットワークモデルを備えたニューラルネットワークプロセスとが、それほど調整されていないネットワークモデルの場合よりも優れた視覚的結果を生み出すことを認識するであろう。したがって、ターゲットクライアントエンドポイントの能力に一致するように入力メディアを再フォーマットすることをタスクとするニューラルネットワークプロセスにシーン固有のネットワークモデルを提供するという利点がある。
【0017】
ニューラルネットワークモデルを2Dメディアの特定のシーンに関連付けるメカニズムは、ネットワークモデルを任意に圧縮し、H.264、H.265及びH.266ビデオ圧縮フォーマットのコード化ビデオストリームにメタデータを添付するために一般的に使用される補足強化情報(SEI)構造化フィールドを使用して、視覚的シーンの2Dコード化ビットストリームに直接挿入することにより実現することができる。コード化ビデオビットストリームの一部のコンテキスト内に特定のニューラルネットワークモデルを含むSEIメッセージの存在は、ネットワークモデルが、モデルが埋め込まれているビットストリームの一部内のビデオコンテンツを解釈し適応させるために使用されることを示すために使用されてもよい。或いは、SEIメッセージを使用して、ネットワークモデルの識別子により、実際のモデル自体がない場合にどのニューラルネットワークモデルを使用できるかをシグナリングすることができる。
【0018】
没入型メディアに適切なニューラルネットワークを関連付けるメカニズムは、使用する適切なニューラルネットワークモデルを参照する没入型メディア自体によって実現されてもよい。この参照は、ネットワークモデル及びそのパラメータをオブジェクトごとに、シーンごとに、又はそれらの組み合わせによって直接的に埋め込むことによって実現されてもよい。或いは、メディア内に1つ以上のニューラルネットワークモデルを埋め込むのではなく、メディアオブジェクト又はシーンが識別子によって特定のニューラルネットワークモデルを参照してもよい。
【0019】
クライアントエンドポイントへのストリーミング用のメディアの適応のために適切なニューラルネットワークを参照するためのさらに別の代替メカニズムは、特定のクライアントエンドポイント自体が、使用する適応プロセスに少なくとも1つのニューラルネットワークモデルと対応するパラメータを提供することである。そのようなメカニズムは、適応プロセスとの通信においてニューラルネットワークモデルを提供するクライアントによって、例えば、クライアントがそれ自体をネットワークに接続するときに実施されてもよい。
ビデオをターゲットクライアントエンドポイントに適応させた後、ネットワーク内の適応プロセスは、結果に圧縮アルゴリズムを適用することを選択してもよい。さらに、圧縮アルゴリズムは、任意に、適応されたビデオ信号を、視覚信号の最も顕著な部分から最も顕著でない部分に対応する層に分離してもよい。
【0020】
圧縮及び階層化プロセスの例は、最初に焦点を合っていない画像全体が基本的な形状と色のみで提示されるように、つまり、画像走査全体の低次DCT係数から、画像を層に分離した後に、画像に焦点を合わせるように、つまり画像走査の高次DCT係数から、詳細の追加層に分離するJPEG標準のプログレッシブフォーマット(ISO/IEC 10918パート1)である。
【0021】
メディアをより小さな部分に分割し、それらを連続するネットワークプロトコルパケットのペイロード部分に編成し、これらのプロトコルパケットを配信するプロセスは、メディアの「ストリーミング」と呼ばれるのに対し、様々な異種アプリケーションの1つを操作する様々な異種クライアントエンドポイントの1つでの提示に適したフォーマットにメディアを変換するプロセスは、メディアの「適応」として知られている。
【0022】
定義
シーングラフとは、グラフィカルシーンの論理的及び多くの場合(必ずしもそうではない)空間的な表現を配置する、ベクトルベースのグラフィック編集アプリケーションと最新のコンピュータゲームによって一般的に使用される一般的なデータ構造であり、グラフ構造内のノードと頂点の集合でもある。
【0023】
ノードとは、視覚、聴覚、触覚、嗅覚、味覚、又は関連する処理情報の論理的、空間的又は時間的表現に関連する情報で構成されるシーングラフの基本要素であり、各ノードには、最大で1つの出力エッジ、0個以上の入力エッジ、及び少なくとも1つのエッジ(入力又は出力のいずれか)が接続されている必要がある。
ベース層とは、通常、資産のレンダリングに必要な計算リソース若しくは時間、又はネットワークを介して資産を送信する時間を最小化するように作成される資産の名目上の表現である。
【0024】
強化層とは、資産のベース層表現に適用されると、ベース層を拡張して、ベース層でサポートされていない特徴又は能力を含むための一組の情報である。
属性とは、ノードの特定の特性又は特徴を標準的な形態又はより複雑な形態(例えば、別のノードに関して)で説明するために使用される、ノードに関連付けられたメタデータである。
【0025】
コンテナとは、シーングラフとシーンのレンダリングに必要な全てのメディアリソースとを含む、全ての自然のシーン、全ての合成のシーン、又は合成と自然のシーンの組み合わせを表す情報を記憶し交換するためのシリアル化されたフォーマットである。
【0026】
シリアル化とは、データ構造又はオブジェクトの状態を、(例えば、ファイル又はメモリバッファに)記憶するか又は(例えば、ネットワーク接続リンクを介して)送信した後に(例えば、別のコンピュータ環境で)再構築できるフォーマットに変換するプロセスである。得られた一連のビットがシリアル化フォーマットに従って再読み取りされると、元のオブジェクトの意味的に同一のクローンを作成するために使用することができる。
【0027】
レンダラーとは、音響物理学、光物理学、視覚認知、音声認知、数学、ソフトウェア開発に関連する分野の選択的な組み合わせに基づいて、入力シーングラフと資産コンテナが与えられると、ターゲットデバイスでの提示に適するか、又はシーングラフのレンダリングターゲットノードの属性で指定された所望の特性に準拠する、通常は視覚的及び/又は音声信号を送信する(通常はソフトウェアベースの)アプリケーション又はプロセスである。視覚ベースのメディア資産の場合、レンダラーは、ターゲットディスプレイに適するか、又は中間資産としての記憶(例えば、別のコンテナに再パッケージ化され、つまり、グラフィックスパイプラインの一連のレンダリングプロセスに使用される)に適する視覚信号を送信してもよく、音声ベースのメディア資産の場合、レンダラーは、マルチチャネルスピーカ及び/又はバイノーラルヘッドホンでの提示、又は別の(出力)コンテナへの再パッケージ化のために音声信号を送信してもよい。レンダラーの一般的な例としては、Unity、Unrealが挙げられる。
【0028】
評価とは、出力を抽象から具体的な結果に変更する結果(例えば、ウェブページのドキュメントオブジェクトモデルの評価と同様)を生成することである。
【0029】
スクリプト言語とは、実行時にレンダラーにより実行されて、空間的及び時間的なオブジェクトトポロジ(物理的な力、制約、IK、変形、衝突を含む)のレンダリング及び評価と、エネルギーの伝播及び転送(光、音)とに影響を与える、シーングラフノードに加えられた動的入力と可変状態の変更を処理できるインタプリタ型プログラミング言語である。
【0030】
シェーダーとは、元々シェーディング(画像内での適切なレベルの明、暗、色の生成)に使用されるが、現在はコンピュータグラフィックスの特殊効果の様々な分野に様々な特殊機能を実行したり、シェーディングとは関係のないビデオの後処理を行ったり、グラフィックスとはまったく関係のない機能を実行したりするコンピュータプログラムの一種である。
【0031】
パストレーシングとは、シーンの照明が現実に忠実になるように、3次元シーンをレンダリングするコンピュータグラフィックスの方法である。
時限メディアとは、例えば、特定の時計に応じた開始時間と終了時間などの時間で順序付けられたメディアである。
【0032】
非時限メディアとは、例えば、ユーザが実行したアクションに従って実現される双方向体験のように、空間的、論理的又は時間的な関係によって編成されたメディアである。
ニューラルネットワークモデルとは、元の信号によって明示的に提供されなかった視覚信号の新しいビューの補間を含む、改善された視覚出力に到達するために視覚信号に適用される明確に定義された数学操作で使用される重み(つまり、数値)を定義するパラメータとテンソル(例えば、行列)の集合である。
【0033】
没入型メディアは、没入型メディア対応デバイスによって人間に提示されると、より現実的で、自然界での体験に対する人間の理解と一致する方法で、つまり、レガシーデバイスによって提示されるレガシーメディアで達成されたであろう刺激以外の刺激で、視覚、音、味覚、触覚、聴覚の5つの感覚のいずれかを刺激する1つ以上のタイプのメディアと見なすことができる。このコンテキストでは、「レガシーメディア」という用語は、2次元(2D)視覚メディア、静止画フレーム又は動画フレーム、及び/又はユーザとの相互作用機能が一時停止、再生、早送り、又は巻き戻しに制限されている対応する音声を指し、「レガシーデバイス」とは、能力がレガシーメディアのみへの提示に制限されているテレビ、ラップトップ、ディスプレイ及びモバイルデバイスを指す。消費者向けのアプリケーションシナリオでは、没入型メディアの提示デバイス(つまり、没入型メディア対応デバイス)は、物理的な世界に対する人間の理解と相互作用をより密に近づける提示を作成できるために、没入型メディアによって具体化される特定の情報を活用する能力、つまり、レガシーデバイスがこれを行う能力以外の能力を特に備えた消費者向けのハードウェアデバイスである。レガシーデバイスは、レガシーメディアのみを提示する機能が制約されるのに対し、没入型メディアデバイスも同様に制約されない。
【0034】
過去10年間で、ヘッドマウントディスプレイ、拡張現実メガネ、ハンドヘルドコントローラ、触覚グローブ、及びゲーム機を含む多くの没入型メディア対応デバイスは、消費者市場に導入されている。同様に、ホログラフィックディスプレイとその他の形式のボリュームディスプレイは、今後10年以内に登場する準備ができている。これらのデバイスの即時又は差し迫った可用性にもかかわらず、商用ネットワークを介して没入型メディアを配信するコヒーレントエンドツーエンドのエコシステムは、いくつかの理由で実現しなかった。
【0035】
これらの理由の1つは、商用ネットワーク上での現在の大規模なメディアの配信に関連する1)~2)という2つの主要な使用ケースに対処できる没入型メディアの単一の標準表現がないことであり、1)実写イベントのリアルタイム配信、つまり、コンテンツが作成されてリアルタイム又はほぼリアルタイムにクライアントエンドポイントに配信されること、2)コンテンツをリアルタイムに配信する必要がない非リアルタイム配信、つまり、コンテンツが物理的にキャプチャされるか又は作成されること。それぞれ、これらの2つの使用ケースを、現在存在する「放送」及び「オンデマンド」の配信フォーマットと同等に比較してもよい。
【0036】
リアルタイム配信の場合、コンテンツは、1つ以上のカメラによってキャプチャされるか、コンピュータ生成技術を使用して作成することができる。カメラによってキャプチャされたコンテンツは、本明細書では「自然」コンテンツと呼ばれ、コンピュータ生成技術を使用して作成されたコンテンツは、本明細書では「合成」コンテンツと呼ばれる。合成コンテンツを表すメディアフォーマットは、3Dモデリング、視覚効果、CAD/CAM業界で使用されるフォーマットであり得、メッシュ、テクスチャ、ポイントクラウド、構造化ボリューム、アモルファスボリューム(例えば、火、煙、霧用)、シェーダー、手続き的に生成された形状、材料、照明、仮想カメラ定義、アニメーションなどのオブジェクトフォーマットとツールを含むことができる。合成コンテンツがコンピュータによって生成されるが、合成メディアフォーマットは、自然コンテンツと合成コンテンツの両方に使用できる。しかしながら、自然コンテンツを合成メディアフォーマット(例えば、合成表現)に変換するプロセスは、時間と計算集約的プロセスであり得るため、リアルタイムのアプリケーションと使用ケースに対して非現実的である場合がある。
【0037】
自然コンテンツをリアルタイムに配信する場合、カメラによってキャプチャされたコンテンツをラスターフォーマットで配信でき、これは、多くのレガシーディスプレイデバイスが同様にラスターフォーマットを表示するように設計されるため、レガシーディスプレイデバイスに適する。つまり、レガシーディスプレイがラスターフォーマットを均一に表示するように設計されるため、ラスターフォーマットの配信は、ラスターフォーマットのみを表示できるディスプレイに最適である。
【0038】
しかしながら、没入型メディア対応ディスプレイは、必ずしもラスターベースのフォーマットの表示に制限されるわけではない。さらに、いくつかの没入型メディア対応ディスプレイは、ラスターベースのフォーマットのみで使用可能なメディアを提示することができない。ラスターベースのフォーマット以外のフォーマットに基づいて没入型体験を作成するように最適化されたディスプレイの可用性は、没入型メディアの配信のためのコヒーレントエンドツーエンドのエコシステムがまだないもう1つの重要な理由である。
複数の異なる没入型メディアデバイスにコヒーレント配信システムを作成する際のさらに別の問題は、現在及び新しい没入型メディア対応デバイス自体が大幅に異なる可能性があることである。例えば、いくつかの没入型メディアデバイス、例えばヘッドマウントディスプレイは、一度に1人のユーザのみが使用するように明示的に設計される。他の没入型メディアデバイスは、複数のユーザが同時に使用できるように設計され、例えば、「Looking Glass Factory 8K ディスプレイ」(以下、「レンチキュラーライトフィールドディスプレイ」と呼ばれる)は、最大12人のユーザが同時に見ることができるコンテンツを表示でき、ここで、各ユーザは、表示されているコンテンツの独自の視点(つまり、ビュー)を体験している。
【0039】
コヒーレント配信システムの開発をさらに複雑にしているのは、各ディスプレイが生成できる独自のビューの数が大幅に異なる可能性があることである。多くの場合、レガシーディスプレイは、コンテンツの単一のビューのみを作成することができる。一方、レンチキュラーライトフィールドディスプレイは、複数のユーザをサポートでき、各ユーザが同じ視覚的シーンの独自のビューを体験できる同じシーンの複数のビューの作成を実現するために、レンチキュラーライトフィールドディスプレイは、ディスプレイへの入力として同じシーンの45個の独自のビューが必要な特定のボリューム視錐台を作成する。これは、同じシーンの45個のわずかに異なる独自のラスター表現をキャプチャして、1つの特定のディスプレイ、つまりその視錐台に固有のフォーマットでディスプレイに配信する必要があることを意味する。これに対して、レガシーディスプレイの視錐台は単一の2次元平面に制限されているため、ディスプレイを同時に体験する視聴者の数に関係なく、ディスプレイの視錐台を介してコンテンツの複数の視聴視点を提示することができない。
【0040】
一般的に、没入型メディアディスプレイは、視錐台の寸法及び体積と、同時にサポートされる視聴者の数と、点ベース、光線ベース、又は波ベースの技術であり得る視錐台を埋めるために使用される光学技術と、視錐台を占める光の単位(点、光線、又は波のいずれか)の密度と、計算能力の可用性と、計算のタイプ(CPU又はGPU)と、電源(電池又はワイヤー)のソース及び可用性と、ローカル記憶又はキャッシュの量と、クラウドベースの計算及び記憶などの補助リソースへのアクセスとの全てのディスプレイの特性に応じて大幅に異なる場合がある。これらの特性は、没入型メディアディスプレイの異種性に寄与し、該没入型メディアディスプレイの不均一性は、レガシーディスプレイの同種性とは対照的に、レガシータイプとイマーシブタイプの両方のディスプレイを含む全てのディスプレイをサポートできる単一の配信システムの開発を複雑にする。
【0041】
開示された主題は、単一のネットワークのコンテキスト内でクライアントエンドポイントとしてレガシーメディアディスプレイと没入型メディアディスプレイの両方をサポートできるネットワークベースのメディア配信システムの開発に対処する。具体的には、入力没入型メディアソースを、クライアントエンドポイントデバイスで現在実行されているアプリケーションを含むクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるメカニズムをここに示す。入力没入型メディアソースを適応させるこのようなメカニズムは、入力没入型メディアの特性を、クライアントデバイスで実行されているアプリケーションを含むターゲットエンドポイントクライアントデバイスの特性と調和することと、入力没入型メディアをターゲットエンドポイントとそのアプリケーションに適したフォーマットに適応させることと、を含む。さらに、適応プロセスは、新規のビューなどの入力メディアからの追加のビューを補間してクライアントエンドポイントによって必要とされる追加のビューを作成することを含んでもよい。このような補間は、ニューラルネットワークプロセスを利用して実行されてもよい。
【0042】
なお、開示された主題の残りの部分は、一般性を失うことなく、入力没入型メディアソースを特定のエンドポイントクライアントデバイスに適応させるプロセスが、特定のクライアントエンドポイントデバイスで実行されている特定のアプリケーションと同じ入力没入型メディアソースを適応させるプロセスと同じであるか又は類似することを前提とする。つまり、入力メディアソースをエンドポイントデバイスの特性に適応させる問題は、特定の入力メディアソースを特定のアプリケーションの特性に適応させる問題と同じ複雑さを有する。
【0043】
レガシーメディアによってサポートされるレガシーデバイスは、レガシーメディアの標準ベースの表現を生成するレガシーメディアコンテンツプロバイダーのエコシステム、及びレガシーデバイスを標準のレガシーコンテンツのソースに接続するためのネットワークインフラストラクチャを提供する商用ネットワークサービスプロバイダーによって同様にサポートされるため、消費者による幅広い採用を達成する。ネットワークを介してレガシーメディアを配信する役割に加えて、商用ネットワークサービスプロバイダーは、コンテンツ配信ネットワーク(CDN)上のレガシーコンテンツへのアクセスとレガシークライアントデバイスとのペアリングを容易にする場合もある。適切な形態のコンテンツへのアクセスとペアリングすると、レガシークライアントデバイスは、エンドユーザに提示するためにコンテンツサーバからデバイスにレガシーコンテンツを要求するか又は「プル」することができる。それにもかかわらず、ネットワークサーバが適切なメディアを適切なクライアントに「プッシュ」するアーキテクチャは、アーキテクチャ全体と解決法の設計に追加の複雑さをもたらすことなく、同様に関連性がある。
【0044】
様々な実施形態に係る方法、装置(システム)、及びコンピュータ可読媒体のフローチャート図及び/又はブロック図を参照して、態様を本明細書で説明する。フローチャート図及び/又はブロック図の各ブロック、及びフローチャート図及び/又はブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施できることが理解されるであろう。
【0045】
以下に説明する例示的な実施形態は、ビデオ、音声、幾何学的(3D)オブジェクト、触覚、関連するメタデータ、又はクライアントデバイスの他のコンテンツを含むメディアを配信するシステム及びネットワークのアーキテクチャ、構造及び構成要素に関する。特定の実施形態は、メディアコンテンツを異種の没入型及びインタラクティブ型クライアントデバイスに配信する指向システム、構造、及びアーキテクチャである。
【0046】
図1は、時限レガシーメディア配信のエンドツーエンドプロセスの例である。
図1では、時限視聴覚コンテンツは、101Aでカメラ又はマイクロフォンによってキャプチャされるか、又は101Bでコンピュータによって生成され、準備モジュール103に入力される2D画像及び関連する音声のシーケンス102を作成している。103の出力は、編集されたコンテンツ(例えば、言語翻訳、字幕、その他の編集機能を含むポストプロダクション用)であり、コンバータモジュール104によって、例えば、オンデマンドメディアの場合、標準メザニンフォーマットに変換する準備ができているマスターフォーマットと呼ばれるか、又は、例えば、ライブイベントの場合、標準貢献フォーマットと呼ばれる。メディアは、商用ネットワークサービスプロバイダーによって「取り込まれ」、適応モジュール105は、メディアを、標準配信フォーマットにパッケージ化された様々なビットレート、時間分解能(フレームレート)、又は空間分解能(フレームサイズ)にパッケージ化する。得られた適応は、コンテンツ配信ネットワーク106に記憶され、様々なクライアント108がコンテンツ配信ネットワーク106からプル要求107を行い、メディアをフェッチしてエンドユーザに提示する。マスターフォーマットは、101A又は101Bの両方からのメディアのハイブリッドで構成されてもよく、フォーマット101Aは、例えば、ライブスポーツイベントから取得されるメディアからリアルタイムに取得されてもよいことに注意することが重要である。さらに、クライアント108は、クライアントの構成及び/又は現在のネットワーク状態に最も適した特定の適応107を選択する責任があるが、ネットワークサーバ(
図1には示されていない)が適切なコンテンツを決定した後にクライアント108に「プッシュ」することも同様に可能である。
【0047】
図2は、ビデオ、音声、サポートメタデータ(字幕に使用されるような時限テキストを含む)などの、レガシー時限メディアの配信に使用される標準メディアフォーマットの例である。
図1の項目106に記載されるように、メディアは、標準ベースの配信フォーマットでCDN201に記憶される。標準ベースのフォーマットは、クロックに対応する開始時間と終了時間を持つ時限期間203を含む複数の部分で構成されたMPD202として示される。各期間203は、1つ以上の適応セット204を指す。各適応セット204は、一般的に、ビデオ、音声又は時限テキストなどの単一のタイプのメディアに使用される。任意の所与の期間203について、複数の適応セット204が提供されてもよく、例えば、ビデオ用の1つの適応セットと、様々な言語への翻訳に使用されるような音声用の複数の適応セットとが提供されてもよい。各適応セット204は、メディアのフレーム解像度(ビデオの場合)、フレームレート、及びビットレートに関する情報を提供する1つ以上の表現205を指す。複数の表現205を使用して、例えば、超高解像度、高解像度、又は標準解像度のビデオのそれぞれに対する表現205へのアクセスを提供してもよい。各表現205は、1つ以上のセグメントファイル206を指し、ここで、メディアは、実際には、クライアントによるフェッチ(
図1の108として示されている)又はネットワークメディアサーバ(
図1には示されていない)による(「プッシュベースの」アーキテクチャにおける)配信のために記憶される。
【0048】
図3は、時限異種没入型メディアのストリーミング可能なフォーマットの表現例である。
図4は、非時限異種没入型メディアのストリーミング可能なフォーマットの表現例である。両方の図は、いずれもシーンを指し、
図3は、時限メディアのシーン301を指し、
図4は、非時限メディアのシーン401を指す。両方の場合について、シーンは、様々なシーン表現又はシーン説明によって具体化することができる。
【0049】
例えば、いくつかの没入型メディア設計では、シーンは、シーングラフによって、多平面画像(MPI)として、又は多球面画像(MSI)として具体化されてもよい。MPIとMSIの両方の技術は、自然コンテンツ、つまり1台以上のカメラで同時にキャプチャされた現実世界の画像に表示にとらわれないシーン表現を作成することを支援する技術の例である。一方、シーングラフ技術は、自然画像とコンピュータ生成画像の両方を合成表現の形態で表現するために使用されてもよいが、このような表現は、コンテンツが1つ以上のカメラによって自然のシーンとしてキャプチャされる場合に、作成するために特に計算集約的である。つまり、十分かつ適切な数のビューを補間するために後で使用できる合成表現を作成してターゲット没入型クライアントディスプレイの視錐台を埋めるために、自然にキャプチャされたコンテンツのシーングラフ表現は、作成に時間及び計算集約的であり、写真測量、深層学習、又はその両方の技術による自然画像の複雑な分析が要求される。結果として、そのような合成表現は、リアルタイム配信を必要とする使用ケースを検討するために実際にリアルタイムに作成することができないため、現在、自然コンテンツを表現する候補として検討されることは非現実的である。それにもかかわらず、現在、コンピュータ生成画像の最良の候補表現は、コンピュータ生成画像が3Dモデリングプロセスとツールを使用して作成されるため、合成モデルでシーングラフを使用することである。
【0050】
自然コンテンツとコンピュータ生成コンテンツの両方の最適な表現におけるこのような二分法は、自然にキャプチャされたコンテンツの最適な取り込みフォーマットが、コンピュータ生成コンテンツ又はリアルタイム配信アプリケーションに不可欠ではない自然コンテンツの最適な取り込みフォーマットとは異なることを示唆する。したがって、開示された主題は、コンテンツが自然に作成されたかコンピュータによって作成されたかにかかわらず、視覚的没入型メディアの複数の取り込みフォーマットをサポートするのに十分に堅固であることを目標とする。
【0051】
以下は、コンピュータ生成技術を使用して作成された視覚的没入型メディア、又は深層学習若しくは写真測量技術を使用して自然シーンの対応する合成表現を作成する、つまりリアルタイム配信アプリケーションに不可欠ではない、自然にキャプチャされたコンテンツを表すのに適したフォーマットとしてシーングラフを具体化する技術の例である。
1.OTOYによるORBX(登録商標)
OTOYによるORBXは、光線追跡可能、レガシー(フレームベース)、ボリューム及びその他のタイプの合成又はベクトルベースの視覚フォーマットを含む、時限又は非時限の任意のタイプの視覚メディアをサポートできるいくつかのシーングラフ技術の1つである。ORBXは、メッシュ、ポイントクラウド及びテクスチャの自由に利用可能な及び/又はオープンソースフォーマットのネイティブサポートを提供するため、他のシーングラフとは異なる。ORBXは、シーングラフで動作する複数のベンダー技術間の交換を容易にすることを目的として意図的に設計されたシーングラフである。さらに、ORBXは、豊富な材料システム、オープンシェーディング言語のサポート、堅固なカメラシステム及びLuaスクリプトのサポートを提供する。ORBXも、没入型デジタル体験連盟(IDEA)によってロイヤリティフリー条項でライセンスのために公開された没入型技術メディアフォーマットの基礎である。メディアのリアルタイム配信のコンテキストでは、自然のシーンのORBX表現を作成し配信する機能は、カメラでキャプチャされたデータの複雑な分析と同じデータの合成表現への合成を実行するための計算リソースの可用性の関数である。今日まで、リアルタイム配信のための十分な計算の可用性は、現実的ではないが、それでも不可能ではない。
【0052】
2.ピクサーによる万能シーン記述
ピクサーによる万能シーン記述(USD)は、VFX及び専門コンテンツ制作コミュニティで一般的であるもう1つの有名で成熟したシーングラフである。USDは、開発者がNvidiaのGPUを使用して3Dモデルを作成及びレンダリングするためのツールセットであるNvidiaのOmniverseプラットフォームに統合される。USDのサブセットは、AppleとPixarによってUSDZとして公開された。USDZは、AppleのARKitによってサポートされている。
【0053】
3.KhronosによるglTF2.0
glTF2.0は、Khronos3Dグループによって作成された「グラフィックス言語伝送フォーマット」仕様の最新バージョンである。このフォーマットは、「png」及び「jpeg」の画像フォーマットを含む、シーン内の静的な(非時限)オブジェクトを一般的にサポートできる単純なシーングラフフォーマットをサポートする。glTF2.0は、glTFプリミティブを使用して記述された基本的な形状、つまり幾何学的オブジェクトの移動、回転、拡大縮小のサポートを含む、単純なアニメーションをサポートする。glTF2.0は、時限メディアをサポートしないため、ビデオも音声もサポートしない。
没入型視覚メディアのシーン表現のためのこれらの既知の設計は、例のみとして提供され、入力没入型メディアソースをクライアントエンドポイントデバイスの特定の特性に適したフォーマットに適応させるプロセスを指定する機能において開示された主題を制限するものではない。
【0054】
さらに、上記いずれか又は全ての例示的なメディア表現は、錐台の特定の寸法に基づいて特定のディスプレイの視錐台を埋めるために特定のビューの選択を可能にするか又は容易にするニューラルネットワークモデルを訓練し作成するために、深層学習技術を現在使用するか又は使用してもよい。特定のディスプレイの視錐台のために選択されたビューは、シーン表現で明示的に提供される既存のビューから、つまりMSI若しくはMPI技術から補間されてもよく、特定の仮想カメラの位置、フィルタ若しくはレンダリングエンジンの仮想カメラの説明に基づいてこれらのレンダリングエンジンから直接レンダリングされてもよい。
【0055】
したがって、開示された主題は、(例えば、1台以上のカメラで)自然にキャプチャされたか又はコンピュータ生成技術を使用して作成されたメディアのリアルタイム又は「オンデマンド」(例えば、非リアルタイム)配信の両方の要件を十分に満たすことができる、比較的小さいがよく知られている一組の没入型メディア取り込みフォーマットがあると考えるのに十分堅固である。
【0056】
モバイルネットワーク用の5G及び固定ネットワーク用の光ファイバケーブルなどの先進的なネットワーク技術が導入されると、ニューラルネットワークモデル又はネットワークベースのレンダリングエンジンのいずれかを使用した没入型メディア取り込みフォーマットからのビューの補間は、さらに容易になる。つまり、このような先進的なネットワークインフラストラクチャが、ますます大量の視覚情報の転送と配信をサポートできるため、これらの先進的なネットワーク技術は、商用ネットワークの容量及び能力を向上させる。マルチアクセスエッジコンピューティング(MEC)、ソフトウェア定義ネットワーク(SDN)、ネットワーク機能仮想化(NFV)などのネットワークインフラストラクチャ管理技術により、商用ネットワークサービスプロバイダーは、それらのネットワークインフラストラクチャを柔軟に配置して、あるネットワークリソースに対する需要の変化に適応し、例えば、ネットワークスループット、ネットワーク速度、ラウンドトリップ遅延及び計算リソースに対する需要の動的な増加又は減少に応答する。さらに、異種クライアントエンドポイント用の潜在的異種視覚メディアフォーマットを備えた様々な没入型メディアアプリケーションをサポートするために、動的ネットワーク要件に適応するこの固有の機能は、同様に、没入型メディア取り込みフォーマットを適切な配信フォーマットに適応させるネットワークの機能を容易にする。
【0057】
没入型メディアアプリケーション自体にも、ゲームの状態でリアルタイムの更新に応答するために有意に低いネットワーク遅延を必要とするゲームアプリケーションと、ネットワークのアップリンク部分とダウンリンク部分の両方に対称的なスループット要件があるテレプレゼンスアプリケーションと、データを消費しているクライアントエンドポイントディスプレイのタイプに応じて、ダウンリンクリソースに対する需要が増加する可能性のある受動的視聴アプリケーションとを含むネットワークリソースに対する様々な要件がある場合がある。一般的に、消費者向けのアプリケーションは、記憶、計算及び電力に関する様々なオンボードクライアント能力と、特定のメディア表現に対する様々な要件とを備えた様々なクライアントエンドポイントによってサポートされる。
【0058】
したがって、開示された主題は、十分に装備されたネットワーク、すなわち、最新のネットワークのいくつか又は全ての特性を使用するネットワークが、その中で指定される特徴に従って、複数のレガシー及び没入型メディア対応デバイスを同時にサポートすることを可能にし、該特徴は、以下の1~7のとおりである。
【0059】
1.メディア配信のリアルタイムと「オンデマンド」の両方の使用ケースにとって現実的なメディア取り込みフォーマットを活用する柔軟性を提供する。
2.レガシー及び没入型メディア対応のクライアントエンドポイントの両方のために、自然コンテンツとコンピュータ生成コンテンツの両方をサポートする柔軟性を提供する。
3.時限メディアと非時限メディアの両方をサポートする。
4.クライアントエンドポイントの特徴及び能力と、アプリケーションの要件とに基づいて、ソースメディアの取り込みフォーマットを適切な配信フォーマットに動的に適応させるプロセスを提供する。
5.配信フォーマットがIPベースのネットワークを介してストリーミング可能であることを確保する。
6.ネットワークが、レガシーデバイスと没入型メディア対応デバイスの両方を含んでもよい複数の異種クライアントエンドポイントに同時にサービスを提供することを可能にする。
7.シーンの境界に沿った配信メディアの編成を容易にする例示的なメディア表現フレームワークを提供する。
開示された主題によって可能になる改善されたエンドツーエンドの実施形態は、以下のように
図3~16の詳細な説明に記載された処理及び構成要素に従って達成される。
【0060】
図3及び
図4はいずれも、特定のクライアントエンドポイントの能力に一致するように取り込みソースフォーマットから適応された単一の例示的な包括的配信フォーマットを使用する。上記のように、
図3に示されるメディアは、時限的であり、
図4に示されるメディアは、非時限的である。特定の包括的フォーマットは、その構造が十分に堅固であり、各層がメディアの提示に寄与する顕著な情報の量に基づいて各属性が積層され得る多種多様なメディア属性に適応する。なお、このような積層プロセスは、プログレッシブJPEG及びISO/IEC 14496-10(拡張可能なアドバンスドビデオコーディング)で指定されるような拡張可能なビデオアーキテクチャで実証されるように、現在の最先端技術では既によく知られている技術である。
【0061】
1.包括的メディアフォーマットに従ってストリーミングされるメディアは、レガシー視覚及び音声メディアに限定されず、機械と相互作用して人間の視覚、聴覚、味覚、触覚及び嗅覚を刺激する信号を生成できる任意のタイプのメディア情報を含んでもよい。
2.包括的メディアフォーマットに従ってストリーミングされるメディアは、時限メディア、非時限メディア、又は両方の組み合わせであり得る。
3.包括的メディアフォーマットは、ベース層と強化層アーキテクチャを使用してメディアオブジェクトの積層表現を可能にすることにより、さらにストリーミング可能である。一例では、個別のベース層と強化層は、各シーンのメディアオブジェクトにマルチ解像度又はマルチテセレーション分析技術を適用することによって計算される。これは、ISO/IEC 10918-1(JPEG)及びISO/IEC 15444-1(JPEG2000)で指定されているプログレッシブレンダリングされた画像フォーマットに類似するが、ラスターベースの視覚フォーマットに限定されない。例示的な実施形態では、幾何学的オブジェクトのプログレッシブ表現は、ウェーブレット分析を使用して計算されたオブジェクトのマルチ解像度表現であり得る。
メディアフォーマットの積層表現の別の例では、強化層は、ベース層によって表される視覚オブジェクトの表面の材料特性を改善するなど、様々な属性をベース層に適用する。さらに別の例では、属性は、表面を滑らかなテクスチャから多孔質のテクスチャに変更するか、又はつや消しの表面から光沢のある表面に変更するなど、ベース層オブジェクトの表面のテクスチャを改善することができる。
積層表現のさらに別の例では、シーン内の1つ以上の視覚オブジェクトの表面は、ランバーシアンから光線追跡可能に変更されてもよい。
積層表現のさらに別の例では、ネットワークはベース層表現をクライアントに配信することにより、クライアントは、追加の強化層の送信を待っている間に、シーンの名目上の提示を作成して、ベース表現の解像度又はその他の特性を改善してもよい。
【0062】
4.強化層の属性又は改善情報の解像度は、現在の既存のMPEGビデオ及びJPEG画像標準のように、ベース層のオブジェクトの解像度と明示的に結合されない。
5.包括的メディアフォーマットは、提示デバイス又はマシンによって提示するか又は作動できる任意のタイプの情報メディアをサポートすることにより、異種クライアントエンドポイントへの異種メディアフォーマットのサポートを可能にする。メディアフォーマットを配信するネットワークの一実施形態では、まず、ネットワークは、クライアントエンドポイントを問い合わせてクライアントの能力を決定し、次に、クライアントがメディア表現を有意義に取り込むことができない場合、ネットワークは、クライアントによってサポートされていない属性の層を削除するか、メディアを現在のフォーマットからクライアントエンドポイントに適したフォーマットに適応させる。そのような適応の一例では、ネットワークは、ネットワークベースのメディア処理プロトコルを使用することによって、ボリューム視覚メディア資産を同じ視覚資産の2D表現に変換するであろう。そのような適応の別の例では、ネットワークは、ニューラルネットワークプロセスを使用して、メディアを適切なフォーマットに再フォーマットするか、又は任意に、クライアントエンドポイントによって必要とされるビューを合成することができる。
【0063】
6.完全又は部分的に完全な没入型体験(ライブストリーミングイベント、ゲーム又はオンデマンド資産の再生)のマニフェストは、提示を作成するためにレンダリング及びゲームエンジンが現在取り込むことができる最小限の情報であるシーンによって編成される。マニフェストは、クライアントが要求する没入型体験全体に対してレンダリングされる個々のシーンのリストを含む。各シーンに関連付けられているのは、シーン形状のストリーミング可能なバージョンに対応する、シーン内の幾何学的オブジェクトの1つ以上の表現である。シーン表現の一実施形態は、シーンの幾何学的オブジェクトの低解像度バージョンを指す。同じシーンの別の実施形態は、同じシーンの幾何学的オブジェクトに追加の詳細を追加するか、又はテッセレーションを増加させるための、シーンの低解像度表現のための強化層を指す。上記のように、各シーンは、シーンの幾何学的オブジェクトの詳細を漸進的方式で増加させるための複数の強化層を有してもよい。
【0064】
7.シーン内で参照されるメディアオブジェクトの各層は、ネットワーク内でリソースにアクセスできるアドレスを指し示すトークン(例えば、URI)に関連付けられる。このようなリソースは、コンテンツがクライアントによってフェッチされてもよいCDNに類似する。
8.幾何学的オブジェクトの表現のトークンは、ネットワーク内の位置又はクライアント内の位置を指し示してもよい。つまり、クライアントは、そのリソースがネットワークベースのメディア処理のためにネットワークに利用可能であることをネットワークにシグナリングしてもよい。
【0065】
図3は、時限メディアの包括的メディアフォーマットの実施形態を次のように説明する。時限シーンマニフェストは、シーン情報301のリストを含む。シーン301は、処理情報とシーン301を構成するメディア資産のタイプを個別に説明する構成要素302のリストを指す。構成要素302は、ベース層304及び属性強化層305をさらに指す資産303を指す。
【0066】
図4は、非時限メディアの包括的メディアフォーマットの実施形態を次のように説明する。シーン情報401は、時計による開始時間と終了時間に関連付けられる。シーン情報401は、処理情報とシーン401を構成するメディア資産のタイプを個別に説明する構成要素402のリストを指す。構成要素402は、ベース層404及び属性強化層405をさらに指す資産403(例えば、視覚、音声及び触覚資産)を指す。さらに、シーン401は、非時限メディア用の他のシーン401を指す。シーン401も時限メディアシーンを指す。
【0067】
図5は、自然コンテンツから取り込みフォーマットを合成するプロセス500の実施形態を示す。カメラユニット501は、単一のカメラレンズを使用して、人のシーンをキャプチャする。カメラユニット502は、リング状のオブジェクトの周りに5つのカメラレンズを取り付けることによって、5つの発散視野を有するシーンをキャプチャする。502における配置は、VRアプリケーションのために全方向性コンテンツをキャプチャするために一般的に使用される例示的な配置である。カメラユニット503は、球体の内径部分に7つのカメラレンズを取り付けることにより、7つの収束視野を有するシーンをキャプチャする。配置503は、ライトフィールド又はホログラフィック没入型ディスプレイのためにライトフィールドをキャプチャするために一般的に使用される例示的な配置である。自然画像コンテンツ509は、合成モジュール504への入力として提供され、該合成モジュール504は、任意に、訓練画像506の集合を使用するニューラルネットワーク訓練モジュール505を使用して、任意のキャプチャニューラルネットワークモデル508を生成してもよい。訓練プロセス505の代わりに一般的に使用される別のプロセスは、写真測量である。モデル508が
図5に示されるプロセス500の間に作成される場合、モデル508は、自然コンテンツのための取り込みフォーマット507の資産の1つになる。取り込みフォーマット507の例示的な実施形態は、MPI及びMSIを含む。
【0068】
図6は、合成メディア、例えば、コンピュータ生成画像の取り込みフォーマットを作成するためのプロセス600の実施形態を示す。LIDARカメラ601は、シーンのポイントクラウド602をキャプチャする。合成コンテンツを作成するためのCGIツール、3Dモデリングツール又は別のアニメーションプロセスは、ネットワークを介してCGI資産604を作成するためにコンピュータ603に使用される。センサを備えたモーションキャプチャスーツ605Aは、アクター605のモーションのデジタル記録をキャプチャしてアニメーション化されたモーションキャプチャデータ606を生成するためにアクター605に装着される。データ602、604及び606は、合成モジュール607への入力として提供され、該合成モジュール607は、同様に、任意にニューラルネットワーク及び訓練データを使用して、ニューラルネットワークモデル(
図6には示されていない)を作成してもよい。
【0069】
上記異種没入型メディアを表現しストリーミングする技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実施され、1つ以上のコンピュータ可読媒体に物理的に記憶することができる。例えば、
図7は、開示された主題の特定の実施形態を実施することに適したコンピュータシステム700を示す。
【0070】
コンピュータソフトウェアは、コンピュータ中央処理装置(CPU)、グラフィックス処理装置(GPU)などによって、アセンブリ、コンパイル、リンクの対象となり得る任意の適切な機械コード若しくはコンピュータ言語、又は同様のメカニズムを使用してコード化されて、直接的に実行できるか又は解釈、マイクロコード実行などを介して実行できる命令を備えるコードを作成することができる。
【0071】
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータ又はその構成要素で実行することができる。
【0072】
コンピュータシステム700について、
図7に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能範囲に関する限定を示唆することを意図するものではない。構成要素の構成は、コンピュータシステム700の例示的な実施形態で示される構成要素のうちのいずれか1つ又は組み合わせに関する任意の依存性又は必要性を有するとして解釈されるべきではない。
【0073】
コンピュータシステム700は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(音声、拍手など)、視覚入力(ジェスチャーなど)、嗅覚入力(図示せず)を通じて、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインタフェースデバイスは、音声(スピーチ、音楽、周囲音など)、画像(スキャンされた画像、静止画像カメラから取得した写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)などの、人間による意識的な入力に必ずしも直接的に関連しない特定のメディアを取り込むために使用することもできる。
【0074】
入力ヒューマンインタフェースデバイスは、キーボード701、マウス702、トラックパッド703、タッチスクリーン710、データグローブ(図示せず)、ジョイスティック705、マイクロフォン706、スキャナ707、カメラ708のうちの1つ以上(それぞれ1つのみが図示されている)を含んでもよい。
【0075】
コンピュータシステム700はまた、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音、光、及び匂い/味を通じて、1人以上の人間ユーザの感覚を刺激することができる。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン710、データグローブ(図示せず)、又はジョイスティック705による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスであってもよい)、音声出力デバイス(スピーカ709、ヘッドホン(図示せず)など)、視覚出力デバイス(それぞれタッチスクリーン入力能力、触覚フィードバック能力の有無にかかわらず、一部が、ステレオグラフィック出力、仮想現実眼鏡(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)などの手段を介して、2次元の視覚出力又は3次元以上の出力を出力できる、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン710など)、及びプリンタ(図示せず)を含んでもよい。
【0076】
コンピュータシステム700はまた、ヒューマンアクセス可能な記憶デバイスと、それらに関連するメディア、例えば、CD/DVDを有するCD/DVD ROM/RW720若しくは同様なメディア721、サムドライブ722、及びリムーバブルハードドライブ若しくはソリッドステートドライブ723を含む光メディア、テープやフロッピーディスク(図示せず)などのレガシー磁気メディア、セキュリティドングル(図示せず)などの専用ROM/ASIC/PLDベースのデバイスなどとを含み得る。
【0077】
当業者はまた、本明細書に開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送メディア、搬送波、又は他の一時的な信号を含まないことを理解すべきである。
【0078】
コンピュータシステム700はまた、1つ以上の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光ネットワークであり得る。ネットワークはさらに、ローカル、ワイドエリア、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性ネットワークなどであり得る。ネットワークの例は、イーサネット及び無線LANなどのローカルエリアネットワークと、GSM、3G、4G、5G、LTEなどを含むセルラーネットワークと、ケーブルTV、衛星TV及び地上波放送TVを含むTV有線又は無線ワイドエリアデジタルネットワークと、CANBusを含む車両用及び産業用ネットワークと、を含む。特定のネットワークは、一般的に、特定の汎用データポート又は周辺バス749(例えば、コンピュータシステム700のUSBポートなど)に接続された外部ネットワークインタフェースアダプターを必要とする。他のネットワークは、一般的に、以下で説明するようにシステムバスに接続することにより、コンピュータシステム700のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム700は、他のエンティティと通信することができる。このような通信は、例えば、ローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対して、単方向の受信のみ(例えば、放送TV)、単方向の送信のみ(例えば、CANbusから特定のCANbusデバイスへ)、又は双方向であってもよい。上記のように、特定のプロトコルとプロトコルスタックをこれらのネットワークとネットワークインタフェースの各々に使用することができる。
【0079】
前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェースは、コンピュータシステム700のコア740に接続することができる。
【0080】
コア740は、1つ以上の中央処理装置(CPU)741、グラフィックス処理装置(GPU)742、フィールドプログラマブルゲートアレイ(FPGA)743の形態の専用プログラマブル処理装置、及び特定のタスクのためのハードウェアアクセラレータ744などを含むことができる。これらのデバイスは、リードオンリメモリ(ROM)745、ランダムアクセスメモリ746、及びユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量ストレージ747と共に、システムバス748を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス748は、1つ以上の物理プラグの形態でアクセス可能であり、追加のCPU、GPUなどによる拡張を可能にする。周辺デバイスは、コアのシステムバス748に直接的に接続されてもよく、周辺バス749を介して接続されてもよい。周辺バスのアーキテクチャには、PCI、USBなどを含む。
【0081】
CPU741、GPU742、FPGA743及びアクセラレータ744は、組み合わせて、前述のコンピュータコードを構成できる特定の命令を実行することができる。そのコンピュータコードは、ROM745又はRAM746に記憶することができる。過渡的なデータは、RAM746に記憶することもできるが、恒久的なデータは、例えば内部大容量ストレージ747に記憶することができる。CPU741、GPU742、大容量ストレージ747、ROM745、RAM746などのうちの1つ以上に密接に関連付けることができるキャッシュメモリを使用して、任意のメモリデバイスに対する高速記憶及び検索を可能にすることができる。
【0082】
コンピュータ可読媒体には、様々なコンピュータ実施動作を実行するためのコンピュータコードを有することができる。メディア及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、コンピュータソフトウェア分野の当業者によく知られている利用可能な種類のものであってもよい。
【0083】
限定ではなく、あくまでも一例として、アーキテクチャ700、具体的にはコア740を有するコンピュータシステムは、プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ以上の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行した結果として機能を提供することができる。このようなコンピュータ可読媒体は、以上で紹介したようにユーザがアクセス可能な大容量ストレージと、コア内部大容量ストレージ747又はROM745などの非一時的な性質を有するコア740の特定のストレージとに関連付けられたメディアであり得る。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア740によって実行することができる。コンピュータ可読媒体は、特定の需要に応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア740、具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM746に記憶されたデータ構造を定義するステップと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更するステップとを含む、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。さらに、又は代替として、コンピュータシステムは、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに又はソフトウェアと共に動作することができる回路(例えば、アクセラレータ744)に配線されるか又は他の方法で具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照は、必要に応じて、ロジックを含むことができ、その逆も同様である。コンピュータ可読媒体への参照は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(IC)など)、実行のためのロジックを具体化する回路、又はその両方を含むことができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを含む。
【0084】
図8は、クライアントエンドポイントとして様々なレガシー及び異種没入型メディア対応ディスプレイをサポートする例示的なネットワークメディア配信システム800を示す。コンテンツ取得モジュール801は、
図6又は
図5の例示的な実施形態を使用して、メディアをキャプチャするか又は作成する。取り込みフォーマットは、コンテンツ準備モジュール802で作成され、次に、送信モジュール803を使用して、ネットワークメディア配信システム内の1つ以上のクライアントエンドポイント804に送信される。ゲートウェイは、顧客宅内機器にサービスを提供して、ネットワークの様々なクライアントエンドポイントへのネットワークアクセスを提供してもよい。セットトップボックスは、顧客宅内機器としてもサービスを提供して、ネットワークサービスプロバイダーによる集約コンテンツへのアクセスを提供してもよい。無線復調器は、(例えば、モバイルハンドセット及びディスプレイの場合と同様の)モバイルデバイスのモバイルネットワークアクセスポイントとして機能してもよい。1つ以上の実施形態では、レガシー2Dテレビは、ゲートウェイ、セットトップボックス又はWiFiルーターに直接接続されてもよい。レガシー2Dディスプレイを備えたラップトップコンピュータは、WiFiルーターに接続されたクライアントエンドポイントであってもよい。ヘッドマウント2D(ラスターベース)ディスプレイもルーターに接続されてもよい。レンチキュラーライトフィールドディスプレイは、ゲートウェイに対するものであってもよい。ディスプレイは、ローカル計算GPU、記憶デバイス、及び光線ベースのレンチキュラー光学技術を使用して複数のビューを作成する視覚提示ユニットで構成されてもよい。ホログラフィックディスプレイは、セットトップボックスに接続されてもよく、ローカル計算CPU、GPU、記憶デバイス、及びフレスナルパターンの波ベースのホログラフィック視覚化ユニットを含んでもよい。拡張現実ヘッドセットは、無線復調器に接続されてもよく、GPU、記憶デバイス、電池、及びボリューム視覚提示構成要素を含んでもよい。高密度ライトフィールドディスプレイは、WiFiルーターに接続されてもよく、複数のGPU、CPU、記憶デバイス、目追跡装置、カメラ、及び高密度光線ベースのライトフィールドパネルを含んでもよい。
【0085】
図9は、
図8に先に示したように、レガシー及び異種没入型メディア対応ディスプレイにサービスを提供することができる没入型メディア配信モジュール900の実施形態を示す。コンテンツは、モジュール901で作成されるか又は取得され、モジュール901は、それぞれ
図5と
図6で自然コンテンツとCGIコンテンツのためにさらに具体化される。次に、コンテン
ツは、ネットワーク取り込みフォーマット作成モジュール902を使用して取り込みフォーマットに変換される。モジュール902は、同様に、それぞれ
図5と
図6で自然コンテンツとCGIコンテンツのためにさらに具体化される。取り込みメディアフォーマットは、ネットワークに送信され、記憶デバイス903に記憶される。任意に、記憶デバイスは、没入型メディアコンテンツプロデューサーのネットワークに常駐し、903を二等分する破線で示されるように、没入型メディアネットワーク配信モジュール(番号なし)によってリモートでアクセスしてもよい。クライアント及びアプリケーションの特定の情報は、任意に、代替の「クラウド」ネットワークに任意にリモートで存在し得るリモート記憶デバイス904で利用可能である。
【0086】
図9に示されるように、クライアントインタフェースモジュール905は、情報の主要なソース及びシンクとして機能して、配信ネットワークの主要なタスクを実行してもよい。この特定の実施形態では、モジュール905は、ネットワークの他の構成要素と統合されたフォーマットで実施されてもよい。それにもかかわらず、
図9のモジュール905によって示されるタスクは、開示された主題の本質的な要素を形成する。
【0087】
モジュール905は、クライアント908の特徴及び属性に関する情報を受信し、さらに、908で現在実行されているアプリケーションに関する要件を収集する。この情報は、デバイス904から取得されてもよいか、又は代替の実施形態では、クライアント908に直接的に問い合わせることによって取得されてもよい。クライアント908に直接的に問い合わせる場合、双方向プロトコル(
図9には示されていない)が存在し、動作可能であると想定され、その結果、クライアントは、インタフェースモジュール905と直接通信してもよい。
【0088】
インタフェースモジュール905はまた、
図10に記載されるメディア適応及びフラグメント化モジュール910を開始し、それと通信する。取り込みメディアがモジュール910によって適応されフラグメント化されると、メディアは、任意に、配信記憶デバイス909のために準備されたメディアとして示される中間記憶デバイスに転送される。配信メディアが準備されてデバイス909に記憶されると、インタフェースモジュール905は、没入型クライアント908がそのネットワークインタフェース908Bを介して「プル」要求を介して配信メディア及び対応する記述情報906を受信するか、又はクライアント908自体が記憶デバイス909からメディア906の「プル」要求を開始し得ることを確保する。没入型クライアント908は、任意に、GPU(又は図示されないCPU)908Cを使用してもよい。メディアの配信フォーマットは、クライアント908の記憶デバイス又は記憶キャッシュ908Dに記憶される。最後に、クライアント908は、その視覚化構成要素908Aを介してメディアを視覚的に提示する。
【0089】
没入型メディアをクライアント908にストリーミングするプロセス全体では、インタフェースモジュール905は、クライアント進行状況及び状態フィードバックチャネル907を介してクライアントの進行状況の状態を監視する。
【0090】
図10は、取り込みソースメディアがクライアント908の要件に一致するように適切に適応され得るメディア適応プロセスの特定の実施形態を示す。メディア適応モジュール1001は、取り込みメディアをクライアント908の適切な配信フォーマットに適応させることを容易にする複数の構成要素で構成される。これらの構成要素は、例示的なものと見なされるべきである。
図10では、適応モジュール1001は、入力ネットワーク状態1005を受信して、ネットワーク上の現在のトラフィック負荷、属性及び特徴の説明を含むクライアント908の情報、アプリケーションの特徴、説明及び現在の状態、及びクライアントニューラルネットワークモデル(利用可能な場合)を追跡して、クライアントの錐台の形状を、取り込み可能な没入型メディアの補間能力にマッピングするのに役立つ。適応モジュール1001は、適応された出力が、作成されるときに、クライアント適応メディア記憶デバイス1006に記憶されることを確保する。
【0091】
適応モジュール1001は、レンダラー1001B又はニューラルネットワークプロセッサ1001Cを使用して、特定の取り込みソースメディアを、クライアントに適したフォーマットに適応する。ニューラルネットワークプロセッサ1001Cは、ニューラルネットワークモデル1001Aを使用する。そのようなニューラルネットワークプロセッサ1001Cの例としては、MPI及びMSIで説明されるようなディープビューニューラルネットワークモデル生成装置が挙げられる。メディアが2Dフォーマットであるが、クライアントが3Dフォーマットである必要がある場合、ニューラルネットワークプロセッサ1001Cは、2Dビデオ信号から高度に相関した画像を使用して、ビデオに描かれたシーンのボリューム表現を導出するプロセスを呼び出すことができる。このようなプロセスの例は、カリフォルニア大学バークレー校で開発された1つ又はいくつかの画像からのニューラル放射輝度フィールドであってもよい。適切なレンダラー1001Bの例は、適応モジュール1001と直接相互作用するように修正される、OTOYオクタンレンダラー(図示せず)の修正バージョンであってもよい。適応モジュール1001は、取り込みメディアのフォーマット及びクライアント908が必要とするフォーマットに関してこれらのツールの必要性に応じて、任意にメディアコンプレッサ1001D及びメディアデコンプレッサ1001Eを使用してもよい。
【0092】
図11は、現在クライアント適応メディア記憶デバイス1102にある
図10からのメディア適応モジュール1101から適応メディアを最終的に変換する適応メディアパッケージングモジュール1103を示す。パッケージングモジュール1103は、モジュール1101からの適応メディアを堅固な配信フォーマット、例えば、
図3又は
図4に示される例示的なフォーマットにフォーマットする。マニフェスト情報1104Aは、クライアント908に、受信を期待できるシーンデータのリストを提供し、また、視覚資産及び対応するメタデータ、ならびに音声資産及び対応するメタデータのリストを提供する。
【0093】
図12は、適応メディア1201をクライアント908へのストリーミングに適した個々のパケット1203に「フラグメント化」するパケタイザーモジュール1202を示す。
シーケンス
図1300の
図13に示される構成要素及び通信は、以下のように説明される。クライアントエンドポイント1301は、ネットワーク配信インタフェース1302へのメディア要求1308を開始する。要求1308は、URN又は他の標準的な命名法によって、クライアントによって要求されたメディアを識別するための情報を含む。ネットワーク配信インタフェース1302は、プロファイル要求1309で要求1308に応答し、プロファイル要求1309は、クライアント1301がその現在利用可能なリソースに関する情報(計算、記憶、電池充電率及びクライアントの現在の動作状態を特徴付ける他の情報を含む)を提供することを要求する。プロファイル要求1309はまた、クライアントが、ニューラルネットワーク推論のためにネットワークにより使用できる1つ以上のニューラルネットワークモデルを提供し、このようなモデルがクライアントで利用可能な場合、クライアントの提示システムの特徴に一致するように正しいメディアビューを抽出するか又は補間することを要求する。クライアント1301からインタフェース1302への応答1311は、クライアントトークン、アプリケーショントークン及び1つ以上のニューラルネットワークモデルトークン(そのようなニューラルネットワークモデルトークンがクライアントで利用可能である場合)を提供する。次に、インタフェース1302は、クライアント1301にセッションIDトークン1311を提供する。次に、インタフェース1302は、要求1308で識別されたメディアのURN又は標準命名法名を含む取り込みメディア要求1312を用いて取り込みメディアサーバ1303を要求する。サーバ1303は、取り込みメディアトークンを含む応答1313で要求1312に応答する。次に、インタフェース1302は、呼び出し1314における応答1313からのメディアトークンをクライアント1301に提供する。次に、インタフェース1302は、適応インタフェース1304に取り込みメディアトークン、クライアントトークン、アプリケーショントークン及びニューラルネットワークモデルトークンを提供することによって、1308において要求されたメディアの適応プロセスを開始する。インタフェース1304は、取り込みメディア資産へのアクセスを要求するために、呼び出し1316でサーバ1303に取り込みメディアトークンを提供することによって取り込みメディアへのアクセスを要求する。サーバ1303は、インタフェース1304への応答1317において、取り込みメディアアクセストークンを用いて要求1316に応答する。次に、インタフェース1304は、メディア適応モジュール1305が、1313で作成されたセッションIDトークンに対応するクライアント、アプリケーション及びニューラルネットワーク推論モデルのために、取り込みメディアアクセストークンに位置する取り込みメディアを適応させることを要求する。インタフェース1304からモジュール1305への要求1318は、必要なトークン及びセッションIDを含む。モジュール1305は、更新1319において、適応されたメディアアクセストークン及びセッションIDをインタフェース1302に提供する。インタフェース1302は、インタフェース呼び出し1320において、適応されたメディアアクセストークン及びセッションIDをパッケージングモジュール1306に提供する。パッケージングモジュール1306は、応答1321において、パッケージ化メディアアクセストークン及びセッションIDを備えたインタフェース1302に応答1321を提供する。モジュール1306は、応答1322において、パッケージ化資産、URN、及びセッションIDのためのパッケージ化メディアアクセストークンをパッケージ化メディアサーバ1307に提供する。クライアント1301は、要求1323を実行して、メッセージ1321で受信されたパッケージ化メディアアクセストークンに対応するメディア資産のストリーミングを開始する。クライアント1301は、他の要求を実行し、メッセージ1324においてインタフェース1302に状態更新を提供する。
【0094】
図14は、3Dフォーマット1401及び2Dフォーマット1402の没入型メディア及び資産の2つの部分から任意に構成される、
図10の取り込みメディアフォーマット及び資産1002を示す。2Dフォーマット1402は、単一のビューを含むコード化ビデオストリーム、例えば、ISO/IEC 14496 Part 10先進的ビデオコーディングであってもよく、複数のビューを含むコード化ビデオストリーム、例えば、ISO/IEC 14496 Part 10のマルチビュー圧縮修正であってもよい。
【0095】
図15は、コード化ビデオストリームとともにニューラルネットワークモデル情報の伝送を示す。この図では、コード化ビデオストリーム1501は、1つ以上のSEIメッセージ1501Aによって直接保持されるニューラルネットワークモデル及び対応するパラメータを含む。一方、コード化ビデオストリーム1502では、1つ以上のSEIメッセージは、ニューラルネットワークモデル及びそれに対応するパラメータの識別子を保持する。1502のシナリオでは、ニューラルネットワークモデル及びパラメータは、コード化ビデオストリームの外部、例えば、
図10の1001Aに記憶される。
【0096】
図16は、3Dフォーマットでの取り込まれた没入型メディア資産1601(元々は
図14の項目1401として示される)におけるニューラルネットワークモデル情報の伝送を示す。メディア1601は、1602として示されるシーン1~Nを指す。各シーン1602は、形状1603及び処理パラメータ1604を指す。形状1603は、ニューラルネットワークモデルへの参照1603Aを含んでもよい。処理パラメータ1604はまた、ニューラルネットワークモデルへの参照1604Aを含んでもよい。1604A及び1603Aの両方は、シーンと共に直接記憶されたネットワークモデルを指してもよく、取り込まれたメディアの外部に存在するニューラルネットワークモデル、例えば、
図10の1001Aに記憶されたネットワークモデルを指す識別子を指してもよい。
いくつかの実施形態は、任意の可能な技術的詳細レベルの統合におけるシステム、方法及び/又はコンピュータ可読媒体に関する。コンピュータ可読媒体は、プロセッサに動作を実行させるコンピュータ可読プログラム命令をその上に有するコンピュータ可読非一時的記憶媒体を含んでもよい。
【0097】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるために命令を保持し記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス又は前述の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラム可能リードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、パンチカード又はそこに記録された命令を有する溝内の隆起構造などの機械的に符号化されたデバイス、及び前述の任意の適切な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書で使用される場合、それ自体が、無線波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送メディアを通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又は電線を通して送信される電気信号などの一時的な信号であると解釈されるべきではない。
【0098】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードすることができ、或いはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークを介して、外部コンピュータ又は外部記憶デバイスにダウンロードすることができる。ネットワークは、銅送信ケーブル、光送信ファイバ、無線送信、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。
【0099】
動作を実施するためのコンピュータ可読プログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、又はSmalltalk、C++などのオブジェクト指向プログラミング言語、及び「C」プログラミング言語若しくは類似のプログラミング言語などの手続型プログラミング言語を含む1つ以上のプログラミング言語の任意の組み合わせで書かれたソースコード若しくはオブジェクトコードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで、部分的にユーザのコンピュータでスタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータで、部分的にリモートコンピュータで、又は完全にリモートコンピュータ若しくはサーバで実行されてもよい。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、或いは、接続は、(例えば、インターネットサービスプロバイダーを使用してインターネットを介して)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行して、態様又は動作を実行してもよい。
【0100】
これらのコンピュータ可読プログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/又はブロック図又はブロックで特定された機能/行為を実施するための手段を生成するように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに提供されて機械を製造してもよい。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャート及び/又はブロック図又はブロックにおいて指定される機能/動作の態様を実施する命令を含む製造品を含むように、コンピュータ、プログラム可能データ処理装置及び/又は他のデバイスに特定の方法で機能するように指示することができるコンピュータ可読記憶媒体内に記憶されてもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、又は他のデバイスで動作する命令が、フローチャート及び/又はブロック図又はブロックにおいて指定される機能/動作を実施するように、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスにロードされ、コンピュータ、他のプログラム可能装置、又は他のデバイスで一連の動作ステップを実行してコンピュータ実施プロセスを生成してもよい。
【0101】
図面のフローチャート及びブロック図は、様々な実施形態によるシステム、方法及びコンピュータ可読媒体の可能な実施のアーキテクチャ、機能及び動作を示す。この点で、フローチャート又はブロック図の各ブロックは、指定された論理機能を実行する1つ以上の実行可能命令を含むモジュール、セグメント又は命令の部分を表してもよい。方法、コンピュータシステム及びコンピュータ可読媒体は、図面に示されているものよりも追加のブロック、より少ないブロック、異なるブロック又は異なる配置のブロックを含んでもよい。いくつかの代替的な実施では、ブロックに示されている機能は、図面に示されている順序とは異なる順序で生じる場合がある。例えば、連続して示された2つのブロックは、実際には、同時に又は実質的に同時に実行される場合があり、或いはそれらのブロックは、関連する機能に応じて、逆順で実行される場合もある。ブロック図及び/又はフローチャート図の各ブロック、或いはブロック図及び/又はフローチャート図のブロックの組み合わせは、指定された機能若しくは動作を実行するか又は専用ハードウェア及びコンピュータ命令の組み合わせを実施する専用ハードウェアベースのシステムによって実施することができることにも留意されたい。
【0102】
本明細書において説明されるシステム及び/又は方法は、異なる形のハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組み合わせにおいて実現されてもよいことが明らかになる。これらのシステム及び/又は方法を実現するために使用される実際の特定化された制御ハードウェア又はソフトウェアコードは、実施を限定するものではない。したがって、本明細書において、システム及び/又は方法の動作及び挙動は、特定のソフトウェアコードを参照せずに説明された。本明細書の説明に基づいてシステム及び/又は方法を実現するようにソフトウェア及びハードウェアを設計できることが理解される。
【0103】
本明細書で使用される要素、行為又は命令は、明示的に記載されない限り、重要又は本質的なものであると解釈されるべきではない。また、本明細書において使用されるように、「1つ」及び「一の」という冠詞は、1つ以上の項目を含むことが意図されるものであり、「1つ以上」と交換可能に使用され得る。さらに、本明細書において使用されるように、「セット」という用語は、1つ以上の項目(例えば、関連項目、非関連項目、関連及び非関連項目の組み合わせ等)を含むことが意図されるものであり、「1つ以上」と交換可能に使用され得る。1つの項目のみが意図されるときは、「1つ」という用語又は類似の言葉が使用される。また、本明細書において使用されるように、「有する」、「含有する」又は「有している」などの用語は、オープンエンド用語であることが意図される。さらに、「基づく」という語句は、明示的に別様に述べられていない限り、「少なくとも部分的に基づく」ことを意味することが意図される。
【0104】
様々な態様及び実施形態の説明は、例示の目的で提示されているが、網羅的であること、又は開示された実施形態に限定されることを意図するものではない。特徴の組み合わせが特許請求の範囲に記載され、及び/又は明細書に開示されているが、これらの組み合わせは、可能な実施形態の開示を限定することを意図したものではない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に記載されておらず、及び/又は、明細書中に具体的に開示されていない手法で組み合わせることができる。以下に挙げられる各従属請求項は、1つの請求項のみに直接従属する可能性があるが、可能な実施形態の開示は、請求項の組におけるあらゆる他の請求項と組み合わせた各従属請求項を含む。多くの修正及び変形は、記載された実施形態の範囲から逸脱することなく、当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見られる技術に対する実際の適用又は技術的改善を最もよく説明するため、又は他の当業者が本明細書に開示される実施形態を理解できるようにするために選択された。
【符号の説明】
【0105】
101A カメラ又はマイクロフォン
101B コンピュータ
102 2D画像及び関連する音声のシーケンス
103 準備モジュール
104 コンバータモジュール
105 適応モジュール
106 コンテンツ配信ネットワーク
107 プル要求
108 クライアント
202 MPD
203 時限期間
204 適応セット
205 表現
206 セグメントファイル
301 シーン情報
302 構成要素
303 資産
304 ベース層
305 属性強化層
401 シーン情報
402 構成要素
403 資産
404 ベース層
405 属性強化層
500 プロセス
501 カメラユニット
502 カメラユニット
503 カメラユニット
504 合成モジュール
505 訓練プロセス
505 ニューラルネットワーク訓練モジュール
506 訓練画像
507 取り込みフォーマット
508 キャプチャニューラルネットワークモデル
509 自然画像コンテンツ
600 プロセス
601 LIDARカメラ
602 ポイントクラウドデータ
603 コンピュータ
604 CGI資産
605 アクター
605A モーションキャプチャスーツ
606 モーションキャプチャデータ
607 合成モジュール
608 合成メディアの取り込みフォーマット
700 コンピュータシステム
700 アーキテクチャ
701 キーボード
702 マウス
703 トラックパッド
705 ジョイスティック
706 マイクロフォン
707 スキャナ
708 カメラ
709 スピーカ
710 タッチスクリーン
720 CD/DVD ROM/RW
721 メディア
722 サムドライブ
723 ソリッドステートドライブ
740 コア
741 中央処理装置(CPU)
742 グラフィックス処理装置(GPU)
743 フィールドプログラマブルゲートアレイ(FPGA)
744 ハードウェアアクセラレータ
745 リードオンリメモリ(ROM)
746 ランダムアクセスメモリ
747 大容量ストレージ
748 システムバス
749 周辺バス
800 ネットワークメディア配信システム
801 コンテンツ取得モジュール
802 コンテンツ準備モジュール
803 送信モジュール
804 クライアントエンドポイント
900 没入型メディア配信モジュール
901 モジュール
901 コンテンツ取得/作成モジュール
902 ネットワーク取り込みフォーマット作成モジュール
903 取り込み記憶デバイス
904 リモート記憶デバイス
905 モジュール
905 クライアントインタフェースモジュール
906 メディア及び記述情報
907 クライアント進行状況及び状態フィードバックチャネル
908 没入型クライアント
908A 視覚化構成要素
908B ネットワークインタフェース
908D 記憶キャッシュ
909 配信記憶デバイス
910 メディア適応及びフラグメント化モジュール
1001 適応モジュール
1001A ニューラルネットワークモデル
1001B レンダラー
1001C ニューラルネットワークプロセッサ
1001D メディアコンプレッサ
1001E メディアデコンプレッサ
1002 資産
1005 入力ネットワーク状態
1006 クライアント適応メディア記憶デバイス
1101 メディア適応モジュール
1102 現在クライアント適応メディア記憶デバイス
1103 適応メディアパッケージングモジュール
1104A マニフェスト情報
1201 適応メディア
1202 パケタイザーモジュール
1203 パケット
1204 クライアントエンドポイント
1300 シーケンス図
1301 クライアントエンドポイント
1302 ネットワーク配信インタフェース
1303 取り込みメディアサーバ
1304 適応インタフェース
1305 メディア適応モジュール
1306 パッケージングモジュール
1307 パッケージ化メディアサーバ
1401 3D没入型メディア及び資産
1402 2D没入型メディア及び資産
1501 コード化ビデオストリーム
1501A SEIメッセージ
1502 コード化ビデオストリーム
1502A SEIメッセージ
1601 3D没入型メディア及び資産
1602 シーン
1603 形状
1603A 参照
1604 処理パラメータ
1604A 参照