(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-26
(45)【発行日】2024-09-03
(54)【発明の名称】情報処理装置、情報処理方法、再生処理装置及び再生処理方法
(51)【国際特許分類】
H04N 21/236 20110101AFI20240827BHJP
H04N 21/434 20110101ALI20240827BHJP
【FI】
H04N21/236
H04N21/434
(21)【出願番号】P 2021527391
(86)(22)【出願日】2020-03-31
(86)【国際出願番号】 JP2020014884
(87)【国際公開番号】W WO2020261689
(87)【国際公開日】2020-12-30
【審査請求日】2023-02-10
(32)【優先日】2019-06-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】勝股 充
(72)【発明者】
【氏名】高橋 遼平
(72)【発明者】
【氏名】平林 光浩
【審査官】富樫 明
(56)【参考文献】
【文献】国際公開第2019/064853(WO,A1)
【文献】米国特許出願公開第2014/0168218(US,A1)
【文献】特開2007-158591(JP,A)
【文献】特開2015-111897(JP,A)
【文献】特許第6316387(JP,B2)
【文献】米国特許出願公開第2015/0363977(US,A1)
【文献】米国特許出願公開第2016/0171743(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
(57)【特許請求の範囲】
【請求項1】
1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有す
るコンテンツについて、各前記
3次元オブジェクトの再生処理が可能であるか否かを判定するための
3次元オブジェクト選択情報を生成
し、
前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報であって、シーンディスクリプションで表されるシーングラフから3次元空間を再構成するため用いる前記再生処理装置の再生処理能力を判定するための情報が含まれる可否識別情報を、前記3次元オブジェクト選択情報に含め、
前記3次元オブジェクト選択情報を前記シーンディスクリプションに格納する前処理部と、
前記仮想空間のデータ及び前記
3次元オブジェクト選択情報を含むファイルを生成するファイル生成部とを備える情報処理装置。
【請求項2】
前記前処理部は、前記
3次元オブジェクト選択情報を前記シーンディスクリプションのSwitchノードに格納する請求項
1に記載の情報処理装置。
【請求項3】
前記前処理部は、前記
3次元オブジェクト選択情報を前記シーンディスクリプションにおけるコンテンツ構成毎に格納する請求項
2に記載の情報処理装置。
【請求項4】
前記前処理部は、前記
3次元オブジェクト選択情報をメタデータとして生成し、
前記ファイル生成部は、前記
3次元オブジェクト選択情報を格納したコンテンツファイルを生成する
請求項
1に記載の情報処理装置。
【請求項5】
前記ファイル生成部は、前記コンテンツファイルをISOBMFF(ISO Base Media File Format)ファイルとして生成し、且つ、前記コンテンツファイルのSampleEntryにおける6DoFContentStructBoxに前記
3次元オブジェクト選択情報を格納する請求項
4に記載の情報処理装置。
【請求項6】
前記前処理部は、予め前記コンテンツ構成が決められたグループ毎の前記
3次元オブジェクト選択情報を有し、各前記コンテンツが属する前記グループの前記
3次元オブジェクト選択情報をそれぞれの前記コンテンツの前記
3次元オブジェクト選択情報とする請求項
1に記載の情報処理装置。
【請求項7】
前記前処理部は、前記
3次元オブジェクト選択情報をメタデータとして生成し、
前記ファイル生成部は、前記
3次元オブジェクト選択情報を格納したメタデータファイルを生成する
請求項
1に記載の情報処理装置。
【請求項8】
前記ファイル生成部は、前記メタデータファイルをMPD(Media Presentation Description)ファイルとして生成し、且つ、前記
3次元オブジェクト選択情報を前記MPDファイルのAdaptationSetに格納する請求項
7に記載の情報処理装置。
【請求項9】
前記前処理部は、異なるコンテンツ構成を有する複数の前記コンテンツについて、前記コンテンツ構成毎に異なるシーンディスクリプションを生成し、
前記ファイル生成部は、各前記シーンディスクリプションに対するMPDファイルのAdaptationSet又はISOBMFFファイルのSampleEntryにおける6DoFContentStructBoxに前記
3次元オブジェクト選択情報を格納する
請求項
1に記載の情報処理装置。
【請求項10】
前記前処理部は、前記コンテンツを再生可能な再生処理能力を示す情報を前記
3次元オブジェクト選択情報とすることを特徴とする請求項1に記載の情報処理装置。
【請求項11】
前記前処理部は、前記コンテンツの一部分を再生可能な再生処理能力を示す情報を前記
3次元オブジェクト選択情報に含ませる請求項
10に記載の情報処理装置。
【請求項12】
1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有す
るコンテンツについて、各前記
3次元オブジェクトの再生処理が可能であるか否かを判定するための
3次元オブジェクト選択情報を生成し、
前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報であって、シーンディスクリプションで表されるシーングラフから3次元空間を再構成するため用いる前記再生処理装置の再生処理能力を判定するための情報が含まれる可否識別情報を、前記3次元オブジェクト選択情報に含め、
前記3次元オブジェクト選択情報を前記シーンディスクリプションに格納し、
前記仮想空間のデータ及び前記
3次元オブジェクト選択情報を含むファイルを生成する
処理をコンピュータに実行させる情報処理方法。
【請求項13】
1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有す
るコンテンツについて、各前記
3次元オブジェクトの再生処理が可能であるか否かを判定するための
3次元オブジェクト選択情報
であって、
前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報であって、シーンディスクリプションで表されるシーングラフから3次元空間を再構成するため用いる前記再生処理装置の再生処理能力を判定するための情報が含まれる可否識別情報を含み、
前記シーンディスクリプションに格納された3次元オブジェクト選択情報及び前記コンテンツのデータを含むファイルを取得するファイル取得部と、
前記ファイル取得部により取得された前記ファイルから前記
3次元オブジェクト選択情報を取得し、取得した前記
3次元オブジェクト選択情報を基に、各前記
3次元オブジェクトの再生処理が可能であるか否かを判定し、再生する前記
3次元オブジェクトを選択するファイル処理部と、
前記ファイル処理部により選択された前記
3次元オブジェクトを再生する再生部と
を備えた再生処理装置。
【請求項14】
1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有す
るコンテンツについて、各前記
3次元オブジェクトの再生処理が可能であるか否かを判定するための
3次元オブジェクト選択情報
であって、
前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報であって、シーンディスクリプションで表されるシーングラフから3次元空間を再構成するため用いる前記再生処理装置の再生処理能力を判定するための情報が含まれる可否識別情報を含み、
前記シーンディスクリプションに格納された3次元オブジェクト選択情報を含むファイルを取得し、
取得した前記ファイルから前記
3次元オブジェクト選択情報を取得し、取得した前記
3次元オブジェクト選択情報を基に、各前記
3次元オブジェクトの再生処理が可能であるか否かを判定し、再生する前記
3次元オブジェクトを選択し、
選択された前記
3次元オブジェクトのデータを取得し、
取得した前記データを用いて選択した前記
3次元オブジェクトを再生する
処理をコンピュータに実行させる再生処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、再生処理装置及び再生処理方法に関する。
【背景技術】
【0002】
現在の映像配信においては、映画などの配信で利用される2次元映像の配信が主流である。2次元映像は、以下では、2D(Dimension)コンテンツと呼ぶ場合がある。さらに、全方位が見回し可能である360度映像配信もウェブ上の動画配信サイトで行われている。全方位が見回し可能とは、視線方向を自由に選択できることを示す。360度映像は、3DoF(Degree of Freedom)映像と呼ばれたり、3DoFコンテンツと呼ばれたりする。2Dコンテンツ及び3DoFコンテンツのいずれも、基本は2次元にエンコードされた映像が配信サーバから配信され、クライアントで表示される。
【0003】
また、3DoF+コンテンツと呼ばれるコンテンツもある。3DoF+コンテンツは、3DoFコンテンツと同様に全方位の見回しが可能であり、さらに、視点位置を少し動かすことが可能であるコンテンツである。3DoF+コンテンツにおいて視点位置の動かせる範囲は、利用者が坐った状態で頭を動かせる程度の範囲が想定されている。3DoF+コンテンツは、2次元にエンコードされた映像を1つもしくは複数使用することにより、視点位置の移動を実現する。
【0004】
さらに、更なる自由度のあるビデオとして、6DoFコンテンツと呼ばれる6DoF映像の配信が提案されている。6DoF映像は、3次元空間内で全方位見回し可能であり、且つ、表示された3次元空間内を歩いて回れる映像である。3次元空間内を歩いて回れるとは、視点位置を自由に選択できることを表す。以下では、3次元空間を、3D空間と呼ぶ場合もある。
【0005】
6DoFコンテンツは、3次元空間を1つ又は複数の3次元モデルデータで表現した3次元コンテンツである。3次元モデルデータは3Dモデルデータとも呼ばれ、また、3次元コンテンツは3Dコンテンツと呼ばれる場合もある。
【0006】
6DoFコンテンツの配信方法として、例えば、3次元空間を複数の3次元モデルデータで構成し、複数のオブジェクトストリームとして伝送する方法がある。その際、シーンディスクリプション(Scene Description)という3次元空間の構成情報が用いられる場合がある。例えば、MPEG(Moving Picture Experts Group)-4シーンディスクリプションがある。このシーンディスクリプションは表現方法として、シーンをシーングラフと呼ばれるツリー階層構造のグラフで表現し、そのシーングラフをバイナリ形式で表現する方法である。
【0007】
6DoFコンテンツは、時刻毎に3次元モデルデータで3次元空間を表現する映像素材である。この6DoFコンテンツの表現手法の例として以下の3つの手法が挙げられる。
【0008】
1つの手法は、本発明では対象物ベースと呼ぶ表現手法である。対象物ベースの表現手法は、6DoFコンテンツは、映像における個々の表示対象物である人や物といった3次元オブジェクト毎の3次元モデルデータを3次元空間内にそれぞれ配置して、3次元空間全体を表現するコンテンツ構成を有する。対象物ベースの表現手法には、6DoFコンテンツの再生を行うクライアントが3つの手法のうちで最も多くの3次元モデルデータを同時に処理するという特徴がある。一方で、対象物ベースの表現手法では、個々の人や物といった3次元オブジェクト毎に、精細度を変化させて表示することができる。そのため、3つの手法のうち、クライアントの再生処理に対する自由度が高い構成方法と言える。
【0009】
他の1つは、本発明では空間ベースと呼ぶ表現手法である。空間ベースの表現手法では、6DoFコンテンツは、人や物と言った3次元オブジェクト毎に3次元モデルデータとして分けず、対象となる3次元空間全体を1つの3次元モデルデータとして表現するコンテンツ構成を有する。空間ベースの表現手法には、クライアントは再生時に1つの3元モデルデータを処理することになり、3つの手法のうち最も低い処理能力で済むという特徴がある。一方で、6DoFコンテンツ全体の精細度が決まっており、クライアントの再生処理に対する自由度は極めて低いといえる。
【0010】
残りの1つは、空間ベースと対象物ベースとを組み合わせた表現手法である。以下では、この表現手法を混合型の表現手法と呼ぶ。混合型の表現手法では、6DoFコンテンツは、特定の3次元オブジェクトを個別の3次元モデルデータとし、その3次元オブジェクトを含まない3次元空間を1つの3次元モデルデータとして表現するコンテンツ構成を有する。混合型の表現手法では、クライアントの再生処理において複数の3次元モデルデータを用いられるが、その3次元モデルデータの数は対象物ベースの表現手法で用いられる数よりも少ない。つまり、混合型の表現手法では、クライアントは、空間ベースの表現手法よりも高い処理能力が要求されるが、対象物ベースの表現手法よりも低い処理能力でよい。また、クライアントの再生処理に対する自由度も同様に、空間ベースの表現方法よりも高く、対象物ベースの表現方法よりも低いといえる。
【0011】
このように、各表現手法において、6DoFコンテンツのコンテンツ構成がそれぞれ異なる。そこで、表現方法の異なる6DoFコンテンツがいくつか含まれるようにシーンディスクリプションが記述された場合、クライアントは、なるべく自由度の高い表現手法のコンテンツ構成を選択することが、利用者の視聴体験をより拡大することができ好ましい。
【先行技術文献】
【非特許文献】
【0012】
【文献】"ISO/IEC 14496-11:2015", Information technology. Coding of audio-visual objects. Part11:Sene description and application engine, 2015-11
【発明の概要】
【発明が解決しようとする課題】
【0013】
しかしながら、シーンディスクリプションの中から適切なコンテンツ構成を選択する場合、クライアントは、様々な解析を実行した上でコンテンツ構成の選択を行うことになる。この解析には、例えば、シーンディスクリプションの全体の解析及びMPD(Media Presentation Description)におけるAdaptationSetの解析などが含まれる。このような解析には、実際に利用しない部分の解析も含まれるためクライアント装置によるコンテンツ構成の選択の効率が悪いといえる。
【0014】
そこで、本開示では、クライアント装置がコンテンツ構成を効率良く選択することができる情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。
【課題を解決するための手段】
【0015】
本開示によれば、前処理部は、1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する1つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成する。ファイル生成部は、前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成する。
【図面の簡単な説明】
【0016】
【
図2】配信システムの一例のシステム構成図である。
【
図4】第1の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。
【
図5】第1の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。
【
図7】第1の実施形態に係るファイル生成装置によるファイル生成処理のフローチャートである。
【
図8】第1の実施形態に係るクライアント装置により実行される再生処理のフローチャートである。
【
図9】第1の実施形態の変形例(1)におけるシーンディスクリプションのISOBMFFファイルを表す図である。
【
図10】第1の実施形態の変形例(1)におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。
【
図11】コンテンツ構成選択情報のグループの一例を表す図である。
【
図12】Matroska Media Containerのフォーマットを表す図である。
【
図13】第1の実施形態の変形例(4)に係るコンテンツ構成選択情報の格納方法を説明するための図である。
【
図14】RequiedPerformanceノードのシンタックスの一例を表す図である。
【
図15】6DoFContentStruct Descriptorの記述例を表す図である。
【
図16】第1の実施形態の変形例(5)におけるCSCのsemanticsを表す図である。
【
図17】第2の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。
【
図18】第2の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。
【
図19】第3の実施形態の変形例(1)におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。
【
図20】第3の実施形態の変形例(2)におけるCSCのsemanticsを表す図である。
【
図21】3次元モデルデータのAdaptationSetに格納された構成情報の利用方法を説明するための図である。
【
図22】コンピュータのハードウェア構成図である。
【発明を実施するための形態】
【0017】
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。また、本技術で開示される範囲は、実施形態の内容に限定されるものではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。
【0018】
非特許文献1:(上述)
非特許文献2:"ISO/IEC 14496-12:2015", Information technology. Coding of audio-visual objects. Part12:ISO base media file format, 2015-12
非特許文献3:"ISO/IEC 23009-1:2014", Information technology. Dynamic adaptive streaming over HTTP(DASH), Part1:Media presentation description and segment formats, 2014-5
【0019】
つまり、上述の非特許文献に記載されている内容も、参照により本明細書に組み込まれる。つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献1に記載されているScene Descriptionで用いられている構造/用語、非特許文献2に記載されているFile Structure、非特許文献3に記載されているMPEG-DASH規格で用いられている用語が発明の詳細な説明において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)等の技術用語についても同様に、発明の詳細な説明において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。
また、以下に示す項目順序に従って本開示を説明する。
【0020】
1.第1の実施形態
1.1 第1の実施形態の変形例(1)
1.2 第1の実施形態の変形例(2)
1.3 第1の実施形態の変形例(3)
1.4 第1の実施形態の変形例(4)
1.5 第1の実施形態の変形例(5)
2.第2の実施形態
2.1 第2の実施形態の変形例(1)
3.第3の実施形態
3.1 第3の実施形態の変形例(1)
3.2 第3の実施形態の変形例(2)
4.第4の実施形態
【0021】
[1.第1の実施形態]
対象物ベース、空間ベース及び混合型の表現手法の各コンテンツ構成を有する6DoFコンテンツの配信においては、例えば、シーンディスクリプションファイル、MPDファイル及び3Dモデルデータファイルが
図1のように構成されて配信される。
図1は、6DoFコンテンツの構成を表す図である。現状のこれらのコンテンツ構成においては、クライアントは下記の3つの指標でクライアント装置自身の再生能力が十分発揮できるか否かを判定する場合がある。
【0022】
第1の指標は、シーンディスクリプションファイル及び3次元モデルデータファイルを、それぞれ単体でデコード可能であるか否かを判定するための指標である。第2の指標は、シーンディスクリプションファイル及び3次元モデルデータファイルを全てデコード可能か否かを判定するための指標である。第3の指標は、デコード処理後のデータのレンダリングが可能か否かを判定するための指標である。レンダリングとは、3次元空間への配置し表示することを示している。クライアント装置がこれらの指標に基づいて各コンテンツ構成の再生処理が可能か否かを判定する場合、以下の情報の利用が考えられる。
【0023】
第1の情報は、MPDファイルが有するAdaptationSetのうちシーンディスクリプションを表すAdaptationSetに格納される@mimeType attribute及び@codecs attributeである。これらの情報で、クライアント装置はシーンディスクリプションのデコードが可能であるか否かの判定を行う。より詳しくは、クライアント装置がそのシーンディスクリプションのファイルフォーマットに対応しているか否かが@mimeType attributeで判定できる。また、クライアント装置がそのシーンディスクリプションをエンコードしたコーデックに対応しているか否かが@codecs attributeで判定できる。これにより、シーンディスクリプションが、MPEG-4 Scene DescriptionやglTF(GL Transmission Format)2.0といったフォーマットのうちどのフォーマットででたシーンディスクリプションであるかが分かり、クライアント装置がそのシーンディスクリプションを再生できるか否かが分かる。
【0024】
第2の情報は、シーンディスクリプションをISOBMFF(ISO Base Media File Format)で表した場合に格納されるsceneProfileLevelIndication filedである。この情報で、クライアント装置はシーンディスクリプションのデコード処理後のデータのレンダリングが可能であるか否かの判定を行う。この情報は、シーンディスクリプション(シーングラフをデータ化したもの)で表されるシーングラフ(階層の構造)から3次元空間を再構成するため用いるクライアント装置の再生処理能力を判定するための情報を含んでいる。例えば、sceneProfileLevelIndication filedは、ポイントクラウドの場合であればシーン毎の最大ポイント数を含み、メッシュの場合であればシーン毎の面の最大頂点数、最大面数及び最大頂点数を含む。すなわち、この情報により、シーン全体でどのくらいの再生処理能力が必要か否か分かる。
【0025】
第3の情報は、シーンディスクリプションファイルで表されるシーングラフから得られるシーンを構成する外部3次元モデルデータファイル数である。この情報で、クライアント装置はシーンディスクリプションファイル及び3次元モデルデータファイルをデコード可能であるか否かの判定を行う。例えば、クライアント装置は、自己の有する3次元モデルデータのデコーダの数が、シーンを構成する外部3次元モデルデータファイルの数よりも多ければ再生可能と判断する。この場合、使用するデコーダの数が多いほど、クライアント装置に求められる再生処理能力が高くなる。
【0026】
第4の情報は、MPDファイルが有するAdaptationSetのうち各3次元モデルデータを表すAdaptationSetに格納される@mimeType attribute及び@codecs attributeである。@mimeType attributeは、例えば、3Dモデルデータが格納されているファイルフォーマットの情報を含む。また、@codecs attributeは、3Dモデルデータがどういったコーデックでエンコードされているかの情報及びコーデックのプロファイル情報やレベル情報を含む。これらの情報で、クライアント装置は各3次元モデルデータのデコードが可能であるか否かの判定を行う。より詳しくは、クライアント装置が各3次元モデルデータのファイルフォーマットに対応しているか否かが@mimeType attributeで判定できる。また、クライアント装置が各3次元モデルデータをエンコードしたコーデックに対応しているか否かが@codecs attributeで判定できる。
【0027】
さらに、3次元モデルデータの再生互換情報が、@codecs attributeに含まれる場合であれば、クライアント装置は各3次元モデルデータのレンダリングが可能であるか否かの判定ができる。この場合、例えば、@codecs attributeには、ポイントクラウドの場合であれば3次元モデルデータの最大ポイント数が含まれ、メッシュの場合であれば3次元モデルデータの面の最大頂点数、最大面数及び最大頂点数が含まれる。
【0028】
第5の情報は、MPDファイルが有する各3次元モデルデータのRepresentationに格納される@bandwidth attributeである。この情報で、クライアント装置は各3次元モデルデータをデコード可能であるか否かの判定を行う。例えば、クライアント装置は、この情報を用いることで、3次元モデルデータ単体が再生可能であるビットレートであるか又はシーン全体で再生可能であるビットレートであるかを判定できる。
【0029】
以上の各情報のうち、第1、第4及び第5の情報が第1の指標として用いられ、第3、第4及び第5の情報が第2の指標として用いられ、第2及び第4の情報が第3の指標として用いられる。
【0030】
ここで、コンテンツ作成者としては、なるべく自由度の高い再生を利用者に提供してコンテンツの価値を高めたい希望がある。一方で、再生可能なクライアント装置の数は多い方が好ましい。そこで、コンテンツ作成者が、6DoFコンテンツとして複数のコンテンツ構成を準備して配信することが考えられる。以下では、対象物ベース、空間ベース及び混合型の各表現方法のそれぞれのコンテンツ構成を、対象物ベースのコンテンツ構成、空間ベースのコンテンツ構成及び混合型のコンテンツ構成と呼ぶ。
【0031】
例えば、コンテンツ作成者が混合型のコンテンツ構成と空間ベースのコンテンツ構成とを準備した場合、クライアント装置は、再生処理能力が高ければ混合型のコンテンツ構成を選択して再生するが、再生処理能力が低ければ空間ベースのコンテンツ構成を選択して再生する。この場合のシーンディスクリプションには、2つのコンテンツ構成が含まれるように記述される。この場合、従来であればクライアント装置は、第1~第5の情報を用いてコンテンツ構成を選択するために、シーンディスクリプションの全ての解析及びシーンを構成する3次元モデルデータのMPDのAdaptationSetに記述される情報の解析を行う。この処理は、各シーンにおいて実際に利用しないコンテンツ構成の部分も解析するため効率が悪い。
【0032】
しかし、今までの6DoFコンテンツの配信システムでは、クライアント装置は、異なるコンテンツ構成を有する各コンテンツのいずれが再生処理可能であるかを判定するための情報の提供は受けていない。そのため、クライアント装置は、実際にデコード及びレンダリングしてみないと再生処理可能であるか否かを判定することが困難である。そこで、クライアント装置がコンテンツ構成を効率良く選択することができるシステムについて説明する。
【0033】
[第1の実施形態に係るシステムの構成]
図2は、配信システムの一例のシステム構成図である。配信システム100は、情報処理装置であるファイル生成装置1、再生処理装置であるクライアント装置2及びWebサーバ3を含む。ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4に接続される。そして、ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4を介して相互に通信可能である。ここで、
図1においては、各装置を1台ずつ示しているが、配信システム100は、ファイル生成装置1及びクライアント装置2をそれぞれ複数台含んでもよい。
【0034】
ファイル生成装置1は、6DoFコンテンツを生成する。ファイル生成装置1は、生成した6DoFコンテンツをWebサーバ3にアップロードする。ここで、本実施形態では、Webサーバ3が6DoFコンテンツをクライアント装置2に提供する構成について説明するが、配信システム100は他の構成を採ることも可能である。例えば、ファイル生成装置1が、Webサーバ3の機能を含み、生成した6DoFコンテンツを自装置内に格納し、クライアント装置2に提供する構成であってもよい。
【0035】
Webサーバ3は、ファイル生成装置1からアップロードされた6DoFコンテンツを保持する。そして、Webサーバ3は、クライアント装置2からの要求にしたがい指定された6DoFコンテンツを提供する。
【0036】
クライアント装置2は、6DoFコンテンツの送信要求をWebサーバ3へ送信する。そして、クライアント装置2は、送信要求で指定した6DoFコンテンツをWebサーバ3から取得する。そして、クライアント装置2は、6DoFコンテンツをデコードして映像を生成して、その映像をモニタなどの表示装置に表示させる。
【0037】
ここで、6DoFコンテンツについて説明する。6DoFコンテンツは、3次元空間を1つもしくは複数の3次元オブジェクトで表現する。3次元オブジェクトは、6DoFコンテンツのローカル座標系で正規化されたバウンディングボックス(Bounding Box)内の座標系を用いて表現され、圧縮エンコードされてビットストリーム(bitstream)となる。このビットストリームを3次元空間へ配置するために、シーンディスクリプション(Scene Description)が用いられる。
【0038】
このシーンディスクリプションの規格は、複数存在する。基本的には、各時刻における各3次元オブジェクトを表示するシーンをシーングラフと称するツリー階層構造のグラフで表現し、そのシーングラフをバイナリ形式またはテキスト形式で表現する。ここで、シーングラフは、空間表示制御情報であり、3次元オブジェクトの表示に関する情報を、ノードを構成単位として定義し、複数のノードを階層的に組合せることで構成される。ノードは、ある座標系から別の座標系へと変換する座標変換情報のノード、3次元オブジェクトの位置情報や大きさ情報のノード、3次元オブジェクトやオーディオデータへのアクセス情報のノードがある。
【0039】
なお、以下においては、6DoFコンテンツは、空間表示制御情報であるシーンディスクリプションデータと、複数の3次元オブジェクトのメディアデータ(例えば、3次元オブジェクトのメッシュデータとテクスチャデータを合わせて表現したもの)とで構成されるものとする。また、6DoFコンテンツには、オーディオデータが含まれてもよい。3次元オブジェクトのメディアデータはポイントクラウドなどの別の形式も適用可能である。また、本実施例ではシーンディスクリプションファイルは、MPEG-4 Scene Description(ISO/IEC 14496-11)に準拠するものとする。
【0040】
MPEG-4 Scene Descriptionデータは、シーングラフをBIFS(Binary Format for Scenes)という形式でバイナリ化してものである。このシーングラフのBIFSへの変換は、所定のアルゴリズムを用いることで可能となる。また、シーンディスクリプションをISOBMFFに格納することで時刻毎にシーンを規定することができ、位置や大きさの変化する3次元オブジェクトを表現することが可能である。
【0041】
[第1の実施形態に係るファイル生成装置の構成]
次に、ファイル生成装置1の詳細について説明する。
図3は、ファイル生成装置のブロック図である。情報処理装置であるファイル生成装置1は、
図3に示すように、生成処理部10及び制御部11を有する。制御部11は、生成処理部10の制御に関する処理を実行する。例えば、制御部11は、生成処理部10の各部の動作タイミングなどの統括制御を行う。生成処理部10は、データ入力部101、前処理部102、符号化部103、ファイル生成部104及び送信部105を有する。
【0042】
データ入力部101は、3次元オブジェクト及びメタ情報などを生成するための元情報の入力を受け付ける。データ入力部101は、取得した元情報を前処理部102へ出力する。データ入力部101は、データの入力を受け付ける。データ入力部101が受け付けるデータには、3Dオブジェクト及び3Dオブジェクトの配置情報等のメタデータが含まれる。データ入力部101は、取得したデータを前処理部102へ出力する。
【0043】
前処理部102は、3Dオブジェクト及び3Dオブジェクトの配置情報等のメタデータを含むデータの入力をデータ入力部101から受ける。そして、前処理部102は、取得したデータを基にビットストリーム構成を決定し、各3Dオブジェクトのメタデータ、並びに、ビットストリームへのアクセス情報を用いてシーングラフを生成する。メタデータには、どのようなコーデックで圧縮するかなどの制御情報が含まれる。
【0044】
また、前処理部102は、コンテンツ構成毎に、上述した第1~第5の情報のうちのいずれか1つ又は複数のコンテンツ構成の情報を含む各コンテンツ構成選択情報を生成する。このコンテンツ構成選択情報により、各コンテンツ構成のシーンを再生するために必要とされる再生処理能力の指標が与えられる。
【0045】
そして、前処理部102は、シーンディスクリプション内でコンテンツ構成毎にコンテンツ構成選択情報を格納する。これにより、クライアント装置2はコンテンツ構成選択情報を用いて再生処理可能なコンテンツ構成を選択することが可能となる。以下に本実施例に係るコンテンツ構成選択情報の格納について詳細に説明する。
【0046】
図4は、第1の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。前処理部102は、
図4に示すように、シーンディスクリプションの中のSwitchノードの配下にコンテンツ構成毎に子ノードを並べて配置する。
図4では、例えば、コンテンツ構成301が混合型の表現手法のコンテンツ構成であり、コンテンツ構成302が、空間ベースの表現方法のコンテンツ構成である。そして、前処理部102は、各コンテンツ構成のシーン全体のデコード及びレンダリング可否判断に用いる情報をコンテンツ構成選択情報として格納するようにSwitchノードを拡張する。
【0047】
図5は、第1の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。例えば、前処理部102は、SwitchノードにおけるChoice fieldで複数のコンテンツ構成を示す。さらに、前処理部102は、それぞれのコンテンツ構成のコンテンツ構成選択情報を示すPoints field、VertivesParFace Field、Faces field、Indices field、Num3DmodeData Field、3DmodeIDataMimeType Field、3DmodeDataCodec field及びBitrate fieldを新規に追加する。そして、前処理部102は、Choice fieldで示されるコンテンツ構成順で、新規追加のfieldに値を格納することで、コンテンツ構成毎の値を格納する。
【0048】
Pointsは、ポイントクラウドのPoint数である。VertivesParFaceは、メッシュの面の頂点数である。Facesは、メッシュの面数である。Indicesは、メッシュの頂点数である。これら、Points、VertivesParFace、Faces及びIndicesは、第2の情報にあたる。Num3DmodelDataは、外部参照する3次元モデルデータの数である。このNum3DmodelDataは、第3の情報にあたる。3DmodelDataMimeTypeは、外部参照する3次元モデルデータのMimeTypeである。3DmodelDataCodecは、外部参照する3次元モデルデータのコーデックである。これら、Num3DmodelData及び3DmodelDataCodecは、第4の情報にあたる。Bitrateは、外部参照する3次元モデルデータを含めたビットレートである。このBitrateは、第5の情報にあたる。
【0049】
前処理部102は、3次元オブジェクト及び生成したシーングラフを符号化部103へ出力する。また、前処理部102は、メタデータをファイル生成部104へ出力する。
【0050】
符号化部103は、3次元オブジェクト及びシーングラフの入力を前処理部102から受ける。そして、符号化部103は、3次元オブジェクトを符号化しビットストリームを生成する。また、符号化部103は、取得したシーングラフを符号化しシーンディスクリプションを生成する。その後、符号化部103は、生成したビットストリーム及びシーンディスクリプションをファイル生成部104へ出力する。
【0051】
ファイル生成部104は、ビットストリーム及びシーンディスクリプションの入力を符号化部103から受ける。また、ファイル生成部104は、メタデータの入力を前処理部102から受ける。そして、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。
【0052】
また、ファイル生成部104は、前処理部102から取得したデータを基に、MPD(Media Presentation Description)ファイルを生成する。MPDファイルには、メディア種別、動画や音声のセグメントファイルの情報などの6DoFコンテンツのメタ情報が格納される。
【0053】
送信部105は、ビットストリーム、シーンディスクリプションのISOBMFFファイル及びMPDファイルをファイル生成部104から取得し、それらをWebサーバ3に送信してアップロードする。
【0054】
[第1の実施形態に係るクライアント装置の構成]
図6は、クライアント装置のブロック図である。
図6に示すように、クライアント装置2は、再生処理部20及び制御部21を有する。制御部21は、再生処理部20の各部の動作を制御する。例えば、制御部21は、再生処理部20の各部の動作のタイミングを統括制御する。再生処理部20は、ファイル取得部201、計測部202、ファイル処理部203、復号処理部204、表示制御部205、表示情報生成部206及び表示部207を有する。
【0055】
ファイル取得部201は、再生する6DoFコンテンツに対応するMPDファイルをWebサーバ3から取得する。そして、ファイル取得部201は、MPDファイルを基に、再生する6DoFコンテンツのシーンディスクリプションの情報を取得する。
【0056】
ファイル取得部201は、Webサーバ3にアクセスして表示する6DoFコンテンツのシーンディスクリプションが格納されたISOBMFFのファイルを取得する。そして、ファイル取得部201は、シーンディスクリプションが格納されたISOBMFFのファイルをファイル処理部203へ出力する。
【0057】
さらに、ファイル取得部201は、ファイル処理部203により選択されたビットストリームの情報をファイル処理部203から取得する。そして、ファイル取得部201は、Webサーバ3にアクセスして、選択されたビットストリームのセグメントファイルを取得する。その後、ファイル取得部201は、取得したビットストリームのセグメントファイルをファイル処理部203へ出力する。
【0058】
計測部202は、クライアント装置2とWEBサーバとの間の伝送路の伝送帯域を計測する。そして、計測部202は、伝送帯域の計測結果をファイル処理部203へ出力する。
【0059】
ファイル処理部203は、再生する6DoFコンテンツに対応するMPDファイルの入力をファイル取得部201から受ける。そして、ファイル処理部203は、取得したMPDファイルをパースして再生する6DoFコンテンツのシーンディスクリプションの情報を取得する。また、ファイル処理部203は、適応配信に用いる複数のデータの認識も行う。例えば、ビットレートを切替える適応配信であれば、各ビットレートに対応するビットストリームのセグメントファイルの情報を取得する。この場合、ファイル処理部203は、再生する6DoFコンテンツのシーンディスクリプションの情報をファイル取得部201へ出力する。
【0060】
ファイル処理部203は、シーンディスクリプションが格納されたISOBMFFのファイルの入力をファイル取得部201から受ける。ファイル処理部203は、取得したISOBMFFのファイルをパースする。そして、ファイル処理部203は、シーンディスクリプションのSwitchノードを取得する。その後、ファイル処理部203は、Switchノードからコンテンツ構成選択情報を取得する。次に、ファイル処理部203は、取得したコンテンツ構成選択情報から、クライアント装置2の再生処理能力に応じて用いるコンテンツ構成を選択する。その後、ファイル処理部203は、選択したコンテンツ構成に対応するシーングラフの中の子ノードを取得する。そして、ファイル処理部203は、選択したコンテンツ構成のシーンにおける、座標変換情報、3次元オブジェクトの配置情報及びアクセス情報を取得する。
【0061】
また、ファイル処理部203は、伝送帯域の計測結果の入力を計測部202から受ける。そして、ファイル処理部203は、シーンディスクリプションのパース結果、並びに、計測部202から取得した伝送帯域を示す情報等に基づいて、再生するビットストリームのセグメントファイルを選択する。そして、ファイル処理部203は、選択したビットストリームのセグメントファイルの情報をファイル取得部201へ出力する。この時、伝送帯域に応じて選択するビットストリームのセグメントファイルを変えることで、ビットレートに応じた適応配信が実現される。
【0062】
その後、ファイル処理部203は、選択したビットストリームのセグメントファイルの入力をファイル取得部201から受ける。そして、ファイル処理部203は、取得したビットストリームのセグメントファイルから、ビットストリームのデータを抽出し復号処理部204へ出力する。
【0063】
復号処理部204は、ビットストリームデータの入力をファイル処理部203から受ける。そして、復号処理部204は、取得したビットストリームのデータに対して復号処理を施す。その後、復号処理部204は、復号化したビットストリームのデータを表示情報生成部206へ出力する。
【0064】
表示制御部205は、操作者の視点位置及び視線方向の情報の入力を図示しない入力装置から受ける。そして、表示制御部205は、取得した視点位置及び視点方向の情報を表示情報生成部206へ出力する。
【0065】
また、表示制御部205は、どのような3次元オブジェクトが存在するかの情報の入力をファイル処理部203から受ける。操作者は、視点位置及び視線情報の代わりに入力装置を用いて注目する3次元オブジェクトを示す指定情報の入力を行うこともできる。表示制御部205は、操作者により指定された注目する3次元オブジェクトを示す指定情報を取得する。そして、例えば3次元オブジェクトの追尾した視聴の場合、表示制御部205は、時間経過にしたがい指定情報で指定された3次元オブジェクトを追尾するように視点位置及び視点方向の情報を表示情報生成部206へ出力する。これにより、例えば、操作者により指定された3次元オブジェクトを追尾する画像を表示することができる。また、例えば3次元オブジェクトの位置を表示する場合、表示制御部205は、指定された3次元オブジェクトを6DoFコンテンツの中から特定する情報を生成する。
【0066】
表示情報生成部206は、シーンディスクリプション及び復号されたビットストリームのデータおよび、取得した視点位置及び視点方向の情報を受信し、表示情報を生成する。以下に表示情報生成部206の詳細について説明する。
【0067】
ビットストリームのデータの入力を復号処理部204から受ける。そして、表示情報生成部206は、シーンディスクリプションを基に、取得したビットストリームのデータである3次元オブジェクトを3次元空間に配置する。さらに、表示情報生成部206は、操作者の視点位置及び視線方向の情報の入力を表示制御部205から受ける。そして、表示情報生成部206は、視点位置及び視線方向に合わせて3次元空間に配置した3次元オブジェクトのレンダリングを行い表示用の画像を生成する。その後、表示情報生成部206は、生成した表示用の画像を表示部207に供給する。
【0068】
表示部207は、モニタなどの表示装置を有する。表示部207は、表示情報生成部206により生成された表示用の画像の入力を受ける。そして、表示部207は、取得した表示用の画像を表示装置に表示させる。
【0069】
[第1の実施形態に係るファイル生成手順]
次に、
図7を参照して、第1の実施形態に係るファイル生成装置1によるファイル生成処理の流れについて詳細に説明する。
図7は、第1の実施形態に係るファイル生成装置によるファイル生成処理のフローチャートである。
【0070】
前処理部102は、コンテンツ構成選択情報を生成する(ステップS1)。本実施形態では、前処理部102は、シーンディスグラフにおけるSwitchノードに格納するためのコンテンツ構成選択情報を生成する。
【0071】
そして、前処理部102は、コンテンツ構成選択情報がSwitchノードに格納されたシーングラフのデータを生成する(ステップS2)。前処理部102は、コンテンツ構成選択情報がSwitchノードに格納されたシーングラフのデータを符号化部103へ出力する。
【0072】
次に、符号化部103は、3次元オブジェクトのデータをエンコードして3次元オブジェクトのビットストリームを生成する。また、符号化部103は、取得したシーングラフを符号化しシーンディスクリプションを生成する(ステップS3)。
【0073】
次に、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納してビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納してシーンディスクリプションのセグメントファイルを生成する(ステップS4)。
【0074】
送信部105は、ファイル生成部104により生成されたセグメントファイルをWebサーバ3へ出力する(ステップS5)。
【0075】
[第1の実施形態に係る再生処理手順]
次に、
図8を参照して、本実施形態に係るクライアント装置2により実行される再生処理の流れを説明する。
図8は、第1の実施形態に係るクライアント装置により実行される再生処理のフローチャートである。
【0076】
ファイル取得部201は、再生する6DoFコンテンツに対応するMPDファイルをWebサーバ3から取得する(ステップS11)。ファイル取得部201は、取得したMPDファイルをファイル処理部203へ出力する。
【0077】
ファイル処理部203は、ファイル取得部201から入力されたMPDファイルをパースして解析処理を実行する(ステップS12)。ファイル処理部203は、解析結果を基に、再生する6DoFコンテンツのシーンディスクリプションを特定する。
【0078】
そして、ファイル取得部201は、ファイル処理部203により特定されたシーンディスクリプションを取得する。次に、ファイル処理部203は、ファイル取得部201が取得したシーンディスクリプションをパースしてSwitchノードを取得する。次に、ファイル処理部203は、Switchノードからコンテンツ構成選択情報を取得する(ステップS13)。
【0079】
そして、ファイル処理部203は、取得したコンテンツ構成選択情報を用いてクライアント装置2の再生処理能力に応じたコンテンツ構成を選択する(ステップS14)。
【0080】
次に、ファイル処理部203は、選択したコンテンツ構成に対応する子ノードをパースする。その後、ファイル処理部203は、パース結果を基に、再生する6DoFコンテンツに対応するビットストリームのセグメントファイルを取得する(ステップS15)。復号処理部204は、ビットストリームのセグメントファイルに対して復号処理を施す。その後、復号処理部204は、ビットストリームのデータを表示情報生成部206へ出力する。
【0081】
表示制御部205は、入力された視点位置及び視線方向の情報を表示情報生成部206へ出力する。表示情報生成部206は、表示制御部205から取得した視点位置及び視線方向の情報を用いて3次元オブジェクトのレンダリングや位置情報の付加を行い表示用の画像を生成して表示部207に表示させる視聴処理を実行する(ステップS16)。
【0082】
以上に説明したように、本実施例に係るファイル生成装置は、シーンディスクリプションのルートノードであるSwitchノードにコンテンツ構成選択情報を格納してクライアント装置へ提供する。クライアント装置は、シーンディスクリプションのルートノードであるSwitchノードを取得しコンテンツ構成選択情報を取得して、取得したコンテンツ構成選択情報を用いてコンテンツ構成の選択を行う。
【0083】
コンテンツ構成選択情報が格納されていない構成では、シーンディスクリプション全ての解析を行いコンテンツ構成選択するための情報を収集した。これに対して、本実施形態に係る配信システムでは、クライアント装置は、Switchノードを取得すればコンテンツ構成選択情報を取得でき、シーンディスクリプションの他のノードの解析を行わなくてもコンテンツ構成を選択するための情報を取得できる。したがって、効率の良いコンテンツ構成の選択が可能となる。
【0084】
コンテンツ作成者は、コンテンツ構成を複数準備して再生能力の異なるクライアント装置に対応可能な6DoFコンテンツの配信が可能となる。そして、クライアント装置は、自装置の再生処理能力に応じたコンテンツ構成の選択を効率よく行うことができる。
【0085】
[1.1 第1の実施形態の変形例(1)]
本変形例に係るファイル生成装置1は、シーンディスクリプションのISOBMFFファイルのSampleEntryにコンテンツ構成選択情報を格納することが第1の実施形態と異なる。
【0086】
本変形例に係るファイル生成装置1の前処理部102は、コンテンツ構成選択情報をメタとして生成する。そして、前処理部102は、コンテンツ構成選択情報を含むメタデータをファイル生成部104へ送信する。
【0087】
ファイル生成部104は、ビットストリーム及びシーンディスクリプションの入力を符号化部103から受ける。また、ファイル生成部104は、コンテンツ構成選択情報を含むメタデータの入力を前処理部102から受ける。
【0088】
ファイル生成部104は、ビットストリームについては第1の実施形態と同様に、取得したビットストリームをセグメント毎にISOBMFFファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。
【0089】
一方、シーンディスクリプションのデータをISOBMFFファイルに格納する場合、ファイル生成部104は、メタデータの中からコンテンツ構成選択情報を取得する。そして、ファイル生成部104は、シーンディスクリプションのISOBMFFファイルのSampleEntryにコンテンツ構成選択情報を格納する。
【0090】
例えば、ファイル生成部104は、
図9に示すように、シーンディスクリプションのISOBMFFファイルのSampleEntryに、BOX303で示される6DoFContentStructBoxを新しく追加する。
図9は、第1の実施形態の変形例(1)におけるシーンディスクリプションのISOBMFFファイルを表す図である。そして、ファイル生成部104は、その6DoFContentStructBoxの中に、コンテンツ構成毎のコンテンツ構成選択情報を格納する。
【0091】
例えば、ファイル生成部104は、
図10に示すシンタックスで表されるコンテンツ構成選択情報を6DoFContentStructBoxに格納する。
図10は、第1の実施形態の変形例(1)におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。この場合のファイル構成選択情報は、
図5で示した第1の実施形態で新しく追加したfieldと同様の情報である。
【0092】
このように、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。そして、ファイル生成部104は、ファイル構成情報を含むシーンディスクリプションのISOBMFFファイルを送信部105へ出力する。
【0093】
本変形例に係るクライアント装置2のファイル処理部203は、シーンディスクリプションのISOBMFFファイルの入力をファイル取得部201から受ける。そして、シーンディスクリプションのISOBMFFファイルのInitialization Segmentを取得する。次に、ファイル処理部203は、取得したInitialization Segmentにおける6DoFContentStructBoxからコンテンツ構成選択情報を取得する。そして、ファイル処理部203は、この取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成をシーンディスクリプションの中から選択する。
【0094】
以上に説明したように、本変形例に係るクライアント装置は、シーンディスクリプション自体の解析前にコンテンツ構成選択情報を取得することができ、シーンディスクリプション自体の解析を行わずにコンテンツ構成の選択を行うことができる。このように、本実施例に係るクライアント装置は、コンテンツ構成の選択のためにシーンディスクリプション自体の解析を行わなくても良い。変形例(1)の構成は、時間毎にコンテンツ構成の再生に要求される再生処理能力が変化しない場合に有効である。この場合、シーンディスクリプション自体の拡張を行わなくてもよい。
【0095】
[1.2 第1の実施形態の変形例(2)]
本変形例に係るファイル生成装置1は、各コンテンツ構成選択情報の値を決めてグループ化し、そのグループにより各コンテンツ構成の属するグループを示すことで各コンテンツ構成のコンテンツ構成選択情報を表すことが第1の実施形態と異なる。
【0096】
図11は、コンテンツ構成選択情報のグループの一例を表す図である。
図11の表では、識別番号であるRequiedPerformanceIDとして01~03が与えられたグループが設定される。そして、グループ毎に、各コンテンツ構成選択情報についてどのような値が設定されているかが表される。
【0097】
本実施例に係るファイル生成装置1の前処理部102は、
図11に示したコンテンツ構成選択情報のグループの情報を有する。そして、前処理部102は、コンテンツ構成毎にいずれのグループにあたるかをRequiedPerformanceIDにより表した情報を、Switchノードに格納する。
【0098】
本実施例に係るクライアント装置2のファイル処理部203は、シーンディスクリプションのSwitchノードを解析して、各コンテンツ構成が属するグループのRequiedPerformanceIDを取得する。そして、ファイル処理部203は、各コンテンツ構成が属するグループに割り当てられたコンテンツ構成選択情報から、各コンテンツ構成の再生で要求される再生処理能力を判定してコンテンツ構成の選択を行う。
【0099】
以上に説明したように、本実施例に係るファイル生成装置は、コンテンツ構成選択情報のグループを用いてコンテンツ構成毎のコンテンツ構成選択情報を通知する。これにより、コンテンツ構成毎の細かいコンテンツ構成選択情報の生成を行わなくても良くなり、コンテンツ構成選択情報の生成処理を軽くすることが可能となる。本手法は第1の実施形態の変形例(1)にも適用可能である。
【0100】
[1.3 第1の実施形態の変形例(3)]
本変形例に係るファイル生成装置1は、3次元モデルデータを伝送する際のファイルフォーマットとしてISOBMFFではなく、Matroska Media Container(http://www.matroska.org/)を用いることが第1の実施形態と異なる。
【0101】
図12は、Matroska Media Containerのフォーマットを表す図である。本変形例に係るファイル生成装置1のファイル生成部104は、Track Entry elementに、コンテンツ構成選択情報を有する6DoFContentStruct elementを格納する。この際、ファイル生成部104は、Element Typeをバイナリとし、且つ、EBML(Extensible Binary Meta Language)データとして
図10に示したSelectContentStructMetadata()をバイナリデータとして格納する。
【0102】
本変形例に係るクライアント装置2のファイル処理部203は、シーンディスクリプションが含まれるMatroska Media ContainerファイルのInitialization Segmentを取得する。そして、ファイル処理部203は、Initialization Segmentに含まれる6DoFContentStruct elementからコンテンツ構成選択情報を取得してコンテンツ構成の選択を行う。
【0103】
このように、変形例(1)とは異なるコンテナフォーマットを用いた場合でもコンテンツ構成選択情報を提供してクライアント装置にコンテナ構成の選択を行わせることが可能である。また、本変形例ではコンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えば、変形例(2)のようにRequiedPerformanceIDを表すようにElement TypeをIntegerとして格納することも可能である。
【0104】
[1.4 第1の実施形態の変形例(4)]
本実施例に係るファイル生成装置1は、シーンディスクリプションにおいて、コンテンツ構成毎にコンテンツ構成選択情報を格納することが第1の実施形態と異なる。
図13は、第1の実施形態の変形例(4)に係るコンテンツ構成選択情報の格納方法を説明するための図である。
【0105】
本変形例に係るファイル生成装置1のファイル生成部104は、例えば、
図4に示すように、コンテンツ構成301のGroupノードの配下にRequiedPerformanceノード311を新しく定義し、コンテンツ構成302のGroupノードの配下にRequiedPerformanceノード312を新しく定義する。そして、ファイル生成部104は、各RequiedPerformanceノード311にコンテンツ構成301のコンテンツ構成選択情報を格納する。また、ファイル生成部104は、各RequiedPerformanceノード312にコンテンツ構成302のコンテンツ構成選択情報を格納する。
【0106】
図14は、RequiedPerformanceノードのシンタックスの一例を表す図である。具体的には、ファイル生成部104は、
図14に示すようなシンタックスを用いて1つのコンテンツ構成のコンテンツ構成選択情報を有するノードとしてRequiedPerformanceノードを定義する。
図14に示すように、RequiedPerformanceノードは、コンテンツ構成の再生可否判定の指標となる情報が登録される。この場合も、Pointsは、ポイントクラウドのPoint数を表す。VertivesParFaceは、メッシュの面の頂点数を表す。Facesは、メッシュの面数を表す。Indicesは、メッシュの頂点数を表す。Num3DmodelDataは、外部参照する3次元モデルデータの数を表す。3DmodelDataMimeTypeは、外部参照する3次元モデルデータのMimeTypeを表す。3DmodelDataCodecは、外部参照する3次元モデルデータのコーデックを表す。Bitrateは、外部参照する3次元モデルデータを含めたビットレートを表す。
【0107】
本変形例に係るクライアント装置2のファイル処理部203は、コンテンツ構成毎のRequiedPerformanceノードを取得する。この段階では、ファイル処理部203は、このGroupノード配下の他の子ノードは取得しない。次に、ファイル処理部203は、各RequiedPerformanceノードから各コンテンツ構成のコンテンツ構成選択情報を取得する。そして、ファイル処理部203は、コンテンツ構成の選択を行う。その後、ファイル処理部203は、選択したコンテンツ構成のGroupノード以下を取得してパースする。
【0108】
以上に説明したように、本変形例に係るクライアント装置は、各コンテンツ構成のGroupノード直下のRequiedPerformanceノードまでを取得して解析することで、コンテンツ構成の選択を行うことができる。したがって、シーンディスクリプション全体を解析する場合に比べて、処理を削減することができる。また、既存のノードに変更を加えることなく、コンテンツ構成選択情報をクライアント装置へ提供することができる。
【0109】
ここで、本変形例では、Groupノードの子ノードとして、コンテンツ構成選択情報を格納するノードを生成したが、コンテンツ構成のルートノードであれば、他のノードの子ノードとしてもよい。また、本変形例ではコンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えば、RequiedPerformanceノードを、変形例(2)におけるRequiedPerformanceIDを保持するように構成してもよい。
【0110】
[1.5 第1の実施形態の変形例(5)]
本変形例に係るファイル生成装置1は、シーンディスクリプションへのアクセス情報を示すMPDファイルにおけるAdaptationSetにコンテンツ構成選択情報を格納することが第1の実施形態と異なる。
【0111】
本変形例に係るファイル生成装置1の前処理部102は、コンテンツ構成選択情報を生成する。そして、前処理部102は、コンテンツ構成選択情報を含むメタデータをファイル生成部104へ送信する。
【0112】
ファイル生成部104は、ビットストリーム及びシーンディスクリプションの入力を符号化部103から受ける。また、ファイル生成部104は、コンテンツ構成選択情報を含むメタデータの入力を前処理部102から受ける。
【0113】
そして、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。
【0114】
さらに、ファイル生成部104は、前処理部102から取得したデータを基に、MPDファイルを生成する。この時、ファイル生成部104は、メタデータに含まれるコンテンツ構成選択情報を取得する。そして、ファイル生成部104は、
図4で示したMPDファイルにおけるシーンディスクリプションのAdaptationSet320に
図15に示した6DoFContentStruct descriptorを定義する。
図15は、6DoFContentStruct Descriptorの記述例を表す図である。さらに、ファイル生成部104は、取得したコンテンツ構成選択情報にしたがって、コンテンツ構成毎のCSC elementを6DoFContentStruct Descriptorに格納することで、CSC elementのattributeでコンテンツ構成選択情報を登録する。
【0115】
図16は、第1の実施形態の変形例(5)におけるCSCのsemanticsを表す図である。
図16に示すように、CSCは、コンテンツ構成のcapabilityを示す情報エレメントについて定義を記載したものである。CSCは1つ以上のエレメントから最大255までのエレメントで構成される。ここで、@Useは使用される各エレメントがOptionalかMandatoryかの属性情報を示すものである。
【0116】
CSC elementが複数出現する場合は、シーンディスクリプションのSwitchノードのchoice fieldに記載されたコンテンツ構成順で登録される。この場合、CSC@pointsは、ポイントクラウドのPoint数を表す。CSC@VertivesParFaceは、メッシュの面の頂点数を表す。CSC@Facesは、メッシュの面数を表す。CSC@Indicesは、メッシュの頂点数を表す。CSC@Num3DmodelDataは、外部参照する3次元モデルデータの数を表す。CSC@3DmodelDataMimeTypeは、外部参照する3次元モデルデータのMimeTypeを表す。CSC@3DmodelDataCodecは、外部参照する3次元モデルデータのコーデックを表す。CSC@Bitrateは、外部参照する3次元モデルデータを含めたビットレートを表す。
【0117】
本実施例に係るクライアント装置2のファイル処理部203は、MPDファイルをパースすることでコンテンツ構成選択情報を取得する。すなわち、ファイル処理部203は、MPDファイルを取得した時点でコンテンツ構成選択情報を取得することができ、シーンディスクリプションに再生可能であるコンテンツが存在するか否かを判定することができる。
【0118】
以上に説明したように、本実施例に係るクライアント装置は、シーンディスクリプションを取得せずとも再生可能なコンテンツ構成の選択ができる。このことから、効率のよいコンテンツ構成選択が可能となる。ただし、この場合、MPDファイルにコンテンツ構成選択情報が格納されるため、時間毎にコンテンツ構成の再生に要求される再生処理能力が変化しない場合に有効と言える。また、本変形例ではコンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えば、CSC elementのattributeが変形例(2)のようにRequiedPerformanceIDを表す情報を格納するように構成することも可能である。
【0119】
[2.第2の実施形態]
本実施形態に係るファイル生成装置1は、コンテンツ構成毎にシーンディスクリプションを別ファイルとするファイル構成として、各シーンディスクリプションのAdaptationSetにコンテンツ構成選択情報を格納することが第1の実施形態と異なる。本実施形態に係るファイル生成装置1も
図3のブロック図で表される。また、本実施形態に係るクライアント装置2も
図6のブロック図で表される。以下の説明では、第1の実施形態と同様の各部の動作については説明を省略する場合がある。
【0120】
図17は、第2の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。本変形例に係るファイル生成装置1の前処理部102は、
図17に示すようにコンテンツ構成毎にシーンディスクリプション331及び332を生成する。シーンディスクリプション331は、コンテンツ構成#1のシーンディスクリプションである。また、シーンディスクリプション332は、コンテンツ構成#2のシーンディスクリプションである。そして、前処理部102は、コンテンツ構成#1及び#2のそれぞれのコンテンツ構成選択情報を生成し、ファイル生成部104へ出力する。
【0121】
ファイル生成部104は、シーンディスクリプション331及び332を符号化部103から取得する。また、ファイル生成部104は、コンテンツ構成#1及び#2のそれぞれのコンテンツ構成選択情報を前処理部102から取得する。
【0122】
そして、ファイル生成部104は、シーンディスクリプション331及び332をISOBMFFファイルに格納する。また、ファイル生成部104は、MPDファイルにおけるシーンディスクリプション331及び332のそれぞれのAdaptationSetに
図15に示した6DoFContentStruct Descriptorを用いてそれぞれのコンテンツ構成情報を格納する。
【0123】
本実施形態に係るクライアント装置2のファイル処理部203は、MPDファイルをファイル取得部201から取得する。そして、ファイル処理部203は、MPDファイルの各シーンディスクリプション331及び332のそれぞれのAdaptationSetに含まれるコンテンツ構成選択情報を取得する。そして、ファイル処理部203は、取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成を選択する。その後、ファイル処理部203は、選択したコンテンツ構成のシーンディスクリプションをファイル取得部201を介してWebサーバ3から取得する。
【0124】
以上に説明したように、本実施形態に係るクライアント装置は、MPDファイルを取得した時点でコンテンツ構成の選択が行える。一方、第1の実施形態及びその変形例に係る手法では、利用しないコンテンツ構成を含むシーンディスクリプションを取得するため、使用しないデータを取得することになる。このように、本実施例に係るクライアント装置は、余分なコンテンツ構成のシーンディスクリプションのデータを取得しなくても良いため、第1の実施形態及びその変形例と比較して、効率の良いコンテンツ構成選択が可能となる。ただし、この場合、MPDファイルにコンテンツ構成選択情報が格納されるため、時間毎にコンテンツ構成の再生に要求される再生処理能力が変化しない場合に有効と言える。
【0125】
[2.1 第2の実施形態の変形例(1)]
本変形例に係るファイル生成装置1は、コンテンツ構成選択情報をシーンディスクリプションのISOBMFFファイルのSampleEntryに格納することが第2の実施形態と異なる。
【0126】
本変形例に係るファイル生成装置1の前処理部102は、コンテンツ構成選択情報を生成する。そして、前処理部102は、コンテンツ構成選択情報を含むメタデータをファイル生成部104へ送信する。
【0127】
ファイル生成部104は、ビットストリーム及びシーンディスクリプションの入力を符号化部103から受ける。また、ファイル生成部104は、ンテンツ構成選択情報を含むメタデータの入力を前処理部102から受ける。
【0128】
そして、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。
【0129】
このシーンディスクリプションのISOBMFFファイルへの格納時に、ファイル生成部104は、メタデータに含まれるコンテンツ構成選択情報をシーンディスクリプションのISOBMFFファイルのSampleEntryに格納する。この場合、ファイル生成部104は、
図9及び
図10で示した格納方法によりコンテンツ構成選択情報を格納することができる。
【0130】
本実施形態に係るクライアント装置2のファイル処理部203は、シーンディスクリプションのISOBMFFファイルをファイル取得部201から取得する。次に、ファイル処理部203は、取得したシーンディスクリプションのISOBMFFファイルのInitialization Segmentを取得する。そして、ファイル処理部203は、シーンディスクリプションのISOBMFFファイルのInitialization Segmentに含まれる6DoFContentStructBoxからコンテンツ構成選択情報を取得する。そして、ファイル処理部203は、取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成を選択する。その後、ファイル処理部203は、選択したコンテンツ構成のシーンディスクリプションをファイル取得部201を介してWebサーバ3から取得する。
【0131】
以上に説明したように、本実施例に係るクライアント装置は、シーンディスクリプションのISOBMFFファイルのInitialization Segmentに含まれる6DoFContentStructBoxからコンテンツ構成選択情報を取得する。その後、クライアント装置は、利用するコンテンツ構成のシーンディスクリプションのデータを取得すればよく、他の使用しないコンテンツ構成のシーンディスクリプションのデータを取得しなくてもよい。したがって、効率の良いコンテンツ構成選択が可能となる。
【0132】
ここで、3次元モデルデータを伝送する際のファイルフォーマットとしてISOBMFFではなく、Matroska Media Containerを用いることも可能である。Matroska Media Containerを用いる場合、ファイル生成部104は、第1の実施形態の変形例(3)と同様の方法でコンテンツ構成選択情報を格納してクライアント装置へ提供することができる。
【0133】
[3.第3の実施形態]
6DoFコンテンツの配信において、最大の処理能力、ビットレート、精細度をなどのアダプテーションの変更が可能である。そして、1つのコンテンツ構成内で3次元モデルデータ毎のビットレートアダプテーションなどにより、クライアントに要求される再生処理能力は変化する。例えば、あるコンテンツ構成で3次元モデルデータのメッシュの面数のバリエーションが最大のストリームを選択すれば、クライアントには高い再生処理能力が要求されるが、最小の面数を選択すればクライアントに要求される再生処理能力を低く抑えることができる。
【0134】
つまり、コンテンツ作成者は、コンテンツ構成内でアダプテーションされたコンテンツを提供すれば再生できるクライアントを増やすことができる。しかし、コンテンツ構成内でアダプテーションされたコンテンツが、クライアントにとって再生処理可能であるかをクライアントが判定するための情報は提供されていない。そこで、コンテンツ構成内でアダプテーションなされる場合において、クライアントがコンテンツ構成を効率良く選択することができるシステムについて説明する。
【0135】
本実施形態に係るファイル生成装置1は、再生に要求される最大の再生処理能力を示す情報とともに、必要最低限の再生処理能力を示す情報を生成して格納しクライアント装置2へ提供することが第1の実施形態と異なる。本実施形態に係るファイル生成装置1も
図3のブロック図で表される。また、本実施形態に係るクライアント装置2も
図6のブロック図で表される。以下の説明では、第1の実施形態と同様の各部の動作については説明を省略する場合がある。
【0136】
本実施形態に係るファイル生成装置1の前処理部102は、コンテンツ構成毎にコンテンツ構成選択情報を生成する。次に、前処理部102は、シーンディスクリプションのSwitchノードを
図18に示すように拡張してコンテンツ構成毎のコンテンツ構成選択情報を格納する。
【0137】
図18は、第2の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。MaxPointsは、ポイントクラウドの最大Point数である。MinPointsは、ポイントクラウドの最小Point数である。MaxVertivesParFaceは、メッシュの面の最大頂点数である。MinVertivesParFaceは、メッシュの面の最小頂点数である。MaxFacesは、メッシュの最大面数である。MinFacesは、メッシュの最小面数である。MaxIndicesは、メッシュの最大頂点数である。MinIndicesは、メッシュの最小頂点数である。MaxNum3DmodelDataは、外部参照する3次元モデルデータの最大数である。MinNum3DmodelDataは、外部参照する3次元モデルデータの最小数である。Max3DmodelDataCodecは、外部参照する3次元モデルデータのコーデックの最大値である。Min3DmodelDataCodecは、外部参照する3次元モデルデータのコーデックの最小値である。MaxBitrateは、外部参照する3次元モデルデータを含めた最大ビットレートである。MinBitrateは、外部参照する3次元モデルデータを含めた最小ビットレートである。
【0138】
ここで、最大値を示すコンテンツ構成情報は、そのコンテンツを確実に再生することが可能な再生処理能力を示す情報である。また、最小値を示すコンテンツ構成情報は、アダプテーションが実行された場合に、そのコンテンツを再生することが可能な再生処理能力を示す情報であり、そのコンテンツの一部分を再生することが可能な再生処理能力を示す情報と言える。
【0139】
前処理部102は、
図18で示すシンタックスで表されるSwitchノードを含むシーングラフを符号化部103へ出力する。
【0140】
本実施例に係るクライアント装置2のファイル処理部203は、取得したシーンディスクリプションからSwitchノードを取得する。そして、ファイル処理部203は、Switchノードから各システム構成のシステム構成選択情報を取得する。そして、ファイル処理部203は、取得したシステム構成選択情報を用いて使用するシステム構成の選択を行う。この場合、ファイル処理部203は、クライアント装置2があるシステム構成において最大値を表すコンテンツ構成選択情報で要求される再生処理能力を満たさなくても、最小値を表すコンテンツ構成選択情報で要求される再生処理能力を満たせば、そのコンテンツ構成を選択することができる。
【0141】
その後、ファイル処理部203は、シーンディスクリプションにおける選択したシステム構成のGroupノード以下をパースする。
【0142】
第1の実施形態ではアダプテーションに関わらずにコンテンツ構成について最大の再生処理能力が要求されたため、アダプテーションが行われれば再生可能なコンテンツ構成も選択されない。これに対して、本実施形態に係るクライアント装置は、最も再生処理能力が要求された場合再生困難なコンテンツ構成であっても、アダプテーションを行った場合に再生可能となるコンテンツ構成であれば、選択して再生することができる。
【0143】
これにより、コンテンツ作成者は、コンテンツ構成内のアダプテーションも考慮した、再生能力の異なるクライアント装置の再生に対応した6DoFコンテンツの配信が可能となる。すなわち、コンテンツ作成者は、1つのコンテンツ構成で再生可能なクライアント装置を増やすことが可能となる。また、クライアント装置は、コンテンツ構成内のアダプテーションを考慮して、自装置の再生処理能力に応じた再生可能なコンテンツ構成の選択が可能となる。
【0144】
[3.1 第3の実施形態の変形例(1)]
本変形例に係るファイル生成装置1は、シーンディスクリプションのISOBMFFファイルのSampleEntryにコンテンツ構成選択情報を格納することが第3の実施形態と異なる。
【0145】
ファイル生成部104は、コンテンツ構成選択情報の入力を前処理部102から受ける。ファイル生成部104は、シーンディスクリプションのISOBMFFファイルのSampleEntryに6DoFContentStructBoxを新しく追加する。そして、ファイル生成部104は、
図19に示すシンタックスで表されるコンテンツ構成選択情報を6DoFContentStructBoxに格納する。
図19は、第3の実施形態の変形例(1)におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。
【0146】
その後、ファイル生成部104は、ファイル構成情報を含むシーンディスクリプションのISOBMFFファイルを送信部105へ出力する。
【0147】
本変形例に係るクライアント装置2のファイル処理部203は、シーンディスクリプションのISOBMFFファイルの入力をファイル取得部201から受ける。そして、シーンディスクリプションのISOBMFFファイルのInitialization Segmentを取得する。次に、ファイル処理部203は、取得したInitialization Segmentにおける6DoFContentStructBoxからコンテンツ構成選択情報を取得する。そして、ファイル処理部203は、この取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成をシーンディスクリプションの中から選択する。この場合、ファイル処理部203は、クライアント装置2があるシステム構成において最大値を表すコンテンツ構成選択情報で要求される再生処理能力を満たさなくても、最小値を表すコンテンツ構成選択情報で要求される再生処理能力を満たせば、そのコンテンツ構成を選択することができる。
【0148】
以上に説明したように、コンテンツ構成選択情報をシーンディスクリプションのISOBMFFファイルのSampleEntryに格納する手法でも、アダプテーションを行った場合に再生可能となるコンテンツ構成をクライアント装置に選択させて再生させることができる。これにより、コンテンツ作成者は、コンテンツ構成内のアダプテーションも考慮した、再生能力の異なるクライアント装置の再生に対応した6DoFコンテンツの配信が可能となる。
【0149】
[3.2 第3の実施形態の変形例(2)]
本変形例に係るファイル生成装置1は、シーンディスクリプションへのアクセス情報を示すMPDファイルにおけるAdaptationSetにコンテンツ構成選択情報を格納することが第2の実施形態と異なる。
【0150】
本変形例に係るファイル生成装置1の前処理部102は、コンテンツ構成選択情報を生成する。そして、前処理部102は、コンテンツ構成選択情報を含むメタデータをファイル生成部104へ送信する。
【0151】
ファイル生成部104は、ビットストリーム及びシーンディスクリプションの入力を符号化部103から受ける。また、ファイル生成部104は、コンテンツ構成選択情報を含むメタデータの入力を前処理部102から受ける。
【0152】
そして、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。
【0153】
さらに、ファイル生成部104は、前処理部102から取得したデータを基に、MPDファイルを生成する。この時、ファイル生成部104は、MPDファイルにおけるシーンディスクリプションのAdaptationSetに
図20に示すように6DoFContentStruct descriptorを定義する。そして、ファイル生成部104は、コンテンツ構成選択情報にしたがい、コンテンツ構成毎のCSC elementを6DoFContentStruct Descriptorに格納して、CSC elementのattributeでコンテンツ構成選択情報を登録する。
図20は、第3の実施形態の変形例(2)におけるCSCのsemanticsを表す図である。
図20に示すように、CSCは、コンテンツ構成のcapabilityを示す情報エレメントについて定義を記載したものである。
【0154】
その後、ファイル生成部104は、ファイル構成情報を含むシーンディスクリプションのISOBMFFファイルを送信部105へ出力する。
【0155】
本実施例に係るクライアント装置2のファイル処理部203は、MPDファイルをパースすることでコンテンツ構成選択情報を取得する。そして、ファイル処理部203は、取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成をシーンディスクリプションの中から選択する。この場合、ファイル処理部203は、クライアント装置2があるシステム構成において最大値を表すコンテンツ構成選択情報で要求される再生処理能力を満たさなくても、最小値を表すコンテンツ構成選択情報で要求される再生処理能力を満たせば、そのコンテンツ構成を選択することができる。
【0156】
以上に説明したように、コンテンツ構成選択情報をMPDファイルにおけるシーンディスクリプションのAdaptationSetに格納する手法でも、アダプテーションを行った場合に再生可能となるコンテンツ構成をクライアント装置に選択させて再生させることができる。これにより、コンテンツ作成者は、コンテンツ構成内のアダプテーションも考慮した、再生能力の異なるクライアント装置の再生に対応した6DoFコンテンツの配信が可能となる。
【0157】
なお、第2の実施形態及びその変形例(1)~(2)では、コンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えばRequiedPerformanceIDを用いて最大値及び最小値を表すことも可能である。
【0158】
[4.第4の実施形態]
本実施形態に係るファイル生成装置1は、MPDにおける3次元モデルデータのAdaptationSetに含まれるRepresentationに、各3次元モデルデータの構成情報を格納することが第1~第3の実施形態と異なる。本実施形態に係るファイル生成装置1も
図3のブロック図で表される。また、本実施形態に係るクライアント装置2も
図6のブロック図で表される。以下の説明では、第1の実施形態と同様の各部の動作については説明を省略する場合がある。
【0159】
本実施形態に係るファイル生成装置1のファイル生成部104は、各コンテンツ構成のコンテンツ構成選択情報を前処理部102から取得する。そして、ファイル生成部104は、MPDファイルを生成する際に、3次元モデルデータのAdaptationSetのRepresentation毎にその3次元モデルデータの構成情報を格納する。
【0160】
ファイル生成部104は、3次元モデルデータの構成情報として、例えば、ポイントクラウドの場合のPoint数をRepresentation@numPointのattributeに格納する。また、ファイル生成部104は、メッシュの場合の面の頂点数をRepresentation@vpf、面数をRepresentation@numFase、頂点数をRepresentation@numIndicesのattributeに格納する。
【0161】
第1~第3の実施形態及びそれらの各実施例において、この構成情報の格納を行うことで、クライアント装置2のファイル処理部203は、コンテンツ構成選択情報とは別に独自の再生処理可能なコンテンツ構成選択を行うことが可能となる。ここでは、各3次元モデルデータの構成情報をRepresentationに格納する例を説明したが、ファイル生成部104は、AdaptationSetやPreselectionなど他のelementに格納してもよい。
【0162】
さらに、ファイル生成部104は、この構成情報の格納に加えて、MPDにおける3次元モデルデータのAdaptationSetで最小値及び最大値を格納してもよい。例えば、ファイル生成部104は、ポイントクラウドの場合のPoint数の最大値及び最小値をAdaptationSet@MaxNumPoint、AdaptationSet@MinNumPointのattributeで格納する。また、ファイル生成部104は、メッシュの場合の面の頂点数の最大値及び最小値をAdaptationSet@MaxVpf及びAdaptationSet@MinVpfのattributeで格納し、面数の最大値及び最小値をAdaptationSet@MaxNumFace及びAdaptationSet@MinFaceのattributeで格納し、頂点数の最大値及び最小値をAdaptationSet@MaxNumIndices及びAdaptationSet@MinIndicesのattributeで格納する。
【0163】
本実施形態に係る構成は、シーンディスクリプションを用いずに、MPDファイルを用いて3次元モデルデータを伝送する場合の再生に要求される再生処理能力の判断に利用することが可能である。例えば、
図21のように、MPDファイルにポイントクラウドの3次元モデルデータのAdaptationSet340が存在する場合で説明する。
図21は、3次元モデルデータのAdaptationSetに格納された構成情報の利用方法を説明するための図である。
【0164】
例えば、
図21に示すように、ファイル生成部104は、3次元モデルデータのAdaptationSet340にPoint数の最大値及び最小値の情報を格納する。また、ファイル生成部104は、AdaptationSet340に含まれるRepresentation341~343にPoint数を格納する。
【0165】
クライアント装置2のファイル処理部203は、MPDファイルをパースする際に、AdaptationSet340のレベルで再生処理可能であるRepresentationが存在するか否かを判定することができる。再生処理可能であるRepresentationが存在する場合には、ファイル処理部203は、Representation341~343の中から再生処理可能なRepresentationを選択して再生することが可能となる。
【0166】
また、ファイル生成部104は、3次元モデルデータの構成情報を他の場所に格納してもよい。例えば、ファイル生成部104は、3次元モデルデータのISOBMFFファイルのSampleEntryに新たに3DmModelDataMetadataBoxとして定義する。そして、ファイル生成部104は、3次元モデルデータのポイントクラウドの場合のPoint数、並びに、メッシュの場合の面の頂点数、面数及び頂点数を新たに定義した3DmModelDataMetadataBox格納してもよい。
【0167】
また、ファイル生成部104は、ISOBMFFではなくMatroska Media Containerをファイルフォーマットとして用いることも可能である。その場合、ファイル生成部104は、構成情報をTrack Entry elementに新しく3DmodelDataMetadata elementを格納する。この際、ファイル生成部104は、Element Typeをバイナリとし、EBMLデータとしては、DモデルデータのPointCloudの場合のPoint数、並びに、メッシュの場合の面の頂点数、面数及び頂点数をバイナリデータとして格納する。
【0168】
以上の各実施形態及びそれぞれの各変形例では、複数のコンテンツ構成が存在する場合で説明したが、1つのコンテンツ構成が再生処理可能なコンテンツ構成であるか否かを判定する場合にも利用可能である。さらに、クライアント装置が特定の3次元モデルデータの6DoFコンテンツの再生処理能力を有さない場合にも、コンテンツ構成選択情報は利用可能である。例えば、1つの3次元モデルデータと全天球映像を用いたコンテンツ構成でコンテンツ作成者が配信を行う場合がある。この場合、コンテンツ構成選択情報として3次元モデルデータではない全天球映像であることを示す情報を追加することで、クライアント装置は、コンテンツ構成選択情報を用いてそのコンテンツが再生可能なコンテンツ構成か否かを判定することが可能となる。
【0169】
[ハードウェア構成]
図22は、コンピュータのハードウェア構成図である。ファイル生成装置1及びクライアント装置2は、
図22に示すコンピュータ90によって実現可能である。コンピュータ90において、プロセッサ91、メモリ92、ネットワークインタフェース93、不揮発性ストレージ94、入出力インタフェース95及びディスプレイインタフェース86は、バスを介して相互に接続される。
【0170】
入出力インタフェース95には、例えば、入力装置、出力装置、記憶装置及びドライブといった外部デバイスが接続される。入力装置は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などである。出力装置は、例えば、スピーカ、出力端子などである。記憶装置は、例えば、ハードディスク、RAM(Random Access Memory)ディスクなどである。ドライブは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディアを駆動する。また、ディスプレインタフェース96には、表示装置であるディスプレイ98が接続される。
【0171】
ネットワークインタフェース93は、外部のネットワークに接続される。ファイル生成装置1及びクライアント装置2は、ネットワークインタフェース93を介して相互に接続される。また、ファイル生成装置1及びクライアント装置2は、ネットワークインタフェース93を介してWebサーバ3に接続する。不揮発性ストレージ94は、ハードディスクやSSD(Solid State Drive)などの内蔵の補助記憶装置である。
【0172】
以上のように構成されるコンピュータ90では、プロセッサ91が、例えば、不揮発性ストレージ94に記憶されているプログラムを、バスを介して、メモリ92にロードして実行することにより、上述した一連の処理が行われる。メモリ92にはまた、プロセッサ91が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0173】
プロセッサ91が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディアに記録して適用することができる。その場合、プログラムは、リムーバブルメディアを外部デバイス97であるドライブに装着することにより、入出力インタフェース95を介して、不揮発性ストレージ94にインストールすることができる。
【0174】
また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、ネットワークインタフェース93で受信し、不揮発性ストレージ94にインストールすることができる。
【0175】
その他、このプログラムは、不揮発性ストレージ94に、予めインストールしておくこともできる。
【0176】
以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
【0177】
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
【0178】
なお、本技術は以下のような構成を取ることもできる。
【0179】
(1)1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する1つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成する前処理部と、
前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成するファイル生成部と
を備えた情報処理装置。
(2)前記前処理部は、前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報を前記コンテンツ構成選択情報に含める付記(1)に記載の情報処理装置。
(3)前記前処理部は、前記コンテンツ構成選択情報をシーンディスクリプションに格納する付記(1)又は(2)に記載の情報処理装置。
(4)前記前処理部は、前記コンテンツ構成選択情報を前記シーンディスクリプションのSwitchノードに格納する付記(3)に記載の情報処理装置。
(5)前記前処理部は、前記コンテンツ構成選択情報を前記シーンディスクリプションにおけるコンテンツ構成毎に格納する付記(3)に記載の情報処理装置。
(6)前記前処理部は、前記コンテンツ構成選択情報をメタデータとして生成し、
前記ファイル生成部は、前記コンテンツ構成選択情報を格納したコンテンツファイルを生成する
付記(2)に記載の情報処理装置。
(7)前記ファイル生成部は、前記コンテンツファイルをISOBMFFファイルとして生成し、且つ、前記コンテンツファイルのSampleEntryにおける6DoFContentStructBoxに前記コンテンツ構成選択情報を格納する付記(6)に記載の情報処理装置。
(8)前記前処理部は、予め前記コンテンツ構成が決められたグループ毎の前記コンテンツ構成選択情報を有し、各前記コンテンツが属する前記グループの前記コンテンツ構成選択情報をそれぞれの前記コンテンツの前記コンテンツ構成選択情報とする付記(2)に記載の情報処理装置。
(9)前記前処理部は、前記コンテンツ構成選択情報をメタデータとして生成し、
前記ファイル生成部は、前記コンテンツ構成選択情報を格納したメタデータを生成する
付記(2)に記載の情報処理装置。
(10)前記ファイル生成部は、前記コンテンツファイルをMPDファイルとして生成し、且つ、前記コンテンツ構成選択情報を前記MPDファイルのAdaptationSetに格納する付記(9)に記載の情報処理装置。
(11)前記前処理部は、異なるコンテンツ構成を有する複数の前記コンテンツについて、前記コンテンツ構成毎に異なるシーンディスクリプションを生成し、
前記ファイル生成部は、各前記シーンディスクリプションに対するMPDファイルのAdaptationSet又はISOBMFFファイルのSampleEntryにおける6DoFContentStructBoxに前記コンテンツ構成選択情報を格納する
付記(2)に記載の情報処理装置。
(12)前記前処理部は、前記コンテンツを再生可能な再生処理能力を示す情報を前記コンテンツ構成情報とすることを特徴とする付記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)前記前処理部は、前記コンテンツの一部分を再生可能な再生処理能力を示す情報を前記コンテンツ構成選択情報に含ませる付記(12)に記載の情報処理装置。
(14)1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する1つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成し、
前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成する
処理をコンピュータに実行させる情報処理方法。
(15)1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する1つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報及び前記コンテンツのデータを含むファイルを取得するファイル取得部と、
前記ファイル取得部により取得された前記ファイルから前記コンテンツ構成選択情報を取得し、取得した前記コンテンツ構成選択情報を基に、各前記コンテンツの再生処理が可能であるか否かを判定し、再生する前記コンテンツを選択するファイル処理部と、
前記ファイル処理部により選択された前記コンテンツを再生する再生部と
を備えた再生処理装置。
(16)1以上の3次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する1つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を含むファイルを取得し、
取得した前記ファイルから前記コンテンツ構成選択情報を取得し、取得した前記コンテンツ構成選択情報を基に、各前記コンテンツの再生処理が可能であるか否かを判定し、再生する前記コンテンツを選択し、
選択された前記コンテンツのデータを取得し、
取得した前記データを用いて選択した前記コンテンツを再生する
処理をコンピュータに実行させる再生処理方法。
【符号の説明】
【0180】
1 ファイル生成装置
2 クライアント装置
3 Webサーバ
4 ネットワーク
10 生成処理部
11 制御部
20 再生処理部
21 制御部
101 データ入力部
102 前処理部
103 符号化部
104 ファイル生成部
105 送信部
201 ファイル取得部
202 計測部
203 ファイル処理部
204 復号処理部
205 表示制御部
206 表示情報生成部
207 表示部