(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-19
(45)【発行日】2024-03-28
(54)【発明の名称】受信装置、コンテンツ伝送システム、及びプログラム
(51)【国際特許分類】
H04S 1/00 20060101AFI20240321BHJP
H04N 21/439 20110101ALI20240321BHJP
H04S 7/00 20060101ALI20240321BHJP
G10K 15/02 20060101ALI20240321BHJP
【FI】
H04S1/00 700
H04N21/439
H04S7/00 300
H04S7/00 330
G10K15/02
(21)【出願番号】P 2020028692
(22)【出願日】2020-02-21
【審査請求日】2023-01-23
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100161148
【氏名又は名称】福尾 誠
(72)【発明者】
【氏名】河村 侑輝
(72)【発明者】
【氏名】今村 浩一郎
(72)【発明者】
【氏名】永田 裕靖
(72)【発明者】
【氏名】山上 悠喜
(72)【発明者】
【氏名】楠 知也
【審査官】冨澤 直樹
(56)【参考文献】
【文献】国際公開第2018/047667(WO,A1)
【文献】特開2000-013900(JP,A)
【文献】特開2018-019295(JP,A)
【文献】国際公開第2019/198486(WO,A1)
【文献】国際公開第2018/180531(WO,A1)
【文献】特開2018-191127(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
H04N 21/439
G10K 15/02
H04R 3/00-3/14
(57)【特許請求の範囲】
【請求項1】
音源オブジェクトの音声ストリームをブロック化した音声チャンクと、前記音源オブジェクトのワールド座標系における3次元座標を含む音源メタデータと、を受信する受信装置であって、
前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、
当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、
前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、
を備え
、
前記オブジェクト選択部は、前記処理負荷が大きいほど、前記音源オブジェクト選択領域が小さくなるように規定する受信装置。
【請求項2】
音源オブジェクトの音声ストリームをブロック化した音声チャンクと、前記音源オブジェクトのワールド座標系における3次元座標を含む音源メタデータと、を受信する受信装置であって、
前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、
当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、
前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、
を備え、
前記音源メタデータは、前記音源オブジェクトの優先度を含み、
前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記優先度が大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択す
る受信装置。
【請求項3】
音源オブジェクトの音声ストリームをブロック化した音声チャンクと、前記音源オブジェクトのワールド座標系における3次元座標を含む音源メタデータと、を受信する受信装置であって、
前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、
当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、
前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、
を備え、
前記音源メタデータは、前記音源オブジェクトの最大音圧レベルを含み、
前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記最大音圧レベルが大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択す
る受信装置。
【請求項4】
ユーザの視線方向を推定する位置姿勢推定部をさらに備え、
前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視線方向を軸方向とする前記ビュー座標系へ変換する、請求項1
から3のいずれか一項に記載の受信装置。
【請求項5】
前記位置姿勢推定部は、前記ユーザの視点位置を推定し、
前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視点位置を原点とする前記ビュー座標系へ変換する、請求項
4に記載の受信装置。
【請求項6】
前記3次元音響レンダリング部は、
前記音響処理対象の音源オブジェクトの音声チャンクを、前記ビュー座標系に配置された仮想マルチチャンネルスピーカに割り当てるマッピング部と、
前記仮想マルチチャンネルスピーカに割り当てられた前記音声チャンクを用いて、前記バイノーラル音声を生成するダウンミックス部と、
を備える、請求項1から
5のいずれか一項に記載の受信装置。
【請求項7】
請求項1から
6のいずれか一項に記載の受信装置と、
前記音声チャンクと前記音源メタデータとを関連付けて、前記受信装置に送信する配信装置と、
を備えるコンテンツ伝送システム。
【請求項8】
コンピュータを、請求項
1に記載の受信装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、3次元音響を再生する受信装置、コンテンツ伝送システム、及びプログラムに関する。
【背景技術】
【0002】
近年、AR(Augmented Reality)/VR(Virtual Reality)技術の進歩により、AR/VR対応端末や、AR/VRコンテンツが普及し始めている。AR/VR対応端末とは、スマートフォン、タブレット型端末、VRゴーグル、ARグラスなどである。例えば特許文献1には、ARコンテンツ視聴システムの構成例が開示されている。
【0003】
AR/VRコンテンツの再生において、視覚情報は端末に搭載されるGPU(Graphic Processing Unit)を用いた実時間レンダリング処理により、ユーザの動作に応じたインタラクティブなグラフィック表示が実現されている。AR/VR対応端末には、ジャイロセンサや加速度センサなど複数のセンサが搭載されており、これらのセンサから取得した情報を使用して端末の自己位置推定及び姿勢推定が行われる。端末のカメラで撮影される実空間の映像に対してCGデータ等で与えられたオブジェクトを合成表示するARコンテンツの場合には、カメラで撮影された実空間の映像も、自己位置・姿勢推定処理の入力情報として使用できる。この自己位置・姿勢推定処理の結果として得られた視点位置、視線方向を反映したビューポートに応じて、GPUを用いてグラフィックの実時間レンダリング処理が行われる。なお、スマートフォンやタブレット型端末の自己位置・姿勢推定処理などAR/VRコンテンツの再生に必要な基本技術については、iOS端末のARKitやAndroid端末のARCoreなど、OS(Operating System)レベルでの標準機能としての実装が進んでおり、一般の開発者によるAR/VR対応のアプリ開発や配布が容易となっている。
【0004】
AR/VRコンテンツの視聴におけるユーザの視点位置、視線方向の自由度は、DoF(Degrees of Freedom)と呼ばれる単位で表現される。例えば、360度VR映像コンテンツにおいて、視点位置が固定され、視線方向のみにインタラクティブ性がある場合は、ユーザの視線方向の自由度が3自由度(Role,Pitch,Yaw)の回転であるため3DoFと呼ばれる。一方、視線方向に加えて視点位置も自由に移動できるAR/VRコンテンツの場合には、視線方向の3自由度に加えて、視点位置の移動の自由度も3自由度(X,Y,Z)となるため合計6自由度であることから、6DoFと呼ばれる。また、3DoFを基本としながら、固定された椅子に座った状態での頭部の動きなど、限られた範囲での視点位置移動により、視覚情報に僅かながら自由度を追加するシステムを3DoF+と呼ぶ場合がある。
【0005】
視覚情報と聴覚情報を組み合わせたマルチモーダルな刺激により、AR/VRコンテンツの視聴においてユーザのコンテンツへの没入感を高められることが期待できる。例えば、特許文献2には、ユーザが仮想空間内を自由に動き回ることができるゲームコンテンツにおいて、環境音の発生エリアとユーザの視点に相当する仮想カメラの位置と方向の関係に応じて、適用的に環境音を生成するシステムの構成例が開示されている。また、特許文献3には、VRゲームにおいて、音源オブジェクトの音声を、ユーザの視線方向に応じてミックスされたモノラル音声又はステレオ音声を生成して提示するシステムのモデルが開示されている。
【0006】
上述した先行技術文献に開示された技術では、いずれも音源オブジェクトがユーザの視点位置と同じ高さにあることを前提とするか、又は実際には視点位置と違う高さにある音源も視点の高さにあるものとみなしている。つまり、視点の高さの上下にある音源オブジェクトや環境音発生エリアの音声は、ユーザの視線の高さで地面に水平な2次元平面に定位してしまう。そのため、例えば、ユーザがまっすぐ正面を向いた状態において、頭上を飛ぶ飛行機の音や、足元の地面近くで鳴く虫の鳴き声などを提示しても、上下方向の立体感を得ることはできない。
【0007】
そこで、音源オブジェクトの位置からユーザの外耳道入口までの音声波の伝達関数の周波数特性(頭部伝達関数)を用いた周波数領域での音響処理を用いることで、最終的な音声出力がステレオと同じ2チャンネル音声であっても、視点の高さよりも上下の方向も含めた3次元の音像定位を実現する技術が提案されている。このように、2チャンネル音声再生による3次元音響は、一般にバイノーラル音声と呼ばれる。バイノーラル音声は、頭部伝達関数を用いた周波数領域の演算によって生成する以外に、人間の頭部形状と外耳道を模擬したダミーヘッドを用いて実空間から直接収音することもできる。このため、実写による360度VR映像コンテンツでは、360度カメラによる全天周映像などの広視野撮影とダミーヘッドによるバイノーラル音声の収音が同時に行われ、パッケージ化されたVR映像コンテンツとして提供される場合がある。但し、ユーザがバイノーラル音声の立体感を正しく得られるのは、収音時にダミーヘッドが向いていた方向とユーザの視線方向が一致するときに限定される。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2019-008319号公報
【文献】特開2007-229241号公報
【文献】特開2019-013765号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
ユーザが視線方向を自由に変えることができる3DoFのVRコンテンツや、ユーザがコンテンツの3次元空間内を自由に動ことができる6DoFのAR/VRコンテンツでは、ダミーヘッドで収音した音声をそのまま使用することはできない。つまり、刻々と変化するユーザの視点位置と音源オブジェクトの位置の相対関係に応じて、頭部伝達関数を用いた演算を行い、リアルタイムにバイノーラル音声を生成する必要がある。これを実現するためには、まず、音源オブジェクトごとに独立した音声ストリームと、コンテンツの3次元空間上での位置を示す3次元座標とを時間軸で紐づけて伝送する必要がある。次に、受信装置において、音源オブジェクトの音声ストリームと3次元座標とが紐づけられたデータを受信して、音源オブジェクトとユーザの視点位置に応じたバイノーラル音声をリアルタイムに生成する機能を実装する必要がある。
【0010】
しかし、タブレット型端末、スマートフォンなど一般的なモバイル端末には、グラフィック処理用のGPUに相当する様な音響処理用の専用ハードウェアであるDSP(Digital Signal Processor)が搭載されていないことや、グラフィック処理用のOpenGL(Open Graphics Library)に相当するような音響処理用のAPI(Application Programming Interface)の整備が十分でないことが、3次元音響対応の機能実装の障壁となっている。幅広いユーザに浸透するスマートフォン、タブレット型端末などのモバイル端末を対象にコンテンツを提供するためには、CPU(Central Processing Unit)上で実行されるソフトウェアによる3次元音響処理の実装が要求される。
【0011】
さらに、コンテンツのコンポーネントとしてストリーミング伝送される音源オブジェクト数が増えた場合には、音源数に応じて受信装置の処理負荷が増大し、過大な負荷が生じ得る。このように音源オブジェクトの数の増加に伴い過度な処理負担が生じた場合、処理遅延により視覚情報と聴覚情報の同期ずれや音飛びなどが発生する可能性ある。
【0012】
つまり、3次元音響を組み合わせたAR/VRコンテンツのストリーミング伝送による提供において、3次元空間内での音源オブジェクトの移動、ユーザの視点位置(視聴位置)の移動、ユーザの視線方向の回転が動的である場合、従来の頭部伝達関数を用いたバイノーラル音声の生成処理では、音源位置と視聴位置・方向の相対関係に応じた膨大な数の頭部伝達関数が必要となり、メモリ資源や演算資源が限られるモバイル端末でのソフトウェア実装は非現実的であるという課題があった。また、コンテンツの3次元空間内に配置される音源オブジェクトの数が増えた場合に、CPU、メモリなどの計算資源の限界により、全ての音源オブジェクトの音声をリアルタイムに処理することができず、遅延の増大による視覚情報との同期ずれ、音飛びなどの視聴品質の低下が生じるという課題があった。
【0013】
かかる事情に鑑みてなされた本発明の目的は、演算量及びプログラム規模・回路規模の増加を抑制し、3次元音響を組み合わせたAR/VRコンテンツの再生のリアルタイム性を確保し、視聴品質を向上させることが可能な受信装置、コンテンツ伝送システム、及びプログラムをリーズナブルな実装コストで提供することにある。
【課題を解決するための手段】
【0014】
一実施形態に係る受信装置は、音源オブジェクトの音声ストリームをブロック化した音声チャンクと、前記音源オブジェクトのワールド座標系における3次元座標を含む音源メタデータと、を受信する受信装置であって、前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、を備える。
一実施形態に係る受信装置は、上記の構成において、前記オブジェクト選択部は、前記処理負荷が大きいほど、前記音源オブジェクト選択領域が小さくなるように規定する。
また、一実施形態に係る受信装置は、上記の構成において、前記音源メタデータは、前記音源オブジェクトの優先度を含み、前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記優先度が大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択する。
また、一実施形態に係る受信装置は、上記の構成において、前記音源メタデータは、前記音源オブジェクトの最大音圧レベルを含み、前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記最大音圧レベルが大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択する。
【0015】
さらに、一実施形態において、ユーザの視線方向を推定する位置姿勢推定部をさらに備え、前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視線方向を軸方向とする前記ビュー座標系へ変換させてもよい。
【0016】
さらに、一実施形態において、前記位置姿勢推定部は、前記ユーザの視点位置を推定し、前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視点位置を原点とする前記ビュー座標系へ変換させてもよい。
【0017】
さらに、一実施形態において、前記3次元音響レンダリング部は、前記音響処理対象の音源オブジェクトの音声チャンクを、前記ビュー座標系に配置された仮想マルチチャンネルスピーカに割り当てるマッピング部と、前記仮想マルチチャンネルスピーカに割り当てられた前記音声チャンクを用いて、前記バイノーラル音声を生成するダウンミックス部と、を備えてもよい。
【0021】
また、一実施形態に係るコンテンツ伝送システムは、上記受信装置と、前記音声チャンクと前記音源メタデータとを関連付けて、前記受信装置に送信する配信装置と、を備える。
【0022】
また、一実施形態に係るプログラムは、コンピュータを、上記受信装置として機能させる。
【発明の効果】
【0023】
本発明によれば、AR/VRコンテンツのストリーミング伝送を受信する受信装置において、演算量及び回路規模の増加を抑えることができ、コンテンツ再生のリアルタイム性を確保し、視聴品質を向上させることが可能となる。また、CPUクロックやメモリ搭載量の異なる様々な性能の端末を受信装置として利用し、各端末の処理性能に応じたコンテンツ再生が可能なサービスを実現することができる。
【図面の簡単な説明】
【0024】
【
図1】第1の実施形態に係る受信装置の視聴位置と複数の音源オブジェクトの配置例を示す図である。
【
図2】第1の実施形態に係るARコンテンツ伝送システムの構成例を示すブロック図である。
【
図3】第1の実施形態に係る音声ストリーム及び音源メタシーケンスのブロック化を示す図である。
【
図4】第1の実施形態に係る3次元音響レンダリング部の構成例を示すブロック図である。
【
図5】3次元空間コンテンツのワールド座標系(真上からの視点)と音源オブジェクトの配置の例
【
図6】AR視点を中心としたビュー座標系(真上からの視点)の例を示す図である。
【
図7】ワールド座標系に配置されたビュー座標系(真上からの視点)の例を示す図である。
【
図8】ワールド座標系に配置されたビュー座標系(真横からの視点)の例を示す図である。
【
図9】第1の実施形態に係る3次元音響レンダリング部の処理を説明する図である。
【
図10】第1の実施形態に係る3次元音響レンダリング部の処理を説明する図である。
【
図11】第2の実施形態に係る360度VR映像コンテンツ伝送システムの構成例を示すブロック図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態について、図面を参照して詳細に説明する。
【0026】
(第1の実施形態)
第1の実施形態では、自由度が6DoFのARコンテンツを伝送するARコンテンツ伝送システムについて説明する。
【0027】
図1は、3次元空間内に配置された複数の音源オブジェクト、及びARコンテンツを受信するタブレット型の受信装置10の一例を示す図である。なお、図中の表記において、3次元空間を右手系Yアップの座標系で表記するが、各実装における座標系はこの限りではない。
図1に示す例では、3次元空間内に音源オブジェクトO
1が(X
1,Y
1,Z
1)に配置され、音源オブジェクO
2が(X
2,Y
2,Z
2)に配置され、音源オブジェクトO
3が(X
3,Y
3,Z
3)に配置され、音源オブジェクトO
4が(X
4,Y
4,Z
4)に配置され、音源オブジェクトO
5が(X
5,Y
5,Z
5)に配置されている。ユーザは、受信装置10を持って自由に空間内を移動することができる。受信装置10は、ユーザの視点位置や視線方向に応じて、音源オブジェクトの音声ストリームを処理したバイノーラル音声を生成する。ユーザは、受信装置10が備えるスピーカ(SP(L)及びSP(R))、又は外付けのステレオヘッドフォンなどで音声を聴取する。
【0028】
図2は、第1の実施形態に係るARコンテンツ伝送システムの構成例を示す図である。ARコンテンツ伝送システム1は、受信装置(AR受信装置)10と、配信装置40と、を備える。時刻サーバ(タイムサーバ)50は、受信装置10と配信装置40とを同期させるために設けられる。
図2に示す例では、時刻サーバ50は1つであるが、受信装置10と配信装置40が参照する時刻サーバはそれぞれ異なるものであっても良い。時刻サーバ50は、インターネット上で提供されているものであっても良い。
【0029】
配信装置40は、放送やインターネットなどの伝送路60を経由して、ARコンテンツをストリーミング伝送する。配信装置40は、ARコンテンツの3次元空間内に複数配置される音源オブジェクトの音声ストリームと、音源オブジェクトの位置情報(ワールド座標系における3次元座標)を含む音源メタデータとを関連付けて、受信装置10に送信する。
図2に示す例では、配信装置40は、クロック生成部41と、多重化部42と、を備える。
【0030】
クロック生成部41は、時刻サーバ50から入力された時刻に同期した同期クロックを生成し、多重化部42に出力する。
【0031】
多重化部42は、3次元モデルシーケンス(3次元オブジェクトのモデルシーケンス)、音声ストリーム(音声チャンクのシーケンス)、及び音源メタシーケンス(音源メタデータのシーケンス)を多重化してARコンテンツを生成し、配信装置40の外部に送信する。例えば、多重化部42の多重化方式にMMT(MPEG Media Transport)を使用した場合には、音声チャンクはMPU(Media Processing Unit)に対応付けることができる。また、クロック生成部41は絶対時刻であるUTC(Coordinated Universal Time)による提示時刻タイムスタンプPTS(Presentation Time Stamp)を多重化部42に出力し、多重化部42は、各データにPTSを付与する。
【0032】
3次元モデルシーケンスは、例えば、3次元オブジェクトの形状を表すジオメトリデータと、3次元オブジェクトの表面の模様を表すテクスチャデータとを、一定のフレームレートでシーケンス化したデータであり、実時間で送信される。
【0033】
音源メタシーケンスは、3次元オブジェクトの中でも特に音声発生源となる部位(音源オブジェクト)の位置をワールド座標系の座標で示した位置座標情報を、一定のフレームレートでサンプルしたデータであり、実時間で送信される。音声発生源の点は、例えば、人物オブジェクトであれば声を発する口の中心点、楽器であれば弦楽器のサウンドホールや打楽器の打面の中心点などが主に想定されるが、同じオブジェクトでも、どの部位を音声発生源とするかはコンテンツによって異なる。例えば、タップダンスをする人物のコンテンツであれば、人物オブジェクトの靴底が音声発生源となる。さらに、歌いながらタップダンスをする人物オブジェクト(口の中心点と靴底の2点が音声発生源)の場合など、視覚上1つの3次元オブジェクトに対して2つ以上の音源オジェクトが関連付けられる場合もある。
【0034】
音声ストリームは、3次元オブジェクトの音声発生源(音源オブジェクト)から発せられる音声のストリームデータであり、実時間で送信される。
【0035】
図3は、音声ストリーム及び音源メタシーケンスのブロック化を示す図である。音声ストリーム及び音源メタシーケンスを紐付けるため、音声ストリーム及び音源メタシーケンスは、概ね一定周期でブロック化される。以降、音声ストリームのブロックを「音声チャンク」と称し、音源メタシーケンスのブロックを「音源メタデータ」と称する。各種データを多重化する際の制御情報として、音源オブジェクトごとに音源オブジェクトID(object_id)が付与される。また、音声チャンク及び音源メタデータは、時間軸の対応付けを行うために、時系列のシーケンス番号(sequence_num)が付与される。音源メタデータ及び音声チャンクは、音源オブジェクトID及びシーケンス番号により紐付けられる。音源メタシーケンスは、座標データ(coordinates)の他に、後述する優先度(priority)、最大音圧レベル(maximum_level)などを含んでもよい。
【0036】
受信装置10は、スマートフォン、タブレット型端末などのモバイル端末、ARグラス、ビデオシースルー型ARゴーグルなどである。受信装置10は、配信装置40から、音源オブジェクトの音声ストリームをブロック化した音声チャンクと、音源オブジェクトの位置情報を含む音源メタデータと、を受信する。
【0037】
図2に示す例では、受信装置10は、クロック生成部11と、多重分離部12と、第1バッファ13と、第2バッファ14と、モデル復号部15と、カメラ16と、フレームメモリ17と、検出部18と、位置姿勢推定部19と、モデルレンダリング部20と、映像合成部21と、ディスプレイ22と、座標変換部23と、処理負荷測定部24と、オブジェクト選択部25と、音声復号部26と、3次元音響レンダリング部27と、スピーカ28と、を備える。
【0038】
クロック生成部11は、時刻サーバ50から入力された時刻に同期した同期クロックを生成し、第1バッファ13及び第2バッファ14に出力する。
【0039】
多重分離部12は、配信装置40から、3次元モデルシーケンス、音声ストリーム、及び音源メタシーケンスが多重化されたARコンテンツを、放送やインターネットなどの伝送路60を経由して受信し、これらを分離する。そして、3次元モデルシーケンスを第1バッファ13に出力し、音声ストリーム及び音源メタシーケンスを第2バッファ14に出力する。バッファは1つであってもよいが、本実施形態では説明の便宜上、バッファを第1バッファ13及び第2バッファ14に分けている。
【0040】
各データは、第1バッファ13又は第2バッファ14に蓄えられた後、クロック生成部11から入力された同期クロックに同期して、後段の処理が行われる。例えば、多重化方式にMMTが使用された場合には、第1バッファ13及び第2バッファ14は、同じPTSが付与されたデータの処理結果が最終出力時に同時に提示されるように、それぞれ処理時間を考慮した適切なオフセットを付けて後段にデータを出力する。
【0041】
モデル復号部15は、第1バッファ13から取得した3次元モデルシーケンスを、glTF(GL Transmission format)やH.265/HEVC(High Efficiency Video Coding)などの既存の方式により、モデルレンダリング部20が直接処理可能な形式に復号し、モデルレンダリング部20に出力する。例えば、グラフィックの描画処理にOpenGLで規定される関数を用いる場合に、VBO(Vertex Buffer Object)形式が用いられる場合がある。
【0042】
カメラ16は、受信装置10の周囲の映像を撮影し、撮影したフレーム画像をフレームメモリ17に出力する。
【0043】
検出部18は、ジャイロセンサ、加速度センサ、地磁気センサ、重力センサなどの1以上のセンサを有する。検出部18は、各種センサにより検出したセンサ情報を位置姿勢推定部19に出力する。ジャイロセンサは、物体が同じ方向の運動を続ける慣性の法則を利用して、3自由度(Role,Pitch,Yaw)の回転量を検知することができる。また、加速度センサは、物体が同じ場所に留まり続ける慣性の法則を利用して、3自由度(X,Y,Z)の移動速度変化を検知することができる。また、地磁気センサは南北方向を検知でき、重力センサは地面との垂直方向を検知できる。
【0044】
位置姿勢推定部19は、検出部18により検出されたセンサ情報を用いて受信装置10の姿勢を推定する。位置姿勢推定部19は、カメラ16により撮影されたフレーム画像をさらに用いて受信装置10の位置及び姿勢を推定してもよい。位置姿勢推定部19は、受信装置10の姿勢から、ユーザの視線方向を推定する。例えば、ユーザの視線方向は、カメラ16の向いている方向としてもよい。
【0045】
また、位置姿勢推定部19は、カメラ16により撮影された映像に基づいて、ユーザの視点位置を推定する。ユーザの視点位置は、カメラ16の位置としてもよい。位置姿勢推定部19は、例えば、実空間を撮影したある1枚の映像フレームの画像から特徴点を検出し、その次の映像フレームの画像内でその特徴点と同様の特徴量をもつ点を近傍探索により検出し、一つの特徴点の移動量を判定する。次に、前後2フレームにおけるその特徴点の位置と、映像フレームと同じ時間間隔での視線方向変化の推定結果を組み合わせることで、三点測量により受信装置10と特徴点との距離を求めることができる。同様に、位置姿勢推定部19は、複数の特徴点と受信装置10との距離を検出し、それらの特徴点が同一平面に存在することを判断することで、実空間内の平面を検出することができる。そして、位置姿勢推定部19は、ユーザの視点位置及び視線方向を示す視点情報をモデルレンダリング部20及び座標変換部23に出力する。
【0046】
なお、ARコンテンツを実際に視聴し始める前に、端末の位置姿勢推定部19に実空間の平面などのコンテンツ視聴空間の状況を学習させるキャリブレーション作業をユーザに行わせてもよい。事前のキャリブレーションをユーザに行わせる場合には、ユーザがARによってオブジェクトを合成させるように意図する平面(床面や、テーブルの卓面)を中心に、実空間をカメラ16で撮影して平面検出を行わせる。一般に、事前キャリブレーションによる空間学習を行うことで、ARによる実空間映像へのオブジェクトの合成をより安定させることが可能であるが、ARコンテンツ視聴において事前キャリブレーションを必要としない場合もある。
【0047】
モデルレンダリング部20は、位置姿勢推定部19から視点情報を入力し、モデル復号部15により復号された3次元モデルシーケンスに対して、視点位置及び視線方向に応じたビューポートのレンダリングを行ってレンダリング画像を生成し、映像合成部21に出力する。
【0048】
映像合成部21は、モデルレンダリング部20から入力したレンダリング画像と、フレームメモリ17から入力したフレーム画像とを合成して合成画像を生成し、該合成画像をディスプレイ22に表示させる。
【0049】
座標変換部23は、位置姿勢推定部19から視点情報を入力し、第2バッファ14から音源メタデータ(音源オブジェクトのワールド座標系における3次元座標)を入力する。座標変換部23は、音源オブジェクトの3次元座標を、ワールド座標系から、ユーザの視点位置を中心として視線方向を軸方向とするビュー座標系に座標変換を行い、座標変換後の音源メタデータをオブジェクト選択部25に出力する。座標変換には、例えば、アフィン変換を用いることができる。視点位置を(Vx,Vy,Vz)、視線方向の単位ベクトルを(Dx,Dy,Dz)とすると、Y軸中心の回転角α、X軸中心の回転角βに関して、式(1)が成立する。
【0050】
【0051】
この時、ワールド座標系からビュー座標系への回転行列Aは、式(2)で表される。
【0052】
【0053】
また、視点位置を原点とする座標移動行列Tは、式(3)で表される。
【0054】
【0055】
以上より、座標変換部23は、式(4)の行列演算式により、音源オブジェクトの3次元座標ベクトルPをビュー座標系の座標ベクトルP’に座標変換する。これらの座標変換演算は、3次元モデルの描画時においても一般的に行われる演算処理であり、GPUの機能を用いることができる。なお、上記の変換行列は一例であり、ワールド座標系及びビュー座標系における右手系・左手系の違いや、軸極性の向き、座標ベクトルを行ベクトルで表現するか列ベクトルで表現するか等により異なる場合がある。
【0056】
【0057】
処理負荷測定部24は、CPU使用率、メモリ使用率などの受信装置10の処理負荷を示す負荷情報を測定し、オブジェクト選択部25に出力する。
【0058】
オブジェクト選択部25は、クロックにより制御されたタイミングで、第2バッファ14から音声チャンクを入力する。オブジェクト選択部25は、処理負荷測定部24により測定された処理負荷に基づいて、ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。換言すれば、オブジェクト選択部25は、処理負荷測定部24により測定された処理負荷、及び座標変換部23から入力された音源メタデータ(音源オブジェクトのビュー座標系における3次元座標)に基づいて、音響処理対象の音源オブジェクトを選択する。そして、オブジェクト選択部25は、選択した音源オブジェクトの音声チャンクを音声復号部26に出力し、該音源オブジェクトの3次元座標を3次元音響レンダリング部27に出力する。
【0059】
具体的には、オブジェクト選択部25は、処理負荷測定部24から入力された負荷情報を元に、処理負荷の評価値Lを算出する。例えば、CPU使用率をR1とし、メモリ使用率をR2とし、係数をK1及びK2すると、オブジェクト選択部25は、評価値L=K1×R1+K2×R2とする。係数K1及びK2の一方は0であってもよい。オブジェクト選択部25は、評価値L(処理負荷)が大きいほど、音源オブジェクト選択領域が小さくなるように規定する。例えば、オブジェクト選択部25は、評価値Lが第1の閾値を超える場合には、音響処理対象の音源オブジェクトの数を減らすように音源オブジェクト選択領域を縮小し、評価値Lが第2の閾値よりも小さい場合には、処理対象の音源オブジェクトの数を増やすように音源オブジェクト選択領域を拡大する。
【0060】
例えば、オブジェクト選択部25は、音源オブジェクト選択領域をユーザの視点位置であるビュー座標系の原点を中心とした半径Rの球体とし、原点からの距離rがr<Rとなる音源オブジェクトを処理対象とすることが考えられる。すなわち、オブジェクト選択部25は、処理負荷の評価値Lと半径Rの関係をR=f(L)(f(x)は単調減少関数)とし、処理負荷が予め定める閾値よりも大きい時は半径Rを小さくし、処理負荷が予め定める閾値よりも小さい時は半径Rを大きくする制御を行う。なお、本実施形態では音源オブジェクト選択領域をユーザの視点位置を中心とする球体とするが、ユーザの視線方向に指向性を持たせた楕円体など、その他の形状で定義することも可能である。
【0061】
音源メタデータは、音源オブジェクトの優先度pを含んでもよい。この場合には、オブジェクト選択部25は、ビュー座標系における音源オブジェクトの原点からの距離を優先度pが大きいほど短くなるように変更した場合に音源オブジェクト選択領域に含まれることになる音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。例えば、原点と音源オブジェクトとの実際の距離rに対して、r’=r*g(p)(g(x)は単調減少関数)を音源オブジェクト選択領域の半径Rと比較する際の評価値r’としてもよい。例えば、g(x)=1/xとしたとき、オブジェクト選択部25は、優先度p=1の音源オブジェクトについては、r’=r≦Rを満たさなければ音響処理対象の音源オブジェクトとして選択しないが、優先度p=100の音源オブジェクトについては、r’=r/100≦Rを満たせば音響処理対象の音源オブジェクトとして選択する。
【0062】
また、音源メタデータは、音源オブジェクトの最大音圧レベルlを含んでもよい。この場合には、オブジェクト選択部25は、ビュー座標系における音源オブジェクトの原点からの距離を最大音圧レベルlが大きいほど短くなるように変更した場合に音源オブジェクト選択領域に含まれることになる音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。つまり、最大音圧レベルlについても、音圧レベルの高い音声ほど視聴位置から遠くても聞こえるため、r’=r*h(l)(h(x)は単調減少関数)を評価値とする。最大音圧レベルを音源メタデータとして伝送することにより、受信装置10で実際に音声チャンクを復号せずとも音圧レベルに応じた選択が可能となり、処理負荷の軽減が可能となる。優先度p及び最大音圧レベルlをともに考慮すると、音源オブジェクトの原点距離の評価値r’は実際の距離rに対して、r’=r*g(p)*h(l)となり、オブジェクト選択部25は、r’≦Rを満たす音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。
【0063】
音声復号部26は、オブジェクト選択部25により選択された音源オブジェクトの音声チャンクを、3次元音響レンダリング部27が直接処理可能な形式に変換する。例えば、音声復号部26は、MPEG-4 AAC(Advanced Audio Codec)、MPEG-H 3DA(3D Audio)などの圧縮ストリームを復号処理し、PCM(Pulse Code Modulation)データなどの非圧縮ストリームに変換する。音声復号部26は、復号処理した音声チャンク(復号済み音声チャンク)を3次元音響レンダリング部27に出力する。
【0064】
3次元音響レンダリング部27は、音声復号部26から復号済み音声チャンクを入力し、オブジェクト選択部25から音響処理対象として選択された音源オブジェクトのビュー座標系における3次元座標を入力する。3次元音響レンダリング部27は、音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成し、スピーカ28、又は図示しないヘッドフォンなどからバイノーラル音声を出力させる。
【0065】
図4は、3次元音響レンダリング部27の構成例を示すブロック図である。3次元音響レンダリング部27は、マッピング部271と、ダウンミックス部272と、を備える。
【0066】
マッピング部271は、復号済み音声チャンク及び音源メタデータ(音源オブジェクトの3次元座標)を、音源オブジェクトID及びシーケンス番号によって紐付け可能な状態で入力する。そして、マッピング部271は、復号済み音声チャンクを、ビュー座標系において視点位置を中心とした所定位置に配置された所定数の仮想マルチチャンネルスピーカ(仮想チャンネルベース音源)に割り当てる(ミックスする)。
【0067】
図5は、3次元空間コンテンツのワールド座標系(真上からの視点)及び音源オブジェクトO
1~O
5の配置例を示す図である。
図6は、視点位置を原点としたビュー座標系(真上からの視点)及び仮想マルチチャンネルスピーカの配置の例を示す図である。
図6に示す例では、仮想マルチチャンネルスピーカは、視点位置と同じ高さに、視点位置を中心とする円上に等間隔に8個配置されており、以降の
図7から
図10ついても同様である。仮想マルチチャンネルスピーカの数及び配置場所はこの限りではなく、任意の数の仮想マルチチャンネルスピーカを任意の場所に配置可能である。例えば、5.1chや22.2chのマルチチャンネル音響のスピーカ配置などを使用してもよい。
【0068】
ユーザの動作に伴い視点位置は移動するため、ワールド座標系とビュー座標系は、ユーザの動作によって相対的な位置関係が変化する。
図7は、ある瞬間における、ワールド座標系に配置されたビュー座標系(真上からの視点)の例を示す図である。
図8は、ある瞬間における、ワールド座標系に配置されたビュー座標系(真横からの視点)の例を示す図である。
【0069】
図9は、マッピング部271の処理の一例として、音源オブジェクトからビュー座標系の仮想マルチチャンネルスピーカへのマッピングの例を示す図である。
図9では、オブジェクト選択部25は視点位置を中心とする球状の音源オブジェクト選択領域の内側に位置する音源オブジェクトを音響処理対象とするものとし、音源オブジェクト選択領域を2点鎖線で示している。なお、音源オブジェクトO
2は、上側から投影図では音源オブジェクト選択領域の内部に位置するように見えるが、空間的に見ると原点を中心とする球状の音源オブジェクト選択領域の外部に位置するため、マッピングの対象から外れる。また、
図9では、例として、ビュー座標系に変換された音源オブジェクトの座標と仮想マルチチャンネルスピーカとの間の距離を利用し、音源オブジェクトから最も距離が近い仮想マルチチャンネルスピーカにマッピングすることで規定数のチャンネルにマッピングをしていることを示している。なお、音源オブジェクトから仮想マルチチャンネルスピーカへのマッピング手法はこれに限られるものではなく、例えば1つの音源オブジェクトを複数の仮想マルチチャンネルスピーカに分散させてもよい。マッピングでは、例えば、ビュー座標系の原点と音源オブジェクトとの距離rに応じて音圧を減衰させる。なお、音響処理対象の音源オブジェクトの数が仮想マルチチャンネルスピーカの規定数に足りない場合には、オブジェクト選択部25は音源オブジェクト選択領域を広げて選択をやり直してもよい。
【0070】
ダウンミックス部272は、仮想マルチチャンネルスピーカに割り当てられた復号済み音声チャンクを用いて、ユーザの左右の耳に対応する2チャンネルのバイノーラル音声にダウンミックスする。具体的には、ダウンミックス部272は、音声信号を一定の処理区間に区切り、音声信号を周波数領域に変換して固定数の頭部伝達関数の周波数特性を掛け合わせた後に、時間領域の音声信号に戻す処理を行うことにより、バイノーラル音声にダウンミックスする。
【0071】
図10は、ダウンミックス部272の処理の一例として、ビュー座標系の仮想マルチチャンネルスピーカからバイノーラル音声を生成するダウンミックス処理の例を示している。
図10に示す例では、前後方向の仮想マルチチャンネルスピーカについては左右両方のスピーカ28-1及び28-2に両方に均等に割り当て、その他の仮想マルチチャンネルスピーカは最寄りの左右いずれかのスピーカ28-1又は28-2にマッピングしている。これらのマッピングごとに頭部伝達関数の周波数領域の演算を行い、ミックスすることで、ユーザは上下前後左右の立体感を体験できる。
図10に示すダウンミックスによると、必要な頭部伝達関数の数は10個となる。なお、
図9に示したマッピング、及び
図10に示したダウンミックスはあくまで一例であり、より高度なアルゴリズムにより3次元音場の再現性を高めてもよい。例えば、
図10においては視線方向の左寄りの仮想マルチチャンネルスピーカはスピーカ28-1のみへ、右寄りの仮想マルチチャンネルスピーカはスピーカ28-2のみへの頭部伝達関数を考慮しているが、視線方向の左寄りの仮想マルチチャンネルスピーカからスピーカ28-2へ、右寄りの仮想マルチチャンネルスピーカはスピーカ28-1への頭部伝達関数を考慮するように、頭部伝達関数を増やしても良い。頭部伝達関数の数を増やすことで、よりリアリティのあるバイノーラル音声の生成が期待できるが、処理負荷増加とのトレードオフとなる。
【0072】
なお、音源オブジェクトのストリーミング伝送について、配信装置40は音声チャンクの音声符号データと音源メタデータを含む全てのデータをUDP/IPパケットなどに多重化してストリーミング伝送してもよいし、音声ストリームの符号データの実体は伝送せずに、代わりに音声チャンクのロケーション情報と音源メタデータをUDP/IPパケットなどに多重化してストリーミング伝送してもよい。ロケーション情報としては、HTTPなどにより音声チャンクのファイルを取得するためのURL情報や、IPマルチキャストなどにより音声チャンクのストリームを追加受信するためのマルチキャストIPアドレスおよびポート番号などを指定することができる。この場合には、受信装置10は、オブジェクト選択部25により音響処理対象として選択された音源オブジェクトのみをロケーション情報により指定される音声チャンクのファイルを取得することで、負荷削減が可能となる。また、音源メタデータにロケーション情報を含めて、配信装置40は音源メタデータのみをストリーミング伝送するようにしてもよい。
【0073】
(第2の実施形態)
次に、第2の実施形態として、自由度が3DoFのVRコンテンツ(360度VR映像コンテンツ)を伝送する360度VRコンテンツ伝送システムについて説明する。
【0074】
図11は、第2の実施形態に係る360度VRコンテンツ伝送システム2の構成例を示す図である。360度VRコンテンツ伝送システム2は、受信装置(VR受信装置)10Aと、配信装置40Aと、を備える。時刻サーバ50は、受信装置10Aと配信装置40Aとを同期させるために設けられる。以下、第1の実施形態に係るARコンテンツ伝送システム1と同一の構成については適宜説明を省略し、相違する部分について説明する。
【0075】
配信装置40Aは、放送やインターネットなどの伝送路60を経由して、VRコンテンツをストリーミング伝送する。配信装置40Aは、VRコンテンツの3次元空間内に複数配置される音源オブジェクトの音声ストリームと、音源オブジェクトの位置情報(3次元座標)を含む音源メタデータとを、関連付けて、受信装置10Aに送信する。配信装置40Aは、クロック生成部41と、多重化部42と、を備える。
【0076】
配信装置40Aは、第1の実施形態の配信装置40と比較して、3次元モデルシーケンスではなくVR映像シーケンスを多重化して伝送する点が相違する。すなわち、多重化部42は、VR映像シーケンス、音声ストリーム(音声チャンクのシーケンス)、及び音源メタシーケンス(音源メタデータのシーケンス)を多重化してVRコンテンツを生成し、配信装置40の外部に送信する。
【0077】
受信装置10Aは、スマートフォン、タブレット型端末などのモバイル端末、VRゴーグル、VRヘッドマウントディスプレイなどの端末である。
図11に示す例では、受信装置10Aは、クロック生成部11と、多重分離部12と、第1バッファ13と、第2バッファ14と、検出部18と、位置姿勢推定部19Aと、ディスプレイ22と、座標変換部23Aと、処理負荷測定部24と、オブジェクト選択部25と、音声復号部26と、3次元音響レンダリング部27と、スピーカ28と、映像復号部29と、映像切出部30と、を備える。受信装置10Aは、第1の実施形態の受信装置10と比較して、モデル復号部15、カメラ16、フレームメモリ17、モデルレンダリング部20、及び映像合成部21を有しておらず、映像復号部29及び映像切出部30を有している点が相違する。また、位置姿勢推定部19A及び座標変換部23Aの処理が、位置姿勢推定部19及び座標変換部23の処理と相違する。
【0078】
多重分離部12は、配信装置40Aから、VR映像シーケンス、音声ストリーム、及び音源メタシーケンスが多重化されたVRコンテンツを、放送やインターネットなどの伝送路60を経由して受信し、これらを分離する。そして、VR映像シーケンスを第1バッファ13に出力し、音源メタシーケンス及び音声ストリームを第2バッファ14に出力する。
【0079】
映像復号部29は、第1バッファ13から取得したVR映像シーケンスをH.265/HEVCなどの既存の方式により復号し、映像切出部30に出力する。
【0080】
位置姿勢推定部19Aは、検出部18から入力したセンサ情報を用いて、ユーザの視線方向を推定する。例えば、位置姿勢推定部19Aは、ユーザの視線方向をジャイロセンサの情報から推定する。ここでは、自由度が3DoF(視点位置が固定)のVRコンテンツを想定しているため、第1の実施形態の位置姿勢推定部19のように、加速度センサやカメラで撮影された映像などにより視点位置を推定する必要はない。位置姿勢推定部19Aは、ユーザの視線方向を示す視点情報を座標変換部23A及び映像切出部30に出力する。なお、位置姿勢推定部19Aは、位置姿勢推定部19と同等の機能としてユーザの視点位置情報を出力しても良いが、3DoFコンテンツでは視点位置情報は使用されない。
【0081】
座標変換部23Aは、音源オブジェクトの3次元座標ベクトルPを、式(2)で示した回転行列Aを用いて、式(5)の行列演算式によりビュー座標系の座標ベクトルP’に座標変換する。ここでは、自由度が3DoFのVRコンテンツを想定しているため、ワールド座標系とビュー座標系の原点が一致する(ユーザの視点位置がワールド座標系の原点に固定される)ように音源メタデータの音源位置情報を制作することができる。この場合には、ワールド座標系からユーザ中心のビュー座標系への変換は、回転移動のみとなり平行移動を伴わない。
【0082】
【0083】
映像切出部30は、映像復号部29により復号されたVR映像から、位置姿勢推定部19Aにより推定されたユーザの視線方向に対応するビューポートの映像を切り出して切出映像を生成し、該切出画像をディスプレイ22に表示させる。
【0084】
上述したように、受信装置10,10Aは、処理負荷に基づいて、ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。かかる構成により、音声復号部26及び3次元音響レンダリング部27の演算量及び回路規模を低減させることができ、コンテンツ再生のリアルタイム性を確保し、視聴品質を向上させることができる。また、CPUクロックやメモリ搭載量の異なる様々な性能の端末を受信装置として利用し、各端末の処理性能に応じたコンテンツ再生が可能なサービスを実現することができる。
【0085】
また、受信装置10,10Aは、ワールド座標系の3次元座標で伝送される音源オブジェクトの位置情報について、ユーザの視点位置を原点とするビュー座標系の3次元座標に変換してもよい。かかる構成により、ユーザの視点位置を座標系の中心の固定とみなすことができ、その後の演算を簡略化することができる。
【0086】
また、受信装置10,10Aは、音響処理対象の音源オブジェクトの音声チャンクを、一次処理としてビュー座標系に配置された仮想マルチチャンネルスピーカに割り当て、次に二次処理として仮想マルチチャンネルスピーカに割り当てられた音声チャンクを用いて、バイノーラル音声を生成してもよい。かかる構成により、一次処理においては、バイノーラル音声の生成に必要とされる高負荷な周波数領域の演算を用いないで、距離による単純な音圧減衰など低負荷な演算を用いることができ、さらに一次処理によって仮想チャンネル数・音源位置が固定となり、二次処理では有限数の頭部伝達関数を用いてバイノーラル音声を生成することができる。このため、3次元音響レンダリング部27の演算量及び回路規模をさらに低減させることができる。
【0087】
また、受信装置10,10Aは、負荷測定による現状の処理負荷に応じて音源オブジェクト選択領域を拡大・縮小させてもよい。かかる構成により、音声復号部26及び3次元音響レンダリング部27の処理負荷を最適化することができる。
【0088】
また、受信装置10,10Aは、ビュー座標系における音源オブジェクトの原点からの距離を優先度及び/又は最大音圧レベルが大きいほど短くなるように変更した場合に音源オブジェクト選択領域に含まれることになる音源オブジェクトを、音響処理対象の音源オブジェクトとして選択してもよい。かかる構成により、コンテンツの視聴品質をさらに向上させることができる。
【0089】
<プログラム>
上記の受信装置10,10Aとして機能させるためにプログラム命令を実行可能なコンピュータを用いることも可能である。コンピュータは、受信装置10,10Aの機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのプロセッサによってこのプログラムを読み出して実行させることで実現することができ、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。ここで、プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。プロセッサは、CPU、GPU、DSP、ASIC(Application Specific Integrated Circuit)などであってもよい。
【0090】
また、このプログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROMなどの記録媒体であってもよい。また、このプログラムは、ネットワークを介したダウンロードによって提供することもできる。
【0091】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の構成ブロック又は処理ステップについて、複数を1つに組み合わせたり、1つを複数に分割したりすることが可能である。
【符号の説明】
【0092】
1 ARコンテンツ伝送システム
2 360度VR映像コンテンツ伝送システム
10,10A 受信装置
11 クロック生成部
12 多重分離部
13 第1バッファ
14 第2バッファ
15 モデル復号部
16 カメラ
17 フレームメモリ
18 検出部
19,19A 位置姿勢推定部
20 モデルレンダリング部
21 映像合成部
22 ディスプレイ
23,23A 座標変換部
24 処理負荷測定部
25 オブジェクト選択部
26 音声復号部
27 3次元音響レンダリング部
28 スピーカ
29 映像復号部
30 映像切出部
40,40A 配信装置
41 クロック生成部
42 多重化部
50 時刻サーバ
60 伝送路