(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-02
(45)【発行日】2024-12-10
(54)【発明の名称】再生装置、再生方法、およびプログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20241203BHJP
【FI】
H04S7/00 300
(21)【出願番号】P 2023007068
(22)【出願日】2023-01-20
(62)【分割の表示】P 2019509243の分割
【原出願日】2018-03-15
【審査請求日】2023-02-01
(31)【優先権主張番号】P 2017062305
(32)【優先日】2017-03-28
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【氏名又は名称】西川 孝
(74)【代理人】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】辻 実
(72)【発明者】
【氏名】山本 優樹
【審査官】佐久 聖子
(56)【参考文献】
【文献】特表2015-531078(JP,A)
【文献】特表2016-530803(JP,A)
【文献】特表2016-528542(JP,A)
【文献】特表2010-511189(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00- 7/00
G10L 13/00-13/10
G10L 19/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数の想定聴取位置の中から選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得する取得部と、
前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する再生部と
を備え
、
前記統合オーディオオブジェクトのデータの再生には、統合されたオーディオオブジェクトのオーディオ波形データの差成分のデータに基づいて、統合されたそれぞれのオーディオオブジェクトのオーディオ波形データを再現する処理が含まれる
再生装置。
【請求項2】
前記取得部は、前記統合オーディオオブジェクトのデータとして、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて生成された、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータとを取得する
請求項1に記載の再生装置。
【請求項3】
前記再生部は、前記統合オーディオオブジェクトのデータとともに取得されたフラグが前記差成分のデータがあることを示している場合、統合されたそれぞれのオーディオオブジェクトのオーディオ波形データを再現する処理を、前記統合オーディオオブジェクトの生成装置において用意された前記差成分のデータに基づいて行う
請求項1に記載の再生装置。
【請求項4】
前記統合オーディオオブジェクトは、前記選択された想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合して得られたオーディオオブジェクトである
請求項1乃至3のいずれかに記載の再生装置。
【請求項5】
前記統合オーディオオブジェクトは、前記選択された想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合して得られたオーディオオブジェクトである
請求項1乃至4のいずれかに記載の再生装置。
【請求項6】
前記統合オーディオオブジェクトは、予め設定された同じグループに属するオーディオオブジェクトを統合して得られたオーディオオブジェクトである
請求項1乃至3のいずれかに記載の再生装置。
【請求項7】
ストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか前記統合オーディオオブジェクトであるのかを、前記ストリームに含まれるフラグ情報に基づいて解析する解析部をさらに備え
、
前記再生部は、前記ストリーム中に含まれるオーディオオブジェクトが前記統合オーディオオブジェクトであることが解析された場合、前記統合オーディオオブジェクトのデータを再生する
請求項1乃至6のいずれかに記載の再生装置。
【請求項8】
ストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか前記統合オーディオオブジェクトであるのかを、前記ストリームのファイルとともに取得された再生管理ファイルに記述されたフラグ情報に基づいて解析する解析部をさらに備え
、
前記再生部は、前記ストリーム中に含まれるオーディオオブジェクトが前記統合オーディオオブジェクトであることが解析された場合、前記統合オーディオオブジェクトのデータを再生する
請求項1乃至6のいずれかに記載の再生装置。
【請求項9】
再生装置が、
複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得し、
前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する
再生方法
であって、
前記統合オーディオオブジェクトのデータの再生には、統合されたオーディオオブジェクトのオーディオ波形データの差成分のデータに基づいて、統合されたそれぞれのオーディオオブジェクトのオーディオ波形データを再現する処理が含まれる
再生方法。
【請求項10】
コンピュータに、
複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得し、
前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する
処理を実行させるプログラム
であって、
前記統合オーディオオブジェクトのデータの再生には、統合されたオーディオオブジェクトのオーディオ波形データの差成分のデータに基づいて、統合されたそれぞれのオーディオオブジェクトのオーディオ波形データを再現する処理が含まれる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、再生装置、再生方法、およびプログラムに関し、特に、複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減できるようにした再生装置、再生方法、およびプログラムに関する。
【背景技術】
【0002】
映像技術の取り組みとして自由視点映像技術が注目されている。複数のカメラによって撮影された多方向からの画像を組み合わせることによって対象物をポイントクラウド(point cloud)の動画像として保持し、見る方向や距離に応じた映像を生成するような技術がある(非特許文献1)。
【0003】
自由視点での映像の視聴が実現すると、音響についても、視点に応じて、あたかもその場所にいるかのような音響を聞きたいという要望が出てくる。そこで、近年、オブジェクトベースのオーディオ技術が注目されている。オブジェクトベースのオーディオデータの再生は、各オーディオオブジェクトの波形データを、再生側のシステムに合わせた所望のチャンネル数の信号にメタデータに基づいてレンダリングするようにして行われる。
【先行技術文献】
【非特許文献】
【0004】
【文献】筑波大学ホームページ、“HOMETSUKUBA FUTURE-#042:自由視点映像でスポーツ観戦をカスタマイズ”、[平成29年3月22日検索]、<URL: http://www.tsukuba.ac.jp/notes/042/index.html >
【発明の概要】
【発明が解決しようとする課題】
【0005】
オブジェクトベースのオーディオデータを伝送する場合、伝送すべきオーディオオブジェクトの数が多いほど、データの伝送量も多くなる。
【0006】
本技術はこのような状況に鑑みてなされたものであり、複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減できるようにするものである。
【課題を解決するための手段】
【0007】
本技術の一側面の情報処理装置は、複数の想定聴取位置の中から選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとを取得する取得部と、前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとを再生する再生部と備える。前記統合オーディオオブジェクトのデータの再生には、統合されたオーディオオブジェクトのオーディオ波形データの差成分のデータに基づいて、統合されたそれぞれのオーディオオブジェクトのオーディオ波形データを再現する処理が含まれる。
【0008】
本技術の一側面においては、複数の想定聴取位置のうちの選択された想定聴取位置において音を弁別できないオーディオオブジェクトを統合して得られた統合オーディオオブジェクトのデータと、統合していない他のオーディオオブジェクトのデータとが取得され、前記統合オーディオオブジェクトのデータと前記他のオーディオオブジェクトのデータとが再生される。前記統合オーディオオブジェクトのデータの再生には、統合されたオーディオオブジェクトのオーディオ波形データの差成分のデータに基づいて、統合されたそれぞれのオーディオオブジェクトのオーディオ波形データを再現する処理が含まれる。
【発明の効果】
【0009】
本技術によれば、複数のオーディオオブジェクトのデータのレンダリングに要する計算量を削減することができる。
【0010】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
【図面の簡単な説明】
【0011】
【
図1】本技術の一実施形態に係る伝送システムの構成例を示す図である。
【
図2】伝送されるオブジェクトの種類の例を示す図である。
【
図3】各オブジェクトの配置例を示す平面図である。
【
図5】各オブジェクトの配置例を示す正面図である。
【
図6】各オブジェクトの配置例を示す平面図である。
【
図7】統合オブジェクトを含む各オブジェクトの配置例を示す平面図である。
【
図8】統合オブジェクトを含む各オブジェクトの配置例を示す正面図である。
【
図9】コンテンツ生成装置の構成例を示すブロック図である。
【
図10】コンテンツ生成装置の機能構成例を示すブロック図である。
【
図11】再生装置の機能構成例を示すブロック図である。
【
図12】コンテンツ生成装置のコンテンツ生成処理について説明するフローチャートである。
【
図13】コンテンツ生成装置の統合処理について説明するフローチャートである。
【
図14】コンテンツ生成装置の伝送処理について説明するフローチャートである。
【
図15】再生装置の再生処理について説明するフローチャートである。
【
図16】オブジェクトの他の配置の例を示す図である。
【
図17】オブジェクトの纏め方の他の例を示す図である。
【
図18】オブジェクトの纏め方のさらに他の例を示す図である。
【発明を実施するための形態】
【0012】
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.伝送システムの構成
2.オブジェクトの纏め方
3.各装置の構成例
4.各装置の動作
5.オブジェクトの纏め方の変形例
6.変形例
【0013】
<<伝送システムの構成>>
図1は、本技術の一実施形態に係る伝送システムの構成例を示す図である。
【0014】
図1の伝送システムは、コンテンツ生成装置1と再生装置2が、インターネット3を介して接続されることによって構成される。
【0015】
コンテンツ生成装置1は、コンテンツの制作者により管理される装置であり、音楽ライブが行われている会場#1に設置される。コンテンツ生成装置1により生成されたコンテンツは、インターネット3を介して再生装置2に伝送される。コンテンツの配信が図示せぬサーバを介して行われるようにしてもよい。
【0016】
一方、再生装置2は、コンテンツ生成装置1により生成された音楽ライブのコンテンツを視聴するユーザの自宅に設置される装置である。
図1の例においては、コンテンツの配信を受ける再生装置として再生装置2のみが示されているが、実際には多くの再生装置がインターネット3に接続される。
【0017】
コンテンツ生成装置1によって生成されるコンテンツの映像は、視点を切り替えることが可能な映像である。また、コンテンツの音声も、例えば映像の視点の位置と同じ位置を聴取位置とするように、視点(想定聴取位置)を切り替えることが可能な音声である。視点が切り替えられた場合、音の定位が切り替わる。
【0018】
コンテンツの音声は、オブジェクトベースのオーディオとして用意される。コンテンツに含まれるオーディオデータには、それぞれのオーディオオブジェクトのオーディオ波形データと、各オーディオオブジェクトの音源を定位させるためのメタデータとしてのレンダリングパラメータが含まれる。以下、適宜、オーディオオブジェクトを単にオブジェクトという。
【0019】
再生装置2のユーザは、用意された複数の視点の中から任意の視点を選択し、視点に応じた映像と音声でコンテンツを視聴することができる。
【0020】
コンテンツ生成装置1から再生装置2に対しては、ユーザが選択した視点から見たときの映像のビデオデータと、ユーザが選択した視点のオブジェクトベースのオーディオデータを含むコンテンツが提供される。例えば、このようなオブジェクトベースのオーディオデータは、MPEG-H 3D Audioなどの所定の方式で圧縮した形で伝送される。
【0021】
なお、MPEG-H 3D Audioについては、「ISO/IEC 23008-3:2015“Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio”,< https://www.iso.org/standard/63878.html>」に開示されている。
【0022】
以下、オーディオデータに関する処理について主に説明する。
図1に示すように、会場#1で行われている音楽ライブは、ベース、ドラム、ギター1(メインギター)、ギター2(サイドギター)、およびボーカルを担当する5人がステージ上で演奏を行うライブであるものとする。ベース、ドラム、ギター1、ギター2、およびボーカルをそれぞれオブジェクトとして、各オブジェクトのオーディオ波形データと、視点毎のレンダリングパラメータがコンテンツ生成装置1において生成される。
【0023】
図2は、コンテンツ生成装置1から伝送されるオブジェクトの種類の例を示す図である。
【0024】
例えば、複数の視点の中から視点1がユーザにより選択された場合、
図2のAに示すように、ベース、ドラム、ギター1、ギター2、およびボーカルの5種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データと、視点1用の、各オブジェクトのレンダリングパラメータが含まれる。
【0025】
また、視点2がユーザにより選択された場合、
図2のBに示すように、ギター1とギター2が1つのオブジェクトであるギターとして纏められ、ベース、ドラム、ギター、およびボーカルの4種類のオブジェクトのデータが伝送される。伝送されるデータには、ベース、ドラム、ギター、およびボーカルの各オブジェクトのオーディオ波形データと、視点2用の、各オブジェクトのレンダリングパラメータが含まれる。
【0026】
視点2は、例えば同じ方向から聞こえるために、人間の聴覚上、ギター1の音とギター2の音を弁別することができない位置に設定されている。このように、ユーザが選択した視点において弁別することができないオブジェクトについては、1つのオブジェクトとして纏められてデータの伝送が行われる。
【0027】
選択された視点に応じて、適宜、オブジェクトを纏めてデータの伝送を行うことにより、データの伝送量を削減することが可能になる。
【0028】
<<オブジェクトの纏め方>>
ここで、オブジェクトの纏め方について説明する。
【0029】
(1)複数のオブジェクトがあると仮定する。
オブジェクトのオーディオ波形データは下のように定義される。
x(n,i) i=0,1,2,…,L-1
【0030】
nは時間インデックスである。また、iはオブジェクトの種類を表す。ここでは、オブジェクトの数はLである。
【0031】
(2)複数の視点があると仮定する。
各視点に対応するオブジェクトのレンダリング情報は下のように定義される。
r(i,j) j=0,1,2,…,M-1
【0032】
jは視点の種類を表す。視点の数はMである。
【0033】
(3)各視点に対応するオーディオデータy(n,j)は下式(1)により表される。
【数1】
【0034】
ここでは、レンダリング情報rは利得(ゲイン情報)であると仮定する。この場合、レンダリング情報rの値域は0~1である。各視点のオーディオデータは、各オブジェクトのオーディオ波形データに利得をかけ、全オブジェクトのオーディオ波形データを加算したものとして表される。式(1)に示すような演算が、再生装置2において行われる。
【0035】
(4)視点において音を弁別できない複数のオブジェクトが纏めて伝送される。例えば、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして選択される。一方、距離が近く、視点において音を弁別可能なオブジェクトについては、纏めることなく、独立したオブジェクトとして伝送される。
【0036】
(5)各視点に対応するオブジェクトのレンダリング情報は、オブジェクトの種類、オブジェクトの位置、および視点の位置によって下のように定義される。
r(obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_z)
【0037】
obj_typeは、オブジェクトの種類を示す情報であり、例えば楽器の種類を示す。
【0038】
obj_loc_x, obj_loc_y, obj_loc_zは、三次元空間上のオブジェクトの位置を示す情報である。
【0039】
lis_loc_x, lis_loc_y, lis_loc_zは、三次元空間上の視点の位置を示す情報である。
【0040】
独立して伝送するオブジェクトについては、このような、obj_type, obj_loc_x, obj_loc_y, obj_loc_z, lis_loc_x, lis_loc_y, lis_loc_zから構成されるパラメータ情報が、レンダリング情報rとともに伝送される。レンダリングパラメータは、パラメータ情報とレンダリング情報から構成される。
【0041】
以下、具体的に説明する。
【0042】
(6)例えば、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトが
図3に示すように配置されるものとする。
図3は、会場#1にあるステージ#11を真上から見た図である。
【0043】
(7)会場#1に対して、
図4に示すようにXYZの各軸が設定される。
図4は、ステージ#11と観覧席を含む会場#1全体を斜め方向から見た図である。原点Oはステージ#11上の中心位置である。観覧席には、視点1と視点2が設定されている。
【0044】
各オブジェクトの座標が以下のように表されるものとする。単位はメートルである。
ベースの座標 :x=-20, y=0, z=0
ドラムの座標 :x=0, y=-10, z=0
ギター1の座標:x=20, y=0, z=0
ギター2の座標:x=30, y=0, z=0
ボーカルの座標:x=0, y=10, z=0
【0045】
(8)各視点の座標が以下のように表されるものとする。
視点1:x=25, y=30, z=-1
視点2:x=-35, y=30, z=-1
【0046】
なお、図における各オブジェクトおよび各視点の位置は、あくまで位置関係のイメージを表すものであり、上記各数値を正確に反映させた位置ではない。
【0047】
(9)このとき、視点1の各オブジェクトのレンダリング情報は、以下のように表される。
ベースのレンダリング情報
:r(0, -20, 0, 0, 25, 30, -1)
ドラムのレンダリング情報
:r(1, 0, -10, 0, 25, 30, -1)
ギター1のレンダリング情報
:r(2, 20, 0, 0, 25, 30, -1)
ギター2のレンダリング情報
:r(3, 30, 0, 0, 25, 30, -1)
ボーカルのレンダリング情報
:r(4, 0, 10, 0, 25, 30, -1)
【0048】
各オブジェクトのobj_typeは以下の値をとるものとする。
ベース :obj_type=0
ドラム :obj_type=1
ギター1:obj_type=2
ギター2:obj_type=3
ボーカル:obj_type=4
【0049】
視点2についても、以上のようにして表されるパラメータ情報とレンダリング情報を含むレンダリングパラメータがコンテンツ生成装置1において生成される。
【0050】
(10)上式(1)から、視点1(j=0)を選択した場合のオーディオデータは下式(2)のように表される。
【数2】
【0051】
ただし、x(n,i)について、iは以下のオブジェクトを表すものとする。
i=0:ベースのオブジェクト
i=1:ドラムのオブジェクト
i=2:ギター1のオブジェクト
i=3:ギター2のオブジェクト
i=4:ボーカルのオブジェクト
【0052】
視点1から見た各オブジェクトの配置例を
図5のAに示す。
図5のAにおいて、薄い色をつけて示す下方の部分はステージ#11の側面を示す。他の図においても同様である。
【0053】
(11)同様に、視点2(j=1)を選択した場合のオーディオデータは下式(3)のように表される。
【数3】
【0054】
視点2から見た各オブジェクトの配置例を
図5のBに示す。
【0055】
(12)ここで、
図6に示すように、視点1を基準としたときのギター1の方向とギター2の方向の水平方向の角度である角度θ1と、視点2を基準としたときのギター1の方向とギター2の方向の水平方向の角度である角度θ2は異なる。角度θ1に対して、角度θ2は狭い。
【0056】
図6は、各オブジェクトと視点の位置関係を示す平面図である。角度θ1は、視点1とギター1を結ぶ破線A1-1と視点1とギター2を結ぶ破線A1-2の間の角度である。また、角度θ2は、視点2とギター1を結ぶ破線A2-1と視点2とギター2を結ぶ破線A2-2の間の角度である。
【0057】
(13)角度θ1は、人間の聴覚上、弁別可能、すなわち、ギター1の音とギター2の音が異なる方向から聞こえる音として識別可能な角度であるものとする。一方、角度θ2は、人間の聴覚上、弁別が不可能な角度であるものとする。このとき、視点2のオーディオデータは、下式(4)のようにして置き換えることが可能である。
【数4】
【0058】
式(4)において、x(n,5)は、下式(5)により表される。
【数5】
【0059】
すなわち、式(5)は、ギター1とギター2を1つのオブジェクトとして纏め、その1つのオブジェクトのオーディオ波形データを、ギター1のオーディオ波形データとギター2のオーディオ波形データの和として表したものである。ギター1とギター2を纏めた1つのオブジェクトである統合オブジェクトのobj_typeは、obj_type=5とされている。
【0060】
また、統合オブジェクトのレンダリング情報は、ギター1のレンダリング情報とギター2のレンダリング情報の平均として、例えば下式(6)により表される。
【数6】
【0061】
このように、obj_type=5として表される統合オブジェクトについては、オーディオ波形データをx(n,5)とするとともに、レンダリング情報をr(5, 25, 0, 0, -35, 30, -1)として処理が行われる。ギター1とギター2を1つのオブジェクトとして纏めた場合の各オブジェクトの配置の例を
図7に示す。
【0062】
視点2から見た、統合オブジェクトを含む各オブジェクトの配置例を
図8に示す。視点2における映像にはギター1とギター2がそれぞれ映っているが、オーディオオブジェクトとしては、1つのギターのみが配置されることになる。
【0063】
(14)このように、選択された視点において聴覚上弁別できないオブジェクトについては、纏められて1つのオブジェクトとしてデータの伝送が行われる。
【0064】
これにより、コンテンツ生成装置1は、データを伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。また、レンダリングを行うオブジェクトの数が少ないため、再生装置2は、レンダリングに要する計算量を削減することが可能になる。
【0065】
なお、
図6の例においては、視点2から見た水平角が角度θ2の範囲内にあるオブジェクトとしてギター1、ギター2の他にボーカルがあるが、ボーカルは、視点2からの距離が近く、ギター1、ギター2とは弁別可能なオブジェクトである。
【0066】
<<各装置の構成例>>
<コンテンツ生成装置1の構成>
図9は、コンテンツ生成装置1の構成例を示すブロック図である。
【0067】
CPU(Central Processing Unit)21、ROM(Read Only Memory)22、RAM(Random Access Memory)23は、バス24により相互に接続される。バス24には、さらに入出力インタフェース25が接続される。入出力インタフェース25には、入力部26、出力部27、記憶部28、通信部29、およびドライブ30が接続される。
【0068】
入力部26は、キーボード、マウスなどにより構成される。入力部26は、ユーザの操作の内容を表す信号を出力する。
【0069】
出力部27は、LCD(Liquid Crystal Display)、有機ELディスプレイなどのディスプレイや、スピーカにより構成される。
【0070】
記憶部28は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部28は、CPU21により実行されるプログラム、コンテンツなどの各種のデータを記憶する。
【0071】
通信部29は、ネットワークインタフェースなどより構成され、インターネット3を介して外部の装置と通信を行う。
【0072】
ドライブ30は、装着されたリムーバブルメディア31に対するデータの書き込み、リムーバブルメディア31に記録されたデータの読み出しを行う。
【0073】
図9に示すような構成と同じ構成を再生装置2も有している。以下、適宜、
図9に示す構成を再生装置2の構成として引用して説明する。
【0074】
図10は、コンテンツ生成装置1の機能構成例を示すブロック図である。
【0075】
図10に示す構成のうちの少なくとも一部は、
図9のCPU21により所定のプログラムが実行されることによって実現される。コンテンツ生成装置1においては、オーディオエンコーダ51、メタデータエンコーダ52、オーディオ生成部53、ビデオ生成部54、コンテンツ記憶部55、および伝送制御部56が実現される。
【0076】
オーディオエンコーダ51は、図示せぬマイクロホンにより集音された音楽ライブ中の音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。
【0077】
メタデータエンコーダ52は、コンテンツ制作者による操作に従って、各オブジェクトのレンダリングパラメータを視点毎に生成する。会場#1に設定された複数の視点のそれぞれのレンダリングパラメータがメタデータエンコーダ52により生成される。
【0078】
オーディオ生成部53は、オーディオエンコーダ51により生成されたオーディオ波形データとメタデータエンコーダ52により生成されたレンダリングパラメータを対応付けることによって、オブジェクトベースの各視点のオーディオデータを生成する。オーディオ生成部53は、生成した各視点のオーディオデータをコンテンツ記憶部55に出力する。
【0079】
オーディオ生成部53においては、統合部61が実現される。統合部61は、適宜、オブジェクトの統合を行う。例えば、統合部61は、コンテンツ記憶部55に記憶された各視点のオーディオデータを読み出し、統合可能なオブジェクトを統合して、統合後のオーディオデータをコンテンツ記憶部55に記憶させる。
【0080】
ビデオ生成部54は、各視点の位置に設置されたカメラにより撮影されたビデオデータを取得し、所定の符号化方式で符号化することによって各視点のビデオデータを生成する。ビデオ生成部54は、生成した各視点のビデオデータをコンテンツ記憶部55に出力する。
【0081】
コンテンツ記憶部55は、オーディオ生成部53により生成された各視点のオーディオデータとビデオ生成部54により生成された各視点のビデオデータを対応付けて記憶する。
【0082】
伝送制御部56は、通信部29を制御し、再生装置2と通信を行う。伝送制御部56は、再生装置2のユーザにより選択された視点を表す情報である選択視点情報を受信し、選択された視点に応じたビデオデータとオーディオデータからなるコンテンツを再生装置2に送信する。
【0083】
<再生装置2の構成>
図11は、再生装置2の機能構成例を示すブロック図である。
【0084】
図11に示す構成のうちの少なくとも一部は、
図9のCPU21により所定のプログラムが実行されることによって実現される。再生装置2においては、コンテンツ取得部71、分離部72、オーディオ再生部73、およびビデオ再生部74が実現される。
【0085】
コンテンツ取得部71は、ユーザにより視点が選択された場合、通信部29を制御し、選択視点情報をコンテンツ生成装置1に送信する。コンテンツ取得部71は、選択視点情報を送信することに応じてコンテンツ生成装置1から送信されてきたコンテンツを受信して取得する。コンテンツ生成装置1からは、ユーザにより選択された視点に応じたビデオデータとオーディオデータを含むコンテンツが送信されてくる。コンテンツ取得部71は、取得したコンテンツを分離部72に出力する。
【0086】
分離部72は、コンテンツ取得部71から供給されたコンテンツに含まれるビデオデータとオーディオデータを分離する。分離部72は、コンテンツのビデオデータをビデオ再生部74に出力し、オーディオデータをオーディオ再生部73に出力する。
【0087】
オーディオ再生部73は、分離部72から供給されたオーディオデータを構成するオーディオ波形データをレンダリングパラメータに基づいてレンダリングし、コンテンツの音声を、出力部27を構成するスピーカから出力させる。
【0088】
ビデオ再生部74は、分離部72から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像を、出力部27を構成するディスプレイに表示させる。
【0089】
コンテンツの再生に用いられるスピーカとディスプレイが、再生装置2に接続された外部の機器として用意されるようにしてもよい。
【0090】
<<各装置の動作>>
次に、以上のような構成を有するコンテンツ生成装置1と再生装置2の動作について説明する。
【0091】
<コンテンツ生成装置1の動作>
・コンテンツ生成処理
はじめに、
図12のフローチャートを参照して、コンテンツを生成するコンテンツ生成装置1の処理について説明する。
【0092】
図12の処理は、例えば、音楽ライブが開始され、各視点のビデオデータと、各オブジェクトの音声信号がコンテンツ生成装置1に入力されたときに開始される。
【0093】
会場#1には複数のカメラが設置されており、それらのカメラにより撮影された映像がコンテンツ生成装置1に入力される。また、会場#1の各オブジェクトの近くにマイクが設置されており、それらのマイクにより収音された音声信号がコンテンツ生成装置1に入力される。
【0094】
ステップS1において、ビデオ生成部54は、各視点用のカメラにより撮影されたビデオデータを取得し、各視点のビデオデータを生成する。
【0095】
ステップS2において、オーディオエンコーダ51は、各オブジェクトの音声信号を取得し、各オブジェクトのオーディオ波形データを生成する。上述した例の場合、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データが生成される。
【0096】
ステップS3において、メタデータエンコーダ52は、コンテンツ制作者による操作に従って、各視点における、各オブジェクトのレンダリングパラメータを生成する。
【0097】
例えば、上述したように視点1と視点2が会場#1に設定されている場合、視点1におけるベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのレンダリングパラメータのセットと、視点2におけるベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのレンダリングパラメータのセットが生成される。
【0098】
ステップS4において、コンテンツ記憶部55は、オーディオデータとビデオデータを視点毎に対応付けることによって、各視点用のコンテンツを生成し、記憶する。
【0099】
以上の処理が、音楽ライブが行われている間、繰り返し行われる。例えば音楽ライブが終了したとき、
図12の処理は終了される。
【0100】
・オブジェクト統合処理
次に、
図13のフローチャートを参照して、オブジェクトを統合するコンテンツ生成装置1の処理について説明する。
【0101】
例えば、
図13の処理は、ベース、ドラム、ギター1、ギター2、およびボーカルの各オブジェクトのオーディオ波形データと、各視点における、各オブジェクトのレンダリングパラメータのセットが生成された後の所定のタイミングで行われる。
【0102】
ステップS11において、統合部61は、レンダリングパラメータが生成された複数の視点のうちの、所定の1つの視点に注目する。
【0103】
ステップS12において、統合部61は、レンダリングパラメータに含まれるパラメータ情報に基づいて各オブジェクトの位置を特定し、注目する視点を基準とした、各オブジェクトまでの距離を求める。
【0104】
ステップS13において、統合部61は、注目する視点からの距離が遠いオブジェクトが複数あるか否かを判定する。例えば、閾値として予め設定された距離以上離れた位置にあるオブジェクトが、距離が遠いオブジェクトとして扱われる。距離が遠いオブジェクトが複数ないとステップS13において判定された場合、ステップS11に戻り、注目する視点を切り替えて以上の処理が繰り返される。
【0105】
一方、距離が遠いオブジェクトが複数あるとステップS13において判定された場合、処理はステップS14に進む。注目する視点として視点2が選択されている場合、例えば、ドラム、ギター1、ギター2が、距離が遠いオブジェクトとして判定される。
【0106】
ステップS14において、統合部61は、距離が遠い複数のオブジェクトが、所定の水平角の範囲内にあるか否かを判定する。すなわち、この例においては、視点からの距離が遠く、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが、音を弁別できないオブジェクトとして処理されることになる。
【0107】
距離が遠い複数のオブジェクトが所定の水平角の範囲内にないとステップS14において判定した場合、ステップS15において、統合部61は、注目している視点については、全てのオブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、上述した視点1が選択された場合と同様に、全てのオブジェクトのオーディオ波形データと、その視点の各オブジェクトのレンダリングパラメータが伝送されることになる。
【0108】
一方、距離が遠い複数のオブジェクトが所定の水平角の範囲内にあるとステップS14において判定した場合、ステップS16において、統合部61は、距離が遠く所定の水平角の範囲内にある複数のオブジェクトを纏め、統合オブジェクトを伝送対象として設定する。この場合、注目している視点がコンテンツの伝送時に選択されたときには、統合オブジェクトのオーディオ波形データとレンダリングパラメータが、統合されていない独立のオブジェクトのオーディオ波形データとレンダリングパラメータとともに伝送されることになる。
【0109】
ステップS17において、統合部61は、距離が遠く所定の水平角の範囲内にあるオブジェクトのオーディオ波形データの和を求めることによって、統合オブジェクトのオーディオ波形データを生成する。この処理は、上式(5)を計算する処理に相当する。
【0110】
ステップS18において、統合部61は、距離が遠く、所定の水平角の範囲内にあるオブジェクトのレンダリングパラメータの平均を求めることによって、統合オブジェクトのレンダリングパラメータを生成する。この処理は、上式(6)を計算する処理に相当する。
【0111】
統合オブジェクトのオーディオ波形データとレンダリングパラメータはコンテンツ記憶部55に記憶され、注目している視点が選択されたときに伝送するデータとして管理される。
【0112】
ステップS15において伝送対象が設定された後、または、ステップS18において統合オブジェクトのレンダリングパラメータが生成された後、ステップS19において、統合部61は、全ての視点に注目したか否かを判定する。注目していない視点があるとステップS19において判定された場合、ステップS11に戻り、注目する視点を切り替えて以上の処理が繰り返される。
【0113】
一方、全ての視点に注目したとステップS19において判定された場合、
図13の処理は終了となる。
【0114】
以上の処理により、ある視点において音を弁別できないオブジェクトについては、統合オブジェクトとして纏められることになる。
【0115】
図13の処理が、選択視点情報が再生装置2から送信されてきたことに応じて行われるようにしてもよい。この場合、ユーザにより選択された視点に注目して
図13の処理が行われ、適宜、オブジェクトの統合が行われることになる。
【0116】
視点からの距離が遠く、かつ、視点から見た水平角が所定の角度の範囲内にあるオブジェクトではなく、単に、視点からの距離が遠いオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。また、視点から見た水平角が所定の角度の範囲内にあるオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。
【0117】
オブジェクト間の距離が算出され、閾値の距離より近くにあるオブジェクトが統合オブジェクトとして纏められるようにしてもよい。
【0118】
一方のオブジェクトのオーディオ波形データが、他方のオブジェクトのオーディオ波形データをマスクする成分の量が閾値より多い場合に、それらのオブジェクトが音を弁別できないオブジェクトとして処理されるようにしてもよい。このように、音を弁別できないオブジェクトの判定の仕方は任意である。
【0119】
・コンテンツ伝送処理
次に、
図14のフローチャートを参照して、コンテンツを伝送するコンテンツ生成装置1の処理について説明する。
【0120】
例えば、
図14の処理は、コンテンツの伝送を開始することが再生装置2から要求され、選択視点情報が再生装置2から送信されてきたときに開始される。
【0121】
ステップS31において、伝送制御部56は、再生装置2から送信されてきた選択視点情報を受信する。
【0122】
ステップS32において、伝送制御部56は、再生装置2のユーザにより選択された視点のビデオデータ、および、選択された視点における各オブジェクトのオーディオ波形データとレンダリングパラメータをコンテンツ記憶部55から読み出し、伝送する。統合されたオブジェクトについては、統合オブジェクトのオーディオデータとして生成されたオーディオ波形データとレンダリングパラメータが伝送される。
【0123】
以上の処理が、コンテンツの伝送が終了するまで繰り返し行われる。コンテンツの伝送が終了したとき、
図14の処理は終了される。
【0124】
<再生装置2の動作>
次に、
図15のフローチャートを参照して、コンテンツを再生する再生装置2の処理について説明する。
【0125】
ステップS101において、コンテンツ取得部71は、ユーザにより選択された視点を表す情報を選択視点情報としてコンテンツ生成装置1に送信する。
【0126】
例えばコンテンツの視聴開始前、複数用意されている視点のうちのどの視点でコンテンツを視聴するのかの選択に用いられる画面が、コンテンツ生成装置1から送信されてきた情報に基づいて表示される。選択視点情報を送信することに応じて、コンテンツ生成装置1からは、ユーザが選択した視点のビデオデータとオーディオデータを含むコンテンツが送信されてくる。
【0127】
ステップS102において、コンテンツ取得部71は、コンテンツ生成装置1から送信されてきたコンテンツを受信して取得する。
【0128】
ステップS103において、分離部72は、コンテンツに含まれるビデオデータとオーディオデータを分離する。
【0129】
ステップS104において、ビデオ再生部74は、分離部72から供給されたビデオデータをデコードし、コンテンツの所定の視点の映像をディスプレイに表示させる。
【0130】
ステップS105において、オーディオ再生部73は、分離部72から供給されたオーディオデータに含まれる各オブジェクトのオーディオ波形データを、各オブジェクトのレンダリングパラメータに基づいてレンダリングし、音声をスピーカから出力させる。
【0131】
以上の処理が、コンテンツの再生が終了するまで繰り返し行われる。コンテンツの再生が終了したとき、
図15の処理は終了される。
【0132】
以上のような一連の処理により、伝送するオブジェクトの数を削減することができ、データの伝送量を削減することが可能になる。
【0133】
<<オブジェクトの纏め方の変形例>>
(1)伝送ビットレートに応じた纏め方
伝送ビットレートに応じて最大オブジェクト数が決定され、それを超えないようにオブジェクトが纏められるようにしてもよい。
【0134】
図16は、オブジェクトの他の配置の例を示す図である。
図16は、ベース、ドラム、ギター1、ギター2、ボーカル1~6、ピアノ、トランペット、サックスによる演奏の例を示す。
図16の例においては、ステージ#11を正面から見る視点3が設定されている。
【0135】
例えば、伝送ビットレートに応じた最大オブジェクト数が3であり、視点3が選択された場合、上述したような角度による判定に基づいて、ピアノ、ベース、ボーカル1、ボーカル2が1つ目のオブジェクトとして纏められる。ピアノ、ベース、ボーカル1、ボーカル2は、視点3を基準としてステージ#11の左方に向けて設定された、破線A11と破線A12の間の角度の範囲内にあるオブジェクトである。
【0136】
同様に、ドラム、ボーカル3、ボーカル4が2つ目のオブジェクトとして纏められる。ドラム、ボーカル3、ボーカル4は、ステージ#11の中央に向けて設定された、破線A12と破線A13の間の角度の範囲内にあるオブジェクトである。
【0137】
また、トランペット、サックス、ギター1、ギター2、ボーカル5、ボーカル6が3つ目のオブジェクトとして纏められる。トランペット、サックス、ギター1、ギター2、ボーカル5、ボーカル6は、ステージ#11の右方に向けて設定された、破線A13と破線A14の間の角度の範囲内にあるオブジェクトである。
【0138】
上述したようにして各オブジェクト(統合オブジェクト)のオーディオ波形データとレンダリングパラメータが生成され、3つのオブジェクトのオーディオデータが伝送される。このように、統合オブジェクトとして纏めるオブジェクトの数を3以上とすることも可能である。
【0139】
図17は、オブジェクトの纏め方の他の例を示す図である。例えば、伝送ビットレートに応じた最大オブジェクト数が6であり、視点3が選択された場合、上述したような角度と距離による判定に基づいて、
図17の破線で区切って示すようにして各オブジェクトが纏められる。
【0140】
図17の例においては、ピアノとベースが1つ目のオブジェクトとして纏められ、ボーカル1とボーカル2が2つ目のオブジェクトとして纏められている。また、ドラムが独立の3つ目のオブジェクトとされ、ボーカル3とボーカルが4つ目のオブジェクトとして纏められている。トランペット、サックス、ギター1、ギター2が5つ目のオブジェクトとして纏められ、ボーカル5、ボーカル6が6つ目のオブジェクトとして纏められている。
【0141】
図16に示す纏め方は、
図17に示す纏め方と比べて、伝送ビットレートが低い場合に選択される纏め方となる。
【0142】
伝送するオブジェクトの数を伝送ビットレートに応じて決定することにより、伝送ビットレートが高い場合には高音質での視聴が可能となり、伝送ビットレートが低い場合には低音質での視聴が可能となるといったように、伝送ビットレートに応じた音質でのコンテンツの伝送が可能になる。
【0143】
例えば、コンテンツ生成装置1のコンテンツ記憶部55には、視点3が選択された場合に伝送するオーディオデータとして、
図16に示すように3つのオブジェクトのオーディオデータと、
図17に示すように6つのオブジェクトのオーディオデータが記憶される。
【0144】
伝送制御部56は、コンテンツの伝送を開始する前、再生装置2の通信環境を判別し、伝送ビットレートに応じて、3つのオブジェクトのオーディオデータ、6つのオブジェクトのオーディオデータのうちのいずれかを選択して伝送を行うことになる。
【0145】
(2)オブジェクトのグルーピング
以上の例においては、レンダリング情報が利得であるものとしたが、リバーブ情報とすることも可能である。リバーブ情報を構成するパラメータの中で、重要なパラメータは残響量である。残響量は、壁や床などの空間反射成分の量である。オブジェクト(楽器)と視聴者の距離に応じて残響量は異なる。一般的に、その距離が短いと残響量は少なく、長いと残響量は多くなる。
【0146】
音が弁別可能か否かを距離や角度に基づいて判定し、オブジェクトを纏めること以外に、別の指標として、オブジェクト間の距離に応じてオブジェクトを纏めるようにしてもよい。オブジェクト間の距離をも考慮してオブジェクトを纏める場合の例を
図18に示す。
【0147】
図18の例においては、破線で区切って示すようにオブジェクトのグループ分けが行われ、各グループに属するオブジェクトが纏められる。各グループに属するオブジェクトは下のようになる。
グループ1 ボーカル1、ボーカル2
グループ2 ボーカル3、ボーカル4
グループ3 ボーカル5、ボーカル6
グループ4 ベース
グループ5 ピアノ
グループ6 ドラム
グループ7 ギター1、2
グループ8 トランペット、サックス
【0148】
この場合、コンテンツ生成装置1のコンテンツ記憶部55には、視点3が選択された場合に伝送するオーディオデータとして、8つのオブジェクトのオーディオデータが記憶される。
【0149】
このように、音が弁別できない角度の範囲内にあるオブジェクトであっても、異なるリバーブを適用するオブジェクトとして処理されるようにしてもよい。
【0150】
このように、纏めることが可能なオブジェクトからなるグループが予め設定されるようにすることが可能である。距離や角度に基づく上述したような条件を満たすオブジェクトであって、同じグループに属するオブジェクトだけが統合オブジェクトとして纏められることになる。
【0151】
オブジェクト間の距離だけでなく、オブジェクトの種類、オブジェクトの位置等に応じてグループが設定されるようにしてもよい。
【0152】
なお、利得やリバーブ情報だけでなく、レンダリング情報が、イコライザ情報、コンプレッサー情報、リバーブ情報であってもよい。すなわち、レンダリング情報rについては、利得、イコライザ情報、コンプレッサー情報、リバーブ情報のうちの少なくともいずれかを表す情報とすることが可能である。
【0153】
(3)オブジェクトオーディオ符号化の高効率化
2つの弦楽器のオブジェクトを1つの弦楽器オブジェクトとして纏める場合について説明する。統合オブジェクトとしての1つの弦楽器オブジェクトには新たなオブジェクトタイプ(obj_type)が割り当てられる。
【0154】
纏める対象のオブジェクトであるバイオリン1のオーディオ波形データをx(n,10)、バイオリン2のオーディオ波形データをx(n,11)とすると、統合オブジェクトとしての弦楽器オブジェクトのオーディオ波形データx(n,14)は、下式(7)により表される。
【数7】
【0155】
ここで、バイオリン1とバイオリン2は同じ弦楽器であるので、2つのオーディオ波形データの相関は高い。
【0156】
下式(8)で示すバイオリン1とバイオリン2のオーディオ波形データの差成分x(n,15)は、情報エントロピーが低く、符号化する場合のビットレートも少なくて済む。
【数8】
【0157】
式(8)で示す差成分x(n,15)を、和成分として表されるオーディオ波形データx(n,14)とともに伝送することにより、以下に説明するように、低いビットレートで高音質を実現することが可能になる。
【0158】
通常、コンテンツ生成装置1から再生装置2に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置2側において高音質化を行う場合には、差成分x(n,15)も伝送される。
【0159】
オーディオ波形データx(n,14)とともに差成分x(n,15)を受信した再生装置2は、以下の式(9)、式(10)に示す計算を行うことにより、バイオリン1のオーディオ波形データx(n,10)と、バイオリン2のオーディオ波形データx(n,11)を再現することができる。
【数9】
【数10】
【0160】
この場合、コンテンツ生成装置1のコンテンツ記憶部55には、所定の視点が選択された場合に伝送する弦楽器オブジェクトのオーディオデータとして、オーディオ波形データx(n,14)とともに差成分x(n,15)が記憶される。
【0161】
差成分のデータを保持していることを示すフラグがコンテンツ生成装置1において管理される。そのフラグは、例えば他の情報とともにコンテンツ生成装置1から再生装置2に対して送信され、差成分のデータを保持していることが再生装置2により特定される。
【0162】
このように、相関の高いオブジェクトのオーディオ波形データについては、差成分をもコンテンツ生成装置1側に保持させておくことにより、伝送ビットレートに応じた音質の調整を2段階で行うことが可能になる。すなわち、再生装置2の通信環境がよい場合(伝送ビットレートが高い場合)にはオーディオ波形データx(n,14)と差成分x(n,15)が伝送され、通信環境がよくない場合にはオーディオ波形データx(n,14)のみが伝送される。
【0163】
なお、オーディオ波形データx(n,14)と差成分x(n,15)を足し合わせたデータ量は、オーディオ波形データx(n,10)とx(n,11)を足し合わせたデータ量より少ない。
【0164】
オブジェクトの数が4つである場合も同様にして纏めることが可能である。4つの楽器を纏めると、その纏めたオブジェクトのオーディオ波形データx(n,14)は下式(11)により表される。
【数11】
【0165】
ここで、x(n,10)はバイオリン1のオーディオ波形データ、x(n,11)はバイオリン2のオーディオ波形データ、x(n,12)はバイオリン3のオーディオ波形データ、x(n,13)はバイオリン4のオーディオ波形データである。
【0166】
この場合、下式(12)~(14)で表される差成分のデータがコンテンツ生成装置1により保持される。
【数12】
【数13】
【数14】
【0167】
通常、コンテンツ生成装置1から再生装置2に対してはオーディオ波形データx(n,14)が伝送されるものとする。ここで、再生装置2側において高音質化を行う場合には、差成分x(n,15)、x(n,16)、x(n,17)も伝送される。
【0168】
オーディオ波形データx(n,14)とともに差成分x(n,15)、x(n,16)、x(n,17)を受信した再生装置2は、以下の式(15)~(18)に示す計算を行うことにより、バイオリン1のオーディオ波形データx(n,10)、バイオリン2のオーディオ波形データx(n,11)、バイオリン3のオーディオ波形データx(n,12)、バイオリン4のオーディオ波形データx(n,13)を再現することができる。
【数15】
【数16】
【数17】
【数18】
【0169】
さらに、下式(19)から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン1のオーディオ波形データとバイオリン2のオーディオ波形データの和(x(n,10) + x(n,11))を取得することが可能であることが分かる。また、下式(20)から、オーディオ波形データx(n,14)と差成分x(n,15)があれば、バイオリン3のオーディオ波形データとバイオリン4のオーディオ波形データの和(x(n,12) + x(n,13))を取得することが可能であることが分かる。
【数19】
【数20】
【0170】
例えば、再生装置2が対応可能な伝送ビットレートが第1の閾値より高く、通信環境が3段階のうち最もよい場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)、x(n,16)、x(n,17)がコンテンツ生成装置1から伝送される。
【0171】
再生装置2においては、式(15)~(18)に示す計算が行われ、バイオリン1、バイオリン2、バイオリン3、バイオリン4の各オブジェクトのオーディオ波形データが取得され、高品質での再生が行われる。
【0172】
また、再生装置2が対応可能な伝送ビットレートが上記第1の閾値より未満であるが、第2の閾値より高く、通信環境が比較的よい場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)とともに、差成分x(n,15)がコンテンツ生成装置1から伝送される。
【0173】
再生装置2においては、式(19)、式(20)に示す計算が行われ、バイオリン1とバイオリン2を纏めたオーディオ波形データと、バイオリン3とバイオリン4を纏めたオーディオ波形データが取得され、オーディオ波形データx(n,14)だけを用いた場合より高品質での再生が行われる。
【0174】
再生装置2が対応可能な伝送ビットレートが上記第2の閾値未満である場合、4つのオブジェクトを纏めたオーディオ波形データx(n,14)がコンテンツ生成装置1から伝送される。
【0175】
このように、伝送ビットレートに応じた階層的な伝送(符号化)がコンテンツ生成装置1により行われるようにしてもよい。
【0176】
このような階層的な伝送が、再生装置2のユーザが支払った料金に応じて行われるようにしてもよい。例えば、ユーザが通常の料金を支払った場合にはオーディオ波形データx(n,14)のみの伝送が行われ、その料金より高い料金を支払った場合には、オーディオ波形データx(n,14)と差成分の伝送が行われる。
【0177】
(4)ポイントクラウド動画像データとの連携
コンテンツ生成装置1が伝送するコンテンツのビデオデータがポイントクラウド動画像データであるものとする。ポイントクラウド動画像データとオブジェクトオーディオデータは、ともに3次元空間上の座標データを持ち、その座標における色データおよびオーディオデータとなる。
【0178】
なお、ポイントクラウド動画像データについては、例えば「Microsoft “A Voxelized Point Cloud Dataset”,<https://jpeg.org/plenodb/pc/microsoft/>」に開示されている。
【0179】
コンテンツ生成装置1は、例えば、ボーカルの位置情報として3次元座標を保持し、その座標に紐づける形で、ポイントクラウド動画像データおよびオーディオオブジェクトデータを保持する。これにより、再生装置2は、所望のオブジェクトのポイントクラウド動画像データとオーディオのオブジェクトデータを容易に取得することができる。
【0180】
<<変形例>>
コンテンツ生成装置1が伝送するオーディオビットストリーム中に、そのストリームにより伝送されるオブジェクトが、纏められていない独立のオブジェクトであるのか、統合オブジェクトであるのか否かを示すフラグ情報が含まれるようにしてもよい。フラグ情報を含むオーディオビットストリームを
図19に示す。
【0181】
図19のオーディオビットストリームには、例えば、オブジェクトのオーディオ波形データとレンダリングパラメータも含まれる。
【0182】
図19のフラグ情報が、ストリームにより伝送されるオブジェクトが独立のオブジェクトであるのか否かを示す情報、または、統合オブジェクトであるのか否かを示す情報であってもよい。
【0183】
これにより、再生装置2は、ストリームを解析することによって、当該ストリームに含まれるデータが、統合オブジェクトのデータであるのか、独立のオブジェクトのデータであるのかを特定することが可能になる。
【0184】
このようなフラグ情報が、
図20に示すように、ビットストリームとともに伝送される再生管理ファイルに記述されるようにしてもよい。再生管理ファイルには、当該再生管理ファイルが再生対象とするストリーム(当該再生管理ファイルを用いて再生が行われるストリーム)のストリームID等の情報も記述される。この再生管理ファイルは、MPEG-DASHのMPD(Media Presentation Description)fileとして構成されてもよい。
【0185】
これにより、再生装置2は、再生管理ファイルを参照することによって、当該ストリームにより伝送されるオブジェクトが、統合オブジェクトであるのか、独立のオブジェクトであるのかを特定することが可能になる。
【0186】
再生装置2により再生されるコンテンツが、ビデオデータと、オブジェクトベースのオーディオデータとを含むものであるとしたが、ビデオデータを含まずに、オブジェクトベースのオーディオデータからなるコンテンツであってもよい。レンダリングパラメータが用意されている聴取位置の中から所定の聴取位置が選択された場合、選択された聴取位置に対するレンダリングパラメータを用いて、各オーディオオブジェクトの再生が行われる。
【0187】
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0188】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0189】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0190】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0191】
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0192】
・プログラムについて
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。
【0193】
インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる
図9に示されるリムーバブルメディア31に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM22や記憶部28に、あらかじめインストールしておくことができる。
【0194】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0195】
・組み合わせについて
本技術は、以下のような構成をとることもできる。
(1)
複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合する統合部と、
統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する伝送部と
を備える情報処理装置。
(2)
前記統合部は、統合の対象となる複数のオーディオオブジェクトのオーディオ波形データとレンダリングパラメータに基づいて、前記統合オーディオオブジェクトのオーディオ波形データとレンダリングパラメータを生成する
前記(1)に記載の情報処理装置。
(3)
前記伝送部は、前記統合オーディオオブジェクトのデータとして、前記統合部により生成されたオーディオ波形データとレンダリングパラメータを伝送し、前記他のオーディオオブジェクトのデータとして、それぞれの前記他のオーディオオブジェクトのオーディオ波形データと、前記所定の想定聴取位置におけるレンダリングパラメータとを伝送する
前記(2)に記載の情報処理装置。
(4)
前記統合部は、前記所定の想定聴取位置から所定の距離以上離れた位置にある複数のオーディオオブジェクトを統合する
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記統合部は、前記所定の想定聴取位置を基準としたときの水平角が所定の角度より狭い範囲にある複数のオーディオオブジェクトを統合する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記統合部は、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトであって、予め設定された同じグループに属するオーディオオブジェクトを統合する 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記統合部は、伝送されるオーディオオブジェクトの数が伝送ビットレートに応じた数になるようにオーディオオブジェクトの統合を行う
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記伝送部は、オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む前記オーディオビットストリームを伝送する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記伝送部は、オーディオビットストリームのファイルを、前記オーディオビットストリーム中に含まれるオーディオオブジェクトが、統合されていないオーディオオブジェクトであるのか、前記統合オーディオオブジェクトであるのかを表すフラグ情報を含む再生管理ファイルとともに伝送する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(10)
複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
ステップを含む情報処理方法。
(11)
コンピュータに、
複数の想定聴取位置のうちの所定の想定聴取位置に対する複数のオーディオオブジェクトのうち、前記所定の想定聴取位置において音を弁別できないオーディオオブジェクトを統合し、
統合して得られた統合オーディオオブジェクトのデータを、前記所定の想定聴取位置において音を弁別できる他のオーディオオブジェクトのデータとともに伝送する
ステップを含む処理を実行させるためのプログラム。
【符号の説明】
【0196】
1 コンテンツ生成装置, 2 再生装置, 51 オーディオエンコーダ, 52 メタデータエンコーダ, 53 オーディオ生成部, 54 ビデオ生成部, 55 コンテンツ記憶部, 56 伝送制御部, 61 統合部, 71 コンテンツ取得部, 72 分離部, 73 オーディオ再生部, 74 ビデオ再生部 73 オーディオ再生部