(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024166232
(43)【公開日】2024-11-28
(54)【発明の名称】信号処理装置および方法、並びにプログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20241121BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2024152849
(22)【出願日】2024-09-05
(62)【分割の表示】P 2021565455の分割
【原出願日】2020-12-03
(31)【優先権主張番号】P 2019227551
(32)【優先日】2019-12-17
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】畠中 光行
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】辻 実
(57)【要約】
【課題】伝送効率およびデータ処理量効率を向上させる。
【解決手段】信号処理装置は、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および第2のオブジェクトのオーディオデータを取得する取得部と、絶対座標位置情報を、第2のオブジェクトの位置を示す極座標位置情報に変換する座標変換部と、第1のオブジェクトの極座標位置情報およびオーディオデータと、第2のオブジェクトの極座標位置情報およびオーディオデータとに基づいてレンダリング処理を行うレンダリング処理部とを備える。本技術はコンテンツ再生システムに適用することができる。
【選択図】
図5
【特許請求の範囲】
【請求項1】
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得する取得部と、
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換する座標変換部と、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うレンダリング処理部と
を備える信号処理装置。
【請求項2】
前記座標変換部は、受聴者の絶対的な位置を示す受聴者位置情報に基づいて、前記第2のオブジェクトの前記絶対座標位置情報を前記極座標位置情報に変換する
請求項1に記載の信号処理装置。
【請求項3】
前記取得部は、前記受聴者位置情報に基づいて、前記第2のオブジェクトの前記絶対座標位置情報を取得する
請求項2に記載の信号処理装置。
【請求項4】
前記取得部は、前記受聴者位置情報に基づいて、前記受聴者と前記第2のオブジェクトの位置関係に応じた精度の前記絶対座標位置情報を取得する
請求項3に記載の信号処理装置。
【請求項5】
前記取得部は、前記受聴者位置情報に基づいて、前記受聴者から見た前記第1のオブジェクトの位置を示す前記極座標位置情報を取得する
請求項2に記載の信号処理装置。
【請求項6】
前記レンダリング処理部は、MPEG-Hで規定された極座標系での前記レンダリング処理を行う
請求項1に記載の信号処理装置。
【請求項7】
前記第1のオブジェクトは、残響音または暗騒音のオブジェクトである
請求項1に記載の信号処理装置。
【請求項8】
前記取得部は、さらに前記第1のオブジェクトのゲイン情報を取得し、
前記第1のオブジェクトの前記極座標位置情報または前記ゲイン情報は、予め定められた固定値である
請求項1に記載の信号処理装置。
【請求項9】
前記取得部は、受聴者により選択された前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータを取得する
請求項1に記載の信号処理装置。
【請求項10】
前記取得部は、さらにチャンネルベースのオーディオデータを取得し、
前記チャンネルベースのオーディオデータと、前記レンダリング処理により得られたオーディオデータとをミキシングするミキシング処理部をさらに備える
請求項1に記載の信号処理装置。
【請求項11】
前記チャンネルベースのオーディオデータは、暗騒音を再生するためのオーディオデータである
請求項10に記載の信号処理装置。
【請求項12】
前記取得部は、前記第1のオブジェクトについて、前記極座標位置情報および前記オーディオデータを取得するか、またはリバーブパラメータを取得し、
前記リバーブパラメータが取得された場合、前記第1のオブジェクトに対応する前記第2のオブジェクトの前記オーディオデータと、前記リバーブパラメータとに基づいてリバーブ処理を行い、前記第1のオブジェクトの前記オーディオデータを生成するリバーブ処理部をさらに備える
請求項1に記載の信号処理装置。
【請求項13】
信号処理装置が、
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換し、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行う
信号処理方法。
【請求項14】
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換し、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行う
ステップを含む処理をコンピュータに実行させるプログラム。
【請求項15】
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化する極座標位置情報符号化部と、
絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化する絶対座標位置情報符号化部と、
前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化するオーディオ符号化部と、
符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するビットストリーム生成部と
を備える信号処理装置。
【請求項16】
前記絶対座標位置情報符号化部は、受聴者の絶対的な位置を示す受聴者位置情報に応じた精度の前記絶対座標位置情報を符号化する
請求項15に記載の信号処理装置。
【請求項17】
前記絶対座標位置情報符号化部は、前記受聴者と前記第2のオブジェクトの位置関係に応じた精度の前記絶対座標位置情報を符号化する
請求項16に記載の信号処理装置。
【請求項18】
前記極座標位置情報符号化部は、前記受聴者から見た前記第1のオブジェクトの位置を示す前記極座標位置情報を符号化する
請求項16に記載の信号処理装置。
【請求項19】
信号処理装置が、
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化し、
絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化し、
前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化し、
符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成する
信号処理方法。
【請求項20】
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化し、
絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化し、
前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化し、
符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、信号処理装置および方法、並びにプログラムに関し、特に伝送効率を向上させることができるようにした信号処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来の固定視点向け3D Audioとして規格化されたMPEG(Moving Picture Experts Group)-H符号化規格は、受聴者の位置を原点とし、その周りの空間内をオーディオオブジェクトが移動するという考え方に基づいている(例えば、非特許文献1参照)。
【0003】
そのため、固定視点では原点にいる受聴者から見た各々のオーディオオブジェクトの位置情報は、受聴者から各オーディオオブジェクトまでの水平方向の角度、高さ方向の角度、および距離を用いた極座標により記述されている。
【0004】
このようなMPEG-H符号化規格を利用すれば、固定視点のコンテンツにおいて、空間内の各オーディオオブジェクトの位置に、それらのオーディオオブジェクトの音像を定位させることができ、臨場感の高いオーディオ再生を実現することが可能である。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】ISO/IEC 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
【発明の概要】
【発明が解決しようとする課題】
【0006】
一方で、空間内の任意の位置を受聴者の位置とすることができる自由視点のコンテンツも知られている。自由視点では、空間内においてオーディオオブジェクトが移動することに加え、受聴者も移動可能である。つまり、受聴者が移動可能であるという点において、自由視点は固定視点と異なっている。
【0007】
このような自由視点向けのオーディオにおいては、オーディオオブジェクトと受聴者の両方が移動することになる。
【0008】
したがって、空間内の各オーディオオブジェクトの位置情報の符号化を行う場合に、固定視点での符号化に用いられる受聴者を中心とした極座標によりオーディオオブジェクトの位置を表現すると、位置情報を効率的に伝送できないことがある。
【0009】
例えば固定視点では、オーディオオブジェクトが静止していれば、受聴者とオーディオオブジェクトとの間の相対的な位置関係は変化しないので、オーディオオブジェクトが移動したときに位置情報を符号化し、伝送すればよい。
【0010】
ところが、自由視点では、オーディオオブジェクトが静止していても受聴者が移動すれば、全てのオーディオオブジェクトについて位置情報を符号化して伝送しなければならないため、伝送効率が低下してしまう。
【0011】
そこで、自由視点において各オーディオオブジェクトの位置を絶対座標により表現すれば、位置情報の伝送効率の観点から有利であると考えられる。
【0012】
しかしながら、例えば暗騒音や残響音などの空間内の絶対位置への依存度が低く、受聴者を取り囲むような音については受聴者を中心とした再現とした方が望ましい場合がある。
【0013】
また、暗騒音や残響音以外にも、受聴者に向けて意図的な効果音のようなオーディオオブジェクトなどを用いる場合も考えられる。
【0014】
本技術は、このような状況に鑑みてなされたものであり、伝送効率を向上させることができるようにするものである。
【課題を解決するための手段】
【0015】
本技術の第1の側面の信号処理装置は、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得する取得部と、前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換する座標変換部と、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うレンダリング処理部とを備える。
【0016】
本技術の第1の側面の信号処理方法またはプログラムは、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換し、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うステップを含む。
【0017】
本技術の第1の側面においては、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータが取得され、前記絶対座標位置情報が、前記第2のオブジェクトの位置を示す極座標位置情報に変換され、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理が行われる。
【0018】
本技術の第2の側面の信号処理装置は、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化する極座標位置情報符号化部と、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化する絶対座標位置情報符号化部と、前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化するオーディオ符号化部と、符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するビットストリーム生成部とを備える。
【0019】
本技術の第2の側面の信号処理方法またはプログラムは、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化し、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化し、前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化し、符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するステップを含む。
【0020】
本技術の第2の側面においては、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報が符号化され、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報が符号化され、前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータが符号化され、符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームが生成される。
【図面の簡単な説明】
【0021】
【
図1】オブジェクトと座標系について説明する図である。
【
図2】ビットストリームフォーマットの例を示す図である。
【
図6】送信処理および受信処理を説明するフローチャートである。
【
図8】送信処理および受信処理を説明するフローチャートである。
【
図10】送信処理および受信処理を説明するフローチャートである。
【
図12】送信処理および受信処理を説明するフローチャートである。
【
図15】送信処理および受信処理を説明するフローチャートである。
【
図17】送信処理および受信処理を説明するフローチャートである。
【発明を実施するための形態】
【0022】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0023】
〈第1の実施の形態〉
〈本技術について〉
本技術は、オーディオオブジェクト(以下、単にオブジェクトとも称する)の位置情報を符号化して伝送する場合に、極座標により表現された極座標位置情報と、絶対座標により表現された絶対座標位置情報とを組み合わせることで、伝送効率を向上させることができるようにするものである。
【0024】
本技術では、サーバ側において、1または複数の各オブジェクトの音を再生するためのオーディオデータと、各オブジェクトの位置を示す極座標位置情報または絶対座標位置情報とが符号化されてクライアントへと伝送される。
【0025】
また、クライアントでは、サーバから受信した各オブジェクトのオーディオデータと、各オブジェクトの極座標位置情報や絶対座標位置情報に基づいて、各オブジェクトの音からなる自由視点のオーディオコンテンツが再生される。
【0026】
例えば、オブジェクトの空間内の位置を絶対座標で表現した絶対座標位置情報が符号化されてクライアントに送信される場合、サーバは空間内における受聴者の位置を絶対座標により表現した受聴者位置情報をクライアントから取得して絶対座標位置情報を生成する。
【0027】
このとき、サーバが、受聴者とオブジェクトとの位置関係、例えば受聴者からオブジェクトまでの距離に応じた精度でオブジェクトの位置を示す絶対座標位置情報を生成するようにしてもよい。
【0028】
具体的には、例えば受聴者からオブジェクトまでの距離が短いほど、より高い精度の絶対座標位置情報、つまり、より正確な位置を示す絶対座標位置情報が生成される。
【0029】
これは、符号化時の量子化精度(量子化ステップ幅)によってオブジェクトの位置にずれが生じるが、受聴者からオブジェクトまでの距離が長いほど、音像の定位位置のずれを感じさせない位置ずれの大きさ(許容誤差)は大きくなるからである。
【0030】
したがって、受聴者とオブジェクトとの位置関係に応じた適切な精度の絶対座標位置情報を生成して伝送すれば、音像位置のずれを感じさせることなく、絶対座標位置情報の情報量(ビット数)を削減することができる。
【0031】
なお、絶対座標位置情報を伝送するたびに、必要な精度の絶対座標位置情報が生成されるようにしてもよいが、予め最も高い精度の符号化された絶対座標位置情報が用意され、その絶対座標位置情報から必要な精度の絶対座標位置情報が生成されてもよい。
【0032】
具体的には、例えば空間内のオブジェクトの位置を示す絶対座標を所定の量子化精度で量子化することで得られた、最高精度の絶対座標位置情報が予め用意されているものとする。この最高精度の絶対座標位置情報は、符号化された絶対座標位置情報となっている。
【0033】
サーバは、受聴者位置情報など、クライアントにおいて指定された受聴者側の条件に応じて、最高精度の絶対座標位置情報の一部を抽出することで、任意の量子化精度でオブジェクトの絶対座標を量子化して得られる絶対座標位置情報を得る。すなわち、任意の精度でオブジェクトの位置を示す符号化された絶対座標位置情報を得ることができる。
【0034】
一方、オブジェクトの空間内の位置を極座標で表現した極座標位置情報が符号化されてクライアントに送信される場合、サーバは予め用意された空間内のオブジェクトの位置を示す絶対座標等の位置情報と、受聴者位置情報とに基づいて極座標位置情報を生成する。
【0035】
例えば
図1に示すように、3次元の空間内には主に2種類のオブジェクトが存在する。
【0036】
すなわち、例えば
図1の矢印Q11に示す例では、3次元の空間内において受聴者U11の周囲には、オブジェクトOB11とオブジェクトOB12が存在している。
【0037】
ここで、オブジェクトOB11は、例えば楽器などの空間内の配置位置の依存度が高いオーディオオブジェクトである。換言すれば、オブジェクトOB11は、オーディオ再生時には、空間内の絶対的な位置に定位すべきオブジェクトである。楽器等の直接音のオブジェクトは、ドライオブジェクトなどとも呼ばれている。
【0038】
以下では、オブジェクトOB11のような空間内における配置位置の依存度が高いオブジェクトを絶対座標オブジェクトとも称することとする。
【0039】
これに対して、オブジェクトOB12は、例えば背景の巨大なオブジェクト、暗騒音や残響成分に対応する固定的なオブジェクトなど、空間内の位置依存性、つまり配置位置の依存度が低いオーディオオブジェクトである。
【0040】
換言すれば、例えばオブジェクトOB12は、オーディオ再生時には受聴者U11の空間内での位置や動きに関わらず、常に受聴者U11に対して相対的に一定方向から音が到達するオブジェクトである。
【0041】
以下では、オブジェクトOB12のような空間内における配置位置の依存度が低いオブジェクトを極座標オブジェクトとも称することとする。
【0042】
自由視点においては、例えば矢印Q12に示すように、オブジェクトOB11のようなオブジェクトについては空間内の配置位置の依存度が高いことから、絶対座標位置情報を伝送することが伝送効率の観点から有利であると考えられる。
【0043】
これは、例えばオブジェクトOB11の絶対座標位置情報を伝送する場合、一度、絶対座標位置情報を伝送した後は、受聴者U11の位置が変化してもオブジェクトOB11が静止したままであれば、絶対座標位置情報を伝送する必要がないからである。
【0044】
一方、オブジェクトOB12のような、受聴者U11を取り囲む背景的な音のオブジェクトは空間内の位置への依存度は低く、受聴者U11を中心として配置されるものと捉える方が好ましい。
【0045】
上述したように、受聴者からの距離に応じた精度でオブジェクトの絶対座標位置情報を伝送する場合、受聴者の任意の位置に対応した、受聴者を中心とした位置関係を維持するための絶対座標位置へのマッピングをリアルタイムで行わなければならず、制御面や演算処理の面で不都合が生じる。すなわち、受聴者からの距離に基づいて量子化精度を決定するなどの制御や演算処理が必要となる。
【0046】
また、空間のサイズが大きい場合には、その領域を包含するだけの暗騒音などの位置依存性が低いオブジェクトをより多く配置しなければならないなどもあり、これにより伝送するオブジェクト数が増加することにより伝送情報が増えてしまうこともある。
【0047】
そこで、本技術では、オブジェクトOB12のような配置位置の依存度が低いオブジェクトについては、絶対座標により位置を表現するのではなく、矢印Q13に示すように受聴者U11を中心とする極座標系での位置を表現した極座標位置情報を伝送するようにした。
【0048】
この場合、受聴者U11から見たオブジェクトOB12の水平方向および垂直方向の位置を示す方位角および仰角と、受聴者U11からオブジェクトOB12までの距離を示す半径とからなる極座標位置情報が生成される。
【0049】
配置位置の依存度が低いオブジェクトの位置情報として極座標位置情報を伝送すれば、絶対座標位置へのマッピングを行う必要がなくなり、データ処理(演算処理)の処理量を削減する(処理効率を向上させる)ことができる。さらに、オブジェクトによっては、受聴者U11の位置が変化しても極座標位置情報は変化しないので、極座標位置情報の伝送回数を削減し、伝送効率を向上させることができる。
【0050】
このように、オブジェクトの性質(役割)に応じて絶対座標位置情報と極座標位置情報とを組み合わせることで、位置情報を効率的に伝送することができる。
【0051】
なお、極座標オブジェクトの用途としては、上述の暗騒音や残響音と同様に、受聴者を中心としたサウンドエフェクト(効果音)なども考えられる。そのような場合においてもオブジェクトの位置を極座標で表現することで、位置情報の効率的な伝送を実現することができる。
【0052】
また、極座標オブジェクトについて、極座標位置情報とともにゲイン情報も符号化されてクライアントに伝送されることがある。
【0053】
そのような場合、極座標オブジェクトは、以下のカテゴリC1乃至C3に分類することが可能であり、このようなカテゴリ分けを行うことで効率的に情報量を制御することができる。ここで、位置を示す角度とは方位角および仰角である。
【0054】
カテゴリC1:位置を示す角度およびゲイン情報がともに固定である
カテゴリC2:位置を示す角度は固定であるが、ゲイン情報は可変である
カテゴリC3:位置を示す角度およびゲイン情報がともに可変である
【0055】
例えば、暗騒音などの極座標オブジェクトはカテゴリC1とされ、受聴者の位置と連動してゲインが変化する残響音などの極座標オブジェクトはカテゴリC2とされ、サウンドエフェクトなどの極座標オブジェクトはカテゴリC3とされる。
【0056】
例えばカテゴリC1やカテゴリC2の極座標オブジェクトについては、極座標位置情報として予め定められた固定の座標値(固定値)が用いられるので、一度、極座標位置情報をクライアントに伝送すれば、その後は極座標位置情報の伝送が不要となる。
【0057】
したがって、極座標位置情報の伝送回数を削減し、伝送効率を向上させることができるだけでなく、ビットストリームの符号量も削減することができる。
【0058】
特に、カテゴリC1の極座標オブジェクトについては、極座標位置情報だけでなくゲイン情報も固定値とされるので、ゲイン情報の分も伝送効率を向上させるとともに符号量も削減することができる。
【0059】
また、例えばカテゴリC2の極座標オブジェクトについては、サーバ側において、クライアントから取得した受聴者位置情報に応じてゲイン量を算出し、そのゲイン量を示すゲイン情報を符号化してクライアントに伝送してもよい。
【0060】
ここで、以上において説明したオブジェクトの位置情報を伝送するためのビットストリームフォーマットの例を
図2に示す。
【0061】
図2においては「NumOfObjects」は絶対座標オブジェクトと極座標オブジェクトの合計の個数、つまりオブジェクトの総数を示している。
【0062】
また、「PosCodingMode[i]」は、i番目のオブジェクトの位置符号化モード、すなわちオブジェクトの種別を示しており、その位置符号化モードの値に応じてオブジェクトの位置情報やゲイン情報などがビットストリームに格納されている。
【0063】
ここでは、位置符号化モードの値「0」は、絶対座標オブジェクトであることを示している。また、位置符号化モードの値「1」は、カテゴリC1の極座標オブジェクトであることを示しており、この極座標オブジェクトについては予め用意された固定の極座標位置情報とゲイン情報が伝送される。
【0064】
さらに、位置符号化モードの値「2」は、カテゴリC2の極座標オブジェクトであることを示しており、この極座標オブジェクトについては予め用意された固定の極座標位置情報と、可変のゲイン情報とが伝送される。
【0065】
位置符号化モードの値「3」は、カテゴリC3の極座標オブジェクトであることを示しており、この極座標オブジェクトについては可変の極座標位置情報とゲイン情報が伝送される。
【0066】
この例では、極座標位置情報と絶対座標位置情報とが異なる領域に格納されて伝送される。特に絶対座標位置情報は、
図2に示すようにビットストリームの拡張領域等に格納されて伝送される。
【0067】
すなわち、この例では位置符号化モードの値が0であるオブジェクトについて、拡張領域等に量子化ビット数「ChildCubeDivIndex[i]」、絶対座標位置情報を構成するx座標値「QposX[i]」、絶対座標位置情報を構成するy座標値「QposY[i]」、および絶対座標位置情報を構成するz座標値「QposZ[i]」が符号化されて格納されている。
【0068】
なお、極座標位置情報や絶対座標位置情報の伝送は、
図2を参照して説明した例に限らず、どのようにして伝送されてもよい。
【0069】
例えば極座標位置情報については、既存のMPEG-Hのような符号化方式を用いてもよい。そのような場合、例えば
図3に示すように、オブジェクトのオーディオデータについては、極座標オブジェクトの分と、絶対座標オブジェクトの分との両方が符号化される。
【0070】
そして、極座標オブジェクトのオーディオデータを符号化して得られた符号化オーディオデータは、位置情報ありのデータとしてビットストリームのCPE(Channel Pair Element)やSCE(Single Channel Element)に格納される。
【0071】
また、極座標オブジェクトの極座標位置情報が符号化されてビットストリームのメタデータ領域などに格納される。
【0072】
これに対して、絶対座標オブジェクトのオーディオデータを符号化して得られた符号化オーディオデータは、位置情報なしのデータとしてビットストリームのCPEやSCEに格納される。
【0073】
さらに、絶対座標オブジェクトの絶対座標位置情報が、例えばMPEG-H符号化規格の拡張領域である「mpegh3daExtElement()」に
図2に示したフォーマットで格納されたり、MPEG-Hとは別のフォーマットとして伝送されたりする。
【0074】
〈サーバの構成例〉
続いて、本技術を適用したコンテンツ再生システムについて説明する。
【0075】
例えばコンテンツ再生システムは、上述したサーバとクライアントからなり、コンテンツ再生システムにおいては、絶対座標オブジェクトとされるオブジェクトや、極座標オブジェクトとされるオブジェクトが予め定められている。
【0076】
コンテンツ再生システムを構成するサーバは、例えば
図4に示すように構成される。
【0077】
図4に示すサーバ11は、受聴者位置情報受信部21、絶対座標位置情報符号化部22、極座標位置情報符号化部23、オーディオ符号化部24、ビットストリーム生成部25、および送信部26を有している。
【0078】
受聴者位置情報受信部21は、通信網を介してクライアントから送信されてきた、空間内における受聴者(ユーザ)の位置を示す受聴者位置情報を受信して、絶対座標位置情報符号化部22および極座標位置情報符号化部23に供給する。ここでは、受聴者位置情報は、空間内の受聴者の絶対的な位置を示す絶対座標などとされる。
【0079】
絶対座標位置情報符号化部22は、受聴者位置情報受信部21から供給された受聴者位置情報に基づいて、空間内における絶対座標オブジェクトの絶対的な位置を示す絶対座標位置情報を生成するとともに符号化し、ビットストリーム生成部25に供給する。
【0080】
例えば絶対座標位置情報符号化部22は、絶対座標オブジェクトの絶対的な位置を示す位置情報を、受聴者から絶対座標オブジェクトまでの距離により定まる量子化精度(量子化ステップ幅)で量子化することで、受聴者との位置関係に応じた精度の符号化された絶対座標位置情報を生成する。
【0081】
また、例えば絶対座標オブジェクトの絶対座標を所定の量子化精度で量子化することで得られた、符号化された最高精度の絶対座標位置情報が予め用意されている場合もある。
【0082】
そのような場合、絶対座標位置情報符号化部22は、絶対座標オブジェクトの最高精度の絶対座標位置情報を取得し、その最高精度の絶対座標位置情報のうちの、受聴者から絶対座標オブジェクトまでの距離に対して定められたビット長の情報を抽出する。これにより、受聴者からの距離に対して定められた精度で絶対座標オブジェクトの位置を示す、符号化された絶対座標位置情報が得られる。
【0083】
その他、絶対座標位置情報符号化部22が絶対座標オブジェクトのゲイン情報を取得したり生成したりして、そのゲイン情報を符号化し、ビットストリーム生成部25に供給するようにしてもよい。
【0084】
極座標位置情報符号化部23は、必要に応じて、受聴者から見た極座標オブジェクトの相対的な位置を示す極座標位置情報を生成し、極座標位置情報を符号化する。
【0085】
例えば、上述したカテゴリC1やカテゴリC2の極座標オブジェクトについては、予め極座標位置情報が用意されているので、極座標位置情報符号化部23は、その予め用意された極座標位置情報を取得して符号化する。
【0086】
また、例えばカテゴリC3の極座標オブジェクトについては、空間内の極座標オブジェクトの絶対的な位置を示す位置情報が予め用意されている。
【0087】
そして、極座標位置情報符号化部23は、極座標オブジェクトの絶対的な位置を示す位置情報を取得するとともに、その位置情報と、受聴者位置情報受信部21から供給された受聴者位置情報とに基づいて極座標位置情報を生成し、符号化する。
【0088】
さらに、極座標位置情報符号化部23は、極座標オブジェクトのカテゴリと受聴者位置情報に基づいて、適宜、極座標オブジェクトのゲイン情報を生成したり、予め用意された極座標オブジェクトのゲイン情報を取得したりするとともに、ゲイン情報を符号化する。
【0089】
極座標位置情報符号化部23は、符号化された極座標位置情報およびゲイン情報をビットストリーム生成部25に供給する。
【0090】
なお、以下、符号化された絶対座標位置情報を符号化絶対座標位置情報とも称し、符号化された極座標位置情報を符号化極座標位置情報とも称することとする。
【0091】
オーディオ符号化部24は、絶対座標オブジェクトのオーディオデータや、極座標オブジェクトのオーディオデータ、チャンネルベースのオーディオデータを取得して、それらの取得したオーディオデータを符号化し、その結果得られた符号化オーディオデータをビットストリーム生成部25に供給する。
【0092】
ここで、チャンネルベースのオーディオデータとは、マルチチャンネル構成の各チャンネルのオーディオデータである。
【0093】
例えばチャンネルベースのオーディオデータは、受聴者の位置によらず聞こえ方が変化しない固定的な暗騒音や背景音などのオーディオデータなどとされる。また、空間全体に広がる爆音など、1つまたは複数個のオブジェクトで表現することが困難である広範囲に影響を及ぼす効果音等を再生するためのオーディオデータをチャンネルベースのオーディオデータとしてもよい。
【0094】
これに対して、絶対座標オブジェクトや極座標オブジェクトのオーディオデータは、オブジェクトの音を再生するためのオブジェクトベースのオーディオデータである。
【0095】
以下では、クライアント側で再生される自由視点のコンテンツが、チャンネルベースのオーディオデータに基づく音、各絶対座標オブジェクトの音、および各極座標オブジェクトの音からなる場合について説明する。
【0096】
しかし、各絶対座標オブジェクトの音および各極座標オブジェクトの音がコンテンツの音として再生されれば、必ずしもチャンネルベースのオーディオデータは必要ない。
【0097】
一例として、例えば暗騒音などのオーディオデータとして、極座標オブジェクトのオーディオデータがある場合には、コンテンツのデータとしてチャンネルベースのオーディオデータがないようにすることが考えられる。
【0098】
逆に、暗騒音などのオーディオデータとしてチャンネルベースのオーディオデータがある場合には、暗騒音等のオブジェクトがないようにすることも考えられる。
【0099】
ビットストリーム生成部25は、絶対座標位置情報符号化部22からの符号化絶対座標位置情報、極座標位置情報符号化部23からの符号化極座標位置情報とゲイン情報、およびオーディオ符号化部24からの符号化オーディオデータを多重化する。ビットストリーム生成部25は、多重化により生成されたビットストリームを送信部26に供給する。
【0100】
送信部26は、ビットストリーム生成部25から供給されたビットストリームを、通信網を介してクライアントに送信する。
【0101】
〈クライアントの構成例〉
また、サーバ11からビットストリームの供給を受けるクライアントは、例えば
図5に示すように構成される。
【0102】
図5に示すクライアント51は、受聴者位置情報入力部61、受聴者位置情報送信部62、受信分離部63、オブジェクト分離部64、極座標位置情報復号部65、絶対座標位置情報復号部66、座標変換部67、オーディオ復号部68、レンダラ69、フォーマット変換部70、およびミキサ71を有している。
【0103】
受聴者位置情報入力部61は、例えば受聴者に装着されたセンサや、マウス、キーボード、タッチパネルなどからなり、受聴者の動作や操作等により入力(指定)された受聴者位置情報を受聴者位置情報送信部62および座標変換部67に供給する。
【0104】
受聴者位置情報送信部62は、受聴者位置情報入力部61から供給された受聴者位置情報を、通信網を介してサーバ11に送信する。
【0105】
受信分離部63は、サーバ11から送信されてきたビットストリームを受信し、ビットストリームから符号化絶対座標位置情報や符号化極座標位置情報、ゲイン情報、符号化オーディオデータを分離させる。
【0106】
換言すれば受信分離部63は、受聴者位置情報に基づいてビットストリームを受信することで、符号化絶対座標位置情報や符号化極座標位置情報、ゲイン情報、符号化オーディオデータを取得する取得部として機能する。特に受信分離部63は、受聴者位置情報に基づいて受聴者と絶対座標オブジェクトとの位置関係に応じた精度の符号化絶対座標位置情報を取得する。
【0107】
受信分離部63は、ビットストリームから分離(抽出)された符号化絶対座標位置情報や符号化極座標位置情報、ゲイン情報をオブジェクト分離部64に供給するとともに、符号化オーディオデータをオーディオ復号部68に供給する。
【0108】
オブジェクト分離部64は、受信分離部63から供給された符号化絶対座標位置情報や符号化極座標位置情報、ゲイン情報を分離させる。
【0109】
すなわち、オブジェクト分離部64は、符号化極座標位置情報とゲイン情報を極座標位置情報復号部65に供給するとともに、符号化絶対座標位置情報を絶対座標位置情報復号部66に供給する。
【0110】
極座標位置情報復号部65は、オブジェクト分離部64から供給された符号化極座標位置情報およびゲイン情報を復号し、レンダラ69に供給する。
【0111】
絶対座標位置情報復号部66は、オブジェクト分離部64から供給された符号化絶対座標位置情報を復号し、座標変換部67に供給する。
【0112】
座標変換部67は、受聴者位置情報入力部61から供給された受聴者位置情報に基づいて、絶対座標位置情報復号部66から供給された絶対座標位置情報を極座標位置情報に変換し、レンダラ69に供給する。
【0113】
座標変換部67では、座標変換によって、絶対座標オブジェクトの絶対座標位置情報が、受聴者位置情報により示される受聴者位置から見た絶対座標オブジェクトの相対的な位置を示す極座標である極座標位置情報に変換される。
【0114】
なお、座標変換にあたっては、受聴者位置情報だけでなく、受聴者位置情報入力部61で得られる受聴者の顔の向きを示す方向情報も利用されるようにしてもよい。そのような場合、受聴者の正面方向を基準とする絶対座標オブジェクトの相対的な位置を示す極座標位置情報が生成される。
【0115】
オーディオ復号部68は、受信分離部63から供給された符号化オーディオデータを復号し、その結果得られた各オブジェクトのオーディオデータをレンダラ69に供給するとともに、チャンネルベースのオーディオデータをフォーマット変換部70に供給する。
【0116】
したがって、レンダラ69には、各絶対座標オブジェクトのオーディオデータと、各極座標オブジェクトのオーディオデータとが供給されることになる。
【0117】
レンダラ69は、極座標位置情報復号部65から供給された極座標位置情報とゲイン情報、座標変換部67から供給された極座標位置情報、およびオーディオ復号部68から供給された各オブジェクトのオーディオデータに基づいてレンダリング処理を行う。
【0118】
レンダラ69では、例えばMPEG-Hで規定された極座標系でのレンダリング処理が行われる。
【0119】
より具体的には、例えばレンダラ69では、レンダリング処理としてVBAP(Vector Based Amplitude Panning)などが行われ、オブジェクトの音を再生するためのオーディオデータが生成される。
【0120】
このオーディオデータは、最終的な出力先となるスピーカシステムのスピーカ構成に対応するマルチチャンネルのオーディオデータである。すなわち、レンダリング処理により得られるオーディオデータは、スピーカシステムを構成する複数の各スピーカに対応するチャンネルのオーディオデータからなる。
【0121】
このようなオーディオデータに基づいて音を再生すれば、空間内の極座標位置情報により示される位置にオブジェクトの音像を定位させることができる。
【0122】
なお、レンダラ69では、極座標オブジェクトのゲイン情報に基づいて、その極座標オブジェクトのオーディオデータがゲイン補正され、ゲイン補正されたオーディオデータが用いられてレンダリング処理が行われる。
【0123】
レンダラ69は、レンダリング処理により得られたオーディオデータをミキサ71に供給する。
【0124】
フォーマット変換部70は、オーディオ復号部68から供給されたチャンネルベースのオーディオデータを、コンテンツの音を再生するためのスピーカシステムのスピーカ構成に対応するチャンネル構成のオーディオデータに変換するフォーマット変換を行う。
【0125】
フォーマット変換部70は、フォーマット変換により得られたチャンネルベースのオーディオデータをミキサ71に供給する。
【0126】
ミキサ71は、レンダラ69から供給されたオーディオデータと、フォーマット変換部70から供給されたチャンネルベースのオーディオデータとに基づいてミキシング処理を行い、その結果得られたマルチチャンネルのオーディオデータを後段に出力する。
【0127】
例えばミキシング処理では、レンダラ69から供給されたマルチチャンネルのオーディオデータと、チャンネルベースのオーディオデータとのうち、同じチャンネルのオーディオデータが加算(ミキシング)されて、そのチャンネルの最終的なオーディオデータとされる。
【0128】
〈送信処理および受信処理の説明〉
次に、サーバ11およびクライアント51からなるコンテンツ再生システムの動作について説明する。すなわち、以下、
図6のフローチャートを参照して、サーバ11による送信処理、およびクライアント51による受信処理について説明する。
【0129】
クライアント51においてコンテンツの再生開始が指示されると、クライアント51は受信処理を開始する。受信処理が開始されると、受聴者位置情報入力部61は、受聴者の操作等により入力(指定)された受聴者位置情報を受聴者位置情報送信部62および座標変換部67に供給する。
【0130】
すると、ステップS11において受聴者位置情報送信部62は、受聴者位置情報入力部61から供給された受聴者位置情報をサーバ11に送信する。
【0131】
なお、受聴者位置情報は、フレームごとなど、定期的に送信されるようにしてもよいし、受聴者の位置が変化した場合にのみ送信されるようにしてもよい。
【0132】
このようにして受聴者位置情報が送信されると、サーバ11では送信処理が行われる。
【0133】
すなわち、ステップS41において受聴者位置情報受信部21は、クライアント51から送信されてきた受聴者位置情報を受信し、絶対座標位置情報符号化部22および極座標位置情報符号化部23に供給する。
【0134】
ステップS42において絶対座標位置情報符号化部22は、受聴者位置情報受信部21から供給された受聴者位置情報に基づいて、絶対座標オブジェクトの絶対座標位置情報を生成する。また、ステップS43において絶対座標位置情報符号化部22は、受聴者位置情報に基づいて絶対座標位置情報を符号化し、得られた符号化絶対座標位置情報をビットストリーム生成部25に供給する。
【0135】
例えば絶対座標位置情報符号化部22は、絶対座標オブジェクトの絶対的な位置を示す位置情報を取得し、受聴者位置情報により定まる量子化精度で量子化することで、受聴者との位置関係に応じた精度の符号化された絶対座標位置情報を生成する。
【0136】
また、例えば最高精度の符号化された絶対座標位置情報が予め用意されている場合、絶対座標位置情報符号化部22は、その最高精度の絶対座標位置情報を取得する。
【0137】
そして絶対座標位置情報符号化部22は、受聴者から絶対座標オブジェクトまでの距離に対して定められたビット長の情報を、取得した最高精度の絶対座標位置情報から抽出することで、所定の量子化精度の符号化絶対座標位置情報を生成する。
【0138】
このとき、人間の知覚角度とオブジェクトまでの距離による許容される量子化誤差を鑑みると、例えば受聴者からの距離が長い絶対座標オブジェクトほど、より量子化精度が低い符号化絶対座標位置情報が生成されるようにすることで、音像の定位感を損ねることなく、符号化絶対座標位置情報の伝送効率を向上させることができる。
【0139】
ステップS44において極座標位置情報符号化部23は、受聴者位置情報受信部21から供給された受聴者位置情報に応じて、必要な極座標オブジェクトの極座標位置情報を生成する。すなわち、極座標位置情報符号化部23は、極座標オブジェクトの位置情報を取得し、取得した位置情報と受聴者位置情報とに基づいて、極座標オブジェクトの極座標位置情報を生成する。
【0140】
ここでは、カテゴリC1とカテゴリC2の極座標位置情報は予め得られているので、カテゴリC3の極座標位置情報のみが生成される。
【0141】
また、極座標位置情報符号化部23は、カテゴリC1の極座標オブジェクトのゲイン情報を取得するとともに、カテゴリC2およびカテゴリC3の極座標オブジェクトについて、極座標オブジェクトの位置情報や受聴者位置情報に基づいてゲイン情報を生成する。
【0142】
ステップS45において極座標位置情報符号化部23は、各極座標オブジェクトの極座標位置情報およびゲイン情報を符号化し、ビットストリーム生成部25に供給する。
【0143】
ステップS46においてオーディオ符号化部24は、絶対座標オブジェクトのオーディオデータ、極座標オブジェクトのオーディオデータ、およびチャンネルベースのオーディオデータを取得し、それらのオーディオデータを符号化する。
【0144】
オーディオ符号化部24は、符号化により得られた符号化オーディオデータをビットストリーム生成部25に供給する。
【0145】
ステップS47においてビットストリーム生成部25は、絶対座標位置情報符号化部22からの符号化絶対座標位置情報、極座標位置情報符号化部23からの符号化極座標位置情報とゲイン情報、およびオーディオ符号化部24からの符号化オーディオデータを多重化し、ビットストリームを生成する。ビットストリーム生成部25は、多重化により生成されたビットストリームを送信部26に供給する。
【0146】
なお、例えば絶対座標オブジェクトの位置、および受聴者から絶対座標オブジェクトまでの距離が変化していない場合など、同じ符号化絶対座標位置情報が既に送信されている場合には、その絶対座標オブジェクトに対する量子化ビット数を0として伝送することで、符号化絶対座標位置情報はビットストリームに格納されない。すなわち、絶対座標位置情報の符号化もクライアント51への送信も行われない。
【0147】
同様に符号化極座標位置情報も、極座標位置情報が変化した場合にのみ符号化およびクライアント51への送信が行われる。
【0148】
このようにすることで、符号化絶対座標位置情報や符号化極座標位置情報の伝送効率を向上させることができる。
【0149】
ステップS48において送信部26は、ビットストリーム生成部25から供給されたビットストリームをクライアント51に送信し、送信処理は終了する。
【0150】
また、ビットストリームが送信されると、クライアント51ではステップS12の処理が行われる。
【0151】
すなわち、ステップS12において受信分離部63は、サーバ11から送信されてきたビットストリームを受信する。
【0152】
ステップS13において受信分離部63は、受信したビットストリームを、符号化絶対座標位置情報、符号化極座標位置情報、ゲイン情報、および符号化オーディオデータに分離させる。
【0153】
受信分離部63は、分離された符号化絶対座標位置情報や符号化極座標位置情報、ゲイン情報をオブジェクト分離部64に供給するとともに、符号化オーディオデータをオーディオ復号部68に供給する。
【0154】
また、オブジェクト分離部64は、受信分離部63から供給された符号化極座標位置情報とゲイン情報を極座標位置情報復号部65に供給するとともに、符号化絶対座標位置情報を絶対座標位置情報復号部66に供給する。
【0155】
ステップS14において極座標位置情報復号部65は、オブジェクト分離部64から供給された符号化極座標位置情報およびゲイン情報を復号し、レンダラ69に供給する。
【0156】
なお、ここではサーバ11側において、カテゴリC2およびカテゴリC3の極座標オブジェクトのゲイン情報が算出される例について説明した。
【0157】
しかし、極座標位置情報復号部65が受聴者位置情報や極座標位置情報に基づいて、カテゴリC2およびカテゴリC3の極座標オブジェクトのゲイン情報を算出するようにしてもよい。この場合、ビットストリームに含まれている位置符号化モードから、各極座標オブジェクトのカテゴリ(種別)を特定可能である。
【0158】
ステップS15において絶対座標位置情報復号部66は、オブジェクト分離部64から供給された符号化絶対座標位置情報を復号し、座標変換部67に供給する。
【0159】
ステップS16において座標変換部67は、受聴者位置情報入力部61から供給された受聴者位置情報に基づいて、絶対座標位置情報復号部66から供給された絶対座標位置情報に対する座標変換を行う。これにより、各絶対座標オブジェクトについて、受聴者から見た絶対座標オブジェクトの相対的な位置を示す極座標位置情報が得られる。
【0160】
なお、座標変換にあたっては、受聴者の顔の向き(Yaw)、顔の上げ下げ(Pitch)、顔の回転(Roll)を示す情報も利用されるようにしてもよい。
【0161】
座標変換部67は、座標変換により得られた各絶対座標オブジェクトの極座標位置情報をレンダラ69に供給する。
【0162】
ステップS17においてオーディオ復号部68は、受信分離部63から供給された符号化オーディオデータを復号する。
【0163】
オーディオ復号部68は、復号により得られた各絶対座標オブジェクトのオーディオデータ、および各極座標オブジェクトのオーディオデータをレンダラ69に供給するとともに、復号により得られたチャンネルベースのオーディオデータをフォーマット変換部70に供給する。
【0164】
また、フォーマット変換部70は、オーディオ復号部68から供給されたチャンネルベースのオーディオデータに対してフォーマット変換を行い、その結果得られたオーディオデータをミキサ71に供給する。
【0165】
ステップS18においてレンダラ69は、極座標位置情報復号部65から供給された極座標位置情報、座標変換部67から供給された極座標位置情報、およびオーディオ復号部68から供給されたオーディオデータに基づいてVBAP等のレンダリング処理を行う。
【0166】
このとき、レンダラ69は、極座標位置情報復号部65から供給されたゲイン情報に基づいて、極座標オブジェクトのオーディオデータをゲイン補正し、ゲイン補正されたオーディオデータを用いてレンダリング処理を行う。レンダラ69は、レンダリング処理により得られたオーディオデータをミキサ71に供給する。
【0167】
ステップS19においてミキサ71は、レンダラ69から供給されたオーディオデータと、フォーマット変換部70から供給されたチャンネルベースのオーディオデータとに基づいてミキシング処理を行う。
【0168】
そして、ミキサ71はミキシング処理により得られたマルチチャンネルのオーディオデータを後段に出力し、受信処理は終了する。
【0169】
なお、ビットストリームにチャンネルベースのオーディオデータが含まれていない場合には、ミキシング処理は行われず、レンダラ69で得られたオーディオデータが後段に出力され、受信処理が終了する。
【0170】
コンテンツ再生システムでは、以上において説明した処理が、コンテンツのオーディオデータのフレームごとに行われる。
【0171】
以上のようにしてサーバ11は、オブジェクトが絶対座標オブジェクトであるか、または極座標オブジェクトであるかに応じて、絶対座標位置情報または極座標位置情報を符号化し、符号化オーディオデータとともにビットストリームに格納し、送信する。
【0172】
また、クライアント51はビットストリームから符号化絶対座標位置情報や符号化極座標位置情報を抽出して復号し、レンダリング処理を行う。
【0173】
このようにオブジェクトの性質(特徴)に応じた座標系でオブジェクトの位置を示す絶対座標位置情報や極座標位置情報を生成してクライアント51に送信することで、オブジェクトの位置情報の情報量や送信頻度を削減し、伝送効率を向上させることができる。
【0174】
〈第2の実施の形態〉
〈サーバの構成例〉
なお、例えば暗騒音等のカテゴリC1の極座標オブジェクトについては、オブジェクトのオーディオデータではなくチャンネルベースのオーディオデータとされてクライアント51に伝送されるようにしてもよい。
【0175】
そのような場合、コンテンツ再生システムは、例えば
図7に示すサーバ11と、
図5に示したクライアント51とからなる。なお、
図7において
図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0176】
図7に示すサーバ11は、受聴者位置情報受信部21、絶対座標位置情報符号化部22、極座標位置情報符号化部23、プリレンダリング処理部101、オーディオ符号化部24、ビットストリーム生成部25、および送信部26を有している。
【0177】
図7のサーバ11の構成は、新たにプリレンダリング処理部101が設けられている点で
図4のサーバ11と異なり、その他の点では
図4のサーバ11と同じ構成となっている。
【0178】
但し、
図7のサーバ11では、受聴者位置情報受信部21は、クライアント51から受聴者位置情報だけでなく、受聴者の顔の向きを示す方向情報も取得し、プリレンダリング処理部101に供給する。
【0179】
また、この例では、カテゴリC1の極座標オブジェクトについては、空間内の極座標オブジェクトの絶対的な位置を示す位置情報が予め用意されているものとする。
【0180】
プリレンダリング処理部101は、カテゴリC1の極座標オブジェクトの絶対的な位置を示す位置情報およびオーディオデータを取得する。
【0181】
さらにプリレンダリング処理部101は、取得した位置情報およびオーディオデータと、受聴者位置情報受信部21から供給された受聴者位置情報および方向情報とに基づいてプリレンダリングを行い、その結果得られたチャンネルベースのオーディオデータをオーディオ符号化部24に供給する。
【0182】
例えばプリレンダリングでは、まず極座標オブジェクトの位置情報と、受聴者位置情報および方向情報とに基づいて、受聴者の正面方向を基準とする極座標オブジェクトの相対的な位置を示す極座標位置情報が生成される。
【0183】
そして、極座標オブジェクトの極座標位置情報およびオーディオデータに基づいて、VBAPなどが行われ、チャンネルベースのオーディオデータが生成される。このチャンネルベースのオーディオデータは、空間内の極座標位置情報により示される位置に極座標オブジェクトの音像が定位するマルチチャンネル構成のオーディオデータである。
【0184】
なお、プリレンダリングにより生成されるチャンネルベースのオーディオデータとは別に、コンテンツを構成する、予め用意されている他のチャンネルベースのオーディオデータがある場合には、それらのチャンネルベースのオーディオデータが加算されて、最終的なチャンネルベースのオーディオデータとされる。
【0185】
オブジェクトベースのオーディオデータでは、任意のオブジェクトについて音像定位やゲインの制御が可能であるなどの利点がある。
【0186】
これに対して、チャンネルベースのオーディオデータでは、オブジェクトの位置情報を符号化して復号側へと伝送する必要がないという利点がある。
【0187】
したがって、
図7の例においては、カテゴリC1の極座標オブジェクトの符号化極座標位置情報をクライアント51に伝送しなくて済み、ビットストリームの符号量も削減することができる。さらに、クライアント51側において、カテゴリC1の極座標オブジェクトのレンダリング処理が不要となるので、その分だけクライアント51での処理量を削減することができる。
【0188】
〈送信処理および受信処理の説明〉
次に、
図7に示したサーバ11と、
図5に示したクライアント51とからなるコンテンツ再生システムの動作について説明する。
【0189】
すなわち、以下、
図8のフローチャートを参照して、サーバ11による送信処理、およびクライアント51による受信処理について説明する。
【0190】
クライアント51において受信処理が開始されると、受聴者位置情報入力部61は、受聴者位置情報および方向情報を取得し、受聴者位置情報送信部62および座標変換部67に供給する。
【0191】
すると、ステップS81において受聴者位置情報送信部62は、受聴者位置情報入力部61から供給された受聴者位置情報および方向情報をサーバ11に送信する。
【0192】
このようにして受聴者位置情報および方向情報が送信されると、サーバ11では送信処理が行われる。
【0193】
すなわち、ステップS111において受聴者位置情報受信部21は、クライアント51から送信されてきた受聴者位置情報および方向情報を受信する。
【0194】
また、受聴者位置情報受信部21は、受聴者位置情報を絶対座標位置情報符号化部22および極座標位置情報符号化部23に供給するとともに、受聴者位置情報および方向情報をプリレンダリング処理部101に供給する。
【0195】
ステップS111の処理が行われると、その後、ステップS112乃至ステップS115の処理が行われるが、これらの処理は、
図6のステップS42乃至ステップS45の処理と同様であるので、その説明は省略する。
【0196】
但し、ステップS115では、カテゴリC2およびカテゴリC3の極座標オブジェクトの極座標位置情報およびゲイン情報のみが符号化される。
【0197】
ステップS116においてプリレンダリング処理部101は、受聴者位置情報受信部21から供給された受聴者位置情報および方向情報に基づいてプリレンダリングを行い、得られたチャンネルベースのオーディオデータをオーディオ符号化部24に供給する。
【0198】
すなわち、例えばプリレンダリング処理部101は、カテゴリC1の極座標オブジェクトの絶対的な位置を示す位置情報およびオーディオデータを取得する。
【0199】
そしてプリレンダリング処理部101は、取得した位置情報およびオーディオデータと、受聴者位置情報および方向情報とに基づいてVBAP等の処理をプリレンダリングとして行い、チャンネルベースのオーディオデータを生成する。
【0200】
プリレンダリングが行われると、その後、ステップS117乃至ステップS119の処理が行われて送信処理は終了するが、これらの処理は
図6のステップS46乃至ステップS48の処理と同様であるので、その説明は省略する。
【0201】
但し、ステップS117では、オーディオ符号化部24は、絶対座標オブジェクトのオーディオデータ、カテゴリC2とカテゴリC3の極座標オブジェクトのオーディオデータ、およびプリレンダリング処理部101から供給されたチャンネルベースのオーディオデータを符号化する。
【0202】
ステップS119の処理が行われてビットストリームがクライアント51に送信されると、クライアント51では、ステップS82乃至ステップS89の処理が行われて受信処理は終了する。
【0203】
なお、これらのステップS82乃至ステップS89の処理は、
図6のステップS12乃至ステップS19の処理と同様であるので、その説明は省略する。但し、ステップS86では、受聴者位置情報だけでなく顔の方向情報(Yaw,Pitch,Roll)も用いられて座標変換が行われる。
【0204】
以上のようにしてサーバ11は、特定のカテゴリの極座標オブジェクトについては、プリレンダリングを行い、その結果得られたチャンネルベースのオーディオデータをクライアント51へと伝送する。このようにすることで、伝送効率を向上させることができる。
【0205】
〈第3の実施の形態〉
〈サーバの構成例〉
ところで、暗騒音や残響音などは、例えばコンテンツの音が再生されるライブの会場等の仮想的な空間によって変化する。
【0206】
そこで、例えば暗騒音や残響音などのオブジェクトである極座標オブジェクトについて、予め複数のオブジェクトグループを用意し、それらのオブジェクトグループのなかから受聴者が好みのオブジェクトグループを選択できるようにしてもよい。
【0207】
この場合、コンテンツを再生する仮想的な空間の種別ごとなどにオブジェクトグループが用意される。また、1つのオブジェクトグループは、コンテンツを構成する1または複数の極座標オブジェクトからなり、それらの極座標オブジェクトについて極座標位置情報やゲイン情報、オーディオデータが用意されている。
【0208】
このように、複数のオブジェクトグループが予め用意されている場合、コンテンツ再生システムは、例えば
図9に示すサーバ11と、
図5に示したクライアント51とからなる。なお、
図9において
図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0209】
図9に示すサーバ11は、受聴者位置情報受信部21、絶対座標位置情報符号化部22、選択部131、極座標位置情報符号化部23、オーディオ符号化部24、ビットストリーム生成部25、および送信部26を有している。
【0210】
図9のサーバ11の構成は、新たに選択部131が設けられている点で
図4のサーバ11と異なり、その他の点では
図4のサーバ11と同じ構成となっている。
【0211】
但し、
図9のサーバ11では、受聴者位置情報受信部21は、クライアント51から受聴者位置情報だけでなく、受聴者が選択したオブジェクトグループを示すグループ選択情報も取得し、選択部131に供給する。
【0212】
また、この例では複数のオブジェクトグループごとに、それらのオブジェクトグループに属す極座標オブジェクトの極座標位置情報やゲイン情報、オーディオデータが用意されている。
【0213】
選択部131は、複数のオブジェクトグループのなかから、受聴者位置情報受信部21から供給されたグループ選択情報により示されるオブジェクトグループを選択する。
【0214】
そして選択部131は、選択したオブジェクトグループの極座標オブジェクトについて予め用意された極座標位置情報やゲイン情報、オーディオデータを取得し、極座標位置情報符号化部23やオーディオ符号化部24に供給する。
【0215】
〈送信処理および受信処理の説明〉
次に、
図9に示したサーバ11と、
図5に示したクライアント51とからなるコンテンツ再生システムの動作について説明する。
【0216】
すなわち、以下、
図10のフローチャートを参照して、サーバ11による送信処理、およびクライアント51による受信処理について説明する。
【0217】
クライアント51において受信処理が開始されると、受聴者位置情報入力部61は、受聴者位置情報およびグループ選択情報を取得し、受聴者位置情報送信部62に供給する。また、受聴者位置情報入力部61は、受聴者位置情報を座標変換部67にも供給する。
【0218】
すると、ステップS141において受聴者位置情報送信部62は、受聴者位置情報入力部61から供給された受聴者位置情報およびグループ選択情報をサーバ11に送信する。
【0219】
なお、より詳細には、グループ選択情報は受聴者によりオブジェクトグループが指定された場合にのみサーバ11へと送信される。また、受聴者位置情報とグループ選択情報の送信タイミングは同じであってもよいし、異なっていてもよい。
【0220】
このようにして受聴者位置情報およびグループ選択情報が送信されると、サーバ11では送信処理が行われる。
【0221】
すなわち、ステップS171において受聴者位置情報受信部21は、クライアント51から送信されてきた受聴者位置情報およびグループ選択情報を受信する。
【0222】
受聴者位置情報受信部21は、受聴者位置情報を絶対座標位置情報符号化部22および極座標位置情報符号化部23に供給するとともに、グループ選択情報を選択部131に供給する。
【0223】
ステップS171の処理が行われると、その後、ステップS172およびステップS173の処理が行われるが、これらの処理は
図6のステップS42およびステップS43の処理と同様であるので、その説明は省略する。
【0224】
ステップS174において選択部131は、受聴者位置情報受信部21から供給されたグループ選択情報に基づいてオブジェクトグループを選択する。
【0225】
選択部131は、選択したオブジェクトグループの極座標オブジェクトについて極座標位置情報やゲイン情報を取得し、極座標位置情報符号化部23に供給する。
【0226】
より詳細には、選択部131はカテゴリC1の極座標オブジェクトについては極座標位置情報とゲイン情報を取得し、カテゴリC2の極座標オブジェクトについては極座標位置情報のみを取得する。
【0227】
また、選択部131はカテゴリC3の極座標オブジェクトについては、その極座標オブジェクトの空間内における絶対的な位置を示す位置情報を取得し、極座標位置情報符号化部23に供給する。
【0228】
さらに選択部131は、選択したオブジェクトグループの全ての極座標オブジェクトのオーディオデータを取得し、オーディオ符号化部24に供給する。
【0229】
ステップS174の処理が行われると、その後、ステップS175乃至ステップS179の処理が行われて送信処理は終了するが、これらの処理は、
図6のステップS44乃至ステップS48の処理と同様であるので、その説明は省略する。
【0230】
ステップS179の処理が行われてビットストリームがクライアント51に送信されると、クライアント51では、ステップS142乃至ステップS149の処理が行われて受信処理は終了する。
【0231】
なお、これらのステップS142乃至ステップS149の処理は、
図6のステップS12乃至ステップS19の処理と同様であるので、その説明は省略する。
【0232】
以上のようにしてサーバ11は、クライアント51から受信したグループ選択情報に基づいてオブジェクトグループを選択し、そのオブジェクトグループの極座標オブジェクトの符号化極座標位置情報や符号化オーディオデータをクライアント51に送信する。
【0233】
このようにすることで、受聴者は複数の異なる暗騒音や残響音のうちの自身の趣向に合ったものを選択して再生させることができる。これにより、受聴者の満足度を向上させることができる。
【0234】
〈第4の実施の形態〉
〈クライアントの構成例〉
なお、クライアント51側で、複数の各オブジェクトグループについて極座標オブジェクトのオーディオデータを予め用意しておくようにしてもよい。
【0235】
そのような場合、コンテンツ再生システムは、例えば
図4に示したサーバ11と、
図11に示すクライアント51とからなる。
【0236】
但し、サーバ11では、特定のカテゴリの極座標オブジェクトについては、符号化極座標位置情報とゲイン情報のみがビットストリームに含まれており、その符号化極座標位置情報に対応する符号化オーディオデータはビットストリームには含まれていない。
【0237】
また、
図11はクライアント51の構成例を示す図である。なお、
図11において、
図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0238】
図11に示すクライアント51は、受聴者位置情報入力部61、受聴者位置情報送信部62、受信分離部63、オブジェクト分離部64、極座標位置情報復号部65、絶対座標位置情報復号部66、座標変換部67、記録部161、選択部162、オーディオ復号部68、レンダラ69、フォーマット変換部70、およびミキサ71を有している。
【0239】
図11に示すクライアント51は、新たに記録部161および選択部162が設けられている点において
図5のクライアント51と異なっており、その他の点では
図5のクライアント51と同じ構成となっている。
【0240】
図11のクライアント51では、受聴者位置情報入力部61は、受聴者の操作等に応じて、受聴者により選択されたオブジェクトグループを示すグループ選択情報を生成し、選択部162に供給する。
【0241】
記録部161は、複数のオブジェクトグループについて、オブジェクトグループに属す特定のカテゴリの極座標オブジェクトのオーディオデータを予め記録しており、記録しているオーディオデータを選択部162に供給する。
【0242】
選択部162は、予め用意された複数のオブジェクトグループのなかから、受聴者位置情報入力部61から供給されたグループ選択情報により示されるオブジェクトグループを選択する。
【0243】
また、選択部162は、オブジェクト分離部64から供給されたオブジェクトの位置符号化モードに基づいて、選択したオブジェクトグループの特定のカテゴリの極座標オブジェクトのオーディオデータを記録部161から読み出してレンダラ69に供給する。
【0244】
複数のオブジェクトのうち、どのオブジェクトが特定のカテゴリの極座標オブジェクトであるかは、位置符号化モードにより特定が可能である。
【0245】
また、クライアント51では、選択したオブジェクトグループの各極座標オブジェクトについて、記録部161から読み出されたオーディオデータと、ビットストリームから抽出された極座標位置情報やゲイン情報との紐付け(対応付け)が行われる。
【0246】
以下では、記録部161にオーディオデータが記録されている極座標オブジェクトの特定のカテゴリは、カテゴリC1であるものとして説明を続ける。
【0247】
なお、記録部161に記録されている極座標オブジェクトのオーディオデータは、符号化されているようにしてもよい。
【0248】
そのような場合、選択部162は、選択したオブジェクトグループの特定のカテゴリC1の極座標オブジェクトの符号化オーディオデータを記録部161から読み出して、オーディオ復号部68に供給する。
【0249】
また、ここでは極座標オブジェクトのうち、特定のカテゴリC1の極座標オブジェクトについてのみ、クライアント51側でオブジェクトグループごとにオーディオデータが予め用意される例について説明する。
【0250】
しかし、全てのカテゴリの極座標オブジェクトについて、クライアント51側でオブジェクトグループごとにオーディオデータが予め用意されるようにしてもよい。
【0251】
〈送信処理および受信処理の説明〉
次に、
図4に示したサーバ11と、
図11に示したクライアント51とからなるコンテンツ再生システムの動作について説明する。
【0252】
すなわち、以下、
図12のフローチャートを参照して、サーバ11による送信処理、およびクライアント51による受信処理について説明する。
【0253】
なお、受信処理におけるステップS201の処理は、
図6のステップS11の処理と同様であるので、その説明は省略する。
【0254】
また、受聴者位置情報入力部61は、任意のタイミングで受聴者の操作等によりオブジェクトグループが指定(選択)されると、その指定されたオブジェクトグループを示すグループ選択情報を選択部162に供給する。
【0255】
ステップS201の処理が行われると、サーバ11では、送信処理としてステップS241乃至ステップS248の処理が行われる。
【0256】
なお、これらのステップS241乃至ステップS248の処理は、
図6のステップS41乃至ステップS48の処理と同様であるので、その説明は省略する。
【0257】
但し、ステップS246では、予め定められた特定のカテゴリC1の極座標オブジェクトについては、オーディオデータの符号化は行われない。
【0258】
したがって、ステップS248で送信されるビットストリームには、カテゴリC1の極座標オブジェクトについては、符号化極座標位置情報やゲイン情報は含まれているが、符号化オーディオデータは含まれていない。
【0259】
ステップS248の処理が行われてサーバ11による送信処理が終了すると、クライアント51では、ステップS202乃至ステップS207の処理が行われる。
【0260】
なお、これらのステップS202乃至ステップS207の処理は、
図6のステップS12乃至ステップS17の処理と同様であるので、その説明は省略する。
【0261】
但し、ステップS203では、オブジェクト分離部64は、ビットストリームから抽出された各オブジェクトの位置符号化モードを受信分離部63から取得し、選択部162に供給する。
【0262】
また、ステップS204では、全てのカテゴリの各極座標オブジェクトの符号化極座標位置情報およびゲイン情報が復号される。
【0263】
さらに、ステップS207では絶対座標オブジェクトの符号化オーディオデータ、カテゴリC2とカテゴリC3の極座標オブジェクトの符号化オーディオデータ、およびチャンネルベースの符号化オーディオデータが復号される。
【0264】
ステップS208において選択部162は、受聴者位置情報入力部61から供給されたグループ選択情報に基づいて、オブジェクトグループを選択する。
【0265】
また、選択部162は、オブジェクト分離部64から供給された各オブジェクトの位置符号化モードに基づいて、カテゴリがC1である極座標オブジェクトを特定する。
【0266】
選択部162は、カテゴリC1の各極座標オブジェクトについて、選択したオブジェクトグループのオーディオデータを記録部161から読み出してレンダラ69に供給する。
【0267】
すると、その後、ステップS209およびステップS210の処理が行われて受信処理は終了するが、これらの処理は
図6のステップS18およびステップS19の処理と同様であるので、その説明は省略する。
【0268】
但し、ステップS209では、レンダラ69は、オーディオ復号部68から供給されたオーディオデータだけでなく、選択部162から供給されたオーディオデータも用いてレンダリング処理を行う。
【0269】
以上のようにしてクライアント51は、グループ選択情報に基づいてオブジェクトグループを選択し、選択したオブジェクトグループの特定のカテゴリの極座標オブジェクトのオーディオデータを読み出してレンダリング処理を行う。
【0270】
このようにすることで、受聴者の趣向に合った暗騒音や残響音でコンテンツを再生することができ、受聴者の満足度を向上させることができる。
【0271】
〈第5の実施の形態〉
〈サーバおよびクライアントの構成例〉
また、極座標オブジェクトが残響音のオブジェクトである場合、クライアント51に対して、極座標位置情報とオーディオデータを符号化して送信するか、またはそれらの代わりに残響音を生成するためのリバーブパラメータを送信するかを切り替えられるようにしてもよい。このような切り替えは、例えばビットストリームの伝送容量に制限がある場合などに特に有用である。
【0272】
例えば、残響音の極座標オブジェクトについて、オーディオデータが予め用意されていれば、そのオーディオデータから、より正確な(精度が高い)残響音、つまりより実際のものに近い残響音を再現することができる。
【0273】
これに対して、残響音の極座標オブジェクトのオーディオデータを予め用意せず、リバーブパラメータに基づくリバーブ処理によって、その残響音の極座標オブジェクトのオーディオデータを生成することもできる。
【0274】
この場合、予め用意された残響音の極座標オブジェクトのオーディオデータを利用するときと比較すると正確な残響音を再現することはできないが、極座標位置情報とオーディオデータが不要であるので、ビットストリームの符号量を削減することができる。
【0275】
また、コンテンツの再生時には、受聴者から近い位置にある絶対座標オブジェクトの音に関する残響音はより正確に再現することが好ましいが、受聴者から遠い位置にある絶対座標オブジェクトの音に関する残響音は正確に再現しなくても聴感上の違和感は生じない。
【0276】
そこで、例えば受聴者と絶対座標オブジェクトとの距離が近い場合には、その絶対座標オブジェクトに対応する極座標オブジェクトの符号化極座標位置情報と符号化オーディオデータをクライアント51に伝送するようにしてもよい。ここで、絶対座標オブジェクトに対応する極座標オブジェクトとは、例えば絶対座標オブジェクトの音(直接音)が反射するなどして生成される残響音等のオブジェクトである。
【0277】
逆に、受聴者と絶対座標オブジェクトとの距離が遠い場合には、その絶対座標オブジェクトに対応する極座標オブジェクトのリバーブパラメータをクライアント51に伝送するようにしてもよい。
【0278】
これにより、聴感上の違和感を生じさせることなく、ビットストリームの符号量を削減することができる。
【0279】
このように適宜、リバーブパラメータを伝送する場合、コンテンツ再生システムは、例えば
図13に示すサーバ11と、
図14に示すクライアント51とからなる。
【0280】
なお、
図13および
図14において、
図4および
図5における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0281】
図13に示すサーバ11は、受聴者位置情報受信部21、絶対座標位置情報符号化部22、選択部191、リバーブパラメータ符号化部192、極座標位置情報符号化部23、オーディオ符号化部24、ビットストリーム生成部25、および送信部26を有している。
【0282】
図13のサーバ11の構成は、新たに選択部191およびリバーブパラメータ符号化部192が設けられている点で
図4のサーバ11と異なり、その他の点では
図4のサーバ11と同じ構成となっている。
【0283】
図13の例では、1または複数の各極座標オブジェクトについて、極座標位置情報やゲイン情報、オーディオデータ、リバーブパラメータが予め用意されている。
【0284】
なお、リバーブパラメータが用意されておらず、必ず符号化極座標位置情報と符号化オーディオデータがビットストリームに格納されてクライアント51に伝送される極座標オブジェクトがあっても勿論よい。
【0285】
以下では、説明を簡単にするため、コンテンツを構成する絶対座標オブジェクトと極座標オブジェクトがそれぞれ1つである場合について説明する。
【0286】
この場合、特に絶対座標オブジェクトは、楽器等の直接音のオブジェクトであり、極座標オブジェクトは、その楽器等の残響音のオブジェクトであるものとする。
【0287】
選択部191は、受聴者位置情報受信部21から供給された受聴者位置情報に基づいて、極座標オブジェクトの極座標位置情報等を送信するか、またはリバーブパラメータを送信するかを選択する。
【0288】
例えば選択部191は、受聴者位置情報と絶対座標位置情報とから特定される受聴者と絶対座標オブジェクトの位置関係に基づいて選択を行う。
【0289】
具体的には、例えば選択部191は受聴者から絶対座標オブジェクトまでの距離が所定の閾値以下である場合、その絶対座標オブジェクトに対応する極座標オブジェクトの極座標位置情報等の送信を選択する。
【0290】
この場合、選択部191は、極座標オブジェクトの極座標位置情報およびゲイン情報を取得して極座標位置情報符号化部23に供給するとともに、極座標オブジェクトのオーディオデータを取得してオーディオ符号化部24に供給する。
【0291】
これに対して、例えば受聴者から絶対座標オブジェクトまでの距離が所定の閾値よりも大きい場合、選択部191は絶対座標オブジェクトに対応する極座標オブジェクトのリバーブパラメータを取得し、リバーブパラメータ符号化部192に供給する。
【0292】
なお、極座標位置情報等を送信するか、またはリバーブパラメータを送信するかの選択は、受聴者により行われるようにしてもよい。
【0293】
そのような場合、受聴者位置情報受信部21は、任意のタイミングでクライアント51から送信された、極座標位置情報等を送信するか、またはリバーブパラメータを送信するかの選択結果を示す選択情報を受信し、選択部191に供給する。
【0294】
選択部191は、受聴者位置情報受信部21から供給された選択情報に基づいて、極座標オブジェクトの極座標位置情報等を取得したり、リバーブパラメータを取得したりする。
【0295】
その他、例えば選択部191がサーバ11とクライアント51との間の通信路(伝送路)の状態、すなわち、例えば通信路の輻輳状態などに応じて、極座標位置情報等を送信するか、またはリバーブパラメータを送信するかを選択するようにしてもよい。
【0296】
なお、以下では、極座標位置情報等を送信することが選択されており、極座標位置情報等がクライアント51に伝送されている状態を位置情報選択状態とも称する。
【0297】
また、リバーブパラメータを送信することが選択されており、リバーブパラメータがクライアント51に伝送されている状態をリバーブ選択状態とも称する。
【0298】
リバーブパラメータ符号化部192は、選択部191から供給されたリバーブパラメータを符号化し、ビットストリーム生成部25に供給する。
【0299】
また、極座標位置情報等を送信するか、またはリバーブパラメータを送信するかの選択が行われる場合、クライアント51は、
図14に示すように構成される。
【0300】
図14に示すクライアント51は、受聴者位置情報入力部61、受聴者位置情報送信部62、受信分離部63、オブジェクト分離部64、リバーブパラメータ復号部221、極座標位置情報復号部65、絶対座標位置情報復号部66、座標変換部67、オーディオ復号部68、リバーブ処理部222、レンダラ69、フォーマット変換部70、およびミキサ71を有している。
【0301】
図14に示すクライアント51は、新たにリバーブパラメータ復号部221およびリバーブ処理部222が設けられている点において
図5のクライアント51と異なっており、その他の点では
図5のクライアント51と同じ構成となっている。
【0302】
図14に示す例では、オブジェクト分離部64は、ビットストリームに極座標オブジェクトの符号化されたリバーブパラメータが含まれている場合、その符号化されたリバーブパラメータをリバーブパラメータ復号部221に供給する。
【0303】
リバーブパラメータ復号部221は、オブジェクト分離部64から供給された、符号化されたリバーブパラメータを復号し、リバーブ処理部222に供給する。
【0304】
リバーブ処理部222は、リバーブパラメータ復号部221から供給されたリバーブパラメータに基づいて、オーディオ復号部68から供給された絶対座標オブジェクトのオーディオデータに対してリバーブ処理を行う。
【0305】
これにより、例えば楽器等の直接音の絶対座標オブジェクトのオーディオデータから、その楽器等の残響音の極座標オブジェクトのオーディオデータが生成される。
【0306】
リバーブ処理部222は、リバーブ処理により得られた極座標オブジェクトのオーディオデータをレンダラ69に供給する。
【0307】
このようにして得られた極座標オブジェクトのオーディオデータはレンダラ69においてレンダリング処理に利用されるが、その際の極座標位置情報として、例えば予め定められた位置を示す情報や、絶対座標位置情報から求まる位置を示す情報などが用いられる。
【0308】
〈送信処理および受信処理の説明〉
次に、
図13に示したサーバ11と、
図14に示したクライアント51とからなるコンテンツ再生システムの動作について説明する。
【0309】
すなわち、以下、
図15のフローチャートを参照して、サーバ11による送信処理、およびクライアント51による受信処理について説明する。
【0310】
なお、この場合においても説明を簡単にするため、絶対座標オブジェクトおよび極座標オブジェクトはそれぞれ1つであるものとする。
【0311】
クライアント51において受信処理が開始されると、ステップS271の処理が行われて、受聴者位置情報がサーバ11に送信されるが、ステップS271の処理は、
図6のステップS11の処理と同様であるので、その説明は省略する。
【0312】
また、受聴者が受聴者位置情報入力部61を操作するなどして、位置情報選択状態とするか、またはリバーブ選択状態とするかの選択を行った場合には、その選択結果を示す選択情報が受聴者位置情報入力部61から受聴者位置情報送信部62に供給される。
【0313】
そして、受聴者位置情報送信部62は、受聴者位置情報入力部61から供給された選択情報を、任意のタイミングでサーバ11に送信する。
【0314】
ステップS271の処理が行われると、サーバ11では、ステップS311乃至ステップS313の処理が行われる。なお、これらの処理は、
図6のステップS41乃至ステップS43の処理と同様であるので、その説明は省略する。
【0315】
但し、ステップS311では、受聴者位置情報受信部21は、受信した受聴者位置情報を絶対座標位置情報符号化部22、極座標位置情報符号化部23、および選択部191に供給する。また、受聴者位置情報受信部21は、クライアント51から送信されてきた選択情報を受信した場合には、その選択情報を選択部191に供給する。
【0316】
ステップS314において選択部191は、極座標位置情報を送信するか否かを判定する。
【0317】
すなわち、選択部191は、受聴者位置情報受信部21から供給された受聴者位置情報や選択情報に基づいて、極座標位置情報等を送信するか、またはリバーブパラメータを送信するかを選択する。
【0318】
ステップS314において極座標位置情報を送信すると判定された場合、その後、ステップS315およびステップS316の処理が行われる。
【0319】
すなわち、選択部191は、極座標オブジェクトの絶対的な位置を示す位置情報を取得して極座標位置情報符号化部23に供給するとともに、極座標オブジェクトのオーディオデータを取得してオーディオ符号化部24に供給する。
【0320】
すると、ステップS315において極座標位置情報符号化部23は、選択部191から供給された位置情報と、受聴者位置情報受信部21から供給された受聴者位置情報とに基づいて極座標オブジェクトの極座標位置情報を生成する。
【0321】
また、極座標位置情報符号化部23は、必要に応じて、極座標位置情報と受聴者位置情報に基づいてゲイン情報も生成する。
【0322】
なお、予め極座標位置情報やゲイン情報が得られている場合には、その極座標位置情報やゲイン情報が選択部191により取得され、極座標位置情報符号化部23に供給される。
【0323】
ステップS316において極座標位置情報符号化部23は、極座標位置情報およびゲイン情報を符号化し、ビットストリーム生成部25に供給する。
【0324】
一方、ステップS314において極座標位置情報を送信しないと判定された場合、すなわちリバーブパラメータを送信すると判定された場合、その後、処理はステップS317へと進む。
【0325】
この場合、選択部191は、極座標オブジェクトのリバーブパラメータを取得してリバーブパラメータ符号化部192に供給する。
【0326】
ステップS317においてリバーブパラメータ符号化部192は、選択部191から供給されたリバーブパラメータを符号化し、ビットストリーム生成部25に供給する。
【0327】
なお、ここでは極座標オブジェクトが1つである場合を例として説明するが、極座標オブジェクトが複数ある場合には、それらの極座標オブジェクトごとに上述したステップS314乃至ステップS317の処理が行われる。
【0328】
ステップS316の処理が行われたか、またはステップS317の処理が行われると、その後、ステップS318の処理が行われる。
【0329】
ステップS318においてオーディオ符号化部24は、オーディオデータを符号化し、その結果得られた符号化オーディオデータをビットストリーム生成部25に供給する。
【0330】
例えばステップS315およびステップS316の処理が行われた場合、オーディオ符号化部24は、取得した絶対座標オブジェクトのオーディオデータ、選択部191から供給された極座標オブジェクトのオーディオデータ、および取得したチャンネルベースのオーディオデータを符号化する。
【0331】
これに対して、ステップS317の処理が行われた場合、オーディオ符号化部24は、取得した絶対座標オブジェクトのオーディオデータ、および取得したチャンネルベースのオーディオデータを符号化する。
【0332】
ステップS319においてビットストリーム生成部25は、ビットストリームを生成し、送信部26に供給する。
【0333】
例えばステップS315およびステップS316の処理が行われた場合、ビットストリーム生成部25は、絶対座標位置情報符号化部22からの符号化絶対座標位置情報、極座標位置情報符号化部23からの符号化極座標位置情報とゲイン情報、およびオーディオ符号化部24からの符号化オーディオデータを多重化し、ビットストリームを生成する。
【0334】
この場合、ビットストリームには、極座標オブジェクトの符号化極座標位置情報、ゲイン情報、および符号化オーディオデータが含まれている。
【0335】
これに対して、ステップS317の処理が行われた場合、ビットストリーム生成部25は、絶対座標位置情報符号化部22からの符号化絶対座標位置情報、リバーブパラメータ符号化部192からの符号化されたリバーブパラメータ、およびオーディオ符号化部24からの符号化オーディオデータを多重化し、ビットストリームを生成する。
【0336】
この場合、ビットストリームには、極座標オブジェクトのリバーブパラメータは含まれているが、極座標オブジェクトの符号化極座標位置情報や符号化オーディオデータは含まれていない。
【0337】
なお、リバーブ選択状態であるときに、極座標オブジェクトについて、符号化オーディオデータは格納されないが、リバーブパラメータと符号化極座標位置情報がビットストリームに格納されるようにしてもよい。
【0338】
ステップS319の処理が行われると、ステップS320において送信部26は、ビットストリーム生成部25から供給されたビットストリームをクライアント51に送信し、送信処理は終了する。
【0339】
すると、クライアント51では、ステップS272乃至ステップS276の処理が行われるが、これらの処理は
図6のステップS12、ステップS13、およびステップS15乃至ステップS17の処理と同様であるので、その説明は省略する。
【0340】
但し、ビットストリームに極座標オブジェクトの符号化オーディオデータが含まれていない場合、オーディオ復号部68は、復号により得られた絶対座標オブジェクトのオーディオデータをレンダラ69だけでなく、リバーブ処理部222にも供給する。
【0341】
すなわち、ビットストリームに符号化されたリバーブパラメータが含まれており、リバーブ選択状態である場合には、絶対座標オブジェクトのオーディオデータがリバーブ処理部222にも供給される。
【0342】
ステップS277においてオブジェクト分離部64は、受信されたビットストリームに符号化極座標位置情報が含まれているか否かを判定する。
【0343】
ステップS277において符号化極座標位置情報が含まれていると判定された場合、オブジェクト分離部64は、受信分離部63から供給された符号化極座標位置情報およびゲイン情報を極座標位置情報復号部65に供給し、その後、処理はステップS278へと進む。
【0344】
ステップS278において極座標位置情報復号部65は、オブジェクト分離部64から供給された符号化極座標位置情報およびゲイン情報を復号し、得られた極座標位置情報およびゲイン情報をレンダラ69に供給する。
【0345】
これに対して、ステップS277において符号化極座標位置情報が含まれていないと判定された場合、すなわちビットストリームに符号化されたリバーブパラメータが含まれている場合、その後、処理はステップS279へと進む。
【0346】
この場合、オブジェクト分離部64は、受信分離部63から供給された、符号化されたリバーブパラメータをリバーブパラメータ復号部221に供給する。
【0347】
ステップS279においてリバーブパラメータ復号部221は、オブジェクト分離部64から供給された、符号化されたリバーブパラメータを復号し、リバーブ処理部222に供給する。
【0348】
ステップS280においてリバーブ処理部222は、リバーブパラメータ復号部221から供給されたリバーブパラメータに基づいて、オーディオ復号部68から供給された絶対座標オブジェクトのオーディオデータに対してリバーブ処理を行う。
【0349】
リバーブ処理部222は、リバーブ処理により得られた極座標オブジェクトのオーディオデータをレンダラ69に供給する。
【0350】
なお、ここでは極座標オブジェクトが1つである場合を例として説明するが、極座標オブジェクトが複数ある場合には、それらの極座標オブジェクトごとに上述したステップS277乃至ステップS280の処理が行われる。
【0351】
ステップS278またはステップS280の処理が行われると、その後、ステップS281の処理が行われる。
【0352】
ステップS281においてレンダラ69はVBAP等のレンダリング処理を行い、その結果得られたオーディオデータをミキサ71に供給する。
【0353】
例えばステップS277で符号化極座標位置情報が含まれていると判定された場合、つまり位置情報選択状態である場合には、レンダラ69は、極座標位置情報復号部65からの極座標位置情報、座標変換部67からの極座標位置情報、およびオーディオ復号部68からの絶対座標オブジェクトと極座標オブジェクトのオーディオデータに基づいてレンダリング処理を行う。
【0354】
これに対して、ステップS277で符号化極座標位置情報が含まれていないと判定された場合、つまりリバーブ選択状態である場合には、レンダラ69は、座標変換部67からの極座標位置情報、オーディオ復号部68からの絶対座標オブジェクトのオーディオデータ、およびリバーブ処理部222からの極座標オブジェクトのオーディオデータに基づいてレンダリング処理を行う。この場合、極座標オブジェクトの極座標位置情報は、例えば予め定められたものや、絶対座標オブジェクトの極座標位置情報から生成されたものなどが用いられる。
【0355】
レンダリング処理が行われると、その後、ステップS282の処理が行われて受信処理は終了するが、ステップS282の処理は
図6のステップS19の処理と同様であるので、その説明は省略する。
【0356】
以上のようにしてサーバ11は、受聴者位置情報や選択情報に応じて、位置情報選択状態またはリバーブ選択状態とし、符号化極座標位置情報等が含まれているか、またはリバーブパラメータが含まれているビットストリームを送信する。
【0357】
このようにすることで、聴感上の違和感を生じさせることなく、すなわち音響的な効果を維持したままビットストリームの符号量を削減することができる。
【0358】
〈第5の実施の形態の変形例1〉
〈クロスフェード処理について〉
なお、
図13に示したサーバ11と、
図14に示したクライアント51とからなるコンテンツ再生システムでは、位置情報選択状態からリバーブ選択状態への切り替えや、リバーブ選択状態から位置情報選択状態への切り替えを瞬時的に行うと、不連続ノイズなどの異音が発生する可能性がある。
【0359】
そこで、位置情報選択状態からリバーブ選択状態への切り替えのタイミング、およびリバーブ選択状態から位置情報選択状態への切り替えのタイミングでは、クロスフェード処理などのスムージングを行って不連続ノイズ等の発生を抑制するようにしてもよい。
【0360】
ここで、位置情報選択状態からリバーブ選択状態へと切り替わるときや、リバーブ選択状態から位置情報選択状態へと切り替わるときのオブジェクトのオーディオデータの1または複数のフレームからなる期間を切り替わり期間とも称することとする。
【0361】
この例では、切り替わり期間において、リバーブ処理により得られた極座標オブジェクトのオーディオデータと、復号により得られた極座標オブジェクトのオーディオデータとに基づくクロスフェード処理が行われることになる。
【0362】
この場合、基本的にはサーバ11およびクライアント51により、
図15を参照して説明した送信処理および受信処理が行われることになる。
【0363】
但し、切り替わり期間においてサーバ11により行われる送信処理では、ステップS315およびステップS316の処理と、ステップS317の処理とが両方行われることになる。
【0364】
したがって、ステップS319で得られたビットストリームには、極座標オブジェクトについて、符号化極座標位置情報、ゲイン情報、および符号化オーディオデータと、符号化されたリバーブパラメータとが含まれていることになる。
【0365】
そのため、切り替わり期間においてクライアント51により行われる受信処理では、ステップS278の処理と、ステップS289およびステップS280の処理とが両方行われることになる。
【0366】
したがって、切り替わり期間においては、レンダラ69には、復号により得られた極座標オブジェクトのオーディオデータがオーディオ復号部68から供給されるとともに、リバーブ処理により得られた極座標オブジェクトのオーディオデータがリバーブ処理部222から供給されることになる。
【0367】
そこで、切り替わり期間において行われるステップS281では、レンダラ69は、復号により得られた極座標オブジェクトのオーディオデータと、リバーブ処理により得られた極座標オブジェクトのオーディオデータとに基づいてクロスフェード処理を行う。
【0368】
すなわち、例えばレンダラ69は、復号により得られたオーディオデータとリバーブ処理により得られたオーディオデータのうちの一方から他方へと徐々に切り替わるように、時間とともに重みを変化させながら、それらのオーディオデータを重み付き加算する。
【0369】
そして、このようなクロスフェード処理により得られた極座標オブジェクトのオーディオデータが用いられてレンダリング処理が行われる。
【0370】
このようにすることで、不連続ノイズ等の発生を抑制し、高品質なコンテンツ再生を実現することができる。
【0371】
〈第6の実施の形態〉
〈サーバの構成例〉
さらに、サーバ11側において複数のオブジェクトグループごとに極座標位置情報を用意するとともに、クライアント51側においても複数のオブジェクトグループごとに極座標オブジェクトのオーディオデータを用意しておくようにしてもよい。
【0372】
そのような場合、コンテンツ再生システムは、例えば
図16に示すサーバ11と、
図11に示したクライアント51とからなる。なお、
図16において
図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0373】
図16に示すサーバ11は、受聴者位置情報受信部21、絶対座標位置情報符号化部22、選択部131、極座標位置情報符号化部23、オーディオ符号化部24、ビットストリーム生成部25、および送信部26を有している。
【0374】
図16に示すサーバ11の構成は、基本的には
図9に示したサーバ11の構成と同じであるが、
図16のサーバ11では選択部131が極座標オブジェクトのオーディオデータをオーディオ符号化部24に出力しない点において
図9のサーバ11と異なる。
【0375】
すなわち、
図16の例では、選択部131は、複数のオブジェクトグループのなかから、受聴者位置情報受信部21から供給されたグループ選択情報により示されるオブジェクトグループを選択する。
【0376】
そして選択部131は、選択したオブジェクトグループの極座標オブジェクトについて予め用意された極座標位置情報やゲイン情報などを取得し、極座標位置情報符号化部23に供給する。
【0377】
特にサーバ11側においては、オブジェクトグループごとの極座標オブジェクトのオーディオデータは用意されていないので、選択部131は、選択したオブジェクトグループの極座標オブジェクトのオーディオデータのオーディオ符号化部24への供給は行わない。
【0378】
〈送信処理および受信処理の説明〉
次に、
図16に示したサーバ11と、
図11に示したクライアント51とからなるコンテンツ再生システムの動作について説明する。
【0379】
すなわち、以下、
図17のフローチャートを参照して、サーバ11による送信処理、およびクライアント51による受信処理について説明する。
【0380】
クライアント51による受信処理が開始されると、ステップS351の処理が行われて受聴者位置情報およびグループ選択情報がサーバ11に送信されるが、ステップS351の処理は
図10のステップS141の処理と同様であるので、その説明は省略する。
【0381】
また、ステップS351の処理が行われると、サーバ11では送信処理として、ステップS381乃至ステップS389の処理が行われるが、これらの処理は
図10のステップS171乃至ステップS179の処理と同様であるので、その説明は省略する。
【0382】
但し、選択部131では、選択されたオブジェクトグループの極座標オブジェクトのオーディオデータは取得されないので、ステップS387では、選択されたオブジェクトグループの極座標オブジェクトのオーディオデータの符号化は行われない。したがって、ステップS389で送信されるビットストリームには、極座標オブジェクトの符号化オーディオデータは含まれていない。
【0383】
また、ステップS389の処理が行われると、その後、クライアント51では、ステップS352乃至ステップS357の処理が行われるが、これらの処理は
図10のステップS142乃至ステップS147の処理と同様であるので、その説明は省略する。
【0384】
但し、この例ではビットストリームには、極座標オブジェクトの符号化オーディオデータは含まれていないので、ステップS357では絶対座標オブジェクトのオーディオデータと、チャンネルベースのオーディオデータのみが復号により得られる。
【0385】
ステップS358において選択部162は、受聴者位置情報入力部61から供給されたグループ選択情報に基づいて、オブジェクトグループを選択する。
【0386】
また、選択部162は、各極座標オブジェクトについて、選択したオブジェクトグループのオーディオデータを記録部161から読み出してレンダラ69に供給する。
【0387】
このようにして選択されたオブジェクトグループの極座標オブジェクトのオーディオデータが読み出されると、その後、ステップS359およびステップS360の処理が行われて受信処理は終了する。なお、これらの処理は
図10のステップS148およびステップS149の処理と同様であるので、その説明は省略する。
【0388】
また、以上においては、選択されたオブジェクトグループの全ての極座標オブジェクトについて、サーバ11側で極座標位置情報およびゲイン情報が読み出されて符号化され、クライアント51側でオーディオデータが読み出されてレンダリングされると説明した。
【0389】
しかし、これに限らず、選択されたオブジェクトグループの特定のカテゴリの極座標オブジェクトについてのみ、クライアント51側でオーディオデータが読み出されてレンダリングされるようにしてもよい。そのような場合には、選択部162では、オブジェクト分離部64から供給された各オブジェクトの位置符号化モードに基づいて、特定のカテゴリの極座標オブジェクトを特定する。
【0390】
以上のようにしてサーバ11は、グループ選択情報に基づいてオブジェクトグループを選択し、選択したオブジェクトグループの極座標オブジェクトの極座標位置情報およびゲイン情報を読み出して符号化する。
【0391】
また、クライアント51は、グループ選択情報に基づいてオブジェクトグループを選択し、選択したオブジェクトグループの極座標オブジェクトのオーディオデータを読み出してレンダリング処理を行う。
【0392】
このようにすることで、受聴者の趣向に合った暗騒音や残響音でコンテンツを再生することができ、受聴者の満足度を向上させることができる。
【0393】
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0394】
図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0395】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0396】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0397】
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
【0398】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0399】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0400】
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0401】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0402】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0403】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0404】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0405】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0406】
さらに、本技術は、以下の構成とすることも可能である。
【0407】
(1)
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得する取得部と、
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換する座標変換部と、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うレンダリング処理部と
を備える信号処理装置。
(2)
前記座標変換部は、受聴者の絶対的な位置を示す受聴者位置情報に基づいて、前記第2のオブジェクトの前記絶対座標位置情報を前記極座標位置情報に変換する
(1)に記載の信号処理装置。
(3)
前記取得部は、前記受聴者位置情報に基づいて、前記第2のオブジェクトの前記絶対座標位置情報を取得する
(2)に記載の信号処理装置。
(4)
前記取得部は、前記受聴者位置情報に基づいて、前記受聴者と前記第2のオブジェクトの位置関係に応じた精度の前記絶対座標位置情報を取得する
(3)に記載の信号処理装置。
(5)
前記取得部は、前記受聴者位置情報に基づいて、前記受聴者から見た前記第1のオブジェクトの位置を示す前記極座標位置情報を取得する
(2)乃至(4)の何れか一項に記載の信号処理装置。
(6)
前記レンダリング処理部は、MPEG-Hで規定された極座標系での前記レンダリング処理を行う
(1)乃至(5)の何れか一項に記載の信号処理装置。
(7)
前記第1のオブジェクトは、残響音または暗騒音のオブジェクトである
(1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
前記取得部は、さらに前記第1のオブジェクトのゲイン情報を取得し、
前記第1のオブジェクトの前記極座標位置情報または前記ゲイン情報は、予め定められた固定値である
(1)乃至(7)の何れか一項に記載の信号処理装置。
(9)
前記取得部は、受聴者により選択された前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータを取得する
(1)乃至(8)の何れか一項に記載の信号処理装置。
(10)
前記取得部は、さらにチャンネルベースのオーディオデータを取得し、
前記チャンネルベースのオーディオデータと、前記レンダリング処理により得られたオーディオデータとをミキシングするミキシング処理部をさらに備える
(1)乃至(9)の何れか一項に記載の信号処理装置。
(11)
前記チャンネルベースのオーディオデータは、暗騒音を再生するためのオーディオデータである
(10)に記載の信号処理装置。
(12)
前記取得部は、前記第1のオブジェクトについて、前記極座標位置情報および前記オーディオデータを取得するか、またはリバーブパラメータを取得し、
前記リバーブパラメータが取得された場合、前記第1のオブジェクトに対応する前記第2のオブジェクトの前記オーディオデータと、前記リバーブパラメータとに基づいてリバーブ処理を行い、前記第1のオブジェクトの前記オーディオデータを生成するリバーブ処理部をさらに備える
(1)乃至(8)の何れか一項に記載の信号処理装置。
(13)
信号処理装置が、
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換し、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行う
信号処理方法。
(14)
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換し、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行う
ステップを含む処理をコンピュータに実行させるプログラム。
(15)
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化する極座標位置情報符号化部と、
絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化する絶対座標位置情報符号化部と、
前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化するオーディオ符号化部と、
符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するビットストリーム生成部と
を備える信号処理装置。
(16)
前記絶対座標位置情報符号化部は、受聴者の絶対的な位置を示す受聴者位置情報に応じた精度の前記絶対座標位置情報を符号化する
(15)に記載の信号処理装置。
(17)
前記絶対座標位置情報符号化部は、前記受聴者と前記第2のオブジェクトの位置関係に応じた精度の前記絶対座標位置情報を符号化する
(16)に記載の信号処理装置。
(18)
前記極座標位置情報符号化部は、前記受聴者から見た前記第1のオブジェクトの位置を示す前記極座標位置情報を符号化する
(16)または(17)に記載の信号処理装置。
(19)
信号処理装置が、
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化し、
絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化し、
前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化し、
符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成する
信号処理方法。
(20)
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報を符号化し、
絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報を符号化し、
前記第1のオブジェクトのオーディオデータ、および前記第2のオブジェクトのオーディオデータを符号化し、
符号化された前記極座標位置情報、符号化された前記絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0408】
11 サーバ, 22 絶対座標位置情報符号化部, 23 極座標位置情報符号化部, 24 オーディオ符号化部, 25 ビットストリーム生成部, 26 送信部, 51 クライアント, 65 極座標位置情報復号部, 66 絶対座標位置情報復号部, 67 座標変換部, 68 オーディオ復号部, 69 レンダラ, 71 ミキサ
【手続補正書】
【提出日】2024-10-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
信号処理装置の信号処理方法であって、
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得する取得ステップと、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記絶対座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うレンダリングス処理テップと
を含む信号処理方法。
【請求項2】
前記絶対座標位置情報を、前記第2のオブジェクトの位置を示す極座標位置情報に変換する座標変換ステップをさらに含み、
前記レンダリング処理テップにおいて、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記極座標位置情報および前記オーディオデータとに基づいて前記レンダリング処理を行う
請求項1に記載の信号処理方法。
【請求項3】
前記座標変換ステップにおいて、受聴者の絶対的な位置を示す受聴者位置情報に基づいて、前記第2のオブジェクトの前記絶対座標位置情報を前記極座標位置情報に変換する
請求項2に記載の信号処理方法。
【請求項4】
前記取得ステップにおいて、前記受聴者位置情報に基づいて、前記第2のオブジェクトの前記絶対座標位置情報を取得する
請求項3に記載の信号処理方法。
【請求項5】
前記取得ステップにおいて、前記受聴者位置情報に基づいて、前記受聴者と前記第2のオブジェクトの位置関係に応じた精度の前記絶対座標位置情報を取得する
請求項4に記載の信号処理方法。
【請求項6】
前記取得ステップにおいて、前記受聴者位置情報に基づいて、前記受聴者から見た前記第1のオブジェクトの位置を示す前記極座標位置情報を取得する
請求項3に記載の信号処理方法。
【請求項7】
前記レンダリング処理ステップにおいて、MPEG-Hで規定された極座標系での前記レンダリング処理を行う
請求項1に記載の信号処理方法。
【請求項8】
前記第1のオブジェクトは、残響音または暗騒音のオブジェクトである
請求項1に記載の信号処理方法。
【請求項9】
前記取得ステップにおいて、さらに前記第1のオブジェクトのゲイン情報を取得し、
前記第1のオブジェクトの前記極座標位置情報または前記ゲイン情報は、予め定められた固定値である
請求項1に記載の信号処理方法。
【請求項10】
前記取得ステップにおいて、受聴者により選択された前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータを取得する
請求項1に記載の信号処理方法。
【請求項11】
前記取得ステップにおいて、さらにチャンネルベースのオーディオデータを取得し、
前記チャンネルベースのオーディオデータと、前記レンダリング処理により得られたオーディオデータとをミキシングするミキシング処理ステップをさらに含む
請求項1に記載の信号処理方法。
【請求項12】
前記チャンネルベースのオーディオデータは、暗騒音を再生するためのオーディオデータである
請求項11に記載の信号処理方法。
【請求項13】
前記取得ステップにおいて、前記第1のオブジェクトについて、前記極座標位置情報および前記オーディオデータを取得するか、またはリバーブパラメータを取得し、
前記リバーブパラメータが取得された場合、前記第1のオブジェクトに対応する前記第2のオブジェクトの前記オーディオデータと、前記リバーブパラメータとに基づいてリバーブ処理を行い、前記第1のオブジェクトの前記オーディオデータを生成するリバーブ処理ステップをさらに含む
請求項1に記載の信号処理方法。
【請求項14】
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得する取得部と、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記絶対座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うレンダリング処理部と
を備える信号処理装置。
【請求項15】
極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、
前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記絶対座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行う
ステップを含む処理をコンピュータに実行させるプログラム。
【請求項16】
信号処理装置の信号処理方法であって、
第1のオブジェクトのオーディオデータ、および第2のオブジェクトのオーディオデータを符号化するオーディオ符号化ステップと、
極座標で表現された前記第1のオブジェクトの位置を示す極座標位置情報、絶対座標で表現された前記第2のオブジェクトの位置を示す絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するビットストリーム生成ステップと
を含む信号処理方法。
【請求項17】
受聴者の絶対的な位置を示す受聴者位置情報に応じた精度の前記絶対座標位置情報を符号化する絶対座標位置情報符号化ステップをさらに含む
請求項16に記載の信号処理方法。
【請求項18】
前記絶対座標位置情報符号化ステップにおいて、前記受聴者と前記第2のオブジェクトの位置関係に応じた精度の前記絶対座標位置情報を符号化する
請求項17に記載の信号処理方法。
【請求項19】
前記受聴者から見た前記第1のオブジェクトの位置を示す前記極座標位置情報を符号化する極座標位置情報符号化ステップをさらに含む
請求項17に記載の信号処理方法。
【請求項20】
第1のオブジェクトのオーディオデータ、および第2のオブジェクトのオーディオデータを符号化するオーディオ符号化部と、
極座標で表現された前記第1のオブジェクトの位置を示す極座標位置情報、絶対座標で表現された前記第2のオブジェクトの位置を示す絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するビットストリーム生成部と
を備える信号処理装置。
【請求項21】
第1のオブジェクトのオーディオデータ、および第2のオブジェクトのオーディオデータを符号化し、
極座標で表現された前記第1のオブジェクトの位置を示す極座標位置情報、絶対座標で表現された前記第2のオブジェクトの位置を示す絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0015
【補正方法】変更
【補正の内容】
【0015】
本技術の第1の側面の信号処理装置は、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得する取得部と、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記絶対座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うレンダリング処理部とを備える。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正の内容】
【0016】
本技術の第1の側面の信号処理方法またはプログラムは、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータを取得し、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記絶対座標位置情報および前記オーディオデータとに基づいてレンダリング処理を行うステップを含む。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0017
【補正方法】変更
【補正の内容】
【0017】
本技術の第1の側面においては、極座標で表現された第1のオブジェクトの位置を示す極座標位置情報、前記第1のオブジェクトのオーディオデータ、絶対座標で表現された第2のオブジェクトの位置を示す絶対座標位置情報、および前記第2のオブジェクトのオーディオデータが取得され、前記第1のオブジェクトの前記極座標位置情報および前記オーディオデータと、前記第2のオブジェクトの前記絶対座標位置情報および前記オーディオデータとに基づいてレンダリング処理が行われる。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0018
【補正方法】変更
【補正の内容】
【0018】
本技術の第2の側面の信号処理装置は、第1のオブジェクトのオーディオデータ、および第2のオブジェクトのオーディオデータを符号化するオーディオ符号化部と、極座標で表現された前記第1のオブジェクトの位置を示す極座標位置情報、絶対座標で表現された前記第2のオブジェクトの位置を示す絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するビットストリーム生成部とを備える。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】
本技術の第2の側面の信号処理方法またはプログラムは、第1のオブジェクトのオーディオデータ、および第2のオブジェクトのオーディオデータを符号化し、極座標で表現された前記第1のオブジェクトの位置を示す極座標位置情報、絶対座標で表現された前記第2のオブジェクトの位置を示す絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームを生成するステップを含む。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0020
【補正方法】変更
【補正の内容】
【0020】
本技術の第2の側面においては、第1のオブジェクトのオーディオデータ、および第2のオブジェクトのオーディオデータが符号化され、極座標で表現された前記第1のオブジェクトの位置を示す極座標位置情報、絶対座標で表現された前記第2のオブジェクトの位置を示す絶対座標位置情報、符号化された前記第1のオブジェクトのオーディオデータ、および符号化された前記第2のオブジェクトのオーディオデータを含むビットストリームが生成される。