IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7388492信号処理装置および方法、並びにプログラム
<>
  • 特許-信号処理装置および方法、並びにプログラム 図1
  • 特許-信号処理装置および方法、並びにプログラム 図2
  • 特許-信号処理装置および方法、並びにプログラム 図3
  • 特許-信号処理装置および方法、並びにプログラム 図4
  • 特許-信号処理装置および方法、並びにプログラム 図5
  • 特許-信号処理装置および方法、並びにプログラム 図6
  • 特許-信号処理装置および方法、並びにプログラム 図7
  • 特許-信号処理装置および方法、並びにプログラム 図8
  • 特許-信号処理装置および方法、並びにプログラム 図9
  • 特許-信号処理装置および方法、並びにプログラム 図10
  • 特許-信号処理装置および方法、並びにプログラム 図11
  • 特許-信号処理装置および方法、並びにプログラム 図12
  • 特許-信号処理装置および方法、並びにプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-20
(45)【発行日】2023-11-29
(54)【発明の名称】信号処理装置および方法、並びにプログラム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20231121BHJP
   H04S 7/00 20060101ALI20231121BHJP
【FI】
G10L19/008 200
H04S7/00 300
G10L19/008 100
【請求項の数】 8
(21)【出願番号】P 2022112863
(22)【出願日】2022-07-14
(62)【分割の表示】P 2019514363の分割
【原出願日】2018-04-11
(65)【公開番号】P2022137213
(43)【公開日】2022-09-21
【審査請求日】2022-08-12
(31)【優先権主張番号】P 2017085907
(32)【優先日】2017-04-25
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】山本 優樹
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】辻 実
【審査官】堀 洋介
(56)【参考文献】
【文献】国際公開第2016/208406(WO,A1)
【文献】特開平07-087597(JP,A)
【文献】特表2013-514696(JP,A)
【文献】特許第7107305(JP,B2)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報に基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備え、
前記スプレッド情報は前記オーディオオブジェクトの音像の大きさの範囲を示す角度情報である
信号処理装置。
【請求項2】
前記スプレッド情報生成部は、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成する
請求項1に記載の信号処理装置。
【請求項3】
前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
請求項2に記載の信号処理装置。
【請求項4】
前記スプレッド情報生成部は、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
請求項3に記載の信号処理装置。
【請求項5】
前記スプレッド情報生成部は、ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
請求項1に記載の信号処理装置。
【請求項6】
前記スプレッド情報生成部は、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
請求項5に記載の信号処理装置。
【請求項7】
オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報に基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
ステップを含み、
前記スプレッド情報は前記オーディオオブジェクトの音像の大きさの範囲を示す角度情報である
信号処理方法。
【請求項8】
オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報に基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
ステップを含む処理をコンピュータに実行させ、
前記スプレッド情報は前記オーディオオブジェクトの音像の大きさの範囲を示す角度情報である
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より簡単に適切なスプレッド情報を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
【0003】
このような符号化方式では、オーディオオブジェクトの音の音像を広げるスプレッド処理を行うことができる。
【0004】
具体的には、符号化装置側では、ビットストリームにオーディオオブジェクトの位置を示すオブジェクト位置情報とともに、オーディオオブジェクトの音の音像の広がり度合いを示すスプレッド情報がオーディオオブジェクトのメタデータとして含められる。
【0005】
例えばオーディオオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合、スプレッド情報は、水平方向および垂直方向への音像の広がり度合いを示す0度から180度までの範囲の任意の角度(以下、スプレッド角度とも称する)を示す1つの値からなる。
【0006】
これに対して、オーディオオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合、スプレッド情報は、水平方向のスプレッド角度と垂直方向のスプレッド角度を示す2つの値からなる。なお、水平方向のスプレッド角度および垂直方向のスプレッド角度は、ともに0度から180度までの範囲の角度とされる。
【0007】
このようなスプレッド情報は、オーディオオブジェクトのオーディオ信号のフレームごとに異なる値とすることができる。
【0008】
また、復号装置側では、ビットストリームから抽出されたスプレッド情報に基づいて、オーディオオブジェクトの音像を広げるレンダリング処理、すなわちスプレッド処理が行われる。このようなスプレッド処理を行えば、例えば大きく、近くにあるオブジェクトの音像の領域を広げ、小さく、遠くにあるオブジェクトの音像の領域を狭くすることができる。その結果、より臨場感の高いコンテンツ再生を実現することができる。
【先行技術文献】
【非特許文献】
【0009】
【文献】INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、適切なスプレッド情報を得ることは容易ではなかった。
【0011】
例えばスプレッド情報を、時間(フレーム)ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。また、場合によっては、そもそもスプレッド情報が付与されていないこともある。
【0012】
さらに、例えば復号側においてユーザ等によりズーム処理が行われると画面内におけるオブジェクトの大きさは変化するが、ビットストリームから得られたスプレッド情報をそのまま用いても音像の領域を適切な大きさに広げることができない。そうすると、画面内のオブジェクトの大きさと、そのオブジェクトに対応するオーディオオブジェクトの音像の領域の大きさとが対応せず、臨場感が損なわれてしまう。
【0013】
本技術は、このような状況に鑑みてなされたものであり、より簡単に適切なスプレッド情報を得ることができるようにするものである。
【課題を解決するための手段】
【0014】
本技術の一側面の信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報に基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備え、前記スプレッド情報は前記オーディオオブジェクトの音像の大きさの範囲を示す角度情報である。
【0015】
本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報に基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するステップを含み、前記スプレッド情報は前記オーディオオブジェクトの音像の大きさの範囲を示す角度情報である。
【0016】
本技術の一側面においては、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報に基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報が生成される。また、前記スプレッド情報は前記オーディオオブジェクトの音像の大きさの範囲を示す角度情報とされる。
【発明の効果】
【0017】
本技術の一側面によれば、より簡単に適切なスプレッド情報を得ることができる。
【0018】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
【図面の簡単な説明】
【0019】
図1】スプレッド情報の生成について説明する図である。
図2】符号化装置の構成例を示す図である。
図3】符号化処理を説明するフローチャートである。
図4】復号装置の構成例を示す図である。
図5】復号処理を説明するフローチャートである。
図6】スプレッド情報の生成について説明する図である。
図7】符号化処理を説明するフローチャートである。
図8】復号処理を説明するフローチャートである。
図9】ズームについて説明する図である。
図10】ズームに応じたオブジェクト位置情報の修正について説明する図である。
図11】復号装置の構成例を示す図である。
図12】復号処理を説明するフローチャートである。
図13】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0021】
〈第1の実施の形態〉
〈本技術について〉
本技術は、オーディオオブジェクトのスプレッド情報を、オーディオオブジェクトのオブジェクト位置情報、ズーム情報、大きさ情報、異なる時刻のスプレッド情報など、得ようとするスプレッド情報とは異なる他の情報に基づいて生成することで、より簡単に適切なスプレッド情報を得ることができるようにするものである。
【0022】
以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。
【0023】
例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。
【0024】
すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。
【0025】
具体的には、例えば1フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。
【0026】
そして、先頭に配置されたエレメントは、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。
【0027】
また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE(Single Channel Element)と呼ばれており、ペアとなる2つのチャネルのオーディオ信号が格納されているエレメントはCPE(Coupling Channel Element)と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。
【0028】
本技術では、各オブジェクトのオーディオ信号のスプレッド情報が生成されてDSEに格納される。より詳細には、生成されたスプレッド情報を含むオブジェクトのメタデータがDSEに格納される。
【0029】
ここで、メタデータには、少なくともスプレッド情報とオブジェクト位置情報とが含まれている。
【0030】
スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示すスプレッド角度である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。
【0031】
また、オブジェクト位置情報は、3次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置(原点)から見たオブジェクトの位置を示す水平方向角度、垂直方向角度、および半径からなる座標情報とされる。
【0032】
水平方向角度は、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度(方位角)、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
【0033】
ここでは、水平方向角度が0度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度が90度や-90度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度が180度または-180度であるときには、オブジェクトはユーザの真後ろに位置していることになる。
【0034】
同様に垂直方向角度は、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度(仰角)、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
【0035】
また、半径は空間上における基準位置からオブジェクトの位置までの距離である。
【0036】
ところで、各オブジェクトについてフレームごとにスプレッド情報を人手で付与するのはコストが高い。例えば映画コンテンツでは多くのオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。
【0037】
そこで本技術を適用した符号化装置では、オブジェクトの処理対象のフレームのスプレッド情報を、その処理対象のフレームとは時間的に異なる他のフレームのスプレッド情報と、オブジェクトの空間上の位置を示すオブジェクト位置情報とに基づいて生成するようにした。
【0038】
具体的には、例えばオブジェクトのオーディオ信号の最初のフレームなど、特定の1つのフレーム(以下、参照フレームとも称する)についてのみスプレッド情報が人手で付与される。そして、参照フレーム以外のフレームについては、オブジェクト位置情報と参照フレームのスプレッド情報に基づいて、符号化装置によりスプレッド情報が生成される。
【0039】
なお、コンテンツを構成するオーディオ信号の1つのフレームが参照フレームとされてもよいし、複数のフレームが参照フレームとされるようにしてもよい。特に、参照フレームを複数設ける場合には、等間隔に並ぶフレームが参照フレームとされてもよいし、不等間隔で並ぶ任意のフレームが参照フレームとされてもよい。また、もともとは参照フレームではないフレームが、そのフレームのスプレッド情報生成後、参照フレームとして用いられるようにしてもよい。
【0040】
さらに、ここではフレーム単位でスプレッド情報が生成される例について説明するが、数フレーム単位など、所定の時間単位でスプレッド情報が生成されてもよい。
【0041】
以下では、説明を簡単にするため、1つのフレームが参照フレームとされるものとして説明を続ける。
【0042】
例えば、オブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、フレームを示すフレームインデックスiのスプレッド情報、すなわちスプレッド角度をs(i)と記すこととする。また、処理対象である現フレームを示すフレームインデックスiをifrmと記し、参照フレームのフレームインデックスiをrfrmと記すこととする。
【0043】
さらに、オブジェクトのフレームインデックスがiであるフレームにおける、オブジェクト位置情報に含まれるオブジェクトの半径をr(i)と記すこととする。
【0044】
このような場合、例えば図1に示すようにオブジェクトの大きさは変化しないことが利用されて、現フレームifrmのスプレッド情報s(ifrm)が生成される。
【0045】
図1に示す例では、原点Oの位置が基準となる位置であるユーザの頭部の位置とされており、参照フレームrfrmでは点OB11の位置にあったオブジェクトが、現フレームifrmでは点OB21の位置に移動している。
【0046】
このとき、基準となる原点Oと点OB11とを結ぶ直線L11の長さ、つまり原点Oから点OB11までの距離は、参照フレームrfrmのオブジェクト位置情報に含まれる半径r(rfrm)となる。同様に、原点Oと点OB21とを結ぶ直線L21の長さ、つまり原点Oから点OB21までの距離は、現フレームifrmのオブジェクト位置情報に含まれる半径r(ifrm)となる。
【0047】
また、参照フレームrfrmのスプレッド情報により示されるスプレッド角度、すなわちスプレッド情報s(rfrm)は既知である。原点Oを通り、かつ直線L11とのなす角度がs(rfrm)である直線を直線L12とする。
【0048】
スプレッド情報s(rfrm)は、オブジェクトの音像の大きさの範囲、つまりオブジェクトの領域の範囲を示す角度情報であるから、オブジェクトの領域の端部分(外殻部分)は直線L12上に位置することになる。
【0049】
すなわち、点OB11を通り、かつ直線L11と垂直な直線を直線L13とし、直線L12と直線L13との交点を点OBE11とすると、この点OBE11の位置がオブジェクトの領域の端部分(外殻部分)の位置となる。したがって、点OB11から点OBE11までの長さ(距離)は、参照フレームrfrmにおけるオブジェクトの中心から外殻までの長さとなる。
【0050】
このような点OB11から点OBE11までの長さ、つまり直線L13の長さは、スプレッド情報s(rfrm)および半径r(rfrm)を用いて、r(rfrm)×tan(s(rfrm))と表すことができる。
【0051】
また、これから求めようとする現フレームifrmのスプレッド情報s(ifrm)について、原点Oを通り、かつ直線L21とのなす角度がs(ifrm)である直線を直線L22とする。さらに、点OB21を通り、かつ直線L21と垂直な直線を直線L23とし、直線L22と直線L23との交点を点OBE21とすると、点OBE21の位置が現フレームifrmにおけるオブジェクトの領域の端部分(外殻部分)の位置となる。
【0052】
したがって、点OB21から点OBE21までの長さ、つまり直線L23の長さは、現フレームifrmにおけるオブジェクトの中心から外殻までの長さとなり、スプレッド情報s(ifrm)および半径r(ifrm)を用いてr(ifrm)×tan(s(ifrm))と表すことができる。
【0053】
ここで、オブジェクトの大きさ、つまりオブジェクトの音の音像の領域の大きさはフレームによらず一定である(変化しない)とすると、点OB11から点OBE11までの長さと、点OB21から点OBE21までの長さとは等しくなる。すなわちr(rfrm)×tan(s(rfrm))=r(ifrm)×tan(s(ifrm))が成立する。
【0054】
したがって、この関係から次式(1)により現フレームifrmの適切なスプレッド情報s(ifrm)を得ることができる。
【0055】
【数1】
【0056】
式(1)では、オブジェクトの現フレームifrmにおける半径r(ifrm)および参照フレームrfrmにおける半径r(rfrm)の比r(rfrm)/r(ifrm)と、オブジェクトの参照フレームrfrmのスプレッド情報s(rfrm)の正接との積tan(s(rfrm))×r(rfrm)/r(ifrm)が求められる。そして、その積tan(s(rfrm))×r(rfrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。
【0057】
このように現フレームifrmの半径r(ifrm)と、参照フレームrfrmのスプレッド情報s(rfrm)および半径r(rfrm)とに基づいて式(1)を計算すれば、簡単な演算により現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。
【0058】
特に、この例ではオブジェクトのオーディオ信号のいくつかのフレームについてのみ人手でスプレッド情報を付与すればよいので、人手によるスプレッド情報の付与コストを大幅に削減することができる。
【0059】
なお、以上ではオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合について説明したが、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても同様の計算によりスプレッド情報を生成することができる。
【0060】
例えばフレームインデックスがiであるフレームの水平方向のスプレッド情報、すなわち水平方向のスプレッド角度をswidth(i)と記し、フレームインデックスがiであるフレームの垂直方向のスプレッド情報、すなわち垂直方向のスプレッド角度をsheight(i)と記すこととする。
【0061】
この場合、水平方向および垂直方向のそれぞれについて、上述した式(1)と同様の計算を行えばよい。
【0062】
すなわち、以下の式(2)を計算することで現フレームifrmの水平方向のスプレッド情報swidth(ifrm)を得ることができ、以下の式(3)を計算することで現フレームifrmの垂直方向のスプレッド情報sheight(ifrm)を得ることができる。
【0063】
【数2】
【0064】
【数3】
【0065】
以上のように、現フレームのオブジェクト位置情報と、参照フレームのオブジェクト位置情報およびスプレッド情報とを用いれば、より簡単に現フレームの適切なスプレッド情報を得ることができる。
【0066】
〈符号化装置の構成例〉
次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。
【0067】
図2は、本技術を適用した符号化装置の構成例を示す図である。
【0068】
図2に示す符号化装置11は、チャネルオーディオ符号化部21、オブジェクトオーディオ符号化部22、メタデータ入力部23、スプレッド情報生成部24、およびパッキング部25を有している。
【0069】
チャネルオーディオ符号化部21には、チャネル数がMであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図2では、文字「#0」乃至「#M-1」は、各チャネルのチャネル番号を表している。
【0070】
チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部25に供給する。
【0071】
オブジェクトオーディオ符号化部22には、N個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図2では、文字「#0」乃至「#N-1」は、各オブジェクトのオブジェクト番号を表している。
【0072】
オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化し、得られた符号化データをパッキング部25に供給する。
【0073】
メタデータ入力部23は、各オブジェクトのメタデータをスプレッド情報生成部24に供給する。
【0074】
例えばオブジェクトの参照フレームのメタデータには、オブジェクト位置情報およびスプレッド情報が含まれている。これに対して、オブジェクトの参照フレームではないフレームのメタデータには、オブジェクト位置情報は含まれているがスプレッド情報は含まれていない。
【0075】
スプレッド情報生成部24は、メタデータ入力部23から供給されたメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部24では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。
【0076】
スプレッド情報生成部24は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをパッキング部25に供給する。
【0077】
パッキング部25は、チャネルオーディオ符号化部21から供給された符号化データ、オブジェクトオーディオ符号化部22から供給された符号化データ、およびスプレッド情報生成部24から供給されたメタデータをパッキングしてビットストリームを生成し、出力する。
【0078】
このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータが含まれている。
【0079】
ここで、1フレーム分のビットストリームに格納されるM個の各チャネルのオーディオ信号、およびN個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。
【0080】
〈符号化処理の説明〉
次に、符号化装置11により行われる処理について説明する。
【0081】
符号化装置11は、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が1フレーム分ずつ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。
【0082】
以下、図3のフローチャートを参照して、符号化装置11による符号化処理について説明する。
【0083】
ステップS11において、スプレッド情報生成部24は、処理対象とするフレームが参照フレームであるか否かを判定する。
【0084】
例えばメタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータを取得し、スプレッド情報生成部24に供給する。
【0085】
スプレッド情報生成部24は、メタデータ入力部23から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。
【0086】
なお、ここでは説明を簡単にするため、全オブジェクトについて参照フレームとされるフレームが同じであるものとして説明を行うが、オブジェクトごとに参照フレームとされるフレームが異なる場合には、ステップS11およびステップS12の処理をオブジェクトごとに行えばよい。
【0087】
ステップS11において、参照フレームであると判定された場合、スプレッド情報生成部24は、メタデータ入力部23から供給された各オブジェクトの処理対象のフレームのメタデータをそのままパッキング部25に供給し、処理はステップS13へと進む。
【0088】
これに対して、ステップS11において参照フレームでないと判定された場合、処理はステップS12へと進む。
【0089】
ステップS12において、スプレッド情報生成部24は、各オブジェクトについて、メタデータ入力部23から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。
【0090】
例えばスプレッド情報生成部24は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、過去にメタデータ入力部23から供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式(1)、または上述した式(2)および式(3)を計算することで、処理対象のフレームのスプレッド情報を生成する。
【0091】
スプレッド情報生成部24は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをパッキング部25に供給する。
【0092】
このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップS13へと進む。
【0093】
ステップS11において参照フレームであると判定されたか、またはステップS12においてスプレッド情報が生成されると、ステップS13の処理が行われる。
【0094】
すなわち、ステップS13においてパッキング部25は、スプレッド情報生成部24から供給された各オブジェクトのメタデータをビットストリームのDSEに格納する。
【0095】
ステップS14において、チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、その結果得られた各チャネルの符号化データをパッキング部25に供給する。
【0096】
ステップS15において、パッキング部25はチャネルオーディオ符号化部21から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。
【0097】
ステップS16において、オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部25に供給する。
【0098】
ステップS17において、パッキング部25はオブジェクトオーディオ符号化部22から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。
【0099】
以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、および全オブジェクトのオーディオ信号のメタデータと符号化データが格納されたビットストリームが得られる。
【0100】
ステップS18において、パッキング部25は、得られた1フレーム分のビットストリームを出力する。
【0101】
ステップS19において、符号化装置11は処理を終了するか否かを判定する。例えば、全てのフレームについて符号化が終了した場合、ステップS19において処理を終了すると判定される。
【0102】
ステップS19において処理を終了しないと判定された場合、処理はステップS11に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。
【0103】
これに対して、ステップS19において処理を終了すると判定された場合、符号化装置11の各部は行っている処理を停止し、符号化処理は終了する。
【0104】
以上のようにして符号化装置11は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してビットストリームに格納し、出力する。これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。
【0105】
〈第1の実施の形態の変形例1〉
〈復号装置の構成例〉
なお、以上においては、符号化装置11においてスプレッド情報を生成する例について説明したが、復号装置においてスプレッド情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図4に示すように構成される。
【0106】
図4に示す復号装置101は、アンパッキング/復号部111、スプレッド情報生成部112、レンダリング部113、およびミキシング部114を有している。
【0107】
アンパッキング/復号部111は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。
【0108】
アンパッキング/復号部111は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号をレンダリング部113に供給するとともに、アンパッキングおよび復号により得られた各オブジェクトのメタデータをスプレッド情報生成部112に供給する。なお、ここでは、参照フレームのメタデータにのみスプレッド情報が含まれており、参照フレームではないフレームのメタデータにはスプレッド情報は含まれていないものとする。
【0109】
また、アンパッキング/復号部111は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部114に供給する。
【0110】
スプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトのメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部112では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。
【0111】
スプレッド情報生成部112は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部113に供給する。
【0112】
レンダリング部113は、アンパッキング/復号部111から供給された各オブジェクトのオーディオ信号、およびスプレッド情報生成部112から供給された各オブジェクトのメタデータに基づいてMチャネルのオーディオ信号を生成し、ミキシング部114に供給する。このときレンダリング部113は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位し、オブジェクトのスプレッド情報により示される広がり度合いで音像が広がるようにM個の各チャネルのオーディオ信号を生成する。
【0113】
ミキシング部114は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部113から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部114は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。
【0114】
〈復号処理の説明〉
次に、復号装置101の動作について説明する。
【0115】
復号装置101は、符号化装置からビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図5のフローチャートを参照して、復号装置101により行われる復号処理について説明する。
【0116】
ステップS51において、アンパッキング/復号部111は、符号化装置から送信されてきたビットストリームを1フレーム分だけ取得する。すなわち、処理対象とするフレームのビットストリームが受信される。
【0117】
ステップS52において、アンパッキング/復号部111はフレーム復号処理を行う。
【0118】
すなわち、アンパッキング/復号部111は、ステップS51で取得した処理対象のフレームのビットストリームをアンパッキングし、各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータを取得する。
【0119】
そして、アンパッキング/復号部111は、各チャネルの符号化データを復号し、その結果得られた各チャネルのオーディオ信号をミキシング部114に供給する。また、アンパッキング/復号部111は、各オブジェクトの符号化データを復号し、その結果得られた各オブジェクトのオーディオ信号をレンダリング部113に供給する。
【0120】
さらにアンパッキング/復号部111は、取得した各オブジェクトのメタデータをスプレッド情報生成部112に供給する。
【0121】
ステップS53において、スプレッド情報生成部112は、処理対象とするフレームが参照フレームであるか否かを判定する。
【0122】
例えばスプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。
【0123】
ステップS53において、参照フレームであると判定された場合、スプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトの処理対象のフレームのメタデータをそのままレンダリング部113に供給し、処理はステップS55へと進む。
【0124】
これに対して、ステップS53において参照フレームでないと判定された場合、処理はステップS54へと進む。
【0125】
ステップS54において、スプレッド情報生成部112は、各オブジェクトについて、アンパッキング/復号部111から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。
【0126】
例えばスプレッド情報生成部112は、処理対象のフレーム(現フレーム)のメタデータに含まれるオブジェクト位置情報と、過去に供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式(1)、または上述した式(2)および式(3)を計算することで、処理対象のフレームのスプレッド情報を生成する。
【0127】
スプレッド情報生成部112は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部113に供給する。
【0128】
このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップS55へと進む。
【0129】
ステップS53において参照フレームであると判定されたか、またはステップS54においてスプレッド情報が生成されると、ステップS55の処理が行われる。
【0130】
ステップS55において、レンダリング部113は、アンパッキング/復号部111から供給されたオブジェクトのオーディオ信号、およびスプレッド情報生成部112から供給されたメタデータに基づいてオブジェクトのオーディオ信号のレンダリングを行う。
【0131】
例えばレンダリング部113は、各オブジェクトについて、スプレッド情報とオブジェクト位置情報に基づいて、VBAP(Vector Base Amplitude Pannning)により各チャネルのオーディオ信号を生成し、ミキシング部114に供給する。ステップS55では、オブジェクトの音像がオブジェクト位置情報により示される位置に定位し、スプレッド情報により示される広がり度合いで音像が広がるようなオーディオ信号が生成される。
【0132】
ステップS56において、ミキシング部114は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部113から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。
【0133】
ステップS57において、復号装置101は処理を終了するか否かを判定する。例えば、全てのフレームについてオーディオ信号のスピーカへの出力が終了した場合、ステップS57において処理を終了すると判定される。
【0134】
ステップS57において処理を終了しないと判定された場合、処理はステップS51に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。
【0135】
これに対して、ステップS57において処理を終了すると判定された場合、復号装置101の各部は行っている処理を停止し、復号処理は終了する。
【0136】
以上のようにして、復号装置101は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してレンダリングを行う。
【0137】
これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、復号装置101側で参照フレーム以外のフレームのスプレッド情報を生成するようにすれば、ビットストリームに参照フレーム以外のフレームのスプレッド情報を格納する必要がない。したがって、復号装置101に伝送するビットストリームのビットレートを低減させることができる。
【0138】
〈第2の実施の形態〉
〈スプレッド情報の生成について〉
ところで第1の実施の形態では、オブジェクトのオーディオ信号の一部のフレームに対して人手でスプレッド情報の付与が行われる場合について説明した。
【0139】
しかしながら、スプレッド情報が全く付与されていないコンテンツも数多く存在する。
【0140】
例えばオブジェクトオーディオを扱える符号化方式には、スプレッド情報をメタデータに含めるか否かをヘッダ部のフラグで切り替えることができるようになされているものもある。すなわち、スプレッド情報が付与されないビットストリームの存在が許容されている。
【0141】
また、そもそもスプレッド情報がビットストリームに含まれないオブジェクトオーディオの符号化方式も存在する。
【0142】
このような背景から、スプレッド情報が全ての時間(フレーム)において適切に付与されていないコンテンツが数多く存在し、その結果、それらのコンテンツについては臨場感の高い再生を行うことができなかった。
【0143】
そこで、オブジェクトのオブジェクト位置情報と、オブジェクトの大きさを示す大きさ情報とに基づいてスプレッド情報を生成することで、人手によるスプレッド情報の付与を行うことなく、適切なスプレッド情報を得ることができるようにしてもよい。
【0144】
例えば、いくつかのオブジェクトオーディオの符号化方式では、ビットストリームに各オブジェクトの大きさ情報が含まれているものがある。オブジェクトの大きさ情報がある場合、人手によるスプレッド情報の付与を行うことなく、オブジェクト位置情報と大きさ情報を用いてスプレッド情報を生成することができる。
【0145】
具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、オブジェクトの中心から外殻(端部)までの距離を示す情報がオブジェクトの大きさ情報とされるものとする。以下では、フレームインデックスがiであるフレームの大きさ情報をd(i)と記すこととする。
【0146】
この場合、例えば図6に示すように現フレームifrmにおけるオブジェクトの中心位置を点OB21とし、オブジェクトの端部分(外殻部分)の位置を点OBE21とすると、点OB21から点OBE21までの距離が大きさ情報d(ifrm)、すなわち大きさ情報により示される距離となる。なお、図6において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0147】
この例では、オブジェクト位置情報に含まれる半径r(ifrm)により点OB21の位置が定まる。また、点OB21の位置と、大きさ情報d(ifrm)とから点OBE21の位置が定まる。ここで、点OBE21は、原点Oと点OB21とを結ぶ直線L21に対して直交する直線上に位置しているものとする。すなわち、点OB21と点OBE21とを結ぶ直線L23は、直線L21に対して垂直な直線であるとする。
【0148】
このようにオブジェクトのオブジェクト位置情報と大きさ情報が与えられている場合、直線L21の長さであるr(ifrm)と、直線L23の長さであるd(ifrm)とが既知である。
【0149】
原点Oと点OBE21とを結ぶ直線を直線L22とすると、現フレームifrmのスプレッド情報s(ifrm)、すなわちスプレッド角度は直線L22と直線L21とのなす角度である。したがって、半径r(ifrm)および大きさ情報d(ifrm)を用いて次式(4)によりスプレッド情報s(ifrm)を求めることができる。
【0150】
【数4】
【0151】
式(4)では、オブジェクトの現フレームifrmの大きさ情報d(ifrm)と、オブジェクトの現フレームifrmの半径r(ifrm)との比d(ifrm)/r(ifrm)が求められ、その比d(ifrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。
【0152】
このようにオブジェクトの現フレームifrmの半径r(ifrm)と大きさ情報d(ifrm)に基づいて式(4)を計算すれば、簡単な演算によりオブジェクトの現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。
【0153】
特に、この例ではスプレッド情報を人手で付与する必要がないので、スプレッド情報の付与コストを大幅に削減することができる。すなわち、スプレッド情報が付与されているフレームが1つもない場合であっても、全フレームに対して適切なスプレッド情報を簡単に生成することができる。これにより、スプレッド情報を用いて臨場感の高いコンテンツ再生を実現することができる。
【0154】
また、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても式(4)と同様の計算によりスプレッド情報を生成することができる。
【0155】
すなわち、例えばオブジェクトの中心から水平方向にある外殻、つまり水平方向の端部分までの距離を水平方向距離とし、オブジェクトの中心から垂直方向にある外殻、つまり垂直方向の端部分までの距離を垂直方向距離とする。
【0156】
また、現フレームifrmのオブジェクトについて、水平方向距離dwidth(ifrm)および垂直方向距離dheight(ifrm)が大きさ情報として含まれているとする。
【0157】
この場合、上述した式(4)と同様に、以下の式(5)を計算することで現フレームifrmの水平方向のスプレッド情報swidth(ifrm)を得ることができ、以下の式(6)を計算することで現フレームifrmの垂直方向のスプレッド情報sheight(ifrm)を得ることができる。
【0158】
【数5】
【0159】
【数6】
【0160】
式(5)では、現フレームifrmの半径r(ifrm)と、大きさ情報としての水平方向距離dwidth(ifrm)とに基づいて水平方向のスプレッド情報swidth(ifrm)が算出される。同様に、式(6)では、現フレームifrmの半径r(ifrm)と、大きさ情報としての垂直方向距離dheight(ifrm)とに基づいて垂直方向のスプレッド情報sheight(ifrm)が算出される。
【0161】
〈符号化処理の説明〉
以上のようにオブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図2に示した符号化装置11では、メタデータ入力部23からスプレッド情報生成部24には、メタデータと大きさ情報が供給される。このとき、メタデータにはオブジェクト位置情報が含まれているが、スプレッド情報は含まれていない状態となっている。
【0162】
スプレッド情報生成部24は、メタデータ入力部23から供給されたオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成する。
【0163】
このようにしてスプレッド情報が生成される場合、符号化装置11では図7に示す符号化処理が行われる。以下、図7のフローチャートを参照して、符号化装置11による符号化処理について説明する。
【0164】
ステップS81において、スプレッド情報生成部24はスプレッド情報を生成する。
【0165】
すなわち、メタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータと大きさ情報を取得し、スプレッド情報生成部24に供給する。
【0166】
すると、スプレッド情報生成部24は、メタデータ入力部23から供給されたメタデータおよび大きさ情報に基づいて、オブジェクトごとにスプレッド情報を生成する。
【0167】
具体的には、スプレッド情報生成部24は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式(4)、または上述した式(5)および式(6)を計算することで、処理対象のフレームのスプレッド情報を生成する。
【0168】
そして、スプレッド情報生成部24は、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータと、大きさ情報とをパッキング部25に供給する。
【0169】
スプレッド情報が生成されると、その後、ステップS82乃至ステップS88の処理が行われて符号化処理は終了するが、これらの処理は図3のステップS13乃至ステップS19の処理と同様であるので、その説明は省略する。但し、ステップS82では、メタデータとともにオブジェクトの大きさ情報もビットストリームのDSEに格納される。
【0170】
以上のようにして符号化装置11は、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報を生成してビットストリームに格納し、出力する。これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。
【0171】
〈第2の実施の形態の変形例1〉
〈復号処理の説明〉
また、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図4に示した復号装置101においてスプレッド情報を生成することも可能である。
【0172】
復号装置101においてスプレッド情報が生成される場合、復号装置101では図8に示す復号処理が行われる。以下、図8のフローチャートを参照して復号装置101による復号処理について説明する。
【0173】
なお、ステップS111およびステップS112の処理は、図5のステップS51およびステップS52の処理と同様であるので、その説明は省略する。
【0174】
但し、ステップS112では、アンパッキング/復号部111においてビットストリームのアンパッキングにより各オブジェクトのメタデータおよび大きさ情報が取得され、これらのメタデータおよび大きさ情報がスプレッド情報生成部112へと供給される。この場合、アンパッキングにより取得されたメタデータには、オブジェクト位置情報は含まれているが、スプレッド情報は含まれていない。
【0175】
ステップS113において、スプレッド情報生成部112は、各オブジェクトについてアンパッキング/復号部111から供給されたメタデータおよび大きさ情報に基づいて処理対象のフレームのスプレッド情報を生成する。
【0176】
例えばスプレッド情報生成部112は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式(4)、または上述した式(5)および式(6)を計算することで、処理対象のフレームのスプレッド情報を生成する。
【0177】
スプレッド情報生成部112は、各オブジェクトのスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部113に供給する。
【0178】
ステップS113の処理が行われると、その後、ステップS114乃至ステップS116の処理が行われて復号処理は終了するが、これらの処理は図5のステップS55乃至ステップS57の処理と同様であるので、その説明は省略する。
【0179】
以上のようにして、復号装置101は各オブジェクトのオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成し、レンダリングを行う。
【0180】
これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、ビットストリームにスプレッド情報を格納する必要がないため、復号装置101に伝送するビットストリームのビットレートを低減させることができる。
【0181】
〈第3の実施の形態〉
〈スプレッド情報の生成について〉
ところで、いくつかのオブジェクトオーディオを扱える符号化方式では、ユーザが指定するズーム情報に基づいてオブジェクト位置情報を修正することで、ズームに対応したオブジェクトの移動を実現している。
【0182】
一方で、オブジェクトの音像(スプレッド)については、ズーム情報に応じてスプレッド情報を修正する等の処理は行われていない。そのため、例えばズームによりオブジェクトがユーザに近づいた場合でもオブジェクトの音像が広がることはなく、結果として臨場感が損なわれてしまうことになる。
【0183】
そこで、ズーム情報に基づいて、処理対象のフレームのスプレッド情報を適切に修正することで、より臨場感の高いコンテンツ再生を実現できるようにしてもよい。
【0184】
例えば復号側において、ユーザにより指定されたズーム情報に基づいて、オブジェクトのオブジェクト位置情報が修正され、ズームに対応したオブジェクトの移動が実現されるとする。
【0185】
具体的には、例えば図9の矢印A11に示すように、ズーム前の状態ではユーザU11の正面に位置し、点SCE11および点SCE12を水平方向の端点とする仮想的なスクリーンSC11にオブジェクトOB61が表示されているとする。
【0186】
ここで、オブジェクトOB61はオーディオオブジェクトに対応するオブジェクトであり、ユーザU11から見たオブジェクトOB61の垂直方向の位置を示す垂直方向角度(仰角)は0度であるものとする。つまり、オブジェクトOB61のオブジェクト位置情報により示される垂直方向角度は0度であるとする。
【0187】
また、ユーザU11は基準となる原点Oに位置しているものとし、原点Oを通りスクリーンSC11の面に対して垂直な直線L61と、スクリーンSC11との交点を点SCO11とする。
【0188】
ここで、点SCO11はスクリーンSC11の中心位置であり、ユーザU11から見た点SCO11の位置は、水平方向角度および垂直方向角度が0度となる位置である。
【0189】
この状態ではユーザU11から見てオブジェクトOB61は、右斜め前の方向に位置している。このとき、原点OとオブジェクトOB61とを結ぶ直線を直線L62とし、直線L61と直線L62とのなす角度をφとすると、ユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφであり垂直方向角度が0度となる位置である。
【0190】
このような矢印A11に示す状態でユーザU11等がズーム操作を行い、ズーム情報が与えられたとする。
【0191】
ここでズーム情報は、例えばズーム後の仮想的なスクリーンSC21の中心位置とズーム倍率を示す情報など、ズーム前のスクリーンSC11に対するズーム後のスクリーンSC21の位置および大きさを特定可能な情報とされる。すなわち、ズーム情報はスクリーンSC11およびスクリーンSC21の位置と大きさの関係を特定可能な情報とされる。
【0192】
なお、ここでは説明を簡単にするため、ズーム前後においてスクリーンの中心位置は、ズーム前のユーザU11から見て垂直方向には変化(移動)しないものとする。
【0193】
このようなズーム情報から、スクリーンSC21の中心位置の点SCO21と、スクリーンSC21の水平方向の端である点SCE21および点SCE22が特定される。
【0194】
ズーム情報が供給されると、ズーム情報に基づいてオブジェクトOB61のオブジェクト位置情報が修正され、オブジェクトOB61の音像定位位置がズームに応じた位置に移動する。また、コンテンツの画像に対してズーム処理が行われる。
【0195】
これにより、あたかもユーザU11が仮想的なスクリーンSC21の正面に移動したかのような画像が表示され、音像の定位位置も変化する。すなわち、矢印M11に示すようにユーザU11が移動したかのような画像の表示制御および音像定位制御が行われる。
【0196】
ズーム処理が行われると、例えば矢印A12に示すようにユーザU11はスクリーンSC21の正面に位置することになるので、オブジェクトOB61はユーザU11から見て左斜め前の方向に位置することになる。
【0197】
例えばズーム後のユーザU11の位置、つまり原点Oを通りスクリーンSC21の面に対して垂直な直線を直線L63とする。このとき、直線L63とスクリーンSC21との交点は、スクリーンSC21の中心位置にある点SCO21となり、ズーム後のユーザU11から見た点SCO21の位置は、水平方向角度および垂直方向角度が0度となる位置である。
【0198】
また、ズーム後の原点OとオブジェクトOB61とを結ぶ直線を直線L64とする。直線L63と直線L64とのなす角度をφ’とすると、ズーム後のユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφ’であり垂直方向角度が0度となる位置である。
【0199】
このようにズーム情報が供給されると、オブジェクトOB61の水平方向の位置を示す水平方向角度φはφ’に修正されることになる。
【0200】
具体的には、オブジェクトOB61のオブジェクト位置情報の修正後の水平方向角度φ’は、以下のようにして求められる。
【0201】
すなわち、例えば図10の矢印A21に示すようにユーザU11の右前方にオブジェクトOB61がある状態でズームが行われ、ズーム後には図10の矢印A22に示すようにユーザU11の左前方にオブジェクトOB61が位置する状態となったとする。なお、図10において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0202】
例えば図10の矢印A21に示すように、ズーム前におけるユーザU11の位置、すなわち原点Oおよび点SCE11を結ぶ直線と、直線L61とのなす角度をφrepro leftとする。同様に、ズーム前における原点Oおよび点SCE12を結ぶ直線と、直線L61とのなす角度をφrepro rightとする。これらの角度φrepro leftおよび角度φrepro rightは既知の情報である。
【0203】
また、ズーム前におけるユーザU11の位置、すなわち原点Oおよび点SCE21を結ぶ直線と、直線L61とのなす角度をφZASource leftとする。さらにズーム前における原点Oおよび点SCE22を結ぶ直線と、直線L61とのなす角度をφZASource rightとする。これらの角度φZASource leftおよび角度φZASource rightは、ズーム情報から求めることができる。
【0204】
さらに、ズーム前後においてユーザU11と仮想的なスクリーンとの相対的な位置関係が同じであるものとすると、矢印A22に示すように、ズーム後におけるユーザU11の位置、すなわち原点Oおよび点SCE21を結ぶ直線と、直線L63とのなす角度はφrepro leftとなる。同様に、ズーム後における原点Oおよび点SCE22を結ぶ直線と、直線L63とのなす角度はφrepro rightとなる。
【0205】
これらの角度φrepro left、角度φrepro right、角度φZASource left、および角度φZASource rightと、オブジェクトOB61の修正前のオブジェクト位置情報における水平方向角度φとを用いれば、オブジェクトOB61の修正後のオブジェクト位置情報における水平方向角度φ’を求めることができる。すなわち、次式(7)により水平方向角度φ’を求めることができる。
【0206】
【数7】
【0207】
なお、以上においてはズームの前後でスクリーンの中心位置が垂直方向に変化しない例について説明した。しかし、ズーム前後でスクリーンの中心位置が垂直方向にも変化する場合においても水平方向と同様にして、修正後のオブジェクト位置情報における垂直方向角度を求めることができる。
【0208】
例えばズーム前、つまり修正前のオブジェクト位置情報の垂直方向角度をθとし、ズーム後、つまり修正後のオブジェクト位置情報の垂直方向角度をθ’とするものとする。
【0209】
また、ズーム前後において、ユーザの位置、つまり原点Oおよび仮想的なスクリーンの中心を結ぶ直線と、原点Oおよび仮想的なスクリーンの上端を結ぶ直線とのなす角度がθrepro topであるとする。ズーム前後において、原点Oおよび仮想的なスクリーンの中心を結ぶ直線と、原点Oおよび仮想的なスクリーンの下端を結ぶ直線とのなす角度がθrepro bottomであるとする。これらの角度θrepro topおよび角度θrepro bottomは既知である。
【0210】
さらに、ズーム前の原点Oおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Oおよびズーム後の仮想的なスクリーンの上端を結ぶ直線とのなす角度をθZASource topとする。同様に、ズーム前の原点Oおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Oおよびズーム後の仮想的なスクリーンの下端を結ぶ直線とのなす角度をθZASource bottomとする。これらの角度θZASource topおよび角度θZASource bottomはズーム情報から求めることができる。
【0211】
この場合、角度θrepro top、角度θrepro bottom、角度θZASource top、および角度θZASource bottomと、オブジェクトの修正前のオブジェクト位置情報における垂直方向角度θとを用いれば、オブジェクトの修正後のオブジェクト位置情報における垂直方向角度θ’を求めることができる。すなわち、次式(8)により垂直方向角度θ’を求めることができる。
【0212】
【数8】
【0213】
オブジェクト位置情報の修正時には、ズーム情報および修正前のオブジェクト位置情報に基づいて式(7)や式(8)の計算等が行われて、オブジェクト位置情報に含まれる、オブジェクトの水平方向角度、垂直方向角度、および半径が修正される。
【0214】
ところで、ズーム前後におけるスプレッド角度の関係は、ズーム前後におけるオブジェクト位置情報により示される水平方向角度の関係や垂直方向角度の関係と同じである。そのため、式(7)や式(8)と同様の計算を行うことで、適切にスプレッド情報を修正することが可能である。すなわち、ズーム後の適切なスプレッド情報を生成することができる。
【0215】
具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられるものとし、ズーム前の現フレームifrmのスプレッド情報としてスプレッド情報swidth(ifrm)およびスプレッド情報sheight(ifrm)が与えられているとする。
【0216】
また、ズーム後における現フレームifrmの水平方向のスプレッド角度をs’width(ifrm)とし、ズーム後における現フレームifrmの垂直方向のスプレッド角度をs’height(ifrm)とする。つまり、スプレッド情報s’width(ifrm)およびスプレッド情報s’height(ifrm)からなる情報を、ズーム情報に基づくズームに応じて修正した修正後(ズーム後)のスプレッド情報とする。
【0217】
この場合、式(7)におけるφおよびφ’をswidth(ifrm)およびs’width(ifrm)に置き換えることで、修正後のスプレッド情報s’width(ifrm)を得ることができる。同様に、式(8)におけるθおよびθ’をsheight(ifrm)およびs’height(ifrm)に置き換えることで、修正後のスプレッド情報s’height(ifrm)を得ることができる。
【0218】
すなわち、ズーム情報と、オブジェクトの現フレームifrmのズーム前(修正前)のスプレッド情報swidth(ifrm)に基づいて以下の式(9)を計算することで、修正後(ズーム後)のスプレッド情報s’width(ifrm)を得ることができる。
【0219】
また、ズーム情報と、オブジェクトの現フレームifrmのズーム前(修正前)のスプレッド情報sheight(ifrm)に基づいて以下の式(10)を計算することで、修正後のスプレッド情報s’height(ifrm)を得ることができる。
【0220】
【数9】
【0221】
【数10】
【0222】
これらの式(9)と式(10)によるスプレッド情報の修正は、ズーム情報により定まるズーム前の仮想的なスクリーンSC11とズーム後の仮想的なスクリーンSC21との位置および大きさの関係、並びにオブジェクトの現フレームifrmのズーム前のスプレッド情報に基づいて、オブジェクトの現フレームifrmのズーム後のスプレッド情報を生成しているともいうことができる。
【0223】
なお、ここでは例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合を例として説明したが、音像が水平方向および垂直方向に対称に広げられる場合においても同様にしてスプレッド情報を修正することが可能である。
【0224】
そのような場合、例えば修正後のスプレッド情報をs’(ifrm)とすると、式(9)においてスプレッド情報swidth(ifrm)およびスプレッド情報s’width(ifrm)をスプレッド情報s(ifrm)およびスプレッド情報s’(ifrm)に置き換えて計算を行えばよい。
【0225】
〈復号装置の構成例〉
以上において説明したようにズーム情報に基づいてオブジェクト位置情報およびスプレッド情報が修正される場合、復号装置は、例えば図11に示すように構成される。なお、図11において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0226】
図11に示す復号装置101は、アンパッキング/復号部111、スプレッド情報生成部112、レンダリング部113、およびミキシング部114を有している。また、図11に示す復号装置101のスプレッド情報生成部112には、位置情報修正部161およびスプレッド情報修正部162が設けられている。
【0227】
図11に示す復号装置101は、スプレッド情報生成部112に位置情報修正部161およびスプレッド情報修正部162を設けた点で図4に示した復号装置101と異なり、その他の点では図4に示した復号装置101と同じ構成となっている。
【0228】
この例では、アンパッキング/復号部111からスプレッド情報生成部112には、各オブジェクトの全フレームのメタデータが供給される。この場合、メタデータには、必ずオブジェクト位置情報とスプレッド情報が含まれている。また、スプレッド情報生成部112にはユーザ操作等に応じてズーム情報も供給される。
【0229】
スプレッド情報生成部112の位置情報修正部161は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報を修正する。
【0230】
スプレッド情報生成部112のスプレッド情報修正部162は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるスプレッド情報を修正する。換言すればスプレッド情報修正部162は、ズーム情報およびズーム前(修正前)のスプレッド情報に基づいて、ズーム後のスプレッド情報を生成する。
【0231】
スプレッド情報生成部112は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部113に供給する。
【0232】
〈復号処理の説明〉
次に、図11に示した復号装置101の動作について説明する。
【0233】
すなわち、以下、図12のフローチャートを参照して、図11に示した復号装置101による復号処理について説明する。
【0234】
なお、ステップS141およびステップS142の処理は、図5のステップS51およびステップS52の処理と同様であるので、その説明は省略する。但し、ステップS142では、各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれているメタデータがスプレッド情報生成部112に供給される。
【0235】
ステップS143において、位置情報修正部161は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報を修正する。
【0236】
すなわち、位置情報修正部161はズーム情報と、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報とに基づいて、オブジェクト位置情報に含まれる水平方向角度、垂直方向角度、および半径を修正する。
【0237】
具体的には、位置情報修正部161は上述した式(7)を計算することでオブジェクトの位置を示す修正後の水平方向角度φ’を算出するとともに、上述した式(8)を計算することでオブジェクトの位置を示す修正後の垂直方向角度θ’を算出する。また、位置情報修正部161は、オブジェクトの位置を示す半径をズーム倍率で除算することで、オブジェクトの位置を示す修正後の半径を算出する。
【0238】
ステップS144において、スプレッド情報修正部162は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるスプレッド情報を修正する。すなわち、ズームに応じたズーム後のスプレッド情報が生成される。
【0239】
例えばアンパッキング/復号部111から供給されたメタデータのスプレッド情報として、スプレッド情報swidth(ifrm)およびスプレッド情報sheight(ifrm)が含まれているとする。この場合、スプレッド情報修正部162は、それらのスプレッド情報とズーム情報に基づいて、上述した式(9)および式(10)を計算することで、修正後のスプレッド情報s’width(ifrm)およびスプレッド情報s’height(ifrm)を算出する。
【0240】
このようにしてオブジェクト位置情報およびスプレッド情報が修正されると、スプレッド情報生成部112は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれた各オブジェクトのメタデータをレンダリング部113に供給する。
【0241】
なお、ズーム情報が供給されなかった場合、すなわちズームが行われない場合には、特にステップS143およびステップS144の処理は行われない。すなわち、オブジェクト位置情報およびスプレッド情報の修正は行われない。
【0242】
ステップS144の処理が行われると、その後、ステップS145乃至ステップS147の処理が行われて復号処理は終了するが、これらの処理は図5のステップS55乃至ステップS57の処理と同様であるので、その説明は省略する。
【0243】
以上のようにして、復号装置101は各オブジェクトのオブジェクト位置情報およびスプレッド情報を修正し、レンダリングを行う。
【0244】
これにより、適切なオブジェクト位置情報およびスプレッド情報を簡単に得ることができ、より臨場感の高いコンテンツ再生を実現することができる。
【0245】
また、以上において説明した第3の実施の形態と、第1の実施の形態や第2の実施の形態を組み合わせるようにしてもよい。
【0246】
例えば第2の実施の形態と第3の実施の形態とを組み合わせる場合には、図8を参照して説明した復号処理においてステップS113の処理が行われた後、図12のステップS143およびステップS144の処理が行われ、その後、ステップS114乃至ステップS116の処理が行われる。
【0247】
このようにすることで、スプレッド情報がないフレームがあるときでも、ズーム情報に応じた適切なスプレッド情報を簡単に得ることができる。
【0248】
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0249】
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0250】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0251】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0252】
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
【0253】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0254】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0255】
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0256】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0257】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0258】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0259】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0260】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【符号の説明】
【0261】
11 符号化装置, 22 オブジェクトオーディオ符号化部, 23 メタデータ入力部, 24 スプレッド情報生成部, 101 復号装置, 111 アンパッキング/復号部, 112 スプレッド情報生成部, 113 レンダリング部, 161 位置情報修正部, 162 スプレッド情報修正部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13