IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2022-172391信号処理装置および方法、並びにプログラム
<>
  • 特開-信号処理装置および方法、並びにプログラム 図1
  • 特開-信号処理装置および方法、並びにプログラム 図2
  • 特開-信号処理装置および方法、並びにプログラム 図3
  • 特開-信号処理装置および方法、並びにプログラム 図4
  • 特開-信号処理装置および方法、並びにプログラム 図5
  • 特開-信号処理装置および方法、並びにプログラム 図6
  • 特開-信号処理装置および方法、並びにプログラム 図7
  • 特開-信号処理装置および方法、並びにプログラム 図8
  • 特開-信号処理装置および方法、並びにプログラム 図9
  • 特開-信号処理装置および方法、並びにプログラム 図10
  • 特開-信号処理装置および方法、並びにプログラム 図11
  • 特開-信号処理装置および方法、並びにプログラム 図12
  • 特開-信号処理装置および方法、並びにプログラム 図13
  • 特開-信号処理装置および方法、並びにプログラム 図14
  • 特開-信号処理装置および方法、並びにプログラム 図15
  • 特開-信号処理装置および方法、並びにプログラム 図16
  • 特開-信号処理装置および方法、並びにプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022172391
(43)【公開日】2022-11-15
(54)【発明の名称】信号処理装置および方法、並びにプログラム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20221108BHJP
   H04S 7/00 20060101ALI20221108BHJP
【FI】
G10L19/008 200
H04S7/00 300
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022145788
(22)【出願日】2022-09-14
(62)【分割の表示】P 2019512429の分割
【原出願日】2018-03-30
(31)【優先権主張番号】P 2017079446
(32)【優先日】2017-04-13
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】本間 弘幸
(72)【発明者】
【氏名】山本 優樹
(57)【要約】
【課題】計算負荷を低減させることができるようにする。
【解決手段】信号処理装置は、オブジェクトのスプレッド情報に基づいて、オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える。本技術はエンコーダおよびデコーダに適用することができる。
【選択図】図6
【特許請求の範囲】
【請求項1】
オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える
信号処理装置。
【請求項2】
前記オブジェクトのオーディオオブジェクト信号と、前記アンビソニックゲインとに基づいて、前記オブジェクトのアンビソニック信号を生成するアンビソニック信号生成部をさらに備える
請求項1に記載の信号処理装置。
【請求項3】
前記アンビソニックゲイン計算部は、
前記スプレッド情報に基づいて、前記オブジェクトが基準となる位置にあるとしたときの基準位置アンビソニックゲインを求め、
前記所定の位置を示すオブジェクト位置情報に基づいて、前記基準位置アンビソニックゲインに対して回転処理を行って前記アンビソニックゲインを求める
請求項1に記載の信号処理装置。
【請求項4】
前記アンビソニックゲイン計算部は、前記スプレッド情報とゲインテーブルとに基づいて前記基準位置アンビソニックゲインを求める
請求項3に記載の信号処理装置。
【請求項5】
前記ゲインテーブルは、スプレッド角度と、前記基準位置アンビソニックゲインとが対応付けられたものである
請求項4に記載の信号処理装置。
【請求項6】
前記アンビソニックゲイン計算部は、前記ゲインテーブルにおける複数の前記スプレッド角度のそれぞれに対応付けられた前記基準位置アンビソニックゲインのそれぞれに基づいて補間処理を行うことにより、前記スプレッド情報により示されるスプレッド角度に対応する前記基準位置アンビソニックゲインを求める
請求項5に記載の信号処理装置。
【請求項7】
前記基準位置アンビソニックゲインは、前記スプレッド情報により示されるスプレッド角度に対して定まる空間上の複数の位置のそれぞれを示す角度のそれぞれを球面調和関数に代入して得られた値のそれぞれの和である
請求項3に記載の信号処理装置。
【請求項8】
オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求める
ステップを含む信号処理方法。
【請求項9】
オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求める
ステップを含む処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、信号処理装置および方法、並びにプログラムに関し、特に、計算負荷を低減させることができるようにした信号処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来、映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。具体的には、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
【0003】
このような符号化方式では、従来の2チャネルステレオ方式や5.1チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することが可能である。
【0004】
このようにすることで、従来の符号化方式では困難であった特定の音源の音の音量調整や、特定の音源の音に対するエフェクトの追加など、特定の音源の音を再生時に加工することが容易にできる。
【0005】
また、非特許文献1に記載の符号化方式では、前述のオーディオオブジェクトの他に、視聴者周辺の空間的な音響情報を扱うアンビソニック(HOA(High Order Ambisonic)とも呼ばれる)といったデータも扱うことができる。
【0006】
ところで、オーディオオブジェクトは、スピーカ信号やヘッドフォン信号等にレンダリングする際には、点音源であるものと仮定されているため、大きさを持ったオーディオオブジェクトを表現することができない。
【0007】
そこで、非特許文献1に記載の符号化方式などのオブジェクトオーディオを扱える符号化方式では、オーディオオブジェクトのメタデータの中にオブジェクトの大きさを表現するスプレッドと呼ばれる情報が格納される。
【0008】
そして、例えば非特許文献1の規格では、再生時にはスプレッドに基づいて1つのオーディオオブジェクトに対して19個のスプレッド用オーディオオブジェクトの信号が新たに生成されてスピーカなどの再生装置にレンダリング出力される。これにより、擬似的に大きさを持つオーディオオブジェクトを表現することができる。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、上述したように1個のオーディオオブジェクトに対して19個ものスプレッド用オーディオオブジェクトの信号を新たに生成することはレンダリング処理の計算負荷を著しく増大させることに繋がる。
【0011】
本技術は、このような状況に鑑みてなされたものであり、計算負荷を低減させることができるようにするものである。
【課題を解決するための手段】
【0012】
本技術の一側面の信号処理装置は、オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える。
【0013】
本技術の一側面の信号処理方法またはプログラムは、オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインを求めるステップを含む。
【0014】
本技術の一側面においては、オブジェクトのスプレッド情報に基づいて、前記オブジェクトが所定の位置にあるときのアンビソニックゲインが求められる。
【発明の効果】
【0015】
本技術の一側面によれば、計算負荷を低減させることができる。
【0016】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
【図面の簡単な説明】
【0017】
図1】オーディオオブジェクトのメタデータについて説明する図である。
図2】オーディオオブジェクトの3次元空間上の位置について説明する図である。
図3】スプレッド用オーディオオブジェクトについて説明する図である。
図4】スプレッド用オーディオオブジェクトについて説明する図である。
図5】スプレッド用オーディオオブジェクトについて説明する図である。
図6】信号処理装置の構成例を示す図である。
図7】スプレッド角度と正面位置アンビソニックゲインの関係を示す図である。
図8】コンテンツレンダリング処理を説明するフローチャートである。
図9】オーディオオブジェクトのメタデータについて説明する図である。
図10】スプレッド用オーディオオブジェクトについて説明する図である。
図11】スプレッド用オーディオオブジェクトについて説明する図である。
図12】スプレッド角度と正面位置アンビソニックゲインの関係を示す図である。
図13】スプレッド角度と正面位置アンビソニックゲインの関係を示す図である。
図14】デコーダの構成例を示す図である。
図15】デコーダの構成例を示す図である。
図16】エンコーダの構成例を示す図である。
図17】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0019】
〈第1の実施の形態〉
〈本技術について〉
本技術は、スプレッド情報に基づいてアンビソニックゲインを直接求め、得られたアンビソニックゲインと、オーディオオブジェクト信号とからアンビソニック信号を得ることで計算負荷を低減させることができるようにするものである。
【0020】
まず、MPEG-H Part 3:3D audio規格のオーディオオブジェクトのスプレッド(以下、スプレッド情報とも称する)について説明する。
【0021】
図1は、スプレッド情報を含むオーディオオブジェクトのメタデータのフォーマットの一例を示す図ある。
【0022】
オーディオオブジェクトのメタデータは、所定の時間間隔ごとに図1に示すフォーマットが用いられて符号化される。
【0023】
図1において、num_objectsはビットストリームに含まれるオーディオオブジェクトの数を示している。また、tcimsbfはTwo's complement integer, most significant bit firstの略であり、uimsbfはUnsigned integer, most significant bit firstの略である。
【0024】
この例では、メタデータにはオーディオオブジェクトごとにobject_priority、spread、position_azimuth、position_elevation、position_radius、およびgain_factorが格納されている。
【0025】
object_priorityは、オーディオオブジェクトをスピーカなどの再生装置にレンダリングする際の優先度を示す優先度情報である。例えば、計算リソースの少ない機器でオーディオデータの再生を行うような場合に、object_priorityが大きいオーディオオブジェクトの信号を優先的に再生するなどといったことが可能である。
【0026】
spreadは、オーディオオブジェクトの大きさを表すメタデータ(スプレッド情報)であり、MPEG-H Part 3:3D audio規格ではオーディオオブジェクトの空間位置からの広がりを表す角度として定義されている。gain_factorはオーディオオブジェクト個々のゲインを示すゲイン情報である。
【0027】
position_azimuth、position_elevation、およびposition_radiusは、オーディオオブジェクトの空間位置情報を表す方位角、仰角、および半径(距離)であり、これらの方位角、仰角、および半径の関係は、例えば図2に示すようになる。
【0028】
すなわち、図2では原点Oを通り、互いに垂直なx軸、y軸、およびz軸が3次元直交座標系の軸となっている。
【0029】
いま、原点Oと空間上のオーディオオブジェクトOB11の位置とを結ぶ直線を直線rとし、この直線rをxy平面上に投影して得られた直線を直線Lとする。
【0030】
このとき、x軸と直線Lとのなす角がオーディオオブジェクトOB11の位置を示す方位角、すなわちposition_azimuthとされ、直線rとxy平面とのなす角がオーディオオブジェクトOB11の位置を示す仰角、すなわちposition_elevationとされる。また、直線rの長さがオーディオオブジェクトOB11の位置を示す半径、すなわちposition_radiusとされる。
【0031】
図1の説明に戻り、復号側では図1に示したobject_priority、spread、position_azimuth、position_elevation、position_radius、およびgain_factorが読み出されて、適宜、用いられる。
【0032】
次に、MPEG-H Part 3:3D audio規格において、spread(スプレッド情報)を持つオーディオオブジェクトをスピーカなどの再生装置にレンダリングする方法について説明する。
【0033】
例えばspreadがない、つまりspreadにより示される角度が0度である通常のオーディオオブジェクトをレンダリングする場合には、VBAP(Vector Base Amplitude Panning)と呼ばれる手法が用いられる。
【0034】
なお、VBAPについては、例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」等に記載されているので、その説明は省略する。
【0035】
これに対して、オーディオオブジェクトのspreadがある場合、spreadに基づいて19個のスプレッド用オーディオオブジェクトの位置を示すベクトルp0乃至ベクトルp18が求められる。
【0036】
すなわち、まず処理対象となっているオーディオオブジェクトのメタデータにより示される位置を示すベクトルを、基本となるベクトルp0とする。また、処理対象のオーディオオブジェクトのposition_azimuthおよびposition_elevationのそれぞれにより示される角度を角度φおよび角度θとする。このとき、以下の式(1)および式(2)により基本ベクトルvおよび基本ベクトルuが求められる。
【0037】
【数1】
【0038】
【数2】
【0039】
なお式(2)において「×」はクロス積を示している。
【0040】
続いて、これらの2つの基本ベクトルvおよび基本ベクトルuと、ベクトルp0とに基づいて、以下の式(3)により18個のベクトルp1'乃至ベクトルp18'が求められる。
【0041】
【数3】
【0042】
式(3)により得られた18個のベクトルp1'乃至ベクトルp18'、およびベクトルp0のそれぞれにより示される位置を3次元直交座標系にプロットすると、図3に示すようになる。なお、図3では、1つの円が1つのベクトルにより示される位置を表している。
【0043】
ここで、オーディオオブジェクトのspreadにより示される角度をαとし、この角度αを0.001度以上90度以下に制限したものをα'とすると、spreadにより変形した19個のベクトルpm(但し、m=0,1,…,18)は以下の式(4)に示すようになる。
【0044】
【数4】
【0045】
このようにして得られたベクトルpmを正規化することで、spread(スプレッド情報)に対応した19個のスプレッド用オーディオオブジェクトが生成される。ここで、1つのスプレッド用オーディオオブジェクトは、1つのベクトルpmにより示される空間上の位置にある仮想的なオブジェクトである。
【0046】
これらの19個のスプレッド用オーディオオブジェクトの信号をスピーカなどの再生装置にレンダリングすることで、spreadに対応した空間的な広がりを持つ1つのオーディオオブジェクトの音の出力が可能となる。
【0047】
図4は、spreadにより示される角度が30度である場合の19個のスプレッド用オーディオオブジェクトを3次元直交座標系にプロットしたものを示す図である。また、図5は、spreadにより示される角度が90度である場合の19個のスプレッド用オーディオオブジェクトを3次元直交座標系にプロットしたものを示す図である。
【0048】
これらの図4および図5では、1つの円が1つのベクトルにより示される位置を表している。すなわち、1つの円が1つのスプレッド用オーディオオブジェクトを表している。
【0049】
オーディオオブジェクトの信号の再生時には、これらの19個のスプレッド用オーディオオブジェクトの信号からなるオーディオ信号を1つのオーディオオブジェクトの信号として再生することで、大きさを持つオーディオオブジェクトが表現される。
【0050】
さらに、spreadにより示される角度が90度を超える場合、次式(5)に示されるλが按分比とされ、spreadにより示される角度を90度としたときのレンダリング結果と、全スピーカが一定ゲインとされたときの出力結果とが按分比λにより合成されて出力される。
【0051】
【数5】
【0052】
以上のように、オーディオオブジェクトの信号を再生するときにはspread(スプレッド情報)に基づいて19個のスプレッド用オーディオオブジェクトが生成され、擬似的に大きさを持つオーディオオブジェクトが表現される。
【0053】
しかしながら、1個のオーディオオブジェクトに対して19個ものスプレッド用オーディオオブジェクトを生成することは、レンダリング処理の計算負荷を著しく増大させることに繋がる。
【0054】
そこで本技術では、スプレッド情報を持つオーディオオブジェクトに対して、レンダリング時に19個のスプレッド用オーディオオブジェクト生成することなく、スプレッド情報に基づくアンビソニックゲインを直接求めることで、計算負荷を低減させるようにした。
【0055】
特に、本技術はオブジェクトオーディオとアンビソニックの2つの方式が重畳されたビットストリームを復号(デコード)しレンダリングする場合や、符号化(エンコード)時にオブジェクトオーディオをアンビソニックに変換して符号化する際などに有用である。
【0056】
〈信号処理装置の構成例〉
図6は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
【0057】
図6に示す信号処理装置11は、アンビソニックゲイン計算部21、アンビソニック回転部22、アンビソニックマトリクス適用部23、加算部24、およびアンビソニックレンダリング部25を有している。
【0058】
この信号処理装置11には、コンテンツの音を再生するためのオーディオ信号として、アンビソニック形式のオーディオ信号である入力アンビソニック信号と、オーディオオブジェクトの音のオーディオ信号である入力オーディオオブジェクト信号とが供給される。
【0059】
例えば入力アンビソニック信号は、球面調和関数Sn,m(θ,φ)の次数nおよび次数mに対応するアンビソニックチャネルCn,mの信号である。すなわち、信号処理装置11には、各アンビソニックチャネルCn,mの入力アンビソニック信号が供給される。
【0060】
これに対して、入力オーディオオブジェクト信号は、1つのオーディオオブジェクトの音を再生するためのモノラルのオーディオ信号であり、信号処理装置11には各オーディオオブジェクトの入力オーディオオブジェクト信号が供給される。
【0061】
また、信号処理装置11には、各オーディオオブジェクトについて、メタデータとしてオブジェクト位置情報とスプレッド情報とが供給される。
【0062】
ここで、オブジェクト位置情報は、上述したposition_azimuth、position_elevation、およびposition_radiusからなる情報である。
【0063】
position_azimuthはオーディオオブジェクトの空間上の位置を示す方位角を示しており、position_elevationはオーディオオブジェクトの空間上の位置を示す仰角を示しており、position_radiusはオーディオオブジェクトの空間上の位置を示す半径を示している。
【0064】
また、スプレッド情報は上述したspreadであり、オーディオオブジェクトの大きさ、すなわちオーディオオブジェクトの音像の広がり度合いを示す角度情報である。
【0065】
なお、以下では説明を簡単にするため、信号処理装置11に1つのオーディオオブジェクトについて、入力オーディオオブジェクト信号、オブジェクト位置情報、およびスプレッド情報が供給される場合について説明する。
【0066】
しかし、これに限らず、信号処理装置11に複数のオーディオオブジェクトについて、入力オーディオオブジェクト信号、オブジェクト位置情報、およびスプレッド情報が供給されても勿論よい。
【0067】
アンビソニックゲイン計算部21は、供給されたスプレッド情報に基づいて、オーディオオブジェクトが正面位置にあるとしたときのアンビソニックゲインを求め、アンビソニック回転部22に供給する。
【0068】
なお、正面位置とは空間上の基準となるユーザ位置から見て正面方向の位置であり、オブジェクト位置情報としてのposition_azimuthおよびposition_elevationがそれぞれ0度となる位置である。換言すれば、position_azimuth=0およびposition_elevation=0となる位置が正面位置である。
【0069】
以下では、特にオーディオオブジェクトが正面位置にある場合における、オーディオオブジェクトのアンビソニックチャネルCn,mのアンビソニックゲインを、正面位置アンビソニックゲインGn,mとも称することとする。
【0070】
例えば各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mは、以下のようなものとなる。
【0071】
すなわち、各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを入力オーディオオブジェクト信号に乗算して、それらの各アンビソニックチャネルCn,mのアンビソニック信号、つまりアンビソニック形式の信号としたとする。
【0072】
このとき、それらの各アンビソニックチャネルCn,mのアンビソニック信号からなる信号に基づいてオーディオオブジェクトの音を再生すると、そのオーディオオブジェクトの音の音像は正面位置に定位することになる。
【0073】
しかも、この場合、オーディオオブジェクトの音は、スプレッド情報により示される角度の広がりを持った音となる。すなわち、スプレッド情報を用いて19個のスプレッド用オーディオオブジェクトを生成した場合と同様の音の広がり感を表現することができる。
【0074】
ここで、スプレッド情報により示される角度(以下、スプレッド角度とも称する)と、各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mとの関係は、図7に示すようになる。なお、図7において縦軸は正面位置アンビソニックゲインGn,mの値を示しており、横軸はスプレッド角度を示している。
【0075】
図7において曲線L11乃至曲線L17は、各スプレッド角度に対するアンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを示している。
【0076】
具体的には、曲線L11は球面調和関数Sn,m(θ,φ)の次数nおよび次数mのそれぞれが1であるとき、すなわち次数n=1および次数m=1に相当するアンビソニックチャネルC1,1の正面位置アンビソニックゲインG1,1を示している。
【0077】
同様に、曲線L12は次数n=0および次数m=0に相当するアンビソニックチャネルC0,0の正面位置アンビソニックゲインG0,0を示しており、曲線L13は次数n=2および次数m=2に相当するアンビソニックチャネルC2,2の正面位置アンビソニックゲインG2,2を示している。
【0078】
また、曲線L14は次数n=3および次数m=3に相当するアンビソニックチャネルC3,3の正面位置アンビソニックゲインG3,3を示しており、曲線L15は次数n=3および次数m=1に相当するアンビソニックチャネルC3,1の正面位置アンビソニックゲインG3,1を示している。
【0079】
さらに曲線L16は次数n=2および次数m=0に相当するアンビソニックチャネルC2,0の正面位置アンビソニックゲインG2,0を示しており、曲線L17は上記以外の次数nおよび次数m(但し、0≦n≦3,-3≦m≦3)に相当するアンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを示している。すなわち、曲線L17はアンビソニックチャネルC1,-1、C1,0、C2,1、C2,-1、C2,-2、C3,0、C3,-1、C3,2、C3,-2、およびC3,-3の正面位置アンビソニックゲインを示している。ここでは、曲線L17により示される正面位置アンビソニックゲインは、スプレッド角度によらず0となっている。
【0080】
なお、球面調和関数Sn,m(θ,φ)の定義は、例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」のF.1.3章に詳細に記述されているので、その説明は省略する。
【0081】
これらのスプレッド角度と正面位置アンビソニックゲインGn,mの関係は予め求めておくことができる。
【0082】
具体的には、スプレッド角度に応じて求められるスプレッド用オーディオオブジェクトの3次元空間位置を示す仰角および方位角をそれぞれθおよびφとする。
【0083】
特に、19個のスプレッド用オーディオオブジェクトのうちのi番目(但し、0≦i≦18)のスプレッド用オーディオオブジェクトの仰角および方位角をθiおよびφiと記すこととする。なお、仰角θiおよび方位角φiは、それぞれ上述したposition_elevationおよびposition_azimuthに対応する。
【0084】
この場合、スプレッド用オーディオオブジェクトの仰角θiおよび方位角φiを球面調和関数Sn,m(θ,φ)に代入し、その結果得られた19個の各スプレッド用オーディオオブジェクトについての球面調和関数Sn,mii)を加算することで正面位置アンビソニックゲインGn,mを求めることができる。すなわち、次式(6)を計算することにより正面位置アンビソニックゲインGn,mを得ることができる。
【0085】
【数6】
【0086】
式(6)の計算では、同じアンビソニックチャネルCn,mについて得られた19個の球面調和関数Sn,mii)の和が、そのアンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mとされている。
【0087】
すなわち、スプレッド情報により示されるスプレッド角度に対して、複数個、ここでは19個の各スプレッド用オーディオオブジェクトの空間上の位置が定められており、各スプレッド用オーディオオブジェクトの位置を示す角度が仰角θiおよび方位角φiとなる。
【0088】
そして、スプレッド用オーディオオブジェクトの仰角θiおよび方位角φiを球面調和関数に代入して得られる値が球面調和関数Sn,mii)であり、19個のスプレッド用オーディオオブジェクトについて得られた球面調和関数Sn,mii)の和が正面位置アンビソニックゲインGn,mとされる。
【0089】
図7に示した例では、アンビソニックチャネルC0,0、C1,1、C2,0、C2,2、C3,1、およびC3,3のみが実質的に正面位置アンビソニックゲインGn,mを有し、それ以外のアンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mは0となっている。
【0090】
例えばアンビソニックゲイン計算部21では、スプレッド情報に基づいて式(6)の計算を行い、各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを算出してもよいが、ここではゲインテーブルが用いられて正面位置アンビソニックゲインGn,mが取得される。
【0091】
すなわち、アンビソニックゲイン計算部21では、各スプレッド角度と正面位置アンビソニックゲインGn,mとが対応付けられたゲインテーブルがアンビソニックチャネルCn,mごとに予め生成され、保持されている。
【0092】
例えばゲインテーブルでは、各スプレッド角度の値に対して、それらのスプレッド角度に対応する正面位置アンビソニックゲインGn,mの値が対応付けられていてもよい。また、例えばスプレッド角度の値の範囲に対して、その範囲に対応する正面位置アンビソニックゲインGn,mの値が対応付けられていてもよい。
【0093】
なお、ゲインテーブルにおけるスプレッド角度の分解能は、入力オーディオオブジェクト信号等に基づいてコンテンツの音を再生する装置のリソース規模や、コンテンツ再生時に求められる再生品質に応じて定めればよい。
【0094】
また、図7から分かるようにスプレッド角度が小さい場合には、スプレッド角度の変化に対して正面位置アンビソニックゲインGn,mの変化量が少ない。そこで、ゲインテーブルにおいて、小さいスプレッド角度については、1つの正面位置アンビソニックゲインGn,mを対応付けるスプレッド角度の範囲、すなわちスプレッド角度のステップ幅を大きくし、スプレッド角度が大きくなるにしたがってステップ幅を小さくするなどとしてもよい。
【0095】
さらに、スプレッド情報により示されるスプレッド角度が、ゲインテーブルにある2つのスプレッド角度の中間値などである場合には、線形補間等の補間処理を行って正面位置アンビソニックゲインGn,mを求めるようにしてもよい。
【0096】
そのような場合、例えばアンビソニックゲイン計算部21はゲインテーブルにおけるスプレッド角度に対応付けられた正面位置アンビソニックゲインGn,mに基づいて補間処理を行うことにより、スプレッド情報により示されるスプレッド角度に対応する正面位置アンビソニックゲインGn,mを求める。
【0097】
具体的には、例えばスプレッド情報により示されるスプレッド角度が65度であったとする。また、ゲインテーブルでは、スプレッド角度「60度」と正面位置アンビソニックゲインGn,m「0.2」が対応付けられており、スプレッド角度「70度」と正面位置アンビソニックゲインGn,m「0.3」が対応付けられているとする。
【0098】
このとき、アンビソニックゲイン計算部21は、スプレッド情報とゲインテーブルとに基づいて、スプレッド角度「65度」に対応する正面位置アンビソニックゲインGn,m「0.25」を線形補間処理により算出する。
【0099】
以上のように、アンビソニックゲイン計算部21では、スプレッド角度に応じて変化する各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mをテーブル化して得られたゲインテーブルが予め保持されている。
【0100】
これにより、スプレッド情報から19個のスプレッド用オーディオオブジェクトを別途生成することなく、ゲインテーブルから直接、正面位置アンビソニックゲインGn,mを得ることができる。ゲインテーブルを用いれば、直接、正面位置アンビソニックゲインGn,mを算出する場合よりも、さらに計算負荷を低減させることができる。
【0101】
なお、ここでは、アンビソニックゲイン計算部21においてオーディオオブジェクトが正面位置にあるときのアンビソニックゲインが求められる例について説明する。しかし、正面位置に限らず、アンビソニックゲイン計算部21においてオーディオオブジェクトが他の基準となる位置にあるときのアンビソニックゲインが求められるようにしてもよい。
【0102】
図6の説明に戻り、アンビソニックゲイン計算部21は、供給されたスプレッド情報と、保持しているゲインテーブルとに基づいて各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを求めると、得られた正面位置アンビソニックゲインGn,mをアンビソニック回転部22に供給する。
【0103】
アンビソニック回転部22は、供給されたオブジェクト位置情報に基づいて、アンビソニックゲイン計算部21から供給された正面位置アンビソニックゲインGn,mに対する回転処理を行う。
【0104】
アンビソニック回転部22は、回転処理により得られた各アンビソニックチャネルCn,mのオブジェクト位置アンビソニックゲインG'n,mをアンビソニックマトリクス適用部23に供給する。
【0105】
ここで、オブジェクト位置アンビソニックゲインG'n,mは、オーディオオブジェクトがオブジェクト位置情報により示される位置、つまりオーディオオブジェクトの実際の位置にあるとしたときのアンビソニックゲインである。
【0106】
したがって、回転処理ではオーディオオブジェクトの位置が正面位置から本来のオーディオオブジェクトの位置まで回転移動され、その回転移動後のアンビソニックゲインがオブジェクト位置アンビソニックゲインG'n,mとして算出される。
【0107】
換言すれば、正面位置に対応する正面位置アンビソニックゲインGn,mが回転移動され、オブジェクト位置情報により示される実際のオーディオオブジェクトの位置に対応するオブジェクト位置アンビソニックゲインG'n,mが算出される。
【0108】
回転処理時には、次式(7)に示すようにオーディオオブジェクトの回転角度、つまりアンビソニックゲインの回転角度に応じた回転行列Mと、各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mからなる行列Gとの積が求められる。そして、その結果得られた行列G'の要素が、各アンビソニックチャネルCn,mのオブジェクト位置アンビソニックゲインG'n,mとされる。ここでいう回転角度とは、オーディオオブジェクトを正面位置からオブジェクト位置情報により示される位置まで回転させるときの回転角度である。
【0109】
【数7】
【0110】
なお、回転行列Mについては例えば「Wigner-D functions, J. Sakurai, J. Napolitano, "Modern Quantum Mechanics", Addison-Wesley, 2010」などに記載されており、例えば2次のアンビソニックの場合、回転行列Mは次式(8)に示すブロック対角行列となる。
【0111】
【数8】
【0112】
式(8)に示す例では、回転行列Mの非対角ブロック成分の行列要素は0であるので、回転行列Mを正面位置アンビソニックゲインGn,mにかける処理の計算コストを削減することができる。
【0113】
以上のように、アンビソニックゲイン計算部21およびアンビソニック回転部22では、スプレッド情報とオブジェクト位置情報に基づいて、オーディオオブジェクトについてのオブジェクト位置アンビソニックゲインG'n,mが算出される。
【0114】
アンビソニックマトリクス適用部23は、アンビソニック回転部22から供給されたオブジェクト位置アンビソニックゲインG'n,mに基づいて、供給された入力オーディオオブジェクト信号をアンビソニック形式の信号に変換する。
【0115】
ここで、モノラルの時間信号である入力オーディオオブジェクト信号をObj(t)と記すこととすると、アンビソニックマトリクス適用部23は、次式(9)を計算することで、各アンビソニックチャネルCn,mの出力アンビソニック信号Cn,m(t)を求める。
【0116】
【数9】
【0117】
式(9)では、所定のアンビソニックチャネルCn,mのオブジェクト位置アンビソニックゲインG'n,mを入力オーディオオブジェクト信号Obj(t)に乗算することで、そのアンビソニックチャネルCn,mの出力アンビソニック信号Cn,m(t)が得られる。
【0118】
各アンビソニックチャネルCn,mについて式(9)の計算を行うことで、入力オーディオオブジェクト信号Obj(t)が、それらの各アンビソニックチャネルCn,mの出力アンビソニック信号Cn,m(t)からなるアンビソニック形式の信号に変換される。
【0119】
このようにして得られた出力アンビソニック信号Cn,m(t)は、スプレッド情報を用いて19個のスプレッド用オーディオオブジェクトを生成して入力オーディオオブジェクト信号に基づく音を再生したときと同様の音が再生される信号である。
【0120】
すなわち、出力アンビソニック信号Cn,m(t)は、オブジェクト位置情報により示される位置に音像を定位させ、かつスプレッド情報により示される音の広がりを表現することのできる、オーディオオブジェクトの音を再生するためのアンビソニック形式の信号である。
【0121】
このように入力オーディオオブジェクト信号Obj(t)を出力アンビソニック信号Cn,m(t)に変換すれば、より少ない処理量でのオーディオ再生を実現することができる。すなわち、レンダリング処理の計算負荷を低減させることができる。
【0122】
アンビソニックマトリクス適用部23は、このようにして得られた各アンビソニックチャネルCn,mの出力アンビソニック信号Cn,m(t)を加算部24に供給する。
【0123】
このようなアンビソニックマトリクス適用部23は、オーディオオブジェクトの入力オーディオオブジェクト信号Obj(t)と、オブジェクト位置アンビソニックゲインG'n,mとに基づいて、出力アンビソニック信号Cn,m(t)を生成するアンビソニック信号生成部として機能する。
【0124】
加算部24は、アンビソニックチャネルCn,mごとに、アンビソニックマトリクス適用部23から供給された出力アンビソニック信号Cn,m(t)と、供給された入力アンビソニック信号とを加算し、得られたアンビソニック信号C'n,m(t)をアンビソニックレンダリング部25に供給する。すなわち、加算部24では、出力アンビソニック信号Cn,m(t)と入力アンビソニック信号のミキシングが行われる。
【0125】
アンビソニックレンダリング部25は、加算部24から供給された各アンビソニックチャネルCn,mのアンビソニック信号C'n,m(t)と、図示せぬ出力スピーカの3次元空間位置に対応したデコーディングマトリクスと呼ばれる行列とに基づいて、各出力スピーカに供給する出力オーディオ信号Ok(t)を求める。
【0126】
例えば各アンビソニックチャネルCn,mのアンビソニック信号C'n,m(t)からなる列ベクトル(行列)をベクトルCとし、各出力スピーカに対応する各オーディオチャネルkの出力オーディオ信号Ok(t)からなる列ベクトル(行列)をベクトルOと記すこととする。また、デコーディングマトリクスをDと記すこととする。
【0127】
この場合、アンビソニックレンダリング部25は、例えば次式(10)に示すように、デコーディングマトリクスDとベクトルCの積を求めることで、ベクトルOを算出する。
【0128】
【数10】
【0129】
なお、式(10)では、デコーディングマトリクスDは、アンビソニックチャネルCn,mを行とし、オーディオチャネルkを列とする行列である。
【0130】
デコーディングマトリクスDの作成方法には様々な方法がある。例えば出力スピーカの3次元空間位置を示す仰角θおよび方位角φを代入して求められた球面調和関数Sn,m(θ,φ)を要素とする行列の逆行列を直接計算することで、デコーディングマトリクスDを求めるようにしてもよい。
【0131】
その他、例えば「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」の12.4.3.3章には、出力オーディオ信号の品質を向上させるためのデコーディングマトリクスの計算方法が記述されている。
【0132】
アンビソニックレンダリング部25は、以上のようにして得られた各オーディオチャネルkの出力オーディオ信号Ok(t)を、例えばそれらのオーディオチャネルkに対応する出力スピーカに出力する。
【0133】
〈コンテンツレンダリング処理の説明〉
次に、以上において説明した信号処理装置11の動作について説明する。すなわち、以下、図8のフローチャートを参照して、信号処理装置11によるコンテンツレンダリング処理について説明する。
【0134】
ステップS11において、アンビソニックゲイン計算部21は、供給されたスプレッド情報に基づいて、アンビソニックチャネルCn,mごとに正面位置アンビソニックゲインGn,mを求め、アンビソニック回転部22に供給する。
【0135】
例えばアンビソニックゲイン計算部21は、保持しているゲインテーブルから、供給されたスプレッド情報により示されるスプレッド角度に対応付けられている正面位置アンビソニックゲインGn,mを読み出すことで、アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを得る。このとき、アンビソニックゲイン計算部21は、必要に応じて補間処理を行って正面位置アンビソニックゲインGn,mを求める。
【0136】
ステップS12において、アンビソニック回転部22は、供給されたオブジェクト位置情報に基づいて、アンビソニックゲイン計算部21から供給された正面位置アンビソニックゲインGn,mに対して回転処理を行う。
【0137】
すなわち、例えばアンビソニック回転部22は、オブジェクト位置情報により定まる回転行列Mに基づいて上述した式(7)の計算を行い、各アンビソニックチャネルCn,mのオブジェクト位置アンビソニックゲインG'n,mを算出する。
【0138】
アンビソニック回転部22は、得られたオブジェクト位置アンビソニックゲインG'n,mをアンビソニックマトリクス適用部23に供給する。
【0139】
ステップS13において、アンビソニックマトリクス適用部23は、アンビソニック回転部22から供給されたオブジェクト位置アンビソニックゲインG'n,mと、供給された入力オーディオオブジェクト信号とに基づいて出力アンビソニック信号Cn,m(t)を生成する。
【0140】
例えばアンビソニックマトリクス適用部23は、上述した式(9)の計算を行うことで、アンビソニックチャネルCn,mごとに出力アンビソニック信号Cn,m(t)を算出する。アンビソニックマトリクス適用部23は、得られた出力アンビソニック信号Cn,m(t)を加算部24に供給する。
【0141】
ステップS14において、加算部24は、アンビソニックマトリクス適用部23から供給された出力アンビソニック信号Cn,m(t)と、供給された入力アンビソニック信号とをミキシングする。
【0142】
すなわち、加算部24は、アンビソニックチャネルCn,mごとに出力アンビソニック信号Cn,m(t)と入力アンビソニック信号とを加算し、得られたアンビソニック信号C'n,m(t)をアンビソニックレンダリング部25に供給する。
【0143】
ステップS15において、アンビソニックレンダリング部25は、加算部24から供給されたアンビソニック信号C'n,m(t)に基づいて、各オーディオチャネルkの出力オーディオ信号Ok(t)を生成する。
【0144】
例えばアンビソニックレンダリング部25は、上述した式(10)の計算を行うことで、各オーディオチャネルkの出力オーディオ信号Ok(t)を求める。
【0145】
出力オーディオ信号Ok(t)が得られると、アンビソニックレンダリング部25は、得られた出力オーディオ信号Ok(t)を後段に出力し、コンテンツレンダリング処理は終了する。
【0146】
以上のようにして信号処理装置11は、スプレッド情報とオブジェクト位置情報に基づいてオブジェクト位置アンビソニックゲインを算出し、オブジェクト位置アンビソニックゲインに基づいて入力オーディオオブジェクト信号をアンビソニック形式の信号に変換する。このように、入力オーディオオブジェクト信号をアンビソニック形式の信号に変換することで、レンダリング処理の計算負荷を低減させることができる。
【0147】
〈第2の実施の形態〉
〈アンビソニックゲインについて〉
ところで、以上においてはスプレッド、すなわちオーディオオブジェクトの形状は1つのスプレッド角度のみによって変化するものとしていた。しかし、MPEG-H 3D Audio Phase 2では、2つのスプレッド角度αwidth、およびスプレッド角度αheightにより楕円形状のスプレッドを実現する手法が記載されている。
【0148】
例えばMPEG-H 3D Audio Phase 2については、「INTERNATIONAL STANDARD ISO/IEC 23008-3: 2015/FDAM3:2016 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2」に詳細に記載されている。
【0149】
信号処理装置11では、このような2つのスプレッド角度が用いられる場合においてもスプレッド情報から正面位置アンビソニックゲインを得ることが可能である。
【0150】
以下では、スプレッド情報に、水平方向、つまり方位角の方向のスプレッド角度αwidthと、垂直方向、つまり仰角の方向のスプレッド角度αheightとが含まれている例について説明する。
【0151】
図9は、スプレッド情報として、スプレッド角度αwidthおよびスプレッド角度αheightが含まれている場合におけるオーディオオブジェクトのメタデータのフォーマットの一例を示す図である。なお、図9において図1における場合と対応する部分については、その説明を省略する。
【0152】
図9に示す例では、図1に示した例におけるspread[i]に代えて、spread_width[i]およびspread_height[i]がスプレッド情報として格納されている。
【0153】
この例では、spread_width[i]はi番目のオーディオオブジェクトのスプレッド角度αwidthを示しており、spread_height[i]はi番目のオーディオオブジェクトのスプレッド角度αheightを示している。
【0154】
MPEG-H 3D Audio Phase 2に基づく手法では、まず次式(11)により2つのスプレッド角度αwidthおよびスプレッド角度αheightの比であるαrが求められる。
【0155】
【数11】
【0156】
そして、次式(12)に示すように、スプレッド角度の比αrが上述した式(1)に示した基本ベクトルvに乗算されて、基本ベクトルvが修正される。
【0157】
【数12】
【0158】
なお、式(12)においてv'はスプレッド角度の比αrが乗算された、修正後の基本ベクトルを示している。
【0159】
また、上述した式(2)および式(3)はそのまま計算され、式(4)における角度α'については、スプレッド角度αwidthが0.001度以上90度以下に制限されたものが角度α'として用いられる。さらに、式(5)における角度αとしてスプレッド角度αwidthが用いられて計算が行われる。
【0160】
MPEG-H 3D Audio Phase 2に基づく手法では、以上のような計算により19個のスプレッド用オーディオオブジェクトが生成され、擬似的に大きさを持つオーディオオブジェクトが表現される。
【0161】
例えばスプレッド角度αwidthおよびスプレッド角度αheightがそれぞれ10度および60度である場合に得られた19個のスプレッド用オーディオオブジェクトを3次元直交座標系にプロットすると、図10に示すようになる。なお、図10では、1つの円が1つのスプレッド用オーディオオブジェクトを表している。
【0162】
同様に、例えばスプレッド角度αwidthおよびスプレッド角度αheightがそれぞれ90度および30度である場合に得られた19個のスプレッド用オーディオオブジェクトを3次元直交座標系にプロットすると、図11に示すようになる。なお、図11では、1つの円が1つのスプレッド用オーディオオブジェクトを表している。
【0163】
MPEG-H 3D Audio Phase 2に基づく手法など、スプレッド情報にスプレッド角度αwidthおよびスプレッド角度αheightが含まれている場合においても、19個のスプレッド用オーディオオブジェクトを生成することになる。そのため、レンダリング処理の計算負荷は大きいままである。
【0164】
これに対して、信号処理装置11においては、スプレッド情報にスプレッド角度αwidthおよびスプレッド角度αheightが含まれている場合でも、上述した第1の実施の形態と同様に、ゲインテーブルを用いて正面位置アンビソニックゲインGn,mを得ることができる。
【0165】
すなわち、第1の実施の形態では、アンビソニックゲイン計算部21には、例えばスプレッド情報により示される1つのスプレッド角度に対して、1つの正面位置アンビソニックゲインGn,mが対応付けられているゲインテーブルが保持されていた。
【0166】
これに対して、スプレッド情報にスプレッド角度αwidthおよびスプレッド角度αheightが含まれている場合には、例えばスプレッド角度αwidthおよびスプレッド角度αheightの組み合わせに対して1つの正面位置アンビソニックゲインGn,mが対応付けられているゲインテーブルがアンビソニックゲイン計算部21に保持される。
【0167】
例えばスプレッド角度αwidthおよびスプレッド角度αheightと、アンビソニックチャネルC0,0の正面位置アンビソニックゲインG0,0との関係は、図12に示すようになる。
【0168】
なお、図12においてj軸はスプレッド角度αwidthを示しており、k軸はスプレッド角度αheightを示しており、l軸は正面位置アンビソニックゲインG0,0を示している。
【0169】
この例では、曲面SF11は、スプレッド角度αwidthおよびスプレッド角度αheightの各組み合わせに対して定まる正面位置アンビソニックゲインG0,0を示している。
【0170】
特に、曲面SF11上において、スプレッド角度αwidthおよびスプレッド角度αheightのそれぞれが0度である点から、スプレッド角度αwidthおよびスプレッド角度αheightのそれぞれが90度である点までを通る曲線は、図7に示した曲線L12に対応する。
【0171】
アンビソニックゲイン計算部21は、このような曲面SF11に示す関係から得られるテーブルをアンビソニックチャネルC0,0のゲインテーブルとして保持している。
【0172】
同様に、例えばスプレッド角度αwidthおよびスプレッド角度αheightと、アンビソニックチャネルC3,1の正面位置アンビソニックゲインG3,1との関係は、図13に示すようになる。
【0173】
なお、図13においてj軸はスプレッド角度αwidthを示しており、k軸はスプレッド角度αheightを示しており、l軸は正面位置アンビソニックゲインG3,1を示している。
【0174】
この例では、曲面SF21は、スプレッド角度αwidthおよびスプレッド角度αheightの各組み合わせに対して定まる正面位置アンビソニックゲインG3,1を示している。
【0175】
アンビソニックゲイン計算部21は、アンビソニックチャネルCn,mごとに、スプレッド角度αwidthおよびスプレッド角度αheightと、正面位置アンビソニックゲインGn,mとが対応付けられたゲインテーブルを保持している。
【0176】
したがって、スプレッド情報にスプレッド角度αwidthおよびスプレッド角度αheightが含まれている場合においても、アンビソニックゲイン計算部21は、図8のステップS11においてゲインテーブルを用いて各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを求める。すなわち、アンビソニックゲイン計算部21は、供給されたスプレッド情報に含まれるスプレッド角度αwidthおよびスプレッド角度αheightに基づいて、ゲインテーブルから正面位置アンビソニックゲインGn,mを読み出すことで、各アンビソニックチャネルCn,mの正面位置アンビソニックゲインGn,mを取得する。なお、この場合においても、適宜、補間処理が行われる。
【0177】
このようにすることで、信号処理装置11では、19個のスプレッド用オーディオオブジェクトを生成することなく、ゲインテーブルから直接、正面位置アンビソニックゲインGn,mを得ることができる。また、正面位置アンビソニックゲインGn,mを用いれば、入力オーディオオブジェクト信号をアンビソニック形式の信号に変換することができる。これにより、レンダリング処理の計算負荷を低減させることができる。
【0178】
以上のように、本技術は、MPEG-H 3D Audio Phase 2で扱われるような楕円形状のスプレッドに対しても適用することができる。さらには、MPEG-H 3D Audio Phase 2には記載されていないような、例えば四角形や星型のような複雑な形状のスプレッドに対しても本技術を適用することが可能である。
【0179】
上述した第1の実施の形態および第2の実施の形態では、MPEG-H Part 3:3D audioやMPEG-H 3D Audio Phase 2に記載の規格に従って、19個のスプレッド用オーディオオブジェクトを生成することなく、入力オーディオオブジェクト信号をアンビソニック形式の信号に変換する手法について説明した。しかし、これらの規格との整合性を考慮する必要がなければ、スプレッドによって広がるオーディオオブジェクトの内部に19個以上の多数のオブジェクトが一様に分布していると仮定し、以上において説明した本技術を適用した手法によって処理を行うことも可能である。そのような場合においても本技術により高い計算コスト低減効果を得ることができる。
【0180】
〈本技術の適用例1〉
続いて、以上において説明した本技術の具体的な適用例について説明する。
【0181】
まず、本技術をオーディオコーデックのデコーダに適用した場合について説明する。
【0182】
例えば一般的なデコーダは、図14に示すように構成される。
【0183】
図14に示すデコーダ51は、コアデコーダ61、オブジェクトレンダリング部62、アンビソニックレンダリング部63、およびミキサ64を有している。
【0184】
デコーダ51に入力ビットストリームが供給されると、その入力ビットストリームに対してコアデコーダ61においてデコード処理が行われ、チャネル信号、オーディオオブジェクト信号、オーディオオブジェクトのメタデータ、およびアンビソニック信号が得られる。
【0185】
ここで、チャネル信号は、各オーディオチャネルのオーディオ信号である。また、オーディオオブジェクトのメタデータには、オブジェクト位置情報とスプレッド情報が含まれている。
【0186】
次に、オブジェクトレンダリング部62において、図示せぬ出力スピーカの3次元空間位置に基づいたレンダリング処理が行われる。
【0187】
オブジェクトレンダリング部62に入力されるメタデータには、オーディオオブジェクトの3次元空間位置を示すオブジェクト位置情報の他にスプレッド情報が含まれている。
【0188】
例えばスプレッド情報により示されるスプレッド角度が0度ではない場合には、上述したようにスプレッド角度に応じた仮想的なオブジェクト、すなわち19個のスプレッド用オーディオオブジェクトが生成される。そして、それらの19個のスプレッド用オーディオオブジェクトごとにレンダリング処理が行われ、その結果得られた各オーディオチャネルのオーディオ信号がオブジェクト出力信号としてミキサ64に供給される。
【0189】
また、アンビソニックレンダリング部63では、出力スピーカの3次元空間位置とアンビソニックチャネル数に基づいたデコーディングマトリクスが生成される。そして、アンビソニックレンダリング部63は、デコーディングマトリクスと、コアデコーダ61から供給されたアンビソニック信号とに基づいて、上述した式(10)と同様の計算を行い、得られたアンビソニック出力信号をミキサ64に供給する。
【0190】
ミキサ64は、コアデコーダ61からのチャネル信号と、オブジェクトレンダリング部62からのオブジェクト出力信号と、アンビソニックレンダリング部63からのアンビソニック出力信号とに対してミキシング処理を行い、最終的な出力オーディオ信号を生成する。すなわち、オーディオチャネルごとにチャネル信号と、オブジェクト出力信号と、アンビソニック出力信号とが加算されて出力オーディオ信号とされる。
【0191】
このようなデコーダ51では、特にオブジェクトレンダリング部62で行われるレンダリング処理の処理量が多くなってしまう。
【0192】
これに対して、本技術をデコーダに適用した場合、例えばデコーダは図15に示すように構成される。
【0193】
図15に示すデコーダ91は、コアデコーダ101、オブジェクト・アンビソニック信号変換部102、加算部103、アンビソニックレンダリング部104、およびミキサ105を有している。
【0194】
デコーダ91では、コアデコーダ101において入力ビットストリームのデコード処理が行われ、チャネル信号、オーディオオブジェクト信号、オーディオオブジェクトのメタデータ、およびアンビソニック信号が得られる。
【0195】
コアデコーダ101は、デコード処理により得られたチャネル信号をミキサ105に供給し、オーディオオブジェクト信号およびメタデータをオブジェクト・アンビソニック信号変換部102に供給し、アンビソニック信号を加算部103に供給する。
【0196】
オブジェクト・アンビソニック信号変換部102は、図6に示したアンビソニックゲイン計算部21、アンビソニック回転部22、およびアンビソニックマトリクス適用部23を有する構成となっている。
【0197】
オブジェクト・アンビソニック信号変換部102は、コアデコーダ101から供給されたメタデータに含まれるオブジェクト位置情報とスプレッド情報に基づいて、各アンビソニックチャネルのオブジェクト位置アンビソニックゲインを算出する。
【0198】
また、オブジェクト・アンビソニック信号変換部102は、算出したオブジェクト位置アンビソニックゲインと、供給されたオーディオオブジェクト信号とに基づいて、各アンビソニックチャネルのアンビソニック信号を求め、加算部103に供給する。
【0199】
すなわち、オブジェクト・アンビソニック信号変換部102では、メタデータに基づいてオーディオオブジェクト信号がアンビソニック形式のアンビソニック信号へと変換される。
【0200】
上述したように、オーディオオブジェクト信号のアンビソニック信号への変換時には、19個のスプレッド用オーディオオブジェクトを生成することなく、オーディオオブジェクト信号を、直接、アンビソニック信号へと変換することができる。これにより、図14に示したオブジェクトレンダリング部62においてレンダリング処理を行う場合と比較して、大幅に計算量を削減することができる。
【0201】
加算部103は、オブジェクト・アンビソニック信号変換部102から供給されたアンビソニック信号と、コアデコーダ101から供給されたアンビソニック信号とのミキシングを行う。すなわち、加算部103は、アンビソニックチャネルごとにオブジェクト・アンビソニック信号変換部102から供給されたアンビソニック信号と、コアデコーダ101から供給されたアンビソニック信号とを加算し、その結果得られたアンビソニック信号をアンビソニックレンダリング部104に供給する。
【0202】
アンビソニックレンダリング部104は、加算部103から供給されたアンビソニック信号と、出力スピーカの3次元空間位置およびアンビソニックチャネル数に基づいたデコーディングマトリクスとに基づいてアンビソニック出力信号を生成する。すなわち、アンビソニックレンダリング部104は、上述した式(10)と同様の計算を行って各オーディオチャネルのアンビソニック出力信号を生成し、ミキサ105に供給する。
【0203】
ミキサ105は、コアデコーダ101から供給されたチャネル信号と、アンビソニックレンダリング部104から供給されたアンビソニック出力信号とをミキシングし、その結果得られた出力オーディオ信号を後段に出力する。すなわち、オーディオチャネルごとにチャネル信号と、アンビソニック出力信号とが加算されて出力オーディオ信号とされる。
【0204】
このように本技術をデコーダに適用すれば、レンダリング時の計算量を大幅に低減させることができるようになる。
【0205】
〈本技術の適用例2〉
また、本技術はデコーダに限らず、プリレンダリング処理を行うエンコーダにも適用することが可能である。
【0206】
例えば、エンコーダから出力する出力ビットストリームのビットレートや、デコーダにおけるオーディオ信号の処理チャネル数を削減したいことがある。
【0207】
ここで、例えば入力チャネル信号、入力オーディオオブジェクト信号、および入力アンビソニック信号という互いに異なる形式の信号がエンコーダに入力されるとする。
【0208】
このとき、入力チャネル信号と入力オーディオオブジェクト信号に対して変換処理を行い、全ての信号をアンビソニック形式の信号にしてからコアエンコーダによりエンコード処理を行えば、扱われるチャネル数および出力ビットストリームのビットレートを削減することができる。これにより、デコーダ側における処理量も削減することができる。
【0209】
こうした処理は、一般的にプリレンダリング処理と呼ばれている。上述したようにオーディオオブジェクトのメタデータにスプレッド情報が含まれている場合、スプレッド角度に応じて19個のスプレッド用オーディオオブジェクトが生成される。そして、それらの19個のスプレッド用オーディオオブジェクトそれぞれについて、アンビソニック形式の信号への変換処理が行われるため、処理量が多くなってしまう。
【0210】
そこで、本技術を利用して入力オーディオオブジェクト信号をアンビソニック形式の信号へと変換することでエンコーダでの処理量、すなわち計算量を低減させることができる。
【0211】
このように全ての信号をアンビソニック形式の信号とする場合、本技術を適用したエンコーダは、例えば図16に示すように構成される。
【0212】
図16に示すエンコーダ131は、チャネル・アンビソニック信号変換部141、オブジェクト・アンビソニック信号変換部142、ミキサ143、およびコアエンコーダ144を有している。
【0213】
チャネル・アンビソニック信号変換部141は、供給された各オーディオチャネルの入力チャネル信号をアンビソニック出力信号へと変換し、ミキサ143に供給する。
【0214】
例えばチャネル・アンビソニック信号変換部141には、図6に示したアンビソニックゲイン計算部21乃至アンビソニックマトリクス適用部23と同様の構成が設けられている。チャネル・アンビソニック信号変換部141は、信号処理装置11における場合と同様の処理を行って入力チャネル信号をアンビソニック形式のアンビソニック出力信号に変換する。
【0215】
また、オブジェクト・アンビソニック信号変換部142は、図6に示したアンビソニックゲイン計算部21、アンビソニック回転部22、およびアンビソニックマトリクス適用部23を有する構成となっている。
【0216】
オブジェクト・アンビソニック信号変換部142は、供給されたオーディオオブジェクトのメタデータと、入力オーディオオブジェクト信号とに基づいて、各アンビソニックチャネルのアンビソニック出力信号を求め、ミキサ143に供給する。
【0217】
すなわち、オブジェクト・アンビソニック信号変換部142では、メタデータに基づいて、入力オーディオオブジェクト信号がアンビソニック形式のアンビソニック出力信号へと変換される。
【0218】
上述したように、入力オーディオオブジェクト信号のアンビソニック出力信号への変換時には、19個のスプレッド用オーディオオブジェクトを生成することなく、入力オーディオオブジェクト信号を、直接、アンビソニック出力信号へと変換することができる。これにより、大幅に計算量を削減することができる。
【0219】
ミキサ143は、供給された入力アンビソニック信号と、チャネル・アンビソニック信号変換部141から供給されたアンビソニック出力信号と、オブジェクト・アンビソニック信号変換部142から供給されたアンビソニック出力信号とをミキシングする。
【0220】
すなわち、ミキシングでは、それらの入力アンビソニック信号とアンビソニック出力信号の同じアンビソニックチャネルの信号が加算される。ミキサ143は、ミキシングにより得られたアンビソニック信号をコアエンコーダ144に供給する。
【0221】
コアエンコーダ144は、ミキサ143から供給されたアンビソニック信号をエンコードし、得られた出力ビットストリームを出力する。
【0222】
このようにエンコーダ131でプリレンダリング処理を行う場合においても、本技術を利用して入力チャネル信号や入力オーディオオブジェクト信号をアンビソニック形式の信号に変換することで、計算量を低減させることができる。
【0223】
以上のように、本技術によればオーディオオブジェクトのメタデータに含まれるスプレッド情報に応じてスプレッド用オーディオオブジェクトを生成することなく、直接、アンビソニックゲインを求めてアンビソニック信号への変換を行うことで計算量を大幅に削減することができる。特に、本技術は、オーディオオブジェクト信号とアンビソニック信号を含むビットストリームのデコードや、エンコーダでのプリレンダリング処理時に、オーディオオブジェクト信号をアンビソニック信号に変換する際に高い効果を発揮する。
【0224】
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0225】
図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0226】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0227】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0228】
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
【0229】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0230】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0231】
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0232】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0233】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0234】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0235】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0236】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0237】
さらに、本技術は、以下の構成とすることも可能である。
【0238】
(1)
オブジェクトのオブジェクト位置情報およびスプレッド情報に基づいて、前記オブジェクトが前記オブジェクト位置情報により示される位置にあるときのアンビソニックゲインを求めるアンビソニックゲイン計算部を備える
信号処理装置。
(2)
前記オブジェクトのオーディオオブジェクト信号と、前記アンビソニックゲインとに基づいて、前記オブジェクトのアンビソニック信号を生成するアンビソニック信号生成部をさらに備える
(1)に記載の信号処理装置。
(3)
前記アンビソニックゲイン計算部は、
前記スプレッド情報に基づいて、前記オブジェクトが基準となる位置にあるとしたときの基準位置アンビソニックゲインを求め、
前記オブジェクト位置情報に基づいて、前記基準位置アンビソニックゲインに対して回転処理を行って前記アンビソニックゲインを求める
(1)または(2)に記載の信号処理装置。
(4)
前記アンビソニックゲイン計算部は、前記スプレッド情報とゲインテーブルとに基づいて前記基準位置アンビソニックゲインを求める
(3)に記載の信号処理装置。
(5)
前記ゲインテーブルは、スプレッド角度と、前記基準位置アンビソニックゲインとが対応付けられたものである
(4)に記載の信号処理装置。
(6)
前記アンビソニックゲイン計算部は、前記ゲインテーブルにおける複数の前記スプレッド角度のそれぞれに対応付けられた前記基準位置アンビソニックゲインのそれぞれに基づいて補間処理を行うことにより、前記スプレッド情報により示されるスプレッド角度に対応する前記基準位置アンビソニックゲインを求める
(5)に記載の信号処理装置。
(7)
前記基準位置アンビソニックゲインは、前記スプレッド情報により示されるスプレッド角度に対して定まる空間上の複数の位置のそれぞれを示す角度のそれぞれを球面調和関数に代入して得られた値のそれぞれの和である
(3)乃至(6)の何れか一項に記載の信号処理装置。
(8)
オブジェクトのオブジェクト位置情報およびスプレッド情報に基づいて、前記オブジェクトが前記オブジェクト位置情報により示される位置にあるときのアンビソニックゲインを求める
ステップを含む信号処理方法。
(9)
オブジェクトのオブジェクト位置情報およびスプレッド情報に基づいて、前記オブジェクトが前記オブジェクト位置情報により示される位置にあるときのアンビソニックゲインを求める
ステップを含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0239】
11 信号処理装置, 21 アンビソニックゲイン計算部, 22 アンビソニック回転部, 23 アンビソニックマトリクス適用部, 25 アンビソニックレンダリング部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17