IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2022-188258信号処理装置および方法、並びにプログラム
<>
  • 特開-信号処理装置および方法、並びにプログラム 図1
  • 特開-信号処理装置および方法、並びにプログラム 図2
  • 特開-信号処理装置および方法、並びにプログラム 図3
  • 特開-信号処理装置および方法、並びにプログラム 図4
  • 特開-信号処理装置および方法、並びにプログラム 図5
  • 特開-信号処理装置および方法、並びにプログラム 図6
  • 特開-信号処理装置および方法、並びにプログラム 図7
  • 特開-信号処理装置および方法、並びにプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022188258
(43)【公開日】2022-12-20
(54)【発明の名称】信号処理装置および方法、並びにプログラム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20221213BHJP
   G10L 19/00 20130101ALI20221213BHJP
【FI】
G10L19/008 200
G10L19/008 100
G10L19/00 330B
【審査請求】有
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022164511
(22)【出願日】2022-10-13
(62)【分割の表示】P 2019514367の分割
【原出願日】2018-04-12
(31)【優先権主張番号】P 2017087208
(32)【優先日】2017-04-26
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】山本 優樹
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】辻 実
(57)【要約】      (修正有)
【課題】低コストで復号の計算量を低減させる信号処理装置および方法並びにプログラムを提供する。
【解決手段】符号化装置および復号装置に適用する信号処理装置であって、外部から供給された各オブジェクトのオーディオ信号を符号化する符号化部と、外部から供給された各オブジェクトのオーディオ信号、メタデータ入力部から供給されたメタデータおよびメタデータ入力部から供給されたコンテンツ情報の少なくとも何れかに基づいて、オーディオオブジェクトの優先度情報を生成する優先度情報生成部と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える
信号処理装置。
【請求項2】
前記要素は前記オーディオオブジェクトのメタデータである
請求項1に記載の信号処理装置。
【請求項3】
前記要素は空間上における前記オーディオオブジェクトの位置である
請求項1に記載の信号処理装置。
【請求項4】
前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
請求項3に記載の信号処理装置。
【請求項5】
前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
請求項3に記載の信号処理装置。
【請求項6】
前記優先度情報生成部は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じた前記優先度情報を生成する
請求項2に記載の信号処理装置。
【請求項7】
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報である
請求項1に記載の信号処理装置。
【請求項8】
前記優先度情報生成部は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて、前記処理対象の単位時間の前記優先度情報を生成する
請求項7に記載の信号処理装置。
【請求項9】
前記優先度情報生成部は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて前記優先度情報を生成する
請求項7に記載の信号処理装置。
【請求項10】
前記要素はスプレッド情報である
請求項1に記載の信号処理装置。
【請求項11】
前記優先度情報生成部は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じた前記優先度情報を生成する
請求項10に記載の信号処理装置。
【請求項12】
前記要素は前記オーディオオブジェクトの音の属性を示す情報である
請求項1に記載の信号処理装置。
【請求項13】
前記要素は前記オーディオオブジェクトのオーディオ信号である
請求項1に記載の信号処理装置。
【請求項14】
前記優先度情報生成部は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて前記優先度情報を生成する
請求項13に記載の信号処理装置。
【請求項15】
前記優先度情報生成部は、生成した前記優先度情報に対して時間方向の平滑化を行い、最終的な前記優先度情報とする
請求項1に記載の信号処理装置。
【請求項16】
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
ステップを含む信号処理方法。
【請求項17】
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、信号処理装置および方法、並びにプログラムに関し、特に、低コストで復号の計算量を低減させることができるようにした信号処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
【0003】
このような符号化方式では、各オーディオオブジェクトの優先度を示す優先度情報を復号装置側に伝送することで、復号時の計算量の低減が実現されている。
【0004】
例えば、オーディオオブジェクト数が多い場合には、優先度情報に基づいて優先度の高いオーディオオブジェクトのみ復号を行うようにすれば、少ない計算量でも十分な品質でコンテンツを再生することが可能である。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、優先度情報を時間ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。例えば、映画コンテンツでは多くのオーディオオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。
【0007】
また、優先度情報が付与されていないコンテンツも数多く存在する。例えば、上述したMPEG-H Part 3:3D audio規格では、優先度情報を符号化データに含めるか否かをヘッダ部のフラグにより切り替えることができる。すなわち、優先度情報が付与されていない符号化データの存在も許容されている。さらに、そもそも優先度情報が符号化データに含まれないオブジェクトオーディオの符号化方式も存在する。
【0008】
このような背景から、優先度情報が付与されていない符号化データが数多く存在し、その結果、それらの符号化データについては復号の計算量を低減させることができなかった。
【0009】
本技術は、このような状況に鑑みてなされたものであり、低コストで復号の計算量を低減させることができるようにするものである。
【課題を解決するための手段】
【0010】
本技術の一側面の信号処理装置は、オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える。
【0011】
本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成するステップを含む。
【0012】
本技術の一側面においては、オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報が生成される。
【発明の効果】
【0013】
本技術の一側面によれば、低コストで復号の計算量を低減させることができる。
【0014】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
【図面の簡単な説明】
【0015】
図1】符号化装置の構成例を示す図である。
図2】オブジェクトオーディオ符号化部の構成例を示す図である。
図3】符号化処理を説明するフローチャートである。
図4】復号装置の構成例を示す図である。
図5】アンパッキング/復号部の構成例を示す図である。
図6】復号処理を説明するフローチャートである。
図7】選択復号処理を説明するフローチャートである。
図8】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0017】
〈第1の実施の形態〉
〈符号化装置の構成例〉
本技術は、オーディオオブジェクトのメタデータや、コンテンツ情報、オーディオオブジェクトのオーディオ信号などのオーディオオブジェクトの特徴を表す要素に基づいて、オーディオオブジェクトの優先度情報を生成することで、低コストで復号の計算量を低減させることができるようにするものである。
【0018】
以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。また、以下ではオーディオオブジェクトを単にオブジェクトとも称することとする。
【0019】
例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。
【0020】
すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。
【0021】
具体的には、例えば1フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。
【0022】
そして、先頭に配置されたエレメントは、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。
【0023】
また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE(Single Channel Element)と呼ばれており、ペアとなる2つのチャネルのオーディオ信号が格納されているエレメントはCPE(Coupling Channel Element)と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。
【0024】
本技術では、各オブジェクトのオーディオ信号の優先度情報が生成されてDSEに格納される。
【0025】
ここでは、優先度情報はオブジェクトの優先度を示す情報であり、特に優先度情報により示される優先度の値、つまり優先度合いを示す数値が大きいほど、オブジェクトの優先度は高く、重要なオブジェクトであることを示している。
【0026】
本技術を適用した符号化装置では、オブジェクトのメタデータ等に基づいて、各オブジェクトの優先度情報が生成される。これにより、コンテンツに対して優先度情報が付与されていない場合であっても、復号の計算量を低減させることができる。換言すれば、人手による優先度情報の付与を行うことなく、低コストで復号の計算量を低減させることができる。
【0027】
次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。
【0028】
図1は、本技術を適用した符号化装置の構成例を示す図である。
【0029】
図1に示す符号化装置11は、チャネルオーディオ符号化部21、オブジェクトオーディオ符号化部22、メタデータ入力部23、およびパッキング部24を有している。
【0030】
チャネルオーディオ符号化部21には、チャネル数がMであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図1では、文字「#0」乃至「#M-1」は、各チャネルのチャネル番号を表している。
【0031】
チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部24に供給する。
【0032】
オブジェクトオーディオ符号化部22には、N個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図1では、文字「#0」乃至「#N-1」は、各オブジェクトのオブジェクト番号を表している。
【0033】
オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化する。また、オブジェクトオーディオ符号化部22は、供給されたオーディオ信号、メタデータ入力部23から供給されたメタデータやコンテンツ情報等に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部24に供給する。
【0034】
メタデータ入力部23は、各オブジェクトのメタデータやコンテンツ情報をオブジェクトオーディオ符号化部22およびパッキング部24に供給する。
【0035】
例えばオブジェクトのメタデータには、空間上におけるオブジェクトの位置を示すオブジェクト位置情報、オブジェクトの音像の大きさの範囲を示すスプレッド情報、オブジェクトのオーディオ信号のゲインを示すゲイン情報などが含まれている。また、コンテンツ情報は、コンテンツにおける各オブジェクトの音の属性に関する情報が含まれている。
【0036】
パッキング部24は、チャネルオーディオ符号化部21から供給された符号化データ、オブジェクトオーディオ符号化部22から供給された符号化データと優先度情報、およびメタデータ入力部23から供給されたメタデータとコンテンツ情報をパッキングしてビットストリームを生成し、出力する。
【0037】
このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、各オブジェクトの優先度情報、および各オブジェクトのメタデータとコンテンツ情報が含まれている。
【0038】
ここで、1フレーム分のビットストリームに格納されるM個の各チャネルのオーディオ信号、およびN個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。
【0039】
なお、ここでは、各オブジェクトのオーディオ信号の優先度情報として、1フレームごとに各オーディオ信号に対して優先度情報が生成される例について説明するが、任意の所定の時間を単位として、例えば数フレーム分のオーディオ信号に対して1つの優先度情報が生成されるようにしてもよい。
【0040】
〈オブジェクトオーディオ符号化部の構成例〉
また、図1のオブジェクトオーディオ符号化部22は、より詳細には例えば図2に示すように構成される。
【0041】
図2に示すオブジェクトオーディオ符号化部22は、符号化部51および優先度情報生成部52を備えている。
【0042】
符号化部51はMDCT(Modified Discrete Cosine Transform)部61を備えており、符号化部51は外部から供給された各オブジェクトのオーディオ信号を符号化する。
【0043】
すなわち、MDCT部61は、外部から供給された各オブジェクトのオーディオ信号に対してMDCT(修正離散コサイン変換)を行う。符号化部51は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データ、つまり符号化されたオーディオ信号をパッキング部24に供給する。
【0044】
また、優先度情報生成部52は、外部から供給された各オブジェクトのオーディオ信号、メタデータ入力部23から供給されたメタデータ、およびメタデータ入力部23から供給されたコンテンツ情報の少なくとも何れかに基づいて各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。
【0045】
換言すれば、優先度情報生成部52は、オーディオ信号やメタデータ、コンテンツ情報など、オブジェクトの特徴を表す1または複数の要素に基づいて、そのオブジェクトの優先度情報を生成する。例えばオーディオ信号はオブジェクトの音に関する特徴を表す要素であり、メタデータはオブジェクトの位置や音像の広がり度合い、ゲインなどといった特徴を表す要素であり、コンテンツ情報はオブジェクトの音の属性に関する特徴を表す要素である。
【0046】
〈優先度情報の生成について〉
ここで、優先度情報生成部52において生成されるオブジェクトの優先度情報について説明する。
【0047】
例えば、オブジェクトのオーディオ信号の音圧のみに基づいて優先度情報を生成することも考えられる。
【0048】
しかし、オブジェクトのメタデータにはゲイン情報が格納されており、このゲイン情報が乗算されたオーディオ信号が最終的なオブジェクトのオーディオ信号として用いられることになるので、ゲイン情報の乗算の前後でオーディオ信号の音圧は変化してしまう。
【0049】
したがって、オーディオ信号の音圧のみに基づいて優先度情報を生成しても、必ずしも適切な優先度情報が得られるとはいえない。そこで、優先度情報生成部52では、少なくともオーディオ信号の音圧以外の情報が用いられて優先度情報が生成される。これにより、適切な優先度情報を得ることができる。
【0050】
具体的には、以下の(1)乃至(4)に示す方法の少なくとも何れかにより優先度情報が生成される。
【0051】
(1)オブジェクトのメタデータに基づいて優先度情報を生成する
(2)メタデータ以外の他の情報に基づいて優先度情報を生成する
(3)複数の方法により得られた優先度情報を組み合わせて1つの優先度情報を生成する(4)優先度情報を時間方向に平滑化して最終的な1つの優先度情報を生成する
【0052】
まず、オブジェクトのメタデータに基づく優先度情報の生成について説明する。
【0053】
上述したように、オブジェクトのメタデータにはオブジェクト位置情報、スプレッド情報、およびゲイン情報が含まれている。そこで、これらのオブジェクト位置情報や、スプレッド情報、ゲイン情報を利用して優先度情報を生成することが考えられる。
【0054】
(1-1)オブジェクト位置情報に基づく優先度情報の生成について
まず、オブジェクト位置情報に基づいて優先度情報を生成する例について説明する。
【0055】
オブジェクト位置情報は、3次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置(原点)から見たオブジェクトの位置を示す水平方向角度a、垂直方向角度e、および半径rからなる座標情報とされる。
【0056】
水平方向角度aは、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度(方位角)、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
【0057】
ここでは、水平方向角度aが0度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度aが90度や-90度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度aが180度または-180度であるときには、オブジェクトはユーザの真後ろに位置していることになる。
【0058】
同様に垂直方向角度eは、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度(仰角)、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
【0059】
また、半径rは基準位置からオブジェクトの位置までの距離である。
【0060】
例えばユーザの位置である原点(基準位置)からの距離が短いオブジェクト、つまり半径rが小さく、原点から近い位置にあるオブジェクトは、原点から遠い位置にあるオブジェクトよりも重要であると考えられる。そこで、半径rが小さいほど優先度情報により示される優先度が高くなるようにすることができる。
【0061】
この場合、例えば優先度情報生成部52は、オブジェクトの半径rに基づいて次式(1)を計算することで、そのオブジェクトの優先度情報を生成する。なお、以下では優先度情報をpriorityとも記すこととする。
【0062】
【数1】
【0063】
式(1)に示す例では、半径rが小さいほど優先度情報priorityの値が大きくなり、優先度が高くなる。
【0064】
また、人間の聴覚は後方よりも前方に対する感度が高いことが知られている。そのため、ユーザの後方にあるオブジェクトについては、優先度を低くして本来行うものとは異なる復号処理を行ってもユーザの聴覚に与える影響は小さいと考えられる。
【0065】
そこで、ユーザの後方にあるオブジェクトほど、つまりユーザの真後ろに近い位置にあるオブジェクトほど優先度情報により示される優先度が低くなるようにすることができる。この場合、例えば優先度情報生成部52は、オブジェクトの水平方向角度aに基づいて次式(2)を計算することで、そのオブジェクトの優先度情報を生成する。但し、水平方向角度aが1度未満である場合には、オブジェクトの優先度情報priorityの値は1とされる。
【0066】
【数2】
【0067】
なお、式(2)においてabs(a)は水平方向角度aの絶対値を示している。したがって、この例では水平方向角度aが小さく、オブジェクトの位置がユーザから見て真正面の方向の位置に近いほど優先度情報priorityの値が大きくなる。
【0068】
さらに、オブジェクト位置情報の時間変化が大きいオブジェクト、すなわち速い速度で移動するオブジェクトは、コンテンツ内で重要なオブジェクトである可能性が高いと考えられる。そこで、オブジェクト位置情報の時間変化量が大きいほど、つまりオブジェクトの移動速度が速いほど優先度情報により示される優先度が高くなるようにすることができる。
【0069】
この場合、例えば優先度情報生成部52は、オブジェクトのオブジェクト位置情報に含まれる水平方向角度a、垂直方向角度e、および半径rに基づいて次式(3)を計算することで、そのオブジェクトの移動速度に応じた優先度情報を生成する。
【0070】
【数3】
【0071】
なお、式(3)においてa(i)、e(i)、およびr(i)は、それぞれ処理対象となる現フレームにおける、オブジェクトの水平方向角度a、垂直方向角度e、および半径rを示している。また、a(i-1)、e(i-1)、およびr(i-1)は、それぞれ処理対象となる現フレームの時間的に1つ前のフレームにおける、オブジェクトの水平方向角度a、垂直方向角度e、および半径rを示している。
【0072】
したがって、例えば(a(i)-a(i-1))は、オブジェクトの水平方向の速度を示しており、式(3)の右辺はオブジェクト全体の速度に対応する。すなわち、式(3)により示される優先度情報priorityの値は、オブジェクトの速度が速いほど大きくなる。
【0073】
(1-2)ゲイン情報に基づく優先度情報の生成について
次に、ゲイン情報に基づいて優先度情報を生成する例について説明する。
【0074】
例えばオブジェクトのメタデータには、復号時にオブジェクトのオーディオ信号に対して乗算される係数値がゲイン情報として含まれている。
【0075】
ゲイン情報の値、すなわちゲイン情報としての係数値が大きいほど、係数値乗算後の最終的なオブジェクトのオーディオ信号の音圧が大きくなり、これによりオブジェクトの音が人間に知覚され易くなると考えられる。また、大きなゲイン情報を付与して音圧を大きくするオブジェクトは、コンテンツ内で重要なオブジェクトであると考えられる。
【0076】
そこで、ゲイン情報の値が大きいほど、オブジェクトの優先度情報により示される優先度が高くなるようにすることができる。
【0077】
そのような場合、例えば優先度情報生成部52は、オブジェクトのゲイン情報、すなわちゲイン情報により示されるゲインである係数値gに基づいて次式(4)を計算することで、そのオブジェクトの優先度情報を生成する。
【0078】
【数4】
【0079】
式(4)に示す例では、ゲイン情報である係数値gそのものが優先度情報priorityとされている。
【0080】
また、1つのオブジェクトの複数のフレームのゲイン情報(係数値g)の時間平均値を時間平均値gaveと記すこととする。例えば時間平均値gaveは、処理対象のフレームよりも過去の連続する複数のフレームのゲイン情報の時間平均値などとされる。
【0081】
例えばゲイン情報と時間平均値gaveとの差分が大きいフレーム、より詳細には係数値gが時間平均値gaveよりも大幅に大きいフレームでは、係数値gと時間平均値gaveとの差分が小さいフレームと比較してオブジェクトの重要性は高いと考えられる。換言すれば、急激に係数値gが大きくなったフレームでは、オブジェクトの重要性は高いと考えられる。
【0082】
そこで、ゲイン情報と時間平均値gaveとの差分が大きいフレームほど、オブジェクトの優先度情報により示される優先度が高くなるようにすることができる。
【0083】
そのような場合、例えば優先度情報生成部52は、オブジェクトのゲイン情報、すなわち係数値gと、時間平均値gaveとに基づいて次式(5)を計算することで、そのオブジェクトの優先度情報を生成する。換言すれば、現フレームの係数値gと、時間平均値gaveとの差分に基づいて優先度情報が生成される。
【0084】
【数5】
【0085】
式(5)においてg(i)は現フレームの係数値gを示している。したがって、この例では、現フレームの係数値g(i)が時間平均値gaveよりも大きいほど、優先度情報priorityの値は大きくなる。すなわち、式(5)に示す例では、ゲイン情報が急激に大きくなったフレームではオブジェクトの重要度が高いとされ、優先度情報により示される優先度も高くなる。
【0086】
なお、時間平均値gaveは、オブジェクトの過去の複数のフレームのゲイン情報(係数値g)に基づく指数平均値や、コンテンツ全体にわたるオブジェクトのゲイン情報の平均値でもよい。
【0087】
(1-3)スプレッド情報に基づく優先度情報の生成について
続いて、スプレッド情報に基づいて優先度情報を生成する例について説明する。
【0088】
スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示す角度情報である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。以下、スプレッド情報により示される、オブジェクトの音像の大きさの範囲を示す角度をスプレッド角度と称することとする。
【0089】
スプレッド角度が大きいオブジェクトは、画面内において大きく映っているオブジェクトである。したがって、スプレッド角度が大きいオブジェクトは、スプレッド角度が小さいオブジェクトに比べてコンテンツ内で重要なオブジェクトである可能性が高いと考えられる。そこで、スプレッド情報により示されるスプレッド角度が大きいオブジェクトほど優先度情報により示される優先度が高くなるようにすることができる。
【0090】
そのような場合、例えば優先度情報生成部52は、オブジェクトのスプレッド情報に基づいて次式(6)を計算することで、そのオブジェクトの優先度情報を生成する。
【0091】
【数6】
【0092】
なお、式(6)においてsはスプレッド情報により示されるスプレッド角度を示している。この例ではオブジェクトの領域の面積、つまり音像の範囲の広さを優先度情報priorityの値に反映させるため、スプレッド角度sの二乗値が優先度情報priorityの値とされている。したがって、式(6)の計算により、オブジェクトの領域の面積、つまりオブジェクトの音の音像の領域の面積に応じた優先度情報が生成されることになる。
【0093】
また、スプレッド情報として互いに異なる方向、つまり互いに垂直な水平方向と垂直方向のスプレッド角度が与えられることがある。
【0094】
例えばスプレッド情報として、水平方向のスプレッド角度swidthと垂直方向のスプレッド角度sheightとが含まれているとする。この場合、スプレッド情報によって水平方向と垂直方向とで大きさが異なる、つまり広がり具合が異なるオブジェクトを表現することができる。
【0095】
このようにスプレッド情報としてスプレッド角度swidthおよびスプレッド角度sheightが含まれる場合には、優先度情報生成部52は、オブジェクトのスプレッド情報に基づいて次式(7)を計算することで、そのオブジェクトの優先度情報を生成する。
【0096】
【数7】
【0097】
式(7)では、スプレッド角度swidthおよびスプレッド角度sheightの積が優先度情報priorityとされている。式(7)により優先度情報を生成することで、式(6)における場合と同様に、スプレッド角度が大きいオブジェクトほど、すなわちオブジェクトの領域が大きいほど、優先度情報により示される優先度が高くなるようにすることができる。
【0098】
さらに、以上においては、オブジェクト位置情報、スプレッド情報、およびゲイン情報というオブジェクトのメタデータに基づいて優先度情報を生成する例について説明した。しかし、メタデータ以外の他の情報に基づいて優先度情報を生成することも可能である。
【0099】
(2-1)コンテンツ情報に基づく優先度情報の生成について
まず、メタデータ以外の情報に基づく優先度情報の生成例として、コンテンツ情報を用いて優先度情報を生成する例について説明する。
【0100】
例えば、いくつかのオブジェクトオーディオの符号化方式では、各オブジェクトに関する情報としてコンテンツ情報が含まれているものがある。例えばコンテンツ情報によりオブジェクトの音の属性が特定される。すなわち、コンテンツ情報にはオブジェクトの音の属性を示す情報が含まれている。
【0101】
具体的には、例えばコンテンツ情報によりオブジェクトの音が言語に依存しているか否か、オブジェクトの音の言語の種類、オブジェクトの音が音声であるか否か、およびオブジェクトの音が環境音であるか否かを特定することができる。
【0102】
例えばオブジェクトの音が音声である場合、そのオブジェクトは他の環境音などのオブジェクトと比べて、より重要であると考えられる。これは、映画やニュース等のコンテンツにおいては、音声による情報量は他の音による情報量と比べて大きく、また、人間の聴覚は音声に対してより敏感であるからである。
【0103】
そこで、音声であるオブジェクトの優先度が、他の属性のオブジェクトの優先度よりも高くなるようにすることができる。
【0104】
この場合、例えば優先度情報生成部52は、オブジェクトのコンテンツ情報に基づいて次式(8)の演算により、そのオブジェクトの優先度情報を生成する。
【0105】
【数8】
【0106】
なお、式(8)においてobject_classは、コンテンツ情報により示されるオブジェクトの音の属性を示している。式(8)では、コンテンツ情報により示されるオブジェクトの音の属性が音声(speech)である場合、優先度情報の値は10とされ、コンテンツ情報により示されるオブジェクトの音の属性が音声ではない場合、すなわち例えば環境音などである場合には優先度情報の値は1とされる。
【0107】
(2-2)オーディオ信号に基づく優先度情報の生成について
また、各オブジェクトが音声であるか否かはVAD(Voice Activity Detection)技術を用いることで識別することができる。
【0108】
そこで、例えばオブジェクトのオーディオ信号に対してVAD、すなわち音声区間検出処理を行い、その検出結果(処理結果)に基づいてオブジェクトの優先度情報を生成するようにしてもよい。
【0109】
この場合においてもコンテンツ情報を利用する場合と同様に、音声区間検出処理の結果として、オブジェクトの音が音声である旨の検出結果が得られたときに、他の検出結果が得られたときよりも、優先度情報により示される優先度がより高くなるようにされる。
【0110】
具体的には、例えば優先度情報生成部52は、オブジェクトのオーディオ信号に対して音声区間検出処理を行い、その検出結果に基づいて次式(9)の演算によりオブジェクトの優先度情報を生成する。
【0111】
【数9】
【0112】
なお、式(9)においてobject_class_vadは、音声区間検出処理の結果として得られたオブジェクトの音の属性を示している。式(9)では、オブジェクトの音の属性が音声であるとき、すなわち音声区間検出処理により検出結果としてオブジェクトの音が音声(speech)である旨の検出結果が得られたとき、優先度情報の値は10とされる。また、式(9)では、オブジェクトの音の属性が音声でないとき、すなわち音声区間検出処理による検出結果としてオブジェクトの音が音声である旨の検出結果が得られなかったとき、優先度情報の値は1とされる。
【0113】
また、音声区間検出処理の結果として音声区間らしさの値が得られるときには、その音声区間らしさの値に基づいて優先度情報が生成されてもよい。そのような場合、オブジェクトの現フレームが音声区間らしいほど優先度が高くなるようにされる。
【0114】
(2-3)オーディオ信号とゲイン情報に基づく優先度情報の生成について
さらに、例えば上述したように、オブジェクトのオーディオ信号の音圧のみに基づいて優先度情報を生成することも考えられる。しかし、復号側では、オブジェクトのメタデータに含まれるゲイン情報がオーディオ信号に乗算されるため、ゲイン情報の乗算前後ではオーディオ信号の音圧が変化する。
【0115】
そのため、ゲイン情報乗算前のオーディオ信号の音圧に基づいて優先度情報を生成しても、適切な優先度情報が得られないことがある。そこで、オブジェクトのオーディオ信号にゲイン情報を乗算して得られた信号の音圧に基づいて、優先度情報を生成するようにしてもよい。すなわち、ゲイン情報とオーディオ信号に基づいて優先度情報を生成してもよい。
【0116】
この場合、例えば優先度情報生成部52は、オブジェクトのオーディオ信号に対してゲイン情報を乗算し、ゲイン情報乗算後のオーディオ信号の音圧を求める。そして、優先度情報生成部52は、得られた音圧に基づいて優先度情報を生成する。このとき、例えば音圧が大きいほど、優先度が高くなるように優先度情報が生成される。
【0117】
以上においては、オブジェクトのメタデータやコンテンツ情報、オーディオ信号など、オブジェクトの特徴を表す要素に基づいて優先度情報を生成する例について説明した。しかし、上述した例に限らず、例えば式(1)等の計算により得られた値など、算出した優先度情報に対して、さらに所定の係数を乗算したり、所定の定数を加算したりしたものを最終的な優先度情報としてもよい。
【0118】
(3-1)オブジェクト位置情報とスプレッド情報に基づく優先度情報の生成について
また、互いに異なる複数の方法により求めた優先度情報のそれぞれを線形結合や非線形結合などにより結合(合成)し、最終的な1つの優先度情報とするようにしてもよい。換言すれば、オブジェクトの特徴を表す複数の要素に基づいて優先度情報を生成してもよい。
【0119】
複数の優先度情報を結合することで、すなわち複数の優先度情報を組み合わせることで、より適切な優先度情報を得ることができる。
【0120】
ここでは、まずオブジェクト位置情報に基づいて算出した優先度情報と、スプレッド情報に基づいて算出した優先度情報を線形結合して最終的な1つの優先度情報とする例について説明する。
【0121】
例えばオブジェクトがユーザに知覚されにくいユーザ後方にある場合でも、オブジェクトの音像の大きさが大きいときには、そのオブジェクトは重要なオブジェクトであると考えられる。それとは逆に、オブジェクトがユーザの前方にある場合でも、オブジェクトの音像の大きさが小さいときには、そのオブジェクトは重要なオブジェクトではないと考えられる。
【0122】
そこで、例えばオブジェクト位置情報に基づいて求められた優先度情報と、スプレッド情報に基づいて求められた優先度情報との線形和により、最終的な優先度情報を求めるようにしてもよい。
【0123】
この場合、優先度情報生成部52は、例えば次式(10)を計算することで複数の優先度情報を線形結合し、オブジェクトについて最終的な1つの優先度情報を生成する。
【0124】
【数10】
【0125】
なお、式(10)において、priority(position)はオブジェクト位置情報に基づいて求められた優先度情報を示しており、priority(spread)はスプレッド情報に基づいて求められた優先度情報を示している。
【0126】
具体的には、priority(position)は、例えば式(1)や式(2)、式(3)などにより求められた優先度情報を示している。priority(spread)は、例えば式(6)や式(7)により求められた優先度情報を示している。
【0127】
また、式(10)においてAおよびBは線形和の係数を示している。換言すればAおよびBは、優先度情報を生成するのに用いられる重み係数を示しているということができる。
【0128】
例えば、これらのAおよびBという重み係数の設定方法として、以下の2つの設定方法が考えられる。
【0129】
すなわち、1つ目の設定方法として、線形結合される優先度情報の生成式による値域に応じて等しい重みに設定する方法(以下、設定方法1とも称する)が考えられる。また、2つ目の設定方法として、ケースに報じて重み係数を変化させる方法(以下、設定方法2とも称する)が考えられる。
【0130】
ここでは、設定方法1により重み係数Aおよび重み係数Bを設定する例について具体的に説明する。
【0131】
例えば、上述した式(2)により求まる優先度情報がpriority(position)とされ、上述した式(6)により求まる優先度情報がpriority(spread)とされるとする。
【0132】
この場合、優先度情報priority(position)の値域は1/πから1となり、優先度情報priority(spread)の値域は0からπ2となる。
【0133】
そのため、式(10)では優先度情報priority(spread)の値が支配的になってしまい、最終的に得られる優先度情報priorityの値は、優先度情報priority(position)の値に殆ど依存しないものとなってしまう。
【0134】
そこで、優先度情報priority(position)と優先度情報priority(spread)の両方の値域を考慮して、例えば重み係数Aと重み係数Bの比率をπ:1とすれば、より等しい重みで最終的な優先度情報priorityを生成することができる。
【0135】
この場合、重み係数Aはπ/(π+1)となり、重み係数Bは1/(π+1)となる。
【0136】
(3-2)コンテンツ情報とその他の情報に基づく優先度情報の生成について
さらに、互いに異なる複数の方法により求めた優先度情報のそれぞれを非線形結合して、最終的な1つの優先度情報とする例について説明する。
【0137】
ここでは、例えばコンテンツ情報に基づいて算出した優先度情報と、コンテンツ情報以外の情報に基づいて算出した優先度情報とを非線形結合して最終的な1つの優先度情報とする例について説明する。
【0138】
例えばコンテンツ情報を参照すれば、オブジェクトの音が音声であるか否かを特定することができる。オブジェクトの音が音声である場合、優先度情報の生成に用いるコンテンツ情報以外の他の情報がどのような情報であっても、最終的に得られる優先度情報の値は大きいことが望ましい。これは、一般的に音声のオブジェクトは他のオブジェクトよりも情報量が多く、より重要なオブジェクトであると考えられるからである。
【0139】
そこで、コンテンツ情報に基づいて算出した優先度情報と、コンテンツ情報以外の情報に基づいて算出した優先度情報とを結合して最終的な優先度情報とする場合、例えば優先度情報生成部52は、上述した設定方法2により定まる重み係数を用いて次式(11)を計算し、最終的な1つの優先度情報を生成する。
【0140】
【数11】
【0141】
なお、式(11)において、priority(object_class)はコンテンツ情報に基づいて求められた優先度情報、例えば上述した式(8)により求められた優先度情報を示している。また、priority(others)はコンテンツ情報以外の情報、例えばオブジェクト位置情報やゲイン情報、スプレッド情報、オブジェクトのオーディオ信号等に基づいて求められた優先度情報を示している。
【0142】
さらに、式(11)においてAおよびBは非線形和のべき乗の値であるが、これらのAおよびBは、優先度情報を生成するのに用いられる重み係数を示しているということができる。
【0143】
例えば設定方法2により、重み係数A=2.0および重み係数B=1.0などとすれば、オブジェクトの音が音声である場合には、最終的な優先度情報priorityの値は十分大きくなり、音声でないオブジェクトよりも優先度情報が小さくなることはない。一方で、音声である2つのオブジェクトの優先度情報の大小関係は、式(11)の第二項であるpriority(others)Bの値により定まることになる。
【0144】
以上のように、互いに異なる複数の方法により求めた、複数の優先度情報を線形結合または非線形結合により結合することで、より適切な優先度情報を得ることができる。なお、これに限らず、複数の優先度情報の条件式により最終的な1つの優先度情報を生成するようにしてもよい。
【0145】
(4)優先度情報の時間方向の平滑化
また、以上においては、オブジェクトのメタデータやコンテンツ情報などから優先度情報を生成したり、複数の優先度情報を結合して最終的な1つの優先度情報を生成する例について説明した。しかし、短い期間の間に複数のオブジェクトの優先度情報の大小関係が何度も変化することは望ましくない。
【0146】
例えば復号側において、優先度情報に基づいて各オブジェクトについての復号処理の有無を切り替える場合には、複数のオブジェクトの優先度情報の大小関係の変化によって短い時間ごとにオブジェクトの音が聞こえたり聞こえなくなったりすることになる。このようなことが生じると、聴感上の劣化が生じてしまう。
【0147】
このような優先度情報の大小関係の変化(切り替わり)はオブジェクトの数が多くなるほど、また、優先度情報の生成手法がより複雑になればなるほど生じる可能性が高くなる。
【0148】
そこで、優先度情報生成部52において、例えば次式(12)に示す計算を行って指数平均により優先度情報を時間方向に平滑化すれば、短い時間でオブジェクトの優先度情報の大小関係が切り替わることを抑制することができる。
【0149】
【数12】
【0150】
なお、式(12)においてiは現フレームを示すインデックスを示しており、i-1は現フレームの時間的に1つ前のフレームを示すインデックスを示している。
【0151】
priority(i)は現フレームについて得られた平滑化前の優先度情報を示しており、priority(i)は、例えば上述した式(1)乃至式(11)のうちの何れかの式などにより求められた優先度情報である。
【0152】
また、priority_smooth(i)は現フレームの平滑化後の優先度情報、すなわち最終的な優先度情報を示しており、priority_smooth(i-1)は現フレームの1つ前のフレームの平滑化後の優先度情報を示している。さらに式(12)においてαは指数平均の平滑化係数を示しており、平滑化係数αは0から1の間の値とされる。
【0153】
平滑化係数αが乗算された優先度情報priority(i)から、(1-α)が乗算された優先度情報priority_smooth(i-1)を減算して得られる値を、最終的な優先度情報priority_smooth(i)とすることで優先度情報の平滑化が行われている。
【0154】
すなわち、生成された現フレームの優先度情報priority(i)に対して時間方向の平滑化を行うことで、現フレームの最終的な優先度情報priority_smooth(i)が生成される。
【0155】
この例では、平滑化係数αの値を小さくすればするほど、現フレームの平滑化前の優先度情報priority(i)の値の重みが小さくなり、その結果、より平滑化が行われて優先度情報の大小関係の切り替わりが抑制されるようになる。
【0156】
なお、優先度情報の平滑化の例として、指数平均による平滑化について説明したが、これに限らず、単純移動平均や加重移動平均、低域通過フィルタを利用した平滑化など、他のどのような平滑化手法により優先度情報を平滑化してもよい。
【0157】
以上において説明した本技術によれば、メタデータ等に基づいてオブジェクトの優先度情報を生成するので、人手によるオブジェクトの優先度情報の付与コストを削減することができる。また、オブジェクトの優先度情報が全ての時間(フレーム)について適切に付与されていない符号化データであっても、適切に優先度情報を付与することができ、その結果、復号の計算量を低減させることができる。
【0158】
〈符号化処理の説明〉
次に、符号化装置11により行われる処理について説明する。
【0159】
符号化装置11は、同時に再生される、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が1フレーム分だけ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。
【0160】
以下、図3のフローチャートを参照して、符号化装置11による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。
【0161】
ステップS11において、オブジェクトオーディオ符号化部22の優先度情報生成部52は、供給された各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。
【0162】
例えばメタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、各オブジェクトのメタデータおよびコンテンツ情報を取得し、優先度情報生成部52およびパッキング部24に供給する。
【0163】
優先度情報生成部52は、オブジェクトごとに、供給されたオーディオ信号、メタデータ入力部23から供給されたメタデータ、およびメタデータ入力部23から供給されたコンテンツ情報の少なくとも何れか1つに基づいてオブジェクトの優先度情報を生成する。
【0164】
具体的には、例えば優先度情報生成部52は、上述した式(1)乃至式(9)の何れかや、オブジェクトのオーディオ信号とゲイン情報に基づいて優先度情報を生成する方法、式(10)や式(11)、式(12)などにより各オブジェクトの優先度情報を生成する。
【0165】
ステップS12において、パッキング部24は優先度情報生成部52から供給された各オブジェクトのオーディオ信号の優先度情報をビットストリームのDSEに格納する。
【0166】
ステップS13において、パッキング部24は、メタデータ入力部23から供給された各オブジェクトのメタデータおよびコンテンツ情報をビットストリームのDSEに格納する。以上の処理により、ビットストリームのDSEには、全オブジェクトのオーディオ信号の優先度情報と、全オブジェクトのメタデータおよびコンテンツ情報とが格納されたことになる。
【0167】
ステップS14において、チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化する。
【0168】
より具体的には、チャネルオーディオ符号化部21は各チャネルのオーディオ信号に対してMDCTを行うとともに、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データをパッキング部24に供給する。
【0169】
ステップS15において、パッキング部24はチャネルオーディオ符号化部21から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。
【0170】
ステップS16において、オブジェクトオーディオ符号化部22の符号化部51は、供給された各オブジェクトのオーディオ信号を符号化する。
【0171】
より具体的には、MDCT部61は各オブジェクトのオーディオ信号に対してMDCTを行い、符号化部51は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部24に供給する。
【0172】
ステップS17において、パッキング部24は符号化部51から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。
【0173】
以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、全オブジェクトのオーディオ信号の優先度情報と符号化データ、および全オブジェクトのメタデータとコンテンツ情報が格納されたビットストリームが得られる。
【0174】
ステップS18において、パッキング部24は、得られたビットストリームを出力し、符号化処理は終了する。
【0175】
以上のようにして符号化装置11は、各オブジェクトのオーディオ信号の優先度情報を生成してビットストリームに格納し、出力する。したがって、復号側において、どのオーディオ信号がより優先度合いの高いものであるかを簡単に把握することができるようになる。
【0176】
これにより、復号側では、優先度情報に応じて、符号化されたオーディオ信号の復号を選択的に行うことができる。その結果、オーディオ信号により再生される音の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
【0177】
特に、各オブジェクトのオーディオ信号の優先度情報をビットストリームに格納しておくことで、復号側において、復号の計算量を低減できるだけでなく、その後のレンダリング等の処理の計算量も低減させることができる。
【0178】
また、符号化装置11では、オブジェクトのメタデータや、コンテンツ情報、オブジェクトのオーディオ信号などに基づいてオブジェクトの優先度情報を生成することで、低コストでより適切な優先度情報を得ることができる。
【0179】
〈第2の実施の形態〉
〈復号装置の構成例〉
なお、以上においては、符号化装置11から出力されるビットストリームに優先度情報が含まれている例について説明したが、符号化装置によっては、ビットストリームに優先度情報が含まれていないこともあり得る。
【0180】
そこで、復号装置において優先度情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図4に示すように構成される。
【0181】
図4に示す復号装置101は、アンパッキング/復号部111、レンダリング部112、およびミキシング部113を有している。
【0182】
アンパッキング/復号部111は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。
【0183】
アンパッキング/復号部111は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号と、各オブジェクトのメタデータとをレンダリング部112に供給する。このとき、アンパッキング/復号部111は、オブジェクトのメタデータやコンテンツ情報に基づいて各オブジェクトの優先度情報を生成し、得られた優先度情報に応じて各オブジェクトの符号化データの復号を行う。
【0184】
また、アンパッキング/復号部111は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部113に供給する。
【0185】
レンダリング部112は、アンパッキング/復号部111から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータに含まれるオブジェクト位置情報に基づいてMチャネルのオーディオ信号を生成し、ミキシング部113に供給する。このときレンダリング部112は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位するようにM個の各チャネルのオーディオ信号を生成する。
【0186】
ミキシング部113は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部112から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部113は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。
【0187】
〈アンパッキング/復号部の構成例〉
また、図4に示した復号装置101のアンパッキング/復号部111は、より詳細には例えば図5に示すように構成される。
【0188】
図5に示すアンパッキング/復号部111は、チャネルオーディオ信号取得部141、チャネルオーディオ信号復号部142、IMDCT(Inverse Modified Discrete Cosine Transform)部143、オブジェクトオーディオ信号取得部144、オブジェクトオーディオ信号復号部145、優先度情報生成部146、出力選択部147、0値出力部148、およびIMDCT部149を有している。
【0189】
チャネルオーディオ信号取得部141は、供給されたビットストームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部142に供給する。
【0190】
チャネルオーディオ信号復号部142は、チャネルオーディオ信号取得部141から供給された各チャネルの符号化データを復号し、その結果得られたMDCT係数をIMDCT部143に供給する。
【0191】
IMDCT部143は、チャネルオーディオ信号復号部142から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、ミキシング部113に供給する。
【0192】
IMDCT部143では、MDCT係数に対してIMDCT(逆修正離散コサイン変換)が行われ、オーディオ信号が生成される。
【0193】
オブジェクトオーディオ信号取得部144は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部145に供給する。また、オブジェクトオーディオ信号取得部144は、供給されたビットストリームから各オブジェクトのメタデータおよびコンテンツ情報を取得して、メタデータおよびコンテンツ情報を優先度情報生成部146に供給するとともに、メタデータをレンダリング部112に供給する。
【0194】
オブジェクトオーディオ信号復号部145は、オブジェクトオーディオ信号取得部144から供給された各オブジェクトの符号化データを復号し、その結果得られたMDCT係数を出力選択部147および優先度情報生成部146に供給する。
【0195】
優先度情報生成部146は、オブジェクトオーディオ信号取得部144から供給されたメタデータ、オブジェクトオーディオ信号取得部144から供給されたコンテンツ情報、およびオブジェクトオーディオ信号復号部145から供給されたMDCT係数の少なくとも何れかに基づいて各オブジェクトの優先度情報を生成し、出力選択部147に供給する。
【0196】
出力選択部147は、優先度情報生成部146から供給された各オブジェクトの優先度情報に基づいて、オブジェクトオーディオ信号復号部145から供給された各オブジェクトのMDCT係数の出力先を選択的に切り替える。
【0197】
すなわち、出力選択部147は、所定のオブジェクトについての優先度情報が所定の閾値Q未満である場合、そのオブジェクトのMDCT係数を0として0値出力部148に供給する。また、出力選択部147は、所定のオブジェクトについての優先度情報が所定の閾値Q以上である場合、オブジェクトオーディオ信号復号部145から供給された、そのオブジェクトのMDCT係数をIMDCT部149に供給する。
【0198】
なお、閾値Qの値は、例えば復号装置101の計算能力等に応じて適切に定められる。閾値Qを適切に定めることにより、オーディオ信号の復号の計算量を、復号装置101がリアルタイムに復号することが可能な範囲内の計算量まで低減させることができる。
【0199】
0値出力部148は、出力選択部147から供給されたMDCT係数に基づいてオーディオ信号を生成し、レンダリング部112に供給する。この場合、MDCT係数は0であるので、無音のオーディオ信号が生成される。
【0200】
IMDCT部149は、出力選択部147から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、レンダリング部112に供給する。
【0201】
〈復号処理の説明〉
次に、復号装置101の動作について説明する。
【0202】
復号装置101は、符号化装置から1フレーム分のビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図6のフローチャートを参照して、復号装置101により行われる復号処理について説明する。
【0203】
ステップS51において、アンパッキング/復号部111は、符号化装置から送信されてきたビットストリームを取得する。すなわち、ビットストリームが受信される。
【0204】
ステップS52において、アンパッキング/復号部111は選択復号処理を行う。
【0205】
なお、選択復号処理の詳細は後述するが、選択復号処理では各チャネルの符号化データが復号されるとともに、各オブジェクトについて優先度情報が生成され、オブジェクトの符号化データが優先度情報に基づいて選択的に復号される。
【0206】
そして、各チャネルのオーディオ信号がミキシング部113に供給され、各オブジェクトのオーディオ信号がレンダリング部112に供給される。また、ビットストリームから取得された各オブジェクトのメタデータがレンダリング部112に供給される。
【0207】
ステップS53において、レンダリング部112は、アンパッキング/復号部111から供給されたオブジェクトのオーディオ信号、およびオブジェクトのメタデータに含まれるオブジェクト位置情報に基づいてオブジェクトのオーディオ信号のレンダリングを行う。
【0208】
例えばレンダリング部112は、オブジェクト位置情報に基づいてVBAP(Vector Base Amplitude Pannning)により、オブジェクトの音像がオブジェクト位置情報により示される位置に定位するように各チャネルのオーディオ信号を生成し、ミキシング部113に供給する。なお、メタデータにスプレッド情報が含まれている場合には、レンダリング時にスプレッド情報に基づいてスプレッド処理も行われ、オブジェクトの音像が広げられる。
【0209】
ステップS54において、ミキシング部113は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部112から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。
【0210】
各チャネルのオーディオ信号がスピーカに供給されると、復号処理は終了する。
【0211】
以上のようにして、復号装置101は、優先度情報を生成して、その優先度情報に応じて各オブジェクトの符号化データを復号する。
【0212】
〈選択復号処理の説明〉
続いて、図7のフローチャートを参照して、図6のステップS52の処理に対応する選択復号処理について説明する。
【0213】
ステップS81において、チャネルオーディオ信号取得部141は、処理対象とするチャネルのチャネル番号に0を設定し、保持する。
【0214】
ステップS82において、チャネルオーディオ信号取得部141は、保持しているチャネル番号がチャネル数M未満であるか否かを判定する。
【0215】
ステップS82において、チャネル番号がM未満であると判定された場合、ステップS83において、チャネルオーディオ信号復号部142は、処理対象のチャネルのオーディオ信号の符号化データを復号する。
【0216】
すなわち、チャネルオーディオ信号取得部141は、供給されたビットストリームから、処理対象のチャネルの符号化データを取得してチャネルオーディオ信号復号部142に供給する。すると、チャネルオーディオ信号復号部142は、チャネルオーディオ信号取得部141から供給された符号化データを復号し、その結果得られたMDCT係数をIMDCT部143に供給する。
【0217】
ステップS84において、IMDCT部143は、チャネルオーディオ信号復号部142から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のチャネルのオーディオ信号を生成し、ミキシング部113に供給する。
【0218】
ステップS85において、チャネルオーディオ信号取得部141は、保持しているチャネル番号に1を加え、処理対象のチャネルのチャネル番号を更新する。
【0219】
チャネル番号が更新されると、その後、処理はステップS82に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のチャネルのオーディオ信号が生成される。
【0220】
また、ステップS82において、処理対象のチャネルのチャネル番号がM未満ではないと判定された場合、全てのチャネルについてオーディオ信号が得られたので、処理はステップS86へと進む。
【0221】
ステップS86において、オブジェクトオーディオ信号取得部144は、処理対象とするオブジェクトのオブジェクト番号に0を設定し、保持する。
【0222】
ステップS87において、オブジェクトオーディオ信号取得部144は、保持しているオブジェクト番号がオブジェクト数N未満であるか否かを判定する。
【0223】
ステップS87において、オブジェクト番号がN未満であると判定された場合、ステップS88において、オブジェクトオーディオ信号復号部145は、処理対象のオブジェクトのオーディオ信号の符号化データを復号する。
【0224】
すなわち、オブジェクトオーディオ信号取得部144は、供給されたビットストリームから、処理対象のオブジェクトの符号化データを取得してオブジェクトオーディオ信号復号部145に供給する。すると、オブジェクトオーディオ信号復号部145は、オブジェクトオーディオ信号取得部144から供給された符号化データを復号し、その結果得られたMDCT係数を優先度情報生成部146および出力選択部147に供給する。
【0225】
また、オブジェクトオーディオ信号取得部144は、供給されたビットストリームから処理対象のオブジェクトのメタデータおよびコンテンツ情報を取得して、メタデータおよびコンテンツ情報を優先度情報生成部146に供給するとともに、メタデータをレンダリング部112に供給する。
【0226】
ステップS89において、優先度情報生成部146は、処理対象のオブジェクトのオーディオ信号の優先度情報を生成し、出力選択部147に供給する。
【0227】
すなわち、優先度情報生成部146は、オブジェクトオーディオ信号取得部144から供給されたメタデータ、オブジェクトオーディオ信号取得部144から供給されたコンテンツ情報、およびオブジェクトオーディオ信号復号部145から供給されたMDCT係数のうちの少なくとも何れか1つに基づいて優先度情報を生成する。
【0228】
ステップS89では、図3のステップS11と同様の処理が行われて優先度情報が生成される。具体的には、例えば優先度情報生成部146は、上述した式(1)乃至式(9)の何れかや、オブジェクトのオーディオ信号の音圧とゲイン情報に基づいて優先度情報を生成する方法、式(10)や式(11)、式(12)などによりオブジェクトの優先度情報を生成する。例えば優先度情報の生成に、オーディオ信号の音圧が用いられる場合には、優先度情報生成部146は、オブジェクトオーディオ信号復号部145から供給されたMDCT係数の二乗和をオーディオ信号の音圧として用いる。
【0229】
ステップS90において、出力選択部147は、優先度情報生成部146から供給された処理対象のオブジェクトの優先度情報が、図示せぬ上位の制御装置等により指定された閾値Q以上であるか否かを判定する。ここで閾値Qは、例えば復号装置101の計算能力等に応じて定められる。
【0230】
ステップS90において、優先度情報が閾値Q以上であると判定された場合、出力選択部147は、オブジェクトオーディオ信号復号部145から供給された、処理対象のオブジェクトのMDCT係数をIMDCT部149に供給し、処理はステップS91に進む。この場合、処理対象のオブジェクトについての復号、より詳細にはIMDCTが行われる。
【0231】
ステップS91において、IMDCT部149は、出力選択部147から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部112に供給する。オーディオ信号が生成されると、その後、処理はステップS92へと進む。
【0232】
これに対して、ステップS90において、優先度情報が閾値Q未満であると判定された場合、出力選択部147は、MDCT係数を0として0値出力部148に供給する。
【0233】
0値出力部148は、出力選択部147から供給された0であるMDCT係数から、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部112に供給する。したがって、0値出力部148では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。換言すれば、符号化データの復号、より詳細にはMDCT係数に対するIMDCTは実質的に行われない。
【0234】
なお、0値出力部148により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップS92へと進む。
【0235】
ステップS90において優先度情報が閾値Q未満であると判定されたか、またはステップS91においてオーディオ信号が生成されると、ステップS92において、オブジェクトオーディオ信号取得部144は、保持しているオブジェクト番号に1を加え、処理対象のオブジェクトのオブジェクト番号を更新する。
【0236】
オブジェクト番号が更新されると、その後、処理はステップS87に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のオブジェクトのオーディオ信号が生成される。
【0237】
また、ステップS87において、処理対象のオブジェクトのオブジェクト番号がN未満ではないと判定された場合、全チャネルおよび必要なオブジェクトについてオーディオ信号が得られたので選択復号処理は終了し、その後、処理は図6のステップS53に進む。
【0238】
以上のようにして、復号装置101は各オブジェクトについて優先度情報を生成し、優先度情報と閾値とを比較して符号化されたオーディオ信号の復号を行うか否かを判定しながら、符号化されたオーディオ信号を復号する。
【0239】
これにより、再生環境に合わせて優先度合いの高いオーディオ信号のみを選択的に復号することができ、オーディオ信号により再生される音の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
【0240】
しかも、各オブジェクトのオーディオ信号の優先度情報に基づいて、符号化されたオーディオ信号の復号を行うことで、オーディオ信号の復号の計算量だけでなく、レンダリング部112等における処理など、その後の処理の計算量も低減させることができる。
【0241】
また、オブジェクトのメタデータや、コンテンツ情報、オブジェクトのMDCT係数などに基づいてオブジェクトの優先度情報を生成することで、ビットストリームに優先度情報が含まれていない場合でも低コストで適切な優先度情報を得ることができる。特に、復号装置101で優先度情報を生成する場合には、ビットストリームに優先度情報を格納する必要がないので、ビットストリームのビットレートも低減させることができる。
【0242】
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0243】
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0244】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0245】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0246】
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
【0247】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0248】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0249】
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0250】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0251】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0252】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0253】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0254】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0255】
さらに、本技術は、以下の構成とすることも可能である。
【0256】
(1)
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える
信号処理装置。
(2)
前記要素は前記オーディオオブジェクトのメタデータである
(1)に記載の信号処理装置。
(3)
前記要素は空間上における前記オーディオオブジェクトの位置である
(1)または(2)に記載の信号処理装置。
(4)
前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
(3)に記載の信号処理装置。
(5)
前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
(3)に記載の信号処理装置。
(6)
前記優先度情報生成部は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じた前記優先度情報を生成する
(2)乃至(5)の何れか一項に記載の信号処理装置。
(7)
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報である
(1)乃至(6)の何れか一項に記載の信号処理装置。
(8)
前記優先度情報生成部は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて、前記処理対象の単位時間の前記優先度情報を生成する
(7)に記載の信号処理装置。
(9)
前記優先度情報生成部は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて前記優先度情報を生成する
(7)に記載の信号処理装置。
(10)
前記要素はスプレッド情報である
(1)乃至(9)の何れか一項に記載の信号処理装置。
(11)
前記優先度情報生成部は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じた前記優先度情報を生成する
(10)に記載の信号処理装置。
(12)
前記要素は前記オーディオオブジェクトの音の属性を示す情報である
(1)乃至(11)の何れか一項に記載の信号処理装置。
(13)
前記要素は前記オーディオオブジェクトのオーディオ信号である
(1)乃至(12)の何れか一項に記載の信号処理装置。
(14)
前記優先度情報生成部は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて前記優先度情報を生成する
(13)に記載の信号処理装置。
(15)
前記優先度情報生成部は、生成した前記優先度情報に対して時間方向の平滑化を行い、最終的な前記優先度情報とする
(1)乃至(14)の何れか一項に記載の信号処理装置。
(16)
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
ステップを含む信号処理方法。
(17)
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0257】
11 符号化装置, 22 オブジェクトオーディオ符号化部, 23 メタデータ入力部, 51 符号化部, 52 優先度情報生成部, 101 復号装置, 111 アンパッキング/復号部, 144 オブジェクトオーディオ信号取得部, 145 オブジェクトオーディオ信号復号部, 146 優先度情報生成部, 147 出力選択部
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2022-11-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信する優先度情報受信部と、
受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う復号部と
を備える信号処理装置。
【請求項2】
前記要素は前記オーディオオブジェクトのメタデータである
請求項1に記載の信号処理装置。
【請求項3】
前記要素は空間上における前記オーディオオブジェクトの位置である
請求項1に記載の信号処理装置。
【請求項4】
前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
請求項3に記載の信号処理装置。
【請求項5】
前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
請求項3に記載の信号処理装置。
【請求項6】
前記優先度情報は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じて生成された前記優先度情報である
請求項2に記載の信号処理装置。
【請求項7】
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報である
請求項1に記載の信号処理装置。
【請求項8】
前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報である
請求項7に記載の信号処理装置。
【請求項9】
前記優先度情報は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて生成された前記優先度情報である
請求項7に記載の信号処理装置。
【請求項10】
前記要素はスプレッド情報である
請求項1に記載の信号処理装置。
【請求項11】
前記優先度情報は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じて生成された前記優先度情報である
請求項10に記載の信号処理装置。
【請求項12】
前記要素は前記オーディオオブジェクトの音の属性を示す情報である
請求項1に記載の信号処理装置。
【請求項13】
前記要素は前記オーディオオブジェクトのオーディオ信号である
請求項1に記載の信号処理装置。
【請求項14】
前記優先度情報は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて生成された前記優先度情報である
請求項13に記載の信号処理装置。
【請求項15】
前記優先度情報は、生成した前記優先度情報に対して時間方向の平滑化を行うことで得られたものである
請求項1に記載の信号処理装置。
【請求項16】
オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信し、
受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う
ステップを含む信号処理方法。
【請求項17】
オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信し、
受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う
ステップを含む処理をコンピュータに実行させるプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0010
【補正方法】変更
【補正の内容】
【0010】
本技術の一側面の信号処理装置は、オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信する優先度情報受信部と、受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う復号部とを備える。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0011
【補正方法】変更
【補正の内容】
【0011】
本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信し、受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行うステップを含む。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0012
【補正方法】変更
【補正の内容】
【0012】
本技術の一側面においては、オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報が受信され、受信された前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号が行われる。