(58)【調査した分野】(Int.Cl.,DB名)
前記オブジェクトベースのオーディオ信号の知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果と対としてビットストリームに格納され、
前記知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果の前に配置される
請求項3記載のオーディオエンコード装置。
前記それぞれのオーディオオブジェクトの知覚的重要度情報のエンコード結果は、前記それぞれのオーディオオブジェクトのエンコード結果と対としてビットストリームに格納され、
前記知覚的重要度情報のエンコード結果は、前記オーディオオブジェクトのエンコード結果の前に配置される
請求項4記載のオーディオエンコード装置。
前記オーディオシーン情報は、オーディオオブジェクト位置情報であり、当該情報と、別途指示される再生側スピーカ配置情報と、別途指示されるあるいは予め想定しているリスナーの位置情報とから各スピーカへのダウンミックスする際のHRTF(頭部伝達関数:Head Related Transfer Function)係数を決定する
請求項7記載のオーディオデコード装置。
【発明を実施するための形態】
【0010】
(本開示の基礎となった知見)
本開示の実施形態について説明する前に、本開示の基礎となった知見について説明する。
【0011】
チャネルベースオーディオシステムおよびオブジェクトベースオーディオシステムにより、背景音をエンコードおよびデコードする音場再生技術が知られている。
【0012】
チャネルベースオーディオシステムの構成を、
図15に示す。
【0013】
チャネルベースオーディオシステムでは、収音した音源群(ギター、ピアノ、ボーカルなど)を、システムが想定している再生スピーカ配置に応じて予めレンダリングする。レンダリングとは、各音源が意図した位置に音像を結ぶように各スピーカに当該音源の信号を割り振ることである。例えば、システムが想定しているスピーカ配置が5chの場合、収音した音源群が5chのスピーカで適切な音像位置に再生されるように各チャネルに収音した音源群をそれぞれ割り振る。そのようにして生成された各チャネルの信号をエンコードし、記録、伝送する。
【0014】
デコーダ側では、スピーカの構成(チャネル数)が、システムが想定している構成である場合、デコード信号をそのまま各スピーカに割り振る。そうでない場合は、スピーカの構成に合わせて、デコード信号をUpMix(デコード信号のチャネル数より大きな数のチャネル数に変換)あるいはDownMix(デコード信号のチャネル数より小さい数のチャネル数に変換)する。
【0015】
すなわち、
図15に示すように、チャネルベースオーディオシステムは、収音した音源をレンダラーにより5chの信号に割り振り、チャネルベースエンコーダにより符号化し、符号化信号を記録及び伝送する。その後、チャネルベースデコーダにより復号し、復号された5chの音場と、さらに2ch又は7.1chにダウンミックスされた音場とを、スピーカにより再生する。
【0016】
このシステムの長所は、デコード側のスピーカの構成が、システムが想定しているものである場合、デコード側に負荷を掛けずに最適な音場が再生できることである。また、背景音や残響を伴う音響信号などは、予め適切に各チャネル信号に加えておくことで適切に表現できる。
【0017】
このシステムの短所は、デコード側のスピーカの構成が、システムが想定しているものでない場合、UpMixやDownMixの演算負荷を伴って処理しなくてはならず、しかも、それでもなお最適な音場が再生できないことである。
【0018】
オブジェクトベースオーディオシステムの構成を、
図16に示す。
【0019】
オブジェクトベースオーディオシステムでは、収音した音源群(ギター、ピアノ、ボーカルなど)を、そのままオーディオオブジェクトとして、エンコードし、記録及び伝送する。その際、各音源の再生位置情報も併せて、記録及び伝送する。デコーダ側では、音源の位置情報とスピーカ配置に応じて各オーディオオブジェクトをレンダリングする。
【0020】
例えば、デコード側のスピーカ配置が5chの場合、5chのスピーカによって、各オーディオオブジェクトがそれぞれの再生位置情報に即した位置で再生されるように、各チャネルにオーディオオブジェクトをそれぞれ割り振る。
【0021】
すなわち、
図16に示すように、オブジェクトベースオーディオシステムは、収音した音源群をオブジェクトベースエンコーダにより符号化し、符号化信号を記録及び伝送する。その後、オブジェクトベースデコーダにより復号し、2ch、5.1ch又は7.1chのレンダラーを介して、各チャネルのスピーカにより音場を再生する。
【0022】
このシステムの長所は、再生側のスピーカ配置に応じて、最適な音場が再生できることである。
【0023】
このシステムの短所は、デコーダ側に演算負荷がかかることと、背景音や残響を伴う音響信号などをオーディオオブジェクトとして適切に表現できないことである。
【0024】
ここで、近年、オブジェクトベースオーディオシステムで、背景音を扱うことのできるシステムが提案されている。この技術によれば、背景音は、マルチチャネルバックグラウンドオブジェクト(MBO)として、マルチチャネル信号として入力されるが、MPSエンコーダによって、1ch或いは2ch信号として圧縮され、それを1つのオブジェクトと扱うことが提案されている。その構成は、非特許文献1のFigure5:Architecture of the SAOC system handling the MBOに示されている。
【0025】
しかしながら、上記のようなオブジェクトベースオーディオシステムの構成の場合、背景音は1chあるいは2chに圧縮されるので、デコード側で完全にはもとの背景音に復元できない、という課題がある。また、その処理には多大の演算量が必要という課題もある。
【0026】
また、従来のオブジェクトベースオーディオシステムでは、オブジェクトベースのオーディオ信号を圧縮符号化する際の各オーディオオブジェクトに対するビット割り当ての指針が確立していない。
【0027】
以下に説明するオーディオエンコード装置およびオーディオデコード装置は、このような従来の課題に鑑みてなされたものであって、チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とを入力とし、高音質でしかもデコード時の演算量の少ないオーディオエンコード装置およびオーディオデコード装置である。
【0028】
すなわち、上記の課題を解決するために、オーディオエンコード装置は、入力信号をエンコードするオーディオエンコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記入力信号からオーディオシーンを判定し、オーディオシーン情報を検出するオーディオシーン分析手段と、前記オーディオシーン分析手段から出力された前記チャネルベースのオーディオ信号をエンコードするチャネルベースエンコーダと、前記オーディオシーン分析手段から出力された前記オブジェクトベースのオーディオ信号をエンコードするオブジェクトベースエンコーダと、前記オーディオシーン情報をエンコードするオーディオシーンエンコード手段と、を備える。
【0029】
この構成によれば、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とを適切に共存させながら符号化することができる。
【0030】
また、前記オーディオシーン分析手段は、さらに、前記入力信号から、前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号とを分離して出力する。
【0031】
この構成によれば、チャネルベースのオーディオ信号からオブジェクトベースのオーディオ信号へ変換、あるいはその逆を、適切に実施できる。
【0032】
また、前記オーディオシーン分析手段は、少なくともオブジェクトベースのオーディオ信号の知覚的重要度情報を抽出し、それに応じて前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号とのそれぞれに割り当てられる符号化ビット数を決定し、前記チャネルベースエンコーダは、前記符号化ビット数に応じて、前記チャネルベースのオーディオ信号をエンコードし、前記オブジェクトベースエンコーダは、前記符号化ビット数に応じて、前記オブジェクトベースのオーディオ信号をエンコードする。
【0033】
この構成によれば、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とに適切の符号化ビットを割り当てることができる。
【0034】
また、前記オーディオシーン分析手段は、前記入力信号のうちの前記オブジェクトベースのオーディオ信号に含まれるオーディオオブジェクトの数、それぞれの前記オーディオオブジェクトの音の大きさ、前記オーディオオブジェクトの音の大きさの遷移、それぞれの前記オーディオオブジェクトの位置、前記オーディオオブジェクトの位置の軌跡、それぞれの前記オーディオオブジェクトの周波数特性、それぞれの前記オーディオオブジェクトのマスキング特性、および、前記オーディオオブジェクトと映像信号との関係、の少なくともいずれかを検出し、それに応じて、前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号のそれぞれに割り当てる前記符号化ビット数を決定する。
【0035】
この構成によれば、オブジェクトベースのオーディオ信号の知覚的重要度を正確に算出できる。
【0036】
また、前記オーディオシーン分析手段は、前記入力信号のうちの前記オブジェクトベースのオーディオ信号に含まれる複数のオーディオオブジェクトのそれぞれの音の大きさ、複数の前記オーディオオブジェクトのそれぞれの音の大きさの遷移、それぞれの前記オーディオオブジェクトの位置、前記オーディオオブジェクトの軌跡、それぞれの前記オーディオオブジェクトの周波数特性、それぞれの前記オーディオオブジェクトのマスキング特性、および、前記オーディオオブジェクトと映像信号との関係、の少なくともいずれかを検出し、それに応じて、各前記オーディオオブジェクトに割り当てる前記符号化ビット数を決定する。
【0037】
この構成によれば、複数のオブジェクトベースのオーディオ信号の知覚的重要度を正確に算出できる。
【0038】
また、前記オブジェクトベースのオーディオ信号の知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果と対としてビットストリームに格納され、前記知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果の前に配置される。
【0039】
この構成によれば、オブジェクトベースのオーディオ信号とその知覚的重要度情報とがデコーダ側で容易に把握できる。
【0040】
また、前記それぞれのオーディオオブジェクトの知覚的重要度情報のエンコード結果は、前記それぞれのオーディオオブジェクトのエンコード結果と対としてビットストリームに格納され、前記知覚的重要度情報のエンコード結果は、前記オーディオオブジェクトのエンコード結果の前に配置される。
【0041】
この構成によれば、個々のオーディオオブジェクトとその知覚的重要度情報とがデコーダ側で容易に把握できる。
【0042】
また、上記の課題を解決するために、オーディオデコード装置は、入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号を
オーディオオブジェクトとしてエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、前記オーディオデコード装置は、前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有する。
【0043】
この構成によれば、オーディオシーンを適切に反映した再生がおこなえることとなる。
【0044】
また、前記オーディオシーン情報は、オーディオオブジェクトの符号化ビット数情報であり、別途指示される情報に基づいて前記オーディオオブジェクトの中で再生しないものを決定し、当該再生しないオーディオオブジェクトを当該オーディオオブジェクトの符号化ビット数に基づいて読み飛ばす。
【0045】
この構成によれば、再生時の状況に応じて適切にオーディオオブジェクトを読み飛ばすことができる。
【0046】
また、前記オーディオシーン情報は、前記オーディオオブジェクトの知覚的重要度情報であり、デコードに必要な演算資源が不足している場合は、知覚的重要度の低い前記オーディオオブジェクトを読み飛ばす
ことができることを表す情報である。
【0047】
この構成によれば、演算容量の小さいプロセッサでもできるだけ音質を維持して再生できる。
【0048】
また、前記オーディオシーン情報は、オーディオオブジェクト位置情報であり、当該情報と、別途指示される再生側スピーカ配置情報と、別途指示されるあるいは予め想定しているリスナーの位置情報とから各スピーカへのダウンミックスする際のHRTF(頭部伝達関数:Head Related Transfer Function)係数を決定する。
【0049】
この構成によれば、リスナーの位置情報に応じて高い臨場感で再生できる。
【0050】
以下、前述したオーディオエンコード装置およびオーディオデコード装置の一態様として、実施の形態を示す。なお、以下で説明する実施の形態は、いずれも一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態等は、一例であり、本発明を限定する主旨ではない。本発明は、請求の範囲によって特定される。よって、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。
【0051】
(実施の形態1)
以下、実施の形態1にかかるオーディオエンコード装置について図面を参照しながら説明する。
【0052】
図1は、本実施の形態にかかるオーディオエンコード装置の構成を示す図である。
【0053】
図1に示すように、オーディオエンコード装置は、オーディオシーン分析手段100と、チャネルベースエンコーダ101と、オブジェクトベースエンコーダ102と、オーディオシーンエンコード手段103と、多重化手段104とを備えている。
【0054】
オーディオシーン分析手段100は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなる入力信号からオーディオシーンを判定し、オーディオシーン情報を検出する。
【0055】
チャネルベースエンコーダ101は、オーディオシーン分析手段100の出力信号であるチャネルベースのオーディオ信号を、オーディオシーン分析手段100の出力信号であるオーディオシーン情報に基づいてエンコードする。
【0056】
オブジェクトベースエンコーダ102は、オーディオシーン分析手段100の出力信号であるオブジェクトベースのオーディオ信号を、オーディオシーン分析手段100の出力信号であるオーディオシーン情報に基づいてエンコードする。
【0057】
オーディオシーンエンコード手段103は、オーディオシーン分析手段100の出力信号であるオーディオシーン情報をエンコードする。
【0058】
多重化手段104は、チャネルベースエンコーダ101の出力信号であるチャネルベース符号化信号と、オブジェクトベースエンコーダ102の出力信号であるオブジェクトベース符号化信号と、オーディオシーンエンコード手段103の出力信号であるオーディオシーン符号化信号とを多重化してビットストリームを生成し、出力する。
【0059】
以上のように構成されたオーディオエンコード装置の動作について、以下説明する。
【0060】
まず、オーディオシーン分析手段100において、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなる入力信号からオーディオシーンを判定し、オーディオシーン情報を検出する。
【0061】
オーディオシーン分析手段100の機能は大きく分けて2種類である。一つは、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号を再構成する機能、もう一つは、オブジェクトベースのオーディオ信号の個々の要素であるオーディオオブジェクトの知覚的重要度を判定すること、である。
【0062】
本実施の形態にかかるオーディオシーン分析手段100は、その2つの機能を同時に備えている。なお、オーディオシーン分析手段100は、その2つの機能のうちの片方だけを備えていてもよい。
【0063】
まず、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号を再構成する機能について述べる。
【0064】
オーディオシーン分析手段100は、入力されたチャネルベースのオーディオ信号を解析し、特定のチャネル信号が他のチャネル信号から独立したものであった場合、当該チャネル信号をオブジェクトベースのオーディオ信号に組み入れる。その場合、オーディオ信号の再生位置情報は、当該チャネルのスピーカが置かれるはずの位置とする。
【0065】
例えば、センターチャネルの信号にのみ台詞(セリフ)が記録されている場合、当該チャネルの信号をオブジェクトベースのオーディオ信号(オーディオオブジェクト)にしてもよい。この場合、当該オーディオオブジェクトの再生位置はセンターとなる。そうすることで、仮にセンターチャネルのスピーカを物理的制約の中でセンター位置に置けない場合などでも、再生側(デコーダ側)において、他のスピーカを用いて、センター位置にレンダリングできる。
【0066】
一方、背景音や残響を伴う音響信号は、チャネルベースのオーディオ信号として出力される。そうすることで、デコーダ側で高音質にかつ少ない演算量で再生処理できる。
【0067】
さらに、オーディオシーン分析手段100は、入力されたオブジェクトベースのオーディオ信号を解析し、特定のオーディオオブジェクトが、特定のスピーカ位置に存在している場合、当該オーディオオブジェクトを上記スピーカから出音されるチャネル信号にミキシングしてもよい。
【0068】
例えば、ある楽器の音を表すオーディオオブジェクトが、右側スピーカの位置に存在している場合、当該オーディオオブジェクトを右スピーカから出音されるチャネル信号にミキシングしてもよい。そうすることで、オーディオオブジェクトの数を1つ減らすことができるので、伝送や記録時のビットレートの削減に寄与する。
【0069】
次に、オーディオシーン分析手段100の機能の中の、オーディオオブジェクトの知覚的重要度を判定する機能について述べる。
【0070】
オーディオシーン分析手段100は、
図2に示すように、音圧レベルの高いオーディオオブジェクトが音圧レベルの低いオーディオオブジェクトより知覚的重要度が高いと判断する。音圧レベルの高い音に多くの注意を払うというリスナーの心理を反映するためである。
【0071】
例えば、
図2において、黒丸1で示すSound Source1は、黒丸2で示すSound Source2よりも音圧レベルが高い。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。
【0072】
オーディオシーン分析手段100は、
図3に示すように、再生位置がリスナーに近づくオーディオオブジェクトは、再生位置がリスナーから遠ざかるオーディオオブジェクトより、知覚的重要度が高いと判断する。近づいてくる物体に多くの注意を払うというリスナーの心理を反映するためである。
【0073】
例えば、
図3において、黒丸1で示すSound Source1は、リスナーに近づく音源であり、黒丸2で示すSound Source2は、リスナーから遠ざかる音源である。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。
【0074】
オーディオシーン分析手段100は、
図4に示すように、再生位置がリスナーの前方にあるオーディオオブジェクトを、再生位置がリスナーの後方にあるオーディオオブジェクトより知覚的重要度が高いと判断する。
【0075】
また、オーディオシーン分析手段100は、再生位置がリスナーの正面にあるオーディオオブジェクトを、再生位置が上方にあるオーディオオブジェクトより知覚的重要度が高いと判断する。リスナーの前方にある物体に対するリスナーの感度は、リスナーの側面にある物体に対する感度より高く、リスナーの側面にある物体に対するリスナーの感度は、リスナーの上下にある物体に対する感度より知覚的重要度が高いためである。
【0076】
例えば、
図4において、白丸1で示すSound Source3は、リスナーの前方の位置にあり、白丸2で示すSound Source4は、リスナーの後方の位置にある。この場合、Sound Source3は、Sound Source4よりも知覚的重要度が高いと判断される。また、
図4において、黒丸1で示すSound Source1は、リスナーの正面の位置にあり、黒丸2で示すSound Source2は、リスナーの上方の位置にある。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。
【0077】
オーディオシーン分析手段100は、
図5に示すように、再生位置がリスナーの左右に移動するオーディオオブジェクトを、再生位置がリスナーの前後に移動するオーディオオブジェクトより知覚的重要度が高いと判断する。また、オーディオシーン分析手段100は、再生位置がリスナー前後に移動するオーディオオブジェクトを、再生位置がリスナーの上下を移動するオーディオオブジェクトより知覚的重要度が高いと判断する。これは、左右の動きに対するリスナーの感度が、前後の動きに対するリスナーの感度より高く、前後の動きに対するリスナーの感度が、上下の動きに対するリスナーの感度より高いためである。
【0078】
例えば、
図5において、黒丸1で示すSound Source trajectory1は、リスナーに対して左右に移動し、黒丸2で示すSound Source trajectory2は、リスナーに対して前後に移動し、黒丸3で示すSound Source trajectory3は、リスナーに対して上下に移動する。この場合、Sound Source trajectory1は、Sound Source trajectory2よりも知覚的重要度が高いと判断される。また、Sound Source trajectory2は、Sound Source trajectory3よりも知覚的重要度が高いと判断される。
【0079】
オーディオシーン分析手段100は、
図6に示すように、再生位置が移動しているオーディオオブジェクトを、再生位置が静止しているオーディオオブジェクトより知覚的重要度が高いと判断する。また、オーディオシーン分析手段100は、移動の速度が速いオーディオオブジェクトを、移動の速度が遅いオーディオオブジェクトより知覚的重要度が高いと判断する。これは、聴覚の音源の動きに対するリスナーの感度が高いためである。
【0080】
例えば、
図6において、黒丸1で示すSound Source trajectory1は、リスナーに対して移動し、黒丸2で示すSound Source trajectory2は、リスナーに対して静止している。この場合、Sound Source trajectory1は、Sound Source trajectory2よりも知覚的重要度が高いと判断される。
【0081】
オーディオシーン分析手段100は、
図7に示すように、画面に当該物体が映し出されているオーディオオブジェクトを、そうでないオーディオオブジェクトより知覚的重要度が高いと判断する。
【0082】
例えば、
図7において、黒丸1で示すSound Source1は、リスナーに対して静止又は移動し、併せて、画面に映っている。また、黒丸2で示すSound Source2は、その位置がSound Source1と同一である。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。
【0083】
オーディオシーン分析手段100は、
図8に示すように、少ないスピーカによってレンダリングされているオーディオオブジェクトを、多くのスピーカによってレンダリングされているオーディオオブジェクトより知覚的重要度が高いと判断する。これは、多くのスピーカによってレンダリングされているオーディオオブジェクトは、少ないスピーカによってレンダリングされているオーディオオブジェクトより、音像を正確に再現できると想定されるので、少ないスピーカによってレンダリングされているオーディオオブジェクトをより正確に符号化するべきである、という考えに基づく。
【0084】
例えば、
図8において、黒丸1で示すSound Source1は、1つのスピーカによってレンダリングされ、黒丸2で示すSound Source2は、Sound Source1よりも多い4つのスピーカによってレンダリングされている。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。
【0085】
オーディオシーン分析手段100は、
図9に示すように、聴覚上感度の高い周波数成分を多く含むオーディオオブジェクトを、聴覚上感度の高くない周波数成分を多く含むオーディオオブジェクトより知覚的重要度が高いと判断する。
【0086】
例えば、
図9において、黒丸1で示すSound Source1は、人間の声の周波数帯域の音であり、黒丸2で示すSound Source2は、航空機の飛行音等の周波数帯域の音であり、黒丸3で示すSound Source3は、リスナーに対して上下に移動する。ここで、人間の聴覚は、人間の声の周波数成分を含む音(オブジェクト)に対しては感度が高く、航空機の飛行音など人間の声の周波数より高い周波数成分を含む音に対しては感度が中程度であり、ベースギターなど人間の声の周波数より低い周波数成分を含む音に対しては感度が低い。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。また、Sound Source2は、Sound Source3よりも知覚的重要度が高いと判断される。
【0087】
オーディオシーン分析手段100は、
図10に示すように、マスキングされる周波数成分を多く含むオーディオオブジェクトを、マスキングされない周波数成分を多く含むオーディオオブジェクトより知覚的重要度が低いと判断する。
【0088】
例えば、
図10において、黒丸1で示すSound Source1は、爆発音であり、黒丸2で示すSound Source2は、人の聴覚において、爆発音よりマスキングされる周波数を多く含む銃声音である。この場合、Sound Source1は、Sound Source2よりも知覚的重要度が高いと判断される。
【0089】
オーディオシーン分析手段100は、上記のように各オーディオオブジェクトの知覚的重要度を判定し、その総量に応じて、オブジェクトベースエンコーダとチャネルベースエンコーダとで符号化する際にビット数をそれぞれ割り振る。
【0090】
その方法は、例えば以下のとおりである。
【0091】
チャネルベースの入力信号のチャネル数をA、オブジェクトベースの入力信号のオブジェクト数をB、チャネルベースに対する重みをa、オブジェクトベースに対する重みをb、符号化に利用できる総ビット数をT(Tはすでにオーディオシーン情報に与えられるビット数やヘッダ情報に与えられるビット数を差し引いた、チャネルベースとオブジェクトベースのオーディオ信号に与えられる総ビット数を表している)としたとき、オブジェクトベースの信号に対して、まず、T
*(b
*B/(a
*A+b
*B))で、算出されるビット数を一旦仮に割り当てる。つまり、個々のオーディオオブジェクトには、それぞれT
*(b/(a
*A+b
*B))で算出されるビット数が割り当てられる。ここで、a、bは、それぞれ1.0近傍の正の値であるが、具体的な値は、コンテンツの性質やリスナーの嗜好に合わせて定めればよい。
【0092】
次に、個々のオーディオオブジェクトごとに、
図2から
図10で示したような方法でその知覚的重要度を判定し、知覚的重要度が高い場合は1を超える値を、低い場合は1を下回る値を、個々のオーディオオブジェクトに割り当てられたビット数に掛ける。そのような処理を全てのオーディオオブジェクトに実施し、その総計を計算する。その総計がXである場合、Y=T−XとしてYを求め、Yをチャネルベースオーディオ信号の符号化用に割り当てる。個々のオーディオオブジェクトには、上記計算した個々の値のビット数を割り当てる。
【0093】
図11の(a)は、そのようにして割り当てられたビット数の、オーディオフレーム毎の配分の例を示している。
図11の(a)において、斜縞模様部分はチャネルベースのオーディオ信号の符号量の総量を示す。横縞模様部分は、オブジェクトベースのオーディオ信号の符号量の総量を示す。白部分は、オーディオシーン情報の符号量の総量を示す。
【0094】
図11の(a)において、区間1は、オーディオオブジェクトが存在しない区間である。したがって、全てのビットがチャネルベースのオーディオ信号に割り当てられている。区間2は、オーディオオブジェクトが出現した際の状態を示している。区間3は、オーディオオブジェクトの知覚的重要度の総量が区間2より下がっている場合を示している。区間4は、オーディオオブジェクトの知覚的重要度の総量が区間3より上がっている場合を示している。区間5は、オーディオオブジェクトが存在しない状態を示している。
【0095】
図11の(b)および(c)は、所定のオーディオフレームにおける、個々のオーディオオブジェクトのそれぞれに割り当てられたビット数の内訳とその情報(オーディオシーン情報)がどのようにビットストリームに配置されるか、の一例を示している。
【0096】
個々のオーディオオブジェクトに割り当てられるビット数は、当該オーディオオブジェクトごとの知覚的重要度によって決定される。当該オーディオオブジェクトごとの知覚的重要度(オーディオシーン情報)は、
図11の(b)に示すように、ビットストリーム上の所定の場所にまとめて置かれてもよいし、
図11の(c)に示すように、個々のオーディオオブジェクトに付随しておかれてもよい。
【0097】
次に、チャネルベースエンコーダ101は、オーディオシーン分析手段100で割り当てられたビット数で、オーディオシーン分析手段100から出力されるチャネルベースのオーディオ信号を符号化する。
【0098】
次に、オブジェクトベースエンコーダ102は、オーディオシーン分析手段100で割り当てられたビット数で、オーディオシーン分析手段100から出力されるオブジェクトベースのオーディオ信号を符号化する。
【0099】
次に、オーディオシーンエンコード手段103は、オーディオシーン情報(上記の例では、オブジェクトベースのオーディオ信号の知覚的重要度)をエンコードする。例えば、オブジェクトベースのオーディオ信号の当該オーディオフレームの情報量として符号化する。
【0100】
最後に、多重化手段104は、チャネルベースエンコーダ101の出力信号であるチャネルベース符号化信号と、オブジェクトベースエンコーダ102の出力信号であるオブジェクトベース符号化信号と、オーディオシーンエンコード手段103の出力信号であるオーディオシーン符号化信号とを多重化してビットストリームを生成する。すなわち、
図11の(b)または
図11の(c)に示すようなビットストリームを生成する。
【0101】
ここで、オブジェクトベース符号化信号とオーディオシーン符号化信号(この例では、オブジェクトベースのオーディオ信号の当該オーディオフレームの情報量)とを以下のように多重化する。
【0102】
(1)オブジェクトベース符号化信号とその情報量とを対として符号化する。
【0103】
(2)各オーディオオブジェクトの符号化信号とそれに対応する情報量とを対として符号化する。
【0104】
ここで、「対として」という意味は、必ずしも情報の配置が隣接していることを意味していない。「対として」とは、上記各符号化信号とそれに対応する情報量とが、関連付けられて多重化されている、という意味である。そうすることによって、デコーダ側において、オーディオシーンに応じた処理をオーディオオブジェクトごとに制御できることになる。そういう意味において、オーディオシーン符号化信号は、オブジェクトベース符号化信号より前に格納されていることが望ましい。
【0105】
上記のように、本実施の形態によれば、入力信号をエンコードするオーディオエンコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記入力信号からオーディオシーンを判定し、オーディオシーン情報を検出するオーディオシーン分析手段と、前記オーディオシーン分析手段から出力された前記チャネルベースのオーディオ信号をエンコードするチャネルベースエンコーダと、前記オーディオシーン分析手段から出力された前記オブジェクトベースのオーディオ信号をエンコードするオブジェクトベースエンコーダと、前記オーディオシーン情報をエンコードするオーディオシーンエンコード手段と、を備える。
【0106】
これによって、チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とを適切に再構成することができ、デコーダ側の高音質や演算負荷の軽減を達成できる。これは、チャネルベースで入力された信号(背景音や残響を含む音響信号)をそのままエンコードできるためである。
【0107】
また、本実施の形態にかかるオーディオエンコード装置によれば、ビットレートの削減も達成することができる。これは、チャネルベースで表現できるオーディオオブジェクトをチャネルベースの信号にミックスすることで、オーディオオブジェクトの数を減らすことができるからである。
【0108】
また、本実施の形態にかかるオーディオエンコード装置によれば、デコーダ側でのレンダリングの自由度を向上させることもできる。これは、チャネルベースの信号の中からオーディオオブジェクト化できる音を検出しオーディオオブジェクト化しで記録、伝送できるからである。
【0109】
また、本実施の形態にかかるオーディオエンコード装置によれば、チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とをそれぞれエンコードする際のそれぞれに対する符号化のビット数を適切に割り当てることができる。
【0110】
(実施の形態2)
以下、実施の形態2にかかるオーディオデコード装置について図面を参照しながら説明する。
【0111】
図12は、本実施の形態にかかるオーディオデコード装置の構成を示す図である。
【0112】
図12に示すように、オーディオデコード装置は、分離手段200と、オーディオシーンデコード手段201と、チャネルベースデコーダ202と、オブジェクトベースデコーダ203と、オーディオシーン合成手段204とを備える。
【0113】
分離手段200は、分離手段200に入力されたビットストリームから、チャネルベース符号化信号とオブジェクトベース符号化信号とオーディオシーン符号化信号とを分離する。
【0114】
オーディオシーンデコード手段201は、分離手段200において分離されたオーディオシーン符号化信号をデコードし、オーディオシーン情報を出力する。
【0115】
チャネルベースデコーダ202は、分離手段200において分離されたチャネルベース符号化信号をデコードし、チャネル信号を出力する。
【0116】
オブジェクトベースデコーダ203は、オーディオシーン情報に基づいて、オブジェクトベース符号化信号をデコードし、オブジェクト信号を出力する。
【0117】
オーディオシーン合成手段204は、チャネルベースデコーダ202の出力信号であるチャネル信号と、オブジェクトベースデコーダ203の出力信号であるオブジェクト信号と、別途指示されるスピーカ配置情報とに基づいて、オーディオシーンを合成する。
【0118】
以上のように構成されたオーディオデコード装置の動作について、以下説明する。
【0119】
まず、分離手段200において、入力されたビットストリームからチャネルベース符号化信号とオブジェクトベース符号化信号とオーディオシーン符号化信号とを分離する。
【0120】
本実施の形態では、オーディオシーン符号化信号とは、各オーディオオブジェクトの知覚的重要度の情報を符号化したものとする。知覚的重要度は、各オーディオオブジェクトの情報量として符号化されていてもよいし、重要度の序列を、一位、二位、三位、などとして符号化されていてもよい。また、これらの両方であってもよい。
【0121】
オーディオシーン符号化信号は、オーディオシーンデコード手段201でデコードされ、オーディオシーン情報が出力される。
【0122】
次に、チャネルベースデコーダ202は、チャネルベース符号化信号をデコードし、オブジェクトベースデコーダ203は、オーディオシーン情報に基づいてオブジェクトベース符号化信号をデコードする。このとき、オブジェクトベースデコーダ203には、再生状況を示す付加情報が与えられる。例えば、再生状況を示す付加情報は、当該処理を実行するプロセッサの演算容量の情報であってもよい。
【0123】
なお、もし、演算容量が不足する場合は、知覚的重要度の低いオーディオオブジェクトを読み飛ばす。知覚的重要度が符号量で表されている場合、上記の読み飛ばしの処理は当該符号量の情報に基づいて実施すればよい。知覚的重要度が一位、二位、三位など序列で表されている場合、序列の低いオーディオオブジェクトを読み出して、そのまま(処理せず)捨てればよい。
【0124】
図13は、オーディオシーン情報から、オーディオオブジェクトの知覚的重要度が低く、かつ、知覚的重要度は符号量として表されている場合に、当該符号量の情報によって読みとばしが実施されるケースを示している。
【0125】
オブジェクトベースデコーダ203に与えられる付加情報は、受聴者の属性情報であってもよい。例えば、受聴者が子供である場合、それに相応しいオーディオオブジェクトだけを選択しそれ以外を捨てるとしてもよい。
【0126】
ここで、読み飛ばしが実施される際、当該オーディオオブジェクトに対応した符号量に基づいてオーディオオブジェクトが読み飛ばされる。また、この場合、各オーディオオブジェクトにはメタデータが付与されており、当該オーディオオブジェクトがどういうキャラクタを示しているかが定義されているものとする。
【0127】
最後に、オーディオシーン合成手段204において、チャネルベースデコーダ202の出力信号であるチャネル信号と、オブジェクトベースデコーダ203の出力信号であるオブジェクト信号と、別途指示されるスピーカ配置情報とに基づいて、各スピーカに割り振る信号が決定され、再生される。
【0129】
チャネルベースデコーダ202の出力信号は、そのまま各チャネルに割り振られる。オブジェクトベースデコーダ203出力信号は、オブジェクトベースオーディオにそもそも含まれるオブジェクトの再生位置情報に応じて、当該位置に音像を構成するように、各チャネルに音を分配する(レンダリングする)。その方法は、従来から知られているどのような方法でもよい。
【0130】
なお、
図14は、
図12と同じオーディオデコード装置の構成を示す概略図であるが、オーディオシーン合成手段204には受聴者の位置情報が入力されている点が異なる。この位置情報とオブジェクトベースデコーダ203にそもそも含まれるオブジェクトの再生位置情報に応じて、HRTFを構成してもよい。
【0131】
上記のように、本実施の形態にかかるオーディオデコード装置によれば、入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号をエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、前記オーディオデコード装置は、前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有する。
【0132】
この構成によれば、オーディオオブジェクトの知覚的重要度をオーディオシーン情報とすることで、演算容量の小さいプロセッサで処理する場合でも、知覚的重要度に応じてオーディオオブジェクトを読み捨てることで、できるだけ音質劣化を防ぎながら再生が可能となる。
【0133】
また、本実施の形態にかかるオーディオデコード装置によれば、オーディオオブジェクトの知覚的重要度を符号量として表してオーディオシーン情報とすることで、読み飛ばしの際に、読み飛ばす量が予め把握できるので、きわめて簡単に読み飛ばし処理が実施できる。
【0134】
また、本実施の形態にかかるオーディオデコード装置によれば、オーディオシーン合成手段204に受聴者の位置情報を与えることで、当該位置情報と、オーディオオブジェクトの位置情報とからHRTFを生成しなら処理できる。これにより、臨場感の高いオーディオシーン合成が可能となる。
【0135】
以上、本発明の一態様に係るオーディオエンコード装置及びオーディオデコード装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものも本発明の範囲内に含まれる。