特許6288100 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソシオネクストの特許一覧

特許6288100オーディオエンコード装置及びオーディオデコード装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6288100

(24)【登録日】2018年2月16日

(45)【発行日】2018年3月7日

(54)【発明の名称】オーディオエンコード装置及びオーディオデコード装置

(51)【国際特許分類】

G10L 19/008 20130101AFI20180226BHJP

G10L 19/00 20130101ALI20180226BHJP

H04S 3/00 20060101ALI20180226BHJP

G10L 19/002 20130101ALI20180226BHJP

H04S 7/00 20060101ALI20180226BHJP

【ＦＩ】

G10L19/008 200

G10L19/00 400Z

H04S3/00 200

G10L19/002

H04S7/00 300

H04S7/00 380

【請求項の数】9

【全頁数】23

(21)【出願番号】特願2015-542491(P2015-542491)

(86)(22)【出願日】2014年8月20日

(86)【国際出願番号】JP2014004247

(87)【国際公開番号】WO2015056383

(87)【国際公開日】20150423

【審査請求日】2016年3月25日

(31)【優先権主張番号】特願2013-216821(P2013-216821)

(32)【優先日】2013年10月17日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】514315159

【氏名又は名称】株式会社ソシオネクスト

(74)【代理人】

【識別番号】100189430

【弁理士】

【氏名又は名称】吉川修一

(74)【代理人】

【識別番号】100190805

【弁理士】

【氏名又は名称】傍島正朗

(72)【発明者】

【氏名】宮阪修二

(72)【発明者】

【氏名】阿部一任

(72)【発明者】

【氏名】ゾンチャンリュー

(72)【発明者】

【氏名】ヨウウィーシム

(72)【発明者】

【氏名】アートントラン

【審査官】大野弘

(56)【参考文献】

【文献】特表２０１０−５０６２３１（ＪＰ，Ａ）

【文献】国際公開第２０１０／１０９９１８（ＷＯ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００８

Ｇ１０Ｌ１９／００

Ｇ１０Ｌ１９／００２

Ｈ０４Ｓ３／００

Ｈ０４Ｓ７／００

(57)【特許請求の範囲】

【請求項1】

入力信号をエンコードするオーディオエンコード装置であって、
前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、
前記入力信号からオーディオシーンを判定し、オーディオシーン情報を検出するオーディオシーン分析手段と、
前記オーディオシーン分析手段から出力された前記チャネルベースのオーディオ信号をエンコードするチャネルベースエンコーダと、
前記オーディオシーン分析手段から出力された前記オブジェクトベースのオーディオ信号をエンコードするオブジェクトベースエンコーダと、
前記オーディオシーン情報をエンコードするオーディオシーンエンコード手段と、
を備え、
前記オーディオシーン分析手段は、少なくともオブジェクトベースのオーディオ信号の知覚的重要度情報を抽出し、それに応じて前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号とのそれぞれに割り当てられる符号化ビット数を決定し、
前記チャネルベースエンコーダは、前記符号化ビット数に応じて、前記チャネルベースのオーディオ信号をエンコードし、
前記オブジェクトベースエンコーダは、前記符号化ビット数に応じて、前記オブジェクトベースのオーディオ信号をエンコードする
オーディオエンコード装置。

【請求項2】

前記オーディオシーン分析手段は、さらに、
前記入力信号から、前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号とを分離して出力する
請求項１記載のオーディオエンコード装置。

【請求項3】

前記オーディオシーン分析手段は、
前記入力信号のうちの前記オブジェクトベースのオーディオ信号に含まれるオーディオオブジェクトの数、
それぞれの前記オーディオオブジェクトの音の大きさ、
前記オーディオオブジェクトの音の大きさの遷移、
それぞれの前記オーディオオブジェクトの位置、
前記オーディオオブジェクトの位置の軌跡、
それぞれの前記オーディオオブジェクトの周波数特性、
それぞれの前記オーディオオブジェクトのマスキング特性、および、
前記オーディオオブジェクトと映像信号との関係、
の少なくともいずれかを検出し、それに応じて、
前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号のそれぞれに割り当てる前記符号化ビット数を決定する
請求項１記載のオーディオエンコード装置。

【請求項4】

前記オーディオシーン分析手段は、
前記入力信号のうちの前記オブジェクトベースのオーディオ信号に含まれる複数のオーディオオブジェクトのそれぞれの音の大きさ、
複数の前記オーディオオブジェクトのそれぞれの音の大きさの遷移、
それぞれの前記オーディオオブジェクトの位置、
前記オーディオオブジェクトの軌跡、
それぞれの前記オーディオオブジェクトの周波数特性、
それぞれの前記オーディオオブジェクトのマスキング特性、および、
前記オーディオオブジェクトと映像信号との関係、
の少なくともいずれかを検出し、それに応じて、
各前記オーディオオブジェクトに割り当てる前記符号化ビット数を決定する
請求項１記載のオーディオエンコード装置。

【請求項5】

前記オブジェクトベースのオーディオ信号の知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果と対としてビットストリームに格納され、
前記知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果の前に配置される
請求項３記載のオーディオエンコード装置。

【請求項6】

前記それぞれのオーディオオブジェクトの知覚的重要度情報のエンコード結果は、前記それぞれのオーディオオブジェクトのエンコード結果と対としてビットストリームに格納され、
前記知覚的重要度情報のエンコード結果は、前記オーディオオブジェクトのエンコード結果の前に配置される
請求項４記載のオーディオエンコード装置。

【請求項7】

入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、
前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、
前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号をオーディオオブジェクトとしてエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、
前記オーディオデコード装置は、
前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、
オブジェクトベースのオーディオ信号を複数のオーディオオブジェクトとしてエンコードしたオブジェクトベース符号化信号と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、
前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、
前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、
前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有し、
前記複数のオーディオオブジェクトの中で再生しないものを決定し、前記複数のオーディオオブジェクトのうち、当該再生しないオーディオオブジェクトを当該オーディオオブジェクトの符号化ビット数に基づいて読み飛ばす
オーディオデコード装置。

【請求項8】

入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、
前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、
前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号をオーディオオブジェクトとしてエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、
前記オーディオデコード装置は、
前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、
オブジェクトベースのオーディオ信号を複数のオーディオオブジェクトとしてエンコードしたオブジェクトベース符号化信号と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、
前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、
前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、
前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有し、
前記オーディオシーン情報は、前記複数のオーディオオブジェクトの知覚的重要度情報であり、デコードに必要な演算資源が不足している場合は、前記複数のオーディオオブジェクトのうち、知覚的重要度の低いオーディオオブジェクトを読み飛ばすことができることを表す情報である
オーディオデコード装置。

【請求項9】

前記オーディオシーン情報は、オーディオオブジェクト位置情報であり、当該情報と、別途指示される再生側スピーカ配置情報と、別途指示されるあるいは予め想定しているリスナーの位置情報とから各スピーカへのダウンミックスする際のＨＲＴＦ（頭部伝達関数：ＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）係数を決定する
請求項７記載のオーディオデコード装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、信号を圧縮符号化するオーディオエンコード装置、および、符号化された信号を復号化するオーディオデコード装置に関する。

【背景技術】

【0002】

近年、オブジェクトベースオーディオシステムで、背景音を扱うことのできるシステムが提案されている（例えば、非特許文献１参照）。この技術によれば、背景音は、マルチチャネルバックグラウンドオブジェクト（ＭＢＯ）として、マルチチャネル信号として入力されるが、入力された信号は、ＭＰＳエンコーダ（ＭＰＥＧＳｕｒｒｏｕｎｄｅｎｃｏｄｅｒ）によって１ｃｈ或いは２ｃｈの信号として圧縮され、それを１つのオブジェクトとして扱うことが提案されている（例えば、非特許文献２参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Jonas Engdeg ard, Barbara Resch, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert2, Andreas Hoelzer, Leonid Terentiev, Jeroen Breebaart, Jeroen Koppens, Erik Schuijers and Werner Oomen, “Spatial Audio Object Coding （SAOC） The Upcoming MPEG Standard on Parametric Object Based Audio Coding.”in AES 124th Convention, Amsterdam, 2008, May 17-20.

【非特許文献2】ISO／IEC 23003-1

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記のような構成の場合、背景音は１ｃｈあるいは２ｃｈに圧縮されるので、デコード側で完全にはもとの背景音に復元できず、音質が劣化するという課題がある。また、背景音のデコード処理には、多大な演算が必要となる。

【0005】

本開示は、このような課題に鑑みてなされたものであって、高音質かつデコード時の演算量の少ないオーディオエンコード装置およびオーディオデコード装置を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記の課題を解決するために、本開示の一態様に係るオーディオエンコード装置は、入力信号をエンコードするオーディオエンコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記入力信号からオーディオシーンを判定し、オーディオシーン情報を検出するオーディオシーン分析手段と、前記オーディオシーン分析手段から出力された前記チャネルベースのオーディオ信号をエンコードするチャネルベースエンコーダと、前記オーディオシーン分析手段から出力された前記オブジェクトベースのオーディオ信号をエンコードするオブジェクトベースエンコーダと、前記オーディオシーン情報をエンコードするオーディオシーンエンコード手段と、を備える。

【0007】

また、本開示の一態様に係るオーディオデコード装置は、入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号をエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、前記オーディオデコード装置は、前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有する。

【発明の効果】

【0008】

本開示によれば、高音質かつデコード時の演算量の少ないオーディオエンコード装置およびオーディオデコード装置を提供することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施の形態１にかかるオーディオエンコード装置の構成を示す図である。

【図2】図２は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図3】図３は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図4】図４は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図5】図５は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図6】図６は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図7】図７は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図8】図８は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図9】図９は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図10】図１０は、オーディオオブジェクトの知覚的重要度を判定する方法の一例を示す図である。

【図11】図１１は、ビットストリームの構成を示す図である。

【図12】図１２は、実施の形態２にかかるオーディオデコード装置の構成を示す図である。

【図13】図１３は、ビットストリームの構成と読み飛ばし再生の様子を示す図である。

【図14】図１４は、実施の形態２にかかるオーディオデコード装置の構成を示す図である。

【図15】図１５は、従来技術にかかるチャネルベースオーディオの構成を示す図である。

【図16】図１６は、従来技術にかかるオブジェクトベースオーディオの構成を示す図である。

【発明を実施するための形態】

【0010】

（本開示の基礎となった知見）
本開示の実施形態について説明する前に、本開示の基礎となった知見について説明する。

【0011】

チャネルベースオーディオシステムおよびオブジェクトベースオーディオシステムにより、背景音をエンコードおよびデコードする音場再生技術が知られている。

【0012】

チャネルベースオーディオシステムの構成を、図１５に示す。

【0013】

チャネルベースオーディオシステムでは、収音した音源群（ギター、ピアノ、ボーカルなど）を、システムが想定している再生スピーカ配置に応じて予めレンダリングする。レンダリングとは、各音源が意図した位置に音像を結ぶように各スピーカに当該音源の信号を割り振ることである。例えば、システムが想定しているスピーカ配置が５ｃｈの場合、収音した音源群が５ｃｈのスピーカで適切な音像位置に再生されるように各チャネルに収音した音源群をそれぞれ割り振る。そのようにして生成された各チャネルの信号をエンコードし、記録、伝送する。

【0014】

デコーダ側では、スピーカの構成（チャネル数）が、システムが想定している構成である場合、デコード信号をそのまま各スピーカに割り振る。そうでない場合は、スピーカの構成に合わせて、デコード信号をＵｐＭｉｘ（デコード信号のチャネル数より大きな数のチャネル数に変換）あるいはＤｏｗｎＭｉｘ（デコード信号のチャネル数より小さい数のチャネル数に変換）する。

【0015】

すなわち、図１５に示すように、チャネルベースオーディオシステムは、収音した音源をレンダラーにより５ｃｈの信号に割り振り、チャネルベースエンコーダにより符号化し、符号化信号を記録及び伝送する。その後、チャネルベースデコーダにより復号し、復号された５ｃｈの音場と、さらに２ｃｈ又は７．１ｃｈにダウンミックスされた音場とを、スピーカにより再生する。

【0016】

このシステムの長所は、デコード側のスピーカの構成が、システムが想定しているものである場合、デコード側に負荷を掛けずに最適な音場が再生できることである。また、背景音や残響を伴う音響信号などは、予め適切に各チャネル信号に加えておくことで適切に表現できる。

【0017】

このシステムの短所は、デコード側のスピーカの構成が、システムが想定しているものでない場合、ＵｐＭｉｘやＤｏｗｎＭｉｘの演算負荷を伴って処理しなくてはならず、しかも、それでもなお最適な音場が再生できないことである。

【0018】

オブジェクトベースオーディオシステムの構成を、図１６に示す。

【0019】

オブジェクトベースオーディオシステムでは、収音した音源群（ギター、ピアノ、ボーカルなど）を、そのままオーディオオブジェクトとして、エンコードし、記録及び伝送する。その際、各音源の再生位置情報も併せて、記録及び伝送する。デコーダ側では、音源の位置情報とスピーカ配置に応じて各オーディオオブジェクトをレンダリングする。

【0020】

例えば、デコード側のスピーカ配置が５ｃｈの場合、５ｃｈのスピーカによって、各オーディオオブジェクトがそれぞれの再生位置情報に即した位置で再生されるように、各チャネルにオーディオオブジェクトをそれぞれ割り振る。

【0021】

すなわち、図１６に示すように、オブジェクトベースオーディオシステムは、収音した音源群をオブジェクトベースエンコーダにより符号化し、符号化信号を記録及び伝送する。その後、オブジェクトベースデコーダにより復号し、２ｃｈ、５．１ｃｈ又は７．１ｃｈのレンダラーを介して、各チャネルのスピーカにより音場を再生する。

【0022】

このシステムの長所は、再生側のスピーカ配置に応じて、最適な音場が再生できることである。

【0023】

このシステムの短所は、デコーダ側に演算負荷がかかることと、背景音や残響を伴う音響信号などをオーディオオブジェクトとして適切に表現できないことである。

【0024】

ここで、近年、オブジェクトベースオーディオシステムで、背景音を扱うことのできるシステムが提案されている。この技術によれば、背景音は、マルチチャネルバックグラウンドオブジェクト（ＭＢＯ）として、マルチチャネル信号として入力されるが、ＭＰＳエンコーダによって、１ｃｈ或いは２ｃｈ信号として圧縮され、それを１つのオブジェクトと扱うことが提案されている。その構成は、非特許文献１のＦｉｇｕｒｅ５：ＡｒｃｈｉｔｅｃｔｕｒｅｏｆｔｈｅＳＡＯＣｓｙｓｔｅｍｈａｎｄｌｉｎｇｔｈｅＭＢＯに示されている。

【0025】

しかしながら、上記のようなオブジェクトベースオーディオシステムの構成の場合、背景音は１ｃｈあるいは２ｃｈに圧縮されるので、デコード側で完全にはもとの背景音に復元できない、という課題がある。また、その処理には多大の演算量が必要という課題もある。

【0026】

また、従来のオブジェクトベースオーディオシステムでは、オブジェクトベースのオーディオ信号を圧縮符号化する際の各オーディオオブジェクトに対するビット割り当ての指針が確立していない。

【0027】

以下に説明するオーディオエンコード装置およびオーディオデコード装置は、このような従来の課題に鑑みてなされたものであって、チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とを入力とし、高音質でしかもデコード時の演算量の少ないオーディオエンコード装置およびオーディオデコード装置である。

【0028】

すなわち、上記の課題を解決するために、オーディオエンコード装置は、入力信号をエンコードするオーディオエンコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記入力信号からオーディオシーンを判定し、オーディオシーン情報を検出するオーディオシーン分析手段と、前記オーディオシーン分析手段から出力された前記チャネルベースのオーディオ信号をエンコードするチャネルベースエンコーダと、前記オーディオシーン分析手段から出力された前記オブジェクトベースのオーディオ信号をエンコードするオブジェクトベースエンコーダと、前記オーディオシーン情報をエンコードするオーディオシーンエンコード手段と、を備える。

【0029】

この構成によれば、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とを適切に共存させながら符号化することができる。

【0030】

また、前記オーディオシーン分析手段は、さらに、前記入力信号から、前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号とを分離して出力する。

【0031】

この構成によれば、チャネルベースのオーディオ信号からオブジェクトベースのオーディオ信号へ変換、あるいはその逆を、適切に実施できる。

【0032】

また、前記オーディオシーン分析手段は、少なくともオブジェクトベースのオーディオ信号の知覚的重要度情報を抽出し、それに応じて前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号とのそれぞれに割り当てられる符号化ビット数を決定し、前記チャネルベースエンコーダは、前記符号化ビット数に応じて、前記チャネルベースのオーディオ信号をエンコードし、前記オブジェクトベースエンコーダは、前記符号化ビット数に応じて、前記オブジェクトベースのオーディオ信号をエンコードする。

【0033】

この構成によれば、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とに適切の符号化ビットを割り当てることができる。

【0034】

また、前記オーディオシーン分析手段は、前記入力信号のうちの前記オブジェクトベースのオーディオ信号に含まれるオーディオオブジェクトの数、それぞれの前記オーディオオブジェクトの音の大きさ、前記オーディオオブジェクトの音の大きさの遷移、それぞれの前記オーディオオブジェクトの位置、前記オーディオオブジェクトの位置の軌跡、それぞれの前記オーディオオブジェクトの周波数特性、それぞれの前記オーディオオブジェクトのマスキング特性、および、前記オーディオオブジェクトと映像信号との関係、の少なくともいずれかを検出し、それに応じて、前記チャネルベースのオーディオ信号と前記オブジェクトベースのオーディオ信号のそれぞれに割り当てる前記符号化ビット数を決定する。

【0035】

この構成によれば、オブジェクトベースのオーディオ信号の知覚的重要度を正確に算出できる。

【0036】

また、前記オーディオシーン分析手段は、前記入力信号のうちの前記オブジェクトベースのオーディオ信号に含まれる複数のオーディオオブジェクトのそれぞれの音の大きさ、複数の前記オーディオオブジェクトのそれぞれの音の大きさの遷移、それぞれの前記オーディオオブジェクトの位置、前記オーディオオブジェクトの軌跡、それぞれの前記オーディオオブジェクトの周波数特性、それぞれの前記オーディオオブジェクトのマスキング特性、および、前記オーディオオブジェクトと映像信号との関係、の少なくともいずれかを検出し、それに応じて、各前記オーディオオブジェクトに割り当てる前記符号化ビット数を決定する。

【0037】

この構成によれば、複数のオブジェクトベースのオーディオ信号の知覚的重要度を正確に算出できる。

【0038】

また、前記オブジェクトベースのオーディオ信号の知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果と対としてビットストリームに格納され、前記知覚的重要度情報のエンコード結果は、前記オブジェクトベースのオーディオ信号のエンコード結果の前に配置される。

【0039】

この構成によれば、オブジェクトベースのオーディオ信号とその知覚的重要度情報とがデコーダ側で容易に把握できる。

【0040】

また、前記それぞれのオーディオオブジェクトの知覚的重要度情報のエンコード結果は、前記それぞれのオーディオオブジェクトのエンコード結果と対としてビットストリームに格納され、前記知覚的重要度情報のエンコード結果は、前記オーディオオブジェクトのエンコード結果の前に配置される。

【0041】

この構成によれば、個々のオーディオオブジェクトとその知覚的重要度情報とがデコーダ側で容易に把握できる。

【0042】

また、上記の課題を解決するために、オーディオデコード装置は、入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号をオーディオオブジェクトとしてエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、前記オーディオデコード装置は、前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有する。

【0043】

この構成によれば、オーディオシーンを適切に反映した再生がおこなえることとなる。

【0044】

また、前記オーディオシーン情報は、オーディオオブジェクトの符号化ビット数情報であり、別途指示される情報に基づいて前記オーディオオブジェクトの中で再生しないものを決定し、当該再生しないオーディオオブジェクトを当該オーディオオブジェクトの符号化ビット数に基づいて読み飛ばす。

【0045】

この構成によれば、再生時の状況に応じて適切にオーディオオブジェクトを読み飛ばすことができる。

【0046】

また、前記オーディオシーン情報は、前記オーディオオブジェクトの知覚的重要度情報であり、デコードに必要な演算資源が不足している場合は、知覚的重要度の低い前記オーディオオブジェクトを読み飛ばすことができることを表す情報である。

【0047】

この構成によれば、演算容量の小さいプロセッサでもできるだけ音質を維持して再生できる。

【0048】

また、前記オーディオシーン情報は、オーディオオブジェクト位置情報であり、当該情報と、別途指示される再生側スピーカ配置情報と、別途指示されるあるいは予め想定しているリスナーの位置情報とから各スピーカへのダウンミックスする際のＨＲＴＦ（頭部伝達関数：ＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）係数を決定する。

【0049】

この構成によれば、リスナーの位置情報に応じて高い臨場感で再生できる。

【0050】

以下、前述したオーディオエンコード装置およびオーディオデコード装置の一態様として、実施の形態を示す。なお、以下で説明する実施の形態は、いずれも一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態等は、一例であり、本発明を限定する主旨ではない。本発明は、請求の範囲によって特定される。よって、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。

【0051】

（実施の形態１）
以下、実施の形態１にかかるオーディオエンコード装置について図面を参照しながら説明する。

【0052】

図１は、本実施の形態にかかるオーディオエンコード装置の構成を示す図である。

【0053】

図１に示すように、オーディオエンコード装置は、オーディオシーン分析手段１００と、チャネルベースエンコーダ１０１と、オブジェクトベースエンコーダ１０２と、オーディオシーンエンコード手段１０３と、多重化手段１０４とを備えている。

【0054】

オーディオシーン分析手段１００は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなる入力信号からオーディオシーンを判定し、オーディオシーン情報を検出する。

【0055】

チャネルベースエンコーダ１０１は、オーディオシーン分析手段１００の出力信号であるチャネルベースのオーディオ信号を、オーディオシーン分析手段１００の出力信号であるオーディオシーン情報に基づいてエンコードする。

【0056】

オブジェクトベースエンコーダ１０２は、オーディオシーン分析手段１００の出力信号であるオブジェクトベースのオーディオ信号を、オーディオシーン分析手段１００の出力信号であるオーディオシーン情報に基づいてエンコードする。

【0057】

オーディオシーンエンコード手段１０３は、オーディオシーン分析手段１００の出力信号であるオーディオシーン情報をエンコードする。

【0058】

多重化手段１０４は、チャネルベースエンコーダ１０１の出力信号であるチャネルベース符号化信号と、オブジェクトベースエンコーダ１０２の出力信号であるオブジェクトベース符号化信号と、オーディオシーンエンコード手段１０３の出力信号であるオーディオシーン符号化信号とを多重化してビットストリームを生成し、出力する。

【0059】

以上のように構成されたオーディオエンコード装置の動作について、以下説明する。

【0060】

まず、オーディオシーン分析手段１００において、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなる入力信号からオーディオシーンを判定し、オーディオシーン情報を検出する。

【0061】

オーディオシーン分析手段１００の機能は大きく分けて２種類である。一つは、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号を再構成する機能、もう一つは、オブジェクトベースのオーディオ信号の個々の要素であるオーディオオブジェクトの知覚的重要度を判定すること、である。

【0062】

本実施の形態にかかるオーディオシーン分析手段１００は、その２つの機能を同時に備えている。なお、オーディオシーン分析手段１００は、その２つの機能のうちの片方だけを備えていてもよい。

【0063】

まず、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号を再構成する機能について述べる。

【0064】

オーディオシーン分析手段１００は、入力されたチャネルベースのオーディオ信号を解析し、特定のチャネル信号が他のチャネル信号から独立したものであった場合、当該チャネル信号をオブジェクトベースのオーディオ信号に組み入れる。その場合、オーディオ信号の再生位置情報は、当該チャネルのスピーカが置かれるはずの位置とする。

【0065】

例えば、センターチャネルの信号にのみ台詞（セリフ）が記録されている場合、当該チャネルの信号をオブジェクトベースのオーディオ信号（オーディオオブジェクト）にしてもよい。この場合、当該オーディオオブジェクトの再生位置はセンターとなる。そうすることで、仮にセンターチャネルのスピーカを物理的制約の中でセンター位置に置けない場合などでも、再生側（デコーダ側）において、他のスピーカを用いて、センター位置にレンダリングできる。

【0066】

一方、背景音や残響を伴う音響信号は、チャネルベースのオーディオ信号として出力される。そうすることで、デコーダ側で高音質にかつ少ない演算量で再生処理できる。

【0067】

さらに、オーディオシーン分析手段１００は、入力されたオブジェクトベースのオーディオ信号を解析し、特定のオーディオオブジェクトが、特定のスピーカ位置に存在している場合、当該オーディオオブジェクトを上記スピーカから出音されるチャネル信号にミキシングしてもよい。

【0068】

例えば、ある楽器の音を表すオーディオオブジェクトが、右側スピーカの位置に存在している場合、当該オーディオオブジェクトを右スピーカから出音されるチャネル信号にミキシングしてもよい。そうすることで、オーディオオブジェクトの数を１つ減らすことができるので、伝送や記録時のビットレートの削減に寄与する。

【0069】

次に、オーディオシーン分析手段１００の機能の中の、オーディオオブジェクトの知覚的重要度を判定する機能について述べる。

【0070】

オーディオシーン分析手段１００は、図２に示すように、音圧レベルの高いオーディオオブジェクトが音圧レベルの低いオーディオオブジェクトより知覚的重要度が高いと判断する。音圧レベルの高い音に多くの注意を払うというリスナーの心理を反映するためである。

【0071】

例えば、図２において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２よりも音圧レベルが高い。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。

【0072】

オーディオシーン分析手段１００は、図３に示すように、再生位置がリスナーに近づくオーディオオブジェクトは、再生位置がリスナーから遠ざかるオーディオオブジェクトより、知覚的重要度が高いと判断する。近づいてくる物体に多くの注意を払うというリスナーの心理を反映するためである。

【0073】

例えば、図３において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、リスナーに近づく音源であり、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２は、リスナーから遠ざかる音源である。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。

【0074】

オーディオシーン分析手段１００は、図４に示すように、再生位置がリスナーの前方にあるオーディオオブジェクトを、再生位置がリスナーの後方にあるオーディオオブジェクトより知覚的重要度が高いと判断する。

【0075】

また、オーディオシーン分析手段１００は、再生位置がリスナーの正面にあるオーディオオブジェクトを、再生位置が上方にあるオーディオオブジェクトより知覚的重要度が高いと判断する。リスナーの前方にある物体に対するリスナーの感度は、リスナーの側面にある物体に対する感度より高く、リスナーの側面にある物体に対するリスナーの感度は、リスナーの上下にある物体に対する感度より知覚的重要度が高いためである。

【0076】

例えば、図４において、白丸１で示すＳｏｕｎｄＳｏｕｒｃｅ３は、リスナーの前方の位置にあり、白丸２で示すＳｏｕｎｄＳｏｕｒｃｅ４は、リスナーの後方の位置にある。この場合、ＳｏｕｎｄＳｏｕｒｃｅ３は、ＳｏｕｎｄＳｏｕｒｃｅ４よりも知覚的重要度が高いと判断される。また、図４において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、リスナーの正面の位置にあり、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２は、リスナーの上方の位置にある。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。

【0077】

オーディオシーン分析手段１００は、図５に示すように、再生位置がリスナーの左右に移動するオーディオオブジェクトを、再生位置がリスナーの前後に移動するオーディオオブジェクトより知覚的重要度が高いと判断する。また、オーディオシーン分析手段１００は、再生位置がリスナー前後に移動するオーディオオブジェクトを、再生位置がリスナーの上下を移動するオーディオオブジェクトより知覚的重要度が高いと判断する。これは、左右の動きに対するリスナーの感度が、前後の動きに対するリスナーの感度より高く、前後の動きに対するリスナーの感度が、上下の動きに対するリスナーの感度より高いためである。

【0078】

例えば、図５において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ１は、リスナーに対して左右に移動し、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ２は、リスナーに対して前後に移動し、黒丸３で示すＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ３は、リスナーに対して上下に移動する。この場合、ＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ１は、ＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ２よりも知覚的重要度が高いと判断される。また、ＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ２は、ＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ３よりも知覚的重要度が高いと判断される。

【0079】

オーディオシーン分析手段１００は、図６に示すように、再生位置が移動しているオーディオオブジェクトを、再生位置が静止しているオーディオオブジェクトより知覚的重要度が高いと判断する。また、オーディオシーン分析手段１００は、移動の速度が速いオーディオオブジェクトを、移動の速度が遅いオーディオオブジェクトより知覚的重要度が高いと判断する。これは、聴覚の音源の動きに対するリスナーの感度が高いためである。

【0080】

例えば、図６において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ１は、リスナーに対して移動し、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ２は、リスナーに対して静止している。この場合、ＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ１は、ＳｏｕｎｄＳｏｕｒｃｅｔｒａｊｅｃｔｏｒｙ２よりも知覚的重要度が高いと判断される。

【0081】

オーディオシーン分析手段１００は、図７に示すように、画面に当該物体が映し出されているオーディオオブジェクトを、そうでないオーディオオブジェクトより知覚的重要度が高いと判断する。

【0082】

例えば、図７において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、リスナーに対して静止又は移動し、併せて、画面に映っている。また、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２は、その位置がＳｏｕｎｄＳｏｕｒｃｅ１と同一である。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。

【0083】

オーディオシーン分析手段１００は、図８に示すように、少ないスピーカによってレンダリングされているオーディオオブジェクトを、多くのスピーカによってレンダリングされているオーディオオブジェクトより知覚的重要度が高いと判断する。これは、多くのスピーカによってレンダリングされているオーディオオブジェクトは、少ないスピーカによってレンダリングされているオーディオオブジェクトより、音像を正確に再現できると想定されるので、少ないスピーカによってレンダリングされているオーディオオブジェクトをより正確に符号化するべきである、という考えに基づく。

【0084】

例えば、図８において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、１つのスピーカによってレンダリングされ、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２は、ＳｏｕｎｄＳｏｕｒｃｅ１よりも多い４つのスピーカによってレンダリングされている。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。

【0085】

オーディオシーン分析手段１００は、図９に示すように、聴覚上感度の高い周波数成分を多く含むオーディオオブジェクトを、聴覚上感度の高くない周波数成分を多く含むオーディオオブジェクトより知覚的重要度が高いと判断する。

【0086】

例えば、図９において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、人間の声の周波数帯域の音であり、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２は、航空機の飛行音等の周波数帯域の音であり、黒丸３で示すＳｏｕｎｄＳｏｕｒｃｅ３は、リスナーに対して上下に移動する。ここで、人間の聴覚は、人間の声の周波数成分を含む音（オブジェクト）に対しては感度が高く、航空機の飛行音など人間の声の周波数より高い周波数成分を含む音に対しては感度が中程度であり、ベースギターなど人間の声の周波数より低い周波数成分を含む音に対しては感度が低い。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。また、ＳｏｕｎｄＳｏｕｒｃｅ２は、ＳｏｕｎｄＳｏｕｒｃｅ３よりも知覚的重要度が高いと判断される。

【0087】

オーディオシーン分析手段１００は、図１０に示すように、マスキングされる周波数成分を多く含むオーディオオブジェクトを、マスキングされない周波数成分を多く含むオーディオオブジェクトより知覚的重要度が低いと判断する。

【0088】

例えば、図１０において、黒丸１で示すＳｏｕｎｄＳｏｕｒｃｅ１は、爆発音であり、黒丸２で示すＳｏｕｎｄＳｏｕｒｃｅ２は、人の聴覚において、爆発音よりマスキングされる周波数を多く含む銃声音である。この場合、ＳｏｕｎｄＳｏｕｒｃｅ１は、ＳｏｕｎｄＳｏｕｒｃｅ２よりも知覚的重要度が高いと判断される。

【0089】

オーディオシーン分析手段１００は、上記のように各オーディオオブジェクトの知覚的重要度を判定し、その総量に応じて、オブジェクトベースエンコーダとチャネルベースエンコーダとで符号化する際にビット数をそれぞれ割り振る。

【0090】

その方法は、例えば以下のとおりである。

【0091】

チャネルベースの入力信号のチャネル数をＡ、オブジェクトベースの入力信号のオブジェクト数をＢ、チャネルベースに対する重みをａ、オブジェクトベースに対する重みをｂ、符号化に利用できる総ビット数をＴ（Ｔはすでにオーディオシーン情報に与えられるビット数やヘッダ情報に与えられるビット数を差し引いた、チャネルベースとオブジェクトベースのオーディオ信号に与えられる総ビット数を表している）としたとき、オブジェクトベースの信号に対して、まず、Ｔ^＊（ｂ^＊Ｂ／（ａ^＊Ａ＋ｂ^＊Ｂ））で、算出されるビット数を一旦仮に割り当てる。つまり、個々のオーディオオブジェクトには、それぞれＴ^＊（ｂ／（ａ^＊Ａ＋ｂ^＊Ｂ））で算出されるビット数が割り当てられる。ここで、ａ、ｂは、それぞれ１．０近傍の正の値であるが、具体的な値は、コンテンツの性質やリスナーの嗜好に合わせて定めればよい。

【0092】

次に、個々のオーディオオブジェクトごとに、図２から図１０で示したような方法でその知覚的重要度を判定し、知覚的重要度が高い場合は１を超える値を、低い場合は１を下回る値を、個々のオーディオオブジェクトに割り当てられたビット数に掛ける。そのような処理を全てのオーディオオブジェクトに実施し、その総計を計算する。その総計がＸである場合、Ｙ＝Ｔ−ＸとしてＹを求め、Ｙをチャネルベースオーディオ信号の符号化用に割り当てる。個々のオーディオオブジェクトには、上記計算した個々の値のビット数を割り当てる。

【0093】

図１１の（ａ）は、そのようにして割り当てられたビット数の、オーディオフレーム毎の配分の例を示している。図１１の（ａ）において、斜縞模様部分はチャネルベースのオーディオ信号の符号量の総量を示す。横縞模様部分は、オブジェクトベースのオーディオ信号の符号量の総量を示す。白部分は、オーディオシーン情報の符号量の総量を示す。

【0094】

図１１の（ａ）において、区間１は、オーディオオブジェクトが存在しない区間である。したがって、全てのビットがチャネルベースのオーディオ信号に割り当てられている。区間２は、オーディオオブジェクトが出現した際の状態を示している。区間３は、オーディオオブジェクトの知覚的重要度の総量が区間２より下がっている場合を示している。区間４は、オーディオオブジェクトの知覚的重要度の総量が区間３より上がっている場合を示している。区間５は、オーディオオブジェクトが存在しない状態を示している。

【0095】

図１１の（ｂ）および（ｃ）は、所定のオーディオフレームにおける、個々のオーディオオブジェクトのそれぞれに割り当てられたビット数の内訳とその情報（オーディオシーン情報）がどのようにビットストリームに配置されるか、の一例を示している。

【0096】

個々のオーディオオブジェクトに割り当てられるビット数は、当該オーディオオブジェクトごとの知覚的重要度によって決定される。当該オーディオオブジェクトごとの知覚的重要度（オーディオシーン情報）は、図１１の（ｂ）に示すように、ビットストリーム上の所定の場所にまとめて置かれてもよいし、図１１の（ｃ）に示すように、個々のオーディオオブジェクトに付随しておかれてもよい。

【0097】

次に、チャネルベースエンコーダ１０１は、オーディオシーン分析手段１００で割り当てられたビット数で、オーディオシーン分析手段１００から出力されるチャネルベースのオーディオ信号を符号化する。

【0098】

次に、オブジェクトベースエンコーダ１０２は、オーディオシーン分析手段１００で割り当てられたビット数で、オーディオシーン分析手段１００から出力されるオブジェクトベースのオーディオ信号を符号化する。

【0099】

次に、オーディオシーンエンコード手段１０３は、オーディオシーン情報（上記の例では、オブジェクトベースのオーディオ信号の知覚的重要度）をエンコードする。例えば、オブジェクトベースのオーディオ信号の当該オーディオフレームの情報量として符号化する。

【0100】

最後に、多重化手段１０４は、チャネルベースエンコーダ１０１の出力信号であるチャネルベース符号化信号と、オブジェクトベースエンコーダ１０２の出力信号であるオブジェクトベース符号化信号と、オーディオシーンエンコード手段１０３の出力信号であるオーディオシーン符号化信号とを多重化してビットストリームを生成する。すなわち、図１１の（ｂ）または図１１の（ｃ）に示すようなビットストリームを生成する。

【0101】

ここで、オブジェクトベース符号化信号とオーディオシーン符号化信号（この例では、オブジェクトベースのオーディオ信号の当該オーディオフレームの情報量）とを以下のように多重化する。

【0102】

（１）オブジェクトベース符号化信号とその情報量とを対として符号化する。

【0103】

（２）各オーディオオブジェクトの符号化信号とそれに対応する情報量とを対として符号化する。

【0104】

ここで、「対として」という意味は、必ずしも情報の配置が隣接していることを意味していない。「対として」とは、上記各符号化信号とそれに対応する情報量とが、関連付けられて多重化されている、という意味である。そうすることによって、デコーダ側において、オーディオシーンに応じた処理をオーディオオブジェクトごとに制御できることになる。そういう意味において、オーディオシーン符号化信号は、オブジェクトベース符号化信号より前に格納されていることが望ましい。

【0105】

上記のように、本実施の形態によれば、入力信号をエンコードするオーディオエンコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記入力信号からオーディオシーンを判定し、オーディオシーン情報を検出するオーディオシーン分析手段と、前記オーディオシーン分析手段から出力された前記チャネルベースのオーディオ信号をエンコードするチャネルベースエンコーダと、前記オーディオシーン分析手段から出力された前記オブジェクトベースのオーディオ信号をエンコードするオブジェクトベースエンコーダと、前記オーディオシーン情報をエンコードするオーディオシーンエンコード手段と、を備える。

【0106】

これによって、チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とを適切に再構成することができ、デコーダ側の高音質や演算負荷の軽減を達成できる。これは、チャネルベースで入力された信号（背景音や残響を含む音響信号）をそのままエンコードできるためである。

【0107】

また、本実施の形態にかかるオーディオエンコード装置によれば、ビットレートの削減も達成することができる。これは、チャネルベースで表現できるオーディオオブジェクトをチャネルベースの信号にミックスすることで、オーディオオブジェクトの数を減らすことができるからである。

【0108】

また、本実施の形態にかかるオーディオエンコード装置によれば、デコーダ側でのレンダリングの自由度を向上させることもできる。これは、チャネルベースの信号の中からオーディオオブジェクト化できる音を検出しオーディオオブジェクト化しで記録、伝送できるからである。

【0109】

また、本実施の形態にかかるオーディオエンコード装置によれば、チャネルベースオーディオ信号とオブジェクトベースオーディオ信号とをそれぞれエンコードする際のそれぞれに対する符号化のビット数を適切に割り当てることができる。

【0110】

（実施の形態２）
以下、実施の形態２にかかるオーディオデコード装置について図面を参照しながら説明する。

【0111】

図１２は、本実施の形態にかかるオーディオデコード装置の構成を示す図である。

【0112】

図１２に示すように、オーディオデコード装置は、分離手段２００と、オーディオシーンデコード手段２０１と、チャネルベースデコーダ２０２と、オブジェクトベースデコーダ２０３と、オーディオシーン合成手段２０４とを備える。

【0113】

分離手段２００は、分離手段２００に入力されたビットストリームから、チャネルベース符号化信号とオブジェクトベース符号化信号とオーディオシーン符号化信号とを分離する。

【0114】

オーディオシーンデコード手段２０１は、分離手段２００において分離されたオーディオシーン符号化信号をデコードし、オーディオシーン情報を出力する。

【0115】

チャネルベースデコーダ２０２は、分離手段２００において分離されたチャネルベース符号化信号をデコードし、チャネル信号を出力する。

【0116】

オブジェクトベースデコーダ２０３は、オーディオシーン情報に基づいて、オブジェクトベース符号化信号をデコードし、オブジェクト信号を出力する。

【0117】

オーディオシーン合成手段２０４は、チャネルベースデコーダ２０２の出力信号であるチャネル信号と、オブジェクトベースデコーダ２０３の出力信号であるオブジェクト信号と、別途指示されるスピーカ配置情報とに基づいて、オーディオシーンを合成する。

【0118】

以上のように構成されたオーディオデコード装置の動作について、以下説明する。

【0119】

まず、分離手段２００において、入力されたビットストリームからチャネルベース符号化信号とオブジェクトベース符号化信号とオーディオシーン符号化信号とを分離する。

【0120】

本実施の形態では、オーディオシーン符号化信号とは、各オーディオオブジェクトの知覚的重要度の情報を符号化したものとする。知覚的重要度は、各オーディオオブジェクトの情報量として符号化されていてもよいし、重要度の序列を、一位、二位、三位、などとして符号化されていてもよい。また、これらの両方であってもよい。

【0121】

オーディオシーン符号化信号は、オーディオシーンデコード手段２０１でデコードされ、オーディオシーン情報が出力される。

【0122】

次に、チャネルベースデコーダ２０２は、チャネルベース符号化信号をデコードし、オブジェクトベースデコーダ２０３は、オーディオシーン情報に基づいてオブジェクトベース符号化信号をデコードする。このとき、オブジェクトベースデコーダ２０３には、再生状況を示す付加情報が与えられる。例えば、再生状況を示す付加情報は、当該処理を実行するプロセッサの演算容量の情報であってもよい。

【0123】

なお、もし、演算容量が不足する場合は、知覚的重要度の低いオーディオオブジェクトを読み飛ばす。知覚的重要度が符号量で表されている場合、上記の読み飛ばしの処理は当該符号量の情報に基づいて実施すればよい。知覚的重要度が一位、二位、三位など序列で表されている場合、序列の低いオーディオオブジェクトを読み出して、そのまま（処理せず）捨てればよい。

【0124】

図１３は、オーディオシーン情報から、オーディオオブジェクトの知覚的重要度が低く、かつ、知覚的重要度は符号量として表されている場合に、当該符号量の情報によって読みとばしが実施されるケースを示している。

【0125】

オブジェクトベースデコーダ２０３に与えられる付加情報は、受聴者の属性情報であってもよい。例えば、受聴者が子供である場合、それに相応しいオーディオオブジェクトだけを選択しそれ以外を捨てるとしてもよい。

【0126】

ここで、読み飛ばしが実施される際、当該オーディオオブジェクトに対応した符号量に基づいてオーディオオブジェクトが読み飛ばされる。また、この場合、各オーディオオブジェクトにはメタデータが付与されており、当該オーディオオブジェクトがどういうキャラクタを示しているかが定義されているものとする。

【0127】

最後に、オーディオシーン合成手段２０４において、チャネルベースデコーダ２０２の出力信号であるチャネル信号と、オブジェクトベースデコーダ２０３の出力信号であるオブジェクト信号と、別途指示されるスピーカ配置情報とに基づいて、各スピーカに割り振る信号が決定され、再生される。

【0128】

その方法は、以下のとおりである。

【0129】

チャネルベースデコーダ２０２の出力信号は、そのまま各チャネルに割り振られる。オブジェクトベースデコーダ２０３出力信号は、オブジェクトベースオーディオにそもそも含まれるオブジェクトの再生位置情報に応じて、当該位置に音像を構成するように、各チャネルに音を分配する（レンダリングする）。その方法は、従来から知られているどのような方法でもよい。

【0130】

なお、図１４は、図１２と同じオーディオデコード装置の構成を示す概略図であるが、オーディオシーン合成手段２０４には受聴者の位置情報が入力されている点が異なる。この位置情報とオブジェクトベースデコーダ２０３にそもそも含まれるオブジェクトの再生位置情報に応じて、ＨＲＴＦを構成してもよい。

【0131】

上記のように、本実施の形態にかかるオーディオデコード装置によれば、入力信号をエンコードした符号化信号をデコードするオーディオデコード装置であって、前記入力信号は、チャネルベースのオーディオ信号とオブジェクトベースのオーディオ信号とからなり、前記符号化信号は、前記チャネルベースのオーディオ信号をエンコードしたチャネルベース符号化信号と、オブジェクトベースのオーディオ信号をエンコードしたオブジェクトベース符号化信号と、前記入力信号から抽出されたオーディオシーン情報をエンコードしたオーディオシーン符号化信号とを含むものであり、前記オーディオデコード装置は、前記符号化信号から、前記チャネルベース符号化信号と、前記オブジェクトベース符号化信号と、前記オーディオシーン符号化信号とを分離する分離手段と、前記符号化信号から前記オーディオシーン情報のエンコード信号を取り出しデコードするオーディオシーンデコード手段と、前記チャネルベースのオーディオ信号をデコードするチャネルベースデコーダと、前記オーディオシーンデコード手段でデコードされた前記オーディオシーン情報を用いて、前記オブジェクトベースのオーディオ信号をデコードするオブジェクトベースデコーダと、前記チャネルベースデコーダの出力信号と前記オブジェクトベースデコーダの出力信号とを、前記オーディオシーン情報とは別途指示されるスピーカ配置情報とに基づいて合成し、合成されたオーディオシーン合成信号を再生するオーディオシーン合成手段と、を有する。

【0132】

この構成によれば、オーディオオブジェクトの知覚的重要度をオーディオシーン情報とすることで、演算容量の小さいプロセッサで処理する場合でも、知覚的重要度に応じてオーディオオブジェクトを読み捨てることで、できるだけ音質劣化を防ぎながら再生が可能となる。

【0133】

また、本実施の形態にかかるオーディオデコード装置によれば、オーディオオブジェクトの知覚的重要度を符号量として表してオーディオシーン情報とすることで、読み飛ばしの際に、読み飛ばす量が予め把握できるので、きわめて簡単に読み飛ばし処理が実施できる。

【0134】

また、本実施の形態にかかるオーディオデコード装置によれば、オーディオシーン合成手段２０４に受聴者の位置情報を与えることで、当該位置情報と、オーディオオブジェクトの位置情報とからＨＲＴＦを生成しなら処理できる。これにより、臨場感の高いオーディオシーン合成が可能となる。

【0135】

以上、本発明の一態様に係るオーディオエンコード装置及びオーディオデコード装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものも本発明の範囲内に含まれる。

【産業上の利用可能性】

【0136】

本開示にかかるオーディオエンコード装置およびオーディオデコード装置は、背景音やオーディオオブジェクトを適切に符号化し、しかも、デコード側の演算量を軽減することができるので、オーディオ再生機器や、画像を伴ったＡＶ再生機器に広く応用できる。

【符号の説明】

【0137】

１００オーディオシーン分析手段
１０１チャネルベースエンコーダ
１０２オブジェクトベースエンコーダ
１０３オーディオシーンエンコード手段
１０４多重化手段
２００分離手段
２０１オーディオシーンデコード手段
２０２チャネルベースデコーダ
２０３オブジェクトベースデコーダ
２０４オーディオシーン合成手段

【図1】