特表2015-528926(P2015-528926A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特表2015-528926マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
<>
  • 特表2015528926-マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 図000007
  • 特表2015528926-マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 図000008
  • 特表2015528926-マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 図000009
  • 特表2015528926-マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2015-528926(P2015-528926A)
(43)【公表日】2015年10月1日
(54)【発明の名称】マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20150904BHJP
   G10L 19/00 20130101ALI20150904BHJP
   G10L 19/02 20130101ALI20150904BHJP
   H04S 5/02 20060101ALI20150904BHJP
【FI】
   G10L19/008 200
   G10L19/00 400Z
   G10L19/02 150
   H04S5/02 B
【審査請求】有
【予備審査請求】未請求
【全頁数】24
(21)【出願番号】特願2015-524812(P2015-524812)
(86)(22)【出願日】2013年8月5日
(85)【翻訳文提出日】2015年4月1日
(86)【国際出願番号】EP2013066405
(87)【国際公開番号】WO2014020182
(87)【国際公開日】20140206
(31)【優先権主張番号】61/679,404
(32)【優先日】2012年8月3日
(33)【優先権主張国】US
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LT,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】110000121
【氏名又は名称】アイアット国際特許業務法人
(72)【発明者】
【氏名】カシュトナー,トルシュテン
(72)【発明者】
【氏名】ヘッレ,ユェルゲン
(72)【発明者】
【氏名】テレンティフ,レオン
(72)【発明者】
【氏名】ヘルムート,オリファー
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA10
5D162BA01
5D162BA11
5D162BA13
5D162CB16
5D162DA21
(57)【要約】
【課題】1以上のダウンミックスチャネルを有するダウンミックス信号から1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダを提供する。
【解決手段】ダウンミックス信号には、1以上のオーディオオブジェクト信号が符号化される。デコーダは、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーおよび/もしくはノイズエネルギーに応じて、ならびに/または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーおよび/もしくはノイズエネルギーに応じて、閾値を決定する閾値決定器(110)を備える。さらに、デコーダは、閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成する処理部(120)を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
2以上のダウンミックスチャネルを有し2以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダにおいて、
前記1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定する閾値決定器(110)と、
前記閾値に応じて前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成する処理部(120)と、
を備えたデコーダ。
【請求項2】
請求項1に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成された、デコーダ。
【請求項3】
請求項2に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成された、デコーダ。
【請求項4】
請求項1から3のいずれか1項に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有する前記オーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成された、デコーダ。
【請求項5】
請求項1から4のいずれか1項に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成された、デコーダ。
【請求項6】
請求項1から5のいずれか1項に記載のデコーダにおいて、
前記ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて前記1以上のオーディオオブジェクト信号が符号化され、
前記閾値決定器(110)は、前記1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、前記複数の時間−周波数タイルのうち第1の時間−周波数タイルの第1の閾値が複数の時間−周波数タイルのうち第2の時間−周波数タイルとは異なり、
前記処理部(120)は、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて、その時間−周波数タイルの閾値に応じて、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成された、デコーダ。
【請求項7】
請求項1から6のいずれか1項に記載のデコーダにおいて、
デシベル表記の閾値T[dB]を、数式
T[dB]=Enoise[dB]−Eref[dB]−Z
により、または数式
T[dB]=Enoise[dB]−Eref[dB]
により決定するように構成され、ここで、T[dB]は、閾値をデシベルで示し、Enoise[dB]は、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記2以上のダウンミックスチャネルの数で除算した値、をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
【請求項8】
請求項1から6のいずれか1項に記載のデコーダにおいて、
閾値Tを、数式
T=Enoise/(Eref・Z)
により、または数式
T=Enoise/Eref
により決定するように構成され、ここで、Tは、閾値を示し、Enoiseは、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、またはEnoise[dB]は、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記2以上のダウンミックスチャネルの数で除算した値をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
【請求項9】
請求項1から8のいずれか1項に記載の装置において、前記処理部(120)は、前記1以上のオーディオオブジェクト信号のオブジェクト共分散行列(E)に応じて、前記2以上のダウンミックスチャネルを得るために前記2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列(D)に応じて、さらに前記閾値に応じて、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、装置。
【請求項10】
請求項9に記載の装置において、
前記処理部(120)は、ダウンミックスチャネル相互相関行列Qを転置する関数に前記閾値を適用することによって、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成され、
Qが、Q=DEDとして定義され、
Dは、前記2以上のダウンミックスチャネルを得るために前記2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列であり、
Eは、前記1以上のオーディオオブジェクト信号のオブジェクト共分散行列である、
装置。
【請求項11】
請求項10に記載の装置において、前記位処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値を計算することによって、または前記ダウンミックスチャネル相互相関行列Qの単一の値を計算することによって、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、装置。
【請求項12】
請求項10または11に記載の装置において、前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値のうちの最大の固有値に前記閾値を乗じて相対閾値を得ることによって前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、装置。
【請求項13】
請求項12に記載の装置において、
前記処理部(120)は、修正行列を生成することによって前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成され、
前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値であって、前記ダウンミックスチャネル相互相関行列Qの前記固有値のうちの前記修正閾値以上の1つの固有値、を有する固有ベクトルのみに応じて、前記修正行列を生成するように構成され、
前記処理部(120)は、転置行列を得るために前記修正行列の行列転置を実行するように構成され、
前記処理部(120)は、前記1以上のオーディオ出力チャネルを生成するために前記転置行列を1以上のダウンミックスチャネルに適用するように構成された、
装置。
【請求項14】
2以上のダウンミックスチャネルを有し2以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成する方法において、デコーダが、
前記1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定し、
前記閾値に応じて前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成する
方法。
【請求項15】
コンピュータまたは信号プロセッサで実行されるときに請求項14に記載の方法を実施するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のための装置および方法に関する。
【背景技術】
【0002】
現在のデジタルオーディオシステムでは、送信コンテンツについて、受信機側でオーディオオブジェクト関連の変更を行うことを許容することが主流となっている。これらの変更には、オーディオ信号の選択部位についてのゲイン変更、および/または空間的に分散したスピーカを通じてマルチチャネル再生を行う場合の専用オーディオオブジェクトの空間的再配置が含まれる。これは、それぞれのスピーカに対して、オーディオコンテンツの各部位を個別に伝達することによって達成される。
【0003】
つまり、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野においては、オブジェクト指向のオーディオコンテンツ再生について、ユーザの相互反応を許容したいという要望が高まっているとともに、聴覚的印象を改善するために、オーディオコンテンツまたはその一部について、個別にマルチチャネル再生を行うという拡張的可能性を利用したいというニーズがある。これによって、マルチチャネル・オーディオコンテンツの利用は、ユーザに対して、大きな改善をもたらす。例えば、三次元の聴覚的印象を得ることができ、これによって、エンタテインメント利用した場合には、さらなるユーザ満足がもたらされる。しかしながら、マルチチャネル・オーディオコンテンツは、商業環境においてもまた有用であり、例えば、電話会議に利用した場合、マルチチャネル・オーディオ再生を利用することによって、話者を容易に認識することができる。その他の潜在的用途としては、楽曲の聴き手に対して、再生レベルを個別に調整すること、および/またはヴォーカルパートや異なる楽器等の異なるパーツ(以下「オーディオオブジェクト」ともいう。)またはトラックの空間的位置を個別に調整することが考えられる。ユーザは、個人的嗜好のために、楽曲の1以上の部位の簡単な複写、教育、カラオケやリハーサル等の目的のために、そのような調整を行うことができる。
【0004】
全てのデジタルマルチチャネルまたはマルチオブジェクト・オーディオコンテンツを、そのまま、例えば、パルス符号変調(PCM)データ形式や、さらには圧縮オーディオ形式などで、個別に送信すると、非常に高いビットレートを要する。しかしながら、ビットレート効率よく、オーディオデータを送信し蓄積することが望ましい。したがって、マルチチャネル/マルチオブジェクト・アプリケーションにより生じる過度なリソース負担を回避するため、オーディオ品質とビットレート要件との間で、合理的なバランスを図ることが望ましい。
【0005】
近年、オーディオ符号化の分野においては、ビットレート効率のよいマルチチャネル/マルチオブジェクトオーディオ信号の送信/記憶に関するパラメータ技術が、例えばムービング・ピクチャー・エクスパーツ・グループ(MPEG)やその他によって導入されている。一例としては、チャネル志向のアプローチとして、MPEGサラウンド(MPS)(非特許文献1、非特許文献2)が、オブジェクト指向のアプローチとして、MPEG空間音響オブジェクト符号化(SAOC)(非特許文献3、非特許文献6、非特許文献4、非特許文献5)が挙げられる。他のオブジェクト志向アプローチは、「インフォームド情報源分離」と称される(非特許文献7、非特許文献8、非特許文献9、非特許文献10、非特許文献11、非特許文献12)。これらの技術は、対象となる出力オーディオシーン、または対象となるオーディオソースオブジェクトを、チャネル/オブジェクトのダウンミックス、および送信または蓄積されたオーディオシーンおよび/または当該オーディオシーンにおけるオーディオソースオブジェクトを記載する追加的サイド情報に基づき、再構成することを目的とする。
【0006】
そのようなシステムでのチャネル/オブジェクト関連副情報の推定および適用は、時間−周波数選択的態様で行われる。したがって、そのようなシステムは、離散フーリエ変換(DFT)、短時間フーリエ変換(STFT)またはフィルタバンク的な直交ミラーフィルタ(QMF)バンクなどの時間−周波数変換を使用する。このシステムの基本的原理を、MPEG SAOCの例を用いて図2に示す。
【0007】
STFTの場合には、時間の次元が時間ブロック数によって表され、スペクトルの次元がスペクトル係数(「ビン」)によって捕捉される。QMFの場合には、時間の次元がタイムスロット数によって表され、スペクトルの次元がサブバンド数によって捕捉される。QMFのスペクトル解像度が後続の第2のフィルタ段の適用によって向上された場合、フィルタバンク全体はハイブリッドQMFと称され、高解像度のサブバンドはハイブリッドサブバンドと称される。
【0008】
上述のように、SAOCでは、一般的な処理が、時間−周波数選択的態様で実行され、図2に示すように、各周波数帯域内で以下のように説明される:
− N個の入力オーディオ信号s・・・sを、エンコーダ処理の一部として、要素d1,1・・・dN,Pからなるダウンミックス行列を用いてP個のチャネルx・・・xへとミックスダウンする。さらに、エンコーダは、入力オーディオオブジェクトの特性を記述する副情報を抽出する(副情報推定器(SIE)モジュール)。MPEG SAOCにとって、オブジェクトのパワーの相互の関係が、そのような副情報の最も基本的なものである。
− ダウンミックス信号および副情報を送信/蓄積する。この目的のため、例えば、MPEG−1/2 Layer2または3(mp3)、MPEG−2/4 Advanced Audio Coding(AAC)など周知の知覚オーディオコーダを用いて、ダウンミックスオーディオ信号を圧縮することができる。
− 受信端において、デコーダは、概念的には、送信された副情報を用いて(復号された)ダウンミックス信号から元のオブジェクト信号を復元しようとする(「オブジェクト分離」)。そして、これらの近似オブジェクト信号
【数1】
は、図2における係数r1,1・・・rN,Mによって記述されたレンダリング行列を用いて、M個のオーディオチャネル
【数2】
によって表される目標シーンにミキシングされる。所望の目標シーンは、極端な場合では、ミキシングの中の1つだけの音源信号のレンダリングであってもよいし(音源分離シナリオ)、送信されるオブジェクトからなる他の任意の音響シーンであってもよい。例えば、出力は、単一チャネル、2チャネルステレオまたは5.1マルチチャネルの目標シーンとすることができる。
【0009】
オーディオ符号化の分野における利用可能な帯域/蓄積容量の増加および進行中の改善によって、ユーザは、徐々に増加している選択肢からマルチチャネル・オーディオ製品を選択することができる。マルチチャネル5.1オーディオフォーマットは、既にDVDおよびブルーレイ製品において標準となっている。より多くのオーディオ移送チャネルを持つMPEG−H 3D Audioのような新たなオーディオフォーマットが出現し、これは高度な没入型のオーディオ体験をエンドユーザに提供することになる。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】ISO/IEC 23003−1:2007,MPEG−D(MPEG audio technologies),Part 1:MPEG Surround,2007
【非特許文献2】C.Faller and F.Baumgarte,“Binaural Cue Coding−Part II:Schemes and applications,”IEEE Trans. on Speech and Audio Proc.,vol.11,no.6,Nov.2003
【非特許文献3】C.Faller,“Parametric Joint−Coding of Audio Sources”,120th AES Convention,Paris,2006
【非特許文献4】J.Herre,S.Disch,J.Hilpert,O.Hellmuth:“From SAC To SAOC−Recent Developments in Parametric Coding of Spatial Audio”,22nd Regional UK AES Conference,Cambridge,UK,April 2007
【非特許文献5】J.Engdegaerd,B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.Hoelzer,L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:“Spatial Audio Object Coding(SAOC)The Upcoming MPEG Standard on Parametric Object Based Audio Coding”,124th AES Convention,Amsterdam 2008
【非特許文献6】ISO/IEC,“MPEG audio technologiesPart 2:Spatial Audio Object Coding(SAOC)”,ISO/IEC JTC1/SC29/WG11(MPEG) International Standard 230032
【非特許文献7】M.Parvaix and L.Girin:“Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”,IEEE ICASSP,2010
【非特許文献8】M.Parvaix,L.Girin,J.M.Brossier:“A watermarkingbased method for informed source separation of audio signals with a single sensor”,IEEE Transactions on Audio,Speech and Language Processing,2010
【非特許文献9】A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:“Informed source separation through spectrogram coding and data embedding”,Signal Processing Journal,2011
【非特許文献10】A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informed source separation:source coding meets source separation”,IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2011
【非特許文献11】Shuhua Zhang and Laurent Girin:“An Informed Source Separation System for Speech Signals”,INTERSPEECH,2011
【非特許文献12】L.Girin and J.Pinel:“Informed Audio Source Separation from Compressed Linear Stereo Mixtures”,AES 42nd International Conference:Semantic Audio,2011
【発明の概要】
【発明が解決しようとする課題】
【0011】
パラメトリックなオーディオオブジェクト符号化手法は、現在、最大2個のダウンミックスチャネルに制限されている。この手法は、マルチチャネルのミキシング、例えば、2個だけのダウンミックスチャネルに対して、ある程度しか適用され得ない。したがって、この符号化手法によって、オーディオシーンをユーザ自身の好みに調整できるようにユーザに与えられる柔軟性は非常に制限され、例えば、スポーツ放送においてスポーツ解説者と周辺とのオーディオレベルを変化させることなどに限定される。
【0012】
さらに、現在のオーディオオブジェクト符号化手法は、エンコーダ側でのミキシング処理において、制限された多様性しか与えない。ミキシング処理は、オーディオオブジェクトの時間変数ミキシングに制限され、周波数変数ミキシングは可能でない。
【0013】
したがって、オーディオオブジェクト符号化について、改善された概念が提供されることが非常に望ましい。
【課題を解決するための手段】
【0014】
本発明の課題は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、請求項1に記載のデコーダ、請求項14に記載の方法、および請求項15のコンピュータプログラムによって解決される。
【0015】
1以上のダウンミックスチャネルを有するダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダが提供される。ダウンミックス信号は、1以上のオーディオオブジェクト信号が符号化されている。デコーダは、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーおよび/もしくはノイズエネルギーに応じて、ならびに/または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーおよび/もしくはノイズエネルギーに応じて、閾値を決定する閾値決定器を備える。さらに、デコーダは、閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成する処理部を備える。
【0016】
一実施形態によると、ダウンミックス信号は2以上のダウンミックスチャネルを有し、閾値決定器は、2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成される。
【0017】
一実施形態によると、閾値決定器は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成される。
【0018】
一実施形態によると、ダウンミックス信号には2以上のオーディオオブジェクト信号が符号化され、閾値決定器は、2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有するオーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成される。
【0019】
一実施形態では、ダウンミックス信号は2以上のダウンミックスチャネルを有し、閾値決定器は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成される。
【0020】
一実施形態によると、ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて1以上のオーディオオブジェクト信号が符号化される。閾値決定器は、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、複数の時間−周波数タイルのうち第1の時間−周波数タイルの第1の閾値が、複数の時間−周波数タイルのうち第2の時間−周波数タイルとは異なるようにする。処理部は、複数の時間−周波数タイルのうち各時間−周波数タイルについて、上記の時間−周波数タイルの場合の閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成される。
【0021】
一実施形態において、デコーダは、デシベル表記の閾値T[dB]を、数式
T[dB]=Enoise[dB]−Eref[dB]−Z
により、または数式
T[dB]=Enoise[dB]−Eref[dB]
により決定するように構成される。ここで、T[dB]は、デシベル表記の閾値を示し、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値をデシベルで示す。
【0022】
一実施形態によると、デコーダは、閾値Tを、数式
T=Enoise/(Eref・Z)
により、または数式
T=Enoise/Eref
により決定するように構成される。ここで、Tは、閾値を示し、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、Erefは、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値を示す。
【0023】
一実施形態によると、処理部は、1以上のオーディオオブジェクト信号のオブジェクト共分散行列(E)に応じて、2以上のオーディオオブジェクト信号をダウンミックスして2以上のダウンミックスチャネルを得るためのダウンミックス行列(D)に応じて、さらに閾値に応じて、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。
【0024】
一実施形態では、処理部は、ダウンミックスチャネル相互相関行列Qを転置する関数に閾値を適用することによって、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成され、ここで、QはQ=DEDとして定義され、Dは2以上のオーディオオブジェクト信号をダウンミックスして2以上のダウンミックスチャネルを得るためのダウンミックス行列であり、Eは1以上のオーディオオブジェクト信号のオブジェクト共分散行列である。
【0025】
例えば、処理部は、ダウンミックスチャネル相互相関行列Qの固有値を計算することによって、またはダウンミックスチャネル相互相関行列Qの単一の値を計算することによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。
【0026】
例えば、処理部は、ダウンミックスチャネル相互相関行列Qの最大の固有値に閾値を乗じて相対閾値を得ることによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。
【0027】
例えば、処理部は、修正行列を生成することによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。処理部は、ダウンミックスチャネル相互相関行列Qの固有ベクトルのみに応じて修正行列を生成するように構成され、それらの固有ベクトルはダウンミックスチャネル相互相関行列Qの固有値のうちの1つの固有値を有し、その1つの固有値は修正閾値以上である。さらに、処理部は、修正行列の行列転置を実行して転置行列を得るように構成される。またさらに、処理部は、転置行列を1以上のダウンミックスチャネルに適用して1以上のオーディオ出力チャネルを生成するように構成される。
【0028】
さらに、1以上のダウンミックスチャネルを有するダウンミックス信号から1以上のオーディオ出力チャネルを備えるオーディオ出力信号を生成する方法が提供される。ダウンミックス信号には、1以上のオーディオオブジェクト信号が符号化される。デコーダは:
− 1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて閾値を決定し、
− 閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成する。
【0029】
さらに、コンピュータまたは信号プロセッサで実行されるときに上記方法を実施するためのコンピュータプログラムが提供される。
【0030】
以下に、図面を参照して本発明の実施形態をより詳細に説明する。
【図面の簡単な説明】
【0031】
図1】1以上のオーディオ出力チャネルをる有するオーディオ出力信号を生成するための実施形態によるデコーダを示す。
図2】SAOC方式の概略図であり、MPEG SAOCの例を用いてそのような方式の原理を図示する。
図3】G−SAOCパラメトリックアップミックスの概念の概略を示す。
図4】一般的なダウンミックス/アップミックスの概念を示す。
【発明を実施するための形態】
【0032】
本発明の実施形態を説明する前に、現行技術のSAOC方式についての背景をさらに説明する。
【0033】
図2は、SAOCエンコーダ10およびSAOCデコーダ12の一般的構成を示す。SAOCエンコーダ10は、N個の入力オブジェクト、すなわち、オーディオ信号s1〜を受信する。具体的には、エンコーダ10は、オーディオ信号s1〜を受信し、それをダウンミックス信号18にダウンミックスするダウンミキサ16を備える。あるいは、ダウンミックスが外部から与えられ(「アーティスティックなダウンミックス」)、システムが、追加の副情報を推定して、与えられたダウンミックスを、計算されたダウンミックスに一致させるようにしてもよい。図2において、ダウンミックス信号は、Pチャネル信号として示される。ここでは、モノラル(P=1)、ステレオ(P=2)またはマルチチャネル(P>2)のいずれのダウンミックス信号構成でもよい。
【0034】
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0およびR0と表記され、モノラルダウンミックスの場合、単にL0と表記される。SAOCデコーダ12が個々のオブジェクトs1〜を受信することができるようにするため、副情報推定器17は、SAOCパラメータを含む副情報をSAOCデコーダ12に与える。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベルの差(OLD)、オブジェクト間相関(IOC)(オブジェクト間相互相関パラメータ)、ダウンミックスゲイン値(DMG)およびダウンミックスチャネルレベルの差(DCLD)を含む。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されたSAOC出力データストリームを形成する。
【0035】
SAOCデコーダ12はアップミキサを備え、このアップミキサは、副情報20とともにダウンミックス信号18を受信して、SAOCデコーダ12に入力されたレンダリング情報26により規定されているレンダリングで、オーディオ信号
【数3】
を、任意のユーザ選択によるチャネルセット
【数4】
上に復元およびレンダリングする。
【0036】
オーディオ信号sからsは、時間領域またはスペクトル領域のような何らかの符号化領域で、エンコーダ10に入力される。オーディオ信号sからsがPCM符号化されるなどして時間領域でエンコーダ10に供給される場合、エンコーダ10は、信号をスペクトル領域、すなわちオーディオ信号が異なるスペクトル部分に関連付けられた複数のサブバンドに特定のフィルタバンク解像度で表される領域、に変換するために、ハイブリッドQMFバンクのようなフィルタバンクを用いることができる。オーディオ信号sからsが、既にエンコーダ10によって想定されているような表現となっている場合には、スペクトル分解を行う必要はない。
【0037】
ミキシング処理における一層の柔軟性によって、信号オブジェクト特性の最適な利用が可能となる。感受品質に関するデコーダ側でのパラメトリック分離について、最適化されたダウンミックスを生成することができる。
【0038】
実施形態は、SAOC手法のパラメトリック部分を、任意数のダウンミックス/アップミックスチャネルに拡張する。以降の図は、一般化空間オーディオオブジェクト符号化(G−SAOC)パラメトリックアップミックスの概念の概略を示す。
【0039】
図3は、G−SAOCパラメトリックアップミックスの概念の概略を示す。パラメトリックに再構築されたオーディオオブジェクトの完全に柔軟なポストミックス(レンダリング)が実現される。
【0040】
具体的には、図3は、オーディオデコーダ310、オブジェクトセパレータ320、およびレンダラー330を示す。
【0041】
以下の表記を共通して使用することにする:
x −入力オーディオオブジェクト信号(サイズNobj
y −ダウンミックスオーディオ信号(サイズNdmx
z −レンダリングされた出力シーン信号(サイズNupmix
D −ダウンミックス行列(サイズNobj×Ndmx
R −レンダリング行列(サイズNobj×Nupmix
G −パラメトリックアップミックス行列(サイズNdmx×Nupmix
E −オブジェクト共分散行列(サイズNobj×Nobj
【0042】
導入される全ての行列は(一般に)時間および周波数の変数である。
【0043】
以下に、パラメトリックアップミックスについての構成的な関係を説明する。
【0044】
まず、一般的なダウンミックス/アップミックスの概念を図4を参照して説明する。具体的には、図4は、一般的なダウンミックス/アップミックスの概念を示し、モデル化された方式(左)およびパラメトリックアップミックス方式(右)を示す。
【0045】
より具体的には、図4は、レンダリング部410、ダウンミックス部421、およびパラメトリックアップミックス部422を示す。
【0046】
理想(モデル化)レンダリングされた出力シーン信号zが、図(左)に示されるように、
Rx=z …(1)
として規定される。
【0047】
ダウンミックスオーディオ信号yが、図4(右)に示されるように、
Dx=y …(2)
として決定される。
【0048】
パラメトリック出力シーン信号の再構築のための(ダウンミックスオーディオ信号に適用される)構成的関係を、図4(右)に示されるように、
Gy=z …(3)
として表すことができる。
【0049】
パラメトリックアップミックス行列は、数式(1)および(2)から、ダウンミックス行列およびレンダリング行列の以下の関数G=G(D,R)として規定される:
G=RED(DED−1 …(4)
【0050】
以降において、実施形態によるパラメトリック音源推定の安定性の改善を検討する。
【0051】
MPEG SAOC内のパラメトリック分離手法は、ミキシングにおける音源の最小二乗法(LMS)推定に基づく。LMS推定は、パラメトリック的に記述されたダウンミックスチャネル共分散行列Q=DEDの転置を伴う。行列転置のためのアルゴリズムは、一般に、悪条件行列の影響を受けやすい。そのような行列の転置は、レンダリングされた出力シーンの意味において、アーチファクトといわれる不自然な音をもたらす可能性がある。MPEG SAOCにおいて、ヒューリスティックに決定された固定の閾値Tが、現在のところ、これを回避する。この方法によってアーチファクトが回避されるが、これによって、デコーダ側における十分可能な分離性能が達成されなくなる。
【0052】
図1は、実施形態による、1以上のダウンミックスチャネルを有するダウンミックス信号から1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダを示す。ダウンミックス信号には、1以上のオーディオオブジェクト信号が符号化される。
【0053】
デコーダは、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーおよび/またはノイズエネルギーに応じて、もしくは1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーおよび/またはノイズエネルギーに応じて閾値を決定する閾値決定器110を備える。
【0054】
さらに、デコーダは、閾値に応じて、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するための処理部120を備える。
【0055】
現行技術とは対照的に、閾値決定器110によって決定された閾値は、1以上のダウンミックスチャネルまたは符号化された1以上のオーディオオブジェクト信号の信号エネルギーやノイズエネルギーに依存する。実施形態では、1以上のダウンミックスチャネルおよび/または1以上のオーディオオブジェクト信号値の信号エネルギーおよびノイズエネルギーが変動すると、閾値も、例えば、時間インスタンスから時間インスタンスへ、または時間−周波数タイルから時間−周波数タイルへと変動する。
【0056】
実施形態において、デコーダ側におけるオーディオオブジェクトの改善されたパラメトリック分離を実現する行列転置のための適応的閾値の方法が提供される。分離性能は、平均として良好であり、Q行列を転置するためのアルゴリズムにおいてMPEG SAOCで現在使用される固定閾値手法より悪くはならない。
【0057】
閾値Tは、各々処理された時間−周波数タイルに対するデータの精度に対して動的に適応される。したがって、分離性能は改善され、不良条件行列の転置によってもたらされるレンダリングされた出力シーンにおけるアーチファクトが回避される。
【0058】
一実施形態によると、ダウンミックス信号は2以上のダウンミックスチャネルを有し、閾値決定器110は、2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて、閾値を決定するように構成される。
【0059】
一実施形態では、閾値決定器110は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて、閾値を決定するように構成される。
【0060】
一実施形態によると、ダウンミックス信号には2以上のオーディオオブジェクト信号が符号化され、閾値決定器110は、2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有するオーディオオブジェクト信号の信号エネルギーに応じて、閾値を決定するように構成される。
【0061】
一実施形態によると、ダウンミックス信号は、2以上のダウンミックスチャネルを有し、閾値決定器110は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて、閾値を決定するように構成される。
【0062】
一実施形態によると、ダウンミックス信号には、複数の時間−周波数タイルのうちの各時間−周波数タイルについて1以上のオーディオオブジェクト信号が符号化されている。閾値決定器110は、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、複数の時間−周波数タイルのうちの各時間−周波数タイルについて、閾値を決定するように構成され、複数の時間−周波数タイルのうちの第1の時間−周波数タイルの第1の閾値が、複数の時間−周波数タイルのうちの第2の時間−周波数タイルとは異なる。処理部120は、複数の時間−周波数タイルのうちの各時間−周波数タイルについて、上記の時間−周波数タイルの場合の閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成される。
【0063】
実施形態において、デコーダは、閾値Tを、数式
T=Enoise/(Eref・Z)
により、または数式
T=Enoise/Eref
により決定するように構成される。ここで、Tは、閾値を示し、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、Erefは、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値を示す。
【0064】
一実施形態において、デコーダは、デシベル表記の閾値T[dB]を、数式
T[dB]=Enoise[dB]−Eref[dB]−Z
により、または数式
T[dB]=Enoise[dB]−Eref[dB]
により決定するように構成される。ここで、ここで、T[dB]は、デシベル表記の閾値を示し、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値をデシベルで示す。
【0065】
具体的に、閾値は、各時間−周波数タイルについて、
T[dB]=Enoise[dB]−Eref[dB]−Z …(5)
によって概算できる。
【0066】
noiseは、ノイズフロアレベルを示し、例えば、ダウンミックスチャネルにおける全ノイズエネルギーの合計である。ノイズフロアレベルは、オーディオデータの解像度によって定義され、例えば、チャネルのPCM符号化によってもたらされる。ダウンミックスが圧縮される場合には、符号化ノイズとして別の可能性を考慮することになる。そのような場合、符号化アルゴリズムによってもたらされたノイズフロアが加算される。代替の実施形態では、Enoise[dB]は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計をダウンミックスチャネル数によって除算した値をデシベルで示す。
【0067】
ref は、基準信号エネルギーを示す。最も簡単な形態では、これは、最も強いオーディオオブジェクトのエネルギーとなる。
ref=max(E) …(6)
【0068】
Zは、分離解像度に影響する追加パラメータを示し、例えば、ダウンミックスチャネル数と音源オブジェクト数の差に対処するためのペナルティファクタである。分離性能は、オーディオオブジェクト数の増加とともに減少する。さらに、分離におけるパラメトリック副情報の量子化の影響も含まれる。
【0069】
一実施形態では、処理部120は、1以上のオーディオオブジェクト信号のオブジェクト共分散行列Eに応じて、2以上のダウンミックスチャネルを得るために2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列Dに応じて、さらに閾値に応じて、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成されている。
【0070】
一実施形態によると、閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するために、処理部120が、以下のように処理を進めるように構成される:
(「分離解像度閾値」といわれる)閾値が、デコーダ側で、パラメトリックに推定されたダウンミックスチャネル相互相関行列Qを転置する関数に適用される。
Qの単一値またはQの固有値が計算される。
最大の固有値が採られ、閾値Tに乗算される。
最大の固有値以外の全てがこの相対閾値と比較され、それらが小さい場合には省かれる。
そして、行列転置が修正行列上で実行される。ここで、修正行列を、例えば少ないベクトルの組によって規定された行列としてもよい。なお、最も高い固有値以外の全てが省かれる場合には最も高い固有値が、その固有値が低ければノイズフロアレベルに設定されるべきである。
【0071】
例えば、処理部120は、修正行列を生成することによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。修正行列は、ダウンミックスチャネル相互相関行列Qのそれらの固有値のみに応じて生成され、それらの固有ベクトルは、ダウンミックスチャネル相互相関行列Qの固有値のうちの1つの固有値を有し、その1つの固有値は修正閾値以上である。処理部120は、修正行列の行列転置を実行して、転置行列を得るように構成される。そして、処理部120は、転置行列をダウンミックスチャネルの1以上に適用して、1以上のオーディオ出力チャネルを生成するように構成される。例えば、転置行列は、行列積の転置行列DEDがダウンミックスチャネルに適用されるような態様の1つにおいて、ダウンミックスチャネルの1以上に適用される(例えば、非特許文献6参照、具体的には、章「SAOC Processing」参照、より具体的には、節「Transcoding modes」および節「Decoding modes」参照)。
【0072】
閾値Tを推定するために使用され得るパラメータは、エンコーダで決定してパラメトリック副情報に埋め込んでもよいし、デコーダ側で直接推定してもよい。
【0073】
簡素化した閾値推定器をエンコーダ側で用いて、デコーダ側での音源推定における潜在的な不安定さを示すこともできる。その最も簡単な形態では、全てのノイズ項を無視し、デコーダ側における音源信号をパラメトリック的に推定するための利用可能なダウンミックスチャネルの全の可能性については利用できないことを示すダウンミックスチャネルのノルムが計算される。そのようなインジケータをミキシング処理中に用いて、音源信号の推定に重大な影響を及ぼす行列が混合するのを回避することができる。
【0074】
オブジェクト共分散行列のパラメータ化に関して、構成的な関係式(4)に基づく上記パラメトリックアップミックス方法が、オブジェクト共分散行列Eの非対角構成要素の符号に対して不変であると解される。これによって、オブジェクト間の相関を表す値の(SAOCとの比較において)より効率的なパラメータ化(量子化および符号化)ができる可能性がもたらされる。
【0075】
ダウンミックス行列を表す情報の変換に関して、一般に、共分散行列Eと共にオーディオ入力およびダウンミックス信号x、yは、エンコーダ側で決定される。ダウンミックスオーディオ信号yの符号化された表示および共分散行列Eを記述する情報が、デコーダ側に(ビットストリームのペイロードを介して)送信される。レンダリング行列Rが設定され、デコーダ側で利用可能となる。
【0076】
(エンコーダ側で適用されてデコーダ側で使用される)ダウンミックス行列Dを表す情報は、以下の基本的方法を用いて、(エンコーダで)決定され、(デコーダで)得られる。
【0077】
ダウンミックス行列Dは:
− (エンコーダで)設定および適用され、その量子化および符号化された表示が、ビットストリームのペイロードを介して、(デコーダに)明示的に送信される。
− 格納された参照テーブル(すなわち、所定のダウンミックス行列の組)を用いて、(エンコーダで)割当ておよび適用され、(デコーダで)復元される。
− 特定のアルゴリズムまたは方法(例えば、利用可能なダウンミックスチャネルに対するオーディオオブジェクトの空間的に重み付けおよび順序付けされた等距離配置)に従って、(エンコーダで)割当ておよび適用され、(デコーダで)復元される。
− 入力オーディオオブジェクトの「柔軟なミキシング」を可能とする特定の最適化基準(すなわち、デコーダ側でのオーディオオブジェクトのパラメトリック推定に最適化されたダウンミックス行列の生成)を用いて、(エンコーダで)推定および適用され、(デコーダで)復元される。例えば、エンコーダが、共分散、信号間の相関のような空間信号特性の再構築の観点で、パラメトリックなアップミックスをより効率的にし、または、パラメトリックアップミックスアルゴリズムの数値的安定性を改善または確保する態様で、ダウンミックス行列を生成する。
【0078】
与えられた実施形態は、任意のダウンミックス/アップミックスチャネル数に適用できる。それは、任意の現在または将来のオーディオフォーマットに組み合わせることができる。
【0079】
発明の方法の柔軟性によって、変更されないチャネルをバイパスして計算の複雑さを軽減し、ビットストリームのペイロードを低減させ/データ量を減少させることが可能となる。
【0080】
符号化のためのオーディオエンコーダ、方法またはコンピュータプログラムが提供される。さらに、復号化のためのオーディオデコーダ、方法またはコンピュータプログラムが提供される。またさらに、符号化された信号が提供される。
【0081】
いくつかの形態を装置との関連で説明したが、それらの形態が対応の方法の説明も兼ねることは明らかであり、ブロックまたはデバイスは方法のステップまたは方法のステップの特徴に対応する。同様に、方法ステップに関連して説明した形態はまた、対応する装置の対応のブロック、内容または特徴の記載も兼ねる。
【0082】
本発明の分解された信号は、デジタル記憶媒体に記憶され、またはインターネットのような無線伝送媒体もしくは有線伝送媒体といった伝送媒体上で伝送されることができる。
【0083】
特定の実施要件に応じて、発明の実施形態は、ハードウェアまたはソフトウェアで実施されることができる。その実施は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、例えば、フレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROM(登録商標)もしくはフラッシュメモリを用いて実行することができる。
【0084】
本発明によるいくつかの実施形態は、ここに記載された方法の1つが実行されるようなプログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを備える。
【0085】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施でき、プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働したときに方法の1つを実行するように動作するものである。プログラムコードは、例えば、機械読み取り可能なキャリア上に記憶されることができる。
【0086】
他の実施形態は、ここに記載された方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを有する。
【0087】
言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働するときに、ここに記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0088】
したがって、本発明の方法のさらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを、記録して備えるデータキャリア(すなわち、デジタル記憶媒体またはコンピュータ可読媒体)である。
【0089】
したがって、本発明の方法のさらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続、例えばインターネットを介して転送されるために構成されてもよい。
【0090】
さらなる実施形態は、ここに記載された方法の1つを実行するように構成または適合された、例えば、コンピュータまたはプログラマブルロジックデバイスなどの処理手段を含む。
【0091】
さらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0092】
実施形態によっては、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の1つを実行するために、フィールドプログラマブルゲートアレイはマイクロプロセッサと協働してもよい。一般に、それらの方法は、あらゆるハードウェア装置によって実行される。
【0093】
上述した実施形態は、本発明の原理を例示的に示しただけである。ここに記載された構成および詳細の変形例や修正例は、当業者には明白であろう。したがって、実施形態の記述および説明によってここに提示された具体的詳細によってではなく、直後に記載する特許請求の範囲によってのみ限定されることを意図するものである。
図1
図2
図3
図4
【手続補正書】
【提出日】2015年4月1日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
以上のダウンミックスチャネルを有し2以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダにおいて、
前記以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定する閾値決定器(110)と、
前記閾値に応じて前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成する処理部(120)と、
を備えたデコーダ。
【請求項2】
請求項1に記載のデコーダにおいて、
前記ダウンミックス信号は2以上のダウンミックスチャネルを有し、
前記閾値決定器(110)は、前記2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成された、デコーダ。
【請求項3】
請求項2に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成された、デコーダ。
【請求項4】
請求項1から3のいずれか1項に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有する前記オーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成された、デコーダ。
【請求項5】
請求項1からのいずれか1項に記載のデコーダにおいて、
前記ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて前記以上のオーディオオブジェクト信号が符号化され、
前記閾値決定器(110)は、前記以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、前記複数の時間−周波数タイルのうち第1の時間−周波数タイルの第1の閾値が複数の時間−周波数タイルのうち第2の時間−周波数タイルとは異なり、
前記処理部(120)は、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて、その時間−周波数タイルの閾値に応じて、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成された、デコーダ。
【請求項6】
請求項1からのいずれか1項に記載のデコーダにおいて、
前記ダウンミックス信号は2以上のダウンミックスチャネルを有し、
デシベル表記の閾値T[dB]を、数式
T[dB]=Enoise[dB]−Eref[dB]−Z
により、または数式
T[dB]=Enoise[dB]−Eref[dB]
により決定するように構成され、ここで、T[dB]は、閾値をデシベルで示し、Enoise[dB]は、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記2以上のダウンミックスチャネルの数で除算した値、をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
【請求項7】
請求項1からのいずれか1項に記載のデコーダにおいて、
閾値Tを、数式
T=Enoise/(Eref・Z)
により、または数式
T=Enoise/Eref
により決定するように構成され、ここで、Tは、閾値を示し、Enoiseは、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記2以上のダウンミックスチャネルの数で除算した値、を示し、Ere、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
【請求項8】
請求項1からのいずれか1項に記載のデコーダにおいて、前記処理部(120)は、前記1以上のオーディオオブジェクト信号のオブジェクト共分散行列(E)に応じて、前記以上のダウンミックスチャネルを得るために前記2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列(D)に応じて、さらに前記閾値に応じて、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、デコーダ
【請求項9】
請求項8に記載のデコーダにおいて、
前記処理部(120)は、ダウンミックスチャネル相互相関行列Qを転置する関数に前記閾値を適用することによって、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成され、
Qが、Q=DEDとして定義され、
Dは、前記2以上のダウンミックスチャネルを得るために前記2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列であり、
Eは、前記1以上のオーディオオブジェクト信号のオブジェクト共分散行列である、
デコーダ
【請求項10】
請求項に記載のデコーダにおいて、前記位処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値を計算することによって、または前記ダウンミックスチャネル相互相関行列Qの単一の値を計算することによって、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、デコーダ
【請求項11】
請求項または10に記載のデコーダにおいて、前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値のうちの最大の固有値に前記閾値を乗じて相対閾値を得ることによって前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、デコーダ
【請求項12】
請求項11に記載のデコーダにおいて、
前記処理部(120)は、修正行列を生成することによって前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成され、
前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値であって、前記ダウンミックスチャネル相互相関行列Qの前記固有値のうちの前記相対閾値以上の1つの固有値、を有する固有ベクトルのみに応じて、前記修正行列を生成するように構成され、
前記処理部(120)は、転置行列を得るために前記修正行列の行列転置を実行するように構成され、
前記処理部(120)は、前記1以上のオーディオ出力チャネルを生成するために前記転置行列を1以上のダウンミックスチャネルに適用するように構成された、
デコーダ
【請求項13】
以上のダウンミックスチャネルを有し2以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成する方法において
以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定し、
前記閾値に応じて前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成する
方法。
【請求項14】
コンピュータまたは信号プロセッサで実行されるときに請求項13に記載の方法を実施するためのコンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正の内容】
【0014】
本発明の課題は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、特許請求の範囲の各独立請求項にそれぞれ記載のデコーダ、方法、およびコンピュータプログラムによって解決される。
【国際調査報告】