特表2015-525905(P2015-525905A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2015-525905空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法
<>
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000020
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000021
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000022
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000023
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000024
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000025
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000026
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000027
  • 特表2015525905-空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 図000028
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2015-525905(P2015-525905A)
(43)【公表日】2015年9月7日
(54)【発明の名称】空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20150811BHJP
   H03M 7/30 20060101ALI20150811BHJP
【FI】
   G10L19/008 200
   H03M7/30 Z
【審査請求】有
【予備審査請求】有
【全頁数】33
(21)【出願番号】特願2015-525793(P2015-525793)
(86)(22)【出願日】2013年6月28日
(85)【翻訳文提出日】2015年4月10日
(86)【国際出願番号】EP2013063703
(87)【国際公開番号】WO2014023477
(87)【国際公開日】20140213
(31)【優先権主張番号】61/681,732
(32)【優先日】2012年8月10日
(33)【優先権主張国】US
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LT,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】110000121
【氏名又は名称】アイアット国際特許業務法人
(72)【発明者】
【氏名】カシュトナー,トルシュテン
(72)【発明者】
【氏名】ヘッレ,ユェルゲン
(72)【発明者】
【氏名】テレンティフ,レオン
(72)【発明者】
【氏名】ヘルムート,オリファー
(72)【発明者】
【氏名】パウルス,ヨウニ
(72)【発明者】
【氏名】リッデルブッシュ,ファルコ
【テーマコード(参考)】
5J064
【Fターム(参考)】
5J064BC02
5J064BC12
5J064BC26
(57)【要約】
【課題】1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を提供する。
【解決出願】入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、さらに入力パラメトリック副情報を含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャンネルを含み、さらにパラメトリック副情報を含む。装置は、適応情報に基づき2以上の入力オーディオダウンミックスチャンネルを適応させて、1以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器(110)を備える。さらに、装置は、適応情報に基づき入力パラメトリック副情報を適応させて、適応パラメトリック副情報を得るパラメトリック副情報適応器(120)を備える。
【選択図】 図1
【特許請求の範囲】
【請求項1】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る装置であって、
適応情報に基づき前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器(110)と、
前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を得るパラメトリック副情報適応器(120)と、
を備える装置。
【請求項2】
請求項1に記載の装置において、前記ダウンミックス信号修正器(110)は、前記1以上の適応オーディオダウンミックスチャンネルの数が前記2以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、前記適応情報に基づき、前記2以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
【請求項3】
請求項1または2に記載の装置において、前記適応情報はデコーダインスタンスに依存し、前記ダウンミックス信号修正器(110)は、前記デコーダインスタンスに応じて前記2以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
【請求項4】
請求項3に記載の装置において、
前記デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができ、
前記適応情報は、前記ダウンミックスチャンネルの最大数に依存し、
前記ダウンミックス信号修正器(110)が、前記1以上の適応オーディオダウンミックスチャンネルの数が前記ダウンミックスチャンネルの最大数に等しくなるように、前記適応情報に応じて前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを得るように構成された、装置。
【請求項5】
請求項1から4のいずれか1項に記載の装置において、前記適応情報は、適応行列DdmxDSMを含む、装置。
【請求項6】
請求項5に記載の装置において、前記ダウンミックス信号修正器(110)が、前記適応行列DdmxDSMに基づき前記2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、前記1以上の適応オーディオダウンミックスチャンネルXdmxDSMを得るように構成された、装置。
【請求項7】
請求項6に記載の装置において、前記ダウンミックス信号修正器(110)は、
【数1】
を適用することによって、前記適応行列DdmxDSMに基づき前記2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmxDSMを得るように構成された、装置。
【請求項8】
請求項5から7のいずれか1項に記載の装置において、前記パラメトリック副情報適応器(120)は、前記適応行列DdmxDSMに基づき前記入力パラメトリック副情報DdmxENCを適応させて、前記適応パラメトリック副情報DdmxPSIを得るように構成された、装置。
【請求項9】
請求項8に記載の装置において、前記パラメトリック副情報適応器(120)は、
【数2】
を適用することによって、前記適応行列DdmxDSMに基づき前記入力パラメトリック副情報DdmxENCを適応させて、適応パラメトリック副情報DdmxPSIを得るように構成された、装置。
【請求項10】
請求項8または9に記載の装置において、
前記入力パラメトリック副情報DdmxENCは、前記1以上のオーディオオブジェクトSに適用することによって前記2以上の入力オーディオダウンミックスチャンネルXdmxencが得られる初期ダウンミックス行列Ddmxencを示し、
前記パラメトリック副情報適応器(120)は、適応ダウンミックス行列DdmxPSIを前記1以上のオーディオオブジェクトSに適用することによって、前記2以上の入力オーディオダウンミックスチャンネルXdmxDSMが得られるように、前記適応ダウンミックス行列DdmxPSIを前記適応パラメトリック副情報として決定するように構成された、
装置。
【請求項11】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成する装置(700、800、801、802、900、901、902)であって、
前記入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、この入力オーディオ情報を適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る請求項1から10のいずれか1項に記載の装置(710、810、811、812、910、911、912)と、
前記適応パラメトリック副情報に基づき前記1以上の適応オーディオダウンミックスチャンネルを復号して前記1以上のオーディオチャンネルを得るデコーダインスタンス(720、820、821、822、920、921、922)と、
を備える装置。
【請求項12】
請求項11に記載の装置(700;800、801、802)において、
請求項1から10のいずれか1項に記載の装置(710、810、811、812)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
請求項1から10のいずれか1項に記載の装置(710、810、811、812)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を適応させて前記適応パラメトリック副情報を取得し、そのパラメトリック副情報を前記デコーダインスタンス(720、820、821、822)に供給するように構成され、
前記デコーダインスタンス(720、820、821、822)は、前記適応パラメトリック副情報に基づき前記1以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
装置。
【請求項13】
請求項11に記載の装置(700;900、901、902)において、
請求項1から10のいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
請求項1から10のいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記入力ビットストリーム内の前記入力パラメトリック副情報を前記適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成され、
請求項1から10のいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記修正ビットストリームを前記デコーダインスタンス(720、920、921、922)に供給するように構成され、
前記デコーダインスタンス(720、920、921、922)が、前記修正ビットストリームに応じて前記1以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
装置。
【請求項14】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る方法であって、
適応情報に基づき前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを取得し、
前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を取得する
方法。
【請求項15】
コンピュータまたは信号プロセッサによって実行されるときに請求項14に記載の方法を実施するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号復号化およびオーディオ信号処理に関し、特に、空間オーディオオブジェクト符号化(SAOC)においてオーディオ情報を適応させるデコーダおよび方法に関する。
【背景技術】
【0002】
近年のデジタルオーディオシステムでは、受信側においてオーディオオブジェクトに関連した送信コンテンツの変更修正をできるようにすることが主流となっている。これらの変更修正は、オーディオ信号の選択された部分のゲイン修正、および/または空間的に分散されるスピーカを介したマルチチャンネル再生の際の専用オーディオオブジェクトの空間的再位置決めを含む。これは、オーディオコンテンツの異なる部分を異なるスピーカに個々に配信することによって実現される。
【0003】
言い換えると、オーディオの処理、オーディオの伝送、およびオーディオの蓄積の技術において、オブジェクト指向のオーディオコンテンツ再生におけるユーザ対話を可能にすることへの要望、および聴覚的印象を向上するためにマルチチャンネル再生の拡張された可能性を利用してオーディオコンテンツまたはその一部を個々に表現することへの要求が高まっている。これによって、マルチチャンネルオーディオコンテンツの使用がユーザに大きな改善をもたらす。例えば、娯楽用途において、ユーザ満足度の向上をもたらすような、三次元の聴覚的印象が得られる。一方、マルチチャンネルオーディオコンテンツは、マルチチャンネルオーディオ再生を用いることによって話し手の明瞭度が改善されるので、例えば、電話会議用途などの仕事環境においても有用である。他に考えられる用途としては、楽曲の聴取者に、ボーカル部分または異なる楽器といった異なる部分(「オーディオオブジェクト」ともいう)やトラックの再生レベルおよび/または空間位置を個々に調整してもらうものがある。ユーザは、個人的な好み、教育的目的、カラオケ、リハーサルなどの理由により、楽曲から1以上の部分をより簡単に再生するために、そのような調整を行うことができる。
【0004】
全てのデジタルマルチチャンネルまたはマルチオブジェクト・オーディオコンテンツを、そのまま、例えば、パルス符号変調(PCM)データ形式や、さらには圧縮オーディオ形式などで、個別に送信すると、非常に高いビットレートを要する。しかしながら、ビットレート効率よく、オーディオデータを送信し蓄積することが望ましい。したがって、マルチチャンネル/マルチオブジェクト・アプリケーションにより生じる過度なリソース負担を回避するため、オーディオ品質とビットレート要件との間で、合理的なトレードオフが許容されている。
【0005】
最近では、オーディオ符号化の分野において、マルチチャンネル/マルチオブジェクトオーディオ信号のビットレート効率が良い送信/蓄積のためのパラメトリック技術が、例えば、MPEGその他によって導入されている。一例として、チャンネル指向アプローチとしてMPEGサラウンド(MPS)(非特許文献1、2)が、またオブジェクト指向アプローチとしてMPEG空間オーディオオブジェクト符号化(SAOC)(非特許文献3から5)が挙げられる。他のオブジェクト指向アプローチは、「情報化音源分離」といわれる(非特許文献7から12)。これらの技術は、所望の出力オーディオシーンまたは所望のオーディオ源オブジェクトを、チャンネル/オブジェクトならびに送信/蓄積されたオーディオシーンおよび/またはオーディオシーンにおけるオーディオ源オブジェクトを記述する付加的な副情報のダウンミックスに基づいて再構築することを目的とする。
【0006】
そのようなシステムでのチャンネル/オブジェクト関連副情報の推定および適用は、時間−周波数選択的態様で行われる。したがって、そのようなシステムは、離散フーリエ変換(DFT)、短時間フーリエ変換(STFT)またはフィルタバンク的な直交ミラーフィルタ(QMF)バンクなどの時間−周波数変換を使用する。このシステムの基本的原理を、MPEG SAOCの例を用いて、図3に示す。
【0007】
STFTの場合には、時間の次元が時間ブロック数によって表され、スペクトルの次元がスペクトル係数(「ビン」)によって捕捉される。QMFの場合には、時間の次元がタイムスロット数によって表され、スペクトルの次元がサブバンド数によって捕捉される。QMFのスペクトル解像度が後続の第2のフィルタ段の適用によって向上された場合、フィルタバンク全体はハイブリッドQMFと称され、高解像度のサブバンドはハイブリッドサブバンドと称される。
【0008】
上述のように、SAOCでは、一般的な処理が、時間−周波数選択的態様で実行され、図3に示すように、各周波数帯域内で以下のように説明される:
− N個の入力オーディオ信号s・・・sを、エンコーダ処理の一部として、要素d1,1・・・dN,Pからなるダウンミックス行列を用いてP個のチャンネルx・・・xへとミックスダウンする。さらに、エンコーダは、入力オーディオオブジェクトの特性を記述する副情報を抽出する(副情報推定器(SIE)モジュール)。MPEG SAOCにとって、オブジェクトのパワーの相互の関係が、そのような副情報の最も基本的なものである。
− ダウンミックス信号および副情報を送信/蓄積する。この目的のため、例えば、MPEG−1/2 Layer2または3(mp3)、MPEG−2/4 Advanced Audio Coding(AAC)など周知の知覚オーディオコーダを用いて、ダウンミックスオーディオ信号を圧縮することができる。
− 受信端において、デコーダは、概念的には、送信された副情報を用いて(復号された)ダウンミックス信号から元のオブジェクト信号を復元しようとする(「オブジェクト分離」)。そして、これらの近似オブジェクト信号s・・・sは、図3における係数r1,1・・・rN,Mによって記述されたレンダリング行列を用いて、M個のオーディオチャンネルy^1・・・y^によって表される目標シーンにミキシングされる。所望の目標シーンは、極端な場合では、ミキシングの中の1つだけの音源信号のレンダリングであってもよいし(音源分離シナリオ)、送信されるオブジェクトからなる他の任意の音響シーンであってもよい。例えば、出力は、単一チャンネル、2チャンネルステレオまたは5.1マルチチャンネルの目標シーンとすることができる。
【0009】
図6に、オーディオ符号化/復号化手法の原理を模式的に示す。具体的には、図6は、オーディオ符号化/復号化チェーンの原理説明である。
【0010】
符号化側において、オーディオ信号がオーディオ符号化手法によって(通常は知覚効果を利用して)圧縮され、パラメトリック副情報(PSI)が計算される(エンコーダ601参照)。符号化されたオーディオ信号およびPSIからなる、結果として得られるビットストリームは、デコーダ側に蓄積(または送信)され、それらは図6において「A」、「B」などが付された種々のデコーダインスタンス620、621および622によって復号されることができる。これらのデコーダインスタンスは、相互に異なる(例えば、標準規格、用途や実施上の制約において複雑さが異なる)(非特許文献4から6)。
【0011】
オーディオ符号化の分野における利用可能な帯域/蓄積容量の増加および進行中の改善によって、ユーザは、徐々に増加している選択肢からマルチチャンネルオーディオ製品を選択することができる。マルチチャンネル5.1オーディオフォーマットは、既にDVDおよびブルーレイ製品において標準となっている。より多くのオーディオ移送チャンネルを持つMPEG−H 3D Audioのような新たなオーディオフォーマットが出現し、これは高度な没入型のオーディオ体験をエンドユーザに提供することになる。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】ISO/IEC 23003−1:2007,MPEG−D(MPEG audio technologies),Part 1:MPEG Surround,2007
【非特許文献2】C.Faller and F.Baumgarte,“Binaural Cue Coding−Part II:Schemes and applications,”IEEE Trans. on Speech and Audio Proc.,vol.11,no.6,Nov.2003
【非特許文献3】C.Faller,“Parametric Joint−Coding of Audio Sources”,120th AES Convention,Paris,2006
【非特許文献4】J.Herre,S.Disch,J.Hilpert,O.Hellmuth:“From SAC To SAOC−Recent Developments in Parametric Coding of Spatial Audio”,22nd Regional UK AES Conference,Cambridge,UK,April 2007
【非特許文献5】J.Engdegaerd,B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.Hoelzer,L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:“Spatial Audio Object Coding(SAOC)−The Upcoming MPEG Standard on Parametric Object Based Audio Coding”,124th AES Convention,Amsterdam 2008
【非特許文献6】ISO/IEC,“MPEG audio technologies−Part 2:Spatial Audio Object Coding(SAOC)”,ISO/IEC JTC1/SC29/WG11(MPEG) International Standard 23003−2
【非特許文献7】M.Parvaix and L.Girin:“Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”,IEEE ICASSP,2010
【非特許文献8】M.Parvaix,L.Girin,J.−M.Brossier:“A watermarking−based method for informed source separation of audio signals with a single sensor”,IEEE Transactions on Audio,Speech and Language Processing,2010
【非特許文献9】A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:“Informed source separation through spectrogram coding and data embedding”,Signal Processing Journal,2011
【非特許文献10】A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informed source separation:source coding meets source separation”,IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2011
【非特許文献11】Shuhua Zhang and Laurent Girin:“An Informed Source Separation System for Speech Signals”,INTERSPEECH,2011
【非特許文献12】L.Girin and J.Pinel:“Informed Audio Source Separation from Compressed Linear Stereo Mixtures”,AES 42nd International Conference:Semantic Audio,2011
【発明の概要】
【発明が解決しようとする課題】
【0013】
現行の符号化手法は、PSIを特定の目標アプリケーションシナリオまたはプラットフォームに効率的な態様で適応させることができない。このことによって、(必要以上に)高い計算の複雑さがデコーダ側にもたらされたり、互換性の問題が引き起こされたりする。
【課題を解決するための手段】
【0014】
本発明の目的は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、請求項1に記載のデコーダ、請求項14に記載の方法、および請求項15に記載のコンピュータプログラムによって解決される。
【0015】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置が提供される。入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャンネルを含み、適応メトリック副情報をさらに含む。
【0016】
この装置は、適応情報に基づき2以上の入力オーディオダウンミックスチャンネルを適応させて、1以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器を備える。
【0017】
さらに、この装置は、適応情報に基づき入力パラメトリック副情報を適応させて、適応パラメトリック副情報を得るパラメトリック副情報適応器を備える。
【0018】
一実施形態によると、ダウンミックス信号修正器は、1以上の適応オーディオダウンミックスチャンネルの数が2以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、適応情報に基づき2以上の入力オーディオダウンミックスチャンネルを適応させるように構成されていてもよい。
【0019】
一実施形態において、適応情報はデコーダインスタンスに依存していてもよい。ダウンミックス信号修正器は、デコーダインスタンスに応じて2以上の入力オーディオダウンミックスチャンネルを適応させるように構成されていてもよい。ここで、また以降においても、用語「デコーダ」および「デコーダインスタンス」は同じ意味である。
【0020】
一実施形態によると、デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができる。適応情報は、ダウンミックスチャンネルの最大数に依存していてもよい。ダウンミックス信号修正器は、1以上の適応オーディオダウンミックスチャンネルの数が2以上のダウンミックスチャンネルの上記最大数に等しくなるように、適応情報に応じて2以上の入力オーディオダウンミックスチャンネルを適応させて1以上の適応オーディオダウンミックスチャンネルを得るように構成されていてもよい。
【0021】
一実施形態によると、適応情報は、適応行列DdmxDSMを含むことができる。
【0022】
一実施形態において、ダウンミックス信号修正器は、適応行列DdmxDSMに基づき2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmxDSMを得るように構成されていてもよい。
【0023】
一実施形態によると、ダウンミックス信号修正器は、
【数1】
を適用することによって、適応行列DdmxDSMに基づき2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmxDSMを得るように構成されていてもよい。
【0024】
一実施形態において、パラメトリック副情報適応器は、構成されていてもよい。
【0025】
適応行列DdmxDSMに基づき入力パラメトリック副情報DdmxENCを適応させて、適応パラメトリック副情報DdmxPSIを得るように
一実施形態によると、パラメトリック副情報適応器は、
【数2】
を適用することによって、適応行列DdmxDSMに基づき入力パラメトリック副情報DdmxENCを適応させて、適応パラメトリック副情報DdmxPSIを得るように構成されてもよい。
【0026】
一実施形態において、入力パラメトリック副情報DdmxENCは、1以上のオーディオオブジェクトSに適用することによって2以上の入力オーディオダウンミックスチャンネルXdmxencが得られる初期ダウンミックス行列Ddmxencを示してもよい。パラメトリック副情報適応器は、適応ダウンミックス行列DdmxPSIを1以上のオーディオオブジェクトSに適用することによって、2以上の入力オーディオダウンミックスチャンネルXdmxDSMが得られるように、適応ダウンミックス行列DdmxPSIを適応パラメトリック副情報として決定するように構成されてもよい。
【0027】
さらに、一実施形態によると、1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャンネルを生成する装置が提供される。
【0028】
1以上のオーディオチャンネルを生成する装置は、入力オーディオ情報を適応させて適応オーディオ情報を得る上述の実施形態のうちの1つによる装置を備え、入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、適応オーディオ情報は、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む。
【0029】
さらに、1以上のオーディオチャンネルを生成する装置は、適応パラメトリック副情報に基づき1以上の適応オーディオダウンミックスチャンネルを復号して1以上のオーディオチャンネルを得るデコーダインスタンスを備える。
【0030】
一実施形態によると、入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を適応させて適応パラメトリック副情報を取得し、適応パラメトリック副情報をデコーダインスタンスに供給するように構成されていてもよい。デコーダインスタンスは、適応パラメトリック副情報に基づき1以上の適応オーディオダウンミックスチャンネルを復号するように構成されていてもよい。
【0031】
他の実施形態では、入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力ビットストリーム内の入力パラメトリック副情報を適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、修正ビットストリームをデコーダインスタンスに供給するように構成されていてもよい。さらに、デコーダインスタンスは、修正ビットストリームに応じて1以上の適応オーディオダウンミックスチャンネルを復号するように構成されていてもよい。
【0032】
また、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る方法が提供される。入力オーディオ情報は、2以上の入力オーディオダウンミックスチャネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャネルを含み、さらに適応パラメトリック副情報を含む。この方法は、
− 適応情報に基づき2以上の入力オーディオダウンミックスチャネルを適応させて1以上の適応オーディオダウンミックスチャネルを取得し、
− 適応情報に応じて入力パラメトリック副情報を適応さてせ適応パラメトリック副情報を得る
ことを含む。
【0033】
さらに、コンピュータまたは信号プロセッサで実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。
【0034】
好ましい実施形態が、従属請求項において提供される。
【0035】
以下に、図面を参照して本発明の実施形態をより詳細に説明する。
【0036】
以下、本発明の実施形態を、図面を参照してより詳しく説明する。
【図面の簡単な説明】
【0037】
図1】一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。
図2】他の実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。
図3】SAOC方式の概念的全体像の概略ブロック図である。
図4】単一チャネルオーディオ信号の時間−空間的表示の概略模式図である。
図5】SAOCエンコーダ内の副情報の時間−周波数選択的な計算の概略ブロック図である。
図6】オーディオ符号化/復号化手法の原理を概略的に示す。
図7】一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成する装置を示す。
図8】一実施形態による、符号化/復号化手法内での結合型PSIAアプリケーションを示す。
図9】一実施形態による、符号化/復号化手法内での分離型PSIAアプリケーションを示す。
【発明を実施するための形態】
【0038】
本発明の実施形態を説明する前に、現行技術のSAOC方式についての背景をさらに説明する。
【0039】
図3は、SAOCエンコーダ10およびSAOCデコーダ12の一般的構成を示す。SAOCエンコーダ10は、N個の入力オブジェクト、すなわち、オーディオ信号s〜s信号18にダウンミックスするダウンミキサ16を備える。あるいは、ダウンミックスが外部から与えられ(「アーティスティックなダウンミックス」)、システムが、追加の副情報を推定して、与えられたダウンミックスを、計算されたダウンミックスに一致させるようにしてもよい。図2において、ダウンミックス信号は、Pチャンネル信号として示される。ここでは、モノラル(P=1)、ステレオ(P=2)またはマルチチャンネル(P>2)のいずれのダウンミックス信号構成でもよい。
【0040】
ダウンミックス信号18のチャンネルは、ステレオダウンミックスの場合にはL0およびR0と表記され、モノラルダウンミックスの場合には単にL0と表記される。SAOCデコーダ12が個々のオブジェクトs〜sを受信することができるようにするため、副情報推定器17は、SAOCパラメータを含む副情報をSAOCデコーダ12に与える。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベルの差(OLD)、オブジェクト間相関(IOC)(オブジェクト間相互相関パラメータ)、ダウンミックスゲイン値(DMG)およびダウンミックスチャンネルレベルの差(DCLD)を含む。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されたSAOC出力データストリームを形成する。
【0041】
SAOCデコーダ12はアップミキサを備え、このアップミキサは、副情報20とともにダウンミックス信号18を受信して、SAOCデコーダ12に入力されたレンダリング情報26により規定されているレンダリングで、オーディオ信号s・・・sを、任意のユーザ選択によるチャンネルセットy・・・y上に復元およびレンダリングする。
【0042】
オーディオ信号sからsは、時間領域またはスペクトル領域のような何らかの符号化領域で、エンコーダ10に入力される。オーディオ信号sからsがPCM符号化されるなどして時間領域でエンコーダ10に供給される場合、エンコーダ10は、信号をスペクトル領域、すなわちオーディオ信号が異なるスペクトル部分に関連付けられた複数のサブバンドに特定のフィルタバンク解像度で表される領域、に変換するために、ハイブリッドQMFバンクのようなフィルタバンクを用いることができる。オーディオ信号sからsが、既にエンコーダ10によって想定されているよう表現となっている場合には、スペクトル分解を行う必要はない。
【0043】
図4は、今説明したスペクトル領域でのオーディオ信号を示す。図から分かるように、オーディオ信号は、複数のサブバンド信号として表される。各サブバンド信号301から30Kは、小さい格子32によって示されるサブバンド値の時間シーケンスからなる。図から分かるように、各サブバンド信号301から30Kのサブバンド値32は、連続するフィルタバンクタイムスロット34の各々について、各サブバンド301から30Kが1つだけのサブバンド値32を含むように、時間において相互に同期される。周波数軸36によって示すように、サブバンド信号301から30Kは異なる周波数領域に関連付けられ、時間軸38によって示すように、フィルタバンクタイムスロット34は時間的に連続して配置される。
【0044】
これまで概略したように、図3の副情報抽出器17は、入力オーディオ信号s1からsNからSAOCパラメータを計算する。現在実施されているSAOC規格によると、エンコーダ10は、フィルタバンクタイムスロット34およびサブバンド分解によって決定されるような元の時間/周波数解像度に対して、所定量だけ低減される時間/周波数解像度における計算を実行し、この所定量が副情報20内でデコーダ側に信号送信される。連続するフィルタバンクタイムスロット34のグループは、SAOCフレーム41を形成することができる。また、SAOCフレーム41内のパラメータ帯域数も、副情報20内で搬送される。したがって、時間/周波数領域は、図4において破線42で例示される時間/周波数タイルに分割される。図4において、パラメータ帯域は、時間/周波数タイルが規則的配置になるように、種々の図示されたSAOCフレーム41において同じように分散される。しかし、一般に、パラメータ帯域は、それぞれのSAOCフレーム41におけるスペクトル解像度に対する異なる要求に応じて、1つのSAOCフレーム41から後続のものまで変動し得る。またさらに、SAOCフレーム41の長さも同様に変動し得る。結果として、時間/周波数タイルの構成は不規則となる。それでも、特定のSAOCフレーム41内の時間/周波数タイルは、通常は同じ継続時間を有し、時間方向において配列される。つまり、上記SAOCフレーム41の全ての時間/周波数タイルが所与のSAOCフレーム41の開始時に開始し、上記SAOCフレーム41の終了時に終了する。
【0045】
図3に示す副情報抽出器17は、次の式に従って、SAOCパラメータを計算する。具体的には、副情報抽出器17は、各オブジェクトiについてのオブジェクトレベル差を、
【数3】
として計算する。なお、合計およびインデックスnおよびkは、それぞれ、全てのタイムインデックス34、およびSAOCフレーム(または処理しているタイムスロット)についてのインデックスlおよびパラメータ帯域についてのインデックスmによって表される、所定の時間/周波数タイル42に属する全てのインデックス30となる。これにより、オーディオ信号またはオブジェクトiの全てのサブバンド値xiのエネルギーが合計され、全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最も高いエネルギー値に正規化される。xn,k*は、xn,kの複素共役を示す。
【0046】
また、SAOC副情報抽出器17は、異なる入力オブジェクトs1からsNの対の対応する時間/周波数タイルの類似度を計算することができる。SAOC副情報抽出器17は、入力オブジェクトs1からsNの全ての対の間の類似度を計算してもよいが、類似度の信号送信を抑制し、または共通ステレオチャネルの左もしくは右のチャネルを形成するオーディオオブジェクトs1からsNに類似度の計算を制限するようにしてもよい。いずれの場合にも、類似度は、オブジェクト間相互相関パラメータIOCi,jl,mと呼ばれる。計算は次の通りである。
【数4】
ここで、インデックスnおよびkは、所定の時間/周波数タイル42に属する全てのサブバンド値を網羅し、iおよびjは、オーディオオブジェクトs1からsNの所定の対を示し、Re{ }は、複素数の引数の虚部を切り捨てる演算を示す。
【0047】
図3のダウンミキサ16は、オブジェクトs1からsNを、各オブジェクトs1からsNに適用されるゲインファクタの使用によってダウンミックスする。すなわち、モノラルダウンミックス信号を得るために、ゲインファクタdiがオブジェクトiに適用され、全ての重み付けされたオブジェクトs1からsNが合計される。これは、P=1の場合が図3に例示されている。他の例として、2チャネルダウンミックス信号の場合では、P=2の場合が図3に示されているように、左のダウンミックスチャネルL0を得るために、ゲインファクタd1,iがオブジェクトiに適用され、そのようにゲイン増幅された全てのオブジェクトが合計され、右のダウンミックスチャネルR0を得るために、ゲインファクタd2,iがオブジェクトiに適用され、そのようにゲイン増幅されたオブジェクトが合計される。これと同様の処理が、マルチチャネルダウンミックスの場合(P>2)に適用される。
【0048】
このダウンミックスの規定が、ダウンミックスゲインDMG、およびステレオダウンミックス信号の場合にはダウンミックスチャネルレベル差DCLDによって、デコーダ側に信号送信される。
【0049】
ダウンミックスゲインは、
【数5】
により計算される。なお、εは、10−9のような小さい数である。
【0050】
DCLDに対して、次式を適用する。
【数6】
【0051】
通常モードにおいて、ダウンミキサ16は、モノラルダウンミックスについては、
【数7】
に従って、ステレオダウンミックスについては、
【数8】
に従って、それぞれダウンミックス信号を生成する。
【0052】
したがって、上述した式において、パラメータOLDおよびIOCはオーディオ信号の関数であり、パラメータDMGおよびDCLDはdの関数である。なお、dは、時間および周波数において変動している場合がある。
【0053】
したがって、通常モードでは、ダウンミキサ16は、全てのオブジェクトs1からsNを、選好なく全てのオブジェクトs1からsNを均等に扱って、混合する。
【0054】
デコーダ側において、アップミキサは、一計算ステップにおいて、すなわち、2チャネルダウンミックス
【数9】
の場合において、ダウンミックス処理の逆、および行列R(文献によってはAともいわれる)によって表される「レンダリング情報」26の実施を実行する。なお、行列EはパラメータOLDおよびIOCの関数であり、行列Dは、
【数10】
のように、ダウンミックス係数を含む。
【0055】
行列Eは、オーディオオブジェクトs1からsNの推定共分散行列である。現在のSAOCの実施において、推定共分散行列Eの計算は、通常はSAOCパラメータのスペクトル/時間解像度で、すなわち、各(l,m)に対して実行されるので、推定共分散行列はEl,mとして記載することができる。推定共分散行列El,mの大きさはN×Nであり、その係数は、
【数11】
として定義される。
【0056】
したがって、i=jについて、OLDl,m=OLDl,m およびIOCi,jl,m=1であるので、
【数12】
となる行列El,mは、その対角に沿って、i=jについてのオブジェクトレベル差、すなわち、IOCi,jl,m=OLDl,mを有する。その対角の外部において、推定共分散行列Eは、オブジェクト間相互相関度IOCi,jl,mで重みづけされた、オブジェクトiおよびjのオブジェクトレベル差の幾何平均を表す行列係数をそれぞれ有する。
【0057】
図5は、SAOCエンコーダ10の一部としての副情報抽出器(SIE)の例における実施の1つの可能な原理を示す。SAOCエンコーダ10は、ミキサ16および副情報抽出器(SIE)17を備える。SIEは、概念的に2つのモジュールを備える。一方のモジュール45は、各信号の短時間ベースの時間/周波数表示(例えば、STFTまたはQMF)を計算するためのものである。計算された短時間時間/周波数表示は、第2のモジュール46、時間/周波数選択副情報推定モジュール(時間/周波数SIE)に供給される。時間/周波数モジュール46は、各時間/周波数タイルについて副情報を計算する。現在のSAOCの実施では、時間/周波数変換は固定され、全てのオーディオオブジェクトs1からsNについて同一である。またさらに、SAOCパラメータは、全てのオーディオオブジェクトについて同じであって全てのオーディオオブジェクトs1からsNについて同じ時間/周波数解像度を有するSAOCフレーム上で決定される。したがって、細かい時間解像度や細かいスペクトル解像度について、オブジェクト特有の要求を無視する場合がある。
【0058】
以下で、本発明の実施形態を説明する。
【0059】
図1は、一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。
【0060】
入力オーディオ情報は2以上の入力オーディオダウンミックスチャネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャネルを含み、適応パラメトリック副情報をさらに含む。
【0061】
この装置は、適応情報に応じて2以上の入力オーディオダウンミックスチャネルを適応させて1以上の適応オーディオダウンミックスチャネルを得るダウンミックス信号修正器(DSM)110を備える。
【0062】
図2は、他の実施形態による、適応オーディオ情報を得るために、1以上のオーディオオブジェクトを符号化する入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。
【0063】
一実施形態では、適応情報はデコーダインスタンスに依存し、ダウンミックス信号修正器110は、デコーダインスタンスに応じて2以上の入力オーディオダウンミックスチャネルを適応させるように構成されてもよい。
【0064】
例えば、図2のダウンミックス信号修正器110は、ダウンミックスを特定のデコーダインスタンスの能力に適応させる。
【0065】
一実施形態によると、ダウンミックス信号修正器110は、1以上の適応オーディオダウンミックスチャネル数が2以上の入力オーディオダウンミックスチャネル数よりも小さくなるように、適応情報に応じて2以上の入力オーディオダウンミックスチャネルを適応させるように構成されていてもよい。
【0066】
例えば、図2の実施形態では、ダウンミックス信号修正器110が、トランスポート/ダウンミックスチャネル数を減少させる。
【0067】
例えば、22.2個の入力オーディオダウンミックスチャネル(=24個の入力オーディオダウンミックスチャネル)が、7.1個の適応オーディオダウンミックスチャネル(=8個の適応オーディオダウンミックスチャネル)に低減される。
【0068】
あるいは、例えば、5.1個の入力オーディオダウンミックスチャネル(=6個の入力オーディオダウンミックスチャネル)が、2.0個の適応オーディオダウンミックスチャネル(=2個の適応オーディオダウンミックスチャネル)に低減される。
【0069】
あるいは、例えば、2個の入力オーディオダウンミックスチャネルが、1個の適応オーディオダウンミックスチャネルに低減される。
【0070】
入力オーディオダウンミックスチャネルと適応オーディオダウンミックスチャネルの種々の他の組合せが可能である。
【0071】
一実施形態によると、デコーダインスタンスは、最大でダウンミックスチャネルの最大数を復号する能力があればよい。適応情報は、ダウンミックスチャネルの最大数に依存することになる。さらに、ダウンミックス信号修正器110は、1以上の適応ダウンミックスチャネル数がダウンミックスチャネルの最大数に等しくなるように、適応情報に応じて2以上の入力オーディオダウンミックスチャネルを適応させて1以上の適応オーディオダウンミックスチャネルを得るように構成されることができる。
【0072】
例えば、図2のダウンミックス信号修正器110は、ダウンミックスを、特定のデコーダインスタンスの最大サポート出力チャネル構成に対応するオーディオ信号に変換する。
【0073】
一実施形態によると、適応情報は、例えば、適応行列DdmxDSMを含むことができる。
【0074】
パラメトリック副情報適応器120は、例えば、PSIを、デコーダについての計算の複雑さを減少させるために修正ダウンミックスに対応させ、デコーダ出力オーディオ品質上に悪影響を及ぼすことなく対応のデータビットストリームのサイズ/ビットレートを減少させるように適応させる。
【0075】
例えば、PSIA120は、最初のダウンミックス行列を表す情報を(DSM修正を考慮する)結果としてのダウンミックスを記述する更新情報によって置換する対応のPSIビットストリームを修正して、デコーダの特定の仕様に対応させる。
【0076】
例えば、SAOCエンコーダは、エンコーダダウンミックス行列DdmxENCの適用によって得られるステレオダウンミックス信号XdmxENCを、入力オーディオオブジェクト信号Sに与える。
【数13】
【0077】
一実施形態によると、ダウンミックス信号修正器110は、適応行列DdmxDSMに基づき、2以上の入力オーディオダウンミックスチャネルXdmxENCを適応させて、1以上の適応オーディオダウンミックスチャネルXdmxDSMを得るように構成されてもよい。一実施形態では、これは、例えば、式
【数14】
を適用することによって実現される。
【0078】
例えば、一実施形態では、特定のSAOCデコーダインスタンスがモノダウンミックス(例えば、SAOC Low Delayプロファイル/Level 1)のみをサポートするものとする。この場合、DSM110は、あらかじめ規定されたダウンミックス行列DdmxDSMを用いて、ステレオダウンミックスXdmxENCを、モノラル信号XdmxDSMに変換する。この場合も、数14の式が適用される。
【0079】
一実施形態によると、パラメトリック副情報適応器120は、適応行列DdmxDSMに基づき入力パラメトリック副情報DdmxENCを適応させて、適応パラメトリック副情報DdmxPSIを得るように構成されてもよい。一実施形態では、これは、例えば、式
【数15】
を適用することによって実現される。
【0080】
例えば、一実施形態によると、PSIA120は、対応するPSIビットストリームを解析し、ダウンミックス行列DdmxENCを記述する情報を抽出し、これらのデータを新たなダウンミックス行列DdmxPSIを記述する更新情報によって置換する(数15)。
【0081】
したがって、一実施形態によると、入力パラメトリック副情報DdmxENCは、1以上のオーディオオブジェクトSに適用することによって2以上の入力オーディオダウンミックスチャンネルXdmxencが得られる初期ダウンミックス行列Ddmxencを示してもよい。パラメトリック副情報適応器は、適応ダウンミックス行列DdmxPSIを1以上のオーディオオブジェクトSに適用することによって、2以上の入力オーディオダウンミックスチャンネルXdmxDSMが得られるように、適応ダウンミックス行列DdmxPSIを適応パラメトリック副情報として決定するように構成されてもよい。
【0082】
一実施形態では、PSIAが、新たな修正ビットストリームをフォーマットし、またはこれらのパラメータをデコーダに直接渡す。
【0083】
PSIAによって実行されるこの符号化および復号化処理は、異なるダウンミックス行列表示フォーマット(例えば、極座標系からデカルト座標系など)の変換を含むこともできる。
【0084】
この記述されたPSIAの関数は、潜在的な互換性の問題を解決し、対応するビットストリームのサイズを減少させることができる。
【0085】
図7は、一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成するオーディオチャネル生成装置700を示す。
【0086】
このオーディオチャネル生成装置700は、入力オーディオ情報を適応させて適応オーディオ情報を得る上述の実施形態の1つによる装置710(以下、「入力オーディオ情報適応装置」という)を備える。入力オーディオ情報は、2以上の入力オーディオダウンミックスチャネルを含み、さらに、入力パラメトリック副情報を含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャネルを含み、さらに、適応パラメトリック副情報を含む。
【0087】
入力オーディオ情報適応装置710は、ダウンミックス信号修正器110およびパラメトリック副情報適応器120を備える。
【0088】
さらに、オーディオチャネル生成装置700は、適応パラメトリック副情報に応じて1以上の適応オーディオダウンミックスチャネルを復号して1以上のオーディオダウンミックスチャネルを得るデコーダインスタンス720を備える。
【0089】
一実施形態によると、入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されてもよい。入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力パラメトリック副情報を適応させて適応パラメトリック副情報を得て、適応パラメトリック副情報をデコーダインスタンス720に供給するように構成されてもよい。デコーダインスタンス720は、適応パラメトリック副情報に応じて、1以上の適応オーディオダウンミックスチャネルを復号するように構成されてもよい。
【0090】
他の実施形態では、入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されてもよい。入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力ビットストリーム内の入力パラメトリック副情報を適応パラメトリック副情報で置換して修正ビットストリームを得るように構成されてもよい。入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、修正ビットストリームをデコーダインスタンス720に供給するように構成されてもよい。さらに、デコーダインスタンス720は、修正ビットストリームに応じて、1以上の適応オーディオダウンミックスチャネルを復号するように構成されてもよい。
【0091】
図8および9に、入力オーディオ情報を復号処理チェーンに適応させるための装置を内蔵する2つの可能性を図示する。
【0092】
具体的には、図8は、一実施形態による符号化/復号化手法における結合型PSIAアプリケーションを示す。
【0093】
図8は、1以上のオーディオオブジェクトを符号化する入力オーディオ情報から1以上のオーディオチャネルを生成するための複数のオーディオチャネル生成装置800、801および802を示す。このオーディオチャネル生成装置800は、入力オーディオ情報適応装置810、およびデコーダインスタンス820を備え、オーディオチャネル生成装置801は、入力オーディオ情報適応装置811、およびデコーダインスタンス821を備え、オーディオチャネル生成装置802は、入力オーディオ情報適応装置812、およびデコーダインスタンス822を備える。なお、例えば、入力オーディオ情報適応装置810およびデコーダインスタンス820を備えるオーディオチャネル生成装置800は、単一のハードウェアユニットとして実現されてもよく、有線で接続され、または無線で接続される個別の2つのユニット810および820で実現されてもよい。
【0094】
復号化のための計算の複雑さを軽減するために、入力オーディオ情報適応装置の結合型の(一体化された)実装を実現することができる(図8参照)。さらに、これによって、入力オーディオ情報適応装置とデコーダとの間の非量子化(非符号化)インターフェイスを実装することが可能となる。これは、特に、電力消費を低減するための移動体アプリケーションデバイスに対して適切なものとなり得る。
【0095】
図9は、一実施形態による符号化/復号化手法における非結合型PSIAアプリケーションを示す。
【0096】
特に、図9は、1以上のオーディオオブジェクトを符号化する入力オーディオ情報から1以上のオーディオチャネルを生成するための複数のオーディオチャネル生成装置900、901および902を示し、ここで、オーディオチャネル生成装置900は、入力オーディオ情報適応装置910、およびデコーダインスタンス920を備え、オーディオチャネル生成装置901は、入力オーディオ情報適応装置911、およびデコーダインスタンス921を備え、オーディオチャネル生成装置902は、入力オーディオ情報適応装置912、およびデコーダインスタンス922を備える。なお、例えば、入力オーディオ情報適応装置910およびデコーダインスタンス920を備えるオーディオチャネル生成装置900は、単一のハードウェアユニットとして実現されていなくてもよく、有線で接続され、または無線で接続される個別の2つのユニット910および920で実現されてもよい。
【0097】
図9に示されるように、対応するデータビットストリームのサイズ/ビットレートを低減するために、入力オーディオ情報適応装置の非結合型の(分離された)実装を実現することができる。これは、特に、限られた蓄積および送信容量の移動体アプリケーションデバイスおよび狭いデータ遷移チャネルの多地点接続装置(MCU)システムに対して適切なものとなり得る。
【0098】
いくつかの形態を装置との関連で説明したが、それらの形態が対応の方法の説明も兼ねることは明らかであり、ブロックまたはデバイスは方法のステップまたは方法のステップの特徴に対応する。同様に、方法ステップに関連して説明した形態はまた、対応する装置の対応のブロック、内容または特徴の記載も兼ねる。
【0099】
本発明の分解信号はデジタル記憶媒体に格納され、またはインターネットのような無線伝送媒体もしくは有線伝送媒体といった伝送媒体上で伝送されることができる。
【0100】
特定の実施要件に応じて、発明の実施形態はハードウェアまたはソフトウェアで実施されることができる。その実施は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)電子的に可読な制御信号が格納されたデジタル記憶媒体、例えば、フレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROM(登録商標)もしくはフラッシュメモリを用いて実行することができる。
【0101】
本発明によるいくつかの実施形態は、ここに記載された方法の1つが実行されるようなプログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを備える。
【0102】
全体として、本発明の実施形態は、プログラムコードを持つコンピュータプログラム製品として実施でき、プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働したときに方法の1つを実行するように動作するものである。プログラムコードは、例えば、機械読取り可能なキャリア上に記憶されることができる。
【0103】
他の実施形態では、ここに記載された方法の1つを実行するための、機械読取り可能なキャリアに記憶されたコンピュータプログラムを備える。
【0104】
言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働するときに、ここに記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0105】
したがって、本発明の方法の更なる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを、記録して備えるデータキャリア(すなわち、デジタル記憶媒体またはコンピュータ可読媒体)である。
【0106】
さらなる実施形態は、ここに記載された方法の1つを実行するように構成または適応された、例えば、コンピュータまたはプログラマブルロジックデバイスなどの処理手段を含む。
【0107】
さらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0108】
実施形態によっては、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の1つを実行するために、フィールドプログラマブルゲートアレイはマイクロプロセッサと協働してもよい。それらの方法は、一般に、どのようなハードウェア装置によっても好適に実行される。
【0109】
上述した実施形態は、本発明の原理を例示的に示しただけである。ここに記載された構成および詳細の変形例や修正例は、当業者には明白であろう。したがって、実施形態の記述および説明によってここに提示された具体的詳細によってではなく、直後に記載する特許請求の範囲によってのみ限定されることを意図するものである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2014年5月12日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る装置であって、
適応情報に基づき前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器(110)と、
前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を得るパラメトリック副情報適応器(120)と、
を備え
前記適応情報は、適応行列DdmxDSMを含み、
前記ダウンミックス信号修正器(110)が、前記適応行列DdmxDSMに基づき前記2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、前記1以上の適応オーディオダウンミックスチャンネルXdmxDSMを得るように構成され、
前記パラメトリック副情報適応器(120)は、前記適応行列DdmxDSMに基づき前記入力パラメトリック副情報DdmxENCを適応させて、前記適応パラメトリック副情報DdmxPSIを得るように構成された、
装置。
【請求項2】
請求項1に記載の装置において、
前記入力パラメトリック副情報DdmxENCは、前記1以上のオーディオオブジェクトSに適用することによって前記2以上の入力オーディオダウンミックスチャンネルXdmxencが得られる初期ダウンミックス行列Ddmxencを示し、
前記パラメトリック副情報適応器(120)は、適応ダウンミックス行列DdmxPSIを前記1以上のオーディオオブジェクトSに適用することによって、前記2以上の入力オーディオダウンミックスチャンネルXdmxDSMが得られるように、前記適応ダウンミックス行列DdmxPSIを前記適応パラメトリック副情報として決定するように構成された、
装置。
【請求項3】
請求項1または2に記載の装置において、前記ダウンミックス信号修正器(110)は、前記1以上の適応オーディオダウンミックスチャンネルの数が前記2以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、前記適応情報に基づき、前記2以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
【請求項4】
請求項1から3のいずれか1項に記載の装置において、前記適応情報はデコーダインスタンスに依存し、前記ダウンミックス信号修正器(110)は、前記デコーダインスタンスに応じて前記2以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
【請求項5】
請求項に記載の装置において、
前記デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができ、
前記適応情報は、前記ダウンミックスチャンネルの最大数に依存し、
前記ダウンミックス信号修正器(110)が、前記1以上の適応オーディオダウンミックスチャンネルの数が前記ダウンミックスチャンネルの最大数に等しくなるように、前記適応情報に応じて前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを得るように構成された、装置。
【請求項6】
請求項1から5のいずれか1項に記載の装置において、前記ダウンミックス信号修正器(110)は、
【数1】
を適用することによって、前記適応行列DdmxDSMに基づき前記2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmxDSMを得るように構成された、装置。
【請求項7】
請求項1から6のいずれか1項に記載の装置において、前記パラメトリック副情報適応器(120)は、
【数2】
を適用することによって、前記適応行列DdmxDSMに基づき前記入力パラメトリック副情報DdmxENCを適応させて、適応パラメトリック副情報DdmxPSIを得るように構成された、装置。
【請求項8】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成する装置(700、800、801、802、900、901、902)であって、
前記入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、この入力オーディオ情報を適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る請求項1からのいずれか1項に記載の装置(710、810、811、812、910、911、912)と、
前記適応パラメトリック副情報に基づき前記1以上の適応オーディオダウンミックスチャンネルを復号して前記1以上のオーディオチャンネルを得るデコーダインスタンス(720、820、821、822、920、921、922)と、
を備える装置。
【請求項9】
請求項に記載の装置(700;800、801、802)において、
請求項1からのいずれか1項に記載の装置(710、810、811、812)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
請求項1からのいずれか1項に記載の装置(710、810、811、812)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を適応させて前記適応パラメトリック副情報を取得し、そのパラメトリック副情報を前記デコーダインスタンス(720、820、821、822)に供給するように構成され、
前記デコーダインスタンス(720、820、821、822)は、前記適応パラメトリック副情報に基づき前記1以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
装置。
【請求項10】
請求項に記載の装置(700;900、901、902)において、
請求項1からのいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
請求項1からのいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記入力ビットストリーム内の前記入力パラメトリック副情報を前記適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成され、
請求項1からのいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記修正ビットストリームを前記デコーダインスタンス(720、920、921、922)に供給するように構成され、
前記デコーダインスタンス(720、920、921、922)が、前記修正ビットストリームに応じて前記1以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
装置。
【請求項11】
1以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る方法であって、
適応情報に基づき前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを取得し、
前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を取得し、
前記適応情報は、適応行列DdmxDSMを含み、
前記2以上の入力オーディオダウンミックスチャンネルを適応させるステップでは、前記適応行列DdmxDSMに基づき前記2以上のオーディオダウンミックスチャンネルXdmxENCを適応させて、前記1以上の適応オーディオダウンミックスチャンネルXdmxDSMを取得し、
前記パラメトリック副情報を適応させるステップでは、前記適応行列DdmxDSMに基づき前記入力パラメトリック副情報DdmxENCを適応させて、前記適応パラメトリック副情報DdmxPSIを取得する
方法。
【請求項12】
請求項11に記載の方法において、
前記入力パラメトリック副情報DdmxENCは、前記1以上のオーディオオブジェクトSに適用することによって前記2以上の入力オーディオダウンミックスチャンネルXdmxencが得られる初期ダウンミックス行列Ddmxencを示し、
前記パラメトリック副情報を適応するステップでは、適応ダウンミックス行列DdmxPSIを前記1以上のオーディオオブジェクトSに適用することによって、前記2以上の入力オーディオダウンミックスチャンネルXdmxDSMが得られるように、前記適応ダウンミックス行列DdmxPSIを前記適応パラメトリック副情報として決定する
方法。
【請求項13】
コンピュータまたは信号プロセッサによって実行されるときに請求項11または12に記載の方法を実施するためのコンピュータプログラム。
【国際調査報告】