(58)【調査した分野】(Int.Cl.,DB名)
前記向上パラメータを使って前記係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、前記向上パラメータを乗算することを含む、請求項1記載の方法。
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、前記サイド情報から計算することを含む、請求項1または2記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトのみを再構成することを含む、請求項1ないし3のうちいずれか一項記載の方法。
前記ダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、組み合わせる段階をさらに含む、
請求項4または5記載の方法。
前記ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとの組み合わせをレンダリングする段階をさらに含む、請求項6記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を受領する段階をさらに含む、
請求項6または7記載の方法。
ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する受領された前記情報は、エントロピー符号化によって符号化されている、請求項8記載の方法。
【発明を実施するための形態】
【0008】
上記に鑑み、目的は、デコーダにおけるダイアログ向上の複雑さを低減することをねらいとするエンコーダおよびデコーダならびに関連する方法を提供することである。
【0009】
〈I.概観――デコーダ〉
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。
【0010】
例示的実施形態によれば、オーディオ・システムにおけるデコーダにおいてダイアログを向上させる方法が提供される。本方法は:複数のダウンミックス信号を受領する段階であって、前記ダウンミックス信号はダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである、段階と、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領する段階と、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領する段階と、向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正する段階と、修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階とを含む。
【0011】
前記向上パラメータは典型的には、デコーダにおいて利用可能なユーザー設定である。ユーザーはたとえば、前記ダイアログのボリュームを増大させるためにリモコンを使ってもよい。結果として、前記向上パラメータは典型的には、オーディオ・システムにおいてエンコーダによってデコーダに提供されはしない。多くの場合、向上パラメータはダイアログの利得に変換されるが、ダイアログの減衰に変換されることもある。さらに、向上パラメータはダイアログのある種の周波数に関係することがある。たとえばダイアログの周波数依存の利得または減衰である。
【0012】
ダイアログという用語は、本明細書の文脈では、いくつかの実施形態では、有意なダイアログのみが向上され、たとえば背景のおしゃべりやダイアログの残響バージョンは向上されないと理解される。ダイアログは、人の間の会話を含みうるが、独白、ナレーションまたは他の発話をも含んでいてもよい。
【0013】
本稿での用法では、オーディオ・オブジェクトは、オーディオ信号と、三次元空間における該オブジェクトの位置のような追加的情報とを含む。追加的情報は、典型的には、所与の再生システムでオーディオ・オブジェクトを最適にレンダリングするために使われる。オーディオ・オブジェクトという用語は、オーディオ・オブジェクトのクラスター、すなわちオブジェクト・クラスターをも包含する。オブジェクト・クラスターは少なくとも二つのオーディオ・オブジェクトの混合を表わし、典型的には、それらのオーディオ・オブジェクトの混合を、オーディオ信号および三次元空間におけるオブジェクト・クラスターの位置のような追加的情報として含む。オブジェクト・クラスターにおける前記少なくとも二つのオーディオ・オブジェクトは、個々の空間的位置が近いことに基づいて混合されてもよく、オブジェクト・クラスターの空間的位置は個々のオブジェクト位置の平均として選ばれてもよい。
【0014】
本稿での用法では、ダウンミックス信号とは、前記複数のオーディオ・オブジェクトの少なくとも一つのオーディオ・オブジェクトの組み合わせである信号をいう。ベッド・チャネルのようなオーディオ・シーンの他の信号もダウンミックス信号に組み合わされてもよい。ダウンミックス信号の数は典型的には(必ずではないが)オーディオ・オブジェクトおよびベッド・チャネルの数の和より少ない。このことが、ダウンミックス信号がダウンミックス〔下方混合〕と称されるゆえんである。ダウンミックス信号はダウンミックス・クラスターも称されてもよい。
【0015】
本稿での用法では、サイド情報は、メタデータと称されることもある。
【0016】
係数を示すサイド情報という用語は、本明細書の文脈では、係数が、たとえばビットストリームにおいてエンコーダから送られるサイド情報に直接的に存在すること、あるいは該サイド情報に存在するデータから計算されることと理解される。
【0017】
本方法によれば、前記複数のオーディオ・オブジェクトの再構成を可能にする係数は、ダイアログを表わす前記のちに再構成された少なくとも一つのオーディオ・オブジェクトの向上を提供するために修正される。ダイアログを表わす再構成された少なくとも一つのオーディオ・オブジェクトを再構成されたあとに向上させる通常の方法、すなわち再構成を可能にする係数を修正しない方法に比べ、本方法は本方法を実装するデコーダの低減された数学的複雑さ、よって低減された計算量を提供する。
【0018】
例示的実施形態によれば、向上パラメータを使って係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、向上パラメータを乗算することを含む。これは、係数を修正するための計算量の低い演算であるが、それでも係数間の相互比(mutual ratio)を保つ。
【0019】
例示的実施形態によれば、本方法はさらに:前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、前記サイド情報から計算することを含む。
【0020】
例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトを少なくとも再構成する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトのみを再構成することを含む。
【0021】
多くの場合、ダウンミックス信号は、オーディオ・シーンを所与のスピーカー構成、たとえば標準的な5.1構成にレンダリングまたは出力することに対応しうる。そのような場合、低計算量のデコードは、向上されるべきダイアログを表わすオーディオ・オブジェクトのみを再構成することによって達成されうる。
【0022】
例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトのみの再構成は、ダウンミックス信号の脱相関を含まない。これは、再構成段階の複雑さを軽減する。さらに、すべてのオーディオ・オブジェクトが再構成されるわけではないので、すなわち、そうしたオーディオ・オブジェクトについてはレンダリングされるべきオーディオ・コンテンツの品質は低下しうるので、ダイアログを表わす前記少なくとも一つのオブジェクトを再構成するときに脱相関を使うことは、向上されたレンダリングされたオーディオ・コンテンツの知覚されるオーディオ品質を改善しない。結果として、脱相関は省略できる。
【0023】
例示的実施形態によれば、本方法はさらに:ダイアログを表わす再構成された前記少なくとも一つのオブジェクトを前記ダウンミックス信号と、少なくとも一つの別個の信号としてマージする段階を含む。結果として、再構成された前記少なくとも一つのオブジェクトは、再びダウンミックス信号に混合されたり、あるいはダウンミックス信号と組み合わされたりする必要はない。結果として、この実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報は必要とされない。
【0024】
例示的実施形態によれば、本方法はさらに、前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領し、前記複数のダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、前記空間的情報をもつデータに基づいてレンダリングすることを含む。
【0025】
例示的実施形態によれば、本方法はさらに、前記ダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、組み合わせることを含む。前記ダウンミックス信号は、ある種のスピーカー構成(たとえば5.1スピーカー構成または7.1スピーカー構成)について常時オーディオ出力(AAO: always-audio-out)をサポートするためにダウンミックスされてもよい。すなわち、ダウンミックス信号は、そのようなスピーカー構成での再生のために直接使われることができる。ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとを組み合わせることによって、AAOが引き続きサポートされるのと同時に、ダイアログ向上が達成される。換言すれば、いくつかの実施形態によれば、ダイアログを表わす、再構成され、ダイアログ向上された少なくとも一つのオブジェクトは、引き続きAAOをサポートするために、もとのダウンミックス信号に混合される。
【0026】
例示的実施形態によれば、本方法はさらに、ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとの組み合わせをレンダリングすることを含む。
【0027】
例示的実施形態によれば、本方法はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を受領することを含む。オーディオ・システムにおけるエンコーダは、ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトをダウンミックスするときにこの型の情報をすでにもっていることがあり、あるいは該情報はエンコーダによって簡単に計算されうる。
【0028】
例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する受領された前記情報は、エントロピー符号化によって符号化される。これは、該情報を伝送するための必要とされるビットレートを低減しうる
例示的実施形態によれば、本方法はさらに、前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領し、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する前記情報を、前記空間的情報をもつデータに基づいて計算する段階を含む。この実施形態の利点は、ダウンミックス信号およびサイド情報を含むビットストリームをエンコーダに伝送するために必要とされるビットレートが低減されるということでありうる。前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する前記空間的情報は、いずれにせよデコーダによって受領されうるのであり、さらなる情報やデータがデコーダによって受領される必要がないからである。
【0029】
例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する前記情報を計算する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置を、前記複数のダウンミックス信号についての空間位置にマッピングする関数を適用することを含む。該関数はたとえば、ベクトル・ベースの振幅パン(VBAP: vector base amplitude panning)アルゴリズムのような3Dパン・アルゴリズムであってもよい。他のいかなる好適な関数が使われてもよい。
【0030】
例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、前記複数のオーディオ・オブジェクトを再構成することを含む。その場合、本方法は、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報をもつデータを受領し、前記空間的情報をもつデータに基づいて、再構成された前記複数のオーディオ・オブジェクトをレンダリングすることを含んでいてもよい。ダイアログ向上は上記のように前記複数のオーディオ・オブジェクトの再構成を可能にする係数に対して実行されるので、いずれも行列演算である前記複数のオーディオ・オブジェクトの再構成および再構成されたオーディオ・オブジェクトへのレンダリングは、一つの演算に組み合わされてもよい。これは、二つの演算の複雑さを軽減する。
【0031】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第一の側面のいずれかの方法を実行するよう適応されているコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0032】
例示的実施形態によれば、オーディオ・システムにおいてダイアログを向上させるデコーダが提供される。本デコーダは:複数のダウンミックス信号を受領する段階であって、前記ダウンミックス信号はダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである、段階を実行し、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領し、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領するよう構成された受領段を有する。本デコーダはさらに、向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正するよう構成された修正段を有する。本デコーダはさらに、修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成するよう構成された再構成段を有する。
【0033】
〈II.概観――エンコーダ〉
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。一般に、第二の側面の特徴は第一の側面の対応する特徴と同じ利点をもちうる。
【0034】
例示的実施形態によれば、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法が提供される。本方法は:ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定し、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定し、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを決定し、前記複数のダウンミックス信号、前記サイド情報および前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを含むビットストリームを形成することを含む。
【0035】
例示的実施形態によれば、本方法はさらに、前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報を決定し、該空間的情報を前記ビットストリームに含める段階を含む。
【0036】
例示的実施形態によれば、前記複数のダウンミックス信号を決定する段階はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報を決定することを含む。ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述するこの情報は、この実施形態によれば、前記ビットストリームに含められる。
【0037】
例示的実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する決定された情報は、エントロピー符号化を使ってエンコードされる。
【0038】
例示的実施形態によれば、本方法はさらに、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定し、前記複数のオーディオ・オブジェクトについての空間位置に対応する前記空間的情報を前記ビットストリームに含める段階を含む。
【0039】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第二の側面のいずれかの方法を実行するよう適応されているコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0040】
例示的実施形態によれば、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードするエンコーダが提供される。本エンコーダは:ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定し、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定するよう構成されたダウンミックス段と、前記複数のダウンミックス信号および前記サイド情報を含むビットストリームを形成するよう構成された符号化段とを有しており、前記ビットストリームはさらに、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを含む。
【0041】
〈III.例示的実施形態〉
上記のように、ダイアログ向上は、他のオーディオ成分に対するダイアログ・レベルの増大に関する。コンテンツ生成から適正に編成されると、オブジェクト・コンテンツは、ダイアログが別個のオブジェクトによって表現できるので、ダイアログ向上のために好適である。オブジェクト(すなわち、オブジェクト・クラスターまたはダウンミックス信号)のパラメトリック符号化は、ダイアログと他のオブジェクトとの間の混合を導入することがある。
【0042】
そのようなオブジェクト・クラスターに混合されたダイアログを向上させるためのデコーダについて、ここで
図1〜
図3との関連で述べる。
図1は、例示的実施形態に基づく、オーディオ・システムにおいてダイアログを向上させるための高品質デコーダ100の一般化されたブロック図である。デコーダ100は受領段104においてビットストリーム102を受領する。受領段104は、コア・デコーダとみなされてもよく、ビットストリーム102をデコードして、ビットストリーム102のデコードされたコンテンツを出力する。ビットストリーム102はたとえば、複数のダウンミックス信号110またはダウンミックス・クラスターを含んでいてもよい。ダウンミックス・クラスターは、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである。こうして、受領段は、典型的には、ビットストリーム102の諸部分をデコードしてダウンミックス信号110を形成するよう適応されていてもよいダウンミックス・デコーダ・コンポーネントを有する。形成されるダウンミックス信号は、ドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACまたはMP3のようなデコーダの音デコード・システムと互換であるようにされる。ビットストリーム102はさらに、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報108を含んでいてもよい。効率的なダイアログ向上のために、ビットストリーム102はさらに、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータ108を含んでいてもよい。このデータ108は、サイド情報108に組み込まれていてもよいし、あるいはサイド情報108とは別個であってもよい。下記で詳細に論じるように、サイド情報108は典型的には、ドライ・アップミックス行列Cに変換できるドライ・アップミックス係数と、ウェット・アップミックス行列Pに変換できるウェット・アップミックス係数とを含む。
【0043】
デコーダ100はさらに、向上パラメータ140および前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データ108を使ってサイド情報108において示される前記係数を修正するよう構成された修正段112を有する。向上パラメータ140は、いかなる好適な仕方で修正段112において受領されてもよい。諸実施形態によれば、修正段112はドライ・アップミックス行列Cおよびウェット・アップミックス行列Pの両方、少なくとも前記ダイアログに対応する係数、を修正する。
【0044】
修正段112はこのように、所望されるダイアログ向上を、ダイアログ・オブジェクト(単数または複数)に対応する係数に適用する。ある実施形態によれば、向上パラメータ140を使って係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、向上パラメータ140を乗算することを含む。換言すれば、修正は、ダイアログ・オブジェクトに対応する係数の固定した増幅を含む。
【0045】
いくつかの実施形態では、デコーダ100はさらに、プレ脱相関器段114および脱相関器段116を有する。これら二つの段114、116は一緒になって、ダウンミックス信号110の組み合わせの脱相関されたバージョンを形成する。これはのちに前記複数のダウンミックス信号110からの前記複数のオーディオ・オブジェクトの再構成(たとえばアップミックス)のために使われることになる。
図1で見て取れるように、サイド情報108は、修正段112における係数の修正前に、プレ脱相関器段114に入力されてもよい。諸実施形態によれば、サイド情報108において示される係数は、修正されたドライ・アップミックス行列120、修正されたウェット・アップミックス行列142および
図1で参照符号144で表わされるプレ脱相関器行列Qに変換される。修正されたウェット・アップミックス行列は、後述するように、再構成段124において脱相関器信号122をアップミックスするために使われる。
【0046】
プレ脱相関器行列Qは、プレ脱相関器段114において使われ、諸実施形態によれば、
Q=(absP)
TC
によって計算されてもよい。ここで、absPは、未修正のウェット・アップミックス行列Pの要素の絶対値を取ることによって得られる行列を表わし、Cは未修正のドライ・アップミックス行列を表わす。
【0047】
ドライ・アップミックス行列Cおよびウェット・アップミックス行列Pに基づいてプレ脱相関係数Qを計算する代替的な仕方が構想されている。たとえば、Q=(absP
0)
TCとして計算されてもよい。ここで、行列P
0は、Pの各列を規格化することによって得られる。
【0048】
プレ脱相関器行列Qを計算することは、比較的複雑さの低い計算に関わるのみであり、よってデコーダ側で便利に用いることができる。しかしながら、いくつかの実施形態によれば、プレ脱相関器行列Qはサイド情報108に含められる。
【0049】
換言すれば、デコーダは、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクト126の再構成を可能にする係数を、サイド情報から計算するよう構成されていてもよい。このようにして、プレ脱相関器行列は、修正段において係数に対してなされるいかなる修正にも影響されない。プレ脱相関器行列が修正されればプレ脱相関器段114および脱相関器段116における脱相関プロセスが、望まれないかもしれないさらなるダイアログ向上を導入することがあるので、これは有利でありうる。他の実施形態によれば、サイド情報は、修正段112における係数の修正後に、プレ脱相関器段114に入力される。デコーダ100は高品質デコーダなので、前記複数のオーディオ・オブジェクトのすべてを再構成するよう構成されていてもよい。これは、再構成段124においてなされる。デコーダ100の再構成段124は、ダウンミックス信号110と、脱相関された信号122と、前記複数のダウンミックス信号110からの前記複数のオーディオ・オブジェクトの再構成を可能にする修正された係数120、142とを受領する。こうして、再構成段は、オーディオ・オブジェクトをオーディオ・システムの出力構成、たとえば7.1.4チャネル出力にレンダリングするのに先立って、パラメトリックにオーディオ・オブジェクトを再構成できる。しかしながら、典型的には、これは多くの場合には行なわれない。再構成段124におけるオーディオ・オブジェクト再構成およびレンダリング段128におけるレンダリングは行列演算であり、これらは計算効率のよい実装のために組み合わせることができるからである(破線134で表わす)。三次元空間内の正しい位置においてオーディオ・オブジェクトをレンダリングするために、ビットストリーム102はさらに、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報をもつデータ106を有する。
【0050】
いくつかの実施形態によれば、デコーダ100は再構成されたオブジェクトを、デコーダ外部で処理され、レンダリングされることができるよう、出力として提供するよう構成される。この実施形態によれば、デコーダ100は結果として、再構成されたオーディオ・オブジェクト126を出力し、レンダリング段128は含まない。
【0051】
オーディオ・オブジェクトの再構成は典型的には周波数領域、たとえば直交ミラー・フィルター(QMF)領域で実行される。しかしながら、オーディオは時間領域で出力される必要があることがある。この理由で、デコーダはさらに、レンダリングされた信号130がたとえば逆直交ミラー・フィルター(IQMF)バンクを適用することによって時間領域に変換される変換段132を有する。いくつかの実施形態によれば、変換段132における時間領域への変換は、レンダリング段128における信号のレンダリングに先立って実行されてもよい。
【0052】
まとめると、
図1との関連で述べたデコーダ実装は、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、オーディオ・オブジェクトの再構成に先立って、修正することによって、ダイアログ向上を効率的に実装する。係数に対して向上を実行することは、フレーム当たり数回の乗算のコストがかかる。ダイアログに関係する各係数について一回、かける周波数帯域の数である。典型的な場合においてたいていの場合には、乗算の数はダウンミックス・チャネルの数(たとえば5〜7)かけるパラメータ帯域の数(たとえば20〜40)に等しいが、ダイアログが脱相関寄与も受けるならより多いこともできる。これに対し、再構成されたオブジェクトに対してダイアログ向上を実行するという従来技術の解決策は、サンプル毎、かける周波数帯域の数、かける複素信号のために2の乗算につながる。これは典型的にはフレーム当たり16*64*2=2048乗算に、しばしばそれ以上になる。
【0053】
オーディオ・エンコード/デコード・システムは典型的には、時間‐周波数空間を、たとえば好適なフィルタバンクを入力オーディオ信号に適用することによって、時間/周波数タイルに分割する。時間/周波数タイルとは、一般に、ある時間区間およびある周波数帯域に対応する時間‐周波数空間の部分を意味する。時間区間は典型的には、オーディオ・エンコード/デコード・システムにおいて使われる時間フレームの継続時間に対応してもよい。周波数帯域は、エンコードまたはデコードされるオーディオ信号/オブジェクトの周波数範囲全体の全周波数範囲の一部である。周波数帯域は、典型的には、エンコード/デコード・システムにおいて使われるフィルタバンクによって定義される一つまたはいくつかの近隣の周波数帯域に対応してもよい。周波数帯域がフィルタバンクによって定義されるいくつかの近隣の周波数帯域に対応する場合、これは、オーディオ信号のデコード・プロセスにおいて非一様な周波数帯域をもつことを許容する。たとえば、オーディオ信号のより高い周波数についてはより広い周波数帯域とする。
【0054】
代替的な出力モードでは、デコーダの複雑さを節約するために、ダウンミックスされたオブジェクトは再構成されない。ダウンミックス信号はこの実施形態においては、出力構成、たとえば5.1構成に直接レンダリングされるべき信号と考えられる。これは、常時オーディオ出力(AAO)動作としても知られる。
図2および
図3は、この低計算量の実施形態についてもダイアログの向上を許容するデコーダ200、300を記述する。
【0055】
図2は、第一の諸例示的実施形態に基づくオーディオ・システムにおけるダイアログを向上させるための低計算量デコーダ200を記述している。デコーダ100は、受領段104またはコア・デコーダにおいてビットストリーム102を受領する。受領段104は
図1との関連で述べたように構成されていてもよい。結果として、受領段はサイド情報108およびダウンミックス信号110を出力する。サイド情報108によって示される係数は向上パラメータ140によって修正される。これは修正段112によって上記したとおりであるが、ダイアログがダウンミックス信号110においてすでに存在しており、その結果、向上パラメータは、後述するように、サイド情報108の修正のために使われる前にスケールダウンされる必要があることがあるという違いを考慮に入れる必要がある。さらなる相違点は、低計算量デコーダ200においては脱相関が使われないので(後述)修正段112はサイド情報108内のドライ・アップミックス係数を修正するだけであり、その結果、サイド情報108にウェット・アップミックス係数が存在していたとしても無視するということでありうる。いくつかの実施形態では、訂正は、脱相関寄与の省略によって引き起こされるダイアログ・オブジェクトの予測におけるエネルギー損失を考慮に入れてもよい。修正段112による修正は、ダイアログ・オブジェクトが、ダウンミックス信号と組み合わされたときに結果として向上されたダイアログを生じる向上信号として再構成されることを保証する。修正された係数218およびダウンミックス信号は再構成段204に入力される。再構成段では、ダイアログを表わす前記少なくとも一つのオブジェクトのみが、修正された係数218を使って再構成されてもよい。デコーダ200のデコード複雑さをさらに低減するために、再構成段204におけるダイアログを表わす前記少なくとも一つのオブジェクトの再構成は、ダウンミックス信号110の脱相関に関わらない。こうして、再構成段204はダイアログ向上信号(単数または複数)206を生成する。多くの実施形態において、再構成段204は再構成段124の一部分であり、該一部分は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成に関係している部分である。
【0056】
引き続きサポートされる出力構成、すなわちダウンミックス信号110がサポートするようダウンミックスされた出力構成(たとえば5.1または7.1構成)に従って信号を出力するために、ダイアログ向上された信号206は、再びダウンミックス信号110にダウンミックスされる、あるいはダウンミックス信号110と組み合わされる必要がある。この理由で、デコーダは、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、ダイアログ向上オブジェクトを、ダウンミックス信号110においてダイアログ・オブジェクトがどのように表現されているかに対応する表現210に戻すよう混合する適応的混合段208を有する。この表現は、次いでダウンミックス信号110と組み合わされて、結果として得られる組み合わされた信号214が向上されたダイアログを含むようにされる。
【0057】
複数のダウンミックス信号におけるダイアログを向上させるための上記の概念的な諸段階は、前記複数のダウンミックス信号110の一つの時間‐周波数タイルを表わす行列Dに対する単一の行列演算によって実装されてもよい。
【0058】
D
b=D+MD 式1
ここで、D
bは、ブーストされたダイアログ部分を含む修正されたダウンミックス214である。修正行列Mは
M=GC 式2
によって得られる。ここで、Gはダウンミックス利得の[ダウンミックス・チャネル数,ダイアログ・オブジェクト数]行列、すなわち、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号110の現在デコードされている時間‐周波数タイルD中に混合されたかを記述する情報202である。Cは修正された係数218の[ダイアログ・オブジェクト数,ダウンミックス・チャネル数]行列である。
【0059】
複数のダウンミックス信号におけるダイアログを向上させるための代替的な実装は、各要素が前記複数のダウンミックス信号110の単一の時間‐周波数サンプルを表わす列ベクトルX[ダウンミックス・チャネル数]に対する行列演算によって実装されてもよい。
【0060】
X
b=EX 式3
ここで、X
bは向上されたダイアログ部分を含む修正されたダウンミックス214である。修正行列Eは
E=I+GC 式4
によって得られる。ここで、Iは[ダウンミックス・チャネル数,ダイアログ・オブジェクト数]の恒等行列、Gはダウンミックス利得の[ダウンミックス・チャネル数,ダイアログ・オブジェクト数]行列、すなわちダイアログを表わす前記少なくとも一つのオブジェクトがどのように現在デコードされている複数のダウンミックス信号110中に混合されたかを記述する情報202であり、Cは修正された係数218の[ダイアログ・オブジェクト数,ダウンミックス・チャネル数]行列である。
【0061】
行列Eはフレーム中の各周波数帯域および時間サンプルについて計算される。典型的には、行列Eのためのデータはフレーム当たり一度伝送され、行列は時間‐周波数タイルにおける各時間サンプルについて、前のフレームにおける対応する行列との補間によって計算される。
【0062】
いくつかの実施形態によれば、情報202はビットストリーム102の一部であり、ダイアログ・オブジェクトをダウンミックス信号にダウンミックスするためのオーディオ・システムにおけるエンコーダによって使われたダウンミックス係数を含む。
【0063】
いくつかの実施形態では、ダウンミックス信号はスピーカー構成のチャネルに対応しない。そのような実施形態では、ダウンミックス信号を、再生のために使われる構成のスピーカーに一致する位置にレンダリングすることが有益である。これらの実施形態については、ビットストリーム102は前記複数のダウンミックス信号110についての位置データを担持してもよい。
【0064】
そのような受領された情報202に対応するビットストリームの例示的なシンタックスについてこれから述べる。ダイアログ・オブジェクトは二つ以上のダウンミックス信号に混合されてもよい。こうして、各ダウンミックス・チャネルについてのダウンミックス係数は、下記の表に従ってビットストリーム中に符号化されてもよい。
【0065】
【表1】
7つ中5番目のダウンミックス信号がダイアログ・オブジェクトを含むだけであるようダウンミックスされるオーディオ・オブジェクトについてのダウンミックス係数を表わすビットストリームは、0000111100のようになる。対応して、5番目のダウンミックス信号中に1/15、7番目のダウンミックス信号中に14/15がダウンミックスされているオーディオ・オブジェクトについてのダウンミックス係数を表わすビットストリームは000010000011101のようになる。
【0066】
このシンタックスでは、値0が最も頻繁に伝送される。ダイアログ・オブジェクトは典型的にはすべてのダウンミックス信号中にあるのではなく、たいていはただ一つのダウンミックス信号にあるからである。よって、これらのダウンミックス係数は有利には、上記の表において定義されたエントロピー符号化によって符号化されうる。0でない係数に対して1ビット多く費やし、0の値について1のみとすることによって、平均的な語長はたいていの場合について5ビット未満になる。たとえば、ダイアログ・オブジェクトが7つのダウンミックス信号中の一つに存在するときは、平均して、係数当たり1/7*(1[ビット]*6[係数]+5[ビット]*1[係数])=1.57ビットである。すべての係数を4ビットを用いてすなおに符号化すると、コストは係数当たり1/7*(4[ビット]*7[係数])=4ビットとなる。ダイアログ・オブジェクトが(7つのダウンミックス信号のうち)6つまたは7つのダイアログ信号にある場合にのみ、すなおな符号化より高価になる。上記のようなエントロピー符号化は、ダウンミックス係数を伝送するための必要とされるビットレートを低減する。
【0067】
あるいはまた、ダウンミックス係数を伝送するためにハフマン符号化が使われることができる。
【0068】
他の実施形態によれば、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報202はデコーダによって受領されず、その代わりにデコーダ200の受領段104または別の適切な段において計算される。これは、デコーダ200によって受領されるビットストリーム102を伝送するための必要とされるビットレートを低減する。この計算は、前記複数のダウンミックス信号110およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータに基づくことができる。そのようなデータは、典型的にはオーディオ・システムにおけるエンコーダによってビットストリーム102に含められるので、典型的にはデコーダ200によってすでに知られている。計算は、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置を前記複数のダウンミックス信号110についての空間位置にマッピングする関数を適用することを含む。アルゴリズムは、3Dパン・アルゴリズム、たとえばベクトル・ベースの振幅パン(VBAP)アルゴリズムであってもよい。VBAPは、複数の物理的音源、たとえばラウドスピーカーのセットアップ、すなわちスピーカー出力構成を使って、仮想音源、たとえばダイアログ・オブジェクトを、任意の方向に位置決めする方法である。したがって、そのようなアルゴリズムは、ダウンミックス信号の位置をスピーカー位置として使うことによって、ダウンミックス係数を計算するために再利用できる。
【0069】
上記の式1および2の記法を使うと、GはrendCoef=R(spkPos,sourcePos)とすることによって計算される。ここで、Rは、spkPosに位置するnbrSpeakers個のダウンミックス・チャネルにレンダリングされるsourcePos(たとえばデカルト座標)に位置するダイアログ・オブジェクトについてレンダリング係数ベクトルrendCoef[nbrSpeakers×1]を提供するための3Dパン・アルゴリズム(たとえばVBAP)である(各行がダウンミックス信号の座標に対応する行列)。すると、Gは
G=[rendCoef
1,rendCoef
2,…,rendCoef
n] 式5
によって得られる。ここで、rendCoef
iは、n個のダイアログ・オブジェクトのうちダイアログ・オブジェクトiについてのレンダリング係数である。
【0070】
オーディオ・オブジェクトの再構成は典型的には、
図1との関連で上記したようにQMF領域で実行され、音は時間領域で出力される必要があることがあるので、デコーダ200はさらに、組み合わされた信号214がたとえば逆QMFを適用することによって時間領域の信号216に変換される変換段132を有する。
【0071】
諸実施形態によれば、デコーダ200はさらに、変換段132の上流または変換段132の下流にレンダリング段(図示せず)を有していてもよい。上記で論じたように、ダウンミックス信号はいくつかの場合には、スピーカー構成のチャネルに対応しない。そのような実施形態では、ダウンミックス信号を、再生のために使われる構成のスピーカーと対応する位置にレンダリングすることが有益である。これらの実施形態について、ビットストリーム102は、前記複数のダウンミックス信号110についての位置データを担持してもよい。
【0072】
オーディオ・システムにおいてダイアログを向上させるための低計算量デコーダの代替的な実施形態が
図3に示されている。
図3に示したデコーダ300と上記のデコーダ200との間の主要な相違は、再構成されたダイアログ向上オブジェクト206が、再構成段204後にダウンミックス信号110と再び組み合わされないということである。その代わり、再構成された少なくとも一つのダイアログ向上オブジェクト206は、少なくとも一つの別個の信号として、ダウンミックス信号110とマージされる。上記のように典型的にはデコーダ300によってすでに知られている前記少なくとも一つのダイアログ・オブジェクトについての空間的情報は、前記複数のダウンミックス信号についての空間位置情報304に基づくダウンミックス信号のレンダリングと一緒に追加的な信号206をレンダリングするために、前記追加的な信号206が上記のような変換段によって時間領域に変換された後または前に使われる。
【0073】
図2〜
図3との関連で述べたデコーダ200、300の実施形態両方について、ダイアログがダウンミックス信号110にすでに存在していること、向上された再構成されたダイアログ・オブジェクト206が、
図2との関連で述べたようにダウンミックス信号110と組み合わされるのでも、あるいは
図3との関連で述べたようにダウンミックス信号110とマージされるのでも、これに加わることを考慮に入れる必要がある。結果として、向上パラメータの絶対値が、ダウンミックス信号中の既存ダイアログが絶対値1をもつことに基づいて計算される場合、向上パラメータはg
DEは、たとえば1を引かれる必要がある。
【0074】
図4は、例示的実施形態に基づく、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法400を記述している。
図4に示される方法400の段階の順序は例として示されていることを注意しておくべきである。
【0075】
方法400の第一段階は、前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定する任意的な段階S401である。典型的には、オブジェクト・オーディオには、各オブジェクトがどこにレンダリングされるべきかの記述が伴う。これは典型的には、座標(たとえばデカルト座標、極座標など)を用いてなされる。
【0076】
本方法の第二段階は、ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定する段階S402である。これは、ダウンミックス段階とも称されうる。
【0077】
たとえば、各ダウンミックス信号は前記複数のオーディオ・オブジェクトの線形結合であってもよい。他の実施形態では、ダウンミックス信号における各周波数帯域が前記複数のオーディオ・オブジェクトの異なる組み合わせを含みうる。よって、この方法を実装するオーディオ・エンコード・システムは、オーディオ・オブジェクトからダウンミックス信号を決定し、エンコードするダウンミックス・コンポーネントを有する。エンコードされたダウンミックス信号はたとえば5.1または7.1サラウンド信号であってもよく、これはドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACまたはMP3のような確立された音デコード・システムと後方互換である。これによりAAOが達成される。
【0078】
複数のダウンミックス信号を決定する段階S402は任意的に、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報を決定することS404を含んでいてもよい。多くの実施形態において、ダウンミックス係数はダウンミックス演算における処理から帰結する。いくつかの実施形態では、これは、最小平均二乗誤差(MMSE: minimum mean square error)アルゴリズムを使ってダイアログ・オブジェクト(単数または複数)をダウンミックス信号と比較することによってなされてもよい。
【0079】
オーディオ・オブジェクトをダウンミックスする多くの方法がある。たとえば、空間的に互いに近いオブジェクトをダウンミックスするアルゴリズムが使われてもよい。このアルゴリズムによれば、空間内のどの位置にオブジェクトの集中があるかが判別される。これらの位置が次いで、ダウンミックス信号位置のための重心として使われる。これはほんの一例である。他の例は、ダウンミックスするときに、可能であれば、ダイアログ・オブジェクトを他のオーディオ・オブジェクトから別個に保つことを含む。ダイアログ分離を改善するとともに、デコーダ側でのダイアログ向上をさらに単純化するためである。
【0080】
方法400の第四段階は、前記複数のダウンミックス信号についての空間位置に対応する空間的情報を決定する任意的な段階S406である。前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定する前記任意的な段階S401が省略された場合には、段階S406はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報を決定することを含む。
【0081】
空間的情報は、典型的には、上記のように前記複数のダウンミックス信号を決定するS402ときに知られている。
【0082】
本方法における次の段階は、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定する段階S408である。これらの係数は、アップミックス・パラメータと称されてもよい。アップミックス・パラメータはたとえば、ダウンミックス信号およびオーディオ・オブジェクトから、たとえばMMSE最適化によって決定されてもよい。アップミックス・パラメータは典型的には、ドライ・アップミックス係数およびウェット・アップミックス係数を含む。ドライ・アップミックス係数は、エンコードされるべきオーディオ信号を近似するダウンミックス信号の線形マッピングを定義する。よって、ドライ・アップミックス係数は、ダウンミックス信号を入力として取り、エンコードされるべきオーディオ信号を近似する一組のオーディオ信号を出力する線形変換の定量的属性を定義する係数である。決定された一組のドライ・アップミックス係数はたとえば、オーディオ信号の最小平均二乗誤差近似に対応するダウンミックス信号の線形マッピングを定義してもよい。すなわち、ダウンミックス信号の前記一組の線形マッピングの間で、決定された一組のドライ・アップミックス係数は、最小平均二乗の意味でオーディオ信号を最もよく近似する線形マッピングを定義してもよい。
【0083】
ウェット・アップミックス係数はたとえば、受領されたオーディオ信号の共分散と、ダウンミックス信号の線形マッピングによって近似されるオーディオ信号の共分散との間の差に基づいて、あるいはそれらを比較することによって、決定されてもよい。
【0084】
換言すれば、アップミックス・パラメータは、ダウンミックス信号からのオーディオ・オブジェクトの再構成を許容するアップミックス行列の要素に対応しうる。アップミックス・パラメータは典型的には、ダウンミックス信号およびオーディオ・オブジェクトに基づいて、個々の時間/周波数タイルに関して計算される。このように、アップミックス・パラメータは各時間/周波数タイルについて決定される。たとえば、アップミックス行列(ドライ・アップミックス係数およびウェット・アップミックス係数を含む)は、各時間/周波数タイルについて決定されてもよい。
【0085】
図4に示される、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法の第六段階は、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを決定する段階S410である。典型的には、前記複数のオーディオ・オブジェクトには、どのオブジェクトがダイアログを含むかを示すメタデータが伴っていてもよい。あるいはまた、当技術分野において既知の発話検出器が使われてもよい。
【0086】
記載される方法の最終段階は、ダウンミックス段階S402によって決定された前記複数のダウンミックス信号と、再構成のための係数が決定される段階S408によって決定された前記サイド情報と、段階S410との関連で上記したように、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データとを含むビットストリームを形成する段階S412を含む。このビットストリームは、上記の任意的な段階S401、S404、S406、S408によって出力または決定されたデータをも含んでいてもよい。
【0087】
図5では、エンコーダ500のブロック図が例として示されている。エンコーダは、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードし、最終的に、ビットストリーム520を送出するよう構成されている。ビットストリーム520は、上記で
図1〜
図3との関連で述べたデコーダ100、200、300のうちのいずれかによって受領されてもよい。
【0088】
本デコーダは、ダウンミックス・コンポーネント504と再構成パラメータ計算コンポーネント506とを有するダウンミックス段503を有する。ダウンミックス・コンポーネントは、ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクト502を受領し、前記複数のオーディオ・オブジェクト502のダウンミックスである複数のダウンミックス信号507を決定する。ダウンミックス信号はたとえば5.1または7.1であってもよい。上記のように、前記複数のオーディオ・オブジェクト502は実際には複数のオブジェクト・クラスター502であってもよい。つまり、ダウンミックス・コンポーネント504の上流に、より多数の複数のオーディオ・オブジェクトから複数のオブジェクト・クラスターを決定するクラスタリング・コンポーネント(図示せず)が存在していてもよい。
【0089】
ダウンミックス・コンポーネント504はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報505を決定してもよい。
【0090】
前記複数のダウンミックス信号507および前記複数のオーディオ・オブジェクト(またはオブジェクト・クラスター)は、再構成パラメータ計算コンポーネント506によって受領される。再構成パラメータ計算コンポーネント506はたとえば、最小平均二乗誤差(MMSE)最適化を使って、前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報509を決定する。上記のように、サイド情報509は典型的には、ドライ・アップミックス係数およびウェット・アップミックス係数を含む。
【0091】
例示的エンコーダ500は、さらに、ドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACまたはMP3のような確立された音デコード・システムと後方互換であるようにダウンミックス信号507をエンコードするよう適応されていてもよいダウンミックス・エンコーダ・コンポーネント508を有していてもよい。
【0092】
エンコーダ500はさらに、少なくとも前記エンコードされたダウンミックス信号510と、前記サイド情報509と、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータ516とをビットストリーム中に組み合わせるマルチプレクサ518を有する。ビットストリーム520は、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報505をも含んでいてもよい。この情報はエントロピー符号化によって符号化されてもよい。さらに、ビットストリーム520は、前記複数のダウンミックス信号と、ダイアログを表わす前記少なくとも一つのオブジェクトとについての空間位置に対応する空間的情報514をも含んでいてもよい。さらに、ビットストリーム520は、ビットストリーム中の前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報512を含んでいてもよい。
【0093】
まとめると、本開示はオーディオ符号化の分野に属し、特に、オーディオ情報が少なくとも一つのダイアログ・オブジェクトを含む複数のオーディオ・オブジェクトによって表現される場合の空間的オーディオ符号化の分野に関する。特に、本開示は、オーディオ・システムにおけるデコーダにおいてダイアログを向上させるための方法および装置を提供する。さらに、本開示は、オーディオ・システムにおけるデコーダによってダイアログが向上させられることを許容するためのそのようなオーディオ・オブジェクトのエンコードのための方法および装置を提供する。
【0094】
〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
【0095】
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する/含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。
【0096】
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・システムにおけるデコーダにおいてダイアログを向上させる方法であって:
複数のダウンミックス信号を受領する段階であって、前記ダウンミックス信号はダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである、段階と、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領する段階と、
前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領する段階と、
向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正する段階と、
修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階とを含む、
方法。
〔態様2〕
前記向上パラメータを使って前記係数を修正する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトの再構成を可能にする係数に、前記向上パラメータを乗算することを含む、態様1記載の方法。
〔態様3〕
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を、前記サイド情報から計算することを含む、態様1または2記載の方法。
〔態様4〕
ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトのみを再構成することを含む、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
ダイアログを表わす前記少なくとも一つのオブジェクトのみの再構成は、前記ダウンミックス信号の脱相関を含まない、態様4記載の方法。
〔態様6〕
ダイアログを表わす再構成された前記少なくとも一つのオブジェクトを前記ダウンミックス信号と、少なくとも一つの別個の信号としてマージする段階をさらに含む、態様4または5記載の方法。
〔態様7〕
前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領する段階と、
前記複数のダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、前記空間的情報をもつデータに基づいてレンダリングする段階とを含む、
態様6記載の方法。
〔態様8〕
前記ダウンミックス信号およびダイアログを表わす再構成された前記少なくとも一つのオブジェクトを、ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を使って、組み合わせる段階をさらに含む、
態様4または5記載の方法。
〔態様9〕
前記ダウンミックス信号とダイアログを表わす再構成された前記少なくとも一つのオブジェクトとの組み合わせをレンダリングする段階をさらに含む、態様8記載の方法。
〔態様10〕
ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する情報を受領する段階をさらに含む、
態様8または9記載の方法。
〔態様11〕
ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されたかを記述する受領された前記情報は、エントロピー符号化によって符号化されている、態様10記載の方法。
〔態様12〕
前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報をもつデータを受領する段階と、
ダイアログを表わす前記少なくとも一つのオブジェクトがオーディオ・システムにおけるエンコーダによってどのように前記複数のダウンミックス信号中に混合されたかを記述する前記情報を、前記空間的情報をもつデータに基づいて計算する段階とをさらに含む、
態様8または9記載の方法。
〔態様13〕
前記計算する段階は、ダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置を、前記複数のダウンミックス信号についての空間位置にマッピングする関数を適用することを含む、態様12記載の方法。
〔態様14〕
前記関数が3Dパン・アルゴリズムである、態様13記載の方法。
〔態様15〕
ダイアログを表わす前記少なくとも一つのオブジェクトを再構成する段階は、前記複数のオーディオ・オブジェクトを再構成することを含む、態様1記載の方法。
〔態様16〕
前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報をもつデータを受領する段階と、
前記空間的情報をもつデータに基づいて、再構成された前記複数のオーディオ・オブジェクトをレンダリングする段階とをさらに含む、
態様15記載の方法。
〔態様17〕
態様1ないし16のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様18〕
オーディオ・システムにおいてダイアログを向上させるデコーダであって:
ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を受領し、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を受領し、
前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを受領するよう構成された受領段と;
向上パラメータおよび前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを使って前記係数を修正するよう構成された修正段と;
修正された係数を使ってダイアログを表わす前記少なくとも一つのオブジェクトを再構成するよう構成された再構成段とを有する、
デコーダ。
〔態様19〕
ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードする方法であって:
ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定する段階と、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定する段階と、
前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータを決定する段階と、
前記複数のダウンミックス信号、前記サイド情報および前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定する前記データを含むビットストリームを形成する段階とを含む、
方法。
〔態様20〕
前記複数のダウンミックス信号およびダイアログを表わす前記少なくとも一つのオブジェクトについての空間位置に対応する空間的情報を決定する段階と、
前記空間的情報を前記ビットストリームに含める段階とをさらに含む、
態様19記載の方法。
〔態様21〕
前記複数のダウンミックス信号を決定する段階はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する情報を決定することを含み、
当該方法はさらに、ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する前記情報を、前記ビットストリームに含める段階を含む、
態様19または20記載の方法。
〔態様22〕
ダイアログを表わす前記少なくとも一つのオブジェクトがどのように前記複数のダウンミックス信号中に混合されるかを記述する決定された前記情報が、エントロピー符号化を使ってエンコードされる、態様21記載の方法。
〔態様23〕
前記複数のオーディオ・オブジェクトについての空間位置に対応する空間的情報を決定する段階と、
前記複数のオーディオ・オブジェクトについての空間位置に対応する前記空間的情報を前記ビットストリームに含める段階とをさらに含む、
態様19ないし22のうちいずれか一項記載の方法。
〔態様24〕
態様19ないし23のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様25〕
ダイアログを表わす少なくとも一つのオブジェクトを含む複数のオーディオ・オブジェクトをエンコードするエンコーダであって:
ダイアログを表わす少なくとも一つのオブジェクトを含む前記複数のオーディオ・オブジェクトのダウンミックスである複数のダウンミックス信号を決定し、
前記複数のダウンミックス信号からの前記複数のオーディオ・オブジェクトの再構成を可能にする係数を示すサイド情報を決定するよう構成されたダウンミックス段と、
前記複数のダウンミックス信号および前記サイド情報を含むビットストリームであって、前記複数のオーディオ・オブジェクトのうちのどれがダイアログを表わすかを同定するデータをさらに含むビットストリームを形成するよう構成された符号化段とを有する、
エンコーダ。