IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特開2023-85524ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023085524
(43)【公開日】2023-06-20
(54)【発明の名称】ハイブリッドエンコーダ/デコーダ空間解析を使用する音響シーンエンコーダ、音響シーンデコーダおよびその方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20230613BHJP
   G10L 21/038 20130101ALI20230613BHJP
【FI】
G10L19/008 100
G10L21/038
【審査請求】有
【請求項の数】22
【出願形態】OL
(21)【出願番号】P 2023063771
(22)【出願日】2023-04-10
(62)【分割の表示】P 2020541892の分割
【原出願日】2019-01-31
(31)【優先権主張番号】18154749.8
(32)【優先日】2018-02-01
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】18185852.3
(32)【優先日】2018-07-26
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】110000121
【氏名又は名称】IAT弁理士法人
(72)【発明者】
【氏名】フックス,ギヨーム
(72)【発明者】
【氏名】バイエル,シュテファン
(72)【発明者】
【氏名】ムルトルス,マルクス
(72)【発明者】
【氏名】ティエアガルト,オリヴェル
(72)【発明者】
【氏名】ブテオン,アレキサンドレ
(72)【発明者】
【氏名】ヘッレ,ユルゲン
(72)【発明者】
【氏名】ギド,フロリン
(72)【発明者】
【氏名】イェゲルス,ヴォルフガング
(72)【発明者】
【氏名】キュヒ,ファビアン
(57)【要約】      (修正有)
【課題】少なくとも2つの成分信号を含んでいる音響シーンを符号化する音響シーンエンコーダを提供する。
【解決手段】音響シーン(110)をエンコードする音響シーンエンコーダは、少なくとも2成分の信号をコア符号化して、少なくとも2成分の信号の第1部分に対して第1の符号化表現(310)を生成し、少なくとも2成分の信号の第2の部分に対して第2の符号化表現(320)を生成するコアエンコーダと、音響シーンを解析して、第2部分に対する1以上の空間パラメータ(330)または1以上の空間パラメータセットを生成する空間解析器(200)と、第1の符号化表現(310)、第2の符号化表現(320)および第2部分に対する1以上の空間パラメータ(330)または1以上の空間パラメータセットを含む符号化音響シーン信号(340)を形成する出力インタフェース(300)と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも2つの成分信号を含んでいる音響シーン(110)を符号化する音響シーンエンコーダであって、
前記少なくとも2つの成分信号をコア符号化するコアエンコーダ(160)であって、前記コアエンコーダ(160)は、前記少なくとも2つの成分信号の第1の部分に対して第1の符号化表現(310)を生成し、前記少なくとも2つの成分信号の第2の部分に対して第2の符号化表現(320)を生成するように構成され、前記第1の符号化表現(310)はMの符号化成分信号を含み、前記第2の符号化表現(320)はNの符号化成分信号を含み、MはNより大きく、Nは1以上である、コアエンコーダ(160)と、
前記少なくとも2つの成分信号の前記第2の部分に対して1以上の空間パラメータ(330)又は1以上の空間パラメータセットを導出するために前記音響シーン(110)を解析する空間解析器(200)と、
符号化音響シーン信号(340)を形成する出力インタフェース(300)であって、前記符号化音響シーン信号(340)は、前記第1の符号化表現と、前記第2の符号化表現(320)と、前記1以上の空間パラメータ(330)又は1以上の空間パラメータセットとを、前記少なくとも2つの成分信号の前記第2の部分に含む出力インタフェース(300)と、
を含むことを特徴とする音響シーンエンコーダ。
【請求項2】
前記コアエンコーダ(160)は後続の時間フレームを前記少なくとも2つの成分信号から形成するように構成され、
前記少なくとも2つの成分信号の前記後続の時間フレームの第1の時間フレームは前記少なくとも2つの成分信号の前記第1の部分であり、前記少なくとも2つの成分信号の前記後続の時間フレームの第2の時間フレームは前記少なくとも2つの成分信号の前記第2の部分であり、又は
前記少なくとも2つの成分信号の時間フレームの第1の周波数サブバンドは前記少なくとも2つの成分信号の前記第1の部分であり、前記時間フレームの第2の周波数サブバンドは前記少なくとも2つの成分信号の前記第2の部分であることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項3】
前記音響シーン(110)は、第1の成分信号として全方向性音響信号と、第2の成分信号として少なくとも1つの指向性音響信号とを含み、又は、
前記音響シーン(110)は、第1の成分信号として、第1の位置に位置する全方向性マイクロフォンによって捕捉された信号と、第2の成分信号として、前記第1の位置と異なる第2の位置に位置する全方向性マイクロフォンによって捕捉された少なくとも1つの信号と、を含み、又は、
前記音響シーン(110)は、第1の成分信号として第1の方向に向けられた指向性マイクロフォンによって捕捉された少なくとも1つの信号と、第2の成分信号として前記第1の方向とは異なる第2の方向に向けられた指向性マイクロフォンによって捕捉された少なくとも1つの信号と、を含むことを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項4】
前記音響シーン(110)は、A-フォーマット成分信号と、B-フォーマット成分信号と、1次アンビソニックス成分信号と、高次アンビソニックス成分信号と、又は少なくとも2つのマイクロホンカプセルを有するマイクロホンアレイにより捕捉された若しくは以前に記録あるいは合成された音響シーンから仮想マイクロフォン演算法によって決定された成分信号と、を含むことを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項5】
前記出力インタフェース(300)は、前記少なくとも2つの成分信号の前記第2の部分に対して前記空間解析器(200)により生成された前記1以上の空間パラメータ(330)としての特定のパラメータ型から任意の空間パラメータを、前記符号化音響シーン信号(340)に含まないように構成され、前記少なくとも2つの成分信号の前記第2の部分だけが前記特定のパラメータ型を有し、前記特定のパラメータ型の任意のパラメータが前記符号化音響シーン信号(340)の前記少なくとも2つの成分信号の前記第1の部分に対して含まれないことを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項6】
前記コアエンコーダ(160)は、前記少なくとも2つの成分信号の前記第2の部分に対してパラメトリック符号化動作(160b)を実行し、前記少なくとも2つの成分信号の前記第1の部分に対して符号化動作(160a)を実行するように構成され、又は
前記少なくとも2つの成分信号の前記第2の部分の開始帯域は帯域幅拡張開始帯域よりも低く、前記コアエンコーダ(100)によって行われたコアノイズ充填動作は、任意の固定されたクロスオーバー帯域を持たず、周波数が増えるにつれてコアスペクトルのより多くの部分に対して徐々に用いられることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項7】
前記コアエンコーダ(160)は、前記少なくとも2つの成分信号の前記第2の部分に対応する時間フレームの第2の周波数サブバンドに対してパラメトリック処理(160b)を実行するように構成され、前記パラメトリック処理(160b)は、前記第2の周波数サブバンドに対して振幅に関するパラメータを計算し、前記第2の周波数サブバンドの個々のスペクトル線の代わりに前記振幅に関するパラメータを量子化及びエントロピーコーディングし、前記コアエンコーダ(160)は前記少なくとも2つの成分信号の前記第1の部分に対応する前記時間フレームの第1の周波数サブバンドの個々のスペクトル線を量子化及びエントロピー符号化(160a)するように構成され、又は
前記コアエンコーダ(160)は、前記少なくとも2つの成分信号の前記第2の部分に対応する時間フレームの高周波サブバンドに対してパラメトリック処理(160b)を実行するように構成され、前記パラメトリック処理(160b)は、前記高周波サブバンドに対して振幅に関するパラメータを計算し、前記高周波サブバンドの時間領域信号の代わりに振幅関連パラメータを量子化及びエントロピーコーディングするステップを含み、前記コアエンコーダ(160)は、LPCコーディング、LPC/TCXコーディング、又はEVSコーディング、AMR Widebandコーディング若しくはAMR Wideband+コーディングのような、時間領域コーディング動作によって、前記少なくとも2つの成分信号の前記第1の部分に対応する前記時間フレームの低周波数サブバンドの時間領域音響信号を量子化及びエントロピーコーディング(160b)するように構成されることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項8】
前記パラメトリック処理(160b)は、スペクトル帯域複製(SBR)処理及びインテリジェントギャップ充填(IGF)処理又はノイズ充填処理を含むことを特徴とする請求項7に記載の音響シーンエンコーダ。
【請求項9】
前記少なくとも2つの成分信号の前記第1の部分は時間フレームの第1の周波数サブバンドであり、前記少なくとも2つの成分信号の前記第2の部分は前記時間フレームの第2の周波数サブバンドであり、前記コアエンコーダ(160)は前記第1の周波数サブバンドと前記第2の周波数サブバンドとの間で所定の境界周波数を使用するように構成され、又は
前記コアエンコーダ(160)は、Mに均しい前記音響シーン(110)の次元を低減して、Nに等しい低い次元の音響シーンを得る、次元低減器(150a)を含み、前記コアエンコーダ(160)は、Nに等しい前記低い次元の音響シーンから前記少なくとも2つの成分信号の前記第1の部分に対して前記第1の符号化表現(310)を計算するように構成され、前記空間解析器(200)は、Mに等しいとともに前記低い次元の音響シーンの前記次元Nより高い、前記次元を有する前記音響シーン(110)から前記空間パラメータ(330)を導出するように構成されることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項10】
異なるビットレートで動作するように構成されており、前記少なくとも2つの成分信号の前記第1の部分と前記少なくとも2つの成分信号の前記第2の部分との間の所定の境界周波数は選択されたビットレートに依存し、前記所定の境界周波数は、より小さいビットレートに対して小さい、又は前記所定の境界周波数は、より大きいビットレートに対して大きいことを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項11】
前記少なくとも2つの成分信号の前記第1の部分は前記少なくとも2つの成分信号の第1の周波数サブバンドであり、前記少なくとも2つの成分信号の前記第2の部分は前記少なくとも2つの成分信号の第2の周波数サブバンドであり、
前記空間解析器(200)は、前記第2の周波数サブバンドに対して、前記1以上の空間パラメータ(330)として、方向性パラメータと拡散パラメータのような非方向性パラメータのうちの少なくとも1つを計算するように構成されることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項12】
前記コアエンコーダ(160)は、
前記少なくとも2つの成分信号の時間フレームのシーケンスを、前記少なくとも2つの成分信号に対するスペクトルフレームのシーケンスに変換する時間-周波数変換器(164)と、
前記スペクトルフレームの第1の周波数サブバンド内のスペクトルフレームの前記シーケンスのフレームのスペクトル値を量子化及びエントロピーコーディングするスペクトルエンコーダ(160a)と、
前記スペクトルフレームの第2の周波数サブバンド内の前記スペクトルフレームのスペクトル値をパラメトリックに符号化するパラメトリックエンコーダ(160b)と、を含み、又は
前記コアエンコーダ(160)は、時間フレームの低帯域部分の時間領域又は混合時間領域と周波数領域の符号化動作を実行する、時間領域又は混合時間領域周波数領域コアエンコーダを含み、又は
前記空間解析器(200)は、前記少なくとも2つの成分信号の前記第2の部分を解析帯域に細分するように構成され、解析帯域の帯域幅は、前記少なくとも2つの成分信号の前記第1の部分内で前記スペクトルエンコーダ(160a)によって処理された2つの隣接するスペクトル値に付随する帯域幅以上であるか、又は前記少なくとも2つの成分信号の前記第1の部分を表す低帯域部分の帯域幅よりも低く、前記空間解析器(200)は前記少なくとも2つの成分信号の前記第2の部分の各解析帯域について方向性パラメータ及び拡散パラメータの少なくとも1つを計算するように構成され、又は
前記コアエンコーダ(160)と前記空間解析器(200)は、共通のフィルタバンク(164)又は異なる特性を有する異なるフィルタバンク(164、1000)を使用するように構成されることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項13】
前記空間解析器(200)は、前記方向性パラメータを計算するために、前記拡散パラメータを計算するために使用される解析帯域よりも狭い解析帯域を使用するように構成される請求項12に記載の音響シーンエンコーダ。
【請求項14】
前記コアエンコーダ(160)は前記少なくとも2つの成分信号に対して符号化マルチチャンネル信号を生成するマルチチャンネルエンコーダを含み、又は
前記コアエンコーダ(160)は、前記少なくとも2つの成分信号の成分信号の数が3以上である時に2以上の符号化マルチチャンネル信号を生成するマルチチャンネルエンコーダを含み、又は、
前記コアエンコーダ(160)は、第1の解像度を有する前記第1の符号化表現(310)を生成し、第2の解像度を有する前記第2の符号化表現(320)を生成するように構成され、前記第2の解像度は前記第1の解像度よりも低い、又は
前記コアエンコーダ(160)は、第1の時間又は第1の周波数解像度を有する前記第1の符号化表現(310)を生成し、第2の時間又は第2の周波数解像度を有する前記第2の符号化表現(320)を生成するように構成され、前記第2の時間又は周波数解像度は前記第1の時間又は周波数解像度よりも低い、又は
前記出力インタフェース(300)は、前記少なくとも2つの成分信号の前記第1の部分に対する任意の空間パラメータ(330)を前記符号化音響シーン信号(340)に含まないように、又は前記少なくとも2つの成分信号の前記第2の部分に対する前記空間パラメータ(330)の数と比べると、前記少なくとも2つの成分信号の前記第1の部分に対して少数の空間パラメータを、前記符号化音響シーン信号(340)に含めるように、構成されることを特徴とする請求項1に記載の音響シーンエンコーダ。
【請求項15】
少なくとも2つの成分信号の第1の部分の第1の符号化表現(410)と、前記少なくとも2つの成分信号の第2の部分の第2の符号化表現(420)と、前記少なくとも2つの成分信号の前記第2の部分に対する1以上の空間パラメータ(430)とを含むことを特徴とする符号化音響シーン信号(340)を受信する入力インタフェース(400)と、
前記第1の符号化表現(410)と前記第2の符号化表現(420)とを復号して、音響シーンを表す前記少なくとも2つの成分信号の復号化表現(810、820)を得るコアデコーダ(500)と、
前記少なくとも2つの成分信号の前記第1の部分に対応する前記復号化表現の部分(810)を解析し、前記少なくとも2つの成分信号の前記第1の部分に対して1以上の空間パラメータ(840)を導出し、前記少なくとも2つの成分信号の前記第1の部分は前記少なくとも2つの成分信号の時間周波数表現の第1の部分を含む、空間解析器(600)であって、
前記少なくとも2つの成分信号の前記第1の部分に対する前記1以上の空間パラメータ(840)と前記少なくとも2つの成分信号の前記第2の部分に対する前記1以上の空間パラメータ(830)とを使用して、前記復号化表現(810、820)を前記符号化音響シーン信号(340)に含まれるように、空間的にレンダリングし、前記少なくとも2つの成分信号の前記第2の部分は前記少なくとも2つの成分信号の前記時間周波数表現の第2の部分を含み、前記第2の部分は前記第1の部分と異なる空間レンダラ(800)を含むことを特徴とする音響シーンデコーダ。
【請求項16】
前記コアデコーダ(500)は複合化フレームのシーケンスを提供するように構成され、前記少なくとも2つの成分信号の前記第1の部分は複合化フレームの前記シーケンスの第1のフレームであり、前記少なくとも2つの成分信号の前記第2の部分は複合化フレームの前記シーケンスの第2のフレームであり、前記コアデコーダ(500)は、後続の複合化時間フレームを重畳加算して、前記符号化表現を得る、オーバーラップ加算器をさらに含み、又は、
前記コアデコーダ(500)は、重ね合わせ加算動作なしに、ACELPベースシステム動作を行うことを特徴とする請求項15に記載の音響シーンデコーダ。
【請求項17】
前記空間レンダラ(800)はバンドワイズ方式で動作するように構成され、前記少なくとも2つの成分信号の前記第1の部分は第1の周波数サブバンドであり、前記第1の周波数サブバンドは複数の第1の帯域で細分化されており、前記少なくとも2つの成分信号の第2の部分は第2の周波数サブバンドであり、前記第2の周波数サブバンドは複数の第2の帯域で細分化されており、
前記空間レンダラ(800)は、前記空間解析器(600)によって導出された対応する空間パラメータを用いて、各第1の帯域に対して出力成分信号をレンダリングするように構成され、
前記空間レンダラ(800)は、前記符号化音響シーン信号(340)に含まれる対応する空間パラメータを使用して、各第2の帯域に対する出力成分信号をレンダリングするように構成され、前記複数の第2の帯域の第2の帯域は前記複数の第1の帯域の第1の帯域よりも大きく、
前記空間レンダラ(800)は、前記第1の帯域と前記第2の帯域とに対する前記出力成分信号を結合(878)し、レンダリングされた出力信号を得るように構成され、前記レンダリングされた出力信号は、拡声器信号、A-フォーマット信号、B-フォーマット信号、1次アンビソニックス信号、高次アンビソニックス信号又はバイノーラル信号であることを特徴とする請求項15に記載の音響シーンデコーダ。
【請求項18】
前記コアデコーダ(500)は、前記少なくとも2つの成分信号の前記第2の部分に対してパラメトリック復号動作(510b)を実行し、前記少なくとも2つの成分信号の前記第1の部分に対して波形維持復号動作(510a)を実行するように構成されることを特徴とする請求項15に記載の音響シーンデコーダ。
【請求項19】
符号化音響シーン信号(340)は前記少なくとも2つの成分信号に対して符号化マルチチャンネル信号を含み、又は前記符号化音響シーン信号(340)は2より大きい数の成分信号に対して少なくとも2つの符号化マルチチャンネル信号を含み、
前記コアデコーダ(500)は、前記符号化マルチチャンネル信号又は前記少なくとも2つの符号化マルチチャンネル信号をコア復号するマルチチャンネルデコーダを含むことを特徴とする請求項15に記載の音響シーンデコーダ。
【請求項20】
音響シーン(110)を符号化する方法であって、前記音響シーン(110)は少なくとも2つの成分信号を含み、
前記少なくとも2つの成分信号をコア符号化するステップであって、前記少なくとも2つの成分信号の第1の部分に対して第1の符号化表現(310)を生成するステップと、前記少なくとも2つの成分信号の第2の部分に対して第2の符号化表現(320)を生成するステップと、を含み、前記第1の符号化表現(310)はMの符号化成分信号を含み、前記第2の符号化表現(320)はNの符号化成分信号を含み、MはNより大きく、Nは1以上である、前記少なくとも2つの成分信号をコア符号化するステップと、
前記少なくとも2つの成分信号の前記第2の部分に対して1以上の空間パラメータ(330)又は1以上の空間パラメータセットを導出するために、前記音響シーン(110)を解析するステップと、
前記符号化音響シーン信号(340)は、前記第1の符号化表現、前記第2の符号化表現(320)及び前記1以上の空間パラメータ(330)又は前記1以上の空間パラメータセットを、前記少なくとも2つの成分信号の前記第2の部分に対して含む前記符号化音響シーン信号を生成するステップと、
を含むことを特徴とする音響シーンを符号化する方法。
【請求項21】
音響シーンを復号する方法であって、
少なくとも2つの成分信号の第1の部分の第1の符号化表現(410)と、前記少なくとも2つの成分信号の第2の部分の第2の符号化表現(420)と、前記少なくとも2つの成分信号の前記第2の部分に対して1以上の空間パラメータ(430)とを含む符号化音響シーン信号(340)を受信するステップと、
前記第1の符号化表現(410)と前記第2の符号化表現(420)を復号し、前記音響シーンを表す前記少なくとも2つの成分信号の復号化表現を得るステップと、
前記少なくとも2つの成分信号の前記第1の部分に対応する前記復号化表現の部分を解析して、前記少なくとも2つの成分信号の前記第1の部分に対して1以上の空間パラメータを導出するステップであって、前記少なくとも2つの成分信号の前記第1の部分は前記少なくとも2つの成分信号の時間周波数表現の第1の部分を含む空間パラメータを導出する空間パラメータを導出するステップと、
前記少なくとも2つの成分信号の前記第1の部分に対して前記1以上の空間パラメータ(840)と前記少なくとも2つの成分信号の前記第2の部分に対して前記1以上の空間パラメータ(430)とを使用して、前記符号化表現が前記符号化音響シーン信号(340)に含まれるように空間的にレンダリングするステップであって、前記少なくとも2つの成分信号の前記第2の部分は前記少なくとも2つの成分信号の前記時間周波数表現の第2の部分を含み、前記第2の部分は前記第1の部分とは異なる、空間的にレンダリングするステップと、
を含むことを特徴とする音響シーンを復号する方法。
【請求項22】
コンピュータ又はプロセッサ上で動作する時に、請求項20に記載の方法又は請求項21に記載の方法を実行するコンピュータプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響(オーディオ)の符号化または復号化に関し、特に、ハイブリッド・エンコーダ/デコーダ・パラメトリック空間音響符号化に関する。
【背景技術】
【0002】
3次元の音響シーンを伝送するには、通常、大量のデータを送信する複数のチャンネルを処理する必要がある。さらに、3Dサウンドは、各伝送チャンネルがスピーカの位置に関連付けられている従来のチャンネルベースのサウンド;スピーカの位置とは無関係に独立に3次元に配置される音響ブジェクトを通じて搬送されるサウンド;音響シーンが空間直交球面調和ベース関数の線形重みである1組の係数信号により表現されるシーンベース(またはアンビソニックス);などの種々の方法で表現される。チャンネルベースの表現とは対照的にシーンベースの表現は、特定のスピーカ設定とは独立しており、デコーダでの追加のレンダリングプロセスが必要となるものの、任意のスピーカ設定で再生することができる。
【0003】
これらの各フォーマットについて、音響信号を低ビットレートで効率的に保存または伝送するため、専用の符号化方式が開発されている。例えば、MPEGサラウンドは、チャンネルベースのサラウンド・サウンドのパラメトリック符号化方式であり、MPEG空間音響オブジェクト符号化(SAOC: Spatial Audio Object Coding)は、オブジェクトベースの音響専用のパラメトリック符号化方式である。最近の標準MPEG-Hフェーズ2では、高次のアンビソニックス用のパラメトリック符号化技術も提供されている。
【0004】
この伝送シナリオでは、全信号のための空間パラメータが、常に、符号化および伝送される信号、すなわち、エンコーダ内ですべての利用可能な3Dサウンドシーンに基づいて推定、符号化され、デコーダ内で音響シーンの再構成のために復号化、使用される信号、の一部となる。伝送のための速度制約により、通常、伝送されるパラメータの時間-周波数解像度は、制限され、伝送される音響データの時間-周波数解像度より低くされる。
【0005】
3次元音響シーンを作成する別の実現性として、低次元表現、例えば2チャンネルステレオあるいは1次アンビソニックス表現を、低次元表現から直接に推測されたキューおよびパラメータを用いて、所望の次元にアップミックスすることがある。この場合、時間-周波数分解能は必要に応じて細かく選択することができる。一方、使用された低次元でたぶん符号化された音響シーンの表現は、空間キューおよびパラメータの準最適推定を導く。特に、解析された音響シーンが、パラメトリック音響符号化ツールおよびセミパラメトリック音響符号化ツールを使用して符号化および伝送された場合、元の信号の空間キューは、低次元表現だけで発生以上の擾乱をうける。
【0006】
パラメトリック符号化ツールを使用する低レート音響符号化は、近年、進歩を示している。非常に低いビットレートでの音響信号の符号化のこのような進歩は、いわゆるパラメトリック符号化ツールの広範囲にわたる使用をもたらし、高品質を保証している。波形維持符号化、すなわち量子化雑音のみが符号化音響信号に付加される符号化、例えば、MPEG-2 AACやMPEG-1 MP3などの知覚モデルを使用する量子化雑音の時間-周波数変換ベースの符号化およびシェーピングを使用する符号化、を使用すると、特に低ビットレートに対して、可聴量子化雑音を引き起こす。
【0007】
この問題を克服するために開発されたパラメトリック符号化ツールでは、信号の一部を直接には符号化しないが、デコーダで、所望の音響信号のパラメトリック記述を使用して再生する。パラメトリック記述は、必要とする伝送速度が波形維持符号化よりも低い。これらの方法は、信号の波形を保持しようとするものではないが、元の信号と知覚的に等しい音響信号を生成する。このようなパラメトリック符号化ツールの例としては、スペクトルバンド折り返し(SBR:Spectral Band Replication)のような帯域幅拡張がある。SBRでは、復号化信号のスペクトル表現の高帯域部分が、波形符号化された低帯域スペクトル信号部をコピーし、上記のパラメータに従って適応させることによって生成される。別の方法は、インテリジェントギャップフィリング(IGF:Intelligent Gap Filling)である。IGFでは、スペクトル表現の一部のバンドが直接に符号化され、その一方で、エンコーダでゼロに量子化されたバンドが、既に復号化された、伝送されたパラメータに従って再び選択、調整されたスペクトルの他のバンドに、置き換えられる。3番目に使用されるパラメトリック符号化ツールは、ノイズフィリングである。ノイズフィリングでは、信号またはスペクトルの一部がゼロに量子化され、ランダムノイズで充填され、伝送されたパラメーターに従って調整される。中ないし低ビットレートでの符号化に使用される最近の音響符号化標準では、このようなパラメトリックツールを組み合わせて使用して、これらのビットレートの知覚品質を高めている。そのような標準の例としては、xHE-AAC、MPEG4-H、およびEVSがある。
【0008】
DirAC空間パラメータ推定とブラインドアップミックスが、さらなる手順である。DirACは、知覚的に動機付けられた空間サウンド再生である。ここで、仮定として、ある時点ある臨界帯域において、聴覚システムの空間分解能が、方向についてのひとつのキューと聴覚間の可干渉性または拡散性についての別のキューの復号化に制限されるものとする。
【0009】
これらの仮定に基づいて、DirACでは、ひとつの周波数帯域の空間サウンドを、2つのストリーム:無指向性拡散ストリームと指向性非拡散ストリーム、をクロスフェードすることにより、1つの周波数帯域の空間サウンドを表現する。DirAC処理は、図5aおよび5bに示す解析と合成の2つのフェーズで実行される。
【0010】
図5aに示すDirAC解析段では、Bフォーマットの一次同時受音マイクロロホンが入力と見なされ、音の拡散と到来方向が周波数領域で解析される。図5bに示すDirAC合成段では、音は2つのストリーム、非拡散ストリームと拡散ストリームに分割される。非拡散ストリームは、振幅パニングを使用するポイントソースとして再現され、ベクトルベース振幅パンニング(VBAP:vector base amplitude panning)(特許文献2)を使用して行われる。拡散ストリームは、包み込む感覚をもたらすものであり、相互に相関のない信号をスピーカに伝達することによって生成される。
【0011】
図5aの解析段には、帯域フィルタ1000、エネルギ推定器1001、強度推定器1002、時間平均部999aおよび999b、拡散度計算器1003および方向計算器1004が設けられる。計算された空間パラメータは、各時間/周波数タイルに対する0と1との間の拡散性の値(拡散度)である。図5aにおいて、方向パラメータは、方位角と仰角を含む。これらの方位角および仰角は、基準点またはリスニング位置、特にマイクロホンが配置されている位置からのサウンドの到来方向を示す。マイクロホンからは、帯域フィルタ1000への入力の4成分の信号が収集される。これらの成分信号(成分信号)は、図5aに示すように、無指向性成分W、指向性成分X、別の指向性成分Yおよびさらなる指向性成分Zを含む一次アンビソニックス成分である。
【0012】
図5bに示されるDirAC合成段には、Bフォーマットのマイクロホン信号W、X、Y、Zの時間-周波数表現を生成する帯域フィルタ1005を備える。個々の時間/周波数タイルに対応する信号は、各チャンネルに対して、仮想マイクロホン信号を生成する仮想マイクロホンステージ1006に入力される。特に、例えば中央チャンネルに対して仮想マイクロホン信号を生成するためには、仮想マイクロホンは中央チャンネルの方向に向けられ、得られる信号は、中央チャンネルに対応する成分信号となる。この信号は、直接信号ブランチ1015と拡散信号ブランチ1014とを介して処理される。両方のブランチには、対応するゲイン調整器または増幅器を有し、これらは、ブロック1007、1008内のオリジナルの拡散度パラメータから導出される拡散値によって制御され、さらに、所定のマイク補正を得るためにブロック1009,1010で処理される。
【0013】
直接信号ブランチ1015内の成分信号はまた、方位角および仰角からなる方向パラメータから導出された利得パラメータを使用して、利得調整される。特に、これらの角度は、VBAP(ベクトルベース振幅パンニング)利得テーブル1011に入力される。結果は、各チャンネルのスピーカ利得平均化段1012に入力され、さらに正規化回路1013を経由し、得られた利得パラメータが、直接信号ブランチ1015内の増幅器または利得調整器に送られる。非相関器1016の出力で生成された拡散信号と直接信号すなわち非拡散ストリームとは、結合器1017で結合され、その後、他のサブバンドが他の結合器1018で追加される。結合器1018は、例えば、合成フィルタバンクである。したがって、ひとつのラウドスピーカに対するラウドスピーカ信号が生成され、同じ手順が、そのラウドスピーカ設定における他のラウドスピーカ1019のための他のチャンネルに実行される。
【0014】
高品質バージョンのDirAC合成を図5bに示す。ここで、シンセサイザは、すべてのBフォーマット信号を受信し、そこから各マイクロホン信号を各スピーカ方向について計算する。利用される指向性パターンは、典型的には、ダイポールである。次に、仮想マイクロホン信号が、分岐1016および1015に関して説明したように、メタデータに応じて非線形に修正される。低ビットレートバージョンのDirACは、図5bには示されていない。ただし、この低ビットレートバージョンでは、音響の単一チャンネルのみが送信される。処理の違いは、すべての仮想マイクロホン信号が、受信される音響の単一チャンネルに置き換えられることである。仮想マイクロホン信号は、拡散ストリームと非拡散ストリームの2つのストリームに分割され、別々に処理される。非拡散音は、ベクトルベース振幅パンニング(VBAP)を使用して、点音源として再生される。パンニングでは、モノフォニックサウンド信号が、ラウドスピーカ固有の利得係数を乗算した後、スピーカのサブセットに適用される。利得係数は、スピーカの設定と指定されたパン方向の情報を使用して計算される。低ビットレートバージョンでは、入力信号が、メタデータによって示される方向にパンされるだけである。高品質バージョンでは、各仮想マイクロホン信号に、対応する利得係数が乗算される。これにより、パンと同じ効果が得られ、それでいて、非線形アーティファクトが発生し難くなる。
【0015】
拡散サウンドを合成する目的は、リスナーを取り囲むサウンドの知覚を作り出すことである。低ビットレートバージョンでは、入力信号を非相関化してそれをすべてのスピーカから再生することにより、拡散ストリームが再生される。高品質バージョンでは、拡散ストリームの仮想マイクロホン信号がすでにある程度コヒーレントではなく、少し非相関化するだけでよい。
【0016】
DirACパラメータは、空間メタデータとも呼ばれ、拡散度と方向のタプルで構成される。球面座標では、方位角と仰角の2つの角度で表される。解析と合成の両方の段階がデコーダ側で実行される場合、DirACパラメータの時間-周波数分解能は、DirAC解析と合成に使用されるフィルタバンク、すなわち音響信号のフィルタバンク表現のすべての時間スロットおよび周波数ビンに対する独特のパラメータセット、と同じになるように選択される。
【0017】
デコーダ側でのみ空間音響符号化システムで解析を実行する場合の問題は、上述したように、中から低ビットレートのパラメトリックツールが使用されることである。これらのツールの非波形保持特性により、主にパラメトリック符号化が使用されるスペクトル部分の空間解析では、元の信号の解析が生成するはずの空間パラメータとは非常に異なる値を導き出す可能性がある。図2aと2bは、そのようなミスマッチのシナリオを示す。ここで、DirAC解析が、コード化されていない信号(a)と、部分的波形保存およびパラメットリックな符号化を用いる符号器を用いた低ビットレートのBフォーマット送信伝送信号(b)とで実行される。特に拡散性に関して、大きな違いが見られる。
【0018】
最近、エンコーダでDirAC解析を使用し、コード化された空間パラメータをデコーダに送信する空間音響符号化方法が、非特許文献1,2に開示されている。図3は、DirAC空間サウンド処理を音響コーダに結合するエンコーダおよびデコーダのシステム概要を示す。マルチチャンネル入力信号、1次アンビソニックス(FOA)、または高次アンビソニックス(HOA)信号またはオブジェクトのダウンミックスを含みエネルギメタデータおよび/または相関データのようなオブジェクトメタデータに対応する1以上のトランスポート信号により構成されるオブジェクト符号化信号のような入力信号が、フォーマット変換・結合器900に入力される。フォーマット変換・結合器900は、入力信号のそれぞれを対応するBフォーマット信号に変換するように構成され、さらに、異なる表現で受け取ったストリームを、対応するBフォーマット成分を一緒に加えることにより、あるいは、加重加算または異なる入力データの異なる情報の選択を含む他の結合技術により、結合する。
【0019】
結果として得られたBフォーマット信号は、到来方向メタデータおよび拡散性メタデータなどのDirACメタデータを導出するためにDirAC解析器210に導入され、得られた信号は、空間メタデータエンコーダ220を使用してエンコードされる。さらに、Bフォーマット信号は、Bフォーマット信号をトランスポートチャンネルまたはいくつかのトランスポートチャンネルにダウンミックスするためにビームフォーマ/信号セレクタに送られ、その後、EVSベースのコアエンコーダー140を使用してエンコードされる。
【0020】
一方のブロック220および他方のブロック140の出力は、符号化された音響シーンを表現する。符号化音響シーンはデコーダに送られ、デコーダでは、空間メタデータデコーダ700が符号化空間メタデータを受け取り、EVSベースのコアデコーダ500が符号化トランスポートチャンネルを受け取る。ブロック700によって得られた復号空間メタデータは、DirAC合成ステージ800に送られ、ブロック500の出力における復号された1つまたは複数のトランスポートチャンネルが、ブロック860において周波数解析にかけられる。結果として得られる時間/周波数デコンポジッションもDirACシンセサイザ800に送られ、そこで、復号された音響シーンとして、ラウドスピーカ信号または一次アンビソニックスまたは高次アンビソニックス成分または音響シーンの任意の他の表現を生成する。
【0021】
特許文献1、2に開示されている手順では、DirACメタデータすなわち空間パラメータが推定され、低ビットレートで符号化されてデコーダに送信される。デコーダでは、空間パラメータが、音響信号の低次元表現と共に3D音響シーンを再構成するために使用される。
【0022】
本発明では、DirACメタデータ、すなわち空間パラメータは、低ビットレートで推定および符号化され、デコーダに送信され、そこで、音響信号の低次元表現と共に、3D音響シーンを再構築するために使用される。
【0023】
メタデータのための低ビットレートを実現するために、時間-周波数分解能は、3D音響シーンの解析および合成で使用されるフィルタバンクの時間-周波数分解能よりも小さくなる。図4aおよび4bは、DirAC解析の非符号化および非グループ化空間パラメータ(a)と、特許文献1で開示されているDirAC空間音響符号化システムを符号化および伝送されたDirACメタデータと共に用いる同じ信号の符号化およびグループ化パラメータとの比較を示す。図2aと図2bとを比較すると、デコーダ(b)で使用されるパラメータは、元の信号から推定されるパラメータに近いが、時間-周波数分解能は、デコーダのみの推定よりも低いことがわかる。
【発明の概要】
【発明が解決しようとする課題】
【0024】
本発明の目的は、音響シーンの符号化または復号などの処理のための改善された概念を提供することにある。
【課題を解決するための手段】
【0025】
本発明は、改善された音響品質およびより高い柔軟性、および一般に改善された性能が、ハイブリッド符号化/復号スキームを適用することによって得られるという発見に基づいている。ここで、復号された二次元または三次元の音響シーンを生成するためにデコーダ内で使用される空間パラメータは、デコーダ内で、シーンの時間-周波数表現のいくつかの部分に対して符号化および伝送された典型的には低次元音響表現に基づいて推定され、他の部分に対してエンコーダ内で推定、量子化および符号化されてデコーダに伝送される。
【0026】
実装によっては、エンコーダ側での推定領域とデコーダ側の推定領域との分離は、デコーダでの3次元または2次元の音響シーンの生成に使用されるさまざまな空間パラメーターによって異なる場合がある。
【0027】
実施形態では、異なる部分または好ましくは時間-周波数領域への区分は、任意とすることができる。しかし、好ましい実施形態では、主に波形を維持する方法で符号化されるスペクトルの部分についてデコーダでパラメータを推定し、その一方で、パラメトリック符号化ツールが主に使用されたスペクトルの部分については、エンコーダによって計算されたパラメータを符号化して伝送することが有利である。
【0028】
本発明の実施形態は、エンコーダで推定符号化された3D音響シーンの再構成に使用される空間パラメータが、一部分がエンコーダで推定符号化されてデコーダに伝送され、残りの部分がデコーダで直接に推定されるハイブリッド符号化システムを使用することにより、3D音響シーンを伝送するための低ビットレート符号化ソリューションを提案することを目的とする。
【0029】
本発明は、信号の一部に対してパラメータを推定するだけのデコーダのためのハイブリッドアプローチに基づく3D音響再生を開示する。ここで、音響エンコーダ内で空間表現が低次元に持ち込まれ、その低次元表現を符号化し、エンコーダ内で推定し、エンコーダ低で符号化し、空間キューおよびパラメータをエンコーダからデコーダにスペクトルの一部として伝送した後でも、空間キューは良好に保たれる。ここで、低次元表現の符号化に伴う低次元性は、空間パラメータの準最適推定を導くと考えられる。
【0030】
一実施形態において、音響シーンエンコーダは、音響シーンをエンコードするように構成される。音響シーンは、少なくとも2つの成分信号を含む。音響シーンエンコーダは、少なくとも2つの成分信号をコアエンコードするように構成されたコアエンコーダを含み、コアエンコーダは、少なくとも2つの成分信号のうちの第1部分に対して第1の符号化表現を生成し、少なくとも2つの成分信号のうちの第2部分に対して第2符号化表現を生成する。空間解析器は、音響シーンを解析して、第2部分の1以上の空間パラメータまたは1以上の空間パラメーターセットを導出し、出力インタフェースは、このとき、第1の符号化表現、第2の符号化表現、および第2部分に対する1つ以上の空間パラメータまたは1つ以上の空間パラメータセットを含む符号化音響シーン信号を形成する。通常、第1部分に対するどの空間パラメータも、符号化音響信号には含まれない。その理由は、これらの空間パラメータは、デコーダ内の復号された第1表現からデコーダで推定されるからである。一方、第2部分の空間パラメータは、元の音響シーンまたは既に処理されその次元ひいてはビットレートが削減された音響シーンに基づいて、音響シーンエンコーダ内で既に計算されている。
【0031】
したがって、エンコーダで計算されたパラメータは、高品質のパラメトリック情報を運ぶことができる。その理由は、これらのパラメータが、コアエンコーダの歪みの影響を受けず、高品質マイクロホンアレイから得られる信号のような非常に高次元で利用できる可能性さえある非常に正確なデータからエンコーダで計算されるためある。そのような非常に高品質のパラメトリック情報が保存されるという事実により、第2部分をより低い精度または通常はより低解像度でコア符号化することが可能になる。したがって、第2部分をかなり粗くコア符号化することで、ビットを節約することができ、したがって、それを符号化空間メタデータの表現に与えることができる。第2部分の非常に粗い符号化によって節約されたビットは、少なくとも2つの成分信号の最初の部分の高解像度符号化に利用することもできる。少なくとも2つの成分信号の高解像度または高品質の符号化は有用である。その理由は、デコーダ側では、パラメトリック空間データは第1の部分には存在せず、空間解析によってデコーダ内で導出されるからである。したがって、すべての空間メタデータをエンコーダで計算するのではなく、少なくとも2つの成分信号をコア符号化することで、そうしない場合には符号化メタデータが必要となるどのビットも確保しておくことができ、第1部分内の少なくとも2つの成分信号を高品質コア符号化することができる。
【0032】
したがって、本発明によれば、音響シーンの第1部分と第2部分への分離は、例えば、ビットレート要件、音響品質要件、処理要件すなわちより多くの処理リソースがエンコーダーまたはデコーダーで使用可能かどうか、などに応じて、非常に柔軟な方法で行うことができる。好ましい実施形態では、第1部分と第2部分とへの分離は、コアエンコーダの機能性に基づいて行われる。特に、スペクトル帯域レプリケーション処理、インテリジェントギャップフィリング処理、ノイズフィリング処理など、特定の帯域にパラメトリック符号化操作を適用する高品質で低ビットレートのコアエンコーダの場合、空間パラメータに関する分離は、信号の非パラメトリック符号化部分が第1部分を形成し、信号のパラメトリック符号化部分が第2部分を形成するように行われる。したがって、通常は音声信号の低解像度符号化部分であるパラメトリック符号化第2部分に対して、空間パラメータのより正確な表現が得られ、その一方、より良い符号化に対して、すなわち高解像度符号化第1部分に対して、高品質のパラメータが得られる。その理由は、デコーダ側で第1部分の復号表現を用いて非常に高品質のパラメータを推定できるからである。
【0033】
さらなる実施形態では、ビットレートをさらに低減するために、第2部分の空間パラメータを、エンコーダ内で、ある時間-周波数分解能で計算する。この時間-周波数分解能は、高いものでも低いものでもよい。高い時間-周波数分解能の場合、計算されたパラメータは、低時間-周波数分解能の空間パラメータを取得するために、特定の方法でグループ化される。これらの低時間-周波数解像度の空間パラメータは、それでいて、低解像度なだけで高品質の空間パラメータである。しかしながら、低解像度は、その時間長と周波数帯域の空間パラメータの数が減るため、伝送のためにはビットが節約される利点がある。ただし、空間データは時間および周波数に対してそれほど変化しないため、空間パラメータの数を減らしても、通常、それほど問題にはならない。したがって、第2部分に対する空間パラメータの低ビットレートでありながら良好な品質の表現が得られる。
【0034】
第1部分に対する空間パラメータはデコーダ側で計算され、どこにも送信する必要がないため、解像度に関する妥協を行う必要はない。したがって、空間パラメータの高速かつ高周波数解像度の推定をデコーダ側で実行でき、この高解像度パラメトリックデータは、音響シーンの第1部分の良好な空間表現を提供するのに役立つ。したがって、第1部分に対する少なくとも2つの伝送された成分に基づいてデコーダ側で空間パラメータを計算する「欠点」は、高時間周波数分解能の空間パラメータを計算することにより、また、これらのパラメータを音響シーンの空間レンダリングで使用することにより、削減または取り除くことができる。これは、デコーダ側で実行されるどのような処理もエンコーダ/デコーダ間の伝送ビットレートに悪影響を及ぼすことはないので、ビットレートにどのような悪影響も及ぼすことはない。
【0035】
本発明のさらなる実施形態は、第1部分について、少なくとも2つの成分が符号化および伝送され、少なくとも2つの成分に基づいて、パラメトリックデータ推定がデコーダ側で実行できる状況に依存する。しかし、一実施形態では、第2表現のために単一のトランスポートチャンネルのみを符号化することが好ましいので、音響シーンの第2部分は、実質的に低いビットレートで符号化できる。このトランスポートチャンネルすなわちダウンミックスチャンネルは、第1部分と比較して非常に低いビットレートで表現される。その理由は、第1部分では符号化のために2つ以上の成分が必要であり、デコーダ側の空間解析に十分なデータが必要であるのに対し、第2部分では単一のチャンネルまたは成分のみが符号化されるからである。
【0036】
したがって、本発明は、エンコーダまたはデコーダ側で利用可能なビットレート、音響品質、および処理要件に関して、追加の柔軟性を提供する。
【0037】
本発明の望ましい実施形態を添付図面を参照して以下に説明する。
【図面の簡単な説明】
【0038】
図1a】音響シーンエンコーダの一実施形態を示すブロック図である。
図1b】音響シーンデコーダの一実施形態を示すブスック図である。
図2】(a)は非符号化信号からのDirAC解析であり、(b)は符号化低次元信号からのDirAC解析である。
図3】DirAC空間サウンド処理を音響符号器と組み合わせたエンコーダおよびデコーダの全体図を示す。
図4】(a)は非符号化信号からのDirACを示し、(b)は時間-周波数領域のパラメータのグループ化およびパラメータの量子化を用いる非符号化信号からのDirACを示す。
図5a】従来技術のDirAC解析段を示す。
図5b】従来技術のDirAC解析段を示す。
図6a】異なる部分に対する例として、異なるオーバーラップ時間フレームを示す。
図6b】異なる部分に対する例として、異なる周波数帯域を示す。
図7a】音響シーンエンコーダの別の実施形態を示す。
図7b】音響シーンデコーダの一実施形態を示す。
図8a】音響シーンエンコーダの別の実施形態を示す。
図8b】音響シーンデコーダの別の実施形態を示す。
図9a】周波数領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。
図9b】時間領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。
図10a】周波数領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。
図10b】時間領域コアエンコーダを有する音響シーンエンコーダの別の実施形態を示す。
図11】空間レンダラの実施形態を示す。
【発明を実施するための形態】
【0039】
図1aは、少なくとも2つの成分信号を含む音響シーン110をエンコードするための音響シーンエンコーダを示す。音響シーンエンコーダは、少なくとも2つの成分信号をコア符号化するためのコアエンコーダ100を備える。具体的には、コアエンコーダ100は、少なくとも2つの成分信号の第1部分に対して第1の符号化表現310を生成し、少なくとも2つの成分信号の第2部分に対して第2の符号化表現320を生成するように構成される。音響シーンエンコーダは、音響シーンを解析して、第2部分の1または複数の空間パラメータまたは1または複数の空間パラメータセットを導出する空間解析器を備える。音響シーンエンコーダは、符号化音響シーン信号340を形成するための出力インタフェース300を備える。符号化音響シーン信号340は、少なくとも2つの成分信号の第1部分を表す第1の符号化表現310、第2エンコーダ表現320、および第2部分のためのパラメータ330を有する。空間解析器200は、元の音響シーン110を使用して少なくとも2つの成分信号の第1部分に空間解析を適用するように構成される。これとは別に、空間解析は、音響シーンの縮小次元表現に基づいて実行することもできる。例えば、音響シーン110が、例えば、マイクロホンアレイに配置されたいくつかのマイクロホンの記録を含む場合、空間解析200は、もちろん、このデータに基づいて実行される。しかしながら、コアエンコーダ100は、音響シーンの次元を、例えば、一次アンビソニックス表現またはそれより高次のアンビソニックス表現に低減するように構成される。基本バージョンでは、コアエンコーダ100は、次元を、例えば、無指向性コンポーネントと、Bフォーマット表現のX、Y、またはZなどの少なくとも1つの指向性コンポーネントとからなる、少なくとも2つのコンポーネントに低減するだろう。ただし、より高次の表現やA形式の表現などの他の表現も同様に利用できる。第1部分の第1のエンコーダ表現は、このとき、復号可能である少なくとも2つの異なる成分からなることになり、通常、各成分の符号化された音響信号からなる。
【0040】
第2部分に対する第2のエンコーダ表現は、同数の成分からなるか、あるいは、第2部分のコアコーダによって符号化された単一の全方向性成分のみなど、より低い数を有することができる。コアエンコーダ100が元の音響シーン110の次元を低減する実装の場合、低減された次元の音響シーンは、オプションとして、元の音響シーンの代わりにライン120を介して空間解析器に転送することができる。
【0041】
図1bは、符号化された音響シーン信号340を受信するための入力インターフェース400を備える音響シーンデコーダを示す。この符号化された音響シーン信号は、第1の符号化表現410、第2の符号化表現420および第2部分の1または複数の空間パラメータを含む。第2部分の符号化表現は、これも、符号化された単一の音響チャンネルであるか、または2以上の符号化された音響チャンネルを含むことができる。一方、第1部分の第1の符号化表現は、少なくとも2つの異なる符号化音響信号を含む。第1の符号化表現における音響信号、または利用可能な場合には第2の符号化表現における異なる符号化音響信号は、一緒に符号化されたステレオ信号などの一緒に符号化された信号であるか、あるいは、さらに好ましくは、個別に符号化されたモノラルの音響信号である。
【0042】
第1の部分の第1の符号化表現410および第2の部分の第2の符号化表現420を含む符号化表現は、第1の符号化表現および第2の符号化表現を復号化して少なくとも2つの復号化表現を取得し音響シーンを表現する少なくとも2つの成分信号からなる復号表現を得るためのコアデコーダに入力される。復号表現は、810に示される第1部分の第1の復号表現および820に示される第2部分の第2の復号表現を含む。第1の復号表現は、少なくとも2つの成分信号の第1部分に相当する復号表現の部分を解析し少なくとも2つの成分信号の第1部分に対する1以上の空間パラメータ840を得るため、空間解析器600に転送される。音響シーンデコーダはまた、図1bの実施形態では、第1部分810の第1の復号表現および第2部分820の第2の復号表現を含む復号表現を空間的にレンダリングするための空間レンダラ800を備える。空間レンダラ800は、音響レンダリングの目的で、第1部分に対して空間解析器から導出されたパラメータ840と、第2部分に対して、パラメータ/メタデータデコーダ700を介して復号されたパラメータから導出されたパラメータ830と、を使用するように構成されている。符号化信号内のパラメータの表現が非符号化形式の場合、パラメータ/メタデータデコーダ700は不要であり、少なくとも2つの成分信号の第2部分の1以上の空間パラメータは、入力インタフェース400から直接、逆多重化または特定の処理操作の後で、データ830として空間レンダラ800に送られる。
【0043】
図6aは、異なる典型的に重複する時間フレームF1からF4の概略図を示す。図1aのコアエンコーダ100は、少なくとも2つの成分信号からそのような後続の時間フレームを形成するように構成される。そのような状況では、第1の時間フレームを第1部分とし、第2の時間フレームを第2部分とすることができる。したがって、本発明の実施形態によれば、第1部分を第1の時間フレームとすることができ、第2部分を別の時間フレームとすることができ、第1および第2部分の間の切り替えは、経時的に実行することができる。図6aは重なり合う時間フレームを示しているが、重なり合わない時間フレームも同様に利用できる。図6aは、等しい長さを有する時間フレームを示すが、切り替えは、異なる長さを有する時間フレームを用いて行うこともできる。したがって、例えば、時間フレームF2が時間フレームF1よりも小さい場合、これにより、第1の時間フレームF1に対して第2の時間フレームF2の時間分解能が増加することになる。そして、増加した解像度を有する第2の時間フレームF2は、その成分に関して符号化される第1部分に対応することが好ましく、一方、第1の時間部分、すなわち低解像度データは、低解像度で符号化される第2部分に相当することになるが、この第2部分に対する空間パラメータは、全体の音響シーンがエンコーダで得られるので、どのような解像度で計算してもよい。
【0044】
図6bは、少なくとも2つの成分信号のスペクトルが特定の数の帯域B1、B2、…、B6、…を有するものとして示されている代替の実装を示す。好ましくは、帯域は、知覚的に動機付けされたスペクトルの帯域分割を行うために、最低から最高の中心周波数に増加する異なる帯域幅を有する帯域に分離される。少なくとも2つの成分信号の第1部分は、例えば、最初の4つの帯域からなることができ、例えば、第2の部分は、帯域B5および帯域B6からなることができる。これは、コアエンコーダがスペクトル帯域レプリケーションを実行し、非パラメトリックに符号化された低周波数部分とパラメトリックに符号化された高周波数部分の間のクロスオーバ周波数が帯域B4と帯域B5の境界になるような状況と一致する。
【0045】
これとは別に、インテリジェントギャップフィリング(IGF)またはノイズフィリング(NF)の場合、帯域は信号解析に合わせて任意に選択されるため、第1部分は、例えば帯域B1、B2、B4、B6からなり、第2部分は、B3、B5、およびおそらく別のより高い周波数帯域となる。したがって、図6bに示されているように、帯域が最低から最高の周波数に増加する帯域幅を持つ典型的なスケールファクタ帯域であるかどうか、あるいは帯域が同じサイズの帯域であるかどうか、には関係なく、音響信号の帯域への非常に柔軟な分離を実行できます。第1部分と第2部分との間の境界は、コアエンコーダで通常使用されるスケールファクタ帯域と必ずしも一致する必要はないが、第1部分と第2部分の間の境界と、スケールファクタ帯域と隣接するスケールファクタ帯域との境界とは、一致することが望ましい。
【0046】
図7aは、音響シーンエンコーダの好ましい実施を示す。特に、音響シーンは、好ましくは図1aのコアエンコーダ100の一部である信号分離器140に入力される。図1aのコアエンコーダ100は、両方の部分、すなわち、音響シーンの第1部分と音響シーンの第2部分のための次元削減器150aおよび150bを備える。次元低減器150aの出力には、第1部分のために音響エンコーダ160aで符号化される少なくとも2つの成分信号が存在する。音響シーンの第2部分の次元削減器150bは、次元削減器150aと同じ構成を含むことができる。しかしながら、代替として、次元低減器150bによって得られる低減された次元は、少なくとも1つのトランスポート/成分信号の第2の符号化表現320を得るために、音響エンコーダ160bによって次に符号化される単一のトランスポートチャンネルとすることもできる。
【0047】
第1の符号化表現に対する音響エンコーダ160aは、波形を維持するか、非パラメトリック、または高時間または高周波数解像度のエンコーダを含むことができる。一方、音響エンコーダ160bは、SBRエンコーダ、IGFエンコーダ、ノイズ充填エンコーダ、あるいは他の低時間または周波数解像度のものなどのパラメトリックエンコーダである。したがって、音響エンコーダ160bは、通常は、音響エンコーダ160aと比較して低い品質の出力表現をもたらす。この「欠点」は、元の音声シーン、あるいは、次元削減音声シーンが少なくとも2つの成分信号を依然として含む場合には次元削減音声シーン、を空間データ解析器210を介して空間解析を実行することによって対処される。空間データ解析器210によって得られた空間データは、符号化された低解像度空間データを出力するメタデータエンコーダ220に転送される。ブロック210、220は共に、好ましくは図1aの空間解析器ブロック200に内包される。
【0048】
好ましくは、空間データ解析器が、高周波解像度または高時間解像度などの高解像度で空間データ解析を実行し、符号化されたメタデータに必要なビットレートを妥当な範囲に保つために、高解像度空間データをグループ化し、符号化された低解像度の空間データを得るようにメタデータエンコーダによってエントロピー符号化することが好ましい。例えば、空間データ解析が、例えばフレームごとに8個のタイムスロットとタイムスロットごとに10個の帯域に対して実行される場合、空間データをフレームごとに1つの空間パラメータに、そして例えばパラメータごとに5個の帯域にグループ化できる。
【0049】
一方では方向データを計算し、他方では拡散性データを計算することが好ましい。このとき、メタデータエンコーダ220は、方向性データおよび拡散性データについて、異なる時間/周波数解像度で符号化データを出力するように構成される。通常、指向性データは、拡散性データよりも高い解像度を必要とする。異なる解像度でパラメトリックデータを計算するための好ましい方法は、両方のパラメトリック種類について高解像度で、通常は同じ解像度で、空間解析を実行し、次に、異なるパラメータ種に対して異なる方法で異なるパラメトリック情報を用いて時間および/または周波数でグループ化を実行し、例えば方向性データに対して中程度の時間および/または周波数解像度を有し、拡散度データに対して低解像度を有する符号化低解像度空間データ出力330を有するようにする。
【0050】
図7bは、対応する音響シーンデコーダのデコーダ側の実装を示す。
【0051】
図1bのコアデコーダ500は、図7bの実施形態では、第1の音響デコーダインスタンス510aおよび第2の音響デコーダインスタンス510bを有する。好ましくは、第1の音響デコーダインスタンス510aは、非パラメトリックまたは波形保存または高解像度(時間および/または周波数において)エンコーダであり、出力に、少なくとも2つの成分信号の復号第1部分を生成する。このデータ810は、一方で、図1bの空間レンダラ800に送られ、さらに、空間解析器600に入力される。好ましくは、空間解析器600は、好ましくは第1部分に対して高解像度空間パラメータを計算する高解像度空間解析器である。通常、第1部分の空間パラメータの解像度は、パラメータ/メタデータデコーダ700に入力される符号化されたパラメータに関連付けられている解像度よりも高い。しかしながら、ブロック700により出力されるエントロピー復号された低時間または周波数解像度の空間パラメータは、解像度向上710のためにパラメータデグルーパに入力される。そのようなパラメータのデグループ(グループ化解除)は、送信されたパラメータを特定の時間-周波数タイルにコピーすることによって実行することができ、グループ化解除は、図7aのエンコーダ側メタデータエンコーダ220で実行された対応するグループ化に従って実行される。当然、グループ化解除とともに、必要に応じて、さらに処理または平滑化操作を実行できる。
【0052】
このとき、ブロック710の結果は、第2部分に対して復号された望ましくは高解像度パラメータの集まりであり、通常は、第1部分に対するパラメータ840と同じ解像度を有する。また、第2の部分の符号化表現は、音響デコーダ510bによって復号され、通常少なくとも1つの、または少なくとも2つの成分を有する信号の復号された第2部分820を取得する。
【0053】
図8aは、図3に関して論じられた機能に依存するエンコーダの好ましい実装を示す。特に、マルチチャンネル入力データ、または一次アンビソニックスまたは高次アンビソニックス入力データ、またはオブジェクトデータは、Bフォーマット変換器に入力される。Bフォーマット変換器は、例えば、通常は全方向性音響信号などの4つのBフォーマットコンポーネントと、X、Y、Zなどの3つの方向性音響信号を生成するために、個々の入力データを変換および結合する。
【0054】
あるいは、フォーマット変換器またはコアエンコーダに入力される信号は、第1部分に配置された無指向性マイクロホンによって捕捉された信号、および第1部分とは異なる第2部分に配置された無指向性マイクロホンによって捕捉された別の信号でもよい。さらには、音響シーンは、第1の成分信号として、第1の方向に向けられた指向性マイクロホンによって捕捉された信号と、第2の成分として、第1の方向とは異なる第2の方向に指向された別の指向性マイクロホンによって捕捉された少なくとも1つの信号とを含むこともできる。これらの「指向性マイクホン」は、必ずしも実際のマイクロホンである必要はなく、仮想マイクロホンでも良い。
【0055】
ブロック900への音響入力、またはブロック900による出力、または一般に音響シーンとして使用される音響としては、Aフォーマットの成分信号、B形フォーマットの成分信号、1次アンビソニックスの成分信号、高次アンビソニックスの成分信号、または少なくとも2つのマイクロホンカプセルを有するマイクロホンアレイにより捕えられた成分信号または仮想マイク処理から計算された成分信号を用いることができる。
【0056】
図1aの出力インターフェース300は、符号化音響シーン信号への第2部分について、空間解析器によって生成された1以上の空間パラメータと同じパラメータ種からのどのような空間パラメータも含まないように構成される。
【0057】
したがって、第2部分のパラメータ330が到着方向データおよび拡散性データである場合、第1部分の第1の符号化表現は、到着方向データおよび拡散性データを含まないが、もちろん、他の任意のパラメータを含むことができ、それらは、スケール係数、LPC係数など、コアエンコーダによって計算される。
【0058】
さらに、信号分離器140によって実行される帯域分離は、異なる部分が異なる帯域である場合、第2部分の開始帯域が帯域幅拡張開始帯域よりも低くなるように実装することができ、さらに、コアノイズ充填は、必ずしも一定のクロスオーバー帯域を適用する必要はないが、周波数が増加するにつれて、コアスペクトルのより多くの部分に徐々に使用することができる。
【0059】
さらに、時間フレームの第2周波数サブバンドに対するパラメトリックまたは大規模パラメトリック(largely parametric)処理は、第2周波数サブバンドの振幅関連パラメータの計算と、第2周波数サブバンドの個々のスペクトル線の代わりに、この振幅関連パラメータの量子化およびエントロピー符号化を含む。第2部分の低解像度表現を形成するそのような振幅関連パラメータは、例えば、各スケールファクタ帯域に対して、例えば、1つのスケールファクタまたはエネルギ値のみを有するスペクトル包絡線表現によって与えられ、その一方で、高解像度の第1部分は、個々のMDCTまたはFFTまたは一般的な個々のスペクトル線に依存する。
【0060】
したがって、少なくとも2つの成分信号の第1部分は、各成分信号の特定の周波数帯域によって与えられ、各成分信号の特定の周波数帯域は、第1部分の符号化表現を取得するために、いくつかのスペクトル線を用いて符号化される。しかしながら、第2部分については、第2部分の個々のスペクトル線の合計、第2部分のエネルギを表す2乗スペクトル線の和、またはスペクトル部分に対するラウドネス測定値を表すスペクトル線の3乗の和は、第2部分のパラメトリック符号化表現に対しても使用することができる。
【0061】
再び図8aを参照すると、個々のコアエンコーダ・ブランチ160a、160bを含むコアエンコーダ160は、第2部分に対するビームフォーミング/信号選択手順を含むことができる。したがって、図8bの160a、160bで示されるコアエンコーダは、一方で、4つすべてのBフォーマット成分の符号化第1部分と、単一のトランスポートチャンネルの符号化第2部分と、第2部分に依存してDirAC解析210により生成された第2部分に対する空間メタデータとを出力し、後続の空間メタデータエンコーダ220に接続される。
【0062】
デコーダ側では、符号化された空間メタデータが空間メタデータデコーダ700に入力され、830に示される第2部分のパラメータが生成される。通常、要素で構成されるEVSベースのコアデコーダとして実装される好ましい実施形態であるコアデコーダ510a、510bは、両方の部分からなる復号された表現を出力するが、両方の部分はまだ分離されていない。復号表現は周波数解析ブロック860に入力され、周波数解析器860は、第1部分の成分信号を生成し、それをDirAC解析器600に転送して、第1部分に対するパラメータ840を生成する。第1および第2部分のトランスポートチャンネル/成分信号は、周波数解析器860からDirACシンセサイザ800に転送される。DirACシンセサイザは、この実施形態では、どのような知識ももたず、実際にどのような特定の知識も必要としないので、通常通り動作する。これは、第1部分および第2部分に対するパラメータが、エンコーダ側で生成されたかデコーダ側で生成されたかには関係ない。その代わり、DirACシンセサイザ800とDirACシンセサイザの両方で、862で示される音響シーンを表す少なくとも2つの成分信号の復号表現の周波数表現と、双方の部分に対するパラメータ、ラウドスピーカ出力、一次アンビソニックス(FOA)、高次アンビソニックス(HOA)、または両耳出力とに基づいて、「同じ」パラメータを生成することができる。
【0063】
図9aは、音響シーンエンコーダの別の好ましい実施形態を示す。ここで、図1aのコアエンコーダ100は、周波数領域エンコーダとして実装されている。この実装では、コアエンコーダによって符号化される信号は、好ましくは時間スペクトル変換または分解を典型的には重複する時間フレームに適用する解析フィルタバンク164に入力される。コアエンコーダは、波形維持エンコーダプロセッサ160aとパラメトリックエンコーダプロセッサ160bを備える。第1部分および第2部分へのスペクトル部分の分配は、モードコントローラ166によって制御される。モードコントローラ166は、信号解析、ビットレート制御に依存するか、または固定設定を適用することができる。通常、音響シーンエンコーダは、異なるビットレートで動作するように構成でき、その場合、第1部分と第2部分の間の所定の境界周波数は選択したビットレートに依存し、所定の境界周波数は、低ビットレートの場合は低く、高ビットレートの場合は高くする。
【0064】
これとは別に、モードコントローラは、入力信号のスペクトルを解析するインテリジェントギャップフィリングから知られる調性マスク処理機能を備え、高スペクトル解像度で符号化する必要のある帯域を決定し、それが最終的に符号化第1部分となる。また、パラメトリックな方法で符号化できる帯域を決定し、それが最終的に復号第2部分となる。モードコントローラ166は、エンコーダ側の空間解析器200も制御し、好ましくは空間解析器の帯域分離器230または空間解析器のパラメータ分離器240を制御するように構成される。これにより、最終的に、第1部分ではなく第2部分の空間パラメータのみが生成され、符号化シーン信号に出力される。
【0065】
特に、空間解析器200が音響シーン信号を解析フィルタバンクに入力される前またはフィルタバンクに入力された後のいずれかで直接に受信する場合、空間解析器200は、第1部分および第2部分を全体にわたって解析し、続いてパラメータ分離器240は、符号化シーン信号に出力するため、第2部分に対するパラメータを選択する。これとは別に、空間解析器200が帯域分離器から入力データを受信し、帯域分離器230が既に第2部分のみを送出しているとき、パラメータ分離器240はもはや何も必要としない。その理由は、空間解析器200が、とにかく第2部分のみを受信し、第2部分に対する空間データを出力するだけだからである。
【0066】
したがって、第2部分の選択は、空間解析の前または後に実行することができ、好ましくはモードコントローラ166によって制御されるか、または固定的に実装されることもできる。空間解析器200は、エンコーダの解析フィルタバンクに頼るか、あるいは、図9aには示されていないが、例えば、図5aの1000にてDirAC解析段の実装として示されるような自身の個別のフィルタバンクを使用する。
【0067】
図9bは、図9aの周波数領域エンコーダとは対照的に、時間領域エンコーダを示す。解析フィルタバンク164の代わりに帯域分離器168が設けられる。この帯域分離器168は、図9aのモードコントローラ166(図9bには図示せず)によって制御されるか、または固定式である。制御される場合、ビットレート、信号解析、またはこの目的に役立つその他の手順に基づいて、制御を実行できる。帯域分離器168に入力される典型的にはM個の成分は、一方では低帯域時間領域エンコーダ160aによって、そして他方では時間領域帯域幅拡張パラメータ計算器160bによって、処理される。好ましくは、低帯域時間領域エンコーダ160aは、M個の個別成分が符号化された形式の第1の符号化表現を出力する。これに対して、時間領域帯域幅拡張パラメータ計算器160bによって生成された第2の符号化表現は、N個のコンポーネント/トランスポート信号のみを含み、NはMよりも小さく、Nは1以上である。
【0068】
空間解析器200がコアエンコーダの帯域分離器168に依存するかどうかに応じて、別個の帯域分離器230は必要とされない。しかしながら、空間解析器200が帯域分離器230に依存している場合、図9bのブロック168とブロック200との間の接続は、必要ではない。帯域分離器168または230のいずれも空間解析器200の入力に接続されない場合、空間解析器は全帯域解析を実行し、帯域分離器240は、出力に転送される第2部分の空間パラメータのみを分離し、出力インタフェースに送られるか、または符号化音響シーンとなる。
【0069】
したがって、図9aは、エントロピー符号化を量子化するための波形保存エンコーダプロセッサ160aまたはスペクトルエンコーダを示しているが、図9bの対応するブロック160aは、EVSエンコーダ、ACELPエンコーダ、AMRエンコーダなどの任意の時間領域エンコーダ、または同様のエンコーダである。ブロック160bが周波数領域パラメトリックエンコーダまたは一般的なパラメトリックエンコーダを示しているのに対し、図9bのブロック160bは、基本的に、場合によってはブロック160と同じパラメータまたは異なるパラメータを計算できる時間領域帯域幅拡張パラメータ計算機である。
【0070】
図10aは、周波数領域デコーダを示す。この周波数領域デコーダは、典型的には、図9aの周波数領域エンコーダと対応する。符号化第1部分を受信するスペクトルデコーダは、160aに示されるように、エントロピーデコーダ、逆量子化器、および例えばAAC符号化または他の任意のスペクトル領域符号化で知られる他の任意の要素を有する。第2部分の第2の符号化表現として帯域ごとのエネルギなどのパラメトリックデータを受け取るパラメトリックデコーダ160bは、通常、SBRデコーダ、IGFデコーダ、ノイズフィリングデコーダまたは他のパラメトリックデコーダとして動作する。第1部分のスペクトル値と第2部分のスペクトル値は、符号化表現を得るために、合成フィルターバンク169に入力される。得られた符号化表現は、通常は、空間レンダリングの目的で空間レンダラに転送される。
【0071】
第1部分は、空間解析器600に直接転送されてもよく、第1部分を帯域分離器630を介して合成フィルタバンク169の出力における復号表現から導出することもできる。状況により、パラメータ分離器640は有っても無くてもよい。空間解析器600が第1部分のみを受け取る場合、帯域分離器630およびパラメータ分離器640は必要とされない。空間解析器600が復号表現を受け取り、帯域分離器が無い場合には、パラメータ分離器640が必要である。復号表現が帯域分離器630に入力される場合、空間解析器600は第1部分の空間パラメータのみを出力するので、空間解析器にとってパラメータ分離器640を有する必要はない。
【0072】
図10bは、図9bの時間領域エンコーダと一対応する時間領域デコーダを示す。特に、第1の符号化表現410は低帯域時間領域デコーダ160aに入力され、復号された第1部分は結合器167に入力される。帯域幅拡張パラメータ420は、第2部分を出力する時間領域帯域幅拡張プロセッサに入力される。第2部分も結合器167に入力される。実装によっては、結合器を実装して、第1部分と第2部分がスペクトル値の場合にはスペクトル値を結合するか、または、第1部分と第2部分が既に時間領域標本として得られている場合にはそれらの時間領域標本を結合する。結合器167の出力は、図10aに関して前述したものと同様に、帯域分離器630の有無にかかわらず、またはパラメータ分離器640の有無にかかわらず、どの場合でも、空間解析器600によって処理することのできる復号表現である。
【0073】
図11は、空間レンダラの好ましい実装を示す。ただし、DirACパラメータまたはDirACパラメータ以外のパラメータに依存するもの、またはHOA表現のような直接的なラウドスピーカ表現とは異なるレンダリング信号の表現を生成するもの、も同様に実装できる。通常、DirACシンセサイザ800へのデータ862入力は、図11の左上隅に示されているように、第1部分と第2部分に対するBフォーマットなどのいくつかの成分で構成される。また、第2部分が複数の成分で得られるのではなく、単一成分だけの場合もある。そのような状況を、図11の左側下部に示す。特に、例えば第1部分と第2部分がすべての成分を持つ場合、すなわち、図8bの信号862がBフォーマットのすべての成分を含む場合、すべての成分の全スペクトルが利用可能であり、時間-周波数分解により、個々の時間-周波数タイルごとに処理を実行することができる。この処理は、ラウドスピーカ配置の各ラウドスピーカに対して、復号表現からラウドスピーカ成分を計算するために、仮想マイクロホンプロセッサ870aによって行われる。
【0074】
これに代えて、第2部分が単一の成分でのみ利用可能な場合、第1部分の時間-周波数タイルは仮想マイクロホンプロセッサ870aに入力され、その一方、第2部分の単一またはより少数成分に対する時間/周波数部分は、プロセッサ870bに入力される構成とすることもできる。プロセッサ870bは、例えば、コピー動作を実行するだけである。すなわち、単一のトランスポートチャンネルを、各ラウドスピーカ信号用の出力信号にコピーする。したがって、この代替構成の仮想マイクロホンプロセッサ870aの処理は、単純なコピー操作によって置き換えられる。
【0075】
次に、第1の実施形態におけるブロック870aすなわち第1部分に対する870aおよび第2部分に対するブロック870bの出力は、1以上の空間パラメータを使用して出力成分信号を修正するため、利得プロセッサ872に入力される。このデータはまた、1以上の空間パラメータを使用して非相関化された出力成分信号を生成するために、重み付け器/非相関化プロセッサ874に入力される。ブロック872の出力およびブロック874の出力は、各成分に対して動作する結合器876内で結合され、これにより、ブロック876の出力には、各ラウドスピーカ信号の周波数領域表現が得られる。
【0076】
次に、合成フィルタバンク878により、すべての周波数領域ラウドスピーカ信号が時間領域表現に変換され、生成された時間領域ラウドスピーカ信号をデジタルアナログ変換して、定義されたラウドスピーカ位置に配置された対応するラウドスピーカを駆動するために使用することができる。
【0077】
通常、利得プロセッサ872は、空間パラメータ、そして好ましくは到着データの方向などの方向パラメータ、そしてオプションとして拡散性パラメータ、に基づいて動作する。さらに、重み付け/非相関化プロセッサは、空間パラメータに基づいて動作し、また、好ましくは拡散性パラメータに基づいて動作する。
【0078】
したがって、実装では、利得プロセッサ872は、1015で示される図5bの非拡散ストリームを生成し、重み付け/非相関化プロセッサ874は、例えば図5bの上部分岐1014によって示されるような拡散ストリームを生成する。しかしながら、異なる手順、異なるパラメータ、および直接信号と拡散信号を生成するための異なる方法に依存する他の実装も同様に可能である。
【0079】
技術水準に対する好ましい実施形態の例示的な利益および利点は、以下のとおりである。
本発明の実施形態は、デコーダ側で推定された空間パラメータを有するように選択された信号の部分に対して、信号全体に対してエンコーダ側で推定および符号化されたパラメータを使用するシステムよりも、より良い時間-周波数分解能を提供する。
本発明の実施形態は、エンコーダでのパラメータの解析、符号化およびデコーダへのパラメータの伝送により再構成された信号部分に対して、空間パラメータが復号低次元音響信号を使用してデコーダで推定されるシステムよりも、より良い空間パラメータ値を提供する。
本発明の実施形態は、信号全体のコード化パラメータを使用するシステムまたは信号全体のデコーダ側推定パラメータを使用するシステムのいずれよりも、時間-周波数分解能、伝送速度、およびパラメータ精度の間のより柔軟なトレードオフを可能にする。
本発明の実施形態は、主にパラメトリック符号化ツールを使用して符号化された信号部分に対して、エンコーダ側の推定と信号部分の一部またはすべての空間パラメータの符号化を選択すること、およびそれらの部分に対して一部またはすべての空間パラメータを符号化することにより、より良好なパラメータ精度を提供し、主として符号化される信号部分に対して、波形維持符号化ツールを使用し、それらの信号部分に対する空間パラメータの推定をデコーダ側に委ねることで、より良好な時間-周波数分解能を提供する。
【先行技術文献】
【特許文献】
【0080】
【非特許文献1】V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamaeki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
【非特許文献2】Ville Pulkki. “Virtual source positioning using vector base amplitude panning”. J. Audio Eng. Soc., 45(6):456{466, June 1997.
【0081】
【特許文献1】欧州特許出願第17202393.9号,“EFFICIENT CODING SCHEMES OF DIRAC METADATA”.
【特許文献2】欧州特許出願第17194816.9号“Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding”
【0082】
本発明の符号化されたオーディオ信号は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、あるいは、無線伝送媒体またはインターネットなどの有線伝送媒体のような伝送媒体上で伝送することができる。
【0083】
いくつかの側面を装置として説明したが、これらの側面は、対応する方法の説明をも表していることは明らかである。その場合、ブロックまたは装置が、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された側面も、対応する装置の対応するブロックまたは項目または特徴の記述を表している。
【0084】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。この実施は、デジタル記憶媒体、例えばフレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができ、その上に記憶された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働するまたは協働することができる。
【0085】
本発明によるいくつかの実施形態は、本明細書に記載された方法が実行されるように、プログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータ担体を含む。
【0086】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに方法の1つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械可読担体に記憶することができる。
【0087】
他の実施形態は、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムを含み、機械可読担体または非一時的記憶媒体に記憶される。
【0088】
言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で動作するときに、本明細書に記載された方法のを実行するためのプログラムコードを有するコンピュータプログラムである。
【0089】
本発明の方法のさらなる実施形態は、本明細書に記載の方法を実行するためのコンピュータプログラムを記録したデータ担体(すなわち、デジタル記憶媒体またはコンピュータ可読媒体)である。
【0090】
本発明の方法のさらなる実施形態は、本明細書で説明される方法を実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続、例えばインターネット、を介して転送されるように構成することができる。
【0091】
さらなる実施形態は、本明細書で説明される方法のうちの1つを実行するように構成されまたは適合された、例えば、コンピュータ、またはプログラマブルロジックデバイスなどの処理手段を含む。
【0092】
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0093】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法のを実行するために、マイクロプロセッサと協働することができる。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
【0094】
上記の実施形態は、本発明の原理を説明するためのものに過ぎない。本明細書に記載された構成および細部の変更および変形は、当業者には明らかであることが理解されよう。したがって、本発明は、特許請求の範囲によってのみ限定されるものであり、本明細書の実施形態の説明および説明によって提示された特定の詳細によっては限定されるものではない。

図1a
図1b
図2
図3
図4
図5a
図5b
図6a
図6b
図7a
図7b
図8a
図8b
図9a
図9b
図10a
図10b
図11