IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.の特許一覧

特表2023-539348ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法
<>
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図1
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図2
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図3A
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図3B
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図3C
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図3D
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図3E
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図3F
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図4
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図5
  • 特表-ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-13
(54)【発明の名称】ミキシングノイズ信号に依存する多チャネル信号発生器、オーディオエンコーダ、および関係する方法
(51)【国際特許分類】
   G10L 19/012 20130101AFI20230906BHJP
   G10L 19/008 20130101ALI20230906BHJP
【FI】
G10L19/012
G10L19/008
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023514100
(86)(22)【出願日】2021-06-30
(85)【翻訳文提出日】2023-04-27
(86)【国際出願番号】 EP2021068079
(87)【国際公開番号】W WO2022042908
(87)【国際公開日】2022-03-03
(31)【優先権主張番号】20193716.6
(32)【優先日】2020-08-31
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】500242786
【氏名又は名称】フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】エマニュエル・ラヴェリ
(72)【発明者】
【氏名】ヤン・フレデリク・キーネ
(72)【発明者】
【氏名】ギヨーム・フックス
(72)【発明者】
【氏名】スリカンス・コルセ
(72)【発明者】
【氏名】マルクス・ムルトゥルス
(72)【発明者】
【氏名】エレニ・フォトポウロウ
(57)【要約】
多チャネル信号発生器(200)及びオーディオエンコーダが提供される。多チャネル信号発生器(200)は第1のチャネル(201)および第2のチャネル(203)を有する多チャネル信号(204)を発生するためのものである。多チャネル信号発生器(200)は、
第1のオーディオ信号(221)を発生するための第1のオーディオソース(211)と、
第2のオーディオ信号(223)を発生するための第2のオーディオソース(213)と、
ミキシングノイズ信号(222)を発生するためのミキシングノイズソース(212)と、
ミキシングノイズ信号(222)と第1のオーディオ信号(221)とを混合して第1のチャネル(201)を取得し、ミキシングノイズ信号(222)と第2のオーディオ信号(222)とを混合して第2のチャネル(203)を取得するためのミキサー(206)とを備える。
【特許請求の範囲】
【請求項1】
第1のチャネル(201)および第2のチャネル(203)を有する多チャネル信号(204)を発生するための多チャネル信号発生器(200)であって、
第1のオーディオ信号(221)を発生するための第1のオーディオソース(211)と、
第2のオーディオ信号(223)を発生するための第2のオーディオソース(213)と、
ミキシングノイズ信号(222)を発生するためのミキシングノイズソース(212)と、
前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)と前記第2のオーディオ信号(222)とを混合して前記第2のチャネル(203)を取得するためのミキサー(206)とを備える多チャネル信号発生器(200)。
【請求項2】
前記第1のオーディオソース(211)は第1のノイズソースであり、前記第1のオーディオ信号(221)は第1のノイズ信号であり、および/または前記第2のオーディオソース(213)は第2のノイズソースであり、前記第2のオーディオ信号(223)は第2のノイズ信号であり、
前記第1のノイズソース(211)および/または前記第2のノイズソース(213)は、前記第1のノイズ信号(221)および/または前記第2のノイズ信号(223)が前記ミキシングノイズ信号(222)から非相関にされるように前記第1のノイズ信号(221)および/または前記第2のノイズ信号(223)を発生するように構成される請求項1に記載のチャネル信号発生器。
【請求項3】
前記ミキサー(206)は、前記第1のチャネル(201)における前記ミキシングノイズ信号(222)の量が前記第2のチャネル(203)における前記ミキシングノイズ信号(222)の量に等しいか、または前記第2のチャネル(203)における前記ミキシングノイズ信号(222)の量の80パーセントから120パーセントの範囲内にあるように前記第1のチャネル(201)および前記第2のチャネル(203)を生成するように構成される請求項1または2に記載の多チャネル信号発生器。
【請求項4】
前記ミキサー(206)は、制御パラメータ(404、c)を受け取るための制御入力を備え、前記ミキサー(206)は、前記制御パラメータ(404、c)に応答して前記第1のチャネル(201)および前記第2のチャネル(203)における前記ミキシングノイズ信号(222)の量を制御するように構成される請求項1から3のいずれか一項に記載の多チャネル信号発生器。
【請求項5】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)の各々は、ガウスノイズソースである請求項1から4のいずれか一項に記載の多チャネル信号発生器。
【請求項6】
前記第1のオーディオソース(211)は、前記第1のオーディオ信号(221)を第1のノイズ信号として発生するための第1のノイズ発生器を備え、前記第2のオーディオソース(213)は、第2のノイズ信号として前記第2のオーディオ信号(213)を発生するために前記第1のノイズ信号(221)を非相関にするための非相関器を備え、前記ミキシングノイズソース(212)は、第2のノイズ発生器を備えるか、または
前記第1のオーディオソース(211)は、第1のノイズ信号として前記第1のオーディオ信号(221)を発生するための第1のノイズ発生器(211)を備え、前記第2のオーディオソース(213)は、第2のノイズ信号として前記第2のオーディオ信号(223)を発生するための第2のノイズ発生器(213)を備え、前記ミキシングノイズソース(212)は、前記ミキシングノイズ信号(222)を発生するために前記第1のノイズ信号(221)または前記第2のノイズ信号(223)を非相関にするための非相関器を備えるか、または
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの1つは、ノイズ信号を発生するためのノイズ発生器を備え、前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの別の1つは、前記ノイズ信号を非相関にするための第1の非相関器を備え、前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちのさらなる1つは、前記ノイズ信号を非相関にするための第2の非相関器を備え、前記第1の非相関器および前記第2の非相関器は、前記第1の非相関器および前記第2の非相関器の出力信号が互いに非相関になるように互いに異なるか、または
前記第1のオーディオソース(211)は、第1のノイズ発生器を備え、前記第2のオーディオソース(213)は、第2のノイズ発生器を備え、前記ミキシングノイズソース(212)は、第3のノイズ発生器を備え、前記第1のノイズ発生器、前記第2のノイズ発生器、および前記第3のノイズ発生器は、相互に非相関にされたノイズ信号を発生するように構成される請求項1から5のいずれか一項に記載の多チャネル信号発生器。
【請求項7】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうち1つは、シードに応答して擬似乱数列を生成するように構成されている擬似乱数列生成器を備え、前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの少なくとも2つは、異なるシードを使用して前記擬似乱数列生成器を初期化するように構成される請求項1から6のいずれか一項に記載の多チャネル信号発生器。
【請求項8】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの少なくとも1つは、事前記憶済みノイズテーブルを使用して動作するように構成されるか、または
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの少なくとも1つは、実部に対する第1のノイズ値および虚部に対する第2のノイズ値を使用してフレームに対する複素スペクトルを生成するように構成され、
任意選択で、少なくとも1つのノイズ発生器は、前記実部および前記虚部の一方に対して、インデックスkにおける第1の乱数値を使用し、前記実部および前記虚部の他方に対して、インデックス(k+M)における第2の乱数値を使用して周波数ビンkに対する複素ノイズスペクトル値を生成するように構成され、前記第1のノイズ値および前記第2のノイズ値は、たとえば、乱数列発生器またはノイズテーブルまたはノイズプロセスから導出される、開始インデックスから終了インデックスまでの範囲を有するノイズ配列に含まれ、前記開始インデックスはM未満であり、前記終了インデックスは2M以下であり、Mおよびkは整数値である請求項1から6のいずれか一項に記載の多チャネル信号発生器。
【請求項9】
前記ミキサー(206)は、
前記第1のオーディオ信号(221)の振幅に影響を及ぼすための第1の振幅要素(208-1)と、
前記第1の振幅要素の出力信号(221)と前記ミキシングノイズ信号(222)の少なくとも一部とを加算するための第1の加算器(206-1)と、
前記第2のオーディオ信号(223)の振幅に影響を及ぼすための第2の振幅要素(208-3)と、
前記第2の振幅要素(208-3)の出力(223)と前記ミキシングノイズ信号(222)の少なくとも一部とを加算するための第2の加算器(206-3)とを備え、
前記第1の振幅要素(208-1)によって実行される影響作用の量および前記第2の振幅要素(208-3)によって実行される影響作用の量は互いに等しいか、または前記第2の振幅要素(208-3)によって実行される影響作用の前記量は前記第1の振幅要素(208-1)によって実行される影響作用の前記量の20%未満だけ異なる請求項1から8のいずれか一項に記載の多チャネル信号発生器。
【請求項10】
前記ミキサー(206)は、前記ミキシングノイズ信号(222)の振幅に影響を及ぼすための第3の振幅要素(208-2)を備え、
前記第3の振幅要素(208-2)によって実行される影響作用の量は、前記第1の振幅要素(208-1)または前記第2の振幅要素(208-3)によって実行される影響作用の前記量に依存し、それにより、前記第3の振幅要素(208-2)によって実行される影響作用の前記量は、前記第1の振幅要素によって実行される影響作用の前記量または前記第2の振幅要素(208-3)によって実行される影響作用の前記量が小さくなるときに大きくなる請求項9に記載の多チャネル信号発生器。
【請求項11】
前記第3の振幅要素(208-2)によって実行される影響作用の前記量は、所定の値(cq)の平方根であり、前記第1の振幅要素(208-1)によって実行される影響作用の量および前記第2の振幅要素(208-3)によって実行される影響作用の量は、1と所定の値(cq)との差の平方根である請求項10に記載の多チャネル信号発生器。
【請求項12】
アクティブフレーム(306)と前記アクティブフレーム(306)に続く非アクティブフレーム(308)とを含むフレーム(306、308)のシーケンスにおいてエンコード済みオーディオデータ(232)を受信するための入力インターフェース(210)と、
前記アクティブフレーム(306)に対する符号化済みオーディオデータをデコードして前記アクティブフレームに対するデコード済み多チャネル信号を発生するためのオーディオデコーダ(200'、200a、200b)とをさらに備え、
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、前記ミキシングノイズソース(212)、および前記ミキサー(206)は、前記非アクティブフレームに対する前記多チャネル信号(204)を発生するために前記非アクティブフレーム(308)においてアクティブである請求項1から11のいずれか一項に記載の多チャネル信号発生器。
【請求項13】
前記アクティブフレーム(306)に対する前記エンコード済みオーディオ信号(232)は、第1の数の周波数ビンを記述する第1の複数の係数を有し、
前記非アクティブフレーム(308)に対する前記エンコード済みオーディオ信号(232)は、第2の数の周波数ビンを記述する第2の複数の係数を有し、
周波数ビンの前記第1の数は、周波数ビンの前記第2の数よりも大きい請求項1から12のいずれか一項に記載の多チャネル信号発生器。
【請求項14】
前記非アクティブフレーム(308)に対する前記エンコード済みオーディオデータ(232)は、前記非アクティブフレームについて、前記2つのチャネル(301、303)の各チャネル、または前記第1および第2のチャネルの第1の線形結合ならびに前記第1および第2のチャネルの第2の線形結合の各々に対する信号エネルギー(1312)を指示し、前記非アクティブフレームにおける前記第1のチャネル(301)と前記第2のチャネル(303)との間のコヒーレンス(404、c)を指示するコンフォートノイズデータ(c、p_noise)を含む無音挿入記述子データ(p_noise、c)を含み、
前記ミキサー(206、220)は、前記コヒーレンス(404、c)を指示する前記コンフォートノイズデータに基づき前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)または前記第2のオーディオ信号(223)とを混合する(206-1、206-3)ように構成され、
前記多チャネル信号発生器(200、220、220a~220e)は、前記第1のチャネル(201)および前記第2のチャネル(203)、または前記第1のオーディオ信号(221)もしくは前記第2のオーディオ信号(223)、または前記ミキシングノイズ信号(222)を修正するための信号修正器(250)をさらに備え、
前記信号修正器(250)は、前記第1のオーディオチャネル(301)および前記第2のオーディオチャネル(303)に対する信号エネルギーを指示する、または前記第1および第2のチャネルの第1の線形結合ならびに前記第1および第2のチャネルの第2の線形結合に対する信号エネルギーを指示するコンフォートノイズデータ(p_noise)によって制御されるように構成される請求項12または13に記載の多チャネル信号発生器。
【請求項15】
前記非アクティブフレームに対する前記オーディオデータ(232)は、
前記第1のチャネル(201)に対する第1の無音挿入記述子フレーム(241)と前記第2のチャネル(203)に対する第2の無音挿入記述子フレーム(243)とを含み、前記第1の無音挿入記述子フレーム(241)は、
前記第1のチャネル(201)に対する、および/または前記第1のチャネルと前記第2のチャネルとの第1の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
前記第1のチャネルおよび前記第2のチャネル(203)に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、
前記第2の無音挿入記述子フレーム(243)は、
前記第2のチャネル(203)に対する、および/または前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含み、
前記多チャネル信号発生器は前記非アクティブフレームにおける前記多チャネル信号(204)の発生を制御するためのコントローラを備え、前記第1の無音挿入記述子フレーム(241)に対する前記コンフォートノイズ発生サイド情報(p_frame)を使用して前記第1のチャネル(201)および前記第2のチャネル(203)に対する、ならびに/または前記第1のチャネルと前記第2のチャネルとの第1の線形結合および前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生モードを決定し、前記第2の無音挿入記述子フレーム(243)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記第1の無音挿入記述子フレーム(241)からの前記コンフォートノイズパラメータデータ(p_noise)を使用し、前記第2の無音挿入記述子フレーム(243)からの前記コンフォートノイズパラメータデータ(p_noise)を使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項12または13または14に記載の多チャネル信号発生器。
【請求項16】
前記非アクティブフレームに対する前記オーディオデータ(232)は、
前記第1のチャネルと前記第2のチャネルとの第1の線形結合および前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対する少なくとも1つの無音挿入部記述子フレーム(241)を含み、
前記少なくとも1つの無音挿入記述子フレーム(241)は、
前記第1のチャネルと前記第2のチャネルとの前記第1の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
前記第1のチャネルおよび前記第2のチャネルの前記第2の線形結合に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、
前記多チャネル信号発生器は前記非アクティブフレームにおける前記多チャネル信号(204)の発生を制御するためのコントローラを備え、前記第1のチャネルと前記第2のチャネルとの前記第1の線形結合および前記第1のチャネルと前記第2のチャネルとの前記第2の線形結合に対するコンフォートノイズ発生サイド情報(p_frame)を使用し、前記第2の無音挿入記述子フレーム(243)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記少なくとも1つの無音挿入記述子フレーム(241)からの前記コンフォートノイズパラメータデータ(p_noise)を使用し、前記少なくとも1つの無音挿入記述子フレーム(243)からの前記コンフォートノイズパラメータデータ(p_noise)を使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項12または13または14または15に記載の多チャネル信号発生器。
【請求項17】
スペクトル調整され、コヒーレンス調整された、結果として得られる第1のチャネルおよび結果として得られる第2のチャネルを、前記アクティブフレームに対する前記デコード済み多チャネル信号の対応するチャネルの時間領域表現と組み合わされるべき、または連結されるべき対応する時間領域表現に変換するためのスペクトル時間変換器をさらに含む請求項14または15または16に記載の多チャネル信号発生器。
【請求項18】
前記非アクティブフレームに対する前記オーディオデータは、
無音挿入記述子フレーム(241、243)を含み、前記無音挿入記述子フレーム(241、243)は、前記第1および第2のチャネル(201、203)に対するコンフォートノイズパラメータデータ(p_noise)と、前記第1のチャネル(203)および前記第2のチャネル(203)に対する、ならびに/または前記第1のチャネルと前記第2のチャネルとの第1の線形結合および前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生サイド情報(p_frame)と、前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含み、
前記多チャネル信号発生器(200)は前記非アクティブフレームにおける前記多チャネル信号(202)の発生を制御するためのコントローラを備え、前記無音挿入記述子フレーム(241、243)に対するコンフォートノイズ発生サイド情報(p_frame)を使用して前記第1のチャネル(201)および前記第2のチャネル(203)に対するコンフォートノイズ発生モードを決定し、前記第2の無音挿入記述子フレーム(241)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記第2の無音挿入記述子フレーム(241、243)からの前記コンフォートノイズパラメータデータ(p_noise)を使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項12から17のいずれか一項に記載の多チャネル信号発生器。
【請求項19】
前記非アクティブフレームに対する前記エンコード済みオーディオデータ(232)は、各チャネルに対する信号エネルギーをミッド/サイド表現で指示するコンフォートノイズデータ(c、p_noise)と、前記第1のチャネルと前記第2のチャネルとの間の前記コヒーレンスを左/右表現で指示するコヒーレンスデータ(404、c)とを含む無音挿入記述子データ(p_noise、c)を含み、前記多チャネル信号発生器は、前記信号エネルギーの前記ミッド/サイド表現を前記第1のチャネル(301)および前記第2のチャネル(303)における前記信号エネルギーの左/右表現に変換するように構成され、
前記ミキサー(206、220)は、前記コヒーレンスデータ(404、c)に基づき前記ミキシングノイズ信号(222)を前記第1のオーディオ信号(221)および前記第2のオーディオ信号(223)に混合して(206-1、206-3)、前記第1のチャネル(201)および前記第2のチャネル(203)を取得するように構成され、
前記多チャネル信号発生器は、前記左/右領域内の前記信号エネルギーに基づき前記第1および第2のチャネル(201、203)を整形することによって前記第1および第2のチャネル(201、203)を修正するように構成されている信号修正器(250)をさらに含む請求項12から18のいずれか一項に記載の多チャネル信号発生器。
【請求項20】
前記オーディオデータが前記サイドチャネルにおける前記エネルギーが所定の閾値よりも小さいことを指示するシグナリングを含む場合に、前記サイドチャネル(vs,q)の前記係数をゼロにする(337)ように構成される請求項19に記載の多チャネル信号発生器。
【請求項21】
前記非アクティブフレームに対する前記オーディオデータは、
少なくとも1つの無音挿入記述子フレーム(241、243)を含み、前記少なくとも1つの無音挿入記述子フレーム(241、243)は、前記ミッドチャネルおよび前記サイドチャネル(vm,q、vs,q)に対するコンフォートノイズパラメータデータ(p_noise、vm,ind、ql,q、qr,q、vs,ind)と、前記ミッドチャネルおよび前記サイドチャネル(vm,q、vs,q)に対するコンフォートノイズ発生サイド情報(p_frame)と、前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含み、前記多チャネル信号発生器(200)は前記非アクティブフレームにおける前記多チャネル信号(202)の発生を制御するためのコントローラを備え、前記無音挿入記述子フレーム(241、243)に対する前記コンフォートノイズ発生サイド情報(p_frame)を使用して前記第1のチャネル(201)および前記第2のチャネル(203)に対するコンフォートノイズ発生モードを決定し、前記無音挿入記述子フレーム(241)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記無音挿入記述子フレーム(241、243)からの前記コンフォートノイズパラメータデータ(p_noise)またはその処理済みバージョンを使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項19または20に記載の多チャネル信号発生器。
【請求項22】
前記第1および第2のチャネルに対する前記コンフォートノイズパラメータデータ(401、403)とともにエンコードされた、利得情報(gl,q、qr,q)によって前記第1および第2のチャネルに対する信号エネルギー係数(1312、v'l、v'r)をスケーリングするようにさらに構成される請求項12から21のいずれか一項に記載の多チャネル信号発生器。
【請求項23】
前記発生した多チャネル信号(252)を周波数領域バージョンから時間領域バージョンに変換するように構成される請求項1から22のいずれか一項に記載の多チャネル信号発生器。
【請求項24】
前記第1のオーディオソース(211)は第1のノイズソースであり、前記第1のオーディオ信号(221)は第1のノイズ信号であるか、または前記第2のオーディオソース(213)は第2のノイズソースであり、前記第2のオーディオ信号(223)は第2のノイズ信号であり、
前記第1のノイズソースまたは前記第2のノイズソースは、前記第1のノイズ信号(201)または前記第2のノイズ信号(203)が少なくとも部分的に相関するように前記第1のノイズ信号(201)または前記第2のノイズ信号(203)を発生するように構成され、
前記ミキシングノイズソース(212)は、第1のミキシングノイズ部分(221a)および第2のミキシングノイズ部分(221b)を含む前記ミキシングノイズ信号(222)を発生するように構成され、前記第2のミキシングノイズ部分(221b)は前記第1のミキシングノイズ部分(221b)と少なくとも部分的に非相関にされ、
前記ミキサー(206)は、前記ミキシングノイズ信号(222)の前記第1のミキシングノイズ部分(221a)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)の前記第2のミキシングノイズ部分(221b)と前記第2のオーディオ信号(223)とを混合して前記第2のチャネル(203)を取得するように構成される請求項1から23のいずれか一項に記載のチャネル信号発生器。
【請求項25】
第1のチャネルと第2のチャネル(203)とを有する多チャネル信号を発生する方法であって、
第1のオーディオソース(211)を使用して第1のオーディオ信号(221)を発生するステップと、
第2のオーディオソース(213)を使用して第2のオーディオ信号(223)を発生するステップと、
ミキシングノイズソース(212)を使用してミキシングノイズ信号(222)を発生するステップと、
前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)と前記第2のオーディオ信号(223)とを混合して前記第2のチャネル(202)を取得するステップを含む多チャネル信号を発生する方法。
【請求項26】
アクティブフレーム(306)と非アクティブフレーム(308)とを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号(232)を発生するためのオーディオエンコーダ(300、300a、300b)であって、
多チャネル信号(304)を解析してフレームの前記シーケンスのうちの1つのフレームを非アクティブフレーム(308)であると決定する(381)ためのアクティビティ検出器(380)と、
前記多チャネル信号(304)の第1のチャネル(301、201)に対する第1のパラメトリックノイズデータ(p_noise、vm,ind)を計算し、前記多チャネル信号(320)の第2のチャネル(303)に対する第2のパラメトリックノイズデータ(p_noise、vs,ind)を計算するためのノイズパラメータ計算器(3040)と、
前記非アクティブフレーム(308)における前記第1のチャネル(301、201)と前記第2のチャネル(303、203)との間のコヒーレンス状況を指示するコヒーレンスデータ(404、c)を計算するためのコヒーレンス計算器(320)と、
前記アクティブフレーム(306)に対するエンコード済みオーディオデータ、および前記非アクティブフレーム(308)については、前記第1のパラメトリックノイズデータ(p_noise、vm,ind)、前記第2のパラメトリックノイズデータ(p_noise、vs,ind)、および/または前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第1の線形結合および前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第2の線形結合、ならびにコヒーレンスデータ(c、404)を有する前記エンコード済み多チャネルオーディオ信号(232)を発生するための出力インターフェース(310)とを備えるオーディオエンコーダ(300、300a、300b)。
【請求項27】
前記コヒーレンス計算器(320)は、コヒーレンス値(404、c)を計算し(320')、コヒーレンス値(320')を量子化して(320”)量子化済みコヒーレンス値(cind)を取得するように構成され、前記出力インターフェース(310)は、前記量子化済みコヒーレンス値(cind)を前記エンコード済み多チャネル信号内の前記コヒーレンスデータとして使用するように構成される請求項26に記載のオーディオエンコーダ。
【請求項28】
前記コヒーレンス計算器(320)は、
前記非アクティブフレームにおける前記第1のチャネルおよび前記第2のチャネル(303)に対する複素スペクトル値から実数中間値および虚数中間値を計算し、
前記非アクティブフレームにおける前記第1のチャネル(301)に対する第1のエネルギー値および前記第2のチャネル(303)に対する第2のエネルギー値を計算し、
前記実数中間値、前記虚数中間値、前記第1のエネルギー値、および前記第2のエネルギー値を使用して前記コヒーレンスデータ(404、c)を計算するか、または
前記実数中間値、前記虚数中間値、前記第1のエネルギー値、および前記第2のエネルギー値の少なくとも1つを平滑化し、少なくとも1つの平滑化済み値を使用して前記コヒーレンスデータを計算するように構成される請求項26または27に記載のオーディオエンコーダ。
【請求項29】
前記コヒーレンス計算器(320)は、前記実数中間値を、前記非アクティブフレームにおける前記第1のチャネルおよび前記第2のチャネル(303)の対応する周波数ビンに対する複素スペクトル値の積の実部にわたる総和として計算するように構成されるか、または
前記虚数中間値を、前記非アクティブフレームにおける前記第1のチャネルおよび前記第2のチャネル(303)の対応する周波数ビンに対する前記複素スペクトル値の積の虚部にわたる総和として計算するように構成される請求項28に記載のオーディオエンコーダ。
【請求項30】
前記コヒーレンス計算器(320)は、平滑化済み実数中間値を二乗し、平滑化済み虚数中間値を二乗し、前記二乗された値を加算して第1の成分の数を取得するように構成され、
前記コヒーレンス計算器(320)は、前記平滑化された第1および第2のエネルギー値を乗算して第2の成分数を取得し、前記第1および前記第2の成分数を組み合わせて前記コヒーレンスデータが基づく前記コヒーレンス値に対する結果数を取得するように構成される請求項28または29に記載のオーディオエンコーダ。
【請求項31】
前記コヒーレンス計算器は、前記結果数の平方根を計算して、前記コヒーレンスデータが基づくコヒーレンス値を取得するように構成される請求項30に記載のオーディオエンコーダ。
【請求項32】
前記コヒーレンス計算器(320)は、一様量子化器(320")を使用して前記コヒーレンス値(404、c)を量子化し、前記量子化済みコヒーレンス値(cind)を前記コヒーレンスデータとしてのnビット数として取得するように構成される請求項27から31のいずれか一項に記載のオーディオエンコーダ。
【請求項33】
前記出力インターフェース(310)は、前記第1のチャネル(301、L)に対する第1の無音挿入記述子フレーム(241)と前記第2のチャネル(303、R)に対する第2の無音挿入記述子フレーム(243)とを生成するように構成され、前記第1の無音挿入記述子フレーム(241)は、前記第1のチャネル(301、L)に対するコンフォートノイズパラメータデータ(p_noise)と、前記第1のチャネル(301、L)および前記第2のチャネル(303、R)に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、前記第2の無音挿入記述子フレーム(243)は、前記第2のチャネル(303)に対するコンフォートノイズパラメータデータ(p_noise)と、前記非アクティブフレームにおける前記第1のチャネルと前記第2のチャネル(303)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含むか、または
前記出力インターフェース(310)は、無音挿入記述子フレーム(241、243)を生成するように構成され、前記無音挿入記述子フレームは、前記第1および前記第2のチャネル(301、303)に対するコンフォートノイズパラメータデータ(p_nose)と、前記第1のチャネル(301、L)および前記第2のチャネル(303、R)に対するコンフォートノイズ発生サイド情報(p_frame)と、前記非アクティブフレームにおける前記第1のチャネル(301、L)と前記第2のチャネル(303、R)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含むか、または
前記出力インターフェース(310)は、前記第1のチャネル(301、L)および前記第2のチャネルに対する第1の無音挿入記述子フレーム(241)と前記第1のチャネルおよび前記第2のチャネル(303、R)に対する第2の無音挿入記述子フレーム(243)とを生成するように構成され、前記第1の無音挿入記述子フレーム(241)は、前記第1のチャネルおよび前記第2のチャネルに対するコンフォートノイズパラメータデータ(p_noise)と、前記第1のチャネル(301、L)および前記第2のチャネル(303、R)に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、前記第2の無音挿入記述子フレーム(243)は、前記第1のチャネルおよび前記第2のチャネル(303)に対するコンフォートノイズパラメータデータ(p_noise)と、前記非アクティブフレームにおける前記第1のチャネルと前記第2のチャネル(303)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含む請求項26から32のいずれか一項に記載のオーディオエンコーダ。
【請求項34】
前記一様量子化器(320")は、nの値が前記第1の無音挿入記述子フレーム(241)に対する前記コンフォートノイズ発生サイド情報(p_frame)によって占有されるビットの値に等しくなるようにnビット数を計算するように構成される請求項32または請求項33に記載のオーディオエンコーダ。
【請求項35】
前記アクティビティ検出器(380)は、フレームの前記シーケンスのうちの少なくとも1つのフレームについて、
前記多チャネル信号(304)の前記第1のチャネル(301、L)を解析して(370-1)前記第1のチャネル(301、L)をアクティブまたは非アクティブとして分類し、
前記多チャネル信号(304)の前記第2のチャネル(303、R)を解析して(370-2)前記第2のチャネル(303、R)をアクティブまたは非アクティブとして分類し、
前記第1のチャネル(301、L)および前記第2のチャネル(303、R)の両方が非アクティブとして分類されている場合に前記フレームは非アクティブであると決定し(381)、そうでない場合にアクティブであるとして決定するように構成される請求項26から34のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項36】
前記ノイズパラメータ計算器(3040)は、前記第1のチャネル(301)に対する第1の利得情報(gl)および前記第2のチャネル(gl)に対する第2の利得情報(gs)を計算し、前記第1のチャネル(301)に対する第1の利得情報(gl)および第2の利得情報(gs)としてパラメトリックノイズデータを提供するように構成される請求項26から35のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項37】
前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部を、左/右表現から、ミッドチャネルおよびサイドチャネルを有するミッド/サイド表現に変換するように構成される請求項26から36のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項38】
前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部の前記ミッド/サイド表現(M、S)を、左/右表現に再変換するように構成され、
前記ノイズパラメータ計算器(3040)は、前記再変換された左/右表現から、前記第1のチャネル(301)に対する第1の利得情報(gl)および前記第2のチャネル(303)に対する第2の利得情報(gr)を計算し、前記第1のパラメトリックノイズデータに含まれる、前記第1のチャネル(301)に対する前記第1の利得情報(gl)、および前記第2のパラメトリックノイズデータに含まれる、前記第2の利得情報(gr)を提供するように構成される請求項37に記載のオーディオエンコーダ。
【請求項39】
前記ノイズパラメータ計算器(3040)は、
前記第1の利得情報(gl)を、
前記ミッド/サイド表現から前記左/右表現に再変換されるような前記第1のチャネル(301)に対する前記第1のパラメトリックノイズデータのバージョン(v'l)を、
前記ミッド/サイド表現から前記左/右表現に変換される前の前記第1のチャネル(301)に対する前記第1のパラメトリックノイズデータのバージョン(vl)と比較することによって、および/または
前記第2の利得情報(gr)を、
前記ミッド/サイド表現から前記左/右表現に再変換されるような前記第2のチャネル(301)に対する前記第2のパラメトリックノイズデータのバージョン(v'r)を、
前記ミッド/サイド表現から前記左/右表現に変換される前の前記第2のチャネル(301)に対する前記第2のパラメトリックノイズデータのバージョン(vr)と比較することによって、
計算するように構成される請求項38に記載のオーディオエンコーダ(300)。
【請求項40】
前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合のエネルギーを所定のエネルギー閾値(α)と比較するように構成され、
前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合の前記エネルギーが前記所定のエネルギー閾値(α)よりも大きい場合、前記サイドチャネルノイズ形状ベクトルの前記係数はゼロにされ(437)、
前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合の前記エネルギーが前記所定のエネルギー閾値(α)よりも小さい場合、前記サイドチャネルノイズ形状ベクトルの前記係数は維持される請求項26から39のいずれか一項に記載のオーディオエンコーダ。
【請求項41】
前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合を、前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第1の線形結合がエンコードされるビットの量よりも少ないビットの量でエンコードするように構成される請求項26から40のいずれか一項に記載のオーディオエンコーダ。
【請求項42】
前記出力インターフェース(310)は、
第1の数の周波数ビンに対して第1の複数の係数を使用して前記アクティブフレーム(306)に対するエンコード済みオーディオデータを有する前記エンコード済み多チャネルオーディオ信号(232)を発生し、
第2の数の周波数ビンを記述する第2の複数の係数を使用して前記第1のパラメトリックノイズデータ、前記第2のパラメトリックノイズデータ、または前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの前記第1の線形結合および前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第2の線形結合を生成するように構成され、
周波数ビンの前記第1の数は、周波数ビンの前記第2の数よりも大きい請求項26から41のいずれか一項に記載のオーディオエンコーダ。
【請求項43】
アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーディングの方法であって、
多チャネル信号を解析してフレームの前記シーケンスのうちの1つのフレームを非アクティブフレームであると決定するステップと、
前記多チャネル信号の第1のチャネル、および/または前記多チャネル信号の第1のチャネルと第2のチャネルの第1の線形結合に対する第1のパラメトリックノイズデータを計算し、前記多チャネル信号の第2のチャネル(303)、および/または前記多チャネル信号の前記第1のチャネルと前記第2のチャネルの第2の線形結合に対する第2のパラメトリックノイズデータを計算するステップと、
前記非アクティブフレームにおける前記第1のチャネルと前記第2のチャネル(303)との間のコヒーレンス状況を指示するコヒーレンスデータを計算するステップと、
前記アクティブフレームに対するエンコード済みオーディオデータと、前記非アクティブフレームについては、前記第1のパラメトリックノイズデータ、前記第2のパラメトリックノイズデータ、および前記コヒーレンスデータとを有する前記エンコード済み多チャネルオーディオ信号を発生するステップとを含む方法。
【請求項44】
コンピュータまたはプロセッサ上で実行されたときに、請求項25に記載の前記方法または請求項43に記載の前記方法を実行するためのコンピュータプログラム。
【請求項45】
フレームのシーケンスに編成されたエンコード済み多チャネルオーディオ信号であって、フレームの前記シーケンスはアクティブフレームと非アクティブフレームとを含み、前記エンコード済み多チャネルオーディオ信号は
前記アクティブフレームに対するエンコード済みオーディオデータと、
前記非アクティブフレームにおける第1のチャネルに対する第1のパラメトリックノイズデータと、
前記非アクティブフレームにおける第2のチャネル(303)に対する第2のパラメトリックノイズデータと、
前記非アクティブフレームにおける第1のチャネルと第2のチャネル(303)との間のコヒーレンス状況を指示するコヒーレンスデータと含むエンコード済み多チャネルオーディオ信号。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、とりわけ、ステレオコーデック(Stereo Codecs)における間欠伝送(Discontinuous Transmission)(DTX)を使用可能にするコンフォートノイズ発生(Comfort Noise Generation)(CNG)に関係する。本発明では、また、多チャネル信号発生器、オーディオエンコーダ、および関係する方法、たとえば、ミキシングノイズ信号に依存することも参照する。本発明は、デバイス、装置、システム、方法、コンピュータ(プロセッサ、コントローラ)によって実行されたときにコンピュータ(プロセッサ、コントローラ)に特定の方法を実行させる命令を記憶する非一時的記憶ユニット、およびエンコード済み多チャネルオーディオ信号で実装され得る。
【背景技術】
【0002】
コンフォートノイズ発生器は、通常、オーディオ信号、特に発話を含むオーディオ信号の間欠伝送(DTX)において使用される。そのようなモードでは、オーディオ信号は、最初に、音声活動検出器(VAD)によってアクティブフレームと非アクティブフレームに分類される。VADの結果に基づき、アクティブな発話フレームのみが符号化され、公称ビットレートで伝送される。バックグラウンドノイズのみが存在する長いポーズにおいて、ビットレートは下げられるか、またはゼロにされ、バックグラウンドノイズは無音挿入記述子フレーム(SIDフレーム)を使用してパラメトリック符号化される。平均ビットレートは、次いで、著しく低減される。
【0003】
ノイズは、コンフォートノイズ発生器(CNG)によってデコーダ側で非アクティブフレームにおいて発生される。SIDフレームのサイズは、実際には非常に制限されている。したがって、バックグラウンドノイズを記述するパラメータの数は、可能な限り少なく保たなければならない。この目的のために、ノイズ推定は、スペクトル変換の出力上で直接適用されない。その代わりに、入力パワースペクトルをバンドのグループにまたがって、たとえばバーク尺度に従って平均することによってより低いスペクトル分解能で適用される。平均することは、算術平均または幾何平均のいずれかによって達成され得る。残念ながら、SIDフレームで伝送されるパラメータの数は制限されているので、バックグラウンドノイズの微細なスペクトル構造を捉えることができない。したがって、ノイズの滑らかなスペクトル包絡線のみがCNGによって再現され得る。VADがCNGフレームをトリガーするときに、再構成されたコンフォートノイズの滑らかなスペクトルと実際のバックグラウンドノイズのスペクトルとの間の食い違いは、アクティブフレーム(信号のノイズの多い発話部分の通常の符号化およびデコーディングを伴う)とCNGフレームとの間で遷移が行われるときに非常によく聞こえることになり得る。
【0004】
いくつかの典型的なCNG技術は、ITU-T勧告G.729B[1]、G.729.1C[2]、G.718[3]に、またはAMRに対する3GPP(登録商標)仕様書[4]およびAMR-WBに対する3GPP仕様書[5]に記載されている。これらの技術はすべて、線形予測(LP)を使用する分析/合成アプローチを使用することによってコンフォートノイズ(CN)を発生する。
【0005】
さらに伝送レートを下げるために、LTEのEnhanced Voice Services(EVS)のための3GPP通信コーデック[6]は、非アクティブフレーム、すなわちバックグラウンドノイズのみからなると決定されたフレームに対してコンフォートノイズ発生(CNG)を適用する間欠伝送(DTX)モードを備える。これらのフレームでは、信号の低レートパラメトリック表現が、最大でも8フレーム(160ミリ秒)毎に無音挿入記述子(SID)フレームによって伝達される。これは、デコーダにおけるCNGが実際のバックグラウンドノイズに似た人工ノイズ信号を発生することを可能にする。EVSでは、CNGは、バックグラウンドノイズのスペクトル特性に応じて、線形予測スキーム(LP-CNG)または周波数領域スキーム(FD-CNG)のいずれかを使用して達成され得る。
【0006】
EVS[7]におけるLP-CNGアプローチは、ローバンドおよびハイバンドの両方の分析/合成エンコーディング段階からなる符号化を用いるスプリットバンドベースで動作する。ローバンドエンコーディングとは対照的に、ハイバンド信号に対しては、ハイバンドノイズスペクトルのパラメータモデリングは実行されない。ハイバンド信号のエネルギーのみがエンコードされ、デコーダに伝送され、ハイバンドノイズスペクトルは純粋にデコーダ側で生成される。ローバンドとハイバンドのCNは両方とも、合成フィルタを通して励起をフィルタリングすることによって合成される。ローバンド励起は、受けたローバンド励起エネルギーおよびローバンド励起周波数包絡線から導出される。ローバンド合成フィルタは、線スペクトル周波数(LSF)係数の形態の受け取ったLPパラメータから導出される。ハイバンド励起は、ローバンドエネルギーから外挿されたエネルギーを使用して取得され、ハイバンド合成フィルタは、デコーダ側のLSF補間から導出される。ハイバンド合成はスペクトル反転され、ローバンド合成に加えられ、最終CN信号を形成する。
【0007】
FD-CNGアプローチ[8][9]では、周波数領域ノイズ推定アルゴリズムを使用し、その後、バックグラウンドノイズの平滑化済みスペクトル包絡線をベクトル量子化する。デコード済み包絡線は、デコーダにおいて第2の周波数領域ノイズ推定器を実行することによって精緻化される。非アクティブフレームでは純粋にパラメトリックな表現が使用されるので、この場合には、ノイズ信号はデコーダで利用可能でない。FD-CNGにおいて、ノイズ推定は、最小統計量アルゴリズムに基づきエンコーダ側およびデコーダ側においてすべてのフレーム(アクティブおよび非アクティブ)で実行される。
【0008】
2つ(またはそれ以上)のチャネルの場合にコンフォートノイズを発生するための方法が[10]において説明されている。[10]では、モノラルSIDを、エンコーダにおいて2つの入力ステレオチャネル上で計算されたバンド毎のコヒーレンス尺度と組み合わせるステレオDTXおよびCNGのためのシステムが説明されている。デコーダでは、モノラルCNG情報とコヒーレンス値は、ビットストリームからデコードされ、多数の周波数バンドにおけるターゲットコヒーレンスが合成される。その結果得られたステレオSIDフレームのビットレートを下げるために、コヒーレンス値は、予測スキームを使用してエンコードされ、その後、可変ビットレートでエントロピー符号化が行われる。コンフォートノイズは、前の段落で説明されている方法により各チャネルについて発生され、次いで、2つのCNは、SIDフレームに含まれる伝送バンドコヒーレンス値に基づく重み付けとともに式を使用してバンド毎に混合される。
【0009】
従来技術の動機付け/欠点
ステレオシステムにおいて、バックグラウンドノイズを別々に発生すると、アクティブモードのバックグラウンドに/アクティブモードのバックグラウンドからDTXモードのバックグラウンドに切り替えるときに突然の可聴遷移を引き起こす実際のバックグラウンドノイズと非常に異なる、不快な音である、完全に無相関にされたノイズを発生する。それに加えて、2つの完全に無相関にされたノイズソースのみを使用してバックグラウンドのステレオイメージを保持することは可能でない。最後に、バックグラウンドノイズソースがあり、話す人がそのノイズソースの周りをハンドヘルドデバイスとともに移動している場合に、バックグラウンドノイズの空間イメージは、時間とともに変化し、これは各チャネルに対するバックグラウンドノイズを独立して再構成したときには再現され得ない何かである。したがって、立体音響信号に対する問題に適応するための新しいアプローチが開発される必要がある。
【0010】
これは、[10]でも扱われているが、実施形態において、最終的なコンフォートノイズを発生するための相関ノイズを模倣するために2つのチャネルに共通ノイズソースを挿入することは、立体音響バックグラウンドノイズ記録の模倣に対して重要な役割を果たす。
【0011】
現在の通信音声コーデックは、典型的には、モノラル信号のみを符号化する。したがって、大半の既存のDTXシステムは、モノラルCNG用に設計されている。ステレオ信号の両チャネルに独立してDTX演算を単純に適用することは、容易に見えるが、いくつかの問題を含む。最初に、このアプローチでは、2つのチャネルにおける2つのバックグラウンドノイズ信号を記述するパラメータの2つのセットの伝送を必要とする。これは、SIDフレーム伝送に必要なデータレートを大きくし、ネットワーク上の負荷軽減の利点を減じる。問題になる別の態様が、ステレオ信号の空間イメージの異常および歪みを回避し、またシステムのビットレート削減を最適化するためにチャネル間で同期されなければならない、VADの決定にある。さらに、両方のチャネル上で独立して受信機側においてCNGを適用するときに、2つの独立したCNGアルゴリズムは、典型的には、ゼロまたは非常に低いコヒーレンスを有する2つのランダムノイズ信号を発生する。この結果、発生したコンフォートノイズ中のステレオイメージは大きく広がる。他方では、ノイズ発生器上でのみ適用し、両方のチャネルにおいて同じコンフォートノイズ信号を使用することで、コヒーレンスが非常に高くなり、またステレオイメージは非常に狭いものとなる。しかしながら、大部分のステレオ信号については、ステレオイメージおよびその空間的印象は、これら両極端の間のどこかにある。アクティブフレームとDTXモードとの間の切り替えは、突然の可聴遷移をもたらすことになるであろう。また、バックグラウンドノイズソースがあり、話す人がそのノイズソースの周りをハンドヘルドデバイスとともに移動している場合に、バックグラウンドノイズの空間イメージは、時間とともに変化し、これは各チャネルに対するバックグラウンドノイズを独立して再構成したときには再現され得ない何かである。したがって、立体音響信号に対する問題に適応するための新しいアプローチが必要である。
【0012】
[10]で説明されているシステムは、モノラルCNGに対する情報をデコーダにおけるバックグラウンドノイズのステレオイメージを再合成するために使用されるパラメータ値とともに伝送することによってこれらの問題に対処した。このタイプのDTXシステムは、モノラルCNGパラメータが導出され得るエンコーディングおよび伝送の前の2つの入力チャネルにダウンミックスを適用するパラメトリックステレオコーダーによく合っている。しかしながら、離散ステレオ符号化スキームでは、通常、なおも2つのチャネルが統合方式で符号化され、細粒度コヒーレンス尺度のようなアップミックスパラメータは、通常、導出されない。したがって、これらの種類のステレオコーダーについては、異なるアプローチが必要である。
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明の実施例では、ステレオ音声信号の効率的伝送を提供する。ステレオ信号を伝送することは、特に、バックグラウンドノイズまたは他の音が入り込んでいる状況において、オーディオの1つのチャネル(モノラル)のみを伝送することに比べて、ユーザエクスペリエンスおよび音声了解度を大きく改善し得る。ステレオ信号は、2つのステレオチャネルのモノラルダウンミックスが適用され、この単一のダウンミックスチャネルが符号化されてデコーダにおいて元のステレオ信号を近似するために使用されるサイド情報とともに受信機に伝送されるパラメトリック方式で符号化され得る。別のアプローチは、離散ステレオ符号化を採用し、何らかの信号前処理を用いてチャネル間の冗長性を取り除き元の信号のよりコンパクトな2チャネル表現を達成することを目的とするものである。次いで、2つの処理済みチャネルは、符号化されて伝送される。デコーダでは、逆処理が適用される。それでも、ステレオ処理に関連するサイド情報は、2つのチャネルに沿って伝送され得る。したがって、パラメトリックステレオ符号化方法と離散ステレオ符号化方法の間の主な違いは、伝送されるチャネルの数にある。
【0014】
典型的には、会話では、話者全員がアクティブに話しているわけではない期間がある。したがって、これらの期間における音声コーダーへの入力信号は、主にバックグラウンドノイズまたは(ほぼ)無音からなる。データレートを節約し、伝送ネットワークの負荷を下げるために、音声コーダーは、音声を含むフレーム(アクティブフレーム)と主にバックグラウンドノイズまたは無音を含むフレーム(非アクティブフレーム)とを区別することを試みる。非アクティブフレームについては、データレートは、アクティブフレームのようにオーディオ信号を符号化せず、代わりに無音挿入記述子(SID)フレームの形態で現在のバックグラウンドノイズのパラメトリック低ビットレート記述を導出することによって、著しく低減され得る。このSIDフレームは、バックグラウンドノイズを記述するパラメータを更新するためにデコーダに定期的に伝送され、その一方で、間にある非アクティブフレームについては、ビットレートが低減されるか、または情報がいっさい伝送されない。デコーダでは、バックグラウンドノイズは、コンフォートノイズ発生(CNG)アルゴリズムによりSIDフレームで伝送されたパラメータを使用してリモデリングされる。このようにして、伝送速度を非アクティブフレームに対して下げるかまたはゼロにすらすることを、それを接続の中断または終了とユーザに解釈させることなく行うことができる。
【0015】
われわれは、モノラルアプリケーションに匹敵する平均ビットレートを維持しながら、ステレオSIDからなる離散的に符号化されたステレオ信号のためのDTXシステムと、両方のチャネルにおけるバックグラウンドノイズのスペクトル特性およびそれらの間の相関度をモデル化することによってステレオコンフォートノイズを発生するCNGのための方法とを説明する。
【課題を解決するための手段】
【0016】
一態様によれば、第1のチャネルと第2のチャネルとを有する多チャネル信号を発生するための多チャネル信号発生器が提供され、これは
第1のオーディオ信号を発生するための第1のオーディオソースと、
第2のオーディオ信号を発生するための第2のオーディオソースと、
ミキシングノイズ信号を発生するためのミキシングノイズソースと、
ミキシングノイズ信号と第1のオーディオ信号とを混合して第1のチャネルを取得し、ミキシングノイズ信号と第2のオーディオ信号とを混合して第2のチャネルを取得するためのミキサーとを備える。
【0017】
一態様によれば、第1のオーディオソースは第1のノイズソースであり、第1のオーディオ信号は第1のノイズ信号であるか、または第2のオーディオソースは第2のノイズソースであり、第2のオーディオ信号は第2のノイズ信号であり、
第1のノイズソースまたは第2のノイズソースは、第1のノイズ信号または第2のノイズ信号がミキシングノイズ信号から非相関にされるように第1のノイズ信号または第2のノイズ信号を発生するように構成される。
【0018】
一態様によれば、ミキサーは、第1のチャネルにおけるミキシングノイズ信号の量が第2のチャネルにおけるミキシングノイズ信号の量に等しいか、または第2のチャネルにおけるミキシングノイズ信号の量の80パーセントから120パーセントの範囲内にあるように第1のチャネルおよび第2のチャネルを生成するように構成される。
【0019】
一態様によれば、ミキサーは、制御パラメータを受け取るための制御入力を備え、ミキサーは、制御パラメータに応答して第1のチャネルおよび第2のチャネルにおけるミキシングノイズ信号の量を制御するように構成される。
【0020】
一態様によれば、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースの各々は、ガウスノイズソースである。
【0021】
一態様によれば、第1のオーディオソースは、第1のノイズ信号として第1のオーディオ信号を発生するための第1のノイズ発生器を備え、第2のオーディオソースは、第2のノイズ信号として第2のオーディオ信号を発生するために第1のノイズ信号を非相関にするための非相関器を備え、ミキシングノイズソースは、第2のノイズ発生器を備えるか、または
第1のオーディオソースは、第1のノイズ信号として第1のオーディオ信号を発生するための第1のノイズ発生器を備え、第2のオーディオソースは、第2のノイズ信号として第2のオーディオ信号を発生するための第2のノイズ発生器を備え、ミキシングノイズソースは、第1のノイズ信号または第2のノイズ信号を非相関にしてミキシングノイズ信号を発生するための非相関器を備えるか、または
第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの1つは、ノイズ信号を発生するためのノイズ発生器を備え、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの別の1つは、ノイズ信号を非相関にするための第1の非相関器を備え、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちのさらに別の1つは、ノイズ信号を非相関にするための第2の非相関器を備え、第1の非相関器および第2の非相関器は、第1の非相関器および第2の非相関器の出力信号が互いに非相関にされるように互いに異なるか、または
第1のオーディオソースは、第1のノイズ発生器を備え、第2のオーディオソースは、第2のノイズ発生器を備え、ミキシングノイズソースは、第3のノイズ発生器を備え、第1のノイズ発生器、第2のノイズ発生器、および第3のノイズ発生器は、相互に非相関にされたノイズ信号を発生するように構成される。
【0022】
一態様によれば、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの1つは、シードに応答して擬似乱数列を生成するように構成されている擬似乱数列生成器を備え、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの少なくとも2つは、異なるシードを使用して擬似乱数列生成器を初期化するように構成される。
【0023】
一態様によれば、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの少なくとも1つは、事前記憶済みノイズテーブルを使用して動作するように構成されるか、または
第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースの少なくとも1つは、実部に対する第1のノイズ値および虚部に対する第2のノイズ値を使用してフレームに対する複素スペクトルを生成するように構成され、
任意選択で、少なくとも1つのノイズ発生器は、実部および虚部の一方に対して、インデックスkにおける第1の乱数値を使用し、実部および虚部の他方に対して、インデックス(k+M)における第2の乱数値を使用して周波数ビンkに対する複素ノイズスペクトル値を生成するように構成され、第1のノイズ値および第2のノイズ値は、たとえば、乱数列発生器またはノイズテーブルまたはノイズプロセスから導出される、開始インデックスから終了インデックスまでの範囲を有するノイズ配列に含まれ、開始インデックスはM未満であり、終了インデックスは2M以下であり、Mおよびkは整数値である。
【0024】
一態様によれば、ミキサーは、
第1のオーディオ信号の振幅に影響を及ぼすための第1の振幅要素と、
第1の振幅要素の出力信号とミキシングノイズ信号の少なくとも一部とを加算するための第1の加算器と、
第2のオーディオ信号の振幅に影響を及ぼすための第2の振幅要素と、
第2の振幅要素の出力とミキシングノイズ信号の少なくとも一部とを加算するための第2の加算器とを備え、
第1の振幅要素によって実行される影響作用の量および第2の振幅要素によって実行される影響作用の量は互いに等しいか、または第2の振幅要素によって実行される影響作用の量は第1の振幅要素によって実行される影響作用の量の20%未満だけ異なる。
【0025】
一態様によれば、ミキサーは、ミキシングノイズ信号の振幅に影響を及ぼすための第3の振幅要素を備え、
第3の振幅要素によって実行される影響作用の量は、第1の振幅要素または第2の振幅要素によって実行される影響作用の量に依存し、それにより、第3の振幅要素によって実行される影響作用の量は、第1の振幅要素によって実行される影響作用の量または第2の振幅要素によって実行される影響作用の量が小さくなるときに大きくなる。
【0026】
一態様によれば、第3の振幅要素によって実行される影響作用の量は、値cqの平方根であり、第1の振幅要素によって実行される影響作用の量および第2の振幅要素によって実行される影響作用の量は、1とcqとの差の平方根である。
【0027】
一態様によれば、アクティブフレームおよびアクティブフレームに続く非アクティブフレームを含むフレームのシーケンス内のエンコード済みオーディオデータを受信するための入力インターフェースと、
アクティブフレームに対する符号化済みオーディオデータをデコードしてアクティブフレームに対するデコード済み多チャネル信号を発生するためのオーディオデコーダとが提供され、
第1のオーディオソース、第2のオーディオソース、ミキシングノイズソース、およびミキサーは、非アクティブフレームに対する多チャネル信号を発生するために非アクティブフレームにおいてアクティブである。
【0028】
一態様によれば、アクティブフレームに対するエンコード済みオーディオ信号は、第1の数の周波数ビンを記述する第1の複数の係数を有し、
非アクティブフレームに対するエンコード済みオーディオ信号は、第2の数の周波数ビンを記述する第2の複数の係数を有し、
周波数ビンの第1の数は、周波数ビンの第2の数よりも大きい。
【0029】
一態様によれば、非アクティブフレームに対するエンコード済みオーディオデータは、非アクティブフレームについて、2つのチャネルの各チャネル、または第1および第2のチャネルの第1の線形結合ならびに第1および第2のチャネルの第2の線形結合の各々に対する信号エネルギーを指示し、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコンフォートノイズデータを含む無音挿入記述子データを含み、
ミキサーは、コヒーレンスを指示するコンフォートノイズデータに基づきミキシングノイズ信号と第1のオーディオ信号または第2のオーディオ信号とを混合するように構成され、
多チャネル信号発生器は、第1のチャネルおよび第2のチャネル、または第1のオーディオ信号もしくは第2のオーディオ信号、またはミキシングノイズ信号を修正するための信号修正器をさらに備え、信号修正器は、第1のオーディオチャネルおよび第2のオーディオチャネルに対する信号エネルギーを指示する、または第1および第2のチャネルの第1の線形結合ならびに第1および第2のチャネルの第2の線形結合に対する信号エネルギーを指示するコンフォートノイズデータによって制御されるように構成される。
【0030】
一態様によれば、非アクティブフレームに対するオーディオデータは、
第1のチャネルに対する第1の無音挿入記述子フレームと第2のチャネルに対する第2の無音挿入記述子フレームとを含み、第1の無音挿入記述子フレームは、
第1のチャネルに対する、および/または第1のチャネルと第2のチャネルとの第1の線形結合に対するコンフォートノイズパラメータデータと、
第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報とを含み、
第2の無音挿入記述子フレームは、
第2のチャネルに対する、および/または第1のチャネルと第2のチャネルとの第2の線形結合に対するコンフォートノイズパラメータデータと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含み、
多チャネル信号発生器は、非アクティブフレームにおける多チャネル信号の発生を制御するためのコントローラを備え、これは第1の無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報を使用して第1のチャネルおよび第2のチャネルに対するならびに/または第1のチャネルと第2のチャネルとの第1の線形結合および第1のチャネルと第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生モードを決定し、第2の無音挿入記述子フレーム内のコヒーレンス情報を使用して非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを設定し、第1の無音挿入記述子フレームからのコンフォートノイズパラメータデータを使用し、第2の無音挿入記述子フレームからのコンフォートノイズパラメータデータを使用して第1のチャネルのエネルギー状況および第2のチャネルのエネルギー状況を設定する。
【0031】
一態様によれば、非アクティブフレームに対するオーディオデータは、
第1のチャネルと第2のチャネルとの第1の線形結合および第1のチャネルと第2のチャネルとの第2の線形結合に対する少なくとも1つの無音挿入部記述子フレームを含み、
少なくとも1つの無音挿入記述子フレームは、
第1のチャネルと第2のチャネルとの第1の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
第1のチャネルおよび第2のチャネルの第2の線形結合に対するコンフォートノイズ発生サイド情報とを含み、
多チャネル信号発生器は、非アクティブフレームにおける多チャネル信号の発生を制御するためのコントローラを備え、これは第1のチャネルと第2のチャネルとの第1の線形結合および第1のチャネルと第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生サイド情報を使用し、第2の無音挿入記述子フレーム内のコヒーレンス情報を使用して非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを設定し、少なくとも1つの無音挿入記述子フレームからのコンフォートノイズパラメータデータを使用し、少なくとも1つの無音挿入記述子フレームからのコンフォートノイズパラメータデータを使用して第1のチャネルのエネルギー状況および第2のチャネルのエネルギー状況を設定する。
【0032】
一態様によれば、スペクトル調整され、コヒーレンス調整された、結果として得られる第1のチャネルおよび結果として得られる第2のチャネルを、アクティブフレームに対するデコード済み多チャネル信号の対応するチャネルの時間領域表現と組み合わされるべき、または連結されるべき対応する時間領域表現に変換するためのスペクトル時間変換器が提供される。
【0033】
一態様によれば、非アクティブフレームに対するオーディオデータは、
無音挿入記述子フレームを含み、無音挿入記述子フレームは、第1のチャネルおよび第2のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対する、ならびに/または第1のチャネルと第2のチャネルとの第1の線形結合および第1のチャネルと第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生サイド情報と、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含み、
多チャネル信号発生器は、非アクティブフレームにおける多チャネル信号の発生を制御するためのコントローラを備え、これは無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報を使用して第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生モードを決定し、無音挿入記述子フレーム内のコヒーレンス情報を使用して非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを設定し、無音挿入記述子フレームからのコンフォートノイズパラメータデータを使用して第1のチャネルのエネルギー状況および第2のチャネルのエネルギー状況を設定する。
【0034】
一態様によれば、非アクティブフレームに対するエンコード済みオーディオデータは、各チャネルに対する信号エネルギーをミッド/サイド表現で指示するコンフォートノイズデータと、第1のチャネルと第2のチャネルとの間のコヒーレンスを左/右表現で指示するコヒーレンスデータとを含む無音挿入記述子データを含み、多チャネル信号発生器は、信号エネルギーのミッド/サイド表現を第1のチャネルおよび第2のチャネルにおける信号エネルギーの左/右表現に変換するように構成され、
ミキサーは、コヒーレンスデータに基づきミキシングノイズ信号を第1のオーディオ信号および第2のオーディオ信号に混合して、第1のチャネルおよび第2のチャネルを取得するように構成され、
多チャネル信号発生器は、左/右領域内の信号エネルギーに基づき第1および第2のチャネルを整形することによって第1および第2のチャネルを修正するように構成されている信号修正器をさらに含む。
【0035】
一態様によれば、多チャネル信号発生器は、オーディオデータがサイドチャネルにおけるエネルギーが所定の閾値よりも小さいことを指示するシグナリングを含む場合に、サイドチャネルの係数をゼロにするように構成される。
【0036】
一態様によれば、非アクティブフレームに対するオーディオデータは、
少なくとも1つの無音挿入記述子フレームを含み、少なくとも1つの無音挿入記述子フレームは、ミッドチャネルおよびサイドチャネルに対するコンフォートノイズパラメータデータと、ミッドチャネルおよびサイドチャネルに対するコンフォートノイズ発生サイド情報と、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含み、
多チャネル信号発生器は、非アクティブフレームにおける多チャネル信号の発生を制御するためのコントローラを備え、これは無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報を使用して第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生モードを決定し、無音挿入記述子フレーム内のコヒーレンス情報を使用して非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを設定し、無音挿入記述子フレームからのコンフォートノイズパラメータデータ、またはその処理済みバージョンを使用して第1のチャネルのエネルギー状況および第2のチャネルのエネルギー状況を設定する。
【0037】
一態様によれば、多チャネル信号発生器は、第1および第2のチャネルに対するコンフォートノイズパラメータデータとともにエンコードされた、利得情報によって第1および第2のチャネルに対する信号エネルギー係数をスケーリングするように構成される。
【0038】
一態様によれば、多チャネル信号発生器は、発生した多チャネル信号を周波数領域バージョンから時間領域バージョンに変換するように構成される。
【0039】
一態様によれば、第1のオーディオソースは第1のノイズソースであり、第1のオーディオ信号は第1のノイズ信号であるか、または第2のオーディオソースは第2のノイズソースであり、第2のオーディオ信号は第2のノイズ信号であり、
第1のノイズソースまたは第2のノイズソースは、第1のノイズ信号または第2のノイズ信号が少なくとも部分的に相関するように第1のノイズ信号または第2のノイズ信号を発生するように構成され、
ミキシングノイズソースは、第1のミキシングノイズ部分および第2のミキシングノイズ部分を含むミキシングノイズ信号を発生するように構成され、第2のミキシングノイズ部分は第1のミキシングノイズ部分と少なくとも部分的に非相関にされ、
ミキサーは、ミキシングノイズ信号の第1のミキシングノイズ部分と第1のオーディオ信号とを混合して第1のチャネルを取得し、ミキシングノイズ信号の第2のミキシングノイズ部分と第2のオーディオ信号とを混合して第2のチャネルを取得するためのものである。
【0040】
一態様によれば、第1のチャネルと第2のチャネルとを有する多チャネル信号を発生する方法が提供され、これは
第1のオーディオソースを使用して第1のオーディオ信号を発生することと、
第2のオーディオソースを使用して第2のオーディオ信号を発生することと、
ミキシングノイズソースを使用してミキシングノイズ信号を発生することと、
ミキシングノイズ信号と第1のオーディオ信号とを混合して第1のチャネルを取得し、ミキシングノイズ信号と第2のオーディオ信号とを混合して第2のチャネルを取得することとを含む。
【0041】
一態様によれば、アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーダが提供され、オーディオエンコーダは
多チャネル信号を解析してフレームのシーケンスのうちの1つのフレームを非アクティブフレームであると決定するためのアクティビティ検出器と、
多チャネル信号の第1のチャネルに対する第1のパラメトリックノイズデータを計算し、多チャネル信号の第2のチャネルに対する第2のパラメトリックノイズデータを計算するためのノイズパラメータ計算器と、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータを計算するためのコヒーレンス計算器と、
アクティブフレームに対するエンコード済みオーディオデータ、および非アクティブフレームについては、第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、または第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの第1の線形結合および第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの第2の線形結合、ならびにコヒーレンスデータを有するエンコード済み多チャネルオーディオ信号を発生するための出力インターフェースとを備える。
【0042】
一態様によれば、コヒーレンス計算器は、コヒーレンス値を計算し、コヒーレンス値を量子化して量子化済みコヒーレンス値を取得するように構成され、出力インターフェースは、量子化済みコヒーレンス値をエンコード済み多チャネル信号内のコヒーレンスデータとして使用するように構成される。
【0043】
一態様によれば、コヒーレンス計算器は、
非アクティブフレームにおける第1のチャネルおよび第2のチャネルに対する複素スペクトル値から実数中間値および虚数中間値を計算し、
非アクティブフレームにおける第1のチャネルに対する第1のエネルギー値および第2のチャネルに対する第2のエネルギー値を計算し、
実数中間値、虚数中間値、第1のエネルギー値、および第2のエネルギー値を使用してコヒーレンスデータを計算するか、または
実数中間値、虚数中間値、第1のエネルギー値、および第2のエネルギー値の少なくとも1つを平滑化し、少なくとも1つの平滑化済み値を使用してコヒーレンスデータを計算するように構成される。
【0044】
一態様によれば、コヒーレンス計算器は、実数中間値を、非アクティブフレームにおける第1のチャネルおよび第2のチャネルの対応する周波数ビンに対する複素スペクトル値の積の実部にわたる総和として計算するように構成されるか、または
虚数中間値を、非アクティブフレームにおける第1のチャネルおよび第2のチャネルの対応する周波数ビンに対する複素スペクトル値の積の虚部にわたる総和として計算するように構成される。
【0045】
一態様によれば、コヒーレンス計算器は、平滑化された実数中間値を二乗し、平滑化された虚数中間値を二乗し、二乗された値を加算して第1の成分数を取得するように構成され、
コヒーレンス計算器は、平滑化された第1および第2のエネルギー値を乗算して第2の成分数を取得し、第1および第2の成分数を組み合わせてコヒーレンスデータが基づくコヒーレンス値に対する結果数を取得するように構成される。
【0046】
一態様によれば、コヒーレンス計算器は、結果数の平方根を計算して、コヒーレンスデータが基づくコヒーレンス値を取得するように構成される。
【0047】
一態様によれば、コヒーレンス計算器は、一様量子化器を使用してコヒーレンス値を量子化し、量子化済みコヒーレンス値をコヒーレンスデータとしてのnビット数として取得するように構成される。
【0048】
一態様によれば、出力インターフェースは、第1のチャネルに対する第1の無音挿入記述子フレームと第2のチャネルに対する第2の無音挿入記述子フレームとを生成するように構成され、第1の無音挿入記述子フレームは、第1のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報とを含み、第2の無音挿入記述子フレームは、第2のチャネルに対するコンフォートノイズパラメータデータと、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含むか、または
出力インターフェースは、無音挿入記述子フレームを生成するように構成され、無音挿入記述子フレームは、第1のチャネルおよび第2のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報と、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含むか、
または出力インターフェースは、第1のチャネルおよび第2のチャネルに対する第1の無音挿入記述子フレームと第1のチャネルおよび第2のチャネルに対する第2の無音挿入記述子フレームとを生成するように構成され、第1の無音挿入記述子フレームは、第1のチャネルおよび第2のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報とを含み、第2の無音挿入記述子フレームは、第1のチャネルおよび第2のチャネルに対するコンフォートノイズパラメータデータと、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含む。
【0049】
一態様によれば、一様量子化器は、nの値が第1の無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報によって占有されるビットの値に等しくなるようにnビット数を計算するように構成される。
【0050】
一態様によれば、アクティビティ検出器は、
多チャネル信号の第1のチャネルを解析して第1のチャネルをアクティブまたは非アクティブとして分類し、
多チャネル信号の第2のチャネルを解析して第2のチャネルをアクティブまたは非アクティブとして分類し、
第1のチャネルおよび第2のチャネルの両方が非アクティブとして分類される場合にフレームのシーケンスの1つのフレームを非アクティブフレームであると決定するように構成される。
【0051】
一態様によれば、ノイズパラメータ計算器は、第1のチャネルに対する第1の利得情報および第2のチャネルに対する第2の利得情報を計算し、第1のチャネルに対する第1の利得情報および第2の利得情報としてパラメトリックノイズデータを提供するように構成される。
【0052】
一態様によれば、ノイズパラメータ計算器は、第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部を、左/右表現から、ミッドチャネルおよびサイドチャネルを有するミッド/サイド表現に変換するように構成される。
【0053】
一態様によれば、ノイズパラメータ計算器は、第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部のミッド/サイド表現を、左/右表現に再変換するように構成され、
ノイズパラメータ計算器は、再変換された左右表現から、第1のチャネルに対する第1の利得情報および第2のチャネルに対する第2の利得情報を計算し、第1のパラメトリックノイズデータに含まれる、第1のチャネルに対する第1の利得情報、および第2のパラメトリックノイズデータに含まれる、第2の利得情報を提供するように構成される。
【0054】
一態様によれば、ノイズパラメータ計算器は、
第1の利得情報を、
ミッド/サイド表現から左/右表現に再変換されるような第1のチャネルに対する第1のパラメトリックノイズデータのバージョンを、
ミッド/サイド表現から左/右表現に変換される前の第1のチャネルに対する第1のパラメトリックノイズデータのバージョンと比較することによって、および/または
第2の利得情報を、
ミッド/サイド表現から左/右表現に再変換されるような第2のチャネルに対する第2のパラメトリックノイズデータのバージョンを、
ミッド/サイド表現から左/右表現に変換される前の第2のチャネルに対する第2のパラメトリックノイズデータのバージョンと比較することによって、
計算するように構成される。
【0055】
一態様によれば、ノイズパラメータ計算器は、第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの間の第2の線形結合のエネルギーを所定のエネルギー閾値と比較するように構成され、
第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの間の第2の線形結合のエネルギーが所定のエネルギー閾値よりも大きい場合、サイドチャネルノイズ形状ベクトルの係数はゼロにされ、
第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの間の第2の線形結合のエネルギーが所定のエネルギー閾値よりも小さい場合、サイドチャネルノイズ形状ベクトルの係数は維持される。
【0056】
一態様によれば、オーディオエンコーダは、第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの間の第2の線形結合を、第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの間の第1の線形結合がエンコードされるビットの量よりも少ないビットの量でエンコードするように構成される。
【0057】
一態様によれば、出力インターフェースは、
第1の数の周波数ビンに対して第1の複数の係数を使用してアクティブフレームに対するエンコード済みオーディオデータを有するエンコード済み多チャネルオーディオ信号を発生し、
第2の数の周波数ビンを記述する第2の複数の係数を使用して第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、または第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの第1の線形結合および第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの第2の線形結合を生成するように構成され、
周波数ビンの第1の数は、周波数ビンの第2の数よりも大きい。
【0058】
一態様によれば、アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーディングの方法が提供され、この方法は
多チャネル信号を解析してフレームのシーケンスのうちの1つのフレームを非アクティブフレームであると決定することと、
多チャネル信号の第1のチャネル、および/または多チャネル信号の第1のチャネルと第2のチャネルの第1の線形結合に対する第1のパラメトリックノイズデータを計算し、多チャネル信号の第2のチャネル、および/または多チャネル信号の第1のチャネルと第2のチャネルの第2の線形結合に対する第2のパラメトリックノイズデータを計算することと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータを計算することと、
アクティブフレームに対するエンコード済みオーディオデータと、非アクティブフレームについては、第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、およびコヒーレンスデータを有するエンコード済み多チャネルオーディオ信号とを発生することとを含む。
【0059】
一態様によれば、コンピュータまたはプロセッサ上で実行されたときに、上記または下記の方法を実行するためのコンピュータプログラムが提供される。
【0060】
一態様によれば、フレームのシーケンスに編成されたエンコード済み多チャネルオーディオ信号が提供され、フレームのシーケンスはアクティブフレームと非アクティブフレームとを含み、エンコード済み多チャネルオーディオ信号は、
アクティブフレームに対するエンコード済みオーディオデータと、
非アクティブフレームにおける第1のチャネルに対する第1のパラメトリックノイズデータと、
非アクティブフレームにおける第2のチャネルに対する第2のパラメトリックノイズデータと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータと含む。
【0061】
一態様によれば、第1のオーディオソースは第1のノイズソースであり、第1のオーディオ信号は第1のノイズ信号であるか、または第2のオーディオソースは第2のノイズソースであり、第2のオーディオ信号は第2のノイズ信号であり、
第1のノイズソースまたは第2のノイズソースは、第1のノイズ信号または第2のノイズ信号がミキシングノイズ信号から非相関にされるように第1のノイズ信号または第2のノイズ信号を発生するように構成される。
【0062】
一態様によれば、ミキサーは、第1のチャネルにおけるミキシングノイズ信号の量が第2のチャネルにおけるミキシングノイズ信号の量に等しいか、または第2のチャネルにおけるミキシングノイズ信号の量の80パーセントから120パーセントの範囲内にあるように第1のチャネルおよび第2のチャネルを生成するように構成される。
【0063】
一態様によれば、ミキサーは、制御パラメータを受け取るための制御入力を備え、ミキサーは、制御パラメータに応答して第1のチャネルおよび第2のチャネルにおけるミキシングノイズ信号の量を制御するように構成される。
【0064】
一態様によれば、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースの各々は、ガウスノイズソースである。
【0065】
一態様によれば、第1のオーディオソースは、第1のノイズ信号として第1のオーディオ信号を発生するための第1のノイズ発生器を備え、第2のオーディオソースは、第2のノイズ信号として第2のオーディオ信号を発生するために第1のノイズ信号を非相関にするための非相関器を備え、ミキシングノイズソースは、第2のノイズ発生器を備えるか、または
第1のオーディオソースは、第1のノイズ信号として第1のオーディオ信号を発生するための第1のノイズ発生器を備え、第2のオーディオソースは、第2のノイズ信号として第2のオーディオ信号を発生するための第2のノイズ発生器を備え、ミキシングノイズソースは、第1のノイズ信号または第2のノイズ信号を非相関にしてミキシングノイズ信号を発生するための非相関器を備えるか、または
第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの1つは、ノイズ信号を発生するためのノイズ発生器を備え、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの別の1つは、ノイズ信号を非相関にするための第1の非相関器を備え、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちのさらに別の1つは、ノイズ信号を非相関にするための第2の非相関器を備え、第1の非相関器および第2の非相関器は、第1の非相関器および第2の非相関器の出力信号が互いに非相関になるように互いに異なるか、または
第1のオーディオソースは、第1のノイズ発生器を備え、第2のオーディオソースは、第2のノイズ発生器を備え、ミキシングノイズソースは、第3のノイズ発生器を備え、第1のノイズ発生器、第2のノイズ発生器、および第3のノイズ発生器は、相互に非相関にされたノイズ信号を発生するように構成される。
【0066】
一態様によれば、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの1つは、シードに応答して擬似乱数列を生成するように構成されている擬似乱数列生成器を備え、
第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの少なくとも2つは、異なるシードを使用して擬似乱数列生成器を初期化するように構成される。
【0067】
一態様によれば、第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースのうちの少なくとも1つは、事前記憶済みノイズテーブルを使用して動作するように構成されるか、または
第1のオーディオソース、第2のオーディオソース、およびミキシングノイズソースの少なくとも1つは、実部に対する第1のノイズ値および虚部に対する第2のノイズ値を使用してフレームに対する複素スペクトルを生成するように構成され、
任意選択で、少なくとも1つのノイズ発生器は、実部および虚部の一方に対して、インデックスkにおける第1の乱数値を使用し、実部および虚部の他方に対して、インデックス(k+M)における第2の乱数値を使用して周波数ビンkに対する複素ノイズスペクトル値を生成するように構成され、
第1のノイズ値および第2のノイズ値は、たとえば、乱数列発生器またはノイズテーブルまたはノイズプロセスから導出される、開始インデックスから終了インデックスまでの範囲を有するノイズ配列に含まれ、開始インデックスはM未満であり、終了インデックスは2M以下であり、Mおよびkは整数値である。
【0068】
一態様によれば、ミキサーは、
第1のオーディオ信号の振幅に影響を及ぼすための第1の振幅要素と、
第1の振幅要素の出力信号とミキシングノイズ信号の少なくとも一部とを加算するための第1の加算器と、
第2のオーディオ信号の振幅に影響を及ぼすための第2の振幅要素と、
第2の振幅要素の出力とミキシングノイズ信号の少なくとも一部とを加算するための第2の加算器とを備え、
第1の振幅要素によって実行される影響作用の量および第2の振幅要素によって実行される影響作用の量は互いに等しいか、または第1の振幅要素によって実行される影響作用の量の20%未満だけ異なる。
【0069】
一態様によれば、ミキサーは、ミキシングノイズ信号の振幅に影響を及ぼすための第3の振幅要素を備え、第3の振幅要素によって実行される影響作用の量は、第1の振幅要素または第2の振幅要素によって実行される影響作用の量に依存し、それにより、第3の振幅要素によって実行される影響作用の量は、第1の振幅要素によって実行される影響作用の量または第2の振幅要素によって実行される影響作用の量が小さくなるときに大きくなる。
【0070】
一態様によれば、多チャネル信号発生器が提供され、これは
アクティブフレームおよびアクティブフレームに続く非アクティブフレームを含むフレームのシーケンス内のエンコード済みオーディオデータを受信するための入力インターフェースと、
アクティブフレームに対する符号化済みオーディオデータをデコードしてアクティブフレームに対するデコード済み多チャネル信号を発生するためのオーディオデコーダとを備え、
第1のオーディオソース、第2のオーディオソース、ミキシングノイズソース、およびミキサーは、非アクティブフレームに対する多チャネル信号を発生するために非アクティブフレームにおいてアクティブである。
【0071】
一態様によれば、非アクティブフレームに対するエンコード済みオーディオデータは、非アクティブフレームに対する2つのチャネルのうちの各チャネルに対する信号エネルギーを指示し、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコンフォートノイズデータを含む無音挿入記述子データを含み、
ミキサーは、コヒーレンスを指示するコンフォートノイズデータに基づきミキシングノイズ信号と第1のオーディオ信号または第2のオーディオ信号とを混合するように構成され、多チャネル信号発生器は、第1のチャネルおよび第2のチャネル、または第1のオーディオ信号もしくは第2のオーディオ信号、またはミキシングノイズ信号を修正するための信号修正器をさらに備え、
信号修正器は、第1のオーディオチャネルおよび第2のオーディオチャネルに対する信号エネルギーを指示するコンフォートノイズデータによって制御されるように構成される。
【0072】
一態様によれば、非アクティブフレームに対するオーディオデータは、
第1のチャネルに対する第1の無音挿入記述子フレームと第2のチャネルに対する第2の無音挿入記述子フレームとを含み、第1の無音挿入記述子フレームは、第1のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報とを含み、第2の無音挿入記述子フレームは、第2のチャネルに対するコンフォートノイズパラメータデータと、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含み、
多チャネル信号発生器は、非アクティブフレームにおける多チャネル信号の発生を制御するためのコントローラを備え、これは第1の無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報を使用して第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生モードを決定し、第2の無音挿入記述子フレーム内のコヒーレンス情報を使用して非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを設定し、第1の無音挿入記述子フレームからのコンフォートノイズ発生データを使用し、第2の無音挿入記述子フレームからのコンフォートノイズ発生パラメータデータを使用して第1のチャネルのエネルギー状況および第2のチャネルのエネルギー状況を設定する。
【0073】
一態様によれば、スペクトル調整され、コヒーレンス調整された、結果として得られる第1のチャネルおよび結果として得られる第2のチャネルを、アクティブフレームに対するデコード済み多チャネル信号の対応するチャネルの時間領域表現と組み合わされるべき、または連結されるべき対応する時間領域表現に変換するためのスペクトル時間変換器をさらに含む。
【0074】
一態様によれば、非アクティブフレームに対するオーディオデータは、
無音挿入記述子フレームを含み、無音挿入記述子フレームは、第1のチャネルおよび第2のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報と、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含み、
多チャネル信号発生器は、非アクティブフレームにおける多チャネル信号の発生を制御するためのコントローラを備え、これは無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報を使用して第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生モードを決定し、第2の無音挿入記述子フレーム内のコヒーレンス情報を使用して非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを設定し、無音挿入記述子フレームからのコンフォートノイズ発生データを使用して第1のチャネルのエネルギー状況および第2のチャネルのエネルギー状況を設定する。
【0075】
一態様によれば、第1のオーディオソースは第1のノイズソースであり、第1のオーディオ信号は第1のノイズ信号であるか、または第2のオーディオソースは第2のノイズソースであり、第2のオーディオ信号は第2のノイズ信号であり、
第1のノイズソースまたは第2のノイズソースは、第1のノイズ信号または第2のノイズ信号が少なくとも部分的に相関するように第1のノイズ信号または第2のノイズ信号を発生するように構成され、
ミキシングノイズソースは、第1のミキシングノイズ部分および第2のミキシングノイズ部分を含むミキシングノイズ信号を発生するように構成され、第2のミキシングノイズ部分は第1のミキシングノイズ部分と少なくとも部分的に非相関にされ、
ミキサーは、ミキシングノイズ信号の第1のミキシングノイズ部分と第1のオーディオ信号とを混合して第1のチャネルを取得し、ミキシングノイズ信号の第2のミキシングノイズ部分と第2のオーディオ信号とを混合して第2のチャネルを取得するように構成される。
【0076】
一態様によれば、第1のチャネルと第2のチャネルとを有する多チャネル信号を発生する方法は、
第1のオーディオソースを使用して第1のオーディオ信号を発生することと、
第2のオーディオソースを使用して第2のオーディオ信号を発生することと、
ミキシングノイズソースを使用してミキシングノイズ信号を発生することと、
ミキシングノイズ信号と第1のオーディオ信号とを混合して第1のチャネルを取得し、ミキシングノイズ信号と第2のオーディオ信号とを混合して第2のチャネルを取得することとを含む。
【0077】
一態様によれば、アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーダが提供され、オーディオエンコーダは
多チャネル信号を解析してフレームのシーケンスのうちの1つのフレームを非アクティブフレームであると決定するためのアクティビティ検出器と、
多チャネル信号の第1のチャネルに対する第1のパラメトリックノイズデータを計算し、多チャネル信号の第2のチャネルに対する第2のパラメトリックノイズデータを計算するためのノイズパラメータ計算器と、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータを計算するためのコヒーレンス計算器と、
アクティブフレームに対するエンコード済みオーディオデータと、非アクティブフレームについては、第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、およびコヒーレンスデータを有するエンコード済み多チャネルオーディオ信号とを発生するための出力インターフェースとを備える。
【0078】
一態様によれば、コヒーレンス計算器は、コヒーレンス値を計算し、コヒーレンス値を量子化して量子化済みコヒーレンス値を取得するように構成され、出力インターフェースは、量子化済みコヒーレンス値をエンコード済み多チャネル信号内のコヒーレンスデータとして使用するように構成される。
【0079】
一態様によれば、コヒーレンス計算器は、
非アクティブフレームにおける第1のチャネルおよび第2のチャネルに対する複素スペクトル値から実数中間値および虚数中間値を計算し、
非アクティブフレームにおける第1のチャネルに対する第1のエネルギー値および第2のチャネルに対する第2のエネルギー値を計算し、
実数中間値、虚数中間値、第1のエネルギー値、および第2のエネルギー値を使用してコヒーレンスデータを計算するか、または
実数中間値、虚数中間値、第1のエネルギー値、および第2のエネルギー値の少なくとも1つを平滑化し、少なくとも1つの平滑化済み値を使用してコヒーレンスデータを計算するように構成される。
【0080】
一態様によれば、コヒーレンス計算器は、実数中間値を、非アクティブフレームにおける第1のチャネルおよび第2のチャネルの対応する周波数ビンに対する複素スペクトル値の積の実部にわたる総和として計算するように構成されるか、または
虚数中間値を、非アクティブフレームにおける第1のチャネルおよび第2のチャネルの対応する周波数ビンに対する複素スペクトル値の積の虚部にわたる総和として計算するように構成される。
【0081】
一態様によれば、コヒーレンス計算器は、平滑化された実数中間値を二乗し、平滑化された虚数中間値を二乗し、二乗された値を加算して第1の成分の数を取得するように構成され、
コヒーレンス計算器は、平滑化された第1および第2のエネルギー値を乗算して第2の成分数を取得し、第1および第2の成分数を組み合わせてコヒーレンスデータが基づくコヒーレンス値に対する結果数を取得するように構成される。
【0082】
一態様によれば、オーディオエンコーダが提供され、コヒーレンス計算器は、結果数の平方根を計算して、コヒーレンスデータが基づくコヒーレンス値を取得するように構成される。
【0083】
一態様によれば、コヒーレンス計算器は、一様量子化器を使用してコヒーレンス値を量子化し、量子化済みコヒーレンス値をコヒーレンスデータとしてのNビット数として取得するように構成される。
【0084】
一態様によれば、オーディオエンコーダが提供され、
出力インターフェースは、第1のチャネルに対する第1の無音挿入記述子フレームと第2のチャネルに対する第2の無音挿入記述子フレームとを生成するように構成され、第1の無音挿入記述子フレームは、第1のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報とを含み、第2の無音挿入記述子フレームは、第2のチャネルに対するコンフォートノイズパラメータデータと、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含むか、または
出力インターフェースは、無音挿入記述子フレームを生成するように構成され、無音挿入記述子フレームは、第1のチャネルおよび第2のチャネルに対するコンフォートノイズパラメータデータと、第1のチャネルおよび第2のチャネルに対するコンフォートノイズ発生サイド情報と、非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンスを指示するコヒーレンス情報とを含む。
【0085】
一態様によれば、一様量子化器は、Nの値が第1の無音挿入記述子フレームに対するコンフォートノイズ発生サイド情報によって占有されるビットの値に等しくなるようにNビット数を計算するように構成される。
【0086】
一態様によれば、アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーディングの方法が提供され、この方法は
多チャネル信号を解析してフレームのシーケンスのうちの1つのフレームを非アクティブフレームであると決定することと、
多チャネル信号の第1のチャネルに対する第1のパラメトリックノイズデータを計算し、多チャネル信号の第2のチャネルに対する第2のパラメトリックノイズデータを計算することと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータを計算することと、
アクティブフレームに対するエンコード済みオーディオデータと、非アクティブフレームについては、第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、およびコヒーレンスデータを有するエンコード済み多チャネルオーディオ信号とを発生することとを含む。
【0087】
一態様によれば、フレームのシーケンスに編成されたエンコード済み多チャネルオーディオ信号が提供され、フレームのシーケンスはアクティブフレームと非アクティブフレームとを含み、エンコード済み多チャネルオーディオ信号は、
アクティブフレームに対するエンコード済みオーディオデータと、
非アクティブフレームにおける第1のチャネルに対する第1のパラメトリックノイズデータと、
非アクティブフレームにおける第2のチャネルに対する第2のパラメトリックノイズデータと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータと含む。
【図面の簡単な説明】
【0088】
図1】特にフレームをアクティブまたは非アクティブとして分類する、エンコーダにおける一例を示す図である。
図2】エンコーダおよびデコーダの一例を示す図である。
図3A】デコーダにおいて使用され得る、多チャネル信号発生器の例を示す図である。
図3B】デコーダにおいて使用され得る、多チャネル信号発生器の例を示す図である。
図3C】デコーダにおいて使用され得る、多チャネル信号発生器の例を示す図である。
図3D】デコーダにおいて使用され得る、多チャネル信号発生器の例を示す図である。
図3E】デコーダにおいて使用され得る、多チャネル信号発生器の例を示す図である。
図3F】デコーダにおいて使用され得る、多チャネル信号発生器の例を示す図である。
図4】エンコーダおよびデコーダの一例を示す図である。
図5】ノイズパラメータ量子化ステージの一例を示す図である。
図6】ノイズパラメータ逆量子化ステージの一例を示す図である。
【発明を実施するための形態】
【0089】
例において実装され得るいくつかの態様
本明細書において、われわれは、とりわけ、たとえば離散的に符号化されたステレオ信号に対するDTXおよびCNGのための新しい技術を説明する。ステレオ信号のモノラルダウンミックスを操作する代わりに、両方のチャネルのノイズパラメータが導出され、統合符号化され、伝送される。デコーダ(またはさらに一般に多チャネル発生器)において、3つの独立したコンフォートノイズ信号は、たとえばノイズパラメータの2つのセットとともに伝送される単一の広帯域チャネル間コヒーレンス値に基づき混合され得る。例の態様のいくつかは、いくつかの例において、次の態様のうち少なくとも1つを対象とし得る。
・たとえば3つの独立したノイズ信号を混合することによるデコーダにおけるCNG。ステレオSIDをデコードし、左チャネルおよび右チャネルに対するノイズパラメータを再構成した後、2つのノイズ信号が、たとえば相関ノイズおよび無相関ノイズの混合として発生され得る。このために、両方のチャネルに対する1つの共通ノイズソース(相関ノイズソースとして働く)および2つの個別のノイズソース(無相関ノイズを提供する)は一緒に混合され得る。この混合プロセスは、ステレオSIDで伝送されるチャネル間コヒーレンス値によって制御され得る。混合の後、2つの混合済みノイズ信号は、それぞれ、左チャネルおよび右チャネルに対する再構成済みノイズパラメータを使用してスペクトル整形される。
・ノイズパラメータの統合符号化(Joint coding)は、ステレオ信号の2つのチャネルから導出され得る。ステレオSIDのビットレートを低く保つために、ノイズパラメータは、ステレオSIDで符号化する前にさらに圧縮され得る。これは、たとえば、ノイズパラメータの左/右チャネル表現をミッド/サイド表現に変換し、ミッドノイズパラメータよりも少ない数のビットでサイドノイズパラメータを符号化することによって達成され得る。
・2チャネルDTXに対するSID(ステレオSID)。このSIDは、ステレオ信号の両方のチャネルに対するノイズパラメータを、単一の広帯域チャネル間コヒーレンス値および両方のチャネルに対するノイズパラメータが等しいことを指示するフラグとともに含み得る。
【0090】
以下の例は、プロセッサによって実行されたときに、プロセッサに、開示された技術(たとえば、操作シーケンスのような、方法)を実行させる命令を記憶するデバイス、装置、システム、方法、コントローラおよび非一時的記憶装置ユニットにおいて実装され得ることが示される。
【0091】
特に、以下のブロックの少なくとも1つは、コントローラによって制御され得る。
【実施例
【0092】
本発明の例の態様を詳細に説明する前に、最も重要なもののうちのいくつかを簡単に概説する。
1)図3A図3Fは、多チャネル信号発生器(たとえば、少なくとも1つの第1の信号、またはチャネル、および1つの第2のオーディオ信号、またはチャネルによって形成される)の例を示しており、これは(たとえば、デコーダにおいて)多チャネルオーディオ信号を発生する。多チャネルオーディオ信号(元々は複数の、非相関チャネルの形態の)は、振幅要素の影響を受ける(たとえば、スケーリングされる)ことがある。影響作用の量は、エンコーダにおいて推定される第1のオーディオ信号と第2のオーディオ信号との間のコヒーレンスデータに基づくものとしてよい。第1および第2のオーディオ信号は、共通のミキシング信号(これもまた、コヒーレンスデータによって、非相関にされ影響を及ぼされ得る、たとえばスケーリングされ得る)との混合作用を受け得る。ミキシング信号に対する影響作用の量は、第1および第2のオーディオ信号がミキシング信号が低い重み(たとえば0または0超であるが、たとえば0に近い値)によってスケーリングされたときに高い重み(たとえば1または1未満であるが、たとえば1に近い値)によってスケーリングされるような量、またその逆も同様であり得る。ミキシング信号に対する影響作用の量は、エンコーダにおいて測定されるような高いコヒーレンスが第1および第2のオーディオ信号が低い重み(たとえば0または0超であるが、たとえば0に近い値)によってスケーリングされることを引き起こし、エンコーダにおいて測定されるような高いコヒーレンスが第1および第2のオーディオ信号が高い重み(たとえば1または1未満であるが、たとえば1に近い値)によってスケーリングされることを引き起こすような量であってよい。図3A図3Fの技術は、コンフォートノイズ発生器(CNG)を実装するために使用され得る。
2)図1図2、および図4は、エンコーダの例を示している。エンコーダは、オーディオフレームをアクティブまたは非アクティブとして分類し得る。オーディオフレームが非アクティブの場合、一部のパラメトリックノイズデータのみがビットストリームにエンコードされ(たとえば、ノイズ信号それ自体を提供することを必要とせずに、ノイズの形状のパラメトリック表現を与える、パラメトリックノイズ形状を提供するために)、2つのチャネルの間のコヒーレンスデータも提供され得る。
3)図2および図4は、デコーダの例を示している。デコーダは、オーディオ信号(コンフォートノイズ)を発生することを、たとえば、
a.上の図3A図3F(ポイント1)に示されている技術のうちの1つを使用し(特に、エンコーダによって提供されるコヒーレンス値を考慮し、振幅要素においてそれを重みとして適用する)、
b.ビットストリーム内にエンコードされるようなパラメトリックノイズデータを使用して、発生済みオーディオ信号(コンフォートノイズ)を成形することによって実行し得る。
【0093】
特に、エンコーダが非アクティブフレームに対する完全なオーディオ信号を提供する必要はなく、コヒーレンス値およびノイズ形状のパラメトリック表現のみを提供すればよく、それによってビットストリームにエンコードされるべきビットの数を削減する。
【0094】
信号発生器(たとえば、デコードサイド)、CNG
図3A図3Fは、第1のチャネル201および第2のチャネル203を有する多チャネル信号204を発生するためのCNG、さらに一般に多チャネル信号発生器200の例を示している。(本明細書では、発生したオーディオ信号221および223はノイズであると考えられるが、ノイズではない異なる種類の信号も可能である。)最初に一般的である図3Fが参照され、図3A図3Eは特定の例を示している。
【0095】
第1のオーディオソース211は、第1のノイズソースであってもよく、ここでは第1のオーディオ信号221を発生するように示され、これは第1のノイズ信号であり得る。ミキシングノイズソース212は、ミキシングノイズ信号222を発生し得る。第2のオーディオソース213は、第2のノイズ信号であってもよい第2のオーディオ信号223を発生し得る。多チャネル信号発生器200は、第1のオーディオ信号(第1のノイズ信号)221をミキシングノイズ信号222と混合し、第2のオーディオ信号(第2のノイズ信号)223をミキシングノイズ信号222と混合し得る。(それに加えて、または代替的に、第1のオーディオ信号221は、ミキシングノイズ信号222のバージョン221aと混合され、第2のオーディオ信号223は、ミキシングノイズ信号222のバージョン221bと混合され、バージョン221aおよび221bは、たとえば、互いに20%だけ異なっていてもよく、バージョン221aおよび221bの各々は、たとえば、共通の信号222のアップスケールおよび/またはダウンスケールバージョンであってよい)。したがって、多チャネル信号204の第1のチャネル201は、第1のオーディオ信号(第1のノイズ信号)221およびミキシングノイズ信号222から取得され得る。同様に、多チャネル信号204の第2のチャネル203は、ミキシングノイズ信号222と混合された第2のオーディオ信号223から取得され得る。また、信号は周波数領域内のここにあってもよく、kは(特定の周波数ビンに関連付けられている)特定のインデックスまたは係数を指すことにも留意されたい。
【0096】
図3A図3Fを見ると分かるように、第1のオーディオ信号221、ミキシングノイズ信号222、および第2のオーディオ信号223は、互いに非相関にされ得る。これは、たとえば、同じ信号を(たとえば、非相関器において)非相関にすることによって、および/またはノイズを独立して発生することによって、取得され得る(例は、以下に提示されている)。
【0097】
ミキサー208は、第1のオーディオ信号221および第2のオーディオ信号223をミキシングノイズ信号222と混合するように実装され得る。混合は、第1のオーディオ信号221、ミキシングノイズ信号222、および第2のオーディオ信号223がスケーリング(たとえば、振幅要素208-1、208-2、208-3において)によって重み付けされた後に信号を加算するタイプのものであってよい(加算器ステージ206-1および206-3)。ミキシングは、「重み付け後に加算する」タイプである。図3A図3Fは、2つの信号のサンプル毎の加算を表す加算(+)要素によりノイズ信号Nl[k]およびNr[k]を発生するために適用される実際の信号処理を示している(kは周波数ビンのインデックスである)。
【0098】
振幅要素(または重み付け要素またはスケーリング要素)208-1、208-2、208-3は、たとえば、第1のオーディオ信号221、ミキシングノイズ信号222、および第2のオーディオ信号223を好適な係数でスケーリングすることによって取得され、第1のオーディオ信号221の重み付けバージョン221'、ミキシングノイズ信号222の重み付けバージョン222'、および第2のオーディオ信号223の重み付けバージョン223'を出力し得る。好適な係数は、sqrt(coh)およびsqrt(1-coh)であってよく、たとえば、特定の記述子フレーム(下記も参照)をシグナリングする際にエンコードされたコヒーレンス情報から取得され得る(sqrtは、ここでは平方根演算を指す)。コヒーレンス「coh」は、以下で詳細に説明され、たとえば、以下で「c」または「cind」または「cq」で指示されるもの、たとえば、ビットストリーム232のコヒーレンス情報404においてエンコードされるものであってよい(図2および図4と組み合わせて以下を参照)。特に、ミキシングノイズ信号222は、たとえば、コヒーレンス値の平方根である重みによるスケーリングを受け、第1のオーディオ信号221および第2のオーディオ信号222は、コヒーレンスcohのうちの1つに相補的な値の平方根である重みでスケーリングされ得る。それにもかかわらず、ミキシングノイズ信号222は、コモンモード信号とみなされてよく、その一部は第1のオーディオ信号221の重み付けバージョン221'および第2のオーディオ信号223の重み付けバージョン223'に混合され、多チャネル信号204の第1のチャネル201および多チャネル信号204の第2のチャネル203をそれぞれ取得するものとしてよい。いくつかの場合において、第1のノイズソース211または第2のノイズソース213は、第1のノイズ信号221および/または第2のノイズ信号223がミキシングノイズ信号222から非相関にされるように第1のノイズ信号221または第2のノイズ信号223を発生するように構成され得る(図3B図3Eを参照するとともに以下を参照されたい)。
【0099】
第1のオーディオソース211、第2のオーディオソース213、およびミキシングノイズソース212のうちの少なくとも1つ(または各々)は、ガウスノイズソースであり得る。
【0100】
図3Aの例では、第1のオーディオソース211(ここでは211aで示されている)は、第1のノイズ発生器を備えるか、またはそれに接続され、第2のオーディオソース213(213a)は、第2のノイズ発生器を備えるか、または接続され得る。ミキシングノイズソース212(212a)は、第3のノイズ発生器を備えるか、またはそれに接続され得る。第1のノイズ発生器211(211a)、第2のノイズ発生器213(213a)、および第3のノイズ発生器212(212a)は、相互に非相関にされたノイズ信号を発生し得る。
【0101】
例では、第1のオーディオソース211(211a)、第2のオーディオソース213(213a)、およびミキシングノイズソース212(212a)の少なくとも1つは、事前記憶されたノイズテーブルを使用して動作するものとしてよく、したがってランダムシーケンスを提供し得る。
【0102】
いくつかの例において、第1のオーディオソース211、第2のオーディオソース213、およびミキシングノイズソース212のうちの少なくとも1つは、実部に対する第1のノイズ値および虚部に対する第2のノイズ値を使用してフレームに対する複素スペクトルを生成し得る。任意選択で、少なくとも1つのノイズ発生器は、実部および虚部の一方に対して、インデックスkにおける第1の乱数値を使用し、実部および虚部の他方に対して、インデックス(k+M)における第2の乱数値を使用して周波数ビンkに対する複素ノイズスペクトル値(たとえば、係数)を生成し得る。第1のノイズ値および第2のノイズ値は、たとえば、乱数列発生器またはノイズテーブルまたはノイズプロセスから導出される、開始インデックスから終了インデックスまでの範囲を有するノイズ配列に含まれるものとしてよく、開始インデックスはM未満であり、終了インデックスは2×M(これはMの2倍)以下である。Mおよびkは整数であるものとしてよい(kは信号の周波数領域表現における特定のビット周波数ビンのインデックスである)。
【0103】
各オーディオソース211、212、213は、たとえば、N1[k]、N2[k]、N3[k]に関して、ノイズを発生する少なくとも1つのオーディオソース発生器(ノイズ発生器)を含み得る。
【0104】
図3A図3Fの多チャネル信号発生器200は、たとえば、デコーダ200a、200b(200')に使用され得る。特に、多チャネル信号発生器200は、図4のコンフォートノイズ発生器(CNG)220の一部として見ることができる。デコーダ200は、一般に、エンコーダによってエンコードされている信号をデコードするため、またはビットストリームから取得されたエネルギー情報によって整形されるべき信号を発生することによって使用され、それにより、エンコーダに入力された元の入力オーディオ信号に対応するオーディオ信号を発生するものとしてよい。いくつかの例において、音声(または一般に非ボイドオーディオ信号(non-void audio signal))を有するフレームと無音挿入記述子フレームとの間の分類がある。上および下で説明されているように、無音挿入記述子フレーム(SID)(いわゆる「非アクティブフレーム308」、たとえばSIDフレーム241および/または243としてエンコードされ得る)は、一般にビットレート情報より低く提供され、したがって、通常の音声フレーム(いわゆる「アクティブフレーム306」、以下も参照されたい)より提供頻度が少ない。さらに、無音挿入記述フレーム(SID、非アクティブフレーム308)内に存在する情報は、一般に制限される(実質的に信号上のエネルギー情報に対応し得る)。
【0105】
それにもかかわらず、多チャネル信号発生器によって発生された多チャネルノイズ204でSIDフレームの内容を補完することが可能であることは理解されている。基本的に、オーディオソース211、212、213は、互いに独立しており、無相関にされ得る信号(たとえば、ノイズ)を処理し得る。第1のオーディオ信号221、ミキシングノイズ信号222、および第2のオーディオ信号223は、それにもかかわらず、エンコーダによって提供され、ビットストリーム内に挿入されるコヒーレンス情報によってスケーリングされ得る。図3A図3Fを見ると分かるように、コヒーレンス値は、ミキシングノイズ信号222のものと同じであり得、これは第1のオーディオ信号221および第2のオーディオ信号223の両方にコモンモード信号を提供し、したがって、多チャネル信号204の第1のチャネル201および第2のチャネル203を取得することを可能にする。コヒーレンス信号は、一般に、0と1との間の値である。
- コヒーレンスが0に等しいことは、元の第1のオーディオチャネル(たとえば、L、301)および第2のオーディオチャネル(たとえば、R、303)は互いに完全に無相関にされ、ミキシングノイズ信号222の振幅要素208-2は、ミキシングノイズ信号222を0によってスケーリングし、これは第1のオーディオ信号221および第2のオーディオ信号223がいかなるコモンモード信号とも混合されない(常に0である信号と混合されることによって)状況を引き起こし、出力チャネル201、203は、多チャネル信号204の第1のノイズ信号221および第2のノイズ信号223と実質的に同じになることを意味する。
- コヒーレンスが1に等しいことは、元の第1のオーディオチャネル(たとえば、L、301)および第2のオーディオチャネル(たとえば、R、303)は同じでなければならず、振幅要素208-1および208-3は、入力信号を0でスケーリングし、次いで第1および第2のチャネルはミキシングノイズ信号222(振幅要素208-2で1によってスケーリングされる)に等しいことを意味する。
- 0と1との間の中間にあるコヒーレンスは、上記の2つの状況の間の中間ミキシングを引き起こす。
【0106】
次にミキサー206および/またはCNG220のいくつかの態様および変更形態が説明される。
【0107】
第1のオーディオソース(211)は第1のノイズソースであり、第1のオーディオ信号(221)は第1のノイズ信号であり得るか、または第2のオーディオソース(213)は第2のノイズソースであり、第2のオーディオ信号(223)は第2のノイズ信号である。第1のノイズソース(211)または第2のノイズソース(213)は、第1のノイズ信号(221)または第2のノイズ信号(223)がミキシングノイズ信号(222)から非相関にされるように第1のノイズ信号(221)または第2のノイズ信号(223)を発生するように構成され得る。
【0108】
ミキサー(206)は、第1のチャネル(201)におけるミキシングノイズ信号(222)の量が第2のチャネル(203)におけるミキシングノイズ信号(222)の量に等しいか、または第2のチャネル(203)におけるミキシングノイズ信号(222)の量の80パーセントから120パーセントの範囲内にある(たとえばその部分221aおよび221bが互いに80パーセントから120パーセントの範囲で異なり、元のミキシングノイズ信号222と異なる)ように第1のチャネル(201)および第2のチャネル(203)を生成するように構成され得る。
【0109】
いくつかの場合において、
第1の振幅要素(208-1)によって実行される影響作用の量および第2の振幅要素(208-3)によって実行される影響作用の量は、互いに等しいか(たとえば、部分221aと部分221bとの区別がないとき)、または
第2の振幅要素(208-3)によって実行される影響作用の量は、第1の振幅要素(208-1)によって実行される影響作用の量の20%未満だけ異なる(たとえば、部分221aと221bとの間の差が20%未満であるとき)。
【0110】
ミキサー(206)および/またはCNG220は、制御パラメータ(404、c)を受け取るための制御入力を備え得る。したがって、ミキサー(206)は、制御パラメータ(404、c)に応答して第1のチャネル(201)および第2のチャネル(203)におけるミキシングノイズ信号(222)の量を制御するように構成され得る。
【0111】
図3A図3Fでは、ミキシングノイズ信号222は係数sqrt(coh)に従い、第1および第2のオーディオ信号221、223は係数sqrt(1-coh)に従うことが示されている。
【0112】
上で説明されているように、図3Aは、第1のソース211a(211)、第2のソース213a(213)およびミキシングノイズソース212a(212)が異なる発生器を含むCNG220aを示す。これは厳密には必要でなく、いくつかの変更形態が可能である。
【0113】
さらに一般に
1.第1の変更形態CNG220b(図3B):
a.第1のオーディオソース211b(211)は、第1のオーディオ信号(221)を第1のノイズ信号として発生するための第1のノイズ生成器を備えるものとしてよく、
b.第2のオーディオソース213b(213)は、第2のノイズ信号として第2のオーディオ信号(213)を発生するために第1のノイズ信号(221)を非相関にするための非相関器を備えるものとしてよく(たとえば、第2のオーディオ信号は非相関の後の第1のオーディオ信号から取得される)、
c.ミキシングノイズソース212b(212)は、第2のノイズ発生器(第1のノイズ発生器から本質的に無相関にされる)を備えるものとしてよく、
2.第2の変更形態CNG220c(図3C):
a.第1のオーディオソース211c(211)は、第1のオーディオ信号(221)を第1のノイズ信号として発生するための第1のノイズ発生器を備えるものとしてよく、
b.第2のオーディオソース213c(213)は、第2のオーディオ信号(223)を第2のノイズ信号として発生するための第2のノイズ発生器を備えるものとしてよく(たとえば、第2のノイズ発生器は第1のノイズ発生器から本質的に無相関にされる)、
c.ミキシングノイズソース212c(212)は、ミキシングノイズ信号(222)を発生するために第1のノイズ信号(221)または第2のノイズ信号(223)を非相関にするための非相関器を備えるものとしてよく、
3.第3の変更形態CNG220d(図3Dおよび図3E):
a.第1のオーディオソース211dまたは211e(211)、第2のオーディオソース213dまたは213e(213)、およびミキシングノイズソース212dまたは212e(212)のうちの1つは、ノイズ信号を発生するためのノイズ発生器を備えるものとしてよく、
b.第1のオーディオソース211dまたは211e(211)、第2のオーディオソース213dまたは213e(213)、およびミキシングノイズソース212dまたは212e(212)のうちの別の1つは、ノイズ信号を非相関にするための第1の非相関器を備えるものとしてよく、
c.第1のオーディオソース211dまたは211e(211)、第2のオーディオソース213dまたは213e(213)、およびミキシングノイズソース212dまたは212e(212)のうちのさらなる1つは、ノイズ信号を非相関にするための第2の非相関器を備えるものとしてよく、
d.第1の非相関器および第2の非相関器は、互いに異なるものとしてよく、それにより第1の非相関器および第2の非相関器の出力信号は互いに非相関にされ、
4.第4の変更形態CNG220(図3A):
a.第1のオーディオソース211a(211)は、第1のノイズ発生器を備え、
b.第2のオーディオソース213a(213)は、第2のノイズ発生器を備え、
c.ミキシングノイズソース212a(212)は、第3のノイズ発生器を備え、
d.第1のノイズ発生器、第2のノイズ発生器、および第3のノイズ発生器は相互に非相関にされたノイズ信号を発生し得る(たとえば、木生成器は互いに本質的に無相関にされる)。
5.第5の変更形態:
a.第1のオーディオソース(211)、第2のオーディオソース(213)、およびミキシングノイズソース(212)は、シードに応答して擬似乱数列を生成するための擬似乱数列生成器を備えるものとしてよく、
b.第1のオーディオソース(211)、第2のオーディオソース(213)、およびミキシングノイズソース(212)のうちの少なくとも2つは、異なるシードを使用して擬似乱数列生成器を初期化するものとしてよい。
6.第6の変更形態:
a.第1のオーディオソース(211)、第2のオーディオソース(213)、およびミキシングノイズソース(212)のうちの少なくとも1つは、事前記憶済みノイズテーブルを使用して動作するものとしてよく、
b.任意選択で第1のオーディオソース(211)、第2のオーディオソース(213)、およびミキシングノイズソース(212)のうちの少なくとも1つは、実部に対する第1のノイズ値および虚部に対する第2のノイズ値を使用してフレームに対する複素スペクトルを生成するものとしてよく、
c.任意選択で、少なくとも1つのノイズ発生器は、実部および虚部の一方に対して、インデックスkにおける第1の乱数値を使用し、実部および虚部の他方に対して、インデックス(k+M)における第2の乱数値を使用して周波数ビンkに対する複素ノイズスペクトル値を生成するものとしてよい(第1のノイズ値および第2のノイズ値は、たとえば、乱数列発生器またはノイズテーブルまたはノイズプロセスから導出される、開始インデックスから終了インデックスまでの範囲を有するノイズ配列に含まれ、開始インデックスはM未満であり、終了インデックスは2×M以下であり、Mおよびkは整数値である)。
【0114】
図4を見ると分かるように、デコーダ200'(200a、200b)は、図3のCNG220の他に、アクティブフレームとアクティブフレームに続く非アクティブフレームとを含むフレームのシーケンスにおいてエンコード済みオーディオデータを受信するための入力インターフェース210と、アクティブフレームに対するデコード済み多チャネル信号を生成するためにアクティブフレームに対する符号化済みオーディオデータをデコードするためのオーディオデコーダも含むものとしてよく、第1のオーディオソース211、第2のオーディオソース213、ミキシングノイズソース212、およびミキサー206は、非アクティブフレームに対する多チャネル信号を発生するために非アクティブフレームにおいてアクティブである。
【0115】
特に、アクティブフレームは、エンコーダによって音声(または他の種類の非ノイズ音)を有するものとして分類されるフレームであり、非アクティブフレームは、無音またはノイズのみを有すると分類されるフレームである。
【0116】
CNG220(220a~220e)の例はどれも、好適なコントローラによって制御され得る。
【0117】
エンコーダ
次にエンコーダについて説明される。エンコーダは、アクティブフレームと非アクティブフレームとをエンコードし得る。非アクティブフレームについて、エンコーダは、オーディオ信号を完全にエンコードすることなくパラメトリックノイズデータ(たとえば、ノイズ形状および/またはコヒーレンス値)をエンコードし得る。非アクティブオーディオフレームのエンコーディングは、ビットストリーム内にエンコードされるべき情報の量を削減するために、アクティブオーディオフレームに関して低減され得ることに留意されたい。また、非アクティブフレームに対するパラメトリックノイズデータ(たとえば、ノイズ形状)は、アクティブフレームにおいてエンコードされるものに比べて、各周波数バンドに対してより少ない情報を有し、および/またはより少ないビンを有し得る。パラメトリックノイズデータは、たとえば、第1および第2のチャネルのパラメトリックノイズデータの間の第1の線形結合、ならびに第1および第2のチャネルのパラメトリックノイズデータ間の第2の線形結合を提供することによって、左/右領域または別の領域(たとえば、ミッド/サイド領域)で与えられ得る(いくつかの場合において、第1および第2の線形結合に関連しないが左/右領域で与えられる利得情報も提供することが可能である)。第1および第2の線形結合は、一般に、互いに線形独立である。
【0118】
エンコーダは、フレームがアクティブであるかまたは非アクティブであるかを分類するアクティビティ検出器を含み得る。
【0119】
図1図2、および図4は、エンコーダ300aおよび300b(エンコーダ300aとエンコーダ300bとを区別する必要がないときに300とも称される)の例を示している。各オーディオエンコーダ300は、入力信号304のフレームのシーケンスに対してエンコード済み多チャネルオーディオ信号232を生成し得る。入力信号304は、ここでは、第1のチャネル301(左チャネルまたは「l」としても指示され、「l」は大文字が「L」である文字であり、英語では「left」の最初の文字である)と第2のチャネル303(または「r」であり、「r」は大文字が「R」である文字であり、英語では「right」の最初の文字である)とに分けられると考えられる。
【0120】
エンコード済み多チャネルオーディオ信号232は、フレームのシーケンスで定義されてもよく、それは、たとえば、時間領域内にあってもよい(たとえば、各サンプル「n」は、特定の時刻を指すものとしてよく、1フレームのサンプルは、シーケンス、たとえば、入力オーディオ信号のサンプリングシーケンスまたは入力オーディオ信号をフィルタリングした後のシーケンスを形成し得る)。
【0121】
エンコーダ300(300a、300b)は、図2および4には示されていないが(いくつかの例ではそこに実装されているにもかかわらず)、図1に示されているアクティビティ検出器380を備え得る。図1は、入力信号304の各フレームが、「アクティブフレーム306」または「非アクティブフレーム308」のいずれかに分類され得ることを示している。非アクティブフレーム308は、信号が無音であると考えられるようなフレームであり(たとえば、無音またはノイズしかない)、アクティブフレーム306は、無ノイズオーディオ信号(たとえば、音声、音楽など)の何らかの検出を有し得る。
【0122】
エンコーダ300によってエンコードされるようなエンコード済みマルチオーディオ信号232(たとえばビットストリーム)において、フレームがアクティブフレーム306であるかまたは無音フレーム308であるかに関する情報は、たとえば「サイド情報」とも呼ばれるいわゆる「コンフォートノイズ発生サイド情報」402(p_frame)でシグナリングされ得る。
【0123】
図1は、フレームがアクティブフレーム306であるかまたはサイレントフレーム308であるかを決定し得る(たとえば分類し得る)前処理ステージ360を示している。ここで、入力信号304のチャネル301および303は、周波数領域内にあることを指示するためにL(301、左チャネル)およびR(303、右チャネル)のように大文字で指示されることに留意されたい。図1を見ると分かるように、スペクトル分析ステージ370が適用されてもよい(第1のチャネル301、Lに対する第1のスペクトル分析370-1、第2のチャネル303、Rに対する第2のステージ370-3)。スペクトル分析ステージ370は、入力信号304の各フレームに対して実行されてもよく、たとえば、調和性測定に基づくものとしてよい。特に、いくつかの例では、スペクトル分析は、ステージ370によって第1のチャネル301上で実行され、同じフレームの第2のチャネル303上で実行されるスペクトル分析とは別に実行されてもよい。
【0124】
いくつかの場合において、スペクトル分析ステージ370は、事前定義された周波数バンドの範囲に対する平均エネルギーおよび総平均エネルギーなどのエネルギー関係パラメータの計算を含み得る。
【0125】
アクティビティ検出ステージ380(音声が検索される場合に音声アクティビティ検出と考えられ得る)が適用され得る。第1のアクティビティ検出ステージ380-1は、第1のチャネル301(および特に第1のチャネル上で実行される測定)に適用され、第2のアクティビティ検出ステージ380-3は、第2のチャネル303(および特に第2のチャネル上で実行される測定)に適用され得る。実施例において、アクティビティ検出ステージ380は、入力信号304におけるバックグラウンドノイズのエネルギーを推定し、その推定値を使用して信号対雑音比を計算するものとしてよく、これは信号対雑音比閾値と比較され、フレームがアクティブまたは非アクティブに分類されるかどうかを決定する(すなわち、計算された信号対雑音比が信号対雑音比閾値を超えることはフレームがアクティブとして分類されることを意味し、計算された信号対雑音比が信号対雑音比閾値を下回ることはフレームが非アクティブとして分類されることを意味している)。実施例では、ステージ380は、スペクトル分析ステージ370-1および370-3によってそれぞれ取得されるような調波性を、1つまたは2つの調波性閾値(たとえば、第1のチャネル301に対する第1の閾値および第2のチャネル303に対する第2の閾値)と比較し得る。両方の場合において、各フレームだけでなく、各フレームの各チャネルも、アクティブチャネルまたは非アクティブチャネルのいずれかであるとして分類することが可能であり得る。
【0126】
判定381が実行されるものとしてよく、それに基づき、離散ステレオ処理306aまたはステレオ間欠伝送処理(ステレオDTX)306bを実行するかどうかを決定する(スイッチ381'で識別されるように)ことが可能である。特に、アクティブフレーム(および離散ステレオ処理306a)の場合、エンコーディングは、任意の戦略または処理標準またはプロセスに従って実行することができ、したがって、ここでは、さらに詳細に分析しない。以下の説明の大半は、ステレオDTX306bに関するものである。
【0127】
特に、実施例において、フレームは、チャネル301および303の両方がそれぞれステージ380-1および380-3によって非アクティブとして分類される場合にのみ(ステージ381において)非アクティブフレームとして分類される。したがって、上で説明されているように、アクティビティ検出判定における問題が回避される。特に、各フレームについて各チャネルに対するアクティブ/非アクティブの分類をシグナリングする必要がなく(それによってシグナリングを低減する)、チャネル間の同期が本質的に得られる。さらに、デコーダが本明細書において説明されているようなものである場合、第1のチャネル301と第2のチャネル303との間のコヒーレンスを利用していくつかのノイズ信号を発生することが可能であり、これらは信号304について取得されたコヒーレンスに従って相関/非相関にされる。次に、非アクティブフレームをエンコードするために使用されるエンコーダ300の要素(300a、300b)が詳細に説明される。説明されているように、任意の他の技術が、アクティブフレーム308をエンコードするために使用されてよく、したがって、ここでは説明されない。
【0128】
大まかに言うと、エンコーダ300a、300b(300)は、第1および第2のチャネル301、303に対するパラメトリックノイズデータ401、403を計算するためのノイズパラメータ計算器3040を備え得る。ノイズパラメータ計算器3040は、第1のチャネル301および第2のチャネル303に対するパラメトリックノイズデータ401、403(たとえば、インデックスおよび/または利得)を計算し得る。したがって、ノイズパラメータ計算器3040は、アクティブフレーム306および非アクティブフレーム308(アクティブフレーム306に続く場合がある)を含み得るフレームのシーケンスでエンコード済みオーディオデータ232を提供し得る。特に、非アクティブフレーム308の場合には、エンコード済みオーディオデータ232は、1つまたは2つの無音挿入記述フレーム(SID)241、243としてエンコードされ得る。いくつかの例(たとえば図2)では、単一のSIDフレームが1つだけあり、いくつかの他の例では、2つのSIDフレームがある(たとえば図4において)。
【0129】
非アクティブフレーム308は、特に、
- コンフォートノイズ発生サイド情報(たとえば、402、p_frame)、
- 第1のチャネル301に対するコンフォートノイズパラメータデータ401、または第1のチャネル301に対するコンフォートノイズパラメータデータと第2のチャネルに対するコンフォートノイズパラメータデータとの第1の線形結合(vl,ind, vm, ind p_noise, gain gl,q)、
- 第2のチャネル303に対するコンフォートノイズパラメータデータ403、または第1のチャネル301に対するコンフォートノイズパラメータデータと第2のチャネルに対するコンフォートノイズパラメータデータとの第2の線形結合(vr, ind, vs,ind, p_noise, gain gr,q)、
- コヒーレンス情報(コヒーレンスデータ)(c,404)のうちの少なくとも1つを含み得る。
【0130】
いくつかの例では、第1の無音挿入記述子フレーム241は、上記のリストの最初の2つの項目を含み、第2の無音挿入記述子フレーム243は、特定のデータフィールド内の最後の2つの特徴を含み得る。それにもかかわらず、異なるプロトコルは、ビットストリームの異なるデータフィールドまたは異なる編成を提供し得る。しかしながら、いくつかの場合(たとえば、図2)において、両方のチャネルのノイズパラメータに対する単一の非アクティブフレームのみがあり得る。
【0131】
コヒーレンス情報(たとえば、「無音挿入記述子」の一部)は、コヒーレンス情報(たとえば、相関データ)、たとえば、同じ非アクティブフレーム308の第1のチャネル301と第2のチャネル303との間のコヒーレンスを指示する1つの単一値(たとえば、4ビットのように少ないビットでエンコードされる)を含み得ることが示される。他方、コンフォートノイズパラメータデータ401、403は、各チャネル301、303について、非アクティブフレーム308に対する信号エネルギーを指示し得るか(たとえば、実質的に包絡線を提供してもよい)、またはとにかくノイズ形状情報を提供し得る。包絡線またはノイズ形状情報は、周波数ビンに対する複数の係数および各チャネルに対する利得の形態であってよい。ノイズ形状情報は、元の入力チャネル(301、303)を使用してステージ312(以下参照)で取得されるものとしてよく、次いで、ノイズ形状パラメータベクトルに対してミッド/サイドエンコーディングが行われる。デコーダにおいて、コヒーレンス情報404の影響を受け得るいくつかのノイズチャネル(たとえば、図3のように201、203)を生成することが可能であり得ることが示される。したがって、CNG220(220a~220)によって発生されるノイズチャネル201、203は、第1のオーディオチャネルLoutおよび第2のオーディオチャネルRoutに対する信号エネルギーを指示する制御ノイズデータ(コンフォートノイズパラメータデータ401、403、2312)によって制御される信号修正器250によって修正され得る。
【0132】
オーディオエンコーダ300(300a、300b)は、ビットストリーム(たとえば、信号232、フレーム241または243)内にエンコードされるコヒーレンス情報(404)を取得し得る、コヒーレンス計算器320を備え得る。コヒーレンス情報(c、404)は、非アクティブフレーム308における第1のチャネル301(たとえば左チャネル)と第2のチャネル303(たとえば右チャネル)との間のコヒーレンス状況を指示し得る。その例については、後述する。
【0133】
エンコーダ300(300a、300b)は、アクティブフレーム306に対するエンコードされたオーディオデータと、非アクティブフレーム308については、第1のパラメトリックデータ(コンフォートノイズパラメトリックデータ)401(p_noise、左)、第2のパラメトリックノイズデータ(p_noise、右403)およびコヒーレンスデータc(404)とともに多チャネルオーディオ信号232(ビットストリーム)を生成するように構成されている出力インターフェース310を備え得る。第1のパラメトリックデータ401は、第1のチャネル(たとえば左チャネル)または第1および第2のチャネル(たとえばミッドチャネル)の第1の線形結合のパラメトリックデータであり得る。第2のパラメトリックデータ403は、第2のチャネル(たとえば右チャネル)または第1の線形結合とは異なる第1および第2のチャネルの第2の線形結合(たとえばサイドチャネル)のパラメトリックデータであってもよい。
【0134】
ビットストリーム232には、現在のフレームがアクティブフレーム306であるかまたは非アクティブフレーム308であるかについての指示を含むサイド情報402もあり得、たとえば、これにより、使用されるべきデコーディング技術をデコーダに通知する。
【0135】
特に、図4は、ノイズパラメータ計算器(ノイズパラメータ計算ステージ)3040が、第1のチャネル301に対するコンフォートノイズパラメータデータ401が計算され得る第1のノイズパラメータ計算器ステージ304-1と、第2のチャネル303に対する第2コンフォートノイズパラメータ403が計算され得る第2のノイズパラメータ計算器ステージ304-3とを備えるものとして示している。図2は、ノイズパラメータが一緒に処理され、量子化される例を示している。内部(たとえば、ノイズ形状ベクトルをM/S表現に変換)は、図5に示されている。基本的に、われわれは、ミッドインデックスおよびサイドインデックスとしてエンコードされ得る第1のチャネルMのノイズ形状および第2のチャネルSのノイズ形状を有し得るが、左チャネル301のノイズ形状に対する利得および右チャネル303のノイズ形状に対する利得もエンコードされ得る。
【0136】
コヒーレンス計算器320は、第1のチャネルLと第2のチャネルRとの間のコヒーレンス状況を指示するコヒーレンスデータ(コヒーレンス情報)c(404)を計算し得る。この場合、コヒーレンス計算器320は周波数領域内で動作し得る。
【0137】
見ると分かるように、コヒーレンス計算器320は、コヒーレンス値c(404)が取得されるチャネルコヒーレンス計算ステージ320'を含み得る。その下流では、一様量子化器ステージ320"が使用され得る。したがって、コヒーレンス値cの量子化バージョンcindを得ることができる。
【0138】
ここでは以下において、コヒーレンスの取得方法と量子化方法について説明する。
【0139】
コヒーレンス計算器320は、いくつかの例において、
非アクティブフレームにおける第1のチャネルおよび第2のチャネル(303)に対する複素スペクトル値から実数中間値および虚数中間値を計算し、
非アクティブフレームにおける第1のチャネルに対する第1のエネルギー値および第2のチャネル(303)に対する第2のエネルギー値を計算し、
実数中間値、虚数中間値、第1のエネルギー値、および第2のエネルギー値を使用してコヒーレンスデータ(404、c)を計算し、および/または
実数中間値、虚数中間値、第1のエネルギー値、および第2のエネルギー値の少なくとも1つを平滑化し、少なくとも1つの平滑化済み値を使用してコヒーレンスデータを計算し得る。
【0140】
コヒーレンス計算器320は、平滑化された実数中間値を二乗し、平滑化された虚数中間値を二乗し、二乗された値を加算して第1の成分の数を取得し得る。コヒーレンス計算器320は、平滑化された第1および第2のエネルギー値を乗算して第2の成分数を取得し、第1および第2の成分数を組み合わせてコヒーレンスデータが基づくコヒーレンス値に対する結果数を取得し得る。コヒーレンス計算器320は、結果数の平方根を計算して、コヒーレンスデータが基づくコヒーレンス値を取得し得る。式の例が、以下に提示されている。
【0141】
次に、デコーダでレンダリングされるノイズ形状(または他の信号エネルギー)の形状がどのように得られるかが説明される。エンコードされるものは、基本的には、元の入力信号302のノイズの形状(またはその他のエネルギーに関係する情報)であり、デコーダでは、発生されたノイズ203に適用され、それを整形し、信号304の元のノイズに似たノイズ252(出力オーディオ信号)をレンダリングすることになる。
【0142】
最初に、そのような信号304は、エンコーダによってビットストリーム232内にエンコードされることがないことに留意されたい。しかしながら、ノイズ情報(たとえば、エネルギー情報、包絡線情報)は、ビットストリーム232内にエンコードされ、その後エンコーダによってエンコードされたノイズ形状を有するノイズ信号を発生し得る。
【0143】
ノイズ形状取得ブロック312は、エンコーダの入力信号304に適用され得る。「ノイズ形状取得」ブロック312は、入力信号304内のノイズのスペクトル包絡線の低分解能パラメトリック表現1312を計算し得る。これは、たとえば、入力信号304の周波数領域表現の周波数バンド内のエネルギー値を計算することによって行うことができる。エネルギー値は、(必要な場合に)対数表現に変換され、後でコンフォートノイズを発生するためにデコーダで使用されるパラメータのより低い数(N)に凝縮され得る。ノイズのこれらの低分解能表現は、ここでは「ノイズ形状」1312と称される。したがって、「ノイズ形状取得」ブロック312の下流にあるものは、入力信号304を表すものとしてではなく、そのノイズ形状(それぞれのチャネルにおけるノイズのスペクトル包絡線のパラメトリック表現)を表すものとして理解されるべきである。これは、エンコーダがSIDフレームにおけるノイズのスペクトル包絡線のこの低分解能表現のみ伝送し得るので、重要である。したがって、図2において、「ノイズパラメータ計算器」部分(3040)のすべては、これらのノイズ関係パラメータベクトル(たとえば、vl、vr、vm,indおよびvs,indとして識別される)上でのみ動作し、信号304の信号表現上で動作しないと理解され得る。
【0144】
図5は、「ノイズパラメータ計算器」部分3040の一例(ノイズ形状連結量子化)を示す。ノイズ形状1312のミッドチャネル表現vm(チャネルLとRのノイズ形状の第1の線形結合)およびノイズ形状1312のサイドチャネル表現vr(チャネルLとRのノイズ形状の第2の線形結合)を取得するためにL/R-M/S変換ステージ314が適用され得る。以下、それを取得する仕方が示される。したがって、ノイズ形状304は、結果として、2つのチャネルvmおよびvrに分割され得る。
【0145】
その後、正規化ステージ316において、ノイズ形状1312のミッドチャネル表現vmおよびノイズ形状1312のサイドチャネル表現vrの少なくとも1つが正規化されて、ノイズ形状1312のミッドチャネル表現vmの正規化済みバージョンvm,nおよび/またはノイズ形状1312のサイドチャネル表現vrの正規化済みバージョンvr,nを取得し得る。
【0146】
その後、量子化ステージ(たとえばベクトル量子化、VQ)318が、信号1304の正規化済みバージョンに、たとえばノイズ形状1312の正規化済みミッドチャネル表現vm,nの量子化バージョンvm,indとノイズ形状1312の正規化済みサイドチャネル表現vs,nの量子化バージョンvs,indの形態で適用され得る。ベクトル量子化(たとえば、多段ベクトル量子化器を通して)が使用され得る。したがって、インデックスvm,ind[k](kは特定の周波数ビンのインデックスである)はノイズ形状のミッド表現を記述し、インデックスvs,ind[k]はノイズ形状のサイド表現を記述し得る。したがって、インデックスvm,ind[k]およびvs,ind[k]は、ビットストリーム232において、第1のチャネルに対するコンフォートノイズパラメータデータ第2のチャネルに対するコンフォートノイズパラメータデータとの第1の線形結合および第1のチャネルに対するコンフォートノイズパラメータデータと第2のチャネルに対するコンフォートノイズパラメータデータとの第2の線形結合としてエンコードされてもよい。
【0147】
逆量子化段階322において、ノイズ形状1312の正規化済みミッドチャネル表現vm,nの量子化済みバージョンvm,indとノイズ形状1312の正規化済みサイドチャネル表現vs,nの量子化済みバージョンvs,indに対して逆量子化が実行され得る。
【0148】
M/S-L/R変換器324は、ノイズ形状1312の逆量子化されたミッド表現vm,qおよびサイド表現vs,qの逆量子化済みバージョンに適用され、元の(左および右)チャネルv'lおよびv'rにおけるノイズ形状1312のバージョンを取得するものとしてよい。
【0149】
その後、ステージ326において、利得glおよびgrが計算され得る。特に、利得は、同じ非アクティブフレーム306の同じチャネル(v'lおよびv'r)のノイズ形状のすべてのサンプルについて有効である。利得glおよびgrは、ノイズ形状表現v'lおよびv'rにおける周波数ビンの全体(またはほとんど全体)を考慮することによって取得され得る。
【0150】
利得glは、
- L/R領域内の第1のチャネル301のノイズ形状の周波数ビンの値(L/R-M/S変換器314の上流)と、
- 第1のチャネル301の、L/R領域内で再変換された後の、ノイズ形状1312の周波数ビンの値(M/S-L/R変換器324の下流)とを比較することによって取得され得る。
【0151】
同様に、利得grは、
- L/R領域内の第2のチャネル303のノイズ形状の係数の値(L/R-M/S変換器314の上流)と、
- 第2のチャネル303の、L/R領域内で再変換された後の、ノイズ形状1312の係数の値(M/S-L/R変換器324の下流)とを比較することによって取得され得る。
【0152】
以下では、利得を取得する方法の一例が提案される。しかしながら、利得は、線形領域において、たとえば、複数の分数の幾何平均に比例するものとしてよく、各分数はL/R領域における特定のチャネルのノイズ形状の係数(L/R-M/S変換器314の上流)と、M/S-L/R変換器324の下流のL/R領域において再変換された後の同じチャネルの係数との間の分数である。対数領域において、各チャネルについて、利得は、L/R領域(L/R-M/S変換器314の上流)におけるノイズ形状のFDバージョンの係数と、M/S-L/R変換器324の下流のL/R領域内で再変換された後のノイズ形状の係数との間の差分の間の代数平均に比例するものとして取得され得る。一般に、対数またはスカラー領域において、利得は、L/R-M/S変換および量子化前の左または右チャネルのノイズ形状のバージョンと、逆量子化およびM/S-L/R再変換の後の左または右チャネルのノイズ形状のバージョンとの間の関係を提供し得る。
【0153】
量子化ステージ328は、gl,qで指示されるそれの量子化済みバージョンを取得するために利得glに、非量子化済み利得grから取得され得るgr,qで指示されるそれの量子化済みバージョンを取得するために利得grに、適用され得る。利得gl,qおよびgr,qは、ビットストリーム232において(たとえばコンフォートノイズパラメータデータ401および/または403として)エンコードされ、デコーダによって読み取られ得る。
【0154】
いくつかの例では、サイドチャネルノイズ形状ベクトルのエネルギー(たとえば、正規化される前、たとえば、ステージ314と316の間)を所定のエネルギー閾値α(正の実数値であってよい)(この場合、0.1であるが、0.05から0.15の間の値などの、異なる値であってもよい)と比較することも可能である。比較ブロック435では、非アクティブフレーム308のノイズ形状のサイド表現vsが十分なエネルギーを有するかどうかを決定することが可能である。ノイズ形状のサイド表現vsのエネルギーがエネルギー閾値αより小さい場合、2進数の結果(「ノーサイドフラグ」)が、サイド情報402として、ビットストリーム232内にシグナリングされる。ここで、ノイズ形状のサイド表現vsのエネルギーがエネルギー閾値αより小さい場合にノーサイドフラグ=1であり、ノイズ形状のサイド表現vsのエネルギーがエネルギー閾値αより大きい場合にノーサイドフラグ=0であると想像される。いくつかの場合において、エネルギーがエネルギー閾値に正確に等しい場合に、フラグは特定のアプリケーションに従って1または0であり得る。ブロック436は、ノーサイドフラグ436の2進数値に否定を実行する(ブロック436の入力が1である場合、出力436'は0であり、ブロック436の入力が0である場合、出力436'は1である)。ブロック436は、フラグの反対の値を出力436'として提供するように示されている。したがって、ノイズ形状の側面表現vsのエネルギーがエネルギー閾値より大きい場合、値436'は1であってもよく、ノイズ形状のサイド表現vsのエネルギーが所定の閾値より小さい場合、値436'は0である。逆量子化済み値vs,qに2進数値436'を乗じ得ることに注意されたい。これは、ノイズ形状のサイド表現vsのエネルギーが所定のエネルギー閾値αよりも小さい場合に、ノイズ形状の逆量子化済みサイド表現vs,qのビンは、人為的にゼロにされる(ブロック437の出力437'は0になる)ということを得るための単なる1つの可能な方法である。他方、ノイズ形状のサイド表現vsのエネルギーが十分に大きい場合(>α)、ブロック437(乗算器)の出力437'はvs,qと全く同じになり得る。したがって、ノイズ形状のサイド表現vsのエネルギーが所定のエネルギー閾値αよりも小さい場合、ノイズ形状のサイド表現vs(特にその逆量子化済みバージョンvs,q)は、ノイズ形状の左/右表現を取得することを考慮されない。(それに加えてまたは代替的に、デコーダはノイズ形状のサイド表現の係数をゼロにする類似のメカニズムを有し得ることが示される)。ノーサイドフラグは、サイド情報402の一部としてビットストリーム232内にエンコードされることもあることに留意されたい。
【0155】
ノイズ形状のサイド表現のエネルギーは、ノイズ形状の正規化(ブロック316における)の前に(ブロック435によって)測定されるように示されており、エネルギーは、閾値と比較する前に正規化されていないことに留意されたい。これは、原理的には、ノイズ形状を正規化した後にブロック435によって測定されてもよい(たとえば、ブロック435は、vsの代わりにvs,nによって入力されることも可能であろう)。
【0156】
ノイズ形状のサイド表現のエネルギーを比較するために使用される閾値αに関して、値0.1は、いくつかの例において、任意に選択され得る。例では、閾値αは、実験およびチューニング(たとえば、キャリブレーションを通じて)の後に選択され得る。いくつかの例において、原理上、個々の実装形態の数値形式(浮動小数点もしくは固定小数点)または精度に都合のよい任意の数が使用されることが可能である。したがって、閾値αは、キャリブレーション後に入力され得る実装形態固有のパラメータであってよい。
【0157】
出力インターフェース(310)は、
第1の数の周波数ビンに対して第1の複数の係数を使用してアクティブフレーム(306)に対するエンコード済みオーディオデータを有するエンコード済み多チャネルオーディオ信号(232)を発生し、
第2の数の周波数ビンを記述する第2の複数の係数を使用して第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、または第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの第1の線形結合および第1のパラメトリックノイズデータと第2のパラメトリックノイズデータとの第2の線形結合を生成するように構成されてよく、
周波数ビンの第1の数は、周波数ビンの第2の数よりも大きいことに留意されたい。
【0158】
実際には、低分解能が非アクティブフレームに対して使用されてよく、したがって、ビットストリームをエンコードするために使用されるビットの数をさらに減らし得る。同じことが、デコーダにも当てはまる。
【0159】
エンコーダの例はどれも、好適なコントローラによって制御され得る。
【0160】
デコーダ
次に、実施例によるデコーダが説明される。デコーダは、たとえば、図3A図3Fに示されている、上で説明されたコンフォートノイズ発生器220(220a~220e)を含み得る。コンフォートノイズ204(多チャネルオーディオ信号)は、出力信号252を取得するために、信号修正器250において整形され得る。われわれは、ここで、非アクティブフレーム308内にノイズを発生させるための操作を示すことに関心があり、アクティブフレーム206に対する操作を示すことに関心はない。
【0161】
図4は、デコーダ200'の第1の例を示しており、ここでは200'(200b)で示されている。デコーダ200'は、図3A図3Fのいずれかによる発生器220(220a~220e)を含み得るコンフォートノイズ発生器220を備えることに留意されたい。発生器220(220a~220e)の下流には、信号修正器250(図示されていないが、図4に示されている)が存在するものとしてよく、コンフォートノイズパラメータデータ(401、403)内にエンコードされたエネルギーパラメータに従って発生された多チャネルノイズ204を整形し得る。デコーダ入力インターフェース210を通じて、デコーダ200'は、ビットストリーム232からコンフォートノイズパラメータデータ(401、403)を取得してもよく、これは信号のエネルギーを記述するコンフォートノイズパラメータデータを含み得る(たとえば、第1のチャネルおよび第2のチャネルに対する、または第1の線形結合および第1のチャネルおよび第2のチャネルの第2の線形結合に対するものであり、第1および第2の線形結合は互いに線形に独立している)。デコーダ入力インターフェース210を通じて、デコーダ200'は、異なるチャネル間のコヒーレンスを指示する、コヒーレンスデータ404を取得し得る。図4は、ビットストリーム232において、非アクティブフレームのエンコーディングのために、それぞれ2つの異なる無音記述子フレーム241および243が提供されることを示しているが、2つより多い記述子フレーム、または単一の記述子フレーム1つだけを使用する可能性もある。デコーダ200bの出力は、多チャネル出力である。
【0162】
次に、図2を参照して、出力信号252を、たとえばノイズの形態で発生するために使用され得る、デコーダ200の一例である、デコーダ200'(ここでは200aと称され示されている)が説明される。
【0163】
最初に、デコーダ200a(200')は、たとえばエンコーダ300aまたは300bによってエンコードされるような、フレーム306、308のシーケンスにおけるエンコード済みオーディオデータ232(ビットストリーム)を受信するための入力インターフェース210を備え得る。デコーダ200a(200')は、たとえば図3A図3Fのいずれかのコンフォートノイズ発生器220(220a~220e)であり得るか、それを含み得る多チャネル信号発生器200であるか、またはより一般には、その一部であり得る。
【0164】
最初に、図2は、ステレオ、コンフォートノイズ発生器(CNG)220(220a~220e)を示している。特に、コンフォートノイズ発生器220(220a~220e)は、図3A図3Fのようなもの、またはその変更形態のうちの1つであってもよい。ここで、エンコーダ300aまたは300bから取得されるようなコヒーレンス情報404(たとえば、c、より正確には「coh」もしくはcindで示されるcq)は、前に説明された多チャネル信号204(チャネル201、203における)を発生するために使用され得る。CNG220(220a~220e)によって発生するような多チャネル信号204は、たとえば、コンフォートノイズパラメータデータ401および403、たとえば、整形されるべき多チャネル信号の第1の(左)チャネルおよび第2の(右)チャネルに対するノイズ形状情報を考慮することによって実際にさらに修正され得る。特に、ステージ316および/または318において、エンコーダ300aによって(特にノイズパラメータ計算器3040によって)生成されたミッドインデックスvm,ind(401)およびサイドインデックスvs,ind(403)を取得する可能性があること、ならびにステージ326および/または328において取得された利得gl,qおよびgr,qがあることが示される。
【0165】
図2に示されているように、サイド情報402は、現在のフレームがアクティブフレーム306または非アクティブフレーム308であるかどうかを決定することを可能にし得る。図2の要素は、非アクティブフレーム308の処理を指しており、アクティブフレーム306における出力信号の発生に任意の技術が使用され得ることが意図されており、したがって、これは本明細書の目的ではない。
【0166】
図2に示されているように、ビットストリーム232から、コンフォートノイズデータのいくつかの例が取得される。コンフォートノイズデータは、上で説明されているように、コヒーレンス情報(データ)404、ノイズ形状を指示するパラメータ401および403(vm,indおよびvs,ind)、ならびに/または利得(gl,qおよびgr,q)を含み得る。
【0167】
ステージ212-Cは、コヒーレンス情報404の量子化済みバージョンcindを逆量子化して、逆量子化済みコヒーレンス情報cqを取得するものとしてよい。
【0168】
ステージ2120(連結ノイズ形状逆量子化)は、ビットストリーム232から取得された他のコンフォートノイズデータを逆量子化することを可能にし得る。表6を参照することができる。逆量子化ステージ212は、ここでは212-M、212-S、212-R、212-Lで指示されている他の逆量子化ステージによって形成される。ステージ212-Mは、ミッドチャネルノイズ形状パラメータ401および403を逆量子化して、逆量子化済みノイズ形状パラメータvm,qおよびvs,qを取得し得る。ステージ212-Sは、サイドチャネルノイズ形状パラメータ403(vs,ind)の逆量子化済みバージョンvs,qを提供し得る。いくつかの例では、ノイズ形状ベクトルvsのエネルギーが、エンコーダ300aのブロック435によって、所定の閾値α未満であると認識された場合に、ステージ212-Sの出力をゼロにするように、ノーサイドフラグを利用することが可能である。エネルギーが所定の閾値α未満であり、ノーサイドフラグがそれをシグナリングする場合、ノイズ形状ベクトルvsの逆量子化済みバージョンvs,qは、ゼロにされ得る(これは概念的に、ブロック536が実際にはビットストリーム232のサイド情報にエンコードされたノーサイドフラグを読み取るにもかかわらず、閾値αとの比較を一切行わずにエンコーダ側のブロック436と同じ機能を有するブロック436から取得されるフラグ536'による乗算として示されている)。したがって、エンコーダにおけるサイドチャネルのエネルギーが所定の閾値αよりも小さいと決定された場合に、ノイズ形状ベクトルvsの逆量子化済みバージョンvs,qは人為的にゼロにされ、スケーラブロック537の出力537'における値はゼロである。そうでない場合、エネルギーが所定の閾値より大きい場合に、出力537'は、サイドチャネルのノイズ形状のサイドインデックス403(vs,ind)の量子化済みバージョンvs,qと同じである。言い換えれば、サイドチャネルのエネルギーが所定のエネルギー閾値α未満である場合にノイズ形状ベクトルvs,indの値は無視される。
【0169】
M/S-L/Rステージ516では、パラメトリックデータ(ノイズ形状)のL/Rバージョンv'l,v'rを取得するために、M/S-L/R変換が実行される。その後、利得ステージ518(ステージ518-L、518-Lによって形成される)が使用されるものとしてよく、それによりステージ518-Lにおいて、チャネルv'lは利得gl,dによってスケーリングされ、ステージ518-Rでは、チャネルv'rが利得gr,qによってスケーリングされる。したがって、エネルギーチャネルvl,qおよびvr,qは、利得ステージ518の出力として取得され得る。ステージブロック518-Lおよび518-Rは、値の伝送が対数領域にあることが想像されるので「+」で示され、したがって値のスケーリングは追加で指示される。しかしながら、利得ステージ518は、再構成済みノイズ形状ベクトルvl,qおよびvr,qがスケーリングされることを指示する。再構成済みノイズ形状ベクトルvl,qおよびvr,qは、ここでは2312で複合的に指示され、エンコーダにおいて「ノイズ形状取得」ブロック312によって元々得られるようなノイズ形状1312の再構成済みバージョンである。一般論として、各利得は、同じ非アクティブフレームの同じチャネルのすべてのインデックス(係数)に対して一定である。
【0170】
インデックスvm,ind、vs,indおよび利得gl,q、gr,qは、ノイズ形状の係数であり、フレームのエネルギーに関する情報を与えることに留意されたい。それらは基本的に、信号252を発生するために使用される入力信号304に関連付けられているパラメトリックデータを参照するが、それらは信号304または発生されるべき信号252を表さない。別の言い方をすれば、ノイズチャネルvr,qおよびvl,qは、CNG220によって発生された多チャネル信号204に適用されるべき包絡線を記述する。
【0171】
再び図2を参照すると、再構成済みノイズ形状ベクトルvl,qおよびvr,q(2312)は、信号修正器250において使用され、ノイズ204を整形することによって修正信号252を取得する。特に、発生ノイズ204の第1のチャネル201は、出力多チャネルオーディオ信号252(LoutおよびRout)を取得するために、ステージ250-Lでチャネルvl,qによって、ステージ250-Rで発生ノイズ204のチャネル203によって整形され得る。
【0172】
例では、コンフォートノイズ信号204それ自体は対数領域内で発生しない、すなわち、ノイズ形状のみが対数表現を使用し得る。対数領域から線形領域への変換が実行され得る(図示しないが)。
【0173】
また、周波数領域から時間領域への変換も実行され得る(図示しないが)。
【0174】
デコーダ200'(200a、200b)は、スペクトル調整され、コヒーレンス調整された、結果として得られる第1のチャネル201および結果として得られる第2のチャネル203を、アクティブフレームに対するデコード済み多チャネル信号の対応するチャネルの時間領域表現と組み合わされるべき、または連結されるべき対応する時間領域表現に変換するためのスペクトル時間変換器(たとえば、信号修正器250)も含み得る。発生したコンフォートノイズの時間領域信号へのこの変換は、図2の信号修正器ブロック250の後に起こる。「組み合わせまたは連結」の部分は、基本的に、これらのCNG技術の1つを採用する非アクティブフレームの前または後に、アクティブフレーム(図1の他の処理経路)もあり得、ギャップまたは可聴クリック音などのない連続出力を生成するために、フレームは正しく連結される必要があることを意味している。
【0175】
いくつかの例では、
アクティブフレーム(306)に対するエンコード済みオーディオ信号(232)は、第1の数の周波数ビンを記述する第1の複数の係数を有し、
非アクティブフレーム(308)に対するエンコード済みオーディオ信号(232)は、第2の数の周波数ビンを記述する第2の複数の係数を有する。
【0176】
周波数ビンの第1の数は、周波数ビンの第2の数よりも大きいものとしてよい。
【0177】
デコーダの例はどれも、好適なコントローラによって制御され得る。
【0178】
処理ステップ:第1のバージョン
2つのチャネルに対する2つのSIDフレームで符号化されるノイズパラメータは、LP-CNGまたはFD-CNGまたはその両方など、EVS[6]と同様に計算される。デコーダにおけるノイズエネルギーの整形も、LP-CNG、FD-CNG、またはその両方などの、EVSと同じである。
【0179】
エンコーダでは、それに加えて、2つのチャネルのコヒーレンスが計算され、4ビットを使用して一様に量子化され、ビットストリーム232で送信される。デコーダにおいて、CNG動作は、次いで、伝送済みコヒーレンス値404によって制御され得る。図3A図3Fに示されているように、3つのガウスノイズソースN1、N2、N3(211a、212a、213a、211b、212b、213b、211c、212c、213c、211d、212d、213d、211e、212e、213e)が使用され得る。チャネルコヒーレンスが高いときに、主に相関ノイズが両方のチャネル221'および223'に加えられてよく、コヒーレンス404が低い場合にはより無相関のノイズが加えられ得る。
【0180】
すべての非アクティブフレーム306について、コンフォートノイズ発生のためのパラメータ(ノイズパラメータ)は、エンコーダ(たとえば300、300a、300b)において常に推定され得る。これは、たとえば、パラメトリックノイズデータとしても説明される、ノイズパラメータ(たとえば401、403)の2つのセットを計算するために、両方の入力チャネル(たとえば301、303)上で別々にたとえば[6]で記述されているような周波数領域ノイズ推定アルゴリズム(たとえば[8])を適用することによって行われ得る。それに加えて、2つのチャネルのコヒーレンス(c、404)は、次のように(たとえばコヒーレンス計算器320において)計算され得る。2つの入力チャネルL、R∈CM(L、Rは301、303であってもよい)のM点DFT-スペクトルが与えられた場合に、4つの中間値が、たとえば、
【0181】
【数1】
【0182】
【数2】
【0183】
のように計算されてよく、
2つのチャネルのエネルギーは、
【0184】
【数3】
【0185】
【数4】
【0186】
である。
【0187】
ここで、M=256としてよく、R{・}は複素数の実部を表し、I{・}は複素数の虚部を表し、{・}*は複素共役を表す。次いで、これらの中間値は、たとえば、前のフレームの対応する値
【0188】
【数5】
【0189】
【数6】
【0190】
【数7】
【0191】
【数8】
【0192】
を使用して平滑化され得る。
【0193】
この一節は、エンコーダにおける「チャネルコヒーレンス計算」ブロック320'の一部であってもよい。これは、内部パラメータの時間平滑化であり、フレーム間でパラメータが大きく突然跳躍するのを回避するためのものである。言い換えれば、ローパスフィルタは、ここでパラメータに適用される。
【0194】
定数0.95と0.05の代わりに、区間0.95+/-0.03および0.05-/+0.03内の他の定数が使用されてもよい。
【0195】
代替的に、
【0196】
【数9】
【0197】
【数10】
【0198】
【数11】
【0199】
【数12】
【0200】
を定義することが可能である。
【0201】
ただし、β、γ∈[0,1]およびβ+γ=1であり、たとえば、β=0.95およびγ=0.05である。
【0202】
次に、コヒーレンス(c,404)((0と1の間であってもよい)は、(たとえば、コヒーレンス計算器(320)において)
【0203】
【数13】
【0204】
のように計算され、
(たとえば、量子化器320"において)たとえば4ビットを使用して
cind=0,min(15,floor(15×c+0.5))
のように一様量子化され得る。
【0205】
両方のチャネルに対する推定ノイズパラメータ1312、2312のエンコーディングは、たとえば[6]において指定されているように別々に行われ得る。次いで、2つのSIDフレーム241、243がエンコードされ、デコーダに送信され得る。第1のSIDフレーム241は、たとえば[6]において説明されているように、チャネルLの推定ノイズパラメータ401および(たとえば4)ビットのサイド情報402を含み得る。第2のSIDフレーム243では、チャネルRのノイズパラメータ403が、4ビット量子化コヒーレンス値c、404(異なる例では異なるビット数が選択されてもよい)とともに送信され得る。
【0206】
デコーダ(たとえば200'、200a、200b)において、SIDフレームのノイズパラメータ(401、403)および第1のフレームのサイド情報402の両方が、たとえば[6]において説明されているように、デコードされ得る。第2のフレーム内のコヒーレンス値404は、ステージ212-Cにおいて、
【0207】
【数14】
【0208】
のように逆量子化され得る(図2において、
【0209】
【数15】
【0210】
はcqで置き換えられる)。
【0211】
コンフォートノイズ発生のために(たとえば、発生器220または図3A図3Eのいずれかのうちの1つを含み得る、発生器220a~220eのいずれかにおいて)、一例によれば、図3に示されているように、3つのガウスノイズソース211、212、213が使用され得る。ノイズソース211、212、213は、たとえばコヒーレンス値(c、404)に基づき(たとえば加算器ステージ206-1および206-3において)適応的に足し合わされ得る。左および右チャネルノイズ信号Nl[k]、Nr[k]のDFTスペクトルは、
【0212】
【数16】
【0213】
【数17】
【0214】
のように計算されるものとしてよく、
ただし、k∈{0,1,…,M-1}(特定の周波数ビンのインデックスであり、各チャネルはM個の周波数ビンを有する)であり、j2=-1(すなわち、j虚数単位である)、「×」は通常の乗算である。ここで、「周波数ビン」は、スペクトルNl、Nrに含まれる複素数値の数をそれぞれ指す。Mは使用されるFFTまたはDFTの変換長であり、したがってスペクトルの長さはMである。実部に挿入されたノイズおよび虚部に挿入されたノイズは異なり得ることに留意されたい。したがって、Mのスペクトル長について、われわれは、各ノイズソースから生成される2×M個の値(1つの実数部と1つの虚数部)を必要とする。または、言い換えると、NlおよびNrは、長さMの複素値ベクトルであり、N1、N2、およびN3は、長さ2×Mの実数値ベクトルである。
【0215】
その後、2つのチャネルにおけるノイズ信号204は、それぞれのSIDフレームからデコードされたそれらの対応するノイズパラメータ(2312)を使用して(たとえば図2のステージ250-L、250-R内で)スペクトル整形され、その後、周波数領域のコンフォートノイズ発生のために時間領域に(たとえば[6]において説明されているように)変換して戻される。
【0216】
処理の例はどれも、好適なコントローラによって実行され得る。
【0217】
処理ステップ:第2のバージョン
上で説明されているような処理ステップの態様は、以下の態様の少なくとも1つと統合され得る。ここで、主に図2および図5を参照しているが、図4を参照することも可能である。
【0218】
エンコーダの汎用フレームワークのブロック図が図1に描かれている。エンコーダにおける各フレームについて、[6]において説明されているように、各チャネルに対して個別にVADを実行することによって、現在の信号をアクティブまたは非アクティブのいずれかに分類され得る。次いで、VAD判定は、2つのチャネル間で同期され得る。例において、フレームは、両方のチャネルが非アクティブとして分類される場合にのみ非アクティブフレーム308として分類される。そうでない場合、アクティブとして分類され、両方のチャネルは、[10]において説明されているように、バンド毎のM/Sを使用してMDCTベースのシステムにおいて統合符号化される。アクティブフレームから非アクティブフレームに切り替わるときに、信号は、図3に示されているようにSIDエンコーディング経路に入るものとしてよい。
【0219】
コンフォートノイズ発生のためのパラメータ(たとえば、1312、401、403、ql,q、gr,q)(たとえば、ノイズパラメータ)は、アクティブおよび非アクティブフレーム(306、308)の両方に対してエンコーダ(たとえば300、300a、300b)において常に推定され得る。これは、たとえば、[8]で説明されているような、および/または[6]で説明されているような周波数領域ノイズ推定プロセスを、たとえば、両方の入力チャネル301、303上で別々に適用し、各チャネルについてたとえば対数領域内のスペクトルノイズ形状(Mi401および/またはIsまたは403)を含むノイズパラメータの2つのセットを計算することによって行われ得る。
【0220】
それに加えて、2つのチャネルのコヒーレンス(404、c)は、次のように(たとえばコヒーレンス計算器320において)計算され得る。2つの入力チャネルL,R∈CMのM点DFTスペクトルが与えられた場合に、4つの中間値が、
【0221】
【数18】
【0222】
【数19】
【0223】
のように計算されるものとしてよく、
2つのチャネルのエネルギーは、
【0224】
【数20】
【0225】
【数21】
【0226】
である。
【0227】
ここで、M=256としてよく(Mに対する他の値が使用されてもよい)、R{・}は複素数の実部を表し、I{・}は複素数の虚部を表し、{・}*は複素共役を表す。次いで、これらの中間値は、10msサブフレーム単位で平滑化される。{・}previousは前のサブフレームからの対応する値を表すとすると、平滑化済み値は
【0228】
【数22】
【0229】
【数23】
【0230】
【数24】
【0231】
【数25】
【0232】
として計算され得る。
【0233】
定数0.95と0.05の代わりに、区間0.95+/-0.03および0.05-/+0.03内の他の定数が使用されてもよい。
【0234】
代替的に、
【0235】
【数26】
【0236】
【数27】
【0237】
【数28】
【0238】
【数29】
【0239】
を定義することが可能である。
【0240】
ただし、β、γ∈[0,1]およびβ+γ=1であり、たとえば、β=0.95およびγ=0.05である(β>γ、たとえばβ>3×γ、またはβ>6×γ)。
【0241】
コヒーレンスc∈[0,1]は、次いで、(たとえば320'において)
【0242】
【数30】
【0243】
として計算され、
4ビット(ただし異なる数のビットも可能である)を使用して
【0244】
【数31】
【0245】
のように(たとえば、320"において)一様量子化されてよく、
|_・_|は最も近い整数で切り捨てること(床関数)を表す。
【0246】
両方のチャネルの推定ノイズ形状のエンコーディングは、一緒に行うことができる。左(vl)および右(vr)チャネルのノイズ形状から、異なるチャネルが(たとえば、線形結合を通じて)取得され、ミッドチャネル(vm)ノイズ形状およびサイドチャネル(vs)ノイズ形状などが(たとえば、ブロック314で)
【0247】
【数32】
【0248】
【数33】
【0249】
のように計算されるものとしてよく、
Nは、たとえば周波数領域におけるノイズ形状ベクトルの長さ(たとえば、各非アクティブフレーム308に対する)を表す。Nは、17と24との間にあるものとしてよい、たとえばEVS[6]で推定されるような、ノイズ形状ベクトルの長さを表す。ノイズ形状ベクトルは、入力フレームにおけるノイズのスペクトル包絡線のよりコンパクトな表現として見なすことができる。または、より抽象的に、N個のパラメータを使用するノイズ信号のパラメトリックスペクトル記述である。Nは、FFTまたはDFTの変換長には関係しない。
【0250】
次いで、これらのノイズ形状は、(たとえばステージ316で)正規化され、および/または量子化され得る。たとえば、これらは、たとえば多段ベクトル量子化器(MSVQ)を使用して、(たとえばステージ318において)ベクトル量子化され得る(一例は、[6、442頁]において説明されている)。
【0251】
ステージ318でvm形状を量子化する(vm,ind401を取得する)ために使用されるMSVQは、たとえば[6]においてモノラルチャネルのために実装されているように、たとえば、6ステージ(ただし、別のステージ数も可能である)を有し、および/または37ビット(ただし、別のビット数が可能である)を使用し得るが、ステージ318でvs形状を量子化する(vs,ind 403を取得する)ために使用されるMSVQは、4ステージ(またはいかなる場合もステージ318で使用されるステージの数より少ないステージの数)に減らされており、および/または合計で25ビット(またはいかなる場合も形状vmを符号化するためにステージ318で使用されるビットの数よりも少ないビットの数)を使用し得る。
【0252】
MSVQのコードブックインデックスは、ビットストリームで(たとえばデータ232で、より詳細にはコンフォートノイズパラメータデータ401、403で)伝送され得る。次いで、インデックスは、逆量子化され、その結果、逆量子化済みノイズ形状vm,qおよびvm,qが得られる。
【0253】
バックグラウンドノイズがステレオイメージの中心の単一のノイズソースである場合、両方のチャネルの推定ノイズ形状vm,vsは、非常によく似ているか、または等しいことすら、期待される。次いで、結果として得られるSチャネルノイズ形状はゼロだけを含むことになる。しかしながら、vs現在実装形態を量子化するために使用されるベクトル量子化器(ステージ322)は、すべてゼロベクトルをモデル化することができず、逆量子化後に、結果として逆量子化済みvsノイズ形状(vs,q)がもはやすべてゼロでなくなり得るようなものであり得る。これは、そのような中心バックグラウンドノイズを表現すること関わる知覚的問題を引き起こし得る。VQ322のこの欠点を回避するために、未量子化vs形状ベクトルのエネルギー(たとえば、ステージ314の後および/またはステージ316の前のvsノイズ形状ベクトルのエネルギー)に応じて、no_side値(no_sideフラグ)が計算され得る(また、ビットストリームでシグナリングされることもあり得る)。no_sideフラグは、
【0254】
【数34】
【0255】
であってよい。
【0256】
エネルギー閾値αは、一例を挙げると、0.1または区間[0.05,0.15]内の別の値とすることが可能である。しかしながら、閾値αは任意であり、一実装形態では、使用される数値形式(たとえば、固定小数点または浮動小数点)および/または場合によっては使用される信号正規化に依存し得る。例では、「無音」Sチャネルの採用された定義がどれほど厳しいかに応じて正の実数値が使用され得る。したがって、区間は(0、1)であってもよい。no_side値は、vlおよびvrチャネルノイズ形状を(たとえば、デコーダで)再構成するためにvsノイズ形状が使用されるべきかどうかを指示するために使用され得る。no_sideが1である場合、逆量子化済みvs形状はゼロに設定される(たとえば、論理値NOT(no_side)である、図2の436'の値によってチャネルvs,qをスケーリングすることによって)。no_sideはビットストリーム232において、たとえばサイド情報402として伝送(シグナリング)される。その後、逆M/S変換(たとえば、ステージ324)が、逆量子化済みノイズ形状ベクトルvm,qおよびvs,q(後者は、エネルギーが低い場合に、たとえば0で置換され、したがって図2では437'で指示される)に適用されて、中間ベクトルv'lおよびv'r
【0257】
【数35】
【0258】
【数36】
【0259】
のように取得し得る。
【0260】
これらの中間ベクトルv'lおよびv'r、ならびに未量子化ノイズ形状ベクトルvlとvrを使用して、2つの利得値が
【0261】
【数37】
【0262】
【数38】
【0263】
のように計算される。
【0264】
次いで、2つの利得値は、(たとえば、ステージ328で)
【0265】
【数39】
【0266】
のように線形量子化され得るが、他の量子化も可能である。
【0267】
量子化済み利得は、SIDビットストリームで(たとえば、コンフォートノイズパラメータデータ401または403の一部として、より詳細にはgl,qは第1のパラメトリックノイズデータの一部であってよく、gr,qは第2のパラメトリックノイズデータの一部であってよい)、たとえば利得値gl,qに対して7ビットおよび/または利得値gr,qに対して7ビット(異なる量も各ゲインのために可能)を使用してエンコードされ得る。
【0268】
デコーダ(たとえば200'、200a、200b)において、量子化済みノイズ形状ベクトル(たとえば、コンフォートノイズパラメータデータ401または403の一部、より詳細には第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの一部)は、たとえばステージ212(特に、サブステージ212-M、212-Sのいずれか)において逆量子化され得る。
【0269】
利得値は、たとえば、ステージ212において(特に、サブステージ212-L、212-Rのいずれかにおいて)、
【0270】
【数40】
【0271】
【数41】
【0272】
のように逆量子化され得る(値45は量子化に依存し、異なる量子化では異なり得る)。(図2では、gl,deq、gr,deqの代わりにgl,d、gr,dが使用されている)。
【0273】
コヒーレンス値404は、
cq=15×cind
のように(たとえば、ステージ212-Cにおいて)逆量子化され得る。
【0274】
no_sideフラグ(サイド情報402内の)が1である場合、中間ベクトルv'lおよびv'rを計算する前に(たとえばステージ516で)、逆量子化済みvs形状vs,qはゼロに設定される(値537')。次に、対応する利得値は、対応する中間ベクトルのすべての要素に加算され、522で複合的に指示される逆量子化済みノイズ形状vl,qおよびvr,q
【0275】
【数42】
【0276】
【数43】
【0277】
のように生成する(加算は、われわれが対数領域内にいるので行うのであり、線形領域では係数との乗算に対応する)。
【0278】
コンフォートノイズ発生については、3つのガウスノイズソースN1、N2、N3(たとえば、図3Aの211a、212a、213a、図3Bの211b、212b、212cなど)が図3A図3Fのいずれかに示されているように使用され得る(かまたは他の技術のうちのいずれかが使用され得る)。チャネルコヒーレンスが高いときに、主に相関ノイズが両方のチャネルに加えられ、コヒーレンスが低い場合にはより無相関のノイズが加えられる。
【0279】
3つのノイズソースを使用することで、左チャネルおよび右チャネルのノイズ信号Nl(201)およびNr(203)のDFTスペクトルは、
【0280】
【数44】
【0281】
【数45】
【0282】
のように計算されるものとしてよく、
ただしk∈{0,1,_,M-1}およびj2=-1である。ここで、MはDFTのブロック長を表す。複素スペクトルの実部と虚部の両方で独立したノイズを発生するために、1フレームあたり2×M個の値(1つの周波数ビンに対して2つ)が各ノイズソースによって生成される必要がある。したがって、N1、N2、N3(図3Fのそれぞれ211、212、213における)は、2×Mの長さを有する実数値ノイズベクトルとみなすことができ、NrおよびNk(それぞれ201、203における)は長さMの複素数値ベクトルである。
【0283】
その後、2つのチャネルにおけるノイズ信号は、ビットストリーム232からデコードされたそれらの対応するノイズ形状(vl,qまたはvr,q)を使用して(たとえば信号修正器252において)スペクトル整形され、その後、たとえば[6]において説明されているように対数領域からスカラー領域へ、周波数領域から時間領域へ変換されて戻され、立体音響コンフォートノイズ信号を発生し得る。
【0284】
処理の例はどれも、好適なコントローラによって実行され得る。
【0285】
いくつかの利点
本発明は、離散ステレオ符号化スキームに特に適しているステレオコンフォートノイズ発生のための技術を提供し得る。両方のチャネルに対するノイズ形状パラメータを統合符号化し伝送することによって、ステレオCNGは、モノラルダウンミックスを必要とせずに、適用され得る。
【0286】
ノイズパラメータの2つの個別のセットと合わせて、1つの単一コヒーレンス値によって制御される1つの共通ノイズソースと2つの個別ノイズソースとを混合することが、典型的にはパラメトリックオーディオコーダーにのみ存在する細粒度ステレオパラメータを伝送することを必要とせずに、バックグラウンドノイズのステレオイメージを忠実に再構成することを可能にする。この1つのパラメータのみが採用されているので、SIDのエンコーディングは、高度な圧縮方法を必要とすることなく、SIDフレームサイズを小さく保ちながら容易である。
【0287】
いくつかの重要な態様:
いくつかの例において、次の態様のうちの少なくとも1つが取得される。
1.各チャネルに1つずつある3つのガウスノイズソースと第3の共通ノイズソースとを混合して相関バックグラウンドノイズを生成することによって立体音響信号に対するコンフォートノイズを発生する態様。
2.SIDフレームとともに伝送されるコヒーレンス値を用いてノイズソースの混合を制御する態様。
3.ノイズ形状をM/S方式で統合符号化することによって両方のステレオチャネルに対する個別のノイズ形状パラメータを伝送する態様。Mよりも少ないビット数でS形状を符号化することによってSIDフレームビットレートを下げる。
【0288】
他の技術
第1のチャネルと第2のチャネルとを有する多チャネル信号を発生する方法を実装することも可能であり、これは
第1のオーディオソースを使用して第1のオーディオ信号を発生することと、
第2のオーディオソースを使用して第2のオーディオ信号を発生することと、
ミキシングノイズソースを使用してミキシングノイズ信号を発生することと、
ミキシングノイズ信号と第1のオーディオ信号とを混合して第1のチャネルを取得し、ミキシングノイズ信号と第2のオーディオ信号とを混合して第2のチャネルを取得することとを含む。
【0289】
アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーディングの方法を実装することも可能であり、この方法は
多チャネル信号を解析してフレームのシーケンスのうちの1つのフレームを非アクティブフレームであると決定することと、
多チャネル信号の第1のチャネルに対する第1のパラメトリックノイズデータを計算し、多チャネル信号の第2のチャネルに対する第2のパラメトリックノイズデータを計算することと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータを計算することと、
アクティブフレームに対するエンコード済みオーディオデータと、非アクティブフレームについては、第1のパラメトリックノイズデータ、第2のパラメトリックノイズデータ、およびコヒーレンスデータを有するエンコード済み多チャネルオーディオ信号とを発生することとを含む。
【0290】
本発明は、また、コンピュータ(またはプロセッサ、またはコントローラ)によって実行されたときに、コンピュータ(またはプロセッサ、またはコントローラ)に上記の方法を実行させる命令を記憶する非一時的記憶ユニットで実装され得る。
【0291】
本発明は、また、フレームのシーケンスに編成された多チャネルオーディオ信号で実装されるものとしてよく、フレームのシーケンスはアクティブフレームと非アクティブフレームとを含み、エンコード済み多チャネルオーディオ信号は、
アクティブフレームに対するエンコード済みオーディオデータと、
非アクティブフレームにおける第1のチャネルに対する第1のパラメトリックノイズデータと、
非アクティブフレームにおける第2のチャネルに対する第2のパラメトリックノイズデータと、
非アクティブフレームにおける第1のチャネルと第2のチャネルとの間のコヒーレンス状況を指示するコヒーレンスデータと含む。多チャネルオーディオ信号は、上におよび/または下に開示されている技術のうちの1つで取得され得る。
【0292】
実施形態の利点
最終的なコンフォートノイズを発生するための相関ノイズを模倣するために2つのチャネルに共通ノイズソースを挿入することは、立体音響バックグラウンドノイズ記録の模倣に対して重要な役割を果たす。
【0293】
本発明の実施形態は、各チャネルに1つずつある3つのガウスノイズソースと第3の共通ノイズソースとを混合して相関バックグラウンドノイズを生成することによって立体音響信号に対するコンフォートノイズを発生する手順、またはそれに加えてもしくは別々に、SIDフレームとともに伝送されるコヒーレンス値でノイズソースの混合を制御する手順、またはそれに加えてもしくは別々に、次のような手順として考えられ得る。ステレオシステムにおいて、バックグラウンドノイズを別々に発生すると、アクティブモードのバックグラウンドに/アクティブモードのバックグラウンドからDTXモードのバックグラウンドに切り替えるときに突然の可聴遷移を引き起こす実際のバックグラウンドノイズと非常に異なる、不快な音である、完全に無相関にされたノイズを発生する。一実施形態において、エンコーダ側で、ノイズパラメータに加えて、2つのチャネルのコヒーレンスが計算され、一様量子化され、SIDフレームに加えられる。デコーダにおいて、CNG動作は、次いで、伝送済みコヒーレンス値によって制御される。3つのガウスノイズソースN_1、N_2、N_3が使用され、チャネルコヒーレンスが高いときに、主に相関ノイズが両方のチャネルに加えられ、コヒーレンスが低い場合にはより無相関のノイズが加えられる。
【0294】
前に説明されたようなすべての代替的形態または態様、および次の請求項のうちの独立請求項によって定義されるようなすべての態様は、個別に、すなわち企図された代替的形態、目的、または独立請求項以外の他の代替的形態または目的なしに使用できることに言及されるべきである。しかしながら、他の実施形態では、代替的形態または態様または独立請求項のうちの2つまたはそれ以上は、互いに組み合わされてよく、他の実施形態では、すべての態様、または代替的形態およびすべての独立請求項は互いに組み合わされ得る。
【0295】
本発明によるエンコード済み信号は、デジタル記憶媒体または非一時的記憶媒体に記憶され得るか、またはインターネットなどのワイヤレス伝送媒体もしくは有線伝送媒体などの伝送媒体上で伝送され得る。
【0296】
いくつかの態様は装置の文脈内で説明されているけれども、これらの態様は対応する方法の説明にもなっており、ブロックまたは装置は方法ステップまたは方法ステップの特徴に対応することは明らかである。それと同様に、方法ステップの文脈内において説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明ともなっている。
【0297】
いくつかの実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装形態は、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムと連携する(または連携することができる)、電子的に読み取り可能な制御信号が記憶される、デジタル記憶媒体、たとえば、フロッピィディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行され得る。
【0298】
本発明によるいくつかの実施形態は、本明細書で説明されている方法の内の1つが実行されるようなプログラム可能なコンピュータシステムと連携することができる、電子的に読み取り可能な制御信号を収めたデータキャリアを含む。
【0299】
一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装することができ、プログラムコードはコンピュータプログラム製品がコンピュータ上で稼働するときに方法のうちの1つを実行するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶され得る。
【0300】
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体上に記憶されている、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0301】
したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で稼動しているときに、本明細書で説明されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0302】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムが記録されるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
【0303】
したがって、発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、データ通信接続、たとえばインターネットを介して、転送されるように構成され得る。
【0304】
さらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するように構成されるか、または適合される処理手段、たとえば、コンピュータ、またはプログラム可能な論理デバイスを含む。
【0305】
さらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0306】
いくつかの実施形態において、プログラム可能な論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)は、本明細書で説明されている方法の機能うちのいくつかまたはすべてを実行するために使用されてよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書で説明されている方法のうちの1つを実行するためにマイクロプロセッサと連携し得る。一般的に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
【0307】
上で説明されている実施形態は、単に、本発明の原理について例示しているだけである。本明細書で説明されている配置構成および詳細の修正および変更は、当業者には明らかであることは理解される。したがって、次に示す特許請求項の範囲によってのみ制限され、本明細書の実施形態の記述および説明を用いて提示されている具体的詳細によって制限されないことが意図されている。
【0308】
参考文献
【符号の説明】
【0309】
200 多チャネル信号発生器
200' デコーダ
200a、200b(200') デコーダ
201 第1のチャネル
203 第2のチャネル
204 多チャネル信号
206-1および206-3 加算器ステージ
208-1、208-2、208-3 振幅要素
210 入力インターフェース
211 第1のオーディオソース
211a 第1のソース
211b 第1のオーディオソース
211c 第1のオーディオソース
212 ミキシングノイズソース
211dまたは211e 第1のオーディオソース
212a ミキシングノイズソース
212b ミキシングノイズソース
212c ミキシングノイズソース
212dまたは212e ミキシングノイズソース
212-C ステージ
212-M ステージ
212-S ステージ
213 第2のオーディオソース
213a 第2のソース
213b 第2のオーディオソース
213c 第2のオーディオソース
213dまたは213e 第2のオーディオソース
220 コンフォートノイズ発生器(CNG)
220a CNG
220b CNG
220c CNG
220d CNG
221および223 オーディオ信号
221' 重み付けバージョン
221a バージョン
222 ミキシングノイズ信号
222' 重み付けバージョン
223 第2のオーディオ信号
223' 重み付けバージョン
232 エンコード済み多チャネルオーディオ信号
241および/または243 SIDフレーム
250 信号修正器
250-L、250-R ステージ
252 ノイズ
300、300aおよび300b エンコーダ
301 第1のチャネル
302 元の入力信号
303 第2のチャネル
304 入力信号
304-1 第1のノイズパラメータ計算器ステージ
304-3 第2のノイズパラメータ計算器ステージ
306 アクティブフレーム
306a 離散ステレオ処理
306b ステレオ間欠伝送処理(ステレオDTX)
308 非アクティブフレーム
310 出力インターフェース
312 ノイズ形状取得ブロック
314 L/R-M/S変換器
316 ステージ
318 量子化ステージ(たとえばベクトル量子化、VQ)
320 コヒーレンス計算器
320' チャネルコヒーレンス計算ステージ
320" 一様量子化器ステージ
322 逆量子化段階
324 M/S-L/R変換器
326 ステージ
328 量子化ステージ
360 前処理ステージ
370 スペクトル分析ステージ
370-1 第1のスペクトル分析
370-3 第2のステージ
380 アクティビティ検出ステージ
380-1 第1のアクティビティ検出ステージ
380-3 第2のアクティビティ検出ステージ
381 判定
381' スイッチ
401、403 パラメトリックノイズデータ
402 「コンフォートノイズ発生サイド情報」
404、c 制御パラメータ
436' 出力
437' 出力
516 M/S-L/Rステージ
518 利得ステージ
518-L ステージ
518-R ステージ
536' フラグ
537' 出力
1312 低分解能パラメトリック表現
2120 ステージ
2312 ノイズパラメータ
3040 ノイズパラメータ計算器
図1
図2
図3A
図3B
図3C
図3D
図3E
図3F
図4
図5
図6
【手続補正書】
【提出日】2023-04-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1のチャネル(201)および第2のチャネル(203)を有する多チャネル信号(204)を発生するための多チャネル信号発生器(200)であって、
第1のオーディオ信号(221)を発生するための第1のオーディオソース(211)と、
第2のオーディオ信号(223)を発生するための第2のオーディオソース(213)と、
ミキシングノイズ信号(222)を発生するためのミキシングノイズソース(212)と、
前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)と前記第2のオーディオ信号(222)とを混合して前記第2のチャネル(203)を取得するためのミキサー(206)とを備え、
前記ミキサー(206)は、
前記第1のオーディオ信号(221)の振幅に影響を及ぼすための第1の振幅要素(208-1)と、
前記第1の振幅要素の出力信号(221)と前記ミキシングノイズ信号(222)の少なくとも一部とを加算するための第1の加算器(206-1)と、
前記第2のオーディオ信号(223)の振幅に影響を及ぼすための第2の振幅要素(208-3)と、
前記第2の振幅要素(208-3)の出力(223)と前記ミキシングノイズ信号(222)の少なくとも一部とを加算するための第2の加算器(206-3)とを備え、
前記第1の振幅要素(208-1)によって実行される影響作用の量および前記第2の振幅要素(208-3)によって実行される影響作用の量は互いに等しいか、または前記第2の振幅要素(208-3)によって実行される影響作用の前記量は前記第1の振幅要素(208-1)によって実行される影響作用の前記量の20%未満だけ異なり、
前記ミキサー(206)は、前記ミキシングノイズ信号(222)の振幅に影響を及ぼすための第3の振幅要素(208-2)を備え、
前記第3の振幅要素(208-2)によって実行される影響作用の量は、前記第1の振幅要素(208-1)または前記第2の振幅要素(208-3)によって実行される影響作用の前記量に依存し、それにより、前記第3の振幅要素(208-2)によって実行される影響作用の前記量は、前記第1の振幅要素によって実行される影響作用の前記量または前記第2の振幅要素(208-3)によって実行される影響作用の前記量が小さくなるときに大きくなる多チャネル信号発生器(200)。
【請求項2】
前記第1のオーディオソース(211)は第1のノイズソースであり、前記第1のオーディオ信号(221)は第1のノイズ信号であり、および/または前記第2のオーディオソース(213)は第2のノイズソースであり、前記第2のオーディオ信号(223)は第2のノイズ信号であり、
前記第1のノイズソース(211)および/または前記第2のノイズソース(213)は、前記第1のノイズ信号(221)および/または前記第2のノイズ信号(223)が前記ミキシングノイズ信号(222)から非相関にされるように前記第1のノイズ信号(221)および/または前記第2のノイズ信号(223)を発生するように構成される請求項1に記載のチャネル信号発生器。
【請求項3】
前記ミキサー(206)は、前記第1のチャネル(201)における前記ミキシングノイズ信号(222)の量が前記第2のチャネル(203)における前記ミキシングノイズ信号(222)の量に等しいか、または前記第2のチャネル(203)における前記ミキシングノイズ信号(222)の量の80パーセントから120パーセントの範囲内にあるように前記第1のチャネル(201)および前記第2のチャネル(203)を生成するように構成される請求項1または2に記載の多チャネル信号発生器。
【請求項4】
前記ミキサー(206)は、制御パラメータ(404、c)を受け取るための制御入力を備え、前記ミキサー(206)は、前記制御パラメータ(404、c)に応答して前記第1のチャネル(201)および前記第2のチャネル(203)における前記ミキシングノイズ信号(222)の量を制御するように構成される請求項1から3のいずれか一項に記載の多チャネル信号発生器。
【請求項5】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)の各々は、ガウスノイズソースである請求項1から4のいずれか一項に記載の多チャネル信号発生器。
【請求項6】
前記第1のオーディオソース(211)は、前記第1のオーディオ信号(221)を第1のノイズ信号として発生するための第1のノイズ発生器を備え、前記第2のオーディオソース(213)は、第2のノイズ信号として前記第2のオーディオ信号(213)を発生するために前記第1のノイズ信号(221)を非相関にするための非相関器を備え、前記ミキシングノイズソース(212)は、第2のノイズ発生器を備える請求項1から5のいずれか一項に記載の多チャネル信号発生器。
【請求項7】
前記第1のオーディオソース(211)は、第1のノイズ信号として前記第1のオーディオ信号(221)を発生するための第1のノイズ発生器(211)を備え、前記第2のオーディオソース(213)は、第2のノイズ信号として前記第2のオーディオ信号(223)を発生するための第2のノイズ発生器(213)を備え、前記ミキシングノイズソース(212)は、前記ミキシングノイズ信号(222)を発生するために前記第1のノイズ信号(221)または前記第2のノイズ信号(223)を非相関にするための非相関器を備える請求項1から5のいずれか一項に記載の多チャネル信号発生器。
【請求項8】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの1つは、ノイズ信号を発生するためのノイズ発生器を備え、前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの別の1つは、前記ノイズ信号を非相関にするための第1の非相関器を備え、前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちのさらなる1つは、前記ノイズ信号を非相関にするための第2の非相関器を備え、前記第1の非相関器および前記第2の非相関器は、前記第1の非相関器および前記第2の非相関器の出力信号が互いに非相関になるように互いに異なる請求項1から5のいずれか一項に記載の多チャネル信号発生器。
【請求項9】
前記第1のオーディオソース(211)は、第1のノイズ発生器を備え、前記第2のオーディオソース(213)は、第2のノイズ発生器を備え、前記ミキシングノイズソース(212)は、第3のノイズ発生器を備え、前記第1のノイズ発生器、前記第2のノイズ発生器、および前記第3のノイズ発生器は、相互に非相関にされたノイズ信号を発生するように構成される請求項1から5のいずれか一項に記載の多チャネル信号発生器。
【請求項10】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうち1つは、シードに応答して擬似乱数列を生成するように構成されている擬似乱数列生成器を備え、前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの少なくとも2つは、異なるシードを使用して前記擬似乱数列生成器を初期化するように構成される請求項1から9のいずれか一項に記載の多チャネル信号発生器。
【請求項11】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの少なくとも1つは、事前記憶済みノイズテーブルを使用して動作するように構成される請求項1から6のいずれか一項に記載の多チャネル信号発生器。
【請求項12】
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、および前記ミキシングノイズソース(212)のうちの少なくとも1つは、実部に対する第1のノイズ値および虚部に対する第2のノイズ値を使用してフレームに対する複素スペクトルを生成するように構成される請求項1から6のいずれか一項に記載の多チャネル信号発生器。
【請求項13】
少なくとも1つのノイズ発生器は、前記実部および前記虚部の一方に対して、インデックスkにおける第1の乱数値を使用し、前記実部および前記虚部の他方に対して、インデックス(k+M)における第2の乱数値を使用して周波数ビンkに対する複素ノイズスペクトル値を生成するように構成され、前記第1のノイズ値および前記第2のノイズ値は、たとえば、乱数列発生器またはノイズテーブルまたはノイズプロセスから導出される、開始インデックスから終了インデックスまでの範囲を有するノイズ配列に含まれ、前記開始インデックスはM未満であり、前記終了インデックスは2M以下であり、Mおよびkは整数値である請求項11または12に記載の多チャネル信号発生器。
【請求項14】
前記第3の振幅要素(208-2)によって実行される影響作用の前記量は、所定の値(cq)の平方根であり、前記第1の振幅要素(208-1)によって実行される影響作用の量および前記第2の振幅要素(208-3)によって実行される影響作用の量は、1と所定の値(cq)との差の平方根である請求項1から13のいずれか一項に記載の多チャネル信号発生器。
【請求項15】
アクティブフレーム(306)と前記アクティブフレーム(306)に続く非アクティブフレーム(308)とを含むフレーム(306、308)のシーケンスにおいてエンコード済みオーディオデータ(232)を受信するための入力インターフェース(210)と、
前記アクティブフレーム(306)に対する符号化済みオーディオデータをデコードして前記アクティブフレームに対するデコード済み多チャネル信号を発生するためのオーディオデコーダ(200'、200a、200b)とをさらに備え、
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、前記ミキシングノイズソース(212)、および前記ミキサー(206)は、前記非アクティブフレームに対する前記多チャネル信号(204)を発生するために前記非アクティブフレーム(308)においてアクティブである請求項1から14のいずれか一項に記載の多チャネル信号発生器。
【請求項16】
前記アクティブフレーム(306)に対する前記エンコード済みオーディオデータ(232)は、第1の数の周波数ビンを記述する第1の複数の係数を有し、
前記非アクティブフレーム(308)に対する前記エンコード済みオーディオデータ(232)は、第2の数の周波数ビンを記述する第2の複数の係数を有し、
周波数ビンの前記第1の数は、周波数ビンの前記第2の数よりも大きい請求項15に記載の多チャネル信号発生器。
【請求項17】
第1のチャネル(201)および第2のチャネル(203)を有する多チャネル信号(204)を発生するための多チャネル信号発生器(200)であって、
第1のオーディオ信号(221)を発生するための第1のオーディオソース(211)と、
第2のオーディオ信号(223)を発生するための第2のオーディオソース(213)と、
ミキシングノイズ信号(222)を発生するためのミキシングノイズソース(212)と、
前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)と前記第2のオーディオ信号(222)とを混合して前記第2のチャネル(203)を取得するためのミキサー(206)と、
アクティブフレーム(306)と前記アクティブフレーム(306)に続く非アクティブフレーム(308)とを含むフレーム(306、308)のシーケンスにおいてエンコード済みオーディオデータ(232)を受信するための入力インターフェース(210)と、
前記アクティブフレーム(306)に対する符号化済みオーディオデータをデコードして前記アクティブフレームに対するデコード済み多チャネル信号を発生するためのオーディオデコーダ(200'、200a、200b)とを備え、
前記第1のオーディオソース(211)、前記第2のオーディオソース(213)、前記ミキシングノイズソース(212)、および前記ミキサー(206)は、前記非アクティブフレームに対する前記多チャネル信号(204)を発生するために前記非アクティブフレーム(308)においてアクティブであり、
前記非アクティブフレーム(308)に対する前記エンコード済みオーディオデータ(232)は、前記非アクティブフレームについて、前記2つのチャネル(301、303)の各チャネル、または前記第1および第2のチャネルの第1の線形結合ならびに先記第1および第2のチャネルの第2の線形結合の各々に対する信号エネルギー(1312)を指示し、前記非アクティブフレームにおける前記第1のチャネル(301)と前記第2のチャネル(303)との間のコヒーレンス(404、c)を指示するコンフォートノイズデータ(c、p_noise)を含む無音挿入記述子データ(p_noise、c)を含み、
前記ミキサー(206、220)は、前記コヒーレンス(404、c)を指示する前記コンフォートノイズデータに基づき前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)または前記第2のオーディオ信号(223)とを混合する(206-1、206-3)ように構成され、
前記多チャネル信号発生器(200、220、220a~220e)は、前記第1のチャネル(201)および前記第2のチャネル(203)、または前記第1のオーディオ信号(221)もしくは前記第2のオーディオ信号(223)、または前記ミキシングノイズ信号(222)を修正するための信号修正器(250)をさらに備え、
前記信号修正器(250)は、前記第1のオーディオチャネル(301)および前記第2のオーディオチャネル(303)に対する信号エネルギーを指示する、または前記第1および第2のチャネルの第1の線形結合ならびに前記第1および第2のチャネルの第2の線形結合に対する信号エネルギーを指示するコンフォートノイズデータ(p_noise)によって制御されるように構成される多チャネル信号発生器(200)。
【請求項18】
前記非アクティブフレームに対する前記オーディオデータ(232)は、
前記第1のチャネル(201)に対する第1の無音挿入記述子フレーム(241)と前記第2のチャネル(203)に対する第2の無音挿入記述子フレーム(243)とを含み、前記第1の無音挿入記述子フレーム(241)は、
前記第1のチャネル(201)に対する、および/または前記第1のチャネルと前記第2のチャネルとの第1の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
前記第1のチャネルおよび前記第2のチャネル(203)に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、
前記第2の無音挿入記述子フレーム(243)は、
前記第2のチャネル(203)に対する、および/または前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含み、
前記多チャネル信号発生器は前記非アクティブフレームにおける前記多チャネル信号(204)の発生を制御するためのコントローラを備え、前記第1の無音挿入記述子フレーム(241)に対する前記コンフォートノイズ発生サイド情報(p_frame)を使用して前記第1のチャネル(201)および前記第2のチャネル(203)に対する、ならびに/または前記第1のチャネルと前記第2のチャネルとの第1の線形結合および前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生モードを決定し、前記第2の無音挿入記述子フレーム(243)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記第1の無音挿入記述子フレーム(241)からの前記コンフォートノイズパラメータデータ(p_noise)を使用し、前記第2の無音挿入記述子フレーム(243)からの前記コンフォートノイズパラメータデータ(p_noise)を使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項15から17のいずれか一項に記載の多チャネル信号発生器。
【請求項19】
前記非アクティブフレームに対する前記オーディオデータ(232)は、
前記第1のチャネルと前記第2のチャネルとの第1の線形結合および前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対する少なくとも1つの無音挿入部記述子フレーム(241)を含み、
前記少なくとも1つの無音挿入記述子フレーム(241)は、
前記第1のチャネルと前記第2のチャネルとの前記第1の線形結合に対するコンフォートノイズパラメータデータ(p_noise)と、
前記第1のチャネルおよび前記第2のチャネルの前記第2の線形結合に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、
前記多チャネル信号発生器は前記非アクティブフレームにおける前記多チャネル信号(204)の発生を制御するためのコントローラを備え、前記第1のチャネルと前記第2のチャネルとの前記第1の線形結合および前記第1のチャネルと前記第2のチャネルとの前記第2の線形結合に対するコンフォートノイズ発生サイド情報(p_frame)を使用し、前記第2の無音挿入記述子フレーム(243)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記少なくとも1つの無音挿入記述子フレーム(241)からの前記コンフォートノイズパラメータデータ(p_noise)を使用し、前記少なくとも1つの無音挿入記述子フレーム(243)からの前記コンフォートノイズパラメータデータ(p_noise)を使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項15から18のいずれか一項に記載の多チャネル信号発生器。
【請求項20】
スペクトル調整され、コヒーレンス調整された、結果として得られる第1のチャネルおよび結果として得られる第2のチャネルを、前記アクティブフレームに対する前記デコード済み多チャネル信号の対応するチャネルの時間領域表現と組み合わされるべき、または連結されるべき対応する時間領域表現に変換するためのスペクトル時間変換器をさらに含む請求項17から19のいずれか一項に記載の多チャネル信号発生器。
【請求項21】
前記非アクティブフレームに対する前記オーディオデータは、
無音挿入記述子フレーム(241、243)を含み、前記無音挿入記述子フレーム(241、243)は、前記第1および第2のチャネル(201、203)に対するコンフォートノイズパラメータデータ(p_noise)と、前記第1のチャネル(203)および前記第2のチャネル(203)に対する、ならびに/または前記第1のチャネルと前記第2のチャネルとの第1の線形結合および前記第1のチャネルと前記第2のチャネルとの第2の線形結合に対するコンフォートノイズ発生サイド情報(p_frame)と、前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含み、
前記多チャネル信号発生器(200)は前記非アクティブフレームにおける前記多チャネル信号(202)の発生を制御するためのコントローラを備え、前記無音挿入記述子フレーム(241、243)に対するコンフォートノイズ発生サイド情報(p_frame)を使用して前記第1のチャネル(201)および前記第2のチャネル(203)に対するコンフォートノイズ発生モードを決定し、前記第2の無音挿入記述子フレーム(241)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記第2の無音挿入記述子フレーム(241、243)からの前記コンフォートノイズパラメータデータ(p_noise)を使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項15から20のいずれか一項に記載の多チャネル信号発生器。
【請求項22】
前記非アクティブフレームに対する前記エンコード済みオーディオデータ(232)は、各チャネルに対する信号エネルギーをミッド/サイド表現で指示するコンフォートノイズデータ(c、p_noise)と、前記第1のチャネルと前記第2のチャネルとの間の前記コヒーレンスを左/右表現で指示するコヒーレンスデータ(404、c)とを含む無音挿入記述子データ(p_noise、c)を含み、前記多チャネル信号発生器は、前記信号エネルギーの前記ミッド/サイド表現を前記第1のチャネル(301)および前記第2のチャネル(303)における前記信号エネルギーの左/右表現に変換するように構成され、
前記ミキサー(206、220)は、前記コヒーレンスデータ(404、c)に基づき前記ミキシングノイズ信号(222)を前記第1のオーディオ信号(221)および前記第2のオーディオ信号(223)に混合して(206-1、206-3)、前記第1のチャネル(201)および前記第2のチャネル(203)を取得するように構成され、
前記多チャネル信号発生器は、前記左/右領域内の前記信号エネルギーに基づき前記第1および第2のチャネル(201、203)を整形することによって前記第1および第2のチャネル(201、203)を修正するように構成されている信号修正器(250)をさらに含む請求項15から21のいずれか一項に記載の多チャネル信号発生器。
【請求項23】
前記オーディオデータが前記サイドチャネルにおける前記エネルギーが所定の閾値よりも小さいことを指示するシグナリングを含む場合に、前記サイドチャネル(vs,q)の前記係数をゼロにする(337)ように構成される請求項22に記載の多チャネル信号発生器。
【請求項24】
前記非アクティブフレームに対する前記オーディオデータは、
少なくとも1つの無音挿入記述子フレーム(241、243)を含み、前記少なくとも1つの無音挿入記述子フレーム(241、243)は、前記ミッドチャネルおよび前記サイドチャネル(vm,q、vs,q)に対するコンフォートノイズパラメータデータ(p_noise、vm,ind、ql,q、qr,q、vs,ind)と、前記ミッドチャネルおよび前記サイドチャネル(vm,q、vs,q)に対するコンフォートノイズ発生サイド情報(p_frame)と、前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含み、前記多チャネル信号発生器(200)は前記非アクティブフレームにおける前記多チャネル信号(202)の発生を制御するためのコントローラを備え、前記無音挿入記述子フレーム(241、243)に対する前記コンフォートノイズ発生サイド情報(p_frame)を使用して前記第1のチャネル(201)および前記第2のチャネル(203)に対するコンフォートノイズ発生モードを決定し、前記無音挿入記述子フレーム(241)内の前記コヒーレンス情報(404、c)を使用して前記非アクティブフレームにおける前記第1のチャネル(201)と前記第2のチャネル(203)との間のコヒーレンス(404、c)を設定し、前記無音挿入記述子フレーム(241、243)からの前記コンフォートノイズパラメータデータ(p_noise)またはその処理済みバージョンを使用して前記第1のチャネル(301)のエネルギー状況(vl,q)および前記第2のチャネル(303)のエネルギー状況(vr,q)を設定する請求項22または23に記載の多チャネル信号発生器。
【請求項25】
前記第1および第2のチャネルに対する前記コンフォートノイズパラメータデータ(401、403)とともにエンコードされた、利得情報(gl,q、qr,q)によって前記第1および第2のチャネルに対する信号エネルギー係数(1312、v'l、v'r)をスケーリングするようにさらに構成される請求項15から24のいずれか一項に記載の多チャネル信号発生器。
【請求項26】
前記発生した多チャネル信号(252)を周波数領域バージョンから時間領域バージョンに変換するように構成される請求項1から25のいずれか一項に記載の多チャネル信号発生器。
【請求項27】
前記第1のオーディオソース(211)は第1のノイズソースであり、前記第1のオーディオ信号(221)は第1のノイズ信号であるか、または前記第2のオーディオソース(213)は第2のノイズソースであり、前記第2のオーディオ信号(223)は第2のノイズ信号であり、
前記第1のノイズソースまたは前記第2のノイズソースは、前記第1のノイズ信号(201)または前記第2のノイズ信号(203)が少なくとも部分的に相関するように前記第1のノイズ信号(201)または前記第2のノイズ信号(203)を発生するように構成され、
前記ミキシングノイズソース(212)は、第1のミキシングノイズ部分(221a)および第2のミキシングノイズ部分(221b)を含む前記ミキシングノイズ信号(222)を発生するように構成され、前記第2のミキシングノイズ部分(221b)は前記第1のミキシングノイズ部分(221b)と少なくとも部分的に非相関にされ、
前記ミキサー(206)は、前記ミキシングノイズ信号(222)の前記第1のミキシングノイズ部分(221a)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)の前記第2のミキシングノイズ部分(221b)と前記第2のオーディオ信号(223)とを混合して前記第2のチャネル(203)を取得するように構成される請求項1から26のいずれか一項に記載のチャネル信号発生器。
【請求項28】
第1のチャネル(201)および第2のチャネル(203)を有する多チャネル信号(204)を発生するための多チャネル信号発生器(200)であって、
第1のオーディオ信号(221)を発生するための第1のオーディオソース(211)と、
第2のオーディオ信号(223)を発生するための第2のオーディオソース(213)と、
ミキシングノイズ信号(222)を発生するためのミキシングノイズソース(212)と、
前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)と前記第2のオーディオ信号(222)とを混合して前記第2のチャネル(203)を取得するためのミキサー(206)とを備え、
前記第1のオーディオソース(211)は第1のノイズソースであり、前記第1のオーディオ信号(221)は第1のノイズ信号であるか、または前記第2のオーディオソース(213)は第2のノイズソースであり、前記第2のオーディオ信号(223)は第2のノイズ信号であり、
前記第1のノイズソースまたは前記第2のノイズソースは、前記第1のノイズ信号(201)または前記第2のノイズ信号(203)が少なくとも部分的に相関するように前記第1のノイズ信号(201)または前記第2のノイズ信号(203)を発生するように構成され、
前記ミキシングノイズソース(212)は、第1のミキシングノイズ部分(221a)および第2のミキシングノイズ部分(221b)を含む前記ミキシングノイズ信号(222)を発生するように構成され、前記第2のミキシングノイズ部分(221b)は前記第1のミキシングノイズ部分(221b)と少なくとも部分的に非相関にされ、
前記ミキサー(206)は、前記ミキシングノイズ信号(222)の前記第1のミキシングノイズ部分(221a)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)の前記第2のミキシングノイズ部分(221b)と前記第2のオーディオ信号(223)とを混合して前記第2のチャネル(203)を取得するように構成される多チャネル信号発生器(200)。
【請求項29】
第1のチャネルと第2のチャネル(203)とを有する多チャネル信号を発生する方法であって、
第1のオーディオソース(211)を使用して第1のオーディオ信号(221)を発生するステップと、
第2のオーディオソース(213)を使用して第2のオーディオ信号(223)を発生するステップと、
ミキシングノイズソース(212)を使用してミキシングノイズ信号(222)を発生するステップと、
前記ミキシングノイズ信号(222)と前記第1のオーディオ信号(221)とを混合して前記第1のチャネル(201)を取得し、前記ミキシングノイズ信号(222)と前記第2のオーディオ信号(223)とを混合して前記第2のチャネル(202)を取得するステップとを含み、前記方法は
前記第1のオーディオ信号(221)の振幅に影響を及ぼす第1の振幅要素(208-1)を使用するステップと、
前記第1の振幅要素の出力信号(221)と前記ミキシングノイズ信号(222)の少なくとも一部とを加算する第1の加算器(206-1)を使用するステップと、
前記第2のオーディオ信号(223)の振幅に影響を及ぼすための第2の振幅要素(208-3)を使用するステップと、
前記第2の振幅要素(208-3)の出力(223)と前記ミキシングノイズ信号(222)の少なくとも一部とを加算する第2の加算器(206-3)を使用するステップとを含み、
前記第1の振幅要素(208-1)によって実行される影響作用の量および前記第2の振幅要素(208-3)によって実行される影響作用の量は互いに等しいか、または前記第2の振幅要素(208-3)によって実行される影響作用の前記量は前記第1の振幅要素(208-1)によって実行される影響作用の前記量の20%未満だけ異なり、
混合するステップ(206)は、前記ミキシングノイズ信号(222)の振幅に影響を及ぼす第3の振幅要素(208-2)を使用し、
前記第3の振幅要素(208-2)によって実行される影響作用の量は、前記第1の振幅要素(208-1)または前記第2の振幅要素(208-3)によって実行される影響作用の前記量に依存し、それにより、前記第3の振幅要素(208-2)によって実行される影響作用の前記量は、前記第1の振幅要素によって実行される影響作用の前記量または前記第2の振幅要素(208-3)によって実行される影響作用の前記量が小さくなるときに大きくなる多チャネル信号を発生する方法。
【請求項30】
アクティブフレーム(306)と非アクティブフレーム(308)とを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号(232)を発生するためのオーディオエンコーダ(300、300a、300b)であって、
多チャネル信号(304)を解析してフレームの前記シーケンスのうちの1つのフレームを非アクティブフレーム(308)であると決定する(381)ためのアクティビティ検出器(380)と、
前記多チャネル信号(304)の第1のチャネル(301、201)に対する第1のパラメトリックノイズデータ(p_noise、vm,ind)を計算し、前記多チャネル信号(320)の第2のチャネル(303)に対する第2のパラメトリックノイズデータ(p_noise、vs,ind)を計算するためのノイズパラメータ計算器(3040)と、
前記非アクティブフレーム(308)における前記第1のチャネル(301、201)と前記第2のチャネル(303、203)との間のコヒーレンス状況を指示するコヒーレンスデータ(404、c)を計算するためのコヒーレンス計算器(320)と、
前記アクティブフレーム(306)に対するエンコード済みオーディオデータ、および前記非アクティブフレーム(308)については、前記第1のパラメトリックノイズデータ(p_noise、vm,ind)、前記第2のパラメトリックノイズデータ(p_noise、vs,ind)、および/または前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第1の線形結合および前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第2の線形結合、ならびにコヒーレンスデータ(c、404)を有する前記エンコード済み多チャネルオーディオ信号(232)を発生するための出力インターフェース(310)とを備え、前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部を、左/右表現から、ミッドチャネルおよびサイドチャネルを有するミッド/サイド表現に変換するように構成されるオーディオエンコーダ(300、300a、300b)。
【請求項31】
前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部の前記ミッド/サイド表現(M、S)を、左/右表現に再変換するように構成され、
前記ノイズパラメータ計算器(3040)は、前記再変換された左/右表現から、前記第1のチャネル(301)に対する第1の利得情報(gl)および前記第2のチャネル(303)に対する第2の利得情報(gr)を計算し、前記第1のパラメトリックノイズデータに含まれる、前記第1のチャネル(301)に対する前記第1の利得情報(gl)、および前記第2のパラメトリックノイズデータに含まれる、前記第2の利得情報(gr)を提供するように構成される請求項30に記載のオーディオエンコーダ。
【請求項32】
前記ノイズパラメータ計算器(3040)は、
前記第1の利得情報(gl)を、
前記ミッド/サイド表現から前記左/右表現に再変換されるような前記第1のチャネル(301)に対する前記第1のパラメトリックノイズデータのバージョン(v'l)を、
前記ミッド/サイド表現から前記左/右表現に変換される前の前記第1のチャネル(301)に対する前記第1のパラメトリックノイズデータのバージョン(vl)と比較することによって、および/または
前記第2の利得情報(gr)を、
前記ミッド/サイド表現から前記左/右表現に再変換されるような前記第2のチャネル(301)に対する前記第2のパラメトリックノイズデータのバージョン(v'r)を、
前記ミッド/サイド表現から前記左/右表現に変換される前の前記第2のチャネル(301)に対する前記第2のパラメトリックノイズデータのバージョン(vr)と比較することによって、
計算するように構成される請求項31に記載のオーディオエンコーダ(300)。
【請求項33】
アクティブフレーム(306)と非アクティブフレーム(308)とを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号(232)を発生するためのオーディオエンコーダ(300、300a、300b)であって、
多チャネル信号(304)を解析してフレームの前記シーケンスのうちの1つのフレームを非アクティブフレーム(308)であると決定する(381)ためのアクティビティ検出器(380)と、
前記多チャネル信号(304)の第1のチャネル(301、201)に対する第1のパラメトリックノイズデータ(p_noise、v m,ind )を計算し、前記多チャネル信号(320)の第2のチャネル(303)に対する第2のパラメトリックノイズデータ(p_noise、v s,ind )を計算するためのノイズパラメータ計算器(3040)と、
前記非アクティブフレーム(308)における前記第1のチャネル(301、201)と前記第2のチャネル(303、203)との間のコヒーレンス状況を指示するコヒーレンスデータ(404、c)を計算するためのコヒーレンス計算器(320)と、
前記アクティブフレーム(306)に対するエンコード済みオーディオデータ、および前記非アクティブフレーム(308)については、前記第1のパラメトリックノイズデータ(p_noise、v m,ind )、前記第2のパラメトリックノイズデータ(p_noise、v s,ind )、および/または前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第1の線形結合および前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第2の線形結合、ならびにコヒーレンスデータ(c、404)を有する前記エンコード済み多チャネルオーディオ信号(232)を発生するための出力インターフェース(310)とを備え、
前記コヒーレンス計算器(320)は、
前記非アクティブフレームにおける前記第1のチャネルおよび前記第2のチャネル(303)に対する複素スペクトル値から実数中間値および虚数中間値を計算し、
前記非アクティブフレームにおける前記第1のチャネル(301)に対する第1のエネルギー値および前記第2のチャネル(303)に対する第2のエネルギー値を計算し、
前記実数中間値、前記虚数中間値、前記第1のエネルギー値、および前記第2のエネルギー値を使用して前記コヒーレンスデータ(404、c)を計算するか、または
前記実数中間値、前記虚数中間値、前記第1のエネルギー値、および前記第2のエネルギー値の少なくとも1つを平滑化し、少なくとも1つの平滑化済み値を使用して前記コヒーレンスデータを計算するように構成され、
前記コヒーレンス計算器(320)は、平滑化された実数中間値を二乗し、平滑化された虚数中間値を二乗し、前記二乗された値を加算して第1の成分の数を取得するように構成され、
前記コヒーレンス計算器(320)は、前記平滑化された第1および第2のエネルギー値を乗算して第2の成分数を取得し、前記第1および前記第2の成分数を組み合わせて前記コヒーレンスデータが基づく前記コヒーレンス値に対する結果数を取得するように構成されるオーディオエンコーダ(300、300a、300b)。
【請求項34】
アクティブフレーム(306)と非アクティブフレーム(308)とを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号(232)を発生するためのオーディオエンコーダ(300、300a、300b)であって、
多チャネル信号(304)を解析してフレームの前記シーケンスのうちの1つのフレームを非アクティブフレーム(308)であると決定する(381)ためのアクティビティ検出器(380)と、
前記多チャネル信号(304)の第1のチャネル(301、201)に対する第1のパラメトリックノイズデータ(p_noise、v m,ind )を計算し、前記多チャネル信号(320)の第2のチャネル(303)に対する第2のパラメトリックノイズデータ(p_noise、v s,ind )を計算するためのノイズパラメータ計算器(3040)と、
前記非アクティブフレーム(308)における前記第1のチャネル(301、201)と前記第2のチャネル(303、203)との間のコヒーレンス状況を指示するコヒーレンスデータ(404、c)を計算するためのコヒーレンス計算器(320)と、
前記アクティブフレーム(306)に対するエンコード済みオーディオデータ、および前記非アクティブフレーム(308)については、前記第1のパラメトリックノイズデータ(p_noise、v m,ind )、前記第2のパラメトリックノイズデータ(p_noise、v s,ind )、および/または前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第1の線形結合および前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第2の線形結合、ならびにコヒーレンスデータ(c、404)を有する前記エンコード済み多チャネルオーディオ信号(232)を発生するための出力インターフェース(310)とを備え、
前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータと銭第2のパラメトリックノイズデータとの間の前記第2の線形結合のエネルギーを所定のエネルギー閾値(α)と比較するように構成され、
前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合の前記エネルギーが前記所定のエネルギー閾値(α)よりも大きい場合、前記サイドチャネルノイズ形状ベクトルの前記係数はゼロにされ(437)、
前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合の前記エネルギーが前記所定のエネルギー閾値(α)よりも小さい場合、前記サイドチャネルノイズ形状ベクトルの前記係数は維持されるオーディオエンコーダ(300、300a、300b)。
【請求項35】
前記コヒーレンス計算器(320)は、コヒーレンス値(404、c)を計算し(320')、コヒーレンス値(320')を量子化して(320”)量子化済みコヒーレンス値(c ind )を取得するように構成され、前記出力インターフェース(310)は、前記量子化済みコヒーレンス値(c ind )を前記エンコード済み多チャネル信号内の前記コヒーレンスデータとして使用するように構成される請求項30から34のいずれか一項に記載のオーディオエンコーダ。
【請求項36】
前記コヒーレンス計算器(320)は、前記実数中間値を、前記非アクティブフレームにおける前記第1のチャネルおよび前記第2のチャネル(303)の対応する周波数ビンに対する複素スペクトル値の積の実部にわたる総和として計算するように構成されるか、または
前記虚数中間値を、前記非アクティブフレームにおける前記第1のチャネルおよび前記第2のチャネル(303)の対応する周波数ビンに対する前記複素スペクトル値の積の虚部にわたる総和として計算するように構成される請求項30から35のいずれか一項に記載のオーディオエンコーダ。
【請求項37】
前記コヒーレンス計算器は、前記結果数の平方根を計算して、前記コヒーレンスデータが基づくコヒーレンス値を取得するように構成される請求項33に記載のオーディオエンコーダ。
【請求項38】
前記コヒーレンス計算器(320)は、一様量子化器(320")を使用して前記コヒーレンス値(404、c)を量子化し、前記量子化済みコヒーレンス値(cind)を前記コヒーレンスデータとしてのnビット数として取得するように構成される請求項30から37のいずれか一項に記載のオーディオエンコーダ。
【請求項39】
前記一様量子化器(320")は、nの値が前記第1の無音挿入記述子フレーム(241)に対する前記コンフォートノイズ発生サイド情報(p_frame)によって占有されるビットの値に等しくなるようにnビット数を計算するように構成される請求項38に記載のオーディオエンコーダ。
【請求項40】
前記出力インターフェース(310)は、前記第1のチャネル(301、L)に対する第1の無音挿入記述子フレーム(241)と前記第2のチャネル(303、R)に対する第2の無音挿入記述子フレーム(243)とを生成するように構成され、前記第1の無音挿入記述子フレーム(241)は、前記第1のチャネル(301、L)に対するコンフォートノイズパラメータデータ(p_noise)と、前記第1のチャネル(301、L)および前記第2のチャネル(303、R)に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、前記第2の無音挿入記述子フレーム(243)は、前記第2のチャネル(303)に対するコンフォートノイズパラメータデータ(p_noise)と、前記非アクティブフレームにおける前記第1のチャネルと前記第2のチャネル(303)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含む請求項30から39のいずれか一項に記載のオーディオエンコーダ。
【請求項41】
前記出力インターフェース(310)は、無音挿入記述子フレーム(241、243)を生成するように構成され、前記無音挿入記述子フレームは、前記第1および前記第2のチャネル(301、303)に対するコンフォートノイズパラメータデータ(p_nose)と、前記第1のチャネル(301、L)および前記第2のチャネル(303、R)に対するコンフォートノイズ発生サイド情報(p_frame)と、前記非アクティブフレームにおける前記第1のチャネル(301、L)と前記第2のチャネル(303、R)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含む請求項30から39のいずれか一項に記載のオーディオエンコーダ。
【請求項42】
前記出力インターフェース(310)は、前記第1のチャネル(301、L)および前記第2のチャネルに対する第1の無音挿入記述子フレーム(241)と前記第1のチャネルおよび前記第2のチャネル(303、R)に対する第2の無音挿入記述子フレーム(243)とを生成するように構成され、前記第1の無音挿入記述子フレーム(241)は、前記第1のチャネルおよび前記第2のチャネルに対するコンフォートノイズパラメータデータ(p_noise)と、前記第1のチャネル(301、L)および前記第2のチャネル(303、R)に対するコンフォートノイズ発生サイド情報(p_frame)とを含み、前記第2の無音挿入記述子フレーム(243)は、前記第1のチャネルおよび前記第2のチャネル(303)に対するコンフォートノイズパラメータデータ(p_noise)と、前記非アクティブフレームにおける前記第1のチャネルと前記第2のチャネル(303)との間のコヒーレンスを指示するコヒーレンス情報(404、c)とを含む請求項30から39のいずれか一項に記載のオーディオエンコーダ。
【請求項43】
前記アクティビティ検出器(380)は、フレームの前記シーケンスのうちの少なくとも1つのフレームについて、
前記多チャネル信号(304)の前記第1のチャネル(301、L)を解析して(370-1)前記第1のチャネル(301、L)をアクティブまたは非アクティブとして分類し、
前記多チャネル信号(304)の前記第2のチャネル(303、R)を解析して(370-2)前記第2のチャネル(303、R)をアクティブまたは非アクティブとして分類し、
前記第1のチャネル(301、L)および前記第2のチャネル(303、R)の両方が非アクティブとして分類されている場合に前記フレームは非アクティブであると決定し(381)、そうでない場合にアクティブであるとして決定するように構成される請求項30から42のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項44】
前記ノイズパラメータ計算器(3040)は、前記第1のチャネル(301)に対する第1の利得情報(gl)および前記第2のチャネル(gl)に対する第2の利得情報(gs)を計算し、前記第1のチャネル(301)に対する第1の利得情報(gl)および第2の利得情報(gs)としてパラメトリックノイズデータを提供するように構成される請求項30から43のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項45】
前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第2の線形結合を、前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの間の前記第1の線形結合がエンコードされるビットの量よりも少ないビットの量でエンコードするように構成される請求項30から44のいずれか一項に記載のオーディオエンコーダ。
【請求項46】
前記出力インターフェース(310)は、
第1の数の周波数ビンに対して第1の複数の係数を使用して前記アクティブフレーム(306)に対するエンコード済みオーディオデータを有する前記エンコード済み多チャネルオーディオ信号(232)を発生し、
第2の数の周波数ビンを記述する第2の複数の係数を使用して前記第1のパラメトリックノイズデータ、前記第2のパラメトリックノイズデータ、または前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの前記第1の線形結合および前記第1のパラメトリックノイズデータと前記第2のパラメトリックノイズデータとの第2の線形結合を生成するように構成され、
周波数ビンの前記第1の数は、周波数ビンの前記第2の数よりも大きい請求項30から45のいずれか一項に記載のオーディオエンコーダ。
【請求項47】
アクティブフレームと非アクティブフレームとを含むフレームのシーケンスに対するエンコード済み多チャネルオーディオ信号を発生するためのオーディオエンコーディングの方法であって、
多チャネル信号を解析してフレームの前記シーケンスのうちの1つのフレームを非アクティブフレームであると決定するステップと、
前記多チャネル信号の第1のチャネル、および/または前記多チャネル信号の第1のチャネルと第2のチャネルの第1の線形結合に対する第1のパラメトリックノイズデータを計算し、前記多チャネル信号の第2のチャネル(303)、および/または前記多チャネル信号の前記第1のチャネルと前記第2のチャネルの第2の線形結合に対する第2のパラメトリックノイズデータを計算するステップと、
前記非アクティブフレームにおける前記第1のチャネルと前記第2のチャネル(303)との間のコヒーレンス状況を指示するコヒーレンスデータを計算するステップと、
前記アクティブフレームに対するエンコード済みオーディオデータと、前記非アクティブフレームについては、前記第1のパラメトリックノイズデータ、前記第2のパラメトリックノイズデータ、および前記コヒーレンスデータとを有する前記エンコード済み多チャネルオーディオ信号を発生するステップとを含み、
前記ノイズパラメータ計算器(3040)は、前記第1のパラメトリックノイズデータおよび第2のパラメトリックノイズデータの少なくとも一部を、左/右表現から、ミッドチャネルおよびサイドチャネルを有するミッド/サイド表現に変換するように構成されるオーディオエンコーディングの方法。
【請求項48】
コンピュータまたはプロセッサ上で実行されたときに、請求項29に記載の前記方法または請求項47に記載の前記方法を実行するためのコンピュータプログラム。
【請求項49】
フレームのシーケンスに編成されたエンコード済み多チャネルオーディオ信号であって、フレームの前記シーケンスはアクティブフレームと非アクティブフレームとを含み、前記エンコード済み多チャネルオーディオ信号は
前記アクティブフレームに対するエンコード済みオーディオデータと、
前記非アクティブフレームにおける第1のチャネルに対する第1のパラメトリックノイズデータと、
前記非アクティブフレームにおける第2のチャネル(303)に対する第2のパラメトリックノイズデータと、
前記非アクティブフレームにおける第1のチャネルと第2のチャネル(303)との間のコヒーレンス状況を指示するコヒーレンスデータと含むエンコード済み多チャネルオーディオ信号。
【国際調査報告】