(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022126688
(43)【公開日】2022-08-30
(54)【発明の名称】快適雑音の生成のサポート
(51)【国際特許分類】
G10L 19/012 20130101AFI20220823BHJP
G10L 19/008 20130101ALI20220823BHJP
【FI】
G10L19/012
G10L19/008 100
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022091269
(22)【出願日】2022-06-06
(62)【分割の表示】P 2020554191の分割
【原出願日】2019-04-05
(31)【優先権主張番号】62/653,078
(32)【優先日】2018-04-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/652,941
(32)【優先日】2018-04-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/652,949
(32)【優先日】2018-04-05
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.コンパクトフラッシュ
(71)【出願人】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【弁理士】
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100161470
【弁理士】
【氏名又は名称】冨樫 義孝
(74)【代理人】
【識別番号】100194294
【弁理士】
【氏名又は名称】石岡 利康
(74)【代理人】
【識別番号】100194320
【弁理士】
【氏名又は名称】藤井 亮
(74)【代理人】
【識別番号】100150670
【弁理士】
【氏名又は名称】小梶 晴美
(72)【発明者】
【氏名】ヤンソン, フレドリック
(72)【発明者】
【氏名】ノーベル, エリク
(72)【発明者】
【氏名】ヤンソン トフゴード, トマス
(57)【要約】 (修正有)
【課題】2つ以上のチャネルのための快適雑音の効率的生成を可能にする方法、送信ノード、プログラム並びに受信ノード、受信ノードにおける快適雑音の生成のための方法及びプログラムを提供する。
【解決手段】送信ノードによって実行される、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための方法は、少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、オーディオ信号間の空間コヒーレンスを判定することと、を含む。知覚的重要性尺度に関連付けられる空間コヒーレンスの圧縮表現を、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯毎に判定する。スペクトル特性に関する情報及び周波数帯毎の空間コヒーレンスの圧縮表現を、受信ノードにおける快適雑音の生成を可能にするために受信ノードにシグナリングする。
【選択図】
図3
【特許請求の範囲】
【請求項1】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定すること(S102)と、
それぞれの前記入力オーディオチャネルの前記オーディオ信号間の空間コヒーレンスを判定すること(S104)であって、前記空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定すること(S104)と、
前記空間コヒーレンスを周波数帯に分けること(S106)であって、前記空間コヒーレンスの圧縮表現は、前記知覚的重要性尺度に従って各周波数帯内の前記空間コヒーレンスに重み付けすることによって周波数帯ごとに判定される、周波数帯に分けること(S106)と、
前記受信ノードにおける前記少なくとも2つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記スペクトル特性に関する情報および前記周波数帯ごとの前記空間コヒーレンスの前記圧縮表現に関する情報を前記受信ノードにシグナリングすること(S108)と
を含む、方法。
【請求項2】
前記空間コヒーレンスの前記圧縮表現が、周波数帯ごとの1つの単一値である、請求項1に記載の方法。
【請求項3】
前記知覚的重要性尺度が、前記少なくとも2つの入力オーディオチャネルの前記スペクトル特性に基づく、請求項1または2に記載の方法。
【請求項4】
前記知覚的重要性尺度が、前記少なくとも2つの入力オーディオチャネルのパワースペクトルに基づいて判定される、請求項3に記載の方法。
【請求項5】
前記知覚的重要性尺度が、前記少なくとも2つの入力オーディオチャネルの加重和のパワースペクトルに基づいて判定される、請求項3に記載の方法。
【請求項6】
前記スペクトル特性の所与の値の前記知覚的重要性尺度が、前記少なくとも2つの入力オーディオチャネルの前記オーディオ信号の合計のパワースペクトルに基づく、請求項1または2に記載の方法。
【請求項7】
より高いエネルギを有する周波数係数の値に対応する前記空間コヒーレンス値が、より低いエネルギを有する周波数係数の値に対応する前記空間コヒーレンス値と比較して、前記空間コヒーレンスの前記1つの単一値により多くの影響を及ぼすように、各周波数帯内の前記空間コヒーレンス値が、重み付けされる、請求項2に記載の方法。
【請求項8】
lr(m,n)=l(m,n)+r(m,n)のエネルギスペクトル|LR(m,k)|2、ここで、l(m,n)が、左のチャネルの入力信号を示し、r(m,n)が、右のチャネルの入力信号を示す、は、フレームm内の前記知覚的重要性尺度を規定し、前記空間コヒーレンス値を重み付けするために使用される、請求項1に記載の方法。
【請求項9】
フレームインデックスmおよび周波数帯bの前記空間コヒーレンスの1つの単一値C
w(m,b)が、
として判定され、ここで、N
bandが、周波数帯の総数を示し、limit(b)が、周波数帯bの最低の周波数ビンを示す、請求項8に記載の方法。
【請求項10】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノード(200a)であって、処理回路(210)を備え、前記処理回路が、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの前記入力オーディオチャネルの前記オーディオ信号間の空間コヒーレンスを判定することであって、前記空間コヒーレンスは、前記知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
前記空間コヒーレンスを周波数帯に分けることであって、前記空間コヒーレンスの圧縮表現は、前記知覚的重要性尺度に従って各周波数帯内の前記空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
前記受信ノードにおける前記少なくとも2つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記スペクトル特性に関する情報および周波数帯ごとの前記空間コヒーレンスの前記圧縮表現に関する情報を前記受信ノードにシグナリングすることと
を前記送信ノードに行わせるように設定された、送信ノード。
【請求項11】
請求項2から9のいずれか一項に記載の方法を実行するようにさらに設定された、請求項10に記載の送信ノード。
【請求項12】
請求項10または11に記載の送信ノードを備える無線トランシーバデバイス。
【請求項13】
前記受信ノードをさらに備える、請求項12に記載の無線トランシーバデバイス。
【請求項14】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラム(1420)であって、コンピュータコードを備え、コンピュータコードが前記送信ノードの処理回路で実行されるとき、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの前記入力オーディオチャネルの前記オーディオ信号間の空間コヒーレンスを判定することであって、前記空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
前記空間コヒーレンスを周波数帯に分けることであって、前記空間コヒーレンスの圧縮表現は、前記知覚的重要性尺度に従って各周波数帯内の前記空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
前記受信ノードにおける前記少なくとも2つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記スペクトル特性に関する情報および周波数帯ごとの前記空間コヒーレンスの前記圧縮表現に関する情報を前記受信ノードにシグナリングすることと
を前記送信ノードに行わせる、コンピュータプログラム。
【請求項15】
請求項14に記載のコンピュータプログラム、および前記コンピュータプログラムが記憶されるコンピュータ可読記憶媒体を備える、コンピュータプログラム製品(1410)。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書で提示される実施形態は、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための方法、送信ノード、コンピュータプログラム、およびコンピュータプログラム製品に関する。本明細書で提示される実施形態はさらに、受信ノードにおける快適雑音の生成のための方法、受信ノード、コンピュータプログラム、およびコンピュータプログラム製品に関する。
【背景技術】
【0002】
通信ネットワークでは、所与の通信プロトコル、そのパラメータ、および通信ネットワークが配備された物理環境のための優れた性能および容量を獲得するための課題が存在し得る。
【0003】
たとえば、電気通信ネットワークにおける容量は、継続的に増加しているが、ユーザごとの必要とされる資源使用量を制限することは、いまだに関心事である。モバイル電気通信ネットワークにおいて、通話ごとに必要とされる資源使用量が少ないことは、モバイル電気通信ネットワークが多数のユーザに並行してサービスを提供され得ることを意味する。資源使用量を下げることはまた、ユーザ側のデバイス(端末デバイスなど)とネットワーク側のデバイス(ネットワークノードなど)との両方において電力消費の低下をもたらす。これは、端末デバイスにおいて体感されるバッテリ寿命の延長および通話時間の増加を可能にしつつ、ネットワークオペレータのためのエネルギおよびコスト節減につながる。
【0004】
モバイル電気通信ネットワークにおける音声通信アプリケーションの必要とされる資源使用量を減らすための1つの機構は、音声における自然な休止を活用することである。さらに詳細には、ほとんどの会話では、一度に一方の関係者だけがアクティブであり、したがって、1つの通信方向における音声の休止が、通常は、信号の過半数を占めることになる。この特質を利用して必要な資源使用量を減らすための1つの方法は、音声の休止中にアクティブ信号エンコーディングが中断される、間欠送信(DTX:Discontinuous Transmission)システムを使用することである。
【0005】
音声の休止の間、受信側における快適雑音発生器(CNG:Comfort Noise Generator)システムが、最初の雑音と類似の特性を有する背景雑音で前述の休止を埋めることができるように、背景雑音の非常に低いビットレートのエンコーディングを送信することが一般的である。背景雑音は維持され、音声とともにオンおよびオフを切り替えられないので、音声の休止時に静寂を有することに比べて、CNGは、サウンドをより自然にさせる。音声の休止時の完全な静寂は、一般に、不快に受け取られ、通話が切られたという誤解をしばしばもたらす。
【0006】
DTXシステムは、アクティブ信号エンコーディングを使用するか低レート背景雑音エンコーディングを使用するかを送信デバイスに指示する、音声活動検出器(VAD:Voice Activity Detector)にさらに頼り得る。この点において、送信デバイスは、背景雑音と音声を区別するだけではなく、関連性があると見なされた音楽または他の信号タイプを検出するようにも設定され得る、(ジェネリック)サウンド活動検出器((Generic)Sound Activity Detector:GSADまたはSAD)を使用することによって、他のソースタイプを区別するように設定することができる。
【0007】
通信サービスは、ステレオまたはマルチチャネルオーディオ送信をサポートすることによって、さらに強化することができる。これらの場合、DTX/CNGシステムはまた、心地よく聞こえる快適雑音を提供するために、信号の空間特性を考慮することができる。
【0008】
快適雑音を生成するための一般的機構は、音声の休止時に背景雑音のエネルギおよびスペクトル形状に関する情報を送信することになる。これは、音声セグメントの通常のコーディングよりも有意に少ない数のビットを使用して行われ得る。
【0009】
受信デバイス側において、快適雑音は、疑似ランダム信号を作成することと、次いで、送信デバイスから受信された情報に基づくフィルタで信号のスペクトルを形成することとによって、生成される。信号生成およびスペクトル形成は、時間または周波数ドメインにおいて実行され得る。
【発明の概要】
【0010】
本明細書の実施形態の目的は、2つ以上のチャネルのための快適雑音の効率的生成を可能にすることである。
【0011】
第1の態様によれば、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための方法が提示される。本方法は、送信ノードによって実行される。本方法は、少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することを含む。本方法は、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することを含み、空間コヒーレンスは、知覚的重要性尺度に関連付けられる。本方法は、空間コヒーレンスを周波数帯に分けることを含み、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される。本方法は、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることを含む。
【0012】
第2の態様によれば、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノードが提示される。送信ノードは、処理回路を備える。処理回路は、少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を送信ノードに判定させるように設定される。処理回路は、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを送信ノードに判定させるように設定され、空間コヒーレンスは、知覚的重要性尺度に関連付けられる。処理回路は、送信ノードに空間コヒーレンスを周波数帯へと分割させるように設定され、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される。処理回路は、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするために、受信ノードへのスペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を送信ノードにシグナリングさせるように設定される。
【0013】
第3の態様によれば、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラムが提示され、コンピュータプログラムは、送信ノードで実行されるとき、少なくとも第1の態様による方法を送信ノードに実行させる、コンピュータプログラムコードを含む。
【0014】
第4の態様によれば、第3の態様によるコンピュータプログラムおよびコンピュータプログラムが記憶されるコンピュータ可読記憶媒体を備えるコンピュータプログラム製品が提示される。コンピュータ可読記憶媒体は、非一時的コンピュータ可読記憶媒体であってもよい。
【0015】
第5の態様によれば、無線トランシーバデバイスが提示される。無線トランシーバデバイスは、第2の態様による送信ノードを備える。
【0016】
有利には、これらの方法、これらの送信ノード、このコンピュータプログラム、このコンピュータプログラム製品およびこの無線トランシーバデバイスは、2つ以上のチャネルのための快適雑音の効率的生成を可能にする。
【0017】
有利には、これらの方法、これらの送信ノード、このコンピュータプログラム、このコンピュータプログラム製品およびこの無線トランシーバデバイスは、前述の問題に悩まされることなく2つ以上のチャネルのために快適雑音が生成されることを可能にする。
【0018】
有利にはこれらの方法、これらの送信ノード、このコンピュータプログラム、このコンピュータプログラム製品およびこの無線トランシーバデバイスは、現実的ステレオ画像を受信ノードにおいて再作成する能力を保持しつつ、ステレオまたはマルチチャネルDTXシステムにおいて符号化される必要がある情報の量を減らすことを可能にする。
【0019】
含まれている実施形態の他の目的、特徴および利点が、以下の詳細な開示から、特許請求の範囲から、ならびに図面から明らかとなろう。
【0020】
本発明の概念を、以下のような添付の図面を参照して、例として、ここで説明する。
【図面の簡単な説明】
【0021】
【
図1】実施形態による通信ネットワークを説明する概略図である。
【
図2】一実施形態によるDTXシステムを概略的に示す図である。
【
図5】実施形態によるチャネルコヒーレンス値のスペクトルを概略的に示す図である。
【
図6】実施形態によるチャネルコヒーレンス値のスペクトルを概略的に示す図である。
【
図7】いくつかの実施形態によるエンコーディングプロセスを示す流れ図である。
【
図8】いくつかの実施形態による切り捨て方式を示す図である。
【
図9】いくつかの実施形態による復号プロセスを示す流れ図である。
【
図10】1つの実施形態によるプロセスを示す流れ図である。
【
図11】1つの実施形態によるプロセスを示す流れ図である。
【
図12】一実施形態による送信ノードの機能ユニットを示す概略図である。
【
図13】一実施形態による送信ノードの機能モジュールを示す概略図である。
【
図14】一実施形態によるコンピュータ可読記憶媒体を備えるコンピュータプログラム製品の一例を示す図である。
【
図15】いくつかの実施形態によるステレオエンコーディングおよび復号システムを示す図である。
【発明を実施するための形態】
【0022】
本発明の概念は、本発明の概念のある特定の実施形態が示された、添付の図面を参照して、以下でさらに十分に説明される。しかしながら、本発明の概念は、多数の異なる形で実施することができ、本明細書に記載の実施形態に制限されるものとして解釈されるべきではなく、そうではなくて、本開示が、徹底した完全なものとなり、当業者に本発明の概念の範囲を十分に伝えるように、これらの実施形態は、例として提供される。類似の番号は、本明細書全体にわたり、類似の要素を参照する。破線によって示された任意のステップまたは特徴は、任意選択として見なされるべきである。
【0023】
空間コヒーレンスは、オーディオチャネルの間のコヒーレンスを表すので、空間コヒーレンスは、マルチチャネルオーディオ表現の空間的特質を構成し、チャネルコヒーレンスとも称され得る。以下の説明では、チャネルコヒーレンスおよび空間コヒーレンスという用語は、同義で使用される。
【0024】
2つのステレオチャネルのそれぞれにおいて信号に個別に作用する独自のDTXシステムをそれぞれ有する2つのモノエンコーダが、使用されるとき、2つの異なる信号における異なるエネルギおよびスペクトル形状が、送信されることになる。
【0025】
最も現実的な場合には、左のチャネル内の信号と右のチャネル内の信号との間のエネルギおよびスペクトル形状の差は、大きくならないが、信号のステレオ画像がどの程度広く知覚されるかには大きな差がまだ存在し得る。
【0026】
快適雑音を生成するために使用されるランダムシーケンスが、左のチャネル内の信号と右のチャネル内の信号との間で同期される場合、結果は、非常に狭いステレオ画像を有する、およびリスナの頭部の中心から生じるサウンドの感覚を与える、ステレオ信号サウンドになる。そうではなくて、左のチャネル内の信号および右のチャネル内の信号が、同期されない場合、それは、逆の効果、すなわち、非常に広いステレオ画像を有する信号、を与えることになる。
【0027】
ほとんどの場合には、同期されたまたは同期されていないランダムシーケンスとともに、送信デバイスがステレオ幅の優れた表現を有するアクティブ音声エンコーディングと非アクティブ雑音エンコーディングとを切り替えるときにステレオ画像の煩わしい差が存在することになることを意味するこれらの2つの極度の間のどこかにあるステレオ画像を、最初の背景雑音は、有することになる。
【0028】
たとえば、最初の背景雑音の知覚されるステレオ画像幅はまた、送信デバイスのユーザが動き回っているためおよび/または背景において生じるものにより、通話中に変化し得る。独自のDTXシステムをそれぞれ有する2つのモノエンコーダを有するシステムは、これらの変化を追うための機構を有さない。
【0029】
デュアルモノDTXシステムを使用することに関する1つの付加的問題は、たとえば、左のチャネル内の信号がアクティブエンコーディングで符号化され、右のチャネル内の信号が低ビットレート快適雑音エンコーディングで符号化されるとき、VAD判定が、2つのチャネルの間で同期されないことになり、それが可聴アーティファクトをもたらし得るということである。ランダムシーケンスが、いくつかの時間インスタンスでは同期され、他では同期されないことになり、時間とともに極度に広いことと極度に狭いこととをトグルで切り替えるステレオ画像をもたらすことにつながり得る。
【0030】
したがって、2つ以上のチャネルのための快適雑音の生成の改良の必要性がまだ存在する。
【0031】
以下の実施形態は、2つのチャネル(ステレオオーディオ)のためのDTXシステムを説明するが、本方法は、一般に、マルチチャネルオーディオのためのDTXおよびCNGのために適用され得る。
【0032】
図1は、本明細書で提示される実施形態が適用され得る、通信ネットワーク100を示す概略図である。通信ネットワーク100は、通信リンク110を介して受信ノード200bと通信する送信ノード200aを備える。
【0033】
送信ノード200aは、直接通信リンク110を介してまたは間接通信リンク110を介して、通信ネットワーク100内の1つまたは複数の他のデバイス、ノード、またはエンティティ、たとえば、ネットワークノードなど、を介して、受信ノード200bと通信し得る。
【0034】
いくつかの態様では、送信ノード200aは、無線トランシーバデバイス200の一部であり、受信ノード200bは、別の無線トランシーバデバイス200の一部である。加えて、いくつかの態様では、無線トランシーバデバイス200は、送信ノード200aと受信ノード200bとの両方を備える。無線トランシーバデバイスの異なる例が存在し得る。例としては、携帯用無線デバイス、移動局、携帯電話、ハンドセット、無線ローカルループ電話、ユーザ機器(UE)、スマートフォン、ラップトップコンピュータ、およびタブレットコンピュータが挙げられるが、これらに限定されない。
【0035】
前述のように、DTXシステムは、符号化された音声/オーディオを必要なときにのみ送信するために、使用することができる。
図2は、1つまたは複数のオーディオチャネルのためのDTXシステム300の概略的ブロック図である。DTXシステム300は、送信ノード200aの一部でも、これと配列されても、これに実装されてもよい。入力オーディオは、VAD310、音声/オーディオエンコーダ320およびCNGエンコーダ330に提供される。VADが、その信号は音声またはオーディオを含むことを示すとき、音声/オーディオエンコーダが、起動され、そして、VADが、その信号は背景雑音を含むことを示すとき、CNGエンコーダが、起動される。VADは、それに応じて、音声/オーディオエンコーダまたはCNGエンコーダからの出力を送信するかどうかを選択的に制御する。2つ以上のチャネルのための快適雑音の生成のための既存の機構に関する問題が、上記で開示された。
【0036】
したがって、本明細書で開示される実施形態は、受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするためのおよび受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成のための機構に関する。そのような機構を得るために、送信ノード200a、送信ノード200aによって実行される方法、送信ノード200aで実行されるときに送信ノード200aにその方法を実行させるコードを、たとえばコンピュータプログラムの形で、含むコンピュータプログラム製品が提供される。そのような機構を得るために、受信ノード200bと、受信ノード200bによって実行される方法と、受信ノード200bの処理回路で実行されるとき、受信ノード200bに本方法を実行させる、コードを、たとえばコンピュータプログラムの形で、含むコンピュータプログラム製品とがさらに提供される。
【0037】
図3は、受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための方法の実施形態を示す流れ図である。本方法は、送信ノード200aによって実行される。本方法は、有利には、コンピュータプログラム1420として提供される。
【0038】
S102:送信ノード200aが、少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定する。
【0039】
S104:送信ノード200aが、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定する。空間コヒーレンスは、知覚的重要性尺度に関連付けられる。
【0040】
DTXシステム300の使用の背後にある全論拠は、音声/オーディオの間の休止において必要とされる最小限の情報を送信することであるので、空間コヒーレンスは、送信前に非常に効率的なやり方で符号化される。
【0041】
S106:送信ノード200aが、空間コヒーレンスを周波数帯に分ける。空間コヒーレンスの圧縮表現が、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される。
【0042】
S108:送信ノード200aが、受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするために、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングする。
【0043】
一実施形態によれば、知覚的重要性尺度は、少なくとも2つの入力オーディオチャネルのスペクトル特性に基づく。
【0044】
一実施形態によれば、知覚的重要性尺度は、少なくとも2つの入力オーディオチャネルのパワースペクトルに基づいて判定される。
【0045】
一実施形態によれば、知覚的重要性尺度は、少なくとも2つの入力オーディオチャネルの加重和のパワースペクトルに基づいて判定される。
【0046】
一実施形態によれば、空間コヒーレンスの圧縮表現は、周波数帯ごとの1つの単一値である。
【0047】
図4は、受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための方法の実施形態を示す流れ図である。本方法は、送信ノード200aによって実行される。本方法は、有利には、コンピュータプログラム1420として提供される。
【0048】
S202:送信ノード200aが、少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定する。スペクトル特性は、知覚的重要性尺度に関連付けられる。
【0049】
S204:送信ノード200aが、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定する。空間コヒーレンスが、周波数帯に分けられる。
【0050】
DTXシステム300の使用の背後にある全論拠は、音声/オーディオの間の休止において必要とされる最小限の情報を送信することであるので、空間コヒーレンスは、送信前に非常に効率的なやり方で符号化される。したがって、空間コヒーレンスの1つの単一値は、周波数帯ごとに判定される。
【0051】
空間コヒーレンスの単一値は、各周波数帯内の空間コヒーレンス値に重み付けする重み付けすることによって、判定される。重み付けのために使用される重み付け関数の1つの目的は、他よりも知覚的に重要な周波数で生じる空間コヒーレンスにより高い重みを置くことである。したがって、各周波数帯内の空間コヒーレンス値は、スペクトル特性の対応する値の知覚的重要性尺度に従って、重み付けされる。
【0052】
S206:送信ノード200aが、受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするために、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノード200bにシグナリングする。
【0053】
受信ノード200bにあるデコーダにおいて、コヒーレンスが、再構築され、最初のサウンドに類似のステレオ画像を有する快適雑音信号が、作成される。
【0054】
送信ノード200aによって実行されるものとしての受信ノード200bにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートすることのさらなる詳細に関する実施形態をここで開示する。
【0055】
本明細書で開示される実施形態は、ステレオエンコーダおよびデコーダアーキテクチャに、ならびにチャネルコヒーレンスがチャネルペアで考慮されるマルチチャネルエンコーダおよびデコーダについて、適用可能である。
【0056】
いくつかの態様では、ステレオエンコーダが、チャネルペア[l(m,n)r(m,n)]を入力として受信し、そこで、l(m,n)およびr(m,n)は、それぞれ、フレームmのサンプルインデックスnの、左のおよび右のチャネルのための入力信号を示す。信号は、サンプリング周波数fsでフレームの長さNのサンプルにおいて処理され、フレームの長さは、重複(過去のサンプルのルックアヘッドおよび/またはメモリ)を含み得る。
【0057】
図2にあるように、ステレオエンコーダVADが、信号は背景雑音を含むことを示すとき、ステレオCNGエンコーダが、起動される。信号は、たとえば、離散フーリエ変換(DFT:discrete Fourier transform)または任意の他の適切なフィルタバンクまたは変換、たとえば、直交ミラーフィルタ(QMF:quadrature mirror filter)、ハイブリッドQMFまたは修正離散コサイン変換(MDCT:modified discrete cosine transform)、を用いて、周波数ドメインに変換される。DFTまたはMDCT変換が使用される場合、入力信号は、以下に従って判定されるチャネルペア[l
win(m,n)r
win(m,n)]をもたらして、変換の前に窓処理される:
[l
win(m,n)r
win(m,n)]=[l(m,n)win(n)r(m,n)win(n)],n=0,1,2,…,N-1。
【0058】
したがって、一実施形態によれば、スペクトル特性が判定される前に、少なくとも2つのオーディオチャネルの、フレームインデックスmおよびサンプルインデックスnのための、オーディオ信号l(m,n)、r(m,n)が、窓処理されて、それぞれの窓処理される信号l
win(m,n)、r
win(m,n)を形成する。ウインドウの選択は、一般に、様々なパラメータ、たとえば、時間および周波数分解能特性、アルゴリズム遅延(重複の長さ)、再構築特質など、に依存し得る。したがって、窓処理されるチャネルペア[l
win(m,n)r
win(m,n)]は、次いで、以下に従って、変換される:
【0059】
周波数fのためのチャネルコヒーレンスC
gen(f)の一般的規定は、以下によって与えられる:
そこで、S
xx(f)およびS
yy(f)は、2つのチャネルxおよびyのそれぞれのパワースペクトルを表し、S
xy(f)は、2つのチャネルxおよびyのクロスパワースペクトルである。DFTに基づく解では、スペクトルは、DFTスペクトルによって表され得る。具体的には、一実施形態によれば、フレームインデックスmおよび周波数ビンインデックスkのための空間コヒーレンスC(m,k)は、次のように判定される:
そこで、L(m,k)は、窓処理されるオーディオ信号l
win(m,n)のスペクトルであり、R(m,k)は、窓処理されるオーディオ信号r
win(m,n)のスペクトルであり、そして、*は、複素共役を示す。
【0060】
コヒーレンスの前述の表現は、一般に、高周波数分解能を有して計算される。これの1つの理由は、周波数分解能は、信号フレームサイズに依存し、信号フレームサイズは、高分解能が望ましいアクティブ音声/オーディオエンコーディングに関してと、CNGエンコーディングに関して、通常は、同じになるということである。もう1つの理由は、高周波数分解能は、知覚的に動機付けられた周波数帯分割を可能にする、ということである。さらにもう1つの理由としては、コヒーレンス計算の要素、すなわち、L(m,k)、R(m,k)、Sxx、Sxy、Syy、が、通常のオーディオエンコーダにおいて、より高い周波数分解能が望ましい他の目的のために使用され得る、ということがあり得る。サンプリング周波数fs=48kHzおよび20msのフレーム長を有する典型値は、チャネルコヒーレンスの960周波数ビンになり得る。
【0061】
非アクティブ(すなわち、非音声)セグメントを符号化するためのビットレートを低く保つことが極めて重要なDTXのアプリケーションについて、高周波数分解能を有するチャネルコヒーレンスを送信することは実現不可能である。チャネルコヒーレンスを表すために必要とされるビットの数を減らすために、スペクトルは、
図5に示すように、周波数帯に分割することができ、各周波数帯内のチャネルコヒーレンスは、単一値またはいくつかの他の圧縮表現によって表されることになる。周波数帯の数は、通常は、20~20000Hzの全可聴帯域幅について2~50ほどである。
【0062】
すべての周波数帯は、同等の周波数のような幅を有し得るが、オーディオコーディングアプリケーションにおいてより一般的なのは、各周波数帯の幅をオーディオの人間の知覚に一致させることであり、それにより、低周波数の相対的に狭い周波数帯と、より高い周波数の周波数帯の幅の増加とをもたらす。具体的には、一実施形態によれば、空間コヒーレンスは、等しくない長さの周波数帯に分けられる。たとえば、周波数帯は、ERBレートのスケールを使用して、作成することができ、ERBは、同等の矩形周波数帯幅に対して短い。
【0063】
1つの実施形態では、コヒーレンスの圧縮表現が、各周波数帯内のコヒーレンスの平均値によって規定され、そして、デコーダが、次いで、快適雑音を生成するときに周波数帯内のすべての周波数についてこの単一の値を使用することができるように、周波数帯ごとのこの単一の値が、受信ノード200bにあるデコーダに送信される、あるいは時間および/または周波数の急激な変化を避けるために信号フレームおよび/または周波数帯の何らかの平滑化を場合により有する。
【0064】
しかしながら、ステップS204で前述したように、別の実施形態において、周波数帯内の異なる周波数は、周波数帯ごとの単一のコヒーレンス値の判定において、知覚的重要性尺度に応じて異なる重みを与えられる。
【0065】
知覚的重要性尺度の異なる例が存在し得る。
【0066】
いくつかの態様では、知覚的重要性尺度は、スペクトル特性に関連する。
【0067】
具体的には、1つの実施形態において、知覚的重要性尺度は、少なくとも2つの入力オーディオ信号の大きさまたはパワースペクトルに関連する。
【0068】
別の実施形態において、知覚的重要性尺度は、少なくとも2つの入力オーディオチャネルでの加重和の大きさまたはパワースペクトルに関連する。
【0069】
いくつかの態様では、高エネルギは、高い知覚的重要度に対応し、逆もまた同様である。具体的には、一実施形態によれば、より高い電力を有する周波数係数に対応する空間コヒーレンス値が、より低いエネルギを有する周波数係数に対応する空間コヒーレンス値と比較してより多くの影響を空間コヒーレンスのこの1つの単一値に及ぼすように、各周波数帯内の空間コヒーレンス値は、重み付けされる。
【0070】
一実施形態によれば、周波数帯内の異なる周波数は、各周波数における電力に応じて、異なる重みを与えられる。この実施形態の背後にある1つの論拠は、より高いエネルギを有する周波数は、より低いエネルギを有する別の周波数と比較して、結合されたコヒーレンス値により多くの影響を及ぼすはずであるということである。
【0071】
いくつかの他の態様において、知覚的重要性尺度は、符号化されたスペクトル特性に関連する。符号化されたスペクトル特性は、より厳密に(すなわち、符号化されていないスペクトル特性よりも厳密に)受信ノード200bで再構築されたものとしての信号を反映し得る。
【0072】
いくつかの他の態様において、知覚的重要性尺度は、空間コヒーレンスに関連する。より低い空間コヒーレンスを有する信号構成要素よりも正確に、より高い空間コヒーレンスを有する信号構成要素を表すことが知覚的により重要になり得る。別の態様において、知覚的重要性尺度は、アクティブに符号化された音声/オーディオセグメントを含む、経時的な空間コヒーレンスに関連し得る。これの1つの理由は、アクティブに符号化された音声/オーディオセグメントにおけるのと類似の特性の空間コヒーレンスを生成することが知覚的に重要になり得るということである。
【0073】
他の知覚的重要性尺度もまた、想定される。
【0074】
一実施形態によれば、加重平均が、各周波数帯におけるコヒーレンスを表すために使用され、そこで、モノ信号lr(m,n)=w
1l(m,n)+w
2r(m,n)のための変換されたエネルギスペクトル|LR(m,k)|
2は、フレームm内の知覚的重要性尺度を規定し、重み付け関数として使用される。すなわち、いくつかの態様では、lr(m,n)=w
1l(m,n)+w
2r(m,n)のエネルギスペクトル|LR(m,k)|
2が、空間コヒーレンス値に重み付けするために使用される。ダウンミックス重みw
1およびw
2は、経時的に一定または可変でもよく、あるいは、類似の演算が周波数ドメインにおいて実行される場合には、周波数にわたり一定または可変でもよい。1つの実施形態において、チャネルの加重は、同等、たとえば、w
1=w
2=0.5、である。その場合、一実施形態によれば、各周波数帯は、より低い周波数ビンと上部周波数ビンとの間に広がり、フレームインデックスmおよび周波数帯bの空間コヒーレンスの1つの単一値C
w(m,b)は、次のように判定される:
そこで、mはフレームインデックスであり、bは周波数帯のインデックスであり、N
bandは、周波数帯の総数であり、limit(b)は、周波数帯bの最も低い周波数ビンを示す。したがって、パラメータlimit(b)は、各周波数帯における第1の係数を示し、周波数帯の間の境界線を規定する。この実施形態において、limit(b)はまた、周波数帯の上限N
band-1を規定するために、周波数帯N
bandについて規定されることになる。limit(b)を得るための異なるやり方が存在し得る。一実施形態によれば、limit(b)は、関数またはルックアップテーブルとして提供される。
【0075】
図6は、周波数帯b+1における重み付けを説明する。各周波数ビンについて、垂直な実線を有する点は、コヒーレンス値を示し、垂直な破線を有する点は、スペクトル特性の対応する値のエネルギを示す。水平な点線は、周波数帯b+1における4つのコヒーレンス値の平均を示し、破線は、加重平均を示す。この例では、周波数帯b+1内の第3のビンは、加重平均が非加重平均より高いことにつながる、高いコヒーレンス値と高エネルギとの両方を有する。
【0076】
エネルギが周波数帯内のすべてのビンについて同じであると想定すると、そのとき、加重平均および非加重平均は、同等になることになる。さらに、エネルギが、1つのビンを除いて、周波数帯内のすべてのビンについてゼロであると想定すると、そのとき、加重平均は、その1つのビンのコヒーレンス値と同等になることになる。
【0077】
空間コヒーレンス値Cw(m,b)は、次いで、符号化されて、受信ノード200bにあるデコーダに記憶または送信され、そこで、快適雑音が、現実的ステレオ画像を作成するために、復号されたコヒーレンスを使用して生成される。
【0078】
一実施形態による空間コヒーレンスのエンコーディング
【0079】
周波数帯ごとに与えられるコヒーレンス代表値は、空間コヒーレンスベクトル
を形成し、そこで、N
bndは周波数帯の数であり、bは周波数帯インデックスであり、mはフレームインデックスである。一実施形態において、空間コヒーレンスベクトルC
mの値C
b,mは、フレームmおよび帯域bのための重み付けされた空間コヒーレンス値C
w(m,b)に対応する。
【0080】
一実施形態において、コヒーレンスベクトルは、可変ビットレートエントロピコーディングがその後に続く予測方式を使用して、符号化される。コーディング方式はさらに、適応型フレーム間予測を介して性能を向上させる。コヒーレンスベクトルのエンコーディングは、次の特質を考慮する:(1)変化するフレームごとのビット配分Bmへの適応型エンコーディング、(2)コヒーレンスベクトルが、強いフレーム対フレームの類似性を示す、および(3)エラー伝播は、失われたフレームについて低く保たれるべきである。
【0081】
変化するフレームごとのビット配分に対処するために、粗い-細かいエンコーディング戦略が実施される。より具体的には、粗いエンコーディングが、低ビットレートで先ず達成され、次の細かいエンコーディングは、ビット制限が達せられたときに、切り捨てられ得る。
【0082】
いくつかの実施形態において、粗いエンコーディングは、予測方式を用いて、実行される。そのような実施形態において、予測因子は、増加する帯域bのコヒーレンスベクトルに沿って機能し、ベクトルの前の値に基づいて各係数を推定する。すなわち、コヒーレンスベクトルのフレーム内予測が、実行され、以下によって与えられる:
【0083】
各予測因子セットP
(q)は、(N
bnd-1)予測因子から成り、各予測因子は、各帯域bのための(b-1)予測因子係数を含み、そこで、q=1,2,…N
qであり、N
qは、予測因子セットの総数を示す。前述のように、b=1のとき、前の値は存在せず、そして、コヒーレンスベクトルのフレーム内予測は、ゼロである。一例として、6つのコヒーレンス帯域が存在するとき、N
bnd=6、の予測因子セット数qは、以下により与えられる:
【0084】
もう1つの例として、予測因子セットの総数は、4でもよく、すなわち、N
q=4、これは、選択された予測因子セットが、2ビットを使用して、シグナリングされ得ることを示す。いくつかの実施形態において、予測因子セットqのための予測因子係数は、連続して対処され得、長さ
の単一のベクトルに記憶され得る。
【0085】
図7は、いくつかの実施形態によるエンコーディングプロセス701を示す流れ図である。エンコーディングプロセス701は、以下のステップに従って、エンコーダによって、実行され得る:
【0086】
ステップ700で、各フレームmについて、エンコーディングのために使われるビットを記録するためのビット変数(ビットカウンタとも称される)が、ゼロに初期化される(B
curr,m=0)。エンコーディングアルゴリズムが、コヒーレンスベクトル(C
b,m)を受信して、前の再構築されたコヒーレンスベクトル
のコピー、およびビット配分B
mを符号化する。いくつかの実施形態において、前述のエンコーディングステップで使われるビットは、B
mおよびB
curr,mに含まれ得る。そのような実施形態において、後述のアルゴリズムにおけるビット配分は、B
m-B
curr,mによって与えられ得る。
【0087】
ステップ710で、利用可能な予測因子p
(q)、q=1,2,…,N
q、から最小予測エラーを与える予測因子セットp
(q*)が、選択される。選択される予測因子セットは、式、
によって与えられる。
【0088】
いくつかの実施形態において、予測はゼロであり、エラーへの寄与は、すべての予測因子セットについて同じになるので、b=1は、予測因子セットから省かれる。選択された予測因子セットインデックスが、記憶され、ビットカウンタ(Bcurr,m)は、ビットの必要数で増やされ、たとえば、2つのビットが、予測因子セットを符号化するために必要とされる場合、Bcurr,m=Bcurr,m+2となる。
【0089】
ステップ720で、予測重み係数αが計算される。予測重み係数は、後述のステップ760に記載されるような加重予測を生み出すために使用される。重み係数αは、各フレームmにおいて空間コヒーレンス値のベクトルを符号化するために利用可能なビット配分Bmに基づいて判定される。
【0090】
概して、重み係数αは、0から1までの範囲の値を取り得る、すなわち、現在のフレーム(α=1)からの情報のみを使用することから、前のフレーム(α=0)およびその間のいずれか(0<α<1)からの情報のみを使用することまで。より低い重み係数αは、エンコーディングを、失われたフレームの影響をより受けやすくし得るので、いくつかの態様では、可能な限り高い重み係数αを使用することが望ましい。しかしながら、重み係数αのより低い値は、一般に、より少ない符号化されたビットを生じさせるので、重み係数αの選択は、フレームmごとのビット配分Bmとバランスを取られなければならない。
【0091】
エンコーディングで使用される重み係数αの値は、少なくとも黙示的に、受信ノード200bにおけるデコーダにおいて知られていなければならない。すなわち、一実施形態において、重み係数αに関する情報は、符号化され、デコーダに送信される(ステップS1016にあるように)必要がある。他の実施形態において、デコーダは、デコーダにおいて既に入手可能な他のパラメータに基づいて予測重み係数を導出することができる。重み係数αに関する情報をどのように提供するかのさらなる態様を以下で開示する。
【0092】
空間コヒーレンスを符号化するためのフレームmのためのビット配分Bmは、送信ノード200aからの明示的シグナリングなしに受信ノード200bにあるデコーダにおいて知られている。この点において、ビット配分Bmの値は、受信ノード200bに明示的にシグナリングされる必要はない。受信ノード200bにおけるデコーダは、ビットストリームの解釈の仕方を知っているので、そのデコーダはまた、いくつのビットが復号されたかも知っているという副作用が生じる。残りのビットは、単純に、全ビット配分(これもまた知られている)からビットの復号された数を差し引くことによって、受信ノード200bにあるデコーダにおいて見つけられる。
【0093】
いくつかの態様では、ビット配分Bmに基づいて、1セットの候補重み係数が、選択され、結合された予測および残差エンコーディング方式を用いる試行エンコーディング(後述されるようなレート切り捨て戦略を実行しない)が、使用される候補重み係数を所与として、符号化されたビットの総数を発見するために、すべてのこれらの候補重み係数について実行される。具体的には、一実施形態によれば、重み係数αは、1セットの少なくとも2つの候補重み係数を選択することと、各候補重み係数について空間コヒーレンス値のベクトルの試行エンコーディングを実行することとによって、判定される。
【0094】
いくつかの態様では、どの候補重み係数を試行エンコーディング中に使用するかは、ビット配分Bmに基づく。この点において、候補重み係数は、入力としてのビット配分Bmを有するテーブルルックアップを実行することを利用して、またはビット配分Bmを関数に入力することによって、決定され得る。テーブルルックアップは、1セットの背景雑音のトレーニングを介して取得されたテーブル値で実行され得る。
【0095】
各候補重み係数の試行エンコーディングは、空間コヒーレンス値のベクトルの符号化されたビットのそれぞれの総数を生じさせる。重み係数αは、次いで、候補重み係数の符号化されたビットの総数がビット配分Bm内に収まるか否かに応じて、選択され得る。具体的には、一実施形態によれば、重み係数αは、符号化されたビットの総数がビット配分Bm内に収まる最大の候補重み係数として選択される。一実施形態によれば、符号化されたビットの総数が、候補重み係数のうちのいずれのビット配分Bm内にも収まらないとき、重み係数αが、符号化されたビットの最も少ない総数を生じさせる候補重み係数として選択される。
【0096】
すなわち、すべての候補重み係数が、符号化されたビットの総数がビット配分Bm内にあるという結果をもたらす場合、最高の候補重み係数が、重み係数αとして選択される。同様に、候補重み係数のうちの最低の重み係数がビット配分Bm内のビットの総数につながる、または候補重み係数のうちのどの重み係数もビット配分Bm内のビットの総数につながらない場合にのみ、最低数のビットにつながる候補重み係数が、重み係数αとして選択される。候補重み係数のうちのどれが選択されたかは、次いで、デコーダにシグナリングされる。
【0097】
空間コヒーレンス値のベクトルのエンコーディングのために必要とされる、それぞれビットの数Bcurrlow,mおよびBcurrhigh,mをもたらす、2つの候補重み係数αlowおよびαhighについて試行エンコーディングが実行される、用例をここで開示する。
【0098】
入力としてB
curr,mを使用して、2つの候補重み係数α
lowおよびα
highが、入力としてのビット配分B
mを用いてテーブルルックアップを実行することによって、または関数にビット配分B
mを入力することによって、得られる。試行エンコーディングは、エンコーディングのために必要とされるビットの数の2つの値B
currlow,mおよびB
currhigh,mを生じさせる、各候補重み係数α
lowおよびα
highについて後述されるレート切り捨て戦略なしに実行される。これに基づいて、2つの候補重み係数α
lowおよびα
highのうちの1つが、次のようなエンコーディングに従って、選択される:
【0099】
選択された重み係数αは、1つのビットを使用して符号化される、たとえば、αlowのための「0」およびαhighのための「1」。重み係数αの前述の表現における第3の代替は、以下のように解釈されるべきである:候補重み係数αlowおよびαhighの両方が、ビット配分Bmを超える符号化されたビットの結果的数を生じさせる場合、最低数の符号化されたビットを生じさせる候補重み係数が、選択される。
【0100】
ステップ730における帯域b=1,2,..Nbndのそれぞれについて、以下のステップが実行される:
【0101】
ステップ740において、フレーム内予測値、
、が得られる。第1の帯域(b=1)について前述の符号化されたコヒーレンス値は存在しない。いくつかの実施形態において、第1の帯域についてのフレーム内予測は、ゼロにセットされ得る、
。いくつかの実施形態において、第1の帯域のフレーム内予測は、平均値
、
、にセットされ得る。
【0102】
いくつかの代替実施形態において、第1の帯域のコヒーレンス値は、別個に符号化され得る。そのような実施形態において、第1の値は、スカラ量子化器を使用して符号化されて再構築された値
を生み出す。それに応じて、第1の帯域のフレーム内予測は、再構築された値、
、にセットされ得る。ビットカウンタ、B
curr,mは、係数を符号化するために必要とされるビットの量だけ増やされる。たとえば、3ビットが、係数を符号化するために使用される場合、3ビットが、エンコーディングのために使われるビットの現在の量に追加される、たとえば、B
curr,m=B
curr,m+3。
【0103】
残りの帯域b=2,3,…,N
bndについて、フレーム内予測
は、前に符号化されたコヒーレンス値、すなわち
、に基づく。
【0104】
ステップ750で、フレーム間予測値、
、が、1つまたは複数の先行フレームから前に再構築されたコヒーレンスベクトル要素に基づいて取得される。背景雑音が安定しているまたはゆっくりと変化する場合には、コヒーレンス帯域値C
b,mにおけるフレーム対フレームの変動は、小さくなる。したがって、前のフレームからの値を使用するフレーム間予測は、しばしば、小さい予測残差および小さい残差コーディングビットレートを生じさせる優れた概算になる。一例として、帯域bの最後の再構築された値は、フレーム間予測値のために使用され得る、すなわち、
。2つ以上の先行フレームを考慮するフレーム間線形予測因子は、
として公式化することができ、そこで、
は、フレームmのすべての帯域bのためのフレーム間の予測されたコヒーレンス値の列ベクトルを示し、
は、フレームm-nのすべての帯域bの再構築されたコヒーレンス値を表し、そして、g
nは、N
inter先行フレームにわたる線形予測因子係数である。g
nは、事前に規定されたセットの予測因子から選択することができ、その場合、使用される予測因子は、デコーダに通信され得るインデックスで表される必要がある。
【0105】
ステップ760で、加重予測、
、は、フレーム内予測、
、フレーム間予測、
、および予測重み係数αに基づいて、形成される。いくつかの実施形態において、加重予測は、
によって与えられる。
【0106】
ステップ770で、予測残差が、計算および符号化される。いくつかの実施形態において、予測残差が、コヒーレンスベクトルおよび加重予測、すなわち、
、に基づいて、計算される。いくつかの実施形態において、スカラ量子化器が、予測残差をインデックスI
b,mに量子化するために使用される。そのような実施形態において、インデックスは、I
b,m=SQ(r
b,m)によって与えられ、そこで、SQ(x)は、適切な範囲を有するスカラ量子化器関数である。スカラ量子化器の一例は、下記の表1に示される。表1は、予測残差の再構築レベルおよび量子化器インデックスの一例を示す。
【0107】
いくつかの実施形態において、インデックスI
b,mは、より小さい値のためにより少ないビットを消費する可変長コードワード方式で符号化される。予測残差の符号化のいくつかの例は、ハフマンコーディング、ゴロム・ライスコーディング、および単項コーディング(単項コーディングは、除数1を有するゴロム・ライスコーディングと同じである)である。予測残差の符号化のステップにおいて、残りのビット配分(B
m-B
curr,m)が考慮される必要がある。インデックスI
b,mに対応するコードワードの長さL
code(I
b,m)が、残りのビット配分内に収まる、すなわち、L
code(I
b,m)≦B
m-B
curr,m、の場合、インデックスI
b,mが、最終インデックスI
*
b,mとして選択される。残りのビットが、インデックスI
b,mを符号化するのに十分ではない場合、ビットレート切り捨て戦略が、適用される。いくつかの実施形態において、ビットレート切り捨て戦略は、より小さい残差値はより少ないビットを消費すると想定して、最も大きい可能な残差値を符号化することを含む。そのようなレート切り捨て戦略は、
図8にテーブル800によって示されたようなコードブックを並べ替えることによって、実現することができる。
図8は、表1に示されたスカラ量子化器の例のための単項コードワードマッピングを有する例示的量子化器テーブル800を示す。いくつかの実施形態において、ビットレート切り捨ては、コードワード0に達するまで、テーブル800を2ステップ上に進むことによって、実現され得る。すなわち、
図8は、長いコードワードからより短いコードワードに上向きに移動する切り捨て方式を示す。再構築された値の正しいサインを維持するために、各切り捨てステップは、それぞれ負の値および正の値の破線の矢印および実線の矢印によって示されているように、テーブル800を2ステップ上に進む。テーブル800を2ステップ上に移動することによって、新しい切り捨てられたコードブックインデックス
が、発見され得る。上方検索は、
が満たされるあるいはテーブル800の最上部に達するまで、継続する。
【0108】
上方検索によって判定されたコードワードの長さが、ビット配分を超えていない場合、最終インデックスが選択され
、I
*
b,mがビットストリームに出力され、再構築された残差が、最終インデックスに基づいて形成される、すなわち、
。
【0109】
上方検索後に、コードワードの長さが、ビット配分をまだ超えている場合、
、これは、ビット制限に達したことB
m=B
curr,mを意味する。そのような場合には、再構築された残差はゼロにセットされ
、インデックスはビットストリームに追加されない。デコーダは、同期されたビットカウンタ、B
curr,m、を保持するので、デコーダは、この状況を検出し、明示的シグナリングなしに
を使用することができる。
【0110】
代替実施形態において、初期インデックスに関連するコードワードの長さが、ビット配分を超える場合、残差値は、直ちにゼロにセットされ、それにより、前述の上方検索を控える。これは、計算複雑性が危機的である場合に、有益になり得る。
【0111】
ステップ780で、再構築されたコヒーレンス値
が、再構築された予測残差および加重予測に基づいて形成される、すなわち、
。
【0112】
ステップ790で、ビットカウンタが、それに応じて、インクリメントされる。前述のように、ビットカウンタは、エンコーディングプロセス701を通して増やされる。
【0113】
いくつかの実施形態において、コヒーレンスベクトルにおけるフレーム対フレームの変動は、小さい。したがって、前のフレーム値を使用するフレーム間予測は、しばしば、小さい予測残差および小さい残差コーディングビットレートを生じさせる優れた概算である。加えて、予測重み係数αは、ビットレート対フレーム損失回復力のバランスを取る目的にかなう。
【0114】
図9は、いくつかの実施形態による復号プロセス901を示す流れ図である。エンコーディングプロセス701に対応する復号プロセス901が、以下のステップに従ってデコーダによって実行され得る:
【0115】
ステップ900で、復号プロセス901の間に消費されるビットを記録するように設定されたビットカウンタ、B
curr,m、が、ゼロに初期化される、すなわち、B
curr,m=0。各フレームmについて、デコーダは、最後の再構築されたコヒーレンスベクトル
およびビット配分B
mのコピーを取得する。
【0116】
ステップ910で、選択された予測因子セットp(q*)が、ビットストリームから復号される。ビットカウンタが、選択された予測因子セットを復号するために必要とされるビットの量だけ増やされる。たとえば、2つのビットが、選択された予測因子セットを復号するために必要とされる場合、ビットカウンタ、Bcurr,m、は、2だけ増やされる、すなわち、Bcurr,m=Bcurr,m+2。
【0117】
ステップ920で、エンコーダで使用される重み係数に対応する予測重み係数αが、導出される。
【0118】
ステップ930において帯域b=1,2..Nbndのそれぞれについて、以下のステップが実行される:
【0119】
ステップ940で、内部の予測値、
、が取得される。第1の帯域のフレーム内予測が、エンコーディングプロセス701のステップ740と同様に取得される。それに応じて、第1のフレームのフレーム内予測は、ゼロにセットされ得
、第1の帯域の平均値
またはコヒーレンス値が、ビットストリームから復号され得、そして、第1のフレームのフレーム内予測が、再構築された値にセットされ得る
。係数が復号された場合、ビットカウンタ、B
curr,m、が、符号化のために必要とされるビットの量だけ増やされる。たとえば、3つのビットが、係数の符号化のために必要とされる場合、ビットカウンタ、B
curr,m、は、3だけ増やされる、すなわち、B
curr,m=B
curr,m+3。
【0120】
残りの帯域b=2,3,..N
bndについて、フレーム内予測
は、前に復号されたコヒーレンス値に基づく、すなわち、
。
【0121】
ステップ950で、フレーム間予測値、
、が、エンコーディングプロセス701のステップ750と同様に取得される。一例として、帯域bの最後の再構築された値は、フレーム間予測値のために使用され得る、すなわち、
。
【0122】
ステップ960で、加重予測、
、は、フレーム内予測、
、フレーム間予測、
、および予測重み係数αに基づいて、形成される。いくつかの実施形態において、加重予測は、
によって与えられる。
【0123】
ステップ970で、再構築された予測残差、
、が復号される。ビットカウンタ、B
curr、m、が、ビット制限未満である場合、すなわち、B
curr、m<B
m、再構築された予測残差は、入手可能な量子化器インデックスから導出される
。ビットカウンタが、ビット制限と等しいまたはこれを超える場合、再構築された予測残差は、ゼロにセットされる、すなわち、
。
【0124】
ステップ980で、コヒーレンス値
が、再構築された予測残差および加重予測に基づいて再構築される、すなわち、
。ステップ990で、ビットカウンタがインクリメントされる。
【0125】
いくつかの実施形態において、CNGのさらなる強化が、エンコーダにおいて必要とされ得る。そのような実施形態において、ローカルデコーダは、再構築されたコヒーレンス値
が使用される、エンコーダ内で実行されることになる。
【0126】
図10は、ベクトルを符号化するために送信ノード200aのエンコーダによって実行される、いくつかの実施形態による、プロセス1000を示す流れ図である。プロセス1000は、エンコーダが予測重み係数を形成する、ステップS1002で開始し得る。以下のステップS1004からS1014は、各ベクトル要素について繰り返され得る。ステップS1004で、エンコーダが、ベクトル要素の第1の予測を形成する。いくつかの実施形態において、第1の予測は、ベクトルのシーケンス内の現在のベクトルに基づくフレーム内予測である。そのような実施形態において、フレーム内予測は、1セットの予測因子から予測因子を選択することと、選択された予測因子を現在のベクトルの再構築された要素に適用することと、選択された予測因子に対応するインデックスを符号化することとを含む、プロセスを実行することによって、形成される。ステップS1006で、エンコーダが、ベクトル要素の第2の予測を形成する。いくつかの実施形態において、第2の予測は、再構築されたベクトルのシーケンス内の1つまたは複数の前のベクトルに基づくフレーム間予測である。
【0127】
ステップS1008で、エンコーダが、予測重み係数を使用する第2の予測および第1の予測を結合予測内に結合させる。
【0128】
ステップS1010で、エンコーダが、ベクトル要素および結合予測を使用する予測残差を形成する。ステップS1012で、エンコーダが、可変ビットレート方式で予測残差を符号化する。いくつかの実施形態において、予測残差が、量子化されて第1の残差量子化器インデックスを形成し、そこで、第1の残差量子化器インデックスは、第1のコードワードに関連する。いくつかの実施形態において、可変ビットレート方式を用いる予測残差の符号化のステップは、第1のコードワードの長さが残りのビットの量を超えていないと判定することの結果として、第1の残差量子化器インデックスを符号化することを含む。いくつかの実施形態において、可変ビットレート方式を用いる予測残差の符号化のステップは、第1のコードワードの長さは残りのビットの量を超えていると判定することの結果として、第2の残差量子化器インデックスを取得することを含み、そこで、第2の残差量子化器インデックスは、第2のコードワードに関連しており、そこで、第2のコードワードの長さは、第1のコードワードの長さよりも短い。そのような実施形態において、プロセス600は、エンコーダが、第2のコードワードの長さが残りのビットの判定された量を超えているかどうかを判定する、さらなるステップを含む。
【0129】
ステップS1014で、エンコーダは、結合予測および予測残差に基づいてベクトル要素を再構築する。ステップS1016で、エンコーダが、符号化された予測残差を送信する。いくつかの実施形態において、エンコーダはまた、予測重み係数を符号化し、符号化された予測重み係数を送信する。
【0130】
いくつかの実施形態において、プロセス1000は、エンコーダが、第1の入力チャネルで第1の信号を受信し、第2の入力チャネルで第2の信号を受信し、第1の信号および第2の信号のスペクトル特性を判定し、第1の信号および第2の信号の判定されたスペクトル特性に基づいて空間コヒーレンスを判定し、空間コヒーレンスに基づいてベクトルを判定する、さらなるステップを含む。
【0131】
図11は、ベクトルを復号するために受信ノード200bのデコーダによって実行される、いくつかの実施形態による、プロセス1100を示す流れ図である。プロセス1100は、デコーダが予測重み係数を取得する、ステップ1102で開始し得る。いくつかの実施形態において、予測重み係数を取得するステップは、(i)予測重み係数を導出すること、あるいは(ii)予測重み係数を受信および復号することを含む。以下のステップS1104からS1112は、ベクトルの各要素について繰り返され得る。ステップS1104で、デコーダは、ベクトル要素の第1の予測を形成する。いくつかの実施形態において、第1の予測は、ベクトルのシーケンス内の現在のベクトルに基づくフレーム内予測である。そのような実施形態において、フレーム内予測は、予測因子を受信および復号することと復号された予測因子を現在のベクトルの再構築された要素に適用することとを含むプロセスを実行することによって、形成される。ステップS1106で、デコーダが、ベクトル要素の第2の予測を形成する。いくつかの実施形態において、第2の予測は、ベクトルのシーケンス内の1つまたは複数の前のベクトルに基づくフレーム間予測である。
【0132】
ステップS1108で、デコーダが、予測重み係数を使用する第2の予測および第1の予測を結合予測内に結合させる。
【0133】
ステップS1110で、デコーダが、受信された符号化された予測残差を復号する。いくつかの実施形態において、符号化された予測残差を復号するステップは、復号のために利用可能な残りのビットの量を判定することと、符号化された予測残差を復号することが残りのビットの量を超えるかどうかを判定することとを含む。いくつかの実施形態において、符号化された予測残差を復号するステップは、符号化された予測残差を復号することが残りのビットの量を超えると判定することの結果として、予測残差をゼロにセットすることを含む。いくつかの実施形態において、符号化された予測残差を復号するステップは、符号化された予測残差を復号することが残りのビットの量を超えないと判定することの結果として予測インデックスに基づいて予測残差を導出することを含み、そこで、予測インデックスは、予測残差の量子化である。
【0134】
ステップS1112で、デコーダが、結合予測および予測残差に基づいてベクトル要素を再構築する。いくつかの実施形態において、ベクトルは、一連のベクトルのうちの1つである。いくつかの実施形態において、プロセス1100は、デコーダが、再構築されたベクトルに基づいて少なくとも2つの出力チャネルの信号を生成する、ステップをさらに含む。
【0135】
図12は、いくつかの機能ユニットに関して、一実施形態による送信ノード200aの構成要素を概略的に示す。処理回路210は、たとえば、記憶媒体230の形で、コンピュータプログラム製品1410(
図14にあるような)に記憶されたソフトウェア命令を実行する能力を有する、適切な中央処理装置(CPU)、マルチプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)などのうちの1つまたは複数の任意の組合せを使用して実現される。処理回路210はさらに、少なくとも1つの特定用途向け集積回路(ASIC)、またはフィールドプログラマブルゲートアレイ(FPGA)として提供され得る。
【0136】
具体的には、処理回路210は、前述のように、1セットの動作、またはステップを送信ノード200aに実行させるように設定される。たとえば、記憶媒体230は、動作のセットを記憶することができ、処理回路210は、記憶媒体230から動作のセットを検索して、その動作のセットを送信ノード200aに実行させるように設定され得る。動作のセットは、1セットの実行可能命令として提供され得る。したがって、処理回路210は、それにより、本明細書で開示される方法を実行するように配置される。
【0137】
一実施形態において、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノード200aは、処理回路210を備える。処理回路は、少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を送信ノードに判定させ、それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定させるように設定され、そこで、空間コヒーレンスは、知覚的重要性尺度に関連付けられる。送信ノードはさらに、空間コヒーレンスを周波数帯に分けるようにさせられ、そこで、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンスに重み付けすることによって、周波数帯ごとに判定される。送信ノードはさらに、受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするために、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードへシグナリングさせられる。
【0138】
送信ノード200aにさらに、ベクトルの第1の予測、ベクトルの第2の予測、予測重み係数、ならびにベクトルおよび結合予測を使用する予測残差を形成することによって空間コヒーレンスベクトルを符号化することを行わせ得る。送信ノードにさらに、可変ビットレート方式で予測残差を符号化すること、および結合予測および予測残差に基づいてベクトルを再構築することを行わせ得る。送信ノードにさらに、符号化された予測重み係数および符号化された予測残差を受信ノード200bに送信することを行わせ得る。
【0139】
記憶媒体230はまた、たとえば、磁気メモリ、光メモリ、ソリッドステートメモリまたはさらには遠隔に取り付けられたメモリのうちの任意の単独の1つまたは組合せでもよい、永続記憶装置を備え得る。送信ノード200aが、受信ノード200bとの通信のために少なくとも設定された通信インターフェース220をさらに備え得る。そのようなものとして、通信インターフェース220は、アナログおよびデジタル構成要素を備える、1つまたは複数の送信機および受信機を備え得る。処理回路210は、たとえば、通信インターフェース220および記憶媒体230にデータおよび制御信号を送信することによって、通信インターフェース220からデータおよび報告を受信することによって、および記憶媒体230からデータおよび命令を取得することによって、送信ノード200aの一般動作を制御する。送信ノード200aの他の構成要素、ならびに関連機能は、本明細書で示される概念を分かりにくくしないために、省略される。
【0140】
図13は、いくつかの機能モジュールに関して、一実施形態による送信ノード200aの構成要素を概略的に示す。
図13の送信ノード200aは、いくつかの機能モジュール、ステップS102、S202を実行するように設定された判定モジュール210aと、ステップS104、S204を実行するように設定された判定モジュール210bと、ステップS106を実行するように設定された分割モジュール210cと、ステップS108、S206を実行するように設定された信号モジュール210dと、を備える。
図13の送信ノード200aはさらに、いくつかの任意選択の機能モジュール(
図8に示さず)を備え得る。送信ノードは、たとえば、ベクトルの第1の予測を形成するための第1の形成ユニット、ベクトルの第2の予測を形成するための第2の形成ユニット、予測重み係数を形成および符号化するための第3の形成ユニットおよびエンコーディングユニット、予測重み係数を使用する第2の予測および第1の予測を結合予測内に結合させるための結合ユニット、ベクトルおよび結合予測を使用する予測残差を形成するための第4の形成ユニット、可変ビットレート方式を用いた予測残差の符号化のためのエンコーディングユニット1014を備え得る。信号モジュール210dは、符号化された予測重み係数および符号化された予測残差を送信するためにさらに設定され得る。
【0141】
一般的には、各機能モジュール210a~210dは、1つの実施形態においてハードウェアのみにおいて実装され得、別の実施形態においてソフトウェアを用いて実装され得る、すなわち、後者の実施形態は、処理回路で実行されるとき、
図12に関連して前述された対応するステップを送信ノード200aに実行させる、記憶媒体230に記憶されたコンピュータプログラム命令を有する。モジュールはコンピュータプログラムの部分に対応するけれども、それらはそこで別個のモジュールである必要はないこともまた述べられるべきであるが、それらがソフトウェアにおいて実装される方法は、使用されるプログラミング言語に依存する。好ましくは、1つまたは複数のまたはすべての機能モジュール210a~210dは、処理回路210によって、場合により通信インターフェース220および/または記憶媒体230と連携して、実装され得る。したがって、処理回路210は、機能モジュール210a~210dによって提供されるものとしての記憶媒体230フェッチ命令を形成し、これらの命令を実行するように設定され得、それにより、本明細書で開示されるようないずれかのステップを実行する。
【0142】
送信ノード200aは、独立型デバイスとしてまたは少なくとも1つのさらなるデバイスの一部としても提供され得る。たとえば、
図1の例にあるように、いくつかの態様では、送信ノード200aは、無線トランシーバデバイス200の一部である。したがって、いくつかの態様では、本明細書で開示されるような送信ノード200aを備える無線トランシーバデバイス200が提供される。いくつかの態様では、無線トランシーバデバイス200はさらに、受信ノード200bを備える。
【0143】
別法として、送信ノード200aの機能は、少なくとも2つのデバイス、またはノードの間で分散され得る。これらの少なくとも2つのノード、またはデバイスは、同じネットワーク部分の一部でもよく、または少なくとも2つのそのようなネットワーク部分の間に広がり得る。したがって、送信ノード200aによって実行される命令の第1の部分は、第1のデバイスにおいて実行され得、そして、送信ノード200aによって実行される命令の第2の部分は、第2のデバイスにおいて実行され得、本明細書で開示される実施形態は、送信ノード200aによって実行される命令が実行され得る任意の特定の数のデバイスに限定されない。したがって、本明細書で開示される実施形態による方法は、クラウドコンピュータ環境内に存在する送信ノード200aによって実行されるのに適している。したがって、単一の処理回路210が、
図12に示されているが、処理回路210は、複数のデバイス、またはノードの間で分散され得る。同じことが、
図13の機能モジュール210a~210dおよび
図14のコンピュータプログラム1420に適用される(下記を参照)。
【0144】
受信ノード200bは、コヒーレンスを再構築するためのおよび最初のサウンドに類似したステレオ画像を有する快適雑音信号を作成するためのデコーダを備える。デコーダはさらに、ベクトルの第1の予測およびベクトルの第2の予測を形成するように、ならびに予測重み係数を取得するように設定され得る。デコーダはさらに、予測重み係数を使用する第2の予測および第1の予測を結合予測内に結合させるように設定され得る。デコーダはさらに、結合予測と受信および復号された予測残差とに基づいてベクトルを再構築するように設定され得る。
【0145】
図14は、コンピュータ可読記憶媒体1430を備えるコンピュータプログラム製品1410の1つの例を示す。このコンピュータ可読記憶媒体1430に、コンピュータプログラム1420が記憶され得、コンピュータプログラム1420は、処理回路210とそこに動作可能に結合されたエンティティおよびデバイス、たとえば通信インターフェース220および記憶媒体230、とに本明細書に記載の実施形態による方法を実行させることができる。それにより、コンピュータプログラム1420および/またはコンピュータプログラム製品1410は、本明細書で開示されるような任意のステップを実行するための手段を提供することができる。
【0146】
図14の例において、コンピュータプログラム製品1410は、光ディスク、たとえばCD(コンパクトディスク)またはDVD(デジタル多用途ディスク)またはブルーレイディスク、として示されている。コンピュータプログラム製品1410はまた、メモリ、たとえば、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、または電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、として、およびさらに具体的にはUSB(Universal Serial Bus:ユニバーサルシリアルバス)メモリもしくはフラッシュメモリ、たとえば、コンパクトフラッシュメモリ、などの外部メモリ内のデバイスの不揮発性記憶媒体として実施され得る。したがって、コンピュータプログラム1420は、ここでは、図示された光ディスク上のトラックとして概略的に示されているが、コンピュータプログラム1420は、コンピュータプログラム製品1410に適した任意の方法で記憶され得る。
【0147】
本明細書で開示される提案されている解決法は、ステレオエンコーダおよびデコーダアーキテクチャあるいはマルチチャネルエンコーダおよびデコーダに適用され、そこで、チャネルコヒーレンスは、チャネルペアで考慮される。
【0148】
図15は、いくつかの実施形態によるパラメトリックステレオエンコーディングおよび復号システム1500を示す。パラメトリックステレオエンコーディングおよび復号システム1500は、CNGエンコーダ1504を含むモノエンコーダ1503と、CNGデコーダ1506を含むモノデコーダ1505とを備える。エンコーダ1501は、入力チャネルペア1507A~1507Bの分析を実行し、パラメトリック分析1508を介してステレオ画像のパラメトリック表現を取得し、ダウンミックス1509を介してチャネルを単一のチャネルに減らし、それにより、ダウンミックスされた信号を取得する。ダウンミックスされた信号は、モノエンコーダ1503によってモノエンコーディングアルゴリズムを用いて符号化され、ステレオ画像のパラメトリック表現が、パラメータエンコーダ1510によって符号化される。ステレオ画像の符号化されたダウンミックスされた信号およびパラメトリック表現が、ビットストリーム1511を介して送信される。デコーダ1502は、モノデコーダ1505を使用してモノ復号アルゴリズムを適用し、合成されたダウンミックスされた信号を取得する。パラメータデコーダ1512は、ステレオ画像の受信されたパラメトリック表現を復号する。デコーダ1502は、ステレオ画像の復号されたパラメトリック表現を使用する合成されたチャネルペアに合成されたダウンミックス信号を変換する。パラメトリックステレオエンコーディングおよび復号システム1500はさらに、パラメトリック分析1508内のコヒーレンス分析1513およびパラメータ合成1515内のコヒーレンス合成1514を含む。パラメトリック分析1508は、入力信号1507A~1507Bのコヒーレンスを分析するための能力を含む。モノエンコーダ1503がCNGエンコーダ1504として動作するように設定されるとき、パラメトリック分析1508は、入力信号1507A~1507Bを分析することができる。モノエンコーダ1503はさらに、いくつかの実施形態によるステレオエンコーダVADを備え得る。ステレオエンコーダVADは、信号は背景雑音を含むことをCNGエンコーダ1504に指示することができ、それにより、CNGエンコーダ1504を起動する。それに応じて、コヒーレンス分析1513を含むCNG分析が、パラメトリック分析1508において起動され、モノエンコーダ1503が、CNGエンコーダ1504を起動させる。結果として、コヒーレンスおよびモノCNGの符号化された表現が、送信および/または記憶するためにビットストリーム1511にまとめられる。デコーダ1502が、ビットストリーム1511内のステレオCNGフレームを識別し、モノCNGおよびコヒーレンス値を復号し、目標コヒーレンスを合成する。CNGフレームを復号するとき、デコーダ1502は、2つの合成チャネル1517A~1517Bに対応する2つのCNGフレームを生み出す。
【0149】
本明細書で提示される概念をさらに説明するための1セットの例示的実施形態が、以下に続く。
【0150】
1.受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
空間コヒーレンスを周波数帯に分けることであって、空間コヒーレンスの圧縮表現は、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることとを含む、方法。
【0151】
2.知覚的重要性尺度が、少なくとも2つの入力オーディオチャネルのスペクトル特性に基づく、項目1に記載の方法。
【0152】
3.知覚的重要性尺度が、少なくとも2つの入力オーディオチャネルのパワースペクトルに基づいて判定される、項目2に記載の方法。
【0153】
4.知覚的重要性尺度が、少なくとも2つの入力オーディオチャネルの加重和のパワースペクトルに基づいて判定される、項目2に記載の方法。
【0154】
5.空間コヒーレンスの圧縮表現が、周波数帯ごとの1つの単一値である、項目1に記載の方法。
【0155】
6.受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することであって、スペクトル特性は、知覚的重要性尺度に関連付けられる、スペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、周波数帯に分けられ、空間コヒーレンスの1つの単一値は、スペクトル特性の対応する値の知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、空間コヒーレンスを判定することと、
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノードにシグナリングすることとを含む、方法。
【0156】
7.スペクトル特性の所与の値の知覚的重要性尺度が、少なくとも2つの入力オーディオチャネルのオーディオ信号の合計の電力によって規定される、項目1または6に記載の方法。
【0157】
8.より高いエネルギを有するスペクトル特性の値に対応する空間コヒーレンス値が、より低いエネルギを有するスペクトル特性の値に対応する空間コヒーレンス値と比較して、より大きな影響を空間コヒーレンスの前記1つの単一値に及ぼすように、各周波数帯内の空間コヒーレンス値が、重み付けされる、項目1または6に記載の方法。
【0158】
9.少なくとも2つのオーディオチャネルの、フレームインデックスmおよびサンプルインデックスnのための、オーディオ信号l(m,n)、r(m,n)が、スペクトル特性が判定される前に、それぞれの窓処理される信号lwin(m,n)、rwin(m,n)を形成するために窓処理される、項目1または6に記載の方法。
【0159】
10.フレームインデックスmおよびサンプルインデックスkのための空間コヒーレンスC(m,k)が、次のように判定される、項目9に記載の方法:
そこで、L(m,k)は、窓処理されるオーディオ信号l
win(m,n)のスペクトルであり、R(m,k)は、窓処理されるオーディオ信号r
win(m,n)のスペクトルであり、そして、*は、複素共役を示す。
【0160】
11.lr(m,n)=l(m,n)+r(m,n)のエネルギスペクトル|LR(m,k)|2は、フレームm内の知覚的重要性尺度を規定し、空間コヒーレンス値に重み付けするために使用される、項目10に記載の方法。
【0161】
12.各周波数帯は、下縁と上縁との間に広がり、そして、フレームインデックスmおよび周波数帯bのための空間コヒーレンスの前記1つの単一値は、C
w(m,b)で示され、次のように判定される:
そこで、N
bandは、周波数帯の総数を示し、そして、limit(b)は、周波数帯bのより低い周波数ビンを示す、項目11に記載の方法。
【0162】
13.limit(b)が、関数またはルックアップテーブルとして与えられる、項目12に記載の方法。
【0163】
14.空間コヒーレンスが、等しくない長さの周波数帯に分けられる、項目1または6に記載の方法。
【0164】
15.受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノードであって、処理回路を備え、処理回路は、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
空間コヒーレンスを周波数帯に分けることであって、空間コヒーレンスの圧縮表現が、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせるように設定される、送信ノード。
【0165】
16.項目2から5のいずれか一項に記載の方法を実行するようにさらに設定された、項目15に記載の送信ノード。
【0166】
17.受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするためのであって、処理回路を備え、処理回路は、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することであって、スペクトル特性は、知覚的重要性尺度に関連付けられる、スペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、周波数帯に分けられ、空間コヒーレンスの1つの単一値は、スペクトル特性の対応する値の知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、空間コヒーレンスを判定することと、
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせるように設定される、送信ノード。
【0167】
18.項目7から14のいずれか一項に記載の方法を実行するようにさらに設定された、項目17に記載の送信ノード。
【0168】
19.無線トランシーバデバイスであって、項目15から18のいずれか一項に記載の送信ノードを備える無線トランシーバデバイス。
【0169】
20.受信ノードをさらに備える、項目19に記載の無線トランシーバデバイス。
【0170】
21.受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラムであって、コンピュータコードを備え、コンピュータコードが、送信ノードの処理回路で実行されるとき、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、知覚的重要性尺度に関連付けられる、空間コヒーレンスを判定することと、
空間コヒーレンスを周波数帯に分けることであって、空間コヒーレンスの圧縮表現が、知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、周波数帯に分けることと、
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの圧縮表現に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせる、コンピュータプログラム。
【0171】
22.受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするためのコンピュータプログラムであって、コンピュータコードを備え、コンピュータコードが送信ノードの処理回路で実行されるとき、
少なくとも2つの入力オーディオチャネルのオーディオ信号のスペクトル特性を判定することであって、スペクトル特性は、知覚的重要性尺度に関連付けられる、スペクトル特性を判定することと、
それぞれの入力オーディオチャネルのオーディオ信号間の空間コヒーレンスを判定することであって、空間コヒーレンスは、周波数帯に分けられ、空間コヒーレンスの1つの単一値は、スペクトル特性の対応する値の知覚的重要性尺度に従って各周波数帯内の空間コヒーレンス値に重み付けすることによって、周波数帯ごとに判定される、空間コヒーレンスを判定することと、
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成を可能にするための、スペクトル特性に関する情報および周波数帯ごとの空間コヒーレンスの単一値に関する情報を受信ノードにシグナリングすることと
を送信ノードに行わせる、コンピュータプログラム。
【0172】
23.項目21および22のうちの少なくとも1つの項に記載のコンピュータプログラム、およびコンピュータプログラムが記憶されるコンピュータ可読記憶媒体を備える、コンピュータプログラム製品。
【0173】
一般に、例示的実施形態および添付の特許請求の範囲で使用されるすべての用語は、本明細書において別段の明示的規定のない限り、その技術分野における通常の意味に従って解釈されるものとする。別段の明示的記述のない限り、「1つの/一/その要素、装置、構成要素、手段、モジュール、ステップなど」のすべての参照は、要素、装置、構成要素、手段、モジュール、ステップなどの少なくとも1つの例を参照するものとして解釈されるものとする。本明細書で開示されるいずれの方法のステップも、明示的に記述されていない限り、開示された正確な順番で実行されなくてもよい。
【0174】
本発明の概念は、主に、いくつかの実施形態を参照して前述されている。しかしながら、前述の開示された実施形態以外の実施形態が、列挙された実施形態の添付のリストによって規定されるものとしての、本発明の概念の範囲内で同等に可能であることが、当業者には容易に理解されよう。
【手続補正書】
【提出日】2022-06-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための、送信ノードによって実行される方法であって、
それぞれの前記オーディオチャネルのオーディオ信号間の空間コヒーレンスを決定することであって、フレームmおよび周波数帯bごとの少なくとも1つの空間コヒーレンス値C
b,mが、空間コヒーレンス値のベクトルを形成するために決定され、前記予測された空間コヒーレンス値
のベクトルは、第1のコヒーレンス予測値
と、第2のコヒーレンス予測値
との重み付けされた組み合わせによって形成され、
前記第1のコヒーレンス予測値
および、前記第2のコヒーレンス予測値
は、重み係数αを用いて、組み合わされる、空間コヒーレンスを決定すること(S104)と、
各フレームmにおいて空間コヒーレンス値のベクトルを符号化するために利用可能なビット配分B
mに基づいて、重み係数αを決定すること(S106)と、
前記受信ノードにおける前記少なくとも2つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記重み係数αについての情報を前記受信ノードにシグナリングすること(S110)と
を含む、方法。
【請求項2】
前記第1のコヒーレンス予測値
は、前記空間コヒーレンス値のベクトルのフレーム内予測値
によって規定されている、請求項1に記載の方法。
【請求項3】
前記第2のコヒーレンス予測値
は、前記空間コヒーレンス値のベクトルのフレーム内予測値
によって規定されている、請求項1に記載の方法。
【請求項4】
前記予測された空間コヒーレンス値
は、
によって決定される、請求項2または3に記載の方法。
【請求項5】
前記重み係数αは、ビット配分Bm内の符号化されたビットの総数がビット配分Bm内に収まる最大の候補重み係数として選択される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記符号化されたビットの総数が、前記候補重み係数のうちのいずれのビット配分Bm内にも収まらないとき、前記重み係数αが、符号化されたビットの最も少ない総数を生じさせる候補重み係数として選択される、請求項1から4のいずれか一項に記載の方法。
【請求項7】
前記重み係数αは、1セットの少なくとも2つの候補重み係数を選択することと、各候補重み係数について空間コヒーレンス値のベクトルの試行エンコーディングを実行することとによって、決定される、請求項1から6のいずれか一項に記載の方法。
【請求項8】
各候補重み係数の前記試行エンコーディングは、空間コヒーレンス値のベクトルの符号化されたビットのそれぞれの総数を生じさせ、前記重み係数αは、前記候補重み係数の前記符号化されたビットの総数がビット配分Bm内に収まるか否かに応じて、選択される、請求項7に記載の方法。
【請求項9】
前記空間コヒーレンス値のベクトルの前記エンコーディングのために必要とされる、それぞれがBcurrlow,mおよびBcurrhigh,mの前記ビットの数をもたらす、2つの候補重み係数αlowおよびαhighについて試行エンコーディングが実行される、請求項7または8に記載の方法。
【請求項10】
前記重み係数αが、
に従って選択され、B
curr,mは、ビット配分を示す、
請求項9に記載の方法。
【請求項11】
入力オーディオチャネルのオーディオ信号のスペクトル特性を決定することと、
前記スペクトル特性に関する情報を前記受信ノードにシグナリングすることと、
をさらに含む、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記空間コヒーレンス値のベクトルから、少なくとも1つの予測空間コヒーレンス値
を減算することにより、フレームmおよび周波数帯域bごとの量子化予測エラーを決定(S108)することと、
前記受信ノードへの量子化された前記予測エラーに関する情報をシグナリングする(S110b)ことと、
をさらに含む、請求項1から11のいずれか一項に記載の方法。
【請求項13】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音を生成するための、受信ノードによって実行される方法であって、
送信ノードから重み係数αに関する情報を受信する(S202)ことと、
それぞれのオーディオチャネルのオーディオ信号間の空間コヒーレンスを決定することであって、フレームmおよび周波数帯域bごとの少なくとも1つの予測空間コヒーレンス値
は、予測された空間コヒーレンス値のベクトルを形成するように決定され、予測された空間コヒーレンス値のベクトルは、第1のコヒーレンス予測値
および、第2のコヒーレンス予測値
の重み付けされた組み合わせによって形成される、決定する(S204)ことと、
各フレームにおいて空間コヒーレンス値のベクトルを符号化するために利用可能なビット配分B
mに基づいて、重み係数αを決定する(S206)ことと、
前記第1のコヒーレンス予測値
および、前記第2のコヒーレンス予測値
の重み付けされた前記組み合わせに基づいて、少なくとも2つのオーディオチャネルのための快適雑音を生成する(S208)ことと、
を含む、方法。
【請求項14】
前記重み係数αは、少なくとも2つの候補重み要素のセットを選択することと、受信された前記重み係数αに関する情報を使用して、試行エンコーディング中に使用する候補重み要素を選択することと、によって決定される、請求項13に記載の方法。
【請求項15】
前記オーディオ信号のスペクトル特性に関する情報を受信する(S202a)ことと、
前記スペクトル特性に関する情報にも基づいて前記快適雑音を生成する(S208a)ここと、をさらに含む、
請求項13または14に記載の方法。
【請求項16】
フレームmおよび周波数帯域bごとの量子化された予測エラーに関する情報を受信する(S202b)ことと、
快適雑音の生成の一部として、予測された前記空間コヒーレンス値のベクトルに前記量子化された予測エラーを追加する(S202b)ことと、をさらに含む、請求項13から15のいずれか一項に記載の方法。
【請求項17】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音の生成をサポートするための送信ノード(200a)であって、処理回路(210)を備え、前記処理回路が、
それぞれの前記オーディオチャネルのオーディオ信号間の空間コヒーレンスを決定することであって、
フレームmおよび周波数帯bごとの少なくとも1つの空間コヒーレンス値C
b,mが、空間コヒーレンス値のベクトルを形成するために決定され、前記予測された空間コヒーレンス値
のベクトルは、第1のコヒーレンス予測値
と、第2のコヒーレンス予測値
との重み付けされた組み合わせによって形成され、
前記第1のコヒーレンス予測値
および、前記第2のコヒーレンス予測値
は、重み係数αを用いて、組み合わされる、空間コヒーレンスを決定することと、
各フレームmにおいて空間コヒーレンス値のベクトルを符号化するために利用可能なビット配分Bmに基づいて、重み係数αを決定することと、
前記受信ノードにおける前記少なくとも2つのオーディオチャネルのための前記快適雑音の前記生成を可能にするための、前記重み係数αについての情報を前記受信ノードにシグナリングすることと
を前記送信ノードに行わせるように設定された、送信ノード。
【請求項18】
請求項2から12のいずれか一項に記載の方法を実行するようにさらに設定された、請求項17に記載の送信ノード。
【請求項19】
受信ノードにおける少なくとも2つのオーディオチャネルのための快適雑音を生成するための受信ノード(200b)であって、処理回路(410)を備え、前記処理回路が、
送信ノードから重み係数αに関する情報を受信することと、
それぞれのオーディオチャネルのオーディオ信号間の空間コヒーレンスを決定することであって、ここで、フレームmおよび周波数帯域bごとの少なくとも1つの予測空間コヒーレンス値
は、予測された空間コヒーレンス値のベクトルを形成するように決定され、予測された空間コヒーレンス値のベクトルは、第1のコヒーレンス予測値
および、第2のコヒーレンス予測値
の重み付けされた組み合わせによって形成され、
各フレームにおいて空間コヒーレンス値のベクトルを符号化するために利用可能なビット配分B
mに基づいて、重み係数αを決定することと、
前記第1のコヒーレンス予測値
および、前記第2のコヒーレンス予測値
の重み付けされた前記組み合わせに基づいて、少なくとも2つのオーディオチャネルのための快適雑音を生成することと、
を前記受信ノードに行わせるように設定された、受信ノード。
【請求項20】
請求項14から16のいずれか1項に記載の方法を実行するようにさらに設定された、請求項19に記載の受信ノード。
【請求項21】
請求項17もしくは18に記載の送信ノード(200a)、および/または請求項19もしくは20に記載の受信ノード(200b)を備える、
無線トランシーバデバイス(200)。
【外国語明細書】