特表2025-532374 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2025-532374知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3A
3B
4
5
6
7
8A
8B
9A
9B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-09-29

(54)【発明の名称】知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム

(51)【国際特許分類】

G10L 19/008 20130101AFI20250919BHJP

【ＦＩ】

G10L19/008 100

【審査請求】未請求

【予備審査請求】有

(21)【出願番号】P 2025519776

(86)(22)【出願日】2023-09-01

(85)【翻訳文提出日】2025-04-15

(86)【国際出願番号】 US2023073365

(87)【国際公開番号】W WO2024076810

(87)【国際公開日】2024-04-11

(31)【優先権主張番号】63/378,678

(32)【優先日】2022-10-06

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/503,533

(32)【優先日】2023-05-22

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(71)【出願人】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(72)【発明者】

【氏名】セティアワン，パンジ

(72)【発明者】

【氏名】マクドナルド，ベンジャミンギルバート

(72)【発明者】

【氏名】ティアギ，リシャブ

(57)【要約】

オーディオ信号に対して利得制御を行うためのシステム、方法、およびコンピュータプログラムプロダクトが提供される。自動利得制御システムは、符号化されるオーディオ信号のダウンミックスされたオーディオ信号を取得する。システムは、ダウンミックスされたオーディオ信号のフレームに対して過負荷状態が発生したと決定する。過負荷状態に対応して、システムは、フレームの利得遷移関数を決定し、利得遷移関数は、少なくとも利得遷移ステップサイズに基づく。システムは、ダウンミックスされたオーディオ信号の利得調整されたフレームを生成するために、利得遷移関数をフレームに適用する。システムは、エンコーダによる符号化のため、利得調整されたフレームと利得遷移関数を示す情報とを与える。

【特許請求の範囲】

【請求項1】

オーディオ信号に対して利得制御を行う方法であって、
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することと、
前記ダウンミックスされたオーディオ信号のフレームについて過負荷状態が発生したと決定することと、
前記過負荷状態が発生したと決定したことに対応して、前記フレームのための利得遷移関数を決定することであって、前記利得遷移関数は、少なくとも利得遷移ステップサイズに基づく、ことと、
前記利得遷移関数を前記フレームに適用して、前記ダウンミックスされたオーディオ信号の利得調整されたフレームを生成することと、
エンコーダによる符号化のため、前記利得調整されたフレームと前記利得遷移関数を示す情報とを提供することと、
を含む、方法。

【請求項2】

前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化することをさらに含む、請求項１に記載の方法。

【請求項3】

符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することは、
前記ダウンミックスされたオーディオ信号を受信すること、または、
前記ダウンミックスされたオーディオ信号を前記符号化されるべきオーディオ信号から決定すること、
を含む、請求項１に記載の方法。

【請求項4】

前記オーディオ信号は、高次アンビソニックス（ＨＯＡ）オーディオ信号である、請求項１に記載の方法。

【請求項5】

前記ダウンミックスされたオーディオ信号は、空間的に符号化されたダウンミックスされた信号である、請求項１に記載の方法。

【請求項6】

前記過負荷状態は、前記ダウンミックスされたオーディオ信号の前記フレームが予め定義された信号範囲を超える状態である、請求項１に記載の方法。

【請求項7】

前記予め定義された信号範囲は、前記エンコーダによって予期される信号範囲である、請求項６に記載の方法。

【請求項8】

前記ダウンミックスされたオーディオ信号の前記フレームは現在のフレームであり、前記利得遷移関数は、前記現在のフレームの先行フレームに適用された前の利得遷移関数にさらに基づく、請求項１に記載の方法。

【請求項9】

前記利得遷移関数は、前記利得遷移ステップサイズに基づく平滑化関数にさらに依存する、請求項１に記載の方法。

【請求項10】

前記利得遷移関数は、過渡部分と定常状態部分とを含み、前記過渡部分は、前記先行フレームに関連付けられた利得から前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられた前記利得への遷移に対応する、請求項８に記載の方法。

【請求項11】

前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられる前記利得は、前記現在のフレームの利得調整目標に依存して、前記先行フレームに対応する利得の前記利得遷移ステップサイズによる減衰であるか、または前記利得遷移ステップサイズによる増幅である、請求項１０に記載の方法。

【請求項12】

前記過渡部分の長さは、前記エンコーダによって利用されるコーデックによってもたらされる遅延によって制限される、請求項１０に記載の方法。

【請求項13】

前記過渡部分の前記長さは、前記エンコーダによる符号化動作のために使用されるサンプルの数以下である、請求項１２に記載の方法。

【請求項14】

前記過渡部分の長さは、１サンプルよりも大きい、請求項１０に記載の方法。

【請求項15】

前記利得遷移関数は、

【数1】

として定義され、式中、ＤＢＳＴＥＰは、利得遷移ステップサイズであり、ｌはサンプルインデックスであり、ｊは、フレームインデックスであり、ｐ（）は平滑化関数であり、ｌｅｎｄは、ｐ（）が定義される最も右のインデックスを表し、Ｌは、１フレームのサンプル数である、請求項１に記載の方法。

【請求項16】

前記利得遷移ステップサイズは、予め定義された値である、請求項１に記載の方法。

【請求項17】

前記利得遷移ステップサイズは、増加するサイズの予め定義された値のセットから決定される、請求項１に記載の方法。

【請求項18】

前記ダウンミックスされたオーディオ信号の前記フレームによって生じる過負荷量を決定することと、
前記過負荷量に依存して、前記増加するサイズの予め定義された値のセットから前記利得遷移ステップサイズを決定することと、
をさらに含む、請求項１７に記載の方法。

【請求項19】

前記利得遷移ステップサイズは、知覚的品質リスニングテストまたは客観的品質測定に基づいて決定される、請求項１に記載の方法。

【請求項20】

前記知覚的品質リスニングテストは、Multi－Stimulus Test with Hidden Reference and Anchor（ＭＵＳＨＲＡ）である、請求項１９に記載の方法。

【請求項21】

前記ダウンミックスされた信号の利得調整されたフレームを生成するために前記フレームに前記利得遷移関数を適用することは、
前記ダウンミックスされたオーディオ信号のサンプルに前記利得遷移関数を適用することであって、前記サンプルの総数は前記ダウンミックスされたオーディオ信号の前記フレームに対応する、ことを含む、
請求項１に記載の方法。

【請求項22】

前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化することは、
前記利得遷移関数に基づいて符号化方式を決定することを含む、
請求項２に記載の方法。

【請求項23】

前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移ステップサイズに基づいて前記符号化方式を決定することを含む、
請求項２２に記載の方法。

【請求項24】

前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移関数が前記過負荷状態を除去することができたかどうかに基づいて前記符号化方式を決定することを含む、
請求項２２に記載の方法。

【請求項25】

前記符号化方式は、修正離散コサイン変換（ＭＤＣＴ）、または代数符号励振線形予測（ＡＣＥＬＰ）のうちの１つである、請求項２２に記載の方法。

【請求項26】

前記利得調整されたフレームは、減衰されたフレームまたは増幅されたフレームである、請求項１に記載の方法。

【請求項27】

オーディオ信号に対して利得制御を行う方法であって、
デコーダにおいて、オーディオ信号の符号化されたフレームを受信することと、
ダウンミックスされたオーディオ信号のフレームとエンコーダによって適用された利得制御を示す情報とを取得するために、オーディオ信号の前記符号化されたフレームを復号することと、
前記エンコーダによって適用された利得制御を示す前記情報に少なくとも部分的に基づいて、前記ダウンミックスされたオーディオ信号の前記フレームに適用されるべき逆利得遷移関数を決定することであって、前記エンコーダによって適用された利得制御を示す前記情報は利得遷移ステップサイズを含む、ことと、
前記ダウンミックスされたオーディオ信号の前記フレームに前記逆利得遷移関数を適用することと、
を含む方法。

【請求項28】

前記方法は、前記ダウンミックスされたオーディオ信号をアップミックスして、アップミックスされたオーディオ信号を生成することであって、前記アップミックスされたオーディオ信号はレンダリングに適している、ことをさらに含む、請求項２７に記載の方法。

【請求項29】

レンダリングされたオーディオデータを生成するために前記アップミックスされた信号をレンダリングすることをさらに含む、請求項２８に記載の方法。

【請求項30】

ラウドスピーカまたはヘッドフォンのうちの１つまたは複数を使用して、前記レンダリングされたオーディオデータを再生することをさらに含む、請求項２９に記載の方法。

【請求項31】

前記エンコーダによって適用される利得制御を示す前記情報は、平滑化関数を示す情報をさらに含む、請求項２７に記載の方法。

【請求項32】

前記逆利得遷移関数は、前記エンコーダによって適用される利得遷移関数を反転させることによって決定される、請求項２７に記載の方法。

【請求項33】

前記逆利得遷移関数は、過渡部分と定常状態部分とを含む、請求項２７に記載の方法。

【請求項34】

前記過渡部分の長さは、前記デコーダによって利用されるコーデックによってもたらされる遅延によって制限される、請求項３３に記載の方法。

【請求項35】

請求項１ないし３４のいずれか一項に記載の方法を実装するよう構成された装置。

【請求項36】

処理装置によって実行されると、前記処理装置に請求項１ないし３４のいずれか一項に記載の方法を行わせる命令を含むプログラム。

【請求項37】

請求項３６に記載のプログラムを格納した記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本出願は、２０２３年１０月６日に出願された米国仮特許出願第６３／３７８，６７８号および２０２２年５月２２日に出願された米国仮特許出願第６３／５０３，５３３号に基づく優先権を主張し、これらの各々は、その全体が本明細書中に参考として援用される。

【0002】

［技術分野］
本開示は、オーディオ環境における適応利得制御のためのシステム、方法、および媒体に関する。

【背景技術】

【0003】

利得制御は、たとえば、信号を、オーディオコーデックによって予期される範囲内になるように減衰させるために使用され得る。エンコーダにおいて利得制御が適用され、デコーダにおいて逆利得制御が適用されるオーディオ信号の知覚的品質を改善するために、連続するフレームに適用される異なる利得間で滑らかに遷移するための利得遷移関数が提案されている。連続するフレーム間に急激な利得変化がある場合、この方法は可聴アーチファクトにつながることがある。さらに、いくつかのケースでは、連続するフレームの決定された利得の間の利得変化は、滑らかな遷移関数を適用するには大きすぎるおよび／または急激すぎる。このケースでは、信号が予期される範囲内にあることを確実にするために、ハード遷移が使用され得る。たとえば、連続するフレームの利得間でハード遷移が使用されるという情報を伝達するために、単一のビットが使用され得る。しかしながら、このハードな遷移は、元の過負荷状態によってもたらされるものよりも悪い、復号されレンダリングされたオーディオ信号における可聴アーチファクトにもつながり得る。したがって、利得遷移関数を使用して符号化／復号システムの知覚的品質を改善し、符号化に必要なビットを低減する必要がある。

【0004】

［表記法および命名法］
特許請求の範囲を含む本開示全体を通して、「スピーカ」、「ラウドスピーカ」、および「オーディオ再生トランスデューサ」という用語は、任意の音放出トランスデューサまたはトランスデューサのセットを示すために同義的に使用される。典型的なヘッドフォンのセットは、２つのスピーカを含む。スピーカは、ウーファおよびツイータ等の複数の変換器を含むよう実装されてもよく、単一の共通スピーカフィードまたは複数のスピーカフィードによって駆動されてもよい。いくつかの例では、スピーカフィードは、異なるトランスデューサに結合された異なる回路の枝において異なる処理を受け得る。

【0005】

特許請求の範囲を含む本開示全体を通して、信号またはデータに対してフィルタリング、スケーリング、変換、または利得を適用することなど、信号またはデータに対して「操作を行う」という表現は、信号もしくはデータに対して直接、または信号もしくはデータの処理されたバージョンに対して操作を行うことを示すために広い意味で使用される。たとえば、この操作は、その操作の実行前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して行われてもよい。

【0006】

特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。たとえば、デコーダを実装するサブシステムは、デコーダシステムと称されてもよく、そのようなサブシステムを含むシステム（たとえば、サブシステムがＭ個の入力を生成し、他のＸ－Ｍ個の入力が外部ソースから受信される、複数の入力に応答してＸ個の出力信号を生成するシステム）もまた、デコーダシステムと称され得る。

【0007】

特許請求の範囲を含む本開示全体を通して、「プロセッサ」という用語は、オーディオ、ビデオ、または他の画像データを含み得るデータに対して操作を行うために、ソフトウエアまたはファームウェアなどを用いてプログラム可能な、または場合によっては構成可能なシステムまたはデバイスを示すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ（または他の構成可能な集積回路もしくはチップセット）、オーディオもしくは他のサウンドデータに対してパイプライン処理を行うようプログラムされた、および／または他の方法で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサもしくはコンピュータ、ならびにプログラマブルマイクロプロセッサチップもしくはチップセットを含む。

【発明の概要】

【課題を解決するための手段】

【0008】

上記に鑑みて、本開示は、それぞれの独立請求項の特徴を有する、自動利得制御を改善するための方法、装置、およびプログラム、ならびにコンピュータ読み取り可能な記憶媒体を提供する。

【0009】

本開示の一態様によれば、オーディオ信号に対して利得制御を行う方法が提供される。オーディオ信号は、高次アンビソニックス（ＨＯＡ）オーディオ信号であり得る。この方法では、符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号が取得され得る。オーディオ信号を取得することは、ダウンミックスされたオーディオ信号を受信することを含み得る。あるいは、ダウンミックスされたオーディオ信号を符号化されるべきオーディオ信号から決定することを含み得る。さらに、ダウンミックスされたオーディオ信号のフレームについて過負荷状態が発生したと決定され得る。過負荷状態は、ダウンミックスされたオーディオ信号のフレームが予め定義された信号範囲を超える状態であり得る。予め定義された信号範囲は、エンコーダによって予期される信号範囲であり得る。エンコーダは、コアエンコーダであり得る。過負荷状態が発生したと決定したことに応じて、フレームのための利得遷移関数が決定され得る。利得遷移関数は、少なくとも利得遷移ステップサイズに基づき得る。利得遷移関数は、フレームに適用されて、ダウンミックスされたオーディオ信号の利得調整されたフレームを生成し得る。利得調整されたフレームは、減衰されたフレームまたは増幅されたフレームであり得る。エンコーダによる符号化のために、利得調整されたフレームと利得遷移関数を示す情報とが提供され得る。

【0010】

利得遷移関数を利得遷移ステップサイズに制限することにより、連続する利得からの滑らかであまり急激でない遷移が達成され得る。利得遷移ステップサイズは、フレームのすべてのサンプルをコアエンコーダによって必要とされる信号範囲に減衰させるのには不十分なことがある。しかしながら、小さなオーバーシュートによるアーチファクトは、利得パラメータの非常に急激な増加または減少よりは目立たない。したがって、いくつかの値が必要とされる信号範囲外にあることを許容することにより、信号が復号され、レンダリングされ、再生されるときに、改善されたオーディオ経験が達成され得る。

【0011】

いくつかの実施形態では、利得調整されたフレームは、利得遷移関数を示す情報とともに符号化され得る。

【0012】

いくつかの実施形態では、ダウンミックスされたオーディオ信号は、空間的に符号化されたダウンミックスされた信号であり得る。

【0013】

いくつかの実施形態では、ダウンミックスされたオーディオ信号のフレームは現在のフレームであり、利得遷移関数は、現在のフレームに先行するフレームに適用された前の利得遷移関数にさらに基づき得る。

【0014】

いくつかの実施形態では、利得遷移関数は、利得遷移ステップサイズに基づく平滑化関数にさらに依存し得る。

【0015】

いくつかの実施形態では、利得遷移関数は、過渡部分と定常状態部分とを含み得る。過渡部分は、先行フレームに関連付けられた利得から利得遷移ステップサイズによって調整された先行フレームに関連付けられた利得への遷移に対応し得る。

【0016】

いくつかの実施形態では、利得遷移ステップサイズによって調整された先行フレームに関連付けられる利得は、現在のフレームの利得調整目標に依存して、先行フレームに対応する利得の利得遷移ステップサイズによる減衰であるか、または利得遷移ステップサイズによる増幅であり得る。

【0017】

いくつかの実施形態では、過渡部分の長さは、エンコーダおよびデコーダによって利用されるコーデックによってもたらされる遅延によって制限され得る。

【0018】

これにより、利得制御は、実質的にゼロの追加遅延をもたらす。

【0019】

いくつかの実施形態では、過渡部分の長さは、エンコーダによる符号化動作のために使用されるサンプルの数以下であり得る。

【0020】

いくつかの実施形態では、利得遷移関数は、

【数1】

として定義され、式中、ＤＢＳＴＥＰは、利得遷移ステップサイズであり、ｌはサンプルインデックスであり、ｊは、フレームインデックスであり、ｐ（）は平滑化関数であり、ｌｅｎｄは、ｐ（）が定義される最も右のインデックスを表し、Ｌは、１フレームのサンプル数である。

【0021】

いくつかの実施形態では、利得遷移ステップサイズは、予め定義された値であってもよく、または増加するサイズの予め定義された値のセットから決定されてもよい。予め定義された値または予め定義された値のセットは、知覚的品質リスニングテストまたは客観的品質測定テストに基づいて決定され得る。知覚的品質リスニングテストは、Multi－Stimulus Test with Hidden Reference and Anchor（ＭＵＳＨＲＡ）であってもよい。知覚的品質リスニングテストは、エンコーダおよびデコーダにおける自動利得制御のチューニングプロセスの一部であり得る。

【0022】

いくつかの実施形態では、方法は、ダウンミックスされたオーディオ信号のフレームによって生じる過負荷量を決定することをさらに含み得る。さらに、利得遷移ステップサイズは、過負荷量に依存して、増加するサイズの予め定義された値のセットから決定され得る。

【0023】

これにより、利得遷移ステップサイズは、連続するフレーム間で必要とされる変化率に適合され得る。

【0024】

いくつかの実施形態では、ダウンミックスされた信号の利得調整されたフレームを生成するために利得遷移関数をフレームに適用することは、ダウンミックスされたオーディオ信号のサンプルに利得遷移関数を適用することを含み得る。サンプルの総数は、ダウンミックスされたオーディオ信号のフレームに対応し得る。

【0025】

いくつかの実施形態では、利得遷移関数を示す情報とともに利得調整されたフレームを符号化することは、利得遷移関数に基づいて符号化方式を決定することを含み得る。いくつかのケースでは、符号化方式は、利得遷移ステップサイズに基づいて決定され得る。いくつかのケースでは、符号化方式は、過負荷状態が除去されたかどうかに基づいて決定され得る。符号化方式は、修正離散コサイン変換（ＭＤＣＴ：Modified Discrete Cosine Transformation）、または代数符号励振線形予測（ＡＣＥＬＰ：Algebraic Code Excited Linear Prediction）のうちの１つであり得る。

【0026】

これにより、符号化方式は、特定のオーディオ信号および要求される利得遷移ステップサイズに対して最適化され得る。

【0027】

さらなる態様によれば、オーディオ信号に対して利得制御を行う方法が提供される。この方法では、オーディオ信号の符号化されたフレームがデコーダによって受信され得る。オーディオ信号の符号化されたフレームは、ダウンミックスされたオーディオ信号のフレームと、エンコーダによって適用された利得制御を示す情報とを取得するために復号され得る。ダウンミックスされたオーディオ信号のフレームに適用されるべき逆利得遷移関数は、エンコーダによって適用された利得制御を示す情報に少なくとも部分的に基づいて決定され得る。エンコーダによって適用される利得制御を示す情報は、利得遷移ステップサイズを含み得る。逆利得遷移関数は、ダウンミックスされたオーディオ信号のフレームに適用され得る。

【0028】

いくつかの実施形態では、方法は、前記ダウンミックスされたオーディオ信号をアップミックスして、アップミックスされたオーディオ信号を生成することをさらに含み得る。アップミックスされたオーディオ信号は、レンダリングに適している。

【0029】

いくつかの実施形態では、方法は、レンダリングされたオーディオデータを生成するために前記アップミックスされた信号をレンダリングすることをさらに含み得る。

【0030】

いくつかの実施形態では、方法は、ラウドスピーカまたはヘッドフォンのうちの１つまたは複数を使用して、レンダリングされたオーディオデータを再生することをさらに含み得る。

【0031】

いくつかの実施形態では、前記逆利得遷移関数は、前記エンコーダによって適用される利得遷移関数を反転させることによって決定され得る。

【0032】

いくつかの実施形態では、前記逆利得遷移関数は、過渡部分と定常状態部分とを含み得る。

【0033】

本明細書に記載された動作、機能、および／または方法の一部または全部は、１つまたは複数の非一時的な媒体に記憶された命令（たとえば、ソフトウエア）に従って１つまたは複数のデバイスによって行われ得る。そのような非一時的な媒体は、限定はしないが、ランダムアクセスメモリ（ＲＡＭ）デバイス、読み出し専用メモリ（ＲＯＭ）デバイスなどを含む、本明細書で説明するものなどのメモリデバイスを含み得る。したがって、本開示で説明する主題のいくつかの発明的態様は、ソフトウエアを記憶した１つまたは複数の非一時的な媒体を介して実装され得る。

【0034】

本開示の少なくともいくつかの態様は、装置を介して実装され得る。たとえば、１つまたは複数のデバイスは、本明細書で開示する方法を少なくとも部分的に行うことが可能であり得る。いくつかの実装では、装置は、インタフェースシステムおよび制御システムを有するオーディオ処理システムであるか、またはそれを含む。制御システムは、１つまたは複数の汎用シングルまたはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウエア構成要素、またはそれらの組み合わせを含み得る。

【0035】

本明細書に記載された主題の１つまたは複数の実装の詳細が、添付の図面および以下の説明に記載される。他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、一定の縮尺で描かれていない場合があることに留意されたい。

【図面の簡単な説明】

【0036】

【図1】従来技術におけるオーディオ信号の利得制御を提供するためのシステムの例示的な概略ブロック図である。

【0037】

【図2A】いくつかの実施形態による適応利得制御を実装するためのシステムの例示的な概略ブロック図である。

【図2B】いくつかの実施形態による適応利得制御を実装するためのシステムの例示的な概略ブロック図である。

【0038】

【図3A】いくつかの実施形態によるエンコーダによって実装されうる利得遷移関数の例を示す。

【図3B】いくつかの実施形態によるデコーダによって実装されうる逆利得遷移関数の例を示す。

【0039】

【図4】いくつかの実施形態による適応利得制御を実装するためにエンコーダによって行われうる例示的なプロセスのフローチャートである。

【0040】

【図5】いくつかの実施形態による適応利得制御を実装するためにデコーダによって行われうる例示的なプロセスのフローチャートである。

【0041】

【図6】いくつかの実施形態によるイマーシブ音声およびサービス（ＩＶＡＳ）システムの例示的なユースケースを示す図である。

【0042】

【図7】本開示のさまざまな態様を実装することが可能な装置の構成要素の例を示すブロック図を示す図である。

【0043】

【図8A】利得遷移ステップサイズが均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態（その１）を示す図である。

【図8B】利得遷移ステップサイズが均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態（その２）を示す図である。

【0044】

【図9A】利得遷移ステップサイズが不均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態（その１）を示す図である。

【図9B】利得遷移ステップサイズが不均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態（その２）を示す図である。

【発明を実施するための形態】

【0045】

さまざまな図面における同様の参照番号および名称は、同様の要素を示す。

【0046】

シーンベースのオーディオ、ステレオオーディオ、マルチチャネルオーディオ、および／またはオブジェクトオーディオのためのいくつかのコーディング技法は、ダウンミックス操作の後に複数のコンポーネント信号をコーディングすることに依存する。ダウンミックスすることは、波形を保持する波形符号化された方式でコーディングされるべきオーディオ成分の数を低減することを可能にし得、残りの成分はパラメトリックに符号化され得る。受信器側では、残りの成分は、パラメトリック符号化を示すパラメトリックメタデータを用いて再構成されてもよい。成分のサブセットのみが波形符号化され、パラメトリックに符号化された成分に関連付けられたパラメトリックメタデータはビットレートに関して効率的に符号化され得るので、そのような符号化技法は、依然として高品質オーディオを可能にしつつ、比較的ビットレート効率的であり得る。

【0047】

生じ得る１つの課題は、空間エンコーダによって決定されたダウンミックスチャネルが、オーディオ信号ビットストリームを構築するコアコーデックによるその後の処理に適さないレベルをもつ信号を含み得ることである。たとえば、いくつかのケースでは、ダウンミックス信号は、元の入力信号がその成分信号のいずれにおいても過負荷がかけられていないにもかかわらず、コアコーデックに過負荷がかけられるほど高いレベルを有し得る。このことは、復号およびレンダリング後に、再構築された信号にクリッピングなどの深刻な歪みを引き起こすことがある。このことは、最終的にレンダリングされた信号にかなりの品質低下を引き起こし得る。１つの潜在的な解決策は、コアコーデックの過負荷を回避するために入力信号を減衰させることであり得る。しかしながら、信号を符号化するために利用される量子化器が最適な範囲で動作していないことがあるので、この解決策は、粒状雑音を増加させるという欠点を有し得る。

【0048】

図１は、符号化された高次アンビソニックス（ＨＯＡ）信号に対して利得制御を行うための従来のシステム１００の概略的なブロック図を示す。図１に示す概略図は、ＭＰＥＧ－Ｈ信号を符号化および復号するために使用され得る。ＭＰＥＧ－Ｈは、国際標準化機構（ＩＳＯ）／国際電気標準会議（ＩＥＣ）のMoving Picture Experts Group（ＭＰＥＧ）によって開発中の国際標準のグループである。ＭＰＥＧ－Ｈは、パート３、ＭＰＥＧ－Ｈ３Ｄオーディオを含むさまざまなパートを有する。

【0049】

エンコーダ１０２において、入力ＨＯＡ信号は１０４において処理される。処理は、たとえば、ダウンミックスチャネルが生成される、分解を含み得る。ダウンミックスチャネルは、所与のフレームに対して［－ｍａｘ，ｍａｘ］に範囲が定められた信号のセットを含み得る。コアエンコーダ１０８は［－１，１）の範囲内で信号を符号化することができるので、コアエンコーダ１０８の範囲を超えるダウンミックスチャネルに関連付けられた信号のサンプルは過負荷を引き起こしうる。過負荷を回避するために、利得制御１０６は、関連付けられた信号がコアエンコーダ１０８の範囲内（たとえば、［－１，１）内）になるようフレームの利得を調整する。コアエンコーダ１０８は、符号化ビットストリームを生成するコーデックであると考えられ得る。パラメトリックに符号化されたチャネルなどに関連付けられたメタデータを含みうる分解／処理ブロック１０４によって生成されたサイド情報は、コアエンコーダ１０８の出力として生成された信号に関連してビットストリームにおいて符号化され得る。

【0050】

符号化されたビットストリームは、デコーダ１１２によって受信される。デコーダ１１２は、サイド情報を抽出し得、コアデコーダ１１６は、ダウンミックス信号を抽出し得る。逆利得制御ブロック１２０は、次いで、エンコーダによって適用された利得を逆にし得る。たとえば、逆利得制御ブロック１２０は、エンコーダ１０２の利得制御１０６によって減衰された信号を増幅し得る。ＨＯＡ信号は次いで、ＨＯＡ再構成ブロック１２２によって再構成され得る。任意選択で、ＨＯＡ信号は、レンダリング／再生ブロック１２４によってレンダリングおよび／または再生されてもよい。レンダリング／再生ブロック１２４は、たとえば、再構成されたＨＯＡ出力を、たとえばレンダリングされたオーディオデータとしてレンダリングするためのさまざまなアルゴリズムを含み得る。たとえば、再構成されたＨＯＡ出力をレンダリングすることは、特定の知覚的印象を達成するために、複数のスピーカにわたってＨＯＡ出力の一つまたは複数の信号を分配することを含み得る。任意選択で、レンダリング／再生ブロック１２４は、レンダリングされたオーディオデータを提示するための１つまたは複数のラウドスピーカ、ヘッドフォンなどを含み得る。

【0051】

利得制御１０６は、以下の技術を用いて利得制御を実装し得る。利得制御１０６は、最初に、フレーム内の信号値の上限を決定し得る。たとえば、ＭＰＥＧ－Ｈオーディオ信号に対して、境界は、積

【数2】

として表わすことができ、積は、ＭＰＥＧ－Ｈ規格において規定されている。上限が与えられると、要求される最小減衰は、スケーリングされた信号サンプルが区間［－１，１）に制約されることを確実とし得る。言い換えれば、スケーリングされたサンプルは、コアエンコーダ１０８の範囲内にあり得る。これは、

【数3】

の利得係数を適用することによって決定され得、ここで

【数4】

である。定義により、ｅｍｉｎは、負の数であり得る。いくつかの実施形態では、増幅は、最大増幅係数

【数5】

によって制限され得、ここで、ｅｍａｘは、非負の整数である。したがって、減衰と増幅の両方を行うために、利得パラメータｅが［ｅｍｉｎ，ｅｍａｘ］の範囲内の値である、２ｅの利得係数が定義され得る。したがって、利得パラメータｅを表すのに必要とされる最小ビット数は、

【数6】

として決定される。

【0052】

特定のチャネルｎおよびフレームｊについての利得係数ｇｎ（ｊ）は、１つのＨＯＡブロックに対応する１フレーム遅延を適用し、以下の再帰操作、すなわち、

【数7】

を利用することによって決定され得る。

【0053】

上式において、ｇｎ（ｊ－２）は、フレーム（ｊ－２）に適用される利得係数を表し、

【数8】

は、フレームｊ－１についての利得係数ｇｎ（ｊ－１）を計算するために必要とされる利得係数調整を表す。

【0054】

本明細書には、適応利得制御を提供するための技法が開示される。特に、本明細書で説明するように、追加的な遅延を生じない利得パラメータが決定され得、なぜならば利得パラメータはコーデックによる使用のために生成された先読み（lookahead）サンプルに基づいて決定され得るからである。コーデックは、知覚エンコーダによって用いられ得る。利得遷移関数の決定について、図２ないし図５に図示し、これらの図面に関連して以下説明する。

【0055】

図２Ａおよび図２Ｂは、例示的な実施形態による低遅延適応利得制御を行うためのエンコーダ２０２およびデコーダ２１２の概略ブロック図をそれぞれ示す。エンコーダ２０２において、入力ＨＯＡ信号（または１次アンビソニックス（ＦＯＡ））信号は、空間分析ブロック２０４による処理を受ける。ＮチャネルＨＯＡ入力に対して、空間分析ブロック２０４は、Ｍ個のダウンミックスチャネル２０４Ａのセットを生成および出力し得る。Ｍ個のダウンミックスチャネル２０４Ａのセットのダウンミックスチャネルの数は、１≦Ｍ≦Ｎの範囲内であり得る。加えて、空間分析ブロック２０４は、ダウンミックス操作を逆にするための空間サイド情報２０４Ｂを生成および出力し得る。

【0056】

たとえば、ＦＯＡ入力に対して、ダウンミックスチャネルは、さまざまなミキシング利得を用いて無指向性入力信号Ｗを指向性入力信号Ｘ、Ｙ、およびＺとミキシングすることによって生成され得る一次ダウンミックスチャネルＷ’と、一次ダウンミックス信号から予測できないＸ、Ｙ、およびＺ信号における信号成分にそれぞれ対応する最大で３つの残差チャネルＸ’、Ｙ’、およびＺ’とを含み得る。一例では、空間分析ブロック２０４は、空間再構成（ＳＰＡＲ：Spatial Reconstruction）技術を利用する。ＳＰＡＲは、非特許文献１にさらに記載されており、その全体が参照により本明細書に組み込まれる。他の例では、空間分析ブロック２０４は、カルーネン－レーベ変換（ＫＬＴ：Karhunen-Loeve Transform）といった、エネルギー圧縮変換の任意の他の好適な線形予測コーデックを利用し得る。コアエンコーダ２０８は、符号化されたオーディオビットストリーム２０８Ａを生成するコーデックであると考えられ得る。いくつかの実装では、コアエンコーダ２０８およびコアデコーダ２１６は、コーディングプロセス全体に余分な遅延を加えることを回避する（追加的な遅延が０）ための利得パラメータを決定するために適応利得制御２０６によって利用されるべきいくつかの先読みサンプルを導入し得る。

【非特許文献1】D. McGrath, S. Bruhn, H. Purnhagen, M. Eckert, J. Torres, S. Brown, およびD. Darcyによる「Immersive Audio Coding for Virtual Reality Using a Metadata-assisted Extension of the 3GPP EVS Codec」、IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、2019年、第７３０－７３４頁

【0057】

Ｍ個のダウンミックスチャネル２０４Ａに関連付けられた信号は、次いで適応利得制御２０６によって分析され得る。適応利得制御２０６は、Ｍ個のダウンミックスチャネル２０４Ａのいずれかに関連付けられた信号が、コアエンコーダ２０８によって予期されるオーディオ振幅範囲を超え、したがって、コアエンコーダ２０８を過負荷にすることになるかどうかを判定し得る。いくつかの実施形態では、たとえばＭ個のダウンミックスチャネル２０４Ａの信号のいずれもコアエンコーダ２０８の予期される範囲を超えないという決定に対応して、適応利得制御２０６が、利得が適用されるべきでないと決定する場合、適応利得制御２０６は、利得制御が適用されないことを示すフラグを設定してもよい。フラグを示すことは、フラグに対して値を設定すること、たとえば、単一ビットの値を設定することによって行われ得る。適応利得制御２０６が、利得が適用されるべきでないと決定する場合、適応利得制御２０６はフラグを設定しないことがあり、それにより、１ビット（たとえば、フラグに関連付けられるビット）を保存する。たとえば、いくつかの実装では、空間メタデータビットストリームおよび／またはコアエンコーダ・ビットストリーム（知覚的エンコーダ・ビットストリームであってもよい）が自己終端である場合、利得制御フラグの存在は、ビットストリーム中に未読ビットがあるかどうかを判定することによって決定され得る。未読ビットは、ビットストリーム内の残されたビットであり得る。過負荷状態が存在しないケースでは、適応利得制御２０６は、Ｍ個のダウンミックスチャネル２０６Ａを出力し得る。Ｍ個のダウンミックスチャネル２０６Ａは、次いでビットストリーム２０８Ａにおける符号化のためにコアエンコーダ２０８に渡され得る。

【0058】

対照的に、適応利得制御２０６が、利得が適用されるべきであると決定する場合、適応利得制御２０６は、利得パラメータを決定し、決定された利得パラメータに従ってＭ個のダウンミックスチャネルに利得を適用し得る。利得が適用されたＭ個のダウンミックスチャネル２０６Ａは、次いで、ビットストリームにおける符号化のためにコアエンコーダ２０８に渡され得る。さらに、適応利得制御２０６は、利得制御に関するサイド情報２０６Ｂを出力し得る。フラグに関する情報は、利得制御に関するサイド情報２０６Ｂに含まれ得る。サイド情報エンコーダ２１０は、空間サイド情報２１０Ｂを利得パラメータ２０６Ｂとともにビットストリームでの送信のためのメタデータ２０４Ａとして符号化し得る。デコーダ２１２は、次いでこのメタデータを抽出し、ダウンミックスされたチャネルをアップミックスし、利得調整を逆にするために用いてもよい。たとえば、メタデータ２１０Ａは、後に、空間分析ユニット２０４によってダウンミックスされた元のオーディオ入力の表現を再構成するために利用され得る。サイド情報エンコーダ２１０は、追加的に、サイド情報２０８Ｂをコアエンコーダ２０８に提供し得る。コアエンコーダ２０８は、次いで、コーディング技法のうちいずれかを選択するためにサイド情報２０８Ｂを使用し得る。符号化ビットストリーム２０８Ａとメタデータを有する符号化ビットストリーム２１０Ａはいずれも、エンコーダ２０２によって出力される最終的なビットストリームを形成するために多重化され得る。

【0059】

いくつかの実装では、適応利得制御２０６は、前のフレーム（たとえば、ｊ－１番目のフレーム）に関連付けられる利得パラメータｅ（ｊ－１）と現在のフレームの利得パラメータｅ（ｊ）との間で遷移する利得遷移関数を決定し得る。利得遷移関数は、適応利得制御２０６によってフレームごとに適用され得、各フレームは、Ｍ個のダウンミックスチャネル２０４Ａのうちの１つのフレームであり得る。いくつかの実装では、利得遷移関数は、ｊ－１番目のフレームにおける利得パラメータの値（たとえば、ｅ（ｊ－１））から現在のフレームの利得パラメータ（たとえば、ｅ（ｊ））までｊ番目のフレームのサンプルにわたって利得パラメータを滑らかに遷移させ得る。したがって、利得遷移関数は、２つの部分、すなわち、１）先行フレームの利得パラメータから現在のフレームの利得パラメータまで遷移部分のサンプルにわたって利得パラメータが遷移している過渡部分と、２）利得パラメータが定常状態部分のサンプルについて現在のフレームの利得パラメータの値を有する定常状態部分とを含み得る。

【0060】

いくつかの実施形態では、現在のフレームに適用される利得が前のフレームに適用される利得よりも小さい場合、過渡部分は、減衰の量が現在のフレームのサンプルにわたって増加するので、「フェード」の過渡タイプを有すると称され得る。現在のフレームに適用された利得が前のフレームに適用された利得より小さいケースは、ｅ（ｊ）＞ｅ（ｊ－１）と表現されうる。いくつかの実施形態では、現在のフレームに適用される利得が前のフレームに適用される利得よりも大きい場合、減衰の量が現在のフレームのサンプルにわたって減少するので、過渡部分は、「逆フェード（reverse fade）」または「アンフェード（un-fade）」の過渡タイプを有すると称され得る。現在のフレームに適用された利得が前のフレームに適用された利得より大きいケースは、ｅ（ｊ）＜ｅ（ｊ－１）と表現され得る。いくつかの実施形態では、現在のフレームに適用される利得が現在のフレームに適用される利得と同じである場合、過渡部分は、過渡部分が過渡的ではなく、むしろ定常状態部分と同じ値を有する、「ホールド」の過渡タイプを有すると称され得る。現在のフレームに適用された利得が現在のフレームに適用された利得と同一であるケースは、ｅ（ｊ）＝ｅ（ｊ－１）と表現され得る。

【0061】

いくつかの実施形態では、利得遷移関数は、利得遷移ステップサイズに依存する。利得遷移ステップサイズは、先行フレームから現在のフレームへの起こり得る遷移の量を制限し得る。これは、遷移中に過負荷が起こることを潜在的に許すより小さくより滑らかな利得／減衰の変化が、より大きい変化を有することよりも、特にこれが上述の予め定義された値範囲を入力として必要とする不可逆（lossy）コアエンコーダによるさらなる処理を受けるときは、知覚的に良いという事実によって動機付けされる。このように利得遷移関数のパラメータを予め定義することにより、客観的品質または知覚的品質に対するパラメータの影響が評価され得る。知覚的品質は、（隠れた基準およびアンカーを用いた多重刺激テスト（ＭＵＳＨＲＡ：Multi-Stimulus Test with Hidden Reference and Anchor）のような既知の知覚的品質リスニングテストに基づいて測定されてもよい。知覚的品質リスニングテストは、エンコーダおよびデコーダにおける自動利得制御のチューニングプロセスの一部であり得る。特に、利得遷移ステップサイズのようなパラメータは、最適な知覚されたオーディオ品質に達するまで、特定のオーディオシナリオおよびコーデックに対してチューニングされ得る。チューニングされたパラメータは、次いで、符号化／復号システムによって使用される。

【0062】

例示的な実装では、自動利得制御２０６の処理された出力２０６Ａは、波形再構成を行うことを目的としない代数符号励振線形予測（ＡＣＥＬＰ：Algebraic Code Excited Linear Prediction）コーディングに基づいて、損失のあるコアコーデックによってさらにコーディングされる。ＡＣＥＬＰ入力および出力に対してより大きな利得ステップを適用することは、再構築された信号における可聴グリッチにつながり、コーデックの全体的な性能を低下させることが観察されている。

【0063】

いくつかの実装では、現在のフレームに対する過負荷が検出されたとき、自動利得制御２０６はまた、フレームがコアエンコーダ２０８の予期される範囲内にあるために必要な減衰量を決定し得る。連続するフレーム間で必要とされる減衰の間に大きな差がある場合、コアエンコーダ２０８によって必要とされる範囲［－１，１）を達成するために遷移関数を適用することは、オーディオ信号がデコーダにおいてレンダリングされるときの可聴アーチファクトにつながり得る。各フレームを必要とされる範囲の境界の内側または境界上に保つために遷移関数を適用する代わりに、遷移関数は、特定の利得遷移ステップサイズに制限され得る。これにより、コアエンコーダ２０８の予期される範囲を達成するために必要な減衰量にかかわらず、遷移関数は、単一のフレームを利得遷移ステップサイズ、すなわち、±ＤＢＳＴＥＰｄＢに等しい量だけ減衰させることができるのみである。したがって、一例として、前のフレームの減衰が－１０ｄＢである場合、現在のフレームの最初のサンプルに適用される減衰は－１０ｄＢであり、現在のフレームの最後のサンプルに適用される減衰は、－１０ｄＢ±ＤＢＳＴＥＰとなる。正確には、前のフレームから現在のフレームまで過負荷量が変化しないならば、利得遷移は、一定の値、たとえば、－１０ｄＢとなる。減衰量が変化される必要があるならば、利得遷移関数は、前のフレームの減衰から現在のフレームの最後のサンプルまで±ＤＢＳＴＥＰだけ遷移する。

【0064】

いくつかの実装では、ＤＢＳＴＥＰは、自動利得制御２０６によって適用される減衰量が、フレームをコアエンコーダ２０８の予期される信号範囲内に保つのに十分でないよう選択され得る。たとえば、ＤＢＳＴＥＰは、固定値であってもよい。減衰の急激な変化が必要とされるとき、フレームが［－１，１）の範囲の外側であることを許すことによって、連続するフレーム間の強い減衰差を回避することができる。したがって、遷移関数または静的な利得変化のいずれかによってフレームを［－１，１）の範囲内に強制する代わりに、フレームは、前のフレームの減衰量に対して固定量だけ減衰される。特定の利得遷移ステップサイズをもつ遷移関数を用いることによって、知覚的オーディオ品質が改善され得、なぜならば、フレームが［－１，１）の範囲の外側にあることによるひずみは、連続するフレーム間の鋭い減衰差によって引き起こされるひずみと比較してそれほど顕著ではないからである。さらに、滑らかな遷移と静的な利得変化との間の切り替えのための例外フラグを回避することができる。これにより、コアエンコーダ２０８において１ビットを節約することができる。

【0065】

いくつかの実装では、ＤＢＳＴＥＰは、単一の値、たとえば、－１ｄＢでありうる。あるいはＤＢＳＴＥＰは、増加する固定値のセット、たとえば、－１ｄＢ、－３ｄＢ、－６ｄＢから選択されてもよい。このケースでは、ＤＢＳＴＥＰの値は、減衰のないフレームによって引き起こされる過負荷の量に応じて選択され得る。

【0066】

いくつかの実装では、自動利得制御は、各ステップにおいて与えられるＤＢＳ減衰の倍数を示す数、たとえば整数、の表として表され得るターゲット利得値ＧＴのセットを指定する能力を有するよう構成される。このことは、より小さな変化は知覚的な恩恵を与えるという事実によって動機付けされるが、ある信号についてはより高いレベルの起こり得る減衰が必要とされることがある。これらの不均一な絶対的なステップを指定することは、多くの可能性の高いケースに対してより小さいステップの恩恵を与えつつ、より広い減衰範囲がカバーされることを許す。たとえば、ＤＢＳが－２ｄＢであるＧＴ＝｛０，１，３，６｝のセットは、｛－２ｄＢ，－４ｄＢ，－６ｄＢ｝の連続するステップＤＢＳＴＥＰをとり、｛ＤＢＳ＊ＧＴ｝＝｛０ｄＢ，－２ｄＢ，－６ｄＢ，－１２ｄＢ｝の絶対ターゲット利得を有することになる。

【0067】

そのような整数のテーブルのうちの１つまたは複数が指定され得、エンコーダ側において用いられている特定のテーブルの選択に関する情報がデコーダ側にシグナリング／送信され得る。単一の均一な利得遷移形状をもたらす均一なステップの適用とは対照的に、不均一なステップの適用は、不均一な利得遷移形状（レベル依存遷移関数）をもたらす。

【0068】

いくつかの実装では、ＤＢＳＴＥＰが現在のフレームを［－１，１）の範囲に減衰させるには不十分であるとき、ＤＢＳＴＥＰは、［－１，１）の範囲が達成されるまで、現在のフレームに後続するフレームに適用され得る。

【0069】

いくつかの実装では、自動利得制御２０６システムからの出力レベルおよび減衰情報は、コアエンコーダ２０８といった他のシステムにおける意思決定プロセスにおいて用いられ得る。緩和された要件は知覚的な恩恵を与えることができるが、利得の変化を導入することによって、または、厳しい要件を満たさず過負荷状態が残ることを許すことによって、コアエンコーダ２０８に影響を及ぼすことがある。利得制御が要件（もしあれば）を満たしたか否か、またはどれだけの利得が適用されたかといった情報が、出力され、コアエンコーダに渡され得る。このことは、利得の変化または範囲外のサンプルをより良く扱うことが可能なコーディング方法を選択することといった、より良い決定がなされることを可能とする。一例として、大きな利得／減衰ステップが適用されるとき、コアエンコーダ２０８は、予測ＡＣＥＬＰ符号化技法の代わりに、ＭＤＣＴベースの符号化といった波形符号化技法を用い得る。

【0070】

いくつかの実施形態では、利得遷移関数の遷移部分は、利得遷移関数の遷移部分のプロトタイプ形状を用いて決定され得、プロトタイプ形状は、現在のフレームの利得パラメータと先行フレームの利得パラメータとの間の差に基づいてスケーリングされる。たとえば、プロトタイプ形状は、ｅ（ｊ）－ｅ（ｊ－１）に基づいてスケーリングされ得る。このようなプロトタイプ関数ｐを利用する利得遷移関数は、次のように表される。

【数9】

式中、ｌｅｎｄは、ｐが定義される最も右のインデックスを表し、Ｌは、１フレームのサンプル数である。
たとえば、過渡部分利得のプロトタイプ形状は、以下のように定義され得る。

【数10】

式中、

【数11】

であり、式中のＬは、ｐが定義されているフレーム内のサンプル数である。Ｌは、たとえば、ｌｅｎｄ＋１でありうる。

【0071】

図３Ａに、各々が「フェード」の過渡タイプを有する過渡部分を有する利得遷移関数の例を示す。図３Ａに示す例では、各利得遷移関数は、０ｄＢの利得で、現在のフレームの始まりに対応し得るサンプル０で始まる遷移部分を有し、０ｄＢは先行フレーム（たとえば、ｊ－１番目のフレーム）の利得パラメータである。図３Ａに示す例では、各利得遷移関数の過渡部分は、約３８４サンプルを経て利得遷移関数の定常状態部分に変わる。図３Ａに示す３つの利得遷移関数の各々について、定常状態部分は、ｊ番目のフレームについての異なる利得遷移ステップサイズに対応し、先行フレームの利得に対して、それぞれ６ｄＢ、１２ｄＢ、および１８ｄＢの（負の）利得の増加がある。言い換えれば、図３Ａに示すように、３つの利得遷移関数について、それぞれｅｘｐ＝－［ｅ（ｊ）－ｅ（ｊ－１）］＝－１、－２、および－３である。図３Ａに示す利得遷移関数の各々について、遷移部分は同じ長さ（たとえば、約３８４サンプル）である。定常状態部分の長さは、コーデックによってもたらされる遅延、たとえば、図３Ａに示す例では１２ミリ秒、に関するオフセットに対応し得ることに留意されたい。これに応じて、過渡部分の長さは、オフセットの逆数に関連し得る。図３Ａに示す例では、過渡部分の長さは、フレーム長（たとえば、２０ミリ秒）からコーデック遅延（たとえば、１２ミリ秒）を差し引いたものである。コーデック遅延は、フレームサイズ遅延を除く全体的なコーダアルゴリズム遅延であり得ることに留意されたい。

【0072】

さらに、「逆フェード」または「アンフェード」の過渡タイプの過渡部分を有する利得遷移関数は、図３Ａに示す利得遷移関数の水平な線を越えてひっくり返した鏡像として表され得る。例として、水平な線はｘ軸であり得る。

【0073】

再び図２Ｂを参照すると、デコーダ２１２は、入力として、符号化されたオーディオビットストリーム２０８Ａおよびメタデータビットストリーム２１０Ａを受信してもよく、たとえばレンダリングのためにＨＯＡ信号を再構成することができ、または所望の出力フォーマットに直接レンダリングすることができる。いくつかの実施形態では、コアデコーダ２１６は、符号化されたオーディオビットストリーム２０８Ａを受信する。さらに、コアデコーダ２１６は、サイド情報デコーダ２１４によってメタデータビットストリーム２１０Ａから抽出された情報２１４Ａを受信し得る。コアデコーダ２１６は、情報２１４Ａに基づいて、またはサイド情報を知ることなしに、符号化されたオーディオビットストリーム２０８Ａを復号し得、Ｍ個の利得調整されたダウンミックスされたチャネル２１６Ａを逆利得制御（inverse gain control）２２０に出力する。サイド情報デコーダ２１４は、さらに、利得パラメータおよび空間サイド情報を抽出し、この情報２１４Ｂを逆利得制御２２０および空間合成／レンダリング／再生ブロック２２２に送信する。逆利得制御２２０は、次いで、情報２１４Ｂから、エンコーダ２０２によって適用された利得パラメータを取得し得る。たとえば、いくつかの実装において、逆利得制御２２０は、情報２１４Ｂからエンコーダ２０２によって適用された利得遷移ステップサイズＤＢＳＴＥＰおよび／またはＤＢＳＴＥＰに関連する算術係数のしるしを取得し得る。さらに、逆利得制御ブロック２２０は、たとえば、メモリから、遷移関数の形状、すなわち平滑化関数とも称されるプロトタイプ関数ｐの形状を取り出し得る。逆利得制御ブロック２２０は、次いで、取得された利得パラメータを用いて、エンコーダ２０２によって適用された利得を逆にし得、Ｍ個のダウンミックスされたチャネル２２０Ａを出力する。たとえば、いくつかの実装では、逆利得制御２２０は、先行フレームの利得パラメータから現在のフレームの利得パラメータに遷移する逆利得遷移関数を構築し得る。いくつかの実装では、逆利得遷移関数は、中心垂直線を越えてミラーリングされ、垂直に調整された、エンコーダ２０２によって適用される利得遷移関数でありうる。例として、垂直線はｙ軸であり得る。

【0074】

図３Ｂを参照すると、いくつかの実装による、エンコーダによって適用されている図３Ａに示す利得遷移関数に対応してデコーダによって適用される逆利得遷移関数（inverse gain transition function）の例が示されている。図示するように、逆利得遷移関数は、定常状態部分と遷移部分とを有する。逆利得遷移関数の定常状態部分および遷移部分の持続時間は、図３Ａおよび図３Ｂに示すように、利得遷移関数の対応する定常状態部分および遷移部分の持続時間に対応してもよく、たとえば、これと同じであり得る。図示するように、図３Ｂに示す各逆利得遷移関数は、現在のフレームについて０ｄＢで開始し、－ＤＢＳＴＥＰに遷移する。すなわち、各逆利得遷移関数は、先行フレームｊ－１に適用された逆利得に対応する０ｄＢで始まる。エンコーダによって適用される利得が、図３Ａの利得遷移関数に示すように０ｄＢ未満の利得で示される減衰に対応するとき、デコーダによって適用される逆利得は、図３Ｂの利得遷移関数に示されるように０ｄＢよりも大きい利得を有する増幅に対応する。対照的に、エンコーダによって適用される利得が、たとえば０ｄＢよりも大きい利得を持つ増幅に対応する場合、デコーダによって適用される逆利得は、たとえば０ｄＢよりも小さい利得を持つ減衰に対応する。

【0075】

再び図２Ｂを参照すると、逆利得が適用された後、逆利得が適用されたＭ個のダウンミックスチャネル２２０Ａは、空間合成／レンダリング／再生ブロック２２２に提供される。空間合成／レンダリング／再生ブロック２２２は、情報２１４Ｂを用いてＨＯＡ信号を再構成し得る。たとえば、空間分析ブロック２０４が空間符号化のためにＳＰＡＲ技法を利用する場合、空間合成／レンダリング／再生ブロック２２２は、メタデータ２１０Ａを用いて符号化された一つまたは複数のチャネルを再構成するためにＳＰＡＲ技法を利用してもよい。再構成されたＨＯＡ出力は、次いで直接レンダリングされてもよく、またはレンダリングのために他のエンティティに提供されてもよい。空間合成／レンダリング／再生ブロック２２２は、たとえば、再構成されたＨＯＡ出力を、たとえばレンダリングされたオーディオデータとしてレンダリングするためのさまざまなアルゴリズムを含み得る。たとえば、再構成されたＨＯＡ出力をレンダリングすることは、特定の知覚的な印象を達成するために、複数のスピーカにわたってＨＯＡ出力の一つまたは複数の信号を分配することを含み得る。任意選択で、空間合成／レンダリング／再生ブロック２２２は、レンダリングされたオーディオデータを提示するためにオーディオ再生デバイス、たとえば、１つまたは複数のラウドスピーカ、ヘッドフォンなどを含み得る。

【0076】

図４は、いくつかの実装により、利得パラメータを決定し、決定された利得パラメータに従ってダウンミックスされた信号に利得を適用するためのプロセス４００の例を示す。いくつかの実装では、プロセス４００のブロックはエンコーダデバイスによって行われ得る。いくつかの実装では、プロセス４００のブロックは、図４に示されている順序以外の順序で行われ得る。いくつかの実装では、プロセス４００の２つ以上のブロックは、実質的に並列に行われ得る。いくつかの実装では、プロセス４００の１つまたは複数のブロックは省略され得る。

【0077】

４０２において、プロセス４００は、符号化されるべきオーディオ信号のフレームに関連付けられるダウンミックスされたオーディオ信号を取得し得る。ダウンミックスされたオーディオ信号は、符号化されるべきオーディオ信号のフレームに関連付けられ得る。たとえば、いくつかの実装では、プロセス４００は、ダウンミックスされたチャネルのセットを決定するために任意の好適な空間符号化技法を使用し得る。空間符号化技術の例は、ＳＰＡＲ、線形予測技術などを含む。ダウンミックスされたチャネルのセットは、１からＮ個のチャネルのいずれかを含むことができ、Ｎは入力チャネルの数であり、たとえば、ＦＯＡ信号のケースでは、Ｎは４である。ダウンミックスされた信号は、オーディオ信号の特定のフレームのためのダウンミックスされたチャネルに対応するオーディオ信号を含み得る。

【0078】

４０４において、プロセス４００は、拡張音声サービス（ＥＶＳ：Enhanced Voice Services）コーデック、および／または任意の他の適切なコーデックなどのコーデックに対して過負荷状態が存在するかどうかを判定し得る。たとえば、プロセス４００は、ダウンミックスオーディオ信号のフレームに対応する信号が所定の範囲、たとえば、［－１，１）、および／または任意の他の適切な範囲を超えると決定することに対応して、過負荷状態が存在すると決定し得る。

【0079】

４０４において、過負荷状態が存在しないと決定された場合（４０４において「いいえ」）、プロセス４００は４１２に進むことができ、ダウンミックスされた信号を符号化することができる。たとえば、いくつかの実装では、プロセス４００は、たとえばＦＯＡまたはＨＯＡ出力を再構成するために、ダウンミックスされた信号をアップミックスするためにデコーダによって利用されることができる、メタデータといったサイド情報に関連して、ダウンミックスされた信号を符号化するビットストリームを生成することができる。

【0080】

対照的に、４０４において、過負荷状態が存在すると決定された場合（４０４において「はい」）、プロセス４００は４０６に進むことができ、過負荷状態を回避させるフレームについての利得遷移関数を決定することができ、または、１つのフレームから次のフレームへの過負荷状態の変化が利得遷移ステップサイズよりも大きい場合、過負荷は少なくとも低減される。さらに、４０６において、利得遷移関数は、利得遷移ステップサイズに基づき得る。また、利得遷移関数は、平滑化関数の形状に基づき得る。さらに、図２に関連して上述したように、利得遷移関数は、過渡部分と定常状態部分とを有し得、定常状態部分は、現在のフレームの利得係数に対応し、過渡部分は、先行フレームの終わりの利得係数から先行フレームの利得係数±ＤＢＳＴＥＰに遷移する、現在のフレームのサンプルのサブセットの中間利得係数のシーケンスに対応する。

【0081】

先行フレームの利得パラメータが現在のフレームの利得パラメータよりも小さい減衰に対応する場合、過渡部分は、「フェード」の過渡タイプを有すると称され得る。対照的に、先行フレームの利得パラメータが現在のフレームの利得パラメータよりも大きい減衰に対応する場合、過渡部分は、「逆フェード」または「アンフェード」の過渡タイプを有すると称され得る。先行フレームの利得パラメータが現在のフレームの利得パラメータと同じである場合、過渡部分は、「ホールド」の過渡タイプを有すると称され得る。過渡部分が過渡タイプの「ホールド」を有する場合、過渡部分の間の利得遷移関数の値は、定常状態部分の間の利得遷移関数の値と同じであり得る。図２に関連して上述したように、利得遷移関数の遷移部分の持続時間は、コーデックによって利用される遅延持続時間に対応し得る。

【0082】

４０８において、プロセス４００は、フレームに関連付けられるダウンミックスされた信号に利得遷移関数を適用し得る。たとえば、いくつかの実装では、プロセス４００は、利得遷移関数によって示される利得係数によってダウンミックスされた信号のサンプルをスケーリングし得る。より特定的な例として、いくつかの実装では、現在のフレームの最初のサンプルは、先行フレームの利得パラメータに対応する利得係数によってスケーリングされ得、現在のフレームの最後のサンプルは、前のフレームの利得パラメータに対応する利得係数±ＤＢＳＴＥＰによってスケーリングされ得、介在するサンプルは、利得遷移関数の過渡部分または定常状態部分の利得パラメータに対応する利得係数によってスケーリングされ得る。

【0083】

いくつかの実装では、利得遷移関数は、ブロック４０４において過負荷状態が検出されたダウンミックスチャネルのダウンミックスされた信号のみに適用されてもよい。たとえば、Ｙ’チャネルおよびＸ’チャネルについて過負荷状態が検出された場合、Ｙ’チャネルおよびＸ’チャネルの各々について別個の利得遷移関数が決定され、Ｙ’チャネルおよびＸ’チャネルの信号に適用され得る。この例で続けると、利得遷移関数は、Ｗ’およびＺ’チャネルに適用されないことがある。そのような場合には、利得遷移関数が適用されるチャネルのしるし、ならびに各チャネルのための対応する利得パラメータが、たとえば、ブロック４１２において符号化され得る。あるいは、いくつかの実装では、過負荷状態が一つのダウンミックスチャネルについてのみ存在する場合には、対応する利得遷移関数がすべてのダウンミックスチャネルに適用されてもよい。そのような場合には、利得遷移関数がすべてのチャネルに適用されるので、利得が適用されたチャネルのしるしが送信される必要はなく、このことはビットレート効率の上昇につながり得る。

【0084】

４１０において、プロセス４００は、減衰された信号と利得遷移関数を示す情報とを符号化のためにエンコーダに提供し得る。利得遷移関数を示す情報は、利得遷移ステップサイズおよび／または利得遷移ステップサイズに関連する算術係数であり得る。さらに、平滑化関数の形状は、符号化のためにエンコーダに提供され得る。

【0085】

４１２において、プロセス４００は、ダウンミックスされた信号、および、利得が適用された場合は、フレームのための利得パラメータを示す情報を符号化することができる。利得が適用された場合、符号化されたダウンミックス信号は、ブロック４０８における利得遷移関数の適用後のダウンミックス信号であり得る。ダウンミックスされた信号および利得パラメータを示す任意の情報は、ダウンミックスされた信号を再構成またはアップミックスするためにデコーダによって使用され得るメタデータといった任意のサイド情報に関連して、ＥＶＳコーデックといった符号化ビットストリームを生成するためにコーデックによって符号化され得る。符号化されたビットストリームは、メタデータとともに、次いで、記憶され、および／または、エンコーダの処理ステップを逆にする能力をもつ受信デバイスに送信され得る。

【0086】

いくつかの実装では、プロセス４００は、ビットのセットに利得パラメータを符号化することができることに留意されたい。いくつかの実装では、利得遷移関数は、利得遷移関数の過渡部分に関連付けられるプロトタイプ／平滑化関数を示し得る。

【0087】

過負荷状態をトリガする信号に関連付けられる各ダウンミックスチャネルに対して、固有の利得遷移関数が適用されるよう、チャネルごとに適応利得制御が有効にされる場合、利得制御が有効にされた各チャネルに対してｘビットが利用され得、チャネルごとの追加的な１ビットインジケータは、利得パラメータが符号化されたことを示す。そのような場合、利得制御情報の送信に使用されるビットの総数は、Ｎｄｍｘ＋ｘ＊Ｎａｇｃであり、Ｎｄｍｘはダウンミックスチャネルの数を表し（および、Ｎｄｍｘ個のチャネルの各々について利得制御が有効にされているかどうかを示すために１つのビットが利用され）、Ｎａｇｃは、利得制御が有効にされたチャネルの数を表す。利得制御が特定のフレームについて有効にされない場合、利得制御が有効にされないことを示すために、Ｎｄｍｘ個のビットが使用され得、たとえば、Ｎｄｍｘ個のチャネルの各々について１ビットであることに留意されたい。ダウンミックスチャネルの数が１である場合、たとえばＷチャネルのみが波形符号化される場合、利得制御情報を送信するために使用されるビットの総数は、ｘ＊Ｎａｇｃによって表されることに留意されたい。たとえば、１つのダウンミックスチャネルが与えられている場合、利得制御が１つのダウンミックスチャネルについて有効とされない場合（たとえばＮａｇｃ＝０）、使用されるビット数は０である。この例で続けると、利得制御が有効にされる場合（たとえばＮａｇｃ＝１）、使用されるビット数はｘである。

【0088】

過負荷状態をトリガするダウンミックスチャネルに関連付けられた単一の利得遷移関数がすべてのダウンミックスチャネルに適用される場合、利得制御情報を送信するために、より少ないビットが使用され得る。たとえば、現在のフレームのための単一の利得パラメータが、ｘビットを用いて送信される。

【0089】

図５は、いくつかの実装に基づく、エンコーダによって利用される利得パラメータを取得し、取得された利得パラメータに基づいて逆利得遷移関数を適用するためのプロセス５００の例を示す。いくつかの実装では、プロセス５００のブロックは、デコーダデバイスによって行われ得る。いくつかの実装では、プロセス５００のブロックは、図５に示されている順序以外の順序で行われ得る。いくつかの実装では、プロセス５００の２つ以上のブロックは、実質的に並行して行われてもよい。いくつかの実装では、プロセス５００の１つまたは複数のブロックは省略され得る。

【0090】

プロセス５００は、５０２において、オーディオ信号の符号化されたフレームを受信することによって開始し得る。受信されたフレーム（たとえば、現在のフレーム）は、本明細書では、概して、ｊ番目のフレームと称される。受信されたフレームは、前に受信されたフレームの直後であってもよいし、前に受信したフレームの直後でないフレームであってもよい。

【0091】

５０４において、プロセス５００は、ダウンミックスされた信号と、利得制御がエンコーダによって適用されたならば、現在のフレームに適用された利得制御を示す情報とを取得するために、オーディオ信号の符号化されたフレームを復号し得る。現在のフレームに適用された利得制御を示す情報は、エンコーダによって適用される利得遷移ステップサイズであり得る。また、現在のフレームに適用された利得制御を示す情報は、エンコーダで適用された利得遷移関数の平滑化関数の形状であり得る。エンコーダがチャネルごとに利得制御を適用する場合、プロセス５００は、どのダウンミックスチャネルに利得制御が適用されたかをさらに特定し得る。

【0092】

５０６において、プロセス５００は、利得遷移ステップサイズに基づいて逆利得遷移関数を決定し得る。いくつかの実装では、プロセス５００は、平滑化関数の形状に基づいて逆利得遷移関数をさらに決定し得る。逆利得遷移関数は、利得遷移関数に基づいて計算されてもよく、または、多数の予め定義された逆利得遷移関数から選択されてもよい。

【0093】

いくつかの実装では、プロセス５００は、逆利得遷移関数がエンコーダにおいて適用される利得遷移関数の逆であると決定し得る。たとえば、逆利得遷移関数は、水平な線を越えてミラーリングされ、調整された利得遷移関数に対応し得る。ミラーリングおよび調整は、ｘ軸に沿ったものであり得る。そのような逆利得遷移関数の例は、図３Ｂに示され、図３Ｂに関連して上述されている。いくつかの実装では、逆利得遷移関数は、先行フレームに適用された利得に対応する定常状態部分を有し得る。逆利得遷移関数は、エンコーダにおいて適用される利得遷移関数の遷移部分の逆である遷移部分を有し得る。たとえば、現在のフレームに適用される利得が、先行フレームに対してより大きい減衰に対応する場合、逆利得遷移関数は、より小さい増幅からより大きい増幅に遷移する遷移部分を有し得る。対照的に、現在のフレームに適用される利得が、先行フレームに対してより少ない減衰に対応する場合、逆利得遷移関数は、より大きい増幅からより小さい増幅に遷移する遷移部分を有し得る。過渡部分の持続時間は、コーデックによってもたらされる遅延に関係し得、過渡部分の持続時間は、フレーム長（たとえば、２０ミリ秒）からコーデック遅延（たとえば、１２ミリ秒）を差し引いたものである。コーデックによってもたらされる遅延がフレーム長よりも長い場合、逆利得遷移は１フレームの遅延を伴って適用され得ることに留意されたい。いくつかの場合、遅延は、利得制御ビットからプロセス５００によって（たとえば、デコーダによって）取得され得る。逆利得遷移関数はまた、エンコーダの利得制御によって増幅された信号を減衰させる働きをし得る。

【0094】

５０８において、プロセス５００は、エンコーダによって適用された利得を逆にするために、ダウンミックスされた信号に逆利得遷移関数を適用し得る。たとえば、逆利得遷移関数の適用は、エンコーダによって減衰されたダウンミックス信号を増幅させて、減衰を逆にし得る。他の例として、逆利得遷移関数の適用は、エンコーダによって増幅されたダウンミックス信号を減衰させて、増幅を逆にし得る。ステップ５０８の出力は、するとプロセス４００のステップ４０２の後のＭ個のダウンミックスチャネルと同じ利得を持つＭ個のダウンミックスチャネルであり得る。

【0095】

５１０において、プロセス５００は、ダウンミックスされた信号をアップミックスし得る。アップミックスすることは、空間エンコーダによって行われ得る。いくつかの場合、空間エンコーダはＳＰＡＲ技法を利用し得る。アップミックスされた信号は、再構成されたＦＯＡまたはＨＯＡオーディオ信号に対応し得る。いくつかの実装では、プロセス５００は、ビットストリームに符号化されたサイド情報、たとえばメタデータを用いて信号をアップミックスし得、サイド情報は、パラメトリックに符号化された信号を再構成するために利用され得る。いくつかの実装では、ブロック５１０は、たとえばダウンミックスされた信号が直接レンダリングされ得るときは任意選択であり得る。

【0096】

いくつかの実装では、５１２において、プロセス５００は、レンダリングされたオーディオデータを生成するために、アップミックスされた信号をレンダリングし得る。いくつかの実装では、プロセス５００は、ＦＯＡまたはＨＯＡオーディオ信号をレンダリングするために、たとえば、シーンベースオーディオデータをレンダリングするために、任意の好適なレンダリングアルゴリズムを利用し得る。いくつかの実装では、レンダリングされたオーディオデータは、たとえば、将来の提示または再生のために、任意の適切なフォーマットで記憶され得る。いくつかの実装では、ブロック５１２は任意選択であり、したがって省略され得る。

【0097】

いくつかの実装では、５１４において、プロセス５００は、レンダリングされたオーディオデータを再生させ得る。たとえば、いくつかの実装では、レンダリングされたオーディオデータは、ラウドスピーカおよび／またはヘッドフォンのうちの１つまたは複数を介して提示され得る。いくつかの実装では、複数のラウドスピーカが利用され得、複数のラウドスピーカは、３次元において互いに対して任意の好適な位置または向きに配置され得る。いくつかの実装では、プロセス５１４は任意選択であり、したがって省略され得る。

【0098】

図４に関連して上述したように、利得制御情報、たとえば、利得パラメータを示す情報は、利得制御ビットのセットを用いて符号化され得る。いくつかの実装では、過負荷状態が検出された各ダウンミックスチャネルについて異なる利得遷移関数が決定され得る。そのような実装では、利得制御がダウンミックスチャネルの各々に適用されているかどうかを示すために利得制御ビットが必要とされ、図４に関連して上述したように、利得遷移関数パラメータは、利得制御が適用されるダウンミックスチャネルの各々について符号化される。あるいは、いくつかの実装では、過負荷状態が存在する一つのダウンミックスチャネルに基づいて決定される単一の利得遷移関数が、ダウンミックスチャネルのすべてに適用され得る。そのような実装では、各ダウンミックスチャネルについて利得制御が適用されたかどうかを示すための別個のビットフラグが必要とされないので、必要とされる利得制御ビットはより少なく、よってよりビットレート効率的な符号化となる。

【0099】

過負荷状態が存在しないダウンミックスチャネルを含むすべてのダウンミックスチャネルに同じ利得遷移関数を適用することによる、よりビットレート効率のよい符号化は、たとえば、コーデックの過負荷が存在しない信号を減衰させることにより、知覚的品質の劣化をもたらすことがある。対照的に、利得制御が各ダウンミックスチャネルに目標を定めた方法で適用される、より目標を定めた利得制御を利用することは、利得制御情報を送信するためにより多くのビットを必要としうる。しかしながら、目標とされた、たとえば、チャネル固有の利得制御情報を送信するために追加のビットを利用することは、ダウンミックスチャネルを波形符号化するために典型的に使用されるビットの再割り振りを必要とすることがあり、いくつかのケースでは、知覚的品質を低減し得る。したがって、すべてのダウンミックスチャネルに同じ利得遷移関数を適用することとチャネル固有の利得制御を適用することとの間には、状況依存のトレードオフがありうる。利得制御がすべてのダウンミックスチャネルにわたって適用されるかまたは目標とされるチャネルごとに適用されるかにかかわらず、利得制御情報に関連付けられるビットは、ダウンミックスチャネルの波形符号化のために典型的に用いられるビットから、および／またはダウンミックスチャネルからＦＯＡまたはＨＯＡ信号を再構成するために用いられるメタデータといったサイド情報を符号化するために典型的に用いられるビットから割り当てられ得、それにより、ダウンミックスチャネルまたはサイド情報のいずれかを符号化するために利用可能なビットの数が低減される。

【0100】

図６は、一実施形態による、ＩＶＡＳシステム６００の例示的なユースケースを示す。いくつかの実施形態では、さまざまなデバイスは、たとえば、ＰＳＴＮ／ＯＴＨＥＲＰＬＭＮによって示される公衆交換電話網（ＰＳＴＮ）またはモバイルネットワークデバイス（ＰＬＭＮ）６０４からオーディオ信号を受信するよう構成されたコールサーバ６０２を介して通信する。ユースケースは、拡張ボイスサービス（ＥＶＳ）、マルチレート広帯域（ＡＭＲ－ＷＢ）および適応マルチレート狭帯域（ＡＭＲ－ＮＢ）をサポートするデバイスを含むがこれらに限定されない、オーディオをモノ（mono）のみでレンダリングし、キャプチャするレガシーデバイス６０６をサポートする。ユースケースはまた、ステレオオーディオ信号をキャプチャし、レンダリングするユーザ機器（ＵＥ）６０８および／もしくは６１４、またはモノ信号をキャプチャし、マルチチャネル信号にバイノーラルにレンダリングするＵＥ６１０をサポートする。ユースケースはまた、ビデオ会議室システム６１６および／または６１８によってそれぞれキャプチャされ、レンダリングされるイマーシブ信号およびステレオ信号をサポートする。ユースケースはまた、ホームシアターシステム６２０のためのステレオオーディオ信号のステレオキャプチャおよびイマーシブレンダリング、並びに仮想現実（ＶＲ）ギア６２２およびイマーシブコンテンツ取り込み６２４のためのオーディオ信号のモノキャプチャおよびイマーシブレンダリングのためのコンピュータ６１２をサポートする。

【0101】

図７は、本開示のさまざまな態様を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図７に示す要素のタイプおよび数は、単に例として与えられる。他の実装は、より多くの、より少ない、および／または異なる種類および数の要素を含み得る。いくつかの例によれば、装置７００は、本明細書で開示する方法のうちの少なくともいくつかを行うよう構成され得る。いくつかの実装では、装置７００は、テレビジョン、オーディオシステムの１つまたは複数の構成要素、（セルラー電話などの）モバイルデバイス、ラップトップコンピュータ、タブレットデバイス、スマートスピーカ、または他のタイプのデバイスであってよく、またはこれらを含み得る。

【0102】

いくつかの代替的な実装によれば、装置７００は、サーバであってもよく、またはサーバを含み得る。いくつかのそのような例では、装置７００は、エンコーダであり得るか、またはそれを含み得る。したがって、いくつかの場合、装置７００は、ホームオーディオ環境などのオーディオ環境内で使用するよう構成されたデバイスであってもよく、他の場合、装置７００は、「クラウド」、たとえばサーバで使用するよう構成されたデバイスであってもよい。

【0103】

この例では、装置７００は、インタフェースシステム７０５および制御システム７１０を含む。インタフェースシステム７０５は、いくつかの実装では、オーディオ環境の１つまたは複数の他のデバイスと通信するよう構成され得る。オーディオ環境は、いくつかの例では、ホームオーディオ環境であり得る。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、通りまたは歩道環境、公園環境などの他のタイプの環境であり得る。インタフェースシステム７０５は、いくつかの実装では、オーディオ環境のオーディオデバイスと制御情報および関連付けられたデータを交換するよう構成され得る。制御情報および関連付けられたデータは、いくつかの例では、装置７００が実行している１つまたは複数のソフトウエアアプリケーションに関係し得る。

【0104】

インタフェースシステム７０５は、いくつかの実装では、コンテンツストリームを受信するか、または提供するよう構成され得る。コンテンツストリームは、オーディオデータを含み得る。オーディオデータは、オーディオ信号を含んでいてもよいが、これに限定されない。いくつかの場合、オーディオデータは、チャネルデータおよび／または空間メタデータといった空間データを含み得る。いくつかの例では、コンテンツストリームは、ビデオデータと、ビデオデータに対応するオーディオデータとを含み得る。

【0105】

インタフェースシステム７０５は、１つまたは複数のネットワークインタフェース、および／または１つまたは複数のユニバーサルシリアルバス（ＵＳＢ）インタフェースといった１つまたは複数の外部デバイスインタフェースを含んでいてもよい。いくつかの実装によれば、インタフェースシステム７０５は、１つまたは複数のワイヤレスインタフェースを含み得る。インタフェースシステム７０５は、１つまたは複数のマイクロフォン、１つまたは複数のスピーカ、ディスプレイシステム、タッチセンサシステムおよび／またはジェスチャセンサシステムなど、ユーザインタフェースを実装するための１つまたは複数のデバイスを含み得る。いくつかの例では、インタフェースシステム７０５は、制御システム７１０と、図７に示す任意のメモリシステム７１５などのメモリシステムとの間の１つまたは複数のインタフェースを含み得る。しかしながら、制御システム７１０は、いくつかの場合はメモリシステムを含み得る。インタフェースシステム７０５は、いくつかの実装では、環境内の１つまたは複数のマイクロフォンから入力を受信するよう構成され得る。

【0106】

制御システム７１０は、たとえば、汎用シングルチッププロセッサまたはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、および／またはディスクリートハードウエア構成要素を含み得る。

【0107】

いくつかの実装では、制御システム７１０は、２つ以上のデバイスに存在し得る。たとえば、いくつかの実装では、制御システム７１０の一部は、本明細書に示される環境のうちの１つの中のデバイスに存在してもよく、制御システム７１０の他の部分は、サーバ、モバイルデバイス（たとえば、スマートフォンまたはタブレットコンピュータ）等の環境の外側にあるデバイスに存在してもよい。他の実施形態では、制御システム７１０の一部は、１つの環境内のデバイスに存在してもよく、制御システム７１０の他の部分は、環境の１つまたは複数の他のデバイスに存在してもよい。たとえば、制御システム７１０の一部は、サーバといったクラウドベースのサービスを実装しているデバイスに存在してもよく、制御システム７１０の他の部分は、他のサーバ、メモリデバイスなどのクラウドベースのサービスを実装している他のデバイスに存在してもよい。インタフェースシステム７０５はまた、いくつかの例では、２つ以上のデバイスに存在してもよい。

【0108】

いくつかの実装では、制御システム７１０は、本明細書に開示された方法を少なくとも部分的に行うよう構成されてもよい。いくつかの例によれば、制御システム７１０は、利得パラメータを決定すること、利得遷移関数を適用すること、逆利得遷移関数を決定すること、逆利得遷移関数を適用すること、ビットストリームに関して利得制御のためにビットを分配することなどの方法を実装するよう構成され得る。

【0109】

本明細書に記載された方法の一部または全部は、１つまたは複数の非一時的な媒体に記憶された命令（たとえば、ソフトウエア）に従って１つまたは複数のデバイスによって行われ得る。そのような非一時的な媒体は、ランダムアクセスメモリ（ＲＡＭ）デバイス、読み出し専用メモリ（ＲＯＭ）デバイスなどを含むがこれらに限定されない、本明細書に記載されるものといったメモリデバイスを含み得る。１つまたは複数の非一時的な媒体は、たとえば、図７に示される任意のメモリシステム７１５および／または制御システム７１０に存在し得る。したがって、本開示で説明する主題のさまざまな発明的態様は、ソフトウエアを記憶した１つまたは複数の非一時的な媒体において実装され得る。ソフトウエアは、たとえば、利得パラメータを決定するための命令、利得遷移関数を適用するための命令、逆利得遷移関数を決定するための命令、逆利得遷移関数を適用するための命令、ビットストリームに関する利得制御のためのビットを分配するための命令などを含み得る。ソフトウエアは、たとえば、図７の制御システム７１０などの制御システムの１つまたは複数の構成要素によって実行可能であり得る。

【0110】

いくつかの例では、装置７００は、図７に示す任意選択のマイクロフォンシステム７２０を含み得る。任意選択のマイクロフォンシステム７２０は、１つまたは複数のマイクロフォンを含み得る。いくつかの実装では、マイクロフォンのうちの１つまたは複数は、スピーカシステムのスピーカ、スマートオーディオデバイスなどの他のデバイスの一部であるか、またはそれに関連し得る。いくつかの例では、装置７００はマイクロフォンシステム７２０を含まないことがある。しかしながら、いくつかのそのような実装では、装置７００は、それでもなお、インタフェースシステム７１０を介してオーディオ環境内の１つまたは複数のマイクロフォンのためのマイクロフォンデータを受信するよう構成され得る。いくつかのそのような実装では、装置７００のクラウドベースの実装は、インタフェースシステム７１０を介してオーディオ環境内の１つまたは複数のマイクロフォンから、マイクロフォンデータ、またはマイクロフォンデータに少なくとも部分的に対応する雑音メトリックを受信するよう構成され得る。

【0111】

いくつかの実装によれば、装置７００は、図７に示されている任意選択のラウドスピーカシステム７２５を含み得る。任意選択のラウドスピーカシステム７２５は、１つまたは複数のラウドスピーカを含み得、それはまた、本明細書では「スピーカ」、またはより一般的には「オーディオ再生トランスデューサ」とも称され得る。いくつかの例、たとえば、クラウドベースの実装では、装置７００は、ラウドスピーカシステム７２５を含まないことがある。いくつかの実装では、装置７００はヘッドフォンを含み得る。ヘッドフォンは、ヘッドフォンジャックを介して、または無線接続、たとえば、ＢＬＵＥＴＯＯＴＨ（登録商標）を介して、装置７００に接続または結合され得る。

【0112】

図８Ａおよび図８Ｂは、エンコーダ側におけるサンプルの均一な利得制御がＤＢＳＴＥＰ＝－１ｄＢである知覚的に動機付けされた利得制御の例示的な実装を示す。この特定の例では、１フレームは１０２４サンプルからなる。サンプル振幅は点線で表され、サンプルごとに適用される利得は実線で表される。図８Ａからわかるように、フレームがエンコーダにおいて過負荷（０ｄＢより大きい振幅）を生成した途端に、利得関数は、減衰なし（０ｄＢ）からＤＢＳＴＥＰ－０ｄＢ＝－１ｄＢの減衰に遷移する。入力オーディオ信号が１ｄＢを超える場合、ＤＢＳＴＥＰによる更なる減衰がもたらされる。

【0113】

結果として得られる減衰されたダウンミックスされたオーディオ信号を図８Ｂに示す。この具体例では、ＤＢＳＴＥＰの値は十分に大きく、それにより、各サンプルは必要とされる閾値（０ｄＢ）よりも下に減衰される。

【0114】

図９Ａおよび図９Ｂは、エンコーダ側における減衰値のセット｛ＤＢＳ＊ＧＴ｝＝｛０，－１，－３，－６｝ｄＢまたは｛－１，－２，－３｝のＤＢＳＴＥＰセットを生じさせるＤＢＳ＝－１ｄＢおよびＧＴ＝｛０，１，３，６｝である「非一様」利得制御の例を示す。図８Ａおよび図８Ｂと同様、サンプルの振幅は点線で示され、利得関数は実線で示されている。ＤＢＳＴＥＰのセットでは、自動利得制御は、各フレームにおいて増加する値で信号を減衰させることによって、エンコーダにおいて引き起こされる過負荷に反応することができる。図９Ｂに示すように、利得遷移ステップサイズは、全てのサンプリングされたものが要求される閾値（＜０ｄＢ）を下回るほど十分に大きくない。これは、オーディオ信号がデコーダにおいてレンダリングされるときに歪みをもたらし得るが、エンコーダにおける過負荷によって引き起こされる歪みは、非常に突然の利得変化によって引き起こされる歪みほどは顕著ではない。

【0115】

本開示のいくつかの態様は、開示された方法の１つまたは複数の例を行うよう構成された、たとえばプログラムされたシステムまたはデバイスと、開示された方法またはそのステップの１つまたは複数の例を実施するためのコードを記憶する有形のコンピュータ読み取り可能な媒体、たとえばディスクとを含む。たとえば、いくつかの開示されたシステムは、ソフトウエアまたはファームウェアでプログラムされた、および／または、開示された方法またはそのステップの実施形態を含む、データに対するさまざまな操作のいずれかを行うよう構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであるか、またはそれらを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して、開示される方法（またはそのステップ）の１つまたは複数の例を行うようプログラムされた（および／または他の方法で構成された）処理サブシステムとを含むコンピュータシステムであるか、またはこれを含み得る。

【0116】

いくつかの実施形態は、開示された方法の１つまたは複数の例の実行を含む、オーディオ信号（複数可）に対して必要な処理を行うよう構成された（たとえば、プログラムされた、および他の方法で構成された）構成可能な（たとえば、プログラム可能な）デジタル信号プロセッサ（ＤＳＰ）として実装され得る。あるいは、開示されたシステム（またはその要素）の実施形態は、汎用プロセッサ、たとえば、パーソナルコンピュータ（ＰＣ）または他のコンピュータシステムまたはマイクロプロセッサとして実装されてもよく、これは、入力デバイスおよびメモリを含んでいてもよく、ソフトウエアまたはファームウェアでプログラムされ、および／またはそうでなければ、開示された方法の１つまたは複数の例を含むさまざまな操作のいずれかを行うよう構成される。あるいは、本発明のシステムのいくつかの実施形態の要素は、開示された方法の１つまたは複数の例を行うよう構成された（たとえば、プログラムされた）汎用プロセッサまたはＤＳＰとして実装され、システムは他の要素も含む。他の要素は、１つまたは複数のラウドスピーカおよび／または１つまたは複数のマイクロフォンを含み得る。開示される方法の１つまたは複数の例を実行するよう構成された汎用プロセッサは、入力デバイスに結合され得る。入力装置の例は、たとえば、マウスおよび／またはキーボードを含む。汎用プロセッサは、メモリ、ディスプレイデバイスなどに結合され得る。

【0117】

本開示の他の態様は、開示された方法またはそのステップの１つまたは複数の例を、たとえば、行うよう実行可能なコーダによって行うためのコードを記憶する、ディスクまたは他の有形な記憶媒体といったコンピュータ読み取り可能な媒体である。

【0118】

本開示の特定の実施形態および本開示の適用が本明細書に記載されているが、本明細書に記載された実施形態および適用に対する多くの変形が、本明細書に記載され、特許請求される本開示の範囲から逸脱することなく可能であることは、当業者には明らかであろう。本開示の特定の形態が示され、説明されたが、本開示は、説明され、示された特定の実施形態、または説明された特定の方法に限定されるべきではないことを理解されたい。

【0119】

本開示のさまざまな態様および実装は、特許請求の範囲ではない以下の列挙された例示的な実施形態（ＥＥＥ）からも理解され得る。
［ＥＥＥ１］
オーディオ信号に対して利得制御を行う方法であって、前記方法は、
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することと、
前記ダウンミックスされたオーディオ信号のフレームについて過負荷状態が発生したと決定することと、
前記過負荷状態が発生したと決定したことに対応して、前記フレームのための利得遷移関数を決定することであって、前記利得遷移関数は、少なくとも利得遷移ステップサイズに基づく、ことと、
前記利得遷移関数を前記フレームに適用して、前記ダウンミックスされたオーディオ信号の利得調整されたフレームを生成することと、
エンコーダによる符号化のため、前記利得調整されたフレームと前記利得遷移関数を示す情報とを提供することと、
を含む方法。
［ＥＥＥ２］
前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化すること、
をさらに含む、ＥＥＥ１に記載の方法。
［ＥＥＥ３］
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することは、
前記ダウンミックスされたオーディオ信号を受信すること、または、
前記ダウンミックスされたオーディオ信号を前記符号化されるべきオーディオ信号から決定すること、を含む、
ＥＥＥ１または２に記載の方法。
［ＥＥＥ４］
前記オーディオ信号は、高次アンビソニックス（ＨＯＡ）オーディオ信号である、ＥＥＥ１ないし３のいずれかに記載の方法。
［ＥＥＥ５］
前記ダウンミックスされたオーディオ信号は、空間的に符号化されたダウンミックスされた信号である、ＥＥＥ１ないし４のいずれかに記載の方法。
［ＥＥＥ６］
前記過負荷状態は、前記ダウンミックスされたオーディオ信号の前記フレームが予め定義された信号範囲を超える状態である、ＥＥＥ１ないし５のいずれかに記載の方法。
［ＥＥＥ７］
前記予め定義された信号範囲は、前記エンコーダによって予期される信号範囲である、ＥＥＥ６に記載の方法。
［ＥＥＥ８］
前記ダウンミックスされたオーディオ信号の前記フレームは現在のフレームであり、前記利得遷移関数は、前記現在のフレームの先行フレームに適用された前の利得遷移関数にさらに基づく、ＥＥＥ１ないし７のいずれかに記載の方法。
［ＥＥＥ９］
前記利得遷移関数は、前記利得遷移ステップサイズに基づく平滑化関数にさらに依存する、ＥＥＥ１ないし８のいずれかに記載の方法。
［ＥＥＥ１０］
前記利得遷移関数は、過渡部分と定常状態部分とを含み、前記過渡部分は、前記先行フレームに関連付けられた利得から前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられた前記利得への遷移に対応する、ＥＥＥ８に記載の方法。
［ＥＥＥ１１］
前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられる前記利得は、前記現在のフレームの利得調整目標に依存して、前記先行フレームに対応する利得の前記利得遷移ステップサイズによる減衰であるか、または前記利得遷移ステップサイズによる増幅である、ＥＥＥ１０に記載の方法。
［ＥＥＥ１２］
前記過渡部分の長さは、前記エンコーダによって利用されるコーデックによってもたらされる遅延によって制限される、ＥＥＥ１０または１１に記載の方法。
［ＥＥＥ１３］
前記過渡部分の長さは、前記エンコーダによる符号化動作のために使われるサンプルの数以下である、ＥＥＥ１２に記載の方法。
［ＥＥＥ１４］
過渡部分の長さは、１サンプルよりも大きい、ＥＥＥ１０ないし１３のうちいずれか一つ記載の方法。
［ＥＥＥ１５］
前記利得遷移関数は、

【数12】

として定義され、式中、ＤＢＳＴＥＰは、利得遷移ステップサイズであり、ｌはサンプルインデックスであり、ｊは、フレームインデックスであり、ｐ（）は平滑化関数であり、ｌｅｎｄは、ｐ（）が定義される最も右のインデックスを表し、Ｌは、１フレームのサンプル数である、
ＥＥＥ１ないし１４のいずれかに記載の方法。
［ＥＥＥ１６］
前記利得遷移ステップサイズは、予め定義された値である、ＥＥＥ１ないし１５のいずれかに記載の方法。
［ＥＥＥ１７］
前記利得遷移ステップサイズは、増加するサイズの予め定義された値のセットから決定される、ＥＥＥ１ないし１６のいずれかに記載の方法。
［ＥＥＥ１８］
前記ダウンミックスされたオーディオ信号の前記フレームによって生じる過負荷量を決定することと、
前記過負荷量に応じて、前記増加するサイズの予め定義された値のセットから前記利得遷移ステップサイズを決定することと、
をさらに含む、ＥＥＥ１７に記載の方法。
［ＥＥＥ１９］
前記利得遷移ステップサイズは、知覚的品質リスニングテストまたは客観的品質測定に基づいて決定される、ＥＥＥ１ないし１８のいずれかに記載の方法。
［ＥＥＥ２０］
前記知覚的品質リスニングテストは、隠れた基準およびアンカーを有する多刺激テスト（ＭＵＳＨＲＡ）である、ＥＥＥ１９に記載の方法。
［ＥＥＥ２１］
前記ダウンミックスされた信号の利得調整されたフレームを生成するために前記フレームに前記利得遷移関数を適用することは、
前記ダウンミックスされたオーディオ信号のサンプルに前記利得遷移関数を適用することであって、前記サンプルの総数は前記ダウンミックスされたオーディオ信号の前記フレームに対応する、ことを含む、
ＥＥＥ１ないし２０のいずれかに記載の方法。
［ＥＥＥ２２］
前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化することは、
前記利得遷移関数に基づいて符号化方式を決定することを含む、
ＥＥＥ２、またはＥＥＥ３ないしＥＥＥ２１のいずれか一つに記載の方法。
［ＥＥＥ２３］
前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移ステップサイズに基づいて前記符号化方式を決定することを含む、
ＥＥＥ２２に記載の方法。
［ＥＥＥ２４］、
前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移関数が前記過負荷状態を除去することができたかどうかに基づいて前記符号化方式を決定することを含む、
ＥＥＥ２２に記載の方法。
［ＥＥＥ２５］
符号化方式は、修正離散コサイン変換（ＭＤＣＴ）、または代数符号励振線形予測（ＡＣＥＬＰ）のうちの１つである、ＥＥＥ２２ないし２４のいずれかに記載の方法。
［ＥＥＥ２６］
前記利得調整されたフレームは、減衰されたフレームまたは増幅されたフレームである、ＥＥＥ１ないし２５のいずれかに記載の方法。
［ＥＥＥ２７］
オーディオ信号に対して利得制御を行う方法であって、前記方法は、
デコーダにおいて、オーディオ信号の符号化されたフレームを受信することと、
ダウンミックスされたオーディオ信号のフレームとエンコーダによって適用された利得制御を示す情報とを取得するために、オーディオ信号の前記符号化されたフレームを復号することと、
前記エンコーダによって適用された利得制御を示す前記情報に少なくとも部分的に基づいて、前記ダウンミックスされたオーディオ信号の前記フレームに適用されるべき逆利得遷移関数を決定することであって、前記エンコーダによって適用された利得制御を示す前記情報は利得遷移ステップサイズを含む、ことと、
前記ダウンミックスされたオーディオ信号の前記フレームに前記逆利得遷移関数を適用することと、
を含む方法。
［ＥＥＥ２８］
前記方法は、前記ダウンミックスされたオーディオ信号をアップミックスして、アップミックスされたオーディオ信号を生成することであって、前記アップミックスされたオーディオ信号はレンダリングに適している、ことをさらに含む、ＥＥＥ２７の方法。
［ＥＥＥ２９］
レンダリングされたオーディオデータを生成するために前記アップミックスされた信号をレンダリングすることをさらに含む、ＥＥＥ２８に記載の方法。
［ＥＥＥ３０］
ラウドスピーカまたはヘッドフォンのうちの１つまたは複数を使用して、レンダリングされたオーディオデータを再生することをさらに含む、ＥＥＥ２９に記載の方法。
［ＥＥＥ３１］
エンコーダによって適用される利得制御を示す情報は、平滑化関数を示す情報をさらに含む、ＥＥＥ２７ないし３０のうちいずれか一つに記載の方法。
［ＥＥＥ３２］
前記逆利得遷移関数は、前記エンコーダによって適用される利得遷移関数を反転させることによって決定される、
ＥＥＥ２７ないし３１のうちいずれか一つに記載の方法。
［ＥＥＥ３３］
逆利得遷移関数は、過渡部分と定常状態部分とを含む、ＥＥＥ２７ないし３２のうちのいずれかに記載の方法。
［ＥＥＥ３４］
前記過渡部分の長さは、前記デコーダによって利用されるコーデックによってもたらされる遅延によって制限される、ＥＥＥ３３に記載の方法。
［ＥＥＥ３５］
ＥＥＥ１ないし３４のいずれか一つに記載の方法を実装するよう構成された装置。
［ＥＥＥ３６］
処理装置によって実行されると、前記処理装置に、ＥＥＥ１ないし３４のいずれか一つに記載の方法を実行させる命令を含むプログラム。
［ＥＥＥ３７］
ＥＥＥ３６に記載のプログラムを記憶した記憶媒体。
［ＥＥＥ３８］
オーディオ信号に対して利得制御を行うための方法であって、前記方法は、
自動利得制御システムによって、空間的に符号化されたダウンミックスオーディオ信号を受信することと、
前記受信された信号の１つまたは複数のフレームについて過負荷状態が発生したと決定することと、
前記過負荷状態に対応して、前記過負荷を減衰させるために前記受信された信号に対して利得関数を適用することによって減衰信号を生成することであって、前記利得関数は、（１）減衰レベルパラメータ、（２）前記１つまたは複数のフレームの各々についてそれぞれの減衰レベルを指定する利得関数形状、または（３）前記減衰レベルパラメータと前記利得関数形状との組み合わせに依存する、ことと、
符号化のため、前記減衰信号と前記減衰レベルパラメータの表現とをコアエンコーダに提供することと、
を含む方法。
［ＥＥＥ３９］
前記減衰レベルパラメータは、数のテーブルを含み、各数は、前記１つまたは複数のフレームに連続的に適用されるべきそれぞれの減衰レベルに対応する、ＥＥＥ３８に記載の方法。
［ＥＥＥ４０］
各数は、同じ値を有し、減衰の各ステップが同じ量だけ信号を減衰させることを示す、ＥＥＥ３９に記載の方法。
［ＥＥＥ４１］
前記数は、値が増加し、減衰の各ステップが前のステップよりも高い量だけ前記信号を減衰させることを示す、ＥＥＥ３９に記載の方法。
［ＥＥＥ４２］
前記減衰レベルパラメータに基づいて異なる符号化方式を用いて前記オーディオ信号を符号化するよう前記コアエンコーダをステアリングすることを含む、
ＥＥＥ３８から４１のいずれか一つに記載の方法。
［ＥＥＥ４３］
前記減衰レベルパラメータの異なる値に基づいて前記利得関数形状を変更することを含む、ＥＥＥ３８から４２のいずれか一つに記載の方法。
［ＥＥＥ４４］
ＥＥＥ３８から４３のいずれか一つに記載の方法を実装するよう構成された装置。
［ＥＥＥ４５］
ソフトウエアを記憶した１つまたは複数の非一時的な媒体であって、前記ソフトウエアは、ＥＥＥ３８から４３のいずれか一つに記載の方法を行うよう１つまたは複数のデバイスを制御するための命令を含む、媒体。

【図1】