IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2025-532374知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム
<>
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図1
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図2A
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図2B
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図3A
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図3B
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図4
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図5
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図6
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図7
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図8A
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図8B
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図9A
  • 特表-知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム 図9B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-09-29
(54)【発明の名称】知覚的に動機付けされた利得制御を行うための方法、装置、およびシステム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20250919BHJP
【FI】
G10L19/008 100
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2025519776
(86)(22)【出願日】2023-09-01
(85)【翻訳文提出日】2025-04-15
(86)【国際出願番号】 US2023073365
(87)【国際公開番号】W WO2024076810
(87)【国際公開日】2024-04-11
(31)【優先権主張番号】63/378,678
(32)【優先日】2022-10-06
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/503,533
(32)【優先日】2023-05-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】セティアワン,パンジ
(72)【発明者】
【氏名】マクドナルド,ベンジャミン ギルバート
(72)【発明者】
【氏名】ティアギ,リシャブ
(57)【要約】
オーディオ信号に対して利得制御を行うためのシステム、方法、およびコンピュータプログラムプロダクトが提供される。自動利得制御システムは、符号化されるオーディオ信号のダウンミックスされたオーディオ信号を取得する。システムは、ダウンミックスされたオーディオ信号のフレームに対して過負荷状態が発生したと決定する。過負荷状態に対応して、システムは、フレームの利得遷移関数を決定し、利得遷移関数は、少なくとも利得遷移ステップサイズに基づく。システムは、ダウンミックスされたオーディオ信号の利得調整されたフレームを生成するために、利得遷移関数をフレームに適用する。システムは、エンコーダによる符号化のため、利得調整されたフレームと利得遷移関数を示す情報とを与える。
【特許請求の範囲】
【請求項1】
オーディオ信号に対して利得制御を行う方法であって、
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することと、
前記ダウンミックスされたオーディオ信号のフレームについて過負荷状態が発生したと決定することと、
前記過負荷状態が発生したと決定したことに対応して、前記フレームのための利得遷移関数を決定することであって、前記利得遷移関数は、少なくとも利得遷移ステップサイズに基づく、ことと、
前記利得遷移関数を前記フレームに適用して、前記ダウンミックスされたオーディオ信号の利得調整されたフレームを生成することと、
エンコーダによる符号化のため、前記利得調整されたフレームと前記利得遷移関数を示す情報とを提供することと、
を含む、方法。
【請求項2】
前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化することをさらに含む、請求項1に記載の方法。
【請求項3】
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することは、
前記ダウンミックスされたオーディオ信号を受信すること、または、
前記ダウンミックスされたオーディオ信号を前記符号化されるべきオーディオ信号から決定すること、
を含む、請求項1に記載の方法。
【請求項4】
前記オーディオ信号は、高次アンビソニックス(HOA)オーディオ信号である、請求項1に記載の方法。
【請求項5】
前記ダウンミックスされたオーディオ信号は、空間的に符号化されたダウンミックスされた信号である、請求項1に記載の方法。
【請求項6】
前記過負荷状態は、前記ダウンミックスされたオーディオ信号の前記フレームが予め定義された信号範囲を超える状態である、請求項1に記載の方法。
【請求項7】
前記予め定義された信号範囲は、前記エンコーダによって予期される信号範囲である、請求項6に記載の方法。
【請求項8】
前記ダウンミックスされたオーディオ信号の前記フレームは現在のフレームであり、前記利得遷移関数は、前記現在のフレームの先行フレームに適用された前の利得遷移関数にさらに基づく、請求項1に記載の方法。
【請求項9】
前記利得遷移関数は、前記利得遷移ステップサイズに基づく平滑化関数にさらに依存する、請求項1に記載の方法。
【請求項10】
前記利得遷移関数は、過渡部分と定常状態部分とを含み、前記過渡部分は、前記先行フレームに関連付けられた利得から前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられた前記利得への遷移に対応する、請求項8に記載の方法。
【請求項11】
前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられる前記利得は、前記現在のフレームの利得調整目標に依存して、前記先行フレームに対応する利得の前記利得遷移ステップサイズによる減衰であるか、または前記利得遷移ステップサイズによる増幅である、請求項10に記載の方法。
【請求項12】
前記過渡部分の長さは、前記エンコーダによって利用されるコーデックによってもたらされる遅延によって制限される、請求項10に記載の方法。
【請求項13】
前記過渡部分の前記長さは、前記エンコーダによる符号化動作のために使用されるサンプルの数以下である、請求項12に記載の方法。
【請求項14】
前記過渡部分の長さは、1サンプルよりも大きい、請求項10に記載の方法。
【請求項15】
前記利得遷移関数は、
【数1】
として定義され、式中、DBSTEPは、利得遷移ステップサイズであり、lはサンプルインデックスであり、jは、フレームインデックスであり、p()は平滑化関数であり、lendは、p()が定義される最も右のインデックスを表し、Lは、1フレームのサンプル数である、請求項1に記載の方法。
【請求項16】
前記利得遷移ステップサイズは、予め定義された値である、請求項1に記載の方法。
【請求項17】
前記利得遷移ステップサイズは、増加するサイズの予め定義された値のセットから決定される、請求項1に記載の方法。
【請求項18】
前記ダウンミックスされたオーディオ信号の前記フレームによって生じる過負荷量を決定することと、
前記過負荷量に依存して、前記増加するサイズの予め定義された値のセットから前記利得遷移ステップサイズを決定することと、
をさらに含む、請求項17に記載の方法。
【請求項19】
前記利得遷移ステップサイズは、知覚的品質リスニングテストまたは客観的品質測定に基づいて決定される、請求項1に記載の方法。
【請求項20】
前記知覚的品質リスニングテストは、Multi-Stimulus Test with Hidden Reference and Anchor(MUSHRA)である、請求項19に記載の方法。
【請求項21】
前記ダウンミックスされた信号の利得調整されたフレームを生成するために前記フレームに前記利得遷移関数を適用することは、
前記ダウンミックスされたオーディオ信号のサンプルに前記利得遷移関数を適用することであって、前記サンプルの総数は前記ダウンミックスされたオーディオ信号の前記フレームに対応する、ことを含む、
請求項1に記載の方法。
【請求項22】
前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化することは、
前記利得遷移関数に基づいて符号化方式を決定することを含む、
請求項2に記載の方法。
【請求項23】
前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移ステップサイズに基づいて前記符号化方式を決定することを含む、
請求項22に記載の方法。
【請求項24】
前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移関数が前記過負荷状態を除去することができたかどうかに基づいて前記符号化方式を決定することを含む、
請求項22に記載の方法。
【請求項25】
前記符号化方式は、修正離散コサイン変換(MDCT)、または代数符号励振線形予測(ACELP)のうちの1つである、請求項22に記載の方法。
【請求項26】
前記利得調整されたフレームは、減衰されたフレームまたは増幅されたフレームである、請求項1に記載の方法。
【請求項27】
オーディオ信号に対して利得制御を行う方法であって、
デコーダにおいて、オーディオ信号の符号化されたフレームを受信することと、
ダウンミックスされたオーディオ信号のフレームとエンコーダによって適用された利得制御を示す情報とを取得するために、オーディオ信号の前記符号化されたフレームを復号することと、
前記エンコーダによって適用された利得制御を示す前記情報に少なくとも部分的に基づいて、前記ダウンミックスされたオーディオ信号の前記フレームに適用されるべき逆利得遷移関数を決定することであって、前記エンコーダによって適用された利得制御を示す前記情報は利得遷移ステップサイズを含む、ことと、
前記ダウンミックスされたオーディオ信号の前記フレームに前記逆利得遷移関数を適用することと、
を含む方法。
【請求項28】
前記方法は、前記ダウンミックスされたオーディオ信号をアップミックスして、アップミックスされたオーディオ信号を生成することであって、前記アップミックスされたオーディオ信号はレンダリングに適している、ことをさらに含む、請求項27に記載の方法。
【請求項29】
レンダリングされたオーディオデータを生成するために前記アップミックスされた信号をレンダリングすることをさらに含む、請求項28に記載の方法。
【請求項30】
ラウドスピーカまたはヘッドフォンのうちの1つまたは複数を使用して、前記レンダリングされたオーディオデータを再生することをさらに含む、請求項29に記載の方法。
【請求項31】
前記エンコーダによって適用される利得制御を示す前記情報は、平滑化関数を示す情報をさらに含む、請求項27に記載の方法。
【請求項32】
前記逆利得遷移関数は、前記エンコーダによって適用される利得遷移関数を反転させることによって決定される、請求項27に記載の方法。
【請求項33】
前記逆利得遷移関数は、過渡部分と定常状態部分とを含む、請求項27に記載の方法。
【請求項34】
前記過渡部分の長さは、前記デコーダによって利用されるコーデックによってもたらされる遅延によって制限される、請求項33に記載の方法。
【請求項35】
請求項1ないし34のいずれか一項に記載の方法を実装するよう構成された装置。
【請求項36】
処理装置によって実行されると、前記処理装置に請求項1ないし34のいずれか一項に記載の方法を行わせる命令を含むプログラム。
【請求項37】
請求項36に記載のプログラムを格納した記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2023年10月6日に出願された米国仮特許出願第63/378,678号および2022年5月22日に出願された米国仮特許出願第63/503,533号に基づく優先権を主張し、これらの各々は、その全体が本明細書中に参考として援用される。
【0002】
[技術分野]
本開示は、オーディオ環境における適応利得制御のためのシステム、方法、および媒体に関する。
【背景技術】
【0003】
利得制御は、たとえば、信号を、オーディオコーデックによって予期される範囲内になるように減衰させるために使用され得る。エンコーダにおいて利得制御が適用され、デコーダにおいて逆利得制御が適用されるオーディオ信号の知覚的品質を改善するために、連続するフレームに適用される異なる利得間で滑らかに遷移するための利得遷移関数が提案されている。連続するフレーム間に急激な利得変化がある場合、この方法は可聴アーチファクトにつながることがある。さらに、いくつかのケースでは、連続するフレームの決定された利得の間の利得変化は、滑らかな遷移関数を適用するには大きすぎるおよび/または急激すぎる。このケースでは、信号が予期される範囲内にあることを確実にするために、ハード遷移が使用され得る。たとえば、連続するフレームの利得間でハード遷移が使用されるという情報を伝達するために、単一のビットが使用され得る。しかしながら、このハードな遷移は、元の過負荷状態によってもたらされるものよりも悪い、復号されレンダリングされたオーディオ信号における可聴アーチファクトにもつながり得る。したがって、利得遷移関数を使用して符号化/復号システムの知覚的品質を改善し、符号化に必要なビットを低減する必要がある。
【0004】
[表記法および命名法]
特許請求の範囲を含む本開示全体を通して、「スピーカ」、「ラウドスピーカ」、および「オーディオ再生トランスデューサ」という用語は、任意の音放出トランスデューサまたはトランスデューサのセットを示すために同義的に使用される。典型的なヘッドフォンのセットは、2つのスピーカを含む。スピーカは、ウーファおよびツイータ等の複数の変換器を含むよう実装されてもよく、単一の共通スピーカフィードまたは複数のスピーカフィードによって駆動されてもよい。いくつかの例では、スピーカフィードは、異なるトランスデューサに結合された異なる回路の枝において異なる処理を受け得る。
【0005】
特許請求の範囲を含む本開示全体を通して、信号またはデータに対してフィルタリング、スケーリング、変換、または利得を適用することなど、信号またはデータに対して「操作を行う」という表現は、信号もしくはデータに対して直接、または信号もしくはデータの処理されたバージョンに対して操作を行うことを示すために広い意味で使用される。たとえば、この操作は、その操作の実行前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して行われてもよい。
【0006】
特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。たとえば、デコーダを実装するサブシステムは、デコーダシステムと称されてもよく、そのようなサブシステムを含むシステム(たとえば、サブシステムがM個の入力を生成し、他のX-M個の入力が外部ソースから受信される、複数の入力に応答してX個の出力信号を生成するシステム)もまた、デコーダシステムと称され得る。
【0007】
特許請求の範囲を含む本開示全体を通して、「プロセッサ」という用語は、オーディオ、ビデオ、または他の画像データを含み得るデータに対して操作を行うために、ソフトウエアまたはファームウェアなどを用いてプログラム可能な、または場合によっては構成可能なシステムまたはデバイスを示すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路もしくはチップセット)、オーディオもしくは他のサウンドデータに対してパイプライン処理を行うようプログラムされた、および/または他の方法で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサもしくはコンピュータ、ならびにプログラマブルマイクロプロセッサチップもしくはチップセットを含む。
【発明の概要】
【課題を解決するための手段】
【0008】
上記に鑑みて、本開示は、それぞれの独立請求項の特徴を有する、自動利得制御を改善するための方法、装置、およびプログラム、ならびにコンピュータ読み取り可能な記憶媒体を提供する。
【0009】
本開示の一態様によれば、オーディオ信号に対して利得制御を行う方法が提供される。オーディオ信号は、高次アンビソニックス(HOA)オーディオ信号であり得る。この方法では、符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号が取得され得る。オーディオ信号を取得することは、ダウンミックスされたオーディオ信号を受信することを含み得る。あるいは、ダウンミックスされたオーディオ信号を符号化されるべきオーディオ信号から決定することを含み得る。さらに、ダウンミックスされたオーディオ信号のフレームについて過負荷状態が発生したと決定され得る。過負荷状態は、ダウンミックスされたオーディオ信号のフレームが予め定義された信号範囲を超える状態であり得る。予め定義された信号範囲は、エンコーダによって予期される信号範囲であり得る。エンコーダは、コアエンコーダであり得る。過負荷状態が発生したと決定したことに応じて、フレームのための利得遷移関数が決定され得る。利得遷移関数は、少なくとも利得遷移ステップサイズに基づき得る。利得遷移関数は、フレームに適用されて、ダウンミックスされたオーディオ信号の利得調整されたフレームを生成し得る。利得調整されたフレームは、減衰されたフレームまたは増幅されたフレームであり得る。エンコーダによる符号化のために、利得調整されたフレームと利得遷移関数を示す情報とが提供され得る。
【0010】
利得遷移関数を利得遷移ステップサイズに制限することにより、連続する利得からの滑らかであまり急激でない遷移が達成され得る。利得遷移ステップサイズは、フレームのすべてのサンプルをコアエンコーダによって必要とされる信号範囲に減衰させるのには不十分なことがある。しかしながら、小さなオーバーシュートによるアーチファクトは、利得パラメータの非常に急激な増加または減少よりは目立たない。したがって、いくつかの値が必要とされる信号範囲外にあることを許容することにより、信号が復号され、レンダリングされ、再生されるときに、改善されたオーディオ経験が達成され得る。
【0011】
いくつかの実施形態では、利得調整されたフレームは、利得遷移関数を示す情報とともに符号化され得る。
【0012】
いくつかの実施形態では、ダウンミックスされたオーディオ信号は、空間的に符号化されたダウンミックスされた信号であり得る。
【0013】
いくつかの実施形態では、ダウンミックスされたオーディオ信号のフレームは現在のフレームであり、利得遷移関数は、現在のフレームに先行するフレームに適用された前の利得遷移関数にさらに基づき得る。
【0014】
いくつかの実施形態では、利得遷移関数は、利得遷移ステップサイズに基づく平滑化関数にさらに依存し得る。
【0015】
いくつかの実施形態では、利得遷移関数は、過渡部分と定常状態部分とを含み得る。過渡部分は、先行フレームに関連付けられた利得から利得遷移ステップサイズによって調整された先行フレームに関連付けられた利得への遷移に対応し得る。
【0016】
いくつかの実施形態では、利得遷移ステップサイズによって調整された先行フレームに関連付けられる利得は、現在のフレームの利得調整目標に依存して、先行フレームに対応する利得の利得遷移ステップサイズによる減衰であるか、または利得遷移ステップサイズによる増幅であり得る。
【0017】
いくつかの実施形態では、過渡部分の長さは、エンコーダおよびデコーダによって利用されるコーデックによってもたらされる遅延によって制限され得る。
【0018】
これにより、利得制御は、実質的にゼロの追加遅延をもたらす。
【0019】
いくつかの実施形態では、過渡部分の長さは、エンコーダによる符号化動作のために使用されるサンプルの数以下であり得る。
【0020】
いくつかの実施形態では、利得遷移関数は、
【数1】
として定義され、式中、DBSTEPは、利得遷移ステップサイズであり、lはサンプルインデックスであり、jは、フレームインデックスであり、p()は平滑化関数であり、lendは、p()が定義される最も右のインデックスを表し、Lは、1フレームのサンプル数である。
【0021】
いくつかの実施形態では、利得遷移ステップサイズは、予め定義された値であってもよく、または増加するサイズの予め定義された値のセットから決定されてもよい。予め定義された値または予め定義された値のセットは、知覚的品質リスニングテストまたは客観的品質測定テストに基づいて決定され得る。知覚的品質リスニングテストは、Multi-Stimulus Test with Hidden Reference and Anchor(MUSHRA)であってもよい。知覚的品質リスニングテストは、エンコーダおよびデコーダにおける自動利得制御のチューニングプロセスの一部であり得る。
【0022】
いくつかの実施形態では、方法は、ダウンミックスされたオーディオ信号のフレームによって生じる過負荷量を決定することをさらに含み得る。さらに、利得遷移ステップサイズは、過負荷量に依存して、増加するサイズの予め定義された値のセットから決定され得る。
【0023】
これにより、利得遷移ステップサイズは、連続するフレーム間で必要とされる変化率に適合され得る。
【0024】
いくつかの実施形態では、ダウンミックスされた信号の利得調整されたフレームを生成するために利得遷移関数をフレームに適用することは、ダウンミックスされたオーディオ信号のサンプルに利得遷移関数を適用することを含み得る。サンプルの総数は、ダウンミックスされたオーディオ信号のフレームに対応し得る。
【0025】
いくつかの実施形態では、利得遷移関数を示す情報とともに利得調整されたフレームを符号化することは、利得遷移関数に基づいて符号化方式を決定することを含み得る。いくつかのケースでは、符号化方式は、利得遷移ステップサイズに基づいて決定され得る。いくつかのケースでは、符号化方式は、過負荷状態が除去されたかどうかに基づいて決定され得る。符号化方式は、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transformation)、または代数符号励振線形予測(ACELP:Algebraic Code Excited Linear Prediction)のうちの1つであり得る。
【0026】
これにより、符号化方式は、特定のオーディオ信号および要求される利得遷移ステップサイズに対して最適化され得る。
【0027】
さらなる態様によれば、オーディオ信号に対して利得制御を行う方法が提供される。この方法では、オーディオ信号の符号化されたフレームがデコーダによって受信され得る。オーディオ信号の符号化されたフレームは、ダウンミックスされたオーディオ信号のフレームと、エンコーダによって適用された利得制御を示す情報とを取得するために復号され得る。ダウンミックスされたオーディオ信号のフレームに適用されるべき逆利得遷移関数は、エンコーダによって適用された利得制御を示す情報に少なくとも部分的に基づいて決定され得る。エンコーダによって適用される利得制御を示す情報は、利得遷移ステップサイズを含み得る。逆利得遷移関数は、ダウンミックスされたオーディオ信号のフレームに適用され得る。
【0028】
いくつかの実施形態では、方法は、前記ダウンミックスされたオーディオ信号をアップミックスして、アップミックスされたオーディオ信号を生成することをさらに含み得る。アップミックスされたオーディオ信号は、レンダリングに適している。
【0029】
いくつかの実施形態では、方法は、レンダリングされたオーディオデータを生成するために前記アップミックスされた信号をレンダリングすることをさらに含み得る。
【0030】
いくつかの実施形態では、方法は、ラウドスピーカまたはヘッドフォンのうちの1つまたは複数を使用して、レンダリングされたオーディオデータを再生することをさらに含み得る。
【0031】
いくつかの実施形態では、前記逆利得遷移関数は、前記エンコーダによって適用される利得遷移関数を反転させることによって決定され得る。
【0032】
いくつかの実施形態では、前記逆利得遷移関数は、過渡部分と定常状態部分とを含み得る。
【0033】
本明細書に記載された動作、機能、および/または方法の一部または全部は、1つまたは複数の非一時的な媒体に記憶された命令(たとえば、ソフトウエア)に従って1つまたは複数のデバイスによって行われ得る。そのような非一時的な媒体は、限定はしないが、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含む、本明細書で説明するものなどのメモリデバイスを含み得る。したがって、本開示で説明する主題のいくつかの発明的態様は、ソフトウエアを記憶した1つまたは複数の非一時的な媒体を介して実装され得る。
【0034】
本開示の少なくともいくつかの態様は、装置を介して実装され得る。たとえば、1つまたは複数のデバイスは、本明細書で開示する方法を少なくとも部分的に行うことが可能であり得る。いくつかの実装では、装置は、インタフェースシステムおよび制御システムを有するオーディオ処理システムであるか、またはそれを含む。制御システムは、1つまたは複数の汎用シングルまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウエア構成要素、またはそれらの組み合わせを含み得る。
【0035】
本明細書に記載された主題の1つまたは複数の実装の詳細が、添付の図面および以下の説明に記載される。他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、一定の縮尺で描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0036】
図1】従来技術におけるオーディオ信号の利得制御を提供するためのシステムの例示的な概略ブロック図である。
【0037】
図2A】いくつかの実施形態による適応利得制御を実装するためのシステムの例示的な概略ブロック図である。
図2B】いくつかの実施形態による適応利得制御を実装するためのシステムの例示的な概略ブロック図である。
【0038】
図3A】いくつかの実施形態によるエンコーダによって実装されうる利得遷移関数の例を示す。
図3B】いくつかの実施形態によるデコーダによって実装されうる逆利得遷移関数の例を示す。
【0039】
図4】いくつかの実施形態による適応利得制御を実装するためにエンコーダによって行われうる例示的なプロセスのフローチャートである。
【0040】
図5】いくつかの実施形態による適応利得制御を実装するためにデコーダによって行われうる例示的なプロセスのフローチャートである。
【0041】
図6】いくつかの実施形態によるイマーシブ音声およびサービス(IVAS)システムの例示的なユースケースを示す図である。
【0042】
図7】本開示のさまざまな態様を実装することが可能な装置の構成要素の例を示すブロック図を示す図である。
【0043】
図8A】利得遷移ステップサイズが均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態(その1)を示す図である。
図8B】利得遷移ステップサイズが均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態(その2)を示す図である。
【0044】
図9A】利得遷移ステップサイズが不均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態(その1)を示す図である。
図9B】利得遷移ステップサイズが不均一である、ダウンミックスされた信号の知覚的に動機付けされた利得制御を利用するオーディオコーデックの例示的な実施形態(その2)を示す図である。
【発明を実施するための形態】
【0045】
さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
【0046】
シーンベースのオーディオ、ステレオオーディオ、マルチチャネルオーディオ、および/またはオブジェクトオーディオのためのいくつかのコーディング技法は、ダウンミックス操作の後に複数のコンポーネント信号をコーディングすることに依存する。ダウンミックスすることは、波形を保持する波形符号化された方式でコーディングされるべきオーディオ成分の数を低減することを可能にし得、残りの成分はパラメトリックに符号化され得る。受信器側では、残りの成分は、パラメトリック符号化を示すパラメトリックメタデータを用いて再構成されてもよい。成分のサブセットのみが波形符号化され、パラメトリックに符号化された成分に関連付けられたパラメトリックメタデータはビットレートに関して効率的に符号化され得るので、そのような符号化技法は、依然として高品質オーディオを可能にしつつ、比較的ビットレート効率的であり得る。
【0047】
生じ得る1つの課題は、空間エンコーダによって決定されたダウンミックスチャネルが、オーディオ信号ビットストリームを構築するコアコーデックによるその後の処理に適さないレベルをもつ信号を含み得ることである。たとえば、いくつかのケースでは、ダウンミックス信号は、元の入力信号がその成分信号のいずれにおいても過負荷がかけられていないにもかかわらず、コアコーデックに過負荷がかけられるほど高いレベルを有し得る。このことは、復号およびレンダリング後に、再構築された信号にクリッピングなどの深刻な歪みを引き起こすことがある。このことは、最終的にレンダリングされた信号にかなりの品質低下を引き起こし得る。1つの潜在的な解決策は、コアコーデックの過負荷を回避するために入力信号を減衰させることであり得る。しかしながら、信号を符号化するために利用される量子化器が最適な範囲で動作していないことがあるので、この解決策は、粒状雑音を増加させるという欠点を有し得る。
【0048】
図1は、符号化された高次アンビソニックス(HOA)信号に対して利得制御を行うための従来のシステム100の概略的なブロック図を示す。図1に示す概略図は、MPEG-H信号を符号化および復号するために使用され得る。MPEG-Hは、国際標準化機構(ISO)/国際電気標準会議(IEC)のMoving Picture Experts Group(MPEG)によって開発中の国際標準のグループである。MPEG-Hは、パート3、MPEG-H 3Dオーディオを含むさまざまなパートを有する。
【0049】
エンコーダ102において、入力HOA信号は104において処理される。処理は、たとえば、ダウンミックスチャネルが生成される、分解を含み得る。ダウンミックスチャネルは、所与のフレームに対して[-max,max]に範囲が定められた信号のセットを含み得る。コアエンコーダ108は[-1,1)の範囲内で信号を符号化することができるので、コアエンコーダ108の範囲を超えるダウンミックスチャネルに関連付けられた信号のサンプルは過負荷を引き起こしうる。過負荷を回避するために、利得制御106は、関連付けられた信号がコアエンコーダ108の範囲内(たとえば、[-1,1)内)になるようフレームの利得を調整する。コアエンコーダ108は、符号化ビットストリームを生成するコーデックであると考えられ得る。パラメトリックに符号化されたチャネルなどに関連付けられたメタデータを含みうる分解/処理ブロック104によって生成されたサイド情報は、コアエンコーダ108の出力として生成された信号に関連してビットストリームにおいて符号化され得る。
【0050】
符号化されたビットストリームは、デコーダ112によって受信される。デコーダ112は、サイド情報を抽出し得、コアデコーダ116は、ダウンミックス信号を抽出し得る。逆利得制御ブロック120は、次いで、エンコーダによって適用された利得を逆にし得る。たとえば、逆利得制御ブロック120は、エンコーダ102の利得制御106によって減衰された信号を増幅し得る。HOA信号は次いで、HOA再構成ブロック122によって再構成され得る。任意選択で、HOA信号は、レンダリング/再生ブロック124によってレンダリングおよび/または再生されてもよい。レンダリング/再生ブロック124は、たとえば、再構成されたHOA出力を、たとえばレンダリングされたオーディオデータとしてレンダリングするためのさまざまなアルゴリズムを含み得る。たとえば、再構成されたHOA出力をレンダリングすることは、特定の知覚的印象を達成するために、複数のスピーカにわたってHOA出力の一つまたは複数の信号を分配することを含み得る。任意選択で、レンダリング/再生ブロック124は、レンダリングされたオーディオデータを提示するための1つまたは複数のラウドスピーカ、ヘッドフォンなどを含み得る。
【0051】
利得制御106は、以下の技術を用いて利得制御を実装し得る。利得制御106は、最初に、フレーム内の信号値の上限を決定し得る。たとえば、MPEG-Hオーディオ信号に対して、境界は、積
【数2】
として表わすことができ、積は、MPEG-H規格において規定されている。上限が与えられると、要求される最小減衰は、スケーリングされた信号サンプルが区間[-1,1)に制約されることを確実とし得る。言い換えれば、スケーリングされたサンプルは、コアエンコーダ108の範囲内にあり得る。これは、
【数3】
の利得係数を適用することによって決定され得、ここで
【数4】
である。定義により、eminは、負の数であり得る。いくつかの実施形態では、増幅は、最大増幅係数
【数5】
によって制限され得、ここで、emaxは、非負の整数である。したがって、減衰と増幅の両方を行うために、利得パラメータeが[emin,emax]の範囲内の値である、2eの利得係数が定義され得る。したがって、利得パラメータeを表すのに必要とされる最小ビット数は、
【数6】
として決定される。
【0052】
特定のチャネルnおよびフレームjについての利得係数gn(j)は、1つのHOAブロックに対応する1フレーム遅延を適用し、以下の再帰操作、すなわち、
【数7】
を利用することによって決定され得る。
【0053】
上式において、gn(j-2)は、フレーム(j-2)に適用される利得係数を表し、
【数8】
は、フレームj-1についての利得係数gn(j-1)を計算するために必要とされる利得係数調整を表す。
【0054】
本明細書には、適応利得制御を提供するための技法が開示される。特に、本明細書で説明するように、追加的な遅延を生じない利得パラメータが決定され得、なぜならば利得パラメータはコーデックによる使用のために生成された先読み(lookahead)サンプルに基づいて決定され得るからである。コーデックは、知覚エンコーダによって用いられ得る。利得遷移関数の決定について、図2ないし図5に図示し、これらの図面に関連して以下説明する。
【0055】
図2Aおよび図2Bは、例示的な実施形態による低遅延適応利得制御を行うためのエンコーダ202およびデコーダ212の概略ブロック図をそれぞれ示す。エンコーダ202において、入力HOA信号(または1次アンビソニックス(FOA))信号は、空間分析ブロック204による処理を受ける。NチャネルHOA入力に対して、空間分析ブロック204は、M個のダウンミックスチャネル204Aのセットを生成および出力し得る。M個のダウンミックスチャネル204Aのセットのダウンミックスチャネルの数は、1≦M≦Nの範囲内であり得る。加えて、空間分析ブロック204は、ダウンミックス操作を逆にするための空間サイド情報204Bを生成および出力し得る。
【0056】
たとえば、FOA入力に対して、ダウンミックスチャネルは、さまざまなミキシング利得を用いて無指向性入力信号Wを指向性入力信号X、Y、およびZとミキシングすることによって生成され得る一次ダウンミックスチャネルW’と、一次ダウンミックス信号から予測できないX、Y、およびZ信号における信号成分にそれぞれ対応する最大で3つの残差チャネルX’、Y’、およびZ’とを含み得る。一例では、空間分析ブロック204は、空間再構成(SPAR:Spatial Reconstruction)技術を利用する。SPARは、非特許文献1にさらに記載されており、その全体が参照により本明細書に組み込まれる。他の例では、空間分析ブロック204は、カルーネン-レーベ変換(KLT:Karhunen-Loeve Transform)といった、エネルギー圧縮変換の任意の他の好適な線形予測コーデックを利用し得る。コアエンコーダ208は、符号化されたオーディオビットストリーム208Aを生成するコーデックであると考えられ得る。いくつかの実装では、コアエンコーダ208およびコアデコーダ216は、コーディングプロセス全体に余分な遅延を加えることを回避する(追加的な遅延が0)ための利得パラメータを決定するために適応利得制御206によって利用されるべきいくつかの先読みサンプルを導入し得る。
【非特許文献1】D. McGrath, S. Bruhn, H. Purnhagen, M. Eckert, J. Torres, S. Brown, およびD. Darcyによる「Immersive Audio Coding for Virtual Reality Using a Metadata-assisted Extension of the 3GPP EVS Codec」、IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、2019年、第730-734頁
【0057】
M個のダウンミックスチャネル204Aに関連付けられた信号は、次いで適応利得制御206によって分析され得る。適応利得制御206は、M個のダウンミックスチャネル204Aのいずれかに関連付けられた信号が、コアエンコーダ208によって予期されるオーディオ振幅範囲を超え、したがって、コアエンコーダ208を過負荷にすることになるかどうかを判定し得る。いくつかの実施形態では、たとえばM個のダウンミックスチャネル204Aの信号のいずれもコアエンコーダ208の予期される範囲を超えないという決定に対応して、適応利得制御206が、利得が適用されるべきでないと決定する場合、適応利得制御206は、利得制御が適用されないことを示すフラグを設定してもよい。フラグを示すことは、フラグに対して値を設定すること、たとえば、単一ビットの値を設定することによって行われ得る。適応利得制御206が、利得が適用されるべきでないと決定する場合、適応利得制御206はフラグを設定しないことがあり、それにより、1ビット(たとえば、フラグに関連付けられるビット)を保存する。たとえば、いくつかの実装では、空間メタデータビットストリームおよび/またはコアエンコーダ・ビットストリーム(知覚的エンコーダ・ビットストリームであってもよい)が自己終端である場合、利得制御フラグの存在は、ビットストリーム中に未読ビットがあるかどうかを判定することによって決定され得る。未読ビットは、ビットストリーム内の残されたビットであり得る。過負荷状態が存在しないケースでは、適応利得制御206は、M個のダウンミックスチャネル206Aを出力し得る。M個のダウンミックスチャネル206Aは、次いでビットストリーム208Aにおける符号化のためにコアエンコーダ208に渡され得る。
【0058】
対照的に、適応利得制御206が、利得が適用されるべきであると決定する場合、適応利得制御206は、利得パラメータを決定し、決定された利得パラメータに従ってM個のダウンミックスチャネルに利得を適用し得る。利得が適用されたM個のダウンミックスチャネル206Aは、次いで、ビットストリームにおける符号化のためにコアエンコーダ208に渡され得る。さらに、適応利得制御206は、利得制御に関するサイド情報206Bを出力し得る。フラグに関する情報は、利得制御に関するサイド情報206Bに含まれ得る。サイド情報エンコーダ210は、空間サイド情報210Bを利得パラメータ206Bとともにビットストリームでの送信のためのメタデータ204Aとして符号化し得る。デコーダ212は、次いでこのメタデータを抽出し、ダウンミックスされたチャネルをアップミックスし、利得調整を逆にするために用いてもよい。たとえば、メタデータ210Aは、後に、空間分析ユニット204によってダウンミックスされた元のオーディオ入力の表現を再構成するために利用され得る。サイド情報エンコーダ210は、追加的に、サイド情報208Bをコアエンコーダ208に提供し得る。コアエンコーダ208は、次いで、コーディング技法のうちいずれかを選択するためにサイド情報208Bを使用し得る。符号化ビットストリーム208Aとメタデータを有する符号化ビットストリーム210Aはいずれも、エンコーダ202によって出力される最終的なビットストリームを形成するために多重化され得る。
【0059】
いくつかの実装では、適応利得制御206は、前のフレーム(たとえば、j-1番目のフレーム)に関連付けられる利得パラメータe(j-1)と現在のフレームの利得パラメータe(j)との間で遷移する利得遷移関数を決定し得る。利得遷移関数は、適応利得制御206によってフレームごとに適用され得、各フレームは、M個のダウンミックスチャネル204Aのうちの1つのフレームであり得る。いくつかの実装では、利得遷移関数は、j-1番目のフレームにおける利得パラメータの値(たとえば、e(j-1))から現在のフレームの利得パラメータ(たとえば、e(j))までj番目のフレームのサンプルにわたって利得パラメータを滑らかに遷移させ得る。したがって、利得遷移関数は、2つの部分、すなわち、1)先行フレームの利得パラメータから現在のフレームの利得パラメータまで遷移部分のサンプルにわたって利得パラメータが遷移している過渡部分と、2)利得パラメータが定常状態部分のサンプルについて現在のフレームの利得パラメータの値を有する定常状態部分とを含み得る。
【0060】
いくつかの実施形態では、現在のフレームに適用される利得が前のフレームに適用される利得よりも小さい場合、過渡部分は、減衰の量が現在のフレームのサンプルにわたって増加するので、「フェード」の過渡タイプを有すると称され得る。現在のフレームに適用された利得が前のフレームに適用された利得より小さいケースは、e(j)>e(j-1)と表現されうる。いくつかの実施形態では、現在のフレームに適用される利得が前のフレームに適用される利得よりも大きい場合、減衰の量が現在のフレームのサンプルにわたって減少するので、過渡部分は、「逆フェード(reverse fade)」または「アンフェード(un-fade)」の過渡タイプを有すると称され得る。現在のフレームに適用された利得が前のフレームに適用された利得より大きいケースは、e(j)<e(j-1)と表現され得る。いくつかの実施形態では、現在のフレームに適用される利得が現在のフレームに適用される利得と同じである場合、過渡部分は、過渡部分が過渡的ではなく、むしろ定常状態部分と同じ値を有する、「ホールド」の過渡タイプを有すると称され得る。現在のフレームに適用された利得が現在のフレームに適用された利得と同一であるケースは、e(j)=e(j-1)と表現され得る。
【0061】
いくつかの実施形態では、利得遷移関数は、利得遷移ステップサイズに依存する。利得遷移ステップサイズは、先行フレームから現在のフレームへの起こり得る遷移の量を制限し得る。これは、遷移中に過負荷が起こることを潜在的に許すより小さくより滑らかな利得/減衰の変化が、より大きい変化を有することよりも、特にこれが上述の予め定義された値範囲を入力として必要とする不可逆(lossy)コアエンコーダによるさらなる処理を受けるときは、知覚的に良いという事実によって動機付けされる。このように利得遷移関数のパラメータを予め定義することにより、客観的品質または知覚的品質に対するパラメータの影響が評価され得る。知覚的品質は、(隠れた基準およびアンカーを用いた多重刺激テスト(MUSHRA:Multi-Stimulus Test with Hidden Reference and Anchor)のような既知の知覚的品質リスニングテストに基づいて測定されてもよい。知覚的品質リスニングテストは、エンコーダおよびデコーダにおける自動利得制御のチューニングプロセスの一部であり得る。特に、利得遷移ステップサイズのようなパラメータは、最適な知覚されたオーディオ品質に達するまで、特定のオーディオシナリオおよびコーデックに対してチューニングされ得る。チューニングされたパラメータは、次いで、符号化/復号システムによって使用される。
【0062】
例示的な実装では、自動利得制御206の処理された出力206Aは、波形再構成を行うことを目的としない代数符号励振線形予測(ACELP:Algebraic Code Excited Linear Prediction)コーディングに基づいて、損失のあるコアコーデックによってさらにコーディングされる。ACELP入力および出力に対してより大きな利得ステップを適用することは、再構築された信号における可聴グリッチにつながり、コーデックの全体的な性能を低下させることが観察されている。
【0063】
いくつかの実装では、現在のフレームに対する過負荷が検出されたとき、自動利得制御206はまた、フレームがコアエンコーダ208の予期される範囲内にあるために必要な減衰量を決定し得る。連続するフレーム間で必要とされる減衰の間に大きな差がある場合、コアエンコーダ208によって必要とされる範囲[-1,1)を達成するために遷移関数を適用することは、オーディオ信号がデコーダにおいてレンダリングされるときの可聴アーチファクトにつながり得る。各フレームを必要とされる範囲の境界の内側または境界上に保つために遷移関数を適用する代わりに、遷移関数は、特定の利得遷移ステップサイズに制限され得る。これにより、コアエンコーダ208の予期される範囲を達成するために必要な減衰量にかかわらず、遷移関数は、単一のフレームを利得遷移ステップサイズ、すなわち、±DBSTEP dBに等しい量だけ減衰させることができるのみである。したがって、一例として、前のフレームの減衰が-10dBである場合、現在のフレームの最初のサンプルに適用される減衰は-10dBであり、現在のフレームの最後のサンプルに適用される減衰は、-10dB±DBSTEPとなる。正確には、前のフレームから現在のフレームまで過負荷量が変化しないならば、利得遷移は、一定の値、たとえば、-10dBとなる。減衰量が変化される必要があるならば、利得遷移関数は、前のフレームの減衰から現在のフレームの最後のサンプルまで±DBSTEPだけ遷移する。
【0064】
いくつかの実装では、DBSTEPは、自動利得制御206によって適用される減衰量が、フレームをコアエンコーダ208の予期される信号範囲内に保つのに十分でないよう選択され得る。たとえば、DBSTEPは、固定値であってもよい。減衰の急激な変化が必要とされるとき、フレームが[-1,1)の範囲の外側であることを許すことによって、連続するフレーム間の強い減衰差を回避することができる。したがって、遷移関数または静的な利得変化のいずれかによってフレームを[-1,1)の範囲内に強制する代わりに、フレームは、前のフレームの減衰量に対して固定量だけ減衰される。特定の利得遷移ステップサイズをもつ遷移関数を用いることによって、知覚的オーディオ品質が改善され得、なぜならば、フレームが[-1,1)の範囲の外側にあることによるひずみは、連続するフレーム間の鋭い減衰差によって引き起こされるひずみと比較してそれほど顕著ではないからである。さらに、滑らかな遷移と静的な利得変化との間の切り替えのための例外フラグを回避することができる。これにより、コアエンコーダ208において1ビットを節約することができる。
【0065】
いくつかの実装では、DBSTEPは、単一の値、たとえば、-1dBでありうる。あるいはDBSTEPは、増加する固定値のセット、たとえば、-1dB、-3dB、-6dBから選択されてもよい。このケースでは、DBSTEPの値は、減衰のないフレームによって引き起こされる過負荷の量に応じて選択され得る。
【0066】
いくつかの実装では、自動利得制御は、各ステップにおいて与えられるDBS減衰の倍数を示す数、たとえば整数、の表として表され得るターゲット利得値GTのセットを指定する能力を有するよう構成される。このことは、より小さな変化は知覚的な恩恵を与えるという事実によって動機付けされるが、ある信号についてはより高いレベルの起こり得る減衰が必要とされることがある。これらの不均一な絶対的なステップを指定することは、多くの可能性の高いケースに対してより小さいステップの恩恵を与えつつ、より広い減衰範囲がカバーされることを許す。たとえば、DBSが-2dBであるGT={0,1,3,6}のセットは、{-2dB,-4dB,-6dB}の連続するステップDBSTEPをとり、{DBS*GT}={0dB,-2dB,-6dB,-12dB}の絶対ターゲット利得を有することになる。
【0067】
そのような整数のテーブルのうちの1つまたは複数が指定され得、エンコーダ側において用いられている特定のテーブルの選択に関する情報がデコーダ側にシグナリング/送信され得る。単一の均一な利得遷移形状をもたらす均一なステップの適用とは対照的に、不均一なステップの適用は、不均一な利得遷移形状(レベル依存遷移関数)をもたらす。
【0068】
いくつかの実装では、DBSTEPが現在のフレームを[-1,1)の範囲に減衰させるには不十分であるとき、DBSTEPは、[-1,1)の範囲が達成されるまで、現在のフレームに後続するフレームに適用され得る。
【0069】
いくつかの実装では、自動利得制御206システムからの出力レベルおよび減衰情報は、コアエンコーダ208といった他のシステムにおける意思決定プロセスにおいて用いられ得る。緩和された要件は知覚的な恩恵を与えることができるが、利得の変化を導入することによって、または、厳しい要件を満たさず過負荷状態が残ることを許すことによって、コアエンコーダ208に影響を及ぼすことがある。利得制御が要件(もしあれば)を満たしたか否か、またはどれだけの利得が適用されたかといった情報が、出力され、コアエンコーダに渡され得る。このことは、利得の変化または範囲外のサンプルをより良く扱うことが可能なコーディング方法を選択することといった、より良い決定がなされることを可能とする。一例として、大きな利得/減衰ステップが適用されるとき、コアエンコーダ208は、予測ACELP符号化技法の代わりに、MDCTベースの符号化といった波形符号化技法を用い得る。
【0070】
いくつかの実施形態では、利得遷移関数の遷移部分は、利得遷移関数の遷移部分のプロトタイプ形状を用いて決定され得、プロトタイプ形状は、現在のフレームの利得パラメータと先行フレームの利得パラメータとの間の差に基づいてスケーリングされる。たとえば、プロトタイプ形状は、e(j)-e(j-1)に基づいてスケーリングされ得る。このようなプロトタイプ関数pを利用する利得遷移関数は、次のように表される。
【数9】
式中、lendは、pが定義される最も右のインデックスを表し、Lは、1フレームのサンプル数である。
たとえば、過渡部分利得のプロトタイプ形状は、以下のように定義され得る。
【数10】
式中、
【数11】
であり、式中のLは、pが定義されているフレーム内のサンプル数である。Lは、たとえば、lend+1でありうる。
【0071】
図3Aに、各々が「フェード」の過渡タイプを有する過渡部分を有する利得遷移関数の例を示す。図3Aに示す例では、各利得遷移関数は、0dBの利得で、現在のフレームの始まりに対応し得るサンプル0で始まる遷移部分を有し、0dBは先行フレーム(たとえば、j-1番目のフレーム)の利得パラメータである。図3Aに示す例では、各利得遷移関数の過渡部分は、約384サンプルを経て利得遷移関数の定常状態部分に変わる。図3Aに示す3つの利得遷移関数の各々について、定常状態部分は、j番目のフレームについての異なる利得遷移ステップサイズに対応し、先行フレームの利得に対して、それぞれ6dB、12dB、および18dBの(負の)利得の増加がある。言い換えれば、図3Aに示すように、3つの利得遷移関数について、それぞれexp=-[e(j)-e(j-1)]=-1、-2、および-3である。図3Aに示す利得遷移関数の各々について、遷移部分は同じ長さ(たとえば、約384サンプル)である。定常状態部分の長さは、コーデックによってもたらされる遅延、たとえば、図3Aに示す例では12ミリ秒、に関するオフセットに対応し得ることに留意されたい。これに応じて、過渡部分の長さは、オフセットの逆数に関連し得る。図3Aに示す例では、過渡部分の長さは、フレーム長(たとえば、20ミリ秒)からコーデック遅延(たとえば、12ミリ秒)を差し引いたものである。コーデック遅延は、フレームサイズ遅延を除く全体的なコーダアルゴリズム遅延であり得ることに留意されたい。
【0072】
さらに、「逆フェード」または「アンフェード」の過渡タイプの過渡部分を有する利得遷移関数は、図3Aに示す利得遷移関数の水平な線を越えてひっくり返した鏡像として表され得る。例として、水平な線はx軸であり得る。
【0073】
再び図2Bを参照すると、デコーダ212は、入力として、符号化されたオーディオビットストリーム208Aおよびメタデータビットストリーム210Aを受信してもよく、たとえばレンダリングのためにHOA信号を再構成することができ、または所望の出力フォーマットに直接レンダリングすることができる。いくつかの実施形態では、コアデコーダ216は、符号化されたオーディオビットストリーム208Aを受信する。さらに、コアデコーダ216は、サイド情報デコーダ214によってメタデータビットストリーム210Aから抽出された情報214Aを受信し得る。コアデコーダ216は、情報214Aに基づいて、またはサイド情報を知ることなしに、符号化されたオーディオビットストリーム208Aを復号し得、M個の利得調整されたダウンミックスされたチャネル216Aを逆利得制御(inverse gain control)220に出力する。サイド情報デコーダ214は、さらに、利得パラメータおよび空間サイド情報を抽出し、この情報214Bを逆利得制御220および空間合成/レンダリング/再生ブロック222に送信する。逆利得制御220は、次いで、情報214Bから、エンコーダ202によって適用された利得パラメータを取得し得る。たとえば、いくつかの実装において、逆利得制御220は、情報214Bからエンコーダ202によって適用された利得遷移ステップサイズDBSTEPおよび/またはDBSTEPに関連する算術係数のしるしを取得し得る。さらに、逆利得制御ブロック220は、たとえば、メモリから、遷移関数の形状、すなわち平滑化関数とも称されるプロトタイプ関数pの形状を取り出し得る。逆利得制御ブロック220は、次いで、取得された利得パラメータを用いて、エンコーダ202によって適用された利得を逆にし得、M個のダウンミックスされたチャネル220Aを出力する。たとえば、いくつかの実装では、逆利得制御220は、先行フレームの利得パラメータから現在のフレームの利得パラメータに遷移する逆利得遷移関数を構築し得る。いくつかの実装では、逆利得遷移関数は、中心垂直線を越えてミラーリングされ、垂直に調整された、エンコーダ202によって適用される利得遷移関数でありうる。例として、垂直線はy軸であり得る。
【0074】
図3Bを参照すると、いくつかの実装による、エンコーダによって適用されている図3Aに示す利得遷移関数に対応してデコーダによって適用される逆利得遷移関数(inverse gain transition function)の例が示されている。図示するように、逆利得遷移関数は、定常状態部分と遷移部分とを有する。逆利得遷移関数の定常状態部分および遷移部分の持続時間は、図3Aおよび図3Bに示すように、利得遷移関数の対応する定常状態部分および遷移部分の持続時間に対応してもよく、たとえば、これと同じであり得る。図示するように、図3Bに示す各逆利得遷移関数は、現在のフレームについて0dBで開始し、-DBSTEPに遷移する。すなわち、各逆利得遷移関数は、先行フレームj-1に適用された逆利得に対応する0dBで始まる。エンコーダによって適用される利得が、図3Aの利得遷移関数に示すように0dB未満の利得で示される減衰に対応するとき、デコーダによって適用される逆利得は、図3Bの利得遷移関数に示されるように0dBよりも大きい利得を有する増幅に対応する。対照的に、エンコーダによって適用される利得が、たとえば0dBよりも大きい利得を持つ増幅に対応する場合、デコーダによって適用される逆利得は、たとえば0dBよりも小さい利得を持つ減衰に対応する。
【0075】
再び図2Bを参照すると、逆利得が適用された後、逆利得が適用されたM個のダウンミックスチャネル220Aは、空間合成/レンダリング/再生ブロック222に提供される。空間合成/レンダリング/再生ブロック222は、情報214Bを用いてHOA信号を再構成し得る。たとえば、空間分析ブロック204が空間符号化のためにSPAR技法を利用する場合、空間合成/レンダリング/再生ブロック222は、メタデータ210Aを用いて符号化された一つまたは複数のチャネルを再構成するためにSPAR技法を利用してもよい。再構成されたHOA出力は、次いで直接レンダリングされてもよく、またはレンダリングのために他のエンティティに提供されてもよい。空間合成/レンダリング/再生ブロック222は、たとえば、再構成されたHOA出力を、たとえばレンダリングされたオーディオデータとしてレンダリングするためのさまざまなアルゴリズムを含み得る。たとえば、再構成されたHOA出力をレンダリングすることは、特定の知覚的な印象を達成するために、複数のスピーカにわたってHOA出力の一つまたは複数の信号を分配することを含み得る。任意選択で、空間合成/レンダリング/再生ブロック222は、レンダリングされたオーディオデータを提示するためにオーディオ再生デバイス、たとえば、1つまたは複数のラウドスピーカ、ヘッドフォンなどを含み得る。
【0076】
図4は、いくつかの実装により、利得パラメータを決定し、決定された利得パラメータに従ってダウンミックスされた信号に利得を適用するためのプロセス400の例を示す。いくつかの実装では、プロセス400のブロックはエンコーダデバイスによって行われ得る。いくつかの実装では、プロセス400のブロックは、図4に示されている順序以外の順序で行われ得る。いくつかの実装では、プロセス400の2つ以上のブロックは、実質的に並列に行われ得る。いくつかの実装では、プロセス400の1つまたは複数のブロックは省略され得る。
【0077】
402において、プロセス400は、符号化されるべきオーディオ信号のフレームに関連付けられるダウンミックスされたオーディオ信号を取得し得る。ダウンミックスされたオーディオ信号は、符号化されるべきオーディオ信号のフレームに関連付けられ得る。たとえば、いくつかの実装では、プロセス400は、ダウンミックスされたチャネルのセットを決定するために任意の好適な空間符号化技法を使用し得る。空間符号化技術の例は、SPAR、線形予測技術などを含む。ダウンミックスされたチャネルのセットは、1からN個のチャネルのいずれかを含むことができ、Nは入力チャネルの数であり、たとえば、FOA信号のケースでは、Nは4である。ダウンミックスされた信号は、オーディオ信号の特定のフレームのためのダウンミックスされたチャネルに対応するオーディオ信号を含み得る。
【0078】
404において、プロセス400は、拡張音声サービス(EVS:Enhanced Voice Services)コーデック、および/または任意の他の適切なコーデックなどのコーデックに対して過負荷状態が存在するかどうかを判定し得る。たとえば、プロセス400は、ダウンミックスオーディオ信号のフレームに対応する信号が所定の範囲、たとえば、[-1,1)、および/または任意の他の適切な範囲を超えると決定することに対応して、過負荷状態が存在すると決定し得る。
【0079】
404において、過負荷状態が存在しないと決定された場合(404において「いいえ」)、プロセス400は412に進むことができ、ダウンミックスされた信号を符号化することができる。たとえば、いくつかの実装では、プロセス400は、たとえばFOAまたはHOA出力を再構成するために、ダウンミックスされた信号をアップミックスするためにデコーダによって利用されることができる、メタデータといったサイド情報に関連して、ダウンミックスされた信号を符号化するビットストリームを生成することができる。
【0080】
対照的に、404において、過負荷状態が存在すると決定された場合(404において「はい」)、プロセス400は406に進むことができ、過負荷状態を回避させるフレームについての利得遷移関数を決定することができ、または、1つのフレームから次のフレームへの過負荷状態の変化が利得遷移ステップサイズよりも大きい場合、過負荷は少なくとも低減される。さらに、406において、利得遷移関数は、利得遷移ステップサイズに基づき得る。また、利得遷移関数は、平滑化関数の形状に基づき得る。さらに、図2に関連して上述したように、利得遷移関数は、過渡部分と定常状態部分とを有し得、定常状態部分は、現在のフレームの利得係数に対応し、過渡部分は、先行フレームの終わりの利得係数から先行フレームの利得係数±DBSTEPに遷移する、現在のフレームのサンプルのサブセットの中間利得係数のシーケンスに対応する。
【0081】
先行フレームの利得パラメータが現在のフレームの利得パラメータよりも小さい減衰に対応する場合、過渡部分は、「フェード」の過渡タイプを有すると称され得る。対照的に、先行フレームの利得パラメータが現在のフレームの利得パラメータよりも大きい減衰に対応する場合、過渡部分は、「逆フェード」または「アンフェード」の過渡タイプを有すると称され得る。先行フレームの利得パラメータが現在のフレームの利得パラメータと同じである場合、過渡部分は、「ホールド」の過渡タイプを有すると称され得る。過渡部分が過渡タイプの「ホールド」を有する場合、過渡部分の間の利得遷移関数の値は、定常状態部分の間の利得遷移関数の値と同じであり得る。図2に関連して上述したように、利得遷移関数の遷移部分の持続時間は、コーデックによって利用される遅延持続時間に対応し得る。
【0082】
408において、プロセス400は、フレームに関連付けられるダウンミックスされた信号に利得遷移関数を適用し得る。たとえば、いくつかの実装では、プロセス400は、利得遷移関数によって示される利得係数によってダウンミックスされた信号のサンプルをスケーリングし得る。より特定的な例として、いくつかの実装では、現在のフレームの最初のサンプルは、先行フレームの利得パラメータに対応する利得係数によってスケーリングされ得、現在のフレームの最後のサンプルは、前のフレームの利得パラメータに対応する利得係数±DBSTEPによってスケーリングされ得、介在するサンプルは、利得遷移関数の過渡部分または定常状態部分の利得パラメータに対応する利得係数によってスケーリングされ得る。
【0083】
いくつかの実装では、利得遷移関数は、ブロック404において過負荷状態が検出されたダウンミックスチャネルのダウンミックスされた信号のみに適用されてもよい。たとえば、Y’チャネルおよびX’チャネルについて過負荷状態が検出された場合、Y’チャネルおよびX’チャネルの各々について別個の利得遷移関数が決定され、Y’チャネルおよびX’チャネルの信号に適用され得る。この例で続けると、利得遷移関数は、W’およびZ’チャネルに適用されないことがある。そのような場合には、利得遷移関数が適用されるチャネルのしるし、ならびに各チャネルのための対応する利得パラメータが、たとえば、ブロック412において符号化され得る。あるいは、いくつかの実装では、過負荷状態が一つのダウンミックスチャネルについてのみ存在する場合には、対応する利得遷移関数がすべてのダウンミックスチャネルに適用されてもよい。そのような場合には、利得遷移関数がすべてのチャネルに適用されるので、利得が適用されたチャネルのしるしが送信される必要はなく、このことはビットレート効率の上昇につながり得る。
【0084】
410において、プロセス400は、減衰された信号と利得遷移関数を示す情報とを符号化のためにエンコーダに提供し得る。利得遷移関数を示す情報は、利得遷移ステップサイズおよび/または利得遷移ステップサイズに関連する算術係数であり得る。さらに、平滑化関数の形状は、符号化のためにエンコーダに提供され得る。
【0085】
412において、プロセス400は、ダウンミックスされた信号、および、利得が適用された場合は、フレームのための利得パラメータを示す情報を符号化することができる。利得が適用された場合、符号化されたダウンミックス信号は、ブロック408における利得遷移関数の適用後のダウンミックス信号であり得る。ダウンミックスされた信号および利得パラメータを示す任意の情報は、ダウンミックスされた信号を再構成またはアップミックスするためにデコーダによって使用され得るメタデータといった任意のサイド情報に関連して、EVSコーデックといった符号化ビットストリームを生成するためにコーデックによって符号化され得る。符号化されたビットストリームは、メタデータとともに、次いで、記憶され、および/または、エンコーダの処理ステップを逆にする能力をもつ受信デバイスに送信され得る。
【0086】
いくつかの実装では、プロセス400は、ビットのセットに利得パラメータを符号化することができることに留意されたい。いくつかの実装では、利得遷移関数は、利得遷移関数の過渡部分に関連付けられるプロトタイプ/平滑化関数を示し得る。
【0087】
過負荷状態をトリガする信号に関連付けられる各ダウンミックスチャネルに対して、固有の利得遷移関数が適用されるよう、チャネルごとに適応利得制御が有効にされる場合、利得制御が有効にされた各チャネルに対してxビットが利用され得、チャネルごとの追加的な1ビットインジケータは、利得パラメータが符号化されたことを示す。そのような場合、利得制御情報の送信に使用されるビットの総数は、Ndmx+x*Nagcであり、Ndmxはダウンミックスチャネルの数を表し(および、Ndmx個のチャネルの各々について利得制御が有効にされているかどうかを示すために1つのビットが利用され)、Nagcは、利得制御が有効にされたチャネルの数を表す。利得制御が特定のフレームについて有効にされない場合、利得制御が有効にされないことを示すために、Ndmx個のビットが使用され得、たとえば、Ndmx個のチャネルの各々について1ビットであることに留意されたい。ダウンミックスチャネルの数が1である場合、たとえばWチャネルのみが波形符号化される場合、利得制御情報を送信するために使用されるビットの総数は、x*Nagcによって表されることに留意されたい。たとえば、1つのダウンミックスチャネルが与えられている場合、利得制御が1つのダウンミックスチャネルについて有効とされない場合(たとえばNagc=0)、使用されるビット数は0である。この例で続けると、利得制御が有効にされる場合(たとえばNagc=1)、使用されるビット数はxである。
【0088】
過負荷状態をトリガするダウンミックスチャネルに関連付けられた単一の利得遷移関数がすべてのダウンミックスチャネルに適用される場合、利得制御情報を送信するために、より少ないビットが使用され得る。たとえば、現在のフレームのための単一の利得パラメータが、xビットを用いて送信される。
【0089】
図5は、いくつかの実装に基づく、エンコーダによって利用される利得パラメータを取得し、取得された利得パラメータに基づいて逆利得遷移関数を適用するためのプロセス500の例を示す。いくつかの実装では、プロセス500のブロックは、デコーダデバイスによって行われ得る。いくつかの実装では、プロセス500のブロックは、図5に示されている順序以外の順序で行われ得る。いくつかの実装では、プロセス500の2つ以上のブロックは、実質的に並行して行われてもよい。いくつかの実装では、プロセス500の1つまたは複数のブロックは省略され得る。
【0090】
プロセス500は、502において、オーディオ信号の符号化されたフレームを受信することによって開始し得る。受信されたフレーム(たとえば、現在のフレーム)は、本明細書では、概して、j番目のフレームと称される。受信されたフレームは、前に受信されたフレームの直後であってもよいし、前に受信したフレームの直後でないフレームであってもよい。
【0091】
504において、プロセス500は、ダウンミックスされた信号と、利得制御がエンコーダによって適用されたならば、現在のフレームに適用された利得制御を示す情報とを取得するために、オーディオ信号の符号化されたフレームを復号し得る。現在のフレームに適用された利得制御を示す情報は、エンコーダによって適用される利得遷移ステップサイズであり得る。また、現在のフレームに適用された利得制御を示す情報は、エンコーダで適用された利得遷移関数の平滑化関数の形状であり得る。エンコーダがチャネルごとに利得制御を適用する場合、プロセス500は、どのダウンミックスチャネルに利得制御が適用されたかをさらに特定し得る。
【0092】
506において、プロセス500は、利得遷移ステップサイズに基づいて逆利得遷移関数を決定し得る。いくつかの実装では、プロセス500は、平滑化関数の形状に基づいて逆利得遷移関数をさらに決定し得る。逆利得遷移関数は、利得遷移関数に基づいて計算されてもよく、または、多数の予め定義された逆利得遷移関数から選択されてもよい。
【0093】
いくつかの実装では、プロセス500は、逆利得遷移関数がエンコーダにおいて適用される利得遷移関数の逆であると決定し得る。たとえば、逆利得遷移関数は、水平な線を越えてミラーリングされ、調整された利得遷移関数に対応し得る。ミラーリングおよび調整は、x軸に沿ったものであり得る。そのような逆利得遷移関数の例は、図3Bに示され、図3Bに関連して上述されている。いくつかの実装では、逆利得遷移関数は、先行フレームに適用された利得に対応する定常状態部分を有し得る。逆利得遷移関数は、エンコーダにおいて適用される利得遷移関数の遷移部分の逆である遷移部分を有し得る。たとえば、現在のフレームに適用される利得が、先行フレームに対してより大きい減衰に対応する場合、逆利得遷移関数は、より小さい増幅からより大きい増幅に遷移する遷移部分を有し得る。対照的に、現在のフレームに適用される利得が、先行フレームに対してより少ない減衰に対応する場合、逆利得遷移関数は、より大きい増幅からより小さい増幅に遷移する遷移部分を有し得る。過渡部分の持続時間は、コーデックによってもたらされる遅延に関係し得、過渡部分の持続時間は、フレーム長(たとえば、20ミリ秒)からコーデック遅延(たとえば、12ミリ秒)を差し引いたものである。コーデックによってもたらされる遅延がフレーム長よりも長い場合、逆利得遷移は1フレームの遅延を伴って適用され得ることに留意されたい。いくつかの場合、遅延は、利得制御ビットからプロセス500によって(たとえば、デコーダによって)取得され得る。逆利得遷移関数はまた、エンコーダの利得制御によって増幅された信号を減衰させる働きをし得る。
【0094】
508において、プロセス500は、エンコーダによって適用された利得を逆にするために、ダウンミックスされた信号に逆利得遷移関数を適用し得る。たとえば、逆利得遷移関数の適用は、エンコーダによって減衰されたダウンミックス信号を増幅させて、減衰を逆にし得る。他の例として、逆利得遷移関数の適用は、エンコーダによって増幅されたダウンミックス信号を減衰させて、増幅を逆にし得る。ステップ508の出力は、するとプロセス400のステップ402の後のM個のダウンミックスチャネルと同じ利得を持つM個のダウンミックスチャネルであり得る。
【0095】
510において、プロセス500は、ダウンミックスされた信号をアップミックスし得る。アップミックスすることは、空間エンコーダによって行われ得る。いくつかの場合、空間エンコーダはSPAR技法を利用し得る。アップミックスされた信号は、再構成されたFOAまたはHOAオーディオ信号に対応し得る。いくつかの実装では、プロセス500は、ビットストリームに符号化されたサイド情報、たとえばメタデータを用いて信号をアップミックスし得、サイド情報は、パラメトリックに符号化された信号を再構成するために利用され得る。いくつかの実装では、ブロック510は、たとえばダウンミックスされた信号が直接レンダリングされ得るときは任意選択であり得る。
【0096】
いくつかの実装では、512において、プロセス500は、レンダリングされたオーディオデータを生成するために、アップミックスされた信号をレンダリングし得る。いくつかの実装では、プロセス500は、FOAまたはHOAオーディオ信号をレンダリングするために、たとえば、シーンベースオーディオデータをレンダリングするために、任意の好適なレンダリングアルゴリズムを利用し得る。いくつかの実装では、レンダリングされたオーディオデータは、たとえば、将来の提示または再生のために、任意の適切なフォーマットで記憶され得る。いくつかの実装では、ブロック512は任意選択であり、したがって省略され得る。
【0097】
いくつかの実装では、514において、プロセス500は、レンダリングされたオーディオデータを再生させ得る。たとえば、いくつかの実装では、レンダリングされたオーディオデータは、ラウドスピーカおよび/またはヘッドフォンのうちの1つまたは複数を介して提示され得る。いくつかの実装では、複数のラウドスピーカが利用され得、複数のラウドスピーカは、3次元において互いに対して任意の好適な位置または向きに配置され得る。いくつかの実装では、プロセス514は任意選択であり、したがって省略され得る。
【0098】
図4に関連して上述したように、利得制御情報、たとえば、利得パラメータを示す情報は、利得制御ビットのセットを用いて符号化され得る。いくつかの実装では、過負荷状態が検出された各ダウンミックスチャネルについて異なる利得遷移関数が決定され得る。そのような実装では、利得制御がダウンミックスチャネルの各々に適用されているかどうかを示すために利得制御ビットが必要とされ、図4に関連して上述したように、利得遷移関数パラメータは、利得制御が適用されるダウンミックスチャネルの各々について符号化される。あるいは、いくつかの実装では、過負荷状態が存在する一つのダウンミックスチャネルに基づいて決定される単一の利得遷移関数が、ダウンミックスチャネルのすべてに適用され得る。そのような実装では、各ダウンミックスチャネルについて利得制御が適用されたかどうかを示すための別個のビットフラグが必要とされないので、必要とされる利得制御ビットはより少なく、よってよりビットレート効率的な符号化となる。
【0099】
過負荷状態が存在しないダウンミックスチャネルを含むすべてのダウンミックスチャネルに同じ利得遷移関数を適用することによる、よりビットレート効率のよい符号化は、たとえば、コーデックの過負荷が存在しない信号を減衰させることにより、知覚的品質の劣化をもたらすことがある。対照的に、利得制御が各ダウンミックスチャネルに目標を定めた方法で適用される、より目標を定めた利得制御を利用することは、利得制御情報を送信するためにより多くのビットを必要としうる。しかしながら、目標とされた、たとえば、チャネル固有の利得制御情報を送信するために追加のビットを利用することは、ダウンミックスチャネルを波形符号化するために典型的に使用されるビットの再割り振りを必要とすることがあり、いくつかのケースでは、知覚的品質を低減し得る。したがって、すべてのダウンミックスチャネルに同じ利得遷移関数を適用することとチャネル固有の利得制御を適用することとの間には、状況依存のトレードオフがありうる。利得制御がすべてのダウンミックスチャネルにわたって適用されるかまたは目標とされるチャネルごとに適用されるかにかかわらず、利得制御情報に関連付けられるビットは、ダウンミックスチャネルの波形符号化のために典型的に用いられるビットから、および/またはダウンミックスチャネルからFOAまたはHOA信号を再構成するために用いられるメタデータといったサイド情報を符号化するために典型的に用いられるビットから割り当てられ得、それにより、ダウンミックスチャネルまたはサイド情報のいずれかを符号化するために利用可能なビットの数が低減される。
【0100】
図6は、一実施形態による、IVASシステム600の例示的なユースケースを示す。いくつかの実施形態では、さまざまなデバイスは、たとえば、PSTN/OTHER PLMNによって示される公衆交換電話網(PSTN)またはモバイルネットワークデバイス(PLMN)604からオーディオ信号を受信するよう構成されたコールサーバ602を介して通信する。ユースケースは、拡張ボイスサービス(EVS)、マルチレート広帯域(AMR-WB)および適応マルチレート狭帯域(AMR-NB)をサポートするデバイスを含むがこれらに限定されない、オーディオをモノ(mono)のみでレンダリングし、キャプチャするレガシーデバイス606をサポートする。ユースケースはまた、ステレオオーディオ信号をキャプチャし、レンダリングするユーザ機器(UE)608および/もしくは614、またはモノ信号をキャプチャし、マルチチャネル信号にバイノーラルにレンダリングするUE610をサポートする。ユースケースはまた、ビデオ会議室システム616および/または618によってそれぞれキャプチャされ、レンダリングされるイマーシブ信号およびステレオ信号をサポートする。ユースケースはまた、ホームシアターシステム620のためのステレオオーディオ信号のステレオキャプチャおよびイマーシブレンダリング、並びに仮想現実(VR)ギア622およびイマーシブコンテンツ取り込み624のためのオーディオ信号のモノキャプチャおよびイマーシブレンダリングのためのコンピュータ612をサポートする。
【0101】
図7は、本開示のさまざまな態様を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図7に示す要素のタイプおよび数は、単に例として与えられる。他の実装は、より多くの、より少ない、および/または異なる種類および数の要素を含み得る。いくつかの例によれば、装置700は、本明細書で開示する方法のうちの少なくともいくつかを行うよう構成され得る。いくつかの実装では、装置700は、テレビジョン、オーディオシステムの1つまたは複数の構成要素、(セルラー電話などの)モバイルデバイス、ラップトップコンピュータ、タブレットデバイス、スマートスピーカ、または他のタイプのデバイスであってよく、またはこれらを含み得る。
【0102】
いくつかの代替的な実装によれば、装置700は、サーバであってもよく、またはサーバを含み得る。いくつかのそのような例では、装置700は、エンコーダであり得るか、またはそれを含み得る。したがって、いくつかの場合、装置700は、ホームオーディオ環境などのオーディオ環境内で使用するよう構成されたデバイスであってもよく、他の場合、装置700は、「クラウド」、たとえばサーバで使用するよう構成されたデバイスであってもよい。
【0103】
この例では、装置700は、インタフェースシステム705および制御システム710を含む。インタフェースシステム705は、いくつかの実装では、オーディオ環境の1つまたは複数の他のデバイスと通信するよう構成され得る。オーディオ環境は、いくつかの例では、ホームオーディオ環境であり得る。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、通りまたは歩道環境、公園環境などの他のタイプの環境であり得る。インタフェースシステム705は、いくつかの実装では、オーディオ環境のオーディオデバイスと制御情報および関連付けられたデータを交換するよう構成され得る。制御情報および関連付けられたデータは、いくつかの例では、装置700が実行している1つまたは複数のソフトウエアアプリケーションに関係し得る。
【0104】
インタフェースシステム705は、いくつかの実装では、コンテンツストリームを受信するか、または提供するよう構成され得る。コンテンツストリームは、オーディオデータを含み得る。オーディオデータは、オーディオ信号を含んでいてもよいが、これに限定されない。いくつかの場合、オーディオデータは、チャネルデータおよび/または空間メタデータといった空間データを含み得る。いくつかの例では、コンテンツストリームは、ビデオデータと、ビデオデータに対応するオーディオデータとを含み得る。
【0105】
インタフェースシステム705は、1つまたは複数のネットワークインタフェース、および/または1つまたは複数のユニバーサルシリアルバス(USB)インタフェースといった1つまたは複数の外部デバイスインタフェースを含んでいてもよい。いくつかの実装によれば、インタフェースシステム705は、1つまたは複数のワイヤレスインタフェースを含み得る。インタフェースシステム705は、1つまたは複数のマイクロフォン、1つまたは複数のスピーカ、ディスプレイシステム、タッチセンサシステムおよび/またはジェスチャセンサシステムなど、ユーザインタフェースを実装するための1つまたは複数のデバイスを含み得る。いくつかの例では、インタフェースシステム705は、制御システム710と、図7に示す任意のメモリシステム715などのメモリシステムとの間の1つまたは複数のインタフェースを含み得る。しかしながら、制御システム710は、いくつかの場合はメモリシステムを含み得る。インタフェースシステム705は、いくつかの実装では、環境内の1つまたは複数のマイクロフォンから入力を受信するよう構成され得る。
【0106】
制御システム710は、たとえば、汎用シングルチッププロセッサまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、および/またはディスクリートハードウエア構成要素を含み得る。
【0107】
いくつかの実装では、制御システム710は、2つ以上のデバイスに存在し得る。たとえば、いくつかの実装では、制御システム710の一部は、本明細書に示される環境のうちの1つの中のデバイスに存在してもよく、制御システム710の他の部分は、サーバ、モバイルデバイス(たとえば、スマートフォンまたはタブレットコンピュータ)等の環境の外側にあるデバイスに存在してもよい。他の実施形態では、制御システム710の一部は、1つの環境内のデバイスに存在してもよく、制御システム710の他の部分は、環境の1つまたは複数の他のデバイスに存在してもよい。たとえば、制御システム710の一部は、サーバといったクラウドベースのサービスを実装しているデバイスに存在してもよく、制御システム710の他の部分は、他のサーバ、メモリデバイスなどのクラウドベースのサービスを実装している他のデバイスに存在してもよい。インタフェースシステム705はまた、いくつかの例では、2つ以上のデバイスに存在してもよい。
【0108】
いくつかの実装では、制御システム710は、本明細書に開示された方法を少なくとも部分的に行うよう構成されてもよい。いくつかの例によれば、制御システム710は、利得パラメータを決定すること、利得遷移関数を適用すること、逆利得遷移関数を決定すること、逆利得遷移関数を適用すること、ビットストリームに関して利得制御のためにビットを分配することなどの方法を実装するよう構成され得る。
【0109】
本明細書に記載された方法の一部または全部は、1つまたは複数の非一時的な媒体に記憶された命令(たとえば、ソフトウエア)に従って1つまたは複数のデバイスによって行われ得る。そのような非一時的な媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがこれらに限定されない、本明細書に記載されるものといったメモリデバイスを含み得る。1つまたは複数の非一時的な媒体は、たとえば、図7に示される任意のメモリシステム715および/または制御システム710に存在し得る。したがって、本開示で説明する主題のさまざまな発明的態様は、ソフトウエアを記憶した1つまたは複数の非一時的な媒体において実装され得る。ソフトウエアは、たとえば、利得パラメータを決定するための命令、利得遷移関数を適用するための命令、逆利得遷移関数を決定するための命令、逆利得遷移関数を適用するための命令、ビットストリームに関する利得制御のためのビットを分配するための命令などを含み得る。ソフトウエアは、たとえば、図7の制御システム710などの制御システムの1つまたは複数の構成要素によって実行可能であり得る。
【0110】
いくつかの例では、装置700は、図7に示す任意選択のマイクロフォンシステム720を含み得る。任意選択のマイクロフォンシステム720は、1つまたは複数のマイクロフォンを含み得る。いくつかの実装では、マイクロフォンのうちの1つまたは複数は、スピーカシステムのスピーカ、スマートオーディオデバイスなどの他のデバイスの一部であるか、またはそれに関連し得る。いくつかの例では、装置700はマイクロフォンシステム720を含まないことがある。しかしながら、いくつかのそのような実装では、装置700は、それでもなお、インタフェースシステム710を介してオーディオ環境内の1つまたは複数のマイクロフォンのためのマイクロフォンデータを受信するよう構成され得る。いくつかのそのような実装では、装置700のクラウドベースの実装は、インタフェースシステム710を介してオーディオ環境内の1つまたは複数のマイクロフォンから、マイクロフォンデータ、またはマイクロフォンデータに少なくとも部分的に対応する雑音メトリックを受信するよう構成され得る。
【0111】
いくつかの実装によれば、装置700は、図7に示されている任意選択のラウドスピーカシステム725を含み得る。任意選択のラウドスピーカシステム725は、1つまたは複数のラウドスピーカを含み得、それはまた、本明細書では「スピーカ」、またはより一般的には「オーディオ再生トランスデューサ」とも称され得る。いくつかの例、たとえば、クラウドベースの実装では、装置700は、ラウドスピーカシステム725を含まないことがある。いくつかの実装では、装置700はヘッドフォンを含み得る。ヘッドフォンは、ヘッドフォンジャックを介して、または無線接続、たとえば、BLUETOOTH(登録商標)を介して、装置700に接続または結合され得る。
【0112】
図8Aおよび図8Bは、エンコーダ側におけるサンプルの均一な利得制御がDBSTEP=-1dBである知覚的に動機付けされた利得制御の例示的な実装を示す。この特定の例では、1フレームは1024サンプルからなる。サンプル振幅は点線で表され、サンプルごとに適用される利得は実線で表される。図8Aからわかるように、フレームがエンコーダにおいて過負荷(0dBより大きい振幅)を生成した途端に、利得関数は、減衰なし(0dB)からDBSTEP-0dB=-1dBの減衰に遷移する。入力オーディオ信号が1dBを超える場合、DBSTEPによる更なる減衰がもたらされる。
【0113】
結果として得られる減衰されたダウンミックスされたオーディオ信号を図8Bに示す。この具体例では、DBSTEPの値は十分に大きく、それにより、各サンプルは必要とされる閾値(0dB)よりも下に減衰される。
【0114】
図9Aおよび図9Bは、エンコーダ側における減衰値のセット{DBS*GT}={0,-1,-3,-6}dBまたは{-1,-2,-3}のDBSTEPセットを生じさせるDBS=-1dBおよびGT={0,1,3,6}である「非一様」利得制御の例を示す。図8Aおよび図8Bと同様、サンプルの振幅は点線で示され、利得関数は実線で示されている。DBSTEPのセットでは、自動利得制御は、各フレームにおいて増加する値で信号を減衰させることによって、エンコーダにおいて引き起こされる過負荷に反応することができる。図9Bに示すように、利得遷移ステップサイズは、全てのサンプリングされたものが要求される閾値(<0dB)を下回るほど十分に大きくない。これは、オーディオ信号がデコーダにおいてレンダリングされるときに歪みをもたらし得るが、エンコーダにおける過負荷によって引き起こされる歪みは、非常に突然の利得変化によって引き起こされる歪みほどは顕著ではない。
【0115】
本開示のいくつかの態様は、開示された方法の1つまたは複数の例を行うよう構成された、たとえばプログラムされたシステムまたはデバイスと、開示された方法またはそのステップの1つまたは複数の例を実施するためのコードを記憶する有形のコンピュータ読み取り可能な媒体、たとえばディスクとを含む。たとえば、いくつかの開示されたシステムは、ソフトウエアまたはファームウェアでプログラムされた、および/または、開示された方法またはそのステップの実施形態を含む、データに対するさまざまな操作のいずれかを行うよう構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであるか、またはそれらを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して、開示される方法(またはそのステップ)の1つまたは複数の例を行うようプログラムされた(および/または他の方法で構成された)処理サブシステムとを含むコンピュータシステムであるか、またはこれを含み得る。
【0116】
いくつかの実施形態は、開示された方法の1つまたは複数の例の実行を含む、オーディオ信号(複数可)に対して必要な処理を行うよう構成された(たとえば、プログラムされた、および他の方法で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装され得る。あるいは、開示されたシステム(またはその要素)の実施形態は、汎用プロセッサ、たとえば、パーソナルコンピュータ(PC)または他のコンピュータシステムまたはマイクロプロセッサとして実装されてもよく、これは、入力デバイスおよびメモリを含んでいてもよく、ソフトウエアまたはファームウェアでプログラムされ、および/またはそうでなければ、開示された方法の1つまたは複数の例を含むさまざまな操作のいずれかを行うよう構成される。あるいは、本発明のシステムのいくつかの実施形態の要素は、開示された方法の1つまたは複数の例を行うよう構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムは他の要素も含む。他の要素は、1つまたは複数のラウドスピーカおよび/または1つまたは複数のマイクロフォンを含み得る。開示される方法の1つまたは複数の例を実行するよう構成された汎用プロセッサは、入力デバイスに結合され得る。入力装置の例は、たとえば、マウスおよび/またはキーボードを含む。汎用プロセッサは、メモリ、ディスプレイデバイスなどに結合され得る。
【0117】
本開示の他の態様は、開示された方法またはそのステップの1つまたは複数の例を、たとえば、行うよう実行可能なコーダによって行うためのコードを記憶する、ディスクまたは他の有形な記憶媒体といったコンピュータ読み取り可能な媒体である。
【0118】
本開示の特定の実施形態および本開示の適用が本明細書に記載されているが、本明細書に記載された実施形態および適用に対する多くの変形が、本明細書に記載され、特許請求される本開示の範囲から逸脱することなく可能であることは、当業者には明らかであろう。本開示の特定の形態が示され、説明されたが、本開示は、説明され、示された特定の実施形態、または説明された特定の方法に限定されるべきではないことを理解されたい。
【0119】
本開示のさまざまな態様および実装は、特許請求の範囲ではない以下の列挙された例示的な実施形態(EEE)からも理解され得る。
[EEE1]
オーディオ信号に対して利得制御を行う方法であって、前記方法は、
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することと、
前記ダウンミックスされたオーディオ信号のフレームについて過負荷状態が発生したと決定することと、
前記過負荷状態が発生したと決定したことに対応して、前記フレームのための利得遷移関数を決定することであって、前記利得遷移関数は、少なくとも利得遷移ステップサイズに基づく、ことと、
前記利得遷移関数を前記フレームに適用して、前記ダウンミックスされたオーディオ信号の利得調整されたフレームを生成することと、
エンコーダによる符号化のため、前記利得調整されたフレームと前記利得遷移関数を示す情報とを提供することと、
を含む方法。
[EEE2]
前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化すること、
をさらに含む、EEE1に記載の方法。
[EEE3]
符号化されるべきオーディオ信号のダウンミックスされたオーディオ信号を取得することは、
前記ダウンミックスされたオーディオ信号を受信すること、または、
前記ダウンミックスされたオーディオ信号を前記符号化されるべきオーディオ信号から決定すること、を含む、
EEE1または2に記載の方法。
[EEE4]
前記オーディオ信号は、高次アンビソニックス(HOA)オーディオ信号である、EEE1ないし3のいずれかに記載の方法。
[EEE5]
前記ダウンミックスされたオーディオ信号は、空間的に符号化されたダウンミックスされた信号である、EEE1ないし4のいずれかに記載の方法。
[EEE6]
前記過負荷状態は、前記ダウンミックスされたオーディオ信号の前記フレームが予め定義された信号範囲を超える状態である、EEE1ないし5のいずれかに記載の方法。
[EEE7]
前記予め定義された信号範囲は、前記エンコーダによって予期される信号範囲である、EEE6に記載の方法。
[EEE8]
前記ダウンミックスされたオーディオ信号の前記フレームは現在のフレームであり、前記利得遷移関数は、前記現在のフレームの先行フレームに適用された前の利得遷移関数にさらに基づく、EEE1ないし7のいずれかに記載の方法。
[EEE9]
前記利得遷移関数は、前記利得遷移ステップサイズに基づく平滑化関数にさらに依存する、EEE1ないし8のいずれかに記載の方法。
[EEE10]
前記利得遷移関数は、過渡部分と定常状態部分とを含み、前記過渡部分は、前記先行フレームに関連付けられた利得から前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられた前記利得への遷移に対応する、EEE8に記載の方法。
[EEE11]
前記利得遷移ステップサイズによって調整された前記先行フレームに関連付けられる前記利得は、前記現在のフレームの利得調整目標に依存して、前記先行フレームに対応する利得の前記利得遷移ステップサイズによる減衰であるか、または前記利得遷移ステップサイズによる増幅である、EEE10に記載の方法。
[EEE12]
前記過渡部分の長さは、前記エンコーダによって利用されるコーデックによってもたらされる遅延によって制限される、EEE10または11に記載の方法。
[EEE13]
前記過渡部分の長さは、前記エンコーダによる符号化動作のために使われるサンプルの数以下である、EEE12に記載の方法。
[EEE14]
過渡部分の長さは、1サンプルよりも大きい、EEE10ないし13のうちいずれか一つ記載の方法。
[EEE15]
前記利得遷移関数は、
【数12】
として定義され、式中、DBSTEPは、利得遷移ステップサイズであり、lはサンプルインデックスであり、jは、フレームインデックスであり、p()は平滑化関数であり、lendは、p()が定義される最も右のインデックスを表し、Lは、1フレームのサンプル数である、
EEE1ないし14のいずれかに記載の方法。
[EEE16]
前記利得遷移ステップサイズは、予め定義された値である、EEE1ないし15のいずれかに記載の方法。
[EEE17]
前記利得遷移ステップサイズは、増加するサイズの予め定義された値のセットから決定される、EEE1ないし16のいずれかに記載の方法。
[EEE18]
前記ダウンミックスされたオーディオ信号の前記フレームによって生じる過負荷量を決定することと、
前記過負荷量に応じて、前記増加するサイズの予め定義された値のセットから前記利得遷移ステップサイズを決定することと、
をさらに含む、EEE17に記載の方法。
[EEE19]
前記利得遷移ステップサイズは、知覚的品質リスニングテストまたは客観的品質測定に基づいて決定される、EEE1ないし18のいずれかに記載の方法。
[EEE20]
前記知覚的品質リスニングテストは、隠れた基準およびアンカーを有する多刺激テスト(MUSHRA)である、EEE19に記載の方法。
[EEE21]
前記ダウンミックスされた信号の利得調整されたフレームを生成するために前記フレームに前記利得遷移関数を適用することは、
前記ダウンミックスされたオーディオ信号のサンプルに前記利得遷移関数を適用することであって、前記サンプルの総数は前記ダウンミックスされたオーディオ信号の前記フレームに対応する、ことを含む、
EEE1ないし20のいずれかに記載の方法。
[EEE22]
前記利得調整されたフレームを、前記利得遷移関数を示す前記情報とともに符号化することは、
前記利得遷移関数に基づいて符号化方式を決定することを含む、
EEE2、またはEEE3ないしEEE21のいずれか一つに記載の方法。
[EEE23]
前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移ステップサイズに基づいて前記符号化方式を決定することを含む、
EEE22に記載の方法。
[EEE24]、
前記利得遷移関数に基づいて符号化方式を決定することは、
前記利得遷移関数が前記過負荷状態を除去することができたかどうかに基づいて前記符号化方式を決定することを含む、
EEE22に記載の方法。
[EEE25]
符号化方式は、修正離散コサイン変換(MDCT)、または代数符号励振線形予測(ACELP)のうちの1つである、EEE22ないし24のいずれかに記載の方法。
[EEE26]
前記利得調整されたフレームは、減衰されたフレームまたは増幅されたフレームである、EEE1ないし25のいずれかに記載の方法。
[EEE27]
オーディオ信号に対して利得制御を行う方法であって、前記方法は、
デコーダにおいて、オーディオ信号の符号化されたフレームを受信することと、
ダウンミックスされたオーディオ信号のフレームとエンコーダによって適用された利得制御を示す情報とを取得するために、オーディオ信号の前記符号化されたフレームを復号することと、
前記エンコーダによって適用された利得制御を示す前記情報に少なくとも部分的に基づいて、前記ダウンミックスされたオーディオ信号の前記フレームに適用されるべき逆利得遷移関数を決定することであって、前記エンコーダによって適用された利得制御を示す前記情報は利得遷移ステップサイズを含む、ことと、
前記ダウンミックスされたオーディオ信号の前記フレームに前記逆利得遷移関数を適用することと、
を含む方法。
[EEE28]
前記方法は、前記ダウンミックスされたオーディオ信号をアップミックスして、アップミックスされたオーディオ信号を生成することであって、前記アップミックスされたオーディオ信号はレンダリングに適している、ことをさらに含む、EEE27の方法。
[EEE29]
レンダリングされたオーディオデータを生成するために前記アップミックスされた信号をレンダリングすることをさらに含む、EEE28に記載の方法。
[EEE30]
ラウドスピーカまたはヘッドフォンのうちの1つまたは複数を使用して、レンダリングされたオーディオデータを再生することをさらに含む、EEE29に記載の方法。
[EEE31]
エンコーダによって適用される利得制御を示す情報は、平滑化関数を示す情報をさらに含む、EEE27ないし30のうちいずれか一つに記載の方法。
[EEE32]
前記逆利得遷移関数は、前記エンコーダによって適用される利得遷移関数を反転させることによって決定される、
EEE27ないし31のうちいずれか一つに記載の方法。
[EEE33]
逆利得遷移関数は、過渡部分と定常状態部分とを含む、EEE27ないし32のうちのいずれかに記載の方法。
[EEE34]
前記過渡部分の長さは、前記デコーダによって利用されるコーデックによってもたらされる遅延によって制限される、EEE33に記載の方法。
[EEE35]
EEE1ないし34のいずれか一つに記載の方法を実装するよう構成された装置。
[EEE36]
処理装置によって実行されると、前記処理装置に、EEE1ないし34のいずれか一つに記載の方法を実行させる命令を含むプログラム。
[EEE37]
EEE36に記載のプログラムを記憶した記憶媒体。
[EEE38]
オーディオ信号に対して利得制御を行うための方法であって、前記方法は、
自動利得制御システムによって、空間的に符号化されたダウンミックスオーディオ信号を受信することと、
前記受信された信号の1つまたは複数のフレームについて過負荷状態が発生したと決定することと、
前記過負荷状態に対応して、前記過負荷を減衰させるために前記受信された信号に対して利得関数を適用することによって減衰信号を生成することであって、前記利得関数は、(1)減衰レベルパラメータ、(2)前記1つまたは複数のフレームの各々についてそれぞれの減衰レベルを指定する利得関数形状、または(3)前記減衰レベルパラメータと前記利得関数形状との組み合わせに依存する、ことと、
符号化のため、前記減衰信号と前記減衰レベルパラメータの表現とをコアエンコーダに提供することと、
を含む方法。
[EEE39]
前記減衰レベルパラメータは、数のテーブルを含み、各数は、前記1つまたは複数のフレームに連続的に適用されるべきそれぞれの減衰レベルに対応する、EEE38に記載の方法。
[EEE40]
各数は、同じ値を有し、減衰の各ステップが同じ量だけ信号を減衰させることを示す、EEE39に記載の方法。
[EEE41]
前記数は、値が増加し、減衰の各ステップが前のステップよりも高い量だけ前記信号を減衰させることを示す、EEE39に記載の方法。
[EEE42]
前記減衰レベルパラメータに基づいて異なる符号化方式を用いて前記オーディオ信号を符号化するよう前記コアエンコーダをステアリングすることを含む、
EEE38から41のいずれか一つに記載の方法。
[EEE43]
前記減衰レベルパラメータの異なる値に基づいて前記利得関数形状を変更することを含む、EEE38から42のいずれか一つに記載の方法。
[EEE44]
EEE38から43のいずれか一つに記載の方法を実装するよう構成された装置。
[EEE45]
ソフトウエアを記憶した1つまたは複数の非一時的な媒体であって、前記ソフトウエアは、EEE38から43のいずれか一つに記載の方法を行うよう1つまたは複数のデバイスを制御するための命令を含む、媒体。
図1
図2A
図2B
図3A
図3B
図4
図5
図6
図7
図8A
図8B
図9A
図9B
【国際調査報告】