IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2022-549403オーディオコーディングのためのマルチラグフォーマット
<>
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図1
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図2
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図3
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図4
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図5
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図6
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図7
  • 特表-オーディオコーディングのためのマルチラグフォーマット 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-25
(54)【発明の名称】オーディオコーディングのためのマルチラグフォーマット
(51)【国際特許分類】
   G10L 19/02 20130101AFI20221117BHJP
【FI】
G10L19/02 150
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022510887
(86)(22)【出願日】2020-08-18
(85)【翻訳文提出日】2022-04-15
(86)【国際出願番号】 EP2020073067
(87)【国際公開番号】W WO2021032719
(87)【国際公開日】2021-02-25
(31)【優先権主張番号】62/889,118
(32)【優先日】2019-08-20
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】19192552.8
(32)【優先日】2019-08-20
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ヴィレモース,ラース
(72)【発明者】
【氏名】レヘトネン,ヘイディ-マリア
(72)【発明者】
【氏名】プルンハーゲン,ハイコ
(72)【発明者】
【氏名】ヘデリーン,ペール
(57)【要約】
オーディオ信号を符号化する方法が記載される。当該方法は、オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成するステップと、オーディオ信号のスペクトルエンベロープを決定するステップと、サブバンドオーディオ信号毎に、サブバンドオーディオ信号の自己相関関数に基づいてサブバンドオーディオ信号についての自己相関情報を決定するステップと、オーディオ信号の符号化表現を生成するステップであり、符号化表現は、オーディオ信号の前記スペクトルエンベロープの表現と、複数のサブバンドオーディオ信号についての自己相関情報の表現とを含む、ステップとを含む。さらに、符号化表現からオーディオ信号を復号する方法、並びに対応するエンコーダ、デコーダ、コンピュータプログラム及びコンピュータ読み取り可能記録媒体が記載される。
【特許請求の範囲】
【請求項1】
オーディオ信号を符号化する方法であって、
前記オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成するステップと、
前記オーディオ信号のスペクトルエンベロープを決定するステップと、
サブバンドオーディオ信号毎に、前記サブバンドオーディオ信号の自己相関関数に基づいて前記サブバンドオーディオ信号についての自己相関情報を決定するステップであり、前記自己相関情報は、前記サブバンドオーディオ信号についての自己相関値を含む、ステップと、
前記オーディオ信号の符号化表現を生成するステップであり、前記符号化表現は、前記オーディオ信号の前記スペクトルエンベロープの表現と、前記複数のサブバンドオーディオ信号についての前記自己相関情報の表現とを含む、ステップと
を含む方法。
【請求項2】
前記符号化表現を規定するビットストリームを出力するステップを更に含む、請求項1に記載の方法。
【請求項3】
前記スペクトルエンベロープは、前記複数のサブバンドオーディオ信号に基づいて決定される、請求項1又は2に記載の方法。
【請求項4】
所与のサブバンドオーディオ信号についての前記自己相関情報は、それぞれのサブバンドオーディオ信号についてのラグ値を更に含む、請求項1乃至3のうちいずれか1項に記載の方法。
【請求項5】
前記ラグ値は、前記自己相関関数が局所最大値に達する遅延値に対応し、前記自己相関値は、前記局所最大値に対応する、請求項4に記載の方法。
【請求項6】
前記スペクトルエンベロープは、第1の更新レートで決定され、前記複数のサブバンドオーディオ信号についての前記自己相関情報は、第2の更新レートで決定され、
前記第1の更新レート及び前記第2の更新レートは互いに異なる、請求項1乃至5のうちいずれか1項に記載の方法。
【請求項7】
前記第1の更新レートは、前記第2の更新レートよりも高い、請求項6に記載の方法。
【請求項8】
前記複数のサブバンドオーディオ信号を生成することは、
スペクトル的及び/又は時間的な平坦化を前記オーディオ信号に適用し、
前記平坦化されたオーディオ信号をウィンドウ処理し、
前記ウィンドウ処理後の平坦化されたオーディオ信号を前記複数のサブバンドオーディオ信号にスペクトル分解することを含む、請求項1乃至7のうちいずれか1項に記載の方法。
【請求項9】
前記複数のサブバンドオーディオ信号を生成することは、前記オーディオ信号をスペクトル分解することを含み、
所与のサブバンドオーディオ信号についての前記自己相関関数を決定することは、
前記サブバンドオーディオ信号のサブバンドエンベロープを決定し、
前記サブバンドエンベロープに基づいて前記サブバンドオーディオ信号をエンベロープ平坦化し、
ウィンドウ関数によって前記エンベロープ平坦化されたサブバンドオーディオ信号をウィンドウ処理し、
前記ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号の前記自己相関関数を決定することを含む、請求項1乃至7のうちいずれか1項に記載の方法。
【請求項10】
所与のサブバンドオーディオ信号についての前記自己相関関数を決定することは、
前記ウィンドウ関数の自己相関関数によって、前記ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号の前記自己相関関数を正規化することを更に含む、請求項8又は9に記載の方法。
【請求項11】
所与のサブバンドオーディオ信号の前記自己相関関数に基づいて前記サブバンドオーディオ信号についての前記自己相関関数を決定することは、
前記サブバンドオーディオ信号の前記自己相関関数を、前記サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値の自己相関関数と比較し、
前記サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタの前記インパルス応答の前記絶対値の前記自己相関関数より上にある前記サブバンド信号の前記自己相関関数の最高の局所最大値に基づいて、前記自己相関情報を決定することを含む、請求項1乃至10のうちいずれか1項に記載の方法。
【請求項12】
前記スペクトルエンベロープを決定することは、前記複数のサブバンドオーディオ信号のそれぞれについての信号電力を測定することを含む、請求項1乃至11のうちいずれか1項に記載の方法。
【請求項13】
オーディオ信号の符号化表現から前記オーディオ信号を復号する方法であって、前記符号化表現は、前記オーディオ信号のスペクトルエンベロープの表現と、前記オーディオ信号から生成された複数のサブバンドオーディオ信号のそれぞれについての自己相関情報の表現とを含み、所与のサブバンドオーディオ信号についての前記自己相関情報は、前記サブバンドオーディオ信号の自己相関関数に基づき、当該方法は、
前記オーディオ信号の前記符号化表現を受信するステップと、
前記オーディオ信号の前記符号化表現から前記スペクトルエンベロープ及び前記自己相関情報を抽出するステップと、
前記スペクトルエンベロープ及び前記自己相関情報に基づいて再構成オーディオ信号を決定するステップと
を含み、
所与のサブバンドオーディオ信号についての前記自己相関情報は、前記サブバンドオーディオ信号についての自己相関値を含み、
前記再構成オーディオ信号は、前記再構成オーディオ信号から生成された複数のサブバンドオーディオ信号のそれぞれについての前記自己相関関数が、前記オーディオ信号から生成された対応するサブバンドオーディオ信号についての前記自己相関情報から導出された条件を満たすように決定される、方法。
【請求項14】
前記再構成オーディオ信号は、前記再構成オーディオ信号の前記複数のサブバンド信号のそれぞれについての自己相関情報が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報と所定のマージンまで一致するように決定される、請求項13に記載の方法。
【請求項15】
前記再構成オーディオ信号は、前記再構成オーディオ信号のサブバンドオーディオ信号毎に、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示されるラグ値において、前記再構成オーディオ信号の前記サブバンドオーディオ信号の前記自己相関関数の値が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示される前記自己相関値と所定のマージンまで一致するように決定される、請求項13に記載の方法。
【請求項16】
前記再構成オーディオ信号は、前記再構成オーディオ信号のサブバンドオーディオ信号毎に、前記再構成オーディオ信号の前記サブバンドオーディオ信号の測定された信号電力が、前記スペクトルエンベロープによって示される前記オーディオ信号の対応するサブバンドオーディオ信号についての信号電力と所定のマージンまで一致するように更に決定される、請求項13乃至15のうちいずれか1項に記載の方法。
【請求項17】
前記再構成オーディオ信号は、前記再構成オーディオ信号のための初期候補から出発し、各反復時にそれぞれの中間の再構成オーディオ信号を生成する反復手順で決定され、
各反復において、前記中間の再構成オーディオ信号の符号化表現と前記オーディオ信号の前記符号化表現との間の差分が、或る反復から他の反復へと連続的に小さくなるように、次の反復のための前記中間の再構成オーディオ信号を取得するために、更新マップが前記中間の再構成オーディオ信号に適用される、請求項13乃至16のうちいずれか1項に記載の方法。
【請求項18】
前記再構成オーディオ信号のための前記初期候補は、前記オーディオ信号の前記符号化表現に基づいて決定される、請求項17に記載の方法。
【請求項19】
前記再構成オーディオ信号のための前記初期候補は、ホワイトノイズである、請求項17に記載の方法。
【請求項20】
前記スペクトルエンベロープ及び前記自己相関情報に基づいて前記再構成オーディオ信号を決定することは、前記オーディオ信号の前記スペクトルエンベロープ及び前記オーディオ信号の前記複数のサブバンドオーディオ信号のそれぞれについての前記自己相関情報を入力として受信し、前記再構成オーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む、請求項13乃至16のうちいずれか1項に記載の方法。
【請求項21】
前記機械学習に基づく生成モデルは、オーディオ信号の符号化表現及び対応するオーディオ信号をそれぞれの確率に関連付けるパラメトリック条件付き分布を含み、
前記再構成オーディオ信号を決定することは、前記オーディオ信号の前記符号化表現についての前記パラメトリック条件付き分布からサンプリングすることを含む、請求項20に記載の方法。
【請求項22】
訓練段階において、複数のオーディオ信号及び前記オーディオ信号の対応する符号化表現のデータセットに対して前記機械学習に基づく生成モデルを訓練するステップを更に含む、請求項20又は21に記載の方法。
【請求項23】
前記機械学習に基づく生成モデルは、再帰型ニューラルネットワーク、変分オートエンコーダ又は敵対的生成モデルのうち1つである、請求項20乃至22のうちいずれか1項に記載の方法。
【請求項24】
前記スペクトルエンベロープ及び前記自己相関情報に基づいて前記再構成オーディオ信号を決定することは、
前記スペクトルエンベロープ及び前記自己相関情報に基づいて複数の再構成サブバンドオーディオ信号を決定し、
スペクトル合成によって前記複数の再構成サブバンドオーディオ信号に基づいて再構成オーディオ信号を決定することを含み、
前記複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、前記再構成サブバンドオーディオ信号の前記自己相関関数が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報から導出された条件を満たすように決定される、請求項13に記載の方法。
【請求項25】
前記複数の再構成サブバンドオーディオ信号は、各再構成サブバンドオーディオ信号についての自己相関情報が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報と所定のマージンまで一致するように決定される、請求項24に記載の方法。
【請求項26】
前記複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示されるラグ値において、前記再構成サブバンドオーディオ信号の前記自己相関関数の値が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示される自己相関値と所定のマージンまで一致するように決定される、請求項24に記載の方法。
【請求項27】
前記複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、前記再構成サブバンドオーディオ信号の測定された信号電力が、前記スペクトルエンベロープによって示される対応するサブバンドオーディオ信号についての信号電力と所定のマージンまで一致するように更に決定される、請求項24乃至26のうちいずれか1項に記載の方法。
【請求項28】
各再構成サブバンドオーディオ信号は、前記再構成サブバンドオーディオ信号のための初期候補から出発し、各反復においてそれぞれの中間の再構成サブバンドオーディオ信号を生成する反復手順で決定され、
各反復において、前記中間の再構成サブバンドオーディオ信号についての前記自己相関情報と対応するサブバンドオーディオ信号についての前記自己相関情報との間の差分が、或る反復から他の反復へと連続的に小さくなるように、次の反復のための前記中間の再構成サブバンドオーディオ信号を取得するために、更新マップが前記中間の再構成サブバンドオーディオ信号に適用される、請求項24乃至27のうちいずれか1項に記載の方法。
【請求項29】
前記スペクトルエンベロープ及び前記自己相関情報に基づいて前記複数の再構成サブバンドオーディオ信号を決定することは、前記オーディオ信号の前記スペクトルエンベロープ及び前記オーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての前記自己相関情報を入力として受信し、前記複数の再構成サブバンドオーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む、請求項24乃至27のうちいずれか1項に記載の方法。
【請求項30】
オーディオ信号を符号化するためのエンコーダであって、
プロセッサと、前記プロセッサに結合されたメモリとを含み、前記プロセッサは、請求項1乃至12のうちいずれか1項に記載の方法のステップを実行するように適合される、エンコーダ。
【請求項31】
オーディオ信号の符号化表現から前記オーディオ信号を復号するためのデコーダであって、
プロセッサと、前記プロセッサに結合されたメモリとを含み、前記プロセッサは、請求項13乃至29のうちいずれか1項に記載の方法のステップを実行するように適合される、デコーダ。
【請求項32】
命令を実行すると、請求項1乃至29のうちいずれか1項に記載の方法をコンピュータに実行させる命令を含むコンピュータプログラム。
【請求項33】
請求項32に記載のコンピュータプログラムを記憶したコンピュータ読み取り可能記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本出願は、2019年8月20日に出願された米国仮特許出願第62/889,118号及び2019年8月20日に出願された欧州特許出願第19192552.8号の優先権を主張し、各出願の全内容を参照により援用する。
【0002】
[技術分野]
本開示は、概してオーディオ信号を符号化表現に符号化する方法、及び符号化表現からオーディオ信号を復号する方法に関する。
【0003】
いくつかの実施形態が、その開示を特に参照して本明細書に記載されるが、本開示は、そのような使用分野に限定されず、より広い状況において適用可能であることが認識される。
【背景技術】
【0004】
本開示を通じた背景技術の如何なる説明も、当該技術が広く知られているという認定、又は当該技術分野における技術常識の一部を構成するという認定として決して考えられるべきではない。
【0005】
高品質オーディオコーディングシステムでは、情報の最も大きい部分に信号の詳細な波形特性を記述させることが一般的である。情報の小さい部分は、周波数帯域におけるエネルギー、又は聴覚の既知の同時マスキング特性(例えば、デコーダ内の波形を表すデータを正確に逆量子化するために必要な量子化ステップサイズ及び範囲情報を伝達するMDCTに基づく波形コーダにおけるサイド情報)に従って量子化ノイズを成形することを意図する制御データのような、より統計的に定義された特徴を記述するために使用される。しかし、これらの高品質オーディオコーディングシステムは、オーディオコンテンツをコーディングするために比較的大量のデータを必要とし、すなわち、比較的低いコーディング効率を有する。
【0006】
改善したコーディング効率でオーディオデータをコーディングできるオーディオコーディング方法及び装置が必要とされている。
【発明の概要】
【0007】
本開示は、オーディオ信号を符号化する方法、オーディオ信号を復号する方法、エンコーダ、デコーダ、コンピュータプログラム及びコンピュータ読み取り可能記憶媒体を提供する。
【0008】
本開示の第1の態様によれば、オーディオ信号を符号化する方法が提供される。符号化は、オーディオ信号の複数の連続部分(例えば、サンプル、セグメント、フレームのグループ)のそれぞれに対して実行されてもよい。いくつかの実装では、これらの部分は互いに重なってもよい。符号化表現は、それぞれのこのような部分について生成されてもよい。当該方法は、オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成することを含んでもよい。オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成することは、オーディオ信号のスペクトル分解を含んでもよく、これは、バンドパスフィルタ(bandpass filter, BPF)のフィルタバンクによって実行されてもよい。フィルタバンクの周波数分解能は、人間の聴覚系の周波数分解能に関連してもよい。例えば、BPFは複素数値のBPFでもよい。代替として、オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成することは、オーディオ信号をスペクトル的及び/又は時間的に平坦化し、任意選択で、ウィンドウ関数によって平坦化されたオーディオ信号をウィンドウ処理し、結果の信号を複数のサブバンドオーディオ信号にスペクトル分解することを含んでもよい。当該方法は、オーディオ信号のスペクトルエンベロープを決定することを更に含んでもよい。当該方法は、サブバンドオーディオ信号毎に、サブバンドオーディオ信号の自己相関関数(autocorrelation function, ACF)に基づいてサブバンドオーディオ信号についての自己相関情報を決定することを更に含んでもよい。また、当該方法は、オーディオ信号の符号化表現を生成することを更に含んでもよく、符号化表現は、オーディオ信号のスペクトルエンベロープの表現と、複数のサブバンドオーディオ信号についての自己相関情報の表現とを含む。例えば、符号化表現は、ビットストリームの部分に関連してもよい。いくつかの実装では、符号化表現は、オーディオ信号の波形及び/又はサブバンドオーディオ信号の1つ以上の波形に関連する波形情報を更に含んでもよい。当該方法は、符号化表現を出力することを更に含んでもよい。
【0009】
上記のように構成されたとき、提案の方法は、非常に高いコーディング効率を有する(すなわち、オーディオをコーディングするために非常に低いビットレートを必要とする)が、同時に、再構成後に非常に良好な音質を達成するための適切な情報を含むオーディオ信号の符号化表現を提供する。これは、スペクトルエンベロープに加えて、オーディオ信号の複数のサブバンドについての自己相関情報も提供することによって行われる。注目すべきことに、サブバンド当たり2つの値、すなわち、1つのラグ値(lag value)及び1つの自己相関値は、高い音質を達成するのに十分であることが証明されている。
【0010】
いくつかの実施形態では、所与のサブバンドオーディオ信号についての自己相関情報は、それぞれのサブバンドオーディオ信号についてのラグ値及び/又はそれぞれのサブバンドオーディオ信号についての自己相関値を含んでもよい。好ましくは、自己相関情報は、それぞれのサブバンドオーディオ信号についてのラグ値と、それぞれのサブバンドオーディオ信号についての自己相関値との双方を含んでもよい。ここで、ラグ値は、自己相関関数が局所最大値に達する遅延値(例えば、横座標)に対応してもよく、自己相関値は、この局所最大値(例えば、縦座標)に対応してもよい。
【0011】
いくつかの実施形態では、スペクトルエンベロープは、第1の更新レートで決定されてもよく、複数のサブバンドオーディオ信号についての自己相関情報は、第2の更新レートで決定されてもよい。この場合、第1の更新レート及び第2の更新レートは互いに異なってもよい。更新レートはまた、サンプリングレートとも呼ばれてもよい。このような一実施形態では、第1の更新レートは、第2の更新レートよりも高くてもよい。さらに、異なる更新レートが異なるサブバンドに適用されてもよく、すなわち、異なるサブバンドオーディオ信号についての自己相関情報の更新レートは互いに異なってもよい。
【0012】
スペクトルエンベロープの更新レートと比較して自己相関情報の更新レートを低減することにより、提案の方法のコーディング効率は、再構成オーディオ信号の音質に影響することなく、更に改善できる。
【0013】
いくつかの実施形態では、複数のサブバンドオーディオ信号を生成することは、スペクトル的及び/又は時間的な平坦化をオーディオ信号に適用することを含んでもよい。複数のサブバンドオーディオ信号を生成することは、ウィンドウ関数によって平坦化されたオーディオ信号をウィンドウ処理することを更に含んでもよい。また、複数のサブバンドオーディオ信号を生成することは、ウィンドウ処理後の平坦化されたオーディオ信号を複数のサブバンドオーディオ信号にスペクトル分解することを更に含んでもよい。この場合、例えば、オーディオ信号をスペクトル的及び/又は時間的に平坦化することは、オーディオ信号の知覚的に重み付けされたLPC残差を生成することを含んでもよい。
【0014】
いくつかの実施形態では、複数のサブバンドオーディオ信号を生成することは、オーディオ信号をスペクトル分解することを含んでもよい。次いで、所与のサブバンドオーディオ信号についての自己相関関数を決定することは、サブバンドオーディオ信号のサブバンドエンベロープを決定することを含んでもよい。自己相関関数を決定することは、サブバンドエンベロープに基づいてサブバンドオーディオ信号をエンベロープ平坦化することを更に含んでもよい。サブバンドエンベロープは、ウィンドウ処理されたサブバンドオーディオ信号の大きさの値を取ることによって決定されてもよい。自己相関関数を決定することは、ウィンドウ関数によってエンベロープ平坦化されたサブバンドオーディオ信号をウィンドウ処理することを含んでもよい。また、自己相関関数を決定することは、エンベロープ平坦化後のウィンドウ処理されたサブバンドオーディオ信号の自己相関関数を決定する(例えば、計算する)ことを更に含んでもよい。自己相関関数は、実数値の(エンベロープ平坦化後のウィンドウ処理された)サブバンド信号について決定されてもよい。
【0015】
本開示の他の態様は、オーディオ信号の符号化表現からオーディオ信号を復号する方法に関する。符号化表現は、オーディオ信号のスペクトルエンベロープの表現と、オーディオ信号の複数のサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)のそれぞれについての自己相関情報の表現とを含んでもよい。所与のサブバンドオーディオ信号についての自己相関情報は、サブバンドオーディオ信号の自己相関関数に基づいてもよい。当該方法は、オーディオ信号の符号化表現を受信することを含んでもよい。当該方法は、オーディオ信号の符号化表現からスペクトルエンベロープ及び(複数の)自己相関情報を抽出することを更に含んでもよい。また、当該方法は、スペクトルエンベロープ及び自己相関情報に基づいて再構成オーディオ信号を決定することを更に含んでもよい。再構成オーディオ信号は、再構成オーディオ信号の複数のサブバンドオーディオ信号(又は再構成オーディオ信号から生成されたもの)のそれぞれについての自己相関関数が、オーディオ信号の対応するサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)についての自己相関情報から導出された条件を満たすように決定されてもよい。例えば、再構成オーディオ信号は、再構成オーディオ信号のサブバンドオーディオ信号毎に、オーディオ信号の対応するサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)についての自己相関情報によって示されるラグ値(例えば、遅延値)において、再構成オーディオ信号のサブバンドオーディオ信号(又は再構成オーディオ信号から生成されたもの)の自己相関関数の値が、オーディオ信号の対応するサブバンドオーディオ信号についての自己相関情報によって示される自己相関値と実質的に一致するように決定されてもよい。これは、デコーダが、エンコーダによって行われるのと同じ方法で、サブバンドオーディオ信号の自己相関関数を決定できることを意味し得る。これは、平坦化、ウィンドウ処理及び正規化のいずれか、一部又は全てを含んでもよい。いくつかの実装では、再構成オーディオ信号は、再構成サブバンドオーディオ信号の複数のサブバンド信号(又は再構成サブバンドオーディオ信号から生成されたもの)のそれぞれについての自己相関情報が、オーディオ信号の対応するサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)についての自己相関情報と実質的に一致するように決定されてもよい。例えば、再構成オーディオ信号は、再構成オーディオ信号のサブバンドオーディオ信号(又は再構成オーディオ信号から生成されたもの)毎に、再構成オーディオ信号のサブバンド信号の自己相関関数の自己相関値及びラグ値(例えば、遅延値)が、例えば、オーディオ信号の対応するサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)についての自己相関情報によって示される自己相関値及びラグ値と実質的に一致するように決定されてもよい。これは、デコーダが、エンコーダによって行われるのと同じ方法で、再構成オーディオ信号のサブバンド信号毎に自己相関情報(すなわち、ラグ値及び自己相関値)を決定できることを意味し得る。ここで、実質的に一致するという用語は、例えば、所定のマージンまで一致することを意味してもよい。符号化表現が波形情報を含むこれらの実装では、再構成オーディオ信号は、波形情報に更に基づいて決定されてもよい。サブバンドオーディオ信号は、例えば、適用可能なオーディオ信号(すなわち、エンコーダ側の元のオーディオ信号又はデコーダ側の再構成オーディオ信号)のスペクトル分解によって取得されてもよく、或いは、適用可能なオーディオ信号を平坦化してウィンドウ処理してその後にスペクトル分解することによって取得されてもよい。
【0016】
したがって、デコーダは、符号化されたオーディオ信号の符号化表現h(x)から導出された少なくとも1つの条件を満たすか、或いは、符号化表現h(z)が元のオーディオ信号xの符号化表現h(x)と実質的に一致する再構成オーディオ信号zを検出することを試みる、分析による合成手法(synthesis by analysis approach)に従って動作すると言われてもよく、ここで、hはエンコーダによって使用される符号化マップである。言い換えると、デコーダは、
【0017】
【数1】
のように復号マップdを検出すると言われてもよい。認識されるように、このような分析による合成手法は、デコーダが再現することを試みる符号化表現が、本開示において定義されるようなスペクトルエンベロープ及び自己相関情報を含む場合、元のオーディオ信号に知覚的に非常に近い結果を生じる。
【0018】
いくつかの実施形態では、再構成オーディオ信号は、再構成オーディオ信号についての初期候補から出発し、各反復時にそれぞれの中間の再構成オーディオ信号を生成する反復手順で決定されてもよい。各反復において、次の反復のための中間の再構成オーディオ信号を取得するために、更新マップが中間の再構成オーディオ信号に適用されてもよい。更新マップは、オーディオ信号の中間の再構成のサブバンドオーディオ信号(又は中間の再構成から生成されたもの)の自己相関関数が、オーディオ信号の対応するサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)についての自己相関情報から導出された条件に近づくように、及び/又は再構成オーディオ信号のサブバンドオーディオ信号(又は再構成オーディオ信号から生成されたもの)の測定された信号電力と、スペクトルエンベロープによって示されるオーディオ信号の対応するサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)の信号電力との間の差分が、或る反復から次の反復へと低減されるように構成されてもよい。自己相関情報とスペクトルエンベロープとの双方が考慮される場合、条件が満たされる程度についての適切な差分メトリックと、サブバンドオーディオ信号についての信号電力の間の差分とが定義されてもよい。いくつかの実装では、更新マップは、中間の再構成オーディオ信号の符号化表現とオーディオ信号の符号化表現との間の差分が、或る反復から次の反復へと連続的に小さくなるように構成されてもよい。このため、符号化表現(スペクトルエンベロープ及び/又は自己相関情報を含む)についての適切な差分メトリックが定義されて使用されてもよい。中間の再構成オーディオ信号のサブバンドオーディオ信号(又は中間の再構成オーディオ信号から生成されたもの)の自己相関関数は、オーディオ信号のサブバンドオーディオ信号(又はオーディオ信号から生成されたもの)についてエンコーダが行うのと同じ方法で決定されてもよい。同様に、中間の再構成オーディオ信号の符号化表現は、中間の再構成オーディオ信号が、オーディオ信号の符号化表現をもたらしたのと同じ符号化技術を受けた場合に取得される符号化表現でもよい。
【0019】
このような反復方法は、上記の分析による合成手法の簡単であるが効率的な実装を可能にする。
【0020】
いくつかの実施形態では、スペクトルエンベロープ及び自己相関情報に基づいて再構成オーディオ信号を決定することは、オーディオ信号のスペクトルエンベロープ及びオーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての自己相関情報を入力として受信し、再構成オーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含んでもよい。符号化表現が波形情報を含むこれらの実装では、機械学習に基づく生成モデルは、波形情報を入力として更に受信してもよい。これは、機械学習に基づく生成モデルがまた、波形情報を使用して条件付け/訓練されてもよいことを意味する。
【0021】
このような機械学習に基づく方法は、上記の分析による合成手法の非常に効率的な実装を可能にし、元のオーディオ信号に知覚的に非常に近い再構成オーディオ信号を達成できる。
【0022】
本開示の他の態様は、オーディオ信号を符号化するためのエンコーダに関する。エンコーダは、プロセッサと、プロセッサに結合されたメモリとを含んでもよく、プロセッサは、本開示を通じて記載される符号化方法のうちいずれか1つの方法のステップを実行するように適合される。
【0023】
本開示の他の態様は、オーディオ信号の符号化表現からオーディオ信号を復号するためのデコーダに関する。デコーダは、プロセッサと、プロセッサに結合されたメモリとを含んでもよく、プロセッサは、本開示を通じて記載される復号方法のうちいずれか1つの方法のステップを実行するように適合される。
【0024】
他の態様は、命令を実行すると、本開示を通じて記載される方法のうちいずれかの方法のステップをコンピュータに実行させる命令を含むコンピュータプログラムに関する。
【0025】
本開示の他の態様は、上記の態様によるコンピュータプログラムを記憶したコンピュータ読み取り可能記憶媒体に関する。
【図面の簡単な説明】
【0026】
ここで、添付の図面を参照して、本開示の例示的な実施形態について例示のみとして説明する。
図1】本開示の実施形態によるエンコーダの例を概略的に示すブロック図である。
図2】本開示の実施形態による符号化方法の例を示すフローチャートである。
図3図2の符号化方法のフレームワークに存在し得る波形の例を概略的に示す。
図4】復号機能を決定するための分析による合成手法の例を概略的に示すブロック図である。
図5】本開示の実施形態による復号方法の例を示すフローチャートである。
図6図5の復号方法におけるステップの例を示すフローチャートである。
図7】本開示の実施形態によるエンコーダの他の例を概略的に示すブロック図である。
図8】本開示の実施形態によるデコーダの例を概略的に示すブロック図である。
【発明を実施するための形態】
【0027】
[はじめに]
高品質オーディオコーディングシステムは、一般的に、オーディオコンテンツをコーディングするために比較的大量のデータを必要とし、すなわち、比較的低いコーディング効率を有する。ノイズ充填及び高周波数再生のようなツールの開発は、波形記述データがより小さい制御データのセットに部分的に置き換えられることができることを示しているが、どの高品質オーディオコーデックも、主に知覚的に関連する特徴に依存していない。しかし、増加した計算能力及び機械学習の分野における最近の進歩は、主に任意のエンコーダフォーマットからオーディオを復号することの実行可能性を増加させている。本開示は、このようなエンコーダフォーマットの例を提案する。
【0028】
大まかに言えば、本開示は、聴覚分解能によってもたらされるサブバンドエンベロープ及び追加情報に基づく符号化フォーマットを提案する。追加情報は、サブバンド当たり(且つ更新ステップ当たり)単一の自己相関値及び単一のラグ値を含む。エンベロープは、第1の更新レートで計算でき、追加情報は、第2の更新レートでサンプリングできる。符号化フォーマットの復号は、例えば、反復又は機械学習に基づく技術によって実装できる、分析による合成手法(synthesis by analysis approach)を使用して進行できる。
【0029】
[符号化]
本開示において提案される符号化フォーマット(符号化表現)は、サブバンド(及び更新ステップ)当たり1つのラグを提供するので、マルチラグ(multi-lag)フォーマットと呼ばれてもよい。図1は、本開示の実施形態による符号化フォーマットを生成するためのエンコーダ100の例を概略的に示すブロック図である。
【0030】
エンコーダ100は、符号化されるべきオーディオ信号に対応するターゲットサウンド10を受信する。オーディオ信号10は、エンコーダによって処理される複数の連続部分又は部分的に重複した部分(例えば、サンプル、セグメント、フレーム等のグループ)を含んでもよい。オーディオ信号10は、フィルタバンク15によって、対応する周波数サブバンド内の複数のサブバンドオーディオ信号20にスペクトル分解される。フィルタバンク15は、バンドパスフィルタ(bandpass filter, BPF)のフィルタバンクでもよく、例えば、これは複素値のBPFでもよい。オーディオでは、人間の聴覚系に関連した周波数分解能を有するBPFのフィルタバンクが自然に使用される。
【0031】
オーディオ信号10のスペクトルエンベロープ30は、エンベロープ抽出ブロック25で抽出される。サブバンド毎に、入力サウンド信号から生じる蝸牛に対する聴覚エンベロープ又は励起パターンの基本モデルとして、所定の時間ステップで電力が測定され、それにより、オーディオ信号10のスペクトルエンベロープ30を決定する。すなわち、スペクトルエンベロープ30は、複数のサブバンドオーディオ信号20に基づいて、例えば、複数のサブバンドオーディオ信号20のそれぞれについてそれぞれの信号電力を測定(例えば、推定、計算)することによって決定されてもよい。しかし、スペクトルエンベロープ30は、例えば、線形予測符号化(Linear Predictive Coding, LPC)記述のようないずれか適切な代替ツールによって決定されてもよい。特に、いくつかの実装では、スペクトルエンベロープは、フィルタバンク15によるスペクトル分解の前に、オーディオ信号から決定されてもよい。
【0032】
任意選択で、抽出されたスペクトルエンベロープ30は、ダウンサンプリングブロック35においてダウンサンプリングを受けることができ、ダウンサンプリングされたスペクトルエンベロープ40(又はスペクトルエンベロープ30)は、オーディオ信号10(の適用可能な部分)の符号化フォーマット又は符号化表現の一部として出力される。
【0033】
スペクトルエンベロープのみから再構成された再構成信号は、依然として音質が不足している可能性がある。この問題に対処するために、本開示は、劇的に改善した音質をもたらすサブバンド当たりの(場合によってはエンベロープ平坦化された)信号の自己相関関数の単一の値(すなわち、縦座標及び横座標)を含むことを提案する。このため、サブバンドオーディオ信号20は、任意選択で除算器45で平坦化され(エンベロープ平坦化され)、自己相関ブロック55に入力される。自己相関ブロック55は、その入力信号の自己相関関数(autocorrelation function, ACF)を決定し、それぞれのサブバンドオーディオ信号20のACFに基づいて、サブバンドオーディオ信号20のそれぞれについて(すなわち、サブバンドのそれぞれについて)、ぞれぞれの自己相関情報50を出力する。所与のサブバンドについての自己相関情報50は、ラグ値T及び自己相関値ρ(T)の表現50を含む(例えば、これらから構成される)。すなわち、サブバンド毎に、符号化表現の一部である自己相関情報50として、ラグTの1つの値及び対応する(場合によっては正規化された)自己相関値(ACF値)ρ(T)が出力される(例えば、送信される)。ここで、ラグ値Tは、ACFが局所最大値に達する遅延値に対応し、自己相関値ρ(T)は、この局所最大値に対応する。言い換えると、所与のサブバンドについての自己相関情報は、ACFの局所最大値の遅延値(すなわち、横座標)及び自己相関値(すなわち。縦座標)を含んでもよい。
【0034】
したがって、オーディオ信号の符号化表現は、オーディオ信号のスペクトルエンベロープと、サブバンドのそれぞれについての自己相関情報とを含む。所与のサブバンドについての自己相関情報は、ラグ値T及び自己相関値ρ(T)の表現を含む。符号化表現は、エンコーダの出力に対応する。いくつかの実装では、符号化表現は、オーディオ信号の波形及び/又はサブバンドオーディオ信号の1つ以上の波形に関連する波形情報を更に含んでもよい。
【0035】
上記の手順によって、入力オーディオ信号をその符号化表現にマッピングする符号化関数(又は符号化マップ)hが定義される。
【0036】
上記のように、サブバンドオーディオ信号についてのスペクトルエンベロープ及び自己相関情報が決定され、異なる更新レート(サンプルレート)で出力されてもよい。例えば、スペクトルエンベロープは、第1の更新レートで決定でき、複数のサブバンドオーディオ信号についての自己相関情報は、第1の更新レートとは異なる第2の更新レートで決定できる。(全てのサブバンドについての)スペクトルエンベロープの表現及び自己相関情報の表現は、それぞれの更新レート(サンプルレート)でビットストリームに書き込まれてもよい。この場合、符号化表現は、エンコーダによって出力されるビットストリームの一部に関連してもよい。これに関して、各時点において、現在のスペクトルエンベロープ及び現在のセットの自己相関情報(サブバンド毎に1つ)がビットストリームによって定義され、符号化表現とすることができる点に留意すべきである。代替として、(全てのサブバンドについての)スペクトルエンベロープの表現及び自己相関情報の表現は、エンコーダのそれぞれの出力ユニットにおいてそれぞれの更新レートで更新されてもよい。この場合、エンコーダの各出力ユニット(例えば、符号化フレーム)は、符号化表現のインスタンスに対応する。スペクトルエンベロープ及び自己相関情報の表現は、それぞれの更新レートに依存して、一連の連続する出力ユニットの間で同じでもよい。
【0037】
好ましくは、第1の更新レートは、第2の更新レートよりも高い。一例では、第1の更新レートR1はR1=1/(2.5ms)でもよく、第2の更新レートR2はR2=1/(20ms)でもよく、その結果、スペクトルエンベロープの更新された表現は2.5ms毎に出力されるが、自己相関情報の更新された表現は20ms毎に出力される。オーディオ信号の部分(例えば、フレーム)に関して、スペクトルエンベロープは、第nの部分毎(例えば、一部分毎)に決定されてもよいが、自己相関情報は、第mの部分(m>n)毎に決定されてもよい。
【0038】
符号化表現は、特定のフレーム長のフレームのシーケンスとして出力されてもよい。他の要因の中でも、フレーム長は、第1及び/又は第2の更新レートに依存してもよい。L1=1/R1を介して第1の更新レートR1(例えば、1/(2.5ms))に対応する第1の期間L1(例えば、2.5ms)の長さを有するフレームを考慮すると、このフレームは、スペクトルエンベロープの1つの表現と、1つのセットの自己相関情報の表現(サブバンドオーディオ信号当たり1つ)とを含む。それぞれ1/(2.5ms)及び1/(20ms)の第1及び第2の更新レートに関して、自己相関情報は、符号化表現の8つの連続フレームについてそれぞれ同じである。一般的に、R1及びR2が整数比を有するように適切に選択されると仮定すると、自己相関情報は、符号化表現のR1/R2個の連続フレームについて同じである。他方、L2=1/R2を介して第2の更新レートR2(例えば、1/(20ms))に対応する第2の期間L2(例えば、20ms)の長さを有するフレームを考慮すると、このフレームは、1つのセットの自己相関情報の表現及びスペクトルエンベロープのR1/R2個(例えば、8つ)の表現を含む。
【0039】
いくつかの実装では、異なる更新レートが異なるサブバンドにも適用されてもよく、すなわち、異なるサブバンドオーディオ信号についての自己相関情報が、異なる更新レートで生成されて出力されてもよい。
【0040】
図2は、本開示の実施形態による符号化方法200の例を示すフローチャートである。当該方法は、上記のエンコーダ100によって実装されてもよく、オーディオ信号を入力として受信する。
【0041】
ステップS210において、複数のサブバンドオーディオ信号が、オーディオ信号に基づいて生成される。これは、オーディオ信号をスペクトル分解することを含んでもよく、この場合、このステップは、上記のフィルタバンク15の動作に従って実行されてもよい。代替として、これは、オーディオ信号をスペクトル的及び/又は時間的に平坦化し、任意選択で、ウィンドウ関数によって平坦化されたオーディオ信号をウィンドウ処理し、結果の信号を複数のサブバンドオーディオ信号にスペクトル分解することを含んでもよい。
【0042】
ステップS220において、オーディオ信号のスペクトルエンベロープが決定される(例えば、計算される)。このステップは、上記のエンベロープ抽出ブロック25の動作に従って実行されてもよい。
【0043】
ステップS230において、サブバンドオーディオ信号毎に、サブバンドオーディオ信号のACFに基づいてサブバンドオーディオ信号についての自己相関情報が決定される。このステップは、上記の自己相関ブロック55の動作に従って実行されてもよい。
【0044】
ステップS240において、オーディオ信号の符号化表現が生成される。符号化表現は、オーディオ信号のスペクトルエンベロープの表現と、複数のサブバンドオーディオ信号のそれぞれについての自己相関情報の表現とを含む。
【0045】
次に、方法200のステップの実装の詳細の例について説明する。
【0046】
例えば、上記のように、複数のサブバンドオーディオ信号を生成することは、例えばフィルタバンクを用いて、オーディオ信号をスペクトル分解することを含んでもよい(或いは意味してもよい)。この場合、所与のサブバンドオーディオ信号についての自己相関関数を決定することは、サブバンドオーディオ信号のサブバンドエンベロープを決定することを含んでもよい。サブバンドエンベロープは、サブバンドオーディオ信号の大きさの値を取ることによって決定されてもよい。ACF自体は、実数値の(エンベロープ平坦化後のウィンドウ処理された)サブバンド信号について計算されてもよい。
【0047】
サブバンドフィルタ応答が本質的に正の周波数でサポートされたフーリエ変換によって複素値になると仮定すると、サブバンド信号は複素値になる。次いで、サブバンドエンベロープは、複素値のサブバンド信号の大きさを取ることによって決定できる。このサブバンドエンベロープは、サブバンド信号と同じ数のサンプルを有し、依然として或る程度振動可能である。任意選択で、サブバンドエンベロープは、例えば、信号に沿って特定の長さ(例えば、2.5ms)の半分のシフト毎に、特定の長さ(例えば、長さ5ms、立ち上がりの2.5ms、立ち下がりの2.5ms)のセグメントにおけるエンベロープの三角ウィンドウ重み付け二乗和を計算し、次いで、このシーケンスの平方根を取ってダウンサンプリングされたサブバンドエンベロープを得ることによってダウンサンプリングできる。これは「rms envelope」の定義に対応すると言われてもよい。三角ウィンドウは、値1の一定のエンベロープが1のシーケンスを与えるように正規化できる。実数値のサブバンド信号の場合の半分の波の整流及びそれに続くローパスフィルタリングのように、サブバンドエンベロープを決定するための他の方法も同様に実現可能である。いずれの場合においても、サブバンドエンベロープは、サブバンド信号内のエネルギーに関する情報を(選択された更新レートで)伝達すると言える。
【0048】
次いで、サブバンドオーディオ信号は、サブバンドエンベロープに基づいてエンベロープ平坦化されてもよい。例えば、ACFデータが計算される微細構造の信号(キャリア)に到達するために、ダウンサンプリングされた値を線形補間し、元の(複素数値の)サブバンド信号をこの線形補間されたエンベロープで分割することによって、新たな完全なサンプルレートのエンベロープ信号が作成されてもよい。
【0049】
次いで、エンベロープ平坦化されたサブバンドオーディオ信号は、適切なウィンドウ関数によってウィンドウ処理されてもよい。最後に、ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号のACFが決定される(例えば、計算される)。いくつかの実装では、所与のサブバンドオーディオ信号についてACFを決定することは、ウィンドウ関数の自己相関関数によって、ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号のACFを正規化することを更に含んでもよい。
【0050】
図3において、上側の曲線310は、ACFを計算するために使用される、ウィンドウ処理後のエンベロープ平坦化されたサブバンド信号の実数値を示す。下側の実線の曲線320は、複素ACFの実数値を示す。
【0051】
ここでの主な概念は、(複素数値の)サブバンドフィルタ(すなわち、フィルタバンクの対応するBPF)のインパルス応答の絶対値のACFの絶対値より上にある局所最大値の中から、サブバンド信号のACFの最大の局所最大値を見つけることである。複素数値のサブバンド信号のACFについて、この時点でACFの実数値が考慮されてもよい。入力信号の特性ではなく、サブバンドの中心周波数に関連するピッキングラグ(picking lag)を回避するために、インパルス応答の絶対値のACFより上の最大の局所最大値を見つけることが必要になり得る。最後の調整として、最大値は、(例えば、ゼロ遅延の自己相関値が1に正規化されるように、サブバンド信号のACF自体が正規化されると仮定して)サブバンドACFウィンドウについて、使用されるウィンドウ関数のACFの値によって除算されてもよい。これは、0と1との間の間隔のより良好な使用をもたらし、ここで、ρ(T)=1は最大のトーナリティである。
【0052】
したがって、サブバンドオーディオ信号のACFに基づいて所与のサブバンドオーディオ信号についての自己相関情報を決定することは、サブバンドオーディオ信号のACFを、サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値のACFと比較することを更に含んでもよい。サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値のACFは、図3の下側における実線の曲線330によって示される。次いで、自己相関情報は、サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値のACFより上のサブバンド信号のACFの最高の局所最大値に基づいて決定される。図3の下側において、ACFの局所最大値は十字によって示され、それぞれのバンドパスのインパルス応答の絶対値のACFよりも上のサブバンド信号のACFの選択された最高の局所最大値は、円によって示される。任意選択で、(例えば、ゼロ遅延の自己相関値が1に正規化されるように、ACF自体が正規化されていると仮定して)ACFの選択された局所最大値は、ウィンドウ関数のACFのACFの値によって正規化されてもよい。ACFの正規化後の選択された最高の局所最大値は、図3の下側のアスタリスクによって示され、破線の曲線340は、ウィンドウ関数のACFを示す。
【0053】
この段階で決定される自己相関情報は、サブバンドオーディオ信号のACFの選択された(正規化された)最高の局所最大値の自己相関値及び遅延値(すなわち、縦座標及び横座標)を含んでもよい。
【0054】
同様の符号化フォーマットは、LPCに基づくボコーダのフレームワークで定義されてもよい。また、この場合、自己相関情報は、少なくとも或る程度のスペクトル的及び/又は時間的な平坦化によって影響されるサブバンド信号から抽出される。上記の例とは異なり、これは、(知覚的に重み付けされた)LPC残差を作成し、これをウィンドウ処理し、これをサブバンドに分解して、複数のサブバンドオーディオ信号を取得することによって行われる。これに続いて、ACFを計算し、各サブバンドオーディオ信号のラグ値及び自己相関値を抽出する。
【0055】
例えば、複数のサブバンドオーディオ信号を生成することは、(例えば、LPCフィルタを使用して、オーディオ信号から知覚的に重み付けされたLPC残差を生成することによって)オーディオ信号にスペクトル的及び/又は時間的な平坦化を適用することを含んでもよい。これに続いて、ウィンドウ関数によって平坦化されたオーディオ信号をウィンドウ処理し、ウィンドウ処理後の平坦化されたオーディオ信号を複数のサブバンドオーディオ信号にスペクトル分解してもよい。上記のように、時間的及び/又はスペクトル的な平坦化の結果は、知覚的に重み付けされたLPC残差に対応してもよく、次いで、これがウィンドウ処理及びサブバンドへのスペクトル分解を受ける。知覚的に重み付けされたLPC残差は、例えば、ピンク(pink)のLPC残差でもよい。
【0056】
[復号]
本開示は、分析による合成手法に基づくオーディオ復号に関する。最も抽象的なレベルでは、元のオーディオ信号xがy=h(x)によって表現されるように、信号から知覚的に動機付けられるドメインへの符号化マップhが与えられると仮定される。最良の場合、知覚ドメインにおける最小二乗のような簡単な歪みの尺度は、聞き手の集団によって測定される主観的差異の良好な予測になる。
【0057】
残された1つの問題は、(符号化されたバージョン及び復号されたバージョンの)yからオーディオ信号z=d(y)にマッピングするデコーダqを設計することである。このため、「与えられた画像を生成するのに最も近くなる波形を見つける」ことを含む、分析による合成の概念が使用できる。目標は、z及びxが同じように聞こえることであり、その結果、デコーダは逆問題h(z)=y=h(x)を解くべきである。マップの構成に関して、dはhの左逆数に近似するべきであり、
【0058】
【数2】
を意味する。この逆問題は、多くの解を有するという意味で、しばしば特異な問題である。ビットレートにおけるかなりの節約を実現するための機会は、多数の異なる波形が同じサウンド印象を生み出すという観測にある。
【0059】
図4は、符号化関数(又は符号化マップ)hを与えられたとき、復号関数(又は復号マップ)dを決定するための分析による合成の例を概略的に示すブロック図である。元のオーディオ信号x,410は、符号化マップh,415を受け、符号化表現y,420を生じ、ここで、y=h(x)である。符号化表現yは、知覚ドメインにおいて定義されてもよい。目的は、符号化表現yを再構成オーディオ信号z,430にマッピングする復号関数(復号マッピング)d,425を見つけることであり、これは、符号化マッピングh,435を再構成オーディオ信号zに適用することが、符号化表現y=h(x)と実質的に一致する符号化表現h(z),440を生じるという特性を有する。ここで、「実質的に一致する」とは、例えば、「所定のマージンまで一致する」ことを意味してもよい。言い換えると、符号化マップhを与えられたとき、目的は、
【0060】
【数3】
のような復号マップdを見つけることである。
【0061】
図5は、本開示の実施形態による、分析による合成手法に沿った復号方法500の例を示すフローチャートである。方法500は、(元の)オーディオ信号の符号化表現からオーディオ信号を復号する方法である。符号化表現は、元のオーディオ信号のスペクトルエンベロープの表現と、元のオーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての自己相関情報の表現とを含むと仮定する。所与のサブバンドオーディオ信号についての自己相関情報は、サブバンドオーディオ信号のACFに基づく。
【0062】
ステップS510において、オーディオ信号の符号化表現が受信される。
【0063】
ステップS520において、スペクトルエンベロープ及び自己相関情報が、オーディオ信号の符号化表現から抽出される。
【0064】
ステップS530において、再構成オーディオ信号は、スペクトルエンベロープ及び自己相関情報に基づいて決定される。ここで、再構成オーディオ信号は、再構成サブバンドオーディオ信号の複数のサブバンド信号のそれぞれの自己相関関数が、オーディオ信号の対応するサブバンドオーディオ信号についての自己相関情報から導出された条件を(実質的に)満たすように決定される。この条件は、例えば、再構成オーディオ信号のサブバンドオーディオ信号毎に、オーディオ信号の対応するサブバンドオーディオ信号についての自己相関情報によって示されるラグ値(例えば、遅延値)において、再構成オーディオ信号のサブバンドオーディオ信号のACFの値が、オーディオ信号の対応するサブバンドオーディオ信号についての自己相関情報によって示される自己相関値と実質的に一致することでもよい。これは、デコーダが、エンコーダによって行われるのと同じ方法で、サブバンドオーディオ信号のACFを決定できることを意味し得る。これは、平坦化、ウィンドウ処理及び正規化のいずれか、一部又は全部を含んでもよい。1つの実装では、再構成オーディオ信号は、再構成オーディオ信号のサブバンドオーディオ信号毎に、再構成オーディオ信号のサブバンド信号のACFの自己相関値及びラグ値(例えば、遅延値)が、元のオーディオ信号の対応するサブバンドオーディオ信号の自己相関情報によって示される自己相関値及びラグ値と実質的に一致するように決定されてもよい。これは、デコーダが、エンコーダによって行われるのと同じ方法で、再構成オーディオ信号のサブバンド信号毎に自己相関情報を決定できることを意味し得る。符号化表現が波形情報も含むこれらの実装では、再構成オーディオ信号は、波形情報に更に基づいて決定されてもよい。再構成オーディオ信号のサブバンドオーディオ信号は、エンコーダによって行われるのと同じ方法で生成されてもよい。例えば、これは、スペクトル分解、又は平坦化、ウィンドウ処理及びスペクトル分解のシーケンスを含んでもよい。
【0065】
好ましくは、ステップS530における再構成オーディオ信号の決定はまた、元のオーディオ信号のスペクトルエンベロープも考慮に入れる。次いで、再構成オーディオ信号は、再構成サブバンドオーディオ信号のサブバンドオーディオ信号毎に、再構成オーディオ信号のサブバンドオーディオ信号の測定された(例えば、推定又は計算された)信号電力が、スペクトルエンベロープによって示される元のオーディオ信号の対応するサブバンドオーディオ信号についての信号電力と実質的に一致するように、更に決定されてもよい。
【0066】
上記から分かるように、提案の方法500は、元のオーディオ信号xの符号化表現y=h(x)から導出された少なくとも1つの条件を(実質的に)満たす再構成オーディオ信号zを見つることを試みるという点で、分析による合成手法によってもたらされたと言える。ここで、hはエンコーダによって使用される符号化マップである。いくつかの実装では、提案の方法は、符号化表現h(z)が元のオーディオ信号xの符号化表現y=h(x)と実質的に一致する再構成オーディオ信号zを見つることを試みるという点で、分析による合成手法に従って動作すると言うことさえできる。言い換えると、復号方法は、
【0067】
【数4】
のような復号マップdを見つけると言われてもよい。次に、方法500の2つの非限定的な実装例について説明する。
【0068】
[実装例1:パラメトリック合成又は信号反復毎]
逆問題h(z)=yは、h(zn)がh(zn-1)よりもyに近くなるようにzn-1を修正する更新マップzn=f(zn-1,y)を前提とする反復方法によって解決できる。例えば、反復の開始点(すなわち、再構成オーディオ信号のための初期候補)はランダムなノイズ信号(例えば、ホワイトノイズ)でもよく、或いは、オーディオ信号の符号化表現に基づいて(例えば、手作業で作成された最初の推測として)決定されてもよい。後者の場合、再構成オーディオ信号のための初期候補は、複数のサブバンドオーディオ信号についてのスペクトルエンベロープ及び/又は自己相関情報に基づいて行われた学習による推測に関連してもよい。符号化表現が波形情報を含むこれらの実装では、学習による推測は、波形情報に更に基づいて行われてもよい。
【0069】
より詳細には、この実装例における再構成オーディオ信号は、再構成オーディオ信号のための初期候補から出発し、各反復時にそれぞれの中間の再構成オーディオ信号を生成する反復手順で決定される。各反復において、次の反復のための中間の再構成オーディオ信号を取得するために、更新マップが中間の再構成オーディオ信号に適用される。更新マップは、中間の再構成オーディオ信号の符号化表現と元のオーディオ信号の符号化表現との間の差分が、或る反復から次の反復へと連続的に小さくなるように選択される。このため、符号化表現(例えば、スペクトルエンベロープ、自己相関情報)のための適切な差分メトリックが定義され、差分を評価するために使用されてもよい。中間の再構成オーディオ信号の符号化表現は、中間の再構成オーディオ信号が、オーディオ信号の符号化表現をもたらすのと同じ符号化方式を受けた場合に取得される符号化表現でもよい。
【0070】
手順が(複数の)自己相関情報から導出された少なくとも1つの条件を満たす再構成オーディオ信号を探索する場合、更新マップは、オーディオ信号の中間の再構成のサブバンドオーディオ信号の自己相関関数が、オーディオ信号の対応するサブバンドオーディオ信号につての自己相関情報から導出されたそれぞれの条件を満たすように、及び/又は、再構成オーディオ信号のサブバンドオーディオ信号の測定された信号電力とスペクトルエンベロープによって示されるオーディオ信号の対応するサブバンドオーディオ信号についての信号電力との間の差分が、或る反復から次の反復へと低減されるように選択されてもよい。自己相関情報とスペクトルエンベロープとの双方が考慮される場合、条件が満たされる程度について適切な差分メトリックと、サブバンドオーディオ信号についての信号電力の間の差分とが定義されてもよい。
【0071】
[実装例2:機械学習に基づく生成モデル]
現代の機械学習方法によって可能になった他の選択肢は、データyで条件付けされたオーディオxのために機械学習に基づく生成モデル(或いは、略して生成モデル)を訓練することである。すなわち、(x,y)(ここで、y=h(x)である)の大量の集合の例が与えられたとき、yからxへのパラメトリック条件付き分布p(x|y)が訓練される。次いで、復号アルゴリズムは、分布z~p(x|y)からのサンプリングで構成されてもよい。
【0072】
この選択肢は、h(x)が音声ボコーダであり、p(x|y)が逐次生成モデルサンプル再帰型ニューラルネットワーク(Recurrent Neural Network, RNN)によって定義される場合に特に有利であることが分かっている。しかし、変分オートエンコーダ(variational autoencoder)又は敵対的生成モデル(generative adversarial model)のような他の生成モデルも、同様にこのタスクに関連する。したがって、限定を意図することなく、機械学習に基づく生成モデルは、再帰型ニューラルネットワーク、変分オートエンコーダ又は敵対的生成モデル(例えば、敵対的生成ネットワーク(Generative Adversarial Network, GAN)のうち1つとすることができる。
【0073】
この実装例では、スペクトルエンベロープ及び自己相関情報に基づいて再構成オーディオ信号を決定することは、オーディオ信号のスペクトルエンベロープと、オーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての自己相関情報とを入力として受信し、再構成オーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む。符号化表現が波形情報も含む。これらの実装では、機械学習に基づく生成モデルは、波形情報を入力として更に受信してもよい。
【0074】
上記のように、機械学習に基づく生成モデルは、オーディオ信号の符号化表現y及び対応するオーディオ信号xをそれぞれの確率pに関連付けるパラメトリック条件付き分布p(x|y)を含んでもよい。次いで、再構成オーディオ信号を決定することは、オーディオ信号の符号化表現のためにパラメトリック条件付き分布p(x|y)からサンプリングすることを含んでもよい。
【0075】
訓練段階において、復号の前に、機械学習に基づく生成モデルは、複数のオーディオ信号及びオーディオ信号の対応する符号化表現のデータセットに対して条件付け/訓練されてもよい。符号化表現が波形情報も含む場合、機械学習に基づく生成モデルもまた、波形情報を使用して条件付け/訓練されてもよい。
【0076】
図6は、図5の復号方法500におけるステップS530についての例示的な実装600を示すフローチャートである。特に、実装600は、ステップS530のサブバンド毎の実装に関する。
【0077】
ステップ610において、複数の再構成サブバンドオーディオ信号が、スペクトルエンベロープ及び自己相関情報に基づいて決定される。ここで、複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、再構成サブバンドオーディオ信号の自己相関関数が、オーディオ信号の対応するサブバンドオーディオ信号についての自己相関情報から導出された条件を満たすように決定される。いくつかの実装では、複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、再構成サブバンドオーディオ信号についての自己相関情報が、対応するサブバンドオーディオ信号についての自己相関情報と実質的に一致するように決定される。
【0078】
好ましくは、ステップS610における複数の再構成サブバンドオーディオ信号の決定は、元のオーディオ信号のスペクトルエンベロープも考慮に入れる。次いで、複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、再構成サブバンドオーディオ信号の測定された(例えば、推定された、計算された)信号電力が、スペクトルエンベロープによって示される対応するサブバンドオーディオ信号についての信号電力と実質的に一致するように更に決定される。
【0079】
ステップS620において、再構成オーディオ信号が、スペクトル合成によって複数の再構成サブバンドオーディオ信号に基づいて決定される。
【0080】
上記の実装例1及び2は、ステップS530のサブバンド毎の実装にも適用されてもよい。実装例1では、それぞれの再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号のための初期候補から出発し、各反復においてそれぞれの中間の再構成サブバンドオーディオ信号を生成する反復手順で決定されてもよい。各反復において、中間の再構成サブバンドオーディオ信号についての自己相関情報と対応するサブバンドオーディオ信号についての自己相関情報との間の差分が、或る反復から次の反復へと連続的に小さくなるように、或いは、再構成サブバンドオーディオ信号が、オーディオ信号のそれぞれの対応するサブバンドオーディオ信号についての自己相関情報から導出されたそれぞれの条件をより良好に満たすように、次の反復のための中間の再構成サブバンドオーディオ信号を取得するために、更新マップが中間の再構成サブバンドオーディオ信号に適用されてもよい。
【0081】
また、この時点でスペクトルエンベロープも考慮されてもよい。すなわち、更新マップは、サブバンドオーディオ信号のそれぞれの信号電力の間の(合同の)差分及び自己相関情報のそれぞれの項目の間の(合同の)差分が連続的に小さくなるようなものでもよい。これは、(合同の)差分を評価するための適切な差分メトリックの定義を意味してもよい。その他に、実装例1について上記に与えられたものと同様の説明がこの場合に適用されてもよい。
【0082】
実装例2をステップS530のサブバンド毎の実装に適用するとき、スペクトルエンベロープ及び自己相関情報に基づいて複数の再構成サブバンドオーディオ信号を決定することは、オーディオ信号のスペクトルエンベロープ及びオーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての自己相関情報を入力として受信し、複数の再構成サブバンドオーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含んでもよい。その他に、実装例2について上記に与えられたものと同様の説明がこの場合に適用されてもよい。
【0083】
本開示は、本開示を通じて記載される符号化方法を実行でき且つ実行するように適合された、オーディオ信号を符号化するためのエンコーダに更に関する。このようなエンコーダ700の例が、ブロック図の形式で図7に概略的に示されている。エンコーダ700は、プロセッサ710と、プロセッサ710に結合されたメモリ720とを含む。プロセッサ710は、本開示を通じて記載される符号化方法のうちいずれか1つの方法のステップを実行するように適合される。このため、メモリ720は、プロセッサ710が実行するためのそれぞれの命令を含んでもよい。エンコーダ700は、符号化されるべき入力オーディオ信号740を受信するため、及び/又はオーディオ信号の符号化表現750を出力するためのインタフェース730を更に含んでもよい。
【0084】
本開示は、本開示を通じて記載される復号方法を実行でき且つ実行するように適合された、オーディオ信号の符号化表現からオーディオ信号を復号するためのデコーダに更に関する。このようなデコーダ800の例が、ブロック図の形式で図8に概略的に示されている。デコーダ800は、プロセッサ810と、プロセッサ810に結合されたメモリ820とを含む。プロセッサ810は、本開示を通じて記載される復号方法のうちいずれか1つの方法のステップを実行するように適合される。このため、メモリ820は、プロセッサ810が実行するためのそれぞれの命令を含んでもよい。エンコーダ800は、復号されるべきオーディオ信号の入力符号化表現840を受信するため、及び/又は復号された(すなわち、再構成された)オーディオ信号850を出力するためのインタフェース830を更に含んでもよい。
【0085】
本開示は、命令を実行すると、本開示を通じて記載される符号化又は復号方法をコンピュータに実行させる命令を含むコンピュータプログラムに更に関する。
【0086】
最後に、本開示はまた、上記のコンピュータプログラムを記憶するコンピュータ読み取り可能記憶媒体に関する。
【0087】
[解釈]
特に断らない限り、以下の議論から明らかなように、本開示を通じて「処理」、「計算」、「演算」、「決定」、「分析」等のような用語を利用した議論は、電子量のような物理量として表されるデータを、物理量として同様に表される他のデータに操作及び/又は変換するコンピュータ若しくはコンピュータシステム又は同様の電子計算デバイスの動作及び/又はプロセスを示すことが認識される。
【0088】
同様に、「プロセッサ」という用語は、例えばレジスタ及び/又はメモリからの電子データを処理して、例えばレジスタ及び/又はメモリに記憶され得る他の電子データに変換するいずれかのデバイス又はデバイスの部分を示してもよい。「コンピュータ」又は「計算機」又は「計算プラットフォーム」は、1つ以上のプロセッサを含んでもよい。
【0089】
本明細書に記載の方法は、1つの例示的な実施形態において、1つ以上のプロセッサによって実行されたときに本明細書に記載の方法のうち少なくとも1つを実行する命令のセットを含むコンピュータ読み取り可能(機械読み取り可能とも呼ばれる)コードを受け入れる1つ以上のプロセッサによって実行可能である。行われるべきアクションを指定する命令のセット(順次又はその他のもの)を実行できる如何なるプロセッサも含まれる。したがって、1つの例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、及びプログラマブルDSPユニットのうち1つ以上を含んでもよい。処理システムは、メインRAM及び/又はスタティックRAM及び/又はROMを含むメモリサブシステムを更に含んでもよい。コンポーネントの間で通信するためのバスサブシステムが含まれてもよい。さらに、処理システムは、ネットワークによって結合されたプロセッサを有する分散処理システムでもよい。処理システムがディスプレイを必要とする場合、例えば、液晶ディスプレイ(liquid crystal display, LCD)又は陰極線管(cathode ray tube, CRT)ディスプレイのようなディスプレイが含まれてもよい。手動データ入力が必要とされる場合、処理システムはまた、キーボードのような英数字入力ユニット、マウスのようなポインティング制御デバイス等のうち1つ以上のような入力デバイスを含む。処理システムはまた、ディスクドライブユニットのような記憶システムを含んでもよい。いくつかの構成における処理システムは、サウンド出力デバイス及びネットワークインタフェースデバイスを含んでもよい。したがって、メモリサブシステムは、1つ以上のプロセッサによって実行されると、本明細書に記載の方法のうち1つ以上を実行させる命令のセットを含む、コンピュータ読み取り可能コード(例えば、ソフトウェア)を運ぶコンピュータ読み取り可能担体を含む。方法がいくつかの要素、例えば、いくつかのステップを含む場合、特に言及されない限り、このような要素の順序は暗示されない点に留意する。ソフトウェアは、ハードディスクに常駐してもよく、或いは、コンピュータシステムによるその実行中に、RAM及び/又はプロセッサ内に、完全に或いは少なくとも部分的に常駐してもよい。したがって、メモリ及びプロセッサはまた、コンピュータ読み取り可能コードを運ぶコンピュータ読み取り可能担体を構成する。さらに、コンピュータ読み取り可能担体は、コンピュータプログラム製品を形成してもよく、或いは、コンピュータプログラム製品に含まれてもよい。
【0090】
代替の例示的な実施形態において、1つ以上のプロセッサは、スタンドアロンデバイスとして動作するか、或いは、例えば、他のプロセッサに接続されてもよく、例えば、ネットワーク接続されてもよく、ネットワーク接続された配備において、1つ以上のプロセッサは、サーバ・ユーザネットワーク環境内のサーバ又はユーザマシンの容量で動作してもよく、或いは、ピアツーピア又は分散ネットワーク環境内のピアマシンとして動作してもよい。1つ以上のプロセッサは、パーソナルコンピュータ(personal computer, PC)、タブレットPC、パーソナルデジタルアシスタント(Personal Digital Assistant, PDA)、携帯電話、ウェブ機器、ネットワークルータ、スイッチ若しくはブリッジ、又は、その機械によって取られるべきアクションを指定する命令セット(順次又は他のもの)を実行できるいずれかの機械を形成してもよい。
【0091】
「機械」という用語はまた、本明細書で議論される方法論のうちいずれか1つ以上を実行するための命令のセット(又は複数のセット)を個別に又は共同で実行する機械のいずれかの集合を含むと解釈されるものとする点に留意する。
【0092】
したがって、本明細書に記載される方法のそれぞれの1つの例示的な実施形態は、命令のセット、例えば、1つ以上のプロセッサ、例えば、ウェブサーバ構成の一部である1つ以上のプロセッサ上で実行するためのコンピュータプログラムを運ぶコンピュータ読み取り可能担体の形式である。したがって、当業者によって認識されるように、本開示の例示的な実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、又はコンピュータ読み取り可能担体、例えば、コンピュータプログラム製品として具体化されてもよい。コンピュータ読み取り可能担体は、1つ以上のプロセッサ上で実行されると、プロセッサに方法を実施させる命令のセットを含むコンピュータ読み取り可能コードを運ぶ。したがって、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又はソフトウェア及びハードウェアの態様を組み合わせた例示的な実施形態の形式を取ってもよい。さらに、本開示は、媒体に具現化されたコンピュータ読み取り可能プログラムコードを運ぶ担体(例えば、コンピュータ読み取り可能記憶媒体上のコンピュータプログラム製品)の形式を取ってもよい。
【0093】
ソフトウェアは、ネットワークインタフェースデバイスを介してネットワーク上で更に送信又は受信されてもよい。例示的な実施形態において、担体は単一の媒体であるが、「担体」という用語は、命令の1つ以上のセットを記憶する単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含むように解釈されるべきである。「担体」という用語はまた、1つ以上のプロセッサによる実行のための命令のセットを記憶、符号化又は搬送でき、1つ以上のプロセッサに本開示の方法論のうちいずれか1つ以上を実行させるいずれかの媒体を含むと解釈されるものとする。担体は、限定されるものではないが、不揮発性媒体、揮発性媒体及び伝送媒体を含む多くの形式を取ってもよい。不揮発性媒体は、例えば、光ディスク、磁気ディスク及び光磁気ディスクを含む。揮発性媒体は、メインメモリのようなダイナミックメモリを含む。伝送媒体は、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。伝送媒体はまた、無線波及び赤外線データ通信の間に生成されるもののような、音波又は光波の形式を取ってもよい。例えば、「担体」という用語は、限定されるものではないが、固体メモリと、光及び磁気媒体に具現化されたコンピュータ製品と、少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能な伝搬信号を担持して、実行されたときに方法を実施する命令のセットを表す媒体と、1つ以上のプロセッサのうち少なくとも1つのプロセッサによって検出可能な伝搬信号を担持し、命令のセットを表すネットワーク内の伝送媒体とを含む。
【0094】
説明した方法のステップは、1つの例示的な実施形態において、ストレージに記憶された命令(コンピュータ読み取り可能コード)を実行する処理(例えば、コンピュータ)システムの適切なプロセッサ(又は複数のプロセッサ)によって実行されることが理解される。また、本開示は、いずれかの特定の実装又はプログラミング技術に限定されず、本開示は、本明細書に記載される機能を実装するためのいずれか適切な技術を使用して実施されてもよいことも理解される。本開示は、いずれか特定のプログラミング言語又はオペレーティングシステムに限定されない。
【0095】
本開示を通じて、「1つの例示的な実施形態」、「いくつかの例示的な実施形態」又は「例示的な実施形態」への言及は、例示的な実施形態に関連して記載された特定の特徴、構造又は特性が、本開示の少なくとも1つの例示的な実施形態に含まれることを意味する。したがって、本開示の様々な箇所に「1つの例示的な実施形態において」、「いくつかの例示的な実施形態において」又は「例示的な実施形態において」という語句が現れることは、必ずしも全て同じ例示的な実施形態を参照しているとは限らない。さらに、特定の特徴、構造又は特性は、本開示から当業者に明らかなように、1つ以上の例示的な実施形態において、いずれか適切な方法で組み合わされてもよい。
【0096】
本明細書中で使用される、共通の物体を記述するための順序形容詞である「第1の」、「第2の」、「第3の」等の使用は、単に、同様の物体の異なるインスタンスが参照されていることを示し、このように記述された物体が、時間的に、空間的に、ランク付けにおいて、或いは他の方法で、所与の順序になければならないことを意味することを意図しない。
【0097】
以下の特許請求の範囲及び本明細書中の説明において、「含んでいる(comprising)」、「含まれる(comprised of)」又は「含む(which comprises)」という用語のうちいずれか1つは、要素/特徴を少なくとも含むが、他の要素を除外しないことを意味するオープンな用語である。したがって、特許請求の範囲において使用される場合、「含む」という用語は、列挙される手段又は要素又はステップに限定されるものとして解釈されるべきではない。例えば、A及びBを含む装置は、要素A及びBのみで構成されるデバイスに限定されるべきではない。本明細書で使用される場合、「含んでいる(including)」又は「含む(which includes又はthat includes)」という用語のうちいずれか1つもまた、用語に関する要素/特徴を少なくとも含むが、他の用語を除外しないことを意味するオープンな用語である。したがって、「含む(including)」は、「含む(comprising)」と同義であり、同じものを意味する。
【0098】
開示の例示的な実施形態の上記の説明において、開示を合理化して様々な発明の態様の1つ以上の理解を助ける目的で、開示の様々な特徴が、場合によっては、単一の例示的な実施形態、図又はその説明にまとめられることが認識されるべきである。しかし、この開示の方法は、特許請求の範囲が各請求項において明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の態様は、単一の上記に開示された例示的な実施形態の全ての特徴よりも小さいものにある。したがって、説明に続く特許請求の範囲は、各請求項が本開示の別個の例示的な実施形態としてそれ自体で独立するように、本明細書に明示的に組み込まれる。
【0099】
さらに、本明細書に記載のいくつかの例示的な実施形態は、他の例示的な実施形態に含まれる他の特徴ではなく、一部の特徴を含むが、当業者に理解されるように、異なる例示的な実施形態の特徴の組み合わせは、本開示の範囲内にあり、異なる例示的な実施形態を形成することを意味する。例えば、以下の特許請求の範囲において、請求項に記載の例示的な実施形態のいずれかが、いずれかの組み合わせで使用できる。
【0100】
本明細書に提供される説明において、多数の特定の詳細が示されている。しかし、本開示の例示的な実施形態は、これらの特定の詳細なしに実施されてもよいことが理解される。他の場合にも、周知の方法、構造及び技術は、この説明の理解を曖昧にしないために詳細には示されていない。
【0101】
したがって、本開示の最良の態様であると考えられるものが記載されているが、当業者は、開示の真意から逸脱することなく、他の更なる修正が行われてもよいことを認識し、本開示の範囲に含まれる全てのこのような変更及び修正を請求することを意図する。例えば、上記の式は、単に使用され得る手順を表すものである。機能がブロック図から追加又は削除されてもよく、機能ブロックの間で動作が交換されてもよい。本開示の範囲内に記載の方法に対してステップが追加又は削除されてもよい。
【0102】
本開示の様々な態様及び実施形態は、以下に列挙された例示的な実施形態(EEE)から認識され得る。
【0103】
EEE1.オーディオ信号を符号化する方法であって、
オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成するステップと、
オーディオ信号のスペクトルエンベロープを決定するステップと、
サブバンドオーディオ信号毎に、サブバンドオーディオ信号の自己相関関数に基づいてサブバンドオーディオ信号についての自己相関情報を決定するステップと、
オーディオ信号の符号化表現を生成するステップであり、符号化表現は、オーディオ信号のスペクトルエンベロープの表現と、複数のサブバンドオーディオ信号についての自己相関情報の表現とを含む、ステップと
を含む方法。
【0104】
EEE2.スペクトルエンベロープは、複数のサブバンドオーディオ信号に基づいて決定される、EEE1に記載の方法。
【0105】
EEE3.所与のサブバンドオーディオ信号についての自己相関情報は、それぞれのサブバンドオーディオ信号についてのラグ値及び/又はそれぞれのサブバンドオーディオ信号についての自己相関値を含む、EEE1又は2に記載の方法。
【0106】
EEE4.ラグ値は、自己相関関数が局所最大値に達する遅延値に対応し、自己相関値は、この局所最大値に対応する、EEE3に記載の方法。
【0107】
EEE5.スペクトルエンベロープは、第1の更新レートで決定され、複数のサブバンドオーディオ信号についての自己相関情報は、第2の更新レートで決定され、第1の更新レート及び第2の更新レートは互いに異なる、EEE1乃至4のうちいずれか1項に記載の方法。
【0108】
EEE6.第1の更新レートは、第2の更新レートよりも高い、EEE5に記載の方法。
【0109】
EEE7.複数のサブバンドオーディオ信号を生成することは、
スペクトル的及び/又は時間的な平坦化をオーディオ信号に適用し、
平坦化されたオーディオ信号をウィンドウ処理し、
ウィンドウ処理後の平坦化されたオーディオ信号を複数のサブバンドオーディオ信号にスペクトル分解することを含む、EEE1乃至6のうちいずれか1項に記載の方法。
【0110】
EEE8.複数のサブバンドオーディオ信号を生成することは、オーディオ信号をスペクトル分解することを含み、
所与のサブバンドオーディオ信号についての自己相関関数を決定することは、
サブバンドオーディオ信号のサブバンドエンベロープを決定し、
サブバンドエンベロープに基づいてサブバンドオーディオ信号をエンベロープ平坦化し、
ウィンドウ関数によってエンベロープ平坦化されたサブバンドオーディオ信号をウィンドウ処理し、
ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号の自己相関関数を決定することを含む、EEE1乃至6のうちいずれか1項に記載の方法。
【0111】
EEE9.所与のサブバンドオーディオ信号についての自己相関関数を決定することは、
ウィンドウ関数の自己相関関数によって、ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号の自己相関関数を正規化することを更に含む、EEE7又は8に記載の方法。
【0112】
EEE10.所与のサブバンドオーディオ信号の自己相関関数に基づいてサブバンドオーディオ信号についての自己相関関数を決定することは、
サブバンドオーディオ信号の自己相関関数を、サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値の自己相関関数と比較し、
サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値の自己相関関数より上にあるサブバンド信号の自己相関関数の最高の局所最大値に基づいて、自己相関情報を決定することを含む、EEE1乃至9のうちいずれか1項に記載の方法。
【0113】
EEE11.スペクトルエンベロープを決定することは、複数のサブバンドオーディオ信号のそれぞれについての信号電力を測定することを含む、EEE1乃至10のうちいずれか1項に記載の方法。
【0114】
EEE12.オーディオ信号の符号化表現からオーディオ信号を復号する方法であって、符号化表現は、オーディオ信号のスペクトルエンベロープの表現と、オーディオ信号から生成された複数のサブバンドオーディオ信号のそれぞれについての自己相関情報の表現とを含み、所与のサブバンドオーディオ信号についての自己相関情報は、サブバンドオーディオ信号の自己相関関数に基づき、当該方法は、
オーディオ信号の符号化表現を受信するステップと、
オーディオ信号の符号化表現からスペクトルエンベロープ及び自己相関情報を抽出するステップと、
スペクトルエンベロープ及び自己相関情報に基づいて再構成オーディオ信号を決定するステップと
を含み、
再構成オーディオ信号は、再構成オーディオ信号から生成された複数のサブバンドオーディオ信号のそれぞれについての自己相関関数が、オーディオ信号から生成された対応するサブバンドオーディオ信号についての自己相関情報から導出された条件を満たすように決定される、方法。
【0115】
EEE13.再構成オーディオ信号は、再構成オーディオ信号のサブバンドオーディオ信号毎に、再構成オーディオ信号のサブバンドオーディオ信号の測定された信号電力が、スペクトルエンベロープによって示されるオーディオ信号の対応するサブバンドオーディオ信号についての信号電力と実質的に一致するように更に決定される、EEE12に記載の方法。
【0116】
EEE14.再構成オーディオ信号は、再構成オーディオ信号のための初期候補から出発し、各反復時にそれぞれの中間の再構成オーディオ信号を生成する反復手順で決定され、
各反復において、中間の再構成オーディオ信号の符号化表現とオーディオ信号の符号化表現との間の差分が、或る反復から他の反復へと連続的に小さくなるように、次の反復のための中間の再構成オーディオ信号を取得するために、更新マップが中間の再構成オーディオ信号に適用される、EEE12又は13に記載の方法。
【0117】
EEE15.再構成オーディオ信号のための初期候補は、オーディオ信号の符号化表現に基づいて決定される、EEE14に記載の方法。
【0118】
EEE16.再構成オーディオ信号のための初期候補は、ホワイトノイズである、EEE14に記載の方法。
【0119】
EEE17.スペクトルエンベロープ及び自己相関情報に基づいて再構成オーディオ信号を決定することは、オーディオ信号のスペクトルエンベロープ及びオーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての自己相関情報を入力として受信し、再構成オーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む、EEE12又は13に記載の方法。
【0120】
EEE18.機械学習に基づく生成モデルは、オーディオ信号の符号化表現及び対応するオーディオ信号をそれぞれの確率に関連付けるパラメトリック条件付き分布を含み、
再構成オーディオ信号を決定することは、オーディオ信号の符号化表現についてのパラメトリック条件付き分布からサンプリングすることを含む、EEE17に記載の方法。
【0121】
EEE19.訓練段階において、複数のオーディオ信号及びオーディオ信号の対応する符号化表現のデータセットに対して機械学習に基づく生成モデルを訓練するステップを更に含む、EEE17又は18に記載の方法。
【0122】
EEE20.機械学習に基づく生成モデルは、再帰型ニューラルネットワーク、変分オートエンコーダ又は敵対的生成モデルのうち1つである、EEE17乃至19のうちいずれか1項に記載の方法。
【0123】
EEE21.スペクトルエンベロープ及び自己相関情報に基づいて再構成オーディオ信号を決定することは、
スペクトルエンベロープ及び自己相関情報に基づいて複数の再構成サブバンドオーディオ信号を決定し、
スペクトル合成によって複数の再構成サブバンドオーディオ信号に基づいて再構成オーディオ信号を決定することを含み、
複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、再構成サブバンドオーディオ信号の自己相関関数が、対応するサブバンドオーディオ信号についての自己相関情報から導出された条件を満たすように決定される、EEE12に記載の方法。
【0124】
EEE22.複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、再構成サブバンドオーディオ信号の測定された信号電力が、スペクトルエンベロープによって示される対応するサブバンドオーディオ信号についての信号電力と実質的に一致するように更に決定される、EEE21に記載の方法。
【0125】
EEE23.各再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号のための初期候補から出発し、各反復においてそれぞれの中間の再構成サブバンドオーディオ信号を生成する反復手順で決定され、
各反復において、中間の再構成サブバンドオーディオ信号についての自己相関情報と対応するサブバンドオーディオ信号についての自己相関情報との間の差分が、或る反復から他の反復へと連続的に小さくなるように、次の反復のための中間の再構成サブバンドオーディオ信号を取得するために、更新マップが中間の再構成サブバンドオーディオ信号に適用される、EEE21又は22に記載の方法。
【0126】
EEE24.スペクトルエンベロープ及び自己相関情報に基づいて複数の再構成サブバンドオーディオ信号を決定することは、オーディオ信号のスペクトルエンベロープ及びオーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての自己相関情報を入力として受信し、複数の再構成サブバンドオーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む、EEE21又は22に記載の方法。
【0127】
EEE25.オーディオ信号を符号化するためのエンコーダであって、プロセッサと、プロセッサに結合されたメモリとを含み、プロセッサは、EEE1乃至11のうちいずれか1項に記載の方法のステップを実行するように適合される、エンコーダ。
【0128】
EEE26.オーディオ信号の符号化表現からオーディオ信号を復号するためのデコーダであって、プロセッサと、プロセッサに結合されたメモリとを含み、プロセッサは、EEE12乃至24のうちいずれか1項に記載の方法のステップを実行するように適合される、デコーダ。
【0129】
EEE27.命令を実行すると、EEE1乃至24のうちいずれか1項に記載の方法をコンピュータに実行させる命令を含むコンピュータプログラム。
【0130】
EEE28.EEE27に記載のコンピュータプログラムを記憶したコンピュータ読み取り可能記憶媒体。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2021-11-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ信号を符号化する方法であって、
前記オーディオ信号に基づいて複数のサブバンドオーディオ信号を生成するステップと、
前記オーディオ信号のスペクトルエンベロープを決定するステップと、
サブバンドオーディオ信号毎に、前記サブバンドオーディオ信号の自己相関関数に基づいて前記サブバンドオーディオ信号についての自己相関情報を決定するステップであり、前記自己相関情報は、前記サブバンドオーディオ信号についての自己相関値を含む、ステップと、
記オーディオ信号の前記スペクトルエンベロープと、前記複数のサブバンドオーディオ信号についての前記自己相関情報と前記オーディオ信号の符号化表現に符号化するステップと
を含み、
所与のサブバンドオーディオ信号についての前記自己相関情報は、それぞれのサブバンドオーディオ信号についてのラグ値を更に含む、方法。
【請求項2】
前記符号化表現を規定するビットストリームを出力するステップを更に含む、請求項1に記載の方法。
【請求項3】
前記スペクトルエンベロープは、前記複数のサブバンドオーディオ信号に基づいて決定される、請求項1又は2に記載の方法。
【請求項4】
前記ラグ値は、前記自己相関関数が局所最大値に達する遅延値に対応し、前記自己相関値は、前記局所最大値に対応する、請求項1乃至3のうちいずれか1項に記載の方法。
【請求項5】
前記スペクトルエンベロープは、第1の更新レートで決定され、前記複数のサブバンドオーディオ信号についての前記自己相関情報は、第2の更新レートで決定され、
前記第1の更新レート及び前記第2の更新レートは互いに異なる、請求項1乃至のうちいずれか1項に記載の方法。
【請求項6】
前記第1の更新レートは、前記第2の更新レートよりも高い、請求項に記載の方法。
【請求項7】
前記複数のサブバンドオーディオ信号を生成することは、
スペクトル的及び/又は時間的な平坦化を前記オーディオ信号に適用し、
前記平坦化されたオーディオ信号をウィンドウ処理し、
前記ウィンドウ処理後の平坦化されたオーディオ信号を前記複数のサブバンドオーディオ信号にスペクトル分解することを含む、請求項1乃至のうちいずれか1項に記載の方法。
【請求項8】
前記複数のサブバンドオーディオ信号を生成することは、前記オーディオ信号をスペクトル分解することを含み、
所与のサブバンドオーディオ信号についての前記自己相関関数を決定することは、
前記サブバンドオーディオ信号のサブバンドエンベロープを決定し、
前記サブバンドエンベロープに基づいて前記サブバンドオーディオ信号をエンベロープ平坦化し、
ウィンドウ関数によって前記エンベロープ平坦化されたサブバンドオーディオ信号をウィンドウ処理し、
前記ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号の前記自己相関関数を決定することを含む、請求項1乃至のうちいずれか1項に記載の方法。
【請求項9】
所与のサブバンドオーディオ信号についての前記自己相関関数を決定することは、
前記ウィンドウ関数の自己相関関数によって、前記ウィンドウ処理後のエンベロープ平坦化されたサブバンドオーディオ信号の前記自己相関関数を正規化することを更に含む、請求項又はに記載の方法。
【請求項10】
所与のサブバンドオーディオ信号の前記自己相関関数に基づいて前記サブバンドオーディオ信号についての前記自己相関関数を決定することは、
前記サブバンドオーディオ信号の前記自己相関関数を、前記サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタのインパルス応答の絶対値の自己相関関数と比較し、
前記サブバンドオーディオ信号に関連するそれぞれのバンドパスフィルタの前記インパルス応答の前記絶対値の前記自己相関関数より上にある前記サブバンド信号の前記自己相関関数の最高の局所最大値に基づいて、前記自己相関情報を決定することを含む、請求項1乃至のうちいずれか1項に記載の方法。
【請求項11】
前記スペクトルエンベロープを決定することは、前記複数のサブバンドオーディオ信号のそれぞれについての信号電力を測定することを含む、請求項1乃至10のうちいずれか1項に記載の方法。
【請求項12】
オーディオ信号の符号化表現から前記オーディオ信号を復号する方法であって、前記符号化表現は、前記オーディオ信号のスペクトルエンベロープと、前記オーディオ信号から生成された複数のサブバンドオーディオ信号のそれぞれについての自己相関情報とを含み、所与のサブバンドオーディオ信号についての前記自己相関情報は、前記サブバンドオーディオ信号の自己相関関数に基づき、当該方法は、
前記オーディオ信号の前記符号化表現を受信するステップと、
前記オーディオ信号の前記符号化表現から前記スペクトルエンベロープ及び前記自己相関情報を抽出するステップと、
前記スペクトルエンベロープ及び前記自己相関情報に基づいて再構成オーディオ信号を決定するステップと
を含み、
所与のサブバンドオーディオ信号についての前記自己相関情報は、前記サブバンドオーディオ信号についての自己相関値と、それぞれのサブバンドオーディオ信号についてのラグ値とを含、方法。
【請求項13】
前記再構成オーディオ信号は、前記再構成オーディオ信号から生成された複数のサブバンド信号のそれぞれについての前記自己相関情報が、前記オーディオ信号から生成された対応するサブバンドオーディオ信号についての前記自己相関情報から導出された条件を満たすように決定される、請求項12に記載の方法。
【請求項14】
前記再構成オーディオ信号は、前記再構成オーディオ信号の前記複数のサブバンド信号のそれぞれについての自己相関情報が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報と所定のマージンまで一致するように決定される、請求項12又は13に記載の方法。
【請求項15】
前記再構成オーディオ信号は、前記再構成オーディオ信号のサブバンドオーディオ信号毎に、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示される前記ラグ値において、前記再構成オーディオ信号の前記サブバンドオーディオ信号の前記自己相関関数の値が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示される前記自己相関値と所定のマージンまで一致するように決定される、請求項12又は13に記載の方法。
【請求項16】
前記再構成オーディオ信号は、前記再構成オーディオ信号のサブバンドオーディオ信号毎に、前記再構成オーディオ信号の前記サブバンドオーディオ信号の測定された信号電力が、前記スペクトルエンベロープによって示される前記オーディオ信号の対応するサブバンドオーディオ信号についての信号電力と所定のマージンまで一致するように更に決定される、請求項12乃至15のうちいずれか1項に記載の方法。
【請求項17】
前記再構成オーディオ信号は、前記再構成オーディオ信号のための初期候補から出発し、各反復時にそれぞれの中間の再構成オーディオ信号を生成する反復手順で決定され、
各反復において、前記中間の再構成オーディオ信号の符号化表現と前記オーディオ信号の前記符号化表現との間の差分が、或る反復から他の反復へと連続的に小さくなるように、次の反復のための前記中間の再構成オーディオ信号を取得するために、更新マップが前記中間の再構成オーディオ信号に適用される、請求項12乃至16のうちいずれか1項に記載の方法。
【請求項18】
前記再構成オーディオ信号のための前記初期候補は、前記オーディオ信号の前記符号化表現に基づいて決定される、請求項17に記載の方法。
【請求項19】
前記再構成オーディオ信号のための前記初期候補は、ホワイトノイズである、請求項17に記載の方法。
【請求項20】
前記スペクトルエンベロープ及び前記自己相関情報に基づいて前記再構成オーディオ信号を決定することは、前記オーディオ信号の前記スペクトルエンベロープ及び前記オーディオ信号の前記複数のサブバンドオーディオ信号のそれぞれについての前記自己相関情報を入力として受信し、前記再構成オーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む、請求項12乃至16のうちいずれか1項に記載の方法。
【請求項21】
前記機械学習に基づく生成モデルは、オーディオ信号の符号化表現及び対応するオーディオ信号をそれぞれの確率に関連付けるパラメトリック条件付き分布を含み、
前記再構成オーディオ信号を決定することは、前記オーディオ信号の前記符号化表現についての前記パラメトリック条件付き分布からサンプリングすることを含む、請求項20に記載の方法。
【請求項22】
訓練段階において、複数のオーディオ信号及び前記オーディオ信号の対応する符号化表現のデータセットに対して前記機械学習に基づく生成モデルを訓練するステップを更に含む、請求項20又は21に記載の方法。
【請求項23】
前記機械学習に基づく生成モデルは、再帰型ニューラルネットワーク、変分オートエンコーダ又は敵対的生成モデルのうち1つである、請求項20乃至22のうちいずれか1項に記載の方法。
【請求項24】
前記スペクトルエンベロープ及び前記自己相関情報に基づいて前記再構成オーディオ信号を決定することは、
前記スペクトルエンベロープ及び前記自己相関情報に基づいて複数の再構成サブバンドオーディオ信号を決定し、
スペクトル合成によって前記複数の再構成サブバンドオーディオ信号に基づいて再構成オーディオ信号を決定することを含み、
前記複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、前記再構成サブバンドオーディオ信号の前記自己相関関数が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報から導出された条件を満たすように決定される、請求項13に記載の方法。
【請求項25】
前記複数の再構成サブバンドオーディオ信号は、各再構成サブバンドオーディオ信号についての自己相関情報が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報と所定のマージンまで一致するように決定される、請求項24に記載の方法。
【請求項26】
前記複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示される前記ラグ値において、前記再構成サブバンドオーディオ信号の前記自己相関関数の値が、前記オーディオ信号の対応するサブバンドオーディオ信号についての前記自己相関情報によって示される自己相関値と所定のマージンまで一致するように決定される、請求項24に記載の方法。
【請求項27】
前記複数の再構成サブバンドオーディオ信号は、再構成サブバンドオーディオ信号毎に、前記再構成サブバンドオーディオ信号の測定された信号電力が、前記スペクトルエンベロープによって示される対応するサブバンドオーディオ信号についての信号電力と所定のマージンまで一致するように更に決定される、請求項24乃至26のうちいずれか1項に記載の方法。
【請求項28】
各再構成サブバンドオーディオ信号は、前記再構成サブバンドオーディオ信号のための初期候補から出発し、各反復においてそれぞれの中間の再構成サブバンドオーディオ信号を生成する反復手順で決定され、
各反復において、前記中間の再構成サブバンドオーディオ信号についての前記自己相関情報と対応するサブバンドオーディオ信号についての前記自己相関情報との間の差分が、或る反復から他の反復へと連続的に小さくなるように、次の反復のための前記中間の再構成サブバンドオーディオ信号を取得するために、更新マップが前記中間の再構成サブバンドオーディオ信号に適用される、請求項24乃至27のうちいずれか1項に記載の方法。
【請求項29】
前記スペクトルエンベロープ及び前記自己相関情報に基づいて前記複数の再構成サブバンドオーディオ信号を決定することは、前記オーディオ信号の前記スペクトルエンベロープ及び前記オーディオ信号の複数のサブバンドオーディオ信号のそれぞれについての前記自己相関情報を入力として受信し、前記複数の再構成サブバンドオーディオ信号を生成して出力する、機械学習に基づく生成モデルを適用することを含む、請求項24乃至27のうちいずれか1項に記載の方法。
【請求項30】
オーディオ信号を符号化するためのエンコーダであって、
プロセッサと、前記プロセッサに結合されたメモリとを含み、前記プロセッサは、請求項1乃至11のうちいずれか1項に記載の方法のステップを実行するように適合される、エンコーダ。
【請求項31】
オーディオ信号の符号化表現から前記オーディオ信号を復号するためのデコーダであって、
プロセッサと、前記プロセッサに結合されたメモリとを含み、前記プロセッサは、請求項12乃至29のうちいずれか1項に記載の方法のステップを実行するように適合される、デコーダ。
【請求項32】
命令を実行すると、請求項1乃至29のうちいずれか1項に記載の方法をコンピュータに実行させる命令を含むコンピュータプログラム。
【請求項33】
請求項32に記載のコンピュータプログラムを記憶したコンピュータ読み取り可能記憶媒体。
【国際調査報告】