(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024020311
(43)【公開日】2024-02-14
(54)【発明の名称】高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
(51)【国際特許分類】
G10L 19/035 20130101AFI20240206BHJP
G10L 21/0364 20130101ALI20240206BHJP
G10L 19/02 20130101ALI20240206BHJP
【FI】
G10L19/035 A
G10L21/0364
G10L19/02 160A
【審査請求】有
【請求項の数】6
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023189975
(22)【出願日】2023-11-07
(62)【分割の表示】P 2022052882の分割
【原出願日】2014-04-01
(31)【優先権主張番号】61/809,028
(32)【優先日】2013-04-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】61/877,167
(32)【優先日】2013-09-12
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ヘデリン,ペール
(72)【発明者】
【氏名】ビスワス,アリジット
(72)【発明者】
【氏名】シュフーグ,ミヒャエル
(72)【発明者】
【氏名】メルコーテ,ヴィナイ
(57)【要約】 (修正有)
【課題】オーディオコーデックにおける符号化ノイズを低減する方法、装置及び記憶媒体を提供する。
【解決手段】システム100において、圧縮プロセスは、最初のオーディオ信号のオリジナルのダイナミックレンジを低減し、定められたウィンドウ形状を使用して最初のオーディオ信号を複数の時間セグメントへと分割し、周波数領域表現の非エネルギーベース平均を使用して周波数領域において各時間セグメントに対する広帯域ゲインを計算し、かつ、比較的に低い強度のセグメントを増幅して比較的に高い強度のセグメントを弱めるように個別のゲイン値を適用する。圧縮されたオーディオ信号は、オリジナルのダイナミックレンジに戻るように拡張され、比較的に高い強度のセグメントを増幅して比較的に低い強度のセグメントを弱めるように反転ゲイン値を適用する。周波数領域表現を得るために、最初のオーディオ信号を分析するQMFフィルターバンクを使用する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピュータを含むオーディオ処理システムにおいてオーディオ信号を処理する方法であって、
前記コンピュータのプロセッサが、複数の時間セグメントを含むオーディオ信号を受信するステップと、
前記プロセッサが、各オーディオ信号の時間セグメントについてそれぞれのゲイン値を決定するステップであり、
前記ゲイン値は、周波数領域内にあり、かつ、前記オーディオ信号の周波数領域表現の各時間セグメントのスペクトラムマグニチュードのp-ノルムに基づいており、
前記p-ノルム値は、前記オーディオ信号の強いスペクトラムコンテンツに対して前記オーディオ信号の弱いスペクトラムコンテンツを強調するように選択される、
ステップと、
前記プロセッサが、拡張されたオーディオ信号を獲得するために、それぞれの前記ゲイン値を各時間セグメントに適用するステップであり、
個々の前記ゲイン値の適用は、比較的に高い強度の時間セグメントを増幅し、かつ、比較的に低い強度の時間セグメントを弱め、
各時間セグメントに対するそれぞれのゲイン値は、それぞれの時間セグメントにおけるサブバンドのサブセット内のサブバンドサンプルを使用して計算される、
ステップと、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一つまたはそれ以上の実施例は、一般的にオーディオ信号処理に関する。より特定的には、圧縮/拡張(圧縮伸張)技術を使用したオーディオコーデック(codec)における符号化ノイズの低減に関する。
【0002】
本出願は、2013年4月5日提出の米国仮特許出願第61/809028号および2013年9月12日提出の米国仮特許出願第61/877167号についての優先権を主張するものである。これらは、全てがここにおいて参照として包含されている。
【背景技術】
【0003】
多くの一般的なデジタルサウンドフォーマットは、不可逆データ圧縮(lossy data compression)技術を使用しており、ストレージ削減のため又はデータレート要求のためにいくつかのデータを破棄する。不可逆データ圧縮の適用は、ソースコンテンツ(例えば、オーディオコンテンツ)のフィデリティ(fidelity)を低減するだけでなく、圧縮アーチファクトの形式における目立った歪みも持ち込んでしまう。オーディオ符号化システムのコンテクストにおいて、こうしたサウンドアーチファクトは、符号化ノイズまたは量子化ノイズと呼ばれている。
【0004】
デジタルオーディオシステムは、定義されたオーディオファイルフォーマットまたはストリーミングメディアオーディオフォーマットに従ってオーディオデータを圧縮および復元するためにコーデック(符号化-復号化コンポーネント)を使用する。コーデックは、できる限り高いフィデリティを維持しながら最小数量のビットを用いてオーディオ信号を表すように試みるアルゴリズムを実施する。オーディオコーデックにおいて典型的に使用される不可逆圧縮技術は、人間の聴覚の心理音響モデル上で動作する。オーディオフォーマットは、たいてい時間/周波数変換(例えば、修正離散コサイン変換-MDCT)の使用を含んでおり、マスキング効果を使用する。周波数マスキングまたは時間的マスキングといったものであり、あらゆる明らかな量子化ノイズを含んでいる、所定のサウンドが実際のコンテンツによって隠され又はマスクされる。
【0005】
大部分のオーディオ符号化は、フレームに基づくものである(frame based)。フレームの中で、オーディオコーデックは、一般的に周波数領域における符号化ノイズを形成する。ノイズが聞こえるのを最小限にするようにである。いくつかの現在のデジタルオーディオフォーマットは、フレームがいくつかの異なるレベルまたは強度のサウンドを含み得るように長い持続期間のフレームを使用する。符号化ノイズは、たいてい、フレームの展開にわたりレベルの変動が無いので、符号化ノイズは、強度が低いフレームの部分の最中に最も聞こえ得るものである。そうした効果は、前エコー歪み(pre-echo distortion)として表され得るものであり、そこでは、高強度セグメントに先立つサイレンス(または低レベル信号)が復号化されたオーディオ信号におけるノイズに浸されている。そうした効果は、過渡(transient)サウンド、もしくは、カスタネット又は他のシャープな打撃音源といった、パーカッション楽器からのインパルスにおいて最も目立ち得る。そうした歪みは、典型的には、時間領域におけるコーデックの変換ウィンドウ全体にわたり広がっている周波数領域において持ち込まれる量子化ノイズによって生じる。
【0006】
前エコーアーチファクトを回避または最小化するための現在の手段は、フィルタの使用を含んでいる。そうしたフィルタは、しかしながら、位相歪みと時間的不鮮明(semaring)を持ち込んでしまう。別の可能なソリューションは、より小さな変換ウィンドウの使用を含む。しかしながら、このアプローチは、著しく周波数解像度を低減し得るものである。
【0007】
背景技術の部分において説明された技術的事項は、単に背景技術の部分での言及の結果として従来技術であると仮定されるべきではない。同様に、背景技術の部分において言及された問題または背景技術に係る技術的事項に関する問題は、従来技術において以前から認識されてきたものであると仮定されるべきではない。背景技術の部分における技術的事項は、異なるアプローチを単に示しているだけであり、それ自体でも発明であり得るものである。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の実施例は、受信したオーディオ信号を処理する方法に向けられている。受信したオーディオ信号を定められたウィンドウ形状を使用して複数の時間セグメントに分割することを含んでいるプロセスを通じて、オーディオ信号を拡大されたダイナミックレンジに拡張すること、オーディオ信号の周波数領域表現の非エネルギーベース(non-energy based)平均を使用して、周波数領域においてそれぞれの時間セグメントに対する広帯域(wideband)ゲインを計算すること、および、拡張されたオーディオ信号を得るために、それぞれの時間セグメントにゲイン値を適用すること、によるものである。それぞれの時間セグメントに適用される広帯域ゲインのゲイン値は、比較的に高い強度のセグメントを増幅し、かつ、比較的に低い強度のセグメントを弱める効果を有するように選択される。この方法のために、受信したオーディオ信号は、オリジナルのダイナミックレンジから圧縮されたオリジナルのオーディオ信号を含んでいる。オリジナルのオーディオ信号を定められたウィンドウ形状を使用して複数の時間セグメントに分割すること、最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して周波数領域における広帯域ゲインを計算すること、および、オリジナルのオーディオ信号に広帯域ゲインを適用すること、を含んでいる圧縮プロセスを通じて行われるものである。圧縮プロセスにおいて、それぞれの時間セグメントに適用される広帯域ゲインのゲイン値は、比較的に低い強度のセグメントを増幅し、かつ、比較的に高い強度のセグメントを弱める効果を有するように選択される。拡張プロセスは、最初のオーディオ信号のダイナミックレンジを実質的に回復するように構成されており、拡張プロセスの広帯域ゲインは、圧縮プロセスの広帯域ゲインと実質的に逆であってよい。
【課題を解決するための手段】
【0009】
受信したオーディオ信号を拡張プロセスによって処理する方法を実施するシステムにおいては、オーディオ信号を分析して周波数領域表現を得るためにフィルターバンク(filterbank)コンポーネントが使用され得る。そして、複数の時間セグメントへの分割のために定められたウィンドウ形状は、フィルターバンクに対するプロトタイプフィルタと同一であり得る。同様に、受信したオーディオ信号を圧縮プロセスによって処理する方法を実施するシステムにおいては、オリジナルのオーディオ信号を分析してその周波数領域表現を得るためにフィルターバンクコンポーネントが使用され得る。そして、複数の時間セグメントへの分割のために定められたウィンドウ形状は、フィルターバンクに対するプロトタイプフィルタと同一であり得る。いずれの場合においてもフィルターバンクは、QMFバンクまたは短時間フーリエ変換であってよい。このシステムにおいて、拡張プロセスに対して受信された信号は、ビットストリームを生成するオーディオエンコーダおよびビットストリームを復号するデコーダによって圧縮された信号の変形の後で取得される。エンコーダとデコーダは、変換ベースオーディオコーデックの少なくとも一部を含んでよい。システムは、さらに、ビットストリームを通じて受信され、かつ、拡張プロセスの活動状態を決定するコントロール情報を処理するコンポーネントを含み得る。
【図面の簡単な説明】
【0010】
以降の図面においては、類似の参照番号が、類似のエレメントを参照するために使用される。以降の図面は種々の実施例を示すものであるが、一つまたはそれ以上の実施は、図面において示された実施例に限定されるものではない。
【
図1】
図1は、一つの実施例の下で、変換ベースオーディオコーデックにおいてオーディオ信号を圧縮および拡張するためのシステムを示している。
【
図2A】
図2Aは、一つの実施例の下で、複数の短時間セグメントに分割されたオーディオ信号を示している。
【
図2B】
図2Bは、一つの実施例の下で、それぞれの短時間セグメントにわたる広帯域ゲインの適用後の
図2Aのオーディオ信号を示している。
【
図3A】
図3Aは、一つの実施例の下で、オーディオ信号を圧縮する方法を説明するフローチャートである。
【
図3B】
図3Bは、一つの実施例の下で、オーディオ信号を拡張する方法を説明するフローチャートである。
【
図4】
図4は、一つの実施例の下で、オーディオ信号を圧縮するためのシステムを説明するブロックダイヤグラムである。
【
図5】
図5は、一つの実施例の下で、オーディオ信号を拡張するためのシステムを説明するブロックダイヤグラムである。
【
図6】
図6は、一つの実施例の下で、複数の短時間セグメントへのオーディオ信号の分割を示している。
【発明を実施するための形態】
【0011】
オーディオコーデックにおける量子化ノイズの時間的ノイズ形成を達成するための圧縮伸張技術の使用について説明される。そうした実施例は、量子化ノイズの時間的形成を達成するためにQMF領域において実施される圧縮伸張アルゴリズムの使用を含んでいる。プロセスは、所望のデコーダ圧縮伸張レベルのエンコーダコントロールを含み、かつ、モノラルのアプリケーションを越えてステレオおよびマルチチャンネル圧縮伸張への拡張を含んでいる。
【0012】
ここにおいて説明される一つまたはそれ以上の実施例に係る態様は、ソフトウェアのインストラクションを実行している一つまたはそれ以上のコンピュータまたは処理装置を含むネットワークにわたる送信のためにオーディオ信号を処理するオーディオシステムにおいて実施され得る。説明される実施例は、単独又はあらゆる組合せにおいて別の実施例と一緒に使用され得る。種々の実施例は、従来技術の種々の欠陥によって動機付けされてきており、本明細書の中の一つまたはそれ以上の場所において説明または言及されるが、実施例は、これらのあらゆる欠陥を取り扱うことを要しない。別の言葉で言えば、異なる実施例は、本明細書の中で説明される異なる欠陥を取り扱い得る。いくつかの実施例は、いくつかの欠陥を部分的に取り扱うだけであり、または、本明細書の中で説明される一つだけの欠陥を取り扱い得る。そして、いくつかの実施例は、これらの欠陥を全く取り扱わなくてよい。
【0013】
図1は、一つの実施例の下で、コーデックベースのオーディオ処理システムにおいて量子化ノイズを低減するための圧縮伸張システムを示している。
図1は、エンコーダ(または「コアエンコーダ」)106とデコーダ(または「コアデコーダ」)112を含むオーディオコーデックの周辺に設けられるオーディオ信号処理システムを示している。エンコーダ106は、オーディオコンテンツをネットワーク110にわたり送信するためにデータストリームまたは信号へと符号化する。ネットワークでは、再生またはさらなる処理のためにデコーダ112によって復号化される。一つの実施例において、コーデックのエンコーダ106およびデコーダ112は、デジタルオーディオデータのストレージ及び/又はデータレートを低減するために不可逆な圧縮方法を実施する。そうしたコーデックは、MP3、Vorbis、Dolby Digital(AC-3)、AAC、または類似のコーデックとして実施され得る。コーデックの不可逆な圧縮方法は、符号化ノイズを生成する。符号化ノイズは、コーデックによって定められるフレーム展開にわたり一般的にレベルの変動がない。そうした符号化ノイズは、しばしば、フレームの強度が低い部分の最中に最も聞き取ることができる。システム100は、既存の符号化システムにおいて知覚される符号化ノイズを低減するコンポーネントを含んでいる。コーデックのコアエンコーダ106の以前に圧縮プリステップ(pre-step)コンポーネント104、および、コアデコーダ112出力上で動作する拡張ポストステップ(post-step)コンポーネント114を提供することによるものである。圧縮コンポーネント104は、定められたウィンドウ形状を使用してオリジナルオーディオ入力信号102を複数の時間セグメントへ分割し、計算し、かつ、最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して周波数領域において広帯域ゲインを適用するように構成されている。ここで、それぞれの時間セグメントに対して適用されるゲイン値は、比較的に低い強度のセグメントを増幅し、かつ、比較的に高い強度のセグメントを弱める。このゲイン修正は、圧縮の効果、または、入力されたオーディオ信号102のオリジナルのダイナミックレンジを著しく低減する効果を有する。圧縮されたオーディオ信号は、次に、エンコーダ106において符号化され、ネットワーク110にわたり送信され、そして、デコーダ112において復号化される。復号化された圧縮信号は、拡張コンポーネント114に入力される。拡張コンポーネントは、圧縮プリステップ104の逆(inverse)オペレーションを実行するように構成されている。それぞれの時間セグメントに対して逆ゲイン値を適用することによって、圧縮されたオーディオ信号のダイナミックレンジを拡張してオリジナル入力オーディオ信号102のダイナミックレンジに戻すものである。このように、オーディオ出力信号116は、オリジナルのダイナミックレンジを有するオーディオ信号を含んでおり、プリステップおよびポストステップの圧縮伸張プロセスを通じて符号化ノイズが取り除かれている。
【0014】
図1に示されるように、圧縮コンポーネントまたは圧縮プリステップ104は、コアエンコーダ106へのオーディオ信号102入力のダイナミックレンジを低減するように構成されている。入力オーディオ信号は、数多くの短いセグメントへ分割される。短いセグメントのサイズまたは長さは、コアエンコーダ106によって使用されるフレームサイズの小部分である。例えば、コアコーダの典型的なフレームサイズは40から80ミリ秒のオーダーであってよい。この場合に、それぞれの短いセグメントは、1から3ミリ秒のオーダーであってよい。圧縮コンポーネント104は、セグメント毎に入力オーディオ信号を圧縮するために適切な広帯域ゲイン値を計算する。このことは、信号の短いセグメントを各セグメントに対する適切なゲイン値により変更することによって達成される。比較的に低い強度のセグメントを増幅するために比較的に大きなゲイン値が選択され、かつ、高い強度のセグメントを弱めるために小さなゲイン値が選択される。
【0015】
図2Aは、一つの実施例の下で、複数の短時間セグメントに分割されたオーディオ信号を示しており、かつ、
図2Bは、圧縮コンポーネントによる広帯域ゲインの適用後の同一のオーディオ信号を示している。
図2Aに示されるように、オーディオ信号202は、パーカッション楽器(例えば、カスタネット)によって生成されるといった過渡(transient)またはインパルスサウンドを示している。信号は、電圧Vと時間tのプロットで示されるように、アンプにおけるスパイク(spike)が特徴である。一般的に、信号のアンプは、音響エネルギーまたはサウンドの強度に関連し、あらゆる時点におけるサウンドパワー(sound’s power)の測定を表している。オーディオ信号202がフレームベースのオーディオコーデックを通じて処理される場合、信号部分は、変換(例えば、MDCT)フレーム204の中で処理される。典型的な現在のオーディオシステムは、比較的に長いデュレーション(duration)のフレームを使用する。シャープな過渡サウンドまたは短いインパルスサウンドに対して、一つのフレームが、強度が高いサウンドと同様に強度が低いサウンドも含み得るようにである。従って、
図1に示されるように、一つのMDCTフレーム204は、オーディオ信号のインパルス部分(ピーク)を含んでおり、同様に、ピークの前後の強度が低い信号を比較的大量に含んでいる。一つの実施例において、圧縮コンポーネント104は、信号を数多くの短いセグメント206へ分割し、信号202のダイナミックレンジを圧縮するために各セグメントに対して広帯域ゲインを適用する。短いセグメントそれぞれの数量とサイズは、アプリケーションのニーズとシステムの制限に基づいて選択され得る。個々のMDCTフレームのサイズに関して、短いセグメントの数量は、12から64セグメントであってよく、典型的には32セグメントを含んでいる。しかしながら、実施例はそのように限定されない。
【0016】
図2Bは、一つの実施例の下で、それぞれの短時間セグメントにわたる広帯域ゲインの適用後の
図2Aのオーディオ信号を示している。
図2Bに示されるように、オーディオ信号212は、オリジナル信号202と相対的に同一な形状を有している。しかしながら、強度が低いセグメントのアンプが増幅ゲイン値の適用によって増加されており、かつ、強度が高いセグメントのアンプが減衰ゲイン値の適用によって減少されている。
【0017】
コアデコーダ112の出力は、低減されたダイナミックレンジを伴う入力オーディオ信号(例えば、信号212)およびコアエンコーダ106によって持ち込まれた量子化ノイズである。この量子化ノイズは、各フレームの中で時間にわたりほとんど均一なレベルであることを特徴とする。拡張コンポーネント114は、復号化された信号上で、オリジナル信号のダイナミックレンジを回復するように動作する。拡張コンポーネントは、短いセグメントサイズ206に基づいて同一の短い時間解像度を使用し、かつ、圧縮コンポーネント104において適用されたゲインを反転する。従って、拡張コンポーネント114は、オリジナル信号において強度が低かったセグメントに小さなゲインを適用する(減衰)、圧縮器によって増幅されてきたものである。そして、オリジナル信号において強度が高かったセグメントに大きなゲインを適用する(増幅)、圧縮器によって減衰されてきたものである。コアコーダによって追加された量子化ノイズは、均一な時間エンベロープ(envelope)を有していたが、このように、同時にポストプロセッサゲインによって、オリジナル信号の時間エンベロープにおおよそ従うように形成される。この処理は、静かなパッセージ(passage)の最中に量子化ノイズを効果的により聞こえ難くする。ノイズは、強度が高いパッセージの最中に増幅され得るが、オーディオコンテンツ自身の大きな信号のマスキング効果のおかげでより聞こえ難いままである。
【0018】
図2Aに示されるように、圧縮伸張プロセスは、オーディオ信号の個々のセグメントをそれぞれのゲイン値を用いて個別に修正する。所定の場合に、このことは、圧縮コンポーネントの出力における不連続性を結果として生じ得るものであり、コアエンコーダ106において問題を生じ得る。同様に、拡張コンポーネント114でのゲインの不連続性は、形成されたノイズのエンベロープにおける不連続性を結果として生じ得る。ノイズは、オーディオ出力116における聞き取ることができるクリック音(click)を結果として生じ得るものである。個別のゲイン値のオーディオ信号の短いセグメントへの適用に関する別の問題は、典型的なオーディオ信号は多くの個別の音源の組合せであるという事実に基づく。これらの音源のいくつかは、時間にわたり変動がなく、かつ、いくつかは過渡的であり得る。変動がない信号は、一般的に、統計的なパラメータにおいて時間にわたり一定であるが、一方、過渡的な信号は一般的に一定ではない。過渡性に係る広帯域の特性が与えられると、そうした混合におけるフィンガープリントは、たいてい、より高い周波数において、より見えやすい。信号の短期エネルギー(RMS)に基づくゲイン計算は、低周波数でより強くなるようにバイアスされる傾向があり、それ故、変動のない音源が支配的であり、時間にわたる変化をほとんど示さない。従って、このエネルギーベースアプローチは、コアエンコーダによって持ち込まれたノイズを形成することにおいて、一般的に効果が無い、
【0019】
一つの実施例において、システム100は、短いプロトタイプフィルタを用いてフィルターバンク(filter-bank)において圧縮と拡張コンポーネントにおいてゲインを計算して適用する。個々のゲイン値の適用に関連する潜在的な問題を解決するためである。修正されるべき信号(圧縮コンポーネント104におけるオリジナル信号、および拡張コンポーネント114におけるコアデコーダ112の出力)が、最初にフィルターバンクによって分析され、かつ、広帯域ゲインが周波数領域において直接的に適用される。時間領域において対応する効果は、プロトタイプフィルタの形状に従って、ゲイン適用を自然に滑らかにすることである。このことは、上記の不連続性の問題を解決する。修正された周波数領域信号は、次に、対応する統合フィルターバンクを介して変換され時間領域に戻される。フィルターバンクを用いた信号の分析は、スペクトラムコンテンツに対するアクセスを提供し、高周波数による貢献を優先的にブースト(boost)する(または、あらゆる弱いスペクトラムコンテンツによる貢献をブーストするための)ゲイン計算ができるようにし、信号における最強のコンポーネントによって支配されないゲイン値を提供している。このことは、上述のように、異なる音源の組合せを含むオーディオソースに関する問題を解決する。一つの実施例において、システムは、pノルム(p-norm)のスペクトラムマグニチュードを使用してゲインを計算する。ここで、pは、典型的には2より小さい(p<2)。これにより、エネルギー(p=2)に基づく場合と比較して、弱いスペクトラムコンポーネントをより強調することができる。
【0020】
上述のように、システムは、ゲイン適用を滑らかにするためのプロトタイプフィルタを含んでいる。一般的に、プロトタイプフィルタは、フィルターバンクにおいて基本的なウィンドウ形状であり、フィルターバンクにおける異なるサブバンドフィルタに対するインパルス応答を得るために、正弦波形によって変調される。例えば、短時間フーリエ変換(STFT)がフィルターバンクであり、この変換の各周波数ラインがフィルターバンクのサブバンドである。短時間フーリエ変換は、信号にウィンドウ形状(Nサンプルウィンドウ)を掛け合わせることによって実施される。ウィンドウ形状は、長方形、ハン(Hann)、カイザーベッセル由来(KBD)、または他のいくつかの形状であり得る。ウィンドウされた信号は、次に、離散フーリエ変換(DFT)オペレーションの対象となり、STFTを得る。この場合のウィンドウ形状は、プロトタイプフィルタである。DFTは、正弦波ベースの関数から成り、それぞれが異なる周波数である。正弦関数が掛け合わされたウィンドウ形状は、次に、その周波数に対応するサブバンドに対するフィルタを提供する。全ての周波数においてウィンドウ形状が同一なので、「プロトタイプ」として参照されている。
【0021】
一つの実施例において、システムは、フィルターバンクとしてQMF(Quadrature Modulated Filter、直角位相変調フィルタ)バンクを使用する。所定の実施例において、QMFバンクは、64-ptウィンドウを有してよく、プルトタイプを形成する。コサインおよびサイン関数によって変調されたこのウィンドウ(64個の均等に間隔を空けて配置された周波数に対応するもの)は、QMFバンクに対するサブバンドフィルタを形成する。QMF関数のそれぞれの適用の後で、ウィンドウは64サンプル毎に移動される。つまり、この場合の時間セグメント間のオーバーラップは、640-64=576サンプルである。しかしながら、この場合においてはウィンドウ形状が10時間セグメント(640=10*64)に及ぶが、ウィンドウのメインローブ(main lobe)(サンプル値が非常に重大であるところ)は約128サンプル長である。このように、ウィンドウの有効長は、いまだに比較的に短い。
【0022】
一つの実施例において、拡張コンポーネント114は、圧縮コンポーネント104によって適用されたゲインを、理想的には反転させる。圧縮コンポーネントにより適用されたゲインをビットストリームを通じてデコーダへ送信することができるが、そうしたアプローチは、典型的には著しくビットレートを消費する。一つの実施例においては、代わりにシステム100が、拡張コンポーネント114により要求されるゲインを、利用可能な信号、つまり、デコーダ112の出力、から直接的に見積る。効率的であり、追加のビットを要求しないものである。圧縮と拡張コンポーネントにおけるフィルターバンクは同一であるように選択される。お互いの反転であるゲインを計算するためである。加えて、これらのフィルバンクは、時間同期しており、圧縮コンポーネント104の出力と拡張コンポーネント114への入力との間のあらゆる効果的な遅延は、フィルターバンクのストライド(stride)の倍数である。仮に、コアエンコーダ-デコーダの損失が無く、かつ、フィルターバンクが完全な回復を提供するとすれば、圧縮と拡張コンポーネントにおけるゲインはお互いの正確な反転であろう。このようにして、オリジナル信号の正確な回復ができる。実際には、しかしながら、拡張コンポーネント114によって提供されるゲインは、圧縮コンポーネント104によって適用されるゲインの反転の非常に近い近似に過ぎない。
【0023】
一つの実施例において、圧縮と拡張コンポーネントにおいて使用されるフィルターバンクはQMFバンクである。典型的な使用アプリケーションにおいて、コアオーディオフレームは、4096サンプル長であってよく、隣接するフレームと2048のオーバーラップを伴うものである。48kHzにおいて、そうしたフレームは85.3ミリ秒の長さである。対照的に、使用されるQMFバンクは、64サンプルのストライド(1.3msの長さ)を有してよく、ゲインに対する細かな時間的解像度を提供する。さらに、QMFは、640サンプル長のスムーズプロトタイプフィルタを有し、ゲイン適用が時間にわたり滑らかに変化することを保証している。このQMFフィルターバンクを用いた分析は、信号の時間-周波数タイル(time-frequency tiled)表現を提供する。各QMF時間スロットはストライドに対して等しいものであり、かつ、各QMF時間スロットにおいては、均一の間隔を空けて配置された64のサブバンドが在る。代替的に、他のフィルターバンクを使用することができる、短時間フーリエ変換(STFT)といったものであり、そうした時間-周波数タイル表現がそれでも獲得され得る。
【0024】
一つの実施例において、圧縮コンポーネント104は、コーデック入力を調整するプリ処理ステップ(pre-processing step)を実行する。この実施例に対して、S
t(k)は、時間スロットtおよび周波数ビンkにおける複素値フィルタバンクサンプルである。
図6は、一つの実施例の下で、ある周波数の範囲について、数多くの時間スロットへのオーディオ信号の分割を示している。ダイヤグラム600の実施例については、64個の周波数ビンk、および、示されるように、複数の時間-周波数タイルを生成する32個の時間スロットtが存在する(正確な縮尺である必要はないが)。圧縮プリステップは、コーデック入力がS’
t(k)=S
t(k)/g
tとなるように調整する。この等式において、
【数1】
は、正規化されたスロット平均である。
【0025】
上記の等式において、
【数2】
は、平均絶対レベル/1-ノルムであり、S
0は、適切な定数である。一般的なp-ノルムは、以下のコンテクストにおいて定義される。
【0026】
【0027】
1-ノルムは、エネルギー(rms/2-ノルム)の使用よりも、著しく良い結果を与えることが示されてきた。指数項γの値は、典型的に0と1の間の範囲にあり、1/3であるように選択されてよい。定数S0は、実施プラットフォームから独立して道理にかなったゲイン値を保証する。例えば、全てのSt(k)値が、絶対値が1に制限されるプラットフォームにおいて実施される場合に、定数S0は1であってよい。St(k)が異なる最大値を有しうるプラットフォームにおいては、潜在的に異なるものであり得る。信号の大きなセットにわたる平均ゲイン値が1に近いことを保証するためにも使用され得るものである。つまり、コンテンツの大きな集積から判断された最大信号値と最小信号値との間の中間信号値であってよい。
【0028】
拡張コンポーネント114によって実行されるポストステッププロセスにおいては、圧縮コンポーネント104によって適用される反転ゲインによって出力が拡大される。このことは、圧縮コンポーネントのフィルターバンクに係る正確な又はほぼ正確なレプリカを要求する。この場合、
【数4】
は、この第2フィルターバンクの複素値サンプル(complex valued sample)を表している。拡張コンポーネント114は、
【数5】
となるようにコーデック出力を調整する。
【0029】
上記の等式において、
【数6】
は、正規化されたスロット平均であり、次のように与えられる。
【0030】
【0031】
一般的に、拡張コンポーネント114は、圧縮コンポーネント104において使用されたものと同一のp-ノルムを使用する。従って、
【数9】
を定めるために平均絶対レベルが使用される場合には、
【数10】
も、また、上記の等式における1-ノルム(p=1)を使用して定められる。
【0032】
複合フィルターバンク(コサインおよびサインベースの関数両方を含む)、STFTまたは復号QMF(complex-QMF)といったもの、が圧縮と拡張コンポーネントにおいて使用される場合、
大きさ(magnitude)、つまり、復号サブバンドサンプルの
【数11】
または
【数12】
の計算は、計算的に集中した平方根演算を必要とする。
【0033】
上記の等式において、値Kは、フィルターバンクにおけるサブバンドの数量と等しいか、それ以下である。一般的に、p-ノルムは、フィルターバンクにおけるサブバンドのあらゆるサブセットを使用して計算され得る。しかしながら、エンコーダ106とデコーダ112の両方において同一のサブセットが使用されるべきである。一つの実施例において、オーディオ信号の高周波数部分(例えば、6kHz以上のオーディオコンポーネント)は、高度なスペクトラム拡張(A-SPX)ツールを用いてコード化され得る。加えて、ノイズ形成をガイドするためには、1kHz以上の信号(または同様な周波数)のみを使用することが望ましい。そうした場合には、1kHzから6kHzの範囲内のそうしたサブバンドだけが、p-ノルム、そして従ってゲイン値を計算するために使用され得る。さらに、ゲインは、サブバンドの一つのサブセットから計算されるが、異なり、かつ、おそらくより大きなサブバンドのサブセットに対してさえ適用され得るものである。
【0034】
図1に示されるように、オーディオコーデックのコアエンコーダ106によって持ち込まれる量子化ノイズを形成する圧縮機能は、所定のプリエンコーダ圧縮機能とポストデコーダ拡張機能を実行する2つの分離したコンポーネント104と114によって実行される。
図3Aは、一つの実施例の下で、プリエンコーダ圧縮コンポーネントにおいてオーディオ信号を圧縮する方法を説明するフローチャートであり、
図3Bは、一つの実施例の下で、ポストデコーダ拡張コンポーネントにおいてオーディオ信号を拡張する方法を説明するフローチャートである。
【0035】
図3Aにおいて示されるように、プロセス300は、圧縮コンポーネントが入力オーディオ信号を受信すること(302)から始まる。この圧縮は、次に、オーディオ信号を短時間セグメントへと分割し(304)、そして、それぞれの短時間セグメントに対して広帯域ゲイン値を適用することによって低減されたダイナミックレンジへオーディオ信号を圧縮する(306)。圧縮コンポーネントは、また、上述のように、異なるゲイン値を隣接するセグメントに対して適用することによって生じるあらゆる不連続性を低減または除去するために、所定のプロトタイプフィルタリングおよびQMFフィルターバンクを実施する(308)。所定の場合、オーディオコンテンツのタイプまたはオーディオコンテンツの所定の特性といったもの、オーディオコーデックのエンコード/デコードステージの前後のオーディオ信号の圧縮と拡張は、オーディオ出力の品質を高めるより、むしろ劣化させ得る。そうしたインスタンスにおいては、圧縮伸張プロセスがターンオフされ、または、異なる圧縮伸張(圧縮/拡張)レベルに戻るよう変更され得る。このように、圧縮コンポーネントは、他の変数の中で、圧縮伸張機能の妥当性及び/又は特定の信号入力とオーディオ再生環境に対して要求される圧縮伸張の最適レベルを決定する(310)。この決定ステップ310は、プロセス300のあらゆる実践的な時点で発生してよい。オーディオ信号の分割304またはオーディオ信号の圧縮306の以前といったものである。圧縮伸張が適切であると判断される場合には、ゲインが適用される(306)。そして、エンコーダは、次に、コーデックのデータフォーマットに従ってデコーダに対して送信するための信号を符号化する(312)。所定の圧縮伸張コントロールデータ、動作化データといったもの、同期化データ、圧縮伸張レベルデータ、および、他の類似のコントロールデータは、拡張コンポーネントによる処理のためのビットストリーム部分として送信され得る。
【0036】
図3Bは、一つの実施例の下で、ポストデコーダ拡張コンポーネントにおいてオーディオ信号を拡張する方法を説明するフローチャートである。プロセス350に示されるように、コーデックのデコードステージは、エンコードステージからオーディオ信号を符号化しているビットストリームを受信する(352)。デコーダは、次に、コーデックデータフォーマットに従って、符号化された信号を復号化する(353)。拡張コンポーネントは、次に、ビットストリームを処理して、コントロールデータに基づいて拡張パラメータの拡張または変更をスイッチオフするために、あらゆる符号化されたコントロールデータを適用する(354)。拡張コンポーネントは、適切なウィンドウ形状を使用して、オーディオ信号を時間セグメントへと分割する(356)。一つの実施例において、時間セグメントは、圧縮コンポーネントによって使用される同一の時間セグメントに対応している。拡張コンポーネントは、次に、周波数領域において各セグメントに対する適切なゲイン値を計算し、かつ、オーディオ信号のダイナミックレンジをオリジナルのダイナミックレンジ又はあらゆる他の好適なダイナミックレンジに戻すように拡張するために各時間セグメントに対してゲイン値を適用する。
【0037】
圧縮伸張コントロール
システム100の圧縮伸張器(compander)を含む圧縮と拡張コンポーネントは、オーディオ信号処理の所定の時間においてだけ、もしくは、所定のタイプのオーディオコンテンツに対してだけ、プリとポスト処理ステップを適用するように構成されている。例えば、圧縮伸張は、スピーチおよび音楽の過渡信号に対して有益性を示し得る。しかしながら、変動がない信号といった、他の信号に対して、圧縮伸張は信号品質を低下させることがある。従って、
図3Aに示されるように、圧縮伸張コントロールメカニズムがブロック310のように提供され、圧縮伸張オペレーションを調整するために、圧縮コンポーネント104から拡張コンポーネント114に対してコントロールデータが送信される。そうしたコントロールメカニズムの最も簡単な形態は、圧縮伸張の適用がオーディオ品質を低下させてしまうオーディオサンプルのブロックに対して、圧縮伸張機能をスイッチオフすることである。一つの実施例において、圧縮伸張のオン/オフ決定はエンコーダにおいて検出され、ビットストリームエレメントとしてデコーダに対して送信される。同一のQMF時間スロットにおいて圧縮器と拡張器がスイッチオン/オフされ得るようにである。
【0038】
2つの状態間のスイッチングは、たいてい、適用されるゲインにおける不連続性を導き、結果として聞き取ることができるスイッチングアーチファクトまたはクリック音を生じてしまう。実施例は、こうしたアーチファクトを低減または除去するためのメカニズムを含んでいる。第1の実施例において、システムは、ゲインが1に近いフレームにおいてだけ、圧縮伸張機能オフとオンのスイッチングをすることができる。この場合、スイッチングと機能オン/オフとの間にはわずかな不連続性しか存在しない。第2の実施例においては、オンとオフモードとの間に、つまり、第3の弱い(weak)圧縮伸張モードが、オンとオフフレームとの間のオーディオフレームに適用される。弱い圧縮伸張モードは、圧縮伸張の最中に、指数項γをデフォルト値から0へゆっくりと移行する。中間的な弱い圧縮伸張モードの代替として、システムは、スタートフレーム(start-frame)とストップフレーム(stop-frame)を実施し得る。圧縮伸張機能を突然にスイッチオフする代わりに、オーディオサンプルのブロックにわたり、圧縮伸張モードを滑らかにフェードアウトするものである。さらなる実施例において、システムは、単純に圧縮伸張をスイッチオフするのではなく、むしろ平均ゲインを適用するように構成されている。所定の場合において、音調変動がない信号のオーディオ品質が増加され得る。圧縮伸張オフ状態における一定ゲイン係数1.0よりも、隣接する圧縮伸張オンフレームのゲイン係数に多く似ているオーディオフレームに対して一定ゲイン係数を適用する場合である。そうしたゲイン係数は、一つのフレームにわたり全ての圧縮伸張ゲインを平均することによって計算することができる。一定の平均圧縮伸張ゲインを含むフレームは、このように、ビットストリームにおいて合図される。
【0039】
実施例は、モノラルオーディオチャンネルのコンテクストにおいて説明されているが、各チャンネルに対して個別にアプリケーションを繰り返すことによって、簡単に、マルチチャンネルを取り扱い得ることに留意すべきである。しかしながら、2つまたはそれ以上のチャンネルを含むオーディオ信号は所定の追加的な複雑性を示し、
図1の圧縮伸張システムの実施例によって扱われる。圧縮伸張ストラテジーは、チャンネル間の類似性に基づくべきである。
【0040】
例えば、ステレオパン(stereo-panned)の過渡信号の場合には、個々のチャンネルの独立した圧縮伸張が聞き取ることができるイメージアーチファクトを結果として生じ得ることが観察されてきた。一つの実施例において、システムは、両方のチャンネルのサブバンドサンプルから各時間セグメントに対する一つのゲイン値を決定し、2つの信号を圧縮/拡張するために同一のゲイン値を使用する。このアプローチは、一般的に、2つのチャンネル領域が非常に類似した信号を有するときはいつでも適切なものである。ここでは、例えば、相互相関を使用して類似性が定められる。検出器は、チャンネル間の類似性を計算し、チャネルの個別の圧縮伸張を使用するか、チャネルを共同して圧縮伸張するかを切り換える。より多くのチャンネルへの拡張は、チャンネルを類似性クライテリアを使用してチャンネルのグループへと分割し、共同圧縮伸張をグループに適用する。このグループ情報は、次に、ビットストリームを通じて送信される。
【0041】
システム実施
図4は、一つの実施例の下で、コーデックのエンコードステージに関してオーディオ信号を圧縮するためのシステムを説明するブロックダイヤグラムである。
図4は、
図3Aに示されたコーデックべースのシステムにおける使用のための圧縮方法の少なくとも一部を実施するハードウェア回路またはシステムを示している。システム400で示されるように、時間領域における入力オーディオ信号401が、QMFフィルターバンク402に入力される。このフィルターバンクは、入力信号を複数のコンポーネントへと分離する分析オペレーションを実施する。そこでは、各バンドパスフィルタがオリジナル信号の周波数サブバンドを伝える。QMFフィルターバンク410によって実行される合成オペレーションにおいて、信号の再構成が実行される。
図4の実施例においては、分析と統合の両方のフィルターバンクが、64バンドを取り扱う。コアエンコーダ412は、統合フィルターバンク410からオーディオ信号を受信して、オーディオ信号を符号化することによって適切なデジタルフォーマット(例えば、MP3、ACC、等)においてビットストリームを生成する。
【0042】
システム400は、オーディオ信号が分割された短いセグメントそれぞれに対してゲイン値を適用する圧縮器406を含んでいる。これは、
図2Bに示されるといった、圧縮されたダイナミックレンジのオーディオ信号を生成する。圧縮伸張コントロールユニット404は、オーディオ信号を分析して、信号のタイプ(例えば、スピーチ)、信号の特性(例えば、変動がないものと過渡のもの)、または他の関連するパラメータに基づいて、圧縮が適用されるべきか、または、どの程度の圧縮が適用されるべきかを決定する。コントロールユニット404は、オーディオ信号の時間的なピーク特性を検出するためのメカニズムを含み得る。検出されたオーディオ信号の特性と所定の規定のクライテリアに基づいて、コントロールユニット404は、圧縮機能をターンオフするか、短いセグメントに適用するゲイン値を変更するか、いずれかを行うように、圧縮器406に対して適切なコントロール信号を送信する。
【0043】
圧縮伸張に加えて、多くの他の符号化ツールも、また、QMF領域において動作し得る。そうした一つのツールは、A-SPX(advanced apectral extension)であり、
図4のブロック408に示されている。A-SPXは、知覚的により重要でない周波数が、より重要な周波数よりも粗い符号化スキームを用いて符号化されるように使用される技術である。例えば、デコーダ側のA-SPXにおいては、より低い周波数からのQMFサブバンドサンプルが、より高い周波数においてレプリカされ、そして、エンコーダからデコーダへ送信された側面情報(side information)を使用して、より高い周波数帯におけるスペクトラムエンベロープ(spectral envelope)が、次に形成される。
【0044】
圧縮伸張とA-SPXの両方がQMF領域において実行されるシステムでは、エンコーダにおいて、より高い周波数に対するA-SPXエンベロープデータが、
図4に示されるように、未だ圧縮されていないサブバンドサンプルから引き出され得る。そして、コアエンコーダ412によって符号化された信号の周波数帯に対応する、より低い周波数のQMFサンプルに対してだけ圧縮が適用され得る。
図5のデコーダ502において、復号化された信号のQMF分析504の後で、拡張プロセス506が最初に適用され、そして、A-SPXオペレーション508が、より低い周波数において拡張された信号から、より高いサブバンドサンプルを続いて再び生成する。
【0045】
この実施例においては、エンコーダにおけるQMF統合フィルターバンク410とデコーダ504におけるQMF分析フィルターバンクが、一緒に、640-64+1サンプル遅延(~9QMFスロット)をもたらす。この実施例におけるコアコーデック遅延は3200サンプル(50QMFスロット)であり、全体の遅延は59スロットである。この遅延は、コントロールデータをビットストリームの中にエンベッドすること、および、デコーダにおいてそれを使用することによって説明される。エンコーダの圧縮器とデコーダの拡張器の両方が、同期して動作するようにである。
【0046】
代替的に、エンコーダにおいては、オリジナル信号の全てのバンド幅について圧縮が適用されてよい。A-SPXエンベロープが、続いて、圧縮されたサブバンドサンプルから引き出され得る。そうした場合に、デコーダは、QMF分析の後で、圧縮された信号の全てのバンド幅を最初に再構成するために、A-SPXを最初に実行する。拡張ステージは、次に、オリジナルのダイナミックレンジを伴う信号を回復するために適用される。
【0047】
QMF領域において動作し得るさらに別のツールは、
図4における高度カップリング(avdanced coupling、AC)ツール(図示なし)であり得る。高度カップリングシステムおいては、ステレオ出力を再構成するためにデコーダでQMF領域において適用され得る追加的なパラメトリック(parametric)空間情報を伴うモノダウンミックス(downmix)として2つのチャンネルが符号化される。ACと圧縮伸張は、お互いに関連して使用される。ACツールは、エンコーダでの圧縮ステージ406の後に配置することもでき、その場合はデコーダでの拡張ステージ506の前に適用されるだろう。代替的に、AC側面情報は、圧縮されていないステレオ信号から引き出され得る。その場合に、ACツールは、デコーダでの拡張ステージ506の後に動作するだろう。ハイブリッド(hybrid)ACモードも、また、サポートされる。その場合、ACが所定の周波数の上で使用され、かつ、この周波数の下ではディスクリートステレオ(discrete stereo)が使用される。もしくは、代替的に、ディスクリートステレオが所定の周波数の上で使用され、かつ、この周波数の下でACが使用される。
【0048】
図3Aと
図3Bに示されるように、コーデックのエンコードステージとデコードステージとの間で送信されるビットストリームは、所定のコントロールデータを含んでいる。そうしたコントロールデータは、側面情報を構成し、システムは、異なる圧縮伸張モード間をスイッチすることができる。スイッチングコントロールデータ(圧縮伸張オン/オフをスイッチングするためのもの)と潜在的ないくつかの中間状態を加えたものは、チャンネルごとに1または2ビットのオーダーを追加し得る。他のコントロールデータは、ディスクリートステレオの全てのチャンネルまたはマルチチャンネルコンフィグレーションが、共通の圧縮伸張ゲイン係数を使用するか、もしくは、各チャンネルに対して独立してゲイン係数が計算されるべきか、を決定するための信号を含み得る。そうしたデータは、チャンネルごとに一つのエクストラビット(ectra bit)を要求だけし得る。他の同様なコントロールデータエレメントとそれらの適切なビット荷重は、システム要求と制限に従って使用され得る。
【0049】
検出メカニズム
一つの実施例において、圧縮伸張コントロールメカニズムは、QMF領域において圧縮伸張のコントロールを提供するために、圧縮コンポーネント104の部分として含まれている。圧縮伸張コントロールは、多くのファクターに基づいて構成され得る。オーディオ信号タイプといったものである。例えば、大部分のアプリケーションにおいて、圧縮伸張は、スピーチ信号と過渡信号、または、時間的にピーキー(peaky)な信号のクラスの中のあらゆる他の信号に対して、ターンオンされるべきである。システムは、圧縮伸張機能のための適切なコントロール信号の生成を手助けするために、信号のピークを検出するための検出メカニズムを含んでいる。
【0050】
一つの実施例においては、所与のコアコーデックについて、周波数ビン(frequency bin)kにわたり、時間的ピークTP(k)frameに対する測定値が計算される。以下の等式を使用して計算されるものである。
【0051】
【0052】
上記の等式において、St(k)は、サブバンド信号であり、Tは、一つのコアエンコーダフレームに対応するQMFスロットの数量である。一つの実施例において、Tの値は、32であってよい。バンド毎に計算された時間的ピークは、サウンドコンテンツを一般的な2つのカテゴリーへと分類するために使用され得る。変動のない音楽信号、および、音楽的過渡信号またはスピーチ信号である。TP(k)frameの値が、定められた値(例えば、1.2)より小さい場合に、フレームのそのサブバンドにおける信号は、変動のない音楽信号である可能性が高い。TP(k)frameの値が、この値より大きい場合には、信号は、音楽的過渡信号またはスピーチ信号である可能性が高い。値が、より高い閾値(例えば、1.6)より大きい場合、信号は、純粋な音楽的過渡信号である可能性が非常に高い。例えば、カスタネットである。さらに、自然に生じている信号に対して、異なるバンドにおいて得られた時間的ピークの値は、多かれ少なかれ類似していることが観察されてきており、この特性は、計算されるべき時間的ピーク値に対するサブバンドの数量を低減するために使用され得るものである。この観察に基づいて、システムは、以下の2つのうち一つを実施し得る。
【0053】
第1実施例において、検出器は以下のプロセスを実行する。第1ステップとして、検出器は1.6より大きな時間的ピークを有するバンドの数量を計算する。第2ステップとして、検出器は、次に、1.6より小さいバンドの時間的ピークの平均を計算する。第1ステップにおいて見つかったバンドの数量が51より多い場合、または、第2ステップにおいて決定された平均値が1.45より大きい場合には、信号が、音楽的過渡信号であると決定され、従って、圧縮伸張がスイッチオンされるべきである。そうでなければ、圧縮伸張がスイッチオンされるべきでない信号であるものと決定される。そうした検出器は、スピーチ信号に対して、大部分の時間をスイッチオフする。いくつかの実施例において、スピーチ信号は、たいてい、個別のスピーチコーダーによって符号化され、そして、このことは一般的には問題ではない。しかしながら、所定の場合においては、スピーチに対しても、また、圧縮伸張機能をスイッチオンすることが望ましいことがある。この場合、第2タイプの検出器が適切であろう。
【0054】
一つの実施例において、この第2タイプの検出器は、以下のプロセスを実行する。第1ステップとして、検出器は1.2より大きな時間的ピークを有するバンドの数量を計算する。第2ステップとして、検出器は、次に、1.2より小さいバンドの時間的ピークの平均を計算する。検出器は、次に、以下のルールを適用する。第1ステップの結果が55より大きい場合に圧縮伸張をターンオンし、第1ステップの結果が15より小さい場合に圧縮伸張をターンオフする。第1ステップの結果が15と55の間であり、かつ、第2ステップの結果が1.16より大きい場合に圧縮伸張をターンオンし、第1ステップの結果が15と55の間であり、かつ、第2ステップの結果が1.16より小さい場合に圧縮伸張をターンオフする。説明された2つのタイプの検出器は、検出アルゴリズムのために多くの可能なソリューションのうち2つの実施例に過ぎず、他の同様なアルゴリズムも、または、代替的に、使用され得ることに留意すべきである。
【0055】
図4のエレメント404によって提供される圧縮伸張コントロール機能は、所定のオペレーションモードに基づいて圧縮伸張が使用され、もしくは、使用されないように、あらゆる適切な方法で実施され得る。例えば、圧縮伸張は、一般的には、サラウンドサウンドシステムのLFE(low frequency effects)チャンネル上では使用されない。そして、A-SPX機能が実施されていない(つまり、QMFなし)場合にも、また、使用されない。一つの実施例において、圧縮伸張コントロール機能は、圧縮伸張コントロールエレメント404といった、回路またはプロセッサベースのエレメントにより実行されるプログラムによって提供され得る。以下は、一つの実施例において、圧縮伸張コントロールを実施することができるプログラムセグメントのシンタックスのある実施例である。
Companding_control(nCh)
{
sync_flag=0;
if(nCh>1){
sync_flag
}
b_needAvg=0
ch_count=sync_flag?1:nCh
for(ch=0;ch<ch_count;ch++){
b_compand_on[ch]
if(!b_compand_on[ch]){
b_needAvg=1;
}
}
if(b_needAvg){
b_compand_avg:
}
}
sync_flag、b_compand_on〔ch〕、および、b_compand_avgフラグ、または、プログラムエレメントは、1ビット長のオーダーであってよく、または、システム制限と要求に応じたあらゆる他の長さであってよい。上記に説明されたプログラムコードは、圧縮伸張コントロール機能を実施する一つの方法の実施例であって、いくつかの実施例に従った圧縮伸張コントロールを実施するために他のプロトコルまたはハードウェアコンポーネントが使用され得ることに留意すべきである。
【0056】
説明された実施例は、これまで、コーデックにおけるエンコーダによって持ち込まれる量子化ノイズを低減するための圧縮伸張プログラムを含んでいるが、そうした圧縮伸張プロセスの態様は、エンコードとデコード(コーデック)ステージを含まない一つの信号処理システムにおいても適用され得ることに留意すべきである。さらに、圧縮伸張プロセスがコーデックに関連して使用される場合に、コーデックは、変換ベース(transform-based)または非変換ベースのものであってよい。
【0057】
ここにおいて説明されたシステムの態様は、デジタルまたはデジタル化されたオーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境において実施され得る。アダプティブ(adptive)オーディオシステムの部分は、あらゆる所望の数量の個別のマシンを有する一つまたはそれ以上のネットワークを含み得る。マシンは、コンピュータ間で送信されるデータをバッファし、かつ、ルート化するのに役立つ一つまたはそれ以上のルーター(図示なし)を含んでいる。そうしたネットワークは、種々の異なるネットワークプロトコル上で構築され得る。そして、イントラネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、または、これらのあらゆる組合せであってよい。
【0058】
一つまたはそれ以上のコンポーネント、ブロック、プロセス、または、他の機能的コンポーネントは、システムに係るプロセッサベースのコンピューティングデバイスの実行をコントロールするコンピュータプログラムを通じて実施され得る。ここにおいて開示された種々の機能は、ハードウェア、ファームウェア、及び/又は、種々のマシンで読取り可能またはコンピュータで読取り可能な媒体において具現化されるデータ及び/又はインストラクションとしての、あらゆる数の組合せを使用して記述され得ることにも、また、留意すべきである。行動、レジスタ転送、ロジックコンポーネント、及び/又は、他の特性、に関するものである。そうしたフォーマットされたデータ及び/又はインストラクションが具体化され得るコンピュータで読取り可能な媒体は、これらに限定されるわけではないが、種々の形態における物理的(固定)、不揮発性ストレージメディアを含んでいる。光、磁気、または、半導体ストレージメディアといったものである。
【0059】
コンテクストが、そうでないものと明確に要求しなければ、明細書および特許請求の範囲の全てを通じて、用語「含む(”comprise”、”comprising”)」および類似のものは、排他的または徹底的な意味とは反対の包括的な意味において理解されるべきである。一つまたは複数の数を使用する用語は、また、それぞれに、複数または一つの数も含むものである。加えて、用語「ここにおいて(”herein”)」、「これ以降(”hereunder”)」、「上記の(”above”)」、「以下の(”below”)」、および、類似の意味の用語は、この出願申請に全体として言及するものであり、この出願申請のあらゆる特定の部分に言及するものではない。用語「または(”or”)」が、2つまたはそれ以上のアイテムのリストに関連して使用される場合、その用語は、以下の用語の解釈の全てをカバーするものである。つまり、リストの中のあらゆるアイテム、リストの中の全てのアイテム、および、リストの中のアイテムのあらゆる組合せ、である。
【0060】
一つまたはそれ以上の実施例が、例示として、および、特定の実施例に関して説明されてきたが、一つまたはそれ以上の実施は、開示された実施例に限定されるものではないことが理解されるべきである。反対に、当業者にとって明らかであるような種々の変形および類似の構成をカバーするように意図されている。従って、添付の特許請求の範囲は、全てのそうした変形および類似の構成を包含するように、最も広い解釈に調和されるべきである。
上記の実施形態につき以下の付記を残しておく。
(付記1)
オーディオ信号を拡張する方法であって、
オーディオ信号を受信するステップと、
拡張プロセスによって前記オーディオ信号を拡張されたダイナミックレンジまで拡張するステップと、を含み、
前記拡張プロセスは、
定められたウィンドウ形状を使用して前記受信したオーディオ信号を複数の時間セグメントへと分割するステップと、
前記オーディオ信号の周波数領域表現の非エネルギーベース平均を使用して、前記周波数領域において各時間セグメントに対する広帯域ゲインを計算するステップと、
前記拡張されたダイナミックレンジを得るために、各時間セグメントに対して個別のゲイン値を適用するステップと、を含み、
前記個別のゲイン値の適用は、比較的に高い強度のセグメントを増幅し、かつ、比較的に低い強度のセグメントを弱める、
方法。
(付記2)
前記セグメントは、オーバーラップしている、
付記1に記載の方法。
(付記3)
前記オーディオ信号を分析するために第1フィルターバンクが使用されて、周波数領域表現を獲得し、かつ、
前記定められたウィンドウ形状は、前記第1フィルターバンクに対するプロトタイプフィルタに対応している、
付記2に記載の方法。
(付記4)
前記第1フィルターバンクは、直角位相変調フィルタ(QMF)バンクまたは短時間フーリエ変換のうちの一つである、
付記3に記載の方法。
(付記5)
各時間セグメントに対する前記広帯域ゲインは、前記各時間セグメントにおけるサブバンドのサブセットの中の前記サブバンドサンプルを使用して計算される、
付記3に記載の方法。
(付記6)
サブバンドの前記サブセットは、前記第1フィルターバンクによってスパンされる全ての周波数帯に対応する、
付記5に記載の方法。
(付記7)
各時間セグメントそれぞれに対する前記ゲインは、各時間セグメントにおける前記サブバンドサンプルのp-ノルムから引き出され、
ここで、pは、2に等しくない正の実数である、
付記5に記載の方法。
(付記8)
前記広帯域ゲインは、前記第1フィルターバンクの領域において適用される、
付記5に記載の方法。
(付記9)
各広帯域ゲイン値は、前記第1フィルターバンクのサブバンドの第1サブセットから計算されて、前記第1フィルターバンクのサブバンドの第2サブセットに適用され、
ここで、サブバンドの第2セットは、サブバンドの前記第1サブセットを含む、
付記8に記載の方法。
(付記10)
サブバンドの前記第1サブセットおよび前記第2サブセットは、同一であり、かつ、前記オーディオ信号の低周波数領域に対応している、
付記9に記載の方法。
(付記11)
サブバンドの前記第1サブセットは、前記オーディオ信号の低周波数領域に対応し、かつ、
サブバンドの前記第2サブセットは、前記第1フィルターバンクによってスパンされる全ての周波数帯に対応する、
付記9に記載の方法。
(付記12)
前記受信したオーディオ信号は、プロセスによって以前に圧縮されているものであり、
前記プロセスは、
最初のオーディオ信号を受信するステップと、
圧縮プロセスによって、前記最初のオーディオ信号のオリジナルのダイナミックレンジを実質的に低減するように圧縮するステップと、を含み、
前記圧縮プロセスは、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへと分割するステップと、
前記最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して、各セグメントに対する広帯域ゲインを計算するステップと、
比較的に低い強度のセグメントを増幅し、かつ、比較的に高い強度のセグメントを弱めるために、前記複数のセグメントの各セグメントに対して前記最初のオーディオ信号から計算されたゲイン値を適用するステップと、
を含む、付記3に記載の方法。
(付記13)
拡張プロセスによって計算された前記広帯域ゲインは、対応する時間セグメントについて前記圧縮プロセスによって計算された前記広帯域ゲインの実質的な反転である、
付記12に記載の方法。
(付記14)
前記最初のオーディオ信号を分析するために前記圧縮プロセスにおいて前記広帯域ゲインが計算されて、周波数領域表現を獲得し、かつ、
分割のための前記定められたウィンドウ形状は、前記第1フィルターバンクに対するプロトタイプフィルタと同一であり、さらに、
第2フィルターバンクは、前記第1フィルターバンクと同一である、
付記12に記載の方法。
(付記15)
前記拡張プロセスのために受信された信号は、ビットストリームを生成するオーディオエンコーダおよび前記ビットストリームを復号化するデコーダによる前記圧縮された信号の修正の後で獲得される、
付記12に記載の方法。
(付記16)
前記オーディオエンコーダと前記デコーダは、両方ともに変換ベースのものであり、かつ、
前記圧縮プロセスと前記拡張プロセスにおける前記オーディオ信号の時間セグメントは、前記オーディオエンコーダとデコーダにおける変換に係る一つのウィンドウ長よりも実質的に短い、
付記15に記載の方法。
(付記17)
前記方法は、さらに、
前記拡張プロセスの動作状態を決定するコントロール情報を生成するステップと、
前記エンコーダから前記デコーダへ送信されるビットストリームにおいて、前記コントロール情報を送信するステップと、
を含む、付記15に記載の方法。
(付記18)
前記ビットストリームにおけるオーディオ信号は、前記拡張プロセスの複数の時間セグメントに応じたそれぞれのフレームを伴うフレームへと分割され、
前記動作状態がグループから選択され、
前記グループは、
前記拡張プロセスをフレームにおける各時間セグメントに適用すること、
前記拡張プロセスをフレームにおけるあらゆる時間セグメントに適用しないこと
修正されたゲイン計算を用いて前記拡張プロセスをフレームにおける各時間セグメントに適用することであって、前記各時間セグメントにおいて適用される前記ゲインは、前記フレームにおける全ての時間セグメントの平均ゲインであること、
修正されたゲイン計算を用いて前記拡張プロセスをフレームにおける各時間セグメントに適用することであって、計算は前記拡張プロセスを全く適用しないときに対して中間のゲイン値を結果として生じること、
ストップフレームを使用して、前記拡張プロセスが適用されているフレームからフェードアウトして、前記拡張プロセスが適用されていないフレームへフェードインすること、
スタートフレームを使用して、前記拡張プロセスが適用されていないフレームからフェードアウトして、前記拡張プロセスが適用されているフレームへフェードインすること、および、
前記拡張プロセスを完全に適用すること、
からなる、付記17に記載の方法。
(付記19)
前記拡張プロセスに対する前記コントロール情報は、前記最初のオーディオ信号の一つまたはそれ以上の特性に基づく前記圧縮ステップによって決定され、前記オーディオ信号のコンテンツタイプと前記オーディオ信号に係る変動のない特性対過渡特性のうち少なくとも一つを含む、
付記18に記載の方法。
(付記20)
前記コントロール情報は、動作状態間のスイッチングが信号の不連続性の発生を最小化するように決定される、
付記19に記載の方法。
(付記21)
前記コントロール情報は、前記圧縮プロセスもコントロールし、かつ、
前記拡張プロセスがスイッチオフされる場合に前記圧縮プロセスをターンオフし、前記拡張プロセスがスイッチオンされる場合に前記圧縮プロセスをターンオンする、効果を有し、
拡張に対する修正されたゲイン計算がなされる場合に、拡張に対する修正されたゲイン計算ができるようにし、
前記拡張器においてストップフレームが使用される場合にストップフレームを使用し、前記拡張器においてスタートフレームが使用される場合にスタートフレームを使用する、
付記20に記載の方法。
(付記22)
前記圧縮されたオーディオ信号と前記拡張器によって受信された前記オーディオ信号は、数量、N、チャンネルを有し、ここでNは1より大きく、
前記チャンネルは、一つまたはそれ以上の分離したサブセットへとグループ化され、
前記圧縮器および前記拡張器でのグループ化は、同一のものであり、
各グループにおける前記チャンネルは、前記圧縮器において同一のゲインを共有して圧縮され、かつ、前記拡張器において同一のゲインを共有して拡張される、
付記15に記載の方法。
(付記23)
前記グループ化は、既定のものであり、前記圧縮器と前記拡張器において既知である、
付記22に記載の方法。
(付記24)
各グループは、まさに一つのチャンネルを含み、N個のグループが存在する、
付記23に記載の方法。
(付記25)
チャンネルの前記グループ化は、
前記圧縮器においてチャンネル間の類似性メトリックを計算すること、
前記類似性メトリックに基づいて、類似のチャンネルを一緒にグループ化すること、
前記ビットストリームを通じて前記グループ化の情報を送信すること、
を含む、付記22に記載の方法。
(付記26)
ステレオ出力を再構成するために、少なくとも2つのチャンネルを前記第1フィルターバンク領域において適用された追加的なパラメトリック空間情報を伴うモノダウンミックスとして符号化し、
前記追加的なパラメトリック空間情報は、既定の周波数の下で使用される分離したステレオ情報を伴う既定の周波数の上で使用されるか、または、既定の周波数の上で使用される分離したステレオ情報を伴う既定の周波数の下で使用されるか、いずれかである、
付記22に記載の方法。
(付記27)
オーディオ信号を圧縮する方法であって、
最初のオーディオ信号を受信するステップと、
圧縮プロセスによって前記最初のオーディオ信号のダイナミックレンジを実質的に低減するステップと、を含み、
前記圧縮プロセスは、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへと分割するステップと、
前記最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して、前記周波数領域における広帯域ゲインを計算するステップと、
比較的に低い強度のセグメントを増幅し、かつ、比較的に高い強度のセグメントを弱めるように、前記複数のセグメントの各セグメントに対して個別のゲイン値を適用するステップと、を含む、
方法。
(付記28)
前記セグメントは、オーバーラップしており、
前記オーディオ信号を分析するために第1フィルターバンクが使用されて、周波数領域表現を獲得し、かつ、
前記定められたウィンドウ形状は、前記第1フィルターバンクに対するプロトタイプフィルタに対応している、
付記27に記載の方法。
(付記29)
前記第1フィルターバンクは、直角位相変調フィルタ(QMF)バンクまたは短時間フーリエ変換のうちの一つである、
付記28に記載の方法。
(付記30)
各個別のゲイン値は、各時間セグメントにおけるサブバンドのサブセットの中のサブバンドサンプルを使用して計算される、
付記28に記載の方法。
(付記31)
サブバンドの前記サブセットは、前記第1フィルターバンクによってスパンされる全ての周波数帯に対応し、かつ、
前記ゲインは、前記第1フィルターバンクの領域において適用される、
付記30に記載の方法。
(付記32)
各時間セグメントに対する前記ゲインは、各時間セグメントにおける前記サブバンドサンプルのp-ノルムから引き出され、
ここで、pは、2に等しくない正の実数である、
付記30に記載の方法。
(付記33)
前記ゲインは、前記第1フィルターバンクのサブバンドの第1サブセットから計算されて、前記第1フィルターバンクのサブバンドの第2サブセットに適用され、
ここで、サブバンドの第2セットは、サブバンドの前記第1サブセットを含む、
付記30に記載の方法。
(付記34)
サブバンドの前記第1サブセットおよび前記第2サブセットは、同一であり、かつ、前記オーディオ信号の低周波数領域に対応している、
付記33に記載の方法。
(付記35)
サブバンドの前記第1サブセットは、前記オーディオ信号の低周波数領域に対応し、かつ、
サブバンドの前記第2サブセットは、前記第1フィルターバンクによってスパンされる全ての周波数帯に対応する、
付記33に記載の方法。
(付記36)
前記方法は、さらに、
前記最初のオーディオ信号の圧縮されたバージョンを拡張プロセスを実行する拡張コンポーネントに対して送信するステップを含み、
前記拡張プロセスは、
オーディオ信号の前記圧縮されたバージョンを受信するステップと、
前記オーディオ信号の前記圧縮されたバージョンを、プロセスによって、前記オーディオ信号のオリジナルのダイナミックレンジまで実質的に回復するように拡張するステップ、を含み、
前記プロセスは、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへと分割するステップと、
前記最初のオーディオ信号の周波数領域表現の非エネルギーベース平均を使用して、前記周波数領域において広帯域ゲインを計算するステップと、
比較的に高い強度のセグメントを増幅し、かつ、比較的に低い強度のセグメントを弱めるように、各時間セグメントに対して前記広帯域ゲインの個別のゲイン値を適用するステップと、
を含む、
付記27に記載の方法。
(付記37)
圧縮ステップによって計算された前記ゲインは、同一の時間セグメントについて前記拡張プロセスによって計算された前記ゲインの実質的な反転である、
付記36に記載の方法。
(付記38)
前記最初のオーディオ信号を分析するために前記拡張プロセスにおいて第2フィルターバンクが使用されて、周波数領域表現を獲得し、かつ、
分割のための前記定められたウィンドウ形状は、フィルターバンクに対するプロトタイプフィルタと同一であり、さらに、
第2フィルターバンクは、前記第1フィルターバンクと同一である、
付記36に記載の方法。
(付記39)
前記拡張ステップのために受信された信号は、ビットストリームを生成するオーディオエンコーダおよび前記ビットストリームを復号化するデコーダによる前記圧縮された信号の修正の後で獲得される、
付記36に記載の方法。
(付記40)
前記オーディオエンコーダと前記デコーダは、両方ともに変換ベースのものであり、かつ、
前記圧縮ステップと前記拡張ステップにおける前記オーディオ信号の時間セグメントは、前記オーディオエンコーダとデコーダにおける変換に係る一つのウィンドウ長よりも実質的に短い、
付記39に記載の方法。
(付記41)
前記方法は、さらに、
前記拡張ステップの動作状態を決定するコントロール情報を生成するステップと、
前記エンコーダから前記デコーダへ送信されるビットストリームにおいて、前記コントロール情報を送信するステップと、
を含む、付記39に記載の方法。
(付記42)
前記ビットストリームにおけるオーディオ信号は、前記拡張プロセスの複数の時間セグメントに応じたそれぞれのフレームを伴うフレームへと分割され、
前記動作状態がグループから選択され、
前記グループは、
前記拡張プロセスをフレームにおける各時間セグメントに適用すること、
前記拡張プロセスをフレームにおけるあらゆる時間セグメントに適用しないこと
修正されたゲイン計算を用いて前記拡張プロセスをフレームにおける各時間セグメントに適用することであって、前記各時間セグメントにおいて適用される前記ゲインは、前記フレームにおける全ての時間セグメントの平均ゲインであること、
修正されたゲイン計算を用いて前記拡張プロセスをフレームにおける各時間セグメントに適用することであって、計算は前記拡張プロセスを全く適用しないときに対して中間のゲイン値を結果として生じること、
ストップフレームを使用して、前記拡張プロセスが適用されているフレームからフェードアウトして、前記拡張プロセスが適用されていないフレームへフェードインすること、
スタートフレームを使用して、前記拡張プロセスが適用されていないフレームからフェードアウトして、前記拡張プロセスが適用されているフレームへフェードインすること、および、
前記拡張プロセスを完全に適用すること、
からなる、付記41に記載の方法。
(付記43)
前記拡張プロセスに対する前記コントロール情報は、前記最初のオーディオ信号の一つまたはそれ以上の特性に基づく前記圧縮ステップによって決定され、前記オーディオ信号のコンテンツタイプと前記オーディオ信号に係る変動のない特性対過渡特性のうち少なくとも一つを含む、
付記42に記載の方法。
(付記44)
前記コントロール情報は、動作状態間のスイッチングが信号の不連続性の発生を最小化するように決定される、
付記43に記載の方法。
(付記45)
前記コントロール情報は、前記圧縮プロセスもコントロールし、かつ、
前記拡張プロセスがスイッチオフされる場合に前記圧縮プロセスをターンオフし、前記拡張プロセスがスイッチオンされる場合に前記圧縮プロセスをターンオンする、効果を有し、
拡張に対する修正されたゲイン計算がなされる場合に、拡張に対する修正されたゲイン計算ができるようにし、
前記拡張器においてストップフレームが使用される場合にストップフレームを使用し、前記拡張器においてスタートフレームが使用される場合にスタートフレームを使用する、
付記44に記載の方法。
(付記46)
前記圧縮されたオーディオ信号と前記拡張器によって受信された前記オーディオ信号は、数量、N、チャンネルを有し、ここでNは1より大きく、
前記チャンネルは、一つまたはそれ以上の分離したサブセットへとグループ化され、
前記圧縮器および前記拡張器でのグループ化は、同一のものであり、
各グループにおける前記チャンネルは、前記圧縮器において同一のゲインを共有して圧縮され、かつ、前記拡張器において同一のゲインを共有して拡張される、
付記39に記載の方法。
(付記47)
前記グループ化は、既定のものであり、前記圧縮器と前記拡張器において既知である、
付記46に記載の方法。
(付記48)
各グループは、まさに一つのチャンネルを含み、N個のグループが存在する、
付記47に記載の方法。
(付記49)
チャンネルの前記グループ化は、
前記圧縮器においてチャンネル間の類似性メトリックを計算すること、
前記類似性メトリックに基づいて、類似のチャンネルを一緒にグループ化すること、
前記ビットストリームを通じて前記グループ化の情報を送信すること、
を含む、付記46に記載の方法。
(付記50)
ステレオ出力を再構成するために、少なくとも2つのチャンネルを前記第1フィルターバンク領域において適用された追加的なパラメトリック空間情報を伴うモノダウンミックスとして符号化し、
前記追加的なパラメトリック空間情報は、既定の周波数の下で使用される分離したステレオ情報を伴う既定の周波数の上で使用されるか、または、既定の周波数の上で使用される分離したステレオ情報を伴う既定の周波数の下で使用されるか、いずれかである、
付記49に記載の方法。
(付記51)
オーディオ信号を圧縮するための装置であって、
最初のオーディオ信号を受信する第1インターフェイスと、
前記最初のオーディオ信号のオリジナルのダイナミックレンジを実質的に低減するように前記最初のオーディオ信号を圧縮する圧縮器と、を含み、
前記圧縮器は、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへ分割し、
前記最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して、前記周波数領域における広帯域ゲインを計算し、
比較的に低い強度のセグメントを増幅し、かつ、比較的に高い強度のセグメントを弱めるように、前記複数のセグメントの各セグメントに対して個別のゲイン値を適用する、
ことにより圧縮を行う、装置。
(付記52)
前記装置は、さらに、
前記オーディオ信号を分析して、周波数領域表現を獲得する第1フィルターバンクを含み、
前記定められたウィンドウ形状は、前記第1フィルターバンクに対するプロトタイプフィルタに対応しており、さらに、
前記第1フィルターバンクは、直角位相変調フィルタ(QMF)バンクまたは短時間フーリエ変換のうちの一つである、
付記51に記載の装置。
(付記53)
個別のゲイン値は、各時間セグメントそれぞれにおけるサブバンドのサブセットの中のサブバンドサンプルを使用して計算される、
付記52に記載の装置。
(付記54)
サブバンドの前記サブセットは、前記第1フィルターバンクによってスパンされる全ての周波数帯に対応し、かつ、
前記ゲインは、前記第1フィルターバンクの領域において適用される、
付記53に記載の装置。
(付記55)
前記装置は、さらに、
前記最初のオーディオ信号の圧縮されたバージョンを拡張器へ送信する第2インターフェイスを含み、
前記拡張器は、
オーディオ信号の前記圧縮されたバージョンを受信し、
前記オーディオ信号の前記圧縮されたバージョンを、前記オーディオ信号のオリジナルのダイナミックレンジまで実質的に回復するために、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへと分割し、
前記最初のオーディオ信号の周波数領域表現の非エネルギーベース平均を使用して、前記周波数領域において広帯域ゲインを計算し、
比較的に高い強度のセグメントを増幅し、かつ、比較的に低い強度のセグメントを弱めるように、各時間セグメントに対して前記広帯域ゲインの個別のゲイン値を適用する、
ことによって拡張する、
付記52に記載の装置。
(付記56)
前記圧縮器によって計算された前記ゲインは、同一の時間セグメントについて前記拡張器によって計算された前記ゲインの実質的な反転である、
付記55に記載の装置。
(付記57)
前記装置は、さらに、
前記最初のオーディオ信号を分析して周波数領域表現を獲得する第2フィルターバンク、を含み、
分割のための前記定められたウィンドウ形状は、フィルターバンクに対するプロトタイプフィルタと同一であり、さらに、
第2フィルターバンクは、前記第1フィルターバンクと同一である、
付記55に記載の装置。
(付記58)
前記装置は、さらに、
前記オーディオ信号の圧縮されたバージョンを圧縮器から拡張器へ送信するように構成されているオーディオコーデックのエンコードステージとデコードステージを含み、
前記エンコーダと前記デコーダは、両方ともに変換ベースのものである、
付記55に記載の装置。
(付記59)
前記装置は、さらに、
前記拡張器の動作状態を決定するコントロール情報を生成し、かつ、前記ビットストリームにおいて前記コントロール情報を送信するコントロールコンポーネントを含み、
前記拡張プロセスに対する前記コントロール情報は、前記最初のオーディオ信号の一つまたはそれ以上の特性に基づく前記圧縮ステップによって決定され、前記オーディオ信号のコンテンツタイプと前記オーディオ信号に係る変動のない特性対過渡特性のうち少なくとも一つを含む、
付記58に記載の装置。
(付記60)
前記装置は、さらに、
ステレオ出力を再構成するために、前記第1フィルターバンク領域においてパラメトリック空間情報を適用するパラメトリック空間情報コンポーネント、を含み、
前記パラメトリック空間情報は、既定の周波数の下で使用される分離したステレオ情報を伴う既定の周波数の上で使用されるか、または、既定の周波数の上で使用される分離したステレオ情報を伴う既定の周波数の下で使用されるか、いずれかである、
付記55に記載の装置。
(付記61)
オーディオ信号を拡張するための装置であって、
圧縮されたオーディオ信号を受信する第1インターフェイスと、
前記圧縮されたオーディオ信号をオリジナルの圧縮されていないダイナミックレンジに実質的に回復するための拡張器と、を含み、
前記拡張器は、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへ分割し、
前記最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して、前記周波数領域における広帯域ゲインを計算し、
比較的に高い強度のセグメントを増幅し、かつ、比較的に低い強度のセグメントを弱めるように、前記複数のセグメントの各セグメントに対して個別のゲイン値を適用する、
ことにより拡張を行う、装置。
(付記62)
前記装置は、さらに、
前記オーディオ信号を分析して、周波数領域表現を獲得する第1フィルターバンクを含み、
前記定められたウィンドウ形状は、前記第1フィルターバンクに対するプロトタイプフィルタに対応しており、さらに、
前記第1フィルターバンクは、直角位相変調フィルタ(QMF)バンクまたは短時間フーリエ変換のうちの一つである、
付記61に記載の装置。
(付記63)
前記広帯域ゲインは、各時間セグメントに対する個々のゲイン値を含み、かつ、
個別のゲイン値それぞれは、各時間セグメントそれぞれにおけるサブバンドのサブセットの中のサブバンドサンプルを使用して計算される、
付記62に記載の装置。
(付記64)
サブバンドの前記サブセットは、前記第1フィルターバンクによってスパンされる全ての周波数帯に対応し、かつ、
前記ゲインは、前記第1フィルターバンクの領域において適用される、
付記63に記載の装置。
(付記65)
前記装置は、さらに、
最初のオーディオ信号を受信する圧縮器から前記圧縮されたオーディオ信号を受信する第2インターフェイスを含み、
前記圧縮器は、
前記最初のオーディオ信号の前記オリジナルのダイナミックレンジを実質的に低減するために、
定められたウィンドウ形状を使用して前記最初のオーディオ信号を複数の時間セグメントへと分割し、
前記最初のオーディオ信号の周波数領域サンプルの非エネルギーベース平均を使用して、前記周波数領域において広帯域ゲインを計算し、
比較的に低い強度のセグメントを増幅し、かつ、比較的に高い強度のセグメントを弱めるように、前記複数のセグメントの各時間セグメントに対して各ゲイン値を適用する、
ことによって前記最初のオーディオ信号を圧縮する、
付記62に記載の装置。
(付記66)
前記圧縮器によって計算された前記ゲインは、同一の時間セグメントについて前記拡張器によって計算された前記ゲインの実質的な反転である、
付記65に記載の装置。
(付記67)
前記装置は、さらに、
前記最初のオーディオ信号を分析して周波数領域表現を獲得する第2フィルターバンク、を含み、
分割のための前記定められたウィンドウ形状は、フィルターバンクに対するプロトタイプフィルタと同一であり、さらに、
第2フィルターバンクは、前記第1フィルターバンクと同一である、
付記65に記載の装置。
(付記68)
前記装置は、さらに、
前記オーディオ信号の圧縮されたバージョンのビットストリームを圧縮器から拡張器へ送信するように構成されているオーディオコーデックのエンコードステージとデコードステージを含み、
前記エンコーダと前記デコーダは、両方ともに変換ベースのものである、
付記65に記載の装置。
(付記69)
前記装置は、さらに、
前記拡張器の動作状態を決定するコントロール情報を生成し、かつ、前記ビットストリームにおいて前記コントロール情報を送信するコントロールコンポーネントを含み、
前記拡張プロセスに対する前記コントロール情報は、前記最初のオーディオ信号の一つまたはそれ以上の特性に基づく前記圧縮ステップによって決定され、前記オーディオ信号のコンテンツタイプと前記オーディオ信号に係る変動のない特性対過渡特性のうち少なくとも一つを含む、
付記68に記載の装置。
(付記70)
前記装置は、さらに、
ステレオ出力を再構成するために、前記第1フィルターバンク領域においてパラメトリック空間情報を適用するパラメトリック空間情報コンポーネント、を含み、
前記パラメトリック空間情報は、既定の周波数の下で使用される分離したステレオ情報を伴う既定の周波数の上で使用されるか、または、既定の周波数の上で使用される分離したステレオ情報を伴う既定の周波数の下で使用されるか、いずれかである、
付記65に記載の装置。
【符号の説明】
【0061】
104 圧縮コンポーネント
106 エンコーダ
110 ネットワーク
112 デコーダ
114 拡張コンポーネント
116 オーディオ出力
406 圧縮器
412 コアエンコーダ
【手続補正書】
【提出日】2024-01-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ信号を処理する方法であって、
複数の時間セグメントを含むオーディオ信号を受信するステップと、
各オーディオ信号の時間セグメントについてそれぞれのゲインを決定するステップであり、
前記ゲインは、周波数領域内にあり、かつ、前記オーディオ信号の周波数領域表現の各時間セグメントのスペクトラムマグニチュードのp-ノルムに基づいており、
前記p-ノルム値は、前記オーディオ信号の強いスペクトラムコンテンツに対して前記オーディオ信号の弱いスペクトラムコンテンツを強調するように選択される、
ステップと、
拡張されたオーディオ信号を獲得するために、それぞれの前記ゲイン値を各時間セグメントに適用するステップであり、
個々の前記ゲイン値の適用は、比較的に高い強度のセグメントを増幅し、かつ、比較的に低い強度のセグメントを弱める、
ステップと、
を含む、方法。
【請求項2】
前記p-ノルムにおけるpの値は、2未満である、
請求項1に記載の方法。
【請求項3】
前記オーディオ信号を分析するために第1フィルタバンクが使用されて、周波数領域表現を獲得し、かつ、
前記オーディオ信号のエンベロープにおける不連続性を除去するために、プロトタイプフィルタは、個々の前記ゲイン値をスムーズにするように成形されている、
請求項1に記載の方法。
【請求項4】
前記第1フィルタバンクは、直角位相変調フィルタ(QMF)バンクまたは短時間フーリエ変換のうちの1つである、
請求項3に記載の方法。
【請求項5】
命令を含む非一時的コンピュータ読取可能記憶媒体であって、
前記命令が1つ以上のプロセッサによって実行されると、請求項1に記載の方法を実施する、
非一時的コンピュータ読取可能記憶媒体。
【請求項6】
オーディオ信号を処理する装置であって、
複数のセグメントを含む圧縮されたオーディオ信号を受信するための第1インターフェイスと、
前記圧縮されたオーディオ信号を拡張する拡張器であり、複数のセグメントの各セグメントについてそれぞれのゲインを決定することを含み、
前記ゲインは、周波数領域内にあり、かつ、初期オーディオ信号の周波数領域サンプルに係る前記複数のセグメントの各セグメントのスペクトラムマグニチュードのp-ノルムに基づいている、
拡張器と、を含み、
前記p-ノルム値は、前記オーディオ信号の強いスペクトラムコンテンツに対して前記オーディオ信号の弱いスペクトラムコンテンツを強調するように選択され、かつ、前記複数のセグメントの各セグメントに対して前記それぞれのゲインを適用して、比較的に高い強度のセグメントを増幅して、比較的に低い強度のセグメントを弱める、
装置。
【外国語明細書】