特許7354275 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ブームクラウド　３６０　インコーポレイテッドの特許一覧

特許7354275優先度を持つ空間認識マルチバンド圧縮システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6A
6B
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-09-22

(45)【発行日】2023-10-02

(54)【発明の名称】優先度を持つ空間認識マルチバンド圧縮システム

(51)【国際特許分類】

H03G 7/00 20060101AFI20230925BHJP

G10L 19/008 20130101ALI20230925BHJP

【ＦＩ】

H03G7/00 002

G10L19/008 100

【請求項の数】 36

(21)【出願番号】P 2021555251

(86)(22)【出願日】2020-03-05

(65)【公表番号】

(43)【公表日】2022-04-12

(86)【国際出願番号】 US2020021238

(87)【国際公開番号】W WO2020185522

(87)【国際公開日】2020-09-17

【審査請求日】2021-11-12

(31)【優先権主張番号】62/818,674

(32)【優先日】2019-03-14

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

【前置審査】

(73)【特許権者】

【識別番号】518253875

【氏名又は名称】ブームクラウド３６０インコーポレイテッド

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】ジョセフマリグリオザサード

(72)【発明者】

【氏名】ザッカリーセルデス

【審査官】及川尚人

(56)【参考文献】

【文献】特表２０１８－５１１８２６（ＪＰ，Ａ）

【文献】特開２０１５－０５３６７２（ＪＰ，Ａ）

【文献】特表２０１６－５３０７６５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１６／０１９１００７（ＵＳ，Ａ１）

【文献】国際公開第２０１９／０２０７５７（ＷＯ，Ａ２）

【文献】米国特許出願公開第２０１９／００２０９６６（ＵＳ，Ａ１）

【文献】特表２０１９－５０６８０３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０３Ｇ５／００－９９／００

Ｇ１０Ｌ１９／００８

(57)【特許請求の範囲】

【請求項1】

処理回路によって、音声信号に圧縮を適用するための方法であって、
第２の音声座標系における前記音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成するステップであって、前記第１の音声座標系が中央－側方音声座標系であり、かつ前記第２の音声座標系が左－右音声座標系であるか、又は、前記第２の音声座標系が中央－側方音声座標系であり、かつ前記第１の音声座標系が左－右音声座標系である、ステップと、
前記圧縮を適用するための前記第３の成分及び前記第４の成分のそれぞれに対するレベルを定義する前記第２の音声座標系における振幅閾値を決定するステップと、
前記第１の成分の大きさが前記振幅閾値を超える量と、前記振幅閾値の上までの前記第１の成分の大きさの減衰量との間の関係を定義する第１の圧縮比を利用して、前記第１の成分に対する第１のゲイン係数を生成するステップと、
前記第３の成分又は前記第４の成分のうちの１つが前記振幅閾値を超えるとき、前記第１のゲイン係数を前記第１の成分に適用して、調整された第１の成分を生成するステップと、
前記第１の音声座標系における前記調整された第１の成分及び前記第２の成分を利用して、前記第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成するステップと
を含む、方法。

【請求項2】

前記処理回路によって、
前記第２の成分が前記振幅閾値を超えるとき、前記第２の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第２の成分の減衰量との間の関係を定義する第２の圧縮比を利用して、前記第２の成分に対する第２のゲイン係数を生成するステップと、
前記第３の成分又は前記第４の成分のうちの１つが前記振幅閾値を超えるとき、前記第２のゲイン係数を前記第２の成分に適用して、調整された第２の成分を生成するステップと、
をさらに含み、
前記調整された第１の成分及び前記第２の成分を利用して、前記第１の出力チャンネル及び前記第２の出力チャンネルを生成するステップは、前記第２の成分から生成された前記調整された第２の成分を利用することを含む、
請求項１に記載の方法。

【請求項3】

前記第１の成分は、圧縮についての、前記第２の成分より高い優先度を有し、前記第２のゲイン係数は、前記第１のゲイン係数の関数である、
請求項２に記載の方法。

【請求項4】

前記処理回路によって、
前記第１の成分に対する最小の第１のゲイン係数と、前記第２の成分に対する最小の第２のゲイン係数とを決定するステップと、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数が、前記最小の第１のゲイン係数を超えるかどうかを決定するステップと、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数が、前記最小の第２のゲイン係数を超えるかどうかを決定するステップと、
をさらに含み、
前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えると決定することに応答して、前記最小の第１のゲイン係数は、前記第１のゲイン係数として前記第１の成分に適用され、前記第２の成分ゲイン係数は、前記第２のゲイン係数として前記第２の成分に適用される、
請求項３に記載の方法。

【請求項5】

前記第１のゲイン係数を生成するステップは、
前記第１の成分に対する最小の第１のゲイン係数と、前記第２の成分に対する最小の第２のゲイン係数とを決定するステップと、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数が、前記最小の第１のゲイン係数を超えるかどうかを決定するステップと、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数が、前記最小の第２のゲイン係数を超えるかどうかを決定するステップと、
を含み、
前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えないと決定することに応答して、前記第１のゲイン係数及び前記第２のゲイン係数はそれぞれ残余ゲイン係数を含み、前記第１のゲイン係数の残余ゲイン係数は、前記第１の成分ゲイン係数の適用後の前記第１の成分にさらに適用され、前記第２のゲイン係数の残余ゲイン係数は、前記第２の成分ゲイン係数の適用後の前記第２の成分にさらに適用される、
請求項３に記載の方法。

【請求項6】

前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えないことに応答して、前記第１のゲイン係数は、前記最小の第１のゲイン係数を含み、前記第２のゲイン係数は、前記最小の第２のゲイン係数を含む、
請求項５に記載の方法。

【請求項7】

前記第１の成分は、圧縮についての、前記第２の成分と等しい優先度を有し、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数は、前記第２のゲイン係数とは無関係に生成され、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数は、前記第１のゲイン係数とは無関係に生成される、
請求項２に記載の方法。

【請求項8】

前記処理回路によって、前記第１の成分ゲイン係数の適用後の前記第１の成分と、前記第２の成分ゲイン係数の適用後の前記第２の成分との和が、前記振幅閾値を超えるかどうかを決定するステップであって、前記和が前記振幅閾値を超えることに応答して、前記第１及び第２のゲイン係数はそれぞれ残余ゲイン係数を含み、前記第１のゲイン係数の残余ゲイン係数は、前記第１の成分ゲイン係数の適用後の前記第１の成分にさらに適用され、前記第２のゲイン係数の残余ゲイン係数は、前記第２の成分ゲイン係数の適用後の前記第２の成分にさらに適用される、ステップをさらに含む、
請求項７に記載の方法。

【請求項9】

前記第１の成分は、前記音声信号の中央成分又は側方成分のうちの１つであり、
前記第１の音声座標系は、中央－側方音声座標系であり、
前記第３の成分は、前記音声信号の左成分であり、
前記第４の成分は、前記音声信号の右成分であり、
前記第２の音声座標系は、左－右音声座標系である、
請求項１に記載の方法。

【請求項10】

前記第１の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの１つであり、
前記第１の音声座標系は、中央－側方音声座標系であり、
前記第３の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第４の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第２の音声座標系は、左－右音声座標系である、
請求項１に記載の方法。

【請求項11】

前記処理回路によって、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記第１の圧縮比を決定するステップをさらに含む、
請求項１０に記載の方法。

【請求項12】

前記第１のゲイン係数に平滑化関数を適用するステップをさらに含む、
請求項１に記載の方法。

【請求項13】

プログラムコードを格納する非一時的なコンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行されたとき、
第２の音声座標系における音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成することであって、前記第１の音声座標系が中央－側方音声座標系であり、かつ前記第２の音声座標系が左－右音声座標系であるか、又は、前記第２の音声座標系が中央－側方音声座標系であり、かつ前記第１の音声座標系が左－右音声座標系である、ことを行い、
圧縮を適用するための前記第３の成分及び前記第４の成分のそれぞれに対するレベルを定義する前記第２の音声座標系における振幅閾値を決定し、
前記第１の成分の大きさが前記振幅閾値を超える量と、前記振幅閾値の上までの前記第１の成分の大きさの減衰量との間の関係を定義する第１の圧縮比を利用して、前記第１の成分に対する第１のゲイン係数を生成し、
前記第３の成分又は前記第４の成分のうちの１つが前記振幅閾値を超えるとき、前記第１のゲイン係数を前記第１の成分に適用して、調整された第１の成分を生成し、
前記第１の音声座標系における前記調整された第１の成分及び前記第２の成分を利用して、前記第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成する
ように前記プロセッサを構成する、
非一時的なコンピュータ可読媒体。

【請求項14】

前記プログラムコードは、
前記第２の成分が前記振幅閾値を超えるとき、前記第２の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第２の成分の減衰量との間の関係を定義する第２の圧縮比を利用して、前記第２の成分に対する第２のゲイン係数を生成し、
前記第３の成分又は前記第４の成分のうちの１つが前記振幅閾値を超えるとき、前記第２のゲイン係数を前記第２の成分に適用して、調整された第２の成分を生成する
ように前記プロセッサをさらに構成し、
前記調整された第１の成分及び前記第２の成分を利用して、前記第１の出力チャンネル及び前記第２の出力チャンネルを生成するように前記プロセッサを構成する前記プログラムコードは、前記第２の成分から生成された前記調整された第２の成分を利用するように前記プロセッサを構成する前記プログラムコードを含む、
請求項１３に記載のコンピュータ可読媒体。

【請求項15】

前記第１の成分は、圧縮についての、前記第２の成分より高い優先度を有し、前記第２のゲイン係数は、前記第１のゲイン係数の関数である、
請求項１４に記載のコンピュータ可読媒体。

【請求項16】

前記プログラムコードは、
前記第１の成分に対する最小の第１のゲイン係数と、前記第２の成分に対する最小の第２のゲイン係数とを決定し、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数が、前記最小の第１のゲイン係数を超えるかどうかを決定し、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数が、前記最小の第２のゲイン係数を超えるかどうかを決定する
ように前記プロセッサをさらに構成し、
前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えると決定することに応答して、前記最小の第１のゲイン係数は、前記第１のゲイン係数として前記第１の成分に適用され、前記第２の成分ゲイン係数は、前記第２のゲイン係数として前記第２の成分に適用される、
請求項１５に記載のコンピュータ可読媒体。

【請求項17】

前記第１のゲイン係数を生成するように前記プロセッサを構成する前記プログラムコードは、
前記第１の成分に対する最小の第１のゲイン係数と、前記第２の成分に対する最小の第２のゲイン係数とを決定し、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数が、前記最小の第１のゲイン係数を超えるかどうかを決定し、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数が、前記最小の第２のゲイン係数を超えるかどうかを決定する
ように前記プロセッサを構成するプログラムコードを含み、
前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えないと決定することに応答して、前記第１のゲイン係数及び前記第２のゲイン係数はそれぞれ残余ゲイン係数を含み、前記第１のゲイン係数の残余ゲイン係数は、前記第１の成分ゲイン係数の適用後の前記第１の成分にさらに適用され、前記第２のゲイン係数の残余ゲイン係数は、前記第２の成分ゲイン係数の適用後の前記第２の成分にさらに適用される、
請求項１５に記載のコンピュータ可読媒体。

【請求項18】

前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えないことに応答して、前記第１のゲイン係数は、前記最小の第１のゲイン係数を含み、前記第２のゲイン係数は、前記最小の第２のゲイン係数を含む、
請求項１７に記載のコンピュータ可読媒体。

【請求項19】

【請求項20】

前記プログラムコードは、前記第１の成分ゲイン係数の適用後の前記第１の成分と、前記第２の成分ゲイン係数の適用後の前記第２の成分との和が、前記振幅閾値を超えるかどうかを決定することであって、前記和が前記振幅閾値を超えることに応答して、前記第１及び第２のゲイン係数はそれぞれ残余ゲイン係数を含み、前記第１のゲイン係数の残余ゲイン係数は、前記第１の成分ゲイン係数の適用後の前記第１の成分にさらに適用され、前記第２のゲイン係数の残余ゲイン係数は、前記第２の成分ゲイン係数の適用後の前記第２の成分にさらに適用される、ことを行うように前記プロセッサをさらに構成する、
請求項１９に記載のコンピュータ可読媒体。

【請求項21】

前記第１の成分は、前記音声信号の中央成分又は側方成分のうちの１つであり、
前記第１の音声座標系は、中央－側方音声座標系であり、
前記第３の成分は、前記音声信号の左成分であり、
前記第４の成分は、前記音声信号の右成分であり、
前記第２の音声座標系は、左－右音声座標系である、
請求項１３に記載のコンピュータ可読媒体。

【請求項22】

【請求項23】

前記プログラムコードは、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記圧縮比を決定するように前記プロセッサをさらに構成する、
請求項２２に記載のコンピュータ可読媒体。

【請求項24】

前記プログラムコードは、前記第１のゲイン係数に平滑化関数を適用するように前記プロセッサをさらに構成する、
請求項２１に記載のコンピュータ可読媒体。

【請求項25】

音声信号に圧縮を適用するためのシステムであって、
第２の音声座標系における前記音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成することであって、前記第１の音声座標系が中央－側方音声座標系であり、かつ前記第２の音声座標系が左－右音声座標系であるか、又は、前記第２の音声座標系が中央－側方音声座標系であり、かつ前記第１の音声座標系が左－右音声座標系である、ことを行い、
圧縮を適用するための前記第３の成分及び前記第４の成分のそれぞれに対するレベルを定義する前記第２の音声座標系における振幅閾値を決定し、
前記第１の成分の大きさが前記振幅閾値を超える量と、前記振幅閾値の上までの前記第１の成分の大きさの減衰量との間の関係を定義する第１の圧縮比を利用して、前記第１の成分に対する第１のゲイン係数を生成し、
前記第３の成分又は前記第４の成分のうちの１つが前記振幅閾値を超えるとき、前記第１のゲイン係数を前記第１の成分に適用して、調整された第１の成分を生成し、
前記第１の音声座標系における前記調整された第１の成分及び前記第２の成分を利用して、前記第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成する
ように構成された処理回路を含む、システム。

【請求項26】

前記処理回路は、
前記第２の成分が前記振幅閾値を超えるとき、前記第２の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第２の成分の減衰量との間の関係を定義する第２の圧縮比を利用して、前記第２の成分に対する第２のゲイン係数を生成し、
前記第３の成分又は前記第４の成分のうちの１つが前記振幅閾値を超えるとき、前記第２のゲイン係数を前記第２の成分に適用して、調整された第２の成分を生成する
ようにさらに構成され、
前記調整された第１の成分及び前記第２の成分を利用して、前記第１の出力チャンネル及び前記第２の出力チャンネルを生成するように構成された前記処理回路は、前記第２の成分から生成された前記調整された第２の成分を利用するように構成される前記処理回路を含む、
請求項２５に記載のシステム。

【請求項27】

前記第１の成分は、圧縮についての、前記第２の成分より高い優先度を有し、前記第２のゲイン係数は、前記第１のゲイン係数の関数である、
請求項２６に記載のシステム。

【請求項28】

前記処理回路は、
前記第１の成分に対する最小の第１のゲイン係数と、前記第２の成分に対する最小の第２のゲイン係数とを決定し、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数が、前記最小の第１のゲイン係数を超えるかどうかを決定し、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数が、前記最小の第２のゲイン係数を超えるかどうかを決定する
ようにさらに構成され、
前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えると決定することに応答して、前記最小の第１のゲイン係数は、前記第１のゲイン係数として前記第１の成分に適用され、前記第２の成分ゲイン係数は、前記第２のゲイン係数として前記第２の成分に適用される、
請求項２７に記載のシステム。

【請求項29】

前記第１のゲイン係数を生成するように構成された前記処理回路は、
前記第１の成分に対する最小の第１のゲイン係数と、前記第２の成分に対する最小の第２のゲイン係数とを決定し、
前記第１の圧縮比を利用して生成された前記第１のゲイン係数の第１の成分ゲイン係数が、前記最小の第１のゲイン係数を超えるかどうかを決定し、
前記第２の圧縮比を利用して生成された前記第２のゲイン係数の第２の成分ゲイン係数が、前記最小の第２のゲイン係数を超えるかどうかを決定する
ように構成される前記処理回路を含み、
前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えないと決定することに応答して、前記第１のゲイン係数及び前記第２のゲイン係数はそれぞれ残余ゲイン係数を含み、前記第１のゲイン係数の残余ゲイン係数は、前記第１の成分ゲイン係数の適用後の前記第１の成分にさらに適用され、前記第２のゲイン係数の残余ゲイン係数は、前記第２の成分ゲイン係数の適用後の前記第２の成分にさらに適用される、
請求項２７に記載のシステム。

【請求項30】

前記第１の成分ゲイン係数が前記最小の第１のゲイン係数を超えず、かつ前記第２の成分ゲイン係数が前記最小の第２のゲイン係数を超えないことに応答して、前記第１のゲイン係数は、前記最小の第１のゲイン係数を含み、前記第２のゲイン係数は、前記最小の第２のゲイン係数を含む、
請求項２９に記載のシステム。

【請求項31】

【請求項32】

前記処理回路は、前記第１の成分ゲイン係数の適用後の前記第１の成分と、前記第２の成分ゲイン係数の適用後の前記第２の成分との和が、前記振幅閾値を超えるかどうかを決定することであって、前記和が前記振幅閾値を超えることに応答して、前記第１及び第２のゲイン係数はそれぞれ残余ゲイン係数を含み、前記第１のゲイン係数の残余ゲイン係数は、前記第１の成分ゲイン係数の適用後の前記第１の成分にさらに適用され、前記第２のゲイン係数の残余ゲイン係数は、前記第２の成分ゲイン係数の適用後の前記第２の成分にさらに適用される、ことを行うようにさらに構成される、
請求項３１に記載のシステム。

【請求項33】

前記第１の成分は、前記音声信号の中央成分又は側方成分のうちの１つであり、
前記第１の音声座標系は、中央－側方音声座標系であり、
前記第３の成分は、前記音声信号の左成分であり、
前記第４の成分は、前記音声信号の右成分であり、
前記第２の音声座標系は、左－右音声座標系である、
請求項２５に記載のシステム。

【請求項34】

【請求項35】

前記処理回路は、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記第１の圧縮比を決定するようにさらに構成される、
請求項３４に記載のシステム。

【請求項36】

前記処理回路は、前記第１のゲイン係数に平滑化関数を適用するようにさらに構成される、
請求項２５に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書で説明される構成要素は、音声処理、より詳細には、空間認識コンテキストにおける音声信号の圧縮に関する。

【背景技術】

【0002】

圧縮は、音声信号の最大音量及び最小音量の部分の間の範囲を制御することを指す。左チャンネル及び右チャンネルを含む左－右空間内のステレオ音声信号については、圧縮は、左又は右チャンネルが圧縮閾値を超えるとき、必要に応じて、左又は右チャンネルにゲインを適用することによって左－右空間内で達成できる。しかし、音声信号の空間特性が調整できる中央－側方空間など、左－右空間内にない音声信号を処理することが好ましい。

【発明の概要】

【0003】

実施形態は、空間認識コンテキストにおける音声信号の圧縮を提供するための、プロセス（又は方法）と、システム及び非一時的なコンピュータ可読記憶媒体に格納された命令を含むコンピュータプログラム製品とに関する。左－右空間内で圧縮閾値を超えるとき、圧縮のアーチファクトを異なる空間位置にシフトするために、中央－側方空間内で適用される中央及び側方成分の制御を利用して、音声信号が圧縮される。この技術は、それ自体で又は圧縮との組み合わせで、拡張閾値未満のときに、音声信号の拡張にも適用されうる。

【0004】

例として、いくつかの実施形態は、音声信号に圧縮を適用するための方法を含む。方法は、第２の音声座標系における音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成するステップを含む。方法は、圧縮を適用するための第３の成分及び第４の成分のそれぞれに対するレベルを定義する第２の音声座標系における振幅閾値を決定するステップをさらに含む。方法は、第１の成分が振幅閾値を超えるとき、第１の成分が振幅閾値を超える量と、振幅閾値の上までの第１の成分の減衰量との間の関係を定義する第１の圧縮比を利用して、第１の成分に対する第１のゲイン係数を生成するステップをさらに含む。方法は、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、第１のゲイン係数を第１の成分に適用して、調整された第１の成分を生成するステップをさらに含む。方法は、第１の音声座標系における調整された第１の成分及び第２の成分を利用して、第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成するステップをさらに含む。

【0005】

いくつかの実施形態において、方法は、第２の成分が振幅閾値を超えるとき、第２の成分が振幅閾値を超える量と、振幅閾値の上までの第２の成分の減衰量との間の関係を定義する第２の圧縮比を利用して、第２の成分に対する第２のゲイン係数を生成するステップと、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、第２のゲイン係数を第２の成分に適用して、調整された第２の成分を生成するステップとをさらに含む。調整された第１の成分及び第２の成分を利用して、第１の出力チャンネル及び第２の出力チャンネルを生成するステップは、第２の成分から生成された調整された第２の成分を利用することを含む。

【0006】

いくつかの実施形態は、プログラムコードを格納する非一時的なコンピュータ可読媒体を含み、プログラムコードは、プロセッサによって実行されたとき、第２の音声座標系における音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成し、圧縮を適用するための第３の成分及び第４の成分のそれぞれに対するレベルを定義する第２の音声座標系における振幅閾値を決定し、第１の成分が振幅閾値を超えるとき、第１の成分が振幅閾値を超える量と、振幅閾値の上までの第１の成分の減衰量との間の関係を定義する第１の圧縮比を利用して、第１の成分に対する第１のゲイン係数を生成し、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、第１のゲイン係数を第１の成分に適用して、調整された第１の成分を生成し、第１の音声座標系における調整された第１の成分及び第２の成分を利用して、第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成するようにプロセッサを構成する。

【0007】

いくつかの実施形態において、プログラムコードは、第２の成分が振幅閾値を超えるとき、第２の成分が振幅閾値を超える量と、振幅閾値の上までの第２の成分の減衰量との間の関係を定義する第２の圧縮比を利用して、第２の成分に対する第２のゲイン係数を生成し、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、第２のゲイン係数を第２の成分に適用して、調整された第２の成分を生成するようにプロセッサをさらに構成する。調整された第１の成分及び第２の成分を利用して、第１の出力チャンネル及び第２の出力チャンネルを生成するようにプロセッサを構成するプログラムコードは、第２の成分から生成された調整された第２の成分を利用するようにプロセッサを構成するプログラムコードを含む。

【0008】

いくつかの実施形態は、音声信号に圧縮を適用するためのシステムを含む。システムは、第２の音声座標系における音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成し、圧縮を適用するための第３の成分及び第４の成分のそれぞれに対するレベルを定義する第２の音声座標系における振幅閾値を決定し、第１の成分が振幅閾値を超えるとき、第１の成分が振幅閾値を超える量と、振幅閾値の上までの第１の成分の減衰量との間の関係を定義する第１の圧縮比を利用して、第１の成分に対する第１のゲイン係数を生成し、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、第１のゲイン係数を第１の成分に適用して、調整された第１の成分を生成し、第１の音声座標系における調整された第１の成分及び第２の成分を利用して、第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成するように構成された処理回路を含む。

【0009】

いくつかの実施形態において、処理回路は、第２の成分が振幅閾値を超えるとき、第２の成分が振幅閾値を超える量と、振幅閾値の上までの第２の成分の減衰量との間の関係を定義する第２の圧縮比を利用して、第２の成分に対する第２のゲイン係数を生成し、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、第２のゲイン係数を第２の成分に適用して、調整された第２の成分を生成するようにさらに構成される。調整された第１の成分及び第２の成分を利用して、第１の出力チャンネル及び第２の出力チャンネルを生成するように構成された処理回路は、第２の成分から生成された調整された第２の成分を利用するように構成される処理回路を含む。

【図面の簡単な説明】

【0010】

【図1】いくつかの実施形態による、音声処理システムのブロック図である。

【図2】いくつかの実施形態による、空間コンプレッサのブロック図である。

【図3】いくつかの実施形態による、周波数バンドデバイダのブロック図である。

【図4A】いくつかの実施形態による、Ｌ／Ｒ圧縮に続く側方成分圧縮のブロック図である。

【図4B】いくつかの実施形態による、Ｌ／Ｒ圧縮に続く中央成分圧縮のブロック図である。

【図5】いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、並行する中央成分圧縮及び側方成分圧縮のブロック図である。

【図6A】いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、中央成分圧縮に続く、側方成分圧縮のブロック図である。

【図6B】いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、側方成分圧縮に続く、中央成分圧縮のブロック図である。

【図7】いくつかの実施形態による、側鎖処理のための音声コンプレッサのブロック図である。

【図8】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。

【図9】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。

【図10】いくつかの実施形態による、サブバンドを利用して、音声信号を空間的に圧縮するためのプロセスのフロー図である。

【図11】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。

【図12】いくつかの実施形態による、ワイドバンドプロセッサのブロック図である。

【図13】いくつかの実施形態による、コンピュータのブロック図である。

【0011】

説明のみを目的とする様々な非限定的な実施形態を、図で示し、詳細な説明で述べる。

【発明を実施するための形態】

【0012】

ここでは、実施形態と、添付図に示されたそれらの例とが詳細に参照されるだろう。以下の詳細な説明において、説明される様々な実施形態の完全な理解を提供するために多数の具体的な詳細が明らかにされる。しかし、説明される実施形態は、これらの具体的な詳細なしに実践されうる。他の場合においては、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、成分、回路、及びネットワークは詳細に説明されなかった。

【0013】

本開示の実施形態は、中央－側方空間内に適用される制御を利用した、左－右空間内における音声信号の範囲制御に関する。左チャンネル及び右チャンネルを含む音声信号は、中央成分及び側方成分に変換される。左及び右チャンネルのそれぞれに許容される最大レベルを定義する左－右閾値が決定される。圧縮比、メイクアップゲイン設定、エンベロープパラメータ、及び、中央成分と側方成分との間の圧縮の優先度を定義する成分優先度設定などの圧縮特性が決定される。中央成分及び側方成分のうちの１つ以上は、左又は右チャンネルが左－右閾値を超えるときに圧縮特性に基づいて制御される。調整された成分は、左－右空間に戻す変換がされて、それぞれが左－右空間内の左－右閾値を満たす左出力チャンネル及び右出力チャンネルになる。

【0014】

圧縮は、中央成分と側方成分の間の空間的制限の優先度に従って定義されてよい。空間的制限の優先度は調整可能であってよく、左－右閾値を満たすように、異なる空間位置へのアーチファクトの好ましいシフトを定義する。

【0015】

いくつかの実施形態において、マルチバンド圧縮は、中央及び側方成分の異なるサブバンドに利用される。いくつかの実施形態において、クロスバンド圧縮が利用され、ワイドバンド音声信号から導出された制御信号に基づいて異なるサブバンドが制御される。

【0016】

いくつかの実施形態において、マルチバンド優先圧縮が、多入力多出力（ＭＩＭＯ）システムに適用される。一般化された側鎖行列を組み込むことによって、サブバンド及び空間チャンネルにわたっての優先度が確立できる。

【0017】

対象閾値を超えないという要件を緩和することによって、先読みを必要とすることなく、正及び負の両方の意味で非対称的にゲイン補正関数を平滑化することによって、ゲイン補正アーチファクトが低減されうる。さらに、これらの非線形平滑化要素は、個別のチャンネルに対する個別の係数で特定でき、従って、知覚的なマスキングがより生じやすい出力空間の範囲にアーチファクトをシフトする能力を提供する。

【0018】

いくつかの実施形態において、信号をサブバンドに分解することは、位相補正された４次のLinkwitz-Rileyネットワークを利用するが、これは、ウェーブレット分解及び短時間フーリエ変換（STFT）方法を含む他のフィルタバンクトポロジに同様に拡張されうる。

【0019】

例示的な音声処理システム
図１は、いくつかの実施形態による、音声処理システム１００のブロック図である。音声処理システム１００は、左入力チャンネル１１２及び右入力チャンネル１１４を含む入力音声信号を受信し、チャンネル１１２、１１４の中央成分（又は、「中央サブバンド成分１１６」と称される中央成分のサブバンド）、側方成分（又は、「側方サブバンド成分１１８」と称される側方成分のサブバンド）を処理して、左出力チャンネル１７６及び右出力チャンネル１７８を含む出力音声信号を生成する回路を含む。音声処理システム１００は、音声信号が、圧縮を適用するための左及び右チャンネルに対するレベルを定義する左－右閾値θ_LRを超えたとき、中央成分１１６又は側方成分１１８のうちの１つ以上に圧縮を適用する。入力エネルギーがどこに集中しているか及び音声処理システム１００の動作を構成する設定に依存して、音声処理システム１００が圧縮のアーチファクトを異なる空間位置（例えば、入力音声信号の中央又は側方成分）にシフトできるため、音声処理システム１００は、空間認識コンテキストにおける入力音声信号の圧縮を提供する。設定は、プログラム的に決定されてよく、又はユーザによって特定されてよい。

【0020】

音声処理システム１００は、周波数バンドデバイダ１６２と、Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２と、空間コンプレッサ１０４及びＬ／Ｒコンプレッサ１０６を含む音声コンプレッサ１８０と、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８と、周波数バンドコンバイナ１６４と、ワイドバンドプロセッサ１８２と、コントローラ１１０とを含む。いくつかの実施形態において、ワイドバンドプロセッサ１８２は、クロスバンド側鎖設定を許可するように含まれてよい。

【0021】

周波数バンドデバイダ１６２は、左入力チャンネル１１２及び右入力チャンネル１１４を受信し、チャンネルをサブバンド成分に分離する。左入力チャンネル１１２及び右入力チャンネル１１４はそれぞれ、ｎ個の周波数サブバンドに分離されうる。左入力チャンネル１１２及び右入力チャンネル１１４のｎ個の周波数サブバンドのそれぞれは、周波数の範囲に対応しうる。ｎ＝４周波数サブバンドの例では、周波数サブバンド（１）は、０～３００Ｈｚに対応してよく、周波数サブバンド（２）は、３００～５１０Ｈｚに対応してよく、周波数サブバンド（３）は、５１０～２７００Ｈｚに対応してよく、周波数サブバンド（４）は、２７００Ｈｚ～ナイキスト周波数に対応してよい。いくつかの実施形態において、ｎ個の周波数サブバンドは、臨界帯域の固定セットである。臨界帯域は、多種多様な音楽ジャンルからの音声サンプルのコーパスを利用して決定されうる。２４バーク尺度臨界帯域上での中央から側方の成分の長期平均エネルギー比は、サンプルから決定される。類似の長期平均比を持つ隣接周波数帯域は、次いで、臨界帯域のセットを形成するように一緒にグループ化される。周波数サブバンドの範囲、及び周波数サブバンドの数は、調整可能でありうる。いくつかの実施形態において、生成されたサブバンドは、スペクトルの隣接する範囲を表さなくてよいが、代わりに、推定された音源又は他の分離された音声成分に対応してよい。かくして、周波数バンドデバイダ１６２は、左入力チャンネル１１２から左サブバンド成分１７２を、そして、右入力チャンネル１１４から右サブバンド成分１７４を生成する。

【0022】

Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２は、左サブバンド成分１７２及び右サブバンド成分１７４を受信し、左サブバンド成分１７２及び右サブバンド成分１７４から、中央サブバンド成分１１６及び側方サブバンド成分１１８を生成する。いくつかの実施形態において、ｎ個のサブバンドのそれぞれに対し、中央サブバンド成分は、サブバンドの左サブバンド成分と、サブバンドの右サブバンド成分との和に基づいて生成されうる。サブバンドのそれぞれに対し、側方成分は、サブバンドの左サブバンド成分と、サブバンドの右サブバンド成分との差に基づいて生成されうる。中央及び側方成分は、信号源分離に基づく様々な変換を利用することなど、他の方法で生成されてよい。

【0023】

いくつかの実施形態において、各サブバンドの中央及び側方成分は、マルチチャンネル（例えば、サラウンドサウンド）音声信号から生成される。例えば、複数の左チャンネル（例えば、左、左サラウンド、及び左後方サラウンドなど）は、左入力チャンネル１１２を生成するために結合されてよく、複数の右チャンネル（例えば、右、右サラウンド、及び右後方サラウンドなど）は、右入力チャンネル１１４を生成するために結合されてよい。これらの追加的なチャンネルは、増加した次元数に順応するためにＬ／Ｒ－Ｍ／Ｓコンバータ１０２の修正を利用して、中央及び側方に加えて新たな空間軸を生成するために利用されてもよい。例えば、直交変換は、知覚的に意味のあるチャンネルの組み合わせを導出するために利用されうる。いくつかの実施形態において、これらの変形は、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８の代わりに、対応する逆変換と対を成しうる。

【0024】

音声コンプレッサ１８０は、出力チャンネル１７６、１７８がそれぞれ、左－右空間内で左－右圧縮閾値θ_LR未満に制限されるように、中央サブバンド成分１１６及び側方サブバンド成分１１８を処理する。いくつかの実施形態において、異なるサブバンドは、異なる左－右圧縮閾値を利用しうる。音声コンプレッサ１８０は、空間コンプレッサ１０４及びＬ／Ｒコンプレッサ１０６を含む。空間コンプレッサ１０４は、中央ゲインプロセッサ１５２及び側方ゲインプロセッサ１５４を含む。各サブバンドに対し、中央ゲインプロセッサ１５２は、中央サブバンド成分１１６及び側方サブバンド成分１１８を受信し、中央サブバンド成分１１６に対する中央ゲイン係数α_mを決定する。各サブバンドに対し、中央ゲインプロセッサ１５２は、中央ゲイン係数α_mを中央サブバンド成分１１８に適用して、調整された中央サブバンド成分１２０を生成する。各サブバンドに対し、側方ゲインプロセッサ１５４は、中央サブバンド成分１１６及び側方サブバンド成分１１８を受信し、側方サブバンド成分１１８に対する側方ゲイン係数α_sを決定する。側方ゲインプロセッサ１５４は、側方ゲイン係数α_sを側方サブバンド成分に適用して、調整された側方サブバンド成分１２２を生成する。かくして、空間コンプレッサ１０４は、ｎ個のサブバンドのそれぞれに対し、調整された中央サブバンド成分１２０及び調整された側方サブバンド成分１２２を生成する。

【0025】

いくつかの実施形態において、各サブバンドに対し、中央成分と側方成分との間で、圧縮の優先度があってよい。いくつかの実施形態において、異なるサブバンドは、中央サブバンド成分と側方サブバンド成分の間で、圧縮についての異なる優先度を含んでよく、又は異なる左－右圧縮閾値θ_LRを利用してよい。

【0026】

Ｌ／Ｒコンプレッサ１０６は、Ｌ／Ｒゲインプロセッサ１５６を含む。Ｌ／Ｒゲインプロセッサ１５６は、空間リミッタ１０４によって調整されたように、調整された中央サブバンド成分１２０及び調整された側方サブバンド成分１２２を受信し、各サブバンドについて、残余ゲイン係数α_lrを、サブバンドの調整された中央サブバンド成分に適用して、調整された中央サブバンド成分１２４を生成し、残余ゲイン係数α_lrを調整された側方サブバンド成分１２２に適用して、調整された側方サブバンド成分１２６を生成する。かくして、Ｌ／Ｒコンプレッサ１０６は、ｎ個のサブバンドのそれぞれについて、調整された中央サブバンド成分１２４及び調整された側方サブバンド成分１２６を生成する。

【0027】

図４Ａ～６Ｂに関連して、以下でより詳細に議論されるように、各サブバンドについてのゲイン係数α_m、α_s、及びα_lrは、音声処理システム１００の空間圧縮の優先度に依存して変わりうる。空間圧縮についての優先度は、各サブバンドの中央及び側方成分の両方に適用されるＬ／Ｒコンプレッサステージに続く、中央コンプレッサステージと側方コンプレッサステージの間の優先度を定義する。優先度の低いコンプレッサステージは、優先度の高い制限ステージで適用される１つ以上のゲイン係数を利用して定義されるゲイン係数を適用しうる。

【0028】

Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８は、調整された中央サブバンド成分１２４及び調整された側方サブバンド成分１２６を受信し、調整された中央サブバンド成分１２４及び調整された側方サブバンド成分１２６から、調整された左サブバンド成分１３２及び調整された右サブバンド成分１３４を生成する。各サブバンドについて、調整された左サブバンド成分１３２は、サブバンドの、調整された中央成分１２４と調整された側方成分１２６との和に基づいて生成されうる。各サブバンドについて、調整された右サブバンド成分１３４は、サブバンドの、調整された中央サブバンド成分１２２と調整された側方サブバンド成分１２４との差に基づいて生成されうる。他のタイプの変換は、中央及び側方成分から、左及び右サブバンド成分を生成するために利用されうる。かくして、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８は、ｎ個のサブバンドのそれぞれについて、調整された左サブバンド成分１３２及び調整された右サブバンド成分１３４を生成する。

【0029】

周波数バンドコンバイナ１６４は、調整された左サブバンド成分１３２及び調整された右サブバンド成分１３４を受信し、左出力チャンネル１７６及び右出力チャンネル１７８を生成する。左出力チャンネル１７６は、調整された左サブバンド成分１３２のそれぞれを結合することによって生成されうる。右出力チャンネル１７８は、調整された右サブバンド成分１３４のそれぞれを結合することによって生成されうる。周波数バンドコンバイナ１６４は、左出力チャンネル１７６を左スピーカに、そして、右出力チャンネル１７８を右スピーカに出力する。空間コンプレッサ１０４及びＬ／Ｒコンプレッサ１０６によって適用される処理の結果として、出力音声信号の左出力チャンネル１７６及び右出力チャンネル１７８のピークは、左入力チャンネル１１２又は右入力チャンネル１１４が左－右閾値θ_LRを超えるときに圧縮される。

【0030】

ワイドバンドプロセッサ１８２は、ワイドバンド音声信号から導出された制御信号１４０及び１４２で各サブバンドの制御を促進することによって、音声処理システム１００のクロスバンド動作をサポートする。ワイドバンドプロセッサ１８２は、ワイドバンド音声信号から、音声コンプレッサ１８０によって１つ以上のサブバンドを調整するための制御信号１４０及び１４２を生成する。ワイドバンドプロセッサ１８２は、左チャンネル１１２及び右チャンネル１１４を受信し、音声コンプレッサ１８０によって利用されるワイドバンド側鎖信号レベルを決定する。ワイドバンドプロセッサ１８２は、周波数バンドデバイダ１６２及びＬ／Ｒ－Ｍ／Ｓコンバータ１０２で並行に音声信号を処理する側鎖行列として実装されうる。いくつかの実施形態において、非クロスバンド動作などについて、ワイドバンドプロセッサ１８２は、省略又はバイパスされてよい。いくつかの実施形態において、制御信号１４０及び１４２は、ワイドバンド音声信号上での等化又はフィルタの適用などの変換から導出される。側鎖行列は、次いで、中央ゲインプロセッサ１５２を制御しうるクロスバンド信号１４０、又は側方ゲインプロセッサ１５４を制御しうるクロスバンド信号１４２から新たな中央－側方成分を導出するためのＬ／Ｒ－Ｍ／Ｓコンバータを利用して構築されうる。次いで、中央ゲインプロセッサ１５２及び側方ゲインプロセッサ１５４のそれぞれは、それらが制御信号の特性を有するかのように、側鎖行列、ＬＲ閾値θ_LR、及び音声処理システム１００によって決定される他のパラメータのうちの１つ以上によって特定される方式で、成分１１６及び１１８を処理することができる。制御信号１４０及び１４２は、音声チャンネル１１２及び１１４から導出され、側鎖行列によって決定される方式でさらに処理されるため、空間コンプレッサ１０４は、それによって、サブバンドの外側の情報又は制御されるべき成分（１１６及び１１８）の空間位置に応答しうる。

【0031】

いくつかの実施形態において、コントローラ１１０は、音声処理システム１００の動作を制御する。コントローラ１１０は、パラメータ（例えば、θ_LR、圧縮比、メイクアップゲイン設定、アタック又はリリース時間などのエンベロープパラメータ）を定義し、処理ステージの優先度を決定し、決定された優先度及びパラメータに従ってゲイン係数を決定することなどによって、それらの動作を構成するために音声処理システム１００の他のコンポーネントに結合されうる。音声処理システム１００によって利用される様々なパラメータは、ユーザ入力によって、プログラム的に、又はそれらの組み合わせによって定義されうる。

【0032】

いくつかの実施形態において、音声処理システム１００は、空間認識コンテキストにおけるワイドバンド圧縮を提供する。例えば、周波数バンドデバイダ１６２及び周波数バンドコンバイナ１６４は、省略又はバイパスされてよい。各サブバンドの中央及び側方成分を処理するのではなく、空間コンプレッサ１０４及びＬ／Ｒコンプレッサ１０６は、サブバンドへの分離なしに、ワイドバンド成分として中央及び側方成分を処理する。サブバンドの処理が、音声信号に適用できる圧縮のタイプを増加させる一方、ワイドバンド処理は、空間認識圧縮の計算要件を低減できる。

【0033】

上で議論したように、Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２、空間コンプレッサ１０４、Ｌ／Ｒコンプレッサ１０６、及びＭ／Ｓ－Ｌ／Ｒコンバータ１０８は、ｎ個のサブバンドのそれぞれを処理しうる。いくつかの実施形態において、音声処理システム１００は、これらのサブバンド処理コンポーネントの複数の例を含み、それぞれは、ｎ個のサブバンドの１つを処理することに特化している。複数のサブバンドは、並行に又は続けて処理されうる。

【0034】

例示的な空間コンプレッサ
図２は、いくつかの実施形態による、空間コンプレッサ２００のブロック図である。空間コンプレッサ２００は、音声処理システム１００の空間コンプレッサ１０４の例である。図１に示した空間コンプレッサ１０４とは異なり、空間コンプレッサ２００は、ワイドバンドプロセッサ１８２からの制御信号１４０及び１４２を利用しない。空間コンプレッサ２００は、サブバンドの情報を利用して、サブバンドに適用される動的処理アルゴリズムを制御する。空間コンプレッサ２００は、中央ピーク抽出器２０２と、側方ピーク抽出器２０４と、中央ゲインプロセッサ２０６と、側方ゲインプロセッサ２０８と、中央ミキサ２１０と、側方ミキサ２１２とを含む。空間コンプレッサ２００の動作は、ｎ個のサブバンドの１つの中央及び側方成分の処理について議論される。類似の動作は、ｎ個のサブバンドのそれぞれに関して実行できる。他の例において、空間コンプレッサ２００は、中央及び側方成分がサブバンドに分離されないワイドバンド処理を提供する。

【0035】

中央ピーク抽出器２０２は、中央サブバンド成分１１６を受信し、中央サブバンド成分１１６のピーク値を表す中央ピーク２１４を決定する。中央ピーク抽出器２０２は、中央ゲインプロセッサ２０６及び側方ゲインプロセッサ２０８に中央ピーク２１４を提供する。側方ピーク抽出器２０４は、側方サブバンド成分１１８を受信し、側方サブバンド成分１１８のピーク値を表す側方ピーク２１６を決定する。側方ピーク抽出器２０４は、中央ゲインプロセッサ２０６及び側方ゲインプロセッサ２０８に側方ピーク２１６を提供する。

【0036】

中央ゲインプロセッサ２０６は、中央ピーク２１４、側方ピーク２１６、左－右空間における圧縮閾値θ_LR、及び圧縮比に基づいて中央ゲイン係数２１８（α_m）を決定する。側方ゲインプロセッサ２０８は、中央ピーク２１４、側方ピーク２１６、左－右空間における圧縮閾値θ_LR、及び圧縮比に基づいて側方ゲイン係数２２０（α_s）を決定する。

【0037】

中央ミキサ２１０は、中央サブバンド成分１１６及び中央ゲイン係数２１８（α_m）を受信し、これらの値を乗算して、調整された中央サブバンド成分１２０を生成する。側方ミキサ２１２は、側方サブバンド成分１１８及び側方ゲイン係数２２０（α_s）を受信し、これらの値を乗算して、調整された側方サブバンド成分１２２を生成する。

【0038】

いくつかの実施形態において、Ｌ／Ｒコンプレッサステージは、空間コンプレッサ２００に統合される。中央ゲインプロセッサ２０６は、残余ゲイン係数α_lrを中央ゲイン係数２１８と結合し、中央ミキサ２１０は、その結果を中央サブバンド成分１１６に乗算して、調整された中央サブバンド成分１２４を生成する。側方ゲインプロセッサ２０８は、残余ゲイン係数α_lrを側方ゲイン係数２２０に結合し、側方ミキサ２１２は、その結果を側方サブバンド成分１１８に乗算して、調整された側方サブバンド成分１２６を生成する。

【0039】

周波数バンドデバイダ
図３は、いくつかの実施形態による、周波数バンドデバイダ３００のブロック図である。周波数バンドデバイダ３００は、音声処理システム１００の周波数バンドデバイダ１６２の例である。周波数バンドデバイダ３００は、左入力チャンネル１１２又は右入力チャンネル１１４などの音声信号を、サブバンド成分３１８、３２０、３２２、及び３２４に分離する。

【0040】

周波数バンドデバイダは、出力でのコヒーレントな加算を可能にするために、位相補正を持つ４次Linkwitz-Rileyクロスオーバのカスケードを含む。周波数バンドデバイダ３００は、ローパスフィルタ３０２、ハイパスフィルタ３０４、オールパスフィルタ３０６、ローパスフィルタ３０８、ハイパスフィルタ３１０、オールパスフィルタ３１２、ハイパスフィルタ３１６、及びローパスフィルタ３１４を含む。

【0041】

ローパスフィルタ３０２及びハイパスフィルタ３０４は、コーナー周波数（例えば、３００Ｈｚ）を有する４次Linkwitz-Rileyクロスオーバを含み、オールパスフィルタ３０６は、マッチング２次オールパスフィルタを含む。ローパスフィルタ３０８及びハイパスフィルタ３１０は、他のコーナー周波数（例えば、５１０Ｈｚ）を有する４次Linkwitz-Rileyクロスオーバを含み、オールパスフィルタ３１２は、マッチング２次オールパスフィルタを含む。ローパスフィルタ３１４及びハイパスフィルタ３１６は、他のコーナー周波数（例えば、２７００Ｈｚ）を有する４次Linkwitz-Rileyクロスオーバを含む。かくして、周波数バンドデバイダ３００は、０～３００Ｈｚを含む周波数サブバンド（１）に対応するサブバンド成分３１８と、３００～５１０Ｈｚを含む周波数サブバンド（２）に対応するサブバンド成分３２０と、５１０～２７００Ｈｚを含む周波数サブバンド（３）に対応するサブバンド成分３２２と、２７００Ｈｚ～ナイキスト周波数を含む周波数サブバンド（４）に対応するサブバンド成分３２４とを生成する。この例において、周波数バンドデバイダ３００は、ｎ＝４サブバンド成分を生成する。周波数バンドデバイダ３００によって生成されるサブバンド成分の数及びそれらの対応する周波数範囲は変わりうる。周波数バンドデバイダ３００によって生成されるサブバンド成分は、周波数バンドコンバイナ１６４などによる、偏りのない完全な合計を可能にする。周波数バンドデバイダ３００は、左－右空間内の左及び右チャンネルに適用されるとして議論されたけれども、いくつかの実施形態において、ワイドバンド成分のサブバンドへの分離は、中央－側方空間内の中央及び側方成分に適用されうる。いくつかの実施形態において、周波数バンドデバイダ３００によって定義されるサブバンドは、周波数の非隣接セットを含んでよい。いくつかの実施形態において、それらの構成周波数は、直接的なユーザ仕様に従うか、又は入力信号に応答するかのいずれかで、時間とともに変わりうる。

【0042】

左－右空間から中央－側方空間への空間座標変換
ワイドバンド又は個別のサブバンドのいずれかについて、圧縮は、入力音声信号の中央成分１１６及び側方成分１１８の一方又は両方に適用されうる。中央成分１１６及び側方成分１１８を生成するために、Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２は、数式１によって定義される、左－右空間から中央－側方空間へと信号を変換するための変換Ｍを利用しうる。

【0043】

【数1】

【0044】

中央－側方空間において、サブバンド空間処理、クロストーク処理（例えば、クロストークキャンセル又はクロストークシミュレーション）、クロストーク補償（例えば、クロストーク処理によって引き起こされるスペクトルアーチファクトを調整すること）、及び、中央又は側方成分におけるゲイン適用などを含む様々な処理が実行されうる。処理された中央及び側方成分は、左スピーカに対する左出力チャンネル及び右スピーカに対する右出力チャンネルとして、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８などによって、左－右空間に変換される。

【0045】

中央－側方空間から左－右空間へと信号を変換するための逆変換Ｍ^-1は、数式２によって定義されうる。

【0046】

【数2】

【0047】

数式１及び２は、計算複雑性を低減するために、順及び逆方向の変換の両方が２の平方根によってスケーリングされる真の直交形式より好まれることがある。

【0048】

優先圧縮
（サブバンド内での）一方のチャンネルの他方に対する優先度は、部分的に、ゲイン補正動作の順序を並べ替えることによって決定される。従って、これらの動作が現れる順序は、最終的なＬ／Ｒゲイン補正を除いて変わりうる。優先度階層がある場合において、低い優先度のチャンネルに対するゲイン係数は、ゲイン補正された高い優先度のチャンネルに関して定義される。優先度階層が完全に平面的である場合において、各チャンネルに対するゲイン係数は、補正されていないチャンネルのデータを参照して決定される。ゲイン補正計算ステップは、別の意味で、チャンネルベースのゲイン補正優先度をエンコードすることがある制約を含む。

【0049】

図４Ａは、いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、側方成分圧縮のブロック図である。最初に側方コンプレッサステージ４０２が、次いで、左－右コンプレッサステージ４０４がある。側方コンプレッサステージ４０２では、側方ゲイン係数α_sが、音声信号の側方成分に適用される。Ｌ／Ｒコンプレッサステージ４０４では、残余ゲイン係数α_lrが、音声信号の側方及び中央成分（又は、左及び右成分）に適用される。残余ゲイン係数α_lrは、側方ゲイン係数α_sの関数である。

【0050】

図４Ｂは、いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、中央成分圧縮のブロック図である。最初に中央コンプレッサステージ４０６が、次いで、左－右コンプレッサステージ４０４がある。中央コンプレッサステージ４０６では、中央ゲイン係数α_mが、音声信号の中央成分に適用される。Ｌ／Ｒコンプレッサステージ４０４では、残余ゲイン係数α_lrが、音声信号の側方及び中央成分（又は、左及び右成分）に適用される。残余ゲイン係数α_lrは、中央ゲイン係数α_mの関数である。

【0051】

図５は、いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、並行する中央成分圧縮及び側方成分圧縮のブロック図である。最初に中央コンプレッサステージ５０４と並行する側方コンプレッサステージ５０２があり、並行するステージ５０２及び５０４に続いてＬ／Ｒコンプレッサステージ５０６がある。側方コンプレッサステージ５０２では、側方ゲイン係数α_sが、音声信号の側方成分に適用される。中央コンプレッサステージ５０４では、中央ゲイン係数α_mが、音声信号の中央成分に適用される。Ｌ／Ｒコンプレッサステージ５０６では、残余ゲイン係数α_lrが、音声信号の側方及び中央成分（又は、左及び右成分）に適用される。残余ゲイン係数α_lrは、側方ゲイン係数α_s及び中央ゲイン係数α_mの関数である。

【0052】

図６Ａは、いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、中央成分圧縮に続く、側方成分圧縮のブロック図である。側方成分が圧縮についてのプライマリ成分であるため、最初に側方コンプレッサステージ６０２があり、中央成分が圧縮についてのセカンダリ成分であるため、次いで、中央コンプレッサステージ６０４があり、次いで、Ｌ／Ｒリミッタステージ６０６がある。側方コンプレッサステージ６０２では、側方ゲイン係数α_sが、音声信号の側方成分に適用される。中央コンプレッサステージ６０４では、中央ゲイン係数α_mが、音声信号の中央成分に適用される。中央ゲイン係数α_mは、側方ゲイン係数α_sの関数である。Ｌ／Ｒコンプレッサステージ６０６では、残余ゲイン係数α_lrが、音声信号の側方及び中央成分（又は、左及び右成分）に適用される。残余ゲイン係数α_lrは、側方ゲイン係数α_s及び中央ゲイン係数α_mの関数である。

【0053】

図６Ｂは、いくつかの実施形態による、Ｌ／Ｒ圧縮に続く、側方成分圧縮に続く、中央成分圧縮のブロック図である。中央成分が圧縮についてのプライマリ成分であるため、最初に中央コンプレッサステージ６０４があり、側方成分が圧縮についてのセカンダリ成分であるため、次いで、側方コンプレッサステージ６０２があり、次いで、Ｌ／Ｒコンプレッサステージ６０６がある。中央コンプレッサステージ６０４では、中央ゲイン係数α_mが、音声信号の中央成分に適用される。側方コンプレッサステージ６０２では、側方ゲイン係数α_sが、音声信号の側方成分に適用される。側方ゲイン係数α_sは、中央ゲイン係数α_mの関数である。Ｌ／Ｒコンプレッサステージ６０６では、残余ゲイン係数α_lrが、音声信号の側方及び中央成分（又は、左及び右成分）に適用される。残余ゲイン係数α_lrは、側方ゲイン係数α_s及び中央ゲイン係数α_mの関数である。

【0054】

プライマリチャンネルゲイン補正
側方成分がプライマリ補正を受信し、中央成分がセカンダリ補正を受信する（例えば、図６Ａに示すような）例が、以下で議論される。中央成分及び側方成分のそれぞれの制御のための適切なゲイン制御係数が、中央及び側方エネルギーの両方に基づいて生成される。側方成分が補正についてのプライマリチャンネルであるとき、側方ゲイン係数α_sは、数式３によって定義される。

【0055】

【数3】

【0056】

ここで、θ_LRは、Ｌ／Ｒ空間における閾値であり、ｒ₂は、側方成分ｍ₂についての圧縮比であり、ｍは、中央成分ｍ₁及び側方成分ｍ₂を含むＭ／Ｓ空間における音声フレームを表す２次元ベクトルであり、｜ｍ₁｜は、中央成分ｍ₁のピークであり、｜ｍ₂｜は、側方成分ｍ₂のピークである。圧縮比ｒ₂は、側方成分が振幅閾値を超えるときの、側方成分が左－右閾値θ_LRを超える量と、左－右閾値θ_LRの上までの側方成分の減衰量との間の関係を定義する。例えば、３：１の圧縮比ｒ₂は、側方成分が左－右閾値θ_LRを３ｄＢ超えるときに、側方成分が左－右閾値θ_LRの上１ｄＢに減衰されることを意味する。

【0057】

数式３によって定義されるように、側方ゲイン係数α_sは、最大値が１（例えば、ゲイン低減なし）であるが、ゲイン低減を適用するために１未満のことがある。側方ゲイン係数α_sの値が小さくなるほど、側方成分に適用されるゲイン低減が大きくなる。側方ゲイン係数α_sの定義は、中央ゲイン係数α_mを含まず、その結果、圧縮について中央成分より側方成分が優先される。

【0058】

セカンダリチャンネルゲイン補正
セカンダリチャンネルのゲイン係数、この場合はα_mの計算は、プライマリゲイン係数α_mが与えられると、数式４によって定義されうる。

【0059】

【数4】

【0060】

ｒ₁は、中央成分ｍ₁についての圧縮比である。圧縮比ｒ１は、中央成分が振幅閾値を超えるときの、中央成分が左－右閾値θ_LRを超える量と、左－右閾値θ_LRの上までの中央成分の減衰量との間の関係を定義する。

【0061】

数式４によって定義されるように、中央ゲイン係数α_mは、最大値が１（例えば、ゲイン低減なし）であるが、ゲイン低減を適用するために１未満のことがある。中央ゲイン係数α_mの値が低いほど、中央成分に適用されるゲイン低減が大きくなる。セカンダリ中央ゲイン係数α_mは、プライマリ側方ゲイン係数α_sを利用して定義される。優先度に関して、中央成分がプライマリチャンネルであり、かつ側方成分がセカンダリチャンネルであるケースにおいては、ゲイン係数α_s及びα_m、ｍ₁、ｍ₂、ｒ₁、及びｒ₂は、数式３及び４において交換されうる。

【0062】

残余チャンネルゲイン補正
α_s及びα_mそれぞれについてθ_s及びθ_mと表記される最小のゲイン係数が特定される場合、Ｌ／Ｒ空間において閾値θ_LRは、満たされないことがある。かくして、全てのチャンネル上で同時に動作する残余ゲイン係数は、Ｌ／Ｒ空間において閾値θ_LRを満たすために利用されうる。α_lrと表記される、この残余ゲイン係数は、数式５によって定義されるように、Ｌ／Ｒ空間内で計算される。

【0063】

【数5】

【0064】

ここで、ｒ_lrは、残余ゲイン補正のための圧縮比を定義し、Ｐ_lrは、数式６によって定義されるように、システムの最悪の場合の瞬間的なピーク値を定義する。

【0065】

【数6】

【0066】

ここで、Ｐ_lrは、任意の平滑化の効果を除いて、出力が超えることがないダイナミックレンジ特性を指定する。

【0067】

ゲイン係数適用
ゲイン係数α_s、α_m、及びα_lrが決定される際、それらは、数式７によって示されるように、中央成分ｍ₁及び側方成分ｍ₂に適用される。

【0068】

【数7】

【0069】

最小の側方ゲイン係数θ_sは、側方ゲイン係数α_sについての最小許容可能値であり、最小の中央ゲイン係数θ_mは、中央ゲイン係数α_mについての最小許容可能値である。

【0070】

数式７によって定義されるように、側方ゲイン係数αｓが、最小の側方ゲイン係数θ_s以上である場合、側方ゲイン係数α_sが側方成分ｍ₂に適用される一方、ゲイン係数１（又はゲインなし）が中央成分ｍ₁に適用される。側方成分がプライマリ成分であり、側方ゲイン係数α_sの適用が、Ｌ／Ｒ空間で閾値θ_LRを満たすのに十分であるため、中央成分を補正する必要がない。

【0071】

側方ゲイン係数α_sが最小の側方ゲイン係数θ_sより小さく、かつ、中央ゲイン係数α_mが最小の中央ゲイン係数θ_m以上である場合、最小の側方ゲイン係数θ_sは、側方成分ｍ₂に適用され、中央ゲイン係数α_mは、中央成分ｍ₁に適用される。

【0072】

側方ゲイン係数α_sが最小の側方ゲイン係数θ_sより小さく、かつ、中央ゲイン係数α_mも最小の中央ゲイン係数θ_mより小さい場合、最小の側方ゲイン係数θ_sが、側方成分ｍ₂に適用され、最小の中央ゲイン係数θ_mが、中央ゲイン成分ｍ₁に適用され、ゲイン係数α_lrが、中央成分ｍ₁及び側方成分ｍ₂のそれぞれに適用されうる。残余ゲイン係数α_lrは、代替的に、中央－側方空間から左－右空間への中央及び側方成分の変換後に、左及び右チャンネルに適用されてよい。

【0073】

ゲイン低減の２つの（例えば、中央及び側方）ステージに同じ優先度が与えられる場合において、ゲイン補正係数は、互いに並行に計算され、α_lrは、数式８によって定義されるように、最悪の場合の（補正後の）ピークがθ_LRを超える場合にのみ適用される。

【0074】

【数8】

【0075】

メイクアップゲイン
数式３、４、及び５において、上で議論されたゲイン係数α_s、α_m、及びα_lrは、空間認識方式において実行できるダイナミックレンジ処理の例として、ダイナミックレンジ圧縮を提供する。計算されると、ゲイン係数は、下方にダイナミックレンジを圧縮する。代替は、より静かな信号を上方に圧縮することであるだろう。これらのケースは、制御パラメータに基づいて計算される最後のゲイン係数を除いて、実質的に同一である。このゲイン係数は、空間成分と並行して適用でき、又は最小のゲイン係数は、空間成分に等しく適用でき、その結果、サウンドステージを歪めること又はクリッピングすることなしに、最大のゲインが信号に適用できる。並行の場合において、サウンドステージ拡張、アーチファクト補正などのために、上方への圧縮が静的な空間ゲイン又は等化の代わりに利用できる。メイクアップゲインは、数式９によって定義されうる。

【0076】

【数9】

【0077】

ここで、μは、ｒ及びθの成分に一致する適切な成分に対するメイクアップゲイン係数である。ｒ_lrが、メイクアップゲインを計算しているｒより大きい場合、数式９において、ｒをｒ_lrに置き換える。全ての次元にわたって結合（スカラ）μが必要である場合は、μの最小係数を選択する。

【0078】

側鎖処理
図７は、いくつかの例示的な実施形態による、側鎖処理のための空間コンプレッサ７００のブロック図である。空間コンプレッサ７００は、空間コンプレッサ１０４の例である。側鎖処理は、特に、低い周波数によって引き起こされるポンピングアーチファクトがクロスステージに存在する場合に役に立つ。音声ミキシングの一般的な慣習は、低い（例えば、バス）周波数を中央に配置することを含みうるので、中央成分の低い周波数は、側方成分の低い周波数より大きなゲイン低減を必要とすることがある。

【0079】

音声コンプレッサ７００は、中央ピーク抽出機７０２と、側方ピーク抽出機７０４と、中央ゲインプロセッサ７０６と、側方ゲインプロセッサ７０８と、中央ミキサ７１０と、側方ミキサ７１２と、スイッチ７５２と、スイッチ７５４とを含む。

【0080】

中央ピーク抽出器７０２は、選択的に、中央サブバンド成分１１６又は中央成分に対する制御信号１４０のうちの１つを、スイッチ７５２を介してワイドバンドプロセッサ１８２から受信する。中央ピーク抽出機７０２は、中央サブバンド成分１１６又は制御信号１４０のピーク値を表す中央ピーク７１４を決定する。中央ピーク抽出器７０２は、中央ピーク７１４を、中央ゲインプロセッサ７０６及び側方ゲインプロセッサ７０８に提供する。側方ピーク抽出器７０４は、選択的に、側方サブバンド成分１１８又は側方成分に対する制御信号１４２を、スイッチ７５４を介してワイドバンドプロセッサ１８２から受信する。側方ピーク抽出機７０４は、側方サブバンド成分１１８又は制御信号１４２のピーク値を表す側方ピーク７１６を決定する。側方ピーク抽出機７０４は、側方ピーク７１６を、中央ゲインプロセッサ７０６及び側方ゲインプロセッサ７０８に提供する。

【0081】

中央ゲインプロセッサ７０６は、中央ピーク７１４、側方ピーク７１６、及び左－右空間における閾値θ_LRに基づいて、ゲイン係数７１８を決定する。ゲイン係数７１８は、中央ゲイン係数α_mを含んでよい。側方ゲインプロセッサ７０８は、中央ピーク７１４、側方ピーク７１６、及び左－右空間における閾値θ_LRに基づいて、ゲイン係数７２０を決定する。ゲイン係数７２０は、側方ゲイン係数α_sを含んでよい。

【0082】

側鎖処理は、中央ゲイン係数α_m及び側方ゲイン係数α_sに利用される計算に基づいて、中央又は側方成分を制限するための異なる優先度を組み込んでよい。追加の側鎖処理を制御信号に適用することによって、以下の操作行列を導出しうる。

【0083】

【数10】

【0084】

ここで、各エントリは、独立の演算子である。演算子行列は、ブロードバンド空間特性だけでなく、周波数成分などの他の膨大な数の特性に基づいてゲイン制御に優先順位を付ける機能を提供する。エントリＭＭは、中央成分１１６による中央ゲイン係数α_mの制御を定義する演算子である。ＭＳは、側方成分１１６による側方ゲイン係数α_sの制御を定義する演算子である。ＳＭは、側方成分１１８による中央ゲイン係数α_mの制御を定義する演算子である。最後に、ＳＳは、側方成分１１８による側方ゲイン係数α_sの制御を定義する演算子である。

【0085】

優先度が側鎖処理で実装される例において、側方ゲインプロセッサ７０８は、数式３を利用して、側方ゲイン係数α_sを含むゲイン係数７２０を決定し、中央ゲインプロセッサ７０６は、数式４を利用して、中央係数α_mを含むゲイン係数７１８を決定する。

【0086】

中央ミキサ７１０は、中央サブバンド成分１１６及びゲイン係数７１８を受信し、これらの値を乗算して、調整された中央サブバンド成分１２０を生成する。側方ミキサ７１２は、側方サブバンド成分１１８及びゲイン係数７２０を受信し、これらの値を乗算して、調整された側方サブバンド成分１２２を生成する。

【0087】

空間コンプレッサ７００は、ｎ個のサブバンドのそれぞれの、中央サブバンド成分１１６及び側方サブバンド成分１１８に対する処理を実行しうる。異なるサブバンドは、異なるゲイン係数を含みうる。音声信号が複数のサブバンドに分離されないときなど、いくつかの実施形態において、空間コンプレッサ７００は、ワイドバンド中央及びワイドバンド側方成分の処理を実行する。中央ピーク抽出器７０２及び側方ピーク抽出機７０４の各入力で、スイッチ７５２及び７５４は、空間コンプレッサ７００の２つの別個の設定の間で選択する。中央ピーク抽出器７０２及び側方ピーク抽出機７０４は、制御信号１４０及び１４２から、又は、中央サブバンド成分１１６及び側方サブバンド成分１１８から、中央ピーク７１４及び側方ピーク７１６を導出しうる。このようにして制御信号１４０及び１４２が成分１１６及び１１８から分離され、中央ミキサ７１０及び側方ミキサ７１２で減衰されるとき、その結果は「側鎖」圧縮として知られる。

【0088】

制御信号平滑化
上で説明されたゲイン制御式は、瞬間のゲイン値に関係する。これらの値が平滑化なしにサンプル毎に適用される場合、その結果は、適切なサブ空間におけるハードクリッピングを効果的に制御するだろう。結果として得られるアーチファクトは、実質的に、ゲイン制御機能の高周波変調である。これらのアーチファクトを低減するために、非線形ローパスフィルタは、ゲイン制御関数の勾配を制限することができる。完全に因果的なゲイン制御応答が必要な場合、下方クリッピングが直ちに生じうるが、上方への動きは、いくつかの最大勾配に制限される。制御バッファにおける先読みが可能な場合、最も大きな負の下方勾配制限（先読み長によって決定されるもの）が適用され、さらに適切なピーク値で対象の制御ゲインに達しうる。いずれの変量も、アーチファクトを音楽サウンドの一時的なステージにシフトし、それらは、知覚的にマスクされ、同時にそれらのバンド幅を低減する。いくつかの実施形態において、多変量（例えば、スカラ値ではなく）平滑化関数が、空間認識圧縮を提供するために利用される。

【0089】

例示的なプロセス
図８は、いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセス８００のフロー図である。プロセス８００は、音声信号の中央及び側方成分を制御することによって、音声信号が左－右空間における閾値を超えるときに、音声信号を圧縮するステップを提供する。プロセス８００は、音声信号を複数のサブバンドに分離しないワイドバンド処理を利用する。プロセス８００は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。

【0090】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、８０５、左－右閾値を決定する。左－右閾値θ_LRは、左及び右チャンネルのそれぞれに許容される最大レベルを定義する。例えば、左チャンネルの絶対値も右チャンネルの絶対値も左－右閾値を超えるべきではない。左－右閾値は、ユーザ入力によって又はプログラム的に定義されうる。以下でより詳細に議論されるように、圧縮は、中央－側方空間内で音声信号に適用され、左チャンネル及び右チャンネルのピークが左－右閾値未満であることを保証する。

【0091】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、８１０、いつ音声信号の左－右ピークエネルギーが左－右閾値を超えるかを決定する。例えば、音声処理システムは、いつ左チャンネルが左－右閾値を超えるかを決定し、いつ右チャンネルが左－右閾値を超えるかを決定する。

【0092】

音声処理システム（例えば、Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２）は、８１５、音声信号から中央成分及び側方成分を生成する。例えば、左チャンネルのピーク又は右チャンネルのピークのいずれかが左－右閾値を超えると決定することに応答して、左－右空間内の音声信号は、空間圧縮のための中央－側方空間に変換されうる。中央成分及び側方成分は、数式１で定義されるように、音声信号の左及び右チャンネルから決定されうる。中央成分及び側方成分は、中央－側方空間における音声信号を表し、左チャンネル及び右チャンネルは、左－右空間における音声信号を表す。中央成分は、左チャンネルと右チャンネルとの和を含みうる。側方成分は、左チャンネルと右チャンネルとの差を含みうる。いくつかの実施形態において、空間圧縮は、左及び右チャンネルのピークが左－右閾値を超えないときにバイパスされうる。

【0093】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、８２０、圧縮特性を決定する。圧縮特性は、音声信号の左、右、中央、又は側方成分について定義されうる。これらの特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ（例えば、アタック／リリース時間など）などの、ダイナミックレンジ制御に関連するパラメータを含みうる。

【0094】

いくつかの実施形態において、音声処理システムは、中央成分と側方成分の間の空間圧縮の優先度を実装する。例えば、圧縮特性は、中央成分と側方成分との間の圧縮の優先度を定義する成分優先度設定を含みうる。空間圧縮優先度設定のいくつかの実施形態は、中央のみ、側方のみ、側方の前に中央、又は中央の前に側方の指定を含みうる。両方の空間成分が制御される実施形態において、所与の優先度指定の範囲内でのさらなる変形は、各成分に適用されうる処理の最大量を決定することによって導出されうる。

【0095】

音声処理システム（例えば、音声コンプレッサ１８０の空間コンプレッサ１０４）は、８２５、中央成分又は側方成分の少なくとも１つを制御して圧縮特性に一致させる。例えば、音声処理システムは、数式３によって定義されるように、側方成分に対する側方ゲイン係数α_sを決定し、数式４によって定義されるように、中央成分に対する中央ゲイン係数α_m を決定し、これらのゲイン係数を側方及び中央成分にそれぞれ適用する。音声処理システムは、入ってくる中央成分１１６及び側方成分１１８のゲインを処理して、ＬＲ閾値θ_LRによって特定される出力特性及び圧縮特性を、特定された制約の範囲内で可能な最大限度に適合させる。いくつかの実施形態において、これらの制約は、個別の成分に対するゲイン低減バジェットなどのパラメータを含む。優先度を含む実施形態において、制約は、追加的に、ある成分の制御が他の制御より優先される、処理の論理的な順序を含みうる。実施形態が、中央及び側方成分１１６及び１１８の間で所与の優先度を指定するかどうかによらず、両方の成分は、両方のゲイン係数の決定において利用されうる。数式３及び４において、これらの成分は、変数ｍ₁及びｍ₂として現れる。処理の論理的な順序は、プライマリ成分に適用されるプライマリゲイン係数の決定においてはセカンダリゲイン係数がないことによって、セカンダリ成分に適用されるセカンダリゲイン係数の決定においてはプライマリゲイン係数がないことによって決定される。いくつかの実施形態において、圧縮特性に適合するように、中央成分又は側方成分の１つだけが制御される。

【0096】

音声処理システム（例えば、音声コンプレッサ１８０のＬ／Ｒコンプレッサ１０６）は、８３０、残りのピークエネルギーが左－右空間内で対称的に制御されるように、中央及び側方成分を制御する。例えば、中央ゲイン係数α_mは、最小の中央ゲイン係数θ_mによって制限されてよく、及び／又は側方ゲイン係数α_sは、最小の側方ゲイン係数θ_sによって制限されてよい。かくして、中央ゲイン係数α_m及び／又は側方ゲイン係数α_sの適用は、左－右閾値θ_LRを満たすのに十分でないことがある。音声処理システムは、数式５によって定義されるように、Ｌ／Ｒゲイン係数α_lrを決定し、ゲイン係数α_lrを側方及び中央成分に適用して残りのピークエネルギーを制御する。他の例において、Ｌ／Ｒゲイン係数α_lrは、側方及び中央成分を左－右空間に変換した後で、左及び右成分に適用される。

【0097】

音声処理システム（例えば、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８）は、８３５、中央成分及び側方成分から左出力チャンネル及び右出力チャンネルを生成する。左及び右出力チャンネルはそれぞれ、中央成分及び側方成分のそれぞれに適用される制御から、左－右閾値未満に制限される。

【0098】

プロセス８００のステップは、異なる順序で実行されてよい。例えば、中央及び側方成分は、いつ左－右ピークエネルギーが左－右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左－右空間での対称的な残りのピークエネルギーの制御は、中央成分及び側方成分の左－右成分への変換後に実行されてよい。ここで、制御は、中央－側方空間内の中央及び側方成分ではなく、左－右空間内の左及び右成分に適用されてよい。

【0099】

図９は、いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセス９００のフロー図である。プロセス９００は、音声信号の中央及び側方成分を制御することによって、音声信号が左－右空間において左－右閾値θ_LRを超えたときに、音声信号を圧縮するステップを提供する。プロセス９００は、音声信号を複数のサブバンドに分離するマルチバンド処理を利用し、異なるサブバンドに対して異なる空間圧縮を適用できる。プロセス９００は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。

【0100】

音声処理システム（例えば、周波数バンドデバイダ１６２）は、９０５、音声信号をサブバンドに分離する。例えば、音声処理システムは、サブバンドのそれぞれに関連するクロスオーバ周波数を決定し、クロスオーバ周波数に従って、音声信号をサブバンド成分に分離する。

【0101】

ステップ９１０～９４０において、音声処理システムは、サブバンドを別々に処理する。各サブバンドは、左成分及び右成分を含んでよい。空間圧縮は、１つ以上のサブバンドに適用されうる。いくつかの実施形態において、複数のサブバンドが並行に処理される。図８に示したプロセス８００におけるワイドバンド信号についてのステップ８０５～８３０に関する議論はそれぞれ、各サブバンドについてのステップ９１０～９３５に適用されうる。

【0102】

音声処理システム（例えば、音声コンプレッサ１８０）は、９１０、サブバンドについての左－右閾値を決定する。サブバンドについての左－右閾値θ_LRは、サブバンドの左及び右成分のそれぞれについて許容される最大レベルを定義する。異なるサブバンドは、異なる左－右閾値を有してよい。

【0103】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、９１５、いつサブバンドの左－右ピークエネルギーが左－右閾値を超えるかを決定する。例えば、音声処理システムは、いつサブバンドの左成分がサブバンドの左－右閾値を超えるかを決定し、いつサブバンドの右成分が左－右閾値を超えるかを決定する。

【0104】

音声処理システム（例えば、Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２）は、９２０、サブバンドの左及び右成分から中央サブバンド成分及び側方サブバンド成分を生成する。例えば、サブバンドの左成分のピーク又は右成分のピークのいずれかが左－右閾値を超えると決定することに応答して、左－右空間内のサブバンド成分は、空間圧縮のための中央－側方空間に変換されうる。中央サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの和を含んでよく、側方サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの差を含んでよい。

【0105】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、９２５、サブバンドに対する圧縮特性を決定する。圧縮特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ（例えば、アタック／リリース時間など）を含んでよい。いくつかの実施形態において、圧縮特性は、中央サブバンド成分と側方サブバンド成分との間の圧縮の優先度を定義する成分優先度設定を含んでよい。異なるサブバンドは、異なる圧縮特性を利用しうる。

【0106】

音声処理システム（例えば、音声コンプレッサ１８０の空間コンプレッサ１０４）は、９３０、中央サブバンド成分又は側方サブバンド成分の少なくとも１つを制御して圧縮特性に一致させる。

【0107】

音声処理システム（例えば、音声コンプレッサ１８０のＬ／Ｒコンプレッサ１０６）は、９３５、残りのピークエネルギーが左－右空間内で対称的に制御されるように、中央及び側方サブバンド成分を制御する。

【0108】

音声処理システム（例えば、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８）は、９４０、中央サブバンド成分及び側方サブバンド成分から、左サブバンド成分及び右サブバンド成分を生成する。

【0109】

音声処理システム（例えば、周波数バンドデバイダ１６４）は、９４５、複数のサブバンドの左サブバンド成分を結合して左出力チャンネルにし、複数のサブバンドの右サブバンド成分を結合して右出力チャンネルにする。各サブバンドは、各サブバンドについての左サブバンド成分及び右サブバンド成分を含んでよく、サブバンドは、左及び右出力チャンネルを生成するために結合される。

【0110】

プロセス９００のステップは、異なる順序で実行されてよい。例えば、サブバンドの中央及び側方サブバンド成分は、いつ左－右ピークエネルギーがサブバンドの左－右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左－右空間における残りのピークエネルギーの対称的な制御は、中央サブバンド成分及び側方サブバンド成分の左及び右サブバンド成分への変換後に実行されてよい。ここで、制御は、中央－側方空間内の中央及び側方成分ではなく、左－右空間内の左及び右成分に適用されてよい。

【0111】

図１０は、いくつかの実施形態による、サブバンドを利用して音声信号を空間的に圧縮するためのプロセス１０００のフロー図である。プロセス１０００は、ワイドバンド音声信号から導出される制御信号を利用して各サブバンドを制御するクロスバンド処理を含む。音声信号は、複数のサブバンドに分離され、異なる空間圧縮が、サブバンドについての制御信号に基づいて、異なるサブバンドに対して適用されうる。プロセス１０００は、音声信号の中央及び側方成分を制御することによって、音声信号が左－右空間における閾値θ_LRを超えるときに、音声信号を圧縮するステップを提供する。プロセス１０００は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。

【0112】

音声処理システム（例えば、周波数バンドデバイダ１６２又はコントローラ１１０）は、１００５、音声信号をサブバンドに分離する。例えば、音声処理システムは、サブバンドのそれぞれに関連付けられたクロスオーバ周波数を決定し、クロスオーバ周波数に従って、音声信号をサブバンド成分に分離する。ステップ１０１０－１０４５において、音声処理システムは、複数のサブバンドを別々に処理する。

【0113】

音声処理システム（例えば、ワイドバンドプロセッサ１８２又はコントローラ１１０）は、１０１０、ワイドバンド音声信号を処理することによって、サブバンドについての制御信号を生成する。制御信号は、サブバンドの圧縮に関する所望の信号レベルを定義しうる。いくつかの実施形態において、ワイドバンド音声信号の処理は、側鎖行列を利用して実行され、ワイドバンド処理は、ステップ１０１５－１０２０における個別のサブバンドに対する処理と並行して実行される。異なるサブバンドは、異なる制御信号を含んでよい。いくつかの実施形態において、制御信号は、ワイドバンド音声信号上での、等化又はフィルタの適用などの変換から導出される。次いで、側鎖行列は、それぞれが中央ゲインプロセッサ１５２又は側方ゲインプロセッサ１５４を制御しうる制御信号から、新たな中央－側方成分を導出するためのＬ／Ｒ－Ｍ／Ｓコンバータを利用して構築されうる。次いで、中央ゲインプロセッサ１５２及び側方ゲインプロセッサ１５４は、それらが制御信号の特性を有するかのように、側鎖行列によって決定される方式で、中央サブバンド成分１１６及び側方サブバンド成分１１８を処理することができる。制御信号が、左及び右チャンネル１１２及び１１４から導出され、側鎖行列、ＬＲ閾値θ_LR、及び圧縮特性のうちの１つ以上によって特定される方式でさらに処理されるため、音声処理システムは、それによって、サブバンドの外側の情報、又は、制御されるべき中央サブバンド成分１１６及び側方サブバンド成分１１８の空間位置に応答しうる。

【0114】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、１０１５、サブバンドに対する左－右閾値を決定する。サブバンドに対する左－右閾値は、サブバンドの左及び右成分のそれぞれに許容される最大レベルを定義する。異なるサブバンドは、異なる左－右閾値を有してよい。

【0115】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、１０２０、いつサブバンドの左－右ピークエネルギーが左－右閾値を超えたかを決定する。例えば、音声処理システムは、いつサブバンドの左成分がサブバンドの左－右閾値を超えたかを決定し、いつサブバンドの右成分が左－右閾値を超えたかを決定する。

【0116】

音声処理システム（例えば、Ｌ／Ｒ－Ｍ／Ｓコンバータ１０２）は、１０２５、サブバンドの左及び右成分から、中央サブバンド成分及び側方サブバンド成分を生成する。例えば、サブバンドの左成分のピーク又は右成分のピークのいずれかが左－右閾値を超えると決定することに応答して、左－右空間におけるサブバンド成分は、空間圧縮のために、中央－側方空間に変換されうる。中央サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの和を含んでよく、側方サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの差を含んでよい。

【0117】

音声処理システム（例えば、音声コンプレッサ１８０又はコントローラ１１０）は、１０３０、サブバンドの圧縮特性を決定する。圧縮特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ（例えば、アタック／リリース時間など）を含んでよい。いくつかの実施形態において、圧縮特性は、中央サブバンド成分と側方サブバンド成分との間の圧縮の優先度を定義する成分優先度設定を含んでよい。異なるサブバンドは、異なる圧縮特性を利用してよい。

【0118】

音声処理システム（例えば、音声コンプレッサ１８０の空間コンプレッサ１０４）は、１０３５、中央サブバンド成分又は側方サブバンド成分の少なくとも１つを制御して、制御信号に基づいて圧縮特性に一致させる。制御信号は、ワイドバンド側鎖信号レベルを定義してよい。側鎖行列（中央成分を制御する側鎖信号の中央成分、中央成分を制御する側鎖信号の側方成分、側方成分を制御する側鎖信号の中央成分、及び側方成分を制御する側鎖信号の側方成分の重みを決定すること）は、（例えば、中央ゲインプロセッサ１５２又は側方ゲインプロセッサ１５４によって）それぞれが処理されるべき信号の中央又は側方成分を制御しうる制御信号から、新たな中央－側方成分を導出するために、Ｌ／Ｒ－Ｍ／Ｓコンバータを利用して構築されうる。次いで、中央サブバンド成分１１６及び側方サブバンド成分１１８のいずれかが、それがワイドバンド側鎖信号の特性を有するかのように、側鎖行列、ＬＲ閾値θ_LR、圧縮特性のうちの１つ以上によって特定される方式で、（例えば、中央ゲインプロセッサ１５２又は側方ゲインプロセッサ１５４によって）処理されうる。この制御信号は、ワイドバンド音声信号（例えば、チャンネル１１２及び１１４を含む）から導出され、側鎖行列によって決定される方式でさらに処理されるため、音声処理システムは、それによって、サブバンドの外側の情報、又は、制御されるべき中央サブバンド成分１１６及び側方サブバンド成分１１８の空間位置に応答しうる。

【0119】

音声処理システム（例えば、音声コンプレッサ１８０のＬ／Ｒコンプレッサ１０６）は、１０４０、残りのピークエネルギーが左－右空間内で対称的に制御されるように、中央及び側方サブバンド成分を制御する。

【0120】

音声処理システム（例えば、Ｍ／Ｓ－Ｌ／Ｒコンバータ１０８）は、１０４５、中央サブバンド成分及び側方サブバンド成分から、左サブバンド成分及び右サブバンド成分を生成する。

【0121】

音声処理システム（例えば、周波数バンドコンバイナ１６４）は、１０５０、複数のサブバンドの左サブバンド成分を結合して左出力チャンネルとし、複数のサブバンドの右サブバンド成分を結合して右出力チャンネルとする。各サブバンドは、各サブバンドについての左サブバンド成分及び右サブバンド成分を含んでよく、サブバンドは、左及び右出力チャンネルを生成するために結合される。

【0122】

プロセス１０００のステップは、異なる順序で実行されてよい。例えば、サブバンドの中央及び側方サブバンド成分は、いつ左－右ピークエネルギーがサブバンドの左－右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左－右空間における対称的な残りのピークエネルギーの制御は、中央サブバンド成分及び側方サブバンド成分の左及び右サブバンド成分への変換後に実行されてよい。ここで、制御は、中央－側方空間内の中央及び側方成分ではなく、左－右空間内の左及び右成分に適用されてよい。

【0123】

図１１は、いくつかの例示的な実施形態による、異なる音声座標系を利用して音声信号を空間的に圧縮するためのプロセス１１００のフロー図である。プロセス１２００は、第２の音声座標系において音声信号が振幅閾値を超えるときに、第１の音声座標系における音声信号の第１及び第２の成分を制御することによって音声信号を圧縮するステップを提供する。プロセス１２００は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。

【0124】

音声処理システム（例えば、音声処理システム１００）は、１１０５、第２の音声座標系における音声信号の第３の成分及び第４の成分から、第１の音声座標系における第１の成分及び第２の成分を生成する。図１～図１０に関連して上で議論されたように、第１の音声座標系は、中央－側方音声座標系であってよく、第２の音声座標系は、左－右音声座標系であってよい。第１及び第２の成分は、中央及び側方成分を含んでよい。第３及び第４の成分は、左及び右成分を含んでよい。他の例において、第１の音声座標系は、左－右音声座標系であってよく、第２の音声座標系は、中央－側方音声座標系であってよい。第１及び第２の成分は、左及び右成分を含んでよい。第３及び第４の成分は、中央及び側方成分を含んでよい。いくつかの実施形態において、第１、第２、第３、及び第４の成分は、サブバンド成分である。

【0125】

音声処理システムは、１１１０、圧縮を適用するために、第３の成分及び第４の成分のそれぞれに対するレベルを定義する第２の音声座標系における振幅閾値を決定する。振幅閾値は、振幅閾値を満たすために圧縮にゲイン係数が適用される音声座標系とは異なる音声座標系において定義される。

【0126】

音声処理システムは、１１１５、第１の圧縮比を利用して、第１の成分に対する第１のゲイン係数を生成する。第１の圧縮比は、第１の成分が振幅閾値を超えるとき、第１の成分が振幅閾値を超える量と、振幅閾値の上までの第１の成分の減衰量との間の関係を定義しうる。第１のゲイン係数は、第１の成分ゲイン係数（例えば、側方成分が第１の成分であるときにはα_s、又は中央成分が第１の成分であるときにはα_m）を含んでよい。他の例において、第１のゲイン係数は、第１の成分ゲイン係数及び残余ゲイン係数（例えば、α_lr）を含んでよい。残余ゲイン係数の利用は、第１の成分ゲイン係数と、最小の第１の成分ゲイン係数（例えば、側方成分が第１の成分であるときにはθ_s、又は中央成分が第１の成分であるときにはθ_m）との間の比較に依存する。

【0127】

音声処理システムは、１１２０、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるときに、調整された第１の成分を生成するために、第１のゲイン係数を第１の成分に適用する。第１のゲイン係数の第１の成分への適用は、第３又は第４の成分が振幅閾値を超えるときに第１の成分が減衰される結果となる。

【0128】

音声処理システムは、１１２５、第２の圧縮比を利用して、第２の成分に対する第２のゲイン係数を生成する。第２の圧縮比は、第２の成分が振幅閾値を超えるとき、第２の成分が振幅閾値を超える量と、振幅閾値の上までの第２の成分の減衰量との間の関係を定義しうる。

【0129】

第２のゲイン係数は、第２の成分ゲイン係数（例えば、側方成分が第２の成分であるときにはα_s、又は中央成分が第２の成分であるときにはα_m）を含んでよい。他の例において、第２のゲイン係数は、第２の成分ゲイン係数と、残余ゲイン係数（例えば、α_lr）を含んでよい。残余ゲイン係数の利用は、第２の成分ゲイン係数と、最小の第２の成分ゲイン係数（例えば、側方成分が第２の成分であるときにはθ_s、又は中央成分が第２の成分であるときにはθ_m）との間の比較に依存する。

【0130】

音声処理システムは、１１３０、第３の成分又は第４の成分のうちの１つが振幅閾値を超えるとき、調整された第２の成分を生成するために、第２のゲイン係数を第２の成分に適用する。第２のゲイン係数の第２の成分への適用は、第３又は第４の成分が振幅閾値を超えるときに第２の成分が減衰される結果となる。

【0131】

いくつかの実施形態において、第１の成分は、第２の成分より高い圧縮についての優先度を有する。ここで、第２のゲイン係数は、第１のゲイン係数を利用して生成される。いくつかの実施形態において、最小の第１のゲイン係数又は最小の第２のゲイン係数は、第１及び第２のゲイン係数の適用を制御するために利用されうる。最小のゲイン係数は、成分のゲイン低減バジェットを定義する。例えば、音声処理システムは、第１の成分に対して最小の第１のゲイン係数を、第２の成分に対して最小の第２のゲイン係数を決定し、第１の圧縮比を利用して生成された第１のゲイン係数の第１の成分ゲイン係数が最小の第１のゲイン係数を超えるかどうかを決定し、第２の圧縮比を利用して生成された第２のゲイン係数の第２の成分ゲイン係数が最小の第２のゲイン係数を超えるかどうかを決定してよい。

【0132】

第１の成分ゲイン係数が最小の第１のゲイン係数を超える場合、第１の成分ゲイン係数は、第１のゲイン係数として第１の成分に適用され、第２のゲイン係数は、第２の成分に適用されない。第１の成分ゲイン係数が最小の第１のゲイン係数を超えず、かつ第２の成分ゲイン係数が最小の第２のゲイン係数を超える場合、第１の成分ゲイン係数は、第１のゲイン係数として第１の成分に適用され、第２の成分ゲイン係数は、第２のゲイン係数として第２の成分に適用される。第１の成分ゲイン係数が最小の第１のゲイン係数を超えず、かつ第２の成分ゲイン係数が最小の第２のゲイン係数を超えない場合、第１の成分ゲイン係数及び残余ゲイン係数が、第１のゲイン係数として第１の成分に適用され、最小の第２のゲイン係数及び残余ゲイン係数が、第２のゲイン係数として第２の成分に適用される。

【0133】

いくつかの実施形態において、第１の成分は、第２の成分と等しい圧縮についての優先度を有する。第１の圧縮比を利用して生成された第１のゲイン係数の第１の成分ゲイン係数は、第２のゲイン係数とは無関係に生成され、第２の圧縮比を利用して生成された第２のゲイン係数の第２の成分ゲイン係数は、第１のゲイン係数とは無関係に生成される。さらに、音声処理システムは、第１の成分ゲイン係数の適用後の第１の成分と、第２の成分ゲイン係数の適用後の第２の成分との和が振幅閾値を超えるかどうかを決定してよい。第１及び第２のゲイン係数はそれぞれ、和が振幅閾値を超えることに応答して、残余ゲイン係数を含んでよい。

【0134】

いくつかの実施形態において、第１、第２、第３、及び第４の成分が、サブバンドのサブバンド成分であることなど、第１の圧縮比及び第２の圧縮比（及び他の圧縮特性）は、サブバンドを含む音声信号の複数のサブバンドに基づいて決定されうる。いくつかの実施形態において、ワイドバンド音声信号は、１つ以上のサブバンドに利用される圧縮特性を決定するために利用されうる。

【0135】

いくつかの実施形態において、平滑化関数は、圧縮のアーチファクトを低減するために、第１又は第２のゲイン係数に適用されうる。

【0136】

音声処理システムは、１１３５、第１の音声座標系における、調整された第１の成分及び調整された第２の成分を利用して、第２の音声座標系における第１の出力チャンネル及び第２の出力チャンネルを生成する。調整された第１及び第２の成分は、ゲイン係数の適用後の第１及び第２の成分である。いくつかの実施形態において、第１の成分又は第２の成分のみが調整され、出力チャンネルは、１つだけの調整された成分と、調整されていない成分とを利用して生成されうる。

【0137】

例示的なワイドバンドプロセッサ
図１２は、いくつかの実施形態による、ワイドバンドプロセッサ１８２のブロック図である。ワイドバンドプロセッサ１８２は、Ｌ／Ｒ－Ｍ／Ｓコンバータ１２０２と、ワイドバンド処理要素１２０４とを含む。Ｌ／Ｒ－Ｍ／Ｓコンバータ１２０２は、左入力チャンネル１１２及び右入力チャンネル１１４を受信し、中央成分１２０６及び側方成分１２０８を生成する。ワイドバンド処理要素１２０４は、中央成分１２０６を処理して制御信号１４０を生成し、側方成分１２０８を処理して制御信号１４２を生成する。ワイドバンド処理要素１２０４は、中央成分１２０６及び側方成分１２０８のそれぞれに対する等化フィルタを含んでよい。ワイドバンド処理要素１２０４は、制御信号１４０を、空間コンプレッサ１０４の中央ゲインプロセッサ１５２に提供し、制御信号１４２を、空間コンプレッサ１０４の側方ゲインプロセッサ１５４に提供する。例えば、ワイドバンド処理要素は、１５０～２５０Ｈｚ範囲を強調するＭ／Ｓ等化器を含んでよく、それは、５００～１０００Ｈｚに及ぶサブバンドにおける側方ゲイン係数α_sを制御するために利用されうる。その後、空間コンプレッサ７００において、制御信号１４０及び１４２は、次いで、中央ピーク抽出器７０２及び側方ピーク抽出器７０４によってそれぞれ解釈され、数式３及び４を利用して、中央及び側方サブバンド成分１１６及び１１８に適用されるゲインを決定するピーク値７１４及び７１６を計算する。これは、サブバンドの外側からの情報が、サブバンドに適用される動的処理アルゴリズムに影響しうる１つの方法である。

【0138】

例示的なコンピュータ
図１３は、いくつかの実施形態による、コンピュータ１３００のブロック図である。コンピュータ１３００は、音声処理システムを実装する回路の例である。チップセット１３０４に結合された少なくとも１つのプロセッサ１３０２が描かれている。チップセット１３０４は、メモリコントローラハブ１３２０及び入力／出力（Ｉ／Ｏ）コントローラハブ１３２２を含む。メモリ１３０６及びグラフィックスアダプタ１３１２は、メモリコントローラハブ１３２０に結合され、ディスプレイデバイス１３１８は、グラフィックスアダプタ１３１２に結合される。ストレージデバイス１３０８、キーボード１３１０、ポインティングデバイス１３１４、及びネットワークアダプタ１３１６は、Ｉ／Ｏコントローラハブ１３２２に結合される。コンピュータ１３００は、様々なタイプの入力又は出力デバイスを含んでよい。コンピュータ１３００の他の実施形態は、異なるアーキティクチャを有する。例えば、メモリ１３０６は、いくつかの実施形態において、プロセッサ１３０２に直接結合される。

【0139】

ストレージデバイス１３０８は、ハードドライブ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、ＤＶＤ、又はソリッドステートメモリデバイスなどの１つ以上の非一時的なコンピュータ可読記憶媒体を含む。メモリ１３０６は、プロセッサ１３０２によって利用されるプログラムコード（１つ以上の命令が含まれる）及びデータを把持する。プログラムコードは、図１～図１１で説明された処理態様に対応しうる。

【0140】

ポインティングデバイス１３１４は、コンピュータシステム１３００へデータを入力するためにキーボード１３１０と組み合わせて利用される。グラフィックスアダプタ１３１２は、イメージ及び他の情報をディスプレイデバイス１３１８に表示する。いくつかの実施形態において、ディスプレイデバイス１３１８は、ユーザ入力及び選択を受信するためのタッチスクリーン機能を含む。ネットワークアダプタ１３１６は、コンピュータシステム１３００をネットワークに結合させる。コンピュータ１３００のいくつかの実施形態は、図１３に示したものとは異なる及び／又は他のコンポーネントを有してよい。

【0141】

追加的な考察
開示された構成のいくつかの例示的な利益及び利点は、中央－側方空間において適用されるゲイン係数を利用して、左－右空間内において音声信号を圧縮して、圧縮のアーチファクトを異なる空間位置にシフトすること、及びユーザによって特定される設定を含む。音声信号の中央又は側方成分を処理することは、様々なタイプの音声処理において利用され、本明細書で議論された空間優先圧縮は、中央／側方空間における、そのような処理技術との計算効率の高い統合を提供する。これらの設定は、コンプレッサが異なる動作のレジームに入る閾値、及びそれらの動作のレジームの論理的な順序として、最低レベルで特定される。より高いレベルでは、これは、様々なサウンドステージの歪みのアーチファクトと、従来のダイナミックレンジ処理のアーチファクトとの間のトレードオフとして理解できる。圧縮についての本明細書で議論された技術は、拡張閾値を下回る場合の音声信号の拡張にも適用されうる。拡張は、音声信号に対して単独で実行しても、圧縮と組み合わせて実行してもよい。

【0142】

特定の実施形態及び応答が図示及び説明されたが、発明は、本明細書に開示された正確な構造及びコンポーネントに限定されず、当業者に明らかである様々な修正、変更、及び変形は、本開示の意図及び範囲を逸脱することなく、配置、動作、及び、本明細書で開示された方法及び装置の詳細に対してなされうることが理解されよう。

【図1】