(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-12
(54)【発明の名称】優先度を持つ空間認識マルチバンド圧縮システム
(51)【国際特許分類】
H03G 7/00 20060101AFI20220405BHJP
G10L 19/008 20130101ALI20220405BHJP
【FI】
H03G7/00 002
G10L19/008 100
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021555251
(86)(22)【出願日】2020-03-05
(85)【翻訳文提出日】2021-11-12
(86)【国際出願番号】 US2020021238
(87)【国際公開番号】W WO2020185522
(87)【国際公開日】2020-09-17
(32)【優先日】2019-03-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518253875
【氏名又は名称】ブームクラウド 360 インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】ジョセフ マリグリオ ザ サード
(72)【発明者】
【氏名】ザッカリー セルデス
【テーマコード(参考)】
5J030
【Fターム(参考)】
5J030BA01
(57)【要約】
音声信号は、ある音声座標系において、他の音声座標系で適用されるゲイン係数を利用して圧縮される。第1の音声座標系における第1の成分及び第2の成分は、第2の音声座標系における音声信号の第3の成分及び第4の成分から生成される。圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する振幅閾値が決定される。第1の成分に対するゲイン係数は、圧縮比を利用して生成される。第3の成分又は第4の成分のうちの1つが振幅閾値を超えたとき、ゲイン係数は、調整された第1の成分を生成するために、第1の成分に適用される。第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルは、第1の音声座標系における調整された第1の成分及び第2の成分を利用して生成される。
【特許請求の範囲】
【請求項1】
処理回路によって、音声信号に圧縮を適用するための方法であって、
第2の音声座標系における前記音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成するステップと、
前記圧縮を適用するための前記第3の成分及び前記第4の成分のそれぞれに対するレベルを定義する前記第2の音声座標系における振幅閾値を決定するステップと、
前記第1の成分が前記振幅閾値を超えるとき、前記第1の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、前記第1の成分に対する第1のゲイン係数を生成するステップと、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第1のゲイン係数を前記第1の成分に適用して、調整された第1の成分を生成するステップと、
前記第1の音声座標系における前記調整された第1の成分及び前記第2の成分を利用して、前記第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するステップと
を含む、方法。
【請求項2】
前記処理回路によって、
前記第2の成分が前記振幅閾値を超えるとき、前記第2の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、前記第2の成分に対する第2のゲイン係数を生成するステップと、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第2のゲイン係数を前記第2の成分に適用して、調整された第2の成分を生成するステップと、
をさらに含み、
前記調整された第1の成分及び前記第2の成分を利用して、前記第1の出力チャンネル及び前記第2の出力チャンネルを生成するステップは、前記第2の成分から生成された前記調整された第2の成分を利用することを含む、
請求項1に記載の方法。
【請求項3】
前記第1の成分は、圧縮についての、前記第2の成分より高い優先度を有し、前記第2のゲイン係数は、前記第1のゲイン係数を利用して生成される、
請求項2に記載の方法。
【請求項4】
前記処理回路によって、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定するステップと、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定するステップと、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定するステップと、
をさらに含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えると決定することに応答して、前記最小の第1のゲイン係数は、前記第1のゲイン係数として前記第1の成分に適用され、前記第2の成分ゲイン係数は、前記第2のゲイン係数として前記第2の成分に適用される、
請求項3に記載の方法。
【請求項5】
前記第1のゲイン係数を生成するステップは、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定するステップと、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定するステップと、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定するステップと、
を含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないと決定することに応答して、前記第1のゲイン係数及び前記第2のゲイン係数はそれぞれ残余ゲイン係数を含む、
請求項3に記載の方法。
【請求項6】
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないことに応答して、前記第1のゲイン係数は、前記最小の第1のゲイン係数を含み、前記第2のゲイン係数は、前記最小の第2のゲイン係数を含む、
請求項5に記載の方法。
【請求項7】
前記第1の成分は、圧縮についての、前記第2の成分と等しい優先度を有し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数は、前記第2のゲイン係数とは無関係に生成され、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数は、前記第1のゲイン係数とは無関係に生成される、
請求項2に記載の方法。
【請求項8】
前記処理回路によって、前記第1の成分ゲイン係数の適用後の前記第1の成分と、前記第2の成分ゲイン係数の適用後の前記第2の成分との和が、前記振幅閾値を超えるかどうかを決定するステップであって、前記和が前記振幅閾値を超えることに応答して、前記第1及び第2のゲイン係数はそれぞれ残余ゲイン係数を含む、ステップをさらに含む、
請求項7に記載の方法。
【請求項9】
前記第1の成分は、前記音声信号の中央成分又は側方成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の左成分であり、
前記第4の成分は、前記音声信号の右成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項1に記載の方法。
【請求項10】
前記第1の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第4の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項1に記載の方法。
【請求項11】
前記処理回路によって、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記第1の圧縮比を決定するステップをさらに含む、
請求項10に記載の方法。
【請求項12】
前記第1のゲイン係数に平滑化関数を適用するステップをさらに含む、
請求項1に記載の方法。
【請求項13】
プログラムコードを格納する非一時的なコンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行されたとき、
第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、
圧縮を適用するための前記第3の成分及び前記第4の成分のそれぞれに対するレベルを定義する前記第2の音声座標系における振幅閾値を決定し、
前記第1の成分が前記振幅閾値を超えるとき、前記第1の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、前記第1の成分に対する第1のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第1のゲイン係数を前記第1の成分に適用して、調整された第1の成分を生成し、
前記第1の音声座標系における前記調整された第1の成分及び前記第2の成分を利用して、前記第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成する
ように前記プロセッサを構成する、
非一時的なコンピュータ可読媒体。
【請求項14】
前記プログラムコードは、
前記第2の成分が前記振幅閾値を超えるとき、前記第2の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、前記第2の成分に対する第2のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第2のゲイン係数を前記第2の成分に適用して、調整された第2の成分を生成する
ように前記プロセッサをさらに構成し、
前記調整された第1の成分及び前記第2の成分を利用して、前記第1の出力チャンネル及び前記第2の出力チャンネルを生成するように前記プロセッサを構成する前記プログラムコードは、前記第2の成分から生成された前記調整された第2の成分を利用するように前記プロセッサを構成する前記プログラムコードを含む、
請求項13に記載のコンピュータ可読媒体。
【請求項15】
前記第1の成分は、圧縮についての、前記第2の成分より高い優先度を有し、前記第2のゲイン係数は、前記第1のゲイン係数を利用して生成される、
請求項14に記載のコンピュータ可読媒体。
【請求項16】
前記プログラムコードは、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ように前記プロセッサをさらに構成し、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えると決定することに応答して、前記最小の第1のゲイン係数は、前記第1のゲイン係数として前記第1の成分に適用され、前記第2の成分ゲイン係数は、前記第2のゲイン係数として前記第2の成分に適用される、
請求項15に記載のコンピュータ可読媒体。
【請求項17】
前記第1のゲイン係数を生成するように前記プロセッサを構成する前記プログラムコードは、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ように前記プロセッサを構成するプログラムコードを含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないと決定することに応答して、前記第1のゲイン係数及び前記第2のゲイン係数はそれぞれ残余ゲイン係数を含む、
請求項15に記載のコンピュータ可読媒体。
【請求項18】
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないことに応答して、前記第1のゲイン係数は、前記最小の第1のゲイン係数を含み、前記第2のゲイン係数は、前記最小の第2のゲイン係数を含む、
請求項17に記載のコンピュータ可読媒体。
【請求項19】
前記第1の成分は、圧縮についての、前記第2の成分と等しい優先度を有し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数は、前記第2のゲイン係数とは無関係に生成され、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数は、前記第1のゲイン係数とは無関係に生成される、
請求項14に記載のコンピュータ可読媒体。
【請求項20】
前記プログラムコードは、前記第1の成分ゲイン係数の適用後の前記第1の成分と、前記第2の成分ゲイン係数の適用後の前記第2の成分との和が、前記振幅閾値を超えるかどうかを決定することであって、前記和が前記振幅閾値を超えることに応答して、前記第1及び第2のゲイン係数はそれぞれ残余ゲイン係数を含む、ことを行うように前記プロセッサをさらに構成する、
請求項19に記載のコンピュータ可読媒体。
【請求項21】
前記第1の成分は、前記音声信号の中央成分又は側方成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の左成分であり、
前記第4の成分は、前記音声信号の右成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項13に記載のコンピュータ可読媒体。
【請求項22】
前記第1の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第4の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項13に記載のコンピュータ可読媒体。
【請求項23】
前記プログラムコードは、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記圧縮比を決定するように前記プロセッサをさらに構成する、
請求項22に記載のコンピュータ可読媒体。
【請求項24】
前記プログラムコードは、前記第1のゲイン係数に平滑化関数を適用するように前記プロセッサをさらに構成する、
請求項21に記載のコンピュータ可読媒体。
【請求項25】
音声信号に圧縮を適用するためのシステムであって、
第2の音声座標系における前記音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、
圧縮を適用するための前記第3の成分及び前記第4の成分のそれぞれに対するレベルを定義する前記第2の音声座標系における振幅閾値を決定し、
前記第1の成分が前記振幅閾値を超えるとき、前記第1の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、前記第1の成分に対する第1のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第1のゲイン係数を前記第1の成分に適用して、調整された第1の成分を生成し、
前記第1の音声座標系における前記調整された第1の成分及び前記第2の成分を利用して、前記第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成する
ように構成された処理回路を含む、システム。
【請求項26】
前記処理回路は、
前記第2の成分が前記振幅閾値を超えるとき、前記第2の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、前記第2の成分に対する第2のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第2のゲイン係数を前記第2の成分に適用して、調整された第2の成分を生成する
ようにさらに構成され、
前記調整された第1の成分及び前記第2の成分を利用して、前記第1の出力チャンネル及び前記第2の出力チャンネルを生成するように構成された前記処理回路は、前記第2の成分から生成された前記調整された第2の成分を利用するように構成される前記処理回路を含む、
請求項25に記載のシステム。
【請求項27】
前記第1の成分は、圧縮についての、前記第2の成分より高い優先度を有し、前記第2のゲイン係数は、前記第1のゲイン係数を利用して生成される、
請求項26に記載のシステム。
【請求項28】
前記処理回路は、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ようにさらに構成され、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えると決定することに応答して、前記最小の第1のゲイン係数は、前記第1のゲイン係数として前記第1の成分に適用され、前記第2の成分ゲイン係数は、前記第2のゲイン係数として前記第2の成分に適用される、
請求項27に記載のシステム。
【請求項29】
前記第1のゲイン係数を生成するように構成された前記処理回路は、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ように構成される前記処理回路を含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないと決定することに応答して、前記第1のゲイン係数及び前記第2のゲイン係数はそれぞれ残余ゲイン係数を含む、
請求項27に記載のシステム。
【請求項30】
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないことに応答して、前記第1のゲイン係数は、前記最小の第1のゲイン係数を含み、前記第2のゲイン係数は、前記最小の第2のゲイン係数を含む、
請求項29に記載のシステム。
【請求項31】
前記第1の成分は、圧縮についての、前記第2の成分と等しい優先度を有し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数は、前記第2のゲイン係数とは無関係に生成され、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数は、前記第1のゲイン係数とは無関係に生成される、
請求項26に記載のシステム。
【請求項32】
前記処理回路は、前記第1の成分ゲイン係数の適用後の前記第1の成分と、前記第2の成分ゲイン係数の適用後の前記第2の成分との和が、前記振幅閾値を超えるかどうかを決定することであって、前記和が前記振幅閾値を超えることに応答して、前記第1及び第2のゲイン係数はそれぞれ残余ゲイン係数を含む、ことを行うようにさらに構成される、
請求項31に記載のシステム。
【請求項33】
前記第1の成分は、前記音声信号の中央成分又は側方成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の左成分であり、
前記第4の成分は、前記音声信号の右成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項25に記載のシステム。
【請求項34】
前記第1の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第4の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項25に記載のシステム。
【請求項35】
前記処理回路は、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記第1の圧縮比を決定するようにさらに構成される、
請求項34に記載のシステム。
【請求項36】
前記処理回路は、前記第1のゲイン係数に平滑化関数を適用するようにさらに構成される、
請求項25に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書で説明される構成要素は、音声処理、より詳細には、空間認識コンテキストにおける音声信号の圧縮に関する。
【背景技術】
【0002】
圧縮は、音声信号の最大音量及び最小音量の部分の間の範囲を制御することを指す。左チャンネル及び右チャンネルを含む左-右空間内のステレオ音声信号については、圧縮は、左又は右チャンネルが圧縮閾値を超えるとき、必要に応じて、左又は右チャンネルにゲインを適用することによって左-右空間内で達成できる。しかし、音声信号の空間特性が調整できる中央-側方空間など、左-右空間内にない音声信号を処理することが好ましい。
【発明の概要】
【0003】
実施形態は、空間認識コンテキストにおける音声信号の圧縮を提供するための、プロセス(又は方法)と、システム及び非一時的なコンピュータ可読記憶媒体に格納された命令を含むコンピュータプログラム製品とに関する。左-右空間内で圧縮閾値を超えるとき、圧縮のアーチファクトを異なる空間位置にシフトするために、中央-側方空間内で適用される中央及び側方成分の制御を利用して、音声信号が圧縮される。この技術は、それ自体で又は圧縮との組み合わせで、拡張閾値未満のときに、音声信号の拡張にも適用されうる。
【0004】
例として、いくつかの実施形態は、音声信号に圧縮を適用するための方法を含む。方法は、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成するステップを含む。方法は、圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定するステップをさらに含む。方法は、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成するステップをさらに含む。方法は、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第1のゲイン係数を第1の成分に適用して、調整された第1の成分を生成するステップをさらに含む。方法は、第1の音声座標系における調整された第1の成分及び第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するステップをさらに含む。
【0005】
いくつかの実施形態において、方法は、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成するステップと、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第2のゲイン係数を第2の成分に適用して、調整された第2の成分を生成するステップとをさらに含む。調整された第1の成分及び第2の成分を利用して、第1の出力チャンネル及び第2の出力チャンネルを生成するステップは、第2の成分から生成された調整された第2の成分を利用することを含む。
【0006】
いくつかの実施形態は、プログラムコードを格納する非一時的なコンピュータ可読媒体を含み、プログラムコードは、プロセッサによって実行されたとき、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定し、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第1のゲイン係数を第1の成分に適用して、調整された第1の成分を生成し、第1の音声座標系における調整された第1の成分及び第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するようにプロセッサを構成する。
【0007】
いくつかの実施形態において、プログラムコードは、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第2のゲイン係数を第2の成分に適用して、調整された第2の成分を生成するようにプロセッサをさらに構成する。調整された第1の成分及び第2の成分を利用して、第1の出力チャンネル及び第2の出力チャンネルを生成するようにプロセッサを構成するプログラムコードは、第2の成分から生成された調整された第2の成分を利用するようにプロセッサを構成するプログラムコードを含む。
【0008】
いくつかの実施形態は、音声信号に圧縮を適用するためのシステムを含む。システムは、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定し、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第1のゲイン係数を第1の成分に適用して、調整された第1の成分を生成し、第1の音声座標系における調整された第1の成分及び第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するように構成された処理回路を含む。
【0009】
いくつかの実施形態において、処理回路は、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第2のゲイン係数を第2の成分に適用して、調整された第2の成分を生成するようにさらに構成される。調整された第1の成分及び第2の成分を利用して、第1の出力チャンネル及び第2の出力チャンネルを生成するように構成された処理回路は、第2の成分から生成された調整された第2の成分を利用するように構成される処理回路を含む。
【図面の簡単な説明】
【0010】
【
図1】いくつかの実施形態による、音声処理システムのブロック図である。
【
図2】いくつかの実施形態による、空間コンプレッサのブロック図である。
【
図3】いくつかの実施形態による、周波数バンドデバイダのブロック図である。
【
図4A】いくつかの実施形態による、L/R圧縮に続く側方成分圧縮のブロック図である。
【
図4B】いくつかの実施形態による、L/R圧縮に続く中央成分圧縮のブロック図である。
【
図5】いくつかの実施形態による、L/R圧縮に続く、並行する中央成分圧縮及び側方成分圧縮のブロック図である。
【
図6A】いくつかの実施形態による、L/R圧縮に続く、中央成分圧縮に続く、側方成分圧縮のブロック図である。
【
図6B】いくつかの実施形態による、L/R圧縮に続く、側方成分圧縮に続く、中央成分圧縮のブロック図である。
【
図7】いくつかの実施形態による、側鎖処理のための音声コンプレッサのブロック図である。
【
図8】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図9】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図10】いくつかの実施形態による、サブバンドを利用して、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図11】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図12】いくつかの実施形態による、ワイドバンドプロセッサのブロック図である。
【
図13】いくつかの実施形態による、コンピュータのブロック図である。
【0011】
説明のみを目的とする様々な非限定的な実施形態を、図で示し、詳細な説明で述べる。
【発明を実施するための形態】
【0012】
ここでは、実施形態と、添付図に示されたそれらの例とが詳細に参照されるだろう。以下の詳細な説明において、説明される様々な実施形態の完全な理解を提供するために多数の具体的な詳細が明らかにされる。しかし、説明される実施形態は、これらの具体的な詳細なしに実践されうる。他の場合においては、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、成分、回路、及びネットワークは詳細に説明されなかった。
【0013】
本開示の実施形態は、中央-側方空間内に適用される制御を利用した、左-右空間内における音声信号の範囲制御に関する。左チャンネル及び右チャンネルを含む音声信号は、中央成分及び側方成分に変換される。左及び右チャンネルのそれぞれに許容される最大レベルを定義する左-右閾値が決定される。圧縮比、メイクアップゲイン設定、エンベロープパラメータ、及び、中央成分と側方成分との間の圧縮の優先度を定義する成分優先度設定などの圧縮特性が決定される。中央成分及び側方成分のうちの1つ以上は、左又は右チャンネルが左-右閾値を超えるときに圧縮特性に基づいて制御される。調整された成分は、左-右空間に戻す変換がされて、それぞれが左-右空間内の左-右閾値を満たす左出力チャンネル及び右出力チャンネルになる。
【0014】
圧縮は、中央成分と側方成分の間の空間的制限の優先度に従って定義されてよい。空間的制限の優先度は調整可能であってよく、左-右閾値を満たすように、異なる空間位置へのアーチファクトの好ましいシフトを定義する。
【0015】
いくつかの実施形態において、マルチバンド圧縮は、中央及び側方成分の異なるサブバンドに利用される。いくつかの実施形態において、クロスバンド圧縮が利用され、ワイドバンド音声信号から導出された制御信号に基づいて異なるサブバンドが制御される。
【0016】
いくつかの実施形態において、マルチバンド優先圧縮が、多入力多出力(MIMO)システムに適用される。一般化された側鎖行列を組み込むことによって、サブバンド及び空間チャンネルにわたっての優先度が確立できる。
【0017】
対象閾値を超えないという要件を緩和することによって、先読みを必要とすることなく、正及び負の両方の意味で非対称的にゲイン補正関数を平滑化することによって、ゲイン補正アーチファクトが低減されうる。さらに、これらの非線形平滑化要素は、個別のチャンネルに対する個別の係数で特定でき、従って、知覚的なマスキングがより生じやすい出力空間の範囲にアーチファクトをシフトする能力を提供する。
【0018】
いくつかの実施形態において、信号をサブバンドに分解することは、位相補正された4次のLinkwitz-Rileyネットワークを利用するが、これは、ウェーブレット分解及び短時間フーリエ変換(STFT)方法を含む他のフィルタバンクトポロジに同様に拡張されうる。
【0019】
例示的な音声処理システム
図1は、いくつかの実施形態による、音声処理システム100のブロック図である。音声処理システム100は、左入力チャンネル112及び右入力チャンネル114を含む入力音声信号を受信し、チャンネル112、114の中央成分(又は、「中央サブバンド成分116」と称される中央成分のサブバンド)、側方成分(又は、「側方サブバンド成分118」と称される側方成分のサブバンド)を処理して、左出力チャンネル176及び右出力チャンネル178を含む出力音声信号を生成する回路を含む。音声処理システム100は、音声信号が、圧縮を適用するための左及び右チャンネルに対するレベルを定義する左-右閾値θ
LRを超えたとき、中央成分116又は側方成分118のうちの1つ以上に圧縮を適用する。入力エネルギーがどこに集中しているか及び音声処理システム100の動作を構成する設定に依存して、音声処理システム100が圧縮のアーチファクトを異なる空間位置(例えば、入力音声信号の中央又は側方成分)にシフトできるため、音声処理システム100は、空間認識コンテキストにおける入力音声信号の圧縮を提供する。設定は、プログラム的に決定されてよく、又はユーザによって特定されてよい。
【0020】
音声処理システム100は、周波数バンドデバイダ162と、L/R-M/Sコンバータ102と、空間コンプレッサ104及びL/Rコンプレッサ106を含む音声コンプレッサ180と、M/S-L/Rコンバータ108と、周波数バンドコンバイナ165と、ワイドバンドプロセッサ182と、コントローラ110とを含む。いくつかの実施形態において、ワイドバンドプロセッサ182は、クロスバンド側鎖設定を許可するように含まれてよい。
【0021】
周波数バンドデバイダ162は、左入力チャンネル112及び右入力チャンネル114を受信し、チャンネルをサブバンド成分に分離する。左入力チャンネル112及び右入力チャンネル114はそれぞれ、n個の周波数サブバンドに分離されうる。左入力チャンネル112及び右入力チャンネル114のn個の周波数サブバンドのそれぞれは、周波数の範囲に対応しうる。n=4周波数サブバンドの例では、周波数サブバンド(1)は、0~300Hzに対応してよく、周波数サブバンド(2)は、300~510Hzに対応してよく、周波数サブバンド(3)は、510~2700Hzに対応してよく、周波数サブバンド(4)は、2700Hz~ナイキスト周波数に対応してよい。いくつかの実施形態において、n個の周波数サブバンドは、臨界帯域の固定セットである。臨界帯域は、多種多様な音楽ジャンルからの音声サンプルのコーパスを利用して決定されうる。24バーク尺度臨界帯域上での中央から側方の成分の長期平均エネルギー比は、サンプルから決定される。類似の長期平均比を持つ隣接周波数帯域は、次いで、臨界帯域のセットを形成するように一緒にグループ化される。周波数サブバンドの範囲、及び周波数サブバンドの数は、調整可能でありうる。いくつかの実施形態において、生成されたサブバンドは、スペクトルの隣接する範囲を表さなくてよいが、代わりに、推定された音源又は他の分離された音声成分に対応してよい。かくして、周波数バンドデバイダ162は、左入力チャンネル112から左サブバンド成分172を、そして、右入力チャンネル114から右サブバンド成分174を生成する。
【0022】
L/R-M/Sコンバータ102は、左サブバンド成分172及び右サブバンド成分174を受信し、左サブバンド成分172及び右サブバンド成分174から、中央サブバンド成分116及び側方サブバンド成分118を生成する。いくつかの実施形態において、n個のサブバンドのそれぞれに対し、中央サブバンド成分は、サブバンドの左サブバンド成分と、サブバンドの右サブバンド成分との和に基づいて生成されうる。サブバンドのそれぞれに対し、側方成分は、サブバンドの左サブバンド成分と、サブバンドの右サブバンド成分との差に基づいて生成されうる。中央及び側方成分は、信号源分離に基づく様々な変換を利用することなど、他の方法で生成されてよい。
【0023】
いくつかの実施形態において、各サブバンドの中央及び側方成分は、マルチチャンネル(例えば、サラウンドサウンド)音声信号から生成される。例えば、複数の左チャンネル(例えば、左、左サラウンド、及び左後方サラウンドなど)は、左入力チャンネル112を生成するために結合されてよく、複数の右チャンネル(例えば、右、右サラウンド、及び右後方サラウンドなど)は、右入力チャンネル114を生成するために結合されてよい。これらの追加的なチャンネルは、増加した次元数に順応するためにL/R-M/Sコンバータ102の修正を利用して、中央及び側方に加えて新たな空間軸を生成するために利用されてもよい。例えば、直交変換は、知覚的に意味のあるチャンネルの組み合わせを導出するために利用されうる。いくつかの実施形態において、これらの変形は、M/S-L/Rコンバータ108の代わりに、対応する逆変換と対を成しうる。
【0024】
音声コンプレッサ180は、出力チャンネル176、178がそれぞれ、左-右空間内で左-右圧縮閾値θLR未満に制限されるように、中央サブバンド成分116及び側方サブバンド成分118を処理する。いくつかの実施形態において、異なるサブバンドは、異なる左-右圧縮閾値を利用しうる。音声コンプレッサ180は、空間コンプレッサ104及びL/Rコンプレッサ106を含む。空間コンプレッサ104は、中央ゲインプロセッサ152及び側方ゲインプロセッサ154を含む。各サブバンドに対し、中央ゲインプロセッサ152は、中央サブバンド成分116及び側方サブバンド成分118を受信し、中央サブバンド成分116に対する中央ゲイン係数αmを決定する。各サブバンドに対し、中央ゲインプロセッサ152は、中央ゲイン係数αmを中央サブバンド成分118に適用して、調整された中央サブバンド成分120を生成する。各サブバンドに対し、側方ゲインプロセッサ154は、中央サブバンド成分116及び側方サブバンド成分118を受信し、側方サブバンド成分118に対する側方ゲイン係数αsを決定する。側方ゲインプロセッサ154は、側方ゲイン係数αsを側方サブバンド成分に適用して、調整された側方サブバンド成分122を生成する。かくして、空間コンプレッサ104は、n個のサブバンドのそれぞれに対し、調整された中央サブバンド成分120及び調整された側方サブバンド成分122を生成する。
【0025】
いくつかの実施形態において、各サブバンドに対し、中央成分と側方成分との間で、圧縮の優先度があってよい。いくつかの実施形態において、異なるサブバンドは、中央サブバンド成分と側方サブバンド成分の間で、圧縮についての異なる優先度を含んでよく、又は異なる左-右圧縮閾値θLRを利用してよい。
【0026】
L/Rコンプレッサ106は、L/Rゲインプロセッサ156を含む。L/Rゲインプロセッサ156は、空間リミッタ104によって調整されたように、調整された中央サブバンド成分120及び調整された側方サブバンド成分122を受信し、各サブバンドについて、残余ゲイン係数αlrを、サブバンドの調整された中央サブバンド成分に適用して、調整された中央サブバンド成分124を生成し、残余ゲイン係数αlrを調整された側方サブバンド成分122に適用して、調整された側方サブバンド成分126を生成する。かくして、L/Rコンプレッサ106は、n個のサブバンドのそれぞれについて、調整された中央サブバンド成分124及び調整された側方サブバンド成分126を生成する。
【0027】
図4A~6Bに関連して、以下でより詳細に議論されるように、各サブバンドについてのゲイン係数α
m、α
s、及びα
lrは、音声処理システム100の空間圧縮の優先度に依存して変わりうる。空間圧縮についての優先度は、各サブバンドの中央及び側方成分の両方に適用されるL/Rコンプレッサステージに続く、中央コンプレッサステージと側方コンプレッサステージの間の優先度を定義する。優先度の低いコンプレッサステージは、優先度の高い制限ステージで適用される1つ以上のゲイン係数を利用して定義されるゲイン係数を適用しうる。
【0028】
M/S-L/Rコンバータ108は、調整された中央サブバンド成分124及び調整された側方サブバンド成分126を受信し、調整された中央サブバンド成分124及び調整された側方サブバンド成分126から、調整された左サブバンド成分132及び調整された右サブバンド成分134を生成する。各サブバンドについて、調整された左サブバンド成分132は、サブバンドの、調整された中央成分124と調整された側方成分126との和に基づいて生成されうる。各サブバンドについて、調整された右サブバンド成分134は、サブバンドの、調整された中央サブバンド成分122と調整された側方サブバンド成分124との差に基づいて生成されうる。他のタイプの変換は、中央及び側方成分から、左及び右サブバンド成分を生成するために利用されうる。かくして、M/S-L/Rコンバータ108は、n個のサブバンドのそれぞれについて、調整された左サブバンド成分132及び調整された右サブバンド成分134を生成する。
【0029】
周波数バンドコンバイナ164は、調整された左サブバンド成分132及び調整された右サブバンド成分134を受信し、左出力チャンネル176及び右出力チャンネル178を生成する。左出力チャンネル176は、調整された左サブバンド成分132のそれぞれを結合することによって生成されうる。右出力チャンネル178は、調整された右サブバンド成分134のそれぞれを結合することによって生成されうる。周波数バンドコンバイナ164は、左出力チャンネル176を左スピーカに、そして、右出力チャンネル178を右スピーカに出力する。空間コンプレッサ104及びL/Rコンプレッサ106によって適用される処理の結果として、出力音声信号の左出力チャンネル176及び右出力チャンネル178のピークは、左入力チャンネル112又は右入力チャンネル114が左-右閾値θLRを超えるときに圧縮される。
【0030】
ワイドバンドプロセッサ182は、ワイドバンド音声信号から導出された制御信号140及び142で各サブバンドの制御を促進することによって、音声処理システム100のクロスバンド動作をサポートする。ワイドバンドプロセッサ182は、ワイドバンド音声信号から、音声コンプレッサ180によって1つ以上のサブバンドを調整するための制御信号140及び142を生成する。ワイドバンドプロセッサ182は、左チャンネル112及び右チャンネル114を受信し、音声コンプレッサ180によって利用されるワイドバンド側鎖信号レベルを決定する。ワイドバンドプロセッサ182は、周波数バンドデバイダ162及びL/R-M/Sコンバータ102で並行に音声信号を処理する側鎖行列として実装されうる。いくつかの実施形態において、非クロスバンド動作などについて、ワイドバンドプロセッサ182は、省略又はバイパスされてよい。いくつかの実施形態において、制御信号140及び142は、ワイドバンド音声信号上での等化又はフィルタの適用などの変換から導出される。側鎖行列は、次いで、中央ゲインプロセッサ152を制御しうるクロスバンド信号140、又は側方ゲインプロセッサ154を制御しうるクロスバンド信号142から新たな中央-側方成分を導出するためのL/R-M/Sコンバータを利用して構築されうる。次いで、中央ゲインプロセッサ152及び側方ゲインプロセッサ154のそれぞれは、それらが制御信号の特性を有するかのように、側鎖行列、LR閾値θLR、及び音声処理システム100によって決定される他のパラメータのうちの1つ以上によって特定される方式で、成分116及び117を処理することができる。制御信号140及び142は、音声チャンネル112及び114から導出され、側鎖行列によって決定される方式でさらに処理されるため、空間コンプレッサ104は、それによって、サブバンドの外側の情報又は制御されるべき成分(116及び117)の空間位置に応答しうる。
【0031】
いくつかの実施形態において、コントローラ110は、音声処理システム100の動作を制御する。コントローラ110は、パラメータ(例えば、θLR、圧縮比、メイクアップゲイン設定、アタック又はリリース時間などのエンベロープパラメータ)を定義し、処理ステージの優先度を決定し、決定された優先度及びパラメータに従ってゲイン係数を決定することなどによって、それらの動作を構成するために音声処理システム100の他のコンポーネントに結合されうる。音声処理システム100によって利用される様々なパラメータは、ユーザ入力によって、プログラム的に、又はそれらの組み合わせによって定義されうる。
【0032】
いくつかの実施形態において、音声処理システム100は、空間認識コンテキストにおけるワイドバンド圧縮を提供する。例えば、周波数バンドデバイダ162及び周波数バンドコンバイナ164は、省略又はバイパスされてよい。各サブバンドの中央及び側方成分を処理するのではなく、空間コンプレッサ104及びL/Rコンプレッサ106は、サブバンドへの分離なしに、ワイドバンド成分として中央及び側方成分を処理する。サブバンドの処理が、音声信号に適用できる圧縮のタイプを増加させる一方、ワイドバンド処理は、空間認識圧縮の計算要件を低減できる。
【0033】
上で議論したように、L/R-M/Sコンバータ102、空間コンプレッサ104、L/Rコンプレッサ106、及びM/S-L/Rコンバータ108は、n個のサブバンドのそれぞれを処理しうる。いくつかの実施形態において、音声処理システム100は、これらのサブバンド処理コンポーネントの複数の例を含み、それぞれは、n個のサブバンドの1つを処理することに特化している。複数のサブバンドは、並行に又は続けて処理されうる。
【0034】
例示的な空間コンプレッサ
図2は、いくつかの実施形態による、空間コンプレッサ200のブロック図である。空間コンプレッサ200は、音声処理システム100の空間コンプレッサ104の例である。
図1に示した空間コンプレッサ104とは異なり、空間コンプレッサ200は、ワイドバンドプロセッサ182からの制御信号140及び142を利用しない。空間コンプレッサ200は、サブバンドの情報を利用して、サブバンドに適用される動的処理アルゴリズムを制御する。空間コンプレッサ200は、中央ピーク抽出器202と、側方ピーク抽出器204と、中央ゲインプロセッサ206と、側方ゲインプロセッサ208と、中央ミキサ210と、側方ミキサ212とを含む。空間コンプレッサ200の動作は、n個のサブバンドの1つの中央及び側方成分の処理について議論される。類似の動作は、n個のサブバンドのそれぞれに関して実行できる。他の例において、空間コンプレッサ200は、中央及び側方成分がサブバンドに分離されないワイドバンド処理を提供する。
【0035】
中央ピーク抽出器202は、中央サブバンド成分116を受信し、中央サブバンド成分116のピーク値を表す中央ピーク214を決定する。中央ピーク抽出器202は、中央ゲインプロセッサ206及び側方ゲインプロセッサ208に中央ピーク214を提供する。側方ピーク抽出器204は、側方サブバンド成分118を受信し、側方サブバンド成分118のピーク値を表す側方ピーク216を決定する。側方ピーク抽出器204は、中央ゲインプロセッサ206及び側方ゲインプロセッサ208に側方ピーク216を提供する。
【0036】
中央ゲインプロセッサ206は、中央ピーク214、側方ピーク216、左-右空間における圧縮閾値θLR、及び圧縮比に基づいて中央ゲイン係数218(αm)を決定する。側方ゲインプロセッサ208は、中央ピーク214、側方ピーク216、左-右空間における圧縮閾値θLR、及び圧縮比に基づいて側方ゲイン係数220(αs)を決定する。
【0037】
中央ミキサ210は、中央サブバンド成分116及び中央ゲイン係数218(αm)を受信し、これらの値を乗算して、調整された中央サブバンド成分120を生成する。側方ミキサ212は、側方サブバンド成分118及び側方ゲイン係数220(αs)を受信し、これらの値を乗算して、調整された側方サブバンド成分122を生成する。
【0038】
いくつかの実施形態において、L/Rコンプレッサステージは、空間コンプレッサ200に統合される。中央ゲインプロセッサ206は、残余ゲイン係数αlrを中央ゲイン係数218と結合し、中央ミキサ210は、その結果を中央サブバンド成分116に乗算して、調整された中央サブバンド成分124を生成する。側方ゲインプロセッサ208は、残余ゲイン係数αlrを側方ゲイン係数220に結合し、側方ミキサ212は、その結果を側方サブバンド成分118に乗算して、調整された側方サブバンド成分126を生成する。
【0039】
周波数バンドデバイダ
図3は、いくつかの実施形態による、周波数バンドデバイダ300のブロック図である。周波数バンドデバイダ300は、音声処理システム100の周波数バンドデバイダ162の例である。周波数バンドデバイダ300は、左入力チャンネル112又は右入力チャンネル114などの音声信号を、サブバンド成分318、320、322、及び324に分離する。
【0040】
周波数バンドデバイダは、出力でのコヒーレントな加算を可能にするために、位相補正を持つ4次Linkwitz-Rileyクロスオーバのカスケードを含む。周波数バンドデバイダ300は、ローパスフィルタ302、ハイパスフィルタ304、オールパスフィルタ306、ローパスフィルタ308、ハイパスフィルタ310、オールパスフィルタ312、ハイパスフィルタ316、及びローパスフィルタ314を含む。
【0041】
ローパスフィルタ302及びハイパスフィルタ304は、コーナー周波数(例えば、300Hz)を有する4次Linkwitz-Rileyクロスオーバを含み、オールパスフィルタ306は、マッチング2次オールパスフィルタを含む。ローパスフィルタ308及びハイパスフィルタ310は、他のコーナー周波数(例えば、510Hz)を有する4次Linkwitz-Rileyクロスオーバを含み、オールパスフィルタ312は、マッチング2次オールパスフィルタを含む。ローパスフィルタ314及びハイパスフィルタ316は、他のコーナー周波数(例えば、2700Hz)を有する4次Linkwitz-Rileyクロスオーバを含む。かくして、周波数バンドデバイダ300は、0~300Hzを含む周波数サブバンド(1)に対応するサブバンド成分318と、300~510Hzを含む周波数サブバンド(2)に対応するサブバンド成分320と、510~2700Hzを含む周波数サブバンド(3)に対応するサブバンド成分322と、2700Hz~ナイキスト周波数を含む周波数サブバンド(4)に対応するサブバンド成分324とを生成する。この例において、周波数バンドデバイダ300は、n=4サブバンド成分を生成する。周波数バンドデバイダ300によって生成されるサブバンド成分の数及びそれらの対応する周波数範囲は変わりうる。周波数バンドデバイダ300によって生成されるサブバンド成分は、周波数バンドコンバイナ164などによる、偏りのない完全な合計を可能にする。周波数バンドデバイダ300は、左-右空間内の左及び右チャンネルに適用されるとして議論されたけれども、いくつかの実施形態において、ワイドバンド成分のサブバンドへの分離は、中央-側方空間内の中央及び側方成分に適用されうる。いくつかの実施形態において、周波数バンドデバイダ300によって定義されるサブバンドは、周波数の非隣接セットを含んでよい。いくつかの実施形態において、それらの構成周波数は、直接的なユーザ仕様に従うか、又は入力信号に応答するかのいずれかで、時間とともに変わりうる。
【0042】
左-右空間から中央-側方空間への空間座標変換
ワイドバンド又は個別のサブバンドのいずれかについて、圧縮は、入力音声信号の中央成分116及び側方成分118の一方又は両方に適用されうる。中央成分116及び側方成分118を生成するために、L/R-M/Sコンバータ102は、数式1によって定義される、左-右空間から中央-側方空間へと信号を変換するための変換Mを利用しうる。
【0043】
【0044】
中央-側方空間において、サブバンド空間処理、クロストーク処理(例えば、クロストークキャンセル又はクロストークシミュレーション)、クロストーク補償(例えば、クロストーク処理によって引き起こされるスペクトルアーチファクトを調整すること)、及び、中央又は側方成分におけるゲイン適用などを含む様々な処理が実行されうる。処理された中央及び側方成分は、左スピーカに対する左出力チャンネル及び右スピーカに対する右出力チャンネルとして、M/S-L/Rコンバータ108などによって、左-右空間に変換される。
【0045】
中央-側方空間から左-右空間へと信号を変換するための逆変換M-1は、数式2によって定義されうる。
【0046】
【0047】
数式1及び2は、計算複雑性を低減するために、順及び逆方向の変換の両方が2の平方根によってスケーリングされる真の直交形式より好まれることがある。
【0048】
優先圧縮
(サブバンド内での)一方のチャンネルの他方に対する優先度は、部分的に、ゲイン補正動作の順序を並べ替えることによって決定される。従って、これらの動作が現れる順序は、最終的なL/Rゲイン補正を除いて変わりうる。優先度階層がある場合において、低い優先度のチャンネルに対するゲイン係数は、ゲイン補正された高い優先度のチャンネルに関して定義される。優先度階層が完全に平面的である場合において、各チャンネルに対するゲイン係数は、補正されていないチャンネルのデータを参照して決定される。ゲイン補正計算ステップは、別の意味で、チャンネルベースのゲイン補正優先度をエンコードすることがある制約を含む。
【0049】
図4Aは、いくつかの実施形態による、L/R圧縮に続く、側方成分圧縮のブロック図である。最初に側方コンプレッサステージ402が、次いで、左-右コンプレッサステージ404がある。側方コンプレッサステージ402では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。L/Rコンプレッサステージ404では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
sの関数である。
【0050】
図4Bは、いくつかの実施形態による、L/R圧縮に続く、中央成分圧縮のブロック図である。最初に中央コンプレッサステージ406が、次いで、左-右コンプレッサステージ404がある。中央コンプレッサステージ406では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。L/Rコンプレッサステージ404では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、中央ゲイン係数α
mの関数である。
【0051】
図5は、いくつかの実施形態による、L/R圧縮に続く、並行する中央成分圧縮及び側方成分圧縮のブロック図である。最初に中央コンプレッサステージ504と並行する側方コンプレッサステージ502があり、並行するステージ502及び504に続いてL/Rコンプレッサステージ506がある。側方コンプレッサステージ502では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。中央コンプレッサステージ504では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。L/Rコンプレッサステージ506では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
s及び中央ゲイン係数α
mの関数である。
【0052】
図6Aは、いくつかの実施形態による、L/R圧縮に続く、中央成分圧縮に続く、側方成分圧縮のブロック図である。側方成分が圧縮についてのプライマリ成分であるため、最初に側方コンプレッサステージ602があり、中央成分が圧縮についてのセカンダリ成分であるため、次いで、中央コンプレッサステージ604があり、次いで、L/Rリミッタステージ606がある。側方コンプレッサステージ602では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。中央コンプレッサステージ604では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。中央ゲイン係数α
mは、側方ゲイン係数α
sの関数である。L/Rコンプレッサステージ606では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
s及び中央ゲイン係数α
mの関数である。
【0053】
図6Bは、いくつかの実施形態による、L/R圧縮に続く、側方成分圧縮に続く、中央成分圧縮のブロック図である。中央成分が圧縮についてのプライマリ成分であるため、最初に中央コンプレッサステージ604があり、側方成分が圧縮についてのセカンダリ成分であるため、次いで、側方コンプレッサステージ602があり、次いで、L/Rコンプレッサステージ606がある。中央コンプレッサステージ604では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。側方コンプレッサステージ602では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。側方ゲイン係数α
sは、中央ゲイン係数α
mの関数である。L/Rコンプレッサステージ606では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
s及び中央ゲイン係数α
mの関数である。
【0054】
プライマリチャンネルゲイン補正
側方成分がプライマリ補正を受信し、中央成分がセカンダリ補正を受信する(例えば、
図6Aに示すような)例が、以下で議論される。中央成分及び側方成分のそれぞれの制御のための適切なゲイン制御係数が、中央及び側方エネルギーの両方に基づいて生成される。側方成分が補正についてのプライマリチャンネルであるとき、側方ゲイン係数α
sは、数式3によって定義される。
【0055】
【0056】
ここで、θLRは、L/R空間における閾値であり、r2は、側方成分m2についての圧縮比であり、mは、中央成分m1及び側方成分m2を含むM/S空間における音声フレームを表す2次元ベクトルであり、|m1|は、中央成分m1のピークであり、|m2|は、側方成分m2のピークである。圧縮比r2は、側方成分が振幅閾値を超えるときの、側方成分が左-右閾値θLRを超える量と、左-右閾値θLRの上までの側方成分の減衰量との間の関係を定義する。例えば、3:1の圧縮比r2は、側方成分が左-右閾値θLRを3dB超えるときに、側方成分が左-右閾値θLRの上1dBに減衰されることを意味する。
【0057】
数式3によって定義されるように、側方ゲイン係数αsは、最大値が1(例えば、ゲイン低減なし)であるが、ゲイン低減を適用するために1未満のことがある。側方ゲイン係数αsの値が小さくなるほど、側方成分に適用されるゲイン低減が大きくなる。側方ゲイン係数αsの定義は、中央ゲイン係数αmを含まず、その結果、圧縮について中央成分より側方成分が優先される。
【0058】
セカンダリチャンネルゲイン補正
セカンダリチャンネルのゲイン係数、この場合はαmの計算は、プライマリゲイン係数αmが与えられると、数式4によって定義されうる。
【0059】
【0060】
r1は、中央成分m1についての圧縮比である。圧縮比r1は、中央成分が振幅閾値を超えるときの、中央成分が左-右閾値θLRを超える量と、左-右閾値θLRの上までの中央成分の減衰量との間の関係を定義する。
【0061】
数式4によって定義されるように、中央ゲイン係数αmは、最大値が1(例えば、ゲイン低減なし)であるが、ゲイン低減を適用するために1未満のことがある。中央ゲイン係数αmの値が低いほど、中央成分に適用されるゲイン低減が大きくなる。セカンダリ中央ゲイン係数αmは、プライマリ側方ゲイン係数αsを利用して定義される。優先度に関して、中央成分がプライマリチャンネルであり、かつ側方成分がセカンダリチャンネルであるケースにおいては、ゲイン係数αs及びαm、m1、m2、r1、及びr2は、数式3及び4において交換されうる。
【0062】
残余チャンネルゲイン補正
αs及びαmそれぞれについてθs及びθmと表記される最小のゲイン係数が特定される場合、L/R空間において閾値θLRは、満たされないことがある。かくして、全てのチャンネル上で同時に動作する残余ゲイン係数は、L/R空間において閾値θLRを満たすために利用されうる。αlrと表記される、この残余ゲイン係数は、数式5によって定義されるように、L/R空間内で計算される。
【0063】
【0064】
ここで、rlrは、残余ゲイン補正のための圧縮比を定義し、Plrは、数式6によって定義されるように、システムの最悪の場合の瞬間的なピーク値を定義する。
【0065】
【0066】
ここで、Plrは、任意の平滑化の効果を除いて、出力が超えることがないダイナミックレンジ特性を指定する。
【0067】
ゲイン係数適用
ゲイン係数αs、αm、及びαlrが決定される際、それらは、数式7によって示されるように、中央成分m1及び側方成分m2に適用される。
【0068】
【0069】
最小の側方ゲイン係数θsは、側方ゲイン係数αsについての最小許容可能値であり、最小の中央ゲイン係数θmは、中央ゲイン係数αmについての最小許容可能値である。
【0070】
数式7によって定義されるように、側方ゲイン係数αsが、最小の側方ゲイン係数θs以上である場合、側方ゲイン係数αsが側方成分m2に適用される一方、ゲイン係数1(又はゲインなし)が中央成分m1に適用される。側方成分がプライマリ成分であり、側方ゲイン係数αsの適用が、L/R空間で閾値θLRを満たすのに十分であるため、中央成分を補正する必要がない。
【0071】
側方ゲイン係数αsが最小の側方ゲイン係数θsより小さく、かつ、中央ゲイン係数αmが最小の中央ゲイン係数θm以上である場合、最小の側方ゲイン係数θsは、側方成分m2に適用され、中央ゲイン係数αmは、中央成分m1に適用される。
【0072】
側方ゲイン係数αsが最小の側方ゲイン係数θsより小さく、かつ、中央ゲイン係数αmも最小の中央ゲイン係数θmより小さい場合、最小の側方ゲイン係数θsが、側方成分m2に適用され、最小の中央ゲイン係数θmが、中央ゲイン成分m1に適用され、ゲイン係数αlrが、中央成分m1及び側方成分m2のそれぞれに適用されうる。残余ゲイン係数αlrは、代替的に、中央-側方空間から左-右空間への中央及び側方成分の変換後に、左及び右チャンネルに適用されてよい。
【0073】
ゲイン低減の2つの(例えば、中央及び側方)ステージに同じ優先度が与えられる場合において、ゲイン補正係数は、互いに並行に計算され、αlrは、数式8によって定義されるように、最悪の場合の(補正後の)ピークがθLRを超える場合にのみ適用される。
【0074】
【0075】
メイクアップゲイン
数式3、4、及び5において、上で議論されたゲイン係数αs、αm、及びαlrは、空間認識方式において実行できるダイナミックレンジ処理の例として、ダイナミックレンジ圧縮を提供する。計算されると、ゲイン係数は、下方にダイナミックレンジを圧縮する。代替は、より静かな信号を上方に圧縮することであるだろう。これらのケースは、制御パラメータに基づいて計算される最後のゲイン係数を除いて、実質的に同一である。このゲイン係数は、空間成分と並行して適用でき、又は最小のゲイン係数は、空間成分に等しく適用でき、その結果、サウンドステージを歪めること又はクリッピングすることなしに、最大のゲインが信号に適用できる。並行の場合において、サウンドステージ拡張、アーチファクト補正などのために、上方への圧縮が静的な空間ゲイン又は等化の代わりに利用できる。メイクアップゲインは、数式9によって定義されうる。
【0076】
【0077】
ここで、μは、r及びθの成分に一致する適切な成分に対するメイクアップゲイン係数である。rlrが、メイクアップゲインを計算しているrより大きい場合、数式9において、rをrlrに置き換える。全ての次元にわたって結合(スカラ)μが必要である場合は、μの最小係数を選択する。
【0078】
側鎖処理
図7は、いくつかの例示的な実施形態による、側鎖処理のための空間コンプレッサ700のブロック図である。空間コンプレッサ700は、空間コンプレッサ104の例である。側鎖処理は、特に、低い周波数によって引き起こされるポンピングアーチファクトがクロスステージに存在する場合に役に立つ。音声ミキシングの一般的な慣習は、低い(例えば、バス)周波数を中央に配置することを含みうるので、中央成分の低い周波数は、側方成分の低い周波数より大きなゲイン低減を必要とすることがある。
【0079】
音声コンプレッサ700は、ミックスピーク抽出機702と、側方ピーク抽出機704と、中央ゲインプロセッサ706と、側方ゲインプロセッサ708と、中央ミキサ710と、側方ミキサ712と、スイッチ752と、スイッチ754とを含む。
【0080】
中央ピーク抽出器702は、選択的に、中央サブバンド成分116又は中央成分に対する制御信号140のうちの1つを、スイッチ752を介してワイドバンドプロセッサ182から受信する。中央ピーク抽出機702は、中央サブバンド成分116又は制御信号140のピーク値を表す中央ピーク714を決定する。中央ピーク抽出器702は、中央ピーク714を、中央ゲインプロセッサ706及び側方ゲインプロセッサ708に提供する。側方ピーク抽出器704は、選択的に、側方サブバンド成分118又は側方成分に対する制御信号142を、スイッチ754を介してワイドバンドプロセッサ182から受信する。側方ピーク抽出機704は、側方サブバンド成分118又は制御信号142のピーク値を表す側方ピーク716を決定する。側方ピーク抽出機704は、側方ピーク716を、中央ゲインプロセッサ706及び側方ゲインプロセッサ708に提供する。
【0081】
中央ゲインプロセッサ706は、中央ピーク714、側方ピーク716、及び左-右空間における閾値θLRに基づいて、ゲイン係数718を決定する。ゲイン係数718は、中央ゲイン係数αmを含んでよい。側方ゲインプロセッサ708は、中央ピーク714、側方ピーク716、及び左-右空間における閾値θLRに基づいて、ゲイン係数720を決定する。ゲイン係数720は、側方ゲイン係数αsを含んでよい。
【0082】
側鎖処理は、中央ゲイン係数αm及び側方ゲイン係数αsに利用される計算に基づいて、中央又は側方成分を制限するための異なる優先度を組み込んでよい。追加の側鎖処理を制御信号に適用することによって、以下の操作行列を導出しうる。
【0083】
【0084】
ここで、各エントリは、独立の演算子である。演算子行列は、ブロードバンド空間特性だけでなく、周波数成分などの他の膨大な数の特性に基づいてゲイン制御に優先順位を付ける機能を提供する。エントリMMは、中央成分116による中央ゲイン係数αmの制御を定義する演算子である。MSは、側方成分116による側方ゲイン係数αsの制御を定義する演算子である。SMは、側方成分118による中央ゲイン係数αmの制御を定義する演算子である。最後に、SSは、側方成分118による側方ゲイン係数αsの制御を定義する演算子である。
【0085】
優先度が側鎖処理で実装される例において、側方ゲインプロセッサ708は、数式3を利用して、側方ゲイン係数αsを含むゲイン係数720を決定し、中央ゲインプロセッサ706は、数式4を利用して、中央係数αmを含むゲイン係数718を決定する。
【0086】
中央ミキサ710は、中央サブバンド成分116及びゲイン係数718を受信し、これらの値を乗算して、調整された中央サブバンド成分124を生成する。側方ミキサ712は、側方サブバンド成分118及びゲイン係数720を受信し、これらの値を乗算して、調整された側方サブバンド成分126を生成する。
【0087】
空間コンプレッサ700は、n個のサブバンドのそれぞれの、中央サブバンド成分116及び側方サブバンド成分118に対する処理を実行しうる。異なるサブバンドは、異なるゲイン係数を含みうる。音声信号が複数のサブバンドに分離されないときなど、いくつかの実施形態において、空間コンプレッサ700は、ワイドバンド中央及びワイドバンド側方成分の処理を実行する。中央ピーク抽出器702及び側方ピーク抽出機704の各入力で、スイッチ752及び754は、空間コンプレッサ700の2つの別個の設定の間で選択する。中央ピーク抽出器702及び側方ピーク抽出機704は、制御信号140及び142から、又は、中央サブバンド成分116及び側方サブバンド成分118から、中央ピーク714及び側方ピーク716を導出しうる。このようにして制御信号140及び142が成分116及び118から分離され、中央ミキサ710及び側方ミキサ712で減衰されるとき、その結果は「側鎖」圧縮として知られる。
【0088】
制御信号平滑化
上で説明されたゲイン制御式は、瞬間のゲイン値に関係する。これらの値が平滑化なしにサンプル毎に適用される場合、その結果は、適切なサブ空間におけるハードクリッピングを効果的に制御するだろう。結果として得られるアーチファクトは、実質的に、ゲイン制御機能の高周波変調である。これらのアーチファクトを低減するために、非線形ローパスフィルタは、ゲイン制御関数の勾配を制限することができる。完全に因果的なゲイン制御応答が必要な場合、下方クリッピングが直ちに生じうるが、上方への動きは、いくつかの最大勾配に制限される。制御バッファにおける先読みが可能な場合、最も大きな負の下方勾配制限(先読み長によって決定されるもの)が適用され、さらに適切なピーク値で対象の制御ゲインに達しうる。いずれの変量も、アーチファクトを音楽サウンドの一時的なステージにシフトし、それらは、知覚的にマスクされ、同時にそれらのバンド幅を低減する。いくつかの実施形態において、多変量(例えば、スカラ値ではなく)平滑化関数が、空間認識圧縮を提供するために利用される。
【0089】
例示的なプロセス
図8は、いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセス800のフロー図である。プロセス800は、音声信号の中央及び側方成分を制御することによって、音声信号が左-右空間における閾値を超えるときに、音声信号を圧縮するステップを提供する。プロセス800は、音声信号を複数のサブバンドに分離しないワイドバンド処理を利用する。プロセス800は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0090】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、805、左-右閾値を決定する。左-右閾値θLRは、左及び右チャンネルのそれぞれに許容される最大レベルを定義する。例えば、左チャンネルの絶対値も右チャンネルの絶対値も左-右閾値を超えるべきではない。左-右閾値は、ユーザ入力によって又はプログラム的に定義されうる。以下でより詳細に議論されるように、圧縮は、中央-側方空間内で音声信号に適用され、左チャンネル及び右チャンネルのピークが左-右閾値未満であることを保証する。
【0091】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、810、いつ音声信号の左-右ピークエネルギーが左-右閾値を超えるかを決定する。例えば、音声処理システムは、いつ左チャンネルが左-右閾値を超えるかを決定し、いつ右チャンネルが左-右閾値を超えるかを決定する。
【0092】
音声処理システム(例えば、L/R-M/Sコンバータ102)は、815、音声信号から中央成分及び側方成分を生成する。例えば、左チャンネルのピーク又は右チャンネルのピークのいずれかが左-右閾値を超えると決定することに応答して、左-右空間内の音声信号は、空間圧縮のための中央-側方空間に変換されうる。中央成分及び側方成分は、数式1で定義されるように、音声信号の左及び右チャンネルから決定されうる。中央成分及び側方成分は、中央-側方空間における音声信号を表し、左チャンネル及び右チャンネルは、左-右空間における音声信号を表す。中央成分は、左チャンネルと右チャンネルとの和を含みうる。側方成分は、左チャンネルと右チャンネルとの差を含みうる。いくつかの実施形態において、空間圧縮は、左及び右チャンネルのピークが左-右閾値を超えないときにバイパスされうる。
【0093】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、820、圧縮特性を決定する。圧縮特性は、音声信号の左、右、中央、又は側方成分について定義されうる。これらの特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ(例えば、アタック/リリース時間など)などの、ダイナミックレンジ制御に関連するパラメータを含みうる。
【0094】
いくつかの実施形態において、音声処理システムは、中央成分と側方成分の間の空間圧縮の優先度を実装する。例えば、圧縮特性は、中央成分と側方成分との間の圧縮の優先度を定義する成分優先度設定を含みうる。空間圧縮優先度設定のいくつかの実施形態は、中央のみ、側方のみ、側方の前に中央、又は中央の前に側方の指定を含みうる。両方の空間成分が制御される実施形態において、所与の優先度指定の範囲内でのさらなる変形は、各成分に適用されうる処理の最大量を決定することによって導出されうる。
【0095】
音声処理システム(例えば、音声コンプレッサ180の空間コンプレッサ104)は、825、中央成分又は側方成分の少なくとも1つを制御して圧縮特性に一致させる。例えば、音声処理システムは、数式3によって定義されるように、側方成分に対する側方ゲイン係数αsを決定し、数式4によって定義されるように、中央ゲイン係数αm又は中央成分を決定し、これらのゲイン係数を側方及び中央成分にそれぞれ適用する。音声処理システムは、入ってくる中央成分116及び側方成分117のゲインを処理して、LR閾値θLRによって特定される出力特性及び圧縮特性を、特定された制約の範囲内で可能な最大限度に適合させる。いくつかの実施形態において、これらの制約は、個別の成分に対するゲイン低減バジェットなどのパラメータを含む。優先度を含む実施形態において、制約は、追加的に、ある成分の制御が他の制御より優先される、処理の論理的な順序を含みうる。実施形態が、中央及び側方成分116及び117の間で所与の優先度を指定するかどうかによらず、両方の成分は、両方のゲイン係数の決定において利用されうる。数式3及び4において、これらの成分は、変数m1及びm2として現れる。処理の論理的な順序は、プライマリ成分に適用されるプライマリゲイン係数の決定においてはセカンダリゲイン係数がないことによって、セカンダリ成分に適用されるセカンダリゲイン係数の決定においてはプライマリゲイン係数がないことによって決定される。いくつかの実施形態において、圧縮特性に適合するように、中央成分又は側方成分の1つだけが制御される。
【0096】
音声処理システム(例えば、音声コンプレッサ180のL/Rコンプレッサ106)は、830、残りのピークエネルギーが左-右空間内で対称的に制御されるように、中央及び側方成分を制御する。例えば、中央ゲイン係数αmは、最小の中央ゲイン係数θmによって制限されてよく、及び/又は側方ゲイン係数αsは、最小の側方ゲイン係数θsによって制限されてよい。かくして、中央ゲイン係数αm及び/又は側方ゲイン係数αsの適用は、左-右閾値θLRを満たすのに十分でないことがある。音声処理システムは、数式5によって定義されるように、L/Rゲイン係数αlrを決定し、ゲイン係数αlrを側方及び中央成分に適用して残りのピークエネルギーを制御する。他の例において、L/Rゲイン係数αlrは、側方及び中央成分を左-右空間に変換した後で、左及び右成分に適用される。
【0097】
音声処理システム(例えば、M/S-L/Rコンバータ108)は、835、中央成分及び側方成分から左出力チャンネル及び右出力チャンネルを生成する。左及び右出力チャンネルはそれぞれ、中央成分及び側方成分のそれぞれに適用される制御から、左-右閾値未満に制限される。
【0098】
プロセス800のステップは、異なる順序で実行されてよい。例えば、中央及び側方成分は、いつ左-右ピークエネルギーが左-右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左-右空間での対称的な残りのピークエネルギーの制御は、中央成分及び側方成分の左-右成分への変換後に実行されてよい。ここで、制御は、中央-側方空間内の中央及び側方成分ではなく、左-右空間内の左及び右成分に適用されてよい。
【0099】
図9は、いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセス900のフロー図である。プロセス900は、音声信号の中央及び側方成分を制御することによって、音声信号が左-右空間において左-右閾値θ
LRを超えたときに、音声信号を圧縮するステップを提供する。プロセス900は、音声信号を複数のサブバンドに分離するマルチバンド処理を利用し、異なるサブバンドに対して異なる空間圧縮を適用できる。プロセス900は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0100】
音声処理システム(例えば、周波数バンドデバイダ162)は、905、音声信号をサブバンドに分離する。例えば、音声処理システムは、サブバンドのそれぞれに関連するクロスオーバ周波数を決定し、クロスオーバ周波数に従って、音声信号をサブバンド成分に分離する。
【0101】
ステップ910~940において、音声処理システムは、サブバンドを別々に処理する。各サブバンドは、左成分及び右成分を含んでよい。空間圧縮は、1つ以上のサブバンドに適用されうる。いくつかの実施形態において、複数のサブバンドが並行に処理される。
図8に示したプロセス800におけるワイドバンド信号についてのステップ805~830に関する議論はそれぞれ、各サブバンドについてのステップ910~935に適用されうる。
【0102】
音声処理システム(例えば、音声コンプレッサ180)は、910、サブバンドについての左-右閾値を決定する。サブバンドについての左-右閾値θLRは、サブバンドの左及び右成分のそれぞれについて許容される最大レベルを定義する。異なるサブバンドは、異なる左-右閾値を有してよい。
【0103】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、915、いつサブバンドの左-右ピークエネルギーが左-右閾値を超えるかを決定する。例えば、音声処理システムは、いつサブバンドの左成分がサブバンドの左-右閾値を超えるかを決定し、いつサブバンドの右成分が左-右閾値を超えるかを決定する。
【0104】
音声処理システム(例えば、L/R-M/Sコンバータ102)は、920、サブバンドの左及び右成分から中央サブバンド成分及び側方サブバンド成分を生成する。例えば、サブバンドの左成分のピーク又は右成分のピークのいずれかが左-右閾値を超えると決定することに応答して、左-右空間内のサブバンド成分は、空間圧縮のための中央-側方空間に変換されうる。中央サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの和を含んでよく、側方サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの差を含んでよい。
【0105】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、925、サブバンドに対する圧縮特性を決定する。圧縮特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ(例えば、アタック/リリース時間など)を含んでよい。いくつかの実施形態において、圧縮特性は、中央サブバンド成分と側方サブバンド成分との間の圧縮の優先度を定義する成分優先度設定を含んでよい。異なるサブバンドは、異なる圧縮特性を利用しうる。
【0106】
音声処理システム(例えば、音声コンプレッサ180の空間コンプレッサ104)は、930、中央サブバンド成分又は側方サブバンド成分の少なくとも1つを制御して圧縮特性に一致させる。
【0107】
音声処理システム(例えば、音声コンプレッサ180のL/Rコンプレッサ106)は、935、残りのピークエネルギーが左-右空間内で対称的に制御されるように、中央及び側方サブバンド成分を制御する。
【0108】
音声処理システム(例えば、M/S-L/Rコンバータ108)は、940、中央サブバンド成分及び側方サブバンド成分から、左サブバンド成分及び右サブバンド成分を生成する。
【0109】
音声処理システム(例えば、周波数バンドデバイダ164)は、945、複数のサブバンドの左サブバンド成分を結合して左出力チャンネルにし、複数のサブバンドの右サブバンド成分を結合して右出力チャンネルにする。各サブバンドは、各サブバンドについての左サブバンド成分及び右サブバンド成分を含んでよく、サブバンドは、左及び右出力チャンネルを生成するために結合される。
【0110】
プロセス900のステップは、異なる順序で実行されてよい。例えば、サブバンドの中央及び側方サブバンド成分は、いつ左-右ピークエネルギーがサブバンドの左-右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左-右空間における残りのピークエネルギーの対称的な制御は、中央サブバンド成分及び側方サブバンド成分の左及び右サブバンド成分への変換後に実行されてよい。ここで、制御は、中央-側方空間内の中央及び側方成分ではなく、左-右空間内の左及び右成分に適用されてよい。
【0111】
図10は、いくつかの実施形態による、サブバンドを利用して音声信号を空間的に圧縮するためのプロセス1000のフロー図である。プロセス1000は、ワイドバンド音声信号から導出される制御信号を利用して各サブバンドを制御するクロスバンド処理を含む。音声信号は、複数のサブバンドに分離され、異なる空間圧縮が、サブバンドについての制御信号に基づいて、異なるサブバンドに対して適用されうる。プロセス1000は、音声信号の中央及び側方成分を制御することによって、音声信号が左-右空間における閾値θ
LRを超えるときに、音声信号を圧縮するステップを提供する。プロセス1000は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0112】
音声処理システム(例えば、周波数バンドデバイダ162又はコントローラ110)は、1005、音声信号をサブバンドに分離する。例えば、音声処理システムは、サブバンドのそれぞれに関連付けられたクロスオーバ周波数を決定し、クロスオーバ周波数に従って、音声信号をサブバンド成分に分離する。ステップ1010-1045において、音声処理システムは、複数のサブバンドを別々に処理する。
【0113】
音声処理システム(例えば、ワイドバンドプロセッサ182又はコントローラ110)は、1010、ワイドバンド音声信号を処理することによって、サブバンドについての制御信号を生成する。制御信号は、サブバンドの圧縮に関する所望の信号レベルを定義しうる。いくつかの実施形態において、ワイドバンド音声信号の処理は、側鎖行列を利用して実行され、ワイドバンド処理は、ステップ1015-1020における個別のサブバンドに対する処理と並行して実行される。異なるサブバンドは、異なる制御信号を含んでよい。いくつかの実施形態において、制御信号は、ワイドバンド音声信号上での、等化又はフィルタの適用などの変換から導出される。次いで、側鎖行列は、それぞれが中央ゲインプロセッサ152又は側方ゲインプロセッサ154を制御しうる制御信号から、新たな中央-側方成分を導出するためのL/R-M/Sコンバータを利用して構築されうる。次いで、中央ゲインプロセッサ152及び側方ゲインプロセッサ154は、それらが制御信号の特性を有するかのように、側鎖行列によって決定される方式で、中央サブバンド成分116及び側方サブバンド成分118を処理することができる。制御信号が、左及び右チャンネル112及び114から導出され、側鎖行列、LR閾値θLR、及び圧縮特性のうちの1つ以上によって特定される方式でさらに処理されるため、音声処理システムは、それによって、サブバンドの外側の情報、又は、制御されるべき中央サブバンド成分116及び側方サブバンド成分118の空間位置に応答しうる。
【0114】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、1015、サブバンドに対する左-右閾値を決定する。サブバンドに対する左-右閾値は、サブバンドの左及び右成分のそれぞれに許容される最大レベルを定義する。異なるサブバンドは、異なる左-右閾値を有してよい。
【0115】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、1020、いつサブバンドの左-右ピークエネルギーが左-右閾値を超えたかを決定する。例えば、音声処理システムは、いつサブバンドの左成分がサブバンドの左-右閾値を超えたかを決定し、いつサブバンドの右成分が左-右閾値を超えたかを決定する。
【0116】
音声処理システム(例えば、L/R-M/Sコンバータ102)は、1025、サブバンドの左及び右成分から、中央サブバンド成分及び側方サブバンド成分を生成する。例えば、サブバンドの左成分のピーク又は右成分のピークのいずれかが左-右閾値を超えると決定することに応答して、左-右空間におけるサブバンド成分は、空間圧縮のために、中央-側方空間に変換されうる。中央サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの和を含んでよく、側方サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの差を含んでよい。
【0117】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、1030、サブバンドの圧縮特性を決定する。圧縮特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ(例えば、アタック/リリース時間など)を含んでよい。いくつかの実施形態において、圧縮特性は、中央サブバンド成分と側方サブバンド成分との間の圧縮の優先度を定義する成分優先度設定を含んでよい。異なるサブバンドは、異なる圧縮特性を利用してよい。
【0118】
音声処理システム(例えば、音声コンプレッサ180の空間コンプレッサ104)は、1035、中央サブバンド成分又は側方サブバンド成分の少なくとも1つを制御して、制御信号に基づいて圧縮特性に一致させる。制御信号は、ワイドバンド側鎖信号レベルを定義してよい。側鎖行列(中央成分を制御する側鎖信号の中央成分、中央成分を制御する側鎖信号の側方成分、側方成分を制御する側鎖信号の中央成分、及び側方成分を制御する側鎖信号の側方成分の重みを決定すること)は、(例えば、中央ゲインプロセッサ152又は側方ゲインプロセッサ154によって)それぞれが処理されるべき信号の中央又は側方成分を制御しうる制御信号から、新たな中央-側方成分を導出するために、L/R-M/Sコンバータを利用して構築されうる。次いで、中央サブバンド成分116及び側方サブバンド成分118のいずれかが、それがワイドバンド側鎖信号の特性を有するかのように、側鎖行列、LR閾値θLR、圧縮特性のうちの1つ以上によって特定される方式で、(例えば、中央ゲインプロセッサ152又は側方ゲインプロセッサ154によって)処理されうる。この制御信号は、ワイドバンド音声信号(例えば、チャンネル112及び114を含む)から導出され、側鎖行列によって決定される方式でさらに処理されるため、音声処理システムは、それによって、サブバンドの外側の情報、又は、制御されるべき中央サブバンド成分116及び側方サブバンド成分118の空間位置に応答しうる。
【0119】
音声処理システム(例えば、音声コンプレッサ180のL/Rコンプレッサ106)は、1040、残りのピークエネルギーが左-右空間内で対称的に制御されるように、中央及び側方サブバンド成分を制御する。
【0120】
音声処理システム(例えば、M/S-L/Rコンバータ108)は、1045、中央サブバンド成分及び側方サブバンド成分から、左サブバンド成分及び右サブバンド成分を生成する。
【0121】
音声処理システム(例えば、周波数バンドコンバイナ164)は、1050、複数のサブバンドの左サブバンド成分を結合して左出力チャンネルとし、複数のサブバンドの右サブバンド成分を結合して右出力チャンネルとする。各サブバンドは、各サブバンドについての左サブバンド成分及び右サブバンド成分を含んでよく、サブバンドは、左及び右出力チャンネルを生成するために結合される。
【0122】
プロセス1000のステップは、異なる順序で実行されてよい。例えば、サブバンドの中央及び側方サブバンド成分は、いつ左-右ピークエネルギーがサブバンドの左-右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左-右空間における対称的な残りのピークエネルギーの制御は、中央サブバンド成分及び側方サブバンド成分の左及び右サブバンド成分への変換後に実行されてよい。ここで、制御は、中央-側方空間内の中央及び側方成分ではなく、左-右空間内の左及び右成分に適用されてよい。
【0123】
図11は、いくつかの例示的な実施形態による、異なる音声座標系を利用して音声信号を空間的に圧縮するためのプロセス1100のフロー図である。プロセス1200は、第2の音声座標系において音声信号が振幅閾値を超えるときに、第1の音声座標系における音声信号の第1及び第2の成分を制御することによって音声信号を圧縮するステップを提供する。プロセス1200は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0124】
音声処理システム(例えば、音声処理システム100)は、1105、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成する。
図1~
図10に関連して上で議論されたように、第1の音声座標系は、中央-側方音声座標系であってよく、第2の音声座標系は、左-右音声座標系であってよい。第1及び第2の成分は、中央及び側方成分を含んでよい。第3及び第4の成分は、左及び右成分を含んでよい。他の例において、第1の音声座標系は、左-右音声座標系であってよく、第2の音声座標系は、中央-側方音声座標系であってよい。第1及び第2の成分は、左及び右成分を含んでよい。第3及び第4の成分は、中央及び側方成分を含んでよい。いくつかの実施形態において、第1、第2、第3、及び第4の成分は、サブバンド成分である。
【0125】
音声処理システムは、1110、圧縮を適用するために、第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定する。振幅閾値は、振幅閾値を満たすために圧縮にゲイン係数が適用される音声座標系とは異なる音声座標系において定義される。
【0126】
音声処理システムは、1115、第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成する。第1の圧縮比は、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義しうる。第1のゲイン係数は、第1の成分ゲイン係数(例えば、側方成分が第1の成分であるときにはαs、又は中央成分が第1の成分であるときにはαm)を含んでよい。他の例において、第1のゲイン係数は、第1の成分ゲイン係数及び残余ゲイン係数(例えば、αlr)を含んでよい。残余ゲイン係数の利用は、第1の成分ゲイン係数と、最小の第1の成分ゲイン係数(例えば、側方成分が第1の成分であるときにはθs、又は中央成分が第1の成分であるときにはθm)との間の比較に依存する。
【0127】
音声処理システムは、1120、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるときに、調整された第1の成分を生成するために、第1のゲイン係数を第1の成分に適用する。第1のゲイン係数の第1の成分への適用は、第3又は第4の成分が振幅閾値を超えるときに第1の成分が減衰される結果となる。
【0128】
音声処理システムは、1125、第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成する。第2の圧縮比は、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義しうる。
【0129】
第2のゲイン係数は、第2の成分ゲイン係数(例えば、側方成分が第2の成分であるときにはαs、又は中央成分が第2の成分であるときにはαm)を含んでよい。他の例において、第2のゲイン係数は、第2の成分ゲイン係数と、残余ゲイン係数(例えば、αlr)を含んでよい。残余ゲイン係数の利用は、第2の成分ゲイン係数と、最小の第2の成分ゲイン係数(例えば、側方成分が第2の成分であるときにはθs、又は中央成分が第2の成分であるときにはθm)との間の比較に依存する。
【0130】
音声処理システムは、1130、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、調整された第2の成分を生成するために、第2のゲイン係数を第2の成分に適用する。第2のゲイン係数の第2の成分への適用は、第3又は第4の成分が振幅閾値を超えるときに第2の成分が減衰される結果となる。
【0131】
いくつかの実施形態において、第1の成分は、第2の成分より高い圧縮についての優先度を有する。ここで、第2のゲイン係数は、第1のゲイン係数を利用して生成される。いくつかの実施形態において、最小の第1のゲイン係数又は最小の第2のゲイン係数は、第1及び第2のゲイン係数の適用を制御するために利用されうる。最小のゲイン係数は、成分のゲイン低減バジェットを定義する。例えば、音声処理システムは、第1の成分に対して最小の第1のゲイン係数を、第2の成分に対して最小の第2のゲイン係数を決定し、第1の圧縮比を利用して生成された第1のゲイン係数の第1の成分ゲイン係数が最小の第1のゲイン係数を超えるかどうかを決定し、第2の圧縮比を利用して生成された第2のゲイン係数の第2の成分ゲイン係数が最小の第2のゲイン係数を超えるかどうかを決定してよい。
【0132】
第1の成分ゲイン係数が最小の第1のゲイン係数を超える場合、第1の成分ゲイン係数は、第1のゲイン係数として第1の成分に適用され、第2のゲイン係数は、第2の成分に適用されない。第1の成分ゲイン係数が最小の第1のゲイン係数を超えず、かつ第2の成分ゲイン係数が最小の第2のゲイン係数を超える場合、第1の成分ゲイン係数は、第1のゲイン係数として第1の成分に適用され、第2の成分ゲイン係数は、第2のゲイン係数として第2の成分に適用される。第1の成分ゲイン係数が最小の第1のゲイン係数を超えず、かつ第2の成分ゲイン係数が最小の第2のゲイン係数を超えない場合、第1の成分ゲイン係数及び残余ゲイン係数が、第1のゲイン係数として第1の成分に適用され、最小の第2のゲイン係数及び残余ゲイン係数が、第2のゲイン係数として第2の成分に適用される。
【0133】
いくつかの実施形態において、第1の成分は、第2の成分と等しい圧縮についての優先度を有する。第1の圧縮比を利用して生成された第1のゲイン係数の第1の成分ゲイン係数は、第2のゲイン係数とは無関係に生成され、第2の圧縮比を利用して生成された第2のゲイン係数の第2の成分ゲイン係数は、第1のゲイン係数とは無関係に生成される。さらに、音声処理システムは、第1の成分ゲイン係数の適用後の第1の成分と、第2の成分ゲイン係数の適用後の第2の成分との和が振幅閾値を超えるかどうかを決定してよい。第1及び第2のゲイン係数はそれぞれ、和が振幅閾値を超えることに応答して、残余ゲイン係数を含んでよい。
【0134】
いくつかの実施形態において、第1、第2、第3、及び第4の成分が、サブバンドのサブバンド成分であることなど、第1の圧縮比及び第2の圧縮比(及び他の圧縮特性)は、サブバンドを含む音声信号の複数のサブバンドに基づいて決定されうる。いくつかの実施形態において、ワイドバンド音声信号は、1つ以上のサブバンドに利用される圧縮特性を決定するために利用されうる。
【0135】
いくつかの実施形態において、平滑化関数は、圧縮のアーチファクトを低減するために、第1又は第2のゲイン係数に適用されうる。
【0136】
音声処理システムは、1135、第1の音声座標系における、調整された第1の成分及び調整された第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成する。調整された第1及び第2の成分は、ゲイン係数の適用後の第1及び第2の成分である。いくつかの実施形態において、第1の成分又は第2の成分のみが調整され、出力チャンネルは、1つだけの調整された成分と、調整されていない成分とを利用して生成されうる。
【0137】
例示的なワイドバンドプロセッサ
図12は、いくつかの実施形態による、ワイドバンドプロセッサ182のブロック図である。ワイドバンドプロセッサ182は、L/R-M/Sコンバータ1202と、ワイドバンド処理要素1204とを含む。L/R-M/Sコンバータ1202は、左入力チャンネル112及び右入力チャンネル114を受信し、中央成分1206及び側方成分1202を生成する。ワイドバンド処理要素1204は、中央成分1206を処理して制御信号140を生成し、側方成分1208を処理して制御信号142を生成する。ワイドバンド処理要素1204は、中央成分1206及び側方成分1208のそれぞれに対する等化フィルタを含んでよい。ワイドバンド処理要素1204は、制御信号140を、空間コンプレッサ104の中央ゲインプロセッサ152に提供し、制御信号142を、空間コンプレッサ104の側方ゲインプロセッサ154に提供する。例えば、ワイドバンド処理要素は、150~250Hz範囲を強調するM/S等化器を含んでよく、それは、500~1000Hzに及ぶサブバンドにおける側方ゲイン係数α
sを制御するために利用されうる。その後、空間コンプレッサ700において、制御信号140及び142は、次いで、中央ピーク抽出器702及び側方ピーク抽出器704によってそれぞれ解釈され、数式3及び4を利用して、中央及び側方サブバンド成分116及び118に適用されるゲインを決定するピーク値714及び716を計算する。これは、サブバンドの外側からの情報が、サブバンドに適用される動的処理アルゴリズムに影響しうる1つの方法である。
【0138】
例示的なコンピュータ
図13は、いくつかの実施形態による、コンピュータ1300のブロック図である。コンピュータ1300は、音声処理システムを実装する回路の例である。チップセット1304に結合された少なくとも1つのプロセッサ1302が描かれている。チップセット1304は、メモリコントローラハブ1320及び入力/出力(I/O)コントローラハブ1322を含む。メモリ1306及びグラフィックスアダプタ1312は、メモリコントローラハブ1320に結合され、ディスプレイデバイス1318は、グラフィックスアダプタ1312に結合される。ストレージデバイス1308、キーボード1310、ポインティングデバイス1314、及びネットワークアダプタ1316は、I/Oコントローラハブ1322に結合される。コンピュータ1300は、様々なタイプの入力又は出力デバイスを含んでよい。コンピュータ1300の他の実施形態は、異なるアーキティクチャを有する。例えば、メモリ1306は、いくつかの実施形態において、プロセッサ1302に直接結合される。
【0139】
ストレージデバイス1308は、ハードドライブ、コンパクトディスクリードオンリーメモリ(CD-ROM)、DVD、又はソリッドステートメモリデバイスなどの1つ以上の非一時的なコンピュータ可読記憶媒体を含む。メモリ1306は、プロセッサ1302によって利用されるプログラムコード(1つ以上の命令が含まれる)及びデータを把持する。プログラムコードは、
図1~
図11で説明された処理態様に対応しうる。
【0140】
ポインティングデバイス1314は、コンピュータシステム1300へデータを入力するためにキーボード1310と組み合わせて利用される。グラフィックスアダプタ1312は、イメージ及び他の情報をディスプレイデバイス1318に表示する。いくつかの実施形態において、ディスプレイデバイス1318は、ユーザ入力及び選択を受信するためのタッチスクリーン機能を含む。ネットワークアダプタ1316は、コンピュータシステム1300をネットワークに結合させる。コンピュータ1300のいくつかの実施形態は、
図13に示したものとは異なる及び/又は他のコンポーネントを有してよい。
【0141】
追加的な考察
開示された構成のいくつかの例示的な利益及び利点は、中央-側方空間において適用されるゲイン係数を利用して、左-右空間内において音声信号を圧縮して、圧縮のアーチファクトを異なる空間位置にシフトすること、及びユーザによって特定される設定を含む。音声信号の中央又は側方成分を処理することは、様々なタイプの音声処理において利用され、本明細書で議論された空間優先圧縮は、中央/側方空間における、そのような処理技術との計算効率の高い統合を提供する。これらの設定は、コンプレッサが異なる動作のレジームに入る閾値、及びそれらの動作のレジームの論理的な順序として、最低レベルで特定される。より高いレベルでは、これは、様々なサウンドステージの歪みのアーチファクトと、従来のダイナミックレンジ処理のアーチファクトとの間のトレードオフとして理解できる。圧縮についての本明細書で議論された技術は、拡張閾値を下回る場合の音声信号の拡張にも適用されうる。拡張は、音声信号に対して単独で実行しても、圧縮と組み合わせて実行してもよい。
【0142】
特定の実施形態及び応答が図示及び説明されたが、発明は、本明細書に開示された正確な構造及びコンポーネントに限定されず、当業者に明らかである様々な修正、変更、及び変形は、本開示の意図及び範囲を逸脱することなく、配置、動作、及び、本明細書で開示された方法及び装置の詳細に対してなされうることが理解されよう。
【手続補正書】
【提出日】2021-11-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
処理回路によって、音声信号に圧縮を適用するための方法であって、
第2の音声座標系における前記音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成するステップと、
前記圧縮を適用するための前記第3の成分及び前記第4の成分のそれぞれに対するレベルを定義する前記第2の音声座標系における振幅閾値を決定するステップと、
前記第1の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、前記第1の成分に対する第1のゲイン係数を生成するステップと、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第1のゲイン係数を前記第1の成分に適用して、調整された第1の成分を生成するステップと、
前記第1の音声座標系における前記調整された第1の成分及び前記第2の成分を利用して、前記第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するステップと
を含む、方法。
【請求項2】
前記処理回路によって、
前記第2の成分が前記振幅閾値を超えるとき、前記第2の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、前記第2の成分に対する第2のゲイン係数を生成するステップと、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第2のゲイン係数を前記第2の成分に適用して、調整された第2の成分を生成するステップと、
をさらに含み、
前記調整された第1の成分及び前記第2の成分を利用して、前記第1の出力チャンネル及び前記第2の出力チャンネルを生成するステップは、前記第2の成分から生成された前記調整された第2の成分を利用することを含む、
請求項1に記載の方法。
【請求項3】
前記第1の成分は、圧縮についての、前記第2の成分より高い優先度を有し、前記第2のゲイン係数は、前記第1のゲイン係数を利用して生成される、
請求項2に記載の方法。
【請求項4】
前記処理回路によって、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定するステップと、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定するステップと、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定するステップと、
をさらに含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えると決定することに応答して、前記最小の第1のゲイン係数は、前記第1のゲイン係数として前記第1の成分に適用され、前記第2の成分ゲイン係数は、前記第2のゲイン係数として前記第2の成分に適用される、
請求項3に記載の方法。
【請求項5】
前記第1のゲイン係数を生成するステップは、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定するステップと、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定するステップと、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定するステップと、
を含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないと決定することに応答して、前記第1のゲイン係数及び前記第2のゲイン係数はそれぞれ残余ゲイン係数を含む、
請求項3に記載の方法。
【請求項6】
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないことに応答して、前記第1のゲイン係数は、前記最小の第1のゲイン係数を含み、前記第2のゲイン係数は、前記最小の第2のゲイン係数を含む、
請求項5に記載の方法。
【請求項7】
前記第1の成分は、圧縮についての、前記第2の成分と等しい優先度を有し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数は、前記第2のゲイン係数とは無関係に生成され、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数は、前記第1のゲイン係数とは無関係に生成される、
請求項2に記載の方法。
【請求項8】
前記処理回路によって、前記第1の成分ゲイン係数の適用後の前記第1の成分と、前記第2の成分ゲイン係数の適用後の前記第2の成分との和が、前記振幅閾値を超えるかどうかを決定するステップであって、前記和が前記振幅閾値を超えることに応答して、前記第1及び第2のゲイン係数はそれぞれ残余ゲイン係数を含む、ステップをさらに含む、
請求項7に記載の方法。
【請求項9】
前記第1の成分は、前記音声信号の中央成分又は側方成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の左成分であり、
前記第4の成分は、前記音声信号の右成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項1に記載の方法。
【請求項10】
前記第1の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第4の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項1に記載の方法。
【請求項11】
前記処理回路によって、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記第1の圧縮比を決定するステップをさらに含む、
請求項10に記載の方法。
【請求項12】
前記第1のゲイン係数に平滑化関数を適用するステップをさらに含む、
請求項1に記載の方法。
【請求項13】
プログラムコードを格納する非一時的なコンピュータ可読媒体であって、前記プログラムコードは、プロセッサによって実行されたとき、
第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、
圧縮を適用するための前記第3の成分及び前記第4の成分のそれぞれに対するレベルを定義する前記第2の音声座標系における振幅閾値を決定し、
前記第1の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、前記第1の成分に対する第1のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第1のゲイン係数を前記第1の成分に適用して、調整された第1の成分を生成し、
前記第1の音声座標系における前記調整された第1の成分及び前記第2の成分を利用して、前記第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成する
ように前記プロセッサを構成する、
非一時的なコンピュータ可読媒体。
【請求項14】
前記プログラムコードは、
前記第2の成分が前記振幅閾値を超えるとき、前記第2の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、前記第2の成分に対する第2のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第2のゲイン係数を前記第2の成分に適用して、調整された第2の成分を生成する
ように前記プロセッサをさらに構成し、
前記調整された第1の成分及び前記第2の成分を利用して、前記第1の出力チャンネル及び前記第2の出力チャンネルを生成するように前記プロセッサを構成する前記プログラムコードは、前記第2の成分から生成された前記調整された第2の成分を利用するように前記プロセッサを構成する前記プログラムコードを含む、
請求項13に記載のコンピュータ可読媒体。
【請求項15】
前記第1の成分は、圧縮についての、前記第2の成分より高い優先度を有し、前記第2のゲイン係数は、前記第1のゲイン係数を利用して生成される、
請求項14に記載のコンピュータ可読媒体。
【請求項16】
前記プログラムコードは、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ように前記プロセッサをさらに構成し、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えると決定することに応答して、前記最小の第1のゲイン係数は、前記第1のゲイン係数として前記第1の成分に適用され、前記第2の成分ゲイン係数は、前記第2のゲイン係数として前記第2の成分に適用される、
請求項15に記載のコンピュータ可読媒体。
【請求項17】
前記第1のゲイン係数を生成するように前記プロセッサを構成する前記プログラムコードは、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ように前記プロセッサを構成するプログラムコードを含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないと決定することに応答して、前記第1のゲイン係数及び前記第2のゲイン係数はそれぞれ残余ゲイン係数を含む、
請求項15に記載のコンピュータ可読媒体。
【請求項18】
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないことに応答して、前記第1のゲイン係数は、前記最小の第1のゲイン係数を含み、前記第2のゲイン係数は、前記最小の第2のゲイン係数を含む、
請求項17に記載のコンピュータ可読媒体。
【請求項19】
前記第1の成分は、圧縮についての、前記第2の成分と等しい優先度を有し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数は、前記第2のゲイン係数とは無関係に生成され、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数は、前記第1のゲイン係数とは無関係に生成される、
請求項14に記載のコンピュータ可読媒体。
【請求項20】
前記プログラムコードは、前記第1の成分ゲイン係数の適用後の前記第1の成分と、前記第2の成分ゲイン係数の適用後の前記第2の成分との和が、前記振幅閾値を超えるかどうかを決定することであって、前記和が前記振幅閾値を超えることに応答して、前記第1及び第2のゲイン係数はそれぞれ残余ゲイン係数を含む、ことを行うように前記プロセッサをさらに構成する、
請求項19に記載のコンピュータ可読媒体。
【請求項21】
前記第1の成分は、前記音声信号の中央成分又は側方成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の左成分であり、
前記第4の成分は、前記音声信号の右成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項13に記載のコンピュータ可読媒体。
【請求項22】
前記第1の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第4の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項13に記載のコンピュータ可読媒体。
【請求項23】
前記プログラムコードは、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記圧縮比を決定するように前記プロセッサをさらに構成する、
請求項22に記載のコンピュータ可読媒体。
【請求項24】
前記プログラムコードは、前記第1のゲイン係数に平滑化関数を適用するように前記プロセッサをさらに構成する、
請求項21に記載のコンピュータ可読媒体。
【請求項25】
音声信号に圧縮を適用するためのシステムであって、
第2の音声座標系における前記音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、
圧縮を適用するための前記第3の成分及び前記第4の成分のそれぞれに対するレベルを定義する前記第2の音声座標系における振幅閾値を決定し、
前記第1の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、前記第1の成分に対する第1のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第1のゲイン係数を前記第1の成分に適用して、調整された第1の成分を生成し、
前記第1の音声座標系における前記調整された第1の成分及び前記第2の成分を利用して、前記第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成する
ように構成された処理回路を含む、システム。
【請求項26】
前記処理回路は、
前記第2の成分が前記振幅閾値を超えるとき、前記第2の成分が前記振幅閾値を超える量と、前記振幅閾値の上までの前記第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、前記第2の成分に対する第2のゲイン係数を生成し、
前記第3の成分又は前記第4の成分のうちの1つが前記振幅閾値を超えるとき、前記第2のゲイン係数を前記第2の成分に適用して、調整された第2の成分を生成する
ようにさらに構成され、
前記調整された第1の成分及び前記第2の成分を利用して、前記第1の出力チャンネル及び前記第2の出力チャンネルを生成するように構成された前記処理回路は、前記第2の成分から生成された前記調整された第2の成分を利用するように構成される前記処理回路を含む、
請求項25に記載のシステム。
【請求項27】
前記第1の成分は、圧縮についての、前記第2の成分より高い優先度を有し、前記第2のゲイン係数は、前記第1のゲイン係数を利用して生成される、
請求項26に記載のシステム。
【請求項28】
前記処理回路は、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ようにさらに構成され、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えると決定することに応答して、前記最小の第1のゲイン係数は、前記第1のゲイン係数として前記第1の成分に適用され、前記第2の成分ゲイン係数は、前記第2のゲイン係数として前記第2の成分に適用される、
請求項27に記載のシステム。
【請求項29】
前記第1のゲイン係数を生成するように構成された前記処理回路は、
前記第1の成分に対する最小の第1のゲイン係数と、前記第2の成分に対する最小の第2のゲイン係数とを決定し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数が、前記最小の第1のゲイン係数を超えるかどうかを決定し、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数が、前記最小の第2のゲイン係数を超えるかどうかを決定する
ように構成される前記処理回路を含み、
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないと決定することに応答して、前記第1のゲイン係数及び前記第2のゲイン係数はそれぞれ残余ゲイン係数を含む、
請求項27に記載のシステム。
【請求項30】
前記第1の成分ゲイン係数が前記最小の第1のゲイン係数を超えず、かつ前記第2の成分ゲイン係数が前記最小の第2のゲイン係数を超えないことに応答して、前記第1のゲイン係数は、前記最小の第1のゲイン係数を含み、前記第2のゲイン係数は、前記最小の第2のゲイン係数を含む、
請求項29に記載のシステム。
【請求項31】
前記第1の成分は、圧縮についての、前記第2の成分と等しい優先度を有し、
前記第1の圧縮比を利用して生成された前記第1のゲイン係数の第1の成分ゲイン係数は、前記第2のゲイン係数とは無関係に生成され、
前記第2の圧縮比を利用して生成された前記第2のゲイン係数の第2の成分ゲイン係数は、前記第1のゲイン係数とは無関係に生成される、
請求項26に記載のシステム。
【請求項32】
前記処理回路は、前記第1の成分ゲイン係数の適用後の前記第1の成分と、前記第2の成分ゲイン係数の適用後の前記第2の成分との和が、前記振幅閾値を超えるかどうかを決定することであって、前記和が前記振幅閾値を超えることに応答して、前記第1及び第2のゲイン係数はそれぞれ残余ゲイン係数を含む、ことを行うようにさらに構成される、
請求項31に記載のシステム。
【請求項33】
前記第1の成分は、前記音声信号の中央成分又は側方成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の左成分であり、
前記第4の成分は、前記音声信号の右成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項25に記載のシステム。
【請求項34】
前記第1の成分は、前記音声信号のサブバンドの中央サブバンド成分又は側方サブバンド成分のうちの1つであり、
前記第1の音声座標系は、中央-側方音声座標系であり、
前記第3の成分は、前記音声信号の前記サブバンドの左サブバンド成分であり、
前記第4の成分は、前記音声信号の前記サブバンドの右サブバンド成分であり、
前記第2の音声座標系は、左-右音声座標系である、
請求項25に記載のシステム。
【請求項35】
前記処理回路は、前記サブバンドを含む前記音声信号の複数のサブバンドに基づいて前記第1の圧縮比を決定するようにさらに構成される、
請求項34に記載のシステム。
【請求項36】
前記処理回路は、前記第1のゲイン係数に平滑化関数を適用するようにさらに構成される、
請求項25に記載のシステム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本明細書で説明される構成要素は、音声処理、より詳細には、空間認識コンテキストにおける音声信号の圧縮に関する。
【背景技術】
【0002】
圧縮は、音声信号の最大音量及び最小音量の部分の間の範囲を制御することを指す。左チャンネル及び右チャンネルを含む左-右空間内のステレオ音声信号については、圧縮は、左又は右チャンネルが圧縮閾値を超えるとき、必要に応じて、左又は右チャンネルにゲインを適用することによって左-右空間内で達成できる。しかし、音声信号の空間特性が調整できる中央-側方空間など、左-右空間内にない音声信号を処理することが好ましい。
【発明の概要】
【0003】
実施形態は、空間認識コンテキストにおける音声信号の圧縮を提供するための、プロセス(又は方法)と、システム及び非一時的なコンピュータ可読記憶媒体に格納された命令を含むコンピュータプログラム製品とに関する。左-右空間内で圧縮閾値を超えるとき、圧縮のアーチファクトを異なる空間位置にシフトするために、中央-側方空間内で適用される中央及び側方成分の制御を利用して、音声信号が圧縮される。この技術は、それ自体で又は圧縮との組み合わせで、拡張閾値未満のときに、音声信号の拡張にも適用されうる。
【0004】
例として、いくつかの実施形態は、音声信号に圧縮を適用するための方法を含む。方法は、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成するステップを含む。方法は、圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定するステップをさらに含む。方法は、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成するステップをさらに含む。方法は、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第1のゲイン係数を第1の成分に適用して、調整された第1の成分を生成するステップをさらに含む。方法は、第1の音声座標系における調整された第1の成分及び第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するステップをさらに含む。
【0005】
いくつかの実施形態において、方法は、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成するステップと、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第2のゲイン係数を第2の成分に適用して、調整された第2の成分を生成するステップとをさらに含む。調整された第1の成分及び第2の成分を利用して、第1の出力チャンネル及び第2の出力チャンネルを生成するステップは、第2の成分から生成された調整された第2の成分を利用することを含む。
【0006】
いくつかの実施形態は、プログラムコードを格納する非一時的なコンピュータ可読媒体を含み、プログラムコードは、プロセッサによって実行されたとき、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定し、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第1のゲイン係数を第1の成分に適用して、調整された第1の成分を生成し、第1の音声座標系における調整された第1の成分及び第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するようにプロセッサを構成する。
【0007】
いくつかの実施形態において、プログラムコードは、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第2のゲイン係数を第2の成分に適用して、調整された第2の成分を生成するようにプロセッサをさらに構成する。調整された第1の成分及び第2の成分を利用して、第1の出力チャンネル及び第2の出力チャンネルを生成するようにプロセッサを構成するプログラムコードは、第2の成分から生成された調整された第2の成分を利用するようにプロセッサを構成するプログラムコードを含む。
【0008】
いくつかの実施形態は、音声信号に圧縮を適用するためのシステムを含む。システムは、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成し、圧縮を適用するための第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定し、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義する第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第1のゲイン係数を第1の成分に適用して、調整された第1の成分を生成し、第1の音声座標系における調整された第1の成分及び第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成するように構成された処理回路を含む。
【0009】
いくつかの実施形態において、処理回路は、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義する第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成し、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、第2のゲイン係数を第2の成分に適用して、調整された第2の成分を生成するようにさらに構成される。調整された第1の成分及び第2の成分を利用して、第1の出力チャンネル及び第2の出力チャンネルを生成するように構成された処理回路は、第2の成分から生成された調整された第2の成分を利用するように構成される処理回路を含む。
【図面の簡単な説明】
【0010】
【
図1】いくつかの実施形態による、音声処理システムのブロック図である。
【
図2】いくつかの実施形態による、空間コンプレッサのブロック図である。
【
図3】いくつかの実施形態による、周波数バンドデバイダのブロック図である。
【
図4A】いくつかの実施形態による、L/R圧縮に続く側方成分圧縮のブロック図である。
【
図4B】いくつかの実施形態による、L/R圧縮に続く中央成分圧縮のブロック図である。
【
図5】いくつかの実施形態による、L/R圧縮に続く、並行する中央成分圧縮及び側方成分圧縮のブロック図である。
【
図6A】いくつかの実施形態による、L/R圧縮に続く、中央成分圧縮に続く、側方成分圧縮のブロック図である。
【
図6B】いくつかの実施形態による、L/R圧縮に続く、側方成分圧縮に続く、中央成分圧縮のブロック図である。
【
図7】いくつかの実施形態による、側鎖処理のための音声コンプレッサのブロック図である。
【
図8】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図9】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図10】いくつかの実施形態による、サブバンドを利用して、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図11】いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセスのフロー図である。
【
図12】いくつかの実施形態による、ワイドバンドプロセッサのブロック図である。
【
図13】いくつかの実施形態による、コンピュータのブロック図である。
【0011】
説明のみを目的とする様々な非限定的な実施形態を、図で示し、詳細な説明で述べる。
【発明を実施するための形態】
【0012】
ここでは、実施形態と、添付図に示されたそれらの例とが詳細に参照されるだろう。以下の詳細な説明において、説明される様々な実施形態の完全な理解を提供するために多数の具体的な詳細が明らかにされる。しかし、説明される実施形態は、これらの具体的な詳細なしに実践されうる。他の場合においては、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、成分、回路、及びネットワークは詳細に説明されなかった。
【0013】
本開示の実施形態は、中央-側方空間内に適用される制御を利用した、左-右空間内における音声信号の範囲制御に関する。左チャンネル及び右チャンネルを含む音声信号は、中央成分及び側方成分に変換される。左及び右チャンネルのそれぞれに許容される最大レベルを定義する左-右閾値が決定される。圧縮比、メイクアップゲイン設定、エンベロープパラメータ、及び、中央成分と側方成分との間の圧縮の優先度を定義する成分優先度設定などの圧縮特性が決定される。中央成分及び側方成分のうちの1つ以上は、左又は右チャンネルが左-右閾値を超えるときに圧縮特性に基づいて制御される。調整された成分は、左-右空間に戻す変換がされて、それぞれが左-右空間内の左-右閾値を満たす左出力チャンネル及び右出力チャンネルになる。
【0014】
圧縮は、中央成分と側方成分の間の空間的制限の優先度に従って定義されてよい。空間的制限の優先度は調整可能であってよく、左-右閾値を満たすように、異なる空間位置へのアーチファクトの好ましいシフトを定義する。
【0015】
いくつかの実施形態において、マルチバンド圧縮は、中央及び側方成分の異なるサブバンドに利用される。いくつかの実施形態において、クロスバンド圧縮が利用され、ワイドバンド音声信号から導出された制御信号に基づいて異なるサブバンドが制御される。
【0016】
いくつかの実施形態において、マルチバンド優先圧縮が、多入力多出力(MIMO)システムに適用される。一般化された側鎖行列を組み込むことによって、サブバンド及び空間チャンネルにわたっての優先度が確立できる。
【0017】
対象閾値を超えないという要件を緩和することによって、先読みを必要とすることなく、正及び負の両方の意味で非対称的にゲイン補正関数を平滑化することによって、ゲイン補正アーチファクトが低減されうる。さらに、これらの非線形平滑化要素は、個別のチャンネルに対する個別の係数で特定でき、従って、知覚的なマスキングがより生じやすい出力空間の範囲にアーチファクトをシフトする能力を提供する。
【0018】
いくつかの実施形態において、信号をサブバンドに分解することは、位相補正された4次のLinkwitz-Rileyネットワークを利用するが、これは、ウェーブレット分解及び短時間フーリエ変換(STFT)方法を含む他のフィルタバンクトポロジに同様に拡張されうる。
【0019】
例示的な音声処理システム
図1は、いくつかの実施形態による、音声処理システム100のブロック図である。音声処理システム100は、左入力チャンネル112及び右入力チャンネル114を含む入力音声信号を受信し、チャンネル112、114の中央成分(又は、「中央サブバンド成分116」と称される中央成分のサブバンド)、側方成分(又は、「側方サブバンド成分118」と称される側方成分のサブバンド)を処理して、左出力チャンネル176及び右出力チャンネル178を含む出力音声信号を生成する回路を含む。音声処理システム100は、音声信号が、圧縮を適用するための左及び右チャンネルに対するレベルを定義する左-右閾値θ
LRを超えたとき、中央成分116又は側方成分118のうちの1つ以上に圧縮を適用する。入力エネルギーがどこに集中しているか及び音声処理システム100の動作を構成する設定に依存して、音声処理システム100が圧縮のアーチファクトを異なる空間位置(例えば、入力音声信号の中央又は側方成分)にシフトできるため、音声処理システム100は、空間認識コンテキストにおける入力音声信号の圧縮を提供する。設定は、プログラム的に決定されてよく、又はユーザによって特定されてよい。
【0020】
音声処理システム100は、周波数バンドデバイダ162と、L/R-M/Sコンバータ102と、空間コンプレッサ104及びL/Rコンプレッサ106を含む音声コンプレッサ180と、M/S-L/Rコンバータ108と、周波数バンドコンバイナ164と、ワイドバンドプロセッサ182と、コントローラ110とを含む。いくつかの実施形態において、ワイドバンドプロセッサ182は、クロスバンド側鎖設定を許可するように含まれてよい。
【0021】
周波数バンドデバイダ162は、左入力チャンネル112及び右入力チャンネル114を受信し、チャンネルをサブバンド成分に分離する。左入力チャンネル112及び右入力チャンネル114はそれぞれ、n個の周波数サブバンドに分離されうる。左入力チャンネル112及び右入力チャンネル114のn個の周波数サブバンドのそれぞれは、周波数の範囲に対応しうる。n=4周波数サブバンドの例では、周波数サブバンド(1)は、0~300Hzに対応してよく、周波数サブバンド(2)は、300~510Hzに対応してよく、周波数サブバンド(3)は、510~2700Hzに対応してよく、周波数サブバンド(4)は、2700Hz~ナイキスト周波数に対応してよい。いくつかの実施形態において、n個の周波数サブバンドは、臨界帯域の固定セットである。臨界帯域は、多種多様な音楽ジャンルからの音声サンプルのコーパスを利用して決定されうる。24バーク尺度臨界帯域上での中央から側方の成分の長期平均エネルギー比は、サンプルから決定される。類似の長期平均比を持つ隣接周波数帯域は、次いで、臨界帯域のセットを形成するように一緒にグループ化される。周波数サブバンドの範囲、及び周波数サブバンドの数は、調整可能でありうる。いくつかの実施形態において、生成されたサブバンドは、スペクトルの隣接する範囲を表さなくてよいが、代わりに、推定された音源又は他の分離された音声成分に対応してよい。かくして、周波数バンドデバイダ162は、左入力チャンネル112から左サブバンド成分172を、そして、右入力チャンネル114から右サブバンド成分174を生成する。
【0022】
L/R-M/Sコンバータ102は、左サブバンド成分172及び右サブバンド成分174を受信し、左サブバンド成分172及び右サブバンド成分174から、中央サブバンド成分116及び側方サブバンド成分118を生成する。いくつかの実施形態において、n個のサブバンドのそれぞれに対し、中央サブバンド成分は、サブバンドの左サブバンド成分と、サブバンドの右サブバンド成分との和に基づいて生成されうる。サブバンドのそれぞれに対し、側方成分は、サブバンドの左サブバンド成分と、サブバンドの右サブバンド成分との差に基づいて生成されうる。中央及び側方成分は、信号源分離に基づく様々な変換を利用することなど、他の方法で生成されてよい。
【0023】
いくつかの実施形態において、各サブバンドの中央及び側方成分は、マルチチャンネル(例えば、サラウンドサウンド)音声信号から生成される。例えば、複数の左チャンネル(例えば、左、左サラウンド、及び左後方サラウンドなど)は、左入力チャンネル112を生成するために結合されてよく、複数の右チャンネル(例えば、右、右サラウンド、及び右後方サラウンドなど)は、右入力チャンネル114を生成するために結合されてよい。これらの追加的なチャンネルは、増加した次元数に順応するためにL/R-M/Sコンバータ102の修正を利用して、中央及び側方に加えて新たな空間軸を生成するために利用されてもよい。例えば、直交変換は、知覚的に意味のあるチャンネルの組み合わせを導出するために利用されうる。いくつかの実施形態において、これらの変形は、M/S-L/Rコンバータ108の代わりに、対応する逆変換と対を成しうる。
【0024】
音声コンプレッサ180は、出力チャンネル176、178がそれぞれ、左-右空間内で左-右圧縮閾値θLR未満に制限されるように、中央サブバンド成分116及び側方サブバンド成分118を処理する。いくつかの実施形態において、異なるサブバンドは、異なる左-右圧縮閾値を利用しうる。音声コンプレッサ180は、空間コンプレッサ104及びL/Rコンプレッサ106を含む。空間コンプレッサ104は、中央ゲインプロセッサ152及び側方ゲインプロセッサ154を含む。各サブバンドに対し、中央ゲインプロセッサ152は、中央サブバンド成分116及び側方サブバンド成分118を受信し、中央サブバンド成分116に対する中央ゲイン係数αmを決定する。各サブバンドに対し、中央ゲインプロセッサ152は、中央ゲイン係数αmを中央サブバンド成分118に適用して、調整された中央サブバンド成分120を生成する。各サブバンドに対し、側方ゲインプロセッサ154は、中央サブバンド成分116及び側方サブバンド成分118を受信し、側方サブバンド成分118に対する側方ゲイン係数αsを決定する。側方ゲインプロセッサ154は、側方ゲイン係数αsを側方サブバンド成分に適用して、調整された側方サブバンド成分122を生成する。かくして、空間コンプレッサ104は、n個のサブバンドのそれぞれに対し、調整された中央サブバンド成分120及び調整された側方サブバンド成分122を生成する。
【0025】
いくつかの実施形態において、各サブバンドに対し、中央成分と側方成分との間で、圧縮の優先度があってよい。いくつかの実施形態において、異なるサブバンドは、中央サブバンド成分と側方サブバンド成分の間で、圧縮についての異なる優先度を含んでよく、又は異なる左-右圧縮閾値θLRを利用してよい。
【0026】
L/Rコンプレッサ106は、L/Rゲインプロセッサ156を含む。L/Rゲインプロセッサ156は、空間リミッタ104によって調整されたように、調整された中央サブバンド成分120及び調整された側方サブバンド成分122を受信し、各サブバンドについて、残余ゲイン係数αlrを、サブバンドの調整された中央サブバンド成分に適用して、調整された中央サブバンド成分124を生成し、残余ゲイン係数αlrを調整された側方サブバンド成分122に適用して、調整された側方サブバンド成分126を生成する。かくして、L/Rコンプレッサ106は、n個のサブバンドのそれぞれについて、調整された中央サブバンド成分124及び調整された側方サブバンド成分126を生成する。
【0027】
図4A~6Bに関連して、以下でより詳細に議論されるように、各サブバンドについてのゲイン係数α
m、α
s、及びα
lrは、音声処理システム100の空間圧縮の優先度に依存して変わりうる。空間圧縮についての優先度は、各サブバンドの中央及び側方成分の両方に適用されるL/Rコンプレッサステージに続く、中央コンプレッサステージと側方コンプレッサステージの間の優先度を定義する。優先度の低いコンプレッサステージは、優先度の高い制限ステージで適用される1つ以上のゲイン係数を利用して定義されるゲイン係数を適用しうる。
【0028】
M/S-L/Rコンバータ108は、調整された中央サブバンド成分124及び調整された側方サブバンド成分126を受信し、調整された中央サブバンド成分124及び調整された側方サブバンド成分126から、調整された左サブバンド成分132及び調整された右サブバンド成分134を生成する。各サブバンドについて、調整された左サブバンド成分132は、サブバンドの、調整された中央成分124と調整された側方成分126との和に基づいて生成されうる。各サブバンドについて、調整された右サブバンド成分134は、サブバンドの、調整された中央サブバンド成分122と調整された側方サブバンド成分124との差に基づいて生成されうる。他のタイプの変換は、中央及び側方成分から、左及び右サブバンド成分を生成するために利用されうる。かくして、M/S-L/Rコンバータ108は、n個のサブバンドのそれぞれについて、調整された左サブバンド成分132及び調整された右サブバンド成分134を生成する。
【0029】
周波数バンドコンバイナ164は、調整された左サブバンド成分132及び調整された右サブバンド成分134を受信し、左出力チャンネル176及び右出力チャンネル178を生成する。左出力チャンネル176は、調整された左サブバンド成分132のそれぞれを結合することによって生成されうる。右出力チャンネル178は、調整された右サブバンド成分134のそれぞれを結合することによって生成されうる。周波数バンドコンバイナ164は、左出力チャンネル176を左スピーカに、そして、右出力チャンネル178を右スピーカに出力する。空間コンプレッサ104及びL/Rコンプレッサ106によって適用される処理の結果として、出力音声信号の左出力チャンネル176及び右出力チャンネル178のピークは、左入力チャンネル112又は右入力チャンネル114が左-右閾値θLRを超えるときに圧縮される。
【0030】
ワイドバンドプロセッサ182は、ワイドバンド音声信号から導出された制御信号140及び142で各サブバンドの制御を促進することによって、音声処理システム100のクロスバンド動作をサポートする。ワイドバンドプロセッサ182は、ワイドバンド音声信号から、音声コンプレッサ180によって1つ以上のサブバンドを調整するための制御信号140及び142を生成する。ワイドバンドプロセッサ182は、左チャンネル112及び右チャンネル114を受信し、音声コンプレッサ180によって利用されるワイドバンド側鎖信号レベルを決定する。ワイドバンドプロセッサ182は、周波数バンドデバイダ162及びL/R-M/Sコンバータ102で並行に音声信号を処理する側鎖行列として実装されうる。いくつかの実施形態において、非クロスバンド動作などについて、ワイドバンドプロセッサ182は、省略又はバイパスされてよい。いくつかの実施形態において、制御信号140及び142は、ワイドバンド音声信号上での等化又はフィルタの適用などの変換から導出される。側鎖行列は、次いで、中央ゲインプロセッサ152を制御しうるクロスバンド信号140、又は側方ゲインプロセッサ154を制御しうるクロスバンド信号142から新たな中央-側方成分を導出するためのL/R-M/Sコンバータを利用して構築されうる。次いで、中央ゲインプロセッサ152及び側方ゲインプロセッサ154のそれぞれは、それらが制御信号の特性を有するかのように、側鎖行列、LR閾値θLR、及び音声処理システム100によって決定される他のパラメータのうちの1つ以上によって特定される方式で、成分116及び118を処理することができる。制御信号140及び142は、音声チャンネル112及び114から導出され、側鎖行列によって決定される方式でさらに処理されるため、空間コンプレッサ104は、それによって、サブバンドの外側の情報又は制御されるべき成分(116及び118)の空間位置に応答しうる。
【0031】
いくつかの実施形態において、コントローラ110は、音声処理システム100の動作を制御する。コントローラ110は、パラメータ(例えば、θLR、圧縮比、メイクアップゲイン設定、アタック又はリリース時間などのエンベロープパラメータ)を定義し、処理ステージの優先度を決定し、決定された優先度及びパラメータに従ってゲイン係数を決定することなどによって、それらの動作を構成するために音声処理システム100の他のコンポーネントに結合されうる。音声処理システム100によって利用される様々なパラメータは、ユーザ入力によって、プログラム的に、又はそれらの組み合わせによって定義されうる。
【0032】
いくつかの実施形態において、音声処理システム100は、空間認識コンテキストにおけるワイドバンド圧縮を提供する。例えば、周波数バンドデバイダ162及び周波数バンドコンバイナ164は、省略又はバイパスされてよい。各サブバンドの中央及び側方成分を処理するのではなく、空間コンプレッサ104及びL/Rコンプレッサ106は、サブバンドへの分離なしに、ワイドバンド成分として中央及び側方成分を処理する。サブバンドの処理が、音声信号に適用できる圧縮のタイプを増加させる一方、ワイドバンド処理は、空間認識圧縮の計算要件を低減できる。
【0033】
上で議論したように、L/R-M/Sコンバータ102、空間コンプレッサ104、L/Rコンプレッサ106、及びM/S-L/Rコンバータ108は、n個のサブバンドのそれぞれを処理しうる。いくつかの実施形態において、音声処理システム100は、これらのサブバンド処理コンポーネントの複数の例を含み、それぞれは、n個のサブバンドの1つを処理することに特化している。複数のサブバンドは、並行に又は続けて処理されうる。
【0034】
例示的な空間コンプレッサ
図2は、いくつかの実施形態による、空間コンプレッサ200のブロック図である。空間コンプレッサ200は、音声処理システム100の空間コンプレッサ104の例である。
図1に示した空間コンプレッサ104とは異なり、空間コンプレッサ200は、ワイドバンドプロセッサ182からの制御信号140及び142を利用しない。空間コンプレッサ200は、サブバンドの情報を利用して、サブバンドに適用される動的処理アルゴリズムを制御する。空間コンプレッサ200は、中央ピーク抽出器202と、側方ピーク抽出器204と、中央ゲインプロセッサ206と、側方ゲインプロセッサ208と、中央ミキサ210と、側方ミキサ212とを含む。空間コンプレッサ200の動作は、n個のサブバンドの1つの中央及び側方成分の処理について議論される。類似の動作は、n個のサブバンドのそれぞれに関して実行できる。他の例において、空間コンプレッサ200は、中央及び側方成分がサブバンドに分離されないワイドバンド処理を提供する。
【0035】
中央ピーク抽出器202は、中央サブバンド成分116を受信し、中央サブバンド成分116のピーク値を表す中央ピーク214を決定する。中央ピーク抽出器202は、中央ゲインプロセッサ206及び側方ゲインプロセッサ208に中央ピーク214を提供する。側方ピーク抽出器204は、側方サブバンド成分118を受信し、側方サブバンド成分118のピーク値を表す側方ピーク216を決定する。側方ピーク抽出器204は、中央ゲインプロセッサ206及び側方ゲインプロセッサ208に側方ピーク216を提供する。
【0036】
中央ゲインプロセッサ206は、中央ピーク214、側方ピーク216、左-右空間における圧縮閾値θLR、及び圧縮比に基づいて中央ゲイン係数218(αm)を決定する。側方ゲインプロセッサ208は、中央ピーク214、側方ピーク216、左-右空間における圧縮閾値θLR、及び圧縮比に基づいて側方ゲイン係数220(αs)を決定する。
【0037】
中央ミキサ210は、中央サブバンド成分116及び中央ゲイン係数218(αm)を受信し、これらの値を乗算して、調整された中央サブバンド成分120を生成する。側方ミキサ212は、側方サブバンド成分118及び側方ゲイン係数220(αs)を受信し、これらの値を乗算して、調整された側方サブバンド成分122を生成する。
【0038】
いくつかの実施形態において、L/Rコンプレッサステージは、空間コンプレッサ200に統合される。中央ゲインプロセッサ206は、残余ゲイン係数αlrを中央ゲイン係数218と結合し、中央ミキサ210は、その結果を中央サブバンド成分116に乗算して、調整された中央サブバンド成分124を生成する。側方ゲインプロセッサ208は、残余ゲイン係数αlrを側方ゲイン係数220に結合し、側方ミキサ212は、その結果を側方サブバンド成分118に乗算して、調整された側方サブバンド成分126を生成する。
【0039】
周波数バンドデバイダ
図3は、いくつかの実施形態による、周波数バンドデバイダ300のブロック図である。周波数バンドデバイダ300は、音声処理システム100の周波数バンドデバイダ162の例である。周波数バンドデバイダ300は、左入力チャンネル112又は右入力チャンネル114などの音声信号を、サブバンド成分318、320、322、及び324に分離する。
【0040】
周波数バンドデバイダは、出力でのコヒーレントな加算を可能にするために、位相補正を持つ4次Linkwitz-Rileyクロスオーバのカスケードを含む。周波数バンドデバイダ300は、ローパスフィルタ302、ハイパスフィルタ304、オールパスフィルタ306、ローパスフィルタ308、ハイパスフィルタ310、オールパスフィルタ312、ハイパスフィルタ316、及びローパスフィルタ314を含む。
【0041】
ローパスフィルタ302及びハイパスフィルタ304は、コーナー周波数(例えば、300Hz)を有する4次Linkwitz-Rileyクロスオーバを含み、オールパスフィルタ306は、マッチング2次オールパスフィルタを含む。ローパスフィルタ308及びハイパスフィルタ310は、他のコーナー周波数(例えば、510Hz)を有する4次Linkwitz-Rileyクロスオーバを含み、オールパスフィルタ312は、マッチング2次オールパスフィルタを含む。ローパスフィルタ314及びハイパスフィルタ316は、他のコーナー周波数(例えば、2700Hz)を有する4次Linkwitz-Rileyクロスオーバを含む。かくして、周波数バンドデバイダ300は、0~300Hzを含む周波数サブバンド(1)に対応するサブバンド成分318と、300~510Hzを含む周波数サブバンド(2)に対応するサブバンド成分320と、510~2700Hzを含む周波数サブバンド(3)に対応するサブバンド成分322と、2700Hz~ナイキスト周波数を含む周波数サブバンド(4)に対応するサブバンド成分324とを生成する。この例において、周波数バンドデバイダ300は、n=4サブバンド成分を生成する。周波数バンドデバイダ300によって生成されるサブバンド成分の数及びそれらの対応する周波数範囲は変わりうる。周波数バンドデバイダ300によって生成されるサブバンド成分は、周波数バンドコンバイナ164などによる、偏りのない完全な合計を可能にする。周波数バンドデバイダ300は、左-右空間内の左及び右チャンネルに適用されるとして議論されたけれども、いくつかの実施形態において、ワイドバンド成分のサブバンドへの分離は、中央-側方空間内の中央及び側方成分に適用されうる。いくつかの実施形態において、周波数バンドデバイダ300によって定義されるサブバンドは、周波数の非隣接セットを含んでよい。いくつかの実施形態において、それらの構成周波数は、直接的なユーザ仕様に従うか、又は入力信号に応答するかのいずれかで、時間とともに変わりうる。
【0042】
左-右空間から中央-側方空間への空間座標変換
ワイドバンド又は個別のサブバンドのいずれかについて、圧縮は、入力音声信号の中央成分116及び側方成分118の一方又は両方に適用されうる。中央成分116及び側方成分118を生成するために、L/R-M/Sコンバータ102は、数式1によって定義される、左-右空間から中央-側方空間へと信号を変換するための変換Mを利用しうる。
【0043】
【0044】
中央-側方空間において、サブバンド空間処理、クロストーク処理(例えば、クロストークキャンセル又はクロストークシミュレーション)、クロストーク補償(例えば、クロストーク処理によって引き起こされるスペクトルアーチファクトを調整すること)、及び、中央又は側方成分におけるゲイン適用などを含む様々な処理が実行されうる。処理された中央及び側方成分は、左スピーカに対する左出力チャンネル及び右スピーカに対する右出力チャンネルとして、M/S-L/Rコンバータ108などによって、左-右空間に変換される。
【0045】
中央-側方空間から左-右空間へと信号を変換するための逆変換M-1は、数式2によって定義されうる。
【0046】
【0047】
数式1及び2は、計算複雑性を低減するために、順及び逆方向の変換の両方が2の平方根によってスケーリングされる真の直交形式より好まれることがある。
【0048】
優先圧縮
(サブバンド内での)一方のチャンネルの他方に対する優先度は、部分的に、ゲイン補正動作の順序を並べ替えることによって決定される。従って、これらの動作が現れる順序は、最終的なL/Rゲイン補正を除いて変わりうる。優先度階層がある場合において、低い優先度のチャンネルに対するゲイン係数は、ゲイン補正された高い優先度のチャンネルに関して定義される。優先度階層が完全に平面的である場合において、各チャンネルに対するゲイン係数は、補正されていないチャンネルのデータを参照して決定される。ゲイン補正計算ステップは、別の意味で、チャンネルベースのゲイン補正優先度をエンコードすることがある制約を含む。
【0049】
図4Aは、いくつかの実施形態による、L/R圧縮に続く、側方成分圧縮のブロック図である。最初に側方コンプレッサステージ402が、次いで、左-右コンプレッサステージ404がある。側方コンプレッサステージ402では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。L/Rコンプレッサステージ404では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
sの関数である。
【0050】
図4Bは、いくつかの実施形態による、L/R圧縮に続く、中央成分圧縮のブロック図である。最初に中央コンプレッサステージ406が、次いで、左-右コンプレッサステージ404がある。中央コンプレッサステージ406では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。L/Rコンプレッサステージ404では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、中央ゲイン係数α
mの関数である。
【0051】
図5は、いくつかの実施形態による、L/R圧縮に続く、並行する中央成分圧縮及び側方成分圧縮のブロック図である。最初に中央コンプレッサステージ504と並行する側方コンプレッサステージ502があり、並行するステージ502及び504に続いてL/Rコンプレッサステージ506がある。側方コンプレッサステージ502では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。中央コンプレッサステージ504では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。L/Rコンプレッサステージ506では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
s及び中央ゲイン係数α
mの関数である。
【0052】
図6Aは、いくつかの実施形態による、L/R圧縮に続く、中央成分圧縮に続く、側方成分圧縮のブロック図である。側方成分が圧縮についてのプライマリ成分であるため、最初に側方コンプレッサステージ602があり、中央成分が圧縮についてのセカンダリ成分であるため、次いで、中央コンプレッサステージ604があり、次いで、L/Rリミッタステージ606がある。側方コンプレッサステージ602では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。中央コンプレッサステージ604では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。中央ゲイン係数α
mは、側方ゲイン係数α
sの関数である。L/Rコンプレッサステージ606では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
s及び中央ゲイン係数α
mの関数である。
【0053】
図6Bは、いくつかの実施形態による、L/R圧縮に続く、側方成分圧縮に続く、中央成分圧縮のブロック図である。中央成分が圧縮についてのプライマリ成分であるため、最初に中央コンプレッサステージ604があり、側方成分が圧縮についてのセカンダリ成分であるため、次いで、側方コンプレッサステージ602があり、次いで、L/Rコンプレッサステージ606がある。中央コンプレッサステージ604では、中央ゲイン係数α
mが、音声信号の中央成分に適用される。側方コンプレッサステージ602では、側方ゲイン係数α
sが、音声信号の側方成分に適用される。側方ゲイン係数α
sは、中央ゲイン係数α
mの関数である。L/Rコンプレッサステージ606では、残余ゲイン係数α
lrが、音声信号の側方及び中央成分(又は、左及び右成分)に適用される。残余ゲイン係数α
lrは、側方ゲイン係数α
s及び中央ゲイン係数α
mの関数である。
【0054】
プライマリチャンネルゲイン補正
側方成分がプライマリ補正を受信し、中央成分がセカンダリ補正を受信する(例えば、
図6Aに示すような)例が、以下で議論される。中央成分及び側方成分のそれぞれの制御のための適切なゲイン制御係数が、中央及び側方エネルギーの両方に基づいて生成される。側方成分が補正についてのプライマリチャンネルであるとき、側方ゲイン係数α
sは、数式3によって定義される。
【0055】
【0056】
ここで、θLRは、L/R空間における閾値であり、r2は、側方成分m2についての圧縮比であり、mは、中央成分m1及び側方成分m2を含むM/S空間における音声フレームを表す2次元ベクトルであり、|m1|は、中央成分m1のピークであり、|m2|は、側方成分m2のピークである。圧縮比r2は、側方成分が振幅閾値を超えるときの、側方成分が左-右閾値θLRを超える量と、左-右閾値θLRの上までの側方成分の減衰量との間の関係を定義する。例えば、3:1の圧縮比r2は、側方成分が左-右閾値θLRを3dB超えるときに、側方成分が左-右閾値θLRの上1dBに減衰されることを意味する。
【0057】
数式3によって定義されるように、側方ゲイン係数αsは、最大値が1(例えば、ゲイン低減なし)であるが、ゲイン低減を適用するために1未満のことがある。側方ゲイン係数αsの値が小さくなるほど、側方成分に適用されるゲイン低減が大きくなる。側方ゲイン係数αsの定義は、中央ゲイン係数αmを含まず、その結果、圧縮について中央成分より側方成分が優先される。
【0058】
セカンダリチャンネルゲイン補正
セカンダリチャンネルのゲイン係数、この場合はαmの計算は、プライマリゲイン係数αmが与えられると、数式4によって定義されうる。
【0059】
【0060】
r1は、中央成分m1についての圧縮比である。圧縮比r1は、中央成分が振幅閾値を超えるときの、中央成分が左-右閾値θLRを超える量と、左-右閾値θLRの上までの中央成分の減衰量との間の関係を定義する。
【0061】
数式4によって定義されるように、中央ゲイン係数αmは、最大値が1(例えば、ゲイン低減なし)であるが、ゲイン低減を適用するために1未満のことがある。中央ゲイン係数αmの値が低いほど、中央成分に適用されるゲイン低減が大きくなる。セカンダリ中央ゲイン係数αmは、プライマリ側方ゲイン係数αsを利用して定義される。優先度に関して、中央成分がプライマリチャンネルであり、かつ側方成分がセカンダリチャンネルであるケースにおいては、ゲイン係数αs及びαm、m1、m2、r1、及びr2は、数式3及び4において交換されうる。
【0062】
残余チャンネルゲイン補正
αs及びαmそれぞれについてθs及びθmと表記される最小のゲイン係数が特定される場合、L/R空間において閾値θLRは、満たされないことがある。かくして、全てのチャンネル上で同時に動作する残余ゲイン係数は、L/R空間において閾値θLRを満たすために利用されうる。αlrと表記される、この残余ゲイン係数は、数式5によって定義されるように、L/R空間内で計算される。
【0063】
【0064】
ここで、rlrは、残余ゲイン補正のための圧縮比を定義し、Plrは、数式6によって定義されるように、システムの最悪の場合の瞬間的なピーク値を定義する。
【0065】
【0066】
ここで、Plrは、任意の平滑化の効果を除いて、出力が超えることがないダイナミックレンジ特性を指定する。
【0067】
ゲイン係数適用
ゲイン係数αs、αm、及びαlrが決定される際、それらは、数式7によって示されるように、中央成分m1及び側方成分m2に適用される。
【0068】
【0069】
最小の側方ゲイン係数θsは、側方ゲイン係数αsについての最小許容可能値であり、最小の中央ゲイン係数θmは、中央ゲイン係数αmについての最小許容可能値である。
【0070】
数式7によって定義されるように、側方ゲイン係数αsが、最小の側方ゲイン係数θs以上である場合、側方ゲイン係数αsが側方成分m2に適用される一方、ゲイン係数1(又はゲインなし)が中央成分m1に適用される。側方成分がプライマリ成分であり、側方ゲイン係数αsの適用が、L/R空間で閾値θLRを満たすのに十分であるため、中央成分を補正する必要がない。
【0071】
側方ゲイン係数αsが最小の側方ゲイン係数θsより小さく、かつ、中央ゲイン係数αmが最小の中央ゲイン係数θm以上である場合、最小の側方ゲイン係数θsは、側方成分m2に適用され、中央ゲイン係数αmは、中央成分m1に適用される。
【0072】
側方ゲイン係数αsが最小の側方ゲイン係数θsより小さく、かつ、中央ゲイン係数αmも最小の中央ゲイン係数θmより小さい場合、最小の側方ゲイン係数θsが、側方成分m2に適用され、最小の中央ゲイン係数θmが、中央ゲイン成分m1に適用され、ゲイン係数αlrが、中央成分m1及び側方成分m2のそれぞれに適用されうる。残余ゲイン係数αlrは、代替的に、中央-側方空間から左-右空間への中央及び側方成分の変換後に、左及び右チャンネルに適用されてよい。
【0073】
ゲイン低減の2つの(例えば、中央及び側方)ステージに同じ優先度が与えられる場合において、ゲイン補正係数は、互いに並行に計算され、αlrは、数式8によって定義されるように、最悪の場合の(補正後の)ピークがθLRを超える場合にのみ適用される。
【0074】
【0075】
メイクアップゲイン
数式3、4、及び5において、上で議論されたゲイン係数αs、αm、及びαlrは、空間認識方式において実行できるダイナミックレンジ処理の例として、ダイナミックレンジ圧縮を提供する。計算されると、ゲイン係数は、下方にダイナミックレンジを圧縮する。代替は、より静かな信号を上方に圧縮することであるだろう。これらのケースは、制御パラメータに基づいて計算される最後のゲイン係数を除いて、実質的に同一である。このゲイン係数は、空間成分と並行して適用でき、又は最小のゲイン係数は、空間成分に等しく適用でき、その結果、サウンドステージを歪めること又はクリッピングすることなしに、最大のゲインが信号に適用できる。並行の場合において、サウンドステージ拡張、アーチファクト補正などのために、上方への圧縮が静的な空間ゲイン又は等化の代わりに利用できる。メイクアップゲインは、数式9によって定義されうる。
【0076】
【0077】
ここで、μは、r及びθの成分に一致する適切な成分に対するメイクアップゲイン係数である。rlrが、メイクアップゲインを計算しているrより大きい場合、数式9において、rをrlrに置き換える。全ての次元にわたって結合(スカラ)μが必要である場合は、μの最小係数を選択する。
【0078】
側鎖処理
図7は、いくつかの例示的な実施形態による、側鎖処理のための空間コンプレッサ700のブロック図である。空間コンプレッサ700は、空間コンプレッサ104の例である。側鎖処理は、特に、低い周波数によって引き起こされるポンピングアーチファクトがクロスステージに存在する場合に役に立つ。音声ミキシングの一般的な慣習は、低い(例えば、バス)周波数を中央に配置することを含みうるので、中央成分の低い周波数は、側方成分の低い周波数より大きなゲイン低減を必要とすることがある。
【0079】
音声コンプレッサ700は、中央ピーク抽出機702と、側方ピーク抽出機704と、中央ゲインプロセッサ706と、側方ゲインプロセッサ708と、中央ミキサ710と、側方ミキサ712と、スイッチ752と、スイッチ754とを含む。
【0080】
中央ピーク抽出器702は、選択的に、中央サブバンド成分116又は中央成分に対する制御信号140のうちの1つを、スイッチ752を介してワイドバンドプロセッサ182から受信する。中央ピーク抽出機702は、中央サブバンド成分116又は制御信号140のピーク値を表す中央ピーク714を決定する。中央ピーク抽出器702は、中央ピーク714を、中央ゲインプロセッサ706及び側方ゲインプロセッサ708に提供する。側方ピーク抽出器704は、選択的に、側方サブバンド成分118又は側方成分に対する制御信号142を、スイッチ754を介してワイドバンドプロセッサ182から受信する。側方ピーク抽出機704は、側方サブバンド成分118又は制御信号142のピーク値を表す側方ピーク716を決定する。側方ピーク抽出機704は、側方ピーク716を、中央ゲインプロセッサ706及び側方ゲインプロセッサ708に提供する。
【0081】
中央ゲインプロセッサ706は、中央ピーク714、側方ピーク716、及び左-右空間における閾値θLRに基づいて、ゲイン係数718を決定する。ゲイン係数718は、中央ゲイン係数αmを含んでよい。側方ゲインプロセッサ708は、中央ピーク714、側方ピーク716、及び左-右空間における閾値θLRに基づいて、ゲイン係数720を決定する。ゲイン係数720は、側方ゲイン係数αsを含んでよい。
【0082】
側鎖処理は、中央ゲイン係数αm及び側方ゲイン係数αsに利用される計算に基づいて、中央又は側方成分を制限するための異なる優先度を組み込んでよい。追加の側鎖処理を制御信号に適用することによって、以下の操作行列を導出しうる。
【0083】
【0084】
ここで、各エントリは、独立の演算子である。演算子行列は、ブロードバンド空間特性だけでなく、周波数成分などの他の膨大な数の特性に基づいてゲイン制御に優先順位を付ける機能を提供する。エントリMMは、中央成分116による中央ゲイン係数αmの制御を定義する演算子である。MSは、側方成分116による側方ゲイン係数αsの制御を定義する演算子である。SMは、側方成分118による中央ゲイン係数αmの制御を定義する演算子である。最後に、SSは、側方成分118による側方ゲイン係数αsの制御を定義する演算子である。
【0085】
優先度が側鎖処理で実装される例において、側方ゲインプロセッサ708は、数式3を利用して、側方ゲイン係数αsを含むゲイン係数720を決定し、中央ゲインプロセッサ706は、数式4を利用して、中央係数αmを含むゲイン係数718を決定する。
【0086】
中央ミキサ710は、中央サブバンド成分116及びゲイン係数718を受信し、これらの値を乗算して、調整された中央サブバンド成分120を生成する。側方ミキサ712は、側方サブバンド成分118及びゲイン係数720を受信し、これらの値を乗算して、調整された側方サブバンド成分122を生成する。
【0087】
空間コンプレッサ700は、n個のサブバンドのそれぞれの、中央サブバンド成分116及び側方サブバンド成分118に対する処理を実行しうる。異なるサブバンドは、異なるゲイン係数を含みうる。音声信号が複数のサブバンドに分離されないときなど、いくつかの実施形態において、空間コンプレッサ700は、ワイドバンド中央及びワイドバンド側方成分の処理を実行する。中央ピーク抽出器702及び側方ピーク抽出機704の各入力で、スイッチ752及び754は、空間コンプレッサ700の2つの別個の設定の間で選択する。中央ピーク抽出器702及び側方ピーク抽出機704は、制御信号140及び142から、又は、中央サブバンド成分116及び側方サブバンド成分118から、中央ピーク714及び側方ピーク716を導出しうる。このようにして制御信号140及び142が成分116及び118から分離され、中央ミキサ710及び側方ミキサ712で減衰されるとき、その結果は「側鎖」圧縮として知られる。
【0088】
制御信号平滑化
上で説明されたゲイン制御式は、瞬間のゲイン値に関係する。これらの値が平滑化なしにサンプル毎に適用される場合、その結果は、適切なサブ空間におけるハードクリッピングを効果的に制御するだろう。結果として得られるアーチファクトは、実質的に、ゲイン制御機能の高周波変調である。これらのアーチファクトを低減するために、非線形ローパスフィルタは、ゲイン制御関数の勾配を制限することができる。完全に因果的なゲイン制御応答が必要な場合、下方クリッピングが直ちに生じうるが、上方への動きは、いくつかの最大勾配に制限される。制御バッファにおける先読みが可能な場合、最も大きな負の下方勾配制限(先読み長によって決定されるもの)が適用され、さらに適切なピーク値で対象の制御ゲインに達しうる。いずれの変量も、アーチファクトを音楽サウンドの一時的なステージにシフトし、それらは、知覚的にマスクされ、同時にそれらのバンド幅を低減する。いくつかの実施形態において、多変量(例えば、スカラ値ではなく)平滑化関数が、空間認識圧縮を提供するために利用される。
【0089】
例示的なプロセス
図8は、いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセス800のフロー図である。プロセス800は、音声信号の中央及び側方成分を制御することによって、音声信号が左-右空間における閾値を超えるときに、音声信号を圧縮するステップを提供する。プロセス800は、音声信号を複数のサブバンドに分離しないワイドバンド処理を利用する。プロセス800は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0090】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、805、左-右閾値を決定する。左-右閾値θLRは、左及び右チャンネルのそれぞれに許容される最大レベルを定義する。例えば、左チャンネルの絶対値も右チャンネルの絶対値も左-右閾値を超えるべきではない。左-右閾値は、ユーザ入力によって又はプログラム的に定義されうる。以下でより詳細に議論されるように、圧縮は、中央-側方空間内で音声信号に適用され、左チャンネル及び右チャンネルのピークが左-右閾値未満であることを保証する。
【0091】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、810、いつ音声信号の左-右ピークエネルギーが左-右閾値を超えるかを決定する。例えば、音声処理システムは、いつ左チャンネルが左-右閾値を超えるかを決定し、いつ右チャンネルが左-右閾値を超えるかを決定する。
【0092】
音声処理システム(例えば、L/R-M/Sコンバータ102)は、815、音声信号から中央成分及び側方成分を生成する。例えば、左チャンネルのピーク又は右チャンネルのピークのいずれかが左-右閾値を超えると決定することに応答して、左-右空間内の音声信号は、空間圧縮のための中央-側方空間に変換されうる。中央成分及び側方成分は、数式1で定義されるように、音声信号の左及び右チャンネルから決定されうる。中央成分及び側方成分は、中央-側方空間における音声信号を表し、左チャンネル及び右チャンネルは、左-右空間における音声信号を表す。中央成分は、左チャンネルと右チャンネルとの和を含みうる。側方成分は、左チャンネルと右チャンネルとの差を含みうる。いくつかの実施形態において、空間圧縮は、左及び右チャンネルのピークが左-右閾値を超えないときにバイパスされうる。
【0093】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、820、圧縮特性を決定する。圧縮特性は、音声信号の左、右、中央、又は側方成分について定義されうる。これらの特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ(例えば、アタック/リリース時間など)などの、ダイナミックレンジ制御に関連するパラメータを含みうる。
【0094】
いくつかの実施形態において、音声処理システムは、中央成分と側方成分の間の空間圧縮の優先度を実装する。例えば、圧縮特性は、中央成分と側方成分との間の圧縮の優先度を定義する成分優先度設定を含みうる。空間圧縮優先度設定のいくつかの実施形態は、中央のみ、側方のみ、側方の前に中央、又は中央の前に側方の指定を含みうる。両方の空間成分が制御される実施形態において、所与の優先度指定の範囲内でのさらなる変形は、各成分に適用されうる処理の最大量を決定することによって導出されうる。
【0095】
音声処理システム(例えば、音声コンプレッサ180の空間コンプレッサ104)は、825、中央成分又は側方成分の少なくとも1つを制御して圧縮特性に一致させる。例えば、音声処理システムは、数式3によって定義されるように、側方成分に対する側方ゲイン係数αsを決定し、数式4によって定義されるように、中央成分に対する中央ゲイン係数αm
を決定し、これらのゲイン係数を側方及び中央成分にそれぞれ適用する。音声処理システムは、入ってくる中央成分116及び側方成分118のゲインを処理して、LR閾値θLRによって特定される出力特性及び圧縮特性を、特定された制約の範囲内で可能な最大限度に適合させる。いくつかの実施形態において、これらの制約は、個別の成分に対するゲイン低減バジェットなどのパラメータを含む。優先度を含む実施形態において、制約は、追加的に、ある成分の制御が他の制御より優先される、処理の論理的な順序を含みうる。実施形態が、中央及び側方成分116及び118の間で所与の優先度を指定するかどうかによらず、両方の成分は、両方のゲイン係数の決定において利用されうる。数式3及び4において、これらの成分は、変数m1及びm2として現れる。処理の論理的な順序は、プライマリ成分に適用されるプライマリゲイン係数の決定においてはセカンダリゲイン係数がないことによって、セカンダリ成分に適用されるセカンダリゲイン係数の決定においてはプライマリゲイン係数がないことによって決定される。いくつかの実施形態において、圧縮特性に適合するように、中央成分又は側方成分の1つだけが制御される。
【0096】
音声処理システム(例えば、音声コンプレッサ180のL/Rコンプレッサ106)は、830、残りのピークエネルギーが左-右空間内で対称的に制御されるように、中央及び側方成分を制御する。例えば、中央ゲイン係数αmは、最小の中央ゲイン係数θmによって制限されてよく、及び/又は側方ゲイン係数αsは、最小の側方ゲイン係数θsによって制限されてよい。かくして、中央ゲイン係数αm及び/又は側方ゲイン係数αsの適用は、左-右閾値θLRを満たすのに十分でないことがある。音声処理システムは、数式5によって定義されるように、L/Rゲイン係数αlrを決定し、ゲイン係数αlrを側方及び中央成分に適用して残りのピークエネルギーを制御する。他の例において、L/Rゲイン係数αlrは、側方及び中央成分を左-右空間に変換した後で、左及び右成分に適用される。
【0097】
音声処理システム(例えば、M/S-L/Rコンバータ108)は、835、中央成分及び側方成分から左出力チャンネル及び右出力チャンネルを生成する。左及び右出力チャンネルはそれぞれ、中央成分及び側方成分のそれぞれに適用される制御から、左-右閾値未満に制限される。
【0098】
プロセス800のステップは、異なる順序で実行されてよい。例えば、中央及び側方成分は、いつ左-右ピークエネルギーが左-右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左-右空間での対称的な残りのピークエネルギーの制御は、中央成分及び側方成分の左-右成分への変換後に実行されてよい。ここで、制御は、中央-側方空間内の中央及び側方成分ではなく、左-右空間内の左及び右成分に適用されてよい。
【0099】
図9は、いくつかの実施形態による、音声信号を空間的に圧縮するためのプロセス900のフロー図である。プロセス900は、音声信号の中央及び側方成分を制御することによって、音声信号が左-右空間において左-右閾値θ
LRを超えたときに、音声信号を圧縮するステップを提供する。プロセス900は、音声信号を複数のサブバンドに分離するマルチバンド処理を利用し、異なるサブバンドに対して異なる空間圧縮を適用できる。プロセス900は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0100】
音声処理システム(例えば、周波数バンドデバイダ162)は、905、音声信号をサブバンドに分離する。例えば、音声処理システムは、サブバンドのそれぞれに関連するクロスオーバ周波数を決定し、クロスオーバ周波数に従って、音声信号をサブバンド成分に分離する。
【0101】
ステップ910~940において、音声処理システムは、サブバンドを別々に処理する。各サブバンドは、左成分及び右成分を含んでよい。空間圧縮は、1つ以上のサブバンドに適用されうる。いくつかの実施形態において、複数のサブバンドが並行に処理される。
図8に示したプロセス800におけるワイドバンド信号についてのステップ805~830に関する議論はそれぞれ、各サブバンドについてのステップ910~935に適用されうる。
【0102】
音声処理システム(例えば、音声コンプレッサ180)は、910、サブバンドについての左-右閾値を決定する。サブバンドについての左-右閾値θLRは、サブバンドの左及び右成分のそれぞれについて許容される最大レベルを定義する。異なるサブバンドは、異なる左-右閾値を有してよい。
【0103】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、915、いつサブバンドの左-右ピークエネルギーが左-右閾値を超えるかを決定する。例えば、音声処理システムは、いつサブバンドの左成分がサブバンドの左-右閾値を超えるかを決定し、いつサブバンドの右成分が左-右閾値を超えるかを決定する。
【0104】
音声処理システム(例えば、L/R-M/Sコンバータ102)は、920、サブバンドの左及び右成分から中央サブバンド成分及び側方サブバンド成分を生成する。例えば、サブバンドの左成分のピーク又は右成分のピークのいずれかが左-右閾値を超えると決定することに応答して、左-右空間内のサブバンド成分は、空間圧縮のための中央-側方空間に変換されうる。中央サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの和を含んでよく、側方サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの差を含んでよい。
【0105】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、925、サブバンドに対する圧縮特性を決定する。圧縮特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ(例えば、アタック/リリース時間など)を含んでよい。いくつかの実施形態において、圧縮特性は、中央サブバンド成分と側方サブバンド成分との間の圧縮の優先度を定義する成分優先度設定を含んでよい。異なるサブバンドは、異なる圧縮特性を利用しうる。
【0106】
音声処理システム(例えば、音声コンプレッサ180の空間コンプレッサ104)は、930、中央サブバンド成分又は側方サブバンド成分の少なくとも1つを制御して圧縮特性に一致させる。
【0107】
音声処理システム(例えば、音声コンプレッサ180のL/Rコンプレッサ106)は、935、残りのピークエネルギーが左-右空間内で対称的に制御されるように、中央及び側方サブバンド成分を制御する。
【0108】
音声処理システム(例えば、M/S-L/Rコンバータ108)は、940、中央サブバンド成分及び側方サブバンド成分から、左サブバンド成分及び右サブバンド成分を生成する。
【0109】
音声処理システム(例えば、周波数バンドデバイダ164)は、945、複数のサブバンドの左サブバンド成分を結合して左出力チャンネルにし、複数のサブバンドの右サブバンド成分を結合して右出力チャンネルにする。各サブバンドは、各サブバンドについての左サブバンド成分及び右サブバンド成分を含んでよく、サブバンドは、左及び右出力チャンネルを生成するために結合される。
【0110】
プロセス900のステップは、異なる順序で実行されてよい。例えば、サブバンドの中央及び側方サブバンド成分は、いつ左-右ピークエネルギーがサブバンドの左-右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左-右空間における残りのピークエネルギーの対称的な制御は、中央サブバンド成分及び側方サブバンド成分の左及び右サブバンド成分への変換後に実行されてよい。ここで、制御は、中央-側方空間内の中央及び側方成分ではなく、左-右空間内の左及び右成分に適用されてよい。
【0111】
図10は、いくつかの実施形態による、サブバンドを利用して音声信号を空間的に圧縮するためのプロセス1000のフロー図である。プロセス1000は、ワイドバンド音声信号から導出される制御信号を利用して各サブバンドを制御するクロスバンド処理を含む。音声信号は、複数のサブバンドに分離され、異なる空間圧縮が、サブバンドについての制御信号に基づいて、異なるサブバンドに対して適用されうる。プロセス1000は、音声信号の中央及び側方成分を制御することによって、音声信号が左-右空間における閾値θ
LRを超えるときに、音声信号を圧縮するステップを提供する。プロセス1000は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0112】
音声処理システム(例えば、周波数バンドデバイダ162又はコントローラ110)は、1005、音声信号をサブバンドに分離する。例えば、音声処理システムは、サブバンドのそれぞれに関連付けられたクロスオーバ周波数を決定し、クロスオーバ周波数に従って、音声信号をサブバンド成分に分離する。ステップ1010-1045において、音声処理システムは、複数のサブバンドを別々に処理する。
【0113】
音声処理システム(例えば、ワイドバンドプロセッサ182又はコントローラ110)は、1010、ワイドバンド音声信号を処理することによって、サブバンドについての制御信号を生成する。制御信号は、サブバンドの圧縮に関する所望の信号レベルを定義しうる。いくつかの実施形態において、ワイドバンド音声信号の処理は、側鎖行列を利用して実行され、ワイドバンド処理は、ステップ1015-1020における個別のサブバンドに対する処理と並行して実行される。異なるサブバンドは、異なる制御信号を含んでよい。いくつかの実施形態において、制御信号は、ワイドバンド音声信号上での、等化又はフィルタの適用などの変換から導出される。次いで、側鎖行列は、それぞれが中央ゲインプロセッサ152又は側方ゲインプロセッサ154を制御しうる制御信号から、新たな中央-側方成分を導出するためのL/R-M/Sコンバータを利用して構築されうる。次いで、中央ゲインプロセッサ152及び側方ゲインプロセッサ154は、それらが制御信号の特性を有するかのように、側鎖行列によって決定される方式で、中央サブバンド成分116及び側方サブバンド成分118を処理することができる。制御信号が、左及び右チャンネル112及び114から導出され、側鎖行列、LR閾値θLR、及び圧縮特性のうちの1つ以上によって特定される方式でさらに処理されるため、音声処理システムは、それによって、サブバンドの外側の情報、又は、制御されるべき中央サブバンド成分116及び側方サブバンド成分118の空間位置に応答しうる。
【0114】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、1015、サブバンドに対する左-右閾値を決定する。サブバンドに対する左-右閾値は、サブバンドの左及び右成分のそれぞれに許容される最大レベルを定義する。異なるサブバンドは、異なる左-右閾値を有してよい。
【0115】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、1020、いつサブバンドの左-右ピークエネルギーが左-右閾値を超えたかを決定する。例えば、音声処理システムは、いつサブバンドの左成分がサブバンドの左-右閾値を超えたかを決定し、いつサブバンドの右成分が左-右閾値を超えたかを決定する。
【0116】
音声処理システム(例えば、L/R-M/Sコンバータ102)は、1025、サブバンドの左及び右成分から、中央サブバンド成分及び側方サブバンド成分を生成する。例えば、サブバンドの左成分のピーク又は右成分のピークのいずれかが左-右閾値を超えると決定することに応答して、左-右空間におけるサブバンド成分は、空間圧縮のために、中央-側方空間に変換されうる。中央サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの和を含んでよく、側方サブバンド成分は、サブバンド成分の左チャンネルと右チャンネルとの差を含んでよい。
【0117】
音声処理システム(例えば、音声コンプレッサ180又はコントローラ110)は、1030、サブバンドの圧縮特性を決定する。圧縮特性は、圧縮比、メイクアップゲイン設定、又はエンベロープパラメータ(例えば、アタック/リリース時間など)を含んでよい。いくつかの実施形態において、圧縮特性は、中央サブバンド成分と側方サブバンド成分との間の圧縮の優先度を定義する成分優先度設定を含んでよい。異なるサブバンドは、異なる圧縮特性を利用してよい。
【0118】
音声処理システム(例えば、音声コンプレッサ180の空間コンプレッサ104)は、1035、中央サブバンド成分又は側方サブバンド成分の少なくとも1つを制御して、制御信号に基づいて圧縮特性に一致させる。制御信号は、ワイドバンド側鎖信号レベルを定義してよい。側鎖行列(中央成分を制御する側鎖信号の中央成分、中央成分を制御する側鎖信号の側方成分、側方成分を制御する側鎖信号の中央成分、及び側方成分を制御する側鎖信号の側方成分の重みを決定すること)は、(例えば、中央ゲインプロセッサ152又は側方ゲインプロセッサ154によって)それぞれが処理されるべき信号の中央又は側方成分を制御しうる制御信号から、新たな中央-側方成分を導出するために、L/R-M/Sコンバータを利用して構築されうる。次いで、中央サブバンド成分116及び側方サブバンド成分118のいずれかが、それがワイドバンド側鎖信号の特性を有するかのように、側鎖行列、LR閾値θLR、圧縮特性のうちの1つ以上によって特定される方式で、(例えば、中央ゲインプロセッサ152又は側方ゲインプロセッサ154によって)処理されうる。この制御信号は、ワイドバンド音声信号(例えば、チャンネル112及び114を含む)から導出され、側鎖行列によって決定される方式でさらに処理されるため、音声処理システムは、それによって、サブバンドの外側の情報、又は、制御されるべき中央サブバンド成分116及び側方サブバンド成分118の空間位置に応答しうる。
【0119】
音声処理システム(例えば、音声コンプレッサ180のL/Rコンプレッサ106)は、1040、残りのピークエネルギーが左-右空間内で対称的に制御されるように、中央及び側方サブバンド成分を制御する。
【0120】
音声処理システム(例えば、M/S-L/Rコンバータ108)は、1045、中央サブバンド成分及び側方サブバンド成分から、左サブバンド成分及び右サブバンド成分を生成する。
【0121】
音声処理システム(例えば、周波数バンドコンバイナ164)は、1050、複数のサブバンドの左サブバンド成分を結合して左出力チャンネルとし、複数のサブバンドの右サブバンド成分を結合して右出力チャンネルとする。各サブバンドは、各サブバンドについての左サブバンド成分及び右サブバンド成分を含んでよく、サブバンドは、左及び右出力チャンネルを生成するために結合される。
【0122】
プロセス1000のステップは、異なる順序で実行されてよい。例えば、サブバンドの中央及び側方サブバンド成分は、いつ左-右ピークエネルギーがサブバンドの左-右閾値を超えるかを決定する前に生成されてよい。いくつかの実施形態において、左-右空間における対称的な残りのピークエネルギーの制御は、中央サブバンド成分及び側方サブバンド成分の左及び右サブバンド成分への変換後に実行されてよい。ここで、制御は、中央-側方空間内の中央及び側方成分ではなく、左-右空間内の左及び右成分に適用されてよい。
【0123】
図11は、いくつかの例示的な実施形態による、異なる音声座標系を利用して音声信号を空間的に圧縮するためのプロセス1100のフロー図である。プロセス1200は、第2の音声座標系において音声信号が振幅閾値を超えるときに、第1の音声座標系における音声信号の第1及び第2の成分を制御することによって音声信号を圧縮するステップを提供する。プロセス1200は、より少ない又は追加的なステップを有してよく、ステップは、異なる順序で実行されてよい。
【0124】
音声処理システム(例えば、音声処理システム100)は、1105、第2の音声座標系における音声信号の第3の成分及び第4の成分から、第1の音声座標系における第1の成分及び第2の成分を生成する。
図1~
図10に関連して上で議論されたように、第1の音声座標系は、中央-側方音声座標系であってよく、第2の音声座標系は、左-右音声座標系であってよい。第1及び第2の成分は、中央及び側方成分を含んでよい。第3及び第4の成分は、左及び右成分を含んでよい。他の例において、第1の音声座標系は、左-右音声座標系であってよく、第2の音声座標系は、中央-側方音声座標系であってよい。第1及び第2の成分は、左及び右成分を含んでよい。第3及び第4の成分は、中央及び側方成分を含んでよい。いくつかの実施形態において、第1、第2、第3、及び第4の成分は、サブバンド成分である。
【0125】
音声処理システムは、1110、圧縮を適用するために、第3の成分及び第4の成分のそれぞれに対するレベルを定義する第2の音声座標系における振幅閾値を決定する。振幅閾値は、振幅閾値を満たすために圧縮にゲイン係数が適用される音声座標系とは異なる音声座標系において定義される。
【0126】
音声処理システムは、1115、第1の圧縮比を利用して、第1の成分に対する第1のゲイン係数を生成する。第1の圧縮比は、第1の成分が振幅閾値を超えるとき、第1の成分が振幅閾値を超える量と、振幅閾値の上までの第1の成分の減衰量との間の関係を定義しうる。第1のゲイン係数は、第1の成分ゲイン係数(例えば、側方成分が第1の成分であるときにはαs、又は中央成分が第1の成分であるときにはαm)を含んでよい。他の例において、第1のゲイン係数は、第1の成分ゲイン係数及び残余ゲイン係数(例えば、αlr)を含んでよい。残余ゲイン係数の利用は、第1の成分ゲイン係数と、最小の第1の成分ゲイン係数(例えば、側方成分が第1の成分であるときにはθs、又は中央成分が第1の成分であるときにはθm)との間の比較に依存する。
【0127】
音声処理システムは、1120、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるときに、調整された第1の成分を生成するために、第1のゲイン係数を第1の成分に適用する。第1のゲイン係数の第1の成分への適用は、第3又は第4の成分が振幅閾値を超えるときに第1の成分が減衰される結果となる。
【0128】
音声処理システムは、1125、第2の圧縮比を利用して、第2の成分に対する第2のゲイン係数を生成する。第2の圧縮比は、第2の成分が振幅閾値を超えるとき、第2の成分が振幅閾値を超える量と、振幅閾値の上までの第2の成分の減衰量との間の関係を定義しうる。
【0129】
第2のゲイン係数は、第2の成分ゲイン係数(例えば、側方成分が第2の成分であるときにはαs、又は中央成分が第2の成分であるときにはαm)を含んでよい。他の例において、第2のゲイン係数は、第2の成分ゲイン係数と、残余ゲイン係数(例えば、αlr)を含んでよい。残余ゲイン係数の利用は、第2の成分ゲイン係数と、最小の第2の成分ゲイン係数(例えば、側方成分が第2の成分であるときにはθs、又は中央成分が第2の成分であるときにはθm)との間の比較に依存する。
【0130】
音声処理システムは、1130、第3の成分又は第4の成分のうちの1つが振幅閾値を超えるとき、調整された第2の成分を生成するために、第2のゲイン係数を第2の成分に適用する。第2のゲイン係数の第2の成分への適用は、第3又は第4の成分が振幅閾値を超えるときに第2の成分が減衰される結果となる。
【0131】
いくつかの実施形態において、第1の成分は、第2の成分より高い圧縮についての優先度を有する。ここで、第2のゲイン係数は、第1のゲイン係数を利用して生成される。いくつかの実施形態において、最小の第1のゲイン係数又は最小の第2のゲイン係数は、第1及び第2のゲイン係数の適用を制御するために利用されうる。最小のゲイン係数は、成分のゲイン低減バジェットを定義する。例えば、音声処理システムは、第1の成分に対して最小の第1のゲイン係数を、第2の成分に対して最小の第2のゲイン係数を決定し、第1の圧縮比を利用して生成された第1のゲイン係数の第1の成分ゲイン係数が最小の第1のゲイン係数を超えるかどうかを決定し、第2の圧縮比を利用して生成された第2のゲイン係数の第2の成分ゲイン係数が最小の第2のゲイン係数を超えるかどうかを決定してよい。
【0132】
第1の成分ゲイン係数が最小の第1のゲイン係数を超える場合、第1の成分ゲイン係数は、第1のゲイン係数として第1の成分に適用され、第2のゲイン係数は、第2の成分に適用されない。第1の成分ゲイン係数が最小の第1のゲイン係数を超えず、かつ第2の成分ゲイン係数が最小の第2のゲイン係数を超える場合、第1の成分ゲイン係数は、第1のゲイン係数として第1の成分に適用され、第2の成分ゲイン係数は、第2のゲイン係数として第2の成分に適用される。第1の成分ゲイン係数が最小の第1のゲイン係数を超えず、かつ第2の成分ゲイン係数が最小の第2のゲイン係数を超えない場合、第1の成分ゲイン係数及び残余ゲイン係数が、第1のゲイン係数として第1の成分に適用され、最小の第2のゲイン係数及び残余ゲイン係数が、第2のゲイン係数として第2の成分に適用される。
【0133】
いくつかの実施形態において、第1の成分は、第2の成分と等しい圧縮についての優先度を有する。第1の圧縮比を利用して生成された第1のゲイン係数の第1の成分ゲイン係数は、第2のゲイン係数とは無関係に生成され、第2の圧縮比を利用して生成された第2のゲイン係数の第2の成分ゲイン係数は、第1のゲイン係数とは無関係に生成される。さらに、音声処理システムは、第1の成分ゲイン係数の適用後の第1の成分と、第2の成分ゲイン係数の適用後の第2の成分との和が振幅閾値を超えるかどうかを決定してよい。第1及び第2のゲイン係数はそれぞれ、和が振幅閾値を超えることに応答して、残余ゲイン係数を含んでよい。
【0134】
いくつかの実施形態において、第1、第2、第3、及び第4の成分が、サブバンドのサブバンド成分であることなど、第1の圧縮比及び第2の圧縮比(及び他の圧縮特性)は、サブバンドを含む音声信号の複数のサブバンドに基づいて決定されうる。いくつかの実施形態において、ワイドバンド音声信号は、1つ以上のサブバンドに利用される圧縮特性を決定するために利用されうる。
【0135】
いくつかの実施形態において、平滑化関数は、圧縮のアーチファクトを低減するために、第1又は第2のゲイン係数に適用されうる。
【0136】
音声処理システムは、1135、第1の音声座標系における、調整された第1の成分及び調整された第2の成分を利用して、第2の音声座標系における第1の出力チャンネル及び第2の出力チャンネルを生成する。調整された第1及び第2の成分は、ゲイン係数の適用後の第1及び第2の成分である。いくつかの実施形態において、第1の成分又は第2の成分のみが調整され、出力チャンネルは、1つだけの調整された成分と、調整されていない成分とを利用して生成されうる。
【0137】
例示的なワイドバンドプロセッサ
図12は、いくつかの実施形態による、ワイドバンドプロセッサ182のブロック図である。ワイドバンドプロセッサ182は、L/R-M/Sコンバータ1202と、ワイドバンド処理要素1204とを含む。L/R-M/Sコンバータ1202は、左入力チャンネル112及び右入力チャンネル114を受信し、中央成分1206及び側方成分
1208を生成する。ワイドバンド処理要素1204は、中央成分1206を処理して制御信号140を生成し、側方成分1208を処理して制御信号142を生成する。ワイドバンド処理要素1204は、中央成分1206及び側方成分1208のそれぞれに対する等化フィルタを含んでよい。ワイドバンド処理要素1204は、制御信号140を、空間コンプレッサ104の中央ゲインプロセッサ152に提供し、制御信号142を、空間コンプレッサ104の側方ゲインプロセッサ154に提供する。例えば、ワイドバンド処理要素は、150~250Hz範囲を強調するM/S等化器を含んでよく、それは、500~1000Hzに及ぶサブバンドにおける側方ゲイン係数α
sを制御するために利用されうる。その後、空間コンプレッサ700において、制御信号140及び142は、次いで、中央ピーク抽出器702及び側方ピーク抽出器704によってそれぞれ解釈され、数式3及び4を利用して、中央及び側方サブバンド成分116及び118に適用されるゲインを決定するピーク値714及び716を計算する。これは、サブバンドの外側からの情報が、サブバンドに適用される動的処理アルゴリズムに影響しうる1つの方法である。
【0138】
例示的なコンピュータ
図13は、いくつかの実施形態による、コンピュータ1300のブロック図である。コンピュータ1300は、音声処理システムを実装する回路の例である。チップセット1304に結合された少なくとも1つのプロセッサ1302が描かれている。チップセット1304は、メモリコントローラハブ1320及び入力/出力(I/O)コントローラハブ1322を含む。メモリ1306及びグラフィックスアダプタ1312は、メモリコントローラハブ1320に結合され、ディスプレイデバイス1318は、グラフィックスアダプタ1312に結合される。ストレージデバイス1308、キーボード1310、ポインティングデバイス1314、及びネットワークアダプタ1316は、I/Oコントローラハブ1322に結合される。コンピュータ1300は、様々なタイプの入力又は出力デバイスを含んでよい。コンピュータ1300の他の実施形態は、異なるアーキティクチャを有する。例えば、メモリ1306は、いくつかの実施形態において、プロセッサ1302に直接結合される。
【0139】
ストレージデバイス1308は、ハードドライブ、コンパクトディスクリードオンリーメモリ(CD-ROM)、DVD、又はソリッドステートメモリデバイスなどの1つ以上の非一時的なコンピュータ可読記憶媒体を含む。メモリ1306は、プロセッサ1302によって利用されるプログラムコード(1つ以上の命令が含まれる)及びデータを把持する。プログラムコードは、
図1~
図11で説明された処理態様に対応しうる。
【0140】
ポインティングデバイス1314は、コンピュータシステム1300へデータを入力するためにキーボード1310と組み合わせて利用される。グラフィックスアダプタ1312は、イメージ及び他の情報をディスプレイデバイス1318に表示する。いくつかの実施形態において、ディスプレイデバイス1318は、ユーザ入力及び選択を受信するためのタッチスクリーン機能を含む。ネットワークアダプタ1316は、コンピュータシステム1300をネットワークに結合させる。コンピュータ1300のいくつかの実施形態は、
図13に示したものとは異なる及び/又は他のコンポーネントを有してよい。
【0141】
追加的な考察
開示された構成のいくつかの例示的な利益及び利点は、中央-側方空間において適用されるゲイン係数を利用して、左-右空間内において音声信号を圧縮して、圧縮のアーチファクトを異なる空間位置にシフトすること、及びユーザによって特定される設定を含む。音声信号の中央又は側方成分を処理することは、様々なタイプの音声処理において利用され、本明細書で議論された空間優先圧縮は、中央/側方空間における、そのような処理技術との計算効率の高い統合を提供する。これらの設定は、コンプレッサが異なる動作のレジームに入る閾値、及びそれらの動作のレジームの論理的な順序として、最低レベルで特定される。より高いレベルでは、これは、様々なサウンドステージの歪みのアーチファクトと、従来のダイナミックレンジ処理のアーチファクトとの間のトレードオフとして理解できる。圧縮についての本明細書で議論された技術は、拡張閾値を下回る場合の音声信号の拡張にも適用されうる。拡張は、音声信号に対して単独で実行しても、圧縮と組み合わせて実行してもよい。
【0142】
特定の実施形態及び応答が図示及び説明されたが、発明は、本明細書に開示された正確な構造及びコンポーネントに限定されず、当業者に明らかである様々な修正、変更、及び変形は、本開示の意図及び範囲を逸脱することなく、配置、動作、及び、本明細書で開示された方法及び装置の詳細に対してなされうることが理解されよう。
【国際調査報告】