(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-25
(45)【発行日】2024-11-05
(54)【発明の名称】オーディオコーデックにおける会話拡張
(51)【国際特許分類】
G10L 21/0364 20130101AFI20241028BHJP
G10L 25/78 20130101ALI20241028BHJP
【FI】
G10L21/0364
G10L25/78
(21)【出願番号】P 2021560874
(86)(22)【出願日】2020-04-15
(86)【国際出願番号】 EP2020060534
(87)【国際公開番号】W WO2020212390
(87)【国際公開日】2020-10-22
【審査請求日】2023-04-13
(32)【優先日】2019-04-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-04-15
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2019-08-05
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ゴルロフ,スタニスラフ
(72)【発明者】
【氏名】サミュエルソン,レイフ ジョナス
(72)【発明者】
【氏名】ホエリッヒ,ホルガー
(72)【発明者】
【氏名】フリードリッヒ,トビアス
【審査官】大野 弘
(56)【参考文献】
【文献】特表2019-508947(JP,A)
【文献】特表2010-518455(JP,A)
【文献】特開2014-089420(JP,A)
【文献】特開2015-022236(JP,A)
【文献】特開2014-139658(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0364
G10L 25/78
(57)【特許請求の範囲】
【請求項1】
オーディオ信号の会話拡張のための方法であって、
前記オーディオ信号を含む符号化ビットストリームを受信するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得するステップと、
前記オーディオ信号から前記会話成分を推定するステップと、
前記推定した会話成分にのみコンプレッサーを適用して、処理済み会話成分を生成するステップと、
前記処理済み会話成分にユーザの決定した利得を適用して、拡張した会話成分を提供するステップと、
会話の拡張したオーディオ信号を形成するために、前記拡張した会話成分を前記オーディオ信号と結合するステップと、
を含み、
前記拡張した会話成分を前記オーディオ信号と結合する前記ステップは、前記オーディオ信号から前記推定した会話成分を減算することにより、非会話成分を形成するステップと、前記非会話成分を前記拡張した会話成分に加算するステップと、を含む
、方法。
【請求項2】
前記コンプレッサーは、前記オーディオ信号のピークレベルを不変に保ちながら、前記推定した会話成分のみの平均パワーを増大させるよう構成される、請求項1に記載の方法。
【請求項3】
前記方法は、出力にリミッタを含むデコーダにより実行される、請求項1又は2に記載の方法。
【請求項4】
前記コンプレッサーを適用する前に、前記推定した会話成分に第1イコライザを適用するステップを更に含む請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分に第2イコライザを適用するステップ、を更に含む請求項
4に記載の方法。
【請求項6】
前記第2イコライザは、前記第1イコライザと機能的に相互に関連する、請求項5に記載の方法。
【請求項7】
前記第1イコライザは、前記会話成分の1つ以上の周波数範囲をブーストするよう構成され、前記第2イコライザは、前記非会話成分の1つ以上の周波数範囲をカットするよう構成される、請求項
5~6のいずれか一項に記載の方法。
【請求項8】
所与の周波数範囲について、前記会話成分のブーストはブースト帯域幅を有し、対応する非会話成分のカットは、前記ブースト帯域幅より狭いカット帯域幅を有する、請求項7に記載の方法。
【請求項9】
前記符号化ビットストリームは、前記第1イコライザ及び存在する場合には前記第2イコライザを構成するためのステアリングデータも含む、請求項
5~8のいずれか一項に記載の方法。
【請求項10】
前記推定した会話成分に前記コンプレッサーを適用するステップは、前記ユーザの決定した利得が1より大きい場合、及び前記推定した会話成分がゼロではない場合に、実行される、請求項1~
9のいずれか一項に記載の方法。
【請求項11】
前記コンプレッサーを適用するステップは、前記処理済み会話成分にメイクアップ利得を適用して、前記推定した会話成分のレベルに戻すよう前記処理済み会話成分のレベルを増大するステップを含む、請求項1~
10のいずれか一項に記載の方法。
【請求項12】
前記時変パラメータのセットは、周波数帯域のセット毎に1つのパラメータを含む、請求項1~
11のいずれか一項に記載の方法。
【請求項13】
前記符号化ビットストリームは、前記時変パラメータを含む、請求項1~
12のいずれか一項に記載の方法。
【請求項14】
前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータ
を含む、請求項
1~13のいずれか一項に記載の方法。
【請求項15】
会話拡張を可能にするためにオーディオ信号を符号化する方法であって、
オーディオ信号を提供するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変会話拡張パラメータのセットを提供するステップと、
前記
時変会話拡張パラメータを前記オーディオ信号に適用することにより、推定会話成分を推定するステップと、
処理済み会話成分を生成するために、前記推定会話成分にのみコンプレッサーを適用するステップ
と、
時変調整利得のセットを決定するために、前記推定会話成分により前記処理済み会話成分を除算するステップと、
変更会話拡張パラメータのセットを提供するために、前記
時変会話拡張パラメータを前記
時変調整利得と結合するステップと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するステップと、
を含む方法。
【請求項16】
前記コンプレッサーは、前記オーディオ信号のピークレベルを不変に保ちながら、前記推定した会話成分のみの平均パワーを増大させるよう構成される、請求項1
5に記載の方法。
【請求項17】
前記コンプレッサーを適用する前に、前記推定した会話成分にイコライザを適用するステップ、を更に含む請求項15又は16に記載の方法。
【請求項18】
前記時変
会話拡張パラメータのセットは、周波数帯域のセット毎に1つのパラメータを含む、請求項15~17のいずれか一項に記載の方法。
【請求項19】
オーディオ信号の会話拡張のためのデコーダであって、前記デコーダは、前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得しており、前記デコーダは、
符号化ビットストリーム内で受信した前記オーディオ信号を復号するためのデコーダ要素と、
前記オーディオ信号から前記会話成分を推定する会話推定部と、
前記推定した会話成分のみを圧縮して、処理済み会話成分を生成するコンプレッサーと、
ユーザの決定した利得を前記処理済み会話成分に適用して、拡張した会話成分を提供する利得要素と、
前記拡張した会話成分を前記オーディオ信号と結合して、会話拡張オーディオ信号を形成する結合パスと、
を含み、
前記結合パスは、前記オーディオ信号から前記推定した会話成分を減算して、非会話成分を形成する減算器と、前記非会話成分を前記拡張した会話成分に加算する加算点と、を含む、デコーダ。
【請求項20】
前記コンプレッサーは、前記オーディオ信号のピークレベルを不変に保ちながら、前記推定した会話成分のみの平均パワーを増大させるよう構成される、請求項19に記載のデコーダ。
【請求項21】
前記デコーダの出力にリミッタを更に含む請求項19又は20に記載のデコーダ。
【請求項22】
前記コンプレッサーを適用する前に、前記推定した会話成分
を等化する第1イコライザ
を更に含む請求項19~21のいずれか一項に記載のデコーダ。
【請求項23】
前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分を等化する第2イコライザ、を更に含む請求項
22に記載のデコーダ。
【請求項24】
前記第2イコライザは、前記第1イコライザと機能的に相互に関連する、請求項23に記載のデコーダ。
【請求項25】
前記第1イコライザは、前記会話成分の1つ以上の周波数範囲をブーストするよう構成され、前記第2イコライザは、前記非会話成分の1つ以上の周波数範囲をカットするよう構成される、請求項23又は24に記載のデコーダ。
【請求項26】
所与の周波数範囲について、前記会話成分のブーストはブースト帯域幅を有し、対応する非会話成分のカットは、前記ブースト帯域幅より狭いカット帯域幅を有する、請求項25に記載のデコーダ。
【請求項27】
前記符号化ビットストリームは、前記第1イコライザ及び存在する場合には前記第2イコライザを構成するためのステアリングデータを含む、請求項
23~26のいずれか一項に記載のデコーダ。
【請求項28】
前記ユーザの決定した利得が1より大きい場合、及び前記推定した会話成分がゼロではない場合に、前記推定した会話成分に前記コンプレッサーを適用するよう構成される請求項19~
27のいずれか一項に記載のデコーダ。
【請求項29】
前記コンプレッサーは、前記処理済み会話成分にメイクアップ利得を適用して、前記推定した会話成分のレベルに戻すよう前記処理済み会話成分のレベルを増大するよう更に構成される、請求項19~
28のいずれか一項に記載のデコーダ。
【請求項30】
前記符号化ビットストリームは、前記時変パラメータを含み、前記デコーダ要素は、前記時変パラメータを復号するよう構成される、請求項19~
29のいずれか一項に記載のデコーダ。
【請求項31】
前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータを含む、請求項
19~30のいずれか一項に記載のデコーダ。
【請求項32】
会話拡張を可能にするためにオーディオ信号を符号化するエンコーダであって、
オーディオ信号に時変会話拡張パラメータのセットを適用することにより、前記オーディオ信号内に存在する会話成分を推定する会話推定器と、
処理済み会話成分を生成するために、前記推定した会話成分
のみを圧縮するコンプレッサーと、
時変調整利得のセットを決定するために、前記推定した会話成分により前記処理済み会話成分を除算する除算器と、
変更会話拡張パラメータのセットを提供するために、前記
時変会話拡張パラメータを前記
時変調整利得と結合するコンバイナと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するエンコーダ要素と、
を含むエンコーダ。
【請求項33】
前記コンプレッサーを適用する前に、前記推定した会話成分を等化するイコライザ、を更に含む請求項32に記載のエンコーダ。
【請求項34】
1つ以上のプロセッサにより実行されると該プロセッサに請求項1~18のいずれか一項に記載の方法を実行させるコンピュータコード部分を含むコンピュータプログラム
。
【請求項35】
請求項34に記載のコンピュータプログラム
を格納している非一時的記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、以下の先願:US仮出願番号第62/833,855号(参照番号:D18119USP1)、2019年4月15日出願、EP出願第19169218.5号(参照番号:D18119EP)、2019年4月15日出願、及びUS仮出願番号第62/882,722号(参照番号:D18119USP2)、2019年8月5日出願、の優先権を主張する。これらの出願は、参照によりここに組み込まれる。
【0002】
関連分野
本開示は、オーディオエンコーダ-デコーダ(コーデック)における会話拡張に関する。
【背景技術】
【0003】
会話拡張機能のサポートは、標準的に、従来のオーディオコーディング/復号システムに含まれる。
【0004】
デュアルエンドシステムでは、会話を拡張するための情報は、エンコーダからデコーダへ送信されるビットストリームに含まれてよい。この情報は、標準的に、時変(timeーvarying)会話拡張(dialogue enhancement (DE))パラメータのセットと呼ばれ、周波数帯域毎に(チャネル当たり)1つのパラメータを含む。(1つのチャネルの中で)周波数帯域と共にタイムスロットは、一緒に「時間-周波数タイル」と呼ばれ、DEパラメータはこのようなタイル毎の時変利得を表す。デコーダ側では、DEパラメータは、ユーザの決定した会話利得と一緒に適用されて、会話拡張信号を提供する。
【0005】
しかしながら、このようなシステムにおける会話拡張の効果は、微細過ぎて知覚できない。従って、改良された処理が望まれる。
【0006】
他の領域では、等化と圧縮の組み合わせを含む会話拡張が提案されている。例えばUS2012/0209601を参照。しかしながら、このようなソリューションは、オーディオコーデックシステムに直ちに適用できない。
【発明の概要】
【0007】
従って、本開示のも目的は、オーディオコーデックシステムにおける向上した会話拡張を提供することである。
【0008】
本開示によると、この及び他の目的は、圧縮(及び任意的に等化)を含む追加処理を推定会話成分に対して行うことにより達成される。それにより、向上した会話拡張を可能にする。本開示の実施形態は、オーディオコーデックシステムの会話拡張が有意に改良され得るという認識に基づく。更に、本発明の実施形態によるデュアルエンドシステムでは、オーディオ信号に直接に従来適用される線形利得のような、会話拡張(dialogue enhancement (DE))パラメータが、会話成分を推定するために代わりに使用され、それにより追加処理を可能にする。
【0009】
本発明の実施形態の第1の態様によると、推定会話成分の追加処理は、デコーダ側で実行される。
【0010】
より具体的には、第1の態様は、オーディオ信号の会話拡張のための方法であって、
前記オーディオ信号を含む符号化ビットストリームを受信するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得するステップと、
前記オーディオ信号から前記会話成分を推定するステップと、
前記推定した会話成分にのみコンプレッサーを適用して、処理済み会話成分を生成するステップと、
前記処理済み会話成分にユーザの決定した利得を適用して、拡張した会話成分を生成するステップと、
会話の拡張したオーディオ信号を形成するために、前記拡張した会話成分を前記オーディオ信号と結合するステップと、
を含む方法に関する。
【0011】
第1の態様は、オーディオ信号の会話拡張のためのデコーダであって、前記デコーダは、前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得しており、前記デコーダは、
符号化ビットストリーム内で受信した前記オーディオ信号を復号するためのデコーダ要素と、
前記オーディオ信号から前記会話成分を推定する会話推定部と、
前記推定した会話成分を圧縮して、処理済み会話成分を生成するコンプレッサーと、
ユーザの決定した利得を前記処理済み会話成分に適用して、拡張した会話成分を提供する利得要素と、
前記拡張した会話成分を前記オーディオ信号と結合して、会話拡張オーディオ信号を形成する結合パスと、
を含むデコーダに更に関する。
【0012】
シングルエンドシステムでは、会話成分を推定するための時変パラメータは、デコーダにおいて決定され、又は予め設定されてよい。しかしながら、好適な実装では、デコーダは、デュアルエンドシステムの部分であり、この場合には、パラメータは、符号化ビットストリームに含まれることができる(例えば、従来知られている会話拡張(DE)パラメータに対応する)。
【0013】
コンプレッサーは、有利なことに、オーディオ信号の推定会話成分にのみ適用される。コンプレッサーは、有利なことに、ユーザの決定した利得を適用する前に、及び拡張会話成分をオーディオ信号と結合する前に、適用される。従来のデコーダでは、会話及び非会話成分を含むオーディオ信号全体が、標準的に、オーディオ信号の処理中にブーストされ得る。従来のデコーダでは、リミッタが、標準的に、ブーストされた信号に適用されて、ブーストされた信号が飽和するのを回避し、それにより、ブーストされた信号のクリッピングを防ぐ。本発明の実施形態の第1の態様では、コンプレッサーは、標準的にデコーダ出力に挿入される従来のリミッタと異なる目的を有する。第1の態様によるコンプレッサーは、オーディオ信号のピークレベルを不変に保ったまま、オーディオ信号の会話成分のみの平均パワーを増大するために使用される。ユーザの決定した利得は、処理済み(圧縮された)会話成分に適用され、オーディオ信号又は後述する実施形態では非会話成分と結合され、その結果、会話成分が処理済みオーディオ信号の中で一層明確に目立つ。従って、第1の態様によると、コンプレッサーは、オーディオ信号の会話成分と非会話成分、例えば背景との間の、会話拡張オーディオ信号の信号対雑音比を増大する。従って、第1の態様によるコンプレッサーは、信号のクリッピングを防ぐために使用されない。
【0014】
実施形態では、会話成分は、時間と共に変化するレベルを有する会話を含む。第1の態様によると、コンプレッサーは、会話成分のより騒々しい部分のオーディオレベルを、より静かな部分のオーディオレベルに近づけてよい。
【0015】
実施形態では、コンプレッサーは、処理済み(圧縮)会話成分にメイクアップ(make-up)利得を適用して、処理済み会話成分のレベル、例えばピークレベルを、推定会話成分のレベル、例えばピークレベルに戻すよう増大してもよい。メイクアップ利得の適用は、会話成分のレベルの全体的増大をもたらし、従って、圧縮会話成分をより聞きやすくする。
【0016】
更に後述する実施形態では、リミッタが、デコーダの出力において使用されて、処理済みオーディオ信号をクリッピングから保護してよい。会話成分が単純な利得によりブーストされているが、圧縮されない場合、リミッタは、ブーストされた会話の知覚される効果を有意に低減し又は取り消してしまうことがある。他方で、会話成分を圧縮しブーストすることにより、会話の平均パワーが増大されて、リミットの後でも、会話レベルの知覚される増大が達成され得る。このように、オーディオ信号の会話成分にのみコンプレッサーを適用することは、出力リミッタに、知覚的によりロバストな会話拡張システムを提供する。
【0017】
圧縮の前に、等化が更に推定会話成分に適用されるとき、推定会話成分の圧縮は、等化した推定会話成分を圧縮することを表すことが理解される。
【0018】
本発明の実施形態の第2の態様によると、推定会話成分の追加処理が、デュアルエンドシステムのエンコーダ側で実行され、変更会話拡張(DE)パラメータをもたらし、これは符号化されてビットストリーム内に含まれる。
【0019】
圧縮は時間変数非線形演算であるが、単に非線形である利得値の計算であることに留意する。計算された利得値の実際の適用は、事実上線形演算である。静的(時間的に不変の)イコライザ曲線の適用も線形である。発明者らは、従って、本発明の実施形態による会話成分の追加処理が、代替として、イコライザ係数及び(メイクアップを含む)圧縮利得を会話拡張(DE)パラメータのセットに組み込んでDEパラメータの変更されたセットを生成することにより、エンコーダ側で実現できることを理解している。
【0020】
より具体的には、第2の態様は、会話拡張を可能にするためにオーディオ信号を符号化する方法であって、
オーディオ信号を提供するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変会話拡張パラメータのセットを提供するステップと、
前記会話拡張パラメータを前記オーディオ信号に適用することにより、推定会話成分を推定するステップと、
処理済み会話成分を生成するために、前記推定会話成分にのみコンプレッサーを適用するステッと、
時変調整利得のセットを決定するために、前記推定会話成分により前記処理済み会話成分を除算するステップと、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するステップと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するステップと、
を含む方法に関連する。
【0021】
第2の態様は、会話拡張を可能にするためにオーディオ信号を符号化するエンコーダであって、
オーディオ信号に時変会話拡張パラメータのセットを適用することにより、前記オーディオ信号内に存在する会話成分を推定する会話推定器と、
処理済み会話成分を生成するために、前記推定した会話成分にのみを圧縮するコンプレッサーと、
時変調整利得のセットを決定するために、前記推定した会話成分により前記処理済み会話成分を除算する除算器と、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するコンバイナと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するエンコーダ要素と、
を含むエンコーダにも関連する。
【0022】
本発明の実施形態の第1の態様を参照して記載されたコンプレッサーの有利な効果は、本発明の種々の実施形態の第2の態様によっても達成される。
【0023】
両方の態様(デコーダ及びエンコーダ)は、実質的に同じ技術的効果を提供する。
【0024】
第2の態様(エンコーダにおける処理)の利点は、デコーダが変更される必要がないことである。コンプレッサーは、所与の閾値を超える信号の部分、例えば所与の閾値より高いピーク又はRMSレベルを有する信号の部分を減衰してよい。圧縮比は、約5:1又は最大で20:1であってよい。メイクアップ利得は、会話信号の元のレベル(例えば、ピーク又はRMSレベル)を維持するために適用できる。
【0025】
デュアルエンドシステムでは、符号化ビットストリームは、コンプレッサーを構成するための圧縮パラメータも含んでよい。このようなパラメータは、例えば、閾値、圧縮比、アタックタイム、リリースタイム、及びメイクアップ利得を含んでよい。
【0026】
推定会話成分の追加処理は、望ましくは、コンプレッサーを適用する前に、推定した会話成分に第1イコライザを適用するステップ、を含む。このような等化は、圧縮の効果を更に拡張するよう機能してよい。
【0027】
用語「イコライザ(equalizer)」は、広義に解釈されるべきであり、例えば時間ドメインにおける差分方程式(difference equation)の適用を含んでよい。最も実用的な例では、しかしながら、イコライザは、周波数依存(複素)利得を推定会話信号に適用する要素であるが、幾つかの場合には実数値利得が十分であってよい。
【0028】
イコライザは、より低い周波数(例えば、500Hzより下)をロールオフすること、及び選択された周波数範囲において小さく広いブーストを与えることを含んでよい。更に詳細な例については以下を参照する。
【0029】
拡張会話成分をオーディオ信号と結合するステップは、推定会話成分をオーディオ信号から減算することにより、推定非会話成分(時に、M&E(music and effects)と呼ばれる)を形成するステップと、次に推定非会話成分を拡張会話成分に加算するステップと、を含んでよい。
【0030】
幾つかの実施形態では、推定非会話成分も、推定非会話成分が拡張会話成分に加算される前に、第2イコライザを適用することにより、等化を行われる。このような第2イコライザは、第1イコライザと機能的に相互に関連してよい。例えば、推定会話が増幅される周波数領域では、M&Eは僅かな減衰を与えられてよい。より詳細な例については、実施形態の説明を参照する。
【0031】
デュアルエンドシステムでは、符号化ビットストリームは、第1イコライザ及び存在する場合には第2イコライザを構成するための制御データ又はステアリングデータも含んでよい。例えば、デコーダは、異なるイコライザプリセットのセットを提供されてよく、ビットストリーム内の制御データはどのプリセットを適用すべきかを選択してよい。
【図面の簡単な説明】
【0032】
本発明の実施形態は、添付添付図面を参照して詳細に説明される。
【
図1】本発明の実施形態によるデコーダのブロック図である。
【
図2】本発明の第2の実施形態によるデコーダのブロック図である。
【
図3】本発明の実施形態によるエンコーダの部分のブロック図である。
【
図4】
図3のエンコーダソリューションと共に使用するのに適するデコーダである。
【
図5】
図2の方法のデコーダのより詳細な実装のブロック図である。
【
図6】本発明の実施形態による、
図5の会話拡張コンポーネントを示すブロック図である。
【
図7A】本発明の別の実施形態による、
図5の会話拡張コンポーネントの例を示すブロック図である。
【
図7B】本発明の別の実施形態による、
図5の会話拡張コンポーネントの例を示すブロック図である。
【
図8】本発明の更に別の実施形態による、
図5の会話拡張コンポーネントを示すブロック図である。
【
図10A】従来のアプローチによる、会話拡張の例を概略的に示す。
【
図10B】本発明の実施形態による会話拡張の例を概略的に示す。
【
図10C】本発明の別の実施形態による、会話拡張の例を概略的に示す。
【発明を実施するための形態】
【0033】
以下に開示されるシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組合せとして実装されてよい。ハードウェア実装では、タスクの分割は、必ずしも物理的ユニットへの分割に対応しない。反対に、1つの物理コンポーネントは、複数の機能を有してよく、1つのタスクは複数の物理コンポーネントにより共同で実行されてよい。特定のコンポーネント又は全部のコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサにより実行されるソフトウェアとして実装されてよく、又はハードウェアとして、又は特定用途向け集積回路として実装されてよい。このようなソフトウェアは、コンピュータ記憶媒体(又は非一時的媒体)及び通信媒体(又は一時的媒体)を含み得るコンピュータ可読媒体上で分配されてよい。当業者に知られているように、用語「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータのような情報の記憶のための任意の方法又は技術で実施される、揮発性及び不揮発性の両方、取り外し可能及び非取り外し可能媒体、を含む。コンピュータ記憶媒体は、限定ではないが、RAM、ROM、EEPROM、フラッシュメモリ、又は他のメモリ技術、CD-ROM、DVD(digital versatile disk)、又は他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶又は野田磁気記憶装置、又は所望の情報を格納するために使用可能な、コンピュータによりアクセス可能な任意の他の媒体、を含む。更に、当業者に知られているように、通信媒体は、標準的に、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータを、搬送波又は他の転送メカニズムのような変調されたデータ信号で具現化し、任意の情報配信媒体を含む。
【0034】
以下の説明は、デュアルエンドコーデックシステムにおける種々のデコーダ及びエンコーダの実施形態に関する。本発明の実施形態はシングルエンドデコーダで実施されてもよいことに留意する。このような実施形態では、会話成分を推定するための時変パラメータaは、ビットストリーム内で受信されないが、代わりに、受信オーディオ信号Yに基づきデコーダにより決定される。
【0035】
<デコーダ側の実装>
図1のデコーダ10は、ビットストリームからの入力オーディオ信号Yと時間依存会話拡張(dialogue enhancement (DE))パラメータとを受信する会話推定ブロック11を含む。
図1に示されないが、オーディオ信号Y及びパラメータセットaは、両方とも符号化ビットストリームから復号される。パラメータaは、周波数帯域のセットの各々の(及び、勿論、会話を運ぶチャネル毎)パラメータを含む。時間依存性の解像度は、標準的に、ビットストリームのフレームレートにより決定され、フレーム(m)及び周波数帯(k)の特定の組合せは、時間-周波数タイルと呼ばれる。この用語によると、DEパラメータは、時間-周波数タイル毎に、1つ以上のパラメータa(m,k)を含む。留意すべきことに、DEパラメータは、標準的に、オーディオ信号より粗い周波数解像度を有し、1つのDE周波数帯域がオーディオ信号の幾つかの周波数ビンを含んでよい。DEパラメータは、会話推定ブロック11が、D(m,k)=a(m,k)Y(m,k)に従い、オーディオ信号Yの中に存在する会話成分Dを推定することを可能にする。更なる詳細については、参照によりここに組み込まれるWO2017/132396を参照する。
【0036】
デコーダは、本実施形態では、直列に接続された第1イコライザ12とコンプレッサー13とを含む会話処理パスを更に含む。コンプレッサー13の出力は、g-1の係数により乗算を実行する増幅器14に接続され、ここでgはユーザの決定した線形利得である。
【0037】
ユーザの決定した利得gは、全体として適用すべき会話利得の程度を表してよい。例えば、ユーザは、利得gを、ユーザが快適であると感じるレベルに設定してよく、それを該レベルにしてよい。ユーザが、会話成分のレベルが静か過ぎると感じる場合、ユーザは、利得gを増大することにより、レベルを増大できる。同様に、ユーザが会話成分のレベルが大きすぎると感じる場合、ユーザは、利得gを減少することによりレベルを減少できる。しかしながら、多くの実際の場合にはユーザは、より大きな会話成分を好み、利得は、標準的に1以上の値に設定され得る。
【0038】
イコライザ12の上流には、スイッチ15が配置され、以下の22つの条件が満たされるときのみ、本実施形態では、推定会話信号Dを処理パス(コンプレッサー13及び任意的にイコライザ12)に接続するよう構成される:
1)ユーザが選択した利得係数gが」1より大きい、
2)会話拡張パラメータaが、時間-周波数タイルについてゼロではない、つまり会話が存在する。
【0039】
これらの条件のいずれも満たされない場合、推定会話成分Dは、いかなる処理もされずに、乗算器14に直接接続される。スイッチの他の設定も可能である。例えば、第2の条件を要求しない。
【0040】
最後に、デコーダは、乗算器14からの出力を入力オーディオ信号Yに加算するよう構成される加算点16を含む。
【0041】
使用中、g>1のとき、
図1のイコライザは、推定会話成分Dを(圧縮及び任意的に等化により)処理し、次にそれをg-1により乗算し、次に最後にそれを元のオーディオ信号Yに加算する。g≦1のとき、エンコーダは、g-1により(処理を伴わず)推定会話成分Dを乗算し、それを元のオーディオ信号Yに加算する。留意すべきことに、この後者の場合は、係数g-1が0より小さいので、会話を減衰することに対応する。加算点16は、従って、この場合には減算である。
【0042】
より精巧な実施形態が
図2に示される。ここで、デコーダ20は、推定会話Dを入力オーディオ信号Yから減算し、それによりM&E(music and effects)と呼ばれることのある推定「非会話成分」を形成するよう構成される減算点21を更に含む。
図2のデコーダは、第2イコライザ22を有する処理パスを更に含む。第2イコライザ22の出力は、加算点24に接続される。第2イコライザ22の前に、本実施形態では、以下の2つの条件が満たされるときだけ、M&E信号を第2イコライザに供給するよう構成される第2スイッチ23がある。
【0043】
1)ユーザが選択した利得係数gが1より大きい、
2)会話拡張パラメータa(m,k)が、時間-周波数タイルについてゼロではない、つまり会話が存在する。
【0044】
図2で、加算点24は、イコライザ22からの処理済みM&E、又はスイッチ23から直接の未処理M&Eに接続される。加算の結果は、会話拡張オーディオ信号である。
【0045】
図1及び2のイコライザ12、22は、標準的に、周波数依存(複素)利得を入力信号(つまり、推定会話信号又はM&E信号)に適用するよう構成される。第1及び第2イコライザ12、22は、例えば、第1イコライザの利得機能がブーストを有するとき、第2イコライザの利得機能が対応する(しかし標準的により狭い帯域)カットを有するという意味で、機能的に相互に関連できる。これは、
図9A、9Bに、例示的なイコライザ利得関数EQ
1及びEQ
2について示される。第1の利得関数EQ
1は、ここでは、約400Hzより下でロールオフ、約3kHzで僅かな谷(つまり減衰)、及び約5kHz及び10kHzでピークを有する。第2の利得関数EQ
2は、約5kHz及び10kHzで対応するカットを有する。留意すべきことに、これらの利得関数は単なる例であり、利得関数の詳細は、実際の適用及び所望の効果に依存する。
【0046】
図1及び2のコンプレッサー13は、閾値、圧縮比、アタックタイム、リリースタイム、メイクアップ利得のようなパラメータをふゅうするシングルエンドコンプレッサーであってよい。圧縮パラメータは、ビットストリームから復号でき、フレーム毎に異なってよい。例えば、圧縮比は、5:1、10:1、又は20:1であってよい。アタックは10msであってよく、リリースは250msであってよいく、当タイ的な閾値はー6dBであってよく、メイクアップ利得は10dBであってよい。閾値(つまり、設定されるべき圧縮の下限)は、長期又は短期音量レベルの基準に対して設定されてよい。例えば、それは、オーディオ信号における平均会話音量の指示であってよい会話正規化値に対して設定されてよい。会話正規化値は、場合によっては、ビットストリーム内で提供され得る追加情報に基づき局所的な偏差について調整されてよい。
【0047】
<行列乗算としての実装>
留意すべきことに、
図1及び2のブロック図は、デコーダの機能の概略表現である。より実用的な実装は標準的に、行列乗算Z=H・Yとして実現される。ここで、Yは入力オーディオ信号であり、Hは入力ー出力表列の形式の伝達関数であり、Zは会話拡張出力信号である。
【0048】
直交ミラーフィルタ(quadrature mirror filter (QMF))ドメインにおける会話拡張を考えると、入力オーディオ信号は以下であり:
【数1】
ここで、mはタイムスロットインデックスであり、kは周波数帯域インデックスであり、(特定の時間-周波数タイルについての)推定会話成分はD=aYであり、ここで、a(m,k)はビットストリーム更新の間に補間されてよい。更に、次式が、全てのkについてDの瞬間エンベロープ値を表すとする:
【数2】
【0049】
次に、a>0且つg>1の場合、会話拡張出力Zは以下により与えられる:
【数3】
ここで、q
1及びq
2は、EQ係数であり、fは、以下のエンベロープ値の関数である圧縮利得である:
【数4】
【数5】
【0050】
従って、実用的な実装では、静的なEQ曲線の係数は、ルックアップテーブルに格納でき、HがYに適用される前に、圧縮利得fがV~から計算される必要があるだけである。
【0051】
マルチチャネル設定では、対応する利得fは、各チャネル毎に別個に利得を計算し、最小利得を全部のチャネルに共通の利得として取り入れることにより、同様の方法で取得される。これは、各チャネルの瞬間エンベロープ値を別個の計算し、最大エンベロープ値から利得を導出することと等価である。
【0052】
推定会話Dの追加処理がオフにされる場合(g<1)、f=q
1=q
2=1であり、出力Zは次式になる:
【数6】
【0053】
D及び/又はD~のための追加バッファを有する必要は、以下のようにエンベロープV~を計算することにより除去できる:
【数7】
ここで、a(m,k)利得は、ビットストリーム更新の間に補間されてよい。
【0054】
<エンコーダ側の実装>
図2を参照して説明したアプローチは、
図3に示すようなエンコーダ側にも適用できる。
【0055】
デュアルエンドシステムのエンコーダは、ビットストリームに含まれるべき時変会話拡張パラメータaのセットを計算するデジタル処理回路(図示せず)を含む。その結果、デコーダは、オーディオ信号から会話成分を推定できる。
【0056】
図3は、エンコーダの部分を示し、エンコーダにおいて予め計算されたパラメータaを用いてオーディオ信号Yの中に存在する会話成分Dを推定する会話推定ブロック31(上述の会話推定ブロック11と同様である)を含む。エンコーダは、イコライザ32とコンプレッサー33とを有する処理パスを更に含む。処理パスは、推定会話成分Dを受信し、処理結果を乗算器34に提供する。エンコーダは、推定会話成分Dを受信し乗算器34に提供される反転会話成分D
-1を出力するx
-1インバータ35も含む。乗算器の出力は、第2乗算器36に接続される。第2乗算器36も、会話拡張パラメータaを受信する。
【0057】
使用中、乗算器34は、処理済み会話成分を受信し、それを1/Dで乗算する。つまり、処理済み会話成分と推定会話成分との間の比rを提供する。比rは、標準的に、1時間-周波数タイルに固有である。比rは、従って、特定の時間-周波数タイルについて、推定会話成分を基準として、処理パス32、33の貢献を表す。各タイルについて、乗算器36は、DEパラメータaを比rで乗算して、変更DEパラメータbを出力する。変更DEパラメータbの完全なセットは、次に、オーディオ信号と一緒にビットストリームに符号化される。
【0058】
本発明の実施形態が(
図3に示されるように)エンコーダ側で実施されるとき、それは、
図4に示されるもののような既存のデコーダと後方互換性がある。受信信号Yを変更DEパラメータbにより乗算することにより、デコーダは、
図3のエンコーダのコンプレッサー33から出力される処理済み会話信号を再生することができる。このような処理済み会話信号がg-1によりスケーリングされ、次にYに加算され戻されるとき、
図4のデコーダに示されるように、既存のデコーダにおいても、向上した会話拡張信号を生成することが可能である。
【0059】
<実用的な実装>
図5は、本発明の実用的な実施形態による会話拡張が既存のデコーダトポロジにどのように実装され得るかを概略的に示す。
図5に示すように、デコーダ50は、通常、受信したビットストリームを復号するコアデコーダ51、任意的な変換器52、例えばバイノーラル変換T、行列変換53及びフィードバック遅延ネットワーク(feedback delay network (FDN))ブロック54を含む任意的な遅延反響処理パスを含む。エンコーダは、2個の加算点56、57(
図2の2個の加算点21、24に対応する)に出力を提供する会話拡張(DE)ブロック55を更に含む。最後に、デコーダ50は、例えば音量制御を提供する後処理ブロック58、及びリミッタ59を含む。
【0060】
図6は、ステレオオーディオの特定の場合の
図5の会話拡張ブロック55の例を示す。ブロック55は、変換A
coreを用いて会話成分を推定する会話推定ブロック61(
図1及び2のブロック11に対応する)、及び更に推定会話の等化及び圧縮を提供する処理ブロック62を含む。等化がM&E信号に適用されない場合には、ブロック62内の変換はf(m)・q
1(k)、及びq
2(k)=1と等価である。乗算点64(
図1及び2の乗算器14に対応する)は、処理済み会話をユーザの決定した利得gで乗算する。
【0061】
図示の実施形態では、ブロック62における圧縮は、推定会話信号に基づき適切なコンプレッサー利得を計算するサイドチェーン63により提供される。留意すべきことに、ブロック62における等化も、サイドチェーンブランチの上流で提供されてよい。その結果、サイドチェーン63への入力もイコライザを通る。別のオプションは、サイドチェーン63内で別個のイコライザを適用することである。このイコライザは、従ってブロック62のイコライザと異なってよい。
【0062】
ステレオオーディオの場合、QMFバンク表記を使用して、次式:
【数8】
(ここで、それぞれ、インデックス「1」はステレオチャネルペアの左チャネルを表し、インデックス「2」は右チャネルを表す)から、拡張された会話:
【数9】
へのマッピングは、次式により表すことができる:
【数10】
ここでも、mはタイムスロットインデックスであり、kは周波数帯域インデックスであり、次式の通りである:
【数11】
ここで、
- A
coreは、LoRo完全メイン(complete main)からLoRo会話を推定する2×2行列である。標準的に、A
coreは、8個の周波数帯域に分割され、公称フレームレートで2048サンプル毎に生じるビットストリーム更新の間に補間される。
- gは、会話ブーストの量を決定するユーザ利得である。それは、フレーム毎に変化することができ、フレーム間の補間を必要としてよい。
- f(m)は、タイムスロットm毎に計算されるコンプレッサー利得である。利得はブロードバンドである。従って、kに依存しない。更に、同じコンプレッサー利得が標準的にチャネル毎に使用される。従って、f(m)はスカラーである。
- q
1(k)は、会話信号に適用される時不変EQ曲線である。
- q
2(k)は、E&M(musicーandーeffects)信号に適用される時不変EQ曲線である。
- I
2は、2×2単位行列(identity matrix)である。
【0063】
5:1サラウンドの場合は、ステレオの場合から容易に得られる。唯一の違いは、3個のフロントチャネルL/R/C(left/right/center)だけが本発明の実施形態による会話拡張により処理されることである。前述の2チャネルの例と同様に、同じコンプレッサー利得が、3個のフロントチャネルの各々に標準的に使用される。
図6で、ブロック61の変換「A
core」は、ここで、3×3(会話)行列であり、その要素として対応するDEパラメータを有し、5:1サラウンドチャネルのフロントの3個のチャネルだけに適用されて、会話信号を推定する。
【0064】
図7Aは、ここではバイノーラル変換52を含む代替のステレオ実装のための会話拡張ブロック55’の別の例を示す。バイノーラル変換の詳細については、参照によりここに組み込まれるWO2017/035281及びWO2017/035163を参照する。
【0065】
図中、3個の異なる会話推定ブロック71、72、73が存在し、それおzれ、変換Aの異なるモード(「構成」とも呼ばれる)を表し、A
cfg0,A
cfg1,及びA
cfg2とラベル付けされる(詳細については、参照によりここに組み込まれるWO2017/132396を参照する)。留意すべきことに、
図6において、A
cfg2はA
coreと等価である。ブロック62及び63は、
図6のそれらと同様である。
【0066】
この代替のステレオ実装では、ここでもQMFバンク表記を使用し、次式:
【数12】
から拡張された会話LaRa(バイノーラル):
【数13】
へのマッピングは次式のように表すことができる:
【数14】
ここで、
- Tは、ステレオ信号をバイノーラル信号に変換する2×2行列である。Tは、例えば公称フレームレートで4096サンプル毎に生じるビットストリーム更新の間に補間される。
- A
cfgXは、LoRo完全メイン(complete main)から会話を推定する2×2行列であり、ここでXはモード(構成)を示す。幾つかのモードは、バイノーラル変換を含む。
図7Aでは、M&E信号を生成するためにA
cfg2=A
coreが使用されることに留意する。
【0067】
代替として、
図7Aの会話拡張55’は、ステレオ信号がバイノーラル信号に変換された後に(つまりブロック52の後に)適用できる。これh、
図7Bに開示され、ここで、同様の要素は
図7Aと同じ参照符号が与えられる。(バイノーラル)M&E信号を生成するためにA
cfg0が使用されることに留意する。
【0068】
ステレオ信号から推定会話を減算することは、会話のバイノーラルバージョンがビットストリーム内に存在する場合にのみ関連する。減算処理は、性能低下を犠牲にして省略できる。減算が省略された場合、ユーザ利得gの解釈は、変化する。その場合、ユーザ利得が0に等しいことは、会話拡張が無いことを意味し、ユーザ利得が1に等しいことは6dBのブーストを生じる。負の値のgは減衰をもたらすが、会話拡張の後の会話はステレオ信号の会話と異なるので、粗悪な減衰が予想され、従って、出力における会話拡張信号は、歪みに苦しむ。
【0069】
更に別の実施形態では、
図8に示すように、会話拡張55”は、会話拡張ステレオ信号の変換の前に、バイノーラル信号に適用でき、ここでも、同様の要素は
図7Aと同じ参照符号を与えられる。この場合、上述の構成(cfg1,cfg2,cfg3)は、不要であり、コア構成(A
core)のみが必要である(ブロック73)。実際に、この変形は、1)会話拡張55”、56、57を有するステレオデコーダと、2)バイノーラル変換52とのカスケードに対応する。
【0070】
<クロスフェード>
幾つかの実施形態では、デコーダは、従来の会話拡張(つまり、会話の圧縮及び等化を有しない)と本発明による会話拡張との間を切り換えるよう構成されてよい。このような切り替えは、例えばビットストリーム内のステアリングデータに基づいてよい。簡単のために、従来の会話拡張は、ここではDEと略され、一方、本発明による会話拡張はADE(“advanced” dialogue enhancement)と呼ばれる。DEとADEとの間の切り替えは、ユーザ経験を劣化させる可能性のある、音量の聞こえるジャンプをもたらし得る。
【0071】
適用される会話拡張におけるこのような不連続の聞こえる効果を軽減するために、デコーダは遷移メカニズムを含んでよい。遷移メカニズムは、シームレス切り替えのために一般的に使用されるクロスフェードであり得る。一般的に、クロスフェードは、第1の信号Aから第2の信号Bへ所与の時間に渡り、出力が次第に切り換えられることを意味する。それは以下のように表すことができる:
【数15】
ここで、f_smoothは、出力がAからBに切り替えられる場合に1から0にランプダウン、出力がBからAに切り替えられるとき0から1へとランプアップされる重み係数である。
【0072】
この場合には、重み係数は、以下の関数により定義できる。これは、ADEがオンに切り換えられるとき、0から1へのランプ(ramp)を生成し(ADE
switch=1)、このような会話拡張がオフに切り替えられるとき1から0への逆ランプを生成する(ADE
switch=0)。
【数16】
【0073】
ランプの期間は、時定数τにより決定される。時定数は、1又は複数のデコーダ処理フレームであってよい。所与の例では、ランプは線形であるが、時間τの範囲内で0と1の間を円滑に遷移する任意の関数であってよい。例えば、それは、対数、2次、又はコサイン関数であり得る。
【0074】
図10A及び10Bは、従来のアプローチ(
図10A)による及び本発明の実施形態(
図10B)による没入型ステレオシステムにおける会話拡張を概略的に示す。
図10Bは、上述の
図7Aに基本的に対応する。しかしながら、イコライザ及びコンプレッサーは、ここでは、ADE利得計算ブロック105で計算された利得の適用として示される。
【0075】
留意すべきことに、没入型ステレオシステムは例として使用され、クロスフェードの原理は、DEとADEとの間で切り替える他の適用でも実装されてよい。
【0076】
両方の場合に、入力LoRoステレオ信号は、会話拡張没入型LaRa信号を提供するために処理される。
図10Aでは、行列M
DEがLoRo信号に適用され、
図10Bでは、行列M
ADEがLoRo信号に適用される。このために、FDN(Feedback Delay Network)100は、FDN供給(FDN feed)信号を受信し、最終的なヘッドフォン出力LbRbを得るために拡張対話とミキシングされるFDN信号を生成する。
【0077】
図10Aから、先に使用された表記を用いると、以下の通りである:
【数17】
ここで、Tはブロック101において適用され、A
cfgXはブロック102において適用され、適切な利得(g-1)が乗算点103において適用される。
【0078】
図10Bから、先に使用された表記を用いると、以下の通りである:
【数18】
ここで、T及びA
cfgXはここでもブロック101及び102においてそれぞれ適用され、A
cfg2はブロック104において適用され、ADE_gainはブロック105において計算され、乗算点106において利得gの影響を受け、最終的に乗算点103に適用される。
【0079】
留意すべきことに、会話拡張は、CQMFドメインで実現され、MADE及びMDEの両方は、タイムスロット及びCQMF帯域の変化する2×2行列であり、LoRo及びLaRaは両方ともタイムスロット及びCQMF帯域の変化する2×1行列(列ベクトル)である。叙述のように、I2は、2×2単位行列(identity matrix)である。
【0080】
クロスフェードLaRa信号、つまり
図10AのLaRa信号及び
図10BのLaRa信号のクロスフェードは、次式に従い、行列M
ADE及びM
DEに以上に定義された重み付け関数f_smoothを直接適用することにより実施できる。
【数19】
【0081】
図10Cは、
図10A及び10Bの図に基づくブロック図としてこれを概略的に説明する。
【0082】
図10Cで、重みf_smoothは、ブロック104からの出力に適用され、その結果、
図10Bの会話の減算は、f_smoothが1に近づくにつれ、消えていく。更に、重みf_smoothが乗算点106に適用され、重み(1-f_smooth)が利得(g-1)に適用される。これらの2つの重み付けされた利得は、次に、乗算点103に接続される前に、加算点107で加算される。これは、f_smooth=0ではて、乗算点103が
図10Aと同じ入力を受信し、一方で、f_smooth=1では
図1Bと同じ入力を受信することを意味する。
【0083】
<一般化>
本願明細書を通じて「一実施形態」、「幾つかの実施形態」又は「実施形態」への言及は、実施形態に関連して記載される特定の特徴、構造、又は特性が本発明の少なくとも1つの実施形態に含まれることを意味する。従って、本明細書を通じて様々な場所における「一実施形態では」、「幾つかの実施形態では」又は「実施形態では」という語句の出現は、必ずしも全部が同じ例示的な実施形態を参照しない。更に、特定の特徴、構造、又は特性は、1つ以上の実施形態において、本開示から当業者に明らかなように、任意の適切な方法で組み合わされてよい。
【0084】
本願明細書で使用されるとき、特に断りのない限り、共通のオブジェクトを説明するための序数「第1」、「第2」、「第3」などの使用は、単に、同様のオブジェクトの異なるインスタンスが言及されていることを示すものであり、説明されているオブジェクトが時間的に、空間的に、ランク付けにおいて、又は任意の他の方法で所与のシーケンスでなければならないことを意味しない。
【0085】
以下の請求の範囲及び本願明細書に記載の説明では、用語:含む、有する、構成される、又は構成するのうちの任意の1つは、広義であり、それに続く要素/特徴を服無くとも含むが他を排除しないことを意味する。従って、用語:含むは、請求項中で使用されるとき、その後に列挙される手段又は要素又はステップに限定されると解釈されてはならない。例えば、表現の範囲:装置はA及びBを含む、は、装置が要素A及びBのみで構成されることに限定されるべきではない。用語:有するも、本願明細書で使用されるとき、広義であり、該用語に続く要素/特徴を少なくとも含むが他を排除しないことを意味する。従って、有するは、含むと同義語であり、含むを意味する。
【0086】
本願明細書で使用されるとき、用語「例示的な」は、品質を示すのではなく、例を提供するという意味で使用される。つまり、「例示的な実施形態」は、例として提供される実施形態であり、必ずしも例示的な品質の実施形態ではない。
【0087】
理解されるべきことに、本発明の例示的な実施形態の上述の説明では、本開示の種々の特徴は、本発明を効率化する及び種々の本発明の態様のうちの1つ以上の理解を支援する目的で、時に単一の実施形態、図、又はその説明に一緒にグループ分けされる。しかしながら、本開示のこの方法は、請求の範囲が明示的に記載されたよりも多くの特徴を必要とするという意図を反映していると解釈されてはならない。むしろ、以下の請求項が反映するように、本発明の態様は、単一の前述の開示された実施形態の全部の特徴よりも少数にある。従って、詳細な説明に続く請求の範囲は、この詳細な説明に明示的に組み込まれ、各請求項は、本発明の個別の実施形態としてそれ自体独立である。
【0088】
更に、本願明細書に記載した幾つかの実施形態は、他の実施形態に含まれる他の特徴ではなく幾つかの特徴を含むが、当業者により理解されるように、異なる実施形態の特徴の組合せは異なる実施形態を形成する。例えば、以下の請求の範囲では、請求される実施形態のうちの何れかが、任意の組合せで使用できる。
【0089】
更に、実施形態のうちの幾つかは、コンピュータシステムのプロセッサにより又は機能を実行する他の手段により実施可能な方法又は方法の要素の組合せとして記載された。従って、このような方法又は方法の要素を実行するために必要な命令を有するプロセッサは、方法又は方法の要素を実行する手段を形成する。更に、機器の実施形態のここに記載された要素は、本発明の種々の実施形態を実行する目的で、要素により実行される機能を実行する手段の例である。
【0090】
本願明細書で提供される説明では、多数の特定の詳細事項が説明された。しかしながら、本発明の実施形態は、これらの特定の詳細事項を有しないで実施されてよいことが理解される。他の例では、よく知られた方法、構造、及び技術は、本発明の説明の理解を不明瞭にしないために、示されなかった。
【0091】
同様に、用語「結合される」は、請求の範囲で使用されるとき、直接接続のみに限定されると解釈されるべきではないことに留意する。用語「結合され」及び「接続され」は、派生語と共に、使用されることがある。理解されるべきことに、これらの用語は、互いに類義語として意図されない。従って、表現の範囲、装置Bに結合された装置Aは、装置Aの出力が装置Bの入力に直接接続された装置又はシステムに限定されるべきではない。それは、Aの出力とBの入力との間に、他の装置又は手段を含むパスであるパスが存在することを意味する。「結合される」は、2つ以上の要素が直接物理的に又は電気的に接触していること、又は2つ以上の要素が互いに直接接触していないが互いに協働する又は相互作用することを意味してよい。
【0092】
従って、本発明の特定の実施形態を説明したが、当業者は、他の又は更なる変形が加えられてよいことを理解する。例えば、上述の任意の数式は、単に使用され得る手順の表現である。機能がブロック図に追加され又は削除されてよく、動作が機能ブロックの間で交互交換されてよい。ステップは、本発明の実施形態の範囲内に記載された方法に追加され又は削除されてよい。
【0093】
例えば、本発明を実施するデコーダは、
図5に示された以外の異なる処理ブロックを含んでよい。
【0094】
本発明の実施形態は、以下に列挙する例示的な実施形態(enumerated exemplary embodiments (EEEs))に関連する。
(EEE1) オーディオ信号の会話拡張のための方法であって、
前記オーディオ信号を含む符号化ビットストリームを受信するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得するステップと、
前記オーディオ信号から前記会話成分を推定するステップと、
前記推定した会話成分にコンプレッサーを適用して、処理済み会話成分を生成するステップと、
前記処理済み会話成分にユーザの決定した利得を適用して、拡張した会話成分を提供するステップと、
会話の拡張したオーディオ信号を形成するために、前記拡張した会話成分を前記オーディオ信号と結合するステップと、
を含む方法。
(EEE2) 前記コンプレッサーを適用する前に、前記推定した会話成分に第1イコライザを適用するステップ、を更に含むEEE1に記載の方法。
(EEE3) 前記拡張した会話成分を前記オーディオ信号と結合する前記ステップは、前記オーディオ信号から前記会話成分を減算することにより、非会話成分を形成するステップと、前記非会話成分を前記拡張した会話成分に加算するステップと、を含む、EEE1又はEEE2に記載の方法。
(EEE4) 前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分に第2イコライザを適用するステップ、を更に含むEEE3に記載の方法。
(EEE5) 前記第2イコライザは、前記第1イコライザと機能的に相互に関連する、EEE4に記載の方法。
(EEE6) 前記時変パラメータのセットは、周波数帯域のセット毎に1つのパラメータを含む、EEE1~9のいずれか一項に記載の方法。
(EEE7) 前記符号化ビットストリームは、前記時変パラメータを含む、EEE1~10のいずれか一項に記載の方法。
(EEE8) 前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータも含む、EEE7に記載の方法。
(EEE9) 前記符号化ビットストリームは、前記第1イコライザ及び存在する場合には前記第2イコライザを構成するためのステアリングデータも含む、EEE7又は8に記載の方法。
(EEE10) 前記拡張した会話成分を前記オーディオ信号と結合するステップを起動するために、及び適用可能なとき、前記オーディオ信号から前記推定した会話成分を減算するステップを起動するために、クロスフェードを適用するステップ、を更に含むEEE1~13のいずれか一項に記載の方法。
(EEE11) 会話拡張を可能にするためにオーディオ信号を符号化する方法であって、
オーディオ信号を提供するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変会話拡張パラメータのセットを提供するステップと、
前記会話拡張パラメータを前記オーディオ信号に適用することにより、推定会話成分を推定するステップと、
処理済み会話成分を生成するために、前記推定会話成分にコンプレッサーを適用するステップと、
時変調整利得のセットを決定するために、前記推定会話成分により前記処理済み会話成分を除算するステップと、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するステップと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するステップと、
を含む方法。
(EEE12) 前記コンプレッサーを適用する前に、前記推定した会話成分に第1イコライザを適用するステップ、を更に含むEEE11に記載の方法。
(EEE13) 前記時変パラメータのセットは、周波数帯域のセット毎に1つのパラメータを含む、EEE11又は12のいずれか一項に記載の方法。
(EEE14) オーディオ信号の会話拡張のためのデコーダであって、前記デコーダは、前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得しており、前記デコーダは、
(EEE15) 符号化ビットストリーム内で受信した前記オーディオ信号を復号するためのデコーダ要素と、
前記オーディオ信号から前記会話成分を推定する会話推定部と、
前記推定した会話成分を圧縮して、処理済み会話成分を生成するコンプレッサーと、
ユーザの決定した利得を前記処理済み会話成分に適用して、拡張した会話成分を提供する利得要素と、
前記拡張した会話成分を前記オーディオ信号と結合して、会話拡張オーディオ信号を形成する結合パスと、
を含むデコーダ。
(EEE16) 前記コンプレッサーを適用する前に、前記推定した会話成分を等化する第1イコライザ、を更に含むEEE14に記載のデコーダ。
(EEE17) 前記結合パスは、前記オーディオ信号から前記会話成分を減算して、非会話成分を形成する減算器と、前記非会話成分を前記拡張した会話成分に加算する加算点と、を含む、EEE14又は15に記載のデコーダ。
(EEE18) 前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分を等化する第2イコライザ、を更に含むEEE16に記載のデコーダ。
(EEE19) 前記第2イコライザは、前記第1イコライザと機能的に相互に関連する、EEE17に記載のデコーダ。
(EEE20) 前記符号化ビットストリームは、前記時変パラメータを含み、前記デコーダ要素は、前記時変パラメータを復号するよう構成される、EEE14~18のいずれか一項に記載のデコーダ。
(EEE21) 前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータを含む、EEE19に記載のデコーダ。
(EEE22) 前記符号化ビットストリームは、前記第1イコライザ及び存在する場合には前記第2イコライザを構成するためのステアリングデータを含む、EEE19又はEEE20に記載のデコーダ。
(EEE23) 会話拡張を可能にするためにオーディオ信号を符号化するエンコーダであって、
オーディオ信号に時変会話拡張パラメータのセットを適用することにより、前記オーディオ信号内に存在する会話成分を推定する会話推定器と、
処理済み会話成分を生成するために、前記推定した会話成分にを圧縮するコンプレッサーと、
時変調整利得のセットを決定するために、前記推定した会話成分により前記処理済み会話成分を除算する除算器と、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するコンバイナと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するエンコーダ要素と、
を含むエンコーダ。
(EEE24) 前記コンプレッサーを適用する前に、前記推定した会話成分を等化するイコライザ、を更に含むEEE22に記載のエンコーダ。
(EEE25) 1つ以上のプロセッサにより実行されると該プロセッサにEEE1~10のいずれか一項に記載の方法を実行させるコンピュータコード部分を含むコンピュータプログラムプロダクト。
(EEE26) EEE24に記載のコンピュータプログラムプロダクトを格納している非一時的記憶媒体。
(EEE27) 1つ以上のプロセッサにより実行されると該プロセッサにEEE1~13のいずれか一項に記載の方法を実行させるコンピュータコード部分を含むコンピュータプログラムプロダクト。
(EEE28) EEE26に記載のコンピュータプログラムプロダクトを格納している非一時的記憶媒体。