特許7577683 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許7577683オーディオコーデックにおける会話拡張

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
8
9A
9B
10A
10B
10C

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-25

(45)【発行日】2024-11-05

(54)【発明の名称】オーディオコーデックにおける会話拡張

(51)【国際特許分類】

G10L 21/0364 20130101AFI20241028BHJP

G10L 25/78 20130101ALI20241028BHJP

【ＦＩ】

G10L21/0364

G10L25/78

【請求項の数】 35

(21)【出願番号】P 2021560874

(86)(22)【出願日】2020-04-15

(65)【公表番号】

(43)【公表日】2022-06-29

(86)【国際出願番号】 EP2020060534

(87)【国際公開番号】W WO2020212390

(87)【国際公開日】2020-10-22

【審査請求日】2023-04-13

(31)【優先権主張番号】62/833,855

(32)【優先日】2019-04-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】19169218.5

(32)【優先日】2019-04-15

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】62/882,722

(32)【優先日】2019-08-05

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ゴルロフ，スタニスラフ

(72)【発明者】

【氏名】サミュエルソン，レイフジョナス

(72)【発明者】

【氏名】ホエリッヒ，ホルガー

(72)【発明者】

【氏名】フリードリッヒ，トビアス

【審査官】大野弘

(56)【参考文献】

【文献】特表２０１９－５０８９４７（ＪＰ，Ａ）

【文献】特表２０１０－５１８４５５（ＪＰ，Ａ）

【文献】特開２０１４－０８９４２０（ＪＰ，Ａ）

【文献】特開２０１５－０２２２３６（ＪＰ，Ａ）

【文献】特開２０１４－１３９６５８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／０３６４

Ｇ１０Ｌ２５／７８

(57)【特許請求の範囲】

【請求項1】

オーディオ信号の会話拡張のための方法であって、
前記オーディオ信号を含む符号化ビットストリームを受信するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得するステップと、
前記オーディオ信号から前記会話成分を推定するステップと、
前記推定した会話成分にのみコンプレッサーを適用して、処理済み会話成分を生成するステップと、
前記処理済み会話成分にユーザの決定した利得を適用して、拡張した会話成分を提供するステップと、
会話の拡張したオーディオ信号を形成するために、前記拡張した会話成分を前記オーディオ信号と結合するステップと、
を含み、
前記拡張した会話成分を前記オーディオ信号と結合する前記ステップは、前記オーディオ信号から前記推定した会話成分を減算することにより、非会話成分を形成するステップと、前記非会話成分を前記拡張した会話成分に加算するステップと、を含む、方法。

【請求項2】

前記コンプレッサーは、前記オーディオ信号のピークレベルを不変に保ちながら、前記推定した会話成分のみの平均パワーを増大させるよう構成される、請求項１に記載の方法。

【請求項3】

前記方法は、出力にリミッタを含むデコーダにより実行される、請求項１又は２に記載の方法。

【請求項4】

前記コンプレッサーを適用する前に、前記推定した会話成分に第１イコライザを適用するステップを更に含む請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分に第２イコライザを適用するステップ、を更に含む請求項４に記載の方法。

【請求項6】

前記第２イコライザは、前記第１イコライザと機能的に相互に関連する、請求項５に記載の方法。

【請求項7】

前記第１イコライザは、前記会話成分の１つ以上の周波数範囲をブーストするよう構成され、前記第２イコライザは、前記非会話成分の１つ以上の周波数範囲をカットするよう構成される、請求項５～６のいずれか一項に記載の方法。

【請求項8】

所与の周波数範囲について、前記会話成分のブーストはブースト帯域幅を有し、対応する非会話成分のカットは、前記ブースト帯域幅より狭いカット帯域幅を有する、請求項７に記載の方法。

【請求項9】

前記符号化ビットストリームは、前記第１イコライザ及び存在する場合には前記第２イコライザを構成するためのステアリングデータも含む、請求項５～８のいずれか一項に記載の方法。

【請求項10】

前記推定した会話成分に前記コンプレッサーを適用するステップは、前記ユーザの決定した利得が１より大きい場合、及び前記推定した会話成分がゼロではない場合に、実行される、請求項１～９のいずれか一項に記載の方法。

【請求項11】

前記コンプレッサーを適用するステップは、前記処理済み会話成分にメイクアップ利得を適用して、前記推定した会話成分のレベルに戻すよう前記処理済み会話成分のレベルを増大するステップを含む、請求項１～１０のいずれか一項に記載の方法。

【請求項12】

前記時変パラメータのセットは、周波数帯域のセット毎に１つのパラメータを含む、請求項１～１１のいずれか一項に記載の方法。

【請求項13】

前記符号化ビットストリームは、前記時変パラメータを含む、請求項１～１２のいずれか一項に記載の方法。

【請求項14】

前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータを含む、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

会話拡張を可能にするためにオーディオ信号を符号化する方法であって、
オーディオ信号を提供するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変会話拡張パラメータのセットを提供するステップと、
前記時変会話拡張パラメータを前記オーディオ信号に適用することにより、推定会話成分を推定するステップと、
処理済み会話成分を生成するために、前記推定会話成分にのみコンプレッサーを適用するステップと、
時変調整利得のセットを決定するために、前記推定会話成分により前記処理済み会話成分を除算するステップと、
変更会話拡張パラメータのセットを提供するために、前記時変会話拡張パラメータを前記時変調整利得と結合するステップと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するステップと、
を含む方法。

【請求項16】

前記コンプレッサーは、前記オーディオ信号のピークレベルを不変に保ちながら、前記推定した会話成分のみの平均パワーを増大させるよう構成される、請求項１５に記載の方法。

【請求項17】

前記コンプレッサーを適用する前に、前記推定した会話成分にイコライザを適用するステップ、を更に含む請求項１５又は１６に記載の方法。

【請求項18】

前記時変会話拡張パラメータのセットは、周波数帯域のセット毎に１つのパラメータを含む、請求項１５～１７のいずれか一項に記載の方法。

【請求項19】

オーディオ信号の会話拡張のためのデコーダであって、前記デコーダは、前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得しており、前記デコーダは、
符号化ビットストリーム内で受信した前記オーディオ信号を復号するためのデコーダ要素と、
前記オーディオ信号から前記会話成分を推定する会話推定部と、
前記推定した会話成分のみを圧縮して、処理済み会話成分を生成するコンプレッサーと、
ユーザの決定した利得を前記処理済み会話成分に適用して、拡張した会話成分を提供する利得要素と、
前記拡張した会話成分を前記オーディオ信号と結合して、会話拡張オーディオ信号を形成する結合パスと、
を含み、
前記結合パスは、前記オーディオ信号から前記推定した会話成分を減算して、非会話成分を形成する減算器と、前記非会話成分を前記拡張した会話成分に加算する加算点と、を含む、デコーダ。

【請求項20】

前記コンプレッサーは、前記オーディオ信号のピークレベルを不変に保ちながら、前記推定した会話成分のみの平均パワーを増大させるよう構成される、請求項１９に記載のデコーダ。

【請求項21】

前記デコーダの出力にリミッタを更に含む請求項１９又は２０に記載のデコーダ。

【請求項22】

前記コンプレッサーを適用する前に、前記推定した会話成分を等化する第１イコライザを更に含む請求項１９～２１のいずれか一項に記載のデコーダ。

【請求項23】

前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分を等化する第２イコライザ、を更に含む請求項２２に記載のデコーダ。

【請求項24】

前記第２イコライザは、前記第１イコライザと機能的に相互に関連する、請求項２３に記載のデコーダ。

【請求項25】

前記第１イコライザは、前記会話成分の１つ以上の周波数範囲をブーストするよう構成され、前記第２イコライザは、前記非会話成分の１つ以上の周波数範囲をカットするよう構成される、請求項２３又は２４に記載のデコーダ。

【請求項26】

所与の周波数範囲について、前記会話成分のブーストはブースト帯域幅を有し、対応する非会話成分のカットは、前記ブースト帯域幅より狭いカット帯域幅を有する、請求項２５に記載のデコーダ。

【請求項27】

前記符号化ビットストリームは、前記第１イコライザ及び存在する場合には前記第２イコライザを構成するためのステアリングデータを含む、請求項２３～２６のいずれか一項に記載のデコーダ。

【請求項28】

前記ユーザの決定した利得が１より大きい場合、及び前記推定した会話成分がゼロではない場合に、前記推定した会話成分に前記コンプレッサーを適用するよう構成される請求項１９～２７のいずれか一項に記載のデコーダ。

【請求項29】

前記コンプレッサーは、前記処理済み会話成分にメイクアップ利得を適用して、前記推定した会話成分のレベルに戻すよう前記処理済み会話成分のレベルを増大するよう更に構成される、請求項１９～２８のいずれか一項に記載のデコーダ。

【請求項30】

前記符号化ビットストリームは、前記時変パラメータを含み、前記デコーダ要素は、前記時変パラメータを復号するよう構成される、請求項１９～２９のいずれか一項に記載のデコーダ。

【請求項31】

前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータを含む、請求項１９～３０のいずれか一項に記載のデコーダ。

【請求項32】

会話拡張を可能にするためにオーディオ信号を符号化するエンコーダであって、
オーディオ信号に時変会話拡張パラメータのセットを適用することにより、前記オーディオ信号内に存在する会話成分を推定する会話推定器と、
処理済み会話成分を生成するために、前記推定した会話成分のみを圧縮するコンプレッサーと、
時変調整利得のセットを決定するために、前記推定した会話成分により前記処理済み会話成分を除算する除算器と、
変更会話拡張パラメータのセットを提供するために、前記時変会話拡張パラメータを前記時変調整利得と結合するコンバイナと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するエンコーダ要素と、
を含むエンコーダ。

【請求項33】

前記コンプレッサーを適用する前に、前記推定した会話成分を等化するイコライザ、を更に含む請求項３２に記載のエンコーダ。

【請求項34】

１つ以上のプロセッサにより実行されると該プロセッサに請求項１～１８のいずれか一項に記載の方法を実行させるコンピュータコード部分を含むコンピュータプログラム。

【請求項35】

請求項３４に記載のコンピュータプログラムを格納している非一時的記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願］
本願は、以下の先願：US仮出願番号第６２/８３３,８５５号（参照番号：D１８１１９USP１）、２０１９年４月１５日出願、EP出願第１９１６９２１８.５号（参照番号：D１８１１９EP）、２０１９年４月１５日出願、及びUS仮出願番号第６２/８８２,７２２号（参照番号：D１８１１９USP２）、２０１９年８月５日出願、の優先権を主張する。これらの出願は、参照によりここに組み込まれる。

【0002】

関連分野
本開示は、オーディオエンコーダ－デコーダ（コーデック）における会話拡張に関する。

【背景技術】

【0003】

会話拡張機能のサポートは、標準的に、従来のオーディオコーディング／復号システムに含まれる。

【0004】

デュアルエンドシステムでは、会話を拡張するための情報は、エンコーダからデコーダへ送信されるビットストリームに含まれてよい。この情報は、標準的に、時変（timeーvarying）会話拡張（dialogue enhancement (DE)）パラメータのセットと呼ばれ、周波数帯域毎に（チャネル当たり）１つのパラメータを含む。（１つのチャネルの中で）周波数帯域と共にタイムスロットは、一緒に「時間－周波数タイル」と呼ばれ、DEパラメータはこのようなタイル毎の時変利得を表す。デコーダ側では、DEパラメータは、ユーザの決定した会話利得と一緒に適用されて、会話拡張信号を提供する。

【0005】

しかしながら、このようなシステムにおける会話拡張の効果は、微細過ぎて知覚できない。従って、改良された処理が望まれる。

【0006】

他の領域では、等化と圧縮の組み合わせを含む会話拡張が提案されている。例えばUS２０１２/０２０９６０１を参照。しかしながら、このようなソリューションは、オーディオコーデックシステムに直ちに適用できない。

【発明の概要】

【0007】

従って、本開示のも目的は、オーディオコーデックシステムにおける向上した会話拡張を提供することである。

【0008】

本開示によると、この及び他の目的は、圧縮（及び任意的に等化）を含む追加処理を推定会話成分に対して行うことにより達成される。それにより、向上した会話拡張を可能にする。本開示の実施形態は、オーディオコーデックシステムの会話拡張が有意に改良され得るという認識に基づく。更に、本発明の実施形態によるデュアルエンドシステムでは、オーディオ信号に直接に従来適用される線形利得のような、会話拡張（dialogue enhancement (DE)）パラメータが、会話成分を推定するために代わりに使用され、それにより追加処理を可能にする。

【0009】

本発明の実施形態の第１の態様によると、推定会話成分の追加処理は、デコーダ側で実行される。

【0010】

より具体的には、第１の態様は、オーディオ信号の会話拡張のための方法であって、
前記オーディオ信号を含む符号化ビットストリームを受信するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得するステップと、
前記オーディオ信号から前記会話成分を推定するステップと、
前記推定した会話成分にのみコンプレッサーを適用して、処理済み会話成分を生成するステップと、
前記処理済み会話成分にユーザの決定した利得を適用して、拡張した会話成分を生成するステップと、
会話の拡張したオーディオ信号を形成するために、前記拡張した会話成分を前記オーディオ信号と結合するステップと、
を含む方法に関する。

【0011】

第１の態様は、オーディオ信号の会話拡張のためのデコーダであって、前記デコーダは、前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得しており、前記デコーダは、
符号化ビットストリーム内で受信した前記オーディオ信号を復号するためのデコーダ要素と、
前記オーディオ信号から前記会話成分を推定する会話推定部と、
前記推定した会話成分を圧縮して、処理済み会話成分を生成するコンプレッサーと、
ユーザの決定した利得を前記処理済み会話成分に適用して、拡張した会話成分を提供する利得要素と、
前記拡張した会話成分を前記オーディオ信号と結合して、会話拡張オーディオ信号を形成する結合パスと、
を含むデコーダに更に関する。

【0012】

シングルエンドシステムでは、会話成分を推定するための時変パラメータは、デコーダにおいて決定され、又は予め設定されてよい。しかしながら、好適な実装では、デコーダは、デュアルエンドシステムの部分であり、この場合には、パラメータは、符号化ビットストリームに含まれることができる（例えば、従来知られている会話拡張（DE）パラメータに対応する）。

【0013】

コンプレッサーは、有利なことに、オーディオ信号の推定会話成分にのみ適用される。コンプレッサーは、有利なことに、ユーザの決定した利得を適用する前に、及び拡張会話成分をオーディオ信号と結合する前に、適用される。従来のデコーダでは、会話及び非会話成分を含むオーディオ信号全体が、標準的に、オーディオ信号の処理中にブーストされ得る。従来のデコーダでは、リミッタが、標準的に、ブーストされた信号に適用されて、ブーストされた信号が飽和するのを回避し、それにより、ブーストされた信号のクリッピングを防ぐ。本発明の実施形態の第１の態様では、コンプレッサーは、標準的にデコーダ出力に挿入される従来のリミッタと異なる目的を有する。第１の態様によるコンプレッサーは、オーディオ信号のピークレベルを不変に保ったまま、オーディオ信号の会話成分のみの平均パワーを増大するために使用される。ユーザの決定した利得は、処理済み（圧縮された）会話成分に適用され、オーディオ信号又は後述する実施形態では非会話成分と結合され、その結果、会話成分が処理済みオーディオ信号の中で一層明確に目立つ。従って、第１の態様によると、コンプレッサーは、オーディオ信号の会話成分と非会話成分、例えば背景との間の、会話拡張オーディオ信号の信号対雑音比を増大する。従って、第１の態様によるコンプレッサーは、信号のクリッピングを防ぐために使用されない。

【0014】

実施形態では、会話成分は、時間と共に変化するレベルを有する会話を含む。第１の態様によると、コンプレッサーは、会話成分のより騒々しい部分のオーディオレベルを、より静かな部分のオーディオレベルに近づけてよい。

【0015】

実施形態では、コンプレッサーは、処理済み（圧縮）会話成分にメイクアップ（make－up）利得を適用して、処理済み会話成分のレベル、例えばピークレベルを、推定会話成分のレベル、例えばピークレベルに戻すよう増大してもよい。メイクアップ利得の適用は、会話成分のレベルの全体的増大をもたらし、従って、圧縮会話成分をより聞きやすくする。

【0016】

更に後述する実施形態では、リミッタが、デコーダの出力において使用されて、処理済みオーディオ信号をクリッピングから保護してよい。会話成分が単純な利得によりブーストされているが、圧縮されない場合、リミッタは、ブーストされた会話の知覚される効果を有意に低減し又は取り消してしまうことがある。他方で、会話成分を圧縮しブーストすることにより、会話の平均パワーが増大されて、リミットの後でも、会話レベルの知覚される増大が達成され得る。このように、オーディオ信号の会話成分にのみコンプレッサーを適用することは、出力リミッタに、知覚的によりロバストな会話拡張システムを提供する。

【0017】

圧縮の前に、等化が更に推定会話成分に適用されるとき、推定会話成分の圧縮は、等化した推定会話成分を圧縮することを表すことが理解される。

【0018】

本発明の実施形態の第２の態様によると、推定会話成分の追加処理が、デュアルエンドシステムのエンコーダ側で実行され、変更会話拡張（DE）パラメータをもたらし、これは符号化されてビットストリーム内に含まれる。

【0019】

圧縮は時間変数非線形演算であるが、単に非線形である利得値の計算であることに留意する。計算された利得値の実際の適用は、事実上線形演算である。静的（時間的に不変の）イコライザ曲線の適用も線形である。発明者らは、従って、本発明の実施形態による会話成分の追加処理が、代替として、イコライザ係数及び（メイクアップを含む）圧縮利得を会話拡張（DE）パラメータのセットに組み込んでDEパラメータの変更されたセットを生成することにより、エンコーダ側で実現できることを理解している。

【0020】

より具体的には、第２の態様は、会話拡張を可能にするためにオーディオ信号を符号化する方法であって、
オーディオ信号を提供するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変会話拡張パラメータのセットを提供するステップと、
前記会話拡張パラメータを前記オーディオ信号に適用することにより、推定会話成分を推定するステップと、
処理済み会話成分を生成するために、前記推定会話成分にのみコンプレッサーを適用するステッと、
時変調整利得のセットを決定するために、前記推定会話成分により前記処理済み会話成分を除算するステップと、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するステップと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するステップと、
を含む方法に関連する。

【0021】

第２の態様は、会話拡張を可能にするためにオーディオ信号を符号化するエンコーダであって、
オーディオ信号に時変会話拡張パラメータのセットを適用することにより、前記オーディオ信号内に存在する会話成分を推定する会話推定器と、
処理済み会話成分を生成するために、前記推定した会話成分にのみを圧縮するコンプレッサーと、
時変調整利得のセットを決定するために、前記推定した会話成分により前記処理済み会話成分を除算する除算器と、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するコンバイナと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するエンコーダ要素と、
を含むエンコーダにも関連する。

【0022】

本発明の実施形態の第１の態様を参照して記載されたコンプレッサーの有利な効果は、本発明の種々の実施形態の第２の態様によっても達成される。

【0023】

両方の態様（デコーダ及びエンコーダ）は、実質的に同じ技術的効果を提供する。

【0024】

第２の態様（エンコーダにおける処理）の利点は、デコーダが変更される必要がないことである。コンプレッサーは、所与の閾値を超える信号の部分、例えば所与の閾値より高いピーク又はRMSレベルを有する信号の部分を減衰してよい。圧縮比は、約５：１又は最大で２０：１であってよい。メイクアップ利得は、会話信号の元のレベル（例えば、ピーク又はRMSレベル）を維持するために適用できる。

【0025】

デュアルエンドシステムでは、符号化ビットストリームは、コンプレッサーを構成するための圧縮パラメータも含んでよい。このようなパラメータは、例えば、閾値、圧縮比、アタックタイム、リリースタイム、及びメイクアップ利得を含んでよい。

【0026】

推定会話成分の追加処理は、望ましくは、コンプレッサーを適用する前に、推定した会話成分に第１イコライザを適用するステップ、を含む。このような等化は、圧縮の効果を更に拡張するよう機能してよい。

【0027】

用語「イコライザ（equalizer）」は、広義に解釈されるべきであり、例えば時間ドメインにおける差分方程式（difference equation）の適用を含んでよい。最も実用的な例では、しかしながら、イコライザは、周波数依存（複素）利得を推定会話信号に適用する要素であるが、幾つかの場合には実数値利得が十分であってよい。

【0028】

イコライザは、より低い周波数（例えば、５００Hzより下）をロールオフすること、及び選択された周波数範囲において小さく広いブーストを与えることを含んでよい。更に詳細な例については以下を参照する。

【0029】

拡張会話成分をオーディオ信号と結合するステップは、推定会話成分をオーディオ信号から減算することにより、推定非会話成分（時に、M&E（music and effects）と呼ばれる）を形成するステップと、次に推定非会話成分を拡張会話成分に加算するステップと、を含んでよい。

【0030】

幾つかの実施形態では、推定非会話成分も、推定非会話成分が拡張会話成分に加算される前に、第２イコライザを適用することにより、等化を行われる。このような第２イコライザは、第１イコライザと機能的に相互に関連してよい。例えば、推定会話が増幅される周波数領域では、M&Eは僅かな減衰を与えられてよい。より詳細な例については、実施形態の説明を参照する。

【0031】

デュアルエンドシステムでは、符号化ビットストリームは、第１イコライザ及び存在する場合には第２イコライザを構成するための制御データ又はステアリングデータも含んでよい。例えば、デコーダは、異なるイコライザプリセットのセットを提供されてよく、ビットストリーム内の制御データはどのプリセットを適用すべきかを選択してよい。

【図面の簡単な説明】

【0032】

本発明の実施形態は、添付添付図面を参照して詳細に説明される。

【図1】本発明の実施形態によるデコーダのブロック図である。

【図2】本発明の第２の実施形態によるデコーダのブロック図である。

【図3】本発明の実施形態によるエンコーダの部分のブロック図である。

【図4】図３のエンコーダソリューションと共に使用するのに適するデコーダである。

【図5】図２の方法のデコーダのより詳細な実装のブロック図である。

【図6】本発明の実施形態による、図５の会話拡張コンポーネントを示すブロック図である。

【図7A】本発明の別の実施形態による、図５の会話拡張コンポーネントの例を示すブロック図である。

【図7B】本発明の別の実施形態による、図５の会話拡張コンポーネントの例を示すブロック図である。

【図8】本発明の更に別の実施形態による、図５の会話拡張コンポーネントを示すブロック図である。

【図9A】図２のイコライザの等化機能の例である。

【図9B】図２のイコライザの等化機能の例である。

【図10A】従来のアプローチによる、会話拡張の例を概略的に示す。

【図10B】本発明の実施形態による会話拡張の例を概略的に示す。

【図10C】本発明の別の実施形態による、会話拡張の例を概略的に示す。

【発明を実施するための形態】

【0033】

以下に開示されるシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組合せとして実装されてよい。ハードウェア実装では、タスクの分割は、必ずしも物理的ユニットへの分割に対応しない。反対に、１つの物理コンポーネントは、複数の機能を有してよく、１つのタスクは複数の物理コンポーネントにより共同で実行されてよい。特定のコンポーネント又は全部のコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサにより実行されるソフトウェアとして実装されてよく、又はハードウェアとして、又は特定用途向け集積回路として実装されてよい。このようなソフトウェアは、コンピュータ記憶媒体（又は非一時的媒体）及び通信媒体（又は一時的媒体）を含み得るコンピュータ可読媒体上で分配されてよい。当業者に知られているように、用語「コンピュータ記憶媒体」は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータのような情報の記憶のための任意の方法又は技術で実施される、揮発性及び不揮発性の両方、取り外し可能及び非取り外し可能媒体、を含む。コンピュータ記憶媒体は、限定ではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、又は他のメモリ技術、ＣＤ－ＲＯＭ、ＤＶＤ（digital versatile disk）、又は他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶又は野田磁気記憶装置、又は所望の情報を格納するために使用可能な、コンピュータによりアクセス可能な任意の他の媒体、を含む。更に、当業者に知られているように、通信媒体は、標準的に、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータを、搬送波又は他の転送メカニズムのような変調されたデータ信号で具現化し、任意の情報配信媒体を含む。

【0034】

以下の説明は、デュアルエンドコーデックシステムにおける種々のデコーダ及びエンコーダの実施形態に関する。本発明の実施形態はシングルエンドデコーダで実施されてもよいことに留意する。このような実施形態では、会話成分を推定するための時変パラメータaは、ビットストリーム内で受信されないが、代わりに、受信オーディオ信号Ｙに基づきデコーダにより決定される。

【0035】

＜デコーダ側の実装＞
図１のデコーダ１０は、ビットストリームからの入力オーディオ信号Yと時間依存会話拡張（dialogue enhancement (DE)）パラメータとを受信する会話推定ブロック１１を含む。図１に示されないが、オーディオ信号Y及びパラメータセットaは、両方とも符号化ビットストリームから復号される。パラメータaは、周波数帯域のセットの各々の（及び、勿論、会話を運ぶチャネル毎）パラメータを含む。時間依存性の解像度は、標準的に、ビットストリームのフレームレートにより決定され、フレーム（m）及び周波数帯（k）の特定の組合せは、時間－周波数タイルと呼ばれる。この用語によると、DEパラメータは、時間－周波数タイル毎に、１つ以上のパラメータa(m,k)を含む。留意すべきことに、DEパラメータは、標準的に、オーディオ信号より粗い周波数解像度を有し、１つのDE周波数帯域がオーディオ信号の幾つかの周波数ビンを含んでよい。DEパラメータは、会話推定ブロック１１が、D(m,k)=a(m,k)Y(m,k)に従い、オーディオ信号Yの中に存在する会話成分Dを推定することを可能にする。更なる詳細については、参照によりここに組み込まれるWO２０１７/１３２３９６を参照する。

【0036】

デコーダは、本実施形態では、直列に接続された第１イコライザ１２とコンプレッサー１３とを含む会話処理パスを更に含む。コンプレッサー１３の出力は、g－１の係数により乗算を実行する増幅器１４に接続され、ここでgはユーザの決定した線形利得である。

【0037】

ユーザの決定した利得gは、全体として適用すべき会話利得の程度を表してよい。例えば、ユーザは、利得gを、ユーザが快適であると感じるレベルに設定してよく、それを該レベルにしてよい。ユーザが、会話成分のレベルが静か過ぎると感じる場合、ユーザは、利得gを増大することにより、レベルを増大できる。同様に、ユーザが会話成分のレベルが大きすぎると感じる場合、ユーザは、利得gを減少することによりレベルを減少できる。しかしながら、多くの実際の場合にはユーザは、より大きな会話成分を好み、利得は、標準的に１以上の値に設定され得る。

【0038】

イコライザ１２の上流には、スイッチ１５が配置され、以下の２２つの条件が満たされるときのみ、本実施形態では、推定会話信号Dを処理パス（コンプレッサー１３及び任意的にイコライザ１２）に接続するよう構成される：
１）ユーザが選択した利得係数gが」１より大きい、
２）会話拡張パラメータaが、時間－周波数タイルについてゼロではない、つまり会話が存在する。

【0039】

これらの条件のいずれも満たされない場合、推定会話成分Dは、いかなる処理もされずに、乗算器１４に直接接続される。スイッチの他の設定も可能である。例えば、第２の条件を要求しない。

【0040】

最後に、デコーダは、乗算器１４からの出力を入力オーディオ信号Yに加算するよう構成される加算点１６を含む。

【0041】

使用中、g>１のとき、図１のイコライザは、推定会話成分Dを（圧縮及び任意的に等化により）処理し、次にそれをg－１により乗算し、次に最後にそれを元のオーディオ信号Yに加算する。g≦１のとき、エンコーダは、g－１により（処理を伴わず）推定会話成分Dを乗算し、それを元のオーディオ信号Yに加算する。留意すべきことに、この後者の場合は、係数g－１が０より小さいので、会話を減衰することに対応する。加算点１６は、従って、この場合には減算である。

【0042】

より精巧な実施形態が図２に示される。ここで、デコーダ２０は、推定会話Dを入力オーディオ信号Yから減算し、それによりM&E（music and effects）と呼ばれることのある推定「非会話成分」を形成するよう構成される減算点２１を更に含む。図２のデコーダは、第２イコライザ２２を有する処理パスを更に含む。第２イコライザ２２の出力は、加算点２４に接続される。第２イコライザ２２の前に、本実施形態では、以下の２つの条件が満たされるときだけ、M&E信号を第２イコライザに供給するよう構成される第２スイッチ２３がある。

【0043】

１）ユーザが選択した利得係数gが１より大きい、
２）会話拡張パラメータa(m,k)が、時間－周波数タイルについてゼロではない、つまり会話が存在する。

【0044】

図２で、加算点２４は、イコライザ２２からの処理済みM&E、又はスイッチ２３から直接の未処理M&Eに接続される。加算の結果は、会話拡張オーディオ信号である。

【0045】

図１及び２のイコライザ１２、２２は、標準的に、周波数依存（複素）利得を入力信号（つまり、推定会話信号又はM&E信号）に適用するよう構成される。第１及び第２イコライザ１２、２２は、例えば、第１イコライザの利得機能がブーストを有するとき、第２イコライザの利得機能が対応する（しかし標準的により狭い帯域）カットを有するという意味で、機能的に相互に関連できる。これは、図９A、９Bに、例示的なイコライザ利得関数EQ_１及びEQ_２について示される。第１の利得関数EQ_１は、ここでは、約４００Hzより下でロールオフ、約３kHzで僅かな谷（つまり減衰）、及び約５kHz及び１０kHzでピークを有する。第２の利得関数EQ_２は、約５kHz及び１０kHzで対応するカットを有する。留意すべきことに、これらの利得関数は単なる例であり、利得関数の詳細は、実際の適用及び所望の効果に依存する。

【0046】

図１及び２のコンプレッサー１３は、閾値、圧縮比、アタックタイム、リリースタイム、メイクアップ利得のようなパラメータをふゅうするシングルエンドコンプレッサーであってよい。圧縮パラメータは、ビットストリームから復号でき、フレーム毎に異なってよい。例えば、圧縮比は、５：１、１０：１、又は２０：１であってよい。アタックは１０msであってよく、リリースは２５０msであってよいく、当タイ的な閾値はー６dBであってよく、メイクアップ利得は１０dBであってよい。閾値（つまり、設定されるべき圧縮の下限）は、長期又は短期音量レベルの基準に対して設定されてよい。例えば、それは、オーディオ信号における平均会話音量の指示であってよい会話正規化値に対して設定されてよい。会話正規化値は、場合によっては、ビットストリーム内で提供され得る追加情報に基づき局所的な偏差について調整されてよい。

【0047】

＜行列乗算としての実装＞
留意すべきことに、図１及び２のブロック図は、デコーダの機能の概略表現である。より実用的な実装は標準的に、行列乗算Z=H・Yとして実現される。ここで、Yは入力オーディオ信号であり、Hは入力ー出力表列の形式の伝達関数であり、Zは会話拡張出力信号である。

【0048】

直交ミラーフィルタ（quadrature mirror filter (QMF)）ドメインにおける会話拡張を考えると、入力オーディオ信号は以下であり：

【数1】

ここで、mはタイムスロットインデックスであり、kは周波数帯域インデックスであり、（特定の時間－周波数タイルについての）推定会話成分はD=aYであり、ここで、a(m,k)はビットストリーム更新の間に補間されてよい。更に、次式が、全てのkについてDの瞬間エンベロープ値を表すとする：

【数2】

【0049】

次に、a>０且つg>１の場合、会話拡張出力Zは以下により与えられる：

【数3】

ここで、q_１及びq_２は、EQ係数であり、fは、以下のエンベロープ値の関数である圧縮利得である：

【数4】

【数5】

【0050】

従って、実用的な実装では、静的なEQ曲線の係数は、ルックアップテーブルに格納でき、HがYに適用される前に、圧縮利得fがV~から計算される必要があるだけである。

【0051】

マルチチャネル設定では、対応する利得fは、各チャネル毎に別個に利得を計算し、最小利得を全部のチャネルに共通の利得として取り入れることにより、同様の方法で取得される。これは、各チャネルの瞬間エンベロープ値を別個の計算し、最大エンベロープ値から利得を導出することと等価である。

【0052】

推定会話Dの追加処理がオフにされる場合（g<１）、f=q_１=q_２=１であり、出力Zは次式になる：

【数6】

【0053】

Ｄ及び／又はD~のための追加バッファを有する必要は、以下のようにエンベロープV~を計算することにより除去できる：

【数7】

ここで、a(m,k)利得は、ビットストリーム更新の間に補間されてよい。

【0054】

＜エンコーダ側の実装＞
図２を参照して説明したアプローチは、図３に示すようなエンコーダ側にも適用できる。

【0055】

デュアルエンドシステムのエンコーダは、ビットストリームに含まれるべき時変会話拡張パラメータaのセットを計算するデジタル処理回路（図示せず）を含む。その結果、デコーダは、オーディオ信号から会話成分を推定できる。

【0056】

図３は、エンコーダの部分を示し、エンコーダにおいて予め計算されたパラメータaを用いてオーディオ信号Yの中に存在する会話成分Dを推定する会話推定ブロック３１（上述の会話推定ブロック１１と同様である）を含む。エンコーダは、イコライザ３２とコンプレッサー３３とを有する処理パスを更に含む。処理パスは、推定会話成分Dを受信し、処理結果を乗算器３４に提供する。エンコーダは、推定会話成分Dを受信し乗算器３４に提供される反転会話成分D^－１を出力するx^－１インバータ３５も含む。乗算器の出力は、第２乗算器３６に接続される。第２乗算器３６も、会話拡張パラメータaを受信する。

【0057】

使用中、乗算器３４は、処理済み会話成分を受信し、それを１/Dで乗算する。つまり、処理済み会話成分と推定会話成分との間の比rを提供する。比ｒは、標準的に、１時間－周波数タイルに固有である。比rは、従って、特定の時間－周波数タイルについて、推定会話成分を基準として、処理パス３２、３３の貢献を表す。各タイルについて、乗算器３６は、DEパラメータaを比rで乗算して、変更DEパラメータbを出力する。変更DEパラメータbの完全なセットは、次に、オーディオ信号と一緒にビットストリームに符号化される。

【0058】

本発明の実施形態が（図３に示されるように）エンコーダ側で実施されるとき、それは、図４に示されるもののような既存のデコーダと後方互換性がある。受信信号Yを変更DEパラメータbにより乗算することにより、デコーダは、図３のエンコーダのコンプレッサー３３から出力される処理済み会話信号を再生することができる。このような処理済み会話信号がg－１によりスケーリングされ、次にYに加算され戻されるとき、図４のデコーダに示されるように、既存のデコーダにおいても、向上した会話拡張信号を生成することが可能である。

【0059】

＜実用的な実装＞
図５は、本発明の実用的な実施形態による会話拡張が既存のデコーダトポロジにどのように実装され得るかを概略的に示す。図５に示すように、デコーダ５０は、通常、受信したビットストリームを復号するコアデコーダ５１、任意的な変換器５２、例えばバイノーラル変換T、行列変換５３及びフィードバック遅延ネットワーク（feedback delay network (FDN)）ブロック５４を含む任意的な遅延反響処理パスを含む。エンコーダは、２個の加算点５６、５７（図２の２個の加算点２１、２４に対応する）に出力を提供する会話拡張（DE）ブロック５５を更に含む。最後に、デコーダ５０は、例えば音量制御を提供する後処理ブロック５８、及びリミッタ５９を含む。

【0060】

図６は、ステレオオーディオの特定の場合の図５の会話拡張ブロック５５の例を示す。ブロック５５は、変換A_coreを用いて会話成分を推定する会話推定ブロック６１（図１及び２のブロック１１に対応する）、及び更に推定会話の等化及び圧縮を提供する処理ブロック６２を含む。等化がM&E信号に適用されない場合には、ブロック６２内の変換はf(m)・q_１(k)、及びq_２(k)=１と等価である。乗算点６４（図１及び２の乗算器１４に対応する）は、処理済み会話をユーザの決定した利得gで乗算する。

【0061】

図示の実施形態では、ブロック６２における圧縮は、推定会話信号に基づき適切なコンプレッサー利得を計算するサイドチェーン６３により提供される。留意すべきことに、ブロック６２における等化も、サイドチェーンブランチの上流で提供されてよい。その結果、サイドチェーン６３への入力もイコライザを通る。別のオプションは、サイドチェーン６３内で別個のイコライザを適用することである。このイコライザは、従ってブロック６２のイコライザと異なってよい。

【0062】

ステレオオーディオの場合、QMFバンク表記を使用して、次式：

【数8】

（ここで、それぞれ、インデックス「１」はステレオチャネルペアの左チャネルを表し、インデックス「２」は右チャネルを表す）から、拡張された会話：

【数9】

へのマッピングは、次式により表すことができる：

【数10】

ここでも、mはタイムスロットインデックスであり、kは周波数帯域インデックスであり、次式の通りである：

【数11】

ここで、
－ A_coreは、LoRo完全メイン（complete main）からLoRo会話を推定する２×２行列である。標準的に、A_coreは、８個の周波数帯域に分割され、公称フレームレートで２０４８サンプル毎に生じるビットストリーム更新の間に補間される。
－ gは、会話ブーストの量を決定するユーザ利得である。それは、フレーム毎に変化することができ、フレーム間の補間を必要としてよい。
－ f(m)は、タイムスロットm毎に計算されるコンプレッサー利得である。利得はブロードバンドである。従って、kに依存しない。更に、同じコンプレッサー利得が標準的にチャネル毎に使用される。従って、f(m)はスカラーである。
－ q_１(k)は、会話信号に適用される時不変EQ曲線である。
－ q_２(k)は、E&M(musicーandーeffects)信号に適用される時不変EQ曲線である。
－ I_２は、２×２単位行列（identity matrix）である。

【0063】

５：１サラウンドの場合は、ステレオの場合から容易に得られる。唯一の違いは、３個のフロントチャネルL/R/C（left/right/center）だけが本発明の実施形態による会話拡張により処理されることである。前述の２チャネルの例と同様に、同じコンプレッサー利得が、３個のフロントチャネルの各々に標準的に使用される。図６で、ブロック６１の変換「A_core」は、ここで、３×３（会話）行列であり、その要素として対応するDEパラメータを有し、５：１サラウンドチャネルのフロントの３個のチャネルだけに適用されて、会話信号を推定する。

【0064】

図７Ａは、ここではバイノーラル変換５２を含む代替のステレオ実装のための会話拡張ブロック５５’の別の例を示す。バイノーラル変換の詳細については、参照によりここに組み込まれるWO２０１７/０３５２８１及びWO２０１７/０３５１６３を参照する。

【0065】

図中、３個の異なる会話推定ブロック７１、７２、７３が存在し、それおｚれ、変換Aの異なるモード（「構成」とも呼ばれる）を表し、A_cfg０,A_cfg１,及びA_cfg２とラベル付けされる（詳細については、参照によりここに組み込まれるWO２０１７/１３２３９６を参照する）。留意すべきことに、図６において、A_cfg２はA_coreと等価である。ブロック６２及び６３は、図６のそれらと同様である。

【0066】

この代替のステレオ実装では、ここでもQMFバンク表記を使用し、次式：

【数12】

から拡張された会話LaRa（バイノーラル）：

【数13】

へのマッピングは次式のように表すことができる：

【数14】

ここで、
－ Tは、ステレオ信号をバイノーラル信号に変換する２×２行列である。Tは、例えば公称フレームレートで４０９６サンプル毎に生じるビットストリーム更新の間に補間される。
－ A_cfgXは、LoRo完全メイン（complete main）から会話を推定する２×２行列であり、ここでXはモード（構成）を示す。幾つかのモードは、バイノーラル変換を含む。図７Ａでは、M&E信号を生成するためにA_cfg２=A_coreが使用されることに留意する。

【0067】

代替として、図７Ａの会話拡張５５’は、ステレオ信号がバイノーラル信号に変換された後に（つまりブロック５２の後に）適用できる。これｈ、図７Ｂに開示され、ここで、同様の要素は図７Ａと同じ参照符号が与えられる。(バイノーラル)M&E信号を生成するためにA_cfg０が使用されることに留意する。

【0068】

ステレオ信号から推定会話を減算することは、会話のバイノーラルバージョンがビットストリーム内に存在する場合にのみ関連する。減算処理は、性能低下を犠牲にして省略できる。減算が省略された場合、ユーザ利得gの解釈は、変化する。その場合、ユーザ利得が０に等しいことは、会話拡張が無いことを意味し、ユーザ利得が１に等しいことは６dBのブーストを生じる。負の値のgは減衰をもたらすが、会話拡張の後の会話はステレオ信号の会話と異なるので、粗悪な減衰が予想され、従って、出力における会話拡張信号は、歪みに苦しむ。

【0069】

更に別の実施形態では、図８に示すように、会話拡張５５”は、会話拡張ステレオ信号の変換の前に、バイノーラル信号に適用でき、ここでも、同様の要素は図７Ａと同じ参照符号を与えられる。この場合、上述の構成(cfg１,cfg２,cfg３)は、不要であり、コア構成(A_core)のみが必要である（ブロック７３）。実際に、この変形は、１）会話拡張５５”、５６、５７を有するステレオデコーダと、２）バイノーラル変換５２とのカスケードに対応する。

【0070】

＜クロスフェード＞
幾つかの実施形態では、デコーダは、従来の会話拡張（つまり、会話の圧縮及び等化を有しない）と本発明による会話拡張との間を切り換えるよう構成されてよい。このような切り替えは、例えばビットストリーム内のステアリングデータに基づいてよい。簡単のために、従来の会話拡張は、ここではDEと略され、一方、本発明による会話拡張はADE（“advanced” dialogue enhancement）と呼ばれる。DEとADEとの間の切り替えは、ユーザ経験を劣化させる可能性のある、音量の聞こえるジャンプをもたらし得る。

【0071】

適用される会話拡張におけるこのような不連続の聞こえる効果を軽減するために、デコーダは遷移メカニズムを含んでよい。遷移メカニズムは、シームレス切り替えのために一般的に使用されるクロスフェードであり得る。一般的に、クロスフェードは、第１の信号Aから第２の信号Bへ所与の時間に渡り、出力が次第に切り換えられることを意味する。それは以下のように表すことができる：

【数15】

ここで、f_smoothは、出力がAからBに切り替えられる場合に１から０にランプダウン、出力がBからAに切り替えられるとき０から１へとランプアップされる重み係数である。

【0072】

この場合には、重み係数は、以下の関数により定義できる。これは、ADEがオンに切り換えられるとき、０から１へのランプ（ramp）を生成し(ADE_switch=１)、このような会話拡張がオフに切り替えられるとき１から０への逆ランプを生成する(ADE_switch=０)。

【数16】

【0073】

ランプの期間は、時定数τにより決定される。時定数は、１又は複数のデコーダ処理フレームであってよい。所与の例では、ランプは線形であるが、時間τの範囲内で０と１の間を円滑に遷移する任意の関数であってよい。例えば、それは、対数、２次、又はコサイン関数であり得る。

【0074】

図１０A及び１０Bは、従来のアプローチ（図１０Ａ）による及び本発明の実施形態（図１０Ｂ）による没入型ステレオシステムにおける会話拡張を概略的に示す。図１０Ｂは、上述の図７Ａに基本的に対応する。しかしながら、イコライザ及びコンプレッサーは、ここでは、ADE利得計算ブロック１０５で計算された利得の適用として示される。

【0075】

留意すべきことに、没入型ステレオシステムは例として使用され、クロスフェードの原理は、DEとADEとの間で切り替える他の適用でも実装されてよい。

【0076】

両方の場合に、入力LoRoステレオ信号は、会話拡張没入型LaRa信号を提供するために処理される。図１０Aでは、行列M_DEがLoRo信号に適用され、図１０Ｂでは、行列M_ADEがLoRo信号に適用される。このために、FDN（Feedback Delay Network）１００は、FDN供給（FDN feed）信号を受信し、最終的なヘッドフォン出力LbRbを得るために拡張対話とミキシングされるFDN信号を生成する。

【0077】

図１０Ａから、先に使用された表記を用いると、以下の通りである：

【数17】

ここで、Tはブロック１０１において適用され、A_cfgXはブロック１０２において適用され、適切な利得（g－１）が乗算点１０３において適用される。

【0078】

図１０Bから、先に使用された表記を用いると、以下の通りである：

【数18】

ここで、T及びA_cfgXはここでもブロック１０１及び１０２においてそれぞれ適用され、A_cfg２はブロック１０４において適用され、ADE_gainはブロック１０５において計算され、乗算点１０６において利得gの影響を受け、最終的に乗算点１０３に適用される。

【0079】

留意すべきことに、会話拡張は、CQMFドメインで実現され、M_ADE及びM_DEの両方は、タイムスロット及びCQMF帯域の変化する２×２行列であり、LoRo及びLaRaは両方ともタイムスロット及びCQMF帯域の変化する２×１行列（列ベクトル）である。叙述のように、I_２は、２×２単位行列（identity matrix）である。

【0080】

クロスフェードLaRa信号、つまり図１０ＡのLaRa信号及び図１０ＢのLaRa信号のクロスフェードは、次式に従い、行列M_ADE及びM_DEに以上に定義された重み付け関数f_smoothを直接適用することにより実施できる。

【数19】

【0081】

図１０Cは、図１０Ａ及び１０Ｂの図に基づくブロック図としてこれを概略的に説明する。

【0082】

図１０Ｃで、重みf_smoothは、ブロック１０４からの出力に適用され、その結果、図１０Ｂの会話の減算は、f_smoothが１に近づくにつれ、消えていく。更に、重みf_smoothが乗算点１０６に適用され、重み(１－f_smooth)が利得(g－１)に適用される。これらの２つの重み付けされた利得は、次に、乗算点１０３に接続される前に、加算点１０７で加算される。これは、f_smooth=０ではて、乗算点１０３が図１０Ａと同じ入力を受信し、一方で、f_smooth=１では図１Ｂと同じ入力を受信することを意味する。

【0083】

＜一般化＞
本願明細書を通じて「一実施形態」、「幾つかの実施形態」又は「実施形態」への言及は、実施形態に関連して記載される特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。従って、本明細書を通じて様々な場所における「一実施形態では」、「幾つかの実施形態では」又は「実施形態では」という語句の出現は、必ずしも全部が同じ例示的な実施形態を参照しない。更に、特定の特徴、構造、又は特性は、１つ以上の実施形態において、本開示から当業者に明らかなように、任意の適切な方法で組み合わされてよい。

【0084】

本願明細書で使用されるとき、特に断りのない限り、共通のオブジェクトを説明するための序数「第１」、「第２」、「第３」などの使用は、単に、同様のオブジェクトの異なるインスタンスが言及されていることを示すものであり、説明されているオブジェクトが時間的に、空間的に、ランク付けにおいて、又は任意の他の方法で所与のシーケンスでなければならないことを意味しない。

【0085】

以下の請求の範囲及び本願明細書に記載の説明では、用語：含む、有する、構成される、又は構成するのうちの任意の１つは、広義であり、それに続く要素／特徴を服無くとも含むが他を排除しないことを意味する。従って、用語：含むは、請求項中で使用されるとき、その後に列挙される手段又は要素又はステップに限定されると解釈されてはならない。例えば、表現の範囲：装置はＡ及びＢを含む、は、装置が要素Ａ及びＢのみで構成されることに限定されるべきではない。用語：有するも、本願明細書で使用されるとき、広義であり、該用語に続く要素／特徴を少なくとも含むが他を排除しないことを意味する。従って、有するは、含むと同義語であり、含むを意味する。

【0086】

本願明細書で使用されるとき、用語「例示的な」は、品質を示すのではなく、例を提供するという意味で使用される。つまり、「例示的な実施形態」は、例として提供される実施形態であり、必ずしも例示的な品質の実施形態ではない。

【0087】

理解されるべきことに、本発明の例示的な実施形態の上述の説明では、本開示の種々の特徴は、本発明を効率化する及び種々の本発明の態様のうちの１つ以上の理解を支援する目的で、時に単一の実施形態、図、又はその説明に一緒にグループ分けされる。しかしながら、本開示のこの方法は、請求の範囲が明示的に記載されたよりも多くの特徴を必要とするという意図を反映していると解釈されてはならない。むしろ、以下の請求項が反映するように、本発明の態様は、単一の前述の開示された実施形態の全部の特徴よりも少数にある。従って、詳細な説明に続く請求の範囲は、この詳細な説明に明示的に組み込まれ、各請求項は、本発明の個別の実施形態としてそれ自体独立である。

【0088】

更に、本願明細書に記載した幾つかの実施形態は、他の実施形態に含まれる他の特徴ではなく幾つかの特徴を含むが、当業者により理解されるように、異なる実施形態の特徴の組合せは異なる実施形態を形成する。例えば、以下の請求の範囲では、請求される実施形態のうちの何れかが、任意の組合せで使用できる。

【0089】

更に、実施形態のうちの幾つかは、コンピュータシステムのプロセッサにより又は機能を実行する他の手段により実施可能な方法又は方法の要素の組合せとして記載された。従って、このような方法又は方法の要素を実行するために必要な命令を有するプロセッサは、方法又は方法の要素を実行する手段を形成する。更に、機器の実施形態のここに記載された要素は、本発明の種々の実施形態を実行する目的で、要素により実行される機能を実行する手段の例である。

【0090】

本願明細書で提供される説明では、多数の特定の詳細事項が説明された。しかしながら、本発明の実施形態は、これらの特定の詳細事項を有しないで実施されてよいことが理解される。他の例では、よく知られた方法、構造、及び技術は、本発明の説明の理解を不明瞭にしないために、示されなかった。

【0091】

同様に、用語「結合される」は、請求の範囲で使用されるとき、直接接続のみに限定されると解釈されるべきではないことに留意する。用語「結合され」及び「接続され」は、派生語と共に、使用されることがある。理解されるべきことに、これらの用語は、互いに類義語として意図されない。従って、表現の範囲、装置Ｂに結合された装置Ａは、装置Ａの出力が装置Ｂの入力に直接接続された装置又はシステムに限定されるべきではない。それは、Ａの出力とＢの入力との間に、他の装置又は手段を含むパスであるパスが存在することを意味する。「結合される」は、２つ以上の要素が直接物理的に又は電気的に接触していること、又は２つ以上の要素が互いに直接接触していないが互いに協働する又は相互作用することを意味してよい。

【0092】

従って、本発明の特定の実施形態を説明したが、当業者は、他の又は更なる変形が加えられてよいことを理解する。例えば、上述の任意の数式は、単に使用され得る手順の表現である。機能がブロック図に追加され又は削除されてよく、動作が機能ブロックの間で交互交換されてよい。ステップは、本発明の実施形態の範囲内に記載された方法に追加され又は削除されてよい。

【0093】

例えば、本発明を実施するデコーダは、図５に示された以外の異なる処理ブロックを含んでよい。

【0094】

本発明の実施形態は、以下に列挙する例示的な実施形態（enumerated exemplary embodiments (EEEs)）に関連する。
（EEE1）オーディオ信号の会話拡張のための方法であって、
前記オーディオ信号を含む符号化ビットストリームを受信するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得するステップと、
前記オーディオ信号から前記会話成分を推定するステップと、
前記推定した会話成分にコンプレッサーを適用して、処理済み会話成分を生成するステップと、
前記処理済み会話成分にユーザの決定した利得を適用して、拡張した会話成分を提供するステップと、
会話の拡張したオーディオ信号を形成するために、前記拡張した会話成分を前記オーディオ信号と結合するステップと、
を含む方法。
（EEE２）前記コンプレッサーを適用する前に、前記推定した会話成分に第１イコライザを適用するステップ、を更に含むEEE１に記載の方法。
（EEE３）前記拡張した会話成分を前記オーディオ信号と結合する前記ステップは、前記オーディオ信号から前記会話成分を減算することにより、非会話成分を形成するステップと、前記非会話成分を前記拡張した会話成分に加算するステップと、を含む、EEE１又はEEE２に記載の方法。
（EEE４）前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分に第２イコライザを適用するステップ、を更に含むEEE３に記載の方法。
（EEE５）前記第２イコライザは、前記第１イコライザと機能的に相互に関連する、EEE４に記載の方法。
（EEE６）前記時変パラメータのセットは、周波数帯域のセット毎に１つのパラメータを含む、EEE１～９のいずれか一項に記載の方法。
（EEE７）前記符号化ビットストリームは、前記時変パラメータを含む、EEE１～１０のいずれか一項に記載の方法。
（EEE８）前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータも含む、EEE７に記載の方法。
（EEE９）前記符号化ビットストリームは、前記第１イコライザ及び存在する場合には前記第２イコライザを構成するためのステアリングデータも含む、EEE７又は８に記載の方法。
（EEE1０）前記拡張した会話成分を前記オーディオ信号と結合するステップを起動するために、及び適用可能なとき、前記オーディオ信号から前記推定した会話成分を減算するステップを起動するために、クロスフェードを適用するステップ、を更に含むEEE１～１３のいずれか一項に記載の方法。
（EEE１1）会話拡張を可能にするためにオーディオ信号を符号化する方法であって、
オーディオ信号を提供するステップと、
前記オーディオ信号内に存在する会話成分を推定するよう構成される時変会話拡張パラメータのセットを提供するステップと、
前記会話拡張パラメータを前記オーディオ信号に適用することにより、推定会話成分を推定するステップと、
処理済み会話成分を生成するために、前記推定会話成分にコンプレッサーを適用するステップと、
時変調整利得のセットを決定するために、前記推定会話成分により前記処理済み会話成分を除算するステップと、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するステップと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するステップと、
を含む方法。
（EEE1２）前記コンプレッサーを適用する前に、前記推定した会話成分に第１イコライザを適用するステップ、を更に含むEEE１１に記載の方法。
（EEE1３）前記時変パラメータのセットは、周波数帯域のセット毎に１つのパラメータを含む、EEE１１又は１２のいずれか一項に記載の方法。
（EEE1４）オーディオ信号の会話拡張のためのデコーダであって、前記デコーダは、前記オーディオ信号内に存在する会話成分を推定するよう構成される時変パラメータのセットを取得しており、前記デコーダは、
（EEE1５）符号化ビットストリーム内で受信した前記オーディオ信号を復号するためのデコーダ要素と、
前記オーディオ信号から前記会話成分を推定する会話推定部と、
前記推定した会話成分を圧縮して、処理済み会話成分を生成するコンプレッサーと、
ユーザの決定した利得を前記処理済み会話成分に適用して、拡張した会話成分を提供する利得要素と、
前記拡張した会話成分を前記オーディオ信号と結合して、会話拡張オーディオ信号を形成する結合パスと、
を含むデコーダ。
（EEE1６）前記コンプレッサーを適用する前に、前記推定した会話成分を等化する第１イコライザ、を更に含むEEE１４に記載のデコーダ。
（EEE1７）前記結合パスは、前記オーディオ信号から前記会話成分を減算して、非会話成分を形成する減算器と、前記非会話成分を前記拡張した会話成分に加算する加算点と、を含む、EEE１４又は１５に記載のデコーダ。
（EEE1８）前記非会話成分を前記拡張した会話成分に加算する前に、前記非会話成分を等化する第２イコライザ、を更に含むEEE１６に記載のデコーダ。
（EEE1９）前記第２イコライザは、前記第１イコライザと機能的に相互に関連する、EEE１７に記載のデコーダ。
（EEE２０）前記符号化ビットストリームは、前記時変パラメータを含み、前記デコーダ要素は、前記時変パラメータを復号するよう構成される、EEE１４～１８のいずれか一項に記載のデコーダ。
（EEE２1）前記符号化ビットストリームは、前記コンプレッサーを構成するための圧縮パラメータを含む、EEE１９に記載のデコーダ。
（EEE２２）前記符号化ビットストリームは、前記第１イコライザ及び存在する場合には前記第２イコライザを構成するためのステアリングデータを含む、EEE１９又はEEE２０に記載のデコーダ。
（EEE２３）会話拡張を可能にするためにオーディオ信号を符号化するエンコーダであって、
オーディオ信号に時変会話拡張パラメータのセットを適用することにより、前記オーディオ信号内に存在する会話成分を推定する会話推定器と、
処理済み会話成分を生成するために、前記推定した会話成分にを圧縮するコンプレッサーと、
時変調整利得のセットを決定するために、前記推定した会話成分により前記処理済み会話成分を除算する除算器と、
変更会話拡張パラメータのセットを提供するために、前記会話拡張パラメータを前記調整利得と結合するコンバイナと、
前記オーディオ信号及び前記変更会話拡張パラメータをビットストリーム内に符号化するエンコーダ要素と、
を含むエンコーダ。
（EEE２４）前記コンプレッサーを適用する前に、前記推定した会話成分を等化するイコライザ、を更に含むEEE２２に記載のエンコーダ。
（EEE２５）１つ以上のプロセッサにより実行されると該プロセッサにEEE１～１０のいずれか一項に記載の方法を実行させるコンピュータコード部分を含むコンピュータプログラムプロダクト。
（EEE２６） EEE２４に記載のコンピュータプログラムプロダクトを格納している非一時的記憶媒体。
（EEE２７）１つ以上のプロセッサにより実行されると該プロセッサにEEE１～１３のいずれか一項に記載の方法を実行させるコンピュータコード部分を含むコンピュータプログラムプロダクト。
（EEE２８） EEE２６に記載のコンピュータプログラムプロダクトを格納している非一時的記憶媒体。

【図1】