特許6162254 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6162254背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
4a
4b
5a
5b
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6162254

(24)【登録日】2017年6月23日

(45)【発行日】2017年7月12日

(54)【発明の名称】背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法

(51)【国際特許分類】

G10L 21/0364 20130101AFI20170703BHJP

【ＦＩ】

G10L21/0364

【請求項の数】20

【全頁数】30

(21)【出願番号】特願2015-551143(P2015-551143)

(86)(22)【出願日】2013年8月23日

(65)【公表番号】特表2016-505896(P2016-505896A)

(43)【公表日】2016年2月25日

(86)【国際出願番号】EP2013067574

(87)【国際公開番号】WO2014108222

(87)【国際公開日】20140717

【審査請求日】2015年8月18日

(31)【優先権主張番号】61/750,228

(32)【優先日】2013年1月8日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100085497

【弁理士】

【氏名又は名称】筒井秀隆

(72)【発明者】

【氏名】シェプケル，ヘニング

(72)【発明者】

【氏名】レニース，ヤン

(72)【発明者】

【氏名】ドクロ，シモン

(72)【発明者】

【氏名】アッペル，イェンスエー

【審査官】安田勇太

(56)【参考文献】

【文献】特開平０４−３４８０００（ＪＰ，Ａ）

【文献】特開２０１０−０６８１７５（ＪＰ，Ａ）

【文献】特表２０１０−５１９６０１（ＪＰ，Ａ）

【文献】国際公開第２０１１／０４８８１３（ＷＯ，Ａ１）

【文献】特開平１１−２９８９９０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ２１／０２ −２１／０３８８

(57)【特許請求の範囲】

【請求項1】

スピーチ入力信号から修正済みスピーチ信号を生成する装置であって、前記スピーチ入力信号は複数のスピーチサブバンド信号を含み、前記修正済みスピーチ信号は複数の修正済みサブバンド信号を含み、前記装置は、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）のための重み付け情報

を、前記スピーチサブバンド信号（ｓ_n［ｋ］）の信号パワー（Φ_n［ｌ］）に依存して生成する、重み付け情報生成部（１１０）と、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）に対して当該スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報

を適用することにより、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）を修正し、前記複数の修正済みサブバンド信号の１つの修正済みサブバンド信号を取得する、信号修正部（１２０）と、を含み、
前記複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度を用いて増幅され、前記複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度を用いて増幅されるように、前記重み付け情報生成部（１１０）は前記複数のスピーチサブバンド信号の各々のための前記重み付け情報を生成し、かつ前記信号修正部（１２０）は前記スピーチサブバンド信号の各々を修正するよう構成され、
前記第１信号パワーが前記第２信号パワーよりも大きいとき、前記第１増幅度は前記第２増幅度よりも低く設定されている、装置。

【請求項2】

請求項１に記載の装置であって、
ノイズ入力信号の複数のノイズサブバンド信号のうちの１つのノイズサブバンド信号（ｒ_n［ｋ］）が前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）に対して割り当てられ、
前記重み付け情報生成部（１１０）は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報

を、前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）のノイズスペクトルレベル（ｄ_n［ｌ］）に依存して生成するよう構成されており、
前記重み付け情報生成部（１１０）は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報

を、前記スピーチサブバンド信号のスピーチスペクトルレベル（ｅ_n［ｌ］）に依存して生成するよう構成されている、装置。

【請求項3】

請求項２に記載の装置であって、前記重み付け情報生成部（１１０）は、
前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記スピーチスペクトルレベル（ｅ_n［ｌ］）と、前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）の前記ノイズスペクトルレベル（ｄ_n［ｌ］）との信号対ノイズ比（ｑ（ｅ_n，ｄ_n））を決定することにより、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の重み付け情報

を生成するよう構成されている、装置。

【請求項4】

請求項３に記載の装置であって、前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記スピーチスペクトルレベル（ｅ_n［ｌ］）と、前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）の前記ノイズスペクトルレベル（ｄ_n［ｌ］）との前記信号対ノイズ比（ｑ（ｅ_n，ｄ_n））は次式により定義され、

【数8】

ここで、ｅ_nは前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記スピーチスペクトルレベルであり、ｄ_nは前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）の前記ノイズスペクトルレベルである、装置。

【請求項5】

請求項３又は４に記載の装置であって、
前記重み付け情報生成部（１１０）は、スピーチ了解度指数

を決定すること、及び、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）について、当該スピーチサブバンド信号（ｓ_n［ｋ］）の前記スピーチスペクトルレベル（ｅ_n［ｌ］）と、当該スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）の前記ノイズスペクトルレベル（ｄ_n［ｌ］）との信号対ノイズ比（ｑ（ｅ_n，ｄ_n））を決定することによって、前記スピーチ入力信号の前記複数のスピーチサブバンド信号の前記重み付け情報

を、生成するよう構成されており、
前記スピーチ了解度指数（ＳＩＩ）は前記スピーチ入力信号のスピーチ了解度を示す、装置。

【請求項6】

請求項５に記載の装置であって、
前記重み付け情報生成部（１１０）は、前記スピーチ了解度指数

を次式に従って決定するよう構成されており、

【数9】

ここで、ｎは前記複数のスピーチサブバンド信号のｎ番目のスピーチサブバンド信号を示し、Ｎは前記スピーチサブバンド信号の総数を示し、ｌはブロックを示し、ｑ（ｅ_n，ｄ_n）は、前記ｎ番目のスピーチサブバンド信号（ｓ_n［ｋ］）のスピーチスペクトルレベル（ｅ_n［ｌ］）と、前記ｎ番目のスピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）のノイズスペクトルレベル（ｄ_n［ｌ］）との信号対ノイズ比を示し、ｕ_nは固定値であるスピーチスペクトルレベルを示し、ｉ_nは帯域重要度を示す、装置。

【請求項7】

請求項５又は６に記載の装置であって、前記重み付け情報生成部（１１０）は、前記スピーチ了解度指数

に依存し、前記スピーチサブバンド信号（ｓ_n［ｋ］）の信号パワー（Φ_n［ｌ］）に依存し、かつ前記複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計（Φ_(max)［ｌ］)に依存して、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）について線形ゲイン（ｗ_n,(lin)）を決定することにより、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報を生成するよう構成されている、装置。

【請求項8】

請求項７に記載の装置であって、前記重み付け情報生成部（１１０）は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）についての線形ゲインｗ_n,(lin)を、次式に従って生成するよう構成され、

【数10】

ここで、ｎは前記複数のスピーチサブバンド信号のｎ番目のスピーチサブバンド信号を示し、Ｎは前記スピーチサブバンド信号の総数を示し、ｌはブロックを示し、Φ_n［ｌ］はｎ番目のスピーチサブバンド信号の信号パワーを示し、Φ_(max)［ｌ］は前記複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計を示す、装置。

【請求項9】

請求項３乃至６のいずれか一項に記載の装置であって、
前記重み付け情報生成部（１１０）は、圧縮比ｃｒ_n［ｌ］を次式に従って決定するよう構成されており、

【数11】

ここで、ｑ（ｅ_n［ｌ］，ｄ_n［ｌ］）は、前記スピーチスペクトルレベルと前記ノイズスペクトルレベルとの信号対ノイズ比であり、前記信号対ノイズ比ｑ（ｅ_n［ｌ］，ｄ_n［ｌ］）は０と１の間のある数値を示し、ｃｒ_(max)はある固定値を示し、ｌはあるブロックを示す、装置。

【請求項10】

請求項７又は８に記載の装置であって、
前記重み付け情報生成部（１１０）は、圧縮比ｃｒ_n［ｌ］を次式に従って決定するよう構成されており、

【数12】

【請求項11】

請求項９又は１０に記載の装置であって、
前記重み付け情報生成部（１１０）は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報を、当該サブバンド信号（ｓ_n［ｋ］）の圧縮ゲインｗ_n,(comp)を次式に従って決定することにより、生成するよう構成され、

【数13】

ここで、Ｍはブロックｌの長さを示し、Φ_n［ｌ］は前記スピーチサブバンド信号（ｓ_n［ｋ］）の信号パワーを示し、

は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す、装置。

【請求項12】

請求項１１に記載の装置であって、
前記重み付け情報生成部（１１０）は、前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定

を次式に従って決定するよう構成され、

【数14】

ここで、ｓ_n［ｋ］は前記スピーチサブバンド信号を示し、｜ｓ_n［ｋ］｜は当該スピーチサブバンド信号の振幅を示し、α_aは第１平滑化定数であり、α_rは第２平滑化定数である、装置。

【請求項13】

請求項１乃至１０のいずれか一項に記載の装置であって、前記重み付け情報生成部（１１０）は、次式を適用することで、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報

を生成するよう構成されており、

【数15】

ここで、ｎは前記複数のスピーチサブバンド信号のｎ番目のスピーチサブバンド信号を示し、Ｎはスピーチサブバンド信号の総数を示し、ｌはブロックを示し、α_pは平滑化定数であり、

は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示し、

は

の線形のインターポーレーションおよびエクストラポーレーションを実行する関数を示し、

は平滑化された入力−出力−特性を示す、装置。

【請求項14】

請求項１乃至１３のいずれか一項に記載の装置であって、全てのスピーチサブバンド信号の全てのスピーチ信号パワー（Φ_n［ｌ］）の第１合計と、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第２合計との違いが２０％よりも小さくなるように、前記重み付け情報生成部（１１０）は前記複数のスピーチサブバンド信号の各々について前記重み付け情報を生成し、かつ前記信号修正部（１２０）は前記スピーチサブバンド信号の各々を修正するよう構成されている、装置。

【請求項15】

請求項２に記載の装置であって、前記重み付け情報生成部（１１０）は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号（ｓ_n［ｋ］）の前記重み付け情報を、重み付きの加算（ａ_n［ｌ］）を決定することで生成するよう構成されており、前記重み付きの加算は、当該スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）の前記ノイズスペクトルレベル（ｄ_n［ｌ］）に依存し、かつ残響スペクトルレベル（ｚ_n［ｌ］）に依存している、装置。

【請求項16】

請求項１５に記載の装置であって、前記重み付け情報生成部（１１０）は、ラウドスピーカとマイクロホンとの間の室内インパルス応答に依存し、残響時間Ｔ６０に依存し、又は直接対残響のエネルギー比に依存して、前記残響スペクトルレベル（ｚ_n［ｌ］）を生成するよう構成されている、装置。

【請求項17】

請求項１５又は１６に記載の装置であって、前記重み付け情報生成部（１１０）は、前記重み付きの加算ａ_n［ｌ］を次式に従って決定するよう構成されており、

【数16】

ここで、ｄ_n［ｌ］は前記スピーチサブバンド信号（ｓ_n［ｋ］）の前記ノイズサブバンド信号（ｒ_n［ｋ］）のノイズスペクトルレベルであり、ｚ_n［ｌ］は前記残響スペクトルレベルを示し、βは実数である、装置。

【請求項18】

請求項１乃至１７のいずれか一項に記載の装置であって、前記装置は、第１フィルタバンク（１０５）と第２フィルタバンク（１２５）とを更に備え、
前記第１フィルタバンク（１０５）は、時間ドメインで表現されている未処理のスピーチ信号を、時間ドメインからサブバンドドメインへと変換して、前記複数のスピーチサブバンド信号を含む前記スピーチ入力信号を取得するよう構成されており、
前記第２フィルタバンク（１２５）は、前記サブバンドドメインで表現され且つ前記複数の修正済みサブバンド信号を含む前記修正済みスピーチ信号を、前記サブバンドドメインから前記時間ドメインへと変換して、時間ドメインの出力信号を取得するよう構成されている、装置。

【請求項19】

スピーチ入力信号から修正済みスピーチ信号を生成する方法であって、前記スピーチ入力信号は複数のスピーチサブバンド信号を含み、前記修正済みスピーチ信号は複数の修正済みサブバンド信号を含み、前記方法は、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成するステップと、
前記各スピーチサブバンド信号に対して当該スピーチサブバンド信号の前記重み付け情報を適用することで、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の1つの修正済みサブバンド信号を取得するステップと、を含み、
前記複数のスピーチサブバンド信号の各々のための前記重み付け情報を生成するステップと、前記スピーチサブバンド信号の各々を修正するステップとは、前記複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度を用いて増幅され、前記複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度を用いて増幅されるように実行され、
前記第１信号パワーが前記第２信号パワーよりも大きいとき、前記第１増幅度は前記第２増幅度よりも低く設定されている、方法。

【請求項20】

コンピュータ又はプロセッサ上で操作されたとき、請求項１９に記載の方法を実行する、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオ信号処理に関し、特に、背景ノイズにおけるスピーチ了解度(speech intelligibility)を増幅及び圧縮により向上させる装置と方法に関するものである。

【背景技術】

【0002】

多くのスピーチ伝達アプリケーション（例えば鉄道駅の構内放送システムや移動電話など）においては、付加的ノイズ及び／又は残響によって妨害される状況下でも高いスピーチ了解度を維持することが非常に重要である。その目標を維持する一つの簡易な手法は、出力する前にスピーチ信号を増幅して、良好な信号対ノイズ比（ＳＮＲ）を達成することである。しかし、そのような簡易な増幅は、増幅システムの技術的な制限や不快なほど高い音響レベルにより、不可能である場合が多い。従って、スピーチ了解度を向上させる一方で、入力時のパワーと比較して同等の出力パワーを維持するようなアルゴリズムが望まれる。本発明は、全体のスピーチレベルを増大させることなく、付加的なノイズを有するシナリオ内でスピーチ了解度を向上させることが可能なアルゴリズムを含む。

【0003】

簡易な増幅器を超える信号処理の指針については、非特許文献１、非特許文献２、非特許文献３、非特許文献５及び非特許文献６に開示されている。

【0004】

しかしながら、スピーチ伝達アプリケーションのための改善された信号処理概念が提供されるとすれば、大きな意義があるであろう。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】ANSI (1997). Methods for calculation of the speech intelligibility index. American National Standard ANSI S3.5-1997 (American National Standards Institute, Inc.), New York, USA.

【非特許文献2】Sauert, B. and Vary, P. (2010). Recursive closed-form optimization of spectral audio power allocation for near end listening enhancement. In Proc. of ITG-Fachtagung Sprachkommunikation.(Bochum, Germany, Oct. 6-8, 2010), volume 9.

【非特許文献3】Sauert, B. and Vary, P. (2012). Near-end listening enhancement in the presence of bandpass noises. In Proc. of ITG-Fachtagung Sprachkommunikation. (Braunschweig, Germany, Sept. 26-288, 2012).

【非特許文献4】Vaidyanathan, P., Mitra, S., and Neuvo, Y. (1986). A new approach to the realization of low-sensitivity iir digital filters. Acoustics, Speech and Signal Processing, IEEE Transactions on, 34(2):350 - 361.

【非特許文献5】Zorila, T.-C., Kandia, V., and Stylianou, Y. (2012a). Speech-in-noise intelligibility improvement based on power recovery and dynamic range compression. In 20th European Signal Processing Conference (EUSIPCO 2012), Bucharest Romania.

【非特許文献6】Zorila, T.-C., Kandia, V., and Stylianou, Y. (2012b). Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression. In Proceedings of Interspeech 2012 (Portland, USA).

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明の目的は、スピーチ伝達アプリケーションのための改善された信号処理概念を提供することである。本発明のこの目的は、請求項１に記載の装置と、請求項１９に記載の方法と、請求項２０に記載のコンピュータプログラムにより達成される。

【課題を解決するための手段】

【0007】

スピーチ入力信号から修正済みスピーチ信号を生成する装置が提供される。そのスピーチ入力信号は、複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。その装置は、複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成する重み付け情報生成部を含む。さらにその装置は、スピーチサブバンド信号に対して当該スピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の各修正済みサブバンド信号を取得する信号修正部を含む。複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度(first degree)を用いて増幅され、複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度(second degree)を用いて増幅されるように、重み付け情報生成部は複数のスピーチサブバンド信号の各々のための重み付け情報を生成し、かつ信号修正部はスピーチサブバンド信号の各々を修正するよう構成され、第１信号パワーが第２信号パワーよりも大きいとき、第１増幅度は第２増幅度よりも低く設定されている。

【0008】

複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度を用いて増幅され、また、複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度を用いて増幅される。第１増幅度が第２増幅度よりも低い場合には、例えば第１スピーチサブバンド信号を増幅した結果として得られる第１修正済みサブバンド信号の信号パワーと第１スピーチサブバンド信号の信号パワーとの比が、第２スピーチサブバンド信号を増幅した結果として得られる第２修正済みサブバンド信号の信号パワーと第２スピーチサブバンド信号の信号パワーとの比よりも低いことを意味している。

【0009】

本提案の概念を用いた実施形態は、時間及び周波数依存のゲイン特性と時間及び周波数依存の圧縮特性とを組み合わせてもよく、両特性は共に推定されたスピーチ了解度指数（ＳＩＩ）の関数である。そのゲインは、スピーチレベルが一定に保持される一方で了解度が最大化されるように、現在のノイズ信号に依存してスピーチ信号を適応的に前処理するために使用されてもよい。

【0010】

この概念が使用される技術システム、例えば対応するアルゴリズムが作動している技術システムに依るが、スピーチレベルを更に変化させる目的で、この概念（例えばアルゴリズム）を一般的な音量制御と組み合わせてもよく、又は組み合わせなくてもよい。以下に、アルゴリズムの一つの可能な実現例の詳細な説明を提供する。

【0011】

個々のステップの具体的なパラメータ又は機能は修正可能であり、当業者であればそのような修正を認識することができるであろう。

【0012】

スピーチ入力信号から修正済みスピーチ信号を生成する方法が提供される。そのスピーチ入力信号は複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。その方法は、
−複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成するステップと、
−前記スピーチサブバンド信号に対して当該スピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の１つの修正済みサブバンド信号を取得するステップと、を含む。

【0013】

複数のスピーチサブバンド信号の各々のための重み付け情報を生成するステップとスピーチサブバンド信号の各々を修正するステップとは、複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度を用いて増幅され、複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度を用いて増幅されるように実行され、第１信号パワーは第２信号パワーよりも大きく、第１増幅度は第２増幅度よりも低い。

【0014】

更に、コンピュータ又は信号プロセッサ上で作動するときに上述の方法を実行するコンピュータプログラムが提供される。

【0015】

好ましい実施形態は従属請求項において提供される。

【0016】

以下に、本発明の実施形態について図面を参照しながら更に詳細に説明する。

【図面の簡単な説明】

【0017】

【図1】修正済みスピーチ信号を生成する一実施形態に係る装置を示す。

【図2】修正済みスピーチ信号を生成する他の実施形態に係る装置を示す。

【図3a】スピーチサブバンド信号の増幅が行われる前のスピーチサブバンド信号のスピーチ信号パワーを示す。

【図3b】スピーチサブバンド信号の増幅の結果として得られた修正済みサブバンド信号のスピーチ信号パワーを示す。

【図4a】修正済みスピーチ信号を生成する更なる実施形態に係る装置を示す。

【図4b】修正済みスピーチ信号を生成する他の実施形態に係る装置を示す。

【図5a】記述されたアルゴリズムの一実施形態に係るフローチャートを示す。

【図5b】記述されたアルゴリズムの他の実施形態に係るフローチャートを示す。

【図6】一実施形態に係る近端(near-end)リスニング強化が備えられた信号モデルを示す。

【図7】１〜１６０００Ｈｚの中心周波数についての長期間スピーチレベルを示す。

【図8】主観的評価から得られた結果を示す。

【図9】主観的結果に関する相関分析を示す。

【発明を実施するための形態】

【0018】

図１は、スピーチ入力信号から修正済みスピーチ信号を生成する、一実施形態に係る装置を示す。スピーチ入力信号は複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。

【0019】

その装置は、複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成する重み付け情報生成部１１０を含む。

【0020】

さらにその装置は、各スピーチサブバンド信号に対してそのスピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の各修正済みサブバンド信号を取得する信号修正部１２０を含む。

【0021】

複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度を用いて増幅され、複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度を用いて増幅されるように、重み付け情報生成部１１０は複数のスピーチサブバンド信号の各々のための重み付け情報を生成し、かつ信号修正部１２０はスピーチサブバンド信号の各々を修正するよう構成され、第１信号パワーは第２信号パワーよりも大きく、第１増幅度は第２増幅度よりも低い。

【0022】

図３ａと図３ｂとは、この状態を更に詳細に示す。特に、図３ａはスピーチサブバンド信号の増幅が行われる前のスピーチサブバンド信号のスピーチ信号パワーを示す。図３ｂはスピーチサブバンド信号の増幅の結果として得られた修正済みサブバンド信号のスピーチ信号パワーを示す。

【0023】

図３ａと図３ｂとは、第１スピーチサブバンド信号のオリジナルの第１信号パワー３１１が増幅され、その増幅によって低減され、その結果として、第１スピーチサブバンド信号のより小さい第１信号パワー３２１が得られる実施形態を示す。第２スピーチサブバンド信号のオリジナルの第２信号パワー３１２は増幅され、その増幅によって増強され、その結果として、第２スピーチサブバンド信号のより大きな第２信号パワー３２２が得られる。このように、第１スピーチサブバンド信号は第１増幅度を用いて増幅されており、第２スピーチサブバンド信号は第２増幅度を用いて増幅されており、第１増幅度は第２増幅度よりも低い。第１スピーチサブバンド信号の第１のオリジナルの信号パワーは、第２スピーチサブバンド信号の第２のオリジナルの信号パワーよりも大きいものであった。

【0024】

図３ａと図３ｂとにおいて、第１及び第３のスピーチサブバンド信号の各信号パワー３１１及び３１３は増幅によって低減されており、第２、第４及び第５のスピーチサブバンド信号の各信号パワー３１２、３１４及び３１５は増幅によって増強されている。このように、第１及び第３のスピーチサブバンド信号の各信号パワー３１１及び３１３は、第２、第４及び第５のスピーチサブバンド信号を増幅するのに用いられる増幅度よりも低い増幅度を用いてそれぞれ増幅されている。第１及び第３のスピーチサブバンド信号のオリジナルの各信号パワー３１１及び３１３は、第２、第４及び第５のスピーチサブバンド信号のオリジナルの各信号パワー３１２、３１４及び３１５よりも大きいものであった。

【0025】

更に、図３ａと図３ｂとにおいて、第２スピーチサブバンド信号のオリジナル信号パワー３１２は、第４スピーチサブバンド信号のオリジナル信号パワー３１４よりも大きいことが分かる。第２スピーチサブバンド信号と第４スピーチサブバンド信号との両方が増幅によって増強されているが、第２サブバンド信号は、第４サブバンド信号を増幅するのに用いられた増幅度よりも低い増幅度を用いて増幅されている。なぜなら、第２スピーチサブバンド信号における修正済み（増幅済み）信号パワー３２２とオリジナル信号パワー３１２との比が、第４スピーチサブバンド信号における修正済み（増幅済み）信号パワー３２４とオリジナル信号パワー３１４との比よりも低いからである。

【0026】

例えば、第２スピーチサブバンド信号の修正済み（増幅済み）信号パワー３２２は、第２スピーチサブバンド信号のオリジナル信号パワー３１２の大きさの２倍であり、従って、第２スピーチサブバンド信号における修正済み信号パワー３２２とオリジナル信号パワー３１２との比は２である。第４スピーチサブバンド信号の修正済み（増幅済み）信号パワー３２４は、第４スピーチサブバンド信号のオリジナル信号パワー３１４の大きさの３倍であり、従って、第４スピーチサブバンド信号における修正済み信号パワー３２４とオリジナル信号パワー３１４との比は３である。

【0027】

更に、図３ａと図３ｂとにおいて、第３スピーチサブバンド信号のオリジナル信号パワー３１３は、第１スピーチサブバンド信号のオリジナル信号パワー３１１よりも大きいことが分かる。第３スピーチサブバンド信号と第１スピーチサブバンド信号との両方が増幅によって低減されているが、第３のサブバンド信号は、第１のサブバンド信号を増幅するのに用いられた増幅度よりも低い増幅度を用いて増幅されている。なぜなら、第３スピーチサブバンド信号における修正済み（増幅済み）信号パワー３２３とオリジナル信号パワー３１３との比が、第１スピーチサブバンド信号における修正済み（増幅済み）信号パワー３２１とオリジナル信号パワー３１１との比よりも低いからである。

【0028】

例えば、第３スピーチサブバンド信号の修正済み（増幅済み）信号パワー３２３は、第３スピーチサブバンド信号のオリジナル信号パワー３１３の大きさの６７％であり、従って、第３スピーチサブバンド信号における修正済み信号パワー３２３とオリジナル信号パワー３１３との比は０．６７である。第１スピーチサブバンド信号の修正済み（増幅済み）信号パワー３２１は、第１スピーチサブバンド信号のオリジナル信号パワー３１１の大きさの７１％であり、従って、第１スピーチサブバンド信号における修正済み信号パワー３２１とオリジナル信号パワー３１１との比は０．７１である。

【0029】

例えば、修正済みサブバンド信号を得るべくスピーチサブバンド信号を増幅するために用いられた増幅度は、修正済みサブバンド信号の信号パワーとスピーチサブバンド信号の信号パワーとの比である。

【0030】

複数のスピーチサブバンド信号のうちの第１信号パワーを有する第１スピーチサブバンド信号が第１増幅度を用いて増幅され、かつ、複数のスピーチサブバンド信号のうちの第２信号パワーを有する第２スピーチサブバンド信号が第２増幅度を用いて増幅され、第１増幅度が第２増幅度よりも低い場合には、例えばこれは、第１スピーチサブバンド信号の増幅の結果として得られた第１修正済みサブバンド信号の信号パワーと第１スピーチサブバンド信号の信号パワーとの比が、第２スピーチサブバンド信号の増幅の結果として得られた第２修正済みサブバンド信号の信号パワーと第２スピーチサブバンド信号の信号パワーとの比よりも低いことを意味する。

【0031】

一実施形態によれば、全てのスピーチサブバンド信号の全てのスピーチ信号パワー（Φ_n［ｌ］）の第１合計と、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第２合計との違いが２０％よりも小さくなるように、重み付け情報生成部１１０は複数のスピーチサブバンド信号の各々について重み付け情報を生成し、かつ信号修正部１２０はスピーチサブバンド信号の各々を修正するよう構成されてもよい。

【0032】

換言すれば、全てのスピーチサブバンド信号の全てのスピーチ信号パワー（Φ_n［ｌ］）の第１合計を、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第２合計で除算すると、その結果が値ｄとなり、ここで、０．８≦ｄ≦１．２が真となる。

【0033】

図２は、修正済みスピーチ信号を生成する、他の実施形態にかかる装置を示す。

【0034】

図２の装置と図１の装置との相違点は、図２の装置が第１フィルタバンク１０５と第２フィルタバンク１２５とを更に備える点である。

【0035】

第１フィルタバンク１０５は、時間ドメインで表現されている未処理のスピーチ信号を、時間ドメインからサブバンドドメインへと変換して、複数のスピーチサブバンド信号を含むスピーチ入力信号を取得するよう構成されている。

【0036】

第２フィルタバンク１２５は、サブバンドドメインで表現され且つ複数の修正済みサブバンド信号を含む修正済みスピーチ信号を、サブバンドドメインから時間ドメインへと変換して、時間ドメインの出力信号を取得するよう構成されている。

【0037】

図４ａは、修正済みスピーチ信号を生成する、更なる実施形態にかかる装置を示す。

【0038】

図２の実施形態とは対照的に、図４ａの装置は第３フィルタバンク１０８を更に含み、この第３フィルタバンク１０８は、時間ドメインのノイズ参照（noise reference）ｒ［ｋ］を、時間ドメインからサブバンドドメインへと変換して、ノイズ入力信号の複数のノイズサブバンド信号ｒ_n［ｋ］を取得する。

【0039】

更に、この実施形態にかかる重み付け情報生成部１１０をより詳細に説明する。この重み付け情報生成部１１０は、スピーチサブバンド信号の各々についてのスピーチ信号パワーを以下のように計算する、スピーチ信号パワー計算部１３１を含む。更に、重み付け情報生成部１１０は、スピーチサブバンド信号の各々についてのスピーチスペクトルレベルを以下のように計算する、スピーチスペクトルレベル計算部１３２を含む。更に、重み付け情報生成部１１０は、ノイズ入力信号のノイズサブバンド信号の各々についてのノイズスペクトルレベルを以下のように計算する、ノイズスペクトルレベル計算部１３３を含む。

【0040】

一実施形態において、ノイズ入力信号の複数のノイズサブバンド信号のうちの１つのノイズサブバンド信号ｒ_n［ｋ］が、複数のスピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］に割り当てられている。例えば、各ノイズサブバンド信号が同じサブバンドのスピーチサブバンド信号に割り当てられている。重み付け情報生成部１１０は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号ｓ_n［ｋ］の重み付け情報を、当該スピーチサブバンド信号（ｓ_n［ｋ］）のノイズサブバンド信号ｒ_n［ｋ］のノイズスペクトルレベルｄ_n［ｌ］に依存して生成するよう構成されている。更に、重み付け情報生成部１１０は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号ｓ_n［ｋ］の重み付け情報を、当該スピーチサブバンド信号のスピーチスペクトルレベルｅ_n［ｌ］に依存して生成するよう構成されている。

【0041】

更に、重み付け情報生成部１１０は、スピーチサブバンド信号の各々について信号対ノイズ比を以下のように計算する、ＳＮＲ計算部１３４を含む。

【0042】

例えば、一実施形態によれば、重み付け情報生成部１１０は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号ｓ_n［ｋ］の重み付け情報を、当該スピーチサブバンド信号ｓ_n［ｋ］のスピーチスペクトルレベルｅ_n［ｌ］と、スピーチサブバンド信号ｓ_n［ｋ］のノイズサブバンド信号ｒ_n［ｋ］のノイズスペクトルレベルｄ_n［ｌ］との信号対ノイズ比を決定することで、生成するよう構成されている。例えば、スピーチサブバンド信号ｓ_n［ｋ］のスピーチスペクトルレベルｅ_n［ｌ］と、スピーチサブバンド信号ｓ_n［ｋ］のノイズサブバンド信号ｒ_n［ｋ］のノイズスペクトルレベルｄ_n［ｌ］との信号対ノイズ比ｑ（ｅ_n，ｄ_n）は、次式により定義されてもよい。

【0043】

【数1】

【0044】

ここで、ｅ_nは前記スピーチサブバンド信号ｓ_n［ｋ］のスピーチスペクトルレベルであり、ｄ_nは前記スピーチサブバンド信号ｓ_n［ｋ］のノイズサブバンド信号ｒ_n［ｋ］のノイズスペクトルレベルである。

【0045】

更に、重み付け情報生成部１１０は、スピーチサブバンド信号の各々についての圧縮比を以下のように計算する、圧縮比計算部１３５を含む。

【0046】

例えば、一実施形態によれば、重み付け情報生成部１１０、例えば圧縮比計算部１３５は、圧縮比ｃｒ_n［ｌ］を次式に従って決定するよう構成されている。

【0047】

【数2】

【0048】

ここで、ｑ（ｅ_n［ｌ］，ｄ_n［ｌ］）は、前記スピーチスペクトルレベルの信号対ノイズ比であり、その信号対ノイズ比ｑ（ｅ_n［ｌ］，ｄ_n［ｌ］）は０と１の間のある数値を示し、ｃｒ_(max)はある固定値を示し、ｌはあるブロックを示す。ｎはスピーチサブバンド信号のうちの一つ（ｎ番目のスピーチサブバンド信号）を示す。

【0049】

スピーチサブバンド信号の各々が複数のブロックを含み得ることに留意すべきである。ここで、ｌはｎ番目のスピーチサブバンド信号の複数のブロックのうちの一つのブロックを示す。複数のブロックの各ブロックは、スピーチサブバンド信号の複数のサンプルを含んでもよい。

【0050】

更に、重み付け情報生成部１１０は、スピーチサブバンド信号の各々について、スピーチ信号振幅の包絡の平滑化された推定(smoothed estimate)を以下のように計算する、平滑化済み信号振幅計算部１３６を含む。

【0051】

例えば、一実施形態において、重み付け情報生成部１１０、例えば平滑化済み信号振幅計算部１３６が、スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定

を次式に従って決定するよう構成されてもよい。

【0052】

【数3】

【0053】

ここで、ｓ_n［ｋ］は前記スピーチサブバンド信号を示し、｜ｓ_n［ｋ］｜は前記スピーチサブバンド信号の振幅を示し、α_aは第１平滑化定数であり、α_rは第２平滑化定数である。

【0054】

更に、重み付け情報生成部１１０は、スピーチサブバンド信号の各々について圧縮ゲインを以下のように計算する、圧縮ゲイン計算部１３７を含む。

【0055】

例えば、重み付け情報生成部１１０は、複数のスピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］の重み付け情報を、例えば圧縮ゲイン計算部１３７を使用して、前記サブバンド信号（ｓ_n［ｋ］）の圧縮ゲインｗ_n,(comp)を次式に従って決定することにより、生成するよう構成されている。

【0056】

【数4】

【0057】

ここで、Ｍはブロックｌの長さを示し、Φ_n［ｌ］は前記スピーチサブバンド信号ｓ_n［ｋ］の信号パワーを示し、

は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す。

【0058】

Φ_n［ｌ］は、長さＭの（完全な）ブロックｌについてのスピーチサブバンド信号ｓ_n［ｋ］のスピーチ信号パワーを示してもよく、

はそのブロックの特定サンプルのスピーチ信号振幅の包絡の平滑化された推定の二乗を示してもよい。圧縮、例えば音量の大きなサンプルが低減される一方で、静かなサンプルが増大する。

【0059】

更に、重み付け情報生成部１１０は、スピーチ了解度指数を以下のように計算する、スピーチ了解度指数計算部１３８を含む。

【0060】

例えば、一実施形態において、重み付け情報生成部１１０、例えばスピーチ了解度指数計算部１３８は、スピーチ了解度指数

を次式に従って決定するよう構成されてもよい。

【0061】

【数5】

【0062】

ここで、ｎは複数のスピーチサブバンド信号のうちのｎ番目のスピーチサブバンド信号を示し、Ｎはスピーチサブバンド信号の総数を示し、ｌはブロックを示し、ｑ（ｅ_n，ｄ_n）は、ｎ番目のスピーチサブバンド信号ｓ_n［ｋ］のスピーチスペクトルレベルｅ_n［ｌ］と、ｎ番目のスピーチサブバンド信号ｓ_n［ｋ］のノイズサブバンド信号ｒ_n［ｋ］のノイズスペクトルレベルｄ_n［ｌ］との信号対ノイズ比を示し、ｕ_nは固定値であるスピーチスペクトルレベルを示し、ｉ_nは帯域重要度（band importance）を示す。

【0063】

更に、重み付け情報生成部１１０は、スピーチサブバンド信号の各々について以下に説明するように線形ゲインを計算する、線形ゲイン計算部１３９を含む。

【0064】

例えば、一実施形態によれば、重み付け情報生成部１１０はスピーチ了解度指数

を決定し、更に、複数のスピーチサブバンド信号の各スピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］について、スピーチサブバンド信号ｓ_n［ｋ］のスピーチスペクトルレベルｅ_n［ｌ］と、スピーチサブバンド信号ｓ_n［ｋ］のノイズサブバンド信号ｒ_n［ｋ］のノイズスペクトルレベルｄ_n［ｌ］との信号対ノイズ比を決定することにより、スピーチ入力信号の複数のスピーチサブバンド信号の重み付け情報を生成するよう構成されてもよい。スピーチ了解度指数ＳＩＩはスピーチ入力信号のスピーチ了解度を示している。

【0065】

例えば、重み付け情報生成部１１０は、例えば線形ゲイン計算部１３９を使用して、スピーチ了解度指数

と、スピーチサブバンド信号ｓ_n［ｋ］の信号パワーΦ_n［ｌ］と、複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計（Φ_(max)［ｌ］)とに依存して、複数のスピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］について線形ゲインｗ_n,(lin)を決定することにより、複数のスピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］の重み付け情報を生成するよう構成されてもよい。

【0066】

例えば、重み付け情報生成部１１０は、複数のスピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］についての線形ゲインｗ_n,(lin)を、次式に従って生成するよう構成されてもよい。

【0067】

【数6】

【0068】

ここで、ｎは複数のスピーチサブバンド信号のうちのｎ番目のスピーチサブバンド信号を示し、Ｎはスピーチサブバンド信号の総数を示し、ｌはブロックを示し、Φ_n［ｌ］はｎ番目のスピーチサブバンド信号の信号パワーを示し、Φ_(max)［ｌ］は複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計を示す。例えば、Φ_(max)［ｌ］はブロックｌ内のスピーチ信号の広帯域パワーを示す。

【0069】

上述した式を理解し易くするために、ブロックｌに対する

の依存性は明示されていない。しかしながら、

はブロックｌに依存している点に留意すべきである。

【0070】

は０（了解度なし）と１（完全な了解度）との間のある指数であってもよい。上述したｗ_n,(lin)の式について、

のような極端な場合を以下に考察する。

【0071】

の場合、第１項の分子と第２項の分母とが同一になり、従って上述のｗ_n,(lin)の式から除去され得る。更に、

の場合、第２項の分子と第１項の分母とが同一になり、従ってまた上述のｗ_n,(lin)の式から除去され得る。このようにスピーチ了解度が完全である場合、ｗ_n,(lin)が１となり、例えばその信号は修正されない。

【0072】

の場合、第１項は１／Ｎとなり、その結果、例えば全体のパワーはＮ個の全ての周波数帯域の中で均等に分配される。

【0073】

図５ａは一実施形態に従うアルゴリズムのフローチャートを示す。

【0074】

ステップ１４１では、時間ドメインで表現された未処理のスピーチ信号ｓ_n［ｋ］が時間ドメインからサブバンドドメインへと変換されて、サブバンドドメインで表現されたスピーチ入力信号が取得され、そのスピーチ入力信号は複数のスピーチサブバンド信号ｓ_n［ｋ］を含む。

【0075】

ステップ１４２では、時間ドメインで表現された時間ドメイン・ノイズ参照ｒ［ｋ］が時間ドメインからサブバンドドメインへと変換されて、複数のノイズサブバンド信号ｒ_n［ｋ］が取得される。

【0076】

ステップ１５１においては、以下に説明するように、スピーチサブバンド信号の各々についてスピーチ信号パワーが計算される。更に、ステップ１５２では、以下に説明するように、スピーチサブバンド信号の各々についてスピーチスペクトルレベルが計算される。更に、ステップ１５３では、以下に説明するように、スピーチサブバンド信号の各々についてノイズスペクトルレベルが計算される。更に、ステップ１５４では、以下に説明するように、スピーチサブバンド信号の各々について信号対ノイズ比が計算される。更に、ステップ１５５では、以下に説明するように、スピーチサブバンド信号の各々について圧縮比が計算される。更に、ステップ１５６では、以下に説明するように、スピーチサブバンド信号の各々についてスピーチ信号振幅の包絡の平滑化された推定が計算される。更に、ステップ１５７では、以下に説明するように、スピーチサブバンド信号の各々について圧縮ゲインが計算される。更に、ステップ１５８では、以下に説明するように、スピーチ了解度指数が計算される。更に、ステップ１５９では、以下に説明するように、スピーチサブバンド信号の各々について線形ゲインが計算される。

【0077】

ステップ１６１において、以下に説明するように、それぞれのスピーチサブバンド信号に対して、スピーチサブバンド信号の圧縮ゲインを適用し、かつスピーチサブバンド信号の線形ゲインを適用することで、複数のスピーチサブバンド信号が増幅される。

【0078】

ステップ１６２において、複数の修正済みサブバンド信号を有する修正済みスピーチ信号がサブバンドドメインから時間ドメインへと変換され、時間ドメインの出力信号

が取得される。

【0079】

図４ｂは、修正済みスピーチ信号を生成する、他の実施形態にかかる装置を示す。

【0080】

図４ｂに示す実施形態においては、室内音響的情報が提案のアルゴリズム内で考慮されてもよい。スピーチ信号はラウドスピーカによって再生され、妨害されたスピーチ信号がマイクロホンによって集音される。録音された信号は、ノイズｒ［ｋ］と残響スピーチ信号とを含む。残響スピーチ信号の中に含まれた残響のいくらかの部分は有害であると認められ得る一方で、他の部分はスピーチ了解度にとって有益であると考えられ得る。例えばラウドスピーカとマイクロホンとの間の室内インパルス応答をモデル化するフィルタである室内音響的情報生成部（ＲＩＧ）、残響時間Ｔ６０（６０ｄｂ減衰する時間として定義される）、又は直接対残響エネルギー比（ＤＲＲ）を使用して、残響スペクトルレベルｚ_n［ｌ］が、重み付け情報生成部１１０、例えば残響スペクトルレベル計算部１６３により、室内音響的情報生成部から提供された情報と各サブバンドにおけるサブバンドスピーチ信号ｓ_n［ｋ］とを用いて計算されてもよい。重み付けファクタβを用いて重み付きの加算ａ_n［ｌ］が決定され得る。

【0081】

【数7】

【0082】

この加算は、重み付け情報生成部１１０、例えば重み付き加算部１６４により決定されてもよく、また重み付き加算ａ_n［ｌ］は後続の計算において使用されてもよく、その他の場合にはノイズスペクトルレベルｄ_n［ｌ］だけが使用される。

【0083】

ｄ_nについて定義された全ての式は、ｄ_nをａ_nに置き換えることで、ａ_nについても適用可能である。例えば、幾つかの実施形態によれば、式（４）、式（５）及び／又は式（８）内において、ｄ_nはａ_nで置き換えることができ、その置き換えにより、これらの式は重み付きの加算ａ_nを考慮に入れることができる。

【0084】

例えば、βは実数であってもよく、ここで、例えば０≦β≦１が適用されてもよい。

【0085】

本質的に、ａ_nは残響に関する追加的情報（例えば室内インパルス応答、Ｔ６０、ＤＲＲなど）を考慮してもよい。

【0086】

以下に、実施形態の概念、とりわけ図１、図２、図４ａ、図４ｂ、図５ａ及び図５ｂの実施形態で用いられる概念について、より詳細に説明する。

【0087】

本アルゴリズムの入力における明瞭なスピーチ信号（「未処理のスピーチ信号」とも称される）は、離散的な時間指数ｋにおいてｓ［ｋ］により表される。

【0088】

ノイズ参照（例えば時間ドメインで表現されている）はｒ［ｋ］により表され、参照マイクロホンを用いて録音され得る。

【0089】

両方の信号は、あるフィルタバンク、例えばデシメーションなしのＩＩＲフィルタバンクにより、オクターブ帯域に分割される。この点に関しては、例えばＶａｉｄｙａｎａｔｈａｎらによる非特許文献４を参照されたい。結果として得られるサブバンド信号は、ｓ［ｋ］とｒ［ｋ］とについて、それぞれｓ_n［ｋ］とｒ_n［ｋ］とで表される。

【0090】

長さＭのブロックｌについてサブバンドスピーチ信号パワーΦ_n［ｌ］は、次式（１）により計算される。

【0091】

式（１）と中心周波数ｆ_nを有するオクターブ帯域の帯域幅Δｆ_nとを用いて、等価スピーチスペクトルレベルが計算され得る。

【0092】

同様の計算がノイズサブバンド信号ｒ_n［ｋ］（「ノイズ参照信号」とも称される）についても実行され、等価ノイズスペクトルレベルが導かれる。

【0093】

次に、各ブロックについて信号対ノイズ比（ＳＮＲ）のマッピングが演算され得る。

【0094】

この式（４）からのマッピング関数を使用して、各周波数チャネル内の圧縮比が予め決定された最大圧縮比ｃｒ_(max)を使用して計算され得る。最大圧縮比は、典型的にはｃｒ_(max)＝８の値に設定される。

【0095】

更に、スピーチ信号振幅の瞬時包絡の平滑化された推定が以下のように計算される。

ここで、α_aとα_rとは、増大する信号振幅の場合と減少する信号振幅の場合とにおける平滑化定数をそれぞれ表している。

【0096】

Φ_n［ｌ］、ｃｒ_n［ｌ］、及び

を使用して、圧縮ゲインｗ_n,(comp)［ｋ］が以下のように計算される。

ここで、ｌ・Ｍ−ｍ＝ｋである。

【0097】

更に、スピーチ了解度指数（ＳＩＩ）の推定が以下のように計算される。

ここで、ｕ_nは、ＡＮＳＩ（１９９７）に従って標準的等価スピーチスペクトルレベルとして定義される。例えば、ｕ_nは固定値であってもよい。

【0098】

ここで、Ｎは例えばサブバンドの総数を示す。ｉ_nは例えば帯域重要度の関数であり、例えばｎ番目のサブバンドについての帯域重要度を示しており、ここで、ｉ_nは例えば０〜１の間の値であり、Ｎ個の全てのサブバンドのｉ_nの値は合計して１となる。

【0099】

以下の項目は、ＳａｕｅｒｔとＶａｒｙ（２０１０）（非特許文献２を参照）から採用したものである。

【0100】

ＳＩＩ値は例えば０〜１の間の値であり、１は非常に良好なスピーチ了解度を示し、０は非常に劣悪なスピーチ了解度を示す。

【0101】

この推定されたＳＩＩを使用して、いわゆる線形ゲイン関数が計算される。

【0102】

上述の式（９）が理解し易くなるように、ブロックｌに対する

の依存性は明示されていない。しかしながら、

はブロックｌに依存している点に留意すべきである。

【0103】

Φ_(max)［ｌ］は、複数のスピーチサブバンド信号の全てのサブバンド信号の信号パワーの合計を示す。例えば、Φ_(max)［ｌ］は、ブロックｌの中のスピーチ信号の広帯域パワーを示す。

【0104】

次に、両方のゲイン関数が組み合わされて、サブバンド信号がそれぞれのゲイン関数で乗算される。即ち、

従って、式（１０）は次式と等価となる。

【0105】

一実施例によれば、ここで逆フィルタバンクが適用され、修正済みスピーチ信号が再構築される。

【0106】

しかし他の実施形態によれば、逆フィルタバンクを適用して修正済みスピーチ信号を生成する前に、特にブロックの境界におけるゲイン関数内の急速な変化を防止するために、平滑化処理がｗ_n［ｌＭ−ｍ］に対して適用される。

【0107】

一実施形態において、重み付け情報生成部１１０は、次式を適用することにより複数のスピーチサブバンド信号の各スピーチサブバンド信号ｓ_n［ｋ］の重み付け情報

を生成するよう構成されている。

【0108】

ここで、ｎは複数のスピーチサブバンド信号のｎ番目のスピーチサブバンド信号を示し、Ｎはスピーチサブバンド信号の総数を示し、ｌはブロックを示し、α_pは平滑化定数であり、

はスピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す。

【0109】

以下に、一実施形態にかかる平滑化について説明する。

【0110】

平滑化は、ｗ_n［ｌＭ−ｍ］の基底にある入力−出力−特性（ＩＯＣ）に対して適用される。その入力−出力−特性は、パラメータベクトルλ_n［ｌ］の一部である入力パワーγ_n,i［ｌ］および出力パワーξ_n,i［ｌ］の集合により定義される。即ち、

【0111】

次に、入力−出力−特性は以下の式で定義される。

及び

【0112】

ここで、νはｄＢＦＳをｄＢＳＰＬへと変換する。例えば、０ｄＢＦＳが１００ｄＢＳＰＬと等しいと仮定すると、ν＝１０^(100/10)となる。ＩＯＣの線形のインターポーレーションおよびエクストラポーレーションを実行する関数

は、例えば、現在の入力パワー

に依存してデシベルドメインで上述のパラメータによって定義され、前記現在の入力パワーとしては、例えば式（６）に従って定義されるように、スピーチ信号振幅の包絡の平滑化された推定がある。従って、次式のように記述できる。

【0113】

次に、パラメータベクトルλ_n［ｌ］の各要素λ_n,j［ｌ］に対し、再帰的な平滑化が適用されて、次式が導かれる。

は平滑化されたパラメータベクトルであり、α_λは平滑化定数である。

【0114】

次に、平滑化されたゲインが次式のように計算される。

ここでα_pは、ゲイン関数を時間にわたって更に平滑化するための平滑化定数である。

【0115】

は、平滑化された入力−出力−特性

の線形のインターポーレーションおよびエクストラポーレーションを実行する関数として定義され、

は例えば式（１３）と式（２１）とにより定義されている通りである。

【0116】

次に、出力信号は次式をもたらす。

【0117】

最後に、逆フィルタバンクが適用されて、修正済みスピーチ信号

が再構築される。

【0118】

入力パワーと出力パワーとの差を低減するために、アルゴリズムの出力と入力において、各ブロック内のパワーが平滑化されたパワー推定を用いて正規化される。従って、平滑化された入力パワーは次式のように定義される。

【0119】

ここで、α_Lは平滑化定数であり、Φｓ［ｌ］は、サブバンド信号ではなく広帯域入力信号ｓ［ｋ］を用いて式（１）に従って計算されたものである。次に、平滑化された出力パワー

が本アルゴリズムの出力信号

を使用して計算される。

【0120】

次に、再生されるべき信号が次式のように計算される。

【0121】

これらの実施形態は従来技術と比べて幾つかの点で異なっている。

【0122】

例えば、幾つかの実施形態では、多帯域スペクトル整形アルゴリズムと多帯域圧縮スキームとが組み合わされており、これらは、多帯域スペクトル整形アルゴリズムと単一帯域圧縮スキームとが組み合わせられたＺｏｒｉｌａらの手法（２０１２ａ，ｂ）（非特許文献５、非特許文献６を参照）とは対照的である。

【0123】

本提案の概念は、従来技術とは対照的に、線形ゲインと圧縮ゲインとを組み合わせ、その線形ゲインと圧縮ゲインとの両方が時間変化し、瞬時スピーチ信号とノイズ信号とに適応する。

【0124】

更に、幾つかの実施形態は、静的な圧縮スキームを使用したＺｏｒｉｌａらの手法（２０１２ａ，ｂ）（非特許文献５、非特許文献６を参照）とは対照的に、各周波数帯域内で適応的な圧縮比を適用する。

【0125】

更に、幾つかの実施形態によれば、その圧縮比は、ＳＩＩを計算するために使用され従ってスピーチ知覚に関係する、関数に基づいて選択される。

【0126】

更に、幾つかの実施形態では、周波数帯域の均等な重み付けが線形ゲイン関数の中で使用されており、他方、他の関連するアルゴリズムは異なる重み付けを使用する。ＳａｕｅｒｔとＶａｒｙ，２０１２（非特許文献３）を参照されたい。

【0127】

更に、幾つかの実施形態は、スピーチ知覚に関係するＳＩＩ（の推定）を使用して、重み付けなしと全ての帯域の均等な重み付けとの間でクロスオーバーさせている。

【0128】

本提案の実施形態は、ノイズの多い環境においてスピーチを聞くときの了解度を改善させることに役立つ。その改善度は、既存の方法を用いた場合よりも有意に高くなり得る。本提案の概念は、上述したように種々の点において先行技術とは異なっている。

【0129】

現状の技術によるアルゴリズム、例えば上述したアルゴリズムも、了解度を改善することができるが、本提案の実施形態の特別な特徴は、現在使用可能な方法よりも一層の効率化を可能とする。

【0130】

本提案の実施形態、例えば本提案の方法は、オーディオ再生を用いた多くの技術的アプリケーションにおける信号プロセッサの一部、又は信号処理ソフトウエアとして使用可能である。例えば、
−鉄道駅、公共交通機関、学校における構内放送システム
−移動電話、ヘッドセットなどの通信装置
−自動車内のインフォテインメント・システム、機内エンターテインメント・システム
−信号ミキシングの前（例えば映画のオーディオ材料のミキシングの間）に複数のオーディオステムを含むメディアファイル内のスピーチの了解度を改善するためのツールとして。

【0131】

更に、本提案の実施形態はまた、残響のような他のタイプの信号妨害に対しても使用可能である。それらの信号妨害は、上述したアルゴリズムの形態ではノイズと同様に取り扱うことができる。

【0132】

図５ｂは、説明したアルゴリズムの、他の実施形態に係るフローチャートを示す。

【0133】

図５ｂで示す実施形態においては、室内音響的情報が提案のアルゴリズム内で考慮されてもよい。スピーチ信号はラウドスピーカによって再生され、妨害されたスピーチ信号がマイクロホンによって集音される。録音された信号は、ノイズｒ［ｋ］と残響スピーチ信号とを含む。残響スピーチ信号の中に含まれた残響のいくらかの部分は有害であると認められ得る一方で、他の部分はスピーチ了解度にとって有益であると考えられ得る。例えばラウドスピーカとマイクロホンとの間の室内インパルス応答をモデル化するフィルタである室内音響的情報生成部（ＲＩＧ）、残響時間Ｔ６０（６０ｄｂ減衰する時間として定義される）、又は直接対残響エネルギー比（ＤＲＲ）を使用して、残響スペクトルレベルｚ_n［ｌ］が、室内音響的情報生成部から提供された情報と各サブバンドにおけるサブバンドスピーチ信号ｓ_n［ｋ］とを用いて計算されてもよい（符号１６５を参照）。重み付けファクタβを用いて次式のような重み付きの加算ａ_n［ｌ］が決定されてもよい（符号１６６を参照）。

また、重み付きの加算ａ_n［ｌ］は後続の計算で使用されてもよく、その他の場合にはノイズスペクトルレベルｄ_n［ｌ］だけが使用される。

【0134】

ｄ_nについて定義された全ての式は、ｄ_nをａ_nに置き換えることで、ａ_nについても適用可能である。例えば、式（４）、式（５）及び／又は式（８）内において、ｄ_nはａ_nで置き換えることができ、その置き換えにより、これらの式は重み付きの加算ａ_nを考慮に入れることができる。

【0135】

例えば、βは実数であってもよく、ここで、例えば０≦β≦１が適用されてもよい。

【0136】

提案のアルゴリズムの性能は、主観的なリスニングテストを使用して、時間及び周波数依存のゲイン特性だけを使用する現状技術のアルゴリズム及び未処理の参照信号と比較された。リスニングテストは、８人の健聴被験者により、２個の異なるノイズタイプ、即ち定常的な自動車ノイズとより非定常的なカフェテリアのノイズとを用いて行われた。各ノイズタイプについて、未処理の参照状態において２０％、５０％及び８０％の言語了解度のポイントに対応する、３つの異なる信号対ノイズ比が測定された。その結果、提案のアルゴリズムは、現状技術のアルゴリズム及び未処理の参照よりも、同等のスピーチレベルにおける両方のノイズシナリオにおいて性能が優れていることが示された。更に、客観的尺度と主観的なデータとの間の相関関係の分析は、順位の高い相関関係および高い線形相関を示しており、その点は、前処理アルゴリズムの評価において、客観的尺度を主観的なデータを予測するために部分的に使用し得ることを示唆している。

【0137】

上述したように、ＳＩＩ依存の増幅および圧縮を用いて背景ノイズにおけるスピーチ了解度を改善する概念が提供された。

【0138】

上述したように、例えば構内放送システム、カーナビゲーションシステム又は移動電話などの通信装置において、明瞭なスピーチ信号が提供される場合も多い。しかしながら、時には近端のリスナーにとって妨害により聞き取れないことも起こり得る。上述の実施形態は、妨害を受けた所与の音響シナリオにおいて、明瞭なスピーチ信号を修正して、了解度及び／又はリスニングの快適さを高めるものである。

【0139】

図６は、実施形態に係る近端リスニング強化が設けられたシナリオを示す。特に図６は、一実施形態に係る近端リスニング強化が設けられた信号モデルを示す。

【0140】

図６において、次式が適用されてもよい。

【0141】

例えば次式のように完全なノイズ推定が可能であると想定され得る。

【0142】

更に、残響が全くない場合には、次式のようになる。

【0143】

残響も考慮に入れると、このようなことは全ての状態で起こりえないであろう。しかし、その代わりに、例えば室内インパルス応答ｈ［ｋ］のような何らかの室内情報の完全な推定が可能であると想定されてもよい。

【0144】

同等のパワー制約下において、了解度ｓ［ｋ］＋ｒ［ｋ］と比較して了解度

を強化する重み付け関数Ｗ｛・｝を見つけることが望まれ得る。

【0145】

同等のパワー制約に従って、全てのサブバンド内の全パワーが増幅前と増幅後とでほぼ同じとなるように、重み付け関数Ｗ｛・｝が決定されてもよい。

【0146】

図７は１〜１６０００Ｈｚの中心周波数についての長期間スピーチレベルを示す。特に、１つのスピーチ入力信号と複数の修正済みスピーチ信号とについての長期間スピーチレベルを示す。

【0147】

一実施形態にかかるアルゴリズムは、ｓ［ｋ］及び

からＳＩＩを推定し、２つのＳＩＩ依存のステージ、特に多帯域周波数整形と多帯域圧縮スキームとを組み合わせる。

【0148】

ある主観的な評価が行われた。処理条件は、未処理の参照（「参照」）と、一実施形態に従うアルゴリズムを用いた処理の結果として得られたスピーチ信号（「ＤｙｎＣｏｍｐ」）と、元来はＳａｕｅｒｔら（非特許文献３を参照）により提案された修正済みアルゴリズムを用いた処理の結果として得られたスピーチ信号（「ＭｏｄＳａｕ」）とに関する主観的評価を含む。

【0149】

その主観的評価に関し、８人の健聴被験者が参加した。２つの異なるノイズ、即ち自動車ノイズとカフェテリアノイズとがテストされた。ＯｌｄｅｎｂｕｒｇＳｅｎｔｅｎｃｅＴｅｓｔからのスピーチ材料が使用された。信号対ノイズ比は、２０％、５０％及び８０％の言語了解度の測定ポイントを目標として、選択された。

【0150】

図８は主観的評価の結果を示す。

【0151】

図９は主観的結果に関する相関分析を示す。主観的結果の予測に関して、自動車ノイズ及びカフェテリアノイズの中で、未処理の参照状態から導出されたモデル予測値の非線形変換の後に、相関分析が実施された。

【0152】

主観的評価から、実施形態に従う前処理により、スピーチ了解度の向上が達成されると結論付けられる。実施形態にかかる提案の概念は、スピーチ了解度において最高の改善を示している。更に、スピーチ了解度に関する現在のモデルは主観的データとの高い順位相関を示す。更に、変換されたモデル値に基づく予測は、高い線形相関を示すが、部分的には大きな線形のずれをも示す。

【0153】

これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。

【0154】

本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又はインターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を通じて伝送されることができる。

【0155】

所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。

【0156】

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。

【0157】

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

【0158】

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。

【0159】

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0160】

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体）である。

【0161】

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。

【0162】

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

【0163】

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

【0164】

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

【0165】

上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

【図1】