特許第6162254号(P6162254)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6162254背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
<>
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000092
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000093
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000094
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000095
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000096
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000097
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000098
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000099
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000100
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000101
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000102
  • 特許6162254-背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 図000103
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6162254
(24)【登録日】2017年6月23日
(45)【発行日】2017年7月12日
(54)【発明の名称】背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
(51)【国際特許分類】
   G10L 21/0364 20130101AFI20170703BHJP
【FI】
   G10L21/0364
【請求項の数】20
【全頁数】30
(21)【出願番号】特願2015-551143(P2015-551143)
(86)(22)【出願日】2013年8月23日
(65)【公表番号】特表2016-505896(P2016-505896A)
(43)【公表日】2016年2月25日
(86)【国際出願番号】EP2013067574
(87)【国際公開番号】WO2014108222
(87)【国際公開日】20140717
【審査請求日】2015年8月18日
(31)【優先権主張番号】61/750,228
(32)【優先日】2013年1月8日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】シェプケル,ヘニング
(72)【発明者】
【氏名】レニース,ヤン
(72)【発明者】
【氏名】ドクロ,シモン
(72)【発明者】
【氏名】アッペル,イェンス エー
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特開平04−348000(JP,A)
【文献】 特開2010−068175(JP,A)
【文献】 特表2010−519601(JP,A)
【文献】 国際公開第2011/048813(WO,A1)
【文献】 特開平11−298990(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/02 −21/0388
(57)【特許請求の範囲】
【請求項1】
スピーチ入力信号から修正済みスピーチ信号を生成する装置であって、前記スピーチ入力信号は複数のスピーチサブバンド信号を含み、前記修正済みスピーチ信号は複数の修正済みサブバンド信号を含み、前記装置は、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])のための重み付け情報
を、前記スピーチサブバンド信号(sn[k])の信号パワー(Φn[l])に依存して生成する、重み付け情報生成部(110)と、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])に対して当該スピーチサブバンド信号(sn[k])の前記重み付け情報
を適用することにより、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])を修正し、前記複数の修正済みサブバンド信号の1つの修正済みサブバンド信号を取得する、信号修正部(120)と、を含み、
前記複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、前記複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅されるように、前記重み付け情報生成部(110)は前記複数のスピーチサブバンド信号の各々のための前記重み付け情報を生成し、かつ前記信号修正部(120)は前記スピーチサブバンド信号の各々を修正するよう構成され、
前記第1信号パワー前記第2信号パワーよりも大きいとき、前記第1増幅度は前記第2増幅度よりも低く設定されている、装置。
【請求項2】
請求項1に記載の装置であって、
ノイズ入力信号の複数のノイズサブバンド信号のうちの1つのノイズサブバンド信号(rn[k])が前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])に対して割り当てられ、
前記重み付け情報生成部(110)は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の前記重み付け情報
を、前記スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])のノイズスペクトルレベル(dn[l])に依存して生成するよう構成されており、
前記重み付け情報生成部(110)は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の前記重み付け情報
を、前記スピーチサブバンド信号のスピーチスペクトルレベル(en[l])に依存して生成するよう構成されている、装置。
【請求項3】
請求項2に記載の装置であって、前記重み付け情報生成部(110)は、
前記スピーチサブバンド信号(sn[k])の前記スピーチスペクトルレベル(en[l])と、前記スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])の前記ノイズスペクトルレベル(dn[l])との信号対ノイズ比(q(en,dn))を決定することにより、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の重み付け情報
を生成するよう構成されている、装置。
【請求項4】
請求項3に記載の装置であって、前記スピーチサブバンド信号(sn[k])の前記スピーチスペクトルレベル(en[l])と、前記スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])の前記ノイズスペクトルレベル(dn[l])との前記信号対ノイズ比(q(en,dn))は次式により定義され、
【数8】
ここで、enは前記スピーチサブバンド信号(sn[k])の前記スピーチスペクトルレベルであり、dnは前記スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])の前記ノイズスペクトルレベルである、装置。
【請求項5】
請求項3又は4に記載の装置であって、
前記重み付け情報生成部(110)は、スピーチ了解度指数
を決定すること、及び、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])について、当該スピーチサブバンド信号(sn[k])の前記スピーチスペクトルレベル(en[l])と、当該スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])の前記ノイズスペクトルレベル(dn[l])との信号対ノイズ比(q(en,dn))を決定することによって、前記スピーチ入力信号の前記複数のスピーチサブバンド信号の前記重み付け情報
を、生成するよう構成されており、
前記スピーチ了解度指数(SII)は前記スピーチ入力信号のスピーチ了解度を示す、装置。
【請求項6】
請求項5に記載の装置であって、
前記重み付け情報生成部(110)は、前記スピーチ了解度指数
を次式に従って決定するよう構成されており、
【数9】
ここで、nは前記複数のスピーチサブバンド信号のn番目のスピーチサブバンド信号を示し、Nは前記スピーチサブバンド信号の総数を示し、lはブロックを示し、q(en,dn)は、前記n番目のスピーチサブバンド信号(sn[k])のスピーチスペクトルレベル(en[l])と、前記n番目のスピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])のノイズスペクトルレベル(dn[l])との信号対ノイズ比を示し、unは固定値であるスピーチスペクトルレベルを示し、inは帯域重要度を示す、装置。
【請求項7】
請求項5又は6に記載の装置であって、前記重み付け情報生成部(110)は、前記スピーチ了解度指数
に依存し、前記スピーチサブバンド信号(sn[k])の信号パワー(Φn[l])に依存し、かつ前記複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計(Φ(max)[l])に依存して、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])について線形ゲイン(wn,(lin))を決定することにより、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の前記重み付け情報を生成するよう構成されている、装置。
【請求項8】
請求項7に記載の装置であって、前記重み付け情報生成部(110)は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])についての線形ゲインwn,(lin)を、次式に従って生成するよう構成され、
【数10】
ここで、nは前記複数のスピーチサブバンド信号のn番目のスピーチサブバンド信号を示し、Nは前記スピーチサブバンド信号の総数を示し、lはブロックを示し、Φn[l]はn番目のスピーチサブバンド信号の信号パワーを示し、Φ(max)[l]は前記複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計を示す、装置。
【請求項9】
請求項3乃至6のいずれか一項に記載の装置であって、
前記重み付け情報生成部(110)は、圧縮比crn[l]を次式に従って決定するよう構成されており、
【数11】
ここで、q(en[l],dn[l])は、前記スピーチスペクトルレベルと前記ノイズスペクトルレベルとの信号対ノイズ比であり、前記信号対ノイズ比q(en[l],dn[l])は0と1の間のある数値を示し、cr(max)はある固定値を示し、lはあるブロックを示す、装置。
【請求項10】
請求項7又は8に記載の装置であって、
前記重み付け情報生成部(110)は、圧縮比crn[l]を次式に従って決定するよう構成されており、
【数12】
ここで、q(en[l],dn[l])は、前記スピーチスペクトルレベルと前記ノイズスペクトルレベルとの信号対ノイズ比であり、前記信号対ノイズ比q(en[l],dn[l])は0と1の間のある数値を示し、cr(max)はある固定値を示し、lはあるブロックを示す、装置。
【請求項11】
請求項9又は10に記載の装置であって、
前記重み付け情報生成部(110)は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の前記重み付け情報を、当該サブバンド信号(sn[k])の圧縮ゲインwn,(comp)を次式に従って決定することにより、生成するよう構成され、
【数13】
ここで、Mはブロックlの長さを示し、Φn[l]は前記スピーチサブバンド信号(sn[k])の信号パワーを示し、
は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す、装置。
【請求項12】
請求項11に記載の装置であって、
前記重み付け情報生成部(110)は、前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定
を次式に従って決定するよう構成され、
【数14】
ここで、sn[k]は前記スピーチサブバンド信号を示し、|sn[k]|は当該スピーチサブバンド信号の振幅を示し、αaは第1平滑化定数であり、αrは第2平滑化定数である、装置。
【請求項13】
請求項1乃至10のいずれか一項に記載の装置であって、前記重み付け情報生成部(110)は、次式を適用することで、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の前記重み付け情報
を生成するよう構成されており、
【数15】
ここで、nは前記複数のスピーチサブバンド信号のn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、αpは平滑化定数であり、
は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示し、

の線形のインターポーレーションおよびエクストラポーレーションを実行する関数を示し、
は平滑化された入力−出力−特性を示す、装置。
【請求項14】
請求項1乃至13のいずれか一項に記載の装置であって、全てのスピーチサブバンド信号の全てのスピーチ信号パワー(Φn[l])の第1合計と、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第2合計との違いが20%よりも小さくなるように、前記重み付け情報生成部(110)は前記複数のスピーチサブバンド信号の各々について前記重み付け情報を生成し、かつ前記信号修正部(120)は前記スピーチサブバンド信号の各々を修正するよう構成されている、装置。
【請求項15】
請求項2に記載の装置であって、前記重み付け情報生成部(110)は、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号(sn[k])の前記重み付け情報を、重み付きの加算(an[l])を決定することで生成するよう構成されており、前記重み付きの加算は、当該スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])の前記ノイズスペクトルレベル(dn[l])に依存し、かつ残響スペクトルレベル(zn[l])に依存している、装置。
【請求項16】
請求項15に記載の装置であって、前記重み付け情報生成部(110)は、ラウドスピーカとマイクロホンとの間の室内インパルス応答に依存し、残響時間T60に依存し、又は直接対残響のエネルギー比に依存して、前記残響スペクトルレベル(zn[l])を生成するよう構成されている、装置。
【請求項17】
請求項15又は16に記載の装置であって、前記重み付け情報生成部(110)は、前記重み付きの加算an[l]を次式に従って決定するよう構成されており、
【数16】
ここで、dn[l]は前記スピーチサブバンド信号(sn[k])の前記ノイズサブバンド信号(rn[k])のノイズスペクトルレベルであり、zn[l]は前記残響スペクトルレベルを示し、βは実数である、装置。
【請求項18】
請求項1乃至17のいずれか一項に記載の装置であって、前記装置は、第1フィルタバンク(105)と第2フィルタバンク(125)とを更に備え、
前記第1フィルタバンク(105)は、時間ドメインで表現されている未処理のスピーチ信号を、時間ドメインからサブバンドドメインへと変換して、前記複数のスピーチサブバンド信号を含む前記スピーチ入力信号を取得するよう構成されており、
前記第2フィルタバンク(125)は、前記サブバンドドメインで表現され且つ前記複数の修正済みサブバンド信号を含む前記修正済みスピーチ信号を、前記サブバンドドメインから前記時間ドメインへと変換して、時間ドメインの出力信号を取得するよう構成されている、装置。
【請求項19】
スピーチ入力信号から修正済みスピーチ信号を生成する方法であって、前記スピーチ入力信号は複数のスピーチサブバンド信号を含み、前記修正済みスピーチ信号は複数の修正済みサブバンド信号を含み、前記方法は、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成するステップと、
前記各スピーチサブバンド信号に対して当該スピーチサブバンド信号の前記重み付け情報を適用することで、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の1つの修正済みサブバンド信号を取得するステップと、を含み、
前記複数のスピーチサブバンド信号の各々のための前記重み付け情報を生成するステップと、前記スピーチサブバンド信号の各々を修正するステップとは、前記複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、前記複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅されるように実行され、
前記第1信号パワー前記第2信号パワーよりも大きいとき、前記第1増幅度は前記第2増幅度よりも低く設定されている、方法。
【請求項20】
コンピュータ又はプロセッサ上で操作されたとき、請求項19に記載の方法を実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、特に、背景ノイズにおけるスピーチ了解度(speech intelligibility)を増幅及び圧縮により向上させる装置と方法に関するものである。
【背景技術】
【0002】
多くのスピーチ伝達アプリケーション(例えば鉄道駅の構内放送システムや移動電話など)においては、付加的ノイズ及び/又は残響によって妨害される状況下でも高いスピーチ了解度を維持することが非常に重要である。その目標を維持する一つの簡易な手法は、出力する前にスピーチ信号を増幅して、良好な信号対ノイズ比(SNR)を達成することである。しかし、そのような簡易な増幅は、増幅システムの技術的な制限や不快なほど高い音響レベルにより、不可能である場合が多い。従って、スピーチ了解度を向上させる一方で、入力時のパワーと比較して同等の出力パワーを維持するようなアルゴリズムが望まれる。本発明は、全体のスピーチレベルを増大させることなく、付加的なノイズを有するシナリオ内でスピーチ了解度を向上させることが可能なアルゴリズムを含む。
【0003】
簡易な増幅器を超える信号処理の指針については、非特許文献1、非特許文献2、非特許文献3、非特許文献5及び非特許文献6に開示されている。
【0004】
しかしながら、スピーチ伝達アプリケーションのための改善された信号処理概念が提供されるとすれば、大きな意義があるであろう。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】ANSI (1997). Methods for calculation of the speech intelligibility index. American National Standard ANSI S3.5-1997 (American National Standards Institute, Inc.), New York, USA.
【非特許文献2】Sauert, B. and Vary, P. (2010). Recursive closed-form optimization of spectral audio power allocation for near end listening enhancement. In Proc. of ITG-Fachtagung Sprachkommunikation.(Bochum, Germany, Oct. 6-8, 2010), volume 9.
【非特許文献3】Sauert, B. and Vary, P. (2012). Near-end listening enhancement in the presence of bandpass noises. In Proc. of ITG-Fachtagung Sprachkommunikation. (Braunschweig, Germany, Sept. 26-288, 2012).
【非特許文献4】Vaidyanathan, P., Mitra, S., and Neuvo, Y. (1986). A new approach to the realization of low-sensitivity iir digital filters. Acoustics, Speech and Signal Processing, IEEE Transactions on, 34(2):350 - 361.
【非特許文献5】Zorila, T.-C., Kandia, V., and Stylianou, Y. (2012a). Speech-in-noise intelligibility improvement based on power recovery and dynamic range compression. In 20th European Signal Processing Conference (EUSIPCO 2012), Bucharest Romania.
【非特許文献6】Zorila, T.-C., Kandia, V., and Stylianou, Y. (2012b). Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression. In Proceedings of Interspeech 2012 (Portland, USA).
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、スピーチ伝達アプリケーションのための改善された信号処理概念を提供することである。本発明のこの目的は、請求項1に記載の装置と、請求項19に記載の方法と、請求項20に記載のコンピュータプログラムにより達成される。
【課題を解決するための手段】
【0007】
スピーチ入力信号から修正済みスピーチ信号を生成する装置が提供される。そのスピーチ入力信号は、複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。その装置は、複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成する重み付け情報生成部を含む。さらにその装置は、スピーチサブバンド信号に対して当該スピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の各修正済みサブバンド信号を取得する信号修正部を含む。複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度(first degree)を用いて増幅され、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度(second degree)を用いて増幅されるように、重み付け情報生成部は複数のスピーチサブバンド信号の各々のための重み付け情報を生成し、かつ信号修正部はスピーチサブバンド信号の各々を修正するよう構成され、第1信号パワー第2信号パワーよりも大きいとき、第1増幅度は第2増幅度よりも低く設定されている。
【0008】
複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、また、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅される。第1増幅度が第2増幅度よりも低い場合には、例えば第1スピーチサブバンド信号を増幅した結果として得られる第1修正済みサブバンド信号の信号パワーと第1スピーチサブバンド信号の信号パワーとの比が、第2スピーチサブバンド信号を増幅した結果として得られる第2修正済みサブバンド信号の信号パワーと第2スピーチサブバンド信号の信号パワーとの比よりも低いことを意味している。
【0009】
本提案の概念を用いた実施形態は、時間及び周波数依存のゲイン特性と時間及び周波数依存の圧縮特性とを組み合わせてもよく、両特性は共に推定されたスピーチ了解度指数(SII)の関数である。そのゲインは、スピーチレベルが一定に保持される一方で了解度が最大化されるように、現在のノイズ信号に依存してスピーチ信号を適応的に前処理するために使用されてもよい。
【0010】
この概念が使用される技術システム、例えば対応するアルゴリズムが作動している技術システムに依るが、スピーチレベルを更に変化させる目的で、この概念(例えばアルゴリズム)を一般的な音量制御と組み合わせてもよく、又は組み合わせなくてもよい。以下に、アルゴリズムの一つの可能な実現例の詳細な説明を提供する。
【0011】
個々のステップの具体的なパラメータ又は機能は修正可能であり、当業者であればそのような修正を認識することができるであろう。
【0012】
スピーチ入力信号から修正済みスピーチ信号を生成する方法が提供される。そのスピーチ入力信号は複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。その方法は、
−複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成するステップと、
−前記スピーチサブバンド信号に対して当該スピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の1つの修正済みサブバンド信号を取得するステップと、を含む。
【0013】
複数のスピーチサブバンド信号の各々のための重み付け情報を生成するステップとスピーチサブバンド信号の各々を修正するステップとは、複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅されるように実行され、第1信号パワーは第2信号パワーよりも大きく、第1増幅度は第2増幅度よりも低い。
【0014】
更に、コンピュータ又は信号プロセッサ上で作動するときに上述の方法を実行するコンピュータプログラムが提供される。
【0015】
好ましい実施形態は従属請求項において提供される。
【0016】
以下に、本発明の実施形態について図面を参照しながら更に詳細に説明する。
【図面の簡単な説明】
【0017】
図1】修正済みスピーチ信号を生成する一実施形態に係る装置を示す。
図2】修正済みスピーチ信号を生成する他の実施形態に係る装置を示す。
図3a】スピーチサブバンド信号の増幅が行われる前のスピーチサブバンド信号のスピーチ信号パワーを示す。
図3b】スピーチサブバンド信号の増幅の結果として得られた修正済みサブバンド信号のスピーチ信号パワーを示す。
図4a】修正済みスピーチ信号を生成する更なる実施形態に係る装置を示す。
図4b】修正済みスピーチ信号を生成する他の実施形態に係る装置を示す。
図5a】記述されたアルゴリズムの一実施形態に係るフローチャートを示す。
図5b】記述されたアルゴリズムの他の実施形態に係るフローチャートを示す。
図6】一実施形態に係る近端(near-end)リスニング強化が備えられた信号モデルを示す。
図7】1〜16000Hzの中心周波数についての長期間スピーチレベルを示す。
図8】主観的評価から得られた結果を示す。
図9】主観的結果に関する相関分析を示す。
【発明を実施するための形態】
【0018】
図1は、スピーチ入力信号から修正済みスピーチ信号を生成する、一実施形態に係る装置を示す。スピーチ入力信号は複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。
【0019】
その装置は、複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成する重み付け情報生成部110を含む。
【0020】
さらにその装置は、各スピーチサブバンド信号に対してそのスピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の各修正済みサブバンド信号を取得する信号修正部120を含む。
【0021】
複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅されるように、重み付け情報生成部110は複数のスピーチサブバンド信号の各々のための重み付け情報を生成し、かつ信号修正部120はスピーチサブバンド信号の各々を修正するよう構成され、第1信号パワーは第2信号パワーよりも大きく、第1増幅度は第2増幅度よりも低い。
【0022】
図3aと図3bとは、この状態を更に詳細に示す。特に、図3aはスピーチサブバンド信号の増幅が行われる前のスピーチサブバンド信号のスピーチ信号パワーを示す。図3bはスピーチサブバンド信号の増幅の結果として得られた修正済みサブバンド信号のスピーチ信号パワーを示す。
【0023】
図3aと図3bとは、第1スピーチサブバンド信号のオリジナルの第1信号パワー311が増幅され、その増幅によって低減され、その結果として、第1スピーチサブバンド信号のより小さい第1信号パワー321が得られる実施形態を示す。第2スピーチサブバンド信号のオリジナルの第2信号パワー312は増幅され、その増幅によって増強され、その結果として、第スピーチサブバンド信号のより大きな第2信号パワー322が得られる。このように、第1スピーチサブバンド信号は第1増幅度を用いて増幅されており、第2スピーチサブバンド信号は第2増幅度を用いて増幅されており、第1増幅度は第2増幅度よりも低い。第1スピーチサブバンド信号の第1のオリジナルの信号パワーは、第2スピーチサブバンド信号の第2のオリジナルの信号パワーよりも大きいものであった。
【0024】
図3aと図3bとにおいて、第1及び第3のスピーチサブバンド信号の各信号パワー311及び313は増幅によって低減されており、第2、第4及び第5のスピーチサブバンド信号の各信号パワー312、314及び315は増幅によって増強されている。このように、第1及び第3のスピーチサブバンド信号の各信号パワー311及び313は、第2、第4及び第5のスピーチサブバンド信号を増幅するのに用いられる増幅度よりも低い増幅度を用いてそれぞれ増幅されている。第1及び第3のスピーチサブバンド信号のオリジナルの各信号パワー311及び313は、第2、第4及び第5のスピーチサブバンド信号のオリジナルの各信号パワー312、314及び315よりも大きいものであった。
【0025】
更に、図3aと図3bとにおいて、第2スピーチサブバンド信号のオリジナル信号パワー312は、第4スピーチサブバンド信号のオリジナル信号パワー314よりも大きいことが分かる。第2スピーチサブバンド信号と第4スピーチサブバンド信号との両方が増幅によって増強されているが、第2サブバンド信号は、第4サブバンド信号を増幅するのに用いられた増幅度よりも低い増幅度を用いて増幅されている。なぜなら、第2スピーチサブバンド信号における修正済み(増幅済み)信号パワー322とオリジナル信号パワー312との比が、第4スピーチサブバンド信号における修正済み(増幅済み)信号パワー324とオリジナル信号パワー314との比よりも低いからである。
【0026】
例えば、第2スピーチサブバンド信号の修正済み(増幅済み)信号パワー322は、第2スピーチサブバンド信号のオリジナル信号パワー312の大きさの2倍であり、従って、第2スピーチサブバンド信号における修正済み信号パワー322とオリジナル信号パワー312との比は2である。第4スピーチサブバンド信号の修正済み(増幅済み)信号パワー324は、第4スピーチサブバンド信号のオリジナル信号パワー314の大きさの3倍であり、従って、第4スピーチサブバンド信号における修正済み信号パワー324とオリジナル信号パワー314との比は3である。
【0027】
更に、図3aと図3bとにおいて、第3スピーチサブバンド信号のオリジナル信号パワー313は、第1スピーチサブバンド信号のオリジナル信号パワー311よりも大きいことが分かる。第3スピーチサブバンド信号と第1スピーチサブバンド信号との両方が増幅によって低減されているが、第3のサブバンド信号は、第1のサブバンド信号を増幅するのに用いられた増幅度よりも低い増幅度を用いて増幅されている。なぜなら、第3スピーチサブバンド信号における修正済み(増幅済み)信号パワー323とオリジナル信号パワー313との比が、第1スピーチサブバンド信号における修正済み(増幅済み)信号パワー321とオリジナル信号パワー311との比よりも低いからである。
【0028】
例えば、第3スピーチサブバンド信号の修正済み(増幅済み)信号パワー323は、第3スピーチサブバンド信号のオリジナル信号パワー313の大きさの67%であり、従って、第スピーチサブバンド信号における修正済み信号パワー323とオリジナル信号パワー313との比は0.67である。第1スピーチサブバンド信号の修正済み(増幅済み)信号パワー321は、第1スピーチサブバンド信号のオリジナル信号パワー311の大きさの71%であり、従って、第スピーチサブバンド信号における修正済み信号パワー321とオリジナル信号パワー311との比は0.71である。
【0029】
例えば、修正済みサブバンド信号を得るべくスピーチサブバンド信号を増幅するために用いられた増幅度は、修正済みサブバンド信号の信号パワーとスピーチサブバンド信号の信号パワーとの比である。
【0030】
複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、かつ、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅され、第1増幅度が第2増幅度よりも低い場合には、例えばこれは、第1スピーチサブバンド信号の増幅の結果として得られた第1修正済みサブバンド信号の信号パワーと第1スピーチサブバンド信号の信号パワーとの比が、第2スピーチサブバンド信号の増幅の結果として得られた第2修正済みサブバンド信号の信号パワーと第2スピーチサブバンド信号の信号パワーとの比よりも低いことを意味する。
【0031】
一実施形態によれば、全てのスピーチサブバンド信号の全てのスピーチ信号パワー(Φn[l])の第1合計と、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第2合計との違いが20%よりも小さくなるように、重み付け情報生成部110は複数のスピーチサブバンド信号の各々について重み付け情報を生成し、かつ信号修正部120はスピーチサブバンド信号の各々を修正するよう構成されてもよい。
【0032】
換言すれば、全てのスピーチサブバンド信号の全てのスピーチ信号パワー(Φn[l])の第1合計を、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第2合計で除算すると、その結果が値dとなり、ここで、0.8≦d≦1.2が真となる。
【0033】
図2は、修正済みスピーチ信号を生成する、他の実施形態にかかる装置を示す。
【0034】
図2の装置と図1の装置との相違点は、図2の装置が第1フィルタバンク105と第2フィルタバンク125とを更に備える点である。
【0035】
第1フィルタバンク105は、時間ドメインで表現されている未処理のスピーチ信号を、時間ドメインからサブバンドドメインへと変換して、複数のスピーチサブバンド信号を含むスピーチ入力信号を取得するよう構成されている。
【0036】
第2フィルタバンク125は、サブバンドドメインで表現され且つ複数の修正済みサブバンド信号を含む修正済みスピーチ信号を、サブバンドドメインから時間ドメインへと変換して、時間ドメインの出力信号を取得するよう構成されている。
【0037】
図4aは、修正済みスピーチ信号を生成する、更なる実施形態にかかる装置を示す。
【0038】
図2の実施形態とは対照的に、図4aの装置は第3フィルタバンク108を更に含み、この第3フィルタバンク108は、時間ドメインのノイズ参照(noise reference)r[k]を、時間ドメインからサブバンドドメインへと変換して、ノイズ入力信号の複数のノイズサブバンド信号rn[k]を取得する。
【0039】
更に、この実施形態にかかる重み付け情報生成部110をより詳細に説明する。この重み付け情報生成部110は、スピーチサブバンド信号の各々についてのスピーチ信号パワーを以下のように計算する、スピーチ信号パワー計算部131を含む。更に、重み付け情報生成部110は、スピーチサブバンド信号の各々についてのスピーチスペクトルレベルを以下のように計算する、スピーチスペクトルレベル計算部132を含む。更に、重み付け情報生成部110は、ノイズ入力信号のノイズサブバンド信号の各々についてのノイズスペクトルレベルを以下のように計算する、ノイズスペクトルレベル計算部133を含む。
【0040】
一実施形態において、ノイズ入力信号の複数のノイズサブバンド信号のうちの1つのノイズサブバンド信号rn[k]が、複数のスピーチサブバンド信号の各スピーチサブバンド信号sn[k]に割り当てられている。例えば、各ノイズサブバンド信号が同じサブバンドのスピーチサブバンド信号に割り当てられている。重み付け情報生成部110は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号sn[k]の重み付け情報を、当該スピーチサブバンド信号(sn[k])のノイズサブバンド信号rn[k]のノイズスペクトルレベルdn[l]に依存して生成するよう構成されている。更に、重み付け情報生成部110は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号sn[k]の重み付け情報を、当該スピーチサブバンド信号のスピーチスペクトルレベルen[l]に依存して生成するよう構成されている。
【0041】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について信号対ノイズ比を以下のように計算する、SNR計算部134を含む。
【0042】
例えば、一実施形態によれば、重み付け情報生成部110は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号sn[k]の重み付け情報を、当該スピーチサブバンド信号sn[k]のスピーチスペクトルレベルen[l]と、スピーチサブバンド信号sn[k]のノイズサブバンド信号rn[k]のノイズスペクトルレベルdn[l]との信号対ノイズ比を決定することで、生成するよう構成されている。例えば、スピーチサブバンド信号sn[k]のスピーチスペクトルレベルen[l]と、スピーチサブバンド信号sn[k]のノイズサブバンド信号rn[k]のノイズスペクトルレベルdn[l]との信号対ノイズ比q(en,dn)は、次式により定義されてもよい。
【0043】
【数1】
【0044】
ここで、enは前記スピーチサブバンド信号sn[k]のスピーチスペクトルレベルであり、dnは前記スピーチサブバンド信号sn[k]のノイズサブバンド信号rn[k]のノイズスペクトルレベルである。
【0045】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々についての圧縮比を以下のように計算する、圧縮比計算部135を含む。
【0046】
例えば、一実施形態によれば、重み付け情報生成部110、例えば圧縮比計算部135は、圧縮比crn[l]を次式に従って決定するよう構成されている。
【0047】
【数2】
【0048】
ここで、q(en[l],dn[l])は、前記スピーチスペクトルレベルの信号対ノイズ比であり、その信号対ノイズ比q(en[l],dn[l])は0と1の間のある数値を示し、cr(max)はある固定値を示し、lはあるブロックを示す。nはスピーチサブバンド信号のうちの一つ(n番目のスピーチサブバンド信号)を示す。
【0049】
スピーチサブバンド信号の各々が複数のブロックを含み得ることに留意すべきである。ここで、lはn番目のスピーチサブバンド信号の複数のブロックのうちの一つのブロックを示す。複数のブロックの各ブロックは、スピーチサブバンド信号の複数のサンプルを含んでもよい。
【0050】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について、スピーチ信号振幅の包絡の平滑化された推定(smoothed estimate)を以下のように計算する、平滑化済み信号振幅計算部136を含む。
【0051】
例えば、一実施形態において、重み付け情報生成部110、例えば平滑化済み信号振幅計算部136が、スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定
を次式に従って決定するよう構成されてもよい。
【0052】
【数3】
【0053】
ここで、sn[k]は前記スピーチサブバンド信号を示し、|sn[k]|は前記スピーチサブバンド信号の振幅を示し、αaは第1平滑化定数であり、αrは第2平滑化定数である。
【0054】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について圧縮ゲインを以下のように計算する、圧縮ゲイン計算部137を含む。
【0055】
例えば、重み付け情報生成部110は、複数のスピーチサブバンド信号の各スピーチサブバンド信号sn[k]の重み付け情報を、例えば圧縮ゲイン計算部137を使用して、前記サブバンド信号(sn[k])の圧縮ゲインwn,(comp)を次式に従って決定することにより、生成するよう構成されている。
【0056】
【数4】
【0057】
ここで、Mはブロックlの長さを示し、Φn[l]は前記スピーチサブバンド信号sn[k]の信号パワーを示し、
は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す。
【0058】
Φn[l]は、長さMの(完全な)ブロックlについてのスピーチサブバンド信号sn[k]のスピーチ信号パワーを示してもよく、
はそのブロックの特定サンプルのスピーチ信号振幅の包絡の平滑化された推定の二乗を示してもよい。圧縮、例えば音量の大きなサンプルが低減される一方で、静かなサンプルが増大する。
【0059】
更に、重み付け情報生成部110は、スピーチ了解度指数を以下のように計算する、スピーチ了解度指数計算部138を含む。
【0060】
例えば、一実施形態において、重み付け情報生成部110、例えばスピーチ了解度指数計算部138は、スピーチ了解度指数
を次式に従って決定するよう構成されてもよい。
【0061】
【数5】
【0062】
ここで、nは複数のスピーチサブバンド信号のうちのn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、q(en,dn)は、n番目のスピーチサブバンド信号sn[k]のスピーチスペクトルレベルen[l]と、n番目のスピーチサブバンド信号sn[k]のノイズサブバンド信号rn[k]のノイズスペクトルレベルdn[l]との信号対ノイズ比を示し、unは固定値であるスピーチスペクトルレベルを示し、inは帯域重要度(band importance)を示す。
【0063】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について以下に説明するように線形ゲインを計算する、線形ゲイン計算部139を含む。
【0064】
例えば、一実施形態によれば、重み付け情報生成部110はスピーチ了解度指数
を決定し、更に、複数のスピーチサブバンド信号の各スピーチサブバンド信号の各スピーチサブバンド信号sn[k]について、スピーチサブバンド信号sn[k]のスピーチスペクトルレベルen[l]と、スピーチサブバンド信号sn[k]のノイズサブバンド信号rn[k]のノイズスペクトルレベルdn[l]との信号対ノイズ比を決定することにより、スピーチ入力信号の複数のスピーチサブバンド信号の重み付け情報を生成するよう構成されてもよい。スピーチ了解度指数SIIはスピーチ入力信号のスピーチ了解度を示している。
【0065】
例えば、重み付け情報生成部110は、例えば線形ゲイン計算部139を使用して、スピーチ了解度指数
と、スピーチサブバンド信号sn[k]の信号パワーΦn[l]と、複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計(Φ(max)[l])とに依存して、複数のスピーチサブバンド信号の各スピーチサブバンド信号sn[k]について線形ゲインwn,(lin)を決定することにより、複数のスピーチサブバンド信号の各スピーチサブバンド信号sn[k]の重み付け情報を生成するよう構成されてもよい。
【0066】
例えば、重み付け情報生成部110は、複数のスピーチサブバンド信号の各スピーチサブバンド信号sn[k]についての線形ゲインwn,(lin)を、次式に従って生成するよう構成されてもよい。
【0067】
【数6】
【0068】
ここで、nは複数のスピーチサブバンド信号のうちのn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、Φn[l]はn番目のスピーチサブバンド信号の信号パワーを示し、Φ(max)[l]は複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計を示す。例えば、Φ(max)[l]はブロックl内のスピーチ信号の広帯域パワーを示す。
【0069】
上述した式を理解し易くするために、ブロックlに対する
の依存性は明示されていない。しかしながら、
はブロックlに依存している点に留意すべきである。
【0070】
は0(了解度なし)と1(完全な了解度)との間のある指数であってもよい。上述したwn,(lin)の式について、
のような極端な場合を以下に考察する。
【0071】
の場合、第1項の分子と第2項の分母とが同一になり、従って上述のwn,(lin)の式から除去され得る。更に、
の場合、第2項の分子と第1項の分母とが同一になり、従ってまた上述のwn,(lin)の式から除去され得る。このようにスピーチ了解度が完全である場合、wn,(lin)が1となり、例えばその信号は修正されない。
【0072】
の場合、第1項は1/Nとなり、その結果、例えば全体のパワーはN個の全ての周波数帯域の中で均等に分配される。
【0073】
図5aは一実施形態に従うアルゴリズムのフローチャートを示す。
【0074】
ステップ141では、時間ドメインで表現された未処理のスピーチ信号sn[k]が時間ドメインからサブバンドドメインへと変換されて、サブバンドドメインで表現されたスピーチ入力信号が取得され、そのスピーチ入力信号は複数のスピーチサブバンド信号sn[k]を含む。
【0075】
ステップ142では、時間ドメインで表現された時間ドメイン・ノイズ参照r[k]が時間ドメインからサブバンドドメインへと変換されて、複数のノイズサブバンド信号rn[k]が取得される。
【0076】
ステップ151においては、以下に説明するように、スピーチサブバンド信号の各々についてスピーチ信号パワーが計算される。更に、ステップ152では、以下に説明するように、スピーチサブバンド信号の各々についてスピーチスペクトルレベルが計算される。更に、ステップ153では、以下に説明するように、スピーチサブバンド信号の各々についてノイズスペクトルレベルが計算される。更に、ステップ154では、以下に説明するように、スピーチサブバンド信号の各々について信号対ノイズ比が計算される。更に、ステップ155では、以下に説明するように、スピーチサブバンド信号の各々について圧縮比が計算される。更に、ステップ156では、以下に説明するように、スピーチサブバンド信号の各々についてスピーチ信号振幅の包絡の平滑化された推定が計算される。更に、ステップ157では、以下に説明するように、スピーチサブバンド信号の各々について圧縮ゲインが計算される。更に、ステップ158では、以下に説明するように、スピーチ了解度指数が計算される。更に、ステップ159では、以下に説明するように、スピーチサブバンド信号の各々について線形ゲインが計算される。
【0077】
ステップ161において、以下に説明するように、それぞれのスピーチサブバンド信号に対して、スピーチサブバンド信号の圧縮ゲインを適用し、かつスピーチサブバンド信号の線形ゲインを適用することで、複数のスピーチサブバンド信号が増幅される。
【0078】
ステップ162において、複数の修正済みサブバンド信号を有する修正済みスピーチ信号がサブバンドドメインから時間ドメインへと変換され、時間ドメインの出力信号
が取得される。
【0079】
図4bは、修正済みスピーチ信号を生成する、他の実施形態にかかる装置を示す。
【0080】
図4bに示す実施形態においては、室内音響的情報が提案のアルゴリズム内で考慮されてもよい。スピーチ信号はラウドスピーカによって再生され、妨害されたスピーチ信号がマイクロホンによって集音される。録音された信号は、ノイズr[k]と残響スピーチ信号とを含む。残響スピーチ信号の中に含まれた残響のいくらかの部分は有害であると認められ得る一方で、他の部分はスピーチ了解度にとって有益であると考えられ得る。例えばラウドスピーカとマイクロホンとの間の室内インパルス応答をモデル化するフィルタである室内音響的情報生成部(RIG)、残響時間T60(60db減衰する時間として定義される)、又は直接対残響エネルギー比(DRR)を使用して、残響スペクトルレベルzn[l]が、重み付け情報生成部110、例えば残響スペクトルレベル計算部163により、室内音響的情報生成部から提供された情報と各サブバンドにおけるサブバンドスピーチ信号sn[k]とを用いて計算されてもよい。重み付けファクタβを用いて重み付きの加算an[l]が決定され得る。
【0081】
【数7】
【0082】
この加算は、重み付け情報生成部110、例えば重み付き加算部164により決定されてもよく、また重み付き加算an[l]は後続の計算において使用されてもよく、その他の場合にはノイズスペクトルレベルdn[l]だけが使用される。
【0083】
nについて定義された全ての式は、dnをanに置き換えることで、anについても適用可能である。例えば、幾つかの実施形態によれば、式(4)、式(5)及び/又は式(8)内において、dnはanで置き換えることができ、その置き換えにより、これらの式は重み付きの加算anを考慮に入れることができる。
【0084】
例えば、βは実数であってもよく、ここで、例えば0≦β≦1が適用されてもよい。
【0085】
本質的に、anは残響に関する追加的情報(例えば室内インパルス応答、T60、DRRなど)を考慮してもよい。
【0086】
以下に、実施形態の概念、とりわけ図1図2図4a、図4b、図5a及び図5bの実施形態で用いられる概念について、より詳細に説明する。
【0087】
本アルゴリズムの入力における明瞭なスピーチ信号(「未処理のスピーチ信号」とも称される)は、離散的な時間指数kにおいてs[k]により表される。
【0088】
ノイズ参照(例えば時間ドメインで表現されている)はr[k]により表され、参照マイクロホンを用いて録音され得る。
【0089】
両方の信号は、あるフィルタバンク、例えばデシメーションなしのIIRフィルタバンクにより、オクターブ帯域に分割される。この点に関しては、例えばVaidyanathanらによる非特許文献4を参照されたい。結果として得られるサブバンド信号は、s[k]とr[k]とについて、それぞれsn[k]とrn[k]とで表される。
【0090】
長さMのブロックlについてサブバンドスピーチ信号パワーΦn[l]は、次式(1)により計算される。
【0091】
式(1)と中心周波数fnを有するオクターブ帯域の帯域幅Δfnとを用いて、等価スピーチスペクトルレベルが計算され得る。
【0092】
同様の計算がノイズサブバンド信号rn[k](「ノイズ参照信号」とも称される)についても実行され、等価ノイズスペクトルレベルが導かれる。
【0093】
次に、各ブロックについて信号対ノイズ比(SNR)のマッピングが演算され得る。
【0094】
この式(4)からのマッピング関数を使用して、各周波数チャネル内の圧縮比が予め決定された最大圧縮比cr(max)を使用して計算され得る。最大圧縮比は、典型的にはcr(max)=8の値に設定される。
【0095】
更に、スピーチ信号振幅の瞬時包絡の平滑化された推定が以下のように計算される。
ここで、αaとαrとは、増大する信号振幅の場合と減少する信号振幅の場合とにおける平滑化定数をそれぞれ表している。
【0096】
Φn[l]、crn[l]、及び
を使用して、圧縮ゲインwn,(comp)[k]が以下のように計算される。
ここで、l・M−m=kである。
【0097】
更に、スピーチ了解度指数(SII)の推定が以下のように計算される。
ここで、unは、ANSI(1997)に従って標準的等価スピーチスペクトルレベルとして定義される。例えば、unは固定値であってもよい。
【0098】
ここで、Nは例えばサブバンドの総数を示す。inは例えば帯域重要度の関数であり、例えばn番目のサブバンドについての帯域重要度を示しており、ここで、inは例えば0〜1の間の値であり、N個の全てのサブバンドのinの値は合計して1となる。
【0099】
以下の項目は、SauertとVary(2010)(非特許文献2を参照)から採用したものである。
【0100】
SII値は例えば0〜1の間の値であり、1は非常に良好なスピーチ了解度を示し、0は非常に劣悪なスピーチ了解度を示す。
【0101】
この推定されたSIIを使用して、いわゆる線形ゲイン関数が計算される。
【0102】
上述の式(9)が理解し易くなるように、ブロックlに対する
の依存性は明示されていない。しかしながら、
はブロックlに依存している点に留意すべきである。
【0103】
Φ(max)[l]は、複数のスピーチサブバンド信号の全てのサブバンド信号の信号パワーの合計を示す。例えば、Φ(max)[l]は、ブロックlの中のスピーチ信号の広帯域パワーを示す。
【0104】
次に、両方のゲイン関数が組み合わされて、サブバンド信号がそれぞれのゲイン関数で乗算される。即ち、
従って、式(10)は次式と等価となる。
【0105】
一実施例によれば、ここで逆フィルタバンクが適用され、修正済みスピーチ信号が再構築される。
【0106】
しかし他の実施形態によれば、逆フィルタバンクを適用して修正済みスピーチ信号を生成する前に、特にブロックの境界におけるゲイン関数内の急速な変化を防止するために、平滑化処理がwn[lM−m]に対して適用される。
【0107】
一実施形態において、重み付け情報生成部110は、次式を適用することにより複数のスピーチサブバンド信号の各スピーチサブバンド信号sn[k]の重み付け情報
を生成するよう構成されている。
【0108】
ここで、nは複数のスピーチサブバンド信号のn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、αpは平滑化定数であり、
はスピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す。
【0109】
以下に、一実施形態にかかる平滑化について説明する。
【0110】
平滑化は、wn[lM−m]の基底にある入力−出力−特性(IOC)に対して適用される。その入力−出力−特性は、パラメータベクトルλn[l]の一部である入力パワーγn,i[l]および出力パワーξn,i[l]の集合により定義される。即ち、
【0111】
次に、入力−出力−特性は以下の式で定義される。
及び
【0112】
ここで、νはdB FSをdB SPLへと変換する。例えば、0dB FSが100dB SPLと等しいと仮定すると、ν=10(100/10)となる。IOCの線形のインターポーレーションおよびエクストラポーレーションを実行する関数
は、例えば、現在の入力パワー
に依存してデシベルドメインで上述のパラメータによって定義され、前記現在の入力パワーとしては、例えば式(6)に従って定義されるように、スピーチ信号振幅の包絡の平滑化された推定がある。従って、次式のように記述できる。
【0113】
次に、パラメータベクトルλn[l]の各要素λn,j[l]に対し、再帰的な平滑化が適用されて、次式が導かれる。
は平滑化されたパラメータベクトルであり、αλは平滑化定数である。
【0114】
次に、平滑化されたゲインが次式のように計算される。
ここでαpは、ゲイン関数を時間にわたって更に平滑化するための平滑化定数である。
【0115】
は、平滑化された入力−出力−特性
の線形のインターポーレーションおよびエクストラポーレーションを実行する関数として定義され、
は例えば式(13)と式(21)とにより定義されている通りである。
【0116】
次に、出力信号は次式をもたらす。
【0117】
最後に、逆フィルタバンクが適用されて、修正済みスピーチ信号
が再構築される。
【0118】
入力パワーと出力パワーとの差を低減するために、アルゴリズムの出力と入力において、各ブロック内のパワーが平滑化されたパワー推定を用いて正規化される。従って、平滑化された入力パワーは次式のように定義される。
【0119】
ここで、αLは平滑化定数であり、Φs[l]は、サブバンド信号ではなく広帯域入力信号s[k]を用いて式(1)に従って計算されたものである。次に、平滑化された出力パワー
が本アルゴリズムの出力信号
を使用して計算される。
【0120】
次に、再生されるべき信号が次式のように計算される。
【0121】
これらの実施形態は従来技術と比べて幾つかの点で異なっている。
【0122】
例えば、幾つかの実施形態では、多帯域スペクトル整形アルゴリズムと多帯域圧縮スキームとが組み合わされており、これらは、多帯域スペクトル整形アルゴリズムと単一帯域圧縮スキームとが組み合わせられたZorilaらの手法(2012a,b)(非特許文献5、非特許文献6を参照)とは対照的である。
【0123】
本提案の概念は、従来技術とは対照的に、線形ゲインと圧縮ゲインとを組み合わせ、その線形ゲインと圧縮ゲインとの両方が時間変化し、瞬時スピーチ信号とノイズ信号とに適応する。
【0124】
更に、幾つかの実施形態は、静的な圧縮スキームを使用したZorilaらの手法(2012a,b)(非特許文献5、非特許文献6を参照)とは対照的に、各周波数帯域内で適応的な圧縮比を適用する。
【0125】
更に、幾つかの実施形態によれば、その圧縮比は、SIIを計算するために使用され従ってスピーチ知覚に関係する、関数に基づいて選択される。
【0126】
更に、幾つかの実施形態では、周波数帯域の均等な重み付けが線形ゲイン関数の中で使用されており、他方、他の関連するアルゴリズムは異なる重み付けを使用する。SauertとVary,2012(非特許文献3)を参照されたい。
【0127】
更に、幾つかの実施形態は、スピーチ知覚に関係するSII(の推定)を使用して、重み付けなしと全ての帯域の均等な重み付けとの間でクロスオーバーさせている。
【0128】
本提案の実施形態は、ノイズの多い環境においてスピーチを聞くときの了解度を改善させることに役立つ。その改善度は、既存の方法を用いた場合よりも有意に高くなり得る。本提案の概念は、上述したように種々の点において先行技術とは異なっている。
【0129】
現状の技術によるアルゴリズム、例えば上述したアルゴリズムも、了解度を改善することができるが、本提案の実施形態の特別な特徴は、現在使用可能な方法よりも一層の効率化を可能とする。
【0130】
本提案の実施形態、例えば本提案の方法は、オーディオ再生を用いた多くの技術的アプリケーションにおける信号プロセッサの一部、又は信号処理ソフトウエアとして使用可能である。例えば、
−鉄道駅、公共交通機関、学校における構内放送システム
−移動電話、ヘッドセットなどの通信装置
−自動車内のインフォテインメント・システム、機内エンターテインメント・システム
−信号ミキシングの前(例えば映画のオーディオ材料のミキシングの間)に複数のオーディオステムを含むメディアファイル内のスピーチの了解度を改善するためのツールとして。
【0131】
更に、本提案の実施形態はまた、残響のような他のタイプの信号妨害に対しても使用可能である。それらの信号妨害は、上述したアルゴリズムの形態ではノイズと同様に取り扱うことができる。
【0132】
図5bは、説明したアルゴリズムの、他の実施形態に係るフローチャートを示す。
【0133】
図5bで示す実施形態においては、室内音響的情報が提案のアルゴリズム内で考慮されてもよい。スピーチ信号はラウドスピーカによって再生され、妨害されたスピーチ信号がマイクロホンによって集音される。録音された信号は、ノイズr[k]と残響スピーチ信号とを含む。残響スピーチ信号の中に含まれた残響のいくらかの部分は有害であると認められ得る一方で、他の部分はスピーチ了解度にとって有益であると考えられ得る。例えばラウドスピーカとマイクロホンとの間の室内インパルス応答をモデル化するフィルタである室内音響的情報生成部(RIG)、残響時間T60(60db減衰する時間として定義される)、又は直接対残響エネルギー比(DRR)を使用して、残響スペクトルレベルzn[l]が、室内音響的情報生成部から提供された情報と各サブバンドにおけるサブバンドスピーチ信号sn[k]とを用いて計算されてもよい(符号165を参照)。重み付けファクタβを用いて次式のような重み付きの加算an[l]が決定されてもよい(符号166を参照)。
また、重み付きの加算an[l]は後続の計算で使用されてもよく、その他の場合にはノイズスペクトルレベルdn[l]だけが使用される。
【0134】
nについて定義された全ての式は、dnをanに置き換えることで、anについても適用可能である。例えば、式(4)、式(5)及び/又は式(8)内において、dnはanで置き換えることができ、その置き換えにより、これらの式は重み付きの加算anを考慮に入れることができる。
【0135】
例えば、βは実数であってもよく、ここで、例えば0≦β≦1が適用されてもよい。
【0136】
提案のアルゴリズムの性能は、主観的なリスニングテストを使用して、時間及び周波数依存のゲイン特性だけを使用する現状技術のアルゴリズム及び未処理の参照信号と比較された。リスニングテストは、8人の健聴被験者により、2個の異なるノイズタイプ、即ち定常的な自動車ノイズとより非定常的なカフェテリアのノイズとを用いて行われた。各ノイズタイプについて、未処理の参照状態において20%、50%及び80%の言語了解度のポイントに対応する、3つの異なる信号対ノイズ比が測定された。その結果、提案のアルゴリズムは、現状技術のアルゴリズム及び未処理の参照よりも、同等のスピーチレベルにおける両方のノイズシナリオにおいて性能が優れていることが示された。更に、客観的尺度と主観的なデータとの間の相関関係の分析は、順位の高い相関関係および高い線形相関を示しており、その点は、前処理アルゴリズムの評価において、客観的尺度を主観的なデータを予測するために部分的に使用し得ることを示唆している。
【0137】
上述したように、SII依存の増幅および圧縮を用いて背景ノイズにおけるスピーチ了解度を改善する概念が提供された。
【0138】
上述したように、例えば構内放送システム、カーナビゲーションシステム又は移動電話などの通信装置において、明瞭なスピーチ信号が提供される場合も多い。しかしながら、時には近端のリスナーにとって妨害により聞き取れないことも起こり得る。上述の実施形態は、妨害を受けた所与の音響シナリオにおいて、明瞭なスピーチ信号を修正して、了解度及び/又はリスニングの快適さを高めるものである。
【0139】
図6は、実施形態に係る近端リスニング強化が設けられたシナリオを示す。特に図6は、一実施形態に係る近端リスニング強化が設けられた信号モデルを示す。
【0140】
図6において、次式が適用されてもよい。
【0141】
例えば次式のように完全なノイズ推定が可能であると想定され得る。
【0142】
更に、残響が全くない場合には、次式のようになる。
【0143】
残響も考慮に入れると、このようなことは全ての状態で起こりえないであろう。しかし、その代わりに、例えば室内インパルス応答h[k]のような何らかの室内情報の完全な推定が可能であると想定されてもよい。
【0144】
同等のパワー制約下において、了解度s[k]+r[k]と比較して了解度
を強化する重み付け関数W{・}を見つけることが望まれ得る。
【0145】
同等のパワー制約に従って、全てのサブバンド内の全パワーが増幅前と増幅後とでほぼ同じとなるように、重み付け関数W{・}が決定されてもよい。
【0146】
図7は1〜16000Hzの中心周波数についての長期間スピーチレベルを示す。特に、1つのスピーチ入力信号と複数の修正済みスピーチ信号とについての長期間スピーチレベルを示す。
【0147】
一実施形態にかかるアルゴリズムは、s[k]及び
からSIIを推定し、2つのSII依存のステージ、特に多帯域周波数整形と多帯域圧縮スキームとを組み合わせる。
【0148】
ある主観的な評価が行われた。処理条件は、未処理の参照(「参照」)と、一実施形態に従うアルゴリズムを用いた処理の結果として得られたスピーチ信号(「DynComp」)と、元来はSauertら(非特許文献3を参照)により提案された修正済みアルゴリズムを用いた処理の結果として得られたスピーチ信号(「ModSau」)とに関する主観的評価を含む。
【0149】
その主観的評価に関し、8人の健聴被験者が参加した。2つの異なるノイズ、即ち自動車ノイズとカフェテリアノイズとがテストされた。Oldenburg Sentence Testからのスピーチ材料が使用された。信号対ノイズ比は、20%、50%及び80%の言語了解度の測定ポイントを目標として、選択された。
【0150】
図8は主観的評価の結果を示す。
【0151】
図9は主観的結果に関する相関分析を示す。主観的結果の予測に関して、自動車ノイズ及びカフェテリアノイズの中で、未処理の参照状態から導出されたモデル予測値の非線形変換の後に、相関分析が実施された。
【0152】
主観的評価から、実施形態に従う前処理により、スピーチ了解度の向上が達成されると結論付けられる。実施形態にかかる提案の概念は、スピーチ了解度において最高の改善を示している。更に、スピーチ了解度に関する現在のモデルは主観的データとの高い順位相関を示す。更に、変換されたモデル値に基づく予測は、高い線形相関を示すが、部分的には大きな線形のずれをも示す。
【0153】
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
【0154】
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又はインターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を通じて伝送されることができる。
【0155】
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0156】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
【0157】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0158】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
【0159】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0160】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。
【0161】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
【0162】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0163】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0164】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0165】
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3a
図3b
図4a
図4b
図5a
図5b
図6
図7
図8
図9