特許第6654237号(P6654237)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6654237線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法
<>
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000067
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000068
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000069
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000070
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000071
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000072
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000073
  • 特許6654237-線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法 図000074
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6654237
(24)【登録日】2020年1月31日
(45)【発行日】2020年2月26日
(54)【発明の名称】線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法
(51)【国際特許分類】
   G10L 19/16 20130101AFI20200217BHJP
   G10L 19/06 20130101ALI20200217BHJP
   G10L 21/0216 20130101ALI20200217BHJP
【FI】
   G10L19/16 200A
   G10L19/06 B
   G10L21/0216
【請求項の数】11
【全頁数】24
(21)【出願番号】特願2018-515646(P2018-515646)
(86)(22)【出願日】2016年9月23日
(65)【公表番号】特表2018-528480(P2018-528480A)
(43)【公表日】2018年9月27日
(86)【国際出願番号】EP2016072701
(87)【国際公開番号】WO2017050972
(87)【国際公開日】20170330
【審査請求日】2018年4月17日
(31)【優先権主張番号】15186901.3
(32)【優先日】2015年9月25日
(33)【優先権主張国】EP
(31)【優先権主張番号】16175469.2
(32)【優先日】2016年6月21日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】フィッシャー,ヨハネス
(72)【発明者】
【氏名】ベックストレム,トム
(72)【発明者】
【氏名】ヨキーネン,エンマ
【審査官】 岩田 淳
(56)【参考文献】
【文献】 特開2002−175100(JP,A)
【文献】 特表2010−518434(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−99/00
(57)【特許請求の範囲】
【請求項1】
線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号(8')を符号化する符号器(4)であって、
オーディオ信号(8')の背景ノイズの自己相関(12)を推定するよう構成された背景ノイズ推定部(10)と、
オーディオ信号の自己相関(8)から前記オーディオ信号(8')の推定された背景ノイズの自己相関(12)を差し引くことによって、背景ノイズ低減済みオーディオ信号の自己相関(16)を生成するよう構成された背景ノイズ低減部(14)と、
前記オーディオ信号の自己相関(8)に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セット(20a)を取得し、前記背景ノイズ低減済みオーディオ信号の自己相関(16)に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セット(20b)を取得するよう構成された予測部(18)と、
取得されたLPC係数の第1セット(20a)と取得されたLPC係数の第2セット(20b)とによって制御される時間ドメインフィルタのカスケード(24,24a,24b)から構成され、前記オーディオ信号(8')から残差信号(26)を得る分析フィルタ(22)と、
を含む符号器(4)。
【請求項2】
前記時間ドメインフィルタのカスケード(24)は、前記取得されたLPC係数の第1セット(20a)を使用する2回の線形予測フィルタ(24a)と、前記取得されたLPC係数の第2セット(20b)を使用する1回の他の線形予測フィルタの逆(24b)とを含む、請求項1に記載の符号器(4)。
【請求項3】
前記時間ドメインフィルタのカスケード(24)はウイナーフィルタである、請求項1又は2に記載の符号器(4)。
【請求項4】
前記LPC係数の第2セット(20b)を伝送するよう構成されたトランスミッタ(30)をさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
【請求項5】
前記残差信号(26)を伝送するよう構成されたトランスミッタをさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
【請求項6】
前記残差信号(26)を伝送の前に量子化及び/又は符号化するよう構成された量子化部(28)をさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
【請求項7】
前記LPC係数の第2セット(20b)を伝送の前に量子化及び/又は符号化するよう構成された量子化部(28)をさらに含む、請求項1乃至のいずれかに記載の符号器(4)。
【請求項8】
前記量子化部は、符号励振線形予測(CELP)、エントロピー符号化、又は変換符号化励振(TCX)を使用するよう構成された、請求項又はに記載の符号器。
【請求項9】
請求項1乃至のいずれかに記載の符号器(4)と、
符号化されたオーディオ信号を復号化するよう構成された復号器(6)と、
を含むシステム(2)。
【請求項10】
線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法(800)であって、
オーディオ信号の背景ノイズの自己相関を推定するステップ(S802)と、
オーディオ信号の自己相関から前記オーディオ信号の推定された背景ノイズの自己相関を差し引くことによって、背景ノイズ低減済みオーディオ信号の自己相関を生成するステップ(S804)と、
前記オーディオ信号の自己相関に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セットを取得し、前記背景ノイズ低減済みオーディオ信号の自己相関に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セットを取得するステップ(S806)と、
取得されたLPC係数の第1セットと取得されたLPC係数の第2セットとによって時間ドメインフィルタのカスケードを制御して、前記オーディオ信号から残差信号を得るステップ(S808)と、
を含む方法。
【請求項11】
請求項10に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器と、対応する方法と、符号器および復号器を含むシステムと、に関する。換言すれば、本発明は、結合型のスピーチ強化及び/又は符号化の手法に関し、例えばCELP(codebook excited linear predictive:符号励振線形予測)コーデックにおける合体による、結合型のスピーチ強化及び符号化に関する。
【背景技術】
【0002】
スピーチ及び通信の装置が広範に行き渡るようになり、悪条件下で使用される可能性が高まるにつれて、悪条件に対処し得るようなスピーチ強化方法への需要が高まってきた。その結果、例えばモバイルホンにおいて、スピーチ符号化などの全ての後続のスピーチ処理のための前処理ブロック/ステップとして、ノイズ減衰方法を使用することが今では普通に行われている。スピーチ強化をスピーチ符号器内へと組み込む手法は様々存在する(非特許文献1,2,3,4)。そのような設計は、伝送されるスピーチの品質を確かに向上させるが、カスケード処理に起因して、品質の一体的な知覚的最適化/最小化ができず、又は、量子化ノイズと干渉との一体的な最小化は少なくとも困難であった。
【0003】
スピーチコーデックの目標は、最少量の伝送データを用いて高品質のスピーチを伝送できるようにすることである。この目標に到達するため、信号の効率的な表現が必要となる。例えば、線形予測によるスピーチ信号のスペクトル包絡と、長期予測器による基本周波数と、ノイズ符号帳を用いた残差(remainder)とのモデリングである。このような表現は、符号励振線形予測(CELP)パラダイムを使用するスピーチコーデックの基礎であり、適応型マルチレート(AMR)、AMR−広帯域(AMR−WB)、統合型スピーチ及びオーディオ符号化(USAC)及び強化されたボイスサービス(EVS)などの主要なスピーチ符号化標準において使用されている(非特許文献5,6,7,8,9,10,11)。
【0004】
自然なスピーチ通信において、話者は手を使わないモードで装置を使用することが多い。そのようなシナリオでは、マイクロホンは通常口から離れた位置にあり、従って信号は反響または背景ノイズなどの干渉によって容易に歪みを受ける。そのような劣化は知覚されるスピーチ品質だけでなく、スピーチ信号の了解度にも影響を及ぼすので、会話の自然な流れの重大な障害となる。通信体験を向上させるためには、スピーチ強化方法を適用して、ノイズを減衰させ、反響の影響を低減することが有益である。スピーチ強化の分野は成熟しており、多くの方法が既に利用可能となっている(非特許文献12)。しかしながら、現存するアルゴリズムの多くは、短時間フーリエ変換(STFT)のような変換などのオーバーラップ加算法に基づくものであり、それはオーバーラップ加算に基づく窓掛けスキームを適用する。これとは対照的に、CELPコーデックは、線形予測器/線形予測フィルタを用いて信号をモデル化し、残差だけに対して窓掛けを適用する。そのような基本的な相違により、強化と符号化の方法を合体させることが困難となる。とはいえ、強化と符号化との一体的な最適化は、潜在的に品質を向上させ、遅延と演算量とを低減させることが明白である。
【0005】
よって、改善された手法に対する必要性が生じる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】M. Jeub and P. Vary, "Enhancement of reverberant speech using the CELP postfilter," in Proc. ICASSP, April 2009, pp. 3993-3996.
【非特許文献2】M. Jeub, C. Herglotz, C. Nelke, C. Beaugeant, and P. Vary, "Noise reduction for dual-microphone mobile phones exploiting power level differences," in Proc. ICASSP, March 2012, pp. 1693-1696.
【非特許文献3】Martin, I. Wittke, and P. Jax, "Optimized estimation of spectral parameters for the coding of noisy speech," in Proc. ICASSP, vol. 3, 2000, pp. 1479-1482 vol.3.
【非特許文献4】H. Taddei, C. Beaugeant, and M. de Meuleneire, "Noise reduction on speech codec parameters," in Proc. ICASSP, vol. 1, May 2004, pp. I-497-500 vol.1.
【非特許文献5】3GPP, "Mandatory speech CODEC speech processing functions; AMR speech Codec; General description," 3rd Generation Partnership Project (3GPP), TS 26.071, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26071.htm
【非特許文献6】"Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions," 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26190.htm
【非特許文献7】B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, "The adaptive multirate wideband speech codec (AMR-WB)," IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, Nov 2002.
【非特許文献8】ISO/IEC 23003-3:2012, "MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding," 2012.
【非特許文献9】M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unified speech and audio coding scheme for high quality at low bitrates," in Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, April 2009, pp. 1-4.
【非特許文献10】3GPP, "TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)," 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [Online]. Available: http://www.3gpp.org/ftp/Specs/html-info/26445.htm
【非特許文献11】M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z.Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan, and C. Zhu, "Overview of the EVS codec architecture," in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, April 2015, pp. 5698-5702.
【非特許文献12】J. Benesty, M. Sondhi, and Y. Huang, Springer Handbook of Speech Processing. Springer, 2008.
【非特許文献13】T. Baeckstroem, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Proc. Interspeech, Aug. 2013.
【非特許文献14】"Comparison of windowing in speech and audio coding," in Proc. WASPAA, New Paltz, USA, Oct. 2013.
【非特許文献15】J. Fischer and T. Baeckstroem, "Comparison of windowing schemes for speech coding," in Proc EUSIPCO, 2015.
【非特許文献16】M. Schroeder and B. Atal, "Code-excited linear prediction (CELP): High-quality speech at very low bit rates," in Proc. ICASSP. IEEE, 1985, pp. 937-940.
【非特許文献17】T. Baeckstroem and C. R. Helmrich, "Decorrelated innovative codebooks for ACELP using factorization of autocorrelation matrix," in Proc. Interspeech, 2014, pp. 2794-2798.
【非特許文献18】soundeffects.ch, "Civilisation soundscapes library," accessed: 23.09.2015. [Online]. Available: https://www.soundeffects.ch/de/geraeusch-archive/soundeffects.ch- produkte/civilisation-soundscapes-d.php
【非特許文献19】Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R Recommendation BS.1534, 2003. [Online]. Available: http://www.itu.int/rec/R-REC-BS.1534/en.
【非特許文献20】P. P. Vaidyanathan, "The theory of linear prediction," in Synthesis Lectures on Signal Processing, vol. 2, pp. 1{184. Morgan & Claypool publishers, 2007.
【非特許文献21】J. Allen, "Short-term spectral analysis, and modification by discrete Fourier transform," IEEE Trans. Acoust., Speech, Signal Process., vol. 25, pp. 235{238, 1977.
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、線形予測符号化を使用してオーディオ信号を処理する、改善された概念を提供することである。この目的は独立請求項の主題により解決される。
【課題を解決するための手段】
【0008】
本発明の実施形態は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器を示す。その符号器は、オーディオ信号の背景ノイズを推定するよう構成された背景ノイズ推定部と、オーディオ信号の推定された背景ノイズをオーディオ信号から差し引くことによって背景ノイズ低減済みのオーディオ信号を生成するよう構成された背景ノイズ低減部と、オーディオ信号に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セットを取得し、背景ノイズ低減済みのオーディオ信号に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セットを取得するよう構成された予測部と、を含む。更に、符号器は、取得されたLPC係数の第1セットと取得されたLPC係数の第2セットとによって制御される時間ドメインフィルタのカスケードから構成される分析フィルタを含む。
【0009】
本発明は、線形予測符号化の環境における改善された分析フィルタにより、符号器の信号処理特性が増強されるという知見に基づいている。より具体的には、直列接続された時間ドメインフィルタのカスケード又は連鎖を使用することは、それらフィルタが線形予測符号化の環境の分析フィルタに適用された場合には、入力オーディオ信号の処理速度または処理時間を改善することになる。これが有利である理由は、ノイズに支配された周波数帯域をフィルタリングすることにより背景ノイズを低減するために入来時間ドメインオーディオ信号に対して典型的に使用される、時間−周波数変換とその逆の周波数−時間変換とを省略できるからである。換言すれば、背景ノイズの低減または除去を分析フィルタの一部として実行することで、背景ノイズの低減が時間ドメインにおいて実行され得る。従って、時間/周波数/時間の変換のために使用され得る、例えばMDCT/IDMCT([逆]修正離散コサイン変換)のオーバーラップ加算処理が省略される。背景ノイズ低減は単一フレームに対して実行され得ず、連続フレームに対してのみ実行され得るので、このようなオーバーラップ加算方法は、符号器のリアルタイム処理特性を制限してしまう。
【0010】
換言すれば、上述の符号器は、背景ノイズ低減および従って分析フィルタの全体処理を単一オーディオフレームに対して実行することができ、それによりオーディオ信号のリアルタイム処理が可能になる。リアルタイム処理とは、参加しているユーザーにとって知覚可能な遅延無しにオーディオ信号を処理することを指す。知覚可能な遅延は、例えばテレビ会議においてオーディオ信号の処理の遅延に起因して一人のユーザーが他のユーザーの応答を待たねばならないときに発生し得る。この場合に許可される最大遅延は1秒未満であり、好ましくは0.75秒未満であり、より好ましくは0.25秒未満であり得る。注意すべきは、これらの処理時間は、送信者から受信者へのオーディオ信号の全体的な処理を指しているのであり、従って、符号器の信号処理に加えてオーディオ信号の伝送時間および対応する復号器内での信号処理をも含んでいる。
【0011】
実施形態によれば、時間ドメインフィルタのカスケード、つまり分析フィルタは、取得されたLPC係数の第1セットを使用する2回の線形予測フィルタと、取得されたLPC係数の第2セットを使用する1回の他の線形予測フィルタの逆とを含む。この信号処理はウイナーフィルタリング(Wiener filtering)と称されてもよい。従って、換言すれば、時間ドメインフィルタのカスケードはウイナーフィルタを含み得る。
【0012】
他の実施形態によれば、背景ノイズ推定部は、背景ノイズの自己相関(autocorrelation)をオーディオ信号の背景ノイズ表現として推定してもよい。更に、背景ノイズ低減部は、オーディオ信号の推定された自己相関から背景ノイズの自己相関を差し引くことにより、背景ノイズ低減済みオーディオ信号表現を生成してもよく、その場合、オーディオ信号の推定された自己相関はオーディオ信号表現であり、背景ノイズ低減済みオーディオ信号表現は、背景ノイズ低減済みのオーディオ信号の自己相関である。自己相関の推定を使用することは、LPC係数を計算するために時間ドメインオーディオ信号を使用することの代わりとして機能し、背景ノイズ低減を行うことは、時間ドメインにおける完全な信号処理を可能にする。従って、オーディオ信号の自己相関と背景ノイズの自己相関とは、1つのオーディオフレーム又はそのオーディオフレームの一部分の畳み込みにより、又は畳み込み積分(convolution integral)を使用することにより、計算することができる。このように、背景ノイズの自己相関は1つのフレーム内又は1つのサブフレーム内においてでさえ実行されてもよく、そのフレーム又はサブフレームは、スピーチなどの前景オーディオ信号が(殆ど)何も存在しないようなフレーム又はフレームの一部分として定義され得る。更に、背景ノイズ低減済みオーディオ信号の自己相関は、背景ノイズの自己相関と(背景ノイズを含む)オーディオ信号の自己相関とを差し引くことで計算され得る。背景ノイズ低減済みオーディオ信号と(典型的には背景ノイズを有する)オーディオ信号との自己相関を使用することにより、背景ノイズ低減済みオーディオ信号とオーディオ信号とのためのLPC係数をそれぞれ計算することが可能となる。背景ノイズ低減済みオーディオ信号のLPC係数はLPC係数の第2セットと称されてもよく、他方、オーディオ信号のLPC係数はLPC係数の第1セットと称されてもよい。従って、オーディオ信号は時間ドメインにおいて完全に処理され得る。なぜなら、時間ドメインフィルタのカスケードの適用は、オーディオ信号に対するそれらのフィルタリングを時間ドメインで実行するからである。
【0013】
添付図面を用いて実施形態を詳細に説明する前に、同一若しくは同等の機能を有する構成要素は、図中で同一の参照番号が付与されており、同一の参照番号が付与された構成要素の繰り返し説明が省略されていることを指摘しておく。従って、同一の参照番号を有する構成要素について記載された説明は相互に交換可能である。
【0014】
以下に、本発明の実施形態について添付図面を参照しながら説明する。
【図面の簡単な説明】
【0015】
図1】オーディオ信号を符号化する符号器および復号器を含むシステムの概略ブロック図を示す。
図2】(a)カスケード型の強化・符号化のスキーム、(b)CELPスピーチ符号化スキーム、及び(c)本発明の結合型強化・符号化スキームの概略ブロック図を示す。
図3】異なる表記法を用いた、図2の実施形態の概略ブロック図を示す。
図4】本提案の結合型手法(J)及びカスケード型方法(C)について式23で定義された知覚的大きさSNR(信号対ノイズ比)の概略線グラフを示し、ここで、入力信号が非定常な車両ノイズによって劣化しており、その結果が2つの異なるビットレート(下付き文字7で示された7.2kbit/s及び下付き文字13で示された13.2kbit/s)について表現されている。
図5】本提案の結合型手法(J)及びカスケード接続された方法(C)について式23で定義された知覚的大きさSNRの概略線グラフを示し、ここで、入力信号が定常な白色ノイズによって劣化しており、その結果が2つの異なるビットレート(下付き文字7で示された7.2kbit/s及び下付き文字13で示された13.2kbit/s)について表現されている。
図6】提案の結合型手法(JE)及びカスケード接続された強化(CE)に関し、2つの異なる干渉(白色ノイズ(W)及び車両ノイズ(C))についての異なる英語話者(女性(F)及び男性(M))に関するMUSHRAスコアを表す概略プロットを示し、ここで、全てのアイテムは2つの異なるビットレート(7.2kbit/s(7)と13.2kbit/s(13))で符号化されており、REFは隠れ基準であり、LPは3.5kHzのローパスアンカーを示し、Mixは歪みを受けた混合を示す。
図7】2つの異なるビットレートに関してシミュレートされた異なるMUSHRAスコアのプロットを示し、新たな結合型強化(JE)とカスケード接続された手法(CE)との比較を示す。
図8】線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法の概略フローチャートを示す。
【発明を実施するための形態】
【0016】
以下の説明において、本発明の実施形態をより詳細に説明する。各図の中で示され、同一又は類似の機能を有する構成要素には同じ参照符号が関連付けられている。
【0017】
以下に、ウイナーフィルタリング(非特許文献12)及びCELP符号化に基づく結合型の強化及び符号化の方法を説明する。このような融合は、(1)処理連鎖の中にウイナーフィルタリングを含むことで、CELPコーデックのアルゴリズム上の低い遅延を増大させない、(2)これと同時に、結合型の最適化は、量子化及び背景ノイズに起因する歪みを最小化するという利点がある。更に、結合型スキームの演算量はカスケード手法の1つよりも低い。その実施は、CELP方式のコーデックにおける残差窓掛け(residual-windowing)についての最近の研究成果に基づいており(非特許文献13,14,15)、その手法はCELPコーデックのフィルタの中に新たな方法でウイナーフィルタリングを組み込むことを可能にする。この手法を使えば、カスケードシステムと比べて客観的品質および主観的品質の両方が改善されることを示し得る。
【0018】
よって、スピーチの結合型強化および符号化のための本提案方法は、カスケード処理に起因するエラーの蓄積を防止し、更に知覚的な出力品質を向上させる。換言すれば、知覚ドメインにおける最適なウイナーフィルタリングにより干渉および量子化歪みの一体的な最小化が実現するので、本提案方法は、カスケード処理に起因するエラーの蓄積を防止する。
【0019】
図1は、符号器4と復号器6とを含むシステム2の概略ブロック図を示す。符号器4は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号8’を符号化するよう構成されている。よって、符号器4は、オーディオ信号8’の背景ノイズ表現12を推定するよう構成された推定部10を含んでもよい。符号器は更に、オーディオ信号表現8からオーディオ信号8’の推定された背景ノイズ表現12を差し引くことにより、背景ノイズ低減済みオーディオ信号表現16を生成するよう構成された背景ノイズ低減部14を含んでもよい。このように、背景ノイズ低減部14は背景ノイズ推定部10から背景ノイズ表現12を受け取ってもよい。背景ノイズ低減部の更なる入力は、オーディオ信号8’又はオーディオ信号表現8であってもよい。任意選択的に、背景ノイズ低減部は、例えばオーディオ信号8’の自己相関8のようなオーディオ信号表現8を内部的に生成するよう構成された生成部を含んでもよい。
【0020】
更に、符号器4は、オーディオ信号表現8に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第1セット20aを取得し、かつ背景ノイズ低減済みオーディオ信号表現16に対し線形予測分析を行って線形予測フィルタ(LPC)係数の第2セット20bを取得するよう構成された、予測部18を含んでもよい。背景ノイズ低減部14と同様に、予測部18は、オーディオ信号8’からオーディオ信号表現8を内部的に生成する生成部を含んでもよい。しかしながら、共通の又は中央の生成部17を使用して、オーディオ信号8’の表現8を一度に計算し、例えばオーディオ信号8’の自己相関などのオーディオ信号表現を背景ノイズ低減部14及び予測部18へと提供することは有利であり得る。このように、予測部は、オーディオ信号表現8及び背景ノイズ低減済みオーディオ信号表現16、例えばオーディオ信号の自己相関および背景ノイズ低減済みオーディオ信号の自己相関をそれぞれ受け取り、入来信号に基づいてLPC係数の第1セット及びLPC係数の第2セットをそれぞれ決定してもよい。
【0021】
換言すれば、LPC係数の第1セットはオーディオ信号表現8から決定されてもよく、LPC係数の第2セットは背景ノイズ低減済みオーディオ信号表現16から決定されてもよい。予測部は、それぞれの自己相関からLPC係数の第1セットおよび第2セットを計算するためにレビンソン・ダービン(Levinson Durbin)アルゴリズムを実行してもよい。
【0022】
更に、符号器は、時間ドメインフィルタ24a,24bのカスケード24からなる分析フィルタ22を含み、その時間ドメインフィルタ24a,24bは取得されたLPC係数の第1セット20aと取得されたLPC係数の第2セット20bとによって制御される。分析フィルタは、オーディオ信号8’に対して時間ドメインフィルタのカスケードを適用して残差信号26を決定してもよく、その場合、第1の時間ドメインフィルタ24aのフィルタ係数はLPC係数の第1セットであり、第2の時間ドメインフィルタ24bのフィルタ係数はLPC係数の第2セットである。残差信号は、LPC係数の第1及び/又は第2セットを有する線形フィルタによって表現されない、オーディオ信号8’の信号成分を含んでもよい。
【0023】
実施形態によれば、残差信号は、残差信号及び/又はLPC係数の第2セット20bを伝送の前に量子化及び/又は符号化するよう構成された、量子化部28へと提供されてもよい。量子化部は、例えば変換符号化励振(TCX)、符号励振線形予測(CELP)又は例えばエントロピー符号化などのロスレス符号化などを実行してもよい。
【0024】
更なる実施形態によれば、残差信号の符号化は、量子化部28における符号化の代替例として、トランスミッタ30において実行されてもよい。このように、トランスミッタは、例えば変換符号化励振(TCX)、符号励振線形予測(CELP)又は例えばエントロピー符号化などのロスレス符号化を実行して、残差信号を符号化する。更に、トランスミッタは、LPC係数の第2セットを伝送するよう構成されてもよい。任意選択的な受信機は復号器6である。このように、トランスミッタ30は、残差信号26又は量子化済み残差信号26’を受信してもよい。一実施例によれば、少なくとも量子化済み残差信号が量子化部内で既に符号化されていない場合、トランスミッタは残差信号又は量子化済み残差信号を符号化してもよい。残差信号又は代替的に量子化済み残差信号を任意選択的に符号化した後、トランスミッタへと提供されたそれぞれの信号は、符号化済み残差信号32又は符号化されかつ量子化された残差信号32’として伝送される。更に、トランスミッタは、LPC係数の第2セット20bを受け取り、任意選択的に例えば残差信号を符号化するために使用されたのと同じ符号化方法を用いてそれを符号化して、その符号化されたLPC係数の第2セット20b’を、LPC係数の第1セットを伝送せずに、例えば復号器6へと更に伝送してもよい。換言すれば、LPC係数の第1セット20aは伝送される必要がない。
【0025】
復号器6は、符号化済み残差信号32又は代替的に符号化された量子化済み残差信号32’と、この残差信号32又は32’の1つに加えて符号化されたLPC係数の第2セット20b’とを、更に受信してもよい。この復号器は受信信号を復号化して、その復号化済み残差信号26を合成フィルタへと提供してもよい。合成フィルタは、LPC係数の第2セットをフィルタ係数として持つ、線形予測FIR(有限インパルス応答)フィルタの逆であってもよい。換言すれば、LPC係数の第2セットを持つフィルタが復号器6の合成フィルタを形成するために逆転される。合成フィルタの出力であり、よって復号器の出力は、復号化済みオーディオ信号8”である。
【0026】
実施形態によれば、背景ノイズ推定部は、オーディオ信号の背景ノイズの自己相関12をオーディオ信号の背景ノイズ表現として推定してもよい。更に、背景ノイズ低減部は、オーディオ信号の自己相関8から背景ノイズの自己相関12を差し引くことにより、背景ノイズ低減済みオーディオ信号表現16を生成してもよく、その場合、オーディオ信号の推定自己相関8はオーディオ信号表現であり、また、背景ノイズ低減済みオーディオ信号表現16は背景ノイズ低減済みオーディオ信号の自己相関である。
【0027】
図2図3とは、同じ実施形態に関するものであるが、異なる表記法を使用している。つまり、図2は、カスケード型および結合型の強化/符号化手法の説明であって、WNとWCとはノイズの多い信号とクリーンな信号とのホワイトニングをそれぞれ表し、WN-1とWC-1とはそれらに対応する逆を表す。他方、図3は、カスケード型および結合型の強化/符号化手法の説明であって、AyとAsとはノイズの多い信号とクリーンな信号とのホワイトニングフィルタをそれぞれ表し、HyとHsとは再構築(又は合成)フィルタであってそれらに対応する逆を表す。
【0028】
図2aと図3aとは、カスケード型の強化および符号化を実行する信号処理連鎖の強化部分と符号化部分とを示す。強化部分34は周波数ドメインで作動してもよく、ブロック36a及び36bは、例えばMDCTを使用する時間−周波数変換および例えばIMDCTを使用する周波数−時間変換を実行してもよく、又は任意の他の適切な変換を使用して時間−周波数変換および周波数−時間変換を実行してもよい。フィルタ38と40とは、周波数変換されたオーディオ信号42の背景ノイズ低減を実行してもよい。ここで、背景ノイズの周波数部分は、オーディオ信号8’の周波数スペクトルに対するそれらの影響力を低減することでフィルタリングされてもよい。よって、周波数−時間変換部36bは、周波数ドメインから時間ドメインへの逆変換を実行してもよい。強化部分34において背景ノイズ低減が実行された後で、符号化部分35は低減された背景ノイズを有するオーディオ信号の符号化を実行してもよい。従って、分析フィルタ22’は適切なLPC係数を用いて残差信号26を計算する。残差信号は量子化されて合成フィルタ44へと提供されてもよく、その合成フィルタは図2aと図3aの場合には分析フィルタ22’の逆である。合成フィルタ42は図2aと図3aの場合には分析フィルタ22’の逆であるため、残差信号26を決定するために使用されたLPC係数が復号器へと伝送されて、復号化済みオーディオ信号8”を決定する。
【0029】
図2bと図3bとは、背景ノイズ低減が事前に実行されない符号化ステージ35を示す。符号化ステージ35は図2aと図3aとに関して既に説明したので、繰り返しを避けるため更なる説明を省略する。
【0030】
図2cと図3cとは、結合型の強化・符号化の主要な概念に関係する。分析フィルタ22が、フィルタAyとHsとを使用する時間ドメインフィルタのカスケードを含むことが示されている。より詳細には、時間ドメインフィルタのカスケードは、取得されたLPC係数の第1セット20aを使用する2回の線形予測フィルタ(Ay2)と、取得されたLPC係数の第2セット20bを使用する1回の他の線形予測フィルタの逆(Hs)とを含む。フィルタのこの配列またはこのフィルタ構造は、ウイナーフィルタと呼んでもよい。しかしながら、1つの予測フィルタHsが分析フィルタAsを打ち消すことに注目すべきである。換言すれば、フィルタAyを2回適用し(Ay2で表される)、フィルタHsを2回適用し(Hs2で表される)、フィルタAsを1回適用してもよい。
【0031】
図1に関して既に説明したように、これらフィルタのためのLPC係数は、例えば自己相関を使用して決定された。自己相関は時間ドメインで実行され得るので、結合型の強化および符号化を実施するために時間−周波数変換を実行する必要がない。更に、この手法が有利な理由は、量子化の更なる処理連鎖と合成フィルタリングの伝送とが、図2a及び図3aに関して説明した符号化ステージ35と同じであることである。しかし、背景ノイズ低減済み信号に基づくLPCフィルタ係数が、適切な合成フィルタリングのために復号器に伝送されなければならないことに注意すべきである。しかしながら、別の実施形態によれば、LPC係数を伝送する代わりに、LPC係数を有する線形フィルタの更なる逆転を防止し、合成フィルタ42を導出するために、フィルタ24bの既に計算済みのフィルタ係数(フィルタ係数20bの逆転により表現される)が伝送されてもよい。なぜなら、この逆転は符号器内で既に実行されていたからである。換言すれば、フィルタ係数20bを伝送する代わりに、これら係数の逆行列が伝送され、それにより逆転を2回実行することを防止してもよい。更に、符号器側のフィルタ24bと合成フィルタ42とは、符号器と復号器とにおいてそれぞれ適用される同じフィルタであってもよい。
【0032】
換言すれば、図2に関し、CELPモデルに基づくスピーチコーデックは、あるスピーチ生成モデルに基づいており、そのモデルは、入力スピーチ信号Snの相関が係数
を有し、Mがモデル次数である線形予測フィルタによってモデル化され得ると仮定する(非特許文献16)。残差
は、スピーチ信号の線形予測フィルタにより予測できない部分であるが、次にベクトル量子化を用いて量子化される。
【0033】
が入力信号のベクトルであり、上付き文字Tが転置を表すとする。この場合、残差は次式で表される。
【数1】
【0034】
スピーチ信号ベクトルSkの自己相関行列Rssが次式で与えられると、
【数2】
次数Mの予測フィルタの推定は次式で与えられる(非特許文献20)。
【数3】
ここで、
であり、スカラー予測誤差σe2はα0=1となるように選択される。線形予測フィルタαnがホワイトニングフィルタであることに着目すると、rkは無相関のホワイトノイズである。更に、オリジナル信号Snは、予測器αnを用いたIIRフィルタリングを介して、残差rnから再構築され得る。次のステップは、知覚的歪みが最小化されるように、ベクトル量子化器を用いて、残差のベクトル

へ量子化することである。出力信号のベクトルが
であり、
がその量子化された同等物であり、Wが出力に知覚的重み付けを適用する畳み込み行列であるとする。その場合、知覚的最適化の問題は次式で表すことができる。
【数4】
ここで、Hは予測器αnのインパルス応答に対応する畳み込み行列である。
【0035】
CELP方式のスピーチ符号化の処理を図2bに示す。入力信号はまずフィルタ
を用いてホワイトニングされ、残差信号を得る。残差のベクトルは、次にブロックQにおいて量子化される。最後に、スペクトル包絡構造がIIRフィルタリングA-1(z)によって再構築され、量子化された出力信号
を得る。再合成された信号は知覚ドメインにおいて評価されるので、この手法は合成による分析の方法として知られている。
【0036】
ウイナーフィルタリング
単一チャネルのスピーチ強化において、所望のクリーンなスピーチ信号Snと何らかの所望でない干渉Vnとの加算的混合である信号ynが得られたと仮定すると、次式が成り立つ。
【数5】
【0037】
強化処理の目標はクリーンなスピーチ信号Snを推定することであるが、他方、ノイズの多い信号ynと相関行列の推定とにのみアクセス可能である。即ち、
【数6】
【0038】
ここで、
である。フィルタ行列Hを使用すると、クリーンなスピーチ信号の推定
は次式により定義される。
【数7】
【0039】
ウイナーフィルタとして知られる、最小二乗平均誤差(MMSE)の意味における最適なフィルタは、非特許文献12のように導出され得る。
【数8】
【0040】
通常、ウイナーフィルタリングは、入力信号のオーバーラップしている窓に対して適用され、オーバーラップ加算法(非特許文献21、12)を使用して再構築される。この手法は図2aの強化ブロックの中で示される。しかし、その手法は、窓同士間のオーバーラップの長さに応じてアルゴリズム上の遅延を増大させてしまう。そのような遅延を回避するため、目的は、ウイナーフィルタリングを線形予測に基づく方法と合体させることである。
【0041】
そのような関係を得るため、推定スピーチ信号
は式1へと代入され、次式が得られる。
【数9】
ここで、γはスケーリング係数であり、
【数10】
はノイズの多い信号ynの最適な予測子である。換言すれば、ノイズの多い信号をa’でフィルタリングすることで、推定クリーン信号の(スケーリング済み)残差が得られる。スケーリングは、クリーンな信号とノイズの多い信号、つまり
のそれぞれの予想される残差誤差間の比、即ち
である。この導出は、ウイナーフィルタリングと線形予測とが密接に関係した方法であることを示しており、以下では、この関係が結合型の強化および符号化方法を発展させるために用いられるであろう。
【0042】
ウイナーフィルタリングのCELPコーデックへの合体
ここでの目的は、ウイナーフィルタリングとCELPコーデック(3章および2章で説明した)とを1つの結合型アルゴリズムへと合体させることである。これらアルゴリズムを合体することで、ウイナーフィルタリングの通常の実施で必要とされるオーバーラップ加算窓掛けの遅延が回避され得、演算量が低減される。
【0043】
結合型構造の実施は複雑ではない。強化されたスピーチ信号の残差は式9によって取得され得ると示される。よって、強化されたスピーチ信号は、クリーン信号の線形予測モデルαnを用いて残差をIIRフィルタリングすることにより、再構築され得る。
【0044】
残差の量子化のために、クリーン信号sk'をその推定信号
で置き換えることにより、式4が修正され得る。その結果、次式が得られる。
【数11】
【0045】
換言すると、強化された目標信号
を用いる目的関数は、クリーンな入力信号s’kとのアクセスを有する場合と同じである。
【0046】
結論として、標準CELPに対する修正は、クリーンな信号の分析フィルタaを、ノイズの多い信号の分析フィルタa’と置き換えるだけである。CELPアルゴリズムの残りの部分は変更なしのままである。本提案の手法は図2(c)に示される。
【0047】
明白なことであるが、本提案方法は、ノイズ減衰が望まれる場合はいつでも、かつクリーンなスピーチ信号の自己相関Rssの推定にアクセスを有する場合には、任意のCELPコーデックにおいて、最小の変更で適用可能である。クリーンなスピーチ信号の自己相関の推定が利用不可の場合には、ノイズ信号の自己相関Rwの推定を使用して、次式
又は他の通常の推定により推測され得る。
【0048】
本提案方法は、時間ドメインフィルタを使用してクリーン信号の推定を取得できる限り、ビーム形成を伴う多チャネルアルゴリズムなどのシナリオに対しても容易に拡張され得る。
【0049】
本提案方法の演算量における利点は、以下のように特徴付けられる。従来の手法では、式8で与えられた行列フィルタHを決定する必要があることに注意されたい。必要となる行列反転の複雑さは
である。しかし、提案手法では、ノイズの多い信号について式3だけが解ければよく、これはレビンソン・ダービン・アルゴリズム(又は同類)を用いて実施されることができ、その複雑さは
である。
【0050】
符号励振線形予測
図3に関して言い換えると、CELPパラダイムに基づくスピーチコーデックはスピーチ生成モデルを利用しており、そのモデルでは以下のことを仮定している。即ち、相関、従って入力スピーチ信号Snのスペクトル包絡は、係数
を有する線形予測フィルタによりモデル化され得ると仮定しており、ここで、Mは根底となるチューブモデル(非特許文献16)により決定されるモデル次数である。線形予測フィルタ(予測子18とも称される)によって予測できないスピーチ信号の部分である、残差
は、次にベクトル量子化を用いて量子化される。
【0051】
入力信号sの1つのフレームのための線形予測フィルタasは、次式の最小化によって取得され得る。
【数12】
ここで、
である。その解は次式の通りである。
【数13】
【0052】
sのフィルタ係数αから成る畳み込み行列Asの以下の定義
【数14】
を用いて、残差信号は入力スピーチフレームを畳み込み行列Asで乗算することにより取得され得る。
【数15】
【0053】
ここで、入力信号からゼロ入力応答を差し引き、それを再合成の中に再導入することにより(非特許文献15)、窓掛けがCELPコーデックと同様に実行される。
【0054】
式15の乗算は、予測フィルタを用いた入力信号の畳み込みと同じであり、従って、FIRフィルタリングと対応する。オリジナル信号は、次式のように再構築フィルタHsを用いた乗算によって、残差から再構築され得る。
【数16】
ここで、Hsは予測フィルタのインパルス応答
から構成される。
【数17】
結果として、この演算はIIRフィルタリングに相当する。
【0055】
残差ベクトルはベクトル量子化を適用して量子化される。従って、量子化されたベクトル
は、ノルム−2の意味において、知覚的距離を最小化するよう、所望の再構築クリーン信号へと選択される。
【数18】
ここで、esは量子化されていない残差であり、
は、AMR−WBスピーチコーデック(非特許文献6)で使用されているような知覚的重み付けフィルタである。
【0056】
CELPコーデックにおけるウイナーフィルタリングの適用
単一チャネルのスピーチ強化の適用に関し、獲得されたマイクロホン信号ynが所望のクリーンなスピーチ信号Snと何らかの所望でない干渉Vnとの加算的混合であると仮定すると、
となる。Zドメインにおいては、等価的に
が成り立つ。
【0057】
ウイナーフィルタB(z)を適用することで、フィルタリングによりノイズの多い観測Y(z)からスピーチ信号S(z)を再構築することが可能になり、それにより推定スピーチ信号が次式のようになる。
ウイナーフィルタについての最小二乗平均解は非特許文献12に記載の通りであり、
【数19】
ここで、スピーチ信号Sn及びノイズ信号Vnは、それぞれ非相関であると仮定されている。
【0058】
スピーチコーデックにおいて、ノイズの多い信号ynのパワースペクトルの推定が線形予測モデル
のインパルス応答の形態で利用可能である。換言すれば、
であり、ここで、γはスケーリング係数である。ノイズの多い線形予測子は、ノイズの多い信号の自己相関行列Ryyから通常どおり計算され得る。
【0059】
更に、ノイズの多い線形予測子はクリーンなスピーチ信号
のパワースペクトルから、又は等価的にクリーンなスピーチ信号の自己相関行列Rssから推定されてもよい。強化アルゴリズムは、ノイズ信号が定常であると仮定しており、よってRvvで示すノイズ信号の自己相関は入力信号の非スピーチフレームから推定され得る。その場合、クリーンなスピーチ信号の自己相関行列Rssは、
で推定され得る。ここで、
が正定値(positive definite)であることを確保するという通常の予防措置を講じておくことが有利である。
【0060】
クリーンなスピーチの推定自己相関行列
を使用して、対応する線形予測子が決定され得る。ここで、Zドメインにおけるインパルス応答は
である。よって、
となり、式19は次式のように表すことができる。
【数20】
【0061】
換言すれば、FIRモードとIIRモードとのそれぞれにおいて、ノイズの多い信号とクリーン信号との予測子を用いて2回フィルタリングすることにより、クリーン信号のウイナー推定が取得され得る。
【0062】
畳み込み行列は、As及びAyによる予測子
を用いたFIRフィルタリングにそれぞれ対応すると言える。同様に、Hs及びHyを予測フィルタリング(IIR)に対応するそれぞれの畳み込み行列であると仮定する。これらの行列を使用することで、従来のCELP符号化は図3bで示すフロー図を用いて表すことができる。ここで、Asを用いて入力信号Snをフィルタリングして残差を取得し、それを量子化し、Hsを用いたフィルタリングによって量子化済み信号を再構築することが可能である。
【0063】
強化と符号化とを結合する従来の手法を図3aに示す。ここでは、符号化の前の前処理ブロックとしてウイナーフィルタリングが適用される。
【0064】
最後に、提案手法においては、ウイナーフィルタリングがCELP方式のスピーチコーデックと結合されている。図3aのカスケード手法と図3bの結合型手法とを比較した場合、追加的なオーバーラップ加算(OLA)の窓掛けスキームを省略できることが明らかである。更に、符号器における入力フィルタAsはHsを取り消す。従って、図3cに示すように、フィルタ結合
を用いて劣化した入力信号yをフィルタリングすることで、推定されたクリーン残差信号
が得られる。従って、誤差の最小化は次式となる。
【数21】
【0065】
このように、この手法はクリーンな推定と量子化済み信号との間の距離を一体的に最小化するので、知覚的ドメインにおける干渉と量子化ノイズとの一体的最小化が実行可能になる。
【0066】
結合型のスピーチ符号化及び強化の手法の性能は、主観的手段と客観的手段との両方を用いて評価された。新たな方法の性能と切り離すため、単純なCELPコーデックが使用され、そこでは残差信号だけが量子化されたが、長期予測(LTP)の遅延とゲイン、線形予測符号化(LPC)及びゲインファクタは量子化されなかった。残差はペア毎の反復方法を使用して量子化され、そこでは、非特許文献17に記載されるように、2個のパルスが全ての位置に連続的に加えられた。更に、推定アルゴリズムの影響を避けるため、クリーンなスピーチ信号の相関行列Rssは、全てのシミュレートされたシナリオにおいて既知であると仮定された。スピーチ及びノイズ信号が非相関であると仮定して、
が成り立つ。如何なる実用的なアプリケーションにおいても、ノイズ相関行列Rvv又は代替的にクリーンなスピーチの相関行列Rssは、獲得されたマイクホン信号から推定されなければならない。一般的な手法は、干渉が定常であると仮定して、スピーチの切れ目におけるノイズ相関行列を推定することである。
【0067】
評価されたシナリオは、所望のクリーンなスピーチ信号と追加的な干渉との混合から成っていた。2つのタイプの干渉が考慮された。即ち、定常な白色ノイズと、非特許文献18の都市化音響風景ライブラリ(Civilisation Soundscape Library)からの車両ノイズの録音のセグメントと、である。残差のベクトル量子化は、AMR−WBコーデック(非特許文献6)の7.2kbit/s及び13.2kbit/sの全体ビットレートにそれぞれ対応する、2.8kbit/s及び7.2kbit/sのビットレートを用いて実行された。12.8kHzのサンプリングレートが全てのシミュレーションに使用された。
【0068】
強化されかつ符号化された信号は、主観的手段および客観的手段の両方を用いて評価された。よって、式23及び式22に定義されるようにリスニングテストが行われ、知覚的な大きさの信号対ノイズ比(SNR)が計算された。結合型の強化処理はフィルタの位相に対して影響を与えないので、この知覚的な大きさSNRが使用された。合成フィルタ及び再構成フィルタは双方とも、予測フィルタの設計に起因して、最小位相フィルタの制限に拘束されているので、フィルタの位相に対して影響を与えない。
【0069】
フーリエ変換を演算子
として定義すると、知覚的ドメインにおける再構築されたクリーン基準および推定クリーン信号の絶対値のスペクトル値は次式で示される。
【数22】
【0070】
修正された知覚的な信号対ノイズ比(PSNR)の定義は次式となる。
【数23】
【0071】
主観的評価のために、USACの標準(非特許文献8)に使用されたテストセットからスピーチ項目、即ち、上述のように白色ノイズおよび車両ノイズによって汚損された項目が使用された。STAX(登録商標)の静電型ヘッドホンを防音環境において使用し、14人の被験者について、非特許文献19の隠れ基準及びアンカー付き多刺激検法(Multiple Stimuli with Hidden Reference and Anchor:MUSHRA)のリスニングテストを行った。そのリスニングテストの結果を図6に示し、図7には平均および95%の信頼区間(confidence intervals)を示す差分MUSHRAスコアを表す。
【0072】
図6の絶対値のMUSHRAテスト結果は、隠れ基準が常に正確に100ポイントへと割り当てられたことを示す。オリジナルのノイズの多い混合は、各項目について最低の平均スコアを与えられたので、全ての強化方法が知覚的品質を向上させたことが分かる。低いビットレートについての平均スコアは、カスケード方式と比較して、全項目にわたる平均について6.4MUSHRAポイントの統計的に有意な改善を示している。高いビットレートについては、全項目にわたる平均は改善が見られるが、しかし統計的に有意とは言えない。
【0073】
結合型の方法と前強化の方法とのより詳細な比較を得るために、差分MUSHRAスコアが図7に示されている。ここでは、前強化の方法と結合型の方法との間の差が各リスナーおよび項目について計算されている。差分結果は、低いビットレートについての統計的に有意な改善を示すことで、絶対値のMUSHRAスコアを証明しているが、他方、高いビットレートについての改善は統計的に有意でない。
【0074】
換言すれば、結合型のスピーチ強化及び符号化のための方法が示され、その方法は全体的な干渉および量子化ノイズの最小化を可能にする。対照的に、従来の手法は、カスケード型の処理ステップにおいて強化および符号化を適用している。両方の処理ステップを一体化することは、繰り返しの窓掛け及びフィルタリング操作が省略できるため、演算量から見ても魅力的である。
【0075】
CELPタイプのスピーチコーデックは、非常に低い遅延となるように設計されており、従って、処理窓が将来の処理窓とオーバーラップすることを回避している。対照的に、周波数ドメインで適用された従来の強化方法は、オーバーラップ加算窓に依存し、それがオーバーラップ長に応じた追加的な遅延を導入してしまう。結合型の手法は、オーバーラップ加算の窓掛けを必要とせず、スピーチコーデック(非特許文献15)で適用されるような窓掛けスキームを使用し、よってアルゴリズム上の遅延の増大を回避している。
【0076】
本提案方法に関して知られている課題は、信号位相が無傷で残る従来のスペクトル・ウイナーフィルタリングとは異なり、提案方法は、位相を修正する時間ドメインフィルタを適用するということである。そのような位相修正は、適切な全帯域通過フィルタの適用により容易に対処され得る。しかしながら、位相修正に起因する如何なる知覚的劣化も気づかれてこなかったので、そのような全帯域通過フィルタは演算量を低く保持するために省略された。しかしながら、客観的評価において、方法同士の公正な比較ができるように、知覚的大きさSNRが測定されたことに注目されたい。この客観的手段は、本提案方法がカスケード処理よりも平均で3dB良好であることを示している。
【0077】
提案方法の性能優位性は、MUSHRAリスニングテストの結果によって更に確認され、そのテストは平均で6.4ポイントの改善を示している。これらの結果は、結合型の強化及び符号化の適用が、品質と演算量との両方において全体システムにとって有益である一方で、CELPスピーチコーデックの低いアルゴリズム上の遅延を維持していることを証明している。
【0078】
図8は、線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する方法800の概略ブロック図を示す。この方法800は、オーディオ信号の背景ノイズ表現を推定するステップS802と、オーディオ信号表現からオーディオ信号の推定された背景ノイズ表現を差し引くことで、背景ノイズ低減済みオーディオ信号表現を生成するステップS804と、オーディオ信号表現に対し線形予測分析を行って線形予測フィルタ係数の第1セットを取得し、かつ背景ノイズ低減済みオーディオ信号表現に対し線形予測分析を行って線形予測フィルタ係数の第2セットを取得するステップS806と、取得されたLPC係数の第1セットと取得されたLPC係数の第2セットとによって時間ドメインフィルタのカスケードを制御して、オーディオ信号から残差信号を取得するステップS808と、を含む。
【0079】
この明細書において、線上の信号は時には線の参照番号で呼ばれ、又は時には線に帰属する参照番号そのもので示されている。従って、この表記法では、ある信号を有する線が信号それ自体を示している。線は、回路接続された実装における物理的な線であり得る。しかし、コンピュータ実装においては物理的な線は存在せず、線によって表現された信号は、1つの計算モジュールから他の計算モジュールへと伝送される。
【0080】
本発明はこれまでブロック図の文脈で説明されており、その中で各ブロックは実際の又は理論上のハードウエア要素を表していたが、本発明はコンピュータ実装された方法によってもまた実現され得る。後者の場合には、各ブロックは対応する方法ステップを表し、これらのステップは、対応する理論上または物理的なハードウエアのブロックによって実行される機能を表している。
【0081】
これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路など、ハードウエア装置により(ハードウエア装置を使用して)実行されてもよい。幾つかの実施形態において、最も重要な方法ステップの1つ以上が、そのような装置によって実行されてもよい。
【0082】
本発明の、伝送され又は符号化された信号は、デジタル記憶媒体上に記憶されることができ、又は、例えばインターネットのような無線伝送媒体または有線伝送媒体などの伝送媒体上で伝送されることができる。
【0083】
所定の実施要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて実施可能である。この実施は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
【0084】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0085】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0086】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0087】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0088】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体などの非一時的記憶媒体)である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び/又は非一時的である。
【0089】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0090】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0091】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0092】
本発明に係るさらなる実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器へ(例えば電子的又は光学的に)伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へと送信するためのファイルサーバを含み得る。
【0093】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0094】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8