特許第6636633号(P6636633)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ホアウェイ・テクノロジーズ・カンパニー・リミテッドの特許一覧

特許6636633音響信号を向上させるための音響信号処理装置および方法
<>
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000043
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000044
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000045
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000046
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000047
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000048
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000049
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000050
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000051
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000052
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000053
  • 特許6636633-音響信号を向上させるための音響信号処理装置および方法 図000054
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6636633
(24)【登録日】2019年12月27日
(45)【発行日】2020年1月29日
(54)【発明の名称】音響信号を向上させるための音響信号処理装置および方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20200120BHJP
   G10L 21/034 20130101ALI20200120BHJP
   H03G 3/30 20060101ALI20200120BHJP
【FI】
   H04R3/00 320
   G10L21/034
   H03G3/30 C
【請求項の数】14
【全頁数】28
(21)【出願番号】特願2018-525785(P2018-525785)
(86)(22)【出願日】2015年11月18日
(65)【公表番号】特表2019-503107(P2019-503107A)
(43)【公表日】2019年1月31日
(86)【国際出願番号】EP2015076954
(87)【国際公開番号】WO2017084704
(87)【国際公開日】20170526
【審査請求日】2018年6月13日
(73)【特許権者】
【識別番号】504161984
【氏名又は名称】ホアウェイ・テクノロジーズ・カンパニー・リミテッド
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100140534
【弁理士】
【氏名又は名称】木内 敬二
(72)【発明者】
【氏名】ペーター・グロシェ
(72)【発明者】
【氏名】カリム・ヘルワニ
(72)【発明者】
【氏名】クリスティアン・シェルクフーバー
(72)【発明者】
【氏名】フランツ・ツォッター
(72)【発明者】
【氏名】ローベルト・ヘルトリッヒ
(72)【発明者】
【氏名】マティアス・フランク
【審査官】 篠田 享佑
(56)【参考文献】
【文献】 特開平11−249693(JP,A)
【文献】 米国特許第06549630(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 21/034
H03G 3/30
(57)【特許請求の範囲】
【請求項1】
目的音源からの音響信号を向上させるための音響信号処理装置であって、前記音響信号処理装置は、
複数のマイクロフォンであって、各マイクロフォンが前記目的音源からの音響信号を受信するように構成されている、複数のマイクロフォンと、
前記複数のマイクロフォンのうちの第1のマイクロフォンによって受信された前記目的音源からの音響信号に基づく第1のパワー尺度と、前記第1のマイクロフォンよりも前記目的音源から遠くに位置する、前記複数のマイクロフォンのうちの少なくとも第2のマイクロフォンによって受信された前記目的音源からの音響信号に基づく第2のパワー尺度とを推定するように構成された推定器であって、前記推定器は、前記第2のパワー尺度と前記第1のパワー尺度との間の比に基づいて利得係数を決定するようにさらに構成されている、前記推定器と、
前記第1のマイクロフォンによって受信された前記目的音源からの音響信号に前記利得係数を適用するように構成された増幅器と、
を含み、
前記推定器は、前記第1のパワー尺度を、前記第1のマイクロフォンによって受信された前記目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度と、前記複数の周波数帯域で前記目的音源が活動中である尤度を定義する複数の確率とに基づいて推定するように構成されている、音響信号処理装置。
【請求項2】
前記推定器は、前記第1のパワー尺度を、次式に基づいて推定するように構成されており、
【数1】
式中、siiは、前記第1のパワー尺度を表し、wは、前記複数の周波数帯域についての複数の重み付けを定義する重み付けベクトルを表し、xiは、瞬間nについて前記第1のマイクロフォンによって受信された前記目的音源からの音響信号の前記複数の周波数帯域での前記複数の帯域限定パワー尺度を定義するパワー尺度ベクトルを表し、pi(n)は、次式に基づく瞬間nについての複数の確率を定義する確率ベクトルを表し、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T
式中、Pi(n,k)は、前記目的音源が瞬間nにおいて周波数帯域kで前記第1のマイクロフォンにおいて活動中である確率を表し、Kは、周波数帯域の数を表す、請求項1に記載の音響信号処理装置。
【請求項3】
前記推定器は、前記第1のマイクロフォンによって受信された前記目的音源からの音響信号の前記第1のパワー尺度と前記第2のマイクロフォンによって受信された前記目的音源からの音響信号の前記第2のパワー尺度との間の差に基づいて各周波数帯域について前記複数の周波数帯域で前記目的音源が活動中である尤度を定義する複数の確率を決定するように構成されている、請求項1または2に記載の音響信号処理装置。
【請求項4】
前記推定器は、前記第1のパワー尺度を、次式によって定義される複数の確率を使用して推定するように構成されており、
【数2】
式中、Pi(n,k)は、前記目的音源が瞬間nにおいて周波数帯域kで前記第1のマイクロフォンにおいて活動中である確率を表し、Xi(n,k)は、瞬間nにおいて周波数帯域kで前記第1のマイクロフォンによって受信された前記目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォンによって受信された前記目的音源からの音響信号の強度を表す、請求項2または3に記載の音響信号処理装置。
【請求項5】
前記推定器は、前記第2のパワー尺度を、前記第1のマイクロフォンによって受信された音響信号、前記第2のマイクロフォンによって受信された音響信号、および前記複数のマイクロフォンのうちの少なくとも1つのさらなるマイクロフォンによって受信された音響信号に基づいて推定するように構成されている、請求項1から4のいずれか一項に記載の音響信号処理装置。
【請求項6】
前記推定器は、前記第2のパワー尺度を、複数のマイクロフォン信頼性尺度にさらに基づいて推定するように構成されており、前記複数のマイクロフォンのうちの各マイクロフォンのマイクロフォン信頼性尺度は、前記マイクロフォンの前記目的音源までの距離と、前記マイクロフォンによって受信された前記目的音源からの音響信号の、雑音および/または干渉信号に対する比とに依存する、請求項5に記載の音響信号処理装置。
【請求項7】
前記第2のパワー尺度と前記第1のパワー尺度との間の比は、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率についての正規化された尺度によって重み付けされる、請求項1から6のいずれか一項に記載の音響信号処理装置。
【請求項8】
前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率は、複数の周波数帯域についての、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である複数の確率に基づく、請求項7に記載の音響信号処理装置。
【請求項9】
前記推定器は、次式に基づいて前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率についての正規化された尺度を決定するように構成されており、
【数3】
式中、μi(n)は、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率についての正規化された尺度を表し、wは、前記複数の周波数帯域での複数の重み付けを定義する重み付けベクトルを表し、pi(n)は、複数の周波数帯域についての、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である複数の確率を定義する確率ベクトルを表す、請求項8に記載の音響信号処理装置。
【請求項10】
前記確率ベクトルpi(n)は、次式によって定義され、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T
式中、Pi(n,k)は、前記目的音源が瞬間nにおいて周波数帯域kで前記第1のマイクロフォンにおいて活動中である確率を表し、Kは、周波数帯域の数を表し、前記確率Pi(n,k)は、次式に基づいて決定され、
【数4】
式中、Xi(n,k)は、瞬間nにおいて周波数帯域kで前記第1のマイクロフォンによって受信された前記目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォンによって受信された前記目的音源からの音響信号の強度を表す、請求項9に記載の音響信号処理装置。
【請求項11】
前記増幅器は、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率についての正規化された尺度が既定の閾値より小さい場合、前記第1のマイクロフォンによって受信された前記目的音源からの音響信号に単位利得係数を適用するように構成されており前記単位利得係数は、単一または前記目的音源が休止中の利得係数である、請求項1から10のいずれか一項に記載の音響信号処理装置。
【請求項12】
前記増幅器は、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率についての正規化された尺度が既定の確率閾値より小さい場合、前記目的音源が瞬間nの間に前記第1のマイクロフォンにおいて活動中である確率についての正規化された尺度に、ゲーティング関数、ローパスフィルタおよび/またはシュミットトリガを適用することによって、前記第1のマイクロフォンによって受信された前記目的音源からの音響信号に単位利得係数を適用するように構成されており前記単位利得係数は、単一または前記目的音源が休止中の利得係数である、請求項1から11のいずれか一項に記載の音響信号処理装置。
【請求項13】
目的音源からの音響信号を向上させるための音響信号処理方法であって、前記音響信号処理方法は、
複数のマイクロフォンによって前記目的音源からの音響信号を受信するステップと、
前記複数のマイクロフォンのうちの第1のマイクロフォンによって受信された前記目的音源からの音響信号に基づく第1のパワー尺度と、前記第1のマイクロフォンよりも前記目的音源から遠くに位置する、前記複数のマイクロフォンのうちの少なくとも第2のマイクロフォンによって受信された前記目的音源からの音響信号に基づく第2のパワー尺度とを推定するステップと、
前記第2のパワー尺度と前記第1のパワー尺度との間の比に基づいて利得係数を決定するステップと、
前記第1のマイクロフォンによって受信された前記目的音源からの音響信号に前記利得係数を適用するステップと
を含み、
前記推定するステップは、
前記第1のパワー尺度を、前記第1のマイクロフォンによって受信された前記目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度と、前記複数の周波数帯域で前記目的音源が活動中である尤度を定義する複数の確率とに基づいて推定するステップを含む、前記音響信号処理方法。
【請求項14】
コンピュータにおいて実行されるとき、請求項13に記載の音響信号処理方法を実行するためのプログラムコードを含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、オーディオ信号の処理および再生の分野に関する。より詳細には、本発明は、音響信号を向上させるための音響信号処理装置および方法に関する。
【背景技術】
【0002】
自動利得制御(automatic gain control(AGC))は、音声信号の一定レベルを保証するために、記録された音声のレベル変動を等化することを目的とする。マイクロフォンによって記録された音声信号の解析は、記録された音声のレベル変動の原因が2つの独立した原因、すなわち、意図的な音声レベル変動と、例えば、話者とマイクロフォンと間の距離の変化に起因する、意図的でない変動とに分離されることが可能であることを明らかにする。
【0003】
レベル変動を等化するためにいくつかの自動利得制御(AGC)システムが開発されてきた。現在開発されているAGC解決策は、米国特許第8,121,835号明細書および"Automatic Spatial Gain Control for an Informed Spatial Filter in Acoustics,Speech and Signal Processing (ICASSP)" Braun, S. et al,. E. A. P. (2014)., 2014 IEEE International Conference on (pp. 830-834)に記載されている。しかし、それらは、発せられた音声エネルギーの意図的および意図的でない両方の信号レベル変動に作用する。
【0004】
したがって、例えば、没入型遠隔会議システムのリアルな音場印象を伝えることができるように、レベル変動の原因を検出することが最も重要である。そうすることは、音声信号の意図的な(自然な)動的変化を保持しながら、距離変動に起因する意図的でない変動を十分に等化することを可能にする。
【0005】
意図的な信号レベル変動と意図的でない信号レベル変動との間で区別し、意図的でない信号レベル変動のみを等化するという発想は、最近様々な観点から研究されてきた。提案されてきた解決策の1つは、音源定位(acoustic source localization(ASL))によって話者・マイクロフォン間の距離を推定することである。同期されたマイクロフォンが既知の位置にあり、同時に発声する話者がいないシステムでの音源とマイクロフォンとの間の距離変動から生じるレベル変動を等化するいくつかのASL法が開発されてきた。そのようなシステムは、例えば、米国特許第7,924,655号明細書および"Energy-based sound source localization and gain normalization for ad hoc microphone arrays. Acoustics, Speech and Signal Processing", Liu, Z. et al, ICASSP 2007, IEEE International Conference on. Vol. 2. IEEE, 2007に記載されている。
【0006】
しかし、従来のASL法は、以下の欠点のうちの少なくとも1つを呈する。いくつかの従来のASL法では、マイクロフォンが同期されなければならず、かつ/またはそれらの位置が知られていなければならない。いくつかの従来のASL法は、同時に発声している話者を扱うことができない。いくつかの従来のASL法は、大きな推定誤差が混信レベル変動を等化することを可能にしない。いくつかの従来のASL法は計算上複雑である。
【0007】
よって、特に自動利得制御を可能にする、改善された音響信号処理装置および方法の必要性がある。
【発明の概要】
【課題を解決するための手段】
【0008】
この発明の目的は、特に自動利得制御を可能にする、改善された音響信号処理装置および方法を提供することである。
【0009】
上記および他の目的は、独立請求項の主題によって達成される。さらなる実現形式は、従属請求項、明細書および図面から明らかである。
【0010】
第1の態様によれば、この発明は、目的音源からの音響信号を向上させるための音響信号処理装置に関する。この音響信号処理装置は、複数のマイクロフォンであって、各マイクロフォンが目的音源からの音響信号を受信するように構成されている、複数のマイクロフォンと、複数のマイクロフォンのうちの第1のマイクロフォンによって受信された目的音源からの音響信号に基づく第1のパワー尺度と、第1のマイクロフォンよりも目的音源から遠くに位置する、複数のマイクロフォンのうちの少なくとも第2のマイクロフォンによって受信された目的音源からの音響信号に基づく第2のパワー尺度とを推定するように構成された推定器であって、推定器は、第2のパワー尺度と第1のパワー尺度との間の比に基づいて利得係数を決定するようにさらに構成されている、推定器と、第1のマイクロフォンによって受信された目的音源からの音響信号に利得係数を適用するように構成された増幅器と、を含む。
【0011】
よって、計算上効率的なやり方で目的音源とマイクロフォンとの間の距離変動に起因する音響信号レベル変動を等化することによって自動利得制御を可能にする改善された音響信号処理装置が提供される。
【0012】
この発明の第1の態様による音響信号処理装置の第1の可能な実現形式では、推定器は、第1のパワー尺度を、第1のマイクロフォンによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度と、複数の周波数帯域で目的音源が活動中である尤度を定義する複数の確率とに基づいて推定するようにさらに構成されている。
【0013】
よって、目的音源と第1のマイクロフォンとの間の距離変動に起因する音響信号レベル変動のより強固な等化が提供される。
【0014】
この発明の第1の態様自体またはその第1の実現形式による音響信号処理装置の第2の可能な実現形式では、推定器は、第1のパワー尺度を、次式に基づいて推定するようにさらに構成されており、
【0015】
【数1】
【0016】
式中、siiは、第1のパワー尺度を表し、wは、複数の周波数帯域についての複数の重み付けを定義する重み付けベクトルを表し、xiは、瞬間nについて第1のマイクロフォンによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度を定義するパワー尺度ベクトルを表し、pi(n)は、次式に基づく瞬間nについての複数の確率を定義する確率ベクトルを表し、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォンにおいて活動中である確率を表し、Kは、周波数帯域の数を表す。
【0017】
よって、異なるマイクロフォンが活動中である尤度を考慮に入れた、目的音源と第1のマイクロフォンとの間の距離変動に起因する音響信号レベル変動のより強固な等化が提供される。特定の周波数帯域の重要性に依存して、複数の重み付けが異なる周波数帯域を異なって重み付けすることを可能にする。
【0018】
瞬間nの間に第1のマイクロフォンによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度を定義するパワー尺度ベクトルは、次式によって定義されることが可能であり、
xi(n)=[|Xi(n,1)|2,|Xi(n,2)|2,・・・,|Xi(n,K)|2T
式中、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォンによって受信された目的音源からの音響信号の強度を表し、Kは、周波数帯域の数を表す。
【0019】
第1の態様の第1または第2の実現形式による音響信号処理装置の第3の可能な実現形式では、推定器は、第1のマイクロフォンによって受信された目的音源からの音響信号の第1のパワー尺度と第2のマイクロフォンによって受信された目的音源からの音響信号の第2のパワー尺度との間の差に基づいて各周波数帯域について複数の周波数帯域で目的音源が活動中である尤度を定義する複数の確率を決定するように構成されている。
【0020】
よって、目的音源からの信号を競合する音源からより良く分離する、目的音源が活動中である尤度を考慮に入れた、より信頼できる利得制御が提供される。
【0021】
第1の態様の第2または第3の実現形式による音響信号処理装置の第4の可能な実現形式では、推定器は、第1のパワー尺度を、次式によって定義される複数の確率を使用して推定するようにさらに構成されており、
【0022】
【数2】
【0023】
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォンにおいて活動中である確率を表し、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォンによって受信された目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォンによって受信された目的音源からの音響信号の強度を表す。
【0024】
よって、目的音源からの信号を競合する音源からより良く分離する、目的音源が活動中である尤度を考慮に入れた、より信頼できる利得の向上が提供される。
【0025】
この発明の第1の態様自体またはその第1から第4の実現形式のいずれか1つによる音響信号処理装置の第5の可能な実現形式では、推定器は、第2のパワー尺度を、第1のマイクロフォンによって受信された音響信号、第2のマイクロフォンによって受信された音響信号、および複数のマイクロフォンのうちの少なくとも1つのさらなるマイクロフォンによって受信された音響信号に基づいて推定するようにさらに構成されている。
【0026】
さらなるマイクロフォンを考慮に入れることは、第2のパワー尺度のより信頼できる推定を、したがって、利得係数についての改善された値を得ることを可能にする。
【0027】
この発明の第1の態様自体またはその第5の実現形式による音響信号処理装置の第6の可能な実現形式では、推定器は、第2のパワー尺度を、複数のマイクロフォン信頼性尺度にさらに基づいて推定するようにさらに構成されており、複数のマイクロフォンのうちの各マイクロフォンのマイクロフォン信頼性尺度は、マイクロフォンの目的音源までの距離と、マイクロフォンによって受信された目的音源からの音響信号の、雑音および/または干渉信号に対する比とに依存する。
【0028】
各マイクロフォンを信頼性尺度によって重み付けすることは、第2のパワー尺度のさらに改善された推定、したがって利得係数に導く。
【0029】
この発明の第1の態様自体またはその第1から第6の実現形式のいずれか1つによる音響信号処理装置の第7の可能な実現形式では、第2のパワー尺度と第1のパワー尺度との間の比は、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度によって重み付けされる。
【0030】
よって、利得制御の増加した強固さおよび平滑さが提供される。
【0031】
この発明の第1の態様自体またはその第7の実現形式による音響信号処理装置の第8の可能な実現形式では、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率は、複数の周波数帯域についての、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である複数の確率に基づく。
【0032】
よって、目的音源が活動中である確率の推定の増加した強固さが得られる。
【0033】
この発明の第1の態様自体またはその第8の実現形式による音響信号処理装置の第9の可能な実現形式では、推定器は、次式に基づいて目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度を決定するように構成されており、
【0034】
【数3】
【0035】
式中、μi(n)は、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度を表し、wは、複数の周波数帯域についての複数の重み付けを定義する重み付けベクトルを表し、pi(n)は、複数の周波数帯域についての、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である複数の確率を定義する確率ベクトルを表す。
【0036】
よって、有利な利得係数平滑化が提供される。
【0037】
この発明の第1の態様自体またはその第9の実現形式による音響信号処理装置の第10の可能な実現形式では、確率ベクトルpi(n)は、次式によって定義され、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォンにおいて活動中である確率を表し、Kは、周波数帯域の数を表し、確率Pi(n,k)は、次式に基づいて決定され、
【0038】
【数4】
【0039】
式中、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォンによって受信された目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォンによって受信された目的音源からの音響信号の強度を表す。
【0040】
よって、目的音源が活動中である確率は、音響信号の強度を考慮することによって効率的かつ強固に推定される。
【0041】
この発明の第1の態様自体またはその第1から第10の実現形式のいずれか1つによる音響信号処理装置の第11の可能な実現形式では、増幅器は、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度が既定の閾値より小さい場合、第1のマイクロフォンによって受信された目的音源からの音響信号に単位利得係数を適用するように構成されている。
【0042】
よって、目的音源が活動中である尤度が低すぎる場合、単位利得係数が提供される。
【0043】
この発明の第1の態様自体またはその第1から第11の実現形式のいずれか1つによる音響信号処理装置の第12の可能な実現形式では、増幅器は、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度が既定の確率閾値より小さい場合、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度に、ゲーティング関数、ローパスフィルタおよび/またはシュミットトリガを適用することによって、第1のマイクロフォンによって受信された目的音源からの音響信号に単位利得係数を適用するように構成されている。
【0044】
第2の態様によれば、この発明は、目的音源からの音響信号を向上させるための音響信号処理方法に関する。この音響信号処理方法は、複数のマイクロフォンによって目的音源からの音響信号を受信するステップと、複数のマイクロフォンのうちの第1のマイクロフォンによって受信された目的音源からの音響信号に基づく第1のパワー尺度と、第1のマイクロフォンよりも目的音源から遠くに位置する、複数のマイクロフォンのうちの少なくとも第2のマイクロフォンによって受信された目的音源からの音響信号に基づく第2のパワー尺度とを推定するステップと、第2のパワー尺度と第1のパワー尺度との間の比に基づいて利得係数を決定するステップと、第1のマイクロフォンによって受信された目的音源からの音響信号に利得係数を適用するステップと、を含む。
【0045】
この発明の第2の態様による音響信号処理方法の第1の可能な実現形式では、推定するステップは、第1のパワー尺度を、第1のマイクロフォンによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度と、複数の周波数帯域で目的音源が活動中である尤度を定義する複数の確率とに基づいて推定するステップを含む。
【0046】
この発明の第2の態様自体またはその第1の実現形式による音響信号処理方法の第2の可能な実現形式では、推定するステップは、第1のパワー尺度を、次式に基づいて推定するステップを含み、
【0047】
【数5】
【0048】
式中、siiは、第1のパワー尺度を表し、wは、複数の周波数帯域についての複数の重み付けを定義する重み付けベクトルを表し、xiは、瞬間nについて第1のマイクロフォンによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度を定義するパワー尺度ベクトルを表し、pi(n)は、次式に基づく瞬間nについての複数の確率を定義する確率ベクトルを表し、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォンにおいて活動中である確率を表し、Kは、周波数帯域の数を表す。
【0049】
瞬間nの間に第1のマイクロフォンによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度を定義するパワー尺度ベクトルは、次式によって定義されることが可能であり、
xi(n)=[|Xi(n,1)|2,|Xi(n,2)|2,・・・,|Xi(n,K)|2T
式中、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォンによって受信された目的音源からの音響信号の強度を表し、Kは、周波数帯域の数を表す。
【0050】
第2の態様の第1または第2の実現形式による音響信号処理方法の第3の可能な実現形式では、複数の周波数帯域で目的音源が活動中である尤度を定義する複数の確率は、第1のマイクロフォンによって受信された目的音源からの音響信号の第1のパワー尺度と第2のマイクロフォンによって受信された目的音源からの音響信号の第2のパワー尺度との間の差に基づいて各周波数帯域について決定される。
【0051】
第2の態様の第2または第3の実現形式による音響信号処理方法の第4の可能な実現形式では、推定するステップは、第1のパワー尺度を、次式によって定義される複数の確率を使用して推定するステップを含み、
【0052】
【数6】
【0053】
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォンにおいて活動中である確率を表し、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォンによって受信された目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォンによって受信された目的音源からの音響信号の強度を表す。
【0054】
この発明の第2の態様自体またはその第1から第4の実現形式のいずれか1つによる音響信号処理方法の第5の可能な実現形式では、推定するステップは、第2のパワー尺度を、第1のマイクロフォンによって受信された音響信号、第2のマイクロフォンによって受信された音響信号、および複数のマイクロフォンのうちの少なくとも1つのさらなるマイクロフォンによって受信された音響信号に基づいて推定するステップを含む。
【0055】
この発明の第2の態様自体またはその第5の実現形式による音響信号処理方法の第6の可能な実現形式では、推定するステップは、第2のパワー尺度を、複数のマイクロフォン信頼性尺度にさらに基づいて推定するステップを含み、複数のマイクロフォンのうちの各マイクロフォンのマイクロフォン信頼性尺度は、マイクロフォンの目的音源までの距離と、マイクロフォンによって受信された目的音源からの音響信号の、雑音および/または干渉信号に対する比とに依存する。
【0056】
この発明の第2の態様自体またはその第1から第6の実現形式のいずれか1つによる音響信号処理方法の第7の可能な実現形式では、第2のパワー尺度と第1のパワー尺度との間の比に基づいて利得係数を決定するステップは、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度によって比を重み付けするステップを含む。
【0057】
この発明の第2の態様自体またはその第7の実現形式による音響信号処理方法の第8の可能な実現形式では、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率は、複数の周波数帯域についての、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である複数の確率に基づく。
【0058】
この発明の第2の態様自体またはその第8の実現形式による音響信号処理方法の第9の可能な実現形式では、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度は次式に基づいて決定され、
【0059】
【数7】
【0060】
式中、μi(n)は、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度を表し、wは、複数の周波数帯域についての複数の重み付けを定義する重み付けベクトルを表し、pi(n)は、複数の周波数帯域についての、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である複数の確率を定義する確率ベクトルを表す。
【0061】
この発明の第2の態様自体またはその第9の実現形式による音響信号処理方法の第10の可能な実現形式では、確率ベクトルpi(n)は、次式によって定義され、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォンにおいて活動中である確率を表し、Kは、周波数帯域の数を表し、確率Pi(n,k)は、次式に基づいて決定され、
【0062】
【数8】
【0063】
式中、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォンによって受信された目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォンによって受信された目的音源からの音響信号の強度を表す。
【0064】
この発明の第2の態様自体またはその第1から第10の実現形式のいずれか1つによる音響信号処理方法の第11の可能な実現形式では、音響信号に利得係数を適用するステップは、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度が既定の閾値より小さい場合、第1のマイクロフォンによって受信された目的音源からの音響信号に単位利得係数を適用するステップを含む。
【0065】
この発明の第2の態様自体またはその第1から第11の実現形式のいずれか1つによる音響信号処理方法の第12の可能な実現形式では、音響信号に利得係数を適用するステップは、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度が既定の確率閾値より小さい場合、目的音源が瞬間nの間に第1のマイクロフォンにおいて活動中である確率についての正規化された尺度に、ゲーティング関数、ローパスフィルタおよび/またはシュミットトリガを適用することによって、第1のマイクロフォンによって受信された目的音源からの音響信号に単位利得係数を適用するステップを含む。
【0066】
この発明の第2の態様による音響信号処理方法は、この発明の第1の態様による音響信号処理装置によって実行されることが可能である。この発明の第2の態様による音響信号処理方法のさらなる特徴は、この発明の第1の態様およびその異なる実現形式による音響信号処理装置の機能から直接得られ、逆も同様である。
【0067】
第3の態様によれば、この発明は、コンピュータにおいて実行されるとき、この発明の第2の態様またはその実現形式のいずれかによる音響信号処理方法を実行するためのプログラムコードを含むコンピュータプログラムに関する。
【0068】
この発明は、ハードウェアおよび/またはソフトウェアにおいて実現されることが可能である。
【0069】
この発明のさらなる実施形態が、以下の図面に関連して説明される。
【図面の簡単な説明】
【0070】
図1】一実施形態による目的音源からの音響信号を向上させるための音響信号処理装置の概略図を示す。
図2】変動する目的音源・マイクロフォンの距離を有する4つのマイクロフォンと1つの目的音源とを有する一実施形態による音響信号処理装置を含む例示的なシナリオを図示す概略図を示す。
図3】一実施形態による音響信号処理装置のマイクロフォンによって受信された信号エネルギー変動の意図的なレベル変動と意図的でないレベル変動への分解を図示する概略図を示す。
図4】目的音源から異なる距離に位置する一実施形態による音響信号処理装置のマイクロフォンによって受信された信号エネルギーの短時間の変動を図示す概略図を示す。
図5】一実施形態による音響信号処理装置の目的音源に近いマイクロフォンと遠いマイクロフォンとの間のパワー尺度比を図示する概略図を示す。
図6】3つのマイクロフォンと3つの異なる目的音源とを有する一実施形態による音響信号処理装置を含む例示的なシナリオを図示する概略図を示す。
図7】一実施形態による音響信号処理装置の推定器による利得係数推定を図示する概略図を示す。
図8】6つのマイクロフォンと2つの活動中の目的音源とを有する一実施形態による音響信号処理装置を含む例示的なシナリオにおけるマイクロフォン信頼性分布を図示する概略図を示す。
図9】一実施形態による音響信号処理装置の推定器の利得係数推定段を、続く利得係数更新段と共に図示する概略図を示す。
図10】一実施形態による音響信号処理装置の推定器および追加の近接話者検出段を図示する概略図を示す。
図11】一実施形態による音響信号処理装置を図示する概略図を示す。
図12】一実施形態による目的音源からの音響信号を向上させるための信号処理方法の概略図を示す。
【発明を実施するための形態】
【0071】
様々な図において、同一の参照符号は、同一のまたは少なくとも機能的に同等の特徴について使用される。
【0072】
以下の説明では、この開示の一部を形成し、本発明が配置され得る具体的な態様が図示によって示されている、添付図面への参照が行われる。本発明の範囲から逸脱することなく、他の態様が利用されることが可能であり、構造的または論理的変更が行われることが可能であることが理解される。本発明の範囲は添付の特許請求の範囲で定義されるので、以下の詳細な説明は、したがって限定的な意味にとられるべきではない。
【0073】
例えば、説明されている方法に関連する開示は、その方法を実行するように構成された対応するデバイスまたはシステムについても当てはまり、逆も同様であり得ることが理解される。例えば、特定の方法ステップが説明されているならば、対応するデバイスは、説明されている方法のステップを実行するユニットを、たとえそのようなユニットが明示的に説明され、図面に図示されていなくても、含み得る。さらに、ここに説明されている様々な例示的な態様の特徴は、特に違ったふうに注記されなければ、相互に組み合わせられ得ることが理解される。
【0074】
図1は、目的音源、例えば話者からの音響信号を向上させ、または等化するための音響信号処理装置100の概略図を示す。音響信号処理装置100は、目的音源からの音響信号を受信するように構成された第1のマイクロフォン101aと、目的音源からの音響信号を受信するように構成された第2のマイクロフォン101bとを含む。図1に図示されたように、第2のマイクロフォン101bは、第1のマイクロフォン101aよりも目的音源から遠くに位置する。
【0075】
音響信号処理装置100は、第1のマイクロフォン101aによって受信された目的音源からの音響信号に基づく第1のパワー尺度と、第2のマイクロフォン101bによって受信された目的音源からの音響信号に基づく第2のパワー尺度とを推定するように構成された推定器103をさらに含む。ここで使用される用語「パワー尺度」は、目的音源から受信される音響信号の強度の定量化を可能にする、音響信号の強度、エネルギー、および/またはパワーの尺度のような任意の尺度として理解されるべきである。パワー尺度は、例えば、音響信号の2乗振幅、振幅、または2乗平均平方根に基づいて決定され得る。さらに、パワー尺度を決定することは、時間平均操作を伴い得る。
【0076】
推定器103は、第2のパワー尺度と第1のパワー尺度との間の比に基づいて利得係数を決定するようにさらに構成されている。
【0077】
音響信号処理装置100は、第1のマイクロフォン101aによって受信された目的音源からの音響信号に利得係数を適用するように構成された増幅器105をさらに含む。
【0078】
図2は、変動する音源・マイクロフォンの距離を有する4つのマイクロフォン101a〜101dと1つの目的音源とを有する一実施形態による音響信号処理装置100を含む例示的なシナリオを図示する概略図を示す。例として、第1のマイクロフォン101aは目的音源に最も近いマイクロフォンであり、第2のマイクロフォン101dは目的音源から最大の距離を有する。各マイクロフォン101a〜101dによって記録された信号の短時間の変動は、意図的な信号変動、例えば声のイントネーションまたはトーンの変化と、意図的でない信号変動、例えば目的音源とマイクロフォン101a〜101dとの間の距離変動に起因するものとに分解されることが可能であることが分かっている。
【0079】
図3は、第1のマイクロフォン101aによって受信された音響信号の短時間の信号エネルギー変動を、どのようにして、音響信号の短時間のエネルギー変動と、目的音源と第1のマイクロフォン101aとの間の距離変動に起因する時間変動利得とに分解されることが可能であるかを図示する概略図を示す。例として、図3および以下の図のいくつかでは、第1のパワー尺度および第2のパワー尺度は、音響信号のエネルギーに基づく。
【0080】
図4は、目的音源から異なる距離に位置する、図2に示された音響信号処理装置の4つすべてのマイクロフォン101a〜101dによって観測された信号エネルギーの短時間の信号変動を図示する概略図を示す。それぞれの実線は記録された音声エネルギーを表現し、それぞれの破線は目的音源とそれぞれのマイクロフォン101a〜101dとの間の距離変動に起因する時間変動利得を表現する。図4から理解できるように、異なるマイクロフォン101a〜101dによって受信された音響信号のエネルギー(またはその代わりに異なるパワー尺度)は、目的音源からの増加する距離とともに減少する。第1のマイクロフォン101aによって受信された信号エネルギーは最も高く、マイクロフォン101dで取り込まれた信号エネルギーは最も低い。しかし、信号の意図的な短期間の変動(実線で示される)は同じである。
【0081】
他方、例えば異なるマイクロフォン101a〜101dによって受信された音響信号の距離変動に起因する、意図的でない短期間の変動は、目的音源からの増加する距離とともに減少し、なぜなら、距離の相対的な変化または変動、すなわち、目的音源とそれぞれのマイクロフォン101a〜101dとの間の全体の距離と比較した、目的音源とそれぞれのマイクロフォン101a〜101dとの間の距離の変化(または差)の比は、目的音源とそれぞれのマイクロフォン101a〜101dとの間の増加する距離とともに減少するからである。したがって、図4から理解できるように、異なるマイクロフォン101a〜101dによって受信された音声信号の、例えば距離変動に起因する意図的でない短期間の変動(目的音源はまずマイクロフォン101a〜101dから遠ざかって動き、その後再びより近くに動く)は、目的音源に最も近い第1のマイクロフォン101aにおいて最も強く、目的音源からより大きい距離において位置するその他のマイクロフォン101b〜101dにおいてより小さい。
【0082】
目的音源に近い第1のマイクロフォン101aにおける信号と目的音源からより遠いその他のマイクロフォン101b〜101dにおける信号は、多かれ少なかれ同一の意図的な変動を有し、意図的でない(距離)変動においてのみ異なるので、この発明の実施形態は、第1のマイクロフォン101aにおける信号の第1のパワー尺度とより遠いマイクロフォン101b〜101dのうちの1つにおける信号の第2のパワー尺度との間の比に基づく利得係数を適用することによって、意図的でないレベル変動を等化する。
【0083】
図5は、目的音源に近い第1のマイクロフォン101aとより遠いマイクロフォン101dとの間のパワー尺度比を図示する概略図を示す。理論的には、目的音源に近い第1のマイクロフォン101aとより遠いマイクロフォン101dとにおける音響信号の到達の間の時間差を補正するために時間同期が有益であるが、実際には、典型的な遅延はたいへん小さく(例えば、約100サンプル)、他方、短時間の信号パワー尺度はより長い期間(例えば、約2000サンプル)にわたって推定されるので、これは結果に影響しないことが分かっている。
【0084】
本発明の実施形態は、たとえ困難な複数話者のシナリオについても、第1のパワー尺度、例えば近い短時間の音声エネルギー、および第2のパワー尺度、例えば遠い短時間の音声エネルギーの強固で効率的な推定を可能にする。図6は、3つのマイクロフォン101a〜101cおよび3つの目的音源(図6ではt1、t2およびt3と呼ばれる)を有する音響信号処理装置100を含む例示的なシナリオを示す。この例示的なシナリオでは、すべてのマイクロフォン101a〜101cの近くに活動中の目的音源が存在し得る。各マイクロフォン101a〜101cにおける短時間の信号エネルギーは、異なる目的音源と雑音プラス干渉項とに対応する音響エネルギーに分解されることが可能であり、例えば、m1=s11+s21+s31+n1であり、式中、m1は、第1のマイクロフォン101aによって観測された合計の短時間の信号エネルギーであり、sijは、マイクロフォンjによって受信された目的音源iに対応する短時間の音声エネルギー(すなわち、パワー尺度)であり、n1は、マイクロフォンの自己雑音、拡散性雑音および干渉源の合計の短時間のエネルギーである、と仮定されることが可能である。
【0085】
第1のパワー尺度sii(n)(nは瞬間を表す)は、第iのマイクロフォン101a〜101cによって受信された第iの目的音源からの音響信号に基づいて、音響信号処理装置100の推定器103によって推定される。第2のパワー尺度
【0086】
【数9】
【0087】
は、第iのマイクロフォン101a〜101cよりも第iの目的音源から離れて位置する別のマイクロフォン101a〜101cによって受信された第iの目的音源からの音響信号に基づいて推定される。
【0088】
図7は、一実施形態による音響信号処理装置100の推定器103による第iのマイクロフォン101a〜101cについての利得係数
【0089】
【数10】
【0090】
の推定を図示する概略図を示す。利得係数
【0091】
【数11】
【0092】
の計算は、パワー尺度sii(n)と
【0093】
【数12】
【0094】
とに基づく。一実施形態による音響信号処理装置100の推定器103は、第iのマイクロフォン101a〜101cについての利得係数
【0095】
【数13】
【0096】
を、第2のパワー尺度
【0097】
【数14】
【0098】
と第1のパワー尺度sii(n)との間の比として決定するように構成されている。
【0099】
音響信号処理装置の推定器103によって決定される利得係数
【0100】
【数15】
【0101】
は第2のパワー尺度
【0102】
【数16】
【0103】
に依存するので、この発明の異なる実施形態は、「遠いマイクロフォン」を選択し、第2のパワー尺度
【0104】
【数17】
【0105】
を推定するための異なるやり方を提供する。選択される遠いマイクロフォンは、意図的でない距離変動の影響を低減させるために目的音源から遠く離れているべきであり、一方、さらに、意図的な変動を示す意味のある参照信号を取得できるように、第2のパワー尺度
【0106】
【数18】
【0107】
の正確な推定を可能にする。
【0108】
よって、専用の遠いマイクロフォンが利用可能である場合、このマイクロフォンが、音響信号処理装置100の推定器103によって、第2のパワー尺度
【0109】
【数19】
【0110】
を推定するのに使用されるべきである。しかし、例えば、そのような専用の遠いマイクロフォンが利用可能でない他の実施形態では、音響信号処理装置100の推定器103は、以下でさらにより詳細に説明されるように、すべてのマイクロフォンの推定パワー尺度に基づいて(おそらく重み付けされた)統計的推定器を使用して、第2のパワー尺度
【0111】
【数20】
【0112】
を推定するように構成されている。そのような統計的推定器に基づいて第2のパワー尺度
【0113】
【数21】
【0114】
を決定することは、例えば、目的音源および/またはマイクロフォンの位置が変化したときの急な利得変化を考慮し、単一の遠いマイクロフォンに基づく第2のパワー尺度の推定は雑音または残響のある条件下で誤差を生じやすいので、第2のパワー尺度の推定をより強固にすることを可能にする。
【0115】
一実施形態では、第2のパワー尺度
【0116】
【数22】
【0117】
についての統計的推定器は、1つの目的音源に対応するすべての推定パワー尺度にわたる平均値または中央値である。しかし、平均値は外れ値に起因する誤差を生じやすい可能性があり、中央値を使用することは第2のパワー尺度
【0118】
【数23】
【0119】
の急な変化に導く可能性がある。 第2のパワー尺度
【0120】
【数24】
【0121】
についての平滑な推定を得るために、この発明の実施形態は、以下でさらにより詳細に説明されるように、2つのパーセンタイル尺度の間の平均値を使用する。合理的な空間分布を有する多数のマイクロフォンが利用可能であるとき、これらの統計的推定器は、所望の目的音源に近すぎるかまたは遠すぎるいくつかのマイクロフォンによって損なわれない。しかし、少数のマイクロフォンしか利用可能でないならば、この発明の実施形態は、重み付けされた統計的推定器を使用することによって、第2のパワー尺度の推定の強固さを改善することができる。一実施形態では、各
【0122】
【数25】
【0123】
推定について、各マイクロフォンの信頼性係数(スポット信頼性とも呼ばれる)が推定され、低いスポット信頼性を有するマイクロフォンからのパワー尺度は、より大きいスポット信頼性を有するマイクロフォンからのパワー尺度よりも推定器103によって推定される第2のパワー尺度の値へ小さく寄与する。
【0124】
たとえ、図6に示された例のように、複数の目的音源があったとしても、それらのすべてが必ずしも同時に活動中であるとは限らない。したがって、一実施形態では、推定器103は第1のパワー尺度を、第1のマイクロフォン101aによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度と、複数の周波数帯域で目的音源が活動中である尤度を定義する複数の確率とに基づいて推定するようにさらに構成されている。
【0125】
一実施形態では、推定器103は、第1のパワー尺度siiを、次式に基づいて推定するようにさらに構成されており、
【0126】
【数26】
【0127】
式中、siiは、第1のパワー尺度を表し、wは、複数の周波数帯域についての複数の重み付けを定義する重み付けベクトルを表し、xiは、瞬間nについて第1のマイクロフォン101a〜101cによって受信された目的音源からの音響信号の複数の周波数帯域で複数の帯域限定パワー尺度を定義するパワー尺度ベクトルを表し、pi(n)は、次式に基づく瞬間nについての複数の確率を定義する確率ベクトルを表し、
pi(n)=[Pi(n,1),Pi(n,2),・・・,Pi(n,K)]T (2)
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォン101a〜101cにおいて活動中である確率を表し、Kは、周波数帯域の数を表す。確率Pi(n,k)は、ここでは「近接話者確率」とも呼ばれる。
【0128】
一実施形態では、瞬間nの間に第1のマイクロフォン101a〜101cによって受信された目的音源からの音響信号の複数の周波数帯域での複数の帯域限定パワー尺度を定義するパワー尺度ベクトルxi(n)は、次式によって定義され、
xi(n)=[|Xi(n,1)|2,|Xi(n,2)|2,・・・,|Xi(n,K)|2T (3)
式中、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォン101aによって受信された目的音源からの音響信号の強度を表し、Kは、周波数帯域の数を表す。一実施形態では、Xj(n,k)は、一般に、瞬間nにおける、周波数サブバンドkでの(例えば、短時間のフーリエ変換によって得られる)フィルタバンクの複素数値の出力とすることができる。
【0129】
一実施形態では、推定器103は、第1のマイクロフォン101aによって受信された目的音源からの音響信号の第1のパワー尺度と第2のマイクロフォン101b、101cによって受信された目的音源からの音響信号の第2のパワー尺度との間の差に基づいて各周波数帯域について複数の周波数帯域で目的音源が活動中である尤度を定義する複数の確率を決定するように構成されている。
【0130】
一実施形態では、推定器103は第1のパワー尺度siiを、次式によって定義される複数の確率を使用して推定するようにさらに構成されており、
【0131】
【数27】
【0132】
式中、Pi(n,k)は、目的音源が瞬間nにおいて周波数帯域kで第1のマイクロフォン101aにおいて活動中である確率を表し、Xi(n,k)は、瞬間nにおいて周波数帯域kで第1のマイクロフォン101aによって受信された目的音源からの音響信号の強度を表し、Xj(n,k)は、瞬間nにおいて周波数帯域kで第jのマイクロフォン101b、101cによって受信された目的音源からの音響信号の強度を表す。
【0133】
目的音源からの音響信号のスペクトルがほぼ交わらない、すなわち、各時間周波数スロットがほとんど単一の目的音源によって占められていると仮定すると、前に定義された確率Pi(n,k)が使用されて、所望の第iの目的音源のパワー尺度を、第1のパワー尺度siiを定義する上記の式4における競合する目的音源のパワー尺度から分離することができる。上記の式1における重み付けベクトルwが使用されて、ある周波数範囲を向上させることができる。
【0134】
前述したように、第iのマイクロフォン101aよりも第iの目的音源から遠くに位置する1つの遠いマイクロフォン101b、101cの推定パワー尺度を使用して、第2のパワー尺度
【0135】
【数28】
【0136】
が計算されることが可能である。したがって、既に前述したように、すべての目的音源まで十分な距離を有する専用の単一のマイクロフォンまたはマイクロフォン・アレイが利用可能であるならば、これらのマイクロフォンを使用して第2のパワー尺度
【0137】
【数29】
【0138】
が推定されることが可能である。
【0139】
一実施形態では、推定器103は、第2のパワー尺度を、第1のマイクロフォン101aによって受信された音響信号、第2のマイクロフォン101b、101cによって受信された音響信号、および複数のマイクロフォン101a〜101cのうちの少なくとも1つのさらなるマイクロフォン101b、101cによって受信された音響信号に基づいて推定するようにさらに構成されている。
【0140】
一実施形態では、推定器103は、第2のパワー尺度
【0141】
【数30】
【0142】
を、複数のマイクロフォン信頼性尺度にさらに基づいて推定するように構成されており、複数のマイクロフォン101a〜101cのうちの各マイクロフォン101a〜101cのマイクロフォン信頼性尺度は、マイクロフォン101a〜101cの目的音源までの距離と、目的音源からの音響信号の強度の、雑音および/または干渉信号の強度に対する比とに依存する。
【0143】
一実施形態では、第2のパワー尺度
【0144】
【数31】
【0145】
は、次式に基づいて推定器103によって決定されることが可能であり、
【0146】
【数32】
【0147】
式中、si:(n)は、次式によって定義される、第iの目的音源に対応するパワー尺度のベクトルを表し、
si:(n)=[si1(n),si2(n),・・・,siM(n)]T (6)
λi:(n)は、次式によって定義される、マイクロフォン信頼性尺度のベクトルを表し、
λi:(n)=[λi1(n),λi2(n),・・・,λiM(n)]T (7)
式中、λij(n)は、第iの目的音源に対する第jのマイクロフォン101a〜101cのマイクロフォン信頼性尺度を表し、Mは、マイクロフォン101a〜101cの総数を表す。
【0148】
一実施形態では、関数G{・}は、次式によって与えられ、
【0149】
【数33】
【0150】
式中、
【0151】
【数34】
【0152】
は、ベクトルqの重み付けが与えられた場合のベクトルvのエントリの第Rの重み付けされたパーセンタイルを表す。
【0153】
第iの目的音源に対する第jのマイクロフォン101a〜101cのマイクロフォン信頼性尺度λij(n)を使用することは、より信頼できるマイクロフォン101a〜101cに、より大きい重み付けを与えることを可能にする。例えば、パワー尺度
【0154】
【数35】
【0155】
の最も信頼できる推定は、第iの目的音源から遠く離れ、依然として合理的な信号対雑音干渉比を示すマイクロフォン101a〜101cから期待されることが可能である。すなわち、
sij(n)/sjj(n)<δ1またはsii(n)/sij(n)<δ2 (9)
ならば、マイクロフォン信頼性尺度λij(n)が低く、式中、δ1およびδ2は経験上の定数である。δ1について1に近い値が選択され、δ2について4と10の間の値が選択され得る。
【0156】
図8は、6つのマイクロフォン101a〜101fと、2つが活動中である6つの目的音源とを有するシナリオについてのマイクロフォン信頼性尺度λij(n)の例示的な分布を示す。図8において、暗い領域は低いスポット信頼性に対応し、一方、明るい領域は高いスポット信頼性に対応する。
【0157】
前述したように、一実施形態では、各マイクロフォン101a〜101cがそれぞれのマイクロフォンの近くに位置する活動中の信号目的音源に対応すると仮定して、1つ(または複数)の利得係数
【0158】
【数36】
【0159】
が推定される。しかし、第iのマイクロフォン101a〜101fにおける目的音源の信号が低いとき、対応する利得係数は平滑に適応するはずである。したがって、一実施形態では、音響信号処理装置100の推定器103は、ここでフレーム信頼性μi(n)と呼ばれる、目的音源が瞬間nの間に第1のマイクロフォン101a〜101fにおいて活動中である確率についての正規化された尺度で比を重み付けすることによって、第2のパワー尺度と第1のパワー尺度との間の比に基づいて利得係数を決定するようにさらに構成されている。
【0160】
一実施形態では、目的音源が瞬間nの間に第1のマイクロフォン101aにおいて活動中である確率は、複数の周波数帯域についての、目的音源が瞬間nの間に第1のマイクロフォン101aにおいて活動中である複数の確率に基づく。
【0161】
一実施形態では、推定器103は、次式に基づいて、フレーム信頼性μi(n)、すなわち、目的音源が瞬間nの間に第1のマイクロフォン101a〜101cにおいて活動中である確率についての正規化された尺度を決定するように構成されており、
【0162】
【数37】
【0163】
式中、wは、複数の周波数帯域での複数の重み付けを定義する重み付けベクトルを表し、pi(n)は、複数の周波数帯域についての、目的音源が瞬間nの間に第1のマイクロフォン101aにおいて活動中である複数の確率を定義する確率ベクトルを表す。一実施形態では、確率ベクトルpi(n)は、上記で説明された式(3)および式(4)によって定義される。
【0164】
重み付けベクトルwは、重要な周波数領域を向上させるように選択されることが可能であり、以下のように書かれることが可能であり、
w=[w(1),w(2),・・・,w(K)]T (11)
式中、異なる重み付けw(k)は0と1との間にあり、すなわち、0≦w(k)≦1である。
【0165】
一実施形態では、フレーム信頼性μi(n)は、図9に示されたように、音響信号処理装置100の推定器103の利得係数更新段103bにおいて使用される適応ステップサイズとしての役割を果たすことができる。利得係数更新段103bに加えて、図9に示された推定器は、利得係数推定段103aを含む。図9は、既に上述した推定器103の利得係数推定段103aおよび利得係数更新段103bの構成要素の概要としての役割を果たす。
【0166】
目的音源が休止中である場合、そのような目的音源に基づく利得係数の推定は誤りである可能性がある。したがって、一実施形態では、増幅器105は、フレーム信頼性μi(n)、すなわち、目的音源が瞬間nの間に第1のマイクロフォン101aにおいて活動中である確率についての正規化された尺度が既定の閾値より小さい場合、第1のマイクロフォン101aによって受信された目的音源からの音響信号に単位利得係数を適用するように構成されている。対応する実施形態を図10に示されている。
【0167】
図9に示された構成要素の他に、図10に示された音響処理装置100は、近接話者検出段107を含む。近接話者検出段107は、増幅器105の一部として実現されることが可能であり、フレーム信頼性μi(n)、すなわち、目的音源が瞬間nの間に第1のマイクロフォン101aにおいて活動中である確率についての正規化された尺度が既定の閾値より小さいかどうか検査するように構成されている。そうであるならば、増幅器105は、単一または休止中の利得108に切り替えられることが可能である。その機能を実行するために、近接話者検出段107は、ゲーティング関数107a、ローパスフィルタ107b、および/またはシュミットトリガ107cを含むことができる。
【0168】
図11は、一実施形態による音響信号処理装置100を図示する概略図を示す。音響信号処理装置100は、複数のマイクロフォン101a〜101fと、目的音源の音響信号をスペクトル分割するためのマルチチャネルフィルタバンク102と、推定器103と、増幅器105とを含む。推定器103および増幅器105は、前述の実施形態と同一または同様のやり方で構成されることが可能である。
【0169】
図12は、目的音源からの音響信号を向上させるための音響信号処理方法1200の概略図を示す。
【0170】
音響信号処理方法1200は、複数のマイクロフォン101a〜101cによって目的音源からの音響信号を受信するステップ1201と、複数のマイクロフォン101a〜101cのうちの第1のマイクロフォン101aによって受信された目的音源からの音響信号に基づく第1のパワー尺度と、第1のマイクロフォン101aよりも目的音源から遠くに位置する、複数のマイクロフォン101a〜101cのうちの少なくとも第2のマイクロフォン101b、101cによって受信された目的音源からの音響信号に基づく第2のパワー尺度とを推定するステップ1203と、第2のパワー尺度と第1のパワー尺度との間の比に基づいて利得係数を決定するステップ1205と、第1のマイクロフォン101aによって受信された目的音源からの音響信号に利得係数を適用するステップ1205と、を含む。
【0171】
この発明の実施形態は、様々な利点を実現する。音響信号処理装置100および音響信号処理方法1200は、意図的な信号変動を保持しながら、例えば、目的音源とマイクロフォンとの間の距離の変動に起因する意図的でない信号変動を等化する手段を提供する。
【0172】
この発明の実施形態は、例えば、異なる数の目的音源およびマイクロフォン、未知の数の目的音源、未知の目的音源位置、未知のマイクロフォン位置、または同期されていないマイクロフォンを有する、様々なシナリオにおいて適用されることが可能である。
【0173】
この発明の実施形態は、目的音源およびマイクロフォンの活動状態および/または位置に応じた効率的な利得係数推定および更新を可能にする。
【0174】
説明された発明は、例えば、複数マイクロフォン会議のシナリオ、同じ部屋に複数の話者がいる遠隔会議などにおいて実現されることが可能である。この発明は、音声信号の自然な(動的な)変化を保持しながら、話者位置の変動に起因する信号レベル変動を等化することを可能にする。
【0175】
この開示の特定の特徴または態様は、いくつかの実現または実施形態のうちのただ1つに関して開示されている場合もあるが、そのような特徴または態様は、所望され、かつ任意の所与の、または特定の用途のために効果的であり得る、その他の実現または実施形態の1つまたは複数の他の特徴または態様と組み合わされ得る。さらに、用語「含む(include)」、「有する(have)」、「有する(with)」、またはこれらの他の変形は、詳細な説明または特許請求の範囲において使用される範囲で、これらの用語は、用語「含む(comprise)」と同様に包含的であるように意図される。また、用語「例示的な(exemplary)」、「例えば(for example)」および「例えば(e. g.)」は、最善や最適ではなく、単に一例を意味するにすぎない。用語「結合された(coupled)」および「接続された(connected)」が、派生語と共に使用され得る。これらの用語は、2つの要素が、それらが直接物理的または電気的に接触しているか、またはそれらが相互に直接接触しているかに関係なく、相互に協働し、または相互作用することを指し示すために使用され得ることが理解されるべきである。
【0176】
ここでは特定の態様が図示され、説明されたが、様々な代替および/または等価な実現が、本開示の範囲から逸脱することなく、示され、説明された特定の態様に代用され得ることが、この技術分野の当業者によって理解されるであろう。この出願は、ここで論じられた特定の態様の任意の適応または変形を包含することが意図される。
【0177】
添付の特許請求の範囲の要素は、対応するラベルを付して特定の順序で記載されているが、請求項の記載がそれらの要素のいくつかまたは全てを実現するための特定の順序を慕ったふうに含意しない限り、それらの要素は必ずしもその特定の順序で実現されるように限定されることは意図されない。
【0178】
上記の教示に鑑みて、この技術分野の当業者には、多くの代替、修正、および変形が明らかであろう。もちろん、この技術分野の当業者は、ここに説明された用途を超えて、この発明の多くの用途があることを容易に認識する。本発明は1つまたは複数の特定の実施形態に関して説明されたが、この技術分野の当業者は、本発明の範囲から逸脱することなくそれらに多くの変更が行われ得ることを理解する。したがって、添付の特許請求の範囲およびその等価物の範囲内で、この発明はここに具体的に説明されているのとは違ったふうに実施され得ることが理解されるべきである。
【符号の説明】
【0179】
100 音響信号処理装置
101a 第1のマイクロフォン
101b 第2のマイクロフォン
101c 第2のマイクロフォン
101d 第2のマイクロフォン
102 マルチチャネルフィルタバンク
103 推定器
103a 利得係数推定段
103b 利得係数更新段
105 増幅器
107 近接話者検出段
107a ゲーティング関数
107b ローパスフィルタ
107c シュミットトリガ
108 休止中の利得
1200 音響信号処理方法
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12