特許6970422 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 地方独立行政法人東京都立産業技術研究センターの特許一覧

特許6970422音響信号処理装置、音響信号処理方法、及び、音響信号処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6970422

(24)【登録日】2021年11月2日

(45)【発行日】2021年11月24日

(54)【発明の名称】音響信号処理装置、音響信号処理方法、及び、音響信号処理プログラム

(51)【国際特許分類】

H04B 3/23 20060101AFI20211111BHJP

H04R 3/02 20060101ALI20211111BHJP

H04R 3/00 20060101ALI20211111BHJP

G10L 21/0232 20130101ALI20211111BHJP

G10L 15/20 20060101ALI20211111BHJP

H04M 1/60 20060101ALI20211111BHJP

【ＦＩ】

H04B3/23

H04R3/02

H04R3/00 320

G10L21/0232

G10L15/20 370F

H04M1/60 C

【請求項の数】7

【全頁数】18

(21)【出願番号】特願2017-108148(P2017-108148)

(22)【出願日】2017年5月31日

(65)【公開番号】特開2018-207221(P2018-207221A)

(43)【公開日】2018年12月27日

【審査請求日】2020年5月28日

(73)【特許権者】

【識別番号】506209422

【氏名又は名称】地方独立行政法人東京都立産業技術研究センター

(74)【代理人】

【識別番号】100200229

【弁理士】

【氏名又は名称】矢作徹夫

(72)【発明者】

【氏名】鈴木薫

(72)【発明者】

【氏名】武田有志

【審査官】鴨川学

(56)【参考文献】

【文献】特開２００８−２５９０３２（ＪＰ，Ａ）

【文献】特開２００５−０２０４２８（ＪＰ，Ａ）

【文献】特開２０１０−１３５９３６（ＪＰ，Ａ）

【文献】国際公開第２０１３／０５４４４８（ＷＯ，Ａ１）

【文献】特表２０１２−５１３６９９（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｂ３／２３

Ｈ０４Ｒ３／０２

Ｈ０４Ｒ３／００

Ｇ１０Ｌ２１／０２３２

Ｇ１０Ｌ１５／２０

Ｈ０４Ｍ１／６０

(57)【特許請求の範囲】

【請求項1】

スピーカから出力される前の音声信号を第１のスペクトルデータに変換する第１の変換部と、
マイクから入力された音声信号を第２のスペクトルデータに変換する第２の変換部と、
前記第１のスペクトルデータ及び前記第２のスペクトルデータに基づいて非エコー音声の有無を判定する非エコー音声有無判定部と、
前記第１のスペクトルデータ及び前記第２のスペクトルデータを入力し、エコーを消去するための適応フィルタを用いて誤差出力を計算するエコー消去部と、
を備え、
前記エコー消去部は、
前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くし、
前記非エコー音声有無判定部は、
前記第２のスペクトルデータのエコー成分を抑圧するエコー抑圧部と、前記エコー抑圧部の出力結果から時間領域の音声信号を生成する生成部と、前記時間領域の音声信号から前記非エコー音声の有無を判定する判定部と、を有する音響信号処理装置。

【請求項2】

前記判定部は、
前記生成部が生成した音声信号の波形データの振幅が所定の閾値以上のデータ数を計算し、
前記データ数が所定の閾値以上の場合に、前記非エコー音声が有ると判定する請求項１に記載の音響信号処理装置。

【請求項3】

前記適応フィルタの学習の強さを示す係数はステップサイズである請求項１に記載の音響信号処理装置。

【請求項4】

前記エコー消去部の後段に、残留エコー抑圧部をさらに備える請求項１に記載の音響信号処理装置。

【請求項5】

他のマイクから入力された環境雑音信号を第３のスペクトルデータに変換する第３の変換部と、
前記第３のスペクトルデータを抑圧する環境雑音抑圧部と、をさらに備える請求項１に記載の音響信号処理装置。

【請求項6】

スピーカから出力される前の音声信号を第１のスペクトルデータに変換する第１の変換ステップと、
マイクから入力された音声信号を第２のスペクトルデータに変換する第２の変換ステップと、
前記第１のスペクトルデータ及び前記第２のスペクトルデータに基づいて非エコー音声の有無を判定する非エコー音声有無判定ステップと、
前記第１のスペクトルデータ及び前記第２のスペクトルデータを入力し、エコーを消去するための適応フィルタを用いて誤差出力を計算するエコー消去ステップと、
を備え、
前記エコー消去ステップは、
前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くし、
前記非エコー音声有無判定ステップは、
前記第２のスペクトルデータのエコー成分を抑圧するエコー抑圧ステップと、前記エコー抑圧ステップの出力結果から時間領域の音声信号を生成する生成ステップと、前記時間領域の音声信号から前記非エコー音声の有無を判定する判定ステップと、を有する音響信号処理方法。

【請求項7】

スピーカから出力される前の音声信号を第１のスペクトルデータに変換する第１の変換ステップと、
マイクから入力された音声信号を第２のスペクトルデータに変換する第２の変換ステップと、
前記第１のスペクトルデータ及び前記第２のスペクトルデータに基づいて非エコー音声の有無を判定する非エコー音声有無判定ステップと、
前記第１のスペクトルデータ及び前記第２のスペクトルデータを入力し、エコーを消去するための適応フィルタを用いて誤差出力を計算するエコー消去ステップと、
をコンピュータに実行可能な音響信号処理プログラムであって、
前記エコー消去ステップは、
前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くし、
前記非エコー音声有無判定ステップは、
前記第２のスペクトルデータのエコー成分を抑圧するエコー抑圧ステップと、前記エコー抑圧ステップの出力結果から時間領域の音声信号を生成する生成ステップと、前記時間領域の音声信号から前記非エコー音声の有無を判定する判定ステップと、を有する音響信号処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音響的なエコーを除去する装置、方法及びプログラムに関する。
する。

【背景技術】

【0002】

利用者の音声をマイクロホンで受音し、かつ所定のシステム音声をスピーカから拡声出力する装置においては、スピーカから拡声出力されたシステム音声が空気などを伝播してマイクロホンに拾われる現象がしばしば発生する。このとき、マイクロホンに拾われるシステム音声由来の音はシステム音声のエコーと呼ばれる。

【0003】

例えば、利用者の音声を認識してサービスを提供するロボットでは、ロボットの発したシステム音声がエコーとなって自身のマイクロホンに拾われてしまい、利用者が発話していないにも関わらず、このエコーを利用者の音声であると誤ってロボットが認識し、何らかの応答を開始してしまう問題が発生する。

【0004】

したがって、このような誤応答が起こらないよう、マイクロホン入力に混入したシステム音声のエコーを除去する必要がある。このとき、スピーカから拡声出力されるロボットのシステム音声がどのような音声であるかは既知であるから、一般にエコー消去器と呼ばれる機能によってマイクロホン入力からシステム音声のエコーを消去することが可能である。

【0005】

エコー消去器は、学習同定法（ＮｏｒｍａｌｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅアルゴリズム）などを用いてシステム音声の伝播経路（以下、エコーパスと呼ぶ）の伝達関数を適応フィルタに学習させ、このフィルタ係数にシステム音声を掛けることでエコーを模擬した音声（以下、エコーレプリカと呼ぶ）を生成し、このエコーレプリカをマイクロホン入力から差し引くことによって、エコーを消去した出力音声（以下、誤差出力と呼ぶ）を生成する。このような適応フィルタの学習がうまく進めば、出力音声にはエコーを含まない音声が残るはずである。

【0006】

しかしながら、エコーとともに非エコー音声（利用者の音声や環境雑音など）がマイクロホンから入力されている状況（非エコー音声有りの状態）では適応フィルタの学習がうまく進まず、エコーの消え残りや利用者音声の歪みをもたらすことがある。これを回避するために、非エコー音声有りの状態を検出する検出器を設け、非エコー音声有りの状態が検出されると適応フィルタの学習を止めたり遅らせたりする制御を加える。

【0007】

特許文献１には、拡声出力された音声とエコーレプリカとマイクロホン入力のレベルや相関から通話状態（非エコー音声の有無など）を判定する通話判定装置が開示されている。この通話判定装置では、通話を行うそれぞれの局で独立して通話状態を判定すると誤る可能性があるため、両局でそれぞれ行った判定結果を突き合わせて通話状態を判定する必要がある。

【0008】

また、特許文献２では、信号適応処理装置及びエコー抑圧装置における、学習同定法などによる適応フィルタの学習に際して、エコー消去後の出力音声パワーに従って適応フィルタの学習をＯＮ／ＯＦＦ制御する技術が開示されている。この技術は、マイクロホン入力からエコー成分を消去した後の音声レベルが所定閾値を超えるなら、マイクロホン入力にはエコー以外の音声が含まれているとして非エコー音声有りの状態を検出するものである。

【0009】

この技術の場合、エコー消去後の出力音声に依存して適応フィルタの学習がＯＮ／ＯＦＦされるため、適応フィルタの正しい学習がある程度進んだ段階では正しいＯＮ／ＯＦＦ制御が可能である。

【0010】

しかしながら、フィルタが十分に適応していない学習の初期段階では、このＯＮ／ＯＦＦ制御に誤りが生じ、その結果として誤ったフィルタが学習されるなど、学習が遅くなる可能性がある。これは非エコー音声検出と適応フィルタ学習が鶏と卵のように相互に依存し合っているためである。

【先行技術文献】

【特許文献】

【0011】

【特許文献1】特開２００８−０６０９３８号公報

【特許文献2】特開平０８−０６５２１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0012】

本発明は、このような課題に着目して鋭意研究され完成されたものであり、その目的は、非エコー音声検出と適応フィルタ学習の相互依存性を排除しつつ、エコーを含まない（あるいはエコーを弱められた）音声に基づいて、マイク入力にエコー以外の音声（利用者の音声等）が含まれているか否かを速やかに正しく判定することにある。

【課題を解決するための手段】

【0013】

上記課題を解決するために、本発明は、スピーカから出力される前の音声信号を第１のスペクトルデータに変換する第１の変換部と、マイクから入力された音声信号を第２のスペクトルデータに変換する第２の変換部と、前記第１のスペクトルデータ及び前記第２のスペクトルデータに基づいて非エコー音声の有無を判定する判定部と、前記第１のスペクトルデータ及び前記第２のスペクトルデータを入力し、適応フィルタを用いてエコーを消去するエコー消去部と、を備え、前記エコー消去部は、前記非エコー音声が有る場合、前記適応フィルタの学習の強さを示す係数を、前記非エコー音声が無い場合に比べ、低くする音響信号処理装置である。

【発明の効果】

【0014】

本発明によれば、マイク入力にエコー以外の音声（利用者の音声等）が含まれているか否かを速やかに正しく判定することができる。

【図面の簡単な説明】

【0015】

【図1】本発明の実施例１に係る音響信号処理装置の機能ブロック図である。

【図2】本発明の実施例１に係るエコー消去部６の機能ブロック図である。

【図3】本発明の実施例１に係る非エコー音声有無判定部９の機能ブロック図である。

【図4】本発明の実施例１に係る音響信号処理装置の処理の流れを示すフローチャートである。

【図5】本発明の実施例１に係る音響信号処理装置のハードウェア構成図である。

【図6】本発明の実施例１に係る音響信号処理装置による処理の結果を示す図である。

【図7】本発明の実施例２に係る音響信号処理装置の機能ブロック図である。

【図8】本発明の実施例２に係る音響信号処理装置の処理の流れを示すフローチャートである。

【図9】本発明の実施例２に係る音響信号処理装置による処理の結果を示す図である。

【発明を実施するための形態】

【0016】

図面を参照しながら本発明の実施の形態を説明する。なお、各図において共通する部分には同一の符号を付し、重複した説明は省略する。

【実施例1】

【0017】

図１は、本発明の実施例１に係る音響信号処理装置の機能ブロック図である。この実施例では、利用者の音声を認識してサービスを提供するロボットに適用される音響信号処理装置について説明する。ここでの、システム音声とは、ロボットが発した音声をいう。

【0018】

（構成）
スピーカ１は、システム音声の信号ｘ（ｔ）を拡声出力する。マイク２は、利用者の音声などを音声信号ｍ（ｔ）として入力するためのマイクロホンである。エコー３は、スピーカ１から拡声出力されたシステム音声のエコーを示す。

【0019】

エコーの伝搬経路Ｈは、システム音声のエコー３がマイク２に届く伝搬経路（エコーパス）を示す。ここで、ｔは音声信号のサンプリング周期における時刻を表すインデックスである。

【0020】

第１の周波数分解部４は、システム音声の時間領域の音声信号ｘ（ｔ）をＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）処理によって、周波数領域のスペクトルデータｘ（ω,ｆ）に変換する。すなわち、周波数分解部４は、スピーカ１から出力される前の音声信号x(t)を第１のスペクトルデータｘ（ω,ｆ）に変換する第１の変換部といえる。

【0021】

ここで、ωはＦＦＴ出力の周波数ビン番号を表すインデックスである。ＦＦＴ処理では、所定サンプル数（フレーム長ＦＬ）の解析窓を所定サンプル数（フレームシフト量ＦＳ）ずつずらしながら、解析窓内の時間領域信号を周波数領域のスペクトルデータに変換する。これがＦＦＴの処理単位（フレーム）である。ｆはＦＦＴの処理単位で数えた時刻（フレーム番号）を表すインデックスである。時刻ｆに複素数として得られた第１のスペクトルデータｘ（ω,ｆ）は実部のスカラ値と虚部のスカラ値から成る２次元のベクトルデータである。そのベクトルの長さと向きがωで表される周波数成分の振幅と位相を表している。

【0022】

同様に、マイク２から入力された音声信号ｍ（ｔ）も、第２の周波数分解部５によって周波数領域のスペクトルデータｍ（ω,ｆ）に変換される。すなわち、周波数分解部５は、マイク２から入力された音声信号ｍ（ｔ）を第２のスペクトルデータｍ（ω,ｆ）に変換する第２の変換部といえる。

【0023】

図２は、本発明の実施例１に係るエコー消去部６の機能ブロック図である。エコー消去部６は、適応フィルタ１１と減算器１２とからなり、マイク入力である第２のスペクトルデータｍ（ω,ｆ）と、システム音声である第１のスペクトルデータｘ（ω,ｆ）とを入力とし、誤差出力ｅ（ω,ｆ）を式（１）から計算することによって、第２のスペクトルデータｍ（ω,ｆ）からエコー成分を消去する機能ブロックである。ここで、ｙ（ω,ｆ）はエコーレプリカであり、第１のスペクトルデータｘ（ω,ｆ）にフィルタ係数ｗ（ω,ｆ）を掛けることで計算される。

【数1】

【0024】

式（１）のフィルタ係数ｗ（ω,ｆ）は、式（２）に示す学習同定法（ＮｏｒｍａｌｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅｓアルゴリズム）によりエコーパスＨの伝達特性を学習する。ここで、＊（アスタリスク）は複素共役を表し、μは学習速度を制御するステップサイズである。

【数2】

【0025】

学習同定法（ＮＬＭＳアルゴリズム）は平均二乗誤差最小化規範の確率勾配アルゴリズムであるため、これを用いたフィルタ係数ｗ（ω,ｆ）の学習は、常に誤差出力ｅ（ω,ｆ）に含まれる第１のスペクトルデータｘ（ω,ｆ）と相関のある成分のパワーを最小化するフィルタ係数ｗ（ω,ｆ）を求めるように進行する。そのため、第２のスペクトルデータｍ（ω,ｆ）が利用者音声などのエコー以外の成分を含んでいると、その利用者音声の一部（第１のスペクトルデータｘ（ω,ｆ）に含まれる周波数成分）までも消し去るようにフィルタを学習させてしまう。

【0026】

しかしながら、このようにして学習される適応フィルタ１１は決して正しい値ではないため、エコーの消え残りや利用者音声の歪みの原因となる。それゆえ、第２のスペクトルデータｍ（ω,ｆ）がエコー以外の音声を含んでいる状況（非エコー音声有り状態）を検出して適応フィルタ１１の学習を止めたり弱めたりする制御が必要になる。

【0027】

これを実現するため、エコー消去部６は、ステップサイズμの値を後述するＤＴ（ｆ）が０（非エコー音声無し状態）か１（非エコー音声有り状態）かに応じて制御する。すなわち、μは非エコー音声有り状態には非エコー音声無し状態よりも減じられ、その結果、適応フィルタ１１の学習の強さ（学習速度とも言う）はこの間低く抑えられる。つまり、ステップサイズμは、適応フィルタ１１の学習の強さを示す係数である。

【0028】

非エコー音声有無判定部９は、エコー消去部６が適応フィルタ１１の学習を止めたり弱めたりする制御を行うために、マイク入力にエコー以外の音声（利用者の音声等）が含まれているか否かを判定する機能ブロックである。詳細については後述するが、この判定をより速やかに正しく行うことで、エコー消去部６の性能が向上するという効果を有する。

【0029】

しかしながら、このようなエコー消去部６を用いても、残留エコーが残る場合がある。残留エコーは、例えばエコー消去後の音声を認識する場合に、その精度に悪影響を及ぼす可能性がある。そこで、本実施例では、エコー消去部６の後段に残留エコー抑圧部７を設けることにする。ただし、残留エコーの影響は音声認識処理などの後段処理の要求によって変わるため、残留エコー抑圧部７は本実施例に必須の構成ではない点に留意していただきたい。

【0030】

図１に示す残留エコー抑圧部７は、誤差出力ｅ（ω,ｆ）と第１のスペクトルデータｘ（ω,ｆ）を入力とし、式（３）に従って誤差出力ｅ（ω,ｆ）に残留するエコー成分を抑圧した音声ｏ２（ω,ｆ）を生成する。

【数3】

【0031】

式（４）に示すように、ｏ１（ω,ｆ）はｅ（ω,ｆ）の振幅をＧ倍した音声である。このＧは誤差出力ｅ（ω,ｆ）に含まれる残留エコーの大きさの比率を近似した係数である。Ｇの数値は実験的に求めておく。また、ＤＳ（ω,ｆ）は抑圧係数の瞬時値であり、ｇａｉｎ（ω,ｆ）は忘却係数により近似的に計算されるＤＳ（ω,ｆ）の移動平均値である。また、ｇｓは抑圧の強さを与えるための係数である。

【数4】

【0032】

図１に示す波形生成部８は、残留エコー抑圧部７による音声ｏ２（ω,ｆ）を逆ＦＦＴ処理することで時間領域の波形信号Ｏ（ｔ）を生成する。このＯ（ｔ）が本実施例での最終的な出力音声信号である。

【0033】

次に、図１に示す非エコー音声有無判定部９について説明する。図３は、本発明の実施例１に係る非エコー音声有無判定部９の機能ブロック図である。非エコー音声有無判定部９は、エコー抑圧部２１と、波形生成部２２と、判定部２３とを備える。

【0034】

エコー抑圧部２１は、第２のスペクトルデータｍ（ω,ｆ）と第１のスペクトルデータｘ（ω,ｆ）を入力とし、式（５）に従って第２のスペクトルデータｍ（ω,ｆ）に含まれるエコー成分を抑圧した音声ｓ（ω,ｆ）を求める。

【数5】

【0035】

ここで、式（５）のｇａｉｎ（ω,ｆ）は下記の式（６）で計算される抑圧係数である。

【数6】

【0036】

式（６）のＭＲ（ω,ｆ）はスピーカ１からマイク２までの利得の移動平均値を表し、ＥＬ（ω,ｆ）はＭＲ（ω,ｆ）から推定したエコーの大きさである。ＮＬ（ω,ｆ）はＥＬ（ω,ｆ）から計算した現在の非エコー音声の大きさであり、ｇｓは抑圧の強さを与えるための係数である。ＦＬ（ω,ｆ）はＮＬ（ω,ｆ）の下限値を与える量であり、第２のスペクトルデータｍ（ω,ｆ）から決定される。以上の結果、現在の非エコー音声の大きさとしてＮＬ（ω,ｆ）をＦＬ（ω,ｆ）でフロアリングしたＸＸ（ω,ｆ）が算出される。そして、ｇａｉｎ（ω,ｆ）が第２のスペクトルデータｍ（ω,ｆ）に対する非エコー音声の大きさＸＸ（ω,ｆ）の比として計算される。

【0037】

式（５）により計算されたｓ（ω,ｆ）は次段の波形生成部２２により時間領域の音声信号ｓ（ｔ）に変換される。

【0038】

続く判定部２３では、式（７）に示すように、最新のフレームシフト量分のｓ（ｔ）の中で振幅絶対値|ｓ（ｔ）|が閾値ｔｈ２以上となるサンプルの個数Ｓが計算される。この計算結果Ｓが閾値ｔｈ１以上となったとき、当該フレームｆは非エコー音声有り状態であると判断され、ＤＴ（ｆ）＝１が出力される。また、それ以外の場合には、非エコー音声無し状態であるとして、ＤＴ（ｆ）＝０が出力される。

【数7】

【0039】

このように、第２のスペクトルデータｍ（ω,ｆ）にエコー抑圧処理を掛けることで、ｓ（ω,ｆ）に含まれるエコーを適応フィルタ１１で除去するよりも速く抑圧することができる。

【0040】

また、ｓ（ω,ｆ）を一度時間領域の波形ｓ（ｔ）に変換し、その波形中で閾値ｔｈ２以上となる振幅値を数えて閾値処理することによって、振幅が大きくても長続きしない抑圧初期のエコーや突発的なエコー以外の雑音に対して頑健にすることができる。

【0041】

このように、非エコー音声有無判定部９内のエコー抑圧部２１がエコーを速く抑圧できるのは、式（５）のｇａｉｎ（ω,ｆ）が速やかに求められることによる。ｇａｉｎ（ω,ｆ）は実数であるから、エコー抑圧部２１は第２のスペクトルデータｍ（ω,ｆ）の位相を変えずに振幅だけを変える。これは精度的に十分ではないが、非エコー音声の有無を振幅に基づいて判定するには十分である。要するに、エコー抑圧部２１は、精度よりも速さに重点を置いて第２のスペクトルデータｍ（ω,ｆ）に含まれるエコーを抑圧する。これに対し、エコー消去部６は精度に重点を置いて第２のスペクトルデータｍ（ω,ｆ）に含まれるエコーを消去する手段である。式（１）のｙ（ω,ｆ）も、ｗ（ω,ｆ）も複素数であるから、エコー消去部６は第２のスペクトルデータｍ（ω,ｆ）の振幅と位相を制御して高精度のエコー消去を行う。しかしながら、エコーの消えるｗ（ω,ｆ）が求まるまでには式（２）の計算を数多く繰り返さなければならないので時間を要する。

【0042】

図４は、本発明の実施例１に係る音響信号処理装置の処理の流れを示すフローチャートである。本実施例の音響信号処理装置を起動すると、まず初期化処理ステップＳ１が実行される。この処理で時刻インデックスtとフレーム番号fが０に初期化される。

【0043】

続くＦＳサンプル入力処理ステップＳ２では、ｍ（ｔ）、ｘ（ｔ）の各音声信号がフレームシフト量ＦＳサンプル分だけ入力される。

【0044】

次にＦＬサンプル蓄積判定処理ステップＳ３では、これまでに入力されたｍ（ｔ）、ｘ（ｔ）の各音声信号のサンプル数がＦＦＴ解析窓の長さであるフレーム長ＦＬ以上か否かを判定する。もし、これまでに入力されたｍ（ｔ）、ｘ（ｔ）の各音声信号のサンプル数がフレーム長ＦＬに満たない場合は以降のＦＦＴ処理を行えないので、図中左（Ｎｏ）に分岐してダミー出力生成処理ステップＳ９を実行する。一方、そうでない場合は図中下（Ｙｅｓ）に分岐して周波数分解処理ステップＳ４を実行する。

【0045】

ダミー出力生成処理ステップＳ９では、例えば出力音声信号Ｏ（ｔ）＝ｍ（ｔ）として、マイク入力信号をそのまま出力するか、または無音を出力する。

【0046】

周波数分解処理ステップＳ４は第１の周波数分解部４と第２の周波数分解部５に対応した処理ステップであり、入力されたｘ（ｔ）、ｍ（ｔ）の各音声信号を第１のスペクトルデータｘ（ω,ｆ）、第２のスペクトルデータｍ（ω,ｆ）に変換する。

【0047】

非エコー音声検出処理ステップＳ５は、非エコー音声有無判定部９に対応した処理ステップであり、式（５）、式（６）、及び、式（７）の計算により、第２のスペクトルデータｍ（ω,ｆ）と第１のスペクトルデータｘ（ω,ｆ）からＤＴ（ｆ）の値を決定する。

【0048】

エコー消去処理ステップＳ６はエコー消去部６に対応した処理ステップであり、式（１）及び式（２）の計算により、ｅ（ω,ｆ）を計算するとともに、ＤＴ（ｆ）に基づくステップサイズμの制御によりフィルタ係数ｗ（ω,ｆ）を更新する。

【0049】

残留エコー抑圧処理ステップＳ７は、残留エコー抑圧部７に対応した処理ステップであり、式（３）及び式（４）の計算により、ｅ（ω,ｆ）から残留エコーを抑圧した音声ｏ２（ω,ｆ）を計算する。

【0050】

出力生成処理ステップＳ８は、波形生成部８に対応した処理ステップであり、ｏ２（ω,ｆ）から逆ＦＦＴ処理により出力音声信号Ｏ（ｔ）を計算する。なお、ダミー出力生成処理ステップＳ９と出力生成処理ステップＳ８を実行すると、処理はＦＳサンプル入力処理ステップＳ２に戻る。その際、時刻インデックスｔはＦＳだけ増加され、フレーム番号ｆは１だけ増加される。

【0051】

図５は、本発明の実施例１に係る音響信号処理装置のハードウェア構成図である。本実施例は、図１から図３の機能ブロックによって示される音響信号処理装置や、図４のフローチャートによって示される音響信号処理方法に限定されない。例えば、コンピュータを図１の音響信号処理装置として機能させたり、図４の音響信号処理方法の処理手順を実行させるプログラムとして実施したりすることも可能である。

【0052】

具体的には、本実施例は図５に示すようにコンピュータを使って実施することが可能である。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０３には、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０４、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０５、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０６、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）１０７、マウス／キーボード１０８及びディスプレイ１０９が接続される。これらはコンピュータを構成する一般的な要素である。

【0053】

その他ストレージ１１０は、外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類、具体的には光学ディスクドライブ、磁気ディスクドライブ、ＣＦ（ＣｏｍｐａｃｔＦｌａｓｈ）／ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）カードスロットやＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどである。

【0054】

マイクロホン１０１及びスピーカ１１２は、図１に示したマイク２及びスピーカ１に対応している。また、マイクロホン１１３は、後述の実施例２で説明する雑音入力用のマイクに対応している。

【0055】

マイクロホン１０１及びマイクロホン１１３によって音波が電気的な信号に変換され、Ａ／Ｄ変換器１０２及びＡ／Ｄ変換器１１４によってデジタルデータに変換される。Ａ／Ｄ変換器１０２及びＡ／Ｄ変換器１１４からのデジタルデータは、プログラム命令を実行する過程でＣＰＵ１０３によって処理される。

【0056】

図５に示すコンピュータ装置では、図４に示した処理ステップを実行する音響信号処理プログラムをＨＤＤ１０６に記憶し、これをＲＡＭ１０４に読み出してＣＰＵ１０３で実行する。その際、利用者音声を含む音声信号ｍ（ｔ）の入力にマイクロホン１０１とＡ／Ｄ変換器１０２を使い、システム音声ｘ（ｔ）の拡声出力にＤ／Ａ変換器１１１とスピーカ１１２を使い、さらに、後述の実施例２で説明する雑音信号ｎ（ｔ）の入力にマイクロホン１１３とＡ／Ｄ変換器１１４を使う。そして、これらｍ（ｔ）とｘ（ｔ）、あるいはｍ（ｔ）とｘ（ｔ）とｎ（ｔ）をＣＰＵ１０３で処理することで出力音声Ｏ（ｔ）を生成して出力する。

【0057】

この結果、図５に示すコンピュータ装置は本実施例に係る音響信号処理装置として機能する。また、このコンピュータ装置は、その他ストレージ１１０に挿入される記録媒体やＬＡＮ１０７を介して接続される他の装置から音響信号処理プログラムの供給を受けるようにすることが可能である。

【0058】

なお、このコンピュータ装置は、マウス／キーボード１０８やディスプレイ１０９を介して、利用者の操作入力を受け付けたり、利用者への情報呈示を行ったりすることも可能である。また、このコンピュータ装置が、音響信号処理装置だけでなく、利用者の音声を認識してサービスを提供するロボットにも適用される場合、マウス／キーボード１０８など、サービス提供時に不要な要素はコンピュータ装置から取り外し可能である。

【0059】

図６は、本発明の実施例１に係る音響信号処理装置による処理の結果を示す図である。図中（ａ）のマイク入力信号ｍ（ｔ）は、第２の周波数分解部５により第２のスペクトルデータｍ（ω,ｆ）に変換される。

【0060】

このマイク入力信号ｍ（ｔ）には利用者音声とシステム音声エコーとが混ざりこんでいる。システム音声ｘ（ｔ）も第１の周波数分解部４により第１のスペクトルデータｘ（ω,ｆ）に変換される。ＦＦＴ及び逆ＦＦＴにはＣｏｏｌｅｙ−ＴｕｋｅｙＤＦＴＡｌｇｏｒｉｔｈｍを使い、フレーム長ＦＬを５１２サンプル、フレームシフト量ＦＳを１６０サンプル、窓掛けにハニング窓を使用して、ＦＦＴ及び逆ＦＦＴ実行している。

【0061】

図中（ｂ）は出力音声信号Ｏ（ｔ）である。エコー消去部６と残留エコー抑圧部７を経て得られた出力ｏ２（ω,ｆ）は、波形生成部８により時間領域信号Ｏ（ｔ）となって出力される。これが本実施例の音響信号処理装置の出力音声である。

【0062】

出力音声Ｏ（ｔ）には利用者音声のみが強く残る。このとき、図中（ｃ）に示す非エコー音声有無判定部９の出力ＤＴ（ｆ）のグラフも利用者音声の存在する期間で立ち上がっている。

【0063】

図中（ｄ）に示すｍ（ｔ）／Ｏ（ｔ）はＥＲＬＥ（ＥｃｈｏＲｅｔｕｒｎＬｏｓｓＥｎｈａｎｃｅｍｅｎｔ）と呼ばれる評価量を表している。ＥＲＬＥは下記の式（８）で定義される量であり、入力パワーに対して出力パワーがどれくらい小さくなったかをｄＢ値で表し、値が大きいほど消去性能が高いことを表す。式中のＥ［＊］はｎサンプル毎に平均値を計算することを表す。

【数8】

【0064】

エコー消去性能を求めたい場合、ＥＲＬＥはシステム音声エコーだけが存在する期間で計算されなければならない。そこで、そのような期間をグラフより３か所選抜して図中のＲ１、Ｒ２、Ｒ３とする。これらの期間は全てシステム音声エコーだけが存在する期間である。よって、ＤＴ（ｆ）は立ち上がっていない（非エコー音声無し状態を示す）のが正解であり、図中（ｃ）からその通りになっていることがわかる。学習の初期（Ｒ１）、中期（Ｒ２）、終期（Ｒ３）のそれぞれでＥＲＬＥの平均値を拾い出すと、６７．７ｄＢ、８５．９ｄＢ、１０２．６ｄＢと高い値であることがわかる。

【0065】

（効果）
本実施例によれば、非エコー音声有無判定部９は第２のスペクトルデータｍ（ω,ｆ）がエコー以外の音声を含んでいる状況（非エコー音声有り状態）を検出して適応フィルタ１１の学習を止めたり弱めたりする制御を行うため、マイク入力にエコー以外の音声（利用者の音声等）が含まれているか否かを速やかに正しく判定することができるという効果を有する。

【0066】

非エコー音声有無判定部９内のエコー抑圧部２１が、エコー消去部６よりも速くエコー抑圧量を上げられるエコー抑圧処理を実行することによって、適応フィルタ１１をその学習初期から速く正しく学習させることができるという高速化、高精度化の効果を有する。これは、特に移動することでエコーの状態が頻繁に変わる移動ロボットに好適である。

【0067】

また、本実施例を利用者と音声で対話するシステムに適用した場合、システムが自分の声を誤って認識してしまうことがなくなるので、無駄な音声認識処理を減らすことができるという省ＣＰＵ化、クラウドサーバ上の音声認識を使う場合には通信量削減の効果を有する。

【0068】

また、声の小さな利用者のためにマイク感度を上げるなど、システムのスピーカ音量とマイク感度の許容範囲を広げることができるというシステム運用条件拡大の効果を有する。

【0069】

さらに、利用者とシステムが同時にしゃべっても、利用者の声だけを取り出して認識できるので、利用者が自由なタイミングでシステムに話しかけることができるというシステム使用感向上の効果を有する。

【実施例2】

【0070】

実施例２では、環境雑音に対応した音響信号処理装置について説明する。図７は、本発明の実施例２に係る音響信号処理装置の機能ブロック図である。図中の符号１〜９は実施例１と同じ機能ブロックであるため、説明を省略する。実施例２は、実施例１に機能ブロック３１、３２、３３、３４を加えた構成となっている。以下、これら追加された機能ブロックを中心に説明する。

【0071】

マイク３１は、マイク２と比べて、スピーカ１並びに利用者からより遠い位置に配置されたマイクロホンである。この配置は、マイク３１にシステム音声や利用者音声が微弱にしか受音されないように配慮したものである。この結果、マイク３１には専ら周囲の環境雑音が受音され雑音信号ｎ（ｔ）として入力される。雑音信号ｎ（ｔ）は第３の周波数分解部３２によって周波数領域データｎ（ω,ｆ）に変換される。すなわち、第３の周波数分解部３２は、雑音信号ｎ（ｔ）を第３のスペクトルデータｎ（ω,ｆ）に変換する第３の変換部といえる。

【0072】

一方、環境雑音は電車の音など比較的遠距離から到来するので、マイク２の入力信号ｍ（ｔ）にもマイク３１と同程度のレベルで混入する。このｍ（ｔ）に混入した環境雑音はシステム音声ｘ（ｔ）と相関がないので、エコー消去部６と残留エコー抑圧部７の処理によっても消し去ることができない。

【0073】

図７の３３は、この環境雑音を抑圧するための環境雑音抑圧部である。環境雑音抑圧部３３は、残留エコー抑圧部７の出力ｏ２（ω,ｆ）と雑音データである第３のスペクトルデータｎ（ω,ｆ）を入力とし、式（９）に従ってｏ２（ω,ｆ）に含まれる雑音成分を抑圧した音声ｏ３（ω,ｆ）を計算する。

【数9】

【0074】

ここで、式（９）のｇａｉｎ（ω,ｆ）は下記の式（１０）で計算される抑圧係数である。これは式（６）からフロアリング処理をなくした計算である。

【数10】

【0075】

図７の３４は微小周波数成分抑圧部である。微小周波数成分抑圧部３４は、環境雑音抑圧部３３の出力ｏ３（ω,ｆ）を入力とし、式（１１）に従ってｏ３（ω,ｆ）に含まれる所定閾値未満の振幅を持つ微小な周波数成分を抑圧した音声ｏ４（ω,ｆ）を計算する。

【数11】

【0076】

ここで、式（１１）のｇａｉｎ（ω,ｆ）は下記の式（１２）で計算される抑圧係数である。なお、式中の０．０１は抑圧効果を与える１．０より小さい非負の値であり、例えば０．０や０．０２などの他の数値でも良い。

【数12】

【0077】

本実施例の音声信号処理装置では、波形生成部８は、微小周波数成分抑圧部３４の出力音声ｏ４（ω,ｆ）を逆ＦＦＴ処理することで時間領域の出力信号Ｏ（ｔ）を生成する。このＯ（ｔ）が本実施例の音声信号処理装置の出力音声信号である。

【0078】

図８は、本発明の実施例２に係る音響信号処理装置の処理の流れを示すフローチャートである。本実施例の音響信号処理装置を起動すると、まず初期化処理ステップＳ２１が実行される。この処理で時刻インデックスtとフレーム番号fが０に初期化される。

【0079】

続くＦＳサンプル入力処理ステップＳ２２では、ｍ（ｔ）、ｘ（ｔ）、ｎ（ｔ）の各音声信号がフレームシフト量ＦＳサンプル分だけ入力される。

【0080】

次にＦＬサンプル蓄積判定処理ステップＳ２３では、これまでに入力されたｍ（ｔ）、ｘ（ｔ）、ｎ（ｔ）の各音声信号のサンプル数がＦＦＴ解析窓の長さであるフレーム長ＦＬ以上か否かを判定する。もし、これまでに入力されたｍ（ｔ）、Ｘ（ｔ）、ｎ（ｔ）の各音声信号のサンプル数がフレーム長ＦＬに満たない場合は以降のＦＦＴ処理を行えないので、図中左（Ｎｏ）に分岐してダミー出力生成処理ステップＳ２９を実行する。一方、そうでない場合は図中下（Ｙｅｓ）に分岐して周波数分解処理ステップＳ２４を実行する。

【0081】

ダミー出力生成処理ステップＳ２９では、例えば出力音声信号Ｏ（ｔ）＝ｍ（ｔ）として、マイクロホン入力信号をそのまま出力するか、あるいは無音を出力する。

【0082】

周波数分解処理ステップＳ２４は第１の周波数分解部４、第２の周波数分解部５、第３の周波数分解部３２に対応した処理ステップであり、入力されたｘ（ｔ）、ｍ（ｔ）、ｎ（ｔ）の各音声信号を第１のスペクトルデータｘ（ω,ｆ）、第２のスペクトルデータｍ（ω,ｆ）、第３のスペクトルデータｎ（ω,ｆ）に変換する。

【0083】

非エコー音声検出処理ステップＳ２５は非エコー音声有無判定部９に対応した処理ステップであり、式（５）、式（６）、及び、式（７）の計算により第２のスペクトルデータｍ（ω,ｆ）と第１のスペクトルデータｘ（ω,ｆ）からＤＴ（ｆ）の値を決定する。

【0084】

エコー消去処理ステップＳ２６はエコー消去部６に対応した処理ステップであり、式（１）及び式（２）の計算によりｅ（ω,ｆ）を計算するとともに、ＤＴ（ｆ）に基づくステップサイズμの制御によりフィルタ係数ｗ（ω,ｆ）を更新する。

【0085】

残留エコー抑圧処理ステップＳ２７は残留エコー抑圧部７に対応した処理ステップであり、式（３）及び式（４）の計算により、ｅ（ω,ｆ）から残留エコーを抑圧した音声ｏ２（ω,ｆ）を計算する。

【0086】

環境雑音抑圧処理ステップＳ３０は環境雑音抑圧部３３に対応した処理ステップであり、式（９）及び式（１０）の計算により、ｏ２（ω,ｆ）から雑音成分を抑圧した音声ｏ３（ω,ｆ）を計算する。

【0087】

微小周波数成分抑圧処理ステップＳ３１は、微小周波数成分抑圧部３４に対応した処理ステップであり、式（１１）及び式（１２）の計算により、ｏ３（ω,ｆ）から微小な周波数成分を抑圧した音声ｏ４（ω,ｆ）を計算する。

【0088】

出力生成処理ステップＳ２８は、波形生成部８に対応した処理ステップであり、ｏ４（ω,ｆ）から逆ＦＦＴ処理により出力音声信号Ｏ（ｔ）を計算する。

【0089】

なお、ダミー出力生成処理ステップＳ２９と出力生成処理ステップＳ２８を実行すると、処理はＦＳサンプル入力処理ステップＳ２２に戻る。その際、時刻インデックスｔはＦＳだけ増加され、フレーム番号ｆは１だけ増加される。

【0090】

実施例２に係る音響信号処理装置のハードウェア構成については、図５で説明した実施例１のハードウェア構成と同様であるため、省略する。

【0091】

図９は、本発明の実施例２に係る音響信号処理装置による処理の結果を示す図である。図中（ａ）のマイク入力信号ｍ（ｔ）は、第２の周波数分解部５により第２のスペクトルデータｍ（ω,ｆ）に変換される。この音声には利用者音声とシステム音声エコーと環境雑音とが混ざりこんでいる。システム音声ｘ（ｔ）も第１の周波数分解部４により第１のスペクトルデータｘ（ω,ｆ）に変換される。また、環境雑音ｎ（ｔ）も第３の周波数分解部３２により第３のスペクトルデータｎ（ω,ｆ）に変換される。実施例２でも、実施例１と同様、Ｃｏｏｌｅｙ−ＴｕｋｅｙＤＦＴＡｌｇｏｒｉｔｈｍを使い、フレーム長ＦＬを５１２サンプル、フレームシフト量ＦＳを１６０サンプル、窓掛けにハニング窓を使用して、ＦＦＴ及び逆ＦＦＴを実行している。

【0092】

図中（ｂ）は出力音声信号Ｏ（ｔ）である。エコー消去部６、残留エコー抑圧部７、環境雑音抑圧部３３、微小周波数成分抑圧部３４を経て得られた出力音声ｏ４（ω,ｆ）は波形生成部８により時間領域信号Ｏ（ｔ）に変換される。これが本実施例の出力音声である。出力音声Ｏ（ｔ）には利用者音声のみが強く残る。このとき、図中（ｃ）に示す非エコー音声有無判定部９の出力ＤＴ（ｆ）のグラフは環境雑音のため全域で非エコー音声有り状態を示しているが、これは正しい応答である。

【0093】

図中（ｄ）に示すｍ（ｔ）／Ｏ（ｔ）はＥＲＬＥの値の推移を示している。ただし、ＥＲＬＥはシステム音声エコーのみが存在する期間で計算すべきであるが、今回は利用者音声がなく、システム音声エコーと環境雑音を合わせた妨害音だけが存在する期間で、これら妨害音に対する消去性能を求める意味で計算した。グラフより、学習の初期（図中Ｒ１）、中期（図中Ｒ２）、終期（図中Ｒ３）の３か所のそれぞれ平均値を拾い出すと、１３３．５ｄＢ、１０９．４ｄＢ、１５０．０ｄＢと高い値を記録していることがわかる。この消去性能はエコーの消去と抑圧効果に加えて環境雑音と微小周波数成分の抑圧効果を含んだ数値である。

【0094】

（効果）
本実施例によれば、実施例１で説明した効果はもちろん得られ、さらに、周囲が騒がしい場所（例えば、展示会場）でもシステム運用が可能になるというシステム運用条件拡大の効果を有する。

【0095】

以上、本発明の実施例（変形例を含む）について説明してきたが、これらのうち、２つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、１つの実施例を部分的に実施しても構わない。さらには、これらのうち、２つ以上の実施例を部分的に組み合わせて実施しても構わない。

【0096】

本発明は、上記発明の実施例の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。例えば、本発明の音声信号処理装置は、他の音声会話機能を有する案内型ロボットのフロントエンド処理としても適用可能である。

【符号の説明】

【0097】

１スピーカ
２、３１マイク
３エコー
４第１の周波数分解部（第１の変換部）
５第２の周波数分解部（第２の変換部）
６エコー消去部
７残留エコー抑圧部
８波形生成部
９非エコー音声有無判定部
１１適応フィルタ
１２減算器
２１エコー抑圧部
２２波形生成部
２３判定部
３２第３の周波数分解部（第３の変換部）
３３環境雑音抑圧部
３４微小周波数成分抑圧部

【図1】