(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-16
(45)【発行日】2022-03-25
(54)【発明の名称】音声認識支援システム
(51)【国際特許分類】
G10L 21/0208 20130101AFI20220317BHJP
G10L 21/034 20130101ALI20220317BHJP
G10L 21/0232 20130101ALI20220317BHJP
【FI】
G10L21/0208 100A
G10L21/034
G10L21/0232
(21)【出願番号】P 2018117802
(22)【出願日】2018-06-21
【審査請求日】2021-04-05
(73)【特許権者】
【識別番号】000191238
【氏名又は名称】日清紡マイクロデバイス株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】加藤 義規
(72)【発明者】
【氏名】平野 信光
(72)【発明者】
【氏名】佐藤 征幸
(72)【発明者】
【氏名】藤原 宗
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2017/002525(WO,A1)
【文献】特表2008-537185(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/20,21/00-25/93
(57)【特許請求の範囲】
【請求項1】
受信信号を入力し、所定の信号レベルに調整した受信音声信号を出力する入力AGC処理部と、
該入力AGC処理部から出力される前記受信音声信号を取り込んで特定方向以外の受信音声信号を雑音成分として取り出す減算型ビームフォーミング処理部と、
該減算型ビームフォーミング処理部によって取り出された雑音成分を取り込んで時間経過で変化する雑音成分スペクトルを推定する時変雑音スペクトル推定処理部と、
前記減算型ビームフォーミング処理部によって取り出された雑音成分を取り込んで定常的に発生する雑音成分スペクトルを推定する定常雑音スペクトル推定処理部と、
前記入力AGC処理部から出力される前記受信音声信号を取り込んで前記時変雑音スペクトル推定処理部で推定された時変雑音スペクトルと前記定常雑音スペクトル推定処理部で推定された定常雑音成分スペクトルを取り除いて目的音声信号を抽出する目的音声信号抽出処理部と、
該目的音声信号抽出処理部で抽出された前記目的音声信号を取り込み目的音声区間の信号レベルを調整する出力AGC処理部と、
前記目的音声信号抽出処理部で抽出された前記目的音声信号の開始タイミングと終了タイミングから前記目的音声区間を検出し前記目的音声区間以外を雑音区間として検出する目的音声区間検出処理部とを備え、
前記定常雑音スペクトル推定処理部は、前記目的音声区間検出処理部で検出された前記雑音区間で動作することを特徴とする音声認識支援システム。
【請求項2】
請求項1に記載の音声認識支援システムにおいて、
前記定常雑音スペクトル推定処理部は、前記雑音区間で検出された雑音成分のスペクトルを累算することで定常雑音スペクトルを推定することを特徴とする音声認識支援システム。
【請求項3】
請求項1又は2に記載の音声認識支援システムにおいて、
前記入力AGC処理部は、前記目的音声区間が第1設定時間より長いときレベル圧縮した前記受信信号を出力し、前記雑音区間が第2設定時間より長いときレベル増幅して前記受信音声信号のレベルが第1設定値を超えない範囲の前記受信音声信号を出力することを特徴とする音声認識支援システム。
【請求項4】
請求項1、2又は3に記載の音声認識支援システムにおいて、
前記出力AGC処理部は、前記出力AGC処理部に入力する前記目的音声信号のレベルが第2設定値を超えない範囲で前記目的音声信号を選択的にレベル増幅することを特徴とする音声認識支援システム。
【請求項5】
請求項1、2、3又は4に記載の音声認識支援システムにおいて、
前記目的音声信号の開始タイミングを調整する手段を備えていることを特徴とする音声認識支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロフォン(以下マイク)で得られた受信信号に含まれる受信音声信号から雑音成分を除去して目的音声信号を取り出すための音声認識支援システムに関する。
【背景技術】
【0002】
複数のマイクを用いて、それらのマイクで得られた受信信号に含まれる受信音声信号から雑音成分を除去して高S/N比の目的音声信号を取り出すために、
図10に示すような音声認識支援システムが提案されている(非特許文献1)。
【0003】
図10において、21L、21Rは所定間隔で配置されたマイクである。22はA/D変換処理部であり、マイク21L、21Rで受信した受信音声信号をA/D変換し所定時間単位のフレーム信号を生成する。
【0004】
23は減算型ビームフォーミング処理部であり、マイク21L、21Rで受信した受信音声信号を取り込み特定方向以外の受信音声信号を雑音成分として算出する。24はその減算型ビームフォーミング処理部23で得られた雑音成分を時間領域から周波数領域へ変換するFFT(高速フーリエ変換)処理部である。
【0005】
25は時変雑音スペクトル推定処理部であり、FFT処理部24から出力する雑音成分から時間経過で変化する雑音成分のスペクトルを推定する。26はA/D変換処理部22から出力する受信音声信号を時間領域から周波数領域へ変換するFFT処理部である。
【0006】
27は目的音声信号抽出処理部であり、FFT処理部26から取り込まれる受信音声信号のスペクトルから時変雑音スペクトル推定処理部25で推定された雑音成分のスペクトルを減算することで目的音声信号のスペクトルを抽出する。
【0007】
28は目的音声信号抽出処理部27から取り出された目的音声信号を周波数領域から時間領域の信号に逆変換するIFFT(逆高速フーリエ変換)処理部である。
【0008】
この音声認識支援システムでは、マイク21L,21Rの受信音声信号から雑音成分を除去することで目的音声信号を取り出すことができる。
【先行技術文献】
【特許文献】
【0009】
【文献】マイクロホン対を用いたスペクトルサブトラクションによる雑音雑音除去法、水町・赤木著、電子情報通信学会論文誌 A Vol.J82-A、No.4、pp.503-512、1999年4月
【発明の概要】
【発明が解決しようとする課題】
【0010】
ところが、
図10の音声認識支援システムでは、時変雑音スペクトル推定処理部25で推定した時変雑音スペクトルによって、時間経過で変化する雑音成分に追従して受信音声信号のスペクトルから雑音成分のスペクトルを除去することができるが、環境雑音等の定常的な雑音のスペクトルや車の走行雑音などのスペクトルを推定することができず、定常雑音の除去性能が低く、S/N比の改善が望まれていた。また、受信音声信号に含まれる目的音声信号のレベルが小さい場合は、その目的音声信号が雑音成分に埋もれ、目的音声信号の音声認識率が低くなっていた。
【0011】
本発明の目的は、時変雑音に加えて定常雑音を除去してS/N比を改善し、また入力する目的音声信号のレベルが小さくても当該目的音声信号の音声認識率を高くできるようにした音声認識支援システムを提供することである。
【課題を解決するための手段】
【0012】
上記目的を達成するために、請求項1にかかる発明は、受信信号を入力し、所定の信号レベルに調整した受信音声信号を出力する入力AGC処理部と、該入力AGC処理部から出力される前記受信音声信号を取り込んで特定方向以外の受信音声信号を雑音成分として取り出す減算型ビームフォーミング処理部と、該減算型ビームフォーミング処理部によって取り出された雑音成分を取り込んで時間経過で変化する雑音成分スペクトルを推定する時変雑音スペクトル推定処理部と、前記減算型ビームフォーミング処理部によって取り出された雑音成分を取り込んで定常的に発生する雑音成分スペクトルを推定する定常雑音スペクトル推定処理部と、前記入力AGC処理部から出力される前記受信音声信号を取り込んで前記時変雑音スペクトル推定処理部で推定された時変雑音スペクトルと前記定常雑音スペクトル推定処理部で推定された定常雑音成分スペクトルを取り除いて目的音声信号を抽出する目的音声信号抽出処理部と、該目的音声信号抽出処理部で抽出された前記目的音声信号を取り込み目的音声区間の信号レベルを調整する出力AGC処理部と、前記目的音声信号抽出処理部で抽出された前記目的音声信号の開始タイミングと終了タイミングから前記目的音声区間を検出し前記目的音声区間以外を雑音区間として検出する目的音声区間検出処理部とを備え、前記定常雑音スペクトル推定処理部は、前記目的音声区間検出処理部で検出された前記雑音区間で動作することを特徴とする。
請求項2にかかる発明は、請求項1に記載の音声認識支援システムにおいて、前記定常雑音スペクトル推定処理部は、前記雑音区間で検出された雑音成分のスペクトルを累算することで定常雑音スペクトルを推定することを特徴とする。
請求項3にかかる発明は、請求項1又は2に記載の音声認識支援システムにおいて、前記入力AGC処理部は、前記目的音声区間が第1設定時間より長いときレベル圧縮した前記受信信号を出力し、前記雑音区間が第2設定時間より長いときレベル増幅して前記受信音声信号のレベルが第1設定値を超えない範囲の前記受信音声信号を出力することを特徴とする。
請求項4にかかる発明は、請求項1、2又は3に記載の音声認識支援システムにおいて、前記出力AGC処理部は、前記出力AGC処理部に入力する前記目的音声信号のレベルが第2設定値を超えない範囲で前記目的音声信号を選択的にレベル増幅することを特徴とする。
請求項5にかかる発明は、請求項1、2、3又は4に記載の音声認識支援システムにおいて、前記目的音声信号の開始タイミングを調整する手段を備えていることを特徴とする。
【発明の効果】
【0013】
本発明によれば、定常雑音スペクトル推定処理部を設け、その定常雑音スペクトル推定処理部を雑音区間で動作させるので、時変雑音推定と定常雑音推定を並行して処理することができ、あらゆる雑音を低減することができ、目的音声信号のS/N比を大きく改善できる。また、入力AGC処理部と出力AGC処理部を備えるので、入力する目的音声信号のレベルが小さくても目的音声信号の音声認識率を高くできる。
【図面の簡単な説明】
【0014】
【
図1】第1実施例の音声認識支援システムの機能ブロック図である。
【
図3】(a)、(b)はマイクと目的音声と雑音の関係を示す説明図、(c)は減算型ビームフォーミング処理部のフローチャートである。
【
図4】時変雑音スペクトル推定処理のフローチャートである。
【
図5】定常雑音スペクトル推定処理のフローチャートである。
【
図6】目的音声信号抽出処理のフローチャートである。
【
図7】目的音声区間検出処理のフローチャートである。
【
図8】(a)は通常の受信音声信号のエントロピーの特性図、(b)は過大な受信音声信号のエントロピーの特性図、(c)は過小な受信音声信号のエントロピーの特性図である。
【
図10】従来の音声認識支援システムの機能ブロック図である。
【発明を実施するための形態】
【0015】
図1に本発明の1つの実施例の音声認識支援システムを示す。1L、1Rは所定間隔で配置されたLチャネル、Rチャネルのマイクである。2はA/D変換処理部であり、マイク1L、1Rで受信した受信信号をA/D変換することにより、所定時間単位のフレーム信号を生成する。3はA/D変換処理部2から取り出された受信信号のレベルを調整し、受信音声信号を出力する入力AGC処理部である。
【0016】
4は減算型ビームフォーミング処理部であり、入力AGC処理部3から出力する2個の受信音声信号を取り込み特定方向以外の受信音声信号を雑音成分として算出する。5はその減算型ビームフォーミング処理部4で得られた雑音成分を時間領域から周波数領域へ変換するFFT(高速フーリエ変換)処理部である。
【0017】
6は時変雑音スペクトル推定処理部であり、FFT処理部5から取り込まれる雑音成分から時間経過で変化する時変雑音スペクトル(周波数とレベル)を推定する。7は定常雑音スペクトル推定処理部であり、FFT処理部5から出力する雑音成分によって定常的に発生する定常雑音スペクトルを推定する。
【0018】
8は入力AGC処理部3から出力する受信音声信号を時間領域から周波数領域に変換するFFT処理部である。9は目的音声信号抽出処理部であり、時変雑音スペクトル推定処理部6で得られた時変雑音スペクトルと定常雑音スペクトル推定処理部7で得られた定常雑音スペクトルを取り込んで、FFT処理部8から取り込まれた受信音声信号のスペクトルから時変雑音のスペクトルと定常雑音のスペクトルを取り除くことで、目的音声信号のスペクトルを抽出する。
【0019】
10は目的音声区間検出処理部であり、目的音声信号抽出処理部9で得られた目的音声信号のスペクトルを取り込んで、目的音声区間と雑音区間の境界を検出する。11は目的音声信号抽出処理部9から出力する目的音声信号を周波数領域から時間領域の信号に逆変換するIFFT(逆高速フーリエ変換)処理部である。
【0020】
12は遅延処理部であり、目的音声区間検出処理部10において雑音区間と目的音声区間を検出する際に雑音区間から目的音声区間に切り替わるタイミングの誤差を補正する。13は遅延処理部12で遅延補正が行われた目的音声信号のレベルを調整する出力AGC処理部である。
【0021】
以下、個々の処理部について説明する。
図2は入力AGC処理部3の処理フローチャートを示す。A/D変換処理(S1)の次に受信信号に含まれる音声帯域以外の信号をハイパスフィルタ、ローパスフィルタによって除去し、受信音声信号を取り出す(S2)。そして受信音声信号のレベルが設定値Aを超えていればレベル圧縮を行う(S3,S4)。
【0022】
また、目的音声区間検出処理部10による目的音声連続検出時間(目的音声区間)が設定時間T1を超えているときはレベル圧縮を行う(S5,S6)。しかし、そうでないときは、次に雑音連続検出時間(雑音区間)が設定時間T2を超えているかどうかを判定する(S7)。そして、雑音連続検出時間が設定時間T2を超えているときは目的音声信号のレベルが小さいと推定して、レベル増幅を行う(S8)。雑音連続検出時間が設定時間T2を超えていないときはそのままとする(S9)。そして、ステップS4,S6,S8に応じて受信音声信号のレベル変更をおこなう(S10)。
【0023】
以上の処理により、目的音声区間が設定時間T1より長いとき受信音声信号のレベル圧縮が行われ、雑音区間が設定時間T2より長いとき受信音声信号のレベルが設定値Aを超えない範囲で受信音声信号のレベル増幅が行われる。
【0024】
図3(a)、(b)は減算型ビームフォーミング処理部4の処理の説明図、
図3(b)はそのフローチャートである。マイク1Lとマイク1Rが
図3(a)のように距離L1だけ離れて配置されていて、実線で示す目的音声と破線で示す雑音が両マイク1L,1Rで受信されたとすると、目的音声はマイク1Rに対してマイク1Lに到達する時間がdだけ遅延し、雑音はマイク1Lに対してマイク1Rに到達する時間がτだけ遅延するので、これを検出する(S11)。そして、検出した遅延時間d、τを用いて次の式(1)に示す演算を行うことにより、マイク1Lに入力する雑音成分glrとマイク1Rに入力する雑音成分grlを抽出する(S12)。これらの雑音成分glr、grlが雑音成分として出力する。lはマイク1Lの受信音声信号、rはマイク1Rの受信音声信号である。
【0025】
図4は時変雑音スペクトル推定処理部6の処理のフローチャートである。減算型ビームフォーミング処理部4で得られた雑音成分glr、grlをFFT処理(S21)した後、時変雑音スペクトル推定(S22)を行う。
【0026】
時変雑音スペクトル推定値の算出式は次の式(2)ようになる。∧付きのN(ω)は周波数領域の推定された雑音成分であることを示す。G(ω)は減算型ビームフォーミング出力を時間領域から周波数領域に変換した直後の雑音成分のスペクトル、εは0を超えて、1より十分小さい値である。
【0027】
図5は定常雑音スペクトル推定処理部7の処理のフローチャートである。定常雑音スペクトル推定は、時変雑音スペクトル推定がリアルタイムで変化する雑音成分の推定であるのに対し、定常的に発生している雑音成分を目的音声区間検出処理部10で検出した雑音区間(減算型ビームフォーミングで処理しきれなかった推定雑音に含まれる残留目的音声成分を除く)で検出することで、雑音除去性能を向上させる処理である。時変雑音スペクトル推定結果を遅延(S31)させ、目的音声区間検出処理結果が雑音区間を示すとき(S32)、定常雑音スペクトル推定値を算出する(S33)。
【0028】
遅延処理S31は、目的音声区間検出処理によって雑音区間と目的音声区間の境界を検出する際に、雑音区間から目的音声区間の切り替わりのタイミング誤差を補正するために、音声区間への切り替わりタイミングより前の雑音スペクトルから定常雑音スペクトルを算出することで、残留目的音声成分が含まれることを防ぐ処理である。
【0029】
定常雑音スペクトル推定値の算出式は次の累算式となる。αは平均化するための係数(0≦α≦1)である。(n)は現フレーム、(n-1)は1フレーム前のフレームを表す。右側の第2項は現フレームまでの定常雑音スペクトル推定値の累積値である。
【0030】
図6は目的音声信号抽出処理部9の処理フローチャートである。入力AGC処理部3の処理結果をFFT処理部8で時間領域から周波数領域の信号に処理(S41)した結果と、時変雑音スペクトル推定処理部6で推定した結果と、定常雑音スペクトル推定処理部7で処理した結果を取り込んで、目的音声信号抽出処理部9で目的音声信号のスペクトルを算出する(S42)。
【0031】
目的音声信号のスペクトルの推定値の算出式は次の式(4)となる。∧付きのS(ω)は周波数領域の目的音声信号、X(ω)はFFT処理部8から取り込まれる周波数領域の受信音声信号(目的音声信号と雑音成分を含む)を示す。β、γは係数(0≦β≦1、0≦γ≦1)である。
【0032】
図7は目的音声区間検出処理部10の処理のフローチャートである。ここでは、目的音声信号と雑音成分が含まれている受信音声信号から、目的音声区間と雑音区間を判別する。
図8(a)に示すように、通常の場合は、受信音声信号のエントロピー(パワー)が閾値hを超えている場合はその超えている連続期間は目的音声区間、閾値hを下回っている連続期間は雑音区間となる。この目的音声区間は、目的音声信号の開始タイミングtaから、目的音声信号の終了タイミングtbまでの区間であり、その他の区間は雑音区間となる。目的音声区間検出処理部10は隣り合うこの2個のタイミングta,tbを検出して、入力AGC処理部3、遅延処理部12、出力AGC処理部13を制御する。
【0033】
まず、目的音声信号抽出処理部9で得られた目的音声信号抽出結果を取り込んでそのエントロピーを算出(S51)する。そのエントロピーが閾値hよりも大きくなったときは、目的音声信号が検出された(タイミングta)として、ホールドタイムを設定する(S52,S53)。このホールドタイムは、一旦検出した目的音声信号の開始タイミングta以降に目的音声信号が検出されなくなっても、つまり雑音が検出されても、そのホールドタイムの期間中は雑音検出をマスクするためのものである。このようにして、検出した目的音声信号の開始タイミングtaからホールドタイムが終了するまでは、目的音声信号の終了が検出されても無視し音質劣化を防止する。このホールドタイムは、例えば100msec~200msec程度に設定される。
【0034】
また、目的音声信号の開始タイミングtaが検出されてから目的音声信号の終了タイミングtbが検出されるまでの目的音声連続検出時間(目的音声区間)が設定時間T1を超えたら、入力AGC処理部3によってレベル圧縮を行う(S54,S55)。
図8(b)に示すように、受信音声信号の全体のエントロピーが高い場合は、目的音声信号の他に雑音成分も閾値hを超えてしまうので、全部が目的音声信号と誤認識される。そこで、目的音声連続検出時間が設定時間T1を超えたら、受信音声信号の目的音声信号と雑音成分の識別が可能なように、入力AGC処理部3によって受信音声信号のレベル圧縮を行う。
【0035】
また、目的音声連続検出時間が設定時間T1よりも短いときは、目的音声信号の開始タイミングtaの補正を行う(S56)。この補正は、タイミングtaを補正(実際のタイミングtaよりも前へ補正)して目的音声信号の検出処理に余裕を持たせるためのものである。また、その補正のための遅延時間の算出を直前フレームの目的音声信号について行い(S57)、遅延処理部12にその遅延時間を設定する。
【0036】
一方、エントロピーが閾値h未満になったときは、ステップS52において、目的音声信号が検出されなくなったとして、ステップS53で設定されたホールドタイムが満了するのを待つ(S58)。そしてホールドタイムが満了したときに、目的音声区間終了タイミングtbが検出されてから次の目的音声区間開始タイミングtaが検出されるまでの雑音区間連続検出時間(雑音区間)が設定時間T2を超えている場合に、
図2で説明した入力AGC処理部3においてレベル増幅を行う(S59,S60)。
図8(c)に示すように目的音声信号が含まれていても受信音声信号のエントロピーが全体的に低く閾値hに達しない場合は、そのままでは全部が雑音成分として誤認識されてしまう。そこで、目的音声信号と雑音成分の識別が可能なように、受信音声信号のレベル増幅を行う。また、雑音区間連続検出時間が設定時間T2を超えない場合は、入力AGC処理部3におけるレベル変更は行わない(S61)。
【0037】
図9は遅延処理部12と出力AGC処理部13の処理フローチャートである。目的音声信号抽出処理部9から出力し、IFFT処理部11で周波数領域から時間領域の信号に復元された目的音声信号は、目的音声区間検出処理部10で検出された雑音区間から目的音声区間への切り替わりのタイミングtaの誤差が遅延処理部12における遅延処理によって補正される(S71)。この遅延処理は、出力AGC処理部13での処理に合わせるために行われる。
【0038】
そして、遅延処理された目的音声信号のレベルが設定値Bを超えているときは、出力AGC処理部12においてレベル圧縮が行われる(S72、S73、S74)。また、目的音声区間検出処理部10で目的音声区間が検出されているときは、出力AGC処理部13においてレベル増幅が行われる(S75、S76)が、目的音声区間が検出されていないときはそのままとなる(S75,S77)。このようにして、出力AGC処理部13は、入力する目的音声信号のレベルが設定値Bを超えない範囲で目的音声信号を選択的にレベル増幅する。
【0039】
以上から、本実施例の音声認識支援システムによれは、
図3の実線の方向からマイク1L、1Rに入力する目的音声を、
図2の破線で示す方向からマイク1L、1Rに入力する雑音に対して分離して取り出し、且つその目的音声を所定のレベルにS/N比を高くして調整することができ、音声認識支援に好適となる。
【符号の説明】
【0040】
1L,1R:マイク、2:A/D変換処理部、3:入力AGC処理部、4:減算型ビームフォーミング処理部、5:FFT処理部、6:時変雑音スペクトル推定処理部、7:定常雑音スペクトル推定処理部、8:FFT処理部、9:目的音声信号抽出処理部、10:目的音声区間検出処理部、11:IFFT処理部、12:遅延処理部、13:出力AGC処理部