IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特許7404657音声認識装置、音声認識プログラム、及び音声認識方法
<>
  • 特許-音声認識装置、音声認識プログラム、及び音声認識方法 図1
  • 特許-音声認識装置、音声認識プログラム、及び音声認識方法 図2
  • 特許-音声認識装置、音声認識プログラム、及び音声認識方法 図3
  • 特許-音声認識装置、音声認識プログラム、及び音声認識方法 図4
  • 特許-音声認識装置、音声認識プログラム、及び音声認識方法 図5
  • 特許-音声認識装置、音声認識プログラム、及び音声認識方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】音声認識装置、音声認識プログラム、及び音声認識方法
(51)【国際特許分類】
   G10L 15/28 20130101AFI20231219BHJP
   G10L 15/20 20060101ALI20231219BHJP
   G10L 15/32 20130101ALI20231219BHJP
   H04R 3/00 20060101ALI20231219BHJP
   G10L 21/028 20130101ALI20231219BHJP
【FI】
G10L15/28 400
G10L15/20 370E
G10L15/32 200Z
H04R3/00 320
G10L21/028 A
G10L15/20 353
【請求項の数】 5
(21)【出願番号】P 2019099690
(22)【出願日】2019-05-28
(65)【公開番号】P2020194093
(43)【公開日】2020-12-03
【審査請求日】2022-02-08
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】矢頭 隆
【審査官】大野 弘
(56)【参考文献】
【文献】特開2003-241792(JP,A)
【文献】特開2017-183902(JP,A)
【文献】特開2016-126330(JP,A)
【文献】特開2007-086554(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/20
G10L 15/32
G10L 15/28
H04R 3/00
G10L 21/028
(57)【特許請求の範囲】
【請求項1】
目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、
前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、
それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、
前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段とを有し、
前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数分の混合音を生成し、
前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段をさらに有する
ことを特徴とする音声認識装置。
【請求項2】
前記目的エリアで話者が発話した音声が発生している発話区間を検出する発話区間検出手段をさらに備え、
前記音声認識手段は、前記発話区間検出手段によって発話区間が検出されている間だけ、音声認識処理及び信頼度算出処理を行う
ことを特徴する請求項1に記載の音声認識装置。
【請求項3】
前記混合内容決定手段は、前記認識結果選択手段で選択された混合量を新な中心混合量として適用し、前記変化幅及び又は前記段階数を増減させることを特徴とする請求項1に記載の音声認識装置。
【請求項4】
コンピュータを、
目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、
前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、
それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、
前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段として機能させ、
前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数分の混合音を生成し、
前記コンピュータを、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段としても機能させる
ことを特徴とする音声認識プログラム。
【請求項5】
音声認識方法において、
エリア音抽出手段、信号混合手段、音声認識手段、認識結果選択手段、及び混合内容決定手段を有し、
前記エリア音抽出手段は、目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出し、
前記信号混合手段は、前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成し、
前記音声認識手段は、それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行い、
前記認識結果選択手段は,前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する
前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数分の混合音を生成し、
前記混合内容決定手段は、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する
ことを特徴とする音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声認識装置、音声認識プログラム、及び音声認識方法に関し、例えば、雑音環境下で用いられる収音システム等の特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。
【背景技術】
【0002】
雑音環境下で音声通信システムや音声認識応用システムを利用する場合、必要な目的音声と同時に混入する周囲の雑音は、良好なコミュニケーションを阻害し、音声認識率の低下をもたらす厄介な存在である。従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーマ(Beam Former;以下「BF」と呼ぶ)がある。
【0003】
BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0004】
図4は、マイクロホン数が2個(M1、M2)の場合の減算型BF400に係る構成を示すブロック図である。
【0005】
減算型BF400は、遅延器410と減算器420を有している。
【0006】
減算型BF400は、目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延器410により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記(1)式により算出される。ここで、dはマイクロホン間の距離であり、cは音速であり、τは遅延量であり、θは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
【0007】
また、ここで、遅延器410は、死角がマイクロホンmc1とマイクロホンmc2の中心に対し、マイクロホンmc1の方向に存在する場合、マイクロホンmc1の入力信号x(t)に対し遅延処理を行う。その後、減算器420が、(2)式に従った減算処理を行う。
【0008】
減算器420では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下の(3)式のように変更される。
【数1】
【0009】
ここでθ=±π/2の場合、形成される指向性は図5(a)に示すように、カージオイド型の単一指向性となり、θ=0,πの場合は、図5(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。
【0010】
減算器420では、スペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、マイクロホンmc1の入力信号Xを用いているが、マイクロホンmc2の入力信号Xでも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。(4)式に従ってSSの処理を行う際、減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。
【数2】
【0011】
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1の記載技術では、複数のマイクアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(エリア収音)を提案している。
【0012】
図6は、2つのマイクアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する処理について示した説明図である。
【0013】
図6(a)は、各マイクアレイの構成例について示した説明図である。図6(b)、図6(c)は、それぞれ図6(a)に示すマイクアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。エリア収音では、図6(a)に示すようは、マイクアレイMA1、MA2の指向性を別々の方向から収音したいエリア(目的エリア)で交差させて収音する。図6(a)の状態では、各マイクアレイMA1、MA2の指向性に目的エリア内に存在する音(目的エリア音)だけでなく、目的エリア方向の雑音(非目的エリア音)も含まれている。しかし、図6(b)、図6(c)に示すように、マイクアレイMA1、MA2の指向性を周波数領域で比較すると、目的エリア音成分はどちらの出力にも含まれるが、非目的エリア音成分は各マイクアレイで異なることになる。従来のエリア収音技術では、このような特性を利用し、2つのマイクアレイMA1、MA2のBF出力に、共通に含まれる成分以外を抑圧することで目的エリア音のみ抽出することができる。
【0014】
図6(a)のような環境で従来のエリア収音処理を行う場合、まず各マイクアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする例として2つのマイクアレイを使用することになる。このとき、目的エリア音振幅スペクトルの補正係数は、「(5)、(6)式」または「(7)、(8)式」により算出される。ここで、Y1k(n)、Y2k(n)はマイクアレイMA1、MA2のBF出力の振幅スペクトルであり、Nは周波数ピンの総数であり、kは周波数であり、α(n)、α(n)は各BF出力に対する振幅スペクトル補正係数である。また、ここで、modeは最頻値、medianは中央値を表している。
【数3】
【0015】
その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出することができる。さらに、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。例えば、マイクアレイMA1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(9)式に示すように、マイクアレイMA1のBF出力Y(n)からマイクアレイMA2のBF出力Y(n)に振幅スペクトル補正係数的を掛けたものをSSする。同様に(10)式に従い、マイクアレイMA2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。
【0016】
その後、(11)、(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出することができる。(11)式は、マイクアレイMA1を基準として、また(12)式は、マイクアレイMA2を基準として目的エリア音を抽出することを示している。なお、(11)式、(12)式において、γ(n)、γ(n)はSS時の強度を変更するための係数である。
【数4】
【0017】
ところで、背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生する可能性がある。
【0018】
そこで、特許文献2の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくする。背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出することができる。また、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出することができる。
【0019】
特許文献2の手法では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。しかし、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、特許文献2の手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、特許文献2の手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。
【0020】
このように特許文献2の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。また、特許文献2の手法では、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。
【先行技術文献】
【特許文献】
【0021】
【文献】特開2014-072708号公報
【文献】特開2017-183902号公報
【非特許文献】
【0022】
【文献】浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,日本音響学会編,コロナ社,2011年2月25日発行
【発明の概要】
【発明が解決しようとする課題】
【0023】
ところで、長年の音声認識技術の進展により、従来でも静粛環境ではかなり高精度な認識が実現できるようになっていた。しかし、実環境では、目的話者の音声には周囲からの様々な雑音、妨害音声が混入し、認識率を著しく低下させる要因となる。そのため、音声認識エンジンに入力する音声から、いかに背景雑音を取り除くかが音声インタフェース実現する上で、重要な課題となっていた。そこでは、目的音声に多少の変形、歪があっても、雑音抑圧効果、とりわけ妨害音声の抑圧効果が高い前処理が求められた。
【0024】
ところが近年、機械学習とりわけ深層学習の導入は、音声認識に革新的な進歩をもたらし、背景雑音に対する頑健性も従来とは比較にならないほど向上した。そのような音声認識エンジンに対しては、雑音抑圧性能を最優先にするのではなく、雑音抑圧性能と雑音抑圧後の音声品質のバランスが重要となる。
【0025】
特許文献1、2のようなエリア収音やBFなどの手法は、周囲の雑音が抑圧され音声の了解性は上がるが、そのまま音声認識率が改善するとは限らない。どの程度の雑音抑制が最適かは、使用環境、雑音の種類、音声認識エンジンの特性、など様々な要因に左右され、一概に決定することは困難である。
【0026】
そのため、音声認識処理の認識精度向上に寄与する収音処理に基づく音声認識処理を行う音声認識装置、音声認識プログラム、及び音声認識方法が求められている。
【課題を解決するための手段】
【0027】
第1の本発明は、(1)目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、(2)前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、(3)それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、(4)前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段とを有し、(5)前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数分の混合音を生成し、(6)前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段をさらに有することを特徴とする。
【0028】
第2の本発明の音声認識プログラムは、コンピュータを、(1)目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、(2)前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、(3)それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、(4)前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段として機能させ、(5)前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数分の混合音を生成し、(6)前記コンピュータを、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段としても機能させることを特徴とする。
【0029】
第3の本発明は、音声認識方法において、(1)エリア音抽出手段、信号混合手段、音声認識手段、認識結果選択手段、及び混合内容決定手段を有し、(2)前記エリア音抽出手段は、目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出し、(3)前記信号混合手段は、前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成し、(4)前記音声認識手段は、それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行い、(5)前記認識結果選択手段は,前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力し、(6)前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数分の混合音を生成し、(7)前記混合内容決定手段は、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定することを特徴とする。
【発明の効果】
【0030】
本発明によれば、音声認識処理の認識精度向上に寄与する収音処理に基づく音声認識処理を行うことができる。
【図面の簡単な説明】
【0031】
図1】第1の実施形態に係る音声認識装置の機能的構成について示したブロック図である。
図2】第1の実施形態に係る音声認識装置のハードウェア構成の例について示したブロック図である。
図3】第2の実施形態に係る音声認識装置の機能的構成について示したブロック図である。
図4】従来の減算型BF(マイクロホンの数が2個の場合)の構成を示すブロック図。
図5】従来の減算型BF(マイクロホンの数が2個の場合)により形成される指向性フィルタの例について示した説明図。
図6】従来の収音装置において、2つのマイクアレイのビームフォーマ(BF)による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図。
【発明を実施するための形態】
【0032】
(A)第1の実施形態
以下、本発明による音声認識装置、音声認識プログラム、及び音声認識方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを収音システムに適用した例について説明する。
【0033】
(A-1)第1の実施形態の構成
図1は、第1の実施形態の音声認識装置200の全体構成を示すブロック図である。
【0034】
音声認識装置200は、マイクアレイ部100から供給される入力信号に基づいて、目的エリアを音源とする目的エリア音(目的エリアに存在する話者の音声)を区別して収音し、収音した目的エリア音を音声認識処理(例えば、収音した音声をテキスト化する処理)して、その音声認識処理結果を出力する装置である。
【0035】
マイクアレイ部100は、複数のマイクアレイを用いて収音エリアを含む領域の音を捕捉する手段である。
【0036】
この実施形態では、マイクアレイ部100は、2つのマイクアレイMA1、MA2を備えているものとする。
【0037】
マイクアレイMA1、MA2は、それぞれ目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクアレイMA1、MA2の位置は、各マイクアレイの指向性が目的エリアでのみ重なればどこでも良い。例えば、マイクアレイMA1、MA2を、目的エリアを挟んで対向に配置しても良い。マイクアレイ部100を構成するマイクアレイの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクアレイを配置する。
【0038】
そして、マイクアレイMA1、MA2は、それぞれ2つ以上のマイクロホンを用いて構成することができる。この実施形態では、マイクアレイMA1、MA2は、それぞれ2つのマイクロホンを備えているものとして説明する。ここでは、マイクアレイMA1はmc1、mc2を備え、マイクアレイMA2はmc3、mc4を備えるものとする。また、この実施形態の例では、マイクアレイMA1、MA2において、2つのマイクロホンの間の距離は3cmであるものとする。
【0039】
次に、音声認識装置200の内部構成について説明する。
【0040】
図1に示すように、音声認識装置200は、信号入力部201、時間/周波数変換部202、指向性形成部203、エリア音抽出部204、信号混合部205、周波数/時間変換部206、振幅スペクトル比算出部207、音声区間検出部208、音声認識部209、及び認識結果選択部210を有している。音声認識装置200を構成する各要素の詳細については後述する。
【0041】
音声認識装置200は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る音声認識プログラムを含む)を実行させるようにしてもよいが、その場合であっても、機能的には、図1のように示すことができる。音声認識装置200の各構成要素の処理の詳細については後述する。
【0042】
図2は、音声認識装置200のハードウェア構成の例について示したブロック図である。なお、図2における括弧内の符号は後述する第2の実施形態で用いられる符号である。
【0043】
図2では、音声認識装置200をソフトウェア(コンピュータ)を用いて実現する際の構成について示している。
【0044】
図2に示す音声認識装置200は、ハードウェア的な構成要素として、少なくとも信号入力部201と、プログラム(実施形態の音声認識プログラムを含むプログラム)がインストールされたコンピュータ500を有している。
【0045】
信号入力部201は、例えば、A/Dコンバータを用いて構成することができる。なお、コンピュータ500自体にA/Dコンバータが搭載されていれば、信号入力部201を別途設ける必要はない。
【0046】
コンピュータ500は、信号入力部201から供給される音響信号(デジタル音響信号)にエリア収音処理を施して出力する処理を行う。この実施形態では、コンピュータ500に、この実施形態の収音プログラムを含むプログラム(ソフトウェア)がインストールされているものとする。
【0047】
なお、コンピュータ500は、収音プログラム専用のコンピュータとしてもよいし、他の機能(例えば、記録装置300)のプログラムと共用される構成としてもよい。
【0048】
図2に示すコンピュータ500は、プロセッサ501、一次記憶部502、及び二次記憶部503を有している。一次記憶部502は、プロセッサ501の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。二次記憶部503は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリが適用される。この実施形態のコンピュータ500では、プロセッサ501が起動する際、二次記憶部503に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部502上に展開して実行する。
【0049】
なお、コンピュータ500の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部502が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次メモリについては除外した構成としてもよい。
【0050】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の音声認識装置200の動作を説明する。
【0051】
信号入力部201は、各マイクアレイMA1、MA2の各マイクロホンmc1~mc4で収音した音響信号をアナログ信号からデジタル信号に変換し、時間/周波数変換部202に供給する。以下では、マイクロホンmc1~mc4で収音したデジタル形式の音響信号(以下、「入力信号」とも呼ぶ)を、それぞれx1~x4と表す。
【0052】
時間/周波数変換部202は供給されたマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号x1~x4を周波数領域に変換した信号を、それぞれX1~X4と表す。
【0053】
指向性形成部203は、時間/周波数変換部202によって時間・周波数変換された各マイクロホンの入力信号(X1~X4)を用いて上記の(3)式、(4)式に従いBFにより指向性を形成する。以下では、マイクアレイMA1によるBF出力をY1、マイクアレイMA2によるBF出力をY2とする。
【0054】
エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1、Y2を用いて(9)、もしくは(10)式に従いSSし、目的工リア方向に存在する非目的エリア音を抽出する。さらに、エリア音抽出部204は、抽出した雑音を各BFの出力から(11)、もしくは(12)式に従いSSすることにより目的エリア音Zを抽出する。
【0055】
ここまでのエリア収音処理によって、目的音が存在するエリアで発生した音だけが抽出され、周囲に音声認識に不要な雑音があっても、目的とする音声(目的エリアに存在する話者の発話した音声)だけを取り出すことができる。一般に雑音抑圧処理において、雑音の抑圧量と音質はトレードオフの関係にある。抑圧量を増やせば歪みは増える。エリア収音は、目的エリアで発生する音だけを強調可能な優れた方式であるが、一般の雑音抑圧同様、強調効果を高めれば、それだけ歪みは増すことになる。そのためエリア収音によって抽出した目的音信号を、そのまま記録装置300(音声認識部301)に与えても、高い認識率が得られない可能性がある。
【0056】
上述の通り、エリア音出力Zに、混合用信号として入力信号成分を混合すれば、エリア収音処理によって生じる目的音声の歪みを軽減することができる。そこで、この実施形態の音声認識装置200では、エリア音出力Zに混合用信号としての入力信号を一定量混合し、エリア音出力Zにおける目的音成分の歪軽減を図る。
【0057】
エリア音出力Zに対する入力信号の混合量(混合する入力信号のレベル)を増やせば目的音成分の歪は減るが、それと引き換えに雑音の抑圧量は少なくなる。エリア音出力に入力信号をどの程度の割合で混合すればよいかは、目的音の音量、雑音量、雑音の種類、装置の使用環境、使用する音声認識エンジンの特性など種々の要因に左右され、一律に決定するのは困難である。そこで、この実施形態の信号混合部205は、入力信号の混合量(混合する入力信号のレベル)の異なる複数の混合音Mを生成するものとする。
【0058】
具体的には、信号混合部205は、最終的に目的エリア音のエリア収音結果として出力する混合音として、混合量の異なるQ個(Qは2以上の整数)の混合音M(M1~MQ)を生成する。混合音M1~MQは、それぞれ、元の入力信号に対する減衰量At(At1~AtQ)が異なる入力信号をエリア音出力Zに混合したものである。以下では、Qは「段階数」と呼ぶものとする。
【0059】
この実施形態では段階数Qは7として説明する。そして、減衰量At1~At7は、-5db~35dbの範囲で-5dB刻みに設定(―5dbの幅で7段階に設定)されるものとする。すなわち、減衰量At1~At7は、それぞれ-5dB、-10dB、-15dB、-20dB、-25dB、-30dB、-35dB[混合量小]に設定される。この場合At1(=-5db)の減衰量が最も小さく(混合量が最も大きく)、At7(=-35db)の減衰量が最も大きく(混合量が最も小さく)なる。
【0060】
そして、信号混合部205は、混合用信号としての入力信号を、At1~At7のそれぞれの減衰量で減衰させた混合音M1~M7を生成する。
【0061】
周波数/時間変換部206は、エリア音出力Zに入力信号(入力音)を混合することによって歪みを低減した混合音M1~M7を時間領域の信号(混合音)m1~m7に変換して、音声認識部209に供給する。
【0062】
音声認識装置200では、混合音m1~m7を音声認識部209に投入するに当たり、音声区間検出部208が音声区間の検出をおこなうものとする。
【0063】
音声区間検出部208が、収音エリア内の目的エリア音の存在の有無を判定する方法については限定されないものであり、種々の方法を適用することができる。例えば、音声区間検出部208では、収音エリア内の目的エリア音の存在の有無を判定する方法として、エリア収音出力と入力音との振幅スペクトル比を用いる方法(以下の参考文献1参照)や、リア収音を行なう際のBF出力間のコヒーレンスを用いる方法などを適用することができる。この実施形態の例では、音声区間検出部208は、振幅スペクトル比を用いる方法で、収音エリア内の目的エリア音の存在の有無を判定するものとして説明する。
参考文献1:特関2016-127457号公報
【0064】
振幅スペクトル比算出部207は、時間/周波数変換部202から入力信号を、エリア音抽出部204からエリア音出力Zを取得して、振幅スペクトル比Rの算出を行う。
【0065】
例えば振幅スペクトル比算出部207は、下記の(13)式、又は(14)式を用いて、エリア音出力(Z又はZ)と入力信号の振幅スペクトル比(R又はR)を周波数ごとに算出する。(13)、(14)式において、WinはマイクアレイMA1の入力信号の振幅スペクトルであり、Winは、マイクアレイMA2の入力信号の振幅スペクトルである。なお、Win、Winの算出に用いるマイクロホンは、マイクアレイMA1、MA2を構成するいずれかのマイクロホンでも良い。ここではWinはマイクロホンmc1の入力信号X1に基づいて算出されたものとし、Winはマイクロホンmc3の入力信号X3に基づいて算出されたものとする。また、ここで、Zは、マイクアレイMA1をメインとしてエリア収音処理を行った場合(上述の(11)式を用いた場合)のエリア音出力の振幅スペクトルであり、Zは、マイクアレイMA2をメインとしてエリア収音処理を行った場合(上述の(12)式を用いた場合)のエリア音出力の振幅スペクトルである。
【0066】
そして、振幅スペクトル比算出部207は、下記(15)又は(16)式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値(U又はU)を求める。
【0067】
ここで、(15)式を用いて行われる処理において得られるUは、各周波数の振幅スペクトル比R1iを周波数の下限jから上限kでの帯域で足し合わせたものであり、式(16)の処理を用いて行われるUは、各周波数の振幅スペクトル比R2iを、周波数の下限jから上限kでの帯域で足し合わせたものである。ここでは、振幅スペクトル比算出部207において演算対象とする周波数の帯域を制限しても良い。例えば、演算対象を音声情報が十分に含まれる100Hzから6kHzに制限して、上記演算を行うようにしても良い。
【0068】
そして、振幅スペクトル比算出部207は、U又はUを算出した結果をUとして音声区間検出部208に供給する。
【0069】
なお、振幅スペクトル比算出部207は、エリア音抽出部204で目的エリア音Zを算出する際に、マイクアレイMA1のBF出力Y(n)をメインとしてエリア収音処理を行った場合(上述の(11)式を用いた場合)には、(15)式を用いて算出したUを振幅スペクトル比加算値Uとして出力することが好ましい。また、振幅スペクトル比算出部207は、エリア音抽出部204で目的エリア音Zを算出する際に、マイクアレイMA2のBF出力Y(n)をメインとしてエリア収音処理を行った場合(上述の(12)式を用いた場合)には、(16)式を用いて算出したUを振幅スペクトル比加算値Uとして出力することが好ましい。
【数5】
【0070】
音声区間検出部208は、振幅スペクトル比算出部207から供給された振幅スペクトル比加算値Uを予め設定した閾値と比較し、目的エリア内で目的エリア音(音声)が存在するかしないかを判定する。突発的な雑音と音声を区別するため、音声区間検出部208は、一定以上の時間、エリア音が存在したときに音声区間(目的エリア内の話者が発話中の期間)と見倣す、あるいは発話の終了と、破裂音や息継ぎなど一時的な無音区間を区別するために無音検出後一定時間は音声区間と見做す、など音声区間の判定には一般的手法を用いればよい。音声区間検出部208は、これらの処理により音声区間を検出し、その音声区間検出結果Sを音声認識部209に供給する。
【0071】
ここで、音声区間検出部208は、目的エリア内で目的エリア音が存在することを検出した場合、音声区間検出結果Sとして「true」を出力し、目的エリア内で目的エリア音が存在しないことを検出した場合、音声区間検出結果Sとして「false」を出力するものとする。
【0072】
音声認識部10は、混合レベルを段階的に変えた混合音m1~m7を用いて、個別に音声認識処理を試み、それぞれに対する音声認識処理の結果(以下、「認識結果」と呼ぶ)A1~A7と、認識結果A1~A7のそれぞれの信頼性の度合いを数値化した値(以下、「認識信頼度」と呼ぶ)Re1~Re7を得る処理(以下、「認識信頼度算出処理」と呼ぶ)を行う。
【0073】
音声認識部10が、混合音m1~m7のそれぞれに対して音声認識処理(例えば、音声をテキスト化する処理;いわゆる「Speech to Text」の処理)を行って認識結果A1~A7を生成する際の具体的な手法については限定されないものであり、種々の手法を適用することができる。
【0074】
また、音声認識部10が、認識結果A1~A7のそれぞれを分析して認識信頼度Re1~Re7を算出する認識信頼度算出処理の手法については限定されないものであり、種々の手法を適用することができる。例えば、音声認識部10では、認識信頼度算出処理に以下の参考文献2、3の手法等を用いるようにしてもよい。音声認識部10が認識信頼度を算出する間隔(以下、「信頼度算出間隔」と呼ぶ)は限定されないものである。音声認識部10は、例えば、一定時間ごとに認識信頼度を算出するようにしてもよい。
参考文献2:特開2005-148342号公報
参考文献3:特開2010-175807号公報
【0075】
認識結果選択部210は、音声区間(S=trueの区間)に対して最も信頼度が高かった認識結果を選択して、最終の認識結果Asとして出力する。認識結果選択部210は、例えば、信頼度算出間隔ごとに、出力する認識結果(A1~A7)を、最も認識信頼度の高い認識結果に切り替える処理を行うようにしてもよい。
【0076】
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0077】
第1の実施形態の音声認識装置200では、混合量(減衰量;混合レベル)の異なる複数の混合音を生成し、それぞれの混合音の音声認識処理結果に対する信頼度を算出し、最も信頼度の高い音声認識処理結果を最終的な認識結果として出力する。これにより、第1の実施形態の音声認識装置200では、種々の使用環境において、音声認識処理にとっての最適な混合量を用いることが可能となる。結果として、音声認識装置200では、音声認識の精度が向上する。
【0078】
(B)第2の実施形態
以下、本発明による音声認識装置、音声認識プログラム、及び音声認識方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを収音システムに適用した例について説明する。
【0079】
(B-1)第2の実施形態の構成
図3は、第2の実施形態の音声認識装置200Aの全体構成を示すブロック図である。
【0080】
図3では、上述の図1と同一又は対応する部分に、同一又は対応する符号を付している。以下では、第2の実施形態について第1の実施形態との差異を中心に説明する。
【0081】
第2の実施形態の音声認識装置200Aでは、信号混合部205と認識結果選択部210が、信号混合部205Aと認識結果選択部210Aに置き換わり、さらに、混合レベル決定部211が追加されている点で第1の実施形態と異なっている。
【0082】
第1の実施形態では、信号混合部205における入力信号の混合量(減衰量)が複数固定であった。これに対して、第2の実施形態では、混合レベル決定部211を備え、音声認識部209による認識結果に基づいて、信号混合部205Aで適用する混合量(減衰量)を適応的に決定するところが第1の実施形態と異なっている。信号混合部205、認識結果選択部210及び混合レベル決定部211の具体的な処理の内容(第1の実施形態との差異)については後述する。
【0083】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の音声認識装置200Aの動作を説明する。
【0084】
マイクアレイ部100、信号入力部201、時間/周波数変換部202、指向性形成部203、及びエリア音抽出部204の動作は、第1の実施形態と同様であるため、説明を省略する。
【0085】
第1の実施形態では、7段階の異なる混合レベルを設定した。この段階数は、多ければ、細かな段階が設定されることで、より好適な混合量が選択できるようになるが、1つの音声区間に対しての認識処理量が増え、装置の大規模化、処理の遅延などの問題が生じる。一方、段階数を減らせば処理は簡単になるが、設定できる混合量が限定されるため、適量抽出の精度が低下する。そこでこの実施形態では、音声認識処理の認識結果に基づいて、エリア音出力に対する入力信号の混合量を適応的に決定する。
【0086】
信号混合部205Aでは、第1の実施形態と同様、エリア音出力Zに対して入力信号の混合を行なうが、混合レベル(混合する入力信号の減衰量)の決定は、混合レベル決定部211で行なわれるものとする。
【0087】
ここでは例として、混合レベル決定部211において、初期設定として、第1の実施形態と同様に、混合レベルを7段階(段階数Q=7)とし、そのときの入力信号に対する減衰量をAt1~At7として、第1の実施形態と同様に、-5db~―35dbの間で、-5dB刻みに7段階(-5dB、-10dB、-15dB、-20dB、-25dB、-30dB、-35dB)が設定されているものとする。なお、以下では、減衰量At~AQを設定する際の1段階分の減衰量の幅を「変化幅」と呼ぶものとする。例えば、上記のように、減衰量At1~At7を、-5db~35dbの範囲で-5dB刻みに設定する場合の「変化幅」は-5となる。ここでは、説明を簡易とするため、変化幅は一定であるものとして説明するが、必ずしも変化幅は一定である必要はない。
【0088】
そして、第1の実施形態と同様に、周波数/時間変換部206で時間変換された混合音m1~m7は、音声認識部209に入力される。
【0089】
音声認識部209は、第1の実施形態と同様に、混合レベルを段階的に変えた混合音m1~m7を個別に音声認識し、それぞれに対する認識結果A1~A7、および認識信頼度Re1~Re7を得る。
【0090】
認識結果選択部210Aは、第1の実施形態と同様に、音声区間(S=trueの区間)に対して最も信頼度が高かった認識結果を選択して、最終の認識結果Asとして出力する。
【0091】
次に、混合レベル決定部211における混合量を適応化する方法について説明する。
【0092】
混合レベル決定部211における混合量の適応化の方法(以下、「混合量適応化方法」と呼ぶ)としては、例えば、以下の2つの方法が考えられる。
【0093】
第1の混合量適応化方法としては、段階数Qは変えず範囲を限定して、混合量の設定を綴密化(変化幅を小さくする)する方法がある。また、第2の混合量適応化方法としては、設定する混合量の1段階の変化幅は変えないが段階数Qを減らして処理を軽くする方法がある。
【0094】
[第1の混合量適応化方法について]
まず、混合レベル決定部211に、第1の混合量適応化方法(混合量緻密化)を適用する場合の詳細について説明する。
【0095】
ここでは、まず、初期の状態から、音声認識部209において、混合音m1~m7について音声認識処理を行い、その結果、混合音m4の信頼度R4が最も高かったとする。この結果は、認識結果選択部210から混合レベル決定部211に供給される。混合レベル決定部211は、この結果を受けて、以降のエリア音出力Zに対する混合量を、前回最も信頼度が高かった減衰量(-20dB)を中心として混合量の変化幅を低減するものとする。この場合、混合レベル決定部211は、-20dbを中心(At4=-20db)とし、さらに変化幅を1/2の-2.5dB刻みとして、減衰量At1~At7を再設定する。この場合、混合レベル決定部211は、減衰量At1~At7を、それぞれ-12.5dB、-15dB、-17.5dB、-20dB、-22.5dB、-25dB、-27.5dBとする。以後、混合レベル決定部211は、次の認識結果に基づき、同様の手法により、さらに変化幅を精密化することによって、混合レベルを最適値に収束させてゆく。
【0096】
混合レベル決定部211は、所定の条件となるまでを限度として、混合量の適応化(変化幅の精密化)を行うようにしてもよい。混合レベル決定部211は、例えば、変化幅が所定の値(以下、「最低変化幅」と呼ぶ)となるまで、又は、音声認識部209で認識された認識信頼度が所定以上となるまで、混合量の適応化(変化幅の精密化)を行うようにしてもよい。
【0097】
以上のように、混合レベル決定部211は、第1の混合量適応化方法の処理を行う。
【0098】
[第2の混合量適応化方法について]
次に、混合レベル決定部211に、第2の混合量適応化方法を適用する場合の詳細について説明する。
【0099】
ここでは、まず、初期の状態から、音声認識部209において、混合音m1~m7について音声認識処理を行い、その結果、混合音m4の信頼度R4が最も高かったとする。このとき、混合レベル決定部211は、この結果を受けて、以降のエリア音出力Zに対する混合量を、前回最も信頼度が高かった混合音m4の減衰量(-20dB)を中心として、段階数Qを7から5に減らすようにしてもよい。段階数Qは、奇数であるほうが中心となる減衰量の設定が容易であるため、混合レベル決定部211は、段階数Qを2ずつ変動させることが好ましい。そして、混合レベル決定部211は、次の認識結果に基づき、同様の手法により、さらに段階数Qを減らして処理量を減らしていくようにしてもよい。
【0100】
混合レベル決定部211は、所定の条件となるまでを限度として、混合量の適応化(段階数Qの低減)を行うようにしてもよい。この場合、混合レベル決定部211は、例えば、段階数Qが所定の段階数(以下、「最低段階数」と呼ぶ)となった時点で、混合量の適応化(段階数Qの低減)を終了するようにしてもよい。
【0101】
以上のように、混合レベル決定部211は、第2の混合量適応化方法の処理を行う。
【0102】
上記では、第1、第2の混合量適応化方法で、適応対象のパラメータとして、変化幅又は段階数Qを適応化する方法を示したが、混合レベル決定部211は、どちらか一方に限定することなく双方を適応化してもよい。
【0103】
上記の例では、適応対象のパラメータ(変化幅、段階数Q)を減らす方向のみについて説明したが、1方向(減らす方向)だけでは、認識信頼度が局所値に陥り値が動かなくなってしまう。したがって、適応には、パラメータ(変化幅、段階数Q)を増やす方向も備える必要がある。増やす側の評価指標として、たとえば認識結果の信頼度Rを用いることができる。認識結果選択部210Aにおいて、認識結果の中で最も信頼度が高く最終の認識結果として選択された信頼度の値が、一定の水準に達しない場合、混合レベル決定部211は、混合量の変化幅、あるいは段階数を増やす方向の調整を行なうようにしてもよい。このとき、混合レベル決定部211は、変化幅については一度に2ずつ変動させ、変化幅については2倍ずつ変動させるようにしてもよい。
【0104】
なお、混合レベル決定部211は、上記のように適応対象のパラメータ(変化幅、段階数Q)を1度に変動する量(以下、「適応速度」と呼ぶ)を一定としてもよいし、変動させるようにしてもよい。例えば、混合レベル決定部211は、認識信頼度Rを適応速度の調整に用いるようにしてもよい。すなわち、混合レベル決定部211は、認識信頼度Rの高さ(例えば、最も高かった認識信頼度Rの値)に応じて適応速度を変化させるようにしてもよい。例えば、混合レベル決定部211は、認識信頼度R(例えば、最も高かった認識信頼度Rの値)が非常に高い(低い)場合は変化幅や段階数を大きく減らし(増やし)、やや高い(低い)程度では、増減幅を小さくするなどが考えられる。
【0105】
(B-3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
【0106】
第2の実施形態の音声認識装置200Aでは、認識結果に基づいて混合量を適応的に最適値に調整・決定しているため、非常に精度の高い混合量の決定、あるいは少ない処理量での混合量の決定が可能となる。
【0107】
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0108】
(C-1)上記の各実施形態では、音声認識装置200、200A自体が音声認識部209を有しており、自装置が有する音声認識部209を用いて音声認識処理の結果を取得しているが、音声認識装置200、200A自体が音声認識部209を備えず、外部の音声認識手段を用いて音声認識処理の結果を取得するようにしてもよい。
【符号の説明】
【0109】
10…音声認識部、100…マイクアレイ部、200、200A…音声認識装置、201…信号入力部、202…周波数変換部、203…指向性形成部、204…エリア音抽出部、205、205A…信号混合部、206…時間変換部、207…振幅スペクトル比算出部、208…音声区間検出部、209…音声認識部、210、210A…認識結果選択部、211…混合レベル決定部、300…記録装置、301…音声認識部、410…遅延器、420…減算器、500…コンピュータ、501…プロセッサ、502…一次記憶部、503…二次記憶部、MA1、MA2…マイクアレイ、mc1~mc4…マイクロホン。
図1
図2
図3
図4
図5
図6