IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧 ▶ 株式会社フィートの特許一覧

<>
  • 特許-収音装置、収音プログラム及び収音方法 図1
  • 特許-収音装置、収音プログラム及び収音方法 図2
  • 特許-収音装置、収音プログラム及び収音方法 図3
  • 特許-収音装置、収音プログラム及び収音方法 図4
  • 特許-収音装置、収音プログラム及び収音方法 図5
  • 特許-収音装置、収音プログラム及び収音方法 図6
  • 特許-収音装置、収音プログラム及び収音方法 図7
  • 特許-収音装置、収音プログラム及び収音方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-14
(45)【発行日】2022-10-24
(54)【発明の名称】収音装置、収音プログラム及び収音方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20221017BHJP
   H04R 1/40 20060101ALI20221017BHJP
【FI】
H04R3/00 320
H04R1/40 320A
【請求項の数】 8
(21)【出願番号】P 2018183817
(22)【出願日】2018-09-28
(65)【公開番号】P2020053920
(43)【公開日】2020-04-02
【審査請求日】2021-04-01
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(73)【特許権者】
【識別番号】515353110
【氏名又は名称】株式会社フィート
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】矢頭 隆
(72)【発明者】
【氏名】片桐 一浩
(72)【発明者】
【氏名】有光 哲彦
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2018-056902(JP,A)
【文献】特開2017-183902(JP,A)
【文献】特開2011-071702(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出処理を行ってエリア収音出力を取得する目的エリア音抽出手段と、
前記目的エリア音抽出処理で抑圧される周波数帯の前記目的エリア音の成分を復元する復元手段とを備え、
前記復元手段は、
前記入力信号から、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分の信号を混合信号として抽出する帯域通過フィルタ部と、
前記混合信号を、前記エリア収音出力に混合する信号混合部と、
前記入力信号の前記低周波数帯の範囲から成分が最大となる周波数を最大振幅周波数として検出し、前記低周波数帯の範囲から前記最大振幅周波数を含む帯域を前記帯域通過フィルタ部が前記混合信号を抽出する帯域として決定する補正帯域決定部を有する
ことを特徴とする収音装置。
【請求項2】
前記低周波数帯は、フォルマント周波数が含まれる蓋然性の高い範囲であることを特徴とする請求項1に記載の収音装置。
【請求項3】
前記低周波数帯は、1kHz以下の範囲であることを特徴とする請求項2に記載の収音装置。
【請求項4】
前記復元手段は成分ごとに、前記入力信号と前記エリア収音出力の成分の振幅レベルの差異に基いて、前記信号混合部が前記混合信号を前記エリア収音出力に混合する際の混合レベルを算出する混合レベル算出手段をさらに備え、
前記信号混合部は、前記混合信号を成分ごとに前記混合レベル算出手段が算出した前記混合レベルに補正して、前記エリア収音出力に混合する
ことを特徴とする請求項1~3のいずれかに記載の収音装置。
【請求項5】
前記復元手段は、前記エリア収音出力に対して、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分のレベルを調整するレベル調整部を有することを特徴とする請求項1~4のいずれかに記載の収音装置。
【請求項6】
前記復元手段は、前記入力信号と前記エリア収音出力の成分の振幅レベルの差異に基いて、前記レベル調整部が前記エリア収音出力のレベルを調整する際の調整レベルを算出する調整レベル算出手段をさらに備え、
前記レベル調整部は、前記エリア収音出力を前記調整レベル算出手段が算出した前記調整レベルに補正する
ことを特徴とする請求項に記載の収音装置。
【請求項7】
コンピュータを、
複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出処理を行ってエリア収音出力を取得する目的エリア音抽出手段と、
前記目的エリア音抽出処理で抑圧される周波数帯の前記目的エリア音の成分を復元する復元手段として機能させ、
前記復元手段は、
前記入力信号から、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分の信号を混合信号として抽出する帯域通過フィルタ部と、
前記混合信号を、前記エリア収音出力に混合する信号混合部と、
前記入力信号の前記低周波数帯の範囲から成分が最大となる周波数を最大振幅周波数として検出し、前記低周波数帯の範囲から前記最大振幅周波数を含む帯域を前記帯域通過フィルタ部が前記混合信号を抽出する帯域として決定する補正帯域決定部を有する
して機能させることを特徴とする収音プログラム。
【請求項8】
収音装置が行う収音方法において、
前記収音装置は、目的エリア音抽出手段及び復元手段を有し、前記復元手段は、帯域通過フィルタ部、信号混合部及び補正帯域決定部を有し、
前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出処理を行ってエリア収音出力を取得し、
前記復元手段は、前記目的エリア音抽出処理で抑圧される周波数帯の前記目的エリア音の成分を復元し、
前記帯域通過フィルタ部は、前記入力信号から、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分の信号を混合信号として抽出し、
前記信号混合部は、前記混合信号を、前記エリア収音出力に混合し、
前記補正帯域決定部は、前記入力信号の前記低周波数帯の範囲から成分が最大となる周波数を最大振幅周波数として検出し、前記低周波数帯の範囲から前記最大振幅周波数を含む帯域を前記帯域通過フィルタ部が前記混合信号を抽出する帯域として決定する
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、収音装置、収音プログラム及び収音方法に関し、例えば、雑音環境下で用いられる音声認識システムに適用する、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得るものである。
【背景技術】
【0002】
雑音環境下で音声通信システムや音声認識応用システムを利用する場合、必要な目的音声と同時に混入する周囲の雑音は、良好なコミュニケーションを阻害し、音声認識率の低下をもたらす厄介な存在である。従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで不要音の混入を避け必要な目的音を得る技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下単に、「BF」とも呼ぶ)がある。BFとは、複数のマイクロホンにより構成されたマイクロホンアレイにおいて、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
【0003】
図6は、従来のマイクロホン数が2個(マイクロホンmc1、mc2)の場合の減算型BF300に係る構成を示すブロック図である。
【0004】
図7は、2個のマイクロホンmc1、mc2を用いた減算型BF300により形成される指向特性を示す図である。
【0005】
図6に示す減算型BF300は、遅延器310と減算器320とを有している。
【0006】
減算型BF300は、まず遅延器310により目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は下記(1)式により算出される。ここで「d」はマイクロホン間の距離であり、「c」は音速であり、「τ」は遅延量である。また、ここで「θ」は、各マイクロホン(mc1、mc2)の間を結んだ直線に対する垂直方向から目的方向への角度である。
τ=(d sin θ)/c …(1)
【0007】
ここで、死角がマイクロホンmc1とマイクロホンmc2の中心に対し、マイクロホンmc1の方向に存在する場合、遅延器310は、マイクロホンmc1の入力信号x(t)に対し遅延処理を行うその後、減算型BF300では、減算器320が(2)式に従い減算処理を行う。
m(t)=x(t)-x(t-τ) …(2)
【0008】
減算器320では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下(3)式のように変更される。
【数1】
【0009】
ここでθ=±π/2の場合、減算器320で形成される指向性は図7(a)に示すように、カージオイド型の単一指向性となり、θ=0,πの場合は、図7(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼称する。
【0010】
また、減算器320では、スペクトル減算法(Spectral Subtraction;以下単に「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、マイクロホンmc1の入力信号Xを用いているが、マイクロホンmc2の入力信号Xでも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。
【0011】
減算器320では、減算処理時に値がマイナスになった場合は、0または元の値を小さくした値に置き換える処理(フロアリング処理)を行う。この方式により、減算器320では、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
Y(n)=X(n)-βM(n) …(4)
【0012】
ところで、ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源の音(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1の記載技術では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(以下、「エリア収音」と呼ぶ)を提案している。
【0013】
以下では、特許文献1に記載された従来のエリア収音処理について説明する。
【0014】
図8は、2つのマイクロホンアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する処理について示した説明図である。
【0015】
図8(a)は、各マイクロホンアレイの構成例について示した説明図である。図8(b)、図8(c)は、それぞれ図8(a)に示すマイクロホンアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。
【0016】
図8(a)に示すように、マイクロホンアレイMA1、MA2の指向性を別々の方向から収音したいエリア(目的エリア)で交差させて収音する。図8(a)の状態では、各マイクロホンアレイMA1、MA2の指向性に目的エリア内に存在する音(目的エリア音)だけでなく、目的エリア方向の雑音(非目的エリア音)も含まれている。しかし、図8(b)、図8(c)に示すように、マイクロホンアレイMA1、MA2の指向性を周波数領域で比較すると、目的エリア音成分はどちらの出力にも含まれるが、非目的エリア音成分は各マイクロホンアレイで異なることになる。このような特性を利用し、2つのマイクロホンアレイMA1、MA2のBF出力に、共通に含まれる成分以外を抑圧することで目的エリア音のみ抽出することができる。
【0017】
まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。例として2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、(5)、(6)式または(7)、(8)式により算出される。
【数2】
【0018】
ここで、「Y1k(n)」、「Y2k(n)」はそれぞれマイクロホンアレイMA1、MA2のBF出力の振幅スペクトルであり、「N」は周波数ビンの総数であり、「k」は周波数であり、「α(n)」、「α(n)」はそれぞれ各BF出力に対する振幅スペクトル補正係数である。また、ここで、「mode」は最頻値を表し、「median」は中央値を表している。
【0019】
その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
【0020】
(9)式に従い、マイクロホンアレイMA1のBF出力Y(n)からマイクロホンアレイMA2のBF出力Y(n)に振幅スペクトル補正係数αを掛けたものをSSすることで、マイクロホンアレイMA1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出することができる。同様に、特許文献1では、(10)式に従い、マイクロホンアレイMA2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出することができる。
(n)=Y(n)-α(n)Y(n) …(9)
(n)=Y(n)-α(n)Y(n) …(10)
【0021】
その後、(11)、(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。(11)式は、マイクロホンアレイMA1を基準として目的エリア音を抽出する処理を示している。また、(12)式は、マイクロホンアレイMA2を基準として目的エリア音を抽出する処理を示している。
【0022】
ここで「γ(n)」,「γ(n)」は、それぞれSS時の強度を変更(補正)するための係数である。
(n)=Y(n)-γ(n)N(n) …(11)
(n)=Y(n)-γ(n)N(n) …(12)
【0023】
背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより、目的エリア音が歪んだり、ミュージカルノイズ等の耳障りな異音が発生する可能性がある。
【0024】
そこで特許文献2に記載されたエリア収音処理では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。
【0025】
目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくする。背景雑音を抑圧する過程で求める推定雑音から、背景雑音の音量レベルを算出する。また、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから、非目的エリア音の音量レベルを算出する。さらに、推定雑音と非目的エリア音の音量レベルから、混合する入力信号と推定雑音の比率を決定する。目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。
【0026】
以上のように、特許文献2のエリア収音処理を適用することにより、目的エリア音に入力信号及び推定雑音を混合することによりミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。また、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。
【先行技術文献】
【特許文献】
【0027】
【文献】特開2014-072708号公報
【文献】特開2017-183902号公報
【非特許文献】
【0028】
【文献】浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,日本音響学会編,コロナ社,2011年2月25日発行
【発明の概要】
【発明が解決しようとする課題】
【0029】
しかしながら、特許文献1のエリア収音やBFなどの手法は、周囲の雑音が抑圧され音声の明瞭性は上がるが、音声認識率(音声認識装置にエリア収音結果を供給した場合における音声認識精度)が改善するとは限らない信号処理により周波数特性が変化する。そのため、特許文献1のエリア収音やBFなどの手法によりエリア収音した結果を、音声認識装置に入力した場合、エリア収音処理による周波数特性の変化が、音声認識率に影響する可能性がある。一方、特許文献2のミキシング手法も、ミュージカルノイズの低減、聴感上の音質(人間が聴取した場合における音質)の改善には有効であるが、抑圧した雑音を戻すことにもなり、音声認識の精度向上にはつながらないという問題があった。
【0030】
そのため、音声認識処理の音声認識精度を向上させるエリア収音結果を得る収音装置、収音プログラム及び収音方法が望まれている。
【課題を解決するための手段】
【0031】
第1の本発明の収音装置は、(1)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出処理を行ってエリア収音出力を取得する目的エリア音抽出手段と、(2)前記目的エリア音抽出処理で抑圧される周波数帯の前記目的エリア音の成分を復元する復元手段とを有し、(3)前記復元手段は、(3-1)前記入力信号から、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分の信号を混合信号として抽出する帯域通過フィルタ部と、(3-2)前記混合信号を、前記エリア収音出力に混合する信号混合部と、(3-3)前記入力信号の前記低周波数帯の範囲から成分が最大となる周波数を最大振幅周波数として検出し、前記低周波数帯の範囲から前記最大振幅周波数を含む帯域を前記帯域通過フィルタ部が前記混合信号を抽出する帯域として決定する補正帯域決定部を有することを特徴とする。
【0032】
第2の本発明の収音プログラムは、(1)コンピュータを、(2)複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出処理を行ってエリア収音出力を取得する目的エリア音抽出手段と、(3)前記目的エリア音抽出処理で抑圧される周波数帯の前記目的エリア音の成分を復元する復元手段として機能させ、(4)前記復元手段は、(4-1)前記入力信号から、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分の信号を混合信号として抽出する帯域通過フィルタ部と、(4-2)前記混合信号を、前記エリア収音出力に混合する信号混合部と、(4-3)前記入力信号の前記低周波数帯の範囲から成分が最大となる周波数を最大振幅周波数として検出し、前記低周波数帯の範囲から前記最大振幅周波数を含む帯域を前記帯域通過フィルタ部が前記混合信号を抽出する帯域として決定する補正帯域決定部を有することを特徴とする。
【0033】
第3の本発明は、収音装置が行う収音方法において、(1)前記収音装置は、目的エリア音抽出手段及び復元手段を有し、前記復元手段は、帯域通過フィルタ部、信号混合部及び補正帯域決定部を有し、(2)前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出処理を行ってエリア収音出力を取得し、(3)前記復元手段は、前記目的エリア音抽出処理で抑圧される周波数帯の前記目的エリア音の成分を復元し、(4)前記帯域通過フィルタ部は、前記入力信号から、前記目的エリア音を構成する前記所定範囲の周波数帯域の成分の信号を混合信号として抽出し、(5)前記信号混合部は、前記混合信号を、前記エリア収音出力に混合し、(6)前記補正帯域決定部は、前記入力信号の前記低周波数帯の範囲から成分が最大となる周波数を最大振幅周波数として検出し、前記低周波数帯の範囲から前記最大振幅周波数を含む帯域を前記帯域通過フィルタ部が前記混合信号を抽出する帯域として決定することを特徴とする。
【発明の効果】
【0034】
本発明によれば、音声認識処理の音声認識精度を向上させるエリア収音結果を得ることができる。
【図面の簡単な説明】
【0035】
図1】第1の実施形態に係る各装置の接続構成及び収音装置の機能的構成を示すブロック図である。
図2】第1~第4の実施形態に係る各装置の接続構成及び収音装置のハードウェア構成の例について示したブロック図である。
図3】第2の実施形態に係る各装置の接続構成及び収音装置の機能的構成を示すブロック図である。
図4】第3の実施形態に係る各装置の接続構成及び収音装置の機能的構成を示すブロック図である。
図5】第4の実施形態に係る各装置の接続構成及び収音装置の機能的構成を示すブロック図である。
図6】従来の減算型BF(マイクロホンの数が2個の場合)の構成を示すブロック図である。
図7】従来の減算型BF(マイクロホンの数が2個の場合)により形成される指向性フィルタの例について示した説明図である。
図8】従来の収音装置において、2つのマイクロホンアレイのビームフォーマ(BF)による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図。
【発明を実施するための形態】
【0036】
(A)第1の実施形態
以下、本発明による収音装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
【0037】
(A-1)第1の実施形態の構成
収音装置10は、2つのマイクロホンアレイMA(MA1、MA2)を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
【0038】
そして、この実施形態の収音装置10により取得された出力信号(目的エリア音収音処理の結果)wは、音声認識装置20に供給される。音声認識装置20は、供給された音声信号に基づいた音声認識処理を含む処理を行う装置である。
【0039】
マイクロホンアレイMA1、MA2は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイMAは2つ以上のマイクロホンmcから構成され、各マイクロホンmcにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンmcが配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。この実施形態では、各マイクロホンアレイMA1、MA2おいて、マイクロホンmc間の距離は、例えば、3cmとしてもよい。
【0040】
以下では、マイクロホンアレイMA1が2つのマイクロホンmc1、mc2を有し、マイクロホンアレイMA2が2つのマイクロホンmc3、mc4を有するものとして説明する。
【0041】
次に、収音装置10の内部構成について説明する。
【0042】
収音装置10は、信号入力部101、時間/周波数変換部102、指向性形成部103、エリア音抽出部104、帯域通過フィルタ部105、混合レベル算出部106、信号混合部107、周波数/時間変換部108を有している。収音装置10を構成する各機能ブロックの詳細処理については後述する。
【0043】
第1の実施形態の収音装置10は、目的エリア音抽出処理で減衰される音声(目的エリア音)の成分を復元する復元手段として、帯域通過フィルタ部105、混合レベル算出部106及び信号混合部107を有している。
【0044】
収音装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の判定プログラムや収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0045】
図2は、収音装置1のハードウェア構成の例について示したブロック図である。なお、図2における括弧内の符号は後述する第2~第4の実施形態で用いられる符号である。
【0046】
図2では、収音装置1をソフトウェア(コンピュータ)を用いて構成する際の構成について示している。
【0047】
図2に示す収音装置1は、ハードウェア的な構成要素として、少なくとも信号入力部101と、プログラム(実施形態の収音プログラムを含むプログラム)がインストールされたコンピュータ200を有している。
【0048】
信号入力部101は、例えば、A/Dコンバータを用いて構成することができる。なお、コンピュータ200自体にA/Dコンバータが搭載されていれば、信号入力部101を別途設ける必要はない。
【0049】
コンピュータ200は、信号入力部101から供給される音響信号(デジタル音響信号)にエリア収音処理を施して出力する処理を行う。この実施形態では、コンピュータ200に、この実施形態の収音プログラムを含むプログラム(ソフトウェア)がインストールされているものとする。
【0050】
なお、コンピュータ200は、収音プログラム専用のコンピュータとしてもよいし、他の機能(例えば、音声認識装置20)のプログラムと共用される構成としてもよい。
【0051】
図2に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリが適用される。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
【0052】
なお、コンピュータ200の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次メモリについては除外した構成としてもよい。
【0053】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の収音装置10の動作を説明する。
【0054】
信号入力部101は、4つのマイクロホンmc1~mc4で収音した音響信号をアナログ信号からデジタル信号に変換する。以下では、マイクロホンmc1~mc4で収音した音響信号に基づくデジタル信号(時間領域のデジタル信号)を、それぞれx1~x4と呼ぶ。信号入力部101は、入力信号x1~x4を、時間/周波数変換部102に供給する。
【0055】
指向性形成部103は、時間/周波数変換部102によって時間/周波数変換された各入力信号X1~X4を用いて(3)式、(4)式に従いBFにより指向性を形成する。以下では、マイクロホンアレイMA1によるBF出力を「Y1」とし、マイクロホンアレイMA2によるBF出力を「Y2」とする。
【0056】
エリア音抽出部104は、指向性形成部103で生成されたBF出力Y1、Y2を用いて(9)式、もしくは(10)式に従いSSし、目的エリア方向に存在する非目的エリア音を抽出する。そして、エリア音抽出部104は、抽出した雑音を各BF出力から(10)、もしくは(11)式に従いSSすることにより目的エリア音を抽出する。実際には、エリア音抽出部104では、エリア音抽出に当たって、「(5)式、(6)式」、あるいは「(7)式、(8)式」によって各マイクロホンアレイMA1、MA2のBF出力Y1、Y2に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする処理等も必要となる。補正係数の求め方については、既存のエリア収音処理と同様の処理を適用できるため、本明細書では詳細説明を省略する。
【0057】
収音装置10では、ここまでのエリア収音処理(エリア音抽出部104までの処理)によって、目的音が存在する目的エリアで発生した目的エリア音だけが抽出され、周囲に音声認識に不要な雑音があっても、目的とする音声(音声認識装置20で必要となる音声)だけを取り出すことができる。しかしながら、収音装置10では、ここまでのエリア収音処理の過程で、本来音声信号が有する周波数特性(目的エリアから発せられた音声自体の周波数特性)が変形する場合がある。特に、従来のエリア収音処理を行った場合、エリア収音出力(エリア収音結果)において低周波数の帯域(例えば、1kHz以下の周波数帯域)が抑圧される傾向にある。従来のエリア収音処理では、とりわけ第1フォルマントなど音声認識にとっての重要な成分が含まれる低周波数域が抑圧される特性があり、これが音声認識率を低下させる要因となっている。そのため、従来のエリア収音処理によって抽出された目的音信号(エリア収音出力)を、そのまま音声認識装置20に与えても、高い認識率が得られない可能性がある。
【0058】
そこで、この実施形態の収音装置10では、入力信号X(例えば、X1~X4のいずれか)から、エリア収音処理によって抑圧される周波数帯域の成分を抽出した信号(以下、「混合信号」と呼ぶ)を、エリア収音出力Zに混合することで、抑圧された帯域の成分を補正・復元する。
【0059】
帯域通過フィルタ部105では、エリア収音処理(エリア音抽出部104までの処理)によって抑圧される周波数帯域(以下、「抑圧周波数帯域」とも呼ぶ)を通過させる帯域通過フィルタを用いて、入力信号Xから抑圧周波数帯域を通過させた信号(元の信号に存在する抑圧周波数帯域の成分)を混合信号として取得する。以下では、帯域通過フィルタ部105で通過させる周波数帯域を「通過帯域」とも呼ぶ。
【0060】
上述の通り、従来のエリア収音処理では、1kHz以下の成分が抑圧される特性があるため、この実施形態の帯域通過フィルタ部105では、通過帯域を概ね100Hz~1kHz程度に設定するものとする。この周波数帯域は、通常音声の第1フォルマントが存在する領域であり、音声認識処理に与える影響が大きい成分となる。なお、入力信号Xは、すでに周波数変換された信号であるため、帯域通過フィルタ部105の処理は、必要な帯域成分(通過帯域の成分)を抜き出すだけの処理でよい。
【0061】
混合レベル算出部106では、帯域通過フィルタ部105で抽出された混合信号を、エリア収音出力Zに混合する際の、適正な混合レベルを算出する。混合レベル算出部106では、入力信号Xとエリア収音出力Zから、抑圧を受ける周波数帯域の両成分の差異を算出し、当該差異を埋める形で、最大で元の信号の成分を超えない範囲で混合レベルを決定する。混合レベル算出部106での適正レベルの算出は、後段に接続する音声認識装置20の特性に応じ、予め定めておくことが好適である。
【0062】
信号混合部107は、帯域通過フィルタ部105の出力である混合信号を、混合レベル算出部106で算出した混合レベルにしたがって、エリア収音出力Zに混合して出力する。以下では、信号混合部107が出力する信号を出力信号Wと呼ぶ。
【0063】
ここで例として、混合レベル算出部106が通過帯域の任意の周波数k1について混合レベルを決定する処理について説明する。ここで入力信号Xにおける周波数k1のパワーをXk1、エリア収音出力Zにおける周波数k1のパワーをZk1、周波数k1の混合レベルをLMk1とする。この場合、LMk1は、Xk1とZk1との差分以下のパワー(Xk1-Zk1≧LMk1)に設定するようにしてもよい。例えば、LMk1をXk1とZk1との差分(Xk1-Zk1)に係数a(0<a≦1)を乗じた値(LMk1=(Xk1-Zk1)・a)に設定するようにしてもよい。混合レベル算出部106では、以上のような処理を通過帯域の各周波数について実行する。
【0064】
そして、信号混合部107は、混合信号における周波数k1の成分のレベルをLMk1に相当するレベルに補正して、エリア収音出力Zにおける周波数k1のパワーをZk1に混合する。信号混合部107では、以上のような処理を通過帯域の各周波数について実行する。ここでは、通過帯域の周波数毎に混合レベルを決定したが、通過帯域全体で、入力信号Xと、エリア収音出力Zの、それぞれの平均振幅を算出し、当該平均振幅の差異に基いて、通過帯域一律の混合レベルを決定してもよい。
【0065】
なお、混合レベル算出部106は、必ずしも必須な構成ではなく、帯域通過フィルタ部105の出力である混合信号を、一定割合減じて(例えば、-6dB程度減じて)エリア収音出力Zに混合するようにしてもよい。
【0066】
補正された出力信号Wは、周波数/時間変換部108で時間信号に変換され、音声認識装置20に供給される。以下では、周波数/時間変換部108が出力する信号(出力信号Wが時間領域に変換された信号)を出力信号wとする。
【0067】
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0068】
第1の実施形態の収音装置10では、エリア収音処理によって抑圧される周波数帯域の成分を、入力信号Xから取り出した前記抑圧される周波数帯域の成分をエリア収音出力信号に混合することで、補正・復元している。言い換えると、第1の実施形態の収音装置10では、エリア収音処理によって抑圧される低周波数帯域の成分を、入力信号から帯域通過フィルタを通して取り出し、エリア収音出力に混合することにより復元する。これにより、第1の実施形態の収音装置10では、エリア収音処理による環境雑音の抑圧効果と相まって、高い音声認識精度を得ることができる。
【0069】
(B)第2の実施形態
以下、本発明による収音装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
【0070】
(B-1)第2の実施形態の構成
図3は、第2の実施形態の収音装置10Aに係る機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分については同一符号又は対応符号を付している。
【0071】
以下では、第2の実施形態について第1の実施形態との差異を説明する。
【0072】
なお、第2の実施形態の収音装置10Aのハードウェア構成についても上述の図2を用いて示すことができる。
【0073】
第2の実施形態の収音装置10Aでは、混合レベル算出部106が混合レベル算出部106Aに置き換えられ、補正帯域決定部109が追加されている点で第1の実施形態と異なっている。
【0074】
第2の実施形態の収音装置10Aは、目的エリア音抽出処理で減衰される音声(目的エリア音)の成分を復元する復元手段として、帯域通過フィルタ部105、混合レベル算出部106A、及び信号混合部107を有している。
【0075】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の収音装置10Aの動作(実施形態に係る収音方法)について、第1の実施形態との差異を中心に説明する。
【0076】
第2の実施形態では、上述の通り、混合レベル算出部106Aと補正帯域決定部109のみが第1の実施形態と異なっているため、以下では混合レベル算出部106Aと補正帯域決定部109の動作を中心に説明する。
【0077】
第1の実施形態の収音装置10では、エリア収音出力Zに対して、信号混合によって補正する周波数帯域が固定帯域であった。これに対して、第2の実施形態では、エリア収音出力Zに対して補正する周波数帯域を、入力信号の特性に応じて適応的(動的)に決定する点で第1の実施形態と異なっている。
【0078】
エリア収音処理(エリア音抽出部104までの処理)では目的エリア以外で発生する不要音(非目的エリア音)を抑圧していることから、エリア収音出力Zに対する混合信号(入力信号成分)の混合によって、必要以上の成分が混合されることはできるだけ回避したい。
【0079】
そこで、この実施形態では、出力信号wにおいて音声認識に重要な意味を成す第1フォルマントの成分を維持することを狙いとして、フォルマントトラッキングに類似した処理を行う。騒音下で収音された音声からフォルマント周波数を検出・追跡することは容易ではない。
【0080】
そのため、この実施形態の収音装置10Aでは、入力信号に含まれる音声のフォルマント周波数を陽に算出せず、フォルマント周波数が含まれる蓋然性の高い所定範囲の周波数帯域を補正帯域として選択する。具体的には、この実施形態の収音装置10Aでは、入力信号に対するエリア収音処理によって抑圧される低周波数帯域の範囲から、周波数成分の最大値を検出し、検出した周波数を中心として所定範囲の周波数帯域(例えば、検出した周波数を中心として200~300Hz)を補正帯域とする。音声の振幅スペクトルは、細い線スペクトルになるため、最大値を安定して抽出するためには、最大値探索に先立って振幅スペクトルを周波数軸上で平滑化しておくのが好適である。
【0081】
補正帯域決定部109は、上記のような処理によって入力信号Xから補正帯域を決定する。そして、補正帯域決定部109は、決定された補正帯域の情報(以下、「帯域情報」とも呼ぶ)を帯域通過フィルタ部105に供給する。なお、補正帯域決定部109は、補正帯域の決定を行う際、時間領域の入力信号xから線形予測(LPC)分析を行なってLPCスペクトル包絡のピーク周波数を検出してもよい。
【0082】
帯域通過フィルタ部105は、供給された帯域情報(補正帯域の情報)に従って、入力信号Xから補正帯域の成分を取り出して混合信号とする。補正帯域決定部109で決定された帯域情報は、混合レベル算出部106Aにも与えられる。
【0083】
混合レベル算出部106Aは、入力信号Xとエリア収音出力Zから、抑圧を受ける周波数帯域の両成分の差異を算出し、当該差異を埋める形で、最大で元の信号の成分を超えない範囲で混合レベルを決定する。このとき、混合レベル算出部106Aでは、混合レベルを算出するための、入力信号Xとエリア収音出力Zの評価周波数帯域として、補正帯域決定部109で決定された帯域情報を用いる点で第1の実施形態と異なる。
【0084】
信号混合部107では、以上のようにして求められた混合信号を、混合レベル算出部で決められた混合レベルに則り、エリア収音出力Zに混合する。
【0085】
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0086】
第2の実施形態の収音装置10Aでは、エリア収音処理によって抑圧される低周波数帯域の範囲から、補正する帯域(混合信号を抽出して混合する帯域)を、入力信号に応じて(例えば、入力信号の最大振幅周波数に応じて)決定しているため、入力信号の音声認識に重要な成分だけを効果的に補正・強調することができる。
【0087】
(C)第3の実施形態
以下、本発明による収音装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
【0088】
(C-1)第3の実施形態の構成
図4は、第3の実施形態の収音装置10Bに係る機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分については同一符号又は対応符号を付している。
【0089】
なお、第3の実施形態の収音装置10Bのハードウェア構成についても上述の図2を用いて示すことができる。
【0090】
第3の実施形態の収音装置10Bは、信号入力部101、時間/周波数変換部102、指向性形成部103、エリア音抽出部104、周波数/時間変換部108、調整レベル算出部110、及びレベル調整部111を有している。
【0091】
第3の実施形態の収音装置10Bは、目的エリア音抽出処理で減衰される音声(目的エリア音)の成分を復元する復元手段として、調整レベル算出部110及びレベル調整部111を有している。
【0092】
(C-2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の収音装置10Bの動作(実施形態に係る収音方法)について説明する。
【0093】
第3の実施形態において、信号入力部101、時間/周波数変換部102、指向性形成部103、エリア音抽出部104、及び周波数/時間変換部108の動作については第1の実施形態と同様であるため詳しい説明を省略する。
【0094】
第3の実施形態の収音装置10Bでは、エリア収音によって抑圧される周波数帯域の補正を、入力信号成分の混合ではなく、エリア周囲音出力の抑圧された周波数帯域成分をイコライジングによってブースト(レベル調整)するところが、第1の実施形態と異なる。入力信号はエリア収音処理前の信号であるから、その中には目的エリア以外で発生した妨害音成分が含まれる。そこで第3の実施形態の収音装置10Bでは、エリア収音出力Zそのもの(目的エリア以外で発生した妨害音成分を含まない信号)の周波数成分を、レベル調整部111においてレベル調整する。
【0095】
レベル調整部111がレベル調整する周波数帯域(以下、「調整帯域」と呼ぶ)は、第1の実施形態と同様に、エリア収音処理によって抑圧を受ける概ね100Hz~1kHz程度に固定してもよいし、第2の実施形態のように、入力信号に応じて適応的に定めてもよい。第3の実施形態のレベル調整部111では、第1の実施形態と同様に、補正する周波数帯域は固定的に定められているものとして説明する。
【0096】
調整レベル算出部110は、入力信号Xとエリア収音出力Zから、抑圧を受ける周波数帯域の両成分の差異を算出し、最大で元の信号の成分を超えない範囲で当該差異を埋めるための調整レベル(ブーストレベル)を決定する。
【0097】
レベル調整部111は、調整レベル算出部110で決定された調整レベルにしたがって、エリア収音出力Zの抑圧された低周波数帯域の成分に対して、レベル調整(ブースト)によって周波数特性を補正・復元する。
【0098】
ここで例として、調整レベル算出部110が調整帯域の任意の周波数k1について調整レベルを決定する処理について説明する。ここで入力信号Xにおける周波数k1のパワーをXk1、エリア収音出力Zにおける周波数k1のパワーをZk1、周波数k1の調整レベルをLTk1とする。この場合、LTk1は、Xk1とZk1との差分以下のパワー(Xk1-Zk1≧LTk1)に設定するようにしてもよい。例えば、LTk1をXk1とZk1との差分(Xk1-Zk1)に係数a(0<a≦1)を乗じた値(LTk1=(Xk1-Zk1)・a)に設定するようにしてもよい。調整レベル算出部110では、以上のような処理を調整帯域の各周波数について実行する。
【0099】
そして、レベル調整部111は、周波数k1について調整レベル算出部110が算出した混合レベルがLMk1であった場合、エリア収音出力Zにおける周波数k1の成分Zk1のレベルをLTk1に相当するレベル分ブースト(イコライジング)する。レベル調整部111では、以上のような処理を調整帯域の各周波数について実行する。
【0100】
(C-3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
【0101】
第3の実施形態の収音装置10Bでは、エリア収音処理によって抑圧される周波数帯域の成分を、エリア収音出力Zでイコライジング(ブースト;レベル調整)することで、補正・復元している。言い換えると、第3の実施形態の収音装置10Bでは、エリア収音処理によって抑圧される低周波数帯域に対して、エリア収音出力Zの当該周波数帯域をブーストすることよって補正する。これにより、第3の実施形態の収音装置10Bでは、エリア収音処理による環境雑音の抑圧効果と相まって、高い音声認識精度を得ることができる。
【0102】
また、第3の実施形態の収音装置10Bでは、周波数特性の補正に、目的エリア以外で発生した妨害音成分を含まない、エリア収音出力Zをベースに使用しているため、妨害音の影響を受け難いという効果を奏する。
【0103】
(D)第4の実施形態
以下、本発明による収音装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
【0104】
(D-1)第4の実施形態の構成
図5は、第4の実施形態の収音装置10Cに係る機能的構成について示したブロック図であり、上述の図1と同一部分又は対応部分については同一符号又は対応符号を付している。
【0105】
なお、第4の実施形態の収音装置10Cのハードウェア構成についても上述の図2を用いて示すことができる。
【0106】
第4の実施形態の収音装置10Cは、信号入力部101、時間/周波数変換部102、指向性形成部103、エリア音抽出部104、帯域通過フィルタ部105、信号混合部107、周波数/時間変換部108、レベル算出部112、及びレベル調整部111Cを有している。
【0107】
第4の実施形態の収音装置10Cは、目的エリア音抽出処理で減衰される音声(目的エリア音)の成分を復元する復元手段として、帯域通過フィルタ部105、レベル算出部112及びレベル調整部111Cを有している。
【0108】
(D-2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態の収音装置10Cの動作(実施形態に係る収音方法)について説明する。
【0109】
信号入力部101、時間/周波数変換部102、指向性形成部103、エリア音抽出部104、帯域通過フィルタ部105、及び周波数/時間変換部108の詳細動作については、第1の実施形態と同様であるため説明を省略する。
【0110】
第1の実施形態の収音装置10、および第2の実施形態の収音装置10Aでは、入力信号から、エリア収音処理によって抑圧される周波数帯域の成分を抽出し、エリア収音出力に混合することで、抑圧された帯域の成分を補正・復元した。また、第3の実施形態の収音装置10Bでは、エリア収音出力をブーストすることで抑圧された帯域の成分を補正・復元した。入力信号の混合では、目的エリア外で発生した妨害音が混入する恐れがあり、エリア収音出力のブーストでは、そもそもエリア収音処理での低周波数域の抑圧によって強調・復元すべき成分が失われている可能性もある。それぞれに長短があり、何れか一方の手法で復元を行なうのはリスクが伴う。
【0111】
そこで、第4の実施形態の収音装置10Cでは、何れか一方の手法のみで復元を目指すのではなく、「入力信号の帯域成分の混合」(第1の実施形態の処理)と「エリア収音出力Zのブースト」(第3の実施形態の処理)の双方を組み合わせ、より安定した抑圧成分の補正・復元をおこなう。
【0112】
帯域通過フィルタ部105は、周波数変換された入力信号から帯域通過フィルタ処理によって、エリア収音処理によって抑圧された低周波数帯域の成分を混合信号として取り出す。
【0113】
レベル算出部112は、入力信号Xとエリア収音出力Zから、エリア収音処理による低周波数帯域の減衰量を算出し、当該減衰量の大きさから、調整レベル(レベル調整部111Cにおけるエリア収音出力Zのブーストレベル)、及び混合レベル(信号混合部107における混合信号の混合レベル)を算出する。レベル算出部112において、エリア収音出力のブーストと混合信号の混合をどの程度の割合で配分するかは、使用する音声認識システムの特性に合わせて定めるのが好適である。
【0114】
レベル調整部111Cは、レベル算出部112で決定された調整レベルにしたがって、エリア収音出力Zの抑圧された低周波数帯域の成分に対して、レベル調整(ブースト)によって周波数特性を補正・復元する。第4の実施形態では、レベル調整部111Cが、エリア収音出力Zについてレベル調整(ブースト)した信号を「エリア収音出力Z’」と呼ぶものとする。
【0115】
信号混合部107は、帯域通過フィルタ部105の出力である混合信号を、混合レベル算出部106で算出した混合レベルにしたがって、エリア収音出力Z’に混合して出力する。第4の実施形態では、信号混合部107が出力する信号を出力信号Wと呼ぶ。
【0116】
ここで例として、レベル算出部112が調整帯域/通過帯域の任意の周波数k1について調整レベル及び混合レベルを決定する処理について説明する。なお、ここでは、調整帯域と通過帯域は同じ範囲(例えば、両方とも100Hz~1KHzの範囲)であるものとして説明する。ここで入力信号Xにおける周波数k1のパワーをXk1、エリア収音出力Zcにおける周波数k1のパワーをZk1、周波数k1の混合レベルをLMk1、周波数k1の調整レベルをLTk1とする。この場合、レベル算出部112は、LMk1とLTk1の合計値(LMk1+LTk1)を、Xk1とZk1との差分以下のパワー(Xk1-Zk1≧LMk1+LTk1)に設定するようにしてもよい。例えば、LMk1とLTk1の合計値(LMk1+LTk1)を、Xk1とZk1との差分(Xk1-Zk1)に係数a(0<a≦1)を乗じた値(LMk1+LTk1=(Xk1-Zk1)・a)に設定するようにしてもよい。レベル算出部112では、以上のような処理を通過帯域/調整帯域の各周波数について実行する。また、上述の通り、レベル算出部112において、調整レベルをLTk1と混合レベルLMk1をどの程度の割合で配分するかは限定されないものであるが、使用する音声認識システムの特性に合わせて定めるのが好適である。
【0117】
(D-3)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
【0118】
第4の実施形態の収音装置10Cでは、第3の発明は、エリア収音処理によって抑圧される低周波数帯域に対して、入力信号の混合処理(第1の実施形態の処理)と、エリア収音出力信をブーストする処理(第3の実施形態の処理)の双方を組み合せて補正・復元する。これにより、第4の実施形態の収音装置10Cでは、第1及び第3の実施形態より安定した復元性能が得られ、その結果、高い音声認識率が得られる。
【0119】
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0120】
(E-1)上記の各実施形態では、収音装置と音声認識装置を別個の装置として記載していたが、1つの装置(例えば、1つのコンピュータ上)で構成するようにしてもよい。
【0121】
(E-2)第2の実施形態の収音装置10Aでは、エリア収音処理によって抑圧される低周波数帯域の範囲から、混合信号を抽出して混合する帯域(補正する帯域)を、入力信号に応じて動的に決定しているが、第3の実施形態においても同様に、レベル調整する対象の帯域(補正する帯域)を、入力信号に応じて動的に設定するようにしてもよい。言い換えると、第3の実施形態においても、レベル調整する対象の帯域(補正する帯域)を、入力信号に応じて適応的に決定する補正帯域決定部を備えるようにしてもよい。
【0122】
(E-3)第4の実施形態では、エリア収音出力Zを、レベル調整部111C、信号混合部107の順に補正しているが、レベル調整部111Cと信号混合部107の順序を入れ替えるようにしてもよい。
【符号の説明】
【0123】
10、10A、10B、10C…収音装置、101…信号入力部、102…周波数変換部、103…指向性形成部、104…エリア音抽出部、105…帯域通過フィルタ部、106、106A…混合レベル算出部、107…信号混合部、108…時間変換部、109…補正帯域決定部、110、110C…調整レベル算出部、111、111C…レベル調整部、112…レベル算出部、20…音声認識装置、200…コンピュータ、201…プロセッサ、202…一次記憶部、203…二次記憶部、MA、MA1、MA2…マイクロホンアレイ、mc、mc1~mc4…マイクロホン。
図1
図2
図3
図4
図5
図6
図7
図8