特許第5772562号(P5772562)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特許5772562目的音抽出装置及び目的音抽出プログラム
<>
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000006
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000007
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000008
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000009
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000010
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000011
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000012
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000013
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000014
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000015
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000016
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000017
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000018
  • 特許5772562-目的音抽出装置及び目的音抽出プログラム 図000019
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5772562
(24)【登録日】2015年7月10日
(45)【発行日】2015年9月2日
(54)【発明の名称】目的音抽出装置及び目的音抽出プログラム
(51)【国際特許分類】
   G10L 21/0308 20130101AFI20150813BHJP
   H04R 3/00 20060101ALI20150813BHJP
   G10L 21/0232 20130101ALI20150813BHJP
   G10L 21/0264 20130101ALI20150813BHJP
【FI】
   G10L21/0308 A
   H04R3/00 320
   G10L21/0232
   G10L21/0264 A
【請求項の数】7
【全頁数】24
(21)【出願番号】特願2011-272620(P2011-272620)
(22)【出願日】2011年12月13日
(65)【公開番号】特開2013-125085(P2013-125085A)
(43)【公開日】2013年6月24日
【審査請求日】2014年8月15日
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100090620
【弁理士】
【氏名又は名称】工藤 宣幸
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】高橋 克之
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2008−135933(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 21/0308
G10L 21/0232
G10L 21/0264
(57)【特許請求の範囲】
【請求項1】
入力信号を時間領域から周波数領域に変換する周波数解析手段と、
上記周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段と、
上記指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段と、
上記目的音判定手段から得られた入力フレームにおける検出結果値と、上記入力フレームより一つ前のフレームで得られた上記検出結果値の長期平均値とを重み付け平均処理することにより、上記入力フレームにおける上記検出結果値の長期平均値を求める長期平均処理手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段と、
上記発話速度検出手段により検出された上記発話速度に応じて、上記長期平均処理手段の上記重み付け平均処理に係る重み係数を制御する重み係数制御手段と、
上記長期平均処理手段の上記入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段と、
上記利得制御手段により制御された利得を、入力された信号に乗算する利得乗算手段と
を備えることを特徴とする目的音抽出装置。
【請求項2】
上記重み係数制御手段が、
上記発話速度と上記長期平均処理手段における重み係数とを対応付けた対応テーブルを記憶する記憶部と、
上記対応テーブルを参照して、上記発話速度検出手段から得た上記発話速度に対応する上記重み係数を決定する重み係数決定部と、
上記重み係数決定部により決定された上記重み係数を、上記長期平均処理手段に与える出力部と
を有することを特徴とする請求項1に記載の目的音抽出装置。
【請求項3】
上記目的音判定手段の検出結果値を観測し、目的音が含まれていない非目的音期間の長さを監視する非目的音監視手段と、
上記非目的音監視手段の監視結果に基づいて、上記非目的音期間長が閾値を超えたときに、上記長期平均処理手段の重み付け平均処理に係るパラメータを初期化する初期化手段と
を備えることを特徴とする請求項1又は2に記載の目的音抽出装置。
【請求項4】
上記周波数解析手段により得られた信号から目的音方向に死角を形成し、非目的音信号を得る、非目的音信号生成手段と、
周波数解析手段で得られた入力信号から上記非目的音信号を減算する減算手段と、
減算により得られた雑音除去後信号を時間領域に変換する逆周波数変換手段からなる周波数減算手段
を備えることを特徴とする請求項1〜3のいずれかに記載の目的音抽出装置。
【請求項5】
上記周波数解析手段により得られた信号に、コヒーレンス計算手段により得られるコヒーレンス係数を乗算し、到来方向に偏りを有する信号成分や背景雑音を抑制した雑音抑制後信号を得る、コヒーレンスフィルター係数乗算手段と、コヒーレンスフィルター係数乗算後の信号を時間領域に変換する逆周波数変換手段

からなる、コヒーレンスフィルター演算部を備えることを特徴とする請求項1〜4のいずれかに記載の目的音抽出装置。
【請求項6】
上記目的音判定手段からの検出結果値に基づいて、非目的音区間の場合にのみ、所定の方法によりウィーナーフィルター係数を更新するウィーナーフィルター係数計算部と、
上記ウィーナーフィルター係数計算部で得られたウィーナーフィルター係数を、上記周波数解析手段から得た入力信号に乗算するウィーナーフィルター係数乗算部と、
上記ウィーナーフィルター係数乗算部により得られた周波数領域信号を時間領域に変換して上記乗算手段に与える逆周波数変換部と
を有するウィーナーフィルター演算手段を更に備えることを特徴とする請求項1〜5のいずれかに記載の目的音抽出装置。
【請求項7】
コンピュータを、
入力信号を時間領域から周波数領域に変換する周波数解析手段、
上記周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段、
上記指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段、
上記目的音判定手段から得られた入力フレームにおける検出結果値と、前記入力フレームより一つ前のフレームで得られた上記検出結果値の長期平均値とを重み付け平均処理することにより、前記入力フレームにおける上記検出結果値の長期平均値を求める長期平均処理手段と、
上記コヒーレンス計算手段により求められた上記コヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段と、
上記発話速度検出手段により検出された上記発話速度に応じて、上記長期平均処理手段の上記重み付け平均処理に係る重み係数を制御する重み係数制御手段と、
上記長期平均処理手段の上記入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段と、
上記利得制御手段により制御された利得を、入力された信号に乗算する利得乗算手段
として機能させることを特徴とする目的音抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、目的音抽出装置及び目的音抽出プログラムに関し、例えば、電話やテレビ会議等の音声通信に用いる音声通信装置に適用し得るものである。
【背景技術】
【0002】
入力信号から所望の音声を抽出する技術の1つとして、ボイススイッチと呼ばれる技術がある。これは、目的音声区間検出機能を用いて入力信号から話者が話している区間(目的音声区間)を検出し、目的音声区間の場合は無処理で出力し、非目的音声区間の場合は振幅を減衰する、という処理のことである。
【0003】
図2は、ボイススイッチ処理を示すフローチャートである。図2において、入力信号inputが受信されると(S901)、目的音声区間検出部が目的音声区間か否かを判定する(S902)。
【0004】
このとき、inputが目的音声区間であれば、ボイススイッチゲインであるVS_GAINは「1.0」と設定され(S903)、inputが非目的音声区間であれば、VS_GAINは「α」(α:任意の正の値、0.0≦α<1.0)として設定する(S904)。そして、VS_GAINがinputに乗算され、その出力信号outputが得られる(S905)。
【0005】
このボイススイッチ処理は、例えば、テレビ会議装置、携帯電話機等の音声通信機器等に適用することができ、このボイススイッチ処理を行うことで、非目的音声区間(雑音)を抑制し、通話音質を高めることができる。
【0006】
ところで、非目的音声は、話者以外の人間の声である「妨害音声」と、オフィスノイズや道路ノイズなどのような「背景雑音」とに分けられる。
【0007】
非目的音声区間が背景雑音のみの場合、目的音声区間検出部は、目的音声区間か否かを正確に判定することができるのに対し、非目的音声区間に妨害雑音が重畳されている場合には、目的音声区間検出部は、妨害音声も目的音声とみなしてしまうため、誤判定が生じ得る。この結果、ボイススイッチが妨害音声を抑制できず、十分な通話音質を提供することができない。
【0008】
この課題に対して、目的音声区間検出部で参照する特徴量として、これまで用いてきた入力信号レベルの変動から、コヒーレンスに変更することで改善される。
【0009】
ここで、コヒーレンスとは、簡単に述べれば、入力信号の到来方向を意味する特徴量である。例えば携帯電話などの利用を想定した場合、話者の声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強いので、到来方向に着目することで、従来は不可能だった目的音声と妨害音声との区別が可能となる。
【0010】
図3は、目的音声検出機能にコヒーレンスを用いる場合のボイススイッチ90Aの機能構成を示すブロック図である。
【0011】
図3において、マイクm1及びm2のそれぞれから図示しないAD変換器を介して、入力信号s1(n)及びs2(n)がFFT部91に与えられる。
【0012】
なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中ではnが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
【0013】
FFT部91は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2を周波数領域で表現することができる。なお、高速フーリエ変換を実施するに当たり、入力信号s1(n)及びs2(n)から所定のN個のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成する。入力信号s1からFRAME1を構成する例を以下に記載する。
【0014】
FRAME1(1)={s1(1)、s1(2)、・・、s1(i)、・・s1(N)}


FRAME1(K)={s1(N×K+1)、s1(N×K+2)、・・、s1(N×K+i)、・・s1(N×K+N)}
なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中ではKが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
【0015】
FFT部91では、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f、K)、及び入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f、K)を、第1の指向性形成部92及び第2の指向性形成部93に与えるものである。なおfは周波数を表すインデックスである。またX1(f、K)は単一の値ではなく、
X1(f,K)={X1(f1,K)、X1(f2,K)、・・X1(fi,K)・・、X1(fm,K)}
というように複数の周波数f1〜fmのスペクトル成分から構成されるものであることを補足しておく。これはX2(f,K)及び、後段の指向性形成部で現れるB1(f,K),B2(f,K)も同様である。
【0016】
第1の指向性形成部92は、FFT部91から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、特定の方向に強い指向特性を有する信号B1(f、K)を形成し、その信号B1(f、K)をコヒーレンス計算部94に与える。
【0017】
第2の指向性形成部93は、FFT部91から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、特定の方向に強い指向特性を有する信号B2(f、K)を形成し、その信号B2(f、K)をコヒーレンス計算部94に与える。
【0018】
ここで、第1の指向性形成部92及び第2の指向性形成部93による特定方向に指向性の強い信号を形成する方法は、既存の技術の方法を適用することができ、例えば、式(1)及び式(2)に従った演算により求める方法を適用することができる。
【0019】
第1の指向性形成部92は、式(1)に従って演算を行い、後述するように音源方向の特定方向(右方向)に強い指向性を持つ信号B1(f、K)を求める。また、第2の指向性形成部93は、式(2)に従って演算を行い、後述するように音源方向の特定方向(左方向)に強い指向性を持つ信号B2(f、K)をそれぞれ計算する(フレームインデックスKは演算には関与しないので、計算式には記載しない)。
【数1】
【0020】
式(1)及び式(2)の意味を、図4及び図5を用いて説明する。図4(A)において、マイクm1とマイクm2とは距離lだけ隔てて設置されているものとする。マイクm1とマイクm2には音波が到来する。この音波は、マイクm1及びマイクm2を通る面の正面方向に対して角度θの方向から到来するものとする。
【0021】
このとき、音波がマイクm1とマイクm2に到達するまでには、時間差が生じする。この到達時間差τは、音の経路差をdとすると、d=l×sinθなので、式(2−1)のようにして与えられる。
【0022】
τ=l×sinθ/c (c:音速) …(2−1)
ところで、入力信号s1(n)に到達時間差τだけ遅延を与えた信号s1(n−τ)は、s2(n)と同一の信号であるといえる。
【0023】
したがって、両者の差をとった信号y(n)=s2(n)−s1(n−τ)は、θ方向から到来した音が除去された信号となる。結果として、マイクロフォンアレーは図4(B)のような指向特性を持つようになる。
【0024】
なお、上記の説明では時間領域での演算を記したが、周波数領域で行っても同様な効果が得られる。式(1)及び式(2)は、周波数領域とする場合の演算式の例である。
【0025】
ここで、到来方向θ=90度とした場合には、図5(A)及び図5(B)のような指向特性となる。なお、指向特性について、図5に示すように前方向、後方向、右方向、左方向を定義する。すると、第1の指向性形成部92で形成される指向性は図5(A)に示すように、左方向に強いものとなり、第2の指向性形成部93で形成される指向性は図5(B)に示すように、右方向に強いものとなる。
【0026】
なお、以降の説明では、説明便宜上、θ=90度であることを想定して動作説明を行うが、本発明の実施の際はこの設定に限定されるものではない。
【0027】
以上のようにして得られた信号B1(f、K)及びB2(f、K)は、コヒーレンス計算部94に与えられる。コヒーレンス計算部94は、以下の式(3)及び式(4)に従って演算を行うことで、コヒーレンスCOHを得る(ここでもフレームインデックスKは計算に関与しないので、式中には記載しない)。
【数2】
【0028】
次に、目的音声区間検出部95が、コヒーレンスCOH(K)を目的音声区間判定閾値Θと比較し、コヒーレンスCOH(K)が目的音声区間判定閾値Θより大きければ目的音声区間とみなして検出結果格納変数VAD_RES(K)に1.0を代入し、コヒーレンスCOH(K)が目的音声区間判定閾値Θより小さければ、非目的音声区間(妨害音声、背景音声)とみなして検出結果格納変数VAD_RES(K)に0.0を代入する。
【0029】
そして、ゲイン制御部96は、VAD_RES(K)=1.0ならば、ゲインVS_GAINを1.0に設定し、VAD_RES(K)=0.0ならば、ゲインVS_GAINを1.0未満の任意の正の数値αに設定する。
【0030】
ここで、コヒーレンスの大小で目的音声区間を検出する背景を簡単に述べておく。コヒーレンスの概念は、例えば、正面方向の右方向から到来する信号と左方向から到来する信号の相関と言い換えられる。
【0031】
よって、コヒーレンスCOHが小さい場合とは、信号B1と信号B2との相関が小さい場合であり、反対にコヒーレンスCOHが大きい場合とは信号B1とB2との相関が大きい場合と言い換えることができる。
【0032】
そして、相関が小さい場合の入力信号は、入力到来方向が右方向又は左方向のいずれかに大きく偏った場合か、偏りがなくても背景雑音のような明確な規則性の少ない信号の場合である。
【0033】
そのために、コヒーレンスCOHが小さい区間は妨害音声区間あるいは背景雑音区間(非目的音声区間)であるといえる。
【0034】
一方、コヒーレンスCOHの値が大きい場合は、到来方向の偏りが無いため、入力信号が正面から到来する場合であるといえる。今、目的音声は正面から到来すると仮定しているので、コヒーレンスCOHが大きい場合は目的音声区間といえる。
【0035】
以上のようにして得たVS_GAINはボイススイッチゲイン乗算部97で信号s1(n)と乗算され、出力信号y(n)が得られる。
【0036】
しかしながら、図3の構成では、音声の立ち上がり部のような小振幅区間では、たとえ目的音声があっても明確なピッチ性がなく相関ができくいため、コヒーレンスCOHが小さくなる。
【0037】
その結果、図6(A)に例示するように、目的音声であっても、その立ち上がり部の小振幅区間で、妨害音声と誤判定されてボイススイッチ処理で減衰されるので欠落が生じ、ところどころ途切れたような音声が出力され、音質が不自然になるという課題が生じ得る。
【0038】
この課題を解消するために、図7に例示するように、目的音声区間検出結果に長期平均化処理を施す検出結果長期平均部98を有するボイススイッチ90Bがある。
【0039】
図7のボイススイッチ90Bは、検出結果長期平均部98が、検出結果格納変数VAD_RESに長期平均処理を施し、その長期平均後の値がボイススイッチ作動判定閾値より大きいか否かに応じて、ボイススイッチを制御することで、目的音小振幅部での欠落を抑制することができる。
【0040】
例えば、検出結果長期平均部98が、式(5)に例示する演算式により、検出結果の長期平均値VAD_RES_LONG(K)を求める。そして、ゲイン制御部99が、VAD_RES_LONG(K)とボイススイッチ作動判定閾値Ψと比較し、VAD_RES_LONG(K)<ΨならばボイススイッチゲインVS_GAIN>α(0.0≦α<1.0)とし、そうでない場合はVS_GAIN=1.0とするという制御をする。
【0041】
これにより、目的音声の小振幅部でのVAD_RESの変動を緩和させたうえでボイススイッチを作動させることができるので、図6(B)に示すように、目的音声の小振幅部の欠落を抑制することができる。
【数3】
【0042】
なお、長期平均パラメータδは、0.0<δ<1.0である。ここで、式(5)の意味を捕捉する。式(5)は、現フレーム区間(動作開始時点から数えてK番目のフレーム)の入力音声に対する判定値VAD_RES(K)と1つ前のフレーム区間で得られた長期平均値VAD_RES_LONG(K−1)との重み付け加算平均値を計算しており、δの値の大小で、瞬時値VAD_RES(K)の平均値への寄与度を調整することができる。
【0043】
仮に、δを0に近い小さい値に設定した場合には、瞬時値の平均値への寄与度が小さくなるので、VAD_RESの変動を抑制できる。また、δが1に近い値であれば、瞬時値の寄与度が高まるので、長期平均の効果を弱めることができる。
【先行技術文献】
【特許文献】
【0044】
【特許文献1】特開2006−197552号公報
【特許文献2】特表2010−532879号公報
【発明の概要】
【発明が解決しようとする課題】
【0045】
ところで、コヒーレンスは、入力信号の相関という意味をもつため、到来した音声区間内であっても、子音か母音かで、コヒーレンスの挙動が異なる。
【0046】
例えば、「さ:sa」と発話した場合、子音部「s」の信号波形は規則性が低いので、コヒーレンスは小さくなり、母音部「a」の信号波形は規則性が高いのでコヒーレンスは大きくなる。
【0047】
また、発話速度が変わった場合に、子音部の部分の長さが変わるのではなく、母音部の部分の長さが変わる。例えば、「さ:sa」と発話する際に発話速度を変えた場合、発話速度が遅いときには、子音部「s」が長くなるのではなく、母音部「a」が長くなり、発話速度が速いときには、母音部「a」が短くなる。
【0048】
ところで、発話速度が遅い場合、子音部のような小振幅部が非目的音声と誤判定されてしまっても、母音部の大振幅部が音声区間に占める割合が高くなるため、検出結果の長期平均への誤判定の寄与が小さくなるため、小振幅部の欠落は生じにくい。
【0049】
しかし、発話速度が速い場合には、音声区間における母音部の大振幅部の割合が下がるため、長期平均に対する小振幅部での誤判定の寄与が大きくなるため、VAD_RESの変動を軽減しきれなくなり、小振幅部の欠落が発生してしまう。
【0050】
従って、上述したように、図7に例示する従来のボイススイッチは、発話速度によっては、検出結果を長期平均しても、目的音声の小振幅部の欠落が発生するという課題がある。
【0051】
そのため、長期平均処理により、目的音声の小振幅部の欠落を防ぐにあたり、発話速度の違いにより生じ得る音声区間の欠落を防止して、音声の途切れを軽減することができる目的音抽出装置及び目的音抽出プログラムが求められている。
【課題を解決するための手段】
【0052】
かかる課題を解決するために、第1の本発明は、(1)入力信号を時間領域から周波数領域に変換する周波数解析手段と、(2)周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段と、(3)指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段と、(4)コヒーレンス計算手段により求められたコヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段と、(5)目的音判定手段から得る現在の入力フレームから算出した検出結果値と、過去の検出結果値に重み付け平均処理を施し、現在の入力フレームにおける検出結果値の長期平均値を求める長期平均処理手段と、(6)コヒーレンス計算手段により求められたコヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段と、(7)発話速度検出手段により検出された発話速度に応じて、長期平均処理手段の重み付け平均処理に係る重み係数を制御する重み係数制御手段と、(8)長期平均処理手段の現在の入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段と、(9)利得制御手段により制御された利得を、入力された信号に乗算する乗算手段とを備えることを特徴とする目的音抽出装置である。
【0053】
第2の本発明は、コンピュータを、(1)入力信号を時間領域から周波数領域に変換する周波数解析手段、(2)周波数解析手段により得られた信号に基づいて、それぞれ所定の方位に死角を有する指向性を持つ複数の信号を形成する指向性形成手段、(3)指向性形成手段により形成された複数の指向性信号に基づいて、コヒーレンス値を求めるコヒーレンス計算手段、(4)コヒーレンス計算手段により求められたコヒーレンス値に基づいて目的音を含むか否かを判定し、その判定結果に応じた検出結果値を出力する目的音判定手段、(5)目的音判定手段から得る現在の入力フレームから算出した検出結果値と、過去の検出結果値に重み付け平均処理を施し、現在の入力フレームにおける長期平均値を求める長期平均処理手段、(6)コヒーレンス計算手段により求められたコヒーレンス値に基づいて、入力信号に含まれる目的音の発話速度を検出する発話速度検出手段、(7)発話速度検出手段により検出された発話速度に応じて、長期平均処理手段の重み付け平均処理に係る重み係数を制御する重み係数制御手段、(8)長期平均処理手段の現在の入力フレームにおける検出結果値の長期平均値に基づいて、入力された信号に対する利得を制御する利得制御手段、(9)利得制御手段により制御された利得を、入力された信号に乗算する乗算手段として機能させることを特徴とする目的音抽出プログラムである。
【発明の効果】
【0054】
本発明によれば、目的音声の音声区間の小振幅部の欠落を防止する際に、長期平均処理での長期平均パラメータを発話速度に応じて制御することで、発話速度の違いにより生じ得る音声区間の欠落を防止して、音声の途切れをさらに軽減することができる。
【図面の簡単な説明】
【0055】
図1】第1の実施形態のボイススイッチの構成を示す構成図である。
図2】従来のボイススイッチ処理を示すフローチャートである。
図3】従来の目的音声検出機能にコヒーレンスを用いる場合のボイススイッチの構成を示す構成図である。
図4】マイクm1及びマイクm2に入力する音波到達の様子を説明する説明図である。
図5】第1の指向性形成部及び第2の指向性形成部による指向特性を説明する説明図である。
図6】目的音声区間で非目的音声と誤判定されて目的音声区間が欠落することを説明する説明図である。
図7】従来の目的音声の長期平均により小振幅部の欠落を防止するボイススイッチの構成を示す構成図である。
図8】第1の実施形態の長期平均パラメータ制御部の詳細な内部構成を示す内部構成図である。
図9】第1の実施形態の発話速度v(K)と長期平均パラメータδとを対応付けた対応テーブルを説明する説明図である。
図10】第2の実施形態のボイススイッチの構成を示す構成図である。
図11】第3の実施形態のボイススイッチの構成を示す構成図である。
図12】第3の実施形態の第3の指向性形成部による指向特性を説明する説明図である。
図13】第4の実施形態のボイススイッチの構成を示す構成図である。
図14】第5の実施形態のボイススイッチの構成を示す構成図である。
【発明を実施するための形態】
【0056】
(A)第1の実施形態
以下では、本発明の目的音抽出装置及び目的音抽出プログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
【0057】
第1の実施形態では、ボイススイッチに本発明を適用する場合の実施形態を例示する。
【0058】
(A−1)第1の実施形態の構成
(A−1−1)全体構成
図1は、第1の実施形態のボイススイッチ100Aの構成を示す構成図である。なお、第1の実施形態のボイススイッチ100Aは、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース等を有するものであり、ボイススイッチ100Aの機能は、CPUが、ROMに格納される処理プログラムを実行することにより実現されるものである。なお、目的音抽出プログラムは、ネットワークを通じてインストールされるものであっても良く、その場合でも図1に示す構成要素を構成する。
【0059】
図1において、第1の実施形態のボイススイッチ100Aは、マイクm1及びマイクm2、FFT部101、第1の指向性形成部102、第2の指向性形成部103、コヒーレンス計算部104、発話速度検出部105、長期平均パラメータ制御部106、目的音声区間検出部107、検出結果長期平均部108、ゲイン制御部109、ボイススイッチゲイン乗算部110を少なくとも有するものである。
【0060】
マイクm1及びm2は、到来した音波を捕捉し、捕捉した音波を音声信号に変換してFFT部101に与えるものである。ここで、図1には図示しないが、マイクm1及びマイクm2とFFT部101との間にAD変換部を備え、AD変換部が、マイクm1及びマイクm2の音声信号(アナログ信号)をディジタル信号に変換して、信号系列s1及び信号s2をFFT部101に与える。なお、nはサンプルの入力順を示す。
【0061】
FFT部101は、マイクm1及びマイクm2から入力信号s1及びs2を受け取り、所定のサンプル数から構成されるフレームごとに高速フーリエ変換(あるいは離散フーリエ変換)を施すものである。これにより、入力信号系列s1及びs2を周波数領域で表現することができる。また、FFT部101は、入力信号s1から得た周波数領域信号X1(f、K)及び入力信号s2から得た周波数領域信号X2(f、K)を、第1の指向性形成部102及び第2の指向性形成部103に与えるものである。
【0062】
第1の指向性形成部102は、FFT部101から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、特定の方向に強い指向特性を有する信号B1(f、K)を形成し、その信号B1(f、K)をコヒーレンス計算部14に与える。
【0063】
第2の指向性形成部103は、FFT部101から周波数領域信号X1(f、K)及びX2(f、K)を受け取り、第1の指向性形成部102とは異なる特定の方向に強い指向特性を有する信号B2(f、K)を形成し、その信号B2(f、K)をコヒーレンス計算部104に与える。
【0064】
ここで、第1の指向性形成部102及び第2の指向性形成部103は、特定方向に死角を持つ指向性を有する信号を形成する方法としては、例えば、式(1)及び式(2)に従った演算により求める方法を適用することができる。これにより、第1の指向性形成部102は、式(1)に従った演算を行い、右方向に強い指向性を持つ信号B1(f、K)を形成し、第2の指向性形成部103は、式(2)に従った演算を行い、左方向に強い指向性を持つ信号B2(f、K)を形成する。
【0065】
コヒーレンス計算部104は、第1の指向性形成部102から取得した信号B1(f、K)と、第2の指向性形成部103から取得した信号B2(f、K)とに基づいてコヒーレンスCOH(K)を求めるものである。また、コヒーレンス計算部104は、求めたコヒーレンスCOH(K)を、発話音声検出部105及び目的音声区間検出部107に与えるものである。
【0066】
なお、コヒーレンス計算部104によるコヒーレンスの計算方法は、種々の方法を広く適用することができ、例えば、コヒーレンス計算部104が、式(3)及び式(4)を用いて求める方法を適用することができる。
【0067】
目的音声検出部107は、コヒーレンス計算部104からコヒーレンスCOH(K)を受け取り、コヒーレンスCOH(K)と目的音声区間判定閾値Θとを比較し、コヒーレンスCOH(K)が目的音声区間判定閾値Θより大きい場合、目的音声区間であると判定し、目的音声区間判定閾値Θ以下の場合、非目的音声区間であると判定するものである。
【0068】
また、目的音声検出部107は、判定結果を示す検出結果変数VAD_RES(K)を、検出結果長期平均部108に与えるものである。具体的には、目的音声区間の場合にはVAD_RES(K)=1.0とし、非目的音声区間の場合にはVAD_RES(K)=0.0とする。
【0069】
発話速度検出部105は、コヒーレンス計算部104から現在の入力フレームから得たコヒーレンスCOH(K)を受け取り、コヒーレンスCOH(K)に基づいて発話速度を求めるものである。また、発話速度検出部105は、検出した発話速度v(K)を長期平均パラメータ制御部106に与える。
【0070】
長期平均パラメータ制御部106は、発話速度検出部105から発話速度v(K)を受け取り、発話速度v(K)に応じて長期平均パラメータδを求め、その長期平均パラメータδを検出結果長期平均部108に与えるものである。なお、長期平均パラメータ制御部106による長期平均パラメータの制御方法の詳細については後述する。
【0071】
検出結果長期平均部108は、目的音声区間検出部107から検出結果変数VAD_RES(K)を受け取ると共に、長期平均パラメータ制御部106から長期平均パラメータδを受け取り、目的音声区間の検出結果に長期平均化処理を行い、長期平均値VAD_RES_LONG(K)を求めるものである。
【0072】
ここで、検出結果長期平均部108による長期平均化処理は、特に限定されることなく種々の方法を適用することができるが、例えば式(5)の演算式を用いて求める方法を適用することができる。
【0073】
ゲイン制御部109は、検出結果長期平均部108から長期平均値VAD_RES_LONG(K)を受け取り、長期平均値VAD_RES_LONG(K)に応じたゲイン値VS_GAINをボイススイッチゲイン乗算部110に与えるものである。
【0074】
ボイススイッチゲイン乗算部110は、ゲイン制御部109からゲイン値VS_GAINを受け取り、入力信号s1(n)にゲイン値VS_GAINを乗算して信号y(n)を出力するものである。
【0075】
(A−1−2)長期平均パラメータ制御部の詳細な構成
図8は、第1の実施形態の長期平均パラメータ制御部106の詳細な内部構成を示す内部構成図である。
【0076】
図8において、第1の実施形態の長期平均パラメータ制御部106は、発話速度入力部201、長期平均パラメータ照合部202、記憶部203、長期平均パラメータ出力部204を少なくとも有する。
【0077】
発話速度入力部201は、発話速度検出部105から発話速度v(K)を入力し、入力した発話速度v(K)を長期平均パラメータ照合部202に与えるものである。
【0078】
記憶部203は、発話速度v(K)と長期平均パラメータδ(0.0<δ<1.0)とを対応付けた対応テーブルを記憶するものである。
【0079】
図9は、発話速度v(K)と長期平均パラメータδとを対応付けた対応テーブルを説明する説明図である。例えば、図9において、発話速度検出部105により検出された発話速度v(K)がx≦v(K)<wである場合には、長期平均パラメータδはδ=aと決定される。図9において、発話速度v(K)は、…<z<y<x<wの関係にあり、また長期平均パラメータδは、a<b<c<…の関係にある。すなわち、発話速度v(K)が遅くなるほど、長期平均パラメータδは小さくなり、発話速度v(K)が速くなるほど、長期平均パラメータδは大きくなる関係にある。これにより、発話速度v(K)が速くなるほど、現在の目的音声区間のVAD_RESの寄与率を低くすることができ、長期平均に対する誤判定の寄与を軽減させることができる。
【0080】
長期平均パラメータ照合部202は、発話速度入力部201から発話速度v(K)を受け取り、記憶部203に記憶されている対応テーブルを参照して、発話速度v(K)に対応する長期平均パラメータδ(0.0<δ<1.0)を求めるものである。
【0081】
なお、長期平均パラメータの決定方法は、第1の実施形態では長期平均パラメータ照合部202が、図9に例示する対応テーブルを参照して、発話速度に応じた長期平均パラメータを求める場合を例示するが、この方法に限定されるものではない。
【0082】
例えば、記憶部203に記憶される対応テーブルが、図9に例示する対応テーブルではなく、例えば、発話速度の基準値と、この発話速度における長期平均パラメータの基準値とを設定しておき、発話速度の基準値と入力された発話速度との差と、長期平均パラメータの補正値とを対応付けた対応テーブルを記憶部203に記憶させ、長期平均パラメータ照合部202が、当該対応テーブルを参照して、発話速度の基準値との差に応じて長期平均パラメータの補正値を求め、その補正値及び長期平均パラメータの基準値を用いて、長期平均パラメータδを求めるようにしてもよい。
【0083】
また例えば、発話速度の基準値と入力された発話速度との差と、長期平均パラメータの値とを対応付けた対応テーブルを記憶部203が有し、長期平均パラメータ照合部202が、当該対応テーブルを参照して、発話速度の基準値との差に応じた長期平均パラメータを求めるようにしてもよい。
【0084】
また別の方法として、例えば、発話速度が遅くなるほど、長期平均パラメータδの値が小さくなるという関係式を作成し、入力された発話速度を関係式に代入して、長期平均パラメータδを求めるようにしてもよい。これにより、発話速度に応じた長期平均パラメータを精度良く求めることができる。
【0085】
長期平均パラメータ出力部204は、長期平均パラメータ照合部202により求められた長期平均パラメータδを検出結果長期平均部108に与えるものである。
【0086】
(A−2)第1の実施形態の動作
次に、第1の実施形態のボイススイッチ100における目的音抽出処理の動作を説明する。
【0087】
マイクm1及びマイクm2に音声信号が入力されると、図示しないAD変換部によりディジタル信号に変換され、入力信号系列s1及び信号s2がFFT部101に与えられる。
【0088】
FFT部101において、信号s1及びs2を所定のサンプル数ごとに分析フレームを構成し、高速フーリエ変換がなされて時間領域から周波数領域に変換され、変換された信号X1(f、K)及び信号X2(f、K)が、第1の指向性形成部102及び第2の指向性形成部103に与えられる。
【0089】
信号X1(f、K)及び信号X2(f、K)が入力されると、第1の指向性形成部102は、例えば式(1)及び式(2)の演算式に従って、入力された信号X1(f、K)及び信号X2(f、K)に基づいて、特定の方位を死角に有する信号B1(f、K)を形成する。
【0090】
また、同様に、第2の指向性形成部103は、第1の指向性形成部102と指向性の方位が異なるが、例えば式(1)及び式(2)の演算式に従い、信号X1(f、K)及び信号X2(f、K)に基づいて、第1の指向性形成部102とは異なる特定の方位に死角を有する信号B2(f、K)を形成する。
【0091】
そして、それぞれ特定の方位に死角を有する信号B1(f、K)及び信号B2(f、K)が、コヒーレンス計算部104に与えられると、コヒーレンス計算部104は、例えば式(3)及び式(4)の演算式に従い、信号B1(f、K)及び信号B2(f、K)に基づいて、コヒーレンスCOH(K)を算出する。
【0092】
目的音声区間検出部107では、コヒーレンス計算部104により求められたコヒーレンスCOH(K)と目的音声区間判定閾値Θとが比較され、コヒーレンスCOH(K)が目的音声区間判定閾値Θより大きい場合、当該区間は目的音声区間であるとして、VAD_RES(K)に1.0を代入して、検出結果長期平均部108に与える。一方、コヒーレンスCOH(K)は目的音声区間判定閾値Θ以下の場合、当該区間は非目的音声区間であるとして、VAD_RES(K)に0.0を代入して、検出結果長期平均部108に与える。
【0093】
一方、コヒーレンス計算部104が求めたコヒーレンスCOH(K)は、発話速度検出部105にも与えられる。発話速度検出部105では、コヒーレンスCOH(K)に応じて発話速度v(K)が求められる。
【0094】
ここで、発話速度検出部105による発話速度の検出方法は、コヒーレンスCOHに基づいて発話速度を求める方法であれば種々の方法を広く適用することができる。例えば、発話速度検出部105は、次のような方法で発話速度を検出することができる。
【0095】
例えば、コヒーレンスは2個の信号の相互相関であるから、マイクm1及びマイクm2の正面に音源があり、正面から入力した信号に対して、コヒーレンスCOHは大きくなる。これに対して、マイクm1及びマイクm2の右方向又は左方向等に音源があり、右方向又は左方向等から入力した信号に対しては、コヒーレンスCOHは小さくなる。
【0096】
また、正面からの信号であっても、母音部(例えば「さ:sa」という発音のときの「a」の音声部分)の信号は、波形がある程度の周期性を持つ相関が高い波形なので、コヒーレンスCOHは大きくなるのに対して、子音部の信号は周期性が弱く相関の低い波形なので、コヒーレンスCOHは小さいという特性がある。
【0097】
さらに、発話速度が変わると、子音部の長さは変わらず、母音部の長さが変わる。これは、人間の発声機構から、例えば発話速度が遅くなると、「さ:sa」の子音部の長さは変わらないが、母音部の「a」の長さが長くなり、逆に、発話速度が速くなると、子音部の長さは変わらず、母音部の「a」の長さが短くなる。
【0098】
また、発話速度が速い場合に、母音部でのコヒーレンスCOHは急速に小さくなるのに対して、発話速度が遅い場合に、母音部でのコヒーレンスCOHはゆっくりと小さくなるという特性もあり、この現象は二重母音のような母音が連続する区間ではさらに顕著になる。
【0099】
そこで、発話速度検出部105は、上記で説明したコヒーレンスCOHの特性を利用して、例えば、今回のフレーム区間のコヒーレンスCOHと直前フレーム区間のコヒーレンスCOHとの差を求め、そのコヒーレンスの差が大きいときには発話速度が速いとし、逆にコヒーレンスの差が小さいときには発話速度が遅いとして発話速度を求めるようにしてもよい。
【0100】
具体的には、コヒーレンスの差と、これに応じた発話速度とを予め対応付けた対応テーブルを発話速度検出部105が保持し、発話速度検出部105が、上記対応テーブルを参照して、現在のフレームから得たコヒーレンスCOH(K)と直前のフレームで得られたコヒーレンスCOH(K−1)との差に対応する発話速度を求める方法を適用できる。なお、発話速度検出部105による発話速度の求める方法は、上記の検出例に限定されるものではない。
【0101】
次に、長期平均パラメータ制御部106は、発話速度検出部105により求められた発話速度v(K)に応じて、長期平均パラメータδを求める。
【0102】
長期平均パラメータ制御部106では、長期平均パラメータ照合部202が、発話速度入力部201から入力された発話速度v(K)を受け取り、記憶部203に記憶される対応テーブルを参照して、入力された発話速度v(K)に対応する長期平均パラメータδを取得する。そして、長期平均パラメータδが、長期平均パラメータ出力部204から検出結果長期平均部108に与えられる。
【0103】
検出結果長期平均部108において、目的音声区間検出部107からVAD_RES(K)と、長期平均パラメータ制御部106から長期平均パラメータδとが与えられ、検出結果長期平均部108が、例えば式(5)の演算式に従い、長期平均値VAD_RES_LONG(K)を求める。
【0104】
そして、ゲイン制御部109は、従来と同様に、VAD_RES_LONG(K)とボイススイッチ作動判定閾値Ψと比較し、VAD_RES_LONG(K)がボイススイッチ作動判定閾値Ψより小さい場合、ボイススイッチゲインVS_GAIN=α(0.0≦α<1.0)とし、そうでない場合はVS_GAIN=1.0とする。
【0105】
ここで、長期平均パラメータδは、発話速度v(K)が速くなるにつれて、大きな値(すなわち、1.0に近い値)となり、発話速度v(K)が遅くなるにつれて小さな値(すなわち、0.0に近い値)となる。
【0106】
このことは、式(5)において、発話速度が速い場合には、現在のフレームで得られたVAD_RES(K)の寄与度を小さくし、直前フレーム区間のVAD_RES_LONG(K−1)の寄与を大きくしていることを意味する。これにより、発話速度が速い場合に、目的音声区間内の小振幅部で生じる誤判定の長期平均値への寄与を小さくすることができる。したがって、VAD_RES_LONG(K)が判定閾値Ψより大きくなる可能性を高めることができるため、目的音声の欠落を防止することができる。
【0107】
また、発話速度v(K)が遅い場合には、発話速度が速い場合と比較するとVAD_RES(K)の寄与度を大きくし、長期平均値VAD_RES_LONG(K−1)の寄与度を小さくしている。これは発話速度が遅い場合には、目的音声区間に母音部が占める割合が高いために誤判定の割合は少なく、VAD_RES(K)の瞬時値を長期平均に大きく寄与させた方が音声の欠落防止に効果的であることを考慮した処理である。このように、発話速度が遅い場合も長期平均パラメータδが適切に制御されるため、目的音声の欠落を防止することができる。
【0108】
そして、ボイススイッチゲイン乗算部110が、入力信号s1(n)に、ゲイン制御部109からのVS_GAINを乗算することで出力信号y(n)を作成し出力する。
【0109】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、発話速度が変化した場合でも、目的音声の欠落を防止することができるので、音質の劣化を解消することができる。
【0110】
これにより、例えばテレビ会議システムや携帯電話などの通信装置に本発明を適用することで、通話音質の向上が期待できる。
【0111】
(B)第2の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第2の実施形態を、図面を参照しながら説明する。
【0112】
(B−1)第2の実施形態の構成及び動作
図10は、第2の実施形態のボイススイッチ100Bの構成を示す構成図である。図10において、第2の実施形態のボイススイッチ100Bは、マイクm1及びマイクm2、FFT部101、第1の指向性形成部102、第2の指向性形成部103、コヒーレンス計算部104、発話速度検出部105、長期平均パラメータ制御部106、目的音声区間検出部107、検出結果長期平均部108、ゲイン制御部109、ボイススイッチゲイン乗算部110、非目的音声区間監視部301、長期平均値初期化部302を少なくとも有するものである。
【0113】
第2の実施形態が第1の実施形態と異なる点は、第1の実施形態の構成要素に加えて、非目的音声区間監視部301、長期平均値初期化部302を更に備える点である。
【0114】
第1の実施形態は、発話速度に応じて長期平均パラメータδを制御するものであるが、現在のVAD_RES(K)の寄与率を小さくした場合、目的音声区間の開始に正確に反応できなくなり、非目的音声区間から目的音声区間に切り替わった等の場合に、本来は目的音声区間であるにもかかわらず長期平均処理によって非目的音声区間と誤判定されてしまい、話頭がボイススイッチで欠落する場合が生じ得る。
【0115】
そこで、第2の実施形態は、第1の実施形態の構成に、非目的音声区間監視部301及び長期平均値初期化部302を備えることにより、話頭が欠落することを防止する。
【0116】
なお、図10において、第1の実施形態と同じ構成要素については同じ番号を付しており、これら第1の実施形態と同じ構成要素の機能及び動作は、第1の実施形態と同じであるので、ここでの詳細な説明は省略する。
【0117】
非目的音声区間監視部301は、目的音声区間検出部107による検出結果に基づいて、非目的音声区間を監視するものである。具体的には、非目的音声区間監視部301は、目的音声区間検出部107により求められたVAD_RES(K)を受け取り、VAD_RESが連続して0.0となるフレーム区間数を監視する。
【0118】
長期平均値初期化部302は、非目的音声区間監視部301から非目的音声区間の連続フレーム区間数を受け取り、この連続フレーム区間数が閾値を超えた場合に、検出結果長期平均部108が演算に用いる長期平均値及び長期平均パラメータを初期化するものである。
【0119】
非目的音声区間数が閾値を超えて長く続く状態とは、話者の音声(目的音声)が入力されない状態といえる。そこで、目的音声が入力されない期間に、長期平均値初期化部302が、長期平均値及び長期平均パラメータを初期化し、長期平均値に蓄積されている非目的音声区間の寄与を消去することで、話頭部分の欠落を防止することができる。
【0120】
なお、目的音声が入力された後の動作は、第1の実施形態と同じであるので、ここでの詳細な説明は行わない。
【0121】
(B−2)第2の実施形態の効果
以上のように、第2の実施形態によれば、第1の実施形態の効果に加えて、話頭部分の欠落を防止することができ、さらに音質を向上させることができる。
【0122】
(C)第3の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第3の実施形態を、図面を参照しながら詳細に説明する。
【0123】
(C−1)第3の実施形態の構成及び動作
図11は、第3の実施形態のボイススイッチ100Cの構成を示す構成図である。図11において、第3の実施形態のボイススイッチ100Cは、マイクm1及びマイクm2、FFT部101、第1の指向性形成部102、第2の指向性形成部103、コヒーレンス計算部104、発話速度検出部105、長期平均パラメータ制御部106、目的音声区間検出部107、検出結果長期平均部108、ゲイン制御部109、ボイススイッチゲイン乗算部110、周波数減算部40を少なくとも有するものである。
【0124】
第3の実施形態は、第1の実施形態の構成要素に、更に周波数減算部40を加えた構成である。これにより、ボイススイッチでは抑制できなかった、目的音声区間に重畳された妨害音声(話者以外の人の話し声)や背景雑音も抑制できるようになり、第1、2の実施例よりもさらに高い雑音抑圧性能を実現することができる。
【0125】
周波数減算部40は、入力信号から非目的音声信号成分を減算するものである。周波数減算部40は、図11に示すように、第3の指向性形成部401、減算部402、IFFT部403を少なくとも有する。
【0126】
第3の指向性形成部401は、FFT部101から信号X(f、K)及び信号X2(f、K)を受け取り、図12に示すように、正面方向に死角を有する指向性の信号B3(f、K)を形成するものである。
【0127】
第3の指向性形成部401が正面方向を死角とする指向性を形成する理由は、入力信号に含まれる雑音信号成分を取得するためである。今、話者はマイクm1及びm2の正面から発声することを仮定しているので、第3の指向性形成部401で正面に死角を形成することで、側方から到来する非目的音声を取得することができる。
【0128】
例えば、第3の指向性形成部401は、式(6)に従って、信号B3(f、K)を取得する。
【0129】
B3(f、K)=X1(f、K)−X2(f、K) …(6)
減算部402は、第3の指向性形成部401から信号B3(f、K)を受け取り、信号X1(f、K)から雑音成分である信号B3(f、K)を取り除くものである。例えば、減算部402は式(7)の演算式に従って、雑音除去後信号D(f、K)を取得する。
【0130】
D(f、K)=X1(f、K)−B3(f、K) …(7)
IFFT部403は、減算部402から雑音除去信号D(f、K)を受け取り、周波数領域信号であるD(f、K)を時間領域に変換し、その変換した信号q(n)をゲイン乗算部110に与えるものである。
【0131】
なお、第1の実施形態と同様の処理により、発話速度に応じて長期平均パラメータδが制御され、ゲイン制御部109はVS_GAINをゲイン乗算部110に出力する。
【0132】
また、ゲイン乗算部110は、IFFT部403から得た出力信号q(n)に、ゲイン制御部109から取得したVS_GAINを乗算して出力信号y(n)を出力する。
【0133】
(C−2)第3の実施形態の効果
以上のように、第3の実施形態によれば、第1の実施形態の効果に加えて、目的音声区間に重畳された雑音成分を除去することができるので、更に音質を向上させることができる。
【0134】
(D)第4の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第4の実施形態を、図面を参照しながら説明する。
【0135】
(D−1)第4の実施形態の構成及び動作
図13は、第4の実施形態のボイススイッチ100Dの構成を示す構成図である。図13において、第4の実施形態のボイススイッチ100Dは、マイクm1及びマイクm2、FFT部101、第1の指向性形成部102、第2の指向性形成部103、コヒーレンス計算部104、発話速度検出部105、長期平均パラメータ制御部106、目的音声区間検出部107、検出結果長期平均部108、ゲイン制御部109、ボイススイッチゲイン乗算部110、コヒーレンスフィルター演算部50を少なくとも有するものである。
【0136】
第4の実施形態は、第1の実施形態の構成要素に、更にコヒーレンスフィルター演算部50を加えた構成である。これにより、ボイススイッチでは抑制できなかった、目的音声区間に重畳された雑音成分も抑制できるようになり、第1、2の実施形態よりも高い雑音抑圧性能を実現することができる。
【0137】
コヒーレンスフィルター演算部50は、コヒーレンス計算部104により式(3)の演算式により求められたcoef(f、K)を受け取り、coef(f、K)周波数毎に入力信号X1(f、K)に乗算するものである。これにより、到来方向に偏りを有する信号成分、波形の規則性が小さい背景雑音成分などを抑制することができる。
【0138】
また、コヒーレンスフィルター演算部50は、コヒーレンスフィルター係数乗算部501、IFFT部502を少なくとも有する。
【0139】
コヒーレンスフィルター係数乗算部501は、コヒーレンス計算部104からcoef(f、K)を受け取り、式(8)に従って、coef(f、K)を信号X1(f、K)に乗算して雑音抑制後信号D(f)を生成するものである。
【0140】
D(f、K)=X1(f、K)× coef(f、K) …(8)
IFFT部502は、コヒーレンスフィルター係数乗算部501から雑音抑制後信号D(f、K)を受け取り、周波数領域信号であるD(f、K)を時間領域に変換し、その変換した信号q(n)をゲイン乗算部110に与えるものである。
【0141】
なお、第1の実施形態と同様の処理により、発話速度に応じて長期平均パラメータδが制御され、ゲイン制御部109はVS_GAINをゲイン乗算部110に出力する。
【0142】
また、ゲイン乗算部110は、IFFT部502からの出力信号q(n)に、ゲイン制御部109からのVS_GAINを乗算して出力信号y(n)を取得し、この出力信号y(n)を出力する。
【0143】
(D−2)第4の実施形態の効果
以上のように、第4の実施形態によれば、第1の実施形態の効果に加えて、目的音声区間に重畳されている雑音成分を抑制することができるので、更に音質を向上させることができる。
【0144】
(E)第5の実施形態
次に、本発明の目的音抽出装置及び目的音抽出プログラムの第5の実施形態を、図面を参照しながら説明する。
【0145】
(E−1)第5の実施形態の構成及び動作
図14は、第5の実施形態のボイススイッチ100Eの構成を示す構成図である。図14において、第5の実施形態のボイススイッチ100Eは、マイクm1及びマイクm2、FFT部101、第1の指向性形成部102、第2の指向性形成部103、コヒーレンス計算部104、発話速度検出部105、長期平均パラメータ制御部106、目的音声区間検出部107、検出結果長期平均部108、ゲイン制御部109、ボイススイッチゲイン乗算部110、ウィーナーフィルター演算部60を少なくとも有するものである。
【0146】
第5の実施形態は、第1の実施形態の構成要素に、更にウィーナーフィルター演算部60を加えた構成である。これにより、ボイススイッチでは抑制できなかった目的音声区間に重畳された背景雑音を抑制できるようになり、第1、2の実施例よりも高い雑音抑圧性能を実現することができる。
【0147】
ウィーナーフィルター演算部60は、雑音区間の信号から周波数毎に雑音特性を推定して得た係数を乗算することで、雑音成分を除去するものである。ウィーナーフィルター演算部60による処理は、既存技術を適用することができ、例えば特許文献2に記載の技術を適用することができ、ここでの詳細な説明は省略する。
【0148】
ウィーナーフィルター演算部60は、ウィーナーフィルター係数計算部601、ウィーナーフィルター係数乗算部602、IFFT部603を有する。
【0149】
ウィーナーフィルター係数計算部601は、目的音声区間検出部107により検出された検出結果VAD_RESに基づいて非目的音声区間であるか否かを判定し、非目的音声区間の場合に、例えば特許文献2に記載の数3の演算等によりウィーナーフィルター係数wf_coef(f、K)の推定を行い、一方、目的音声区間の場合には、ウィーナーフィルター係数の推定を行わない。
【0150】
ウィーナーフィルター係数乗算部602は、式(9)に従って、ウィーナーフィルター係数計算部601により求められたウィーナーフィルター係数wf_coef(f、K)を信号X1(f、K)に乗算して、雑音抑圧後信号D(f、K)を求めるものである。
【0151】
D(f、K)=X1(f、K)× wf_coef(f、K) (9)
IFFT部603は、ウィーナーフィルター係数乗算部602から雑音抑圧後信号D(f、K)を受け取り、周波数領域信号であるD(f、K)を時間領域に変換し、その変換した信号q(n)をゲイン乗算部110に与えるものである。
【0152】
なお、第1の実施形態と同様の処理により、発話速度に応じて長期平均パラメータδが制御され、ゲイン制御部109はVS_GAINをゲイン乗算部110に出力する。
【0153】
また、ゲイン乗算部110は、IFFT部603からの出力信号q(n)に、ゲイン制御部109からのVS_GAINを乗算して出力信号y(n)を取得し、この出力信号y(n)を出力する。
【0154】
(E−2)第5の実施形態の効果
以上のように、第5の実施形態によれば、第1の実施形態の効果に加えて、目的音声区間に重畳される背景雑音成分を抑制することができるので、更に音質を向上させることができる。
【0155】
(F)他の実施形態
(F−1)上述した第3〜第5の実施形態では、周波数減算技術、コヒーレンスフィルター、ウィーナーフィルターにより、雑音抑圧する技術を説明したが、第3〜第5の実施形態で説明した、周波数減算技術、コヒーレンスフィルター、ウィーナーフィルターのいずれか1つ、あるいは、いずれか2つ、あるいは全ての技術を組み合わせてもよい。これにより、さらに高い雑音抑圧性能を実現できる。
【0156】
(F−2)上述した第1〜第5の実施形態では、ボイススイッチが、2個のマイクm1及びマイクm2を備え、右方向に死角、左方向に死角を備える指向性信号B1(f)及びB2(f)に基づいてコヒーレンスを求める場合を例示した。
【0157】
しかし、これに限定されず、4個のマイクと上下左右の4種の指向性信号を形成する4個の指向性形成部とを備え、右方向に死角を有する信号B1(f)、左方向に死角を有する信号B2(f)、上方向に死角を有する信号B3(f)、下方向に死角を有する信号B4(f)に基づいて、コヒーレンスCOHを求めるようにしてもよい。
【0158】
この場合、コヒーレンス計算部は、式(10)及び式(4)に従って、コヒーレンスCOHを求めるようにしてもよい。
【数3】
【0159】


…(10)
(F−3)本発明では発話速度に応じて長期平均パラメータδを制御する方法を説明したが、目的音声の欠落は発話速度だけではなくマイクと話者との距離の変動によっても発生する。こちらの課題も、本発明を適用することで改善することができる。この場合には、発話速度検出部に代えて、公知の手法によりマイクと話者との距離を推定する距離検出部を設け、長期平均パラメータ制御部では、距離に応じて長期平均パラメータを制御するように、距離と長期平均パラメータの対応テーブルを記憶部に格納しておけばよい。
【符号の説明】
【0160】
100A〜100B…ボイススイッチ、
101…FFT部、102…第1の指向性形成部、
103…第2の指向性形成部、104…コヒーレンス計算部、
105…発話速度検出部、106…長期平均パラメータ制御部、
107…目的音声区間検出部、108…検出結果長期平均部、
109…ゲイン制御部、110…ゲイン乗算部、
301…非目的音声区間監視部、302…長期平均値初期化部、
40…周波数減算部、50…コヒーレンスフィルター演算部、
60…ウィーナーフィルター演算部、
201…発話速度入力部、202…長期平均パラメータ照合部、203…記憶部、204…長期平均パラメータ出力部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14