(58)【調査した分野】(Int.Cl.,DB名)
第1の音声入力部により生成された第1の音声信号、及び、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数スペクトル及び第2の周波数スペクトルに変換し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、受音することが優先される第1の方向及び前記第1の方向と異なる第2の方向のうちの前記第2の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第1の方向から到来する音声を含む第1の指向音声信号を出力するとともに、前記確からしさに応じて、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第2の方向から到来する音声を含む第2の指向音声信号を出力するか否かを制御する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
前記第2の指向音声信号の出力を制御することは、前記確からしさが第1の閾値よりも高くなるフレームについて前記第2の指向音声信号を出力する、請求項1に記載の音声処理用コンピュータプログラム。
前記第2の指向音声信号の出力を制御することは、第1のフレームにおける前記確からしさが前記第1の閾値よりも低い第2の閾値未満となり、かつ、前記第1のフレームの直前のフレームにおける前記確からしさが前記第2の閾値以上である場合、前記第1のフレームから第1の期間経過後のフレームから前記第2の指向音声信号の出力を停止する、請求項2に記載の音声処理用コンピュータプログラム。
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、前記第1の指向音声信号のパワー及び前記第2の指向音声信号のパワーを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第1の指向音声信号のパワーに対する前記第2の指向音声信号のパワーのパワー比に基づいて前記確からしさを算出する、請求項1〜3の何れか一項に記載の音声処理用コンピュータプログラム。
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、前記第1の指向音声の非定常性度合い及び前記第2の指向音声の非定常性度合いを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第1の指向音声の非定常性度合いに対する前記第2の指向音声の非定常性度合いの非定常度比と前記パワー比の和に基づいて前記確からしさを算出する、請求項4に記載の音声処理用コンピュータプログラム。
第1の音声入力部により生成された第1の音声信号、及び、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数スペクトル及び第2の周波数スペクトルに変換し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、受音することが優先される第1の方向及び前記第1の方向と異なる第2の方向のうちの前記第2の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第1の方向から到来する音声を含む第1の指向音声信号を出力するとともに、前記確からしさに応じて、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第2の方向から到来する音声を含む第2の指向音声信号を出力するか否かを制御する、
ことを含む音声処理方法。
【発明を実施するための形態】
【0009】
以下、図を参照しつつ、音声処理装置について説明する。この音声処理装置は、複数の音声入力部により得られた音声信号において、フレームごとに、優先される音源が位置する第1の方向と、他の音源が位置することが想定される第2の方向のうち、第2の方向に位置する音源のみが音声を発した確からしさを算出する。そしてこの音声処理装置は、その確からしさが高いフレームについて、第1の方向から到来する音声を含む第1の指向音声信号だけでなく、第2の方向から到来する音声を含む第2の指向音声信号も出力する。すなわち、この音声処理装置は、その確からしさが高いときに、受音する方向を一時的に第2の方向を含むように拡張する。
【0010】
図1は、一つの実施形態による音声処理装置が実装された音声入力装置の概略構成図である。音声入力装置1は、二つのマイクロホン11−1、11−2と、二つのアナログ/デジタル変換器12−1、12−2と、音声処理装置13と、通信インターフェース部14とを有する。音声入力装置1は、例えば、車両(図示せず)に搭載され、ドライバあるいは他の同乗者が発した音声を集音し、その音声を含む音声信号をナビゲーションシステム(図示せず)あるいはハンズフリーホン(図示せず)等へ出力する。そして音声処理装置13は、ドライバが位置する方向以外からの音声を抑圧するような受音の指向特性を設定する。さらに、音声処理装置13は、ドライバが位置する方向(第1の方向)と同乗者が位置する方向(第2の方向)のうち、同乗者のみが音声を発した確からしさが高い場合には、第2の方向から到来する音声も抑圧しないように指向特性を変化させる。
【0011】
マイクロホン11−1、11−2は、それぞれ、音声入力部の一例である。マイクロホン11−1及びマイクロホン11−2は、例えば、集音対象とする音源であるドライバと、他の音源である、助手席にいる同乗者(以下、単に同乗者と呼ぶ)との間において、例えば、インストルメントパネル、あるいは、車室内の天井付近に配置される。本実施形態では、マイクロホン11−1の方がマイクロホン11−2よりも同乗者に近く、かつ、マイクロホン11−2の方がマイクロホン11−1よりもドライバの近くに位置するように、マイクロホン11−1及びマイクロホン11−2は配置される。そしてマイクロホン11−1が周囲の音声を集音することにより生成したアナログの入力音声信号はアナログ/デジタル変換器12−1に入力される。同様に、マイクロホン11−2が周囲の音声を集音することにより生成したアナログの入力音声信号はアナログ/デジタル変換器12−2に入力される。
【0012】
アナログ/デジタル変換器12−1は、マイクロホン11−1から受け取ったアナログの入力音声信号を所定のサンプリング周波数でサンプリングすることによりデジタル化された入力音声信号を生成する。同様に、アナログ/デジタル変換器12−2は、マイクロホン11−2から受け取ったアナログの入力音声信号を所定のサンプリング周波数でサンプリングすることによりデジタル化された入力音声信号を生成する。
【0013】
なお、以下では、説明の便宜上、マイクロホン11−1が集音することで生成され、アナログ/デジタル変換器12−1によりデジタル化された入力音声信号を第1の入力音声信号と呼ぶ。また、マイクロホン11−2が集音することで生成され、アナログ/デジタル変換器12−2によりデジタル化された入力音声信号を第2の入力音声信号と呼ぶ。
アナログ/デジタル変換器12−1は、第1の入力音声信号を音声処理装置13へ出力する。同様に、アナログ/デジタル変換器12−2は、第2の入力音声信号を音声処理装置13へ出力する。
【0014】
音声処理装置13は、例えば、一つまたは複数のプロセッサと、メモリとを有する。そして音声処理装置13は、受信した第1の入力音声信号と第2の入力音声信号とから、制御される指向特性に応じて受音する方向以外の方向から到来した雑音を抑圧した指向音声信号を生成する。そして音声処理装置13は、通信インターフェース部14を介して、その指向音声信号をナビゲーションシステム(図示せず)あるいはハンズフリーホン(図示せず)といった他の機器へ出力する。
【0015】
通信インターフェース部14は、所定の通信規格に従って音声入力装置1を他の機器と接続するための通信インターフェース回路などを含む。例えば、通信インターフェース回路は、例えば、Bluetooth(登録商標)といった、音声信号の通信に利用可能な近距離無線通信規格に従って動作する回路、あるいは、universal serial bus(USB)といったシリアルバス規格に従って動作する回路とすることができる。そして通信インターフェース部14は、音声処理装置13から受け取った出力音声信号を他の機器へ出力する。
【0016】
図2は、一つの実施形態による音声処理装置13の概略構成図である。音声処理装置13は、時間周波数変換部21と、指向音声生成部22と、特徴抽出部23と、音源方向判定部24と、指向特性制御部25と、周波数時間変換部26とを有する。音声処理装置13が有するこれらの各部は、例えば、音声処理装置13が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、音声処理装置13が有するこれらの各部は、音声処理装置13が有するプロセッサとは別個に、それらの各部の機能を実現する一つまたは複数の集積回路として音声処理装置13に実装されてもよい。
【0017】
時間周波数変換部21は、第1の入力音声信号及び第2の入力音声信号のそれぞれについて、フレーム単位で時間領域から周波数領域へ変換することにより、複数の周波数のそれぞれについての振幅成分と位相成分とを含む周波数スペクトルを算出する。なお、時間周波数変換部21は、第1の入力音声信号と第2の入力音声信号のそれぞれに対して同じ処理を行えばよいので、以下では、第1の入力音声信号についての処理について説明する。
【0018】
本実施形態では、時間周波数変換部21は、第1の入力音声信号を、所定のフレーム長(例えば、数10msec)を持つフレームごとに分割する。その際、時間周波数変換部21は、例えば、連続する二つのフレームがフレーム長の1/2だけずれるように各フレームを設定する。
【0019】
時間周波数変換部21は、各フレームに対して窓処理を実行する。すなわち、時間周波数変換部21は、各フレームに所定の窓関数を乗じる。例えば、時間周波数変換部21は、窓関数としてハニング窓を用いることができる。
【0020】
時間周波数変換部21は、窓処理が施されたフレームを受け取る度に、そのフレームを時間領域から周波数領域へ変換することにより、複数の周波数のそれぞれについての振幅成分と位相成分とを含む周波数スペクトルを算出する。時間周波数変換部21は、例えば、フレームに対して、高速フーリエ変換(Fast Fourier Transform, FFT)といった時間周波数変換を実行することにより周波数スペクトルを算出すればよい。なお、以下では、便宜上、第1の入力音声信号について得られた周波数スペクトルを第1の周波数スペクトルと呼び、第2の入力音声信号について得られた周波数スペクトルを第2の周波数スペクトルと呼ぶ。
【0021】
時間周波数変換部21は、フレームごとに、第1の周波数スペクトル及び第2の周波数スペクトルを指向音声生成部22へ出力する。
【0022】
指向音声生成部22は、フレームごとに、マイクロホン11−1及び11−2から見て、受音することが優先される第1の方向(本実施形態では、ドライバが位置する方向)から到来する音声の周波数スペクトルを表す第1の指向音声スペクトルを生成する。また指向音声生成部22は、フレームごとに、マイクロホン11−1及び11−2から見て、他の音源が位置すると想定される第2の方向(本実施形態では、同乗者が位置する方向)から到来する音声の周波数スペクトルを表す第2の指向音声スペクトルを生成する。
【0023】
先ず、指向音声生成部22は、例えば、フレームごとに、周波数ごとの第1の周波数スペクトルと第2の周波数スペクトル間の位相差を求める。この位相差は、そのフレームにおいて音声が到来した方向に応じて変化するので、この位相差は、音声が到来した方向を特定するために利用できる。例えば、位相差算出部12は、次式に従って周波数ごとの位相差を表す位相スペクトル差Δθ(f)を求める。
【数1】
ただし、IN1(f)は、第1の周波数スペクトルを表し、IN2(f)は、第2の周波数スペクトルを表す。そしてfは周波数を表す。またFsは、アナログ/デジタル変換器12−1及び12−2におけるサンプリング周波数を表す。
【0024】
図3は、音声の到来方向と位相スペクトル差Δθ(f)の関係の一例を示す図である。
図3において、横軸は周波数を表し、縦軸は位相スペクトル差を表す。そして位相スペクトル差の範囲301は、第1の方向(本実施形態では、ドライバが位置する方向)から到来する音声が第1の入力音声信号及び第2の入力音声信号に含まれる場合の周波数ごとの位相差の取り得る範囲を表す。一方、位相スペクトル差の範囲302は、第2の方向(本実施形態では、同乗者が位置する方向)から到来する音声が第1の入力音声信号及び第2の入力音声信号に含まれる場合の周波数ごとの位相差の取り得る範囲を表す。
【0025】
ドライバに対して、マイクロホン11−2の方がマイクロホン11−1よりも近い。そのため、ドライバが発した音声がマイクロホン11−1に到達するタイミングがマイクロホン11−2に到達するタイミングよりも遅くなる。その結果として、第1の周波数スペクトルに表されるドライバが発した音声の位相は、第2の周波数スペクトルに表されるドライバが発した音声の位相よりも遅れる。そのため、位相スペクトル差の範囲301は、負側に位置する。そしてその遅れによる位相差の範囲は、周波数が高いほど広くなる。逆に、同乗者に対して、マイクロホン11−1の方がマイクロホン11−2よりも近い。そのため、同乗者が発した音声がマイクロホン11−2に到達するタイミングがマイクロホン11−1に到達するタイミングよりも遅くなる。その結果として、第1の周波数スペクトルに表される同乗者が発した音声の位相は、第2の周波数スペクトルに表される同乗者が発した音声の位相よりも進む。そのため、位相スペクトル差の範囲302は、正側に位置する。そして位相差の範囲は、周波数が高いほど広くなる。
【0026】
そこで、指向音声生成部22は、各フレームについて、位相スペクトル差Δθ(f)を参照して、周波数ごとに位相差が位相スペクトル差の範囲301に含まれるか、位相スペクトル差の範囲302に含まれるかを判定する。そして指向音声生成部22は、各フレームについて、第1及び第2の周波数スペクトルのうち、位相差が位相スペクトル差の範囲301に含まれる周波数の成分は、第1の方向から到来した音声に含まれる成分であると判定する。そして指向音声生成部22は、各フレームについて、第1の周波数スペクトルから、位相差が位相スペクトル差の範囲301に含まれる周波数の成分を抽出して第1の指向音声スペクトルとする。すなわち、指向音声生成部22は、位相差が位相スペクトル差の範囲301に含まれる周波数の成分に対して1となるゲインを乗じる。一方、指向音声生成部22は、位相差が位相スペクトル差の範囲301から外れる周波数の成分に対して0となるゲインを乗じる。これにより、指向音声生成部22は、第1の指向音声スペクトルを生成する。なお、指向音声生成部22は、位相スペクトル差の範囲301から外れる周波数の成分に対して、位相スペクトル差の範囲301から遠くなるほど小さくなるゲインを乗じてから、第1の指向音声スペクトルに含めてもよい。また、指向音声生成部22は、各フレームについて、第2の周波数スペクトルから、位相差が位相スペクトル差の範囲301に含まれる周波数の成分を抽出して第1の指向音声スペクトルとしてもよい。
【0027】
同様に、指向音声生成部22は、各フレームについて、第1及び第2の周波数スペクトルのうち、位相差が位相スペクトル差の範囲302に含まれる周波数の成分は、第2の方向から到来した音声に含まれる成分であると判定する。そして指向音声生成部22は、各フレームについて、第1の周波数スペクトルから、位相差が位相スペクトル差の範囲302に含まれる周波数の成分を抽出して第2の指向音声スペクトルとする。なお、指向音声生成部22は、位相スペクトル差の範囲302から外れる周波数の成分に対して、位相スペクトル差の範囲302から遠くなるほど小さくなるゲインを乗じてから、第2の指向音声スペクトルに含めてもよい。また、指向音声生成部22は、各フレームについて、第2の周波数スペクトルから、位相差が位相スペクトル差の範囲302に含まれる周波数の成分を抽出して第2の指向音声スペクトルとしてもよい。
【0028】
指向音声生成部22は、フレームごとに、第1の指向音声スペクトル及び第2の指向音声スペクトルのそれぞれを特徴抽出部23及び指向特性制御部25へ出力する。
【0029】
特徴抽出部23は、フレームごとに、第1及び第2の指向音声スペクトルに基づいて、そのフレームについて音源からの音声らしさを表す特徴量を算出する。
【0030】
第1の方向に位置する音源(この例では、ドライバ)が発した音声が含まれるフレームについて、第1の方向からの音声が大きくなるので、第1の指向音声スペクトルのパワーはある程度大きくなると想定される。同様に、第2の方向に位置する音源(この例では、同乗者)が発した音声が含まれるフレームについて、第2の方向からの音声が大きくなるので、第2の指向音声スペクトルのパワーはある程度大きくなると想定される。また、ドライバの音声のパワー及び同乗者の音声のパワーは経時変化すると想定される。そこで、本実施形態では、特徴抽出部23は、フレームごとに、第1及び第2の指向音声スペクトルのそれぞれについて、特徴量として、パワーと、パワーについての非定常性度合い(以下、単に非定常性度と呼ぶ)とを算出する。
【0031】
例えば、特徴抽出部23は、次式に従って、フレームごとに、第1の指向音声スペクトルのパワーPX及び第2の指向音声スペクトルのパワーPYを算出する。
【数2】
ここで、X(f)は、着目するフレームについての第1の指向音声スペクトルであり、Y(f)は、着目するフレームについての第2の指向音声スペクトルである。
【0032】
また、特徴抽出部23は、次式に従って、フレームごとに、第1の指向音声スペクトルの非定常性度RX及び第2の指向音声スペクトルの非定常性度RYを算出する。
【数3】
ここで、PX'は、着目するフレームの一つ前のフレームについての第1の指向音声スペクトルのパワーを表し、PY'は、着目するフレームの一つ前のフレームについての第2の指向音声スペクトルのパワーを表す。
特徴抽出部23は、フレームごとに、算出した特徴量を音源方向判定部24へわたす。
【0033】
音源方向判定部24は、フレームごとに、第1の指向音声スペクトルの特徴量と第2の指向音声スペクトルの特徴量とに基づいて、そのフレームにおいて、第1の方向と第2の方向のうち、第2の方向に位置する音源のみが音声を発した確からしさを判定する。以下では、第1の方向と第2の方向のうち、第2の方向に位置する音源のみが音声を発した確からしさを、単に第2の方向に位置する音源のみが音声を発した確からしさと呼ぶ。
【0034】
上記のように、第1の方向に位置する音源が発した音声が含まれるフレームについて、第1の指向音声スペクトルのパワー及び非定常性度はある程度大きくなると想定される。一方、第2の方向に位置する音源が発した音声が含まれるフレームについて、第2の指向音声スペクトルのパワー及び非定常性度はある程度大きくなると想定される。したがって、音源方向判定部24は、フレームごとに、第2の方向に位置する音源のみが音声を発した確からしさPを、次式に従って算出する。
【数4】
【0035】
したがって、確からしさPの値が大きいほど、第1の方向及び第2の方向のうち、第2の方向に位置する音源のみが音声を発している可能性が高い。音源方向判定部24は、フレームごとに、第2の方向に位置する音源のみが音声を発した確からしさPを、指向特性制御部25へ通知する。
【0036】
指向特性制御部25は、周波数時間変換部26とともに、指向音声出力部の一例を形成する。そして指向特性制御部25は、フレームごとに、第2の方向に位置する音源のみが音声を発した確からしさに応じて、受音する指向特性を制御する。本実施形態では、指向特性制御部25は、第1の指向音声スペクトルを常に出力し、第2の指向音声スペクトルには抑圧の程度を表すゲインを乗じて出力する。そして指向特性制御部25は、そのゲインを、確からしさPに応じて制御する。
【0037】
本実施形態では、指向特性制御部25は、フレームごとに、算出した確からしさPを少なくとも一つの尤度判定閾値と比較する。例えば、指向特性制御部25は、着目するフレームについて、確からしさPが第1の尤度判定閾値Th1よりも高い場合、そのフレームにおいて第2の方向に位置する音源のみが音声を発した確からしさが高いと判定する。一方、指向特性制御部25は、着目するフレームについて、確からしさPが第2の尤度判定閾値Th2(ただし、Th2<Th1)よりも低い場合、そのフレームにおいて第2の方向に位置する音源のみが音声を発した確からしさは低いと判定する。また、着目するフレームについて、確からしさPが第2の尤度判定閾値Th2以上、かづ、第1の尤度判定閾値Th1以下であれば、音源方向判定部24は、そのフレームにおいて第2の方向に位置する音源のみが音声を発した確からしさは中程度であると判定する。
【0038】
着目するフレームについて、第2の方向に位置する音源のみが音声を発した確からしさが低い場合、指向特性制御部25は、第1の指向音声スペクトル及び第2の指向音声スペクトルのうち、第1の指向音声スペクトルのみを出力する。すなわち、指向特性制御部25は、第2の指向音声スペクトルに乗じるゲインを0に設定することで、受音する指向特性を第1の方向に制限する。一方、着目するフレームについて、第2の方向に位置する音源のみが音声を発した確からしさが高い場合、指向特性制御部25は、第1の指向音声スペクトル及び第2の指向音声スペクトルの両方を出力する。すなわち、指向特性制御部25は、第2の指向音声スペクトルに乗じるゲインを1に設定することで、受音する指向特性を、第1の方向だけでなく、第2の方向にも拡張する。
【0039】
また、着目するフレームについて、第2の方向に位置する音源のみが音声を発した確からしさの程度が中程度である場合、指向特性制御部25は、第2の指向音声スペクトルに乗じるゲインを、確からしさPの値が高くなるほど1に近くなるように決定する。
【0040】
図4は、第2の方向に位置する音源のみが音声を発した確からしさPと第2の指向音声スペクトルに乗じるゲインGとの関係の一例を示す図である。
図4において、横軸は確からしさPを表し、縦軸は、ゲインGを表す。そしてグラフ400は、確からしさPとゲインの関係を表す。
【0041】
グラフ400に示されるように、確からしさPが第2の尤度判定閾値Th2以下である場合、ゲインGは0に設定される。また、確からしさPが第1の尤度判定閾値Th1以上である場合、ゲインGは1に設定される。そして確からしさPが第2の尤度判定閾値Th2よりも大きく、かつ、第1の尤度判定閾値Th1未満である場合、確からしさPが高くなるにつれてゲインGも単調かつ線形に高くなる。
【0042】
なお、変形例によれば、一つの尤度判定閾値Thが用いられてもよい。この場合には、着目するフレームについて、確からしさPが尤度判定閾値Thよりも高い場合、指向特性制御部25は、そのフレームにおいて第2の方向に位置する音源のみが音声を発した確からしさが高いと判定する。一方、確からしさPが尤度判定閾値Th以下である場合、指向特性制御部25は、そのフレームにおいて第2の方向に位置する音源のみが音声を発した確からしさが低いと判定する。
【0043】
なお、尤度判定閾値Th1、Th2、Thは、例えば、実験などにより予め設定され、音声処理装置13が有するメモリに予め保存されればよい。
【0044】
図5は、受音についての指向特性を表す模式図である。第2の方向に位置する音源のみが音声を発した確からしさの程度が低い場合、受音する感度が高い範囲501は、マイクロホン11−1とマイクロホン11−2の並び方向について、ドライバ511が位置するマイクロホン11−2側に設定される。一方、第2の方向に位置する音源のみが音声を発した確からしさの程度が高い場合、受音する感度が高い範囲502は、マイクロホン11−1とマイクロホン11−2の並び方向について、マイクロホン11−2側とともに、マイクロホン11−1側にも設定される。これにより、ドライバ511が位置する方向だけでなく、同乗者512が位置する方向も受音する感度が高い範囲に含まれる。
【0045】
周波数時間変換部26は、フレームごとに、指向特性制御部25から出力された第1の指向音声スペクトルを、周波数時間変換して時間領域の信号に変換することにより、フレームごとの第1の指向音声信号を得る。また、周波数時間変換部26は、フレームごとに、指向特性制御部25から出力された第2の指向音声スペクトルを、周波数時間変換して時間領域の信号に変換することにより、フレームごとの第2の指向音声信号を得る。なお、この周波数時間変換は、時間周波数変換部21により行われる時間周波数変換の逆変換である。
【0046】
周波数時間変換部26は、時間順(すなわち、再生順)に連続するフレームごとの第1の指向音声信号を、フレーム長の1/2ずつずらして加算することにより、第1の指向音声信号を算出する。同様に、周波数時間変換部26は、時間順に連続するフレームごとの第2の指向音声信号を、フレーム長の1/2ずつずらして加算することにより、第2の指向音声信号を算出する。そして周波数時間変換部26は、第1の指向音声信号及び第2の指向音声信号を、通信インターフェース部14を介して他の機器へ出力する。
【0047】
図6は、音声処理装置13により実行される音声処理の動作フローチャートである。音声処理装置13は、フレームごとに、下記のフローチャートに従って音声処理を実行する。
【0048】
時間周波数変換部21は、フレーム単位に分割された第1の入力音声信号及び第2の入力音声信号にハニング窓関数を乗じる(ステップS101)。そして、時間周波数変換部21は、第1の入力音声信号及び第2の入力音声信号を時間周波数変換して第1の周波数スペクトル及び第2の周波数スペクトルを算出する(ステップS102)。
【0049】
指向音声生成部22は、第1及び第2の周波数スペクトルに基づいて、第1の指向音声スペクトル及び第2の指向音声スペクトルを生成する(ステップS103)。特徴抽出部23は、音源からの音声らしさを表す特徴量として、第1の指向音声スペクトルのパワー及び非定常性度と、第2の指向音声スペクトルのパワー及び非定常性度を算出する(ステップS104)。
【0050】
音源方向判定部24は、第1の指向音声スペクトル及び第2の指向音声スペクトルのそれぞれのパワー及び非定常性度に基づいて、第1及び第2の方向のうち、第2の方向に位置する音源のみから音声が到来する確からしさPを算出する(ステップS105)。
【0051】
指向特性制御部25は、確からしさPが第1の尤度判定閾値Th1よりも大きいか否か判定する(ステップS106)。確からしさPが第1の尤度判定閾値Th1より大きい場合(ステップS106−Yes)、指向特性制御部25は、第1及び第2の指向音声スペクトルの両方を出力する(ステップS107)。一方、確からしさPが第1の尤度判定閾値Th1以下である場合(ステップS106−No)、指向特性制御部25は、確からしさPが第2の尤度判定閾値Th2よりも小さいか否か判定する(ステップS108)。確からしさPが第2の尤度判定閾値Th2よりも小さい場合(ステップS108−Yes)、指向特性制御部25は、第1及び第2の指向音声スペクトルのうちの第1の指向音声スペクトルのみを出力する(ステップS109)。すなわち、指向特性制御部25は、第1の指向音声スペクトルとともに、振幅が全周波数帯域にわたって0となる第2の指向音声スペクトルを出力する。一方、確からしさPが第2の尤度判定閾値Th2以上である場合(ステップS108−No)、指向特性制御部25は、第1の指向音声スペクトルとともに、確からしさPに応じて抑圧した第2の指向音声スペクトルを出力する(ステップS110)。
【0052】
周波数時間変換部26は、指向特性制御部25から出力された第1の指向音声スペクトルを周波数時間変換して第1の指向音声信号を算出する。また周波数時間変換部26は、第2の指向音声スペクトルが出力された場合には、第2の指向音声スペクトルについても周波数時間変換して第2の指向音声信号を算出する(ステップS111)。そして周波数時間変換部26は、前フレームまでの第1の指向音声信号に対して半フレーム長ずらして現フレームの第1の指向音声信号を合成する。同様に、周波数時間変換部26は、前フレームまでの第2の指向音声信号に対して半フレーム長ずらして現フレームの第2の指向音声信号を合成する(ステップS112)。そして音声処理装置13は、音声処理を終了する。
【0053】
以上に説明してきたように、この音声処理装置は、受音することが優先される音源が位置する第1の方向と、他の音源が位置することが想定される第2の方向のうちの第2の方向に位置する音源のみが音声を発した確からしさをフレームごとに算出する。そしてこの音声処理装置は、その確からしさが高いと、第1の方向から到来する音声を含む第1の指向音声信号だけでなく、第2の方向から到来する音声を含む第2の指向音声信号も出力する。すなわち、この音声処理装置は、その確からしさが高いと、受音の指向特性を、第1の方向だけでなく、第2の方向も含むように制御する。これにより、この音声処理装置は、例えば、複数の話者のうちの特定の話者が発した音声を優先的に受音しつつ、他の話者が音声を発したときには、他の話者が発した音声も受音することを可能とする。
【0054】
なお、変形例によれば、特徴抽出部23は、フレームごとに、音源からの音声らしさを表す特徴量として、第1の指向音声スペクトルのパワーと、第2の指向音声スペクトルのパワーを算出し、非定常性度については算出しなくてもよい。この場合には、特徴抽出部23は、確からしさPを、次式に従って算出すればよい。
【数5】
【0055】
また他の変形例によれば、指向音声生成部22は、第1の周波数スペクトルと第2の周波数スペクトル間の同期減算により、フレームごとに第1の指向音声スペクトル及び第2の指向音声スペクトルを算出してもよい。この場合、指向音声生成部22は、次式に従って第1の指向音声スペクトルX(f)及び第2の指向音声スペクトルY(f)を算出する。
【数6】
ここで、Nは、1フレームに含まれるサンプリング点の総数、すなわち、フレーム長を表す。またnは、マイクロホン11−1とマイクロホン11−2間の、音源から音声が到達するサンプリング時間差を表す。なお、nが0<n≦1、すなわち、サンプリング間隔以下となるように、マイクロホン11−1とマイクロホン11−2間の間隔dは、(音速/Fs)以下となるように設定される。
【0056】
図7は、この変形例による、受音についての指向特性を表す模式図である。第2の方向に位置する音源のみが音声を発した確からしさの程度が低い場合、受音する感度が高い範囲701は、マイクロホン11−1とマイクロホン11−2の並び方向について、ドライバ711が位置するマイクロホン11−2側に設定される。一方、第2の方向に位置する音源のみが音声を発した確からしさの程度が高い場合、受音する感度が高い範囲702は、マイクロホン11−2側とともに、同乗者712が位置するマイクロホン11−1側にも設定される。またこの例では、第1の指向音声信号について受音する感度が高い範囲と、第2の指向音声信号について受音する感度が高い範囲の一部が重なる。
【0057】
さらに他の変形例によれば、指向特性制御部25は、フレームごとに、第1の指向音声スペクトルに抑圧の程度を表す第1のゲインを乗じて得られるスペクトルを出力してもよい。同様に、指向特性制御部25は、フレームごとに、第2の指向音声スペクトルに抑圧の程度を表す第2のゲインを乗じて得られるスペクトルを出力してもよい。そして指向特性制御部25は、第2の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間に応じて、第1のゲイン及び第2のゲインを調節してもよい。
【0058】
図8は、第2の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第1及び第2のゲインの関係の一例を示す図である。
図8において、横軸は時間を表し、縦軸はゲインを表す。そしてグラフ801は、第2の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第1のゲインの関係を表す。またグラフ802は、第2の方向に位置する音源のみが音声を発した確からしさの程度が変化した時点からの経過時間と第2のゲインの関係を表す。
【0059】
この例では、時刻t1までは、第2の方向に位置する音源のみが音声を発した確からしさPが第1の尤度判定閾値Th1以下であり、時刻t1において確からしさPが第1の尤度判定閾値Th1より大きくなったとする。すなわち、時刻t1において、第2の方向に位置する音源のみが音声を発した確からしさの程度が高いに変化したとする。また、時刻t1以降、時刻t3までは、第2の方向に位置する音源のみが音声を発した確からしさPは第2の尤度判定閾値Th2以上であり、時刻t3において確からしさPが第2の尤度判定閾値Th2より小さくなったとする。すなわち、時刻t3において、第2の方向に位置する音源のみが音声を発した確からしさの程度が低いに変化したとする。
【0060】
この場合、時刻t1までは、第1のゲインG1は1に設定され、一方、第2のゲインG2は0に設定される。すなわち、第2の方向に位置する音源のみが音声を発した確からしさの程度が高いに変化するまでは、指向特性制御部25は、第1の指向音声スペクトルをそのまま出力し、かつ、第2の指向音声スペクトルを出力しない。
【0061】
一方、時刻t1になり、第2の方向に位置する音源のみが音声を発した確からしさの程度が高いに変化すると、その後の時刻t2までの一定期間(例えば、数10msec)、指向特性制御部25は、第1のゲインG1を線形に単調減少させる。そして時刻t2以降、指向特性制御部25は、第1のゲインG1を、0<G1<1となる所定の値(この例では、0.7)に設定する。一方、指向特性制御部25は、時刻t1以降、第2のゲインG2を1に設定する。すなわち、指向特性制御部25は、第1の指向音声スペクトルを減衰させて出力し、かつ、第2の指向音声スペクトルをそのまま出力する。これにより、第2の方向に位置する音源から音声が到来している間は、第2の指向音声信号に含まれる、第2の方向からの音声についての、第1の方向から受音した雑音に対する信号対雑音比が向上する。
【0062】
また、時刻t3になり、第2の方向に位置する音源のみが音声を発した確からしさの程度が低いに変化すると、指向特性制御部25は、その後の時刻t4までの一定期間(例えば、100msec〜200msec)は第1のゲインG1を所定値に維持する。そして指向特性制御部25は、時刻t4以降、第1のゲインG1を1に戻す。また、指向特性制御部25は、時刻t4まで、第2のゲインG2を1に維持し、時刻t4以降、第2のゲインG2を線形に単調減少させる。そして指向特性制御部25は、時刻t4よりも後の時刻t5以降、第2のゲインG2を0にする。これにより、第2の方向に位置する音源のみが音声を発した確からしさの程度が低いに変化しても、その後の一定期間の間、第2の指向音声スペクトルは出力される。そのため、例えば、第2の指向音声信号に含まれる、第2の方向からの音声の後端部分、例えば、第2の方向に位置する同乗者が発した会話音声の語尾部分が途切れることが防止される。したがって、例えば、第2の指向音声信号を受信した他の機器が、第2の指向音声信号から同乗者の音声を認識する場合、語尾部分が途切れることによる認識精度の低下が防止される。なお、時刻t3〜時刻t5までの期間は、時刻t3〜時刻t4までの期間以上であり、かつ、例えば、100msec〜300msecに設定される。
【0063】
図9は、この変形例による指向特性制御部25の指向特性制御の動作フローチャートである。なお、この指向特性制御の処理は、
図6に示される音声処理の動作フローチャートにおけるステップS106〜S110までの処理の代わりに実行される。また
図9では、現フレームにおける、第2の方向に位置する音源のみが音声を発した確からしさをP(t)と表記し、直前のフレームにおける、第2の方向に位置する音源のみが音声を発した確からしさをP(t-1)と表記する。
【0064】
図6に示されたステップS105において、現フレームの確からしさP(t)が算出されると、指向特性制御部25は、確からしさP(t)が第1の尤度判定閾値Th1よりも大きいか否か判定する(ステップS201)。確からしさP(t)が第1の尤度判定閾値Th1よりも大きい場合(ステップS201−Yes)、指向特性制御部25は、直前のフレームの確からしさP(t-1)が第1の尤度判定閾値Th1以下か否か判定する(ステップS202)。確からしさP(t-1)が第1の尤度判定閾値Th1以下であれば(ステップS202−Yes)、現フレームにおいて、第2の方向に位置する音源のみが音声を発した確からしさが高いに変化している。そこで、指向特性制御部25は、第2の方向に位置する音源のみが音声を発した確からしさが高いに変化してからの経過時間を表すフレーム数cnt1を1に設定する。また、指向特性制御部25は、第2の方向に位置する音源のみが音声を発した確からしさが低いに変化してからの経過時間を表すフレーム数cnt2を0に設定する(ステップS203)。なお、初期状態では、第1のゲインG1が1、第2のゲインG2が0となるように、フレーム数cnt1は0に設定され、かつ、フレーム数cnt2は、時刻t3〜時刻t5の期間に相当するフレーム数よりも大きい値に設定される。
【0065】
一方、確からしさP(t-1)が第1の尤度判定閾値Th1よりも高ければ(ステップS202−No)、直前のフレームの時点でも、第2の方向に位置する音源のみが音声を発した確からしさが高く、その確からしさが高い状態が現フレームまで継続している。そのため、指向特性制御部25は、フレーム数cnt1を1インクリメントする(ステップS204)。そしてステップS203またはS204の後、指向特性制御部25は、第1のゲインG1を、例えば、
図8に示されるように、フレーム数cnt1に応じて設定し、第2のゲインG2を1に設定する(ステップS205)。
【0066】
また、ステップS201において、確からしさP(t)が第1の尤度判定閾値Th1以下である場合(ステップS201−No)、指向特性制御部25は、P(t)が第2の尤度判定閾値Th2よりも小さいか否か判定する(ステップS206)。P(t)が第2の尤度判定閾値Th2よりも小さい場合(ステップS206−Yes)、指向特性制御部25は、直前のフレームの確からしさP(t-1)が第2の尤度判定閾値Th2以上か否か判定する(ステップS207)。確からしさP(t-1)が第2の尤度判定閾値Th2以上であれば(ステップS207−Yes)、現フレームにおいて、第2の方向に位置する音源のみが音声を発した確からしさが低いに変化している。そこで、指向特性制御部25は、フレーム数cnt1を0に設定し、かつ、フレーム数cnt2を1に設定する(ステップS208)。
【0067】
一方、確からしさP(t-1)が第2の尤度判定閾値Th2よりも低ければ(ステップS207−No)、直前のフレームの時点でも、第2の方向に位置する音源のみが音声を発した確からしさが低く、その確からしさが低い状態が現フレームまで継続している。そのため、指向特性制御部25は、フレーム数cnt2を1インクリメントする(ステップS209)。そしてステップS208またはS209の後、指向特性制御部25は、第1のゲインG1及び第2のゲインG2を、例えば、
図8に示されるように、フレーム数cnt2に応じて設定する(ステップS210)。
【0068】
また、ステップS206にて、P(t)が第2の尤度判定閾値Th2以上である場合(ステップS206−No)、現フレームでは、確からしさが中程度の状態であることが継続している。そこで、指向特性制御部25は、フレーム数cnt1が0よりも大きいか否か判定する(ステップS211)。フレーム数cnt1が0よりも大きければ(ステップS211−Yes)、確からしさが高い状態が継続しているとみなす。そこで指向特性制御部25は、フレーム数cnt1を1インクリメントする(ステップS204)。一方、フレーム数cnt1が0であれば(ステップS211−No)、フレーム数cnt2が0よりも大きいはずなので、確からしさが低い状態が継続しているとみなす。そこで指向特性制御部25は、フレーム数cnt2を1インクリメントする(ステップS209)。
【0069】
ステップS205またはステップS210の後、指向特性制御部25は、第1のゲインG1を第1の指向音声スペクトルに乗じてからその第1の指向音声スペクトルを出力する。また、指向特性制御部25は、第2のゲインG2を第2の指向音声スペクトルに乗じてからその第2の指向音声スペクトルを出力する(ステップS212)。そして音声処理装置13は、
図6のステップS111以降の処理を実行する。
【0070】
この変形例によれば、音声処理装置は、第2の方向に位置する音源のみが音声を発している場合のその音声についての信号対雑音比を向上できるとともに、第2の方向に位置する音源から発した音声の語尾が途切れることを防止できる。
なお、この変形例においても、二つの第1の尤度判定閾値Th1と第2の尤度判定閾値Th2の代わりに、一つの尤度判定閾値Thが用いられてもよい。この場合には、指向特性制御部25は、
図9に示された動作フローチャートにおいて、Th1=Th2=Thとして、指向特性制御を行えばよい。
【0071】
上記の実施形態または変形例において、指向特性制御部25は、フレームごとに、ゲインが乗じられた後の第1の指向音声スペクトルと第2の指向音声スペクトルを合成して一つのスペクトルとしてから出力してもよい。そして周波数時間変換部26は、その一つのスペクトルを周波数時間変換してフレームごとに合成することで、一つの指向音声信号を算出し、その指向音声信号を出力してもよい。あるいは、周波数時間変換部26は、第1の指向音声信号と第2の指向音声信号を合成して一つの指向音声信号を算出し、その指向音声信号を出力してもよい。
【0072】
上記の実施形態または変形例による音声処理装置は、上記のような音声入力装置以外の装置、例えば、電話会議システムなどに実装されてもよい。
【0073】
上記の実施形態または変形例による音声処理装置が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
【0074】
図10は、上記の実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、オーディオインターフェース部102と、通信インターフェース部103と、記憶部104と、記憶媒体アクセス装置105と、プロセッサ106とを有する。プロセッサ106は、ユーザインターフェース部101、オーディオインターフェース部102、通信インターフェース部103、記憶部104及び記憶媒体アクセス装置105と、例えば、バスを介して接続される。
【0075】
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、音声処理を開始させる操作信号をプロセッサ106へ出力する。
【0076】
オーディオインターフェース部102は、コンピュータ100を、マイクロホン(図示せず)と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部102は、2以上のマイクロホンのそれぞれから受け取った入力音声信号をプロセッサ106へ渡す。
【0077】
通信インターフェース部103は、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして通信インターフェース部103は、例えば、プロセッサ106から受け取った、第1の指向音声信号及び第2の指向音声信号のそれぞれを通信ネットワークを介して他の機器へ出力する。あるいは、通信インターフェース部103は、第1の指向音声信号及び第2の指向音声信号に対して音声認識処理を適用することで得られた音声認識結果を、通信ネットワークを介して他の機器へ出力してもよい。あるいはまた、通信インターフェース部103は、音声認識結果に応じて実行されたアプリケーションにより生成された信号を、通信ネットワークを介して他の機器へ出力してもよい。
【0078】
記憶部104は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部104は、プロセッサ106上で実行される、音声処理を実行するためのコンピュータプログラム、及び音声処理で利用される様々なデータまたは音声処理の途中で生成される各種の信号などを記憶する。
【0079】
記憶媒体アクセス装置105は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体107にアクセスする装置である。記憶媒体アクセス装置105は、例えば、記憶媒体107に記憶された、プロセッサ106上で実行される音声処理用のコンピュータプログラムを読み込み、プロセッサ106に渡す。
【0080】
プロセッサ106は、上記の実施形態または変形例による音声処理用コンピュータプログラムを実行することにより、各入力音声信号から第1の指向音声信号及び第2の指向音声信号を生成する。そしてプロセッサ106は、第1の指向音声信号及び第2の指向音声信号を通信インターフェース部103へ出力する。
【0081】
さらに、プロセッサ106は、第1の指向音声信号に対して音声認識処理を実行することで、第1の方向に位置する話者が発した音声を認識してもよい。同様に、プロセッサ106は、第2の指向音声信号に対して音声認識処理を実行することで、第2の方向に位置する他の話者が発した音声を認識してもよい。そしてプロセッサ106は、それぞれの音声認識結果に応じて所定のアプリケーションを実行してもよい。
【0082】
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
【0083】
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
第1の音声入力部により生成された第1の音声信号、及び、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数スペクトル及び第2の周波数スペクトルに変換し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、受音することが優先される第1の方向及び前記第1の方向と異なる第2の方向のうちの前記第2の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第1の方向から到来する音声を含む第1の指向音声信号を出力するとともに、前記確からしさに応じて、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第2の方向から到来する音声を含む第2の指向音声信号を出力するか否かを制御する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
(付記2)
前記第2の指向音声信号の出力を制御することは、前記確からしさが第1の閾値よりも高くなるフレームについて前記第2の指向音声信号を出力する、付記1に記載の音声処理用コンピュータプログラム。
(付記3)
前記第2の指向音声信号の出力を制御することは、第1のフレームにおける前記確からしさが前記第1の閾値よりも低い第2の閾値未満となり、かつ、前記第1のフレームの直前のフレームにおける前記確からしさが前記第2の閾値以上である場合、前記第1のフレームから第1の期間経過後のフレームから前記第2の指向音声信号の出力を停止する、付記2に記載の音声処理用コンピュータプログラム。
(付記4)
前記第2の指向音声信号の出力を制御することは、第2のフレームにおける前記確からしさが前記第1の閾値よりも高く、かつ、前記第2のフレームの直前のフレームにおける前記確からしさが前記第1の閾値以下である場合、前記第2のフレームから第2の期間にわたって前記第1の指向音声信号を抑圧して出力する、付記3に記載の音声処理用コンピュータプログラム。
(付記5)
前記第2の指向音声信号の出力を制御することは、前記第2のフレーム以降の第3のフレームにおける前記確からしさが前記第2の閾値未満となる場合、前記第3のフレームから第3の期間経過した時点を前記第2の期間の終端とする、付記4に記載の音声処理用コンピュータプログラム。
(付記6)
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、前記第1の指向音声信号のパワー及び前記第2の指向音声信号のパワーを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第1の指向音声信号のパワーに対する前記第2の指向音声信号のパワーのパワー比に基づいて前記確からしさを算出する、付記1〜5の何れかに記載の音声処理用コンピュータプログラム。
(付記7)
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、前記第1の指向音声の非定常性度合い及び前記第2の指向音声の非定常性度合いを算出することをさらにコンピュータに実行させ、
前記確からしさを算出することは、フレームごとに、前記第1の指向音声の非定常性度合いに対する前記第2の指向音声の非定常性度合いの非定常度比と前記パワー比の和に基づいて前記確からしさを算出する、付記6に記載の音声処理用コンピュータプログラム。
(付記8)
集音した音声を表す第1の音声信号を生成する第1の音声入力部と、
前記第1の音声入力部と異なる位置に配置され、集音した音声を表す第2の音声信号を生成する第2の音声入力部と、
前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数スペクトル及び第2の周波数スペクトルに変換する時間周波数変換部と、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、受音することが優先される第1の方向及び前記第1の方向と異なる第2の方向のうちの前記第2の方向に位置する音源のみが音声を発した確からしさを算出する音源方向判定部と、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第1の方向から到来する音声を含む第1の指向音声信号を出力するとともに、前記確からしさに応じて、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第2の方向から到来する音声を含む第2の指向音声信号を出力するか否かを制御する指向音声出力部と、
を有する音声処理装置。
(付記9)
第1の音声入力部により生成された第1の音声信号、及び、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数スペクトル及び第2の周波数スペクトルに変換し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて、受音することが優先される第1の方向及び前記第1の方向と異なる第2の方向のうちの前記第2の方向に位置する音源のみが音声を発した確からしさを算出し、
フレームごとに、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第1の方向から到来する音声を含む第1の指向音声信号を出力するとともに、前記確からしさに応じて、前記第1の周波数スペクトル及び前記第2の周波数スペクトルに基づいて算出される前記第2の方向から到来する音声を含む第2の指向音声信号を出力するか否かを制御する、
ことを含む音声処理方法。