(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-03
(45)【発行日】2022-10-12
(54)【発明の名称】信号処理装置、信号処理方法および信号処理プログラム
(51)【国際特許分類】
G10L 21/0232 20130101AFI20221004BHJP
G10L 21/034 20130101ALI20221004BHJP
【FI】
G10L21/0232
G10L21/034
(21)【出願番号】P 2020538008
(86)(22)【出願日】2018-08-24
(86)【国際出願番号】 JP2018031456
(87)【国際公開番号】W WO2020039598
(87)【国際公開日】2020-02-27
【審査請求日】2021-02-03
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(73)【特許権者】
【識別番号】000227205
【氏名又は名称】NECプラットフォームズ株式会社
(74)【代理人】
【識別番号】100134430
【氏名又は名称】加藤 卓士
(72)【発明者】
【氏名】杉山 昭彦
(72)【発明者】
【氏名】宮原 良次
【審査官】米倉 秀明
(56)【参考文献】
【文献】特開平04-115299(JP,A)
【文献】特開2011-113044(JP,A)
【文献】国際公開第2016/203753(WO,A1)
【文献】SUGIYAMA, Akihiko,Single-Channel Impact-Noise Suppression with No Auxiliary Information for Its Detection,Proc. 2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,米国,IEEE,2007年10月21日,pp.127-130
【文献】YAMATO, Kazuhiro et al.,Post-Processing Noise Suppressor with Adaptive Gain-Flooring for Cell-Phone Handsets and IC Recorder,Proc. 2007 Digest of Technical Papers International Conference on Consumer Electronics,米国,IEEE,2007年01月10日,pp.1-2
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声とそれ以外の信号
とを含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求める変換部と、
前記振幅に含まれる音声の存在を音声フラグとして求める音声検出部と、
前記混合信号と前記音声フラグ
とを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求める振幅補正部と
、
前記振幅と前記位相とを受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出部と、
前記音声フラグと前記衝撃音フラグとの状態に応じて前記位相を補正した補正位相を求める位相補正部と、
前記補正振幅と前記
補正位相とを受けて、時間領域信号に変換する逆変換部と、
前記時間領域信号を整形する整形部と、
を備え、
前記位相補正部は、前記音声フラグが音声の存在を示すときに前記混合信号の位相を補正位相とし、前記音声フラグが音声の不存在を示すときに過去の位相に基づく予測位相を補正位相とする信号処理装置。
【請求項2】
前記音声検出部は、前記振幅を受けて子音を検出する子音検出部と、
前記振幅を受けて母音を検出する母音検出部と、
を含む請求項
1に記載の信号処理装置。
【請求項3】
前記振幅補正部は、前記振幅と音声フラグを受けて、音声が存在するときに前記振幅を補正振幅とし、音声が存在しないときに0を補正振幅とする
請求項1または2記載の信号処理装置。
【請求項4】
前記衝撃音検出部は、前記振幅の平坦度を計算する振幅平坦度計算部と、
前記位相の周波数に対する直線性を計算する位相直線性計算部と、
を含むことを特徴とする請求項
1に記載の信号処理装置。
【請求項5】
音声とそれ以外の信号
とを含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求めるステップと、
前記振幅に含まれる音声の存在を音声フラグとして求めるステップと、
前記混合信号と前記音声フラグ
とを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求めるステップと
、
前記振幅と前記位相とを受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出ステップと、
前記音声フラグと前記衝撃音フラグとの状態に応じて前記位相を補正した補正位相を求める位相補正ステップと、
前記補正振幅と前記補正位相とを受けて、時間領域信号に変換する逆変換ステップと、
前記時間領域信号を整形するステップと、
を含み、
前記位相補正ステップでは、前記音声フラグが音声の存在を示すときに前記混合信号の位相を補正位相とし、前記音声フラグが音声の不存在を示すときに過去の位相に基づく予測位相を補正位相とする信号処理方法。
【請求項6】
音声とそれ以外の信号
とを含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求めるステップと、
前記振幅に含まれる音声の存在を音声フラグとして求めるステップと、
前記混合信号と前記音声フラグ
とを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求めるステップと
、
前記振幅と前記位相とを受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出ステップと、
前記音声フラグと前記衝撃音フラグとの状態に応じて前記位相を補正した補正位相を求める位相補正ステップと、
前記補正振幅と前記補正位相とを受けて、時間領域信号に変換する逆変換ステップと、
前記時間領域信号を整形するステップと、
をコンピュータに実行させる信号処理プログラムであって、
前記位相補正ステップでは、前記音声フラグが音声の存在を示すときに前記混合信号の位相を補正位相とし、前記音声フラグが音声の不存在を示すときに過去の位相に基づく予測位相を補正位相とする信号処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の成分を含む入力信号を受けて、少なくとも一つの成分を強調する技術に関する。
【背景技術】
【0002】
上記技術分野において、特許文献1には、音声とノイズの混合信号を入力し、音声を強調して、出力する技術に関する記載がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、この技術は、入力信号の振幅成分だけを強調処理して強調振幅を求め、入力信号の位相成分をそのまま強調振幅と組み合わせて出力信号とする。このため、入力信号の位相が真の音声の位相と大きく異なる場合に、十分に高品質な出力信号を得ることができない。特に、音声のパワーがノイズのパワーよりも十分に大きくないときに、十分に高品質な出力信号を得ることができない。
【0005】
本発明の目的は、上述の課題を解決する技術を提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明にかかる信号処理装置は、
音声とそれ以外の信号とを含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求める変換部と、
前記振幅に含まれる音声の存在を音声フラグとして求める音声検出部と、
前記混合信号と前記音声フラグとを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求める振幅補正部と、
前記振幅と前記位相とを受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出部と、
前記音声フラグと前記衝撃音フラグとの状態に応じて前記位相を補正した補正位相を求める位相補正部と、
前記補正振幅と前記補正位相とを受けて、時間領域信号に変換する逆変換部と、
前記時間領域信号を整形する整形部と、
を備え、
前記位相補正部は、前記音声フラグが音声の存在を示すときに前記混合信号の位相を補正位相とし、前記音声フラグが音声の不存在を示すときに過去の位相に基づく予測位相を補正位相とする信号処理装置である。
上記目的を達成するため、本発明にかかる信号処理方法は、
音声とそれ以外の信号とを含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求めるステップと、
前記振幅に含まれる音声の存在を音声フラグとして求めるステップと、
前記混合信号と前記音声フラグとを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求めるステップと、
前記振幅と前記位相とを受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出ステップと、
前記音声フラグと前記衝撃音フラグとの状態に応じて前記位相を補正した補正位相を求める位相補正ステップと、
前記補正振幅と前記補正位相とを受けて、時間領域信号に変換する逆変換ステップと、
前記時間領域信号を整形するステップと、
を含み、
前記位相補正ステップでは、前記音声フラグが音声の存在を示すときに前記混合信号の位相を補正位相とし、前記音声フラグが音声の不存在を示すときに過去の位相に基づく予測位相を補正位相とする信号処理方法である。
上記目的を達成するため、本発明にかかる信号処理プログラムは、
音声とそれ以外の信号とを含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求めるステップと、
前記振幅に含まれる音声の存在を音声フラグとして求めるステップと、
前記混合信号と前記音声フラグとを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求めるステップと、
前記振幅と前記位相とを受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出ステップと、
前記音声フラグと前記衝撃音フラグとの状態に応じて前記位相を補正した補正位相を求める位相補正ステップと、
前記補正振幅と前記補正位相とを受けて、時間領域信号に変換する逆変換ステップと、
前記時間領域信号を整形するステップと、
をコンピュータに実行させる信号処理プログラムであって、
前記位相補正ステップでは、前記音声フラグが音声の存在を示すときに前記混合信号の位相を補正位相とし、前記音声フラグが音声の不存在を示すときに過去の位相に基づく予測位相を補正位相とする信号処理プログラムである。
【発明の効果】
【0007】
本発明によれば、入力信号に含まれる音声を検出し、音声の存在に対応して入力信号を補正した後に、これをさらに整形して強調信号として出力するので、入力信号の位相が真の音声の位相と大きく異なる場合にも、十分に高品質な出力信号を得ることができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の第1実施形態に係る信号処理装置の構成を示すブロック図である。
【
図2】本発明の第2実施形態に係る信号処理装置の構成を示すブロック図である。
【
図3】本発明の第2実施形態に係る音声検出部の構成を示す図である。
【
図4】本発明の第2実施形態に係る子音検出部の構成を示す図である。
【
図5】本発明の第2実施形態に係る母音検出部の構成を示す図である。
【
図6】本発明の第2実施形態に係る振幅補正部の構成を示す図である。
【
図7】本発明の第3実施形態に係る信号処理装置の構成を示すブロック図である。
【
図8】本発明の第3実施形態に係る衝撃音検出部の構成を示す図である。
【
図9】本発明の第3実施形態に係る位相補正部の構成を示す図である。
【
図10】本発明の第3実施形態に係る振幅補正部の構成を示す図である。
【
図11】本発明の第4実施形態に係る信号処理装置の構成を示すブロック図である。
【
図12】本発明の第4実施形態に係る信号処理装置の処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【0009】
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。また、一部の実施形態で入力される混合信号の数が4のものについて説明しているが、これはあくまで例示であり、2以上の任意の信号数について同じ説明が成り立つ。また、説明において信号の振幅を用いている部分はこれをパワーで、信号のパワーを用いている部分はこれを振幅で置き換えても、説明はそのまま成り立つ。パワーは振幅の2乗として、振幅はパワーの平方根として、それぞれ求められるためである。
【0010】
[第1実施形態]
本発明の第1実施形態としての信号処理装置100について、
図1を用いて説明する。信号処理装置100は、音声と雑音が混在した混合信号をマイクなどのセンサや外部端子から入力して、音声を強調し、雑音を抑圧する装置である。
図1に示すように、信号処理装置100は、音声検出部101、補正部102、および整形部103を含む。
【0011】
音声検出部101は、混合信号を受けて、音声の存在を検出し、音声フラグとして出力する。補正部102は、混合信号と音声フラグを受けて、入力信号を補正する。整形部103は、補正部102から受けた混合信号を補正して補正混合信号を求め、強調信号として出力する。
【0012】
信号処理装置100は、混合信号に含まれる音声の存在に対応して混合信号を補正した後に、さらに整形して強調信号として出力するので、混合信号の位相が真の音声の位相と大きく異なる場合にも、十分に高品質な出力信号を得ることができる。
【0013】
[第2実施形態]
本発明の第2実施形態としての信号処理装置200について、
図2を用いて説明する。信号処理装置200は、音声と雑音が混在した混合信号をマイクなどのセンサや外部端子から入力して、音声を強調し、雑音を抑圧する装置である。
図2に示すように、信号処理装置200は、変換部201、音声検出部202、振幅補正部203、逆変換部204、および整形部205を含む。
【0014】
変換部201は、混合信号を受けて複数の信号サンプルをブロックにまとめ、周波数変換を適用して複数の周波数成分における振幅と位相に分解する。周波数変換としては、フーリエ変換、コサイン変換、サイン変換、ウェーブレット変換、アダマール変換など、様々な変換を用いることができる。また、変換に先立って、ブロックごとに窓関数をかけることも広く行われている。さらに、ブロックの一部を隣接するブロックの一部と重複処理するオーバラップ処理も、広く適用されている。得られた複数の信号サンプルを複数のグループ(サブバンド)に統合し、各グループを代表する値を各グループ内の周波数成分で共通して使用することもできる。また、各サブバンドを新たな一つの周波数点として取り扱い、周波数点数を削減することもできる。さらに、ブロック処理に基づく周波数変換の代わりに、分析フィルタバンクを用いてサンプル毎の処理としながら複数の周波数点に対応したデータを求めることもできる。その際に、各周波数点が周波数軸上に等間隔で並ぶ等分割フィルタバンクや不等間隔で並ぶ不等分割フィルタバンクを用いることができる。不等分割フィルタバンクでは、入力される信号の重要な周波数帯域における周波数間隔が狭くなるように設定する。音声の場合には、低周波領域で周波数間隔が狭くなるように設定する。
【0015】
音声検出部202は、変換部201から複数の周波数における振幅を受けて、音声の存在を検出し、音声フラグとして出力する。振幅補正部203は、変換部201からうけとった複数の周波数における振幅を、音声検出部202からの音声フラグの状態に応じて補正し、補正振幅として出力する。
【0016】
逆変換部204は、振幅補正部203から補正振幅を、変換部201から位相を受けて、逆周波数変換を適用することによって時間領域信号を求め、これを出力する。逆変換部204は、変換部201において適用した変換の逆変換を行う。例えば、変換部201でフーリエ変換を実施したときは、逆変換部204は逆フーリエ変換を実施する。また、変換部201と同様に、窓関数やオーバラップ処理も、広く適用されている。変換部201で、複数の信号サンプルを複数のグループ(サブバンド)に統合したときには、各サブバンドを代表する値を各サブバンド内の全周波数点の値としてコピーし、その後に逆変換を実施する。
【0017】
整形部205は、逆変換部204から時間領域信号を受けて整形処理を実施し、整形結果を強調信号として出力する。整形処理には、信号の平滑化や予測が含まれる。平滑化を行う場合、変換部201から受けた複数の信号サンプルと比較して、整形結果は時間と共により滑らかに変化する。線形予測を行う場合、整形部205は逆変換部204から受けた複数の信号サンプルの線形結合として、整形結果を得る。線形結合を表す係数は、逆変換部204から受けた複数の信号サンプルを用いて、レビンソン-ダービン法で求めることができる。また、逆変換部204からの複数の信号サンプルのうち最新のサンプル(時間的に最も遅れているサンプル)と過去のサンプルとを用いて最新のサンプルを予測してもよい。そしてその予測の結果(予測係数を用いた過去のサンプルの線形結合)の差分の二乗誤差の期待値を最小化するように、勾配法などを用いて線形結合を表す係数を求めることもできる。逆変換部204から受けた複数の信号サンプルと比較して、線形予測結果は、欠落している調波成分が補われるために、時間と共により滑らかに変化する。整形部205は、ボルテラフィルタなどの非線形フィルタに基づく、非線形予測を行ってもよい。
【0018】
図3は、音声検出部202の構成例を表す図である。音声検出部202は、
図3に示すように、子音検出部301、母音検出部302、論理和計算部303を含む。
【0019】
子音検出部301は、複数の周波数における振幅を受けて、周波数別に子音を検出し、検出されたときは1を、検出されなかったときは0を、子音フラグとして出力する。母音検出部302は、複数の周波数における振幅を受けて、周波数別に母音を検出し、検出されたときは1を、検出されなかったときは0を、母音フラグとして出力する。論理和計算部303は、子音フラグを子音検出部301から、母音フラグを母音検出部302から受けて、両フラグの論理和を求め、音声フラグとして出力する。すなわち、音声フラグは、子音フラグまたは母音フラグのいずれかが1であるときに1、子音フラグと母音フラグの双方が0のときに0となる。子音または母音のいずれかの存在があるときに、音声が存在していると判定していることになる。
【0020】
図4は、子音検出部301の構成例を表す図である。子音検出部301は、
図4に示すように、最大値探索部401、正規化部402、振幅比較部403、サブバンドパワー計算部405、パワー比計算部406、パワー比比較部407、論理積計算部404を含む構成を有する。
【0021】
最大値探索部401、正規化部402、振幅比較部403は、全帯域にわたって振幅スペクトルの平坦度が高いことを検出する平坦度評価部を構成する。サブバンドパワー計算部405、パワー比計算部406、パワー比比較部407は、高域のパワーが大きいことを検出する高域パワー評価部を構成する。論理積計算部404は、振幅スペクトル平坦度が高く、かつ高域パワーが大きいという2条件を満足するときに1を、満足しないときに0を、子音フラグとして出力する。子音検出部は、平坦度評価部と高域パワー評価部のいずれか一つだけから構成してもよい。
【0022】
最大値探索部401は、複数の周波数における振幅を受けて、最大値を求める。正規化部402は、複数の周波数における振幅の総和を求めて最大値探索部401が求めた最大値で正規化し、正規化総振幅を求める。振幅比較部403は、正規化部402から正規化総振幅を受けてあらかじめ定められた閾値と比較し、正規化総振幅が閾値より大きいときに1を、それ以外の場合に0を出力する。振幅スペクトルの平坦度が高いときは、振幅の最大値は他の振幅とほぼ等しく、著しく大きな値とならない。したがって、正規化総振幅は相対的に大きな値となる。このため、正規化総振幅が閾値を超えるときに振幅スペクトルの平坦度が高いと判断し、振幅比較部403の出力を1に設定する。反対に振幅スペクトルの平坦度が低いときには振幅値の分散は大きく、最大値は他の振幅よりも著しく大きな値となる可能性が高い。このため、正規化総振幅は相対的に小さな値となる。その場合には、正規化総振幅は閾値よりも大きな値とならず、振幅比較部403の出力は0に設定される。以上説明した動作によって、最大値探索部401、正規化部402、振幅比較部403は、全帯域にわたって振幅スペクトルの平坦度が高いことを検出することができる。
【0023】
サブバンドパワー計算部405は、複数の周波数における振幅を受けて、全周波数点の部分集合をなす複数のサブバンドそれぞれに対して、サブバンド内総パワーを計算する。サブバンドは全帯域を等分割してもよいし、不等分割してもよい。
【0024】
パワー比計算部406は、サブバンドパワー計算部405から複数のサブバンドパワーを受けて、高域サブバンドのパワーを低域サブバンドのパワーで除したパワー比を計算する。サブバンド数が2である場合には、パワー比の計算方法は一意に定まる。サブバンド数が2を超える場合には、高域サブバンドと低域サブバンドの選択は任意である。任意のサブバンドを選択し、常に周波数が高いサブバンドの総パワーを周波数が低いサブバンドの総パワーで除して、パワー比を計算する。
【0025】
パワー比比較部407は、パワー比計算部406からパワー比を受けてあらかじめ定めされた閾値と比較し、パワー比が閾値より大きいときに1を、それ以外の場合に0を出力する。高域パワーが低域パワーより大きいとき、音声は子音である確率が高い。反対に、母音では、低域パワーが高域パワーよりも大きいことが知られている。したがって、高域と低域のパワーを計算して、その比を閾値と比較することで、子音であるか否かを判定することができる。以上説明した動作によって、サブバンドパワー計算部405、パワー比計算部406、パワー比比較部407は、高域のパワーが大きいことを検出することができる。
【0026】
図5は、母音検出部302の構成例を表す図である。母音検出部302は、背景雑音推定部501、パワー比計算部502、音声区間検出部503、ハングオーバー部504、平坦度計算部505、ピーク検出部506、基本周波数探索部507、倍音成分検証部508、ハングオーバー部509、論理積計算部510を含む。
【0027】
背景雑音推定部501、パワー比計算部502、音声区間検出部503、ハングオーバー部504、平坦度計算部505は、SNR(信号対雑音比)が高く、振幅スペクトル平坦度が高いことを検出する、SNRおよび平坦度評価部を構成する。ピーク検出部506、基本周波数探索部507、倍音成分検証部508、ハングオーバー部509は、調波構造の存在を検出する調波構造検出部を構成する。論理積計算部510は、SNRが高く、振幅スペクトル平坦度が高く、かつ調波構造があるという3条件を満足するときに1を、満足しないときに0を、母音フラグとして出力する。母音検出部302は、SNRおよび平坦度評価部と調波構造検出部のいずれか一つだけから構成してもよい。
【0028】
背景雑音推定部501は、複数の周波数における振幅を受けて、周波数別に背景雑音を推定する。背景雑音は、目的信号以外の全ての信号成分を含んでもよい。雑音推定の方法については、最小統計法や重み付き雑音推定などが、非特許文献1および非特許文献2に開示されているが、それ以外の方法を用いることもできる。パワー比計算部502は、複数の周波数における振幅と背景雑音推定部501が計算した複数の周波数における背景雑音推定値を受けて、各周波数における複数のパワー比を計算する。推定雑音を分母にすれば、パワー比は近似的にSNRを表す。
【0029】
平坦度計算部505は、複数の周波数における振幅を用いて、周波数方向の振幅平坦度を計算する。平坦度の例としては、スペクトル平坦度(SFM: spectral flatness measure)などを用いることができる。
【0030】
音声区間検出部503は、SNRと振幅平坦度を受けて、SNRがあらかじめ定められた閾値よりも高く、平坦度があらかじめ定められた閾値よりも低いときに、音声区間であると宣言して1を、それ以外のときに0を出力する。これらの値は、周波数点ごとに計算する。閾値は、全周波数点において等しく設定してもよいし、異なった値に設定してもよい。音声の母音区間では、一般的にSNRが高く、振幅平坦度が低いので、音声区間検出部503は母音を検出することができる。
【0031】
ハングオーバー部504は、あらかじめ定められた閾値よりも多いサンプル数の間、音声区間検出部の出力が変化しないときに、あらかじめ定められたサンプル数の間、過去の検出結果を保持する。例えば、連続サンプル数閾値が4、保持サンプル数が2であるとき、過去に4以上音声区間が連続した後に初めて非音声区間と判定された場合に、その後2サンプルは強制的に音声区間を表す1を出力する。音声区間の終端部では一般的にパワーが弱く、誤って非音声区間と判定しやすいことによる悪影響を防止できる。
【0032】
ピーク検出部506は、複数の周波数における振幅を周波数方向に低域から高域まで探索して、高低両側の隣接周波数における値よりも大きな振幅値を有する周波数を同定する。高低両側に1サンプルと比較してもよいし、複数サンプルと比較する複数の条件を課してもよい。また、低域側と高域側で比較するサンプル数が異なってもよい。人間の聴覚特性を反映させると、一般に高域側に低域側よりも多数のサンプルと比較する。
【0033】
基本周波数探索部507は、検出されたピーク周波数のうち最低の値を求めて基本周波数に設定する。基本周波数における振幅値があらかじめ定められた値よりも大きくないとき、または基本周波数があらかじめ定められた周波数の範囲にないときは、次に高い周波数のピークを基本周波数に設定する。
【0034】
倍音成分検証部508は、基本周波数の整数倍に相当する周波数における振幅が、基本周波数における振幅と比較して十分に大きいかを検証する。一般的に、基本周波数における振幅または2倍音における振幅が最大であり、周波数が高くなるにつれて振幅は小さくなるので、この特性を考慮して倍音の検証を行う。通常は、3から5倍音程度までを検証し、倍音の存在が確認できたときは1を、それ以外は0を出力する。倍音が存在することは明確な調波構造が存在することの証である。
【0035】
ハングオーバー部509は、あらかじめ定められた閾値よりも多いサンプル数の間、倍音検証部の出力が変化しないときに、あらかじめ定められたサンプル数の間、過去の検出結果を保持する。例えば、連続サンプル数閾値が4、保持サンプル数が2であるとき、過去に4以上倍音区間が連続した後初めて非倍音区間と判定された場合に、その後2サンプルは強制的に倍音区間を表す1を出力する。音声区間の終端部では一般的にパワーが弱く、倍音が検出しにくくなるので、誤って非倍音区間と判定しやすいことによる悪影響を防止できる。
【0036】
ハングオーバー部504および509は、音声区間末端における音声区間と倍音区間の検出精度を高くするための処理である。したがって、ハングオーバー部504および509が存在しなくても、精度は変わるが同様の母音検出効果を得ることができる。
【0037】
以上説明した動作によって、母音検出部302は、母音を検出することができる。
【0038】
図6は、振幅補正部203の構成例を表す図である。振幅補正部203は、
図6に示すように、フルバンドパワー計算部601、非音声パワー計算部602、パワー比較部603、スイッチ605、スイッチ606を含む構成を有する。振幅補正部203は、入力信号振幅、衝撃音フラグ、音声フラグを受けて、入力信号が衝撃音ではなく、音声であるときだけ、入力信号振幅を出力する。
【0039】
フルバンドパワー計算部601は、複数の周波数における振幅を受けて、全帯域のパワー総和を求める。さらに、このパワー総和を全帯域の周波数点数で除して、商をフルバンド平均パワーとする。
【0040】
非音声パワー計算部602は、複数の周波数における振幅と複数の周波数における音声フラグを受けて、非音声と判定された周波数点のパワー総和を求める。さらに、このパワー総和を非音声と判定された周波数点の数で除して、商を非音声の平均パワーとする。
【0041】
パワー比較部603は、フルバンド平均パワーと非音声の平均パワー受けて、両者の比を求める。この比の値が1に近いときは、フルバンド平均パワーと非音声の平均パワーの値が近く、入力信号は非音声である。パワー比較部603は、入力信号が非音声であると判断される場合に1を、それ以外の場合に0を出力する。すなわち、0は音声を表す。
【0042】
スイッチ605は、パワー比較部603の出力を受けて、パワー比較部603の出力が0、すなわち音声を表すときに回路を閉じて、入力信号の振幅を出力する。
【0043】
スイッチ606は、スイッチ605の出力と音声フラグを受けて、音声フラグが0で音声が存在するときに回路を閉じて、スイッチ605の出力を補正振幅として出力する。
【0044】
以上説明した動作によって、振幅補正部203は、入力信号が音声であるときだけ、入力信号振幅を補正振幅として出力することができる。
【0045】
以上の構成により、入力信号に含まれる音声を検出して、音声の存在に対応して入力信号を補正した後に、さらに整形して強調信号として出力するので、入力信号の位相が真の音声の位相と大きく異なる場合にも、十分に高品質な出力信号を得ることができる。
【0046】
[第3実施形態]
本発明の第3実施形態としての信号処理装置について、
図7を用いて説明する。本実施形態に係る信号処理装置700は、
図2に示した信号処理装置200と比べると、衝撃音検出部701、および位相補正部702が追加されている点において異なる。その他の構成および動作は、信号処理装置200と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
【0047】
図8は、衝撃音検出部701の構成例を表す図である。衝撃音検出部701は、
図8に示すように、背景雑音推定部801、パワー比計算部802、閾値比較部803、位相傾き計算部804、基準位相傾き計算部805、位相直線性計算部806、振幅平坦度計算部807、衝撃音尤度計算部808、閾値比較部809、フルバンド多数決部810、サブバンド多数決部811、論理積計算部812、ハングオーバー部813を含む。
【0048】
背景雑音推定部801、パワー比計算部802、閾値比較部803は、背景雑音が入力信号と比較して十分に小さいかどうかを評価し、十分に小さいときに1を、それ以外のときに0を出力する背景雑音評価部を構成する。
【0049】
背景雑音推定部801は、複数の周波数における振幅を受けて、周波数別に背景雑音を推定する。基本的に動作は、背景雑音推定部501と同様である。したがって、背景雑音推定部501の出力を背景雑音推定部801の出力として利用することで、背景雑音推定部801を省力することもできる。
【0050】
パワー比計算部802は、複数の周波数における振幅と背景雑音推定部801が計算した複数の周波数における背景雑音推定値を受けて、各周波数における複数のパワー比を計算する。推定雑音を分母にすれば、パワー比は近似的にSNRを表す。パワー比計算部802の動作はパワー比計算部502の動作と同様であり、パワー比計算部502の出力をパワー比計算部802の出力として利用することで、パワー比計算部802を省略することもできる。
【0051】
閾値比較部803は、パワー比計算部802から受けたパワー比をあらかじめ定められた閾値と比較して、背景雑音が十分に小さいかどうかを評価する。パワー比がSNRを表すときは、パワー比が十分に大きいときに1を、それ以外のときに0を、背景雑音評価結果として出力する。パワー比としてSNRの逆数を用いるときには、パワー比が十分に小さいときに1を、それ以外のときに0を、背景雑音評価結果として出力する。
【0052】
位相傾き計算部804は、複数の周波数における位相を受けて、ある周波数における位相と隣接する周波数における位相との関係を用いて、各周波数点における位相傾きを計算する。
【0053】
基準位相傾き計算部805は、背景雑音評価結果と位相傾きを受けて、背景雑音が十分に小さい周波数点の位相傾きの値を選択し、選択した複数の位相に基づいて基準位相傾きを計算する。例えば、選択された位相の平均値を基準位相傾きとしてもよいし、中央値、最頻値など他の統計処理によって得られる値を基準位相傾きとしてもよい。すなわち、基準位相傾きは、全ての周波数に対して同一の値を有する。
【0054】
位相直線性計算部806は、複数の周波数における位相傾きと基準位相傾きを受けて比較し、各周波数点における両者の差分または比として位相直線性を求める。
【0055】
振幅平坦度計算部807は、複数の周波数における振幅を受けて、周波数方向の振幅平坦度を計算する。平坦度の例としては、スペクトル平坦度(SFM: spectral flatness measure)などを用いることができる。
【0056】
衝撃音尤度計算部808は、複数の周波数における位相直線性と振幅平坦度を受けて、衝撃音の存在確率を衝撃音尤度として出力する。位相直線性が高いほど、衝撃音尤度を高く設定する。また、振幅平坦度が高いほど、衝撃音尤度を高く設定する。これは、衝撃音に関して、位相直線性が高く、振幅平坦度が高いという特性を有していることによる。位相直線性と振幅平坦度はどのように組み合わせてもよく、どちらか一方だけを用いたり、両者の重み付き和を用いたりすることもできる。
【0057】
閾値比較部809は、衝撃音尤度を受けてあらかじめ定められた閾値と比較して、衝撃音の存在を各周波数で評価する。衝撃音尤度があらかじめ定められた閾値よりも大きいときに1を、それ以外の場合に0を出力する。
【0058】
フルバンド多数決部810は、複数の周波数における衝撃音の存在状況を受けて、フルバンド(全周波数帯域)における衝撃音の存在を評価する。例えば、全周波数点で衝撃音の存在を表す1を多数決し、結果が多数であれば、全周波数において衝撃音が存在するとして全周波数点の値を1に置換する。
【0059】
サブバンド多数決部811は、複数の周波数における衝撃音の存在状況を受けて、サブバンド(部分周波数帯域)における衝撃音の存在を評価する。例えば、各サブバンド内で衝撃音の存在を表す1を多数決し、結果が多数であれば、該サブバンド内において衝撃音が存在するとして該サブバンド内における全周波数点の値を1に置換する。
【0060】
論理積計算部812は、フルバンド多数決の結果得られた衝撃音存在情報とサブバンド多数決の結果得られた衝撃音存在情報の論理積をとり、各周波数点に対する最終的な衝撃音の存在情報を1または0で表す。
【0061】
ハングオーバー部813は、あらかじめ定められた閾値よりも多いサンプル数の間、衝撃音存在情報が変化しないときに、あらかじめ定められたサンプル数の間、過去の存在情報を保持する。例えば、連続サンプル数閾値が4、保持サンプル数が2であるとき、過去に4以上衝撃音の存在が連続した後初めて衝撃音が不在と判定された場合に、その後2サンプルは強制的に衝撃音の存在を表す1を出力する。音声衝撃音区間の終端部では一般的に衝撃音パワーが弱く、衝撃音を検出しにくくなるので、誤って衝撃音不在と判定しやすいことによる悪影響を防止できる。
【0062】
ハングオーバー部813は、衝撃音区間末端における衝撃音の検出精度を高くするための処理である。したがって、ハングオーバー部813が存在しなくても、精度は変わるが同様の衝撃音検出効果を得ることができる。
【0063】
以上説明した動作によって、背景雑音推定部801、パワー比計算部802、閾値比較部803、位相傾き計算部804、基準位相傾き計算部805、位相直線性計算部806、振幅平坦度計算部807、衝撃音尤度計算部808、閾値比較部809、フルバンド多数決部810、サブバンド多数決部811、論理積計算部812、ハングオーバー部813は、衝撃音を検出することができる。
【0064】
図9は、位相補正部702の構成例を表す図である。位相補正部702は、
図9に示すように、制御データ生成部901、位相保持部902、位相予測部903、スイッチ904を含む構成を有する。位相補正部702は、音声フラグ、衝撃音フラグ、入力信号の位相を受けて、入力信号が音声であるときに入力信号の位相を、入力信号が音声でなく衝撃音であるときに予測した位相を、入力信号が音声でも衝撃音でもないときに入力信号の位相を、補正位相として出力する。
【0065】
制御データ生成部901は、音声フラグと衝撃音フラグの状態に応じて、制御データを出力する。制御データ生成部901は、音声フラグが1であるときに1を、音声フラグが0で衝撃音フラグが1であるときに0を、音声フラグと衝撃音フラグの双方が0のときに1を出力する。音声フラグと衝撃音フラグの双方が0のときには、入力信号のパワーは大きくない。したがって、出力信号に対する影響は無視できるので、音声フラグと衝撃音フラグの双方が0のときに0を出力してもよい。その場合、衝撃音フラグの値によらず、音声フラグが1であれば1が、音声フラグが0であれば0が、制御データ生成部901の出力となる。すなわち、制御データ生成部901は、音声フラグだけを受けて、音声フラグが1のときは1を、音声フラグが0のときは0を、制御データとして出力するように構成してもよい。
【0066】
位相保持部902は、位相補正部702の出力である補正位相を受けて、これを保持する。位相予測部903は、位相保持部902が保持している位相を受けて、これを用いて現在の位相を予測する。周波数f、サンプリング周波数Fs、フレームシフトがMサンプルとすると、
隣接フレーム間の時間ずれは、M/Fs 秒となる。位相は1秒で2πf進むので、フレームkにおける位相をθk、フレームk-1における位相をθk-1とすると、
θk=θk-1+2πfM/Fs
となる。すなわち、位相保持部902に保持されている位相はθk-1、位相予測部903の出力する予測位相はθkである。
【0067】
スイッチ904は、制御データ生成部901から供給される制御データが1のときに入力信号の位相を、制御データ生成部901から供給される制御データが0のときに予測した位相を選択して、補正位相として出力する。
【0068】
以上説明した動作によって、制御データ生成部901、位相保持部902、位相予測部903、スイッチ904は、入力信号が音声であるときに入力信号の位相を、入力信号が音声でなく衝撃音であるときに予測した位相を、入力信号が音声でも衝撃音でもないときに入力信号の位相を、補正位相として出力する。
【0069】
図10は、振幅補正部703の構成例を表す図である。振幅補正部703は、
図6の振幅補正部203と比べると、論理積計算部1004が追加されている点で異なる。その他の構成および動作は、振幅補正部203と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
【0070】
論理積計算部1004は、パワー比較部603の出力と衝撃音フラグを受けて、両者の論理積を出力する。すなわち、論理積計算部1004の出力は、入力信号が音声のときに0、それ以外のときの0となる。
【0071】
スイッチ605は、論理積計算部1004の出力を受けて、論理積計算部1004の出力が0、すなわち音声を表すときに回路を閉じて、入力信号の振幅を出力する。スイッチ605はまた、さらに衝撃音フラグを受けて、衝撃音フラグが1で衝撃音が存在し、入力が音声であるときに、音声のピーク周波数の間の周波数で振幅を減じてもよい。これは、ピーク周波数間で振幅スペクトルを掘り下げることに相当し、衝撃音成分によって平坦化した振幅スペクトルを、音声の振幅スペクトルに近づける効果がある。
【0072】
以上説明した動作によって、振幅補正部703は、入力信号が衝撃音ではなく、音声であるときだけ、入力信号振幅を補正振幅として出力することができる。
【0073】
このような構成により、信号処理装置700は、入力信号に含まれる音声を検出して、音声の存在に対応して入力信号を補正した後に、これをさらに整形して強調信号として出力するので、入力信号に衝撃音成分が含まれていて、入力信号の位相が真の音声の位相と大きく異なる場合にも、十分に高品質な出力信号を得ることができる。
【0074】
[第4実施形態]
本発明の第4実施形態としての信号処理装置について、
図11、および
図12を用いて説明する。
図11は、本実施形態にかかる信号処理装置1100をソフトウェアを用いて実現する場合のハードウェア構成について説明する図である。
【0075】
信号処理装置1100は、プロセッサ1110、ROM(Read Only Memory)1120、RAM(Random Access Memory)1140、ストレージ1150、入出力インタフェース1160、操作部1161、入力部1162、および出力部1163を備えている。プロセッサ1110は中央処理部であって、様々なプログラムを実行することにより信号処理装置1100全体を制御する。
【0076】
ROM1120は、プロセッサ1110が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。RAM1140は、不図示のプログラムロード領域の他に、混合信号1141(入力信号)、音声フラグ1142、補正信号1143、強調信号1144等を記憶する領域を有している。
【0077】
また、ストレージ1150は、信号処理プログラム1151を格納している。信号処理プログラム1151は、音声検出モジュール1151a、補正モジュール1151b、整形モジュール1151cを含んでいる。信号処理プログラム1151に含まれる各モジュールをプロセッサ1110が実行することにより、
図1の音声検出部12、補正部13、および整形部15の各機能を実現できる。
【0078】
プロセッサ1110が実行した信号処理プログラム1151に関する出力である強調信号1144は、入出力インタフェース1160を介して出力部1163から出力される。これにより、例えば、入力部1162から入力した混合信号1141に含まれる目的信号に対して、これを強調することができる。
【0079】
図12は、本実施形態に係る信号処理装置1100において、信号処理プログラム1151による、目的信号を強調する処理の流れを説明するためのフローチャートである。ステップS1210では、目的信号と背景信号を含む混合信号1141が音声検出モジュール1151aに供給される。ステップS1220では、混合信号から音声を検出して、結果を音声フラグとする。
【0080】
次にステップS1230において、音声フラグ1142を用いて混合信号を補正する。次にステップS1240において、補正された混合信号を整形する。
【0081】
最終的には、ステップS1250で、整形信号を強調信号として出力する。これらの処理において、S1220とS1230、およびS1230とS1240の処理順序は、交換が可能である。
【0082】
図11および12では、本実施形態に係る信号処理装置1100の処理の流れの一例を説明した。しかし、第1乃至第3実施形態のいずれの実施形態に関しても、各々のブロック図における違いを適宜省略および追加することで、同様にソフトウェアで各実施形態を実現できる。
【0083】
このような構成により、信号処理装置1100は、入力信号に含まれる音声を検出して、音声の存在に対応して入力信号を補正した後に、これをさらに整形して強調信号として出力するので、入力信号の位相が真の音声の位相と大きく異なる場合にも、十分に高品質な出力信号を得ることができる。
【0084】
[他の実施形態]
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
【0085】
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(nonーtransitory computer readable medium)は本発明の範疇に含まれる。
【0086】
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0087】
(付記1)
音声とそれ以外の信号を含む混合信号を受けて、音声の存在を音声フラグとして求める音声検出部と、
前記混合信号と前記音声フラグを受けて、前記音声フラグの状態に応じて前記混合信号を補正した補正混合信号を求める補正部と、
前記補正混合信号を受けて、整形する整形部と、
を備えたことを特徴とする信号処理装置。
(付記2)
音声とそれ以外の信号を含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求める変換部と、
前記振幅に含まれる音声の存在を音声フラグとして求める音声検出部と、
前記混合信号と前記音声フラグを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求める振幅補正部と、
前記補正振幅と前記位相を受けて、時間領域信号に変換する逆変換部と、
前記時間領域信号を整形する整形部と、
を備えたことを特徴とする信号処理装置。
(付記3)
前記振幅と前記位相を受けて、前記振幅に含まれる衝撃音の存在を衝撃音フラグとして求める衝撃音検出部と、
前記音声フラグと、前記衝撃音フラグと、前記位相を受けて、前記音声フラグと前記衝撃音フラグの状態に応じて前記位相を補正した補正位相を求める位相補正部とをさらに備え、
前記逆変換部は、前記補正振幅と前記補正位相とを受けて、時間領域信号に変換する
ことを特徴とする、付記2に記載の信号処理装置。
(付記4)
前記音声検出部は、
前記振幅を受けて子音を検出する子音検出部と、
前記振幅を受けて母音を検出する母音検出部と、
を含むことを特徴とする付記2または3のいずれかに記載の信号処理装置。
(付記5)
前記振幅補正部は、
前記振幅と音声フラグを受けて、
音声が存在するときに前記振幅を補正振幅とし、
音声が存在しないときに0を補正振幅とする
ことを特徴とする付記2または3のいずれかに記載の信号処理装置。
(付記6)
前記衝撃音検出部は、
前記振幅の平坦度を計算する振幅平坦度計算部と、
前記位相の周波数に対する直線性を計算する位相直線性計算部と、
を含むことを特徴とする付記3に記載の信号処理装置。
(付記7)
前記位相補正部は、
音声が存在するときに前記混合信号の位相を補正位相とし、
音声が存在しないときに過去の位相に基づく予測位相を補正位相とする
ことを特徴とする付記3に記載の信号処理装置。
(付記8)
音声とそれ以外の信号を含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求めるステップと、
前記振幅に含まれる音声の存在を音声フラグとして求めるステップと、
前記混合信号と前記音声フラグを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求めるステップと、
前記補正混合信号振幅と前記位相を受けて、時間領域信号に変換するステップと、
前記時間領域信号を整形するステップと、
を含むことを特徴とする信号処理方法。
(付記9)
音声とそれ以外の信号を含む混合信号を受けて、複数の周波数成分に対応した振幅と位相を求めるステップと、
前記振幅に含まれる音声の存在を音声フラグとして求めるステップと、
前記混合信号と前記音声フラグを受けて、前記音声フラグの状態に応じて前記振幅を補正した補正振幅を求めるステップと、
前記補正混合信号振幅と前記位相を受けて、時間領域信号に変換するステップと、
前記時間領域信号を整形するステップと、
をコンピュータに実行させることを特徴とする信号処理プログラム。