(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1〜6及び非特許文献1に記載された技術には、例えば以下に説明する課題がある。音声信号に含まれるフォルマント成分を解析し、その解析結果に基づいてフォルマントを強調する処理を行う手法では、処理負荷が著しく増大することがある。また、音声信号を複数の周波数帯域に分割して、帯域毎に個別に周波数エンベロープのピークやディップを強調する音声処理を行う場合、音声信号の音圧レベルの変化が大きくなり、聴取者に不快感や違和感を与える可能性がある。
そこで、本発明の目的は、音声の明瞭度を上げるための音声処理で、低い処理負荷で、音声信号の音圧レベルの変化を抑えて、違和感や不快感を低減するための技術を提供することである。
【課題を解決するための手段】
【0006】
上述した課題を解決するため、本発明の音声処理装置は、入力音声信号を複数の周波数帯域毎のサブバンド信号に分割して出力する分割手段と、前記入力音声信号に基づいて、前記複数のサブバンド信号に対する基準レベルを算出する基準レベル算出手段と、前記分割手段により分割されたサブバンド信号毎に、当該サブバンド信号のレベルを低下させる割合を示すゲイン係数を、当該サブバンド信号のレベルが前記基準レベルを下回る量に応じて大きくするよう設定し、当該設定したゲイン係数で前記サブバンド信号のレベルを変更するゲイン制御手段とを備え
、前記ゲイン制御手段は、前記分割手段により分割されたサブバンド信号のうち、レベルが前記基準レベルを上回るサブバンド信号については、当該サブバンド信号のレベルを変更しない、又は、当該基準レベルを下回るサブバンド信号よりも低い割合でレベルを低下させる。
本発明では、入力音声信号を周波数軸上で分割したサブバンド信号のレベルが基準レベルを下回る量が大きい場合ほど、ゲイン係数を大きくするように設定する。このため、ゲイン制御においては、基準レベルへの寄与が相対的に大きいサブバンドのレベルについては、そのレベルの低下の割合を小さくし、基準レベルへの寄与が相対的に小さいサブバンドのレベルについては、そのレベルの低下の割合を大きくすることとなる。よって、本発明により、周波数エンベロープのピーク及びディップを強調することができる。
【0007】
また、本発明の音声処理装置
は、入力音声信号を複数の周波数帯域毎のサブバンド信号に分割して出力する分割手段と、前記入力音声信号に基づいて、前記複数のサブバンド信号に対する基準レベルを算出する基準レベル算出手段と、前記分割手段により分割されたサブバンド信号毎に、当該サブバンド信号のレベルを低下させる割合を示すゲイン係数を、当該サブバンド信号のレベルが前記基準レベルを下回る量に応じて大きくするよう設定し、当該設定したゲイン係数で前記サブバンド信号のレベルを変更するゲイン制御手段とを備え、前記基準レベル算出手段は、前記複数のサブバンド信号の合計のレベルを、前記基準レベルとして算出す
る。
本発明によれば、複数のサブバンド信号の合計のレベルを、基準レベルとして算出するので、基準レベルとサブバンド信号のレベルとの差で定まるゲイン係数により、ゲイン制御を行えばよい。
【0008】
本発明の音声処理装置において、前記サブバンド
信号は、臨界帯域に基づいて、前記周波数帯域の幅がそれぞれ設定されているようにしてもよい。
本発明では、人間による音の感じ方と整合した方法でサブバンド信号への分割を行って、各サブバンド信号の音圧を制御することできる。
【0009】
本発明の音声処理装置において、予め決められた期間毎に前記ゲイン係数を算出するとともに、当該ゲイン係数の時間軸上での変化を平滑化する処理を、前記サブバンド信号毎の設定に従って行うようにしてもよい。
本発明では、時間軸上での音圧レベルの急激な変化を抑えるための処理を、サブバンド信号毎の設定に従って行うことができる。
また、本発明の音声処理装置において、前記基準レベル算出手段は、前記複数のサブバンド信号に対する共通の基準レベルを算出してもよい。
【0010】
本発明のプログラムは、コンピュータを、入力音声信号を複数の周波数帯域毎のサブバンド信号に分割して出力する分割手段と、前記入力音声信号に基づいて、前記複数のサブバンド信号に対する基準レベルを算出する基準レベル算出手段と、前記分割手段により分割されたサブバンド信号毎に、当該サブバンド信号のレベルを低下させる割合を示すゲイン係数を、当該サブバンド信号のレベルが前記基準レベルを下回る量に応じて大きくするよう設定し、当該設定したゲイン係数で前記サブバンド信号のレベルを変更するゲイン制御手段として機能させるためのプログラムであ
って、前記ゲイン制御手段は、前記分割手段により分割されたサブバンド信号のうち、レベルが前記基準レベルを上回るサブバンド信号については、当該サブバンド信号のレベルを変更しない、
又は、当該基準レベルを下回るサブバンド信号よりも低い割合でレベルを低下させるプログラムである。
また、本発明のプログラムは、コンピュータを、入力音声信号を複数の周波数帯域毎のサブバンド信号に分割して出力する分割手段と、前記入力音声信号に基づいて、前記複数のサブバンド信号に対する基準レベルを算出する基準レベル算出手段と、前記分割手段により分割されたサブバンド信号毎に、当該サブバンド信号のレベルを低下させる割合を示すゲイン係数を、当該サブバンド信号のレベルが前記基準レベルを下回る量に応じて大きくするよう設定し、当該設定したゲイン係数で前記サブバンド信号のレベルを変更するゲイン制御手段として機能させるためのプログラムであって、前記基準レベル算出手段は、前記複数のサブバンド信号の合計のレベルを、前記基準レベルとして算出するプログラムである。
【発明の効果】
【0011】
本発明によれば、音声の明瞭度を上げるための音声処理で、低い処理負荷で、音声信号の音圧レベルの変化を抑えて、違和感や不快感を低減することができる。
【発明を実施するための形態】
【0013】
以下、図面を参照しつつ本発明の実施形態を説明する。
図1は、本発明の一実施形態に係る音声処理装置1の全体構成を示す図である。
図1に示すように、音声処理装置1は、信号処理部10−1〜10−8と、基準音圧レベル算出部20と、加算器30とを備える。
信号処理部10−1〜10−8は、互いに同一の入力系統からの入力音声信号Sinに対して、音声の明瞭度を上げるための信号処理を施す。入力音声信号Sinは、ここではデジタル形式の音声信号であり、例えば、人間の音声を含む音声(例えば話し声や楽曲の歌唱音声)を表す。基準音圧レベル算出部20は、信号処理部10−1〜10−8と同一の入力系統からの入力音声信号Sinに基づいて、信号処理部10−1〜10−8での音声処理に用いられる基準音圧レベルRLを算出する(基準レベル算出手段)。基準音圧レベルRLは、ここでは、入力音声信号Sinの音声帯域での合計の音圧レベル(以下、トータルレベルともいう)である。音声帯域は、ここでは125Hz〜4000Hzの周波数帯域であり、例えば、第一フォルマント〜第四フォルマントを含む周波数帯域である。基準音圧レベル算出部20は、基準音圧レベルRLを、信号処理部10−1〜10−8のそれぞれへ供給する。基準音圧レベル算出部20は、ここでは、入力音声信号Sinのサンプル毎に、基準音圧レベルRLを繰り返し算出する。
【0014】
次に、信号処理部10−1〜10−8の構成をより詳細に説明する。信号処理部10−1〜10−8は、それぞれ共通の機能構成を有している。具体的には、信号処理部10−k(kは1〜8の自然数)は、BPF(Band-Pass Filter)11−kと、サブバンドレベル算出部12−kと、ゲイン係数算出部13−kと、平滑化フィルタ14−kと、乗算器15−kとを備える。信号処理部10−kの各部は、入力音声信号Sinのサンプル毎に、以下に説明する信号処理を繰り返し行う。また、この実施形態において、音圧レベルは、特に断りのない限り、デシベル値で表される。
【0015】
BPF11−kは、入力音声信号Sinの音声帯域のうちの一部の帯域を通過帯域とするように構成された、帯域通過フィルタである。BPF11−1〜11−8は、それぞれ通過帯域を異ならせて構成されている。すなわち、BPF11−1〜11−8は、入力音声信号Sinの音声帯域を、8つのサブバンドの各々に対応したサブバンド信号に分割して出力する(分割手段)。ここでは、BPF11−1〜11−8の符号の末尾の枝番の値が小さいものほど、低周波数側のサブバンド信号を出力する。BPF11−1〜11−8の各々は、例えば、低周波数側ほど通過帯域が狭く、高周波数側ほど通過帯域が広くなるように構成される。例えば、BPF11−1〜11−8の各々は、1/3オクターブ帯域フィルタや1/4オクターブ帯域フィルタを用いて構成される。
以下では、BPF11−kによって抽出されるサブバンドのことを、「(低周波数側から)k番目のサブバンド」と称することがある。
【0016】
サブバンドレベル算出部12−kは、BPF11−kにより出力されたサブバンド信号に基づいて、k番目のサブバンドの音圧レベルA(k)を算出する。サブバンドレベル算出部12−kは、音圧レベルA(k)をゲイン係数算出部13−kへ供給する。
【0017】
ゲイン係数算出部13−kは、サブバンドレベル算出部12−kから供給された音圧レベルA(k)と、基準音圧レベル算出部20から供給された基準音圧レベルRLとの音圧レベルとの差に応じて、ゲイン係数Gp(k)を算出(設定)する。ゲイン係数Gp(k)は、k番目のサブバンドについて音圧レベルを低下させる割合を示すパラメータである。ゲイン係数算出部13−kは、ここでは、下記式(1)の関係を満たすように、ゲイン係数Gp(k)を算出する。ただし、ゲイン係数Gp(k)はデシベルによって表される。
Gp(k)=A(k)−RL ・・・(1)
【0018】
式(1)から分かるように、ゲイン係数算出部13−kは加算器(減算器)により構成することができる。
ゲイン係数Gp(k)は、音圧レベルA(k)が、基準音圧レベルRLを下回る量が大きいほど、k番目のサブバンドの音圧レベルが低下させる割合を大きくするように作用する。基準音圧レベルRLは、信号処理部10−1〜10−8で共通に用いられるから、音圧レベルA(k)が小さいほど、ゲイン係数Gp(k)は大きくなる。すなわち、ゲイン係数算出部13−kは、音圧レベルA(k)が基準音圧レベルRLを下回る場合に、この音圧レベルA(k)と基準音圧レベルRLとの差の大きさに比例して、ゲイン係数Gp(k)を大きくするように設定する。
【0019】
平滑化フィルタ14−kは、ゲイン係数算出部13−kから供給されたゲイン係数Gp(k)の時間軸上での変化を平滑化する処理(以下、「平滑化処理」という。)を行う。この平滑化処理は、ゲイン係数Gp(k)を用いたゲイン制御を実行した際に、時間軸上での音圧レベルの急激な変化が発生するのを抑える処理である。ここでは、平滑化フィルタ14−kは、アタックタイム及びリリースタイムを時定数として設定可能な、一次巡回型フィルタにより構成される。アタックタイムは、目標のゲイン係数Gp(k)へ変化するまでに要する時間である。リリースタイムは、ゲイン係数Gp(k)が元に戻るのに要する時間である。平滑化フィルタ14−kは、出力信号を入力側にフィードバックして、自身に設定されたアタックタイム及びリリースタイムに従って、平滑化処理を行う。
【0020】
平滑化フィルタ14−1〜14−8においては、個別にアタックタイム及びリリースタイムを設定可能である。この具体的な設定方法については特に問わないが、例えば、低い周波数に対応するサブバンドほど、平滑化フィルタ14−kに設定されるアタックタイム及びリリースタイムを長くし、高い周波数に対応するサブバンドほど、アタックタイム及びリリースタイムを短くする。この平滑化処理によれば、自然な再生音を得ることに寄与することがある。アタックタイム及びリリースタイムは、これ以外の設定であってもよく、例えば、平滑化フィルタ14−1〜14−8で共通のアタックタイム及びリリースタイムに設定されてもよい。
【0021】
乗算器15−kは、BPF11−kから出力されたサブバンド信号に、平滑化フィルタ14−kから供給されたゲイン係数Gp(k)を乗じて、加算器30へ供給する。すなわち、ゲイン係数算出部13−k、平滑化フィルタ14−k及び乗算器15−kの協働により、信号処理部10−kでのゲイン制御が行われる(ゲイン制御手段)。ゲイン制御後の音声信号において、k番目のサブバンドの音圧レベルB(k)は、下記式(2)の関係を満たす。
B(k)=Gp(k)+A(k) ・・・(2)
【0022】
ところで、BPF11−kでの処理時間と、ゲイン係数算出部13−k、平滑化フィルタ14−k及び乗算器15−kの処理時間との差により、BPF11−kからの音声信号と、平滑化フィルタ14−kからのゲイン係数Gp(k)とが同期しない場合がある。この場合には、BPF11−kと乗算器15−kとの間に遅延回路を設けて、出力を同期させるとよい。また、信号処理部10−1〜10−8の各々で、遅延回路の遅延時間を異ならせてもよい。例えば、信号処理部10−1〜10−8の各々で、入力音声信号Sinが入力されてから、BPF11−kから音声信号が出力されるまでの時間又はゲイン係数Gp(k)を算出するまでの時間が異なる場合には、乗算器15−kから出力される音声信号が同期しない場合がある。そこで、遅延回路の遅延時間の調整により、乗算器15−kからの出力を同期させてもよい。
【0023】
加算器30は、乗算器15−1〜15−8から供給された8つのサブバンドのサブバンド信号同士を加算して、この加算処理により得た合成音声信号Soutを、図示せぬスピーカやヘッドフォン等の放音装置へ出力する。
【0024】
次に、信号処理部10−kによる信号処理の具体例を、
図2を参照して説明する。
図2は、信号処理部10−kで行われるゲイン制御を説明するグラフである。
図2のグラフにおいて、横軸がサブバンド(つまり周波数軸に対応)を表し、縦軸が音圧レベル(デシベル値)を表す。
図2に示すように、この例では、1〜8番目のサブバンドの音圧レベルA(1)〜A(8)が、順に、−30dB,−20dB,−10dB,−40dB,−60dB,−30dB,−55dB,−45dBであるものとする。
図2のグラフでは、入力音声信号Sinの周波数エンベロープを分かりやすくするために、各サブバンドに対応するプロット同士を実線で結んで表している。基準音圧レベルRLは、ここでは−6.06dBである。
【0025】
この場合、式(1)の関係により、1〜8番目のサブバンドのゲイン係数Gp(1)〜Gp(8)は、順に、−23.94dB,−13.94dB,−3.94dB,−33.94dB,−53.94dB,−23.94dB,−48.94dB,−38.94dBとなる。ただし、ここでは、平滑化処理による音圧レベルの変化を考慮していない。
ゲイン制御後の音圧レベルB(k)は、式(2)の関係により、ゲイン係数Gp(k)を、k番目のサブバンドの音圧レベルA(k)に加算した音圧レベルとなる。具体的には、1〜8番目のサブバンドの音圧レベルB(1)〜B(8)は、順に、−53.94dB,−33.94dB,−13.94dB,−73.94dB,−113.94dB,−53.94dB,−103.04dB,−83.94dBとなる。
図2のグラフでは、ゲイン制御後の周波数エンベロープを分かりやすくするために、各サブバンドに対応するプロット同士を破線で結んで表している。
【0026】
前述したとおり、ゲイン係数Gp(k)は、k番目のサブバンドの音圧レベルA(k)が基準音圧レベルRLに対して小さいほど、大きな値をとる。これにより、ゲイン係数Gp(k)を用いたゲイン制御後においては、元の音圧レベルが相対的に高く、基準音圧レベルRLに近い音圧レベルのサブバンドほど、音圧レベルの低下量が相対的に小さくなる。他方、元の音圧レベルが相対的に低く、基準音圧レベルRLから遠い音圧レベルのサブバンドほど、ゲイン制御後においては、音圧レベルの低下量が相対的に大きくなる。
図2で示されるように、ここでは、5番目及び7番目のサブバンド、すなわち、周波数エンベロープのディップ(谷部分)に当たる帯域の音圧レベルの低下量が特に大きい。このため、音圧レベルを高くする処理なしに、周波数エンベロープのピーク(山部分)及びディップが強調される。従来の手法では、周波数エンベロープのピークの音圧レベルを高くして、ピーク及びディップを強調することがあるが、音圧レベルを高くする処理を行うことは、音圧レベルを低くする処理を行う場合に比べて、聴取者に与える違和感や不快感が大きくなりやすい。信号処理部10−kでは、周波数エンベロープのピークの音圧レベルを高くする処理を行っていないので、聴取者に与える違和感や不快感を抑えることができる。
【0027】
また、信号処理部10−kでは、基準音圧レベルRLを下回る量が相対的に大きい音圧レベルのサブバンドほど、ゲイン係数Gp(k)を相対的に大きくすることで、音声帯域全体での音圧レベルの変化を小さく抑制する。すなわち、信号処理部10−kによれば、音声の明瞭度を上げるために、過度な音圧レベルの変化を発生させることがない。
【0028】
また、信号処理部10−kでは、フォルマント成分の解析等の負荷の大きい処理を要しない。音圧レベルをデシベル値で規定すれば、信号処理部10−kは、加減算及び乗算処理により、必要な信号処理を低い負荷で行うことができる。ただし、信号処理部10−kにおいて除算処理を行うことができる場合には、デシベル値に代えてリニア値を用いてもよい。しかし、いずれの値を用いるにせよ、信号処理部10−kでは、フォルマント成分を検出する処理をすることなく、周波数エンベロープのピーク及びディップを強調して音声の明瞭度を上げる処理をするため、低い負荷の処理を実行するだけである。このため、信号処理部10−kの構成を簡便な構成にすることができる。
【0029】
本発明は、上述した実施形態と異なる形態で実施することが可能である。本発明は、例えば、以下のような形態で実施することも可能である。また、以下に示す変形例は、各々を適宜に組み合わせてもよい。
上述した実施形態の音声処理装置1では、信号処理部10−1〜10−8により、入力音声信号Sinを8つのサブバンド信号に分割していたが、7つ以下又は9つ以上のサブバンド信号に分割してもよい。ただし、サブバンド信号の数を少なくし過ぎると、周波数エンベロープのピーク及びディップの強調が不十分になる可能性があり、反対に、サブバンド信号の数を多くし過ぎると、信号処理部10−kの処理負荷の増大の原因となるので、これらの事情を考慮に入れて、適切な数に設定されるとよい。
【0030】
信号処理部10−kのBPF11−kは、人間の聴覚の臨界帯域に基づいて通過帯域が設定されてもよい。周波数の低い音に対しては帯域幅を相対的に小さく又は一定(例えば、500Hz以下では100Hz程度の帯域幅)、周波数の高い音に対しては、その周波数に比例して、前者の低い音に対する帯域幅より広い帯域幅に設定すればよい(例えば、その周波数の0.2倍程度の帯域幅)。具体的な数値は、公知の近似式等を用いればよいが、例えば、以下とおりに設定することが可能である。
【0031】
臨界帯域幅は、詳細には、500Hz以下の周波数ではおよそ100Hzの帯域幅となり、500Hzよりも高い周波数では、例えば、1/3オクターブから1/4オクターブの帯域幅となる。そこで、BPF11−kからなるフィルタ群は、臨界帯域幅に基づいて、中心周波数や帯域幅を含むフィルタ特性が設定されてもよい。この場合のサブバンドは、例えば、中心周波数を250Hz,350Hz,450Hz,570Hz,700Hz,840Hz,1000Hz,1170Hz,1370Hz,1600Hz,1850Hz,2150Hz,2500Hz,3400Hz,4000Hzとし、帯域幅を、100Hz,100Hz,110Hz,120Hz,140Hz,150Hz,160Hz,180Hz,210Hz,240Hz,280Hz,320Hz,380Hz,450Hz,550Hzとすることが考えられる。ただし、これら通過帯域の周波数の値はあくまで一例であり、他の値であってもよい。
【0032】
また、BPF11−kからなるフィルタ群は、1/4オクターブバンドの等比帯域フィルタ群により構成されてもよい。1/4オクターブバンドの等比帯域フィルタ群は、通過させる信号成分の周波数帯域幅を1/4オクターブとした帯域通過フィルタを並べたもので、これも人間の聴覚機能に近い働きを持つことが知られている。
また、BPF11−kからなるフィルタ群は、人間の聴覚機能に近い働きを持つ1/3オクターブバンドの等比帯域フィルタ群を用いて構成されてもよいし、1/3オクターブバンドよりは狭く、且つ、1/4オクターブバンドよりは広い帯域幅の帯域通過フィルタで構成されてもよい。
いずれの場合であっても、BPF11−kからなるフィルタ群は、低周波数方向のサブバンドほど帯域幅を狭くし、高周波方向のサブバンドほど帯域幅を広くするように構成される。
【0033】
基準音圧レベルRLは、入力音声信号Sinにおける複数のサブバンド信号での合計の音圧レベル以外の音圧レベルであってもよい。基準音圧レベルRLは、入力音声信号Sinの音声帯域での音圧レベルの大きさの指標となるレベルであればよい。
例えば、基準音圧レベル算出部20は、入力音声信号Sinにおける複数のサブバンド信号の音圧レベルの平均レベルを、基準音圧レベルRLとして算出してもよい。この基準音圧レベルRLを採用した場合であっても、信号処理部10−kでは、k番目のサブバンドの音圧レベルA(k)が基準音圧レベルRLを下回る量が大きいほど、ゲイン係数Gp(k)を大きくするとよい。
【0034】
図3は、この変形例のゲイン制御を説明するグラフである。
図3のグラフにおいて、横軸がサブバンド(周波数軸に対応)を表し、縦軸が音圧レベル(デシベル値)を表す。
図3に示す実線及び破線のグラフの意味は、
図2の例と同じである。
図3に示すように、この変形例の基準音圧レベルRLは平均レベルであるから、トータルレベルを採用した
図2の場合に比べて、低い音圧レベルを示す。ただし、この場合であっても、信号処理部10−kが、基準音圧レベルRLを下回る音圧レベルのサブバンドについてゲイン係数Gp(k)を大きくして、ゲイン制御を行うことにより、周波数エンベロープのピーク及びディップを強調することができる。
【0035】
図3の例では、信号処理部10−kは、平均レベルよりも音圧レベルが高いサブバンドについては、音圧レベルを低下させていないが、例えば、平均レベルを下回るサブバンドよりもゲイン係数を小さくして(すなわち音圧レベルの低下量を小さくして)、平均レベルよりも音圧レベルが高いサブバンドの音圧レベルを低下させてもよい。
【0036】
基準音圧レベルRLは、更に別の音圧レベルで規定されてもよい。
例えば、基準音圧レベル算出部20は、各サブバンド信号の周波数に応じた重み付けを音圧レベルに与えた後、前述のトータルレベル又は平均レベルを用いた場合と同じ演算により、基準音圧レベルRLを算出してもよい。
また、基準音圧レベル算出部20は、複数のサブバンド信号の音圧レベルの中央値等、いずれか1つのサブバンド信号の音圧レベルを基準音圧レベルRLとすることも可能である。
少なくとも、基準音圧レベル算出部20がDCレベル値により基準音圧レベルRLを算出すれば、基準音圧レベル算出部20や信号処理部10−kでのレイテンシを小さくすることができる。
【0037】
また、
図4に示す方法でゲイン制御が行われてもよい。
図4は、
図2及び
図3に対応するグラフであり、横軸、縦軸及びグラフの意味は、それぞれ
図2及び
図3と同じである。
ここでは、信号処理部10−kは、音圧レベルA(k)が低い順に所定数(ここでは2つ)のサブバンドについて音圧レベルを低下させ、その他のサブバンドについては音圧レベルを変化させない。すなわち、信号処理部10−kが、基準音圧レベルRLを下回る一部のサブバンドについてのみ音圧レベルを低下させることによっても、周波数エンベロープのピーク及びディップを強調することができる。信号処理部10−kは、音圧レベルA(k)が低い順に1つのサブバンドについてのみ音圧レベルを低下させてもよく、音圧レベルA(k)が低い順にいくつのサブバンドの音圧レベルを低下させてもよい。
また、信号処理部10−kは、音圧レベルA(k)が閾値レベルを下回るサブバンドについてのみ、音圧レベルを低下させてもよい。
また、信号処理部10−kは、音圧レベルが低いサブバンドほどゲイン係数Gp(k)に大きな重み付けを与えてもよい。
【0038】
上述した実施形態では、音声処理装置1は、入力音声信号Sinのサンプル単位で、音声の明瞭度を上げるための信号処理を行っていた。音声処理装置1は、例えば、時間軸上で連続する複数のサンプルからなるフレーム単位で、音声の明瞭度を上げるための信号処理を行ってもよい。この場合、音声処理装置1は、同一フレーム内では共通の基準音圧レベルRLを用いて、入力音声信号Sinを複数のサブバンド信号に分割してもよい。ここにおいて、1フレームの時間長は、1つの音素の時間長(例えば30ms)又は複数の音素の時間長(例えば100ms)に基づいて設定されてもよい。すなわち、音声処理装置1の各部が、予め決められた期間毎に信号処理を繰り返し実行することによって、ゲイン係数G(k)を時間経過とともに変化させたゲイン制御が行われる。
【0039】
信号処理部10−kにおいて、例えば信号の不自然さが問題とならない場合には、平滑化フィルタ14−kを省略してもよい。
信号処理部10−kは、入力音声信号Sinを音声帯域で複数のサブバンド信号に分割していたが、それよりも狭い周波数帯域で複数のサブバンド信号に分割してもよいし、更に広い周波数帯域で複数のサブバンド信号に分割してもよい。信号処理部10−kは、例えば、可聴域を含む周波数帯域を、複数のサブバンド信号に分割する。
【0040】
上述した実施形態の入力音声信号Sinは、人間の音声以外の音声を表す信号であってもよい。例えば、入力音声信号Sinは、動物等の人間以外の生物の音声を表す音声信号であってもよい。また、入力音声信号Sinは、人工的な音声(人工音)を表す音声信号であってもよい。例えば、入力音声信号Sinは、非常放送(火災や地震時等で避難誘導をする放送等)の報知音やサイレン等の、所定の報知が行われたことを意味する報知音であってもよい。この場合、音声処理装置1によれば、設備騒音や交通騒音、災害時の騒音等の暗騒音の中から報知音の明瞭度を上げることによって、その報知音を人間に知覚させやすくすることができる。人工音は、報知音に限らず、所定の操作が行われたことを意味する操作音等の他の音声であってもよい。すなわち、入力音声信号Sinは、明瞭度を上げる対象となる音を含む音を表す音声信号である。ここにおいて明瞭度を上げる対象となる音は、騒音等の人間に聞かせなくてよい音以外の音であり、伝えるべき情報を含む音である。
【0041】
上述した実施形態の信号処理部10−kは、音圧レベルに基づいて信号処理を行っていたが、音圧を表す他のパラメータに基づいて信号処理を行ってもよい。この場合であっても、信号処理部10−kは、サブバンド信号のレベルが音声帯域での音圧の大きさの指標となる基準レベルを下回る量に応じて、ゲイン係数を大きくし、ゲイン制御を行う。
【0042】
本発明の音声処理装置は、例えば、スピーカやヘッドフォン、補聴器、ラジオ、家電器具等の種々の音を出力する装置に適用することができる。これ以外にも、本発明の音声処理装置は、例えば、店舗等の商業施設や駅等の公共施設において、一般放送(広告や案内の音楽又は音声の放送等)や非常放送での利用にも適している。
上述した実施形態で説明したパラメータ(例えば、数式や各種周波数)はあくまで例示であり、本発明はこれに限定されない。
上述した実施形態において、音声処理装置1(信号処理部10−k)が実現する各機能は、複数のプログラムの組み合わせによって実現され、又は、複数のハードウェア資源の連係によって実現されうる。音声処理装置1の機能がプログラムを用いて実現される場合、このプログラムは、磁気記録媒体(磁気テープ、磁気ディスク(HDD(Hard Disk Drive)、FD(Flexible Disk))など)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータ読取り可能な記録媒体に記憶した状態で提供されてもよいし、ネットワークを介して配信されてもよい。また、本発明は、入力音声信号の明瞭度を上げるための音声明瞭化方法として実施することも可能である。