(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0025】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。以下に説明する第1の実施形態(実施例1)及び第2の実施形態(実施例2)は、入力信号から音声と背景音とを分離し、音声と背景音とを独立した手法にて、音声の話速変換を行うと共に背景音の速度変換を行い、話速変換した音声と速度変換した背景音とを同期させて混合することを特徴とする。これにより、音声だけでなく背景音も、高品質に速度変換することが可能となる。実施例1と実施例2とは、入力信号から分離した背景音に対する処理が異なる。実施例1は、背景音の周期性の強弱を判定し、その強弱に応じた手法で周期を求め、背景音の速度変換を行う。実施例2は、背景音を所定数の周波数帯域に分割し、周波数帯域毎に背景音の周期を求めて速度変換し、周波数帯域毎の速度変換後の背景音を加算する。
【0026】
〔実施例1〕
まず、実施例1について説明する。前述のとおり、実施例1は、入力信号から音声と背景音とを分離し、音声と背景音とを独立した手法にて、音声の話速変換を行うと共に背景音の速度変換を行い、両音を同期させて混合する場合に、分離した背景音に対し周期性の強弱を判定し、その強弱に応じた手法で周期を求め、背景音の速度変換を行う。
【0027】
図1は、実施例1による信号処理装置の構成を示すブロック図である。この信号処理装置1は、音声/背景音分離部11、基本周期抽出部12、話速変換部13、周期性判定部14、基本周期抽出部15、スペクトル包絡ピーク検出部16、速度変換部17、混合部18及びスイッチ19を備えている。信号処理装置1の入力信号は、ステレオの音声信号に背景音が混在した信号であり、サンプリング周波数が48kHzのPCM(Pulse Code Modulation)データとする。
【0028】
音声/背景音分離部11は、入力信号からモノラル信号の音声及びステレオ信号の背景音を分離する。具体的には、音声/背景音分離部11は、例えば適応フィルタを用いて、左右のチャンネルの音声信号から同相成分を抽出し、抽出した同相成分をモノラル信号の音声として基本周期抽出部12及話速変換部13に出力する。左右のチャンネルの音声信号から同相成分を抽出できるのは、一般に音声は左右のチャンネルの中央に定位するからである。
【0029】
また、音声/背景音分離部11は、入力信号(左右のチャンネルの入力信号)から同相成分である音声を減算して背景音を抽出し、ステレオ信号の背景音を周期性判定部14、速度変換部17及びスイッチ19に出力する。
【0030】
尚、音声/背景音分離部11において入力信号から音声及び背景音を分離する処理は既知であり、詳細については、例えば特開2009−25500号公報及び特開2013−50604号公報を参照されたい。
【0031】
基本周期抽出部12は、音声/背景音分離部11からモノラル信号の音声を入力し、音声の基本周期T
p[ms]を抽出する。具体的には、基本周期抽出部12は、有声音区間全体の各部分毎に複数のピッチ候補を求め、最も適しているピッチ候補を判定し、判定したピッチ候補を音声の基本周期として抽出する。そして、基本周期抽出部12は、抽出した音声の基本周期を話速変換部13に出力する。
【0032】
尚、基本周期抽出部12において音声の基本周期を抽出する処理は既知であり、詳細については特許文献2を参照されたい。
【0033】
話速変換部13は、音声/背景音分離部11からモノラル信号の音声を入力すると共に、基本周期抽出部12から音声の基本周期T
pを入力し、音声を伸長または短縮することで話速を変換する。具体的には、話速変換部13は、入力した音声の波形を、基本周期T
pを単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、声の高さを変えずに所定速度に話速を変換する。そして、話速変換部13は、話速変換後の音声を混合部18に出力する。
【0034】
また、話速変換部13は、話速変換後の音声における入力信号上の時間位置(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)を、繰り返し/間引き時刻情報(同期情報)として速度変換部17に出力する。
【0035】
この繰り返し/間引き時刻情報は、速度変換部17において背景音を速度変換する際に、背景音を音声に同期させるために用いられ、例えば、波形の繰り返しまたは間引きを行う開始時点の時刻、及び波形の繰り返し時間長または間引きの時間長により構成される。
【0036】
音声/背景音分離部11による分離処理のように、音声と背景音とを分離する一般的な処理では、両者を完全に分離することは困難なことが多い。音声/背景音分離部11により分離された背景音には、少なからず音声が残存しており、分離された音声には、少なからず背景音が残存している。そして、例えば、入力信号をゆっくりした速度に変換する場合、話速変換部13にて引き伸ばした音声と、後述する速度変換部17にて引き伸ばした背景音との間で、音声及び背景音のそれぞれにおけるブロック単位の波形(単位信号)の時間区間(例えば、10ms程度の基本周期に相当する短い時間区間)において、単位信号の時刻位置が相対的に前後にずれる現象が発生し得る。
【0037】
この場合、後述する混合部18にて混合される出力信号は、音量に差はあるものの、同じ時間位置であるべき単位信号が時間的に僅かにずれて重なり合うことになり、エコー感を引き起こす可能性がある。特に、例えば特許第3220043号公報に記載された手法のように、音声のある区間の伸長量は多くし、ある区間の伸長量は少なくし、ポーズ区間は短縮するという適応的な話速変換を行う場合、背景音側の時間伸縮も、音声側の伸縮の時刻情報に正確に同期して行わないと、時刻のズレが生じ易くなる。そこで、音声と背景音とを同期させるために、繰り返しの時刻及び繰り返しの時間長、または間引きの時刻及び間引きの時間長の情報が用いられる。
【0038】
尚、話速変換部13において、基本周期T
pを単位として音声の伸長または短縮を行うことで話速を変換する処理は既知であり、詳細については特許文献1を参照されたい。
【0039】
周期性判定部14は、音声/背景音分離部11からステレオ信号の背景音を入力し、左右のチャンネルの背景音を混合(ミキシング)し、自己相関分析等を用いて、混合した背景音の波形について周期性の強さを求め、閾値を用いて「周期性が強い」または「周期性が弱い」を判定する。自己相関分析は、nを入力信号の冒頭から例えば10ms経過する毎に1増えるフレーム番号とした場合に、左のチャンネルの背景音のnフレーム目の時系列をS
L(n)=x
Ln(i),x
Ln(i+1),・・・,x
Ln(i+k)、右のチャンネルの背景音のnフレーム目の時系列をS
R(n)=x
Rn(i),x
Rn(i+1),・・・,x
Rn(i+k)としたとき、混合した信号S
L+R(n)=(S
L(n)+S
R(n))/2=(x
Ln(i)+x
Rn(i))/2,(x
Ln(i+1)+x
Rn(i+1))/2,・・・,(x
Ln(i+k)+x
Rn(i+k))/2=x
n(i),x
n(i+1),・・・,x
n(i+k)に対して行われる。
【0040】
例えば、周期性判定部14は、40msに相当するL
n点の幅をもつハミング窓を用いて、混合信号S
L+R(n)から波形x
n(0)〜x
n(L
n−1)を切り出し、以下の式(1)に示す自己相関関数R
n(k)を求める。
【数1】
【0041】
そして、周期性判定部14は、k>0の条件において、自己相関関数R
n(k)の最大値R
nMAX(k)を求め、nフレーム目の周期性の強さU
n=R
nMAX(k)/R
n(0)を求める。周期性判定部14は、nフレーム目の周期性の強さU
nと、予め設定された閾値(例えば0.5)とを比較する。
【0042】
周期性判定部14は、周期性の強さU
nが閾値以上である場合、「周期性が強い」と判定し、それを示す制御信号をスイッチ19に出力する。一方、周期性判定部14は、周期性の強さU
nが閾値よりも小さい場合、「周期性が弱い」と判定し、それを示す制御信号をスイッチ19に出力する。
【0043】
本実施例では、音声/背景音分離部11が入力信号から左右の同相成分を減算することにより背景音を求めているので、背景音としては、左右の異相成分が求まり易くなっている。したがって、周期性判定部14により、ほとんどのフレームで「周期性が弱い」と判定される。尚、音声/背景音分離部11において、特許文献4に記載されたスペクトルサブトラクション法を用いることで、左右のチャンネルの背景音には同相成分も含まれるようになるので、周期性判定部14により「周期性が強い」と判定されるフレームも出てくる。
【0044】
尚、周期性判定部14は、例えばフレームを移動する単位である10ms毎に、自己相関関数R
n(k)を求めて周期性の強さU
nを求め、閾値判定により「周期性が強い」または「周期性が弱い」を示す制御信号をスイッチ19に出力するようにした。これに対し、周期性判定部14は、「周期性が強い」または「周期性が弱い」を示す同じ制御信号を、所定期間(例えば数フレームから十数フレームの期間)継続して出力するようにしてもよい。これにより、周期性判定部14から10ms毎に異なる制御信号が出力されないから、後述する基本周期抽出部15により抽出される背景音の基本周期または後述するスペクトル包絡ピーク検出部16により求められる背景音の擬似基本周期は大きく変化することがなく、後述する速度変換部17において、人間の感性に合った安定した背景音の速度変換を実現することができる。
【0045】
スイッチ19は、音声/背景音分離部11からステレオ信号の背景音を入力すると共に、周期性判定部14から制御信号を入力し、制御信号が「周期性が強い」を示している場合、入力したステレオ信号の背景音を基本周期抽出部15に出力する。一方、スイッチ19は、制御信号が「周期性が弱い」を示している場合、入力したステレオ信号の背景音をスペクトル包絡ピーク検出部16に出力する。
【0046】
基本周期抽出部15は、背景音の「周期性が強い」場合に、音声/背景音分離部11からスイッチ19を介してステレオ信号の背景音を入力し、左右のチャンネルの背景音を混合(ミキシング)し、基本周期抽出部12と同様の手法にて、背景音の基本周期T
q[ms]を抽出する。そして、基本周期抽出部15は、背景音の基本周期を速度変換部17に出力する。
【0047】
スペクトル包絡ピーク検出部16は、背景音の「周期性が弱い」場合に、音声/背景音分離部11からスイッチ19を介してステレオ信号の背景音を入力し、周波数のスペクトル包絡を求め、スペクトル包絡のピークを検出する。そして、スペクトル包絡ピーク検出部16は、そのピーク位置の周波数の逆数(背景音の擬似基本周期T
r)を求めて速度変換部17に出力する。
【0048】
例えば、スペクトル包絡ピーク検出部16は、ステレオ信号の背景音を入力し、周期性判定部14と同様に左右のチャンネルの背景音を混合(ミキシング)し、例えば30msに相当するハミング窓を用いて、背景音の混合信号から波形を切り出す。そして、スペクトル包絡ピーク検出部16は、切り出した波形に対し、線形予測分析を行っていわゆるLPC(Linear Predictive Coding:線形予測符号)包絡を求める。または、FFT(Fast Fourier Transform:高速フーリエ変換)を行ってFFTケプストラム包絡を求める。
【0049】
そして、スペクトル包絡ピーク検出部16は、LPC包絡またはFFTケプストラム包絡がピークとなる周波数f
p[Hz]を求め、その逆数T
r=1000/f
p[ms]を速度変換部17にて用いる擬似基本周期とする。
【0050】
尚、スペクトル包絡ピーク検出部16は、これらのスペクトル包絡が単調減少または単調増加するため、そのピークを求めることができない場合、所定の擬似基本周期(例えばT
r=10ms)を設定する。これは、一般に音声の基本周期が10ms前後であることから、背景音の擬似基本周期を10msとすることで、背景音を音声に同期させて速度変換する後述する速度変換部17における処理を容易にし、速度変換後の音声と背景音との間のずれが生じ難くなるようにするためである。
【0051】
速度変換部17は、音声/背景音分離部11からステレオ信号の背景音を入力すると共に、基本周期抽出部15から背景音の基本周期T
qまたはスペクトル包絡ピーク検出部16からピーク周波数の逆数(背景音の擬似基本周期T
r)を入力し、さらに、話速変換部13から、話速変換後の音声における入力信号上の時間位置(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)で定義される繰り返し/間引き時刻情報を入力する。そして、速度変換部17は、繰り返し/間引き時刻情報を用いて、ステレオ信号の背景音が音声に同期するように、背景音の左右の信号をそれぞれ伸長または短縮することで、背景音の速度を所定速度に変換する。
【0052】
具体的には、速度変換部17は、話速変換部13と同様に、入力した背景音の波形を、基本周期T
qまたは擬似基本周期T
rを単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、音の高さを変えないで速度変換する。
【0053】
この場合、速度変換部17は、ブロック単位の波形を繰り返したり間引いたりする操作を、ステレオ信号の左右に対して独立に行うが、話速変換部13から入力した繰り返し/間引き時刻情報に合わせて、それぞれの波形の時間位置が音声と同じ位置になるように速度変換を行う。例えば、音声が時刻Aの時間位置から繰り返しまたは間引き処理が行われた場合、背景音もステレオ信号の左右に対して同じ時刻Aの時間位置または時刻Aに近い時間位置から繰り返しまたは間引き処理が行われるように、繰り返し/間引き時刻情報が用いられる。そして、速度変換部17は、速度変換後の背景音を混合部18に出力する。
【0054】
混合部18は、話速変換部13から話速変換されたモノラル信号の音声を入力すると共に、速度変換部17から速度変換されたステレオ信号の背景音を入力し、モノラル信号の音声を、ステレオ信号である背景音の左右の信号にそれぞれ加える混合(ミキシング)を行い、混合したステレオ信号を出力信号として出力する。すなわち、混合部18は、当該信号処理装置1の入力信号における音声及び背景音のミキシングバランスと同じになるように、話速変換部13からのモノラル信号の音声と、速度変換部17からのステレオ信号の背景音の各レベルの比率を適宜調整して混合する。例えば、話速変換部13からのモノラル信号の音声レベルに0.5を掛けて左右の各背景音と混合する。但し、音声/背景音分離部11の方式の違いにより、最適な混合比率は異なる。
【0055】
尚、基本周期抽出部12により、音声の音響特徴量を抽出する第1の音響特徴量抽出部が構成され、周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16により、背景音の音響特徴量を抽出する第2の音響特徴量抽出部が構成される。この場合、第1の音響特徴量抽出部は、音声の基本周波数を抽出する方法として、音声のフーリエ変換解析等のような、発話の音響的な特徴を表現した特徴量を抽出するようにしてもよい。第2の音響特徴量抽出部も同様に、背景音の基本周波数等を抽出する方法として、背景音の音響的な特徴を表現した特徴量を抽出するようにしてもよい。この場合、話速変換部13及び速度変換部17は、音響特徴量に基づいて速度変換を行う。後述する実施例2についても同様である。
【0056】
(背景音の処理)
次に、話速変換された音声に混合する背景音の生成処理について説明する。
図2は、背景音の生成処理を示すフローチャートである。
図2に示す処理は、
図1に示した周期性判定部14、スイッチ19、基本周期抽出部15、スペクトル包絡ピーク検出部16及び速度変換部17により行われる処理である。
【0057】
信号処理装置1は、入力信号から分離したステレオ信号の背景音の左右を混合し、モノラルとなった背景音信号から所定時間幅の波形を切り出し(ステップS201)、切り出した波形から自己相関関数R
n(k)を算出する(ステップS202)。そして、信号処理装置1は、自己相関関数R
n(k)の最大値を求め、所定時間幅のフレーム毎に、周期性の強さU
nを算出する(ステップS203)。これにより、フレーム毎に、背景音における周期性の強弱の指標となる周期性の強さU
nが求められる。
【0058】
信号処理装置1は、周期性の強さU
nと予め設定された閾値とを比較し(ステップS204)、周期性の強さU
nが閾値以上であると判定した場合(ステップS204:Y)、「周期性が強い」と判定する(ステップS205)。一方、信号処理装置1は、周期性の強さU
nが閾値よりも小さいと判定した場合(ステップS204:N)、「周期性が弱い」と判定する(ステップS207)。これにより、フレーム毎に、背景音について周期性の強弱が判定される。
【0059】
前述のステップS201〜ステップS205及びステップS207の処理は、周期性判定部14により行われる。
【0060】
信号処理装置1は、背景音の「周期性が強い」と判定した場合、入力信号から分離したステレオ信号の背景音の左右を混合し、音声の基本周期を抽出する手法と同じ手法にて、背景音の基本周期T
q[ms]を抽出する(ステップS206)。これにより、背景音の「周期性が強い」場合の基本周期が抽出される。ステップS206の処理は、スイッチ19及び基本周期抽出部15により行われる。
【0061】
信号処理装置1は、背景音の「周期性が弱い」と判定した場合、入力信号から分離したステレオ信号の背景音の左右を混合し、周波数のスペクトル包絡を求め(ステップS208)、そのピーク位置の周波数の逆数(擬似基本周期T
r)を求める(ステップS209)。尚、スペクトル包絡が単調減少または単調増加するため、ピーク位置が不明の場合には、所定の擬似基本周期(例えばT
r=10ms)を設定する。これにより、背景音の「周期性が弱い」場合の擬似基本周期が求められる。ステップS208及びステップS209の処理は、スイッチ19及びスペクトル包絡ピーク検出部16により行われる。
【0062】
信号処理装置1は、入力信号から分離したステレオ信号の背景音を、ステップS206にて抽出した背景音の基本周期T
qまたはステップS209にて求めた背景音の擬似基本周期T
rを単位としたブロック毎に左右共に同じ時刻(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)を区切りとして分割し、話速変換時の繰り返し/間引き情報を用いて、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、背景音の速度を変換する(ステップS210)。ステップS210の処理は、速度変換部17により行われる。
【0063】
これにより、音声に同期した速度変換後の背景音が生成され、速度変換後のステレオ信号の背景音は、話速変換された音声と混合される。
【0064】
以上のように、実施例1の信号処理装置1によれば、周期性判定部14は、入力信号から分離された背景音から、所定時間幅の波形を切り出して自己相関関数R
n(k)を算出し、所定時間幅のフレーム毎に、自己相関関数R
n(k)の最大値を用いて周期性の強さU
nを算出し、閾値を用いて「周期性が強い」または「周期性が弱い」を判定するようにした。そして、基本周期抽出部15は、背景音の「周期性が強い」場合に、音声の基本周期を抽出する既存の手法と同じ手法にて、入力信号から分離された背景音の基本周期T
qを抽出し、スペクトル包絡ピーク検出部16は、背景音の「周期性が弱い」場合に、背景音から周波数のスペクトル包絡を求め、そのピーク位置の周波数の逆数(擬似基本周期T
r)を求めるようにした。そして、速度変換部17は、入力信号から分離した背景音の波形を、基本周期抽出部15により抽出された背景音の基本周期T
qまたはスペクトル包絡ピーク検出部16により求めた背景音の擬似基本周期T
rを単位としたブロック毎に分割し、話速変換後の音声における入力信号上の時間位置(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)を示す繰り返し/間引き情報を用いて、左右で同じ時刻の区切り位置をもつブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、背景音の速度を変換するようにした。このようにして速度変換された背景音は、話速変換された音声に同期することとなり、話速変換された音声と混合される。
【0065】
従来は、背景音も音声の基本周期を用いて速度変換することがあり、音声は高品質に話速変換されても、背景音は必ずしも高品質に速度変換されないことが多かった。実施例1では、音声と背景音とを分離し、音声と背景音とを独立した手法にて話速変換及び速度変換し、話速変換した音声と速度変換した背景音とを同期させて混合する。これにより、入力音声に背景音が混在している場合であっても、音声及び背景音の両方を自然かつ高品質に話速変換及び速度変換することが可能となる。
【0066】
〔実施例2〕
次に、実施例2について説明する。前述のとおり、実施例2は、入力信号から音声と背景音とを分離し、音声と背景音とを独立した手法にて、音声の話速変換を行うと共に背景音の速度変換を行い、両音を同期させて混合する場合に、分離した背景音を所定数の周波数帯域に分割し、周波数帯域毎に背景音の周期を求めて速度変換し、周波数帯域毎の速度変換後の背景音を加算する。
【0067】
図3は、実施例2による信号処理装置の構成を示すブロック図である。この信号処理装置2は、音声/背景音分離部21、基本周期抽出部22、話速変換部23、周波数帯域分割フィルタバンク24、スペクトル包絡ピーク検出部25−1〜25−10、速度変換部26−1〜26−10、加算部27及び混合部28を備えている。信号処理装置2の入力信号は、信号処理装置1と同様に、ステレオの音声信号に背景音が混在した信号であり、サンプリング周波数が48kHzのPCMデータとする。
【0068】
ここで、基本周期抽出部22により、音声の音響特徴量を抽出する第1の音響特徴量抽出部が構成され、周波数帯域分割フィルタバンク24及びスペクトル包絡ピーク検出部25−1〜25−10により、背景音の音響特徴量を抽出する第2の音響特徴量抽出部が構成される。
【0069】
音声/背景音分離部21、基本周期抽出部22、話速変換部23及び混合部28は、
図1に示した音声/背景音分離部11、基本周期抽出部12、話速変換部13及び混合部18にそれぞれ相当し同じ処理を行うから、ここでは説明を省略する。
【0070】
話速変換部23は、話速変換後の音声における入力信号上の時間位置(信号処理装置2が音声信号の入力を開始してから一意に決まる経過時間)である繰り返し/間引き時刻情報を、速度変換部26−1〜26−10にそれぞれ出力する。
【0071】
周波数帯域分割フィルタバンク24は、音声/背景音分離部21からステレオ信号の背景音を入力し、1オクターブ程度の周波数帯域幅をもつフィルタバンクを用いて、入力した背景音を、所定数の周波数帯域に分割する。例えば、(1)25Hz〜50Hz、(2)50Hz〜100Hz、(3)100Hz〜200Hz、(4)200Hz〜400Hz、(5)400Hz〜800Hz、(6)800Hz〜1.6kHz、(7)1.6kHz〜3.2kHz、(8)3.2kHz〜6.4kHz、(9)6.4kHz〜12.8kHz、(10)12.8kHz〜24kHzのように、10の周波数帯域に分割する。そして、周波数帯域分割フィルタバンク24は、分割した(1)〜(10)の周波数帯域における背景音の信号である帯域制限ステレオ信号を、順番にスペクトル包絡ピーク検出部25−1〜25−10及び速度変換部26−1〜26−10にそれぞれ出力する。
【0072】
スペクトル包絡ピーク検出部25−1〜25−10(以下、総称してスペクトル包絡ピーク検出部25という。)は、周波数帯域分割フィルタバンク24から対応する(1)〜(10)の周波数帯域における背景音の信号を入力する。そして、スペクトル包絡ピーク検出部25は、入力した対応する(1)〜(10)の周波数帯域内において、
図1に示したスペクトル包絡ピーク検出部16と同様の処理を行う。
【0073】
具体的には、スペクトル包絡ピーク検出部25は、左右のチャンネルの背景音を混合(ミキシング)し、例えば30msに相当するハミング窓を用いて、背景音の混合信号から波形を切り出す。そして、スペクトル包絡ピーク検出部25は、切り出した波形に対し、線形予測分析を行っていわゆるLPC包絡、またはFFTを行ってFFTケプストラム包絡を求める。そして、スペクトル包絡ピーク検出部25は、LPC包絡またはFFTケプストラム包絡がピークとなる周波数f
p(1)〜f
p(10)[Hz]をそれぞれ求め、その逆数T
r(1)〜T
r(10)=1000/f
p(1)〜1000/f
p(10)[ms]を速度変換のための擬似基本周期とする。スペクトル包絡ピーク検出部25は、求めた擬似基本周期T
r(1)〜T
r(10)を、対応する速度変換部26−1〜26−10にそれぞれ出力する。
【0074】
尚、スペクトル包絡ピーク検出部25は、スペクトル包絡が単調減少または単調増加するため、ピークを求めることができない場合、その周波数帯域の対数的な中心周波数の逆数を擬似基本周期として設定する。例えば、前記(3)の周波数帯域100Hz〜200Hzでは、対数的な中心周波数141.4Hzの逆数7.071msを擬似基本周期T
r(3)として設定する。これは、例えば音楽のような背景音の場合、周波数成分のエネルギーは周波数が高いほど小さくなり、エネルギーの中心となる中心周波数は、その周波数帯域の中央よりも低い側に位置するから、対数的な中心周波数を用いることで、すなわち周波数帯域の下限値及び上限値の相乗平均を用いることで、エネルギーの中心となる中心周波数に対応した周期を適切に設定できるからである。
【0075】
速度変換部26−1〜26−10(以下、総称して速度変換部26という。)は、周波数帯域分割フィルタバンク24から対応するステレオ信号の背景音((1)〜(10)の周波数帯域毎に分割されたステレオ信号の背景音)を入力すると共に、スペクトル包絡ピーク検出部25から対応するピーク周波数の逆数(背景音の擬似基本周期T
r(1)〜T
r(10))を入力し、さらに、話速変換部23から、話速変換後の音声における入力信号上の時間位置(信号処理装置2が音声信号の入力を開始してから一意に決まる経過時間)である繰り返し/間引き時刻情報を入力する。そして、速度変換部26は、繰り返し/間引き時刻情報を用いて、ステレオ信号の背景音が音声に同期するように、背景音のステレオ信号の左右に対して同じ時刻の信号をそれぞれ伸長または短縮することで、背景音の速度を変換する。
【0076】
具体的には、速度変換部26は、話速変換部23と同様に、対応する背景音の波形を、対応する背景音の擬似基本周期T
r(1)〜T
r(10)を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、音の高さを変えることなく所定速度に変換する。
【0077】
この場合、速度変換部26は、ブロック単位の波形を繰り返したり間引いたりする操作を、ステレオ信号の左右に対して独立に行うが、話速変換部23から入力した繰り返し/間引き時刻情報に合わせて、それぞれの波形の時間位置が音声と同じ位置になるように速度変換を行う。そして、速度変換部26は、速度変換後の周波数帯域毎の背景音を加算部27に出力する。
【0078】
加算部27は、速度変換部26から速度変換後の周波数帯域毎の背景音を入力し、これらの背景音を加算し、速度変換した背景音として混合部28に出力する。
【0079】
混合部28は、話速変換部23から話速変換されたモノラル信号の音声を入力すると共に、加算部27から速度変換され加算されたステレオ信号の背景音を入力し、モノラル信号の音声を、ステレオ信号である背景音の左右の信号にそれぞれ加える混合(ミキシング)を行い、混合したステレオ信号を出力信号として出力する。すなわち、混合部28は、当該信号処理装置2の入力信号における音声及び背景音のミキシングバランスと同じになるように、話速変換部23からのモノラル信号の音声と、加算部27からのステレオ信号の背景音の各レベルの比率を適宜調整して混合する。例えば、話速変換部23からのモノラル信号の音声レベルに0.5を掛けて左右の各背景音と混合する。但し、音声/背景音分離部21の方式の違いにより、最適な混合比率は異なる。
【0080】
(背景音の処理)
次に、話速変換された音声に混合する背景音の生成処理について説明する。
図4は、背景音の生成処理を示すフローチャートである。
図4に示す処理は、
図3に示した周波数帯域分割フィルタバンク24、スペクトル包絡ピーク検出部25、速度変換部26及び加算部27により行われる処理である。
【0081】
信号処理装置2は、入力信号から分離したステレオ信号の背景音を、フィルタバンクを用いて所定数の周波数帯域に分割する(ステップS401)。これにより、周波数帯域毎のステレオ信号の背景音が生成される。ステップS401の処理は、周波数帯域分割フィルタバンク24により行われる。
【0082】
信号処理装置2は、周波数帯域毎に、左右のチャンネルの背景音を混合して周波数のスペクトル包絡を求め(ステップS402)、そのピーク位置の周波数の逆数(擬似基本周期T
r)を求める(ステップS403)。尚、ピーク位置が不明の場合には、分割した周波数帯域毎に所定の擬似基本周期を設定する。これにより、周波数帯域毎の背景音について、その擬似基本周期が求められる。ステップS402及びステップS403の処理は、スペクトル包絡ピーク検出部25により行われる。
【0083】
信号処理装置2は、周波数帯域毎のステレオ信号の背景音を、ステップ403にて求めた背景音の擬似基本周期T
rを単位として左右の信号に対して同じ時刻のブロック毎に分割し、話速変換時の繰り返し/間引き情報を用いて、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、周波数帯域毎に、背景音の速度を変換する(ステップS404)。ステップS404の処理は、速度変換部26により行われる。
【0084】
信号処理装置2は、ステップS404にて速度変換した周波数帯域毎の背景音を加算し、速度変換した背景音として混合部28に出力する(ステップS405)。ステップS405の処理は、加算部27により行われる。
【0085】
これにより、音声に同期した速度変換後の背景音が生成され、速度変換後のステレオ信号の背景音は、話速変換された音声と混合される。
【0086】
以上のように、実施例2の信号処理装置2によれば、周波数帯域分割フィルタバンク24は、入力信号から分離された背景音を、フィルタバンクを用いて所定数の周波数帯域に分割し、スペクトル包絡ピーク検出部25は、周波数帯域毎に、背景音における周波数のスペクトル包絡を求め、そのピーク位置の周波数の逆数(擬似基本周期T
r)を求めるようにした。そして、速度変換部26は、周波数帯域毎の背景音を、スペクトル包絡ピーク検出部25により求めた背景音の擬似基本周期T
rを単位としたブロック毎に分割し、話速変換後の音声の繰り返し/間引き情報を用いて、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、背景音の速度を変換するようにした。そして、加算部27は、速度変換部26により速度変換された周波数帯域毎の背景音を加算するようにした。このようにして速度変換され加算された背景音は、話速変換された音声に同期することとなり、話速変換された音声と混合される。
【0087】
これにより、音声と背景音とを独立した手法にて話速変換及び速度変換し、話速変換した音声と速度変換した背景音とを同期させて混合するから、入力音声に背景音が混在している場合であっても、音声及び背景音の両方を自然かつ高品質に話速変換及び速度変換することが可能となる。
【0088】
以上、実施例1,2について説明したが、音声側から背景音側へ繰り返し/間引き情報を出力するのではなく、背景音側から音声側へ繰り返し/間引き情報を出力する変形例もある。この第1の変形例では、背景音側の速度変換部17,26が、速度変換後の背景音における入力信号上の時間位置(信号処理装置1,2が音声信号の入力を開始してから一意に決まる経過時間)を、繰り返し/間引き時刻情報(同期情報)として音声側の話速変換部13,23に出力する。これにより、話速変換部13,23が音声を話速変換する際に、背景音を基準にして、音声を背景音に同期させることができる。
【0089】
また、実施例2の構成に、実施例1の周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16を加えた変形例もある。この第2の変形例では、
図3に示した信号処理装置2において、スペクトル包絡ピーク検出部25の代わりに、
図1に示した実施例1における周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16を備える。第2の変形例による信号処理装置2は、周波数帯域分割フィルタバンク24により周波数帯域毎に分割された背景音に対し、周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16の処理をそれぞれ行い、速度変換部26において、基本周期抽出部15により周波数帯域毎に抽出された背景音の基本周期T
q、またはスペクトル包絡ピーク検出部16により周波数帯域毎に求めた背景音の擬似基本周期T
rに基づいて、その周波数帯域毎に背景音の速度変換を行う。
【0090】
尚、実施例1,2の信号処理装置1,2のハードウェア構成としては、通常のコンピュータを使用することができる。信号処理装置1,2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。信号処理装置1に備えた音声/背景音分離部11、基本周期抽出部12、話速変換部13、周期性判定部14、基本周期抽出部15、スペクトル包絡ピーク検出部16、速度変換部17、混合部18及びスイッチ19の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、信号処理装置2に備えた音声/背景音分離部21、基本周期抽出部22、話速変換部23、周波数帯域分割フィルタバンク24、スペクトル包絡ピーク検出部25、速度変換部26、加算部27及び混合部28の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。第1及び第2の変形例についても同様である。これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【0091】
以上、実施例1,2を挙げて本発明を説明したが、本発明は前記実施例1,2に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、前記実施例2では、周波数帯域の数を10として説明したが、本発明はこの数に限定されるものではない。
【0092】
また、本発明は、例えば、テレビまたはラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダー等に音声を一度記録した後に、ハードディスクレコーダー等に記録した音声をゆっくりまたは速く視聴する場合に適用がある。また、視覚障害者から音声を効率的に聴取したいという要望を受けて、視覚障害者用の録音図書等を高速に再生して聞く場合にも適用がある。また、ICレコーダー等に記録した会議の議事録等を書き起こす際に、好みの速さで再生する場合にも適用がある。さらに、語学学習または発声訓練システムにおいても、その教材の作成時に利用したり、学習時に学習者の上達度に合わせて音声の話速を変換して学習者に聞かせたりする場合にも適用がある。