特許第6321334号(P6321334)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

<>
  • 特許6321334-信号処理装置及びプログラム 図000003
  • 特許6321334-信号処理装置及びプログラム 図000004
  • 特許6321334-信号処理装置及びプログラム 図000005
  • 特許6321334-信号処理装置及びプログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6321334
(24)【登録日】2018年4月13日
(45)【発行日】2018年5月9日
(54)【発明の名称】信号処理装置及びプログラム
(51)【国際特許分類】
   G10L 21/045 20130101AFI20180423BHJP
   G10L 21/0272 20130101ALI20180423BHJP
   G10L 25/90 20130101ALI20180423BHJP
【FI】
   G10L21/045
   G10L21/0272
   G10L25/90
【請求項の数】3
【全頁数】18
(21)【出願番号】特願2013-151972(P2013-151972)
(22)【出願日】2013年7月22日
(65)【公開番号】特開2015-22236(P2015-22236A)
(43)【公開日】2015年2月2日
【審査請求日】2016年6月2日
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】都木 徹
(72)【発明者】
【氏名】小森 智康
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】今井 篤
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 特開2005−031169(JP,A)
【文献】 特開2001−051700(JP,A)
【文献】 特開平11−289599(JP,A)
【文献】 特開2001−222289(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00−21/18
G10L 25/00−25/93
(57)【特許請求の範囲】
【請求項1】
音声に背景音が混在した入力信号を、所定速度に速度変換して出力する信号処理装置において、
前記入力信号から音声と背景音とを分離する音声/背景音分離部と、
前記音声/背景音分離部により分離された音声の音響特徴量として、音声の基本周期を抽出する第1の音響特徴量抽出部と、
前記音声/背景音分離部により分離された背景音の音響特徴量として、背景音の基本周期を抽出する第2の音響特徴量抽出部と、
前記音声/背景音分離部により分離された音声の波形を、前記第1の音響特徴量抽出部により抽出された音声の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記音声の伸長を行い、または、前記ブロック単位の波形を間引くことで前記音声の短縮を行い、前記音声を前記所定速度に話速変換する話速変換部と、
前記音声/背景音分離部により分離された背景音の波形を、前記第2の音響特徴量抽出部により抽出された背景音の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記背景音の伸長を行い、または、前記ブロック単位の波形を間引くことで前記背景音の短縮を行い、前記背景音を前記所定速度に速度変換する速度変換部と、
前記話速変換部により話速変換された音声と、前記速度変換部により速度変換された背景音とを混合して出力する混合部と、を備え、
前記第2の音響特徴量抽出部は、周期性判定部、基本周期抽出部及び第1のスペクトル包絡ピーク検出部を備え、
前記周期性判定部は、
前記音声/背景音分離部により分離された背景音から、所定時間幅のハミング窓を用いて波形を切り出し、前記切り出した波形から自己相関関数を求め、自己相関関数の最大値を用いて前記背景音の周期性の強さを求め、前記周期性の強さと閾値とを比較して周期性の強弱を判定し、
前記基本周期抽出部は、
前記周期性判定部により背景音の周期性が強いと判定された場合、前記音声/背景音分離部により分離された背景音の基本周期を抽出し、
前記第1のスペクトル包絡ピーク検出部は、
前記周期性判定部により背景音の周期性が弱いと判定された場合、前記音声/背景音分離部により分離された背景音における周波数のスペクトル包絡を求め、前記スペクトル包絡のピークを検出し、前記検出したピークにおける周波数の逆数を前記背景音の擬似基本周期として前記背景音の基本周期に代えて求め、
前記速度変換部は、
前記基本周期抽出部により抽出された背景音の基本周期、または前記第1のスペクトル包絡ピーク検出部により求めた背景音の擬似基本周期に基づいて、前記音声/背景音分離部により分離された背景音を前記所定速度に速度変換する、ことを特徴とする信号処理装置。
【請求項2】
音声に背景音が混在した入力信号を、所定速度に速度変換して出力する信号処理装置において、
前記入力信号から音声と背景音とを分離する音声/背景音分離部と、
前記音声/背景音分離部により分離された音声の音響特徴量として、音声の基本周期を抽出する第1の音響特徴量抽出部と、
前記音声/背景音分離部により分離された背景音の音響特徴量として、背景音の基本周期を抽出する第2の音響特徴量抽出部と
前記音声/背景音分離部により分離された音声の波形を、前記第1の音響特徴量抽出部により抽出された音声の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記音声の伸長を行い、または、前記ブロック単位の波形を間引くことで前記音声の短縮を行い、前記音声を前記所定速度に話速変換する話速変換部と、
前記音声/背景音分離部により分離された背景音の波形を、前記第2の音響特徴量抽出部により抽出された背景音の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記背景音の伸長を行い、または、前記ブロック単位の波形を間引くことで前記背景音の短縮を行い、前記背景音を前記所定速度に速度変換する速度変換部と、
前記話速変換部により話速変換された音声と、前記速度変換部により速度変換された背景音とを混合して出力する混合部と、を備え、
さらに、加算部を備え、
前記第2の音響特徴量抽出部は、周波数帯域分割フィルタバンク及び第2のスペクトル包絡ピーク検出部を備え、
前記周波数帯域分割フィルタバンクは、
前記音声/背景音分離部により分離された背景音を、フィルタバンクを用いて所定数の周波数帯域に分割し、
前記第2のスペクトル包絡ピーク検出部は、
前記周波数帯域分割フィルタバンクにより分割された周波数帯域毎に、前記音声/背景音分離部により分離された背景音における周波数のスペクトル包絡を求め、前記スペクトル包絡のピークを検出し、前記検出したピークにおける周波数の逆数を前記背景音の擬似基本周期として前記背景音の基本周期に代えて求め、
前記速度変換部は、
前記周波数帯域分割フィルタバンクにより分割された周波数帯域毎に、前記第2のスペクトル包絡ピーク検出部により求めた背景音の擬似基本周期に基づいて、前記音声/背景音分離部により分離された背景音を前記所定速度に速度変換し、
前記加算部は、
前記速度変換部により速度変換された、前記周波数帯域分割フィルタバンクにより分割された周波数帯域毎の背景音を加算し、
前記混合部は、
前記話速変換部により話速変換された音声と、前記加算部により加算された背景音とを混合して出力する、ことを特徴とする信号処理装置。
【請求項3】
コンピュータを、請求項1または2に記載の信号処理装置として機能させるための信号処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力音声の話速(話す速さ)を変換する技術に関し、特に、放送の番組の音声等のように、音声に音楽、効果音または雑音等の背景音が混在する場合に、音質良く話速を変換する信号処理装置及びプログラムに関する。
【背景技術】
【0002】
入力した音声の話速を音質良く変換するためには、入力音声の声帯の振動周期である基本周期をできるだけ正確に抽出し、それに基づいた信号処理を行う必要がある。例えば、入力音声の話速を変換する信号処理装置は、入力した音声信号の波形を基本周期を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行うことにより、声の高さを変えることなく話速を変換する(特許文献1を参照)。
【0003】
このような信号処理において、入力音声に対し基本周期を単位としたブロック毎の分割を施すための基本周期の抽出手法としては、様々なものが提案されている。
【0004】
しかし、男性の低い声から、女性または子供の高い声までの任意の声を扱う場合には、正しい周期の半分の長さを抽出してしまう半周期エラー、または2倍の周期の長さを抽出してしまう倍周期エラーを生じることが少なくない。特に、音声に背景音(音楽、効果音、雑音等)が混在する場合には、基本周期の抽出精度が低下して正確な話速変換が行われなくなり、これらの抽出エラーが生じ易くなる。
【0005】
このような問題を解決するため、入力音声に対して複数の分析窓幅による自己相関関数を求め、自己相関関数の最大値等に基づいて、複数の基本周期の候補から最適な候補を選択し、音声の基本周期を抽出する手法が提案されている(特許文献2を参照)。これにより、音声に背景音が混在する場合であっても、ある程度の精度を有する基本周期を抽出することができ、音質良く話速変換を行うことができる。
【0006】
一方、音声を自動認識すること等を目的として、音声に混在している背景音を抑圧する手法が提案されている(特許文献3,4を参照)。この手法によれば、音声に背景音が混在している場合、背景音を抑圧した後に、話速変換のための音声の基本周期を求めることで、精度の高い基本周期を得ることができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許第2955247号公報
【特許文献2】特許第3219868号公報
【特許文献3】特許第3693022号公報
【特許文献4】特開2011−257643号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、前述の特許文献2の手法では、背景音も音声の基本周期を用いて速度変換されることになる。このため、音声は音質良く話速変換されても、背景音は自身の音響特徴量(例えば周期性等)とは異なる基準によって伸縮等されるため、必ずしも音質良く速度変換されないという問題があった。
【0009】
また、前述の特許文献3,4の手法を用いて背景音を抑圧し、その後に音声の基本周期を抽出する手法では、背景音が抑圧された状態になるから、音声と背景音とを合わせて同時に速度変換するという一般的な話速変換の目的を達成することができない。そこで、背景音を抑圧し、その後に抽出した音声の基本周期を用いて、背景音抑圧前の入力音声を話速変換する手法が考えられる。
【0010】
この手法を用いることにより、音声は音質良く話速変換される。しかしながら、前述の特許文献2の手法と同様に、背景音は自身の音響特徴量とは異なる基準によって伸縮等されるため、必ずしも音質良く速度変換されないという問題があった。
【0011】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、入力音声に背景音が混在している場合であっても、音声及び背景音の両方を高品質に速度変換可能な信号処理装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0018】
上記課題を解決するために、請求項の信号処理装置は、音声に背景音が混在した入力信号を、所定速度に速度変換して出力する信号処理装置において、前記入力信号から音声と背景音とを分離する音声/背景音分離部と、前記音声/背景音分離部により分離された音声の音響特徴量として、音声の基本周期を抽出する第1の音響特徴量抽出部と、前記音声/背景音分離部により分離された背景音の音響特徴量として、背景音の基本周期を抽出する第2の音響特徴量抽出部と、前記音声/背景音分離部により分離された音声の波形を、前記第1の音響特徴量抽出部により抽出された音声の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記音声の伸長を行い、または、前記ブロック単位の波形を間引くことで前記音声の短縮を行い、前記音声を前記所定速度に話速変換する話速変換部と、前記音声/背景音分離部により分離された背景音の波形を、前記第2の音響特徴量抽出部により抽出された背景音の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記背景音の伸長を行い、または、前記ブロック単位の波形を間引くことで前記背景音の短縮を行い、前記背景音を前記所定速度に速度変換する速度変換部と、前記話速変換部により話速変換された音声と、前記速度変換部により速度変換された背景音とを混合して出力する混合部と、を備え、前記第2の音響特徴量抽出部が、周期性判定部、基本周期抽出部及び第1のスペクトル包絡ピーク検出部を備え、前記周期性判定部が、前記音声/背景音分離部により分離された背景音から、所定時間幅のハミング窓を用いて波形を切り出し、前記切り出した波形から自己相関関数を求め、自己相関関数の最大値を用いて前記背景音の周期性の強さを求め、前記周期性の強さと閾値とを比較して周期性の強弱を判定し、前記基本周期抽出部が、前記周期性判定部により背景音の周期性が強いと判定された場合、前記音声/背景音分離部により分離された背景音の基本周期を抽出し、前記第1のスペクトル包絡ピーク検出部が、前記周期性判定部により背景音の周期性が弱いと判定された場合、前記音声/背景音分離部により分離された背景音における周波数のスペクトル包絡を求め、前記スペクトル包絡のピークを検出し、前記検出したピークにおける周波数の逆数を前記背景音の擬似基本周期として前記背景音の基本周期に代えて求め、前記速度変換部が、前記基本周期抽出部により抽出された背景音の基本周期、または前記第1のスペクトル包絡ピーク検出部により求めた背景音の擬似基本周期に基づいて、前記音声/背景音分離部により分離された背景音を前記所定速度に速度変換する、ことを特徴とする。
【0019】
請求項の信号処理装置によれば、音声と背景音とを別々に独立して処理することで、音声に対して最適な条件の話速変換を施すことができると共に、背景音に対しても最適な条件の速度変換を施すことができる。また、音声に対し、声の高さを変えることなく高品質に話速変換を施すことができ、背景音に対し、音の高さを変えることなく高品質に速度変換を施すことができる。さらに、例えば、単一の弦または管楽器で演奏されている音楽の場合、または基本周波数がはっきりしているエンジンの回転音等の場合には、背景音の周期性は強いと判定される。この場合、基本周期抽出部において、背景音の基本周期が抽出され、速度変換部において、背景音が、基本周期抽出部により抽出された基本周期に基づいて、音の高さは変わることなく品質良く所定速度に変換される。また、例えば、多くの楽器で演奏されている音楽、雨音、町の雑踏等の場合には、その基本周波数が明確でないことが多く、背景音の周期性は弱いと判定される。この場合、第1のスペクトル包絡ピーク検出部において、背景音の擬似基本周期が求められ、速度変換部において、背景音が、第1のスペクトル包絡ピーク検出部により求めた擬似基本周期に基づいて、音の高さは変わることなく品質良く所定速度に変換される。
【0020】
また、請求項の信号処理装置は、音声に背景音が混在した入力信号を、所定速度に速度変換して出力する信号処理装置において、前記入力信号から音声と背景音とを分離する音声/背景音分離部と、前記音声/背景音分離部により分離された音声の音響特徴量として、音声の基本周期を抽出する第1の音響特徴量抽出部と、前記音声/背景音分離部により分離された背景音の音響特徴量として、背景音の基本周期を抽出する第2の音響特徴量抽出部と、前記音声/背景音分離部により分離された音声の波形を、前記第1の音響特徴量抽出部により抽出された音声の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記音声の伸長を行い、または、前記ブロック単位の波形を間引くことで前記音声の短縮を行い、前記音声を前記所定速度に話速変換する話速変換部と、前記音声/背景音分離部により分離された背景音の波形を、前記第2の音響特徴量抽出部により抽出された背景音の基本周期を単位としたブロック毎に分割し、前記ブロック単位の波形を繰り返すことで前記背景音の伸長を行い、または、前記ブロック単位の波形を間引くことで前記背景音の短縮を行い、前記背景音を前記所定速度に速度変換する速度変換部と、前記話速変換部により話速変換された音声と、前記速度変換部により速度変換された背景音とを混合して出力する混合部と、を備え、さらに、加算部を備え、前記第2の音響特徴量抽出部が、周波数帯域分割フィルタバンク及び第2のスペクトル包絡ピーク検出部を備え、前記周波数帯域分割フィルタバンクが、前記音声/背景音分離部により分離された背景音を、フィルタバンクを用いて所定数の周波数帯域に分割し、前記第2のスペクトル包絡ピーク検出部が、前記周波数帯域分割フィルタバンクにより分割された周波数帯域毎に、前記音声/背景音分離部により分離された背景音における周波数のスペクトル包絡を求め、前記スペクトル包絡のピークを検出し、前記検出したピークにおける周波数の逆数を前記背景音の擬似基本周期として前記背景音の基本周期に代えて求め、前記速度変換部が、前記周波数帯域分割フィルタバンクにより分割された周波数帯域毎に、前記第2のスペクトル包絡ピーク検出部により求めた背景音の擬似基本周期に基づいて、前記音声/背景音分離部により分離された背景音を前記所定速度に速度変換し、前記加算部が、前記速度変換部により速度変換された、前記周波数帯域分割フィルタバンクにより分割された周波数帯域毎の背景音を加算し、前記混合部が、前記話速変換部により話速変換された音声と、前記加算部により加算された背景音とを混合して出力する、ことを特徴とする。
【0021】
請求項の信号処理装置によれば、請求項の信号処理装置と同様に、速度変換部において、背景音が、第2のスペクトル包絡ピーク検出部により求めた擬似基本周期に基づいて、音の高さは変わることなく品質良く所定速度に変換される。
【0022】
また、請求項の信号処理プログラムは、コンピュータを、請求項1または2に記載の信号処理装置として機能させることを特徴とする。
【発明の効果】
【0023】
以上のように、本発明によれば、入力音声に背景音が混在している場合であっても、音声及び背景音の両方を高品質に速度変換することが可能となる。
【図面の簡単な説明】
【0024】
図1】実施例1による信号処理装置の構成を示すブロック図である。
図2】実施例1において、話速変換された音声に混合する背景音の生成処理を示すフローチャートである。
図3】実施例2による信号処理装置の構成を示すブロック図である。
図4】実施例2において、話速変換された音声に混合する背景音の生成処理を示すフローチャートである。
【発明を実施するための形態】
【0025】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。以下に説明する第1の実施形態(実施例1)及び第2の実施形態(実施例2)は、入力信号から音声と背景音とを分離し、音声と背景音とを独立した手法にて、音声の話速変換を行うと共に背景音の速度変換を行い、話速変換した音声と速度変換した背景音とを同期させて混合することを特徴とする。これにより、音声だけでなく背景音も、高品質に速度変換することが可能となる。実施例1と実施例2とは、入力信号から分離した背景音に対する処理が異なる。実施例1は、背景音の周期性の強弱を判定し、その強弱に応じた手法で周期を求め、背景音の速度変換を行う。実施例2は、背景音を所定数の周波数帯域に分割し、周波数帯域毎に背景音の周期を求めて速度変換し、周波数帯域毎の速度変換後の背景音を加算する。
【0026】
〔実施例1〕
まず、実施例1について説明する。前述のとおり、実施例1は、入力信号から音声と背景音とを分離し、音声と背景音とを独立した手法にて、音声の話速変換を行うと共に背景音の速度変換を行い、両音を同期させて混合する場合に、分離した背景音に対し周期性の強弱を判定し、その強弱に応じた手法で周期を求め、背景音の速度変換を行う。
【0027】
図1は、実施例1による信号処理装置の構成を示すブロック図である。この信号処理装置1は、音声/背景音分離部11、基本周期抽出部12、話速変換部13、周期性判定部14、基本周期抽出部15、スペクトル包絡ピーク検出部16、速度変換部17、混合部18及びスイッチ19を備えている。信号処理装置1の入力信号は、ステレオの音声信号に背景音が混在した信号であり、サンプリング周波数が48kHzのPCM(Pulse Code Modulation)データとする。
【0028】
音声/背景音分離部11は、入力信号からモノラル信号の音声及びステレオ信号の背景音を分離する。具体的には、音声/背景音分離部11は、例えば適応フィルタを用いて、左右のチャンネルの音声信号から同相成分を抽出し、抽出した同相成分をモノラル信号の音声として基本周期抽出部12及話速変換部13に出力する。左右のチャンネルの音声信号から同相成分を抽出できるのは、一般に音声は左右のチャンネルの中央に定位するからである。
【0029】
また、音声/背景音分離部11は、入力信号(左右のチャンネルの入力信号)から同相成分である音声を減算して背景音を抽出し、ステレオ信号の背景音を周期性判定部14、速度変換部17及びスイッチ19に出力する。
【0030】
尚、音声/背景音分離部11において入力信号から音声及び背景音を分離する処理は既知であり、詳細については、例えば特開2009−25500号公報及び特開2013−50604号公報を参照されたい。
【0031】
基本周期抽出部12は、音声/背景音分離部11からモノラル信号の音声を入力し、音声の基本周期Tp[ms]を抽出する。具体的には、基本周期抽出部12は、有声音区間全体の各部分毎に複数のピッチ候補を求め、最も適しているピッチ候補を判定し、判定したピッチ候補を音声の基本周期として抽出する。そして、基本周期抽出部12は、抽出した音声の基本周期を話速変換部13に出力する。
【0032】
尚、基本周期抽出部12において音声の基本周期を抽出する処理は既知であり、詳細については特許文献2を参照されたい。
【0033】
話速変換部13は、音声/背景音分離部11からモノラル信号の音声を入力すると共に、基本周期抽出部12から音声の基本周期Tpを入力し、音声を伸長または短縮することで話速を変換する。具体的には、話速変換部13は、入力した音声の波形を、基本周期Tpを単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、声の高さを変えずに所定速度に話速を変換する。そして、話速変換部13は、話速変換後の音声を混合部18に出力する。
【0034】
また、話速変換部13は、話速変換後の音声における入力信号上の時間位置(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)を、繰り返し/間引き時刻情報(同期情報)として速度変換部17に出力する。
【0035】
この繰り返し/間引き時刻情報は、速度変換部17において背景音を速度変換する際に、背景音を音声に同期させるために用いられ、例えば、波形の繰り返しまたは間引きを行う開始時点の時刻、及び波形の繰り返し時間長または間引きの時間長により構成される。
【0036】
音声/背景音分離部11による分離処理のように、音声と背景音とを分離する一般的な処理では、両者を完全に分離することは困難なことが多い。音声/背景音分離部11により分離された背景音には、少なからず音声が残存しており、分離された音声には、少なからず背景音が残存している。そして、例えば、入力信号をゆっくりした速度に変換する場合、話速変換部13にて引き伸ばした音声と、後述する速度変換部17にて引き伸ばした背景音との間で、音声及び背景音のそれぞれにおけるブロック単位の波形(単位信号)の時間区間(例えば、10ms程度の基本周期に相当する短い時間区間)において、単位信号の時刻位置が相対的に前後にずれる現象が発生し得る。
【0037】
この場合、後述する混合部18にて混合される出力信号は、音量に差はあるものの、同じ時間位置であるべき単位信号が時間的に僅かにずれて重なり合うことになり、エコー感を引き起こす可能性がある。特に、例えば特許第3220043号公報に記載された手法のように、音声のある区間の伸長量は多くし、ある区間の伸長量は少なくし、ポーズ区間は短縮するという適応的な話速変換を行う場合、背景音側の時間伸縮も、音声側の伸縮の時刻情報に正確に同期して行わないと、時刻のズレが生じ易くなる。そこで、音声と背景音とを同期させるために、繰り返しの時刻及び繰り返しの時間長、または間引きの時刻及び間引きの時間長の情報が用いられる。
【0038】
尚、話速変換部13において、基本周期Tpを単位として音声の伸長または短縮を行うことで話速を変換する処理は既知であり、詳細については特許文献1を参照されたい。
【0039】
周期性判定部14は、音声/背景音分離部11からステレオ信号の背景音を入力し、左右のチャンネルの背景音を混合(ミキシング)し、自己相関分析等を用いて、混合した背景音の波形について周期性の強さを求め、閾値を用いて「周期性が強い」または「周期性が弱い」を判定する。自己相関分析は、nを入力信号の冒頭から例えば10ms経過する毎に1増えるフレーム番号とした場合に、左のチャンネルの背景音のnフレーム目の時系列をSL(n)=xLn(i),xLn(i+1),・・・,xLn(i+k)、右のチャンネルの背景音のnフレーム目の時系列をSR(n)=xRn(i),xRn(i+1),・・・,xRn(i+k)としたとき、混合した信号SL+R(n)=(SL(n)+SR(n))/2=(xLn(i)+xRn(i))/2,(xLn(i+1)+xRn(i+1))/2,・・・,(xLn(i+k)+xRn(i+k))/2=xn(i),xn(i+1),・・・,xn(i+k)に対して行われる。
【0040】
例えば、周期性判定部14は、40msに相当するLn点の幅をもつハミング窓を用いて、混合信号SL+R(n)から波形xn(0)〜xn(Ln−1)を切り出し、以下の式(1)に示す自己相関関数Rn(k)を求める。
【数1】
【0041】
そして、周期性判定部14は、k>0の条件において、自己相関関数Rn(k)の最大値RnMAX(k)を求め、nフレーム目の周期性の強さUn=RnMAX(k)/R(0)を求める。周期性判定部14は、nフレーム目の周期性の強さUnと、予め設定された閾値(例えば0.5)とを比較する。
【0042】
周期性判定部14は、周期性の強さUnが閾値以上である場合、「周期性が強い」と判定し、それを示す制御信号をスイッチ19に出力する。一方、周期性判定部14は、周期性の強さUnが閾値よりも小さい場合、「周期性が弱い」と判定し、それを示す制御信号をスイッチ19に出力する。
【0043】
本実施例では、音声/背景音分離部11が入力信号から左右の同相成分を減算することにより背景音を求めているので、背景音としては、左右の異相成分が求まり易くなっている。したがって、周期性判定部14により、ほとんどのフレームで「周期性が弱い」と判定される。尚、音声/背景音分離部11において、特許文献4に記載されたスペクトルサブトラクション法を用いることで、左右のチャンネルの背景音には同相成分も含まれるようになるので、周期性判定部14により「周期性が強い」と判定されるフレームも出てくる。
【0044】
尚、周期性判定部14は、例えばフレームを移動する単位である10ms毎に、自己相関関数Rn(k)を求めて周期性の強さUnを求め、閾値判定により「周期性が強い」または「周期性が弱い」を示す制御信号をスイッチ19に出力するようにした。これに対し、周期性判定部14は、「周期性が強い」または「周期性が弱い」を示す同じ制御信号を、所定期間(例えば数フレームから十数フレームの期間)継続して出力するようにしてもよい。これにより、周期性判定部14から10ms毎に異なる制御信号が出力されないから、後述する基本周期抽出部15により抽出される背景音の基本周期または後述するスペクトル包絡ピーク検出部16により求められる背景音の擬似基本周期は大きく変化することがなく、後述する速度変換部17において、人間の感性に合った安定した背景音の速度変換を実現することができる。
【0045】
スイッチ19は、音声/背景音分離部11からステレオ信号の背景音を入力すると共に、周期性判定部14から制御信号を入力し、制御信号が「周期性が強い」を示している場合、入力したステレオ信号の背景音を基本周期抽出部15に出力する。一方、スイッチ19は、制御信号が「周期性が弱い」を示している場合、入力したステレオ信号の背景音をスペクトル包絡ピーク検出部16に出力する。
【0046】
基本周期抽出部15は、背景音の「周期性が強い」場合に、音声/背景音分離部11からスイッチ19を介してステレオ信号の背景音を入力し、左右のチャンネルの背景音を混合(ミキシング)し、基本周期抽出部12と同様の手法にて、背景音の基本周期Tq[ms]を抽出する。そして、基本周期抽出部15は、背景音の基本周期を速度変換部17に出力する。
【0047】
スペクトル包絡ピーク検出部16は、背景音の「周期性が弱い」場合に、音声/背景音分離部11からスイッチ19を介してステレオ信号の背景音を入力し、周波数のスペクトル包絡を求め、スペクトル包絡のピークを検出する。そして、スペクトル包絡ピーク検出部16は、そのピーク位置の周波数の逆数(背景音の擬似基本周期Tr)を求めて速度変換部17に出力する。
【0048】
例えば、スペクトル包絡ピーク検出部16は、ステレオ信号の背景音を入力し、周期性判定部14と同様に左右のチャンネルの背景音を混合(ミキシング)し、例えば30msに相当するハミング窓を用いて、背景音の混合信号から波形を切り出す。そして、スペクトル包絡ピーク検出部16は、切り出した波形に対し、線形予測分析を行っていわゆるLPC(Linear Predictive Coding:線形予測符号)包絡を求める。または、FFT(Fast Fourier Transform:高速フーリエ変換)を行ってFFTケプストラム包絡を求める。
【0049】
そして、スペクトル包絡ピーク検出部16は、LPC包絡またはFFTケプストラム包絡がピークとなる周波数fp[Hz]を求め、その逆数Tr=1000/fp[ms]を速度変換部17にて用いる擬似基本周期とする。
【0050】
尚、スペクトル包絡ピーク検出部16は、これらのスペクトル包絡が単調減少または単調増加するため、そのピークを求めることができない場合、所定の擬似基本周期(例えばTr=10ms)を設定する。これは、一般に音声の基本周期が10ms前後であることから、背景音の擬似基本周期を10msとすることで、背景音を音声に同期させて速度変換する後述する速度変換部17における処理を容易にし、速度変換後の音声と背景音との間のずれが生じ難くなるようにするためである。
【0051】
速度変換部17は、音声/背景音分離部11からステレオ信号の背景音を入力すると共に、基本周期抽出部15から背景音の基本周期Tqまたはスペクトル包絡ピーク検出部16からピーク周波数の逆数(背景音の擬似基本周期Tr)を入力し、さらに、話速変換部13から、話速変換後の音声における入力信号上の時間位置(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)で定義される繰り返し/間引き時刻情報を入力する。そして、速度変換部17は、繰り返し/間引き時刻情報を用いて、ステレオ信号の背景音が音声に同期するように、背景音の左右の信号をそれぞれ伸長または短縮することで、背景音の速度を所定速度に変換する。
【0052】
具体的には、速度変換部17は、話速変換部13と同様に、入力した背景音の波形を、基本周期Tqまたは擬似基本周期Trを単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、音の高さを変えないで速度変換する。
【0053】
この場合、速度変換部17は、ブロック単位の波形を繰り返したり間引いたりする操作を、ステレオ信号の左右に対して独立に行うが、話速変換部13から入力した繰り返し/間引き時刻情報に合わせて、それぞれの波形の時間位置が音声と同じ位置になるように速度変換を行う。例えば、音声が時刻Aの時間位置から繰り返しまたは間引き処理が行われた場合、背景音もステレオ信号の左右に対して同じ時刻Aの時間位置または時刻Aに近い時間位置から繰り返しまたは間引き処理が行われるように、繰り返し/間引き時刻情報が用いられる。そして、速度変換部17は、速度変換後の背景音を混合部18に出力する。
【0054】
混合部18は、話速変換部13から話速変換されたモノラル信号の音声を入力すると共に、速度変換部17から速度変換されたステレオ信号の背景音を入力し、モノラル信号の音声を、ステレオ信号である背景音の左右の信号にそれぞれ加える混合(ミキシング)を行い、混合したステレオ信号を出力信号として出力する。すなわち、混合部18は、当該信号処理装置1の入力信号における音声及び背景音のミキシングバランスと同じになるように、話速変換部13からのモノラル信号の音声と、速度変換部17からのステレオ信号の背景音の各レベルの比率を適宜調整して混合する。例えば、話速変換部13からのモノラル信号の音声レベルに0.5を掛けて左右の各背景音と混合する。但し、音声/背景音分離部11の方式の違いにより、最適な混合比率は異なる。
【0055】
尚、基本周期抽出部12により、音声の音響特徴量を抽出する第1の音響特徴量抽出部が構成され、周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16により、背景音の音響特徴量を抽出する第2の音響特徴量抽出部が構成される。この場合、第1の音響特徴量抽出部は、音声の基本周波数を抽出する方法として、音声のフーリエ変換解析等のような、発話の音響的な特徴を表現した特徴量を抽出するようにしてもよい。第2の音響特徴量抽出部も同様に、背景音の基本周波数等を抽出する方法として、背景音の音響的な特徴を表現した特徴量を抽出するようにしてもよい。この場合、話速変換部13及び速度変換部17は、音響特徴量に基づいて速度変換を行う。後述する実施例2についても同様である。
【0056】
(背景音の処理)
次に、話速変換された音声に混合する背景音の生成処理について説明する。図2は、背景音の生成処理を示すフローチャートである。図2に示す処理は、図1に示した周期性判定部14、スイッチ19、基本周期抽出部15、スペクトル包絡ピーク検出部16及び速度変換部17により行われる処理である。
【0057】
信号処理装置1は、入力信号から分離したステレオ信号の背景音の左右を混合し、モノラルとなった背景音信号から所定時間幅の波形を切り出し(ステップS201)、切り出した波形から自己相関関数Rn(k)を算出する(ステップS202)。そして、信号処理装置1は、自己相関関数Rn(k)の最大値を求め、所定時間幅のフレーム毎に、周期性の強さUnを算出する(ステップS203)。これにより、フレーム毎に、背景音における周期性の強弱の指標となる周期性の強さUnが求められる。
【0058】
信号処理装置1は、周期性の強さUnと予め設定された閾値とを比較し(ステップS204)、周期性の強さUnが閾値以上であると判定した場合(ステップS204:Y)、「周期性が強い」と判定する(ステップS205)。一方、信号処理装置1は、周期性の強さUnが閾値よりも小さいと判定した場合(ステップS204:N)、「周期性が弱い」と判定する(ステップS207)。これにより、フレーム毎に、背景音について周期性の強弱が判定される。
【0059】
前述のステップS201〜ステップS205及びステップS207の処理は、周期性判定部14により行われる。
【0060】
信号処理装置1は、背景音の「周期性が強い」と判定した場合、入力信号から分離したステレオ信号の背景音の左右を混合し、音声の基本周期を抽出する手法と同じ手法にて、背景音の基本周期Tq[ms]を抽出する(ステップS206)。これにより、背景音の「周期性が強い」場合の基本周期が抽出される。ステップS206の処理は、スイッチ19及び基本周期抽出部15により行われる。
【0061】
信号処理装置1は、背景音の「周期性が弱い」と判定した場合、入力信号から分離したステレオ信号の背景音の左右を混合し、周波数のスペクトル包絡を求め(ステップS208)、そのピーク位置の周波数の逆数(擬似基本周期Tr)を求める(ステップS209)。尚、スペクトル包絡が単調減少または単調増加するため、ピーク位置が不明の場合には、所定の擬似基本周期(例えばTr=10ms)を設定する。これにより、背景音の「周期性が弱い」場合の擬似基本周期が求められる。ステップS208及びステップS209の処理は、スイッチ19及びスペクトル包絡ピーク検出部16により行われる。
【0062】
信号処理装置1は、入力信号から分離したステレオ信号の背景音を、ステップS206にて抽出した背景音の基本周期TqまたはステップS209にて求めた背景音の擬似基本周期Trを単位としたブロック毎に左右共に同じ時刻(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)を区切りとして分割し、話速変換時の繰り返し/間引き情報を用いて、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、背景音の速度を変換する(ステップS210)。ステップS210の処理は、速度変換部17により行われる。
【0063】
これにより、音声に同期した速度変換後の背景音が生成され、速度変換後のステレオ信号の背景音は、話速変換された音声と混合される。
【0064】
以上のように、実施例1の信号処理装置1によれば、周期性判定部14は、入力信号から分離された背景音から、所定時間幅の波形を切り出して自己相関関数Rn(k)を算出し、所定時間幅のフレーム毎に、自己相関関数Rn(k)の最大値を用いて周期性の強さUnを算出し、閾値を用いて「周期性が強い」または「周期性が弱い」を判定するようにした。そして、基本周期抽出部15は、背景音の「周期性が強い」場合に、音声の基本周期を抽出する既存の手法と同じ手法にて、入力信号から分離された背景音の基本周期Tqを抽出し、スペクトル包絡ピーク検出部16は、背景音の「周期性が弱い」場合に、背景音から周波数のスペクトル包絡を求め、そのピーク位置の周波数の逆数(擬似基本周期Tr)を求めるようにした。そして、速度変換部17は、入力信号から分離した背景音の波形を、基本周期抽出部15により抽出された背景音の基本周期Tqまたはスペクトル包絡ピーク検出部16により求めた背景音の擬似基本周期Trを単位としたブロック毎に分割し、話速変換後の音声における入力信号上の時間位置(信号処理装置1が音声信号の入力を開始してから一意に決まる経過時間)を示す繰り返し/間引き情報を用いて、左右で同じ時刻の区切り位置をもつブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、背景音の速度を変換するようにした。このようにして速度変換された背景音は、話速変換された音声に同期することとなり、話速変換された音声と混合される。
【0065】
従来は、背景音も音声の基本周期を用いて速度変換することがあり、音声は高品質に話速変換されても、背景音は必ずしも高品質に速度変換されないことが多かった。実施例1では、音声と背景音とを分離し、音声と背景音とを独立した手法にて話速変換及び速度変換し、話速変換した音声と速度変換した背景音とを同期させて混合する。これにより、入力音声に背景音が混在している場合であっても、音声及び背景音の両方を自然かつ高品質に話速変換及び速度変換することが可能となる。
【0066】
〔実施例2〕
次に、実施例2について説明する。前述のとおり、実施例2は、入力信号から音声と背景音とを分離し、音声と背景音とを独立した手法にて、音声の話速変換を行うと共に背景音の速度変換を行い、両音を同期させて混合する場合に、分離した背景音を所定数の周波数帯域に分割し、周波数帯域毎に背景音の周期を求めて速度変換し、周波数帯域毎の速度変換後の背景音を加算する。
【0067】
図3は、実施例2による信号処理装置の構成を示すブロック図である。この信号処理装置2は、音声/背景音分離部21、基本周期抽出部22、話速変換部23、周波数帯域分割フィルタバンク24、スペクトル包絡ピーク検出部25−1〜25−10、速度変換部26−1〜26−10、加算部27及び混合部28を備えている。信号処理装置2の入力信号は、信号処理装置1と同様に、ステレオの音声信号に背景音が混在した信号であり、サンプリング周波数が48kHzのPCMデータとする。
【0068】
ここで、基本周期抽出部22により、音声の音響特徴量を抽出する第1の音響特徴量抽出部が構成され、周波数帯域分割フィルタバンク24及びスペクトル包絡ピーク検出部25−1〜25−10により、背景音の音響特徴量を抽出する第2の音響特徴量抽出部が構成される。
【0069】
音声/背景音分離部21、基本周期抽出部22、話速変換部23及び混合部28は、図1に示した音声/背景音分離部11、基本周期抽出部12、話速変換部13及び混合部18にそれぞれ相当し同じ処理を行うから、ここでは説明を省略する。
【0070】
話速変換部23は、話速変換後の音声における入力信号上の時間位置(信号処理装置2が音声信号の入力を開始してから一意に決まる経過時間)である繰り返し/間引き時刻情報を、速度変換部26−1〜26−10にそれぞれ出力する。
【0071】
周波数帯域分割フィルタバンク24は、音声/背景音分離部21からステレオ信号の背景音を入力し、1オクターブ程度の周波数帯域幅をもつフィルタバンクを用いて、入力した背景音を、所定数の周波数帯域に分割する。例えば、(1)25Hz〜50Hz、(2)50Hz〜100Hz、(3)100Hz〜200Hz、(4)200Hz〜400Hz、(5)400Hz〜800Hz、(6)800Hz〜1.6kHz、(7)1.6kHz〜3.2kHz、(8)3.2kHz〜6.4kHz、(9)6.4kHz〜12.8kHz、(10)12.8kHz〜24kHzのように、10の周波数帯域に分割する。そして、周波数帯域分割フィルタバンク24は、分割した(1)〜(10)の周波数帯域における背景音の信号である帯域制限ステレオ信号を、順番にスペクトル包絡ピーク検出部25−1〜25−10及び速度変換部26−1〜26−10にそれぞれ出力する。
【0072】
スペクトル包絡ピーク検出部25−1〜25−10(以下、総称してスペクトル包絡ピーク検出部25という。)は、周波数帯域分割フィルタバンク24から対応する(1)〜(10)の周波数帯域における背景音の信号を入力する。そして、スペクトル包絡ピーク検出部25は、入力した対応する(1)〜(10)の周波数帯域内において、図1に示したスペクトル包絡ピーク検出部16と同様の処理を行う。
【0073】
具体的には、スペクトル包絡ピーク検出部25は、左右のチャンネルの背景音を混合(ミキシング)し、例えば30msに相当するハミング窓を用いて、背景音の混合信号から波形を切り出す。そして、スペクトル包絡ピーク検出部25は、切り出した波形に対し、線形予測分析を行っていわゆるLPC包絡、またはFFTを行ってFFTケプストラム包絡を求める。そして、スペクトル包絡ピーク検出部25は、LPC包絡またはFFTケプストラム包絡がピークとなる周波数fp(1)〜fp(10)[Hz]をそれぞれ求め、その逆数Tr(1)〜Tr(10)=1000/fp(1)〜1000/fp(10)[ms]を速度変換のための擬似基本周期とする。スペクトル包絡ピーク検出部25は、求めた擬似基本周期Tr(1)〜Tr(10)を、対応する速度変換部26−1〜26−10にそれぞれ出力する。
【0074】
尚、スペクトル包絡ピーク検出部25は、スペクトル包絡が単調減少または単調増加するため、ピークを求めることができない場合、その周波数帯域の対数的な中心周波数の逆数を擬似基本周期として設定する。例えば、前記(3)の周波数帯域100Hz〜200Hzでは、対数的な中心周波数141.4Hzの逆数7.071msを擬似基本周期Tr(3)として設定する。これは、例えば音楽のような背景音の場合、周波数成分のエネルギーは周波数が高いほど小さくなり、エネルギーの中心となる中心周波数は、その周波数帯域の中央よりも低い側に位置するから、対数的な中心周波数を用いることで、すなわち周波数帯域の下限値及び上限値の相乗平均を用いることで、エネルギーの中心となる中心周波数に対応した周期を適切に設定できるからである。
【0075】
速度変換部26−1〜26−10(以下、総称して速度変換部26という。)は、周波数帯域分割フィルタバンク24から対応するステレオ信号の背景音((1)〜(10)の周波数帯域毎に分割されたステレオ信号の背景音)を入力すると共に、スペクトル包絡ピーク検出部25から対応するピーク周波数の逆数(背景音の擬似基本周期Tr(1)〜Tr(10))を入力し、さらに、話速変換部23から、話速変換後の音声における入力信号上の時間位置(信号処理装置2が音声信号の入力を開始してから一意に決まる経過時間)である繰り返し/間引き時刻情報を入力する。そして、速度変換部26は、繰り返し/間引き時刻情報を用いて、ステレオ信号の背景音が音声に同期するように、背景音のステレオ信号の左右に対して同じ時刻の信号をそれぞれ伸長または短縮することで、背景音の速度を変換する。
【0076】
具体的には、速度変換部26は、話速変換部23と同様に、対応する背景音の波形を、対応する背景音の擬似基本周期Tr(1)〜Tr(10)を単位としたブロック毎に分割し、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、音の高さを変えることなく所定速度に変換する。
【0077】
この場合、速度変換部26は、ブロック単位の波形を繰り返したり間引いたりする操作を、ステレオ信号の左右に対して独立に行うが、話速変換部23から入力した繰り返し/間引き時刻情報に合わせて、それぞれの波形の時間位置が音声と同じ位置になるように速度変換を行う。そして、速度変換部26は、速度変換後の周波数帯域毎の背景音を加算部27に出力する。
【0078】
加算部27は、速度変換部26から速度変換後の周波数帯域毎の背景音を入力し、これらの背景音を加算し、速度変換した背景音として混合部28に出力する。
【0079】
混合部28は、話速変換部23から話速変換されたモノラル信号の音声を入力すると共に、加算部27から速度変換され加算されたステレオ信号の背景音を入力し、モノラル信号の音声を、ステレオ信号である背景音の左右の信号にそれぞれ加える混合(ミキシング)を行い、混合したステレオ信号を出力信号として出力する。すなわち、混合部28は、当該信号処理装置2の入力信号における音声及び背景音のミキシングバランスと同じになるように、話速変換部23からのモノラル信号の音声と、加算部27からのステレオ信号の背景音の各レベルの比率を適宜調整して混合する。例えば、話速変換部23からのモノラル信号の音声レベルに0.5を掛けて左右の各背景音と混合する。但し、音声/背景音分離部21の方式の違いにより、最適な混合比率は異なる。
【0080】
(背景音の処理)
次に、話速変換された音声に混合する背景音の生成処理について説明する。図4は、背景音の生成処理を示すフローチャートである。図4に示す処理は、図3に示した周波数帯域分割フィルタバンク24、スペクトル包絡ピーク検出部25、速度変換部26及び加算部27により行われる処理である。
【0081】
信号処理装置2は、入力信号から分離したステレオ信号の背景音を、フィルタバンクを用いて所定数の周波数帯域に分割する(ステップS401)。これにより、周波数帯域毎のステレオ信号の背景音が生成される。ステップS401の処理は、周波数帯域分割フィルタバンク24により行われる。
【0082】
信号処理装置2は、周波数帯域毎に、左右のチャンネルの背景音を混合して周波数のスペクトル包絡を求め(ステップS402)、そのピーク位置の周波数の逆数(擬似基本周期Tr)を求める(ステップS403)。尚、ピーク位置が不明の場合には、分割した周波数帯域毎に所定の擬似基本周期を設定する。これにより、周波数帯域毎の背景音について、その擬似基本周期が求められる。ステップS402及びステップS403の処理は、スペクトル包絡ピーク検出部25により行われる。
【0083】
信号処理装置2は、周波数帯域毎のステレオ信号の背景音を、ステップ403にて求めた背景音の擬似基本周期Trを単位として左右の信号に対して同じ時刻のブロック毎に分割し、話速変換時の繰り返し/間引き情報を用いて、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、周波数帯域毎に、背景音の速度を変換する(ステップS404)。ステップS404の処理は、速度変換部26により行われる。
【0084】
信号処理装置2は、ステップS404にて速度変換した周波数帯域毎の背景音を加算し、速度変換した背景音として混合部28に出力する(ステップS405)。ステップS405の処理は、加算部27により行われる。
【0085】
これにより、音声に同期した速度変換後の背景音が生成され、速度変換後のステレオ信号の背景音は、話速変換された音声と混合される。
【0086】
以上のように、実施例2の信号処理装置2によれば、周波数帯域分割フィルタバンク24は、入力信号から分離された背景音を、フィルタバンクを用いて所定数の周波数帯域に分割し、スペクトル包絡ピーク検出部25は、周波数帯域毎に、背景音における周波数のスペクトル包絡を求め、そのピーク位置の周波数の逆数(擬似基本周期Tr)を求めるようにした。そして、速度変換部26は、周波数帯域毎の背景音を、スペクトル包絡ピーク検出部25により求めた背景音の擬似基本周期Trを単位としたブロック毎に分割し、話速変換後の音声の繰り返し/間引き情報を用いて、そのブロック単位の波形を繰り返すことで伸長を行い、または、そのブロック単位の波形を間引くことで短縮を行い、背景音の速度を変換するようにした。そして、加算部27は、速度変換部26により速度変換された周波数帯域毎の背景音を加算するようにした。このようにして速度変換され加算された背景音は、話速変換された音声に同期することとなり、話速変換された音声と混合される。
【0087】
これにより、音声と背景音とを独立した手法にて話速変換及び速度変換し、話速変換した音声と速度変換した背景音とを同期させて混合するから、入力音声に背景音が混在している場合であっても、音声及び背景音の両方を自然かつ高品質に話速変換及び速度変換することが可能となる。
【0088】
以上、実施例1,2について説明したが、音声側から背景音側へ繰り返し/間引き情報を出力するのではなく、背景音側から音声側へ繰り返し/間引き情報を出力する変形例もある。この第1の変形例では、背景音側の速度変換部17,26が、速度変換後の背景音における入力信号上の時間位置(信号処理装置1,2が音声信号の入力を開始してから一意に決まる経過時間)を、繰り返し/間引き時刻情報(同期情報)として音声側の話速変換部13,23に出力する。これにより、話速変換部13,23が音声を話速変換する際に、背景音を基準にして、音声を背景音に同期させることができる。
【0089】
また、実施例2の構成に、実施例1の周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16を加えた変形例もある。この第2の変形例では、図3に示した信号処理装置2において、スペクトル包絡ピーク検出部25の代わりに、図1に示した実施例1における周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16を備える。第2の変形例による信号処理装置2は、周波数帯域分割フィルタバンク24により周波数帯域毎に分割された背景音に対し、周期性判定部14、基本周期抽出部15及びスペクトル包絡ピーク検出部16の処理をそれぞれ行い、速度変換部26において、基本周期抽出部15により周波数帯域毎に抽出された背景音の基本周期Tq、またはスペクトル包絡ピーク検出部16により周波数帯域毎に求めた背景音の擬似基本周期Trに基づいて、その周波数帯域毎に背景音の速度変換を行う。
【0090】
尚、実施例1,2の信号処理装置1,2のハードウェア構成としては、通常のコンピュータを使用することができる。信号処理装置1,2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。信号処理装置1に備えた音声/背景音分離部11、基本周期抽出部12、話速変換部13、周期性判定部14、基本周期抽出部15、スペクトル包絡ピーク検出部16、速度変換部17、混合部18及びスイッチ19の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、信号処理装置2に備えた音声/背景音分離部21、基本周期抽出部22、話速変換部23、周波数帯域分割フィルタバンク24、スペクトル包絡ピーク検出部25、速度変換部26、加算部27及び混合部28の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。第1及び第2の変形例についても同様である。これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【0091】
以上、実施例1,2を挙げて本発明を説明したが、本発明は前記実施例1,2に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、前記実施例2では、周波数帯域の数を10として説明したが、本発明はこの数に限定されるものではない。
【0092】
また、本発明は、例えば、テレビまたはラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダー等に音声を一度記録した後に、ハードディスクレコーダー等に記録した音声をゆっくりまたは速く視聴する場合に適用がある。また、視覚障害者から音声を効率的に聴取したいという要望を受けて、視覚障害者用の録音図書等を高速に再生して聞く場合にも適用がある。また、ICレコーダー等に記録した会議の議事録等を書き起こす際に、好みの速さで再生する場合にも適用がある。さらに、語学学習または発声訓練システムにおいても、その教材の作成時に利用したり、学習時に学習者の上達度に合わせて音声の話速を変換して学習者に聞かせたりする場合にも適用がある。
【符号の説明】
【0093】
1,2 信号処理装置
11,21 音声/背景音分離部
12,15,22 基本周期抽出部
13,23 話速変換部
14 周期性判定部
16,25 スペクトル包絡ピーク検出部
17,26 速度変換部
18,28 混合部
19 スイッチ
24 周波数帯域分割フィルタバンク
27 加算部
図1
図2
図3
図4