【文献】
坂野 秀樹 Hideki BANNO,時間領域平滑化群遅延による位相制御を用いた声質制御方式 Speech Manipulation Method Using Phase Manipulation Based on Time-Domain Smoothed Group Delay,電子情報通信学会論文誌 (J83−D−II) 第11号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS D-II,日本,社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS,2000年11月,p.2276-2282
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1の技術では、音声信号のスペクトルの各帯域成分を周波数領域にて移動させることで基本周波数が変換されるから、各帯域成分内に調波成分と他の音響成分(以下「周辺成分」という)とが存在する場合に、周波数と位相との関係を調波成分および周辺成分の双方について適切に維持した自然な音声を生成することは困難である。調波成分と周辺成分との各々について相異なる方法で個別に位相を調整すれば自然な音声を生成することも可能であるが、例えば濁声や嗄声等の特徴的な音声では周辺成分の時間的な変動が速くて大きいという傾向があるから、周辺成分について調波成分とは個別に位相を適切な数値に調整することは実際には困難である。以上の事情を考慮して、本発明は、声質変換で自然な音声を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の音声処理装置は、目標声質の音声を示す第1音声信号(例えば目標音声信号QB)の基本周波数(例えば基本周波数PS)を、目標声質とは相違する初期声質の音声を示す第2音声信号(例えば音声信号VX)の基本周波数(例えば基本周波数PV)に時間領域で調整する調整処理手段と、調整処理手段による調整後の第1音声信号のスペクトル(例えばスペクトルS[k])を調波成分毎に区分した各調波帯域成分(例えば調波帯域成分H[i])を第2音声信号の基本周波数に対応する各調波周波数(例えば調波周波数fi)に配置するとともに各調波帯域成分の包絡線および位相を第2音声信号のスペクトルの包絡線および位相に応じて調整したスペクトル(例えばスペクトルY[k])を順次に生成する声質変換手段とを具備する。以上の構成では、声質変換手段による声質変換前に第1音声信号の基本周波数が第2音声信号の基本周波数に時間領域で調整されるから、各調波帯域成分内に調波成分と他の周辺成分とが存在する場合でも、周波数と位相との関係が調波成分および周辺成分の双方について適切に維持され、聴感的に自然な音声を生成できるという利点がある。
【0007】
本発明の好適な態様において、声質変換手段は、調整処理手段による調整後の第1音声信号のスペクトルの第i番目の調波帯域成分を、調整処理手段による調整前の第1音声信号のスペクトルの第i次の調波成分の近傍の各調波周波数に配置する。以上の構成によれば、第1音声信号の声質を充分に反映した音声を生成できるという利点がある。また、調整処理手段は、例えば、第1音声信号の基本周波数と第2音声信号の基本周波数とに応じた比率で第1音声信号を標本化することで基本周波数を調整する。
【0008】
本発明の好適な態様に係る音声処理装置は、特定の音素を目標声質で定常的に発声した音声を示す目標音声信号(例えば目標音声信号QA)の各区間を時間軸上で相互に連結することで第1音声信号を生成する継続処理手段を具備する。以上の構成によれば、目標音声信号の各区間の反復で第1音声信号が生成されるから、長時間にわたる第1音声信号を事前に記憶する構成と比較して、目標声質の音声信号の記憶に必要な記憶容量が削減されるという利点がある。
【0009】
本発明の好適な態様に係る音声処理装置は、第2音声信号のスペクトルと声質変換手段による処理後のスペクトルとを加重加算する混合処理手段を具備する。以上の構成によれば、加重値を適宜に選定することで声質を目標声質に近似させる度合を可変に制御できるという利点がある。
【0010】
本発明の好適な態様に係る音声処理装置は、利用者から指示された音高および音韻の音声を示す第2音声信号を目標声質の各音声素片を接続することで生成する音声合成手段を具備する。以上の態様では、音声合成手段が生成した第2音声信号の声質が変換されるから、特定の初期声質のみを利用可能な環境でも多様な声質の音声信号を生成できるという利点がある。
【0011】
前述の各態様に係る音声処理装置は、音声信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラム(ソフトウェア)との協働によっても実現される。本発明のプログラムは、目標声質の音声を示す第1音声信号の基本周波数を、目標声質とは相違する初期声質の音声を示す第2音声信号の基本周波数に時間領域で調整する調整処理と、調整処理後の第1音声信号のスペクトルを調波成分毎に区分した各調波帯域成分を第2音声信号の基本周波数に対応する各調波周波数に配置するとともに各調波帯域成分の包絡線および位相を第2音声信号のスペクトルの包絡線および位相に応じて調整したスペクトルを順次に生成する声質変換処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声処理装置と同様の作用および効果が実現される。本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
【発明を実施するための形態】
【0013】
図1は、本発明の好適な実施形態に係る音声処理装置100のブロック図である。以下に例示する実施形態の音声処理装置100は、任意の音高および音韻で発声された音声の波形を示す時間領域の音声信号VZを生成する信号処理装置(音声合成装置)であり、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。
【0014】
演算処理装置12は、記憶装置14に記憶されたプログラムPGMを実行することで、音声信号VZを生成するための複数の機能(音声合成部20,解析処理部22,変換処理部24,混合処理部26,波形生成部28)を実現する。記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。
【0015】
記憶装置14は、特定の声質(以下「初期声質」という)の音声から事前に採取された複数種の音声素片DPを記憶する。各音声素片DPは、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(ダイフォンやトライフォン)であり、周波数領域のスペクトルまたは時間領域の音声波形として表現される。
【0016】
また、記憶装置14は、初期声質とは相違する特定の声質(以下「目標声質」という)の音声を示す時間領域の目標音声信号QAを記憶する。目標音声信号QAは、例えば特定の音素(典型的には母音)を略一定の音高で定常的に発声した所定長の音声のサンプル系列である。典型的には目標声質と初期声質とは別個の発声者の声質であるが、ひとりの発声者の相異なる声質を目標声質および初期声質とすることも可能である。本実施形態の目標声質は、初期声質と比較して独特(non-modal)な声質である。具体的には、発声時の声帯の挙動が通常の発音とは相違する音声の声質が目標声質として好適である。例えば濁声(ダミ声)や嗄声(ハスキーボイス)や唸り声が目標声質として例示され得る。
【0017】
音声合成部20は、利用者が任意に指定した音高および音韻を初期声質で発声した音声の波形を示す時間領域の音声信号VXを生成する。本実施形態の音声合成部20は、記憶装置14に記憶された各音声素片DPを利用した素片接続型の音声合成処理で音声信号VXを生成する。すなわち、音声合成部20は、利用者が指定した音韻(発音文字)に対応する音声素片を順次に記憶装置14から選択して時間軸上で相互に連結し、利用者が指定した音高に調整することで音声信号VXを生成する。なお、音声信号VXの生成には公知の技術が任意に採用され得る。
【0018】
解析処理部22は、音声合成部20が生成した音声信号VXのスペクトル(複素スペクトル)X[k]を時間軸上の単位区間(フレーム)毎に順次に生成するとともに、音声信号VXの基本周波数(ピッチ)PVを単位区間毎に順次に特定する。記号kは、周波数軸上に離散的に設定された複数の周波数(周波数ビン)のうちの任意の1個を意味する。スペクトルX[k]の算定には短時間フーリエ変換等の公知の周波数分析が任意に採用され、基本周波数PVの特定には公知のピッチ検出技術が任意に採用される。なお、音声合成部20による音声合成に適用される音高(利用者が時系列に指定する音高)から各単位区間の基本周波数PVを特定することも可能である。
【0019】
変換処理部24は、音声合成部20が生成した音声信号VXの音高および音韻を維持したまま声質を初期声質から目標声質に変換する。すなわち、変換処理部24は、音声信号VXの音高および音韻(音色)を目標声質で発声した音声の音声信号VYのスペクトル(複素スペクトル)Y[k]を単位区間毎に順次に生成する。変換処理部24が実行する具体的な処理の内容は後述する。
【0020】
混合処理部26は、音声合成部20が生成した音声信号VX(スペクトルX[k])と変換処理部24が生成した音声信号VY(スペクトルY[k])とを混合することで音声信号VZのスペクトルZ[k]を単位区間毎に順次に生成する。具体的には、混合処理部26は、以下の数式(1)で表現されるように、初期声質のスペクトルX[k]と目標声質のスペクトルY[k]とを加重加算することでスペクトルZ[k]を算定する。
【数1】
数式(1)の加重値wは0以上かつ1以下の範囲内で設定される。数式(1)から理解されるように、音声信号VZの声質を目標声質に近似させる度合は加重値wに応じて調整される。具体的には、加重値wが大きいほど音声信号VZの声質が目標声質に近付く。加重値wは、例えば利用者からの指示に応じて経時的に変動する。したがって、目標声質が音声信号VZの音声に反映される度合は刻々と変動する。
【0021】
波形生成部28は、混合処理部26が単位区間毎に生成するスペクトルZ[k]から時間領域の音声信号VZを生成する。具体的には、波形生成部28は、各単位区間のスペクトルZ[k]を短時間逆フーリエ変換で時間波形に変換し、相前後する時間波形を相互に重複させた状態で加算することで音声信号VZを生成する。波形生成部28が生成した音声信号VZは、例えば放音装置(図示略)に供給されて音波として放射される。
【0022】
変換処理部24の具体的な構成および動作を説明する。
図2は、変換処理部24のブロック図である。
図2に示すように、変換処理部24は、継続処理部32と調整処理部34と解析処理部36と声質変換部38とを含んで構成される。
【0023】
継続処理部32は、記憶装置14に記憶された目標声質の目標音声信号QAから適宜に選択された各区間を時間軸上で相互に連結することで、目標音声信号QAを上回る時間長にわたる目標声質の目標音声信号QBを生成する。具体的には、継続処理部32は、
図3に示すように、目標音声信号QAの始点と終点との間のランダムな位置に転回点pを順次に設定し、相前後する転回点pの間の区間の各サンプルを順方向(時間が経過する方向)または逆方向(時間が遡及する方向)に配列順に抽出すること(ランダムループ)で目標音声信号QBを生成する。以上のように所定長の目標音声信号QAを時間的に反復(ループ)することで目標音声信号QBが生成されるから、長時間にわたる目標音声信号QBを記憶装置14に保持する構成と比較して必要な記憶容量が削減されるという利点がある。
【0024】
図2の調整処理部34は、継続処理部32が生成した目標音声信号QBを音声信号VXの基本周波数PVに調整(ピッチ変換)することで時間領域の目標音声信号QCを生成する。具体的には、調整処理部34は、目標音声信号QBを時間領域で標本化(リサンプリング)することで、基本周波数PVを目標声質で発声した音声の目標音声信号QCを生成する。目標音声信号QCの音素は目標音声信号QBと同様である。調整処理部34による標本化の比率(サンプリングレート)Rは、解析処理部22が特定した音声信号VXの基本周波数PVと目標音声信号QBから特定される基本周波数PSとの相対比に設定される(R=PV/PS)。すなわち、基本周波数PVが基本周波数PSを上回る場合(R>1)には目標音声信号QBが収録時と比較して短い周期で標本化されて基本周波数が上昇し、基本周波数PVが基本周波数PSを下回る場合(R<1)には目標音声信号QBが収録時と比較して長い周期で標本化されて基本周波数が低下する。なお、基本周波数PSの特定には公知のピッチ検出技術が任意に採用される。また、基本周波数PSを目標音声信号QAとともに記憶装置14に事前に記憶して比率Rの算定に適用することも可能である。
【0025】
図2の解析処理部36は、調整処理部34による調整後の目標音声信号QCのスペクトル(複素スペクトル)S[k]を時間軸上の単位区間毎に順次に生成する。スペクトルS[k]の算定には
短時間フーリエ変換等の公知の周波数分析が任意に採用される。
【0026】
声質変換部38は、解析処理部22が音声信号VXから単位区間毎に算定した初期声質のスペクトルX[k]と解析処理部36が単位区間毎に生成した目標声質のスペクトルS[k]とを利用して、音声信号VXの音高および音韻を目標声質で発声した音声信号VYのスペクトルY[k]を単位区間毎に順次に生成する。具体的には、声質変換部38は、
図4に示すように、目標声質のスペクトルS[k]を、相異なる調波成分(基音成分または各倍音成分)に対応する複数の帯域に周波数軸上で区分し、各帯域の音響成分(以下「調波帯域成分」という)H[i]を前述の比率Rに応じて周波数軸上に再配列するとともに調波帯域成分H[i]毎に強度(振幅)および位相を初期声質のスペクトルX[k]に応じて調整することで各単位区間のスペクトルY[k]を生成する。
【0027】
図4には、調整処理部34による調整前の目標音声信号QBのスペクトルS0[k]が便宜的に図示されている。また、
図4の周波数fi(f=1,2,3,……)は、調整処理部34による調整後のスペクトルS[k]の第i次の調波成分に対応する周波数(以下「調波周波数」という)である。
図4から理解される通り、目標声質のスペクトルS[k]のうち第i番目の調波帯域成分H[i]は、調整処理部34による調整前(ピッチ変換前)のスペクトルS0[k]における第i次の調波成分(基音成分または倍音成分)の近傍の各調波周波数fiに配置(写像)される。
【0028】
例えば、音声信号VXの基本周波数PVが目標音声信号QA(QB)の基本周波数PSの半分である場合(R=PV/PS=0.5)、スペクトルS[k]の第1番目の調波帯域成分H[1]は、調整前の基本周波数PSの近傍に位置する調波周波数f1および調波周波数f2の各々に対して反復的に写像され、第2番目の調波帯域成分H[2]は、調整前の基本周波数PSの2倍の周波数(倍音周波数)の近傍に位置する調波周波数f3および調波周波数f4の各々に対して反復的に写像される。すなわち、音声信号VXの基本周波数PVが目標音声信号QAの基本周波数PSを下回る場合(R<1)には、
図4の例示のようにスペクトルS[k]の各調波帯域成分H[i]が反復して周波数軸上に配列され、基本周波数PVが基本周波数PSを上回る場合(R>1)には、スペクトルS[k]の複数の調波帯域成分H[i]が適宜に間引かれて周波数軸上に配列される。
【0029】
具体的には、本実施形態の声質変換部38は、以下の数式(2)の演算で調波周波数fi毎に帯域成分Yi[k]を算定する。記号jは虚数単位を意味する。
【数2】
【0030】
数式(2)の記号diは、目標声質のスペクトルS[k]における調波帯域成分H[i]を各調波周波数fiに写像するときの周波数軸上の移動量を意味し、以下の数式(3)で定義される。
【数3】
数式(3)の記号〈 〉は床関数を意味する。すなわち、関数〈x+0.5〉は、数値xを四捨五入した整数を算定する演算である。数式(3)の記号Lは、解析処理部36が実行する短時間フーリエ変換での単位区間の時間長(窓長)であり、記号FSは、目標音声信号QBの標本化周波数を意味する。
【0031】
数式(3)の記号miは、目標声質のスペクトルS[k]における各調波帯域成分H[i]と写像後の各調波周波数fiとの対応関係を規定する変数であり、以下の数式(4)で定義される。
【数4】
【0032】
数式(2)の記号aiは、調波帯域成分H[i]の強度を初期声質のスペクトルX[k]に応じて調整するための調整値(ゲイン)であり、例えば以下の数式(5)の演算で調波周波数fi毎に算定される。
【数5】
数式(5)の記号TVは、音声信号VXのスペクトルX[k]の強度(振幅またはパワー)の包絡線を意味し、記号TSは、目標声質のスペクトルS[k]の強度の包絡線を意味する。数式(2)および数式(5)から理解されるように、調波帯域成分H[i]の強度(調波成分に対応するピークの強度)は、音声信号VXのスペクトルX[k]の包絡線TVに沿う数値に調整される。
【0033】
数式(3)の記号φiは、調波帯域成分H[i]の位相を初期声質のスペクトルX[k]に合致させるための調整値(調波帯域成分H[i]の位相の回転角度)であり、例えば以下の数式(6)の演算で調波周波数fi毎に算定される。
【数6】
数式(6)の記号∠は偏角を意味する。数式(2)および数式(6)から理解されるように、調波帯域成分H[i]の位相は音声信号VXのスペクトルX[k]の位相に調整される。
【0034】
声質変換部38は、以上の演算で算定した複数の帯域成分Yi[k](Y1[k],Y2[k],……)を周波数軸上に配列することで音声信号VYのスペクトルY[k]を単位区間毎に生成する。以上の説明から理解されるように、声質変換部38が生成するスペクトルY[k]は、目標声質のスペクトルS[k]に近似する微細構造(すなわち、目標声質の発声時における声帯の挙動を反映した構造)を内包するとともに包絡線および位相が音声信号VXに近似する。すなわち、音声信号VXと同等の音高および音韻(音色)を目標声質で発声した音声のスペクトルY[k]が生成される。
【0035】
以上に例示した形態では、声質変換部38による声質変換前に目標音声信号QBの基本周波数PSが音声信号VXの基本周波数PVに調整されるから、各調波帯域成分H[i]内に調波成分と他の周辺成分(サブハーモニクス)とが存在する場合、周波数と位相との関係は調波成分および周辺成分の双方について適切に維持される。したがって、各調波帯域成分H[i]内に周辺成分が発生し易く各周辺成分が時間的に変動し易いという傾向がある濁声や嗄声等を目標声質とした場合でも、調波成分と周辺成分との各々について相異なる方法で個別に位相を調整する煩雑な処理を必要とすることなく、聴感的に自然な音声を生成できるという利点がある。第1実施形態では、目標音声信号QBの各調波帯域成分H[i]が調整処理部34による調整前のスペクトルS0[k]における第i次の調波成分の近傍の各調波周波数fiに写像されるから、目標音声信号QBの声質を忠実に反映した音声を生成することが可能である。
【0036】
<変形例>
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0037】
(1)前述の各形態では、目標音声信号QA内にランダムに設定された転回点pを端点とする各区間の連結で目標音声信号QBを生成したが、目標音声信号QAを伸長する方法は以上の例示に限定されない。例えば、目標音声信号QAの全区間を反復することで目標音声信号QBを生成することも可能である。具体的には、目標音声信号QAを始点から順方向に辿って終点に到達すると始点に戻る構成や、目標音声信号QAを順方向または逆方向に辿って端点(始点または終点)に到達すると逆方向に転回する構成が採用され得る。なお、充分な時間長の目標音声信号QBが記憶装置14に事前に記憶された構成では継続処理部32は省略され得る。
【0038】
(2)前述の形態では、初期声質のスペクトルX[k]と目標声質のスペクトルY[k]とを混合した音声信号VZを出力したが、目標声質のスペクトルY[k]から生成される音声信号VYを出力(例えば再生)することも可能である。すなわち、混合処理部26は省略され得る。
【0039】
(3)前述の形態では、音声合成部20が生成した音声信号VXの声質を変換したが、変換処理部24の処理対象は、音声合成で生成された音声信号VXに限定されない。例えば、各種の信号供給装置から供給される音声信号VXを処理対象とすることも可能である。信号供給装置としては、例えば、周囲の音声を収音して音声信号VXを生成する収音機器、可搬型または内蔵型の記録媒体から音声信号VXを取得する再生装置、または、通信網から音声信号VXを受信する通信装置が例示され得る。以上の説明から理解されるように音声合成部20は省略され得る。
【0040】
(4)変換処理部24による各処理の順序は適宜に変更され得る。例えば、調整処理部34が目標音声信号QBの基本周波数PSを低下させる場合(周波数領域で各調波成分の分布が密に変換される場合)に着目すると、調整処理部34による処理後に解析処理部36が所定の周波数分解能のもとでスペクトルS[k]を算定する前述の構成では、目標音声信号QBの微細構造がスペクトルS[k]に充分に反映されない(すなわち目標音声信号QBの周波数領域での微細構造が損なわれる)可能性がある。そこで、基本周波数PVが基本周波数PSを上回る場合(R>1)には、前述の各形態と同様に調整処理部34による処理後(基本周波数PSの上昇後)に解析処理部36がスペクトルS[k]を算定する一方、基本周波数PVが基本周波数PSを下回る場合(R<1)には、解析処理部36によるスペクトルS[k]の算定後に調整処理部34による処理(基本周波数PSの低下)を実行する構成が好適である。
【0041】
(5)相異なる基本周波数PSに対応する複数の目標音声信号QAを選択的に利用する構成も好適である。変換処理部24は、音声信号VXの複数の単位区間にわたる基本周波数PVの平均値Paveを算定し、複数の目標音声信号QAのうち平均値Paveに近似する基本周波数PSの目標音声信号QAを処理対象として選択する。以上の構成では、音声信号VXの基本周波数PVに近い基本周波数PSの目標音声信号QAが選択されるから、例えば1種類の目標音声信号QAを処理する場合と比較して聴感的に自然な音声を生成できるという利点がある。
【0042】
(6)前述の各形態では、音声素片DPや目標音声信号QAが音声処理装置100内の記憶装置14に記憶された構成を例示したが、音声処理装置100とは別個に設置された外部装置(例えばサーバ装置)に音声素片DPや目標音声信号QAを格納し、音声処理装置100が通信網(例えばインターネット)を介して外部装置から音声素片DPや目標音声信号QBを取得する構成も採用され得る。すなわち、音声素片DPや目標音声信号QAを記憶する要素は音声処理装置100に必須ではない。また、例えば端末装置から通信網を介して受信した音声信号VXから音声処理装置100が音声信号VZを生成して端末装置に返信する構成も好適である。