(58)【調査した分野】(Int.Cl.,DB名)
前記音源生成部が生成した前記音源信号、及び前記雑音音源生成部が生成した前記雑音音源信号それぞれに対し、帯域と強度を制御する複数の異なる帯域通過フィルタをさらに有し、
前記位相変調部は、
前記複数の異なる帯域通過フィルタが帯域と強度を制御した前記音源信号に対して前記パルス信号の位相を変調し、
前記加算部は、
前記位相変調部が前記パルス信号の位相を変調した前記音源信号に対し、前記複数の異なる帯域通過フィルタが帯域と強度を制御した前記雑音音源信号を加算する
請求項2に記載の音声合成装置。
【発明を実施するための形態】
【0007】
(音声合成装置)
以下に添付図面を参照して、実施形態にかかる音声合成装置について説明する。
図1は、実施形態にかかる音声合成装置1の構成を例示するブロック図である。なお、音声合成装置1は、例えば、汎用のコンピュータなどによって実現される。即ち、音声合成装置1は、例えばCPU、記憶装置、入出力装置及び通信インターフェイスなどを備えたコンピュータとしての機能を有する。
【0008】
図1に示すように、音声合成装置1は、入力部10、音源部2a、声道フィルタ部12、出力部14及び第1記憶部16を有する。入力部10、音源部2a、声道フィルタ部12及び出力部14は、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。第1記憶部16は、例えばHDD(Hard Disk Drive)又はメモリなどによって構成される。つまり、音声合成装置1は、音声合成プログラムを実行することによって機能を実現するように構成されてもよい。
【0009】
入力部10は、基本周波数又は基本周期の情報を表す系列(以降、基本周波数系列と記載する)と、スペクトルパラメータの系列と、電子透かし情報とを少なくとも含む特徴パラメータの系列を音源部2aに対して入力する。
【0010】
基本周波数系列は、例えば有声音のフレームにおける基本周波数(F
0)の値などと、無声音のフレームであることを示す値との系列とする。ここで、無声音のフレームは、例えば0に固定するなど予め定めた値の系列とする。また、有声音のフレームは、周期信号のフレーム毎のピッチ周期、又は対数F
0などの値を含むものであってもよい。
【0011】
本実施形態において、フレームとは、音声信号の区間を示すものとする。音声合成装置1が固定のフレームレートによって分析を行う場合、特徴パラメータは、例えば5ms毎の値となる。
【0012】
スペクトルパラメータは、音声のスペクトル情報をパラメータとして表現したものである。音声合成装置1が基本周波数系列と同様に固定のフレームレートによって分析を行う場合、スペクトルパラメータは、例えば5ms毎の区間に対応する値となる。また、スペクトルパラメータには、例えばケプストラム、メルケプストラム、線形予測係数、スペクトル包絡又はメルLSPなどの様々なパラメータが用いられる。
【0013】
音源部2aは、入力部10から入力された基本周波数系列、及び後述するパルス信号等を用いて、位相を変調した音源信号を生成(
図2等を用いて詳述)し、声道フィルタ部12に対して出力する。
【0014】
声道フィルタ部12は、音源部2aが位相を変調した音源信号に対し、例えば音源部2aを介して受入れたスペクトルパラメータ系列を用いて畳み込み演算を行って音声信号を生成する。即ち、声道フィルタ部12は、音声波形を生成する。
【0015】
出力部14は、声道フィルタ部12が生成した音声信号を出力する。例えば、出力部14は、音声信号(音声波形)を波形出力として表示したり、音声ファイル(例えばWAVEファイルなど)として出力する。
【0016】
第1記憶部16は、音声合成に用いる複数種類のパルス信号を記憶しており、音源部2aからのアクセスに応じていずれかのパルス信号を音源部2aに対して出力する。
【0017】
図2は、音源部2aの構成を例示するブロック図である。
図2に示すように、音源部2aは、例えば音源生成部20及び位相変調部22を有する。音源生成部20は、第1記憶部16から受入れたパルス信号に対し、入力部10から受入れた特徴パラメータの系列を用いて変形を行うことにより、有声音のフレームに対する(パルス)音源信号を生成する。即ち、音源生成部20は、パルス列(又はピッチマーク列)を作成することとなる。ピッチマーク列は、ピッチパルスを配置する時刻の列を表す情報である。
【0018】
例えば、音源生成部20は、基準時刻を定め、当該基準時刻におけるピッチ周期を基本周波数系列内の該当するフレームの値から算出する。また、音源生成部20は、基準時刻に対して、算出したピッチ周期の長さ分進めた時刻にマークを付与する処理を繰り返すことにより、ピッチマークを作成する。また、音源生成部20は、基本周波数の逆数を求めることによってピッチ周期を算出する。
【0019】
位相変調部22は、音源生成部20が生成した(パルス)音源信号を受入れて位相変調を行う。例えば、位相変調部22は、音源生成部20が生成した音源信号に対し、特徴パラメータに含まれる電子透かし情報を用いた位相変調ルールに基づいてピッチマーク毎にパルス信号の位相を変調する。即ち、位相変調部22は、パルス信号の位相を変調して位相変調パルス列を生成する。
【0020】
位相変調ルールは、時系列的な変調であってもよいし、周波数系列的な変調であってもよい。例えば、位相変調部22は、下式1又は下式2に示すように、周波数ビン毎に時系列で位相を変調させたり、時間系列及び周波数系列の少なくともいずれかをランダムに変調させる全域通過フィルタを用いて時間的に変調させる。
【0021】
例えば、位相変調部22が時系列で位相を変調させる場合、時系列毎(予め定められた時刻毎)に変化する位相変調ルール群を示すテーブルを電子透かし情報に用いられる鍵情報として、入力部10が位相変調部22に対してあらかじめ入力するように構成されてもよい。この場合、位相変調部22は、電子透かし情報に用いられた鍵情報に基づいて、予め定められた時刻毎に位相変調ルールを変更する。また、電子透かし情報を検出する電子透かし情報検出装置(後述)において、位相変調部22が位相変調ルールの変更に用いたテーブルを使用することにより、電子透かしの秘匿性を高めることが可能となる。
【0023】
なお、aは位相変調強度(傾き)、fは周波数ビン又はバンド、tは時間、ph(t,f)は時刻tにおける周波数fの位相を示す。位相変調強度aは、例えば、複数の周波数ビンからなる2つのバンドの位相値から算出した2つの代表位相値間の比率、又は差分が所定値となるように変化させる値とする。そして、音声合成装置1は、位相変調強度aを電子透かし情報のビット情報として利用する。また、音声合成装置1は、位相変調強度a(傾き)を複数の値とすることにより、電子透かし情報のビット情報を多ビット化してもよい。また、位相変調ルールにおいては、予め定められた複数の周波数ビンの中央値、平均値、又は重みづけ平均値などが用いられてもよい。
【0024】
次に、
図1に示した音声合成装置1が行う処理について説明する。
図3は、音声合成装置1が行う処理を例示するフローチャートである。
図3に示すように、ステップ100(S100)において、音源生成部20は、第1記憶部16から受入れたパルス信号に対し、入力部10から受入れた特徴パラメータの系列を用いて変形を行うことにより、有声音のフレームに対する(パルス)音源信号を生成する。即ち、音源生成部20は、パルス列を出力する。
【0025】
ステップ102(S102)において、位相変調部22は、音源生成部20が生成した音源信号に対し、特徴パラメータに含まれる電子透かし情報を用いた位相変調ルールに基づいてピッチマーク毎にパルス信号の位相を変調する。即ち、位相変調部22は、位相変調パルス列を出力する。
【0026】
ステップ104(S104)において、声道フィルタ部12は、音源部2aが位相を変調した音源信号に対し、音源部2aを介して受入れたスペクトルパラメータ系列を用いて畳み込み演算を行って音声信号を生成する。即ち、声道フィルタ部12は、音声波形を出力する。
【0027】
図4は、電子透かしの無い音声波形と、音声合成装置1が電子透かしを挿入した音声波形とを対比する図である。
図4(a)は、電子透かしの無い「Donate to the neediest cases today!」という音声の音声波形の例を示している。また、
図4(b)は、音声合成装置1が上式1を用いて電子透かしを挿入した「Donate to the neediest cases today!」という音声の音声波形の例を示している。
図4(a)に示した音声波形に対し、
図4(b)に示した音声波形は、電子透かしが挿入されたことにより、位相がずらされている(変調されている)。例えば、
図4(b)に示した音声波形は、電子透かしが挿入されていても、人の聴覚における音質劣化を生じさせない。
【0028】
(音源部2aの第1変形例:音源部2b)
次に、音源部2aの第1変形例(音源部2b)について説明する。
図5は、音源部2aの第1変形例(音源部2b)及びその周辺の構成を例示するブロック図である。
図5に示すように、音源部2bは、例えば判断部24、音源生成部20、位相変調部22、雑音音源生成部26及び加算部28を有する。第2記憶部18は、音声合成に用いる白色性及びガウス性の雑音信号を記憶しており、音源部2bからのアクセスに応じて雑音信号を音源部2bに対して出力する。なお、
図5に示した音源部2bにおいて、
図2に示した音源部2aを構成する部分と実質的に同一の部分には同一の符号が付してある。
【0029】
判断部24は、入力部10から受入れた特徴パラメータに含まれる基本周波数系列の着目しているフレームが無声音のフレームであるか、有声音のフレームであるかを判断する。また、判断部24は、無声音のフレームに関する情報を雑音音源生成部26に対して出力し、有声音のフレームに関する情報を音源生成部20に対して出力する。例えば、判断部24は、基本周波数系列において無声音のフレームの値を0としている場合には、当該フレームの値が0であるか否かを判定することにより、着目しているフレームが無声音のフレームであるか、有声音のフレームであるかを判断する。
【0030】
ここで、入力部10は、音源部2a(
図1,2)に対して入力する特徴パラメータの系列と同じ特徴パラメータを音源部2bに対して入力してもよいが、さらに他のパラメータの系列を加えた特徴パラメータを音源部2bに対して入力するものとする。例えば、入力部10は、第1記憶部16が記憶しているパルス信号及び第2記憶部18が記憶している雑音信号に対してn個(nは2以上の整数)の通過帯域に対応するn個の帯域通過フィルタを適用する場合の強度を表す帯域雑音強度系列を、特徴パラメータの系列に加える。
【0031】
図6は、音声波形、基本周波数系列、ピッチマーク、及び帯域雑音強度系列の一例を示す図である。
図6において、(b)は、(a)に示した音声波形の基本周波数系列を表す。また、
図6において、(d)に示した帯域雑音強度は、(c)に示したピッチマーク毎に、例えば5つの帯域に分割したそれぞれの帯域(band1〜band5)の雑音成分の強さを、スペクトルに対する割合で示したパラメータであり、0から1の間の値になっている。帯域雑音強度系列は、ピッチマーク毎(又は分析フレーム毎)に帯域雑音強度を並べたものである。
【0032】
無声音のフレームは全帯域が雑音成分であるとみなされるため、帯域雑音強度の値は1となる。一方、有声音のフレームは、帯域雑音強度が1未満の値となる。一般的に、高い帯域において雑音成分は強くなる。また、有声摩擦音の高域成分では、帯域雑音強度は1に近い高い値になる。なお、基本周波数系列は対数基本周波数であってもよく、帯域雑音強度はデシベル単位であってもよい。
【0033】
そして、音源部2bの音源生成部20は、基本周波数系列から開始点を設定し、現在の位置での基本周波数からピッチ周期を算出する。また、音源生成部20は、算出したピッチ周期を現在の位置に対して加えた時刻を次のピッチマークとする処理を繰り返すことによりピッチマークを作成する。
【0034】
また、音源生成部20は、n個の帯域通過フィルタをパルス信号に適用してn個の帯域に分割したパルス音源信号を生成するように構成されてもよい。
【0035】
音源部2bの位相変調部22は、音源部2aにおける場合と同様に、パルス信号の位相のみを変調する。
【0036】
雑音音源生成部26は、第2記憶部18が記憶している白色性及びガウス性の雑音信号と、入力部10から受入れた特徴パラメータの系列とを用いて、無声音の基本周波数系列からなるフレームに対する雑音音源信号を生成する。
【0037】
また、雑音音源生成部26は、n個の帯域通過フィルタを適用してn個の帯域に分割した雑音音源信号を生成するように構成されてもよい。
【0038】
加算部28は、位相変調部22が位相変調を行ったパルス信号(位相変調パルス列)と雑音音源生成部26が生成した雑音音源信号の振幅を既定の比率に制御した後に重畳することにより、混合音源(雑音音源信号を加算した音源信号)を生成する。
【0039】
また、加算部28は、帯域毎に帯域雑音強度系列に応じて雑音音源信号とパルス音源信号の振幅を調整した後に重畳し、すべての帯域に対して重畳を行うことによって混合音源(雑音音源信号を加算した音源信号)を生成するように構成されてもよい。
【0040】
次に、音源部2bを有する音声合成装置1が行う処理について説明する。
図7は、
図5に示した音源部2bを有する音声合成装置1が行う処理を例示するフローチャートである。
図7に示すように、ステップ200(S200)において、音源生成部20は、第1記憶部16から受入れたパルス信号に対し、入力部10から受入れた特徴パラメータの系列を用いて変形を行うことにより、有声音のフレームに対する(パルス)音源信号を生成する。即ち、音源生成部20は、パルス列を出力する。
【0041】
ステップ202(S202)において、位相変調部22は、音源生成部20が生成した音源信号に対し、特徴パラメータに含まれる電子透かし情報を用いた位相変調ルールに基づいてピッチマーク毎にパルス信号の位相を変調する。即ち、位相変調部22は、位相変調パルス列を出力する。
【0042】
ステップ204(S204)において、加算部28は、位相変調部22が位相変調を行ったパルス信号(位相変調パルス列)と雑音音源生成部26が生成した雑音音源信号の振幅を既定の比率に制御した後に重畳することにより、雑音音源信号(ノイズ)を加算した音源信号を生成する。
【0043】
ステップ206(S206)において、声道フィルタ部12は、音源部2bが位相を変調した音源信号(ノイズ加算)に対し、音源部2bを介して受入れたスペクトルパラメータ系列を用いて畳み込み演算を行って音声信号を生成する。即ち、声道フィルタ部12は、音声波形を出力する。
【0044】
(音源部2aの第2変形例:音源部2c)
次に、音源部2aの第2変形例(音源部2c)について説明する。
図8は、音源部2aの第2変形例(音源部2c)及びその周辺の構成を例示するブロック図である。
図8に示すように、音源部2cは、例えば判断部24、音源生成部20、フィルタ部3a、位相変調部22、雑音音源生成部26、フィルタ部3b、及び加算部28を有する。なお、
図8に示した音源部2cにおいて、
図5に示した音源部2bを構成する部分と実質的に同一の部分には同一の符号が付してある。
【0045】
フィルタ部3aは、異なる帯域の信号を通過させ、帯域と強度を制御する帯域通過フィルタ30,32を有する。フィルタ部3aは、音源生成部20が生成した音源信号のパルス信号に対し、例えば2個の帯域通過フィルタ30,32を適用することにより、2個の帯域に分割した音源信号を生成する。また、フィルタ部3bは、異なる帯域の信号を通過させ、帯域と強度を制御する帯域通過フィルタ34,36を有する。フィルタ部3bは、雑音音源生成部26が生成した雑音音源信号に対し、例えば2個の帯域通過フィルタ34,36を適用することにより、2個の帯域に分割した雑音音源信号を生成する。このように、音源部2cにおいては、フィルタ部3aが音源生成部20とは別に設けられ、フィルタ部3bが雑音音源生成部26とは別に設けられている。
【0046】
そして、音源部2cの加算部28は、帯域毎に帯域雑音強度系列に応じて雑音音源信号とパルス音源信号の振幅を調整して重畳し、すべての帯域に対して重畳を行うことによって混合音源(雑音音源信号を加算した音源信号)を生成する。
【0047】
なお、上述した音源部2b及び音源部2cは、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。第2記憶部18は、例えばHDD又はメモリなどによって構成される。また、CPUにより実行するソフトウェア(プログラム)は、磁気ディスク、光ディスク又は半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することも可能である。
【0048】
このように、音声合成装置1は、位相変調部22が電子透かし情報に基づいてパルス信号の、つまり有声部のみの位相を変調するだけであるため、合成音声の音質を劣化させることなく電子透かしを挿入することができる。
【0049】
(電子透かし情報検出装置)
次に、電子透かしを挿入された合成音声から電子透かし情報を検出する電子透かし情報検出装置について説明する。
図9は、実施形態にかかる電子透かし情報検出装置4の構成を例示するブロック図である。なお、電子透かし情報検出装置4は、例えば、汎用のコンピュータなどによって実現される。即ち、電子透かし情報検出装置4は、例えばCPU、記憶装置、入出力装置及び通信インターフェイスなどを備えたコンピュータとしての機能を有する。
【0050】
図9に示すように、電子透かし情報検出装置4は、ピッチマーク推定部40、位相抽出部42、代表位相算出部44及び判定部46を有する。ピッチマーク推定部40、位相抽出部42、代表位相算出部44及び判定部46は、それぞれハードウェア回路、又はCPUにより実行するソフトウェアのいずれで構成されてもよい。つまり、電子透かし情報検出装置4は、電子透かし情報検出プログラムを実行することによって機能を実現するように構成されてもよい。
【0051】
ピッチマーク推定部40は、入力された音声信号のピッチマーク系列を推定する。具体的には、ピッチマーク推定部40は、例えばLPC分析などによって入力信号又は入力信号の残差信号(推定した音源信号)から周期的なパルスを推定することによりピッチマークの系列を推定し、推定したピッチマークの系列を位相抽出部42に対して出力する。即ち、ピッチマーク推定部40は、残差信号抽出(音声切り出し)を行っている。
【0052】
位相抽出部42は、例えば推定されたピッチマーク毎に、前後のピッチ幅の短い方の2倍を窓長として切り出しを行い、各周波数ビンにおけるピッチマーク毎の位相を抽出する。位相抽出部42は、抽出した位相の系列を代表位相算出部44に対して出力する。
【0053】
代表位相算出部44は、上述した位相変調ルールに基づいて、位相抽出部42が抽出した位相から例えば複数の周波数ビンの代表となる代表位相を算出し、代表位相の系列を判定部46に対して出力する。
【0054】
判定部46は、ピッチマーク毎に算出された代表位相値に基づいて、電子透かし情報の有無を判定する。判定部46が行う処理については、
図10を用いて詳述する。
【0055】
図10は、判定部46が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う処理を示す図である。
図10(a)は、時間の経過に伴って変化するピッチマーク毎の代表位相値を示すグラフである。判定部46は、
図10(a)における予め定められた期間である分析フレーム(フレーム)毎に代表位相が形成する直線の傾きを算出する。
図10(a)において、周波数強度aは、直線の傾きとなって現れる。
【0056】
そして、判定部46は、この傾きから電子透かし情報の有無を判定する。具体的には、判定部46は、まず傾きのヒストグラムを作成し、最頻となる傾きを代表傾き(傾き最頻値)とする。次に、判定部46は、
図10(b)に示すように、傾き最頻値が第1閾値と第2閾値との間にあるか否かを判定する。判定部46は、傾き最頻値が第1閾値と第2閾値との間にある場合には、電子透かし情報が有ると判定する。また、判定部46は、傾き最頻値が第1閾値と第2閾値との間にない場合には、電子透かし情報が無いと判定する。
【0057】
次に、電子透かし情報検出装置4の動作について説明する。
図11は、電子透かし情報検出装置4の動作を例示するフローチャートである。
図11に示すように、ステップ300(S300)において、ピッチマーク推定部40は、残差信号抽出(音声切り出し)を行う。
【0058】
ステップ302(S302)において、位相抽出部42は、ピッチマーク毎に、前後のピッチ幅の短い方の2倍を窓長として切り出しを行い、位相を抽出する。
【0059】
ステップ304(S304)において、代表位相算出部44は、位相変調ルールに基づいて、位相抽出部42が抽出した位相から複数の周波数ビンの代表となる代表位相を算出する。
【0060】
ステップ306(S306)において、CPUは、フレームの全てのピッチマークを処理したか否かを判定する。CPUは、フレームの全てのピッチマークを処理したと判定した場合(S306:Yes)には、S308の処理に進む。また、CPUは、フレームの全てのピッチマークを処理していないと判定した場合(S306:No)には、S302の処理に進む。
【0061】
ステップ308(S308)において、判定部46は、フレーム毎に代表位相が形成する直線の傾き(代表位相の傾き)を算出する。
【0062】
ステップ310(S310)において、CPUは、全てのフレームを処理したか否かを判定する。CPUは、全てのフレームを処理したと判定した場合(S310:Yes)には、S312の処理に進む。また、CPUは、全てのフレームを処理していないと判定した場合(S310:No)には、S302の処理に進む。
【0063】
ステップ312(S312)において、判定部46は、S308の処理において算出した傾きのヒストグラムを作成する。
【0064】
ステップ314(S314)において、判定部46は、S312の処理において作成したヒストグラムの最頻値(傾き最頻値)を算出する。
【0065】
ステップ316(S316)において、判定部46は、S314の処理において算出した傾き最頻値に基づいて、電子透かし情報の有無を判定する。
【0066】
このように、電子透かし情報検出装置4は、ピッチマーク毎に位相を抽出し、代表位相が形成する直線の傾きの頻度に基づいて、電子透かし情報の有無を判定する。なお、判定部46は、
図10に示した処理を行うことによって電子透かし情報の有無を判定することに限定されず、他の処理を行うことによって電子透かし情報の有無を判定するように構成されてもよい。
【0067】
(判定部46が行う他の処理例)
図12は、判定部46が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う他の処理の第1例を示す図である。
図12(a)は、時間の経過に伴って変化するピッチマーク毎の代表位相値を示すグラフである。
図12(b)において、一点鎖線は、予め定められた期間である分析フレーム(フレーム)における時間の変化に対する代表位相の変化の理想値とみなす参照直線を示している。また、
図12(b)において、破線は、分析フレームにおける各代表位相値(例えば4つの代表位相値)から推定した傾きを示す推定直線である。
【0068】
判定部46は、分析フレーム毎に参照直線を前後にシフトさせて、代表位相との相関係数を算出し、
図12(c)に例示するように、分析フレームの相関係数の頻度がヒストグラムにおける予め定められた閾値を超えた場合に電子透かし情報が有ると判定する。また、判定部46は、分析フレームの相関係数の頻度がヒストグラムにおける閾値を超えない場合には電子透かし情報が無いと判定する。
【0069】
図13は、判定部46が代表位相値に基づいて電子透かし情報の有無を判定する場合に行う他の処理の第2例を示す図である。判定部46は、
図13に示した閾値を用いて、電子透かし情報の有無を判定してもよい。なお、
図13に示した閾値は、電子透かし情報を含む合成音と電子透かし情報を含まない合成音(又は肉声)との2つに対し、代表位相が形成する直線の傾きのヒストグラムをそれぞれ作成して、2つのヒストグラムを最も分離できる点としている。
【0070】
また、判定部46は、電子透かし情報を含む合成音の代表位相が形成する直線の傾きを特徴量として統計的にモデルを学習し、尤度を閾値として、電子透かし情報の有無を判定してもよい。また、判定部46は、電子透かし情報を含む合成音と電子透かし情報を含まない合成音の代表位相が形成する直線の傾きそれぞれを特徴量として統計的にモデルを学習し、尤度値を比較して電子透かし情報の有無を判定してもよい。
【0071】
本実施形態の音声合成装置1及び電子透かし情報検出装置4で実行される各プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
【0072】
また、本実施形態の各プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
【0073】
また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。