(58)【調査した分野】(Int.Cl.,DB名)
前記スペクトル包絡算出部は、前記線形予測係数として、前記入力された音声信号をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数を用いることを特徴とする請求項1に記載の信号処理装置。
【発明を実施するための形態】
【0019】
(第1の実施形態)
以下、
図1〜
図4を参照して、本発明の第1の実施形態に係る信号処理装置1について説明する。
【0020】
図1に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、線形予測分析部13と、スペクトル包絡算出部14と、スペクトル包絡変更部15と、周波数変換関数作成部16と、スペクトル包絡減算部17と、スペクトル包絡補正部18と、スペクトル包絡減算傾き算出部19と、スペクトル包絡傾き補正部20と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
【0021】
フレーム切出部11は、入力された音声信号から、適切な長さのフレーム単位でデータを切り出すように構成されている。
【0022】
例えば、フレーム切出部11は、標本化周波数fsが48kHzで且つ量子化ビット数が16ビットでA/D変換されて標本化された音声信号(音声波形)を取得すると、適切な長さのフレーム単位でデータを切り出すように構成されている。
【0023】
なお、第1の実施形態の例では、入力された音声信号をx
i(n)で表し、フレーム長Nを1024サンプル(約20ms)とし、フレームシフト幅をフレーム長Nの半分の512サンプル(約10ms)とし、m番目のフレームでn番目のサンプルのデータをx
i(m,n)で表す。
【0024】
また、フレーム切出部11は、音声信号における声道特性特有の高域の減衰を補正するため、切り出したフレーム内のデータに、「P(z)=1−αz
−1(α=0.97)」で表されるフィルタで、プリエンファシスを施すように構成されていてもよい。
【0025】
また、フレーム切出部11は、プリエンファシスを施したデータに対して、適切な窓関数(例えば、ハミング窓w
hamm(n)=0.54−0.46cos(2πn/N))を乗じるように構成されていてもよい。
【0026】
フーリエ変換部12は、フレーム切出部11から、入力された音声信号から切り出されてプリエンファシスを施されて窓関数を乗じられたデータを取得すると、離散フーリエ変換(FFT)によって、周波数特性X(z)を算出するように構成されている。なお、本実施形態の例では、FFTポイント数を2048ポイントとする。
【0027】
また、線形予測分析部13は、フレーム切出部11から、入力された音声信号から切り出されたデータを取得すると、かかるデータに基づく線形予測分析により、全ての帯域を対象とした線形予測係数a
i(i=1,…,p)を算出するように構成されている。本実施形態の例では、線形予測係数の次数(線形予測分析次数)pを48次とする。
【0028】
スペクトル包絡算出部14は、線形予測分析部13から線形予測係数を取得すると、スペクトル包絡
【数1】
を算出するように構成されている。本実施形態の例では、スペクトル包絡のデータ長は、周波数特性のFFTサンプル数と同じ2048ポイントである。
【0029】
周波数変換関数作成部16は、入力された周波数変換パラメータに基づいて、周波数変換関数を作成するように構成されている。
【0030】
ここで、
図2に、参考文献1(「The HTK Book(for HTK Version 3.4) Cambridge University Engineering Department」)に示されている周波数変換関数の図に、説明を加えた例を示す。
図2では、横軸がオリジナルの入力周波数f
inを示し、縦軸が周波数変換された出力周波数f
outを示す。なお、参考文献1では、周波数変換関数は、音声認識における声道の長さの影響を正規化するために利用されている。
【0031】
本実施形態では、周波数変換関数作成部16は、例えば、
図2に示す周波数変換関数を用いるように構成されていてもよい。かかる周波数変換関数は、入力された周波数f
inを一意に変換するための関数、すなわち、入力周波数f
inを入力周波数f
inに対応する出力周波数f
outに変換する関数である。
【0032】
また、かかる場合、周波数変換関数作成部16に入力される周波数変換パラメータは、境界最低周波数f
L、境界最高周波数f
U、変換範囲指定最低周波数f
min、変換範囲指定最高周波数f
max及び周波数変換倍率β=1/α(αは声道長補正倍率、α
min≦α≦α
max)が含まれる。
【0033】
ここで、例えば、周波数変換関数作成部16に対して入力される周波数変換パラメータとして、f
L=100、f
U=5000、f
min=0、f
max=24000と設定し、0.5≦β≦2.0の範囲でβを設定する。なお、周波数制御倍率βについては、
図2に示すように、βが1より小さい程(αが1より大きい程)入力周波数に対して出力周波数は小さくなり、βが1より大きい程(αが1より小さい程)入力周波数に対して出力周波数は大きくなる。
【0034】
なお、周波数変換関数作成部16に対して入力される周波数変換パラメータとして、f
L=100、f
U=5000、f
min=0、f
max=6000と設定することにより、6000Hz以下の音声帯域部分のみを周波数変換し、6000Hz以上の帯域部分については、原音の周波数特性を保つこともできる。
【0035】
スペクトル包絡変更部15は、スペクトル包絡算出部から取得したスペクトル包絡H(z)及び周波数変換関数作成部16から取得した周波数変換関数に基づいて、スペクトル包絡H(z)を変更することによってスペクトル包絡H'(z)を算出するように構成されている。
【0036】
例えば、スペクトル包絡変更部15は、
図2に示す周波数関数を用いて、スペクトル包絡H'(z)を算出するように構成されていてもよい。かかる場合、スペクトル包絡変更部15は、スペクトル包絡H(z)を構成する各周波数成分を入力周波数f
inとして
図2に示す周波数関数に入力し、
図2に示す周波数関数によって得られた複数の出力周波数f
outを周波数成分とするスペクトル包絡H'(z)を算出するように構成されている。
【0037】
ここで、スペクトル包絡変更部15は、サンプル値の補完によって、スペクトル包絡H(z)を変更するように構成されていてもよい。例えば、スペクトル包絡変更部15は、スペクトル包絡H(z)を構成する周波数成分を入力周波数f
inとして、かかる入力周波数f
inに対応する出力周波数f
out、及び、その前後の周波数に対応する3点のスペクトル包絡の値を用いて、2次の多項式で最小二乗近似することにより、スペクトル包絡H'(z)を算出するように構成されていてもよい。
【0038】
スペクトル包絡減算部17は、スペクトル包絡算出部14から取得したスペクトル包絡H(z)及びスペクトル包絡変更部15から取得した変更後のスペクトル包絡H'(z)に基づいて、変更後のスペクトル包絡H'(z)からスペクトル包絡H(z)を減算した補正値G(z)=H'(z)−H(z)を算出するように構成されている。ここで、スペクトル包絡については対数が取られているので、上述の減算によって補正値G(z)が求められる。
【0039】
スペクトル包絡補正部18は、フーリエ変換部12から取得した周波数特性X(z)及びスペクトル包絡減算部17から取得した補正値G(z)に基づいて、周波数特性X(z)に対して補正値G(z)の複素指数を取ったものを乗算することにより、補正された周波数特性X'(z)=X(z)・exp(G(z))を算出するように構成されている。
【0040】
スペクトル包絡減算傾き算出部19は、スペクトル包絡減算部17から取得した補正値G(z)に基づいて、補正値G(z)の傾きG'(z)を算出するように構成されている。
【0041】
例えば、スペクトル包絡減算傾き算出部19は、補正値G(z)を5次の曲線で最小二乗近似することにより、上述の傾きG'(z)を算出するように構成されていてもよい。
【0042】
スペクトル包絡減算傾き補正部20は、スペクトル包絡補正部18から取得した補正後の周波数特性X'(z)及びスペクトル包絡減算傾き算出部19から取得した傾きG'(z)に基づいて、補正後の周波数特性X'(z)に対して傾きG'(z)の複素指数を取ったものを乗算することにより、補正後の周波数特性の傾きX''(z)=X'(z)・exp(G'(z))を算出するように構成されている。
【0043】
逆フーリエ変換部21は、スペクトル包絡減算傾き補正部20から取得された補正後の周波数特性の傾きX''(z)に対して逆フーリエ変換(IFFT)を施すことによって、フレームごとに声質変換された音声信号の時間波形x'(m,n)を算出するように構成されている。
【0044】
フレーム合成部22は、逆フーリエ変換部21から取得した音声信号の時間波形x'(m,n)をハミング窓w
hamm(n)で除して、プリエンファシスの逆フィルタでディエンファシスを施すように構成されている。
【0045】
ここで、フレーム合成部22は、ディエンファシスを施したデータに対して、適切な窓関数(例えば、ハニング窓w
hann(n)=0.5−0.5cos(2πn/N))を乗じるように構成されている。
【0046】
その後、フレーム合成部22は、かかる窓関数を乗じたデータをフレームごとにシフト幅分ずらして重ね合わせることにより、声質変換がなされた音声信号x
o(n)を算出するように構成されている。
【0047】
ここで、
図3(a)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、
図3(b)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す。
【0048】
一方、
図4(a)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、
図4(b)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す。
【0049】
本実施形態の特徴は、入力された音声信号x
i(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x
i(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x
i(n)から算出された線形予測係数a
iに基づいて、音声信号x
i(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、入力された周波数f
inを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するように構成されているスペクトル包絡変更部(変更部)15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているスペクトル包絡補正部18及びスペクトル包絡傾き補正部20(補正部)と、補正された周波数特性X'(z)に基づいて、声質変換処理が施された音声信号x
o(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
【0050】
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数a
iとして、入力された音声信号x
i(n)の全ての帯域を対象とした線形予測係数a
iを用いるように構成されている。
【0051】
本実施形態に係る信号処理装置1によれば、周波数変換関数を利用することにより、どのような波形の音声信号が入力された場合であっても、高品質に声質変換を行うことができる。
【0052】
(第2の実施形態)
以下、
図5〜
図8を参照して、本発明の第2の実施形態に係る信号処理装置1について、上述の第1の実施形態に係る信号処理装置1との相違点に着目して説明する。
【0053】
本実施形態に係る信号処理装置1は、入力された音声信号x
i(n)に対する声質変換処理を行うに際して、上述の第1の実施形態に係る信号処理装置1とは異なり、入力された音声信号x
i(n)をダウンサンプリングした後、ダウンサンプリングされた帯域部分(音声帯域部分)のみを対象とした線形予測係数a
iを用いるように構成されている。
【0054】
図5に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、ダウンサンプリング部31と、線形予測分析部13と、スペクトル包絡算出部14と、スペクトル包絡変更部15と、周波数変換関数作成部16と、スペクトル包絡減算部17と、ダウンサンプリング帯域スペクトル包絡補正部32と、スペクトル包絡減算傾き算出部19と、ダウンサンプリング帯域スペクトル包絡傾き補正部33と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
【0055】
ダウンサンプリング部31は、フレーム切出部11から、入力された音声信号x
i(n)から切り出されたデータを取得すると、標本化周波数fs
ds=fs/4(=12kHz)にダウンサンプリングされたデータ(すなわち、データ長は256サンプル)を算出するように構成されている。
【0056】
線形予測分析部13は、ダウンサンプリング部31から取得したダウンサンプリングされたデータに基づく線形予測分析により、ダウンサンプリングされた帯域部分(音声帯域部分)のみを対象とした線形予測係数a
i(i=1,…,p)を算出するように構成されている。本実施形態の例では、線形予測係数の次数(線形予測分析次数)pを12次とする。
【0057】
例えば、ダウンサンプリング部31を通さず、直接、フレーム切出部11から線形予測分析部13にて線形予測係数を得る方法として、線形予測分析部13は、参考文献2(コロナ社、「音声の線形予測」、J.D.マーケル、A.H.グレイJr.著、鈴木久喜訳)に記載されている「Selective Linear Prediction(選択線形予測)」方法を用いて、上述の線形予測係数を得るように構成されていてもよい。
【0058】
スペクトル包絡算出部14は、線形予測分析部13から線形予測係数を取得すると、スペクトル包絡
【数2】
を算出するように構成されている。本実施形態の例では、スペクトル包絡のデータ長は、周波数特性のFFTサンプル数の1/4である512ポイントである。
【0059】
ダウンサンプリング帯域スペクトル包絡補正部32は、フーリエ変換部21から周波数特性X(z)を取得すると共に、スペクトル包絡減算部17からダウンサンプリングされた帯域部分のスペクトル包絡同士を減算することによって得られた補正値G(z)を取得すると、周波数特性X(z)のダウンサンプリングされた帯域部分に対して補正値G(z)の複素指数を取ったものを乗算することにより、補正後の周波数特性
【数3】
を取得するように構成されている。
【0060】
ダウンリングサンプリング帯域スペクトル包絡傾き補正部33は、ダウンサンプリング帯域スペクトル包絡補正部32から取得した補正後の周波数特性X'(z)に対して、スペクトル包絡減算傾き算出部19から取得した傾きG'(z)の複素指数をとったものを乗算することにより、補正後の周波数特性の傾き
【数4】
を算出するように構成されている。
【0061】
逆フーリエ変換部21は、ダウンサンプリング帯域スペクトル包絡減算傾き補正部33から取得された補正後の周波数特性の傾きX''(z)に対して逆フーリエ変換(IFFT)を施すことによって、フレームごとに声質変換された音声信号の時間波形x'(m,n)を算出するように構成されている。
【0062】
ここで、
図6(a)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、
図6(b)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0063】
一方、
図7(a)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、
図7(b)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0064】
本実施形態の特徴は、入力された音声信号x
i(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x
i(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x
i(n)から算出された線形予測係数a
iに基づいて、音声信号x
i(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、入力された周波数f
inを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するように構成されているスペクトル包絡変更部(変更部)15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているダウンサンプリング帯域スペクトル包絡補正部32及びダウンサンプリング帯域スペクトル包絡傾き補正部33(補正部)と、補正された周波数特性X''(z)に基づいて、声質変換処理が施された音声信号x
o(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
【0065】
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数a
iとして、入力された音声信号x
i(n)をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数a
iを用いるように構成されている。
【0066】
本実施形態に係る信号処理装置1によれば、ダウンサンプリングされた帯域部分において周波数変換関数を利用して声質変換を行うように構成されているため、どのような波形の音声信号が入力された場合であっても、少ない処理量で適切な声質変換を行うことができる。
【0067】
(第3の実施形態)
以下、
図8〜
図10を参照して、本発明の第3の実施形態に係る信号処理装置1について、上述の第2の実施形態に係る信号処理装置1との相違点に着目して説明する。
【0068】
本実施形態に係る信号処理装置1は、入力された音声信号x
i(n)に対する声質変換処理を行うに際して、上述の第2の実施形態に係る信号処理装置1とは異なり、周波数変換関数の代わりに、ホルマント変更を利用するように構成されている。
【0069】
図8に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、ダウンサンプリング部31と、線形予測分析部13と、求根部41と、ホルマント算出部42と、ホルマント変更部43と、多項式再構成部44と、スペクトル包絡算出部14と、スペクトル包絡算出部45と、スペクトル包絡減算部17と、ダウンサンプリング帯域スペクトル包絡補正部32と、スペクトル包絡減算傾き算出部19と、ダウンサンプリング帯域スペクトル包絡傾き補正部33と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
【0070】
求根部41は、線形予測分析部13から取得した線形予測係数に基づいて、多項式
【数5】
の求根により、複素根としてスペクトル包絡の極z
i(i=1,…,p)を求めるように構成されている。
【0071】
ホルマント算出部42は、求根部41から取得したスペクトル包絡の極z
iに基づいて、共振周波数(位相)F
i(=argz
i・fs/2π)及び帯域幅(振幅)B
i(=log|z
i|・fs/π)を算出するように構成されている。
【0072】
ここで、本実施形態では、共振周波数F
iがホルマント周波数の存在範囲(おおよそピッチ周波数以上の200〜5000Hz)内にある共振周波数F
i及び帯域幅B
iの組み合わせのうち、帯域幅B
iと共振周波数F
iとの比B
i/F
iが小さいものを「ホルマントF
i, B
i」とみなす。
【0073】
ホルマント変更部43は、ホルマント算出部42から取得したホルマントF
i, B
iのうち、共振周波数F
iの低いものから3つまでに対して、ホルマント制御倍率を乗ずることによって、ホルマントF
i, B
iを変更するように構成されている。
【0074】
ここで、共振周波数に対するホルマント制御倍率γ及び帯域幅に対するホルマント制御倍率δは、それぞれ独立のものとする。
【0075】
多項式再構成部44は、ホルマント変更部43から取得した変更前のホルマントF
i, B
i及び変更後のホルマントF'
i, B'
iに基づいて、複素根z'
i(i=1,…,P)を算出し、
【数6】
の関係から、変更後の線形予測係数a'
i(i=1,…,P)を算出するように構成されている。
【0076】
スペクトル包絡算出部45は、多項式再構成部44から取得した変更後の線形予測係数a'
iに基づいて、変更後のスペクトル包絡
【数7】
を算出するように構成されている。
【0077】
スペクトル包絡減算部17は、スペクトル包絡算出部14から取得したスペクトル包絡H(z)及びスペクトル包絡変更部45から取得した変更後のスペクトル包絡H'(z)に基づいて、補正値G(z)=H'(z)−H(z)を算出するように構成されている。
【0078】
ここで、
図9(a)に、共振周波数に対するホルマント制御倍率γを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、
図9(b)に、共振周波数に対するホルマント制御倍率γを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0079】
一方、
図10(a)に、共振周波数に対するホルマント制御倍率γを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、
図10(b)に、共振周波数に対するホルマント制御倍率γを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0080】
本実施形態の特徴は、入力された音声信号x
i(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x
i(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x
i(n)から算出された線形予測係数a
iに基づいて、音声信号x
i(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、ホルマントF
i, B
iに所望の変更を加えることによって(ホルマント制御倍率を乗ずることによって)、スペクトル包絡H(z)に対して所望の変更を加えるように構成されているホルマント変更部43及びスペクトル包絡変更部45(変更部)と、所望の変更が加えられたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているダウンサンプリング帯域スペクトル包絡補正部32及びダウンサンプリング帯域スペクトル包絡傾き補正部33(補正部)と、補正された周波数特性X''(z)に基づいて、声質変換処理が施された音声信号x
o(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
【0081】
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数a
iとして、音声帯域部分(ダウンサンプリングされた帯域部分)のみを対象とした線形予測係数a
iを用いるように構成されている。
【0082】
本実施形態に係る信号処理装置1によれば、ダウンサンプリングされた帯域部分においてホルマント変更を利用して声質変換を行うように構成されているため、ホルマント周波数に対応した細かい制御による高品質な声質変換を行うことができる。
【0083】
(その他の実施形態)
上述のように、本発明について、上述した第1〜第3の実施形態によって説明したが、かかる実施形態における開示の一部をなす論述及び図面は、本発明を限定するものであると理解すべきではない。かかる開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
【0084】
また、上述の実施形態では特に触れていないが、上述の信号処理装置1によって行われる各処理をコンピュータに実行させるプログラムが提供されてもよい。また、かかるプログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、かかるプログラムをコンピュータにインストールすることが可能である。ここで、かかるプログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
【0085】
或いは、上述の信号処理装置1によって行われる各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。