特開2016-212356(P2016-212356A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

<>
  • 特開2016212356-信号処理装置及びプログラム 図000010
  • 特開2016212356-信号処理装置及びプログラム 図000011
  • 特開2016212356-信号処理装置及びプログラム 図000012
  • 特開2016212356-信号処理装置及びプログラム 図000013
  • 特開2016212356-信号処理装置及びプログラム 図000014
  • 特開2016212356-信号処理装置及びプログラム 図000015
  • 特開2016212356-信号処理装置及びプログラム 図000016
  • 特開2016212356-信号処理装置及びプログラム 図000017
  • 特開2016212356-信号処理装置及びプログラム 図000018
  • 特開2016212356-信号処理装置及びプログラム 図000019
  • 特開2016212356-信号処理装置及びプログラム 図000020
  • 特開2016212356-信号処理装置及びプログラム 図000021
  • 特開2016212356-信号処理装置及びプログラム 図000022
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-212356(P2016-212356A)
(43)【公開日】2016年12月15日
(54)【発明の名称】信号処理装置及びプログラム
(51)【国際特許分類】
   G10L 21/007 20130101AFI20161118BHJP
   G10L 25/12 20130101ALI20161118BHJP
   G10L 25/15 20130101ALI20161118BHJP
   G10L 25/18 20130101ALI20161118BHJP
【FI】
   G10L21/007
   G10L25/12
   G10L25/15
   G10L25/18
【審査請求】未請求
【請求項の数】4
【出願形態】OL
【全頁数】18
(21)【出願番号】特願2015-98608(P2015-98608)
(22)【出願日】2015年5月13日
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】110001564
【氏名又は名称】フェリシテ特許業務法人
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
(57)【要約】
【課題】入力された音声信号x(n)に対して高品質な声質変換を行う。
【解決手段】本発明に係る信号処理装置1は、音声信号x(n)から周波数特性X(z)を算出するフーリエ変換部12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するスペクトル包絡算出部14と、入力された周波数finを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するスペクトル包絡変更部15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するスペクトル包絡補正部18及びスペクトル包絡傾き補正部20と、補正された周波数特性H''(z)に基づいて、声質変換処理が施された音声信号x(n)を取得する逆フーリエ変換部21及びフレーム合成部22とを具備する。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力された音声信号に対して所定処理を施すように構成されている信号処理装置であって、
前記音声信号から周波数特性を算出するように構成されている周波数特性算出部と、
前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するように構成されているスペクトル包絡算出部と、
入力された周波数を一意に変換する周波数変換関数を用いて、前記スペクトル包絡を構成する周波数成分を変更するように構成されている変更部と、
前記周波数成分が変更された前記スペクトル包絡に基づいて、前記周波数特性を補正するように構成されている補正部と、
補正された前記周波数特性に基づいて、前記所定処理が施された音声信号を取得するように構成されている処理部とを具備することを特徴とする信号処理装置。
【請求項2】
前記スペクトル包絡算出部は、前記線形予測係数として、前記入力された音声信号をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数を用いるように構成されていることを特徴とする請求項1に記載の信号処理装置。
【請求項3】
入力された音声信号に対して所定処理を施すように構成されている信号処理装置であって、
前記音声信号から周波数特性を算出するように構成されている周波数特性算出部と、
前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するように構成されているスペクトル包絡算出部と、
ホルマントに所望の変更を加えることによって、前記スペクトル包絡に対して所望の変更を加えるように構成されている変更部と、
前記所望の変更が加えられた前記スペクトル包絡に基づいて、前記周波数特性を補正するように構成されている補正部と、
補正された前記周波数特性に基づいて、前記所定処理が施された音声信号を取得するように構成されている処理部とを具備し、
前記スペクトル包絡算出部は、前記線形予測係数として、前記入力された音声信号をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数を用いるように構成されていることを特徴とする信号処理装置。
【請求項4】
コンピュータを、請求項1〜3のいずれか一項に記載の信号処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力された音声信号に対して声質変換処理を施す信号処理装置及びプログラムに関する。
【背景技術】
【0002】
従来、音声信号に対して所定処理を施すことによって声質を変換する方法として、様々な方法が提案されている。例えば、音声信号からスペクトル包絡を抽出して声質を変換する方法として、以下に示す特許文献1に記載されている方法が知られている。
【0003】
かかる特許文献1に記載されている方法は、以下の手順によって行われる。第1に、入力された音声信号から有声音区間を抽出する。第2に、抽出された有声音区間において、線形予測係数を求めることによって、ホルマント周波数(共振周波数)及び帯域幅を算出すると共に、線形予測係数に基づいてスペクトル包絡(変更前スペクトル包絡)を算出する。第3に、有声音区間における音声信号に対してフーリエ変換を施して周波数領域の成分(周波数成分)に変換する。第4に、ホルマント周波数の各時間軌跡におけるホルマント周波数又は帯域幅に変更を加える。第5に、変更が加えられたホルマント周波数又は帯域幅に基づいてスペクトル包絡(変更後スペクトル包絡)を算出する。第6に、変更後スペクトル包絡を変更前スペクトル包絡で除した商(変更成分)を算出する。第7に、上述の周波数成分に対して、かかる変更成分を乗ずることにより、上述のホルマント周波数に対する変更を含むスペクトル変更を行った後、かかる周波数成分に対して逆フーリエ変換を施して時間領域の成分の音声信号を取得する。第8に、かかる音声信号を、無声音区間、無音区間又は前後の有声音区間に接続して、声質変更が施された音声信号を取得する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第2612869号
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、上述の特許文献1に記載されている方法では、変換ビット数が12ビットで標本化周波数が15kHでA/D変換された音声信号を対象とした実施例が挙げられており、かかる実施例では、男性の音声信号(男声)に対しては線形予測分析次数pを14次程度とし、女性の音声信号(女性)に対しては線形予測分析次数pを10次程度としている。
【0006】
図11に、特許文献1に記載されている方法で用いられているパラメータとほぼ同じパラメータとして標本化周波数を16kHzとし線形予測分析次数を16次とした場合のスペクトル包絡を示す。ここで、図11では、横軸が周波数(Hz)を示し、縦軸が振幅(dB)を示し、実線がパワースペクトルを示し、点線がスペクトル包絡を示す。
【0007】
ここで、線形予測分析によるスペクトル包絡が、パワースペクトルのピーク部分を捉えており、声質を変換する際に、個人性に寄与する主に4kHzまでの低い周波数から3個程度のピークを変化させることができる。
【0008】
図12に、標本化周波数を48kHzとして線形予測分析次数を16次とした場合のスペクトル包絡を示す。
【0009】
かかる場合には、すなわち、線形予測分析次数として16次を用いて標本化周波数48kHzという広い帯域の音声信号に対して線形予測分析を行った場合には、細かい共振のピークを求めることができないため、標本化周波数が15kHzとされているケースで想定しているような音声帯域のピーク部分を捉えることができない。
【0010】
一方で、図13に、標本化周波数を48kHzとして線形予測分析次数を48次とした場合のスペクトル包絡を示す。
【0011】
かかる場合には、すなわち、線形予測分析次数を増やして適切な次数で標本化周波数が48kHzといった広い帯域の音声信号に対して線形予測分析を行った場合には、標本化周波数が15kHzとされているケースで想定しているようなホルマント周波数に相当する音声帯域も含めて、細かい共振のピークを求めることができる。
【0012】
以上のように、上述の特許文献1に記載されている方法では、帯域幅が15kHz以上の広い帯域の音声信号(例えば、標本化周波数が48kHzの音声信号)を対象として、標本化周波数が15kHzとされているケースで想定しているようなホルマント周波数に相当する音声帯域のスペクトル包絡を変更した音声を得ることができないという問題点があった。
【0013】
そこで、本発明は、上述した課題を解決するためになされたものであり、入力された音声信号に対して高品質な声質変換を行うことができる信号処理装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の第1の特徴は、入力された音声信号に対して所定処理を施すように構成されている信号処理装置であって、前記音声信号から周波数特性を算出するように構成されている周波数特性算出部と、前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するように構成されているスペクトル包絡算出部と、入力された周波数を一意に変換する周波数変換関数を用いて、前記スペクトル包絡を構成する周波数成分を変更するように構成されている変更部と、前記周波数成分が変更された前記スペクトル包絡に基づいて、前記周波数特性を補正するように構成されている補正部と、補正された前記周波数特性に基づいて、前記所定処理が施された音声信号を取得するように構成されている処理部とを具備することを要旨とする。
【0015】
本発明の第2の特徴は、入力された音声信号に対して所定処理を施すように構成されている信号処理装置であって、前記音声信号から周波数特性を算出するように構成されている周波数特性算出部と、前記音声信号から算出された線形予測係数に基づいて、前記音声信号のスペクトル包絡を算出するように構成されているスペクトル包絡算出部と、ホルマントに所望の変更を加えることによって、前記スペクトル包絡に対して所望の変更を加えるように構成されている変更部と、前記所望の変更が加えられた前記スペクトル包絡に基づいて、前記周波数特性を補正するように構成されている補正部と、補正された前記周波数特性に基づいて、前記所定処理が施された音声信号を取得するように構成されている処理部とを具備し、前記スペクトル包絡算出部は、前記線形予測係数として、前記入力された音声信号をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数を用いるように構成されていることを要旨とする。
【0016】
本発明の第3の特徴は、コンピュータを、上述の信号処理装置として機能させるためのプログラムであることを要旨とする。
【発明の効果】
【0017】
本発明によれば、入力された音声信号に対して高品質な声質変換を行うことができる信号処理装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0018】
図1図1は、第1の実施形態に係る信号処理装置1の機能ブロック図である。
図2図2は、第1の実施形態に係る信号処理装置1で用いられる周波数変換関数の一例を示す図である。
図3図3(a)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図3(b)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す(周波数変換倍率β=0.5)。
図4図4(a)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図4(b)は、第1の実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す(周波数変換倍率β=2.0)。
図5図5は、第2の実施形態に係る信号処理装置1の機能ブロック図である。
図6図6(a)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図6(b)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(周波数変換倍率β=0.5)。
図7図7(a)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図7(b)は、第2の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(周波数変換倍率β=2.0)。
図8図8は、第3の実施形態に係る信号処理装置1の機能ブロック図である。
図9図9(a)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図9(b)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(共振周波数に対するホルマント制御倍率γ=0.5)。
図10図10(a)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図10(b)は、第3の実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す(共振周波数に対するホルマント制御倍率γ=2.0)。
図11図11は、従来技術について説明するための図である。
図12図12は、従来技術について説明するための図である。
図13図13は、従来技術について説明するための図である。
【発明を実施するための形態】
【0019】
(第1の実施形態)
以下、図1図4を参照して、本発明の第1の実施形態に係る信号処理装置1について説明する。
【0020】
図1に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、線形予測分析部13と、スペクトル包絡算出部14と、スペクトル包絡変更部15と、周波数変換関数作成部16と、スペクトル包絡減算部17と、スペクトル包絡補正部18と、スペクトル包絡減算傾き算出部19と、スペクトル包絡傾き補正部20と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
【0021】
フレーム切出部11は、入力された音声信号から、適切な長さのフレーム単位でデータを切り出すように構成されている。
【0022】
例えば、フレーム切出部11は、標本化周波数fsが48kHzで且つ量子化ビット数が16ビットでA/D変換されて標本化された音声信号(音声波形)を取得すると、適切な長さのフレーム単位でデータを切り出すように構成されている。
【0023】
なお、第1の実施形態の例では、入力された音声信号をx(n)で表し、フレーム長Nを1024サンプル(約20ms)とし、フレームシフト幅をフレーム長Nの半分の512サンプル(約10ms)とし、m番目のフレームでn番目のサンプルのデータをx(m,n)で表す。
【0024】
また、フレーム切出部11は、音声信号における声道特性特有の高域の減衰を補正するため、切り出したフレーム内のデータに、「P(z)=1−αz−1(α=0.97)」で表されるフィルタで、プリエンファシスを施すように構成されていてもよい。
【0025】
また、フレーム切出部11は、プリエンファシスを施したデータに対して、適切な窓関数(例えば、ハミング窓whamm(n)=0.54−0.46cos(2πn/N))を乗じるように構成されていてもよい。
【0026】
フーリエ変換部12は、フレーム切出部11から、入力された音声信号から切り出されてプリエンファシスを施されて窓関数を乗じられたデータを取得すると、離散フーリエ変換(FFT)によって、周波数特性X(z)を算出するように構成されている。なお、本実施形態の例では、FFTポイント数を2048ポイントとする。
【0027】
また、線形予測分析部13は、フレーム切出部11から、入力された音声信号から切り出されたデータを取得すると、かかるデータに基づく線形予測分析により、全ての帯域を対象とした線形予測係数a(i=1,…,p)を算出するように構成されている。本実施形態の例では、線形予測係数の次数(線形予測分析次数)pを48次とする。
【0028】
スペクトル包絡算出部14は、線形予測分析部13から線形予測係数を取得すると、スペクトル包絡
【数1】
を算出するように構成されている。本実施形態の例では、スペクトル包絡のデータ長は、周波数特性のFFTサンプル数と同じ2048ポイントである。
【0029】
周波数変換関数作成部16は、入力された周波数変換パラメータに基づいて、周波数変換関数を作成するように構成されている。
【0030】
ここで、図2に、参考文献1(「The HTK Book(for HTK Version 3.4) Cambridge University Engineering Department」)に示されている周波数変換関数の図に、説明を加えた例を示す。図2では、横軸がオリジナルの入力周波数finを示し、縦軸が周波数変換された出力周波数foutを示す。なお、参考文献1では、周波数変換関数は、音声認識における声道の長さの影響を正規化するために利用されている。
【0031】
本実施形態では、周波数変換関数作成部16は、例えば、図2に示す周波数変換関数を用いるように構成されていてもよい。かかる周波数変換関数は、入力された周波数finを一意に変換するための関数、すなわち、入力周波数finを入力周波数finに対応する出力周波数foutに変換する関数である。
【0032】
また、かかる場合、周波数変換関数作成部16に入力される周波数変換パラメータは、境界最低周波数f、境界最高周波数f、変換範囲指定最低周波数fmin、変換範囲指定最高周波数fmax及び周波数変換倍率β=1/α(αは声道長補正倍率、αmin≦α≦αmax)が含まれる。
【0033】
ここで、例えば、周波数変換関数作成部16に対して入力される周波数変換パラメータとして、f=100、f=5000、fmin=0、fmax=24000と設定し、0.5≦β≦2.0の範囲でβを設定する。なお、周波数制御倍率βについては、図2に示すように、βが1より小さい程(αが1より大きい程)入力周波数に対して出力周波数は小さくなり、βが1より大きい程(αが1より小さい程)入力周波数に対して出力周波数は大きくなる。
【0034】
なお、周波数変換関数作成部16に対して入力される周波数変換パラメータとして、f=100、f=5000、fmin=0、fmax=6000と設定することにより、6000Hz以下の音声帯域部分のみを周波数変換し、6000Hz以上の帯域部分については、原音の周波数特性を保つこともできる。
【0035】
スペクトル包絡変更部15は、スペクトル包絡算出部から取得したスペクトル包絡H(z)及び周波数変換関数作成部16から取得した周波数変換関数に基づいて、スペクトル包絡H(z)を変更することによってスペクトル包絡H'(z)を算出するように構成されている。
【0036】
例えば、スペクトル包絡変更部15は、図2に示す周波数関数を用いて、スペクトル包絡H'(z)を算出するように構成されていてもよい。かかる場合、スペクトル包絡変更部15は、スペクトル包絡H(z)を構成する各周波数成分を入力周波数finとして図2に示す周波数関数に入力し、図2に示す周波数関数によって得られた複数の出力周波数foutを周波数成分とするスペクトル包絡H'(z)を算出するように構成されている。
【0037】
ここで、スペクトル包絡変更部15は、サンプル値の補完によって、スペクトル包絡H(z)を変更するように構成されていてもよい。例えば、スペクトル包絡変更部15は、スペクトル包絡H(z)を構成する周波数成分を入力周波数finとして、かかる入力周波数finに対応する出力周波数fout、及び、その前後の周波数に対応する3点のスペクトル包絡の値を用いて、2次の多項式で最小二乗近似することにより、スペクトル包絡H'(z)を算出するように構成されていてもよい。
【0038】
スペクトル包絡減算部17は、スペクトル包絡算出部14から取得したスペクトル包絡H(z)及びスペクトル包絡変更部15から取得した変更後のスペクトル包絡H'(z)に基づいて、変更後のスペクトル包絡H'(z)からスペクトル包絡H(z)を減算した補正値G(z)=H'(z)−H(z)を算出するように構成されている。ここで、スペクトル包絡については対数が取られているので、上述の減算によって補正値G(z)が求められる。
【0039】
スペクトル包絡補正部18は、フーリエ変換部12から取得した周波数特性X(z)及びスペクトル包絡減算部17から取得した補正値G(z)に基づいて、周波数特性X(z)に対して補正値G(z)の複素指数を取ったものを乗算することにより、補正された周波数特性X'(z)=X(z)・exp(G(z))を算出するように構成されている。
【0040】
スペクトル包絡減算傾き算出部19は、スペクトル包絡減算部17から取得した補正値G(z)に基づいて、補正値G(z)の傾きG'(z)を算出するように構成されている。
【0041】
例えば、スペクトル包絡減算傾き算出部19は、補正値G(z)を5次の曲線で最小二乗近似することにより、上述の傾きG'(z)を算出するように構成されていてもよい。
【0042】
スペクトル包絡減算傾き補正部20は、スペクトル包絡補正部18から取得した補正後の周波数特性X'(z)及びスペクトル包絡減算傾き算出部19から取得した傾きG'(z)に基づいて、補正後の周波数特性X'(z)に対して傾きG'(z)の複素指数を取ったものを乗算することにより、補正後の周波数特性の傾きX''(z)=X'(z)・exp(G'(z))を算出するように構成されている。
【0043】
逆フーリエ変換部21は、スペクトル包絡減算傾き補正部20から取得された補正後の周波数特性の傾きX''(z)に対して逆フーリエ変換(IFFT)を施すことによって、フレームごとに声質変換された音声信号の時間波形x'(m,n)を算出するように構成されている。
【0044】
フレーム合成部22は、逆フーリエ変換部21から取得した音声信号の時間波形x'(m,n)をハミング窓whamm(n)で除して、プリエンファシスの逆フィルタでディエンファシスを施すように構成されている。
【0045】
ここで、フレーム合成部22は、ディエンファシスを施したデータに対して、適切な窓関数(例えば、ハニング窓whann(n)=0.5−0.5cos(2πn/N))を乗じるように構成されている。
【0046】
その後、フレーム合成部22は、かかる窓関数を乗じたデータをフレームごとにシフト幅分ずらして重ね合わせることにより、声質変換がなされた音声信号x(n)を算出するように構成されている。
【0047】
ここで、図3(a)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図3(b)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す。
【0048】
一方、図4(a)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のスペクトル包絡を示し、図4(b)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号のパワースペクトルを示す。
【0049】
本実施形態の特徴は、入力された音声信号x(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、入力された周波数finを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するように構成されているスペクトル包絡変更部(変更部)15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているスペクトル包絡補正部18及びスペクトル包絡傾き補正部20(補正部)と、補正された周波数特性X'(z)に基づいて、声質変換処理が施された音声信号x(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
【0050】
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数aとして、入力された音声信号x(n)の全ての帯域を対象とした線形予測係数aを用いるように構成されている。
【0051】
本実施形態に係る信号処理装置1によれば、周波数変換関数を利用することにより、どのような波形の音声信号が入力された場合であっても、高品質に声質変換を行うことができる。
【0052】
(第2の実施形態)
以下、図5図8を参照して、本発明の第2の実施形態に係る信号処理装置1について、上述の第1の実施形態に係る信号処理装置1との相違点に着目して説明する。
【0053】
本実施形態に係る信号処理装置1は、入力された音声信号x(n)に対する声質変換処理を行うに際して、上述の第1の実施形態に係る信号処理装置1とは異なり、入力された音声信号x(n)をダウンサンプリングした後、ダウンサンプリングされた帯域部分(音声帯域部分)のみを対象とした線形予測係数aを用いるように構成されている。
【0054】
図5に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、ダウンサンプリング部31と、線形予測分析部13と、スペクトル包絡算出部14と、スペクトル包絡変更部15と、周波数変換関数作成部16と、スペクトル包絡減算部17と、ダウンサンプリング帯域スペクトル包絡補正部32と、スペクトル包絡減算傾き算出部19と、ダウンサンプリング帯域スペクトル包絡傾き補正部33と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
【0055】
ダウンサンプリング部31は、フレーム切出部11から、入力された音声信号x(n)から切り出されたデータを取得すると、標本化周波数fsds=fs/4(=12kHz)にダウンサンプリングされたデータ(すなわち、データ長は256サンプル)を算出するように構成されている。
【0056】
線形予測分析部13は、ダウンサンプリング部31から取得したダウンサンプリングされたデータに基づく線形予測分析により、ダウンサンプリングされた帯域部分(音声帯域部分)のみを対象とした線形予測係数a(i=1,…,p)を算出するように構成されている。本実施形態の例では、線形予測係数の次数(線形予測分析次数)pを12次とする。
【0057】
例えば、ダウンサンプリング部31を通さず、直接、フレーム切出部11から線形予測分析部13にて線形予測係数を得る方法として、線形予測分析部13は、参考文献2(コロナ社、「音声の線形予測」、J.D.マーケル、A.H.グレイJr.著、鈴木久喜訳)に記載されている「Selective Linear Prediction(選択線形予測)」方法を用いて、上述の線形予測係数を得るように構成されていてもよい。
【0058】
スペクトル包絡算出部14は、線形予測分析部13から線形予測係数を取得すると、スペクトル包絡
【数2】
を算出するように構成されている。本実施形態の例では、スペクトル包絡のデータ長は、周波数特性のFFTサンプル数の1/4である512ポイントである。
【0059】
ダウンサンプリング帯域スペクトル包絡補正部32は、フーリエ変換部21から周波数特性X(z)を取得すると共に、スペクトル包絡減算部17からダウンサンプリングされた帯域部分のスペクトル包絡同士を減算することによって得られた補正値G(z)を取得すると、周波数特性X(z)のダウンサンプリングされた帯域部分に対して補正値G(z)の複素指数を取ったものを乗算することにより、補正後の周波数特性
【数3】
を取得するように構成されている。
【0060】
ダウンリングサンプリング帯域スペクトル包絡傾き補正部33は、ダウンサンプリング帯域スペクトル包絡補正部32から取得した補正後の周波数特性X'(z)に対して、スペクトル包絡減算傾き算出部19から取得した傾きG'(z)の複素指数をとったものを乗算することにより、補正後の周波数特性の傾き
【数4】
を算出するように構成されている。
【0061】
逆フーリエ変換部21は、ダウンサンプリング帯域スペクトル包絡減算傾き補正部33から取得された補正後の周波数特性の傾きX''(z)に対して逆フーリエ変換(IFFT)を施すことによって、フレームごとに声質変換された音声信号の時間波形x'(m,n)を算出するように構成されている。
【0062】
ここで、図6(a)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図6(b)に、周波数変換倍率βを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0063】
一方、図7(a)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図7(b)に、周波数変換倍率βを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0064】
本実施形態の特徴は、入力された音声信号x(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、入力された周波数finを一意に変換する周波数変換関数を用いて、スペクトル包絡H(z)を構成する周波数成分を変更するように構成されているスペクトル包絡変更部(変更部)15と、周波数成分が変更されたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているダウンサンプリング帯域スペクトル包絡補正部32及びダウンサンプリング帯域スペクトル包絡傾き補正部33(補正部)と、補正された周波数特性X''(z)に基づいて、声質変換処理が施された音声信号x(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
【0065】
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数aとして、入力された音声信号x(n)をダウンサンプリングすることによって得られた音声帯域部分のみを対象とした線形予測係数aを用いるように構成されている。
【0066】
本実施形態に係る信号処理装置1によれば、ダウンサンプリングされた帯域部分において周波数変換関数を利用して声質変換を行うように構成されているため、どのような波形の音声信号が入力された場合であっても、少ない処理量で適切な声質変換を行うことができる。
【0067】
(第3の実施形態)
以下、図8図10を参照して、本発明の第3の実施形態に係る信号処理装置1について、上述の第2の実施形態に係る信号処理装置1との相違点に着目して説明する。
【0068】
本実施形態に係る信号処理装置1は、入力された音声信号x(n)に対する声質変換処理を行うに際して、上述の第2の実施形態に係る信号処理装置1とは異なり、周波数変換関数の代わりに、ホルマント変更を利用するように構成されている。
【0069】
図8に示すように、本実施形態に係る信号処理装置1は、フレーム切出部11と、フーリエ変換部12と、ダウンサンプリング部31と、線形予測分析部13と、求根部41と、ホルマント算出部42と、ホルマント変更部43と、多項式再構成部44と、スペクトル包絡算出部14と、スペクトル包絡算出部45と、スペクトル包絡減算部17と、ダウンサンプリング帯域スペクトル包絡補正部32と、スペクトル包絡減算傾き算出部19と、ダウンサンプリング帯域スペクトル包絡傾き補正部33と、逆フーリエ変換部21と、フレーム合成部22とを具備している。
【0070】
求根部41は、線形予測分析部13から取得した線形予測係数に基づいて、多項式
【数5】
の求根により、複素根としてスペクトル包絡の極z(i=1,…,p)を求めるように構成されている。
【0071】
ホルマント算出部42は、求根部41から取得したスペクトル包絡の極zに基づいて、共振周波数(位相)F(=argz・fs/2π)及び帯域幅(振幅)B(=log|z|・fs/π)を算出するように構成されている。
【0072】
ここで、本実施形態では、共振周波数Fがホルマント周波数の存在範囲(おおよそピッチ周波数以上の200〜5000Hz)内にある共振周波数F及び帯域幅Bの組み合わせのうち、帯域幅Bと共振周波数Fとの比B/Fが小さいものを「ホルマントF, B」とみなす。
【0073】
ホルマント変更部43は、ホルマント算出部42から取得したホルマントF, Bのうち、共振周波数Fの低いものから3つまでに対して、ホルマント制御倍率を乗ずることによって、ホルマントF, Bを変更するように構成されている。
【0074】
ここで、共振周波数に対するホルマント制御倍率γ及び帯域幅に対するホルマント制御倍率δは、それぞれ独立のものとする。
【0075】
多項式再構成部44は、ホルマント変更部43から取得した変更前のホルマントF, B及び変更後のホルマントF', B'に基づいて、複素根z'(i=1,…,P)を算出し、
【数6】
の関係から、変更後の線形予測係数a'(i=1,…,P)を算出するように構成されている。
【0076】
スペクトル包絡算出部45は、多項式再構成部44から取得した変更後の線形予測係数a'に基づいて、変更後のスペクトル包絡
【数7】
を算出するように構成されている。
【0077】
スペクトル包絡減算部17は、スペクトル包絡算出部14から取得したスペクトル包絡H(z)及びスペクトル包絡変更部45から取得した変更後のスペクトル包絡H'(z)に基づいて、補正値G(z)=H'(z)−H(z)を算出するように構成されている。
【0078】
ここで、図9(a)に、共振周波数に対するホルマント制御倍率γを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図9(b)に、共振周波数に対するホルマント制御倍率γを0.5とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0079】
一方、図10(a)に、共振周波数に対するホルマント制御倍率γを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるスペクトル包絡を示し、図10(b)に、共振周波数に対するホルマント制御倍率γを2.0とした場合に本実施形態に係る信号処理装置1によって声質が変換された音声信号の音声帯域部分におけるパワースペクトルを示す。
【0080】
本実施形態の特徴は、入力された音声信号x(n)に対して声質変換処理(所定処理)を施すように構成されている信号処理装置1であって、音声信号x(n)から周波数特性X(z)を算出するように構成されているフーリエ変換部(周波数特性算出部)12と、音声信号x(n)から算出された線形予測係数aに基づいて、音声信号x(n)のスペクトル包絡H(z)を算出するように構成されているスペクトル包絡算出部14と、ホルマントF, Bに所望の変更を加えることによって(ホルマント制御倍率を乗ずることによって)、スペクトル包絡H(z)に対して所望の変更を加えるように構成されているホルマント変更部43及びスペクトル包絡変更部45(変更部)と、所望の変更が加えられたスペクトル包絡H'(z)に基づいて、周波数特性X(z)を補正するように構成されているダウンサンプリング帯域スペクトル包絡補正部32及びダウンサンプリング帯域スペクトル包絡傾き補正部33(補正部)と、補正された周波数特性X''(z)に基づいて、声質変換処理が施された音声信号x(n)を取得するように構成されている逆フーリエ変換部21及びフレーム合成部22(処理部)とを具備することを要旨とする。
【0081】
ここで、かかる本実施形態の特徴において、スペクトル包絡算出部14は、上述の線形予測係数aとして、音声帯域部分(ダウンサンプリングされた帯域部分)のみを対象とした線形予測係数aを用いるように構成されている。
【0082】
本実施形態に係る信号処理装置1によれば、ダウンサンプリングされた帯域部分においてホルマント変更を利用して声質変換を行うように構成されているため、ホルマント周波数に対応した細かい制御による高品質な声質変換を行うことができる。
【0083】
(その他の実施形態)
上述のように、本発明について、上述した第1〜第3の実施形態によって説明したが、かかる実施形態における開示の一部をなす論述及び図面は、本発明を限定するものであると理解すべきではない。かかる開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
【0084】
また、上述の実施形態では特に触れていないが、上述の信号処理装置1によって行われる各処理をコンピュータに実行させるプログラムが提供されてもよい。また、かかるプログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、かかるプログラムをコンピュータにインストールすることが可能である。ここで、かかるプログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
【0085】
或いは、上述の信号処理装置1によって行われる各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。
【符号の説明】
【0086】
1…信号処理装置
11…フレーム切出部
12…フーリエ変換部
13…線形予測分析部
14、45…スペクトル包絡算出部
15…スペクトル包絡変更部
16…周波数変換関数作成部
17…スペクトル包絡減算部
18…スペクトル包絡補正部
19…スペクトル包絡減算傾き算出部
20…スペクトル包絡傾き補正部
21…逆フーリエ変換部
22…フレーム合成部
31…ダウンサンプリング部
32…ダウンサンプリング帯域スペクトル包絡補正部
33…ダウンサンプリング帯域スペクトル包絡傾き補正部
41…求根部
42…ホルマント算出部
43…ホルマント変更部
44…多項式再構成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13