(58)【調査した分野】(Int.Cl.,DB名)
前記調整処理手段は、前記特定周波数の低域側の第1周波数における第1値から前記特定周波数における基準値まで減少するとともに、前記特定周波数の高域側の第2周波数における第2値まで前記基準値から増加する関数において前記複数の係数値の各々に対応する数値を、当該係数値に加算する
請求項1の音声処理装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1や特許文献2に開示された音声合成に代表される各種の音声処理では、例えば金属的な音声等の多様な声質の音声の生成と、声質変換に必要な処理負荷の軽減との両立が要求される。以上の事情を考慮して、本発明は、多様な声質の音声を簡便な処理で生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の音声処理装置は、周波数領域における音声信号の包絡線を表現する線スペクトル対を示す複数の係数値を算定する係数算定手段と、特定周波数の低域側では線スペクトル対の間隔が第1方向に変化し、特定周波数の高域側では線スペクトル対の間隔が第1方向とは反対の第2方向に変化するように、係数算定手段が算定した複数の係数値を調整する調整処理手段とを具備する。以上の構成では、周波数領域での音声信号の包絡線を表現する線スペクトル対の間隔が、特定周波数の低域側では第1方向に変化するとともに高域側では反対の第2方向に変化する。したがって、聴感的な金属性を変化させた多様な声質の音声を、線スペクトル対を示す係数値の調整という簡便な処理で生成することが可能である。
【0006】
本発明の好適な態様において、調整処理手段は、特定周波数の低域側では線スペクトル対の間隔が減少し、特定周波数の高域側では線スペクトル対の間隔が増加するように、複数の係数値を調整する。以上の態様によれば、金属性を強調した音声を生成することが可能である。
【0007】
本発明の好適な態様において、調整処理手段は、特定周波数の低域側の第1周波数における第1値から特定周波数における基準値まで減少するとともに、特定周波数の高域側の第2周波数における第2値まで基準値から増加する関数において複数の係数値の各々に対応する数値を、当該係数値に加算する。以上の態様では、特定周波数を境界として増減が反転する関数の数値が係数値に加算されるから、多様な声質の音声を生成するための処理の簡素化という前述の効果は格別に顕著である。
【0008】
本発明の好適な態様に係る音声処理装置は、第1値と第2値と基準値との少なくともひとつを可変に設定する変数設定手段を具備する。以上の態様では、係数値の調整用の関数を規定する各数値が可変に設定されるから、金属性の度合を相違させた多様な音声を生成することが可能である。例えば利用者からの指示に応じて各数値を設定する構成によれば、利用者の意図や嗜好に応じた多様な声質の音声を生成できるという利点がある。
【0009】
以上の各態様に係る音声処理装置は、専用の電子回路で実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、通信網を介した配信の形態で本発明のプログラムを提供してコンピュータにインストールすることも可能である。
また、本発明は、前述の各態様に係る音声処理装置の動作方法(音声処理方法)としても表現され得る。
【発明を実施するための形態】
【0011】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成図である。音声処理装置100には外部機器12から音声信号SXが供給される。音声信号SXは、発声者の声帯を含む発声器官で発生した声帯音声を声道および口腔等の調音器官で調音した特定の声質の音声(例えば歌唱音や会話音)を表す時間領域の信号である。本実施形態の音声処理装置100は、音声信号SXとは声質が相違する音声を表す時間領域の音声信号SYを音声信号SXから生成する信号処理装置(声質変換装置)である。音声処理装置100が生成した音声信号SYに応じた音響がスピーカやヘッドホン等の放音機器14から放射される。
【0012】
図1に例示される通り、音声処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムと演算処理装置22が使用する各種のデータとを記憶する。半導体記録媒体および磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に利用される。演算処理装置22は、記憶装置24に格納されたプログラムを実行することで、音声信号SXから音声信号SYを生成するための複数の機能(周波数解析部32,変換処理部34,波形生成部36)を実現する。なお、演算処理装置22の機能を複数の装置に分散した構成や、演算処理装置22の機能の一部または全部を音声処理専用の電子回路が実現する構成も採用され得る。
【0013】
周波数解析部32は、外部機器12から供給される音声信号SXの周波数スペクトルXを時間軸上の単位区間(フレーム)毎に順次に生成する。周波数スペクトルXの生成には例えば高速フーリエ変換(FFT:Fast Fourier Transform)等の公知の周波数分析が任意に採用され得る。
【0014】
変換処理部34は、音声信号SXの音高および音韻を維持しながら音声信号SXの声質を変換する。具体的には、第1実施形態の変換処理部34は、周波数解析部32が単位区間毎に生成する周波数スペクトルXに対する変換処理で音声信号SYの周波数スペクトルYを単位区間毎に順次に生成する。波形生成部36は、変換処理部34が単位区間毎に生成する周波数スペクトルYから時間領域の音声信号SYを生成する。波形生成部36が生成した音声信号SYが放音機器14に供給されて音波として放射される。
【0015】
第1実施形態の変換処理部34は、金属性の音声(metallic voice)を表す音声信号SYの周波数スペクトルYを音声信号SXの周波数スペクトルXから生成する。金属性の音声は、受聴者が金属的と感受する音声(例えばいわゆるキンキン声等の硬い音)である。金属性の音声の周波数特性について以下に検討する。
【0016】
図2は、金属性の度合を相違させて実際に発音された複数種の音声の周波数特性である。通常の音声(neutral)および金属性の音声(metallic)に加えて両者間の中間的な2種類の音声(neutral+delta,metallic-delta)について周波数特性が
図2では併記されている。他方、
図3は、
図2に例示された各音声から声帯音声の影響を除外した調音特性、すなわち声道および口腔等の調音器官で声帯音声に付加される周波数特性であり、音声の周波数スペクトルの包絡線に相当する。
【0017】
図3に例示される通り、金属性が増加するほど、調波特性のうち特定の周波数(以下「特定周波数」という)Rの低域側(具体的には2kHz〜8kHz)における強度(エネルギー)の増加と、特定周波数Rの高域側の周波数帯域(具体的には約18kHz以上)における強度の減少とが顕在化する、という傾向が観測される。以上の傾向を考慮して、第1実施形態の変換処理部34は、特定周波数Rの低域側の周波数成分が強調されるとともに高域側の周波数成分が抑制されるように音声信号SXの周波数スペクトルXの包絡線を調整することで、金属性の音声の周波数スペクトルYを生成する。特定周波数Rは、典型的にはシンギングフォルマントに対応する周波数である。具体的には、8kHz以上かつ18kHz以下の範囲内(13kHz±5kHz)の周波数(例えば13kHz)が特定周波数Rとして好適である。
【0018】
周波数スペクトルの包絡線(
図3の調音特性)は、周波数軸上に配置された複数の線スペクトル対で規定される自己回帰モデル(全極型伝達関数)で近似される。K次の自己回帰モデルの線スペクトル対は、以下の数式(1)の条件を充足する複数(K個)の係数値ωk(k=1〜K)で規定される。
0<ω1<ω2<ω3<……<ωK-1<ωK<π ……(1)
【0019】
各係数値ωkは、線スペクトル対を構成する線スペクトルの周波数(LSFパラメータ)に相当し、周波数軸上で各係数値ωkの周波数に設置される線スペクトルの疎密で包絡線のピークが表現される。具体的には、任意の1個の係数値ωkと当該係数値ωkの直近の係数値ωk+1との差分(すなわち、相互に隣合う第k番目および第(k+1)番目の各線スペクトル対の間隔)が小さいほど包絡線のピークが急峻で高強度であることを意味する。
【0020】
図4の特性F0(original)は、金属性の音声の周波数スペクトルの包絡線を表現するK個の係数値ω1〜ωKのうち相互に隣合う任意の2個の係数値(ωk,ωk+1)の間の差分(すなわち各線スペクトル対の間隔)Dを周波数軸上に図示したグラフである。
図4には、周波数軸上で特性F0を平滑化した特性F1(smoothed)が併記されている。
図4の特性F0および特性F1から理解される通り、金属性の音声では、周波数軸上の0Hzから特定周波数R(約13kHz)にかけて差分Dが減少し、特定周波数Rに対する高域側では差分Dが増加する、という概略的な傾向が観測される。
図4の特性F2(modeled)は、以上の傾向を近似的に表現する折線である。具体的には、低域側から特定周波数Rにかけて数値が減少するとともに特定周波数Rから高域側にかけて数値が増加するように選定された折線で特性F2は表現される。
【0021】
図5には、非金属性の通常の音声(modal voice)の周波数スペクトルの包絡線を表現するK個の係数値ωkに、以上に説明した特性F1(smoothed)および特性F2(modeled)の各数値を加算した場合の包絡線である。目標となる金属性の音声(target)の周波数スペクトルの包絡線が
図5には併記されている。
図5から理解される通り、K個の係数値ωkに特性F1または特性F2を付加することで、特定周波数Rの低域側の強調および高域側の抑制という金属性の音声(target)に特有の傾向が再現される。以上の知見を背景として、第1実施形態の変換処理部34は、音声信号SYの周波数スペクトルXの包絡線を表現する複数の係数値ωkに前述の近似的な特性F2を付与することで、金属性の音声の包絡線を表現する周波数スペクトルYを生成する。
【0022】
図6は、変換処理部34の構成図である。
図6に例示される通り、第1実施形態の変換処理部34は、係数算定部42と調整処理部44と声質変換部46とを包含する。
【0023】
係数算定部42は、周波数解析部32が算定した周波数スペクトルXの包絡線を表現する線スペクトル対のK個の係数値ωk(ω1〜ωK)を単位区間毎に順次に算定する。係数算定部42によるK個の係数値ωkの算定には公知の技術が任意に採用され得る。例えば、周波数スペクトルXの包絡線に対する逆フーリエ変換で算定される自己相関関数から周波数スペクトルXの包絡線の自己回帰モデルを例えばYule-Walker方程式で推定し、当該自己回帰モデルの係数からK個の係数値ωkを算定することが可能である。係数算定部42が算定するK個の係数値ωkは、前述の数式(1)の条件を充足する。
【0024】
図6の調整処理部44は、係数算定部42が算定するK個の係数値ωkの各々を調整することでK個の係数値ωk'(ω1'〜ωK')を単位区間毎に順次に算定する。調整処理部44による各係数値ωkの調整には、前述の特性F2を表現する関数Q(ω)が利用される。
【0025】
図7は、関数Q(ω)の説明図である。
図7に例示される通り、第1実施形態の関数Q(ω)は、特定周波数Rの低域側の周波数Ω1から特定周波数Rにかけて数値A1(=Q(Ω1))から数値(基準値)ARまで直線的に減少するとともに、特定周波数Rから高域側の周波数Ω2にかけて数値ARから数値A2(=Q(Ω2))まで直線的に増加する折線関数である(A1,A2>AR)。すなわち、周波数(角周波数ω)の増加に対する関数Q(ω)の変化の方向(増加/減少)は特定周波数Rを境界として逆転する。周波数Ω1は例えば0[rad](0[Hz])であり、周波数Ω2は例えばπ[rad](Fs/2[Hz])である。記号Fsは音声信号SXのサンプリング周波数を意味する。数値A1および数値A2は例えば0.01に設定され、数値ARは例えば-0.04に設定される。
【0026】
調整処理部44は、以下の数式(2)で表現される通り、関数Q(ω)において各係数値ωkに対応する数値Q(ωk)を当該係数値ωkに加算することで係数値ωk'(ω1'〜ωK')を算定する。
ωk'=ωk+Q(ωk) ……(2)
【0027】
図7には、周波数Ω1から特定周波数Rまでの周波数帯域BL内で相互に隣合う係数値ω1および係数値ω2と、特定周波数Rから周波数Ω2までの周波数帯域BH内で相互に隣合う係数値ω3および係数値ω4とが例示されている。調整処理部44による数式(2)の演算で各係数値ωkは以下のように変換される。
ω1'=ω1+Q(ω1)
ω2'=ω2+Q(ω2)
ω3'=ω3+Q(ω3)
ω4'=ω4+Q(ω4)
【0028】
したがって、係数値ω1'と係数値ω2'との差分(変換後の線スペクトル対の間隔)、および、係数値ω3'と係数値ω4'との差分は、以下のように表現される。
ω2'−ω1'=(ω2−ω1)−{Q(ω1)−Q(ω2)}
ω4'−ω3'=(ω4−ω3)+{Q(ω4)−Q(ω3)}
【0029】
周波数帯域BL内で関数Q(ω)は単調減少するから、数値Q(ω1)と数値Q(ω2)との差分{Q(ω1)−Q(ω2)}は正数である。したがって、変換後の係数値ω2'と係数値ω1'との差分(ω2'−ω1')は、変換前の係数値ω2と係数値ω1との差分(ω2−ω1)を下回る(ω2'−ω1'<ω2−ω1)。すなわち、特定周波数Rの低域側の周波数帯域BL内では、相互に隣合う各係数値ωkの差分が調整処理部44による処理で減少する。他方、周波数帯域BH内で関数Q(ω)は単調増加するから、数値Q(ω4)と数値Q(ω3)との差分{Q(ω4)−Q(ω3)}は正数である。したがって、変換後の係数値ω4'と係数値ω3'との差分(ω4'−ω3')は、変換前の係数値ω4と係数値ω3との差分(ω4−ω3)を上回る(ω4'−ω3'<ω4−ω3)。すなわち、特定周波数Rの高域側の周波数帯域BHでは、相互に隣合う各係数値ωkの差分が調整処理部44による処理で増加する。
【0030】
以上の説明から理解される通り、第1実施形態の調整処理部44は、特定周波数Rの低域側では線スペクトル対の間隔が減少し、特定周波数Rの高域側では線スペクトル対の間隔が増加するように、係数算定部42が算定したK個の係数値ωkを調整する。通常の音声(original)の音声信号SXから算定されるK個の係数値ωkに
図8の関数Q(ω)を適用した場合の各係数値ωk'で表現される包絡線(metallic)が
図9に図示されている。調整処理部44が前述の例示のように線スペクトル対の間隔を調整する結果、
図9からも理解される通り、調整処理部44による処理後の各係数値ωk'は、調整前の周波数スペクトルXの包絡線(original)と比較して、特定周波数Rの低域側の周波数成分が強調されるとともに高域側の周波数成分が抑制された金属性の音声の包絡線を表現する。
【0031】
図6の声質変換部46は、調整処理部44による処理後の各係数値ωk'で表現される包絡線の特性を音声信号SXの各単位区間の周波数スペクトルXに付与することで音声信号SYの周波数スペクトルYを単位区間毎に順次に生成する。具体的には、周波数スペクトルYの包絡線が変換後の各係数値ωk'の包絡線に合致するように周波数スペクトルXの各周波数の強度が調整される。声質変換部46が生成した周波数スペクトルYが
図1の波形生成部36に供給されて時間領域の音声信号SYに変換される。
【0032】
図10は、変換処理部34の動作のフローチャートである。周波数解析部32が音声信号SXの任意の1個の単位区間について周波数スペクトルXを算定するたびに
図10の処理が実行される。係数算定部42は、周波数スペクトルXの解析でK個の係数値ωkを算定する(S1)。調整処理部44は、係数算定部42が算定した係数値ωkを関数Q(ω)に適用して変換後の係数値ωk'を算定する(S2)。声質変換部46は、調整処理部44による処理後のK個の係数値ωk'で表現される包絡線の周波数特性を音声信号SXの周波数スペクトルXに付与することで金属性の音声の周波数スペクトルYを生成する(S3)。
【0033】
以上に説明した通り、第1実施形態では、周波数領域での音声信号SXの包絡線を表現する線スペクトル対の間隔(相互に隣合う係数値ωkの差分D)を、特定周波数Rの低域側では減少させるとともに高域側では増加させることで金属性の音声を生成する。したがって、金属性を増加させた多様な声質の音声を簡便な処理で生成することが可能である。
【0034】
第1実施形態では、低域側の周波数Ω1から特定周波数Rにかけて数値A1から数値ARに減少するとともに特定周波数Rから高域側の周波数Ω2にかけて数値ARから数値A2に増加する関数Q(ω)において各係数値ωkに対応する数値Q(ωk)を当該係数値ωkに加算することで変換後の係数値ωk'が算定される。したがって、処理の簡素化という前述の効果は格別に顕著である。
【0035】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において、作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0036】
図11は、第2実施形態における変換処理部34の構成図である。
図11に例示される通り、第2実施形態の変換処理部34は、第1実施形態と同様の要素(係数算定部42,調整処理部44,声質変換部46)に加えて変数設定部48を包含する。
【0037】
変数設定部48は、調整処理部44による係数値ωk'の算定に適用される各種の変数を設定する。具体的には、変数設定部48は、関数Q(ω)を規定する各数値A(A1,A2,AR)を利用者からの指示に応じて可変に設定する。調整処理部44は、変数設定部48が設定した各数値Aで規定される関数Q(ω)に各係数値ωkを適用することで変換後のK個の係数値ωk'を算定する。
【0038】
図12は、各数値Aを相違させた複数種の関数Q(ω)(Q1,Q2,Q3)のグラフである。また、非金属性の通常の音声(original)のK個の係数値ωkに
図12の各関数Q(ω)を適用した場合のK個の係数値ωk'で表現される包絡線(Q1,Q2,Q3)が
図13に図示されている。関数Q(ω)の各数値Aに応じて変換後の音声の金属性の度合が変化することが
図13から確認できる。具体的には、数値A1または数値A2と特定周波数Rでの数値ARとの差異が大きいほど、特定周波数Rの低域側の強調と高域側の抑制とが顕著となり、結果的に金属性の度合が高い音声が生成される。
【0039】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、関数Q(ω)を規定する各数値A(A1,A2,AR)が可変に設定されるから、金属性の度合を相違させた多様な音声を生成することが可能である。なお、第2実施形態では関数Q(ω)の各数値Aを制御したが、以上の構成に代えて(または以上の構成に加えて)、各数値Aに対応する周波数(Ω1,Ω2,R)を、変数設定部48が利用者からの指示に応じて可変に設定することも可能である。
【0040】
<変形例>
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0041】
(1)前述の各形態では、周波数領域での音声信号SXの包絡線を表現する線スペクトル対の間隔を特定周波数Rの低域側で減少させるとともに高域側で増加させる構成を例示したが、線スペクトル対の間隔の増減を逆転させることも可能である。すなわち、線スペクトル対の間隔を特定周波数Rの低域側で増加させるとともに高域側で減少させる構成も採用され得る。以上の構成によれば、例えば金属性の音声の音声信号SXから金属性が低い音声(聴感的に柔らかい印象の音声)を生成するこことが可能である。
【0042】
以上の例示から理解される通り、調整処理部44は、特定周波数Rの低域側では線スペクトル対の間隔が第1方向に変化し、特定周波数Rの高域側では線スペクトル対の間隔が第1方向とは反対の第2方向に変化するように、K個の係数値ωkを調整する要素として包括的に表現される。第1方向は増加および減少の一方であり、第2方向は増加および減少の他方である。
【0043】
(2)前述の各形態では、低域側の周波数Ω1から特定周波数Rにかけて直線的に減少するともに特定周波数Rから高域側の周波数Ω2にかけて直線的に増加する関数Q(ω)を例示したが、関数Q(ω)の内容は以上の例示(折線関数)に限定されない。例えば、周波数Ω1から特定周波数Rにかけて曲線的(例えば非線形または指数的)に減少するとともに特定周波数Rから周波数Ω2にかけて曲線的に増加する関数Q(ω)を利用することも可能である。
【0044】
(3)移動通信網やインターネット等の通信網を介して端末装置(例えば携帯電話機やスマートフォン)と通信するサーバ装置で音声処理装置100を実現することも可能である。具体的には、音声処理装置100は、端末装置から通信網を介して受信した音声信号SXから前述の各形態と同様の処理で音声信号SYを生成して端末装置に送信する。以上の構成によれば、声質変換を代行するクラウドサービスを端末装置の利用者に提供することが可能である。なお、音声信号SXの周波数スペクトルXが端末装置から音声処理装置100に送信される構成(例えば端末装置が周波数解析部32を具備する構成)では音声処理装置100から周波数解析部32が省略される。また、音声信号SYの周波数スペクトルYを音声処理装置100から端末装置に送信する構成(例えば端末装置が波形生成部36を具備する構成)では音声処理装置100から波形生成部36が省略される。さらに、端末装置が声質変換部46を具備する構成では、音声処理装置100から声質変換部46が省略され、調整処理部44が生成したK個の係数値ωk'が端末装置に送信される。