【解決手段】音声加工装置1の音声分析部14は、変換対象話者の平静音声の音声データからフレーム単位の音響特徴量を取得する。第一変換部151は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための規則を用いて、音声分析部14が取得した各フレームの音響特徴量を変換する。第二変換部152は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための規則を用いて、音声分析部14が取得した各フレームの音響特徴量を変換する。差分取得部153は、フレーム単位で、第二変換部152が得た音響特徴量について、第一変換部151が得た音響特徴量に対する差分を算出する。加工部154は、フレーム単位で、音声分析部14が取得した音響特徴量に、差分取得部153が算出した差分を加算する。
前記差分取得部は、前記第一変換部が変換により得た前記音響特徴量と前記第二変換部が変換により得た前記音響特徴量とを正規化した後、フレーム単位で差分を算出する、
ことを特徴とする請求項1に記載の音声加工装置。
前記変換対象話者の学習用の平静音声のデータである第一音声データと、前記第一音声データと同じ発話内容の参照話者の学習用の平静音声のデータである第二音声データとに基づいて前記第一変換規則を取得する処理と、前記第一音声データと、前記第一音声データと同じ発話内容の前記参照話者の学習用の感情音声のデータである第三音声データとに基づいて前記第二変換規則を取得する処理とを行う変換規則学習部をさらに備える、
ことを特徴とする請求項1または請求項2に記載の音声加工装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
様々なシチュエーションの音声に対し、多様な発話スタイルを付与できる音声加工方法を実現するためには、任意の話者の任意の発話内容の音声に対して、事前に感情音声のデータがなく、平静音声のデータも小規模しか与えられない場合でも、感情表現を付与できることが必要である。
【0005】
本発明は、このような事情を考慮してなされたもので、コストを低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる音声加工装置、及びプログラムを提供する。
【課題を解決するための手段】
【0006】
本発明の一態様は、変換対象話者の平静音声の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析部と、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第一変換部と、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第二変換部と、フレーム単位で、前記第二変換部が変換により得た前記音響特徴量について、前記第一変換部が変換により得た前記音響特徴量に対する差分を算出する差分取得部と、フレーム単位で、前記音声分析部が取得した前記音響特徴量に、前記差分取得部が算出した差分を加算する加工部と、を備えることを特徴とする音声加工装置である。
この発明によれば、音声加工装置は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、変換対象話者の平静音声の音声データの音響特徴量を変換して参照話者の平静音声の音響特徴量を得る。さらに、音声加工装置は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、変換対象話者の平静音声の音声データの音響特徴量を変換して参照話者の感情音声の音響特徴量を得る。音声加工装置は、参照話者の感情音声の音声データの音響特徴量について、参照話者の平静音声の音声データの音響特徴量に対する差分を得ると、得られた差分を変換対象話者の平静音声の音響特徴量に加算して、変換対象話者の感情音声の音響特徴量を得る。
これにより、音声加工装置は、変換対象話者の感情音声を事前に用意することなく、簡易な処理によって、任意の話者の任意の発話の平静音声を感情音声に加工することができる。
【0007】
本発明の一態様は、上述する音声加工装置であって、前記差分取得部は、前記第一変換部が変換により得た前記音響特徴量と前記第二変換部が変換により得た前記音響特徴量とを正規化した後、フレーム単位で差分を算出する、ことを特徴とする。
この発明によれば、音声加工装置は、第一変換規則を用いて変換対象話者の平静音声の音声データを変換して得た参照話者の平静音声の音響特徴量と、第二変換規則を用いて変換対象話者の平静音声の音声データの音響特徴量を変換して得た参照話者の感情音声の音響特徴量とに正規化を行ってからそれらの差分を算出し、変換対象話者の平静音声の音響特徴量に加算する。
これにより、音声加工装置は、変換対象話者の任意発話を、変換対象話者の感情音声に精度よく変換することができる。
【0008】
本発明の一態様は、上述する音声加工装置であって、前記変換対象話者の学習用の平静音声のデータである第一音声データと、前記第一音声データと同じ発話内容の参照話者の学習用の平静音声のデータである第二音声データとに基づいて前記第一変換規則を取得する処理と、前記第一音声データと、前記第一音声データと同じ発話内容の前記参照話者の学習用の感情音声のデータである第三音声データとに基づいて前記第二変換規則を取得する処理とを行う変換規則学習部をさらに備える、ことを特徴とする。
この発明によれば、音声加工装置は、同じ発話内容の変換対象話者の平静音声の音声データと、参照話者の平静音声及び感情音声の音声データとを用いて、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則及び変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を学習する。
これにより、音声加工装置は、変換対象話者の感情音声がなくとも、変換対象話者の平静音声と、参照話者の平静音声及び感情音声との少量の学習データを用いて、コストを低減しながら、変換規則を得ることができる。
【0009】
本発明の一態様は、上述する音声加工装置であって、前記音響特徴量は、周波数スペクトルに関する特徴量である、ことを特徴とする。
この発明によれば、音声加工装置は、音響特徴量として、音声波形から得られる周波数スペクトルに関する特徴量を用いる。
これにより、音声加工装置は、変換対象話者の任意発話の声質を変換して、変換対象話者の感情音声に変換することができる。
【0010】
本発明の一態様は、コンピュータを、変換対象話者の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析手段と、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第一変換手段と、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第二変換手段と、フレーム単位で、前記第二変換手段が変換により得た前記音響特徴量について、前記第一変換手段が変換により得た前記音響特徴量に対する差分を算出する差分取得手段と、フレーム単位で、前記音声分析手段が取得した前記音響特徴量に、前記差分取得手段が算出した差分を加算する加工手段と、を具備する音声加工装置として機能させるためのプログラムである。
【発明の効果】
【0011】
本発明によれば、コストを低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による音声加工装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置1は、1台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置1を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置1は、学習用音声分析部11と、変換規則学習部12と、変換規則記憶部13と、音声分析部14と、スペクトル変換部15と、音声合成部16とを備えて構成される。
【0014】
学習用音声分析部11は、学習用音声データが示す音声波形を分析し、所定のフレームシフト及びフレーム長により、フレーム単位の音響特徴量を取得する。音響特徴量には、周波数スペクトルに関する特徴量を用いることができる。本実施形態では、音響特徴量として、音声波形の周波数スペクトルから得られる50次元のスペクトルパラメータ(例えば、メルケプストラム)を用いる。音声波形から周波数スペクトルを取得する方法や、周波数スペクトルに関する特徴量を取得する方法には、任意の従来技術を用いることができる。学習用音声データは、同じ発話内容の変換対象話者の学習用平静音声データ(第一音声データ)と、参照話者の学習用平静音声データ(第二音声データ)及び学習用感情音声データ(第三音声データ)である。変換対象話者は、任意発話の平静音声の音声データを感情音声の音声データに変換する対象の話者であり、参照話者は、学習用の音声データを提供する、変換対象話者とは異なる話者である。学習用平静音声データは、学習用の平静音声の音声データであり、学習用感情音声データは、学習用の感情音声の音声データである。また、平静音声は、感情が込められていない音声であり、感情音声は、感情が込められた音声である。参照話者の学習用感情音声データは、変換対象話者の任意発話の平静音声に対して付加したい感情が込められた音声である。
【0015】
変換規則学習部12は、学習用音声分析部11が取得した変換対象話者の学習用平静音声データの音響特徴量と、参照話者の学習用平静音声データの音響特徴量とに基づいて第一変換規則を取得する。第一変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための規則である。また、変換規則学習部12は、学習用音声分析部11が取得した変換対象話者の学習用平静音声データの音響特徴量と、参照話者の学習用感情音声データの音響特徴量とに基づいて第二変換規則を取得する。第二変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための規則である。
変換規則記憶部13は、変換規則学習部12が取得した第一変換規則及び第二変換規則を記憶する。
【0016】
音声分析部14は、変換対象話者の変換対象音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得する。変換対象音声データは、変換対象話者の任意発話の平静音声の音声データである。
スペクトル変換部15は、変換対象話者の任意発話の平静音声のスペクトルを、感情音声のスペクトルに変換する。スペクトル変換部15は、第一変換部151、第二変換部152、差分取得部153、及び加工部154を備えて構成される。
第一変換部151は、音声分析部14が変換対象音声データから得た各フレームの音響特徴量を、変換規則記憶部13に記憶されている第一変換規則を用いて変換する。
第二変換部152は、音声分析部14が変換対象音声データから得た各フレームの音響特徴量を、変換規則記憶部13に記憶されている第二変換規則を用いて変換する。
差分取得部153は、フレーム単位で、第二変換部152が変換により得た音響特徴量について、第一変換部151が変換により得た音響特徴量に対する差分を算出する。
加工部154は、フレーム単位で、音声分析部14が取得した音響特徴量に、差分取得部153が算出した差分を加算する加工をする。
音声合成部16は、加工部154が加工して得たフレーム単位の音響特徴量に基づいて音声データを合成し、出力する。
【0017】
なお、学習用音声分析部11、変換規則学習部12、及び、変換規則記憶部13を外部の装置が備え、事前に第一変換規則及び第二変換規則を学習して変換規則記憶部13に記憶しておき、必要な都度、第一変換部151、第二変換部152がそれぞれ、変換規則記憶部13から第一変換規則、第二変換規則を取り込むようにしてもよい。
【0018】
図2は、音声加工装置1の変換規則学習処理を示す処理フローである。
まず、音声加工装置1に、同じ文章を読み上げた変換対象話者の学習用平静音声データと、参照話者の学習用平静音声データ及び学習用感情音声データとが入力される。この文章には、様々な音素と、その音素の様々な並びがバランスよく含まれる音素バランス文を用いることが望ましい。
【0019】
学習用音声分析部11は、変換対象話者の学習用平静音声データが示す音声波形を音響分析し、フレーム単位の音響特徴量を取得する(ステップS110)。同様に、学習用音声分析部11は、参照話者の学習用平静音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得し(ステップS120)、参照話者の学習用感情音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得する(ステップS130)。
【0020】
変換規則学習部12は、変換対象話者の学習用平静音声データから得られた音響特徴量と、参照話者の学習用平静音声データから得られた音響特徴量とを、それらの値の類似性に基づいてフレーム単位で対応付ける(ステップS140)。変換規則学習部12は、対応付けられたフレームにおける変換対象話者の学習用平静音声データの音響特徴量及び参照話者の学習用平静音声データの音響特徴量に基づいて第一変換規則を算出する(ステップS150)。第一変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための関数である。この第一変換規則として得られた関数を、「第一変換関数」と記載する。変換規則学習部12は、算出した第一変換関数を変換規則記憶部13に書き込む。
【0021】
さらに、変換規則学習部12は、変換対象話者の学習用平静音声データから得られた音響特徴量と、参照話者の学習用感情音声データから得られた音響特徴量とを、それらの値の類似性に基づいてフレーム単位で対応付ける(ステップS160)。変換規則学習部12は、対応付けられたフレームにおける変換対象話者の学習用平静音声データの音響特徴量及び参照話者の学習用感情音声データの音響特徴量に基づいて第二変換規則を算出する(ステップS170)。第二変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための関数である。この第二変換規則として得られた関数を、「第二変換関数」と記載する。この第二変換関数には、第一変換関数と同様に算出される。変換規則学習部12は、算出した第二変換関数を変換規則記憶部13に書き込む。
【0022】
なお、音声加工装置1は、ステップS110〜ステップS130の各処理を、並行して実行してもよく、任意の順番で実行してもよい。また、音声加工装置1は、ステップS140〜ステップS150の処理とステップS160〜ステップS170の処理とを、並行して実行してもよく、任意の順番で実行してもよい。
【0023】
図3は、音声加工装置1の
図2に示す変換規則学習処理を説明するための図である。
図2のステップS110において、学習用音声分析部11は、変換対象話者の学習用平静音声データからフレーム単位の音響特徴量A1、A2、A3、…を取得する。Ai(iは1以上の整数)は、変換対象話者の学習用平静音声データが示す音声波形から得られたi番目のフレームの音響特徴量である。
また、
図2のステップS120において、学習用音声分析部11は、参照話者の学習用平静音声データからフレーム単位の音響特徴量B1、B2、B3、…を取得する。Bj(jは1以上の整数)は、参照話者の学習用平静音声データが示す音声波形から得られたj番目のフレームの音響特徴量である。
また、
図2のステップS130において、学習用音声分析部11は、参照話者の学習用感情音声データからフレーム単位の音響特徴量C1、C2、C3、…を取得する。Ck(kは1以上の整数)は、参照話者の学習用感情音声データが示す音声波形から得られたk番目のフレームの音響特徴量である。
【0024】
図2のステップS140において、変換規則学習部12は、音響特徴量A1、A2、A3、…と、音響特徴量B1、B2、B3、…とを、50次元のスペクトルパラメータによる距離尺度を用いて、動的計画法(DTW)などにより対応付ける。
図2のステップS150において、変換規則学習部12は、対応付けられた音響特徴量Aiと音響特徴量Bjの組から第一変換関数を算出する。この第一変換関数には、例えば、以下の参考文献1に記載の技術により算出される変換関数を用いることができる。この技術によれば、ある話者の音響特徴量と、他の話者の音響特徴量との結合確率密度をGMM(Gaussian Mixture Model、ガウス混合分布)で表現した確率モデルが変換関数として得られる。
【0025】
(参考文献1)Tomoki Toda、外2名、"Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory"、IEEE Trans. ASLP、Vol.15、No.8、p.2222-2235、2007年
【0026】
図2のステップS160において、変換規則学習部12は、音響特徴量A1、A2、A3、…と、音響特徴量C1、C2、C3、…とを、ステップS140の処理と同様に、動的計画法(DTW)などにより対応付ける。
図2のステップS170において、変換規則学習部12は、ステップS150の処理と同様に、対応付けられた音響特徴量Aiと音響特徴量Ckの組から第二変換規則を算出する。
【0027】
図4は、音声加工装置1の音声加工処理を示す処理フローである。
音声加工装置1に、変換対象話者の任意発話の平静音声のデータである変換対象音声データが入力される。音声分析部14は、変換対象音声データが示す音声波形を音響分析し、フレーム単位の音響特徴量を取得する(ステップS210)。
【0028】
スペクトル変換部15の第一変換部151は、変換対象音声データから得られた各フレームの音響特徴量を、変換規則記憶部13に記憶されている第一変換関数により変換する(ステップS220)。これにより、既存技術の確率モデルによる声質変換を利用して、変換対象音声データから得られた各フレームの音響特徴量を表すスペクトルパラメータが、参照話者の平静音声の音響特徴量を表すスペクトルパラメータに変換される。
【0029】
第二変換部152は、変換対象音声データから得られた各フレームの音響特徴量を、変換規則記憶部13に記憶されている第二変換関数により変換する(ステップS230)。これにより、既存技術の確率モデルによる声質変換を利用して、変換対象音声データから得られた各フレームの音響特徴量を表すスペクトルパラメータが、参照話者の感情音声の音響特徴量を表すスペクトルパラメータに変換される。
【0030】
差分取得部153は、第一変換部151が変換により得た参照話者の平静音声の音響特徴量と、第二変換部152が変換により得た参照話者の感情音声の音響特徴量とを、例えば、Cepstrum Mean Normalization(ケプストラム平均正規化)により正規化する(ステップS240)。差分取得部153は、フレーム単位で、正規化された参照話者の感情音声の音響特徴量について、正規化された参照話者の平静音声の音響特徴量に対する差分を算出する(ステップS250)。加工部154は、フレーム単位で、音声分析部14により取得した音響特徴量が示すスペクトルパラメータに、差分取得部153が算出した差分を加算することにより加工する(ステップS260)。音声合成部16は、加工部154が加工して得たフレーム単位の音響特徴量に基づいて音声データを合成し、出力する(ステップS270)。
【0031】
なお、音声加工装置1は、ステップS220及びステップS230の処理を、並行して実行してもよく、任意の順番で実行してもよい。
【0032】
図5は、音声加工装置1の音声加工処理における参照話者の音響特徴量への変換を説明するための図である。同図は、
図4のステップS210〜ステップS230の処理を示す。
図4のステップS210において、音声分析部14は、変換対象音声データからフレーム単位の音響特徴量D1、D2、D3、…を取得する。Di(iは1以上の整数)は、変換対象音声データが示す音声波形から得られたi番目のフレームの音響特徴量である。
図4のステップS220において、第一変換部151は、音響特徴量D1、D2、D3、…のそれぞれを第一変換関数により変換し、参照話者の平静音声の音響特徴量E1、E2、E3、…を得る。音響特徴量Diから変換により、音響特徴量Eiが得られる。
図4のステップS230において、第二変換部152は、音響特徴量D1、D2、D3、…のそれぞれを第二変換関数により変換し、参照話者の感情音声の音響特徴量F1、F2、F3、…を得る。音響特徴量Diから変換により、音響特徴量Fiが得られる。
【0033】
図6は、音声加工装置1の音声加工処理における音響特徴量の差分の取得を説明するための図である。同図は、
図4のステップS240〜S250の処理を示す。
図4のステップS240において、差分取得部153は、変換対象音声データの音響特徴量を第一変換関数により変換して得た参照話者の平静音声の音響特徴量E1、E2、E3、…を正規化し、音響特徴量E1’、E2’、E3’、…を得る。さらに、差分取得部153は、変換対象音声データの音響特徴量を第二変換関数により変換して得た参照話者の感情音声の音響特徴量F1、F2、F3、…を正規化し、音響特徴量F1’、F2’、F3’、…を得る。
図4のステップS250において、差分取得部153は、参照話者の感情音声の音響特徴量Fi’について、参照話者の平静音声の音響特徴量Ei’に対する差分Giを算出する。つまり、差分取得部153は、差分Gi=音響特徴量Fi’−音響特徴量Ei’を算出する。
【0034】
図7は、音声加工装置1の音声加工処理における変換対象話者の変換対象音声の音響特徴量の加工を説明するための図である。同図は、
図4のステップS260の処理を示す。
図4のステップS260において、加工部154は、変換対象音声データの音響特徴量Diに、差分取得部153が算出した差分Giを加算し、変換対象話者の感情音声の音響特徴量Hiに加工する。つまり、加工部154は、音響特徴量Hi=音響特徴量Di+差分Giを算出する。
図4のステップS270において、音声合成部16は、音響特徴量H1、H2、H3、…に基づいて音声データを合成し、出力する。
【0035】
上述した実施形態によれば、音声加工装置1は、事前学習に、数十文の変換対象話者の平静音声と、参照話者の平静音声及び感情音声のパラレルデータを利用できればよい。従って、HMM音声合成のような音声データベースを利用する従来技術と比較して、事前学習のために必要なデータ数も少なく、学習のためのコストも低減することができる。また、複数の変換対象話者がいる場合でも、それぞれの変換対象話者について数十文の平静音声のデータのみがあればよく、事前の準備が容易である。また、学習に変換対象話者の感情音声が不要であるため、テキストデータから音声合成された音声データを、変換対象話者の音声データとして用いることができる。
【0036】
また、上述した実施形態によれば、音声加工装置1は、事前学習に得られた変換規則を利用して、変換対象話者の任意発話の平静音声のスペクトルを参照話者の平静音声のスペクトル及び感情音声のスペクトルに加工し、それらの差分をフレーム毎に算出する。音声加工装置1は、フレーム毎に、変換対象話者の任意発話の平静音声のスペクトルに、算出した差分を加算して、変換対象話者の感情音声のスペクトルを得る。変換対象話者の任意発話の平静音声から得られたスペクトルのフレームと、加算すべき差分のフレームとは、時刻順に1対1で対応しているため、フレーム間の対応付けなどの処理を行う必要なく、簡易な処理により加工を行うことができる。このように、音声加工装置1は、変換対象話者の任意発話の平静音声のスペクトルに、参照話者の感情音声のスペクトルの特徴を付与し、変換対象話者の平静音声の声質を感情表現の声質に変換することができる。
【0037】
なお、上述の音声加工装置1は、内部にコンピュータシステムを有している。そして、音声加工装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0038】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。