【新規性喪失の例外の表示】特許法第30条第2項適用 (発行所)一般社団法人 電子情報通信学会、(刊行物名)信学技報,vol.114,No.365,SP2014−126(2014−12),pp.165−170、(発行日)平成26年12月8日、において発表 「電子情報通信学会 第16回音声言語シンポジウム」において、平成26年12月16日に発表 掲載ウェブサイトのアドレス(▲1▼http://www.ieice.org/ken/paper/20141216UBVc/,▲2▼https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=107377&item_no=1,▲3▼https://www.ieice.org/ken/user/index.php?cmd=login&back_ url=http%3A%2F2%2Fwww.ieice.org%2Fken%2Fpaper%2F20141216UBVc%2F,▲4▼https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=107377&file_id=1& file_no=1)において、平成26年12月8日に発表 (発行所)一般社団法人 日本音響学会、(刊行物名)日本音響学会2015年春季研究発表会講演論文集,3−2−3,pp.279−282、(発行日)平成27年3月6日(頒布日 平成27年3月16日)、において発表 「日本音響学会 2015年春季研究発表会」において、平成27年3月18日に発表 掲載ウェブサイトのアドレス(http://www.asj.gr.jp/annualmeeting/pdf/2015spring_onkyo_web_03.pdf)において、平成27年3月6日に発表
【文献】
中鹿 亘,話者依存型Recurrent Temporal Restricted Boltzmann Machineを用いた声質変換,日本音響学会 2014年 秋季研究発表会講演論文集CD−ROM [CD−ROM],日本,2014年 9月,P. 219-222
(58)【調査した分野】(Int.Cl.,DB名)
前記結合重みは、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、前記非依存重みと、S人のそれぞれの話者の依存重みとを用いた演算によって表わされる
請求項1に記載の声質変換方法。
【発明を実施するための形態】
【0016】
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0017】
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0018】
(概要)
まず、本実施の形態における声質変換方法について、概要を説明する。
【0019】
本実施の形態における声質変換方法は、確率モデルの一つであるRBM(Restricted Boltzmann Machine)を拡張したモデルである適応型RBM(adaptive restricted Boltzmann machine;ARBM)を用いて、入力話者−出力話者間のパラレルデータだけではなく、参照話者間のパラレルデータさえも必要としない声質変換方法である。
【0020】
この適応型RBMは、複数の話者が混在する音声データから、話者に依存しない情報と話者に依存した情報とに分離しながら、潜在的な特徴を抽出する確率モデルである。このモデルは可視素子層と隠れ素子層からなる無向グラフで表現され、同層素子間の結合はなく、異層素子間のみ話者に依存した強度(重み)で結合が存在する。さらに、この重みは話者依存項と話者非依存項で表現され、複数の話者が混在した音声データ(パラレルである必要はない)を用いて、それぞれが教師なし学習で同時に推定される。結果として、話者依存重みと話者非依存重みに分離しながら潜在特徴(隠れ素子)を得ることができる。任意話者への声質変換を行う際、まず、複数の話者(参照話者)のデータを用いて、上記のように話者依存重みと話者非依存重みとを同時推定する。次に、変換を行いたい話者(入力話者)の(少量の)データを用いて、話者非依存重みを固定しながら新たな話者依存重みを推定する。変換先の話者(出力話者)の話者依存重みに関しても同様に推定する。そして、変換したい音声(入力話者の音声)から、入力話者の話者依存重み、話者非依存重みを用いて潜在特徴を推定し、その後、出力話者の話者依存重み、話者非依存重みを用いて音響特徴ベクトルを逆推定することで変換音声を得る。
【0021】
GMMやNMFなど、従来の声質変換方法の多くは線形変換をベースとしているため、変換精度には限界がある。つまり、人の声道形状は非線形的であるため、音声信号に含まれる声質の特性をより正確に捉えるためには非線形ベースのモデル化の方が線形ベースよりも適切であると考えられる。本実施の形態における声質変換方法も非線形関数をベースとした変換式を用いており、精度の高い声質変換を行うことができる。
【0022】
(RBM)
次に、本実施の形態における適応型RBMの基礎となるRBMについて説明する。
【0023】
図1は、RBMのグラフ構造を示す図である。
【0024】
RBMは、特殊な構造を持つ2層ネットワークであり、
図1のように、可視層(可視素子層)と隠れ層(隠れ素子層)の確率変数分布を表現する無向グラフィカルモデルである。元々、RBMはバイナリデータを入力させるモデルとして提案されていたが、後に連続値を入力させるモデル(Gaussian−Bernoulli RBM;GBRBM)が考案された。しかしながらこのモデルは、分散項の影響で学習が不安定になるという問題があったため、GBRBMの改良版(Improved GBRBM; ImpGBRBM)が提案された。このImpGBRBMでは、連続値の可視素子
【数1】
と2値の隠れ素子
【数2】
の同時確率
【数3】
は、以下のように表される。
【0026】
ここで、
【数7】
はL2ノルム、括線は要素除算を表す。
【0028】
はそれぞれ可視層−隠れ層間の重み行列、可視素子の偏差、可視素子のバイアス、隠れ素子のバイアスを示しており、いずれも推定すべきパラメータである。
【0029】
RBMでは可視素子間、または隠れ素子間の接続は存在しない。つまり、それぞれの可視素子、隠れ素子は互いに条件付き独立である。したがって、それぞれの条件付き確率
【数9】
は以下の様な単純な関数で表現される。
【0031】
ここで、
【数12】
と
【数13】
は
【数14】
の第j列ベクトル、第i行ベクトルを表す。また、
【数15】
は要素ごとのシグモイド関数
【数16】
【数17】
は平均、分散σ
2の正規分布を表す。
【0032】
それぞれのRBMのパラメータ
【数18】
は、N個の観測データを
【数19】
とするとき、この確率変数の対数尤度
【数20】
を最大化するように推定される。この対数尤度をそれぞれのパラメータで偏微分すると、
【数21】
【数22】
【数23】
が得られる。ただし、<・>
dataと<・>
modelはそれぞれ、観測データ、モデルデータの期待値を表す。しかし、一般に後者の期待値に関しては計算困難であるため、代わりに式(4)(5)によって得られる再構築したデータの期待値<・>
reconが用いられる(CD:Contrastive Divergence法)。また、ImpGBRBMでは分散を非負値に制約し、学習を安定化させるため
【数24】
と置き換える。これにより、z
iに関する勾配は以下のように計算される。
【0034】
それぞれのパラメータは式(6)(7)(8)から、確率的勾配法を用いて繰り返し更新される(初期値はランダムに設定される)。すなわち、
【数26】
のように、RBMのそれぞれのパラメータが更新される。ここで、γ
θは学習率を表す。
【0035】
(適応型RBMと声質変換への応用)
本実施の形態では、上述のRBMを拡張したモデルとして、適応型RBM(Adaptive restricted Boltzmann machine;ARBM)を定義し、声質変換タスクへ応用する。
【0036】
(適応型RBMの定義)
図2は、適応型RBMのグラフ構造を示す図である。
【0037】
適応型RBMは、
図2のように、通常のRBMで見られた可視素子と隠れ素子だけでなく、識別素子
【数27】
が加わったモデルとなっている(
【数28】
は識別素子の数とする)。例えば声質変換において、入力
【数29】
が話者kの発話であることを示す場合、
【数30】
となる。このモデルでは、可視素子と隠れ素子の間には識別素子
【数31】
で制御される結合重みが存在する。この結合重みを
【数32】
とし、本実施の形態ではこれを以下のように定義する。
【0038】
【数33】
ただし、
【数34】
はいずれも、話者依存重みであって、不特定重み行列
【数35】
を特定化(適応)するための3階のテンソルパラメータ
【数36】
である。また、
【数37】
は、モードdを展開した3階テンソル
【数38】
の各行列とベクトル
【数39】
の内積をとる演算子を表す。声質変換の場合、
【数40】
が不特定話者による結合重み、つまり、話者非依存重みであり、
【数41】
が話者kの適応行列及びバイアス行列を表す(ただし
【数42】
は3階テンソル
【数43】
のモード3の第k行列を表す)。
【0039】
適応型RBMでは、式(11)で定義した
【数44】
を用いて、可視素子
【数45】
、隠れ素子
【数46】
、識別素子
【数47】
の同時確率
【数48】
を以下のように定義する。
【0040】
【数49】
【数50】
【数51】
これらの定義により、条件付き確率
【数52】
は以下のように計算できる。
【0042】
適応型RBMのパラメータ
【数55】
は、N個の学習データ
【数56】
を用いて、対数尤度
【数57】
を最大化するように推定される。この対数尤度を
【数58】
の要素
【数59】
で偏微分したものは、それぞれ
【数60】
【数61】
【数62】
と計算できる。他のパラメータ
【数63】
に関しては、それぞれ式(7)、(9)、(8)と同様にして求められる。適応型RBMにおいても、CD法を適用することができるため、各偏微分値の第二項<・>
modelを観測データの再構築値<・>
reconとして計算することで効率よくパラメータを推定することができる。
【0043】
(適応型RBMを用いた声質変換)
本実施の形態における声質変換装置は、上述の適応型RBMを用いて入力話者の音声の声質を任意の出力話者(目標話者)の声質に変換する。
【0044】
図3は、本実施の形態における声質変換装置の構成を示すブロック図である。
【0045】
本実施の形態における声質変換装置10は、入力話者の音声の声質を目標話者の声質に変換する装置であって、非依存重み推定部11と、依存重み推定部12と、隠れ素子層推定部13と、可視素子層推定部14とを備える。
【0046】
非依存重み推定部11は、上述のように、N個の学習データを用いて、適応型RBMのパラメータ
【数64】
を、対数尤度を最大化するように推定する。つまり、非依存重み推定部11は、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重み
【数65】
のうち、話者に依存しない重み
【数66】
を話者非依存重みとして推定する。ここで、上述の結合重みは、式(11)に示すように、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、話者非依存重みと、S人のそれぞれの話者の話者依存重みとを用いた演算によって表わされる。また、N個の学習データは、N人の話者(参照話者)から発話される互いに異なる発話内容の音声、つまり非パラレルデータであってもよい。
【0047】
依存重み推定部12は、RBMにおいて上述の話者非依存重みを固定した状態で、結合重みのうち、入力話者に依存する重み
【数67】
と、目標話者に依存する重み
【数68】
とをそれぞれ話者依存重みとして推定する。具体的には、依存重み推定部12は、入力話者の音声に基づいて入力話者の話者依存重みを推定し、目標話者の音声に基づいて目標話者の話者依存重みを推定する。このとき、依存重み推定部12は、入力話者と目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、つまり、非パラレルデータに基づいて、入力話者および目標話者のそれぞれの話者依存重みを推定してもよい。
【0048】
隠れ素子層推定部13は、可視素子層に入力される入力話者の音声と、上述の入力話者の話者依存重みとに基づいて、隠れ素子層
【数69】
を推定する。
【0049】
可視素子層推定部14は、隠れ素子層と、目標話者の話者依存重みとに基づいて、可視素子層として出力される目標話者の音声
【数70】
を推定する。
【0050】
図4は、本実施の形態における声質変換装置10の処理動作を示すフローチャートである。
【0051】
まず、声質変換装置10の非依存重み推定部11は、
図4のように、まず複数(S人)の参照話者によるデータ(音声)を用いて適応型RBMの各パラメータ
【数71】
を同時推定する(ステップS1)。
【0052】
次に、依存重み推定部12は、
【数72】
など話者に依存しないパラメータ(話者非依存重み)を固定して、入力話者および目標話者の音声である適応データを用いて、入力話者と目標話者の話者依存重み
【数73】
を適応パラメータとして、式(18)(19)より推定する(ステップS2)。
【0053】
そして、隠れ素子層推定部13は、入力話者の変換される音声のフレーム音響特徴量
【数74】
から、次式のように潜在特徴量(隠れ素子層)を推定する(ステップS3)。
【0054】
【数75】
ただし、
【数76】
は第
【数77】
要素のみ1、他を0とするベクトルとする。また、同時に変数
【数78】
の長さを
【数79】
へ拡張し、
【数80】
をモード3に沿ってそれぞれ
【数81】
を追加するものとする。式(20)を書き直すと、
【数82】
が得られ、話者に依存しない項
【数83】
を入力話者に適応させた結合重みを用いて潜在特徴量を推定していることになる。また式(21)は、一度適応型RBMの学習が終われば
【数84】
は変数
【数85】
の関数となるので、
【数86】
は話者に依存しない潜在特徴量であることを示唆している。すなわち、話者性は
【数87】
のみで制御され、
【数88】
は話者に依存しない音韻に近い情報を表すと考えられる。したがって、出力話者(目標話者)の話者性を持つ音声を得たい場合、音韻情報
【数89】
から、
【数90】
を用いて音響特徴量を復元すればよい。すなわち、可視素子層推定部14は、出力話者の変換先のフレーム特徴量
【数91】
を以下のように計算する(ステップS4)。
【0056】
これは、入力話者の音声から得られた音韻情報を基に、話者非依存重みを出力話者(目標話者)に適応した基底を用いて、出力話者の音響特徴量を生成していることを表している。また、式(21)(22)にもあるように、入力話者の音響特徴量
【数93】
を出力話者の音響特徴量
【数94】
へ変換する際、
【数95】
の推定に非線形関数を用いているため、本実施の形態における声質変換方法は非線形変換ベースの声質変換だと言える。
【0057】
なお、現実の音声データを使って適応型RBMを学習する場合、話者は豊富に存在するが、それぞれの発話データは少ないといったケースがある。この場合、
【数96】
の推定に用いられるデータは十分存在するが、適応パラメータ
【数97】
を推定するためのデータが少量となるため、誤推定もしくは過学習の要因となる。そこで本実施の形態による後述の評価実験では、
【数98】
を対角行列、
【数99】
を各列が等しい行列で近似することでパラメータ数を抑える。
【0058】
(評価実験)
本実施の形態における声質変換方法の評価実験について、以下、
図5〜
図7を用いて詳細に説明する。
【0059】
(実験条件)
本実験では、英語圏の複数の話者による音声が含まれたコーパスであるTIMITを用いて、本実施の形態における適応型RBMを用いた声質変換方法の精度を調べた。なお、TIMITについては、文献「J. S. Garofolo, L. D. Consortium, et al.: "TIMIT: acoustic-phonetic continuous speech corpus", Linguistic Data Consortium (1993)」に詳細に記述されている。
【0060】
このコーパスから、話者非依存パラメータ(話者非依存重み)の推定のために、参照話者として38名(内女性14名、男性24名)を選んだ。各話者からは、5文の発話データを学習に用いている(学習に用いた総フレーム数はおよそ27万)。本実施の形態における声質変換方法を評価するために、女性4名、男性4名の音声を用いて入力話者・出力話者のペア(計28ペア)を作成し、異性間及び同性間の声質変換の性能比較を行った。このとき、入力・出力話者のパラレルデータ(同一発話内容による、学習データには含まれない2文のデータから動的計画法によって作成)を用いてSDIR(spectral distortion improvement ratio)による評価をおこなっている。音響特徴量として、STRAIGHTスペクトルから計算された32次元のMFCC(Mel−Frequency Cepstrum Coefficients)を用いた。なお、STRAIGHTスペクトルについては、文献「H. Kawahara, M. Morise, T. Takahashi, R. Nisimura,T. Irino and H. Banno: "TANDEM-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation", ICASSP, pp. 3933-3936 (2008)」に詳細に記述されている。
【0061】
適応型RBMにおける学習率、バッチサイズ、繰り返し回数はそれぞれ0:005、50、500とした。隠れ素子数を128、192、256、512と変えて比較を行った。
【0062】
(実験結果と考察)
図5は、本実施の形態における声質変換方法による声質変換の結果を示す図である。例えば、female−to−femaleでは、評価用の女性4名の音声を、それぞれ他の女性3名へ変換し、全フレームのSDIRの平均をとったものを表す。「avg.」は全組み合わせの平均値である。
図5から、一部を除いて隠れ素子数が増加すれば変換精度が向上していることが分かる。隠れ素子数が512と256の結果を比較すると、512の場合は男性への変換(female−to−male,male−to−male)で優っている。しかし、女性への変換(female−to−female,male−to−female)で精度が下がってしまい、結果として全平均のSDIR値が低くなってしまっている。この理由として、パラメータ数の増加に伴い、モデルが過学習しているためだと考えられる(男性と女性の話者数は24対14であり、隠れ素子数512のモデルでは変換音声が男性側へ強く反応していることからも過学習が窺える)。
【0063】
図6は、本実施の形態における声質変換方法によって、実際に推定されたパラメータを示す図である。
図6における(a)、(b)および(c)はそれぞれ、
【数100】
の一部を示す。
【0064】
【数101】
に関しては、対角行列として近似した
【数102】
の対角成分を列ベクトルとして話者ごとに並べた行列を示しており、
【数103】
も同様に話者ごとに並べた列ベクトルを示している。
図6の(b)および(c)において、左14列ベクトルは女性話者、右24列ベクトルは男性話者に相当する。この
図6から分かるように、
【数104】
の各々の列ベクトルは同性間で類似性が高く、異性間で類似性が低いベクトルとなっている。これは、音声を聴いて話者の違いを認識する際、個人の差異よりも性別の違いをより大きく感じ取っているという直感と一致する。
【0065】
図7は、本実施の形態における声質変換方法によって女性話者の音声(コーパスではFCJF0)を男性話者の音声(MWAR0)へ変換した例を示す図である。この例では、FCJF0のある時刻における対数スペクトル(
図7の(a)における点線)からMFCCを計算し、FCJF0の適応型RBMによって、
【数105】
を推定した後、MWAR0の適応パラメータを用いて変換された音響特徴量を対数スペクトルへ復元した(
図7の(b)における実線)。参考として、
【数106】
の推定後FCJF0の適応パラメータによって復元したスペクトル(
図7の(a)における実線)、目標となるMWAR0のスペクトル(
図7の(b)における点線)を載せている。この
図7より、FCJF0の音声からFCJF0の音声へ再構築したスペクトルのみならず、別の話者であるMWAR0へ変換した音声スペクトルにおいても、約3.5kHz未満の帯域(低域)におけるスペクトルピークの周波数(フォルマント)がおおよそ目標と一致するなど、その話者の特徴を捉えていることが分かる。約3.5kHz以上の帯域(高周波数域)に関してはいずれも目標と大きく異なっているが、MFCCからスペクトルを復元しているため、高域における情報が損失してしまうことに起因する。
【0066】
このように、本実施の形態では、パラレルデータを学習時に一切使用せず、かつFCJF0からMWAR0への変換モデルを学習していないにも関わらずFCJF0からMWAR0へ変換することができる。
【0067】
(まとめ)
以上のように、本実施の形態における声質変換方法は、
図4に示すように、ステップS1〜S4を含む。ステップS1では、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重み(上述の話者非依存重み)として推定する。ステップS2では、RBMにおいて非依存重みを固定した状態で、結合重みのうち、入力話者に依存する重みと、目標話者に依存する重みとをそれぞれ依存重み(上述の話者依存重み、または適応パラメータ)として推定する。ステップS3では、可視素子層に入力される入力話者の音声と、入力話者の依存重みとに基づいて、隠れ素子層を推定する。ステップS4では、隠れ素子層と、目標話者の依存重みとに基づいて、可視素子層として出力される目標話者の音声を推定する。また、本実施の形態では、結合重みは、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、非依存重みと、S人のそれぞれの話者の依存重みとを用いた演算によって表わされる。
【0068】
これにより、本実施の形態では、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みが、非依存重みと依存重みとに分離された適応型RBMが用いられる。したがって、非依存重みを固定させておけば、依存重みを用いて話者性を容易に制御することができる。その結果、パラレルデータを用いることなく入力話者の声質を変換することができる。また、入力話者および目標話者のそれぞれの音声が少なくても、ステップS2において入力話者および目標話者のそれぞれの依存重みを適切に推定することができる。その結果、何れの目標話者の依存重みでも簡単に推定することができるため、ステップS1で推定された非依存重みを流用すれば、入力話者の声質を任意の話者の声質に変換することができる。
【0069】
つまり、本実施の形態では、潜在的な特徴量を抽出するRBMを拡張して、話者に依存する項(依存重み)と依存しない項(非依存重み)に分離してモデル化することで学習時にパラレルデータを必要としない、任意話者に適応可能な声質変換を行うことができる。
【0070】
なお、本実施の形態におけるRBMの拡張モデル(適応型RBM)は声質変換のみならず、音声の感情付与や物体認識など、様々なタスクへの応用が考えられる。また、このモデルにおいて識別素子
【数107】
を推定することで、例えば話者認識へ応用することも可能である。音韻情報と話者情報が混在した音声からそれぞれを分離し、話者性を制御できる。
【0071】
なお、上記実施の形態において、非依存重み推定部11、依存重み推定部12、隠れ素子層推定部13および可視素子層推定部14などの各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の声質変換装置10などを実現するソフトウェアは、例えば
図4に示すフローチャートに含まれる各ステップをコンピュータに実行させるプログラムである。また、上記実施の形態における声質変換装置10は、プロセッサ、メモリおよび入出力ポートを有するコンピュータ、あるいは、論理回路などで実現されてもよい。また、上記実施の形態における各隠れ素子は、例えば0または1であり、その隠れ素子に対応する発話中の音素または音韻の有無を表していると考えられる。
【0072】
以上、一つまたは複数の態様に係る声質変換方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲に含まれてもよい。