特許第6543820号(P6543820)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人電気通信大学の特許一覧

<>
  • 特許6543820-声質変換方法および声質変換装置 図000109
  • 特許6543820-声質変換方法および声質変換装置 図000110
  • 特許6543820-声質変換方法および声質変換装置 図000111
  • 特許6543820-声質変換方法および声質変換装置 図000112
  • 特許6543820-声質変換方法および声質変換装置 図000113
  • 特許6543820-声質変換方法および声質変換装置 図000114
  • 特許6543820-声質変換方法および声質変換装置 図000115
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6543820
(24)【登録日】2019年6月28日
(45)【発行日】2019年7月17日
(54)【発明の名称】声質変換方法および声質変換装置
(51)【国際特許分類】
   G10L 21/007 20130101AFI20190705BHJP
【FI】
   G10L21/007
【請求項の数】4
【全頁数】20
(21)【出願番号】特願2015-114238(P2015-114238)
(22)【出願日】2015年6月4日
(65)【公開番号】特開2017-3622(P2017-3622A)
(43)【公開日】2017年1月5日
【審査請求日】2018年5月28日
【新規性喪失の例外の表示】特許法第30条第2項適用 (発行所)一般社団法人 電子情報通信学会、(刊行物名)信学技報,vol.114,No.365,SP2014−126(2014−12),pp.165−170、(発行日)平成26年12月8日、において発表 「電子情報通信学会 第16回音声言語シンポジウム」において、平成26年12月16日に発表 掲載ウェブサイトのアドレス(▲1▼http://www.ieice.org/ken/paper/20141216UBVc/,▲2▼https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=107377&item_no=1,▲3▼https://www.ieice.org/ken/user/index.php?cmd=login&back_ url=http%3A%2F2%2Fwww.ieice.org%2Fken%2Fpaper%2F20141216UBVc%2F,▲4▼https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=107377&file_id=1& file_no=1)において、平成26年12月8日に発表 (発行所)一般社団法人 日本音響学会、(刊行物名)日本音響学会2015年春季研究発表会講演論文集,3−2−3,pp.279−282、(発行日)平成27年3月6日(頒布日 平成27年3月16日)、において発表 「日本音響学会 2015年春季研究発表会」において、平成27年3月18日に発表 掲載ウェブサイトのアドレス(http://www.asj.gr.jp/annualmeeting/pdf/2015spring_onkyo_web_03.pdf)において、平成27年3月6日に発表
(73)【特許権者】
【識別番号】504133110
【氏名又は名称】国立大学法人電気通信大学
(72)【発明者】
【氏名】中鹿 亘
(72)【発明者】
【氏名】滝口 哲也
(72)【発明者】
【氏名】有木 康雄
【審査官】 安田 勇太
(56)【参考文献】
【文献】 国際公開第2007/063827(WO,A1)
【文献】 特開2015−102806(JP,A)
【文献】 中鹿 亘,話者依存型Recurrent Temporal Restricted Boltzmann Machineを用いた声質変換,日本音響学会 2014年 秋季研究発表会講演論文集CD−ROM [CD−ROM],日本,2014年 9月,P. 219-222
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 −25/93
(57)【特許請求の範囲】
【請求項1】
入力話者の音声の声質を目標話者の声質に変換する声質変換方法であって、
確率モデルであるRBM(Restricted Boltzmann Machine)を構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重みとして推定する第1のステップと、
前記RBMにおいて前記非依存重みを固定した状態で、前記結合重みのうち、前記入力話者に依存する重みと、前記目標話者に依存する重みとをそれぞれ依存重みとして推定する第2のステップと、
可視素子層に入力される前記入力話者の音声と、前記入力話者の依存重みとに基づいて、隠れ素子層を推定する第3のステップと、
前記隠れ素子層と、前記目標話者の依存重みとに基づいて、可視素子層として出力される前記目標話者の音声を推定する第4のステップと
を含む声質変換方法。
【請求項2】
前記結合重みは、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、前記非依存重みと、S人のそれぞれの話者の依存重みとを用いた演算によって表わされる
請求項1に記載の声質変換方法。
【請求項3】
前記第1のステップでは、複数の話者から発話される互いに異なる発話内容の音声に基づいて、前記非依存重みを推定し、
前記第2のステップでは、前記入力話者と前記目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、前記入力話者の依存重みと、前記目標話者の依存重みとを推定する
請求項1または2に記載の声質変換方法。
【請求項4】
入力話者の音声の声質を目標話者の声質に変換する声質変換装置であって、
確率モデルであるRBM(Restricted Boltzmann Machine)を構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重みとして推定する非依存重み推定部と、
前記RBMにおいて前記非依存重みを固定した状態で、前記結合重みのうち、前記入力話者に依存する重みと、前記目標話者に依存する重みとをそれぞれ依存重みとして推定する依存重み推定部と、
可視素子層に入力される前記入力話者の音声と、前記入力話者の依存重みとに基づいて、隠れ素子層を推定する隠れ素子推定部と、
前記隠れ素子層と、前記目標話者の依存重みとに基づいて、可視素子層として出力される前記目標話者の音声を推定する可視素子層推定部と
を備える声質変換装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力話者の音声の声質を、入力話者以外の人の声質に変換する方法および装置などに関する。
【背景技術】
【0002】
近年、音声信号処理の分野の中でも、声質変換技術が盛んに研究されている。この声質変換技術は、入力話者の音声の音韻情報を保存したまま、話者性に関する情報のみを、出力話者(つまり目標話者)の情報へ変換させる技術である。その背景として、雑音環境下や感情音声の音声認識精度の向上、発話困難な障がい者のための発話補助、その他様々なタスクへの応用が可能であることが挙げられる。
【0003】
これまでの声質変換方法では、統計的手法に基づくアプローチが広く研究されてきた。中でもGMM(Gaussian MixtureModel)を用いた手法が最も広く用いられており、様々な改良がなされてきた。GMM以外のアプローチとしては、近年NMF(Non−negative matrix factorization)を用いた声質変換手法(非特許文献1参照)が提案され、過平滑の少ない手法として注目されている。
【0004】
また、可視層と隠れ層との2層から構成されるRBM(Restricted Boltzmann Machine)を用いた声質変換技術も開示されている(非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】R.Takashima, T.Takiguchi and Y.Ariki: “Exemplar-based voice conversion in noisy environment”, SLT, pp. 313-317 (2012)
【非特許文献2】中鹿亘、滝口哲也、有木康雄「話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換」日本音響学会講演論文集(2012年9月)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記非特許文献1および非特許文献2に記載の技術では、入力話者と特定の出力話者(目標話者)との間でのパラレルデータが必要であるという問題がある。
【0007】
つまり、これらの技術は、いずれもモデルの学習時にパラレルデータ(入力話者と出力話者の、同一発話内容による音声対)を必要とし、パラレルデータの作成には様々な制限が課せられる。第一に、入力話者と出力話者の発話データは同一の発話内容でないといけないという制限があるため、選択(または作成)できる学習データセットの自由度は低い。第二に、フレーム単位で両者の音声の同期を取る必要があるため、動的計画法などを用いてアライメントを取るが、完全にフレームの同期が取れている保証がない。したがって、アライメントの伸縮の際に、音声に変換が加わっているなどの問題がある。また、学習を行っていない話者対に対して、既存の変換モデルを利用できない。つまり、任意の話者の声質に変換することができない。
【0008】
そこで、本発明は、かかる問題に鑑みてなされたものであって、パラレルデータを用いることなく入力話者の声質を任意の話者の声質に変換することができる声質変換方法および装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明に係る声質変換方法は、入力話者の音声の声質を目標話者の声質に変換する声質変換方法であって、確率モデルであるRBM(Restricted Boltzmann Machine)を構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重みとして推定する第1のステップと、前記RBMにおいて前記非依存重みを固定した状態で、前記結合重みのうち、前記入力話者に依存する重みと、前記目標話者に依存する重みとをそれぞれ依存重みとして推定する第2のステップと、可視素子層に入力される前記入力話者の音声と、前記入力話者の依存重みとに基づいて、隠れ素子層を推定する第3のステップと、前記隠れ素子層と、前記目標話者の依存重みとに基づいて、可視素子層として出力される前記目標話者の音声を推定する第4のステップとを含む。例えば、前記結合重みは、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、前記非依存重みと、S人のそれぞれの話者の依存重みとを用いた演算によって表わされる。
【0010】
これにより、拡張されたRBMが用いられる。つまり、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みが、話者に依存しない重み(非依存重み)と、話者に依存する重み(依存重み)とに分離された適応型RBMが用いられる。したがって、非依存重みを固定させておけば、依存重みを用いて話者性を容易に制御することができる。その結果、パラレルデータを用いることなく入力話者の声質を変換することができる。また、入力話者および目標話者のそれぞれの音声が少なくても、第2のステップにおいて入力話者および目標話者のそれぞれの依存重みを適切に推定することができる。その結果、何れの目標話者の依存重みでも簡単に推定することができるため、第1のステップで推定された非依存重みを流用すれば、入力話者の声質を任意の話者の声質に変換することができる。
【0011】
例えば、前記第1のステップでは、複数の話者から発話される互いに異なる発話内容の音声に基づいて、前記非依存重みを推定し、前記第2のステップでは、前記入力話者と前記目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、前記入力話者の依存重みと、前記目標話者の依存重みとを推定してもよい。
【0012】
これにより、第1のステップおよび第2のステップにおいてパラレルデータを用いることがないため、発話内容に制約されることなく声質を適切に変換することができる。
【0013】
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0014】
本発明の声質変換方法は、パラレルデータを用いることなく入力話者の声質を任意の話者の声質に変換することができる。
【図面の簡単な説明】
【0015】
図1図1は、RBMのグラフ構造を示す図である。
図2図2は、実施の形態における適応型RBMのグラフ構造を示す図である。
図3図3は、実施の形態における声質変換装置の構成を示すブロック図である。
図4図4は、実施の形態における声質変換装置の処理動作を示すフローチャートである。
図5図5は、実施の形態における声質変換方法による声質変換の結果を示す図である。
図6図6は、実施の形態における声質変換方法によって、実際に推定されたパラメータを示す図である。
図7図7は、実施の形態における声質変換方法によって女性話者の音声を男性話者の音声へ変換した例を示す図である。
【発明を実施するための形態】
【0016】
以下、実施の形態について、図面を参照しながら具体的に説明する。
【0017】
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0018】
(概要)
まず、本実施の形態における声質変換方法について、概要を説明する。
【0019】
本実施の形態における声質変換方法は、確率モデルの一つであるRBM(Restricted Boltzmann Machine)を拡張したモデルである適応型RBM(adaptive restricted Boltzmann machine;ARBM)を用いて、入力話者−出力話者間のパラレルデータだけではなく、参照話者間のパラレルデータさえも必要としない声質変換方法である。
【0020】
この適応型RBMは、複数の話者が混在する音声データから、話者に依存しない情報と話者に依存した情報とに分離しながら、潜在的な特徴を抽出する確率モデルである。このモデルは可視素子層と隠れ素子層からなる無向グラフで表現され、同層素子間の結合はなく、異層素子間のみ話者に依存した強度(重み)で結合が存在する。さらに、この重みは話者依存項と話者非依存項で表現され、複数の話者が混在した音声データ(パラレルである必要はない)を用いて、それぞれが教師なし学習で同時に推定される。結果として、話者依存重みと話者非依存重みに分離しながら潜在特徴(隠れ素子)を得ることができる。任意話者への声質変換を行う際、まず、複数の話者(参照話者)のデータを用いて、上記のように話者依存重みと話者非依存重みとを同時推定する。次に、変換を行いたい話者(入力話者)の(少量の)データを用いて、話者非依存重みを固定しながら新たな話者依存重みを推定する。変換先の話者(出力話者)の話者依存重みに関しても同様に推定する。そして、変換したい音声(入力話者の音声)から、入力話者の話者依存重み、話者非依存重みを用いて潜在特徴を推定し、その後、出力話者の話者依存重み、話者非依存重みを用いて音響特徴ベクトルを逆推定することで変換音声を得る。
【0021】
GMMやNMFなど、従来の声質変換方法の多くは線形変換をベースとしているため、変換精度には限界がある。つまり、人の声道形状は非線形的であるため、音声信号に含まれる声質の特性をより正確に捉えるためには非線形ベースのモデル化の方が線形ベースよりも適切であると考えられる。本実施の形態における声質変換方法も非線形関数をベースとした変換式を用いており、精度の高い声質変換を行うことができる。
【0022】
(RBM)
次に、本実施の形態における適応型RBMの基礎となるRBMについて説明する。
【0023】
図1は、RBMのグラフ構造を示す図である。
【0024】
RBMは、特殊な構造を持つ2層ネットワークであり、図1のように、可視層(可視素子層)と隠れ層(隠れ素子層)の確率変数分布を表現する無向グラフィカルモデルである。元々、RBMはバイナリデータを入力させるモデルとして提案されていたが、後に連続値を入力させるモデル(Gaussian−Bernoulli RBM;GBRBM)が考案された。しかしながらこのモデルは、分散項の影響で学習が不安定になるという問題があったため、GBRBMの改良版(Improved GBRBM; ImpGBRBM)が提案された。このImpGBRBMでは、連続値の可視素子
【数1】
と2値の隠れ素子
【数2】
の同時確率
【数3】
は、以下のように表される。
【0025】
【数4】
【数5】
【数6】
【0026】
ここで、
【数7】
はL2ノルム、括線は要素除算を表す。
【0027】
【数8】
【0028】
はそれぞれ可視層−隠れ層間の重み行列、可視素子の偏差、可視素子のバイアス、隠れ素子のバイアスを示しており、いずれも推定すべきパラメータである。
【0029】
RBMでは可視素子間、または隠れ素子間の接続は存在しない。つまり、それぞれの可視素子、隠れ素子は互いに条件付き独立である。したがって、それぞれの条件付き確率
【数9】
は以下の様な単純な関数で表現される。
【0030】
【数10】
【数11】
【0031】
ここで、
【数12】

【数13】

【数14】
の第j列ベクトル、第i行ベクトルを表す。また、
【数15】
は要素ごとのシグモイド関数
【数16】
【数17】
は平均、分散σの正規分布を表す。
【0032】
それぞれのRBMのパラメータ
【数18】
は、N個の観測データを
【数19】
とするとき、この確率変数の対数尤度
【数20】
を最大化するように推定される。この対数尤度をそれぞれのパラメータで偏微分すると、
【数21】
【数22】
【数23】
が得られる。ただし、<・>dataと<・>modelはそれぞれ、観測データ、モデルデータの期待値を表す。しかし、一般に後者の期待値に関しては計算困難であるため、代わりに式(4)(5)によって得られる再構築したデータの期待値<・>reconが用いられる(CD:Contrastive Divergence法)。また、ImpGBRBMでは分散を非負値に制約し、学習を安定化させるため
【数24】
と置き換える。これにより、zに関する勾配は以下のように計算される。
【0033】
【数25】
【0034】
それぞれのパラメータは式(6)(7)(8)から、確率的勾配法を用いて繰り返し更新される(初期値はランダムに設定される)。すなわち、
【数26】
のように、RBMのそれぞれのパラメータが更新される。ここで、γθは学習率を表す。
【0035】
(適応型RBMと声質変換への応用)
本実施の形態では、上述のRBMを拡張したモデルとして、適応型RBM(Adaptive restricted Boltzmann machine;ARBM)を定義し、声質変換タスクへ応用する。
【0036】
(適応型RBMの定義)
図2は、適応型RBMのグラフ構造を示す図である。
【0037】
適応型RBMは、図2のように、通常のRBMで見られた可視素子と隠れ素子だけでなく、識別素子
【数27】
が加わったモデルとなっている(
【数28】
は識別素子の数とする)。例えば声質変換において、入力
【数29】
が話者kの発話であることを示す場合、
【数30】
となる。このモデルでは、可視素子と隠れ素子の間には識別素子
【数31】
で制御される結合重みが存在する。この結合重みを
【数32】
とし、本実施の形態ではこれを以下のように定義する。
【0038】
【数33】
ただし、
【数34】
はいずれも、話者依存重みであって、不特定重み行列
【数35】
を特定化(適応)するための3階のテンソルパラメータ
【数36】
である。また、
【数37】
は、モードdを展開した3階テンソル
【数38】
の各行列とベクトル
【数39】
の内積をとる演算子を表す。声質変換の場合、
【数40】
が不特定話者による結合重み、つまり、話者非依存重みであり、
【数41】
が話者kの適応行列及びバイアス行列を表す(ただし
【数42】
は3階テンソル
【数43】
のモード3の第k行列を表す)。
【0039】
適応型RBMでは、式(11)で定義した
【数44】
を用いて、可視素子
【数45】
、隠れ素子
【数46】
、識別素子
【数47】
の同時確率
【数48】
を以下のように定義する。
【0040】
【数49】
【数50】
【数51】
これらの定義により、条件付き確率
【数52】
は以下のように計算できる。
【0041】
【数53】
【数54】
【0042】
適応型RBMのパラメータ
【数55】
は、N個の学習データ
【数56】
を用いて、対数尤度
【数57】
を最大化するように推定される。この対数尤度を
【数58】
の要素
【数59】
で偏微分したものは、それぞれ
【数60】
【数61】
【数62】
と計算できる。他のパラメータ
【数63】
に関しては、それぞれ式(7)、(9)、(8)と同様にして求められる。適応型RBMにおいても、CD法を適用することができるため、各偏微分値の第二項<・>modelを観測データの再構築値<・>reconとして計算することで効率よくパラメータを推定することができる。
【0043】
(適応型RBMを用いた声質変換)
本実施の形態における声質変換装置は、上述の適応型RBMを用いて入力話者の音声の声質を任意の出力話者(目標話者)の声質に変換する。
【0044】
図3は、本実施の形態における声質変換装置の構成を示すブロック図である。
【0045】
本実施の形態における声質変換装置10は、入力話者の音声の声質を目標話者の声質に変換する装置であって、非依存重み推定部11と、依存重み推定部12と、隠れ素子層推定部13と、可視素子層推定部14とを備える。
【0046】
非依存重み推定部11は、上述のように、N個の学習データを用いて、適応型RBMのパラメータ
【数64】
を、対数尤度を最大化するように推定する。つまり、非依存重み推定部11は、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重み
【数65】
のうち、話者に依存しない重み
【数66】
を話者非依存重みとして推定する。ここで、上述の結合重みは、式(11)に示すように、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、話者非依存重みと、S人のそれぞれの話者の話者依存重みとを用いた演算によって表わされる。また、N個の学習データは、N人の話者(参照話者)から発話される互いに異なる発話内容の音声、つまり非パラレルデータであってもよい。
【0047】
依存重み推定部12は、RBMにおいて上述の話者非依存重みを固定した状態で、結合重みのうち、入力話者に依存する重み
【数67】
と、目標話者に依存する重み
【数68】
とをそれぞれ話者依存重みとして推定する。具体的には、依存重み推定部12は、入力話者の音声に基づいて入力話者の話者依存重みを推定し、目標話者の音声に基づいて目標話者の話者依存重みを推定する。このとき、依存重み推定部12は、入力話者と目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、つまり、非パラレルデータに基づいて、入力話者および目標話者のそれぞれの話者依存重みを推定してもよい。
【0048】
隠れ素子層推定部13は、可視素子層に入力される入力話者の音声と、上述の入力話者の話者依存重みとに基づいて、隠れ素子層
【数69】
を推定する。
【0049】
可視素子層推定部14は、隠れ素子層と、目標話者の話者依存重みとに基づいて、可視素子層として出力される目標話者の音声
【数70】
を推定する。
【0050】
図4は、本実施の形態における声質変換装置10の処理動作を示すフローチャートである。
【0051】
まず、声質変換装置10の非依存重み推定部11は、図4のように、まず複数(S人)の参照話者によるデータ(音声)を用いて適応型RBMの各パラメータ
【数71】
を同時推定する(ステップS1)。
【0052】
次に、依存重み推定部12は、
【数72】
など話者に依存しないパラメータ(話者非依存重み)を固定して、入力話者および目標話者の音声である適応データを用いて、入力話者と目標話者の話者依存重み
【数73】
を適応パラメータとして、式(18)(19)より推定する(ステップS2)。
【0053】
そして、隠れ素子層推定部13は、入力話者の変換される音声のフレーム音響特徴量
【数74】
から、次式のように潜在特徴量(隠れ素子層)を推定する(ステップS3)。
【0054】
【数75】
ただし、
【数76】
は第
【数77】
要素のみ1、他を0とするベクトルとする。また、同時に変数
【数78】
の長さを
【数79】
へ拡張し、
【数80】
をモード3に沿ってそれぞれ
【数81】
を追加するものとする。式(20)を書き直すと、
【数82】
が得られ、話者に依存しない項
【数83】
を入力話者に適応させた結合重みを用いて潜在特徴量を推定していることになる。また式(21)は、一度適応型RBMの学習が終われば
【数84】
は変数
【数85】
の関数となるので、
【数86】
は話者に依存しない潜在特徴量であることを示唆している。すなわち、話者性は
【数87】
のみで制御され、
【数88】
は話者に依存しない音韻に近い情報を表すと考えられる。したがって、出力話者(目標話者)の話者性を持つ音声を得たい場合、音韻情報
【数89】
から、
【数90】
を用いて音響特徴量を復元すればよい。すなわち、可視素子層推定部14は、出力話者の変換先のフレーム特徴量
【数91】
を以下のように計算する(ステップS4)。
【0055】
【数92】
【0056】
これは、入力話者の音声から得られた音韻情報を基に、話者非依存重みを出力話者(目標話者)に適応した基底を用いて、出力話者の音響特徴量を生成していることを表している。また、式(21)(22)にもあるように、入力話者の音響特徴量
【数93】
を出力話者の音響特徴量
【数94】
へ変換する際、
【数95】
の推定に非線形関数を用いているため、本実施の形態における声質変換方法は非線形変換ベースの声質変換だと言える。
【0057】
なお、現実の音声データを使って適応型RBMを学習する場合、話者は豊富に存在するが、それぞれの発話データは少ないといったケースがある。この場合、
【数96】
の推定に用いられるデータは十分存在するが、適応パラメータ
【数97】
を推定するためのデータが少量となるため、誤推定もしくは過学習の要因となる。そこで本実施の形態による後述の評価実験では、
【数98】
を対角行列、
【数99】
を各列が等しい行列で近似することでパラメータ数を抑える。
【0058】
(評価実験)
本実施の形態における声質変換方法の評価実験について、以下、図5図7を用いて詳細に説明する。
【0059】
(実験条件)
本実験では、英語圏の複数の話者による音声が含まれたコーパスであるTIMITを用いて、本実施の形態における適応型RBMを用いた声質変換方法の精度を調べた。なお、TIMITについては、文献「J. S. Garofolo, L. D. Consortium, et al.: "TIMIT: acoustic-phonetic continuous speech corpus", Linguistic Data Consortium (1993)」に詳細に記述されている。
【0060】
このコーパスから、話者非依存パラメータ(話者非依存重み)の推定のために、参照話者として38名(内女性14名、男性24名)を選んだ。各話者からは、5文の発話データを学習に用いている(学習に用いた総フレーム数はおよそ27万)。本実施の形態における声質変換方法を評価するために、女性4名、男性4名の音声を用いて入力話者・出力話者のペア(計28ペア)を作成し、異性間及び同性間の声質変換の性能比較を行った。このとき、入力・出力話者のパラレルデータ(同一発話内容による、学習データには含まれない2文のデータから動的計画法によって作成)を用いてSDIR(spectral distortion improvement ratio)による評価をおこなっている。音響特徴量として、STRAIGHTスペクトルから計算された32次元のMFCC(Mel−Frequency Cepstrum Coefficients)を用いた。なお、STRAIGHTスペクトルについては、文献「H. Kawahara, M. Morise, T. Takahashi, R. Nisimura,T. Irino and H. Banno: "TANDEM-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation", ICASSP, pp. 3933-3936 (2008)」に詳細に記述されている。
【0061】
適応型RBMにおける学習率、バッチサイズ、繰り返し回数はそれぞれ0:005、50、500とした。隠れ素子数を128、192、256、512と変えて比較を行った。
【0062】
(実験結果と考察)
図5は、本実施の形態における声質変換方法による声質変換の結果を示す図である。例えば、female−to−femaleでは、評価用の女性4名の音声を、それぞれ他の女性3名へ変換し、全フレームのSDIRの平均をとったものを表す。「avg.」は全組み合わせの平均値である。図5から、一部を除いて隠れ素子数が増加すれば変換精度が向上していることが分かる。隠れ素子数が512と256の結果を比較すると、512の場合は男性への変換(female−to−male,male−to−male)で優っている。しかし、女性への変換(female−to−female,male−to−female)で精度が下がってしまい、結果として全平均のSDIR値が低くなってしまっている。この理由として、パラメータ数の増加に伴い、モデルが過学習しているためだと考えられる(男性と女性の話者数は24対14であり、隠れ素子数512のモデルでは変換音声が男性側へ強く反応していることからも過学習が窺える)。
【0063】
図6は、本実施の形態における声質変換方法によって、実際に推定されたパラメータを示す図である。図6における(a)、(b)および(c)はそれぞれ、
【数100】
の一部を示す。
【0064】
【数101】
に関しては、対角行列として近似した
【数102】
の対角成分を列ベクトルとして話者ごとに並べた行列を示しており、
【数103】
も同様に話者ごとに並べた列ベクトルを示している。図6の(b)および(c)において、左14列ベクトルは女性話者、右24列ベクトルは男性話者に相当する。この図6から分かるように、
【数104】
の各々の列ベクトルは同性間で類似性が高く、異性間で類似性が低いベクトルとなっている。これは、音声を聴いて話者の違いを認識する際、個人の差異よりも性別の違いをより大きく感じ取っているという直感と一致する。
【0065】
図7は、本実施の形態における声質変換方法によって女性話者の音声(コーパスではFCJF0)を男性話者の音声(MWAR0)へ変換した例を示す図である。この例では、FCJF0のある時刻における対数スペクトル(図7の(a)における点線)からMFCCを計算し、FCJF0の適応型RBMによって、
【数105】
を推定した後、MWAR0の適応パラメータを用いて変換された音響特徴量を対数スペクトルへ復元した(図7の(b)における実線)。参考として、
【数106】
の推定後FCJF0の適応パラメータによって復元したスペクトル(図7の(a)における実線)、目標となるMWAR0のスペクトル(図7の(b)における点線)を載せている。この図7より、FCJF0の音声からFCJF0の音声へ再構築したスペクトルのみならず、別の話者であるMWAR0へ変換した音声スペクトルにおいても、約3.5kHz未満の帯域(低域)におけるスペクトルピークの周波数(フォルマント)がおおよそ目標と一致するなど、その話者の特徴を捉えていることが分かる。約3.5kHz以上の帯域(高周波数域)に関してはいずれも目標と大きく異なっているが、MFCCからスペクトルを復元しているため、高域における情報が損失してしまうことに起因する。
【0066】
このように、本実施の形態では、パラレルデータを学習時に一切使用せず、かつFCJF0からMWAR0への変換モデルを学習していないにも関わらずFCJF0からMWAR0へ変換することができる。
【0067】
(まとめ)
以上のように、本実施の形態における声質変換方法は、図4に示すように、ステップS1〜S4を含む。ステップS1では、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重み(上述の話者非依存重み)として推定する。ステップS2では、RBMにおいて非依存重みを固定した状態で、結合重みのうち、入力話者に依存する重みと、目標話者に依存する重みとをそれぞれ依存重み(上述の話者依存重み、または適応パラメータ)として推定する。ステップS3では、可視素子層に入力される入力話者の音声と、入力話者の依存重みとに基づいて、隠れ素子層を推定する。ステップS4では、隠れ素子層と、目標話者の依存重みとに基づいて、可視素子層として出力される目標話者の音声を推定する。また、本実施の形態では、結合重みは、S(Sは2以上の整数)人の話者のそれぞれに対する0または1を示す要素からなるベクトルと、非依存重みと、S人のそれぞれの話者の依存重みとを用いた演算によって表わされる。
【0068】
これにより、本実施の形態では、RBMを構成する可視素子層と隠れ素子層の2つの異層素子間の結合重みが、非依存重みと依存重みとに分離された適応型RBMが用いられる。したがって、非依存重みを固定させておけば、依存重みを用いて話者性を容易に制御することができる。その結果、パラレルデータを用いることなく入力話者の声質を変換することができる。また、入力話者および目標話者のそれぞれの音声が少なくても、ステップS2において入力話者および目標話者のそれぞれの依存重みを適切に推定することができる。その結果、何れの目標話者の依存重みでも簡単に推定することができるため、ステップS1で推定された非依存重みを流用すれば、入力話者の声質を任意の話者の声質に変換することができる。
【0069】
つまり、本実施の形態では、潜在的な特徴量を抽出するRBMを拡張して、話者に依存する項(依存重み)と依存しない項(非依存重み)に分離してモデル化することで学習時にパラレルデータを必要としない、任意話者に適応可能な声質変換を行うことができる。
【0070】
なお、本実施の形態におけるRBMの拡張モデル(適応型RBM)は声質変換のみならず、音声の感情付与や物体認識など、様々なタスクへの応用が考えられる。また、このモデルにおいて識別素子
【数107】
を推定することで、例えば話者認識へ応用することも可能である。音韻情報と話者情報が混在した音声からそれぞれを分離し、話者性を制御できる。
【0071】
なお、上記実施の形態において、非依存重み推定部11、依存重み推定部12、隠れ素子層推定部13および可視素子層推定部14などの各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の声質変換装置10などを実現するソフトウェアは、例えば図4に示すフローチャートに含まれる各ステップをコンピュータに実行させるプログラムである。また、上記実施の形態における声質変換装置10は、プロセッサ、メモリおよび入出力ポートを有するコンピュータ、あるいは、論理回路などで実現されてもよい。また、上記実施の形態における各隠れ素子は、例えば0または1であり、その隠れ素子に対応する発話中の音素または音韻の有無を表していると考えられる。
【0072】
以上、一つまたは複数の態様に係る声質変換方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲に含まれてもよい。
【産業上の利用可能性】
【0073】
本発明にかかる声質変換方法は、パラレルデータを用いることなく入力話者の声質を任意の話者の声質に変換することができるという効果を奏し、例えば、ボイスチェンジャー、発話支援装置またはアミューズメント機器などの声質変換装置に適用することができる。
【符号の説明】
【0074】
10 声質変換装置
11 非依存重み推定部
12 依存重み推定部
13 隠れ素子層推定部
14 可視素子層推定部
図1
図2
図3
図4
図5
図6
図7