特許6543820 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人電気通信大学の特許一覧

特許6543820声質変換方法および声質変換装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6543820

(24)【登録日】2019年6月28日

(45)【発行日】2019年7月17日

(54)【発明の名称】声質変換方法および声質変換装置

(51)【国際特許分類】

G10L 21/007 20130101AFI20190705BHJP

【ＦＩ】

G10L21/007

【請求項の数】4

【全頁数】20

(21)【出願番号】特願2015-114238(P2015-114238)

(22)【出願日】2015年6月4日

(65)【公開番号】特開2017-3622(P2017-3622A)

(43)【公開日】2017年1月5日

【審査請求日】2018年5月28日

【新規性喪失の例外の表示】特許法第３０条第２項適用（発行所）一般社団法人電子情報通信学会、（刊行物名）信学技報，ｖｏｌ．１１４，Ｎｏ．３６５，ＳＰ２０１４−１２６（２０１４−１２），ｐｐ．１６５−１７０、（発行日）平成２６年１２月８日、において発表「電子情報通信学会第１６回音声言語シンポジウム」において、平成２６年１２月１６日に発表掲載ウェブサイトのアドレス（▲１▼ｈｔｔｐ：／／ｗｗｗ．ｉｅｉｃｅ．ｏｒｇ／ｋｅｎ／ｐａｐｅｒ／２０１４１２１６ＵＢＶｃ／，▲２▼ｈｔｔｐｓ：／／ｉｐｓｊ．ｉｘｓｑ．ｎｉｉ．ａｃ．ｊｐ／ｅｊ／ｉｎｄｅｘ．ｐｈｐ？ａｃｔｉｖｅ＿ａｃｔｉｏｎ＝ｒｅｐｏｓｉｔｏｒｙ＿ｖｉｅｗ＿ｍａｉｎ＿ｉｔｅｍ＿ｄｅｔａｉｌ＆ｐａｇｅ＿ｉｄ＝１３＆ｂｌｏｃｋ＿ｉｄ＝８＆ｉｔｅｍ＿ｉｄ＝１０７３７７＆ｉｔｅｍ＿ｎｏ＝１，▲３▼ｈｔｔｐｓ：／／ｗｗｗ．ｉｅｉｃｅ．ｏｒｇ／ｋｅｎ／ｕｓｅｒ／ｉｎｄｅｘ．ｐｈｐ？ｃｍｄ＝ｌｏｇｉｎ＆ｂａｃｋ＿ｕｒｌ＝ｈｔｔｐ％３Ａ％２Ｆ２％２Ｆｗｗｗ．ｉｅｉｃｅ．ｏｒｇ％２Ｆｋｅｎ％２Ｆｐａｐｅｒ％２Ｆ２０１４１２１６ＵＢＶｃ％２Ｆ，▲４▼ｈｔｔｐｓ：／／ｉｐｓｊ．ｉｘｓｑ．ｎｉｉ．ａｃ．ｊｐ／ｅｊ／？ａｃｔｉｏｎ＝ｒｅｐｏｓｉｔｏｒｙ＿ｕｒｉ＆ｉｔｅｍ＿ｉｄ＝１０７３７７＆ｆｉｌｅ＿ｉｄ＝１＆ｆｉｌｅ＿ｎｏ＝１）において、平成２６年１２月８日に発表（発行所）一般社団法人日本音響学会、（刊行物名）日本音響学会２０１５年春季研究発表会講演論文集，３−２−３，ｐｐ．２７９−２８２、（発行日）平成２７年３月６日（頒布日平成２７年３月１６日）、において発表「日本音響学会２０１５年春季研究発表会」において、平成２７年３月１８日に発表掲載ウェブサイトのアドレス（ｈｔｔｐ：／／ｗｗｗ．ａｓｊ．ｇｒ．ｊｐ／ａｎｎｕａｌｍｅｅｔｉｎｇ／ｐｄｆ／２０１５ｓｐｒｉｎｇ＿ｏｎｋｙｏ＿ｗｅｂ＿０３．ｐｄｆ）において、平成２７年３月６日に発表

(73)【特許権者】

【識別番号】504133110

【氏名又は名称】国立大学法人電気通信大学

(72)【発明者】

【氏名】中鹿亘

(72)【発明者】

【氏名】滝口哲也

(72)【発明者】

【氏名】有木康雄

【審査官】安田勇太

(56)【参考文献】

【文献】国際公開第２００７／０６３８２７（ＷＯ，Ａ１）

【文献】特開２０１５−１０２８０６（ＪＰ，Ａ）

【文献】中鹿亘，話者依存型ＲｅｃｕｒｒｅｎｔＴｅｍｐｏｒａｌＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅを用いた声質変換，日本音響学会２０１４年秋季研究発表会講演論文集ＣＤ−ＲＯＭ［ＣＤ−ＲＯＭ］，日本，２０１４年９月，P. 219-222

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００ −２５／９３

(57)【特許請求の範囲】

【請求項1】

入力話者の音声の声質を目標話者の声質に変換する声質変換方法であって、
確率モデルであるＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を構成する可視素子層と隠れ素子層の２つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重みとして推定する第１のステップと、
前記ＲＢＭにおいて前記非依存重みを固定した状態で、前記結合重みのうち、前記入力話者に依存する重みと、前記目標話者に依存する重みとをそれぞれ依存重みとして推定する第２のステップと、
可視素子層に入力される前記入力話者の音声と、前記入力話者の依存重みとに基づいて、隠れ素子層を推定する第３のステップと、
前記隠れ素子層と、前記目標話者の依存重みとに基づいて、可視素子層として出力される前記目標話者の音声を推定する第４のステップと
を含む声質変換方法。

【請求項2】

前記結合重みは、Ｓ（Ｓは２以上の整数）人の話者のそれぞれに対する０または１を示す要素からなるベクトルと、前記非依存重みと、Ｓ人のそれぞれの話者の依存重みとを用いた演算によって表わされる
請求項１に記載の声質変換方法。

【請求項3】

前記第１のステップでは、複数の話者から発話される互いに異なる発話内容の音声に基づいて、前記非依存重みを推定し、
前記第２のステップでは、前記入力話者と前記目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、前記入力話者の依存重みと、前記目標話者の依存重みとを推定する
請求項１または２に記載の声質変換方法。

【請求項4】

入力話者の音声の声質を目標話者の声質に変換する声質変換装置であって、
確率モデルであるＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を構成する可視素子層と隠れ素子層の２つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重みとして推定する非依存重み推定部と、
前記ＲＢＭにおいて前記非依存重みを固定した状態で、前記結合重みのうち、前記入力話者に依存する重みと、前記目標話者に依存する重みとをそれぞれ依存重みとして推定する依存重み推定部と、
可視素子層に入力される前記入力話者の音声と、前記入力話者の依存重みとに基づいて、隠れ素子層を推定する隠れ素子推定部と、
前記隠れ素子層と、前記目標話者の依存重みとに基づいて、可視素子層として出力される前記目標話者の音声を推定する可視素子層推定部と
を備える声質変換装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、入力話者の音声の声質を、入力話者以外の人の声質に変換する方法および装置などに関する。

【背景技術】

【0002】

近年、音声信号処理の分野の中でも、声質変換技術が盛んに研究されている。この声質変換技術は、入力話者の音声の音韻情報を保存したまま、話者性に関する情報のみを、出力話者（つまり目標話者）の情報へ変換させる技術である。その背景として、雑音環境下や感情音声の音声認識精度の向上、発話困難な障がい者のための発話補助、その他様々なタスクへの応用が可能であることが挙げられる。

【0003】

これまでの声質変換方法では、統計的手法に基づくアプローチが広く研究されてきた。中でもＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いた手法が最も広く用いられており、様々な改良がなされてきた。ＧＭＭ以外のアプローチとしては、近年ＮＭＦ（Ｎｏｎ−ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ）を用いた声質変換手法（非特許文献１参照）が提案され、過平滑の少ない手法として注目されている。

【0004】

また、可視層と隠れ層との２層から構成されるＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を用いた声質変換技術も開示されている（非特許文献２参照）。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】R.Takashima, T.Takiguchi and Y.Ariki: “Exemplar-based voice conversion in noisy environment”, SLT, pp. 313-317 (2012)

【非特許文献2】中鹿亘、滝口哲也、有木康雄「話者依存型 Recurrent Temporal Restricted Boltzmann Machine を用いた声質変換」日本音響学会講演論文集（２０１２年９月）

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上記非特許文献１および非特許文献２に記載の技術では、入力話者と特定の出力話者（目標話者）との間でのパラレルデータが必要であるという問題がある。

【0007】

つまり、これらの技術は、いずれもモデルの学習時にパラレルデータ（入力話者と出力話者の、同一発話内容による音声対）を必要とし、パラレルデータの作成には様々な制限が課せられる。第一に、入力話者と出力話者の発話データは同一の発話内容でないといけないという制限があるため、選択（または作成）できる学習データセットの自由度は低い。第二に、フレーム単位で両者の音声の同期を取る必要があるため、動的計画法などを用いてアライメントを取るが、完全にフレームの同期が取れている保証がない。したがって、アライメントの伸縮の際に、音声に変換が加わっているなどの問題がある。また、学習を行っていない話者対に対して、既存の変換モデルを利用できない。つまり、任意の話者の声質に変換することができない。

【0008】

そこで、本発明は、かかる問題に鑑みてなされたものであって、パラレルデータを用いることなく入力話者の声質を任意の話者の声質に変換することができる声質変換方法および装置を提供することを目的とする。

【課題を解決するための手段】

【0009】

上記目的を達成するために、本発明に係る声質変換方法は、入力話者の音声の声質を目標話者の声質に変換する声質変換方法であって、確率モデルであるＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を構成する可視素子層と隠れ素子層の２つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重みとして推定する第１のステップと、前記ＲＢＭにおいて前記非依存重みを固定した状態で、前記結合重みのうち、前記入力話者に依存する重みと、前記目標話者に依存する重みとをそれぞれ依存重みとして推定する第２のステップと、可視素子層に入力される前記入力話者の音声と、前記入力話者の依存重みとに基づいて、隠れ素子層を推定する第３のステップと、前記隠れ素子層と、前記目標話者の依存重みとに基づいて、可視素子層として出力される前記目標話者の音声を推定する第４のステップとを含む。例えば、前記結合重みは、Ｓ（Ｓは２以上の整数）人の話者のそれぞれに対する０または１を示す要素からなるベクトルと、前記非依存重みと、Ｓ人のそれぞれの話者の依存重みとを用いた演算によって表わされる。

【0010】

これにより、拡張されたＲＢＭが用いられる。つまり、ＲＢＭを構成する可視素子層と隠れ素子層の２つの異層素子間の結合重みが、話者に依存しない重み（非依存重み）と、話者に依存する重み（依存重み）とに分離された適応型ＲＢＭが用いられる。したがって、非依存重みを固定させておけば、依存重みを用いて話者性を容易に制御することができる。その結果、パラレルデータを用いることなく入力話者の声質を変換することができる。また、入力話者および目標話者のそれぞれの音声が少なくても、第２のステップにおいて入力話者および目標話者のそれぞれの依存重みを適切に推定することができる。その結果、何れの目標話者の依存重みでも簡単に推定することができるため、第１のステップで推定された非依存重みを流用すれば、入力話者の声質を任意の話者の声質に変換することができる。

【0011】

例えば、前記第１のステップでは、複数の話者から発話される互いに異なる発話内容の音声に基づいて、前記非依存重みを推定し、前記第２のステップでは、前記入力話者と前記目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、前記入力話者の依存重みと、前記目標話者の依存重みとを推定してもよい。

【0012】

これにより、第１のステップおよび第２のステップにおいてパラレルデータを用いることがないため、発話内容に制約されることなく声質を適切に変換することができる。

【0013】

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

【発明の効果】

【0014】

本発明の声質変換方法は、パラレルデータを用いることなく入力話者の声質を任意の話者の声質に変換することができる。

【図面の簡単な説明】

【0015】

【図1】図１は、ＲＢＭのグラフ構造を示す図である。

【図2】図２は、実施の形態における適応型ＲＢＭのグラフ構造を示す図である。

【図3】図３は、実施の形態における声質変換装置の構成を示すブロック図である。

【図4】図４は、実施の形態における声質変換装置の処理動作を示すフローチャートである。

【図5】図５は、実施の形態における声質変換方法による声質変換の結果を示す図である。

【図6】図６は、実施の形態における声質変換方法によって、実際に推定されたパラメータを示す図である。

【図7】図７は、実施の形態における声質変換方法によって女性話者の音声を男性話者の音声へ変換した例を示す図である。

【発明を実施するための形態】

【0016】

以下、実施の形態について、図面を参照しながら具体的に説明する。

【0017】

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

【0018】

（概要）
まず、本実施の形態における声質変換方法について、概要を説明する。

【0019】

本実施の形態における声質変換方法は、確率モデルの一つであるＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）を拡張したモデルである適応型ＲＢＭ（ａｄａｐｔｉｖｅｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ；ＡＲＢＭ）を用いて、入力話者−出力話者間のパラレルデータだけではなく、参照話者間のパラレルデータさえも必要としない声質変換方法である。

【0020】

この適応型ＲＢＭは、複数の話者が混在する音声データから、話者に依存しない情報と話者に依存した情報とに分離しながら、潜在的な特徴を抽出する確率モデルである。このモデルは可視素子層と隠れ素子層からなる無向グラフで表現され、同層素子間の結合はなく、異層素子間のみ話者に依存した強度（重み）で結合が存在する。さらに、この重みは話者依存項と話者非依存項で表現され、複数の話者が混在した音声データ（パラレルである必要はない）を用いて、それぞれが教師なし学習で同時に推定される。結果として、話者依存重みと話者非依存重みに分離しながら潜在特徴（隠れ素子）を得ることができる。任意話者への声質変換を行う際、まず、複数の話者（参照話者）のデータを用いて、上記のように話者依存重みと話者非依存重みとを同時推定する。次に、変換を行いたい話者（入力話者）の（少量の）データを用いて、話者非依存重みを固定しながら新たな話者依存重みを推定する。変換先の話者（出力話者）の話者依存重みに関しても同様に推定する。そして、変換したい音声（入力話者の音声）から、入力話者の話者依存重み、話者非依存重みを用いて潜在特徴を推定し、その後、出力話者の話者依存重み、話者非依存重みを用いて音響特徴ベクトルを逆推定することで変換音声を得る。

【0021】

ＧＭＭやＮＭＦなど、従来の声質変換方法の多くは線形変換をベースとしているため、変換精度には限界がある。つまり、人の声道形状は非線形的であるため、音声信号に含まれる声質の特性をより正確に捉えるためには非線形ベースのモデル化の方が線形ベースよりも適切であると考えられる。本実施の形態における声質変換方法も非線形関数をベースとした変換式を用いており、精度の高い声質変換を行うことができる。

【0022】

（ＲＢＭ）
次に、本実施の形態における適応型ＲＢＭの基礎となるＲＢＭについて説明する。

【0023】

図１は、ＲＢＭのグラフ構造を示す図である。

【0024】

ＲＢＭは、特殊な構造を持つ２層ネットワークであり、図１のように、可視層（可視素子層）と隠れ層（隠れ素子層）の確率変数分布を表現する無向グラフィカルモデルである。元々、ＲＢＭはバイナリデータを入力させるモデルとして提案されていたが、後に連続値を入力させるモデル（Ｇａｕｓｓｉａｎ−ＢｅｒｎｏｕｌｌｉＲＢＭ；ＧＢＲＢＭ）が考案された。しかしながらこのモデルは、分散項の影響で学習が不安定になるという問題があったため、ＧＢＲＢＭの改良版（ＩｍｐｒｏｖｅｄＧＢＲＢＭ；ＩｍｐＧＢＲＢＭ）が提案された。このＩｍｐＧＢＲＢＭでは、連続値の可視素子

【数1】

と２値の隠れ素子

【数2】

の同時確率

【数3】

は、以下のように表される。

【0025】

【数4】

【数5】

【数6】

【0026】

ここで、

【数7】

はＬ２ノルム、括線は要素除算を表す。

【0027】

【数8】

【0028】

はそれぞれ可視層−隠れ層間の重み行列、可視素子の偏差、可視素子のバイアス、隠れ素子のバイアスを示しており、いずれも推定すべきパラメータである。

【0029】

ＲＢＭでは可視素子間、または隠れ素子間の接続は存在しない。つまり、それぞれの可視素子、隠れ素子は互いに条件付き独立である。したがって、それぞれの条件付き確率

【数9】

は以下の様な単純な関数で表現される。

【0030】

【数10】

【数11】

【0031】

ここで、

【数12】

と

【数13】

は

【数14】

の第ｊ列ベクトル、第ｉ行ベクトルを表す。また、

【数15】

は要素ごとのシグモイド関数

【数16】

【数17】

は平均、分散σ^２の正規分布を表す。

【0032】

それぞれのＲＢＭのパラメータ

【数18】

は、Ｎ個の観測データを

【数19】

とするとき、この確率変数の対数尤度

【数20】

を最大化するように推定される。この対数尤度をそれぞれのパラメータで偏微分すると、

【数21】

【数22】

【数23】

が得られる。ただし、＜・＞_ｄａｔａと＜・＞_{ｍｏｄｅｌ}はそれぞれ、観測データ、モデルデータの期待値を表す。しかし、一般に後者の期待値に関しては計算困難であるため、代わりに式（４）（５）によって得られる再構築したデータの期待値＜・＞_{ｒｅｃｏｎ}が用いられる（ＣＤ：ＣｏｎｔｒａｓｔｉｖｅＤｉｖｅｒｇｅｎｃｅ法）。また、ＩｍｐＧＢＲＢＭでは分散を非負値に制約し、学習を安定化させるため

【数24】

と置き換える。これにより、ｚ_ｉに関する勾配は以下のように計算される。

【0033】

【数25】

【0034】

それぞれのパラメータは式（６）（７）（８）から、確率的勾配法を用いて繰り返し更新される（初期値はランダムに設定される）。すなわち、

【数26】

のように、ＲＢＭのそれぞれのパラメータが更新される。ここで、γ_θは学習率を表す。

【0035】

（適応型ＲＢＭと声質変換への応用）
本実施の形態では、上述のＲＢＭを拡張したモデルとして、適応型ＲＢＭ（ＡｄａｐｔｉｖｅｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ；ＡＲＢＭ）を定義し、声質変換タスクへ応用する。

【0036】

（適応型ＲＢＭの定義）
図２は、適応型ＲＢＭのグラフ構造を示す図である。

【0037】

適応型ＲＢＭは、図２のように、通常のＲＢＭで見られた可視素子と隠れ素子だけでなく、識別素子

【数27】

が加わったモデルとなっている（

【数28】

は識別素子の数とする）。例えば声質変換において、入力

【数29】

が話者ｋの発話であることを示す場合、

【数30】

となる。このモデルでは、可視素子と隠れ素子の間には識別素子

【数31】

で制御される結合重みが存在する。この結合重みを

【数32】

とし、本実施の形態ではこれを以下のように定義する。

【0038】

【数33】

ただし、

【数34】

はいずれも、話者依存重みであって、不特定重み行列

【数35】

を特定化（適応）するための３階のテンソルパラメータ

【数36】

である。また、

【数37】

は、モードｄを展開した３階テンソル

【数38】

の各行列とベクトル

【数39】

の内積をとる演算子を表す。声質変換の場合、

【数40】

が不特定話者による結合重み、つまり、話者非依存重みであり、

【数41】

が話者ｋの適応行列及びバイアス行列を表す（ただし

【数42】

は３階テンソル

【数43】

のモード３の第ｋ行列を表す）。

【0039】

適応型ＲＢＭでは、式（１１）で定義した

【数44】

を用いて、可視素子

【数45】

、隠れ素子

【数46】

、識別素子

【数47】

の同時確率

【数48】

を以下のように定義する。

【0040】

【数49】

【数50】

【数51】

これらの定義により、条件付き確率

【数52】

は以下のように計算できる。

【0041】

【数53】

【数54】

【0042】

適応型ＲＢＭのパラメータ

【数55】

は、Ｎ個の学習データ

【数56】

を用いて、対数尤度

【数57】

を最大化するように推定される。この対数尤度を

【数58】

の要素

【数59】

で偏微分したものは、それぞれ

【数60】

【数61】

【数62】

と計算できる。他のパラメータ

【数63】

に関しては、それぞれ式（７）、（９）、（８）と同様にして求められる。適応型ＲＢＭにおいても、ＣＤ法を適用することができるため、各偏微分値の第二項＜・＞_{ｍｏｄｅｌ}を観測データの再構築値＜・＞_{ｒｅｃｏｎ}として計算することで効率よくパラメータを推定することができる。

【0043】

（適応型ＲＢＭを用いた声質変換）
本実施の形態における声質変換装置は、上述の適応型ＲＢＭを用いて入力話者の音声の声質を任意の出力話者（目標話者）の声質に変換する。

【0044】

図３は、本実施の形態における声質変換装置の構成を示すブロック図である。

【0045】

本実施の形態における声質変換装置１０は、入力話者の音声の声質を目標話者の声質に変換する装置であって、非依存重み推定部１１と、依存重み推定部１２と、隠れ素子層推定部１３と、可視素子層推定部１４とを備える。

【0046】

非依存重み推定部１１は、上述のように、Ｎ個の学習データを用いて、適応型ＲＢＭのパラメータ

【数64】

を、対数尤度を最大化するように推定する。つまり、非依存重み推定部１１は、ＲＢＭを構成する可視素子層と隠れ素子層の２つの異層素子間の結合重み

【数65】

のうち、話者に依存しない重み

【数66】

を話者非依存重みとして推定する。ここで、上述の結合重みは、式（１１）に示すように、Ｓ（Ｓは２以上の整数）人の話者のそれぞれに対する０または１を示す要素からなるベクトルと、話者非依存重みと、Ｓ人のそれぞれの話者の話者依存重みとを用いた演算によって表わされる。また、Ｎ個の学習データは、Ｎ人の話者（参照話者）から発話される互いに異なる発話内容の音声、つまり非パラレルデータであってもよい。

【0047】

依存重み推定部１２は、ＲＢＭにおいて上述の話者非依存重みを固定した状態で、結合重みのうち、入力話者に依存する重み

【数67】

と、目標話者に依存する重み

【数68】

とをそれぞれ話者依存重みとして推定する。具体的には、依存重み推定部１２は、入力話者の音声に基づいて入力話者の話者依存重みを推定し、目標話者の音声に基づいて目標話者の話者依存重みを推定する。このとき、依存重み推定部１２は、入力話者と目標話者のそれぞれから発話される互いに異なる発話内容の音声に基づいて、つまり、非パラレルデータに基づいて、入力話者および目標話者のそれぞれの話者依存重みを推定してもよい。

【0048】

隠れ素子層推定部１３は、可視素子層に入力される入力話者の音声と、上述の入力話者の話者依存重みとに基づいて、隠れ素子層

【数69】

を推定する。

【0049】

可視素子層推定部１４は、隠れ素子層と、目標話者の話者依存重みとに基づいて、可視素子層として出力される目標話者の音声

【数70】

を推定する。

【0050】

図４は、本実施の形態における声質変換装置１０の処理動作を示すフローチャートである。

【0051】

まず、声質変換装置１０の非依存重み推定部１１は、図４のように、まず複数（Ｓ人）の参照話者によるデータ（音声）を用いて適応型ＲＢＭの各パラメータ

【数71】

を同時推定する（ステップＳ１）。

【0052】

次に、依存重み推定部１２は、

【数72】

など話者に依存しないパラメータ（話者非依存重み）を固定して、入力話者および目標話者の音声である適応データを用いて、入力話者と目標話者の話者依存重み

【数73】

を適応パラメータとして、式（１８）（１９）より推定する（ステップＳ２）。

【0053】

そして、隠れ素子層推定部１３は、入力話者の変換される音声のフレーム音響特徴量

【数74】

から、次式のように潜在特徴量（隠れ素子層）を推定する（ステップＳ３）。

【0054】

【数75】

ただし、

【数76】

は第

【数77】

要素のみ１、他を０とするベクトルとする。また、同時に変数

【数78】

の長さを

【数79】

へ拡張し、

【数80】

をモード３に沿ってそれぞれ

【数81】

を追加するものとする。式（２０）を書き直すと、

【数82】

が得られ、話者に依存しない項

【数83】

を入力話者に適応させた結合重みを用いて潜在特徴量を推定していることになる。また式（２１）は、一度適応型ＲＢＭの学習が終われば

【数84】

は変数

【数85】

の関数となるので、

【数86】

は話者に依存しない潜在特徴量であることを示唆している。すなわち、話者性は

【数87】

のみで制御され、

【数88】

は話者に依存しない音韻に近い情報を表すと考えられる。したがって、出力話者（目標話者）の話者性を持つ音声を得たい場合、音韻情報

【数89】

から、

【数90】

を用いて音響特徴量を復元すればよい。すなわち、可視素子層推定部１４は、出力話者の変換先のフレーム特徴量

【数91】

を以下のように計算する（ステップＳ４）。

【0055】

【数92】

【0056】

これは、入力話者の音声から得られた音韻情報を基に、話者非依存重みを出力話者（目標話者）に適応した基底を用いて、出力話者の音響特徴量を生成していることを表している。また、式（２１）（２２）にもあるように、入力話者の音響特徴量

【数93】

を出力話者の音響特徴量

【数94】

へ変換する際、

【数95】

の推定に非線形関数を用いているため、本実施の形態における声質変換方法は非線形変換ベースの声質変換だと言える。

【0057】

なお、現実の音声データを使って適応型ＲＢＭを学習する場合、話者は豊富に存在するが、それぞれの発話データは少ないといったケースがある。この場合、

【数96】

の推定に用いられるデータは十分存在するが、適応パラメータ

【数97】

を推定するためのデータが少量となるため、誤推定もしくは過学習の要因となる。そこで本実施の形態による後述の評価実験では、

【数98】

を対角行列、

【数99】

を各列が等しい行列で近似することでパラメータ数を抑える。

【0058】

（評価実験）
本実施の形態における声質変換方法の評価実験について、以下、図５〜図７を用いて詳細に説明する。

【0059】

（実験条件）
本実験では、英語圏の複数の話者による音声が含まれたコーパスであるＴＩＭＩＴを用いて、本実施の形態における適応型ＲＢＭを用いた声質変換方法の精度を調べた。なお、ＴＩＭＩＴについては、文献「J. S. Garofolo, L. D. Consortium, et al.: "TIMIT: acoustic-phonetic continuous speech corpus", Linguistic Data Consortium (1993)」に詳細に記述されている。

【0060】

このコーパスから、話者非依存パラメータ（話者非依存重み）の推定のために、参照話者として３８名（内女性１４名、男性２４名）を選んだ。各話者からは、５文の発話データを学習に用いている（学習に用いた総フレーム数はおよそ２７万）。本実施の形態における声質変換方法を評価するために、女性４名、男性４名の音声を用いて入力話者・出力話者のペア（計２８ペア）を作成し、異性間及び同性間の声質変換の性能比較を行った。このとき、入力・出力話者のパラレルデータ（同一発話内容による、学習データには含まれない２文のデータから動的計画法によって作成）を用いてＳＤＩＲ（ｓｐｅｃｔｒａｌｄｉｓｔｏｒｔｉｏｎｉｍｐｒｏｖｅｍｅｎｔｒａｔｉｏ）による評価をおこなっている。音響特徴量として、ＳＴＲＡＩＧＨＴスペクトルから計算された３２次元のＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）を用いた。なお、ＳＴＲＡＩＧＨＴスペクトルについては、文献「H. Kawahara, M. Morise, T. Takahashi, R. Nisimura,T. Irino and H. Banno: "TANDEM-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation", ICASSP, pp. 3933-3936 (2008)」に詳細に記述されている。

【0061】

適応型ＲＢＭにおける学習率、バッチサイズ、繰り返し回数はそれぞれ０：００５、５０、５００とした。隠れ素子数を１２８、１９２、２５６、５１２と変えて比較を行った。

【0062】

（実験結果と考察）
図５は、本実施の形態における声質変換方法による声質変換の結果を示す図である。例えば、ｆｅｍａｌｅ−ｔｏ−ｆｅｍａｌｅでは、評価用の女性４名の音声を、それぞれ他の女性３名へ変換し、全フレームのＳＤＩＲの平均をとったものを表す。「ａｖｇ．」は全組み合わせの平均値である。図５から、一部を除いて隠れ素子数が増加すれば変換精度が向上していることが分かる。隠れ素子数が５１２と２５６の結果を比較すると、５１２の場合は男性への変換（ｆｅｍａｌｅ−ｔｏ−ｍａｌｅ，ｍａｌｅ−ｔｏ−ｍａｌｅ）で優っている。しかし、女性への変換（ｆｅｍａｌｅ−ｔｏ−ｆｅｍａｌｅ，ｍａｌｅ−ｔｏ−ｆｅｍａｌｅ）で精度が下がってしまい、結果として全平均のＳＤＩＲ値が低くなってしまっている。この理由として、パラメータ数の増加に伴い、モデルが過学習しているためだと考えられる（男性と女性の話者数は２４対１４であり、隠れ素子数５１２のモデルでは変換音声が男性側へ強く反応していることからも過学習が窺える）。

【0063】

図６は、本実施の形態における声質変換方法によって、実際に推定されたパラメータを示す図である。図６における（ａ）、（ｂ）および（ｃ）はそれぞれ、

【数100】

の一部を示す。

【0064】

【数101】

に関しては、対角行列として近似した

【数102】

の対角成分を列ベクトルとして話者ごとに並べた行列を示しており、

【数103】

も同様に話者ごとに並べた列ベクトルを示している。図６の（ｂ）および（ｃ）において、左１４列ベクトルは女性話者、右２４列ベクトルは男性話者に相当する。この図６から分かるように、

【数104】

の各々の列ベクトルは同性間で類似性が高く、異性間で類似性が低いベクトルとなっている。これは、音声を聴いて話者の違いを認識する際、個人の差異よりも性別の違いをより大きく感じ取っているという直感と一致する。

【0065】

図７は、本実施の形態における声質変換方法によって女性話者の音声（コーパスではＦＣＪＦ０）を男性話者の音声（ＭＷＡＲ０）へ変換した例を示す図である。この例では、ＦＣＪＦ０のある時刻における対数スペクトル（図７の（ａ）における点線）からＭＦＣＣを計算し、ＦＣＪＦ０の適応型ＲＢＭによって、

【数105】

を推定した後、ＭＷＡＲ０の適応パラメータを用いて変換された音響特徴量を対数スペクトルへ復元した（図７の（ｂ）における実線）。参考として、

【数106】

の推定後ＦＣＪＦ０の適応パラメータによって復元したスペクトル（図７の（ａ）における実線）、目標となるＭＷＡＲ０のスペクトル（図７の（ｂ）における点線）を載せている。この図７より、ＦＣＪＦ０の音声からＦＣＪＦ０の音声へ再構築したスペクトルのみならず、別の話者であるＭＷＡＲ０へ変換した音声スペクトルにおいても、約３．５ｋＨｚ未満の帯域（低域）におけるスペクトルピークの周波数（フォルマント）がおおよそ目標と一致するなど、その話者の特徴を捉えていることが分かる。約３．５ｋＨｚ以上の帯域（高周波数域）に関してはいずれも目標と大きく異なっているが、ＭＦＣＣからスペクトルを復元しているため、高域における情報が損失してしまうことに起因する。

【0066】

このように、本実施の形態では、パラレルデータを学習時に一切使用せず、かつＦＣＪＦ０からＭＷＡＲ０への変換モデルを学習していないにも関わらずＦＣＪＦ０からＭＷＡＲ０へ変換することができる。

【0067】

（まとめ）
以上のように、本実施の形態における声質変換方法は、図４に示すように、ステップＳ１〜Ｓ４を含む。ステップＳ１では、ＲＢＭを構成する可視素子層と隠れ素子層の２つの異層素子間の結合重みのうち、話者に依存しない重みを非依存重み（上述の話者非依存重み）として推定する。ステップＳ２では、ＲＢＭにおいて非依存重みを固定した状態で、結合重みのうち、入力話者に依存する重みと、目標話者に依存する重みとをそれぞれ依存重み（上述の話者依存重み、または適応パラメータ）として推定する。ステップＳ３では、可視素子層に入力される入力話者の音声と、入力話者の依存重みとに基づいて、隠れ素子層を推定する。ステップＳ４では、隠れ素子層と、目標話者の依存重みとに基づいて、可視素子層として出力される目標話者の音声を推定する。また、本実施の形態では、結合重みは、Ｓ（Ｓは２以上の整数）人の話者のそれぞれに対する０または１を示す要素からなるベクトルと、非依存重みと、Ｓ人のそれぞれの話者の依存重みとを用いた演算によって表わされる。

【0068】

これにより、本実施の形態では、ＲＢＭを構成する可視素子層と隠れ素子層の２つの異層素子間の結合重みが、非依存重みと依存重みとに分離された適応型ＲＢＭが用いられる。したがって、非依存重みを固定させておけば、依存重みを用いて話者性を容易に制御することができる。その結果、パラレルデータを用いることなく入力話者の声質を変換することができる。また、入力話者および目標話者のそれぞれの音声が少なくても、ステップＳ２において入力話者および目標話者のそれぞれの依存重みを適切に推定することができる。その結果、何れの目標話者の依存重みでも簡単に推定することができるため、ステップＳ１で推定された非依存重みを流用すれば、入力話者の声質を任意の話者の声質に変換することができる。

【0069】

つまり、本実施の形態では、潜在的な特徴量を抽出するＲＢＭを拡張して、話者に依存する項（依存重み）と依存しない項（非依存重み）に分離してモデル化することで学習時にパラレルデータを必要としない、任意話者に適応可能な声質変換を行うことができる。

【0070】

なお、本実施の形態におけるＲＢＭの拡張モデル（適応型ＲＢＭ）は声質変換のみならず、音声の感情付与や物体認識など、様々なタスクへの応用が考えられる。また、このモデルにおいて識別素子

【数107】

を推定することで、例えば話者認識へ応用することも可能である。音韻情報と話者情報が混在した音声からそれぞれを分離し、話者性を制御できる。

【0071】

なお、上記実施の形態において、非依存重み推定部１１、依存重み推定部１２、隠れ素子層推定部１３および可視素子層推定部１４などの各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の声質変換装置１０などを実現するソフトウェアは、例えば図４に示すフローチャートに含まれる各ステップをコンピュータに実行させるプログラムである。また、上記実施の形態における声質変換装置１０は、プロセッサ、メモリおよび入出力ポートを有するコンピュータ、あるいは、論理回路などで実現されてもよい。また、上記実施の形態における各隠れ素子は、例えば０または１であり、その隠れ素子に対応する発話中の音素または音韻の有無を表していると考えられる。

【0072】

以上、一つまたは複数の態様に係る声質変換方法について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲に含まれてもよい。

【産業上の利用可能性】

【0073】

本発明にかかる声質変換方法は、パラレルデータを用いることなく入力話者の声質を任意の話者の声質に変換することができるという効果を奏し、例えば、ボイスチェンジャー、発話支援装置またはアミューズメント機器などの声質変換装置に適用することができる。

【符号の説明】

【0074】

１０声質変換装置
１１非依存重み推定部
１２依存重み推定部
１３隠れ素子層推定部
１４可視素子層推定部

【図1】