(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-11-17
(45)【発行日】2022-11-28
(54)【発明の名称】声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
(51)【国際特許分類】
G10L 21/007 20130101AFI20221118BHJP
G10L 25/30 20130101ALI20221118BHJP
【FI】
G10L21/007
G10L25/30
(21)【出願番号】P 2022121366
(22)【出願日】2022-07-29
【審査請求日】2022-07-29
【早期審査対象出願】
(73)【特許権者】
【識別番号】598138327
【氏名又は名称】株式会社ドワンゴ
(74)【代理人】
【識別番号】100083806
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100098327
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】北岡 伸也
(72)【発明者】
【氏名】廣芝 和之
(72)【発明者】
【氏名】藤田 和樹
【審査官】岩田 淳
(56)【参考文献】
【文献】国際公開第2019/240228(WO,A1)
【文献】米国特許出願公開第2022/0157329(US,A1)
【文献】国際公開第2019/163849(WO,A1)
【文献】国際公開第2021/085311(WO,A1)
【文献】米国特許出願公開第2020/0365166(US,A1)
【文献】特許第7069386(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
19/00-99/00
(57)【特許請求の範囲】
【請求項1】
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる
発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換装置。
【請求項2】
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部と、
前記ニューラルネットワークを学習する学習部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
前記学習部は、学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる第2の潜在表現と、前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習す
る
声質変換装置。
【請求項3】
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる
発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換装置。
【請求項4】
変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部と、
前記ニューラルネットワークを学習する学習部を備え、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
前記学習部は、学習用音声データをエンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる潜在表現と前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習した後、
学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データを前記第2のエンコーダに入力し、前記エンコーダの出力する第1の潜在表現を前記フローで変換して得られる潜在表現と前記第2のエンコーダの出力する第2の潜在表現とが近くなるように前記ニューラルネットワークを学習す
る
声質変換装置。
【請求項5】
請求項4に記載の声質変換装置であって、
前記学習部は、前記第1の潜在表現を前記フローで変換後に逆変換して得られる潜在表現と前記第2の潜在表現を前記フローで逆変換して得られる第3の潜在表現とが近くなるように前記ニューラルネットワークを学習す
る
声質変換装置。
【請求項6】
請求項1ないし5のいずれかに記載の声質変換装置であって、
前記メタ情報は話者を特定する話者情報であ
る
声質変換装置。
【請求項7】
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる
発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換方法。
【請求項8】
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
コンピュータが、
学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる第2の潜在表現と、前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習する
声質変換方法。
【請求項9】
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる
発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
声質変換方法。
【請求項10】
コンピュータが、
変換元の音声データと声質変換時に操作したいメタ情報を入力し、
学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換し、
前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる所定の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備え、
コンピュータが、
学習用音声データをエンコーダに入力するとともに、前記学習用音声データの音韻情報と前記学習用音声データに含まれる所定の特徴を示すコンディションをテキストエンコーダに入力し、前記エンコーダが出力する第1の潜在表現を前記デコーダが元の学習用音声データに復元できるように、かつ、前記第1の潜在表現を前記フローで変換して得られる潜在表現と前記テキストエンコーダの出力する表現とが近くなるように前記ニューラルネットワークを学習した後、
学習用音声データを前記エンコーダに入力するとともに、前記学習用音声データを前記第2のエンコーダに入力し、前記エンコーダの出力する第1の潜在表現を前記フローで変換して得られる潜在表現と前記第2のエンコーダの出力する第2の潜在表現とが近くなるように前記ニューラルネットワークを学習する
声質変換方法。
【請求項11】
請求項10に記載の声質変換方法であって、
コンピュータが、
前記第1の潜在表現を前記フローで変換後に逆変換して得られる潜在表現と前記第2の潜在表現を前記フローで逆変換して得られる第3の潜在表現とが近くなるように前記ニューラルネットワークを学習する
声質変換方法。
【請求項12】
音声データと声質変換時に操作したいメタ情報を入力して前記メタ情報に応じた音声データに声質変換するニューラルネットワークであって、
音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる
発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
ニューラルネットワーク。
【請求項13】
音声データと声質変換時に操作したいメタ情報を入力して前記メタ情報に応じた音声データに声質変換するニューラルネットワークであって、
音声データを入力し、当該音声データに含まれる
発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える
ニューラルネットワーク。
【請求項14】
請求項1ないし5のいずれかに記載の声質変換装置の各部としてコンピュータを動作させるプログラム。
【請求項15】
請求項1ないし5のいずれかに記載の声質変換装置の各部としてコンピュータを動作させるプログラムを記録した記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、声質変換装置、声質変換方法、プログラム、および記録媒体に関する。
【背景技術】
【0002】
近年の深層学習技術の進歩により音声合成の品質は大きく向上している。非特許文献1は、テキストからの音声生成と声質変換が行える技術である。非特許文献2は、非特許文献1の技術を基に、学習に利用した音声の話者以外の話者の音声を変換する技術であり、任意の話者の音声を声質変換できる。
【先行技術文献】
【非特許文献】
【0003】
【文献】Jaehyeon Kim, Jungil Kong, and Juhee Son, "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech," Proceedings of the 38th International Conference on Machine Learning, 2021, Vol. 139 of PMLR, pp. 5530-5540
【文献】“[OV2L Evolving Summit]セッション4 「VITSをany-to-many VCに転用してみた話」presented by kaffelun”、インターネット〈 URL:https://youtu.be/uRwFHuXw3Qk〉
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の声質変換では、変換元の音声をささやき声、裏声、怒り声などの発声の仕方を含む特徴的な音声で入力しても、学習用に用いた変換先の音声の平静音(通常時の音声)に変換される。ささやき声、裏声、怒り声などの音声を個別の話者の音声として学習すれば、変換先の音声としてささやき声、裏声、怒り声を指定することで、特徴的な音声に変換できる。しかしながら、多人数の音声に変換する場合、学習用音声として各人すべてのささやき声、裏声、および怒り声を用意する必要がある。また、平静音とささやき声との間の中間的な声には変換できないという問題があった。
【0005】
本発明は、上記に鑑みてなされたものであり、声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様の声質変換装置は、変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、前記ニューラルネットワークは、音声データを入力し、当該音声データから特徴を抽出して第1の潜在表現を出力するエンコーダと、前記第1の潜在表現を前記音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現に変換し、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える。
【0007】
本発明の一態様の声質変換装置は、変換元の音声データと声質変換時に操作したいメタ情報を入力する入力部と、学習済みのニューラルネットワークを利用して、前記変換元の音声データを前記メタ情報に応じた音声データに声質変換する変換部を備え、前記ニューラルネットワークは、音声データを入力し、当該音声データに含まれる発声の仕方の特徴を残しつつ前記メタ情報に対応する特徴を取り除いた第2の潜在表現を出力する第2のエンコーダと、前記第2の潜在表現に変換先のメタ情報に対応する特徴を付加して第3の潜在表現に逆変換するフローと、前記第3の潜在表現を入力して変換先の音声データを出力するデコーダを備える。
【発明の効果】
【0008】
本発明によれば、声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力することができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、本実施形態の声質変換装置の構成の一例を示す図である。
【
図2】
図2は、第1の実施形態のニューラルネットワークの構成の一例を示す図である。
【
図3】
図3は、第1の実施形態の声質変換時の処理の流れの一例を示すフローチャートである。
【
図4】
図4は、第2の実施形態のニューラルネットワークの構成の一例を示す図である。
【
図5】
図5は、第2の実施形態の声質変換時の処理の流れの一例を示すフローチャートである。
【
図6】
図6は、第2の実施形態のニューラルネットワークの学習方法の一例を示す図である。
【発明を実施するための形態】
【0010】
[第1の実施形態]
図1を参照し、第1の実施形態の声質変換装置1の構成の一例について説明する。同図に示す声質変換装置1は、入力部11、変換部12、および学習部13を備える。声質変換装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは声質変換装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0011】
入力部11は、音声データ(以下、音声と称する)と話者情報を入力する。具体的には、学習時、入力部11は、互いに変換可能としたい話者の学習用音声とその音声の話者情報を入力する。第1の実施形態の声質変換装置1は、互いに変換可能としたい話者の音声を学習し、学習した話者を多対多で声質変換可能にする。話者情報は話者の識別子である。学習用音声の各話者に話者情報が割り当てられる。学習時、入力部11が入力した学習用音声と学習用音声の話者情報は学習部13へ送信される。一方、推論時(声質変換時)、入力部11は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力する。推論時、入力部11が入力した変換元の音声と話者情報は変換部12へ送信される。
【0012】
変換部12は、学習済みのニューラルネットワークに、変換元の音声、変換元の話者情報、および変換先の話者情報を入力し、変換元の音声の発声の仕方を反映させて、変換元の音声を変換先の話者情報に対応する音声に声質変換する。発声の仕方とは、ささやき声、裏声、怒り声などであり、例えば、変換元の音声がささやき声の場合、変換先の音声もささやき声で生成される。変換元の話者と変換先の話者のいずれも学習に用いた音声の話者である。
【0013】
本実施形態のニューラルネットワークは、変換元の音声から特徴を抽出して変換元の音声の潜在表現を出力するエンコーダと、変換元の音声の潜在表現を、発声の仕方を残しつつ話者性(話者の特徴)を取り除いた話者によらない潜在表現に変換し、話者によらない潜在表現に変換先の話者の話者性を付加して変換先の音声の潜在表現に逆変換するフロー、および変換先の音声の潜在表現を入力して変換先の音声を出力するデコーダ(ボコーダ)を備える。モデルの詳細については後述する。
【0014】
学習部13は、学習用音声、学習用音声の話者情報、学習用音声のテキスト、および学習用音声の発声の仕方情報(以下、コンディションと称する)を入力し、エンコーダとボコーダからなる変分オートエンコーダの中間表現が従う分布をテキストとコンディションから作った分布に制約してニューラルネットワークを学習する。言い換えると、学習部13は、エンコーダが出力する潜在表現をボコーダが元の音声に復元でき、かつ、発声の仕方の特徴を残しつつ話者性を取り除いた潜在表現が、話者の特徴を含まないテキストと発声の仕方情報から作った表現に近くなるように、ニューラルネットワークを学習する。テキストは学習用音声の音韻情報である。コンディションは、例えば、ささやき声、裏声、怒り声など学習用音声の発声の仕方を示す0と1のフラグである。学習用音声がささやき声の場合、コンディションとしてささやき声を示す情報を学習部13に入力する。学習部13で学習したパラメータ(ニューラルネットワーク)は、声質変換装置1が備える記憶装置に記憶される。
【0015】
(モデルと学習)
図2を参照し、第1の実施形態のニューラルネットワークの一例と学習の一例について説明する。同図に示すニューラルネットワーク100は、エンコーダ110、フロー120、ボコーダ130、およびテキストエンコーダ140を備える。
【0016】
エンコーダ110とボコーダ130からなる構造は、変分オートエンコーダに相当する。音声をエンコーダ110に入力すると潜在表現が得られ、潜在表現をボコーダ130に入力すると音声が出力される。潜在表現は音に関する情報を持っている。
【0017】
フロー120は、潜在表現と話者情報を入力すると、潜在表現から話者性をできるだけ取り除いた話者によらない潜在表現を出力する。また、フロー120は、可逆なニューラルネットワークであり、話者によらない潜在表現を逆方向から入力し、変換先の話者情報を付加すると、変換先の話者の潜在表現が得られる。フロー120の出力する潜在表現をボコーダ130に入力することで、変換先の話者の音声を出力できる。
【0018】
テキストエンコーダ140は、学習時に利用するニューラルネットワークであり、推論時は必要ない。テキストエンコーダ140は、学習用音声のテキストとコンディションを入力し、テキストにコンディションを付与した潜在表現を出力する。テキストエンコーダ140が出力する潜在表現は、話者によらないテキストとコンディションから作った表現であり、話者性を含まない。
【0019】
学習時には、エンコーダ110に学習用音声と学習用音声の話者情報を入力し、テキストエンコーダ140に学習用音声のテキストとコンディションを入力する。エンコーダ110に入力した音声とボコーダ130から出力される音声が同じになるようにニューラルネットワークを学習すると同時に、フロー120が出力する潜在表現とテキストエンコーダ140の出力する話者によらない情報から作った表現とを近づけるように、ニューラルネットワーク100を学習する。エンコーダ110の出力する潜在表現はフロー120で変換、逆変換された後にボコーダ130に入力される。フロー120での変換時に話者性が取り除かれ、逆変換時に話者性が付与される。学習時、逆変換時に付与される話者性は学習用音声の話者性である。エンコーダ110に入力した音声のスペクトログラムとボコーダ130から出力される音声のスペクトログラムが一致するように学習する。フロー120の出力する潜在表現とテキストエンコーダ140の出力する表現とを近づける学習は、非特許文献1と同様にMonotonic Alignment Searchを利用できる。フロー120の出力する潜在表現は横軸が時間であり、テキストエンコーダ140の出力する話者によらない情報から作った表現は横軸が音素である。モノトニックアライメントでそれらの対応をとり、対応がより近くなるように制約をかける。本実施形態では、音素に加えて2番目の情報としてコンディションをテキストエンコーダ140に入力する。これにより、フロー120が、話者性が取り除かれ発声の仕方の特徴を含む潜在表現を出力するように、ニューラルネットワーク100が学習される。
【0020】
学習用音声は、多対多で声質変換したい人の音声を用意する。例えば、Aさん,Bさん,Cさんの3人の音声を学習用音声として学習した場合、学習後は、Aさんの音声をBさんまたはCさんの音声に、Bさんの音声をAさんまたはCさんの音声に、Cさんの音声をAさんまたはBさんの音声に、声質変換できる。
【0021】
学習時には、対応するコンディションの全ての学習用音声は必ずしも必要ではない。具体的には、声質変換装置1がささやき声に対応する場合、Cさんのささやき声の学習用音声がなくても、AさんまたはBさんのささやき声の学習用音声があればよい。つまり、学習する話者全員分の、声質変換装置1が対応するコンディションのすべてのバリエーションの学習用音声を用意する必要はない。
【0022】
学習用音声が発声の仕方を含む音声の場合、その発声の仕方情報もテキストと同時にテキストエンコーダ140に入力する。例えば、Aさんのささやき声の音声を学習用音声として学習する場合、エンコーダ110にAさんの学習用音声とAさんを示す話者情報を入力し、テキストエンコーダ140に学習用音声のテキストとささやき声を示すフラグを入力する。
【0023】
ニューラルネットワーク100に入力する話者情報は、声質変換時に操作したいメタ情報ともいえる。上述のように話者性をコントロールしたい場合はメタ情報として話者情報を入力する。話者情報として、ピッチやイントネーションを用いると、ピッチやイントネーションをコントロールして声質変換できる。ピッチやイントネーションを指定することで、変換先の話者の高い声、低い声、およびイントネーションを制御した音声を出力できる。一方、テキストエンコーダ140に入力するテキストとコンディションは、変換時に不変の情報である。言い換えると、変換後にも残したい音声に含まれる特徴である。
【0024】
テキストエンコーダ140にテキストとともに入力するコンディションとしてイントネーションを入力する場合、つまり、イントネーションを声質変換の際の不変の情報として扱う場合、テキストから得られる音素の各々には時間的長さがあるが、コンディションには時間的長さが無いので、モノトニックアライメントにおいて音韻情報の時間的長さとコンディションの時間的長さを合わせる工夫をするとよい。例えば、イントネーションの情報を学習用音声から抽出し、音声情報の時間的長さにイントネーションの時間的長さを合わせる。
【0025】
なお、学習用音声のマイクや空間等の環境による違いを考慮するために、ノイズを加えた学習用音声をエンコーダ110に入力し、ボコーダ130からはクリーンな音声が出力されるように学習してもよい。
【0026】
(声質変換処理)
図3を参照し、声質変換時の処理の流れについて説明する。
【0027】
ステップS11にて、入力部11は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力し、変換部12へ送信する。声質変換装置1は、音声を所定のサンプリング数(スライス)単位で処理する。変換元の音声をリアルタイムで入力した場合、リアルタイムにスライス単位で処理されて、リアルタイムに声質変換できる。変換元の話者と変換先の話者のいずれも、学習用音声の話者のいずれかの話者である。
【0028】
ステップS12にて、変換部12は、変換元の音声と変換元の話者情報をエンコーダ110に入力し、エンコーダ110から潜在表現S1を得る。潜在表現S1は、変換元の音声の話者性を含む潜在表現である。
【0029】
ステップS13にて、変換部12は、潜在表現S1と変換元の話者情報をフロー120に入力し、話者によらない潜在表現を得る。話者によらない潜在表現には、変換元の音声の発声の仕方の特徴が含まれる。
【0030】
ステップS14にて、変換部12は、変換先の話者情報を付与して、話者によらない潜在表現をフロー120で逆変換し、変換先の音声の潜在表現S2を得る。
【0031】
ステップS15にて、変換部12は、潜在表現S2と変換先の話者情報をボコーダ130に入力し、変換元の音声の発声の仕方が反映された変換先の音声を出力する。
【0032】
以上説明したように、本実施形態の声質変換装置1は、変換元の音声、変換元の話者情報、および変換先の話者情報を入力する入力部11と、学習済みのニューラルネットワーク100を利用して、変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部12を備え、ニューラルネットワーク100は、音声を入力し、音声から特徴を抽出して潜在表現S1を出力するエンコーダ110と、潜在表現S1を音声に含まれる発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現に変換し、話者によらない潜在表現を変換先の話者性を付加して潜在表現S2に逆変換するフロー120と、潜在表現S2を入力して変換先の音声を出力するボコーダ130を備える。これにより、声質変換装置1は、入力した音声のささやき声、裏声、および怒り声などの発声の仕方の反映された変換先の話者の声質に変換できる。声質変換装置1は、変換後の音声の発声の仕方を指定するのではなく、エンコーダ110とフロー120が変換元の音声の発声の仕方を含んだ潜在表現を出力するので、例えば、変換元の音声が平静音とささやき声の中間的な音声の場合、中間的な発声の仕方が反映された音声が出力される。
【0033】
本実施形態の声質変換装置1は、学習用音声をエンコーダ110に入力するとともに、学習用音声のテキストと学習用音声データに含まれる発声の仕方を示すコンディションをテキストエンコーダ140に入力し、エンコーダ110が出力する潜在表現をボコーダ130が元の学習用音声に復元でき、かつ、フロー120による変換で得られる話者によらない潜在表現とテキストエンコーダ140の出力する、話者によらない情報から作った表現とが近くなるようにニューラルネットワーク100を学習する学習部13を備える。これにより、フロー120の変換により、話者性が取り除かれ、発声の仕方を含む潜在表現が得られるようになる。この潜在表現に変換先の話者の話者性を付与して逆変換することで、変換先の話者の話者性と発声の仕方を含む潜在表現が得られる。
【0034】
[第2の実施形態]
第2の実施形態の声質変換装置は、第1の実施形態のニューラルネットワーク100を追加学習し、任意の話者の音声を声質変換する。第1の実施形態は、多対多で声質変換する声質変換装置である。第2の実施形態では、第1の実施形態のニューラルネットワークを生成後、話者によらない潜在表現を正解の話者情報なしで得られることをタクスとする学習を行う。第2の実施形態の声質変換装置の構成は第1の実施形態と同様であるので、ここでの説明は省略する。
【0035】
(モデルと学習)
図4を参照し、第2の実施形態のニューラルネットワークの一例と学習方法の一例について説明する。同図に示すニューラルネットワーク100は、エンコーダ110、フロー120、ボコーダ130、およびany用エンコーダ150を備える。エンコーダ110、フロー120、およびボコーダ130は、第1の実施形態で学習済みのものを利用する。第2の実施形態の学習時にはテキストエンコーダ140は必要ない。
【0036】
any用エンコーダ150は、話者情報のない音声を入力し、話者によらない潜在表現を出力するニューラルネットワークである。第2の実施形態では、変換元の学習用音声の話者情報無しで学習用音声を入力したany用エンコーダ150の出力が、話者によらない潜在表現に近づくようにニューラルネットワークを学習する。
【0037】
学習時には、エンコーダ110に学習用音声と学習用音声の話者情報を入力し、any用エンコーダ150に学習用音声を入力する。第1の実施形態で用いた学習用音声を第2の実施形態でも用いる。学習用音声をエンコーダ110とany用エンコーダ150に入力して、エンコーダ110の出力をフロー120で変換した潜在表現と、any用エンコーダ150の出力が近くなるようにニューラルネットワークを学習する。フロー120で変換された潜在表現は、学習用音声から話者性が取り除かれ発声の仕方の特徴を含む潜在表現である。any用エンコーダ150は、入力される音声から話者性が取り除かれ発声の仕方の特徴を含む潜在表現を出力するように学習される。数十人から100人程度の多数の話者の学習用音声で学習すれば一般性を持つと考えられ、学習用音声の話者以外の任意の話者の音声をany用エンコーダ150に入力しても、話者性が取り除かれ発声の仕方の特徴を含む潜在表現が得られる。
【0038】
any用エンコーダ150が出力する潜在表現をフロー120で逆変換し、変換先の話者情報を付与することで、any用エンコーダ150に入力した音声を変換先の話者の音声に声質変換できる。
【0039】
(声質変換処理)
図5を参照し、第2の実施形態の声質変換時の処理の流れについて説明する。
【0040】
ステップS21にて、入力部11は、変換元の音声および変換先の話者情報を入力し、変換部12へ送信する。変換元の音声の話者は学習用音声の話者でなくてもよい。つまり、任意の話者の音声を入力してよい。
【0041】
ステップS22にて、変換部12は、変換元の音声をany用エンコーダ150に入力し、any用エンコーダ150から話者によらない潜在表現を得る。話者によらない潜在表現には、変換元の音声の発声の仕方の特徴が含まれる。
【0042】
ステップS23にて、変換部12は、変換先の話者情報を付与して、話者によらない潜在表現をフロー120で逆変換し、変換先の音声の潜在表現S2を得る。
【0043】
ステップS24にて、変換部12は、潜在表現S2と変換先の話者情報をボコーダ130に入力し、変換元の音声の発声の仕方が反映された変換先の音声を出力する。
【0044】
(別の学習例)
図6を参照し、第2の実施形態のニューラルネットワークの別の学習方法の一例について説明する。
図6のニューラルネットワークの構成は
図4のニューラルネットワークの構成と同じである。
【0045】
図6の学習例では、エンコーダ110の出力をフロー120で変換および逆変換して得られた潜在表現と、any用エンコーダ150の出力をフロー120で逆変換して得られた潜在表現が近くなるようにニューラルネットワークを学習する。any用エンコーダ150には学習用音声を入力する。フロー120での逆変換時には変換先の話者情報を付与する。このように、フロー120での逆変換で得られる変換先の話者の音声の潜在表現が近くなるように学習してもよい。
【0046】
さらに、フロー120での逆変換で得られる潜在表現をボコーダ130に入力し、波形またはスペクトログラムが互いに近くなるように、ニューラルネットワークを学習してもよい。
【0047】
また、
図6の学習例において、any用エンコーダ150に学習用音声と変換先の話者情報S2を入力し、any用エンコーダ150が、フロー120を経由せずに、潜在表現S2を出力するように学習してもよい。この場合、フロー120の有無などネットワーク構成の自由度を大きくできる。
【0048】
図4で示した学習方法と
図6で示した学習方法を組み合わせてもよい。
【0049】
以上説明したように、本実施形態の声質変換装置1は、変換元の音声と変換先の話者情報を入力する入力部11と、学習済みのニューラルネットワーク100を利用して、変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部12を備え、ニューラルネットワーク100は、音声を入力し、音声に含まれる発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現を出力するany用エンコーダ150と、話者によらない潜在表現を変換先の話者性を付加して潜在表現S2に逆変換するフロー120と、潜在表現S2を入力して変換先の音声を出力するボコーダ130を備える。これにより、声質変換装置1は、誰の声からでも、入力した音声の発声の仕方が反映された変換先の話者の声質に変換できる。
【0050】
本実施形態の声質変換装置1は、第1の実施形態のニューラルネットワーク100を学習した後、学習用音声データをエンコーダ110とany用エンコーダ150に入力し、フロー120による変換で得られる話者によらない潜在表現(教師)とany用エンコーダ150の出力する潜在表現とが近くなるようにニューラルネットワーク100を学習する学習部を備える。これにより、any用エンコーダ150は、任意の話者の音声を入力すると、話者性が取り除かれ、発声の仕方を含む潜在表現を出力できるようになる。この潜在表現に変換先の話者の話者性を付与して逆変換することで、変換先の話者の話者性と発声の仕方を含む潜在表現が得られる。
【0051】
声質変換装置1は、フロー120で変換後に逆変換して得られる潜在表現S2(教師)とany用エンコーダ150の出力する話者によらない潜在表現をフロー120で逆変換して得られる潜在表現S2とが近くなるようにニューラルネットワーク100を学習してもよい。
【符号の説明】
【0052】
1 声質変換装置
11 入力部
12 変換部
13 学習部
100 ニューラルネットワーク
110 エンコーダ
120 フロー
130 ボコーダ
140 テキストエンコーダ
150 any用エンコーダ
【要約】 (修正有)
【課題】声質変換時に特徴的な音声を入力すると、その特徴が反映された音声を出力する。
【解決手段】声質変換装置は、変換元の音声と話者情報を入力する入力部と、学習済みのニューラルネットワーク100を利用して変換元の音声を変換先の話者情報に応じた音声に声質変換する変換部と、学習部と、を備える。ニューラルネットワーク100は、音声から潜在表現S1を出力するエンコーダ110と、潜在表現S1を発声の仕方の特徴を残しつつ変換元の話者性を取り除いた話者によらない潜在表現に変換し、変換先の話者性を付加して潜在表現S2に逆変換するフロー120と、潜在表現S2から変換先の音声を出力するボコーダ130と、を備える。学習部は、エンコーダ110が出力する潜在表現をボコーダ130が元の学習用音声に復元でき、フロー120による潜在表現とテキストエンコーダ140の出力とが近くなるようニューラルネットワーク100を学習する。
【選択図】
図2