IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社 ディー・エヌ・エーの特許一覧

特開2023-5191音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法
<>
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図1
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図2
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図3
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図4
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図5
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図6
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図7
  • 特開-音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023005191
(43)【公開日】2023-01-18
(54)【発明の名称】音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法
(51)【国際特許分類】
   G10L 21/007 20130101AFI20230111BHJP
【FI】
G10L21/007
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2021106955
(22)【出願日】2021-06-28
(71)【出願人】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】阿久澤 圭
(72)【発明者】
【氏名】大西 弘太郎
(72)【発明者】
【氏名】滝口 啓介
(72)【発明者】
【氏名】豆谷 浩輝
(72)【発明者】
【氏名】森 紘一郎
(57)【要約】
【課題】任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する。
【解決手段】音声を入力音響特徴量に変換する音響特徴量抽出器である音声分析部20と、音声の話者ラベルを話者特徴量に変換する話者エンコーダ22と、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダ24と、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダ26と、を備え、音声エンコーダ24、音声デコーダ26及び話者エンコーダ22は、音声エンコーダ24に入力される音響特徴量と音声デコーダ26において生成される音響特徴量との距離を小さくするように学習させる。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータを、
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
入力音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備えた音声処理学習装置として機能させ、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習プログラム。
【請求項2】
請求項1に記載の音声処理学習プログラムであって、
前記音声デコーダは、前記2以上のサンプリング階層において話者特徴量を入力する階層が限定されていることを特徴とする音声処理学習プログラム。
【請求項3】
請求項2に記載の音声処理学習プログラムであって、
前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には話者特徴量を入力せず、前記所定の階層より後段の階層には話者特徴量を入力することを特徴とする音声処理学習プログラム。
【請求項4】
請求項3に記載の音声処理学習プログラムであって、
前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことを特徴とする音声処理学習プログラム。
【請求項5】
請求項1~4のいずれか1項に記載の音声処理学習プログラムであって、
前記音声デコーダは、話者特徴量を条件付きインスタンス正規化層に入力することを特徴とする音声処理学習プログラム。
【請求項6】
コンピュータを、
音声を音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、
を備える音声処理装置として機能させることを特徴とする音声処理プログラム。
【請求項7】
請求項6に記載の音声処理プログラムであって、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される音響特徴量と前記音声デコーダにおいて生成される音響特徴量との距離を小さくするように学習させたものであることを特徴とする音声処理プログラム。
【請求項8】
請求項6又は7に記載の音声処理プログラムであって、
前記音声デコーダは、前記2以上のサンプリング階層において前記ターゲット話者特徴量を入力する階層が限定されていることを特徴とする音声処理学習プログラム。
【請求項9】
請求項8に記載の音声処理プログラムであって、
前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には前記ターゲット話者特徴量を入力せず、前記所定の階層より後段の階層には前記ターゲット話者特徴量を入力することを特徴とする音声処理プログラム。
【請求項10】
請求項9に記載の音声処理プログラムであって、
前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことを特徴とする音声処理プログラム。
【請求項11】
請求項6~10のいずれか1項に記載の音声処理プログラムであって、
前記音声デコーダは、前記ターゲット話者特徴量を条件付きインスタンス正規化層に入力することを特徴とする音声処理プログラム。
【請求項12】
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備え、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習装置。
【請求項13】
音声を音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、
を備えることを特徴とする音声処理装置。
【請求項14】
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備える音声処理学習装置において、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習方法。
【請求項15】
音声を音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、
を備える音声処理装置を用いて、
前記ソース話者の音声を前記ターゲット話者の音声に変換することを特徴とする音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法に関する。
【背景技術】
【0002】
任意の話者が発声した音声を別の話者の声質を有する音声に変換する音声処理装置が開発されている。例えば、画像変換の技術であるCycleGANを音声変換に応用した技術が開示されている(非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Takuhiro Kaneko and Hirokazu Kameoka, Parallel-Data-Free Voice Conversion Using Cycle-Consistent Adversarial Networks arXiv:1711.11293,Nov. 2017 (EUSIPCO 2018) http://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/cyclegan-vc/
【発明の概要】
【発明が解決しようとする課題】
【0004】
元の話者から別の話者の音声を合成して出力する音声処理装置では、合成された音声の声質や言い回しをできるだけ自然なものにすることが要求されている。しかしながら、従来の音声処理装置の学習方法では、合成された音声を十分に自然なものとすることができない場合があった。
【課題を解決するための手段】
【0005】
本発明の1つの態様は、コンピュータを、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、入力音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備えた音声処理学習装置として機能させ、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習プログラムである。
【0006】
ここで、前記音声デコーダは、前記2以上のサンプリング階層において話者特徴量を入力する階層が限定されていることが好適である。
【0007】
また、前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には話者特徴量を入力せず、前記所定の階層より後段の階層には話者特徴量を入力することが好適である。
【0008】
また、前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことが好適である。
【0009】
また、前記音声デコーダは、話者特徴量を条件付きインスタンス正規化層に入力することが好適である。
【0010】
本発明の別の態様は、コンピュータを、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備える音声処理装置として機能させることを特徴とする音声処理プログラムである。
【0011】
ここで、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される音響特徴量と前記音声デコーダにおいて生成される音響特徴量との距離を小さくするように学習させたものであることを特徴とする音声処理プログラム。
【0012】
また、前記音声デコーダは、前記2以上のサンプリング階層において前記ターゲット話者特徴量を入力する階層が限定されていることが好適である。
【0013】
また、前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には前記ターゲット話者特徴量を入力せず、前記所定の階層より後段の階層には前記ターゲット話者特徴量を入力することが好適である。
【0014】
また、前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことが好適である。
【0015】
また、前記音声デコーダは、前記ターゲット話者特徴量を条件付きインスタンス正規化層に入力することが好適である。
【0016】
本発明の別の態様は、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備え、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習装置である。
【0017】
本発明の別の態様は、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備えることを特徴とする音声処理装置である。
【0018】
本発明の別の態様は、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備える音声処理学習装置において、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習方法である。
【0019】
本発明の別の態様は、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備える音声処理装置を用いて、前記ソース話者の音声を前記ターゲット話者の音声に変換することを特徴とする音声処理方法である。
【発明の効果】
【0020】
本発明によれば、任意の話者が発した音声を目標とする話者が発した音声に適切に変換する音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理学習プログラム、音声処理学習装置及び音声処理学習方法を提供することができる。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。
【図面の簡単な説明】
【0021】
図1】本発明の実施の形態における音声処理装置の構成を示す図である。
図2】本発明の実施の形態における音声処理学習装置の構成を示す機能ブロック図である。
図3】バリエーショナル・オート-エンコーダの構成を示す図である。
図4】ヌーヴォー・バリエーショナル・オート-エンコーダの構成を示す図である。
図5】本発明の実施の形態におけるバリエーショナル・オート-エンコーダの各層のニューラルネットワークの構成を示す図である。
図6】本発明の実施の形態における音声学習処理を説明するための図である。
図7】本発明の実施の形態における音声学習装置の構成を示す機能ブロック図である。
図8】本発明の実施の形態における音声処理を説明するための図である。
【発明を実施するための形態】
【0022】
本発明の実施の形態における音声処理装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている音声処理学習プログラムを実行することによって、本実施の形態における音声処理の学習を行う。また、処理部10は、記憶部12に記憶されている音声処理プログラムを実行することによって、本実施の形態における音声処理に関する機能を実現する。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、音声処理学習プログラム、音声処理プログラム、その処理に必要な情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、使用者からの情報の入力を受けるキーボード、タッチパネル、ボタン等を備える。また、入力部14は、任意の話者及び目標となる所定の話者の音声の入力を受ける音声入力手段を備える。音声入力手段は、例えば、マイク、増幅回路等を含む構成とすればよい。出力部16は、管理者から入力情報を受け付けるためのユーザインターフェース画面(UI)や処理結果を出力する手段を含む。出力部16は、例えば、画像を呈示するディスプレイを備える。また、出力部16は、音声処理装置100によって生成された合成音声を出力する音声出力手段を備える。音声出力手段は、例えば、スピーカ、増幅器等を含む構成とすればよい。通信部18は、ネットワーク102を介して、外部端末(図示しない)との情報の通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。なお、音声処理に供される音声情報は通信部18を介して外部端末から取得してもよい。
【0023】
音声処理装置100は、任意の話者が発した音声を所定の話者(目標話者)の音声の音質に変換する音声処理を行う。また、音声処理装置100は、当該音声処理のための学習を行う音声処理学習装置としても機能する。
【0024】
[音声学習処理]
図2は、音声処理学習時における音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、話者エンコーダ22、音声エンコーダ24、音声デコーダ26及び学習器28として機能する。具体的には、音声処理装置100は、音声処理学習プログラムを実行することによって以下の音声学習方法を実現する音声処理学習装置として機能する。
【0025】
音声分析部20は、音声データを取得し、音声データから音響特徴量を抽出する音響特徴量抽出器として機能する。すなわち、音声処理装置100の処理部10は、音声分析部20として機能する。音声データは、入力部14を構成するマイクを用いて話者の音声を音声データに変換して取得すればよい。また、通信部18を介して、外部のコンピュータ等に予め記録されている音声データを受信するようにしてもよい。取得された音声データは、記憶部12に記憶される。
【0026】
音声データの取得処理は、任意の話者の発する音声について行われる。音声学習処理では、多数の話者からの音声を用いて音声エンコーダ24及び音声デコーダ26の学習処理が行われる。各話者から得る音声は、同一の内容である必要はない。
【0027】
また、音声分析部20は、さらに音声処理に必要な音声分析を行う。例えば、音声分析部20は、入力された音声の周波数特性に基づいて音声のケプストラム解析を行い、スペクトルの包絡線(声の太さ等を示す情報)及び微細構造の情報を含むメル周波数ケプストラム係数(MFCC)、音声の基本周波数や共鳴周波数(声の高さ、声のかすれ等を示す情報)等の音響特徴量を求める。音響特徴量は、例えば、音声セグメントの長さTに対して(80×T)次元のユークリッド空間とすることができる。具体的には、音声分析部20は、話者ID(話者ラベル)がiの話者が発した音声から音響特徴量xを生成して出力する。音声分析部20で抽出された音響特徴量は音声エンコーダ24及び学習器28へ入力される。
【0028】
話者エンコーダ22は、音声分析部20に入力された音声の発話者のIDを音声処理に利用できる話者特徴量に変換して出力する。話者エンコーダ22は、発話者のIDを話者特徴量に変換して出力する埋込モジュールを含んで構成することができる。例えば、話者エンコーダ22は、話者IDがiの話者である場合、話者特徴量yを生成して出力する。話者エンコーダ22で生成された話者特徴量は音声エンコーダ24及び音声デコーダ26へ入力される。
【0029】
音声処理装置100の学習では、複数の話者が発した音声から得られた音響特徴量xと話者特徴量yの組み合わせ(x,y)のセットが用いられる。
【0030】
音声エンコーダ24は、音響特徴量及び話者特徴量の入力を受けて、音響特徴量及び話者特徴量を潜在表現に変換する処理を行う。音声デコーダ26は、音声エンコーダ24によって得られた潜在表現及び話者特徴量の入力を受けて、潜在表現及び話者特徴量を音響特徴量に変換する処理を行う。潜在表現は、入力された音声データの言語的な特徴を表す。
【0031】
音声エンコーダ24及び音声デコーダ26は、図2に示すように、音声分析部20から音響特徴量xの入力を受けて、音声エンコーダ24において潜在表現zに変換し、さらに音声デコーダ26において潜在表現zから音響特徴量x^に再構成し、出力の音響特徴量x^が入力の音響特徴量xを復元するように学習される。
【0032】
本実施の形態では、音声エンコーダ24及び音声デコーダ26は、バリエーショナル・オート-エンコーダ(VAE:Variational Auto-Encoder)によって構成される。バリエーショナル・オート-エンコーダは、変分自己符号化器の一種であり、図3に示すように、潜在表現を確率分布に基づいたサンプリングによって生成する。確率分布は、平均μと分散σで規定される正規分布と仮定する。バリエーショナル・オート-エンコーダは、入力Xに対して平均μと分散σに基づいたサンプリングによって潜在表現zを生成するエンコーダと、潜在表現zから出力X^を生成するデコーダと、の組み合わせからなる。バリエーショナル・オート-エンコーダでは、入力Xと出力X^との復元誤差(復元距離)Eが小さくなるように話者エンコーダ22、音声エンコーダ24及び音声デコーダ26の学習が行われる。
【0033】
図4に示すように、一般的なバリエーショナル・オート-エンコーダは一階層のニューラルネットワークで構成されるが、本実施の形態では2階層以上の複数階層のニューラルネットワークで構成されたヌーヴォー・バリエーショナル・オート-エンコーダ(NVAE:Nouveau Variational Auto-Encoder)とすることが好適である。すなわち、ヌーヴォー・バリエーショナル・オート-エンコーダは、2以上のサンプリング階層を有する変分自己符号化器を含んで構成される。例えば、音声処理装置100では、音声エンコーダ24及び音声デコーダ26をn=35階層のニューラルネットワークでそれぞれ構成することが好適である。
【0034】
音声エンコーダ24及び音声デコーダ26のヌーヴォー・バリエーショナル・オート-エンコーダの各層は、図5に示すように、Conditional-Instance-Normalization層(CIN層)、Convolution層(CONV層)、Squeeze-and-Excitation層(SE層)を組み合わせて構成される。CIN層は、一般的なヌーヴォー・バリエーショナル・オート-エンコーダにおけるバッチ正規仮想(BN層)の代わりに設けられる層である。CIN層は、正規化層の1つであり、スタイル毎に異なるパラメータを設定して正規化を行う条件付きインスタンス正規化層である。本実施の形態では、CIN層は、話者特徴量を入力の1つとして、入力された話者特徴量によって条件付けられた正規化を行う。また、Swish活性化関数はf(x)=x/(1+e-βx)と表される活性化関数である。Convolution層は、入力に対して畳み込み演算を適用して次の層に演算結果を出力する層である。SE層は、入力に対してチャンネル間の関係に基づいて適応的にattentionをかけて重み付きの特徴を出力する層である。
【0035】
図6を参照して、音声処理装置100における音声学習処理について説明する。音声エンコーダ24及び音声デコーダ26は、それぞれ階層数nのニューラルネットワークで構成された例を示している。階層数nは、例えば、35階層とすることができる。各階層は、それぞれ図5に示したConditional-Instance-Normalization層(CIN層)、Convolution層(CONV層)、Squeeze-and-Excitation層(SE層)を組み合わせて構成される。なお、音声エンコーダ24の階層k(ただし、kは1~nの階層数を示す)から出力される潜在表現をhで示し、音声デコーダ26の階層数kで表される階層から出力される潜在表現をzで示している。
【0036】
音声エンコーダ24では、階層nに対して音響特徴量x及び話者特徴量yが入力され、潜在表現hが出力される。次の階層n-1では、前段である階層nから出力された潜在表現h及び話者特徴量yが入力され、潜在表現hn-1が出力される。以下、同様に、階層kでは、前段である階層k+1から出力された潜在表現hk+1及び話者特徴量yが入力され、潜在表現hが出力される。最終段である階層1では、前段である階層2から出力された潜在表現h及び話者特徴量yが入力され、潜在表現hが出力される。当該潜在表現hから音声デコーダ26の初段である階層1の潜在表現zがサンプリングされる。このように、音声エンコーダ24においては、すべての階層1~nにおいて話者特徴量yを入力に含めることが好適である。
【0037】
音声デコーダ26では、初段である階層1に対して潜在表現zが入力され、潜在表現zが出力される。また、音声デコーダ26の階層kにおける潜在表現zは、音声デコーダ26において前段の階層k-1の潜在表現zk-1、音声エンコーダ24のk階層目の潜在表現h及び話者特徴量yに基づく事前分布p(z|zk-1,h,y)からサンプリングして得ることが可能である。また、潜在表現zは、音声デコーダ26のより前段の階層k-1、階層k-2・・・階層1の潜在表現zk-1、潜在表現zk-2・・・潜在表現z及び音声エンコーダ24のk階層目の潜在表現hに基づく事後分布p(z|zk-1,zk-2・・・z,h)からサンプリングして得ることも可能である。なお、分布p(a|b)は、bを前提条件としてaが出力とされる尤もらしさを示す尤度関数である。
【0038】
音声学習処理では、音声デコーダ26の出力に近い階層から遠い階層に亘って音声エンコーダ24からサンプリングを行う。すなわち、図6に示すように、すべての階層1~階層nにおいて音声エンコーダ24のk階層目の潜在表現hからサンプリングを行うことが好適である。また、事後分布からのサンプリングには話者特徴量yを入力に含めないことが好適である。
【0039】
すなわち、音声デコーダ26では出力に近い階層のみに話者特徴量yを入力に含め、出力から遠い階層には話者特徴量yを入力に含めないことが好適である。このとき、音声エンコーダ24からサンプリングを行わず、事前分布からサンプリングを行う階層では話者特徴量yを入力に含め、音声エンコーダ24からサンプリングを行い、事後分布からサンプリングを行う階層では話者特徴量yを入力に含めないようにすることが好適である。
【0040】
なお、サンプリングには話者特徴量yを含めない階層では、Conditional-Instance-Normalization層(CIN層)に話者特徴量yを入力しない。
【0041】
このような構成において、学習器28では、音声デコーダ26に入力される音響特徴量xと音声デコーダ26から出力される再構築された音響特徴量x^との誤差(距離)が小さくなるように話者エンコーダ22、音声エンコーダ24及び音声デコーダ26に含まれる各階層のニューラルネットワークの各種パラメータ(各ニューロンの重み係数又はバイアス等)を調整する。
【0042】
ここで、音声デコーダ26に入力される音響特徴量xと音声デコーダ26から出力される再構築された音響特徴量x^との誤差(距離)が小さくなるように、音声デコーダ26において話者特徴量yを考慮した事前分布からサンプリングを行う階層と、話者特徴量yを考慮しない事後分布からサンプリングを行う階層との境界となる階層を適宜設定すればよい。
【0043】
以上のように、音声エンコーダ24に入力される音響特徴量xによって表現される音声と、音声デコーダ26において再構築される音響特徴量x^によって表現される音声とが近づくように音声エンコーダ24及び音声デコーダ26が学習される。
【0044】
[音声処理]
図7は、ソース話者が発した音声をターゲット話者が発した音声のように変換する音声処理時における音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、話者エンコーダ22、音声エンコーダ24、音声デコーダ26及びボコーダ30として機能する。具体的には、音声処理装置100は、音声処理プログラムを実行することによって以下の音声処理を実現する音声処理装置として機能する。
【0045】
音声分析部20は、ソース話者が発した音声の音声データを取得し、音声処理に必要な音声分析を行う。音声分析部20で抽出された音響特徴量は音声エンコーダ24へ入力される。
【0046】
話者エンコーダ22は、ソース話者及びターゲット話者のIDを音声処理に利用できる話者特徴量に変換して出力する。話者エンコーダ22は、ソース話者IDがsの話者である場合、ソース話者特徴量yを生成して音声エンコーダ24へ出力する。また、話者エンコーダ22は、ターゲット話者IDがtの話者である場合、ターゲット話者特徴量yを生成して音声デコーダ26へ出力する。
【0047】
音声エンコーダ24は、ソース話者の音声から得られた音響特徴量及びソース話者特徴量の入力を受けて、当該音響特徴量及び当該ソース話者特徴量を潜在表現に変換する処理を行う。音声デコーダ26は、音声エンコーダ24によって得られた潜在表現及びターゲット話者特徴量の入力を受けて、当該潜在表現及び当該ターゲット話者特徴量から音響特徴量を再構築する処理を行う。
【0048】
図8を参照して、音声処理装置100における音声処理について説明する。音声処理では、上記の音声学習処理において学習された音声エンコーダ24及び音声デコーダ26を用いて行われる。
【0049】
音声エンコーダ24では、階層nに対してソース話者の音声から得られた音響特徴量x及びソース話者特徴量yが入力され、潜在表現hが出力される。以下、学習時と同様に、階層kでは、前段である階層k+1から出力された潜在表現hk+1及びソース話者特徴量yが入力され、潜在表現hが出力される。最終段である階層1では、前段である階層2から出力された潜在表現h及びソース話者特徴量yが入力され、潜在表現hが出力される。当該潜在表現hから音声デコーダ26の初段である階層1の潜在表現zがサンプリングされる。
【0050】
音声デコーダ26では、初段である階層1に対して潜在表現zが入力され、潜在表現zが出力される。音声デコーダ26の出力から遠い階層では、ターゲット話者特徴量yを入力に含めず、音声デコーダ26においてより前段の階層k-1、階層k-2・・・階層1の潜在表現zk-1、潜在表現zk-2・・・潜在表現z及び音声エンコーダ24のk階層目の潜在表現hに基づく事後分布p(z|zk-1,zk-2・・・z,h)からサンプリングを行う。音声デコーダ26の出力に近い階層では音声エンコーダ24からサンプリングを行わず、直前の階層k-1の潜在表現zk-1及びターゲット話者特徴量yに基づく事前分布p(z|zk-1,y)からサンプリングを行う。図8では、音声デコーダ26の階層n-1及び階層nにおいて事前分布からサンプリングを行う例を示している。このとき、事前分布からのサンプリングにはソース話者特徴量yではなく、ターゲット話者特徴量yを入力に含めることが好適である。
【0051】
音声エンコーダ24及び音声デコーダ26における音声処理によって、音声デコーダ26の最終段である階層nからソース話者の音声から得られた音響特徴量xをターゲット話者の音声に合わせた音響特徴量xが構築されて出力される。
【0052】
ボコーダ30は、音声デコーダ26から出力された音響特徴量xを音声データに変換して出力する。ボコーダ30は、音声分析部20における音声データから音響特徴量を抽出する処理の逆の処理を行うことによって音響特徴量xを音声データに変換することができる。
【0053】
以上のように、本実施の形態の音声処理装置100によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理装置、音声処理プログラム及び音声処理方法並びに音声学習処理装置、音声学習処理プログラム及び音声学習処理方法を提供することができる。すなわち、学習された音声エンコーダ24及び音声デコーダ26を含む音声処理装置100によって、ソース話者が発した音声をターゲット話者が発したような音声に変換する音声処理を実現することができる。
【0054】
特に、音声エンコーダ24及び音声デコーダ26に対してヌーヴォー・バリエーショナル・オート-エンコーダ(NVAE:Nouveau Variational Auto-Encoder)を適用することによって、従来よりもソース話者の音声をターゲット話者が発した自然な感じの音声に変換することができる。
【符号の説明】
【0055】
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 音声分析部、22 話者エンコーダ、24 音声エンコーダ、26 音声デコーダ、28 学習器、30 ボコーダ、100 音声処理装置、102 ネットワーク。
図1
図2
図3
図4
図5
図6
図7
図8