(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-26
(54)【発明の名称】モデル訓練及び音色変換方法、装置、デバイス及び媒体
(51)【国際特許分類】
G10L 21/007 20130101AFI20241219BHJP
G10L 13/06 20130101ALI20241219BHJP
G10L 25/30 20130101ALI20241219BHJP
【FI】
G10L21/007
G10L13/06 200
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024538190
(86)(22)【出願日】2022-12-20
(85)【翻訳文提出日】2024-06-21
(86)【国際出願番号】 CN2022140253
(87)【国際公開番号】W WO2023116660
(87)【国際公開日】2023-06-29
(31)【優先権主張番号】202111577618.0
(32)【優先日】2021-12-22
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】320010240
【氏名又は名称】ビゴ テクノロジー ピーティーイー. リミテッド
【住所又は居所原語表記】30 PASIR PANJANG ROAD,#15-31A,MAPLETREE BUSINESS CITY,SINGAPORE 117440
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】黄 家▲鴻▼
(72)【発明者】
【氏名】李 玉▲楽▼
(72)【発明者】
【氏名】▲項▼ ▲偉▼
(57)【要約】
本願には、モデル訓練及び音色変換方法、装置、デバイス及び媒体が提供される。当該音色抽出ネットワークによって入力するサンプルオーディオデータの第1音色特徴を取得することができるため、入力するサンプルオーディオデータの音色情報を正確に取得し、後続に、当該音色特徴によって合成オーディオデータを取得し、合成オーディオデータの音色の正確性を向上させることに有利になり、当該除去音色ネットワークによって、当該第1音色特徴に基づいて、当該サンプルオーディオデータの第1語義特徴を取得することができ、サンプルオーディオデータにおける、発話者音色に関係なく、且つ発音コンテンツに関する特徴を正確に取得したことを実現することで、後続に当該第1語義特徴によって合成オーディオデータを取得し、合成オーディオデータの発音コンテンツの正確性を確保することに有利になる。訓練済みの音色変換モデルを取得した後、当該音色変換モデルによって音色変換を行うことで、音色変換の変換効果及び信頼性を向上させることができる。
【特許請求の範囲】
【請求項1】
サンプルセットを取得し、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであることと、
いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することと、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することと、
を含む、
音色変換モデル訓練方法。
【請求項2】
前記サンプルオーディオデータに対応する目標オーディオデータは、前記サンプルオーディオデータ、前記サンプルオーディオデータの発話者と異なるサンプルオーディオデータ、及び前記サンプルオーディオデータの発話者と異なる非サンプルオーディオデータ、のうちの少なくとも一種を含む、
請求項1に記載の方法。
【請求項3】
前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴を取得することは、
前記目標オーディオデータは前記サンプルオーディオデータである場合、前記サンプルオーディオデータの第1音色特徴を前記第2音色特徴として決定することと、
前記目標オーディオデータは前記サンプルオーディオデータではない場合、前記オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記目標オーディオデータの第2音色特徴を取得することと、
を含む、
請求項2に記載の方法。
【請求項4】
前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得することは、
前記除去音色ネットワークにおける事後エンコーダによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、前記サンプルオーディオデータにおける語義情報の隠れベクトルを取得することと、
前記除去音色ネットワークにおけるエンハンスサブネットワークによって、前記隠れベクトルに基づいて、前記第1語義特徴を取得することと、
を含む、
請求項1に記載の方法。
【請求項5】
前記方法は、いずれか一つの前記サンプルオーディオデータに対して、前記オリジナル音色変換モデルにおける語義抽出ネットワークによって、前記サンプルオーディオデータに基づいて、第2語義特徴を取得すること、をさらに含み、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことは、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各前記サンプルオーディオデータにそれぞれ対応する合成オーディオデータ、及び各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得する、ことを含む、
請求項4に記載の方法。
【請求項6】
前記オリジナル音色変換モデルにおける語義抽出ネットワークによって、前記サンプルオーディオデータに基づいて、第2語義特徴を取得することは、
前記語義抽出ネットワークにおける第1コンテンツサブネットワークによって、前記サンプルオーディオデータに基づいて、コンテンツ特徴を取得することと、
前記語義抽出ネットワークにおける第2コンテンツサブネットワークによって、前記コンテンツ特徴に基づいて、離散化のコンテンツ特徴を取得することと、
前記語義抽出ネットワークにおける第3コンテンツサブネットワークによって、前記離散化のコンテンツ特徴に基づいて、前記第2語義特徴を取得することと、
を含む、
請求項5に記載の方法。
【請求項7】
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各前記サンプルオーディオデータにそれぞれ対応する合成オーディオデータ、及び各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、前記オリジナル音色変換モデルに対して訓練を行うことは、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各前記サンプルオーディオデータにそれぞれ対応する合成オーディオデータに基づいて、再構成損失値を決定することと、
各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、語義損失値を決定することと、
前記再構成損失値及び前記語義損失値によって、総合損失値を決定することと、
前記総合損失値によって、前記オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得することと、
を含む、
請求項5または6に記載の方法。
【請求項8】
前記方法は、前記除去音色ネットワークにおける事後エンコーダによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、前記隠れベクトルの平均ベクトル及び分散ベクトルを取得することをさらに含み、
各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、語義損失値を決定することは、
各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴、第2語義特徴、平均ベクトル及び分散ベクトルに基づいて、語義損失値を決定することを含む、
請求項1から7のいずれか一項に記載の方法。
【請求項9】
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各前記サンプルオーディオデータにそれぞれ対応する合成オーディオデータ、及び各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、前記オリジナル音色変換モデルに対して訓練を行うことは、
各前記サンプルオーディオデータにそれぞれ対応するコンテンツ特徴及び各前記サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴に基づいて、数量化損失値を決定することと、及び
各前記サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、比較学習損失値を決定することと、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各前記サンプルオーディオデータにそれぞれ対応する合成オーディオデータ、各前記サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各前記サンプルオーディオデータにそれぞれ対応する第2語義特徴、前記数量化損失値及び前記比較学習損失値に基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することと、
を含む、
請求項6に記載の方法。
【請求項10】
前記訓練済みの音色変換モデルを取得した後、前記方法は、
前記音色変換モデル及びサンプルセットにおける各前記サンプルオーディオデータに基づいて、前記異なる発話者にそれぞれ対応する音色特徴を決定することと、
前記異なる発話者にそれぞれ対応する対象標識及び音色特徴を対応的に保存することと、
をさらに含む、
請求項1から9のいずれか一項に記載の方法。
【請求項11】
ソースオーディオデータ及び目標発話者の音色特徴を取得することと、
予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得することと、
を含む、
音色変換方法。
【請求項12】
前記目標発話者の音色特徴を取得することは、
前記目標発話者の情報を取得することと、
前記目標発話者の情報は対象標識であることを決定する場合、保存する対象標識と音色特徴との対応関係によって、前記目標発話者の対象標識に対応する音色特徴を決定することと、
前記目標発話者の情報はオーディオデータであることを決定する場合、前記音色変換モデルにおける音色抽出ネットワークによって、前記オーディオデータの音色特徴を取得することと、
を含む、
請求項11に記載の方法。
【請求項13】
取得ユニットと、処理ユニットと、訓練ユニットとを含み、
前記取得ユニットは、サンプルセットを取得することに配置され、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであり、
前記処理ユニットは、いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することに配置され、
前記訓練ユニットは、各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得する、ことに配置される、
音色変換モデル訓練装置。
【請求項14】
取得モジュールと、合成モジュールとを含み、
前記取得モジュールは、ソースオーディオデータ及び目標発話者の音色特徴を取得することに配置され、
前記合成モジュールは、予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得することに配置される、
音色変換装置。
【請求項15】
プロセッサ及びメモリを少なくとも含み、
前記プロセッサは、メモリに記憶されるコンピュータプログラムを実行する場合、請求項1から10のいずれか一項に記載の前記音色変換モデル訓練方法のステップ、または、請求項11から12のいずれか一項に記載の前記音色変換方法のステップを実現することに配置される、
電子デバイス。
【請求項16】
コンピュータプログラムが記憶され、
前記コンピュータプログラムがプロセッサに実行される場合、請求項1から10のいずれか一項に記載の前記音色変換モデル訓練方法のステップ、または、請求項11から12のいずれか一項に記載の前記音色変換方法のステップを実現させる、
コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2021年12月22日に中国特許庁に提出された出願番号202111577618.0の中国特許出願の優先権を主張し、その全てのコンテンツは参照により本願に援用する。
【0002】
本願は、自然言語理解の技術分野に関し、特に、モデル訓練及び音色変換方法、装置、デバイス及び媒体に関する。
【背景技術】
【0003】
音色変換技術はオーディオ分野における一つの重要な技術であり、オーディオコンテンツの生成、娯楽オーディオの作成、及び秘密通話などの分野に広く応用される。音色変換技術とは、オリジナルのオーディオにおける音声の音色を他の話者の音声の音色に変換することである。音色変換の過程において、音色を変換した後のオーディオの音色が他の話者の音声の音色と似て、オーディオのコンテンツがそのままで変更されないままで保持されることを確保する必要がある。音色変換技術の難点は、如何にオリジナルのオーディオのコンテンツ情報を保持したまま、音色転換を行うかということである。
【0004】
この点に鑑みて、如何に音色変換を行い、安定的な音色変換効果を得るかということは、早急に解決すべき技術問題である。
【発明の概要】
【課題を解決するための手段】
【0005】
本願の実施例には、現在の音色変換の変換効果が悪く、音色変換の信頼性を低減する問題を解決するためのモデル訓練及び音色変換方法、装置、デバイス及び媒体が提供される。
【0006】
本願の実施例には音色変換モデル訓練方法が提供され、前記方法は、
サンプルセットを取得し、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであることと、
いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することと、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することと、
を含む。
【0007】
本願の実施例には、音色変換方法が提供され、前記方法は、
ソースオーディオデータ及び目標発話者の音色特徴を取得することと、
予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得することと、
を含む。
【0008】
本願の実施例には、音色変換モデル訓練装置が提供され、前記装置は、取得ユニットと、処理ユニットと、訓練ユニットとを含み、
前記取得ユニットは、サンプルセットを取得することに配置され、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであり、
前記処理ユニットは、いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することに配置され、
前記訓練ユニットは、各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することに配置される。
【0009】
本願の実施例には音色変換装置が提供され、前記装置は、取得モジュールと合成モジュールとを含み、
前記取得モジュールは、ソースオーディオデータ及び目標発話者の音色特徴を取得することに配置され、
前記合成モジュールは、予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得することに配置される。
【0010】
本願の実施例には、電子デバイスが提供され、前記電子デバイスは、プロセッサとメモリとを少なくとも含み、前記プロセッサは、メモリに記憶されるコンピュータプログラムを実行する場合、上記のような前記音色変換モデル訓練方法のステップ、または、上記のような前記音色変換方法のステップを実現することに配置される。
【0011】
本願の実施例には、コンピュータ可読記憶媒体が提供され、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサに実行される場合、上記のような前記音色変換モデル訓練方法のステップ、または、上記のような前記音色変換方法のステップを実現させる。
【0012】
本願の実施例にはコンピュータプログラム製品も提供され、コンピュータプログラムを含み、当該コンピュータプログラムが実行される場合、上記のような前記音色変換モデル訓練方法のステップ、または、上記のような前記音色変換方法のステップを実現できる。
【0013】
音色変換モデルに対して訓練を行う過程において、サンプルセットにおけるサンプルオーディオデータに対して予めラベル付けを行う必要がなく、サンプルオーディオデータに対して行うラベル付けにかかるコストを減少し、後続にサンプルセットにおけるサンプルオーディオデータに基づいた音色変換モデルに対する訓練を容易にする。オリジナル音色変換モデルには、音色抽出ネットワーク、除去音色ネットワーク及びボコーダを含むため、当該音色抽出ネットワークによって入力するサンプルオーディオデータの第1音色特徴を取得することができ、これにより、入力するサンプルオーディオデータの音色情報を正確に取得し、後続に、当該音色特徴によって合成オーディオデータを取得し、合成オーディオデータの音色の正確性を向上させることに有利になり、当該除去音色ネットワークによって、当該第1音色特徴に基づいて、入力するサンプルオーディオデータの第1語義特徴を取得でき、サンプルオーディオデータにおける、発話者音色に関係なく、且つ発音コンテンツに関する特徴を正確に取得したことを実現することで、後続に当該第1語義特徴によって合成オーディオデータを取得し、合成オーディオデータの発音コンテンツの正確性を確保することに有利になる。当該ボコーダによって、当該第1語義特徴及び当該サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することができる。各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、オリジナル音色変換モデルに対して訓練を行うことができることで、訓練済みの音色変換モデルを取得し、教師なし訓練の音色変換モデルを実現し、音色変換モデルを取得する難しさを大幅に低減する。後続、訓練済みの音色変換モデルに基づいて音色変換を行うことで、音色変換の変換効果及び信頼性を向上させることができる。
【0014】
本願の実施例における技術案をより明確に説明するために、以下は、実施例の説明において使用する必要がある図面に対して簡単に説明しており、以下で説明する図面は、本願のいくつかの実施例に過ぎず、当業者にとって、創造的な労働を払わない前提で、これらの図面によって他の図面を得ることもできることは明らかである。
【図面の簡単な説明】
【0015】
【
図1】本願の実施例に提供される音色変換モデル訓練の過程の概略図である。
【
図2】本願の実施例に提供される音色変換モデルの構造の概略図である。
【
図3】本願の実施例に提供される音色変換の過程の概略図である。
【
図4】本願の実施例に提供される音色変換モデルの構造の概略図である。
【
図5】本願の実施例に提供される音色変換モデル訓練装置的構造概略図である。
【
図6】本願の実施例に提供される音色変換装置の構造の概略図である。
【
図7】本願の実施例に提供される電子デバイスの構造の概略図である。
【
図8】本願の実施例に提供される他の電子デバイスの構造の概略図である。
【発明を実施するための形態】
【0016】
本願の目的、技術案及び利点をより明確するために、以下、図面を結合して本願に対してさらに詳しく説明し、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。本願における実施例に基づいて、当業者は、創造的な労働を払わない前提で得る全ての他の実施例は、いずれも本願の保護範囲に属する。
【0017】
当業者であれば、本願の実施形態は、システム、装置、デバイス、方法またはコンピュータプログラム製品として実現できることを知っている。そのため、本願は、具体的に以下の形式、即ち、完全なハードウェア、完全なソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含み)、またはハードウェアとソフトウェアの結合的な形式で実現することができる。
【0018】
本願において、図面における任意の要素の数は、制限ではなく、いずれも例示のために使用されること、及び任意の名称は区分のためにのみ使用され、制限的な意味を持たないことを理解することができる。
【0019】
現在、テキスト読み上げ(Test to Speech、TTS)による音色変換技術、音声認識(Automatic Speech Recognition、ASR)による音色変換技術、生成式敵対的ネットワーク(Generative Adversarial Network、GAN)による音色変換技術、及び変分自動エンコーダ(Variational Auto Encoder、VAE)による音色変換技術を採用することで、音色変換を実現することができる。これらの方法を採用して音色変換を行う場合、合成オーディオデータの発音コンテンツの正確性を確保しようとすると、合成オーディオデータにおける語気などの語義コンテンツに関係ない音色特徴(例えばため息、絶叫など)を確保できず、合成オーディオデータの自然さ及び音色変換効果が低減してしまう。
【0020】
ASRによる音色変換技術を例として、当該方法において、一般的に一つの予め訓練済みのASRモデルを採用してオーディオの語義情報を抽出し、音色抽出モデルによって目標発話者のオーディオデータにおける音色情報を抽出し、当該語義情報及び音色情報に基づいて、目標発話者の合成オーディオデータを生成する。当該方法が予め訓練されたASRモデルに大きく依存するため、ASRモデルの精度は、合成オーディオデータの音色変換効果に直接的に影響を与える。同時に、ASRモデルは、主に語義の抽出に利用するため、オーディオデータにおける語気などの語義コンテンツに関係ない音色情報を見落すことがあり、合成オーディオデータが語気などの語義コンテンツに関係ない情報を失ってしまう。
【0021】
TTSによる音色変換技術を例として、当該方法において、目標発話者の大量のオーディオデータを予め採集する必要があり、その後、採集した各オーディオデータ及び各オーディオデータにそれぞれ対応する語義情報に基づいて、当該目標発話者の声学モデル及びボコーダを訓練して得る。この後、テキスト情報のテキスト特徴及び訓練済みの当該目標発話者の声学モデル及びボコーダに基づいて、目標発話者の合成オーディオデータを取得する。一般的にセンテンス3万以上、または30時間以上の当該目標発話者のオーディオデータを予め採集する必要があり、当該目標発話者の声学モデル及びボコーダの精度を確保できることで、各オーディオデータの語義に対してラベル付けを行う必要があり、当該目標発話者の声学モデル及びボコーダを取得する難しさを増加し、及びかかるコストも非常に大きくなり、得た合成オーディオデータにおける語気などの音色情報は比較的に固定化され、合成オーディオデータの自然さ及び音色変換効果が低減してしまう。
【0022】
上記の問題を解決するために、本願の実施例には、モデル訓練及び音色変換方法、装置、デバイス、媒体が提供される。音色変換モデルに対して訓練を行う過程において、サンプルセットにおけるサンプルオーディオデータに対して予めラベル付けを行う必要がなく、サンプルオーディオデータに対して行うラベル付けにかかるコストを減少するため、後続のサンプルセットにおけるサンプルオーディオデータに基づいて音色変換モデルに対する訓練を容易にする。音色変換モデルに対して訓練を行う過程において、サンプルセットにおけるサンプルオーディオデータに対して予めラベル付けを行う必要がなく、サンプルオーディオデータに対して行うラベル付けにかかるコストを減少するため、後続のサンプルセットにおけるサンプルオーディオデータに基づいて音色変換モデルに対する訓練を容易にする。オリジナル音色変換モデルには、音色抽出ネットワーク、除去音色ネットワーク及びボコーダを含むため、当該音色抽出ネットワークによって入力するサンプルオーディオデータの第1音色特徴を取得できることで、入力するサンプルオーディオデータの音色情報を正確に取得し、後続に、当該音色特徴によって合成オーディオデータを取得し、合成オーディオデータの音色の正確性を向上させることに有利になり、当該除去音色ネットワークによって、当該第1音色特徴に基づいて、入力するサンプルオーディオデータの第1語義特徴を取得でき、サンプルオーディオデータにおける、発話者音色に関係なく、且つ発音コンテンツに関する特徴を正確に取得したことを実現することで、後続に当該第1語義特徴によって合成オーディオデータを取得し、合成オーディオデータの発音コンテンツの正確性を確保することに有利になる。当該ボコーダによって、当該第1語義特徴及び当該サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することができる。各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、オリジナル音色変換モデルに対して訓練を行うことができることで、訓練済みの音色変換モデルを取得し、教師なし訓練の音色変換モデルを実現し、音色変換モデルを取得する難しさを大幅に低減する。後続に、訓練済みの音色変換モデルに基づいて音色変換を行うことで、音色変換の変換効果及び信頼性を向上させることができる。
【0023】
なお、上記の実施例に示した応用シーンは、説明を容易にするために提出された例示的なシーンのみであり、本願の実施例に提供されるモデル訓練及び音色変換方法、装置、デバイス及び媒体の応用シーンに対する限定ではない。当業者であれば、新しい業務シーンの出現につれて、本願の実施例に提供される技術案は類似な技術問題に対して、同様に適用されることが分かる。
【0024】
実施例1:
図1は本願の実施例に提供される音色変換モデル訓練の過程の概略図であり、当該過程は、
S101:サンプルセットを取得することを含み、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じである。
【0025】
本願の実施例に提供される音色変換モデル訓練方法は、電子デバイスに応用され、当該電子デバイスは、例えば、ロボット、モバイル端末などのスマートデバイスであってもよく、サーバであってもよい。
【0026】
一般的には、異なる発話者のオーディオデータを採集し、これらのオーディオデータをサンプルオーディオデータとして決定することができ、先にこれらのサンプルオーディオデータによって、オリジナル音色合成モデルに対して訓練を行い、訓練済みの音色合成モデルを取得することで、音色変換モデルのロバスト性を向上し、及び音色変換モデルが合成できる音色の種類が多くなる。
【0027】
本願の実施例には、S101でサンプルオーディオデータを取得することは、以下の少なくとも一つの方式を含む。
【0028】
方式1、収録した異なる発話者のオーディオデータを、サンプルオーディオデータとして決定する。
【0029】
サンプルオーディオデータを採集する過程において、発話者は、プロの録音環境において語音データを収録し、収録する語音データをサンプルオーディオデータとして決定することができ、インテリジェント端末(例えば、携帯電話、タブレットなど)によって語音データを収録し、収録する語音データに基づいてサンプルオーディオデータを決定する。
【0030】
例えば、発話者は、インテリジェント端末にトリガ操作を入力することができる。ここで、発話者がインテリジェント端末にトリガ操作を入力する方式が多く、当該トリガ操作は、発話者がインテリジェント端末のディスプレイに表示される仮想ボタンをトリガしたことであってもよく、発話者がインテリジェント端末に語音情報を入力したことであってもよく、発話者がインテリジェント端末のディスプレイにグラフィックコマンドなどを描画することであってもよく、具体的な実施過程において、実際のニーズに従って柔軟に設定し、ここでは具体的な限定はしない。インテリジェント端末は、発話者が入力したトリガ操作を受信した後、発話者が選択する予め収録済みの語音データを電子デバイスにアップロードすることができ、語音収録機能に入り、リアルタイムに発話者の語音データを収録することを開始し、収録する複数の語音データを電子デバイスにアップロードすることで、電子デバイスが受信した語音データに基づいてサンプルオーディオデータを決定することもできる。
【0031】
発話者がプロの録音環境において語音データを収録する必要がなく、インテリジェント端末によって語音データを収録することができるため、発話者の語音データを取得する難しさ及びコストを低減し、ユーザーの体験を大幅に向上させる。
【0032】
インテリジェント端末によって語音データを収録する場合、インテリジェント端末によって収録した語音データを発話者のオリジナル語音データとして決定することができる。当該オリジナル語音データにおいて大量の作業環境におけるノイズが存在する可能性があるため、先に、収録したオリジナル語音データに対してオーディオ処理を行い、例えば、当該オリジナル語音データに対してノイズ低減処理、及び/または残響を除去する処理を行い、クリーンな語音データを得ることができる。その後、オーディオ処理後の語音データをサンプルオーディオデータとして決定する。
【0033】
なお、当該オリジナル語音データに対してノイズ低減処理、及び/または残響を除去する処理を行う具体的な過程は、いずれも先行技術であるため、ここで詳しい説明を省略する。
【0034】
方式2、上記の方式1を基に、同一の発話者の少なくとも二つの語音データに対してスティッチング処理を行うことができ、スティッチング処理後の取得したスティッチング語音データをサンプルオーディオデータとして決定し、このように、取得したサンプルオーディオデータに対して拡張を行うことを実現でき、さらに、サンプルオーディオデータを取得する難しさ及びかかるコストを低減し、取得した大量のサンプルオーディオデータによって、音色変換モデルに対して訓練を行い、取得した音色変換モデルの精度及びロバスト性を向上させることにも有利になる。
【0035】
1つの可能な実施形態では、上記方式1を基に、同一の発話者の少なくとも二つの語音データに対してスティッチング処理を行い、スティッチング処理後の取得したスティッチング語音データをサンプルオーディオデータとして決定することは、以下のようないくつかの方式を含むことができる。
【0036】
方式一、上記方式1に基づいて収録した語音データを基礎語音データとして決定する。ここで、当該基礎語音データは上記の実施例におけるオリジナル語音データであってもよく、上記の実施例におけるオーディオ処理した後の語音データであってもよい。異なる発話者について、当該発話者の少なくとも二つの異なる基礎語音データに対してスティッチングを行い、スティッチング語音データ(説明を容易にするために、第1スティッチング語音データとして記載される)を決定した。各基礎語音サンプル及び各第1スティッチング語音データをいずれもサンプルオーディオデータとして決定する。
【0037】
方式二、上記方式1に基づいて収録した語音データを基礎語音データとして決定する。異なる発話者について、当該発話者の少なくとも一つの基礎語音データを設定される倍数によってコピーし、当該少なくとも一つのコピーする語音データと対応する基礎語音データとをスティッチングを行い、スティッチング語音データ(説明を容易にするために、第2スティッチング語音データとして記載される)を決定した。当該第2スティッチング語音データは、少なくとも二つの同じ語音データによってスティッチングされたものであることが理解できる。各基礎語音サンプル及び各第2スティッチング語音データをいずれもサンプルオーディオデータとして決定する。
【0038】
方式三、上記方式1に基づいて収録した語音データを基礎語音データとして決定する。異なる発話者について、当該発話者の少なくとも一つの基礎語音データを、設定される倍数によってコピーし、少なくとも二つの同じ語音データ(コピー後の語音データと基礎語音データ)と、当該発話者の少なくとも一つの、当該語音データ以外の他の語音データとをスティッチングを行い、スティッチング語音データ(説明を容易にするために、第3スティッチング語音データとして記載される)を決定した。当該第3スティッチング語音データは、少なくとも二つの同じ語音データ及び少なくとも二つの異なる語音データを含むことが理解できる。各基礎語音サンプル及び各第3スティッチング語音データをいずれもサンプルオーディオデータとして決定する。
【0039】
1つの可能な実施形態では、同時に上記の方式一ないし方式三における少なくとも二つの方式によって、取得したサンプルオーディオデータに対して拡張を行うことができる。
【0040】
収録した発話者の語音データによってサンプルオーディオデータを決定することを基に、発話者の少なくとも二つの語音データに対してスティッチング処理を行い、スティッチング処理した語音データをサンプルオーディオデータとして決定することができるため、発話者のサンプルオーディオデータに対する拡張を実現し、さらに発話者のサンプルオーディオデータを取得する難しさ及びかかるコストを低減し、取得した大量のサンプルオーディオデータによって、音色変換モデルに対して訓練を行い、取得した音色変換モデルの精度及びロバスト性を向上させることに有利になる。
【0041】
精度が比較的高い音色変換モデルを取得しようとすると、音色変換モデルが出力する合成オーディオデータを、目標発話者が言う同じ発音コンテンツのオーディオデータ(目標オーディオデータとして記載される)に近づくように、当該音色変換モデルの音色変換効果に対して監督を行う必要がある。そのため、サンプルセットにおける各サンプルオーディオデータを取得した後、各サンプルオーディオデータについて、当該サンプルオーディオデータに対応する目標オーディオデータを決定することができ、後続に当該目標オーディオデータによって、オリジナル音色変換モデル及び当該サンプルオーディオデータに基づいて取得した合成オーディオデータが正確か否かを決定することで、オリジナル音色変換モデルの音色変換効果を決定することができる。
【0042】
1つの可能な実施形態では、サンプルセットにおける各サンプルオーディオデータについて、当該サンプルオーディオデータの語義情報と同じの、異なる発話者の目標オーディオデータを決定することができる。ここで、当該目標オーディオデータは、サンプルオーディオデータ及び非サンプルオーディオデータにおける少なくとも一種を含み、即ち、当該目標オーディオデータは、サンプルセットにおける当該サンプルオーディオデータの語義情報と同じの、異なる発話者のサンプルオーディオデータ、及び/または、当該サンプルオーディオデータの語義情報と同じの、異なる発話者の非サンプルオーディオデータを含む。
【0043】
他の可能な実施形態では、サンプルセットにおける各サンプルオーディオデータについて、当該サンプルオーディオデータの語義情報と同じの、異なる発話者の目標オーディオデータを決定する過程において、大量のコストがかかることを考慮した。そのため、本願の実施例において、サンプルセットにおける各サンプルオーディオデータについて、当該サンプルオーディオデータを当該サンプルオーディオデータに対応する目標オーディオデータとして決定することができ、これによって、リソースを費やして、当該サンプルオーディオデータ音色と異なる目標オーディオデータを決定する必要がないことを実現し、音色変換モデルに対して訓練を行う難しさを低減する。
【0044】
S102:いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得する。
【0045】
本願の実施例において、オリジナル音色変換モデルが予め配置され、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値はランダムに設置されるものであってもよく、人工的に予め配置されるものであってもよい。上記の実施例に基づいてサンプルセットを取得した後、サンプルセットに含まれる各サンプルオーディオデータに基づいて、当該オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することができる。
【0046】
具体的な実施過程において、当該サンプルセットにおけるいずれか一つのサンプルオーディオデータを取得し、当該サンプルオーディオデータをオリジナル音色変換モデルに入力した。当該オリジナル音色変換モデルによって、当該サンプルオーディオデータ及び当該サンプルオーディオデータに対応する目標オーディオデータの音色特徴(第2音色特徴として記載される)に基づいて、当該サンプルオーディオデータに対応する合成オーディオデータを取得する。
【0047】
一種の例示において、当該オリジナル音色変換モデルには、音色抽出ネットワーク、除去音色ネットワーク及びボコーダを少なくとも含み、当該オリジナル音色変換モデルに含まれる音色抽出ネットワーク、除去音色ネットワーク及びボコーダによって、入力するサンプルオーディオデータに対して正確な処理を行う。ここで、当該音色抽出ネットワークは、それぞれ除去音色ネットワーク及びボコーダに接続され、除去音色ネットワークはボコーダに接続され、当該音色抽出ネットワークによって入力するサンプルオーディオデータにおける第1音色特徴を取得することができるため、入力するサンプルオーディオデータにおける語義コンテンツに関係ない音色情報を正確に取得し、後続に当該第1音色特徴によって合成オーディオデータを取得し、合成オーディオデータの音色の正確性を向上させることに有利になり、当該除去音色ネットワークによって、入力するサンプルオーディオデータの第1語義特徴を取得でき、当該第1語義特徴はサンプルオーディオデータの発話者の音色に関係なく、サンプルオーディオデータの語義情報のみに関する特徴であり、これによって、後続に当該第1語義特徴によって合成オーディオデータを取得し、合成オーディオデータの発音コンテンツの正確性を確保することに有利になる。当該ボコーダによって、当該第1語義特徴及び当該サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することができる。
【0048】
具体的な実施過程において、当該サンプルセットにおけるいずれか一つのサンプルオーディオデータを取得し、当該サンプルオーディオデータをオリジナル音色変換モデルに入力した。当該オリジナル音色変換モデルにおける音色抽出ネットワークによって、当該サンプルオーディオデータに対して応じた処理を行い、当該サンプルオーディオデータに対応する第1音色特徴を取得する。オリジナル音色変換モデルにおける除去音色ネットワークによって、当該第1音色特徴及びサンプルオーディオデータに対応する線形スペクトラムに基づいて、語義特徴(第1語義特徴として記載される)を取得する。オリジナル音色変換モデルにおけるボコーダによって、取得した第1語義特徴及び当該サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、当該サンプルオーディオデータに対応する合成オーディオデータを取得する。
【0049】
ここで、第1語義特徴はサンプルオーディオデータにおける、発話者音色に関係なく、且つ発音コンテンツに関する特徴であるため、音色の語義情報に対する影響を回避し、取得した語義情報の正確性を向上させる。
【0050】
なお、当該サンプルオーディオデータに対応する線形スペクトラムは、予め設置される線形スペクトラムアルゴリズム(例えば、高速フーリエ変換アルゴリズムなどの)によって取得したものであってもよい。
【0051】
1つの可能な実施形態では、サンプルセットにおけるいずれか一つのサンプルオーディオデータをオリジナル音色変換モデルに入力する前に、当該サンプルオーディオデータの声学特徴を取得し、当該サンプルオーディオデータの声学特徴を当該オリジナル音色変換モデルに入力し、当該オリジナル音色変換モデルによって当該声学特徴に対して処理を行い、合成オーディオデータを取得することができる。
【0052】
ここで、当該声学特徴は、メルススペクトラム(Mel Spectrogram)メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)、樹皮周波数ケプストラム係数(Bark Frequency Cepstrum Coefficient、BFCC)、逆メル周波数ケプストラム係数(Inverse Mel Frequency Cepstrum Coefficient、IMFCC)、ガンマトーン周波数ケプストラム係数(Gammatone Frequency Cepstrum Coefficient、GFCC)、線形予測周波数ケプストラム係数(Linear Prediction Cepstral Coefficients、LPCCs)などのタイプの声学特徴のうちのいずれかの一つであってもよい。
【0053】
なお、当該声学特徴は声学特徴抽出アルゴリズムによって取得したものであってもよく、声学特徴抽出モデルによって取得したものであってもよい。
【0054】
例示的に、声学特徴がメルススペクトラムであることを例として、当該サンプルセットにおけるいずれか一つのサンプルオーディオデータのメルススペクトラムを取得し、当該サンプルオーディオデータのメルススペクトラムをオリジナル音色変換モデルに入力した。当該オリジナル音色変換モデルにおける音色抽出ネットワークによって、入力したメルススペクトラムに対して応じた処理を行い、当該サンプルオーディオデータの第1音色特徴、例えば、256次元の音色特徴(tone_vector)を取得する。
【0055】
なお、当該音色抽出ネットワークは、声紋モデルに含まれるネットワーク層、例えば、エンド・ツー・エンド声紋ネットワーク(Deep Speaker RawNet, GE2E)などによって決定されることができる。
【0056】
当該オリジナル音色変換モデルにおける除去音色ネットワークには、少なくとも事後エンコーダを含み、これによってサンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴を正確に取得し、取得した第1語義特徴の正確性を向上することを実現し、サンプルオーディオデータの音色特徴がサンプルオーディオデータの語義情報に与える影響を回避する。ここで、当該事後エンコーダ(posterior encoder)がエンハンスサブネットワークに接続され、当該事後エンコーダがサンプルオーディオデータから発音コンテンツに関する隠れベクトルを取得し、当該隠れベクトルによって当該サンプルオーディオデータの第1語義特徴を決定するように配置される。
【0057】
具体的には、上記の実施例に基づいて音色抽出ネットワークが出力する第1音色特徴を取得した後、当該オリジナル音色変換モデルにおける除去音色ネットワークに含まれる事後エンコーダによって、当該第1音色特徴及びサンプルオーディオデータに対応する線形スペクトラム(linear spectrogrm)に基づいて、サンプルオーディオデータにおける語義情報の隠れベクトルを取得することができる。その後、当該隠れベクトルによって、当該第1語義特徴を決定する。
【0058】
ここで、直接的に当該隠れベクトルを第1語義特徴として決定することができ、予め設置される数学関数(例えば、対数関数など)によって、当該隠れベクトルに対して処理を行い、処理後の隠れベクトルを第1語義特徴として決定することもできる。
【0059】
1つの可能な実施形態では、当該オリジナル音色変換モデルにおける除去音色ネットワークにおいて、エンハンスサブネットワーク(例えば、flowネットワーク)を含み、サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴を増強し、語義情報の分布表示を向上し、さらに取得した第1語義特徴の正確性を向上し、サンプルオーディオデータの音色特徴がサンプルオーディオデータの語義情報に与える影響を回避する。当該エンハンスサブネットワークは、除去音色ネットワークにおける事後エンコーダに接続されることができ、当該エンハンスサブネットワークが、事後エンコーダが取得した隠れベクトルに対して増強を行うことに配置される。当該エンハンスサブネットワークが、事後エンコーダが取得した隠れベクトルから、より高い次元、より抽象的な発話者音色に関係なく、且つ語義情報に関する特徴を抽出するように配置されることが理解できる。
【0060】
具体的な実施過程において、上記の実施例に基づいて音色抽出ネットワークが出力する第1音色特徴を取得した後、当該オリジナル音色変換モデルにおける除去音色ネットワークに含まれる事後エンコーダによって、当該第1音色特徴及びサンプルオーディオデータに対応する線形スペクトラムに基づいて、サンプルオーディオデータにおける語義情報の隠れベクトルを取得することができる。その後、当該オリジナル音色変換モデルにおける除去音色ネットワークに含まれるエンハンスサブネットワークによって、当該隠れベクトルに基づいて、増強した後の隠れベクトルを取得し、即ち第1語義特徴を決定する。
【0061】
上記の実施例に基づいて入力するサンプルオーディオデータの第1語義特徴を取得した後、当該音色変換モデルにおけるボコーダによって、当該第1語義特徴及び当該サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、発音コンテンツが第1語義特徴を満たし、且つ音色が第2音色特徴を満たす合成オーディオデータを取得することができる。
【0062】
ここで、当該ボコーダは、ボコーダ、例えば、高効率(HiFiGAN)ボコーダ、線形予測(Linear Predictive Coding 、LPC)ボコーダ、Worldボコーダなどであってもよく、具体的な実施過程において、実際のニーズによって柔軟に設定することができ、ここでは具体的な限定はしない。
【0063】
1つの可能な実施形態では、当該オリジナル音色変換ネットワークにおける音色抽出ネットワークによって、サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴を取得する。
【0064】
例えば、目標オーディオデータはサンプルオーディオデータである場合、直接的に、当該オリジナル音色変換ネットワークにおける音色抽出ネットワークによって決定されるサンプルオーディオデータの第1音色特徴を第2音色特徴として決定する。
【0065】
また、例えば、目標オーディオデータはサンプルオーディオデータではなく、即ち、当該目標オーディオデータは、サンプルセットにおける、当該サンプルオーディオデータの発話者と異なるサンプルオーディオデータ、又は、当該サンプルオーディオデータの発話者と異なる非サンプルオーディオデータである場合、サンプルオーディオデータをオリジナル音色変換モデルに入力した場合、当該サンプルオーディオデータに対応する目標オーディオデータも当該オリジナル音色変換モデルに入力したことで、当該オリジナル音色変換ネットワークにおける音色抽出ネットワークによって、当該目標オーディオデータの第2音色特徴を取得することを実現する。
【0066】
S103:各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得する。
【0067】
精度のより高い音色変換モデルが決定するサンプルオーディオデータに対応する合成オーディオデータは、当該サンプルオーディオデータに対応する目標オーディオデータと、より類似する。そのため、上記の実施例に基づいて各サンプルオーディオデータにそれぞれ対応する合成オーディオデータを取得した後、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各サンプルオーディオデータにそれぞれ対応する合成オーディオデータに基づいて、オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行い、これによって、訓練済みの音色変換モデルを取得する。例示的に、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータそれぞれが対応する合成オーディオデータに基づいて、再構成損失値を決定し、当該再構成損失値によって、オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行い、これによって、訓練済みの音色変換モデルを取得する。
【0068】
1つの可能な実施形態では、各サンプルオーディオデータについて、当該サンプルオーディオデータに対応する目標オーディオデータ及び当該サンプルオーディオデータに対応する合成オーディオデータによって、サブ再構成損失値を決定することができる。現在の反復が取得した全てのサブ再構成損失値の和によって、再構成損失値を決定し、当該再構成損失値によって、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行い、これによって、訓練済みの音色変換モデルを取得する。
【0069】
例示的に、以下のような数式に従って、当該サンプルオーディオデータに対応する目標オーディオデータ及び当該サンプルオーディオデータに対応する合成オーディオデータによって、サブ再構成損失値を決定することができる:
【数1】
【0070】
ここで、
【数2】
はk番目のサンプルオーディオデータに対応するサブ再構成損失値を示し、
【数3】
はk番目のサンプルオーディオデータに対応する合成オーディオデータを示し、
【数4】
はk番目のサンプルオーディオデータに対応する目標オーディオデータを示し、
【数5】
は1のノルム演算子を示す。
【0071】
音色変換モデル取得オーディオデータにおける語義情報の精度も音色変換の効果に影響を与えることを考慮した。そのため、本願の実施例において、音色変換モデルに対する訓練過程において、当該音色変換モデルが抽出した語義特徴の精確度に対して監督を行う。
【0072】
1つの可能な実施形態では、サンプルセットにおける各サンプルオーディオデータの語義情報に対して予めラベル付けを行うことができることで、各サンプルオーディオデータにそれぞれ対応するラベル付けの語義と各サンプルオーディオデータにそれぞれ対応する第1語義特徴との間の差異によって、当該音色変換モデルが抽出した語義特徴の精確度に対して監督を行う。
【0073】
他の可能な実施形態では、精度の比較的高い音色変換モデルを取得しようとする場合、大量のサンプルオーディオデータが必要となり、各サンプルオーディオデータに対してラベル付けを行うことは、大量の仕事量、大量のコストを費やし、音色変換モデルを取得する難しさを増加させてしまう。そのため、本願の実施例において、音色変換モデルにおいて一つの語義抽出ネットワークを追加することで、当該語義抽出ネットワークと音色変換モデルにおける除去音色ネットワークによってオーディオデータにおける語義情報を敵対的学習することができる。オリジナル音色変換モデルに対して訓練を行う過程において、サンプルセットにおけるいずれか一つのサンプルオーディオデータに対して、当該オリジナル音色変換モデルにおける語義抽出ネットワークによって、入力するサンプルオーディオデータに基づいて、当該サンプルオーディオデータにおける語義特徴(第2語義特徴として記載される)を取得する。ここで、当該第2語義特徴もサンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴である。
【0074】
一種の例示において、当該語義抽出ネットワークには、第1コンテンツサブネットワーク、第2コンテンツサブネットワーク及び第3コンテンツサブネットワークを含むことができ、これによって、サンプルオーディオデータにおける音色情報を除去する語義情報を正確に取得することを実現する。ここで、当該第1コンテンツサブネットワークが当該第2コンテンツサブネットワークに接続され、当該第1コンテンツサブネットワークは、サンプルオーディオデータに対して処理を行い、当該サンプルオーディオデータにおける比較的密集するコンテンツ特徴を取得することに配置され、当該第1コンテンツサブネットワークはh-netネットワークなどであってもよい。当該第2コンテンツサブネットワークが第3コンテンツサブネットワークサブネットワークに接続され、当該第2コンテンツサブネットワークは、第1コンテンツサブネットワークが出力するコンテンツに対して特徴処理を行い、離散化のコンテンツ特徴を取得し、当該コンテンツ特徴における不要な細部を削除し、離散化のコンテンツ特徴をサンプルオーディオデータの語義情報に関連付けることに配置され、例えば、当該第2コンテンツサブネットワークはベクトル化層(Vector Quantization、VQ)などであってもよい。当該第3コンテンツサブネットワークは、第2コンテンツサブネットワークが出力する離散化のコンテンツに対して特徴処理を行い、当該離散化のコンテンツの特徴学習サンプルオーディオデータにおける語義情報に関する局部特徴を激励することで、サンプルオーディオデータの第2語義特徴を取得することに配置され、例えば、当該第3コンテンツサブネットワークはg-netネットワーク、リカレントニューラルネットワーク(Recurrent Neural Network, RNN)によるコントラスト予測符号化(Contrastive Predictive Coding、CPC)ネットワークなどであってもよい。
【0075】
具体的な実施過程において、上記の実施例に基づいていずれか一つのサンプルオーディオデータをオリジナル音色変換モデルに入力した後、当該オリジナル音色変換モデルにおける語義によってネットワークに含まれる第1コンテンツサブネットワークを抽出し、当該サンプルオーディオデータに基づいて、コンテンツ特徴を取得し、当該語義抽出ネットワークにおける第2コンテンツサブネットワークによって、当該コンテンツ特徴に基づいて、離散化のコンテンツ特徴を取得し、語義抽出ネットワークにおける第3コンテンツサブネットワークによって、当該離散化のコンテンツ特徴に基づいて、当該サンプルオーディオデータの第2語義特徴を取得する。
【0076】
図2は本願の実施例に提供される音色変換モデルの構造の概略図である。以下、
図2を結合して本願の実施例に提供される音色変換モデル訓練方法に対して説明を行う。
【0077】
当該サンプルセットにおけるいずれか一つのサンプルオーディオデータのメルススペクトラムを取得し、当該サンプルオーディオデータのメルススペクトラムをオリジナル音色変換モデルに入力した。当該オリジナル音色変換モデルにおける音色抽出ネットワーク(speaker encoder)によって、当該サンプルオーディオデータのメルススペクトラムに対して応じた処理を行い、当該サンプルオーディオデータに対応する第1音色特徴(tone_vector)を取得する。当該オリジナル音色変換モデルにおける除去音色ネットワークに含まれる事後エンコーダ(posterior encoder)によって、当該第1音色特徴及びサンプルオーディオデータに対応する線形スペクトラム(linear spectrogrm)に基づいて、サンプルオーディオデータにおける語義情報の隠れベクトル(z
sq)を取得することができる。当該オリジナル音色変換モデルにおける除去音色ネットワークに含まれるエンハンスサブネットワーク(flow)によって、当該隠れベクトルに基づいて、増強した後の隠れベクトルを取得し、即ち、第1語義特徴を決定する。同時に、当該オリジナル音色変換モデルにおける語義抽出ネットワーク(VQCPC net)によって、入力するサンプルオーディオデータに基づいて、当該サンプルオーディオデータにおける第2語義特徴を取得する。その後、
図2に示すボコーダ(decoder)によって、当該第1語義特徴及びサンプルオーディオデータに対応する目標オーディオデータの第2音色特徴(speaker inner embedding)に基づいて、合成オーディオデータ(raw waveform)を取得する。
【0078】
具体的には、当該オリジナル音色変換モデルにおける語義抽出ネットワークによって、入力するサンプルオーディオデータに基づいて、当該サンプルオーディオデータにおける第2語義特徴を取得する過程は、当該オリジナル音色変換モデルにおける語義抽出ネットワークに含まれる第1コンテンツサブネットワーク(h-net)によって、当該サンプルオーディオデータのメルススペクトラムに基づいて、コンテンツ特徴Zを取得し、
図2に示すようなk番目のサンプルオーディオデータのコンテンツ特徴Zには、k番目のサンプルオーディオデータに含まれる各オーディオフレームのコンテンツデータを含み、例えば、k番目のサンプルオーディオデータに含まれるn番目のオーディオフレームのコンテンツデータはz
k,nである、ことを含む。当該語義抽出ネットワークにおける第2コンテンツサブネットワーク(Vector Quantization(VQ))によって、当該コンテンツ特徴Zに基づいて、離散化のコンテンツ特徴
【数6】
を取得し、
図2に示すようなk番目のサンプルオーディオデータの離散化のコンテンツ特徴
【数7】
には、k番目のサンプルオーディオデータに含まれる各オーディオフレームの離散化のコンテンツデータを含み、例えば、k番目のサンプルオーディオデータに含まれるn番目のオーディオフレームの離散化のコンテンツデータは
【数8】
である。語義抽出ネットワークにおける第3コンテンツサブネットワーク(g-net)によって、当該離散化のコンテンツ特徴
【数9】
に基づいて、当該サンプルオーディオデータの第2語義特徴Rを取得し、
図2に示すようなk番目のサンプルオーディオデータの第2語義特徴Rには、k番目のサンプルオーディオデータに含まれる各オーディオフレームの第2語義特徴を含み、例えば、k番目のサンプルオーディオデータに含まれるn番目のオーディオフレームの離散化のコンテンツデータはr
k,nである。
【0079】
なお、当該h-netネットワークには、畳み込み層、仕様層、線形変換層、論理関数層を含むことができる。
図2に示すh-netネットワークに含まれる1つの畳み込み層(conv layer)が4つの同じ接続構造のサブネットワークに順番に接続され、いずれか一つのサブネットワークについて、当該サブネットワークには、1層仕様層(layer normalization)、2層線形変換層(linear layer)及び1層論理関数(ReLU)層を含む。
【0080】
上記の実施例に基づいて各サンプルオーディオデータの第2語義特徴を取得した後、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各サンプルオーディオデータにそれぞれ対応する合成オーディオデータ、及び各サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することができる。つまり、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータが、それぞれ対応する合成オーディオデータとの間の差異、及び各サンプルオーディオデータにそれぞれ対応する第1語義特徴が、それぞれ対応する第2語義特徴との間の差異に基づいて、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得し、これにより、監督なしで音色変換モデル抽出語義情報の能力に対して訓練を行うことを実現する。
【0081】
具体的な実施過程において、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各サンプルオーディオデータにそれぞれ対応する合成オーディオデータに基づいて、再構成損失値を決定し、各サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、語義損失値を決定する。当該再構成損失値及び語義損失値によって、総合損失値を決定する。当該総合損失値によって、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得する。
【0082】
例示的に、サンプルセットにおける各サンプルオーディオデータについて、根拠となる当該サンプルオーディオデータに対応する目標オーディオデータと対応する合成オーディオデータとの間の差異によって、サブ再構成損失値を決定し、且つ当該サンプルオーディオデータの第1語義特徴と第2語義特徴との間の差異によって、サブ語義損失値を決定する。現在の反復が決定する全ての再構成損失値の和によって、再構成損失値を決定し、且つ現在の反復が決定する全てのサブ語義損失値の和によって、語義損失値を決定する。当該再構成損失値及び語義損失値によって、総合損失値を決定する。当該総合損失値によって、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得する。
【0083】
一種の例示において、当該再構成損失値及び語義損失値によって、総合損失値を決定する場合、再構成損失値及びそれに対応する第1重み値、及び語義損失値及びそれに対応する第2重み値によって、総合損失値を決定することができる。例えば、再構成損失値と対応する第1重み値との積(第1積として記載される)、及び語義損失値と対応する第2重み値との積(第2積として記載される)を取得する。第1積と第2積との和によって、総合損失値を決定する。
【0084】
1つの可能な実施形態では、オリジナル音色変換モデルにおける除去音色ネットワークに含まれる事後エンコーダによって、サンプルオーディオデータに対応する線形スペクトラム及びオリジナル音色変換モデルにおける音色抽出ネットワークが決定する第1音色特徴に基づいて、隠れベクトルを取得すると共に、当該隠れベクトルの平均ベクトル及び分散ベクトルを取得することもできる。つまり、オリジナル音色変換モデルにおける除去音色ネットワークに含まれる事後エンコーダによって、サンプルオーディオデータに対応する線形スペクトラム及びオリジナル音色変換モデルにおける音色抽出ネットワークが決定する第1音色特徴に基づいて、隠れベクトルの平均ベクトル及び分散ベクトルを取得することもできる。後続に、各サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、語義損失値を決定する場合、各サンプルオーディオデータにそれぞれ対応する第1語義特徴、前記第2語義特徴、平均ベクトル及び分散ベクトルに基づいて、語義損失値を決定することができる。つまり、各サンプルオーディオデータについて、当該サンプルオーディオデータの第1語義特徴、第2語義特徴、平均ベクトル及び分散ベクトルによって、サブ語義損失値を決定する。現在の反復が決定する全てのサブ語義損失値の和によって、語義損失値を決定する。
【0085】
例示的に、以下のような数式によって、当該サンプルオーディオデータの第1語義特徴、第2語義特徴、平均ベクトル及び分散ベクトルに基づいて、サブ語義損失値を決定することができる:
【数10】
【0086】
ここで、KL_lossは、k番目のサンプルオーディオデータに対応するサブ語義損失値を示し、
【数11】
はk番目のサンプルオーディオデータに対応する隠れベクトルの分散ベクトルのlog値を示し、
【数12】
はk番目のサンプルオーディオデータの第2語義特徴の分散ベクトルのlog値であり、
【数13】
はk番目のサンプルオーディオデータの第1語義特徴を示し、
【数14】
はk番目のサンプルオーディオデータに対応する隠れベクトルの平均ベクトルを示す。
【0087】
1つの可能な実施形態では、オリジナル音色変換モデルにおける語義抽出ネットワークは、第1コンテンツサブネットワーク、第2コンテンツサブネットワーク及び第3コンテンツサブネットワークを含む場合、オリジナル音色変換モデルに対して訓練を行う過程において、当該語義抽出ネットワークに損失値が存在することを考慮する必要もある。そのため、本願の実施例において、各サンプルオーディオデータにそれぞれ対応するコンテンツ特徴及び各サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴に基づいて、数量化損失値を決定し、且つ各サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、比較学習損失値を決定することができ、これによって、後続に、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び各サンプルオーディオデータにそれぞれ対応する合成オーディオデータ、各サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴、当該数量化損失値及び比較学習損失値に基づいて、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得することを容易にする。
【0088】
一種の例示において、数量化損失値を決定する場合、各サンプルオーディオデータについて、当該サンプルオーディオデータに含まれる各オーディオフレームに対応するコンテンツ特徴及び離散化のコンテンツ特徴によって、当該サンプルオーディオデータに対応するサブ数量化損失値を決定することができる。現在の反復が決定する全てのサブ数量化損失値の和によって、数量化損失値を決定する。
【0089】
例えば、以下のような数式によって、各サンプルオーディオデータにそれぞれ対応するコンテンツ特徴及び各サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴に基づいて、数量化損失値を決定することができる:
【数15】
【0090】
ここで、VQ_lossは数量化損失値を示し、Kはサンプルセットに含まれるサンプルオーディオデータの総数量を示し、Nは各サンプルオーディオデータにそれぞれに含まれるオーディオフレームの総数量を示し、nは、現在のk番目のサンプルオーディオデータに含まれるn番目のオーディオフレームを示し、z
k,nは、k番目のサンプルオーディオデータに含まれるn番目のオーディオフレームに対応するコンテンツ特徴を示し、
【数16】
はk番目のサンプルオーディオデータに含まれるn番目のオーディオフレームに対応する離散化のコンテンツ特徴を示し、sg(.)は、勾配停止演算子を示し、
【数17】
は2のノルム演算子を示す。
【0091】
一種の例示において、敵対的学習損失値を決定する場合、各サンプルオーディオデータについて、当該サンプルオーディオデータに含まれる各オーディオフレームに対応する離散化のコンテンツ特徴及び第2語義特徴によって、当該サンプルオーディオデータに対応するサブ比較学習損失値を決定することができる。現在の反復が決定する全てのサブ比較学習損失値の和によって、比較学習損失値を決定する。
【0092】
例えば、以下のような数式によって、各サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、比較学習損失値を決定する:
【数18】
【0093】
ここで、CPC_lossは、比較学習損失値を示し、Kは、サンプルセットに含まれるサンプルオーディオデータの総数量を示し、
【数19】
Nは各サンプルオーディオデータにそれぞれ含まれるオーディオフレームの数を示し、Mは、いずれか一つのサンプルオーディオデータに含まれるポジティブサンプルオーディオフレームの総数量を示し、nは現在のk番目のサンプルオーディオデータにおけるn番目のオーディオフレームを示し、
【数20】
は、k番目のサンプルオーディオデータにおけるn+m番目のオーディオフレームに対応する離散化のコンテンツ特徴を示し、w
mは、関連フレームの数がmである場合の対応する重みマトリックスを示し、r
k,nはk番目のサンプルオーディオデータに含まれるn番目のオーディオフレームに対応する第2語義特徴を示し、Tは転置子であり、
【数21】
は、k番目のサンプルオーディオデータに含まれるポジティブサンプルオーディオフレーム以外のいずれか一つのマイナスサンプルオーディオフレームを示し、Ω
k,n,mは、k番目のサンプルオーディオデータに含まれるマイナスサンプルオーディオフレームのセットを含むことを示す。
【0094】
具体的な実施過程において、当該オリジナル音色変換モデルに対して訓練を行う場合、各サンプルオーディオデータについて、当該サンプルオーディオデータに対応する目標オーディオデータと対応する合成オーディオデータとの間の差異によって、サブ再構成損失値を決定し、当該サンプルオーディオデータの第1語義特徴と第2語義特徴との間の差異によって、サブ語義損失値を決定し、当該サンプルオーディオデータに含まれる各オーディオフレームに対応するコンテンツ特徴及び離散化のコンテンツ特徴によって、当該サンプルオーディオデータに対応するサブ数量化損失値を決定し、且つ当該サンプルオーディオデータに含まれる各オーディオフレームに対応する離散化のコンテンツ特徴及び第2語義特徴によって、当該サンプルオーディオデータに対応するサブ比較学習損失値を決定する。現在の反復が決定する全てのサブ再構成損失値の和によって、再構成損失値を決定し、現在の反復が決定する全てのサブ語義損失値の和によって、語義損失値を決定し、現在の反復が決定する全てのサブ比較学習損失値の和によって、比較学習損失値を決定し、現在の反復が決定する全てのサブ数量化損失値の和によって、数量化損失値を決定する。決定した再構成損失値、語義損失値、比較学習損失値及び数量化損失値によって、総合損失値を決定する。当該総合損失値によって、当該オリジナル音色変換モデルにおけるパラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得する。
【0095】
例示的に、決定した再構成損失値及びそれに対応する第1重み値、語義損失値及びそれに対応する第2重み値、比較学習損失値及びそれに対応する第3重み値及び数量化損失値及びそれに対応する第4重み値によって、総合損失値を決定することができる。
【0096】
合成オーディオデータの音色変換効果もボコーダの精度に影響されることを考慮した。そのため、本願の実施例において、オリジナル音色変換モデルに対して訓練を行う過程において、当該オリジナル音色変換モデルにおけるボコーダには損失値が存在する可能性があることも考慮して、ボコーダの損失値によって、音色変換モデルに対して訓練を行う。つまり、オリジナル音色変換モデルに対して訓練を行う過程において、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータ、及び当該オリジナル音色変換モデルにおけるボコーダの損失値に基づいて、オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得する。
【0097】
例示的に、ボコーダはHiFiGANボコーダであることを例として、HiFi-GANボコーダはディープニューラルネットワークモデルであり、エンド・ツー・エンドのフォワードネットワーク構造を採用し、マルチスケールの判別器を訓練し、高効率、高品質な語音合成を実現することができる。HiFiGANボコーダにはジェネレータ及び判別器を含み、当該判別器は二つの種類を含み、それぞれはマルチスケール判別器とマルチサイクル判別器であり、二つの種類の異なる角度から、それぞれHiFiGANボコーダにおけるジェネレータが生成するオーディオデータを同定する。HiFiGANボコーダは、特徴マッチング損失を訓練ジェネレータの定額外の損失として、判別器の各中間特徴を抽出することで、各特徴空間における目標オーディオデータと合成オーディオデータとの間の距離L1を算出し、GANを安定させる。そのため、当該HiFiGANボコーダの損失値は特徴マッチング損失値を含むことで、当該特徴マッチング損失値によって、当該オリジナル音色変換モデルに対して訓練を行う。
【0098】
例示的に、当該特徴マッチング損失値は、以下のような数式によって決定されることができる:
【数22】
【0099】
ここで、Jは、ボコーダに含まれる判別器において特徴を抽出する層の数を示し、Dj()は、判別器におけるj番目の抽出特徴層が抽出した特徴を示し、Qjは、判別器におけるj番目の抽出特徴層が抽出した特徴の数を示し、xは目標オーディオデータであり、sはジェネレータが生成する合成オーディオデータのメルススペクトラムである。
【0100】
HiFiGANボコーダの本質は依然として一つの生成敵対的なネットワークであるため、HiFiGANボコーダにおける判別器が算出する合成オーディオデータは目標オーディオデータの確率であり、HiFiGANボコーダにおけるジェネレータは、オーディオデータを合成することに配置され、HiFiGANボコーダに対して訓練を行う過程で、HiFiGANボコーダにおける判別器が、目標オーディオデータであるか、合成オーディオデータであるかが区分できないように、当該HiFiGANボコーダにおけるジェネレータが目標オーディオデータに近い合成オーディオデータを合成することができることが望ましい。これに基づいて、当該HiFiGANボコーダの損失値は、生成敵対損失値をさらに含む。例えば、目標オーディオデータ及びHiFiGANボコーダにおけるジェネレータが生成する合成オーディオデータのメルススペクトラムによって、生成敵対損失値を決定することができる。
【0101】
例示的に、以下のような数式によって敵対損失値を生成することができる:
【数23】
【0102】
ここで、Ladv(D;G)は、HiFiGANボコーダにおける判別器の生成敵対損失値を示し、Ladv(G;D)は、HiFiGANボコーダにおけるジェネレータの生成敵対損失値を示し、xは目標オーディオデータであり、sはジェネレータが生成する合成オーディオデータのメルススペクトラムである。
【0103】
上記の実施例に基づいて、ボコーダの損失値を取得した後、当該ボコーダの損失値及び各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータによって、当該オリジナル音色変換モデルにおける各パラメータのパラメータ値に対して調整を行うことで、訓練済みの音色変換モデルを取得する。
【0104】
例えば、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、再構成損失値を決定し、且つオリジナル音色変換モデルにおけるボコーダの損失値を決定する。当該再構成損失値及びボコーダの損失値によって、総合損失値を決定する。当該総合損失値によって、当該オリジナル音色変換モデルにおける各パラメータのパラメータ値に対して調整を行う。
【0105】
ここで、当該再構成損失値及びボコーダの損失値によって、総合損失値を決定する場合、当該再構成損失値及びそれに対応する第1重み値、及びボコーダの損失値及びそれに対応する第5損失値によって、総合損失値を決定することができる。
【0106】
また、例えば、各サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、再構成損失値を決定し、各サンプルオーディオデータにそれぞれ対応する第1語義特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、語義損失値を決定し、各サンプルオーディオデータにそれぞれ対応するコンテンツ特徴及び各サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴に基づいて、数量化損失値を決定し、各サンプルオーディオデータにそれぞれ対応する離散化のコンテンツ特徴及び各サンプルオーディオデータにそれぞれ対応する第2語義特徴に基づいて、比較学習損失値を決定し、オリジナル音色変換モデルにおけるボコーダの損失値を決定する。当該再構成損失値、語義損失値、数量化損失値、比較学習損失値及びボコーダの損失値によって、総合損失値を決定する。当該総合損失値によって、当該オリジナル音色変換モデルにおける各パラメータのパラメータ値に対して調整を行う。
【0107】
例示的に、当該再構成損失値、語義損失値、数量化損失値、比較学習損失値及びボコーダの損失値によって、総合損失値を決定することが以下のような数式によって表示されることができる:
【数24】
【0108】
ここで、total_lossは、総合損失値を示し、recon_lossは、再構成損失値を示し、KL_lossは、語義損失値を示し、vq_lossは、数量化損失値を示し、cpc_lossは、比較学習損失値を示し、decoder_lossは、ボコーダの損失値を示す。
【0109】
なお、ボコーダはHiFiGANボコーダである場合、decoder_lossは、特徴マッチング損失値(fm_loss)と生成敵対損失値(adv_loss)とを含むことができる。
【0110】
オリジナル音色変換モデルを訓練することに配置されるいくつかのサンプルオーディオデータが含まれるため、各サンプルオーディオデータについて、予め設置される収束条件が満たされるまでに、いずれも上記のステップを実行する。
【0111】
ここで、予め設置される収束条件が満たされることは、現在の反復が決定する総合損失値は予め設置される損失閾値未満、又はオリジナル音色変換モデルに対して訓練を行う反復回数は予め設置される最大の反復回数に達するなどのことであってもよい。具体的な実施において、柔軟に設置することができ、ここでは具体的な限定はしない。
【0112】
1つの可能な実施形態では、オリジナル音色変換モデルに対して訓練する場合、サンプルオーディオデータを訓練サンプルとテストサンプルに分け、先に、訓練サンプルに基づいて、オリジナル音色変換モデルに対して訓練を行い、また、テストサンプルに基づいて、上記の既に訓練された音色変換モデルの信頼程度に対して検証を行う。
【0113】
訓練済みの音色変換モデルを取得した後、当該音色変換モデル及びサンプルセットにおける各サンプルオーディオデータに基づいて、サンプルセットにおける各発話者にそれぞれ対応する音色特徴を決定することができる。その後、各発話者にそれぞれ対応する音色特徴及び各発話者にそれぞれ対応する対象標識を対応的に保存し、このように、後続に当該訓練済みの音色変換モデルによって、当該サンプルセットにおけるいずれか一つの発話者の合成オーディオデータを合成する場合、直接的に対象標識と音色特徴との対応関係によって、当該発話者の対象標識の音色特徴を決定することができ、当該発話者の音色特徴及び音色変換モデルによって、当該発話者の合成オーディオデータを取得し、音色変換の効率に向上させることに有利になる。当該サンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者の音色は、いずれも当該訓練済みの音色変換モデルが支持する音色であることが理解できる。
【0114】
実施例2:
本願の実施例には、音色変換方法も提供され、
図3は本願の実施例に提供される音色変換の過程の概略図であり、当該過程は、
S301:ソースオーディオデータ及び目標発話者の音色特徴を取得することを含む。
【0115】
本願の実施例に提供される音色変換方法が電子デバイスに応用され、当該電子デバイスは、例えば、ロボットなどのスマートデバイスであってもよく、サーバであってもよい。ここで、本願の実施例において、音色変換を行う電子デバイスは、上記の音色変換モデル訓練を行う電子デバイスと同じであってもよく、異なってもよい。
【0116】
1つの可能な実施形態では、音色変換モデル訓練を行う過程において、一般的にオフラインの方式を採用して、音色変換モデル訓練を行うため、訓練済みの音色変換モデルを取得した後、当該音色変換モデルが、音色変換を行う電子デバイスに配備されることができることで、音色変換を行う電子デバイスが、当該音色変換モデルによって音色変換を行うことができることを容易にする。
【0117】
なお、具体的に音色変換モデルを訓練する過程は、既に上記の実施例において説明し、重複箇所については言及しない。
【0118】
1つの可能な実施形態では、訓練済みの音色変換モデルには語義抽出ネットワークを含む場合、当該語義抽出ネットワークは、主に除去音色ネットワークが抽出した語義特徴に対して監督を行うために使用され、そのため、訓練済みの音色変換モデルが音色変換を行う電子デバイスに配備される場合、当該音色変換モデルにおける語義抽出ネットワーク以外の他のネットワークを、音色変換を行う電子デバイスに配備することができることで、当該音色変換モデルに含まれるパラメータ量を減少し、データ転送にかかるコスト及び音色変換を行う電子デバイスの内部記憶空間への圧力を低減する。
【0119】
音色変換を行う必要がある場合、ユーザーはスマートデバイスで合成要求を入力することができ、当該合成要求によって、スマートデバイスを制御して目標発話者がある発音コンテンツを出すオーディオデータを合成することができる。ここで、具体的に合成要求を入力する方式は多く、例えば、入力合成要求の方式は、語音情報を入力する方式によって入力することであってもよく、スマートデバイスのディスプレイに表示する仮想ボタンに対して操作を行う方式によって入力するなどであってもよく、具体的な実施過程において、ニーズによって柔軟に設定することができ、ここでは具体的な限定はしない。スマートデバイスが合成要求を取得した後、当該合成要求、ソースオーディオデータ及び目標発話者の情報を音色変換を行う電子デバイスに送信することができる。
【0120】
ここで、目標発話者とは、音色変換技術によって取得した合成オーディオデータの音色が属する発話者であり、当該目標発話者の情報は、目標発話者の対象標識、又は、目標発話者のオーディオデータを含む。当該ソースオーディオデータとは、語義情報を提供し、且つ音色情報のオーディオデータを提供しないことに配置されるものである。
【0121】
なお、当該ソースオーディオデータ及び目標発話者のオーディオデータは、いずれもユーザーがスマートデバイスによって収録したものであってもよく、予めスマートデバイスにおけるオーディオデータに配置されるものであってもよい。
【0122】
可能な応用シーンにおいて、ユーザーがサンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者を目標発話者として決定する場合、当該目標発話者の情報は、目標発話者の対象標識を含む。例えば、スマートデバイスが複数の発話者の対象標識を出力し、ユーザーはスマートデバイスが出力する複数の対象標識を選択することができ、スマートデバイスは、ユーザーが選択する対象標識を検測した場合、選択する対象標識を目標発話者の情報として決定し、後続に、スマートデバイスは、合成要求、当該目標発話者の対象標識及び当該ソースオーディオデータを音色変換を行う電子デバイスに送信することができる。
【0123】
ここで、当該対象標識は、数字、文字列などの形式によって示すことができ、他の形式によって示すこともでき、一意に当該発話者を標識する形式であれば、いずれも本願の実施例として配置されることができる。
【0124】
なお、当該サンプルセットにおけるサンプルオーディオデータは、音色変換モデルを訓練するように配置される。当該サンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者の音色は、いずれも当該訓練済みの音色変換モデルが支持する音色であることを理解できる。
【0125】
もう一つの可能な応用シーンにおいて、ユーザーがサンプルセット以外の他の発話者を目標発話者として決定し、即ち、サンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者を目標発話者として決定しない場合、当該目標発話者の情報は目標発話者のオーディオデータを含む。例えば、スマートデバイスが複数の発話者の対象標識を出力し、スマートデバイスは、ユーザーが選択する対象標識を検測されず、又はユーザーが入力する目標発話者を追加するトリガ操作を検測した場合、ユーザーに目標発話者のオーディオデータを入力することを提示し、且つユーザーが入力するオーディオデータを目標発話者の情報として決定することができる。後続に、スマートデバイスは、合成要求、当該目標発話者のオーディオデータ及び当該ソースオーディオデータを音色変換を行う電子デバイスに送信することができる。
【0126】
音色変換を行う電子デバイスは、当該合成要求、目標発話者の情報及びソースオーディオデータを受信した後、当該目標発話者の情報に基づいて、目標発話者の音色特徴を決定することができる。後続に、当該目標発話者の音色特徴及びソースオーディオデータに基づいて、目標発話者がソースオーディオデータの発音コンテンツを出すオーディオデータを取得し、即ち目標発話者の合成オーディオデータを取得する。
【0127】
1つの可能な実施形態では、前記目標発話者の音色特徴を取得することは、
前記目標発話者の情報を取得することと、
前記目標発話者の情報は対象標識であることを決定する場合、保存する対象標識と音色特徴との対応関係によって、前記目標発話者の対象標識に対応する音色特徴を決定することと、
前記目標発話者の情報はオーディオデータであることを決定する場合、前記音色変換モデルにおける音色抽出ネットワークによって、前記オーディオデータの音色特徴を取得することと、
を含む。
【0128】
本願の実施例において、当該目標発話者の情報に基づいて、目標発話者の音色特徴を決定することは、以下のような二つの状況を含む:
【0129】
状況一、当該目標発話者の情報は目標発話者の対象標識である場合、当該目標発話者はサンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者であることを示すため、保存する対象標識と音色特徴との対応関係によって、目標発話者の対象標識に対応する音色特徴を決定し、決定した音色特徴を当該目標発話者の音色特徴として決定する。
【0130】
ここで、音色変換モデルは前記サンプルセットにおけるサンプルオーディオデータに基づいて訓練されたものである。
【0131】
状況二、当該目標発話者の情報はオーディオデータである場合、当該目標発話者はサンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者であるか否かを決定できないことを示すため、音色変換モデルにおける音色抽出ネットワークによって、当該オーディオデータの音色特徴を取得し、取得した音色特徴を当該目標発話者の音色特徴として決定する。
【0132】
S302:予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得する。
【0133】
上記の実施例に基づいて、ソースオーディオデータ及び目標発話者の音色特徴を取得した後、当該ソースオーディオデータ及び目標発話者の音色特徴を予め訓練される音色変換モデルに入力することができることで、当該音色変換モデルによって、ソースオーディオデータ及び目標発話者の音色特徴に基づいて、合成オーディオデータを決定する。
【0134】
具体的な実施過程において、予め訓練される音色変換モデルにおける音色抽出ネットワークによって、ソースオーディオデータの音色特徴を取得する。音色変換モデルにおける除去音色ネットワークによって、音色特徴及びソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、当該語義特徴はソースオーディオデータにおける発話者音色に関係なく、且つ語義情報に関する特徴であり、音色変換モデルにおけるボコーダによって、語義特徴及び目標発話者の音色特徴に基づいて、合成オーディオデータを取得する。
【0135】
ここで、ソースオーディオデータに対応する線形スペクトラムを取得する過程は、既に上記の実施例に説明し、ここでは具体的な限定はしない。
【0136】
1つの可能な実施形態では、ソースオーディオデータを予め訓練される音色変換モデルに入力する前に、当該ソースオーディオデータのメルケプストラムを取得し、当該ソースオーディオデータの代わりに、当該メルケプストラムを音色変換モデルに入力することで、音色変換モデルに必要な算出量を低減し、音色変換効率を向上させ、音色変換モデルが行う音色変換を容易にすることができる。
【0137】
図4は、本願の実施例に提供される音色変換モデルの構造の概略図である。以下、
図4を結合して本願の実施例に提供される音色変換方法に対して説明する。
【0138】
まず、ソースオーディオデータ及び目標発話者の情報を取得する。
【0139】
当該目標発話者の情報は、目標発話者の対象標識である場合、当該目標発話者はサンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者であることを示し、現在、目標発話者がいずれか一つのオーディオデータにおける発音コンテンツを出すオーディオデータを取得しようとすると、保存する対象標識と音色特徴との対応関係によって、目標発話者の対象標識に対応する音色特徴を決定し、決定した音色特徴を当該目標発話者の音色特徴として決定する。当該目標発話者の情報によって、後続に、any-to-manyの音色変換方式を実現でき、即ちサンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者の音色特徴を選択して、予め訓練される音色変換モデルによって、当該音色特徴及び任意発音コンテンツのソースオーディオデータに基づいて、当該発話者が当該発音コンテンツを出すオーディオデータを取得することができる。
【0140】
当該目標発話者の情報はオーディオデータである場合、当該目標発話者はサンプルセットにおけるいずれか一つのサンプルオーディオデータの発話者であるか否かを決定できないことを示し、現在、いずれか一つの目標発話者がいずれか一つのオーディオデータにおける発音コンテンツを出すオーディオデータを取得しようとすると、音色変換モデルにおける音色抽出ネットワークによって、当該オーディオデータの音色特徴を取得し、取得した音色特徴を当該目標発話者の音色特徴として決定する。当該目標発話者の情報によって、後続に、many-to-manyの音色変換方式を実現でき、即、予め訓練される音色変換モデルによって、任意オーディオデータの音色特徴及び任意発音コンテンツのソースオーディオデータに基づいて、当該音色特徴及び発音コンテンツを満たす合成オーディオデータを取得することができる。
【0141】
当該ソースオーディオデータ(Reference-wav)及び目標発話者の音色特徴を予め訓練される音色変換モデルに入力した。
【0142】
当該音色変換モデルにおける音色抽出ネットワーク(
図4に示すようなspeaker encoder)によって、当該ソースオーディオデータのメルススペクトラム(Mel spectrogrm)に対して応じた処理を行い、当該ソースオーディオデータに対応する音色特徴、
図4に示すようなtone_vectorを取得する。
【0143】
当該音色変換モデルにおける除去音色ネットワークに含まれる事後エンコーダ、
図4に示すようなposterior encoderによって、当該ソースオーディオデータに対応する音色特徴及びソースオーディオデータに対応する線形スペクトラム、
図4に示すようなlinear spectrogrmに基づいて、ソースオーディオデータにおける語義情報的隠れベクトル、
図4に示すようなz
sqを取得することができる。
【0144】
当該音色変換モデルにおける除去音色ネットワークに含まれるエンハンスサブネットワーク(flow)によって、当該隠れベクトルに基づいて、増強した後の隠れベクトルを取得し、即ち語義特徴を決定する。
【0145】
図4に示すようなボコーダ(decoder)によって、当該語義特徴及び目標発話者の音色特徴、
図4に示すようなspeaker inner embeddingに基づいて、合成オーディオデータを取得し、即ち
図4に示すようなraw waveformを取得する。
【0146】
実施例3:
本願の実施例には音色変換モデル訓練装置が提供され、
図5は本願の実施例に提供される音色変換モデル訓練装置の構造の概略図であり、当該構造は、取得ユニット51と、処理ユニット52と、訓練ユニット53と、を含み、
取得ユニット51はサンプルセットを取得することに配置され、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであり、
処理ユニット52は、いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴が、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得することに配置され、
訓練ユニット53は、各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得することに配置される。
【0147】
上記の音色変換モデル訓練装置が問題を解決する原理は、音色変換モデル訓練装置方法と類似し、そのため、上記の音色変換モデル訓練装置の実施及び対応する有益な効果は、方法の実施及び有益な効果を参照することができ、重複箇所については言及しない。
【0148】
実施例4:
本願の実施例提供には音色変換装置が提供され、
図6は本願の実施例に提供される音色変換装置の構造の概略図であり、当該構造は取得モジュール61と、合成モジュール62とを含み、
取得モジュール61は、ソースオーディオデータ及び目標発話者の音色特徴を取得することに配置され、
合成モジュール62は、予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得することに配置される。
上記の音色変換装置が問題を解決する原理が音色変換装置方法と類似し、そのため、上記の音色変換装置の実施は、方法の実施を参照することができ、重複箇所については言及しない。
【0149】
実施例5:
図7は本願の実施例に提供される電子デバイスの構造の概略図であり、当該電子デバイスは、プロセッサ71、通信インターフェース72、メモリ73、通信バス74を含み、ここで、プロセッサ71、通信インターフェース72、メモリ73は通信バス74を介して相互の通信を行い、
前記メモリ73にはコンピュータプログラムが記憶され、前記プログラムが前記プロセッサ71によって実行される場合、前記プロセッサ71に以下のようなステップを実行させる:
サンプルセットを取得し、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであり、
いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得し、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得する。
【0150】
上記電子デバイスが問題を解決する原理が音色変換モデル訓練方法と類似し、そのため、上記の電子デバイスの実施は、方法の実施例1を参照することができ、重複箇所については言及せず、相応の有益な効果部分と同じであるため、ここで言及しない。
【0151】
実施例6:
図8は本願の実施例に提供される他の電子デバイスの構造の概略図であり、当該電子デバイスは、プロセッサ81、通信インターフェース82、メモリ83、通信バス84を含み、ここで、プロセッサ81、通信インターフェース82、メモリ83は、通信バス84を介して相互の通信を行い、
前記メモリ83には、コンピュータプログラムが記憶され、前記プログラムが前記プロセッサ81によって実行される場合、前記プロセッサ81に以下のようなステップを実行させる:
ソースオーディオデータ及び目標発話者の音色特徴を取得し、
予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得する。
【0152】
上記の電子デバイスが問題を解決する原理は、音色変換方法と類似し、そのため、上記電子デバイスの実施は、方法の実施例2を参照することができ、重複箇所については言及しない。
【0153】
上記の電子デバイスが言及する通信バスは、周辺機器相互接続規格(Peripheral Component Interconnect、PCI)バスまたは拡張産業規格構造(Extended Industry Standard Architecture、EISA)バスなどであってもよい。当該通信バスを、アドレスバス、データバス、制御バスなどに分けることができる。簡単に説明するために、図においてバスが太線1本のみで示されるが、バスが1本のみであることや一つの種類のバスであることを示すわけではない。通信インターフェース82は、上記電子デバイスが他のデバイスとの間に通信を行うように配置される。メモリは、メモリランダムアクセスメモリ(Random Access Memory、RAM)を含むことができ、不揮発性メモリ(Non-Volatile Memory、NVM)、例えば、少なくとも一つのディスクメモリを含むこともできる。選択肢の一つとして、メモリは、前述プロセッサから離れた位置にある少なくとも一つの記憶装置であってもよい。
【0154】
上記プロセッサは、中央プロセッサ、ネットワークプロセッサ(Network Processor、NP)などを含む汎用プロセッサであってもよく、デジタルコマンドプロセッサ(Digital Signal Processing、DSP)、特定用途向け集積回路、フィールドプログラマブルゲートディスプレイまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントなどであってもよい。
【0155】
実施例7:
上記各実施例を基に、本願の実施例には、コンピュータ可読記憶媒体も提供され、前記コンピュータ可読記憶媒体には、プロセッサによって実行されるコンピュータプログラムが記憶され、前記プログラムが前記プロセッサで稼働される場合、前記プロセッサに実行させる時に、以下のようなステップを実現する:
サンプルセットを取得し、ここで、前記サンプルセットには、異なる発話者のサンプルオーディオデータが含まれ、各前記サンプルオーディオデータは、それぞれ目標オーディオデータに対応し、前記目標オーディオデータと前記サンプルオーディオデータとは、語義情報が同じであり、
いずれか一つの前記サンプルオーディオデータに対して、オリジナル音色変換モデルにおける音色抽出ネットワークによって、前記サンプルオーディオデータの第1音色特徴を取得し、前記オリジナル音色変換モデルにおける除去音色ネットワークによって、前記第1音色特徴及び前記サンプルオーディオデータに対応する線形スペクトラムに基づいて、第1語義特徴を取得し、ここで、前記第1語義特徴は、前記サンプルオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記オリジナル音色変換モデルにおけるボコーダによって、前記第1語義特徴及び前記サンプルオーディオデータに対応する目標オーディオデータの第2音色特徴に基づいて、合成オーディオデータを取得し、
各前記サンプルオーディオデータにそれぞれ対応する目標オーディオデータ及び合成オーディオデータに基づいて、前記オリジナル音色変換モデルに対して訓練を行うことで、訓練済みの音色変換モデルを取得する。
【0156】
コンピュータ可読記憶媒体が問題を解決する原理及び相応的に得る有益な効果は、上記の実施例中の音色変換モデル訓練方法と類似し、そのため、具体的な実施は、音色変換モデル訓練方法の実施を参照することができる。
【0157】
実施例8:
上記各実施例を基に、本願の実施例には、コンピュータ可読記憶媒体も提供され、前記コンピュータ可読記憶媒体に、プロセッサによって実行されるコンピュータプログラムが記憶され、前記プログラムが前記プロセッサで稼働される場合、前記プロセッサに実行させる時に、以下のようなステップを実現する:
ソースオーディオデータ及び目標発話者の音色特徴を取得し、
予め訓練される音色変換モデルにおける音色抽出ネットワークによって、前記ソースオーディオデータの音色特徴を取得し、前記音色変換モデルにおける除去音色ネットワークによって、前記音色特徴及び前記ソースオーディオデータに対応する線形スペクトラムに基づいて、語義特徴を取得し、ここで、前記語義特徴は、前記ソースオーディオデータにおける、発話者音色に関係なく、且つ語義情報に関する特徴であり、前記音色変換モデルにおけるボコーダによって、前記語義特徴及び前記目標発話者の音色特徴に基づいて、合成オーディオデータを取得する。
【0158】
コンピュータ可読記憶媒体が問題を解決する原理は、上記の実施例中の音色変換方法と類似し、そのため、具体的な実施は、音色変換方法の実施を参照することができる。
【0159】
当業者であれば、本願の実施例に提供されるのは、方法、システム、またはコンピュータプログラム製品であることが自明である。そのため、本願は、完全ハードウェア実施例、完全ソフトウェア実施例、またはソフトウェアとハードウェア方面を結合する実施例の形式を採用することができる。また、本願は、コンピュータ利用可能なプログラムコードが含まれる一つ又は複数のコンピュータ利用可能な記憶媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むがこれらに限定されない)で実施されるコンピュータプログラム製品の形式を採用することができる。
【0160】
本願の実施例には、コンピュータプログラム製品も提供され、コンピュータプログラムが含まれ、当該コンピュータプログラムが実行される場合、上記のような前記音色変換モデル訓練方法のステップ、または、上記のような前記音色変換方法のステップを実現できる。
【0161】
本願は、本願の方法、デバイス(システム)、及びコンピュータプログラム製品によるフローチャート及び/またはブロック図を参照して説明する。コンピュータプログラムコマンドによってフローチャート及び/またはブロック図における各フロー及び/またはブロック、及びフローチャート及び/またはブロック図におけるフロー及び/またはブロックの結合を実現できることを理解することができる。これらのコンピュータプログラムコマンドが汎用コンピュータ、専用コンピュータ、組み込みプロセッサまたは他のプログラマブルデータ処理デバイスのプロセッサに提供されることで一つの機器を生成することができ、これにより、コンピュータまたは他のプログラマブルデータ処理デバイスのプロセッサによって実行されるコマンドで、フローチャートの一つのフローまたは複数のフロー及び/またはブロック図の一つのブロックまたは複数のブロックに指定される機能を実現するための装置を生成する。
【0162】
これらのコンピュータプログラムコマンドは、コンピュータまたは他のプログラマブルデータの処理デバイスをガイドして特定の方式で動作させることができるコンピュータ可読メモリに記憶されることもでき、これによって、当該コンピュータ可読メモリに記憶されるコマンドに、コマンド装置を含む製品を生成させ、当該コマンド装置は、フローチャートの一つのフローまたは複数のフロー及び/またはブロック図の一つのブロックまたは複数のブロックに指定される機能を実現する。
【0163】
これらのコンピュータプログラムコマンドが、コンピュータまたは他のプログラマブルデバイスで一連の操作ステップを実行することで、コンピュータを実現する処理を生成するように、コンピュータまたは他のプログラマブルデータ処理デバイスにロードすることもでき、これにより、コンピュータまたは他のプログラマブルデバイスで実行されるコマンドは、フローチャートの一つのフローまたは複数のフロー及び/またはブロック図の一つのブロックまたは複数のブロックに指定される機能を実現するためのステップを提供する。
【符号の説明】
【0164】
51 取得ユニット
52 処理ユニット
53 訓練ユニット
61 取得モジュール
62 合成モジュール
71 プロセッサ
72 通信インターフェース
73 メモリ
74 通信バス
81 プロセッサ
82 通信インターフェース
83 メモリ
84 通信バス
【国際調査報告】