特許7497523 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京沃東天駿信息技術有限公司の特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

特許7497523カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-31

(45)【発行日】2024-06-10

(54)【発明の名称】カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体

(51)【国際特許分類】

G10L 13/00 20060101AFI20240603BHJP

G10L 13/10 20130101ALI20240603BHJP

G10L 25/30 20130101ALI20240603BHJP

【ＦＩ】

G10L13/00 100Y

G10L13/10 113Z

G10L25/30

【請求項の数】 11

(21)【出願番号】P 2023516595

(86)(22)【出願日】2021-12-23

(65)【公表番号】

(43)【公表日】2023-09-28

(86)【国際出願番号】 CN2021140858

(87)【国際公開番号】W WO2022156479

(87)【国際公開日】2022-07-28

【審査請求日】2023-03-13

(31)【優先権主張番号】202110076168.0

(32)【優先日】2021-01-20

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】522442928

【氏名又は名称】北京沃東天駿信息技術有限公司

【氏名又は名称原語表記】ＢＥＩＪＩＮＧＷＯＤＯＮＧＴＩＡＮＪＵＮＩＮＦＯＲＭＡＴＩＯＮＴＥＣＨＮＯＬＯＧＹＣＯ．，ＬＴＤ．

【住所又は居所原語表記】ＲＯＯＭＡ４０２，４／Ｆ，ＮＯ．２ＢＵＩＬＤＩＮＧ，ＮＯ．１８ＫＥＣＨＵＡＮＧ１１ＴＨＳＴＲＥＥＴ，ＥＣＯＮＯＭＩＣＡＮＤＴＥＣＨＮＯＬＯＧＩＣＡＬＤＥＶＥＬＯＰＭＥＮＴＺＯＮＥ，ＢＥＩＪＩＮＧ１００１７６，ＰＥＯＰＬＥ’ＳＲＥＰＵＢＬＩＣＯＦＣＨＩＮＡ

(73)【特許権者】

【識別番号】517241916

【氏名又は名称】北京京東世紀貿易有限公司

【氏名又は名称原語表記】ＢＥＩＪＩＮＧＪＩＮＧＤＯＮＧＣＥＮＴＵＲＹＴＲＡＤＩＮＧＣＯ．，ＬＴＤ．

【住所又は居所原語表記】Ｒｏｏｍ２０１，２／Ｆ，ＢｌｏｃｋＣ，Ｎｏ．１８，Ｋｅｃｈｕａｎｇ１１ｔｈＳｔｒｅｅｔ，ＢｅｉｊｉｎｇＥｃｏｎｏｍｉｃａｎｄＴｅｃｈｎｏｌｏｇｉｃａｌＤｅｖｅｌｏｐｍｅｎｔＺｏｎｅ，Ｂｅｉｊｉｎｇ１００１７６，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】張政臣

(72)【発明者】

【氏名】呉俊儀

(72)【発明者】

【氏名】蔡玉玉

(72)【発明者】

【氏名】袁 ▲シン▼

(72)【発明者】

【氏名】宋偉

(72)【発明者】

【氏名】何暁冬

【審査官】山下剛史

(56)【参考文献】

【文献】特開２０２０－７６８４３（ＪＰ，Ａ）

【文献】国際公開第２０１９／２２２５９１（ＷＯ，Ａ１）

【文献】特開２０１９－２１９５７０（ＪＰ，Ａ）

【文献】特表２０２０－５１５９０５（ＪＰ，Ａ）

【文献】中国特許出願公開第１１１３５４３３２（ＣＮ，Ａ）

【文献】中国特許出願公開第１１１７９８８２１（ＣＮ，Ａ）

【文献】XUE, Heyang, et al.，LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER，arXiv:2011.08467，Cornell University，2020年11月17日，[online], [retrieved on 2024.04.19], Retrieved from the Internet: <URL: https://arxiv.org/pdf/2011.08467.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０，２５／３０

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

カスタム音色歌声の合成方法であって、
話者録音サンプルによって第一ニューラルネットワークをトレーニングし、それにより話者識別モデルを取得し、前記第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであるステップと、
歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップと、
合成対象の話者録音を前記話者識別モデルに入力し、前記話者識別モデルの中間隠れ層が出力した話者情報を取得するステップと、
合成対象のアカペラ音楽情報及び前記話者情報を前記アカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップと、を含む
ことを特徴とするカスタム音色歌声の合成方法。

【請求項2】

話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得するステップは、
前記話者録音サンプルをテスト録音サンプル及び登録録音サンプルに分け、且つ前記第一ニューラルネットワークに入力するステップと、
前記登録録音サンプルは前記第一ニューラルネットワークによって登録録音特徴を出力し、前記登録録音特徴に対して平均プーリング処理を行い、それにより登録録音ベクトルを取得するステップと、
前記テスト録音サンプルは前記第一ニューラルネットワークを介してテスト録音ベクトルを出力するステップと、
前記登録録音ベクトル及び前記テスト録音ベクトルに対してコサイン類似度計算を行い、コサイン類似度の結果を取得するステップと、
前記コサイン類似度結果及び回帰関数によって前記第一ニューラルネットワークに対してパラメータ最適化を行い、前記回帰関数の損失値が最小になるまで行うステップと、
パラメータが最適化された前記第一ニューラルネットワークを前記話者識別モデルとして確定するステップと、を含む
ことを特徴とする請求項１に記載のカスタム音色歌声の合成方法。

【請求項3】

前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、
前記歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、
前記話者ベクトルサンプル、前記楽譜サンプル、前記歌詞サンプル及び前記音素時間長サンプルによって前記持続時間モデルをトレーニングし、前記持続時間モデルの出力結果は時間長予測サンプルであるステップと、を含む
ことを特徴とする請求項１に記載のカスタム音色歌声の合成方法。

【請求項4】

前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、
前記歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、
前記歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、
前記話者ベクトルサンプル、前記音素時間長サンプル、前記楽譜サンプル、前記歌詞サンプル及び前記メルスペクトログラムサンプルによって前記音響学モデルをトレーニングし、前記音響学モデルの出力結果はメルスペクトログラム予測サンプルであるステップと、を含む
ことを特徴とする請求項１に記載のカスタム音色歌声の合成方法。

【請求項5】

前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、
前記歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、
前記メルスペクトログラムサンプルによって前記ボコーダモデルをトレーニングし、前記ボコーダモデルの出力結果はオーディオ予測サンプルであるステップと、を含む
ことを特徴とする請求項１に記載のカスタム音色歌声の合成方法。

【請求項6】

前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、合成対象のアカペラ音楽情報及び前記話者情報を前記アカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップは、
前記アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップと、
前記話者情報、前記合成対象の楽譜及び前記合成対象の歌詞を前記持続時間モデルに入力し、前記持続時間モデルの出力結果は合成対象の時間長予測結果であるステップと、
前記時間長予測結果、前記話者情報、前記合成対象の楽譜及び前記合成対象の歌詞を前記音響学モデルに入力し、前記音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップと、
前記メルスペクトログラム予測結果を前記ボコーダモデルに入力し、前記ボコーダモデルの出力結果は前記合成されたカスタム音色歌声であるステップと、を含む
ことを特徴とする請求項１～５のいずれか一項に記載のカスタム音色歌声の合成方法。

【請求項7】

前記アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップは、
前記アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行い、それにより前記合成対象の楽譜及び前記合成対象の歌詞を取得するステップを含む
ことを特徴とする請求項６に記載のカスタム音色歌声の合成方法。

【請求項8】

前記時間長予測結果、前記話者情報、前記合成対象の楽譜及び前記合成対象の歌詞を前記音響学モデルに入力し、前記音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップは、
前記時間長予測結果、前記合成対象の楽譜及び前記合成対象の歌詞に対してフレームレベル拡張を行うステップと、
前記フレームレベル拡張の結果及び前記話者情報を前記音響学モデルに入力し、前記音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップと、を含む
ことを特徴とする請求項６に記載のカスタム音色歌声の合成方法。

【請求項9】

カスタム音色歌声の合成装置であって、
話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することに用いられ、前記第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである第一トレーニングモジュールと、
歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得することに用いられる第二トレーニングモジュールと、
合成対象の話者録音を前記話者識別モデルに入力し、前記話者識別モデルの中間隠れ層が出力した話者情報を取得することに用いられる識別モジュールと、
合成対象のアカペラ音楽情報及び前記話者情報を前記アカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得することに用いられる合成モジュールと、を含む
ことを特徴とするカスタム音色歌声の合成装置。

【請求項10】

電子機器であって、
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能命令を実行することによって、請求項１～８のいずれか一項に記載のカスタム音色歌声の合成方法を実行するように構成される
ことを特徴とする電子機器。

【請求項11】

コンピュータプログラムが記憶される、コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されるときに請求項１～８のいずれか一項に記載のカスタム音色歌声の合成方法を実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、２０２１年１月２０日に出願され、出願番号が２０２１１００７６１６８．０であって、発明名称が「カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体」である中国特許出願に基づいての優先権を主張し、当該中国特許出願のすべての内容を本願に援用する。

【0002】

本開示は音声合成技術分野に関し、特にカスタム音色歌声の合成方法、装置、電子機器及び記憶媒体に関する。

【背景技術】

【0003】

人工知能業界の高速発展に伴い、インテリジェントな音声合成技術はすでに複数の分野に浸透し、スマートホーム、ボイスナビゲーション、インテリジェントな顧客サービス等の業務に応用されており、且つ人工知能合成のボイス擬人化が高く、人工を代替する基準に達することができる。ユーザの音色の多様なニーズを満たすために、従来の音色カスタマイズ機能も日増しに成熟し、ユーザの少量のコーパスオーディオによって該ユーザのユニーク音色をトレーニングすることができる。同時に、バーチャルアイドルの知名度が日増しに向上することに伴い、歌声合成も音声合成技術の主な発展方向の一つとなっている。従来の歌声合成技術、例えばバーチャルアイドルが頼りにしている「ＶＯＣＡＬＯＩＤ」シンセサイザーは、主に人間のボイスデータによってコーパスを構築し、次にユーザが提供した歌詞に対して単語カットを行い、さらにコーパスから対応するコーパスを呼び出し、最後にユーザが提供した楽譜に応じて合成ボイスのリズム及びピッチを調整して歌声を合成する。

【0004】

従来技術では、歌声合成技術によるコーパスの構築にはユーザの長時間のボイスデータが必要であり、また、コーパスを呼び出してボイスを生成する過程には多くの時間がかかるため、歌声合成の効率が低い。また、コーパスはボリュームが大きいという特性を有するため、ユーザの音色カスタマイズに対するニーズは、コーパス全体を置き換えることによってのみ達成することができ、その過程は煩雑で時間がかかる。

【0005】

なお、上述の背景技術の部分に開示されている情報は、本開示の背景に対する理解を深めるためのものに過ぎないため、当業者に知られている従来技術を構成しない情報を含むことができる。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本開示の目的はカスタム音色歌声の合成方法、装置、電子機器及び記憶媒体を提供し、関連技術におけるカスタム音色歌声の合成効率が低いという問題を少なくともある程度克服する。

【0007】

本開示の他の特徴及び利点は、以下の詳細な説明から明らかになるか、または本開示の実施によって部分的に習得される。

【課題を解決するための手段】

【0008】

本開示の一態様によれば、カスタム音色歌声の合成方法を提供し、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであるステップと、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップと、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得するステップと、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップとを含む。

【0009】

本開示の一実施例において、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得するステップは、話者録音サンプルをテスト録音サンプル及び登録録音サンプルに分け、且つ第一ニューラルネットワークに入力するステップと、登録録音サンプルは第一ニューラルネットワークによって登録録音特徴を出力し、登録録音特徴に対して平均プーリング処理を行い、それにより登録録音ベクトルを取得するステップと、テスト録音サンプルは第一ニューラルネットワークを介してテスト録音ベクトルを出力するステップと、登録録音ベクトル及びテスト録音ベクトルに対してコサイン類似度計算を行い、コサイン類似度の結果を取得するステップと、コサイン類似度結果及び回帰関数によって第一ニューラルネットワークに対してパラメータ最適化を行い、回帰関数の損失値が最小になるまで行うステップと、パラメータが最適化された第一ニューラルネットワークを話者識別モデルとして確定するステップとを含む。

【0010】

本開示の一実施例において、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、話者ベクトルサンプル、楽譜サンプル、歌詞サンプル及び音素時間長サンプルによって持続時間モデルをトレーニングし、持続時間モデルの出力結果は時間長予測サンプルであるステップとを含む。

【0011】

本開示の一実施例において、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、話者ベクトルサンプル、音素時間長サンプル、楽譜サンプル、歌詞サンプル及びメルスペクトログラムサンプルによって音響モデルをトレーニングし、音響学モデルの出力結果はメルスペクトログラム予測サンプルであるステップとを含む。

【0012】

本開示の一実施例において、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、メルスペクトログラムサンプルによってボコーダモデルをトレーニングし、ボコーダモデルの出力結果はオーディオ予測サンプルであるステップとを含む。

【0013】

本開示の一実施例において、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップは、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップと、話者情報、合成対象の楽譜及び合成対象の歌詞を持続時間モデルに入力し、持続時間モデルの出力結果は合成対象の時間長予測結果であるステップと、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップと、メルスペクトログラム予測結果をボコーダモデルに入力し、ボコーダモデルの出力結果は合成されたカスタム音色歌声であるステップとを含む。

【0014】

本開示の一実施例において、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップは、アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行い、それにより合成対象の楽譜及び合成対象の歌詞を取得するステップを含む。

【0015】

本開示の一実施例において、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップは、時間長予測結果、合成対象の楽譜及び合成対象の歌詞に対してフレームレベル拡張を行うステップと、フレームレベル拡張の結果及び話者情報を音響モデルに入力し、音響モデルの出力結果が合成対象のメルスペクトログラム予測結果であるステップとを含む。

【0016】

本開示の別の態様によれば、カスタム音色歌声の合成装置を提供し、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することに用いられ、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである第一トレーニングモジュールと、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得することに用いられる第二トレーニングモジュールと、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得することに用いられる識別モジュールと、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得することに用いられる合成モジュールとを含む。

【0017】

本開示のさらに別の態様によれば、電子機器を提供し、プロセッサと、プロセッサの実行可能命令を記憶するためのメモリとを含み、プロセッサは、実行可能命令を実行することによって、上述のいずれかのカスタム音色歌声の合成方法を実行するように構成される。

【0018】

本開示のさらに別の態様によれば、コンピュータプログラムが記憶される、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムは、プロセッサによって実行されるときに上述のいずれかのカスタム音色歌声の合成方法を実現する。

【0019】

本開示の実施例が提供するカスタム音色歌声の合成方法は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。

【0020】

さらに、合成対象の話者録音を話者識別モデルに入力することにより、話者識別モデルの中間隠れ層が出力した話者情報を取得し、及び合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得し、少量のコーパスだけでユーザのカスタム音色をトレーニングすることができ、且つ合成ボイスのリズム及びピッチを調整することにより歌声合成の効果を達成し、カスタム音色歌声の合成過程に必要な時間及びトレーニングコーパスを減少させ、カスタム音色歌声の合成効率を向上させる。

【0021】

なお、前記一般的な記載及び後述の詳細な記載は、単なる例示的で解釈的な記載であり、本開示を限定しない。

【0022】

以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本開示に該当する実施例を例示し、明細書とともに本開示の原理を解釈する。なお、以下の記載における図面はただ本発明の一部の実施例に過ぎず、当業者の場合、創造的な労働を付与しない前提で、これらの図面によって他の図面を得ることができる。

【図面の簡単な説明】

【0023】

【図1】図１は本開示の実施例におけるカスタム音色歌声の合成方法の模式図を示す；

【図2】図２は本開示の実施例における別のカスタム音色歌声の合成方法のフローチャートを示す；

【図3】図３は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図4】図４は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図5】図５は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図6】図６は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図7】図７は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図8】図８は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図9】図９は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図10】図１０は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図11】図１１は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図12】図１２は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図13】図１３は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す；

【図14】図１４は本開示の実施例におけるカスタム音色歌声の合成装置の模式図を示す；

【図15】図１５は本開示の実施例における電子機器の模式図を示す。

【発明を実施するための形態】

【0024】

次に、図面を参照しながら、例示的な実施形態をより全面的に説明する。ただし、例示的な実施形態は複数種類の形態で実施することができ、ここに記述する実施例に限定されない。逆に、これらの実施形態を提供して、本開示を全面で完全に、かつ、例示的な実施形態の思想を全面で当業者に伝達する。なお、説明される特徴、構成又は特性は、任意の適切な方式で一つ又は複数の実施形態に組み合わせることができる。

【0025】

なお、図面は本開示の模式的な図示に過ぎず、必ずしも縮尺通りに描かれてはいない。図面における同じ図面符号は、同じ又は類似する要素を示すため、それらの重複する記述が省略される。図面に示すいくつかのブロック図は機能的エンティティであり、必ずしも物理的又は論理的に独立するエンティティに対応する必要はない。これらの機能的エンティティは、ソフトウェア形式で実現され、又は、１つ又は複数のハードウェアモジュール或いは集積回路で実現され、又は、異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置で実現される。

【0026】

本開示が提供する解決手段は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。

【0027】

【0028】

上述カスタム音色歌声の合成方法は、複数の端末とサーバクラスタとの相互作用によって実現することができる。

【0029】

端末は携帯電話、ゲームホスト、タブレットコンピュータ、電子書籍リーダ、スマートメガネ、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、動画専門家圧縮標準オーディオレイヤ４）プレーヤ、スマートホーム装置、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、拡張現実）装置、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、仮想現実）装置等の移動端末であってもよく、または、端末はパーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣ）であってもよく、例えばラップトップ型携帯コンピュータ及びデスクトップ型コンピュータ等である。

【0030】

端末には、カスタム音色歌声の合成を提供するためのアプリケーションプログラムがインストールされていてもよい。

【0031】

端末とサーバクラスタとの間は通信ネットワークを介して接続される。任意選択で、通信ネットワークは有線ネットワークまたは無線ネットワークである。

【0032】

サーバクラスタは１台のサーバであり、又は複数台のサーバで構成され、又は１つの仮想プラットフォームであり、又は１つのクラウドコンピューティングサービスセンターである。サーバクラスタはカスタム音色歌声の合成を提供するアプリケーションプログラムにバックグラウンドサービスを提供することに用いられる。任意選択的に、サーバクラスタは主な計算作業を担当し、端末は副な計算作業を担当する；あるいは、サーバクラスタは副な計算作業を担当し、端末は主な計算作業を担当する；あるいは、端末とサーバクラスタとの間は分散式計算アーキテクチャを用いて協同計算を行う。

【0033】

任意選択的に、異なる端末にインストールされたアプリケーションプログラムのクライアントは同じであり、又は二つの端末にインストールされたアプリケーションプログラムのクライアントは異なる制御システムプラットフォームの同じタイプのアプリケーションプログラムのクライアントである。端末プラットフォームの違いに基づき、該アプリケーションプログラムのクライアントの具体的な形態も異なってもよく、例えば、該アプリケーションプログラムのクライアントは携帯電話クライアント、ＰＣクライアント又はグローバル広域ネットワークのクライアント等であってもよい。

【0034】

当業者であれば、上述端末の数はより多くてもよく又はより少なくてもよいことを理解することができる。例えば上述端末は一つだけであってもよく、又は上述端末は数十個又は数百個であってもよく、又はより多くてもよい。本開示の実施例は端末の数及び装置タイプを限定しない。

【0035】

任意選択で、システムは、管理デバイスをさらに含むことができ、管理デバイスは、通信ネットワークを介してサーバクラスタに接続される。任意選択で、通信ネットワークは、有線ネットワークまたは無線ネットワークである。

【0036】

任意選択で、無線ネットワークまたは有線ネットワークは、標準的な通信技術及び／またはプロトコルを使用する。ネットワークは、通常、インターネットであるが、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ，ＬＡＮ）、メトロポリタンエリアネットワーク（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ，ＭＡＮ）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ，ＷＡＮ）、モバイル、有線もしくは無線ネットワーク、プライベートネットワーク、または仮想プライベートネットワークの任意の組合せを含むがこれらに限定されない任意のネットワークであってもよい。いくつかの実施例において、ネットワークを介して交換されるデータは、ハイパーテキストマークアップ言語（ＨｙｐｅｒＴｅｘｔＭａｒｋ－ｕｐＬａｎｇｕａｇｅ，ＨＴＭＬ）、拡張可能マークアップ言語（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ，ＸＭＬ）などを含む技術及び／またはフォーマットを使用して表される。また、リンクの全部または一部はセキュアソケットレイヤ（ＳｅｃｕｒｅＳｏｃｋｅｔＬａｙｅｒ，ＳＳＬ）、トランスポートレイヤセキュリティ（ＴｒａｎｓｐｏｒｔＬａｙｅｒＳｅｃｕｒｉｔｙ，ＴＬＳ）、仮想プライベートネットワーク（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ，ＶＰＮ）、インターネットプロトコルセキュリティ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌＳｅｃｕｒｉｔｙ，ＩＰｓｅｃ）などの従来の暗号化技術を使用して暗号化されてもよい。他の実施例において、上述のデータ通信技術の代わりに、またはそれに加えて、カスタム及び／または専用データ通信技術を使用することができる。

【0037】

以下では、図面及び実施例を参照しながら本例示的な実施形態におけるカスタム音色歌声の合成方法の各ステップをより詳細に説明する。

【0038】

図１は本開示の実施例におけるカスタム音色歌声の合成方法のフローチャートを示す。本開示の実施例が提供する方法は任意の計算処理能力を有する電子機器によって実行することができる。

【0039】

図１に示すように、電子機器がカスタム音色歌声の合成方法を実行し、以下のステップを含む：
ステップＳ１０２、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである。

【0040】

ステップＳ１０４、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得する。

【0041】

ステップＳ１０６、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得する。

【0042】

ステップＳ１０８、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得する。

【0043】

本開示の一実施例において、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。

【0044】

【0045】

図１に示すステップに基づき、図２に示すように、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することは以下を含む：
ステップＳ２０２２、話者録音サンプルをテスト録音サンプル及び登録録音サンプルに分け、且つ第一ニューラルネットワークに入力する。

【0046】

ステップＳ２０２４、登録録音サンプルは第一ニューラルネットワークによって登録録音特徴を出力し、登録録音特徴に対して平均プーリング処理を行い、それにより登録録音ベクトルを取得する。

【0047】

本開示の一実施例において、平均プーリング処理の順方向伝播は１つのブロックにおける値を平均してプーリングすることであり、逆方向伝播の過程は１つの要素の勾配などをｎ部に等分して前の層に割り当てることであり、このようにプーリング前後の勾配（残差）の和が不変であることを保証し、平均プーリング処理は近傍領域の大きさが制限されることによる推定値の分散の誤差を減少させ、特徴情報をより多く保持することができる。

【0048】

ステップＳ２０２６、テスト録音サンプルは第一ニューラルネットワークを介してテスト録音ベクトルを出力する。

【0049】

ステップＳ２０２８、登録録音ベクトル及びテスト録音ベクトルに対してコサイン類似度計算を行い、コサイン類似度の結果を取得する。

【0050】

ステップＳ２０３０、コサイン類似度結果及び回帰関数によって第一ニューラルネットワークに対してパラメータ最適化を行い、回帰関数の損失値が最小になるまで行う。

【0051】

ステップＳ２０３２、パラメータが最適化された第一ニューラルネットワークを話者識別モデルとして確定する。

【0052】

本開示の一実施例において、コサイン類似度結果及び回帰関数によって第一ニューラルネットワークに対してパラメータ最適化を行い、回帰関数の損失値が最小になるまで行い、それにより話者を識別することができる話者識別モデルを取得し、数秒の話者録音だけで識別を完了することができる。

【0053】

図１に示すステップに基づき、図３に示すように、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは以下を含む：
ステップＳ３０４２、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析する。

【0054】

ステップＳ３０４４、話者ベクトルサンプル、楽譜サンプル、歌詞サンプル及び音素時間長サンプルによって持続時間モデルをトレーニングし、持続時間モデルの出力結果は時間長予測サンプルである。

【0055】

本開示の一実施例において、話者ベクトルサンプル、楽譜サンプル、歌詞サンプル及び音素時間長サンプルによって持続時間モデルをトレーニングし、持続時間モデルの出力結果は時間長予測サンプルであり、それにより合成後のアカペラ歌曲の時間長予測結果を実現し、時間長予測結果は音響学モデルの１つの入力量とする。

【0056】

図１に示すステップに基づき、図４に示すように、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは以下を含む：
ステップＳ４０４２、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析する。

【0057】

ステップＳ４０４４、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出する。

【0058】

ステップＳ４０４６、話者ベクトルサンプル、音素時間長サンプル、楽譜サンプル、歌詞サンプル及びメルスペクトログラムサンプルによって音響学モデルをトレーニングし、音響学モデルの出力結果はメルスペクトログラム予測サンプルである。

【0059】

本開示の一実施例において、話者ベクトルサンプル、音素時間長サンプル、楽譜サンプル、歌詞サンプル及びメルスペクトログラムサンプルによって音響学モデルをトレーニングし、音響学モデルの出力結果はメルスペクトログラム予測サンプルであり、それにより適切な大きさの音声特徴を得て、メルスペクトログラムによって人の耳の様々な頻度の音声に対する知覚力をシミュレーションし、即ちメルスペクトログラムによって低頻度部分を強化し、高頻度部分を弱化し、さらにアカペラ合成歌声をより自然人の歌声に近づける。

【0060】

図１に示すステップに基づき、図５に示すように、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは以下を含む：
ステップＳ５０４２、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出する。

【0061】

ステップＳ５０４４、メルスペクトログラムサンプルによってボコーダモデルをトレーニングし、ボコーダモデルの出力結果はオーディオ予測サンプルである。

【0062】

本開示の一実施形態において、メルスペクトログラムサンプルによってボコーダモデルをトレーニングし、ボコーダモデルの出力結果はオーディオ予測サンプルであり、それにより話者音色に適合するオーディオ予測サンプルを取得する。

【0063】

図１及び図３に示すステップに基づき、図６に示すように、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップは以下を含む：
ステップＳ６０８２、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析する。

【0064】

ステップＳ６０８４、話者情報、合成対象の楽譜及び合成対象の歌詞を持続時間モデルに入力し、持続時間モデルの出力結果は合成対象の時間長予測結果である。

【0065】

ステップＳ６０８６、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果である。

【0066】

ステップＳ６０８８、メルスペクトログラム予測結果をボコーダモデルに入力し、ボコーダモデルの出力結果は合成されたカスタム音色歌声である。

【0067】

本開示の一実施形態において、カスタム音色歌声の合成過程において、話者識別モデルによって話者を確定し、続いて持続時間モデル、音響学モデル、及びボコーダモデルを順次によって、話者、合成対象の楽譜、及び合成対象の歌詞に基づいて、話者の音色に適合するカスタム音色歌声を得る。

【0068】

図１及び図３に示すステップに基づき、図７に示すように、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップは以下を含む：
ステップＳ７０８２、アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行い、それにより合成対象の楽譜及び合成対象の歌詞を取得する。

【0069】

本開示の一実施形態において、アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行うことにより、合成対象の楽譜及び合成対象の歌詞を取得し、合成対象の歌詞は話者の発音特徴により適合し、合成対象の楽譜は話者のアカペラ音色により適合する。

【0070】

図１及び図３に示すステップに基づき、図８に示すように、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップは以下を含む：
ステップＳ８０８２、時間長予測結果、合成対象の楽譜及び合成対象の歌詞に対してフレームレベル拡張を行う。

【0071】

ステップＳ８０８４、フレームレベル拡張の結果及び話者情報を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果である。

【0072】

次に、図９を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図９に示されるカスタム音色歌声の合成方法のトレーニング段階９００は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0073】

図９に示すように、カスタム音色歌声の合成方法のトレーニング段階９００は以下を含む：識別データを話者識別モデルに入力してトレーニングする；話者識別モデルを話者情報として出力する；アカペラデータ及び話者情報をアカペラ合成モデルに入力してトレーニングする。

【0074】

次に、図１０を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図１０に示されるカスタム音色歌声の合成方法の合成段階１０００は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0075】

図１０に示すように、カスタム音色歌声の合成方法の合成段階１０００は以下を含む：テキスト録音データを話者識別モデルに入力し、話者情報を取得する；話者情報、楽譜及び歌詞をアカペラ合成モデルに入力し、アカペラ歌声を取得する。

【0076】

次に、図１１を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図１１に示されるカスタム音色歌声の合成方法の話者識別モデル１１００は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0077】

図１１に示すように、カスタム音色歌声の合成方法の話者識別モデル１１００の実行段階は以下を含む：
（１）テスト録音、登録録音１、……登録録音ＮをＬＳＴＭに入力し、Ｎは１より大きい整数であり、ここで、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）は長短期記憶ネットワークであり、時間再帰型ニューラルネットワークであり、時系列における間隔及び遅延が比較的長い重要なイベントの処理及び予測に適する。テスト録音をＬＳＴＭで処理した後に話者ベクトル１を出力し、登録録音をＬＳＴＭで処理した後のベクトルに対して平均プーリング処理を行い、話者ベクトル２を得る。

【0078】

（２）話者ベクトル１と話者ベクトル２に対してコサイン類似度計算を行い、且つ採点関数の計算を行う。

【0079】

（３）ロジスティック回帰処理によって採点関数の結果が受信又は拒否であることを確定する。

【0080】

次に、図１２を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図１２に示すカスタム音色歌声の合成方法のアカペラ合成モデル１２００は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0081】

図１２に示すように、カスタム音色歌声の合成方法のアカペラ合成モデル１２００は音素時間長モデル１２０２、音響学モデル１２０４及びボコーダモデル１２０６を含み、各モジュールのトレーニング過程は以下のように独立して実行することができる：
（１）話者ベクトル、楽譜及び歌詞、音素時間長を音素時間長モデル１２０２に入力してトレーニングする。

【0082】

（２）話者ベクトル、楽譜及び歌詞、音素時間長、及びメルスペクトログラムを音響学モデル１２０４に入力してトレーニングする。

【0083】

（３）メルスペクトログラム及び歌曲をボコーダモデル１２０６に入力してトレーニングする。

【0084】

具体的には、カスタム音色歌声の合成方法は話者識別モデル及びアカペラ合成モデルを含み、アカペラ合成モデルはトレーニング過程及び推論過程を含み、アカペラ合成モデルは音素時間長モデル、音響学モデル及びニューラルネットワークボコーダモデルを含む。

【0085】

例えば、音素時間長モデルは三層の完全接続層で構成されるＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ディープニューラルネットワーク）モデルであってもよく、入力は楽譜及び歌詞であり、出力は音素時間長である。予測する時、我々は楽譜しか知らない。

【0086】

例えば、話者ベクトルは、トレーニング時に音素時間長モデルにも追加され、異なる話者に基づいて異なる音素時間長モデルを得ることに用いられる。

【0087】

例えば、音響学モデルへの入力は楽譜及び音素時間長であり、出力はメルスペクトログラムであり、話者ベクトルも音響学モデルに入力される。

【0088】

例えば、ボコーダモデルの入力はメルスペクトログラムであり、出力はオーディオである。音響学モデルの１つの可能な実現方法は、３層ＬＳＴＭからなるディープニューラルネットワークモデルであるが、アテンション機構を有する複雑なモデルであってもよい。

【0089】

例えば、ボコーダモデルは、ＬＰＣＮｅｔ（ＩｍｐｒｏｖｉｎｇＮｅｕｒａｌＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＴｈｒｏｕｇｈＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ、音声合成線形予測によるニューラルシステムの改善）ボコーダを採用してもよい。

【0090】

例えば、推論過程において、楽譜及び歌詞、ならびに歌手の話者ベクトルが知られており、次いで、トレーニング過程において得られた音素時間長モデル、音響学モデル、及びボコーダモデルを用いて、合成された歌曲を出力することができる。

【0091】

例えば、トレーニング及び推論の過程において、いずれも楽譜及び歌詞から、テキスト分析を行い、音素、単語分割等の特徴を抽出し、次に音素時間長の予測又は音素時間長モデルのトレーニングを行う必要がある。

【0092】

次に、図１３を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図１３に示すカスタム音色歌声の合成方法は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0093】

図１３に示すように、カスタム音色歌声の合成方法の実行ステップは以下を含む：
ステップＳ１３０２、合成対象の話者ベクトルを入力する。

【0094】

ステップＳ１３０４、楽譜及び歌詞を取得する。
ステップＳ１３０６、テキスト分析する。

【0095】

ステップＳ１３０８、特徴を抽出する。
ステップＳ１３１０、音素時間長を予測する。

【0096】

ステップＳ１３１２、フレームレベル拡張する。
ステップＳ１３１４、メルスペクトログラムを予測する。

【0097】

ステップＳ１３１６、歌曲を合成する。
ここで、話者ベクトルは話者の音響学特徴に基づき、ディープニューラルネットワークを使用して抽出される。話者情報により、合成されたアカペラ音声の音色を制御することができる。本開示は１つのアカペラ合成モデルをトレーニングし、該アカペラ合成モデルは１つの話者が録音した大量の朗読及びアカペラ歌声データセットをトレーニングして得られる。一人の新しい話者がアカペラの歌声を合成する必要がある時、該話者の少量の朗読コーパスのみを録音し、該話者の話者ベクトルを抽出し、次に該アカペラ合成モデルに入力し、楽譜及び歌詞を結合し、該アカペラ合成モデルの推論過程により、該話者のアカペラの音声を生成し、即ち合成歌声をカスタマイズする。

【0098】

例えば、複数の音色、複数の歌声を含むアカペラデータセットを構築し、楽譜及び歌詞が与えられたアカペラ音声を合成できるベースモデルをトレーニングすることに用いられ、また、データセットはさらに一部の歌手の指定テキストの録音データを含む必要がある。

【0099】

例えば、テキストに関連する話者識別モデルをトレーニングし、モデルの中間隠れ層の結果を取り、話者ベクトルとして定義する。

【0100】

例えば、歌手の指定テキストの録音を話者識別モデルに送信し、話者ベクトルを得て、次にこの話者ベクトルをアカペラ歌声モデルの一部とし、大量の複数の音色、複数の歌声アカペラデータセットにより、アカペラ合成モデルをトレーニングし、アカペラ合成モデルには歌手の身元情報を含む。

【0101】

次に、図１４を参照して、本開示の実施形態に係るカスタム音色歌声の合成装置１４００について説明する。図１４に示すカスタム音色歌声の合成装置１４００は一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0102】

図１４に示すように、カスタム音色歌声の合成装置１４００は、ハードウェアモジュールの形態で表現される。カスタム音色歌声の合成装置１４００の構成要素は、第一トレーニングモジュール１４０２と、第二トレーニングモジュール１４０４と、識別モジュール１４０６と、合成モジュール１４０８とを含んでもよいが、これらに限定されない。

【0103】

第一トレーニングモジュール１４０２は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することに用いられ、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである。

【0104】

第二トレーニングモジュール１４０４は、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得することに用いられる。

【0105】

識別モジュール１４０６は、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得することに用いられる。

【0106】

合成モジュール１４０８は、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、合成されたカスタム音色歌声を取得することに用いられる。

【0107】

次に、図１５を参照して、本開示の実施形態による電子機器１５００について説明する。図１５に示す電子機器１５００は一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。

【0108】

図１５に示すように、電子機器１５００は、一般的な計算機器の形態で表現される。電子機器１５００の構成要素は、上述の少なくとも１つの処理ユニット１５１０と、上述の少なくとも１つの記憶ユニット１５２０と、異なるシステム構成要素を接続する（記憶ユニット１５２０及び処理ユニット１５１０を含む）バス１５３０とを含んでもよいが、これらに限定されない。

【0109】

ここで、記憶ユニットはプログラムコードを記憶し、プログラムコードは、処理ユニット１５１０によって実行され、処理ユニット１５１０に、本明細書の上述の「例示的な方法」で説明した本開示の様々な例示的な実施形態によるステップを実行させることができる。例えば、処理ユニット１５１０は、本開示のカスタム音色歌声の合成方法で定義されたステップを行うことができる。

【0110】

記憶ユニット１５２０は、ランダムアクセス記憶ユニット（ＲＡＭ）１５２０１及び／またはキャッシュ記憶ユニット１５２０２などの揮発性記憶ユニットの形態の読み取り可能な媒体を含んでもよく、読取り専用記憶ユニット（ＲＯＭ）１５２０３をさらに含んでもよい。

【0111】

記憶ユニット１５２０はまた、１組（少なくとも１つ）のプログラムモジュール１５２０５を有するプログラム／ユーティリティ１５２０４を含んでもよく、このようなプログラムモジュール１５２０５は、オペレーティングシステム、１つまたは複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むが、これらに限定されなく、これらの例のそれぞれまたはいくつかの組合せは、ネットワーク環境の実装を含むことができる。

【0112】

バス１５３０は、くつかのタイプのバス構造のうちの１つまたは複数を表すことができ、記憶ユニットバスまたは記憶ユニットコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、処理ユニット、または複数のバス構造のいずれかを使用するローカルバスを含む。

【0113】

電子機器１５００はまた、１つまたは複数の外部デバイス１５４０（たとえば、キーボード、ポインティングデバイス、ブルートゥース（登録商標）デバイスなど）と通信することができ、また、ユーザが当該電子機器と対話することを可能にする１つまたは複数のデバイス、及び／または当該電子機器１５００が１つまたは複数の他の計算機器と通信することを可能にする任意のデバイス（例えば、ルータ、モデムなど）と通信することができる。このような通信は、入力／出力（Ｉ／Ｏ）インターフェース１５５０を介して行うことができる。また、電子機器１５００は、ネットワークアダプタ１５６０を介して１つまたは複数のネットワーク（たとえば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及び／またはインターネットなどのパブリックネットワーク）と通信することもでき、ネットワークアダプタ１５６０は、バス１５３０を介して電子機器１５００の他のモジュールと通信する。なお、図示されていないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡ標識システム、テープドライブ、及びデータバックアップ記憶システムなどを含むがこれらに限定されない他のハードウェア及び／またはソフトウェアモジュールを電子機器と組み合わせて使用することができる。

【0114】

以上の実施形態の説明により、当業者であれば容易に理解できるように、ここで説明した例示的な実施形態はソフトウェアによって実現してもよく、ソフトウェアと必要なハードウェアを組み合わせる方式によって実現してもよい。従って、本開示の実施形態による技術的解決手段はソフトウェア製品の形式で体現することができ、該ソフトウェア製品は１つの不揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、モバイルハードディスク等であってもよい）又はネットワークに記憶することができ、複数のコマンドを含んで１台の計算機器（パーソナルコンピュータ、サーバ、端末装置、又はネットワーク装置等であってもよい）に本開示の実施形態による方法を実行させる。

【0115】

本開示の例示的な実施例において、本明細書における上述の方法を実現することができるプログラム製品が記憶されたコンピュータ読み取り可能な記憶媒体がさらに提供される。いくつかの可能な実施形態において、本開示の様々な態様はまた、プログラムコードを含むプログラム製品の形態で実現されてもよく、前記プログラム製品が端末機器で実行される場合、プログラムコードは、本明細書の上述の「例示的な方法」の部分に説明した本開示の様々な例示的な実施形態のステップを前記端末機器に実行させる。

【0116】

本開示の実施形態による上述の方法を実現するためのプログラム製品は、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）を使用し、プログラムコードを含み、端末機器、例えばパーソナルコンピュータで実行されることができる。しかしながら、本開示のプログラム製品は、これに限定されなく、本願において、読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置又は部品により使用されてもよく、又は、それらに結合して使用されてもよい。

【0117】

コンピュータ読み取り可能な信号媒体は、ベースバンドに含まれ又は搬送波の一部として伝播されるデータ信号を含んでもよく、その中で読み取り可能なプログラムコードを担持する。このような伝播されるデータ信号は、多くの形式を採用してもよく、電磁信号、光信号又は上述の任意の組み合わせを含むが、これらに限定されない。読み取り可能な信号媒体は、読み取り可能な記憶媒体以外の任意の読み取り可能な媒体であってもよく、当該読み取り可能な媒体は、指令実行システム、装置又は部品により使用され又はそれらと組み合わせて使用されるためのプログラムを送信、伝播又は転送することができる。

【0118】

読み取り可能な媒体に含まれるプログラムコードは、任意の適切な媒体により転送されてもよく、無線、有線、光ケーブル、ＲＦ等、又は、上述の任意の適切な組み合わせを含むが、これらに限定されない。

【0119】

本開示の動作を実行するためのプログラムコードは、１種又は複数種のプログラム言語の任意の組み合わせで書かれてもよく、プログラム言語は、Ｊａｖａ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラム言語を含んでもよく、「Ｃ」言語又は類似のプログラム言語などの通常の手続型プログラム言語を含んでもよい。プログラムコードは、完全にユーザ計算機器で実行されてもよく、一部がユーザデバイスで実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、一部がユーザ計算機器で実行されてもよく、一部が遠隔計算機器で実行されてもよく、又は、完全に遠隔計算機器又はサーバで実行されてもよい。遠隔計算機器に係る場合、遠隔計算機器は、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザの計算機器に接続されてもよく、又は、外部計算機器（例えば、インターネットサービスプロバイダによりインターネットを介して接続され）に接続されてもよい。

【0120】

上述の詳細な説明では、アクションを実行するための装置のいくつかのモジュールまたはユニットが言及されているが、この分割は必須ではないことに留意されたい。実際、本開示の実施形態によれば、上述した2つ以上のモジュールまたはユニットの特徴および機能は、１つのモジュールまたはユニットにおいて具現化され得る。逆に、上述した1つのモジュールまたはユニットの特徴および機能は、複数のモジュールまたはユニットによって具現化されるようにさらに分割され得る。

【0121】

さらに、本開示における方法の様々なステップは、特定の順序で図面に示されているが、これは、所望の結果を達成するために、ステップが特定の順序で実行されなければならないこと、または示されたステップのすべてが実行されなければならないことを要求または暗示するものではない。追加または代替として、いくつかのステップが省略されてもよく、複数のステップが１つのステップに組み合わされてもよく、及び／または１つのステップが複数のステップに分割されてもよい。

【0122】

以上の実施形態の説明により、当業者であれば容易に理解できるように、ここで説明した例示的な実施形態はソフトウェアによって実現してもよく、ソフトウェアと必要なハードウェアを組み合わせる方式によって実現してもよい。従って、本開示の実施形態による技術的解決手段はソフトウェア製品の形式で体現することができ、該ソフトウェア製品は１つの不揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、モバイルハードディスク等であってもよい）又はネットワークに記憶することができ、複数のコマンドを含んで１台の計算機器（パーソナルコンピュータ、サーバ、モバイル端末、又はネットワーク装置等であってもよい）に本開示の実施形態による方法を実行させる。

【0123】

当業者は、本明細書を考慮し、本明細書に開示された発明を実施した後、本開示の他の実施例を容易に想到できる。本開示は、本開示の任意の変形、用途又は適応性の変更を含み、これらの変形、用途又は適応性の変更は、本開示の一般的な原理に従うと共に、本開示に開示されない当技術分野における公知な常識又はで慣用の技術手段を含む。明細書及び実施例は、例示的なものに過ぎず、本開示の真の範囲及び精神は、特許請求の範囲によって示される。

【0124】

本開示が提供する解決手段は、話者の録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。さらに、合成対象の話者録音を話者識別モデルに入力することにより、話者識別モデルの中間隠れ層が出力した話者情報を取得し、及び合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得し、少量のコーパスだけでユーザのカスタム音色をトレーニングすることができ、且つ合成ボイスのリズム及びピッチを調整することにより歌声合成の効果を達成し、カスタム音色歌声の合成過程に必要な時間及びトレーニングコーパスを減少させ、カスタム音色歌声の合成効率を向上させる。

【図1】