IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京沃東天駿信息技術有限公司の特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

特表2023-541182カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体
<>
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図1
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図2
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図3
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図4
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図5
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図6
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図7
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図8
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図9
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図10
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図11
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図12
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図13
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図14
  • 特表-カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-28
(54)【発明の名称】カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G10L 13/00 20060101AFI20230921BHJP
   G10L 25/30 20130101ALI20230921BHJP
   G10L 25/18 20130101ALI20230921BHJP
   G10L 13/10 20130101ALI20230921BHJP
【FI】
G10L13/00 100Y
G10L25/30
G10L25/18
G10L13/10 113Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023516595
(86)(22)【出願日】2021-12-23
(85)【翻訳文提出日】2023-03-13
(86)【国際出願番号】 CN2021140858
(87)【国際公開番号】W WO2022156479
(87)【国際公開日】2022-07-28
(31)【優先権主張番号】202110076168.0
(32)【優先日】2021-01-20
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522442928
【氏名又は名称】北京沃東天駿信息技術有限公司
【氏名又は名称原語表記】BEIJING WODONG TIANJUN INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】ROOM A402, 4/F, NO. 2 BUILDING, NO.18 KECHUANG 11TH STREET, ECONOMIC AND TECHNOLOGICAL DEVELOPMENT ZONE, BEIJING 100176, PEOPLE’S REPUBLIC OF CHINA
(71)【出願人】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】張 政 臣
(72)【発明者】
【氏名】呉 俊 儀
(72)【発明者】
【氏名】蔡 玉 玉
(72)【発明者】
【氏名】袁 ▲シン▼
(72)【発明者】
【氏名】宋 偉
(72)【発明者】
【氏名】何 暁 冬
(57)【要約】
本開示はカスタム音色歌声の合成方法、装置、電子機器及び記憶媒体を提供し、音声合成技術分野に関する。ここで、カスタム音色歌声の合成方法は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであるステップと、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得するステップと、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得するステップと、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、合成されたカスタム音色歌声を取得するステップと、を含む。本開示の技術的解決手段により、カスタム音色歌声合成の効率及び効果を向上させ、カスタム音色歌声合成のモデルトレーニング時間及び応答時間を短縮する。
【特許請求の範囲】
【請求項1】
カスタム音色歌声の合成方法であって、
話者録音サンプルによって第一ニューラルネットワークをトレーニングし、それにより話者識別モデルを取得し、前記第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであるステップと、
歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップと、
合成対象の話者録音を前記話者識別モデルに入力し、前記話者識別モデルの中間隠れ層が出力した話者情報を取得するステップと、
合成対象のアカペラ音楽情報及び前記話者情報を前記アカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップと、を含む
ことを特徴とするカスタム音色歌声の合成方法。
【請求項2】
話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得するステップは、
前記話者録音サンプルをテスト録音サンプル及び登録録音サンプルに分け、且つ前記第一ニューラルネットワークに入力するステップと、
前記登録録音サンプルは前記第一ニューラルネットワークによって登録録音特徴を出力し、前記登録録音特徴に対して平均プーリング処理を行い、それにより登録録音ベクトルを取得するステップと、
前記テスト録音サンプルは前記第一ニューラルネットワークを介してテスト録音ベクトルを出力するステップと、
前記登録録音ベクトル及び前記テスト録音ベクトルに対してコサイン類似度計算を行い、コサイン類似度の結果を取得するステップと、
前記コサイン類似度結果及び回帰関数によって前記第一ニューラルネットワークに対してパラメータ最適化を行い、前記回帰関数の損失値が最小になるまで行うステップと、
パラメータが最適化された前記第一ニューラルネットワークを前記話者識別モデルとして確定するステップと、を含む
ことを特徴とする請求項1に記載のカスタム音色歌声の合成方法。
【請求項3】
前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、
前記歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、
前記話者ベクトルサンプル、前記楽譜サンプル、前記歌詞サンプル及び前記音素時間長サンプルによって前記持続時間モデルをトレーニングし、前記持続時間モデルの出力結果は時間長予測サンプルであるステップと、を含む
ことを特徴とする請求項1に記載のカスタム音色歌声の合成方法。
【請求項4】
前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、
前記歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、
前記歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、
前記話者ベクトルサンプル、前記音素時間長サンプル、前記楽譜サンプル、前記歌詞サンプル及び前記メルスペクトログラムサンプルによって前記音響学モデルをトレーニングし、前記音響学モデルの出力結果はメルスペクトログラム予測サンプルであるステップと、を含む
ことを特徴とする請求項1に記載のカスタム音色歌声の合成方法。
【請求項5】
前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、
前記歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、
前記メルスペクトログラムサンプルによって前記ボコーダモデルをトレーニングし、前記ボコーダモデルの出力結果はオーディオ予測サンプルであるステップと、を含む
ことを特徴とする請求項1に記載のカスタム音色歌声の合成方法。
【請求項6】
前記アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、合成対象のアカペラ音楽情報及び前記話者情報を前記アカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップは、
前記アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップと、
前記話者情報、前記合成対象の楽譜及び前記合成対象の歌詞を前記持続時間モデルに入力し、前記持続時間モデルの出力結果は合成対象の時間長予測結果であるステップと、
前記時間長予測結果、前記話者情報、前記合成対象の楽譜及び前記合成対象の歌詞を前記音響学モデルに入力し、前記音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップと、
前記メルスペクトログラム予測結果を前記ボコーダモデルに入力し、前記ボコーダモデルの出力結果は前記合成されたカスタム音色歌声であるステップと、を含む
ことを特徴とする請求項1~5のいずれか一項に記載のカスタム音色歌声の合成方法。
【請求項7】
前記アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップは、
前記アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行い、それにより前記合成対象の楽譜及び前記合成対象の歌詞を取得するステップを含む
ことを特徴とする請求項6に記載のカスタム音色歌声の合成方法。
【請求項8】
前記時間長予測結果、前記話者情報、前記合成対象の楽譜及び前記合成対象の歌詞を前記音響学モデルに入力し、前記音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップは、
前記時間長予測結果、前記合成対象の楽譜及び前記合成対象の歌詞に対してフレームレベル拡張を行うステップと、
前記フレームレベル拡張の結果及び前記話者情報を前記音響学モデルに入力し、前記音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップと、を含む
ことを特徴とする請求項6に記載のカスタム音色歌声の合成方法。
【請求項9】
カスタム音色歌声の合成装置であって、
話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することに用いられ、前記第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである第一トレーニングモジュールと、
歌声アカペラサンプル及び前記話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得することに用いられる第二トレーニングモジュールと、
合成対象の話者録音を前記話者識別モデルに入力し、前記話者識別モデルの中間隠れ層が出力した話者情報を取得することに用いられる識別モジュールと、
合成対象のアカペラ音楽情報及び前記話者情報を前記アカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得することに用いられる合成モジュールと、を含む
ことを特徴とするカスタム音色歌声の合成装置。
【請求項10】
電子機器であって、
プロセッサと、
前記プロセッサの実行可能命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能命令を実行することによって、請求項1~8のいずれか一項に記載のカスタム音色歌声の合成方法を実行するように構成される
ことを特徴とする電子機器。
【請求項11】
コンピュータプログラムが記憶される、コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されるときに請求項1~8のいずれか一項に記載のカスタム音色歌声の合成方法を実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、2021年1月20日に出願され、出願番号が202110076168.0であって、発明名称が「カスタム音色歌声の合成方法、装置、電子機器及び記憶媒体」である中国特許出願に基づいての優先権を主張し、当該中国特許出願のすべての内容を本願に援用する。
【0002】
本開示は音声合成技術分野に関し、特にカスタム音色歌声の合成方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0003】
人工知能業界の高速発展に伴い、インテリジェントな音声合成技術はすでに複数の分野に浸透し、スマートホーム、ボイスナビゲーション、インテリジェントな顧客サービス等の業務に応用されており、且つ人工知能合成のボイス擬人化が高く、人工を代替する基準に達することができる。ユーザの音色の多様なニーズを満たすために、従来の音色カスタマイズ機能も日増しに成熟し、ユーザの少量のコーパスオーディオによって該ユーザのユニーク音色をトレーニングすることができる。同時に、バーチャルアイドルの知名度が日増しに向上することに伴い、歌声合成も音声合成技術の主な発展方向の一つとなっている。従来の歌声合成技術、例えばバーチャルアイドルが頼りにしている「VOCALOID」シンセサイザーは、主に人間のボイスデータによってコーパスを構築し、次にユーザが提供した歌詞に対して単語カットを行い、さらにコーパスから対応するコーパスを呼び出し、最後にユーザが提供した楽譜に応じて合成ボイスのリズム及びピッチを調整して歌声を合成する。
【0004】
従来技術では、歌声合成技術によるコーパスの構築にはユーザの長時間のボイスデータが必要であり、また、コーパスを呼び出してボイスを生成する過程には多くの時間がかかるため、歌声合成の効率が低い。また、コーパスはボリュームが大きいという特性を有するため、ユーザの音色カスタマイズに対するニーズは、コーパス全体を置き換えることによってのみ達成することができ、その過程は煩雑で時間がかかる。
【0005】
なお、上述の背景技術の部分に開示されている情報は、本開示の背景に対する理解を深めるためのものに過ぎないため、当業者に知られている従来技術を構成しない情報を含むことができる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示の目的はカスタム音色歌声の合成方法、装置、電子機器及び記憶媒体を提供し、関連技術におけるカスタム音色歌声の合成効率が低いという問題を少なくともある程度克服する。
【0007】
本開示の他の特徴及び利点は、以下の詳細な説明から明らかになるか、または本開示の実施によって部分的に習得される。
【課題を解決するための手段】
【0008】
本開示の一態様によれば、カスタム音色歌声の合成方法を提供し、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであるステップと、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップと、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得するステップと、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップとを含む。
【0009】
本開示の一実施例において、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得するステップは、話者録音サンプルをテスト録音サンプル及び登録録音サンプルに分け、且つ第一ニューラルネットワークに入力するステップと、登録録音サンプルは第一ニューラルネットワークによって登録録音特徴を出力し、登録録音特徴に対して平均プーリング処理を行い、それにより登録録音ベクトルを取得するステップと、テスト録音サンプルは第一ニューラルネットワークを介してテスト録音ベクトルを出力するステップと、登録録音ベクトル及びテスト録音ベクトルに対してコサイン類似度計算を行い、コサイン類似度の結果を取得するステップと、コサイン類似度結果及び回帰関数によって第一ニューラルネットワークに対してパラメータ最適化を行い、回帰関数の損失値が最小になるまで行うステップと、パラメータが最適化された第一ニューラルネットワークを話者識別モデルとして確定するステップとを含む。
【0010】
本開示の一実施例において、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、話者ベクトルサンプル、楽譜サンプル、歌詞サンプル及び音素時間長サンプルによって持続時間モデルをトレーニングし、持続時間モデルの出力結果は時間長予測サンプルであるステップとを含む。
【0011】
本開示の一実施例において、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析するステップと、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、話者ベクトルサンプル、音素時間長サンプル、楽譜サンプル、歌詞サンプル及びメルスペクトログラムサンプルによって音響モデルをトレーニングし、音響学モデルの出力結果はメルスペクトログラム予測サンプルであるステップとを含む。
【0012】
本開示の一実施例において、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出するステップと、メルスペクトログラムサンプルによってボコーダモデルをトレーニングし、ボコーダモデルの出力結果はオーディオ予測サンプルであるステップとを含む。
【0013】
本開示の一実施例において、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップは、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップと、話者情報、合成対象の楽譜及び合成対象の歌詞を持続時間モデルに入力し、持続時間モデルの出力結果は合成対象の時間長予測結果であるステップと、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップと、メルスペクトログラム予測結果をボコーダモデルに入力し、ボコーダモデルの出力結果は合成されたカスタム音色歌声であるステップとを含む。
【0014】
本開示の一実施例において、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップは、アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行い、それにより合成対象の楽譜及び合成対象の歌詞を取得するステップを含む。
【0015】
本開示の一実施例において、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップは、時間長予測結果、合成対象の楽譜及び合成対象の歌詞に対してフレームレベル拡張を行うステップと、フレームレベル拡張の結果及び話者情報を音響モデルに入力し、音響モデルの出力結果が合成対象のメルスペクトログラム予測結果であるステップとを含む。
【0016】
本開示の別の態様によれば、カスタム音色歌声の合成装置を提供し、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することに用いられ、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである第一トレーニングモジュールと、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得することに用いられる第二トレーニングモジュールと、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得することに用いられる識別モジュールと、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得することに用いられる合成モジュールとを含む。
【0017】
本開示のさらに別の態様によれば、電子機器を提供し、プロセッサと、プロセッサの実行可能命令を記憶するためのメモリとを含み、プロセッサは、実行可能命令を実行することによって、上述のいずれかのカスタム音色歌声の合成方法を実行するように構成される。
【0018】
本開示のさらに別の態様によれば、コンピュータプログラムが記憶される、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムは、プロセッサによって実行されるときに上述のいずれかのカスタム音色歌声の合成方法を実現する。
【0019】
本開示の実施例が提供するカスタム音色歌声の合成方法は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。
【0020】
さらに、合成対象の話者録音を話者識別モデルに入力することにより、話者識別モデルの中間隠れ層が出力した話者情報を取得し、及び合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得し、少量のコーパスだけでユーザのカスタム音色をトレーニングすることができ、且つ合成ボイスのリズム及びピッチを調整することにより歌声合成の効果を達成し、カスタム音色歌声の合成過程に必要な時間及びトレーニングコーパスを減少させ、カスタム音色歌声の合成効率を向上させる。
【0021】
なお、前記一般的な記載及び後述の詳細な記載は、単なる例示的で解釈的な記載であり、本開示を限定しない。
【0022】
以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本開示に該当する実施例を例示し、明細書とともに本開示の原理を解釈する。なお、以下の記載における図面はただ本発明の一部の実施例に過ぎず、当業者の場合、創造的な労働を付与しない前提で、これらの図面によって他の図面を得ることができる。
【図面の簡単な説明】
【0023】
図1図1は本開示の実施例におけるカスタム音色歌声の合成方法の模式図を示す;
図2図2は本開示の実施例における別のカスタム音色歌声の合成方法のフローチャートを示す;
図3図3は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図4図4は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図5図5は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図6図6は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図7図7は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図8図8は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図9図9は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図10図10は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図11図11は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図12図12は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図13図13は本開示の実施例におけるさらに別のカスタム音色歌声の合成方法のフローチャートを示す;
図14図14は本開示の実施例におけるカスタム音色歌声の合成装置の模式図を示す;
図15図15は本開示の実施例における電子機器の模式図を示す。
【発明を実施するための形態】
【0024】
次に、図面を参照しながら、例示的な実施形態をより全面的に説明する。ただし、例示的な実施形態は複数種類の形態で実施することができ、ここに記述する実施例に限定されない。逆に、これらの実施形態を提供して、本開示を全面で完全に、かつ、例示的な実施形態の思想を全面で当業者に伝達する。なお、説明される特徴、構成又は特性は、任意の適切な方式で一つ又は複数の実施形態に組み合わせることができる。
【0025】
なお、図面は本開示の模式的な図示に過ぎず、必ずしも縮尺通りに描かれてはいない。図面における同じ図面符号は、同じ又は類似する要素を示すため、それらの重複する記述が省略される。図面に示すいくつかのブロック図は機能的エンティティであり、必ずしも物理的又は論理的に独立するエンティティに対応する必要はない。これらの機能的エンティティは、ソフトウェア形式で実現され、又は、1つ又は複数のハードウェアモジュール或いは集積回路で実現され、又は、異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置で実現される。
【0026】
本開示が提供する解決手段は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。
【0027】
さらに、合成対象の話者録音を話者識別モデルに入力することにより、話者識別モデルの中間隠れ層が出力した話者情報を取得し、及び合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得し、少量のコーパスだけでユーザのカスタム音色をトレーニングすることができ、且つ合成ボイスのリズム及びピッチを調整することにより歌声合成の効果を達成し、カスタム音色歌声の合成過程に必要な時間及びトレーニングコーパスを減少させ、カスタム音色歌声の合成効率を向上させる。
【0028】
上述カスタム音色歌声の合成方法は、複数の端末とサーバクラスタとの相互作用によって実現することができる。
【0029】
端末は携帯電話、ゲームホスト、タブレットコンピュータ、電子書籍リーダ、スマートメガネ、MP4(Moving Picture Experts Group Audio Layer IV、動画専門家圧縮標準オーディオレイヤ4)プレーヤ、スマートホーム装置、AR(Augmented Reality、拡張現実)装置、VR(Virtual Reality、仮想現実)装置等の移動端末であってもよく、または、端末はパーソナルコンピュータ(Personal Computer、PC)であってもよく、例えばラップトップ型携帯コンピュータ及びデスクトップ型コンピュータ等である。
【0030】
端末には、カスタム音色歌声の合成を提供するためのアプリケーションプログラムがインストールされていてもよい。
【0031】
端末とサーバクラスタとの間は通信ネットワークを介して接続される。任意選択で、通信ネットワークは有線ネットワークまたは無線ネットワークである。
【0032】
サーバクラスタは1台のサーバであり、又は複数台のサーバで構成され、又は1つの仮想プラットフォームであり、又は1つのクラウドコンピューティングサービスセンターである。サーバクラスタはカスタム音色歌声の合成を提供するアプリケーションプログラムにバックグラウンドサービスを提供することに用いられる。任意選択的に、サーバクラスタは主な計算作業を担当し、端末は副な計算作業を担当する;あるいは、サーバクラスタは副な計算作業を担当し、端末は主な計算作業を担当する;あるいは、端末とサーバクラスタとの間は分散式計算アーキテクチャを用いて協同計算を行う。
【0033】
任意選択的に、異なる端末にインストールされたアプリケーションプログラムのクライアントは同じであり、又は二つの端末にインストールされたアプリケーションプログラムのクライアントは異なる制御システムプラットフォームの同じタイプのアプリケーションプログラムのクライアントである。端末プラットフォームの違いに基づき、該アプリケーションプログラムのクライアントの具体的な形態も異なってもよく、例えば、該アプリケーションプログラムのクライアントは携帯電話クライアント、PCクライアント又はグローバル広域ネットワークのクライアント等であってもよい。
【0034】
当業者であれば、上述端末の数はより多くてもよく又はより少なくてもよいことを理解することができる。例えば上述端末は一つだけであってもよく、又は上述端末は数十個又は数百個であってもよく、又はより多くてもよい。本開示の実施例は端末の数及び装置タイプを限定しない。
【0035】
任意選択で、システムは、管理デバイスをさらに含むことができ、管理デバイスは、通信ネットワークを介してサーバクラスタに接続される。任意選択で、通信ネットワークは、有線ネットワークまたは無線ネットワークである。
【0036】
任意選択で、無線ネットワークまたは有線ネットワークは、標準的な通信技術及び/またはプロトコルを使用する。ネットワークは、通常、インターネットであるが、ローカルエリアネットワーク(Local Area Network,LAN)、メトロポリタンエリアネットワーク(Metropolitan Area Network,MAN)、ワイドエリアネットワーク(Wide Area Network,WAN)、モバイル、有線もしくは無線ネットワーク、プライベートネットワーク、または仮想プライベートネットワークの任意の組合せを含むがこれらに限定されない任意のネットワークであってもよい。いくつかの実施例において、ネットワークを介して交換されるデータは、ハイパーテキストマークアップ言語(Hyper Text Mark-up Language,HTML)、拡張可能マークアップ言語(Extensible MarkupLanguage,XML)などを含む技術及び/またはフォーマットを使用して表される。また、リンクの全部または一部はセキュアソケットレイヤ(Secure Socket Layer,SSL)、トランスポートレイヤセキュリティ(Transport Layer Security,TLS)、仮想プライベートネットワーク(Virtual Private Network,VPN)、インターネットプロトコルセキュリティ(Internet Protocol Security,IPsec)などの従来の暗号化技術を使用して暗号化されてもよい。他の実施例において、上述のデータ通信技術の代わりに、またはそれに加えて、カスタム及び/または専用データ通信技術を使用することができる。
【0037】
以下では、図面及び実施例を参照しながら本例示的な実施形態におけるカスタム音色歌声の合成方法の各ステップをより詳細に説明する。
【0038】
図1は本開示の実施例におけるカスタム音色歌声の合成方法のフローチャートを示す。本開示の実施例が提供する方法は任意の計算処理能力を有する電子機器によって実行することができる。
【0039】
図1に示すように、電子機器がカスタム音色歌声の合成方法を実行し、以下のステップを含む:
ステップS102、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである。
【0040】
ステップS104、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得する。
【0041】
ステップS106、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得する。
【0042】
ステップS108、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得する。
【0043】
本開示の一実施例において、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。
【0044】
さらに、合成対象の話者録音を話者識別モデルに入力することにより、話者識別モデルの中間隠れ層が出力した話者情報を取得し、及び合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得し、少量のコーパスだけでユーザのカスタム音色をトレーニングすることができ、且つ合成ボイスのリズム及びピッチを調整することにより歌声合成の効果を達成し、カスタム音色歌声の合成過程に必要な時間及びトレーニングコーパスを減少させ、カスタム音色歌声の合成効率を向上させる。
【0045】
図1に示すステップに基づき、図2に示すように、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することは以下を含む:
ステップS2022、話者録音サンプルをテスト録音サンプル及び登録録音サンプルに分け、且つ第一ニューラルネットワークに入力する。
【0046】
ステップS2024、登録録音サンプルは第一ニューラルネットワークによって登録録音特徴を出力し、登録録音特徴に対して平均プーリング処理を行い、それにより登録録音ベクトルを取得する。
【0047】
本開示の一実施例において、平均プーリング処理の順方向伝播は1つのブロックにおける値を平均してプーリングすることであり、逆方向伝播の過程は1つの要素の勾配などをn部に等分して前の層に割り当てることであり、このようにプーリング前後の勾配(残差)の和が不変であることを保証し、平均プーリング処理は近傍領域の大きさが制限されることによる推定値の分散の誤差を減少させ、特徴情報をより多く保持することができる。
【0048】
ステップS2026、テスト録音サンプルは第一ニューラルネットワークを介してテスト録音ベクトルを出力する。
【0049】
ステップS2028、登録録音ベクトル及びテスト録音ベクトルに対してコサイン類似度計算を行い、コサイン類似度の結果を取得する。
【0050】
ステップS2030、コサイン類似度結果及び回帰関数によって第一ニューラルネットワークに対してパラメータ最適化を行い、回帰関数の損失値が最小になるまで行う。
【0051】
ステップS2032、パラメータが最適化された第一ニューラルネットワークを話者識別モデルとして確定する。
【0052】
本開示の一実施例において、コサイン類似度結果及び回帰関数によって第一ニューラルネットワークに対してパラメータ最適化を行い、回帰関数の損失値が最小になるまで行い、それにより話者を識別することができる話者識別モデルを取得し、数秒の話者録音だけで識別を完了することができる。
【0053】
図1に示すステップに基づき、図3に示すように、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは以下を含む:
ステップS3042、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析する。
【0054】
ステップS3044、話者ベクトルサンプル、楽譜サンプル、歌詞サンプル及び音素時間長サンプルによって持続時間モデルをトレーニングし、持続時間モデルの出力結果は時間長予測サンプルである。
【0055】
本開示の一実施例において、話者ベクトルサンプル、楽譜サンプル、歌詞サンプル及び音素時間長サンプルによって持続時間モデルをトレーニングし、持続時間モデルの出力結果は時間長予測サンプルであり、それにより合成後のアカペラ歌曲の時間長予測結果を実現し、時間長予測結果は音響学モデルの1つの入力量とする。
【0056】
図1に示すステップに基づき、図4に示すように、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは以下を含む:
ステップS4042、歌声アカペラサンプルにおける楽譜サンプル、歌詞サンプル及び音素時間長サンプルを解析する。
【0057】
ステップS4044、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出する。
【0058】
ステップS4046、話者ベクトルサンプル、音素時間長サンプル、楽譜サンプル、歌詞サンプル及びメルスペクトログラムサンプルによって音響学モデルをトレーニングし、音響学モデルの出力結果はメルスペクトログラム予測サンプルである。
【0059】
本開示の一実施例において、話者ベクトルサンプル、音素時間長サンプル、楽譜サンプル、歌詞サンプル及びメルスペクトログラムサンプルによって音響学モデルをトレーニングし、音響学モデルの出力結果はメルスペクトログラム予測サンプルであり、それにより適切な大きさの音声特徴を得て、メルスペクトログラムによって人の耳の様々な頻度の音声に対する知覚力をシミュレーションし、即ちメルスペクトログラムによって低頻度部分を強化し、高頻度部分を弱化し、さらにアカペラ合成歌声をより自然人の歌声に近づける。
【0060】
図1に示すステップに基づき、図5に示すように、アカペラ合成モデルは持続時間モデル、音響学モデル及びボコーダモデルを含み、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、それによりアカペラ合成モデルを取得するステップは以下を含む:
ステップS5042、歌声アカペラサンプルにおける歌曲に基づいてメルスペクトログラムサンプルを抽出する。
【0061】
ステップS5044、メルスペクトログラムサンプルによってボコーダモデルをトレーニングし、ボコーダモデルの出力結果はオーディオ予測サンプルである。
【0062】
本開示の一実施形態において、メルスペクトログラムサンプルによってボコーダモデルをトレーニングし、ボコーダモデルの出力結果はオーディオ予測サンプルであり、それにより話者音色に適合するオーディオ予測サンプルを取得する。
【0063】
図1及び図3に示すステップに基づき、図6に示すように、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得するステップは以下を含む:
ステップS6082、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析する。
【0064】
ステップS6084、話者情報、合成対象の楽譜及び合成対象の歌詞を持続時間モデルに入力し、持続時間モデルの出力結果は合成対象の時間長予測結果である。
【0065】
ステップS6086、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果である。
【0066】
ステップS6088、メルスペクトログラム予測結果をボコーダモデルに入力し、ボコーダモデルの出力結果は合成されたカスタム音色歌声である。
【0067】
本開示の一実施形態において、カスタム音色歌声の合成過程において、話者識別モデルによって話者を確定し、続いて持続時間モデル、音響学モデル、及びボコーダモデルを順次によって、話者、合成対象の楽譜、及び合成対象の歌詞に基づいて、話者の音色に適合するカスタム音色歌声を得る。
【0068】
図1及び図3に示すステップに基づき、図7に示すように、アカペラ音楽情報における合成対象の楽譜及び合成対象の歌詞を解析するステップは以下を含む:
ステップS7082、アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行い、それにより合成対象の楽譜及び合成対象の歌詞を取得する。
【0069】
本開示の一実施形態において、アカペラ音楽情報における楽譜及び歌詞に対してテキスト分析及び特徴抽出を行うことにより、合成対象の楽譜及び合成対象の歌詞を取得し、合成対象の歌詞は話者の発音特徴により適合し、合成対象の楽譜は話者のアカペラ音色により適合する。
【0070】
図1及び図3に示すステップに基づき、図8に示すように、時間長予測結果、話者情報、合成対象の楽譜及び合成対象の歌詞を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果であるステップは以下を含む:
ステップS8082、時間長予測結果、合成対象の楽譜及び合成対象の歌詞に対してフレームレベル拡張を行う。
【0071】
ステップS8084、フレームレベル拡張の結果及び話者情報を音響学モデルに入力し、音響学モデルの出力結果は合成対象のメルスペクトログラム予測結果である。
【0072】
次に、図9を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図9に示されるカスタム音色歌声の合成方法のトレーニング段階900は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0073】
図9に示すように、カスタム音色歌声の合成方法のトレーニング段階900は以下を含む:識別データを話者識別モデルに入力してトレーニングする;話者識別モデルを話者情報として出力する;アカペラデータ及び話者情報をアカペラ合成モデルに入力してトレーニングする。
【0074】
次に、図10を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図10に示されるカスタム音色歌声の合成方法の合成段階1000は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0075】
図10に示すように、カスタム音色歌声の合成方法の合成段階1000は以下を含む:テキスト録音データを話者識別モデルに入力し、話者情報を取得する;話者情報、楽譜及び歌詞をアカペラ合成モデルに入力し、アカペラ歌声を取得する。
【0076】
次に、図11を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図11に示されるカスタム音色歌声の合成方法の話者識別モデル1100は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0077】
図11に示すように、カスタム音色歌声の合成方法の話者識別モデル1100の実行段階は以下を含む:
(1)テスト録音、登録録音1、……登録録音NをLSTMに入力し、Nは1より大きい整数であり、ここで、LSTM(Long Short-Term Memory)は長短期記憶ネットワークであり、時間再帰型ニューラルネットワークであり、時系列における間隔及び遅延が比較的長い重要なイベントの処理及び予測に適する。テスト録音をLSTMで処理した後に話者ベクトル1を出力し、登録録音をLSTMで処理した後のベクトルに対して平均プーリング処理を行い、話者ベクトル2を得る。
【0078】
(2)話者ベクトル1と話者ベクトル2に対してコサイン類似度計算を行い、且つ採点関数の計算を行う。
【0079】
(3)ロジスティック回帰処理によって採点関数の結果が受信又は拒否であることを確定する。
【0080】
次に、図12を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図12に示すカスタム音色歌声の合成方法のアカペラ合成モデル1200は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0081】
図12に示すように、カスタム音色歌声の合成方法のアカペラ合成モデル1200は音素時間長モデル1202、音響学モデル1204及びボコーダモデル1206を含み、各モジュールのトレーニング過程は以下のように独立して実行することができる:
(1)話者ベクトル、楽譜及び歌詞、音素時間長を音素時間長モデル1202に入力してトレーニングする。
【0082】
(2)話者ベクトル、楽譜及び歌詞、音素時間長、及びメルスペクトログラムを音響学モデル1204に入力してトレーニングする。
【0083】
(3)メルスペクトログラム及び歌曲をボコーダモデル1206に入力してトレーニングする。
【0084】
具体的には、カスタム音色歌声の合成方法は話者識別モデル及びアカペラ合成モデルを含み、アカペラ合成モデルはトレーニング過程及び推論過程を含み、アカペラ合成モデルは音素時間長モデル、音響学モデル及びニューラルネットワークボコーダモデルを含む。
【0085】
例えば、音素時間長モデルは三層の完全接続層で構成されるDNN(Deep Neural Networks、ディープニューラルネットワーク)モデルであってもよく、入力は楽譜及び歌詞であり、出力は音素時間長である。予測する時、我々は楽譜しか知らない。
【0086】
例えば、話者ベクトルは、トレーニング時に音素時間長モデルにも追加され、異なる話者に基づいて異なる音素時間長モデルを得ることに用いられる。
【0087】
例えば、音響学モデルへの入力は楽譜及び音素時間長であり、出力はメルスペクトログラムであり、話者ベクトルも音響学モデルに入力される。
【0088】
例えば、ボコーダモデルの入力はメルスペクトログラムであり、出力はオーディオである。音響学モデルの1つの可能な実現方法は、3層LSTMからなるディープニューラルネットワークモデルであるが、アテンション機構を有する複雑なモデルであってもよい。
【0089】
例えば、ボコーダモデルは、LPCNet(Improving Neural Speech Synthesis Through Linear Prediction、音声合成線形予測によるニューラルシステムの改善)ボコーダを採用してもよい。
【0090】
例えば、推論過程において、楽譜及び歌詞、ならびに歌手の話者ベクトルが知られており、次いで、トレーニング過程において得られた音素時間長モデル、音響学モデル、及びボコーダモデルを用いて、合成された歌曲を出力することができる。
【0091】
例えば、トレーニング及び推論の過程において、いずれも楽譜及び歌詞から、テキスト分析を行い、音素、単語分割等の特徴を抽出し、次に音素時間長の予測又は音素時間長モデルのトレーニングを行う必要がある。
【0092】
次に、図13を参照して、本開示の実施形態によるカスタム音色歌声の合成方法の模式図について説明する。図13に示すカスタム音色歌声の合成方法は、一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0093】
図13に示すように、カスタム音色歌声の合成方法の実行ステップは以下を含む:
ステップS1302、合成対象の話者ベクトルを入力する。
【0094】
ステップS1304、楽譜及び歌詞を取得する。
ステップS1306、テキスト分析する。
【0095】
ステップS1308、特徴を抽出する。
ステップS1310、音素時間長を予測する。
【0096】
ステップS1312、フレームレベル拡張する。
ステップS1314、メルスペクトログラムを予測する。
【0097】
ステップS1316、歌曲を合成する。
ここで、話者ベクトルは話者の音響学特徴に基づき、ディープニューラルネットワークを使用して抽出される。話者情報により、合成されたアカペラ音声の音色を制御することができる。本開示は1つのアカペラ合成モデルをトレーニングし、該アカペラ合成モデルは1つの話者が録音した大量の朗読及びアカペラ歌声データセットをトレーニングして得られる。一人の新しい話者がアカペラの歌声を合成する必要がある時、該話者の少量の朗読コーパスのみを録音し、該話者の話者ベクトルを抽出し、次に該アカペラ合成モデルに入力し、楽譜及び歌詞を結合し、該アカペラ合成モデルの推論過程により、該話者のアカペラの音声を生成し、即ち合成歌声をカスタマイズする。
【0098】
例えば、複数の音色、複数の歌声を含むアカペラデータセットを構築し、楽譜及び歌詞が与えられたアカペラ音声を合成できるベースモデルをトレーニングすることに用いられ、また、データセットはさらに一部の歌手の指定テキストの録音データを含む必要がある。
【0099】
例えば、テキストに関連する話者識別モデルをトレーニングし、モデルの中間隠れ層の結果を取り、話者ベクトルとして定義する。
【0100】
例えば、歌手の指定テキストの録音を話者識別モデルに送信し、話者ベクトルを得て、次にこの話者ベクトルをアカペラ歌声モデルの一部とし、大量の複数の音色、複数の歌声アカペラデータセットにより、アカペラ合成モデルをトレーニングし、アカペラ合成モデルには歌手の身元情報を含む。
【0101】
次に、図14を参照して、本開示の実施形態に係るカスタム音色歌声の合成装置1400について説明する。図14に示すカスタム音色歌声の合成装置1400は一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0102】
図14に示すように、カスタム音色歌声の合成装置1400は、ハードウェアモジュールの形態で表現される。カスタム音色歌声の合成装置1400の構成要素は、第一トレーニングモジュール1402と、第二トレーニングモジュール1404と、識別モジュール1406と、合成モジュール1408とを含んでもよいが、これらに限定されない。
【0103】
第一トレーニングモジュール1402は、話者録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得することに用いられ、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルである。
【0104】
第二トレーニングモジュール1404は、歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得することに用いられる。
【0105】
識別モジュール1406は、合成対象の話者録音を話者識別モデルに入力し、話者識別モデルの中間隠れ層が出力した話者情報を取得することに用いられる。
【0106】
合成モジュール1408は、合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、合成されたカスタム音色歌声を取得することに用いられる。
【0107】
次に、図15を参照して、本開示の実施形態による電子機器1500について説明する。図15に示す電子機器1500は一例に過ぎず、本開示の実施例の機能及び使用範囲を限定するものではない。
【0108】
図15に示すように、電子機器1500は、一般的な計算機器の形態で表現される。電子機器1500の構成要素は、上述の少なくとも1つの処理ユニット1510と、上述の少なくとも1つの記憶ユニット1520と、異なるシステム構成要素を接続する(記憶ユニット1520及び処理ユニット1510を含む)バス1530とを含んでもよいが、これらに限定されない。
【0109】
ここで、記憶ユニットはプログラムコードを記憶し、プログラムコードは、処理ユニット1510によって実行され、処理ユニット1510に、本明細書の上述の「例示的な方法」で説明した本開示の様々な例示的な実施形態によるステップを実行させることができる。例えば、処理ユニット1510は、本開示のカスタム音色歌声の合成方法で定義されたステップを行うことができる。
【0110】
記憶ユニット1520は、ランダムアクセス記憶ユニット(RAM)15201及び/またはキャッシュ記憶ユニット15202などの揮発性記憶ユニットの形態の読み取り可能な媒体を含んでもよく、読取り専用記憶ユニット(ROM)15203をさらに含んでもよい。
【0111】
記憶ユニット1520はまた、1組(少なくとも1つ)のプログラムモジュール15205を有するプログラム/ユーティリティ15204を含んでもよく、このようなプログラムモジュール15205は、オペレーティングシステム、1つまたは複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むが、これらに限定されなく、これらの例のそれぞれまたはいくつかの組合せは、ネットワーク環境の実装を含むことができる。
【0112】
バス1530は、くつかのタイプのバス構造のうちの1つまたは複数を表すことができ、記憶ユニットバスまたは記憶ユニットコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、処理ユニット、または複数のバス構造のいずれかを使用するローカルバスを含む。
【0113】
電子機器1500はまた、1つまたは複数の外部デバイス1540(たとえば、キーボード、ポインティングデバイス、ブルートゥース(登録商標)デバイスなど)と通信することができ、また、ユーザが当該電子機器と対話することを可能にする1つまたは複数のデバイス、及び/または当該電子機器1500が1つまたは複数の他の計算機器と通信することを可能にする任意のデバイス(例えば、ルータ、モデムなど)と通信することができる。このような通信は、入力/出力(I/O)インターフェース1550を介して行うことができる。また、電子機器1500は、ネットワークアダプタ1560を介して1つまたは複数のネットワーク(たとえば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/またはインターネットなどのパブリックネットワーク)と通信することもでき、ネットワークアダプタ1560は、バス1530を介して電子機器1500の他のモジュールと通信する。なお、図示されていないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RA標識システム、テープドライブ、及びデータバックアップ記憶システムなどを含むがこれらに限定されない他のハードウェア及び/またはソフトウェアモジュールを電子機器と組み合わせて使用することができる。
【0114】
以上の実施形態の説明により、当業者であれば容易に理解できるように、ここで説明した例示的な実施形態はソフトウェアによって実現してもよく、ソフトウェアと必要なハードウェアを組み合わせる方式によって実現してもよい。従って、本開示の実施形態による技術的解決手段はソフトウェア製品の形式で体現することができ、該ソフトウェア製品は1つの不揮発性記憶媒体(CD-ROM、Uディスク、モバイルハードディスク等であってもよい)又はネットワークに記憶することができ、複数のコマンドを含んで1台の計算機器(パーソナルコンピュータ、サーバ、端末装置、又はネットワーク装置等であってもよい)に本開示の実施形態による方法を実行させる。
【0115】
本開示の例示的な実施例において、本明細書における上述の方法を実現することができるプログラム製品が記憶されたコンピュータ読み取り可能な記憶媒体がさらに提供される。いくつかの可能な実施形態において、本開示の様々な態様はまた、プログラムコードを含むプログラム製品の形態で実現されてもよく、前記プログラム製品が端末機器で実行される場合、プログラムコードは、本明細書の上述の「例示的な方法」の部分に説明した本開示の様々な例示的な実施形態のステップを前記端末機器に実行させる。
【0116】
本開示の実施形態による上述の方法を実現するためのプログラム製品は、コンパクトディスク読み取り専用メモリ(CD-ROM)を使用し、プログラムコードを含み、端末機器、例えばパーソナルコンピュータで実行されることができる。しかしながら、本開示のプログラム製品は、これに限定されなく、本願において、読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置又は部品により使用されてもよく、又は、それらに結合して使用されてもよい。
【0117】
コンピュータ読み取り可能な信号媒体は、ベースバンドに含まれ又は搬送波の一部として伝播されるデータ信号を含んでもよく、その中で読み取り可能なプログラムコードを担持する。このような伝播されるデータ信号は、多くの形式を採用してもよく、電磁信号、光信号又は上述の任意の組み合わせを含むが、これらに限定されない。読み取り可能な信号媒体は、読み取り可能な記憶媒体以外の任意の読み取り可能な媒体であってもよく、当該読み取り可能な媒体は、指令実行システム、装置又は部品により使用され又はそれらと組み合わせて使用されるためのプログラムを送信、伝播又は転送することができる。
【0118】
読み取り可能な媒体に含まれるプログラムコードは、任意の適切な媒体により転送されてもよく、無線、有線、光ケーブル、RF等、又は、上述の任意の適切な組み合わせを含むが、これらに限定されない。
【0119】
本開示の動作を実行するためのプログラムコードは、1種又は複数種のプログラム言語の任意の組み合わせで書かれてもよく、プログラム言語は、Java(登録商標)、C++などのオブジェクト指向プログラム言語を含んでもよく、「C」言語又は類似のプログラム言語などの通常の手続型プログラム言語を含んでもよい。プログラムコードは、完全にユーザ計算機器で実行されてもよく、一部がユーザデバイスで実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、一部がユーザ計算機器で実行されてもよく、一部が遠隔計算機器で実行されてもよく、又は、完全に遠隔計算機器又はサーバで実行されてもよい。遠隔計算機器に係る場合、遠隔計算機器は、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザの計算機器に接続されてもよく、又は、外部計算機器(例えば、インターネットサービスプロバイダによりインターネットを介して接続され)に接続されてもよい。
【0120】
上述の詳細な説明では、アクションを実行するための装置のいくつかのモジュールまたはユニットが言及されているが、この分割は必須ではないことに留意されたい。実際、本開示の実施形態によれば、上述した2つ以上のモジュールまたはユニットの特徴および機能は、1つのモジュールまたはユニットにおいて具現化され得る。逆に、上述した1つのモジュールまたはユニットの特徴および機能は、複数のモジュールまたはユニットによって具現化されるようにさらに分割され得る。
【0121】
さらに、本開示における方法の様々なステップは、特定の順序で図面に示されているが、これは、所望の結果を達成するために、ステップが特定の順序で実行されなければならないこと、または示されたステップのすべてが実行されなければならないことを要求または暗示するものではない。追加または代替として、いくつかのステップが省略されてもよく、複数のステップが1つのステップに組み合わされてもよく、及び/または1つのステップが複数のステップに分割されてもよい。
【0122】
以上の実施形態の説明により、当業者であれば容易に理解できるように、ここで説明した例示的な実施形態はソフトウェアによって実現してもよく、ソフトウェアと必要なハードウェアを組み合わせる方式によって実現してもよい。従って、本開示の実施形態による技術的解決手段はソフトウェア製品の形式で体現することができ、該ソフトウェア製品は1つの不揮発性記憶媒体(CD-ROM、Uディスク、モバイルハードディスク等であってもよい)又はネットワークに記憶することができ、複数のコマンドを含んで1台の計算機器(パーソナルコンピュータ、サーバ、モバイル端末、又はネットワーク装置等であってもよい)に本開示の実施形態による方法を実行させる。
【0123】
当業者は、本明細書を考慮し、本明細書に開示された発明を実施した後、本開示の他の実施例を容易に想到できる。本開示は、本開示の任意の変形、用途又は適応性の変更を含み、これらの変形、用途又は適応性の変更は、本開示の一般的な原理に従うと共に、本開示に開示されない当技術分野における公知な常識又はで慣用の技術手段を含む。明細書及び実施例は、例示的なものに過ぎず、本開示の真の範囲及び精神は、特許請求の範囲によって示される。
【0124】
本開示が提供する解決手段は、話者の録音サンプルによって第一ニューラルネットワークをトレーニングし、話者識別モデルを取得し、第一ニューラルネットワークの出力トレーニング結果は話者ベクトルサンプルであり、且つ歌声アカペラサンプル及び話者ベクトルサンプルによって第二ニューラルネットワークをトレーニングし、アカペラ合成モデルを取得し、モデル合成の効率を向上させ、大量の録音データを収集してコーパスを生成する必要がない。さらに、合成対象の話者録音を話者識別モデルに入力することにより、話者識別モデルの中間隠れ層が出力した話者情報を取得し、及び合成対象のアカペラ音楽情報及び話者情報をアカペラ合成モデルに入力し、それにより合成されたカスタム音色歌声を取得し、少量のコーパスだけでユーザのカスタム音色をトレーニングすることができ、且つ合成ボイスのリズム及びピッチを調整することにより歌声合成の効果を達成し、カスタム音色歌声の合成過程に必要な時間及びトレーニングコーパスを減少させ、カスタム音色歌声の合成効率を向上させる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【国際調査報告】