IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2022-153600音声合成方法、装置、電子機器及び記憶媒体
<>
  • 特開-音声合成方法、装置、電子機器及び記憶媒体 図1
  • 特開-音声合成方法、装置、電子機器及び記憶媒体 図2
  • 特開-音声合成方法、装置、電子機器及び記憶媒体 図3
  • 特開-音声合成方法、装置、電子機器及び記憶媒体 図4
  • 特開-音声合成方法、装置、電子機器及び記憶媒体 図5
  • 特開-音声合成方法、装置、電子機器及び記憶媒体 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022153600
(43)【公開日】2022-10-12
(54)【発明の名称】音声合成方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G10L 13/10 20130101AFI20221004BHJP
   G10L 25/30 20130101ALI20221004BHJP
【FI】
G10L13/10 112Z
G10L25/30
【審査請求】有
【請求項の数】23
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022123043
(22)【出願日】2022-08-02
(31)【優先権主張番号】202110949472.1
(32)【優先日】2021-08-18
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ガオ,ヂェンクン
(72)【発明者】
【氏名】ヂャン,ジュントン
(72)【発明者】
【氏名】スン,タオ
(72)【発明者】
【氏名】ジャ,レイ
(57)【要約】      (修正有)
【課題】ターゲット音声のリアルさと自然さを高める音声合成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
【解決手段】方法は、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得し、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出し、第1の音響的特徴と第2の音響的特徴を結合して、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、ターゲット音声を生成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声合成方法であって、
合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得するステップと、
前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出するステップと、
前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップと、
前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップと、を含む、
ことを特徴とする音声合成方法。
【請求項2】
前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップは、
前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得するステップと、
前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得するステップと、
前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出し、前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出するステップと、
前記ターゲット第1の音響的特徴と前記ターゲット第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出するステップは、
前記合成対象のテキストにおける前記差分テキストの第1の開始位置と第1の終了位置を取得するステップと、
前記第1の開始位置から前記第1の終了位置までの間に対応する音響的特徴を前記第1の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第1の音響的特徴とするステップと、を含み、
前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出するステップは、
前記ターゲットテンプレートテキストにおける前記重複テキストの第2の開始位置及び第2の終了位置を取得するステップと、
前記第2の開始位置から前記第2の終了位置までの間に対応する音響的特徴を前記第2の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第2の音響的特徴とするステップと、を含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記ターゲットユーザの音声特徴を取得するステップは、
前記ターゲットユーザの識別情報を取得するステップと、
前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記音声特徴はスタイル特徴と音色特徴を含み、
前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得するステップは、
前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得するステップを含む、
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得するステップは、
前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得するステップと、
前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得するステップと、
前記テキスト特徴と前記スタイル特徴を結合し、第1の結合特徴を取得するステップと、
前記第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第1の音響的特徴を取得するステップと、を含む、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップは、
前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第2の結合特徴を生成するステップと、
前記第2の結合特徴に基づいて前記ターゲット音声を合成するステップと、を含む、
ことを特徴とする請求項5に記載の方法。
【請求項8】
前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力するステップであって、前記ターゲット音声合成モデルが、特徴予測層、第1の特徴抽出層、第2の特徴抽出層、特徴結合層及び音声合成層を含むステップと、
前記特徴予測層が前記合成対象のテキストと前記音声特徴に基づいて、前記第1の音響的特徴を取得するステップと、
前記第1の特徴抽出層が前記ターゲットテンプレートオーディオの前記第2の音響的特徴を抽出するステップと、
前記第2の特徴抽出層が前記合成対象のテキストの前記テキスト特徴を抽出するステップと、
前記特徴結合層が前記第1の音響的特徴、前記第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第2の結合特徴を生成するステップと、
前記音声合成層が前記第2の結合特徴に基づいて前記ターゲット音声を合成するステップと、をさらに含む、
ことを特徴とする請求項7に記載の方法。
【請求項9】
前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得するステップは、
前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得するステップと、
前記合成対象のテキストと前記テンプレートテキストとの類似度を取得するステップと、
類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとするステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む、
ことを特徴とする請求項1に記載の方法。
【請求項11】
音声合成装置であって、
合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得する予測モジュールと、
前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出する抽出モジュールと、
前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成する結合モジュールと、
前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する合成モジュールと、を含む、
ことを特徴とする音声合成装置。
【請求項12】
前記結合モジュールは、
前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する第1の取得ユニットと、
前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する第2の取得ユニットと、
前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出し、前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出する抽出ユニットと、
前記ターゲット第1の音響的特徴と前記ターゲット第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成する結合ユニットと、を含む、
ことを特徴とする請求項11に記載の装置。
【請求項13】
前記抽出ユニットは、さらに、
前記合成対象のテキストにおける前記差分テキストの第1の開始位置と第1の終了位置を取得し、
前記第1の開始位置から前記第1の終了位置までの間に対応する音響的特徴を前記第1の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第1の音響的特徴とし、
前記抽出ユニットは、さらに、
前記ターゲットテンプレートテキストにおける前記重複テキストの第2の開始位置及び第2の終了位置を取得し、
前記第2の開始位置から前記第2の終了位置までの間に対応する音響的特徴を前記第2の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第2の音響的特徴とする、
ことを特徴とする請求項12に記載の装置。
【請求項14】
前記予測モジュールは、さらに、
前記ターゲットユーザの識別情報を取得し、
前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得する、
ことを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項15】
前記音声特徴はスタイル特徴と音色特徴を含み、
前記予測モジュールは、さらに
前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得する、
ことを特徴とする請求項14に記載の装置。
【請求項16】
前記予測モジュールは、さらに、
前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、
前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得し、
前記テキスト特徴と前記スタイル特徴を結合し、第1の結合特徴を取得し、
前記第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第1の音響的特徴を取得する、
ことを特徴とする請求項15に記載の装置。
【請求項17】
前記合成モジュールは、さらに、
前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第2の結合特徴を生成し、
前記第2の結合特徴に基づいて前記ターゲット音声を合成する、
ことを特徴とする請求項15に記載の装置。
【請求項18】
前記装置は、入力モジュールをさらに含み、前記入力モジュールは、
前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力し、前記ターゲット音声合成モデルが、特徴予測層、第1の特徴抽出層、第2の特徴抽出層、特徴結合層及び音声合成層を含み、
前記特徴予測層が前記合成対象のテキストと前記音声特徴に基づいて、前記第1の音響的特徴を取得し、
前記第1の特徴抽出層が前記ターゲットテンプレートオーディオの前記第2の音響的特徴を抽出し、
前記第2の特徴抽出層が前記合成対象のテキストの前記テキスト特徴を抽出し、
前記特徴結合層が前記第1の音響的特徴、前記第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第2の結合特徴を生成し、
前記音声合成層が前記第2の結合特徴に基づいて前記ターゲット音声を合成する、
ことを特徴とする請求項17に記載の装置。
【請求項19】
前記抽出モジュールは、さらに、
前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、
前記合成対象のテキストと前記テンプレートテキストとの類似度を取得し、
類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとする、
ことを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項20】
前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む、
ことを特徴とする請求項11~13のいずれか一項に記載の装置。
【請求項21】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~10のいずれか一項に記載の音声合成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。
【請求項22】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~10のいずれか一項に記載の音声合成方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項23】
コンピュータプログラムであって、
前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~10のいずれか一項に記載の音声合成方法を実現する、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータ技術の分野に関し、特に、音声合成方法、装置、電子機器、記憶媒体、及びコンピュータプログラムに関する。
【背景技術】
【0002】
現在、音声合成方法は、テキストをターゲットユーザの音声特徴を有すオーディオに変換することができ、音声チャット、スマートホームなどの分野で広く応用されている。例えば、音声チャットシーンでは、ユーザのチャット音声を受信した後、それにマッチングするチャットテキストを取得し、チャットテキストをリアルタイムでターゲットユーザの音声特徴を有するオーディオに変換し、オーディオを再生したり、ユーザ端末にフィードバックしたりすることができる。しかしながら、従来技術の音声合成方法では、合成された音声のリアルさと自然さが劣っている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、音声合成方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
【課題を解決するための手段】
【0004】
本開示の一態様によれば、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得するステップと、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出するステップと、前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップと、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成するステップと、を含む音声合成方法を提供する。
【0005】
本開示の別の態様によれば、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得する予測モジュールと、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出する抽出モジュールと、前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成する結合モジュールと、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する合成モジュールと、を含む音声合成装置を提供する。
【0006】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが音声合成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0007】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに音声合成方法を実行させる。
【0008】
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、音声合成方法のステップを実現する。
【0009】
なお、この部分に記載された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0010】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
図1】本開示の第1の実施例に係る音声合成方法の概略フローチャートである。
図2】本開示の第2の実施例に係る音声合成方法の概略フローチャートである。
図3】本開示の第3の実施例に係る音声合成方法の概略フローチャートである。
図4】本開示の第1の実施例に係るターゲット音声合成モデルの概略図である。
図5】本開示の第1の実施例に係る音声合成装置のブロック図である。
図6】本開示の実施例に係る音声合成方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0011】
以下、図面と併せて本開示の例示的な実施例を説明するが、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書において説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0012】
音声は、音声認識、音声分離、音声インタラクション、音声合成などの技術分野を含むことができ、人工知能の分野における重要な方向である。
【0013】
音声合成(Voice Synthesis)は、機械が文字情報を出力可能な音声に変換する技術であり、音響学、言語学、デジタル信号処理、コンピュータ科学などの分野に関連する。
【0014】
AI(Artificial Intelligence、人工知能)は、人間の知能をシミュレーション、延長、拡張するための理論、方法、技術及び応用システムを研究、開発する技術科学である。現在、AI技術は自動化度が高く、精度が高く、コストが低いという利点があり、幅広く応用されている。
【0015】
NLU(Natural Language Processing、自然言語処理)は、自然言語通信を効率的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学の分野と人工知能の分野における重要な方向である。
【0016】
深層学習(Deep Learning)は機械学習(Machine Learning)分野における新しい研究方向であり、サンプルデータの内的な法則と表現レベルを学習し、機械が人間のように分析学習能力を持ち、文字、画像、音などのデータを認識できるようにする科学であり、音声と画像認識に広く応用されている。
【0017】
図1は、本開示の第1の実施例に係る音声合成方法の概略フローチャートである。
【0018】
図1に示すように、本開示の第1の実施例の音声合成方法は以下のステップS101~S104を含む。
【0019】
S101:合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得する。
【0020】
なお、本開示の実施例に係る音声合成方法の実行主体は、データ情報処理能力を有するハードウェア装置及び/又は当該ハードウェア装置の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末、及び他のスマート機器を含むことができる。ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話デバイス、スマート家電、車載端末などを含むが、これらに限定されない。
【0021】
本開示の実施例では、合成対象のテキストを取得することができる。なお、合成対象のテキストの言語、タイプなどを過度に限定せず、例えば、合成対象のテキストの言語は、中国語、英語などを含むが、これらに限定されず、合成対象のテキストは、チャットテキスト、スピーチテキストなどを含むが、これらに限定されない。
【0022】
本開示の実施例では、ターゲットユーザの音声特徴を取得することができる。なお、異なるターゲットユーザは異なる音声特徴に対応することができる。なお、音声特徴のタイプを過度に限定しない。
【0023】
1つの実施形態では、ターゲットユーザの音声特徴を予めローカルに記憶することができ、これによって音声合成時にローカルの記憶空間からターゲットユーザの音声特徴を取得することができ、ターゲットユーザの音声特徴をオフラインで取得することができ、音声合成の演算量を効果的に減少させる。
【0024】
本開示の実施例では、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得することができ、これによって合成対象のテキストとターゲットユーザの音声特徴が予測された第1の音響的特徴に及ぼす影響を総合的に考慮することができ、予測された第1の音響的特徴は合成対象のテキストの特徴と音声特徴を有し、個人化音声合成を実現することができる。
【0025】
1つの実施形態では、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得するステップは、合成対象のテキストと音声特徴を特徴予測アルゴリズムに入力し、特徴予測アルゴリズムが、予測された第1の音響的特徴を出力するステップを含むことができる。特徴予測アルゴリズムは、実際の状況に応じて設定することができ、ここでは限定されない。
【0026】
S102:合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
【0027】
本開示の実施例では、テンプレートオーディオライブラリを取得することができ、テンプレートオーディオライブラリが複数のテンプレートオーディオを含む。なお、テンプレートオーディオライブラリは、実際の状況に応じて設定することができるが、ここでは限定されない。
【0028】
本開示の実施例では、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得することができる。さらに、ターゲットテンプレートオーディオの第2の音響的特徴を抽出することができる。
【0029】
1つの実施形態では、ターゲットテンプレートオーディオの第2の音響的特徴を抽出するステップは、ターゲットテンプレートオーディオを特徴抽出アルゴリズムに入力し、特徴抽出アルゴリズムが第2の音響的特徴を出力するステップを含むことができる。特徴抽出アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。
【0030】
S103:第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
【0031】
本開示の実施例では、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成することができ、これにより、生成されたターゲット音響的特徴は、合成対象のテキストの第1の音響的特徴とターゲットテンプレートオーディオの第2の音響的特徴とを同時に有することができ、特徴表現効果がより良い。
【0032】
1つの実施形態では、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップは、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得し、ターゲットテンプレートテキストと合成対象のテキストに基づいて、第1の音響的特徴と第2の音響的特徴との結合位置を決定し、結合位置に従って第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成するステップを含むことができる。
【0033】
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストが「お客様の今月の通話料は100元」である場合、第1の音響的特徴における「16」に対応する特徴2の結合位置を、第2の音響的特徴における「100」に対応する特徴位置として決定することができ、第2の音響的特徴における「お客様の今月の通話料は」に対応する特徴1を、第1の音響的特徴における「16」に対応する特徴2及び第2の音響的特徴における「元」に対応する特徴3に結合することができ、特徴1は、特徴2の時系列の上位にあり、特徴2は特徴3の時系列の上位にある。
【0034】
S104:ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成する。
【0035】
本開示の実施例では、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。
【0036】
1つの実施形態では、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成するステップは、ターゲット音響的特徴、音声特徴、合成対象のテキストを音声合成アルゴリズムに入力し、音声合成アルゴリズムが合成対象のテキストのターゲット音声を出力するステップを含むことができる。音声合成アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。
【0037】
以上のようにして、本開示の実施例の音声合成方法によれば、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出し、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。これにより、ターゲット音響的特徴は、合成対象のテキストの第1の音響的特徴とターゲットテンプレートオーディオの第2の音響的特徴を同時に有することができ、特徴表現効果がより良く、ターゲット音声のリアルさと自然さを高めることに役立ち、音声合成効果がより良い。
【0038】
図2は、本開示の第2の実施例に係る音声合成方法の概略フローチャートである。
【0039】
図2に示すように、本開示の第2の実施例の音声合成方法は、以下のステップS201~S204を含む。
【0040】
S201:合成対象のテキスト及びターゲットユーザの音声特徴を取得し、音声特徴がスタイル特徴と音色特徴を含み、合成対象のテキストとスタイル特徴に基づいて、予測された第1の音響的特徴を取得する。
【0041】
本開示の実施例では、ターゲットユーザの識別情報とターゲットユーザの音声特徴との間に対応関係がある。識別情報は実際の状況に応じて設定することができ、ここでは限定されない、例えば、ターゲットユーザの識別情報は「張三」、「李四」に設定することができる。
【0042】
1つの実施形態では、ターゲットユーザの音声特徴を取得するステップは、ターゲットユーザの識別情報を取得し、識別情報に基づいて、ターゲットユーザの音声特徴を取得するステップを含むことができる。これにより、当該方法は、ターゲットユーザの識別情報に基づいて、ターゲットユーザの音声特徴を取得することができる。
【0043】
例えば、ターゲットユーザの識別情報とターゲットユーザの音声特徴との間のマッピング関係又はマッピングテーブルを予め確立することができ、ターゲットユーザの識別情報を取得した後、識別情報に基づいて、上記マッピング関係又はマッピングテーブルにおいて、当該識別情報によってマッピングされた音声特徴を検索して、ターゲットユーザの音声特徴とすることができる。
【0044】
本開示の実施例では、音声特徴はスタイル特徴と音色特徴を含むことができ、スタイル特徴はユーザの異なるスタイルを区別でき、音色特徴は異なるユーザを区別することができる。
【0045】
本開示の実施例では、合成対象のテキストとスタイル特徴に基づいて、予測された第1の音響的特徴を取得することができる。
【0046】
1つの実施形態では、合成対象のテキストとスタイル特徴に基づいて、第1の音響的特徴を取得するステップは、合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、合成対象のテキストのテキスト特徴を取得し、テキスト特徴とスタイル特徴を結合し、第1の結合特徴を取得し、第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、第1の音響的特徴を取得するステップを含むことができる。
【0047】
選択的に、テキスト特徴とスタイル特徴を結合し、第1の結合特徴を取得するステップは、テキスト特徴とスタイル特徴との和を第1の結合特徴とするステップを含むことができる。
【0048】
本開示の実施例では、音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む。なお、音響的特徴の粒度を限定せず、例えば、音響的特徴は、音素粒度の音響的特徴であってもよい。
【0049】
S202:合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
【0050】
本開示の実施例では、合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得するステップは、テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、合成対象のテキストとテンプレートテキストとの間の類似度を取得し、類似度の最も高いテンプレートテキストに対応するテンプレートオーディオをターゲットテンプレートオーディオとするステップを含むことができる。これにより、当該方法は、合成対象のテキストとテンプレートテキストとの間の類似度に基づいて、テンプレートオーディオライブラリから類似度の最も高いテンプレートテキストに対応するテンプレートオーディオをターゲットテンプレートオーディオとして選択し、選択されたターゲットテンプレートオーディオが合成対象のテキストとのマッチング度合いは最も高く、したがって、音声合成の効果がより良い。
【0051】
例えば、インテリジェントカスタマーサービスのシーンでは、テンプレートオーディオライブラリは、テンプレートオーディオA、B、C、Dを含むことができ、テンプレートオーディオA、B、C、Dは、それぞれテンプレートテキストa、b、c、dに対応し、テンプレートテキストa、b、c、dは、それぞれ「お客様の今月の通話料は100元」、「100元のチャージに成功した」、「アカウント残高は100元」、「お客様の今月の残りの汎用データ通信量は5GB」である。合成対象のテキストが「お客様の今月の通話料は16元」であり、当該合成対象のテキストがテンプレートテキストaとの類似度が最も高いと分かっているため、テンプレートオーディオライブラリから取得できるターゲットテンプレートオーディオはテンプレートオーディオAである。
【0052】
S203:第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
【0053】
S204:ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成する。
【0054】
ステップS203~S204に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。
【0055】
以上のようにして、本開示の実施例の音声合成方法によれば、音声特徴がスタイル特徴と音色特徴を含み、合成対象のテキストとスタイル特徴に基づいて、予測された第1の音響的特徴を取得することができ、これにより、合成対象のテキスト及びターゲットユーザのスタイル特徴が予測された第1の音響的特徴に及ぼす影響を総合的に考慮して、予測された第1の音響的特徴がターゲットユーザのスタイル特徴を有するようにすることができ、音声合成の個性化の向上に役立つ。
【0056】
図3は、本開示の第3の実施例に係る音声合成方法の概略フローチャートである。
【0057】
図3に示すように、本開示の第3の実施例の音声合成方法は、以下のステップS301~S307を含む。
【0058】
S301:合成対象のテキスト及びターゲットユーザの音声特徴を取得し、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得する。
【0059】
S302:合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
【0060】
ステップS301~S302に関連する内容は、上記の実施例を参照することができ、ここでは説明を省略する。
【0061】
S303:ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する。
【0062】
本開示の実施例では、テンプレートオーディオはテンプレートテキストと対応関係を有し、異なるテンプレートオーディオは、異なるテンプレートテキストに対応し、ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得することができる。
【0063】
1つの実施形態では、テンプレートオーディオとテンプレートテキストとの間のマッピング関係又はマッピングテーブルを予め確立することができ、ターゲットテンプレートオーディオを取得した後、上記マッピング関係又はマッピングテーブルにおいて、当該ターゲットテンプレートオーディオによってマッピングされたテンプレートテキストを検索して、ターゲットテンプレートテキストとすることができる。なお、上記マッピング関係又はマッピングテーブルはいずれも実際の状況に応じて設定することができ、ここでは限定されない。
【0064】
例えば、インテリジェントカスタマーサービスのシーンでは、テンプレートオーディオライブラリは、テンプレートオーディオA、B、C、Dを含むことができ、テンプレートオーディオA、B、C、Dは、それぞれテンプレートテキストa、b、c、dに対応し、テンプレートテキストa、b、c、dは、それぞれ「お客様の今月の通話料は100元」、「100元のチャージに成功した」、「アカウント残高は100元」、「お客様の今月の残りの汎用データ通信量は5GB」である。ターゲットテンプレートオーディオがテンプレートオーディオAである場合、テンプレートテキストa「お客様の今月の通話料は100元」をターゲットテンプレートテキストとすることができる。
【0065】
S304:合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する。
【0066】
本開示の実施例では、合成対象のテキストとターゲットテンプレートテキストには同じ部分と異なる部分が存在する可能性があり、合成対象のテキストとターゲットテンプレートテキストを比較して、合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得することができる。
【0067】
なお、合成対象のテキストとターゲットテンプレートテキストは、いずれも重複テキストを含む。
【0068】
1つの実施形態では、差分テキストとは、合成対象のテキストに存在するターゲットテンプレートテキストとの差分テキストを指すものである。
【0069】
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、ターゲットテンプレートテキストが「お客様の今月の通話料は100元」であり、重複テキストは「お客様の今月の通話料は」、「元」を含み、差分テキストは「16」であってもよい。
【0070】
S305:第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出し、第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出する。
【0071】
本開示の実施例では、合成対象のテキストは差分テキストを含むことができ、合成対象のテキストに対応する第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出することができる。ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストは重複テキストを含み、ターゲットテンプレートオーディオに対応する第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出することができる。
【0072】
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、ターゲットテンプレートテキストが「お客様の今月の通話料は100元」である場合、重複テキストは「お客様の今月の通話料は」、「元」を含むことができ、差分テキストは「16」であってもよい。これにより、第1の音響的特徴から「16」に対応するターゲット第1の音響的特徴を抽出し、且つ第2の音響的特徴から「お客様の今月の通話料は」、「元」に対応するターゲット第2の音響的特徴を抽出することができる。
【0073】
1つの実施形態では、第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出するステップは、合成対象のテキストにおける差分テキストの第1の開始位置と第1の終了位置を取得し、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出し、抽出された音響的特徴をターゲット第1の音響的特徴とするステップを含むことができる。これにより、当該方法は、第1の開始位置と第1の終了位置に基づいて、第1の音響的特徴からターゲット第1の音響的特徴を正確に抽出することができる。
【0074】
例えば、合成対象のテキストが「お客様の今月の通話料は16元」であり、差分テキストが「16」である場合、合成対象のテキストにおける差分テキスト「16」の第1の開始位置は「1」に対応するテキスト位置であり、第1の終了位置は「6」に対応するテキスト位置であり、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出し、抽出された音響的特徴をターゲット第1の音響的特徴とすることができる。
【0075】
1つの実施形態では、第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出するステップは、ターゲットテンプレートテキストにおける重複テキストの第2の開始位置と第2の終了位置を取得し、第2の開始位置から第2の終了位置までの間に対応する音響的特徴を第2の音響的特徴から抽出し、抽出された音響的特徴をターゲット第2の音響的特徴とするステップを含むことができる。これにより、当該方法は、第2の開始位置と第2の終了位置に基づいて、第2の音響的特徴からターゲット第2の音響的特徴を正確に抽出することができる。
【0076】
例えば、ターゲットテンプレートテキストが「お客様の今月の通話料は100元」であり、重複テキストが「お客様の今月の通話料は」、「元」を含む場合、ターゲットテンプレートテキストにおける重複テキストである「お客様の今月の通話料は」の第2の開始位置は「お客様」に対応するテキスト位置であり、第2の終了位置は「は」に対応するテキスト位置であり、ターゲットテンプレートテキストにおける重複テキスト「元」の第2の開始位置と第2の終了位置は、いずれも「元」に対応するテキスト位置であり、第2の開始位置から第2の終了位置までの間に対応する音響的特徴を第2の音響的特徴から抽出し、抽出された音響的特徴をターゲット第2の音響的特徴とすることができる。
【0077】
1つの実施形態では、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出するステップは、合成対象のテキストのテキスト位置と第1の音響的特徴の特徴位置との間の対応関係を取得し、対応関係に基づいて、第1の開始位置から第1の終了位置までの間に対応する第1の音響的特徴における第3の開始位置と第3の終了位置を取得し、第3の開始位置及び第3の終了位置に対応する音響的特徴を第1の音響的特徴から抽出するステップを含むことができる。
【0078】
なお、第2の開始位置から第2の終了位置までの間に対応する音響的特徴を第2の音響的特徴から抽出するステップに関連する内容は、第1の開始位置から第1の終了位置までの間に対応する音響的特徴を第1の音響的特徴から抽出するステップに関連する内容を参照することができ、ここでは説明を省略する。
【0079】
S306:ターゲット第1の音響的特徴とターゲット第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
【0080】
ステップS306に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。
【0081】
S307:合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成する。
【0082】
なお、合成対象のテキストのテキスト特徴に関連する内容は上記の実施例を参照することができ、ここでは説明を省略する。
【0083】
本開示の実施例では、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成することができ、これによって生成された第2の結合特徴は、合成対象のテキストのテキスト特徴、音色特徴、及びターゲット音響的特徴を同時に有することができ、特徴表現効果がより良い。
【0084】
1つの実施形態では、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成するステップは、テキスト特徴、音色特徴及びターゲット音響的特徴との和を第2の結合特徴とするステップを含むことができる。
【0085】
S308:第2の結合特徴に基づいてターゲット音声を合成する。
【0086】
1つの実施形態では、第2の結合特徴に基づいてターゲット音声を合成するステップは、第2の結合特徴を音声合成アルゴリズムに入力し、音声合成アルゴリズムが合成対象のテキストのターゲット音声を出力するステップを含むことができ、音声合成アルゴリズムは実際の状況に応じて設定することができ、ここでは限定されない。
【0087】
以上のようにして、本開示の実施例の音声合成方法によれば、合成対象のテキストとターゲットテンプレートテキストとの重複テキスト及び差分テキストに基づいて、第1の音響的特徴から差分テキストに対応するターゲット第1の音響的特徴を抽出し、第2の音響的特徴から重複テキストに対応するターゲット第2の音響的特徴を抽出し、ターゲット第1の音響的特徴とターゲット第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、合成対象のテキストのテキスト特徴、音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成し、第2の結合特徴に基づいてターゲット音声を合成することができ、ターゲット音声がターゲットユーザの音色特徴を持ち、音声合成の個性化の向上に役立つ。
【0088】
本開示の実施例では、予めトレーニングされたターゲット音声合成モデルをさらに取得することができ、合成対象のテキスト、ターゲットテンプレートオーディオ及び音声特徴をターゲット音声合成モデルに入力することができ、ターゲット音声合成モデルが合成対象のテキストのターゲット音声を出力する。これにより、当該方法は、ターゲット音声合成モデルによって自動的に音声合成を実現することができ、音声合成効率の向上に役立つ。
【0089】
なお、ターゲット音声合成モデルは実際の状況に応じて設定することができ、ここでは限定されない。例えば、ターゲット音声合成モデルは、NNS(Neural Networks、ニューラルネットワーク)モデルであってもよい。
【0090】
図4に示すように、ターゲット音声合成モデル400は、特徴予測層401、第1の特徴抽出層402、第2の特徴抽出層403、特徴結合層404及び音声合成層405を含む。
【0091】
特徴予測層401が、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得する。
【0092】
第1の特徴抽出層402がターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
【0093】
第2の特徴抽出層403が合成対象のテキストのテキスト特徴を抽出する。
【0094】
特徴結合層404が、第1の音響的特徴、第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、テキスト特徴、音声特徴における音色特徴及びターゲット音響的特徴を結合し、第2の結合特徴を生成する。
【0095】
音声合成層405が、第2の結合特徴に基づいてターゲット音声を合成する。
【0096】
1つの実施形態では、トレーニングサンプルを取得することができ、トレーニングサンプルは、サンプル合成対象テキスト、サンプルターゲットテンプレートオーディオ、サンプルターゲットユーザの音声特徴、及びサンプルターゲット音声を含む。なお、トレーニングサンプルは実際の状況に応じて設定することができ、ここでは限定されない。
【0097】
トレーニングサンプルに基づいて音声合成モデルをトレーニングし、モデルトレーニング終了条件を満たさないことに応答して戻り、次のトレーニングサンプルを用いて、モデルパラメータを調整する音声合成モデルを引き続きトレーニングし、モデルトレーニング終了条件が満たされると、ターゲット音声合成モデルを生成する。モデルトレーニング終了条件は実際の状況に応じて設定することができ、ここでは限定されない、例えばモデルトレーニング回数が予め設定された回数閾値に達し、モデル精度が予め設定された精度閾値に達するなどに設定することができる。
【0098】
図5は、本開示の第1の実施例に係る音声合成装置のブロック図である。
【0099】
図5に示すように、本開示の実施例の音声合成装置500は、予測モジュール501、抽出モジュール502、結合モジュール503、及び合成モジュール504を含む。
【0100】
予測モジュール501は、合成対象のテキスト及びターゲットユーザの音声特徴を取得し、前記合成対象のテキストと前記音声特徴に基づいて、予測された第1の音響的特徴を取得する。
【0101】
抽出モジュール502は、前記合成対象のテキストに基づいて、テンプレートオーディオライブラリからターゲットテンプレートオーディオを取得し、前記ターゲットテンプレートオーディオの第2の音響的特徴を抽出する。
【0102】
結合モジュール503は、前記第1の音響的特徴と前記第2の音響的特徴を結合し、ターゲット音響的特徴を生成する。
【0103】
合成モジュール504は、前記ターゲット音響的特徴と前記音声特徴に基づいて、前記合成対象のテキストに対して音声合成を行って、前記合成対象のテキストのターゲット音声を生成する。
【0104】
本開示の一実施例では、結合モジュール503は、前記ターゲットテンプレートオーディオに対応するターゲットテンプレートテキストを取得する第1の取得ユニットと、前記合成対象のテキストと前記ターゲットテンプレートテキストとの重複テキスト及び差分テキストを取得する第2の取得ユニットと、前記第1の音響的特徴から前記差分テキストに対応するターゲット第1の音響的特徴を抽出し、前記第2の音響的特徴から前記重複テキストに対応するターゲット第2の音響的特徴を抽出する抽出ユニットと、前記ターゲット第1の音響的特徴と前記ターゲット第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成する結合ユニットと、を含む。
【0105】
本開示の一実施例では、前記抽出ユニットは、さらに、前記合成対象のテキストにおける前記差分テキストの第1の開始位置と第1の終了位置を取得し、前記第1の開始位置から前記第1の終了位置までの間に対応する音響的特徴を前記第1の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第1の音響的特徴とする。
【0106】
前記抽出ユニットは、さらに、前記ターゲットテンプレートテキストにおける前記重複テキストの第2の開始位置及び第2の終了位置を取得し、前記第2の開始位置から前記第2の終了位置までの間に対応する音響的特徴を前記第2の音響的特徴から抽出し、抽出された前記音響的特徴を前記ターゲット第2の音響的特徴とする。
【0107】
本開示の一実施例では、予測モジュール501は、さらに、前記ターゲットユーザの識別情報を取得し、前記識別情報に基づいて、前記ターゲットユーザの音声特徴を取得する。
【0108】
本開示の一実施例では、前記音声特徴はスタイル特徴と音色特徴を含み、予測モジュール501は、さらに、前記合成対象のテキストと前記スタイル特徴に基づいて、前記第1の音響的特徴を取得する。
【0109】
本開示の一実施例では、予測モジュール501は、さらに、前記合成対象のテキストに対してベクトル化処理を行い、ベクトル特徴を取得し、前記ベクトル特徴に対して畳み込み処理と双方向時間ループ処理を順次行い、前記合成対象のテキストのテキスト特徴を取得し、前記テキスト特徴と前記スタイル特徴を結合し、第1の結合特徴を取得し、前記第1の結合特徴に対して畳み込み処理、双方向時間ループ処理及び線形処理を順次行い、前記第1の音響的特徴を取得する。
【0110】
本開示の一実施例では、合成モジュール504は、さらに、前記合成対象のテキストのテキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、第2の結合特徴を生成し、前記第2の結合特徴に基づいて前記ターゲット音声を合成する。
【0111】
本開示の一実施例では、前記装置は、入力モジュールをさらに含み、前記入力モジュールは、前記合成対象のテキスト、前記ターゲットテンプレートオーディオ及び前記音声特徴をターゲット音声合成モデルに入力し、前記ターゲット音声合成モデルが、特徴予測層、第1の特徴抽出層、第2の特徴抽出層、特徴結合層及び音声合成層を含み、
前記特徴予測層が、前記合成対象のテキストと前記音声特徴に基づいて、前記第1の音響的特徴を取得し、
前記第1の特徴抽出層が、前記ターゲットテンプレートオーディオの前記第2の音響的特徴を抽出し、
前記第2の特徴抽出層が、前記合成対象のテキストの前記テキスト特徴を抽出し、
前記特徴結合層が、前記第1の音響的特徴、前記第2の音響的特徴を結合し、前記ターゲット音響的特徴を生成し、前記テキスト特徴、前記音色特徴及び前記ターゲット音響的特徴を結合し、前記第2の結合特徴を生成し、
前記音声合成層が、前記第2の結合特徴に基づいて、前記ターゲット音声を合成する。
【0112】
本開示の一実施例では、前記抽出モジュールは、さらに、前記テンプレートオーディオライブラリにおけるテンプレートオーディオに対応するテンプレートテキストを取得し、前記合成対象のテキストと前記テンプレートテキストとの類似度を取得し、類似度の最も高い前記テンプレートテキストに対応する前記テンプレートオーディオを前記ターゲットテンプレートオーディオとする。
【0113】
本開示の一実施例では、前記音響的特徴は、基本周波数特徴、エネルギー特徴、時間特徴のうちの少なくとも1つを含む。
【0114】
以上のようにして、本開示の実施例の音声合成装置は、合成対象のテキストと音声特徴に基づいて、予測された第1の音響的特徴を取得し、ターゲットテンプレートオーディオの第2の音響的特徴を抽出し、第1の音響的特徴と第2の音響的特徴を結合し、ターゲット音響的特徴を生成し、ターゲット音響的特徴と音声特徴に基づいて、合成対象のテキストに対して音声合成を行って、合成対象のテキストのターゲット音声を生成することができる。これにより、ターゲット音響的特徴は、合成対象のテキストの第1の音響的特徴とターゲットテンプレートオーディオの第2の音響的特徴を同時に有することができ、特徴表現効果がより良く、ターゲット音声のリアルさと自然さを高めることに役立ち、音声合成効果がより良い。
【0115】
なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
【0116】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
【0117】
図6は、本開示の実施例を実行するための例示的な電子機器600の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は求められる本開示の実現を制限することを意図したものではない。
【0118】
図6に示すように、電子機器600は、読み取り専用メモリ(ROM)602に記憶されているコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行できる計算ユニット601を含む。RAM 603には、電子機器600の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット601、ROM 602、及びRAM 603は、バス604を介して互いに接続されている。バス604には、入力/出力(I/O)インターフェース605も接続されている。
【0119】
電子機器600の複数のコンポーネントはI/Oインターフェース605に接続され、キーボード、マウスなどの入力ユニット606、各タイプのディスプレイ、スピーカなどの出力ユニット607、磁気ディスク、光ディスクなどの記憶ユニット608、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609を含む。通信ユニット609は、電子機器600が、インターネットなどのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0120】
計算ユニット601は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例は、中央処理ユニット(CPU)、グラフィクス処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上記に記載の各方法及び処理、例えば、音声合成方法を実行する。例えば、いくつかの実施例では、音声合成方法を、記憶ユニット608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部はROM 602及び/又は通信ユニット609を介して電子機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM 603にロードされ、計算ユニット601によって実行される場合、上記に記載の音声合成方法の1つ又は複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット601は音声合成方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
【0121】
本明細書の上記に記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0122】
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0123】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又は上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容のいずれかの適切な組み合わせを含む。
【0124】
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、又は、触覚入力とを含む)でユーザからの入力を受信することができる。
【0125】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
【0126】
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0127】
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムはプロセッサによって実行される場合、本開示の上記実施例に示される音声合成方法のステップを実現する。
【0128】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0129】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原理内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6