(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022133392
(43)【公開日】2022-09-13
(54)【発明の名称】音声合成方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
G10L 13/10 20130101AFI20220906BHJP
G10L 25/30 20130101ALI20220906BHJP
【FI】
G10L13/10 113C
G10L25/30
G10L13/10 113B
G10L13/10 112B
【審査請求】有
【請求項の数】17
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022108516
(22)【出願日】2022-07-05
(31)【優先権主張番号】202110944989.1
(32)【優先日】2021-08-17
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ヂャン, ジュントン
(72)【発明者】
【氏名】ウー, ジャンミン
(72)【発明者】
【氏名】スン, タオ
(72)【発明者】
【氏名】ジア, レイ
(57)【要約】 (修正有)
【課題】1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現する音声合成方法、装置、電子機器及び記憶媒体を提供する。
【解決手段】方法は、合成対象のターゲットテキスト及び話者の識別子を取得し、ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得し、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
合成対象のターゲットテキスト、及び話者の識別子を取得するステップと、
前記ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得するステップと、
前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、前記ターゲットテキストの言語的特徴を生成するステップと、
前記ターゲットテキストの言語的特徴と前記話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得するステップと、
を含む音声合成方法。
【請求項2】
前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、前記ターゲットテキストの言語的特徴を生成するステップが、
前記ターゲットテキストのうちの前記少なくとも1つの文字の発音情報に基づいて、前記少なくとも1つの文字に含まれる音素、及び前記音素の組み合わせで得られた音節または単語に対応する音調を決定するステップと、
前記ターゲットテキストが属するターゲット言語タイプに基づいて、前記音素に接尾辞を追加し、前記音調の音調符号化を決定するステップと、
前記接尾辞が追加された前記音素、前記音調符号化、および前記音素の属する音節における位置および/または前記音節の属する単語における位置に基づいて、前記言語的特徴における対応する特徴項目を生成するステップと、
を含む請求項1に記載の方法。
【請求項3】
前記ターゲットテキストのうちの前記少なくとも1つの文字の発音情報に基づいて、前記少なくとも1つの文字に含まれる音素、及び前記音素の組み合わせで得られた音節または単語に対応する音調を決定するステップが、
前記ターゲットテキストにおける前記少なくとも1つの文字に対して、前記文字の発音情報における声調、アクセントおよび巻舌音のうちの1つまたは複数の組み合わせに基づいて、前記音素の組み合わせで得られた音節または単語に対応する音調を決定するステップを含む請求項2に記載の方法。
【請求項4】
前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、前記ターゲットテキストの言語的特徴を生成するステップが、
前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストを単語に分割し、各単語分割によって得られた単語に対応するリズムを決定するステップと、
前記各単語分割によって得られた単語に対応するリズムに基づいて、前記言語的特徴における対応する特徴項目を生成するステップと、
を含む請求項2に記載の方法。
【請求項5】
前記ターゲットテキストの言語的特徴と前記話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得するステップが、
前記ターゲットテキストの言語的特徴を、音声合成モデルの第1のエンコーダに入力し、特徴符号化を取得するステップと、
前記話者の識別子を、前記音声合成モデルの第2のエンコーダに入力し、前記話者の音色符号化を取得するステップと、
前記言語的特徴と前記話者の識別子を、前記音声合成モデルのスタイルネットワークに入力して前記ターゲットテキストと前記話者に対応するスタイル符号化を取得するステップと、
前記スタイル符号化、前記特徴符号化及び前記音色符号化を統合し、統合符号化を取得するステップと、
前記音声合成モデルのデコーダを使用して前記統合符号化を復号して、前記ターゲット音声の音響スペクトルを取得するステップと、
を含む請求項1に記載の方法。
【請求項6】
前記ターゲットテキストの言語的特徴を、音声合成モデルの第1のエンコーダに入力し、特徴符号化を取得する前に、
前記音声合成モデルの前記第1のエンコーダ、前記第2のエンコーダ、前記デコーダ及び参照ネットワークに基づいて、トレーニングモデルを生成するステップであって、前記第1のエンコーダ、前記第2のエンコーダ及び前記参照ネットワークの出力が前記デコーダの入力に接続されるステップと、
トレーニングデータを使用して、前記トレーニングモデルと前記スタイルネットワークをトレーニングするステップと、
トレーニング後の前記トレーニングモデルにおける前記第1のエンコーダ、前記第2のエンコーダ及び前記デコーダ、並びにトレーニングされた前記スタイルネットワークに基づいて、前記音声合成モデルを生成するステップと、
を含む請求項5に記載の方法。
【請求項7】
前記トレーニングデータが、テキストサンプルの言語的特徴と、前記テキストサンプルに対応する音声サンプルと、前記音声サンプルの話者の識別子と、を含み、
トレーニングデータを使用して、前記トレーニングモデルと前記スタイルネットワークをトレーニングするステップが、
前記テキストサンプルの言語的特徴を前記トレーニングモデルにおける前記第1のエンコーダに入力し、前記音声サンプルの話者の識別子を前記トレーニングモデルの前記第2のエンコーダに入力するステップと、
前記音声サンプルを前記トレーニングモデルの参照ネットワークに入力するステップと、
前記参照ネットワークの出力、前記第1のエンコーダの出力及び前記第2のエンコーダの出力を統合し、前記トレーニングモデルにおける前記デコーダを使用して復号し、予測音響スペクトルを取得するステップと、
前記予測音響スペクトルと前記音声サンプルの音響スペクトルとの差異に基づいて、前記トレーニングモデルに対してモデルパラメータ調整を行うステップと、
前記テキストサンプルの言語的特徴と前記音声サンプルの話者の識別子を前記スタイルネットワークに入力するステップと、
前記スタイルネットワークの出力と前記参照ネットワークの出力との差異に基づいて、前記スタイルネットワークに対してモデルパラメータ調整を行うステップと、
を含む請求項6に記載の方法。
【請求項8】
合成対象のターゲットテキスト、及び話者の識別子を取得する第1の取得モジュールと、
前記ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得する第2の取得モジュールと、
前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、前記ターゲットテキストの言語的特徴を生成する抽出モジュールと、
前記ターゲットテキストの言語的特徴と前記話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する合成モジュールと、
を備える音声合成装置。
【請求項9】
前記抽出モジュールが、
前記ターゲットテキストのうちの前記少なくとも1つの文字の発音情報に基づいて、前記少なくとも1つの文字に含まれる音素、及び前記音素の組み合わせで得られた音節または単語に対応する音調を決定する第1の決定ユニットと、
前記ターゲットテキストが属するターゲット言語タイプに基づいて、前記音素に接尾辞を追加し、前記音調の音調符号化を決定する第2の決定ユニットと、
前記接尾辞が追加された前記音素、前記音調符号化、および前記音素の属する音節における位置および/または前記音節の属する単語における位置に基づいて、前記言語的特徴における対応する特徴項目を生成する第1の生成ユニットと、
を備える請求項8に記載の装置。
【請求項10】
前記第1の決定ユニットが、
前記ターゲットテキストにおける前記少なくとも1つの文字に対して、前記文字の発音情報における声調、アクセントおよび巻舌音のうちの1つまたは複数の組み合わせに基づいて、音素の組み合わせで得られた音節または単語に対応する音調を決定する決定サブユニットを備える請求項9に記載の装置。
【請求項11】
前記抽出モジュールが、
前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストを単語に分割し、各単語分割によって得られた単語に対応するリズムを決定する第3の決定ユニットと、
前記各単語分割によって得られた単語に対応するリズムに基づいて、前記言語的特徴における対応する特徴項目を生成する第2の生成ユニットと、
を備える請求項9に記載の装置。
【請求項12】
前記合成モジュールが、
前記ターゲットテキストの言語的特徴を、音声合成モデルの第1のエンコーダに入力し、特徴符号化を取得する第1の符号化ユニットと、
前記話者の識別子を、前記音声合成モデルの第2のエンコーダに入力し、前記話者の音色符号化を取得する第2の符号化ユニットと、
前記言語的特徴と前記話者の識別子を、前記音声合成モデルのスタイルネットワークに入力して前記ターゲットテキストと前記話者に対応するスタイル符号化を取得する第3の符号化ユニットと、
前記スタイル符号化、前記特徴符号化及び前記音色符号化を統合し、統合符号化を取得する統合ユニットと、
前記音声合成モデルのデコーダを使用して前記統合符号化を復号して、前記ターゲット音声の音響スペクトルを取得する復号ユニットと、
を備える請求項8から11のいずれか一項に記載の装置。
【請求項13】
前記音声合成モデルの前記第1のエンコーダ、前記第2のエンコーダ、前記デコーダ及び参照ネットワークに基づいて、トレーニングモデルを生成する第1の生成モジュールであって、前記第1のエンコーダ、前記第2のエンコーダ及び前記参照ネットワークの出力が前記デコーダの入力に接続される第1の生成モジュールと、
トレーニングデータを使用して、前記トレーニングモデルと前記スタイルネットワークをトレーニングするトレーニングモジュールと、
トレーニング後の前記トレーニングモデルにおける前記第1のエンコーダ、前記第2のエンコーダ及び前記デコーダ、並びにトレーニングされた前記スタイルネットワークに基づいて、前記音声合成モデルを生成する第2の生成モジュールと、
を備える請求項12に記載の装置。
【請求項14】
前記トレーニングデータが、テキストサンプルの言語的特徴と、前記テキストサンプルに対応する音声サンプルと、前記音声サンプルの話者の識別子と、を含み、
前記トレーニングモジュールが、
前記テキストサンプルの言語的特徴を前記トレーニングモデルにおける前記第1のエンコーダに入力し、前記音声サンプルの話者の識別子を前記トレーニングモデルの前記第2のエンコーダに入力する第1の処理ユニットと、
前記音声サンプルを前記トレーニングモデルの参照ネットワークに入力する第2の処理ユニットと、
前記参照ネットワークの出力、前記第1のエンコーダの出力及び前記第2のエンコーダの出力を統合し、前記トレーニングモデルにおける前記デコーダを使用して復号し、予測音響スペクトルを取得する第3の処理ユニットと、
前記予測音響スペクトルと前記音声サンプルの音響スペクトルとの差異に基づいて、前記トレーニングモデルに対してモデルパラメータ調整を行う第1の調整ユニットと、
前記テキストサンプルの言語的特徴と前記音声サンプルの話者の識別子を前記スタイルネットワークに入力する第4の処理ユニットと、
前記スタイルネットワークの出力と前記参照ネットワークの出力との差異に基づいて、前記スタイルネットワークに対してモデルパラメータ調整を行う第2の調整ユニットと、
を備える請求項13に記載の装置。
【請求項15】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1から7のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
【請求項16】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から7のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項17】
プロセッサによって実行される場合、請求項1から7のいずれか一項に記載の方法のステップを実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータ技術の分野に関し、特に深層学習、音声技術などの人工知能技術の分野に関し、特に音声合成方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
音声合成技術は、テキスト情報を理解可能、自然、擬人的な音声情報に変換する技術であり、ニュース放送、車載ナビゲーション、スマートスピーカーなどの分野に広く応用されている。
【0003】
音声合成技術の応用シーンが増加するにつれて、多言語音声合成に対する需要はますます大きくなっている。しかしながら、1人の話者は1つの言語しか話せないため、シングル多言語のコーパスの取得が困難であるため、関連技術における音声合成技術は、通常、シングル単一言語の音声合成のみをサポートする。シングル多言語の音声合成をどのように実現するかは、音声合成の応用シーンを拡大する上で重要な意義を持つ。
【発明の概要】
【0004】
本開示は、音声合成方法、装置、電子機器及び記憶媒体を提供する。
【0005】
本開示の一態様によれば、合成対象のターゲットテキスト、及び話者の識別子を取得するステップと、前記ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得するステップと、前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、前記ターゲットテキストの言語的特徴を生成するステップと、前記ターゲットテキストの言語的特徴と前記話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得するステップと、を含む音声合成方法を提供する。
【0006】
本開示の別の態様によれば、合成対象のターゲットテキスト、及び話者の識別子を取得する第1の取得モジュールと、前記ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得する第2の取得モジュールと、前記ターゲットテキストが属するターゲット言語に基づいて、前記ターゲットテキストのうちの前記少なくとも1つの文字の前記発音情報に対して特徴抽出を行って、前記ターゲットテキストの言語的特徴を生成する抽出モジュールと、前記ターゲットテキストの言語的特徴と前記話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する合成モジュールと、を備える音声合成装置を提供する。
【0007】
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記に記載の音声合成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0008】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記に記載の音声合成方法を実行させる。
【0009】
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、上記に記載の音声合成方法のステップを実現する。
【0010】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0011】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
【
図1】本開示の第1の実施例に係る音声合成方法の概略フローチャートである。
【
図2】本開示の第2の実施例に係る音声合成方法の概略フローチャートである。
【
図3】本開示の第2の実施例に係る日本語テキストの各音調タイプの概略図である。
【
図4】本開示の第2の実施例に係るターゲットテキストにおける各文字の発音情報及び各単語分割によって得られた単語に対応するリズムの概略図である。
【
図5】本開示の第2の実施例に係る言語的特徴における対応する特徴項目の概略図である。
【
図6】本開示の第3の実施例に係る音声合成方法の概略フローチャートである。
【
図7】本開示の第3の実施例に係る音声合成モデルの概略構成図である。
【
図8】本開示の第3の実施例に係るトレーニングモデルとスタイルネットワークの概略構成図である。
【
図9】本開示の第4の実施例に係る音声合成装置の概略構成図である。
【
図10】本開示の第5の実施例に係る音声合成装置の概略構成図である。
【
図11】本開示の実施例に係る音声合成方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0013】
なお、本開示の技術案では、関連するユーザ個人情報の取得、記憶、応用などは、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。
【0014】
音声合成技術の応用シーンが増加するにつれて、多言語音声合成に対する需要はますます大きくなっている。しかしながら、1人の話者は1つの言語しか話せないため、シングル多言語のコーパスの取得が困難であるため、関連技術における音声合成技術は、通常、シングル単一言語の音声合成のみをサポートする。シングル多言語の音声合成をどのように実現するかは、音声合成の応用シーンを拡大する上で重要な意義を持つ。
【0015】
本開示はシングル多言語の音声合成を実現できる方法を提供し、当該方法では、まず、合成対象のターゲットテキスト、及び話者の識別子を取得し、さらにターゲットテキストのうちの少なくとも1つの文字の発音情報を取得し、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、さらにターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を得て、これにより、合成対象のターゲットテキストの言語的特徴と話者の識別子に基づいて言語合成を行うことにより、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0016】
以下、図面を参照しながら、本開示の実施例の音声合成方法、装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを説明する。
【0017】
まず、
図1と併せて、本開示によって提供される音声合成方法を詳しく説明する。
【0018】
図1は、本開示の第1の実施例に係る音声合成方法の概略フローチャートである。なお、本開示の実施例の音声合成方法は、実行主体が音声合成装置である。当該音声合成装置は、具体的には、電子機器や、電子機器に構成されたソフトウェアなどであってもよく、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。本開示の実施例は、音声合成装置が電子機器に構成された場合を例として説明する。
【0019】
電子機器は、データ処理が可能な任意の静止又はモバイルコンピューティング機器、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティング機器、又はデスクトップコンピュータなどの静止のコンピューティング機器、又はサーバ、又はその他のタイプのコンピューティング機器などであってもよく、本開示はこれに対して限定しない。
【0020】
図1に示すように、音声合成方法は以下のステップ101~104を含むことができる。
【0021】
ステップ101、合成対象のターゲットテキスト、及び話者の識別子を取得する。
【0022】
本開示の実施例では、合成対象のテキストは、任意の言語での任意のテキストであってもよい。言語は、例えば、中国語、英語、日本語などである。テキストは、例えば、ニューステキスト、娯楽テキスト、チャットテキストなどである。なお、合成対象のターゲットテキストは、1つの言語でのテキストであってもよく、複数の言語でのテキストであってもよい、本開示はこれに対して限定しない。
【0023】
話者の識別子は、話者を一意に識別するために使用される。話者とは、ターゲットテキストに基づいて合成されたターゲット音声の属す話者を指す。例えば、合成対象のターゲットテキストに基づいて合成して話者Aの音声を得ようとする場合、話者は話者Aである。合成対象のターゲットテキストに基づいて合成して話者Bの音声を得ようとする場合、話者は話者Bである。
【0024】
なお、本開示の実施例の音声合成装置は、種々の開示、並びに法律や規則に準拠する方法によって合成対象のターゲットテキストを取得することができる。例えば、音声合成装置は、チャットテキストが属するるチャットユーザの許可を得た後、チャットユーザのチャットテキストを合成対象のターゲットテキストとして取得することができる。
【0025】
ステップ102、ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得する。
【0026】
発音情報は、音素、音節、単語、声調、アクセント、巻舌音などの情報を含むことができる。音素は音声の自然属性に基づいて区別された最小音声単位である。音節は音素の組み合わせで発音された音声単位である。声調は、音の高低を表し、例えば、中国語に対して、声調が一声、二声、三声、四声、軽声を含むことができ、日本語に対して、声調が高音と低音を含むことがでる。アクセントは、アクセントの強度を表し、話者が重点的に強調する論理的な重点や感情的な重点を体現することができ、例えば、英語に対して、アクセントがアクセントなしから強アクセントまでの3段アクセントの強度を含むことがでる。巻舌音は、舌を巻く動作によって中国語における個別字の韻母に発生する音変現象であり、韻母の後ろにrをつけるのが特徴である。具体的には、ターゲットテキストが属するターゲット言語に基づいて、検索することでターゲットテキストに含まれる少なくとも1つの文字の発音情報を取得することができる。
【0027】
「他們吶都非常喜歡打猟」(彼らはみな狩りが大好きだ)という中国語テキストを例として、中国語テキストにおける各文字の発音情報を取得することができ、各文字の発音情報が「ta1 men5 ne5 dou1 fei1 chang2 xi3 huan1 da3 lie4」を含むことができる。「t」、「a」、「m」、「en」、「n」、「e」などが音素であり、「ta」、「men」、「ne」、「dou」などが音節であり、音節の間はスペースで隔てられている。数字は中国語の声調を表し、「1」が一声、「2」が二声、「3」が三声、「4」が四声、「5」が軽声を表す。
【0028】
ステップ103、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成する。
【0029】
言語的特徴は、ターゲットテキストの音調変化、リズムなどを特徴付けることができる特徴である。
【0030】
異なる言語でのテキストが異なる音調変化、リズムなどを有する特徴のため、本開示の実施例では、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成することができ、具体的な特徴抽出方法は、以下の実施例で説明し、ここでは説明を省略する。
【0031】
ステップ104、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する。
【0032】
例示的な実施例では、予めトレーニングして音声合成モデルを取得することができ、音声合成モデルの入力はテキストの言語的特徴と話者の識別子であり、出力は合成された後の音声であり、これにより、ターゲットテキストの言語的特徴と話者の識別子をトレーニングされた音声合成モデルに入力し、音声合成を行い、ターゲット音声を取得することができる。
【0033】
任意の言語でのターゲットテキストに対しては、いずれもターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行い、ターゲットテキストの言語的特徴を生成し、さらにターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得することができるため、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。例えば、中国語を話す話者Aに対して、話者Aの識別子と英語のターゲットテキストの言語的特徴に基づいて、音声合成を行い、話者Aが英語でターゲットテキストを述べるターゲット音声を取得することができ、あるいは、話者Aの識別子と日本語のターゲットテキストの言語的特徴に基づいて、音声合成を行い、話者Aが日本語でターゲットテキストを述べるターゲット音声を取得することもできる。
【0034】
本開示の実施例によって提供される音声合成方法は、まず合成対象のターゲットテキスト、及び話者の識別子を取得し、さらにターゲットテキストのうちの少なくとも1つの文字の発音情報を取得し、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、さらにターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を得て、これにより、合成対象のターゲットテキストの言語的特徴と話者の識別子に基づいて言語合成を行うことにより、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0035】
以上の分析から分かるように、本開示の実施例では、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成することができ、さらにターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行い、以下、
図2と併せて、本開示によって提供される音声合成方法では、ターゲットテキストの言語的特徴を生成するプロセスをさらに説明する。
【0036】
図2は、本開示の第2の実施例に係る音声合成方法の概略フローチャートである。
図2に示すように、音声合成方法は、以下のステップ201~206を含むことができる。
【0037】
ステップ201、合成対象のターゲットテキスト、及び話者の識別子を取得する。
【0038】
ステップ201の具体的な実現プロセス及び原理は、上記実施例の説明を参照されたく、ここでは説明を省略する。
【0039】
ステップ202、ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得する。
【0040】
ステップ203、ターゲットテキストのうちの少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素、及び音素の組み合わせで得られた音節や単語に対応する音調を決定する。
【0041】
発音情報は、音素、音節、単語、声調、アクセント、巻舌音などの情報を含むことができ、これにより、ターゲットテキストのうちの少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素、及び各音素の組み合わせで得られた音節や単語に対応する音調を決定することができる。ターゲットテキストのうちの少なくとも1つの文字に対して、文字の発音情報における声調、アクセント及び巻舌音のうちの1つまたは複数の組み合わせに基づいて、各音素の組み合わせで得られた音節や単語に対応する音調を決定し、決定された各音調の正確性を向上させることができる。
【0042】
例示的な実施例では、中国語テキストに対して、少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素を決定し、少なくとも1つの文字の発音情報における声調、巻舌音のうちの1つまたは2つの組み合わせに基づいて、各音素の組み合わせで得られた音節に対応する音調を決定することができる。
【0043】
日本語テキストに対して、少なくとも1つの文字の
発音情報に基づいて、少なくとも1つの文字に含まれる音素を決定し、少なくとも1つの文字の発音情報における声調に基づいて、各音素の組み合わせで得られた音節や単語に対応する音調を決定することができる。
【0044】
英語テキストに対して、少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素を決定し、少なくとも1つの文字の発音情報におけるアクセントに基づいて、各音素の組み合わせで得られた音節や単語に対応する音調を決定することができる。
【0045】
「他們吶都非常喜歡打猟」(彼らはみな狩りが大好きだ)という中国語テキストを例として、中国語テキストにおける各文字の発音情報を取得することができる。各文字の発音情報は「ta1 men5 ne5 dou1 fei1 chang2 xi3 huan1 da3 lie4」を含むことができる。「t」、「a」、「m」、「en」、「n」、「e」などが音素であり、「ta」、「men」、「ne」、「dou」などが音節であり、音節の間はスペースで隔てられている。数字は中国語の声調を表し、「1」が一声、「2」が二声、「3」が三声、「4」が四声、「5」が軽声を表す。
【0046】
上記中国語テキストに含まれる各文字の発音情報に基づいて、各文字に含まれる「t」、「a」、「m」、「en」、「n」、「e」などの音素、及び音節「ta」に対応する声調「一声」、音節「men」に対応する声調「軽声」、音節「ne」に対応する声調「軽声」、音節「dou」に対応する声調「一声」、音節「fei」に対応する声調「一声」、音節「chang」に対応する声調「二声」、音節「xi」に対応する声調「三声」、音節「huan」に対応する声調「一声」、音節「da」に対応する声調「三声」、音節「lie」に対応する声調「四声」を決定することができ、各音節に対応する声調を各音節に対応する音調として使用する。
【0047】
ステップ204、ターゲットテキストが属するターゲット言語タイプに基づいて、音素に接尾辞を追加し、音調の音調符号化を決定する。
【0048】
なお、異なる言語タイプでのテキストでは、少なくとも1つの文字に含まれる音素が重複している場合がある可能性があり、例えば中国語テキストと英語テキストの両方に対して、音素「sh」が存在し、本開示の実施例では、異なる言語タイプでの各音素を区別し、異なる言語タイプの各音素がエイリアシングすることを回避するために、各音素に接尾辞を追加することができる。
【0049】
例示的な実施例では、異なるターゲット言語タイプに対して、異なる接尾辞を追加することができる。例えば、中国語に対して、各音素に接尾辞を追加しなくてもよく、例えば音素「t」、「a」、「m」、「en」に対して、接尾辞を追加する前後の各音素は変わらない。日本語に対して、各音素に接尾辞「j」を追加することができ、例えば音素「yo」、「i」、「yu」に対して、接尾辞を追加した後の各音素は「yoj」、「ij」、「yuj」である。英語に対して、各音素に接尾辞「l」を追加することができ、例えば音素「sh」、「iy」、「hh」、「ae」に対して、接尾辞を追加した後の各音素は「shl」、「iyl」、「hhl」、「ael」である。
【0050】
例示的な実施例では、音調の音調符号化方式は、必要に応じて決定することができる。
【0051】
例えば、中国語テキストに対して、声調「一声」、「二声」、「三声」、「四声」、「軽声」をそれぞれ1、2、3、4、5に符号化し、巻舌音を1に符号化し、非巻舌音を0に符号化することができる。日本語テキストに対して、高音を1に符号化し、低音を0に符号化することができる。英語テキストに対して、アクセントなし、中等アクセント、強アクセントという3段アクセント強度をそれぞれ0、1、2に符号化することができる。これによってターゲットテキストが属するターゲット言語タイプに基づいて、各言語タイプでの各音調の音調符号化方式に従って、各音調の音調符号化を決定することができる。
【0052】
図3を参照すると、日本語テキストの音調タイプは複数の音調タイプを含み、
図3はタイプ0-タイプ4のみを例に示している。
図3の小文字英字は音節、大文字英字「L」は低音、大文字英字「H」は高音を表す。
図3に示すように、タイプ0に対して、最初の音節が低音であり、その後に高音が続く。タイプ1に対して、最初の音節が高音であり、その後に低音が続く。タイプ2に対して、最初の音節が低音であり、2番目の音節が高音であり、その後に低音が続く。タイプ3に対して、最初の音節が低音であり、2番目から3番目までの音節が高音であり、その後に低音が続く。タイプ4に対して、最初の音節が低音であり、2番目から4番目までの音節が高音であり、その後に低音が続く。他の音調タイプは同様である。
図3に示す各種の音調タイプの日本語テキストに対して、いずれも高音を1に符号化し、低音を0に符号化することができる。
【0053】
ステップ205、接尾辞が追加された音素、音調符号化、及び音素の属する音節におけるの位置および/または音節の属する単語における位置に基づいて、言語的特徴における対応する特徴項目を生成する。
【0054】
例示的な実施例では、中国語テキストに対して、接尾辞が追加された各音素と各音調を符号化し、各音素の属する音節における位置を、言語的特徴における対応する特徴項目として使用することができる。日本語テキストと英語テキストに対して、接尾辞が追加された各音素、各音調符号化、各音素の属する音節における位置、および各音節の属する単語における位置を、言語的特徴における対応する特徴項目として使用することができる。言語的特徴における各特徴項目はターゲットテキストのうちの少なくとも1つの文字の発音特徴を特徴付けることができる。
【0055】
ターゲットテキストのうちの少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素および音素の組み合わせで得られた音節または単語に対応する音調を決定し、ターゲットテキストが属するターゲット言語タイプに基づいて音素に接尾辞を追加して音調の音調符号化を決定し、接尾辞が追加された音素、音調符号化、及び音素の属する音節における位置および/または音節の属する単語における位置に基づいて、言語的特徴における対応する特徴項目を生成することにより、ターゲットテキストのうちの少なくとも1つの文字の発音情報からターゲットテキストのうちの少なくとも1つの文字の発音特徴を特徴付ける各特徴を抽出して取得することを実現し、後続の言語的特徴を生成して言語的特徴に基づいて音声合成を行うために基礎を築いた。
【0056】
例示的な実施例では、言語的特徴における特徴項目は、ターゲットテキストにおける各単語分割によって得られた単語に対応するリズムをさらに含むことができ、リズムは各単語分割によって得られた単語のポーズ時間を体現する。それに応じて、上記ステップ202の後に、以下をさらに含むことができる。
【0057】
ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストを単語に分割し、各単語分割によって得られた単語に対応するリズムを決定する。各単語分割によって得られた単語に対応するリズムに基づいて、言語的特徴における対応する特徴項目を生成する。
【0058】
例示的な実施例では、予めトレーニングされたリズム予測モデルにより、各単語分割によって得られた単語に対応するリズムを決定することができる。リズム予測モデルの入力が話者の識別子とターゲットテキストであり、出力がターゲットテキストの各単語分割によって得られた単語に対応するリズムである。リズム予測モデルの構造とリズム予測モデルを用いて各単語分割によって得られた単語に対応するリズムを決定するプロセスは、関連技術を参照されたく、ここでは説明を省略する。
【0059】
例示的な実施例では、中国語テキストに対して、リズムを4つのレベルに分けることができ、各レベルはポーズの長さを表し、それぞれ#1、#2、#3、#4で表す。リズム単語の内部は0である。#1はリズム単語の境界を表し、ポーズがほとんどない。#2はリズムフレーズの境界を表し、小さなポーズが感知られる。#3は語調フレーズの境界を表し、大きなポーズが感知られる。#4は文の末尾を表す。日本語テキストに対して、中国語と同様に、リズムを4レベルに分けることができる。英語テキストに対して、リズムを4レベルに分けることができ、各レベルはポーズの長さを表し、それぞれ「-」、「 」、「/」、「%」で表す。「-」は連読を表す。「」は単語の境界を表し、ポーズがほとんどない。「/」はリズムフレーズの境界を表し、ポーズが小さい。「%」は語調フレーズの境界または文の末尾を表し、ポーズが大きい。
【0060】
図4を参照すると、中国語のターゲットテキスト、日本語のターゲットテキスト及び英語のターゲットテキストに対して、
図4に示すターゲットテキストにおける各単語分割によって得られた単語に対応するリズム、及び各文字の発音情報をそれぞれ取得することができる。
図4の「#1」、「#2」、「#3」、「#4」が、それぞれ中国語テキストと日本語テキストにおける各単語分割によって得られた単語に対応するリズムレベルを表す。「-」、「 」、「/」、「%」が、英語テキストにおける各単語分割によって得られた単語に対応するリズムレベルを表す。
図4に示す中国語のターゲットテキストにおける各文字の発音情報において、音節の間はスペースで隔てられており、0-5の各数字がそれぞれ中国語の声調を表す。日本語のターゲットテキストにおける各文字の発音情報において、音素の間はスペースで隔てられており、音節の間は「.」で隔てられており、単語の間は「/」で隔てられており、0、1の数字がそれぞれ日本語の声調を表し、「:」が長音を表す(日本語の長音は母音を2つの音節に引き延ばすため、長音をマーキングし、そして独立した日本語の音素として使用する)。英語のターゲットテキストにおける各文字の発音情報において、音素の間はスペースで隔てられており、音節の間は「.」で隔てられており、単語の間は「/」で隔てられており、数字0、1、2はそれぞれ英語のアクセントを表す。
【0061】
さらに、ターゲットテキストにおける各文字の発音情報に基づいて、各文字に含まれる音素、各音素の属する音節における位置および/または各音節の属する単語における位置及び各音素の組み合わせで得られた音節や単語に対応する音調を決定し、ターゲットテキストが属するターゲット言語タイプに基づいて、各音素に接尾辞を追加し、例えば日本語テキストの各文字に含まれる音素に接尾辞「j」を追加し、英語の各文字に含まれる音素に接尾辞「l」を追加し、各音調の音調符号化、すなわち
図4の各数字、を決定することができる。また、ターゲットテキストの各単語分割によって得られた単語に対応するリズム、すなわち
図4の「#1」、「#4」など、を決定することができる。さらに接尾辞が追加された各音素、各音調符号化、各音素の属する音節における位置、各音節の属する単語における位置、及び各単語分割によって得られた単語に対応するリズムに基づいて、言語的特徴における対応する特徴項目を生成することができる。これにより、生成された言語的特徴における対応する特徴項目がより豊富になり、さらに後続の言語的特徴に基づいて音声合成を行う際の合成効果がより良くなる。
【0062】
例示的な実施例では、生成された言語的特徴における対応する特徴項目は
図5に示すことができる。英語のアクセント特徴項目に対して、ターゲットテキストが英語である場合、当該特徴項目は0-2であってもよく、ターゲットテキストが中国語または日本語である場合、当該特徴項目は0であってもよい。巻舌音特徴項目に対して、ターゲットテキストが中国語である場合、当該特徴項目は0または1であってもよく(巻舌音が1、非巻舌音が0である)、ターゲットテキストが英語または日本語である場合、当該特徴項目は0であってもよ
い。音節の属する単語における位置という1つの特徴項目に対して、ターゲットテキストが中国語である場合、当該特徴項目は0であってもよい。
【0063】
例示的な実施例では、言語的特徴における対応する特徴項目を生成した後、各特徴項目、例えばonehotを、符号化することができ、これによってターゲットテキストの言語的特徴を生成する。接尾辞が追加された各音素を例として、接尾辞が追加された独立した各音素を音素リストに入れ、音素リストに基づいて各音素の位置インデックスを取得することができ、これによって位置インデックスに基づいて接尾辞が追加された各音素をonehot符号化に変換する。具体的なonehot符号化を行うプロセスは関連技術を参照されたく、ここでは説明を省略する。
【0064】
ステップ206、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する。
【0065】
本開示の実施例の音声合成方法は、合成対象のターゲットテキスト、及び話者の識別子を取得し、ターゲットテキストに含まれる少なくとも1つの文字に対して、少なくとも1つの文字の発音情報を取得し、ターゲットテキストのうちの少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素、音素の組み合わせで得られた音節または字に対応する音調を決定し、ターゲットテキストが属するターゲット言語タイプに基づいて、音素に接尾辞を追加し、音調の音調符号化を決定し、接尾辞が追加された音素、音調符号化、及び音素の属する音節における位置および/または音節の属する単語における位置に基づいて、言語的特徴における対応する特徴項目を生成し、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を得て、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0066】
以上の分析から分かるように、本開示の実施例では、音声合成モデルを用いて、ターゲットテキストの言語的特徴と話者の識別子に基づいて音声合成を行って、ターゲット音声を取得することができる。以下、
図6と併せて、本開示によって提供される音声合成方法では、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得するプロセスをさらに説明する。
【0067】
図6は、本開示の第3の実施例に係る音声合成方法の概略フローチャートである。
図6に示すように、音声合成方法は、以下のステップ601~608を含むことができる。
【0068】
ステップ601、合成対象のターゲットテキスト、及び話者の識別子を取得する。
【0069】
ステップ602、ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得する。
【0070】
ステップ603、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成する。
【0071】
上記ステップ601-603の具体的な実現プロセス及び原理は、上記実施例の説明を参照されたく、ここでは説明を省略する。
【0072】
ステップ604、ターゲットテキストの言語的特徴を、音声合成モデルの第1のエンコーダに入力し、特徴符号化を取得する。
【0073】
特徴符号化はターゲットテキストの言語的特徴を記述することができる。
【0074】
ステップ605、話者の識別子を、音声合成モデルの第2のエンコーダに入力し、話者の音色符号化を取得する。
【0075】
本開示の実施例では、話者は対応する音色特徴を有し、異なる話者は異なる音色特徴を有し、音色符号化が話者の音色特徴を記述することができる。
【0076】
ステップ606、言語的特徴と話者の識別子を、音声合成モデルのスタイルネットワークに入力してターゲットテキストと話者に対応するスタイル符号化を取得する。
【0077】
スタイルネットワークは、話者がターゲットテキストを述べる際のリズム情報、すなわち、話者がターゲットテキストを述べる際の抑揚頓挫とリズムを予測するために使用され、基本周波数、時間長、能力に対するマクロの体現である。スタイル符号化は話者がターゲットテキストを述べる際のリズム情報を記述することができる。
【0078】
ステップ607、スタイル符号化、特徴符号化及び音色符号化を統合し、統合符号化を取得する。
【0079】
ステップ608、音声合成モデルのデコーダを用いて統合符号化を復号して、ターゲット音声の音響スペクトルを取得する。
【0080】
例示的な実施例では、音声合成モデルの構造は
図7に示すように、音声合成モデルは、第1のエンコーダ(Text Encoder)、第2のエンコーダ(Speaker Encoder)、スタイルネットワーク(TP Net)、デコーダ(Decoder)を備える。第1のエンコーダ、第2のエンコーダ及びスタイルネットワークの出力はデコーダの入力に接続される。音声合成モデルの入力はテキストの言語的特徴と話者の識別子であってもよく、出力は音声の音響スペクトルであってもよい。音響スペクトル、例えば、メル(Mel)スペクトルであってもよい。
【0081】
ターゲットテキストの言語的特徴を第1のエンコーダに入力することにより、ターゲットテキストの特徴符号化(Text Encoding)を取得することができる。話者の識別子を第2のエンコーダに入力することにより、話者の音色符号化(Speaker Encoding)を取得することができる。
【0082】
スタイルネットワークは、スタイルエンコーダ(Style Encoder)+第1の畳み込み層(First Conv Layers)+第2の畳み込み層(Second Conv Layers)であってもよく、話者の識別子をスタイルエンコーダに入力することにより、話者に対応するスタイル特徴(Style Feature)を取得することができ、ターゲットテキストの言語的特徴を第2の畳み込み層に入力することにより、ターゲットテキストに対応する言語的特徴符号化(TP Text Encoding)を取得することができ、さらに話者に対応するスタイル特徴とターゲットテキストに対応する言語的特徴符号化を統合し、さらに統合された符号化を第1の畳み込み層に入力することにより、ターゲットテキストと話者に対応するスタイル符号化を取得することができる。
図7の「◇」は、特徴に対して統合処理を行うことを表す。
【0083】
スタイル符号化、特徴符号化及び音色符号化を統合し、統合符号化を取得することができ、さらにデコーダを用いて統合符号化を復号し、ターゲット音声の音響スペクトルを取得することができる。
【0084】
本開示の実施例では、音声合成モデルは細粒度リズムに基づく声学モデルであり、音声合成モデルにおける第1のエンコーダ、第2のエンコーダ、スタイルネットワークを用いて、それぞれリズム情報、テキストの言語的特徴及び話者の音色特徴を組み合わせて音声を合成することにより、音声合成時に、リズム情報は、話者とテキストに結合されたものではなく、独特の特徴として使用し、これによって話者と言語との間の結合度を低下させ、1つの言語での話者に基づいて、複数の言語でのテキストの音声合成を行うシーンでは、1つの種類のリズム情報のみを組み合わせ、2つのリズム情報を同時に組み合わせて音声合成を行うことを回避することができ、これによって音声合成効果を向上させ、合成して得られたターゲット音声の忠実度を向上させる。
【0085】
例示的な実施例では、音声合成モデルを用いて、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行う前に、音声合成モデルを予めトレーニングして取得することができる。音声合成モデルをトレーニングする時、参照ネットワークを設定することができ、音声合成モデルの第1のエンコーダ、第2のエンコーダ、デコーダ及び参照ネットワークに基づいて、トレーニングモデルを生成し、第1のエンコーダ、第2のエンコーダ及び参照ネットワークの出力がデコーダの入力に接続され、トレーニングデータを使用して、トレーニングモデルとスタイルネットワークをトレーニングし、さらにトレーニング後のトレーニングモデルにおける第1のエンコーダ、第2のエンコーダ及びデコーダ、並びにトレーニングされたスタイルネットワークに基づいて、音声合成モデルを生成する。
【0086】
参照ネットワークの構造は
図8を参照されたい。
図8に示すように、参照ネットワークは、参照エンコーダ(Reference Encoder)+注意機構モジュール(Reference Attention)を備えることができる。参照エンコーダが音声から抽出された音響スペクトルを符号化することができ、音響的特徴符号化を得て、音響的特徴符号化を注意機構モジュールに入力されることができ、注意機構モジュールを介して第1エンコーダに入力された言語的特徴とアラインメントし、さらにリズム情報を取得する。
【0087】
トレーニングデータは、テキストサンプルの言語的特徴と、テキストサンプルに対応する音声サンプルと音声サンプルの話者の識別子を含むことができる。
【0088】
なお、生成された音声合成モデルが、1つの言語での話者に対して複数の言語でのテキストの音声合成を実現できるように、トレーニングデータには、複数の言語でのテキストサンプルと対応する音声サンプルが含まれる必要がある。例えば、生成された音声合成モデルが中国語を話す話者に対して、中国語、英語及び日本語という3つの言語でのテキストの音声合成を実現できるように、トレーニングデータには、中国語、英語及び日本語という3つの言語のテキストサンプルと対応する音声サンプルが含まれる必要があり、各言語の音声サンプルの話者の識別子が異なってもよく、すなわち、トレーニングデータがシングル多言語のトレーニングコーパスを要求しない。また、各言語の音声サンプルの話者の数は予め設定された閾値、例えば5、より大きいであってよく、これによってモデルのトレーニング効果を向上させる。また、シングル多言語の音声合成を実現するために、本開示の実施例では各言語でのテキストサンプルの言語的特徴を一括で設計し且つ符号化する。トレーニングデータにおけるテキストサンプルは、
図4に示す形式を用いて手動で表記することができる。
【0089】
例示的な実施例では、トレーニングデータを使用して、トレーニングモデルとスタイルネットワークをトレーニングする時、トレーニングモデルとスタイルネットワークを同期トレーニングする方式を採用することができる。具体的なトレーニングプロセスは以下通りである。
【0090】
テキストサンプルの言語的特徴をトレーニングモデルにおける第1のエンコーダに入力し、音声サンプルの話者の識別子をトレーニングモデルの第2のエンコーダに入力する。音声サンプルをトレーニングモデルの参照ネットワークに入力する。参照ネットワークの出力、第1のエンコーダの出力及び第2のエンコーダの出力を統合し、トレーニングモデルにおけるデコーダを用いて復号して、予測音響スペクトルを取得する。予測音響スペクトルと音声サンプルの音響スペクトルとの差異に基づいて、トレーニングモデルに対してモデルパラメータ調整を行う。テキストサンプルの言語的特徴と音声サンプルの話者の識別子をスタイルネットワークに入力する。スタイルネットワークの出力と参照ネットワークの出力との差異に基づいて、スタイルネットワークに対してモデルパラメータ調整を行う。
【0091】
具体的には、1つまたは複数のテキストサンプルの言語的特徴、テキストサンプルに対応する言語サンプル及び音声サンプルの話者の識別子に対して、テキストサンプルの言語的特徴をトレーニングモデルの第1のエンコーダに入力し、テキストサンプルの言語的特徴に対応する特徴符号化を得て、音声サンプルの話者の識別子をトレーニングモデルの第2のエンコーダに入力し、話者に対応
する音色符号化を得て、音声サンプルをトレーニングモデルの参照ネットワークに入力し、音声サンプルのリズム情報を得て、さらに参照ネットワークから出力されたリズム情報、第1のエンコーダから出力された特徴符号化及び第2のエンコーダから出力された音色符号化を統合し、デコーダを用いて統合された特徴を復号し、予測音響スペクトルを取得することができる。さらに予測音響スペクトルと音声サンプルの音響スペクトルとの差異を組み合わせ、トレーニングモデルに対してモデルパラメータ調整を行う。テキストサンプルの言語的特徴をトレーニングモデルの第1のエンコーダに入力して音声サンプルの話者の識別子をトレーニングモデルの第2のエンコーダに入力すると同時に、テキストサンプルの言語的特徴と音声サンプルの話者の識別子をスタイルネットワークに入力し、スタイルネットワークから出力されたスタイル符号化を得て、スタイルネットワークから出力されたスタイル符号化と参照ネットワークから出力されたリズム情報との差異に基づいて、スタイルネットワークに対してモデルパラメータ調整を行うことができる。
【0092】
これにより、トレーニングサンプルに含まれる複数のテキストサンプルの言語的特徴、テキストサンプルに対応する音声サンプル及び音声サンプルの話者の識別子に基づいて、トレーニングモデルとスタイルネットワークのモデルパラメータを絶えずに調整してトレーニングモデルとスタイルネットワークを反復トレーニングして、トレーニングモデルとスタイルネットワークの出力結果の精度が予め設定された閾値を満たすと、トレーニングが終了し、トレーニングされたトレーニングモデルとスタイルネットワークを取得する。トレーニングモデルとスタイルネットワークをトレーニングした後、トレーニング後のトレーニングモデルにおける第1のエンコーダ、第2のエンコーダ、デコーダ、並びにトレーニング後のスタイルネットワークに基づいて、音声合成モデルを生成することができる。
【0093】
第1のエンコーダ、第2のエンコーダ、デコーダ、参照ネットワークで構成されたトレーニングモデル及びスタイルネットワークを同期トレーニングし、トレーニング終了後に第1のエンコーダ、第2のエンコーダ、デコーダ、及びスタイルネットワークに基づいて音声合成モデルを生成し、すなわち、モデルトレーニングを行う時に入力が音声サンプルである参照ネットワークを組み合わせてトレーニングし、トレーニング後に参照ネットワークが必要とされず、トレーニング後の音声合成モデルを用いて音声合成を行う時に音声入力への依存から逃れることができ、任意のテキストに対して音声合成モデルを用いて音声合成を行うことができ、トレーニングモデルとスタイルネットワークを同期トレーニングする方式により、モデルのトレーニング効率を向上させることができる。
【0094】
以上のようにして、本開示の実施例の音声合成方法は、合成対象のターゲットテキスト、及び話者の識別子を取得し、ターゲットテキストに含まれる少なくとも1つの文字に対して、少なくとも1つの文字の発音情報を取得し、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、ターゲットテキストの言語的特徴を、音声合成モデルの第1のエンコーダに入力し、特徴符号化を得て、話者の識別子を、音声合成モデルの第2のエンコーダに入力し、話者の音色符号化を得て、言語的特徴と話者の識別子を、音声合成モデルのスタイルネットワークに入力してターゲットテキストと話者に対応するスタイル符号化を得て、スタイル符号化、特徴符号化及び音色符号化を統合し、統合符号化を得て、音声合成モデルのデコーダを用いて統合符号化を復号して、ターゲット音声の音響スペクトルを得て、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができ、音声合成の効果を向上させ、合成して得られたターゲット音声の忠実度を向上させる。
【0095】
以下、
図9と併せて、本開示によって提供される音声合成装置を説明する。
【0096】
図9は、本開示の第4の実施例に係る音声合成装置の概略構成図である。
【0097】
図9に示すように、本開示によって提供される音声合成装置900は、第1の取得モジュール901、第2の取得モジュール902、抽出モジュール903及び合成モジュール904を備える。
【0098】
第1の取得モジュール901は、合成対象のターゲットテキスト、及び話者の識別子を取得し、第2の取得モジュール902は、ターゲットテキストのうちの少なくとも1つの文字の発音情報を取得し、抽出モジュール903は、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、合成モジュール904は、ターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する。
【0099】
なお、本実施例によって提供される音声合成装置は、上記の実施例の音声合成方法を実行することができる。当該音声合成装置は、電子機器や、電子機器に構成されたソフトウェアなどであってもよく、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0100】
電子機器は、データ処理が可能な任意の静止又はモバイルコンピューティング機器、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティング機器、又はデスクトップコンピュータなどの静止のコンピューティング機器、又はサーバ、又はその他のタイプのコンピューティング機器などであってもよく、本開示はこれに対して限定しない。
【0101】
なお、上記の音声合成方法についての説明は、本開示によって提供される音声合成装置にも適用され、ここでは説明を省略する。
【0102】
本開示の実施例によって提供される音声合成装置は、まず、合成対象のターゲットテキスト、及び話者の識別子を取得し、さらにターゲットテキストのうちの少なくとも1つの文字の発音情報を取得し、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、さらにターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する。これにより、合成対象のターゲットテキストの言語的特徴と話者の識別子に基づいて言語合成を行うことにより、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0103】
図10と併せて、本開示によって提供される音声合成装置を説明する。
【0104】
図10は、本開示の第5の実施例に係る音声合成装置の概略構成図である。
【0105】
図10に示すように、音声合成装置1000は、具体的に、第1の取得モジュール1001、第2の取得モジュール1002、抽出モジュール1003及び合成モジュール1004を備えることができる。
図10の第1の取得モジュール1001、第2の取得モジュール1002、抽出モジュール1003及び合成モジュール1004は、
図9の第1の取得モジュール901、第2の取得モジュール902、抽出モジュール903及び合成モジュール904と同じ機能と構造を有す。
【0106】
例示的な実施例では、抽出モジュール1003は、ターゲットテキストのうちの少なくとも1つの文字の発音情報に基づいて、少なくとも1つの文字に含まれる音素、及び音素の組み合わせで得られた音節や単語に対応する音調を決定する第1の決定ユニット10031と、ターゲットテキストが属するターゲット言語タイプに基づいて、音素に接尾辞を追加し、音調の音調符号化を決定する第2の決定ユニット10032と、接尾辞が追加された音素と音調符号化、及び音素の属する音節における位置および/または音節の属する単語における位置に基づいて、言語的特徴における対応する特徴項目を生成する第1の生成ユニット10033と、を備える。
【0107】
例示的な実施例では、第1の決定ユニット10031は、ターゲットテキストのうちの少なくとも1つの文字に対して、文字の発音情報における声調、アクセント及び巻舌音のうちの1つまたは複数の組み合わせに基づいて、音素の組み合わせで得られた音節または単語に対応する音調を決定する決定サブユニットを備える。
【0108】
例示的な実施例では、抽出モジュール1003は、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストを単語に分割し、各単語分割によって得られた単語に対応するリズムを決定する第3の決定ユニット10034と、各単語分割によって得られた単語に対応するリズムに基づいて、言語的特徴における対応する特徴項目を生成する第2の生成ユニット10035と、をさらに備える。
【0109】
例示的な実施例では、合成モジュール1004は、ターゲットテキストの言語的特徴を、音声合成モデルの第1のエンコーダに入力し、特徴符号化を取得する第1の符号化ユニットと、話者の識別子を、音声合成モデルの第2のエンコーダに入力し、話者の音色符号化を取得する第2の符号化ユニットと、言語的特徴と話者の識別子を、音声合成モデルのスタイルネットワークに入力してターゲットテキストと話者に対応するスタイル符号化を取得する第3の符号化ユニットと、スタイル符号化、特徴符号化及び音色符号化を統合し、統合符号化を取得する統合ユニットと、音声合成モデルのデコーダを用いて統合符号化を復号して、ターゲット音声の音響スペクトルを取得する復号ユニットと、を備える。
【0110】
例示的な実施例では、音声合成装置1000は、音声合成モデルの第1のエンコーダ、第2のエンコーダ、デコーダ及び参照ネットワークに基づいて、トレーニングモデルを生成する第1の生成モジュールであって、第1のエンコーダ、第2のエンコーダ及び参照ネットワークの出力がデコーダの入力に接続される第1の生成モジュールと、トレーニングデータを使用して、トレーニングモデルとスタイルネットワークをトレーニングするトレーニングモジュールと、トレーニング後のトレーニングモデルにおける第1のエンコーダ、第2のエンコーダ及びデコーダ、並びにトレーニングされたスタイルネットワークに基づいて、音声合成モデルを生成する第2の生成モジュールと、をさらに備えることができる。
【0111】
例示的な実施例では、トレーニングデータは、テキストサンプルの言語的特徴と、テキストサンプルに対応する音声サンプルと音声サンプルの話者の識別子を含む。
【0112】
トレーニングモジュールは、テキストサンプルの言語的特徴をトレーニングモデルにおける第1のエンコーダに入力し、音声サンプルの話者の識別子をトレーニングモデルの第2のエンコーダに入力する第1の処理ユニットと、音声サンプルをトレーニングモデルの参照ネットワークに入力する第2の処理ユニットと、参照ネットワークの出力、第1のエンコーダの出力及び第2のエンコーダの出力を統合し、トレーニングモデルにおけるデコーダを用いて復号して、予測音響スペクトルを取得する第3の処理ユニットと、を備える。
【0113】
第1の調整ユニットは、予測音響スペクトルと音声サンプルの音響スペクトルとの差異に基づいて、トレーニングモデルに対してモデルパラメータ調整を行い、第4の処理ユニットは、テキストサンプルの言語的特徴と音声サンプルの話者の識別子をスタイルネットワークに入力し、第2の調整ユニットは、スタイルネットワークの出力と参照ネットワークの出力との差異に基づいて、スタイルネットワークに対してモデルパラメータ調整を行う。
【0114】
なお、上記の音声合成方法についての説明は、本開示によって提供される音声合成装置にも適用され、ここでは説明を省略する。
【0115】
本開示の実施例によって提供される音声合成装置は、まず、合成対象のターゲットテキスト、及び話者の識別子を取得し、さらにターゲットテキストのうちの少なくとも1つの文字の発音情報を取得し、ターゲットテキストが属するターゲット言語に基づいて、ターゲットテキストのうちの少なくとも1つの文字の発音情報に対して特徴抽出を行って、ターゲットテキストの言語的特徴を生成し、さらにターゲットテキストの言語的特徴と話者の識別子に基づいて、音声合成を行って、ターゲット音声を取得する。これにより、合成対象のターゲットテキストの言語的特徴と話者の識別子に基づいて言語合成を行うことにより、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0116】
図11は、本開示の実施例を実行するための例示的な電子機器1100の概略ブロック図である。
【0117】
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
【0118】
図11に示すように、電子機器1100は、読み取り専用メモリ(ROM)1102に記憶されているコンピュータプログラムまたは記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット1101を備える。RAM 1103には、電子機器1100の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット1101、ROM 1102、およびRAM 1103は、バス1104を介して互いに接続されている。パス1104には、入力/出力(I/O)インターフェース1105も接続されている。
【0119】
電子機器1100の複数のコンポーネントはI/Oインターフェース905に接続され、キーボード、マウスなどの入力ユニット1106、各タイプのディスプレイ、スピーカなどの出力ユニット1107、磁気ディスク、光ディスクなどの記憶ユニット1108、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1109を備える。通信ユニット1109は、電子機器1100が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0120】
計算ユニット1101は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1101のいくつかの例は、中央処理装置(CPU)、グラフィック処理装置(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1101は、前文に記載の各方法及び処理、例えば、音声合成方法を実行する。例えば、いくつかの実施例では、音声合成方法を、記憶ユニット1108などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 1102および/または通信ユニット1109を介して電子機器1100にロードおよび/またはインストールされてもよい。コンピュータプログラムは、RAM 1103にロードされ且つ計算ユニット1101によって実行される場合、前文に記載の音声合成方法の1つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1101は音声合成方法を実行するように、他の任意の適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
【0121】
本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行および/または解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0122】
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
【0123】
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツのいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。
【0124】
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0125】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。いずれかの形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
【0126】
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0127】
本開示はコンピュータ技術の分野に関し、特に深層学習、音声技術などの人工知能技術の分野に関す。
【0128】
なお、人工知能はコンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術ともある。人工知能ハードウェア技術は一般にセンサ、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
【0129】
本開示の実施例の技術案によれば、合成対象のターゲットテキストの言語的特徴と話者の識別子に基づいて言語合成を行うことにより、1つの言語での話者に対して、複数の言語でのテキストの音声合成を実現することができる。
【0130】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
【0131】
上記具体的な実施形態は、本
開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。