IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京京▲東▼尚科信息技▲術▼有限公司の特許一覧 ▶ 北京京東世紀貿易有限公司の特許一覧

<>
  • 特許-音声合成方法及び装置、記憶媒体 図1
  • 特許-音声合成方法及び装置、記憶媒体 図2
  • 特許-音声合成方法及び装置、記憶媒体 図3
  • 特許-音声合成方法及び装置、記憶媒体 図4
  • 特許-音声合成方法及び装置、記憶媒体 図5
  • 特許-音声合成方法及び装置、記憶媒体 図6
  • 特許-音声合成方法及び装置、記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-03
(45)【発行日】2023-03-13
(54)【発明の名称】音声合成方法及び装置、記憶媒体
(51)【国際特許分類】
   G10L 13/08 20130101AFI20230306BHJP
   G10L 13/10 20130101ALI20230306BHJP
   G10L 25/30 20130101ALI20230306BHJP
【FI】
G10L13/08 160
G10L13/10 113Z
G10L25/30
【請求項の数】 12
(21)【出願番号】P 2022503851
(86)(22)【出願日】2020-03-18
(65)【公表番号】
(43)【公表日】2022-09-13
(86)【国際出願番号】 CN2020079930
(87)【国際公開番号】W WO2021051765
(87)【国際公開日】2021-03-25
【審査請求日】2022-01-24
(31)【優先権主張番号】201910878228.3
(32)【優先日】2019-09-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519274389
【氏名又は名称】北京京▲東▼尚科信息技▲術▼有限公司
【氏名又は名称原語表記】BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY CO., LTD.
【住所又は居所原語表記】8TH FLOOR OF BUILDING, NO. 76, ZHICHUN ROAD, HAIDIAN DISTRICT, BEIJING 100086, PEOPLE’S REPUBLIC OF CHINA
(73)【特許権者】
【識別番号】517241916
【氏名又は名称】北京京東世紀貿易有限公司
【氏名又は名称原語表記】BEIJING JINGDONG CENTURY TRADING CO., LTD.
【住所又は居所原語表記】Room 201, 2/F, Block C, No.18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】100102842
【弁理士】
【氏名又は名称】葛和 清司
(72)【発明者】
【氏名】ウー,ジチェン
(72)【発明者】
【氏名】ソン,ウェイ
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2019/139430(WO,A1)
【文献】米国特許出願公開第2019/0122651(US,A1)
【文献】特開2008-107454(JP,A)
【文献】特開2019-120841(JP,A)
【文献】特開2003-295880(JP,A)
【文献】中国特許出願公開第109036375(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,25/30
(57)【特許請求の範囲】
【請求項1】
音声合成方法であって、
合成待ちセンテンスのキャラクタ系列を取得するステップであって、前記合成待ちセンテンスに、目標対象を表す録音センテンスと前記目標対象に関するクエリ結果センテンスとが含まれるステップと、
予め設定された符号化モデルを用いて、前記キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るステップと、
前記録音センテンスに対応する録音音声特徴を取得するステップと、
予め設定された復号モデル、前記特徴ベクトル集合、予め設定されたアテンションモデル及び前記録音音声特徴に基づいて、前記合成待ちセンテンスに対応する音声特徴を予測し、前記合成待ちセンテンスに対応する予測音声特徴を得るステップであって、前記予め設定されたアテンションモデルは、前記特徴ベクトル集合を用いて、復号するためのコンテキストベクトルを生成するモデルであり、前記予測音声特徴は、関連し合う少なくとも1つの音声特徴で構成されるステップと、
前記予測音声特徴に対して特徴変換と合成を行い、前記合成待ちセンテンスに対応する音声を得るステップと、を含む、
音声合成方法。
【請求項2】
予め設定された復号モデル、前記特徴ベクトル集合、予め設定されたアテンションモデル及び前記録音音声特徴に基づいて、前記合成待ちセンテンスに対応する音声特徴を予測し、前記合成待ちセンテンスに対応する予測音声特徴を得るステップは、
iが1に等しい場合、i番目の復号時刻に、初期音声特徴を取得し、前記初期音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、1番目の音声特徴を予測するステップであって、iが0よりも大きい整数であるステップと、
iが1よりも大きい場合、前記i番目の復号時刻が前記録音センテンスの復号時刻である場合、前記録音音声特徴から第jフレームの音声特徴を取り出し、前記第jフレームの音声特徴を第i-1フレームの音声特徴とし、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測するステップであって、jが0よりも大きい整数であるステップと、
前記i番目の復号時刻が前記クエリ結果センテンスの復号時刻である場合、i-1番目の音声特徴における1フレームの音声特徴を第i-1フレームの音声特徴とし、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測するステップと、
前記合成待ちセンテンスの復号が完了してn番目の音声特徴を得るまで、i+1番目の復号時刻の予測プロセスを続行するステップであって、nが前記合成待ちセンテンスの復号時刻の総フレーム数であり、且つ1よりも大きい整数であるステップと、
得られた前記i番目の音声特徴~前記n番目の音声特徴を前記予測音声特徴とするステップと、を含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記予め設定された復号モデルは、第1リカレントニューラルネットワークと第2リカレントニューラルネットワークとを含み、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測するステップは、
前記第i-1フレームの音声特徴に対して非線形変換を行い、中間特徴ベクトルを得るステップと、
前記第1リカレントニューラルネットワークを利用して、前記中間特徴ベクトルに対してマトリックス演算及び非線形変換を行い、i番目の中間隠れ変数を得るステップと、
前記予め設定されたアテンションモデルを利用して、前記特徴ベクトル集合及び前記i番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得るステップと、
前記第2リカレントニューラルネットワークを利用して、前記i番目のコンテキストベクトル及び前記i番目の中間隠れ変数に対してマトリックス演算及び非線形変換を行い、i番目の隠れ変数を得るステップと、
予め設定されたフレーム数に従って、前記i番目の隠れ変数に対して線形変換を行い、前記i番目の音声特徴を得るステップと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記特徴ベクトル集合には、前記キャラクタ系列の各キャラクタに対応する特徴ベクトルが含まれ、前記予め設定されたアテンションモデルを利用して、前記特徴ベクトル集合及び前記i番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得るステップは、
前記予め設定されたアテンションモデルを利用して、前記キャラクタ系列の各キャラクタに対応する特徴ベクトルと前記i番目の中間隠れ変数とに対してアテンションの計算を行い、第i組のアテンション値を得るステップと、
前記第i組のアテンション値に基づいて、前記特徴ベクトル集合に対して加重和を計算し、前記i番目のコンテキストベクトルを得るステップと、を含むことを特徴とする
請求項3に記載の方法。
【請求項5】
前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測した後に、i+1番目の復号時刻の予測プロセスを続行する前に、前記方法は、
前記第i組のアテンション値から最大アテンション値に対応するi番目の目標キャラクタを決定するステップと、
前記i番目の目標キャラクタが前記録音センテンスの非終了キャラクタである場合、前記i+1番目の復号時刻が前記録音センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記クエリ結果センテンスの非終了キャラクタである場合、前記i+1番目の復号時刻が前記クエリ結果センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記録音センテンスの終了キャラクタであり、且つ前記録音センテンスの終了キャラクタが前記合成待ちセンテンスの終了キャラクタではない場合、前記i+1番目の復号時刻が前記クエリ結果センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記クエリ結果センテンスの終了キャラクタであり、且つ前記クエリ結果センテンスの終了キャラクタが前記合成待ちセンテンスの終了キャラクタではない場合、前記第i+1番目の復号時刻が前記録音センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記合成待ちセンテンスの終了キャラクタである場合、前記i+1番目の復号時刻が前記合成待ちセンテンスの復号終了時刻であることを決定するステップと、をさらに含むことを特徴とする
請求項4に記載の方法。
【請求項6】
予め設定された符号化モデルを用いて、前記キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るステップは、
前記予め設定された符号化モデルを用いて、前記キャラクタ系列に対してベクトル変換を行い、初期特徴ベクトル集合を得るステップと、
前記初期特徴ベクトル集合に対して非線形変換及び特徴抽出を行い、前記特徴ベクトル集合を得るステップと、を含むことを特徴とする
請求項1に記載の方法。
【請求項7】
前記予測音声特徴に対して特徴変換と合成を行い、前記合成待ちセンテンスに対応する音声を得るステップは、
前記予測音声特徴に対して特徴変換を行い、線形スペクトルを得るステップと、
前記線形スペクトルに対して再構成合成を行い、前記音声を得るステップと、を含むことを特徴とする
請求項1に記載の方法。
【請求項8】
前記キャラクタ系列は、字母系列又は音素系列であることを特徴とする
請求項1に記載の方法。
【請求項9】
合成待ちセンテンスのキャラクタ系列を取得するステップの前に、前記方法は、
少なくとも1つのサンプル合成センテンスにそれぞれ対応するサンプルキャラクタ系列を取得するステップであって、前記各サンプル合成センテンスは、サンプル対象及び前記サンプル対象に関する参考クエリ結果を表すステップと、
初期音声合成モデル、初期音声特徴及び前記サンプル合成センテンスに対応するサンプル音声特徴を取得するステップであって、前記初期音声合成モデルは、符号化処理及び予測を行うためのモデルであるステップと、
前記サンプルキャラクタ系列、前記初期音声特徴及び前記サンプル音声特徴を利用して、前記初期音声合成モデルに対して訓練を行い、前記予め設定された符号化モデル、前記予め設定された復号モデル及び前記予め設定されたアテンションモデルを得るステップと、をさらに含むことを特徴とする
請求項1に記載の方法。
【請求項10】
音声合成装置であって、系列生成モジュール、音声合成モジュール及び取得モジュールを備え、
前記系列生成モジュールは、合成待ちセンテンスのキャラクタ系列を取得するように構成され、前記合成待ちセンテンスに、目標対象を表す録音センテンスと前記目標対象に関するクエリ結果センテンスとが含まれ、
前記音声合成モジュールは、予め設定された符号化モデルを用いて、前記キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るように構成され、
前記取得モジュールは、前記録音センテンスに対応する録音音声特徴を取得するように構成され、
前記音声合成モジュールは、さらに予め設定された復号モデル、前記特徴ベクトル集合、予め設定されたアテンションモデル及び前記録音音声特徴に基づいて、前記合成待ちセンテンスに対応する音声特徴を予測し、前記合成待ちセンテンスに対応する予測音声特徴を得、前記予め設定されたアテンションモデルは、前記特徴ベクトル集合を用いて、復号するためのコンテキストベクトルを生成するモデルであり、前記予測音声特徴は、関連し合う少なくとも1つの音声特徴で構成され、前記予測音声特徴に対して特徴変換と合成を行い、前記合成待ちセンテンスに対応する音声を得るように構成される、
音声合成装置。
【請求項11】
音声合成装置であって、プロセッサと、メモリと、通信バスとを備え、前記メモリは、前記通信バスを介して前記プロセッサと通信し、前記メモリは、前記プロセッサで実行可能な1つ又は複数のプログラムを記憶し、前記1つ又は複数のプログラムが実行される時に、前記プロセッサにより、請求項1-9のいずれか一項に記載の方法を実行する、
音声合成装置。
【請求項12】
プログラムが記憶され、前記プログラムが少なくとも1つのプロセッサに実行される場合、前記少なくとも1つのプロセッサが請求項1-9のいずれか一項に記載の方法を実行する、
コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、出願番号が201910878228.3であり、出願日が2019年9月17日である中国特許出願に基づいて提出され、当該中国特許出願の優先権を主張し、当該中国特許出願の全内容は、参照により本出願に組み込まれる。
本発明の実施例は、電子応用分野における音声処理技術に関し、特に音声合成方法及び装置、記憶媒体に関する。
【背景技術】
【0002】
現在、音声合成技術は、スマートスピーカー、アウトバウンドコールシステム及び番号呼出システムなどの多くのスマートデバイスに適用され、スマートデバイスは、ユーザからの目標対象に関するクエリ要求を受けた後、クエリ要求に基づいて、目標対象及びクエリ結果を表す合成待ちセンテンスを生成してから、合成待ちセンテンスを完全な音声に変換して再生し、それによって目標対象に関するクエリ結果をユーザに通知する。合成待ちセンテンスを完全な音声に変換する時に、合成待ちセンテンスにおける固定である目標対象に対しては事前に録音し、合成待ちセンテンスにおける動的なクエリ結果に対しては、音声合成方式によりクエリ結果に対応する合成音声を合成し、録音音声と合成音声を結合し、合成待ちセンテンスの完全な音声を得る。
【0003】
しかしながら、録音音声を生成するプロセスと合成音声を生成するプロセスとが別々に行われるため、録音音声と合成音声の発話速度、音調などが異なり、その結果、録音音声と合成音声とを組み合わせた完全な音声の韻律が不整合であり、さらに録音音声と合成音声の間の遷移時間長にも不確実性があり、音声品質が良くない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、合成された音声の韻律の整合性を実現し、合成された音声の品質を向上させる音声合成方法及び装置、記憶媒体を提供することを目的とする。
本発明の技術案は、次のように実現される。
【課題を解決するための手段】
【0005】
本発明の実施例による音声合成方法は、
合成待ちセンテンスのキャラクタ系列を取得するステップであって、前記合成待ちセンテンスに、目標対象を表す録音センテンスと前記目標対象に関するクエリ結果センテンスとが含まれるステップと、
予め設定された符号化モデルを用いて、前記キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るステップと、
前記録音センテンスに対応する録音音声特徴を取得するステップと、
予め設定された復号モデル、前記特徴ベクトル集合、予め設定されたアテンションモデル及び前記録音音声特徴に基づいて、前記合成待ちセンテンスに対応する音声特徴を予測し、前記合成待ちセンテンスに対応する予測音声特徴を得るステップであって、前記予め設定されたアテンションモデルは、前記特徴ベクトル集合を用いて、復号するためのコンテキストベクトルを生成するモデルであり、前記予測音声特徴は、関連し合う少なくとも1つの音声特徴で構成されるステップと、
前記予測音声特徴に対して特徴変換と合成を行い、前記合成待ちセンテンスに対応する音声を得るステップと、を含む。
【0006】
上記案では、予め設定された復号モデル、前記特徴ベクトル集合、予め設定されたアテンションモデル及び前記録音音声特徴に基づいて、前記合成待ちセンテンスに対応する音声特徴を予測し、前記合成待ちセンテンスに対応する予測音声特徴を得るステップは、
iが1に等しい場合、i番目の復号時刻に、初期音声特徴を取得し、前記初期音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、1番目の音声特徴を予測するステップであって、iが0よりも大きい整数であるステップと、
iが1よりも大きい場合、前記i番目の復号時刻が前記録音センテンスの復号時刻である場合、前記録音音声特徴から第jフレームの音声特徴を取り出し、前記第jフレームの音声特徴を第i-1フレームの音声特徴とし、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測するステップであって、jが0よりも大きい整数であるステップと、
前記i番目の復号時刻が前記クエリ結果センテンスの復号時刻である場合、i-1番目の音声特徴における1フレームの音声特徴を第i-1フレームの音声特徴とし、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測するステップと、
前記合成待ちセンテンスの復号が完了してn番目の音声特徴を得るまで、i+1番目の復号時刻の予測プロセスを続行するステップであって、nが前記合成待ちセンテンスの復号時刻の総フレーム数であり、且つ1よりも大きい整数であるステップと、
得られた前記i番目の音声特徴~前記n番目の音声特徴を前記予測音声特徴とするステップと、を含む。
【0007】
上記案では、前記予め設定された復号モデルは、第1リカレントニューラルネットワークと第2リカレントニューラルネットワークとを含み、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測するステップは、
前記i-1フレームの音声特徴に対して非線形変換を行い、中間特徴ベクトルを得るステップと、
前記第1リカレントニューラルネットワークを利用して、前記中間特徴ベクトルに対してマトリックス演算及び非線形変換を行い、i番目の中間隠れ変数を得るステップと、
前記予め設定されたアテンションモデルを利用して、前記特徴ベクトル集合及び前記i番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得るステップと、
前記第2リカレントニューラルネットワークを利用して、前記i番目のコンテキストベクトル及び前記i番目の中間隠れ変数に対してマトリックス演算及び非線形変換を行い、i番目の隠れ変数を得るステップと、
予め設定されたフレーム数に従って、前記i番目の隠れ変数に対して線形変換を行い、前記i番目の音声特徴を得るステップと、を含む。
【0008】
上記案では、前記特徴ベクトル集合には、前記キャラクタ系列の各キャラクタに対応する特徴ベクトルが含まれ、前記予め設定されたアテンションモデルを利用して、前記特徴ベクトル集合及び前記i番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得るステップは、
前記予め設定されたアテンションモデルを利用して、前記キャラクタ系列の各キャラクタに対応する特徴ベクトルと前記i番目の中間隠れ変数とに対してアテンションの計算を行い、第i組のアテンション値を得るステップと、
前記第i組のアテンション値に基づいて、前記特徴ベクトル集合に対して加重和を計算し、前記i番目のコンテキストベクトルを得るステップと、を含む。
【0009】
上記案では、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測した後に、i+1番目の復号時刻の予測プロセスを続行する前に、前記方法は、
前記第i組のアテンション値から最大アテンション値に対応するi番目の目標キャラクタを決定するステップと、
前記i番目の目標キャラクタが前記録音センテンスの非終了キャラクタである場合、前記i+1番目の復号時刻が前記録音センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記クエリ結果センテンスの非終了キャラクタである場合、前記i+1番目の復号時刻が前記クエリ結果センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記録音センテンスの終了キャラクタであり、且つ前記録音センテンスの終了キャラクタが前記合成待ちセンテンスの終了キャラクタではない場合、前記i+1番目の復号時刻が前記クエリ結果センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記クエリ結果センテンスの終了キャラクタであり、且つ前記クエリ結果センテンスの終了キャラクタが前記合成待ちセンテンスの終了キャラクタではない場合、前記第i+1番目の復号時刻が前記録音センテンスの復号時刻であることを決定するステップ、
及び/又は、前記i番目の目標キャラクタが前記合成待ちセンテンスの終了キャラクタである場合、前記i+1番目の復号時刻が前記合成待ちセンテンスの復号終了時刻であることを決定するステップと、をさらに含む。
【0010】
上記案では、予め設定された符号化モデルを用いて、前記キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るステップは、
前記予め設定された符号化モデルを用いて、前記キャラクタ系列に対してベクトル変換を行い、初期特徴ベクトル集合を得るステップと、
前記初期特徴ベクトル集合に対して非線形変換及び特徴抽出を行い、前記特徴ベクトル集合を得るステップと、を含む。
上記案では、前記予測音声特徴に対して特徴変換と合成を行い、前記合成待ちセンテンスに対応する音声を得るステップは、
前記予測音声特徴に対して特徴変換を行い、線形スペクトルを得るステップと、
前記線形スペクトルに対して再構成合成を行い、前記音声を得るステップと、を含む。
【0011】
上記案では、前記キャラクタ系列は、字母系列又は音素系列である。
上記案では、合成待ちセンテンスのキャラクタ系列を取得するステップの前に、前記方法は、
少なくとも1つのサンプル合成センテンスにそれぞれ対応するサンプルキャラクタ系列を取得するステップであって、前記各サンプル合成センテンスは、サンプル対象及び前記サンプル対象に関する参考クエリ結果を表すステップと、
初期音声合成モデル、初期音声特徴及び前記サンプル合成センテンスに対応するサンプル音声特徴を取得するステップであって、前記初期音声合成モデルは、符号化処理及び予測を行うためのモデルであるステップと、
前記サンプルキャラクタ系列、前記初期音声特徴及び前記サンプル音声特徴を利用して、前記初期音声合成モデルに対して訓練を行い、前記予め設定された符号化モデル、前記予め設定された復号モデル及び前記予め設定されたアテンションモデルを得るステップと、をさらに含む。
【0012】
本発明の実施例による音声合成装置は、系列生成モジュールと、音声合成モジュールと、取得モジュールとを備え、ここで、
前記系列生成モジュールは、合成待ちセンテンスのキャラクタ系列を取得するように構成され、前記合成待ちセンテンスに、目標対象を表す録音センテンスと前記目標対象に関するクエリ結果センテンスとが含まれ、
前記音声合成モジュールは、予め設定された符号化モデルを用いて、前記キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るように構成され、
前記取得モジュールは、前記録音センテンスに対応する録音音声特徴を取得するように構成され、
前記音声合成モジュールは、さらに予め設定された復号モデル、前記特徴ベクトル集合、予め設定されたアテンションモデル及び前記録音音声特徴に基づいて、前記合成待ちセンテンスに対応する音声特徴を予測し、前記合成待ちセンテンスに対応する予測音声特徴を得、前記予め設定されたアテンションモデルは、前記特徴ベクトル集合を用いて、復号するためのコンテキストベクトルを生成するモデルであり、前記予測音声特徴は、関連し合う少なくとも1つの音声特徴で構成され、前記予測音声特徴に対して特徴変換と合成を行い、前記合成待ちセンテンスに対応する音声を得るように構成される。
【0013】
上記案では、前記音声合成モジュールは、iが1に等しい場合、i番目の復号時刻に、初期音声特徴を取得し、前記初期音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、1番目の音声特徴を予測し、iが0よりも大きい整数であり、
iが1よりも大きい場合、前記i番目の復号時刻が前記録音センテンスの復号時刻である場合、前記録音音声特徴から第jフレームの音声特徴を取り出し、前記第jフレームの音声特徴を第i-1フレームの音声特徴とし、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測し、jが0よりも大きい整数であり、
前記i番目の復号時刻が前記クエリ結果センテンスの復号時刻である場合、i-1番目の音声特徴における1フレームの音声特徴を第i-1フレームの音声特徴とし、前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測し、
前記合成待ちセンテンスの復号が完了するまで、i+1番目の復号時刻の予測プロセスを続行し、n番目の音声特徴を取得し、nが前記合成待ちセンテンスの復号時刻の総フレーム数であり、且つ1よりも大きい整数であり、
得られた前記i番目の音声特徴~前記n番目の音声特徴を前記予測音声特徴とするように構成される。
【0014】
上記案では、前記予め設定された復号モデルは、第1リカレントニューラルネットワークと第2リカレントニューラルネットワークとを含み、
前記音声合成モジュールは、前記第i-1フレームの音声特徴に非線形変換を行い、中間特徴ベクトルを得、及び前記第1リカレントニューラルネットワークを利用して、前記中間特徴ベクトルに対してマトリックス演算及び非線形変換を行い、i番目の中間隠れ変数を得、前記予め設定されたアテンションモデルを利用して、前記特徴ベクトル集合及び前記i番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得、前記第2リカレントニューラルネットワークを利用して、前記i番目のコンテキストベクトル及び前記i番目の中間隠れ変数に対してマトリックス演算及び非線形変換を行い、i番目の隠れ変数を得、予め設定されたフレーム数に従って、前記i番目の隠れ変数に対して線形変換を行い、前記i番目の音声特徴を得るように構成される。
【0015】
上記案では、前記特徴ベクトル集合には、前記キャラクタ系列の各キャラクタに対応する特徴ベクトルが含まれ、
前記音声合成モジュールは、前記予め設定されたアテンションモデルを利用して、前記キャラクタ系列の各キャラクタに対応する特徴ベクトルと前記i番目の中間隠れ変数とに対してアテンションの計算を行い、第i組のアテンション値を得、及び前記第i組のアテンション値に基づいて、前記特徴ベクトル集合に対して加重和を計算し、前記i番目のコンテキストベクトルを得るように構成される。
【0016】
上記案では、前記音声合成モジュールは、さらに前記第i-1フレームの音声特徴、前記予め設定された復号モデル、前記特徴ベクトル集合及び前記予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測した後に、i+1番目の復号時刻の予測プロセスを続行する前に、前記第i組のアテンション値から最大アテンション値に対応するi番目の目標キャラクタを決定し、
及び前記i番目の目標キャラクタが前記録音センテンスの非終了キャラクタである場合、前記i+1番目の復号時刻が前記録音センテンスの復号時刻であることを決定し、
及び/又は、前記i番目の目標キャラクタが前記クエリ結果センテンスの非終了キャラクタである場合、前記i+1番目の復号時刻が前記クエリ結果センテンスの復号時刻であることを決定し、
及び/又は、前記i番目の目標キャラクタが前記録音センテンスの終了キャラクタであり、且つ前記録音センテンスの終了キャラクタが前記合成待ちセンテンスの終了キャラクタではない場合、前記i+1番目の復号時刻が前記クエリ結果センテンスの復号時刻であることを決定し、
及び/又は、前記i番目の目標キャラクタが前記クエリ結果センテンスの終了キャラクタであり、且つ前記クエリ結果センテンスの終了キャラクタが前記合成待ちセンテンスの終了キャラクタではない場合、前記第i+1番目の復号時刻が前記録音センテンスの復号時刻であることを決定し、
及び/又は、前記i番目の目標キャラクタが前記合成待ちセンテンスの終了キャラクタである場合、前記i+1番目の復号時刻が前記合成待ちセンテンスの復号終了時刻であることを決定するように構成される。
上記案では、前記音声合成モジュールは、前記キャラクタ系列に対してベクトル変換を行い、初期特徴ベクトル集合を得、前記初期特徴ベクトル集合に対して非線形変換及び特徴抽出を行い、前記特徴ベクトル集合を得るように構成される。
【0017】
上記案では、前記音声合成モジュールは、前記予測音声特徴に対して特徴変換を行い、線形スペクトルを得、前記線形スペクトルに対して再構成合成を行い、前記音声を得るように構成される。
上記案では、前記キャラクタ系列は、字母系列又は音素系列である。
上記案では、前記装置は、訓練モジュールをさらに備え、
前記訓練モジュールは、合成待ちセンテンスのキャラクタ系列を取得するステップの前に、少なくとも1つのサンプル合成センテンスにそれぞれ対応するサンプルキャラクタ系列を取得し、前記各サンプル合成センテンスは、サンプル対象及び前記サンプル対象に関する参考クエリ結果を表し、初期音声合成モデル、初期音声特徴及び前記サンプル合成センテンスに対応するサンプル音声特徴を取得し、前記初期音声合成モデルは、符号化処理及び予測を行うためのモデルであり、前記サンプルキャラクタ系列、前記初期音声特徴及び前記サンプル音声特徴を利用して、前記初期音声合成モデルに対して訓練を行い、前記予め設定された符号化モデル、前記予め設定された復号モデル及び前記予め設定されたアテンションモデルを得るように構成される。
【0018】
本発明の実施例による音声合成装置は、プロセッサと、メモリと、通信バスとを備え、前記メモリは、前記通信バスを介して前記プロセッサと通信し、前記メモリは、前記プロセッサで実行可能な1つ又は複数のプログラムを記憶し、前記1つ又は複数のプログラムが実行される時に、前記プロセッサにより、上記のいずれか一項の音声合成方法のステップを実行する。
【0019】
本発明の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体は、プログラムが記憶されており、前記プログラムが少なくとも1つのプロセッサに実行される場合、前記少なくとも1つのプロセッサは、上記のいずれかの音声合成方法のステップを実行する。
【発明の効果】
【0020】
本発明の実施例は、音声合成方法及び装置、記憶媒体を提供し、上記技的実現案を採用して実現され、予め設定された復号モデル、特徴ベクトル集合、予め設定されたアテンションモデル及び録音音声特徴に基づいて、合成待ちセンテンスに対応する予測音声特徴を予測して得て、合成待ちセンテンスに録音センテンス及びクエリ結果センテンスが含まれ、つまり、録音センテンスとクエリ結果センテンスの両方ともに対して、対応する予測音声特徴を予測して得て、しかも予測音声特徴が関連し合う複数の音声特徴で構成されるため、録音音声と合成音声との発話速度、音調などが異なる問題が解決され、これにより、予測音声特徴によって得られた音声の韻律の整合性があり、次に、合成待ちセンテンスに対応する予測音声特徴に対して特徴変換と合成を行って音声を得ることにより、録音音声を結合して音声を合成する時の遷移時間長の不確定性の問題が回避され、合成された音声の品質が向上する。
【図面の簡単な説明】
【0021】
図1】本発明の実施例による音声合成装置の構造図1である。
図2】本発明の実施例によるTacotronモデルの構造図である。
図3】本発明の実施例による音声合成方法のフローチャート1である。
図4】本発明の実施例による音声合成方法のフローチャート2のである。
図5】本発明の実施例による音素系列とアテンション値との対応関係の概略図である。
図6】本発明の実施例による音声合成装置の構造図2である。
図7】本発明の実施例による音声合成装置の構造図3である。
【発明を実施するための形態】
【0022】
以下では、本発明の実施例の図面を参照しながら、本発明の実施例における技術案を明確かつ全面的に説明する。
後続の説明では、コンポーネントを表す「モジュール」、[部品]又は「ユニット」などの接尾辞は、本発明の説明を容易にするためのものだけであり、それ自体が特定の意味を有しない。したがって、「モジュール」、「部品」又は「ユニット」を混用し得る。
以下では、図1を参照すると、それは本発明の各実施例を実現する音声合成装置1の概略図である。当該装置1は、系列生成モジュール11と、音声合成モジュール12と、再生モジュール13とを備えることができ、系列生成モジュール11は、ユーザからの目標対象に関するクエリ要求を受け取り、クエリ要求に基づいて合成待ちセンテンスを決定し、合成待ちセンテンスが目標対象に関するクエリ結果のテキストであり、合成待ちセンテンスのキャラクタ系列を音声合成モジュール12に伝送し、音声合成モジュール12は、キャラクタ系列に対して音声合成を行い、合成待ちセンテンスに対応する音声を得、音声を再生モジュール13に伝送し、再生モジュール13は、音声を再生する。
【0023】
幾つかの実施例では、音声合成モジュール12は、アテンションモデル及びエンコーダ-デコーダ(Encoder-Decoder)モデルで構築されたモジュールであり、例えば、音声合成モジュール12は、Tacotronモデルであり、Tacotronモデルは、深層学習に基づくテキストから音声へ(TTS:Text to speech)のモデルであり、図2に示すように、Tacotronモデルは、主に符号化モデル21、アテンション(Attention)モデル22及び復号モデル23を含み、符号化モデル21は、文字埋め込みモデル211、Pre-netモデル212及びCBHGモデル213を含み、復号モデル23は、Pre-netモデル231、第1リカレントニューラルネットワーク(RNN:Recurrent Neural Network)232、第2リカレントニューラルネットワーク233、線形変換モデル234、CBHGモデル235及び音声再構成モデル236を含み、ここで、CBHGモデル213及びCHBGモデル235の構造は、同じであり、畳み込みバンク(convolution bank)、高速道路ニューラルネットワーク(highway network)及びゲートリカレントユニット(GRU:Gated Recurrent Unit)で構成され、音声再構成モデル236は、Griffin-Limアルゴリズムによって生成されたモデルを含む。
【0024】
例示的に、Tacotronモデルは、合成待ちセンテンスのキャラクタ系列を受け取り、下記のように符号化プロセスを実行する。即ち、文字埋め込みモデル211は、キャラクタ系列に対してベクトル変換を行い、変換後のベクトル集合を得、変換後のベクトル集合をPre-netモデル212に伝送し、Pre-netモデル212は、変換後のベクトル集合に対して非線形変換を行い、中間特徴ベクトル集合を得、中間特徴ベクトル集合をCBHGモデル213に伝送し、CBHGモデル213は、中間特徴ベクトル集合に対して一連のマトリックス演算及び非線形変換を行い、特徴ベクトル集合を得、符号化が完了する。
【0025】
さらに、符号化プロセスが終了した後、下記のような予測プロセスを実行する。即ち、現在の復号時刻に、Pre-netモデル231は、現在のフレームの音声特徴に対して非線形変換を行い、中間特徴ベクトルを得、中間特徴ベクトルを第1リカレントニューラルネットワーク232に伝送し、第1リカレントニューラルネットワーク232は、中間特徴ベクトルに対して一連のマトリックス演算及び非線形変換を行い、現在の中間隠れ変数(隠れ状態:Hidden State)を得、現在の中間隠れ変数をアテンションモデル22及び第2リカレントニューラルネットワークに伝送し、その場合、第1リカレントニューラルネットワーク232は、次のフレームインターフェイスの時刻に使用するために、現在の中間隠れ変数を保持したままにする。アテンションモデル22は、現在の中間隠れ変数と符号化して得られた特徴ベクトル集合とに対してコンテキストベクトル計算を行い、現在のコンテキストベクトルを得、現在のコンテキストベクトルを第2リカレントニューラルネットワーク233に伝送し、第2リカレントニューラルネットワーク233は、現在のコンテキストベクトル及び現在の中間隠れ状態に対して一連のマトリックス演算及び非線形変換を行い、現在の隠れ変数を得、現在の隠れ数を線形変換モデル234に伝送し、線形変換モデル234は、現在の隠れ変数に対して線形変換を行い、現在の音声特徴を得、現在の音声特徴をCBHGモデル235に伝送し、合成待ちセンテンスの復号が完了して最後の音声特徴を得るまで、次の復号時刻の予測プロセスを続行する。CBHGモデル235は、1番目の音声特徴~最後の音声特徴のすべてに対して特徴変換を行い、線形スペクトルを得、線形スペクトルを音声再構成モデル236に伝送し、音声再構成モデル236は、線形スペクトルを再構成、合成し、音声を生成する。
【0026】
なお、図2の点線に示すように、予測プロセスにおいて、復号モデル23は、自己回帰方式で予測プロセスを実行することができ、即ち、現在の復号時刻に得られた現在の音声特徴のうちの1フレームの音声特徴を次の復号時刻の入力とすることができ、自己回帰方式で予測プロセスを採用しなくてもよく、即ち、次の復号時刻の入力は、現在の復号時刻に得られた前の音声特徴のうちの1フレームの音声特徴ではない。図2では3つの復号時刻のみを例として説明するが、本発明の実施例は、復号時刻を限定しない。
【0027】
図1又は図2に示す音声合成装置の構造が音声合成装置に対する限定にならないことを当業者にとって自明であり、音声合成装置は、図示するものよりも多く又はより少ない部品、又は幾つかの部品の組み合わせ、又は異なる部品構成を含むことができる。
なお、本発明の実施例は、図1又は図2に示す音声合成装置に基づいて実現されてもよく、以下では、図1又は図2に基づいて音声合成の具体的な実施例を説明する。
【0028】
実施例1
本発明の実施例は、音声合成方法を提供する。図3に示すように、当該方法は、次のステップを含む。
S301において、合成待ちセンテンスのキャラクタ系列を取得し、合成待ちセンテンスには目標対象を表す録音センテンスと目標対象に関するクエリ結果センテンスとが含まれる。
音声合成装置は、目標対象に関するクエリ要求を受けると、クエリ要求に基づいて合成待ちセンテンスを生成してから、合成待ちセンテンスのキャラクタ系列を取得し、キャラクタ系列が字母系列又は音素系列である。
【0029】
幾つかの実施例では、音声合成装置は、下記の方式でクエリ結果情報を取得する。即ち、クエリ要求からクエリ要求情報を取得し、外部デバイスへ要求を送信することによりクエリ結果情報を取得し、さらに、クエリ結果情報におけるテキストを整理し、クエリ結果センテンスを得る。また、予め設定された録音センテンスライブラリから目標対象とマッチングする録音センテンスを取得し、話術モードに従って、クエリ結果センテンスと録音センテンスを結合し、合成待ちセンテンスを得、それによって合成待ちセンテンスのキャラクタ系列を生成する。
幾つかの実施例では、予め設定された録音センテンスライブラリには1対1で対応する録音音声、録音センテンス及び録音音声メルスペクトルが記憶され、ステップS301の前に、音声合成装置は、各録音音声に対して少なくとも1フレームのメルスペクトルをフレーム毎に予め抽出し、録音音声、録音音声センテンス及び少なくとも1フレームのメルスペクトルを予め設定された録音センテンスライブラリに対応的に保存し、1フレームの時間長が10ms又は15msであってもよい。
【0030】
幾つかの実施例では、話術モードは、主に、3つのモードに分けられる。モード1は、クエリ結果センテンスが録音センテンスの中央位置にあり、例えば、「尊敬する某様」というセンテンスがあり、「某」がクエリ結果センテンスである。モード2は、クエリ結果センテンスが録音センテンスの終了位置にあり、例えば、「今日の北京の天気が晴れから曇りである」というセンテンスがあり、「晴れから曇り」がクエリ結果センテンスである。モード3は、クエリ結果センテンスが録音センテンスの先頭位置にあり、例えば、「某某曲」というセンテンスがあり、「某某」がクエリ結果センテンスである。
幾つかの実施例では、合成待ちセンテンスにおける録音センテンスは、第1サブ録音センテンスと第2サブ録音センテンスに分けられ、第1サブ録音センテンスは、第2サブ録音センテンスの前にある。
【0031】
例示的に、音声合成装置がスマートスピーカーであることを例とすると、ユーザは、今日の北京がどんな天気であるかというクエリ要求を送り、スマートスピーカーは、今日の北京の天気をクエリする要求を天気クエリデバイスに送信し、天気クエリデバイスから返信された、「晴れから曇り」を含むクエリ結果情報を受信し、「晴れから曇り」をクエリ結果センテンスとし、スマートスピーカーは、予め設定された録音センテンスライブラリから今日の北京の天気の録音センテンスを取得し、それらを結合して、今日の北京の天気が晴れから曇りであるという合成待ちセンテンスを得る。
【0032】
幾つかの実施例では、合成待ちセンテンスの発音順序に従って、合成待ちセンテンスの音素系列を生成し、又は、合成待ちセンテンスの字母綴り順序に従って、合成待ちセンテンスの字母系列を生成する。
例示的に、合成待ちセンテンスがHelloEverybodyである場合、対応する字母系列は、{h、e、l、l、o、e、v、e、r、y、b、o、d、y}である。
S302において、予め設定された符号化モデルを用いて、キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得る。
【0033】
音声合成装置内の符号化モデルは、キャラクタ系列に対して符号化処理を行いて特徴ベクトル集合を得、特徴ベクトル集合がキャラクタ系列内の各キャラクタの特徴ベクトルで構成され、符号化モデルは、予め設定された符号化モデルである。
幾つかの実施例では、音声合成装置は、キャラクタ系列に対してベクトル変換を行い、初期特徴ベクトル集合を得、初期特徴ベクトル集合に対して非線形変換及び特徴抽出を行い、特徴ベクトル集合を得る。
音声合成装置は、キャラクタ系列における各キャラクタをベクトルに変換し、初期特徴ベクトル集合を得、さらに特徴ベクトル集合を得る。
【0034】
S303において、録音センテンスに対応する録音音声特徴を取得し、
音声合成装置は、予め設定された録音センテンスライブラリから、録音センテンスに対応する録音音声特徴を取得し、ここで、録音音声特徴が当該録音センテンスに対応する少なくとも1フレームのメルスペクトルである。
幾つかの実施例では、録音音声特徴は、録音センテンスのキャラクタ系列の順序に従って順序付けられた複数フレームの音声特徴を表す。
【0035】
S304において、予め設定された復号モデル、特徴ベクトル集合、予め設定されたアテンションモデル及び録音音声特徴に基づいて、合成待ちセンテンスに対応する音声特徴を予測し、合成待ちセンテンスに対応する予測音声特徴を得、予め設定されたアテンションモデルは、特徴ベクトル集合を用いて、復号するためのコンテキストベクトルを生成するモデルであり、予測音声特徴は、関連し合う少なくとも1つの音声特徴で構成される。
音声合成装置は、予め設定された復号モデル及び予めアテンションモデルにより、合成待ちセンテンスに対応する音声特徴を予測し、予測音声特徴を得、予測プロセスにおいて、予め設定された復号モデルは、さらに録音音声特徴から1フレームの音声特徴を抽出し、それを予測プロセスの入力とすることもでき、ここで、予め設定された復号モデルは、復号モデルであり、予め設定されたアテンションモデルは、アテンションモデルである。
【0036】
幾つかの実施例では、音声合成装置は、iが1に等しい場合、i番目の復号時刻に、初期音声特徴を取得し、初期音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、1番目の音声特徴を予測し、iが0よりも大きい整数である。iが1よりも大きい場合、i番目の復号時刻が録音センテンスの復号時刻である場合、録音音声特徴から第jフレームの音声特徴を取り出し、第jフレームの音声特徴を第i-1フレームの音声特徴とし、第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測し、jが0よりも大きい整数である。i番目の復号時刻がクエリ結果センテンスの復号時刻である場合、i-1番目の音声特徴のうちの1フレームの音声特徴を第i-1フレームの音声特徴とし、第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測し、合成待ちセンテンスの復号が完了してn番目の音声特徴を得るまで、i+1番目の復号時刻の予測プロセスを続行し、nが前記合成待ちセンテンスの復号時刻の総フレーム数であり、且つ1よりも大きい整数であり、得られたi番目の音声特徴~n番目の音声特徴を予測音声特徴とする。
【0037】
音声合成装置は、iを1とし、1番目の復号時刻に、予め設定された録音センテンスライブラリから初期音声特徴を取得し、初期音声特徴が1フレームの音声特徴であり、初期音声特徴及び特徴ベクトル集合を入力とし、予め設定された復号モデル及び予め設定されたアテンションモデルを利用して、1番目の音声特徴を予測し、さらに、iを2とし、2番目の復号時刻から、まず2番目の復号時刻のタイプを判定し、タイプが録音センテンスの復号時刻、クエリ結果センテンスの復号時刻、及び合成待ちセンテンスの復号時刻を含み、2番目の復号時刻のタイプに基づいて第1フレームの音声特徴を取り出し、1番目の音声特徴を入力とし、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルを利用して、2番目の音声特徴を予測し、合成待ちセンテンスの復号が完了するまで、3番目の復号時刻のタイプの判定を続行する。
【0038】
幾つかの実施例では、音声合成装置は、サイズが1フレームである要素が全てゼロであるベクトルを初期音声特徴として設定することができる。
なお、録音センテンスが真実の人間の録音音声から抽出された録音音声特徴を有することを考慮し、i番目の復号時刻のタイプを判定することにより、録音センテンスの復号時刻であることを決定した場合、i番目の音声特徴を予測するために、録音音声特徴から1フレームの音声特徴を抽出することができ、真実の人間の録音音声における1フレームの音声特徴を利用して予測するため、得られたi番目の音声特徴に対応する音質がよりリアルになる。
【0039】
幾つかの実施例では、i番目の音声特徴~n番目の音声特徴の各音声特徴には、1フレームの音声特徴又は少なくとも2フレームの音声特徴が含まれ、i番目の音声特徴に対応する音声特徴のフレーム数が設定可能なものであり、少なくとも2フレームの音声特徴は、重畳することがなく、時間的に連続した複数フレームの音声特徴であり、このように、各々の復号時刻に複数フレームの音声特徴を予測することにより、復号時間長を短縮させ、復号モデルの複雑さを低減させることができる。
幾つかの実施例では、i-1番目の音声特徴のうちの最後のフレームの音声特徴を第i-1フレームの音声特徴とすることができ、対応的に、i番目の音声特徴は、kフレームの音声特徴を含み、jの値がk×(i-1)であり、kが各音声特徴に対応する総フレーム数であり、kが0より大きい正の整数である。
例示的に、k=3の場合、jの値は3、6、9…である。
【0040】
幾つかの実施例では、音声合成装置は、i番目の復号時刻の予測プロセスにおいて、録音音声特徴からk×iフレームの音声特徴を取り出し、第k×iフレームの音声特徴を第i-1フレームの音声特徴とし、i+1番目の復号時刻の予測プロセスにおいて、録音音声特徴から第k×(i+1)フレームの音声特徴を取り出し、第k×(i+1)フレームの音声特徴を第iフレームの音声特徴とし、ここで、第k×iフレームの音声特徴及び第k×(i+1)フレームの音声特徴は、録音センテンスのキャラクタ系列の順序に従って取り出された音声特徴である。
幾つかの実施例では、予め設定された復号モデルは、第1リカレントニューラルネットワークと第2リカレントニューラルネットワークとを含み、音声合成装置は、第i-1フレームの音声特徴に非線形変換を行い、中間特徴ベクトルを得、第1リカレントニューラルネットワークを利用して、中間特徴ベクトルに対してマトリックス演算及び非線形変換を行い、i番目の中間隠れ変数を得、予め設定されたアテンションモデルを利用して、特徴ベクトル集合及びi番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得、第2リカレントニューラルネットワークを利用して、i番目のコンテキストベクトル及びi番目の中間隠れ変数に対してマトリックス演算及び非線形変換を行い、i番目の隠れ変数を得、予め設定されたフレーム数に従って、i番目の隠れ変数に対して線形変換を行い、i番目の音声特徴を得る。
【0041】
音声合成装置は、i番目の復号時刻に、第i-1フレームの音声特徴を予め設定された復号モデルに伝送し、予め設定された復号モデルは、第i-1フレームの音声特徴を利用して、i番目の音声特徴を予測する。
幾つかの実施例では、音声合成装置は、i番目の復号時刻に、第i-1フレームの音声特徴を復号モデルにおけるPre-netモデルに伝送し、Pre-netモデルは、第i-1フレームの音声特徴に対して非線形変換を行い、中間特徴ベクトルを得、中間特徴ベクトルを第1リカレントニューラルネットワークに伝送し、第1リカレントニューラルネットワークは、中間特徴ベクトルに対して、マトリックス演算及び非線形変換を行い、i番目の中間隠れ変数を得、i番目の中間隠れ変数をアテンションモデル及び第2リカレントニューラルネットワークに伝送し、アテンションモデルは、特徴ベクトル集合及びi番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得、i番目のコンテキストベクトルを第2リカレントニューラルネットワークに伝送し、第2リカレントニューラルネットワークは、i番目のコンテキストベクトル及びi番目の中間隠れ変数に対してマトリックス演算及び非線形変換を行い、i番目の隠れ変数を得、i番目の隠れ変数を線形変換モデルに伝送し、線形変換モデルは、予め設定されたフレーム数に従って、i番目の変数に対して線形変換を行い、i番目の音声特徴を得る。
【0042】
なお、音声合成装置は、予測プロセスにおいて、第1リカレントニューラルネットワーク及び第2リカレントニューラルネットワークを用いてi番目の音声特徴を取得し、リカレントニューラルネットワークは、ノードが一方向に接続する循環するニューラルネットワークであるため、これまで計算済みの隠れた変数を用いて現在の時系列の入力を処理し、それによって、1つの系列位置における出力は、この前の全ての系列の入力に関連付けられ、このように、第1リカレントニューラルネットワーク及び第2リカレントニューラルネットワークを利用して、得られた予測音声特徴のうちの全ての音声特徴は、相互に関連し合い、さらに、予測音声特徴を用いて得られた音声の遷移はより自然となる。
【0043】
幾つかの実施例では、第1リカレントニューラルネットワークを、第1長短期記憶ネットワーク(LSTM:LSTM)に変えてもよく、それに応じて、第2リカレントニューラルネットワークを、第2LSTMに変えてもよく、その他、第1リカレントニューラルネットワーク及び第2リカレントニューラルネットワークを、他のニューラルネットワークに変えてもよく、本発明の実施例は、これらを限定しない。
幾つかの例では、特徴ベクトル集合にキャラクタ系列の各キャラクタに対応する特徴ベクトルが含まれ、音声合成装置は、予め設定されたアテンションモデルを用いて、キャラクタ系列の各キャラクタ(字母又は音素)に対応する特徴ベクトル及びi番目の中間隠れ変数に対して、アテンションの計算を行い、第i組のアテンション値を得、第i組のアテンション値に基づいて、特徴ベクトル集合に対して加重和を計算し、i番目のコンテキストベクトルを得る。
【0044】
音声合成装置は、i番目の中間隠れ変数をアテンションモデルに伝送し、アテンションモデルは、キャラクタ系列の各キャラクタに対応する特徴ベクトルとi番目の中間隠れ変数とのアテンション値(類似度)を計算し、各キャラクタとアテンション値を対応付けて保存し、第i組のアテンション値を得、アテンション値の範囲が0~1であり、各キャラクタに対応するアテンション値を各キャラクタに対応する特徴ベクトルの重み値とし、特徴ベクトル集合のすべての特徴ベクトルに対して加重和を計算し、i番目のコンテキストベクトルを得る。
なお、i番目の復号時刻に、第i-1フレームの音声特徴に基づいてi番目の中間隠れ変数を生成し、i番目の中間隠れ変数が、i番目の復号時刻に予測しようとするキャラクタを表し、アテンションモデルは、キャラクタ系列の各キャラクタに対応する特徴ベクトルとi番目の中間隠れ変数との間のアテンション値を計算し、アテンション値の大きさが各キャラクタに対応する特徴ベクトルと予測しようとするキャラクタとの関連度を表し、i番目の復号時刻に予測しようとするキャラクタには、主要な発音キャラクタ以外に、発音時に主要な発音キャラクタと密に繋がっている副次的なキャラクタも含まれるため、キャラクタ系列における複数のキャラクタに対応するアテンション値はゼロではなく、しかも、アテンション値が最も大きいキャラクタは、主要な発音キャラクタである。
【0045】
幾つかの実施例では、音声合成装置は、第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測した後、i+1番目の復号時刻の予測プロセスを続行する前に、第i組のアテンション値から最大アテンション値に対応するi番目の目標キャラクタを決定し、i番目の目標キャラクタが録音センテンスの非終了キャラクタである場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、及び/又は、i番目の目標キャラクタがクエリ結果センテンスの非終了キャラクタである場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、及び/又は、i番目の目標キャラクタが録音センテンスの終了キャラクタであり、且つ録音センテンスの終了キャラクタが合成待ちセンテンスの終了キャラクタではない場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、及び/又は、i番目の目標キャラクタがクエリ結果センテンスの終了キャラクタであり、且つクエリ結果センテンスの終了キャラクタが合成待ちセンテンスの終了キャラクタではない場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、及び/又は、i番目の目標キャラクタが合成待ちセンテンスの終了キャラクタである場合、i+1番目の復号時刻が合成待ちセンテンスの復号終了時刻であることを決定する。
【0046】
音声合成装置は、i番目の目標キャラクタのタイプを判定する前に、合成待ちセンテンスのキャラクタ系列を生成する時に、キャラクタ系列から特殊キャラクタを決定し、特殊キャラクタは、録音センテンスの非終了キャラクタ、録音センテンスの終了キャラクタ、クエリ結果センテンスの非終了キャラクタ、クエリ結果センテンスの終了キャラクタ、及び合成待ちセンテンスの終了キャラクタの少なくとも1つを含み、第i組のアテンション値内の最大アテンション値に対応するキャラクタをi番目の目標キャラクタとし、i番目の目標キャラクタは、i番目の復号時刻の主要な発音キャラクタであり、i番目の目標キャラクタのタイプが決定できるまで、i番目の目標キャラクタを特殊キャラクタと順次比較する。
【0047】
なお、音声合成装置は、iを2とし、第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測する前に、i+1番目の復号時刻のタイプの判定と同様に、i-1番目の目標キャラクタを利用して、i番目の復号時刻のタイプを判定する。
幾つかの実施例では、音声合成装置は、i番目の復号時刻のタイプを判定する前に、合成待ちセンテンスのキャラクタ系列を生成する時に、キャラクタ系列から録音センテンスの開始キャラクタ及び終了キャラクタ、クエリ結果センテンスの開始キャラクタ及び終了キャラクタ、及び合成待ちセンテンスの終了キャラクタを決定し、ここで、録音センテンスの開始キャラクタ及び終了キャラクタは、1対1で対応し、クエリ結果センテンスの開始キャラクタ及び終了キャラクタは、1対1で対応し、録音センテンスの開始キャラクタ又はクエリ結果センテンスの開始キャラクタは、合成待ちセンテンスの開始キャラクタであり、録音音声の終了キャラクタ又はクエリ結果センテンスの終了キャラクタは、合成待ちセンテンスの終了キャラクタである。
【0048】
さらに、音声合成装置は、第i組のアテンション値内の最大アテンション値に対応するキャラクタをi番目の目標キャラクタとし、i番目の目標キャラクタを録音センテンスの開始キャラクタ、合成待ちセンテンスの開始キャラクタ、及びクエリ結果センテンスの開始キャラクタと順次比較し、i番目の目標キャラクタと録音センテンスの開始キャラクタが同じである場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、i+1番目の復号時刻の予測プロセスにおいて、i+1番目の目標キャラクタを録音センテンスの終了キャラクタ、合成待ちセンテンスの終了キャラクタと順次比較し、i+1番目の目標キャラクタが録音センテンスの終了キャラクタ、合成待ちセンテンスの終了キャラクタの両方ともと異なる場合、i+1番目の目標キャラクタが録音センテンスの非終了キャラクタであることを決定し、それによってi+2番目の復号時刻が録音センテンスの復号時刻であることを決定し、i番目の目標キャラクタ及びクエリ結果センテンスの開始キャラクタが同じである場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、i+1番目の復号時刻の予測プロセスにおいて、i+1番目の目標キャラクタをクエリ結果センテンスの終了キャラクタ、合成待ちセンテンスの終了キャラクタと順次比較し、i+1番目の目標キャラクタがクエリ結果センテンスの終了キャラクタ、合成待ちセンテンスの終了キャラクタの両方ともと一致しない場合、i+1番目の目標キャラクタがクエリ結果センテンスの非終了キャラクタであることを決定し、それによってi+2番目の復号時刻がクエリ結果センテンスであることを決定する。
【0049】
幾つかの実施例では、音声合成装置は、i番目の目標キャラクタが録音センテンスの終了キャラクタであり、且つ合成待ちセンテンスの終了キャラクタではないことを決定した場合、録音音声の終了キャラクタの保持時間長に1フレームの復号時間長を追加し、i番目の目標キャラクタの保持時間長が予め設定された時間長よりも短いか否かを判定し、i番目の目標キャラクタの保持時間長が予め設定された時間長以上である場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、i番目の目標キャラクタの保持時間長が予め設定された時間長よりも短い場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、m番目の復号時刻に録音センテンスの終了キャラクタの保持時間長が予め設定された時間長よりも以上であることが決定されるまで、i+1番目の目標キャラクタの判定を続行する。m+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、mが当該録音センテンスの復号時刻の総フレームであり、かつ1よりも大きい整数であり、ここで、予め設定された時間長は、一般的に1フレームの復号時間長又は2フレームの復号時間長と設定されるが、本発明の実施例は、これを限定しない。
【0050】
幾つかの実施例では、音声合成装置は、i番目の目標キャラクタがクエリ結果センテンスの終了キャラクタであり、且つ合成待ちセンテンスの終了キャラクタではないことを決定した場合、クエリ結果センテンスの終了キャラクタの保持時間長に1フレームの復号時間長を追加し、i番目の目標キャラクタの保持時間長が予め設定された時間長よりも短いか否かを判定し、i番目の目標キャラクタの保持時間長が予め設定された時間長以上である場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、i番目の目標キャラクタの保持時間長が予め設定された時間長よりも短い場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であり、h番目の復号時刻にクエリ結果センテンスの終了キャラクタの保持時間が予め設定された時間長以上であることが決定されるまで、i+1番目の目標キャラクタの判定を続行する。h+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、hが当該クエリ結果センテンスの復号時刻の総フレーム数であり、且つ1よりも整数である。
【0051】
なお、音声合成装置は、現在の復号時刻に目標キャラクタを決定し、目標キャラクタを特徴キャラクタと順次比較することにより、次の復号時刻のタイプを決定し、このように、合成待ちセンテンス内の録音センテンス又はクエリ結果センテンスに対して特殊なラベリング又はキャラクタの位置合わせ操作などを行う必要がなく、各復号時刻のタイプを取得することができ、さらに、1つのセンテンスの終了キャラクタの保持時間長を判定することにより、保持時間長が予め設定された時間長以上である場合しか、他のセンテンスの復号が開始されることがなく、それによって、1つのセンテンスの終了キャラクタを、完全に発音させることができる。
【0052】
幾つかの実施例では、合成待ちセンテンス内の録音センテンスがクエリ結果センテンスの前にある場合、得られた予測音声特徴において録音音声の終了キャラクタが遅延を生じる場合があり、これは録音センテンスの予測プロセスとクエリ結果センテンスの予測プロセスとが密に繋がりすぎるためであり、録音センテンス内の終了キャラクタの前にあるキャラクタを録音センテンスの終了センテンスとして設定し、これにより、録音センテンスの終了キャラクタの遅延問題が解決され、合成された音声内の録音センテンスの音声及びクエリ結果センテンスの音声との遷移もよりスムーズになる。
【0053】
S305において、予測音声特徴に対して特徴変換と合成を行い、合成待ちセンテンスに対応する音声を得る。
音声合成装置は、予測音声特徴内の各音声特徴に対して特徴変換を行い、線形スペクトルを得、得られた全ての線形スペクトルに対して再構成合成を行い、合成待ちセンテンスに対応する音声を得、音声を再生モジュールに伝送し、再生モジュールによって音声を再生し、これにより、ユーザは、音声を聞いて目標対象のクエリ結果を知ることができる。
幾つかの実施例では、音声合成モジュールは、予測音声特徴に対して特徴変換を行い、線形スペクトルを得、線形スペクトルに対して再構成合成を行い、音声を得る。
音声合成装置は、Griffin-Limアルゴリズムを用いて線形スペクトルに対して再構成合成を行い、音声を得ることができる。
なお、録音センテンスが真実の人間の録音音声から抽出された音声特徴を用いて予測されるため、予測音声特徴に対して特徴変換と合成を行った後、得られた音声の録音センテンスに対応する音声の音質がより良い。
【0054】
幾つかの実施例では、ステップS301の前に、音声合成方法は、次のステップをさらに含む。
S3001において、少なくとも1つのサンプル合成センテンスにそれぞれ対応するサンプルキャラクタ系列を取得し、各サンプル合成センテンスがサンプル対象及びサンプル対象に関する参考クエリ結果を表す。
音声合成装置は、少なくとも1つのサンプル合成センテンス内の各サンプル合成センテンスに対して、サンプルキャラクタ系列を生成し、さらに少なくとも1つのサンプルキャラクタ系列を取得し、ここで、少なくとも1つのサンプル合成センテンス内のサンプル対象は、目標対象を含み、少なくとも1つのサンプル合成センテンスは、クエリ結果センテンスをさらに含むことができる。
【0055】
S3002において、初期音声合成モデル、初期音声特徴及びサンプル合成センテンスに対応するサンプル音声特徴を取得し、初期音声合成モデルは、符号化処理及び予測を行うためのモデルである。
音声合成装置は、初期音声合成モデル、初期音声特徴及び各サンプル合成センテンスに対応するサンプル音声特徴を取得し、ここで、各サンプル合成センテンスに対応するサンプル音声特徴は、各サンプル合成センテンスの録音音声から得られるものである。
【0056】
S3003において、サンプルキャラクタ系列、初期音声特徴及びサンプル音声特徴を利用して、初期音声合成モデルに対して訓練を行い、予め設定された符号化モデル、予め設定された復号モデル及び予め設定されたアテンションモデルを得る。
音声合成装置は、サンプルキャラクタ系列を予め設定された音声合成モデルの入力とし、予め設定された音声合成モデルは、サンプルキャラクタ系列に対して符号化処理を行い、サンプル特徴ベクトル集合を得、初期音声特徴を予め設定された音声合成モデルの入力とし、予め設定された音声合成モデルは、サンプル特徴ベクトル集合及び初期音声特徴に基づいて、参考音声特徴を予測し、予め設定された損失関数を用いて参考音声特徴及びサンプル音声特徴を計算し、誤差値を得、誤差値が予め設定された誤差閾値よりも大きい場合、誤差値が予め設定された誤差閾値以下になるまで、サンプル特徴ベクトル集合及び初期音声特徴に基づいて予測を続行する。
【0057】
幾つかの実施例では、予め設定された誤差関数は、絶対損失関数(L1 Loss)を含む。
なお、予め設定された音声合成モデルがサンプル特徴ベクトル集合と初期音声特徴に基づいて、参考音声特徴を予測するプロセスは、第i-1フレームの音声特徴及び特徴ベクトル集合を入力とし、予め設定された復号モデル及び予め設定されたアテンションモデルを用いて、i番目の音声特徴を予測するプロセスと同様であるため、ここでは説明を省略する。
【0058】
幾つかの実施例では、アウトバウンドコールシステムを例として、図4に示す音声合成方法は、次のステップを含む。
S401において、アウトバウンドコールシステムは、ある電話番号に「じゃあ一緒にテレビを見よう」というメッセージを残すクエリ要求を受けた時に、「じゃあ一緒にテレビを見よう」の音素系列を取得し、音素系列から録音センテンスの開始音素と終了音素、クエリ結果センテンスの開始音素と終了音素、及び合成待ちセンテンスの終了音素を決定する。
【0059】
アウトバウンドコールシステムは、「じゃあ一緒にテレビを見よう」というクエリ要求から、目標対象の録音センテンスが「じゃあ一緒に」であること、クエリ結果センテンスが「テレビを見よう」であることを決定し、「じゃあ一緒にテレビを見よう」が話術モードを満たすことを決定し、「じゃあ一緒にテレビを見よう」を合成待ちセンテンスとし、その音素系列を{n、a4、ss、z、an2、i、ia3、ss、i4、q、i3、ss、k、an4、d、ian4、sh、iii4、ss、b、a5、ss、sil}として取得し、録音センテンスの開始音素及び終了音素が「n」及び「q」であり、クエリ結果センテンスの開始音素及び終了音素がそれぞれ「k」及び「b」であり、合成待ちセンテンスの終了音素がクエリ結果の終了音素と同じく「b」であることを決定する。
なお、上記音素系列の「ss」は、合成待ちセンテンスの音声韻律を制御するためのキャラクタであり、当該キャラクタは、他の音素又は字母などであってもよく、音素系列には当該キャラクタが含まれてもよく、当該キャラクタが含まれなくてもよく、本発明の実施例で限定しない。
【0060】
S402において、アウトバウンドコールシステムは、音素系列に対して符号化処理を行い、特徴ベクトル集合を得る。
アウトバウンドコールシステムは、音素系列における各音素に対応する特徴ベクトルを得、全ての音素の特徴ベクトルで特徴ベクトル集合を構成する。
S403において、アウトバウンドコールシステムは、要素が全てゼロである1つのベクトルを初期音声特徴として取得し、予め設定された録音センテンスライブラリから、「じゃあ一緒に」の録音音声メルスペクトルを取得する。
【0061】
S404において、アウトバウンドコールシステムは、要素が全てゼロであるベクトル、予め設定された復号モデル、特徴ベクトル集合、予め設定されたアテンションモデル及び録音音声特徴に基づいて、「じゃあ一緒にテレビを見よう」に対応する予測音声特徴を予測する。
例示的に、図5は音素系列及びアテンション値との対応関係を示す概略図であり、図5における縦座標は「じゃあ一緒にテレビを見よう」の音素系列であり、横座標は、復号時刻であり、右側の符号51は、アテンション値と色との対応関係を表し、色が薄いほどアテンション値が大きいことを示し、符号51内の0.2、0.4、0.6及び0.8がアテンション値であり、図5から分かるように、12番目の復号時刻に得られた第12組のアテンション値において、アテンション値の最も大きい12番目の目標音素が「q」であり、即ち、録音センテンスの終了音素であることを決定し、これが13番目の復号時刻がクエリ結果センテンスの復号時刻であることを示す。
【0062】
S405において、アウトバウンドコールシステムは、予測音声特徴に対して特徴変換と合成を行い、「じゃあ一緒にテレビを見よう」に対応する音声を得る。
S406において、アウトバウンドコールシステムは、ある電話番号をダイヤルし、ユーザが電話に出た後に音声をユーザに再生する。
音声合成装置は、予め設定された復号モデル、特徴ベクトル集合、予め設定されたアテンションモデル及び録音音声特徴に基づいて、合成待ちセンテンスに対応する予測音声特徴を予測して得る。合成待ちセンテンスに録音センテンス及びクエリ結果センテンスが含まれ、つまり、録音センテンスとクエリ結果センテンスの両方ともに対して、対応する予測音声特徴を予測して得て、しかも予測音声特徴が関連し合う複数の音声特徴で構成されるため、録音音声と合成音声との発話速度、音調などが異なる問題が解決され、これにより、予測音声特徴によって得られた音声の韻律の整合性があり、次に、合成待ちセンテンスに対応する予測音声特徴に対して特徴変換と合成を行って音声を得ることにより、録音音声を結合して音声を合成する時の遷移時間長の不確定性の問題が回避され、合成された音声の品質が向上する。
【0063】
実施例2
本発明の実施例1の同じ発明の概念に基づいて、さらなる説明を行う。
本発明の実施例は、音声合成装置6を提供する。当該装置6は、系列生成モジュール61と、音声合成モジュール62と取得モジュール63とを備る。
【0064】
系列生成モジュール61は、合成待ちセンテンスのキャラクタ系列を取得するように構成され、合成待ちセンテンスには目標対象を表す録音センテンスと目標対象に関するクエリ結果センテンスとが含まれる。
音声合成モジュール62は、予め設定された符号化モデルを用いて、キャラクタ系列に対して符号化処理を行い、特徴ベクトル集合を得るように構成される。
取得モジュール63は、録音センテンスに対応する録音音声特徴を取得するように構成される。
【0065】
音声合成モジュール62は、さらに予め設定された復号モデル、特徴ベクトル集合、予め設定されたアテンションモデル及び録音音声特徴に基づいて、合成待ちセンテンスに対応する音声特徴を予測し、合成待ちセンテンスに対応する予測音声特徴を得、予め設定されたアテンションモデルは、特徴ベクトル集合を用いて、復号するためのコンテキストベクトルを生成するモデルであり、予測音声特徴は、関連し合う少なくとも1つの音声特徴で構成され、予測音声特徴に対して特徴変換と合成を行い、合成待ちセンテンスに対応する音声を得るように構成される。
【0066】
幾つかの実施例では、音声合成モジュール62は、iが1に等しい場合、i番目の復号時刻に、初期音声特徴を取得し、初期音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、1番目の音声特徴を予測し、iが0よりも大きい整数であり、
iが1よりも大きい場合、i番目の復号時刻が録音センテンスの復号時刻である場合、録音音声特徴から第jフレームの音声特徴を取り出し、第jフレームの音声特徴を第i-1フレームの音声特徴とし、第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づて、i番目の音声特徴を予測し、jが0よりも大きい整数であり、
【0067】
i番目の復号時刻がクエリ結果センテンスの復号時刻である場合、i-1番目の音声特徴のうちの1フレームの音声特徴を第i-1フレームの音声特徴とし、第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測し、
合成待ちセンテンスの復号が完了してn番目の音声特徴を得るまで、i+1番目の復号時刻の予測プロセスを続行し、nが合成待ちセンテンスの復号時刻の総フレーム数であり、且つ1よりも大きい整数であり、
得られたi番目の音声特徴~n番目の音声特徴を予測音声特徴とするように構成される。
【0068】
幾つかの実施例では、予め設定された復号モデルは、第1リカレントニューラルネットワークと第2リカレントニューラルネットワークとを含み、
音声合成モジュール62は、第i-1フレームの音声特徴に対して非線形変換を行い、中間特徴ベクトルを得、第1リカレントニューラルネットワークを利用して、中間特徴ベクトルに対してマトリックス演算及び非線形変換を行い、i番目の中間隠れ変数を得、予め設定されたアテンションモデルを利用して、特徴ベクトル集合及びi番目の中間隠れ変数に対してコンテキストベクトル計算を行い、i番目のコンテキストベクトルを得、第2リカレントニューラルネットワークを利用して、i番目のコンテキストベクトル及びi番目の中間隠れ変数に対してマトリックス演算及び非線形変換を行い、i番目の隠れ変数を得、予め設定されたフレーム数に従って、i番目の隠れ変数に対して線形変換を行い、i番目の音声特徴を得るように構成される。
【0069】
幾つかの実施例では、特徴ベクトル集合にはキャラクタ系列の各キャラクタに対応する特徴ベクトルが含まれ、
音声合成モジュール62は、予め設定されたアテンションモデルを利用して、キャラクタ系列の各キャラクタに対応する特徴ベクトルとi番目の中間隠れ変数とに対してアテンションの計算を行い、第i組のアテンション値を得、第i組のアテンション値に基づいて、特徴ベクトル集合に対して加重和を計算し、i番目のコンテキストベクトルを得るように構成される。
【0070】
幾つかの実施例では、音声合成モジュール62は、さらに第i-1フレームの音声特徴、予め設定された復号モデル、特徴ベクトル集合及び予め設定されたアテンションモデルに基づいて、i番目の音声特徴を予測した後、i+1番目の復号時刻の予測プロセスを続行する前に、第i組のアテンション値から最大アテンション値に対応するi番目の目標キャラクタを決定し、
i番目の目標キャラクタが録音センテンスの非終了キャラクタである場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、
及び/又は、i番目の目標キャラクタがクエリ結果センテンスの非終了キャラクタである場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、
及び/又は、i番目の目標キャラクタが録音センテンスの終了キャラクタであり、且つ録音センテンスの終了キャラクタが合成待ちセンテンスの終了キャラクタではない場合、i+1番目の復号時刻がクエリ結果センテンスの復号時刻であることを決定し、
及び/又は、i番目の目標キャラクタがクエリ結果センテンスの終了キャラクタであり、且つクエリ結果センテンスの終了キャラクタが合成待ちセンテンスの終了キャラクタではない場合、i+1番目の復号時刻が録音センテンスの復号時刻であることを決定し、
及び/又は、i番目の目標キャラクタが合成待ちセンテンスの終了キャラクタである場合、i+1番目の復号時刻が合成待ちセンテンスの復号終了時刻であることを決定するように構成される。
【0071】
幾つかの実施例では、音声合成モジュール62は、キャラクタ系列に対してベクトル変換を行い、初期特徴ベクトル集合を得、初期特徴ベクトル集合に対して非線形変換及び特徴抽出を行い、特徴ベクトル集合を得るように構成される。
幾つかの実施例では、音声合成モジュール62は、予測音声特徴に対して特徴変換を行い、線形スペクトルを得、線形スペクトルに対して再構成合成を行い、音声を得るように構成される。
幾つかの実施例では、キャラクタ系列は、字母系列又は音素系列である。
幾つかの実施例において、装置6は、訓練モジュール60をさらに備え、
【0072】
訓練モジュールは、合成待ちセンテンスのキャラクタ系列を取得するステップの前に、少なくとも1つのサンプル合成センテンスにそれぞれ対応するサンプルキャラクタ系列を取得し、各サンプル合成センテンスがサンプル対象及びサンプル対象に関する参考クエリ結果を表し、初期音声合成モデル、初期音声特徴及びサンプル合成センテンスに対応するサンプル音声特徴を取得し、初期音声合成モデルは、符号化処理及び予測を行うためのモデルであり、サンプルキャラクタ系列、初期音声特徴及びサンプル音声特徴を利用して、初期音声合成モデルに対して訓練を行い、予め設定された符号化モデル、予め設定された復号モデル及び予め設定されたアテンションモデルを得るように構成される。
【0073】
なお、実際の応用において、上記訓練モジュール60、系列生成モジュール61、音声合成モジュール62及び取得モジュール63は、さらに音声合成装置7上に位置するプロセッサ74によって実現されてもよく、具体的には、CPU(中央プロセッサ:Central Processing Unit)、MPU(Microprocessor Unit:マイクロプロセッサユニット)、DSP(Digital Signal Processing:デジタル信号プロセッサ)又はフィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)などによって実現されてもよい。
【0074】
本発明の実施例は、音声合成装置7をさらに提供する。図7に示すように当該装置7は、プロセッサ74と、メモリ75と通信バス76とを備え、メモリ75は、通信バス76を介してプロセッサ74と通信し、メモリ75は、プロセッサ74で実行可能な1つ又は複数の音声合成プログラムを記憶し、1つ又は複数の音声合成プログラムが実行される場合、プロセッサ74により上記実施例で説明されたいずれかの音声合成方法を実行する。
実際の応用において、メモリ75は、第1揮発性メモリ(volatile memory)、例えば第1ランダムアクセスメモリ(RAM:Random-Access Memory)、又は第1不揮発性メモリ(non-volatile memory)、例えば第1読み取り専用メモリ(ROM:Read-Only Memory)、第1フラッシュメモリ(flash memory)、ハードディスクドライブ(HDD:Hard Disk Drive)又はソリッドステートドライブ(SSD:Solid-State Drive)、又は上記のタイプの第1メモリの組み合わせであってもよく、プロセッサ74にプログラム及びデータを提供する。
【0075】
本発明の実施例は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体は、音声合成プログラムが記憶されており、前記合成プログラムがプロセッサ74に実行される場合、前記プロセッサ74が上記実施例で記載される任意の音声合成方法を実行することを実現する。
当業者であれば、本発明の実施例は、方法、システム、又はコンピュータプログラム製品として提供されてもよいと理解すべきである。したがって、本発明は、ハードウェア実施例、ソフトウェア実施例、又はソフトウェアとハードウェアを組み合わせる実施例の形態を採用してもよい。また、本発明は、コンピュータで利用可能なプログラムコードを含む1つ又は複数のコンピュータ利用可能記憶媒体(磁気ディスクメモリ及び光メモリ等を含むがこれらに限らない)で実施されるコンピュータプログラム製品の形態を採用できる。
【0076】
本発明は、本発明の実施例による方法、デバイス(システム)、及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。コンピュータプログラムコマンドによってフローチャート及び/又はブロック図における各フロー及び/又はブロック、及びフローチャート及び/又はブロック図におけるフロー及び/又はブロックの組み合わせを実現できると理解すべきである。これらのコンピュータプログラムコマンドを汎用コンピュータ、専用コンピュータ、組み込みプロセッサ又は他のプログラマブル音声合成デバイスのプロセッサに提供して1つの機械を生成することができ、これにより、コンピュータ又は他のプログラマブル音声合成デバイスのプロセッサで実行されるコマンドは、フローチャートの1つのフロー又は複数のフロー及び/又はブロック図の1つのブロック又は複数のブロックに指定された機能を実現するための装置を生成する。
【0077】
これらのコンピュータプログラムコマンドは、特定の動作方式で動作するようにコンピュータ又は他のプログラマブル音声合成デバイスを案内することができるコンピュータ可読メモリに記憶されてもよく、これにより、当該コンピュータ可読メモリに記憶されたコマンドは、コマンド装置を含む製造品を生成し、当該コマンド装置は、フローチャートの1つのフロー又は複数のフロー及び/又はブロック図の1つのブロック又は複数のブロックに指定された機能を実現する。
【0078】
これらのコンピュータプログラムコマンドは、コンピュータ又は他のプログラマブル音声合成デバイスにロードされてもよく、これにより、コンピュータ又は他のプログラマブル音声合成デバイスで一連の動作ステップを実行してコンピュータで実現される処理を生成し、それによってコンピュータ又は他のプログラマブル音声合成デバイスで実行されるコマンドは、フローチャートの1つのフロー又は複数のフロー及び/又はブロック図の1つのブロック又は複数のブロックに指定された機能を実現するためのステップを提供する。
【0079】
本発明で提供される幾つかの方法の実施例で開示される方法を衝突しない前提で任意に組み合わせて新しい方法の実施例を得ることができる。
本発明で提供される幾つかの製品の実施例で開示される特徴を衝突しない前提で任意に組み合わせて新しい製品の実施例を得ることができる。
本発明で提供される幾つかの方法又はデバイスの実施例で開示される特徴を衝突しない前提で任意に組み合わせて新しい方法の実施例又はデバイスの実施例を得ることができる。
上記は、本発明の好ましい実施例に過ぎず、本発明の保護範囲を限定するものではない。
【産業上の利用可能性】
【0080】
本発明の実施例は、音声合成方法及び装置、記憶媒体を提供し、予め設定された復号モデル、特徴ベクトル集合、予め設定されたアテンションモデル及び録音音声特徴に基づいて、合成待ちセンテンスに対応する予測音声特徴を予測し、合成待ちセンテンスに録音センテンス及びクエリ結果センテンスが含まれ、つまり、録音センテンスとクエリ結果センテンスの両方ともに対して、対応する予測音声特徴を予測して得て、しかも予測音声特徴が関連し合う複数の音声特徴で構成されるため、録音音声と合成音声との発話速度、音調などが異なる問題が解決され、これにより、予測音声特徴によって得られた音声の韻律の整合性があり、次に、合成待ちセンテンスに対応する予測音声特徴に対して特徴変換と合成を行って音声を得ることにより、録音音声を結合して音声を合成する時の遷移時間長の不確定性の問題が回避され、合成された音声の品質が向上する。
図1
図2
図3
図4
図5
図6
図7