IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アイフライテック カンパニー,リミテッドの特許一覧

特表2024-502049情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体
<>
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図1
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図2
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図3
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図4
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図5
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図6
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図7
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図8
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図9
  • 特表-情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-17
(54)【発明の名称】情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体
(51)【国際特許分類】
   G10L 13/06 20130101AFI20240110BHJP
   G10L 25/30 20130101ALI20240110BHJP
   G06N 3/0455 20230101ALI20240110BHJP
【FI】
G10L13/06 120Z
G10L25/30
G06N3/0455
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023540017
(86)(22)【出願日】2021-01-28
(85)【翻訳文提出日】2023-08-29
(86)【国際出願番号】 CN2021074020
(87)【国際公開番号】W WO2022141714
(87)【国際公開日】2022-07-07
(31)【優先権主張番号】202011624655.8
(32)【優先日】2020-12-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】ホウ,チウシア
(72)【発明者】
【氏名】リウ,ダン
(57)【要約】
情報合成方法、情報合成装置、電子機器及びコンピュータ可読記憶媒体。訓練された自動コーデックネットワークに基づき、第1の目標分布を得るとともに、第1の目標分布に基づき、目標サンプリングコードを得て、訓練された第2のエンコーダを通じて入力情報を符号化し、入力情報の目標コードを得て、訓練された第1のデコーダを通じて目標コードに基づき、目標サンプリングコードを復号化し、出力情報を得る。そのうち、第1の目標分布は第1のエンコーダ入力側から出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程では、第1のエンコーダと第2のエンコーダの入力サンプルが1対1に対応し、かつ、第2のエンコーダが決定する事前分布は第1の目標分布の予測に用いられる。上記技術案は、音声合成分野に用いられることができ、最終的に合成される音声は韻律、ポーズ及び文字の発音などでより良いパフォーマンスを持つ。
【特許請求の範囲】
【請求項1】
第1のエンコーダと、第2のエンコーダと、第1のデコーダとを含む自動コーデックネットワークに用いられる情報合成方法であって、
訓練された自動コーデックネットワークに基づき、前記第1のエンコーダ入力側から前記第1のエンコーダ出力側までの事後分布の特徴を表現する第1の目標分布を得ることと、
前記第1の目標分布に基づき、目標サンプリングコードを得ることと、
訓練された前記第2のエンコーダが入力情報を符号化し、前記入力情報の目標コードを得ることと、
訓練された前記第1のデコーダが前記目標コードに基づき、前記目標サンプリングコードを復号化し、出力情報を得ることと、を含み、
そのうち、前記自動コーデックネットワークの訓練過程で、前記第1のエンコーダと前記第2のエンコーダとの入力サンプルが1対1に対応し、かつ、前記第2のエンコーダが決定する事前分布は前記第1の目標分布の予測に用いられる、
ことを特徴とする情報合成方法。
【請求項2】
前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練し、前記訓練された第1のエンコーダ、前記訓練された第2のエンコーダ及び前記訓練された第1のデコーダを得ることをさらに含む、
ことを特徴とする請求項1に記載の情報合成方法。
【請求項3】
前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練する前には、各サンプルのタイプと前記入力情報が一致する事前学習済みサンプルグループに基づき、前記第2のエンコーダを初期化することをさらに含む、
ことを特徴とする請求項2に記載の情報合成方法。
【請求項4】
前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練することは、
第1のサンプルを含む第1のサンプルグループと、第2のサンプルを含む第2のサンプルグループとを前記自動コーデックネットワークに入力することと、
前記第1のエンコーダ、前記第2のエンコーダ、前記第1のデコーダのパラメータを、前記自動コーデックネットワークの前記第1のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整することと、を含み、
そのうち、前記第1のサンプルのタイプと前記出力情報のタイプが一致し、前記第2のサンプルのタイプと前記入力情報のタイプが一致し、かつ、前記第2のサンプルと前記第1のサンプルが1対1に対応する、
ことを特徴とする請求項2に記載の情報合成方法。
【請求項5】
前記再構成損失の取得は、
前記第1のエンコーダが前記第1のサンプルのそれぞれに基づき、前記第1のサンプルのコードである第1のコードの第1の分布の特徴を表現する第1の分布パラメータを決定するステップと、
前記第1の分布に基づき、前記第1のサンプルそれぞれのサンプリングコードを得るステップと、
前記第2のエンコーダが前記第2のサンプルグループを符号化し、前記第1のサンプルの前記第1のコードに対応する前記第2のサンプルの第2のコードを得るステップと、
前記第2のコードに基づき、前記第2のコードの第2の分布の特徴を表現する第2の分布パラメータを得るステップと、
前記第1の分布パラメータ及び前記第2の分布パラメータに基づき、前記第1の分布及
び前記第2の分布の第1の相違度を得るステップと、
前記第1のデコーダが前記第1のサンプルそれぞれに対応する前記第2のサンプルの前記第2のコードに基づき、当該第1のサンプルのサンプリングコードを復号化し、再構成サンプルグループを構成する当該第1のサンプルの再構成サンプルを得るステップと、
前記第1のサンプルグループ及び前記再構成サンプルグループに基づき、前記第1のサンプルグループ及び前記再構成サンプルグループの第2の相違度を得るステップと、
前記第1の相違度及び前記第2の相違度に基づき、前記再構成損失を得るステップと、を含み、
そのうち、前記訓練された第1のエンコーダのパラメータは、前記再構成損失が予め設定された条件を満足する時の前記第1のエンコーダのパラメータであり、前記第1の目標分布は、前記再構成損失が前記予め設定された条件を満足する時の前記第1の分布である、
ことを特徴とする請求項4に記載の情報合成方法。
【請求項6】
前記予め設定された条件は、前記再構成損失が最小値であること、又は、前記再構成損失が予め設定された値より小さいこととする、
ことを特徴とする請求項4に記載の情報合成方法。
【請求項7】
前記第1のエンコーダ、前記第2のエンコーダ、前記第1のデコーダのパラメータを、前記第1のサンプルグループの再構成損失が予め設定された条件に適合するまで調整する過程では、第1の割合の前記第1の相違度が勾配逆伝播時に第2のエンコーダに逆伝播することなく、前記第1のエンコーダに逆伝播し、第2の割合の前記第1の相違度が勾配逆伝播時に、第1のエンコーダに逆伝播することなく、前記第2のエンコーダに逆伝播し、かつ、前記第1の割合が前記第2の割合より小さい、
ことを特徴とする請求項5に記載の情報合成方法。
【請求項8】
前記第1の相違度は前記第1の分布及び前記第2の分布の相対エントロピーである、
ことを特徴とする請求項5に記載の情報合成方法。
【請求項9】
前記第1の分布と前記第2の分布とは同じタイプの確率分布である、
ことを特徴とする請求項5に記載の情報合成方法。
【請求項10】
前記第1のエンコーダは条件変分自動エンコーダの符号化側であり、前記第1のデコーダは前記条件変分自動エンコーダの複号化側である、
ことを特徴とする請求項1から9のいずれかの1項に記載の情報合成方法。
【請求項11】
前記第2のエンコーダはトランスデューサに基づく双方向エンコーダ表現モデルである、
ことを特徴とする請求項1から9のいずれかの1項に記載の情報合成方法。
【請求項12】
前記入力情報はテキストであり、前記出力情報は音声である、
ことを特徴とする請求項1から9のいずれかの1項に記載の情報合成方法。
【請求項13】
前記第1のデコーダは、前記音声における復号化された履歴出力情報及び前記テキストにおける文脈テキストに基づき、次のフレームの音声情報を決定する、
ことを特徴とする請求項12に記載の情報合成方法。
【請求項14】
前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練する時に、音素及び人手で抽出されたテキスト特徴を前記第1のエンコーダ及び前記第2のエンコーダに入力する必要がない、
ことを特徴とする請求項12に記載の情報合成方法。
【請求項15】
第1のエンコーダと、第2のエンコーダと、第1のデコーダとを含む自動コーデックネットワークに用いられる情報合成装置であって、
訓練された自動コーデックネットワークに基づき、前記第1のエンコーダ入力側から前記第1のエンコーダ出力側までの事後分布の特徴を表現する第1の目標分布を得る分布取得モジュールと、
前記第1の目標分布に基づき、目標サンプリングコードを得るサンプリングモジュールと、
訓練された前記第2のエンコーダを通じて入力情報を符号化して、前記入力情報の目標コードを得る符号化モジュールと、
訓練された前記第1のデコーダを通じて前記目標コードに基づき、前記目標サンプリングコードを復号化して、出力情報を得る復号化モジュールと、を含み、
そのうち、前記自動コーデックネットワークの訓練過程で、前記第1のエンコーダと前記第2のエンコーダとの入力サンプルが1対1に対応し、かつ、前記第2のエンコーダが決定する事前分布は前記第1の目標分布の予測に用いられる、
ことを特徴とする情報合成装置。
【請求項16】
前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練し、前記訓練された第1のエンコーダ、前記訓練された第2のエンコーダ及び前記訓練された第1のデコーダを得る訓練モジュールをさらに含む、
ことを特徴とする請求項15に記載の情報合成装置。
【請求項17】
各サンプルのタイプと前記入力情報が一致する事前学習済みサンプルグループに基づき、前記第2のエンコーダを初期化する初期化モジュールをさらに含む、
ことを特徴とする請求項16に記載の情報合成装置。
【請求項18】
前記訓練モジュールは、
第1のサンプルを含む第1のサンプルグループと、第2のサンプルを含む第2のサンプルグループとを前記自動コーデックネットワークに入力する入力ユニットと、
前記第1のエンコーダ、前記第2のエンコーダ、前記第1のデコーダのパラメータを、前記自動コーデックネットワークの前記第1のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整する調整ユニットと、を含み、
そのうち、前記第1のサンプルのタイプと前記出力情報のタイプが一致し、前記第2のサンプルのタイプと前記入力情報のタイプが一致し、かつ、前記第2のサンプルと前記第1のサンプルが1対1に対応する、
ことを特徴とする請求項16に記載の情報合成装置。
【請求項19】
メモリとプロセッサとを含む電子機器であって、
前記メモリは命令を格納し、前記命令が前記プロセッサによって実行されると、請求項1から14のいずれかの1項に記載の情報合成方法を実行する、
ことを特徴とする電子機器。
【請求項20】
非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体は命令を格納し、前記命令がプロセッサによって実行されると、請求項1から14のいずれかの1項に記載の情報合成方法が実行される、
ことを特徴とする非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【相互参照】
【0001】
本出願は、2020年12月30日に中国特許局へ提出した出願番号202011624655.8、発明名称「情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容はここで参照として本出願に引用される。
【技術分野】
【0002】
本発明は、機械学習分野に属し、具体的には情報合成方法、情報合成装置、電子機器及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
近年、情報の発展と人工知能の台頭に伴い、ヒューマンコンピュータインタラクションはますます重要になっている。そのうち音声合成は、国内外のヒューマンコンピュータインタラクション研究の注目点になっている。
【0004】
従来の音声合成は、フロントエンドテキスト分析、パラメータ予測及びボコーダー(vocoder)の3部分を含む。そのうち、フロントエンドテキスト分析は、主にテキスト情報を用いて発音シーケンス、韻律境界などの音声特徴を予測し、通常は十分なテキストサンプルで発音ルールの蓄積を行うのに加えて、発音時間長さの予測を行う必要もある。フロントエンドテキスト分析を行った後、主に各種音響パラメータを予測するパラメータ予測を行い、次に得られた予測結果をボコーダーに入力して声音合成を行い、音声情報を得る。
【0005】
グローバル化の発展と各国交流の深化に伴い、多言語合成はすでに情報コミュニケーションとヒューマンコンピュータインタラクションでますます重要な部分になっている。従来の音声合成は、フロントエンドがある処理方式を使用している。つまり、フロントエンドテキスト分析には、専門の言語学技術者がテキスト情報を処理する必要がある。しかしながら、多言語合成のシナリオでは異なる言語の音素辞書と発音ルールを把握する必要があり、これらの音素辞書や発音ルールが不足している場合、フロントエンドテキスト分析により音響フロントエンドのモデリングを行うことが困難である。このようなシナリオのエンドツーエンドTTS(テキストから音声、text to speech)の多言語合成では、言語学技術者がテキスト情報を処理することの代わりに機械学習を使用する「フロントエンドレス」の処理方式が推奨されている。
【0006】
フロントエンドレスの処理方式は、人手による事前分析がないため、音声合成システムを訓練するために大量のデータを提供する必要がある。従来の音声合成分野では、音声合成を行うモデルがサンプルの品質不足によって音声特徴や発音規則を正確に学習できないことを避けるために、これらのデータに十分な高音質が必要である。ただし、音質要求を満たしている多言語録音データの取得が困難である。合成に用いられる録音サンプルデータは、言語ごとに1時間に満たない場合もある。このような場合、やむを得ず録音品質の悪いデータを使わなければならない。録音品質の低いデータは出所が雑多で、データの信号/ノイズ比(SNR)が低く、潜在的な発音の誤りがあるため、エンドツーエンドの音声合成モデルが学習過程で誤りが現れやすく、よってモデルの発音重複、発音誤り、発音あいまいさ及び音の消失などの問題が発生する。
【0007】
したがって、当業者にとって、量と質の好ましくない録音データを利用して効率的で正確的なフロントエンドレスの音声合成ソリューションを実現することは、喫緊の技術的課
題である。
【発明の概要】
【0008】
これに鑑み、本出願は、量と質の好ましくない録音データを利用し、効率的で正確的なフロントエンドレスの音声合成ソリューションを実現する情報合成方法、情報合成装置、電子機器及びコンピュータ可読媒体を提供する。
【0009】
本発明の実施例の第1の態様で提供される情報合成方法は、訓練された自動コーデックネットワークに基づき、前記第1のエンコーダ入力側から前記第1のエンコーダ出力側までの事後分布の特徴を表現する第1の目標分布を得ることと、第1の目標分布に基づき、目標サンプリングコードを得ることと、訓練された前記第2のエンコーダが入力情報を符号化し、入力情報の目標コードを得ることと、訓練された前記第1のデコーダが前記目標コードに基づき、前記目標サンプリングコードを復号化し、出力情報を得ることとを含み、そのうち、前記自動コーデックネットワークの訓練過程で、前記第1のエンコーダと前記第2のエンコーダとの入力サンプルが1対1に対応し、かつ、前記第2のエンコーダが決定する事前分布は前記第1の目標分布の予測に用いられる。
【0010】
本出願の実施例では、前記情報合成方法は、前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練し、前記訓練された第1のエンコーダ、前記訓練された第2のエンコーダ及び前記訓練された第1のデコーダを得ることをさらに含む。
【0011】
本出願の実施例では、前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練する前に、前記情報合成方法は、各サンプルのタイプと入力情報が一致する事前学習済みサンプルグループに基づき、前記第2のエンコーダを初期化することをさらに含む。
【0012】
本出願の実施例では、前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練することは、第1のサンプルを含む第1のサンプルグループと、第2のサンプルを含む第2のサンプルグループとを前記自動コーデックネットワークに入力することと、前記第1のエンコーダ、前記第2のエンコーダ、前記第1のデコーダのパラメータを、前記自動コーデックネットワークの前記第1のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整することとを含み、そのうち、前記第1のサンプルのタイプと前記出力情報のタイプが一致し、前記第2のサンプルのタイプと前記入力情報のタイプが一致し、かつ、前記第2のサンプルと前記第1のサンプルが1対1に対応する。
【0013】
本出願の実施例では、前記再構成損失の取得には、前記第1のエンコーダが各第1のサンプルに基づき、前記第1のサンプルのコードである第1のコードの第1の分布の特徴を表現する第1の分布パラメータを決定するステップと、前記第1の分布に基づき、各第1のサンプルのサンプリングコードを得るステップと、前記第2のエンコーダが前記第2のサンプルグループを符号化し、前記第1のサンプルの第1のコードに対応する前記第2のサンプルの第2のコードを得るステップと、前記第2のコードに基づき、前記第2のコードの第2の分布の特徴を表現する第2の分布パラメータを得るステップと、前記第1の分布パラメータ及び前記第2の分布パラメータに基づき、前記第1の分布及び前記第2の分布の第1の相違度を得るステップと、前記第1のデコーダが各第1のサンプルに対応する第2のサンプルの第2のコードに基づき、当該第1のサンプルのサンプリングコードを復号化し、再構成サンプルグループを構成する当該第1のサンプルの再構成サンプルを得るステップと、前記第1のサンプルグループ及び前記再構成サンプルグループに基づき、前記第1のサンプルグループ及び前記再構成サンプルグループの第2の相違度を得るステップと、前記第1の相違度及び前記第2の相違度に基づき、前記再構成損失を得るステップ
とを含む。そのうち、前記訓練された第1のエンコーダのパラメータは、前記再構成損失が予め設定された条件を満足する時の前記第1のエンコーダのパラメータであり、前記第1の目標分布は、前記再構成損失が前記予め設定された条件を満足する時の前記第1の分布である。
【0014】
本出願の実施例では、前記予め設定された条件は、前記再構成損失が最小値であること、又は、前記再構成損失が予め設定された値より小さいこととする。
【0015】
本出願の実施例では、前記第1のエンコーダ、前記第2のエンコーダ、前記第1のデコーダのパラメータを、前記第1のサンプルグループの再構成損失が予め設定された条件に適合するまで調整する過程では、第1の割合の前記第1の相違度が勾配逆伝播時に第2のエンコーダに逆伝播することなく、前記第1のエンコーダに逆伝播し、第2の割合の前記第1の相違度が勾配逆伝播時に、第1のエンコーダに逆伝播することなく、前記第2のエンコーダに逆伝播し、かつ、前記第1の割合が前記第2の割合より小さい。
【0016】
本出願の実施例では、前記第1の相違度は前記第1の分布及び前記第2の分布の相対エントロピーである。
【0017】
本出願の実施例では、前記第1の分布と前記第2の分布は同じタイプの確率分布である。
【0018】
本出願の実施例では、前記第1のエンコーダは条件変分自動エンコーダの符号化側であり、前記第1のデコーダは条件変分自動エンコーダの複号化側である。
【0019】
本出願の実施例では、前記第2のエンコーダはトランスデューサに基づく双方向エンコーダ表現モデルである。
【0020】
本出願の実施例では、前記入力情報はテキストであり、前記出力情報は音声である。
【0021】
本出願の実施例では、前記第1のデコーダは、前記音声における復号化された履歴出力情報及び前記テキストにおける文脈テキストに基づき、次のフレームの音声情報を決定する。
【0022】
本出願の実施例では、前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練する時に、音素及び人手で抽出されたテキスト特徴を前記第1のエンコーダ及び前記第2のエンコーダに入力する必要がない。
【0023】
本発明の実施例の第2の態様で提供される情報合成装置は、第1のエンコーダと、第2のエンコーダと、第1のデコーダとを含む自動コーデックネットワークに用いられる。当該情報合成装置は、訓練された自動コーデックネットワークに基づき、前記第1のエンコーダ入力側から前記第1のエンコーダ出力側までの事後分布の特徴を表現する第1の目標分布を得る分布取得モジュールと、第1の目標分布に基づき、目標サンプリングコードを得るサンプリングモジュールと、訓練された前記第2のエンコーダを通じて入力情報を符号化し、入力情報の目標コードを得る符号化モジュールと、訓練された前記第1のデコーダを通じて前記目標コードに基づき、前記目標サンプリングコードを復号化し、出力情報を得る復号化モジュールと、を含み、そのうち、前記自動コーデックネットワークの訓練過程で、前記第1のエンコーダと前記第2のエンコーダとの入力サンプルが1対1に対応し、かつ、前記第2のエンコーダが決定する事前分布は前記第1の目標分布の予測に用いられる。
【0024】
本出願の実施例では、前記情報合成装置は、前記第1のエンコーダ、前記第2のエンコーダ及び前記第1のデコーダを訓練し、前記訓練された第1のエンコーダ、前記訓練された第2のエンコーダ及び前記訓練された第1のデコーダを得る訓練モジュールをさらに含む。
【0025】
本出願の実施例では、前記情報合成装置は、各サンプルのタイプと入力情報が一致する事前学習済みサンプルグループに基づき、前記第2のエンコーダを初期化する初期化モジュールをさらに含む。
【0026】
本発明の実施例の第3の態様で提供される電子機器は、メモリとプロセッサとを含み、前記メモリには命令を格納し、前記命令が前記プロセッサによって実行される時に、前記機器が前述したいずれか一つの情報合成方法を実行する。
【0027】
本発明の実施例の第4の態様で提供される非一過性コンピュータ可読記憶媒体には命令を格納し、前記命令が前記プロセッサによって実行される時に、前述したいずれか一つの情報合成方法を実行する。
【0028】
本出願の実施例で提供される音声合成方法及び音声合成装置は、訓練された自動コーデックネットワークに基づき、第1の目標分布を得るとともに、第1の目標分布に基づき、目標サンプリングコードを得て、訓練された第2のエンコーダが入力情報を符号化し、入力情報の目標コードを得て、訓練された第1のデコーダが目標コードに基づき、目標サンプリングコードを復号化し、出力情報を得る。そのうち、第1の目標分布は第1のエンコーダ入力側から出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程では、第1のエンコーダと第2のエンコーダとの入力サンプルが1対1に対応し、かつ、第2のエンコーダが決定する事前分布は第1の目標分布の予測に用いられる。これにより、復号化された出力情報と入力情報の対応関係は、訓練サンプルにおける第1のエンコーダと第2のエンコーダの入力サンプルの間の対応関係を高度に復元(又はシミュレーション)するため、入力情報によく対応するような出力情報が得られる。本解決案は、音声合成分野、特に多言語音声合成分野において、音声サンプルの品質に関する制限を緩和するため、大量の訓練サンプルを獲得し、最終的に合成された音声が韻律、ポーズと文字の発音などでより良いパフォーマンスを持つようにする。
【図面の簡単な説明】
【0029】
本発明の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本発明に記載される実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなく提供された図面に従って他の図面を得ることができる。
【0030】
図1図1は本出願の実施例における情報合成方法を示すフローチャートである。
【0031】
図2図2は本出願の実施例における別の情報合成方法を示すフローチャートである。
【0032】
図3図3は本出願の実施例における別の情報合成方法を示すフローチャート。
【0033】
図4図4は本出願の実施例において第1のデコーダ、第2のデコーダ及び第1のエンコーダを訓練する時の情報の流れを示す図である。
【0034】
図5図5は本出願の実施例において訓練された第1のデコーダ、第2のデコーダ及び第1のエンコーダを用いて情報合成を行う時の情報の流れを示す図である。
【0035】
図6図6は本出願の実施例における情報合成方法の音声合成アプリケーションシナリオでの情報の流れを示す図である。
【0036】
図7図7は本出願の実施例における別の情報合成方法を示すフローチャート。
【0037】
図8図8は本出願の実施例における別の情報合成装置の構造を示す図である。
【0038】
図9図9は本出願の実施例における別の情報合成装置の構造を示す図である。
【0039】
図10図10は本出願の実施例における別の情報合成装置の構造を示す図である。
【発明を実施するための形態】
【0040】
以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。
【0041】
本明細書では、第一及び第二のような関係用語は、単に1つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、非排他的包含をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「1つの…を含む」という文によって限定される要素は、当該要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。
【0042】
以下、本発明で使用される用語の一部を説明する。
【0043】
エンコーダ(encoder):自動エンコーダ(Autoencoder)構造内の符号化側であり、入力をコード(潜在変数、潜在表現)にマッピングする。
【0044】
デコーダ(decoder):自動エンコーダ構造内の復号化側であり、コードを出力にマッピングする。通常、当該出力は場合によって符号化側からの入力再構成である。
【0045】
Tacotronモデル:アテンション(Attention)メカニズムに基づくエンドツーエンド一般音声合成モデルであり、テキストから直接的に音声を生成することができる。
【0046】
BERTモデル:トランスデューサに基づく双方向エンコーダ表現モデル(Bidirectional Encoder Representations from Transformers)は双方向深層型の教師なし文表現、かつプレーンテキストコーパスのみを用いて事前訓練を行うモデルで、自然言語処理の事前学習技術であり、グーグル社(Google Inc.)が2018年に発表したもので、ユーザーの検索文の意味を理解し、テキストに含まれる韻律情報を抽出することなどを目的とする。
【0047】
VAEモデル:変分自己符号化器(Variational Autoencoder)は自動エンコーダ構造に基づく生成モデルであり、潜在変数分布の仮定を強め、変分法
を使用して潜在表現を学習し、それによって訓練関数に追加の損失成分と確率勾配変分ベイズ(SGVB:Stochastic Gradient Variational Bayes)推定値を導入する。
【0048】
本出願の実施例の一態様は情報合成方法を提供する。
本実施例では、上記情報合成方法は第1のエンコーダ、第2のエンコーダ及び第1のデコーダモデルを含む自動コーデックネットワークに用いられる。当該自動コーデックネットワークは、ハードウェア、ソフトウェア又は両者の組み合わせで実現される。例えば、当該自動コーデックネットワークは、サーバと端末から構成されるハードウェア環境に置かれ、サーバと端末の間にネットワーク接続を行い、当該ネットワークはローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)又はワイドエリアネットワーク(WAN)を含むがこれらに限らない。この場合、上述したエンコーダ及びデコーダはサーバと端末上で動作するソフトウェアによって実装され、又はサーバ及び端末上のハードウェアに組み込む命令によって実装される。上述したエンコーダ及びデコーダはその全体でサーバ又は端末上で動作することができ、本実施例では特に限定しないことに留意されたい。
【0049】
以下、図1に示すステップを参照しながら上記情報合成方法をさらに説明する。図1は本出願の実施例における情報合成方法を示すフローチャートである。図1に示すように、当該情報合成方法は以下ステップを含む。
【0050】
S101:訓練された自動コーデックネットワークに基づき、第1の目標分布を得る。そのうち、第1の目標分布は第1のエンコーダ入力側から第1のエンコーダ出力側までの事後分布の特徴を表現し、当該自動コーデックネットワークの訓練過程では、第1のエンコーダと第2のエンコーダの入力サンプルが1対1に対応し、かつ、第2のエンコーダが決定する事前分布は第1の目標分布の予測に用いられる。
【0051】
本ステップでは、まず訓練されておいた自動コーデックネットワークから第1の目標分布を取得する。通常、第1の目標分布は、自動コードネットワークの第1のエンコーダ部分から得られるし、第2のエンコーダ部分から得られる。第1のエンコーダ及び第2のエンコーダは、人工ニューラルネットワークモデルであってもよい。例えば、入力に含まれる情報の特徴を抽出するためには、1つ又は複数の畳み込み層及び/又はプーリング層を含むことができる。この場合、第1の目標分布は、エンコーダが抽出した特徴の分布とみなし、その具体的な形式は第1のエンコーダ及び/又は第2のエンコーダのモデルによって決定される。
【0052】
第1の目標分布は、予め設定されたタイプの分布であってもよい。
例えば、予め設定された分布が正規分布(ガウス分布とも呼ばれる)であれば、取得されたパラメータは当該正規分布の期待値と標準偏差を含むことができ、又は取得されたパラメータを計算した後、当該正規分布の期待値と標準偏差を取得することができる。もちろん、予め設定されたタイプの分布は、第1のエンコーダ及び/又は第2のエンコーダでその表現を決定すれば、他のタイプの分布であってもよい。通常、当該第1の目標分布は1つの多次元分布である。
【0053】
自動コーデックネットワークの訓練過程では、第1のエンコーダ及び第2のエンコーダの訓練過程を含み、つまり、第1のエンコーダ及び第2のエンコーダのパラメータが反復的に調整されることが理解される。訓練過程では、第1のエンコーダの入力サンプルと第2のエンコーダの入力サンプルが1対1に対応することは、自動コーデックネットワークがその後の再構成過程で生成される出力情報と第2のエンコーダの入力情報が対応することを確保するためである。第1のエンコーダは、その入力サンプルを符号化し、入力サン
プルの特徴を抽出することができ、抽出された特徴は、入力サンプルの条件付き確率に対し、第1のエンコーダモデルに依存する事後分布、すなわち第1のエンコーダ入力側から出力側までの事後分布に従う。ここの条件付き確率は、特定の入力サンプル(又は特定の種類の入力サンプル)を第1のエンコーダに入力した後に得られた特定の特徴(又は特定の種類の特徴)の確率を表し、つまり第1のエンコーダ入力側及び出力側の間の法則を反映する。第2のエンコーダは、その入力サンプルを符号化し、入力サンプルの特徴を抽出することができ、これらの特徴が入力サンプル及び第2のエンコーダのパラメータによって決定された事前分布に従う。訓練では、第2のエンコーダで第1の目標分布を予測し、つまり第2のエンコーダ及び第1のエンコーダのパラメータを常に調整することにより、当該事前分布が第1のエンコーダ入力側から出力側までの事後分布と相互に近似するようにする。例えば、両者が可能な限り同じになる。ここの「可能な限り同じになる」とは両者の差が特定の閾値を下回ること、又は両者の差が特定の区間内で最小値となること、又は訓練過程で両者の差があるイテレーションステップ数内で最小値となることを意味し、本出願の具体的な実施形態はこれに限定されるものではなく、実際の使用需要に応じて決定することに留意されたい。
【0054】
訓練過程が終了した後、訓練された第1のエンコーダ及び/又は第2のエンコーダに基づき、第1の目標分布を決定する。したがって、本ステップでこれらのパラメータから訓練過程で決定された第1の目標分布を得る。
【0055】
考えられる1つの実施形態において、当該第1のエンコーダモデルはVAEモデルである。当該第1のエンコーダモデルは、ニューラルネットワーク層を含む他のエンコーダモデルであってもよいので、ここで特に具体的な形態を限定しない。
【0056】
S102:第1の目標分布に基づき、目標サンプリングコードを得る。
【0057】
S101で第1の目標分布を取得した後は、サンプリングコードを得るために、第1の目標分布を用いてランダムサンプリング操作を行うことができる。もちろん、目標サンプリングコードを得るためには、直接的に第1の目標分布のパラメータ(平均値など)を使用することができ、具体的には、当該パラメータのサンプリング符号化を行い、目標サンプリングコードを得る。第1の目標分布が多次元分布である場合、得られたサンプリングコードが1つのベクトルであることが理解される。
【0058】
S103:訓練された第2のエンコーダが入力情報を符号化し、入力情報の目標コードを得る。
【0059】
第2のエンコーダが入力情報を符号化するように、入力情報を第2のエンコーダに入力する。第2のエンコーダは、人工ニューラルネットワークモデルであってもよい。例えば、1つ又は複数の畳み込み層及び/又はプーリング層を含むことができ、この場合、入力情報を符号化する過程はその中から必要な特徴を抽出することと等価である。例えば、入力情報が音声であれば、その中から声音の韻律、ポーズ、基本周波数などの音声特徴を抽出することができる。入力情報がテキストであれば、その中から文区切り、単語分割、意味などのテキスト特徴を抽出することができる。入力情報が画像であれば、その中から画像中の形状、色彩、特定の対象物などの画像特徴を抽出することができる。得られた目標コードが抽出された特徴の強さなどの情報を反映することができる。
【0060】
考えられる1つの実施形態において、当該第2のエンコーダモデルはBERTモデルである。この場合、入力情報はテキストであってもよい。
【0061】
本実施例では、目標サンプリングコードや目標コードを取得する優先順位、すなわちS
101、S102、S103の実行順位を限定しないことに留意されたい。一実施形態において、目標サンプリングコードを取得してから目標コードを取得することができ、つまり、S101及びS102を実行してからS103を実行する。別の実施形態において、目標コードを取得してから目標サンプリングコードを取得することができ、つまりS103を実行してからS101とS102を実行する。別の実施形態において、目標サンプリングコードと目標コードを同時に取得することができ、つまりS101とS102を実行する過程でS103を同期に実行する。
【0062】
例えば、入力情報の目標コードを取得し、目標コードを全接続層に入力し、第1の目標分布のパラメータを取得し、第1の目標分布のパラメータをフィッティングし、第1の目標分布を取得する。第1の目標分布をサンプリングし、目標サンプリングコードを得る。又は、直接的に目標コードを用いて第1の目標分布を取得し、次に第1の目標分布をサンプリングし、目標サンプリングコードを得る。
【0063】
S104:訓練された第1のデコーダが目標コードに基づき、目標サンプリングコードを復号化し、出力情報を得る。
【0064】
目標コードと目標サンプリングコードを取得した後、それらを第1のデコーダに入力し、復号化過程を完成する。復号化の対象は、第1のエンコーダの入力側から出力側までの事後分布の特徴を表現する第1の目標分布をサンプリングして得られた目標サンプリングコードであるため、当該出力情報が実際的に第1のデコーダにより第1のエンコーダの訓練過程中の入力サンプルを参照して再構成出した新サンプルであり、当該新サンプルと第1のエンコーダの訓練時の入力サンプルが同じタイプを持つ。また、目標コードに基づく復号化は当該復号化の過程が目標コードを条件としたものとみなす。目標コードは、第2のエンコーダが入力情報を符号化して得られたものであるため、当該出力情報は実際的に入力情報によって制約され、つまり、当該入力情報に対応する。訓練過程では、第1のエンコーダの入力と第2のエンコーダの入力は1対1に対応し、かつ、第2のエンコーダで符号化した後に得られた事前分布を使用し、第1の目標分布を予測したため、この場合の復号化後の出力情報と入力情報の対応関係は、訓練サンプルにおける第1のエンコーダ及び第2のエンコーダの入力サンプルの間の対応関係を高度に復元(又はシミュレート)することができる。つまり、得られた出力情報が入力情報によく対応することができる。
【0065】
本出願の実施例では、上記情報合成方法は音声合成技術に適用される。入力情報はテキストであり、出力情報は音声である。したがって、第1のエンコーダと第2のエンコーダはボコーダーの符号化側であり、第1のデコーダはボコーダーの復号化側である。訓練過程では、1対1に対応する音声サンプルとテキストサンプルをそれぞれ第1のエンコーダ及び第2のエンコーダに入力し、音声特徴及びテキスト特徴をそれぞれに抽出することができる。第2のエンコーダでテキスト特徴の事前分布を用いて音声から音声特徴までの事後分布を予測することにより、訓練後の自動コーデックネットワークから得られた第1の目標分布がテキスト特徴の分布に近似するようにする。
【0066】
従来のエンドツーエンド音声合成ソリューション(Tacotronモデルなど)では、そのアテンションメカニズムに基づく音声合成は音声サンプル中の騒音の妨害を受けるため、録音品質に対する要求が高くなり、取得される訓練サンプルの数が制限され、最終的に訓練の結果に影響を与える。本出願の実施例の技術案では、テキストサンプルに音声の騒音が存在しないため、訓練においてテキスト特徴の事前分布による第1の目標分布の予測は、最終的に生成される音声に対する音声サンプルに含まれる騒音の干渉を効果的に遮蔽することができ、高品質の合成音声を得る。このように、訓練時の音声サンプル品質に関する制約を緩和し、大量の訓練サンプルを獲得でき、訓練後のモデルが生成された音声の韻律、ポーズ及び文字の発音などでよいパフォーマンスを持つようにする。多言語の
音声合成は各言語のサンプル品質に強く依存するため、この利点は多言語音声合成技術においてより顕著になる。
【0067】
一実施形態において、第1のエンコーダ及び第1のデコーダはそれぞれにVAEモデルの符号化側モデル及び復号化側モデルであり、第2のエンコーダの符号化結果はタグとして第1のデコーダの復号化過程を制約する。つまり、第1のエンコーダ、第2のエンコーダ及び第1のデコーダとともに、全体的にCVAE(条件付き変分自己符号化器、Conditional Variational Autoencoder)構造を構成する。
【0068】
一実施形態において、第2のエンコーダはBERTモデルである。従来のフロントエンドレスの音合成ソリューション(Tacotronモデルなど)のフロントエンド処理が簡単で、畳み込み層と長短期記憶ネットワークを使用することが多い。当該構造フレームが簡単で、フロントエンド入力として音素を使用する場合、又は人手によるテキスト特徴の抽出の場合には、よい結果が得られるが、フロントエンドがない場合には、訓練サンプルとして数百時間の音声と対応するテキストしか利用できないため、テキストの意味の理解や文の韻律情報の捕捉が困難である。それに比べて、大量のテキストの事前学習により、BERTモデルは多言語テキストの分析上で非常に高い得点を獲得し、特に意味理解、意味表現などで際立ったパフォーマンスを持つため、従来のフロントエンドレスの音合成ソリューションの欠点を克服する。
【0069】
以上から、本出願の実施例で提供される情報合成方法は、訓練された自動コーデックネットワークに基づき、第1の目標分布を得るとともに、第1の目標分布に基づいてサンプリングし、目標サンプリングコードを得て、訓練された第2のエンコーダが入力情報を符号化し、入力情報の目標コードを得て、訓練された第1のデコーダが目標コードを復号化条件として、目標サンプリングコードを復号化し、出力情報を得る。そのうち、訓練過程では、第1のエンコーダと第2のエンコーダの入力サンプルが1対1に対応し、かつ、第2のエンコーダは第1の目標分布の予測に用いられる。これにより、復号化された出力情報と入力情報の対応関係は、訓練サンプルにおける第1のエンコーダと第2のエンコーダの入力サンプルの間の対応関係を高度に復元(又はシミュレーション)するため、入力情報によく対応するような出力情報が得られる。本解決案は、音声合成分野、特に多言語音声合成分野において、音声サンプルの品質に関する制限を緩和するため、大量の訓練サンプルを獲得し、最終的に合成された音声が韻律、ポーズと文字の発音などでより良いパフォーマンスを持つようにする。
【0070】
図2は本出願の実施例における別の情報合成方法を示すフローチャートである。図1に示すフローをベースとして、当該情報合成方法は以下のステップをさらに含む。
【0071】
S105:第1のエンコーダ、第2のエンコーダ及び第1のデコーダを訓練し、訓練された第1のエンコーダ、訓練された第2のエンコーダ及び訓練された第1のデコーダを得る。
【0072】
S101の説明から、自動コーデックネットワークを情報合成に適用する前に、それを訓練することが分かる。通常、訓練は符号化と復号化のマッピングネットワーク関数を学習し、好ましい又は最も好ましいコーデックネットワークを探すことを目的とする。訓練では、通常、訓練サンプルを自動コーデックネットワークに入力し、次に訓練目標に基づき、第1のエンコーダ、第2のエンコーダ及び第1のデコーダのパラメータを、自動コーデックネットワークが訓練目標に関する予め設定された条件に適合するまで反復的に調整する。
【0073】
一実施形態において、上記訓練目標として自動コーデックネットワークにおけるサンプルの再構成損失の低減を設定することができる。したがって、上記予め設定された条件は、具体的に自動コーデックネットワークにおけるサンプルの再構成損失が予め設定された条件に適合することである。図3に示すように、この場合のS105は以下ステップをさらに含む。
【0074】
S1051:第1のサンプルグループ及び第2のサンプルグループを自動コーデックネットワークに入力する。そのうち、第1のサンプルグループは第1のサンプルを含み、第1のサンプルのタイプと出力情報のタイプが一致し、第2のサンプルグループは第2のサンプルを含み、第2のサンプルのタイプと入力情報のタイプが一致し、かつ、第2のサンプルと第1のサンプルが1対1に対応する。
【0075】
自動コーデックネットワークの各部分(第1のエンコーダ、第2のエンコーダ及び第1のデコーダなど)の情報合成過程及び訓練過程で同様の機能を果たし、それぞれの入力側及び出力側は両方の過程においても同じタイプの情報に対応することが理解される。したがって、第2のエンコーダの訓練過程で入力された第2のサンプルと情報合成過程で入力された入力情報のタイプが一致する。情報合成過程で直接的に第1のエンコーダの入力側を使用していないが、情報合成時、自動コーデックネットワークの複号化側(第1のデコーダ)が目標サンプリングコードを復号化し、出力情報を取得する。これは本質的に第1のエンコーダ入力側を模倣し、新サンプルを再構成することである。すなわち、当該新サンプル(出力情報)は、第1のエンコーダに入力されたサンプルと同様にする必要があり、つまり、音声、テキスト、画像などのような同じタイプでなければならない。しがたって、訓練過程では、自動コーデックネットワークが第1のサンプルグループの再構成を行うため、第1のエンコーダに入力された第1のサンプルもこのタイプに属する必要がある。
【0076】
S1052:自動コーデックネットワークにおける第1のサンプルグループの再構成損失が予め設定された条件に適合するかどうかを判断する。予め設定された条件に適合する場合、上述した実施例に従い、S101からS104を実行する。予め設定された条件に適合しない場合、S1053を実行する。
【0077】
S1053:第1のエンコーダ、第2のエンコーダ、第1のデコーダのパラメータを調整する。S1053を実行した後、S1052に戻って判断する。
【0078】
一実施形態において、予め設定された条件は再構成損失が最小値になるように設定される。ここの最小値は第1のエンコーダ、第2のエンコーダ、第1のデコーダのすべてのパラメータ数値範囲内の再構成損失最小値、又は第1のエンコーダ、第2のエンコーダ、第1のデコーダの一部のパラメータ数値範囲内の再構成損失最小値、又は予め設定されたイテレーションステップ数内で得られた最小値を指す。本出願の実施例は、これに限定されるものでなく、実際の使用環境に応じて調整することができる。
【0079】
一実施形態において、予め設定された条件は、再構成損失が予め設定された値よりも小さい、又はそれを上回らないように設定される。すなわち、再構成損失がある閾値まで低下すれば、予め設定された条件に適合すると判断し、訓練ステップを終了する。
【0080】
このように、S1052及びS1053は、自動コーデックネットワークにおける第1のサンプルグループの再構成損失が予め設定された条件に適合するまで、全体的にイテレーションループで第1のエンコーダ、第2のエンコーダ、第1のデコーダモデルのパラメータを調整する。
【0081】
実際のアプリケーションシナリオで、複数回の情報合成のユースケースが類似している場合、自動コーデックネットワークは最初の情報合成時に訓練を行い、その後の合成で引き続き訓練されておいた自動コーデックネットワークを使用することに留意されたい。また、特定のタイプのユースケースを対象に、訓練されておいた第1のエンコーダ、第2のエンコーダ及び第1のデコーダのパラメータを記録することにより、訓練を繰り返す必要なく、該当する情報合成のたびに直接的にパラメータを使用することができる。すなわち、図1に示す実施例では、音声合成が開始する時に第1のエンコーダ、第2のエンコーダ及び第1のデコーダのパラメータが予め訓練により、使用要求を満たしている状態に調整される場合があるため、S105を実行する必要がない。
【0082】
上記再構成損失は訓練中において訓練過程を終了できるかどうかを判断するための指標である。一実施形態において、図4に示すように、再構成損失は以下の方法で得られる。図4は本出願の実施例において第1のデコーダ、第2のエンコーダ及び第1のエンコーダを訓練する情報の流れを示す図である。そのうち、実線の矢印は、第1のサンプルグループ及び第2のサンプルグループから再構成損失を取得する情報の流れを表し、破線の矢印は、再構成損失のフィードバックに基づき、第1のデコーダ、第2のエンコーダ及び第1のエンコーダを調整する情報の流れを表し、実線の枠は情報の流れの中のパラメータ(スカラー、ベクトル、行列など)を例示し、破線の枠はパラメータの演算操作(関数やモデルなど)を例示する。
【0083】
図4の実線の矢印は、再構成損失の取得過程を示す。まず、第1のエンコーダは、各第1のサンプルに基づき、第1の分布パラメータを決定する。そのうち、第1の分布パラメータは、第1のコードの第1の分布を特徴づけ、かつ、第1のコードは第1のサンプルのコードである。ここの第1の分布は、訓練過程での第1の目標分布の中間状態とみなす。同様に、当該第1の分布は、第1のサンプルから第1のコードの事後分布であり、通常は予め設定された分布タイプであることが理解される。実際のアプリケーションシナリオで、第1のエンコーダは、各第1のサンプルを符号化し、第1のサンプルを表す第1のコードを得て、次に各第1のサンプルの第1のコードに基づき、当該事後分布の第1の分布パラメータを決定することができる。具体的は、第1のエンコーダに埋め込まれた1つ又は複数の全接続層で第1のコードに基づき、当該第1の分布パラメータを取得することができる。当該第1の分布パラメータには複数の要素(平均値や分散など)が含まれた場合、各全接続層はその中の1つの元素を取得するために用いられる。通常、当該第1の分布は1つの多次元分布であり、その次元は第1のサンプルグループ内の第1のサンプルの数(すなわち、第2のサンプルグループ内の第2のサンプルの数)に対応する。
【0084】
第1の分布を得た後、情報合成過程と同様なステップが実行される。まず、第1の分布に基づき、各第1のサンプルのサンプリングコードを取得する。具体的には、第1の分布パラメータを取得することによって、各第1のサンプルのサンプリングコードを得る。例えば、第1のサンプルグループはM個の第1のサンプルを有し、かつ、各サンプルは、第1のエンコーダで符号化された後、1つのコード元素を得た場合、第1の分布は1つのM次元の正規分布とし、各次元k(1≦k≦M)には平均値μと分散Σとの2つのパラメータを有すると仮定する。この場合、各次元のμ及びΣのサンプリングに基づき、1つのコード元素cを取得することができ、{c,c,…c}は、各第1のサンプルのサンプリングコードである。当該例は、サンプリングコードの取得過程を説明することに過ぎず、本出願ではこれに限定されない。各第1のサンプルのサンプリングコードを得ると同時に、第2のエンコーダが第2のサンプルグループを符号化し、第2のサンプルの第2のコードを得ることができる。その後、第2のコードに基づき、第2の分布パラメータを得る。具体的には、第2のエンコーダに埋め込まれた1つ又は複数の全接続層で第2のコードに基づき、当該第2の分布パラメータを取得することができる。当該第2の分布パラメータには複数の要素(平均値や分散など)が含まれた場合、各全接続層はその
中の1つの元素を取得するために用いられる。そのうち、第2の分布パラメータは、第2のコードの第2の分布の特徴を表現し、かつ、第2のサンプルの第2のコードは、第1のサンプルの第1のコードに対応する。ここの第2のコードは、第2のエンコーダが第2のサンプルから抽出した特徴を表し、第2の分布は、直接的に第2のサンプルによって決定され、実質的には第2のコードの事前分布である。次に、第1のデコーダは、各第1のサンプルに対応する第2のサンプルの第2のコードを条件として、当該第1のサンプルのサンプリングコードを復号化し、当該第1のサンプルの再構成サンプルを得る。各第1のサンプルの再構成サンプルは、再構成サンプルグループを構成する。
【0085】
情報合成過程での入力情報が出力情報を効果的に制約するよう、第2の分布を用いて第1の目標分布を予測する必要があることが理解される。したがって、第2のサンプルの第2のコードは、第1のサンプルの第1のコードに対応するようにしなければならない。例えば、第1のサンプル及び第2のサンプルは、それぞれ対応する音声サンプル及びテキストサンプルである場合、第2のコードにおける文間ポーズを表す成分は、第1のコードにおけるテキスト節を表す成分に対応することができる。
【0086】
次に、再構成損失を計算する。まず、第1の分布パラメータ及び第2の分布パラメータに基づき、第1の分布及び第2の分布の第1の相違度を得る。訓練過程での1つの重要目標は、第2の分布を用いて、最終的な第1の分布(第1の目標分布)を予測することが理解される。したがって、両者の相違は、訓練結果を評価するために用いられる重要パラメータである。ここの第1の相違度は、第1の相違関数により計算する。当該計算は、差の計算、分布パラメータの平均二乗誤差計算、相対エントロピー計算、クロスエントロピー計算などを含むが、これらに限らない。本出願の実施例では2つの分布の相違を反映すれば、特に限定しない。
【0087】
また、第1のサンプルグループ、再構成サンプルグループ及び第2の相違関数に基づき、第1のサンプルグループ及び再構成サンプルグループの第2の相違度を得る。第1のデコーダの重要な任務は、第1のサンプルと類似する新サンプルを生成することであり、再構成の復元の程度も損失を評価するための重要パラメータであることが理解される。ここの第2の相違度は、第2の相違関数により計算する。当該計算は差の計算、分布パラメータの平均二乗誤差計算などを含むが、これらに限らない。本出願の実施例では、2つのサンプルグループの相違を反映すれば、特に限定しない。
【0088】
最後に、第1の相違度及び第2の相違度に基づき、再構成損失を得る。すなわち、再構成損失について、第1の分布と第2の分布との相違、及び第1のサンプルグループと第2のサンプルグループとの相違を同時に考慮しなければならない。ここの再構成損失は、再構成損失関数により計算する。当該計算は、加算、乗算、重み付け、指数演算などを含むが、これらに限らない。本出願の実施例では、再構成損失が第1の相違度及び第2の相違度といずれも正の相関を持つ限り、特に限定しない。
【0089】
一実施形態において、第1の相違度を容易に計算するため、第1の分布及び第2の分布は同じタイプの分布を用いることができる。例えば、第1の分布及び第2の分布はいずれも正規分布を用いる場合、第1の分布パラメータには第1の分布の期待値と分散が含まれ、第2の分布パラメータには第2の分布の期待値と分散が含まれることができる。
【0090】
次に、図4の破線の矢印部分、すなわち再構成損失のフィードバック過程を参照する。再構成損失は、フィードバック時に第1のエンコーダ(フィードバックA)、第2のエンコーダ(フィードバックB)及び第1のデコーダ(フィードバックC)に同時にフィードバックすることができる。そのうち、フィードバックA、フィードバックB及びフィードバックCは同じであってもよいし、相違であってもよい。つまり、再構成損失は、同じ形
でフィードバックしてもよいし、違う形でフィードバック(再構成損失関数の異なる部分のフィードバック、又は再構成損失に基づく異なる演算結果のフィードバック)してもよい。訓練は、反複的な過程であるため、計算により得られた再構成損失が予め設定された条件に適合しないと判定するたびに、今回得られた再構成損失に基づき、自動コーデックネットワークをどのように調整するかを判断する。一実施形態において、フィードバックは、再構成損失の勾配逆伝播によって実現される。すなわち、今回得られた再構成損失と前回得られた再構成損失から再構成損失の変化勾配を得て、第1のエンコーダ、第2のエンコーダ及び第1のデコーダパラメータを調整するための根拠として、勾配を自動コーデックネットワークにフィードバックする。
【0091】
上記の過程で、再構成損失の低下によって第1の相違度が低下する。第1のエンコーダ及び第2のエンコーダのパラメータはいずれも、逆伝播された勾配に従い調整するため、第1の相違度の減少は、本質的に、第1の分布及び第2の分布が互に接近する過程、すなわち、第1のサンプルグループから第1の特徴までの事後分布及び第2のサンプルグループから第2の特徴までの事前分布が互に接近する過程である。前述したように、情報合成は、本質的に、入力情報をコントロールするうえで、第1のサンプルと同様な出力情報を再構成することを目的とするため、訓練過程は、自動コーデックネットワークでは、事前分布の制約を受けたうえで、事後分布が第1のサンプルグループからできるだけ多くの情報を学習することを目的とする。したがって、訓練時の事前分布が事後分布を強く制約する(第1の分布が第2の分布に緊密に近づくが、第2の分布が第1の分布にそこまで近づくものではない)場合、最終的に得られた事後分布が事前分布に過度に偏ってしまい、有用な情報を学習することができなくなる可能性がある。
【0092】
上記の課題を解決するため、一実施形態において、再構成損失を処理してから勾配逆伝播を実行することができる。例えば、再構成損失を第1の部分と第2の部分に分ける。第1の部分の再構成損失は第2の分布(第2のデコーダのパラメータ)に対して、勾配切断を行い、勾配を逆伝播しない。すなわち、当該部分の再構成損失の勾配変化が第2のデコーダパラメータの調整に影響を与えない。第2の部分の再構成損失は、第1の分布(第1のデコーダのパラメータ)に対して、勾配切断を行い、勾配を逆伝播しない。すなわち、当該部分の再構成損失の勾配変化が第1のデコーダパラメータの調整に影響を与えない。この場合、再構成損失に占める第1の部分及び第2の部分の割合をコントロールすることにより、第1の分布及び第2の分布が訓練中に互いに近づく程度をコントロールする。通常、再構成損失に占める第1の部分の割合が第2の部分より大きいと予め設定し、第1の分布が第2の分布にひたすら近づくことで、第1のサンプルグループから有用情報を学習する機会が失うことを防止する。
【0093】
訓練過程が終了した後、すなわち、予め設定された条件に適合する再構成損失を得た後、訓練された第1のエンコーダ、第2のエンコーダ及び第1のデコーダを取得する。次に上記S101~S104に示す情報合成過程を実行する。この場合、訓練された第1のエンコーダ及び/又は第2のエンコーダのパラメータ及び/又は第1の及び/又は第2のエンコーダに対応する入力に基づき、第1の分布パラメータを決定し、すなわち、最終的な第1の分布を第1の目標分布とする。
【0094】
図4に示す訓練過程に対応し、図5は本出願の実施例において訓練された第1のデコーダ、第2のエンコーダ及び第1のエンコーダを用いて情報合成を行う情報の流れを示す図である。如図5に示すように、情報合成過程で、訓練された自動コーデックネットワーク(図5は訓練された第1のエンコーダ)に基づき、第1の目標分布を決定した後、第1の目標分布に基づいてサンプリングし、目標サンプリングコードを得る。例えば、第1の分布は正規分布であれば、第1の目標分布も当然正規分布であり、目標サンプリングコードは当該正規分布からサンプリングして得られたコードである。目標サンプリングコードは
、1つの「仮想」的な第1のサンプルが第1のエンコーダを経由した後に得られた第1のコード、又は訓練されておいた第1のエンコーダから生成されたサンプリングコードとみなすことが理解され、その関連属性について、前述した第1のコード及びサンプリングコードの説明を参照できるので、ここで省略する。また、図5に示すように、訓練された第1のデコーダのパラメータから第1の目標分布を取得するが、その場合の第1の分布及び第2の分布は訓練により、予め設定された条件に適合するほど互いに接近しているので、第1の目標分布は訓練された第2のエンコーダから得ることができ、その効果は同様であることが理解される。例えば、テキスト情報を第2のエンコーダに入力し、第2のエンコーダがテキストコードを得て、テキストコードが全接続層を経由して得られたパラメータを第1の目標分布のパラメータとして、第1の目標分布のパラメータのフィッティングにより第1の目標分布を得る。
【0095】
また、訓練された第2のデコーダが入力情報を符号化し、対応する入力情報の目標コードを得る。その後、目標コード及び目標サンプリングコードを同時に第2のデコーダに入力し、第2のデコーダが第1のコードを条件として目標サンプリングコードを復号化し、出力情報を得る。例えば、第2のデコーダは条件付き変分オートデコーダの複号化側に対応し、この場合の目標コードはタグとして復号化過程に関与することができる。出力情報は入力情報に対応する一方、第1のサンプルと同様な新情報であり、第1のサンプルと同じタイプを持つことが理解され、すなわち、この場合の自動コーデックネットワークが情報合成の過程を完了した。
【0096】
上述した情報合成方法を明確的に理解するために、以下、本出願の具体的な実施形態について音声合成のユースケースを例に挙げて説明する。図6は本出願の実施例における情報合成方法の音声合成アプリケーションシナリオでの情報の流れを示す図である。本実施例では、入力情報及び第2のサンプルはいずれもテキストタイプの情報として設定され、すなわち、テキスト入力をYとする。出力情報f(z,Y’)、第1のサンプルは音声タイプの情報として設定され、すなわち第1のサンプルを音声入力Xとする。自動音声コードネットワークは、Tacotron復号化フレーム及びトランスデューサ(Transformer)符号化フレームを採用するよう設定され、具体的には、第1のエンコーダはVAEエンコーダの符号化側として、第2のエンコーダはBERTエンコーダとして設定され、第1のデコーダはVAEエンコーダに対応する複号化側であり、VAE符号化側及びBERTエンコーダの出力からCVAE構造を構成する。上記構造で、VAE符号化側は、主に音声合成過程の韻律及び安定性を高める機能を果たし、BERTエンコーダは、主にテキスト意味理解、テキスト文の韻律を捉える機能を果たす。
【0097】
まず、図6の訓練過程を参照する。本実施例では、自動コーデックネットワークを訓練する時に、第1のエンコーダ及び第2のエンコーダに音素及び人手で抽出されたテキスト特徴を入力する必要なく、1対1に対応する第1のサンプル及び第2のサンプル(テキスト-音声サンプル対<y,x>)を入力すればよい。そのうち、yは入力されたテキスト(第2のサンプルグループYにおける第2のサンプル)、xは入力された音声(第1のサンプルグループXにおける第1のサンプル)である。通常、xの形式は、音声波形ファイル(waveファイル)、又はwaveファイルから抽出された基本周波数ケプストラム特徴である。
【0098】
本実施例では、VAE符号化側はXを用いて第1の分布パラメータを決定し、第1のサンプルから第1のコードまでの事後分布を決定し、Q(Z|X)で表す。そのうち、Zは、VAE符号化側を経由した後のXの潜在層特徴を表し、すなわち、第1のコードZ=VAEencoder(X)。BERTエンコーダは、Yを用いて第2のコードY’を取得し、次に、第2のコードの分布を所定の分布タイプでフィッティングし、第2の分布パラメータを取得し、第2のコードの事前分布を決定し、P(Z’|Y)で表す。そのうち、
Z’は、BERTエンコーダを経由した後Yの第2のコードを表し、第2のコードZ’と第1のコードZが互いに対応するため、P(Z’|Y)はP(Z|Y)、すなわち第1のコードZの事前分布として理解される。
【0099】
一実施形態において、第1の分布及び第2の分布はいずれも正規分布であり、式

で表される。
【0100】
この場合、第1の分布パラメータは、期待値μ(X)及び分散Σ(X)を含み、通常、ここのμ(X)及びΣ(X)は、ベクトルの形で表し、含まれる要素数は第1のサンプルグループXにおける第1のサンプルxの数に等しい。すなわち各xがいずれも1つの分散及び1つの期待値に対応する。同様に、第2の分布パラメータはμ(Y)及び分散Σ(Y)を含む。
【0101】
第1の分布及び第2の分布を取得した後、第1の相違度を取得することができ、本実施例では、第1の分布及び第2の分布の相対エントロピーとして設定され、KL(Kullback-Leibler)ダイバージェンスの形で表し、例えば、第1の相違関数は式(1)で表す。
【数1】
【0102】
そのうち、DKLは、KLダイバージェンスを求めることを意味する。第1の分布及び第2の分布はいずれも正規分布である場合、式(1)は
で表す。
【0103】
その後、Nサンプリングに基づき、Xに対応する潜在層特徴Zのセットを得る。Y’をタグとして複号化側に入力し、当該潜在層特徴Zを復号化するように制御し、自動コーデックネットワークで再構成されたX、すなわち再構成サンプルグループf(Z,Y’)を得る。復号化過程では、Y’の各第2のサンプルyに対応する第2のコードy’によって制御されるのは当該第2のサンプルyに対応する第1のサンプルxの再構成であるため、f(Z,Y’)の再構成サンプル数とXの第1のサンプル数が一致することが理解される。この場合、第2の相違度を得ることができる。本実施例では、第1のサンプルグループと再構成サンプルグループの間の平均二乗誤差(Mean Square Error)として設定され、例えば、第2の相違関数は式(2)で表す。
【数2】
【0104】
そのうち、MSEは平均二乗誤差を求めることを意味する。
【0105】
したがって、自動コーデックネットワークの全体的な再構成損失Lは次のように表す。
【数3】
【0106】
上記再構成損失のうち、Lにおける平均二乗誤差の制約は、VAE符号化側が第1のサンプルグループXから音声合成用情報(韻律など)を学習することに有効で、LのKLダイバージェンスの制約により、VAE符号化側が合成用情報を学習すると同時に、分布上の制限を受ける。上記ではLをLとLの和として表すが、本出願の実施例でこれに限定しないことが理解される。実際のアプリケーションシナリオでは、LがL及びL
の両方に正の相関を持つ限り、LとLの積、LとLの重み付けなどの他の形で表すことができる。
【0107】
再構成損失Lを取得した後、勾配逆伝播を用いて、Lを自動コーデックネットワークにフィードバックし、第1のエンコーダ、第2のエンコーダ及び第1のデコーダを調整する。一実施形態において、事後分布に対する事前分布の過度制限を避けるため、再構成損失LのLを2つの部分に分けて勾配逆伝播に参加させる。
【数4】
【0108】
そのうち、α及びβはそれぞれ2項目のKLダイバージェンスのLに占める割合を表し、割合の違いを除き、2項目のKLダイバージェンスの大きさが同じである。そのうち、sgは、勾配切断を行い、勾配を逆伝播しないことを意味する。すなわち、sgの後ろの括弧内の分布は、フィードバック過程で当該勾配変化の影響を受けない。したがって、上記の式における第1の項目のKLダイバージェンスは、事後分布が事前分布に近づく度合いを表す。当該項目を第1のエンコーダ(VAE符号化側)に逆伝播することは、パラメータ調整を目的とするため、第2のエンコーダ(BERTエンコーダ)に逆伝播しない。上記の式の第2の項目のKLダイバージェンスは、事前分布が事後分布に近づく度合いを表す。当該項目を第2のエンコーダに逆伝播することは、パラメータ調整を目的とするため、第1のエンコーダに逆伝播しない。以上の3項目で再構成損失関数の共同訓練モデルを構成する。第2のエンコーダは、訓練過程での主な目的として、第1のサンプルから法則を見つけ、合成過程で当該法則を入力情報に基づくサンプル再構成に十分に活用することで、通常に事前分布が事後分布に更に近づくようにすることが理解される。事前分布が事後分布に近づく度合いより、事後分布が事前分布に近づく度合いを小さくするよう、通常、α<β(例えば10α=β)とする。
【0109】
以上の訓練過程は、既存の音声合成方法を比較すると少なくとも2つの大きな違いがある。
【0110】
まず、従来の音声合成方法(Tacotronなど)が簡単な符号化・復号化モデルを用いてグループの出力を予測する。通常、複号化側が符号化側で符号化された後の文脈テキストC及び復号化後に得られた履歴音声フレームシーケンスx,x,…,xT-1に基づき、当前音声フレームxを予測し、すなわち
とする。そのうち、Pθは前の1つの音声フレームから次の1つの音声フレームまでの条件確率を表す。しかしながら、使用された音声データには、通常に大量のノイズ及び潜在的な発音エラーが含まれるため、データの不確定性が大幅に増加する。また、このような不確定性について、該当するテキストデータを用いて説明することが困難であり、上記のような簡単な符号化-復号化モデルがこれらのノイズや発音エラーを吸収することができず、モデル学習の難易度が高くなる。対照的に、本出願の実施例の第1のエンコーダ(VAE符号化側のネットワークなど)は、第1の分布を用いてこれらのノイズ及び発音エラーをシミュレートするだけでなく、一般にモデリングしにくい韻律をシミュレートすることもできる。そのため、音声フレームを予測する時に、履歴シーケンス及び文脈テキストCによって提供された韻律を使用するほか、さらに第1のエンコーダによって提供された潜在層特徴Zを用いてこれらのノイズ、発音エラー及び韻律を学習することができ、すなわち、現在の音声フレームが
として近似的に表すことで、モデルの学習の難易度を低減させる。本出願の技術案は、他
の分野に使用される場合、入力情報及び出力情報として他のタイプの情報を使用してもよいと理解される。この場合の上記履歴音声フレームシーケンスは、対応する履歴出力情報と置き換えされても良いので、ここで説明を省略する。
【0111】
次に、従来のVAEモデルでは、事後分布を正規分布と仮定しても、事前分布として通常、標準正規分布、すなわちN(0,1)を用いて事後分布を予測する。これにより、事後分布を予測した後、複号化側への入力がゼロ又はゼロに近づけることになる。一部のノイズが除去されるが、潜在層特徴Zに含まれている韻律情報も失われるため、ノイズが少ないが韻律の揺らぎの低い合成結果となる。対照的に、本出願の実施例において、第2のエンコーダを用いて第2のサンプルを符号化し、その後、符号化結果から得られた事前分布を用いて事後分布を予測する。当該事前分布には音声データに対応するテキスト特徴が含まれ、音声に対応する韻律の揺らぎを保持するため、ノイズを除去すると同時に音声の韻律情報が失われることを避けた。
【0112】
次に、図6の音声合成過程を参照する。図6の破線の枠内に音声合成部分では、概略的に当該過程を説明している。音声合成を行う時には、第1のデコーダ(VAE複号化側)に実際のx入力がないため、訓練過程のようにXに基づく第1の分布を得ることができない。この場合、事前分布で予測された第1の目標分布を直接的に用いてサンプリングして目標サンプリングコードZ(潜在特徴Z)を得る。当該目標サンプリングコードZは第2のエンコーダ(BERTエンコーダ)のコードテキストYから生成された目標コードY’とともに複号化側に入力し、復号化により、Yに対応する音声f(Z,Y’)を合成する。この場合、サンプリングで得られた目標サンプリングコードZは、相変わらず音声信号の潜在特徴とみなすが、第2のエンコーダが処理するものはテキスト入力であるため、Zには、第2のエンコーダで処理されない韻律及びノイズ情報が含まれていることが理解される。したがって、事後分布が事前分布から学習するものについて、主にテキストから予測された韻律情報である。これらの韻律情報はさらに最終的に合成した音声内のノイズを低減させる。
【0113】
なお、図6は音声合成のユースケース、すなわち、テキスト情報を用いて音声情報を生成することを示しているが、本出願の実施例の情報合成方法は他のユースケースにも適用される。例えば、テキスト情報に基づき、画像情報を生成することや、画像情報に基づき、音声情報を生成することや、音声情報に基づき、テキスト情報を生成することができる。第1のデコーダ、第2のデコーダ及び第1のエンコーダを適切な人工ニューラルネットワークモデルに置き換えればよい。
【0114】
以上、S105などを参照しながら説明し、本出願の実施例における訓練過程を含む音声合成方法を説明している。いくつかの実施例において、訓練過程及び音声合成の効率を高めるよう、自動コーデックネットワークを丸ごとに訓練する前、第2のエンコーダの事前学習を行うことができる。図7は、本出願の実施例における別の情報合成方法を示すフローチャートである。図7に示すように、図2に示す方法をベースにして、S105前の情報合成方法は次のステップを含んでもよい。
【0115】
S106:事前学習済みのサンプルグループに基づき、第2のエンコーダを初期化する。
【0116】
本ステップで、事前学習済みのサンプルグループは、1つ又は複数の事前学習済みサンプルを含む。通常、事前学習済みのサンプルのタイプと入力情報のタイプが同じ、かつ、その数が多いから、第2のエンコーダのパラメータを初期化し、入力情報及び第2のサンプルグループをよく理解し、自動コーデックネットワークでの予測の合理性を向上させる。例えば、第2のエンコーダはBERTモデルである場合、事前学習済みのサンプルグル
ープは、大量のテキストであり、これにより、取得しやすい大量のテキスト事前学習データに基づき、合成された出力情報(音声合成など)の韻律を追加し、フロントエンド不足による合成音声の不合理的な区切りや不合理的なポーズなどの潜在的な問題を補う。
【0117】
次に多言語音声合成を例として、従来技術を比較して本出願の実施例の情報合成方法のメリットを説明する。表1は、グーグル(Google Inc.)翻訳システムと、本出願の実施例の情報合成方法を適用した音声合成システム(以下、「Baseシステム」という)とは同じの聴取試験で平均オピニオン評点(Mean Opinion Score)により得た評価結果である。評価対象は、ポルトガル語、ヒンディー語、インドネシア語、ドイツ語、イタリア語、マレー語の6小言語の音声合成自然性(リズムや音色など)である。
【表1】
【0118】
表1の比較から、音声合成において、個別の言語のMOSでも全体の平均MOSでも、Baseシステムはグーグル翻訳システムよりも優れていることが分かる。
【0119】
本出願の実施例の別の態様は情報合成装置を提供する。本実施例では、上記情報合成装置は、第1のエンコーダ、第2のエンコーダ及び第1のデコーダモデルを含む自動コーデックネットワークに用いられる。当該自動コーデックネットワークの詳細については前述した方法の実施例を参照できるので、ここで省略する。
【0120】
以下、図8を参照しながら上記情報合成装置を説明する。図8は、本出願の実施例における情報合成装置の構造を示す図である。図8に示すように、当該情報合成装置は、以下のモジュールを含む。
【0121】
分布取得モジュール801:訓練された自動コーデックネットワークに基づき、第1の目標分布を取得する。そのうち、第1の目標分布は、第1のエンコーダ入力側から第1のエンコーダ出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程で、第1のエンコーダと第2のエンコーダとの入力サンプルが1対1に対応し、かつ、第2のエンコーダが決定する事前分布は第1の目標分布の予測に用いられる。
【0122】
サンプリングモジュール802:第1の目標分布に基づいてサンプリングし、目標サンプリングコードを得る。
【0123】
符号化モジュール803:訓練された第2のエンコーダを通じて入力情報を符号化し、入力情報の目標コードを得る。
【0124】
復号化モジュール804:訓練された第1のデコーダを通じて目標コードを復号化条件として、目標サンプリングコードを復号化し、出力情報を得る。
【0125】
図9は本出願の実施例における別の情報合成装置の構造を示す図である。図8に示す構造をベースに、当該情報合成装置は、以下のモジュールをさらに含む。
【0126】
訓練モジュール805:第1のエンコーダ、第2のエンコーダ及び第1のデコーダを訓練し、訓練された第1のエンコーダ、訓練された第2のエンコーダ及び訓練された第1のデコーダを得る。
【0127】
一実施形態において、訓練モジュール805は、以下のユニットを含む。
【0128】
入力ユニット:第1のサンプルグループ及び第2のサンプルグループを自動コーデックネットワークに入力する。そのうち、第1のサンプルグループは第1のサンプルを含み、第1のサンプルのタイプと出力情報が一致し、第2のサンプルグループは第2のサンプルを含み、第2のサンプルのタイプと入力情報のタイプが一致し、かつ、第2のサンプルと第1のサンプルが1対1に対応する。
【0129】
調整ユニット:第1のエンコーダ、第2のエンコーダ、第1のデコーダのパラメータを、自動コーデックネットワークの第1のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整する。
【0130】
一実施形態において、予め設定された条件は、再構成損失が最小値であること、又は再構成損失が予め設定された値より小さいこととする。
【0131】
一実施形態において、再構成損失の取得には、第1のエンコーダが各第1のサンプルに基づき、第1のサンプルのコードである第1のコードの第1の分布の特徴を表現する第1の分布パラメータを決定するステップと、第1の分布に基づいてサンプリングして、各第1のサンプルのサンプリングコードを得るステップと、第2のエンコーダが第2のサンプルグループを符号化し、第1のサンプルの第1のコードに対応する第2のサンプルの第2のコードを得るステップと、第2のコードに基づき、第2のコードの第2の分布の特徴を表現する第2の分布パラメータを得るステップと、第1の分布パラメータ及び第2の分布パラメータに基づき、第1の分布及び第2の分布の第1の相違度を得るステップと、第1のデコーダが各第1のサンプルに対応する第2のサンプルの第2のコードに基づき、当該第1のサンプルのサンプリングコードを復号化し、再構成サンプルグループを構成する当該第1のサンプルの再構成サンプルを得るステップと、第1のサンプルグループ及び再構成サンプルグループに基づき、第1のサンプルグループ及び再構成サンプルグループの第2の相違度を得るステップと、第1の相違度及び第2の相違度に基づき、再構成損失を得るステップとを含む。そのうち、訓練された第1のエンコーダのパラメータは、再構成損失が予め設定された条件を満足する時の第1のエンコーダのパラメータであり、第1の目標分布は、再構成損失が予め設定された条件を満足する時の第1の分布である。
【0132】
一実施形態において、第1の相違度は第1の分布及び第2の分布の相対エントロピーである。
【0133】
一実施形態において、第1の割合の第1の相違度が勾配逆伝播時に第2のエンコーダに
逆伝播することなく、第1のエンコーダに逆伝播し、第2の割合の第1の相違度が勾配逆伝播時に、第1のエンコーダに逆伝播することなく、第2のエンコーダに逆伝播し、かつ、第1の割合が第2の割合より小さい。
【0134】
一実施形態において、第1の分布と第2の分布は同じタイプの確率分布である。
【0135】
一実施形態において、第1の分布及び第2の分布は正規分布であり、第1の分布パラメータ及び第2の分布パラメータにはいずれも正規分布の期待値と分散が含まれている。
【0136】
図10は本出願の実施例における別の情報合成装置の構造を示す図である。図9に示す構造をベースに、当該情報合成装置は、以下のモジュールをさらに含む。
【0137】
初期化モジュール806:各サンプルのタイプと入力情報が一致する事前学習済みのサンプルグループに基づき、第2のエンコーダを初期化する。
【0138】
一実施形態において、第1のエンコーダは条件変分自動エンコーダの符号化側であり、第1のデコーダは条件変分自動エンコーダの複号化側である。
【0139】
一実施形態において、第2のエンコーダは、トランスデューサに基づく双方向エンコーダ表現モデルである。
【0140】
一実施形態において、入力情報はテキストであり、出力情報は音声である。
【0141】
一実施形態において、第1のデコーダは、音声情報における復号化された履歴フレームシーケンス及びテキスト情報における文脈テキストに基づき、次のフレームの音声情報を決定する。
【0142】
一実施形態において、第1のエンコーダ、第2のエンコーダ及び第1のデコーダを訓練する時に、音素及び人手で抽出されたテキスト特徴を第1のエンコーダ及び第2のエンコーダに入力する必要がない。
【0143】
本出願の実施例に係る情報合成装置によれば、訓練された自動コーデックネットワークに基づき、第1の目標分布を得るとともに、第1の目標分布に基づいてサンプリングし、目標サンプリングコードを得て、訓練された第2のエンコーダが入力情報を符号化し、入力情報の目標コードを得て、訓練された第1のデコーダが目標コードを復号化条件として、目標サンプリングコードを復号化し、出力情報を得る。そのうち、第1の目標分布は第1のエンコーダ入力側から出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程では、第1のエンコーダと第2のエンコーダの入力サンプルが1対1に対応し、かつ、第2のエンコーダが決定する事前分布は第1の目標分布の予測に用いられる。これにより、復号化された出力情報と入力情報の対応関係は、訓練サンプルにおける第1のエンコーダと第2のエンコーダとの入力サンプルの間の対応関係を高度に復元(又はシミュレーション)するため、入力情報によく対応するような出力情報が得られる。本解決案は、音声合成分野、特に多言語音声合成分野において、音声サンプルの品質に関する制限を緩和するため、大量の訓練サンプルを獲得し、最終的に合成された音声が韻律、ポーズと文字の発音などのところでより良いパフォーマンスを持つようにする。
【0144】
本出願の実施例の別の態様は電子機器を提供する。当該電子機器は、メモリとプロセッサとを含み、当該メモリには命令を格納し、当該命令が当該プロセッサによって実行される時に、当該機器が前述したいずれか一つの情報合成方法を実行する。
【0145】
本出願の実施例の別の態様は非一過性コンピュータ可読記憶媒体を提供する。当該記憶媒体には命令を格納し、当該命令が当該プロセッサによって実行される時に、前述したいずれか一つの情報合成方法を実行する。
【0146】
コンピュータ可読記憶媒体は、プログラムコマンド、データファイル、データ構造など、又はそれらの組み合わせを含む。コンピュータ可読記憶媒体に記録されているプログラムは、本発明の方法を実装するように設計又は構成されてもよい。コンピュータ可読記憶媒体はプログラムコマンドを記憶・実行するハードウェアシステムを含む。ハードウェアシステムとしては、磁気媒体(ハードディスク、フロッピーディスク、磁気テープなど)、光学媒体(CD-ROMやDVDなど)、光磁気媒体(ソフト光ディスク、ROM、RAM、フラッシュメモリなど)が挙げられる。プログラムは、コンパイラによってコンパイルされたアセンブリ言語コード又はマシンコードと、インタプリタによって解釈されたより高度な言語コードとを含む。ハードウェアシステムは、本発明に適合するよう、少なくとも1つのソフトウェアモジュールを用いて実現することができる。
【0147】
当業者はまた、本明細書で開示された実施例に例示されたユニット及びアルゴリズムステップを参照しながら、電子ハードウェア、コンピュータソフトウェア又は両方の組み合わせで実装することを認識することができる。ハードウェア及びソフトウェアの互換性を明確に示すために、各例の構成及びステップは、上記の説明において機能ごとに一般的に説明している。これら機能がハードウェアで実行されるか、又はコンピュータソフトウェアで実行されるかは、技術案の特定用途と設計制約条件によって異なる。当業者は、特定の用途ごとに異なる方法を使用して、記載された機能を実現することができるが、そのような実施は、本発明の範囲を超えるものとみなされるべきではない。
【0148】
本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点を重点として説明され、各実施例の間で同一で類似している部分は互いに参照すればよい。実施例に開示された装置については、実施例に開示された方法に対応するので、説明を簡素化し、関連要点については、方法の実施例に関する説明を参照する。
【0149】
開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2023-08-29
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図9
【補正方法】変更
【補正の内容】
図9
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図10
【補正方法】変更
【補正の内容】
図10
【国際調査報告】