特表2024-502049 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アイフライテック　カンパニー，リミテッドの特許一覧

特表2024-502049情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-17

(54)【発明の名称】情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体

(51)【国際特許分類】

G10L 13/06 20130101AFI20240110BHJP

G10L 25/30 20130101ALI20240110BHJP

G06N 3/0455 20230101ALI20240110BHJP

【ＦＩ】

G10L13/06 120Z

G10L25/30

G06N3/0455

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023540017

(86)(22)【出願日】2021-01-28

(85)【翻訳文提出日】2023-08-29

(86)【国際出願番号】 CN2021074020

(87)【国際公開番号】W WO2022141714

(87)【国際公開日】2022-07-07

(31)【優先権主張番号】202011624655.8

(32)【優先日】2020-12-30

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】518394983

【氏名又は名称】アイフライテックカンパニー，リミテッド

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】ホウ，チウシア

(72)【発明者】

【氏名】リウ，ダン

(57)【要約】

情報合成方法、情報合成装置、電子機器及びコンピュータ可読記憶媒体。訓練された自動コーデックネットワークに基づき、第１の目標分布を得るとともに、第１の目標分布に基づき、目標サンプリングコードを得て、訓練された第２のエンコーダを通じて入力情報を符号化し、入力情報の目標コードを得て、訓練された第１のデコーダを通じて目標コードに基づき、目標サンプリングコードを復号化し、出力情報を得る。そのうち、第１の目標分布は第１のエンコーダ入力側から出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程では、第１のエンコーダと第２のエンコーダの入力サンプルが１対１に対応し、かつ、第２のエンコーダが決定する事前分布は第１の目標分布の予測に用いられる。上記技術案は、音声合成分野に用いられることができ、最終的に合成される音声は韻律、ポーズ及び文字の発音などでより良いパフォーマンスを持つ。

【特許請求の範囲】

【請求項1】

第１のエンコーダと、第２のエンコーダと、第１のデコーダとを含む自動コーデックネットワークに用いられる情報合成方法であって、
訓練された自動コーデックネットワークに基づき、前記第１のエンコーダ入力側から前記第１のエンコーダ出力側までの事後分布の特徴を表現する第１の目標分布を得ることと、
前記第１の目標分布に基づき、目標サンプリングコードを得ることと、
訓練された前記第２のエンコーダが入力情報を符号化し、前記入力情報の目標コードを得ることと、
訓練された前記第１のデコーダが前記目標コードに基づき、前記目標サンプリングコードを復号化し、出力情報を得ることと、を含み、
そのうち、前記自動コーデックネットワークの訓練過程で、前記第１のエンコーダと前記第２のエンコーダとの入力サンプルが１対１に対応し、かつ、前記第２のエンコーダが決定する事前分布は前記第１の目標分布の予測に用いられる、
ことを特徴とする情報合成方法。

【請求項2】

前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練し、前記訓練された第１のエンコーダ、前記訓練された第２のエンコーダ及び前記訓練された第１のデコーダを得ることをさらに含む、
ことを特徴とする請求項１に記載の情報合成方法。

【請求項3】

前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練する前には、各サンプルのタイプと前記入力情報が一致する事前学習済みサンプルグループに基づき、前記第２のエンコーダを初期化することをさらに含む、
ことを特徴とする請求項２に記載の情報合成方法。

【請求項4】

前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練することは、
第１のサンプルを含む第１のサンプルグループと、第２のサンプルを含む第２のサンプルグループとを前記自動コーデックネットワークに入力することと、
前記第１のエンコーダ、前記第２のエンコーダ、前記第１のデコーダのパラメータを、前記自動コーデックネットワークの前記第１のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整することと、を含み、
そのうち、前記第１のサンプルのタイプと前記出力情報のタイプが一致し、前記第２のサンプルのタイプと前記入力情報のタイプが一致し、かつ、前記第２のサンプルと前記第１のサンプルが１対１に対応する、
ことを特徴とする請求項２に記載の情報合成方法。

【請求項5】

前記再構成損失の取得は、
前記第１のエンコーダが前記第１のサンプルのそれぞれに基づき、前記第１のサンプルのコードである第１のコードの第１の分布の特徴を表現する第１の分布パラメータを決定するステップと、
前記第１の分布に基づき、前記第１のサンプルそれぞれのサンプリングコードを得るステップと、
前記第２のエンコーダが前記第２のサンプルグループを符号化し、前記第１のサンプルの前記第１のコードに対応する前記第２のサンプルの第２のコードを得るステップと、
前記第２のコードに基づき、前記第２のコードの第２の分布の特徴を表現する第２の分布パラメータを得るステップと、
前記第１の分布パラメータ及び前記第２の分布パラメータに基づき、前記第１の分布及
び前記第２の分布の第１の相違度を得るステップと、
前記第１のデコーダが前記第１のサンプルそれぞれに対応する前記第２のサンプルの前記第２のコードに基づき、当該第１のサンプルのサンプリングコードを復号化し、再構成サンプルグループを構成する当該第１のサンプルの再構成サンプルを得るステップと、
前記第１のサンプルグループ及び前記再構成サンプルグループに基づき、前記第１のサンプルグループ及び前記再構成サンプルグループの第２の相違度を得るステップと、
前記第１の相違度及び前記第２の相違度に基づき、前記再構成損失を得るステップと、を含み、
そのうち、前記訓練された第１のエンコーダのパラメータは、前記再構成損失が予め設定された条件を満足する時の前記第１のエンコーダのパラメータであり、前記第１の目標分布は、前記再構成損失が前記予め設定された条件を満足する時の前記第１の分布である、
ことを特徴とする請求項４に記載の情報合成方法。

【請求項6】

前記予め設定された条件は、前記再構成損失が最小値であること、又は、前記再構成損失が予め設定された値より小さいこととする、
ことを特徴とする請求項４に記載の情報合成方法。

【請求項7】

前記第１のエンコーダ、前記第２のエンコーダ、前記第１のデコーダのパラメータを、前記第１のサンプルグループの再構成損失が予め設定された条件に適合するまで調整する過程では、第１の割合の前記第１の相違度が勾配逆伝播時に第２のエンコーダに逆伝播することなく、前記第１のエンコーダに逆伝播し、第２の割合の前記第１の相違度が勾配逆伝播時に、第１のエンコーダに逆伝播することなく、前記第２のエンコーダに逆伝播し、かつ、前記第１の割合が前記第２の割合より小さい、
ことを特徴とする請求項５に記載の情報合成方法。

【請求項8】

前記第１の相違度は前記第１の分布及び前記第２の分布の相対エントロピーである、
ことを特徴とする請求項５に記載の情報合成方法。

【請求項9】

前記第１の分布と前記第２の分布とは同じタイプの確率分布である、
ことを特徴とする請求項５に記載の情報合成方法。

【請求項10】

前記第１のエンコーダは条件変分自動エンコーダの符号化側であり、前記第１のデコーダは前記条件変分自動エンコーダの複号化側である、
ことを特徴とする請求項１から９のいずれかの１項に記載の情報合成方法。

【請求項11】

前記第２のエンコーダはトランスデューサに基づく双方向エンコーダ表現モデルである、
ことを特徴とする請求項１から９のいずれかの１項に記載の情報合成方法。

【請求項12】

前記入力情報はテキストであり、前記出力情報は音声である、
ことを特徴とする請求項１から９のいずれかの１項に記載の情報合成方法。

【請求項13】

前記第１のデコーダは、前記音声における復号化された履歴出力情報及び前記テキストにおける文脈テキストに基づき、次のフレームの音声情報を決定する、
ことを特徴とする請求項１２に記載の情報合成方法。

【請求項14】

前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練する時に、音素及び人手で抽出されたテキスト特徴を前記第１のエンコーダ及び前記第２のエンコーダに入力する必要がない、
ことを特徴とする請求項１２に記載の情報合成方法。

【請求項15】

第１のエンコーダと、第２のエンコーダと、第１のデコーダとを含む自動コーデックネットワークに用いられる情報合成装置であって、
訓練された自動コーデックネットワークに基づき、前記第１のエンコーダ入力側から前記第１のエンコーダ出力側までの事後分布の特徴を表現する第１の目標分布を得る分布取得モジュールと、
前記第１の目標分布に基づき、目標サンプリングコードを得るサンプリングモジュールと、
訓練された前記第２のエンコーダを通じて入力情報を符号化して、前記入力情報の目標コードを得る符号化モジュールと、
訓練された前記第１のデコーダを通じて前記目標コードに基づき、前記目標サンプリングコードを復号化して、出力情報を得る復号化モジュールと、を含み、
そのうち、前記自動コーデックネットワークの訓練過程で、前記第１のエンコーダと前記第２のエンコーダとの入力サンプルが１対１に対応し、かつ、前記第２のエンコーダが決定する事前分布は前記第１の目標分布の予測に用いられる、
ことを特徴とする情報合成装置。

【請求項16】

前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練し、前記訓練された第１のエンコーダ、前記訓練された第２のエンコーダ及び前記訓練された第１のデコーダを得る訓練モジュールをさらに含む、
ことを特徴とする請求項１５に記載の情報合成装置。

【請求項17】

各サンプルのタイプと前記入力情報が一致する事前学習済みサンプルグループに基づき、前記第２のエンコーダを初期化する初期化モジュールをさらに含む、
ことを特徴とする請求項１６に記載の情報合成装置。

【請求項18】

前記訓練モジュールは、
第１のサンプルを含む第１のサンプルグループと、第２のサンプルを含む第２のサンプルグループとを前記自動コーデックネットワークに入力する入力ユニットと、
前記第１のエンコーダ、前記第２のエンコーダ、前記第１のデコーダのパラメータを、前記自動コーデックネットワークの前記第１のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整する調整ユニットと、を含み、
そのうち、前記第１のサンプルのタイプと前記出力情報のタイプが一致し、前記第２のサンプルのタイプと前記入力情報のタイプが一致し、かつ、前記第２のサンプルと前記第１のサンプルが１対１に対応する、
ことを特徴とする請求項１６に記載の情報合成装置。

【請求項19】

メモリとプロセッサとを含む電子機器であって、
前記メモリは命令を格納し、前記命令が前記プロセッサによって実行されると、請求項１から１４のいずれかの１項に記載の情報合成方法を実行する、
ことを特徴とする電子機器。

【請求項20】

非一時的なコンピュータ可読記憶媒体であって、
前記記憶媒体は命令を格納し、前記命令がプロセッサによって実行されると、請求項１から１４のいずれかの１項に記載の情報合成方法が実行される、
ことを特徴とする非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【相互参照】

【0001】

本出願は、２０２０年１２月３０日に中国特許局へ提出した出願番号２０２０１１６２４６５５．８、発明名称「情報合成方法、装置、電子機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、そのすべての内容はここで参照として本出願に引用される。

【技術分野】

【0002】

本発明は、機械学習分野に属し、具体的には情報合成方法、情報合成装置、電子機器及びコンピュータ可読記憶媒体に関する。

【背景技術】

【0003】

近年、情報の発展と人工知能の台頭に伴い、ヒューマンコンピュータインタラクションはますます重要になっている。そのうち音声合成は、国内外のヒューマンコンピュータインタラクション研究の注目点になっている。

【0004】

従来の音声合成は、フロントエンドテキスト分析、パラメータ予測及びボコーダー（ｖｏｃｏｄｅｒ）の３部分を含む。そのうち、フロントエンドテキスト分析は、主にテキスト情報を用いて発音シーケンス、韻律境界などの音声特徴を予測し、通常は十分なテキストサンプルで発音ルールの蓄積を行うのに加えて、発音時間長さの予測を行う必要もある。フロントエンドテキスト分析を行った後、主に各種音響パラメータを予測するパラメータ予測を行い、次に得られた予測結果をボコーダーに入力して声音合成を行い、音声情報を得る。

【0005】

グローバル化の発展と各国交流の深化に伴い、多言語合成はすでに情報コミュニケーションとヒューマンコンピュータインタラクションでますます重要な部分になっている。従来の音声合成は、フロントエンドがある処理方式を使用している。つまり、フロントエンドテキスト分析には、専門の言語学技術者がテキスト情報を処理する必要がある。しかしながら、多言語合成のシナリオでは異なる言語の音素辞書と発音ルールを把握する必要があり、これらの音素辞書や発音ルールが不足している場合、フロントエンドテキスト分析により音響フロントエンドのモデリングを行うことが困難である。このようなシナリオのエンドツーエンドＴＴＳ（テキストから音声、ｔｅｘｔｔｏｓｐｅｅｃｈ）の多言語合成では、言語学技術者がテキスト情報を処理することの代わりに機械学習を使用する「フロントエンドレス」の処理方式が推奨されている。

【0006】

フロントエンドレスの処理方式は、人手による事前分析がないため、音声合成システムを訓練するために大量のデータを提供する必要がある。従来の音声合成分野では、音声合成を行うモデルがサンプルの品質不足によって音声特徴や発音規則を正確に学習できないことを避けるために、これらのデータに十分な高音質が必要である。ただし、音質要求を満たしている多言語録音データの取得が困難である。合成に用いられる録音サンプルデータは、言語ごとに１時間に満たない場合もある。このような場合、やむを得ず録音品質の悪いデータを使わなければならない。録音品質の低いデータは出所が雑多で、データの信号／ノイズ比（ＳＮＲ）が低く、潜在的な発音の誤りがあるため、エンドツーエンドの音声合成モデルが学習過程で誤りが現れやすく、よってモデルの発音重複、発音誤り、発音あいまいさ及び音の消失などの問題が発生する。

【0007】

したがって、当業者にとって、量と質の好ましくない録音データを利用して効率的で正確的なフロントエンドレスの音声合成ソリューションを実現することは、喫緊の技術的課
題である。

【発明の概要】

【0008】

これに鑑み、本出願は、量と質の好ましくない録音データを利用し、効率的で正確的なフロントエンドレスの音声合成ソリューションを実現する情報合成方法、情報合成装置、電子機器及びコンピュータ可読媒体を提供する。

【0009】

本発明の実施例の第１の態様で提供される情報合成方法は、訓練された自動コーデックネットワークに基づき、前記第１のエンコーダ入力側から前記第１のエンコーダ出力側までの事後分布の特徴を表現する第１の目標分布を得ることと、第１の目標分布に基づき、目標サンプリングコードを得ることと、訓練された前記第２のエンコーダが入力情報を符号化し、入力情報の目標コードを得ることと、訓練された前記第１のデコーダが前記目標コードに基づき、前記目標サンプリングコードを復号化し、出力情報を得ることとを含み、そのうち、前記自動コーデックネットワークの訓練過程で、前記第１のエンコーダと前記第２のエンコーダとの入力サンプルが１対１に対応し、かつ、前記第２のエンコーダが決定する事前分布は前記第１の目標分布の予測に用いられる。

【0010】

本出願の実施例では、前記情報合成方法は、前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練し、前記訓練された第１のエンコーダ、前記訓練された第２のエンコーダ及び前記訓練された第１のデコーダを得ることをさらに含む。

【0011】

本出願の実施例では、前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練する前に、前記情報合成方法は、各サンプルのタイプと入力情報が一致する事前学習済みサンプルグループに基づき、前記第２のエンコーダを初期化することをさらに含む。

【0012】

本出願の実施例では、前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練することは、第１のサンプルを含む第１のサンプルグループと、第２のサンプルを含む第２のサンプルグループとを前記自動コーデックネットワークに入力することと、前記第１のエンコーダ、前記第２のエンコーダ、前記第１のデコーダのパラメータを、前記自動コーデックネットワークの前記第１のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整することとを含み、そのうち、前記第１のサンプルのタイプと前記出力情報のタイプが一致し、前記第２のサンプルのタイプと前記入力情報のタイプが一致し、かつ、前記第２のサンプルと前記第１のサンプルが１対１に対応する。

【0013】

本出願の実施例では、前記再構成損失の取得には、前記第１のエンコーダが各第１のサンプルに基づき、前記第１のサンプルのコードである第１のコードの第１の分布の特徴を表現する第１の分布パラメータを決定するステップと、前記第１の分布に基づき、各第１のサンプルのサンプリングコードを得るステップと、前記第２のエンコーダが前記第２のサンプルグループを符号化し、前記第１のサンプルの第１のコードに対応する前記第２のサンプルの第２のコードを得るステップと、前記第２のコードに基づき、前記第２のコードの第２の分布の特徴を表現する第２の分布パラメータを得るステップと、前記第１の分布パラメータ及び前記第２の分布パラメータに基づき、前記第１の分布及び前記第２の分布の第１の相違度を得るステップと、前記第１のデコーダが各第１のサンプルに対応する第２のサンプルの第２のコードに基づき、当該第１のサンプルのサンプリングコードを復号化し、再構成サンプルグループを構成する当該第１のサンプルの再構成サンプルを得るステップと、前記第１のサンプルグループ及び前記再構成サンプルグループに基づき、前記第１のサンプルグループ及び前記再構成サンプルグループの第２の相違度を得るステップと、前記第１の相違度及び前記第２の相違度に基づき、前記再構成損失を得るステップ
とを含む。そのうち、前記訓練された第１のエンコーダのパラメータは、前記再構成損失が予め設定された条件を満足する時の前記第１のエンコーダのパラメータであり、前記第１の目標分布は、前記再構成損失が前記予め設定された条件を満足する時の前記第１の分布である。

【0014】

本出願の実施例では、前記予め設定された条件は、前記再構成損失が最小値であること、又は、前記再構成損失が予め設定された値より小さいこととする。

【0015】

本出願の実施例では、前記第１のエンコーダ、前記第２のエンコーダ、前記第１のデコーダのパラメータを、前記第１のサンプルグループの再構成損失が予め設定された条件に適合するまで調整する過程では、第１の割合の前記第１の相違度が勾配逆伝播時に第２のエンコーダに逆伝播することなく、前記第１のエンコーダに逆伝播し、第２の割合の前記第１の相違度が勾配逆伝播時に、第１のエンコーダに逆伝播することなく、前記第２のエンコーダに逆伝播し、かつ、前記第１の割合が前記第２の割合より小さい。

【0016】

本出願の実施例では、前記第１の相違度は前記第１の分布及び前記第２の分布の相対エントロピーである。

【0017】

本出願の実施例では、前記第１の分布と前記第２の分布は同じタイプの確率分布である。

【0018】

本出願の実施例では、前記第１のエンコーダは条件変分自動エンコーダの符号化側であり、前記第１のデコーダは条件変分自動エンコーダの複号化側である。

【0019】

本出願の実施例では、前記第２のエンコーダはトランスデューサに基づく双方向エンコーダ表現モデルである。

【0020】

本出願の実施例では、前記入力情報はテキストであり、前記出力情報は音声である。

【0021】

本出願の実施例では、前記第１のデコーダは、前記音声における復号化された履歴出力情報及び前記テキストにおける文脈テキストに基づき、次のフレームの音声情報を決定する。

【0022】

本出願の実施例では、前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練する時に、音素及び人手で抽出されたテキスト特徴を前記第１のエンコーダ及び前記第２のエンコーダに入力する必要がない。

【0023】

本発明の実施例の第２の態様で提供される情報合成装置は、第１のエンコーダと、第２のエンコーダと、第１のデコーダとを含む自動コーデックネットワークに用いられる。当該情報合成装置は、訓練された自動コーデックネットワークに基づき、前記第１のエンコーダ入力側から前記第１のエンコーダ出力側までの事後分布の特徴を表現する第１の目標分布を得る分布取得モジュールと、第１の目標分布に基づき、目標サンプリングコードを得るサンプリングモジュールと、訓練された前記第２のエンコーダを通じて入力情報を符号化し、入力情報の目標コードを得る符号化モジュールと、訓練された前記第１のデコーダを通じて前記目標コードに基づき、前記目標サンプリングコードを復号化し、出力情報を得る復号化モジュールと、を含み、そのうち、前記自動コーデックネットワークの訓練過程で、前記第１のエンコーダと前記第２のエンコーダとの入力サンプルが１対１に対応し、かつ、前記第２のエンコーダが決定する事前分布は前記第１の目標分布の予測に用いられる。

【0024】

本出願の実施例では、前記情報合成装置は、前記第１のエンコーダ、前記第２のエンコーダ及び前記第１のデコーダを訓練し、前記訓練された第１のエンコーダ、前記訓練された第２のエンコーダ及び前記訓練された第１のデコーダを得る訓練モジュールをさらに含む。

【0025】

本出願の実施例では、前記情報合成装置は、各サンプルのタイプと入力情報が一致する事前学習済みサンプルグループに基づき、前記第２のエンコーダを初期化する初期化モジュールをさらに含む。

【0026】

本発明の実施例の第３の態様で提供される電子機器は、メモリとプロセッサとを含み、前記メモリには命令を格納し、前記命令が前記プロセッサによって実行される時に、前記機器が前述したいずれか一つの情報合成方法を実行する。

【0027】

本発明の実施例の第４の態様で提供される非一過性コンピュータ可読記憶媒体には命令を格納し、前記命令が前記プロセッサによって実行される時に、前述したいずれか一つの情報合成方法を実行する。

【0028】

本出願の実施例で提供される音声合成方法及び音声合成装置は、訓練された自動コーデックネットワークに基づき、第１の目標分布を得るとともに、第１の目標分布に基づき、目標サンプリングコードを得て、訓練された第２のエンコーダが入力情報を符号化し、入力情報の目標コードを得て、訓練された第１のデコーダが目標コードに基づき、目標サンプリングコードを復号化し、出力情報を得る。そのうち、第１の目標分布は第１のエンコーダ入力側から出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程では、第１のエンコーダと第２のエンコーダとの入力サンプルが１対１に対応し、かつ、第２のエンコーダが決定する事前分布は第１の目標分布の予測に用いられる。これにより、復号化された出力情報と入力情報の対応関係は、訓練サンプルにおける第１のエンコーダと第２のエンコーダの入力サンプルの間の対応関係を高度に復元（又はシミュレーション）するため、入力情報によく対応するような出力情報が得られる。本解決案は、音声合成分野、特に多言語音声合成分野において、音声サンプルの品質に関する制限を緩和するため、大量の訓練サンプルを獲得し、最終的に合成された音声が韻律、ポーズと文字の発音などでより良いパフォーマンスを持つようにする。

【図面の簡単な説明】

【0029】

本発明の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本発明に記載される実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなく提供された図面に従って他の図面を得ることができる。

【0030】

【図1】図１は本出願の実施例における情報合成方法を示すフローチャートである。

【0031】

【図2】図２は本出願の実施例における別の情報合成方法を示すフローチャートである。

【0032】

【図3】図３は本出願の実施例における別の情報合成方法を示すフローチャート。

【0033】

【図4】図４は本出願の実施例において第１のデコーダ、第２のデコーダ及び第１のエンコーダを訓練する時の情報の流れを示す図である。

【0034】

【図5】図５は本出願の実施例において訓練された第１のデコーダ、第２のデコーダ及び第１のエンコーダを用いて情報合成を行う時の情報の流れを示す図である。

【0035】

【図6】図６は本出願の実施例における情報合成方法の音声合成アプリケーションシナリオでの情報の流れを示す図である。

【0036】

【図7】図７は本出願の実施例における別の情報合成方法を示すフローチャート。

【0037】

【図8】図８は本出願の実施例における別の情報合成装置の構造を示す図である。

【0038】

【図9】図９は本出願の実施例における別の情報合成装置の構造を示す図である。

【0039】

【図10】図１０は本出願の実施例における別の情報合成装置の構造を示す図である。

【発明を実施するための形態】

【0040】

以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。

【0041】

本明細書では、第一及び第二のような関係用語は、単に１つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、非排他的包含をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「１つの…を含む」という文によって限定される要素は、当該要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。

【0042】

以下、本発明で使用される用語の一部を説明する。

【0043】

エンコーダ（ｅｎｃｏｄｅｒ）：自動エンコーダ（Ａｕｔｏｅｎｃｏｄｅｒ）構造内の符号化側であり、入力をコード（潜在変数、潜在表現）にマッピングする。

【0044】

デコーダ（ｄｅｃｏｄｅｒ）：自動エンコーダ構造内の復号化側であり、コードを出力にマッピングする。通常、当該出力は場合によって符号化側からの入力再構成である。

【0045】

Ｔａｃｏｔｒｏｎモデル：アテンション（Ａｔｔｅｎｔｉｏｎ）メカニズムに基づくエンドツーエンド一般音声合成モデルであり、テキストから直接的に音声を生成することができる。

【0046】

ＢＥＲＴモデル：トランスデューサに基づく双方向エンコーダ表現モデル（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）は双方向深層型の教師なし文表現、かつプレーンテキストコーパスのみを用いて事前訓練を行うモデルで、自然言語処理の事前学習技術であり、グーグル社（ＧｏｏｇｌｅＩｎｃ．）が２０１８年に発表したもので、ユーザーの検索文の意味を理解し、テキストに含まれる韻律情報を抽出することなどを目的とする。

【0047】

ＶＡＥモデル：変分自己符号化器（ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）は自動エンコーダ構造に基づく生成モデルであり、潜在変数分布の仮定を強め、変分法
を使用して潜在表現を学習し、それによって訓練関数に追加の損失成分と確率勾配変分ベイズ（ＳＧＶＢ：ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＶａｒｉａｔｉｏｎａｌＢａｙｅｓ）推定値を導入する。

【0048】

本出願の実施例の一態様は情報合成方法を提供する。
本実施例では、上記情報合成方法は第１のエンコーダ、第２のエンコーダ及び第１のデコーダモデルを含む自動コーデックネットワークに用いられる。当該自動コーデックネットワークは、ハードウェア、ソフトウェア又は両者の組み合わせで実現される。例えば、当該自動コーデックネットワークは、サーバと端末から構成されるハードウェア環境に置かれ、サーバと端末の間にネットワーク接続を行い、当該ネットワークはローカルエリアネットワーク（ＬＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含むがこれらに限らない。この場合、上述したエンコーダ及びデコーダはサーバと端末上で動作するソフトウェアによって実装され、又はサーバ及び端末上のハードウェアに組み込む命令によって実装される。上述したエンコーダ及びデコーダはその全体でサーバ又は端末上で動作することができ、本実施例では特に限定しないことに留意されたい。

【0049】

以下、図１に示すステップを参照しながら上記情報合成方法をさらに説明する。図１は本出願の実施例における情報合成方法を示すフローチャートである。図１に示すように、当該情報合成方法は以下ステップを含む。

【0050】

Ｓ１０１：訓練された自動コーデックネットワークに基づき、第１の目標分布を得る。そのうち、第１の目標分布は第１のエンコーダ入力側から第１のエンコーダ出力側までの事後分布の特徴を表現し、当該自動コーデックネットワークの訓練過程では、第１のエンコーダと第２のエンコーダの入力サンプルが１対１に対応し、かつ、第２のエンコーダが決定する事前分布は第１の目標分布の予測に用いられる。

【0051】

本ステップでは、まず訓練されておいた自動コーデックネットワークから第１の目標分布を取得する。通常、第１の目標分布は、自動コードネットワークの第１のエンコーダ部分から得られるし、第２のエンコーダ部分から得られる。第１のエンコーダ及び第２のエンコーダは、人工ニューラルネットワークモデルであってもよい。例えば、入力に含まれる情報の特徴を抽出するためには、１つ又は複数の畳み込み層及び／又はプーリング層を含むことができる。この場合、第１の目標分布は、エンコーダが抽出した特徴の分布とみなし、その具体的な形式は第１のエンコーダ及び／又は第２のエンコーダのモデルによって決定される。

【0052】

第１の目標分布は、予め設定されたタイプの分布であってもよい。
例えば、予め設定された分布が正規分布（ガウス分布とも呼ばれる）であれば、取得されたパラメータは当該正規分布の期待値と標準偏差を含むことができ、又は取得されたパラメータを計算した後、当該正規分布の期待値と標準偏差を取得することができる。もちろん、予め設定されたタイプの分布は、第１のエンコーダ及び／又は第２のエンコーダでその表現を決定すれば、他のタイプの分布であってもよい。通常、当該第１の目標分布は１つの多次元分布である。

【0053】

自動コーデックネットワークの訓練過程では、第１のエンコーダ及び第２のエンコーダの訓練過程を含み、つまり、第１のエンコーダ及び第２のエンコーダのパラメータが反復的に調整されることが理解される。訓練過程では、第１のエンコーダの入力サンプルと第２のエンコーダの入力サンプルが１対１に対応することは、自動コーデックネットワークがその後の再構成過程で生成される出力情報と第２のエンコーダの入力情報が対応することを確保するためである。第１のエンコーダは、その入力サンプルを符号化し、入力サン
プルの特徴を抽出することができ、抽出された特徴は、入力サンプルの条件付き確率に対し、第１のエンコーダモデルに依存する事後分布、すなわち第１のエンコーダ入力側から出力側までの事後分布に従う。ここの条件付き確率は、特定の入力サンプル（又は特定の種類の入力サンプル）を第１のエンコーダに入力した後に得られた特定の特徴（又は特定の種類の特徴）の確率を表し、つまり第１のエンコーダ入力側及び出力側の間の法則を反映する。第２のエンコーダは、その入力サンプルを符号化し、入力サンプルの特徴を抽出することができ、これらの特徴が入力サンプル及び第２のエンコーダのパラメータによって決定された事前分布に従う。訓練では、第２のエンコーダで第１の目標分布を予測し、つまり第２のエンコーダ及び第１のエンコーダのパラメータを常に調整することにより、当該事前分布が第１のエンコーダ入力側から出力側までの事後分布と相互に近似するようにする。例えば、両者が可能な限り同じになる。ここの「可能な限り同じになる」とは両者の差が特定の閾値を下回ること、又は両者の差が特定の区間内で最小値となること、又は訓練過程で両者の差があるイテレーションステップ数内で最小値となることを意味し、本出願の具体的な実施形態はこれに限定されるものではなく、実際の使用需要に応じて決定することに留意されたい。

【0054】

訓練過程が終了した後、訓練された第１のエンコーダ及び／又は第２のエンコーダに基づき、第１の目標分布を決定する。したがって、本ステップでこれらのパラメータから訓練過程で決定された第１の目標分布を得る。

【0055】

考えられる１つの実施形態において、当該第１のエンコーダモデルはＶＡＥモデルである。当該第１のエンコーダモデルは、ニューラルネットワーク層を含む他のエンコーダモデルであってもよいので、ここで特に具体的な形態を限定しない。

【0056】

Ｓ１０２：第１の目標分布に基づき、目標サンプリングコードを得る。

【0057】

Ｓ１０１で第１の目標分布を取得した後は、サンプリングコードを得るために、第１の目標分布を用いてランダムサンプリング操作を行うことができる。もちろん、目標サンプリングコードを得るためには、直接的に第１の目標分布のパラメータ（平均値など）を使用することができ、具体的には、当該パラメータのサンプリング符号化を行い、目標サンプリングコードを得る。第１の目標分布が多次元分布である場合、得られたサンプリングコードが１つのベクトルであることが理解される。

【0058】

Ｓ１０３：訓練された第２のエンコーダが入力情報を符号化し、入力情報の目標コードを得る。

【0059】

第２のエンコーダが入力情報を符号化するように、入力情報を第２のエンコーダに入力する。第２のエンコーダは、人工ニューラルネットワークモデルであってもよい。例えば、１つ又は複数の畳み込み層及び／又はプーリング層を含むことができ、この場合、入力情報を符号化する過程はその中から必要な特徴を抽出することと等価である。例えば、入力情報が音声であれば、その中から声音の韻律、ポーズ、基本周波数などの音声特徴を抽出することができる。入力情報がテキストであれば、その中から文区切り、単語分割、意味などのテキスト特徴を抽出することができる。入力情報が画像であれば、その中から画像中の形状、色彩、特定の対象物などの画像特徴を抽出することができる。得られた目標コードが抽出された特徴の強さなどの情報を反映することができる。

【0060】

考えられる１つの実施形態において、当該第２のエンコーダモデルはＢＥＲＴモデルである。この場合、入力情報はテキストであってもよい。

【0061】

本実施例では、目標サンプリングコードや目標コードを取得する優先順位、すなわちＳ
１０１、Ｓ１０２、Ｓ１０３の実行順位を限定しないことに留意されたい。一実施形態において、目標サンプリングコードを取得してから目標コードを取得することができ、つまり、Ｓ１０１及びＳ１０２を実行してからＳ１０３を実行する。別の実施形態において、目標コードを取得してから目標サンプリングコードを取得することができ、つまりＳ１０３を実行してからＳ１０１とＳ１０２を実行する。別の実施形態において、目標サンプリングコードと目標コードを同時に取得することができ、つまりＳ１０１とＳ１０２を実行する過程でＳ１０３を同期に実行する。

【0062】

例えば、入力情報の目標コードを取得し、目標コードを全接続層に入力し、第１の目標分布のパラメータを取得し、第１の目標分布のパラメータをフィッティングし、第１の目標分布を取得する。第１の目標分布をサンプリングし、目標サンプリングコードを得る。又は、直接的に目標コードを用いて第１の目標分布を取得し、次に第１の目標分布をサンプリングし、目標サンプリングコードを得る。

【0063】

Ｓ１０４：訓練された第１のデコーダが目標コードに基づき、目標サンプリングコードを復号化し、出力情報を得る。

【0064】

目標コードと目標サンプリングコードを取得した後、それらを第１のデコーダに入力し、復号化過程を完成する。復号化の対象は、第１のエンコーダの入力側から出力側までの事後分布の特徴を表現する第１の目標分布をサンプリングして得られた目標サンプリングコードであるため、当該出力情報が実際的に第１のデコーダにより第１のエンコーダの訓練過程中の入力サンプルを参照して再構成出した新サンプルであり、当該新サンプルと第１のエンコーダの訓練時の入力サンプルが同じタイプを持つ。また、目標コードに基づく復号化は当該復号化の過程が目標コードを条件としたものとみなす。目標コードは、第２のエンコーダが入力情報を符号化して得られたものであるため、当該出力情報は実際的に入力情報によって制約され、つまり、当該入力情報に対応する。訓練過程では、第１のエンコーダの入力と第２のエンコーダの入力は１対１に対応し、かつ、第２のエンコーダで符号化した後に得られた事前分布を使用し、第１の目標分布を予測したため、この場合の復号化後の出力情報と入力情報の対応関係は、訓練サンプルにおける第１のエンコーダ及び第２のエンコーダの入力サンプルの間の対応関係を高度に復元（又はシミュレート）することができる。つまり、得られた出力情報が入力情報によく対応することができる。

【0065】

本出願の実施例では、上記情報合成方法は音声合成技術に適用される。入力情報はテキストであり、出力情報は音声である。したがって、第１のエンコーダと第２のエンコーダはボコーダーの符号化側であり、第１のデコーダはボコーダーの復号化側である。訓練過程では、１対１に対応する音声サンプルとテキストサンプルをそれぞれ第１のエンコーダ及び第２のエンコーダに入力し、音声特徴及びテキスト特徴をそれぞれに抽出することができる。第２のエンコーダでテキスト特徴の事前分布を用いて音声から音声特徴までの事後分布を予測することにより、訓練後の自動コーデックネットワークから得られた第１の目標分布がテキスト特徴の分布に近似するようにする。

【0066】

従来のエンドツーエンド音声合成ソリューション（Ｔａｃｏｔｒｏｎモデルなど）では、そのアテンションメカニズムに基づく音声合成は音声サンプル中の騒音の妨害を受けるため、録音品質に対する要求が高くなり、取得される訓練サンプルの数が制限され、最終的に訓練の結果に影響を与える。本出願の実施例の技術案では、テキストサンプルに音声の騒音が存在しないため、訓練においてテキスト特徴の事前分布による第１の目標分布の予測は、最終的に生成される音声に対する音声サンプルに含まれる騒音の干渉を効果的に遮蔽することができ、高品質の合成音声を得る。このように、訓練時の音声サンプル品質に関する制約を緩和し、大量の訓練サンプルを獲得でき、訓練後のモデルが生成された音声の韻律、ポーズ及び文字の発音などでよいパフォーマンスを持つようにする。多言語の
音声合成は各言語のサンプル品質に強く依存するため、この利点は多言語音声合成技術においてより顕著になる。

【0067】

一実施形態において、第１のエンコーダ及び第１のデコーダはそれぞれにＶＡＥモデルの符号化側モデル及び復号化側モデルであり、第２のエンコーダの符号化結果はタグとして第１のデコーダの復号化過程を制約する。つまり、第１のエンコーダ、第２のエンコーダ及び第１のデコーダとともに、全体的にＣＶＡＥ（条件付き変分自己符号化器、ＣｏｎｄｉｔｉｏｎａｌＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ）構造を構成する。

【0068】

一実施形態において、第２のエンコーダはＢＥＲＴモデルである。従来のフロントエンドレスの音合成ソリューション（Ｔａｃｏｔｒｏｎモデルなど）のフロントエンド処理が簡単で、畳み込み層と長短期記憶ネットワークを使用することが多い。当該構造フレームが簡単で、フロントエンド入力として音素を使用する場合、又は人手によるテキスト特徴の抽出の場合には、よい結果が得られるが、フロントエンドがない場合には、訓練サンプルとして数百時間の音声と対応するテキストしか利用できないため、テキストの意味の理解や文の韻律情報の捕捉が困難である。それに比べて、大量のテキストの事前学習により、ＢＥＲＴモデルは多言語テキストの分析上で非常に高い得点を獲得し、特に意味理解、意味表現などで際立ったパフォーマンスを持つため、従来のフロントエンドレスの音合成ソリューションの欠点を克服する。

【0069】

以上から、本出願の実施例で提供される情報合成方法は、訓練された自動コーデックネットワークに基づき、第１の目標分布を得るとともに、第１の目標分布に基づいてサンプリングし、目標サンプリングコードを得て、訓練された第２のエンコーダが入力情報を符号化し、入力情報の目標コードを得て、訓練された第１のデコーダが目標コードを復号化条件として、目標サンプリングコードを復号化し、出力情報を得る。そのうち、訓練過程では、第１のエンコーダと第２のエンコーダの入力サンプルが１対１に対応し、かつ、第２のエンコーダは第１の目標分布の予測に用いられる。これにより、復号化された出力情報と入力情報の対応関係は、訓練サンプルにおける第１のエンコーダと第２のエンコーダの入力サンプルの間の対応関係を高度に復元（又はシミュレーション）するため、入力情報によく対応するような出力情報が得られる。本解決案は、音声合成分野、特に多言語音声合成分野において、音声サンプルの品質に関する制限を緩和するため、大量の訓練サンプルを獲得し、最終的に合成された音声が韻律、ポーズと文字の発音などでより良いパフォーマンスを持つようにする。

【0070】

図２は本出願の実施例における別の情報合成方法を示すフローチャートである。図１に示すフローをベースとして、当該情報合成方法は以下のステップをさらに含む。

【0071】

Ｓ１０５：第１のエンコーダ、第２のエンコーダ及び第１のデコーダを訓練し、訓練された第１のエンコーダ、訓練された第２のエンコーダ及び訓練された第１のデコーダを得る。

【0072】

Ｓ１０１の説明から、自動コーデックネットワークを情報合成に適用する前に、それを訓練することが分かる。通常、訓練は符号化と復号化のマッピングネットワーク関数を学習し、好ましい又は最も好ましいコーデックネットワークを探すことを目的とする。訓練では、通常、訓練サンプルを自動コーデックネットワークに入力し、次に訓練目標に基づき、第１のエンコーダ、第２のエンコーダ及び第１のデコーダのパラメータを、自動コーデックネットワークが訓練目標に関する予め設定された条件に適合するまで反復的に調整する。

【0073】

一実施形態において、上記訓練目標として自動コーデックネットワークにおけるサンプルの再構成損失の低減を設定することができる。したがって、上記予め設定された条件は、具体的に自動コーデックネットワークにおけるサンプルの再構成損失が予め設定された条件に適合することである。図３に示すように、この場合のＳ１０５は以下ステップをさらに含む。

【0074】

Ｓ１０５１：第１のサンプルグループ及び第２のサンプルグループを自動コーデックネットワークに入力する。そのうち、第１のサンプルグループは第１のサンプルを含み、第１のサンプルのタイプと出力情報のタイプが一致し、第２のサンプルグループは第２のサンプルを含み、第２のサンプルのタイプと入力情報のタイプが一致し、かつ、第２のサンプルと第１のサンプルが１対１に対応する。

【0075】

自動コーデックネットワークの各部分（第１のエンコーダ、第２のエンコーダ及び第１のデコーダなど）の情報合成過程及び訓練過程で同様の機能を果たし、それぞれの入力側及び出力側は両方の過程においても同じタイプの情報に対応することが理解される。したがって、第２のエンコーダの訓練過程で入力された第２のサンプルと情報合成過程で入力された入力情報のタイプが一致する。情報合成過程で直接的に第１のエンコーダの入力側を使用していないが、情報合成時、自動コーデックネットワークの複号化側（第１のデコーダ）が目標サンプリングコードを復号化し、出力情報を取得する。これは本質的に第１のエンコーダ入力側を模倣し、新サンプルを再構成することである。すなわち、当該新サンプル（出力情報）は、第１のエンコーダに入力されたサンプルと同様にする必要があり、つまり、音声、テキスト、画像などのような同じタイプでなければならない。しがたって、訓練過程では、自動コーデックネットワークが第１のサンプルグループの再構成を行うため、第１のエンコーダに入力された第１のサンプルもこのタイプに属する必要がある。

【0076】

Ｓ１０５２：自動コーデックネットワークにおける第１のサンプルグループの再構成損失が予め設定された条件に適合するかどうかを判断する。予め設定された条件に適合する場合、上述した実施例に従い、Ｓ１０１からＳ１０４を実行する。予め設定された条件に適合しない場合、Ｓ１０５３を実行する。

【0077】

Ｓ１０５３：第１のエンコーダ、第２のエンコーダ、第１のデコーダのパラメータを調整する。Ｓ１０５３を実行した後、Ｓ１０５２に戻って判断する。

【0078】

一実施形態において、予め設定された条件は再構成損失が最小値になるように設定される。ここの最小値は第１のエンコーダ、第２のエンコーダ、第１のデコーダのすべてのパラメータ数値範囲内の再構成損失最小値、又は第１のエンコーダ、第２のエンコーダ、第１のデコーダの一部のパラメータ数値範囲内の再構成損失最小値、又は予め設定されたイテレーションステップ数内で得られた最小値を指す。本出願の実施例は、これに限定されるものでなく、実際の使用環境に応じて調整することができる。

【0079】

一実施形態において、予め設定された条件は、再構成損失が予め設定された値よりも小さい、又はそれを上回らないように設定される。すなわち、再構成損失がある閾値まで低下すれば、予め設定された条件に適合すると判断し、訓練ステップを終了する。

【0080】

このように、Ｓ１０５２及びＳ１０５３は、自動コーデックネットワークにおける第１のサンプルグループの再構成損失が予め設定された条件に適合するまで、全体的にイテレーションループで第１のエンコーダ、第２のエンコーダ、第１のデコーダモデルのパラメータを調整する。

【0081】

実際のアプリケーションシナリオで、複数回の情報合成のユースケースが類似している場合、自動コーデックネットワークは最初の情報合成時に訓練を行い、その後の合成で引き続き訓練されておいた自動コーデックネットワークを使用することに留意されたい。また、特定のタイプのユースケースを対象に、訓練されておいた第１のエンコーダ、第２のエンコーダ及び第１のデコーダのパラメータを記録することにより、訓練を繰り返す必要なく、該当する情報合成のたびに直接的にパラメータを使用することができる。すなわち、図１に示す実施例では、音声合成が開始する時に第１のエンコーダ、第２のエンコーダ及び第１のデコーダのパラメータが予め訓練により、使用要求を満たしている状態に調整される場合があるため、Ｓ１０５を実行する必要がない。

【0082】

上記再構成損失は訓練中において訓練過程を終了できるかどうかを判断するための指標である。一実施形態において、図４に示すように、再構成損失は以下の方法で得られる。図４は本出願の実施例において第１のデコーダ、第２のエンコーダ及び第１のエンコーダを訓練する情報の流れを示す図である。そのうち、実線の矢印は、第１のサンプルグループ及び第２のサンプルグループから再構成損失を取得する情報の流れを表し、破線の矢印は、再構成損失のフィードバックに基づき、第１のデコーダ、第２のエンコーダ及び第１のエンコーダを調整する情報の流れを表し、実線の枠は情報の流れの中のパラメータ（スカラー、ベクトル、行列など）を例示し、破線の枠はパラメータの演算操作（関数やモデルなど）を例示する。

【0083】

図４の実線の矢印は、再構成損失の取得過程を示す。まず、第１のエンコーダは、各第１のサンプルに基づき、第１の分布パラメータを決定する。そのうち、第１の分布パラメータは、第１のコードの第１の分布を特徴づけ、かつ、第１のコードは第１のサンプルのコードである。ここの第１の分布は、訓練過程での第１の目標分布の中間状態とみなす。同様に、当該第１の分布は、第１のサンプルから第１のコードの事後分布であり、通常は予め設定された分布タイプであることが理解される。実際のアプリケーションシナリオで、第１のエンコーダは、各第１のサンプルを符号化し、第１のサンプルを表す第１のコードを得て、次に各第１のサンプルの第１のコードに基づき、当該事後分布の第１の分布パラメータを決定することができる。具体的は、第１のエンコーダに埋め込まれた１つ又は複数の全接続層で第１のコードに基づき、当該第１の分布パラメータを取得することができる。当該第１の分布パラメータには複数の要素（平均値や分散など）が含まれた場合、各全接続層はその中の１つの元素を取得するために用いられる。通常、当該第１の分布は１つの多次元分布であり、その次元は第１のサンプルグループ内の第１のサンプルの数（すなわち、第２のサンプルグループ内の第２のサンプルの数）に対応する。

【0084】

第１の分布を得た後、情報合成過程と同様なステップが実行される。まず、第１の分布に基づき、各第１のサンプルのサンプリングコードを取得する。具体的には、第１の分布パラメータを取得することによって、各第１のサンプルのサンプリングコードを得る。例えば、第１のサンプルグループはＭ個の第１のサンプルを有し、かつ、各サンプルは、第１のエンコーダで符号化された後、１つのコード元素を得た場合、第１の分布は１つのＭ次元の正規分布とし、各次元ｋ（１≦ｋ≦Ｍ）には平均値μ_ｋと分散Σ_ｋとの２つのパラメータを有すると仮定する。この場合、各次元のμ_ｋ及びΣ_ｋのサンプリングに基づき、１つのコード元素ｃ_ｋを取得することができ、｛ｃ_１，ｃ_２，…ｃ_Ｍ｝は、各第１のサンプルのサンプリングコードである。当該例は、サンプリングコードの取得過程を説明することに過ぎず、本出願ではこれに限定されない。各第１のサンプルのサンプリングコードを得ると同時に、第２のエンコーダが第２のサンプルグループを符号化し、第２のサンプルの第２のコードを得ることができる。その後、第２のコードに基づき、第２の分布パラメータを得る。具体的には、第２のエンコーダに埋め込まれた１つ又は複数の全接続層で第２のコードに基づき、当該第２の分布パラメータを取得することができる。当該第２の分布パラメータには複数の要素（平均値や分散など）が含まれた場合、各全接続層はその
中の１つの元素を取得するために用いられる。そのうち、第２の分布パラメータは、第２のコードの第２の分布の特徴を表現し、かつ、第２のサンプルの第２のコードは、第１のサンプルの第１のコードに対応する。ここの第２のコードは、第２のエンコーダが第２のサンプルから抽出した特徴を表し、第２の分布は、直接的に第２のサンプルによって決定され、実質的には第２のコードの事前分布である。次に、第１のデコーダは、各第１のサンプルに対応する第２のサンプルの第２のコードを条件として、当該第１のサンプルのサンプリングコードを復号化し、当該第１のサンプルの再構成サンプルを得る。各第１のサンプルの再構成サンプルは、再構成サンプルグループを構成する。

【0085】

情報合成過程での入力情報が出力情報を効果的に制約するよう、第２の分布を用いて第１の目標分布を予測する必要があることが理解される。したがって、第２のサンプルの第２のコードは、第１のサンプルの第１のコードに対応するようにしなければならない。例えば、第１のサンプル及び第２のサンプルは、それぞれ対応する音声サンプル及びテキストサンプルである場合、第２のコードにおける文間ポーズを表す成分は、第１のコードにおけるテキスト節を表す成分に対応することができる。

【0086】

次に、再構成損失を計算する。まず、第１の分布パラメータ及び第２の分布パラメータに基づき、第１の分布及び第２の分布の第１の相違度を得る。訓練過程での１つの重要目標は、第２の分布を用いて、最終的な第１の分布（第１の目標分布）を予測することが理解される。したがって、両者の相違は、訓練結果を評価するために用いられる重要パラメータである。ここの第１の相違度は、第１の相違関数により計算する。当該計算は、差の計算、分布パラメータの平均二乗誤差計算、相対エントロピー計算、クロスエントロピー計算などを含むが、これらに限らない。本出願の実施例では２つの分布の相違を反映すれば、特に限定しない。

【0087】

また、第１のサンプルグループ、再構成サンプルグループ及び第２の相違関数に基づき、第１のサンプルグループ及び再構成サンプルグループの第２の相違度を得る。第１のデコーダの重要な任務は、第１のサンプルと類似する新サンプルを生成することであり、再構成の復元の程度も損失を評価するための重要パラメータであることが理解される。ここの第２の相違度は、第２の相違関数により計算する。当該計算は差の計算、分布パラメータの平均二乗誤差計算などを含むが、これらに限らない。本出願の実施例では、２つのサンプルグループの相違を反映すれば、特に限定しない。

【0088】

最後に、第１の相違度及び第２の相違度に基づき、再構成損失を得る。すなわち、再構成損失について、第１の分布と第２の分布との相違、及び第１のサンプルグループと第２のサンプルグループとの相違を同時に考慮しなければならない。ここの再構成損失は、再構成損失関数により計算する。当該計算は、加算、乗算、重み付け、指数演算などを含むが、これらに限らない。本出願の実施例では、再構成損失が第１の相違度及び第２の相違度といずれも正の相関を持つ限り、特に限定しない。

【0089】

一実施形態において、第１の相違度を容易に計算するため、第１の分布及び第２の分布は同じタイプの分布を用いることができる。例えば、第１の分布及び第２の分布はいずれも正規分布を用いる場合、第１の分布パラメータには第１の分布の期待値と分散が含まれ、第２の分布パラメータには第２の分布の期待値と分散が含まれることができる。

【0090】

次に、図４の破線の矢印部分、すなわち再構成損失のフィードバック過程を参照する。再構成損失は、フィードバック時に第１のエンコーダ（フィードバックＡ）、第２のエンコーダ（フィードバックＢ）及び第１のデコーダ（フィードバックＣ）に同時にフィードバックすることができる。そのうち、フィードバックＡ、フィードバックＢ及びフィードバックＣは同じであってもよいし、相違であってもよい。つまり、再構成損失は、同じ形
でフィードバックしてもよいし、違う形でフィードバック（再構成損失関数の異なる部分のフィードバック、又は再構成損失に基づく異なる演算結果のフィードバック）してもよい。訓練は、反複的な過程であるため、計算により得られた再構成損失が予め設定された条件に適合しないと判定するたびに、今回得られた再構成損失に基づき、自動コーデックネットワークをどのように調整するかを判断する。一実施形態において、フィードバックは、再構成損失の勾配逆伝播によって実現される。すなわち、今回得られた再構成損失と前回得られた再構成損失から再構成損失の変化勾配を得て、第１のエンコーダ、第２のエンコーダ及び第１のデコーダパラメータを調整するための根拠として、勾配を自動コーデックネットワークにフィードバックする。

【0091】

上記の過程で、再構成損失の低下によって第１の相違度が低下する。第１のエンコーダ及び第２のエンコーダのパラメータはいずれも、逆伝播された勾配に従い調整するため、第１の相違度の減少は、本質的に、第１の分布及び第２の分布が互に接近する過程、すなわち、第１のサンプルグループから第１の特徴までの事後分布及び第２のサンプルグループから第２の特徴までの事前分布が互に接近する過程である。前述したように、情報合成は、本質的に、入力情報をコントロールするうえで、第１のサンプルと同様な出力情報を再構成することを目的とするため、訓練過程は、自動コーデックネットワークでは、事前分布の制約を受けたうえで、事後分布が第１のサンプルグループからできるだけ多くの情報を学習することを目的とする。したがって、訓練時の事前分布が事後分布を強く制約する（第１の分布が第２の分布に緊密に近づくが、第２の分布が第１の分布にそこまで近づくものではない）場合、最終的に得られた事後分布が事前分布に過度に偏ってしまい、有用な情報を学習することができなくなる可能性がある。

【0092】

上記の課題を解決するため、一実施形態において、再構成損失を処理してから勾配逆伝播を実行することができる。例えば、再構成損失を第１の部分と第２の部分に分ける。第１の部分の再構成損失は第２の分布（第２のデコーダのパラメータ）に対して、勾配切断を行い、勾配を逆伝播しない。すなわち、当該部分の再構成損失の勾配変化が第２のデコーダパラメータの調整に影響を与えない。第２の部分の再構成損失は、第１の分布（第１のデコーダのパラメータ）に対して、勾配切断を行い、勾配を逆伝播しない。すなわち、当該部分の再構成損失の勾配変化が第１のデコーダパラメータの調整に影響を与えない。この場合、再構成損失に占める第１の部分及び第２の部分の割合をコントロールすることにより、第１の分布及び第２の分布が訓練中に互いに近づく程度をコントロールする。通常、再構成損失に占める第１の部分の割合が第２の部分より大きいと予め設定し、第１の分布が第２の分布にひたすら近づくことで、第１のサンプルグループから有用情報を学習する機会が失うことを防止する。

【0093】

訓練過程が終了した後、すなわち、予め設定された条件に適合する再構成損失を得た後、訓練された第１のエンコーダ、第２のエンコーダ及び第１のデコーダを取得する。次に上記Ｓ１０１～Ｓ１０４に示す情報合成過程を実行する。この場合、訓練された第１のエンコーダ及び／又は第２のエンコーダのパラメータ及び／又は第１の及び／又は第２のエンコーダに対応する入力に基づき、第１の分布パラメータを決定し、すなわち、最終的な第１の分布を第１の目標分布とする。

【0094】

図４に示す訓練過程に対応し、図５は本出願の実施例において訓練された第１のデコーダ、第２のエンコーダ及び第１のエンコーダを用いて情報合成を行う情報の流れを示す図である。如図５に示すように、情報合成過程で、訓練された自動コーデックネットワーク（図５は訓練された第１のエンコーダ）に基づき、第１の目標分布を決定した後、第１の目標分布に基づいてサンプリングし、目標サンプリングコードを得る。例えば、第１の分布は正規分布であれば、第１の目標分布も当然正規分布であり、目標サンプリングコードは当該正規分布からサンプリングして得られたコードである。目標サンプリングコードは
、１つの「仮想」的な第１のサンプルが第１のエンコーダを経由した後に得られた第１のコード、又は訓練されておいた第１のエンコーダから生成されたサンプリングコードとみなすことが理解され、その関連属性について、前述した第１のコード及びサンプリングコードの説明を参照できるので、ここで省略する。また、図５に示すように、訓練された第１のデコーダのパラメータから第１の目標分布を取得するが、その場合の第１の分布及び第２の分布は訓練により、予め設定された条件に適合するほど互いに接近しているので、第１の目標分布は訓練された第２のエンコーダから得ることができ、その効果は同様であることが理解される。例えば、テキスト情報を第２のエンコーダに入力し、第２のエンコーダがテキストコードを得て、テキストコードが全接続層を経由して得られたパラメータを第１の目標分布のパラメータとして、第１の目標分布のパラメータのフィッティングにより第１の目標分布を得る。

【0095】

また、訓練された第２のデコーダが入力情報を符号化し、対応する入力情報の目標コードを得る。その後、目標コード及び目標サンプリングコードを同時に第２のデコーダに入力し、第２のデコーダが第１のコードを条件として目標サンプリングコードを復号化し、出力情報を得る。例えば、第２のデコーダは条件付き変分オートデコーダの複号化側に対応し、この場合の目標コードはタグとして復号化過程に関与することができる。出力情報は入力情報に対応する一方、第１のサンプルと同様な新情報であり、第１のサンプルと同じタイプを持つことが理解され、すなわち、この場合の自動コーデックネットワークが情報合成の過程を完了した。

【0096】

上述した情報合成方法を明確的に理解するために、以下、本出願の具体的な実施形態について音声合成のユースケースを例に挙げて説明する。図６は本出願の実施例における情報合成方法の音声合成アプリケーションシナリオでの情報の流れを示す図である。本実施例では、入力情報及び第２のサンプルはいずれもテキストタイプの情報として設定され、すなわち、テキスト入力をＹとする。出力情報ｆ（ｚ，Ｙ’）、第１のサンプルは音声タイプの情報として設定され、すなわち第１のサンプルを音声入力Ｘとする。自動音声コードネットワークは、Ｔａｃｏｔｒｏｎ復号化フレーム及びトランスデューサ（Ｔｒａｎｓｆｏｒｍｅｒ）符号化フレームを採用するよう設定され、具体的には、第１のエンコーダはＶＡＥエンコーダの符号化側として、第２のエンコーダはＢＥＲＴエンコーダとして設定され、第１のデコーダはＶＡＥエンコーダに対応する複号化側であり、ＶＡＥ符号化側及びＢＥＲＴエンコーダの出力からＣＶＡＥ構造を構成する。上記構造で、ＶＡＥ符号化側は、主に音声合成過程の韻律及び安定性を高める機能を果たし、ＢＥＲＴエンコーダは、主にテキスト意味理解、テキスト文の韻律を捉える機能を果たす。

【0097】

まず、図６の訓練過程を参照する。本実施例では、自動コーデックネットワークを訓練する時に、第１のエンコーダ及び第２のエンコーダに音素及び人手で抽出されたテキスト特徴を入力する必要なく、１対１に対応する第１のサンプル及び第２のサンプル（テキスト－音声サンプル対＜ｙ，ｘ＞）を入力すればよい。そのうち、ｙは入力されたテキスト（第２のサンプルグループＹにおける第２のサンプル）、ｘは入力された音声（第１のサンプルグループＸにおける第１のサンプル）である。通常、ｘの形式は、音声波形ファイル（ｗａｖｅファイル）、又はｗａｖｅファイルから抽出された基本周波数ケプストラム特徴である。

【0098】

本実施例では、ＶＡＥ符号化側はＸを用いて第１の分布パラメータを決定し、第１のサンプルから第１のコードまでの事後分布を決定し、Ｑ（Ｚ｜Ｘ）で表す。そのうち、Ｚは、ＶＡＥ符号化側を経由した後のＸの潜在層特徴を表し、すなわち、第１のコードＺ＝ＶＡＥ_{ｅｎｃｏｄｅｒ}（Ｘ）。ＢＥＲＴエンコーダは、Ｙを用いて第２のコードＹ’を取得し、次に、第２のコードの分布を所定の分布タイプでフィッティングし、第２の分布パラメータを取得し、第２のコードの事前分布を決定し、Ｐ（Ｚ’｜Ｙ）で表す。そのうち、
Ｚ’は、ＢＥＲＴエンコーダを経由した後Ｙの第２のコードを表し、第２のコードＺ’と第１のコードＺが互いに対応するため、Ｐ（Ｚ’｜Ｙ）はＰ（Ｚ｜Ｙ）、すなわち第１のコードＺの事前分布として理解される。

【0099】

一実施形態において、第１の分布及び第２の分布はいずれも正規分布であり、式

で表される。

【0100】

この場合、第１の分布パラメータは、期待値μ_１（Ｘ）及び分散Σ_１（Ｘ）を含み、通常、ここのμ_１（Ｘ）及びΣ_１（Ｘ）は、ベクトルの形で表し、含まれる要素数は第１のサンプルグループＸにおける第１のサンプルｘの数に等しい。すなわち各ｘがいずれも１つの分散及び１つの期待値に対応する。同様に、第２の分布パラメータはμ_２（Ｙ）及び分散Σ_２（Ｙ）を含む。

【0101】

第１の分布及び第２の分布を取得した後、第１の相違度を取得することができ、本実施例では、第１の分布及び第２の分布の相対エントロピーとして設定され、ＫＬ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ）ダイバージェンスの形で表し、例えば、第１の相違関数は式（１）で表す。

【数1】

【0102】

そのうち、Ｄ_ＫＬは、ＫＬダイバージェンスを求めることを意味する。第１の分布及び第２の分布はいずれも正規分布である場合、式（１）は

で表す。

【0103】

その後、Ｎ_１サンプリングに基づき、Ｘに対応する潜在層特徴Ｚのセットを得る。Ｙ’をタグとして複号化側に入力し、当該潜在層特徴Ｚを復号化するように制御し、自動コーデックネットワークで再構成されたＸ、すなわち再構成サンプルグループｆ（Ｚ，Ｙ’）を得る。復号化過程では、Ｙ’の各第２のサンプルｙに対応する第２のコードｙ’によって制御されるのは当該第２のサンプルｙに対応する第１のサンプルｘの再構成であるため、ｆ（Ｚ，Ｙ’）の再構成サンプル数とＸの第１のサンプル数が一致することが理解される。この場合、第２の相違度を得ることができる。本実施例では、第１のサンプルグループと再構成サンプルグループの間の平均二乗誤差（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）として設定され、例えば、第２の相違関数は式（２）で表す。

【数2】

【0104】

そのうち、ＭＳＥは平均二乗誤差を求めることを意味する。

【0105】

したがって、自動コーデックネットワークの全体的な再構成損失Ｌは次のように表す。

【数3】

【0106】

上記再構成損失のうち、Ｌ_２における平均二乗誤差の制約は、ＶＡＥ符号化側が第１のサンプルグループＸから音声合成用情報（韻律など）を学習することに有効で、Ｌ_１のＫＬダイバージェンスの制約により、ＶＡＥ符号化側が合成用情報を学習すると同時に、分布上の制限を受ける。上記ではＬをＬ_１とＬ_２の和として表すが、本出願の実施例でこれに限定しないことが理解される。実際のアプリケーションシナリオでは、ＬがＬ_１及びＬ
_２の両方に正の相関を持つ限り、Ｌ_１とＬ_２の積、Ｌ_１とＬ_２の重み付けなどの他の形で表すことができる。

【0107】

再構成損失Ｌを取得した後、勾配逆伝播を用いて、Ｌを自動コーデックネットワークにフィードバックし、第１のエンコーダ、第２のエンコーダ及び第１のデコーダを調整する。一実施形態において、事後分布に対する事前分布の過度制限を避けるため、再構成損失ＬのＬ_１を２つの部分に分けて勾配逆伝播に参加させる。

【数4】

【0108】

そのうち、α及びβはそれぞれ２項目のＫＬダイバージェンスのＬ_１に占める割合を表し、割合の違いを除き、２項目のＫＬダイバージェンスの大きさが同じである。そのうち、ｓｇは、勾配切断を行い、勾配を逆伝播しないことを意味する。すなわち、ｓｇの後ろの括弧内の分布は、フィードバック過程で当該勾配変化の影響を受けない。したがって、上記の式における第１の項目のＫＬダイバージェンスは、事後分布が事前分布に近づく度合いを表す。当該項目を第１のエンコーダ（ＶＡＥ符号化側）に逆伝播することは、パラメータ調整を目的とするため、第２のエンコーダ（ＢＥＲＴエンコーダ）に逆伝播しない。上記の式の第２の項目のＫＬダイバージェンスは、事前分布が事後分布に近づく度合いを表す。当該項目を第２のエンコーダに逆伝播することは、パラメータ調整を目的とするため、第１のエンコーダに逆伝播しない。以上の３項目で再構成損失関数の共同訓練モデルを構成する。第２のエンコーダは、訓練過程での主な目的として、第１のサンプルから法則を見つけ、合成過程で当該法則を入力情報に基づくサンプル再構成に十分に活用することで、通常に事前分布が事後分布に更に近づくようにすることが理解される。事前分布が事後分布に近づく度合いより、事後分布が事前分布に近づく度合いを小さくするよう、通常、α＜β（例えば１０α＝β）とする。

【0109】

以上の訓練過程は、既存の音声合成方法を比較すると少なくとも２つの大きな違いがある。

【0110】

まず、従来の音声合成方法（Ｔａｃｏｔｒｏｎなど）が簡単な符号化・復号化モデルを用いてグループの出力を予測する。通常、複号化側が符号化側で符号化された後の文脈テキストＣ及び復号化後に得られた履歴音声フレームシーケンスｘ_１，ｘ_２，…，ｘ_Ｔ－１に基づき、当前音声フレームｘ_Ｔを予測し、すなわち

とする。そのうち、Ｐ_θは前の１つの音声フレームから次の１つの音声フレームまでの条件確率を表す。しかしながら、使用された音声データには、通常に大量のノイズ及び潜在的な発音エラーが含まれるため、データの不確定性が大幅に増加する。また、このような不確定性について、該当するテキストデータを用いて説明することが困難であり、上記のような簡単な符号化－復号化モデルがこれらのノイズや発音エラーを吸収することができず、モデル学習の難易度が高くなる。対照的に、本出願の実施例の第１のエンコーダ（ＶＡＥ符号化側のネットワークなど）は、第１の分布を用いてこれらのノイズ及び発音エラーをシミュレートするだけでなく、一般にモデリングしにくい韻律をシミュレートすることもできる。そのため、音声フレームを予測する時に、履歴シーケンス及び文脈テキストＣによって提供された韻律を使用するほか、さらに第１のエンコーダによって提供された潜在層特徴Ｚを用いてこれらのノイズ、発音エラー及び韻律を学習することができ、すなわち、現在の音声フレームが

として近似的に表すことで、モデルの学習の難易度を低減させる。本出願の技術案は、他
の分野に使用される場合、入力情報及び出力情報として他のタイプの情報を使用してもよいと理解される。この場合の上記履歴音声フレームシーケンスは、対応する履歴出力情報と置き換えされても良いので、ここで説明を省略する。

【0111】

次に、従来のＶＡＥモデルでは、事後分布を正規分布と仮定しても、事前分布として通常、標準正規分布、すなわちＮ（０，１）を用いて事後分布を予測する。これにより、事後分布を予測した後、複号化側への入力がゼロ又はゼロに近づけることになる。一部のノイズが除去されるが、潜在層特徴Ｚに含まれている韻律情報も失われるため、ノイズが少ないが韻律の揺らぎの低い合成結果となる。対照的に、本出願の実施例において、第２のエンコーダを用いて第２のサンプルを符号化し、その後、符号化結果から得られた事前分布を用いて事後分布を予測する。当該事前分布には音声データに対応するテキスト特徴が含まれ、音声に対応する韻律の揺らぎを保持するため、ノイズを除去すると同時に音声の韻律情報が失われることを避けた。

【0112】

次に、図６の音声合成過程を参照する。図６の破線の枠内に音声合成部分では、概略的に当該過程を説明している。音声合成を行う時には、第１のデコーダ（ＶＡＥ複号化側）に実際のｘ入力がないため、訓練過程のようにＸに基づく第１の分布を得ることができない。この場合、事前分布で予測された第１の目標分布を直接的に用いてサンプリングして目標サンプリングコードＺ（潜在特徴Ｚ）を得る。当該目標サンプリングコードＺは第２のエンコーダ（ＢＥＲＴエンコーダ）のコードテキストＹから生成された目標コードＹ’とともに複号化側に入力し、復号化により、Ｙに対応する音声ｆ（Ｚ，Ｙ’）を合成する。この場合、サンプリングで得られた目標サンプリングコードＺは、相変わらず音声信号の潜在特徴とみなすが、第２のエンコーダが処理するものはテキスト入力であるため、Ｚには、第２のエンコーダで処理されない韻律及びノイズ情報が含まれていることが理解される。したがって、事後分布が事前分布から学習するものについて、主にテキストから予測された韻律情報である。これらの韻律情報はさらに最終的に合成した音声内のノイズを低減させる。

【0113】

なお、図６は音声合成のユースケース、すなわち、テキスト情報を用いて音声情報を生成することを示しているが、本出願の実施例の情報合成方法は他のユースケースにも適用される。例えば、テキスト情報に基づき、画像情報を生成することや、画像情報に基づき、音声情報を生成することや、音声情報に基づき、テキスト情報を生成することができる。第１のデコーダ、第２のデコーダ及び第１のエンコーダを適切な人工ニューラルネットワークモデルに置き換えればよい。

【0114】

以上、Ｓ１０５などを参照しながら説明し、本出願の実施例における訓練過程を含む音声合成方法を説明している。いくつかの実施例において、訓練過程及び音声合成の効率を高めるよう、自動コーデックネットワークを丸ごとに訓練する前、第２のエンコーダの事前学習を行うことができる。図７は、本出願の実施例における別の情報合成方法を示すフローチャートである。図７に示すように、図２に示す方法をベースにして、Ｓ１０５前の情報合成方法は次のステップを含んでもよい。

【0115】

Ｓ１０６：事前学習済みのサンプルグループに基づき、第２のエンコーダを初期化する。

【0116】

本ステップで、事前学習済みのサンプルグループは、１つ又は複数の事前学習済みサンプルを含む。通常、事前学習済みのサンプルのタイプと入力情報のタイプが同じ、かつ、その数が多いから、第２のエンコーダのパラメータを初期化し、入力情報及び第２のサンプルグループをよく理解し、自動コーデックネットワークでの予測の合理性を向上させる。例えば、第２のエンコーダはＢＥＲＴモデルである場合、事前学習済みのサンプルグル
ープは、大量のテキストであり、これにより、取得しやすい大量のテキスト事前学習データに基づき、合成された出力情報（音声合成など）の韻律を追加し、フロントエンド不足による合成音声の不合理的な区切りや不合理的なポーズなどの潜在的な問題を補う。

【0117】

次に多言語音声合成を例として、従来技術を比較して本出願の実施例の情報合成方法のメリットを説明する。表１は、グーグル（ＧｏｏｇｌｅＩｎｃ．）翻訳システムと、本出願の実施例の情報合成方法を適用した音声合成システム（以下、「Ｂａｓｅシステム」という）とは同じの聴取試験で平均オピニオン評点（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）により得た評価結果である。評価対象は、ポルトガル語、ヒンディー語、インドネシア語、ドイツ語、イタリア語、マレー語の６小言語の音声合成自然性（リズムや音色など）である。

【表1】

【0118】

表１の比較から、音声合成において、個別の言語のＭＯＳでも全体の平均ＭＯＳでも、Ｂａｓｅシステムはグーグル翻訳システムよりも優れていることが分かる。

【0119】

本出願の実施例の別の態様は情報合成装置を提供する。本実施例では、上記情報合成装置は、第１のエンコーダ、第２のエンコーダ及び第１のデコーダモデルを含む自動コーデックネットワークに用いられる。当該自動コーデックネットワークの詳細については前述した方法の実施例を参照できるので、ここで省略する。

【0120】

以下、図８を参照しながら上記情報合成装置を説明する。図８は、本出願の実施例における情報合成装置の構造を示す図である。図８に示すように、当該情報合成装置は、以下のモジュールを含む。

【0121】

分布取得モジュール８０１：訓練された自動コーデックネットワークに基づき、第１の目標分布を取得する。そのうち、第１の目標分布は、第１のエンコーダ入力側から第１のエンコーダ出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程で、第１のエンコーダと第２のエンコーダとの入力サンプルが１対１に対応し、かつ、第２のエンコーダが決定する事前分布は第１の目標分布の予測に用いられる。

【0122】

サンプリングモジュール８０２：第１の目標分布に基づいてサンプリングし、目標サンプリングコードを得る。

【0123】

符号化モジュール８０３：訓練された第２のエンコーダを通じて入力情報を符号化し、入力情報の目標コードを得る。

【0124】

復号化モジュール８０４：訓練された第１のデコーダを通じて目標コードを復号化条件として、目標サンプリングコードを復号化し、出力情報を得る。

【0125】

図９は本出願の実施例における別の情報合成装置の構造を示す図である。図８に示す構造をベースに、当該情報合成装置は、以下のモジュールをさらに含む。

【0126】

訓練モジュール８０５：第１のエンコーダ、第２のエンコーダ及び第１のデコーダを訓練し、訓練された第１のエンコーダ、訓練された第２のエンコーダ及び訓練された第１のデコーダを得る。

【0127】

一実施形態において、訓練モジュール８０５は、以下のユニットを含む。

【0128】

入力ユニット：第１のサンプルグループ及び第２のサンプルグループを自動コーデックネットワークに入力する。そのうち、第１のサンプルグループは第１のサンプルを含み、第１のサンプルのタイプと出力情報が一致し、第２のサンプルグループは第２のサンプルを含み、第２のサンプルのタイプと入力情報のタイプが一致し、かつ、第２のサンプルと第１のサンプルが１対１に対応する。

【0129】

調整ユニット：第１のエンコーダ、第２のエンコーダ、第１のデコーダのパラメータを、自動コーデックネットワークの第１のサンプルグループに対する再構成損失が予め設定された条件に適合するまで調整する。

【0130】

一実施形態において、予め設定された条件は、再構成損失が最小値であること、又は再構成損失が予め設定された値より小さいこととする。

【0131】

一実施形態において、再構成損失の取得には、第１のエンコーダが各第１のサンプルに基づき、第１のサンプルのコードである第１のコードの第１の分布の特徴を表現する第１の分布パラメータを決定するステップと、第１の分布に基づいてサンプリングして、各第１のサンプルのサンプリングコードを得るステップと、第２のエンコーダが第２のサンプルグループを符号化し、第１のサンプルの第１のコードに対応する第２のサンプルの第２のコードを得るステップと、第２のコードに基づき、第２のコードの第２の分布の特徴を表現する第２の分布パラメータを得るステップと、第１の分布パラメータ及び第２の分布パラメータに基づき、第１の分布及び第２の分布の第１の相違度を得るステップと、第１のデコーダが各第１のサンプルに対応する第２のサンプルの第２のコードに基づき、当該第１のサンプルのサンプリングコードを復号化し、再構成サンプルグループを構成する当該第１のサンプルの再構成サンプルを得るステップと、第１のサンプルグループ及び再構成サンプルグループに基づき、第１のサンプルグループ及び再構成サンプルグループの第２の相違度を得るステップと、第１の相違度及び第２の相違度に基づき、再構成損失を得るステップとを含む。そのうち、訓練された第１のエンコーダのパラメータは、再構成損失が予め設定された条件を満足する時の第１のエンコーダのパラメータであり、第１の目標分布は、再構成損失が予め設定された条件を満足する時の第１の分布である。

【0132】

一実施形態において、第１の相違度は第１の分布及び第２の分布の相対エントロピーである。

【0133】

一実施形態において、第１の割合の第１の相違度が勾配逆伝播時に第２のエンコーダに
逆伝播することなく、第１のエンコーダに逆伝播し、第２の割合の第１の相違度が勾配逆伝播時に、第１のエンコーダに逆伝播することなく、第２のエンコーダに逆伝播し、かつ、第１の割合が第２の割合より小さい。

【0134】

一実施形態において、第１の分布と第２の分布は同じタイプの確率分布である。

【0135】

一実施形態において、第１の分布及び第２の分布は正規分布であり、第１の分布パラメータ及び第２の分布パラメータにはいずれも正規分布の期待値と分散が含まれている。

【0136】

図１０は本出願の実施例における別の情報合成装置の構造を示す図である。図９に示す構造をベースに、当該情報合成装置は、以下のモジュールをさらに含む。

【0137】

初期化モジュール８０６：各サンプルのタイプと入力情報が一致する事前学習済みのサンプルグループに基づき、第２のエンコーダを初期化する。

【0138】

一実施形態において、第１のエンコーダは条件変分自動エンコーダの符号化側であり、第１のデコーダは条件変分自動エンコーダの複号化側である。

【0139】

一実施形態において、第２のエンコーダは、トランスデューサに基づく双方向エンコーダ表現モデルである。

【0140】

一実施形態において、入力情報はテキストであり、出力情報は音声である。

【0141】

一実施形態において、第１のデコーダは、音声情報における復号化された履歴フレームシーケンス及びテキスト情報における文脈テキストに基づき、次のフレームの音声情報を決定する。

【0142】

一実施形態において、第１のエンコーダ、第２のエンコーダ及び第１のデコーダを訓練する時に、音素及び人手で抽出されたテキスト特徴を第１のエンコーダ及び第２のエンコーダに入力する必要がない。

【0143】

本出願の実施例に係る情報合成装置によれば、訓練された自動コーデックネットワークに基づき、第１の目標分布を得るとともに、第１の目標分布に基づいてサンプリングし、目標サンプリングコードを得て、訓練された第２のエンコーダが入力情報を符号化し、入力情報の目標コードを得て、訓練された第１のデコーダが目標コードを復号化条件として、目標サンプリングコードを復号化し、出力情報を得る。そのうち、第１の目標分布は第１のエンコーダ入力側から出力側までの事後分布の特徴を表現し、自動コーデックネットワークの訓練過程では、第１のエンコーダと第２のエンコーダの入力サンプルが１対１に対応し、かつ、第２のエンコーダが決定する事前分布は第１の目標分布の予測に用いられる。これにより、復号化された出力情報と入力情報の対応関係は、訓練サンプルにおける第１のエンコーダと第２のエンコーダとの入力サンプルの間の対応関係を高度に復元（又はシミュレーション）するため、入力情報によく対応するような出力情報が得られる。本解決案は、音声合成分野、特に多言語音声合成分野において、音声サンプルの品質に関する制限を緩和するため、大量の訓練サンプルを獲得し、最終的に合成された音声が韻律、ポーズと文字の発音などのところでより良いパフォーマンスを持つようにする。

【0144】

本出願の実施例の別の態様は電子機器を提供する。当該電子機器は、メモリとプロセッサとを含み、当該メモリには命令を格納し、当該命令が当該プロセッサによって実行される時に、当該機器が前述したいずれか一つの情報合成方法を実行する。

【0145】

本出願の実施例の別の態様は非一過性コンピュータ可読記憶媒体を提供する。当該記憶媒体には命令を格納し、当該命令が当該プロセッサによって実行される時に、前述したいずれか一つの情報合成方法を実行する。

【0146】

コンピュータ可読記憶媒体は、プログラムコマンド、データファイル、データ構造など、又はそれらの組み合わせを含む。コンピュータ可読記憶媒体に記録されているプログラムは、本発明の方法を実装するように設計又は構成されてもよい。コンピュータ可読記憶媒体はプログラムコマンドを記憶・実行するハードウェアシステムを含む。ハードウェアシステムとしては、磁気媒体（ハードディスク、フロッピーディスク、磁気テープなど）、光学媒体（ＣＤ－ＲＯＭやＤＶＤなど）、光磁気媒体（ソフト光ディスク、ＲＯＭ、ＲＡＭ、フラッシュメモリなど）が挙げられる。プログラムは、コンパイラによってコンパイルされたアセンブリ言語コード又はマシンコードと、インタプリタによって解釈されたより高度な言語コードとを含む。ハードウェアシステムは、本発明に適合するよう、少なくとも１つのソフトウェアモジュールを用いて実現することができる。

【0147】

当業者はまた、本明細書で開示された実施例に例示されたユニット及びアルゴリズムステップを参照しながら、電子ハードウェア、コンピュータソフトウェア又は両方の組み合わせで実装することを認識することができる。ハードウェア及びソフトウェアの互換性を明確に示すために、各例の構成及びステップは、上記の説明において機能ごとに一般的に説明している。これら機能がハードウェアで実行されるか、又はコンピュータソフトウェアで実行されるかは、技術案の特定用途と設計制約条件によって異なる。当業者は、特定の用途ごとに異なる方法を使用して、記載された機能を実現することができるが、そのような実施は、本発明の範囲を超えるものとみなされるべきではない。

【0148】

本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点を重点として説明され、各実施例の間で同一で類似している部分は互いに参照すればよい。実施例に開示された装置については、実施例に開示された方法に対応するので、説明を簡素化し、関連要点については、方法の実施例に関する説明を参照する。

【0149】

開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。

【図1】