特許7601224 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7601224生成方法、生成プログラム及び生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-09

(45)【発行日】2024-12-17

(54)【発明の名称】生成方法、生成プログラム及び生成装置

(51)【国際特許分類】

G10L 13/06 20130101AFI20241210BHJP

G10L 25/30 20130101ALI20241210BHJP

【ＦＩ】

G10L13/06 140

G10L25/30

【請求項の数】 7

(21)【出願番号】P 2023532858

(86)(22)【出願日】2021-07-05

(86)【国際出願番号】 JP2021025237

(87)【国際公開番号】W WO2023281555

(87)【国際公開日】2023-01-12

【審査請求日】2023-11-01

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】金川裕紀

【審査官】山下剛史

(56)【参考文献】

【文献】特開２０２１－３２９３７（ＪＰ，Ａ）

【文献】特開２０１９－４５８５６（ＪＰ，Ａ）

【文献】特開２０１８－１４１９１７（ＪＰ，Ａ）

【文献】特開２０１８－１４１９１５（ＪＰ，Ａ）

【文献】特開２０２１－６７８８５（ＪＰ，Ａ）

【文献】国際公開第２０２０／１４５４７２（ＷＯ，Ａ１）

【文献】岡本拓磨他，サブバンドＷａｖｅＮｅｔボコーダによる全可聴帯域音声合成の検討，日本音響学会２０１８年春季研究発表会講演論文集［ＣＤ－ＲＯＭ］，2018年03月，pp.251-254

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成工程と、
前記サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する前記複数の確率分布生成モデルに、前記中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成するサブバンド信号生成工程と、
前記複数のサブバンド信号を基にして、音声波形を生成する音声波形生成工程と
を含んだことを特徴とする生成方法。

【請求項2】

前記音響特徴量を入力した場合に、前記音響特徴量の中間表現情報を出力する第１中間表現モデルを用いて、前記音声波形の音響特徴量を、前記音響特徴量の中間表現情報に変換する変換工程を更に含んだことを特徴とする請求項１に記載の生成方法。

【請求項3】

前記中間表現生成工程は、前記音響特徴量の中間表現情報を入力した場合に、前記サブバンド信号の中間表現情報を出力する第２中間表現モデルを用いて、前記サブバンド信号の中間表現情報を生成することを特徴とする請求項２に記載の生成方法。

【請求項4】

音声波形から算出される複数のサブバンド信号と、前記サブバンド信号生成工程によって生成される複数のサブバンド信号とを基にして、損失値を計算し、前記損失値を基にして、前記第１中間表現モデル、前記第２中間表現モデル、前記複数の確率分布生成モデルのうち少なくとも１つのモデルの学習を実行する学習工程を更に有することを特徴とする請求項３に記載の生成方法。

【請求項5】

前記サブバンド信号生成工程は、１つのモデルから複数の時間帯、および、複数の帯域に対応するサブバンド信号の情報を同時に出力する同時確率分布生成モデルを用いて、前記複数のサブバンド信号を同時に生成することを特徴とする請求項１に記載の生成方法。

【請求項6】

音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成ステップと、
前記サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する前記複数の確率分布生成モデルに、前記中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成するサブバンド信号生成ステップと、
前記複数のサブバンド信号を基にして、音声波形を生成する音声波形生成ステップと
をコンピュータに実行させるための生成プログラム。

【請求項7】

音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成し、前記サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する前記複数の確率分布生成モデルに、前記中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成する生成部と、
前記複数のサブバンド信号を基にして、音声波形を生成する音声波形生成部と
を備えることを特徴とする生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、生成方法、生成プログラム及び生成装置に関する。

【背景技術】

【0002】

音声合成において、スペクトルや声の高さを表すピッチ等の音響特徴量から音声波形に変換するモジュールはボコーダーと呼ばれる。ボコーダーの実装方法は大きく二種類がある。一つは信号処理による方法であり、STRAIGHTやWORLDといった手法が有名である（たとえば、非特許文献１，２参照）。これらの方法は数理モデルにより音響特徴量から音声波形への変換を表現するため、学習が不要かつ処理速度が高速であるが、分析再合成された音声を自然音声と比較すると品質が劣る。

【0003】

もう一つは、WaveNetに代表されるニューラルネットによる手法（ニューラルボコーダー）が提案されている（たとえば、特許文献１参照）。こちらは自然音声と比較しても遜色ない品質の音声を合成可能な一方、計算量が多いため信号処理のボコーダーよりも動作が低速である。通常、1つの音声サンプルの予測のためにニューラルネットを１回順伝搬しなくてはならないため、そのまま実装したのではリアルタイム動作は困難である。

【0004】

ニューラルボコーダーの計算量を減らし、特にCPUにおいてリアルタイム動作させるためには主に二つのアプローチが採られる。一つはニューラルネットの順伝搬１回あたりの計算コストを削減するもので、WaveNetで用いられる巨大な畳み込みニューラルネット(CNN: Convolutional Neural Network)を小規模な再帰型ニューラルネット（RNN:Recurrent Neural Network）で置き換えたWaveRNN（たとえば、特許文献２）や、音声波形の生成過程に信号処理の知見である線形予測分析（LPC）を活用したLPCNet等（たとえば、非特許文献３）がある。

【0005】

もう一つは順伝搬の回数そのものを減らす方法であり、予測対象を音声波形でなく、サブバンド信号と呼ばれる疑似直交ミラーフィルター(Pseudo-QMF)を用いて帯域分割した短い系列に変更することで順伝搬の回数を減らせることが開示されている（たとえば、非特許文献４）。

【先行技術文献】

【特許文献】

【0006】

【文献】国際公開第２０１８／０４８９３４号

【文献】国際公開第２０１９／１５５０５４号

【非特許文献】

【0007】

【文献】Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds,” Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999.

【文献】Masanori Morise, Fumiya Yokomori, Kenji Ozawa, “WORLD: a Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications,” IEICE transactions on information and systems, vol. E99-D, no. 7, pp. 1877-1884, 2016.

【文献】Jean-Marc Valin and Jan Skoglund, “LPCNET: IMPROVING NEURAL SPEECH SYNTHESIS THROUGH LINEAR PREDICTION,” Proc. ICASSP, 2019, pp. 5891-5895

【文献】Chengzhu Yu, Heng Lu, Na Hu, Meng Yu, Chao Weng, Kun Xu, Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su, Dong Yu, “DurIAN: Duration Informed Attention Network for Speech Synthesis”, Proc. INTERSPEECH 2020, pp. 2027-2031, 2020

【発明の概要】

【発明が解決しようとする課題】

【0008】

非特許文献４では引用文献２を改良し、１サンプル分の音声波形の代わりに１サンプル分のサブバンド信号を使い、次の時刻のサブバンド信号を予測する。この場合にＢ個のチャネルでサブバンド表現すると系列長を１／Ｂに短縮でき、純伝搬回数を１／Ｂに削減可能である。しかしRNN等の自己回帰構造に基づき、過去のサンプルに基づき１サンプルずつ生成しているため、最大Ｂ倍速以上の高速化ができない。

【0009】

本発明は、上記に鑑みてなされたものであって、音響特徴量から高速に音声波形を生成することができる生成方法、生成プログラム及び生成装置を提供することを目的とする。

【課題を解決するための手段】

【0010】

上述した課題を解決し、目的を達成するために、コンピュータは、音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成工程と、サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する複数の確率分布生成モデルに、中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成するサブバンド信号生成工程と、複数のサブバンド信号を基にして、音声波形を生成する音声波形生成工程とを含む。

【発明の効果】

【0011】

本発明によれば、音響特徴量から高速に音声波形を生成することができる。

【図面の簡単な説明】

【0012】

【図1】図１は、本実施例１に係る生成装置の構成を示す機能ブロック図である。

【図2】図２は、サブバンド信号の一例を示す図である。

【図3】図３は、本実施例１に係る学習部を説明するための図である。

【図4】図４は、本実施例１に係る生成部を説明するための図である。

【図5】図５は、本実施例１に係る生成装置の学習時の処理手順を示すフローチャートである。

【図6】図６は、本実施例１に係る生成装置の生成時の処理手順を示すフローチャートである。

【図7】図７は、本実施例２に係る生成装置の構成を示す機能ブロック図である。

【図8】図８は、本実施例２に係る学習部を説明するための図である。

【図9】図９は、本実施例２に係る生成部を説明するための図である。

【図10】図１０は、本実施例２に係る生成装置の学習時の処理手順を示すフローチャートである。

【図11】図１１は、本実施例２に係る生成装置の生成時の処理手順を示すフローチャートである。

【図12】図１２は、本実施例３に係る生成装置の構成を示す機能ブロック図である。

【図13】図１３は、本実施例３に係る学習部を説明するための図である。

【図14】図１４は、本実施例３に係る生成部を説明するための図である。

【図15】図１５は、本実施例３に係る生成装置の学習時の処理手順を示すフローチャートである。

【図16】図１６は、本実施例３に係る生成装置の生成時の処理手順を示すフローチャートである。

【図17】図１７は、生成プログラムを実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0013】

以下に、本願の開示する生成方法、生成プログラム及び生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例1】

【0014】

まず、本実施例１に係る生成装置の構成例について説明する。図１は、本実施例１に係る生成装置の構成を示す機能ブロック図である。図１に示すように、この生成装置１００は、通信制御部１１０と、入力部１２０と、出力部１３０と、記憶部１４０と、制御部１５０とを有する。

【0015】

通信制御部１１０は、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した外部の装置と制御部１５０との通信を制御する。

【0016】

入力部１２０は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５０に対して処理開始などの各種指示情報を入力する。

【0017】

出力部１３０は、制御部１５０から取得した情報を出力する出力デバイスであり、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

【0018】

記憶部１４０は、学習用音声波形データ１４１と、第１中間表現モデル１０と、第２中間表現モデル１１と、確率分布生成モデル１２とを有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0019】

学習用音声波形データ１４１には、学習用の複数の音声波形のデータが含まれる。学習用音声波形データ１４１は、第１中間表現モデル１０、第２中間表現モデル１１、確率分布生成モデル１２を学習する場合に利用される。

【0020】

第１中間表現モデル１０は、音声波形から計算される音響特徴量が入力された場合に、音響特徴量の中間表現ｍを出力するモデルである。第１中間表現モデル１０は、たとえば、NN（Neural Network）、CNN、RNN、WaveRNN等に対応する。以下の説明では、音響特徴量の中間表現ｍを、適宜、「中間表現ｍ」と表記する。

【0021】

音響特徴量は、音声波形のスペクトログラム、メルケプストラム等のスペクトル情報、基本周波数、ピッチ周波数等の韻律情報に対応する。

【0022】

音響特徴量の中間表現は、音響特徴量の系列長を音声サンプル数と同じになるように伸長した情報である。係る中間表現ｍを生成する第１中間表現モデル１０の実現方法として、１フレームに対応する音響特徴量のベクトルをサンプル数だけ並べて伸長する方法がある。また、第１中間表現モデル１０をWaveRNNで実現する場合、前後フレームの連続性を考慮するため、一次元CNNや二次元CNNを用いて特徴量変換しながら伸長する方法を採用する。

【0023】

第２中間表現モデル１１は、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを出力するモデルである。後述するように、第２中間表現モデル１１は、複数存在する。以下の説明では、サブバンド信号の中間表現ｘ_ｔを、適宜、「中間表現ｘ_ｔ」と表記する。中間表現ｘ_ｔのｔは時刻インデックスである。たとえば、ｘ_{ｔ＝－１、０}は、時刻ｔ＝－１、ｔ＝０の情報を含んだベクトルであることを意味する。ここで、中間表現ｘ_{ｔ＝－１，０}は、中間表現ｘ_ｔの初期値に相当する情報である。

【0024】

図２は、サブバンド信号の一例を示す図である。図２の縦軸はAmplitude Responseに対応し、横軸はNormalized Frequencyに対応する。図２では、音声信号（フルバンド信号）にフィルターをかけることで、４つのサブバンド信号ｓｕｂ１、ｓｕｂ２、ｓｕｂ３、ｓｕｂ４を生成した場合を示している。サブバンド信号ｓｕｂ１は、低域のサブバンド信号である。サブバンド信号ｓｕｂ２は、低域～中域のサブバンド信号である。サブバンド信号ｓｕｂ３は、中域～高域のサブバンド信号である。サブバンド信号ｓｕｂ４は、高域のサブバンド信号である。

【0025】

確率分布生成モデル１２は、中間表現ｘ_ｔが入力された場合に、サブバンド信号の確率分布ｙ_ｔ、_ｂを出力するモデルである。後述するように、確率分布生成モデル１２は、複数存在する。確率分布ｙ_ｔ、_ｂのｔは時刻インデックスであり、ｂはサブバンド信号のチャンネルのインデックスである。確率分布ｙ_ｔ、_ｂは、音声波形サンプル値の生成確率である。音声波形がμ－ｌａｗ信号等の離散値で表現されている場合には、確率分布ｙ_ｔ、_ｂとして、カテゴリカル分布を用いることができる。音声波形が連続値で表現されている場合には、確率分布ｙ_ｔ、_ｂとして、ガウス分布、ベータ分布、混合ロジスティック分布を用いることができる。

【0026】

図１において、制御部１５０は、学習部１５１と、生成部１５２とを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）等に対応する。

【0027】

学習部１５１は、学習用音声波形データ１４１を用いて、第１中間表現モデル１０、第２中間表現モデル１１、確率分布生成モデル１２の学習を実行する。

【0028】

生成部１５２は、学習済みの第１中間表現モデル１０、第２中間表現モデル１１、確率分布生成モデル１２を用いて、音響特徴量から音声波形を生成する。生成部１５２は、音響特徴量の情報を、入力部１２０から取得してもよいし、通信制御部１１０を介して、外部装置から取得してもよい。

【0029】

次に、図１に示した学習部１５１について具体的に説明する。図３は、本実施例１に係る学習部を説明するための図である。図３に示すように、学習部１５１は、音響特徴量計算部２０、第１中間表現モデル１０、複数の第２中間表現モデル１１－ｎ（ｎ＝１～Ｔ／Ｂ－１）、複数の確率分布生成モデル１２－ｔ－ｂ（ｔ＝１、・・・、Ｔ／Ｂ、ｂ＝１、・・・、Ｂ）、サンプリング部２１－ｔ－ｂ、サブバンド信号計算部３０、損失計算部３１、モデル学習部３２を有する。ここでは、音声の系列長をＴ、サブバンド信号のチャンネル数をＢ、サブバンド信号のサンプル数をＮ（＝２）とする。

【0030】

学習部１５１は、学習用音声波形データ１４１に格納された音声波形Ｄ１を音響特徴量計算部２０に入力する。音響特徴量計算部２０は、音声波形Ｄ１を基にして、音響特徴量Ｄ２を算出する。音響特徴量計算部２０は、音響特徴量Ｄ２を、第１中間表現モデル１０に入力する。

【0031】

第１中間表現モデル１０は、音響特徴量Ｄ２が入力された場合に、音響特徴量の中間表現ｍを出力する。第１中間表現モデル１０は、中間表現ｍを、第２中間表現モデル１１－１～１１－ｎに出力する。第１中間表現モデル１０は、勾配情報を、モデル学習部３２に出力する。

【0032】

各第２中間表現モデル１１－１～１１－ｎは、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを出力する。たとえば、第２中間表現モデル１１－１は、中間表現ｘ_{ｔ＝－１，０}を算出し、確率分布生成モデル１２－１－１～１２－２－Ｂに出力する。なお、第２中間表現モデル１１－２～１１－ｎは、サブバンド信号の中間表現ｘ_ｔを計算する場合に、前の時刻のサブバンド信号ｓ_ｔ、ｂを更に用いる。サブバンド信号ｓ_ｔ、ｂのｔは時刻インデックスであり、ｂはサブバンド信号のチャンネルのインデックスである。

【0033】

第２中間表現モデル１１－２は、中間表現ｘ_{ｔ＝１，２}を算出し、確率分布生成モデル１２－３－１～１２－４－Ｂに出力する。第２中間表現モデル１１－３は、中間表現ｘ_{ｔ＝３，４}を算出し、確率分布生成モデル１２－５－１～１２－６－Ｂ（図示略）に出力する。

【0034】

以下の説明では、第２中間表現モデル１１－１～１１－ｎを区別しない場合、まとめて、第２中間表現モデル１１と表記する。第２中間表現モデル１１は、勾配情報を、モデル学習部３２に出力する。

【0035】

各確率分布生成モデル１２－ｔ－ｂは、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_ｔ、_ｂを出力する。たとえば、確率分布生成モデル１２－１－１は、確率分布ｙ_ｔ＝１、_ｂ＝１を、サンプリング部２１－１－１に出力する。図示を省略するが、確率分布生成モデル１２－１－２～１２－１－（Ｂ－１）は、確率分布ｙ_ｔ、_ｂを配下のサンプリング部２１－１－２～２１－１－（Ｂ－１）に出力する。確率分布生成モデル１２－１－Ｂは、確率分布ｙ_ｔ＝１、_ｂ＝Ｂを、サンプリング部２１－１－Ｂに出力する。

【0036】

確率分布生成モデル１２－２－１は、確率分布ｙ_ｔ＝２、_ｂ＝１を、サンプリング部２１－２－１に出力する。図示を省略するが、確率分布生成モデル１２－２－２～１２－２－（Ｂ－１）は、確率分布ｙ_ｔ、_ｂを配下のサンプリング部２１－２－２～２１－２－（Ｂ－１）に出力する。確率分布生成モデル１２－２－Ｂは、確率分布ｙ_ｔ＝２、_ｂ＝Ｂを、サンプリング部２１－２－Ｂに出力する。

【0037】

確率分布生成モデル１２－３－１は、確率分布ｙ_ｔ＝３、_ｂ＝１を、サンプリング部２１－３－１に出力する。図示を省略するが、確率分布生成モデル１２－３－２～１２－３－（Ｂ－１）は、確率分布ｙ_ｔ、_ｂを配下のサンプリング部２１－３－２～２１－３－（Ｂ－１）に出力する。確率分布生成モデル１２－３－Ｂは、確率分布ｙ_ｔ＝３、_ｂ＝Ｂを、サンプリング部２１－３－Ｂに出力する。

【0038】

確率分布生成モデル１２－４－１は、確率分布ｙ_ｔ＝４、_ｂ＝１を、サンプリング部２１－４－１に出力する。図示を省略するが、確率分布生成モデル１２－４－２～１２－４－（Ｂ－１）は、確率分布ｙ_ｔ、_ｂを配下のサンプリング部２１－４－２～２１－４－（Ｂ－１）に出力する。確率分布生成モデル１２－４－Ｂは、確率分布ｙ_ｔ＝３、_ｂ＝Ｂを、サンプリング部２１－４－Ｂに出力する。

【0039】

その他の確率分布生成モデルの説明を省略するが、それぞれ、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_ｔ、_ｂを、配下のサンプリング部に出力する。以下の説明では、各確率分布生成モデル１２－ｔ－ｂを区別しない場合、まとめて、確率分布生成モデル１２と表記する。確率分布生成モデル１２は、勾配情報を、モデル学習部３２に出力する。確率分布生成モデル１２は、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を、損失計算部３１に出力する。

【0040】

各サンプリング部２１－ｔ－ｂは、確率分布ｙ_ｔ、_ｂが入力された場合に、サブバンド信号ｓ_ｔ、ｂを算出する。なお、学習部１５１は、各確率分布生成モデル１２－ｔ－ｂが、直接サブバンド信号を予測する場合には、各サンプリング部２１－ｔ－ｂを用いなくてもよい。

【0041】

サンプリング部２１－１－１は、サブバンド信号ｓ_{ｔ＝１、ｂ＝１}を算出する。図示を省略するが、サンプリング部２１－１－２～２１－１－（Ｂ－１）は、該当するサブバンド信号ｓ_ｔ、ｂを算出する。サンプリング部２１－１－Ｂは、サブバンド信号ｓ_{ｔ＝１、ｂ＝Ｂ}を算出する。

【0042】

サンプリング部２１－２－１は、サブバンド信号ｓ_{ｔ＝２、ｂ＝１}を算出する。図示を省略するが、サンプリング部２１－２－２～２１－２－（Ｂ－１）は、該当するサブバンド信号ｓ_ｔ、ｂを算出する。サンプリング部２１－２－Ｂは、サブバンド信号ｓ_{ｔ＝２、ｂ＝Ｂ}を算出する。

【0043】

上記のように、サンプリング部２１－１－１～２１－１－Ｂによって、サブバンド信号ｓ_{ｔ＝１、ｂ＝１～Ｂ}が算出される。サンプリング部２１－２－１～２１－２－Ｂによって、サブバンド信号ｓ_{ｔ＝２、ｂ＝１～Ｂ}が算出される。サブバンド信号ｓ_{ｔ＝１、ｂ＝１～Ｂ}、サブバンド信号ｓ_{ｔ＝２、ｂ＝１～Ｂ}は、第２中間表現モデル１１－２に入力される。

【0044】

すなわち、確率分布生成モデル１２－１－１～１２－１－Ｂとサンプリング部２１－１－１～２１－１－Ｂとの組、及び、確率分布生成モデル１２－２－１～１２－２－Ｂとサンプリング部２１－２－１～２１－２－Ｂとの組によって、１つの中間表現ｘ_{ｔ＝－１，０}から、Ｂ×Ｎ（Ｎ＝２）個に相当するサブバンド信号（ｓ_{ｔ＝１、ｂ＝１～Ｂ}、ｓ_{ｔ＝２、ｂ＝１～Ｂ}）が生成される。

【0045】

サンプリング部２１－３－１は、サブバンド信号ｓ_{ｔ＝３、ｂ＝１}を算出する。図示を省略するが、サンプリング部２１－３－２～２１－３－（Ｂ－１）は、該当するサブバンド信号ｓ_ｔ、ｂを算出する。サンプリング部２１－３－Ｂは、サブバンド信号ｓ_{ｔ＝３、ｂ＝Ｂ}を算出する。

【0046】

サンプリング部２１－４－１は、サブバンド信号ｓ_{ｔ＝４、ｂ＝１}を算出する。図示を省略するが、サンプリング部２１－４－２～２１－４－（Ｂ－１）は、該当するサブバンド信号ｓ_ｔ、ｂを算出する。サンプリング部２１－４－Ｂは、サブバンド信号ｓ_{ｔ＝４、ｂ＝Ｂ}を算出する。

【0047】

上記のように、サンプリング部２１－３－１～２１－３－Ｂによって、サブバンド信号ｓ_{ｔ＝３、ｂ＝１～Ｂ}が算出される。サンプリング部２１－４－１～２１－４－Ｂによって、サブバンド信号ｓ_{ｔ＝４、ｂ＝１～Ｂ}が算出される。サブバンド信号ｓ_{ｔ＝３、ｂ＝１～Ｂ}、サブバンド信号ｓ_{ｔ＝４、ｂ＝１～Ｂ}は、第２中間表現モデル１１－３に入力される。

【0048】

すなわち、確率分布生成モデル１２－３－１～１２－３－Ｂとサンプリング部２１－３－１～２１－３－Ｂとの組、及び、確率分布生成モデル１２－４－１～１２－４－Ｂとサンプリング部２１－４－１～２１－４－Ｂとの組によって、１つの中間表現ｘ_{ｔ＝１，２}から、Ｂ×Ｎ（Ｎ＝２）個に相当するサブバンド信号（ｓ_{ｔ＝３、ｂ＝１～Ｂ}、ｓ_{ｔ＝４、ｂ＝１～Ｂ}）が生成される。

【0049】

その他のサンプリング部の説明を省略するが、それぞれ、確率分布ｙ_ｔ、_ｂが入力された場合に、サブバンド信号ｓ_ｔ、ｂを算出する。各サンプリング部２１－ｔ－ｂから、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}が出力される。

【0050】

続いて、サブバンド信号計算部３０の説明に移行する。サブバンド信号計算部３０は、音声波形Ｄ１から、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を計算する。サブバンド信号計算部３０として、直交ミラーフィルタ（QMF：Quadrature Mirror Filter）や、疑似直交ミラーフィルタ（PQMF：Pseudo-Quadrature Mirror Filters）を用いることができる。直交ミラーフィルタまたは疑似直交ミラーフィルタを用いることで、入力された音声波形Ｄ１の系列長を１／Ｂに短縮したサブバンド信号に変換する。

【0051】

サブバンド信号計算部３０は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を、損失計算部３１に出力する。

【0052】

損失計算部３１は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}と、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}とを基にして、損失値Ｄ３を算出する。たとえば、損失値Ｄ３は、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}から予測されるサブバンド信号と、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}との誤差を示す値となる。

【0053】

損失計算部３１は、確率分布にカテゴリカル分布を使う場合はクロスエントロピーを利用して損失値Ｄ３を算出する。損失計算部３１は、確率分布にガウス分布、ベータ分布、混合ロジスティック分布を使う場合には、負の対数尤度を利用して、損失値Ｄ３を算出する。

【0054】

損失計算部３１は、損失値Ｄ３を、モデル学習部３２に出力する。

【0055】

モデル学習部３２は、損失値Ｄ３、第１中間表現モデル１０の勾配情報、第２中間表現モデル１１の勾配情報、確率分布生成モデル１２の勾配情報を取得し、損失値Ｄ３が小さくなるように、第１中間表現モデル１０のパラメータ、第２中間表現モデル１１のパラメータ、確率分布生成モデル１２のパラメータを機械学習する。たとえば、モデル学習部３２は、誤差逆伝播アルゴリズムを利用して、機械学習を実行する。

【0056】

学習部１５１に含まれる各処理部は、学習用音声波形データ１４１に含まれる複数の音声波形Ｄ１について、上記処理を繰り返し実行することで、学習済みの第１中間表現モデル１０、第２中間表現モデル１１、確率分布生成モデル１２を得る。

【0057】

次に、図１に示した生成部１５２について具体的に説明する。図４は、本実施例１に係る生成部を説明するための図である。図４に示すように、生成部１５２は、第１中間表現モデル１０、複数の第２中間表現モデル１１－ｎ（ｎ＝１～Ｔ／Ｂ－１）、複数の確率分布生成モデル１２－ｔ－ｂ（ｔ＝１、・・・、Ｔ／Ｂ、ｂ＝１、・・・、Ｂ）、サンプリング部２１－ｔ－ｂ、音声波形変換部４０を有する。ここでは、音声の系列長をＴ、サブバンド信号のチャンネル数をＢ、サブバンド信号のサンプル数をＮ（＝２）とする。

【0058】

図３の場合と同様にして、第２中間表現モデル１１－１～１１－ｎを区別しない場合、まとめて、第２中間表現モデル１１と表記する。確率分布生成モデル１２－ｔ－ｂを区別しない場合、まとめて、確率分布生成モデル１２と表記する。

【0059】

第１中間表現モデル１０、第２中間表現モデル１１、確率分布生成モデル１２は、学習部１５１によって学習済みとする。

【0060】

生成部１５２は、音響特徴量Ｄ１０を、第１中間表現モデル１０に入力する。第１中間表現モデル１０は、音響特徴量Ｄ１０が入力された場合に、音響特徴量の中間表現ｍを出力する。第１中間表現モデル１０は、中間表現ｍを、第２中間表現モデル１１－１～１１－ｎに出力する。

【0061】

第２中間表現モデル１１は、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを、確率分布生成モデル１２に出力する。第２中間表現モデル１１に関する説明は、図３で行った、各第２中間表現モデル１１－１～１１－ｎに関する説明と同様である。

【0062】

確率分布生成モデル１２は、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_ｔ、_ｂを、各サンプリング部２１－ｔ－ｂに出力する。確率分布生成モデル１２に関する説明は、図３で行った、各確率分布生成モデル１２－ｔ－ｂに関する説明と同様である。

【0063】

サンプリング部２１－ｔ－ｂは、確率分布ｙ_ｔ、_ｂが入力された場合に、サブバンド信号ｓ_ｔ、ｂを算出する。各サンプリング部２１－ｔ－ｂは、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を、音声波形変換部４０に出力する。

【0064】

音声波形変換部４０は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を基にして、音声波形ｚ_{ｔ＝１～Ｔ}を算出する。音声波形変換部４０は、直交ミラーフィルタや、疑似直交ミラーフィルタの逆変換によって、サブバンド信号を音声波形に変換する。

【0065】

次に、本実施例１に係る生成装置１００の処理手順の一例について説明する。図５は、本実施例１に係る生成装置の学習時の処理手順を示すフローチャートである。図５に示すように、生成装置１００の学習部１５１は、学習用音声波形データ１４１から、音声波形を取得する（ステップＳ１０１）。

【0066】

学習部１５１の音響特徴量計算部２０は、音声波形から音響特徴量を計算する（ステップＳ１０２）。学習部１５１は、音響特徴量を第１中間表現モデル１０に入力し、音響特徴量の中間表現ｍを算出する（ステップＳ１０３）。

【0067】

学習部１５１は、音響特徴量の中間表現ｍを第２中間表現モデル１１に入力し、サブバンド信号の中間表現ｘ_ｔを算出する（ステップＳ１０４）。学習部１５１は、確率分布生成モデル１２を用いて確率分布ｙ_ｔ、ｂを算出し、確率分布ｙ_ｔ、ｂを基にサブバンド信号ｓ_ｔ、ｂを算出する（ステップＳ１０５）。

【0068】

一方、学習部１５１のサブバンド信号計算部３０は、音声波形を基にして、サブバンド信号を計算する（ステップＳ１０６）。

【0069】

学習部１５１の損失計算部３１は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}と、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}とを基にして、損失値を計算する（ステップＳ１０７）。

【0070】

学習部１５１のモデル学習部３２は、誤差逆伝播に基づいて、第１中間表現モデル１０、第２中間表現モデル１１、確率分布生成モデル１２のパラメータを学習する（ステップＳ１０８）。

【0071】

学習部１５１は、学習を継続する場合には（ステップＳ１０９，Ｙｅｓ）、ステップＳ１０１に移行する。一方、学習部１５１は、学習を継続しない場合には（ステップＳ１０９，Ｎｏ）、処理を終了する。

【0072】

図６は、本実施例１に係る生成装置の生成時の処理手順を示すフローチャートである。図６に示すように、生成装置１００の生成部１５２は、音響特徴量を取得する（ステップＳ２０１）。生成部１５２は、音響特徴量を第１中間表現モデル１０に入力し、音響特徴量の中間表現ｍを算出する（ステップＳ２０２）。

【0073】

生成部１５２は、音響特徴量の中間表現ｍを第２中間表現モデル１１に入力し、サブバンド信号の中間表現ｘ_ｔを算出する（ステップＳ２０３）。生成部１５２は、確率分布生成モデル１２を用いて確率分布ｙ_ｔ、ｂを算出し、確率分布ｙ_ｔ、ｂを基にサブバンド信号ｓ_ｔ、ｂを算出する（ステップＳ２０４）。

【0074】

生成部１５２の音声波形変換部４０は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を基にして、音声波形ｚ_{ｔ＝１～Ｔ}を算出する（ステップＳ２０５）。生成部１５２は、音声波形ｚ_{ｔ＝１～Ｔ}を出力する（ステップＳ２０６）。

【0075】

生成部１５２は、処理を継続する場合には（ステップＳ２０７，Ｙｅｓ）、ステップＳ２０１に移行する。生成部１５２は、処理を継続しない場合には（ステップＳ２０７，Ｎｏ）、処理を終了する。

【0076】

次に、本実施例１に係る生成装置１００の効果について説明する。生成装置１００は、Ｂ個のサブバンド信号を１度の順伝搬で同時にＮサンプル分生成することで、音響特徴量から音声波形を生成する処理を最大Ｂ×Ｎ倍に高速化することができる。

【0077】

たとえば、確率分布生成モデル１２－１－１～１２－１－Ｂとサンプリング部２１－１－１～２１－１－Ｂとの組、及び、確率分布生成モデル１２－２－１～１２－２－Ｂとサンプリング部２１－２－１～２１－２－Ｂとの組によって、１つの中間表現ｘ_{ｔ＝－１，０}から、Ｂ×Ｎ（Ｎ＝２）個に相当するサブバンド信号（ｓ_{ｔ＝１、ｂ＝１～Ｂ}、ｓ_{ｔ＝２、ｂ＝１～Ｂ}）が生成される。

【0078】

また、音響特徴量から音声波形を生成する処理を高速化することで、ニューラルボコーダーの順伝播の回数を削減でき、学習および推論速度が向上する。また、ニューラルボコーダーを搭載可能なデバイスの範囲を広げることや、高サンプリング周波数でのリアルタイム動作に有効である。

【実施例2】

【0079】

まず、本実施例２に係る生成装置の構成例について説明する。図７は、本実施例２に係る生成装置の構成を示す機能ブロック図である。図７に示すように、この生成装置２００は、通信制御部２１０と、入力部２２０と、出力部２３０と、記憶部２４０と、制御部２５０とを有する。

【0080】

通信制御部２１０、入力部２２０、出力部２３０に関する説明は、実施例１で説明した通信制御部１１０、入力部１２０、出力部１３０に関する説明と同様である。

【0081】

記憶部２４０は、学習用音声波形データ１４１と、第１中間表現モデル１０と、第２中間表現モデル１１と、同時確率分布生成モデル１３とを有する。記憶部２４０は、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0082】

学習用音声波形データ１４１、第１中間表現モデル１０、第２中間表現モデル１１は、実施例１で説明した学習用音声波形データ１４１、第１中間表現モデル１０、第２中間表現モデル１１に関する説明と同様である。

【0083】

同時確率分布生成モデル１３は、チャンネルｂ＝１～Ｂのサブバンド信号を同時に推定するモデルである。同時確率分布生成モデル１３より得た同時確率から各サブバンド信号に該当する次元を確率分布とする。

【0084】

ここで、実施例１で説明したＮサンプルを同時生成する確率分布生成モデル１２から出力される確率分布ｙ_{ｔ＝τ、ｂ}は、式（１）のように示される。

【0085】

【数1】

【0086】

本実施例２の同時確率分布生成モデル１３は、チャンネルｂ＝１～Ｂのサブバンド信号を同時に推定するため、同時確率分布生成モデル１３から出力される確率分布ｙ_{ｔ＝τ、ｂ＝１～Ｂ}は、式（２）のように示される。これにより、サブバンド間の関係性を考慮した確率分布を推定することができる。

【0087】

【数2】

【0088】

図７において、制御部２５０は、学習部２５１と、生成部２５２とを有する。制御部２５０は、ＣＰＵ等に対応する。

【0089】

学習部２５１は、学習用音声波形データ１４１を用いて、第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１３の学習を実行する。

【0090】

生成部２５２は、学習済みの第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１３を用いて、音響特徴量から音声波形を生成する。生成部２５２は、音響特徴量の情報を、入力部２２０から取得してもよいし、通信制御部２１０を介して、外部装置から取得してもよい。

【0091】

次に、図７に示した学習部２５１について具体的に説明する。図８は、本実施例２に係る学習部を説明するための図である。図８に示すように、学習部２５１は、音響特徴量計算部２０、第１中間表現モデル１０、複数の第２中間表現モデル１１－ｎ（ｎ＝１～Ｔ／Ｂ－１）、複数の同時確率分布生成モデル１３－ｔ（ｔ＝１、・・・、Ｔ／Ｂ）、サンプリング部２１－ｔ－ｂ、サブバンド信号計算部３０、損失計算部３１、モデル学習部３２を有する。ここでは、音声の系列長をＴ、サブバンド信号のチャンネル数をＢ、サブバンド信号のサンプル数をＮ（＝２）とする。

【0092】

学習部２５１は、学習用音声波形データ１４１に格納された音声波形Ｄ１を音響特徴量計算部２０に入力する。音響特徴量計算部２０は、音声波形Ｄ１を基にして、音響特徴量Ｄ２を算出する。音響特徴量計算部２０は、音響特徴量Ｄ２を、第１中間表現モデル１０に入力する。

【0093】

【0094】

各第２中間表現モデル１１－１～１１－ｎは、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを出力する。たとえば、第２中間表現モデル１１－１は、中間表現ｘ_{ｔ＝－１，０}を算出し、同時確率分布生成モデル１３－１，１３－２に出力する。なお、第２中間表現モデル１１－２～１１－ｎは、サブバンド信号の中間表現ｘ_ｔを計算する場合に、前の時刻のサブバンド信号ｓ_ｔ、ｂを更に用いる。

【0095】

第２中間表現モデル１１－２は、中間表現ｘ_{ｔ＝１，２}を算出し、同時確率分布生成モデル１２－３，１２－４に出力する。第２中間表現モデル１１－３は、中間表現ｘ_{ｔ＝３，４}を算出し、同時確率分布生成モデル１２－５，１２－６（図示略）に出力する。

【0096】

以下の説明では、第２中間表現モデル１１－１～１１－ｎを区別しない場合、まとめて、第２中間表現モデル１１と表記する。

【0097】

各同時確率分布生成モデル１３－ｔは、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_ｔ、_{ｂ＝１～Ｂ}を出力する。たとえば、同時確率分布生成モデル１３－１は、確率分布ｙ_ｔ＝１、_{ｂ＝１～Ｂ}を、サンプリング部２１－１－１～２１－１－Ｂに出力する。

【0098】

同時確率分布生成モデル１３－１が、チャンネル毎の確率分布を、それぞれ、サンプリング部２１－１－１～２１－１－Ｂに出力してもよいし、サンプリング部２１－１－１～２１－１－Ｂ側が、同時確率分布から、該当する確率分布をサンプリングして取得してもよい。たとえば、多変量分布を使えば、同時確率分布から該当する確率分布をサンプリングすることが可能である。以下に説明する他の同時確率分布生成モデルについても同様である。

【0099】

同時確率分布生成モデル１３－２は、確率分布ｙ_ｔ＝２、_{ｂ＝１～Ｂ}を、サンプリング部２１－２－１～２１－２－Ｂに出力する。

【0100】

同時確率分布生成モデル１３－３は、確率分布ｙ_ｔ＝３、_{ｂ＝１～Ｂ}を、サンプリング部２１－３－１～２１－３－Ｂに出力する。

【0101】

同時確率分布生成モデル１３－４は、確率分布ｙ_ｔ＝４、_{ｂ＝１～Ｂ}を、サンプリング部２１－４－１～２１－４－Ｂに出力する。

【0102】

その他の同時確率分布生成モデルの説明を省略するが、それぞれ、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_ｔ、_{ｂ＝１～Ｂ}を、配下のサンプリング部に出力する。以下の説明では、各同時確率分布生成モデル１３－ｔを区別しない場合、まとめて、同時確率分布生成モデル１３と表記する。同時確率分布生成モデル１３は、勾配情報を、モデル学習部３２に出力する。同時確率分布生成モデル１３は、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を、損失計算部３１に出力する。

【0103】

各サンプリング部２１－ｔ－ｂは、確率分布ｙ_ｔ、_ｂが入力された場合に、サブバンド信号ｓ_ｔ、ｂを算出する。なお、学習部２５１は、各同時確率分布生成モデル１３が、直接サブバンド信号を予測する場合には、各サンプリング部２１－ｔ－ｂを用いなくてもよい。

【0104】

各サンプリング部２１－ｔ－ｂの関するその他の説明は、実施例１で説明した各サンプリング部２１－ｔ－ｂに関する説明と同様である。

【0105】

サブバンド信号計算部３０は、音声波形Ｄ１から、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を計算する。サブバンド信号計算部３０は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を、損失計算部３１に出力する。サブバンド信号計算部３０に関するその他の説明は、実施例１と同様である。

【0106】

損失計算部３１は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}と、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}とを基にして、損失値Ｄ３を算出する。損失計算部３１は、損失値Ｄ３を、モデル学習部３２に出力する。損失計算部３１に関するその他の説明は、実施例１と同様である。

【0107】

モデル学習部３２は、損失値Ｄ３、第１中間表現モデル１０の勾配情報、第２中間表現モデル１１の勾配情報、同時確率分布生成モデル１３の勾配情報を取得し、損失値Ｄ３が小さくなるように、第１中間表現モデル１０のパラメータ、第２中間表現モデル１１のパラメータ、同時確率分布生成モデル１３のパラメータを機械学習する。たとえば、モデル学習部３２は、誤差逆伝播アルゴリズムを利用して、機械学習を実行する。

【0108】

学習部２５１に含まれる各処理部は、学習用音声波形データ１４１に含まれる複数の音声波形Ｄ１について、上記処理を繰り返し実行することで、学習済みの第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１３を得る。

【0109】

次に、図７に示した生成部２５２について具体的に説明する。図９は、本実施例２に係る生成部を説明するための図である。図９に示すように、生成部２５２は、第１中間表現モデル１０、複数の第２中間表現モデル１１－ｎ（ｎ＝１～Ｔ／Ｂ－１）、複数の同時確率分布生成モデル１３－ｔ（ｔ＝１、・・・、Ｔ／Ｂ）、サンプリング部２１－ｔ－ｂ、音声波形変換部４０を有する。ここでは、音声の系列長をＴ、サブバンド信号のチャンネル数をＢ、サブバンド信号のサンプル数をＮ（＝２）とする。

【0110】

図８の場合と同様にして、第２中間表現モデル１１－１～１１－ｎを区別しない場合、まとめて、第２中間表現モデル１１と表記する。同時確率分布生成モデル１３－ｔを区別しない場合、まとめて、同時確率分布生成モデル１３と表記する。

【0111】

第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１３は、学習部２５１によって学習済みとする。

【0112】

生成部２５２は、音響特徴量Ｄ１０を、第１中間表現モデル１０に入力する。第１中間表現モデル１０は、音響特徴量Ｄ１０が入力された場合に、音響特徴量の中間表現ｍを出力する。第１中間表現モデル１０は、中間表現ｍを、第２中間表現モデル１１－１～１１－ｎに出力する。

【0113】

第２中間表現モデル１１は、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを、同時確率分布生成モデル１３に出力する。第２中間表現モデル１１に関する説明は、図８で行った、各第２中間表現モデル１１－１～１１－ｎに関する説明と同様である。

【0114】

同時確率分布生成モデル１３は、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_ｔ、_{ｂ＝１～Ｂ}を、各サンプリング部２１－ｔ－ｂに出力する。同時確率分布生成モデル１３に関する説明は、図８で行った、各同時確率分布生成モデル１２－ｔに関する説明と同様である。

【0115】

【0116】

【0117】

次に、本実施例２に係る生成装置２００の処理手順の一例について説明する。図１０は、本実施例２に係る生成装置の学習時の処理手順を示すフローチャートである。図１０に示すように、生成装置２００の学習部２５１は、学習用音声波形データ１４１から、音声波形を取得する（ステップＳ３０１）。

【0118】

学習部２５１の音響特徴量計算部２０は、音声波形から音響特徴量を計算する（ステップＳ３０２）。学習部２５１は、音響特徴量を第１中間表現モデル１０に入力し、音響特徴量の中間表現ｍを算出する（ステップＳ３０３）。

【0119】

学習部２５１は、音響特徴量の中間表現ｍを第２中間表現モデル１１に入力し、サブバンド信号の中間表現ｘ_ｔを算出する（ステップＳ３０４）。学習部２５１は、同時確率分布生成モデル１３を用いて確率分布ｙ_ｔ、ｂを算出し、確率分布ｙ_ｔ、ｂを基にサブバンド信号ｓ_ｔ、ｂを算出する（ステップＳ３０５）。

【0120】

一方、学習部２５１のサブバンド信号計算部３０は、音声波形を基にして、サブバンド信号を計算する（ステップＳ３０６）。

【0121】

学習部２５１の損失計算部３１は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}と、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}とを基にして、損失値を計算する（ステップＳ３０７）。

【0122】

学習部２５１のモデル学習部３２は、誤差逆伝播に基づいて、第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１３のパラメータを学習する（ステップＳ３０８）。

【0123】

学習部２５１は、学習を継続する場合には（ステップＳ３０９，Ｙｅｓ）、ステップＳ３０１に移行する。一方、学習部２５１は、学習を継続しない場合には（ステップＳ３０９，Ｎｏ）、処理を終了する。

【0124】

図１１は、本実施例２に係る生成装置の生成時の処理手順を示すフローチャートである。図１１に示すように、生成装置２００の生成部２５２は、音響特徴量を取得する（ステップＳ４０１）。生成部２５２は、音響特徴量を第１中間表現モデル１０に入力し、音響特徴量の中間表現ｍを算出する（ステップＳ４０２）。

【0125】

生成部２５２は、音響特徴量の中間表現ｍを第２中間表現モデル１１に入力し、サブバンド信号の中間表現ｘ_ｔを算出する（ステップＳ４０３）。生成部２５２は、同時確率分布生成モデル１３を用いて確率分布ｙ_ｔ、ｂを算出し、確率分布ｙ_ｔ、ｂを基にサブバンド信号ｓ_ｔ、ｂを算出する（ステップＳ４０４）。

【0126】

生成部２５２の音声波形変換部４０は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を基にして、音声波形ｚ_{ｔ＝１～Ｔ}を算出する（ステップＳ４０５）。生成部２５２は、音声波形ｚ_{ｔ＝１～Ｔ}を出力する（ステップＳ４０６）。

【0127】

生成部２５２は、処理を継続する場合には（ステップＳ４０７，Ｙｅｓ）、ステップＳ４０１に移行する。生成部２５２は、処理を継続しない場合には（ステップＳ４０７，Ｎｏ）、処理を終了する。

【0128】

次に、本実施例２に係る生成装置２００の効果について説明する。生成装置２００は、Ｂ個のサブバンド信号を１度の順伝搬で同時にＮサンプル分生成することで、音響特徴量から音声波形を生成する処理を最大Ｂ×Ｎ倍に高速化することができる。また、生成装置２００は、同時確率分布生成モデル１３を利用することで、サブバンド間の関係性を考慮した確率分布を推定することができる。確率分布計算を複数バンド分同時に実行するため、行列演算命令をコールする回数を実施例１と比較して、１／Ｂにすることができ、処理面でも効率化を図ることができる。

【実施例3】

【0129】

まず、本実施例３に係る生成装置の構成例について説明する。図１２は、本実施例３に係る生成装置の構成を示す機能ブロック図である。図１２に示すように、この生成装置３００は、通信制御部３１０と、入力部３２０と、出力部３３０と、記憶部３４０と、制御部３５０とを有する。

【0130】

通信制御部３１０、入力部３２０、出力部３３０に関する説明は、実施例１で説明した通信制御部１１０、入力部１２０、出力部１３０に関する説明と同様である。

【0131】

記憶部３４０は、学習用音声波形データ１４１と、第１中間表現モデル１０と、第２中間表現モデル１１と、同時確率分布生成モデル１４とを有する。記憶部３４０は、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0132】

【0133】

同時確率分布生成モデル１４は、各時刻ｔ＝τ，τ＋１のチャンネルｂ＝１～Ｂのサブバンド信号を同時に推定するモデルである。同時確率分布生成モデル１４より得た同時確率から各サブバンド信号および各時刻に該当する次元を確率分布とする。

【0134】

ここで、実施例２で説明したＮサンプルを同時生成する同時確率分布１３モデルから出力される確率分布は、ぞれぞれ、式（３）のように示される。たとえば、Ｎ＝２の場合には、同時確率分布生成モデル１３－１，１３－２を用いて、各時刻ｔ＝τ，τ＋１のチャンネルｂ＝１～Ｂのサブバンド信号を推定している。

【0135】

【数3】

【0136】

一方、本実施例３の同時確率分布生成モデル１４は、各時刻、及び、チャンネルｂ＝１～Ｂのサブバンド信号を同時に推定するため、同時確率分布生成モデル１４から出力される確率分布は、式（４）のように示される。これにより、複数のサブバンド間の関係性を考慮した確率分布を推定することができる。

【0137】

【数4】

【0138】

図１２において、制御部３５０は、学習部３５１と、生成部３５２とを有する。制御部３５０は、ＣＰＵ等に対応する。

【0139】

学習部３５１は、学習用音声波形データ１４１を用いて、第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１４の学習を実行する。

【0140】

生成部３５２は、学習済みの第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１４を用いて、音響特徴量から音声波形を生成する。生成部３５２は、音響特徴量の情報を、入力部３２０から取得してもよいし、通信制御部３１０を介して、外部装置から取得してもよい。

【0141】

次に、図１２に示した学習部３５１について具体的に説明する。図１３は、本実施例３に係る学習部を説明するための図である。図１３に示すように、学習部３５１は、音響特徴量計算部２０、第１中間表現モデル１０、複数の第２中間表現モデル１１－ｎ（ｎ＝１～Ｔ／Ｂ－１）、複数の同時確率分布生成モデル１４－ｔ（ｔ＝１、・・・、Ｔ／２Ｂ）、サンプリング部２１－ｔ－ｂ、サブバンド信号計算部３０、損失計算部３１、モデル学習部３２を有する。ここでは、音声の系列長をＴ、サブバンド信号のチャンネル数をＢ、サブバンド信号のサンプル数をＮ（＝２）とする。

【0142】

学習部３５１は、学習用音声波形データ１４１に格納された音声波形Ｄ１を音響特徴量計算部２０に入力する。音響特徴量計算部２０は、音声波形Ｄ１を基にして、音響特徴量Ｄ２を算出する。音響特徴量計算部２０は、音響特徴量Ｄ２を、第１中間表現モデル１０に入力する。

【0143】

【0144】

各第２中間表現モデル１１－１～１１－ｎは、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを出力する。たとえば、第２中間表現モデル１１－１は、中間表現ｘ_{ｔ＝－１，０}を算出し、同時確率分布生成モデル１４－１に出力する。なお、第２中間表現モデル１１－２～１１－ｎは、サブバンド信号の中間表現ｘ_ｔを計算する場合に、前の時刻のサブバンド信号ｓ_ｔ、ｂを更に用いる。

【0145】

第２中間表現モデル１１－２は、中間表現ｘ_{ｔ＝１，２}を算出し、同時確率分布生成モデル１４－２に出力する。第２中間表現モデル１１－３は、中間表現ｘ_{ｔ＝３，４}を算出し、同時確率分布生成モデル１４－３（図示略）に出力する。

【0146】

以下の説明では、第２中間表現モデル１１－１～１１－ｎを区別しない場合、まとめて、第２中間表現モデル１１と表記する。

【0147】

各同時確率分布生成モデル１４－ｔは、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_{ｔ＝ｔ、ｔ＋１}、_{ｂ＝１～Ｂ}を出力する。たとえば、同時確率分布生成モデル１４－１は、確率分布ｙ_ｔ＝１、_{ｂ＝１～Ｂ}を、サンプリング部２１－１－１～２１－１－Ｂに出力し、確率分布ｙ_ｔ＝２、_{ｂ＝１～Ｂ}を、サンプリング部２１－２－１～２１－２－Ｂに出力する。

【0148】

同時確率分布生成モデル１４－１が、時刻毎、チャンネル毎の確率分布を、それぞれ、サンプリング部２１－１－１～２１－１－Ｂ，２１－２－１～２１－２－Ｂに出力してもよいし、サンプリング部２１－１－１～２１－１－Ｂ，２１－２－１～２１－２－Ｂ側が、同時確率分布から、該当する確率分布をサンプリングして取得してもよい。たとえば、多変量分布を使えば、同時確率分布から該当する確率分布をサンプリングすることが可能である。以下に説明する他の同時確率分布生成モデルについても同様である。

【0149】

同時確率分布生成モデル１４－２は、確率分布ｙ_ｔ＝３、_{ｂ＝１～Ｂ}を、サンプリング部２１－３－１～２１－３－Ｂに出力し、確率分布ｙ_ｔ＝４、_{ｂ＝１～Ｂ}を、サンプリング部２１－４－１～２１－４－Ｂに出力する。

【0150】

その他の同時確率分布生成モデルの説明を省略するが、それぞれ、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_{ｔ、ｔ＋１}、_{ｂ＝１～Ｂ}を、配下のサンプリング部に出力する。以下の説明では、各同時確率分布生成モデル１４を区別しない場合、まとめて、同時確率分布生成モデル１４と表記する。同時確率分布生成モデル１４は、勾配情報を、モデル学習部３２に出力する。同時確率分布生成モデル１４は、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を、損失計算部３１に出力する。

【0151】

各サンプリング部２１－ｔ－ｂは、確率分布ｙ_ｔ、_ｂが入力された場合に、サブバンド信号ｓ_ｔ、ｂを算出する。なお、学習部３５１は、各同時確率分布生成モデル１４が、直接サブバンド信号を予測する場合には、各サンプリング部２１－ｔ－ｂを用いなくてもよい。

【0152】

各サンプリング部２１－ｔ－ｂの関するその他の説明は、実施例１で説明した各サンプリング部２１－ｔ－ｂに関する説明と同様である。

【0153】

【0154】

【0155】

モデル学習部３２は、損失値Ｄ３、第１中間表現モデル１０の勾配情報、第２中間表現モデル１１の勾配情報、同時確率分布生成モデル１４の勾配情報を取得し、損失値Ｄ３が小さくなるように、第１中間表現モデル１０のパラメータ、第２中間表現モデル１１のパラメータ、同時確率分布生成モデル１４のパラメータを機械学習する。たとえば、モデル学習部３２は、誤差逆伝播アルゴリズムを利用して、機械学習を実行する。

【0156】

学習部３５１に含まれる各処理部は、学習用音声波形データ１４１に含まれる複数の音声波形Ｄ１について、上記処理を繰り返し実行することで、学習済みの第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１４を得る。

【0157】

次に、図１２に示した生成部３５２について具体的に説明する。図１４は、本実施例３に係る生成部を説明するための図である。図１４に示すように、生成部３５２は、第１中間表現モデル１０、複数の第２中間表現モデル１１－ｎ（ｎ＝１～Ｔ／Ｂ－１）、複数の同時確率分布生成モデル１４－ｔ（ｔ＝１、・・・、Ｔ／２Ｂ）、サンプリング部２１－ｔ－ｂ、音声波形変換部４０を有する。ここでは、音声の系列長をＴ、サブバンド信号のチャンネル数をＢ、サブバンド信号のサンプル数をＮ（＝２）とする。

【0158】

図１３の場合と同様にして、第２中間表現モデル１１－１～１１－ｎを区別しない場合、まとめて、第２中間表現モデル１１と表記する。同時確率分布生成モデル１４－ｔを区別しない場合、まとめて、同時確率分布生成モデル１４と表記する。

【0159】

第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１４は、学習部３５１によって学習済みとする。

【0160】

生成部３５２は、音響特徴量Ｄ１０を、第１中間表現モデル１０に入力する。第１中間表現モデル１０は、音響特徴量Ｄ１０が入力された場合に、音響特徴量の中間表現ｍを出力する。第１中間表現モデル１０は、中間表現ｍを、第２中間表現モデル１１－１～１１－ｎに出力する。

【0161】

第２中間表現モデル１１は、中間表現ｍが入力された場合に、サブバンド信号の中間表現ｘ_ｔを、同時確率分布生成モデル１４に出力する。第２中間表現モデル１１に関する説明は、図１３で行った、各第２中間表現モデル１１－１～１１－ｎに関する説明と同様である。

【0162】

同時確率分布生成モデル１４は、中間表現ｘ_ｔが入力された場合に、確率分布ｙ_{ｔ、ｔ＋１}、_{ｂ＝１～Ｂ}を、各サンプリング部２１－ｔ－ｂに出力する。同時確率分布生成モデル１４に関する説明は、図１３で行った、各同時確率分布生成モデル１２－ｔに関する説明と同様である。

【0163】

【0164】

【0165】

次に、本実施例３に係る生成装置３００の処理手順の一例について説明する。図１５は、本実施例３に係る生成装置の学習時の処理手順を示すフローチャートである。図１５に示すように、生成装置３００の学習部３５１は、学習用音声波形データ１４１から、音声波形を取得する（ステップＳ５０１）。

【0166】

学習部３５１の音響特徴量計算部２０は、音声波形から音響特徴量を計算する（ステップＳ５０２）。学習部３５１は、音響特徴量を第１中間表現モデル１０に入力し、音響特徴量の中間表現ｍを算出する（ステップＳ５０３）。

【0167】

学習部３５１は、音響特徴量の中間表現ｍを第２中間表現モデル１１に入力し、サブバンド信号の中間表現ｘ_ｔを算出する（ステップＳ５０４）。学習部３５１は、同時確率分布生成モデル１４を用いて確率分布ｙ_{ｔ、ｔ＋１、ｂ}を算出し、確率分布ｙ_{ｔ、ｔ＋１、ｂ}を基にサブバンド信号ｓ_ｔ、ｂを算出する（ステップＳ５０５）。

【0168】

一方、学習部３５１のサブバンド信号計算部３０は、音声波形を基にして、サブバンド信号を計算する（ステップＳ５０６）。

【0169】

学習部３５１の損失計算部３１は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}と、確率分布ｙ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}とを基にして、損失値を計算する（ステップＳ５０７）。

【0170】

学習部３５１のモデル学習部３２は、誤差逆伝播に基づいて、第１中間表現モデル１０、第２中間表現モデル１１、同時確率分布生成モデル１４のパラメータを学習する（ステップＳ５０８）。

【0171】

学習部３５１は、学習を継続する場合には（ステップＳ５０９，Ｙｅｓ）、ステップＳ５０１に移行する。一方、学習部３５１は、学習を継続しない場合には（ステップＳ５０９，Ｎｏ）、処理を終了する。

【0172】

図１６は、本実施例３に係る生成装置の生成時の処理手順を示すフローチャートである。図１６に示すように、生成装置３００の生成部３５２は、音響特徴量を取得する（ステップＳ６０１）。生成部３５２は、音響特徴量を第１中間表現モデル１０に入力し、音響特徴量の中間表現ｍを算出する（ステップＳ６０２）。

【0173】

生成部３５２は、音響特徴量の中間表現ｍを第２中間表現モデル１１に入力し、サブバンド信号の中間表現ｘ_ｔを算出する（ステップＳ６０３）。生成部３５２は、同時確率分布生成モデル１５を用いて確率分布ｙ_{ｔ、ｔ＋１、ｂ}を算出し、確率分布ｙ_{ｔ、ｔ＋１、ｂ}を基にサブバンド信号ｓ_ｔ、ｂを算出する（ステップＳ６０４）。

【0174】

生成部３５２の音声波形変換部４０は、サブバンド信号ｓ_{ｔ＝１～Ｔ／Ｂ、ｂ＝１～Ｂ}を基にして、音声波形ｚ_{ｔ＝１～Ｔ}を算出する（ステップＳ６０５）。生成部３５２は、音声波形ｚ_{ｔ＝１～Ｔ}を出力する（ステップＳ６０６）。

【0175】

生成部３５２は、処理を継続する場合には（ステップＳ６０７，Ｙｅｓ）、ステップＳ６０１に移行する。生成部３５２は、処理を継続しない場合には（ステップＳ６０７，Ｎｏ）、処理を終了する。

【0176】

次に、本実施例３に係る生成装置３００の効果について説明する。生成装置３００は、各時刻に関するＢ個のサブバンド信号を１度の順伝搬で同時にＮサンプル分生成する。これによって、音声特徴量から音声波形を生成する処理を高速化できるとともに、行列演算命令をコールする回数を実施例１と比較して、最小で１／（Ｂ×Ｎ）回にすることができ、処理面でも有効である。

【0177】

続いて、生成プログラムを実行するコンピュータの一例について説明する。図１７は、生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、たとえば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

【0178】

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、たとえば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、たとえば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、たとえば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、たとえば、ディスプレイ１０６１が接続される。

【0179】

ここで、ハードディスクドライブ１０３１は、たとえば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、たとえばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

【0180】

また、生成プログラムは、たとえば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した生成装置１００（２００，３００）が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

【0181】

また、生成プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、たとえば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

【0182】

なお、生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、たとえば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【0183】

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

【符号の説明】

【0184】

１００，２００，３００生成装置
１１０，２１０，３１０通信制御部
１２０，２２０，３２０入力部
１３０，２３０，３３０出力部
１４０，２４０，３４０記憶部
１５０，２５０，３５０制御部
１５１，２５１，３５１学習部
１５２，２５２，３５２生成部

【図1】