(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】生成方法、生成プログラム及び生成装置
(51)【国際特許分類】
G10L 13/06 20130101AFI20241210BHJP
G10L 25/30 20130101ALI20241210BHJP
【FI】
G10L13/06 140
G10L25/30
(21)【出願番号】P 2023532858
(86)(22)【出願日】2021-07-05
(86)【国際出願番号】 JP2021025237
(87)【国際公開番号】W WO2023281555
(87)【国際公開日】2023-01-12
【審査請求日】2023-11-01
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】金川 裕紀
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2021-32937(JP,A)
【文献】特開2019-45856(JP,A)
【文献】特開2018-141917(JP,A)
【文献】特開2018-141915(JP,A)
【文献】特開2021-67885(JP,A)
【文献】国際公開第2020/145472(WO,A1)
【文献】岡本拓磨他,サブバンドWaveNetボコーダによる全可聴帯域音声合成の検討,日本音響学会2018年春季研究発表会講演論文集[CD-ROM],2018年03月,pp.251-254
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成工程と、
前記サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する前記複数の確率分布生成モデルに、前記中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成するサブバンド信号生成工程と、
前記複数のサブバンド信号を基にして、音声波形を生成する音声波形生成工程と
を含んだことを特徴とする生成方法。
【請求項2】
前記音響特徴量を入力した場合に、前記音響特徴量の中間表現情報を出力する第1中間表現モデルを用いて、前記音声波形の音響特徴量を、前記音響特徴量の中間表現情報に変換する変換工程を更に含んだことを特徴とする請求項1に記載の生成方法。
【請求項3】
前記中間表現生成工程は、前記音響特徴量の中間表現情報を入力した場合に、前記サブバンド信号の中間表現情報を出力する第2中間表現モデルを用いて、前記サブバンド信号の中間表現情報を生成することを特徴とする請求項2に記載の生成方法。
【請求項4】
音声波形から算出される複数のサブバンド信号と、前記サブバンド信号生成工程によって生成される複数のサブバンド信号とを基にして、損失値を計算し、前記損失値を基にして、前記第1中間表現モデル、前記第2中間表現モデル、前記複数の確率分布生成モデルのうち少なくとも1つのモデルの学習を実行する学習工程を更に有することを特徴とする請求項3に記載の生成方法。
【請求項5】
前記サブバンド信号生成工程は、1つのモデルから複数の時間帯、および、複数の帯域に対応するサブバンド信号の情報を同時に出力する同時確率分布生成モデルを用いて、前記複数のサブバンド信号を同時に生成することを特徴とする請求項1に記載の生成方法。
【請求項6】
音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成ステップと、
前記サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する前記複数の確率分布生成モデルに、前記中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成するサブバンド信号生成ステップと、
前記複数のサブバンド信号を基にして、音声波形を生成する音声波形生成ステップと
をコンピュータに実行させるための生成プログラム。
【請求項7】
音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成し、前記サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する前記複数の確率分布生成モデルに、前記中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成する生成部と、
前記複数のサブバンド信号を基にして、音声波形を生成する音声波形生成部と
を備えることを特徴とする生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生成方法、生成プログラム及び生成装置に関する。
【背景技術】
【0002】
音声合成において、スペクトルや声の高さを表すピッチ等の音響特徴量から音声波形に変換するモジュールはボコーダーと呼ばれる。ボコーダーの実装方法は大きく二種類がある。一つは信号処理による方法であり、STRAIGHTやWORLDといった手法が有名である(たとえば、非特許文献1,2参照)。これらの方法は数理モデルにより音響特徴量から音声波形への変換を表現するため、学習が不要かつ処理速度が高速であるが、分析再合成された音声を自然音声と比較すると品質が劣る。
【0003】
もう一つは、WaveNetに代表されるニューラルネットによる手法(ニューラルボコーダー)が提案されている(たとえば、特許文献1参照)。こちらは自然音声と比較しても遜色ない品質の音声を合成可能な一方、計算量が多いため信号処理のボコーダーよりも動作が低速である。通常、1つの音声サンプルの予測のためにニューラルネットを1回順伝搬しなくてはならないため、そのまま実装したのではリアルタイム動作は困難である。
【0004】
ニューラルボコーダーの計算量を減らし、特にCPUにおいてリアルタイム動作させるためには主に二つのアプローチが採られる。一つはニューラルネットの順伝搬1回あたりの計算コストを削減するもので、WaveNetで用いられる巨大な畳み込みニューラルネット(CNN: Convolutional Neural Network)を小規模な再帰型ニューラルネット(RNN:Recurrent Neural Network)で置き換えたWaveRNN(たとえば、特許文献2)や、音声波形の生成過程に信号処理の知見である線形予測分析(LPC)を活用したLPCNet等(たとえば、非特許文献3)がある。
【0005】
もう一つは順伝搬の回数そのものを減らす方法であり、予測対象を音声波形でなく、サブバンド信号と呼ばれる疑似直交ミラーフィルター(Pseudo-QMF)を用いて帯域分割した短い系列に変更することで順伝搬の回数を減らせることが開示されている(たとえば、非特許文献4)。
【先行技術文献】
【特許文献】
【0006】
【文献】国際公開第2018/048934号
【文献】国際公開第2019/155054号
【非特許文献】
【0007】
【文献】Hideki Kawahara, Ikuyo Masuda-Katsuse and Alain de Cheveigne, “Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds,” Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999.
【文献】Masanori Morise, Fumiya Yokomori, Kenji Ozawa, “WORLD: a Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications,” IEICE transactions on information and systems, vol. E99-D, no. 7, pp. 1877-1884, 2016.
【文献】Jean-Marc Valin and Jan Skoglund, “LPCNET: IMPROVING NEURAL SPEECH SYNTHESIS THROUGH LINEAR PREDICTION,” Proc. ICASSP, 2019, pp. 5891-5895
【文献】Chengzhu Yu, Heng Lu, Na Hu, Meng Yu, Chao Weng, Kun Xu, Peng Liu, Deyi Tuo, Shiyin Kang, Guangzhi Lei, Dan Su, Dong Yu, “DurIAN: Duration Informed Attention Network for Speech Synthesis”, Proc. INTERSPEECH 2020, pp. 2027-2031, 2020
【発明の概要】
【発明が解決しようとする課題】
【0008】
非特許文献4では引用文献2を改良し、1サンプル分の音声波形の代わりに1サンプル分のサブバンド信号を使い、次の時刻のサブバンド信号を予測する。この場合にB個のチャネルでサブバンド表現すると系列長を1/Bに短縮でき、純伝搬回数を1/Bに削減可能である。しかしRNN等の自己回帰構造に基づき、過去のサンプルに基づき1サンプルずつ生成しているため、最大B倍速以上の高速化ができない。
【0009】
本発明は、上記に鑑みてなされたものであって、音響特徴量から高速に音声波形を生成することができる生成方法、生成プログラム及び生成装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
上述した課題を解決し、目的を達成するために、コンピュータは、音声波形の音響特徴量を基にして、サブバンド信号の中間表現情報を生成する中間表現生成工程と、サブバンド信号のチャンネル数と、同時生成するサンプル数との数に応じた複数の確率分布生成モデルであって、それぞれに割り当てられた時刻および帯域に対応するサブバンド信号の情報を出力する複数の確率分布生成モデルに、中間表現情報を入力することで、異なる複数の時刻および異なる複数の帯域に応じた複数のサブバンド信号を同時に生成するサブバンド信号生成工程と、複数のサブバンド信号を基にして、音声波形を生成する音声波形生成工程とを含む。
【発明の効果】
【0011】
本発明によれば、音響特徴量から高速に音声波形を生成することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、本実施例1に係る生成装置の構成を示す機能ブロック図である。
【
図2】
図2は、サブバンド信号の一例を示す図である。
【
図3】
図3は、本実施例1に係る学習部を説明するための図である。
【
図4】
図4は、本実施例1に係る生成部を説明するための図である。
【
図5】
図5は、本実施例1に係る生成装置の学習時の処理手順を示すフローチャートである。
【
図6】
図6は、本実施例1に係る生成装置の生成時の処理手順を示すフローチャートである。
【
図7】
図7は、本実施例2に係る生成装置の構成を示す機能ブロック図である。
【
図8】
図8は、本実施例2に係る学習部を説明するための図である。
【
図9】
図9は、本実施例2に係る生成部を説明するための図である。
【
図10】
図10は、本実施例2に係る生成装置の学習時の処理手順を示すフローチャートである。
【
図11】
図11は、本実施例2に係る生成装置の生成時の処理手順を示すフローチャートである。
【
図12】
図12は、本実施例3に係る生成装置の構成を示す機能ブロック図である。
【
図13】
図13は、本実施例3に係る学習部を説明するための図である。
【
図14】
図14は、本実施例3に係る生成部を説明するための図である。
【
図15】
図15は、本実施例3に係る生成装置の学習時の処理手順を示すフローチャートである。
【
図16】
図16は、本実施例3に係る生成装置の生成時の処理手順を示すフローチャートである。
【
図17】
図17は、生成プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0013】
以下に、本願の開示する生成方法、生成プログラム及び生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例1】
【0014】
まず、本実施例1に係る生成装置の構成例について説明する。
図1は、本実施例1に係る生成装置の構成を示す機能ブロック図である。
図1に示すように、この生成装置100は、通信制御部110と、入力部120と、出力部130と、記憶部140と、制御部150とを有する。
【0015】
通信制御部110は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部150との通信を制御する。
【0016】
入力部120は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部150に対して処理開始などの各種指示情報を入力する。
【0017】
出力部130は、制御部150から取得した情報を出力する出力デバイスであり、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。
【0018】
記憶部140は、学習用音声波形データ141と、第1中間表現モデル10と、第2中間表現モデル11と、確率分布生成モデル12とを有する。記憶部140は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0019】
学習用音声波形データ141には、学習用の複数の音声波形のデータが含まれる。学習用音声波形データ141は、第1中間表現モデル10、第2中間表現モデル11、確率分布生成モデル12を学習する場合に利用される。
【0020】
第1中間表現モデル10は、音声波形から計算される音響特徴量が入力された場合に、音響特徴量の中間表現mを出力するモデルである。第1中間表現モデル10は、たとえば、NN(Neural Network)、CNN、RNN、WaveRNN等に対応する。以下の説明では、音響特徴量の中間表現mを、適宜、「中間表現m」と表記する。
【0021】
音響特徴量は、音声波形のスペクトログラム、メルケプストラム等のスペクトル情報、基本周波数、ピッチ周波数等の韻律情報に対応する。
【0022】
音響特徴量の中間表現は、音響特徴量の系列長を音声サンプル数と同じになるように伸長した情報である。係る中間表現mを生成する第1中間表現モデル10の実現方法として、1フレームに対応する音響特徴量のベクトルをサンプル数だけ並べて伸長する方法がある。また、第1中間表現モデル10をWaveRNNで実現する場合、前後フレームの連続性を考慮するため、一次元CNNや二次元CNNを用いて特徴量変換しながら伸長する方法を採用する。
【0023】
第2中間表現モデル11は、中間表現mが入力された場合に、サブバンド信号の中間表現xtを出力するモデルである。後述するように、第2中間表現モデル11は、複数存在する。以下の説明では、サブバンド信号の中間表現xtを、適宜、「中間表現xt」と表記する。中間表現xtのtは時刻インデックスである。たとえば、xt=-1、0は、時刻t=-1、t=0の情報を含んだベクトルであることを意味する。ここで、中間表現xt=-1,0は、中間表現xtの初期値に相当する情報である。
【0024】
図2は、サブバンド信号の一例を示す図である。
図2の縦軸はAmplitude Responseに対応し、横軸はNormalized Frequencyに対応する。
図2では、音声信号(フルバンド信号)にフィルターをかけることで、4つのサブバンド信号sub1、sub2、sub3、sub4を生成した場合を示している。サブバンド信号sub1は、低域のサブバンド信号である。サブバンド信号sub2は、低域~中域のサブバンド信号である。サブバンド信号sub3は、中域~高域のサブバンド信号である。サブバンド信号sub4は、高域のサブバンド信号である。
【0025】
確率分布生成モデル12は、中間表現xtが入力された場合に、サブバンド信号の確率分布yt、bを出力するモデルである。後述するように、確率分布生成モデル12は、複数存在する。確率分布yt、bのtは時刻インデックスであり、bはサブバンド信号のチャンネルのインデックスである。確率分布yt、bは、音声波形サンプル値の生成確率である。音声波形がμ-law信号等の離散値で表現されている場合には、確率分布yt、bとして、カテゴリカル分布を用いることができる。音声波形が連続値で表現されている場合には、確率分布yt、bとして、ガウス分布、ベータ分布、混合ロジスティック分布を用いることができる。
【0026】
図1において、制御部150は、学習部151と、生成部152とを有する。制御部150は、CPU(Central Processing Unit)等に対応する。
【0027】
学習部151は、学習用音声波形データ141を用いて、第1中間表現モデル10、第2中間表現モデル11、確率分布生成モデル12の学習を実行する。
【0028】
生成部152は、学習済みの第1中間表現モデル10、第2中間表現モデル11、確率分布生成モデル12を用いて、音響特徴量から音声波形を生成する。生成部152は、音響特徴量の情報を、入力部120から取得してもよいし、通信制御部110を介して、外部装置から取得してもよい。
【0029】
次に、
図1に示した学習部151について具体的に説明する。
図3は、本実施例1に係る学習部を説明するための図である。
図3に示すように、学習部151は、音響特徴量計算部20、第1中間表現モデル10、複数の第2中間表現モデル11-n(n=1~T/B-1)、複数の確率分布生成モデル12-t-b(t=1、・・・、T/B、b=1、・・・、B)、サンプリング部21-t-b、サブバンド信号計算部30、損失計算部31、モデル学習部32を有する。ここでは、音声の系列長をT、サブバンド信号のチャンネル数をB、サブバンド信号のサンプル数をN(=2)とする。
【0030】
学習部151は、学習用音声波形データ141に格納された音声波形D1を音響特徴量計算部20に入力する。音響特徴量計算部20は、音声波形D1を基にして、音響特徴量D2を算出する。音響特徴量計算部20は、音響特徴量D2を、第1中間表現モデル10に入力する。
【0031】
第1中間表現モデル10は、音響特徴量D2が入力された場合に、音響特徴量の中間表現mを出力する。第1中間表現モデル10は、中間表現mを、第2中間表現モデル11-1~11-nに出力する。第1中間表現モデル10は、勾配情報を、モデル学習部32に出力する。
【0032】
各第2中間表現モデル11-1~11-nは、中間表現mが入力された場合に、サブバンド信号の中間表現xtを出力する。たとえば、第2中間表現モデル11-1は、中間表現xt=-1,0を算出し、確率分布生成モデル12-1-1~12-2-Bに出力する。なお、第2中間表現モデル11-2~11-nは、サブバンド信号の中間表現xtを計算する場合に、前の時刻のサブバンド信号st、bを更に用いる。サブバンド信号st、bのtは時刻インデックスであり、bはサブバンド信号のチャンネルのインデックスである。
【0033】
第2中間表現モデル11-2は、中間表現xt=1,2を算出し、確率分布生成モデル12-3-1~12-4-Bに出力する。第2中間表現モデル11-3は、中間表現xt=3,4を算出し、確率分布生成モデル12-5-1~12-6-B(図示略)に出力する。
【0034】
以下の説明では、第2中間表現モデル11-1~11-nを区別しない場合、まとめて、第2中間表現モデル11と表記する。第2中間表現モデル11は、勾配情報を、モデル学習部32に出力する。
【0035】
各確率分布生成モデル12-t-bは、中間表現xtが入力された場合に、確率分布yt、bを出力する。たとえば、確率分布生成モデル12-1-1は、確率分布yt=1、b=1を、サンプリング部21-1-1に出力する。図示を省略するが、確率分布生成モデル12-1-2~12-1-(B-1)は、確率分布yt、bを配下のサンプリング部21-1-2~21-1-(B-1)に出力する。確率分布生成モデル12-1-Bは、確率分布yt=1、b=Bを、サンプリング部21-1-Bに出力する。
【0036】
確率分布生成モデル12-2-1は、確率分布yt=2、b=1を、サンプリング部21-2-1に出力する。図示を省略するが、確率分布生成モデル12-2-2~12-2-(B-1)は、確率分布yt、bを配下のサンプリング部21-2-2~21-2-(B-1)に出力する。確率分布生成モデル12-2-Bは、確率分布yt=2、b=Bを、サンプリング部21-2-Bに出力する。
【0037】
確率分布生成モデル12-3-1は、確率分布yt=3、b=1を、サンプリング部21-3-1に出力する。図示を省略するが、確率分布生成モデル12-3-2~12-3-(B-1)は、確率分布yt、bを配下のサンプリング部21-3-2~21-3-(B-1)に出力する。確率分布生成モデル12-3-Bは、確率分布yt=3、b=Bを、サンプリング部21-3-Bに出力する。
【0038】
確率分布生成モデル12-4-1は、確率分布yt=4、b=1を、サンプリング部21-4-1に出力する。図示を省略するが、確率分布生成モデル12-4-2~12-4-(B-1)は、確率分布yt、bを配下のサンプリング部21-4-2~21-4-(B-1)に出力する。確率分布生成モデル12-4-Bは、確率分布yt=3、b=Bを、サンプリング部21-4-Bに出力する。
【0039】
その他の確率分布生成モデルの説明を省略するが、それぞれ、中間表現xtが入力された場合に、確率分布yt、bを、配下のサンプリング部に出力する。以下の説明では、各確率分布生成モデル12-t-bを区別しない場合、まとめて、確率分布生成モデル12と表記する。確率分布生成モデル12は、勾配情報を、モデル学習部32に出力する。確率分布生成モデル12は、確率分布yt=1~T/B、b=1~Bを、損失計算部31に出力する。
【0040】
各サンプリング部21-t-bは、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。なお、学習部151は、各確率分布生成モデル12-t-bが、直接サブバンド信号を予測する場合には、各サンプリング部21-t-bを用いなくてもよい。
【0041】
サンプリング部21-1-1は、サブバンド信号st=1、b=1を算出する。図示を省略するが、サンプリング部21-1-2~21-1-(B-1)は、該当するサブバンド信号st、bを算出する。サンプリング部21-1-Bは、サブバンド信号st=1、b=Bを算出する。
【0042】
サンプリング部21-2-1は、サブバンド信号st=2、b=1を算出する。図示を省略するが、サンプリング部21-2-2~21-2-(B-1)は、該当するサブバンド信号st、bを算出する。サンプリング部21-2-Bは、サブバンド信号st=2、b=Bを算出する。
【0043】
上記のように、サンプリング部21-1-1~21-1-Bによって、サブバンド信号st=1、b=1~Bが算出される。サンプリング部21-2-1~21-2-Bによって、サブバンド信号st=2、b=1~Bが算出される。サブバンド信号st=1、b=1~B、サブバンド信号st=2、b=1~Bは、第2中間表現モデル11-2に入力される。
【0044】
すなわち、確率分布生成モデル12-1-1~12-1-Bとサンプリング部21-1-1~21-1-Bとの組、及び、確率分布生成モデル12-2-1~12-2-Bとサンプリング部21-2-1~21-2-Bとの組によって、1つの中間表現xt=-1,0から、B×N(N=2)個に相当するサブバンド信号(st=1、b=1~B、st=2、b=1~B)が生成される。
【0045】
サンプリング部21-3-1は、サブバンド信号st=3、b=1を算出する。図示を省略するが、サンプリング部21-3-2~21-3-(B-1)は、該当するサブバンド信号st、bを算出する。サンプリング部21-3-Bは、サブバンド信号st=3、b=Bを算出する。
【0046】
サンプリング部21-4-1は、サブバンド信号st=4、b=1を算出する。図示を省略するが、サンプリング部21-4-2~21-4-(B-1)は、該当するサブバンド信号st、bを算出する。サンプリング部21-4-Bは、サブバンド信号st=4、b=Bを算出する。
【0047】
上記のように、サンプリング部21-3-1~21-3-Bによって、サブバンド信号st=3、b=1~Bが算出される。サンプリング部21-4-1~21-4-Bによって、サブバンド信号st=4、b=1~Bが算出される。サブバンド信号st=3、b=1~B、サブバンド信号st=4、b=1~Bは、第2中間表現モデル11-3に入力される。
【0048】
すなわち、確率分布生成モデル12-3-1~12-3-Bとサンプリング部21-3-1~21-3-Bとの組、及び、確率分布生成モデル12-4-1~12-4-Bとサンプリング部21-4-1~21-4-Bとの組によって、1つの中間表現xt=1,2から、B×N(N=2)個に相当するサブバンド信号(st=3、b=1~B、st=4、b=1~B)が生成される。
【0049】
その他のサンプリング部の説明を省略するが、それぞれ、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。各サンプリング部21-t-bから、サブバンド信号st=1~T/B、b=1~Bが出力される。
【0050】
続いて、サブバンド信号計算部30の説明に移行する。サブバンド信号計算部30は、音声波形D1から、サブバンド信号st=1~T/B、b=1~Bを計算する。サブバンド信号計算部30として、直交ミラーフィルタ(QMF:Quadrature Mirror Filter)や、疑似直交ミラーフィルタ(PQMF:Pseudo-Quadrature Mirror Filters)を用いることができる。直交ミラーフィルタまたは疑似直交ミラーフィルタを用いることで、入力された音声波形D1の系列長を1/Bに短縮したサブバンド信号に変換する。
【0051】
サブバンド信号計算部30は、サブバンド信号st=1~T/B、b=1~Bを、損失計算部31に出力する。
【0052】
損失計算部31は、サブバンド信号st=1~T/B、b=1~Bと、確率分布yt=1~T/B、b=1~Bとを基にして、損失値D3を算出する。たとえば、損失値D3は、確率分布yt=1~T/B、b=1~Bから予測されるサブバンド信号と、サブバンド信号st=1~T/B、b=1~Bとの誤差を示す値となる。
【0053】
損失計算部31は、確率分布にカテゴリカル分布を使う場合はクロスエントロピーを利用して損失値D3を算出する。損失計算部31は、確率分布にガウス分布、ベータ分布、混合ロジスティック分布を使う場合には、負の対数尤度を利用して、損失値D3を算出する。
【0054】
損失計算部31は、損失値D3を、モデル学習部32に出力する。
【0055】
モデル学習部32は、損失値D3、第1中間表現モデル10の勾配情報、第2中間表現モデル11の勾配情報、確率分布生成モデル12の勾配情報を取得し、損失値D3が小さくなるように、第1中間表現モデル10のパラメータ、第2中間表現モデル11のパラメータ、確率分布生成モデル12のパラメータを機械学習する。たとえば、モデル学習部32は、誤差逆伝播アルゴリズムを利用して、機械学習を実行する。
【0056】
学習部151に含まれる各処理部は、学習用音声波形データ141に含まれる複数の音声波形D1について、上記処理を繰り返し実行することで、学習済みの第1中間表現モデル10、第2中間表現モデル11、確率分布生成モデル12を得る。
【0057】
次に、
図1に示した生成部152について具体的に説明する。
図4は、本実施例1に係る生成部を説明するための図である。
図4に示すように、生成部152は、第1中間表現モデル10、複数の第2中間表現モデル11-n(n=1~T/B-1)、複数の確率分布生成モデル12-t-b(t=1、・・・、T/B、b=1、・・・、B)、サンプリング部21-t-b、音声波形変換部40を有する。ここでは、音声の系列長をT、サブバンド信号のチャンネル数をB、サブバンド信号のサンプル数をN(=2)とする。
【0058】
図3の場合と同様にして、第2中間表現モデル11-1~11-nを区別しない場合、まとめて、第2中間表現モデル11と表記する。確率分布生成モデル12-t-bを区別しない場合、まとめて、確率分布生成モデル12と表記する。
【0059】
第1中間表現モデル10、第2中間表現モデル11、確率分布生成モデル12は、学習部151によって学習済みとする。
【0060】
生成部152は、音響特徴量D10を、第1中間表現モデル10に入力する。第1中間表現モデル10は、音響特徴量D10が入力された場合に、音響特徴量の中間表現mを出力する。第1中間表現モデル10は、中間表現mを、第2中間表現モデル11-1~11-nに出力する。
【0061】
第2中間表現モデル11は、中間表現mが入力された場合に、サブバンド信号の中間表現x
tを、確率分布生成モデル12に出力する。第2中間表現モデル11に関する説明は、
図3で行った、各第2中間表現モデル11-1~11-nに関する説明と同様である。
【0062】
確率分布生成モデル12は、中間表現x
tが入力された場合に、確率分布y
t、
bを、各サンプリング部21-t-bに出力する。確率分布生成モデル12に関する説明は、
図3で行った、各確率分布生成モデル12-t-bに関する説明と同様である。
【0063】
サンプリング部21-t-bは、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。各サンプリング部21-t-bは、サブバンド信号st=1~T/B、b=1~Bを、音声波形変換部40に出力する。
【0064】
音声波形変換部40は、サブバンド信号st=1~T/B、b=1~Bを基にして、音声波形zt=1~Tを算出する。音声波形変換部40は、直交ミラーフィルタや、疑似直交ミラーフィルタの逆変換によって、サブバンド信号を音声波形に変換する。
【0065】
次に、本実施例1に係る生成装置100の処理手順の一例について説明する。
図5は、本実施例1に係る生成装置の学習時の処理手順を示すフローチャートである。
図5に示すように、生成装置100の学習部151は、学習用音声波形データ141から、音声波形を取得する(ステップS101)。
【0066】
学習部151の音響特徴量計算部20は、音声波形から音響特徴量を計算する(ステップS102)。学習部151は、音響特徴量を第1中間表現モデル10に入力し、音響特徴量の中間表現mを算出する(ステップS103)。
【0067】
学習部151は、音響特徴量の中間表現mを第2中間表現モデル11に入力し、サブバンド信号の中間表現xtを算出する(ステップS104)。学習部151は、確率分布生成モデル12を用いて確率分布yt、bを算出し、確率分布yt、bを基にサブバンド信号st、bを算出する(ステップS105)。
【0068】
一方、学習部151のサブバンド信号計算部30は、音声波形を基にして、サブバンド信号を計算する(ステップS106)。
【0069】
学習部151の損失計算部31は、サブバンド信号st=1~T/B、b=1~Bと、確率分布yt=1~T/B、b=1~Bとを基にして、損失値を計算する(ステップS107)。
【0070】
学習部151のモデル学習部32は、誤差逆伝播に基づいて、第1中間表現モデル10、第2中間表現モデル11、確率分布生成モデル12のパラメータを学習する(ステップS108)。
【0071】
学習部151は、学習を継続する場合には(ステップS109,Yes)、ステップS101に移行する。一方、学習部151は、学習を継続しない場合には(ステップS109,No)、処理を終了する。
【0072】
図6は、本実施例1に係る生成装置の生成時の処理手順を示すフローチャートである。
図6に示すように、生成装置100の生成部152は、音響特徴量を取得する(ステップS201)。生成部152は、音響特徴量を第1中間表現モデル10に入力し、音響特徴量の中間表現mを算出する(ステップS202)。
【0073】
生成部152は、音響特徴量の中間表現mを第2中間表現モデル11に入力し、サブバンド信号の中間表現xtを算出する(ステップS203)。生成部152は、確率分布生成モデル12を用いて確率分布yt、bを算出し、確率分布yt、bを基にサブバンド信号st、bを算出する(ステップS204)。
【0074】
生成部152の音声波形変換部40は、サブバンド信号st=1~T/B、b=1~Bを基にして、音声波形zt=1~Tを算出する(ステップS205)。生成部152は、音声波形zt=1~Tを出力する(ステップS206)。
【0075】
生成部152は、処理を継続する場合には(ステップS207,Yes)、ステップS201に移行する。生成部152は、処理を継続しない場合には(ステップS207,No)、処理を終了する。
【0076】
次に、本実施例1に係る生成装置100の効果について説明する。生成装置100は、B個のサブバンド信号を1度の順伝搬で同時にNサンプル分生成することで、音響特徴量から音声波形を生成する処理を最大B×N倍に高速化することができる。
【0077】
たとえば、確率分布生成モデル12-1-1~12-1-Bとサンプリング部21-1-1~21-1-Bとの組、及び、確率分布生成モデル12-2-1~12-2-Bとサンプリング部21-2-1~21-2-Bとの組によって、1つの中間表現xt=-1,0から、B×N(N=2)個に相当するサブバンド信号(st=1、b=1~B、st=2、b=1~B)が生成される。
【0078】
また、音響特徴量から音声波形を生成する処理を高速化することで、ニューラルボコーダーの順伝播の回数を削減でき、学習および推論速度が向上する。また、ニューラルボコーダーを搭載可能なデバイスの範囲を広げることや、高サンプリング周波数でのリアルタイム動作に有効である。
【実施例2】
【0079】
まず、本実施例2に係る生成装置の構成例について説明する。
図7は、本実施例2に係る生成装置の構成を示す機能ブロック図である。
図7に示すように、この生成装置200は、通信制御部210と、入力部220と、出力部230と、記憶部240と、制御部250とを有する。
【0080】
通信制御部210、入力部220、出力部230に関する説明は、実施例1で説明した通信制御部110、入力部120、出力部130に関する説明と同様である。
【0081】
記憶部240は、学習用音声波形データ141と、第1中間表現モデル10と、第2中間表現モデル11と、同時確率分布生成モデル13とを有する。記憶部240は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0082】
学習用音声波形データ141、第1中間表現モデル10、第2中間表現モデル11は、実施例1で説明した学習用音声波形データ141、第1中間表現モデル10、第2中間表現モデル11に関する説明と同様である。
【0083】
同時確率分布生成モデル13は、チャンネルb=1~Bのサブバンド信号を同時に推定するモデルである。同時確率分布生成モデル13より得た同時確率から各サブバンド信号に該当する次元を確率分布とする。
【0084】
ここで、実施例1で説明したNサンプルを同時生成する確率分布生成モデル12から出力される確率分布yt=τ、bは、式(1)のように示される。
【0085】
【0086】
本実施例2の同時確率分布生成モデル13は、チャンネルb=1~Bのサブバンド信号を同時に推定するため、同時確率分布生成モデル13から出力される確率分布yt=τ、b=1~Bは、式(2)のように示される。これにより、サブバンド間の関係性を考慮した確率分布を推定することができる。
【0087】
【0088】
図7において、制御部250は、学習部251と、生成部252とを有する。制御部250は、CPU等に対応する。
【0089】
学習部251は、学習用音声波形データ141を用いて、第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル13の学習を実行する。
【0090】
生成部252は、学習済みの第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル13を用いて、音響特徴量から音声波形を生成する。生成部252は、音響特徴量の情報を、入力部220から取得してもよいし、通信制御部210を介して、外部装置から取得してもよい。
【0091】
次に、
図7に示した学習部251について具体的に説明する。
図8は、本実施例2に係る学習部を説明するための図である。
図8に示すように、学習部251は、音響特徴量計算部20、第1中間表現モデル10、複数の第2中間表現モデル11-n(n=1~T/B-1)、複数の同時確率分布生成モデル13-t(t=1、・・・、T/B)、サンプリング部21-t-b、サブバンド信号計算部30、損失計算部31、モデル学習部32を有する。ここでは、音声の系列長をT、サブバンド信号のチャンネル数をB、サブバンド信号のサンプル数をN(=2)とする。
【0092】
学習部251は、学習用音声波形データ141に格納された音声波形D1を音響特徴量計算部20に入力する。音響特徴量計算部20は、音声波形D1を基にして、音響特徴量D2を算出する。音響特徴量計算部20は、音響特徴量D2を、第1中間表現モデル10に入力する。
【0093】
第1中間表現モデル10は、音響特徴量D2が入力された場合に、音響特徴量の中間表現mを出力する。第1中間表現モデル10は、中間表現mを、第2中間表現モデル11-1~11-nに出力する。第1中間表現モデル10は、勾配情報を、モデル学習部32に出力する。
【0094】
各第2中間表現モデル11-1~11-nは、中間表現mが入力された場合に、サブバンド信号の中間表現xtを出力する。たとえば、第2中間表現モデル11-1は、中間表現xt=-1,0を算出し、同時確率分布生成モデル13-1,13-2に出力する。なお、第2中間表現モデル11-2~11-nは、サブバンド信号の中間表現xtを計算する場合に、前の時刻のサブバンド信号st、bを更に用いる。
【0095】
第2中間表現モデル11-2は、中間表現xt=1,2を算出し、同時確率分布生成モデル12-3,12-4に出力する。第2中間表現モデル11-3は、中間表現xt=3,4を算出し、同時確率分布生成モデル12-5,12-6(図示略)に出力する。
【0096】
以下の説明では、第2中間表現モデル11-1~11-nを区別しない場合、まとめて、第2中間表現モデル11と表記する。
【0097】
各同時確率分布生成モデル13-tは、中間表現xtが入力された場合に、確率分布yt、b=1~Bを出力する。たとえば、同時確率分布生成モデル13-1は、確率分布yt=1、b=1~Bを、サンプリング部21-1-1~21-1-Bに出力する。
【0098】
同時確率分布生成モデル13-1が、チャンネル毎の確率分布を、それぞれ、サンプリング部21-1-1~21-1-Bに出力してもよいし、サンプリング部21-1-1~21-1-B側が、同時確率分布から、該当する確率分布をサンプリングして取得してもよい。たとえば、多変量分布を使えば、同時確率分布から該当する確率分布をサンプリングすることが可能である。以下に説明する他の同時確率分布生成モデルについても同様である。
【0099】
同時確率分布生成モデル13-2は、確率分布yt=2、b=1~Bを、サンプリング部21-2-1~21-2-Bに出力する。
【0100】
同時確率分布生成モデル13-3は、確率分布yt=3、b=1~Bを、サンプリング部21-3-1~21-3-Bに出力する。
【0101】
同時確率分布生成モデル13-4は、確率分布yt=4、b=1~Bを、サンプリング部21-4-1~21-4-Bに出力する。
【0102】
その他の同時確率分布生成モデルの説明を省略するが、それぞれ、中間表現xtが入力された場合に、確率分布yt、b=1~Bを、配下のサンプリング部に出力する。以下の説明では、各同時確率分布生成モデル13-tを区別しない場合、まとめて、同時確率分布生成モデル13と表記する。同時確率分布生成モデル13は、勾配情報を、モデル学習部32に出力する。同時確率分布生成モデル13は、確率分布yt=1~T/B、b=1~Bを、損失計算部31に出力する。
【0103】
各サンプリング部21-t-bは、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。なお、学習部251は、各同時確率分布生成モデル13が、直接サブバンド信号を予測する場合には、各サンプリング部21-t-bを用いなくてもよい。
【0104】
各サンプリング部21-t-bの関するその他の説明は、実施例1で説明した各サンプリング部21-t-bに関する説明と同様である。
【0105】
サブバンド信号計算部30は、音声波形D1から、サブバンド信号st=1~T/B、b=1~Bを計算する。サブバンド信号計算部30は、サブバンド信号st=1~T/B、b=1~Bを、損失計算部31に出力する。サブバンド信号計算部30に関するその他の説明は、実施例1と同様である。
【0106】
損失計算部31は、サブバンド信号st=1~T/B、b=1~Bと、確率分布yt=1~T/B、b=1~Bとを基にして、損失値D3を算出する。損失計算部31は、損失値D3を、モデル学習部32に出力する。損失計算部31に関するその他の説明は、実施例1と同様である。
【0107】
モデル学習部32は、損失値D3、第1中間表現モデル10の勾配情報、第2中間表現モデル11の勾配情報、同時確率分布生成モデル13の勾配情報を取得し、損失値D3が小さくなるように、第1中間表現モデル10のパラメータ、第2中間表現モデル11のパラメータ、同時確率分布生成モデル13のパラメータを機械学習する。たとえば、モデル学習部32は、誤差逆伝播アルゴリズムを利用して、機械学習を実行する。
【0108】
学習部251に含まれる各処理部は、学習用音声波形データ141に含まれる複数の音声波形D1について、上記処理を繰り返し実行することで、学習済みの第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル13を得る。
【0109】
次に、
図7に示した生成部252について具体的に説明する。
図9は、本実施例2に係る生成部を説明するための図である。
図9に示すように、生成部252は、第1中間表現モデル10、複数の第2中間表現モデル11-n(n=1~T/B-1)、複数の同時確率分布生成モデル13-t(t=1、・・・、T/B)、サンプリング部21-t-b、音声波形変換部40を有する。ここでは、音声の系列長をT、サブバンド信号のチャンネル数をB、サブバンド信号のサンプル数をN(=2)とする。
【0110】
図8の場合と同様にして、第2中間表現モデル11-1~11-nを区別しない場合、まとめて、第2中間表現モデル11と表記する。同時確率分布生成モデル13-tを区別しない場合、まとめて、同時確率分布生成モデル13と表記する。
【0111】
第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル13は、学習部251によって学習済みとする。
【0112】
生成部252は、音響特徴量D10を、第1中間表現モデル10に入力する。第1中間表現モデル10は、音響特徴量D10が入力された場合に、音響特徴量の中間表現mを出力する。第1中間表現モデル10は、中間表現mを、第2中間表現モデル11-1~11-nに出力する。
【0113】
第2中間表現モデル11は、中間表現mが入力された場合に、サブバンド信号の中間表現x
tを、同時確率分布生成モデル13に出力する。第2中間表現モデル11に関する説明は、
図8で行った、各第2中間表現モデル11-1~11-nに関する説明と同様である。
【0114】
同時確率分布生成モデル13は、中間表現x
tが入力された場合に、確率分布y
t、
b=1~Bを、各サンプリング部21-t-bに出力する。同時確率分布生成モデル13に関する説明は、
図8で行った、各同時確率分布生成モデル12-tに関する説明と同様である。
【0115】
サンプリング部21-t-bは、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。各サンプリング部21-t-bは、サブバンド信号st=1~T/B、b=1~Bを、音声波形変換部40に出力する。
【0116】
音声波形変換部40は、サブバンド信号st=1~T/B、b=1~Bを基にして、音声波形zt=1~Tを算出する。音声波形変換部40は、直交ミラーフィルタや、疑似直交ミラーフィルタの逆変換によって、サブバンド信号を音声波形に変換する。
【0117】
次に、本実施例2に係る生成装置200の処理手順の一例について説明する。
図10は、本実施例2に係る生成装置の学習時の処理手順を示すフローチャートである。
図10に示すように、生成装置200の学習部251は、学習用音声波形データ141から、音声波形を取得する(ステップS301)。
【0118】
学習部251の音響特徴量計算部20は、音声波形から音響特徴量を計算する(ステップS302)。学習部251は、音響特徴量を第1中間表現モデル10に入力し、音響特徴量の中間表現mを算出する(ステップS303)。
【0119】
学習部251は、音響特徴量の中間表現mを第2中間表現モデル11に入力し、サブバンド信号の中間表現xtを算出する(ステップS304)。学習部251は、同時確率分布生成モデル13を用いて確率分布yt、bを算出し、確率分布yt、bを基にサブバンド信号st、bを算出する(ステップS305)。
【0120】
一方、学習部251のサブバンド信号計算部30は、音声波形を基にして、サブバンド信号を計算する(ステップS306)。
【0121】
学習部251の損失計算部31は、サブバンド信号st=1~T/B、b=1~Bと、確率分布yt=1~T/B、b=1~Bとを基にして、損失値を計算する(ステップS307)。
【0122】
学習部251のモデル学習部32は、誤差逆伝播に基づいて、第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル13のパラメータを学習する(ステップS308)。
【0123】
学習部251は、学習を継続する場合には(ステップS309,Yes)、ステップS301に移行する。一方、学習部251は、学習を継続しない場合には(ステップS309,No)、処理を終了する。
【0124】
図11は、本実施例2に係る生成装置の生成時の処理手順を示すフローチャートである。
図11に示すように、生成装置200の生成部252は、音響特徴量を取得する(ステップS401)。生成部252は、音響特徴量を第1中間表現モデル10に入力し、音響特徴量の中間表現mを算出する(ステップS402)。
【0125】
生成部252は、音響特徴量の中間表現mを第2中間表現モデル11に入力し、サブバンド信号の中間表現xtを算出する(ステップS403)。生成部252は、同時確率分布生成モデル13を用いて確率分布yt、bを算出し、確率分布yt、bを基にサブバンド信号st、bを算出する(ステップS404)。
【0126】
生成部252の音声波形変換部40は、サブバンド信号st=1~T/B、b=1~Bを基にして、音声波形zt=1~Tを算出する(ステップS405)。生成部252は、音声波形zt=1~Tを出力する(ステップS406)。
【0127】
生成部252は、処理を継続する場合には(ステップS407,Yes)、ステップS401に移行する。生成部252は、処理を継続しない場合には(ステップS407,No)、処理を終了する。
【0128】
次に、本実施例2に係る生成装置200の効果について説明する。生成装置200は、B個のサブバンド信号を1度の順伝搬で同時にNサンプル分生成することで、音響特徴量から音声波形を生成する処理を最大B×N倍に高速化することができる。また、生成装置200は、同時確率分布生成モデル13を利用することで、サブバンド間の関係性を考慮した確率分布を推定することができる。確率分布計算を複数バンド分同時に実行するため、行列演算命令をコールする回数を実施例1と比較して、1/Bにすることができ、処理面でも効率化を図ることができる。
【実施例3】
【0129】
まず、本実施例3に係る生成装置の構成例について説明する。
図12は、本実施例3に係る生成装置の構成を示す機能ブロック図である。
図12に示すように、この生成装置300は、通信制御部310と、入力部320と、出力部330と、記憶部340と、制御部350とを有する。
【0130】
通信制御部310、入力部320、出力部330に関する説明は、実施例1で説明した通信制御部110、入力部120、出力部130に関する説明と同様である。
【0131】
記憶部340は、学習用音声波形データ141と、第1中間表現モデル10と、第2中間表現モデル11と、同時確率分布生成モデル14とを有する。記憶部340は、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0132】
学習用音声波形データ141、第1中間表現モデル10、第2中間表現モデル11は、実施例1で説明した学習用音声波形データ141、第1中間表現モデル10、第2中間表現モデル11に関する説明と同様である。
【0133】
同時確率分布生成モデル14は、各時刻t=τ,τ+1のチャンネルb=1~Bのサブバンド信号を同時に推定するモデルである。同時確率分布生成モデル14より得た同時確率から各サブバンド信号および各時刻に該当する次元を確率分布とする。
【0134】
ここで、実施例2で説明したNサンプルを同時生成する同時確率分布13モデルから出力される確率分布は、ぞれぞれ、式(3)のように示される。たとえば、N=2の場合には、同時確率分布生成モデル13-1,13-2を用いて、各時刻t=τ,τ+1のチャンネルb=1~Bのサブバンド信号を推定している。
【0135】
【0136】
一方、本実施例3の同時確率分布生成モデル14は、各時刻、及び、チャンネルb=1~Bのサブバンド信号を同時に推定するため、同時確率分布生成モデル14から出力される確率分布は、式(4)のように示される。これにより、複数のサブバンド間の関係性を考慮した確率分布を推定することができる。
【0137】
【0138】
図12において、制御部350は、学習部351と、生成部352とを有する。制御部350は、CPU等に対応する。
【0139】
学習部351は、学習用音声波形データ141を用いて、第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル14の学習を実行する。
【0140】
生成部352は、学習済みの第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル14を用いて、音響特徴量から音声波形を生成する。生成部352は、音響特徴量の情報を、入力部320から取得してもよいし、通信制御部310を介して、外部装置から取得してもよい。
【0141】
次に、
図12に示した学習部351について具体的に説明する。
図13は、本実施例3に係る学習部を説明するための図である。
図13に示すように、学習部351は、音響特徴量計算部20、第1中間表現モデル10、複数の第2中間表現モデル11-n(n=1~T/B-1)、複数の同時確率分布生成モデル14-t(t=1、・・・、T/2B)、サンプリング部21-t-b、サブバンド信号計算部30、損失計算部31、モデル学習部32を有する。ここでは、音声の系列長をT、サブバンド信号のチャンネル数をB、サブバンド信号のサンプル数をN(=2)とする。
【0142】
学習部351は、学習用音声波形データ141に格納された音声波形D1を音響特徴量計算部20に入力する。音響特徴量計算部20は、音声波形D1を基にして、音響特徴量D2を算出する。音響特徴量計算部20は、音響特徴量D2を、第1中間表現モデル10に入力する。
【0143】
第1中間表現モデル10は、音響特徴量D2が入力された場合に、音響特徴量の中間表現mを出力する。第1中間表現モデル10は、中間表現mを、第2中間表現モデル11-1~11-nに出力する。第1中間表現モデル10は、勾配情報を、モデル学習部32に出力する。
【0144】
各第2中間表現モデル11-1~11-nは、中間表現mが入力された場合に、サブバンド信号の中間表現xtを出力する。たとえば、第2中間表現モデル11-1は、中間表現xt=-1,0を算出し、同時確率分布生成モデル14-1に出力する。なお、第2中間表現モデル11-2~11-nは、サブバンド信号の中間表現xtを計算する場合に、前の時刻のサブバンド信号st、bを更に用いる。
【0145】
第2中間表現モデル11-2は、中間表現xt=1,2を算出し、同時確率分布生成モデル14-2に出力する。第2中間表現モデル11-3は、中間表現xt=3,4を算出し、同時確率分布生成モデル14-3(図示略)に出力する。
【0146】
以下の説明では、第2中間表現モデル11-1~11-nを区別しない場合、まとめて、第2中間表現モデル11と表記する。
【0147】
各同時確率分布生成モデル14-tは、中間表現xtが入力された場合に、確率分布yt=t、t+1、b=1~Bを出力する。たとえば、同時確率分布生成モデル14-1は、確率分布yt=1、b=1~Bを、サンプリング部21-1-1~21-1-Bに出力し、確率分布yt=2、b=1~Bを、サンプリング部21-2-1~21-2-Bに出力する。
【0148】
同時確率分布生成モデル14-1が、時刻毎、チャンネル毎の確率分布を、それぞれ、サンプリング部21-1-1~21-1-B,21-2-1~21-2-Bに出力してもよいし、サンプリング部21-1-1~21-1-B,21-2-1~21-2-B側が、同時確率分布から、該当する確率分布をサンプリングして取得してもよい。たとえば、多変量分布を使えば、同時確率分布から該当する確率分布をサンプリングすることが可能である。以下に説明する他の同時確率分布生成モデルについても同様である。
【0149】
同時確率分布生成モデル14-2は、確率分布yt=3、b=1~Bを、サンプリング部21-3-1~21-3-Bに出力し、確率分布yt=4、b=1~Bを、サンプリング部21-4-1~21-4-Bに出力する。
【0150】
その他の同時確率分布生成モデルの説明を省略するが、それぞれ、中間表現xtが入力された場合に、確率分布yt、t+1、b=1~Bを、配下のサンプリング部に出力する。以下の説明では、各同時確率分布生成モデル14を区別しない場合、まとめて、同時確率分布生成モデル14と表記する。同時確率分布生成モデル14は、勾配情報を、モデル学習部32に出力する。同時確率分布生成モデル14は、確率分布yt=1~T/B、b=1~Bを、損失計算部31に出力する。
【0151】
各サンプリング部21-t-bは、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。なお、学習部351は、各同時確率分布生成モデル14が、直接サブバンド信号を予測する場合には、各サンプリング部21-t-bを用いなくてもよい。
【0152】
各サンプリング部21-t-bの関するその他の説明は、実施例1で説明した各サンプリング部21-t-bに関する説明と同様である。
【0153】
サブバンド信号計算部30は、音声波形D1から、サブバンド信号st=1~T/B、b=1~Bを計算する。サブバンド信号計算部30は、サブバンド信号st=1~T/B、b=1~Bを、損失計算部31に出力する。サブバンド信号計算部30に関するその他の説明は、実施例1と同様である。
【0154】
損失計算部31は、サブバンド信号st=1~T/B、b=1~Bと、確率分布yt=1~T/B、b=1~Bとを基にして、損失値D3を算出する。損失計算部31は、損失値D3を、モデル学習部32に出力する。損失計算部31に関するその他の説明は、実施例1と同様である。
【0155】
モデル学習部32は、損失値D3、第1中間表現モデル10の勾配情報、第2中間表現モデル11の勾配情報、同時確率分布生成モデル14の勾配情報を取得し、損失値D3が小さくなるように、第1中間表現モデル10のパラメータ、第2中間表現モデル11のパラメータ、同時確率分布生成モデル14のパラメータを機械学習する。たとえば、モデル学習部32は、誤差逆伝播アルゴリズムを利用して、機械学習を実行する。
【0156】
学習部351に含まれる各処理部は、学習用音声波形データ141に含まれる複数の音声波形D1について、上記処理を繰り返し実行することで、学習済みの第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル14を得る。
【0157】
次に、
図12に示した生成部352について具体的に説明する。
図14は、本実施例3に係る生成部を説明するための図である。
図14に示すように、生成部352は、第1中間表現モデル10、複数の第2中間表現モデル11-n(n=1~T/B-1)、複数の同時確率分布生成モデル14-t(t=1、・・・、T/2B)、サンプリング部21-t-b、音声波形変換部40を有する。ここでは、音声の系列長をT、サブバンド信号のチャンネル数をB、サブバンド信号のサンプル数をN(=2)とする。
【0158】
図13の場合と同様にして、第2中間表現モデル11-1~11-nを区別しない場合、まとめて、第2中間表現モデル11と表記する。同時確率分布生成モデル14-tを区別しない場合、まとめて、同時確率分布生成モデル14と表記する。
【0159】
第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル14は、学習部351によって学習済みとする。
【0160】
生成部352は、音響特徴量D10を、第1中間表現モデル10に入力する。第1中間表現モデル10は、音響特徴量D10が入力された場合に、音響特徴量の中間表現mを出力する。第1中間表現モデル10は、中間表現mを、第2中間表現モデル11-1~11-nに出力する。
【0161】
第2中間表現モデル11は、中間表現mが入力された場合に、サブバンド信号の中間表現x
tを、同時確率分布生成モデル14に出力する。第2中間表現モデル11に関する説明は、
図13で行った、各第2中間表現モデル11-1~11-nに関する説明と同様である。
【0162】
同時確率分布生成モデル14は、中間表現x
tが入力された場合に、確率分布y
t、t+1、
b=1~Bを、各サンプリング部21-t-bに出力する。同時確率分布生成モデル14に関する説明は、
図13で行った、各同時確率分布生成モデル12-tに関する説明と同様である。
【0163】
サンプリング部21-t-bは、確率分布yt、bが入力された場合に、サブバンド信号st、bを算出する。各サンプリング部21-t-bは、サブバンド信号st=1~T/B、b=1~Bを、音声波形変換部40に出力する。
【0164】
音声波形変換部40は、サブバンド信号st=1~T/B、b=1~Bを基にして、音声波形zt=1~Tを算出する。音声波形変換部40は、直交ミラーフィルタや、疑似直交ミラーフィルタの逆変換によって、サブバンド信号を音声波形に変換する。
【0165】
次に、本実施例3に係る生成装置300の処理手順の一例について説明する。
図15は、本実施例3に係る生成装置の学習時の処理手順を示すフローチャートである。
図15に示すように、生成装置300の学習部351は、学習用音声波形データ141から、音声波形を取得する(ステップS501)。
【0166】
学習部351の音響特徴量計算部20は、音声波形から音響特徴量を計算する(ステップS502)。学習部351は、音響特徴量を第1中間表現モデル10に入力し、音響特徴量の中間表現mを算出する(ステップS503)。
【0167】
学習部351は、音響特徴量の中間表現mを第2中間表現モデル11に入力し、サブバンド信号の中間表現xtを算出する(ステップS504)。学習部351は、同時確率分布生成モデル14を用いて確率分布yt、t+1、bを算出し、確率分布yt、t+1、bを基にサブバンド信号st、bを算出する(ステップS505)。
【0168】
一方、学習部351のサブバンド信号計算部30は、音声波形を基にして、サブバンド信号を計算する(ステップS506)。
【0169】
学習部351の損失計算部31は、サブバンド信号st=1~T/B、b=1~Bと、確率分布yt=1~T/B、b=1~Bとを基にして、損失値を計算する(ステップS507)。
【0170】
学習部351のモデル学習部32は、誤差逆伝播に基づいて、第1中間表現モデル10、第2中間表現モデル11、同時確率分布生成モデル14のパラメータを学習する(ステップS508)。
【0171】
学習部351は、学習を継続する場合には(ステップS509,Yes)、ステップS501に移行する。一方、学習部351は、学習を継続しない場合には(ステップS509,No)、処理を終了する。
【0172】
図16は、本実施例3に係る生成装置の生成時の処理手順を示すフローチャートである。
図16に示すように、生成装置300の生成部352は、音響特徴量を取得する(ステップS601)。生成部352は、音響特徴量を第1中間表現モデル10に入力し、音響特徴量の中間表現mを算出する(ステップS602)。
【0173】
生成部352は、音響特徴量の中間表現mを第2中間表現モデル11に入力し、サブバンド信号の中間表現xtを算出する(ステップS603)。生成部352は、同時確率分布生成モデル15を用いて確率分布yt、t+1、bを算出し、確率分布yt、t+1、bを基にサブバンド信号st、bを算出する(ステップS604)。
【0174】
生成部352の音声波形変換部40は、サブバンド信号st=1~T/B、b=1~Bを基にして、音声波形zt=1~Tを算出する(ステップS605)。生成部352は、音声波形zt=1~Tを出力する(ステップS606)。
【0175】
生成部352は、処理を継続する場合には(ステップS607,Yes)、ステップS601に移行する。生成部352は、処理を継続しない場合には(ステップS607,No)、処理を終了する。
【0176】
次に、本実施例3に係る生成装置300の効果について説明する。生成装置300は、各時刻に関するB個のサブバンド信号を1度の順伝搬で同時にNサンプル分生成する。これによって、音声特徴量から音声波形を生成する処理を高速化できるとともに、行列演算命令をコールする回数を実施例1と比較して、最小で1/(B×N)回にすることができ、処理面でも有効である。
【0177】
続いて、生成プログラムを実行するコンピュータの一例について説明する。
図17は、生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、たとえば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
【0178】
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、たとえば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、たとえば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、たとえば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、たとえば、ディスプレイ1061が接続される。
【0179】
ここで、ハードディスクドライブ1031は、たとえば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、たとえばハードディスクドライブ1031やメモリ1010に記憶される。
【0180】
また、生成プログラムは、たとえば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した生成装置100(200,300)が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
【0181】
また、生成プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、たとえば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
【0182】
なお、生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、たとえば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0183】
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0184】
100,200,300 生成装置
110,210,310 通信制御部
120,220,320 入力部
130,230,330 出力部
140,240,340 記憶部
150,250,350 制御部
151,251,351 学習部
152,252,352 生成部