特許第6472005号(P6472005)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 奈良先端科学技術大学院大学の特許一覧

特許6472005基本周波数パターン予測装置、方法、及びプログラム
<>
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000076
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000077
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000078
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000079
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000080
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000081
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000082
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000083
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000084
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000085
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000086
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000087
  • 特許6472005-基本周波数パターン予測装置、方法、及びプログラム 図000088
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6472005
(24)【登録日】2019年2月1日
(45)【発行日】2019年2月20日
(54)【発明の名称】基本周波数パターン予測装置、方法、及びプログラム
(51)【国際特許分類】
   G10L 25/90 20130101AFI20190207BHJP
   G10L 13/10 20130101ALI20190207BHJP
【FI】
   G10L25/90
   G10L13/10 111C
   G10L13/10 113Z
【請求項の数】8
【全頁数】38
(21)【出願番号】特願2016-32413(P2016-32413)
(22)【出願日】2016年2月23日
(65)【公開番号】特開2017-151225(P2017-151225A)
(43)【公開日】2017年8月31日
【審査請求日】2017年12月8日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504143441
【氏名又は名称】国立大学法人 奈良先端科学技術大学院大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】田中 宏
(72)【発明者】
【氏名】戸田 智基
(72)【発明者】
【氏名】中村 哲
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2015−041081(JP,A)
【文献】 国際公開第2010/137385(WO,A1)
【文献】 特開2013−171196(JP,A)
【文献】 特開2015−041004(JP,A)
【文献】 特開2014−134730(JP,A)
【文献】 橋本浩弥、外3名,基本周波数パターン生成過程モデルを用いた声質変換の高精度化に関する検討,日本音響学会講演論文集,一般社団法人日本音響学会,2011年 3月,pp.413−416
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/90
G10L 13/00−13/10
(57)【特許請求の範囲】
【請求項1】
学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように学習する学習部と、
予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記学習部によって学習された前記第1確率分布のパラメータと前記第2確率分布のパラメータとに基づいて、前記規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する変換処理部と、
を含む基本周波数パターン予測装置。
【請求項2】
前記第1確率分布を、前記ソース音声の各時刻のスペクトル特徴量ベクトルと前記ターゲット音声の各時刻の基本周波数と前記基本周波数の動的成分との同時確率分布を表す混合正規分布とし、
前記第2確率分布を、
各時刻の基本周波数と、
隠れマルコフモデルの各時刻の状態からなる状態系列、又は各時刻における甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令のペアからなる指令関数との組み合わせの確率分布とした請求項1記載の基本周波数パターン予測装置。
【請求項3】
前記規準は、以下の式で表わされる請求項2記載の基本周波数パターン予測装置。
【数1】
ただし、cは、前記ソース音声の各時刻のスペクトル特徴量ベクトルであり、yは、前記ターゲット音声の各時刻の基本周波数であり、mは、各時刻のスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスであり、sは、前記状態系列であり、γは、前記第1確率分布のパラメータであり、θは、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータであり、φは、状態遷移確率であり、qは、前記ターゲット音声の各時刻の基本周波数及び動的成分の結合ベクトルであり、uは、各時刻のフレーズ指令及びアクセント指令である。
【請求項4】
前記学習部は、EM(Expectation-Maximization)アルゴリズムにより、前記第2確率分布から求められる、各時刻の基本周波数と、隠れマルコフモデルの各時刻の状態からなる状態系列との尤もらしさが大きくなるように、前記第2確率分布のパラメータとして、前記状態系列の状態遷移確率、及び各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータを学習するか、又は
各時刻の基本周波数が与えられたときの、各時刻のフレーズ指令及びアクセント指令のペアからなる指令関数及び前記振幅を表すパラメータの対数事後確率を目的関数として、前記目的関数を増加させるように、前記第2確率分布のパラメータとして、前記状態系列の状態遷移確率、及び前記振幅を表すパラメータを、前記第2確率分布のパラメータとして学習する請求項1〜請求項3の何れか1項記載の基本周波数パターン予測装置。
【請求項5】
前記学習部は、前記学習された前記第2確率分布のパラメータを固定して、EM(Expectation-Maximization)アルゴリズムにより、前記規準が大きくなるように、前記第1確率分布のパラメータを学習する請求項4記載の基本周波数パターン予測装置。
【請求項6】
前記変換処理部は、
前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記学習部によって学習された前記第1確率分布のパラメータと前記第2確率分布のパラメータとに基づいて、EMアルゴリズムにより、前記規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数、各時刻のスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックス、及び前記状態系列を推定することにより、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する請求項2記載の基本周波数パターン予測装置。
【請求項7】
学習部と、変換処理部とを含む基本周波数パターン予測装置における基本周波数パターン予測方法であって、
前記学習部が、学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように学習し、
前記変換処理部が、予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記学習部によって学習された前記第1確率分布のパラメータと前記第2確率分布のパラメータとに基づいて、前記規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する
基本周波数パターン予測方法。
【請求項8】
請求項1〜請求項6の何れか1項に記載の基本周波数パターン予測装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、基本周波数パターン予測装置、方法、及びプログラムに係り、特に、ソース音声から、ターゲット音声の基本周波数パターンを予測する基本周波数パターン予測装置、方法、及びプログラムに関する。
【背景技術】
【0002】
他者とのコミュニケーションにおいて音声は利便性に優れた手段ではあるが、時として物理的制約により様々な障壁が必然的にもたらされる。例えば、発声器官の内、わずか一か所でも正常に動作しなくなると、深刻な発声障害を患い、音声コミュニケーションに支障をきたす。また、音声生成という物理的行為は、秘匿性の高い意思伝達には不向きであるし、周囲の騒音に脆弱である。これらの障壁を無くすためには、身体的制約を超えて発声器官を動作させて音声を生成したり、適切な発音動作を指定して音声を生成したり、聴取困難なほど微かな音声発声時の発声器官動作から通常音声を生成するなど、物理的・身体的制約を超えた音声生成機能の拡張が必要である。
【0003】
例えば、喉頭癌などで喉頭を失った喉頭摘出者に対して、残存器官を用いた代替発声法により生成される自然性に乏しい音声を、より自然な音声へと変換する発声補助技術が提案されている(非特許文献1〜非特許文献3を参照)。この他にも、非可聴つぶやき音声を自然な音声に変換する技術も提案されており、秘匿性に優れた通話技術としての応用が期待されている。上述の技術はいずれも音声のスペクトル特徴量系列から自然音声の基本周波数(F0) パターンを予測する問題を扱っている点で共通しており、学習処理と変換処理で構成される。学習処理では、対象音声(前者であれば電気音声、後者であれば非可聴つぶやき音声)と通常音声の同一発話データを用いる。まず各離散時刻(以後、フレーム)において、前後数フレームから得られる対象音声のスペクトル特徴量と、通常音声の対数F0とその動的成分(時間微分または時間差分)を抽出し、スペクトル距離尺度に基づく動的時間伸縮によりこれらを対応付けた結合ベクトルを得る。これをパラレルデータと呼ぶ。各フレームのパラレルデータを用い、対象音声のスペクトル特徴量と通常音声の対数F0 の静的・動的成分の結合確率密度関数を混合正規分布モデル(Gaussian Mixture Model; GMM)で表現する。GMM のパラメータはExpectation-Maximization アルゴリズムにより学習することができる。変換処理では、学習されたGMM を用いて、系列内変動を考慮した最尤系列変換法により、対象音声のスペクトル特徴量系列から通常音声のF0 パターンへと変換することができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Keigo Nakamura, Tomoki Toda, Hiroshi Saruwatari, Kiyohiro Shikano, "Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech," Speech Communication, vol. 54, no. 1, pp. 134-146, 2012.
【非特許文献2】Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, "A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation," IEICE Transactions on Information and Systems, vol. E97-D, no. 6, pp. 1429-1437, Jun. 2014.
【非特許文献3】Kou Tanaka, Tomoki Toda, Graham Neubig, Sakriani Sakti, Satoshi Nakamura, "Direct F0 controlof an electrolarynx based on statistical excitation feature prediction and its evaluation through simulation," Proc. INTERSPEECH, pp. 31-35, Sep. 2014.
【非特許文献4】Hirokazu Kameoka, Jonathan Le Roux, Yasunori Ohishi, "A statistical model of speech F0 contours," ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition (SAPA 2010), pp. 43-48, Sep. 2010.
【非特許文献5】Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来技術では、学習処理や変換処理において音声のF0 パターンの物理的な生成過程を考慮したモデルが用いられていなかったため、物理的に人間が発声しえないような不自然なF0 パターンを生成することが起こりえた。この問題に対し、F0パターンの物理的な生成過程を考慮した予測を行うことで、より自然なF0 パターンを生成できる可能性がある。
【0006】
F0パターンは声帯に張力を与える甲状軟骨の運動によって生み出されており、非特許文献4、5ではその制御機構の確率モデルに基づき、フレーズ・アクセント指令と呼ぶ甲状軟骨の運動に関係するパラメータを推定する技術が提案されている。この技術では,フレーズ・アクセント指令の時系列の生成プロセスを隠れマルコフモデル(HMM) により表現した点がポイントの一つであり,HMM のトポロジーの設計や遷移確率の学習を通して、指令列に関する言語学的ないし先験的な知識をパラメータ推定に組み込むことが可能である。
【0007】
本発明は、上記事情を鑑みてなされたものであり、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる基本周波数パターン予測装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の目的を達成するために本発明に係る基本周波数パターン予測装置は、学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように学習する学習部と、予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記学習部によって学習された前記第1確率分布のパラメータと前記第2確率分布のパラメータとに基づいて、前記規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する変換処理部と、を含んで構成されている。
【0009】
本発明に係る基本周波数パターン予測方法は、学習部と、変換処理部とを含む基本周波数パターン予測装置における基本周波数パターン予測方法であって、前記学習部が、学習サンプルのソース音声の時系列データとターゲット音声の時系列データとからなるパラレルデータを入力として、前記ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の時系列データから抽出される、各時刻の基本周波数とに基づいて、前記ソース音声の各時刻のスペクトル特徴量ベクトルと、前記ターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように学習し、前記変換処理部が、予測対象のソース音声の時系列データを入力として、前記予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、前記学習部によって学習された前記第1確率分布のパラメータと前記第2確率分布のパラメータとに基づいて、前記規準を大きくするように、前記予測対象のソース音声に対応する前記ターゲット音声の各時刻の基本周波数を予測する。
【0010】
本発明に係るプログラムは、上記の基本周波数パターン予測装置の各部としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0011】
以上説明したように、本発明の基本周波数パターン予測装置、方法、及びプログラムによれば、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータを、前記第1確率分布と前記第2確率分布とを用いて表される規準を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる、という効果が得られる。
【図面の簡単な説明】
【0012】
図1】HMMの状態遷移ネットワークの一例を説明するための図である。
図2】HMMの状態遷移ネットワークの一例を説明するための図である。
図3】HMMの状態遷移ネットワークの一例を説明するための図である。
図4】状態の分割を説明するための図である。
図5】本発明の第1の実施の形態に係る基本周波数パターン予測装置の構成を示す概略図である。
図6】本発明の第1の実施の形態に係る基本周波数パターン予測装置の学習部の構成を示す概略図である。
図7】本発明の第1の実施の形態に係る基本周波数パターン予測装置の変換処理部の構成を示す概略図である。
図8】本発明の第1の実施の形態に係る基本周波数パターン予測装置における学習処理ルーチンの内容を示すフローチャートである。
図9】本発明の第1の実施の形態に係る基本周波数パターン予測装置における基本周波数パターン予測処理ルーチンの内容を示すフローチャートである。
図10】本発明の第2の実施の形態に係る基本周波数パターン予測装置における学習処理ルーチンの内容を示すフローチャートである。
図11】本発明の第3の実施の形態に係る基本周波数パターン予測装置の学習部の構成を示す概略図である。
図12】本発明の第3の実施の形態に係る基本周波数パターン予測装置における学習処理ルーチンの内容を示すフローチャートである。
図13】実験結果を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声の特徴量系列から基本周波数パターンを予測し、原音声の基本周波数パターンを予測した基本周波数パターンに置き換えることで音声の自然性を向上させることを目的とした音声処理技術である。
【0014】
<関連技術1:スペクトル特徴量系列からのF0 パターン予測方法>
まず、スペクトル特徴量系列からのF0 パターン予測方法について説明する。
【0015】
上記非特許文献1〜非特許文献3では、スペクトル特徴量系列からF0 パターンを予測する方法が提案されている。当該従来手法はスペクトル特徴量系列とF0 パターンの同時確率分布モデルのパラメータを学習する処理と学習した当該モデルを用いて所与のスペクトル特徴量系列からF0 パターンに変換する処理からなる。
【0016】
<学習処理>
ソース音声(例えば電気音声)とターゲット音声(例えば自然音声)のパラレルデータが与えられているものとする。ソース音声のスペクトル特徴量ベクトルをc[k] とし,ターゲット音声の対数F0 とその動的成分(時間微分または時間差分)の結合ベクトル(F0 特徴量と呼ぶ。)をq[k] = (y[k];Δy[k])T とする。ここでk は離散時刻のインデックスである。音声特徴量c[k] としては例えば時刻k を中心とした前後数フレーム分のメルケプストラム(ベクトル)の系列を連結したベクトルに対し主成分分析により次元圧縮を行ったものを用いる。本手法ではc[k] とq[k] の同時確率分布を混合正規分布モデル(Gaussian Mixture Model; GMM)
【0017】
【数1】
【0018】
でモデル化し、学習処理では所与のパラレルデータ{c[k]; q[k]}Kk=1 から当該GMM のパラメータ(各正規分布の重み,平均、分散共分散行列)を学習する。ただし、N(x;μ,Σ) は、xの確率密度関数が平均がμ、分散共分散行列がΣの正規分布で与えられることを意味する。
【0019】
GMM のパラメータはExpectation-Maximization (EM) アルゴリズムにより推定することができる。学習したGMM パラメータをγとすると、条件付分布P(q[k]|c[k],γ) はスペクトル特徴量c[k] からF0 特徴量q[k] を予測するための分布と見ることができ、
【0020】
【数2】
【0021】
のようにP(c[k],q[k]|γ) と同様にGMM で与えられる。ただし、
【0022】
【数3】
【0023】
でありe(q|c)mおよびD(q|c)m
【0024】
【数4】
【0025】
で与えられる。
【0026】
<変換処理>
変換処理では。所与のスペクトル特徴量系列
【0027】
【数5】
【0028】
の下で,最尤のF0パターン
【0029】
【数6】
【0030】
を以下の式(8)により求めることが目的である。
【0031】
【数7】
【0032】
ただし、
【0033】
【数8】
【0034】
であり、Wはyとqの関係を記述した変換行列(定数)である。ここで、P(q|c,γ) は学習処理により学習したパラメータγで与えられるGMM であり、
【0035】
【数9】
【0036】
で与えられる。ただし、m= (m1,...,mK) であり、mk は時刻k におけるGMMの成分インデックスを表す。ここで、P(q[k]|c[k],γ) が
【0037】
【数10】
【0038】
により近似できるとする。式(12)より、^mkは、データc[k]を生成したらしい確率が最も高い正規分布のインデックスを意味する。よって、式(9)よりP(q|c,m,^γ)はすべてのkについて
【0039】
【数11】
【0040】
の積をとったもので与えられる。式(11)の近似によりP(q|c,γ)は
【0041】
【数12】
【0042】
を連結したベクトルe(q|c)を平均、
【0043】
【数13】
【0044】
を対角成分としたブロック対角行列D(q|c) を分散共分散行列とした正規分布
【0045】
【数14】
【0046】
となる。これにq=Wyを代入し、yの分布となるように正規化すると、
【0047】
【数15】
【0048】
となるため、
【0049】
【数16】
【0050】
のようにyの条件付き分布を得る。よって、式(8)の解は、
【0051】
【数17】
【0052】
となる。
【0053】
<関連技術2:F0パターン生成過程モデル>
次に、F0パターン生成過程の確率モデルについて説明する。
【0054】
音声のF0パターンの生成過程を記述したモデルに、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献6)。
【0055】
[非特許文献6]:H. Fujisaki, "In Vocal Physiology: Voice Production, Mechanisms and Functions," Raven Press, 1988.
【0056】
藤崎モデルとは、甲状軟骨の運動によるF0 パターンの生成過程を説明した物理モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t) が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンxp(t)をフレーズ成分、回転運動によって生じるF0 パターンxa(t) をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0 パターンy(t) は、これらの成分に声帯の物理的制約によって決まるベースライン成分b を足し合わせたものとして、
【0057】
【数18】
【0058】
と表現される。これら二つの成分は二次の臨界制動系の出力と仮定され、
【0059】
【数19】
【0060】
と表される(* は時刻t に関する畳み込み演算)。ここでup(t) はフレーズ指令関数と呼ばれ、デルタ関数(フレーズ指令)の列からなり、ua(t) はアクセント指令関数と呼ばれ、矩形波(アクセント指令)の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3 rad/s、β=20 rad/s 程度であることが経験的に知られている。
【0061】
<関連技術3:F0パターン生成過程モデルパラメータ推定法>
上述の藤崎モデルは以下のような確率モデルで記述することができる(非特許文献4、5、7参照)。
【0062】
[非特許文献7]:石原達馬, 吉里幸太, 亀岡弘和, 齋藤大輔, 嵯峨山茂樹, \音声基本周波数の藤崎モデル指令列の統計的語彙モデル," 日本音響学会2013 年春季研究発表会講演論文集, 1-7-9, pp. 283-286, Mar. 2013.
【0063】
まずフレーズ、アクセント指令関数のペアo[k] = (up[k], ua[k])T を出力するHMM を考える。ただし、k は離散時刻のインデックスを表す。状態出力分布は正規分布とし、各時刻の状態が与えられた下で
【0064】
【数20】
【0065】
により指令関数ペアo[k] が生成されるものとする。ここで{skKk=1 はHMMの状態系列であり、平均ベクトルρ[k] はHMM の状態遷移の結果として定まる値である。具体的なHMM の構成の例を図1図3に示す。
【0066】
図1に示すHMM の状態遷移ネットワークの例では、状態t = r0 においてμ(p)t [k] とμ(a)tはいずれも0 である。状態t = r0 からは状態p0 にのみ遷移することができ、状態t = p0においてμ(p)t [k] は非負値A(p)[k] をとり、μ(a)t は0 となる。状態t = p0 の次は状態r1 にのみ遷移することが許される。状態t = r0 同様、状態t = r1 においてμ(p)t [k] とμ(a)t はいずれも0 である。状態t = r1 からは状態a0,...,aN-1のいずれかにのみ遷移することができ、状態t = an においてμ(a)tは非負値A(a)n をとり、μ(p)t [k] は0 となる。状態t = anの次は状態r0 またはr1にのみ遷移することが許される。これよりμa[k] が矩形パルス列となることが保証される。
【0067】
図2に示すHMMの状態遷移ネットワークの例では、状態t = r0 においてμ(p)t [k] とμ(a)tはいずれも0 である。状態t = r0 からは状態p0,...,pM-1のいずれかにのみ遷移することができ、状態t = pm においてμ(p)tは非負値A(p)m をとり、μ(a)t は0 となる。状態t = pm の次は状態r1にのみ遷移することが許される。状態t = r0 同様、状態t = r1 においてμ(p)t [k] とμ(a)t はいずれも0 である。状態t = r1 からは状態a0,...,aN-1のいずれかにのみ遷移することができ、状態t = an においてμ(a)tは非負値A(a)n をとり、μ(p)t は0 となる。状態t = anの次は状態r0 またはr1 にのみ遷移することが許される。これよりμa[k] が矩形パルス列となることが保証される。
【0068】
図3に示すHMMの状態遷移ネットワークの例では、それぞれの終点と始点が連結された複数のLeft-to-Right 型HMM からなる。図1、2と同様、状態t = rlにおいてμ(p)t [k] とμ(a)t はいずれも0 である。また、状態t = pm においてμ(p)tは非負値A(p)m をとり、μ(a)t は0 となる。状態t = anにおいてμ(a)tは非負値A(a)nをとり、μ(p)
【0069】
tは0となる。
【0070】
ρ[k]は、図1 の例では、以下の式(24)で表わされる。
【0071】
【数21】
【0072】
また、図2, 3 の例では、ρ[k]は、以下の式(25)で表わされる。
【0073】
【数22】
【0074】
いずれの例においても、図4のようにそれぞれの状態を同じ出力分布をもついくつかの小状態に分割し、Left-to-Right 型の状態遷移経路を制約することで同一状態に停留する時間長の確率をパラメータ化することができる。図4 は状態an を分割した例である。例えばこの図のように全てのm≠0 に対してan,n′からan,n′+1 への状態遷移確率を1に設定することで,an,0からan,n′への遷移確率が状態an がn′ステップだけ持続する確率に対応し、アクセント指令の持続長の確率を設定したり学習したりできるようになる。同様にpm とrl も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。以後、状態集合を
【0075】
【数23】
【0076】
と表記する。上記のHMM の構成は次のように書ける。
【0077】
【数24】
【0078】
状態系列s = {skKk=1 が与えられたとき、このHMM はフレーズ指令関数up[k] とアクセント指令関数ua[k] のペアを出力する。式(18) と式(20) で示した通り、up[k] とua[k] にそれぞれgp[k] とga[k] が畳み込まれてフレーズ成分xp[k] とアクセント成分xa[k] が出力される。これを式で表すと、
【0079】
【数25】
【0080】
と書ける(* は離散時刻k に関する畳み込み演算)。このとき,F0 パターンx[k] は
【0081】
【数26】
【0082】
と三種類の成分の重ね合わせで書ける。ただしb は時刻によらないベースライン成分である。
【0083】
また、実音声においては、いつも信頼のできるF0 の値が観測できるとは限らない。藤崎モデルのパラメータ推定を行うにあたっては、信頼のおける観測区間のF0 値のみを考慮に入れて、そうでない区間は無視することが望ましい。例えば音声の無声区間においては通常声帯の振動に伴う周期的な粗密波は観測されないので、仮に自動ピッチ抽出によって音声の無声区間から何らかの値がF0 の推定値として得られたとしても、その値を声帯から発せられる信号のF0 の値と見なすのは適当ではない。そこで、提案モデルに観測F0値の時刻k における不確かさの程度v2n[k] を導入する。具体的には、観測F0 値y[k] を、真のF0 値x[k] とノイズ成分
【0084】
【数27】
【0085】
との重ね合わせで
【0086】
【数28】
【0087】
と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。
【0088】
xn[k] を周辺化することで、出力値系列o = {o[k]}Kk=1 が与えられたときのy = {y[k]}Kk=1 の確率密度関数
【0089】
【数29】
【0090】
が得られる。状態系列s = {skKk=1 と指令の振幅を表すパラメータ
【0091】
【数30】
【0092】
および遷移確率行列φ = (φi,j)I×I が与えられたとき、出力値系列o は
【0093】
【数31】
【0094】
に従って生成される。また、P(s|φ) は状態遷移確率の積として
【0095】
【数32】
と書ける。ただし、
【0096】
【数33】
【0097】
は初期状態がs1である確率をあらわす。式(30)、(32) および式(33) よりP(y,o,s|θ,φ) は
【0098】
【数34】
【0099】
と書ける。これをo に関して周辺化すると
【0100】
【数35】
【0101】
が得られる。ただし、
【0102】
【数36】


【0103】
である。一方、s に関して周辺化すると
【0104】
【数37】
が得られる。ただし、Σs はあらゆる状態系列に関して和をとる操作を意味する。
【0105】
<パラメータ推定アルゴリズム1>
yとoを完全データと見なすことで、式(35) を局所最大化するsとθ をExpectation-Maximization アルゴリズムにより探索することができる。導出は省略するが、
【0106】
【数38】
【0107】
が大きくなるようにsとθを更新するステップと、更新したsとθを用いて
【0108】
【数39】
【0109】
とRを
【0110】
【数40】
【0111】
により更新するステップを繰り返すことで式(35) を単調増加させることができる(詳細は、上記非特許文献4参照)。
【0112】
具体的には、以下の初期設定、Eステップ、及びMステップが実行される。
【0113】
(初期設定)
sとθを初期設定する。
【0114】
(E ステップ)
フレーズ成分、アクセント成分、ベースライン成分の条件付き期待値
【0115】
【数41】
【0116】
と条件付き分散共分散行列Rを
【0117】
【数42】
により更新する。ただし、
【0118】
【数43】

【0119】
である。また、Rにおける
【0120】
【数44】
【0121】
に対応するブロック対角成分を
【0122】
【数45】
【0123】
とする。
【0124】
すなわち、
【0125】
【数46】
【0126】
である(* は以後用いないブロック成分である)。
【0127】
(Mステップ)
Q(s,θ) が最大となる状態系列s= (s1,...,sK) を探索する。γp とγaは対角行
【0128】
列なので、
【0129】
【数47】

【0130】
はいずれも
【0131】
【数48】
【0132】
のようにkごとの項の和の形で書ける。従って、Q(s,θ) はsに依らない項を除けば
【0133】
【数49】
【0134】
と書ける。従って、Q(s,θ) を最大にする状態系列s= (s1,...,sK)はViterbiアルゴリズムにより求めることができる(詳細は上記非特許文献4参照)。ただし、[・]k,k は行列のk 行k 列の要素、[・]kはベクトルの第k 要素を表す。
【0135】
続いて、Q(s,θ)を最大にするようにθを更新する。Q(s,θ)を最大にするθは、Q(s,θ)の各変数に関する偏微分を0 と置くことにより得られる(詳細は上記非特許文献4参照)。
【0136】
また、推定された状態系列sから、状態遷移確率φが求められる。
【0137】
[第1の実施の形態]
<本発明の実施の形態の概要>
本発明の実施の形態の技術は、上述した関連技術1と同様、学習処理と変換処理からなるが、式(8) の代わりに関連技術1の確率分布と関連技術2の確率分布を"Expert"としたProduct-of-Experts (非特許文献9参照)を用いることにより,関連技術2のF0 パターン生成過程モデルにできるだけ即したF0 パターンをスペクトル特徴量から統計的に予測することを可能にする技術である。
【0138】
[非特許文献9]:G. E. Hinton, “Training Products of Experts by Minimizing Contrastive Divergence," Neural Computation, no. 14, no. 8, pp. 1771-1800, 2002.
【0139】
学習処理と変換処理では、後述するc、yの結合分布P(c,y,m,s|γ,θ,φ)を共通の規準とする。
【0140】
学習処理ではパラレルデータの学習サンプル{c[k],q[k]}Kk=1が与えられた下でc,yの結合分布P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるようにγ、θ、φを学習する。本実施の形態では、γと、θ、φとを別々に学習する。例えば、学習サンプルのF0 パターン{y[k]}Kk=1が与えられた下で、上述した関連技術3のパラメータ推定アルゴリズム1を用いてP(y,s|θ,φ)ができるだけ大きくなるようにθとφを学習する。そして、θ、φを固定し、P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるようにγを学習する。
【0141】
なお、学習サンプルのフレーズ・アクセント指令データoが与えられる下では、上述した関連技術3を用いてP(o|θ、φ) ができるだけ大きくなるようにθとφを学習するようにしてもよい。
【0142】
<システム構成>
次に、ソース音声のスペクトル特徴量系列から、ターゲット音声の基本周波数パターンを予測する基本周波数パターン予測装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
【0143】
図5に示すように、本発明の第1の実施の形態に係る基本周波数パターン予測装置は、CPUと、RAMと、後述する学習処理ルーチン、及び基本周波数パターン予測処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0144】
図5に示すように、基本周波数パターン予測装置100は、入力部10と、演算部20と、出力部90とを備えている。
【0145】
入力部10は、学習サンプルのソース音声(例えば電気音声)の時系列データとターゲット音声(例えば自然音声)の時系列データとからなるパラレルデータを受け付ける。また、入力部10は、予測対象のソース音声の時系列データを受け付ける。
【0146】
演算部20は、学習部30と、パラメータ記憶部40と、変換処理部50とを備えている。
【0147】
図6に示すように、学習部30は、特徴量抽出部32と、基本周波数系列抽出部34と、第1モデルパラメータ学習部36と、第2モデルパラメータ学習部38とを備えている。
【0148】
特徴量抽出部32は、入力部10によって受け付けた学習サンプルのソース音声の時系列データから、ソース音声のスペクトグラム特徴量ベクトルc[k]を抽出する。ここでk は離散時刻のインデックスである。例えば、非特許文献1〜3と同様に、時刻k を中心とした前後数フレーム分のメルケプストラム(ベクトル)の系列を連結したベクトルに対し主成分分析により次元圧縮を行ったものをc[k] として用いる。
【0149】
基本周波数系列抽出部34は、入力部10によって受け付けた学習サンプルのターゲット音声の時系列データから、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、y = (y[1],..., y[K])Tとする。
【0150】
この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献8(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。
【0151】
また、y とその動的成分(時間微分または時間差分)の結合ベクトル(F0 特徴量と呼ぶ。)をq[k] = (y[k],Δy[k])T とする。
【0152】
以上より、{c[k],q[k]}Kk=1 というデータが得られる。
【0153】
第2モデルパラメータ学習部38は、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数y[k]に基づいて、各時刻kの基本周波数y[k]と、隠れマルコフモデルの各時刻の状態からなる状態系列sとの組み合わせの確率分布である第2確率分布のパラメータを学習する。
【0154】
具体的には、第2モデルパラメータ学習部38は、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム1に従って、F0パターン生成過程モデルのパラメータθ、φを学習する。
【0155】
もし学習サンプルのフレーズ指令系列とアクセント指令系列のペアのデータo = {okKk=1 が入手できるのであれば,o からθ、φを学習しても良い(HMM の通常の学習に相当)。学習したF0パターン生成過程モデルのパラメータを^θ、^φとする。
【0156】
第1モデルパラメータ学習部36は、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]と、第2モデルパラメータ学習部38によって学習されたパラメータθ、φとに基づいて、c、yの結合分布P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるように、ソース音声の各時刻のスペクトル特徴量ベクトルc[k]とターゲット音声の各時刻kの基本周波数の結合ベクトルq[k]との同時確率分布を表す混合正規分布である第1確率分布のパラメータγを学習する。
【0157】
<学習・変換規準>
ここで、学習処理と変換処理で共通となる規準について説明する。
【0158】
c、yの結合分布P(c,y,m,s|γ,θ,φ)は以下の形で与えられる。
【0159】
【数50】

ただし、

【0160】
以上よりc、yの結合分布P(c,y,m,s|γ,θ,φ)は、GMMベースのF0パターン予測モデルとF0 パターン生成過程モデルの確率分布の積を正規化した分布と見なせ、ΛおよびΓは両モデルの寄与の大きさを表した行列である。いずれも任意の対角行列(定数)とする。他の変数については、上述した関連技術1と関連技術3 の記述と同様である。また、上記では分かりやすさのためGMM の成分インデックス系列とHMMの状態系列に依存する変数には上付き文字(m), (s) を付与している。
【0161】
<学習・変換処理のための統一的アルゴリズム>
次に、学習・変換処理のための統一的アルゴリズムについて説明する。
【0162】
学習処理も変換処理も同一規準を用いた最適化問題
【0163】
【数51】
【0164】
となり(固定する変数と推定する変数が異なるだけである)、qとuを潜在変数(隠れ変数)と扱うことでExpectation-Maximization アルゴリズムを適用することができる。y、c、q、uを完全データとすると,完全データに対する尤度関数は、以下のように書ける。
【0165】
【数52】

ただし、
【0166】
式(92) を平方完成すると、P(c,y,m,s|γ,θ,φ)は、以下のように表される。
【0167】
【数53】

【0168】
E ステップで、以下の式(100)、(101)に従って期待値を算出する。
【0169】
【数54】
【0170】
Mステップで、
【0171】
【数55】
【0172】
が最大となるように各変数を更新することでlogP(c,y,m,s|γ,θ,φ)を大きくすることができるので、E ステップとM ステップを繰り返すことで当該最適化問題の局所最適解を得ることができる。
【0173】
以上説明した原理に従って、第1モデルパラメータ学習部36は、第2モデルパラメータ学習部36で学習されたパラメータθ、φを固定して、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]と、に基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、logP(c,y,m,s|γ,θ,φ)を大きくするように、第1確率分布のGMMのパラメータγを学習する。学習したGMM パラメータを^γとする。
【0174】
変換処理部50は、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φとに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、学習処理と共通の規準であるP(c,y,m,s|γ,θ,φ)を大きくするように、各時刻の基本周波数yと、各時刻kのスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスm、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。
【0175】
本実施の形態では、図7に示すように、変換処理部50は、特徴量抽出部52と、期待値算出部54と、変数更新部56と、収束判定部58とを備えている。
【0176】
特徴量抽出部52は、入力部10によって受け付けた予測対象のソース音声の時系列データから、特徴量抽出部32と同様に、ソース音声の各時刻kのスペクトグラム特徴量ベクトルc[k]を抽出する。
【0177】
期待値算出部54は、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φと、特徴量抽出部52によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、変数更新部56によって前回更新された各時刻の基本周波数y、各時刻kの正規分布のインデックスm、及び各時刻の状態からなる状態系列sとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
【0178】
変数更新部56は、期待値算出部54によって算出された期待値に基づいて、上記式(102)が最大となるように、各時刻の基本周波数yと、各時刻kの正規分布のインデックスmと、各時刻の状態からなる状態系列sとを更新する。
【0179】
収束判定部58は、予め定められた収束判定条件を満たすまで、期待値算出部54及び変数更新部56による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。
【0180】
収束判定条件を満たしたときに、最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力する。
【0181】
<基本周波数パターン予測装置の作用>
次に、本実施の形態に係る基本周波数パターン予測装置100の作用について説明する。まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図8に示す学習処理ルーチンが実行される。
【0182】
まず、ステップS101において、入力されたソース音声の時系列データを読み込み、
【0183】
各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。
【0184】
ステップS104では、状態系列sと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを初期設定する。
【0185】
そして、ステップS105において、上記式(49)、式(50)に従って、フレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとを更新する。
【0186】
次のステップS106では、上記ステップS104で初期設定された、又は後述するステップS107で前回更新されたパラメータθと、上記ステップS105で更新されたフレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとに基づいて、上記式(63)式を用いて、Q(s,θ) を最大にする状態系列s= (s1,...,sK)をViterbiアルゴリズムにより求めて、状態系列sを更新する。
【0187】
ステップS107では、上記ステップS106で更新された状態系列sと、上記ステップS105で更新されたフレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとに基づいて、Q(s,θ)の各変数に関する偏微分を0 と置くことにより、Q(s,θ) を最大にするパラメータθを求めて、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθを更新する。
【0188】
ステップS108において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS105へ戻る。一方、収束判定条件を満たした場合には、ステップS109へ進む。
【0189】
ステップS109では、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数の結合ベクトルq[k]と、上記ステップS107で最終的に得られたパラメータθと、上記ステップS106で最終的に得られた状態系列sから求められる状態遷移確率φと、後述するステップS110で前回更新されたパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
【0190】
ステップS110では、上記ステップS109で算出された期待値に基づいて、上記式(102)が最大となるように、パラメータγを更新する。
【0191】
ステップS112において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS109へ戻る。一方、収束判定条件を満たした場合には、ステップS113において、上記ステップS107で最終的に得られたパラメータθと、上記ステップS106で最終的に得られた状態系列sから求められる状態遷移確率φと、上記ステップS110で最終的に得られたパラメータγとを、パラメータ記憶部40に格納する。
【0192】
次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図9に示す基本周波数パターン予測処理ルーチンが実行される。
【0193】
まず、ステップS121において、入力された予測対象のソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。
【0194】
ステップS122において、パラメータ記憶部40に記憶されたパラメータγと、上記ステップS121で抽出された各時刻のスペクトル特徴量ベクトルc[k]とに基づいて、上記式(16)に従って、各時刻kの基本周波数y[k]を推定することにより、各時刻kの基本周波数y[k]を初期設定すると共に、各時刻kの基本周波数の結合ベクトルq[k]に初期値を設定する。また、各時刻kのスペクトル特徴量ベクトルc[k]を生成したらしい確率が最も高い正規分布のインデックス^mkと、状態系列sとに、初期値を設定する。
【0195】
ステップS123では、上記ステップS121で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、各時刻kの基本周波数y[k]、各時刻kの基本周波数y[k]から得られる各時刻kの基本周波数の結合ベクトルq[k]と、パラメータ記憶部40に記憶されたパラメータθ、状態遷移確率φ、及びパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
【0196】
ステップS124では、上記ステップS123で算出された期待値に基づいて、上記式(102)が最大となるように、各時刻kの基本周波数y[k]、各時刻kの正規分布のインデックス^mk、及び状態系列sを更新する。
【0197】
そして、ステップS125において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS123へ戻る。一方、収束判定条件を満たした場合には、ステップS126において、上記ステップS124で最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力し、基本周波数パターン予測処理ルーチンを終了する。
【0198】
以上説明したように、第1の実施の形態に係る基本周波数パターン予測装置によれば、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータθ、φを学習し、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータγを、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる
【0199】
[第2の実施の形態]
次に、本発明の第2の実施の形態に係る基本周波数パターン予測装置について説明する。なお、第1の実施の形態と同様の構成となる部分については同一符号を付して説明を省略する。
【0200】
第2の実施の形態では、第2の確率分布が、P(y,o|θ,φ)であり、パラメータθ、φを推定する方法が第1の実施の形態と異なっている。
【0201】
第2の実施の形態に係る基本周波数パターン予測装置の学習部30の第2モデルパラメータ学習部38によるパラメータを学習する原理について説明する。
【0202】
まず、関連技術3のF0パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズムについて説明する。
【0203】
<パラメータ推定アルゴリズム2>
観測F0系列yが与えられたもとで、モデルパラメータθとoの事後確率P(o,θ|y)の局所最適解を求める反復アルゴリズムを以下に示す。状態系列sを隠れ変数とし、事後確率P(o,θ|y) が、
【0204】
【数56】
【0205】
をsについて周辺化することで得られる点に注意すると、Q関数Q(o,θ,o´,θ´)は
【0206】
【数57】

と置ける。ただし、
【0207】
【数58】
【0208】
は定数項を除いて等しいことを表す。また、gb[k] = δ[k] (クロネッカーのデルタ) である。よって、P(sk = t|y,o´,θ´)をForward-Backward アルゴリズムにより計算するステップ、oとθについてQ(o,θ,o´,θ´)を増加させるステップを繰り返すことで、P(o,θ|y) が局所最大となる解を得ることができる。oはフレーズ・アクセント指令系列のペアであるため、Q(o,θ,o´,θ´)を増加させるステップにおいては、oの非負制約を考慮する必要がある。oの非負制約を満たしながらQ(o,θ,o´,θ´)を増加させるような更新則は以下により導くことができる。まず、Q(o,θ,o´,θ´)の下界はJensen の不等式より
【0209】
【数59】
【0210】
のように設計することができる。また、i,k,l は、
【0211】
【数60】
【0212】
を満たす任意の変数である。従ってQ関数の下界は、
【0213】
【数61】

【0214】
と表される。この下界関数をλi,k,l≧0 に関して最大化するステップとo に関して最大化するステップを交互に繰り返せばQ(o,θ,o´,θ´)を増加させることができる。いずれのステップの更新則も解析的に求めることができ、それぞれ
【0215】
【数62】
【0216】
で表される。以上の反復が収束したあと、続けてθを更新する。更新式は、図1の場合、
【0217】
【数63】
【0218】
図2、3の場合、
【0219】
【数64】
【0220】
である。これらの更新値をo´とθ´に代入したのちに、P(sk = t|y,o´,θ´)の更新を再度行い、以後同様の処理を繰り返すことで事後確率P(o,θ|y)を単調増加させることができる。
【0221】
以上の反復アルゴリズムが収束した後、上述したパラメータ推定アルゴリズム1のViterbi アルゴリズムにより求まる最適なsを状態系列の推定結果とする。
【0222】
また、推定された状態系列sから、状態遷移確率φが求められる。
【0223】
以上説明した原理に従って、第2モデルパラメータ学習部38は、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数y[k]に基づいて、各時刻kの基本周波数y[k]と、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアからなる指令関数o[k]との組み合わせの確率分布である第2確率分布のパラメータθ、φを学習する。
【0224】
第1モデルパラメータ学習部36は、上記第1の実施の形態と同様に、第2モデルパラメータ学習部36で学習されたパラメータθ、φを固定して、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]と、に基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、logP(c,y,m,s|γ,θ,φ)を大きくするように、第1確率分布のGMMのパラメータγを学習する。学習したGMM パラメータを^γとする。
【0225】
変換処理部50は、第1の実施の形態と同様に、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φとに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、学習処理と共通の規準であるP(c,y,m,s|γ,θ,φ)を大きくするように、各時刻の基本周波数yと、各時刻kのスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスm、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。
【0226】
<基本周波数パターン予測装置の作用>
【0227】
次に、第2の実施の形態に係る基本周波数パターン予測装置の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
【0228】
まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置に入力されると、基本周波数パターン予測装置において、図10に示す学習処理ルーチンが実行される。
【0229】
まず、ステップS101において、入力されたソース音声の時系列データを読み込み、
【0230】
各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。
【0231】
ステップS200では、指令系列oと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを初期設定する。また、ターゲット音声の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn2 [k]を推定する。
【0232】
そして、ステップS201において、上記ステップS200で設定された指令系列oの初期値、または後述するステップS203で前回更新された指令系列oに基づいて、(k,t)の全ての組み合わせについて、事後確率P(sk=t|y,o′,θ′)を更新する。
【0233】
ステップS202では、上記ステップS200で設定された指令系列oの初期値、または後述するステップS203で前回更新された指令系列oに基づいて、(k、l)の全ての組み合わせについて、上記の式(71)に従って、補助変数λp,k,l、λa,k,l、λb,k,lを算出して更新する。
【0234】
次のステップS203では、上記ステップS102で抽出されたされた基本周波数系列yと、上記ステップS200で算出された各時刻kの不確かさの程度vn2 [k]と、上記ステップS201で更新された事後確率P(sk=t|y,o′,θ′)と、上記ステップS202で更新された補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、上記式(72)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列oとベース成分ubとを更新する。
【0235】
次のステップS204では、収束条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、収束条件を満足していないと判断して、上記ステップS202へ戻る。一方、繰り返し回数sがSに到達した場合には、収束条件を満足したと判断し、ステップS205で、上記ステップS203で更新された各時刻kのフレーズ指令up[k]及びアクセント指令ua[k]と、上記ステップS201で更新された事後確率P(sk=t|y,o′,θ′)とに基づいて、上記式(73)、式(74)、又は式(75)、式(76)に従って、各時刻kのフレーズ指令の振幅A(p)[k]、及び各位置nのアクセント指令の振幅Aa(a)を更新することにより、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθを更新する。
【0236】
ステップS206において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS201へ戻る。一方、収束判定条件を満たした場合には、ステップS207において、上記ステップS203で最終的に更新された指令系列oに基づいて、Viterbi アルゴリズムにより、状態系列sを推定する。また、推定された状態系列sから、状態遷移確率φを求める。
【0237】
そして、ステップS109では、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数の結合ベクトルq[k]と、上記ステップS205で最終的に得られたパラメータθと、上記ステップS207で得られた状態遷移確率φと、後述するステップS110で前回更新されたパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
【0238】
ステップS110では、上記ステップS109で算出された期待値に基づいて、上記式(102)が最大となるように、パラメータγを更新する。
【0239】
ステップS112において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS109へ戻る。一方、収束判定条件を満たした場合には、ステップS113において、上記ステップS205で最終的に得られたパラメータθと、上記ステップS207で得られた状態遷移確率φと、上記ステップS110で最終的に得られたパラメータγとを、パラメータ記憶部40に格納する。
【0240】
次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、上記図9に示す基本周波数パターン予測処理ルーチンが実行され、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果が、出力部90により出力される。
【0241】
以上説明したように、第2の実施の形態に係る基本周波数パターン予測装置によれば、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータθ、φを学習し、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータγを、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる
【0242】
[第3の実施の形態]
次に、本発明の第3の実施の形態に係る基本周波数パターン予測装置について説明する。なお、第1の実施の形態と同様の構成となる部分については同一符号を付して説明を省略する。
【0243】
第3の実施の形態では、パラメータγ、θ、φを推定する方法が第1の実施の形態と異なっている。
【0244】
第3の実施の形態では、学習サンプルのF0 パターン{y[k]}Kk=1が与えられた下で、P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるように、パラメータγ、θ、φを同時に学習する。
【0245】
図11に示すように、第3の実施の形態に係る基本周波数パターン予測装置の学習部30は、特徴量抽出部32と、基本周波数系列抽出部34と、モデルパラメータ学習部336とを備えている。
【0246】
モデルパラメータ学習部336は、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、c、yの結合分布P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるように、ソース音声の各時刻のスペクトル特徴量ベクトルc[k]とターゲット音声の各時刻kの基本周波数の結合ベクトルq[k]との同時確率分布を表す混合正規分布である第1確率分布のパラメータγ、及び各時刻kの基本周波数y[k]と、隠れマルコフモデルの各時刻の状態からなる状態系列sとの組み合わせの確率分布である第2確率分布のパラメータθ、φを学習する。
【0247】
具体的には、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、logP(c,y,m,s|γ,θ,φ)を大きくするように、第1確率分布のGMMのパラメータγ、及び第2確率分布のパラメータθ、φを学習する。
【0248】
変換処理部50は、第1の実施の形態と同様に、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、モデルパラメータ学習部336によって学習された第1確率分布のパラメータγ、及び第2確率分布のパラメータθ、φとに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、学習処理と共通の規準であるP(c,y,m,s|γ,θ,φ)を大きくするように、各時刻の基本周波数yと、各時刻kのスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスm、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。
【0249】
<基本周波数パターン予測装置の作用>
次に、第3の実施の形態に係る基本周波数パターン予測装置の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
【0250】
まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置に入力されると、基本周波数パターン予測装置において、図12に示す学習処理ルーチンが実行される。
【0251】
まず、ステップS101において、入力されたソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。
【0252】
ステップS300では、状態系列sと、状態系列sから求められるパラメータφと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθと、パラメータγとを初期設定する。
【0253】
そして、ステップS301において、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数y[k]、各時刻kの基本周波数y[k]から得られる各時刻kの基本周波数の結合ベクトルq[k]と、初期設定された、又は後述するステップS302で前回更新されたパラメータθ、状態遷移確率φ、及びパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
【0254】
ステップS302では、上記ステップS301で算出された期待値に基づいて、上記式(102)が最大となるように、パラメータθ、状態系列s、状態系列sから求められる状態遷移確率φ、パラメータγを更新する。
【0255】
そして、ステップS303において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS301へ戻る。一方、収束判定条件を満たした場合には、ステップS113において、上記ステップS302で最終的に得られたパラメータθと、状態系列sから求められる状態遷移確率φと、パラメータγとを、パラメータ記憶部40に格納する。
【0256】
次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、上記図9に示す基本周波数パターン予測処理ルーチンが実行され、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果が、出力部90により出力される。
【0257】
以上説明したように、第3の実施の形態に係る基本周波数パターン予測装置によれば、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータγ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータθ、φを、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる
【0258】
<実験>
音声信号からスペクトル特徴量系列とF0 パターンおよびフレーズ・アクセント指令を抽出し、スペクトル特徴量系列とフレーズ・アクセント指令系列のペアデータを用いて学習処理により上記のモデルパラメータ(GMM のパラメータ)を学習したのちに、変換処理によりスペクトル特徴量系列をフレーズ・アセント指令系列に変換する実験を行い、変換されたフレーズ・アセント指令系列が元のF0 パターンをどの程度復元できているかを確認した。図13にその結果の例を示す。点線が、音声信号から推定されたF0パターンであり、破線が、スペクトル特徴量系列から変換されたフレーズ・アセント指令系列から得られたF0 パターンである。スペクトル特徴量にはF0の情報が多く含まれていないにもかかわらず概ね元のF0 パターンを復元できていることが確認できた。
【0259】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0260】
例えば、上述の基本周波数パターン予測装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0261】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0262】
10 入力部
20 演算部
30 学習部
32 特徴量抽出部
34 基本周波数系列抽出部
36 第1モデルパラメータ学習部
38 第2モデルパラメータ学習部
40 パラメータ記憶部
50 変換処理部
52 特徴量抽出部
54 期待値算出部
56 変数更新部
58 収束判定部
90 出力部
100 基本周波数パターン予測装置
336 モデルパラメータ学習部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13