(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0017】
以下、音声処置装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0019】
本実施の形態において、高周波数領域の急峻な減衰を避けるため、アンチエイリアスフィルターを用いずに、ダウンサンプリング後の音声に相当するスペクトルを求め、このスペクトルをケプストラムのようなパラメータに変換してHMM等の学習に用いる音声処置装置について説明する。
【0020】
図1は、本実施の形態における音声処置装置1のブロック図である。音声処置装置1は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、および特徴量蓄積部16を備える。
【0021】
音声格納部11は、音声を格納し得る。音声格納部11は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。音声格納部11に音声が記憶される過程は問わない。例えば、記録媒体を介して音声が音声格納部11で記憶されるようになってもよく、通信回線等を介して送信された音声が音声格納部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された音声が音声格納部11で記憶されるようになってもよい。
特徴量格納部12は、1以上の特徴量を格納し得る。1以上の特徴量とは、本実施形態ではメルケプストラムを用いているが、特に限定されることはなく、ケプストラムやLSP(Line Spectral Pairs)、PARCOR係数(Partial Auto-Correlation Coefficient)等、何でも良い。また、特徴量格納部12は、1以上の特徴量とともに音響モデル学習用データとして音声の基本周波数(F
0)などを一緒に格納していても良い。
【0022】
特徴量格納部12は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0023】
本実施の形態では、例えば、標本化周波数16kHzの音声を合成するものとする。そして、スペクトル取得部13は、音声格納部11に格納されている所望の周波数より高い標本化周波数(本実施の形態では、例えば、48kHzとする)の音声から、スペクトルまたはスペクトル包絡を抽出する。そして、例えば、スペクトル取得部13は、
図2のスペクトル包絡を得る。
図2においてf
1はナイキスト周波数を表わし、本実施の形態の場合f
1=24kHzとなる。音声からスペクトルもしくはスペクトル包絡を抽出する技術は公知技術であるので、詳細な説明を省略する。なお、スペクトル取得部13は、例えば、STRAIGHT分析(H. Kawahara, in Proc. ICASSP-97, vol.2, pp.1303--1306, 1997.参照)によって実現され得る。
【0024】
切詰処理部14は、スペクトル取得部13が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う。ここで、閾値とは、通常、所望の(ダウンサンプリング適用後相当の)音声のナイキスト周波数(本実施例では8kHz)である。また、切り詰める処理とは、予め決められた閾値以上の周波数のスペクトル部分のデータを削除する処理、とも言える。なお、「閾値以上」は、「閾値より大きい」ことを含むとする。例えば、切詰処理部14は、
図2のスペクトル包絡から、所望のナイキスト周波数f
2(本実施の形態の場合、f
2=8kHzとなる)を超えるスペクトル区間のデータポイントを削除し、
図3のサンプリング周波数が16kHz相当のスペクトル包絡を得る。
【0025】
特徴量取得部15は、切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する。特徴量(本実施形態ではメルケプストラム)の取得は、例えば、音声信号処理ツールキット(SPTK)(http://sp-tk.sourceforge.net/参照)のmgcepコマンドによって実現され得る。
【0026】
特徴量蓄積部16は、特徴量取得部15が取得した1以上の特徴量を特徴量格納部12に蓄積する。特徴量蓄積部16は、特徴量取得部15が取得した1以上の特徴量とともに音響モデル学習用データとして音声の基本周波数(F
0)などを一緒に特徴量格納部12に蓄積しても良い。
【0027】
スペクトル取得部13、切詰処理部14、特徴量取得部15、および特徴量蓄積部16は、通常、MPUやメモリ等から実現され得る。スペクトル取得部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0028】
次に、音声処置装置1の動作について、
図4のフローチャートを用いて説明する。
【0029】
(ステップS401)スペクトル取得部13は、音声格納部11から音声を取得する。
【0030】
(ステップS402)スペクトル取得部13は、ステップS401で取得した音声のスペクトルまたはスペクトル包絡を取得する。
【0031】
(ステップS403)切詰処理部14は、ステップS402で取得されたスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の高周波数のスペクトルを切り詰める処理を行う。
【0032】
(ステップS404)特徴量取得部15は、ステップS403で切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する。
【0033】
(ステップS405)特徴量蓄積部16は、ステップS404で取得された1以上の特徴量を特徴量格納部12に蓄積し、処理を終了する。
【0034】
以下、本実施の形態における音声処置装置1がいかに効果的であるかを、実験例を紹介して説明する。なお、本実験例では、音声処置装置1を用いて生成した1以上の特徴量から音響モデルを生成し、当該音響モデルを用いて音声合成を行った。
【0035】
本実験で使用する音声は、イギリス英語コーパスに含まれる標本化周波数16kHzのデータ(以下16kHz音声という)と、標本化周波数48kHzの音声(48kHz音声)である。なお、この16kHz音声は、48kHz音声に対してAAFを含むダウンサンプリングを適用して得ている。ダウンサンプリングは、ごく一般的に利用されるソフトウェア(Edinburgh Speech Tools Library: http://www.cstr.ed.ac.uk/projects/speech tools/)によってなされている。
【0036】
また、本実験において、スペクトル特徴量は39次のメルケプストラムである。メルケプストラムは、音声信号処理ツールキット(SPTK)のmgcepコマンドを使って、STRAIGHT分析によって得られたスペクトル包絡(以下STRAIGHTスペクトル)から、特徴量取得部15が計算して、取得できる。
【0037】
有声区間の典型的な対数パワースペクトルを
図5に示す。
図5において、横軸は周波数、縦軸は対数パワーである。また、
図5の太破線(CEPS−TD)は16kHz音声のメルケプストラムから再構成したパワースペクトルであり、細実線(SPEC48k)は対応する48kHz音声のSTRAIGHTスペクトルである。同図から明らかなように、16kHz音声のスペクトル(CEPS−TD)はローパスフィルターの特性の影響でナイキスト周波数(8kHz)付近のエネルギーが乏しい。また、4〜6kHzのスペクトル起伏が48kHz音声のスペクトルに比べて平坦化している。こうした高周波数領域においてエネルギーが不足し、起伏が平坦化したスペクトルのメルケプストラムを音声合成の特徴量とすれば、合成音声の品質が劣化することは明らかである。これが従来技術の音声合成法の音声品質の劣化原因の一つである。
【0038】
一方、
図5の太実線(CEPS−ST)は、本発明に基づいて48kHz音声から生成した(サンプリング周波数16kHzの音声相当の)メルケプストラムから再構成したパワースペクトルである。このスペクトルは、ナイキスト周波数(8kHz)付近および4〜6kHzのパワーが、48kHz音声のSTRAIGHTスペクトル(SPEC48k)と一致している。こうしたスペクトルを表わすメルケプストラムを音声合成の特徴量とすれば、高い品質の音声合成が可能となる。
【0039】
次に、本実験において、上述の実施形態に基づいて得られたスペクトル特徴量を用いてHMMを学習し、学習したHMMから音声を合成する。そして、合成した音声について調べ、本発明の効果を確認する。
【0040】
本実験において、まず、以下の2つの異なるメルケプストラムを用いて別個にモデルを学習した。
(1)16kHz音声から計算したメルケプストラム(従来技術)
(2)48kHz音声から本発明の音声処置装置によって得たメルケプストラム
【0041】
なお、上記(1)および(2)を特徴量としてそれぞれHMMを学習する際、特徴量作成以外の条件は同一である。これらモデルを用いて合成した音声スペクトルを
図6に示す。
図6において、横軸は周波数、縦軸は対数パワーである。また、上記(1)の特徴量から学習したモデルを用いて合成した音声スペクトル(従来技術による音声スペクトル)は
図6のCEPS−TD、上記(2)の特徴量から学習したモデルを用いて合成した音声スペクトル(本発明による音声スペクトル)は
図6のCEPS−STである。
【0042】
図6から明らかなように、本発明を適用したHMM音声合成の合成音声は、従来技術に比べて、高周波数領域(7〜8kHz)のスペクトル・エネルギーが大幅に改善しているとともに、全周波数帯域にわたって、フォルマントやアンチフォルマントの平坦化の度合いが少ない。従来技術の合成音声のようにスペクトルが平坦化すると、音声品質は劣化し、音声はこもったように知覚される。したがって本発明を用いれば、そうした劣化を緩和または回避することができる。
【0043】
そこで、次に、上記のようなパワースペクトルをもつ音声が、人間の耳にどのように知覚されるかを調べるために、合成音声の自然性について聴取評価試験を行った。
【0044】
聴取試験の評定者は音声研究者5名で、各評定者は2つのシステムが音声合成した10文を評価する。評価スケールは、1('completely unnatural')から5('completely natural')の5段階で、試験は静かな部屋でヘッドフォンを用いて行われた。
【0045】
また、本試験に関わるスペクトル特徴量抽出、HMM学習、および音声合成の詳細を
図7に示す。
【0046】
以下、2つのシステムの処理手順を明記する。システム1の処理手順は、従来技術の処理手順である。つまり、システム1では、(予めダウンサンプリング処理が施された)16kHzで標本化された音声のスペクトル包絡をSTRAIGHT分析によって取得し、当該スペクトル包絡から計算したメルケプストラムをスペクトル特徴量とした学習を行い、HMMの音響モデルを構築した。そして、当該HMMの音響モデルを用いて、音声合成を行った。
【0047】
また、システム2では、STRAIGHT分析を用いて48kHzで標本化された音声のスペクトル包絡を取得し、当該スペクトル包絡に対して、音声処置装置1の本発明に基づく「スペクトル切り詰め処理」を行った。そして、スペクトル切り詰め処理を行った後のスペクトル包絡から計算したメルケプストラムを、スペクトル特徴量とした学習を行い、HMMの音響モデルを構築した。そして、当該HMMの音響モデルを用いて、音声合成を行った。
【0048】
図8に、聴取試験の結果の平均オピニオンスコア(MOS)を示す。16kHz音声を用いたシステム1(従来技術)はスコア2.5で、システム2(本発明)はスコア2.9となった。
【0049】
これらの結果から次のことがわかる。ダウンサンプリング時に用いたAAFのフィルター特性の悪影響は、本発明の音声処置装置1を用いることで回避可能であり、実際に聴感上、合成音声にMOS0.4相当の顕著な自然性の改善が見られた。
【0050】
以上の実験結果から明白なように、本実施の形態によれば、音声合成において、高い品質の出力音声が得られる特徴量を取得できる。
【0051】
なお、本実施の形態における音声処置装置1が生成した1以上の特徴量は、音声合成だけではなく、同種の特徴量を取り扱う他の音声技術(例えば音声認識や話者認識)等にも利用可能であり、そうした音声技術の性能向上にも貢献できる。
【0052】
また、音声合成処理のために与える情報は、テキストに限定されず、発音などを記した記号列やSpeech Synthesis Markup Language (SSML)のようなマークアップ言語、また、それらのバイナリデータ等であってもよい。つまり、音声合成処理のために与える情報は、音声合成する内容を示す情報であれば何でも良く、かかる情報を合成内容情報ということとする。
【0053】
また、音声処置装置1が生成した1以上の特徴量から音声のモデルを学習するモデル作成装置2が構成可能である。モデル作成装置2のブロック図の例は、以下の
図9である。モデル作成装置2は、モデル格納部21、特徴量格納部12、およびモデル学習部22を具備する。
【0054】
モデル格納部21は、音声のモデルを格納し得る。音声のモデルとは、従来技術の説明で示したように、声質や発話スタイルなどに関連する音声の特徴をモデル化したものをいい、例えば、各音素(または前後の音素環境を考慮した音素)毎に特徴量の時系列的なパターンをモデル化したものである。音声のモデルは、例えば、音韻毎の隠れマルコフモデル(HMM)に基づくデータが好適であるが、他のモデルに基づくデータでも良い。
【0055】
モデル学習部22は、1以上の特徴量から音声のモデルを構成し、モデル格納部21に蓄積する。なお、1以上の特徴量から音声のモデルを構成する技術は、例えば、
図14に示すHMM学習である。つまり、1以上の特徴量(例えば、メルケプストラム)に対してHMM学習を行いHMMの音響モデルを取得する。なお、モデル学習部22の処理は公知技術であるので、詳細な説明を省略する。
【0056】
また、モデル作成装置2が生成した音声のモデルを用いた音声合成装置3が構成可能である。音声合成装置3のブロック図の例は、以下の
図10である。音声合成装置3は、モデル格納部21、受付部31、音声生成部32、出力部33を備える。
【0057】
受付部31は、合成内容情報を受け付ける。合成内容情報とは、上述したように、音声合成する内容を示す情報であり、テキストに限定されず、発音などを記した記号列やSSMLのようなマークアップ言語、また、それらのバイナリデータ等であってもよい。ここで、受け付けとは、キーボードやマウスなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。合成内容情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部31は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0058】
音声生成部32は、受付部31が受け付けた合成内容情報に対して、モデル格納部21の音声のモデルを用いて、音声(合成音声)を生成する。音声生成部32は、例えば、
図14の音声特徴量生成と音声信号生成により、合成音声を取得する。つまり、音声生成部32は、音声のモデルに対して音声特徴量の生成処理を行い、音声特徴量(ここでは、メルケプストラム)を生成する。また、音声生成部32は、音声特徴量を用いて音声信号の生成処理を行い、合成音声を取得する。なお、音声生成部32の処理は公知技術であるので、詳細な説明を省略する。音声生成部32は、通常、MPUやメモリ等から実現され得る。音声生成部32の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0059】
出力部33は、音声生成部32が生成した音声を出力する。ここで出力とは、スピーカー等による音声出力、オーディオデバイスへの書き込みのほか、HDDや記録メディア上のファイルへの書き出し、他アプリケーションへの音声データの受け渡し等を含む概念である。出力部33は、例えば、スピーカー等から実現され得る。
【0061】
本実施の形態において、実施の形態1で説明した音声処置装置1が生成した1以上の特徴量を用いた音声合成装置4について説明する。
【0062】
音声合成装置4のブロック図の例は、以下の
図11である。なお、音声合成装置4は、特徴量格納部12を除いて、公知技術でも良い。
【0063】
音声合成装置4は、特徴量格納部12、受付部31、音声生成部42、出力部33を備える。
【0064】
音声生成部42は、受付部31が受け付けた合成内容情報に対して、特徴量格納部12の1以上の特徴量を用いて、音声を生成する。音声生成部42は、1以上の特徴量から直接に音声を生成する。音声生成部42は、さまざまな方法で実現可能であるが、本実施の形態では、音声素片接続タイプの音声生成方法で実現されている。すなわち、前記特徴量は所定の合成単位(例えばダイフォーン)で、音声素片として特徴量格納部12に保持されており、音声生成部42は前記文字情報にしたがって、音声素片を特徴量格納部12から取り出し順次接続して、所望の音声の特徴量時系列を生成する。その後、音声生成部42は当該特徴量時系列を音声に変換する。音声生成部42のこうした手法も公知技術であるので、詳細な説明を省略する。音声生成部42は、通常、MPUやメモリ等から実現され得る。音声生成部42の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0065】
また、音声処置装置1とモデル作成装置2とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置(音声処置装置)は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、特徴量蓄積部16、音響モデル格納部21、およびモデル学習部22を具備する。
【0066】
また、例えば、音声処置装置1とモデル作成装置2と音声合成装置3とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置(音声処置装置)は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、特徴量蓄積部16、音響モデル格納部21、モデル学習部22、受付部31、音声生成部32、および出力部33を具備する。
【0067】
また、例えば、音声処置装置1と音声合成装置4とを一の装置で実現しても良いことは言うまでもない。かかる場合の装置(音声処置装置)は、音声格納部11、特徴量格納部12、スペクトル取得部13、切詰処理部14、特徴量取得部15、特徴量蓄積部16、受付部31、音声生成部42、および出力部33を具備する。
【0068】
さらに、上記実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声のスペクトルまたはスペクトル包絡を取得するスペクトル取得部と、前記スペクトル取得部が取得したスペクトルまたはスペクトル包絡に対して、予め決められた閾値以上の周波数のスペクトルを切り詰める処理を行う切詰処理部と、前記切り詰める処理を行ったスペクトルまたはスペクトル包絡から1以上の特徴量を取得する特徴量取得部と、前記特徴量取得部が取得した1以上の特徴量を記憶媒体に蓄積する特徴量蓄積部として機能させるためのプログラム、である。
【0069】
また、
図12は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声処置装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。
図12は、このコンピュータシステム300の概観図であり、
図13は、システム300のブロック図である。
【0070】
図12において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、スピーカー306とを含む。
【0071】
図13において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、MPU3013と、当該MPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0072】
コンピュータシステム300に、上述した実施の形態の音声処置装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
【0073】
プログラムは、コンピュータ301に、上述した実施の形態の音声処置装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0074】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0075】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0076】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。