特許5983604 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許5983604素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5983604

(24)【登録日】2016年8月12日

(45)【発行日】2016年8月31日

(54)【発明の名称】素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム

(51)【国際特許分類】

G10L 13/06 20130101AFI20160818BHJP

【ＦＩ】

G10L13/06 210Z

G10L13/06 230B

【請求項の数】10

【全頁数】23

(21)【出願番号】特願2013-516186(P2013-516186)

(86)(22)【出願日】2012年5月10日

(86)【国際出願番号】JP2012003060

(87)【国際公開番号】WO2012160767

(87)【国際公開日】20121129

【審査請求日】2015年4月3日

(31)【優先権主張番号】特願2011-117155(P2011-117155)

(32)【優先日】2011年5月25日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103090

【弁理士】

【氏名又は名称】岩壁冬樹

(74)【代理人】

【識別番号】100124501

【弁理士】

【氏名又は名称】塩川誠人

(72)【発明者】

【氏名】加藤正徳

【審査官】井上健一

(56)【参考文献】

【文献】特開２００１−３４２８４（ＪＰ，Ａ）

【文献】特開２０１１−９０２１８（ＪＰ，Ａ）

【文献】特開２０１１−１０００５５（ＪＰ，Ａ）

【文献】特開２００９−２３７４２２（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／０６

(57)【特許請求の範囲】

【請求項1】

自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出す波形切り出し手段と、
前記波形切り出し手段によって切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出手段と、
前記特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成手段とを備える
ことを特徴とする素片情報生成装置。

【請求項2】

自然音声の属性情報に基づいて、前記自然音声から音声波形を切り出す時間周期を決定する周期制御手段を備える
請求項１に記載の素片情報生成装置。

【請求項3】

自然音声のスペクトル形状の変化の度合を示すスペクトル形状変化度を推定するスペクトル形状変化度推定手段と、
前記スペクトル形状変化度に基づいて、前記自然音声から音声波形を切り出す時間周期を決定する周期制御手段とを備える
請求項１または請求項２に記載の素片情報生成装置。

【請求項4】

周期制御手段は、
スペクトル形状変化度が小さいと判定される場合に、自然音声から音声波形を切り出す時間周期を通常時における時間周期よりも大きくする
請求項３に記載の素片情報生成装置。

【請求項5】

周期制御手段は、
スペクトル形状変化度が大きいと判定される場合に、自然音声から音声波形を切り出す時間周期を通常時における時間周期よりも小さくする
請求項３または請求項４に記載の素片情報生成装置。

【請求項6】

自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出す波形切り出し手段と、
前記波形切り出し手段によって切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出手段と、
前記特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成手段と、
素片を表す素片情報であって、前記時間領域波形を含む素片情報を記憶する素片情報記憶手段と、
入力された文字列に応じた素片情報を選択する素片情報選択手段と、
素片情報選択手段によって選択された素片情報を用いて音声合成波形を生成する波形生成手段とを備える
ことを特徴とする音声合成装置。

【請求項7】

自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出し、
前記音声波形から、当該音声波形の特徴パラメータを抽出し、
前記特徴パラメータに基づいて時間領域波形を生成する
ことを特徴とする素片情報生成方法。

【請求項8】

自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出し、
前記音声波形から、当該音声波形の特徴パラメータを抽出し、
前記特徴パラメータに基づいて時間領域波形を生成し、
素片を表す素片情報であって、前記時間領域波形を含む素片情報を記憶し、
入力された文字列に応じた素片情報を選択し、
選択した素片情報を用いて音声合成波形を生成する
ことを特徴とする音声合成方法。

【請求項9】

コンピュータに、
自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出す波形切り出し処理、
前記波形切り出し処理で切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出処理、および、
前記特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成処理
を実行させるための素片情報生成プログラム。

【請求項10】

コンピュータに、
自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出す波形切り出し処理、
前記波形切り出し処理で切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出処理、
前記特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成処理、
素片を表す素片情報であって、前記時間領域波形を含む素片情報を記憶する記憶処理、
入力された文字列に応じた素片情報を選択する素片情報選択処理、および、
前記素片情報選択処理で選択された素片情報を用いて音声合成波形を生成する波形生成処理
を実行させるための音声合成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声を合成する際に用いられる素片情報を生成する素片情報生成装置、素片情報生成方法、素片情報生成プログラム、および、素片情報を用いて音声を合成する音声合成装置、音声合成方法、音声合成プログラムに関する。

【背景技術】

【0002】

文字列を表す文字列情報を解析し、その文字列が示す音声情報から規則合成により合成音声を生成する音声合成装置が知られている。規則合成により合成音声を生成する音声合成装置では、先ず入力された文字列情報の解析結果を基に合成音声の韻律情報（音の高さ（ピッチ周波数）、音の長さ（音韻継続時間長）、および、音の大きさ（パワー）等に関する情報）を生成する。次に、文字列解析結果と生成された韻律情報とを基に、最適な素片(音節・半音節程度の長さを有する波形生成パラメータ系列)を素片辞書の中から複数選択し、一つの最適素片系列を作成する。そして、最適素片系列から波形生成パラメータ系列を形成し、その波形生成パラメータ系列から音声波形を生成することで合成音声を得る。素片辞書に蓄積されている素片は、多量の自然音声から様々な手法を用いて抽出・生成される。

【0003】

このような音声合成装置では、選択された素片から合成音声波形を生成する際に、高い音質を確保する目的で、生成された韻律情報に近い韻律を有する音声波形を素片から作り出す。合成音声波形と、その合成音声波形の生成に用いる素片の両者を生成する方法として、例えば、非特許文献１に記載された方法が用いられる。非特許文献１に記載の方法により生成される波形生成パラメータは、時間領域のパラメータ（より具体的にはピッチ周波数から算出した時間幅）を有する窓関数を用いて音声波形から切り出された波形である。従って、波形生成において周波数変換や対数変換、フィルタリングなどの処理が不要となるため、少ない計算量で合成音声波形を生成できる。

【0004】

また、特許文献１には、音声認識装置が記載され、特許文献２には、音声素片生成装置が記載されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００１−８３９７８号

【特許文献2】特開２００３−２２３１８０号

【非特許文献】

【0006】

【非特許文献1】Eric Moulines, Francis Charpentier, “Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphones”, Speech Communication Vol.9, pp.453-467, １９９０年

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかし、非特許文献１に記載された波形生成方法および素片辞書作成方法では、素片を作成する際に分析フレーム周期を自由に設定できない問題がある。

【0008】

自然音声波形から波形生成パラメータを生成するときに、分析フレーム周期と呼ばれる時間間隔で波形を切り出して波形生成パラメータを生成する。すなわち、分析フレーム周期とは、自然音声波形から波形生成パラメータを生成する場合に波形を切り出して波形生成パラメータを生成する時間間隔である。非特許文献１に記載された技術では、ピッチ周波数に依存する分析フレーム周期を用いる。具体的には、非特許文献１に記載された技術では、自然音声のピッチ周波数（ピッチ周波数分析に基づくピッチ周波数推定値を含む。）を用いて、ピッチ周波数に応じた分析フレーム周期を用いていた。そして、非特許文献１に記載された技術では、分析フレーム周期を、ピッチ周波数から一意に定めていた。

【0009】

このため、音声スペクトルの形状が急激に変化する区間において、十分な時間解像度（単位時間当たりのパラメータ量）を有する波形生成パラメータ時系列を得ることができず、合成音声の音質低下につながることがあった。このことは、分析対象音声のピッチ周波数が低い区間で顕著であった。また、音声スペクトルの形状変化が小さい区間においては、過剰な時間解像度を有する波形生成パラメータ時系列が生成されることになり、素片辞書のデータサイズを不要に大きくすることもあった。このことは、分析対象音声のピッチ周波数が高い区間で顕著であった。

【0010】

そこで、本発明は、時間領域パラメータの特徴である少ない計算量で波形を生成できる長所を備えつつ、素片作成元である自然音声のピッチ周波数が低い区間の素片を用いた場合にも、合成音声の音質低下を防止でき、また合成音声の音質を損なうことなくピッチ周波数が高い区間の素片情報のデータ量を削減できる素片情報生成装置、素片情報生成方法、素片情報生成プログラム、および、音声合成装置、音声合成方法、音声合成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0011】

本発明による素片情報生成装置は、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出す波形切り出し手段と、波形切り出し手段によって切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出手段と、特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成手段とを備えることを特徴とする。

【0012】

また、本発明による音声合成装置は、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出す波形切り出し手段と、波形切り出し手段によって切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出手段と、特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成手段と、素片を表す素片情報であって、時間領域波形を含む素片情報を記憶する素片情報記憶手段と、入力された文字列に応じた素片情報を選択する素片情報選択手段と、素片情報選択手段によって選択された素片情報を用いて音声合成波形を生成する波形生成手段とを備えることを特徴とする。

【0013】

また、本発明による素片情報生成方法は、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出し、音声波形から、当該音声波形の特徴パラメータを抽出し、特徴パラメータに基づいて時間領域波形を生成することを特徴とする。

【0014】

また、本発明による音声合成方法は、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出し、音声波形から、当該音声波形の特徴パラメータを抽出し、特徴パラメータに基づいて時間領域波形を生成し、素片を表す素片情報であって、時間領域波形を含む素片情報を記憶し、入力された文字列に応じた素片情報を選択し、選択した素片情報を用いて音声合成波形を生成することを特徴とする。

【0015】

また、本発明による素片情報生成プログラムは、コンピュータに、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出す波形切り出し処理、波形切り出し処理で切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出処理、および、特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成処理を実行させることを特徴とする。

【0016】

また、本発明による音声合成プログラムは、コンピュータに、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出す波形切り出し処理、波形切り出し処理で切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出処理、特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成処理、素片を表す素片情報であって、時間領域波形を含む素片情報を記憶する記憶処理、入力された文字列に応じた素片情報を選択する素片情報選択処理、および、素片情報選択処理で選択された素片情報を用いて音声合成波形を生成する波形生成処理を実行させることを特徴とする。

【発明の効果】

【0017】

本発明によれば、少ない計算量で波形を生成でき、素片作成元である自然音声のピッチ周波数が低い区間の素片を用いた場合にも、合成音声の音質低下を防止でき、また合成音声の音質を損なうことなくピッチ周波数が高い区間の素片情報のデータ量を削減できる。

【図面の簡単な説明】

【0018】

【図1】本発明の第１の実施形態の素片情報生成装置の例を示すブロック図である。

【図2】本発明の第１の実施形態の処理経過の例を示すフローチャートである。

【図3】本発明の第２の実施形態の素片情報生成装置の例を示すブロック図である。

【図4】本発明の第３の実施形態の素片情報生成装置の例を示すブロック図である。

【図5】本発明の第４の実施形態の音声合成装置の例を示すブロック図である。

【図6】目標素片環境および候補素片によって示される各情報の例を示す説明図である。

【図7】候補素片の属性情報によって示される各情報を示す説明図である。

【図8】選択素片の時間長を調整する例を示す模式図である。

【図9】フレーム数が１６の素片から無声音波形を生成する様子を示した説明図である。

【図10】フレーム数が１６の素片から有声音波形を生成する様子を示した説明図である。

【図11】本発明の第４の実施形態の処理経過の例を示すフローチャートである。

【図12】本発明の素片情報生成装置の最小構成の例を示すブロック図である。

【図13】本発明の音声合成装置の最小構成の例を示すブロック図である。

【発明を実施するための形態】

【0019】

以下、本発明の実施形態を図面を参照して説明する。

【0020】

実施形態１．
図１は、本発明の第１の実施形態の素片情報生成装置の例を示すブロック図である。本実施形態の素片情報生成装置は、素片情報記憶部１０と、属性情報記憶部１１と、自然音声記憶部１２と、分析フレーム周期記憶部２０と、波形切り出し部１４と、特徴パラメータ抽出部１５と、時間領域波形変換部２２とを備える。

【0021】

自然音声記憶部１２は、素片情報を生成する基となる基礎音声(自然音声波形)を表す情報を記憶する。

【0022】

素片情報は、音声素片を表す音声素片情報と、各音声素片の属性を表す属性情報とを含む。ここで、音声素片は、音声を合成する音声合成処理の基となる基礎音声(人間が発した音声(自然音声))の一部であり、基礎音声を音声合成単位毎に分割することにより生成される。

【0023】

本例では、音声素片情報は、音声素片から抽出され、かつ当該音声素片の特徴を表す特徴パラメータの時系列データを含む。また、音声合成単位は、音節である。なお、音声合成単位は、以下の参考文献１に示されているとおり、音素、ＣＶ（Ｖは母音を表し、Ｃは子音を表す。）等の半音節、ＣＶＣ、ＶＣＶ等であってもよい。

【0024】

［参考文献１］
阿部匡伸、「音声合成のための合成単位の基礎」、社団法人電子情報通信学会、電子情報通信学会技術研究報告、Ｖｏｌ．１００、Ｎｏ．３９２、ｐｐ．３５−４２、２０００年

【0025】

また、属性情報は、各音声素片の基礎音声における環境(音素環境)、および、韻律情報(基本周波数(ピッチ周波数)、振幅、および、継続時間長等)を含む。

【0026】

素片情報の例をより具体的に示す。素片情報は、音声素片情報と、属性情報と、波形生成パラメータ生成条件とを含む。なお、ここでは、音声合成単位が「音節」である場合を例にする。

【0027】

音声素片情報は、合成音声波形を生成するためのパラメータ（波形生成パラメータ）と称することもできる。音声素片情報の例として、例えば、後述のピッチ波形（時間領域波形変換部２２が生成した波形）の時系列、ケプストラムの時系列、あるいは、波形そのもの等（時間長は、単位長（音節長）である。）が挙げられる。

【0028】

属性情報として、例えば、韻律情報や言語情報が用いられる。韻律情報の例として、ピッチ周波数（先頭・最終・平均ピッチ周波数等）、継続時間長、パワー等が挙げられる。また、言語情報として、読み（例えば、日本語の「おはよう（o ha yo u ）」における「は（ha）」等）、音節列、音素列、アクセント位置からの位置の情報、アクセント句区切りからの位置の情報、形態素の品詞等が挙げられる。音節列は、先行音節（例えば、上記の「おはよう（o ha yo u ）」における「お（o ）」）、先行音節からさらに前に続く音節や、後続音節（例えば、上記の「おはよう（o ha yo u ）」における「よ（yo）」）、後続音節からさらに後に続く音節の音節列である。音素列は、先行音素（例えば、上記の「おはよう（o ha yo u ）」における「o 」）、先行音素からさらに前に続く音素や、後続音素（例えば、上記の「おはよう（o ha yo u ）」における「y 」）、後続音素からさらに後に続く音素の音素列である。アクセント位置からの位置の情報は、例えば、「アクセント位置から何番目の音節であるか」を表す情報である。アクセント句区切りからの位置の情報は、例えば、「アクセント句区切りから何番目の音節であるか」を表す情報である。

【0029】

波形生成パラメータ生成条件として、パラメータ種別、パラメータの次元数（例えば、１０次元、２４次元等）、分析フレーム長、分析フレーム周期等が挙げられる。パラメータ種別の例として、例えば、ケプストラム、ＬＰＣ（Linear Predictive Cefficient）、ＭＦＣＣ等が挙げられる。

【0030】

属性情報記憶部１１は、自然音声記憶部１２に記憶されている基礎音声に対応する文字列(収録文)を表す情報を含む言語情報と、基礎音声の韻律情報とを属性情報として記憶する。言語情報は、例えば、漢字かな混じり文を表す情報である。さらに、言語情報は、読み・音節列・音素列・アクセント位置・アクセント句区切り・形態素の品詞等の情報を含んでいてもよい。また、韻律情報は、ピッチ周波数・振幅、短時間パワーの時系列、および、自然音声に含まれる各音節・音素・ポーズの継続時間長等を含む。

【0031】

分析フレーム周期記憶部２０は、波形切り出し部１４が自然音声波形から波形を切り出す時間周期（すなわち、分析フレーム周期）を記憶する。分析フレーム周期記憶部２０は、自然音声のピッチ周波数に依存せずに定められた分析フレーム周期を記憶する。なお、自然音声のピッチ周波数に依存せずに定められた分析フレーム周期は、自然音声のピッチ周波数とは独立に定められた分析フレーム周期と言うこともできる。

【0032】

基本的には、分析フレーム周期の値を小さくすれば、合成音声の音質は向上し、素片情報のデータ量は多くなる。但し、分析フレーム周期を小さくすれば必ず音質が改善するとは限らない。分析フレーム周期低下に伴う音質改善は、人間の声の高さ、より具体的には自然音声のピッチ周波数の上限値に制限される。例えば、大人の女性の声のピッチ周波数は１０００Ｈｚを超えることがほぼ無いため、女性アナウンサの声の場合、分析フレーム周期を１ミリ秒(＝１／１０００秒)以下に設定しても、合成音声の音質は殆ど向上しない。男性アナウンサの声の場合であれば、分析フレーム周期を２ミリ秒以下にしても合成音声の音質向上を見込むことは困難である。なお、歌声や子供の声を合成する場合は、上記の分析フレーム周期よりも更に小さな値を採用すべきである。また、分析フレーム周期を大きくし過ぎると、合成音声の品質に深刻な影響を与える。例えば、話し声に含まれる音素の時間長は、長いものでも５０００ミリ秒を超えることは無い。従って、素片情報のデータ量を削減する目的で５０００ミリ秒を超える分析フレーム周期を設定すべきではない。

【0033】

波形切り出し部１４は、分析フレーム周期記憶部２０に記憶された分析フレーム周期で、自然音声記憶部１２に記憶されている自然音声から音声波形を切り出し、切り出した音声波形の時系列を特徴パラメータ抽出部１５へ伝達する。切り出す波形の時間長は分析フレーム長と呼ばれ、予め設定された値が用いられる。分析フレーム長として、例えば、１０ミリ秒から５０ミリ秒の間の値を採用すればよい。そして、分析フレーム長として、常に同じ値(例えば２０ミリ秒)を用いてもよい。切り出し対象の自然音声波形の長さは様々であるが、短くても数秒程度はあるので、分析フレーム長の数百倍以上となることが殆どである。例えば、分析フレーム長をＮとし、自然音声波形をｓ（ｔ）とし（但し、ｔ＝０，１，・・・，Ｎ−１）、分析フレーム周期をＴとする。また、自然音声波形長をＬとする。長い自然音声波形から短い波形を切り出すので、Ｌ＞＞Ｎという関係が成立する。このとき、第ｎフレーム目の切り出し波形をｘ_ｎ（ｔ）とすると、ｘ_ｎ（ｔ）は、以下の式（１）で表される。

【0034】

【数1】

【0035】

但し、ｎ＝０，１，・・・，（Ｌ／Ｎ）−１である。また、Ｌ／Ｎが整数でない場合は、Ｌ／Ｎの小数点以下を切り捨て、（Ｌ／Ｎ）−１を整数とする。

【0036】

特徴パラメータ抽出部１５は、波形切り出し部１４から供給された音声波形から、その音声波形の特徴パラメータを抽出し、時間領域波形変換部２２へ伝達する。波形切り出し部１４から特徴パラメータ抽出部１５へは、予め設定された分析フレーム長を有する切り出し波形が、分析フレーム周期の時間間隔で複数供給される。特徴パラメータ抽出部１５は、供給された複数の切り出し波形から、逐一、特徴パラメータを抽出する。特徴パラメータの例として、例えば、パワースペクトル、線形予測係数、ケプストラム、メルケプストラム、ＬＳＰ、ＳＴＲＡＩＧＨＴスペクトル等が挙げられる。切り出された音声波形から、これらの特徴パラメータを抽出する方法については、以下の参考文献２，３，４に記載されている。

【0037】

［参考文献２］
古井貞熙著、「音声情報処理」、森北出版株式会社、pp.16-33、１９９８年
［参考文献３］
斎藤収三、中田和男著、「音声情報処理の基礎」、オーム社、pp.14-31、pp.73-77、１９８１年
［参考文献４］
H.Kawahara, "Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited", IEEE ICASSP-97, vol.2, pp.1303-1306, １９９７年

【0038】

ここでは、波形切り出し部１４で切り出された音声波形から特徴パラメータとしてケプストラムを抽出する場合を例にして説明する。

【0039】

第ｎフレームの切り出し波形をｘ_ｎ（ｔ）とする。但し、ｔ＝０，１，・・・，Ｎ−１である。このとき、ケプストラムをｃ_ｎ（ｋ）とすると、ｃ_ｎ（ｋ）は、以下の式（２）で表され、特徴パラメータ抽出部１５は、式（２）によりケプストラムｃ_ｎ（ｋ）を求めればよい。

【0040】

【数2】

【0041】

ただし、ｋ＝０，１，・・・，Ｋ−１であり、Ｋは、特徴パラメータの長さである。すなわち、ケプストラムは、切り出し波形に対してフーリエ変換を行い、その絶対値（振幅スペクトルとも呼ばれる。）の対数を計算し、逆フーリエ変換を行うことによって得られる。特徴パラメータの長さＫは、Ｎよりも小さい値としてもよい。

【0042】

時間領域波形変換部２２は、特徴パラメータ抽出部１５が抽出した特徴パラメータの時系列をフレーム単位で時間領域波形に逐一変換する。変換された時間領域波形は、合成音声の波形生成パラメータとなる。本明細書では、自然音声波形や合成音声波形と区別する目的で、時間領域波形変換部２２が生成した波形をピッチ波形と呼ぶ。特徴パラメータ抽出部１５が抽出した特徴パラメータの時系列を時間領域波形に変換する方法は、特徴パラメータの性質に応じて異なる。例えば、サブバンドパワースペクトルの場合には、逆フーリエ変換を利用する。特徴パラメータ抽出部１５の説明で例に挙げた各種特徴パラメータ（パワースペクトル、線形予測係数、ケプストラム、メルケプストラム、ＬＳＰ、ＳＴＲＡＩＧＨＴスペクトル等）から時間領域波形への変換方法は、前述の参考文献２，３，４に記載されている。ここでは、ケプストラムから時間領域波形を求める方法を例にして説明する。

【0043】

第ｎフレームのケプストラムをｃ_ｎ（ｋ）とする。但し、ｋ＝０，１，・・・，Ｋ−１である。また、時間領域波形（すなわち、ピッチ波形）をｙ_ｎ（ｔ）とする。但し、ｔ＝０，１，・・・，Ｎ−１である。ｙ_ｎ（ｔ）は、以下の式（３）で表され、時間領域波形変換部２２は、式（３）によりｙ_ｎ（ｔ）を求めればよい。

【0044】

【数3】

【0045】

すなわち、ピッチ波形は、ケプストラムをフーリエ変換し、更に逆フーリエ変換を行うことによって得られる。

【0046】

素片情報記憶部１０は、属性情報記憶部１１から供給された属性情報と、時間領域波形変換部２２から供給されたピッチ波形と、分析フレーム周期記憶部２０に記憶された分析フレーム周期とを含む素片情報を記憶する。

【0047】

素片情報記憶部１０に記憶された素片情報は、音声合成装置（図１において図示せず。）における音声合成処理に利用される。すなわち、素片情報記憶部１０に素片情報が記憶された後、音声合成装置は、音声合成処理の対象となるテキストを受け付けると、素片情報記憶部１０に記憶されている素片情報に基づいて、受け付けたテキストを表す音声を合成するための音声合成処理を行う。

【0048】

波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２は、例えば、記憶装置を備え、素片情報生成プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、例えば、コンピュータのプログラム記憶装置（図示略）が素片情報生成プログラムを記憶し、ＣＰＵがそのプログラムを読み込んで、そのプログラムに従って、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２として動作すればよい。また、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２が別々のハードウェアで実現されていてもよい。

【0049】

図２は、本発明の第１の実施形態の処理経過の例を示すフローチャートである。第１の実施形態では、まず、波形切り出し部１４が、自然音声のピッチ周波数に依存せずに定められた分析フレーム周期で、自然音声記憶部１２に記憶されている自然音声から音声波形を切り出す（ステップＳ１）。この分析フレーム周期は、分析フレーム周期記憶部２０に予め記憶され、波形切り出し部１４は分析フレーム周期記憶部２０に記憶された分析フレーム周期で音声波形を切り出せばよい。次に、特徴パラメータ抽出部１５が、音声波形から特徴パラメータを抽出する（ステップＳ２）。そして、時間領域波形変換部２２は、特徴パラメータの時系列をフレーム単位でピッチ波形に変換する（ステップＳ３）。そして、素片情報記憶部１０が、属性情報記憶部１１から供給される属性情報と、時間領域波形変換部２２から供給されるピッチ波形と、分析フレーム周期記憶部２０に記憶される分析フレーム周期とを含む素片情報を記憶する（ステップＳ４）。素片情報記憶部１０に記憶された素片情報は、音声合成装置における音声合成処理に用いられる。

【0050】

本実施の形態によれば、素片情報を生成する際に一定の分析フレーム周期でピッチ波形を生成する。このため、合成音声を生成するときに、非特許文献１に記載された技術と同様に少ない計算量で波形を生成することができる。また、本実施の形態において用いる分析フレーム周期は、自然音声のピッチ周波数に依存せずに定められている。従って、素片作成元である自然音声のピッチ周波数が低い区間の素片を用いて音声合成を行う場合に、非特許文献１に記載された技術よりも合成音声の音質低下を防止できる。また、非特許文献１に記載された技術と比較して、合成音声の音質を損なうことなく、ピッチ周波数が高い区間の素片情報のデータ量を削減できる。

【0051】

実施形態２．
本発明の第２の実施形態の素片情報生成装置は、音声素片の属性情報に応じて分析フレーム周期を制御する。

【0052】

図３は、本発明の第２の実施形態の素片情報生成装置の例を示すブロック図である。第１の実施形態と同様の要素については、図１と同一の符号を付し、詳細な説明を省略する。本実施形態の素片情報生成装置は、素片情報記憶部１０と、属性情報記憶部１１と、自然音声記憶部１２と、分析フレーム周期制御部３０と、波形切り出し部１４と、特徴パラメータ抽出部１５と、時間領域波形変換部２２とを備える。すなわち、本実施形態の素片情報生成装置は、第１の実施形態における分析フレーム周期記憶部２０に代えて、分析フレーム周期制御部３０を備える。

【0053】

分析フレーム周期制御部３０は、属性情報記憶部１１から供給された属性情報に基づいて、適切な分析フレーム周期を算出し、波形切り出し部１２に伝達する。分析フレーム周期制御部３０は、分析フレーム周期の計算に、属性情報に含まれる言語情報や韻律情報を利用する。言語情報の中の音素や音節の種別を利用する場合は、該当する種別の音声スペクトルの形状変化速度に応じて、フレーム周期を切り替える方法が有効である。例えば、分析フレーム周期制御部３０は、分析対象区間が長母音の音節であれば、スペクトル形状の変化が小さい区間なので、分析フレーム周期を長くする。これにより、合成音声の音質を損なわずに該当区間のフレーム数を削減できる。また、分析対象区間が有声子音区間であれば、スペクトル形状の変化が大きい区間なので、分析フレーム周期を短くする。これにより、該当区間の素片を利用したときの合成音声の音質が向上する。

【0054】

すなわち、分析フレーム周期制御部３０は、素片の属性情報に基づいて、スペクトル形状変化度が大きいと推定される区間では分析フレーム周期を短くし、スペクトル形状変化度が小さいと推定される区間では分析フレーム周期を長くする。スペクトル形状変化度は、スペクトル形状の変化の度合である。

【0055】

波形切り出し部１４は、分析フレーム周期制御部３０に制御された分析フレーム周期で、自然音声から音声波形を切り出す。他の点に関しては、第１の実施形態と同様である。

【0056】

分析フレーム周期制御部３０、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２は、例えば、記憶装置を備え、素片情報生成プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵが、素片情報生成プログラムに従って、分析フレーム周期制御部３０、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２として動作すればよい。また、分析フレーム周期制御部３０、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２が別々のハードウェアで実現されていてもよい。

【0057】

本実施形態では、分析フレーム周期制御部３０が、スペクトル形状変化度が大きいと推定される区間では分析フレーム周期を短くし、スペクトル形状変化度が小さいと推定される区間では分析フレーム周期を長くする。この結果、素片作成元である自然音声のピッチ周波数が低い区間の素片を用いて音声合成する場合に、合成音声の音質低下を防止でき、合成音声の音質を損なうことなく、ピッチ周波数が高い区間の素片情報のデータ量を削減できるという効果を、第１の実施形態より大きくすることができる。

【0058】

第２の実施形態では、分析フレーム周期制御部３０が属性情報に基づいて分析フレーム周期を制御する。このとき、分析フレーム周期制御部３０は、自然音声のピッチ周波数は用いていない。従って、第２の実施形態における分析フレーム周期も、第１の実施形態と同様に、ピッチ周波数に依存していない。

【0059】

実施形態３．
本発明の第３の実施形態の素片情報生成装置は、自然音声を分析してスペクトル形状変化度を計算し、そのスペクトル形状変化度に応じて分析フレーム周期を制御する。

【0060】

図４は、本発明の第３の実施形態の素片情報生成装置の例を示すブロック図である。第１の実施形態や第２の実施形態と同様の要素については、図１や図３と同一の符号を付し、詳細な説明を省略する。本実施形態の素片情報生成装置は、素片情報記憶部１０と、属性情報記憶部１１と、自然音声記憶部１２と、スペクトル形状変化度推定部４１と、分析フレーム周期制御部４０と、波形切り出し部１４と、特徴パラメータ抽出部１５と、時間領域波形変換部２２とを備える。すなわち、本実施形態の素片情報生成装置は、第１の実施形態における分析フレーム周期記憶部２０に代えて、スペクトル形状変化度推定部４１および分析フレーム周期制御部４０を備える。

【0061】

スペクトル形状変化度推定部４１は、自然音声記憶部１２から供給された自然音声のスペクトル形状変化度を推定し、分析フレーム周期制御部４０に伝達する。

【0062】

前述の第２の実施形態では、素片の属性情報に基づいて、スペクトル形状変化度が大きいと推定される区間や、スペクトル形状変化度が小さいと推定される区間を判定して、分析フレーム周期を制御する。これに対し、第３の実施形態では、スペクトル形状変化度推定部４１が、自然音声を直接分析してスペクトル形状変化度を推定する。

【0063】

スペクトル形状変化度推定部４１は、例えば、スペクトル形状を表す各種パラメータを求め、そのパラメータの単位時間あたりの変化量をスペクトル形状変化度とすればよい。第ｎフレーム目におけるスペクトル形状を表すＫ次元パラメータをｐ_ｎとし、ｐ_ｎを以下の式（４）で表すとする。

【0064】

【数4】

【0065】

このとき、第ｎフレーム目におけるスペクトル形状変化度をΔｐ_ｎとすると、Δｐ_ｎは、例えば、以下の式（５）で計算することができる。

【0066】

【数5】

【0067】

式（５）は、ベクトルで表されるｐ_ｎの次数ごと（換言すれば、要素ごと）に、第ｎフレームと第ｎ＋１フレームとの差分を計算し、その二乗和をスペクトル形状変化度Δｐ_ｎとすることを意味する。

【0068】

また、以下の式（６）で計算したΔｐ_ｎを、スペクトル形状変化度としてもよい。

【0069】

【数6】

【0070】

式（６）は、ベクトルで表されるｐ_ｎの次数ごと（換言すれば、要素ごと）に、第ｎフレームと第ｎ＋１フレームとの差分の絶対値を計算し、その和をスペクトル形状変化度Δｐ_ｎとすることを意味する。

【0071】

スペクトル形状を表すパラメータとして、特徴パラメータ抽出部１５が抽出する特徴パラメータと同様のパラメータを利用できる。例えば、スペクトル形状を表すパラメータとして、ケプストラムを利用できる。この場合、第１の実施形態で説明した特徴パラメータ抽出部１５がケプストラムを抽出する方法と同様の方法で、スペクトル形状変化度推定部４１は、自然音声波形からケプストラムを抽出すればよい。

【0072】

分析フレーム周期制御部４０は、スペクトル形状変化度推定部４１から供給されたスペクトル形状変化度に基づいて、適切な分析フレーム周期を求め、波形切り出し部１４に伝達する。分析フレーム周期制御部４０は、スペクトル形状変化度が小さい区間では、分析フレーム周期を長くする。より具体的には、分析フレーム周期制御部４０は、スペクトル形状変化度が事前に定めた第１の閾値を下回った場合には、分析フレーム周期を通常時よりも大きい値に切り替える。一方、分析フレーム周期制御部４０は、スペクトル形状変化度が大きい区間では、分析フレーム周期を短くする。より具体的には、分析フレーム周期制御部４０は、スペクトル形状変化度が事前に定めた第２の閾値を上回った場合には、分析フレーム周期を通常時よりも小さい値に切り替える。ここで、第２の閾値は、第１の閾値よりも大きな値として定めておく。

【0073】

スペクトル形状変化度推定部４１、分析フレーム周期制御部４０、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２は、例えば、記憶装置を備え、素片情報生成プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵが、素片情報生成プログラムに従って、スペクトル形状変化度推定部４１、分析フレーム周期制御部４０、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２として動作すればよい。また、スペクトル形状変化度推定部４１、分析フレーム周期制御部４０、波形切り出し部１４、特徴パラメータ抽出部１５および時間領域波形変換部２２が別々のハードウェアで実現されていてもよい。

【0074】

本実施形態によれば、スペクトル形状変化度推定部４１が、分析対象の自然音声波形を分析してスペクトル形状変化度を求める。そして、分析フレーム周期制御部４０が、スペクトル形状変化度が大きい区間のフレーム周期を短くし、推定変化度が小さい区間のフレーム周期を長くする。従って、素片作成元である自然音声のピッチ周波数が低い区間の素片を用いて音声合成する場合に、合成音声の音質低下を防止でき、合成音声の音質を損なうことなく、ピッチ周波数が高い区間の素片情報のデータ量を削減できるという効果を、第１の実施形態より大きくすることができる。

【0075】

第３の実施形態では、分析フレーム周期制御部４０が、スペクトル形状変化度に応じて分析フレーム周期を制御する。このとき、分析フレーム周期制御部４０は、自然音声のピッチ周波数は用いていない。従って、第３の実施形態における分析フレーム周期も、第１の実施形態と同様に、ピッチ周波数に依存していない。

【0076】

実施形態４．
図５は、本発明の第４の実施形態の音声合成装置の例を示すブロック図である。本発明の第４の実施形態の音声合成装置は、第１の実施形態から第３の実施形態のうちのいずれかの素片情報生成装置の構成要素に加え、言語処理部１と、韻律生成部２と、素片選択部３と、波形生成部４とを備える。なお、図５では、素片情報生成装置の構成要素のうち素片情報記憶部１０のみを図示し、素片情報生成装置の他の構成要素については図示を省略している。

【0077】

なお、以下の説明において、素片情報記憶部１０に記憶された素片情報を、単に、素片と記す場合がある。

【0078】

言語処理部１は、入力されたテキスト文の文字列を分析する。具体的には、言語処理部１は、形態素解析、構文解析、または読み付け等の分析を行う。なお、読み付けとは、漢字に読み仮名を付ける処理である。そして、言語処理部１は分析結果に基づいて、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、およびアクセント型等を表す情報とを言語解析処理結果として韻律生成部２と素片選択部３とに出力する。

【0079】

韻律生成部２は、言語処理部１によって出力された言語解析処理結果に基づいて、合成音声の韻律を生成し、生成した韻律を示す韻律情報を目標韻律情報として素片選択部３および波形生成部４に出力する。韻律生成部２は、例えば、以下の参考文献５に記載された方法で韻律を生成すればよい。

【0080】

［参考文献５］
石川泰、「音声合成のための韻律制御の基礎」、社団法人電子情報通信学会、電子情報通信学会技術研究報告、Ｖｏｌ．１００、Ｎｏ．３９２、ｐｐ．２７−３４、２０００年

【0081】

素片選択部３は、言語解析処理結果と目標韻律情報とに基づいて、素片情報記憶部１０に記憶されている素片のうち、所定の要件を満たす素片を選択し、選択した素片とその素片の属性情報とを波形生成部４に出力する。素片選択部３が素片情報記憶部１０に記憶されている素片のうち、所定の要件を満たす素片を選択する動作について説明する。

【0082】

素片選択部３は、入力された言語解析処理結果と目標韻律情報とに基づいて、合成音声の特徴を示す情報（以下、これを「目標素片環境」と呼ぶ。）を音声合成単位毎に生成する。

【0083】

目標素片環境は、その目標素片環境の生成対象の合成音声を構成する音素（以下、該当音素と記す。）、該当音素の前の音素である先行音素、該当音素の後の音素である後続音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、音声合成単位の継続時間長、ケプストラム、ＭＦＣＣ（Mel Frequency Cepstral Coefficients ）、およびこれらのΔ量等を含む情報である。なお、Δ量とは、単位時間あたりの変化量を意味する。

【0084】

次に、素片選択部３は、生成した目標素片環境に含まれる情報に基づいて、合成音声単位毎に、連続する音素に対応する素片を素片情報記憶部１０からそれぞれ複数取得する。つまり、素片選択部３は、目標素片環境に含まれる情報に基づいて、該当音素、先行音素、および後続音素のそれぞれに対応する素片をそれぞれ複数取得する。取得された素片は、合成音声を生成するために用いられる素片の候補であり、以下、候補素片と記す。

【0085】

そして、素片選択部３は、取得した複数の隣接する候補素片の組み合わせ（例えば、該当音素に対応する候補素片と先行音素に対応する候補素片との組み合わせ）毎に、音声を合成するために用いる素片としての適切度を示す指標であるコストを算出する。コストは、目標素片環境と候補素片の属性情報との差異、および隣接する候補素片の属性情報の差異の算出結果である。

【0086】

コストは、目標素片環境によって示される合成音声の特徴と候補素片との類似度が高いほど、つまり音声を合成するための適切度が高くなるほど小さくなる。そして、コストが小さい素片を用いるほど、合成された音声は、人間が発した音声と類似している程度を示す自然度が高くなる。従って、素片選択部３は、算出したコストが最も小さい素片を選択する。

【0087】

素片選択部３によって計算されるコストには、具体的には、単位コストと接続コストとがある。単位コストは、候補素片が目標素片環境によって示される環境で用いられた場合に生じると推定される音質劣化度を示す。単位コストは、候補素片の属性情報と目標素片環境との類似度に基づいて算出される。また、接続コストは、接続される音声素片間の素片環境が不連続であることによって生じると推定される音質劣化度を示す。接続コストは、隣接する候補素片同士の素片環境の親和度に基づいて算出される。単位コストおよび接続コストの算出方法は各種提案されている。

【0088】

一般に、単位コストの算出には、目標素片環境によって含まれる情報が用いられる。また、接続コストの算出には、隣接する素片の接続境界におけるピッチ周波数、ケプストラム、ＭＦＣＣ、短時間自己相関、パワー、およびこれらのΔ量等が用いられる。具体的には、単位コストおよび接続コストは、素片に関する各種情報（ピッチ周波数、ケプストラム、パワー等）を複数用いて算出される。

【0089】

単位コストの算出例について説明する。図６は、目標素片環境によって示される各情報と、候補素片Ａ１および候補素片Ａ２の属性情報によって示される各情報の例を示す。

【0090】

本例では、目標素片環境によって示されるピッチ周波数はｐｉｔｃｈ０［Ｈｚ］であり、継続時間長はｄｕｒ０［ｓｅｃ］であり、パワーはｐｏｗ０［ｄＢ］であり、アクセント核からの距離はｐｏｓ０であるとする。また、候補素片Ａ１の属性情報によって示されるピッチ周波数はｐｉｔｃｈ１［Ｈｚ］であり、継続時間長はｄｕｒ１［ｓｅｃ］であり、パワーはｐｏｗ１［ｄＢ］であり、アクセント核からの距離はｐｏｓ１であるとする。候補素片Ａ２の属性情報によって示されるピッチ周波数はｐｉｔｃｈ２［Ｈｚ］であり、継続時間長はｄｕｒ２［ｓｅｃ］であり、パワーはｐｏｗ２［ｄＢ］であり、アクセント核からの距離はｐｏｓ２であるとする。

【0091】

なお、アクセント核からの距離とは、音声合成単位において、アクセント核となる音素からの距離である。例えば、５個の音素からなる音声合成単位において、３番目の音素がアクセント核である場合に、１番目の音素に対応する素片のアクセント核からの距離は「−２」であり、２番目の音素に対応する素片のアクセント核からの距離は「−１」であり、３番目の音素に対応する素片のアクセント核からの距離は「０」であり、４番目の音素に対応する素片のアクセント核からの距離は「＋１」であり、５番目の音素に対応する素片のアクセント核からの距離は「＋２」である。

【0092】

そして、候補素片Ａ１の単位コストをｕｎｉｔ＿ｓｃｏｒｅ（Ａ１）とすると、ｕｎｉｔ＿ｓｃｏｒｅ（Ａ１）は以下の式（７）によって計算すればよい。

【0093】

【数7】

【0094】

同様に、候補素片Ａ２の単位コストをｕｎｉｔ＿ｓｃｏｒｅ（Ａ２）とすると、ｕｎｉｔ＿ｓｃｏｒｅ（Ａ２）は以下の式（８）によって計算すればよい。

【0095】

【数8】

【0096】

但し、式（７）および式（８）において、ｗ１〜ｗ４は、予め決められた重み係数である。

【0097】

次に、接続コストの算出例について説明する。図７は、候補素片Ａ１、候補素片Ａ２、候補素片Ｂ１、および候補素片Ｂ２の属性情報によって示される各情報を示す説明図である。なお、候補素片Ｂ１および候補素片Ｂ２は、候補素片Ａ１および候補素片Ａ２を候補素片とする素片の後続素片の候補素片である。

【0098】

本例では、候補素片Ａ１の始端ピッチ周波数はｐｉｔｃｈ＿ｂｅｇ１［Ｈｚ］であり、終端ピッチ周波数はｐｉｔｃｈ＿ｅｎｄ１［Ｈｚ］であり、始端パワーはｐｏｗ＿ｂｅｇ１［ｄＢ］であり、終端パワーはｐｏｗ＿ｅｎｄ１［ｄＢ］であるとする。また、候補素片Ａ２の始端ピッチ周波数はｐｉｔｃｈ＿ｂｅｇ２［Ｈｚ］であり、終端ピッチ周波数はｐｉｔｃｈ＿ｅｎｄ２［Ｈｚ］であり、始端パワーはｐｏｗ＿ｂｅｇ２［ｄＢ］であり、終端パワーはｐｏｗ＿ｅｎｄ２［ｄＢ］であるとする。

【0099】

また、候補素片Ｂ１の始端ピッチ周波数はｐｉｔｃｈ＿ｂｅｇ３［Ｈｚ］であり、終端ピッチ周波数はｐｉｔｃｈ＿ｅｎｄ３［Ｈｚ］であり、始端パワーはｐｏｗ＿ｂｅｇ３［ｄＢ］であり、終端パワーはｐｏｗ＿ｅｎｄ３［ｄＢ］であるとする。候補素片Ｂ２の始端ピッチ周波数はｐｉｔｃｈ＿ｂｅｇ４［Ｈｚ］であり、終端ピッチ周波数はｐｉｔｃｈ＿ｅｎｄ４［Ｈｚ］であり、始端パワーはｐｏｗ＿ｂｅｇ４［ｄＢ］であり、終端パワーはｐｏｗ＿ｅｎｄ４［ｄＢ］であるとする。

【0100】

そして、候補素片Ａ１と候補素片Ｂ１との接続コストをｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ１，Ｂ１）とすると、ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ１，Ｂ１）は、以下の式（９）によって計算すればよい。

【0101】

【数9】

【0102】

同様に、候補素片Ａ１と候補素片Ｂ２との接続コストをｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ１，Ｂ２）とすると、ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ１，Ｂ２）は、以下の式（１０）によって計算すればよい。

【0103】

【数10】

【0104】

候補素片Ａ２と候補素片Ｂ１との接続コストをｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ２，Ｂ１）とすると、ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ２，Ｂ１）は、以下の式（１１）によって計算すればよい。

【0105】

【数11】

【0106】

候補素片Ａ２と候補素片Ｂ２との接続コストをｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ２，Ｂ２）とすると、ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ２，Ｂ２）は、以下の式（１２）によって計算すればよい。

【0107】

【数12】

【0108】

但し、式（９）から式（１２）において、ｃ１，ｃ２は、予め決められた重み係数である。

【0109】

素片選択部３は、算出した単位コストと接続コストとに基づいて、候補素片Ａ１と候補素片Ｂ１との組み合わせのコストを算出する。具体的には、素片選択部３は、候補素片Ａ１と候補素片Ｂ１との組み合わせのコストを、ｕｎｉｔ（Ａ１）＋ｕｎｉｔ（Ｂ１）＋ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ１，Ｂ１）の計算式により算出する。同様に、素片選択部３は、候補素片Ａ２と候補素片Ｂ１との組み合わせのコストを、ｕｎｉｔ（Ａ２）＋ｕｎｉｔ（Ｂ１）＋ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ２，Ｂ１）の計算式により算出する。また、素片選択部３は、候補素片Ａ１と候補素片Ｂ２との組み合わせのコストを、ｕｎｉｔ（Ａ１）＋ｕｎｉｔ（Ｂ２）＋ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ１，Ｂ２）の計算式により算出する。また、素片選択部３は、候補素片Ａ２と候補素片Ｂ２との組み合わせのコストを、ｕｎｉｔ（Ａ２）＋ｕｎｉｔ（Ｂ２）＋ｃｏｎｃａｔ＿ｓｃｏｒｅ（Ａ２，Ｂ２）の計算式により算出する。

【0110】

素片選択部３は、候補素片の中から音声の合成に最も適した素片として、算出したコストが最小となる組み合わせの素片を選択する。なお、素片選択部３によって選択された素片を「選択素片」と呼ぶ。

【0111】

波形生成部４は、韻律生成部２によって出力された目標韻律情報と、素片選択部３によって出力された素片およびその素片の属性情報とに基づいて、目標韻律情報に合致または類似する韻律を有する音声波形を生成する。そして、波形生成部４は、生成した音声波形を接続して合成音声を生成する。波形生成部４が素片単位で生成した音声波形を通常の音声波形と区別する目的で素片波形と記す。

【0112】

はじめに、波形生成部４は、選択素片の時間長が、韻律生成部で生成された継続時間長と合致または類似するようにフレーム数の調整を行う。図８は、選択素片の時間長を調整する例を示す模式図である。本例では、選択素片のフレーム数は１２であり、時間長を伸ばしたとき（換言すれば、フレーム数を増やしたとき）のフレーム数は１８である。また、時間長を縮めた場合（換言すれば、フレーム数を減らしたとき）のフレーム数は、６である。図８に示すフレーム番号は、フレーム数を伸ばしたり、縮めたりするときのフレームの対応関係を示している。波形生成部４は、フレーム数を増やす場合には適切な頻度でフレームの挿入を行い、フレーム数を減らす場合にはフレームの間引きを行う。時間長を伸ばすときに挿入されるフレームは、隣接するフレームが用いられることが多い。図８では、フレーム番号が偶数のフレームが連続するようにフレームを挿入する場合を例示している。また近接するフレームの平均を用いてもよい。また、図８に示す例では、時間長を縮める場合に、フレーム番号が偶数のフレームを間引いている。

【0113】

フレームを挿入したり、間引いたりする頻度は、図８に示すように、素片内部で均等に分かれていることが好ましい。そのようにすることによって、合成音声の音質が低下しにくくなる。

【0114】

次に、波形生成部４は、波形生成に用いられる波形をフレーム単位で選択し、素片波形を生成する。有声音と無声音でフレームの選択方法が異なる。

【0115】

波形生成部４は、無声音の場合、韻律生成部２で生成された継続時間長に最も近くなるように、フレーム長とフレーム周期からフレーム選択周期を計算する。そして、フレーム選択周期に従ってフレームを選択し、選択された各フレームの波形を連結して無声音波形を生成する。図９は、フレーム数が１６の素片から無声音波形を生成する様子を示した説明図である。図９に示す例では、フレーム長はフレーム周期の５倍であるため、波形生成部４は、５フレームに１回の頻度で無声音波形の生成に用いるフレームを選択する。

【0116】

波形生成部４は、有声音の場合、韻律生成部２で生成されたピッチ周波数時系列からピッチ同期時刻(ピッチマークとも呼ばれる。)を算出する。そして、波形生成部４は、ピッチ同期時刻に最も近いフレームを選択し、選択された各フレームの波形の中心をピッチ同期時刻に配置することで有声音波形を生成する。図１０は、フレーム数が１６の素片から有声音波形を生成する様子を示した説明図である。図１０に示す例では、ピッチ同期時刻に該当するフレームは、第１，４，７，１０，１３，１６のフレームとなっているので、波形生成部４は、これらのフレームを使って波形を生成する。ピッチ周波数時系列からピッチ同期位置を算出する方法については、例えば、以下の参考文献６に記載されている。波形生成部４は、例えば、参考文献６に記載の方法でピッチ同期位置を算出すればよい。

【0117】

［参考文献６］
Huang, Acero, Hon, “Spoken Language Processing”, Prentice Hall, pp. 689-836, ２００１年

【0118】

最後に、波形生成部４は、素片単位で生成した有声音波形と無声音波形を先頭から順番に連結して合成音声波形を生成する。

【0119】

本実施形態において、言語処理部１、韻律生成部２、素片選択部３、波形生成部４、および素片情報生成装置の構成要素に該当する部分（例えば、波形切り出し部１４、特徴パラメータ１５、時間領域波形変換部２２等。）は、例えば、音声合成プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵがそのプログラムを読み込んで、これらの各要素として動作すればよい。また、これらの各要素が別々のハードウェアで実現されていてもよい。

【0120】

図１１は、本実施形態の処理経過の例を示すフローチャートである。なお、素片情報記憶部１０には、第１から第３までのいずれかの実施形態で示した動作により素片情報が記憶されているものとする。言語処理部１は、入力されたテキスト文の文字列を分析する（ステップＳ１１）。次に、韻律生成部２は、ステップＳ１の結果に基づいて、目標韻律情報を生成する（ステップＳ１２）。続いて、素片選択部３が、素片を選択する（ステップＳ１３）。波形生成部４は、ステップＳ１２で生成された目標韻律情報と、ステップＳ１３で選択された素片およびその素片の属性情報とに基づいて、目標韻律情報に合致または類似する韻律を有する音声波形を生成する（ステップＳ１４）。

【0121】

本実施形態においても、第１から第３の実施形態と同様の効果を得ることができる。

【0122】

次に、本発明の最小構成について説明する。図１２は、本発明の素片情報生成装置の最小構成の例を示すブロック図である。本発明の素片情報生成装置は、波形切り出し手段８１と、特徴パラメータ抽出手段８２と、時間領域波形生成手段８３とを備える。

【0123】

波形切り出し手段８１（例えば、波形切り出し部１４）は、自然音声のピッチ周波数に依存しない時間周期で、自然音声から音声波形を切り出す。

【0124】

特徴パラメータ抽出手段８２（例えば、特徴パラメータ抽出部１５）は、波形切り出し手段８１によって切り出された音声波形から、その音声波形の特徴パラメータを抽出する。

【0125】

時間領域波形生成手段８３（例えば、時間領域波形変換部２２）は、特徴パラメータに基づいて時間領域波形を生成する。

【0126】

このような構成により、少ない計算量で波形を生成することができる。また、自然音声のピッチ周波数が低い区間の素片を用いて音声合成を行う場合に、合成音声の音質低下を防止することができ、合成音声の音質を損なうことなく、ピッチ周波数が高い区間の素片情報のデータ量を削減できる。

【0127】

図１３は、本発明の音声合成装置の最小構成の例を示すブロック図である。本発明の音声合成装置は、波形切り出し手段８１と、特徴パラメータ抽出手段８２と、時間領域波形生成手段８３と、素片情報記憶手段８４と、素片情報選択手段８５と、波形生成手段８６とを備える。波形切り出し手段８１、特徴パラメータ抽出手段８２および時間領域波形生成手段８３に関しては、図１２に示すそれらの要素と同様であり、説明を省略する。

【0128】

素片情報記憶手段８４（例えば、素片情報記憶部１０）は、素片を表す素片情報であって、時間領域波形生成手段８３が生成した時間領域波形を含む素片情報を記憶する。

【0129】

素片情報選択手段８５（例えば、素片選択部３）は、入力された文字列に応じた素片情報を選択する。

【0130】

波形生成手段８６（例えば、波形生成部４）は、素片情報選択手段８５によって選択された素片情報を用いて音声合成波形を生成する。

【0131】

以上のような構成により、図１２に示す素片情報生成装置と同様の効果が得られる。

【0132】

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0133】

（付記１）自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出す波形切り出し部と、前記波形切り出し部によって切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出部と、前記特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成部とを備えることを特徴とする素片情報生成装置。

【0134】

（付記２）自然音声の属性情報に基づいて、前記自然音声から音声波形を切り出す時間周期を決定する周期制御部を備える付記１に記載の素片情報生成装置。

【0135】

（付記３）自然音声のスペクトル形状の変化の度合を示すスペクトル形状変化度を推定するスペクトル形状変化度推定部と、前記スペクトル形状変化度に基づいて、前記自然音声から音声波形を切り出す時間周期を決定する周期制御部とを備える付記１または付記２に記載の素片情報生成装置。

【0136】

（付記４）周期制御部は、スペクトル形状変化度が小さいと判定される場合に、自然音声から音声波形を切り出す時間周期を通常時における時間周期よりも大きくする付記３に記載の素片情報生成装置。

【0137】

（付記５）周期制御部は、スペクトル形状変化度が大きいと判定される場合に、自然音声から音声波形を切り出す時間周期を通常時における時間周期よりも小さくする付記３または付記４に記載の素片情報生成装置。

【0138】

（付記６）自然音声のピッチ周波数に依存しない時間周期で、前記自然音声から音声波形を切り出す波形切り出し部と、前記波形切り出し部によって切り出された音声波形から、当該音声波形の特徴パラメータを抽出する特徴パラメータ抽出部と、前記特徴パラメータに基づいて時間領域波形を生成する時間領域波形生成部と、素片を表す素片情報であって、前記時間領域波形を含む素片情報を記憶する素片情報記憶部と、入力された文字列に応じた素片情報を選択する素片情報選択部と、素片情報選択部によって選択された素片情報を用いて音声合成波形を生成する波形生成部とを備えることを特徴とする音声合成装置。

【0139】

この出願は、２０１１年５月２５日に出願された日本特許出願２０１１−１１７１５５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

【0140】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【産業上の利用の可能性】

【0141】

本発明は、音声を合成する際に用いられる素片情報を生成する素片情報生成装置、および、素片情報を用いて音声を合成する音声合成装置に好適に適用される。

【符号の説明】

【0142】

１言語処理部
２韻律生成部
３素片選択部
４波形生成部
１０素片情報記憶部
１１属性情報記憶部
１２自然音声記憶部
１４波形切り出し部
１５特徴パラメータ抽出部
２０分析フレーム周期記憶部
２２時間領域波形変換部
３０，４０分析フレーム周期制御部
４１スペクトル形状変化度推定部

【図1】