特許第6449331号(P6449331)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インタラクティブ・インテリジェンス・インコーポレイテッドの特許一覧

特許6449331パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
<>
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000014
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000015
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000016
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000017
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000018
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000019
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000020
  • 特許6449331-パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 図000021
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6449331
(24)【登録日】2018年12月14日
(45)【発行日】2019年1月9日
(54)【発明の名称】パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
(51)【国際特許分類】
   G10L 19/08 20130101AFI20181220BHJP
   G10L 13/06 20130101ALI20181220BHJP
   G10L 19/06 20130101ALI20181220BHJP
【FI】
   G10L19/08 Z
   G10L13/06 130
   G10L19/06 B
【請求項の数】28
【全頁数】15
(21)【出願番号】特願2016-567717(P2016-567717)
(86)(22)【出願日】2014年5月28日
(65)【公表番号】特表2017-520016(P2017-520016A)
(43)【公表日】2017年7月20日
(86)【国際出願番号】US2014039722
(87)【国際公開番号】WO2015183254
(87)【国際公開日】20151203
【審査請求日】2016年12月26日
(73)【特許権者】
【識別番号】514129693
【氏名又は名称】インタラクティブ・インテリジェンス・インコーポレイテッド
(74)【代理人】
【識別番号】100138760
【弁理士】
【氏名又は名称】森 智香子
(74)【代理人】
【識別番号】100129643
【弁理士】
【氏名又は名称】皆川 祐一
(72)【発明者】
【氏名】ダチラジュ,ラジェシュ
(72)【発明者】
【氏名】ガナパシラジュ,アルビンド
【審査官】 上田 雄
(56)【参考文献】
【文献】 特表2012−524288(JP,A)
【文献】 特開2002−244689(JP,A)
【文献】 特開2012−048154(JP,A)
【文献】 特開2010−230704(JP,A)
【文献】 吉川英一、外2名,声門閉鎖区間情報を利用した音源抽出のアルゴリズムに関する提案,電子情報通信学会論文誌 (J81−A) 第3号,1998年 3月25日,pp.303-311
【文献】 K. Sri Rama Murty、外1名,Epoch Extraction From Speech Signals,IEEE Trans. ASLP,IEEE,2008年10月21日,Vol.16, No.8,pp.1602-1613
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
G10L 19/00−19/26
(57)【特許請求の範囲】
【請求項1】
パラメトリックモデルを形成する方法であって、
a.多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
b.声門パルスの重心を決定する為に声門パルスデータベースに記憶された複数の声門パルスを多数のクラスタにクラスタ化するステップと、
c.関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
d.前記ベクトルデータベースの固有ベクトルを決定するステップと、
e.前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
を含む方法。
【請求項2】
前記声門パルスの数が2である、請求項に記載の方法。
【請求項3】
請求項1の前記ステップ(a)が、
a.前記声門パルスの数を対応するサブバンド成分に分解するステップと、
b.各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
c.前記サブバンド距離メトリックを使用して前記声門パルス距離メトリックを数学的に算出するステップと
を更に含む、請求項に記載の方法。
【請求項4】
請求項3の前記ステップ(c)の算出は、数学的方程式
【数1】
を使用して実施され、式中d(x,y)は前記距離メトリックを表し、d(x(n),y(n))は前記サブバンド距離メトリックを表す、請求項に記載の方法。
【請求項5】
前記クラスタの数が256である、請求項に記載の方法。
【請求項6】
請求項1の前記ステップ(b)のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたk平均計算を使用して実施される、請求項に記載の方法。
【請求項7】
前記修正されたk平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項に記載の方法。
【請求項8】
前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項に記載の方法。
【請求項9】
請求項1の前記ステップ(d)の固有ベクトルの決定が主成分分析を使用して実施される、請求項に記載の方法。
【請求項10】
請求項1の前記ステップ(e)は、
a.前記固有ベクトルを決定するステップと、
b.前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
c.前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
d.前記固有ベクトルと関連付けた固有声門パルスとして前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
を更に含む、請求項に記載の方法。
【請求項11】
音声合成に使用する前記形成されたパラメトリックモデルを学習するステップを更に含む、請求項に記載の方法。
【請求項12】
前記学習は、
a.学習テキストコーパスを定義するステップと、
b.音声タレントの話す前記学習テキストを録音することにより音声データを得るステップと、
c.前記学習テキストをコンテキスト依存音素ラベルに変換するステップと、
d.前記音素ラベルを使用して前記音声データの複数のスペクトル特性を決定するステップと、
e.前記音声データの基本周波数を予測するステップと、
f.前記スペクトル特性、前記基本周波数及びオーディオストリームの継続時間を使用して前記オーディオストリーム上でパラメータの予測を実施するステップと
を更に含む、請求項11に記載の方法。
【請求項13】
入力テキストを使用して音声を合成する方法であって、
a.前記入力テキストをコンテキスト依存の音素ラベルに変換するステップと、
b.基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、前記ステップ(a)で作成された前記音素ラベルを処理するステップと、
c.固有声門パルス及び予測した基本周波数値、前記音素ラベルのスペクトル特性及び前記合成された音声持続時間のうちの1つ又は1つ以上を使用して励信号を作成するステップと、
d.合成音声の出力を作成する為にフィルタを使用して、前記励信号と前記音素ラベルの前記スペクトル特性とを組合せるステップと
を含み、
前記信号を作成するステップは、
.励の信号領域をセグメントの種類に分類するステップと、
.各種類の前記信号を作成するステップと
を更に含
前記セグメントの種類が有声音、無声音及び休止のうちの1つ又は1つ以上を含
.モデルから前記予測した基本周波数値を使用して、励起信号のピッチ境界を示す声門境界を作成するステップと、
.重畳加算法を使用して各声門境界から始まる声門パルスを加算するステップと、
.i.前記声門パルスが対応するピッチ周期未満の長さである場合、左シフトより前の前記ピッチ周期の長さまで前記声門パルスはゼロ伸張する、前記声門境界において一定に増加するシフト量及び前記声門パルスに対して同量の循環左シフトで前記重畳加算法を通じて形成された多数の異なる励を作成するステップと、
ii.前記異なる励信号数の算術平均を決定するステップと、
iii.前記有声音セグメントの最終励信号の前記算術平均を宣言するステップと
を更に含む、前記励信号において境界効果を回避するステップと
を含む有声音信号に前記励信号が作成される方法。
【請求項14】
入力テキストを使用して音声を合成する方法であって、
a.前記入力テキストをコンテキスト依存音素ラベルに変換するステップと、
b.基本周波数値、前記合成された音声持続時間及び前記音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、前記ステップ(a)で作成された前記音素ラベルを処理するステップと、
c.固有声門パルス及び前記予測した基本周波数値、前記音素ラベルのスペクトル特性及び前記合成された音声持続時間のうちの1つ又は1つ以上を使用して励起信号を作成するステップと、
d.合成音声の出力を作成する為にフィルタを使用して、前記励起信号と前記音素ラベルの前記スペクトル特性とを組合せるステップと
を含み、
前記固有声門パルスは声門パルスデータベースから識別され、前記識別は
.多数の声門パルス間の声門パルス距離メトリックを算出するステップと、
.声門パルスの重心を決定する為に前記声門パルスデータベースを多数のクラスタにクラスタ化するステップと、
.関連付けを決定する為に前記声門パルスの重心及び前記距離メトリックが数学的に定義される前記声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、
.前記ベクトルデータベースの固有ベクトルを決定するステップと、
.前記声門パルスデータベースから声門パルスと各決定された固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップと
を含む方法。
【請求項15】
前記声門パルスの数が2である、請求項14に記載の方法。
【請求項16】
請求項14の前記ステップ()は、
a.前記声門パルスの数を対応するサブバンド成分に分解するステップと、
b.各声門パルスの前記対応するサブバンド成分間のサブバンド距離メトリックを算出するステップと、
c.前記サブバンド距離メトリックを使用して前記距離メトリックを数学的に算出するステップと
を更に含む、請求項14に記載の方法。
【請求項17】
請求項16の前記ステップ(c)の算出は、数学的方程式
【数2】
を使用して実施され、式中d(x,y)は前記距離メトリックを表し、d(x(n),y(n))は前記サブバンド距離メトリックを表す、請求項16に記載の方法。
【請求項18】
前記クラスタの数が256である、請求項14に記載の方法。
【請求項19】
請求項14の前記ステップ()のクラスタ化は、前記声門パルス距離メトリックを利用する修正されたk平均計算を使用して実施される、請求項14に記載の方法。
【請求項20】
前記修正されたk平均計算は、クラスタの全ての他の要素から距離の二乗和が最小である前記クラスタの要素でクラスタの重心を更新することを更に含む、請求項19に記載の方法。
【請求項21】
前記クラスタからいずれの前記重心においてもシフトしない場合前記クラスタ化の反復を終了させることを更に含む、請求項20に記載の方法。
【請求項22】
請求項14の前記ステップ()の固有ベクトルの前記決定が主成分分析を使用して実施される、請求項14に記載の方法。
【請求項23】
請求項14の前記ステップ()は、
a.前記固有ベクトルを決定するステップと、
b.前記ベクトルデータベースから前記固有ベクトルに最も適合するベクトルを決定するステップと
c.前記声門パルスデータベースから最も適合する声門パルスを決定するステップと、
d.前記固有ベクトルと関連付けた固有声門パルスとして、前記固有ベクトルに最も適合する前記声門パルスデータベースから前記声門パルスを指定するステップと
を更に含む、請求項14に記載の方法。
【請求項24】
音声信号から前記声門パルスデータベースを構成することを更に含み、前記構成は
a.プレフィルタリングされた信号を得る為に前記音声信号に対してプレフィルタリングを実施するステップと、
b.逆フィルタリングパラメータを得る為に前記プレフィルタリングされた信号を分析するステップと、
c.前記逆フィルタリングパラメータを使用して前記音声信号の逆フィルタリングを実施するステップと、
d.前記逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、
e.前記音声信号において声門セグメントの境界を識別するステップと、
f.前記音声信号から前記識別された声門セグメントの境界を使用して前記集積された線形予測残差信号を声門パルスにセグメント化するステップと、
g.前記声門パルスの正規化を実施するステップと、
h.前記音声信号に得られた全ての正規化された声門パルスを収集することにより、前記声門パルスデータベースを形成するステップと
を含む、請求項14に記載の方法。
【請求項25】
請求項24の前記ステップ(b)の分析が線形予測を使用して実施される、請求項24に記載の方法。
【請求項26】
請求項24の前記ステップ(b)における前記逆フィルタリングパラメータが線形予測係数を含む、請求項24に記載の方法。
【請求項27】
請求項24の前記ステップ(e)の識別がゼロ周波数フィルタリング技術を使用して実施される、請求項24に記載の方法。
【請求項28】
請求項24の前記ステップ(a)のプレフィルタリングがプレエンファシスを含む、請求項24に記載の方法。
【発明の詳細な説明】
【背景技術】
【0001】
本発明は、音声合成のみならず、概して電気通信システム及び方法に関する。より詳細には、本発明は、統計的パラメトリック音声合成システムに基づく隠れマルコフモデルにおける励信号の形成に関する。
【発明の概要】
【0002】
パラメトリック音声合成システムに基づく声門パルスモデルの励信号を形成する方法が提供されている。一実施形態において、励信号を形成する為に基本周波数値が使用される。励は、所与の話者のデータベースから選択された音源パルスを使用してモデル化される。音源信号は、励信号の形成に使用する声門パルスを識別する為に、ベクトル表現において使用される声門セグメントにセグメント化される。新規の距離メトリックの使用及び話者の音声サンプルから抽出した原信号を保存することは、励信号の低周波数情報の取込みに役立つ。加えて、話者の音声品質を正確に表現形成すると同時に音声合成の品質を向上させる為に、独自のセグメント結合方法を適用することによりセグメント端のアーチファクトが除去される。
【0003】
一実施形態において、プレフィルタリングされた信号を得る為に音声信号上にプレフィルタリングを実施するステップと、逆フィルタリングパラメータを得る為にプレフィルタリングされた信号を分析するステップと、逆フィルタリングパラメータを使用して音声信号の逆フィルタリングを実施するステップと、逆フィルタリングされた音声信号を使用して集積された線形予測残差信号を算出するステップと、音声信号において声門セグメントの境界を識別するステップと、音声信号から識別された声門セグメントの境界を使用して集積された線形予測残差信号を声門パルスにセグメント化するステップと、声門パルスの正規化を実施するステップと、音声信号に得られた全ての正規化された声門パルスを収集することにより、声門パルスデータベースを形成するステップとを含む、音声信号から声門パルスデータベースを作成する方法が示される。
【0004】
別の実施形態において、多数の声門パルス間の声門パルス距離メトリックを算出するステップと、声門パルスの重心を決定する為に声門パルスデータベースを多数のクラスタにクラスタ化するステップと、関連付けを決定する為に声門パルスの重心及び距離メトリックが数学的に定義される声門パルスデータベースにおいて、ベクトルを各声門パルスと関連付けることにより対応するベクトルデータベースを形成するステップと、ベクトルデータベースの固有ベクトルを決定するステップと、声門パルスデータベースから声門パルスと決定された各固有ベクトルとを関連付けることによりパラメトリックモデルを形成するステップとを含む、パラメトリックモデルを形成する方法が示される。
【0005】
更に別の実施形態において、a)入力テキストをコンテキスト依存音素ラベルに変換するステップと、b)基本周波数値、合成された音声持続時間及び音素ラベルのスペクトル特性を予測する為に学習したパラメトリックモデルを使用して、ステップ(a)で作成された音素ラベルを処理するステップと、c)固有声門パルス及び前記予測した基本周波数値、音素ラベルのスペクトル特性及び合成された音声持続時間のうちの1つ又は1つ以上を使用して、励信号を作成するステップと、d)合成音声の出力を作成する為にフィルタを使用して、励信号を音素ラベルのスペクトル特性と組合せるステップとを含む、入力テキストを使用して音声を合成する方法が示される。
【図面の簡単な説明】
【0006】
図1図1は、音声システムに対するテキストに基づく隠れマルコフモデルのある実施形態を示す図である。
図2図2は、ある信号のある実施形態示す図である。
図3図3は、励信号作成のある実施形態示す図である。
図4図4は、励信号作成のある実施形態示す図である。
図5図5は、重畳境界のある実施形態示す図である。
図6図6は、励信号作成のある実施形態示す図である。
図7図7は、声門パルス識別のある実施形態示す図である。
図8図8は、声門パルスのデータベース作成のある実施形態示す図である。
【発明を実施するための形態】
【0007】
本発明の原理を理解するのを促す目的で図面に示す実施形態を参照し、それを説明する為に具体的な用語を使用する。しかし、本発明の範囲はそれにより限定されるものではないことが理解されよう。本発明が関連する当業者なら通常思いつくように、記載された実施形態における変更及び更なる修正、並びに本明細書に記載された本発明の原理の更なる応用が考えられる。
【0008】
は、一般に有声音領域のインパルスの準周期列であると推定されている。各列は、T=1/Fなど一定時間で前列から分離され、式中Tはピッチ周期を表し、Fは基本周波数を表す。無声音領域において、励は白色雑音としてモデル化される。有声音領域において、励は実際にはインパルス列ではない。励はむしろ、声の折り重なりによる振動により発生する音源パルスの列である。パルスの形状は、話者、話者の気分、言語的コンテキスト、感情などの各種要因により変動してもよい。
【0009】
欧州特許EP2242045(2012年6月27日取得、発明者Thomas Drugmanら)に記載されているように、ソースパルスは、(サンプリングを通じて)長さの正規化及びインパルスの整合によりベクトルとして数学的に処理されている。正規化されたソースパルス信号の最終的な長さは、標的ピッチに適合するように再サンプル化される。ソースパルスは、データベースから選択されないが、周波数領域においてパルス特性を処理する一連の計算を通じて得られる。加えて、線形予測(LP)係数を決定する一方で終了したプレフィルタリングは存在しないとして、パルスデータベース作成に使用される近似励信号は低周波数源の内容を取込まず、線形予測係数は逆フィルタリングに使用される。
【0010】
統計的パラメトリック音声合成において、音声単位信号は、音声を合成する為に使用可能なパラメータのセットにより表される。パラメータは、例えばHMMなどの統計的モデルにより学習されてもよい。ある実施形態において、ソース/励は、所与の音を生成する適切なフィルタを通過する際の信号であり、音声は、ソースフィルタモデルとして表されてもよい。図1は、音声(TTS)システムへのテキストに基づく隠れマルコフモデル(HMM)のある実施形態を示す図である。例示的システムのある実施形態は、例えば学習フェーズ及び合成フェーズの2つのフェーズを含んでいてもよい。
【0011】
音声データベース105は、音声合成で使用する音声データ量を含むことができる。学習フェーズ中、音声信号106は、パラメータに変換される。パラメータは、励パラメータ及びスペクトルパラメータを含んでいてもよい。励パラメータ抽出110及びスペクトルパラメータ抽出115は、音声データベース105から伝えられる音声信号106から発生する。隠れマルコフモデル120は、これらの抽出されたパラメータ及び音声データベース105からラベル107を使用して学習されてもよい。任意のHMMモデル数は、学習から生じてもよく、これらのコンテキスト依存HMMは、データベース125内に保存される。
【0012】
合成フェーズは、コンテキスト依存HMM125として始まり、パラメータ140を生成する為に使用される。パラメータ生成140は、音声が合成されるテキスト130のコーパスからの入力を利用してもよい。テキスト130は、分析135を経てもよく、抽出されたラベル136は、パラメータ140の生成において使用される。一実施形態において、励パラメータ及びスペクトルパラメータは、140において生成されてもよい。
【0013】
パラメータは、励信号145を生成する為に使用されてもよく、励信号145は、スペクトルパラメータと共に合成フィルタ150に入力される。フィルタパラメータは、一般にメル周波数ケプストラム係数(MFCC)であり、HMMを使用して統計的時系列によりしばしばモデル化される。フィルタの予測値及び時系列値として基本周波数は、励信号を基本周波数値から作成することによりフィルタを合成する為に使用されてもよく、MFCC値は、フィルタを形成する為に使用される。
【0014】
合成音声155は、励信号がフィルタを通過する際に生成される。励信号145の形成は、出力の品質又は合成音声155に不可欠である。励の低周波数情報は取込まれない。従って、励信号の低周波数源の内容を取込み、合成音声の品質を向上させる為の方法が必要であることが理解されよう。
【0015】
図2は、音声セグメントの信号領域の一実施形態のグラフ図であり、全体として200で示される。信号は、有声音セグメント、無声音セグメント及び休止セグメントといった種類の基本周波数値に基づくセグメントに分類される。縦軸205は、ヘルツ(Hz)による基本周波数を示すのに対し、横軸210は、ミリ秒(ms)の経過を表す。時系列であるFの215は、基本周波数を表す。有声音領域である220は、一連のピークが見られ、非ゼロセグメントと見なすことができる。以下に更なる詳細が記載されているように、非ゼロセグメント220は、全音声の励信号を形成する為に連結されていてもよい。無声音領域225は、グラフ図200においてピークを有することが見られずゼロセグメントと見なすことができる。ゼロセグメントは、休止又は音素ラベルにより所与される無声音セグメントを表すことができる。
【0016】
図3は、励信号作成のある実施形態を示す図であり、全体として300で示される。図3は、無声音セグメント及び休止セグメント双方の励信号作成を示す。Fとして表される基本周波数時系列値は、F値に基づき有声音セグメント、無声音セグメント及び休止セグメントに分類される信号領域305を表す。
【0017】
信号320は、無声音セグメント及び休止セグメントの為に作成される。休止が発生した場合、励信号にゼロ(0)が配置される。無声音領域において、適切なエネルギーの白色雑音(一実施形態において、これは聞き取り試験により実験的に決定されることができる)は励信号として使用される。
【0018】
信号領域305は、声門パルス310と共に励生成315に使用され、続いて励信号320の生成に使用される。声門パルス310は、声門パルスデータベースから識別された固有声門パルスを含み、以下の図8には、その作成の更なる詳細が記載されている。
【0019】
図4は、有声音セグメントの励信号作成のある実施形態を示す図であり、全体として400で示される。固有声門パルスは、(以下の図7に更なる詳細が記載されている)声門パルスデータベースから識別されたと推定される。信号領域405は、有声音セグメントからモデルにより予測されることができるF値を含む。Nで表されてもよいFセグメントの長さは、数学的方程式を使用して励信号の長さを決定する為に使用される。
【0020】
【数1】
【0021】
式中、fは信号のサンプリング周波数を表す。ある非限定的実施例において、5/1000の値は、決定されるF値の5msの継続時間の間隔を表す。単位時間の指定された継続時間の任意間隔が使用されていてもよい、という点に留意すべきである。F’(n)として指定された別の配列は、F配列を線形補間することにより得られる。
【0022】
値から410の声門境界が作成され、410は信号領域405において有声音セグメントの励信号のピッチ境界を示す。ピッチ周期配列は、以下の数学的方程式を使用して算出されることができる。
【0023】
【数2】
【0024】
次に、ピッチ境界は、以下のように決定されたピッチ周期配列を使用して算出されることができる。
【0025】
【数3】
【0026】
式中、P(0)=1、i=1,2,3,・・・K、であり、式中P(k+1)は配列T(n)の長さを丁度超える。
【0027】
声門パルス415は、各声門境界から始まる声門パルスの重畳加算420において識別された声門境界410と共に使用される。次に図5及び図6に更に記載されている境界効果を回避する為に、励信号425は「スティッチング」又はセグメント結合の処理を通じて作成される。
【0028】
図5は、重畳境界のある実施形態を示す図であり、全体として500で示される。図500は、セグメントにおいて一連の声門パルス515及び重畳する声門パルス520を表す。縦軸505は、励の振幅を表す。横軸510は、フレーム番号を表してもよい。
【0029】
図6は、有声音セグメントの励信号作成のある実施形態を示す図であり、全体として600で示される。「スティッチング」は、理想的に境界効果のない(図4から)有声音セグメントの最終励信号を形成する為に使用されてもよい。ある実施形態において、任意の異なる励信号数は、図4及び図500図5)に示された重畳加算法を通じて形成されてもよい。異なる励信号は、声門境界605において一定に増加するシフト量及び声門パルス信号に対して同量の循環左シフト630を有していてもよい。一実施形態において、声門パルス信号615が対応するピッチ周期未満の長さである場合、循環左シフトする630が実施される以前のピッチ周期の長さまで声門パルスはゼロ伸張625でもよい。ピッチ境界の異なる配列(P(i)、m=1,2,・・・M−1として表される)は、Pと同じ長さのそれぞれからなる。配列は、以下の数学的方程式を使用して算出される。
【0030】
【数4】
【0031】
式中、wは一般に1msec、又はサンプルでは、f/1000と考えられている。例えば、サンプリング周波数にはf=16,000、w=16。所与の音声セグメントに存在する最高ピッチ周期は、m*wとして表される。声門パルスが作成され、各ピッチ境界配列Pと関連付けられる。声門パルス620は、第1のゼロをピッチ周期まで伸張し、次にm*wサンプルにより循環左シフトすることにより一定の長さNの声門パルス信号から得られてもよい。
【0032】
フレーム境界の各セットに対して、声門パルスをゼロ(0)に初期化することにより励信号635が形成される。配列P(i)、i=1,2,・・・Kの各ピッチ境界値から始まり、重畳加算610は声門パルス620を励の第1のNサンプルに加算する為に使用される。形成された信号は、スティッチングされた単一励としてシフトmに対応している。
【0033】
ある実施形態において、全てのスティッチングされた単一励信号の算術平均が算出され、算出された640は有声音セグメントの最終励信号645を表す。
【0034】
図7は声門パルス識別のある実施形態を示す図であり、全体として700で示される。ある実施形態において、任意の2つの所与の声門パルスはそれら2つの間の距離メトリック/相違点を算出する為に使用されてもよい。これらは、処理800(以下の図8に更に記載されている)において作成された声門パルスデータベース840から取出される。算出は、2つの所与の声門パルスx,yをサブバンド成分x(1),x(2),x(3)及びy(1),y(2),y(3)に分解することにより実施されてもよい。所与の声門パルスは、例えば離散コサイン変換(DCT)などの方法を使用して周波数領域に変換されてもよい。周波数バンドは、復調され時間領域に変換される多数のバンドに分割されてもよい。本実施例では、例証目的の為に3つのバンドが使用される。
【0035】
次に各声門パルスの対応するサブバンド成分間のサブバンド距離メトリックが算出され、d(x(1),y(1))として表される。サブバンドメトリックはd(f,g)として表されることができ、式中dは2つのサブバンド成分fおよびg間の距離を表し、以下のパラグラフに記載されるように算出されることができる。
【0036】
fおよびg間の正規化された循環相互相関関数が算出された。一実施形態において、これはRf,g(n)=f★gとして表されてもよく、式中「★」は2つの信号間の正規化された循環相互相関演算を表す。循環相互相関時は、2つの信号fおよびgの長さが最長になるとされている。より短い信号はゼロ伸張される。正規化された循環相互相関の離散ヒルベルト変換が算出され、Rf,g(n)として表される。正規化された循環相互相関及び正規化された循環相互相関の離散ヒルベルト変換を使用することで信号は、
【0037】
【数5】
として決定されることができる。
【0038】
2つの信号fおよびgとの間の角度のコサインは、数学的方程式を使用して決定されることができる。
【0039】
全nにわたり、
【数6】
【0040】
2つのサブバンド成分fおよびgとの間のサブバンドメトリック、d(f,g)は、
【0041】
【数7】
として決定されることができる。
【0042】
声門パルス間の距離メトリックは最終的に、
【0043】
【数8】
として数学的に決定される。
【0044】
声門パルスデータベース840は、修正されたk平均アルゴリズム705を使用して、例えば256(又はM)など多数のクラスタにクラスタ化されてもよい。ユークリッド距離メトリックを使用する代わりに、上記で定義された距離メトリックが使用される。次に、クラスタの重心は、以下のようなクラスタの全ての他の要素から距離の二乗和が最小であるクラスタの要素で更新される。
【0045】
クラスタの重心
【数9】
は、m=cの場合最小である。
【0046】
一実施形態において、任意のkクラスタの重心においてシフトしない場合クラスタ化の反復は終了される。
【0047】
例えば256などN実数のセットであるベクトルは、対応するベクトルデータベース715を形成する為に声門パルスデータベース840において声門パルス710毎に関連付けられる。一実施形態において、関連付けは所与の声門パルスx、ベクトルV=[Ψ(x),Ψ(x),Ψ(x),・・・Ψ(x),・・・Ψ256(x)]、式中Ψ(x)=d(x,c)−d(x,x)−d(c,x)に対して実施され、xはデータベースから選別した所定の声門パルスであり、d(x,c)は上記で定義された2つの声門パルスxおよびcとの間の距離メトリックの二乗を表し、c,c,・・・c,・・c256、はクラスタ化により決定された声門パルスの重心と推定している。
【0048】
従って、所与の声門パルスxと関連したベクトルは、数学的方程式で算出されることができる。
【0049】
【数10】
【0050】
ステップ720において、ベクトルデータベース715の固有ベクトルを算出する為に主成分分析(PCA)が実施される。一実施形態において、725で任意の一固有ベクトルが選択されてもよい。ベクトルデータベース715から選択された固有ベクトルに最も適合するベクトル730は、次にユークリッド距離の認識において決定される。最も適合するベクトル730に対応するパルスデータベース840からの声門パルスは、結果として生じる固有ベクトルと関連した固有声門パルス735と考えられる。
【0051】
図8は、声門パルスデータベース作成のある実施形態を示す図であり、全体として800で示される。音声信号805は、プレエンファシス810などプレフィルタリングを経る。線形予測(LP)分析815は、LP係数を得る為にプレフィルタリングされた信号を使用して実施される。従って、励の低周波情報は取込まれることができる。係数が決定されると、集積された線形予測残差(ILPR)信号825を算出する為にプレフィルタされていない原音声信号805のフィルタを820で反転させる為に係数が使用される。ILPR信号825は、励信号又は音源信号への近似として使用されることができる。ILPR信号825は、音声信号805から決定された声門セグメント/サイクル境界を使用して声門パルスにセグメント化835される。セグメント化835は、ゼロ周波数フィルタリング技術(ZFF)を使用して実施されてもよい。次に結果として生じる声門パルスはエネルギー正規化されることができる。全音声学習データの全ての音声パルスは、音声パルスデータベース840を形成する為に組合わされる
【0052】
本発明は、図面及び前述の記述において詳しく図示され記述されているが、このような図示及び記述は例示的なものであり、その特性を限定するものと見なされるべきではなく、好ましい実施形態のみを示し記述しているが、本明細書及び以下の特許請求の範囲の少なくとも一方に記載されているように本発明の精神の範囲内の全等価物、変更及び修正も保護されるべきであると理解されよう。
【0053】
従って、本発明の適切な範囲は、全てのこのような修正と同様に図面に示したもの及び本明細書に記載したものと等価の関係を包含するように、添付の請求の範囲の最も広い解釈によってのみ決定されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8