IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許7092324声門流成分推定装置、プログラムおよび方法
<>
  • 特許-声門流成分推定装置、プログラムおよび方法 図1
  • 特許-声門流成分推定装置、プログラムおよび方法 図2
  • 特許-声門流成分推定装置、プログラムおよび方法 図3
  • 特許-声門流成分推定装置、プログラムおよび方法 図4
  • 特許-声門流成分推定装置、プログラムおよび方法 図5
  • 特許-声門流成分推定装置、プログラムおよび方法 図6
  • 特許-声門流成分推定装置、プログラムおよび方法 図7
  • 特許-声門流成分推定装置、プログラムおよび方法 図8
  • 特許-声門流成分推定装置、プログラムおよび方法 図9
  • 特許-声門流成分推定装置、プログラムおよび方法 図10
  • 特許-声門流成分推定装置、プログラムおよび方法 図11
  • 特許-声門流成分推定装置、プログラムおよび方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-20
(45)【発行日】2022-06-28
(54)【発明の名称】声門流成分推定装置、プログラムおよび方法
(51)【国際特許分類】
   G10L 25/27 20130101AFI20220621BHJP
   G10L 25/03 20130101ALI20220621BHJP
【FI】
G10L25/27
G10L25/03
【請求項の数】 3
(21)【出願番号】P 2017157373
(22)【出願日】2017-08-17
(65)【公開番号】P2019035864
(43)【公開日】2019-03-07
【審査請求日】2020-07-10
(73)【特許権者】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(74)【代理人】
【識別番号】100090181
【弁理士】
【氏名又は名称】山田 義人
(72)【発明者】
【氏名】パーハム モクタリ
(72)【発明者】
【氏名】安藤 広志
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開平06-004098(JP,A)
【文献】特開平06-175694(JP,A)
【文献】特開平11-085198(JP,A)
【文献】特開平02-247700(JP,A)
【文献】堤一男 他,"ホルマント特性逆フィルタリングによる音声の音源波形の推定”,第23回 日本シミュレーション学会大会 発表論文集,2004年06月,pp.315-318
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声入力部から入力される音声信号の声門流成分を推定する声門流成分推定装置であって、
前記音声信号をプリエンファシス処理するプリエンファシス処理部、
前記プリエンファシス処理部を経た音声信号から声道共鳴成分を除去する声道共鳴成分除去部、および
前記プリエンファシス処理部を経た音声信号から口唇放射成分を除去する口唇放射成分除去部を備え、
前記プリエンファシス処理部は、プリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行する、声門流成分推定装置。
【請求項2】
音声入力部から入力される音声信号の声門流成分を推定する声門流成分推定装置のコンピュータによって実行される声門流成分推定プログラムであって、前記コンピュータを
前記音声信号をプリエンファシス処理するプリエンファシス処理部、
前記プリエンファシス処理部を経た音声信号から声道共鳴成分を除去する声道共鳴成分除去部、および
前記プリエンファシス処理部を経た音声信号から口唇放射成分を除去する口唇放射成分除去部として機能させ、
前記プリエンファシス処理部では、プリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行させる、声門流成分推定プログラム。
【請求項3】
音声入力部から入力される音声信号の声門流成分を推定する声門流成分推定装置のコンピュータによって実行される声門流成分推定方法であって、
前記音声信号をプリエンファシス処理し、
前記プリエンファシス処理された音声信号から声道共鳴成分を除去し、そして
前記プリエンファシス処理された音声信号から口唇放射成分を除去し、
前記プリエンファシス処理では、プリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行する、声門流成分推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は声門流成分推定装置、プログラムおよび方法に関し、特に、音声信号を逆フィルタリングして音道共鳴成分および口唇放射成分を除去することによって声門流成分(glottal flow)を推定する、装置、プログラムおよび方法に関する。
【背景技術】
【0002】
非特許文献1には、この発明の背景となるこの種の声門波分析方法(glottal wave analysis method)が開示されている。この背景技術では、ハイパスフィルタリング(HPF)を経た音声信号(speech signal)を1次プリエンファシス(1次LPC:Linear Predictive Analysis)した後、反復適応的逆フィルタリング(IAIF:Iterative Adaptive Inverse Filtering)で処理することによって音道共鳴成分および口唇放射成分を除去する方法で声門流成分を推定している。
【先行技術文献】
【非特許文献】
【0003】
【文献】(「Glottal Wave Analysis with Pitch Synchronous Iterative Adaptive Inverse Filtering」, Paavo Alku, Speech Communication、vol.11, pp109-118, 1992
【発明の開示】
【発明が解決しようとする課題】
【0004】
非特許文献1の背景技術(以下、「従来技術」という。)では、声門流成分を推定できるものの、推定精度が十分でないという問題がある。特に、弱呼吸声(weak/breathy voice)において顕著である。
【0005】
それゆえに、この発明の主たる目的は、新規な、声門流成分推定装置、プログラムおよび方法を提供することである。
【0006】
この発明の他の目的は、推定精度を改善できる、声門流成分推定装置、プログラムおよび方法を提供することである。
【課題を解決するための手段】
【0007】
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
【0008】
第1の発明は、音声入力部から入力される音声信号の声門流成分を推定する声門流成分推定装置であって、音声信号をプリエンファシス処理するプリエンファシス処理部、プリエンファシス処理部を経た音声信号から声道共鳴成分を除去する声道共鳴成分除去部、およびプリエンファシス処理部を経た音声信号から口唇放射成分を除去する口唇放射成分除去部を備え、プリエンファシス処理部は、プリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行する、声門流成分推定装置である。
【0009】
第1の発明では、声門流成分推定装置100(実施例において相当する部分を例示する参照符号。以下同じ。)は、たとえばコンピュータ(10)を含み、コンピュータ(10)は、音声信号入力部(20)から入力される音声信号の声門流成分を推定する。プリエンファシス処理部(S11)では、音声信号をプリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行する。声道共鳴成分除去部(S12-S13、S24-S25)は反復最適プリエンファシス処理を経た音声信号から声道共鳴成分を除去する。口唇放射成分除去部(S14、S23、S26)は反復最適プリエンファシス処理を経た音声信号から口唇放射成分を除去する。
【0010】
第1の発明によれば、反復最適プリエンファシス処理によってスペクトル傾斜を平坦化することができ、特に弱呼吸声や呼吸声などにおいても、精度よく声門流成分を推定することができる。また、反復最適プリエンファシス処理では、閾値を設定してプリエンファシス処理を繰り返すので、処理負荷を大きくすることなく、効率よくスペクトル傾斜の平坦化することができる。
【0014】
第2の発明は、音声入力部から入力される音声信号の声門流成分を推定する声門流成分推定装置のコンピュータによって実行される声門流成分推定プログラムであって、コンピュータを、音声信号をプリエンファシス処理するプリエンファシス処理部、プリエンファシス処理部を経た音声信号から声道共鳴成分を除去する声道共鳴成分除去部、およびプリエンファシス処理部を経た音声信号から口唇放射成分を除去する口唇放射成分除去部として機能させ、プリエンファシス処理部では、プリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行させる、声門流成分推定プログラムである。
【0015】
第3の発明は、音声入力部から入力される音声信号の声門流成分を推定する声門流成分推定装置のコンピュータによって実行される声門流成分推定方法であって、音声信号をプリエンファシス処理し、プリエンファシス処理された音声信号から声道共鳴成分を除去し、そしてプリエンファシス処理された音声信号から口唇放射成分を除去し、プリエンファシス処理では、プリエンファシス係数が所定の閾値より小さくなるまで、プリエンファシス係数を更新してプリエンファシス処理を繰り返す反復最適プリエンファシス処理を実行する、声門流成分推定方法である。
【0016】
第2の発明および第3の発明においても、第1の発明と同様に、声門流成分の推定精度を改善することができる。
【発明の効果】
【0017】
この発明によれば、反復最適プリエンファシスによってスペクトル全体の傾斜を平坦化した後に、IAIF処理するので、声門流成分の推定精度を改善することができる。
【0018】
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【図面の簡単な説明】
【0019】
図1図1はこの発明の声門流成分推定装置が処理する音声信号の生成過程を示す図解図である。
図2図2図1の音声信号の各成分の特性を示すグラフであり、各グラフにおいて縦軸がログパワー(log-power)(dB)を示し、横軸が周波数(Hz)を示し、声門音源と音声信号の部分には、横軸が時間軸で、縦軸が振幅である信号波形が示される。
図3図3はこの発明の一実施例を示すブロック図である。
図4図4図3実施例において実行されるIAIF処理を示すフロー図である。
図5図5図4実施例の反復最適プリエンファシス(Iterative Optimal Preemphasis:IOP)処理の詳細を示すフロー図である。
図6図6は母音(/a/)を持続的に普通の強さ(modal)で発声したときの50msのハニング窓フレームの音声信号の高調波スペクトルを示グラフであり、縦軸にログパワー(dB)を示し、横軸に周波数(Hz)を示す。
図7図7図6の高調波スペクトルの外郭線(outline:ピークを結んだ線)を示すグラフであり、縦軸にログパワー(dB)を示し、横軸に周波数(Hz)を示し、点線が従来技術で1次プリエンファシスを施したときの外郭線の変化を示すグラフであり、太線が実施例の反復最適プリエンファシスを施したときの外郭線の変化を示すグラフである。
図8図8は従来技術で推定した声門流成分の波形を示す図解図であり、音声品質(voice qualities)が上から、絶叫声(Shouted/tense)、大声(Loud)、普通声(Modal)、呼吸声(Breathy)、弱呼吸声(Weak/breathy)の場合をそれぞれ示し、各グラフにおいて縦軸が振幅を示し、横軸が時間(ms)示す。
図9図9は実施例で推定した声門流成分の波形を示す図解図であり、音声品質が上から、絶叫声、大声、普通声、呼吸声、弱呼吸声の場合をそれぞれ示し、各グラフにおいて縦軸が振幅を示し、横軸が時間(ms)示す。
図10図10は母音(/a/)を持続的に発声したときの音道共鳴モデル(フォルマント)を示す図解図であり、図10(a)は従来技術でモデル化した呼吸声の場合を示し、図10(b)は実施例でモデル化した呼吸声の場合を示し、図10(c)は従来技術でモデル化した弱呼吸声の場合を示し、図10(d)は実施例でモデル化したによる弱呼吸声の場合を示し、各グラフにおいて縦軸がログパワー(dB)を示し、横軸が周波数(Hz)示す。
図11図11はNAQ(Normalized Amplitude Quotient:正規化した振幅商)を各音声品質、弱呼吸声、呼吸声、普通声、大声、絶叫声毎に従来技術と実施例で比較するグラフであり、縦軸にNAQを示し、横軸に音声品質を示す。
図12図12は推定した声門流成分の高調波スペクトルを従来技術と実施例で比較するグラフであり、図12(A)が従来技術の場合を示し、図12(B)が実施例の場合を示し、各グラフにおいて縦軸がログパワー(dB)を示し、横軸が周波数(Hz)を示す。
【発明を実施するための最良の形態】
【0020】
実施例の説明に先立って、音声信号(speech signal)について説明する。先に挙げた非特許文献1にも示されるように、音声信号Sは、声門音源(glottal source)G、声道共鳴(vocal tract resonance)Vおよび口唇放射(lip radiation)の線形カスケードとして与えられる(数1)。
[数1]
S(z)=G(z)V(z)L(z)
声門音源(声門流成分)Gは、声帯振動によって励起される体積速度に依存し、この声門流成分Gによって声の高さや声の質(強さ)が変わる。声道共鳴成分Vは、声道の形状に応じた共鳴特性に依存し、スペクトラムにおいてフォルマントピークとして現れる共鳴を与える。したがって、声道の形状が変わると発音される母音の質が変わる。この声道共鳴Vは、数2で与えられる。
【0021】
【数2】
【0022】
ただし、a(m=1,…,M)は、入力音声信号のM次線形予測(LPC)分析によって計算されるM個の自己回帰(すなわち線形予測)係数である。また、kは、DC(すなわち、周波数0Hzでログパワー(log-power)0dB)におけるユニティゲインを保証するために、声道伝達関数V(z)を均一にスケールアップまたはダウンするために計算されるゲイン係数である(数3)。
【0023】
【数3】
【0024】
口唇放射は、音圧を与える微分器であり、口唇放射成分Lは数4で表される。
[数4]
L(z)=1-blip-1
ただし、blipは口唇放射係数である。
【0025】
声門流成分Gのスペクトルは、図2に示すように、-12dB/oct(周波数が2倍になると12dB減少する)の傾斜を持っていると考えられている。調音のために声道形状を変えると、結果的に声道共鳴が変化するが、この声道共鳴成分Vのスペクトルの傾斜は図2に示すように、平均的には平坦であるとみなすことができ。一方、口唇放射成分Lは6dB/octの傾斜を持つ。したがって、音声信号、母音/a/のスペクトルは-6dB/octの傾斜を持つといえる。
【0026】
スペクトル傾斜のこれらの値は、通常の発声における男性の声に典型的な標準的な教科書的な値である。実際の値は、個々の特性および音声品質に応じて広範囲にわたって変化し得るので、音声信号または声門流のスペクトル傾斜は、標準値よりも浅くなったりまたはより急峻になり得る。
【0027】
このような音声信号Sから声門流成分Gを推定するために、従来技術のIAIFでは、その112ページの図3に示すように、2回の繰返し処理のそれぞれごとに、線形予測分析(LPC)によってモデル化し、G成分のみを残すために、逆フィルタリングおよび積分によって、V成分およびL成分を除去し、そして2回目の積分出力を推定した声門流成分Gとする。
【0028】
図3に示すこの発明の一実施例の声門流成分推定装置100においても、従来技術と同様に、音声信号Sから声道共鳴成分Vおよび口唇放射成分Lを除去する処理を実行する。
【0029】
この実施例の声門流成分推定装置100は、コンピュータ10、音声信号入力部20およびディスプレイ30を含む。コンピュータ10は、CPU12を含み、このCPU12には、バス14を介して、メモリ16および出力インタフェース18が連結される。メモリ16には、図4および図5に示すフロー図に従った声門流成分推定プログラムが設定されている。したがって、コンピュータ10すなわちCPU12は、そのプログラムに従って声門流成分推定動作を実行する。
【0030】
音声信号入力部20は、たとえばマイク(図示せず)を有し、そのマイクからの音声入力を、入力インタフェース22を介して、音声データとして、コンピュータ10に入力する。
【0031】
ただし、音声信号入力部20としては、マイクの他、録音再生装置(図示せず)が利用可能であり、その録音再生装置で再生した音声信号を入力することができる。
【0032】
あるいは、音声信号入力部20はネット接続手段を有してもよく、この場合、たとえばインタネットのようなネットワークを介して音声信号を入力することもできる。
【0033】
コンピュータ10に接続されたディスプレイ30では、コンピュータ10が推定した声門流成分Gを表示し、あるいはその声門流成分Gに基づく情報を表示することができる。
【0034】
声門流成分は発話者の感情に強い相関を有することがよく知られていて、そのために、ディスプレイ30では、声門流成分Gに基づいてそのような「話者の感情」をたとえばグラフィカルに表示するようにすることもできる。
【0035】
図4に示す最初のステップS1でCPU12は、音声信号入力装置20から入力され、所定のサンプリング周波数(たとえば、44.1kHz)でサンプリングされ、さらにたとえば50msの窓で切り出された音声信号S(n)のデータを、ハイパスフィルタリング処理する。したがって、音声信号S(n)からフィルタ処理された信号が取り出される。ただし、添え字nは、サンプルデータの番号である。
【0036】
なお、いちいち言及しないが、このステップS1を含む各ステップで処理する信号はディジタルデータであり、それぞれの処理はコンピュータ10すなわちCPU12によるディジタル計算処理である。
【0037】
ステップS1で取り出したフィルタ処理された信号は第1推定ステップS10および第2推定ステップS20にそれぞれ与えられる(さらに詳細には、前記フィルタ処理された信号は、反復最適プリエンファシスステップS11と逆フィルタリングステップS13、S22およびS25に与えられる)。第1推定ステップS10および第2推定ステップS20はそれぞれ、従来技術のIAIF処理と同じように、中間声門流成分g(n)および最終声門流成分g(n)を計算するステップである。
【0038】
従来技術の第1推定ステップでは、声門流成分と口唇放射成分との混合成分を大まかにモデル化して除去するために、LPC(線形予測分析)およびそれの出力Hgl(z)(非特許文献1における図3のHgl(z))(数5)を受ける逆フィルタリングを用い、逆フィルタリングの出力を、声道共鳴成分Vだけをモデル化するためのp次のLPC(図4の実施例でいえば、ステップS12に相当する。)に与える。
【0039】
【数5】
【0040】
このことは、実際には、声門と口唇放射によって引き起こされる全体的なスペクトル傾斜(spectral tilt)を除去することを意味し、したがって、1次のプリエンファシスに相当する。しかしながら、この1次プリエンファシスでは、最大6dB/octだけスペクトル傾斜を修正することができるだけであり、すべての音声や音声品質について、傾斜を完全に取り除くことはできない。
【0041】
詳しくいうと、従来技術でのIAIFの方法は、1次プリエンファシス(すなわち、逆フィルタリングが続く1次LPCモデリング)の1つの適用のみを使用する。このような1次プリエンファシスが全体のスペクトル傾斜を最大6dB/octだけ変化させることができることはよく知られている(それ以上ではない)。しかしながら、一般的に、様々な喉頭音声品質で発声される/a、i、u、e、o/などの言語音(speech sound)は、しばしば6dB/octを超える広範囲のスペクトル傾斜を有することがある。したがって、従来技術でのIAIFで使用される1次プリエンファシスは、確かに、スペクトル傾斜を減じられるが、完全に排除できる訳ではない。
【0042】
発明者等は、従来の手法のこのようなスペクトル傾斜の不完全除去が原因で、最終の声門流成分g(n)の十分な推定精度が得られなかったことを発見した。
【0043】
詳しく説明すると、発明者等は、従来技術のIAIFの第1推定ステップにおけるスペクトル傾斜の不完全な除去は、以下の望ましくない結果をもたらしているという、知見を得た。
(i)音声生成の古典的な音響理論は、声道それ自体にはスペクトル傾斜がないと説明しているが、推定された結果の声道スペクトルにあまりにも多くのスペクトル傾斜が生じている。
(ii)(i)の結果として、声門流スペクトルに十分なスペクトル傾斜が得られず、この問題は、弱呼吸声で顕著となるので、従来技術のIAIFでは、様々な音声品質の声門流スペクトルの傾斜を狭い範囲に圧縮(または均等化)する傾向があり、そのことが各音声品質を十分に分離できなかった。
(iii)しかも、声門流の信号(時間領域)は、特に、(生理学的および物理的に)より平らで滑らかであると予想される閉鎖相部分において、ノイズが生じる。
(iv)そのため、弱呼吸声(たとえば、悲しい声の間)の声門流の良好な推定値を見出すことがしばしば困難であった。
【0044】
後述の図10(a)および図10(c)に示すように、従来技術のIAIFでは、基本波成分を誤ってモデル化しており、誤ったモデル化の結果をキャンセルしているので、逆フィルタリングの後に妥当な声門流が残っていない。
【0045】
そこで、この問題を解決するために、この実施例では、図4に示すように、従来技術の2つのブロック2および3(最初の逆フィルタリングとそれに後続するLPC)を、ステップS11の反復最適プリエンファシス(IOP)に置き換える。このステップS11のIOPでは、プリエンファシス係数a1が、ゼロ(0)に近い所定の閾値たとえば「0.001」未満に収束するまで、プリエンファシスを繰り返し実行する。
【0046】
具体的には、図5に示すように、ステップS111で、数6でプリエンファシス係数aを後述の数8に示されるように、1サンプル離れたデータを用いて計算された自己相関Rで計算する。そして、ステップS112でそのプリエンファシス係数aが「ゼロ(0)」に近い所定の閾値たとえば「0.001」未満になるまで、ステップS113で、そのプリエンファシス係数aを更新しながら、数7で示すプリエンファシスを実行する。
[数6]
=R/R
[数7]
=x-an-1
詳しく説明すると、このステップS11すなわちステップS111の入力信号xは、低域の環境ノイズを除去するためのハイパスフィルタリング(たとえば、fc=70Hz)処理した後の50msの期間のフレーム分の音声信号を、たとえばFs=8kHzのサンプリング周波数でリサンプリングした音声データであり、データ個数はN=400である。
【0047】
この入力フレームをハニング窓関数(Hanning window function)で窓処理して、数6に従って、自己相関係数Rを計算する。なお窓関数としては、ハニング以外のガウシアンなども使用できる。
【0048】
【数8】
【0049】
このようにして計算した隣接する2つの自己相関係数RおよびRを用いて、数6で示す最適プリエンファシス係数aを計算し、ステップS113で数7に従ってプリエンファシスを計算して出力信号y(n)を得る。
【0050】
そして、ステップS112で、最適プリエンファシス係数aが予め設定している閾値(|a|=0.001)より小さくなるかどうか判断し、もし最適プリエンファシス係数aが0.001より小さくなったと判断したとき、ステップS113の計算を終了する。
【0051】
0.001より大きい場合には、計算結果を新たな入力信号としてフィルタ計算を繰り返すことになる。
【0052】
このような、反復最適プリエンファシス処理によって、低域における大きな減衰が得られる。
【0053】
つまり、実際には、ステップS11のIOPでは、プリエンファシス係数aは急速に収束する。すなわち、最適なプリエンファシス係数aは、分析する音声信号の全体的なスペクトル傾斜に依存するものの、ステップS111-S113の数回、たとえば2-6回程度の反復でゼロに近づく。したがって、実施例のIOPを用いても、従来技術のIAIFアルゴリズムに対して、計算上のオーバヘッドが追加されることは殆どない。
【0054】
そして、ステップS11でIOPを施した音声信号が、第1推定ステップS10において、声道共鳴だけをモデル化するためのステップS12に与えられる。ステップS12はIAIFの第1推定ステップにおける声道伝達関数をモデル化するためのt1次(t1はたとえば、{8、10、12、14、16、18}の中から最適なものが選ばれる)のLPC処理であり、その結果の出力Hvt1(z)(声道伝達関数のLPCモデル)がステップS13に与えられる。その後、ステップS13での逆フィルタリング処理によって、このモデル化した声道共鳴成分Vを除去する。
【0055】
ステップS14は積分処理である。先に説明したように、口唇放射は微分器なので、このステップS14で積分処理することによって、その口唇放射成分Lを除去することができる。したがって、ステップS14の後、中間声門流成分g(n)を得る。なお、ステップS14(ステップS23およびS26も)は、数式y=x+blipn-1(出力y、入力x)であらわされる処理を行う(blipは{0.8、0.81、0.82、…、0.99}から結果を見ながら選ばれるもので、処理としては、完全な積分処理(blip=1の場合)ではない)
この中間声門流成分g(n)が第2推定ステップS20でさらに処理される。ただし、この第2推定ステップS20では、非特許文献1の図3におけるブロック6-10での処理と同様の処理を実行する。
【0056】
第2推定ステップS20の最初のステップS21でIAIFの第1推定ステップにおける声門流をモデル化するためのg2次のLPC処理が施され、その結果の出力Hg2(z)(声門流のLPCモデル)がステップS22に与えられる。ただし、実施例では、g2=4に固定した。
【0057】
ステップS22で出力Hg2(z)が逆フィルタリング処理される。ステップS21では、第1推定ステップS10で推定された中間声門流成分g(n)がモデル化され、ステップS22ではモデル化した中間声門流成分g(n)を除去する。ステップS23で積分し、上述のように、口唇放射成分を除去する。
【0058】
さらにステップS24でIAIFの第2推定ステップにおける声道伝達関数をモデル化するためのt2(=t1)次のLPC処理が実行され、その結果の出力Hvt2(z)(声道伝達関数のLPCモデル)がステップS25に与えられる。ステップS24では、先のステップS23で口唇放射成分を除去した音声信号の声門流成分がモデル化され、ステップS25ではモデル化した声門流成分を除去する。ステップS26で積分し、口唇放射成分を除去する。したがって、ステップS26での処理結果が、最終推定声門流成分g(n)となる。
【0059】
なお、図4の実施例では第2推定ステップS20で2つの積分ステップS23およびS26を実行するようにした。しかしながら、ステップS23は省略されてもよい。
【0060】
ここで、図6図12を参照して、この実施例の効果について説明する。
【0061】
図6は母音/a/を普通の強さで発音したときの音声信号の50msのハニング窓フレームのFFTスペクトル(FFT spectrum)を示し、この音声信号の外包線が図7に示される。
【0062】
この音声信号に対して、従来技術での1次LPCでの1次プリエンファシスを施したとき、図7の点線で示すように、スペクトル傾斜が改善(平坦化)される。一例として、このときのプリエンファシス係数a1を、a=0.994と想定したとき、スペクトル傾斜はおよそ5.1dB/oct改善される。
【0063】
これに対して、実施例におけるステップS11での反復プリエンファシスを実行すると、図7の太線で示すように、スペクトル傾斜が11.1dB/oct改善され、スペクトル傾斜がほぼ平坦化された。このときのプリエンファシス係数aは、表1で示すように、0.994、0.749、0.341、0.070、0.016、0.004として、計6回ステップS113(図5)でのプリエンファシス計算を実行した。つまり、7番目のプリエンファシス係数aは閾値0.001未満となったため、ステップS112を経て、ステップS113の計算は停止された。
【0064】
各音声品質に対して実施例の反復最適プリエンファシス処理を施した場合の、普通(Modal)の強さでの音声信号を基準(0)としたエネルギの変化を表1に示す。
【0065】
【表1】
【0066】
そして、表1の右側には、音声品質毎に反復最適プリエンファシスで生成する一連のプリエンファシス係数a1がリストされている。このプリエンファシス係数aの最初の値(太字)は、従来技術の1次プリエンファシスと一致する。実施例での反復最適プリエンファシス(IOP)では4-7回の反復で迅速に収束した。注目すべきは、プリエンファシス係数aの最初の値と2番目の値は、ともに音声品質に関して単調に変化し、弱呼吸声(Weak/breathy)と呼吸声(Breathy)に必要な強いプリエンファシスと、大声(Loud)や絶叫声(Shouted/tense)のための弱いプリエンファシスとを予想どおりに示した。
【0067】
このように、特に弱呼吸声や呼吸声でスペクトル傾斜が平坦化されたことによって、第2推定ステップS20で出力される声門流成分Gが図9に示すように、精度よく推定できる。
【0068】
詳しくいうと、図4のステップS11においてスペクトル傾斜を最適に平坦化することによって、ステップS12におけるLPCモデル化において、スペクトル傾斜(スペクトル傾斜を持たない)とフォルマントの両方に関してより正確に声道伝達関数を推定することができる。時間領域においては、図9に示すように推定声門流がより滑らかであり、周波数領域においては、図10および図12に示すように、声道共鳴のモデル化および声門高調波スペクトルがそれぞれ改善されていることを示している。つまり、声道共鳴を正しくモデル化でき、その結果それに基づいて声道共鳴を正しく除去することができる。
【0069】
図8は従来技術で推定した各音声品質の声門流成分を示すが、この例では、弱呼吸声では声門流成分は殆ど検出できずほぼ直線に見えるだけでなく、全体に滑らかさに欠ける。この理由は、図10(c)に示す鋭いスプリアスピークを誤って含んでいたからである。対照的に、図10(d)は、実施例のIOPがスペクトル傾斜を平坦化するだけでなく、基本波を効果的に抑制し、合理的なモデル化をもたらすことを示している。その結果、実施例では、弱呼吸声の場合あっても図9の最下に示すほぼ正弦波の声門流成分を推定することができる。
【0070】
有声音を声道逆フィルタリングして得られる声門流の最大値と最小値の差を、声帯流の微分波の負ピークの大きさとピッチ周期で除した値をNAQ(Normalized Amplitude Quotient:正規化された振幅商)として定義するが、このNAQを用いて、入力された音声が弱い声であれば悲しみの傾向が強いと判断でき、強い声であれば喜びの傾向が強いと判断できる。つまり、NAQは、弱呼吸声から絶叫声までの音声品質の変化に関連することが示されているよく知られているパラメータである。図11は、各推定声門流の中央3-5周期から抽出されたNAQの平均値を示している
図11の値は、弱呼吸音がより高いNAQを有し、絶叫声がより低いNAQを有し、普通音声がそれらの間に位置する。実施例で推定された声門流成分に基づいて計算されたNAQは、従来技術による場合に比べて、一貫して弱呼吸声側に向かってやや高いが、図11は、音声品質毎に良好に分離されていることを示している。弱呼吸声を除外しても、呼吸声に対するNAQの範囲(および比)は従来では0.10(1.98)であったが、実施例では0.16(2.32)であった。さらに、各々の場合に分析された3-5個の声門流パルスの中で、NAQの標準偏差は、従来では平均0.016であり、実施例では平均0.005であった。これは、実施例が、1つの分析フレーム内で推定される連続的な声門流パルスの形状における一貫性を提供できることを示唆している。
【0071】
最後に、図12は、分析条件全体にわたる5つの音声品質の声門高調波スペクトルを比較する。ここでは、全体的な音圧レベルではなくスペクトル品質に及ぼす音質の影響を強調するために、各スペクトル(高調波が測定された)は0dBのエネルギに正規化されている。実施例の手法によって声道のスペクトル傾斜の最適な平坦化のおかげで、声門流のスペクトルに急な傾斜を形成しているので、図9における滑らかな声門流となっている。さらに、実施例における声門流高調波スペクトルは、従来技術では弱呼吸音について誤った推定結果を生じていたのに対して、5つの音声品質、弱呼吸声、呼吸声、普通声、大声、絶叫声、すなわち、殆どの周波数でより大きいダイナミックレンジで明確に分離している。弱呼吸声(最も傾斜している)から説教声(最も傾斜していない)まで、スペクトル傾斜の声門流成分の明確な進行がある。
【0072】
上述の実施例では、IAIF声門逆フィルタリングアルゴリズムの第1段階における1次LPモデリング(1次プリエンファシス)の代わりに反復最適プリエンファシス(IOP)を提案した。これの考えは、音声生成の音響理論に基づいており、声門流の理想的な伝達関数は、声道共鳴および口唇放射から分離され、全体的な傾斜はない。この実施例のIOPは、1サンプルの差のデータを用いて、相関係数を計算するとともに、フィルタ処理を行い、それによって利用可能な周波数範囲にわたってスペクトル傾斜を除去する、迅速に収束するアルゴリズムである。
【0073】
なお、上述の実施例では、実験において良好な結果を示したために、反復最適プリエンファシスのためのプリエンファシス係数aの閾値を0.001に設定した。しかしながら、発明者等の試行によれば、その閾値を大きくしてたとえば0.01に設定しても比較的良好な結果を示した。したがって、プリエンファシス係数aの閾値は、0.01まで利用可能と考えられる。
【0074】
そして、閾値を設定してプリエンファシス係数がそのような閾値より小さくなるまでプリエンファシス処理を繰り返すので、処理負荷(計算負荷)を大きくすることなく、効率よくスペクトル傾斜の平坦化することができる。
【0075】
なお、上述の実施例はコンピュータで図4および図5のフローを実行するようにしたが、各ステップをそれぞれたとえばDSP(Digital Signal Processor)のようなハードウェア回路で実現するようにしてもよい。
【0076】
上記声門流成分推定装置の応用例として、話者の感情を検出する応用例について、記載したが、そのほか、話者の個人の識別や、声門流成分を利用する音声合成処理にも適用が可能である。いずれにおいても、正確な声門流の推定により、良好な結果が得られる。
【符号の説明】
【0077】
100 …声門流成分推定装置
10 …コンピュータ
12 …CPU
16 …メモリ
20 …音声信号入力部
30 …ディスプレイ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12