(58)【調査した分野】(Int.Cl.,DB名)
前記ピーク概形抽出手段は、対象とする音声信号のスペクトログラムに対して、時間・周波数領域において当該スペクトログラムの包絡の複数個の局所的なピークに沿った曲面を抽出し、抽出した曲面から各時刻における前記ピーク概形を得ることを特徴とする、請求項1に記載の音声明瞭化装置。
前記スペクトル変形手段は、前記ピーク概形抽出手段が抽出した前記ピーク概形に基づいて、前記音声信号のスペクトルのピークを強調するスペクトルピーク強調手段を含むことを特徴とする、請求項1に記載の音声明瞭化装置。
【発明を実施するための形態】
【0019】
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。以下の説明では、最初に実施の形態の基礎となる基本的考え方を述べ、その後に本実施の形態に係る音声明瞭化装置の構造及び動作を説明する。
【0020】
[1.基本的考え方]
以下に説明する実施の形態は、音声明瞭化の技術として2つを採用している。1つは、スペクトルの包絡線に基づくスペクトル・シェーピングによる雑音特性への音声の適応技術である。他の1つは雑音中の音声の知覚にさして影響を与えない調波を間引き、間引かれた調波のエネルギを他の重要な成分に再配分する技術である。
【0021】
なお、本明細書において、スペクトルの「包絡線」及びスペクトログラムの「包絡面」という言葉を使用するが、これは当該技術分野において通常用いられる「スペクトル包絡」とも、数学的な意味での「包絡線」及び「包絡面」とも異なる。スペクトル包絡は、音声スペクトルに含まれる高調波等の微細構造を取り除いたなだらかな周波数方向の変動を表し、一般に人間の声道特性を反映するとされる。一方、本発明における「包絡線」、又は「包絡面」の特定時刻の断面として表わされる曲線は、一般にいう「スペクトル包絡」のフォルマント等の複数個の局所ピークに接する、又は局所ピーク近くに局所ピークに沿って描かれる曲線であり、スペクトル包絡よりもなだらかな曲線で表される。その意味では、「スペクトル包絡の包絡」、又は「スペクトル包絡のピークの概形」と表現することもできる。ここではスペクトル包絡と本明細書における「包絡線」とを区別するために、一般にいう「スペクトル包絡」を「スペクトル包絡」、スペクトル包絡の局所的ピークに接して、又はそれらに沿って描かれた曲線を単に「(スペクトルの)包絡線」と呼ぶ。スペクトログラムの「包絡面」も同様である。スペクトログラムにおいて、各時刻でスペクトログラムを構成するスペクトルのスペクトル包絡により形成される面を「スペクトログラム包絡」と呼び、スペクトログラム包絡の局所的ピークに接する、又はそれらに沿って描かれる曲面を単に「(スペクトログラムの)包絡面」と呼ぶ。ただし、包絡線又は包絡面を抽出する際にスペクトル包絡を介する必要はない。本明細書でいう「包絡面」の特定周波数の断面として表わされる曲線(ある周波数におけるスペクトルの時間変化)もここでは包絡線と呼ぶ。なお、ここにいう「曲線」及び「曲面」が、それぞれ直線及び平面を含んでもよいことはいうまでもない。
【0022】
<1.1 スペクトルの包絡線に基づくスペクトル・シェーピング>
スペクトルの包絡線に基づくスペクトル・シェーピングによる音声の明瞭化技術は、以下のようにして音声の明瞭化を行なう。
【0023】
(1)音声のスペクトログラムの包絡面を抽出する。
【0024】
(2)前記包絡面に基づいて、スペクトルにおけるフォルマント等のピークを強調するようスペクトルを変形する。
【0025】
(3)スペクトログラムの包絡面にあわせて音声のスペクトル及びその時間変動の双方を変形するとともに、
【0026】
(4)スペクトログラムの各フレームについて、雑音の平滑化スペクトルが音声スペクトルの包絡線と平行になるような変形を音声スペクトルに加える。
【0027】
このように本実施の形態に係るスペクトル・シェーピング手法は、従来法とは異なり、音声知覚におけるフォルマント等の音声スペクトルのピークの重要性を考慮し、かつ、聴覚と関連が深いスペクトルの時間変動に対してダイナミックレンジの圧縮を行なっている。そして、音声の知覚において重要なフォルマント等のピークが、雑音スペクトルから突出するように処理している。
【0028】
〈1.1.1 スペクトログラムの包絡面〉
図2に、音声のスペクトログラム60とその包絡面62との例を示す。
図2では、両者を見やすくするために包絡面62を便宜上実際よりも80dB上方に描画している。実際には、両者は、スペクトログラム60のピークが包絡面62に下側から接するような関係にある。なお
図2では、周波数軸はバーク尺度周波数で示され、縦軸は対数パワーを示してある。周波数軸にメル尺度やバルク尺度、ERB尺度といった知覚的又は音響心理学的尺度を用いることで、音声の明瞭性を左右する低周波域のスペクトルを重視した包絡面の抽出を行なうことができる。この包絡面62は、既に述べたようにスペクトログラム60の変化に対して比較的緩やかな包絡となるようにとってあり、以下に述べるように特に周波数方向よりも時間軸方法においてその変化が緩やかとなっている。
【0029】
音声のスペクトログラム|X
k,m|
2(kは対象スペクトログラムの周波数軸上の周波数範囲の位置を表し、mは対象スペクトログラムの時間軸上の位置すなわちフレーム番号である)、について、その局所ピークに接する包絡面 ̄X
k,mを求めることを考える(「 ̄」は、以下に記載する数式においてその直後の文字の上に描かれたバーを示す。)。ここでは、以下の逐次近似法を用いる。
【0030】
包絡面のn回目の近似を ̄X
k,m(n),その対数の2次元離散フーリエ逆変換を ̄x
u,v(n)とする。初期値 ̄x
u,v(0)を次式で与える。
【0031】
【数1】
ここで、L
u,vは2次元ローパスフィルタで、1.1.2節で詳述する。
【0033】
【数2】
ここで、αは収束を加速するための係数である。
【0034】
所定の値ε>0に対して次式を用いて収束判定する。ただし次式においてM及びNはそれぞれ、スペクトルのデータポイント数及び総フレーム数を表す。
【0035】
【数3】
収束後、 ̄X
k,mは次のように与えられる。
【0036】
【数4】
ただし ̄X
minは予め定めた定数である。包絡面の下限 ̄X
minを設けることで、スペクトログラム変形時に、パワーが微小な無音部等が強調され異音が発生するという問題を回避できる。
【0037】
〈1.1.2 包絡面平滑化2次元フィルタ〉
式(1)(2)及び(3)のL
u,vには本実施の形態では次式を用いる。
【0038】
【数5】
f
sは音声のサンプリング周波数を表す。T
fは分析フレーム周期を表す。Nは音声区間の総フレーム数を表す。時間(ケフレンシ)領域及び周波数領域のカットオフγ、ηを調整することで、包絡面の周波数方向及び時間方向の平滑化の度合いをそれぞれ変えることができる。
【0039】
このようにして得られたものが、例えば
図2の包絡面62、
図3の包絡線72、
図4(A)の包絡線92等である。なお、
図3及び
図4の場合、図面に出ているのは包絡面のそれぞれ周波数方向及び時間方向の断面の曲線であるため、ここでは包絡線と呼んでいる。
【0040】
なお、本実施の形態では、後述するように音声は合成音声であって既知であることを前提としている。したがってこうした包絡面を予め算出しておくことができる。音声が既知でなくリアルタイムで与えられる場合には、例えば以下のようにして上記と同等の包絡面を得ることができる。
【0041】
(1)現在の分析フレームのスペクトルの包絡線を逐次計算する。
【0042】
(2)計算により得られた包絡線時系列を、ローパスフィルタ等で時間軸方向に平滑化する。
【0043】
〈1.1.3 雑音への適応〉
包絡面を雑音に対して適応化するためには、雑音スペクトルを得る必要がある。本実施の形態では、マイクにより周囲の雑音を収集し、そのパワースペクトル|Y
k,m|
2を逐次計算し、ローパスフィルタに通す等して時間方向に平滑化したスペクトル ̄Y
k,mを得る。本実施の形態では、次式を用いてこの平滑化を行なう。
【0044】
【数6】
 ̄Y
k,mに応じて整形した(すなわち雑音に適応した)音声のスペクトログラム|X´
k,m|
2を次式で与える。ここで、音声スペクトルの包絡線を利用したスペクトルピーク強調を同時に行なう。これによって、フォルマントが強調され明瞭性がさらに向上する。
【0045】
【数7】
式(7)の(a)は、スペクトルの包絡線が変化しないフォルマント強調(γ>1)であり、(b)は包絡線が平滑化雑音スペクトルに平行となるような音声スペクトルの変形操作に相当する。
【0046】
式(7)の(a)についてより詳しく説明する。
図3(A)を参照して、ある時間における音声のスペクトログラム(スペクトル)70に対し、その包絡線を包絡線72とする。式(7)の(a)は以下のように表せる。
【0047】
【数8】
この式の自然対数表現をとると以下のようになる。
【0048】
【数9】
この式の第2項のカッコの中は、対数領域において、スペクトルの値(対数パワー)から包絡線の値を減算することを意味する。この結果、包絡線がスペクトルに接しているフレームでは、例えば、
図3(A)に示すスペクトル70は、
図3(B)に示す曲線74に変形される。
図3(B)において、曲線74のピークの対数パワー値はほぼ0となっている。
【0049】
さらにこの値に対数領域でγ>1を乗算することにより、曲線74は
図3(C)に示す曲線76のように変形される。この変形は、曲線74の谷部分を深くすることでピーク部分を強調することに相当する。
【0050】
上記式の第1項は、対数領域において、
図3(C)に示す曲線76に、ln ̄X
k,mを加算することを意味する。その結果、
図3(C)の曲線76は対数パワー軸に沿って上方にln ̄X
k,mだけ移動する。その結果、
図3(D)に示すスペクトル80が得られる。このスペクトル80のピークは、
図3(A)に示す包絡線72と同じ包絡線に接している。
【0051】
式(8)のD
k,mは雑音の平滑化スペクトルと音声スペクトルの包絡線との比である。この値を式(7)の(b)に示すようにζ
m乗して(a)に乗算する(対数領域では雑音の平滑化スペクトルと音声スペクトルの包絡線との差をζ
m倍して
図3(D)のスペクトル80に加える)ことにより、
図3(D)に示すスペクトル80に対し、そのスペクトルの包絡線が雑音の平滑化スペクトルとなるような変形操作が行なわれる。例えばζ
m=1とすると、対数領域では、
図3(C)のスペクトル80から包絡線72を減算し、雑音の平滑化スペクトル ̄Y
k,mを加算することになる。ただし、極端な変形を避けるため、所定のξに対してζ
mを以下のように定める。
【0052】
【数10】
ここでR
mはスペクトル変形の度合いを表す。本実施の形態ではR
mを以下の式で与える。
【0053】
【数11】
上記した変形によって得られる音声のパワースペクトルの一例を
図5に示す。
図5において、雑音信号130が平滑化スペクトル134を持つものとする。発話のための合成音声信号に対して上記明瞭化処理を行なって得られたのが、音声信号132である。
図5からまず、包絡面抽出時にバーク尺度周波数を用いたことによる効果が読みとれる。すなわち、比較的低い周波数域において重点的に音声スペクトルが雑音スペクトルに適応し、特に明瞭性に影響する周波数4000ヘルツ以下の帯域において、発話の音声信号132のフォルマント等のピークのパワーが雑音スペクトルより大きくなっている。次に、この帯域において音声信号のスペクトルの包絡線136は、雑音信号の平滑化スペクトル134と平行した形でかつ平滑化スペクトル134より上に位置しているのがわかる。これによって、明瞭性に大きな影響を与える音声のフォルマント部分(スペクトルのピーク)が雑音スペクトルから突出するように音声が合成されるため、雑音中でも聞き取り易い明瞭な音声が生成可能となる。
【0054】
このようなスペクトルの(周波数領域における)変形に伴い、(7)式では、音声のスペクトログラムの時間方向の変動に対して
図4に示すような変形を行なっている。
図4(A)を参照して、上記した変形前のスペクトログラムのある周波数における断面90に対し、そのスペクトログラムの包絡面の同周波数における断面が包絡線92により表されるものとする。断面90のうちパワーの比較的低い部分に子音から母音への過渡部94が存在するものとする。
【0055】
雑音がほぼ定常でそのパワースペクトルが時間経過に対して大きく変化しないときには、スペクトログラム時間方向の断面90に対し、包絡線92を雑音に合わせて平坦にする変形を行なうことになる。
図4(B)に示すように、時間軸方向で包絡線102が平坦になるようスペクトログラムが変形される。変形後の時間変動100では、
図4(A)に示す子音から母音への過渡部94に対応する過渡部分104は、包絡線102に下から接するように持ち上げられた形となる。この結果、変形後の時間変動100に基づいて音声を合成すれば、子音の知覚において重要な手掛かりとなる過渡区間が相対的に増幅・強調され、音声を明瞭化することができる。
【0056】
一方数5に示す式(5)の係数は例えば次のように設定する。周波数方向については包絡線が緩やかにスペクトルピークだけに接するようにτ=125μsとする。これは、16kHzサンプリングの音声で、各フレームの包絡線を2次までのケプストラムを用いてそれぞれ表現することに相当する。一方、時間方向については、
図4(A)のように包絡線を起伏に追従させ、同図(B)のように子音・母音間の過渡部等が強調されるように、η=20〜40Hz程度に設定する。また、γ=1.3程度に設定してフォルマントを強調する。
【0057】
<1.2 調波の間引きとエネルギの再配分>
上記したスペクトル・シェーピングにより、雑音環境下でも音声を明瞭化できる。しかし本実施の形態では、音声の合成時に、音声の明瞭性に対する影響が小さい調波を間引き、間引かれた調波のエネルギを、残された調波に集中することで知覚音量を増大させ、さらなる明瞭性向上をねらう。このとき、残される調波の数は一定数以下に制限する。この目的のため、音声合成には正弦波合成を用いる。
【0058】
まず、音声が雑音に埋もれている周波数帯域における調波の有無は、音声の聞こえには大きく影響しない。そこで、本実施の形態では、所定の定数θに対して次の式(12)が成り立つ時間周波数では調波は間引き合成しない。
【0059】
【数12】
この定数θが0のときには、変換後の音声信号のうち、雑音信号の平滑化スペクトルよりレベルが上になる調波成分のみ合成し、それ以外の調波成分は合成しない。定数θが正のときには、音声信号のうち雑音信号の平滑化スペクトルより対数パワーでθだけ上のレベルを上回る調波成分のみ合成し、それ以外を合成しない。定数θが負のときには、音声信号のうち雑音信号の平滑化スペクトルより対数パワーでθの絶対値だけ下のレベルを上回る調波成分のみ合成し、それ以外は合成しない。
【0060】
さらに、本実施の形態では、音声が雑音に埋もれていなくても、各フォルマント周波数の最も近くに位置する調波の両隣の調波のうち、一方は間引いて合成しない。これは、いわゆるマスキングと同様の原理で、フォルマント周波数の最も近くに位置する調波に隣接する調波は聞こえにはさして影響しないためである。合成しない調波を一方のみとし、他方を合成するのは、調波成分があまりまばらになってしまうと、音声のピッチの知覚が困難になるため、それを回避するためである。
【0061】
例えば、
図6(A)に示す例で、雑音の平滑化スペクトルがスペクトル160である場合を考える。定数θ<0とすると、
図6に示す調波成分のうち、調波成分170、172、190、174、176、178、180、及び182のみが式(12)を満たす。そこで、これらのみが合成の対象となり、それ以外の調波成分については合成しない。また、調波成分190,180については、本来であれば合成の対象であるが、フォルマントを形成する調波成分172、178にそれぞれ隣接しているので、やはり合成しない。他方の調波成分170、176はそれぞれ残す。
【0062】
さらに、このようにして合成しないと決定された調波成分については、それらのエネルギを残った調波成分に再配分する。その結果、
図6(A)に示す調波成分170,172,174,176、178及び182にそれらエネルギ200が再配分され、
図6(B)に示すように、パワーのレベルが上昇した調波成分210,212,214,216,218及び222が得られる。この結果、残った調波成分のパワーは雑音スペクトルよりもさらに上に出ることになり、フォルマント近辺でSN比が改善して音声が明瞭になる。ここで、音声信号のエネルギの総和は変化しないので、物理的な音量は変化しない。
【0063】
[2.構成]
以上の原理に基づく本実施の形態に係る音声明瞭化装置の構成について説明する。
図7を参照して、この実施の形態に係る音声明瞭化装置250は、音声合成処理部252により合成された合成音声信号254と、マイク258により集音された周囲の雑音を示す雑音信号256とを入力とし、合成音声信号254を雑音信号256に対して適応化することにより、合成音声信号254による音声よりも明瞭な変換後音声信号260を出力するためのものである。
【0064】
音声明瞭化装置250は、合成音声信号254を受けてそのスペクトログラム|X
k,m|
2を抽出するスペクトログラム抽出部290と、スペクトログラム抽出部290の抽出したスペクトログラム|X
k,m|
2に基づき、その包絡面| ̄X
k,m|を抽出する包絡面抽出部292とを含む。スペクトログラム抽出部290によるスペクトログラム抽出は慣用の技術により実現できる。包絡面抽出部292による包絡面の抽出には、1.1.1及び1.1.2に述べた技術を用いる。この処理は、コンピュータハードウェアとソフトウェアとによっても実現できるし、専用のハードウェアにより実現することもできる。ここでは、コンピュータハードウェアとソフトウェアとにより実現する。なお、この実施の形態のように音声合成処理部252による合成音声を変換の対象とする場合には、予め音声信号が分かっているので、スペクトログラムの抽出及び包絡面の抽出はいずれも予め計算できる場合が大部分である。
【0065】
音声明瞭化装置250はさらに、マイク258から受信した雑音信号256に対し、デジタル化、フレーム化等の前処理を施して一連のフレームからなる雑音信号を出力する前処理部294と、前処理部294が出力するフレーム化された雑音信号からそのパワースペクトルを抽出するパワースペクトル計算処理部296と、パワースペクトル計算処理部296により抽出された雑音信号のパワースペクトルに対して、その時間変動を平滑化して雑音信号の時刻mT
f(m番目のフレーム)における平滑化スペクトル ̄Y
k,mを出力する平滑化処理部298と、スペクトログラム抽出部290の出力する合成音声のスペクトログラム|X
k,m|
2、包絡面抽出部292が出力する合成音声の包絡面| ̄X
k,m|、及び平滑化処理部298が出力する雑音信号の平滑化スペクトル ̄Y
k,mとに基づいて、上記1.1.3で説明した雑音への適応処理を行ない、適応化後の音声信号の時刻mT
fにおけるスペクトル|X´
k,m|
2を音声の基本周波数の間隔でサンプルして得られる調波成分を出力する雑音適応処理部300と、雑音適応処理部300から出力される各調波について雑音の平滑化スペクトル ̄Y
k,mとのレベル比較を行なって、式(12)に従って所定レベル(すなわちSN比)を下回る調波を間引くとともに、各フォルマント周波数の最も近くに位置する調波に隣接する調波の片方を間引く調波間引き処理部302と、調波間引き処理部302により間引かれた後の残された各調波成分に、間引かれた調波成分のパワーを均等に再配分するパワー再配分処理部304と、パワー再配分処理部304においてパワー再配分を受けた残った調波から音声を合成する正弦波音声合成処理部305とを含む。正弦波音声合成処理部305の出力が、雑音に対して適応化され、明瞭化された変換後音声信号260である。なお、雑音適応処理部300において、上述のスペクトル|X´
k,m|
2を音声の基本周波数の間隔でサンプルする処理、及び、調波間引き処理部302において、雑音中の音声の知覚にさして影響のない調波を間引く処理は、音声が調波成分を持つ有声区間においてのみ適応されることは言うまでもない。
【0066】
[3.動作]
音声明瞭化装置250は以下のように動作する。音声合成処理部252は図示しない音声発生の指示を受けて音声合成を行ない、合成音声信号254を出力しスペクトログラム抽出部290に与える。スペクトログラム抽出部290は、この合成音声信号254からスペクトログラムを抽出し包絡面抽出部292と雑音適応処理部300とに与える。包絡面抽出部292は、スペクトログラム抽出部290から与えられたスペクトログラムからその包絡面を抽出し雑音適応処理部300に与える。
【0067】
マイク258は、周囲の雑音を集音し、電気信号である雑音信号256に変換して前処理部294に与える。前処理部294は、マイク258から受信した雑音信号256を所定フレーム長で所定シフト長のフレームごとにデジタル化し、一連のフレーム化された信号としてパワースペクトル計算処理部296に与える。パワースペクトル計算処理部296は、前処理部294から受けた雑音信号からパワースペクトルを抽出し、平滑化処理部298に与える。平滑化処理部298は、このスペクトルの時系列をフィルタリングにより平滑化することで雑音の平滑化スペクトルを算出し雑音適応処理部300に与える。
【0068】
雑音適応処理部300は、前述した手法により、スペクトログラム抽出部290から与えられるスペクトログラムに、包絡面抽出部292から与えられる合成音声信号254のスペクトログラムの包絡面、及び、平滑化処理部298から与えられる雑音信号の平滑化スペクトルを用いた雑音適応化処理を行ない、適応化後の各時刻における音声信号のスペクトル|X´
k,m|
2を、音声の基本周波数間隔でサンプルして得る調波成分を出力し、調波間引き処理部302に与える。
【0069】
調波間引き処理部302は、雑音適応処理部300の出力する各調波について、平滑化処理部298の出力する雑音信号の平滑化スペクトルとの比較を行ない、前述した調波の間引き操作を行なって残された調波のみを出力する。パワー再配分処理部304は、間引き処理部302が出力する間引き後のスペクトログラムの各調波に、間引きされた調波のパワーを再配分し、残っている調波のレベルを引き上げることにより、変換後音声信号260を出力する。
【0070】
前述した原理により、雑音適応処理部300により雑音に適応化された合成音声は、スペクトルのピークが強調され、音声過渡部のスペクトル特徴が強調されたものとなっている。また、そのピークは雑音レベルに適応しており、雑音環境下でも聞き取りやすい音声を生成できる。さらに、調波間引き処理部302により明瞭性に影響しない調波を間引き、パワー再配分処理部304により、残っている調波にそのパワーを再配分している。その結果、音声パワーの総量を変化させることなく、音声のうち明瞭性に影響する部分のパワーのみを高めることができる。その結果、音量を不必要にあげることなく、聞き取りやすい音声を発生させることができる。
【0071】
[4.コンピュータによる実現]
上記した音声明瞭化装置250は、実質的には、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。ここで、包絡面抽出部292、雑音適応処理部300を実現するプログラムは、それぞれ1.1.1〜1.1.2、及び1.1.3に説明した処理を実行するものを利用できる。
【0072】
<ハードウェア構成>
図8は、上記した音声明瞭化装置250を実現するコンピュータシステム330の内部構成を示す。
【0073】
図8を参照して、このコンピュータシステム330は、コンピュータ340と、このコンピュータ340に接続されるマイク258及びスピーカ344とを含む。
【0074】
コンピュータ340は、CPU(中央演算処理装置)356と、CPU356に接続されたバス354と、ブートアッププログラム等を記憶する、書換え可能な読出専用メモリ(ROM)358と、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、メンテナンスの作業者等が用いる操作盤362と、無線により他の端末との通信を可能とする無線通信装置364と、リムーバブルメモリ346が装着可能なメモリポート366と、マイク258及びスピーカ344が接続され、マイク258からの音声信号をデジタル化したり、RAM360から読出したデジタルの音声信号をアナログ変換しスピーカ344に与えたりする処理を行なうための音声処理回路368とを含む。
【0075】
コンピュータシステム330を上記した実施の形態に係る音声明瞭化装置250の各機能部として機能させるためのコンピュータプログラムは、予めリムーバブルメモリ346に記憶され、リムーバブルメモリ346をメモリポート366に装着した後に操作盤362を操作してROM358の書換えプログラムを起動することによりROM358に転送され記憶される。又は、プログラムを、無線通信装置364を介した無線通信によりRAM360に転送し、その後にROM358に書き込むようにしてもよい。プログラムは実行の際にROM358から読出され、RAM360にロードされる。
【0076】
このプログラムは、コンピュータ340を、上記実施の形態に係る音声明瞭化装置250の各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム又はサードパーティのプログラム、若しくは、コンピュータ340にインストールされている各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態に係る音声明瞭化装置250を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータ340の記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。
【0077】
図2〜
図7に示す本実施の形態では、音声信号等は、マイク258から音声処理回路368に与えられ、音声処理回路368でデジタル化されてRAM360に蓄積され、CPU356により処理される。CPU356による処理の結果得られた変換後の音声信号はRAM360に格納される。CPU356が音声処理回路368に音声の発生を指示することにより、音声処理回路368がRAM360から音声信号を読出し、アナログ変換してスピーカ344に与え音声を発生させる。
【0078】
コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
【0079】
以上のように、上記実施の形態に係る音声明瞭化装置250によれば、雑音環境下で音声を発生する時に、雑音の音響特性に基づいて発生すべき音声を示す音声信号を時間軸及び周波数軸の双方について同時に変換し、雑音下でも音声が明瞭に聞こえるようにできる。この音声信号の変換時に、フォルマントのピークを強調したりする際にも、聞こえに影響する部分のみを強調することで、音量を不必要に増大させることがない。
【0080】
また、本実施の形態のスペクトル・シェーピング技術は、音声知覚におけるフォルマント等の音声スペクトルのピークの重要性を考慮しており、かつ、音声の知覚と関連が深いスペクトルの時間変動に対してダイナミックレンジの圧縮を行なう点で従来法とは大きく異なる。
【0081】
なお上記実施の形態は、合成音声を雑音下で発生させるための装置に関するものである。しかし本発明はそのような実施の形態には限定されない。生の音声をスピーカ等から発生させる際に、雑音に対して聞こえがよくなるように音声を変換する場合にも適用できることはいうまでもない。この場合、事情が許せば、生の音声を全くリアルタイムでなく一時遅延させると、音声のスペクトログラムの包絡面をより長い時間にわたって得ることができ、音声の変換をより効果的に行なうことができる。
【0082】
また上記実施の形態では、音声信号のうち、雑音に埋もれてしまう部分のパワーを聞こえに影響する部分に再配分する際に、フォルマント等のピークの最も近くに位置する調波に対して両側から隣接する2つの調波のうち一方を削除の対象としている。しかし本発明はそのような実施の形態には限定されず、両方を削除するようにしてもよいし、又は双方をいずれも削除しないようにしてもよい。
【0083】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。