IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人会津大学の特許一覧

特開2024-136804音声信号処理プログラム及び音声信号処理装置
<>
  • 特開-音声信号処理プログラム及び音声信号処理装置 図1
  • 特開-音声信号処理プログラム及び音声信号処理装置 図2
  • 特開-音声信号処理プログラム及び音声信号処理装置 図3
  • 特開-音声信号処理プログラム及び音声信号処理装置 図4
  • 特開-音声信号処理プログラム及び音声信号処理装置 図5
  • 特開-音声信号処理プログラム及び音声信号処理装置 図6
  • 特開-音声信号処理プログラム及び音声信号処理装置 図7
  • 特開-音声信号処理プログラム及び音声信号処理装置 図8
  • 特開-音声信号処理プログラム及び音声信号処理装置 図9
  • 特開-音声信号処理プログラム及び音声信号処理装置 図10
  • 特開-音声信号処理プログラム及び音声信号処理装置 図11
  • 特開-音声信号処理プログラム及び音声信号処理装置 図12
  • 特開-音声信号処理プログラム及び音声信号処理装置 図13
  • 特開-音声信号処理プログラム及び音声信号処理装置 図14
  • 特開-音声信号処理プログラム及び音声信号処理装置 図15
  • 特開-音声信号処理プログラム及び音声信号処理装置 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024136804
(43)【公開日】2024-10-04
(54)【発明の名称】音声信号処理プログラム及び音声信号処理装置
(51)【国際特許分類】
   G10L 21/0364 20130101AFI20240927BHJP
【FI】
G10L21/0364
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023048058
(22)【出願日】2023-03-24
(71)【出願人】
【識別番号】506301140
【氏名又は名称】公立大学法人会津大学
(74)【代理人】
【識別番号】110003421
【氏名又は名称】弁理士法人フィールズ国際特許事務所
(72)【発明者】
【氏名】ジュリアン ヴィジェガス
(57)【要約】      (修正有)
【課題】雑音環境下での音声の了解度を改善する音声信号処理プログラム及び装置を提供する。
【解決手段】音声信号処理プログラムは、環境下のノイズを含まない入力音声デジタル信号を入力し、低周波数成分の大きさを減衰し、低周波数成分より高い高周波数成分の大きさをブーストする処理と、プリエンファシスフィルタ処理の出力を非線形歪処理し、高調波成分の数を増加させる処理と、入力音声デジタル信号の第1のゲインと、非線形歪処理された音声デジタル信号の第2のゲインとを生成する処理と、入力音声デジタル信号を第1のゲインで、非線形歪処理された音声デジタル信号を前記第2のゲインでそれぞれ重み付けして加算する処理と、ミキシング処理された音声デジタル信号の直流オフセット成分を除去する処理と、直流フィルタ処理された音声デジタル信号の最も小さい音と最も高い音との大きさの差を低減する処理とをデジタルシグナルプロセッサに実行させる。
【選択図】図3
【特許請求の範囲】
【請求項1】
音声デジタル信号処理をプロセッサに実行させる音声信号処理プログラムであって、
前記音声デジタル信号処理は、
(a)環境下のノイズを含まない入力音声デジタル信号を入力し、低周波数成分の大きさを減衰し、前記低周波数成分より高い高周波数成分の大きさをブーストするプリエンファシスフィルタ処理と、
(b)前記プリエンファシスフィルタ処理の出力を非線形歪処理し、高調波成分の数を増加させる非線形歪処理と、
(c)前記入力音声デジタル信号の第1のゲインと、前記非線形歪処理された音声デジタル信号の第2のゲインとを生成するゲイン制御処理と、
(d)前記入力音声デジタル信号を前記第1のゲインで、前記非線形歪処理された音声デジタル信号を前記第2のゲインでそれぞれ重み付けして加算するミキシング処理と、
(e)前記ミキシング処理された音声デジタル信号の直流オフセット成分を除去する直流フィルタ処理と、
(f)前記直流フィルタ処理された音声デジタル信号の最も小さい音と最も高い音との大きさの差を低減するダイナミックレンジ圧縮処理と、を有する音声信号処理プログラム。
【請求項2】
前記音声デジタル信号処理は、更に、
前記ダイナミックレンジ圧縮処理された音声デジタル信号のナイキスト周波数を超える高周波数成分を減衰するアンチエイリアスフィルタ処理を有する、請求項1に記載の音声信号処理プログラム。
【請求項3】
前記ゲイン制御処理は、前記非線形歪処理の第3のゲインを生成し、
前記非線形歪処理は、前記第3のゲインに基づく歪の程度で非線形歪処理を行う、請求項1に記載の音声信号処理プログラム。
【請求項4】
前記ゲイン制御処理は、環境下のノイズレベルが高くなるにしたがい、前記第1のゲインより前記第2のゲインをより高くし、前記第3のゲインをより高くする、請求項3に記載の音声信号処理プログラム。
【請求項5】
音声デジタル信号処理を実行する音声信号処理装置であって、
プロセッサと、
前記プロセッサがアクセスするメモリを有し、
前記プロセッサは、
(a)環境下のノイズを含まない入力音声デジタル信号を入力し、低周波数成分の大きさを減衰し、前記低周波数成分より高い高周波数成分の大きさをブーストするプリエンファシスフィルタ処理と、
(b)前記プリエンファシスフィルタ処理の出力を非線形歪処理し、高調波成分の数を増加させる非線形歪処理と、
(c)前記入力音声デジタル信号の第1のゲインと、前記非線形歪処理された音声デジタル信号の第2のゲインとを生成するゲイン制御処理と、
(d)前記入力音声デジタル信号を前記第1のゲインで、前記非線形歪処理された音声デジタル信号を前記第2のゲインでそれぞれ重み付けして加算するミキシング処理と、
(e)前記ミキシング処理された音声デジタル信号の直流オフセット成分を除去する直流フィルタ処理と、
(f)前記直流フィルタ処理された音声デジタル信号の最も小さい音と最も高い音との大きさの差を低減するダイナミックレンジ圧縮処理と、を実行する音声信号処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理プログラム及び音声信号処理装置に関する。
【背景技術】
【0002】
雑音の多い環境では、音声(または発話)を公衆伝達スピーカー(PA, Public Address speaker、PAスピーカー)を用いて伝達しても音声情報の理解は度々困難である。騒音環境下での音声の了解度(Intelligibility)の低下を克服する簡単な方法は、音声の音圧レベル(一般に音量として知られている。)を上げることである。しかし、リスナーを大きな音にさらすことは健康に有害である。非特許文献1参照。
【0003】
音声の音圧レベルを増加させずに明瞭度を改善するデジタルシグナルプロセッサ(DSP、Digital Signal Processor)が提案されている。従来技術(特許文献1、非特許文献2)のダイナミックレンジ圧縮によるスペクトル整形(SSDRC: Spectral shaping filtering with dynamic rage compression)は、高周波領域における信号対雑音比(SNR)を増加させるために、低周波領域から高周波数領域へエネルギーを伝達するスペクトル整形を使用する。さらに、SSDRCは、エネルギーを時間的に再配分するダイナミックレンジ圧縮(DRC)を行う。この再配分により、音声が小さな(静かな)期間は増幅され、大きな(騒がしい)期間は減衰される。この方法のスペクトル整形段階では、入力音声デジタル信号はフーリエ変換(離散フーリエ変換、DFT)され、一連のフィルタを通過して音声の母音部分のホルマントを鮮明にし、プリエンファシスフィルタを介して音声のスペクトル傾斜を平坦化する。次いで、フィルタリングされた音声は、逆フーリエ変換(逆離散フーリエ変換、IDFT)される。SSDRCにおけるDRC実装は、信号の時間エンベロープを得るためのヒルベルト変換に基づいており、ヒルベルト変換ではDFTが実行される。DFTとIDFTは、時間とCPUを消費する計算である。このことはSSDRCが音声の了解度向上に効果的であるが、時間とCPUを消費する処理を伴うことを意味する。
【0004】
従来技術(特許文献2、非特許文献3)は、雑音環境下の音声を入力し音声の明瞭性が改善された音声を出力する補聴器である。この補聴器は、雑音を含む音声入力を2つの分岐で並列に処理する。第1の分岐では、ノイズ軽減処理が行われる。第2の分岐では、雑音から音声を分離し(ASE:Aggressive Speach Enhancement)、第3の分岐では、雑音から分離した音声だけを処理して高調波を生成する(HE:Harmonic Enhancement)。そして、3つの分岐の信号が混合されて出力される。非特許文献3では、音声の了解度についてではなく、音声の明瞭性が改善されることが報告される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】UK Patent Application GB 2520048 43 A
【特許文献2】United States Patent Application US 2015/0092967 A1
【非特許文献】
【0006】
【非特許文献1】WHO, “Burden of disease from environmental noise, Quantification of healthy life years lost in Europe.” World Health Organization, 2011
【非特許文献2】T.-C. Zorila, Y. Stylianou, T. Ishihara, and M. Akamine, "Near and far field speech-in-noise intelligibility improvements based on a time-frequency energy reallocation approach," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 10, pp. 1808-1818, 2016.
【非特許文献3】K. Wojcicki, K. Fitz, K. Recker, D. Reynolds, and T. Zhang, “Sidechain harmonic enhancement of noise corrupted speech for hearing impaired listeners,” in IEEE Wkshp. On Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 1-5, 2015. DOI: 10.1109/WASPAA.2015.7336926.
【非特許文献4】D. Giannoulis, M. Massberg, and J. D. Reiss, “Digital dynamic range compressor design-a tutorial and analysis,” J. Audio Eng. Soc, vol. 60, no. 6, pp. 399-408, 2012
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示の目的は、雑音環境下での音声の了解度を改善する音声信号処理プログラム及び音声信号処理装置を提供することにある。
【課題を解決するための手段】
【0008】
本開示の第1の側面は、音声デジタル信号処理をプロセッサに実行させる音声信号処理プログラムであって、前記音声デジタル信号処理は、(a)環境下のノイズを含まない入力音声デジタル信号を入力し、低周波数成分の大きさを減衰し、前記低周波数成分より高い高周波数成分の大きさをブーストするプリエンファシスフィルタ処理と、(b)前記プリエンファシスフィルタ処理の出力を非線形歪処理し、高調波成分の数を増加させる非線形歪処理と、(c)前記入力音声デジタル信号の第1のゲインと、前記非線形歪処理された音声デジタル信号の第2のゲインとを生成するゲイン制御処理と、(d)前記入力音声デジタル信号を前記第1のゲインで、前記非線形歪処理された音声デジタル信号を前記第2のゲインでそれぞれ重み付けして加算するミキシング処理と、(e)前記ミキシング処理された音声デジタル信号の直流オフセット成分を除去する直流フィルタ処理と、(f)前記直流フィルタ処理された音声デジタル信号の最も小さい音と最も高い音との大きさの差を低減するダイナミックレンジ圧縮処理と、を有する音声信号処理プログラムである。
【発明の効果】
【0009】
第1の側面によれば、プロセッサの実行時間が短く低消費電力で、ノイズ環境下での音声の了解度を改善することができる。
【図面の簡単な説明】
【0010】
図1】本実施の形態における音声信号処理装置の構成例を示す図である。
図2】音声信号処理装置1であるデジタルシグナルプロセッサの構成例を示す図である。
図3】デジタルシグナルプロセッサで実行される音声信号処理プログラム2の概略フローチャートを示す図である。
図4】プリエンファシスフィルタ10及びプリエンファシスフィルタ処理S10の処理を示す図である。
図5】非線形歪処理の一例である半波整流処理を説明する図である。
図6】非線形歪処理の一例である半波整流処理を示す図である。
図7】本実施の形態でのモディファイドゲインgmの制御例を示す図である。
図8】アンプ14及び30とミキサ16によるミキシング処理を示す図である。
図9】直流フィルタ処理を示す図である。
図10】DRC処理を示す図である。
図11】DRCによる音声デジタル信号の振幅の圧縮と圧縮率Gainを示す図である。
図12】アンチエイリアスフィルタ処理を示す図である。
図13】イコライザ処理S24の処理を示す図である。
図14】本実施の形態の音声信号処理プログラムを実行する音声信号処理装置による音声の了解度の評価結果を示す図である。
図15】あるノイズ環境下(SNR=-9dB)での信号処理された音声の了解度の主観的結果を比較する図である。
図16】本実施の形態及び非特許文献2の音声信号処理装置(デジタル信号プロセッサ)それぞれのプロセッサ実行時間と実行時間の比率を示す図である。
【発明を実施するための形態】
【0011】
図1は、本実施の形態における音声信号処理装置の構成例を示す図である。入力Xは、環境下のノイズを含まないクリーンな音声信号である。入力音声デジタル信号Xは、例えば、16ビットのデジタルデータの時系列信号である。デジタル信号のサンプリングレートは例えば16KHzである。
【0012】
音声信号処理装置1は、入力音声デジタル信号Xを信号処理して、ノイズ環境下での音声の了解度が改善された出力音声デジタル信号Yを生成する。入力音声デジタル信号Xは、音声アナログ信号を所定のサンプリングレートでアナログ・デジタル変換することにより生成される。出力音声デジタル信号Yは、例えば、PAスピーカーに入力され音声が出力される。この音声信号処理装置により処理された出力音声デジタル信号Yによれば、カフェ、駅、地下鉄の車内などのノイズ環境下でもPAスピーカーから出力される音声の了解度が高いので、音声の意味を理解しやすくなる。
【0013】
音声信号処理装置1は、プリエンファシスフィルタ10と、半波整流のような非線形歪処理ユニット12と、ゲインgmに基づく増幅器14と、ゲインgoに基づく増幅器30と、増幅器14と30の出力をミキシングするミキサ16を有する。ゲインgmとgo及び非線形歪処理のゲインghは、ゲイン制御26により制御される。更に、音声信号処理装置1は、ミキサの出力X3のDCオフセットを削除する直流フィルタ18と、その出力X4のダイナミックレンジを圧縮するダイナミックレンジコンプレッサー20と、高調波を減衰する一種のローパスフィルタであるアンチエイリアスフィルタ22と、出力音声デジタル信号Yの平均振幅を入力音声デジタル信号Xと等しくするイコライザ24を有する。
【0014】
図2は、音声信号処理装置1であるデジタルシグナルプロセッサの構成例を示す図である。デジタルシグナルプロセッサ(以下DSPと称する。)30は、演算コア32と、プログラムメモリ34と、データメモリ36と、入力・出力回路38とを有する。演算コア32は、例えば、プログラムメモリ34からプログラムの命令を読み出す命令フェッチと、命令をデコードする命令デコーダと、デコードされた命令に対する論理算術演算を実行する論理算術演算器と、プログラムカウンタなどを有する。プログラムメモリ34には、実行されるプログラムデータが記憶される。データメモリ36には、入力データ、演算データ、出力データなどの各種データが記憶される。入力・出力回路38は、外部のアナログ信号をデジタル信号に変換するADコンバータと、内部のデジタル信号をアナログ信号に変換するDAコンバータなどを有する。
【0015】
図3は、デジタルシグナルプロセッサで実行される音声信号処理プログラム2の概略フローチャートを示す図である。音声信号処理プログラムは、プリエンファシスフィルタ処理S10と、半波整流などの非線形歪処理S12と、ゲインgm、go、ghを制御するゲイン制御処理S26と、入力音声Xと非線形歪処理した信号X2をゲインgoとgmでそれぞれ重み付けした信号をミキシングするミキシング処理S16と、ミキシング処理の出力X3のDCオフセットを削除する直流フィルタ処理S18と、その出力X4のダイナミックレンジを圧縮するダイナミックレンジ圧縮処理S20と、その出力X5の高調波を減衰するアンチエイリアスフィルタ処理S22と、出力音声デジタル信号Yの平均振幅を入力音声デジタル信号Xと等しくするイコライザ処理S24とを、プロセッサに実行させる。
【0016】
本実施の形態の音声信号処理プログラム2及び音声信号処理装置1は、音声デジタル信号をそのサンプリングレートを変更することなく時間領域で処理する。周波数領域で処理するために必要な離散時間フーリエ変換(DTFT)や離散時間フーリエ逆変換(IDTFT)などが不要であるため、音声信号処理装置1の回路構成を簡略化でき、デジタルシグナルプロセッサのプログラム処理を軽くしプロセッサ実行時間を短くできる。
【0017】
以下、音声信号処理装置1の構成要素10~30及び音声信号処理プログラムの各処理S10~S24それぞれについて説明する。
【0018】
[プリエンファシスフィルタ処理S10]
図4は、プリエンファシスフィルタ10及びプリエンファシスフィルタ処理S10の処理を示す図である。プリエンファシスフィルタ10及びその処理S10は、ハイパスフィルタと類似する機能を有する。即ち、プロセッサ31が、入力音声デジタル信号Xの低周波領域の大きさを減衰し、高周波領域の大きさを増幅する(S10-1)。処理S10-1には、横軸を音声デジタル信号X、X1の周波数(対数表示)とし、縦軸をプリエンファシスフィルタ10の出力信号X1の大きさ(dB)とするプリエンファシスフィルタの変換特性グラフが示される。この変換特性は、入力音声デジタル信号のサンプリングレートが16KHzの例であり、そのため最大周波数(ナイキスト周波数)が8KHz(8000Hz)とサンプリングレートの50%になる。変換特性グラフによれば、低周波領域の大きさが低くなり、高周波領域の大きさが高くなる。
【0019】
デジタルシステムにおいて、プリエンファシスフィルタの簡単な実装方法は、実数の零点zが-1 < z =< -0.95の一次フィルタである。発明者の実験では、実数の零点zが例えば -0.97の一次フィルタの場合に良い特性が得られた。
【0020】
プリエンファシスフィルタ処理は、時間領域のデジタル信号の処理である。例えば、プリエンファシスが-0.97の場合、出力は、(現在の入力サンプル)-0.97*(次の入力サンプル)で算出される。
【0021】
[非線形歪処理S12]
次に、非線形歪処理12、S12について説明する。非線形歪みとは入出力間に線形関係がない場合に生じる歪みの総称である。また、 非線形歪みは、入力した周波数の整数倍の成分が出力される高調波歪みと、2つ以上の周波数を入力した際の和および差の成分が出力される相互変調波歪みとに大別される。本実施の形態の非線形歪処理の非線形歪は高調波歪みに該当する。
【0022】
線形歪みでは、音の既存の周波数成分の大きさと位相は変化するが、あらたな周波数成分は追加されない。線形歪を生成するオーディオ処理の例には、ハイパスフィルタ、ダイナミックコンプレッサなどがある。一方、非線形歪みでは、新しいスペクトル成分が入力信号に追加される。非線形歪みを生成するオーディオ処理の例には、波の整流、リング変調、ビットクラッシング(bitcrashing)、波形整形等がある。ビットクラッシングは、デジタルオーディオデータの解像度または帯域幅を下げることによって歪みを生成するオーディオエフェクトである。
【0023】
図5は、非線形歪処理の一例である半波整流処理を説明する図である。図5の上部には半波整流前の100Hzのコサイン波の時間ドメインの時間信号(左)とその周波数ドメインの周波数スペクトル(右)が示される。半波整流前のコサイン波の時間信号は振幅が-1~+1の間でゼロ0を中心に振幅する波形であり、周波数スペクトルは単一周波数100Hzのみである。
【0024】
一方、図5の下部には半波整流された時間信号(左)とその周波数スペクトル(右)が示される。半波整流では、コサイン波形の振幅が0未満の場合0に変換され、0以上の場合元の振幅に変換される。その結果、半波整流後の周波数スペクトルは、元の周波数100Hzよりも高い周波数領域に複数の高調波を有する。また、半波整流後の時間信号のDCオフセットDC_Offsetは、ゼロではなく正の値になる。
【0025】
本実施の形態では、入力音声デジタル信号Xのサンプリングレートは、例えば16KHzである。そのため、最大周波数(ナイキスト周波数)はサンプリングレートの1/2である8KHzになる。そのため、サンプリングされた入力音声デジタル信号Xの周波数スペクトルには、ナイキスト周波数(8KHz)を超える高周波信号成分が、ナイキスト周波数に対するミラーイメージの周波数成分として現れる。但し、図5はコサイン波を半波整流した時間信号の周波数スペクトルであるので、半波整流で発生した高調波成分は、急激に減衰し、ナイキスト周波数以下の周波数領域に現れている。このように、ナイキスト周波数を超える高調波成分は生成されてないので、図5には、その高調波成分のミラーイメージの周波数成分は発生していない。
【0026】
入力音声信号Xが図5のような単一周波数のコサイン信号ではない場合、非線形歪処理により発生する高調波はナイキスト周波数より高い周波数成分を含む。その結果、非線形歪処理された音声デジタル信号の周波数スペクトルには、それら高調波のミラーイメージの周波数成分がナイキスト周波数以下に含まれる。
【0027】
図6は、非線形歪処理の一例である波整流処理を示す図である。時系列音声デジタル信号は、振幅が-1~+1の間である所定ビット数の信号(例えば16ビット)である。半波整流処理では、信号の振幅が負の値はゼロに変換される。波の整流では、振幅が平坦化される閾値tRは-1<tR<0の範囲で変更することができる。半波整流の場合、閾値tRはtR=0である。閾値tRがtR=-1の場合、波の整流は行われず、音声デジタル信号の変更は行われない。
【0028】
従って、波整流処理を実行するプロセッサは、波整流処理を実行して、音声デジタル信号X1の振幅が閾値tRより小さい場合(S12-1のYES)、出力の音声デジタル信号X2はX2=閾値tRに変換され(S12-2)、一方で、閾値tR以上場合(S12-1のNO)、出力の音声デジタル信号X2は入力の音声デジタル信号X1と等しく(X2=X1)する。図6の波整流処理によれば、入力の音声デジタル信号X1の時間ドメインで波整流処理を行うことができる。
【0029】
波整流による非線形歪処理は、図6のような簡単な処理で行うことができるので、プロセッサによる処理が軽くプロセッサ実行時間を短くできる。それと共に、波整流による非線形歪処理では、音声デジタル信号の基本周波数が保持される。音声認識に重要な基本周波数が保持されることは、音声の了解度を高くすることを可能にする。
【0030】
半波整流により生成される音声信号(図5の下の音声信号)は、以下の数式に示す音声信号y(t)である。
【0031】
【数1】
ここで、右辺の第1項はDCオフセット、第2項はオリジナルの音声信号、第3項は生成された高調波である。角速度w0は2π/T(Tは周期)である。高調波はn=1から無限大まで発生する。この高調波は、音声信号のサンプリング周波数16KHzの1/2の最大周波数(ナイキスト周波数)8KHzを超える場合、8KHzに対してミラーリングされたエイリアッシング(aliasing)周波数となる。また、半波整流された信号の第2項の音声信号にオリジナル音声信号の周波数が残される。
【0032】
デジタルシグナルプロセッサにおける非線形歪の他の例である波形整形では、入力音声デジタル信号xに対して出力信号f(x)は、例えば以下の多項式関数により算出される。
【0033】
【数2】
上記多項式関数により生成される出力音声デジタル信号f(x)には、高調波成分が追加される。上記多項式関数はDSPの演算器により実行されるので、この波形整形は時間ドメインでの信号処理である。
【0034】
図7は、数2の多項式関数による波形整形処理を説明する図である。図7は、変数c=100の例である。図7の上部に波形整形前の100Hzのコサイン波の時間ドメインの時間信号(左)とその周波数ドメインの周波数スペクトル(右)が示される。一方、図7の下部に波形整形後の時間ドメインの時間信号(左)とその周波数スペクトル(右)が示される。図7の下部の周波数スペクトル(右)には、波形整形により発生した高調波が含まれる。この周波数スペクトル(右)では、波形整形処理で生成された高調波成分の一部がナイキスト周波数を超える周波数を有するため、そのミラーイメージ信号の周波数成分も含まれる。
【0035】
[ゲイン制御処理S26とミキシング処理S16]
ゲイン制御処理S26、ゲイン制御26では、プロセッサは、オリジナルの音声デジタル信号Xの重みとなるオリジナルゲインgoと、非線形歪処理等がされた変更済み音声デジタル信号X2の重みとなるモディファイドゲインgmと、非線形歪12における高調波成分の発生を制御するためのハーモニックゲインghを生成する。
【0036】
ゲイン制御は、例えば以下の3つの制御方法が適用できる。
(1)環境下のノイズが変化しないような場合には、3つのゲインを一定の値に設定する。例えば、ゲイン制御26は、go = gm = 0.5、gh = 1を出力する。ここで、go = 1 - gm、波整流の場合、tR = gh - 1である。gh=1の場合、閾値はtR = 0となり、非線形歪処理は半波整流となり、非線形歪処理12により最大の高調波歪が生成される。波整流の場合、ハーモニックゲインghが最大値gh=1で、歪の程度が最大となり、最大の高調波歪が生成される。また、go = gm = 0.5により、オリジナルの音声デジタル信号Xと、非線形歪等で信号処理された音声デジタル信号X2との寄与度が等しくなる。
(2)ユーザが好みに応じて3つのゲインを手動で調整する。例えば、ゲイン制御26は、環境下のノイズが増加するにつれて、処理済みの音声デジタル信号の重みgmを増加し、非線形歪のハーモニックゲインghを最大値gh=1に維持する。ゲイン制御26は、環境下のノイズが減少するにつれて、逆の制御を行う。手動調整は、例えば、2つの物理的、デジタル、グラフィックスまたはノブやスライダーなどの形をした他の種類の調整手段などで行われる。例えば、一方の調整手段はハーモニックゲインghを、他の調整手段はオリジナル及びモディファイドゲインgo、gmを調整する。
(3)現在の環境下のノイズレベルに応じて3つのゲインを適応的に調整する。この場合、図1に示すとおり、マイクロホン28により環境下のノイズを監視する。マイクロホン28からの音声信号のSN比(SNR)に応じて、例えば、以下の予め設定されたテーブルに基づき3つのゲインを調整する。
【0037】
【表1】
【0038】
上記のテーブルの値は、人に音声を聞いてもらい了解度を測定するなどの主観的な実験から求める。または、テーブルの値は、拡張された音声了解度インデックス(Extended Speech Intelligibility Index (ESII)、K. S. Rhebergen and N. J. Versfeld, “A speech intelligibility index-based approach to predict the speech reception threshold for sentences in fluctuating noise for normal-hearing listeners,” J. Acoust. Soc. Am., vol. 117, no. 4, pp. 2181-2192, 2005. DOI: 10.1121/1.1861713)などの音声了解度モデルまたは同様の指標により推定される。
【0039】
上記テーブルの値によれば、環境下のノイズが高くなるにつれて、またはSNR(dB)が低下するにつれて、モディファイドゲインgmを増加し、オリジナルゲインgoを減少し、非線形歪のハーモニックゲインghを増加させる。モディファイドゲインgmを増加させると、非線形歪で生成した高調波の寄与が大きくなる。また、ハーモニックゲインghを増加させると、歪の程度が高くなり、非線形歪処理された音声デジタル信号X2はより大きな高調波成分を含むようになる。波整流の場合ハーモニックゲインghが最大値gh=1で閾値tR=0となり、非線形歪処理は半波整流処理になる。現在の音声デジタル信号のSNRがテーブルの隣接する値の間にある場合は、3つのゲインは、補間演算により算出される。
【0040】
図8は、アンプ14及び30とミキサ16によるミキシング処理を示す図である。プロセッサは、図7中の重みgo及びgmでそれぞれ重み付けされたオリジナル音声デジタル信号Xと処理済み音声デジタル信号X2を加算して、ミキシング出力X3を生成する(S16-1)。このミキシング処理において、プロセッサは、オリジナル音声デジタル信号Xと処理済み音声デジタル信号X2の時間ドメインでの加算処理を行う。
【0041】
[直流フィルタ処理S18]
波整流の場合図5の半波整流された音声デジタル信号は、ゲインgh=1の場合、閾値tR=0となり、振幅が0でフラットにされる。その結果、正のDCオフセットDC_Offsetが生成される。DCオフセットは、数1に示した第1項の1/πである。このように、ミキシングされた音声デジタル信号は、DCオフセットDC_Offsetの値の周りで振動する。この動作は、後段のダイナミックレンジコンプレッション(DRC)20の動作には好ましくない。そこで、本実施の形態の音声処理装プログラムは、ミキシングされた音声デジタル信号X3のDCオフセットを除去する直流フィルタ処理S18、18を有する。
【0042】
図9は、直流フィルタ処理を示す図である。プロセッサは、直流フィルタ処理S18を実行して、ミキシングされた音声デジタル信号X3からDCオフセットDC_Offsetを減算する(S18-1)。DCオフセットは、例えば、音声デジタル信号X3の平均値である。または、直流フィルタ処理S18は、音声デジタル信号X3の超低周波数成分(20 Hz未満では、典型的には5 Hzが使用される)をカットオフ周波数とするハイパスフィルタ処理でもよい。
【0043】
[ダイナミックレンジコンプレッション処理S20]
ダイナミックレンジコンプレッサー(DRC)処理は、音声デジタル信号X4の静かな音(振幅が小さい音)と大きな音(振幅が大きい音)の差分を低減して音声デジタル信号X5を出力する。本実施の形態のDRC処理では、プロセッサは、入力X4が静かな音の領域では出力X5は入力X4と同じ音の大きさになるようにし、入力X4の所定の閾値(例えば音声の最小の大きさ-20dB)を超える大きさの領域では所定の圧縮比(例えば5:1)で音の大きさを低減するように入力X4を圧縮する。本実施の形態のDRCは、非特許文献1に開示されたDRCと異なり、フーリエ変換を伴うヒルベルト変換を使用せず、例えば、非特許文献4に記載されるような時間ドメインでDRC処理を行う。
【0044】
図10は、DRC処理を示す図である。本実施の形態のDRCは、音声デジタル信号X4の振幅を変換グラフS20-1に基づいて圧縮して、音声デジタル信号X5に変換する。図10に示す変換グラフによるデジタル信号処理によれば、入力の振幅が閾値-20dB未満では出力X5は入力X4の振幅と同じにされ、閾値-20dB以上では出力X5の振幅は入力X4の振幅の1/5に減衰される。これにより、出力される音声デジタル信号X5の振幅が音響システムの振幅制限を超えないようにされる。
【0045】
本実施の形態のDRCは、例えば、非特許文献4に記載された時間ドメインでのシンプルなDRCでもよい。このDRCのパラメータは、雑音の種類、音声信号、信号対雑音比などに応じて調整することができる。一般的な設定値は、閾値に達した後処理開始する時間であるアタックタイムAttが[0~5]ms、閾値に達した後処理を停止する時間であるリリースタイムRelが[5~50]ms、閾値Tが[-40~-10]dB、圧縮比Rが[5:1~10:1]、ニー幅Wが[0~10]dB、メイクアップゲインMGが[0-5]dBである。
【0046】
図11は、DRCによる音声デジタル信号の振幅の圧縮と圧縮率Gainを示す図である。トップパネルが入力信号X4、ミドルパネルが出力信号X5である。上のグラフは、横軸が時間、縦軸が振幅(-1~+1 と -0.2~0.2)で、入力信号X4と出力信号X5を示す。ボトムパネルは、横軸が時間、縦軸がデシベルで表される実利得Gainである。この図から、音声デジタル信号の振幅が小さい時間帯では振幅の圧縮は行われず、振幅が大きい時間帯では振幅の圧縮が行われることが理解される。
【0047】
DRCは、発明者の実験によれば、音声の了解度、明瞭性をより良く改善するために、アンチエイリアスフィルタ22の直前に配置される。
【0048】
[アンチエイリアスフィルタ処理S22、22]
非線形歪処理されたことで、図5で説明したとおり、波整流処理された音声デジタル信号の周波数スペクトルに、多数の高調波のナイキスト周波数に対するミラーイメージである多数の高い周波数成分が生成される。本実施の形態では、これらエイリアス周波数が顕著である場合、アンチエイリアスフィルタ処理によりナイキスト周波数より高い周波数の高調波成分を除去または抑制する。アンチエイリアスフィルタは、一種のローパスフィルタLPFである。
【0049】
図12は、アンチエイリアスフィルタ処理を示す図である。アンチエイリアスフィルタ処理は、ローパスフィルタ処理からなる。したがって、アンチエイリアスフィルタ処理は、入力される音声デジタル信号X5のナイキスト周波数より高い高調波成分を除去するローパスフィルタ処理して、アンチエイリアスされた音声デジタル信号X6を出力する。ローパスフィルタは、ナイキスト周波数に十分接近したカットオフ周波数を持っているため、このカットオフ周波数以下の周波数成分を通過させ、それ以上の周波数成分の振幅を減衰させる。ナイキスト周波数近くのカットオフ周波数を有するローパスフィルタ処理すると、ナイキスト周波数を超える高調波成分を減衰又はカットすることができる。これにより、非線形歪処理された音声デジタル信号のナイキスト周波数を超える高調波成分のミラーイメージ成分を減衰又はカットすることができる。
【0050】
ローパスフィルタは、例えば低次(例:1次)のバターワースフィルタ(butterworth filter)により実現される。このフィルタも時間領域で処理することができる。
【0051】
[イコライザ処理S24、24]
最後に、イコライザ処理S24は、アンチエイリアスフィルタの出力の音声デジタル信号X6のラウドネスを、入力音声デジタル信号Xのラウドネスに等しくする。
【0052】
この均等化を行う方法はいくつかある。例えば、図13は、イコライザ処理S24の処理を示す図である。ラウドネスを等しくするために、イコライザ処理は、以下の演算式に示すように、音声デジタル信号XとX6の二乗平均平方根rms(Root Mean Square)の比を音声デジタル信号X6に乗算して出力音声デジタル信号Yを生成する。
【0053】
【数3】
この演算により、イコライザ処理の出力音声デジタル信号Yのラウドネスは、入力音声デジタル信号Xのラウドネスと等しくなる。
【0054】
[評価]
図14は、本実施の形態の音声信号処理プログラムを実行する音声信号処理装置による音声の了解度の評価結果を示す図である。図14は、男性の音声と女性の音声それぞれのオリジナルの音声40と、本実施の形態のデジタル信号処理装置により生成された音声42と、非特許文献2の信号処理装置により生成された音声44の周波数スペクトルを示す。横軸が周波数Freq、縦軸が強さdBである。オリジナルの音声40の周波数スペクトルは、高周波領域で大きく減衰している。それに対して、信号処理された音声42と44は高周波領域での減衰が少ない。但し、発明者の実験によれば、本実施の形態により生成された音声42のほうが、非特許文献2により生成された音声44よりも減衰量が少なく、周波数スペクトルがより平坦になっている。このことは、本実施の形態により生成された音声42のほうがノイズ環境下における了解度が高いことを意味する。
【0055】
図15は、あるノイズ環境下(SNR=-9dB)での信号処理された音声の了解度の主観的結果を比較する図である。図15の横軸は音声内容の正解率を示す。発明者の実験で、オリジナルの音声40と、本実施の形態の音声信号処理装置により生成された音声42と、非特許文献2の音声信号処理装置により生成された音声44とを複数の人間が聞いて、複数の人間が認識した音声内容の正解率を算出した。これによれば、本実施の形態の音声42が最も正解率が高かった。
【0056】
図14図15の評価結果は、発明者の実験によれば、例えば、DRCをアンチエイリアスフィルタ22の直前に配置した場合に、音声の了解度、明瞭性がより良く改善された実験結果からもたらされた。
【0057】
図16は、本実施の形態及び非特許文献2の音声信号処理装置(デジタル信号プロセッサ)それぞれのプロセッサ実行時間と実行時間の比率を示す図である。発明者の実験によれば、非特許文献2でのプロセッサ実行時間に対して、本実施の形態でのプロセッサ実行時間は4.8%と大幅に短かった。本実施の形態の音声信号処理プログラムは、音声デジタル信号の時間ドメインでの処理であり、非特許文献2の周波数ドメインでの処理のためのDFTとIDFTを含む場合に比較して、プロセッサ実行時間を短くできる。その結果、消費電力も少なくできる。
【0058】
本実施の形態によれば、音声信号処理プログラム及び音声信号処理装置は、入力音声デジタル信号に、プリエンファシスフィルタ処理S10と、非線形歪処理S12と、ゲイン制御処理S26と、ミキシング処理S16と、直流フィルタ処理S18と、ダイナミックレンジ圧縮処理S20を行う。これらの処理によって、周波数スペクトルの高周波成分の減衰量を抑制して平坦にすることができ、ノイズ環境下で出力音声デジタル信号により再生される音声の了解度を高くすることができる。また、各処理が時間ドメインで行われるので、プロセッサの処理時間が短く省電力化が可能である。
【0059】
本実施の形態によれば、非特許文献2の従来技術SSDRで処理された音声よりもノイズ環境下での了解度、明瞭度を改善できる。
【符号の説明】
【0060】
X:入力音声デジタル信号
Y:出力音声デジタル信号
1:音声信号処理装置
10:プリエンファシスフィルタ
12:非線形歪処理
14:アンプ
16:ミキサ
18:直流フィルタ
20:DRC、ダイナミックレンジコンプレッション
22:アンチエイリアスフィルタ
24:イコライザ
26:ゲイン制御
28:マイクロホン
30:アンプ
31:デジタルシグナルプロセッサ
2:音声信号処理プログラム
S10:プリエンファシスフィルタ処理
S12:非線形歪処理
S26:ゲイン制御処理
S16:ミキシング処理
S18:直流フィルタ処理
S20:ダイナミックレンジ圧縮(DRC)処理
S22:アンチエイリアスフィルタ処理
S24:イコライザ処理
40:オリジナルの音声
42:本実施の形態の音声
44:非特許文献2の音声
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16