IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特開-音声処理装置および音声処理方法 図1
  • 特開-音声処理装置および音声処理方法 図2
  • 特開-音声処理装置および音声処理方法 図3
  • 特開-音声処理装置および音声処理方法 図4
  • 特開-音声処理装置および音声処理方法 図5
  • 特開-音声処理装置および音声処理方法 図6
  • 特開-音声処理装置および音声処理方法 図7
  • 特開-音声処理装置および音声処理方法 図8
  • 特開-音声処理装置および音声処理方法 図9
  • 特開-音声処理装置および音声処理方法 図10
  • 特開-音声処理装置および音声処理方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023106686
(43)【公開日】2023-08-02
(54)【発明の名称】音声処理装置および音声処理方法
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20230726BHJP
   G10L 21/0364 20130101ALI20230726BHJP
   G10L 21/0232 20130101ALI20230726BHJP
   G10L 21/0216 20130101ALI20230726BHJP
【FI】
G10L21/0208 100B
G10L21/0364
G10L21/0232
G10L21/0216
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2022007557
(22)【出願日】2022-01-21
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】鈴木 雅司
(72)【発明者】
【氏名】鵜飼 訓史
(57)【要約】
【課題】話者音声を入力している時のノイズを低減することができる音声処理装置を提供する。
【解決手段】音声処理装置は、音声を収音して第1音声信号を生成する収音部と、ノイズを推定するノイズ推定部と、前記ノイズ推定部で推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力するゲイン制御部と、前記ノイズ推定部で推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、を備える。
【選択図】 図3
【特許請求の範囲】
【請求項1】
音声を収音して第1音声信号を生成する収音部と、
ノイズを推定するノイズ推定部と、
前記ノイズ推定部で推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力するゲイン制御部と、
前記ノイズ推定部で推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、
を備える
音声処理装置。
【請求項2】
前記ノイズ推定部は、前記第1音声信号に基づいて前記ノイズを推定する、
請求項1に記載の音声処理装置。
【請求項3】
前記ノイズ推定部は、
第1ノイズ推定部および第2ノイズ推定部を有し、
前記ゲイン制御部は、前記第1ノイズ推定部で推定したノイズに基づき前記第1音声信号のゲインを制御し、
前記フィルタ部は、前記第2ノイズ推定部で推定したノイズに基づき前記フィルタ処理を行い、
前記第2ノイズ推定部は、前記第1音声信号の一部の帯域に基づいてノイズを推定する、
請求項1または請求項2に記載の音声処理装置。
【請求項4】
前記第2ノイズ推定部は、複数の周波数帯域でそれぞれノイズ成分を推定し、前記複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいて前記ノイズを推定する、
請求項3に記載の音声処理装置。
【請求項5】
前記フィルタ部は、前記第2ノイズ推定部で推定した前記複数の周波数帯域よりも狭い帯域で前記フィルタ処理を行う、
請求項4に記載の音声処理装置。
【請求項6】
前記ノイズ推定部で推定したノイズのレベルが大きいほど前記フィルタ処理における低減量が大きくなる、
請求項1乃至請求項5のいずれか1項に記載の音声処理装置。
【請求項7】
前記フィルタ処理における低減量は、上限および下限を有する、
請求項1乃至請求項6のいずれか1項に記載の音声処理装置。
【請求項8】
前記ノイズ推定部は、画像データを取得し、取得した画像データに基づいて前記ノイズを推定する、
請求項1乃至請求項7のいずれか1項に記載の音声処理装置。
【請求項9】
前記ゲイン制御部は、前記ノイズ推定部で推定したノイズのレベルと、前記第1音声信号のレベルと、に基づいて前記ゲインを制御し、
前記フィルタ部は、前記ノイズ推定部で推定したノイズのレベルに基づいて前記フィルタ処理を行う、
請求項1乃至請求項8のいずれか1項に記載の音声処理装置。
【請求項10】
音声を収音して第1音声信号を生成し、
ノイズを推定し、
推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力し、
推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行う、
音声処理方法。
【請求項11】
前記第1音声信号に基づいて前記ノイズを推定する、
請求項10に記載の音声処理方法。
【請求項12】
前記ノイズ推定部は、
第1ノイズ推定部および第2ノイズ推定部を有し、
第1ノイズ推定処理で推定したノイズに基づき前記第1音声信号のゲインを制御し、
第2ノイズ推定処理で推定したノイズに基づき前記フィルタ処理を行い、
前記第2ノイズ推定処理は、前記第1音声信号の一部の帯域に基づいてノイズを推定する、
請求項10または請求項11に記載の音声処理方法。
【請求項13】
前記第2ノイズ推定処理は、複数の周波数帯域でそれぞれノイズ成分を推定し、前記複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいて前記ノイズを推定する、
請求項12に記載の音声処理方法。
【請求項14】
前記第2ノイズ推定処理で推定した前記複数の周波数帯域よりも狭い帯域で前記フィルタ処理を行う、
請求項13に記載の音声処理方法。
【請求項15】
推定したノイズのレベルが大きいほど前記フィルタ処理における低減量が大きくなる、
請求項10乃至請求項14のいずれか1項に記載の音声処理方法。
【請求項16】
前記フィルタ処理における低減量は、上限および下限を有する、
請求項10乃至請求項15のいずれか1項に記載の音声処理方法。
【請求項17】
画像データを取得し、取得した画像データに基づいて前記ノイズを推定する、
請求項10乃至請求項16のいずれか1項に記載の音声処理方法。
【請求項18】
ノイズのレベルと、前記第1音声信号のレベルと、に基づいて前記ゲインを制御し、
推定したノイズのレベルに基づいて前記フィルタ処理を行う、
請求項10乃至請求項17のいずれか1項に記載の音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音声処理装置および音声処理方法に関し、特にノイズを低減する技術に関する。
【背景技術】
【0002】
特許文献1のノイズゲートは、音声信号の周波数スペクトルに基づいて定常ノイズのノイズスペクトルを推定する。ノイズゲートは、音声信号の周波数スペクトルとノイズスペクトルとの信号レベル比が閾値以上の場合、周波数スペクトルをそのまま出力する、ノイズゲートは、音声信号の周波数スペクトルとノイズスペクトルとの信号レベル比が閾値未満の場合、ゲインを低減して出力する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010-122617号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ノイズレベルと音声のレベルの比(S/N)に応じてゲイン制御を行う場合、話者音声を入力している時にはノイズが混在してしまう。
【0005】
以上の事情を考慮して、本開示のひとつの態様は、話者音声を入力している時のノイズを低減することができる音声処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
音声処理装置は、音声を収音して第1音声信号を生成する収音部と、ノイズを推定するノイズ推定部と、前記ノイズ推定部で推定したノイズに基づき、前記第1音声信号のゲインを制御し、第2音声信号を出力するゲイン制御部と、前記ノイズ推定部で推定したノイズに基づき、前記第2音声信号の所定周波数帯域の成分を低減するフィルタ処理を行うフィルタ部と、を備える。
【発明の効果】
【0007】
本発明の一実施形態によれば、話者音声を入力している時のノイズを低減することができる。
【図面の簡単な説明】
【0008】
図1】音声処理装置1の構成を示すブロック図である。
図2】プロセッサ12の機能的構成を示すブロック図である。
図3】プロセッサ12の動作を示すフローチャートである。
図4】ノイズ低減部121のゲインおよびS/Nの関係を示す図である。
図5】EQ122のゲインおよびノイズパワー推定値の関係を示す図である。
図6】複数の周波数帯域のそれぞれのノイズ成分の推定結果を示す図である。
図7】ノイズパワー推定値の時間変化を示す図である。
図8】参考例として、ある帯域(例えば0~250Hz)のノイズパワーに基づいてノイズパワー推定値を求めた場合のノイズパワー推定値の時間変化を示す図である。
図9】変形例2に係るプロセッサ12の機能的構成を示すブロック図である。
図10】EQ122のゲインおよびノイズパワー推定値の関係を示す図である。
図11】帯域毎のゲインを変更する場合のEQ122のゲインおよびノイズパワー推定値の関係を示す図である。
【発明を実施するための形態】
【0009】
図1は、音声処理装置1の構成を示すブロック図である。音声処理装置1は、マイク11、プロセッサ12、RAM13、フラッシュメモリ14、および通信部15を備えている。
【0010】
マイク11は、音声を収音する。プロセッサ12は、マイク11で収音した音声信号を、通信部15を介して外部のパーソナルコンピュータ(PC)等に送信する。
【0011】
プロセッサ12は、CPU、DSP、またはSoC(System on a Chip)等からなる。プロセッサ12は、記憶媒体であるフラッシュメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。プログラムは、音声処理プログラム141を含む。
【0012】
フラッシュメモリ14は、プロセッサ12の動作用プログラムを記憶している。例えば、フラッシュメモリ14は、上記音声処理プログラム141を記憶している。プロセッサ12は、音声処理プログラム141により、本発明の音声処理方法を実行する。
【0013】
図2は、プロセッサ12の機能的構成を示すブロック図である。図3は、音声処理方法の動作を示すフローチャートである。プロセッサ12は、ノイズ低減部121、イコライザ(EQ)122、ゲイン計算部123、EQ制御部124、第1ノイズ推定部125、および第2ノイズ推定部126を有する。これら機能的構成は、音声処理プログラム141により構成される。ノイズ低減部121およびゲイン計算部123は、本発明のゲイン制御部の一例である。EQ122およびEQ制御部124は、本発明のフィルタ部の一例である。
【0014】
マイク11は、音声を収音し、第1音声信号を生成する(S11)。音声は、話者の音声またはノイズを含む。マイク11は、生成した第1音声信号をプロセッサ12に出力する。
【0015】
まず、第1ノイズ推定部125は、第1音声信号に基づいてノイズパワーを推定する(S12)。ノイズパワーの推定手法は、どの様な手法であってもよい。例えば、第1ノイズ推定部125は、第1音声信号の所定区間のパワー平均値における最小値をノイズパワーとして推定する。
【0016】
ゲイン計算部123は、第1ノイズ推定部125で推定したノイズパワーに基づいて、ノイズ低減部121における第1音声信号のゲインを計算する(S13)。例えば、ゲイン計算部123は、ノイズ低減部121をウィーナーフィルタとして機能させるように、ノイズ低減部121のゲインを第1音声信号のパワーSおよびノイズパワーNの比(S/N)に基づいて決定する。
【0017】
図4は、ノイズ低減部121のゲインおよびS/Nの関係を示す図である。図4のグラフの横軸はS/Nであり、縦軸はノイズ低減部121のゲインである。ゲイン計算部123は、図4に示す様に、S/Nが小さい場合にはノイズ低減部121のゲインを小さくし、S/Nが大きい場合にはノイズ低減部121のゲインを大きくする。
【0018】
ノイズ低減部121は、ゲイン計算部123で計算されたゲインで第1音声信号を入力し、第2音声信号を出力する(S14)。これにより、ノイズ低減部121は、話者が発話していない場合には第2音声信号のレベルを小さくするため、ノイズを低減する。一方、ノイズ低減部121は、話者が発話している場合には第2音声信号のレベルを大きくするため、話者の音声を低減することがない。
【0019】
第2ノイズ推定部126は、第1音声信号の一部の帯域に基づいてノイズを推定する。例えば、第2ノイズ推定部126は、第1ノイズ推定部125で計算したノイズパワーのうち1kHz以下のノイズパワーに基づいてノイズパワー推定値を求める(S15)。
【0020】
EQ制御部124は、第2ノイズ推定部126で求めたノイズパワー推定値に基づいて、EQ122のゲインを計算する(S16)。EQ122は、EQ制御部124で計算されたゲインに基づいて第2音声信号の所定周波数帯域の成分を低減する処理を行う(S17)。例えば、EQ122は、第2音声信号の1kHz以下の帯域を低減する。
【0021】
図5は、EQ122のゲインおよびノイズパワー推定値の関係を示す図である。図5のグラフの横軸はノイズパワー推定値であり、縦軸はEQ122のゲインである。EQ制御部124は、図5に示す様に、ノイズパワー推定値が小さい場合にはEQ122のゲインを大きくし、ノイズパワー推定値が大きい場合にはEQ122のゲインを小さくする。EQ制御部124は、図5の例では、ノイズパワー推定値が所定値N1よりも低い場合にはEQ122のゲインを最大値(例えば0dB)にする。つまり、ノイズパワー推定値が所定値N1よりも低い場合にはEQ122における低減処理は行われない。EQ制御部124は、図5の例では、ノイズパワー推定値が所定値N2よりも高い場合にはEQ122のゲインを最小値(例えば-36dB)にする。EQ制御部124は、ノイズパワー推定値が所定値N1以上、N2以下の場合、EQ122のゲインを、ノイズパワー推定値に応じて線形に変化させる。
【0022】
以上のように、ノイズ低減部121は、話者が発話していない場合には第2音声信号のレベルを小さくするため、ノイズを低減する。一方、ノイズ低減部121は、話者が発話している場合には第2音声信号のレベルを大きくするため、第2音声信号にノイズが混在する場合がある。特に、1kHz以下の低域に含まれるノイズは、聴感上目立つ。しかし、本実施形態のEQ122およびEQ制御部124は、ノイズパワー推定値に基づいて1kHz以下の低域を低減するため、話者音声を入力している時のノイズを低減することができる。また、本実施形態のEQ制御部124は、第1音声信号のパワーに依存せずノイズパワー推定値のみに基づいてEQ122のゲインを設定する。そのため話者の音声のレベルに依存せずに常時ノイズを低減することができる。
【0023】
(変形例1)
第2ノイズ推定部126は、複数の周波数帯域でそれぞれノイズ成分を推定し、該複数の周波数帯域のそれぞれのノイズ成分の推定結果に基づいてノイズを推定してもよい。
【0024】
例えば、第2ノイズ推定部126は、0~250Hzの第1帯域、250~500Hzの第2帯域、500~750Hzの第3帯域、および750~1000Hzの第4帯域のそれぞれのノイズパワーを求める。ただし帯域の数および帯域幅はこの例に限らない。
【0025】
さらに、第2ノイズ推定部126は、各帯域のノイズパワーに重み付けを行う。重みは、聴感上影響の大きい帯域を大きく、聴感上影響の小さい帯域を小さくする。例えば、第2ノイズ推定部126は、第1帯域の重み付け係数を0.8、第2帯域の重み付け係数を0.1、第3帯域の重み付け係数を0.05、第4帯域の重み付け係数を0.05として、各帯域のノイズパワーにそれぞれの重み付け係数を乗算し、期待値を算出する。第2ノイズ推定部126は、各帯域の期待値を加算する。第2ノイズ推定部126は、加算結果をノイズパワー推定値とする。
【0026】
図6は、数の周波数帯域のそれぞれのノイズ成分の推定結果を示す図である。第2ノイズ推定部126は、第1帯域、第2帯域、第3帯域、および第4帯域のノイズパワーをそれぞれ10dB、20dB、5dB、および15dBとして求めている。第2ノイズ推定部126は、各帯域の重み付け係数を乗算し、第1帯域、第2帯域、第3帯域、および第4帯域の期待値をそれぞれ8、2、0.25、0.75として求めている。第2ノイズ推定部126は、各帯域の期待値を加算し、ノイズパワー推定値=11を算出する。
【0027】
この様に、第2ノイズ推定部126は、よりノイズの影響が大きいと予測できる帯域と、ノイズの影響が小さいと予測できる帯域と、を分けてノイズ推定を行う。これにより、第2ノイズ推定部126は、EQ122によるフィルタ処理を安定化させることができる。
【0028】
図7は、第2ノイズ推定部126で求めたノイズパワー推定値の時間変化を示す図であり、図8は参考例として、ある帯域(例えば0~250Hz)のノイズパワーに基づいてノイズパワー推定値を求めた場合のノイズパワー推定値の時間変化を示す図である。
【0029】
図8に示す様に、ある帯域(例えば0~250Hz)のノイズパワーに基づいてノイズパワー推定値を求めた場合、瞬間的に当該帯域でノイズパワーが大きくなるまたは小さくなる場合があり、ノイズパワー推定値がばらつく。そのため、EQ122のゲインがばらつく可能性がある。
【0030】
これに対して、図7に示す様に、変形例1の第2ノイズ推定部126は、複数の周波数帯域でそれぞれノイズパワーを求めて、重み付け加算を行うことで瞬間的にある帯域でノイズパワーが大きくなるまたは小さくなった場合でも、ノイズパワー推定値がばらつくことがない。したがって、変形例1の第2ノイズ推定部126は、EQ122のゲインを安定化させることができる。
【0031】
なお、EQ122は、第2ノイズ推定部126で推定した複数の周波数帯域(第1帯域乃至第4帯域)よりも狭い帯域でフィルタ処理を行ってもよい。例えば、EQ122は、聴感上最も影響の大きい帯域(例えば第1帯域)にのみフィルタ処理を施してもよい。これにより、EQ122は、音質の変化を最小限に抑えることができる。
【0032】
(変形例2)
第1ノイズ推定部125または第2ノイズ推定部126は、画像データを取得し、取得した画像データに基づいてノイズを推定してもよい。図9は、変形例2に係るプロセッサ12の機能的構成を示すブロック図である。この例では、音声処理装置1は、画像データを取得するためのカメラ20を備える。また、この例では、第2ノイズ推定部126は、カメラ20から画像データを取得し、取得した画像データに基づいてノイズを推定する。
【0033】
具体的には、第2ノイズ推定部126は、画像データに含まれるノイズ源を認識し、認識したノイズ源の状態に応じてノイズパワー推定値を求める。ノイズ源は、例えば人、PC、エアコン、換気扇、または掃除機等を含む。
【0034】
第2ノイズ推定部126は、例えば、所定時間内に認識する移動物体(例えば歩行者)の数に基づいてノイズパワー推定値を求める。第2ノイズ推定部126は、所定時間内に認識した移動物体(例えば歩行者)の数が多いほどノイズパワー推定値が大きいと推定し、所定時間内に認識した移動物体(例えば歩行者)の数が少ないほどノイズパワー推定値が小さいと推定する。
【0035】
あるいは、第2ノイズ推定部126は、遠方の人物の数に基づいてノイズパワー推定値を求めてもよい。第2ノイズ推定部126は、エアコンの画像を認識し、エアコンの状態(例えばファンの回転数)に基づいてノイズパワー推定値を求めてもよい。あるいは、第2ノイズ推定部126は、エアコンの周囲の物体の状態(例えばカーテンの揺れ度合い)に基づいてノイズパワー推定値を求めてもよい。あるいは、第2ノイズ推定部126は、エアコンのリモコンを認識し、該リモコンに表示されている設定温度に基づいてノイズパワー推定値を求めてもよい。第2ノイズ推定部126は、冷房運転のエアコンの場合、設定温度が低いほどノイズパワー推定値が大きいと推定し、設定温度が高いほどノイズパワー推定値が小さいと推定する。第2ノイズ推定部126は、暖房運転のエアコンの場合、設定温度が高いほどノイズパワー推定値が大きいと推定し、設定温度が低いほどノイズパワー推定値が小さいと推定する。
【0036】
なお、第1ノイズ推定部125が、カメラ20から画像データを取得し、取得した画像データに基づいてノイズを推定してもよいし、第1ノイズ推定部125および第2ノイズ推定部126の両方がカメラ20から画像データを取得し、取得した画像データに基づいてノイズを推定してもよい。また、第1ノイズ推定部125または第2ノイズ推定部126は、第1音声信号および画像データに基づいてノイズパワーを推定してもよい。
【0037】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【0038】
例えば、EQ制御部124は、第1ノイズ推定部125で求めたノイズパワー推定値に基づいて、EQ122のゲインを計算してもよい。EQ制御部124は、第1音声信号のパワーSおよびノイズパワーNの比(S/N)に基づいてEQ122のゲインを計算してもよい。
【0039】
また、図5では、EQ制御部124は、ノイズパワー推定値が所定値N1以上、N2以下の場合、EQ122のゲインを、ノイズパワー推定値に応じて線形に変化させた。しかし、EQ制御部124は、EQ122のゲインを、ノイズパワー推定値に応じて線形に変化させる必要はない。
【0040】
図10は、EQ122のゲインおよびノイズパワー推定値の関係を示す図である。図5のグラフの横軸はノイズパワー推定値であり、縦軸はEQ122のゲインである。図10に示すように、EQ制御部124は、ノイズパワー推定値が小さい場合、ノイズパワー推定値に応じて緩やかにEQ122のゲインを変化させ、ノイズパワー推定値がある程度大きくなった場合にEQ122のゲインを急激に変化させ、ノイズパワー推定値が大きい場合には緩やかにEQ122のゲインを変化させてもよい。また、EQ制御部124は、ノイズパワー推定値が所定値以上になった場合に、EQ122のゲインを最小値にし、ノイズパワー推定値が所定値未満になった場合に、EQ122のゲインを最大値にしてもよい。
【0041】
また、変形例1に示した様に第2ノイズ推定部126が複数の周波数帯域でそれぞれノイズパワーを求めて、ノイズパワー推定値を求める場合、EQ制御部124は、求めたノイズパワー推定値に基づいてEQ122の帯域毎のゲインを変更してもよい。
【0042】
例えば、図11は、帯域毎のゲインを変更する場合のEQ122のゲインおよびノイズパワー推定値の関係を示す図である。この例では、EQ制御部124は、ノイズパワー推定値に基づいてEQ122の第1帯域および第2帯域それぞれのゲインを変更する。この例では、第1帯域の最小値のゲインは、第2帯域の最小値のゲインよりも小さい。つまり、第1帯域の低減量は総体的に大きく、第2帯域の低減量は相対的に小さくなる。この例ではEQ122は、第3帯域および第4帯域のゲインを変更しない。
【0043】
このように、なお、EQ制御部124は、ノイズパワー推定値に基づくEQ122のゲインを帯域毎に変更してもよい。これにより、EQ122は、音質の変化を最小限に抑え、かつノイズを正確に低減することができる。
【符号の説明】
【0044】
1 :音声処理装置
11 :マイク
12 :プロセッサ
13 :RAM
14 :フラッシュメモリ
15 :通信部
20 :カメラ
121 :ノイズ低減部
122 :EQ
123 :ゲイン計算部
124 :EQ制御部
125 :第1ノイズ推定部
126 :第2ノイズ推定部
141 :音声処理プログラム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11