(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-10-14
(45)【発行日】2025-10-22
(54)【発明の名称】ノイズ除去装置、ノイズ除去方法、およびプログラム
(51)【国際特許分類】
G10L 21/0216 20130101AFI20251015BHJP
H04B 1/10 20060101ALI20251015BHJP
G10L 25/51 20130101ALI20251015BHJP
【FI】
G10L21/0216
H04B1/10 Z
G10L25/51
(21)【出願番号】P 2022010177
(22)【出願日】2022-01-26
【審査請求日】2024-08-22
(73)【特許権者】
【識別番号】322003857
【氏名又は名称】パナソニックオートモーティブシステムズ株式会社
(74)【代理人】
【識別番号】100138771
【氏名又は名称】吉田 将明
(72)【発明者】
【氏名】加藤 和広
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2021-124887(JP,A)
【文献】特開2020-096268(JP,A)
【文献】特開2017-067901(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-25/93
H04B 1/10
(57)【特許請求の範囲】
【請求項1】
音声信号を取得する取得部と、
前記取得部にて取得した音声信号に対するノイズ除去処理を行うノイズ除去部と、
前記取得部にて取得した音声信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理部と、
前記HPSS処理部にて分離された打楽器音信号がノイズか
ノイズでない打楽器音かを判定する判定部と、
前記判定部により前記打楽器音信号がノイズであると判定された場合、前記HPSS処理部にて分離された調波信号を出力させ、前記判定部により前記打楽器音信号がノイズでない
打楽器音と判定された場合、前記ノイズ除去部により処理された音声信号を出力させる出力制御部と、
を有するノイズ除去装置。
【請求項2】
前記判定部は、HPSS処理により分離された打楽器音信号を入力とし、当該打楽器音信号の分類を出力として学習処理が行われることにより生成された学習済みモデルを用いて、判定を行う、
請求項1に記載のノイズ除去装置。
【請求項3】
前記取得部にて取得した音声信号の電波状態を検出する電波状態検出部を更に備え、
前記出力制御部は、前記電波状態検出部による検出結果に更に基づいて出力を制御する、
請求項1または2に記載のノイズ除去装置。
【請求項4】
前記電波状態検出部は、前記取得部にて取得した音声信号に含まれるマルチパスノイズに基づいて電波状態を検出する、請求項3に記載のノイズ除去装置。
【請求項5】
前記取得部にて取得した音声信号の高周波成分に基づいて、当該音声信号に含まれるノイズを検出するノイズ検出部を更に備え、
前記出力制御部は、前記ノイズ検出部による検出結果に更に基づいて出力を制御する、請求項1~4のいずれか一項に記載のノイズ除去装置。
【請求項6】
前記ノイズ除去部は、前記ノイズ検出部にてノイズを検出した場合に、前記取得部にて取得した音声信号に前記ノイズ除去処理を行って出力する、請求項5に記載のノイズ除去装置。
【請求項7】
前記ノイズ除去装置は、ラジオ受信装置に設けられ、
前記音声信号は、ラジオ信号である、
請求項1~6のいずれか一項に記載のノイズ除去装置。
【請求項8】
音声信号を取得する取得工程と、
前記取得工程にて取得した音声信号に対するノイズ除去処理を行うノイズ除去工程と、
前記取得工程にて取得した音声信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理工程と、
前記HPSS処理工程にて分離された打楽器音信号がノイズか
ノイズでない打楽器音かを判定する判定工程と、
前記判定工程により前記打楽器音信号がノイズであると判定された場合、前記HPSS処理工程にて分離された調波信号を出力させ、前記判定工程により前記打楽器音信号がノイズでない
打楽器音と判定された場合、前記ノイズ除去工程により処理された音声信号を出力させる出力制御工程と、
を有するノイズ除去方法。
【請求項9】
コンピュータを、
音声信号を取得する取得部、
前記取得部にて取得した音声信号に対するノイズ除去処理を行うノイズ除去部、
前記取得部にて取得した音声信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理部、
前記HPSS処理部にて分離された打楽器音信号がノイズか
ノイズでない打楽器音かを判定する判定部、
前記判定部により前記打楽器音信号がノイズであると判定された場合、前記HPSS処理部にて分離された調波信号を出力させ、前記判定部により前記打楽器音信号がノイズでない
打楽器音と判定された場合、前記ノイズ除去部により処理された音声信号を出力させる出力制御部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ノイズ除去装置、ノイズ除去方法、およびプログラムに関する。
【背景技術】
【0002】
従来、音声信号に関するノイズキャンセリング機能が用いて音声品質を向上させることが行われている。例えば、ラジオ受信装置に適用可能な従来のノイズキャンセリング機能では、パルス系のノイズを除去する際にフィルタリングにより高域成分のノイズの幅と振幅を検出した後、その成分をカットすることが行われている。例えば、特許文献1では、違和感のないノイズ除去を目的として、ノイズ成分を検出するノイズ検出部と、ノイズの高周波成分をカットするノイズカット部を備える構成を開示している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の方法では、高い周波数成分のノイズしか除去できず、低い周波数成分のノイズは取り残され、十分にノイズの除去ができていなかった。これに対し、ノイズの検出範囲を下げることで低い周波数成分まで除去しようとすると、原音まで削られてしまい、音声品質の低下を引き起こすという問題が生じていた。
【0005】
本開示は、上述した従来の事情を鑑みて案出され、音声品質の低下を抑制しつつ、音声信号におけるノイズを高精度に除去することが可能なノイズ除去装置、ノイズ除去方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示は、音声信号を取得する取得部と、前記取得部にて取得した音声信号に対するノイズ除去処理を行うノイズ除去部と、前記取得部にて取得した音声信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理部と、前記HPSS処理部にて分離された打楽器音信号がノイズか否かを判定する判定部と、前記判定部により前記打楽器音信号がノイズであると判定された場合、前記HPSS処理部にて分離された調波信号を出力させ、前記判定部により前記打楽器音信号がノイズでないと判定された場合、前記ノイズ除去部により処理された音声信号を出力させる出力制御部と、を有するノイズ除去装置を提供する。
【0007】
また、本開示は、音声信号を取得する取得工程と、前記取得工程にて取得した音声信号に対するノイズ除去処理を行うノイズ除去工程と、前記取得工程にて取得した音声信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理工程と、前記HPSS処理工程にて分離された打楽器音信号がノイズか否かを判定する判定工程と、前記判定工程により前記打楽器音信号がノイズであると判定された場合、前記HPSS処理工程にて分離された調波信号を出力させ、前記判定工程により前記打楽器音信号がノイズでないと判定された場合、前記ノイズ除去工程により処理された音声信号を出力させる出力制御工程と、を有するノイズ除去方法を提供する。
【0008】
また、本開示は、コンピュータを、音声信号を取得する取得部、前記取得部にて取得した音声信号に対するノイズ除去処理を行うノイズ除去部、前記取得部にて取得した音声信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理部、前記HPSS処理部にて分離された打楽器音信号がノイズか否かを判定する判定部、前記判定部により前記打楽器音信号がノイズであると判定された場合、前記HPSS処理部にて分離された調波信号を出力させ、前記判定部により前記打楽器音信号がノイズでないと判定された場合、前記ノイズ除去部により処理された音声信号を出力させる出力制御部、として機能させるためのプログラムを提供する。
【0009】
なお、以上の構成要素の任意の組み合わせ、本開示の表現を方法、装置、システム、記憶媒体、コンピュータプログラムなどの間で変換したものもまた、本開示の態様として有効である。
【発明の効果】
【0010】
本開示によれば、音声品質の低下を抑制しつつ、音声信号におけるノイズを高精度に除去することが可能となる。
【図面の簡単な説明】
【0011】
【
図1】実施の形態1に係るノイズキャンセリング機能を有するシステムの構成例を示すブロック図
【
図2】実施の形態1に係る電波状態検出部の機能構成の例を示すブロック図
【
図3】実施の形態1に係るノイズ処理部およびノイズ検出部の機能構成の例を示すブロック図
【
図5】HPSSによる音声信号分離を説明するための図
【
図6】実施の形態1に係る音声処理のフローチャート
【
図7】実施の形態1に係るノイズ判定処理のための学習済みモデルを生成する学習処理を説明するための概略図
【発明を実施するための形態】
【0012】
以下、添付図面を適宜参照しながら、本開示に係るノイズ除去装置、ノイズ除去方法、およびプログラムを具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明、あるいは、実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になることを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるものであって、これらにより特許請求の範囲に記載の主題を限定することは意図されない。
【0013】
<実施の形態1>
本発明に係るノイズ除去装置は、例えば、ラジオ受信装置に含めた構成として適用可能である。本実施の形態では、ラジオ受信装置に適用した構成を用いてノイズ除去装置の説明を行う。しかしながら、本発明を適用可能な範囲は、ラジオ受信装置に限定されるものではなく、そのほかの音声信号に基づいて音声出力を行う装置にも適用可能である。
【0014】
[システム構成]
図1は、本実施の形態に係るノイズキャンセリング機能に係る部位を備えるラジオ受信装置100の構成例を示すブロック図である。
図1において、矢印は、各機能ブロックへの信号の流れを示す。
【0015】
アンテナ101は、外部から送信されてくるラジオ信号を検出し、受信部102へ渡す。アンテナ101の数、向き、形状、検出可能な周波数帯域、波長などの構成は特に限定するものではない。アンテナ101は、例えば、一定の方角からのラジオ信号を検出するような構成であってもよいし、全方向からのラジオ信号を検出するような構成であってもよい。また、ラジオ信号はFM(Frequency Modulation)、AM(Amplitude Modulation)、ワイドFMのいずれであってもよいが、本実施の形態では、FMを例に挙げて説明する。
【0016】
受信部102は、アンテナ101にて検出したラジオ信号を受信し、所定の周波数信号から構成されるコンポジット信号を出力する。コンポジット信号は、ノイズ処理部103、ノイズ検出部104、および電波状態検出部105にそれぞれ出力される。
【0017】
ノイズ処理部103は、入力されたコンポジット信号に対するノイズ処理を行う。ノイズ処理の例としては、公知のフィルタリング処理による高周波成分の除去などが挙げられる。ノイズ処理部103により処理された信号は、復調部106へ出力される。ノイズ処理部103のより詳細な構成例については、
図3を用いて後述する。
【0018】
ノイズ検出部104は、受信部102から出力されるコンポジット信号にノイズが含まれているか否を検出する。ノイズ検出部104は、ノイズの検出結果を示す信号をノイズ処理部103、およびマイコン部111へ出力する。ノイズ検出部104のより詳細な構成例については、
図3を用いて後述する。
【0019】
電波状態検出部105は、受信部102から出力される信号に基づいて、電波状態の検出を行う。電波状態としては、例えば、ラジオ信号の電界強度やマルチパスレベルなどが含まれる。電波状態検出部105は、電波状態の検出結果を示す信号をマイコン部111へ出力する。電波状態検出部105のより詳細な構成例については、
図2を用いて後述する。
【0020】
復調部106は、ノイズ処理部103から受信した信号を復調し、オーディオ信号として、遅延補正部107およびHPSS処理部108へ出力する。遅延補正部107は、復調部106から受信したオーディオ信号を一定の時間分、遅延させる補正を行う。ここでの補正量は、予め規定されていてもよいし、後述する各種処理に応じて調整されてもよい。補正量のことを遅延量と呼ぶことがある。遅延補正部107は、遅延後のオーディオ信号をスイッチ部109へ出力する。
【0021】
HPSS処理部108は、復調部106から受信したオーディオ信号を、HPSS(Harmonic/Percussive Sound Separation)により、調波信号と打楽器音信号とに分離する。HPSSによる処理、調波信号、打楽器音信号の詳細については後述する。調波信号はスイッチ部109へ出力され、打楽器音信号はノイズ判定AI部110へ出力される。
【0022】
スイッチ部109は、遅延補正部107からのオーディオ信号と、HPSS処理部108からの調波信号を入力とし、マイコン部111からの信号に基づいていずれかをオーディオアンプ112に切り替えて出力するように構成される。便宜上、スイッチ部109の入力において、遅延補正部107からオーディオ信号が入力される側を第1の入力端子とも称し、HPSS処理部108から調波信号が入力される側を第2の入力端子とも称する。
【0023】
ノイズ判定AI部110は、学習処理により予め生成された学習済みモデルを用いて、受信部102にて受信したラジオ信号にノイズが含まれているか否かを判定する。本実施の形態で用いる学習済みモデルの詳細については後述する。ノイズ判定AI部110は、HPSS処理部108から出力される打楽器音信号を受信し、ノイズの判定結果を示す信号をマイコン部111へ出力する。
【0024】
マイコン部111は、ノイズ検出部104、電波状態検出部105、およびノイズ判定AI部110から取得した各種信号に基づいて、スイッチ部109の切り替えの制御を行う。スイッチ部109の切り替え制御については後述する。マイコン部111は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、またはFPGA(Field Programmable Gate Array)のうち少なくとも1つを用いて構成されてもよい。
【0025】
オーディオアンプ112は、スイッチ部109からの音声信号を受信し、その音声信号を所定の状態に増幅させる。そして、オーディオアンプ112は、増幅した音声信号をスピーカ113へ出力する。オーディオアンプ112による音声信号の増幅条件は、予め設定されていてもよいし、ユーザに適時操作されてよい。スピーカ113は、オーディオアンプ112から受信した音声信号を音声として出力する。
【0026】
なお、
図1では不図示であるが、ラジオ受信装置100は、電源部、受信可能な周波数を切り替えるための切替部、ユーザによる操作を受け付けるための操作部などを更に備えていてよい。
【0027】
(電波状態検出部)
図2は、本実施の形態に係る電波状態検出部105の機能構成の例を示す図である。電波状態検出部105は、受信部102からの受信信号に基づいて電波状態を検出する。本実施の形態では、FMを想定し、マルチパスの発生を検出する構成例について説明する。なお、
図2に示す構成は一例であり、そのほかの電波状態を検出するような構成であってであってもよい。
【0028】
電界強度メータ201は、受信部102からの受信信号の電界強度、すなわち、電波強度を測定する。電界強度メータ201は、例えばSメータである。従来、受信信号において何らかの理由によりマルチパス(言い換えると多重波伝播)が生じている場合、電界強度メータ201の出力にAC(交流)成分が発生する。そこで、本実施の形態にて用いる電波状態検出部105では、電界強度メータ201の測定結果からAC成分を検出し、その検出結果に基づいてマルチパスの検出を行う。
【0029】
電界強度メータ201の検出結果に、BPF(Band Pass Filter)202が適用される。BPF202は、所定の周波数帯域を通過させ、それ以外の高周波成分および低周波成分を除去する。例えば、20kHz周辺をBPF202にて通過させる所定の周波数帯域として設定する。なお、BPF202の通過帯域は特に限定するものでは無いが、予め規定されていてよい。これにより、受信信号のAC成分が抽出される。そして、BPF202からの出力が、ピーク検出部203に入力される。
【0030】
ピーク検出部203は、BPF202からの出力における信号のピークレベルを検出する。ピーク検出部203は、検出したピークレベルに関する情報をマルチパス検出部204へ出力する。マルチパス検出部204は、ピーク検出部203にて検出したピークレベルに基づいてマルチパスを検出する。本実施の形態では、マルチパス検出部204は、ピークレベルが所定の閾値以上である場合には、マルチパスが発生しているものとして検出する。また、複数の閾値を用いてマルチパスの検出を行ってもよい。例えば、ピークレベルをdBμVの単位にて検出を行う場合、2つの閾値として、2dBμVと10dBμVを設定する。そして、ピークレベルが2dBμV以下である場合には、マルチパスは小さい、または、発生していないと判定してよい。また、ピークレベルが10dBμV以上である場合には、音声品質に影響の大きいマルチパスが発生していると判定してよい。なお、所定の閾値は特に限定するものでは無いが、予め規定されていてよい。また、マルチパスを検出する際には実値(上記では単位dBμVで表される検出値)に限定するものではなく、比率(%)が用いられてもよい。マルチパス検出部204による検出結果が、電波状態検出部105の検出結果信号として、マイコン部111へ出力される。
【0031】
(ノイズ処理部およびノイズ検出部)
図3は、本実施の形態に係るノイズ処理部103およびノイズ検出部104の機能構成の例を示す図である。ノイズ処理部103およびノイズ検出部104にはそれぞれ、受信部102からのコンポジット信号が入力される。
【0032】
ノイズ処理部103において、入力されたコンポジット信号は遅延補正部301、ノイズ除去部302にそれぞれ入力される。遅延補正部301は、入力されたコンポジット信号を所定の遅延量の分だけ遅延させ、スイッチ部305へ出力する。遅延補正部301による遅延量は、ノイズ除去部302での処理に要する時間に対応していてよい。すなわち、スイッチ部305に対する、遅延補正部301からの出力とノイズ除去部302からの出力のタイミングが一致または略一致するように構成されてよい。
【0033】
ノイズ除去部302において、まず、入力されたコンポジット信号に対してLFP(Low Pass Filter)303が適用される。LPF303は、所定の閾値よりも低い周波数帯域を通過させ、それ以上の高周波成分を除去する。つまり、LPF303により、ノイズに相当する高周波成分を除去する。LPF303の通過帯域は特に限定するものでは無いが、予め規定されていてよい。更に、ノイズ除去部302において、LPF303からの出力が、信号維持部304に入力される。信号維持部304は、LPF303を適用した信号を一定期間中維持する。そして、信号維持部304は、維持した信号をスイッチ部305へ出力する。
【0034】
スイッチ部305は、遅延補正部301からの信号と、ノイズ除去部302からの信号とを入力とし、ノイズ検出部104からの信号に基づいていずれかに切り替えて出力信号として出力するように構成される。したがって、ノイズ検出部104によるノイズの検出結果に応じて、ノイズ処理部103は、一定時間遅延されたコンポジット信号、または、ノイズ除去がなされたコンポジット信号のいずれかを出力する。
【0035】
ノイズ検出部104において、まず、入力されたコンポジット信号に対してHPF(High Pass Filter)311が適用される。HPF311は、所定の閾値よりも高い周波数帯域を通過させ、それ以下の低周波成分を除去する。つまり、ノイズに相当する高周波成分を抽出する。HPF311の通過帯域は特に限定するものでは無いが、予め規定されていてよい。HPF311における通過帯域を規定する所定の閾値は、ノイズ除去部302のLPF303と同じであってもよい。更に、ノイズ検出部104において、HPF303からの出力が、AGC(Auto Gain Control)部312に入力される。AGC部312は、入力された信号に対して所定の利得の範囲となるように調整を行う。AGC部312は、調整した信号をパルスノイズ検出部313に出力する。パルスノイズ検出部313は、AGC部312からの信号に基づいて、パルスノイズの検出を行う。そして、信号にてパルスノイズを検出した場合には、パルスノイズ検出部313は、ノイズ処理部103のスイッチ部305に対して、ノイズ除去部302側からの信号を出力するように切り替え指示を行う。一方、信号にてパルスノイズを検出していない場合には、パルスノイズ検出部313は、ノイズ処理部103のスイッチ部305に対して、遅延補正部301からの信号を出力するように切り替え指示を行う。
【0036】
本実施の形態において、ノイズ処理部103およびノイズ検出部104によるノイズ処理を第1のノイズ処理とも称する。なお、第1のノイズ処理の方法は、
図3に示す構成によるノイズキャンセリング機能に限定するものではなく、他の公知の構成を用いてよい。
【0037】
[ノイズ]
本実施の形態にて扱うラジオ信号には、ノイズのほか、打楽器音が含まれうる。打楽器音は、一定の高周波成分を含んで構成され、マルチパスノイズと類似した構成を有することから、ノイズキャンセリング機能を適用した際にノイズとして扱われてしまう場合がある。例えば、ラジオ信号を画像信号で示した場合、打楽器音信号とパルスノイズは類似した画像となってしまう。したがって、打楽器音に対して従来のノイズキャンセリング機能を適用した場合には、マルチパスノイズと同様に除去されてしまい、ラジオ信号の品質が低下してしまう場合がある。本実施の形態では、このような打楽器音を適切に認識し、ノイズキャンセリング機能による誤処理を防止することを目的の一つとする。
【0038】
まず、本実施の形態にて扱うノイズについて説明する。
図4はノイズが含まれる信号の例を示し、縦軸は周波数を示し、横軸は時間を示す。
図4(b)に示すように、
図4(a)に示す信号には、2つのノイズ成分404、405が含まれる。ここでは、周波数に対する閾値403を5kHzとして説明する。また、閾値403より大きい周波数を高周波成分の領域401とし、閾値403以下の周波数を低周波成分の領域402とする。
【0039】
図3に示した部位によるノイズキャンセリング機能、すなわち、第1のノイズ処理では、領域401における高周波成分を除去することで、ノイズを除去する。言い換えると、閾値403以下の信号については、原音の音声品質を維持するために、元信号とほぼ一致する。
【0040】
更に、本実施の形態では、HPSS技術を用いる。HPSSは、音声信号を、調波信号と打楽器音信号に分離することを可能とする技術である。HPSSに関しては、例えば、「“Harmonic/percussive separation using median filtering.” Fitzgerald, Derry.,13th International Conference on Digital Audio Effects (DAFX10), Graz, Austria, 2010.」などの文献が挙げられる。
【0041】
図5を用いて、HPSSによる処理を説明する。
図5において、縦軸は周波数を示し、横軸は時間を示す。
図5(a)に示すように、音声信号には2つの打楽器音成分501、502が含まれる。
図5(a)に示す音声信号に対してHPSS処理を適用することで、調波信号と打楽器音信号に分離される。
【0042】
図5(b)は、HPSS処理により分離された調波信号を示す。打楽器音成分501のうち、所定の閾値以上の高周波成分511は除去される。また、所定の閾値よりも低い原音の部分についても、打楽器音成分501相当の信号が除去されている。同様に、打楽器音成分502のうち、所定の閾値以上の高周波成分513は除去される。また、所定の閾値よりも低い原音の部分についても、打楽器音成分503相当の信号が除去されている。
【0043】
図5(c)は、HPSS処理により分離された打楽器音信号を示す。打楽器音成分501に対応する信号521が強調されている。同様に、打楽器音成分502に対応する信号522が強調されている。上述したように、打楽器音とパルスノイズは同様の特性を有することとなり、
図5(a)に示した打楽器音成分501、502はパルスノイズとしても説明することができる。つまり、HPSS処理を適用することで得られる調波信号をノイズ除去が行われた信号として扱うことができる。本実施の形態では、便宜上、HPSS処理によるノイズ除去(言い換えると調波信号の分離)を、第2のノイズ処理とも称する。
【0044】
上述したように、第1のノイズ処理では、信号にノイズが含まれている場合でも、所定の閾値よりも低いノイズの除去は困難である。一方、第2のノイズ処理により得られる
図5(b)に示したような調波成分は、原音の部分も除去されてしまうため、上記のような信号がノイズではなく打楽器音に相当する場合には、音声品質が低下しうる。
【0045】
そこで、本実施の形態では、機械学習により得られた学習済みモデルを用いて、
図5(c)に示すような信号が打楽器音かパルスノイズかを判定する。そして、その判定結果に基づいて、信号出力を制御する。
【0046】
[学習処理]
本実施の形態に係るノイズ判定AI部110にて用いられる学習済みモデルを生成するための学習処理について説明する。
図7は、本実施の形態に係る学習済みモデルを生成するための流れを示す概念図である。ここでは大きく、学習データを準備するための前処理フェーズと、学習データを用いて学習済みモデルを生成するための学習処理フェーズに分けられる。
【0047】
なお、本実施の形態の説明において、「学習」または「機械学習」とは、学習データおよび任意の学習アルゴリズムを用いて学習を行うことにより、「学習済みモデル」を生成することを指す。学習済みモデルは、複数の学習データを用いて学習が進むことにより、適時更新され、同じ入力であってもその出力が変化していく。したがって、学習済みモデルは、いずれの時点での状態であるかを限定するものではない。ここでは、学習にて用いられるモデルを「学習モデル」と記載し、一定程度の学習が行われた学習モデルを「学習済みモデル」と記載する。また、「学習データ」の具体的な例については後述するが、その構成は、利用する学習アルゴリズムに応じて変更されてよい。また、学習データには、学習そのものに用いられる教師データ、学習済みモデルの検証に用いられる検証データ、学習済みモデルのテストに用いられるテストデータを含んでよい。以下の説明では、学習に関するデータを包括的に示す場合は、「学習データ」と記載し、学習そのものを行う際のデータを示す場合は「教師データ」と記載する。なお、学習データに含まれる教師データ、検証データ、およびテストデータを明確に分類することを意図するものではなく、例えば、学習、検証、およびテストの方法によっては、学習データすべてが教師データにもなり得る。
【0048】
各フェーズの処理は、不図示の情報処理装置の処理部が、記憶部に格納された各種プログラムを読み出して実行することにより実現される。情報処理装置は、例えば、PC(Personal Computer)などが挙げられる。また、処理部は、CPUやGPU(Graphical Processing Unit)などから構成されてよい。記憶部は、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)などから構成されてよい。
【0049】
前処理フェーズでは、学習に用いられる学習データの準備を行う。ここでは、ラジオ受信装置100の受信信号として得られた音声信号を元データとして用いる。まず、ステップS701にて、元データに対し所定の数のピークを検出する。そして、ピーク位置に対応して、元データから所定時間単位ごとの切り出しを行う。ここでの検出するピーク数や、切り出しの所定時間単位は特に限定するものではない。続いて、ステップS702にて、ステップS701にて切り出した各データにHPSS処理を適用することで、各データから打楽器音信号を抽出する。
【0050】
続いて、ステップS703にて、ステップS702にて抽出した打楽器音信号から特徴量を抽出する。特徴量抽出は、例えば、公知のメルフィルタバンクを適用してレベル抽出を行うことで実装されてよい。そして、特徴量抽出により、各データそれぞれに対応する所定次元数の特徴量データを生成する。そして、ステップS704にて、ステップS703にて生成した特徴量データに対してラベリングを行う。ラベリングは、例えば、元データである音声信号を確認した人が、ノイズ、または、打楽器音のいずれであるかを示すラベル情報(分類情報)を付与する。なお、ここでは、「ノイズ」と「打楽器音」の2分類としたが、例えばノイズの程度に応じて更に詳細に分類してもよい。前処理により、特徴量データとラベル情報の対から構成される学習データを準備する。
【0051】
続いて、学習フェーズでは、上述した学習データを用いて、学習処理および検証動作などが繰り返し行われることで、一定の精度を有する学習済みモデルが生成される。ラジオ受信装置100が構成される前に、本実施の形態に係るノイズ判定AI部110にて用いられる学習済みモデルが生成される。なお、ノイズ判定AI部110にて用いられる学習済みモデルは、どの時点での学習済みモデルを利用するかを制限するものではない。したがって、適宜、学習処理が行われ、それによって更新された学習済みモデルによって、ノイズ判定AI部110が保持する学習済みモデルが更新されてよい。
【0052】
本実施の形態においては、学習手法として機械学習のうちの3次SVM(Support Vector Machine)の手法により、入力を分類する構成を例に挙げて説明する。なお、機械学習のアルゴリズムは特に限定するものではなく、例えば、ニューラルネットワークによるディープラーニング(深層学習)の手法を用いた畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)など公知の方法を用いて分類を行ってもよい。
【0053】
上記の学習により、音声信号の特徴量データを入力とし、当該特徴量データの分類を出力とする学習済みモデルが生成される。なお、本実施の形態に係るノイズ判定AI部110は、学習済みモデルの入力形式に合わせて、HPSS処理部108から入力される打楽器音信号に前処理(例えば特徴量データへの変換等)を行う。したがって、学習済みモデルが、打楽器音信号をそのまま入力として処理可能な構成の場合には、打楽器音信号に対する前処理は不要となる。
【0054】
[処理フロー]
図6は、本実施の形態に係るラジオ受信装置100の動作の一連の流れを示すフローチャートである。各工程の処理は、
図1に示した各部位が連携することにより実現される。また、本処理フローを実行する前に、学習処理が実行され、それにより生成された学習済みモデルがノイズ判定AI部110にて利用可能となっているものとする。なお、ラジオ受信装置100の動作は、
図6に示すフローチャートの各工程に示すように必ずしも直列に実行されることに限定するものではなく、
図1の機能構成に合わせて、一部の工程が同時並行的に行われてもよい。
【0055】
マイコン部111は、スイッチ部109に対して、遅延補正部107側からのオーディオ信号の出力を行うように切り替えを指示する。これにより、スイッチ部109において、第1の入力端子側へに切り替えが行われる(ステップS601)。
【0056】
ラジオ受信装置100は、アンテナ101により、周囲からのラジオ信号の受信を開始する(ステップS602)。
【0057】
受信部102は、アンテナ101にて受信したラジオ信号をコンポジット信号へ変換する(ステップS603)。そして、受信部102は、変換したコンポジット信号をノイズ処理部103、ノイズ検出部104、および電波状態検出部105それぞれに出力する。
【0058】
電波状態検出部105は、受信部102から入力されたコンポジット信号に基づいて、電波状態を検出する(ステップS604)。本実施の形態では、
図2を用いて説明したように、コンポジット信号においてマルチパスを検出し、マルチパスが含まれていた場合には、電波状態が悪化したものとして判定する。例えば、マルチパスレベルが所定の閾値(例えば、40%)を超えた状態が、一定時間(例えば、100ms)継続した場合に電波状態が悪化したと判定してよい。電波状態が悪化したと判定した場合(ステップS604;YES)、ラジオ受信装置100の処理はステップS609へ進む。一方、電波状態が悪化していないと判定した場合(ステップS604;NO)、ラジオ受信装置100の処理はステップS605へ進む。
【0059】
ノイズ検出部104は、受信部102から入力されたコンポジット信号に基づいて、ノイズの発生を検出する(ステップS605)。本実施の形態では、
図3を用いて説明したように、コンポジット信号においてパルスノイズが含まれていた場合には、ノイズが検出されたものとして判定する。例えば、ノイズレベルが所定の閾値(例えば、0.03)を超えている場合にはノイズが発生したと判定してよい。ノイズが検出されたと判定した場合(ステップS605;YES)、ラジオ受信装置100の処理はステップS609へ進む。一方、ノイズが検出されていないと判定した場合(ステップS605;NO)、ラジオ受信装置100の処理はステップS606へ進む。
【0060】
ノイズ検出部104は、ステップS605にてノイズが検出されていない場合、ノイズ処理部103のスイッチ部305に対して、遅延補正部301側からの出力を行うように切り替えを指示する。これにより、ノイズ処理部103からは、ノイズ除去処理が行われずに一定量の遅延が行われたコンポジット信号が復調部106に出力される。そして、復調部106は、ノイズ処理部103から入力された信号の復調を行い、オーディオ信号として出力する(ステップS606)。復調部106は、復調したオーディオ信号を遅延補正部107へ出力する。
【0061】
遅延補正部107は、復調部106から入力されたオーディオ信号を一定時間、遅延させる(ステップS607)。ここでの遅延量は、一定であってもよいし、所定の条件に応じて変化してもよい。そして、遅延補正部107は、遅延させたオーディオ信号をスイッチ部109へ出力する。
【0062】
スイッチ部109は、遅延補正部107から入力されたオーディオ信号をオーディオアンプ112へ出力する。この場合、スイッチ部109の入力は第1の入力端子側になっているため、遅延補正部107側からのオーディオ信号が出力される。より具体的には、ノイズ処理部103におけるノイズ除去(第1のノイズ処理)が行われていない信号のオーディオ信号が出力される。そして、オーディオ信号は、オーディオアンプ112、およびスピーカ113を介して、音声出力される(ステップS608)。そして、ステップS619の処理へ進む。
【0063】
HPSS処理部108は、HPSS処理を開始させる(ステップS609)。ここでは、HPSS処理の実行において一定の時間を要するものとして説明する。
【0064】
ノイズ検出部104は、ステップS605にてノイズが検出されている場合、ノイズ処理部103のスイッチ部305に対して、ノイズ除去部302側からの出力を行うように切り替えを指示する。そして、ノイズ除去部302は、所定時間にわたって、受信部102から入力されたコンポジット信号に対してノイズ除去処理(第1のノイズ処理)を行うように制御する(ステップS610)。ここでの所定時間は、HPSS処理や学習済みモデルを用いた判定に要する時間に基づいて設定されていてよい。そして、ノイズ処理部103からは、ノイズ除去処理が行われたコンポジット信号が復調部106に出力される。
【0065】
復調部106は、ノイズ処理部103から入力された信号の復調を行い、オーディオ信号として出力する(ステップS611)。このとき、復調部106は、復調したオーディオ信号を遅延補正部107の他、HPSS処理部108へ出力する。
【0066】
遅延補正部107は、復調部106から入力されたオーディオ信号を一定時間、遅延させる(ステップS612)。ここでの遅延量は、一定であってもよいし、所定の条件に応じて変化してもよい。例えば、遅延量は、HPSS処理部108側からの出力までに要する時間の分だけ遅延させてよい。そして、遅延補正部107は、遅延させたオーディオ信号をスイッチ部109へ出力する。
【0067】
HPSS処理部108は、復調部106から入力されたオーディオ信号に対してHPSS処理を適用し、調波信号と打楽器音信号に分離する(ステップS613)。そして、HPSS処理部108は、調波信号をスイッチ部109へ出力し、打楽器音信号をノイズ判定AI部110へ出力する。
【0068】
ノイズ判定AI部110は、HPSS処理部108からの打楽器音信号を入力として、学習済みモデルを適用し、入力された打楽器音信号の分類を行うことで判定を行う(ステップS614)。上述したように、打楽器音信号を学習済みモデルに入力するために前処理が必要な場合には、ノイズ判定AI部110は、前処理を行った上で学習済みモデルへ入力する。そして、ノイズ判定AI部110は、判定結果をマイコン部111へ出力する。
【0069】
マイコン部111は、ノイズ検出部104、電波状態検出部105、およびノイズ判定AI部110それぞれからの入力が、予め規定された所定の条件を満たすか否かを判定する(ステップS615)。ここでの所定の条件とは、例えば、ノイズ検出部104にてノイズレベルが所定の閾値を超えたこと、または、電波状態検出部105にてマルチパスレベルが所定の閾値を超えた状態が一定時間継続したことのいずれかを検出した場合であって、ノイズ判定AI部110にて打楽器音信号の分類結果が「ノイズ」でない場合であってよい。本実施の形態において、分類結果が「ノイズ」である場合とは、
図5(c)に示すように分離した信号が「ノイズ」であることを意味する。一方、分類結果が「ノイズ」でない場合とは、
図5(c)に示すように分離した信号が「打楽器音」であることを意味する。所定の条件を満たす場合(ステップS615;YES)、ラジオ受信装置100の処理はステップS616へ進む。一方、所定の条件を満たさない場合(ステップS615;NO)、ラジオ受信装置100の処理は、ステップS618へ進む。
【0070】
マイコン部111は、スイッチ部109に対して、HPSS処理部108側からのオーディオ信号の出力を行うように切り替えを指示する。これにより、スイッチ部109において、第2の入力端子側へに切り替えが行われる(ステップS616)。
【0071】
スイッチ部109は、HPSS処理部108から入力されたオーディオ信号をオーディオアンプ112へ出力する。この場合、スイッチ部109の入力は第2の入力端子側になっているため、HPSS処理部108側からのオーディオ信号が出力されることとなる。より具体的には、HPSS処理部108におけるHPSSにより分離された調波信号がノイズ除去処理(第2のノイズ処理)後の信号として出力されることとなる。そして、オーディオ信号は、オーディオアンプ112、およびスピーカ113を介して、音声出力される(ステップS617)。そして、ステップS619の処理へ進む。
【0072】
スイッチ部109は、遅延補正部107から入力されたオーディオ信号をオーディオアンプ112へ出力する。この場合、スイッチ部109の入力は第1の入力端子側になっているため、遅延補正部107側からのオーディオ信号が出力されることとなる。より具体的には、ノイズ処理部103におけるノイズ除去(第1のノイズ処理)が行われている信号のオーディオ信号が出力されることとなる。そして、オーディオ信号は、オーディオアンプ112、およびスピーカ113を介して、音声出力される(ステップS618)。そして、ステップS619の処理へ進む。
【0073】
マイコン部111は、音声出力が終了したか否かを判定する(ステップS619)。ここでの判定は、ユーザ操作により音声出力の終了の指示を受け付けたか否かに基づいて行われてもよい。音声出力が終了した場合(ステップS619;YES)、本処理フローを終了する。一方、音声出力が終了していない場合(ステップS619;NO)、ラジオ受信装置100の処理は、ステップS601へ戻り処理を繰り返す。なお、HPSS処理部108によるHPSS処理や、ノイズ判定AI部110による学習済みモデルを用いた判定処理は、処理負荷が高いことが想定されるため、ノイズが発生していない場合には動作させないことが好ましい。しかし、処理負荷が少ない場合やより高速度の処理の実行が可能な装置であれば、常に動作させるような構成であってもよい。
【0074】
以上、本実施の形態により、ラジオ受信装置100は、ラジオ信号を取得するアンテナ101および受信部102と、ラジオ信号に対するノイズ除去処理を行うノイズ処理部103と、ラジオ信号をHPSS処理により調波信号と打楽器音信号とに分離するHPSS処理部108と、HPSS処理部108にて分離された打楽器音信号がノイズか否かを判定するノイズ判定AI部110と、ノイズ判定AI部110により打楽器音信号がノイズであると判定された場合、HPSS処理部108にて分離された調波信号を出力させ、ノイズ判定AI部110により打楽器音信号がノイズでないと判定された場合、ノイズ処理部103により処理された音声信号を出力させるマイコン部111とを有する。これにより、音声品質の低下を抑制しつつ、音声信号におけるノイズを高精度に除去することが可能となる。
【0075】
また、ノイズ判定AI部110は、HPSS処理により分離された打楽器音信号を入力とし、当該打楽器音信号の分類を出力として学習処理が行われることにより生成された学習済みモデルを用いて、判定を行う。これにより、一定程度の学習が行われた学習済みモデルを用いて、音声信号に含まれる成分がノイズか打楽器音かの判定を高精度に行うことが可能となる。
【0076】
また、ラジオ受信装置100は、アンテナ101および受信部102にて取得した音声信号の電波状態を検出する電波状態検出部105を更に備え、マイコン部111は、電波状態検出部105による検出結果に更に基づいて出力の切り替えを制御する。これにより、ノイズ判定AI部110の判定結果の他、電波状態に基づいて、出力の切り替えを制御することが可能となる。
【0077】
また、電波状態検出部105は、アンテナ101および受信部102にて取得した音声信号に含まれるマルチパスノイズに基づいて電波状態を検出する。これにより、ノイズ判定AI部110の判定結果の他、マルチパスノイズの検出結果に基づいて、出力の切り替えを制御することが可能となる。
【0078】
また、ラジオ受信装置100は、アンテナ101および受信部102にて取得した音声信号の高周波成分に基づいて、当該音声信号に含まれるノイズを検出するノイズ検出部104を更に備え、マイコン部111は、ノイズ検出部104による検出結果に更に基づいて出力の切り替えを制御する。これにより、ノイズ判定AI部110の判定結果の他、従来のノイズ検出方法の結果にも基づいて、出力の切り替えを制御することが可能となる。
【0079】
また、ノイズ処理部103は、ノイズ検出部104にてノイズを検出した場合に、アンテナ101および受信部102にて取得した音声信号にノイズ除去処理を行って出力する。これにより、ノイズ検出部104にてノイズを検出していない場合には、無駄なノイズ処理が行われていない、原音に相当する信号を出力するように制御することが可能となる。
【0080】
<その他の実施形態>
上記の実施の形態では、本発明に係るノイズ除去装置によるノイズキャンセリング機能の構成を備えるラジオ受信装置を例に挙げて説明した。しかし、これに限定するものではなく、音声信号を取得し、出力する装置であれば、本発明の特徴的構成は適用可能である。例えば、CDやBD(登録商標)などの記憶媒体を再生可能な音声再生装置には、再生時に音声データに対するノイズを除去するために本発明の特徴的構成が備えられてもよい。このような記憶媒体には、例えば、物理的に埃やゴミなどが表面上に付着することが想定され、それらに起因してノイズが発生し得る。
【0081】
また、本発明は、音声として出力する際に適用することに限定するものではない。例えば、音声信号を別の信号に変換し、再度音声信号に変換する場合などのノイズ除去に利用されてもよい。
【0082】
また、上記の実施の形態では、第1のノイズ処理を行うノイズ処理部103およびノイズ検出部104や、電波状態を検出する電波状態検出部105を備えた構成例を示したが、これに限定するものではない。例えば、これらの構成要素を省略し、HPSS処理部108とノイズ判定AI部110を含んで構成し、ノイズ判定AI部110にてノイズであると判定された場合には、HPSS処理部108にて分離された調波信号を出力し、ノイズで無いと判定された場合には、元の音声信号を出力するような構成であってもよい。
【0083】
また、ノイズ判定AI部110を省略するような構成であってもよい。例えば、電波状態検出部105によりマルチパスノイズを検出した際に、HPSS処理部108にて分離された調波信号を出力し、マルチパスノイズを検出していない場合には、元の音声信号を出力するような構成であってもよい。
【0084】
また、ノイズ検出部104の機能として、ノイズ判定の学習済みモデルを適用する構成であってもよい。この場合には、ノイズ検出部104による信号の分類結果に応じて、第1のノイズ処理、HSPP処理、もしくは帯域制御のいずれかを行うように切り替える構成であってもよい。
【0085】
また、上述した1以上の実施の形態の機能を実現するためのプログラムおよびアプリケーションを、ネットワークまたは記憶媒体などを用いてシステムまたは装置に供給し、そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。
【0086】
また、1以上の機能を実現する回路(例えば、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field Programmable Gate Array))によって実現してもよい。
【0087】
以上、図面を参照しながら各種の実施形態について説明したが、本開示は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に相当し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施形態における各構成要素を任意に組み合わせてもよい。
【産業上の利用可能性】
【0088】
本開示は、音声信号に含まれるノイズを除去可能なノイズ除去装置、ノイズ除去方法、およびプログラムとして有用である。
として有用である。
【符号の説明】
【0089】
100…ラジオ受信装置
101…アンテナ
102…受信部
103…ノイズ処理部
104…ノイズ検出部
105…電波状態検出部
106…復調部
107…遅延補正部
108…HPSS処理部
109…スイッチ部
110…ノイズ判定AI部
111…マイコン部
112…オーディオアンプ
113…スピーカ