(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024113853
(43)【公開日】2024-08-23
(54)【発明の名称】音処理方法、音処理装置、および音処理プログラム
(51)【国際特許分類】
G10L 21/0388 20130101AFI20240816BHJP
G10L 25/30 20130101ALI20240816BHJP
【FI】
G10L21/0388 100
G10L25/30
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023019095
(22)【出願日】2023-02-10
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】秋山 仁志
(57)【要約】
【課題】物理的に正しい高域成分を生成する音処理方法を提供する。
【解決手段】音処理方法は、第1サンプリング周波数でサンプリングされた第1音信号を入力し、前記第1音信号の第1ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第2音信号を出力するように訓練された訓練モデルを用いて、前記第1ナイキスト周波数より高い周波数成分である第3音信号を生成し、前記第1音信号と前記第3音信号とを混合した第4音信号を生成する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
第1サンプリング周波数でサンプリングされた第1音信号を入力し、
前記第1音信号の第1ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第2音信号を出力するように訓練された訓練モデルを用いて、前記第1ナイキスト周波数より高い周波数成分である第3音信号を生成し、
前記第1音信号と前記第3音信号とを混合した第4音信号を生成する、
音処理方法。
【請求項2】
前記訓練モデルは、前記第2音信号として、前記第1音信号に前記折り返しノイズを付加した信号を出力するように訓練され、
前記第2音信号から前記折り返しノイズを分離し、
分離した前記折り返しノイズを用いて前記第3音信号を生成する、
請求項1に記載の音処理方法。
【請求項3】
前記第1音信号を前記第1サンプリング周波数より高い第2サンプリング周波数にアップサンプリングし、
前記分離した折り返しノイズを前記第2サンプリング周波数にアップサンプリングして前記第3音信号を生成し、
前記第2サンプリング周波数にアップサンプリングした前記第1音信号および前記第3音信号を混合して前記第4音信号を生成する、
請求項2に記載の音処理方法。
【請求項4】
前記第2サンプリング周波数にアップサンプリングした前記第1音信号のうち前記第1ナイキスト周波数より高い成分を除去するローパスフィルタ処理と、
前記第2サンプリング周波数にアップサンプリングした前記第3音信号のうち前記第1ナイキスト周波数以下の成分を除去するハイパスフィルタ処理と、
を行い、
前記ローパスフィルタ処理後の前記第1音信号および前記ハイパスフィルタ処理後の前記第3音信号を混合する、
請求項3に記載の音処理方法。
【請求項5】
前記分離は、スペクトルサブトラクション法に基づいて行う、
請求項2乃至請求項4のいずれか1項に記載の音処理方法。
【請求項6】
前記分離は、前記第2音信号を入力として前記分離した折り返しノイズを出力するように訓練された第2訓練モデルを用いて行う、
請求項2乃至請求項4のいずれか1項に記載の音処理方法。
【請求項7】
前記分離は、前記第1音信号および前記第2音信号の差分に基づいて行う、
請求項2乃至請求項4のいずれか1項に記載の音処理方法。
【請求項8】
第1サンプリング周波数でサンプリングされた第1音信号を入力し、
前記第1音信号の第1ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第2音信号を出力するように訓練された訓練モデルを用いて、前記第1ナイキスト周波数より高い周波数成分である第3音信号を生成し、
前記第1音信号と前記第3音信号とを混合した第4音信号を生成する、
プロセッサを備えた音処理装置。
【請求項9】
前記訓練モデルは、前記第2音信号として、前記第1音信号に前記折り返しノイズを付加した信号を出力するように訓練され、
前記プロセッサは、
前記第2音信号から前記折り返しノイズを分離し、
分離した前記折り返しノイズを用いて前記第3音信号を生成する、
請求項8に記載の音処理装置。
【請求項10】
前記プロセッサは、
前記第1音信号を前記第1サンプリング周波数より高い第2サンプリング周波数にアップサンプリングし、
前記分離した折り返しノイズを前記第2サンプリング周波数にアップサンプリングして前記第3音信号を生成し、
前記第2サンプリング周波数にアップサンプリングした前記第1音信号および前記第3音信号を混合して前記第4音信号を生成する、
請求項9に記載の音処理装置。
【請求項11】
前記プロセッサは、
前記第2サンプリング周波数にアップサンプリングした前記第1音信号のうち前記第1ナイキスト周波数より高い成分を除去するローパスフィルタ処理と、
前記第2サンプリング周波数にアップサンプリングした前記第3音信号のうち前記第1ナイキスト周波数以下の成分を除去するハイパスフィルタ処理と、
を行い、
前記ローパスフィルタ処理後の前記第1音信号および前記ハイパスフィルタ処理後の前記第3音信号を混合する、
請求項10に記載の音処理装置。
【請求項12】
前記分離は、スペクトルサブトラクション法に基づいて行う、
請求項9乃至請求項11のいずれか1項に記載の音処理装置。
【請求項13】
前記分離は、前記第2音信号を入力として前記分離した折り返しノイズを出力するように訓練された第2訓練モデルを用いて行う、
請求項9乃至請求項11のいずれか1項に記載の音処理装置。
【請求項14】
前記分離は、前記第1音信号および前記第2音信号の差分に基づいて行う、
請求項9乃至請求項11のいずれか1項に記載の音処理装置。
【請求項15】
第1サンプリング周波数でサンプリングされた第1音信号を入力し、
前記第1音信号の第1ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第2音信号を出力するように訓練された訓練モデルを用いて、前記第1ナイキスト周波数より高い周波数成分である第3音信号を生成し、
前記第1音信号と前記第3音信号とを混合した第4音信号を生成する、
処理を情報処理装置に実行させる音処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一実施形態は、音処理方法、音処理装置、および音処理プログラムに関する。
【背景技術】
【0002】
特許文献1の高域信号生成回路26は、低域抽出帯域通過フィルタ23から供給された複数の低域サブバンド信号と、高域サブバンドパワー推定回路25から供給された複数の高域サブバンドパワーの推定値とに基づいて、高域の信号成分である高域信号を生成し、高域通過フィルタ27に供給する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の帯域拡張手法は物理的に正しい高域成分を生成していない。
【0005】
本開示のひとつの態様は、物理的に正しい高域成分を生成する音処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係る音処理方法は、第1サンプリング周波数でサンプリングされた第1音信号を入力し、前記第1音信号の第1ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第2音信号を出力するように訓練された訓練モデルを用いて、前記第1ナイキスト周波数より高い周波数成分である第3音信号を生成し、前記第1音信号と前記第3音信号とを混合した第4音信号を生成する。
【発明の効果】
【0007】
本発明の一実施形態によれば、物理的に正しい高域成分を生成することができる。
【図面の簡単な説明】
【0008】
【
図1】音処理装置1の構成を示すブロック図である。
【
図2】プロセッサ11により実現される音処理プログラムの機能ブロック図である。
【
図3】音処理プログラムの動作を示すフローチャートである。
【
図4】訓練モデル101の訓練段階における音処理プログラムの機能ブロック図である。
【
図5】訓練モデル101の訓練段階における音処理プログラムの動作を示すフローチャートである。
【発明を実施するための形態】
【0009】
図1は、本発明の一実施形態に係る音処理装置1の構成を示すブロック図である。
【0010】
音処理装置1は、プロセッサ11、フラッシュメモリ12、RAM13、スピーカ14、ネットワークI/F15、表示器16、およびユーザI/F17を備えている。
【0011】
音処理装置1は、例えばスマートフォン、パーソナルコンピュータ、セットトップボックス、あるいはオーディオレシーバ等の情報処理装置である。音処理装置1は、例えばインターネットを介してサーバ等からコンテンツデータを受信する。音処理装置1は、受信したコンテンツデータをデコードして音信号を取り出す。コンテンツデータは、自装置のフラッシュメモリ12に記憶しておいてもよい。
【0012】
プロセッサ11は、CPU,DSP、あるいはSoC(System-on-a-Chip)等からなり、記憶媒体であるフラッシュメモリ12に記憶されているプログラムをRAM13に読み出して、所定の機能を実現する。例えば、フラッシュメモリ12は、音処理プログラムを記憶している。プロセッサ11は、当該プログラムにより、本実施形態の音処理方法を実行する。
【0013】
ネットワークI/F15は、例えばWi-Fi(登録商標)あるいはBluetooth(登録商標)等の規格に準じた無線通信部である。ネットワークI/F15は、無線通信によりサーバ等と通信し、コンテンツデータを受信する。
【0014】
プロセッサ11は、ネットワークI/F15を介して受信したコンテンツデータから音信号を取り出す。プロセッサ11は、取り出した音信号にフィルタ処理を施して、D/A変換器とアンプを備えたスピーカ14に出力する。スピーカ14は、プロセッサ11から出力された音信号に応じた音を放音する。
【0015】
表示器16は、例えばLCDまたはOLED等からなる。ユーザI/F17は、例えばタッチパネル、マウス、あるいはキーボード等からなる。
【0016】
図2は、プロセッサ11により実現される音処理プログラムの機能ブロック図である。
図3は、音処理プログラムの動作を示すフローチャートである。音処理プログラムは、訓練モデル101、ノイズ分離処理器102、アップサンプラ103、ハイパスフィルタ(HPF)104、ローパスフィルタ(LPF)105、および加算器106を有する。
【0017】
訓練モデル101は、実行段階として、第1サンプリング周波数Fs(例えば48kHz)でサンプリングされた第1音信号S1を入力し(S11)、第2音信号S2を生成する(S22)。訓練モデル101は、第1音信号S1の第1ナイキスト周波数Fs/2より高い周波数成分の折り返しノイズに基づく第2音信号S2を出力するように訓練されている。折り返しノイズに基づく第2音信号S2とは、例えば第1音信号S1に折り返しノイズを付加した信号である。また、分離処理は、第1音信号S1から第2音信号S2を減算した成分、すなわちこれら信号の差分でもよい。
【0018】
図4は、訓練モデル101の訓練段階における音処理プログラムの機能ブロック図である。
図5は、訓練モデル101の訓練段階における音処理プログラムの動作を示すフローチャートである。訓練段階における音処理プログラムは、訓練モデル101およびダウンサンプラ201を有する。
【0019】
訓練モデル101は、第1サンプリング周波数Fsでサンプリングされた訓練用の第1テスト信号T1を入力する(S21)。第1テスト信号T1は、どの様な信号であってもよいが、例えば音楽コンテンツの音信号である。
【0020】
訓練モデル101は、第1ナイキスト周波数Fs/2より高い周波数成分の折り返しノイズを付加した第2テスト信号T2を生成する(S22)。
【0021】
ダウンサンプラ201は、第2サンプリング周波数F’s(例えば96kHz)でサンプリングされた第3テスト信号T3を入力する(S23)。第3テスト信号T3は、第1テスト信号T1と同じ音楽コンテンツの音信号であるが、第2サンプリング周波数F’sでサンプリングされた音信号である。ダウンサンプラ201は、第3テスト信号T3を第1サンプリング周波数Fsにダウンサンプリングする。これにより、第3テスト信号T3のうち第1ナイキスト周波数Fs/2より高い周波数成分を折り返しノイズとした第3テスト信号T’3を生成する(S24)。
【0022】
音処理プログラムは、所定のアルゴリズムを用いて、訓練モデル101に、第2テスト信号T2と第3テスト信号T’3との誤差が最小となるように訓練させる。これにより、第2テスト信号T2は、第3テスト信号T’3に近づけられる。上述の様に、第3テスト信号T3および第1テスト信号T1は、同じ音楽コンテンツの音信号である。したがって、訓練モデル101は、物理的に正しい高域成分を折り返しノイズとして付与した音信号を生成することができる。言い換えると、訓練モデル101は、入力信号に対して第1ナイキスト周波数Fs/2より高い周波数成分の折り返しノイズを付加した出力信号を生成するフィルタとして機能する。
【0023】
なお、本実施形態において、訓練モデル101を訓練させるためのアルゴリズムは限定されず、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等の任意の機械訓練アルゴリズムを用いることができる。
【0024】
図3に戻り、音処理プログラムにおけるノイズ分離処理器102は、訓練モデル101の出力信号である第2音信号S2から折り返しノイズを分離する(S13)。ノイズ分離処理は、どの様な処理であってもよいが、例えばスペクトルサブトラクション法、ウィーナーフィルタリング法、あるいはモデルベース等の処理により行う。モデルベースの場合、ノイズ分離処理は、第2音信号S2を入力として分離した折り返しノイズを出力するように訓練された第2訓練モデルを用いて行う。
【0025】
これにより、ノイズ分離処理器102は、折り返しノイズ成分である第2音信号S’2を生成する。
【0026】
アップサンプラ103は、第1音信号S1および第2音信号S’2を入力し、それぞれの信号を、第1ナイキスト周波数Fs/2で対称の周波数特性となるように、第2サンプリング周波数F’s(96kHz)にアップサンプリングする(S14)。すなわちアップサンプラ103は、第1音信号S1をアップサンプリングした第1音信号S’1と、第2音信号S’2をアップサンプリングした第3音信号S3と、を生成する。これにより、折り返しノイズであった第2音信号S’2は、第1ナイキスト周波数Fs/2より高い周波数成分を含む第3音信号S3になる。
【0027】
HPF104は、第3音信号S3のうち第1ナイキスト周波数Fs/2以下の成分を除去するハイパスフィルタ処理を行う(S15)。LPF105は、第1音信号S’1のうち第1ナイキスト周波数Fs/2より高い成分を除去するローパスフィルタ処理を行う(S16)。ハイパスフィルタ処理後の第3音信号S3は、第1ナイキスト周波数Fs/2より高く第2ナイキスト周波数F’s/2以下の成分を含む。ローパスフィルタ処理後の第1音信号S’1は、第1ナイキスト周波数Fs/2以下の成分を含む。
【0028】
加算器106は、ハイパスフィルタ処理後の第3音信号S’3と、ローパスフィルタ処理後の第1音信号S’’1と、を混合して第4音信号S4を生成する(S17)。これにより、本実施形態の音処理プログラムは、第2ナイキスト周波数F’s/2以下の成分を含む第4音信号を生成することができる。
【0029】
本実施形態の音処理プログラムは、第1音信号S1の第1ナイキスト周波数Fs/2より高い周波数成分の折り返しノイズに基づく第2音信号S2を出力するように訓練された訓練モデル101を用いる。訓練モデル101は、同じ音楽コンテンツの折り返しノイズを含む音信号を用いて訓練されているため、物理的に正しい高域成分を折り返しノイズとして生成することができる。したがって、利用者は、物理的に正しい高域成分を含んだ高音質の音を聴くことができるという顧客体験を得ることができる。
【0030】
なお、上記実施形態では、第1サンプリング周波数Fsは48kHzであり、第2サンプリング周波数F’sは96kHzである例を示した。しかし、例えば第1サンプリング周波数Fsは44.1kHzであり、第2サンプリング周波数F’sは88.2kHzであってもよい。また、音処理プログラムは、第2サンプリング周波数Fs88.2kHzの第4音信号を96kHzにアップサンプリングしてもよい。あるいは、音処理プログラムは、第1サンプリング周波数Fs44.1kHzの音信号を48kHzにアップサンプリングし、48kHzの音信号を第1音信号S1として入力してもよい。
【0031】
また、入力する音信号は、任意の方式で圧縮エンコードされた音信号であってもよい。音処理プログラムは、圧縮エンコードされた音信号を入力した場合、非圧縮の音信号にデコードし、第1音信号S1として入力すればよい。また、訓練モデル101は、ある音楽コンテンツの圧縮エンコードされた音信号を入力して、同じ音楽コンテンツの折り返しノイズを含む非圧縮の音信号を用いて訓練されてもよい。この場合も、音処理プログラムは、物理的に正しい高域成分を折り返しノイズとして生成することができる。
【0032】
上記実施形態では、訓練モデル101は、第2音信号として、第1音信号に折り返しノイズを付加した信号を出力するように訓練されていた。しかし、訓練モデル101は、折り返しノイズのみを第2音信号として出力するように訓練されてもよい。この場合、ノイズ分離処理器102は不要である。また、訓練モデル101は、第1ナイキスト周波数Fs/2より高い周波数成分を有する第2サンプリング周波数F’sの音信号を出力するように訓練されてもよい。この場合、ノイズ分離処理器102およびHPF104は不要である。
【0033】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0034】
1 :音処理装置
11 :プロセッサ
12 :フラッシュメモリ
13 :RAM
14 :スピーカ
15 :ネットワークI/F
16 :表示器
17 :ユーザI/F
23 :低域抽出帯域通過フィルタ
25 :高域サブバンドパワー推定回路
26 :高域信号生成回路
27 :高域通過フィルタ
101 :訓練モデル
102 :ノイズ分離処理器
103 :アップサンプラ
104 :HPF
105 :LPF
106 :加算器