特開2024-113853 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2024-113853音処理方法、音処理装置、および音処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024113853

(43)【公開日】2024-08-23

(54)【発明の名称】音処理方法、音処理装置、および音処理プログラム

(51)【国際特許分類】

G10L 21/0388 20130101AFI20240816BHJP

G10L 25/30 20130101ALI20240816BHJP

【ＦＩ】

G10L21/0388 100

G10L25/30

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2023019095

(22)【出願日】2023-02-10

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000970

【氏名又は名称】弁理士法人楓国際特許事務所

(72)【発明者】

【氏名】秋山仁志

(57)【要約】

【課題】物理的に正しい高域成分を生成する音処理方法を提供する。
【解決手段】音処理方法は、第１サンプリング周波数でサンプリングされた第１音信号を入力し、前記第１音信号の第１ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第２音信号を出力するように訓練された訓練モデルを用いて、前記第１ナイキスト周波数より高い周波数成分である第３音信号を生成し、前記第１音信号と前記第３音信号とを混合した第４音信号を生成する。
【選択図】図２

【特許請求の範囲】

【請求項1】

第１サンプリング周波数でサンプリングされた第１音信号を入力し、
前記第１音信号の第１ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第２音信号を出力するように訓練された訓練モデルを用いて、前記第１ナイキスト周波数より高い周波数成分である第３音信号を生成し、
前記第１音信号と前記第３音信号とを混合した第４音信号を生成する、
音処理方法。

【請求項2】

前記訓練モデルは、前記第２音信号として、前記第１音信号に前記折り返しノイズを付加した信号を出力するように訓練され、
前記第２音信号から前記折り返しノイズを分離し、
分離した前記折り返しノイズを用いて前記第３音信号を生成する、
請求項１に記載の音処理方法。

【請求項3】

前記第１音信号を前記第１サンプリング周波数より高い第２サンプリング周波数にアップサンプリングし、
前記分離した折り返しノイズを前記第２サンプリング周波数にアップサンプリングして前記第３音信号を生成し、
前記第２サンプリング周波数にアップサンプリングした前記第１音信号および前記第３音信号を混合して前記第４音信号を生成する、
請求項２に記載の音処理方法。

【請求項4】

前記第２サンプリング周波数にアップサンプリングした前記第１音信号のうち前記第１ナイキスト周波数より高い成分を除去するローパスフィルタ処理と、
前記第２サンプリング周波数にアップサンプリングした前記第３音信号のうち前記第１ナイキスト周波数以下の成分を除去するハイパスフィルタ処理と、
を行い、
前記ローパスフィルタ処理後の前記第１音信号および前記ハイパスフィルタ処理後の前記第３音信号を混合する、
請求項３に記載の音処理方法。

【請求項5】

前記分離は、スペクトルサブトラクション法に基づいて行う、
請求項２乃至請求項４のいずれか１項に記載の音処理方法。

【請求項6】

前記分離は、前記第２音信号を入力として前記分離した折り返しノイズを出力するように訓練された第２訓練モデルを用いて行う、
請求項２乃至請求項４のいずれか１項に記載の音処理方法。

【請求項7】

前記分離は、前記第１音信号および前記第２音信号の差分に基づいて行う、
請求項２乃至請求項４のいずれか１項に記載の音処理方法。

【請求項8】

【請求項9】

前記訓練モデルは、前記第２音信号として、前記第１音信号に前記折り返しノイズを付加した信号を出力するように訓練され、
前記プロセッサは、
前記第２音信号から前記折り返しノイズを分離し、
分離した前記折り返しノイズを用いて前記第３音信号を生成する、
請求項８に記載の音処理装置。

【請求項10】

前記プロセッサは、
前記第１音信号を前記第１サンプリング周波数より高い第２サンプリング周波数にアップサンプリングし、
前記分離した折り返しノイズを前記第２サンプリング周波数にアップサンプリングして前記第３音信号を生成し、
前記第２サンプリング周波数にアップサンプリングした前記第１音信号および前記第３音信号を混合して前記第４音信号を生成する、
請求項９に記載の音処理装置。

【請求項11】

前記プロセッサは、
前記第２サンプリング周波数にアップサンプリングした前記第１音信号のうち前記第１ナイキスト周波数より高い成分を除去するローパスフィルタ処理と、
前記第２サンプリング周波数にアップサンプリングした前記第３音信号のうち前記第１ナイキスト周波数以下の成分を除去するハイパスフィルタ処理と、
を行い、
前記ローパスフィルタ処理後の前記第１音信号および前記ハイパスフィルタ処理後の前記第３音信号を混合する、
請求項１０に記載の音処理装置。

【請求項12】

前記分離は、スペクトルサブトラクション法に基づいて行う、
請求項９乃至請求項１１のいずれか１項に記載の音処理装置。

【請求項13】

前記分離は、前記第２音信号を入力として前記分離した折り返しノイズを出力するように訓練された第２訓練モデルを用いて行う、
請求項９乃至請求項１１のいずれか１項に記載の音処理装置。

【請求項14】

前記分離は、前記第１音信号および前記第２音信号の差分に基づいて行う、
請求項９乃至請求項１１のいずれか１項に記載の音処理装置。

【請求項15】

【発明の詳細な説明】

【技術分野】

【0001】

この発明の一実施形態は、音処理方法、音処理装置、および音処理プログラムに関する。

【背景技術】

【0002】

特許文献１の高域信号生成回路２６は、低域抽出帯域通過フィルタ２３から供給された複数の低域サブバンド信号と、高域サブバンドパワー推定回路２５から供給された複数の高域サブバンドパワーの推定値とに基づいて、高域の信号成分である高域信号を生成し、高域通過フィルタ２７に供給する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６４２５０９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来の帯域拡張手法は物理的に正しい高域成分を生成していない。

【0005】

本開示のひとつの態様は、物理的に正しい高域成分を生成する音処理方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一実施形態に係る音処理方法は、第１サンプリング周波数でサンプリングされた第１音信号を入力し、前記第１音信号の第１ナイキスト周波数より高い周波数成分の折り返しノイズに基づく第２音信号を出力するように訓練された訓練モデルを用いて、前記第１ナイキスト周波数より高い周波数成分である第３音信号を生成し、前記第１音信号と前記第３音信号とを混合した第４音信号を生成する。

【発明の効果】

【0007】

本発明の一実施形態によれば、物理的に正しい高域成分を生成することができる。

【図面の簡単な説明】

【0008】

【図1】音処理装置１の構成を示すブロック図である。

【図2】プロセッサ１１により実現される音処理プログラムの機能ブロック図である。

【図3】音処理プログラムの動作を示すフローチャートである。

【図4】訓練モデル１０１の訓練段階における音処理プログラムの機能ブロック図である。

【図5】訓練モデル１０１の訓練段階における音処理プログラムの動作を示すフローチャートである。

【発明を実施するための形態】

【0009】

図１は、本発明の一実施形態に係る音処理装置１の構成を示すブロック図である。

【0010】

音処理装置１は、プロセッサ１１、フラッシュメモリ１２、ＲＡＭ１３、スピーカ１４、ネットワークＩ／Ｆ１５、表示器１６、およびユーザＩ／Ｆ１７を備えている。

【0011】

音処理装置１は、例えばスマートフォン、パーソナルコンピュータ、セットトップボックス、あるいはオーディオレシーバ等の情報処理装置である。音処理装置１は、例えばインターネットを介してサーバ等からコンテンツデータを受信する。音処理装置１は、受信したコンテンツデータをデコードして音信号を取り出す。コンテンツデータは、自装置のフラッシュメモリ１２に記憶しておいてもよい。

【0012】

プロセッサ１１は、ＣＰＵ，ＤＳＰ、あるいはＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）等からなり、記憶媒体であるフラッシュメモリ１２に記憶されているプログラムをＲＡＭ１３に読み出して、所定の機能を実現する。例えば、フラッシュメモリ１２は、音処理プログラムを記憶している。プロセッサ１１は、当該プログラムにより、本実施形態の音処理方法を実行する。

【0013】

ネットワークＩ／Ｆ１５は、例えばＷｉ－Ｆｉ（登録商標）あるいはＢｌｕｅｔｏｏｔｈ（登録商標）等の規格に準じた無線通信部である。ネットワークＩ／Ｆ１５は、無線通信によりサーバ等と通信し、コンテンツデータを受信する。

【0014】

プロセッサ１１は、ネットワークＩ／Ｆ１５を介して受信したコンテンツデータから音信号を取り出す。プロセッサ１１は、取り出した音信号にフィルタ処理を施して、Ｄ／Ａ変換器とアンプを備えたスピーカ１４に出力する。スピーカ１４は、プロセッサ１１から出力された音信号に応じた音を放音する。

【0015】

表示器１６は、例えばＬＣＤまたはＯＬＥＤ等からなる。ユーザＩ／Ｆ１７は、例えばタッチパネル、マウス、あるいはキーボード等からなる。

【0016】

図２は、プロセッサ１１により実現される音処理プログラムの機能ブロック図である。図３は、音処理プログラムの動作を示すフローチャートである。音処理プログラムは、訓練モデル１０１、ノイズ分離処理器１０２、アップサンプラ１０３、ハイパスフィルタ（ＨＰＦ）１０４、ローパスフィルタ（ＬＰＦ）１０５、および加算器１０６を有する。

【0017】

訓練モデル１０１は、実行段階として、第１サンプリング周波数Ｆｓ（例えば４８ｋＨｚ）でサンプリングされた第１音信号Ｓ１を入力し（Ｓ１１）、第２音信号Ｓ２を生成する（Ｓ２２）。訓練モデル１０１は、第１音信号Ｓ１の第１ナイキスト周波数Ｆｓ／２より高い周波数成分の折り返しノイズに基づく第２音信号Ｓ２を出力するように訓練されている。折り返しノイズに基づく第２音信号Ｓ２とは、例えば第１音信号Ｓ１に折り返しノイズを付加した信号である。また、分離処理は、第１音信号Ｓ１から第２音信号Ｓ２を減算した成分、すなわちこれら信号の差分でもよい。

【0018】

図４は、訓練モデル１０１の訓練段階における音処理プログラムの機能ブロック図である。図５は、訓練モデル１０１の訓練段階における音処理プログラムの動作を示すフローチャートである。訓練段階における音処理プログラムは、訓練モデル１０１およびダウンサンプラ２０１を有する。

【0019】

訓練モデル１０１は、第１サンプリング周波数Ｆｓでサンプリングされた訓練用の第１テスト信号Ｔ１を入力する（Ｓ２１）。第１テスト信号Ｔ１は、どの様な信号であってもよいが、例えば音楽コンテンツの音信号である。

【0020】

訓練モデル１０１は、第１ナイキスト周波数Ｆｓ／２より高い周波数成分の折り返しノイズを付加した第２テスト信号Ｔ２を生成する（Ｓ２２）。

【0021】

ダウンサンプラ２０１は、第２サンプリング周波数Ｆ’ｓ（例えば９６ｋＨｚ）でサンプリングされた第３テスト信号Ｔ３を入力する（Ｓ２３）。第３テスト信号Ｔ３は、第１テスト信号Ｔ１と同じ音楽コンテンツの音信号であるが、第２サンプリング周波数Ｆ’ｓでサンプリングされた音信号である。ダウンサンプラ２０１は、第３テスト信号Ｔ３を第１サンプリング周波数Ｆｓにダウンサンプリングする。これにより、第３テスト信号Ｔ３のうち第１ナイキスト周波数Ｆｓ／２より高い周波数成分を折り返しノイズとした第３テスト信号Ｔ’３を生成する（Ｓ２４）。

【0022】

音処理プログラムは、所定のアルゴリズムを用いて、訓練モデル１０１に、第２テスト信号Ｔ２と第３テスト信号Ｔ’３との誤差が最小となるように訓練させる。これにより、第２テスト信号Ｔ２は、第３テスト信号Ｔ’３に近づけられる。上述の様に、第３テスト信号Ｔ３および第１テスト信号Ｔ１は、同じ音楽コンテンツの音信号である。したがって、訓練モデル１０１は、物理的に正しい高域成分を折り返しノイズとして付与した音信号を生成することができる。言い換えると、訓練モデル１０１は、入力信号に対して第１ナイキスト周波数Ｆｓ／２より高い周波数成分の折り返しノイズを付加した出力信号を生成するフィルタとして機能する。

【0023】

なお、本実施形態において、訓練モデル１０１を訓練させるためのアルゴリズムは限定されず、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）やＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）等の任意の機械訓練アルゴリズムを用いることができる。

【0024】

図３に戻り、音処理プログラムにおけるノイズ分離処理器１０２は、訓練モデル１０１の出力信号である第２音信号Ｓ２から折り返しノイズを分離する（Ｓ１３）。ノイズ分離処理は、どの様な処理であってもよいが、例えばスペクトルサブトラクション法、ウィーナーフィルタリング法、あるいはモデルベース等の処理により行う。モデルベースの場合、ノイズ分離処理は、第２音信号Ｓ２を入力として分離した折り返しノイズを出力するように訓練された第２訓練モデルを用いて行う。

【0025】

これにより、ノイズ分離処理器１０２は、折り返しノイズ成分である第２音信号Ｓ’２を生成する。

【0026】

アップサンプラ１０３は、第１音信号Ｓ１および第２音信号Ｓ’２を入力し、それぞれの信号を、第１ナイキスト周波数Ｆｓ／２で対称の周波数特性となるように、第２サンプリング周波数Ｆ’ｓ（９６ｋＨｚ）にアップサンプリングする（Ｓ１４）。すなわちアップサンプラ１０３は、第１音信号Ｓ１をアップサンプリングした第１音信号Ｓ’１と、第２音信号Ｓ’２をアップサンプリングした第３音信号Ｓ３と、を生成する。これにより、折り返しノイズであった第２音信号Ｓ’２は、第１ナイキスト周波数Ｆｓ／２より高い周波数成分を含む第３音信号Ｓ３になる。

【0027】

ＨＰＦ１０４は、第３音信号Ｓ３のうち第１ナイキスト周波数Ｆｓ／２以下の成分を除去するハイパスフィルタ処理を行う（Ｓ１５）。ＬＰＦ１０５は、第１音信号Ｓ’１のうち第１ナイキスト周波数Ｆｓ／２より高い成分を除去するローパスフィルタ処理を行う（Ｓ１６）。ハイパスフィルタ処理後の第３音信号Ｓ３は、第１ナイキスト周波数Ｆｓ／２より高く第２ナイキスト周波数Ｆ’ｓ／２以下の成分を含む。ローパスフィルタ処理後の第１音信号Ｓ’１は、第１ナイキスト周波数Ｆｓ／２以下の成分を含む。

【0028】

加算器１０６は、ハイパスフィルタ処理後の第３音信号Ｓ’３と、ローパスフィルタ処理後の第１音信号Ｓ’’１と、を混合して第４音信号Ｓ４を生成する（Ｓ１７）。これにより、本実施形態の音処理プログラムは、第２ナイキスト周波数Ｆ’ｓ／２以下の成分を含む第４音信号を生成することができる。

【0029】

本実施形態の音処理プログラムは、第１音信号Ｓ１の第１ナイキスト周波数Ｆｓ／２より高い周波数成分の折り返しノイズに基づく第２音信号Ｓ２を出力するように訓練された訓練モデル１０１を用いる。訓練モデル１０１は、同じ音楽コンテンツの折り返しノイズを含む音信号を用いて訓練されているため、物理的に正しい高域成分を折り返しノイズとして生成することができる。したがって、利用者は、物理的に正しい高域成分を含んだ高音質の音を聴くことができるという顧客体験を得ることができる。

【0030】

なお、上記実施形態では、第１サンプリング周波数Ｆｓは４８ｋＨｚであり、第２サンプリング周波数Ｆ’ｓは９６ｋＨｚである例を示した。しかし、例えば第１サンプリング周波数Ｆｓは４４．１ｋＨｚであり、第２サンプリング周波数Ｆ’ｓは８８．２ｋＨｚであってもよい。また、音処理プログラムは、第２サンプリング周波数Ｆｓ８８．２ｋＨｚの第４音信号を９６ｋＨｚにアップサンプリングしてもよい。あるいは、音処理プログラムは、第１サンプリング周波数Ｆｓ４４．１ｋＨｚの音信号を４８ｋＨｚにアップサンプリングし、４８ｋＨｚの音信号を第１音信号Ｓ１として入力してもよい。

【0031】

また、入力する音信号は、任意の方式で圧縮エンコードされた音信号であってもよい。音処理プログラムは、圧縮エンコードされた音信号を入力した場合、非圧縮の音信号にデコードし、第１音信号Ｓ１として入力すればよい。また、訓練モデル１０１は、ある音楽コンテンツの圧縮エンコードされた音信号を入力して、同じ音楽コンテンツの折り返しノイズを含む非圧縮の音信号を用いて訓練されてもよい。この場合も、音処理プログラムは、物理的に正しい高域成分を折り返しノイズとして生成することができる。

【0032】

上記実施形態では、訓練モデル１０１は、第２音信号として、第１音信号に折り返しノイズを付加した信号を出力するように訓練されていた。しかし、訓練モデル１０１は、折り返しノイズのみを第２音信号として出力するように訓練されてもよい。この場合、ノイズ分離処理器１０２は不要である。また、訓練モデル１０１は、第１ナイキスト周波数Ｆｓ／２より高い周波数成分を有する第２サンプリング周波数Ｆ’ｓの音信号を出力するように訓練されてもよい。この場合、ノイズ分離処理器１０２およびＨＰＦ１０４は不要である。

【0033】

本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

【符号の説明】

【0034】

１：音処理装置
１１：プロセッサ
１２：フラッシュメモリ
１３：ＲＡＭ
１４：スピーカ
１５：ネットワークＩ／Ｆ
１６：表示器
１７：ユーザＩ／Ｆ
２３：低域抽出帯域通過フィルタ
２５：高域サブバンドパワー推定回路
２６：高域信号生成回路
２７：高域通過フィルタ
１０１：訓練モデル
１０２：ノイズ分離処理器
１０３：アップサンプラ
１０４：ＨＰＦ
１０５：ＬＰＦ
１０６：加算器

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版