IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2023-183660パラメータ推定方法、音処理装置、および音処理プログラム
<>
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図1
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図2
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図3
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図4
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図5
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図6
  • 特開-パラメータ推定方法、音処理装置、および音処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023183660
(43)【公開日】2023-12-28
(54)【発明の名称】パラメータ推定方法、音処理装置、および音処理プログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20231221BHJP
【FI】
H04R3/00
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022097294
(22)【出願日】2022-06-16
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】山川 颯人
(72)【発明者】
【氏名】高橋 祐
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220EE25
(57)【要約】      (修正有)
【課題】位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めるパラメータ推定方法、音処理装置及び音処理プログラムを提供する。
【解決手段】パラメータ推定方法は、エンコーダを用いて混合される第1音信号s1及び第2音信号s2を処理して、前記音信号の特徴量に対応する第1代替表現z1及び第2代替表現z2を生成する。エンコーダは、前記代替表現を混合して得られる混合代替表現(z1+z2)が、混合音信号の特徴量に対応するよう訓練されており、目標特性を有する参照混合音を示す参照データに対応する参照混合代替表現zt mixを用いて、第1目標代替表現z1t及び第2目標代替表現z2tとを選択し、これを用いて第1音信号に対する信号処理に用いる第1パラメータP1を推定し、第2代替表現と第2目標代替表現を用いて、第2音信号に対する信号処理に用いる第2パラメータP2を推定する。
【選択図】図5
【特許請求の範囲】
【請求項1】
信号処理され混合される第1音信号と第2音信号を受け取り、
エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、
目標特性を有する参照混合音を示す参照データを受け付け、
前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、
前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、
前記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する、
コンピュータで実現されるパラメータ推定方法。
【請求項2】
前記参照データは、前記目標特性を有する参照混合音信号であり、
前記選択は、
前記エンコーダを用いて、前記目標とする参照混合音信号を処理して、前記参照混合代替表現を生成すること、および
前記生成された参照混合代替表現を用いて、前記第1目標代替表現と前記第2目標代替表現とを選択すること、を含む、
請求項1に記載のパラメータ推定方法。
【請求項3】
前記参照データは、前記目標特性を有する参照混合音信号を示す識別情報であり、
前記選択は、
複数の参照混合代替表現を記憶したデータベースより、前記識別情報に対応した前記参照混合代替表現を獲得すること、および
前記獲得された参照混合代替表現を用いて、前記第1目標代替表現と前記第2目標代替表現とを選択すること、を含む、
請求項1に記載のパラメータ推定方法。
【請求項4】
前記推定は、前記第1代替表現と前記第1目標代替表現との差が小さくなるように前記第1パラメータと、前記第2代替表現と前記第2目標代替表現との差が最小となるような前記第2パラメータと、を推定する、
請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
【請求項5】
前記目標代替表現の選択は、前記第1目標代替表現および前記第2目標代替表現の和と、前記参照混合代替表現との差が小さくなるように前記第1目標代替表現および前記第2目標代替表現を選択する、
請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
【請求項6】
前記目標代替表現の選択は、前記第1代替表現と前記第1目標代替表現との差、前記第2代替表現と前記第2目標代替表現との差、ならびに前記第1目標代替表現および前記第2目標代替表現の和と前記参照混合代替表現との差、の重み付け和がちいさくなるように前記第1目標代替表現および前記第2目標代替表現を選択する、
請求項5に記載のパラメータ推定方法。
【請求項7】
前記特徴量はメルスペクトル包絡である、
請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
【請求項8】
前記信号処理はイコライザを含む、
請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
【請求項9】
前記信号処理はコンプレッサを含む、
請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
【請求項10】
前記エンコーダは、エンコードを行う入力層、およびデコードを行う出力層を含み、
前記エンコーダは、前記出力層で前記混合代替表現をデコードした特徴量が、前記混合音信号の特徴量に対応するように、前記入力層および前記出力層が訓練される、
請求項1乃至請求項3のいずれか1項に記載のパラメータ推定方法。
【請求項11】
信号処理され混合される第1音信号と第2音信号を受け取り、前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成するエンコーダであって、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されているエンコーダと、
目標特性を有する参照混合音を示す参照データを受け付ける目標受付部と、
前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択する目標代替表現選択部と、
前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、前記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する、推定部と、
を備えた音処理装置。
【請求項12】
信号処理され混合される第1音信号と第2音信号を受け取り、
エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、
目標特性を有する参照混合音を示す参照データを受け付け、
前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、
前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、
前記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する、
処理をコンピュータに実行させる音処理プログラム。
【請求項13】
第1音信号および第2音信号を入力して得られる第1代替表現および第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するエンコーダを用いて、
目標とする音信号の特徴量に対応する代替表現と前記混合代替表現との差分から、
前記第1音信号と前記第2音信号それぞれに対するエフェクトのパラメータを推定する、
コンピュータで実現されるパラメータ推定方法。
【請求項14】
前記推定されたエフェクトのパラメータを用いて、前記第1音信号と前記第2音信号に音処理を行う、請求項13に記載のパラメータ推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一実施形態は、パラメータ推定方法、音処理装置、および音処理プログラムに関する。
【背景技術】
【0002】
非特許文献1には、音信号の振幅スペクトルを目標特性に近づけるためのイコライザのパラメータを調整する構成が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Ozone 9 Match EQ,[令和4年4月18日検索],インターネット<URL:https://www.izotope.com/en/products/ozone/features/match-eq.html>
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の構成は、複数の音信号を混合した後の振幅スペクトルを目標特性に近づけるように、混合前の複数の音信号のそれぞれの振幅スペクトルを調整するものではない。
【0005】
また、仮に混合後の音信号の特性を目標特性に近づけるように、混合前の複数の音信号のそれぞれの振幅スペクトルを調整するとしても、振幅スペクトルには位相情報が欠落している。そのため、複数の音信号を混合した場合の特性と、複数の音信号のそれぞれの振幅スペクトルを求めた後に混合した特性は、必ずしも対応しない。
【0006】
以上の事情を考慮して、本開示のひとつの態様は、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めるパラメータ推定方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
パラメータ推定方法は、信号処理され混合される第1音信号と第2音信号を受け取り、エンコーダを用いて前記第1音信号と前記第2音信号を処理して、前記第1音信号の特徴量に対応する第1代替表現と前記第2音信号の特徴量に対応する第2代替表現とを生成し、前記エンコーダは、前記第1代替表現および前記第2代替表現を混合して得られる混合代替表現が、前記第1音信号および前記第2音信号を混合した混合音信号の特徴量に対応するよう訓練されており、目標特性を有する参照混合音を示す参照データを受け付け、前記参照データに対応する参照混合代替表現を用いて、第1目標代替表現と第2目標代替表現とを選択し、前記第1代替表現と前記第1目標代替表現を用いて、前記第1音信号に対する前記信号処理に用いる第1パラメータを推定し、記第2代替表現と前記第2目標代替表現を用いて、前記第2音信号に対する前記信号処理に用いる第2パラメータを推定する。
【発明の効果】
【0008】
音処理装置は、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。
【図面の簡単な説明】
【0009】
図1】オーディオミキサ1の構成を示すブロック図である。
図2】信号処理の機能的な構成を示すブロック図である。
図3】入力チャンネル302、ステレオバス303、およびMIXバス304の機能的な構成を示すブロック図である。
図4】オーディオミキサ1の操作パネルの模式図である。
図5】パラメータの推定処理を行うCPU206の機能的構成を示すブロック図である。
図6】エンコーダ50の訓練段階における機能的構成を示すブロック図である。
図7】実行段階の動作を示す音処理方法のフローチャートである。
【発明を実施するための形態】
【0010】
図1は、オーディオミキサ1の構成を示すブロック図である。オーディオミキサ1は、本発明の音処理装置の一例である。オーディオミキサ1は、表示器201、操作部202、オーディオI/O203、信号処理部204、ネットワークI/F205、CPU206、フラッシュメモリ207、およびRAM208を備えている。
【0011】
これら構成は、バス171を介して接続されている。また、オーディオI/O203および信号処理部204は、デジタルの音信号を伝送するための波形バス172にも接続されている。
【0012】
CPU206は、オーディオミキサ1の動作を制御する制御部である。CPU206は、記憶媒体であるフラッシュメモリ207に記憶された所定のプログラム(音処理プログラム)をRAM208に読み出して実行することにより各種の動作を行なう。なお、プログラムは、サーバに記憶されていてもよい。CPU206は、ネットワークを介してサーバからプログラムをダウンロードし、実行してもよい。
【0013】
信号処理部204は、混合処理等の各種の音処理を行なうためのDSPから構成される。信号処理部204は、ネットワークI/F205またはオーディオI/O203を介して受信した音信号に、エフェクト処理、レベル調整処理、および混合処理等の信号処理を施す。信号処理部204は、信号処理後のデジタルの音信号をオーディオI/O203またはネットワークI/F205を介して出力する。
【0014】
図2は、信号処理部204、オーディオI/O203(またはネットワークI/F205)、およびCPU206で行われる信号処理の機能的な構成を示すブロック図である。図2に示すように、信号処理は、機能的に、入力パッチ301、入力チャンネル302、ステレオバス303、MIXバス304、出力チャンネル305、および出力パッチ306によって行う。
【0015】
入力パッチ301は、マイク、楽器、または楽器用アンプ等から音信号を受け付ける。入力パッチ301は、受け付けた音信号を入力チャンネル302の各チャンネルに供給する。図3は、入力チャンネルの機能的構成を示すブロック図である。入力チャンネル302の各チャンネルは、入力パッチ301から音信号を受け付けて、信号処理を施す。
【0016】
図3は、入力チャンネル302、ステレオバス303、およびMIXバス304の機能的な構成を示すブロック図である。例えば、第1入力チャンネルおよび第2入力チャンネルは、それぞれ入力信号処理部350、FADER351、PAN352、およびセンドレベル調整回路353を備えている。図示しない他の入力チャンネルも同じ構成を備えている。
【0017】
入力信号処理部350は、イコライザまたはコンプレッサ等のエフェクト処理あるいはレベル調整処理等を施す。FADER351は、各入力チャンネルのゲインを調整する。
【0018】
図4は、オーディオミキサ1の操作パネルの模式図である。操作パネルには、入力チャンネル毎に対応するチャンネルストリップ61を有している。チャンネルストリップ61は、チャンネル毎に、スライダおよび摘まみを縦に並べて配置している。スライダは、図3のFADER351に対応する。オーディオミキサ1の利用者は、スライダの位置を変更することで、対応する入力チャンネルのゲインを調整する。
【0019】
摘まみは、例えば図3のPAN352に対応する。オーディオミキサ1の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、ステレオの左右のレベルバランスを調整する。PAN352で分配された音信号は、ステレオバス303に送出される。あるいは、摘まみは、例えば図3のセンドレベル調整回路353に対応する。オーディオミキサ1の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、MIXバス304への送り量を調整する。あるいは、スライダは、MIXバス304に対する送り量を調整する操作部として機能することもできる。この場合、スライダは、図3のセンドレベル調整回路353に対応する。
【0020】
ステレオバス303は、ホールや会議室におけるメインスピーカに対応するバスである。ステレオバス303は、各入力チャンネルから送出される音信号を混合する。ステレオバス303は、その混合音信号を、出力チャンネル305に出力する。
【0021】
MIXバス304は、1または複数の入力チャンネルの音信号の混合音信号をモニタスピーカまたはモニタ用ヘッドフォン等の特定の音響機器に送出するためのバスである。MIXバス304は、混合音信号を、出力チャンネル305に出力する。
【0022】
出力チャンネル305は、ステレオバス303およびMIXバス304の出力した音信号にイコライザまたはコンプレッサ等のエフェクト処理、およびレベル調整処理等を施す。出力チャンネル305は、信号処理を施した後の混合音信号を、出力パッチ306に出力する。
【0023】
出力パッチ306は、出力チャンネルの各チャンネルを、アナログ出力ポートまたはデジタル出力ポートにおける複数のポートのうちいずれか1つのポートに割り当てる。これにより、信号処理を施された後の音信号が、オーディオI/O203またはネットワークI/F205に供給される。
【0024】
本実施形態のオーディオミキサ1は、混合後の音信号が目標特性に近づく様に、複数の入力チャンネルにおけるそれぞれのエフェクト処理およびレベル調整処理等の音処理のパラメータを推定する。
【0025】
図5は、パラメータの推定処理を行うCPU206の機能的構成を示すブロック図である。
【0026】
CPU206は、図5に示す様に、エンコーダ50、目標代替表現選択部55、推定部57、および目標受付部85を備えている。また、フラッシュメモリ207は、目標代替表現データベース(zt DB)59を有する。
【0027】
エンコーダ50は、ニューラルネットワークを用いたデータ圧縮アルゴリズムである。エンコーダ50は、あるデータを入力し、該入力したデータを別の圧縮データ(代替表現)として出力する。
【0028】
代替表現は、音信号の特徴量を表す。代替表現は、エンコーダ50の訓練結果によって得られる音響特徴空間における値である。本実施形態における代替表現は、第1代替表現および第2代替表現を含む。エンコーダ50は、第1音信号の第1代替表現および第2音信号の第2代替表現を混合して得られる結果と、第1音信号および第2音信号を混合して得られる結果の特徴量と、が対応するように訓練される。
【0029】
本実施形態では、エンコーダ50は、第1入力チャンネルの第1音信号s1を入力し、入力した第1音信号s1の特徴量に対応する第1代替表現z1を出力する。また、エンコーダ50は、第2入力チャンネルの第2音信号s2を入力し、入力した第2音信号s2の特徴量に対応する第2代替表現z2を出力する。エンコーダ50は、第1代替表現z1および第2代替表現z2を混合して得られる第1混合代替表現(z1+z2)が、第1音信号s1および第2音信号s2を混合した第1混合音信号(s1+s2)の特徴量に対応するように訓練される。
【0030】
図6は、エンコーダ50の訓練段階における機能的構成を示すブロック図である。エンコーダ50は、訓練段階において入力層501および出力層502を有する。入力層501は、第1音信号s1および第2音信号s2を入力し、第1音信号s1の特徴量に対応する第1代替表現z1および第2音信号s2の特徴量に対応する第2代替表現z2を出力する。出力層502は、第1代替表現z1および第2代替表現z2を入力してデコードし、第1出力音信号out1および第2出力音信号out2を出力する。
【0031】
エンコーダ50は、第1の訓練として、第1出力音信号out1および第2出力音信号out2がそれぞれ第1音信号s1および第2音信号s2に近づく様に入力層501および出力層502を訓練する。
【0032】
また、出力層502は、第1代替表現z1および第2代替表現z2を混合した第1混合代替表現(z1+z2)を入力してデコードし、混合出力音信号out mixを出力する。エンコーダ50は、第2の訓練として、混合出力音信号out mixが第1音信号s1および第2音信号s2を混合した混合音信号(s1+s2)に近づく様に入力層501および出力層502を訓練する。
【0033】
以上の様な第1の訓練および第2の訓練を行うことにより、第1代替表現z1および第2代替表現z2を混合して得られる第1混合代替表現(z1+z2)は、第1音信号s1および第2音信号s2を混合した第1混合音信号(s1+s2)の特徴量を表す代替表現z(s1+s2)に対応する。
【0034】
図7は、実行段階の動作を示す音処理方法のフローチャートである。エンコーダ50は、第1音信号s1および第2音信号s2を入力する(S11)。第1音信号s1および第2音信号s2は、それぞれ図3に示す第1入力チャンネルおよび第2入力チャンネルからエンコーダ50に入力される。また、目標受付部85は、目標特性を有する参照混合音を示す参照データとして、目標特性を有する第2混合音信号st mixを受け付け(S12)、エンコーダ50に入力する。第2混合音信号st mixは、本発明の参照混合音信号に対応する。
【0035】
目標とする第2混合音信号st mixは、例えば、特定の曲のオーディオコンテンツ(既存の混合音信号)を取得し、取得したオーディオコンテンツから算出できる。また、第2混合音信号st mixは、複数の曲の音信号を蓄積したデータベースから、特定の曲を選択することで取得してもよい。この場合、オーディオミキサ1の利用者は、操作部202を操作して曲名を入力する。目標受付部85は、入力された曲名に基づいてオーディオコンテンツの第2混合音信号を取得できる。また、受付部51は、出力チャンネル305の出力する混合音信号に基づいて曲を特定し、特定した曲に類似する(例えば、同じジャンルの)曲のオーディオコンテンツを取得し、その第2混合音信号を取得してもよい。この場合、音信号と曲名の関係を機械学習した訓練済モデルを用いて、入力した混合音信号から対応する曲名を推定できる。
【0036】
なお、目標の第2混合音信号は、オーディオコンテンツの全期間ではなく、そのオーディオコンテンツの一部の、調整したい音源(楽器、歌手など)の音が全て含まれている特定期間(例えば30秒程度)の混合音信号である。利用者は、特定の曲のオーディオコンテンツの任意の区間や、過去のライブイベントのマルチトラック録音データのうち任意の区間を指定する。また、利用者は、リハーサル時に入力された入力音信号の任意の区間や、ライブイベントのその時点までに入力された入力音信号の任意の区間を指定してもよい。
【0037】
目標受付部85は、曲毎の第2混合音信号を予め取得してフラッシュメモリ207に記憶してもよい。あるいは、曲毎の第2混合音信号は、サーバに記憶されていてもよい。目標受付部85は、入力した曲名(あるいは音信号から特定した曲名)に対応する第2混合音信号をフラッシュメモリ207またはサーバ等から取得してもよい。
【0038】
また、第2混合音信号は、熟練のオーディオミキサ1の利用者(PAエンジニア)が理想的なパラメータ調整を行った場合における、メインスピーカへの出力音信号から予め求めてもよい。また、第2混合音信号は、熟練のレコーディングエンジニアが編集作業を行った後のオーディオコンテンツから予め求めてもよい。オーディオミキサ1の利用者は、操作部202を操作してPAエンジニア名またはレコーディングエンジニア名を入力する。目標受付部85は、PAエンジニア名またはレコーディングエンジニア名を受け付けて、対応する第2混合音信号を取得する。
【0039】
また、目標受付部85は、予め複数のオーディオコンテンツを取得し、取得した複数のオーディオコンテンツに基づいて第2混合音信号を求めてもよい。例えば、第2混合音信号は、複数のオーディオコンテンツで求められる複数の第2混合音信号の平均値であってもよい。この様な平均値は、曲毎、ジャンル毎、あるいはエンジニア毎に求めることができる。
【0040】
あるいは、目標受付部85は、ある訓練済モデルにより求めてもよい。目標受付部85は、複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する第2混合音信号との関係を機械学習させて訓練済モデルを構築する。また、目標受付部85は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する第2混合音信号を推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する第2混合音信号を推定できる訓練済モデルを構築してもよい。オーディオミキサ1の利用者は、操作部202を操作してジャンル名または曲名を入力する。目標受付部85は、ジャンル名または曲名を受け付けて、対応する第2混合音信号を受け付ける。
【0041】
エンコーダ50は、第1音信号s1の特徴量に対応する第1代替表現z1、第2音信号s2の特徴量に対応する第2代替表現z2、および第2混合音信号st mixの特徴量に対応する第2混合代替表現zt mixを求める(S13)。第2混合代替表現zt mixは、本発明の参照混合代替表現に対応する。
【0042】
次に、どのような音信号を混合すれば目標特性を有する第2混合音信号st mixになるかを代替表現として求めるために、目標代替表現選択部55は、第2混合代替表現zt mixを用いて第1目標代替表現z1tと第2目標代替表現z2tを選択する(S14)。具体的には、目標代替表現選択部55は、まず、目標代替表現データベース59から、第1代替表現z1および第2代替表現z2に最も近い第1目標代替表現z1tと第2目標代替表現z2tを初期値として選択する。次に、目標代替表現選択部55は、目標代替表現データベース59から、第1目標代替表現z1tと第2目標代替表現z2tの和が第2混合代替表現zt mixに一致する様に、後述する所定の手法を用いて第1目標代替表現z1tと第2目標代替表現z2tの選択を繰り返す。
【0043】
第1代替表現z1および第2代替表現z2は、それぞれエフェクト処理が施される前の第1音信号s1および第2音信号s2の特徴量に対応する。また、第2混合代替表現zt mixは、第2混合音信号st mixの特徴量に対応する。このとき第2混合代替表現zt mixは、別の表現をすると、第1音信号s1および第2音信号s2にエフェクト処理を施した後に混合する音信号の目標となる特徴量でもある。したがって目標代替表現選択部55が第2混合代替表現zt mixを用いて第1目標代替表現z1tと第2目標代替表現z2tを選択することは、エフェクト処理を施した音信号がそれぞれどのような特徴量を持っていれば良いかという点を考慮して、第1目標代替表現z1tと第2目標代替表現z2tを選択することとなる。
【0044】
目標代替表現選択部55は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第1目標代替表現z1tおよび第2目標代替表現z2tの和(z1t+z2t)と、第2混合代替表現zt mixとの差(|z1t+z2t-zt mix|)が最小になるまで、目標代替表現データベース59から、第1目標代替表現z1tと第2目標代替表現z2tの選択を繰り返す(s15:No)。目標代替表現選択部55は、上記の差(|z1t+z2t-zt mix|)が最小となった場合(S15:Yes)、第1目標代替表現z1tと第2目標代替表現z2tを決定する(S16)。
【0045】
なお、目標代替表現選択部55は、上記の差(|z1t+z2t-zt mix|)が最小となる第1目標代替表現z1tと第2目標代替表現z2tが複数求められる場合、以下の処理を行ってもよい。
【0046】
目標代替表現選択部55は、第1代替表現z1および第1目標代替表現z1tの差(|z1-z1t|)、第2代替表現z2および第2目標代替表現z2tの差(|z2-z2t|)、ならびに第1目標代替表現z1tおよび第2目標代替表現z2tの和(|z1t+z2t|)と第2混合代替表現zt mixとの差(|z1t+z2t-zt mix|)の重み付け和(w1・|z1-z1t|+w2・|z2-z2t|+λ・|z1t+z2t-zt mix|)が最小となるような第1目標代替表現z1tおよび第2目標代替表現z2tを選択する。
【0047】
これにより、目標代替表現選択部55は、第1目標代替表現z1tと第2目標代替表現z2tを一意に決定することができる。この場合、例えば第1チャンネルがボーカルである場合に、利用者は、係数w1を大きく設定すればボーカルに重みを付けることができ、ボーカルの音信号に施すエフェクト処理のパラメータを大きく変更することができる。
【0048】
なお、目標代替表現選択部55は、予め、上記の差(|z1t+z2t-zt mix|)、または重み付け和(w1・|z1-z1t|+w2・|z2-z2t|+λ・|z1t+z2t-zt mix|)が最小となる様に、第1目標代替表現z1t、第2目標代替表現z2t、および第2混合代替表現zt mixの関係を機械学習した訓練済モデルを用いて第1目標代替表現z1tおよび第2目標代替表現z2tを求めてもよい。
【0049】
そして、推定部57は、第1音信号s1に対して音処理を行った後の第1エフェクト信号s1eの特徴量である第1エフェクト代替表現z1eと、第1目標代替表現z1tと、を用いて第1音信号s1に対する音処理の第1パラメータP1を推定する。また、推定部57は、第2音信号s2に対して音処理を行った後の第2エフェクト信号s2eの特徴量である第2エフェクト代替表現z2eと、第2目標代替表現z2tと、を用いて第2音信号s2に対する音処理の第2パラメータP2を推定する。第1パラメータP1は、図3に示す第1入力チャンネルの入力信号処理部350の用いるパラメータである。第2パラメータP2は、図3に示す第2入力チャンネルの入力信号処理部350の用いるパラメータである。
【0050】
具体的には、推定部57は、まず、第1パラメータP1の初期値P1 initを決定し(S17)、初期値P1 initを用いて、第1入力チャンネルの入力信号処理部350で第1音信号s1に音処理を行い、第1エフェクト信号s1eを得る(S18)。推定部57は、第1エフェクト信号s1eをエンコーダ50で変換し、第1エフェクト代替表現z1eを求める(S19)。
【0051】
そして、推定部57は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第1目標代替表現z1tと第1エフェクト代替表現z1eの差(|z1t-z1e|)が最小になるまで、第1パラメータP1の更新を繰り返す(s20:No→S21)。推定部57は、上記の差(|z1t-z1e|)が最小となった場合(S20:Yes)、第1パラメータP1を決定する(S22)。
【0052】
同様に、推定部57は、第2パラメータP2の初期値P2 initを決定し(S23)、初期値P2 initを用いて、第2入力チャンネルの入力信号処理部350で第2音信号s2に音処理を行い、第2エフェクト信号s2eを得る(S24)。推定部57は、第2エフェクト信号s2eをエンコーダ50で変換し、第2エフェクト代替表現z2eを求める(S25)。推定部57は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第2目標代替表現z2tと第2エフェクト代替表現z2eの差(|z2t-z2e|)が最小になるまで、第2パラメータP2の更新を繰り返す(s26:No→S27)。推定部57は、上記の差(|z1t-z1e|)が最小となった場合(S26:Yes)、第2パラメータP2を決定する(s28)。
【0053】
第1目標代替表現z1tと第2目標代替表現z2tを加算した結果は、第2混合代替表現(参照混合代替表現)zt mixに近づく。この様に、本実施形態のオーディオミキサ1は、第1代替表現z1が第1目標代替表現z1tに近づく様なエフェクトパラメータ、および第2代替表現z2が第2目標代替表現z2tに近づく様なエフェクトパラメータを推定することで、出力チャンネル305の出力する混合音信号の特徴量を目標の特徴量に近づけるための音処理のパラメータを求めることができる。音処理は、例えばコンプレッサまたはイコライザを含む。特にイコライザは、特徴量の一例である振幅スペクトルを調整する音処理であるため、本実施形態の音処理方法を適用するのに好適である。
【0054】
なお、音処理は、単一のエフェクト処理であってもよいし、コンプレッサおよびイコライザを含む複数のエフェクト処理であってもよい。また、音処理は、入力信号処理部350のエフェクト処理だけでなく、FADER351におけるレベル調整処理を含んでもよい。本実施形態の音処理方法は、複数のエフェクト処理、レベル調整処理、および混合処理を含む音処理後の混合音信号の特徴量が目標の第2混合音信号st mixの特徴量に近づく様に、それぞれの処理のパラメータを求めることができる。
【0055】
上述の様に、第1目標代替表現z1tと第2目標代替表現z2tとの和(z1t+z2t)は、目標の混合音信号の第2混合代替表現zt mixに近づく様になっている。特徴量を示す第1目標代替表現z1tおよび第2目標代替表現z2tの和は、位相情報を含む時間軸上の第1音信号s1および第2音信号s2を混合してエフェクト処理を行った後の音信号の特徴量に対応している。言い換えると、第1目標代替表現z1tおよび第2目標代替表現z2tの和は、位相情報を含めた第1音信号s1および第2音信号s2を混合した音信号の特徴量に対応している。
【0056】
したがって、本実施形態の音処理方法は、音響特徴空間における代替表現を用いることで計算量を低減しながらも、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。
【0057】
(変形例1)
エンコーダ50に入力する音信号は、時間軸上の音信号でもよいが、パワー、振幅スペクトル、基本周波数、スペクトル包絡、フォルマント周波数、メルスペクトル包絡、メルスペクトル、またはケプストラム等の特徴量であってもよい。
【0058】
変形例1のエンコーダ50に入力する音信号は、メルスペクトル包絡である。エンコーダ50は、訓練段階および実行段階の両方において、音信号としてメルスペクトル包絡を入力する。
【0059】
メルスペクトル包絡は、音の特徴量を示す指標であり、かつ時間軸上の音信号よりも次元の低い情報である。メルスペクトル包絡は、スペクトル包絡にメルフィルタバンクを畳み込むことで求める。メルフィルタバンクは、低周波数ほど帯域幅が狭く、高周波数ほど帯域幅が大きくなる複数のバンドパスフィルタからなる。当該複数のバンドパスフィルタの各帯域幅は、人間の聴覚特性に対応する。したがって、メルスペクトル包絡は、音の特徴量を抽出したものである。
【0060】
スペクトル包絡は、例えば、音信号から線形予測法(Linear Predictive Coding:LPC)またはケプストラム分析法等により求める。例えば、CPU206は、短時間フーリエ変換により混合音信号を周波数軸に変換し、混合音信号の振幅スペクトルを取得する。CPU206は、特定期間について振幅スペクトルを平均化し、平均スペクトルを取得する。CPU206は、平均スペクトルからエネルギ成分であるバイアス(ケプストラムの0次成分)を除去し、混合音信号のスペクトル包絡を取得する。なお、時間軸方向への平均化とバイアスの除去は、どちらを先に行ってもよい。すなわち、CPU206は、まず振幅スペクトルからバイアスを除去した後に、時間軸方向に平均化した平均スペクトルをスペクトル包絡として取得してもよい。
【0061】
CPU206は、第1音信号s1、第2音信号s2、目標とする第2混合音信号st mixのそれぞれのスペクトル包絡を求めて、メルフィルタバンクを畳み込み、メルスペクトル包絡を得る。
【0062】
エンコーダ50は、第1音信号s1、第2音信号s2、目標とする第2混合音信号st mixのそれぞれのメルスペクトル包絡を入力する。エンコーダ50は、より次元数の低い代替表現を出力する。
【0063】
メルスペクトル包絡は、位相情報が失われているが、第1代替表現z1および第2代替表現z2の和は、位相情報を含む時間軸上の第1音信号s1および第2音信号s2を混合した後の第1混合音信号(s1+s2)の特徴量に対応している。したがって、変形例1の音処理方法は、メルスペクトル包絡を入力し、より次元数の低い代替表現を用いてさらに計算量を低減しながらも、位相情報も考慮したうえで混合信号を目標の特性に近づけるための音処理のパラメータを求めることができる。
【0064】
(変形例2)
上記実施形態では、目標受付部85は、目標特性を有する参照混合音を示す参照データとして、目標特性を有する第2混合音信号st mixを受け付けた。また、上記実施形態では、エンコーダ50を用いて第2混合音信号st mixを第2混合代替表現zt mixにエンコードする例を示した。
【0065】
しかし、参照データは、目標特性を有する参照混合音信号を示す識別情報であってもよい。識別情報とは、例えば曲名、ジャンル名、あるいはエンジニア名等である。目標受付部85は、複数の参照混合代替表現を記憶したデータベースより、識別情報に対応した第2混合代替表現zt mixを獲得してもよい。
【0066】
例えば、目標受付部85は、ある訓練済モデルにより、予め多数の第2混合音信号st mixを第2混合代替表現zt mixにエンコードしてデータベース(自装置またはサーバ等)に記憶する。目標受付部85は、例えば複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する第2混合代替表現zt mixとの関係を機械学習させて訓練済モデルを構築する。また、目標受付部85は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する第2混合代替表現zt mixを推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する第2混合代替表現zt mixを推定できる訓練済モデルを構築してもよい。これにより、データベースは、ジャンル名または曲名等の識別情報に対応する第2混合代替表現zt mixを記憶する。オーディオミキサ1の利用者は、操作部202を操作してジャンル名または曲名を入力する。目標受付部85は、ジャンル名または曲名を受け付けて、対応する第2混合代替表現zt mixをデータベースから獲得する。
【0067】
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0068】
例えば、上述の実施形態で示したパラメータ推定方法は、オーディオミキサ1ではなくサーバで行ってもよい。この場合、オーディオミキサ1は、ネットワークI/F205を介して第1音信号s1および第2音信号s2をサーバに送信する。また、オーディオミキサ1は、参照データ(目標特性を有する参照混合音信号、またはその参照混合音信号を示す識別情報)をサーバに送信する。サーバは、第1音信号s1、第2音信号s2、および参照データに基づいて第1パラメータP1および第2パラメータP2を決定する。オーディオミキサ1は、サーバで決定された第1パラメータP1および第2パラメータP2を受信する。オーディオミキサ1は、受信した第1パラメータP1および第2パラメータP2を用いて第1入力チャンネルの入力信号処理部350および第2入力チャンネルの入力信号処理部350で信号処理を行う。あるいは、サーバは、決定した第1パラメータP1および第2パラメータP2を用いて第1音信号s1および第2音信号s2に信号処理を行い、信号処理後の第1エフェクト信号s1eおよび第2エフェクト信号s2eをオーディオミキサ1に送信してもよい。
【符号の説明】
【0069】
1 :オーディオミキサ
50 :エンコーダ
51 :受付部
55 :目標代替表現選択部
57 :推定部
59 :目標代替表現データベース
61 :チャンネルストリップ
85 :目標受付部
171 :バス
172 :波形バス
201 :表示器
202 :操作部
203 :オーディオI/O
204 :信号処理部
205 :ネットワークI/F
206 :CPU
207 :フラッシュメモリ
208 :RAM
301 :入力パッチ
302 :入力チャンネル
303 :ステレオバス
304 :MIXバス
305 :出力チャンネル
306 :出力パッチ
350 :入力信号処理部
353 :センドレベル調整回路
501 :入力層
502 :出力層
図1
図2
図3
図4
図5
図6
図7