IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2023-131399音信号処理方法、音信号処理装置、および音信号処理プログラム
<>
  • 特開-音信号処理方法、音信号処理装置、および音信号処理プログラム 図1
  • 特開-音信号処理方法、音信号処理装置、および音信号処理プログラム 図2
  • 特開-音信号処理方法、音信号処理装置、および音信号処理プログラム 図3
  • 特開-音信号処理方法、音信号処理装置、および音信号処理プログラム 図4
  • 特開-音信号処理方法、音信号処理装置、および音信号処理プログラム 図5
  • 特開-音信号処理方法、音信号処理装置、および音信号処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023131399
(43)【公開日】2023-09-22
(54)【発明の名称】音信号処理方法、音信号処理装置、および音信号処理プログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20230914BHJP
【FI】
H04R3/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022036139
(22)【出願日】2022-03-09
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】高橋 祐
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220EE21
(57)【要約】      (修正有)
【課題】目標の音色に合わせてレベル調整を自動的に行うことができる音信号処理方法、音信号処理装置及び音信号処理プログラムを提供する。
【解決手段】複数チャンネルの音信号を受け付けて、複数チャンネルのそれぞれの音信号をレベル調整し、調整後の前記複数チャンネルの音信号を混合し、混合後の音信号を出力する、音信号処理方法であって、混合後の音信号の第1音響特徴量を取得し、目標の第2音響特徴量を取得し、第1音響特徴量と、第2音響特徴量と、に基づいてレベル調整における各チャンネルのゲインを算出し調整する。
【選択図】図6
【特許請求の範囲】
【請求項1】
複数チャンネルの音信号を受け付けて、
前記複数チャンネルのそれぞれの音信号をレベル調整し、
調整後の前記複数チャンネルの音信号を混合し、
その混合音信号を出力する、
音信号処理方法であって、さらに、
前記混合音信号の第1音響特徴量を取得し、
目標の第2音響特徴量を取得し、
前記第1音響特徴量と、前記第2音響特徴量と、に基づいて前記レベル調整における各チャンネルのゲインを決定する、
音信号処理方法。
【請求項2】
前記第1音響特徴量および前記第2音響特徴量は、それぞれスペクトル包絡である、
請求項1に記載の音信号処理方法。
【請求項3】
複数のオーディオコンテンツを取得し、
取得した前記複数のオーディオコンテンツから前記第2音響特徴量を求める、
請求項1または請求項2に記載の音信号処理方法。
【請求項4】
前記第2音響特徴量は、訓練済モデルにより求める、
請求項3に記載の音信号処理方法。
【請求項5】
複数チャンネルの音信号を受け付ける受付部と、
前記複数チャンネルのそれぞれの音信号をレベル調整する調整部と、
調整後の前記複数チャンネルの音信号を混合する混合部と、
その混合音信号を出力する出力部と、
を備えた音信号処理装置であって、
前記調整部は、前記混合音信号の第1音響特徴量を取得し、
目標の第2音響特徴量を取得し、
前記第1音響特徴量と、前記第2音響特徴量と、に基づいて前記レベル調整における各チャンネルのゲインを決定する、
音信号処理装置。
【請求項6】
前記第1音響特徴量および前記第2音響特徴量は、それぞれスペクトル包絡である、
請求項5に記載の音信号処理装置。
【請求項7】
前記調整部は、
複数のオーディオコンテンツを取得し、
取得した前記複数のオーディオコンテンツから前記第2音響特徴量を求める、
請求項5または請求項6に記載の音信号処理装置。
【請求項8】
前記第2音響特徴量は、訓練済モデルにより求める、
請求項7に記載の音信号処理装置。
【請求項9】
複数チャンネルの音信号を受け付けて、
前記複数チャンネルのそれぞれの音信号をレベル調整し、
調整後の前記複数チャンネルの音信号を混合し、
その混合音信号を出力する、
処理に加えて、
前記混合音信号の第1音響特徴量を取得し、
目標の第2音響特徴量を取得し、
前記第1音響特徴量と、前記第2音響特徴量と、に基づいて前記レベル調整における各チャンネルのゲインを決定する、
処理を、音信号処理装置に実行させる音信号処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音信号に所定の信号処理を施す音信号処理方法、音信号処理装置、および音信号処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、入力チャンネル毎および信号処理毎に所定のルールに適合する様に信号処理パラメータを自動設定するオーディオミキシングシステムが開示されている。例えば、特許文献1のオーディオミキシングシステムは、ミキシング後の音信号のスペクトルを所定のルールに適合するように、イコライザの周波数特性を自動設定する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許出願公開第2015/0117685号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1のオーディオミキシングシステムは、ミキシング後の音信号のスペクトルに基づいてレベル調整を行うものではない。
以上の事情を考慮して、本開示のひとつの態様は、目標の音色に合わせてレベル調整を自動的に行うことができる音信号処理方法、音信号処理装置、および音信号処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
音信号処理方法は、複数チャンネルの音信号を受け付けて、前記複数チャンネルのそれぞれの音信号をレベル調整し、調整後の前記複数チャンネルの音信号を混合し、その混合音信号を出力する、音信号処理方法であって、前記混合音信号の第1音響特徴量を取得し、目標の第2音響特徴量を取得し、前記第1音響特徴量と、前記第2音響特徴量と、に基づいて前記レベル調整における各チャンネルのゲインを決定する。
【発明の効果】
【0006】
音信号処理方法は、目標の音色に合わせてレベル調整を自動的に行うことができる。
【図面の簡単な説明】
【0007】
図1】オーディオミキサ1の構成を示すブロック図である。
図2】信号処理の機能的な構成を示すブロック図である。
図3】入力チャンネル302、ステレオバス303、およびMIXバス304の機能的な構成を示すブロック図である。
図4】オーディオミキサ1の操作パネルの模式図である。
図5】入力チャンネル302における自動レベル調整の機能的構成を示すブロック図である。
図6】入力チャンネル302における自動レベル調整の動作を示すフローチャートである。
【発明を実施するための形態】
【0008】
図1は、オーディオミキサ1の構成を示すブロック図である。オーディオミキサ1は、本発明の音信号処理装置の一例である。オーディオミキサ1は、表示器201、操作部202、オーディオI/O203、信号処理部204、ネットワークI/F205、CPU206、フラッシュメモリ207、およびRAM208を備えている。
【0009】
これら構成は、バス171を介して接続されている。また、オーディオI/O203および信号処理部204は、デジタルの音信号を伝送するための波形バス172にも接続されている。
【0010】
CPU206は、オーディオミキサ1の動作を制御する制御部である。CPU206は、記憶媒体であるフラッシュメモリ207に記憶された所定のプログラム(音信号処理プログラム)をRAM208に読み出して実行することにより各種の動作を行なう。なお、プログラムは、サーバに記憶されていてもよい。CPU206は、ネットワークを介してサーバからプログラムをダウンロードし、実行してもよい。
【0011】
信号処理部204は、混合処理等の各種信号処理を行なうためのDSPから構成される。信号処理部204は、ネットワークI/F205またはオーディオI/O203を介して受信した音信号に、エフェクト処理、レベル調整処理、および混合処理等の信号処理を施す。信号処理部204は、信号処理後のデジタルの音信号をオーディオI/O203またはネットワークI/F205を介して出力する。
【0012】
図2は、信号処理部204、オーディオI/O203(またはネットワークI/F205)、およびCPU206で行われる信号処理の機能的な構成を示すブロック図である。図2に示すように、信号処理は、機能的に、入力パッチ301、入力チャンネル302、ステレオバス303、MIXバス304、出力チャンネル305、および出力パッチ306によって行う。
【0013】
入力パッチ301および入力チャンネル302は、本発明の受付部に対応する。入力パッチ301は、マイク、楽器、または楽器用アンプ等から音信号を受け付ける。入力パッチ301は、受け付けた音信号を入力チャンネル302の各チャンネルに供給する。図3は、入力チャンネルの機能的構成を示すブロック図である。入力チャンネル302の各チャンネルは、入力パッチ301から音信号を受け付けて、信号処理を施す。
【0014】
図3は、入力チャンネル302、ステレオバス303、およびMIXバス304の機能的な構成を示すブロック図である。例えば、第1入力チャンネルおよび第2入力チャンネルは、それぞれ入力信号処理部350、FADER351、PAN352、およびセンドレベル調整回路353を備えている。図示しない他の入力チャンネルも同じ構成を備えている。
【0015】
入力信号処理部350は、イコライザ等のエフェクト処理、あるいはレベル調整処理等を施す。FADER351は、本発明の調整部に対応する。FADER351は、各入力チャンネルのゲインを調整する。
【0016】
図4は、オーディオミキサ1の操作パネルの模式図である。操作パネルには、入力チャンネル毎に対応するチャンネルストリップ61を有している。チャンネルストリップ61は、チャンネル毎に、スライダおよび摘まみを縦に並べて配置している。スライダは、図3のFADER351に対応する。オーディオミキサ1の利用者は、スライダの位置を変更することで、対応する入力チャンネルのゲインを調整する。
【0017】
摘まみは、例えば図3のPAN352に対応する。オーディオミキサ1の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、ステレオの左右のレベルバランスを調整する。PAN352で分配された音信号は、ステレオバス303に送出される。あるいは、摘まみは、例えば図3のセンドレベル調整回路353に対応する。オーディオミキサ1の利用者は、摘まみを時計回りまたは反時計回りに動かすことで、MIXバス304への送り量を調整する。あるいは、スライダは、MIXバス304に対する送り量を調整する操作部として機能することもできる。この場合、スライダは、図3のセンドレベル調整回路353に対応する。
【0018】
ステレオバス303は、本発明の混合部に対応する。ステレオバス303は、ホールや会議室におけるメインスピーカに対応するバスである。ステレオバス303は、各入力チャンネルから送出される音信号を混合する。ステレオバス303は、その混合音信号を、出力チャンネル305に出力する。
【0019】
MIXバス304は、1または複数の入力チャンネルの音信号の混合音信号をモニタスピーカまたはモニタ用ヘッドフォン等の特定の音響機器に送出するためのバスである。MIXバス304も、本発明の混合部の一例である。MIXバス304は、混合音信号を、出力チャンネル305に出力する。
【0020】
出力チャンネル305および出力パッチ306は、本発明の出力部に対応する。出力チャンネル305は、ステレオバス303およびMIXバス304の出力した音信号にイコライザ等のエフェクト処理、およびレベル調整処理等を施す。出力チャンネル305は、信号処理を施した後の混合音信号を、出力パッチ306に出力する。
【0021】
出力パッチ306は、出力チャンネルの各チャンネルを、アナログ出力ポートまたはデジタル出力ポートにおける複数のポートのうちいずれか1つのポートに割り当てる。これにより、信号処理を施された後の音信号が、オーディオI/O203またはネットワークI/F205に供給される。
【0022】
本実施形態のオーディオミキサ1は、目標の音色(音響特徴量)に合わせてFADER351におけるレベル調整を自動的に行う。
【0023】
図5は、入力チャンネル302における自動レベル調整の機能的構成を示すブロック図であり、図6は、入力チャンネル302における自動レベル調整の動作を示すフローチャートである。
【0024】
入力チャンネル302は、機能的に、調整部501を備えている。
【0025】
調整部501は、出力チャンネル305から、複数の入力音信号を混合した混合音信号を、メインスピーカに出力する音信号として取得し、その混合音信号から音響特徴量(第1音響特徴量)を算出する(S11)。その第1音響特徴量は、入力音信号が供給されている全期間ではなく、その一部の、入力音信号にレベル調整したい音源(楽器、歌手など)の音が全て含まれている特定期間(30秒程度)の混合音信号から算出される。
【0026】
第1音響特徴量は、例えばその混合音信号のスペクトル包絡である。スペクトル包絡は、例えば、混合音信号から線形予測法(Linear Predictive Coding: LPC)またはケプストラム分析法等により求める。例えば、調整部501は、短時間フーリエ変換により混合音信号を周波数軸に変換し、混合音信号の振幅スペクトルを取得する。調整部501は、特定期間について振幅スペクトルを平均化し、平均スペクトルを取得する。調整部501は、平均スペクトルからエネルギ成分であるバイアス(ケプストラムの0次成分)を除去し、混合音信号のスペクトル包絡を取得する。なお、時間軸方向への平均化とバイアスの除去は、どちらを先に行ってもよい。すなわち、調整部501は、まず振幅スペクトルからバイアスを除去した後に、時間軸方向に平均化した平均スペクトルをスペクトル包絡として取得してもよい。
【0027】
あるいは、第1音響特徴量は、各チャンネルの音信号とそれらの混合音信号の音響特徴量との関係を機械学習した訓練済モデル(a well-trained model)により求めてもよい。調整部501は、所定のモデルに、予め多数の音信号を取得し、それらの音信号と対応する混合音信号の第1音響特徴量との関係を機械学習させて訓練済モデルを構築する。その訓練済モデルは、入力する複数の音信号から対応する第1音響特徴量を推定できる。調整部501は、当該訓練済モデルにより第1音響特徴量を求めてもよい。
【0028】
調整部501は、目標の音響特徴量(第2音響特徴量)を取得する(S12)。第2音響特徴量は、例えば、特定の曲のオーディオコンテンツ(既存の混合音信号)を取得し、取得したオーディオコンテンツから算出できる。また、算出済みの第2音響特徴量を蓄積したデータベースから、特定の曲の第2音響特徴量を取得できる。また、オーディオミキサ1の利用者は、操作部202を操作して曲名を入力する。調整部501は、入力された曲名に基づいてオーディオコンテンツの第2音響特徴量を取得できる。また、調整部501は、出力チャンネル305の出力する混合音信号に基づいて曲を特定し、特定した曲に類似する(例えば、同じジャンルの)曲のオーディオコンテンツを取得し、その第2音響特徴量を取得できる。この場合、音信号と曲名の関係を機械学習した訓練済モデルを用いて、入力した混合音信号から対応する曲名を推定できる。なお、取得する第2音響特徴量は、オーディオコンテンツの全期間ではなく、そのオーディオコンテンツの一部の、レベル調整したい音源(楽器、歌手など)の音が全て含まれている特定期間(30秒程度)の混合音信号から算出された音響特徴量である。
【0029】
第2音響特徴量も、第1音響特徴量と同じく、例えばスペクトル包絡を含む。第2音響特徴量のスペクトル包絡も、例えば、線形予測法(Linear Predictive Coding: LPC)またはケプストラム分析法等により求める。調整部501は、それぞれ、混合音信号の全期間ではなく、利用者から指定された特定期間について、スペクトル包絡を取得してもよい。また、第2音響特徴量に関して、利用者は、特定の曲のオーディオコンテンツの任意の区間や、過去のライブイベントのマルチトラック録音データのうち任意の区間を、前記特定区間として指定する。また、第1音響特徴量に関して、利用者は、リハーサル時に入力された入力音信号の任意の区間や、ライブイベントのその時点までに入力された入力音信号の任意の区間を、前記特定区間として指定する。また、第2音響特徴量のスペクトル包絡も、訓練済モデルにより求めてもよい。
【0030】
また、調整部501は、曲毎の第2音響特徴量を予め取得してフラッシュメモリ207に記憶してもよい。あるいは、曲毎の第2音響特徴量は、サーバに記憶されていてもよい。調整部501は、入力した曲名(あるいは音信号から特定した曲名)に対応する第2音響特徴量をフラッシュメモリ207またはサーバ等から取得してもよい。
【0031】
また、第2音響特徴量は、熟練のオーディオミキサ1の利用者(PAエンジニア)が理想的なレベル調整を行った場合における、メインスピーカへの出力音信号から予め求めてもよい。また、第2音響特徴量は、熟練のレコーディングエンジニアが編集作業を行った後のオーディオコンテンツから予め求めてもよい。オーディオミキサ1の利用者は、操作部202を操作してPAエンジニア名またはレコーディングエンジニア名を入力する。調整部501は、PAエンジニア名またはレコーディングエンジニア名を受け付けて、対応する第2音響特徴量を取得する。
【0032】
また、調整部501は、予め複数のオーディオコンテンツを取得し、取得した複数のオーディオコンテンツに基づいて第2音響特徴量を求めてもよい。例えば、第2音響特徴量は、複数のオーディオコンテンツで求められる複数の音響特徴量の平均値であってもよい。この様な平均値は、曲毎、ジャンル毎、あるいはエンジニア毎に求めることができる。
【0033】
あるいは、調整部501は、訓練済モデルにより求めてもよい。調整部501は、複数のジャンルの各々について、予め同じジャンルの多数のオーディオコンテンツを取得し、所定のモデルに、各ジャンルと対応する音響特徴量との関係を機械学習させて訓練済モデルを構築する。また、調整部501は、同じジャンルの曲であってもアレンジが異なるオーディオコンテンツや演奏者が異なるオーディオコンテンツ等の多数のオーディオコンテンツを取得し、所望のジャンルと所望のアレンジとから対応する音響特徴量を推定できる訓練済モデルや、所望のジャンルと所望の演奏者から対応する音響特徴量を推定できる訓練済モデルを構築してもよい。オーディオミキサ1の利用者は、操作部202を操作してジャンル名または曲名を入力する。調整部501は、ジャンル名または曲名を受け付けて、対応する第2音響特徴量を取得する。
【0034】
次に、調整部501は、第1音響特徴量と第2音響特徴量と、に基づいて各入力チャンネルのゲインを求める(S13)。なお、出力チャンネル305は、調整部501のレベル調整により、ステレオバス303から出力される混合音信号の音量が変化した場合には、当該音量変化を抑えるように、出力パッチ306に出力する混合音信号のレベルを調整してもよい。
【0035】
調整部501は、例えばLMS(Least Mean Square)あるいは再帰的最小二乗法(Recursive Least-Squares)等の適応アルゴリズムを用いて、第1音響特徴量と第2音響特徴量の差分を0に近づけるよう、各入力チャンネルのための各入力チャンネルにおけるゲインを求める。調整部501は、求めたゲインに基づいて、FADER351において各入力チャンネルの音信号のレベルを調整する(S14)。
【0036】
あるいは、調整部501は、予め、音響特徴量の差分と、複数の入力音信号の音響特徴量との関係を機械学習した訓練済モデルを用いてゲインを求めてもよい。この様な訓練済モデルは、例えば、以下の様に構築される。調整部501は、所定のモデルに、既知の複数の入力音信号の音響特徴量と、複数の入力音信号を混合した後の既知の音信号の音響特徴量と、の関係を学習させて、訓練済みの第1モデルを、予め構築する。訓練済みの第1モデルは、入力する複数の入力音信号の音響特徴量から、それらを混合した音信号の音響特徴量を推定できる。そして、調整部501は、複数の入力音信号に対し各入力チャンネルのゲインを乗算して、その音響特徴量を訓練済みの第1モデルに入力し、その第1モデルが推定した第1音響特徴量を出力する第2モデルを用意する。各チャンネルのゲインの推定は、第1モデルのパラメータを固定して、第2モデルから出力された第1音響特徴量と第2音響特徴量間の誤差が小さくなるように、誤差逆伝播法を用いて、第2モデルの変数(上記各入力チャンネルのゲイン)を調整する。誤差が十分小さくなるまでその調整を繰り返したら、調整部501は、その時点の変数を、推定された各入力チャンネルのゲインとして確定する。このようにして、調整部501は、用意したモデルを用いてゲインを求めてもよい。なお、訓練済みの第1モデルは必須ではなく、ステップS11の処理に置き換えてもよい。つまり、チャンネル毎のゲインが乗算された入力音信号を混合し、その混合音の音信号から第1音響特徴量を算出してもよい。
【0037】
当該レベル調整により、出力チャンネル305の出力する混合音信号のスペクトル包絡、すなわち音色は、目標の音色に近づく。
【0038】
この様に、本実施形態のオーディオミキサ1は、各入力チャンネルおよび出力チャンネルのイコライザ等のパラメータではなく、FADER351におけるレベル調整により、出力チャンネル305の出力する混合音信号の音響特徴量を目標の音響特徴量に近づける処理を行う。したがって、本実施形態のオーディオミキサ1は、各入力チャンネルの音声、楽器、あるいは出力チャンネルのスピーカ等に合わせて調整したエフェクトのパラメータを変更せずに、出力チャンネル305の出力する混合音信号を目標の音響特徴量に近づけることができる。
【0039】
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0040】
例えば、上記実施形態では、音響特徴量の一例としてスペクトル包絡を示した。音響特徴量は、例えばパワー、基本周波数、フォルマント周波数、またはメルスペクトル等であってもよい。すなわち、音色に関わる音響特徴量であれば、どの様な種類の音響特徴量であってもよい。オーディオミキサ1は、どの様な種類の音響特徴量を用いる場合であっても、出力チャンネル305の出力する混合音信号の第1音響特徴量と、目標の第2音響特徴量に基づいてFADER351のレベル調整量を求めることで、目標の音色に合わせてレベル調整を自動的に行うことができる。
【0041】
また、本実施形態では、調整部501は、混合後の音信号として、メインスピーカに出力する音信号を取得し、第1音響特徴量を取得したが、例えばモニタスピーカに出力する音信号を取得してもよい。この場合、モニタスピーカに出力する音信号の音色を目標の音色に合わせてレベル調整を行うことができる。
【符号の説明】
【0042】
1 :オーディオミキサ
61 :チャンネルストリップ
171 :バス
172 :波形バス
201 :表示器
202 :操作部
203 :オーディオI/O
204 :信号処理部
205 :ネットワークI/F
206 :CPU
207 :フラッシュメモリ
208 :RAM
301 :入力パッチ
302 :入力チャンネル
303 :ステレオバス
304 :MIXバス
305 :出力チャンネル
306 :出力パッチ
350 :入力信号処理部
353 :センドレベル調整回路
501 :調整部
図1
図2
図3
図4
図5
図6