特許第6482880号(P6482880)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人電気通信大学の特許一覧

特許6482880ミキシング装置、信号ミキシング方法、及びミキシングプログラム
<>
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000034
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000035
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000036
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000037
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000038
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000039
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000040
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000041
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000042
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000043
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000044
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000045
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000046
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000047
  • 特許6482880-ミキシング装置、信号ミキシング方法、及びミキシングプログラム 図000048
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6482880
(24)【登録日】2019年2月22日
(45)【発行日】2019年3月13日
(54)【発明の名称】ミキシング装置、信号ミキシング方法、及びミキシングプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20190304BHJP
   G10L 21/0316 20130101ALI20190304BHJP
【FI】
   H04R3/00
   G10L21/0316
【請求項の数】9
【全頁数】29
(21)【出願番号】特願2015-7380(P2015-7380)
(22)【出願日】2015年1月19日
(65)【公開番号】特開2016-134706(P2016-134706A)
(43)【公開日】2016年7月25日
【審査請求日】2017年11月28日
(73)【特許権者】
【識別番号】504133110
【氏名又は名称】国立大学法人電気通信大学
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】高橋 弘太
【審査官】 堀 洋介
(56)【参考文献】
【文献】 特開2009−159083(JP,A)
【文献】 特開2013−051589(JP,A)
【文献】 米国特許出願公開第2012/0263322(US,A1)
【文献】 特開2007−219241(JP,A)
【文献】 特表2008−532353(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 21/0316
(57)【特許請求の範囲】
【請求項1】
時間領域の第1入力信号と第2入力信号をそれぞれ時間周波数平面上の第1信号と第2信号に展開する周波数解析部と、
前記第1信号と前記第2信号を混合した混合信号を生成する信号処理部と、
前記混合信号を時間領域の信号に変換する周波数時間変換部と、
前記変換された信号を出力する信号出力部と、
を有し、
前記信号処理部は、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第1信号の対数強度と前記第2信号の対数強度の和を超えないという条件で決定されるゲインであって、前記第1信号のパワーを第1の方向に調整する第1ゲインと、前記第1信号のパワーの調整分を超えないという条件で決定されるゲインであって、前記第2信号のパワーを前記第1の方向と逆の第2の方向に変化させる第2ゲインとを決定するゲイン決定部と、
前記第1ゲインで調整された前記第1信号と前記第2ゲインで調整された前記第2信号を加算する加算部と、
を有することを特徴とするミキシング装置。
【請求項2】
前記ゲイン決定部は、(a)前記第1信号と前記第2信号を単純加算したパワーの一定倍を超えないように前記第1ゲインの調整に第1上限を設定する、(b)前記第1ゲインに固定的な第2上限を設ける、または(c)前記第2ゲインに固定的な下限を設ける、の少なくとも1つの条件を追加し、前記追加された条件を満たす範囲で前記第1ゲインと前記第2ゲインを決定することを特徴とする請求項1に記載のミキシング装置。
【請求項3】
前記ゲイン決定部は、前記第2信号のパワーに対する前記第1信号のパワーの比率が所定の比率以下である場合に、前記少なくとも1つの条件を緩和することを特徴とする請求項2に記載のミキシング装置。
【請求項4】
前記ゲイン決定部は、前記第1信号のパワーと前記第2信号のパワーを、それぞれ聴力限界レベルを基準とする第1聴感補正パワーと第2聴感補正パワーに補正し、前記出力信号の対数強度が、前記第1聴感補正パワーの対数強度と前記第2聴感補正パワーの対数強度の和を超えない範囲で前記第1ゲイン及び前記第2ゲインを決定することを特徴とする請求項1に記載のミキシング装置。
【請求項5】
前記ゲイン決定部は、前記第1ゲインを平滑化した第3ゲインと、前記第2ゲインを平滑化した第4ゲインを生成し、
前記加算部は、前記第3ゲインで調整された前記第1信号と、前記第4ゲインで調整された前記第2信号を加算することを特徴とする請求項1に記載のミキシング装置。
【請求項6】
前記ゲイン決定部は、前記第1ゲインと前記第2ゲインを前記時間周波数平面上の各点について逐次更新することを特徴とする、請求項1〜5のいずれか1項に記載のミキシング装置。
【請求項7】
前記第1入力信号はミキシング処理で優先的に明瞭化される優先音であり、前記第2入力信号は前記優先音以外の非優先音であることを特徴とする請求項1〜6のいずれか1項に記載のミキシング装置。
【請求項8】
時間領域の第1入力信号と第2入力信号を受け取り、
前記第1入力信号と前記第2入力信号を、それぞれ時間周波数平面上の第1信号と第2信号に展開し、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第1信号の対数強度と前記第2信号の対数強度の和を超えないという条件で決定されるゲインであって、前記第1信号のパワーを第1の方向に調整する第1ゲインと、前記第1信号のパワーの調整分を超えないという条件で決定されるゲインであって、前記第2信号のパワーを前記第1の方向と逆の第2の方向に変化させる第2ゲインとを決定し、
前記第1信号を前記第1ゲインで乗算した第1乗算結果と、前記第2信号を前記第2ゲインで乗算した第2乗算結果を加算して混合信号を生成し、
前記混合信号を時間領域の信号に変換して出力する、
ことを特徴とする信号ミキシング方法。
【請求項9】
信号ミキシング処理をコンピュータに実行させるミキシングプログラムであって、前記コンピュータに、
時間領域の第1入力信号と第2入力信号を受け取らせる手順と、
前記第1入力信号と前記第2入力信号を、それぞれ時間周波数平面上の第1信号と第2信号に展開させる手順と、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第1信号の対数強度と前記第2信号の対数強度の和を超えないという条件で決定されるゲインであって、前記第1信号のパワーを第1の方向に調整する第1ゲインと、前記第1信号のパワーの調整分を超えないという条件で決定されるゲインであって、前記第2信号のパワーを前記第1の方向と逆の第2の方向に変化させる第2ゲインとを決定させる手順と、
前記第1信号を前記第1ゲインで乗算した第1乗算結果と、前記第2信号を前記第2ゲインで乗算した第2乗算結果を加算して混合信号を生成させる手順と、
前記混合信号を時間領域の信号に変換して出力させる手順と、
を実行させることを特徴とするミキシングプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2以上の入力信号のミキシング技術に関する。
【背景技術】
【0002】
ミキシングの基本構成は、複数の入力信号の加算である。レコーディングや放送の現場では、ミキシングされた各種楽器や音声をバランスよく聴かせるために、加算器の前後にイコライザが配置されている。イコライザを用いることで、入力信号ごとに所望の周波数帯域を強調したり、バックグラウンドの中の重要でない周波数帯域の音量を下げて混合音中の優先音を引き立てる等の処理が行われる。
【0003】
一方、入力信号を時間周波数平面上に展開し、時間周波数平面上の点ごとに振幅調整と位相調整を行った後に加算して、時間軸上の信号に戻す「スマートミキシング」の手法が提案されている(たとえば、特許文献1参照)。音声や楽器音は、時間周波数平面上できめ細かな構造を持っている。各種入力信号を、時間周波数平面上での構造に合わせてミキシング処理を行うことで、よりきめ細かなミキシング処理が可能になる。特許文献1では、時間周波数平面上での処理対象点と所定の関係を有する他の点の入力データを用いて処理対象点の信号特性を判断し、その信号特性に応じて優先音の明りょう度を決定している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第5057535号
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、入力信号に与えられるゲインを最適化する合理的な方法が規定されていない。特許文献1のミキシング方法を現実に応用する場合、周波数ごとのゲインは音源にあわせて試行錯誤で決定されることになり、適切なゲインが設定されない場合がある。また、従来からの一般的なミキシング技術は経験と勘に頼っており、ゲイン設定やイコライザの特性設定に関しての合理的な基準が確立されていない。
【0006】
ミキシングで優先的に明瞭化されるべき音(以下、「優先音」と称する)の周波数ごとのゲインが適切に設定されないと、以下の問題が生じる。まず、優先音のゲインの変化が強すぎると、出力(混合音)中の優先音として不自然な感じになり、音として聴こえても音声として内容を聴き分けることができない。また、優先音の音量変化や音質変化が強すぎて不快感を生じさせることがある。逆にゲインの変化が弱すぎると、優先音が十分に聴き取れない。
【0007】
優先音以外の音(以下、「非優先音」と称する)のゲインが適切に設定できないと、以下の問題が生じる。ゲインの変化が強すぎると、出力(混合音)において非優先音の欠落や音質急変が目立ってしまい、違和感を感じる。違和感に気をとられることで優先音の聴き取りが阻害されてしまう。逆に、ゲインの変化が弱すぎると、優先音を十分に引き立てることができない。
【0008】
そこで、オーディオデータミキシング時の合理的なゲイン設定方法を確立して、ミキシング装置の動作の向上と安定を図ることを課題とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明では、次の2つの原理を基本原理として用いる。
(1)出力信号の対数強度を入力信号の対数強度の和を超えない範囲に限定する。これを「対数強度の和の原理」と称する。「対数強度の和の原理」によって、優先音が増強されすぎて混合音に違和感が生じることを抑制する。
(2)非優先音のパワーの減少を、優先音のパワー増加分を超えない範囲に制限する。これを「穴埋めの原理」と称する。「穴埋めの原理」によって、混合音において非優先音が抑制されすぎて違和感が生じることを抑制する。
【0010】
具体的には、本発明の一側面において、ミキシング装置は、
時間領域の第1入力信号と第2入力信号をそれぞれ時間周波数平面上の第1信号と第2信号に展開する周波数解析部と、
前記第1信号と前記第2信号を混合した混合信号を生成する信号処理部と、
前記混合信号を時間領域の信号に変換する周波数時間変換部と、
前記変換された信号を出力する信号出力部と、
を有し、
前記信号処理部は、
前記時間周波数平面の各点ごとに、出力信号の対数強度が前記第1信号の対数強度と前記第2信号の対数強度の和を超えない範囲内で前記第1信号のパワーを調整する第1ゲインと、前記第1信号のパワーの増加分を超えない範囲内で前記第2信号のパワーを減少させる第2ゲインとを決定するゲイン決定部と、
前記第1ゲインで調整された前記第1信号と前記第2ゲインで調整された前記第2信号を加算する加算部と、
を有する。
【発明の効果】
【0011】
入力信号のミキシング時に適切なゲインが設定され、ミキシング装置の動作の向上と安定を図ることができる。
【図面の簡単な説明】
【0012】
図1】本発明の基本原理を説明する図である。
図2】実施形態のミキシング装置の概略構成図である。
図3】優先音と非優先音のパワーをリスナーの可聴レベルとともに示す図である。
図4図3の優先音と非優先音のそれぞれから可聴レベルを減算して、リスナーが感じる音強度(聴感補正パワー)としてプロットした図である。
図5図4の優先音と非優先音の対数尺度での和を示す図である。
図6図4の優先音と非優先音の単純加算和を一定倍した結果を示す図である。
図7図5(対数強度和)と図6(単純加算和の一定倍)の双方を満たす範囲を加算(ミキシング)時の上限とする図である。
図8図7の範囲内でゲイン調整された優先音と非優先音を示す図である。
図9】最小可聴パワーの選択に用いるラウドネス曲線の例を示す図である。
図10】実施形態のミキシング装置の動作例を示す図である。
図11】ゲインを平滑化した場合のミキシング装置の動作状態を示す図である。
図12】補正係数B[k]を直接設定する場合の例を示す図である。
図13A】実施形態のミキシング信号処理方法の一例を示すフローチャートである。
図13B】実施形態のミキシング信号処理方法の一例を示すフローチャートであり図13Aに続くフローチャートである。
図14】実施形態のミキシング信号処理方法の別の例を示すフローチャートである。
【発明を実施するための形態】
【0013】
図1は、本発明の基本原理を説明する図である。以下の説明では、入力信号x1[n]とx2[n]をミキシングする場合を例にとる。入力信号x1[n]は、たとえば音声等の優先信号とする。入力信号x2[n]は、バックグラウンド音等の非優先信号とする。
【0014】
入力信号x1[n]とx2[n]は、周波数解析によって、それぞれ時間周波数平面(図中「tf平面」と表記されている)上に展開される。周波数解析は、短時間FFT(Fast Fourier Transform)、短時間フーリエ変換、ウェーブレット変換、フィルタバンクによる変換、ウイグナー分布などの時間周波数分布への変換等、任意の手法を用いることができる。時間周波数平面上に展開された各信号を、X1[i,k]、X2[i、k]とする。X1[i,k]、X2[i,k]は、時間方向の座標値iと、周波数方向の座標値kで表される時間周波数平面上での入力信号の点である。
【0015】
時間周波数平面に展開された入力信号の各点のパワーに基づき、「対数強度の和の原理」と「穴埋めの原理」を用いて、各点での優先音と非優先音のゲインを決定する。「対数強度の和の原理」は、上述のように出力信号のパワーを入力信号の対数強度の和を超えない範囲に限定する処理である。「穴埋めの原理」は、非優先音のパワーの低減を、優先音のパワー増加分を超えない範囲に限定する処理である。これらの原理の具体的な処理方法については後述する。
【0016】
なお、実施形態では最適なゲインの決定のために、対数強度の和の原理に基づく処理(1)と、穴埋めの原理に基づく処理(2)に加えて、オプションとしてさらに以下の処理(3)〜(5)を導入する。
(3)ゲイン決定に際して、(a)対数強度の和の原理により決定されるパワーの増加率に対して、入力音の単純加算値を一定倍したレベルを超えないように上限を設ける、(b)優先音のゲインに固定的な上限を設ける、(c)非優先音のゲインに固定的な下限を設ける、という3つの条件のうちの少なくとも1つを加える。これにより、混合音をさらに自然で穏やかにすることができる。
(4)極端に信号対雑音比が低下している時間区間では、上記(3)の上限や下限を緩和する。これにより、信号対雑音比が低い時間区間でも優先音を目立たせてリスナーにとって聴き取りやすい音にする。
(5)ミキシング処理におけるパラメータは、最適化問題の解として算出するのではなく逐次更新するように構成する。逐次更新の採用によって、「方程式を解く」ことを「不等式の真偽の判定」に置き換えることができ、指数関数、対数関数、乗算などの演算を排除して、乗算と加減算だけの高速アルゴリズムを構成することができる。これにより、FPGA(Field-programmable gate array)等のプログラマブルロジックデバイスへの実装や、DAW(digital audio workstation)用のプラグインとしての実装が容易になり、リアルタイム処理が実現する。
【0017】
時間周波数平面上の各点で、X1[i,k]、X2[i、k]にそれぞれ対応するゲインを乗算する。ゲイン乗算後の信号を、M1[i,k]、M2[i,k]とする。ゲイン調整された信号M1[i,k]、M2[i,k]を加算して時間周波数平面上で2つの信号を重ね合わせる。その後、時間領域の信号に戻して、混合音を出力する。
【0018】
このように、時間周波数平面上の各点で入力信号に対するゲインを決定して乗算することで、自然な混合音を生成することができる。
【0019】
図2は、実施形態のミキシング装置1の概略図である。ミキシング装置1は、信号入力部11、周波数解析部12、信号処理部15、周波数時間変換部16、及び信号出力部17を有する。信号入力部11は、ミキシングの対象となる複数の入力信号を入力する。入力信号はたとえばオーディオ信号であり、音声等の優先信号と、バックグラウンド音等の非優先信号を含む。
【0020】
周波数解析部12はたとえば、短時間FFTにより入力信号を時間周波数平面上に展開する。信号処理部15は、時間周波数平面上の各点で、入力信号のパワーを算出し、パワーを平滑化した後、ゲイン決定部151で優先信号と非優先信号に対するゲインをそれぞれ算出する。そして、優先信号と非優先信号に対して算出されたそれぞれのゲインを乗算した後、加算して加算結果を出力する。周波数時間変換部16は、信号処理部15からの出力信号を時間領域の信号に変換する。信号出力部17は、時間領域に復元された信号を出力する。
【0021】
図3図8を参照して、信号処理部15での基本処理を説明する。以下の説明で用いられる記号を、表1と表2に示す。表1は定数の記号の一覧であり、表2は変数の記号の一覧である。
【0022】
【表1】
【0023】
【表2】
<対数強度の和の原理>
図3は、時間周波数平面のある時刻における優先音(太線)と非優先音(実線)のパワー[dB]を周波数の関数として模式的に示したものである。このパワーは、信号処理部15で平滑化されたパワー値Eである。点線は、このレベル以上であればリスナーが音を検知できる聴力限界を示す。
【0024】
人間の聴覚は、パワーの対数で音の強さを感じると言われている。この考え方に基づけば、点線の可聴限界よりも10dB高い音成分同士はほぼ同じ強さに感じられ、聴力限界よりも20dB高い音成分同士もほぼ同じ強さに感じられる。また、可聴限界よりも10dB高い音成分と、20dB高い音成分の音量差は、可聴限界よりも20dB高い音成分と、30dB高い音線分の音量差と同じであるとみなすことができる。
【0025】
図4は、図3の優先音と非優先音のそれぞれから、点線の聴力限界可聴レベルを減算してプロットしたものである。図4で得られる優先信号と非優先信号のパワー値は、人間の聴力限界をゼロdBとして補正された「聴感補正パワーP」である。図4の縦軸の大きさが、リスナーが感じる音強度となる。
【0026】
図5は、図4で聴感補正された優先音と非優先音の対数尺度での和を点線Aで示す。上述した人間の聴覚についての知見によれば、リスナーに聴感補正された優先音と非優先音の和(対数強度の和)を混合音として感じさせることが妥当であるという原理に行き着く。すなわち、混合音のパワーを図4の点線Aとする。これが、「対数強度の和の原理」である。人間の聴力限界と等しい音の大きさを1倍とすると、20dBは10倍であり、その対数は1である。40dBは100倍であり、その対数は2である。対数の尺度で表現すると、人間の聴力限界の10倍の音と100倍の音の和は、10すなわち1000倍のパワーとなる。
【0027】
ただし、この原理をそのまま使うと、聴感補正後(図4)の優先音のパワーP1と非優先音のパワーP2の和で表される混合音のパワーはP1×P2になり、場合によってはパワーが大きくなりすぎる。たとえば、P1=P2=10であれば、混合音のパワーは1010になり、多くの処理系でオーバーフローが起きる可能性がある。そこで、「対数強度の和の原理」で導かれる混合音のパワーをミキシングの上限値として用いる。
<追加条件>
対数強度の和の原理で求められる混合音は場合によって音量が強くなりすぎるという問題を解決するために、処理(3)の3つの条件(a)〜(c)の少なくともひとつを追加する。
【0028】
図6は、条件(a)を示す図である。条件(a)は、混合音のパワー増加率を、2つの入力音のパワーの単純加算値の一定倍率(比率)に制限するものである。自然界において、人間は2つの音の加算(混合音)を聴くときに、単純加算での混合を聴いている。たとえば、聴力限界の10倍の入力音と、100倍の入力音の単純加算値は110倍である。これに対して、対数尺度での加算値は1000倍となる。
【0029】
そこで、混合パワーの増幅限界Tを設定する。混合パワーの増幅限界Tは単純加算値の振幅比で表わし、たとえばT=4.0と設定する。この場合、単純加算で求められる振幅(たとえば110)の4.0倍が混合パワーの増幅限界となる。図6の点線Bが、優先音と非優先音の和(混合)のパワーを単純加算値の所定倍率Tに制限する増幅限界である。
【0030】
図7は、図5の対数強度の和の原理で求められる混合音パワーの上限と、図6の単純加算の一定倍で設定される増幅限界の双方を満たすレベル、すなわちいずれか低い方のパワーレベルを信号加算の上限として設定する処理を示す。図7で、点線A(対数強度の和の原理で求められる上限)と、点線B(単純加算に基づく増幅限界)のパワーの低い方を選択した実線が、信号加算時の上限となる。
<穴埋めの原理>
図8は、図7の信号加算の上限の範囲内でのゲインの設定を示す図である。優先音の聴き取りを向上させるためには、時間周波数平面上の必要な部分において、非優先音を抑制する必要がある。抑制量は多ければ多いほどよいというものではない。非優先音を無条件に抑制してしまうと、非優先音の音量変化が刺激的になりすぎて、違和感が増すだけでなく、優先音の聴き取りが妨害され得るからである。したがって、非優先音の抑制に対しても合理的な基準が必要になる。
【0031】
実施形態では、優先音のゲインを増加させたことによってパワーが増大した分を超えない範囲で、非優先音のパワーが低減される。つまり、非優先音の抑制によって作られた穴を、優先音の増大によって埋める。この処理により、非優先音に対する違和感の発生を回避できる。
【0032】
図8において、優先音は、図7の信号加算の上限の範囲内で増幅される。点線Cがゲイン調整後の優先音のパワーである。他方、非優先音は、優先音の変化量(すなわちパワー増大分)を超えない範囲で低減される。点線Dが、ゲイン調整後の非優先音のパワーである。
【0033】
このように、信号処理部15は、優先音パワーの増大に対する制限と、非優先音パワーの減少に対する制限に基づいて、それぞれのゲインを決定する。時間周波数平面の各点での優先音の増大と非優先音の減少(凹凸)を決定したものがゲインマスクである。
【0034】
なお、処理(3)の条件(a)に替えて、あるいは条件(a)に加えて、優先音のゲインに固定的な上限を設定する条件(b)や、非優先音のゲインに固定的な下限を設定する条件(c)を追加してもよい。対数強度の和の原理と、穴埋めの原理にこれらの条件を追加することで自然な混合音を生成することができる。
<短時間FFT>
次に、周波数解析部12の処理の詳細を説明する。実施形態では、周波数解析部12はFFT点数として256程度の短時間FFTを実施する。この短時間FFTは、一次元の入力信号を、2次元の時間周波数(tf)平面上に展開する処理である。
【0035】
サンプリング周波数Fで採取された信号x1[n]とx2[n]を、それぞれ優先音と非優先音とする。両信号xj[n](j=1,2)をN点シフトでN点の短時間フーリエ変換する。ブロック番号i、周波数ビン番号kにおける変換結果をXj[i,k]とすると、Xj[i,k]は式(1)で表される。
【0036】
【数1】
ここで、h[n]は窓関数である。Nは窓関数の幅を決めるパラメータであり、|n|≧Nであるnに対して、h[n]=0とする。窓関数としては、ハン窓、ハニング窓、ガウス窓等、任意の窓関数を用いることができる。実施形態では、式(2)のガウス窓を使用する。
【0037】
【数2】
ここで、σは窓関数の幅を調整するパラメータである。
【0038】
実信号のFFT結果は、正負の周波数出力が互いに複素共役の関係にあるため、負の周波数を扱う必要はない。N=N/2として、0≦k≦Nの範囲の周波数ビンのみを扱えばよい。また、N=1のときの逆FFTを、加算と加算後の定数倍だけですませるために、式(3)の変換を行っておく。加算と乗算のみの演算により計算量を軽減する。
【0039】
【数3】
逆FFTは、ミキシング装置1の周波数時間変換部16で行われる。実施形態の信号処理部15は位相処理を行わず、振幅処理だけで入力信号を混合する。これはFFTの点数Nが少ないためである。一例として、N=256、サンプリング周波数F=44.1kHzとする。これらの条件では音声の線スペクトル構造を分解するには不十分であり、ひとつの周波数ビンに複数の高調波成分が混在し位相の利用が困難になる。
【0040】
実施形態では振幅処理のみを行うので、ミキシング出力Y[i,k]は、X1[i,k]とX2[i,k]に、それぞれゲインα1[i,k]とα2[i,k]を乗算して加算することで生成される。
【0041】
【数4】
時間領域での出力yは、式(4)のY[i,k]を逆FFTして得られる。
【0042】
【数5】
ここで、1サンプルシフト(N=1)の場合は、nをゼロに固定してもyを生成できるので、式(6)のように簡単な処理になる。
【0043】
【数6】
さらに、X[i,k]について、式(3)の変換をしておくことで、加算する周波数ビン数を、式(7)のようにほぼ半分に減らすことができる。
【0044】
【数7】
<平滑化パワーの計算>
次に、信号処理部15による平滑化パワーの計算を説明する。パワーの平滑化に先立って、時間周波数領域の信号Xj[i,k]の絶対値の2乗(|Xj[i,k]|)を計算し、これを平滑化する。平滑化として、たとえば式(8)で示される指数平滑化を用いる。指数平滑化法は、計算量と必要なメモリ量が少ないので、FPGA化に適している。
【0045】
【数8】
ここで、μは指数平滑化法の係数であり、平滑の時定数τから式(9)で導出する。
【0046】
【数9】
式(8)をIIR(Infinite Impulse Response)型ディジタルフィルタとみたとき、そのインパルス応答がピーク値の1/eに減衰する時間がτである。実施形態では、平滑化に指数平滑化を用いるが、FIR(Finite Impulse Response)フィルタ、IIRフィルタ等、任意の平滑化法を用いることができる。
<最小可聴パワーの計算>
入力信号のミキシングには、時間周波数平面上での各点の成分について、それが聴こえる成分なのか、聴こえない成分なのかを判定する必要がある。そのために、それぞれの音源jの各周波数ビンkについて、その成分が可聴であるための最小のパワーA[k]を定義する。
【0047】
図9(A)は、国際標準化規格ISO 226:2003で規定された等ラウドネス曲線のうち、20 phonと70 phonの曲線から主要部分を抽出してサンプリングしたものである。これらをそれぞれC20[k]とC70[k]と呼ぶ。
【0048】
本来であれば、0 phonの曲線が最小可聴パワーである。しかし、リスナーにどのような音量で音が提示されるかは電気音響装置のボリューム設定によってその都度違うので、実施形態のミキシング装置1の信号処理部15は、ラウドネスレベルが指定された値になったときに可聴であると判断する。ミキシング装置1のユーザが最小可聴パワーとして、等ラウドネス曲線の中からL phonの曲線を選択できるように設計してもよい。L phonの曲線は、C20[k]とC70[k]を補間または補外した近似値として、式(10)で得ることができる。
【0049】
【数10】
なお、平滑化されたパワーレベルEj[i,k]が可聴であるか否かを判断するとき、Ej[i,k]をCLp[k]と比較することはできず、信号xj[n]の絶対値の最大値xmaxや窓関数h[n]を勘案する必要がある。そこで、CLp[k]を式(11)のように変換し、最小可聴パワーA[k]を導出する。
【0050】
【数11】
ここで、定数Lfは、xj[n]がフルスケールの信号であったときに、それを図9(A)の縦軸の音圧レベル(SPL:Sound Pressure Level)の何dBに相当させるかを自由に設定するための定数である。
【0051】
ミキシング装置1の動作を自由に設定するという観点に立てば、C20[k]とC70[k]をISO 226:2003に準拠させる必然性はなく、図9(B)のような等ラウドネス曲線を生成してもよい。図9(B)の曲線を用いると、8kHz程度の高い周波数の音は可聴とみなされやすくなるので、優先音においてこの帯域付近の成分は尊重されることになる。結果として、優先音にメリハリがつくので、実際に聴いた感じとして高評価が得られやすい。後述する実験結果は、図9(B)のC20[k]とC70[k]を用いている。
<聴感補正パワーの計算>
ゲインを決定するための聴感補正パワーの計算について説明する。聴感補正パワーの計算は図4の処理に該当する。平滑化後のパワーEj[i,k]を最小可聴パワーA[k]で除算した結果が1より大きければ可聴であり、その可聴のレベルは、Ej[i,k]/A[k]で表現される。たとえば、Ej[i,k]/A[k]=100であれば、最小可聴の音に比べて100倍のパワーを持っている。
【0052】
この評価法では除算が生じるが、FPGAは除算が苦手である。そこで、最小可聴パワーA[k]は事前に決定されているので、あらかじめその逆数B[k]を作っておくことで除算を回避する。
【0053】
【数12】
この補正係数B[k]を用いて、平滑化パワーEj[i,k]から聴感補正パワーPj[i,k]を式(14)の乗算により生成する。
【0054】
【数13】
聴感補正パワーPj[i,k]は、時間周波数平面の1点ごとに値が決まる量である。各点での聴感補正パワーPj[i,k]から、式(15)で定義する聴感補正総パワーQj[i]を算出する。
【0055】
【数14】
聴感補正総パワーQj[i]は、各点のパワーを周波数方向に積算した量であり、リスナーが感じることのできる音のエネルギーの簡略化された推定値である。聴感補正総パワーQj[i]は、以下で説明する時区間の属性判定に用いられる。
<時区間の属性判定計算>
信号処理部15は、ミキシング処理を行う際に各時間区間において、有音判定、低SNR(Signal to Noise Ratio:信号対雑音比)判定、及びブースト判定を行う。これらの判定は、上述した処理(4)と関連する。
【0056】
まず、有音判定について説明する。有音でない部分でミキシング処理を行うと、優先信号に含まれるわずかな音、たとえばナレーションの合間の風の音などが増強され、好ましくない混合音が生成される。これを防ぐために、優先音の中でこの時間区間は聴き落してはならないという部分を有音部としてあらかじめ設定しておく。
【0057】
有音部の判定は、有音時に1となる関数e[i]を式(16)により定義する。
【0058】
【数15】
ここで、Teは有音判定のためのパラメータである。たとえば、Te=1.0とすれば、全ビンが可聴判定ぎりぎりであるときに有音と判定される。
【0059】
次に、低SNR判定について説明する。図5図7を参照して説明したように、ミキシング装置1では、優先音のゲインに上限を設ける。このため、優先音が非優先音に比べて極端にレベルが低い場合は、ゲインの上限値を使っても、優先音の聴き取りが困難になる場合がある。これを防ぐため、低SNRか否かを判定し、低SNRと判定された時間区間で上限の引き上げを行う。
【0060】
低SNRの判定は、低SNR時に1となる関数l[i]を式(17)で定義することができる。
【0061】
【数16】
ここで、TSNは低SNR判定のためのパラメータである。たとえば、TSN=10.0とすれば、聴感補正総パワーについて、優先音と非優先音の間に、振幅比で10倍(パワー比で100倍)の開きがあるときに低SNRと判定される。
【0062】
最後に、ブースト判定について説明する。ブースト判定は、優先音が有音であり、かつ低SNRであるときに行われる。ブースト時に1となるb[i]を、式(18)で定義する。
【0063】
【数17】
ブースト判定が真となったときに、除算なしでブースト動作を行うために、ブーストレシオを分数表示したときの分子bと分母bを、それぞれ式(19)と式(20)で求めておく。これらを用いて、各種の評価基準に対してb/bのブーストが行われる。
【0064】
【数18】
<ゲインの生成>
ゲインの生成は実施形態のミキシング処理の核心である。優先音のためのゲインα1[i,k]と、非優先音のためのゲインα2[i,k]を生成する。ミキシング装置1の動作開始時は、両ゲインを1に初期化しておく。すべてのkについて、α1[0,k]=α2[0,k]=1である。
【0065】
今、時間ブロックiに関する処理を始めたところであるとする。このとき、すべてのkについてα1[i−1,k]とα2[i−1,k]がすでに決定している。α1[i,k]はα1[i−1,k]にΔ1を使った増減を行うことで更新される。α2[i,k]はα2[i−1,k]にΔ2を使った増減を行うことで更新される。
【0066】
α1[i,k]の増減はα1[i−1,k]に対して(1+Δ1)の乗算、もしくは(1+Δ1)−1の乗算を行うことで実現する。一方、α2[i,k]の増減は、α2[i−1,k]に±Δ2を加算することで行う。
【0067】
このように異なる更新方法を採用する理由を説明する。優先音のためのゲインα1[i,k]は、条件によっては10以上の値にすることがある。特に、α1[i,k]が大きいときには変化の差分を大きくする必要があり、乗算的更新が適している。一方、非優先音のためのゲインα2[i,k]は、0から1の範囲に限定されているため、一定刻みで十分であるし、一定刻みのほうが低レベルになったときの信号の抑圧をシャープに行うことができる。
【0068】
ゲインα1[i,k]、α2[i,k]の更新を加減算と乗算のみにしたのは、処理(5)で説明したとおり、演算を軽くするためである。方程式を解いて次のゲインを決めるという方法では、多くの場合、除算や平方根等が発生する。また、ゲインが大きく変動して出力波形に不連続が生じることも懸念される。
【0069】
これに対し、実施形態では微小量の増減に限定することで、ゲインは滑らかに変化し、出力に段差が生じることを抑止できる。
(A)ゲイン調整信号の聴感補正パワーの計算
もし、ゲインの増減を行わず、ひとつ前のフレームのゲインαj[i−1,k]をそのまま用いた場合、すなわち、αj[i,k]=αj[i−1,k]とした場合、音源jに関する優先音と非優先音の聴感補正パワーは、それぞれ式(21)と式(22)で表される。
【0070】
【数19】
このとき、ミキシング出力の聴感補正パワーL[i,k]は、両音源の寄与の和として式(23)で表される。
【0071】
【数20】
優先音のゲインを増加させた場合の聴感補正パワーをL1p[i,k]と定義しておく。
【0072】
【数21】
増加時のミキシング出力の聴感補正パワーをL[i,k]とする。
【0073】
【数22】
非優先音のゲインをΔ2だけ減少させた増加させた場合の聴感補正パワーをL2m[i,k]と定義しておく。
【0074】
【数23】
調整後のゲインα1[i,k]を用いた場合の優先音に関する聴感補正パワーをL1α[i,k]と定義しておく。
【0075】
【数24】
(B)操作する帯域の制限
次に、ゲイン調整する帯域の制限について説明する。0Hzに相当する周波数ビンの信号ゲインを操作すると、音の自然感が損なわれる場合がある。また、高い周波数の信号ゲインを操作すると、聴き取り易さ向上のメリットよりも耳障りな音の付加というデメリットが大きくなる場合がある。
【0076】
そこで、優先音に対しては、f1L≦f≦f1Hの範囲にある周波数fでのみα1[i,k]を更新する。この範囲は、周波数ビンkの範囲で、k1L≦k≦k1Hの範囲に相当する。ただし、
1L=rd(N1L/F
1H=rd(N1H/F
である。ここで、「rd()」は最も近い整数への丸め関数(四捨五入関数)を意味する。
【0077】
非優先音に対しても、同様に、f2L≦f≦f2Hの範囲に限定してゲイン調整を行い、k2L≦k≦k2Hを満たすα2[i,k]だけを増減させる。
(C)α1を増加するための条件
α1の増加、すなわちα1[i,k]=(1+Δ1)×α1[i−1,k]の演算を行うのは、式(28)〜(32)の条件がすべて満たされるときである。
【0078】
【数25】
式(28)と式(29)は、優先音と非優先音の双方が可聴であるときにのみ増加を行うことを規定している。式(30)は、混合音の対数強度(パワー)が優先音と非優先音の対数強度の和を上回らないように働く(対数強度の和の原理)。式(31)は、優先音に対するゲインを一定値(T1H)以下に抑えるように働く。式(32)は、単純加算の場合の混合と比較して、時間周波数平面の局所であってもパワーの上昇を一定限界(振幅比でT倍)以下に抑えるように働く(処理(3)の条件(a))。
【0079】
式(30)〜(32)に対しては、低SNR判定時には補正をかけるのが望ましい。この補正は、P1を(b/b)P1に置き換えることによって優先音のレベルを上昇させたとみなすことによって行われる。
(D) α1を減少するための条件
α1の減少、すなわちα1[i,k]=(1+Δ1)−1×α1[i−1,k]の演算を行うのは、式(33)〜(37)のいずれかが成り立ち、かつ式(38)が成り立つときである。
【0080】
【数26】
式(33)と式(34)は、時間周波数平面上の点(i,k)において、優先音と非優先音の少なくとも一方が可聴レベルを満たさない場合は、優先音のゲインを戻すことを意図する。式(35)は、混合音の対数強度が優先音と非優先音の対数強度の和を上回っている場合に、優先音のゲインを戻すように働く。式(36)は、優先音に対するゲインα1があらかじめ設定された上限T1Hを超えていたとき、その超過を解消する方向に働く(処理(3)の条件(b))。式(37)は、単純加算による混合音に所定の倍率(比率)Tを乗算したレベル(図6参照)を超える場合に優先音のゲインを戻す方向に働く。式(38)は、優先音のゲイン値が1よりも大きいときにのみ減少させることを示す。
【0081】
式(33)〜(36)は、式(28)〜(31)の否定である。一方、式(37)は式(32)の否定になっていない。式(37)は、修正前に対する条件式であり、式(32)は修正後に対する条件式であるという差異がある。この差異により、ゲインが振動することを抑制している。
【0082】
このような減少操作によって、α1は増加の必要がないときには1に戻っていく。減少操作によってα1[i,k]<1となってしまった場合は、1を強制代入することで、α1[i,k]=1を回復させる。この回復操作がある場合は、式(38)の条件は必ずしも必要ではないが、ソフトウエア実装の場合は、無駄な乗算時間の増大を防止するため、FPGA実装の場合は消費電力抑制のために、式(38)の判定があったほうがよい。
【0083】
α1の増加と減少の条件がどちらも満たされない場合は、値の保持、すなわちα1[i,k]=α1[i−1,k]を行う。
(E)α2を減少するための条件
α2の減少、すなわちα2[i,k]=α2[i−1,k]−Δ2の演算を行うのは、式(39)と式(40)の双方が満たされる場合である。
【0084】
【数27】
式(39)は、優先音のパワー増加分を超えない量であれば、非優先音のパワーを減少させてもよいことを示す。式(40)は、非優先音に対するゲインを一定値(T2L)以上に保つように働く。
(F)α2を増加するための条件
α2の増加、すなわちα2[i,k]=α2[i−1,k]+Δ2の演算を行うのは、式(41)と式(42)の双方が満たされる場合である。
【0085】
【数28】
式(41)は、この時点までに決定されたゲインα1[i,k]、α2[i−1,k]を用いると、優先音のパワー増加分よりも非優先音のパワー減少のほうがおおきくなってしまうことを示している。式(41)は式(39)の否定に近いが、式(41)は修正前に対する条件式であるのに対し、式(39)は修正後に対する条件式であるという差異がある。この差異によって、ゲインが振動することを防止する。
【0086】
この操作により、α2は減少させる必要がないときは1に戻っていく。α2の増加によりα2[i,k]>1となった場合は、1を強制代入することで、α2[i,k]=1を回復する。
【0087】
α2の増加と減少の条件がどちらも満たされない場合は、値の保持、すなわちα2[i,k]=α2[i−1,k]を行う。
<動作例>
図10は、実施形態のミキシング装置1の動作例を示す図である。2つの音源セット(セット1、セット2)を用意し、各音源セットで音声を優先音とし、楽器音を非優先音とした。図10(A)はブーストが効いていない場合の例、図10(B)はブーストが効いている場合の例であり、ともに音源セット1を対象にしたものである。上述のように、優先音が有音であって、かつ低SNRのときにブースト処理が行われる。図10(A)と図10(B)はともに、修正前の各種変量をプロットしている。
【0088】
図中のMULは、bP1・P2/b(bn/bdはブーストレシオ)であり、PLUSは、T(bP1+bP2)/bである。図中のLは、式(23)で定義したミキシング出力の聴感補正パワーLである。LをMULを超えない範囲でできるだけ大きくするというのが式(30)の条件であり、LをPLUSを超えない範囲でできるだけ大きくするというのが式(32)の条件である。
【0089】
図10(A)と図10(B)の双方で、MULとPLUSの大小関係は周波数に依存しており、常にどちらかが高いということはない。このことから、式(30)と式(32)の条件は両方とも効いており、併用すべきであることがわかる。
<発展例1>
発展例1として、ゲインの平滑化による改良例を示す。上述した方法で、2つの音源セットのいずれに対しても良好な結果を得ることができたが、入力のSNRが低い部分で混合音がやや聴き取りにくくなることがわかった。
【0090】
その原因を探ったところ、優先音のゲインα1の上昇が穏やかすぎて必要な値が確保できていないためであるとわかった。これに対処するためにはゲイン増加のステップサイズΔ1を大きくすればよいが、Δ1を大きくすると、ゲインの推移やゲインの差分の推移に大きな不連続が生じるおそれがある。この場合、スペクトルの散逸(ノイズの発生)が起こってしまう。
【0091】
そこで、発展例1では、以下のようにしてα1、α2を平滑化し、平滑化されたゲインβ1、β2を用いる。これによってゲイン調整のステップサイズΔ1、Δ2を10倍以上に大きくしても、スペクトル散逸の問題を回避することができる。
【0092】
【数29】
ここで、ηは指数平滑化法の係数であり、平滑の時定数ταから式(44)で導出する。
【0093】
【数30】
このようにして生成したβ1、β2は、上述した音源セット1、セット2のいずれに対しても良好なミキシング結果をもたらす。計算負荷や回路規模に支障がなければ、発展例1のゲインの平滑化を行うのが望ましい。
【0094】
図11は、音源セット2を用い、平滑化されたゲインβ1、β2でミキシングしたときのミキシング装置1の動作状態を示す。図11で、横軸は時間、縦軸は周波数である。図11(A)は優先信号X1としての音声、図11(B)は非優先信号X2としての音楽、図11(C)は従来の単純加算によるミキシング結果(X1+X2)、図11(D)は実施形態のミキシング結果である。図11(E)は優先信号の平滑化後のパワーE1、図11(F)は非優先信号の平滑化後のパワーE2である(図3参照)。図11(G)は聴感補正後のパワーP1、図11(H)は聴感補正後のパワーP2(図4参照)を諧調表示したものである。
【0095】
図11(G)と図11(H)において、淡い灰色の領域が0dB以上20dB未満、黒色の領域が20dB以上40dB未満、濃い灰色の領域が40dB以上の領域である。すなわち、聴感補正により可聴として取り扱われたのは、白色以外の領域である。図11(G)で、線分eで示される領域が有音判定(e[i])された領域、線分lで示される領域が低SNR判定(l[i])された領域、線分bで示される領域がブースト判定(b[i])された領域である。用いた音源セット2は、優先音のSNRが低い音源セットであり、5秒以降の時間区間では、有音区間はすべてブースト処理の対象となっている。
【0096】
図11(I)は、発展例1で平滑化されたゲインβ1に基づいて作成された優先音のゲインマスクであり、β1の対数を濃淡表示した図である。白色が0dB、黒色が35dBに相当する。図11(J)は、発展例1で平滑化されたゲインβ2に基づいて作成された非優先音のゲインマスクであり、β2の値を濃淡表示した図である。白色が1.0、黒色が0.0に相当する。
【0097】
図11(I)及び図11(J)のゲインマスクを用いてゲイン調整した後に加算することによって、時間周波数平面でのきめ細かなミキシングが可能になる。従来法による図11(C)では、低周波領域で非優先音(ギター)の成分しか見えないのに対し、図11(D)では、優先音(音声)の成分が混ざりあっている。
<発展例2>
上述した実施形態では、演算量を低減するために、方程式を解くのではなく、不等式の真偽判定による逐次更新を行っている(処理(5))。特に、FPGAの実装に際しては、極力処理を簡略化したい。そこで、70 phonと20 phonのラウドネス曲線を信号処理部15にセットして、式(10)〜(12)により順次CLp[k]、A[k]、B[k]を導出する方法に替えて、最初からB[k]を与える。たとえば出荷時に補正係数B[k](最小可聴パワーA[i]の逆数)を定数テーブルとして与えておく。動作中に一時的に合理性を無視しても特に強い優先感を与えたくなったりしたなどの場合、B[k]に強制的に任意の値を代入して自由に好みの特性を持たせることも可能である。
【0098】
図12は、図9(B)の等ラウドネス曲線を設定し、発展例2を適用したときの補正係数B[i]の具体例を示す。図12の場合、B[i]をテーブルとして記憶する替わりに関数としてあらかじめ記憶しておいてもよい。
<処理フロー>
図13A及び図13Bは、ミキシング装置1の信号処理部15のゲイン決定部151で実行されるゲイン決定の処理の一例を示すフローである。この処理フローは、ゲインαを平滑化してゲインβを生成する発展例1に対応する。
【0099】
まず、α1[k]、α2[k]、β1[k]、β2[k]をすべての周波数ビンkについて「1」に初期化し、聴感補正総パワーQ1=0、Q2=0、i=0に設定して係数B[k]を読み込む(S11)。k=0から処理を開始し(S12),平滑化パワーE1[i,k]、E2[i,k]を読み込んで(S13)、聴感補正パワーP1[i,k]、P2[i,k]を求め(S14)、聴感補正総パワーQ1[i]とQ2[i]を計算する(S15)。kの値をインクリメントして(S16)、kが周波数ビン数Nに達するまで(S17でNO)、S13〜S16を繰り返す。これは、周波数ビンkについてのループの1回目のパスである。
【0100】
kがNを超えると(S17でYES)、有音判定結果e[i]、低SNR判定結果l[i]、ブースト判定結果b[i]、ブーストレシオの分子b[i]、ブーストレシオの分母b[i]を求めて(S18)、kについてのループの2回目のパスの処理を開始する(S19)。周波数ビンkについて、優先音のkがゲイン調整する最低ビンk1Lと最高ビンk1Hの範囲内にあるか否かを判断する(S20)。範囲内にある場合に、平滑化パワーE1[i,k]、E2[i,k]を読み込み(S21)、P1(優先音の聴感補正パワー),P2(非優先音の聴感補正パワー)、L1(更新前のゲインα1での優先音の聴感補正パワー)、L1p(優先音のゲインを増加させたときの聴感補正パワー)、L2(更新前のゲインα2での非優先音の聴感補正パワー)、L2m(非優先音のゲインをΔ2減少させたときの聴感補正パワー)、L(式(23))、L(式(25))を求める(S22)。
【0101】
求めた値を用いて、式(28)〜式(32)のすべてが成立するか否か、すなわちα1を増加するか否かを判断する(S23)。成立する場合に(S23でYES)、α1を増加し(S24)、成立しない場合は(S23でNO)、α1を維持する。
【0102】
次に、式(33)〜式(37)のいずれかが成立し、かつ式(38)が成立するか否か、すなわちα1を減少するか否かを判断する(S25)。S25の条件が満たされない場合はα1を維持し、満たされる場合にα1を減少する(S26)。さらに、減少後のα1が1未満か否かを判断する(S27)。α1が1未満になった場合はα1を1に戻し(S28)、α1が1以上であれば更新されたα1を維持する。
【0103】
続いて、非優先音のkがゲイン調整する最低ビンk2Lと最高ビンk2Hの範囲内にあるか否かを判断する(S29)。範囲内にある場合に、L1a(調整後のゲインα1を用いた場合の優先音に関する聴感補正パワー)を求め(S30)、式(39)と式(40)が成立するか否か、すなわちα2を減少するか否かを判断する(S31)。成立する場合に(S31でYES)、α2を減少し(S32)、成立しない場合は(S31でNO)、α2を維持する。
【0104】
次に、式(41)と式(42)が成立するか否か、すなわちα2を増加するか否かを判断する(S33)。S33の条件が満たされない場合はα2を維持し、満たされる場合にα2を増加する(S34)。さらに、増加後のα2が1を超えるか否かを判断し(S35)、1以下であれば増加後のα2を維持し、1を超える場合はα2を1に戻す(S36)。
【0105】
次に、式(43)に基づき、α2とα1をそれぞれ平滑化してβ2とβ1を生成し(S37及びS38)、β1とα1を出力する(S39)。その後、kをインクリメントして(S40)、kがNに達するまで(S41でNO)、S20〜S40を繰り返す。
【0106】
kがNを超えると(S41でYES)、時間ブロックiをインクリメントして(S42),最後の時間ブロックiになるまで(S43でNO),S12〜S42を繰り返し、最後の時間ブロックiの処理が終わったらプロセスを終了する。
【0107】
図13A及び図13Bの処理では、ブーストレシオの分子b[i]と分母b[i]を決定するために(S18)、すべての周波数ビンkについてX1[i,k]とX2[i,k]を参照しなければならない。一方、ゲインα1[k]とα2[k]の更新には、X1[i,k]とX2[i,k]だけではなく、b[i]とb[i]が必要である。このため周波数ビンkについてのループ処理を2回行わないと、ゲインを1回更新することができない。
【0108】
そこで、図14では、ブーストレシオだけは前回のサンプルで計算しておき、これを流用することによって、2パスの処理から1パスの処理へ軽減する。これにより、回路の簡素化や高速化が実現する。
【0109】
図14では、図13A及び図13Bとの差分のみを説明する。S11〜S15で、初期化、必要なパラメータの読み込みと算出を行った後、S20に飛んで、S21〜S28によるα1の調整と、S29〜S36によるα2の調整を行う。その後、調整後のα1、α2を平滑化してβ1、β2を求め、着目している時間ブロックiについて処理範囲のすべての周波数kについてゲインを求める(S13〜S41の繰り返し)。その後、時間ブロックiをインクリメントし(S42)、e[i]、l[i]、b[i]、b[i]、b[i]を求め(S51)、これらのパラメータを次の時間ブロックi=i+1の処理に用いる。
【0110】
この簡略化について、優先音のSNRが低い音源セット2について調べたところ、出力値は完全に同一ではないが、その差分は聴き取ることのできない微小なレベルであった。
【0111】
以上述べた方法により、入力信号1と入力信号2のそれぞれにつき、合理的な判定基準に基づいて最適なゲイン値を決定することができる。また、加減算と乗算のみの演算による逐次更新により、演算量を大幅に低減することができる。
【0112】
上述した信号処理部15の処理は、ハードウエアによってもソフトウエアによっても実現することができる。信号処理部15の処理により、入力信号をそのまま用いてミキシング処理を行い、自然な聴感で優先音を目立たせ(処理(1)の対数強度の和の原理)、非優先音を違和感なく抑制することができる(処理(2)の穴埋めの原理)。優先音と非優先音のゲインを決める規範が合理的に決められているため(処理(1)〜処理(3))、ユーザが音を聴きながらパラメータの調整をする必要はない。
【0113】
非優先音に対して優先音のパワーが極端に小さい場合でも、優先音を目立たせることができる(処理(4))。たとえば、音楽にナレーションを重ねる場合に、ささやき声でも音楽に埋もれることなく聴き取らせることができる。
【0114】
また、乗算と加減算だけでゲインを更新する手法により、FPGA上へのハードウエア実装が容易になる(処理(5))。また、DAW上のプラグインとして実装し、リアルタイムに動作するミキシング装置が実現される。これは、逐次更新によって計算負荷を軽くしたことと、ゲインだけの調整で高性能のミキシングが可能になったためFFTの点数を256点程度まで小さくできることから生じる効果である。
【0115】
なお、優先音と非優先音のパワーの平滑化は必須ではなく、時間周波数平面上に展開された入力信号のパワーから直接ゲインα1、α2を求めてもよい。
【0116】
上述したミキシング装置は、入力されたオーディオ信号を、合理的に決定されるゲインを用いて高速に自動合成できるため、レコーディングだけではなく、ニュース速報、カーナビゲーション、ディスクジョッキー、会議、カラオケ装置などに広く適用することができる。たとえば、番組を邪魔せずに緊急速報を報道する、カーステレオで音楽を流している場合でもカーナビゲーションの音声が聴こえやすい、ディスクジョッキーが音楽の音量を下げずにトークできる、会議時に司会者の声を際立たせる、伴奏に対してボーカル音を自動調整する、などである。
【0117】
また、パソコンやスマートフォン等のユーザ端末装置にミキシングプログラムをインストールすることで、ユーザが所望の音楽をミキシングし、あるいは所望の画像に所望の音楽を重畳して、通信相手に送信することができる。受信側では、受け取ったデータに対してさらに音声を重畳して保存、あるいは返信することができる。
【符号の説明】
【0118】
1 ミキシング装置
11 信号入力部
12 周波数解析部
15 信号処理部
16 周波数時間変換部
17 信号出力部
151 ゲイン決定部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13A
図13B
図14