【解決手段】制御対象帯域について、優先オーディオ信号及び非優先オーディオ信号の振幅スペクトルに対し、周波数マスキング及び時間マスキングを考慮した重み付けを行う重み付け部と、重み付け処理後の振幅スペクトルに基づいて、制御対象帯域において優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更部と、重み付け処理後の振幅スペクトルに基づいて、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに近付ける位相変更部と、振幅スペクトル及び位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシング部とを備えるミキシング処理装置を提供する。
聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、前記優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングするミキシング処理装置において、
所定の制御対象帯域について、前記優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行う重み付け部と、
前記重み付け部による重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、前記制御対象帯域において前記優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更部と、
前記重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、前記制御対象帯域において前記非優先オーディオ信号の位相スペクトルを前記優先オーディオ信号の位相スペクトルに近付ける位相変更部と、
前記振幅変更部による振幅スペクトルの変更処理及び前記位相変更部による位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシング部と、
を備える、
ミキシング処理装置。
聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、前記優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングするミキシング処理方法において、
所定の制御対象帯域について、前記優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルに対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行う重み付けステップと、
前記重み付けステップでの重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、前記制御対象帯域において前記優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更ステップと、
前記重み付け処理後の振幅スペクトルに基づいて、前記優先オーディオ信号及び前記非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、前記制御対象帯域において前記非優先オーディオ信号の位相スペクトルを前記優先オーディオ信号の位相スペクトルに近付ける位相変更ステップと、
前記振幅変更ステップでの振幅スペクトルの変更処理及び前記位相変更ステップでの位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシングステップと、
をコンピュータに実行させる、
ミキシング処理方法。
【発明を実施するための形態】
【0024】
以下、本発明の実施形態について図面を参照しながら説明する。以下においては、本発明の一実施形態として、車両に搭載されたミキシング処理装置を例に取り説明する。なお、本発明に係るミキシング処理装置は車載されたものに限らない。
【0025】
図1は、本発明の一実施形態に係るミキシング処理装置1の構成を示すブロック図である。ミキシング処理装置1は、聴取者に優先的に聞き取らせたい優先音の優先オーディオ信号と、優先オーディオ信号よりも優先度の低い非優先音の非優先オーディオ信号とをミキシングする装置である。
図1に示されるように、ミキシング処理装置1は、FFT部10A、10B、帯域分割部12A、12B、位相算出部14A、14B、振幅算出部16A、16B、重み算出部18、スペクトル制御部20A、20B、複素数算出部22A、22B、加算器24A、24B、26及びIFFT部28、システムコントローラ30及び操作部32を備える。
【0026】
FFT部10A、10Bには、それぞれ異なる音源よりオーディオ信号が入力される。本実施形態では、FFT部10Aには、図示省略されたナビゲーション装置より音声信号(より詳細には、音声ガイダンス信号)が入力される。FFT部10Bには、図示省略された車載オーディオ装置より楽曲信号が入力される。
【0027】
ミキシング処理装置1は、ナビゲーション装置より音声ガイダンス信号が入力されると、この音声ガイダンス信号と楽曲信号とをミキシングして車室内の各スピーカに出力する。これにより、車室内において楽曲が流れている最中に音声ガイダンスが再生される。本実施形態では、このように、車室内において楽曲が流れている最中に音声ガイダンスが再生される場合にも、楽曲による音声ガイダンスのマスキングを抑制することができ、音声ガイダンスの聞き取りやすさを担保することができる。本実施形態では、音声ガイダンスを「優先音」とし、楽曲を「非優先音」とする。優先音の信号である音声ガイダンス信号を「優先オーディオ信号」と記し、非優先音の信号である楽曲信号を「非優先オーディオ信号」と記す。
【0028】
システムコントローラ30は、ナビゲーション装置より入力されるオーディオ信号(すなわち音声ガイダンス信号)を優先オーディオ信号と判定するとともに、車載オーディオ装置より入力されるオーディオ信号(すなわち楽曲信号)を非優先オーディオ信号と判定し、ミキシング処理装置1の各部を制御する。
【0029】
システムコントローラ30は、一例として、オーディオ信号の音源(本実施形態では、ナビゲーション装置、車載オーディオ装置)によって、そのオーディオ信号が優先オーディオ信号であるか非優先オーディオ信号であるかを判定する。システムコントローラ30は、オーディオ信号に含まれるメタ情報(例えば優先オーディオ信号であるか非優先オーディオ信号であるかを示す情報)によって、そのオーディオ信号が優先オーディオ信号であるか非優先オーディオ信号であるかを判定してもよい。
【0030】
何れの音源のオーディオ信号を優先オーディオ信号又は非優先オーディオ信号とするかは、操作部32に対する操作によって聴取者が任意に設定できるようにしてもよい。
【0031】
FFT部10A、10Bは、音源より入力されたオーディオ信号に対してオーバラップ処理と窓関数による重み付けを行う。FFT部10A、10Bは、オーバラップ処理及び窓関数による重み付けが行われたオーディオ信号を、短時間フーリエ変換処理によって時間領域から周波数領域に変換し、周波数スペクトルとして、それぞれ、帯域分割部12A、12Bに出力する。すなわち、FFT部10A、10Bは、それぞれ、優先オーディオ信号、非優先オーディオ信号をオーバラップして周波数領域の信号に変換する第一変換部として動作する。
【0032】
図2は、FFT部10A、10Bに入力されるオーディオ信号と、このオーディオ信号に対して短時間フーリエ変換処理を行う場合のフーリエ変換長Nとオーバラップ長Mを示す図である。
図2に示されるように、FFT部10A、10Bは、フーリエ変換長Nとオーバラップ長Mとの差分時間ずつ時間シフトしながら短時間フーリエ変換を行う。これにより、フーリエ変換長Nとオーバラップ長Mとの差分時間ずつ時間をシフトしたn個の周波数スペクトルが求まる。
【0033】
図3は、時間シフト毎の振幅スペクトルを示す図である。
図3では、時間t
0の振幅スペクトル、時間t
1の振幅スペクトル及び時間t
2の振幅スペクトルを示す。
図3の各振幅スペクトル図では、周波数毎(f
0,f
1,f
2,・・・,f
N−2,f
N−1)の振幅を示す。フーリエ変換長Nの場合には、振幅スペクトルの総数はN個となる。楽曲信号や音声ガイダンス信号は非定常的な信号であるため、
図3に示されるように、振幅スペクトルは各シフト時間で変動する。
【0034】
このように振幅スペクトルが変動した場合の、周波数毎の振幅スペクトルの時間変動を、
図4に示す。
図4では、周波数f
0の振幅スペクトルの時間変動、周波数f
1の時間変動及び周波数f
N−1の時間変動を示し、時間変動毎(t
0,t
1,t
2・・・)の振幅を示す。時間のシフト間隔は、周波数スペクトルのサンプリング周波数となる。
【0035】
帯域分割部12A、12Bは、BPF120及びBSF122を備える。
図5は、BPF120及びBSF122のフィルタ特性を示す。
図5中、縦軸は、パワー(単位:dB)を示し、横軸は、周波数(単位:Hz)を示す。
図5中、破線がBPF120のフィルタ特性を示し、一点鎖線がBSF122のフィルタ特性を示し、実線がBPF120のフィルタ特性とBSF122のフィルタ特性とを合成した特性を示す。
【0036】
BPF120は、FFT部10A(又はFFT部10B)より入力される周波数スペクトルのうち、制御対象となる帯域(以下「制御対象帯域」と記す。)のみ通過させて、位相算出部14A及び振幅算出部16A(又は位相算出部14B及び振幅算出部16B)に出力する。
【0037】
BSF122は、FFT部10A(又はFFT部10B)より入力される周波数スペクトルのうち、制御対象帯域を阻止するとともに制御対象帯域以外の帯域を通過させて、加算器24A(又は加算器24B)に出力する。
【0038】
制御対象帯域は、優先オーディオ信号の帯域である。本実施形態では、人の声の信号である音声ガイダンス信号が優先オーディオ信号であることから、130Hz〜8,000Hzが制御対象帯域に設定されている。
【0039】
例えば操作部32に対する操作によって聴取者が優先オーディオ信号の音源を変更すると、制御対象帯域は、変更後の音源のオーディオ信号の帯域に変わる。制御対象帯域は、操作部32に対する操作によって聴取者が任意に変更することもできる。
【0040】
位相算出部14A、振幅算出部16Aは、帯域分割部12Aより入力される制御対象帯域の周波数スペクトルから、それぞれ、制御対象帯域の位相スペクトル、振幅スペクトルを算出する。以下、説明の便宜上、位相算出部14Aにて算出された制御対象帯域の位相スペクトルを「位相スペクトルpA」と記し、振幅算出部16Aにて算出された制御対象帯域の振幅スペクトルを「振幅スペクトルaA」と記す。位相算出部14Aは、算出された制御対象帯域の位相スペクトルpAをスペクトル制御部20A及び20Bに出力する。振幅算出部16Aは、算出された制御対象帯域の振幅スペクトルaAを重み算出部18及びスペクトル制御部20Aに出力する。
【0041】
位相算出部14B、振幅算出部16Bは、帯域分割部12Bより入力される制御対象帯域の周波数スペクトルから、それぞれ、制御対象帯域の位相スペクトル、振幅スペクトルを算出する。以下、説明の便宜上、位相算出部14Bにて算出された制御対象帯域の位相スペクトルを「位相スペクトルpB」と記し、振幅算出部16Bにて算出された制御対象帯域の振幅スペクトルを「振幅スペクトルaB」と記す。位相算出部14Bは、算出された制御対象帯域の位相スペクトルpBをスペクトル制御部20A及び20Bに出力する。振幅算出部16Bは、算出された制御対象帯域の振幅スペクトルaBを重み算出部18及びスペクトル制御部20Bに出力する。
【0042】
図6は、重み算出部18の構成を示すブロック図である。
図6に示されるように、重み算出部18は、周波数軸重み算出部180A、180B、時間軸重み算出部182A、182B及び制御ゲイン算出部183を備える。
【0043】
周波数軸重み算出部180A、180Bは、それぞれ、振幅算出部16A、16Bより入力される制御対象帯域の振幅スペクトルaA、aBに対し、周波数マスキングを考慮した重み付けを行う。
【0044】
図7に、周波数軸重み算出部180Aの構成及び動作を説明する図を示す。なお、周波数軸重み算出部180Bについては、周波数軸重み算出部180Aと構成が同じであるため、その詳細な説明を省略する。
【0045】
図7に示されるように、周波数軸重み算出部180Aは、複数のLPF(符号F
0,F
1,・・・,F
k)及び加算器ADを備える。各LPFには、制御対象帯域内の各周波数の振幅スペクトルが入力される。
図7では、各LPFに入力される振幅スペクトルの具体例として、
図3の時間t
0の振幅スペクトルを示している。
【0046】
図8に、周波数軸重み算出部180Aが備える各LPFの特性を示す。
図8中、縦軸は、パワー(単位:dB)を示し、横軸は、正規化周波数(単位なし)を示す。
図8では、一例として、1オクターブずつ異なる周波数(125Hz、250Hz,500Hz,1,000Hz,2,000Hz,4,000Hz,8,000Hz)の振幅スペクトルに適用されるLPFの特性を示す。
【0047】
周波数軸重み算出部180Aが備える各LPFは、入力された周波数の振幅スペクトルに対し、ローパスフィルタリング処理を行って、加算器ADに出力する。加算器ADは、各LPFより入力される振幅スペクトル(すなわち、フィルタリング後の各周波数の振幅スペクトル)を加算する。フィルタリング後の各周波数の振幅スペクトルが加算器ADにて加算された結果、制御対象帯域について、周波数マスキングを考慮した重み付けがなされた振幅スペクトルが得られる。
【0048】
以下、説明の便宜上、周波数軸重み算出部180A、180Bより出力される信号(すなわち、周波数マスキングを考慮した重み付けがなされた振幅スペクトル)を、それぞれ、「振幅スペクトルfmA」、「振幅スペクトルfmB」と記す。
【0049】
一般に、周波数スペクトルの信号をフィルタリングすると、一部の周波数成分が不均一に遅延して出力される。本実施形態では、各LPFを通過する振幅スペクトルが不均一に遅延すると、加算器ADにて加算した結果得られる制御対象帯域の振幅スペクトルが全体として滑らかにならない。そこで、周波数軸重み算出部180Aには、位相歪が生じない(すなわち、遅延が発生しない)LPFが用いられている。
【0050】
図9に、125Hz、250Hz,500Hz,1,000Hz,2,000Hz,4,000Hz,8,000Hzの周波数成分を持つ正弦波の振幅スペクトルに対し、周波数軸重み算出部180Aにて周波数マスキングを考慮した重み付けを行った結果得られる振幅スペクトルfmAを示す。
図9中、縦軸は、パワー(単位:dB)を示し、横軸は、周波数(単位:Hz)を示す。
図9中、実線が正弦波に含まれる線スペクトルを示し、破線が振幅スペクトルfmAを示し、一点鎖線が各線スペクトルを中心とした1/3オクターブハンド幅を示す。
【0051】
図9の例では、周波数軸重み算出部180Aによる信号処理により、正弦波に含まれる各周波数成分が広がりを持つスペクトル形状(概ね1/3オクターブハンド幅を持つスペクトル形状)に変換されている。この形状(すなわち、振幅スペクトルfmAの形状)は、聴覚フィルタに近似した形状であり、周波数軸上で正弦波の音が他の音をマスクする範囲を模したものとなっており、また、周波数が高いほど帯域幅がより広がったものとなっている。このように、周波数軸重み算出部180Aでは、制御対象帯域の振幅スペクトルaAに対し、周波数マスキングを考慮した重み付けがなされることが判る。
【0052】
時間軸重み算出部182A、182Bは、それぞれ、周波数軸重み算出部180A、180Bより入力される振幅スペクトルfmA、fmBに対し、時間マスキングを考慮した重み付けを行う。
【0053】
以下、説明の便宜上、時間軸重み算出部182A、182Bより出力される信号(すなわち、周波数マスキングに加えて時間マスキングも考慮した重み付けがなされた振幅スペクトル)を、それぞれ、「振幅スペクトルftmA」、「振幅スペクトルftmB」と記す。
【0054】
時間マスキングを考慮した重み付けは、例えば特許第5898534号公報に記載された技術を用いて行うことができる。
図10に、この文献に記載された技術を適用して構成した時間軸重み算出部182Aの構成をブロック図で示す。なお、時間軸重み算出部182Bについては、時間軸重み算出部182Aと構成が同じであるため、その詳細な説明を省略する。
【0055】
図10に示されるように、時間軸重み算出部182Aは、アタック音制御部1821、余韻制御部1822、加算部1823及びリミッタ部1824を備える。
【0056】
アタック音制御部1821及び余韻制御部1822には、振幅スペクトルfmAが周波数軸重み算出部180Aより入力される。
【0057】
図10に示されるように、アタック音制御部1821は、HPF(High Pass Filter)1821a、リミッタ部1821b及びゲイン部1821cを備える。
【0058】
HPF1821aは、入力された振幅スペクトルfmAに対し、周波数毎にハイパスフィルタリング処理を行う。リミッタ部1821bは、ハイパスフィルタリング処理された振幅スペクトルのマイナス側の振幅をゼロに設定する。マイナス側の振幅をゼロに設定することにより、周波数毎の信号の立ち上がり成分、すなわちアタック成分(アタック音)を検出することが可能となる。
【0059】
HPF1821aにおいて設定されるカットオフ周波数の値が大きいほど、アタック音の制御時間が短くなる。言い換えると、この値が小さいほどアタック音の制御時間が長くなる。カットオフ周波数は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域(例えば音源がナビゲーション装置の場合は人の声の帯域)等に基づいて設定される。カットオフ周波数は、操作部32に対する操作によって聴取者が任意に設定することもできる。
【0060】
ゲイン部1821cは、リミッタ部1821bにて検出された振幅スペクトルのアタック成分の重み付けを行い、加算部1823に出力する。
【0061】
加算部1823には、アタック成分の重み付けが行われた振幅スペクトルfmAに加えて、重み付けが行われていない振幅スペクトルfmAが周波数軸重み算出部180Aより入力される。加算部1823は、これらの振幅スペクトルを加算する。これにより、アタック成分の重み付け量がプラスの値の場合には、振幅スペクトルfmAに対してアタック音が増強し、この重み付け量がマイナスの値の場合には、アタック音が低減される。この重み付け量のプラスの値が大きいほどアタック音がより増強され、この重み付け量のマイナスの値が大きいほどアタック音がより低減される。
【0062】
アタック音の重み付け量の値は、例えば−1以上かつ+1以下の値に設定される。この重み付け量の値は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域等に基づいて設定される。この重み付け量の値は、操作部32に対する操作によって聴取者が任意に設定することもできる。
【0063】
図10に示されるように、余韻制御部1822は、HPF1822a、振幅反転部1822b、リミッタ部1822c及びゲイン部1822dを備える。
【0064】
HPF1822aは、入力された振幅スペクトルfmAに対し、周波数毎にハイパスフィルタリング処理を行う。振幅反転部1822bは、HPF1822aにおいてハイパスフィルタリング処理された振幅スペクトルに−1を乗算して、その振幅を反転させる。
【0065】
リミッタ部1822cは、振幅反転後の振幅スペクトルのマイナス側の振幅をゼロに設定する。マイナス側の振幅をゼロに設定することにより、周波数毎の信号の立ち下がり成分、すなわち、アタック音の後に持続する余韻成分(余韻)を検出することが可能となる。
【0066】
HPF1822aにおいて設定されるカットオフ周波数の値が大きいほど、余韻の制御時間が短くなる。言い換えると、この値が小さいほど余韻の制御時間が長くなる。カットオフ周波数は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域等に基づいて設定される。カットオフ周波数は、操作部32に対する操作によって聴取者が任意に設定することもできる。
【0067】
ゲイン部1822dは、リミッタ部1822cにて検出された振幅スペクトルの余韻成分の重み付けを行い、加算部1823に出力する。
【0068】
加算部1823には、余韻成分の重み付けが行われた振幅スペクトルfmAに加えて、重み付けが行われていない振幅スペクトルfmAが周波数軸重み算出部180Aより入力される。加算部1823は、これらの振幅スペクトルを加算する。これにより、余韻成分の重み付け量がプラスの値の場合には、振幅スペクトルfmAに対して余韻が増強し、この重み付け量がマイナスの値の場合には、余韻が低減される。この重み付け量のプラスの値が大きいほど余韻がより増強され、この重み付け量のマイナスの値が大きいほど余韻がより低減される。
【0069】
余韻の重み付け量の値は、例えば−1以上かつ+1以下の値に設定される。この重み付け量の値は、例えば、オーディオ信号の音源、音源から推定されるオーディオ信号の帯域等に基づいて設定される。この重み付け量の値は、操作部32に対する操作によって聴取者が任意に設定することもできる。
【0070】
加算部1823は、振幅スペクトルfmAに、アタック成分の重み付けが行われた振幅スペクトル及び余韻成分の重み付けが行われた振幅スペクトルを加算することにより、アタック音及び余韻の増強又は低減がなされた振幅スペクトルを得て、リミッタ部1824に出力する。
【0071】
リミッタ部1824は、加算部1823より入力される振幅スペクトルのマイナス側の振幅をゼロに設定し、この振幅スペクトル(すなわち、周波数マスキング及び時間マスキングを考慮した重み付けがなされた振幅スペクトルftmA)を制御ゲイン算出部183、スペクトル制御部20A及び20Bに出力する。なお、時間軸重み算出部182Bは、振幅スペクトルftmBを制御ゲイン算出部183にのみ出力する。
【0072】
このように、時間軸重み算出部182Aは、HPF1821a及びHPF1822aのカットオフ周波数並びにアタック音及び余韻の重み付け量に応じて、周波数軸重み算出部180Aより入力される振幅スペクトルfmA(より詳細には、FFT部10Aにて求められたn個の周波数スペクトルの振幅スペクトルfmA)を変更することにより、オーディオ信号(時間軸重み算出部182Aでは優先オーディオ信号)の立ち上がり成分(アタック成分)及び立ち下がり成分(余韻成分)の持続時間を調整することができる。
【0073】
一例として、時間軸重み算出部182Bにおいて、非優先オーディオ信号の立ち下がり成分の持続時間を延ばすことにより、時間軸上で楽曲が音声ガイダンスをマスクする範囲を模すことができる。このように、時間軸重み算出部182Aや182Bにより、制御対象帯域の振幅スペクトルに対し、時間マスキングを考慮した重み付けがなされることが判る。
【0074】
本実施形態では、楽曲による音声ガイダンスのマスキングを抑制して音声ガイダンスの聞き取りやすさを担保する効果を得るべく、制御対象帯域の振幅スペクトルaA、aBに対し、周波数マスキングと時間マスキングの両方を考慮した重み付けを行っている。別の実施形態では、この効果を得るべく、制御対象帯域の振幅スペクトルaA、aBの一方又は両方に対し、周波数マスキングと時間マスキングの一方だけを考慮した重み付けを行ってもよい。このような実施形態においても、同様の効果が得られる(但し、制御対象帯域の振幅スペクトルaA、aBの両方に対し、周波数マスキングと時間マスキングの両方を考慮した重み付けを行った方が高い効果が得られる。)。
【0075】
このように、重み算出部18は、制御対象帯域の振幅スペクトルaA及びaBの少なくとも一方に対し、周波数マスキング及び時間マスキングの少なくとも一方を考慮した重み付けを行う重み付け部として動作する。より詳細には、周波数軸重み算出部180A、180Bは、それぞれ、周波数マスキングを考慮した重み付けを行うことにより、制御対象帯域の振幅スペクトルaA、aBの形状を、その振幅スペクトルを持つ音が周波数軸上で他の音をマスクする範囲を模した形状に広げる。また、周波数軸重み算出部180A、180Bは、それぞれ、制御対象帯域の振幅スペクトルaA、aBに対し、周波数が高いほど帯域幅をより広げる重み付けを行う。また、時間軸重み算出部182A、182Bは、それぞれ、時間マスキングを考慮した重み付けを行うことにより、制御対象帯域の振幅スペクトルaA、aBの形状を、その振幅スペクトルを持つ音が時間軸上で他の音をマスクする範囲を模した形状に広げる。
【0076】
図11に、制御ゲイン算出部183が保持する関数を示す。
図11に示されるように、制御ゲイン算出部183は、第1ゲイン関数と第2ゲイン関数を保持している。制御ゲイン算出部183は、時間軸重み算出部182Aより入力される振幅スペクトルftmAと、時間軸重み算出部182Bより入力される振幅スペクトルftmBとの周波数毎の振幅比を算出し、算出された振幅比を第1ゲイン関数に入力して優先オーディオ信号用の制御ゲインgAを求めるとともに、この振幅比を第2ゲイン関数にも入力して非優先オーディオ信号用の制御ゲインgBを求める。制御ゲイン算出部183は、制御ゲインgAをスペクトル制御部20Aに出力し、制御ゲインgBをスペクトル制御部20Bに出力する。
【0077】
すなわち、制御ゲイン算出部183は、重み付け処理後の優先オーディオ信号と非優先オーディオ信号との、制御対象帯域における振幅比に基づいて、所定の制御値を算出する算出部として動作する。
【0078】
第1ゲイン関数及び第2ゲイン関数によれば、優先オーディオ信号のレベルが非優先オーディオ信号のレベルに対して低いほど、制御ゲインgAが大きくなるとともに制御ゲインgBが小さくなる。言い換えると、優先オーディオ信号のレベルが非優先オーディオ信号のレベルに対して高いほど、制御ゲインgAが小さくなるとともに制御ゲインgBが大きくなる。また、制御ゲインgAはプラスのゲインであり、制御ゲインgBはマイナスのゲインである。
【0079】
図12は、スペクトル制御部20A及び20Bの構成を示すブロック図である。
図12に示されるように、スペクトル制御部20Aは、振幅制御部200A及び位相制御部202Aを備える。スペクトル制御部20Bは、振幅制御部200B及び位相制御部202Bを備える。
【0080】
振幅制御部200Aには、振幅算出部16Aより振幅スペクトルaAが入力され、時間軸重み算出部182Aより振幅スペクトルftmAが入力され、制御ゲイン算出部183より制御ゲインgAが入力される。位相制御部202Aには、位相算出部14A、14Bよりそれぞれ位相スペクトルpA、pBが入力され、時間軸重み算出部182Aより振幅スペクトルftmAが入力され、制御ゲイン算出部183より制御ゲインgAが入力される。
【0081】
振幅制御部200Bには、振幅算出部16Bより振幅スペクトルaBが入力され、時間軸重み算出部182Aより振幅スペクトルftmAが入力され、制御ゲイン算出部183より制御ゲインgBが入力される。位相制御部202Bには、位相算出部14A、14Bよりそれぞれ位相スペクトルpA、pBが入力され、時間軸重み算出部182Aより振幅スペクトルftmAが入力され、制御ゲイン算出部183より制御ゲインgBが入力される。
【0082】
図13は、振幅制御部200A及び位相制御部202Aの構成を示すブロック図である。
【0083】
図13に示されるように、振幅制御部200Aは、乗算器2000A、2001A、比較器2002A、NOT回路2003A、乗算器2004A及び加算器2005Aを備える。
【0084】
乗算器2000Aは、振幅算出部16Aより入力される振幅スペクトルaAを、制御ゲイン算出部183より入力される制御ゲインgAで乗算して、乗算器2001Aに出力する。
【0085】
比較器2002Aは、時間軸重み算出部182Aより入力される振幅スペクトルftmAと閾値Kとを比較し、振幅スペクトルftmAが閾値Kよりも大きい場合に1を出力し、振幅スペクトルftmAが閾値K以下の場合に0を出力する。
【0086】
乗算器2001Aは、乗算器2000Aより入力される振幅スペクトルと比較器2002Aの出力(=0又は1)とを乗算して、加算器2005Aに出力する。すなわち、乗算器2001Aは、振幅スペクトルftmAが閾値Kよりも大きい場合に限り、制御ゲインgAが乗算された振幅スペクトルaAを加算器2005Aに出力する。
【0087】
乗算器2004Aは、振幅算出部16Aより入力される振幅スペクトルaAと、NOT回路2003Aの出力(すなわち、反転された比較器2002Aの出力)とを乗算して、加算器2005Aに出力する。すなわち、乗算器2004Aは、振幅スペクトルftmAが閾値K以下の場合に限り、制御ゲインgAが乗算されていない振幅スペクトルaAを加算器2005Aに出力する。
【0088】
加算器2005Aは、乗算器2001Aより入力される振幅スペクトルと、乗算器2004Aより入力される振幅スペクトルとを加算して、複素数算出部22Aに出力する。
【0089】
すなわち、振幅制御部200Aは、振幅算出部16Aより入力される振幅スペクトルaAを、振幅スペクトルftmAが閾値Kよりも大きい帯域だけ制御ゲインgAを乗算することによって増幅して、複素数算出部22Aに出力する。以下、説明の便宜上、複素数算出部22Aに出力される振幅スペクトルを「振幅スペクトルAA」と記す。
【0090】
なお、本実施形態では、もともとパワーが低い音声ガイダンスの帯域(具体的には振幅スペクトルftmAが閾値K以下の帯域)については、聴取者が聞き取れなくても実質的に問題ない音成分の帯域であるとして、制御ゲインgAによる振幅スペクトルaAの増幅を行っていない。別の実施形態では、音声ガイダンスの制御対象帯域全てを制御ゲインgAで増幅してもよい。
【0091】
このように、振幅制御部200Aは、制御ゲインgA(すなわち、周波数マスキング及び時間マスキングを考慮した重み付けがなされた振幅スペクトルftmAと振幅スペクトルftmBとの振幅比に応じた値を取るパラメータ)を用いた乗算処理を行うことにより、優先オーディオ信号の振幅を増幅し、非優先音による優先音のマスキングを抑制する。但し、振幅制御部200Aは、優先オーディオ信号の振幅を増幅することによって非優先音が聞き取り難くなる状況を避けるべく、振幅増幅を行う帯域を制御対象帯域に制限するとともに、優先オーディオ信号の振幅を過度に増幅しない。例示的には、振幅制御部200Aは、振幅スペクトルftmAが振幅スペクトルftmBに対して十分に大きい場合には、優先オーディオ信号の振幅を増幅しない。
【0092】
図13に示されるように、位相制御部202Aは、重み係数算出部2020A、複素数算出部2021A、2022A、加算器2023A、位相算出部2024A、比較器2025A、乗算器2026A、NOT回路2027A、乗算器2028A及加算器2029Aを備える。
【0093】
図14に、重み係数算出部2020Aが保持する関数を示す。
図14に示されるように、重み係数算出部2020Aは、第1A重み関数と第2A重み関数を保持している。重み係数算出部2020Aは、制御ゲイン算出部183からの制御ゲインgAを第1A重み関数、第2A重み関数の夫々に入力して重み係数mA、nAを算出し、重み係数mAを複素数算出部2021Aに出力するとともに、重み係数nAを複素数算出部2022Aに出力する。なお、重み係数mAと重み係数nAは、何れも0〜1の値を取り、かつお互いを足したときに1となる値を取る。
【0094】
複素数算出部2021Aは、位相算出部14Aより入力される位相スペクトルpA及び重み係数算出部2020Aより入力される重み係数mA(ここでは、重み係数mAを振幅スペクトルとみなす。)を用いて周波数スペクトルcAAを算出し、加算器2023Aに出力する。複素数算出部2022Aは、位相算出部14Bより入力される位相スペクトルpB及び重み係数算出部2020Aより入力される重み係数nA(ここでは、重み係数nAを振幅スペクトルとみなす。)を用いて周波数スペクトルcBAを算出し、加算器2023Aに出力する。
【0095】
加算器2023Aは、複素数算出部2021A、2022Aのそれぞれより入力される、周波数スペクトルcAAと周波数スペクトルcBAとを加算して、位相算出部2024Aに出力する。
【0096】
位相算出部2024Aは、周波数スペクトルcAAと周波数スペクトルcBAとの加算データから偏角を求める。この偏角は周波数毎に求められるため、位相算出部2024Aでは、周波数スペクトルcAAと周波数スペクトルcBAとを合成した位相スペクトルが得られることとなる。
【0097】
比較器2025Aは、時間軸重み算出部182Aより入力される振幅スペクトルftmAと閾値Lとを比較し、振幅スペクトルftmAが閾値Lよりも大きい場合に1を出力し、振幅スペクトルftmAが閾値L以下の場合に0を出力する。
【0098】
乗算器2026Aは、位相算出部2024Aより入力される位相スペクトルと比較器2025Aの出力(=0又は1)とを乗算して、加算器2029Aに出力する。すなわち、乗算器2026Aは、振幅スペクトルftmAが閾値Lよりも大きい場合に限り、位相算出部2024Aより入力される位相スペクトルを加算器2029Aに出力する。
【0099】
乗算器2028Aは、位相算出部14Aより入力される位相スペクトルpAと、NOT回路2027Aの出力(すなわち、反転された比較器2025Aの出力)とを乗算して、加算器2029Aに出力する。すなわち、乗算器2028Aは、振幅スペクトルftmAが閾値L以下の場合に限り、位相スペクトルpAを加算器2029Aに出力する。
【0100】
加算器2029Aは、乗算器2026Aより入力される位相スペクトルと、乗算器2028Aより入力される位相スペクトルとを加算する。加算器2029Aは、加算することによって得た位相スペクトルPAを複素数算出部22Aに出力する。本実施形態では、重み係数mA、重み係数nAがそれぞれ、1、0の定数となっている。そのため、位相スペクトルPAは、位相算出部14Aから複素数算出部2021Aに入力された位相スペクトルpAと同じである。
【0101】
本実施形態では、位相制御部202Aは、優先音の聞き取りやすさを重視するため、優先オーディオ信号について位相を変更しない。別の実施形態では、位相制御部202Aは、優先オーディオ信号について位相を、優先音が聞き取り難くならない範囲で変更してもよい。
【0102】
図15は、振幅制御部200B及び位相制御部202Bの構成を示すブロック図である。
【0103】
図15に示されるように、振幅制御部200Bは、乗算器2000B、2001B、比較器2002B、NOT回路2003B、乗算器2004B及び加算器2005Bを備える。位相制御部202Bは、重み係数算出部2020B、複素数算出部2021B、2022B、加算器2023B、位相算出部2024B、比較器2025B、乗算器2026B、NOT回路2027B、乗算器2028B及加算器2029Bを備える。なお、振幅制御部200Bは、振幅制御部200Aと構成が同じであり、位相制御部202Bは、位相制御部202Aと構成が同じである。そのため、振幅制御部200B及び位相制御部202Bについての詳細な説明は省略する。
【0104】
振幅制御部200Bは、振幅算出部16Bより入力される振幅スペクトルaBを、振幅スペクトルftmAが閾値Kよりも大きい帯域だけ制御ゲインgBを乗算することによって減衰して、複素数算出部22Bに出力する。以下、説明の便宜上、複素数算出部22Bに出力される振幅スペクトルを「振幅スペクトルAB」と記す。
【0105】
振幅制御部200Bは、制御ゲインgB(すなわち、周波数マスキング及び時間マスキングを考慮した重み付けがなされた振幅スペクトルftmAと振幅スペクトルftmBとの振幅比に応じた値を取るパラメータ)を用いた乗算処理を行うことにより、非優先オーディオ信号の振幅を減衰し、非優先音による優先音のマスキングを抑制する。但し、振幅制御部200Bは、非優先オーディオ信号の振幅を減衰することによって非優先音が聞き取り難くなる状況を避けるべく、振幅減衰を行う帯域を制御対象帯域に制限するとともに、非優先オーディオ信号の振幅を過度に減衰しない。例示的には、振幅制御部200Bは、振幅スペクトルftmAが振幅スペクトルftmBに対して十分に大きい場合には、非優先オーディオ信号の振幅を減衰しない。
【0106】
本実施形態では、楽曲による音声ガイダンスのマスキングを抑制して音声ガイダンスの聞き取りやすさを担保する効果を得るべく、振幅スペクトルaAを増幅するとともに振幅スペクトルaBを減衰することにより、制御対象帯域において振幅スペクトルaAを相対的に増幅させている。別の実施形態では、制御対象帯域において振幅スペクトルaAを相対的に増幅させるため、振幅スペクトルaAの増幅及び振幅スペクトルaBの減衰の一方だけを行ってもよい。
【0107】
加算器2029Bは、乗算器2026Bより出力される位相スペクトルと、乗算器2028Bより出力される位相スペクトルとを加算器2029Aで加算し、これによって得た位相スペクトルPBを複素数算出部22Bに出力する。
【0108】
図16に、重み係数算出部2020Bが保持する関数を示す。
図16に示されるように、重み係数算出部2020Bは、第1B重み関数と第2B重み関数を保持している。重み係数算出部2020Bは、制御ゲイン算出部183より入力される制御ゲインgBに応じた値の重み係数mB及び重み係数nBを算出し、重み係数mBを複素数算出部2021Bに出力するとともに、重み係数nBを複素数算出部2022Bに出力する。重み係数mBと重み係数nBも重み係数mAと重み係数nAと同じく、0〜1の値を取り、かつお互いを足したときに1となる値を取る。
【0109】
第1B重み関数及び第2B重み関数によれば、制御ゲインgBが小さいほど(言い換えると、振幅スペクトルftmBに対して振幅スペクトルftmAが小さいほど)、重み係数mBが大きくなるとともに重み係数nBが小さくなる。
【0110】
重み係数算出部2020Bは、振幅スペクトルftmBに対して振幅スペクトルftmAが小さいほど、位相スペクトルpAと、より大きい値の重み係数mB(ここでは、重み係数mBを振幅スペクトルとみなす。)を用いて周波数スペクトルcABを算出し、振幅スペクトルftmBに対して振幅スペクトルftmAが大きいほど、位相スペクトルpBと、より小さい値の重み係数nB(ここでは、重み係数nBを振幅スペクトルとみなす。)を用いて周波数スペクトルcBBを算出する。この結果、制御対象帯域において、非優先オーディオ信号の位相スペクトルpBが優先オーディオ信号の位相スペクトルpAに一致される。位相スペクトルpBが位相スペクトルpAに一致されることにより、優先音が非優先音によって打ち消されて聞き取り難くなることが無くなる。
【0111】
なお、位相スペクトルpBが位相スペクトルpAに完全に一致されることが理想ではあるが、位相スペクトルpBが位相スペクトルpAに近付くように調整されさえすれば、非優先音による優先音の打ち消しを低減する効果が得られて、優先音の聞き取りやすさが向上する。
【0112】
振幅制御部200A及び200Bは、重み付け部による重み付け処理後の振幅スペクトルに基づいて(より詳細には、重み付け処理後の振幅スペクトルをもとに得られる制御値に基づいて)、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の振幅スペクトルを変更することにより、制御対象帯域において優先オーディオ信号の振幅スペクトルを相対的に増幅させる振幅変更部として動作する。
【0113】
位相制御部202A及び202Bは、重み付け部による重み付け処理後の振幅スペクトルに基づいて(より詳細には、重み付け処理後の振幅スペクトルをもとに得られる制御値に基づいて)、優先オーディオ信号及び非優先オーディオ信号の少なくとも一方の位相スペクトルを変更することにより、制御対象帯域において非優先オーディオ信号の位相スペクトルを優先オーディオ信号の位相スペクトルに近付ける位相変更部として動作する。
【0114】
複素数算出部22Aは、振幅制御部200Aより入力される振幅スペクトルAA及び位相制御部202Aより入力される位相スペクトルPAから、制御対象帯域の周波数スペクトルを算出し、加算器24Aに出力する。
【0115】
加算器24Aは、複素数算出部22Aより入力される、優先オーディオ信号の制御対象帯域の周波数スペクトルと、帯域分割部12AのBSF122より入力される、優先オーディオ信号の制御対象帯域以外の帯域の周波数スペクトルとを加算して、加算器26に出力する。
【0116】
複素数算出部22Bは、振幅制御部200Bより入力される振幅スペクトルAB及び位相制御部202Bより入力される位相スペクトルPBから、制御対象帯域の周波数スペクトルを算出し、加算器24Bに出力する。
【0117】
加算器24Bは、複素数算出部22Bより入力される、非優先オーディオ信号の制御対象帯域の周波数スペクトルと、帯域分割部12BのBSF122より入力される、非優先オーディオ信号の制御対象帯域以外の帯域の周波数スペクトルとを加算して、加算器26に出力する。
【0118】
加算器26は、加算器24Aより入力される、制御対象帯域の振幅が変更された優先オーディオ信号の周波数スペクトルと、加算器24Bより入力される、制御対象帯域の振幅及び位相が変更された非優先オーディオ信号の周波数スペクトルとを加算して、IFFT部28に出力する。
【0119】
すなわち、加算器26は、振幅変更部による振幅スペクトルの変更処理及び位相変更部による位相スペクトルの変更処理後の優先オーディオ信号と非優先オーディオ信号とをミキシングするミキシング部として動作する。
【0120】
IFFT部28は、加算器26より入力される周波数スペクトルを短時間逆フーリエ変換処理によって周波数領域から時間領域に変換して、オーバラップ処理と窓関数による重み付けを行い、車室内に埋設された不図示のスピーカに出力する。すなわち、IFFT部28は、スペクトル制御部20A、20Bによる振幅スペクトルの変更処理及び位相スペクトルの変更処理後の優先オーディオ信号及び非優先オーディオ信号をオーバラップして時間領域の信号に変換する第二変換部として動作する。
【0121】
FFT部10A及び10B並びにIFFT部28におけるオーバラップ処理により、スペクトル制御部20A、20Bにおける振幅スペクトル及び位相スペクトルの変更によって発生する波形の不連続性が平滑化される。
【0122】
このように、本実施形態によれば、音声ガイダンス信号及び楽曲信号の振幅スペクトルに対して周波数マスキング及び時間マスキングを考慮した重み付けを行い、重み付けされた振幅スペクトルに基づいて(言い換えると、音声ガイダンスと楽曲間のマスキングを考慮して)、人の声の帯域(すなわち制御対象帯域)について、音声ガイダンス信号の振幅を増幅するとともに楽曲の振幅を減衰し且つ楽曲信号の位相を音声ガイダンス信号の位相に一致させることにより、楽曲が流れている場合にも、楽曲による音声ガイダンスのマスキングを抑制し、音声ガイダンスの聞き取りやすさを担保できるようになっている。
【0123】
本実施形態では、次元数の少ない周波数スペクトルのデータを用いてミキシング処理を行っている。そのため、次元数の多い時間周波数平面上のデータを用いてミキシング処理を行う特許文献1と比べて、処理負荷が軽くなっている。
【0125】
図17(a)は、本実施形態に係るミキシング処理を施していない優先オーディオ信号そのものの振幅スペクトルを示す。
図17(b)は、本実施形態に係るミキシング処理を施した優先オーディオ信号の振幅スペクトルを示す。
図18(a)は、本実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものの振幅スペクトルを示す。
図18(b)は、本実施形態に係るミキシング処理を施した非優先オーディオ信号の振幅スペクトルを示す。
【0126】
図17(a)、
図17(b)、
図18(a)、
図18(b)(更には後述の
図20(a)、
図20(b))の各図中、縦軸は、周波数(単位:kHz)を示し、横軸は、時間(単位:sec)を示す。これらの図では、パワーが強い帯域ほど高い明度で示し、パワーが弱い帯域ほど低い明度で示す。
【0127】
図17(a)と
図17(b)とを比べると、制御対象帯域において
図17(b)の方が全体的に白っぽくなっている、すなわち、振幅が増幅されていることが判る。
図18(a)と
図18(b)とを比べると、制御対象帯域において
図18(b)の方が全体的に黒っぽくなっている、すなわち、振幅が減衰されていることが判る。
【0128】
図19は、本実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものの位相スペクトルと、本発明の一実施形態に係るミキシング処理を施した非優先オーディオ信号の位相スペクトルとの差を示す。
図19中、縦軸は、周波数(単位:kHz)を示し、横軸は、時間(単位:sec)を示す。
図19では、本実施形態に係るミキシング処理を施した場合と施していない場合の位相差(すなわち、本実施形態に係るミキシング処理において非優先オーディオ信号に与えられる位相の変化量)が大きい帯域ほど高い明度で示し、この位相差が小さい帯域ほど低い明度で示す。この位相差がゼロの帯域は黒で示す。
【0129】
図19に示されるように、制御対象帯域において上記の位相差が発生していることが判る。
【0130】
図20(a)は、本実施形態に係るミキシング処理を施していない優先オーディオ信号そのものと、同じく本実施形態に係るミキシング処理を施していない非優先オーディオ信号そのものとをミキシングしたミキシング信号を示す。
図20(b)は、優先オーディオ信号に対して
図17(b)に示される振幅増幅並びに非優先オーディオ信号に対して
図18(b)に示される振幅減衰及び
図19に示される位相変更を与えたときに、IFFT部28より出力される、優先オーディオ信号と非優先オーディオ信号とのミキシング信号を示す。
【0131】
図20(a)と
図20(b)とを比べると、IFFT部28より出力されるミキシング信号は、制御対象帯域において、優先オーディオ信号の振幅増幅及び非優先オーディオ信号の振幅減衰が行われかつ非優先オーディオ信号の位相が優先オーディオ信号の位相に一致されることにより、優先オーディオ信号のスペクトログラム形状が明確に表れているとともに、非優先オーディオ信号の振幅が全体としては大きく減衰されていないことが判る。そのため、非優先音が流れている状況でありながらも、非優先音による優先音のマスキングが抑制されて、優先音の聞き取りやすさが担保されることが判る。
【0132】
以上が本発明の例示的な実施形態の説明である。本発明の実施形態は、上記に説明したものに限定されず、本発明の技術的思想の範囲において様々な変形が可能である。例えば明細書中に例示的に明示される実施例等又は自明な実施例等を適宜組み合わせた内容も本願の実施形態に含まれる。
【0133】
なお、ミキシング処理装置1における各種処理は、ミキシング処理装置1に備えられるソフトウェアとハードウェアとが協働することにより実行される。ミキシング処理装置1に備えられるソフトウェアのうち少なくともOS(Operating System)部分は、組み込み系システムとして提供されるが、それ以外の部分、例えば、優先オーディオ信号と非優先オーディオ信号とのミキシングを実行するためのソフトウェアモジュールについては、ネットワーク上で配布可能な又はメモリカード等の記録媒体にて保持可能なアプリケーションとして提供されてもよい。