(58)【調査した分野】(Int.Cl.,DB名)
前記立体音響マスキング音保持手段は、前記マスキング音が供給されると、前記マスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施して前記立体音響マスキング音を保持することを特徴とする請求項1に記載の音響信号処理装置。
【発明を実施するための形態】
【0016】
(A)第1の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
【0017】
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音響信号処理装置10の全体構成を示すブロック図である。
【0018】
音響信号処理装置10は、入力音I(入力音の音響信号)を処理して出力する装置である。この実施形態では、音響信号処理装置10は、ステレオスピーカSpに音響信号を出力するものとする。ステレオスピーカSpは、左側スピーカSpLと右側スピーカSpRにより構成されている。
【0019】
また、音響信号処理装置10は、入力音Iを聴取させる対象(聴者)であるユーザU以外の者(以下、「周辺者」と呼ぶ)に対して入力音Iをマスキングする(聞き取りにくくする)ためのマスキング音Mの供給を受け、マスキング音Mに立体音響処理を施して入力音Iと混合した音響信号を生成して、スピーカSpL、SpRに出力する。なお、この実施形態では、音響信号処理装置10は、2つのスピーカにより構成されるステレオスピーカに出力する例について説明したが、出力するスピーカの構成(例えば、スピーカの数や位置)については限定されないものである。
【0020】
音響信号処理装置10の使用環境(用途)は限定されないものである。この実施形態の例では、入力音Iを、ハンズフリー通話における遠端側の音(以下、「遠端音」と呼ぶ)(例えば、遠端側のマイクで捕捉された音)とする。そして、音響信号処理装置10は、入力音Iに基づく音をステレオスピーカSP(左側スピーカSpL、右側スピーカSpR)から出力させて、近端側のユーザUに聴取させるものとして説明する。なお、実際のハンズフリー通話では、近端側のユーザUが発話した音声を含む音(以下、「近端音」と呼ぶ)を捕捉して遠端側に伝送する構成が必要となるが、近端側から遠端側への通信構成については限定されないため、
図1では図示省略している。なお、音響信号処理装置10は、ハンズフリー通話以外にも単に、録音された音声(例えば、ユーザUに対する音声ガイダンス等)を入力音Iとして処理する装置としてもよい。
【0021】
図1では、入力音響信号Iを聴取させる対象となるユーザUと、ステレオスピーカSPを構成する各スピーカSpL、SpRとの位置関係を上側から見た場合の例について示している。
図1では、ユーザUの位置(上側から見た場合の頭部の中心位置)をPU、左側スピーカSpLの位置(上側から見た場合の中心位置)をPL、右側スピーカSpRの位置(上側から見た場合の中心位置)をPRとして図示している。
図1では、ユーザUから見て、前側に各スピーカSpL、SpRが配置されている。
【0022】
また、
図1では、領域ASは、音響信号処理装置10において行われる立体音響処理のスイートスポット(聴者に対して設計通りに音像を定位させることが可能な領域)である。そして、ユーザUは領域AS内に位置している。
【0023】
次に音響信号処理装置10の内部構成について説明する。
【0024】
図1に示すように、音響信号処理装置10は、入力音信号入力部12、マスキング音信号入力部11、立体音響処理部13、信号混合部14、及びスピーカ出力部15を有している。音響信号処理装置10の各構成要素の詳細については後述する。
【0025】
音響信号処理装置10は、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る音響再生プログラムを含む)を実行させることで実現するようにしてもよいが、その場合であっても、機能的には、
図1のように表すことができる。
【0026】
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態における音響信号処理装置10の動作(実施形態に係る音響再生方法)を説明する。
【0027】
入力音信号入力部12は、入力音I(アナログの音響信号)が供給されると、入力Iをアナログ信号からデジタル信号に変換する。
【0028】
また、マスキング音信号入力部11は、マスキング音M(アナログの音響信号)が入力されると、そのマスキング音Mを、アナログ信号からデジタル信号に変換する。
【0029】
マスキング音Mとしては、ステレオスピーカSpから再生される入力音I(遠端音)や、ユーザUの発話する音声(近端音)をマスキング可能な成分が含まれていれば、具体的な内容は限定されないものである。マスキング音Mとしては、例えば、人間が発話した音声サンプルをそのまま、又は加工した音響信号としてもよい。
【0030】
なお、音響信号処理装置10における入力音I及びマスキング音Mの入力形式は上記の構成に限定されず種々の構成を適用することができる。例えば、音響信号処理装置10に、デジタル形式の入力音I及びマスキング音Mを入力するようにしてもよいし、ストリーム形式ではなくファイル形式の音響データとしてまとめて入力するようにしてもよい。
【0031】
立体音響処理部13は、マスキング音Mに対し、ユーザUがスピーカSpRもしくはSpLとは別の場所(すなわち、入力音Iが定位することになる場所とは異なる場所)からマスキング音Mが聞えるように音像を定位させる立体音響処理を行う。立体音響処理部13において、マスキング音Mを立体音響処理した立体音響処理したマスキング音(以下、「立体音響マスキング音」とも呼ぶ)を、同時に複数設定(同じマスキング音Mに基づく立体音響マスキング音を設定)することもでき、各立体音響マスキング音が、ユーザに対して別々の方向に定位するように立体音響処理を行う。
【0032】
次に、
図2を用いて、立体音響処理部13における立体音響処理(立体音響マスキング音の設定)の具体例について説明する。
【0033】
図2では、スウィートスポットAS内に位置し、2つのスピーカSpL、SpRの位置PL、PRの位置を結んだ線の中間点の方向Fを向いているユーザUに対して左90度の方向(Fの方向を0度として反時計回りに90度の方向)に位置する第1の立体音響マスキング音MS1と、ユーザUに対して右90度の方向(Fの方向を0度として時計回りに90度の方向)に位置する第2の立体音響マスキング音MS2が設定された状態について図示している。また、この実施形態では、入力音Iについては特に立体音響処理されていないため、
図2では、入力音Iは2つのスピーカの間(位置PLとPRとの間の空間)に定位する結果となる状態について示している。なお、この実施形態では、入力音Iについては特に立体音響処理されない例について示しているが、入力音Iについても所定の方向(例えば、ユーザUが向くと想定される方向)に定位する立体音響処理を施すようにしてもよい。立体音響処理部13は、例えば、
図2に示すような状態を実現するために、マスキング音Mに基づいて、ユーザUに対して1又は複数の方向(入力音Iが定位する場所とは異なる方向)に対してマスキング音Mを定位させる立体音響処理を行った立体音響マスキング音を生成する。
【0034】
立体音響処理部13が行う立体音響処理の方式については限定されないものであるが、例えば、以下の参考文献1に記載されるようなトランスオーラル再生の技術を適用するようにしてもよい。トランスオーラル再生は、イヤホンやヘッドフォンを用いる立体音響技術であるバイノーラル再生と同様の立体音響の効果を、スピーカでも得られるように応用した技術である。
[参考文献1]WG Gardner著,「3−D Audio Using Loudspeakers」,Springer(US),1977年発行
【0035】
バイノーラル再生では、音源とする音響信号に定位させたい方向の頭部伝達関数を畳み込み、バイノーラル音源に変換し、ヘッドフォンやイヤホンから再生することで、立体音響効果を生み出すことが出来る。
【0036】
図4は、立体音響処理部13がトランスオーラル再生の技術を利用した立体音響処理を行う際の環境モデルについて示した説明図である。
【0037】
図4では、ユーザUの右耳の符号をe
R、ユーザUの左耳の符号をe
Lと図示している。
【0038】
例えば、仮にバイノーラル音源をスピーカSpL、SpRからそのまま再生した場合、十分な立体音響効果を得ることができなくなる。例えば、右耳用バイノーラル音源は、ユーザUの右耳e
Rにのみ到達する必要があるが、右側スピーカSpRから再生した右耳用バイノーラル音源は、右耳e
Rだけでなく左耳e
Lにも到達してしまう。また、同様に、左側スピーカSpLから再生された左耳用バイノーラル音源も左耳e
Lだけでなく右耳e
Rにも到達することになる。このような現象はクロストークと呼ばれ、スピーカを再生環境とする際の立体音響効果を妨げる原因となっている。
【0039】
これに対して、参考文献1に記載されたトランスオーラル再生では、各スピーカから両耳までの室内伝達関数を測定した後、バイノーラル音源に伝達関数を畳み込み、その中のクロストーク成分のみをキャンセルするフィルタを設計する。
【0040】
図4では、右スピーカ右耳経路(右側スピーカSpRから右耳e
Rへの経路)の伝達関数をG
RR、右スピーカ左耳経路(右側スピーカSpRから左耳e
Lへの経路)の伝達関数をG
RL、左スピーカ右耳経路(左側スピーカSpLから右耳e
Rへの経路)の伝達関数をG
LR、左スピーカ左耳経路(左側スピーカSpLから左耳e
Lへの経路)の伝達関数をG
LLと図示している。
【0041】
また、以下では、トランスオーラル再生における左スピーカ左耳経路のフィルタをC
LL(ω)(「ω」は周波数を表す。以下同様)、右スピーカ右耳経路のフィルタをC
RR(ω)、左スピーカ右耳経路のフィルタをC
LR(ω)、右スピーカ左耳経路のフィルタをC
RL(ω)、左スピーカ左耳経路のフィルタをC
LL(ω)とする。さらに、以下では、左耳用の音源定位位置に対応した頭部伝達関数(HRTF:Head−Related Transfer Function)をH
L(ω)とし、左耳用の音源定位位置に対応した頭部伝達関数(HRTF)をH
R(ω)とする。
【0042】
そうすると、トランスオーラル再生における各経路のフィルタは、以下の(1)式〜(4)式のように示すことができる。そして、(1)式〜(4)式の共通項(すなわち、各フィルタの共通項)をまとめたものをG
0(ω)とすると、G
0(ω)は以下の(5)式のように示すことができる。
【0043】
そして、上記の(1)式〜(4)式に示す各経路のフィルタを左右のスピーカSpL、SpRごとにまとめると、(6)式、(7)式に示すように、トランスオーラル再生においてクロストークの抑圧に用いられるクロストークキャンセルフィルタを求めることができる。(6)式に示すC
R(ω)は、右側スピーカSpR用のクロストークキャンセルフィルタであり、(7)式に示すC
L(ω)は、左側スピーカSpL用のクロストークキャンセルフィルタである。
【数1】
【0044】
トランスオーラル再生では、音像定位させる音源(この実施形態ではマスキング音M)に、上記のようなクロストークキャンセルフィルタを掛けて、各スピーカから再生することで、クロストーク成分が聴者(ユーザU)の耳元で打ち消され、左右それぞれのバイノーラル音源だけが耳に届き、バイノーラル再生と同様の立体音響効果を得ることができる。
【0045】
したがって、立体音響処理部13は、マスキング音Mに基づき、
図2に示すように、第1の立体音響マスキング音MS1(方向D1)と、第2の立体音響マスキング音MS2(方向D2)を定位させるトランスオーラル再生の処理を行う場合、まず、第1の立体音響マスキング音MS1を設定した第1のバイノーラル音源と、第2の立体音響マスキング音MS2を設定したバイノーラル音源を生成する。そして、立体音響処理部13は、右耳用(右側スピーカSpR用)のバイノーラル音源に右側スピーカSpR用のクロストークキャンセルフィルタC
R(ω)を掛けて右側スピーカSpR用のトランスオーラル再生の音響信号(音源)を生成し、左耳用(左側スピーカSpL用)のバイノーラル音源に左側スピーカSpL用のクロストークキャンセルフィルタC
L(ω)を掛けて左側スピーカSpL用のトランスオーラル再生の音響信号(音源)を生成する処理を行う。
【0046】
以下では、立体音響処理部13が処理した音響信号(立体音響マスキング音の音響信号)をXと呼ぶものとする。ここでは、音響信号処理装置10の再生環境は、ステレオスピーカSp(スピーカSpL、SpR)であるため、音響信号Xには、右側スピーカSpR用の音響信号(以下、「XR」と呼ぶ)と、左側スピーカSpL用の音響信号(以下、「XL」と呼ぶ)が含まれることになる。
【0047】
信号混合部14は、立体音響処理部13においてマスキング音Mが立体音響処理された音響信号XR、XLと、入力音信号入力部12で取得した入力音Iを混合する処理を行う。
【0048】
以下では、入力音Iの右側スピーカSpR用の信号を「IR」と呼び、入力音Iの左側スピーカSpL用の信号を「IL」と呼ぶものとする。なお、入力音信号入力部12で取得した入力音Iがモノラル信号である場合に、入力音信号入力部12は、ステレオ信号に変換処理してIRとILを得るようにしてもよい。
【0049】
このとき、信号混合部14は、混合の際に、入力音Iが立体音響処理された音響信号Xに含まれるマスキング音Mの成分により十分マスキングされるように入力音Iと音響信号Xとの音量を調整することが望ましい。例えば、信号混合部14は、入力音Iと音響信号Xとの音量の比が1:1となるように音量調整するようにしてもよい。この際、入力音Iの音量に合わせて音響信号Xの音量を調節してもよいし、音響信号Xの音量にあわせて入力音Iの音量を調整するようにしてもよい。信号混合部14は、再生環境のスピーカごと(音響信号のチャネルごと)に音響信号を混合する処理を行う。
【0050】
この実施形態では、音響信号処理装置10の再生環境は、ステレオスピーカSp(スピーカSpL、SpR)であるため、信号混合部14は、IRとXRを混合して、右側スピーカSpR用の音響信号(以下、「OR」と呼ぶ)を生成し、ILとXLを混合して左側スピーカSpL用の音響信号(以下、「OL」と呼ぶ)を生成する。
【0051】
なお、信号混合部14に立体音響マスキング音となる音響信号が複数供給された場合、信号混合部14は、全ての立体音響マスキング音(音響信号)を加算した音を音響信号Xとして、入力音Iとの音量比を決定し混合するようにしてもよい。
【0052】
スピーカ出力部15は、信号混合部14において処理したステレオ音源(音響信号OR、OL)を左右のスピーカSpL、SpRに分配して出力する。これにより、右スピーカSpRは、右スピーカ用音源(OR)を再生し、左スピーカSpLは左スピーカ用音源(OL)を再生することになる。
【0053】
この実施形態では、上述の通り、スピーカ出力部15が音響信号を、スピーカSpL、SpRに直接供給するものとして説明したが、音響信号OR、OLを出力する形式については限定されないものである。スピーカ出力部15は、例えば、音響信号OR、OLの音声データを通信により間接的に送信(例えば、スピーカを備える装置に送信)するようにしてもよい。
【0054】
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0055】
第1の実施形態の音響信号処理装置10では、マスキング音Mに立体音響処理を行った立体音響マスキング音と、入力音I(遠隔音/遠端音)と混合してスピーカSpL、SpRに供給する。また、第1の実施形態の音響信号処理装置10では、マスキング音Mを、ユーザUにとって、入力音I(遠隔音)の音像が定位する位置とは別の場所(別の方向)に定位するように、立体音響処理を行う。さらに、第1の実施形態の音響信号処理装置10では、立体音響処理されたマスキング音Mに、入力音Iをそのまま混合する混合処理を行う。さらにまた、第1の実施形態の音響信号処理装置10では、混合処理を行う際、マスキング効果が得られる割合で入力音Iと立体音響処理されたマスキング音Mの音量を調節する。また、第1の実施形態の音響信号処理装置10では、立体音響の効果があるスウィートスポットの領域ASは、ユーザUが存在する位置に設定する。この際、第1の実施形態の音響信号処理装置10において、各スピーカSpL、SpRの配置は任意であり、各スピーカSpL、SpRとユーザUの位置関係から立体音響のパラメータを設定する。
【0056】
このように、第1の実施形態では、スピーカSpL、SpRから再生される音には、入力音Iと立体音響処理されたマスキング音M(1又は複数の立体音響マスキング音)が混ざっているがユーザUの位置(スウィートスポットの領域AS)では、
図2に示すようにユーザUの正面(方向X)から聞え、立体音響処理された立体音響マスキング音MS1、MS2は、その立体音響効果により、正面以外(方向D1、D2)から聞えることになる。しかし、
図3に示すように、ユーザUの位置以外の場所(スウィートスポットの領域AS以外の場所)にいる周辺者Hにとっては、入力音Iと立体音響マスキング音MS1、MS2とが混ざった状態で聴こえるため、入力音Iが聞こえにくくなる。言い換えると、周辺者Hにとっては、スウィートスポットの領域AS内にいるユーザUとは異なり、入力音Iが聞こえる場所と、マスキング音Mが聞こえる場所を分離した状態では聞こえず、入力音Iを聞きづらい状態となる。
【0057】
以上のように、第1の実施形態では、ユーザUにのみ、入力音Iをクリア(明確)に聞かせることができる。
【0058】
また、第1の実施形態では、音響信号処理装置10(信号混合部14)が入力音Iと立体音響処理されたマスキング音Mの音量を調節して混合するため、どのような環境でも安定してスピーチプライバシーの効果を得ることができる。
【0059】
さらに、第1の実施形態では、スピーカSpL、SpRの位置とユーザUとの位置関係に関わらず、立体音響処理によりユーザUに対して任意の方向にマスキング音Mの定位を行うことができるため、スピーカSpL、SpRの設置位置を任意の位置とすることができる。
【0060】
さらにまた、
図2、
図3に示すように、ユーザUの近くにスピーカSpL、SpRを置くことで、ユーザUが発話する音声(近端音)についても、スピーカSpL、SpRから再生された音でマスキングされ、ユーザUの位置(スウィートスポットの領域AS)以外の場所にいる周辺者Hにとって、入力音I(遠端音)、ユーザUが発話する音声(近端音)ともに聞え難くなる。
【0061】
以上のように、第1の実施形態では、ユーザUとスピーカSpL、SpRの位置関係の制限を緩和し、スウィートスポットの領域AS内にいるユーザUに対してのみ入力音I(遠端音)を聴取させ、さらに、ユーザUが発話する音声(近端音)を周辺者Hに聴き取りにくくさせるという効果を同時に奏することができる。すなわち、第1の実施形態では、従来技術では難しかったユーザUの隣(横方向)の位置でもスピーチプライバシーの効果を得ることが可能となる。
【0062】
(B)第2の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
【0063】
(B−1)第2の実施形態の構成及び動作
図5は、第2の実施形態に係る音響信号処理装置10Aの全体構成について示したブロック図である。
図5では、上述の
図1と同一部分又は対称部分については同一符号又は対称符号を付している。
【0064】
以下では、第2の実施形態の音響信号処理装置10Aについて第1の実施形態との差異を説明する。
【0065】
第1の実施形態の音響信号処理装置10では、マスキング音信号入力部11で入力されたマスキング音Mを立体音響処理して立体音響マスキング音を生成していた。これに対して第2の実施形態の音響信号処理装置10Aでは、マスキング音Mの供給を受けて立体音響処理を行うのではなく、予めマスキング音Mに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号(音響信号のデータ)をデータベースに保持し、そこから所望の立体音響マスキング音の音響信号を選択して利用するものとする。
【0066】
図5に示す音響信号処理装置10Aでは、マスキング音信号入力部11と立体音響処理部13とが、マスキング音データベース16とマスキング音選択部17に置き換えられている点で第1の実施形態と異なっている。
【0067】
マスキング音データベース16には、予めマスキング音Mに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号(音響信号のデータ)が蓄積されている。ここでは、マスキング音データベース16には、N個(Nは2以上の整数)の立体音響マスキング音の音響信号X(X1〜XN)が蓄積されているものとする。音響信号X1〜XNは、それぞれ異なる位置にマスキング音Mが定位された音響信号であるものとする。各音響信号Xは、マスキング音Mを1つの位置に定位した音響信号としてもよいし、マスキング音Mを複数の位置に定位した音響信号としてもよい。
【0068】
そして、マスキング音選択部17は、マスキング音データベース16に蓄積された立体音響マスキング音の音響信号(X1〜XN)の中から1又は複数の音響信号Xを選択して取得し、信号混合部14に供給する処理を行う。
【0069】
マスキング音選択部17で選択する音響信号Xの数や組み合わせについては限定されないものである。マスキング音選択部17では、例えば、ユーザ(例えば、システム管理者等)の操作に応じた設定に基づき、選択する音響信号Xを決定するようにしてもよい。
【0070】
信号混合部14は、マスキング音選択部17から複数の音響信号Xが供給された場合には、それらを全て加算(混合)した音響信号と入力音Iとを混合する処理を行う。
【0071】
(B−2)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
【0072】
第2の実施形態の音響信号処理装置10Aでは、立体音響処理を省略し、マスキング音データベース16から立体音響処理された立体音響マスキング音の音響信号Xを取得するため、第1の実施形態と比較してリアルタイムの処理量を低減することができる。
【0073】
(C)第3の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
【0074】
(C−1)第3の実施形態の構成及び動作
図6は、第3の実施形態に係る音響信号処理装置10Bの全体構成について示したブロック図である。
図6では、上述の
図1と同一部分又は対称部分については同一符号又は対称符号を付している。
【0075】
以下では、第3の実施形態の音響信号処理装置10Bについて第2の実施形態との差異を説明する。
【0076】
第3の実施形態の音響信号処理装置10Bでは、出力レベル調整部18と背景雑音レベル推定部19が追加されている点で第1の実施形態と異なっている。また、第3の実施形態では、上述の通り、ユーザUの音声を含む近端音を収音するためのマイクMicが設置されている点で、第1の実施形態と異なっている。マイクMicの具体的な構成については限定されないものである。マイクMicとしては、例えば、全指向性マイクの他に、指向性を持ったマイクやエリア収音を行う収音装置等を適用することができる。
【0077】
第1の実施形態の音響信号処理装置10において、信号混合部14の出力レベルは、入力音I若しくは立体音響マスキング音の音響信号Xの音量により変るため、他の要素(例えば、ステレオスピーカSpの音量調節機能)で調節することが望ましい。これに対して、第3の実施形態は、ユーザUがいる環境(近端側;スウィートスポットの領域AS)の雑音レベルを推定し、推定した雑音レベルの大きさに応じて、信号混合部14の出力レベルを調節する。第3の実施形態では、
図6に示すように、ユーザUのいるスウィートスポットAS内の領域の音(近端音)を収音するためのマイクMicが設置されているため、音響信号処理装置10Bは、このマイクMicが収音した近端音からユーザUのいる環境の背景雑音のレベルを推定する。
【0078】
背景雑音レベル推定部19は、マイクMicで収音した音に基づいて、所定の方式(具体的な方式は限定されない)によりユーザUのいる場所(スウィートスポットの領域AS)における背景雑音のレベルを推定する。背景雑音レベル推定部19は、ユーザUの音声(スウィートスポットの領域AS内の音声)及び入力音Iの音声(遠端話者の音声)が発生していない無音区間を推定し、その無音期間にマイクMicが収音した音に基づいて背景雑音を推定するようにしてもよい。
【0079】
背景雑音レベル推定部19において、音声が発生しているかどうかの判定(無音区間の判定)は、例えば収音した音の情報を利用した音声区間検出技術を使用するようにしてもよい。また、マイクMicで収音した音にステレオスピーカSp(スピーカSpL、SpR)から出力されたマスキング音Mの成分(立体音響マスキング音)が含まれる場合、背景雑音レベル推定部19は、マイクMicで収音した音から、マスキング音Mの成分を抑圧してから背景雑音レベルの推定を行うことが望ましい。背景雑音レベル推定部19は、マスキング音Mの成分を抑圧する際には、例えば、スペクトル減算法等の種々の目的音強調処理を適用することができる。
【0080】
出力レベル調整部18は、背景雑音レベル推定部19で推定した背景雑音レベルに応じて、信号混合部14の出力レベルを調整する。出力レベル調整部18は、例えば、信号混合部14が出力する音響信号のパワーと、背景雑音レベル推定部19が推定した背景雑音のパワーとの比が一定になるように、信号混合部14が出力する音響信号のパワーのレベルを調整するようにしてもよい。信号混合部14が出力する音響信号のパワーをS、推定した背景雑音のパワーをNとした場合、出力レベル調整部18は、例えば、SN比(SとNのパワーの比)を10dBとするようにしてもよい。
【0081】
(C−2)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
【0082】
第3の実施形態では、ユーザUのいる場所(スウィートスポットの領域AS)の背景雑音のレベル(音量)に応じて、信号混合部14の出力レベル(音量)を調節している。第3の実施形態では、例えば、背景雑音のレベルが大きいほど信号混合部14の出力レベルを大きくし、背景雑音のレベルが小さいほど信号混合部14の出力レベルを小さくすることで、ユーザUのいる場所(スウィートスポットの領域AS)の環境に関わらず、ユーザUに対する入力音Iの聞えやすさと、ユーザUのスピーチプライバシーを安定して保つことが出来る。
【0083】
(D)第4の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
【0084】
(D−1)第4の実施形態の構成
図7は、第4の実施形態に係る音響信号処理装置10Cの全体構成について示したブロック図である。
図7では、上述の
図6と同一部分又は対称部分については同一符号又は対称符号を付している。
【0085】
以下では、第4の実施形態の音響信号処理装置10Cについて第3の実施形態との差異を説明する。
【0086】
第3の実施形態の音響信号処理装置10Bでは、マスキング音信号入力部11で入力されたマスキング音Mを立体音響処理して立体音響マスキング音を生成していた。これに対して第4の実施形態の音響信号処理装置10Cでは、第2の実施形態と同様に、マスキング音データベース16及びマスキング音選択部17を備え、マスキング音データベース16から任意の立体音響マスキング音の音響信号を選択して取得し、信号混合部14に供給する処理を行う。したがって、
図7に示すように、音響信号処理装置10Cでは、入力音信号入力部12と立体音響処理部13とが、マスキング音データベース16とマスキング音選択部17に置き換えられている点で第3の実施形態と異なっている。
【0087】
マスキング音データベース16及びマスキング音選択部17は、第2の実施形態と同様の構成であるため、詳しい説明を省略する。
【0088】
第4の実施形態の音響信号処理装置10Cでは、第2の実施形態と同様に、マスキング音選択部17が、マスキング音データベース16から1又は複数の音響信号Xを選択して取得し、信号混合部14に供給する処理を行う。
【0089】
(D−2)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
【0090】
第4の実施形態の音響信号処理装置10Cでは、立体音響処理を省略し、マスキング音データベース16から立体音響処理された立体音響マスキング音の音響信号Xを取得するため、第3の実施形態と比較してリアルタイムの処理量を低減することができる。
【0091】
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0092】
(E−1)第2、第4の実施形態の説明では、1種類のマスキング音Mを適用する例について説明したが、複数種類のマスキング音Mを適用するようにしてもよい。例えば、第2、第4の実施形態において、マスキング音データベース16に、マスキング音Mごとに音響信号Xのセットを蓄積するようにしてもよい。例えば、L個(Lは2以上の整数)のマスキング音M(M1〜ML)が存在する場合、マスキング音M1〜MLのそれぞれに対してN個の音響信号X1〜XNを生成して、マスキング音データベース16に蓄積(L・N個の立体音響処理されたマスキング音を蓄積)するようにしてもよい。