特許第6972858号(P6972858)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

<>
  • 特許6972858-音響処理装置、プログラム及び方法 図000003
  • 特許6972858-音響処理装置、プログラム及び方法 図000004
  • 特許6972858-音響処理装置、プログラム及び方法 図000005
  • 特許6972858-音響処理装置、プログラム及び方法 図000006
  • 特許6972858-音響処理装置、プログラム及び方法 図000007
  • 特許6972858-音響処理装置、プログラム及び方法 図000008
  • 特許6972858-音響処理装置、プログラム及び方法 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6972858
(24)【登録日】2021年11月8日
(45)【発行日】2021年11月24日
(54)【発明の名称】音響処理装置、プログラム及び方法
(51)【国際特許分類】
   G10K 11/175 20060101AFI20211111BHJP
   H04S 1/00 20060101ALI20211111BHJP
【FI】
   G10K11/175
   H04S1/00 500
【請求項の数】6
【全頁数】17
(21)【出願番号】特願2017-190242(P2017-190242)
(22)【出願日】2017年9月29日
(65)【公開番号】特開2019-66601(P2019-66601A)
(43)【公開日】2019年4月25日
【審査請求日】2020年5月13日
【前置審査】
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】片桐 一浩
【審査官】 西村 純
(56)【参考文献】
【文献】 特開2016−133647(JP,A)
【文献】 国際公開第2016/088306(WO,A1)
【文献】 特開2012−119785(JP,A)
【文献】 特開2014−174255(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/175−11/178
H04S 1/00− 7/00
(57)【特許請求の範囲】
【請求項1】
2つのスピーカに供給する音響信号を生成する音響信号処理装置において、
それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、
それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、
前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、
前記聴者の居る場所の音を捕捉する捕捉手段と、
前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、
前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段とを有し、
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整する
を有することを特徴とする音響信号処理装置。
【請求項2】
前記立体音響マスキング音保持手段は、前記マスキング音が供給されると、前記マスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施して前記立体音響マスキング音を保持することを特徴とする請求項1に記載の音響信号処理装置。
【請求項3】
前記立体音響マスキング音保持手段は、
複数の立体音響マスキング音を蓄積しているデータベースと、
前記データベースから1又は複数の立体音響マスキング音を選択して保持する選択手段と
を有することを特徴とする請求項1に記載の音響信号処理装置。
【請求項4】
前記混合手段は、前記入力音の音量、及び又は、立体音響マスキング音の音量を調節して混合することを特徴とする請求項1に記載の音響信号処理装置。
【請求項5】
2つのスピーカに供給する音響信号を生成する音響信号処理装置に搭載されたコンピュータを、
それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、
それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、
前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、
前記聴者の居る場所の音を捕捉する捕捉手段と、
前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、
前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段として機能させ、
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整する
ことを特徴とする音響再生プログラム。
【請求項6】
2つのスピーカに供給する音響信号を生成する音響信号処理装置が行う音響信号処理方法において、
立体音響マスキング音保持手段、混合手段、出力手段、捕捉手段、背景雑音推定部、及び調整手段を有し、
前記立体音響マスキング音保持手段は、それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持し、
それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成し、
前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力し、
前記捕捉手段は、前記聴者の居る場所の音を捕捉し、
前記背景雑音推定部は、前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定し、
前記調整手段は、前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整し、
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整する
ことを特徴とする音響再生方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響処理装置、プログラム及び方法に関し、スピーカから音響信号を立体的に再生する際のスピーチプライバシーに適用し得る。
【背景技術】
【0002】
現在、公共空間や店舗などにおいてセキュリティ情報やプライバシーが重要な場所(例えば、行政機関や金融機関、医療施設等)では、会話の内容が第三者に漏れ聞こえない様にするスピーチプライバシーが求められている。
【0003】
従来のスピーチプライバシーに関する技術としては、特許文献1、2の記載技術がある。
【0004】
特許文献1では、マスキング音を再生するスピーカを用いて、会話をマスキングすることで、ユーザの後方にいる人が聞え難くなる装置を提案している。また特許文献2では、話者の位置とマスキング音を再生するスピーカの位置が離れていると、音源の位置から聞き分けられてしまう問題に対して、ステレオスピーカを用い、ユーザの後方にいる人の正面でマスキング音が聞える装置を提案している。従来では、上述のようなスピーチプライバシーを実現する装置が、実際の店舗で使用されている例もある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2012−137742号公報
【特許文献2】特開2007−235864号公報
【特許文献3】特開2013−183358号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、現在、ICT(Information and Communication Technology)の発達に伴い、対面対話だけでなく、端末を介して遠隔地とのハンズフリー通話を行うことも多くなっている。そして、現在、ハンズフリー通話の状況でのスピーチプライバシーの需要が高まっている。
【0007】
例えば、店舗等で顧客がハンズフリー通話により各種サービスを受ける状況では、顧客は店舗などにおり、対応するスタッフはコールセンターなどの遠隔地にいることが想定される。この場合、顧客の声(近端音)は端末のマイクで拾い、スタッフの声(遠端音)は端末のスピーカから再生されることになる。しかしながら、従来のスピーチプライバシーに対応したハンズフリー装置(以下、「スピーチプライバシー装置」と呼ぶ)では、以下のような課題を解決することが出来ない。まず、スピーチプライバシー装置により効果を得るには、マスキング音量に対して、話者の音量が一定値以下でなくてはならない。例えば、顧客が対面で店員と会話する場合は、その場の雑音やマスキング音が直接聞えるため、話者が状況に応じて自分の音量をコントロール出来る。しかし、従来のスピーチプライバシー装置の場合、遠端話者(例えば、遠隔地にいる店員)は、近端話者(例えば、店舗にいる顧客)の状況が分からないため、自身の音量をコントロールすることができず、近端側で十分なスピーチプライバシーの効果を得られない可能性がある。例えば、従来のスピーチプライバシー装置において、遠端音が大きい場合を考慮してマスキング音量を大きく設定すると、マスキング音自体が、近端音と遠端音をともに阻害してしまう恐れがある。
【0008】
また、特許文献1、2に記載された従来のスピーチプライバシー装置はともに、遠端話者の音声を出力するスピーカを近端話者の位置よりも後方(近端話者から見てスピーカと反対側)に設置する必要がある。従来のスピーチプライバシー装置において、顧客よりも前にスピーカを置いてしまうと、スピーチプライバシー装置のマスキング音により、遠端音自体がマスキングされてしまう。そのため、従来のスピーチプライバシー装置では、近端話者の後方側にスピーカを設置するスペースの確保が必要となり、当該スピーチプライバシー装置が使用出来る環境が制限される。
【0009】
さらに、特許文献1、2に記載された従来のスピーチプライバシー装置はともに、スピーカを近端話者よりも後方に設置するため、近端話者の後方に位置する人に対しては、話者の声は聞え難くなるが、近端話者の横方向(スピーカの方向を向いている近端話者から見て横方向)にいる人に対しては効果が薄れてしまう。そのため、従来のスピーチプライバシー装置では、例えば、券売機やATMなど顧客(近端話者)が利用する端末が横一列に並んでいる様な状況には対応することができない。
【0010】
以上のような問題に鑑みて、スピーカの設置環境の制限を緩和しつつ、聴者(近端話者)に聴取させる音を周囲に位置する者(以下、「周辺者」と呼ぶ)に対してマスキングする効果を低減させない音響処理装置、プログラム及び方法が望まれている。
【課題を解決するための手段】
【0011】
第1の本発明は、2つのスピーカに供給する音響信号を生成する音響信号処理装置において、(1)それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、(2)それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、(3)前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、(4)前記聴者の居る場所の音を捕捉する捕捉手段と、(5)前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、(6)前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段とを有し、(7)前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする。
【0012】
第2の本発明の音響信号処理プログラムは、2つのスピーカに供給する音響信号を生成する音響信号処理装置に搭載されたコンピュータを、(1)それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、(2)それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、(3)前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、(4)前記聴者の居る場所の音を捕捉する捕捉手段と、(5)前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、(6)前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段として機能させ、(7)前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする。
【0013】
第3の本発明は、2つのスピーカに供給する音響信号を生成する音響信号処理装置が行う音響信号処理方法において、(1)立体音響マスキング音保持手段、混合手段、出力手段、捕捉手段、背景雑音推定部、及び調整手段を有し、(2)前記立体音響マスキング音保持手段は、それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持し、(3)それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成し、(4)前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力し、(5)前記捕捉手段は、前記聴者の居る場所の音を捕捉し、(6)前記背景雑音推定部は、前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定し、(7)前記調整手段は、前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整し、(8)前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする。
【発明の効果】
【0014】
本発明によれば、スピーカの設置環境の制限を緩和しつつ、聴者に聴取させる音を周囲に位置する周辺者に対してマスキングする効果を低減させない音響処理装置を提供することができる。
【図面の簡単な説明】
【0015】
図1】第1の実施形態に係る音響信号処理装置の機能的構成を示すブロック図である。
図2】第1の実施形態に係る音響信号処理装置のユーザ(スイートスポット内にいる聴者)の音の聞こえ方について示した説明図である。
図3】第1の実施形態に係る音響信号処理装置のユーザ以外の者(スイートスポット外にいる者)の音の聞こえ方について示した説明図である。
図4】第1の実施形態に係る音響信号処理装置でトランスオーラル再生を行う際の環境モデル(スピーカ使用時にクロストークが発生する状況)について示した説明図である。
図5】第2の実施形態に係る音響信号処理装置の構成を示すブロック図である。
図6】第3の実施形態に係る音響信号処理装置の構成を示すブロック図である。
図7】第4の実施形態に係る音響信号処理装置の構成を示すブロック図である。
【発明を実施するための形態】
【0016】
(A)第1の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
【0017】
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音響信号処理装置10の全体構成を示すブロック図である。
【0018】
音響信号処理装置10は、入力音I(入力音の音響信号)を処理して出力する装置である。この実施形態では、音響信号処理装置10は、ステレオスピーカSpに音響信号を出力するものとする。ステレオスピーカSpは、左側スピーカSpLと右側スピーカSpRにより構成されている。
【0019】
また、音響信号処理装置10は、入力音Iを聴取させる対象(聴者)であるユーザU以外の者(以下、「周辺者」と呼ぶ)に対して入力音Iをマスキングする(聞き取りにくくする)ためのマスキング音Mの供給を受け、マスキング音Mに立体音響処理を施して入力音Iと混合した音響信号を生成して、スピーカSpL、SpRに出力する。なお、この実施形態では、音響信号処理装置10は、2つのスピーカにより構成されるステレオスピーカに出力する例について説明したが、出力するスピーカの構成(例えば、スピーカの数や位置)については限定されないものである。
【0020】
音響信号処理装置10の使用環境(用途)は限定されないものである。この実施形態の例では、入力音Iを、ハンズフリー通話における遠端側の音(以下、「遠端音」と呼ぶ)(例えば、遠端側のマイクで捕捉された音)とする。そして、音響信号処理装置10は、入力音Iに基づく音をステレオスピーカSP(左側スピーカSpL、右側スピーカSpR)から出力させて、近端側のユーザUに聴取させるものとして説明する。なお、実際のハンズフリー通話では、近端側のユーザUが発話した音声を含む音(以下、「近端音」と呼ぶ)を捕捉して遠端側に伝送する構成が必要となるが、近端側から遠端側への通信構成については限定されないため、図1では図示省略している。なお、音響信号処理装置10は、ハンズフリー通話以外にも単に、録音された音声(例えば、ユーザUに対する音声ガイダンス等)を入力音Iとして処理する装置としてもよい。
【0021】
図1では、入力音響信号Iを聴取させる対象となるユーザUと、ステレオスピーカSPを構成する各スピーカSpL、SpRとの位置関係を上側から見た場合の例について示している。図1では、ユーザUの位置(上側から見た場合の頭部の中心位置)をPU、左側スピーカSpLの位置(上側から見た場合の中心位置)をPL、右側スピーカSpRの位置(上側から見た場合の中心位置)をPRとして図示している。図1では、ユーザUから見て、前側に各スピーカSpL、SpRが配置されている。
【0022】
また、図1では、領域ASは、音響信号処理装置10において行われる立体音響処理のスイートスポット(聴者に対して設計通りに音像を定位させることが可能な領域)である。そして、ユーザUは領域AS内に位置している。
【0023】
次に音響信号処理装置10の内部構成について説明する。
【0024】
図1に示すように、音響信号処理装置10は、入力音信号入力部12、マスキング音信号入力部11、立体音響処理部13、信号混合部14、及びスピーカ出力部15を有している。音響信号処理装置10の各構成要素の詳細については後述する。
【0025】
音響信号処理装置10は、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る音響再生プログラムを含む)を実行させることで実現するようにしてもよいが、その場合であっても、機能的には、図1のように表すことができる。
【0026】
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態における音響信号処理装置10の動作(実施形態に係る音響再生方法)を説明する。
【0027】
入力音信号入力部12は、入力音I(アナログの音響信号)が供給されると、入力Iをアナログ信号からデジタル信号に変換する。
【0028】
また、マスキング音信号入力部11は、マスキング音M(アナログの音響信号)が入力されると、そのマスキング音Mを、アナログ信号からデジタル信号に変換する。
【0029】
マスキング音Mとしては、ステレオスピーカSpから再生される入力音I(遠端音)や、ユーザUの発話する音声(近端音)をマスキング可能な成分が含まれていれば、具体的な内容は限定されないものである。マスキング音Mとしては、例えば、人間が発話した音声サンプルをそのまま、又は加工した音響信号としてもよい。
【0030】
なお、音響信号処理装置10における入力音I及びマスキング音Mの入力形式は上記の構成に限定されず種々の構成を適用することができる。例えば、音響信号処理装置10に、デジタル形式の入力音I及びマスキング音Mを入力するようにしてもよいし、ストリーム形式ではなくファイル形式の音響データとしてまとめて入力するようにしてもよい。
【0031】
立体音響処理部13は、マスキング音Mに対し、ユーザUがスピーカSpRもしくはSpLとは別の場所(すなわち、入力音Iが定位することになる場所とは異なる場所)からマスキング音Mが聞えるように音像を定位させる立体音響処理を行う。立体音響処理部13において、マスキング音Mを立体音響処理した立体音響処理したマスキング音(以下、「立体音響マスキング音」とも呼ぶ)を、同時に複数設定(同じマスキング音Mに基づく立体音響マスキング音を設定)することもでき、各立体音響マスキング音が、ユーザに対して別々の方向に定位するように立体音響処理を行う。
【0032】
次に、図2を用いて、立体音響処理部13における立体音響処理(立体音響マスキング音の設定)の具体例について説明する。
【0033】
図2では、スウィートスポットAS内に位置し、2つのスピーカSpL、SpRの位置PL、PRの位置を結んだ線の中間点の方向Fを向いているユーザUに対して左90度の方向(Fの方向を0度として反時計回りに90度の方向)に位置する第1の立体音響マスキング音MS1と、ユーザUに対して右90度の方向(Fの方向を0度として時計回りに90度の方向)に位置する第2の立体音響マスキング音MS2が設定された状態について図示している。また、この実施形態では、入力音Iについては特に立体音響処理されていないため、図2では、入力音Iは2つのスピーカの間(位置PLとPRとの間の空間)に定位する結果となる状態について示している。なお、この実施形態では、入力音Iについては特に立体音響処理されない例について示しているが、入力音Iについても所定の方向(例えば、ユーザUが向くと想定される方向)に定位する立体音響処理を施すようにしてもよい。立体音響処理部13は、例えば、図2に示すような状態を実現するために、マスキング音Mに基づいて、ユーザUに対して1又は複数の方向(入力音Iが定位する場所とは異なる方向)に対してマスキング音Mを定位させる立体音響処理を行った立体音響マスキング音を生成する。
【0034】
立体音響処理部13が行う立体音響処理の方式については限定されないものであるが、例えば、以下の参考文献1に記載されるようなトランスオーラル再生の技術を適用するようにしてもよい。トランスオーラル再生は、イヤホンやヘッドフォンを用いる立体音響技術であるバイノーラル再生と同様の立体音響の効果を、スピーカでも得られるように応用した技術である。
[参考文献1]WG Gardner著,「3−D Audio Using Loudspeakers」,Springer(US),1977年発行
【0035】
バイノーラル再生では、音源とする音響信号に定位させたい方向の頭部伝達関数を畳み込み、バイノーラル音源に変換し、ヘッドフォンやイヤホンから再生することで、立体音響効果を生み出すことが出来る。
【0036】
図4は、立体音響処理部13がトランスオーラル再生の技術を利用した立体音響処理を行う際の環境モデルについて示した説明図である。
【0037】
図4では、ユーザUの右耳の符号をe、ユーザUの左耳の符号をeと図示している。
【0038】
例えば、仮にバイノーラル音源をスピーカSpL、SpRからそのまま再生した場合、十分な立体音響効果を得ることができなくなる。例えば、右耳用バイノーラル音源は、ユーザUの右耳eにのみ到達する必要があるが、右側スピーカSpRから再生した右耳用バイノーラル音源は、右耳eだけでなく左耳eにも到達してしまう。また、同様に、左側スピーカSpLから再生された左耳用バイノーラル音源も左耳eだけでなく右耳eにも到達することになる。このような現象はクロストークと呼ばれ、スピーカを再生環境とする際の立体音響効果を妨げる原因となっている。
【0039】
これに対して、参考文献1に記載されたトランスオーラル再生では、各スピーカから両耳までの室内伝達関数を測定した後、バイノーラル音源に伝達関数を畳み込み、その中のクロストーク成分のみをキャンセルするフィルタを設計する。
【0040】
図4では、右スピーカ右耳経路(右側スピーカSpRから右耳eへの経路)の伝達関数をGRR、右スピーカ左耳経路(右側スピーカSpRから左耳eへの経路)の伝達関数をGRL、左スピーカ右耳経路(左側スピーカSpLから右耳eへの経路)の伝達関数をGLR、左スピーカ左耳経路(左側スピーカSpLから左耳eへの経路)の伝達関数をGLLと図示している。
【0041】
また、以下では、トランスオーラル再生における左スピーカ左耳経路のフィルタをCLL(ω)(「ω」は周波数を表す。以下同様)、右スピーカ右耳経路のフィルタをCRR(ω)、左スピーカ右耳経路のフィルタをCLR(ω)、右スピーカ左耳経路のフィルタをCRL(ω)、左スピーカ左耳経路のフィルタをCLL(ω)とする。さらに、以下では、左耳用の音源定位位置に対応した頭部伝達関数(HRTF:Head−Related Transfer Function)をH(ω)とし、左耳用の音源定位位置に対応した頭部伝達関数(HRTF)をH(ω)とする。
【0042】
そうすると、トランスオーラル再生における各経路のフィルタは、以下の(1)式〜(4)式のように示すことができる。そして、(1)式〜(4)式の共通項(すなわち、各フィルタの共通項)をまとめたものをG(ω)とすると、G(ω)は以下の(5)式のように示すことができる。
【0043】
そして、上記の(1)式〜(4)式に示す各経路のフィルタを左右のスピーカSpL、SpRごとにまとめると、(6)式、(7)式に示すように、トランスオーラル再生においてクロストークの抑圧に用いられるクロストークキャンセルフィルタを求めることができる。(6)式に示すC(ω)は、右側スピーカSpR用のクロストークキャンセルフィルタであり、(7)式に示すC(ω)は、左側スピーカSpL用のクロストークキャンセルフィルタである。
【数1】
【0044】
トランスオーラル再生では、音像定位させる音源(この実施形態ではマスキング音M)に、上記のようなクロストークキャンセルフィルタを掛けて、各スピーカから再生することで、クロストーク成分が聴者(ユーザU)の耳元で打ち消され、左右それぞれのバイノーラル音源だけが耳に届き、バイノーラル再生と同様の立体音響効果を得ることができる。
【0045】
したがって、立体音響処理部13は、マスキング音Mに基づき、図2に示すように、第1の立体音響マスキング音MS1(方向D1)と、第2の立体音響マスキング音MS2(方向D2)を定位させるトランスオーラル再生の処理を行う場合、まず、第1の立体音響マスキング音MS1を設定した第1のバイノーラル音源と、第2の立体音響マスキング音MS2を設定したバイノーラル音源を生成する。そして、立体音響処理部13は、右耳用(右側スピーカSpR用)のバイノーラル音源に右側スピーカSpR用のクロストークキャンセルフィルタC(ω)を掛けて右側スピーカSpR用のトランスオーラル再生の音響信号(音源)を生成し、左耳用(左側スピーカSpL用)のバイノーラル音源に左側スピーカSpL用のクロストークキャンセルフィルタC(ω)を掛けて左側スピーカSpL用のトランスオーラル再生の音響信号(音源)を生成する処理を行う。
【0046】
以下では、立体音響処理部13が処理した音響信号(立体音響マスキング音の音響信号)をXと呼ぶものとする。ここでは、音響信号処理装置10の再生環境は、ステレオスピーカSp(スピーカSpL、SpR)であるため、音響信号Xには、右側スピーカSpR用の音響信号(以下、「XR」と呼ぶ)と、左側スピーカSpL用の音響信号(以下、「XL」と呼ぶ)が含まれることになる。
【0047】
信号混合部14は、立体音響処理部13においてマスキング音Mが立体音響処理された音響信号XR、XLと、入力音信号入力部12で取得した入力音Iを混合する処理を行う。
【0048】
以下では、入力音Iの右側スピーカSpR用の信号を「IR」と呼び、入力音Iの左側スピーカSpL用の信号を「IL」と呼ぶものとする。なお、入力音信号入力部12で取得した入力音Iがモノラル信号である場合に、入力音信号入力部12は、ステレオ信号に変換処理してIRとILを得るようにしてもよい。
【0049】
このとき、信号混合部14は、混合の際に、入力音Iが立体音響処理された音響信号Xに含まれるマスキング音Mの成分により十分マスキングされるように入力音Iと音響信号Xとの音量を調整することが望ましい。例えば、信号混合部14は、入力音Iと音響信号Xとの音量の比が1:1となるように音量調整するようにしてもよい。この際、入力音Iの音量に合わせて音響信号Xの音量を調節してもよいし、音響信号Xの音量にあわせて入力音Iの音量を調整するようにしてもよい。信号混合部14は、再生環境のスピーカごと(音響信号のチャネルごと)に音響信号を混合する処理を行う。
【0050】
この実施形態では、音響信号処理装置10の再生環境は、ステレオスピーカSp(スピーカSpL、SpR)であるため、信号混合部14は、IRとXRを混合して、右側スピーカSpR用の音響信号(以下、「OR」と呼ぶ)を生成し、ILとXLを混合して左側スピーカSpL用の音響信号(以下、「OL」と呼ぶ)を生成する。
【0051】
なお、信号混合部14に立体音響マスキング音となる音響信号が複数供給された場合、信号混合部14は、全ての立体音響マスキング音(音響信号)を加算した音を音響信号Xとして、入力音Iとの音量比を決定し混合するようにしてもよい。
【0052】
スピーカ出力部15は、信号混合部14において処理したステレオ音源(音響信号OR、OL)を左右のスピーカSpL、SpRに分配して出力する。これにより、右スピーカSpRは、右スピーカ用音源(OR)を再生し、左スピーカSpLは左スピーカ用音源(OL)を再生することになる。
【0053】
この実施形態では、上述の通り、スピーカ出力部15が音響信号を、スピーカSpL、SpRに直接供給するものとして説明したが、音響信号OR、OLを出力する形式については限定されないものである。スピーカ出力部15は、例えば、音響信号OR、OLの音声データを通信により間接的に送信(例えば、スピーカを備える装置に送信)するようにしてもよい。
【0054】
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0055】
第1の実施形態の音響信号処理装置10では、マスキング音Mに立体音響処理を行った立体音響マスキング音と、入力音I(遠隔音/遠端音)と混合してスピーカSpL、SpRに供給する。また、第1の実施形態の音響信号処理装置10では、マスキング音Mを、ユーザUにとって、入力音I(遠隔音)の音像が定位する位置とは別の場所(別の方向)に定位するように、立体音響処理を行う。さらに、第1の実施形態の音響信号処理装置10では、立体音響処理されたマスキング音Mに、入力音Iをそのまま混合する混合処理を行う。さらにまた、第1の実施形態の音響信号処理装置10では、混合処理を行う際、マスキング効果が得られる割合で入力音Iと立体音響処理されたマスキング音Mの音量を調節する。また、第1の実施形態の音響信号処理装置10では、立体音響の効果があるスウィートスポットの領域ASは、ユーザUが存在する位置に設定する。この際、第1の実施形態の音響信号処理装置10において、各スピーカSpL、SpRの配置は任意であり、各スピーカSpL、SpRとユーザUの位置関係から立体音響のパラメータを設定する。
【0056】
このように、第1の実施形態では、スピーカSpL、SpRから再生される音には、入力音Iと立体音響処理されたマスキング音M(1又は複数の立体音響マスキング音)が混ざっているがユーザUの位置(スウィートスポットの領域AS)では、図2に示すようにユーザUの正面(方向X)から聞え、立体音響処理された立体音響マスキング音MS1、MS2は、その立体音響効果により、正面以外(方向D1、D2)から聞えることになる。しかし、図3に示すように、ユーザUの位置以外の場所(スウィートスポットの領域AS以外の場所)にいる周辺者Hにとっては、入力音Iと立体音響マスキング音MS1、MS2とが混ざった状態で聴こえるため、入力音Iが聞こえにくくなる。言い換えると、周辺者Hにとっては、スウィートスポットの領域AS内にいるユーザUとは異なり、入力音Iが聞こえる場所と、マスキング音Mが聞こえる場所を分離した状態では聞こえず、入力音Iを聞きづらい状態となる。
【0057】
以上のように、第1の実施形態では、ユーザUにのみ、入力音Iをクリア(明確)に聞かせることができる。
【0058】
また、第1の実施形態では、音響信号処理装置10(信号混合部14)が入力音Iと立体音響処理されたマスキング音Mの音量を調節して混合するため、どのような環境でも安定してスピーチプライバシーの効果を得ることができる。
【0059】
さらに、第1の実施形態では、スピーカSpL、SpRの位置とユーザUとの位置関係に関わらず、立体音響処理によりユーザUに対して任意の方向にマスキング音Mの定位を行うことができるため、スピーカSpL、SpRの設置位置を任意の位置とすることができる。
【0060】
さらにまた、図2図3に示すように、ユーザUの近くにスピーカSpL、SpRを置くことで、ユーザUが発話する音声(近端音)についても、スピーカSpL、SpRから再生された音でマスキングされ、ユーザUの位置(スウィートスポットの領域AS)以外の場所にいる周辺者Hにとって、入力音I(遠端音)、ユーザUが発話する音声(近端音)ともに聞え難くなる。
【0061】
以上のように、第1の実施形態では、ユーザUとスピーカSpL、SpRの位置関係の制限を緩和し、スウィートスポットの領域AS内にいるユーザUに対してのみ入力音I(遠端音)を聴取させ、さらに、ユーザUが発話する音声(近端音)を周辺者Hに聴き取りにくくさせるという効果を同時に奏することができる。すなわち、第1の実施形態では、従来技術では難しかったユーザUの隣(横方向)の位置でもスピーチプライバシーの効果を得ることが可能となる。
【0062】
(B)第2の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
【0063】
(B−1)第2の実施形態の構成及び動作
図5は、第2の実施形態に係る音響信号処理装置10Aの全体構成について示したブロック図である。図5では、上述の図1と同一部分又は対称部分については同一符号又は対称符号を付している。
【0064】
以下では、第2の実施形態の音響信号処理装置10Aについて第1の実施形態との差異を説明する。
【0065】
第1の実施形態の音響信号処理装置10では、マスキング音信号入力部11で入力されたマスキング音Mを立体音響処理して立体音響マスキング音を生成していた。これに対して第2の実施形態の音響信号処理装置10Aでは、マスキング音Mの供給を受けて立体音響処理を行うのではなく、予めマスキング音Mに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号(音響信号のデータ)をデータベースに保持し、そこから所望の立体音響マスキング音の音響信号を選択して利用するものとする。
【0066】
図5に示す音響信号処理装置10Aでは、マスキング音信号入力部11と立体音響処理部13とが、マスキング音データベース16とマスキング音選択部17に置き換えられている点で第1の実施形態と異なっている。
【0067】
マスキング音データベース16には、予めマスキング音Mに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号(音響信号のデータ)が蓄積されている。ここでは、マスキング音データベース16には、N個(Nは2以上の整数)の立体音響マスキング音の音響信号X(X1〜XN)が蓄積されているものとする。音響信号X1〜XNは、それぞれ異なる位置にマスキング音Mが定位された音響信号であるものとする。各音響信号Xは、マスキング音Mを1つの位置に定位した音響信号としてもよいし、マスキング音Mを複数の位置に定位した音響信号としてもよい。
【0068】
そして、マスキング音選択部17は、マスキング音データベース16に蓄積された立体音響マスキング音の音響信号(X1〜XN)の中から1又は複数の音響信号Xを選択して取得し、信号混合部14に供給する処理を行う。
【0069】
マスキング音選択部17で選択する音響信号Xの数や組み合わせについては限定されないものである。マスキング音選択部17では、例えば、ユーザ(例えば、システム管理者等)の操作に応じた設定に基づき、選択する音響信号Xを決定するようにしてもよい。
【0070】
信号混合部14は、マスキング音選択部17から複数の音響信号Xが供給された場合には、それらを全て加算(混合)した音響信号と入力音Iとを混合する処理を行う。
【0071】
(B−2)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
【0072】
第2の実施形態の音響信号処理装置10Aでは、立体音響処理を省略し、マスキング音データベース16から立体音響処理された立体音響マスキング音の音響信号Xを取得するため、第1の実施形態と比較してリアルタイムの処理量を低減することができる。
【0073】
(C)第3の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
【0074】
(C−1)第3の実施形態の構成及び動作
図6は、第3の実施形態に係る音響信号処理装置10Bの全体構成について示したブロック図である。図6では、上述の図1と同一部分又は対称部分については同一符号又は対称符号を付している。
【0075】
以下では、第3の実施形態の音響信号処理装置10Bについて第2の実施形態との差異を説明する。
【0076】
第3の実施形態の音響信号処理装置10Bでは、出力レベル調整部18と背景雑音レベル推定部19が追加されている点で第1の実施形態と異なっている。また、第3の実施形態では、上述の通り、ユーザUの音声を含む近端音を収音するためのマイクMicが設置されている点で、第1の実施形態と異なっている。マイクMicの具体的な構成については限定されないものである。マイクMicとしては、例えば、全指向性マイクの他に、指向性を持ったマイクやエリア収音を行う収音装置等を適用することができる。
【0077】
第1の実施形態の音響信号処理装置10において、信号混合部14の出力レベルは、入力音I若しくは立体音響マスキング音の音響信号Xの音量により変るため、他の要素(例えば、ステレオスピーカSpの音量調節機能)で調節することが望ましい。これに対して、第3の実施形態は、ユーザUがいる環境(近端側;スウィートスポットの領域AS)の雑音レベルを推定し、推定した雑音レベルの大きさに応じて、信号混合部14の出力レベルを調節する。第3の実施形態では、図6に示すように、ユーザUのいるスウィートスポットAS内の領域の音(近端音)を収音するためのマイクMicが設置されているため、音響信号処理装置10Bは、このマイクMicが収音した近端音からユーザUのいる環境の背景雑音のレベルを推定する。
【0078】
背景雑音レベル推定部19は、マイクMicで収音した音に基づいて、所定の方式(具体的な方式は限定されない)によりユーザUのいる場所(スウィートスポットの領域AS)における背景雑音のレベルを推定する。背景雑音レベル推定部19は、ユーザUの音声(スウィートスポットの領域AS内の音声)及び入力音Iの音声(遠端話者の音声)が発生していない無音区間を推定し、その無音期間にマイクMicが収音した音に基づいて背景雑音を推定するようにしてもよい。
【0079】
背景雑音レベル推定部19において、音声が発生しているかどうかの判定(無音区間の判定)は、例えば収音した音の情報を利用した音声区間検出技術を使用するようにしてもよい。また、マイクMicで収音した音にステレオスピーカSp(スピーカSpL、SpR)から出力されたマスキング音Mの成分(立体音響マスキング音)が含まれる場合、背景雑音レベル推定部19は、マイクMicで収音した音から、マスキング音Mの成分を抑圧してから背景雑音レベルの推定を行うことが望ましい。背景雑音レベル推定部19は、マスキング音Mの成分を抑圧する際には、例えば、スペクトル減算法等の種々の目的音強調処理を適用することができる。
【0080】
出力レベル調整部18は、背景雑音レベル推定部19で推定した背景雑音レベルに応じて、信号混合部14の出力レベルを調整する。出力レベル調整部18は、例えば、信号混合部14が出力する音響信号のパワーと、背景雑音レベル推定部19が推定した背景雑音のパワーとの比が一定になるように、信号混合部14が出力する音響信号のパワーのレベルを調整するようにしてもよい。信号混合部14が出力する音響信号のパワーをS、推定した背景雑音のパワーをNとした場合、出力レベル調整部18は、例えば、SN比(SとNのパワーの比)を10dBとするようにしてもよい。
【0081】
(C−2)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
【0082】
第3の実施形態では、ユーザUのいる場所(スウィートスポットの領域AS)の背景雑音のレベル(音量)に応じて、信号混合部14の出力レベル(音量)を調節している。第3の実施形態では、例えば、背景雑音のレベルが大きいほど信号混合部14の出力レベルを大きくし、背景雑音のレベルが小さいほど信号混合部14の出力レベルを小さくすることで、ユーザUのいる場所(スウィートスポットの領域AS)の環境に関わらず、ユーザUに対する入力音Iの聞えやすさと、ユーザUのスピーチプライバシーを安定して保つことが出来る。
【0083】
(D)第4の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
【0084】
(D−1)第4の実施形態の構成
図7は、第4の実施形態に係る音響信号処理装置10Cの全体構成について示したブロック図である。図7では、上述の図6と同一部分又は対称部分については同一符号又は対称符号を付している。
【0085】
以下では、第4の実施形態の音響信号処理装置10Cについて第3の実施形態との差異を説明する。
【0086】
第3の実施形態の音響信号処理装置10Bでは、マスキング音信号入力部11で入力されたマスキング音Mを立体音響処理して立体音響マスキング音を生成していた。これに対して第4の実施形態の音響信号処理装置10Cでは、第2の実施形態と同様に、マスキング音データベース16及びマスキング音選択部17を備え、マスキング音データベース16から任意の立体音響マスキング音の音響信号を選択して取得し、信号混合部14に供給する処理を行う。したがって、図7に示すように、音響信号処理装置10Cでは、入力音信号入力部12と立体音響処理部13とが、マスキング音データベース16とマスキング音選択部17に置き換えられている点で第3の実施形態と異なっている。
【0087】
マスキング音データベース16及びマスキング音選択部17は、第2の実施形態と同様の構成であるため、詳しい説明を省略する。
【0088】
第4の実施形態の音響信号処理装置10Cでは、第2の実施形態と同様に、マスキング音選択部17が、マスキング音データベース16から1又は複数の音響信号Xを選択して取得し、信号混合部14に供給する処理を行う。
【0089】
(D−2)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
【0090】
第4の実施形態の音響信号処理装置10Cでは、立体音響処理を省略し、マスキング音データベース16から立体音響処理された立体音響マスキング音の音響信号Xを取得するため、第3の実施形態と比較してリアルタイムの処理量を低減することができる。
【0091】
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0092】
(E−1)第2、第4の実施形態の説明では、1種類のマスキング音Mを適用する例について説明したが、複数種類のマスキング音Mを適用するようにしてもよい。例えば、第2、第4の実施形態において、マスキング音データベース16に、マスキング音Mごとに音響信号Xのセットを蓄積するようにしてもよい。例えば、L個(Lは2以上の整数)のマスキング音M(M1〜ML)が存在する場合、マスキング音M1〜MLのそれぞれに対してN個の音響信号X1〜XNを生成して、マスキング音データベース16に蓄積(L・N個の立体音響処理されたマスキング音を蓄積)するようにしてもよい。
【符号の説明】
【0093】
10…音響信号処理装置、11…マスキング音信号入力部、12…入力音信号入力部、13…立体音響処理部、14…信号混合部、15…スピーカ出力部、AS…スウィートスポットの領域、D1…方向、D2…方向、F…方向、H…周辺者、I…入力音、MS1…第1の立体音響マスキング音、MS2…第2の立体音響マスキング音、SP…ステレオスピーカ、SpL…左側スピーカ、SpR…右側スピーカ。
図1
図2
図3
図4
図5
図6
図7