(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、近年、
図4に示すように、携帯端末(例えば、スマートフォンやタブレット端末)などの通信機能を有する集音機器2の両脇に、一対のスピーカ3L及び3Rを配置して接続し、このような構成で遠隔地と通話を行なう集音・放音装置1が利用されるようになってきている。また、同様な構成で、集音機器2内に記録された音楽ファイルやインターネット上の音楽配信サイトから取得した楽曲ファイルによる音(音楽)を、両脇のスピーカ3L及び3Rから放音させている状態で、利用者が、集音機器2のマイクロフォン正面から発した音声によるコマンドを受ける方法も検討されている。
【0008】
両脇のスピーカ3L及び3Rから音楽などが放音されている状態で、正面から到来する目的音を抽出し、通話相手に発話内容を伝えたり、若しくは、音声認識処理を介して音声コマンドを認識して音声コマンドに対応する処理を実行したりする場合には、スピーカ3L、3Rから発する音などが雑音となり、通話音質や音声認識率を大きく低下させる。
【0009】
そこで、上述した特許文献1の記載技術のような音源分離方式を適用し、両脇のスピーカ3L及び3Rから到来する雑音成分を抑圧し、正面からの目的音を抽出しなければならない。特許文献1に記載の音源分離方式を適用する場合には、
図5に示すように、集音機器1に、2つのマイクロフォン4L、4Rを搭載若しくは外付けすることを要する。
【0010】
しかしながら、利用者が集音・放音装置1から音楽を放音して楽しむ場合、その音量は大きく、大きな音量の音楽が雑音成分(非目的音)としてマイクロフォン4L、4Rに捕捉されるため、音源分離方式を適用して目的音を抽出したとしても、抽出した目的音信号に雑音成分が多く残ってしまう。
【0011】
これを避けようとすると、利用者は、音楽の出力(放音)を停止してから、通話音声や音声コマンドなどの入力音声を発音すれば良い。しかしながら、このように出力を停止させるキー操作などを行うのであれば、音声コマンドのメリットは薄れ、キー操作などでコマンドを入力する方が簡便である。また、着信からの通話の場合、音声の出力停止操作をできないことや、出力停止操作の実行のため着信が遅れてしまうことなども生じる。
【0012】
そのため、放音音がある状況においても、意図した音源からの目的音を、良好なSN比をもって抽出することができる、集音・放音装置、音源分離ユニット及び音源分離プログラムが望まれている。
【課題を解決するための手段】
【0013】
第1の本発明は、2本のマイクロフォンが周囲音を捕捉する集音部と、
上記集音部の脇に配置された1又は複数のスピーカから放音する放音部とを有する集音・放音装置において、(1)上記2本のマイクロフォンが周囲音を捕捉した入力音信号
の位相差に基づき、所定方位にある音源からの目的音
以外を抑圧し当該目的音を抽出する音源分離手段と、(2)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロフォンで捕捉された放音に伴う非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段とを備え、(3)放音に伴う非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して上記目的音を抽出することを特徴とする。
【0014】
第2の本発明は、2本のマイクロフォンが周囲音を捕捉する集音部と、
上記集音部の脇に配置された1又は複数のスピーカから放音する放音部とを有する集音・放音装置に適用される音源分離ユニットであって、(1)上記2本のマイクロフォンが周囲音を捕捉した入力音信号
の位相差に基づき、所定方位にある音源からの目的音
以外を抑圧し当該目的音を抽出する音源分離手段と、(2)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロフォンで捕捉された放音に伴う非目的音を除去する、上記音源分離手段へ至る経路までに設けられた放音非目的音除去手段とを備え、(3)上記放音非目的音除去手段は、放音する音信号に基づき、上記スピーカから放音され、上記各マイクロフォンで捕捉された放音に伴う非目的音の擬似信号を生成する擬似放音非目的音生成部と、生成された放音に伴う非目的音の擬似信号を、上記入力音信号から除去する減算部とを有し、(4)放音に伴う非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して上記目的音を抽出することを特徴とする。
【0015】
第3の本発明は、2本のマイクロフォンが周囲音を捕捉する集音部と、
上記集音部の脇に配置された1又は複数のスピーカから放音する放音部とを有する集音・放音装置に搭載されるコンピュータが実行する音源分離プログラムであって、(1)上記コンピュータを、(1−1)上記2本のマイクロフォンが周囲音を捕捉した入力音信号
の位相差に基づき、所定方位にある音源からの目的音
以外を抑圧し当該目的音を抽出する音源分離手段と、(1−2)上記放音部が放音する音信号が入力され、この放音する音信号に基づき、上記スピーカから放音され、上記各マイクロフォンで捕捉された放音に伴う非目的音の擬似信号を生成する擬似放音非目的音生成部と、生成された放音に伴う非目的音の擬似信号を、上記入力音信号から除去する減算部とを有し、上記スピーカから放音され、上記各マイクロフォンで捕捉された放音に伴う非目的音を除去する、上記音源分離手段へ至るまでに設けられた放音非目的音除去手段として機能させ、(2)放音に伴う非目的音を上記放音非目的音除去手段で除去すると共に、その他の非目的音を上記音源分離手段で除去して上記目的音を抽出することを特徴とする。
【発明の効果】
【0016】
本発明によれば、放音音がある状況においても、意図した音源からの目的音を、良好なSN比をもって抽出することができる、集音・放音装置、音源分離ユニット及び音源分離プログラムを提供できる。
【発明を実施するための形態】
【0018】
(A)第1の実施形態
以下、本発明による集音・放音装置、音源分離ユニット及び音源分離プログラムの第1の実施形態を、図面を参照しながら説明する。
【0019】
(A−1)第1の実施形態の構成
第1の実施形態の集音・放音装置は、一対のマイクロフォンが搭載され、若しくは、外付けされており、かつ、一対のスピーカが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末などの集音機器を利用している集音・放音装置であれば、一対のマイクロフォンが搭載され、一対のスピーカが外付けされて構成される。また例えば、スピーカ一体型のオーディオ機器が該当する集音・放音装置であれば、一対のマイクロフォンも一対のスピーカも搭載されて構成される。以上のように、一対のマイクロフォン及び一対のスピーカの接続形態は多様であるが、いずれの接続形態を適用したものであっても良い。
【0020】
以下では、第1の実施形態の集音・放音装置は、上述した
図5に示すように、一対のマイクロフォンが搭載され、一対のスピーカが外付けされて構成されているとして説明を行う。また、第1の実施形態の集音・放音装置における各構成要素の符号も、
図5に記述されている構成要素に関しては、
図5で用いている符号をそのまま用いる。
【0021】
図1は、第1の実施形態の集音・放音装置10の構成を示すブロック図である。第1の実施形態の集音・放音装置10は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素(例えば、スピーカ、マイクロフォン、アナログ/デジタル変換部(A/D変換部)、デジタル/アナログ変換部(D/A変換部)を除く部分)を、CPU、ROM、RAMなどのプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、集音・放音装置10の機能的な詳細構成は、
図1で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、集音・放音装置10が有するメモリに装置出荷時から書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。
【0022】
図1において、第1の実施形態の集音・放音装置10は、放音部20及び集音部30を有する。
【0023】
放音部20は、既存の放音部と同様な構成を有する。放音部20は、Lチャンネル及びRチャンネルの音源データ記憶部21L及び21R、D/A変換部22L及び22R、並びに、スピーカ3L及び3Rを有する。
【0024】
一方、集音部30は、Lチャンネル及びRチャンネルのマイクロフォン4L及び4R、並びに、A/D変換部31L及び31Rと、
図2に詳細構成を示す放音非目的音キャンセラ処理部32と、音源分離処理部33とを有する。ここで、後述する音源データの入力端子を有する集音部30の全体が音源分離ユニットとして構築されて、市販に供するものであっても良い。また、A/D変換部31L、31R、放音非目的音キャンセラ処理部32及び音源分離処理部33でなる部分が、後述する音源データの入力端子を有して、音源分離ユニットとして構築され、市販に供するものであっても良い。すなわち、集音・放音装置10は、特に、集音部30は、音源分離ユニットを用いて構築されたものであっても良い。
【0025】
音源データ記憶部21L及び21Rはそれぞれ、Lチャンネル、Rチャンネル用の音源データ(デジタル信号)sigL、sigRを記憶し、図示しない放音制御部の制御下で音源データsigL、sigRを読み出して出力するものである。音源データsigL、sigRは、例えば、楽曲データであっても良く、電子書籍その他の読み上げ用などの音声データであっても良い。各音源データ記憶部21L、21Rは、CD−ROMなどの記録媒体が装填された記録媒体アクセス装置であっても良く、インターネット上のサイトなどの外部装置から通信によって取得した音源データを記憶する当該装置の記憶部によって構成されたものであっても良い。また、各音源データ記憶部21L、21Rは、例えば、USBコネクタ接続で接続される外付けの装置が該当するものであっても良い。さらに、各音源データ記憶部21L、21Rは「記憶部」とネーミングしているが、各音源データ記憶部21L、21Rの概念には、デジタル音声放送の受信機のような、受信した音源データをリアルタイムに出力する構成をも含むものとする。
【0026】
D/A変換部22L及び22Rはそれぞれ、対応する音源データ記憶部21L、21Rから出力された音源データsigL、sigRをアナログ信号に変換して対応するスピーカ3L、3Rに与えるものである。
【0027】
スピーカ3L及び3Rはそれぞれ、対応するD/A変換部22L、22Rから与えられた音源信号を放音出力(発音出力)するものである。ここで、スピーカ3L及び3Rから放音出力された音響若しくは音声は、マイクロフォン4R、4Lに捕捉されることを意図したものではなく、マイクロフォン4R、4Lの捕捉機能から見たとき、非目的音になっている。
【0028】
以上では、スピーカ3L、3Rから放音される音楽の当初の信号形式がデジタル信号(音源データ)であるものを示したが、音源データ記憶部21L、21Rに相当する構成が、レコードプレイヤ、オーディオカセットテープレコーダ、AMやFMのラジオ受信機などであって、アナログ信号でなる音響信号や音声信号を出力するものであっても良い。この場合には、D/A変換部22L及び22Rは省略され、別途、Lチャンネル、Rチャンネル用のA/D変換部を設けて、アナログ信号の音響信号や音声信号をデジタル信号に変換して放音非目的音キャンセラ処理部32に与えることになる。
【0029】
マイクロフォン4R及び4Lはそれぞれ、周囲音を捕捉して電気信号(アナログ信号)に変換するものである。一対のマイクロフォン4R及び4Lにより、ステレオ信号が得られる。各マイクロフォン4R、4Lは、当該集音・放音装置10の正面から到来する音を主として捕捉するような指向性を有するものであるが、両脇に配置されているスピーカ3L、3Rから放音された音をも捕捉するものである。なお、スピーカ3L、3Rは、一対のマイクロフォン4R及び4Lの両脇に配置されることが好ましいが、この配置に限定されるものではない。
【0030】
各マイクロフォン4R、4Lは、例えば、当該集音・放音装置10の筐体に設けられた筒体内に取り付けられる。ここで、筒体の内面には合成樹脂でなる遮音部材が設けられ、マイクロフォン4R、4Lが取り付けられたときに、筐体の内外を音が通過する経路ができないようになされている。これにより、筐体内部で発生した雑音や、外部から筐体内部に入り込んで反射により筐体外部に出ていこうとする雑音などを、マイクロフォン4R、4Lが捕捉するようなことを極力防止することができる。
【0031】
A/D変換部31L及び31Rはそれぞれ、対応するマイクロフォン4R、4Lが捕捉した入力音信号をデジタル信号inputL、inputRに変換して放音非目的音キャンセラ処理部32に与えるものである。各A/D変換部31L、31Rは、例えば、音源データsigL、sigRのサンプリングレートと同じサンプリングレートのデジタル信号に変換する。
【0032】
放音非目的音キャンセラ処理部32には、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRも与えられる。ここで、放音非目的音キャンセラ処理部32に入力される4つのデジタル信号のサンプリングレートが揃っていることを要する。例えば、インターネットのサイトからダウンロードし、音源データ記憶部21L及び21Rに記憶された音源データsigL、sigRのサンプリングレートが、A/D変換部31L、31Rからのデジタル信号inputL、inputRのサンプリングレートと異なる場合には、D/A変換部22L、22Rへはダウンロードした音源データsigL、sigRをそのまま与え、放音非目的音キャンセラ処理部32へは音源データsigL、sigRのサンプリングレートを変換した音源データを与えるようにすれば良い。
【0033】
放音非目的音キャンセラ処理部32は、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRに基づき、入力音信号(デジタル信号)inputL、inputRに含まれている、スピーカ3L、3Rから放音されることによる非目的音成分(以下、適宜、放音非目的音と呼ぶ)を除去(若しくは軽減)し、音源分離処理部33に与えるものである。
【0034】
音源分離処理部33は、放音非目的音が除去された入力音信号ECoutL、ECoutRに基づき、所定方位(例えば、正面)にある音源からの目的音だけを抽出するものである。音源分離処理部33による音源分離方式としては、既存の音源分離方式のいずれを適用しても良い。例えば、特許文献1に記載の音源分離方式を適用できる。
【0035】
第1の実施形態の集音・放音装置10は、自装置からの放音による非目的音を放音非目的音キャンセラ処理部32で除去し、他の非目的音を音源分離処理部33で除去することにより、目的音を抽出するものとなっている。
【0036】
抽出された目的音の処理方法は限定されるものではない。例えば、抽出された目的音の用途が通話音声であれば、抽出された目的音は送話処理される。また例えば、抽出された目的音の用途が音声コマンドであれば、抽出された目的音に対して音声認識を行った後、認識された音声がどのコマンドに該当するかを照合することとなる。
【0037】
図2は、放音非目的音キャンセラ処理部32の詳細構成を示すブロック図である。
【0038】
図2において、放音非目的音キャンセラ処理部32は、4つの擬似放音非目的音生成部41LL〜41RRと、4つの減算部42LL〜42RRとを有している。
【0039】
スピーカ3L、3Rから放音され、マイクロフォン4R、4Lによって捕捉される、目的音から見て不要な音(放音非目的音)は、電話通信において問題となっている音響エコーと同様にみなすことができる。そこで、第1の実施形態においては、放音非目的音キャンセラ処理部32を、音響エコーキャンセラの技術を流用して構成した(例えば、非特許文献1には「ステレオエコーキャンセラ」が記載されている)。
【0040】
擬似放音非目的音生成部41LLは、Lチャンネルの入力音信号inputLに含まれている、スピーカ3Lから放音されてマイクロフォン4Lで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigLに基づいて生成し、減算部42LLは、Lチャンネルの入力音信号inputLから、擬似放音非目的音生成部41LLが生成した擬似放音非目的音を減算し、Lチャンネルの入力音信号inputLから、スピーカ3Lから放音されてマイクロフォン4Lで捕捉された放音非目的音の成分を除去するものである。
【0041】
擬似放音非目的音生成部41RLは、Lチャンネルの入力音信号inputLに含まれている、スピーカ3Rから放音されてマイクロフォン4Lで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigRに基づいて生成し、減算部42RLは、擬似放音非目的音生成部41LLの出力音信号から、擬似放音非目的音生成部41RLが生成した擬似放音非目的音を減算し、擬似放音非目的音生成部41LLの出力音信号から、スピーカ3Rから放音されてマイクロフォン4Lで捕捉された放音非目的音の成分を除去するものである。
【0042】
これにより、擬似放音非目的音生成部41RLから出力された入力音信号ECoutLは、入力音信号inputLから、スピーカ3Lから放音されてマイクロフォン4Lで捕捉された放音非目的音の成分と、スピーカ3Rから放音されてマイクロフォン4Lで捕捉された放音非目的音の成分とが除外されたものとなる。
【0043】
擬似放音非目的音生成部41LRは、Rチャンネルの入力音信号inputRに含まれている、スピーカ3Lから放音されてマイクロフォン4Rで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigLに基づいて生成し、減算部42LRは、Rチャンネルの入力音信号inputRから、擬似放音非目的音生成部41LRが生成した擬似放音非目的音を減算し、Rチャンネルの入力音信号inputRから、スピーカ3Lから放音されてマイクロフォン4Rで捕捉された放音非目的音の成分を除去するものである。
【0044】
擬似放音非目的音生成部41RRは、Rチャンネルの入力音信号inputLに含まれている、スピーカ3Rから放音されてマイクロフォン4Rで捕捉された放音非目的音を擬似した擬似放音非目的音を音源データsigRに基づいて生成し、減算部42RRは、擬似放音非目的音生成部41LRの出力音信号から、擬似放音非目的音生成部41RRが生成した擬似放音非目的音を減算し、擬似放音非目的音生成部41LRの出力音信号から、スピーカ3Rから放音されてマイクロフォン4Rで捕捉された放音非目的音の成分を除去するものである。
【0045】
これにより、擬似放音非目的音生成部41RRから出力された入力音信号ECoutRは、入力音信号inputRから、スピーカ3Lから放音されてマイクロフォン4Rで捕捉された放音非目的音の成分と、スピーカ3Rから放音されてマイクロフォン4Rで捕捉された放音非目的音の成分とが除外されたものとなる。
【0046】
擬似放音非目的音生成部41LL〜41RRはそれぞれ、音響エコーキャンセラで利用されているような適応フィルタによって構成される。これら適応フィルタが適用する適応アルゴリズムは限定されないが、例えば、学習同定アルゴリズムを適用することができる。
【0047】
ここで、一対のマイクロフォン4L及び4Rも一対のスピーカ3L及び3Rも、集音・放音装置10に搭載され、音響経路を介して接続されるマイクロフォン及びスピーカの組み合わせにおける各音響経路が固定(長さや位置関係が固定)の場合には、フィルタ係数が固定されているデジタルフィルタを、適応フィルタに代えて、擬似放音非目的音生成部41LL〜41RRを構成するフィルタとして用いるようにしても良い。なお、音響経路が固定であっても、壁面その他での反射を考慮して適応フィルタを適用するようにしても良い。
【0048】
(A−2)第1の実施形態の動作
次に、第1の実施形態の集音・放音装置10の動作を説明する。以下では、音源データが楽曲データであり、目的音が、集音・放音装置10の正面に位置する利用者が発音した音声であるとして、適宜、説明する。
【0049】
各音源データ記憶部21L、21Rから読み出された音源データ(楽曲データ)はそれぞれ、対応するD/A変換部22L、22Rによってアナログ信号に変換された後、各スピーカ3L、3Rから放音される。このような音楽が当該集音・放音装置10から流れているときに、利用者が当該集音・放音装置10に向かって発音した音声は、両マイクロフォン4L及び4Rによって捕捉される。この際、スピーカ3L、3Rからの音楽も流れているため、スピーカ3Lからの音楽も両マイクロフォン4L及び4Rによって捕捉され、スピーカ3Rからの音楽も両マイクロフォン4L及び4Rによって捕捉される。さらに、周囲の背景雑音(エアコンの駆動音、近くを走行する車両からの走行音など)も、両マイクロフォン4L及び4Rによって捕捉される。
【0050】
すなわち、各マイクロフォン4L、4Rが捕捉して得た入力音信号には、利用者の音声という目的音以外に、自装置が放音した音楽という放音非目的音や、背景雑音などの非目的音(以下、適宜、背景非目的音と呼ぶ)が含まれている。
【0051】
各マイクロフォン4L、4Rが捕捉して得た入力音信号はそれぞれ、対応するA/D変換部31L、31Rによってデジタル信号inputL、inputRに変換されて放音非目的音キャンセラ処理部32に与えられる。放音非目的音キャンセラ処理部32には、音源データsigL及びsigRも与えられる。
【0052】
擬似放音非目的音生成部41LLによって、音源データsigLから、スピーカ3Lから放音されてマイクロフォン4Lで捕捉された放音非目的音を擬似した擬似放音非目的音が生成され、また、擬似放音非目的音生成部41RLによって、音源データsigRから、スピーカ3Rから放音されてマイクロフォン4Lで捕捉された放音非目的音を擬似した擬似放音非目的音が生成される。そして、これら2種類の擬似放音非目的音はそれぞれ、減算部42LL及び42RLによって、Lチャンネルの入力音信号inputLから減算されて除去され、この除去後のLチャンネルの入力音信号ECoutLが音源分離処理部33に与えられる。
【0053】
また、擬似放音非目的音生成部41LRによって、音源データsigLから、スピーカ3Lから放音されてマイクロフォン4Rで捕捉された放音非目的音を擬似した擬似放音非目的音が生成され、また、擬似放音非目的音生成部41RRによって、音源データsigRから、スピーカ3Rから放音されてマイクロフォン4Rで捕捉された放音非目的音を擬似した擬似放音非目的音が生成される。そして、これら2種類の擬似放音非目的音はそれぞれ、減算部42LR及び42RRによって、Rチャンネルの入力音信号inputRから減算されて除去され、この除去後のRチャンネルの入力音信号ECoutRが音源分離処理部33に与えられる。
【0054】
そして、音源分離処理部33によって、放音非目的音の成分が除去された一対の入力音信号ECoutL及びECoutRに基づいて、音源分離処理が実行されて、背景非目的音が除外され、正面方位から到来した利用者からの音声である目的音outputが抽出され、次段の処理部へ出力される。
【0055】
(A−3)第1の実施形態の効果
第1の実施形態によれば、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音に区別し、それぞれに適した除去処理を適用して除去して目的音を抽出するようにしたので、目的音の抽出精度を非常に高いものとすることができる。
【0056】
因みに、非目的音を一括して捉え、放音非目的音キャンセラ処理部32を設けることなく、音源分離処理部33の処理だけに委ねて目的音を抽出した場合には、抽出した目的音に、放音された放音非目的音の成分が残ってしまい、抽出した目的音を聴取しても音声が聞き取り難く、音声認識に供した場合に認識率が低くなっていた。
【0057】
一対のマイクロフォン4L及び4Rの距離を数cmから十数cm程度に離し、音楽を楽しむことができる音量で音楽を放音しながら、マイクロフォン4L及び4Rの正面側に1m〜数m程度離れた位置から音声を発し、第1の実施形態の方法で音声(目的音)を抽出する実験を行っている。マイクロフォン4L及び4Rでピックアップされた音を処理することなく聴いてみると、音声は音楽に埋もれてほとんど聞き取れない。第1の実施形態の方法で得られた目的音信号は、放音非目的音の成分はほとんど残っておらずに主として音声の成分だけを含むものとなり、抽出した目的音信号を聴いてみると、音声の内容を十分かつ明瞭に把握できるものとなっていた。
【0058】
(B)第2の実施形態
次に、本発明による集音・放音装置、音源分離ユニット及び音源分離プログラムの第2の実施形態を、図面を参照しながら説明する。
【0059】
図3は、第2の実施形態の集音・放音装置10Aの構成を示すブロック図であり、第1の実施形態に係る
図1との同一、対応部分には同一符号を付して示している。
【0060】
第2の実施形態の集音・放音装置10Aは、集音部30Aの構成が第1の実施形態の集音部30と異なっている。集音部30Aは、マイクロフォン4L、4R、A/D変換部31L、31R、放音非目的音キャンセラ処理部32及び音源分離処理部33に加え、逆相音源データ形成部34L、34R、D/A変換部35L、35R並びにサブスピーカ36L、36Rを有する。
【0061】
逆相音源データ形成部34Lは、音源データ記憶部21L、21Rから出力された音源データsigL、sigRの逆相であって、スピーカ3L、3Rからマイクロフォン4Lへの放音音響経路での伝搬遅延及び減衰を考慮した位相差及びゲインを有する逆相音源データsigLL/、sigRL/を形成した後、これらの逆相音源データsigLL/及びsigRL/を合成した合成逆相音源データsigΣL/を得てD/A変換部35Lに与えるものである。
【0062】
逆相音源データ形成部34Rは、音源データ記憶部21L、21Rから出力された音源データsigL、sigRの逆相であって、スピーカ3L、3Rからマイクロフォン4Rへの放音音響経路での伝搬遅延及び減衰を考慮した位相差及びゲインを有する逆相音源データsigLR/、sigRR/を形成した後、これらの逆相音源データsigLR/及びsigRR/を合成した合成逆相音源データsigΣR/を得てD/A変換部35Rに与えるものである。
【0063】
なお、逆相音源データ形成部34L、34Rが必要とする放音音響経路での伝搬遅延及び減衰の情報は、逆相音源データ形成部34L、34Rが音源データsigL、sigRと、入力音信号inputL、inputRとの比較(相互相関)により得るようにしても良く、放音非目的音キャンセラ処理部32内の適応フィルタから該当する情報を取出して得るようにしても良い。
【0064】
D/A変換部35L、35Rはそれぞれ、対応する逆相音源データ形成部34L、34Rから出力された合成逆相音源データsigΣL/、sigΣR/をアナログ信号に変換して対応するサブスピーカ36L、36Rに与えるものである。
【0065】
サブスピーカ36Lは、マイクロフォン4Lが取り付けられている筒体のマイクロフォン4Lの捕捉面側の空間に対して放音するように設けられており、合成逆相音源データsigΣL/が変換されたアナログ信号に基づいて放音を行う。
【0066】
サブスピーカ36Rは、マイクロフォン4Rが取り付けられている筒体のマイクロフォン4Rの捕捉面側の空間に対して放音するように設けられており、合成逆相音源データsigΣR/が変換されたアナログ信号に基づいて放音を行う。
【0067】
マイクロフォン4Lが捕捉しようとする空間には、スピーカ3Lからマイクロフォン4Lへの放音音響経路を経由した音源データsigLに係る放音非目的音と、スピーカ3Rからマイクロフォン4Lへの放音音響経路を経由した音源データsigRに係る放音非目的音と、サブスピーカ36Lから放音された合成逆相音源データsigΣL/に係る逆相放音非目的音とが放音され、逆相成分の重畳により、スピーカ3L、3Rからマイクロフォン4Lへの放音目的音が大幅に打ち消される。すなわち、マイクロフォン4Lが捕捉した入力音信号における放音非目的音の成分はかなり小さいものとなる。
【0068】
また、マイクロフォン4Rが捕捉しようとする空間には、スピーカ3Lからマイクロフォン4Rへの放音音響経路を経由した音源データsigLに係る放音非目的音と、スピーカ3Rからマイクロフォン4Rへの放音音響経路を経由した音源データsigRに係る放音非目的音と、サブスピーカ36Rから放音された合成逆相音源データsigΣR/に係る逆相放音非目的音とが放音され、逆相成分の重畳により、スピーカ3L、3Rからマイクロフォン4Rへの放音目的音が大幅に打ち消される。すなわち、マイクロフォン4Rが捕捉した入力音信号における放音非目的音の成分はかなり小さいものとなる。
【0069】
その結果、放音非目的音キャンセラ処理部32によってさらに放音目的音を除去すると、放音非目的音キャンセラ処理部32から出力された入力音信号ECoutL、ECoutRにおける放音非目的音の成分は極々僅かとなる。
【0070】
第2の実施形態によっても、非目的音を一括して捉えるのではなく、放音非目的音及び背景非目的音に区別し、それぞれに適した除去処理を適用して除去して目的音を抽出するようにしたので、目的音の抽出精度を非常に高いものとすることができる。
【0071】
第2の実施形態によれば、放音非目的音の除去に2種類の除去構成を適用したので、放音非目的音の除去を第1の実施形態より適切に行うことができ、目的音の抽出精度を一段と高いものとすることができる。
【0072】
(C)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0073】
上記各実施形態では、スピーカが2つの場合を示したが、スピーカは1つでも3つ以上であっても良い。また、マイクロフォンも2つに限定されず、3以上あっても良い。スピーカとマイクロフォンとの数に応じて定まる放音音響経路の数を考慮して、放音非目的音キャンセラ処理部32の内部構成を設計すれば良い。
【0074】
第1の実施形態では、放音非目的音の除去構成として、放音非目的音キャンセラ処理部だけを備えるものを示し、第2の実施形態では、放音非目的音の除去構成として、放音非目的音キャンセラ処理部と、サブスピーカを利用した逆相重畳による除去構成とを備えるものを示したが、放音非目的音の除去構成として、サブスピーカを利用した逆相重畳による除去構成だけを備えるようにしても良い。要は、放音非目的音の除去構成と、背景非目的音の除去構成とを別個備えるものであれば良い。
【0075】
上記各実施形態では、放音非目的音キャンセラ処理部などの放音非目的音の除去構成が常時動作するように説明したが、動作する期間を定めるようにしても良い。例えば、装置のそのときの動作モードによって、スピーカ3L、3Rからの放音動作がなされていない場合(例えば、楽曲データの再生が指示されていない場合や、スピーカ3L、3R以外のスピーカ等に外部出力されている場合)や目的音の入力がなされていない場合(例えば、音声コマンドの入力モードになっていない場合)などを把握できるのであれば、そのような場合には、放音非目的音の除去構成を停止させるようにしても良い。
【0076】
また、利用者が放音非目的音の除去構成を動作させるか否かを選択できるようにしても良く、さらに、放音非目的音キャンセラ処理部と、サブスピーカを利用した逆相重畳による除去構成のうち、一方だけを、利用者が動作させるか否かを選択できるようにしても良い。また、放音非目的音キャンセラ処理部内の適応フィルタに適応動作させるか否かを利用者が選択でき、適応動作させない選択の場合には、その直前の適応動作で得られたフィルタ係数を適用した固定のデジタルフィルタとして動作させるようにしても良い。
【0077】
また、放音非目的音の再生に先立って、ホワイトノイズなどの所定の試験信号を再生し、試験信号の再生中に擬似放音非目的音生成部41LL〜41RRでスピーカ3L、3Rからマイクロフォン4L、4Rへの音響経路特性を推定し、試験信号再生の終了と共に推定を停止させ、以降の音楽区間では、上記音響経路特性に基づいて擬似放音非目的音を生成するようにしても良い。この場合の動作例は次の通りである。まず、試験信号区間で擬似放音非目的音生成部41LL〜41RRでスピーカ3L、3Rからマイクロフォン4L、4Rへの音響経路特性を推定し、試験信号再生の終了と共に推定を停止する。この時点で、擬似放音非目的音生成部41LLにはスピーカ3Lからマイクロフォン4Lまでの音響経路特性が設定されている。そして、これに、音源データsigLを重畳することで擬似放音非目的音を生成する。同様に、擬似放音非目的音生成部41RLにはスピーカ3Rからマイクロフォン4Lまでの音響経路特性が、擬似放音非目的音生成部41LRにはスピーカ3Lからマイクロフォン4Rまでの音響経路特性が、擬似放音非目的音生成部41RRにはスピーカ3Rからマイクロフォン4Rまでの音響経路特性が設定されており、各々の音響経路特性に基づいて擬似放音非目的音を生成する。そして、減算部42LL〜42RRで入力音信号から擬似放音非目的音を減算する。これにより、放音非目的音の成分を除去できる。
【0078】
上記各実施形態の説明では、集音・放音装置10、10Aの用途に言及しなかったが、集音・放音装置10、10Aの用途は、放音動作と集音動作とが重なることがある装置に対して広く適用することができる。例えば、ハンズフリー電話装置、音声コマンドを受け付けられると共にFM放送やAM放送の受信機能も備えているカーナビゲーションシステムなどに、本発明の技術思想を適用することができる。