IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人山梨大学の特許一覧

特許7286896音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム
<>
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図1
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図2
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図3
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図4
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図5
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図6
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図7
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図8
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図9
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図10
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図11
  • 特許-音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-29
(45)【発行日】2023-06-06
(54)【発明の名称】音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20230530BHJP
   G10L 21/0272 20130101ALI20230530BHJP
   G10L 21/028 20130101ALI20230530BHJP
   G10L 25/51 20130101ALI20230530BHJP
【FI】
H04R3/00 320
G10L21/0272 100A
G10L21/028 B
G10L25/51 400
【請求項の数】 10
(21)【出願番号】P 2020536395
(86)(22)【出願日】2019-07-10
(86)【国際出願番号】 JP2019027241
(87)【国際公開番号】W WO2020031594
(87)【国際公開日】2020-02-13
【審査請求日】2022-03-18
(31)【優先権主張番号】P 2018147470
(32)【優先日】2018-08-06
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】304023994
【氏名又は名称】国立大学法人山梨大学
(74)【代理人】
【識別番号】110000660
【氏名又は名称】Knowledge Partners弁理士法人
(72)【発明者】
【氏名】小澤 賢司
【審査官】大野 弘
(56)【参考文献】
【文献】特開2018-036359(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
G10L 21/0272
G10L 21/028
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部と、
前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部と、
前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルとを分離する、音源分離部と、
を備える音源分離システム。
【請求項2】
前記音源分離部は、
前記第1音源スペクトルに基づいて前記第1音源から出力された音を復元する処理と、前記第2音源スペクトルに基づいて前記第2音源から出力された音を復元する処理と、の少なくとも一方を実行する、
請求項1に記載の音源分離システム。
【請求項3】
前記音源分離部は、
前記周方向の周波数が非0である領域の前記周波数スペクトルを前記第2音源スペクトルと見なし、当該第2音源スペクトルから補間することによって前記周方向の周波数が0である領域の前記第2音源スペクトルを推定し、推定された前記第2音源スペクトルを前記周波数スペクトルから除去することによって前記第1音源スペクトルを分離する、
請求項1または請求項2に記載の音源分離システム。
【請求項4】
前記集音データ取得部は、
前記第1位置から複数の前記マイクロホンまでの実距離が等しくない場合に、前記実距離が等しい場合の集音結果と等価になるように前記マイクロホン毎の集音結果に対して時間方向への補正が行われた前記集音データを取得する、
請求項1~請求項3のいずれかに記載の音源分離システム。
【請求項5】
前記集音データ取得部は、
前記円の周上に存在する前記マイクロホンで集音された場合の前記集音データを複製し、前記マイクロホンの位置を前記円の半径に対して線対称の位置に移動させた位置に仮想的に存在する前記マイクロホンで集音された場合の前記集音データとして取得する、
請求項1~請求項4のいずれかに記載の音源分離システム。
【請求項6】
前記集音データ取得部は、
前記第1位置を中心とした円の周上に配置された複数の前記マイクロホンで集音された前記集音データを取得する、
請求項1~請求項5のいずれかに記載の音源分離システム。
【請求項7】
第1位置からの実効的な距離が等しい複数のマイクロホンによって、推定対象音源から出力された音を集音し、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向とについての2次元の周波数スペクトルである推定対象周波数スペクトルに変換する推定対象周波数スペクトル取得部と、
参照音源から出力された音が複数の前記マイクロホンで集音され、前記2次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、前記参照音源の位置とを対応づけた参照データを取得する参照データ取得部と、
前記推定対象周波数スペクトルと、前記参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた前記参照音源の位置に前記推定対象音源が存在すると推定する推定対象音源位置推定部と、を備え、
前記参照周波数スペクトルに対応づけられた前記参照音源の位置には、
前記第1位置と、前記第1位置以外の位置とが含まれる、
音源位置推定システム。
【請求項8】
音を複数のマイクロホンで集音した集音データを取得する集音部と、
複数の候補位置を設定し、複数の前記マイクロホンから前記候補位置までの実効的な距離が等しい場合の集音結果と等価になるように前記マイクロホン毎の集音結果を時間方向に補正する処理を、複数の前記候補位置について行う集音データ補正部と、
複数の前記候補位置のそれぞれについて、前記候補位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する候補スペクトル取得部と、
前記周方向の周波数が0である領域の前記周波数スペクトルが極大になる前記候補位置に音源が存在すると推定する位置推定部と、
を備える音源位置推定システム。
【請求項9】
複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得工程と、
前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得工程と、
前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルとを分離する、音源分離工程と、
を含む音源分離方法。
【請求項10】
コンピュータを、
複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と前記第1位置以外の位置に存在する第2音源とから出力された音を複数の前記マイクロホンで集音した集音データを取得する集音データ取得部、
前記集音データに基づいて、前記第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部、
前記周波数スペクトルに基づいて、前記第1音源から出力された音のスペクトルである第1音源スペクトルと、前記第2音源から出力された音のスペクトルである第2音源スペクトルとを分離する、音源分離部、
として機能させる音源分離プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源分離システム、音源位置推定システム、音源分離方法および音源分離プログラムに関する。
【背景技術】
【0002】
従来、複数の音源から出力された音を音源毎の音に分離する技術が知られている。例えば、特許文献1においては、複数のマイクロホンを備えるマイクロホンアレイによって複数の音源から出力された音を集音し、音圧波形から得られた時空間音圧分布画像を画像信号処理することで音源を分離する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-36359号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示された技術においては、マイクロホンアレイから見て第1の方向に存在する音源と第1の方向と異なる方向に存在する音源とに関して、集音された音を分離する。一方、複数のマイクロホンにおける集音においては、複数のマイクロホンからの距離が等しい位置に音源が存在する場合において特徴的な集音結果が得られるが、従来の技術においては、当該特徴的な集音結果が充分に利用されていなかった。
本発明は、前記課題にかんがみてなされたもので、複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することが可能な技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上述の目的を達成するため、音源分離システムは、複数のマイクロホンからの実効的な距離が等しい第1位置に存在する第1音源と第1位置以外の位置に存在する第2音源とから出力された音を複数のマイクロホンで集音した集音データを取得する集音データ取得部と、集音データに基づいて、第1位置が中心であり実効的な前記距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する周波数スペクトル取得部と、周波数スペクトルに基づいて、第1音源から出力された音のスペクトルである第1音源スペクトルと、第2音源から出力された音のスペクトルである第2音源スペクトルと、を分離する、音源分離部と、を備える。
【0006】
すなわち、第1位置に存在する第1音源からの実効的な距離が等しい位置に複数のマイクロホンが存在する場合、第1音源から出力された音は複数のマイクロホンの全てで位相が等しくなる。このため、第1位置が中心であり、マイクロホンと第1音源との実効的な距離が半径である円の周方向に各マイクロホンからの集音データを並べ、時間方向に集音データをプロットすると、音圧は時間方向にのみ変化し、周方向に変化しない状態となる。従って、このような周方向と時間方向との2次元に関する集音データをフーリエ変換すると、周方向において周波数が0である領域にのみ値を有し、周方向において他の周波数の領域には値を有さない周波数スペクトル(第1音源スペクトル)が得られる。
【0007】
一方、第1位置以外の位置に存在する第2音源から出力された音は、第2位置と各マイクロホンとの距離に応じた位相となり、各マイクロホンにおいて同一時刻に観測される音は異なる位相である。このため、第1位置が中心であり、マイクロホンと第1音源との実効的な距離が半径である円の周方向に各マイクロホンからの集音データを並べ、時間方向に集音データをプロットすると、音圧は周方向と時間方向との双方において変化する。従って、このような周方向と時間方向との2次元に関する集音データをフーリエ変換すると、周方向と時間方向との双方において非0の値を有し得る周波数スペクトル(第2音源スペクトル)が得られる。
【0008】
このため、第1音源と第2音源とが出力した音の集音データに基づいて周方向と時間方向とにおける周波数スペクトルを取得すると、両音源から出力した音の周波数スペクトルが重なった状態のスペクトルが得られるが、両者を明確に区別することができる。すなわち、第1音源から出力された音のスペクトルは、周方向の周波数が0である領域にのみ局在するため、当該領域のスペクトルに基づいて容易に第1音源スペクトルと第2音源スペクトルとを分離することができる。
【0009】
以上の構成によれば、複数のマイクロホンからの実効的な距離が等しい第1位置に音源が存在する場合に得られる第1音源スペクトルの特徴を有効に利用して、複数の音源のスペクトルを分離することができる。この結果、複数の音源が混在する環境において音源毎のスペクトルを取得することが可能になる。なお、本明細書において「複数のマイクロホンからの距離が等しい」又は「等しい距離に存在する複数のマイクロホン」などの表現は、実際の距離が等しくない場合であっても複数のマイクロホンの集音データを補正することにより距離が等しいことと等価であるとみなせる場合も含み、「実効的な距離が等しい」などとも記載することがある。
【0010】
さらに、上述の目的を達成するため、音源位置推定システムは、第1位置からの実効的な距離が等しい複数のマイクロホンによって、推定対象音源から出力された音を集音し、第1位置が中心であり実効的な距離が半径である円の周方向と時間方向とについての2次元の周波数スペクトルである推定対象周波数スペクトルに変換する推定対象周波数スペクトル取得部と、参照音源から出力された音が複数のマイクロホンで集音され、2次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、参照音源の位置と、を対応づけた参照データを取得する参照データ取得部と、推定対象周波数スペクトルと、参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた参照音源の位置に推定対象音源が存在すると推定する位置推定部と、を備え、参照周波数スペクトルに対応づけられた参照音源の位置には、第1位置と、第1位置以外の位置とが含まれる構成であってもよい。
【0011】
すなわち、第1位置に存在する第1音源から出力された音の第1音源スペクトルと、第1位置以外の位置に存在する音源から出力された音の周波数スペクトルとは、明確に異なったスペクトルとなる。従って、複数の位置に存在する音源の周波数スペクトルを参照周波数スペクトルとし、参照周波数スペクトルと音源の位置との関係を対応付け、複数の位置に第1位置と第1位置以外の位置とが含まれるように構成すれば、音源位置を推定するための参照データを生成することができる。
【0012】
さらに、参照周波数スペクトルに対応づけられた位置に、第1位置と第1位置以外の位置が含まれることにより、第1位置とそれ以外の位置とで音源の位置が明確に変化するように参照データを定義することができる。従って、推定対象スペクトルに類似する参照周波数スペクトルを特定し、参照周波数スペクトルに対応づけられた位置に推定対象音源が存在すると推定する構成により、正確に推定対象音源の位置を推定することができる。特に、推定対象音源が第1位置に存在するか否かを正確に特定することが可能になる。以上の構成により、複数のマイクロホンからの距離が等しい第1位置に音源が存在する場合に得られる第1音源スペクトルの特徴を有効に利用して、推定対象音源の位置を推定することができる。
【0013】
さらに、上述の目的を達成するため、音源位置推定システムは、音を複数のマイクロホンで集音した集音データを取得する集音部と、複数の候補位置を設定し、複数のマイクロホンから候補位置までの実効的な距離が等しい場合の集音結果と等価になるようにマイクロホン毎の集音結果を時間方向に補正する処理を、複数の候補位置について行う集音データ補正部と、複数の候補位置のそれぞれについて、候補位置が中心であり実効的な距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する候補スペクトル取得部と、周方向の周波数が0である領域の周波数スペクトルが極大になる候補位置に音源が存在すると推定する位置推定部と、を備える構成であってもよい。
【0014】
すなわち、複数のマイクロホンでの集音結果を時間方向に補正すると、マイクロホンと音源との距離が異なる状況で集音された集音データと等価なデータを取得することができる。そして、複数のマイクロホンからの実効的な距離が等しい位置に存在する音源の周波数スペクトルは、周方向の周波数が0である領域にのみ局在するスペクトルとなり、極めて特徴的なスペクトルになる。従って、複数のマイクロホンから候補位置までの実効的な距離が等しくなるような補正を複数の候補位置について実施し、候補スペクトルにおいて当該特徴的なスペクトルが得られれば、当該候補スペクトルに対応する候補位置に音源が存在すると推定することができる。以上の構成により、複数のマイクロホンからの実効的な距離が等しい第1位置に音源が存在する場合に得られる第1音源スペクトルの特徴を有効に利用して、推定対象音源の位置を推定することができる。
【図面の簡単な説明】
【0015】
図1図1A図1Bは、周波数スペクトルに特徴が現れる様子を説明する図である。
図2図2A図2Cは集音結果を示す図であり、図2B図2Dは周波数スペクトルを示す図である。
図3図3A図3Bは、周波数スペクトルに特徴が現れる様子を説明する図である。
図4】音源分離システムのブロック図である。
図5】音源分離処理のフローチャートである。
図6図6A図6Cは音源を分離するための処理を説明する図である。
図7】音源分離の実例を説明する図である。
図8】音源位置推定システムのブロック図である。
図9図9Aは音源位置推定処理のフローチャート、図9Bは参照データの例を示す図である。
図10図10Aおよび図10Bは参照データの算出を説明する図である。
図11】音源位置推定システムのブロック図である。
図12図12Aは音源位置推定処理のフローチャート、図12Bは極大値の導出を説明する図である。
【発明を実施するための形態】
【0016】
ここでは、下記の順序に従って本発明の実施の形態について説明する。
(1)原理:
(2)音源分離システムの構成:
(3)音源位置推定システムの構成:
(4)第2の音源位置推定システムの構成:
(5)他の実施形態:
【0017】
(1)原理:
本発明の実施形態は、複数のマイクロホンからの距離が等しい位置に音源が存在する場合における特徴的な集音結果を有効に利用することによって実現されている。図1A図1B図2A図2Dは、特徴的な集音結果が得られる原理を説明するための例として、マイクロホンが8個の場合について示した図である。図1Aは、複数のマイクロホンM0~M7の位置と第1音源S1の位置を例示した図である。図1Aにおいては、第1音源S1から等しい距離に複数のマイクロホンM0~M7が配置されている。すなわち、複数のマイクロホンM0~M7は、第1音源S1を中心とした半径Rの円の周上に並べられている。
【0018】
なお、本例において、複数のマイクロホンM0~M7同士の距離は等しく、等間隔に並べられているが、必ずしも等間隔でなくてもよい。本例においては、等間隔に並べられた複数のマイクロホンM0~M7の中央、すなわち、マイクロホンM3,M4から等距離にある円の周上の点を通る円の接線をx軸、円の接線に対する垂線をy軸とした座標系を定義している。当該軸において、第1音源S1は、y軸上の点である。
【0019】
第1音源S1から出力された音は球面波として、全方向に向けて等方的に進行する。従って、複数のマイクロホンM0~M7が、第1音源S1から等距離の位置に配置されている場合、各マイクロホンM0~M7で集音される音は同一になる。このように、複数のマイクロホンM0~M7が、第1音源S1から等距離の位置に配置されている場合において、第1音源S1の位置を第1位置と呼ぶ。
【0020】
図2Aは、各マイクロホンM0~M7での集音結果を示す図である。同図2Aにおいては、縦方向にマイクロホンM0~M7を並べ、横方向を時間方向として示してある。なお、図2Aにおいては、各マイクロホンM0~M7で集音された音圧の振幅の高低を画像の輝度の高低に変換しており、各マイクロホンM0~M7の振幅を縦方向に伸ばすことにより、複数のマイクロホンM0~M7の集音結果が縦方向に隙間無く並ぶように示してある。複数のマイクロホンM0~M7は、上述のように第1音源S1を中心とした半径Rの円の周上に並べられているため、複数のマイクロホンM0~M7は当該円の周方向に並んでいると言える。従って、図2Aに示すようにマイクロホンM0~M7の集音結果を縦方向に並べた場合、当該縦方向は周方向であると言える。
【0021】
図2Bは、図2Aに示すように周方向および時間方向に広がる集音データを、フーリエ変換した結果を示している。フーリエ変換が行われると、周方向および時間方向のそれぞれにおける集音結果の周波数スペクトルが得られる。図2Bにおいては、周方向および時間方向のそれぞれについて標本化周波数により正規化された角周波数(ω=2πf/fs:ωは正規化角周波数、fは周波数、fsは標本化周波数)を単位として示している。なお、図2Bにおいては、周波数スペクトルのパワーを輝度によって示しており、パワー0が黒でありパワーが大きい程輝度が高くなるように示してある。
【0022】
図1Aに示すように、複数のマイクロホンM0~M7が第1音源S1を中心とした半径Rの円の周上に存在する場合、周波数スペクトルは、周方向の周波数が0である領域に局在し、周方向の周波数が非0である領域に値を有していない。一方、周方向において有意な値を有する領域(周波数0)において、時間方向には全角周波数に渡って周波数スペクトルが値を有している。従って、時間方向には種々の周波数が含まれ得る。
【0023】
以上の特性は、複数のマイクロホンM0~M7が第1音源S1を中心とした半径Rの円の周上に存在することに起因している。すなわち、複数のマイクロホンM0~M7が第1音源S1を中心とした半径Rの円の周上に存在する場合、全てのマイクロホンM0~M7で集音される音は同一である。この場合、全てのマイクロホンM0 7 おいて周方向に同一の音圧である状況が時間方向の全てにおいて繰り返される。この結果、図2Aに示すように、周方向および時間方向の音圧は、縦方向に一切変化せず、横方向のみに変化する縦縞を形成する。これは、周方向において音圧が変化しないこと、すなわち、周方向の周波数が0(=角周波数0)であることを示している。
【0024】
このような2次元の音圧の特性は、周方向に渡って無限に音圧を繰り返したとしても変化しない。従って、図2Aに示す周方向のデータが周期的に繰り返すと見なしてフーリエ変換が行われた場合であっても、その特性に誤差が入る余地は無い。この結果、フーリエ変換後の周波数スペクトルにおいては、周方向の周波数が0の領域に周波数スペクトルが局在し、当該局在した周波数スペクトルのみを抽出すれば、各マイクロホンM0~M7の特性を正確に抽出することができることを意味している。
【0025】
一方、音源が第1位置に存在しない場合においては、周波数スペクトルの特性が極めて異なった特性となる。図1Bは、図1Aと同一の位置に複数のマイクロホンM0~M7が配置された状態において、第1位置P1と異なるy軸上の位置に第2音源S2が配置された場合の例を示している。図1Bにおいては、第1位置P1よりもマイクロホンに近い位置に第2音源S2が配置されている。従って、第2音源S2から複数のマイクロホンM0~M7までの距離は一定ではない。
【0026】
従って、第2音源S2から出力された音が球面波として全方向に向けて等方的に進行したとしても、各マイクロホンM0~M7で集音される音は同一にならない(ただし、y軸に対して対称の位置(M0とM7等)に存在するマイクロホンにおいては同一になる)。
【0027】
図2Cは、各マイクロホンM0~M7での集音結果を示す図であり、図2Aと同一のフォーマットで示してある。図1Bに示す例においては、第2音源S2からの距離が複数のマイクロホンM0~M7で異なる。従って、複数のマイクロホンM0~M7の音圧を比較すると、図2Cに示すように、同一の音圧になる時間的位置が僅かずつ異なっている。
【0028】
図2Dは、図2Cに示すように周方向および時間方向に広がる集音データを、フーリエ変換した結果を示しており、図2Bと同一のフォーマットで示してある。
【0029】
図1Bに示すように、第2音源S2が第1位置P1と異なる位置に存在し、複数のマイクロホンM0~M7と第2音源S2との距離が一定ではない場合、周波数スペクトルは、周方向および時間方向の双方に分布する。すなわち、第2音源S2から複数のマイクロホンM0~M7までの距離が一定ではない場合、マイクロホンM0~M7で集音される音が少しずつ異なる。この場合、同一時間において周方向に音圧が変化する。従って、周波数スペクトルは周方向において周波数が0の領域に局在しない状態になる。
【0030】
さらに、周方向においても音圧の変化が存在する場合、周方向に渡って周期的に音圧を繰り返すことを前提としたフーリエ変換を行うと、その周期の境界において急峻な変化部分が発生する。この結果、図2Cに示す周方向のデータが周期的に繰り返すと見なしてフーリエ変換が行われると、主に境界部分の急峻な変化に起因して周波数スペクトルが広がってしまう。
【0031】
この結果、第2音源S2の周波数スペクトルは、図2Dにおいて周方向および時間方向の双方において広がりを有する。従って、第2音源S2の周波数スペクトルは、第1位置P1に存在する第1音源S1の周波数スペクトルと著しく異なったスペクトルとなる。このように、複数のマイクロホンからの距離が等しい第1位置P1に音源が存在する場合、他の位置に音源が存在する場合と著しく異なる特徴的な周波数スペクトルとなる。そこで、このような周波数スペクトルの特徴を有効に利用すれば、音源の分離や音源の位置の推定を行うことができる。すなわち、第1音源S1と第2音源S2とが混在する状況において、周波数スペクトルから第1音源S1の周波数スペクトルを容易に分離することができる。また、周方向において周波数が0の領域に局在する周波数スペクトルが得られた場合に、第1位置P1に音源が存在すると推定することができる。
【0032】
なお、図1Aおよび図1Bに示す複数のマイクロホンM0~M7において、y軸に対して互いに線対称の位置に存在するマイクロホンでの集音結果である集音データは同一である。従って、同一の集音データの一方を他方から生成する構成により、実際には存在しないマイクロホンの集音データを実際に存在するマイクロホンの集音データから生成することも可能である。例えば、マイクロホンM0~M3の集音データをコピーしてマイクロホンM7~M4の集音データを生成する構成であってもよい。
【0033】
さらに、複数のマイクロホンM0~M7が、第1音源S1を中心とした半径Rの円の周上に実際に並んでいない場合であっても、当該周上に複数のマイクロホンM0~M7が並んでいると見なすことができるように集音データを補正することが可能である。図3AはマイクロホンM00~M03がx軸上で等距離に並んでいる例を示している。なお、M0~M7が上記の円周上に並んでいると見なせればよいので、マイクロホンをy軸に並行に移動させて上記の円上に移動させることでもよい。
【0034】
この状況において、y軸上に第1音源S1が存在する場合、第1音源S1から各マイクロホンM00~M03までの距離は等しくない。しかし、各マイクロホンM00~M03においては同一の音源から出力された球面波を集音している。従って、時間方向に位相を変化させれば、各マイクロホンM00~M03が第1音源S1を中心とした半径Rの円の周上に並んでいる場合の集音結果と同一になるように補正を行うことができる。
【0035】
例えば、マイクロホンM00から第1音源S1まで伸びる直線上で、第1音源S1を中心とした半径Rの円の周と、マイクロホンM00との距離がLである場合、マイクロホンM00の集音データはマイクロホンM0の集音データに対し、当該距離分の位相(2πf×L/v:fは音波の周波数、vは音波の速度)だけ遅延している。従ってその遅延量を補正すればマイクロホンM0での集音データと等価なデータが得られる。このように、第1音源S1を中心とした半径Rの円の周上に存在すると見なすことができるような補正を各マイクロホンM00~M03で実行すると、図3Aに示すマイクロホンM0~M3で集音を行った場合と等価な集音データを得ることができる。
【0036】
従って、補正後の集音データを周方向に並べ、時間方向を含む2次元でフーリエ変換を行うことにより、図2Bに示す特徴的な周波数スペクトルが得られる。なお、図3Aに示す例において、マイクロホンM7~M4の集音データは、マイクロホンM0~M3のデータがコピーされて生成されてもよいし、y軸を基準にしてマイクロホンM00~M03から線対称の位置にマイクロホンを配置し、その集音データを補正することで生成されてもよい。
【0037】
一方、図3Bに示すように、第1音源S1の位置である第1位置P1と異なる位置に第2音源S2が存在する場合を想定する。この場合において、第1音源S1からの距離がRである円の周上にマイクロホンが存在する状態の集音データと等価になるように補正が行われると、第2音源S2と各マイクロホンM00~M03とを結ぶ直線上において集音が行われた場合のデータと等価なデータを取得することができる。
【0038】
しかし、図3Aと同様の位相だけ遅延を与えるような補正を、それぞれのマイクロホンM00~M03での距離によって行われたとしても、図3Bに示すマイクロホンM0~M3の位置での集音データと等価になるように補正が行われるだけである。従って、第2音源S2からマイクロホンM0~M3までの距離は同一にならない。従って、補正後の集音データを周方向に並べ、時間方向を含む2次元でフーリエ変換を行っても、図2Bに示す特徴的な周波数スペクトルにはならず、図2Dのように、周方向および時間方向に値を有する周波数スペクトルが得られる。従って、第2音源S2の周波数スペクトルは、第1位置P1に存在する第1音源S1の周波数スペクトルと著しく異なったスペクトルとなる。そこで、このような周波数スペクトルの特徴を有効に利用すれば、音源の分離や音源の位置の推定を行うことができる。
【0039】
(2)音源分離システムの構成:
図4は、本発明の一実施形態にかかる音源分離システム10のブロック図である。音源分離システム10は、複数(M個、ただしM≧3)のA/DコンバータC0~CM-1と、制御部20と、記録媒体30と、距離センサ40とを備えている。A/DコンバータC0~CM-1のそれぞれには複数(M個)のマイクロホンMI0~MIM-1が接続される。
【0040】
本実施形態において、マイクロホンMI0~MIM-1は直線上に配置されたマイクロホンアレイであるが、上述のように、マイクロホンは既定の音源の位置からの距離が一定の円周上に配置されていてもよい。本実施形態において、マイクロホンMI0~MIM-1はMEMS(Micro Electro Mechanical System:微小電気機械システム)マイクロホンであり、それぞれのマイクロホンは、音をマイクロホンに取り入れる音孔を備えている。また、マイクロホン同士の距離は等間隔(距離D)であり、本実施形態においては音孔の中心の間隔が距離Dである。
【0041】
なお、ここでは、マイクロホンMI0~MIM-1が等間隔(距離D)にアレイ状に配置された構成としたがマイクロホン間隔は不等間隔であってもよく、またマクロホンはMEMS型に限るものではない。距離Dは可聴周波数帯域において空間折返し歪が発生しない間隔となるように設定されている。例えば、可聴周波数の上限を20kHzとした場合には、D<8.5mmとなる。
【0042】
マイクロホンMI0~MIM-1は、入力された音の音圧を示すアナログ信号y0(t)~yM-1(t)のそれぞれを出力する。A/DコンバータC0~CM-1は、マイクロホンMI0~MIM-1のそれぞれが出力したアナログ信号y0(t)~yM-1(t)をデジタルデータy0(n)~yM-1(n)に変換して出力する。制御部20は、図示しないインタフェースを介して当該デジタルデータy0(n)~yM-1(n)を取得し、各種の処理に利用することができる。
【0043】
制御部20は、図示しないCPU,RAM,ROMを備えており、記録媒体30等に記憶された各種プログラムを実行することができる。制御部20、記録媒体30、距離センサ40、A/DコンバータC0~CM-1は、一体的なコンピュータで構成されていてもよいし、少なくとも一部が別の装置であり、各種の通信線等によって接続される構成であってもよい。
【0044】
本実施形態において、音源分離システム10と、マイクロホンMI0~MIM-1はスマートフォン等の携帯端末に搭載されることが想定されている。制御部20は携帯端末における各種の機能を実行する制御部として機能することが可能であり、記録媒体30は携帯端末における各種の機能に必要な各種のデータを蓄積することが可能である。このような構成を備えるスマートフォン等の携帯端末においては、容易に本実施形態にかかる音源分離プログラム21を実行可能である。すなわち、スマートフォン等の携帯端末においては、通常写真及び動画の撮影機能が搭載されており、各種の画像処理を実行可能である。本実施形態にかかる音源分離プログラム21で実行する処理の少なくとも一部は、写真や動画に関する画像処理で利用する処理を流用して実行可能であるため、スマートフォン等の携帯端末で容易に実行可能である。
【0045】
距離センサ40は、携帯端末の外部に存在するオブジェクトと携帯端末との距離を示す情報を出力するセンサであり、制御部20は、図示しないインタフェースを介して当該距離を示す情報を取得し、携帯端末とオブジェクトとの距離を特定することができる。なお、距離センサ40は、種々の態様で実現されてよく、例えば、超音波センサや光学センサなどの各種のセンサを利用可能である。また、携帯端末の写真撮影機能におけるオートフォーカス機能を利用することも可能である。
【0046】
本実施形態において、制御部20は、音源分離プログラム21を実行することができる。音源分離プログラム21が実行されると、制御部20は、集音データ取得部21a、周波数スペクトル取得部21b、音源分離部21cとして機能する。集音データ取得部21aは、複数のマイクロホンMI0~MIM-1からの距離が等しい第1位置P1に存在する第1音源S1と第1位置P1以外の位置に存在する第2音源S2とから出力された音を複数のマイクロホンで集音した集音データを取得する機能を制御部20に実行させるプログラムモジュールである。
【0047】
本実施形態においては、利用者所望の音源(例えば、発話している人物等)を第1音源S1とし、他の音源(例えば、発話している他の人物や各種のノイズ等)を第2音源S2とすることができる。第2音源S2は、1個とは限らない。音源分離プログラム21を実行する場合、利用者は、携帯端末の向きや利用者自身の位置を変化させることにより、または、集音データを補正することにより、距離センサ40の正面(計測対象方向)に利用者所望の音源が配置されるように調整する。この状態において、直線上に並ぶマイクロホンMI0~MIM-1図3Aに示すx軸上に配列し、利用者所望の音源がy軸上に存在する状態となる。以後、当該利用者所望の音源を第1音源S1とみなす。
【0048】
この状態で、制御部20は、図5に示す音源分離処理を実行する。音源分離処理が開始されると、制御部20は、距離センサ40の出力信号に基づいて第1音源S1までの距離Rを測定する(ステップS100)。すなわち、制御部20は、距離センサ40の出力信号に基づいて、携帯端末の正面に存在し、利用者が第1音源S1と見なしている音源までの距離Rを特定する。
【0049】
次に、制御部20は、第1音源S1からマイクロホンMI0~MIM-1までの距離が測定された距離Rになるように補正を行った集音データを取得する(ステップS105)。本実施形態にかかる携帯端末においては、マイクロホンMI0~MIM-1が並ぶx軸とx軸上でのマイクロホンMI0~MIM-1の位置、x軸とy軸との関係は予め特定されている。そこで、制御部20は、距離Rと各マイクロホンMI0~MIM-1の位置に基づいて、第1音源S1から距離Rの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンMI0図3Aに示すマイクロホンM00の位置に存在する場合、当該位置を座標(X00,0)とすれば、補正後のマイクロホンM0とマイクロホンM00との距離Lは(R2+X00 21/2-Rによって算出することができる。この結果、制御部20は、時間方向の補正量(位相遅延量)を2πf×L/v:fは音波の周波数、vは音波の速度によって取得することができる。
【0050】
そこで制御部20は、集音データ取得部21aの機能により、A/DコンバータC0~CM-1が出力するデジタルデータy0(n)~yM-1(n)を取得する。そして、制御部20は、マイクロホンMI0~MIM-1の位置と、第1音源S1までの距離Rとに基づいて、デジタルデータy0(n)~yM-1(n)を補正し、第1音源S1から各マイクロホンまでの距離が等しい場合のデジタルデータを取得する。取得されたデジタルデータは、記録媒体30に、集音データ30aとして記録される。このような補正を実行すれば、マイクロホンの物理的な配置の制約が少なくなる。
【0051】
なお、上述のように、あるマイクロホンからy軸に対して対称の位置に存在する集音データは当該あるマイクロホンの集音データを複製することによって生成することができる。すなわち、制御部20は、集音データ取得部21aの機能により、第1音源S1からの距離がRである円の周上に存在するマイクロホンMI0~MIM-1で集音された場合の集音データを複製し、マイクロホンMI0~MIM-1の位置を円の半径(y軸)に対して線対称の位置に移動させた位置に仮想的に存在するマイクロホンで集音された場合の集音データとして取得する構成であってもよい。この構成によれば、少ない数のマイクロホンによって実質的に多数のマイクロホンによるデータを集音することができる。
【0052】
周波数スペクトル取得部21bは、集音データ30aに基づいて、第1位置P1が中心であり距離Rが半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する機能を制御部20に実行させるプログラムモジュールである。ステップS105において集音データ30aが取得されると、制御部20は、当該周波数スペクトル取得部21bの機能により、FFT(Fast Fourier Transform)によって周波数スペクトルを取得する(ステップS110)。
【0053】
すなわち、制御部20は、第1音源S1からの距離がRである円の周上に各マイクロホンが存在する場合のデータとして得られた集音データ30aを参照し、それぞれが示す音圧値を輝度値に変換し1ピクセル幅の濃淡画素データに変換する。さらに制御部20は、当該データの変換を連続するN点の時系列データについて実施し、N×Mの濃淡画素データからなる1枚の画像データを生成する。さらに、制御部20は、当該画像データを、FFTによってフーリエ変換する。また、制御部20は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルを周波数スペクトル30bとして記録媒体30に記録する。
【0054】
以上のようなフーリエ変換によれば、例えば、図2B図2Dとが重ねられたような周波数スペクトル30bが得られる。すなわち、本実施形態においては、マイクロホンMI0~MIM-1からの距離が等しい第1位置P1に存在する第1音源S1と他の音源である第2音源S2とが混在する状態で集音データ30aが取得される。従って、周波数スペクトル30bにおいては、第1音源S1によって得られ、図2Bに示すように周波数0に局在する周波数スペクトルと、第2音源S2によって得られ、図2Dに示すように周方向と時間方向との双方に値を有する周波数スペクトルとが混在した状態となる。
【0055】
音源分離部21cは、周波数スペクトルに基づいて、第1音源S1から出力された音のスペクトルである第1音源スペクトルと、第2音源S2から出力された音のスペクトルである第2音源スペクトルとを分離する機能を制御部20に実行させるプログラムモジュールである。
【0056】
本実施形態においては、周方向の周波数が0である領域において第1音源スペクトルと第2音源スペクトルとが重なっており、周波数が非0である領域において第1音源スペクトルは存在しないと見なすことができる。そこで、制御部20は、音源分離部21cの機能により、周方向の周波数が非0の領域の第2音源スペクトルに基づいて周波数が0の領域を補間する(ステップS115)。
【0057】
具体的には、制御部20は、周方向の周波数が非0である領域の周波数スペクトルを第2音源スペクトルと見なす。図6Aは、周波数スペクトル30bからある時間における周波数スペクトルを抜き出して例示した図である。このように、周波数スペクトル30bにおいては、周波数が0である領域に第1音源S1に起因して大きい値となっている周波数スペクトルが存在するが、その周囲にも第2音源S2に起因して有意な大きさの周波数スペクトルが存在する。
【0058】
図6Bは、図6Aに示す周波数スペクトルを音源毎に分離し、重ねて示した図であり、実線が第1音源スペクトル、破線が第2音源スペクトルである。このように、第1音源スペクトルは周方向の周波数が0(=角周波数が0)の領域に局在するため、この領域外の第2音源スペクトルを利用すれば、この領域内の第2音源スペクトルを予想することができる。本実施形態においては、周方向の周波数が非0の領域における第2音源スペクトルを正負両側から周波数0の領域に向けて直線的に延長することで補間を行う。図6Cにおいては、補間によって推定された第2音源スペクトルを破線によって示している。制御部20は、以上の処理を、周波数スペクトル30bにおける時間方向の全てで実施することで第2音源スペクトルを推定する。
【0059】
周方向の周波数が0の領域における第2音源スペクトルが推定されると、制御部20は、周波数スペクトルから第2音源スペクトルを除去することで第1音源スペクトルを取得する(ステップS120)。すなわち、制御部20は、周波数スペクトル30bから、ステップS115で推定された第2音源スペクトルを差し引くことで、第2音源スペクトルを除去し、第1音源スペクトルを分離する。
【0060】
以上の処理においては、複数のマイクロホンからの距離が等しい位置に第1音源S1が存在する場合に、第1音源スペクトルは周方向の周波数が0の領域に局在することを利用して第2音源スペクトルを特定している。そして、第2音源スペクトルは周方向の周波数が非0の領域にも分布するため、当該周波数が非0の領域のスペクトルから周波数が0の領域のスペクトルを正確に推定することができる。従って、第2音源スペクトルの推定に基づいて、第2音源スペクトルと第1音源スペクトルとを正確に分離することができる。
【0061】
次に、制御部20は、音源分離部21cの機能により、逆FFTによって第1音源スペクトルを音圧データに変換する(ステップS125)。すなわち、制御部20は、第1音源スペクトルに基づいて第1音源S1から出力された音を復元する処理を実行する。この結果、第1音源S1から出力された音を示す音圧データが得られたことになる。当該音圧データは、音の再生に利用されてもよいし、音の解析や保存等によって利用されてもよいし、他の装置での利用のために他の装置に送信されてもよい。いずれにしても、本実施形態においては、複数のマイクロホンからの距離が等しい位置に音源が存在する場合に現れる特徴を利用して第1音源スペクトルを分離している。このため、複数の音源が存在する環境においても正確に第1音源S1から出力された音を分離することができる。
【0062】
以上のようにして第1音源S1から出力された音が再現されると、制御部20は、全音源について処理済みであるか否か判定する(ステップS130)。すなわち、本実施形態においては、複数の音源の音圧データを分離することが可能であり、制御部20は、音源の分離が終了したか否かを判定する。判定は、種々の要素によって行われてよく、予め決められた数の音源の分離が行われるように構成されていてもよいし、利用者が音源の分離の終了を指示するまで音源の分離が行われるように構成されていてもよく、種々の構成が採用可能である。
【0063】
ステップS130において、全音源について処理済みであると判定された場合、制御部20は、音源分離処理を終了する。一方、ステップS130において、全音源について処理済みであると判定されない場合、制御部20は、ステップS100以降の処理を繰り返す。ただし、ステップS100以降の処理が繰り返される場合、直前のステップS125で音圧データが取得された音源と異なる音源が第1音源になる。すなわち、利用者は、携帯端末の向きや利用者自身の位置を変化させることにより、距離センサ40の正面(計測対象方向)に新たな音源が配置されるように調整する。この結果、新たな音源が第1音源になってステップS100以降の処理が実行される。
【0064】
なお、ステップS105においては、マイクロホンMI0~MIM-1によって再度集音が行われてもよいし、既に記録された集音データ30aが流用されてもよい。例えば、新たな音源から継続して音が出力されており、出力中の音を分離するのであればマイクロホンMI0~MIM-1によって再度集音が行われる。一方、既に記録された集音データ30aが集音された際に出力されていた音をさらに分離したいのであれば、保存済の集音データ30aに基づいて補正を行えばよい。すなわち、集音データ30aにおいて既に実施された補正をキャンセルした上で、第1音源S1からの距離に応じて補正が行われればよい。この場合、新たな第1音源S1までの距離は再測定されることが好ましい。以上の構成によれば、複数の音源が存在する状況において、各音源の音を正確に分離することが可能である。
図7は、上述の実施形態にかかる音源分離システムを利用した処理結果の例を説明するための図である。本例においては、図3Aに示すマイクロホンM00~M03のように4個のマイクロホンをx軸上に配置し、さらに、各マイクロホンM00~M03からy軸に対して対称の位置に4個のマイクロホンを配置した。隣接するマイクロホン同士の距離は2cmである。
また、第1音源S1は、女性が"Welcom to Japan"と発音した場合の音声を出力する音源であり、y軸上で原点から2mの位置に配置された。第2音源S2は、男性が"Hello,hello"と発音した場合の音声を出力する音源である。本例においては、y軸上で第2音源S2が移動され、各位置に第2音源S2が配置された状態で第1音源S1と第2音源S2とから音声が出力され、音源分離が行われた。
図7において、横軸は第2音源S2のy座標である。従って、横軸の値が2(m)である状態で、第1音源S1と第2音源S2の位置は同一である。また、図7において、縦軸は雑音の減衰率である。すなわち、本例では、第2音源S2の各位置においてマイクロホンによる測定を行い、第1音源S1までの距離を2mとしてステップS100~S125を行った。そして、当該処理を行った場合と行っていない場合とのそれぞれに含まれる雑音(第1音源S1からの出力音以外の音)を対比することで雑音の減衰率を計算した。
図7に示すように、第2音源S2の位置が第1音源S1の位置と同一である状態を除き、他の全ての領域において雑音の減衰率が30dB程度またはそれ以下である。従って、第2音源S2の位置が第1音源S1の位置と同一である状態を除き、非常に広い範囲で正確に第1音源S1を他の音から分離することができたといえる。また、図7に示す破線は同じ条件でビームフォーミング法(遅延和アレイ)による測定及び処理を行った場合の処理結果の例を示している。このように、ビームフォーミング法においては、同一方向に並ぶ2個の音源の出力音を全く分離できていない。従って、本実施形態にかかる音源分離システムは、ビームフォーミング法で従来分離できなかった位置に配置された複数の音源の出力音を正確に分離可能な技術である。
【0065】
(3)音源位置推定システムの構成:
図8は、本発明の一実施形態にかかる音源位置推定システム11のブロック図である。音源位置推定システム11は、上述の音源分離システム10と同様のハードウェアを利用し、ソフトウェアを変更することによって実現可能である。図8においては、音源位置推定システム11を実現するために必要なハードウェアを図4から抜き出し、共通のハードウェアを共通の符号によって示している。
【0066】
本実施形態において、制御部20は、音源位置推定プログラム22を実行することができる。音源位置推定プログラム22が実行されると、制御部20は、推定対象周波数スペクトル取得部22a、参照データ取得部22b、推定対象音源位置推定部22cとして機能する。本実施形態においては、予め決められた第1位置P1からの距離が等しい複数のマイクロホンMI0~MIM-1で測定した場合に得られる周波数スペクトルに基づいて、y軸上の任意の位置に配置された推定対象音源の位置を推定する構成が採用されている。なお、第1位置P1からの距離が等しい複数のマイクロホンMI0~MIM-1の配置は実空間上での配置であってもよいし、時間方向への補正が行われた後の配置であってもよい。ここでは、図3Aと同様にx軸上に等間隔で複数のマイクロホンMI0~MIM-1が並べられた状態であり、補正によって第1位置P1から複数のマイクロホンMI0~MIM-1までの距離が等しいと見なされる構成を想定する。
【0067】
推定対象周波数スペクトル取得部22aは、第1位置P1から等しい距離に存在する複数のマイクロホンMI0~MIM-1によって、推定対象音源から出力された音を集音し、第1位置P1が中心であり距離が半径である円の周方向と時間方向とについての2次元の周波数スペクトルである推定対象周波数スペクトルに変換する機能を制御部20に実行させるプログラムモジュールである。
【0068】
すなわち、本実施形態においては、参照データ31cを生成する際に、予めy軸上の特定の位置に第1位置P1が設定されている。この状況で、制御部20は、図9Aに示す音源位置推定処理を実行する。音源位置推定処理において制御部20は、推定対象周波数スペクトル取得部22aの機能により、参照データ31c生成の際に設定された第1位置P1から等しい距離にあるマイクロホンで集音した集音データを取得する(ステップS200)。
【0069】
具体的には、制御部20は、推定対象周波数スペクトル取得部22aにおいて推定対象周波数スペクトルを取得するために、第1位置P1に基づいて複数のマイクロホンMI0~MIM-1の仮想的な位置を設定する。複数のマイクロホンMI0~MIM-1は、実際には図3Aに示すようにx軸上で等間隔に配置されており、複数のマイクロホンMI0~MIM-1は、この状態で未知の位置に存在する推定対象音源から出力された音を集音する。この結果、制御部20は、A/DコンバータC0~CM-1による変換後のデジタルデータを取得する。
【0070】
制御部20は、当該デジタルデータを補正し、複数のマイクロホンMI0~MIM-1が仮想的な位置に存在する場合の集音データを取得する。本実施形態においては、予め第1位置P1が設定されており、x軸から第1位置P1までの距離Rは予め決められる。そこで、制御部20は、第1音源S1からマイクロホンMI0~MIM-1までの距離がRになるように補正を行った集音データを取得する。本実施形態においても、マイクロホンMI0~MIM-1が並ぶx軸とx軸上でのマイクロホンMI0~MIM-1の位置、x軸とy軸との関係は予め特定されている。
【0071】
そこで、制御部20は、距離Rと各マイクロホンMI0~MIM-1の位置に基づいて、第1音源S1から距離Rの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンMI0図3Aに示すマイクロホンM00の位置に存在する場合、当該位置を座標(X00,0)とすれば、補正後のマイクロホンM0とマイクロホンM00との距離Lは(R2+X00 21/2-Rによって算出することができる。この結果、制御部20は、時間方向の補正量(位相遅延量)を2πf×L/v(fは音波の周波数、vは音波の速度)によって取得することができる。
【0072】
そこで制御部20は、マイクロホンMI0~MIM-1の位置と、第1音源S1までの距離Rとに基づいて、デジタルデータy0(n)~yM-1(n)を補正し、第1音源S1から各マイクロホンまでの距離が等しいと見なした場合のデジタルデータを取得する。取得されたデジタルデータは、記録媒体30に、集音データ31aとして記録される。このような補正を実行すれば、マイクロホンの物理的な配置の制約が少なくなる。
【0073】
集音データ31aが取得されると、制御部20は、推定対象周波数スペクトル取得部22aの機能により、FFTによって周波数スペクトルを取得する(ステップS205)。すなわち、制御部20は、第1音源S1からの距離がRである円の周上に各マイクロホンが存在する場合のデータとして得られた集音データ31aを参照し、それぞれが示す音圧値を輝度値に変換し1ピクセル幅の濃淡画素データに変換する。
【0074】
さらに制御部20は、当該データの変換を連続するN点の時系列データについて実施し、N×Mの濃淡画素データからなる1枚の画像データを生成する。さらに、制御部20は、当該画像データを、FFTによってフーリエ変換する。また、制御部20は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルを推定対象周波数スペクトル31bとして記録媒体30に記録する。
【0075】
参照データ取得部22bは、参照音源から出力された音が複数のマイクロホンで集音され、2次元の周波数スペクトルに変換された場合の参照周波数スペクトルと、参照音源の位置とを対応づけた参照データを取得する機能を制御部20に実行させるプログラムモジュールである。参照データ31cは、少なくともステップS200が実行される前に生成されていればよく、予め作成されていてもよいし、音源位置推定処理が開始された後に生成されてもよい。
【0076】
本実施形態においては、音源位置推定処理が開始された後、ステップS200が実行される前に参照データ31cが生成される。この際、制御部20は、第1位置P1を決定した上で参照データ31cを生成するため、当該生成の際に決定されていた第1位置P1に基づいてステップS200が実行されることになる。
【0077】
参照データ31cは、第1位置P1から等距離の位置に複数のマイクロホンMI0~MIM-1を配置し、y軸上の複数の位置に音源を配置した状態のそれぞれにおける集音データを測定し、または計算することによって定義することが可能である。計算によって定義する場合、例えば、以下の計算を行えばよい。
【0078】
まず、複数のマイクロホンMI0~MIM-1を第1位置P1からの距離が一定の円周上に配置した状態を想定する。図10Aは、この状態を示す図であり、マイクロホンM0~MM-1(ただしこの例ではM-1=7)が、第1位置P1からの距離Rの円周上に配置された図3Aと同様の状態になっている例である。この場合において、M個のマイクロホンM0~MM-1から得られる時間長Nの集音データが時刻n(nは0~N-1の整数)、マイクロホン番号m(mは0~M-1の整数)の関数f(n,m)で表現されるとする。
【0079】
この場合、周波数スペクトルF(kt,ks)は以下の式(1)で与えられる。
【数1】
なお、tは時間方向、sは周方向を示す添え字であり、Wt=e-2πj/N,Ws=e-2πj/Mである。
【0080】
一方、図10Aの座標系に示すy軸上の任意の位置(0,Y0)に音源が配置された状態を想定し、図10Bに示す。この場合、マイクロホン0番を基準にすると、マイクロホンm番から出力される集音データは、マイクロホン0番の集音データがτm=(Dm-D0)/cだけ遅延したものと等価であり、以下の(2)式のように表現できる。
【数2】
なお、ここで、Dmは音源からマイクロホンMまでの距離であり、cは音速である。Dmは、マイクロホンMの座標を(Xm,Ym)とすれば、次の式(3)で与えられる。
Dm=(Xm 2+(Y0-Ym21/2・・・(3)
【0081】
式(2)を利用して与えられる集音データを利用して式(1)の周波数スペクトルを変形すると以下の式(4)のように変形可能である。
【数3】
ここで、F0(kt)はマイクロホン0番の集音データを周波数変換したスペクトルであり、fsは標本化周波数である。Wt τmfsは遅延τmに対応する位相回転を示している。
【0082】
このようにして示された周波数スペクトルF(kt,ks)は、第1位置P1からの距離が距離Rである円周上に配置された複数のマイクロホンMI0~MIM-1によって、y軸上の任意の位置(0,Y0)に音源が配置された場合に取得される音の周波数スペクトルを示している。従って実際の音源の位置を代入すれば各位置に音源が配置された場合に取得される周波数スペクトルを計算することができる。
【0083】
図9Bは、マイクロホンMI0~MI7をx軸方向に関して2cmの等間隔に配置した場合について、音源の位置をx軸から0.01、0.1、0.5、1.0、2.0、3.0、4.0mの各距離にあるy軸上の位置として(すなわち、Y0=0.01、0.1、0.5m等)計算した周波数スペクトルを示す図である。なお、ここでは、F0(kt)=1とし、周波数スペクトルF(kt,ks)の絶対値を計算した上で、周方向の周波数が0である場合の値を1とした相対値で示している。
【0084】
図9Bに示されるように、音源の位置がx軸から0.01、0.1、0.5、1.0、2.0、3.0、4.0mと変化することに応じて周波数スペクトルの形状が変化する。従って、実際に測定した推定対象周波数スペクトルと類似する周波数スペクトルを特定すれば、推定対象音源の位置を推定することができる。特に、x軸から2.0mの位置である第1位置P1の周囲では周波数スペクトルの形状が劇的に変化する。従って、x軸から2.0mの位置付近に音源が存在する場合には正確に推定対象音源の位置を推定することが可能になる。むろん、参照データ31cとして記録されるデータの数は図9Bに示す数に限定されず、より多くのデータが記録されていることが好ましい。
【0085】
以上のように、音源の位置毎の周波数スペクトルは予め計算することが可能であるし、実際に測定して取得することも可能である。いずれにしても、本実施形態においては、y軸上に複数の位置に音源(これを参照音源と呼ぶ)が配置された状態で取得される周波数スペクトルを参照周波数スペクトルとして取得し、参照音源の位置を予め対応付け、参照データ31cとして定義してある。
【0086】
なお、本実施形態において、参照音源の位置には、第1位置P1と、第1位置P1以外の位置とが含まれるように構成されている。すなわち、参照周波数スペクトルは、第1位置P1とその周囲で顕著に異なる形状になるため、参照音源の位置には必ず第1位置P1が含まれるように構成されている。さらに、第1位置P1以外の位置が参照音源の位置に含まれるように構成されている。これらの参照音源の位置が参照データ31cに含まれることにより、推定対象周波数スペクトルと比較することで推定対象音源の位置を推定可能な参照データ31cを定義することができる。
【0087】
なお、第1位置P1とその周辺の位置において参照周波数スペクトルは大きく変化するため、当該変化に応じた位置の推定を実施できるような分解能で参照音源の位置が設定されていることが好ましい。いずれにしても、予め参照データ31cが定義されている状態において、制御部20は、参照データ取得部22bの機能により、参照データ31cを取得する(ステップS210)。
【0088】
推定対象音源位置推定部22cは、推定対象周波数スペクトルと、参照周波数スペクトルとが類似している場合に、当該参照周波数スペクトルに対応づけられた参照音源の位置に推定対象音源が存在すると推定する機能を制御部20に実行させるプログラムモジュールである。すなわち、制御部20は、ステップS205で取得された推定対象周波数スペクトルと、ステップS210で取得された参照データが示す参照周波数スペクトルのそれぞれとを比較する(ステップS215)。
【0089】
そして、制御部20は、最も類似する参照データに対応づけられた位置を、推定対象音源の位置として取得する(ステップS220)。なお、周波数スペクトルの類否は、種々の手法で特定されてよく、例えば、推定対象周波数スペクトルと参照周波数スペクトルとの差分を積分した値が小さいほど類似していると判定する構成等を採用可能である。
【0090】
以上の構成によれば、音源の位置を推定可能である。特に、音源が第1位置P1付近に存在する場合、僅かな位置の変位で大きくプロファイルが変化するため、正確に音源の位置を推定可能である。なお、音源の位置は、種々の態様で定義されてよい。すなわち、上述の例は、x軸からの距離によって音源の位置が定義されていたが、他の定義、例えば、第1位置P1からの方向及び距離によって音源の位置が定義されてもよく、種々の構成が採用されてよい。
【0091】
(4)第2の音源位置推定システムの構成:
図11は、本発明の一実施形態にかかる音源位置推定システム12のブロック図である。音源位置推定システム12は、上述の音源位置推定システム11と同様のハードウェアを利用し、ソフトウェアを変更することによって実現可能である。図11においては、音源位置推定システム12を実現するために必要なハードウェアを図8から抜き出し、共通のハードウェアを共通の符号によって示している。
【0092】
本実施形態において、制御部20は、音源位置推定プログラム23を実行することができる。音源位置推定プログラム23が実行されると、制御部20は、集音部23a、集音データ補正部23b、候補スペクトル取得部23c、位置推定部23dとして機能する。本実施形態においては、音源の位置を推定して第1位置P1とし、第1位置P1から複数のマイクロホンMI0~MIM-1までの距離が等しくなるように設定する構成が採用されている。なお、第1位置P1からの距離が等しい複数のマイクロホンMI0~MIM-1の配置は実空間上での配置であってもよいし、時間方向への補正が行われた後の配置であってもよい。ここでは、図3Aと同様にx軸上に等間隔で複数のマイクロホンMI0~MIM-1が並べられた状態であり、補正によって第1位置P1から複数のマイクロホンMI0~MIM-1までの距離が等しいと見なされる構成を想定する。
【0093】
集音部23aは、音を複数のマイクロホンで集音した集音データを取得する機能を制御部20に実行させるプログラムモジュールである。すなわち、図12Aに示す音源位置推定処理は、複数のマイクロホンMI0~MIM-1が存在するx軸に垂直なy軸上に音源が存在する状態で開始される。音源位置推定処理が開始されると、複数のマイクロホンMI0~MIM-1の出力信号がA/DコンバータC0~CM-1からデジタルデータが出力される。制御部20は、出力されたデジタルデータに基づいて集音データ32aを取得し、記録媒体30に記録する。
【0094】
集音データ補正部23bは、複数の候補位置を設定し、複数のマイクロホンから候補位置までの距離が等しい場合の集音結果と等価になるようにマイクロホン毎の集音結果を時間方向に補正する処理を、複数の候補位置について行う機能を制御部20に実行させるプログラムモジュールである。具体的には、集音データ32aが取得されると、制御部20は、候補位置に音源が存在する集音データとなるように補正を行う(ステップS305)。
【0095】
すなわち、制御部20は、y軸上に複数の候補位置を設定する。候補位置の設定法は種々の手法であってよく、例えば、一定距離毎に候補位置を設定する構成であってもよい。候補位置が設定されると、制御部20は、候補位置から複数のマイクロホンMI0~MIM-1までの距離が一定になるように集音データ32aを補正して候補スペクトルを取得する処理を、各候補位置について実施する。
【0096】
例えば、図3Aに示す位置P1が候補位置である場合、制御部20は、位置P1に存在する音源からマイクロホンMI0~MIM-1までの距離がRになるように補正を行った集音データを取得する。本実施形態においても、マイクロホンMI0~MIM-1が並ぶx軸とx軸上でのマイクロホンMI0~MIM-1の位置、x軸とy軸との関係は予め特定されている。
【0097】
そこで、制御部20は、距離Rと各マイクロホンMI0~MIM-1の位置に基づいて、位置P1に存在する音源から距離Rの円周上にマイクロホンが存在すると見なすための時間方向の補正量を取得する。例えば、マイクロホンMI0図3Aに示すマイクロホンM00の位置に存在する場合、当該位置を座標(X00,0)とすれば、補正後のマイクロホンM0とマイクロホンM00との距離Lは(R2+X00 21/2-Rによって算出することができる。この結果、制御部20は、時間方向の補正量(位相遅延量)を2πf×L/v(fは音波の周波数、vは音波の速度)によって取得することができる。
【0098】
そこで制御部20は、マイクロホンMI0~MIM-1の位置と、位置P1までの距離Rとに基づいて、集音データ32aを補正し、候補位置に存在する音源から各マイクロホンまでの距離が等しいと見なした場合の集音データを取得する。取得された集音データには、音源の位置として想定された位置P1が候補位置として対応づけられる。制御部20は、各候補位置について、補正後の集音データを取得する。
【0099】
候補スペクトル取得部23cは、複数の候補位置のそれぞれについて、候補位置が中心であり距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得する機能を制御部20に実行させるプログラムモジュールである。すなわち、ステップS305において集音データが補正されると、制御部20は、候補スペクトル取得部23cの機能により、複数の候補位置についての集音データをFFTによって候補スペクトルに変換する(ステップS310)。
【0100】
具体的には、制御部20は、ステップS305の補正によって得られた集音データのそれぞれについて、音圧値を輝度値に変換し1ピクセル幅の濃淡画素データに変換する。さらに制御部20は、当該データの変換を連続するN点の時系列データについて実施し、N×Mの濃淡画素データからなる1枚の画像データを生成する。さらに、制御部20は、当該画像データを、FFTによってフーリエ変換する。また、制御部20は、変換によって得られた、周方向および時間方向のそれぞれについての周波数スペクトルに候補位置を対応付け、候補スペクトル32bとして記録媒体30に記録する。
【0101】
位置推定部23dは、周方向の周波数が0である領域の周波数スペクトルが極大になる候補位置に音源が存在すると推定する機能を制御部20に実行させるプログラムモジュールである。すなわち、ステップS310において候補スペクトルが取得されると、制御部20は、周波数が0の領域のスペクトルが極大となる候補位置を取得する(ステップS315)。
【0102】
具体的には、制御部20は、記録媒体30に記録された候補スペクトル32bを参照し、周方向の周波数が0の値を取得する。図12Bは、複数の候補スペクトル32bから、ある時間におけるスペクトルを抜き出し、重ねて示した図である。この図においては、候補位置が異なることに起因して異なる形状のスペクトルが得られることが示されている。また、図12Bにおいては、ある候補位置Pcから各マイクロホンMI0~MIM-1までの距離が同一である。このため、候補位置Pcに対応づけられた候補スペクトルPc32bが他の候補位置のスペクトルと極めて異なる形状となっており、かつ極大値となっている。従って、候補位置Pcに対応づけられた候補スペクトル32bが極大になることを容易に特定することができる。
【0103】
なお、極大値は、特定の時刻における候補スペクトルにおいて周方向の周波数が0の領域の値が複数の候補位置について比較されることによって特定されてもよいし、他の手法で特定されてもよい。例えば、複数の時刻における候補スペクトルにおいて周方向の周波数が0の領域の値が取得され、累積値や平均値等の統計値が複数の候補位置について取得され、比較されることによって極大値が特定されてもよい。
【0104】
極大値を与える候補スペクトル32bが特定されると、制御部20は、当該極大値を与える候補スペクトル32bに対応づけられている候補位置Pcに音源が存在すると推定する。このように、本実施形態において制御部20は、候補スペクトル32bに基づいて音源の位置を推定することができる。本実施形態においては、各マイクロホンMI0~MIM-1までの距離が同一である候補位置Pcに音源が存在する場合、図12Bに示すように、候補スペクトルの形状が他のスペクトルと明らかに異なり、また、値も大きくなる。従って、候補位置Pcが音源の位置である場合には、特に正確に音源の位置を推定することができる。
【0105】
本実施形態において音源の位置が推定された後には、当該位置の音源からの音を集音するための処理が行われる。すなわち、制御部20は、候補位置からの距離が等しくなるように集音データの補正量を設定する(ステップS320)。具体的には、制御部20は、マイクロホンMI0~MIM-1の位置と、候補位置までの距離とされる共通の値(図3Aに示す例であれば例えばR)とに基づいて、時間方向の補正量(位相遅延量:図3AのマイクロホンM00であれば2πf×L/v(fは音波の周波数、vは音波の速度))を取得する。
【0106】
以後、制御部20は、例えば、集音データを当該補正量によって補正し、ステップS110~S125と同様の処理を行えば、候補位置に存在する音源からの音のみを抽出することが可能になる。
【0107】
なお、本実施形態において極大値が複数個存在する場合、制御部20は、それぞれの極大値を与える候補スペクトル32bに対応づけられた候補位置のそれぞれに音源が存在すると推定してもよい。この場合において、集音データの補正量を設定するのであれば、例えば、どの候補位置に合わせて設定すべきか利用者に問い合わせる構成等を採用可能である。さらに、祖調整を行ってから微調整を行ってもよい。例えば、候補位置を粗い密度で複数箇所設定し、極大値に基づいて候補位置を仮設定した後、仮設定された位置を含む所定範囲でより高密度に候補位置を複数箇所設定し、極大値に基づいて候補位置を詳細に設定してもよい。
【0108】
(5)他の実施形態:
以上の実施形態は本発明を実施するための一例であり、複数のマイクロホンからの距離が一定の位置に存在する音源の周波数スペクトルの特徴を有効に利用する限りにおいて、他にも種々の実施形態を採用可能である。上述の実施形態においては、周波数スペクトルに基づいて音源の分離や、音源の位置の推定等を行う構成を説明したが、当該構成は一例である。従って、他の手法、例えば、周波数スペクトルに対して分離後の周波数スペクトルを対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の分離を行う構成であってもよい。むろん、周波数スペクトルに対して音源の位置を対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の位置の推定を行う構成であってもよい。
【0109】
さらに、周波数スペクトルではなく、集音データが教師データとなってもよい。例えば、集音データに対して分離後の集音データを対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の分離を行う構成であってもよい。また、集音データに対して音源の位置を対応づけた教師データに基づいて機械学習が行われることにより、学習結果を用いて音源の位置の推定を行う構成であってもよい。
【0110】
さらに、本発明の実施形態は、携帯端末以外の装置で実現されてもよい。例えば、車両内に音源分離システムや音源位置推定システムを配置することにより、車室内で会話や音楽再生等が行われている状態で運転者の音声指示を受け付ける音声インタフェースが実現されてもよい。こうすることにより運転手の音声指示を走行ノイズや車室内の他の音声等から分離することができるので、音声指示の認識率が向上する。
【0111】
さらに、携帯端末が備えるカメラと共に音源分離システムや音源位置推定システムが利用されてもよい。例えば、カメラを備える携帯端末によって動画を撮影する際に、特定の音源の音声を動画と共に記録したい場合や、音源毎に音声を分離した状態で動画を記録したい場合等に音源分離システムや音源位置推定システムが利用されてもよい。さらに、複数のマイクロホンにおける集音結果を全て記録しておき、異なる位置に存在する異なる音源からの音を事後的に抽出するような利用態様も実現可能である。
【0112】
さらに、上述の音源分離システム10は距離センサ40を備えていたが、距離センサ40による測距が行われない音源分離システム10が構成されてもよい。例えば、車室内における運転者の口など、ある程度の範囲内に存在する音源を対象とする場合、当該範囲に第1位置P1が含まれるように設定した音源分離システム10を構成すれば、距離センサ40は不要である。
【0113】
さらに、上述の実施形態においては、音源がy軸上に存在するものとして説明を行ったが、音源がy軸上に存在しない場合であっても一般性は失わない。例えば、複数のマイクロホンの集音結果は、時間方向にシフトさせることによって第1位置を変化させることが可能である。そして、このような時間方向へのシフトを利用すれば、y軸上に存在しない位置を第1位置と見なすことができるように補正を行うことが可能である。また、音源がどのような位置にあっても、音源分離システムや音源位置推定システムを移動させれば、音源がy軸に存在する(またはほぼ存在する)状態を実現することは可能である。
【0114】
また、音源分離システムや音源位置推定システムは、複数の装置によって実現されてもよく、フーリエ変換や集音データの補正等がサーバで実施され、分離された音声の提供や推定後の音源の位置の提供等がクライアントで実施されるシステム等であってもよい。むろん、音源分離システムや音源位置推定システムを構成する各要素、例えば、集音データ取得部21a、周波数スペクトル取得部21b、音源分離部21c、推定対象周波数スペクトル取得部22a、参照データ取得部22b、推定対象音源位置推定部22c、集音部23a、集音データ補正部23b、候補スペクトル取得部23c、位置推定部23d等が異なる装置に分散して存在してもよい。さらに、上述の実施形態の一部の構成が省略されてもよいし、処理の順序が変動または省略されてもよい。
【0115】
集音データ取得部は、複数のマイクロホンからの距離が等しい第1位置に存在する第1音源と第1位置以外の位置に存在する第2音源とから出力された音を複数のマイクロホンで集音した集音データを取得することができればよい。すなわち、集音データ取得部は、第1音源から出力された音の第1音源スペクトルが第2音源スペクトルと区別できるように各音源が配置された状態で集音することができればよい。
【0116】
前記音源分離システムの実施形態において、M個(M≧3)のマイクロホンを用いた場合を説明したが、複数のマイクロホンは2以上であればよく、数は限定されない。また、複数のマイクロホンは、第1音源からの距離が等しければよく、当該距離は、実空間上での実際の距離が等しい状態であってもよいし、仮想的な距離が等しい状態であってもよい。すなわち、集音データを時間方向に補正し、複数のマイクロホンと音源との実効的な距離を変化させた場合、当該実効的な距離によってマイクロホンと第1音源との距離が規定されてもよい。
【0117】
さらに、複数のマイクロホンは特性が同一のマイクロホン(例えば、素材、大きさ、構成が同一の複数のマイクロホン等)であることが好ましい。さらに、複数のマイクロホンの態様は限定されず、上述のMEMSマイクロホン以外にも、種々のマイクロホンが利用されてよい。
【0118】
第1位置は、第1音源が当該位置に存在することによって第1音源スペクトルが第2音源スペクトルと明確に区別できるようになっていればよい。従って、第1音源スペクトルと第2音源スペクトルとを区別できる限りにおいて、第1位置に誤差が含まれていてもよい。また、第1音源スペクトルと第2音源スペクトルとを区別できる限りにおいて、第1音源から各マイクロホンへの距離が誤差を有していてもよい。
【0119】
第1位置に第1音源が存在する状態は、各種の手段で実現されてよく、音源分離システムが人為的に移動されるなどして第1位置に第1音源が存在する状態が実現されてもよいし、集音データが補正されることによって第1位置に第1音源が存在する状態が実現されてもよい。集音データは、各マイクロホンで集音された音を示していればよく、例えば、音圧の時間変化を示すデータである。
【0120】
周波数スペクトル取得部は、集音データに基づいて、第1位置が中心であり距離が半径である円の周方向と時間方向との2次元についての周波数スペクトルを取得することができればよい。すなわち、周波数スペクトル取得部は、マイクロホンが分布する周方向と、各マイクロホンにおける音圧の時間変化を示す時間方向とで規定される2次元方向について、集音データを周波数スペクトルに変換することができればよい。
【0121】
円の周方向は、第1位置が中心であり、マイクロホンと第1位置との距離が半径である円の周上であればよい。第1位置から複数のマイクロホンまでの距離が一定である状態は、上述のように、集音データの時間方向への補正によっても実現可能である。従って、直線上に並ぶ複数のマイクロホンの集音データが特定の直線方向に並べられ、各集音データの音圧が当該直線に垂直な時間方向に変化するように座標軸を定義した場合であっても、周方向と時間方向との2次元について解析していると解釈可能である。すなわち、集音データの時間方向への補正によって第1位置から複数のマイクロホンまでの距離が一定である状態が実現されるのであれば、周方向と時間方向との2次元について解析が行われているといえる。
【0122】
音源分離部は、周波数スペクトルに基づいて、第1音源から出力された音のスペクトルである第1音源スペクトルと、第2音源から出力された音のスペクトルである第2音源スペクトルとを分離することができればよい。すなわち、第1音源スペクトルは、第2音源スペクトルと異なる極めて特徴的なスペクトルとなるため、当該特徴的なスペクトルである第1音源スペクトルを抽出する処理と、当該特徴的なスペクトルを除去して第2音源スペクトルを残す処理と、の少なくとも一方を行えば、音源毎のスペクトルを分離することができる。
【0123】
分離によって得られた第1音源スペクトルや第2音源スペクトルは、種々の用途で利用されてよい。すなわち、上述の実施形態のように、音を復元する処理が行われる構成以外にも種々の構成を採用可能である。例えば、各音源における周波数スペクトルの特性を解析したり、評価したりする構成等が採用されてもよい。
【0124】
上述の実施形態においては、第1音源スペクトルに基づいて第1音源から出力された音を復元する処理が行われたが、むろん、第2音源スペクトルに基づいて第2音源から出力された音を復元する処理が行われてもよいし、第1音源と第2音源との双方について音を復元する処理が行われてもよい。第2音源スペクトルに基づいて第2音源から出力された音を復元する処理は、第1音源スペクトルが除去されたことで得られた第2音源スペクトルを逆フーリエ変換する処理等によって実現可能である。
【0125】
周方向の周波数が0である領域は、複数のマイクロホンからの距離が等しい第1位置に音源が存在することに起因して、周方向において第1音源スペクトルが局在する領域であればよく、当該領域は、例えば、第1音源が第1位置上に正確に一致しているほど狭くなり、複数のマイクロホンから第1位置までの距離が複数のマイクロホンにおいて正確に一致しているほど狭くなる。従って、これらの誤差等に応じて第1音源スペクトルの周波数成分が周方向において広がる度合いに鑑みて、すなわち、第1音源スペクトルを抽出できるように、周波数が0である領域に幅を持たせてもよい。周方向の周波数が非0である領域は、第1音源スペクトルが値を有さない周波数域として設定されればよい。
【0126】
周方向の周波数が0である領域の第2音源スペクトルの推定は、各種の補間によって実施されてよい。すなわち、上述の実施形態のように周方向の周波数が非0である領域の第2音源スペクトルを周波数が0の領域まで延長することによる線形補間が利用されてもよいし、他の線形補間やスペクトルを多項式等によって近似することによって補間が行われてもよく、種々の構成を採用可能である。また、周波数が非0である第2音源スペクトルを参照する際に正負両側の周波数の双方が参照されてもよいし、正側のみ、負側のみの周波数が参照されてもよい。
【0127】
さらに、集音データ取得部が、第1位置を中心とした円の周上に配置された複数のマイクロホンで集音された集音データを取得する構成であってもよい。すなわち、複数のマイクロホンが、実際に第1位置を中心とした円の周上に配置されている状態で集音データが取得されてもよい。むろん、複数のマイクロホンの位置が可変であることによって第1位置を変化させることが可能であってもよい。マイクロホンの位置を変化させるための構成としては、種々のアクチュエータが採用されてよく、例えば、マイクロホンがMEMSマイクロホンである場合、MEMSによってマイクロホンを駆動する機構が構成されてもよい。
【0128】
さらに、本発明のように、複数のマイクロホンからの距離が一定の位置に存在する音源の周波数スペクトルの特徴を有効に利用する手法は、プログラムや方法としても適用可能である。また、以上のようなシステム、プログラム、方法は、単独の装置として実現される場合や、複数の装置によって実現される場合が想定可能であり、各種の態様を含むものである。例えば、以上のような手段を備えた携帯端末を提供することが可能である。また、一部がソフトウェアであり一部がハードウェアであったりするなど、適宜、変更可能である。さらに、システムを制御するプログラムの記録媒体としても発明は成立する。むろん、そのソフトウェアの記録媒体は、磁気記録媒体であってもよいし半導体メモリであってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。
【符号の説明】
【0129】
10…音源分離システム、20…制御部、21…音源分離プログラム、21a…集音データ取得部、21b…周波数スペクトル取得部、21c…音源分離部、30…記録媒体、30a…集音データ、30b…周波数スペクトル、11…音源位置推定システム、22…音源位置推定プログラム、22a…推定対象周波数スペクトル取得部、22b…参照データ取得部、22c…推定対象音源位置推定部、31a…集音データ、31b…推定対象周波数スペクトル、31c…参照データ、12…音源位置推定システム、23…音源位置推定プログラム、23a…集音部、23b…集音データ補正部、23c…候補スペクトル取得部、23d…位置推定部、32a…集音データ、32b…候補スペクトル、40…距離センサ、C0~CM-1…A/Dコンバータ、MI0~MIM-1…マイクロホン
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12