IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特開2024-83863音源分離装置、音源分離方法、およびプログラム
<>
  • 特開-音源分離装置、音源分離方法、およびプログラム 図1
  • 特開-音源分離装置、音源分離方法、およびプログラム 図2
  • 特開-音源分離装置、音源分離方法、およびプログラム 図3
  • 特開-音源分離装置、音源分離方法、およびプログラム 図4
  • 特開-音源分離装置、音源分離方法、およびプログラム 図5
  • 特開-音源分離装置、音源分離方法、およびプログラム 図6
  • 特開-音源分離装置、音源分離方法、およびプログラム 図7
  • 特開-音源分離装置、音源分離方法、およびプログラム 図8
  • 特開-音源分離装置、音源分離方法、およびプログラム 図9
  • 特開-音源分離装置、音源分離方法、およびプログラム 図10
  • 特開-音源分離装置、音源分離方法、およびプログラム 図11
  • 特開-音源分離装置、音源分離方法、およびプログラム 図12
  • 特開-音源分離装置、音源分離方法、およびプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024083863
(43)【公開日】2024-06-24
(54)【発明の名称】音源分離装置、音源分離方法、およびプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240617BHJP
【FI】
H04R3/00 320
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022197924
(22)【出願日】2022-12-12
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】糸山 克寿
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】安江 蒼人
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】対象の二次元領域内の音声信号のみ抽出することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。
【解決手段】音源分離装置は、音響信号を収音する、第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、所望の二次元領域を第2間隔である方位角方向の間隔Δθと仰角方向の間隔Δφで細分化し、細分化した領域それぞれに対して、マイクロホンアレイによって収音された音響信号を、細分化した領域の間隔Δθと間隔Δφで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出し、抽出した音響信号を加算することにより所望の二次元領域の音響信号を分離する音源分離部と、を備え、音源分離部は、前記サブビームの本数を予め定めた数に固定して処理を行う。
【選択図】図8
【特許請求の範囲】
【請求項1】
音響信号を収音する、第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、
所望の二次元領域を第2間隔である方位角方向の間隔Δθと仰角方向の間隔Δφで細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の前記間隔Δθと前記間隔Δφで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の二次元領域の音響信号を分離する音源分離部と、を備え、
前記音源分離部は、前記サブビームの本数を予め定めた数に固定して処理を行う、音源分離装置。
【請求項2】
前記所望の二次元領域を抽出するパラメータをRとし、
前記パラメータRは、|θ|≦R、|φ|≦Rであり、
前記音源分離部は、
前記所望の二次元領域を、方位角θ方向について-Rθを下限としRθを上限とし、仰角φ方向について-Rφを下限としRφを上限とて指定する、
請求項1に記載の音源分離装置。
【請求項3】
音源分離に用いられる空間フィルタは、次式であり、
【数1】
θi,φiは(θ,φ)を目的音源方向とするサブビームフォーマーのフィルタであり、bθi,φjは(θ,φ)を目的音源方向とするサブビームフォーマーの重みである、
請求項1または請求項2に記載の音源分離装置。
【請求項4】
前記サブビームは、MVDR(Minimum Variance Distortionless Response)ビームフォーマーである、
請求項1または請求項2に記載の音源分離装置。
【請求項5】
前記所望の二次元領域を第2間隔で細分化する方位角θと仰角φで囲まれた二次元領域の個数Nは、10×10以上である、
請求項1または請求項2に記載の音源分離装置。
【請求項6】
第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイで、音響信号を収音し、
音源分離部が、所望の二次元領域を第2間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θと仰角φで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の二次元領域の音響信号を分離し、
前記音源分離部が、前記サブビームの本数を予め定めた数に固定して処理を行う、
音源分離方法。
【請求項7】
音源分離装置のコンピュータに、
第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイで音響信号を収音させ、
所望の二次元領域を第2間隔で細分化させ、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θと仰角φで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出させ、前記抽出した音響信号を加算することにより前記所望の二次元領域の音響信号を分離させ、
前記サブビームの本数を予め定めた数に固定して処理を行わせる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源分離装置、音源分離方法、およびプログラムに関する。
【背景技術】
【0002】
マイクロホンアレイで収音した音響信号に対して、ビームフォーミング等の処理を行うことで、複数の音源が混在した観測信号から、特定の音源のみを取り出す音源分離を行うことができる(例えば特許文献1参照)。
【0003】
これらの音源分離処理では、音源が点音源であることが前提として理論が構築されている。通常の音源は面音源であるため、従来は、面音源を点音源であるものとして分離処理を行っていた。従来は、面音源を疑似的に音源分離するために、遅延和ビームフォーミングやエコーキャンセルといったビーム(指向性)を広くとる手法が用いられてきた。
【0004】
また、一般的に、ビデオカメラ等で動画を撮影する場合は、音声信号も一緒に記録する。そして、ビデオカメラ等では、ズームレンズ等によって、撮影対象領域を絞ることができる。これに対して、撮影対象領域内の音声のみ抽出して記録するというニーズがあった。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2015-46759号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、対象領域内の音声信号のみ抽出することが困難であった。例えば、撮影環境に5人がいて1人にズームインした場合は、画像は1人のみを抽出できるが、音声は他の4人の発話も収音されてしまっていた。
【0007】
本発明は、上記の問題点に鑑みてなされたものであって、対象の二次元領域内の音声信号のみ抽出することができる音源分離装置、音源分離方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
(1)上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を収音する、第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイと、所望の二次元領域を第2間隔である方位角方向の間隔Δθと仰角方向の間隔Δφで細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の前記間隔Δθと前記間隔Δφで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の二次元領域の音響信号を分離する音源分離部と、を備え、前記音源分離部は、前記サブビームの本数を予め定めた数に固定して処理を行う、音源分離装置である。
【0009】
(2)上記(1)に記載の音源分離装置では、前記所望の二次元領域を抽出するパラメータをRとし、前記パラメータRは、|θ|≦R、|φ|≦Rであり、前記音源分離部は、前記所望の二次元領域を、方位角θ方向について-Rθを下限としRθを上限とし、仰角φ方向について-Rφを下限としRφを上限とて指定するようにしてもよい。
【0010】
(3)上記(1)または(2)に記載の音源分離装置では、音源分離に用いられる空間フィルタは、次式であり、
【数1】
θi,φiは(θ,φ)を目的音源方向とするサブビームフォーマーのフィルタであり、bθi,φjは(θ,φ)を目的音源方向とするサブビームフォーマーの重みであるようにしてもよい。
【0011】
(4)上記(1)から(3)のうちのいずれか1つに記載の音源分離装置では、前記サブビームは、MVDR(Minimum Variance Distortionless Response)ビームフォーマーであるようにしてもよい。
【0012】
(5)上記(1)に記載の音源分離装置では、前記所望の二次元領域を第2間隔で細分化する方位角θと仰角φで囲まれた二次元領域の個数Nは、10×10以上であるようにしてもよい。
【0013】
(6)上記目的を達成するため、本発明の一態様に係る音源分離方法は、第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイで、音響信号を収音し、音源分離部が、所望の二次元領域を第2間隔で細分化し、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θと仰角φで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出し、前記抽出した音響信号を加算することにより前記所望の二次元領域の音響信号を分離し、前記音源分離部が、前記サブビームの本数を予め定めた数に固定して処理を行う、音源分離方法である。
【0014】
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、音源分離装置のコンピュータに、第1間隔で配置されるM(Mは2以上の整数)個のマイクロホンを有するマイクロホンアレイで音響信号を収音させ、所望の二次元領域を第2間隔で細分化させ、前記細分化した領域それぞれに対して、前記マイクロホンアレイによって収音された音響信号を、前記細分化した領域の方位角θと仰角φで囲まれた二次元領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出させ、前記抽出した音響信号を加算することにより前記所望の二次元領域の音響信号を分離させ、前記サブビームの本数を予め定めた数に固定して処理を行わせる、プログラムである。
【発明の効果】
【0015】
上記(1)~(7)によれば、対象の二次元領域内の音声信号のみ抽出することができる。
【図面の簡単な説明】
【0016】
図1】一次元のSSB手法例を示す図である。
図2】座標系を説明するための図である。
図3】二次元領域のSSBの目的方向を説明するための図である。
図4】抽出する領域を三次元座標で表した模式図である。
図5】実施形態に係る方法を説明するための模式図である。
図6】動画撮影と同期してズームアウトした場合の模式図である。
図7】実施形態に係る音源分離処理により撮影される画像と収音される音声信号のイメージ図である。
図8】実施形態に係る音源分離システムの構成例を示す図である。
図9】実施形態に係る音源分離装置が行う処理手順のフローチャートである。
図10】評価におけるマイクロホンアレイの配置を示す図である。
図11】固定するNの値を変化させたときの、120パターンのSDRの平均値と閾値以下のデータ数、平均処理時間の結果を示す図である。
図12】固定するNの値を変化させた場合の音声処理速度の評価結果例を示す図である。
図13】領域サイズRに対する平均SDRの変化例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
【0018】
[Scan-and-Sum Beamformer手法について]
ビームフォーミングは、アレイを用いた信号処理であり、音源分離に応用ができる。しかしながら、一般のビームフォーマーは、点音源の分離にしか対応していない。これにたいして、領域を有する面音源の分離手法としてScan-and-Sum Beamformer(以下、SSB手法という)手法が提案されている(参考文献1、特開2021-197566号公報参照)。SSB手法では、面音源をある領域内に集中的に分布する多数の点音源に分解し、各点音源用に設計された従来のビームフォーミングの結果を統合する。SSB手法では、構成する各ビームフォーマーを、サブビームフォーマーという(図1)。図1は、一次元のSSB手法例を示す図である。このSSB手法の場合は、
一次元領域の面音源を分離できるが、二次元領域の音源分離について開示されていない。
【0019】
参考文献1;Zhi Zhong, Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, and Kazuhiro Nakadai, “Assessment of a beamforming implementation developed for surface sound source separation”, In 2021 IEEE/SICE International Symposium on System Integration (SII), pp. 369-374, 2021.
【0020】
このため、本実施形態では、二次元可変領域の抽出を行うことができるように、上記のScan-and-Sum Beamformer手法を拡張した。
【0021】
図2は、座標系を説明するための図である。図2のように、水平面をxy平面とし、xy平面に垂直な縦方向をz軸方向とする。また、xy平面における角度をθ(方位角)、xy平面とz軸との角度をφ(仰角)とする。黒丸は、例えば音源である。なお、二次元領域の音源分離では、空間内の全方向のTDoA(Time Difference of Arrival;到着時間差)を表現する必要があるため、仰角方向φを含めた表現を用いる。
【0022】
[二次元領域拡張のSSBのフィルタ設計]
そして、本実施形態では、抽出する可変領域のパラメータとしてR(度)を設定する。
次に、本実施形態では、次式(1)の関係が成り立つパラメータRとして、抽出する二次元可変領域を指定する。
【0023】
【数2】
【0024】
二次元可変領域を図3のように定義する。図3は、抽出領域のイメージ図である。符号oは、原点であり、例えば収音部の位置である。本実施形態では、図3のように、領域内で仰角θと仰角φ両方向をΔの幅で走査し、全ての和を取ることで二次元に拡張する。図4は、抽出する領域を三次元座標で表した模式図である。図5において、符号g11は抽出する二次元領域を示している。
(θ,φ)方向からの音源の、原点に対するマイクセンサの位置(x,y,z)の時間遅れは、音を平面波と仮定すると次式(2)で表される。なお、式(2)においてcは音速である。
【0025】
【数3】
【0026】
反響がない自由空間で振幅の減衰もない環境を想定した場合、かつM個のマイクロホンを備えるマイクロホンアレイを用いた場合、基準点(原点)に対するm番目のマイクロホンへの到達時間差をτとすると、マイクロホンにおける(θ,φ)方向からの信号は、次式(3)のようになる。
【0027】
【数4】
【0028】
式(3)において、z(t)はm番目のマイクロホンでの観測信号を表し、s(t)は音源信号を表す。
また、SSBの設計において各サブビームフォーマーの目的方向は、θ方向については-Rθを下限とし、Rθを上限とし、φ方向については-Rφを下限とし、Rφを上限とて、Δの間隔でそれぞれ指定する。すなわち、θ=-Rθ+Δ(i-1)、φ=-Rφ+Δ(i-1)として、(θ,φ),(θ,φ),…,(θ,φ),…,(θNθ,φNφ)とサブビームフォーマーの目的方向を表す。ただし、Nθ、Nφは、それぞれθ,φ方向のサブビームフォーマー数である。また、サブビームフォーマーの総数は、N=Nθ・Nφとなる。これらを用いて二次元領域のSSBを構成すると、空間フィルタは次式(4)となる。
【0029】
【数5】
【0030】
式(4)において、wθi,φiは(θ,φ)を目的音源方向とするサブビームフォーマーのフィルタである。bθi,φjは(θ,φ)を目的音源方向とするサブビームフォーマーの重みである。図3は、二次元領域のSSBの目的方向を説明するための図である。なお、一次元の領域抽出におけるSSBの空間フィルタwは、Σn=1 (b・w)で表される。wはn番目のサブビームフォーマーの空間フィルタを表し、bはn番目のサブビームフォーマーに対する重みを表している。
【0031】
次に、式(4)を式(3)に代入することで、ビームフォーマーの周波数領域での出力は次式(5)のように表される。なお、上付きHは、エルミート共役である。なお、Y(w)は、時間領域におけるビームフォーマーの出力y(t)のフーリエ変換したものを表す。
【0032】
【数6】
【0033】
本実施形態では、式(5)のWの一例として例えばサブビームフォーマーとしてMVDR(Minimum Variance Distortionless Response)ビームフォーマーを用いてSSBを構成する。この場合、MVDRビームフォーマーのフィルタは次式(6)で表される。なお、MVDRビームフォーマーでは、目的方向の信号が無歪のまま、観測信号全体に対する出力が最小となる。また、MVDRビームフォーマーでは、目的信号と雑音が混ざり合った観測値を用いて、拘束条件により目的音源方向の全域通過特性を保証しながらビームフォーマーの出力パワーを最小化することにより、目的信号を除去することなく、雑音のパワーを最小化する。なお、式(5)のWに用いるビームフォーマーはMVDRビームフォーマーに限らず、他のビームフォーマーであっても適用可能である。
【0034】
【数7】
【0035】
式(6)において、Rは観測値の共分散行列であり、R=E[zz]と表される。E[K]はKの期待値を表す。aθ,φは、(θ,φ)方向に対する使用アレイのアレイマニフォードベクトルと呼ばれ、次式(7)で表される。
【0036】
【数8】
【0037】
一次元の領域抽出をSBM手法で行う場合は、参考文献1や特許文献(特開2021-197566号公報)のように、方位角θ方向に指向性のある複数のサブビームフォーマーを合成することで、その領域のビームパターンを実現していた。
これに対して、本実施形態の二次元の抽出領域をSBM手法で行う場合は、図3図4等のように、Δθ×Δφの四角で囲まれた領域毎のサブビームフォーマーを合成することで、所望の二次元領域のビームパターンを実現することができる。
【0038】
可変領域の変数Rθ,Rφの導入によって、従来固定値を用いていたサブビームフォーマーの走査間隔Δとサブビームフォーマーの数Nが可変となる。
上述した各サブビームフォーマーの目的方向の定義より、サブビームフォーマーの総数Nは、次式(8)で表される。
【0039】
【数9】
【0040】
式(8)より、可変領域のサイズが大きくなる。
このため、本実施形態では、Rθ,Rφが大きくなる時に式(8)を成り立たせるためにサブビームフォーマーの数Nを固定して、サブビームフォーマーの走査間隔Δを変化さる。
このため、式(8)において、Nを定数とし、ΔをRθ,Rφによって決まる変数として定義する。図5に示すように、抽出領域が拡大するとNは一定のままΔが大きくなる。図5は、本実施形態に係る方法を説明するための模式図である。図5において、符号g20は拡大前であり、符号g30はNを固定して拡大した後を表している。また、符号g21は、音源を示している。
【0041】
なお、Nを固体化した場合は、抽出領域を拡大してもサブビームフォーマーの総数は変わらないため、抽出領域の大きさに依らない一定の処理時間が期待できる。
【0042】
図6は、動画撮影と同期してズームアウトした場合の模式図である。符号g40はズームアウト前を表し、符号g50はズームアウト後を表す。なお、図6は、一次元で簡素化して示している。図6の例では、サブビームフォーマーの総数が22つであり、符号g40と符号g40のようにサブビームフォーマーの総数は変化しない。これに対して、サブビームフォーマーの走査間隔Δθの角度は、ズームアウト前に対してズームアウト後の方が大きい。逆に、ズームインする場合、符号g50からg40になるため、サブビームフォーマーの走査間隔Δθの角度は小さくなる。なお、図6では、一次元で表しているため方位角の走査間隔Δθのみを示しているが、図3図4のように二次元領域の抽出には、方位角の走査間隔Δθと仰角の走査間隔Δφの四角で囲まれた領域毎にサブビームフォーマーで走査する。
【0043】
式(3)をフーリエ変換すると、Z(w)=e-jωτmS(w)と書けるため、z(w)=aS(w)となる。したがって、減衰のない自由空間を仮定する場合、アレイマニフォードベクトルは、音源信号から観測音への伝達関数といえる。
これにより、マイクロホンアレイの配置と観測音から二次元領域拡張のSSBのフィルタ設計が定式化される。
【0044】
図7は、本実施形態に係る音源分離処理により撮影される画像と収音される音声信号のイメージ図である。
符号g60のように、2人(hu1、hu2)が会話をしている状態を撮影・収音する場合は、第1の話者hu1と第2の話者hu2とを含む画像が撮影され、かつ第1の話者hu1の第1の音声信号と第2の話者hu2の第2音声信号が収音される。
符号g70のように、2人(hu1、hu2)が会話をしている状態をズームインして第1の話者hu1を撮影・収音する場合は、第1の話者hu1の画像が撮影され、かつ第1の話者hu1が収音される。
このように、本実施形態によれば、画像のズームインまたはズームアウトに連動して、収音する音声信号も撮影される画像内の人に対応する音声信号を抽出することができる。
【0045】
[音源分離システムの構成例]
図8は、本実施形態に係る音源分離システムの構成例を示す図である。音源分離システム1は、収音部2、音源分離装置3、および撮影部4を備える。
収音部2は、M(Mは2以上の整数)個のマイクロホン21-1、…、マイクロホン21-Nを備える。なお、以下の説明において、マイクロホン21-1、…、マイクロホン21-Nのうち1つを特定しない場合は、マイクロホン21という。
音源分離装置3は、音声取得部31、伝達関数記憶部32、ビームパターン記憶部33、音源分離部34、出力部35、操作部36、領域制御部37、および画像取得部38を備える。
音源分離部34は、分離部341、評価部342、および選択部343(評価部)を備える。
【0046】
音源分離システム1は、例えば、ビデオカメラ、スマートフォン等、動画と音声を同時に記録できる装置である。
【0047】
撮影部4は、動画または連続する静止画を撮影する装置である。撮影部4は、例えば複数のレンズによって構成されるズームレンズ41を備える。撮影部4は、領域制御部37が出力する領域指示に応じて、撮影領域が可変する。なお、ズーム機能は、複数の光学レンズに限らず、例えば撮像素子の一部を用いて撮影を行うデジタルズームであってもよい。
【0048】
収音部2は、第1間隔で配置されるM個のマイクロホン21を備えるマイクロホンアレイである。収音部2は、音源が発した音響信号を収音し、収音したm(mは2以上Mまでの整数)チャネルの音響信号を音声取得部31に出力する。なお、各マイクロホン21の位置は既知である。
【0049】
操作部36は、例えば、ズーム倍率や撮影領域を、選択または可変するメカニカルスイッチまたはソフトウェアスイッチである。操作部36は、利用者の操作結果を検出して、検出した操作結果を領域制御部37に出力する。
【0050】
領域制御部37は、操作部36が出力する操作結果に応じて撮影領域と収音領域を可変する領域指示を生成する。領域制御部37は、生成した領域指示を、撮影部4と音源分離部34に出力する。
【0051】
音声取得部31は、収音部2が出力するアナログのmチャネルの音響信号を取得し、取得したアナログの音響信号をデジタルの音響信号に変換する。なお、収音部2のm個のマイクロホン21それぞれが出力する音響信号は、同じサンプリング周波数の信号を用いてサンプリングが行われる。音声取得部31は、デジタルに変換した音響信号を音源分離部34に出力する。
【0052】
伝達関数記憶部32は、到来方向を引数とする関数として表現してモデル化された伝達関数を、収音部2が備えるマイクロホン21毎に格納する。
【0053】
ビームパターン記憶部33は、サブビームパターンを記憶するようにしてもよい。
【0054】
音源分離部34は、領域制御部37が出力する領域指示に応じて所望の領域の音響信号を分離し、分離した所望の領域の音響信号を出力部35に出力する。音源分離部34は、分離に用いたビームパターンを評価するようにしてもよい。音源分離部34は、評価した結果に基づいて、マイクロホン21の数、所望の領域を分割する間隔を選択するようにしてもよい。なお、所望の領域は、分離したい面音源が存在する二次元領域を含む領域である。
【0055】
分離部341は、所望の領域を所定の個数(N個)かつ等間隔で細分化する。音源分離部34は、細分化した領域毎にサブビームフォーマーを用いて、ビームフォーミング法によって細分化した領域の音響信号を収音された音響信号から抽出する。音源分離部34は、細分化された領域毎に抽出した音響信号を加算することで、所望の面音源を分離する。なお、分離部341は、マイクロホン21の数、所望の領域を分割する間隔を自部が記憶する初期値に設定する。分離部341は、選択部343が出力する選択結果に基づいて、マイクロホン21の数、所望の領域を分割する間隔を更新するようにしてもよい。
【0056】
評価部342は、選択したビームパターンの品質を、例えばSDR(Signal-to-Distortion Ratio)と閾値を用いて評価するようにしてもよい。評価部342は、評価した評価結果を選択部343に出力するようにしてもよい。
【0057】
選択部343は、評価部342が評価した評価結果に基づいて、マイクロホン21の数、所望の領域を分割する間隔を選択するようにしてもよい。選択部343は、後述するようにコスト関数J、マイクロホン21の数、所望の領域を分割する間隔を三次元グラフで表し、このグラフにおいて最小値を検出することで、マイクロホン21の数、所望の領域を分割する間隔を選択するようにしてもよい。選択部343は、選択した建託結果を分離部341に出力するようにしてもよい。
【0058】
出力部35は、音源分離部34が取得した音声信号、または音源分離部34が分離した所望の領域の音響信号と、出力部35が出力する画像を外部装置へ出力する。外部装置は、例えばスピーカーと画像表示装置である。
【0059】
画像取得部38は、撮影部4が撮影した画像を取得し、出力部35に出力する。
【0060】
[処理手順例]
音源分離装置3が行う処理手順例を説明する。図9は、本実施形態に係る音源分離装置が行う処理手順のフローチャートである。なお、以下の処理は、例えば、撮影・録音が行われている際の処理である。
【0061】
(ステップS1)音源分離部34は、音声信号を取得する。
【0062】
(ステップS2)音源分離部34は、領域指示を取得する。
【0063】
(ステップS3)音源分離部34は、取得した領域指示がズームイン指示であるか否かを判別する。音源分離部34は、取得した領域指示がズームイン指示ではない場合(ステップS3;NO)、ステップS4の処理に進める。音源分離部34は、取得した領域指示がズームイン指示である場合(ステップS3;YES)、ステップS6の処理に進める。
【0064】
(ステップS4)音源分離部34は、取得した領域指示がズームアウト指示であるか否かを判別する。音源分離部34は、取得した領域指示がズームアウト指示ではない場合(ステップS4;NO)、ステップS5の処理に進める。音源分離部34は、取得した領域指示がズームアウト指示である場合(ステップS4;YES)、ステップS7の処理に進める。
【0065】
(ステップS5)画像取得部38は、撮影された画像を取得する。処理後、画像取得部38は、ステップS10の処理に進める。
【0066】
(ステップS6)画像取得部38は、ズームインされて撮影された画像を取得する。処理後、画像取得部38は、ステップS8の処理に進める。
【0067】
(ステップS7)画像取得部38は、ズームアウトされて撮影された画像を取得する。処理後、画像取得部38は、ステップS10の処理に進める。
【0068】
(ステップS8)音源分離部34は、所望の領域を第2間隔(方位角の間隔Δθ、仰角の間隔Δφ)で細分化する。すなわち、音源分離部34は、所望の二次元領域に合わせたサブビームフォーマーの方位角の間隔Δθと仰角の間隔Δφを設定する。
【0069】
(ステップS9)ズームインである場合、音源分離部34は、細分化した領域それぞれに対して、マイクロホンアレイによって収音された音響信号を、細分化した領域に対応するサブビームを用いてビームフォーミング法によって分離して抽出する。さらに、音源分離部34は、抽出した音響信号を加算することにより前記所望の領域の音響信号を分離する。ズームインである場合、音源分離部34は、収音された音声信号に対して含まれている音源を分離するために、一般的な音源定位処理や音源分離処理を行って音源を抽出する。処理後、音源分離部34は、ステップS10の処理に進める。
【0070】
(ステップS10)出力部35は、取得された音声信号と画像、または分離された所望の二次元領域の音声信号とズームインされた画像を、外部装置へ出力する。
【0071】
所望の二次元領域に合わせたサブビームフォーマーの方位角の間隔Δθと仰角の間隔Δφの設定は、予め定められた値であってもよく、選択できるようにしてもよい。例えば、以下の評価では、Δθ=Δφの前提で探索して、性能を落とさず、かつ処理時間が6倍程度速くなるという結果が出た4度を用いた。なお、ΔθとΔφは同じ値であってもよく、異なっていてもよい。
【0072】
なお、図9に示した処理手順は一例であり、これに限らない。例えば、いくつかの処理は同時または平行して行うようにしてもよく、いくつかの処理手順は順番を入れ替えてもよい。
【0073】
[評価]
評価では、MVDR ビームフォーマーをサブビームフォーマーに用い、各サブビームフォーマーの目的方向は抽出領域の分割法によって指定し、観測信号が得て、これらを用いてフィルタの設計を行った。また、SSBの重みbθ,φは、すべて1として、単純和として構成した。
【0074】
評価指標としては、SDRと閾値を用いて性能評価を行い、音声の処理時間を用いて計算処理速度の性能を評価した。
ここで、SDRは、音源分離の分離性能を表す。SDRは、抽出音源の目的音源成分とそれ以外の成分の比のlogスケールで表され、次式(9)である。なお、SDRは、値が高いほど分離性能が良い。
【0075】
【数10】
【0076】
閾値は、SDRの外れ値を持つ信号を検出する指標として用いる。評価では、SDRの平均値からSDRの標準偏差を引いた値を閾値とし、分離後の性能が、平均の値から著しく低い結果を検出するようにした。なお、SDRだけでなく閾値を分離性能の指標として用いた理由は、SSBが悪い分離性能をとる割合として算出するためである。
【0077】
図10は、評価におけるマイクロホンアレイの配置を示す図である。マイクロホンアレイは、第1間隔で配置される6個のマイクロホンによる6chの球面マイクロホンアレイを用いた。球面の半径は1.5cmである。なお、評価では、マイクロホンアレイに、6個のマイクロホンを用いたが、マイクロホンの数はこれに限らない。
【0078】
評価に用いた音源信号には、Libri Speechのスピーチ音声データを用いた。Libri Speechは、約1000時間分の英語のスピーチ音声のデータセットとなっているが、多くのサブセットが含まれる。評価では、サブセットのうち、development cleanのデータセットを使用した。また、評価では、約6秒区切りに音声を分割した音源信号を用いた。この音声信号には音声が小さいものや空白が長いものが含まれる。それを除外するために、全音声信号のうち振幅の絶対値の合計が上位30パーセントの信号のみを評価では用いた。評価では、この音声信号を用い、2音源を0≦|θ|、|φ|≦5と、30≦|θ|、|φ|≦35のランダムな位置に配置したものを10パターン作成して用いた。
【0079】
この2つの音源s(t)、s(t)が(θ,φ)、(θ,φ)に配置されている場合、音声信号のフーリエ変換Z(w)は、次式(10)のように表させる。
【0080】
【数11】
【0081】
式(10)を逆フーリエ変換することで、2音源を構成した音源信号z(t)を生成できる。
【0082】
簡単のために領域の大きさを表すパラメータは、Rθ=Rφ=Rの正方形領域として
評価を行った。2音源を配置した10パターンの音声を用い、Rを5°から60°まで5刻みの12サイズでSSBによる音声分離を行い、それぞれ性能を評価した。そして、固定するNを変化させて10パターン×12サイズの120パターンの平均値、同音源、同領域サイズの閾値以下のデータ数、平均処理時間をNの固定値の性能として求めた。
【0083】
(評価結果)
図11は、固定するNの値を変化させた場合の120パターンのSDRの平均値と閾値以下のデータ数、平均処理時間の結果を示す図である。図11において、横軸はNの固定値縦軸は平均SDRと閾値以下のデータ数を示す。符号g101は、閾値以下のデータ数を表す。線g102は、Nの値を変化させた場合のSDRの平均値である。
図11のように、N=5×5のみが低いSDR平均値を持ち、それ以上では緩やかにNとともにSDR平均値が上昇している。閾値以下のデータもN=10×10以降ではほとんど現れない。したがって、評価結果では、N=10×10以上で性能が確保されるといえる。
【0084】
図12は、固定するNの値を変化させた場合の音声処理速度の評価結果例を示す図である。図12の横軸はNの固定値、縦軸は1秒当たりの平均処理時間を示す。平均処理時間はNとともに上昇している。以上の分析より、性能を維持しながら高い処理速度を実現するには、性能を維持しつつ最もNの値を小さくできる、評価結果では、N=10×10を選択するのが良いといえる。
【0085】
図13は、領域サイズRに対する平均SDRの変化例を示す図である。横軸は領域サイズR(度)、縦軸は平均SDRである。なお、N=5×5で評価している。
図13のように、Rの増加とともにSDRの値が減衰する。そして、領域の拡大に伴いサブビームフォーマーの走査密度が小さくなるため、分離性能が低下する。なお、評価では、音源を30≦|θ|、|φ|≦35に配置しているため、30度付近でSDRが低下している。このため、領域の境界線に音源が存在しないように設定することが好ましい。例えば、音源分離システム1は、予め音源定位処理を行い、音源方向を推定した後に、境界線となる位置を音源方向と重ならないように設定するようにしてもよい。
【0086】
なお、上述した実施形態等では、録画と録音を同時に行う例を説明したが、これに限らない。例えば、スマートフォン等、カメラ機能とマイクロホン機能を有している機器において、画像で収音したい対象をズームインして、分離された音声信号のみを録音するようにしてもよい。
【0087】
なお、上述した例では、収音、分離する信号の例として音声信号の例を説明したが、これに限らない。収音、分離する信号は、音響信号であればよく、例えば鳥のさえずり、虫の鳴き声、動物の声等であってもよい。
【0088】
なお、本発明における音源分離装置3の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離装置3が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0089】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0090】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0091】
1…音源分離システム、2…収音部、3…音源分離装置、21,21-1,・・・21-M…マイクロホン、4…撮影部、31…音声取得部、32…伝達関数記憶部、33…ビームパターン記憶部、34…音源分離部、35…出力部、36…操作部、37…領域制御部、38…画像取得部、341…分離部、342…評価部、343…選択部、41…ズームレンズ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13