(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022127777
(43)【公開日】2022-09-01
(54)【発明の名称】収音装置、収音プログラム、及び収音方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20220825BHJP
【FI】
H04R3/00 320
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021025965
(22)【出願日】2021-02-22
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(71)【出願人】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】藤枝 大
(72)【発明者】
【氏名】片桐 一浩
(72)【発明者】
【氏名】西城 耕平
(72)【発明者】
【氏名】小川 哲司
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】 目的エリア内の音源に関する環境変化に対してより頑健な収音処理を提供する。
【解決手段】 本発明は、収音装置に関する。そして、本発明の収音装置は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段を有することを特徴とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段を有することを特徴とする収音装置。
【請求項2】
前記学習モデルは、前記第1の入力信号と前記差分信号から、前記第1の入力信号に含まれる目的音以外の非目的音の成分を抑圧するマスク係数を出力し、
前記目的音抽出処理手段は、前記マスク係数を用いて前記第1の入力信号から前記非目的音の成分を抑圧することで前記目的音強調信号を取得する
ことを特徴とする請求項1に記載の収音装置。
【請求項3】
前記学習モデルは、前記第1の入力信号と前記差分信号から、前記第1の入力信号に含まれる非目的音の成分を抑圧して前記目的音の成分を強調した目的音強調信号を出力することを特徴とする請求項1に記載の収音装置。
【請求項4】
前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段をさらに備えることを特徴とする請求項1~3のいずれかに記載の収音装置。
【請求項5】
コンピュータを、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段として機能させることを特徴とする収音プログラム。
【請求項6】
集音装置が行う収音方法において、前記収音装置は目的音抽出処理手段を備え、前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得することを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収音装置、収音プログラム、及び収音方法に関し、例えば、目的エリアに存在する音源から到来する音(以下、「目的エリア音」と呼ぶ)を収音するエリア収音処理に関する。
【背景技術】
【0002】
従来、多チャンネルマイクロホンを用いたエリア収音技術として、非特許文献1に記載されたMUBASE(Multiple Beam-forming Area Sound Enhancement)が挙げられる。MUBASEは、2チャンネルのマイクロホンの観測信号の差分により周囲からの妨害音を抽出できることを利用し、正面方向のエリアを強調する手法である。
【0003】
図7は、2つのマイクロホンMl、Mrを備えるマイクロホンアレイMAの観測信号を用いて、MUBASEにより正面方向(目的エリア音が存在する方向)の音の成分を強調して取得する例について示した図である。
【0004】
ここで、マイクロホンMl、Mrの観測信号をそれぞれ以下、(1)式、(2)式としたとき(fは周波数ビンのインデックス)、観測信号の差分は以下の(3)式のように示すことができる。そして、その観測信号の差分は、正面方向にnullを向けるフィルタ(以下、「差分フィルタ」と呼ぶ)となり、エリア外からの妨害音が抽出される。ただし、差分フィルタにより得られる推定妨害音は実際の妨害音に比べ低周波ほどパワーが弱くなることが知られている。差分フィルタにより得られる推定妨害音を利用し、正面の目的エリア内の音源y
fからの音は、以下の式(4)で表されるサブトラクションを用いて抽出できる。
【数1】
【0005】
ただし、(4)式において、サブトラクション係数αfはハイパーパラメータである。(4)式において、係数αfの値により強調するエリアの幅が変化し、αfの値が大きいほど狭いビームとなる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Kazuhiro Katagiri,Tokuo Yamaguchi,Takashi Yazu,and Yoong Keok Lee, “Multiple beam-forming area sound enhancement(MUBASE) and stereophonic area sound reproduction(SASR)system”,SIGGRAPH Asia 2015 Emerging Technologies,2015.
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来のMUBASEを用いたエリア収音処理では、目的エリア内の音源の位置等により最適な係数αfの値は異なる。
【0008】
例えば、従来のMUBASEを用いたエリア収音処理において手動で係数αfを調整しようとした場合を想定すると、係数αfが大きすぎればオーバーサブトラクションになり、収音処理により得られる信号(目的エリア音を強調した信号)が歪んでしまい、係数αfが小さすぎれば妨害音(非目的エリア音)の抑圧が不十分となってしまうため、係数αfの最適な調整は困難である。
【0009】
以上のような問題を鑑みて、目的エリア内の音源に関する環境変化(例えば、音源の移動)に対してより頑健な収音装置、収音プログラム、及び収音方法が望まれている。
【課題を解決するための手段】
【0010】
第1の本発明の収音装置は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段を有することを特徴とする。
【0011】
第2の本発明の収音プログラムは、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段として機能させることを特徴とする。
【0012】
第3の本発明は、集音装置が行う収音方法において、前記収音装置は目的音抽出処理手段を備え、前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得することを特徴とする。
【発明の効果】
【0013】
本発明によれば、目的エリア内の音源に関する環境変化に対してより頑健な収音処理を提供することができる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る第1の目的エリア音抽出部の機能的構成について示したブロック図である。
【
図2】実施形態に係る第2の目的エリア音抽出部の機能的構成について示したブロック図である。
【
図3】実施形態に係る収音装置の機能的構成について示したブロック図である。
【
図4】実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。
【
図5】実施形態に係る収音装置の実験環境について示した図である。
【
図6】実施形態に係る収音装置の実験結果について示した図である。
【
図7】従来の2チャンネルマイクロホンアレイを用いた収音処理について示した図である。
【発明を実施するための形態】
【0015】
(A)主たる実施形態
以下、本発明による収音装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。
【0016】
(A-1)実施形態の構成
図3は、この実施形態の収音装置100の機能的構成について示したブロック図である。
【0017】
収音装置100は、2つのマイクロホンMr、Mlを備えるマイクロホンアレイMAを用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
【0018】
マイクロホンアレイMAは、目的エリアが存在する空間の任意の場所に配置される。なお、この実施形態では、説明を簡易とするため、マイクロホンアレイMAで収音の対象となる目的エリア(目的エリアに配置された目的音源)は1つだけであるものとする。
【0019】
次に、収音装置100の内部構成について説明する。
【0020】
収音装置100は、信号入力部101、目的エリア音抽出部102、及び信号出力部103を備える。なお、収音装置100を構成する各機能ブロックの詳細処理については後述する。
【0021】
信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、ディジタル信号に変換して、目的エリア音抽出部102で処理可能な形式の信号(この実施形態では、周波数領域の信号)に変換する機能を担っている。信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、アナログ信号からディジタル信号に変換し、さらに時間領域から周波数領域に変換(例えば、高速フーリエ変換等により変換)して、目的エリア音抽出部102に供給する。
【0022】
なお、ここでは、信号入力部101から目的エリア音抽出部102に供給されるマイクロホンMl、Mrの観測信号(周波数領域に変換された音響信号)を、それぞれXr、Xlと表すものとする。
【0023】
目的エリア音抽出部102は、信号入力部101から供給された信号について、目的エリア音の成分を推定して抽出する機能を担っている。
【0024】
信号出力部103は、目的エリア音抽出部102から出力された信号を、周波数領域から時間領域へ変換して、所定の形式で出力する。なお、信号出力部103による信号出力の形式や方式については限定されないものである。
【0025】
次に、収音装置100のハードウェア構成の例について説明する。
【0026】
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0027】
図4は、収音装置100のハードウェア構成の例について示したブロック図である。
【0028】
図4では、収音装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
【0029】
図4に示す収音装置100は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ400を有している。また、コンピュータ400は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
【0030】
図4に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。
【0031】
なお、コンピュータ400の具体的な構成は
図4の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASH(登録商標)メモリ等)であれば、二次記憶部403については除外した構成としてもよい。
【0032】
次に、目的エリア音抽出部102による目的エリア音抽出処理の概要について説明する。
【0033】
ここで述べる目的エリア音抽出処理は、従来のMUBASEと同様、2つのマイクロホンの観測信号から目的エリア音を抽出する処理として設計される。従来のMUBASEの処理では、上記の(4)式が適用されるが、目的音源や妨害音(非目的エリア音)の到来角によって最適な係数αfは異なり、手動で設定することは困難となる場合があった。また、従来のMUBASEの処理において、αfの値が大きすぎると、オーバーサブトラクションとなり、目的エリア内の音声が歪んでしまう場合があった。反対に、従来のMUBASEの処理において、αfの値が小さければ、エリア外の妨害音をあまり抑圧できない場合があった。
【0034】
この実施形態の目的エリア音抽出部102では、上記の(4)式で表されるサブトラクションにあたる計算を、深層ニューラルネットワーク(DNN(Deep Neural Network)を用いて学習することにより目的エリア音を収音する構成(以下、「深層エリア収音」又は「DMUBASE」と呼ぶ)を適用するものとして説明する。この実施形態の目的エリア音抽出部10では、深層エリア収音(DMUBASE)により、目的音や妨害音の到来角に依らず、高精度なエリア収音を実現することができる。
【0035】
ところで、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音(DMUBASE)では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。
【0036】
そのため、深層エリア収音(DMUBASE)では、「エリア外の妨害音を抑圧できること」と、「エリア内における目的音源の動きに対し頑健であること」という要件を満たしていることが望ましい。
【0037】
以上を踏まえて、この実施形態では、目的エリア音抽出部102のモデルアーキテクチャとして、例えば、
図1に示す第1の目的エリア音抽出部102A又は、
図2に示す第2の目的エリア音抽出部102Bのいずれかを適用するものとする。
【0038】
まず、
図1に示す第1の目的エリア音抽出部102Aについて説明する。
【0039】
第1の目的エリア音抽出部102Aは、推定処理部200、マスク処理部210、位相処理部220、及び差分抽出器230を有している。
【0040】
推定処理部200は、各マイクロホンアレイの観測信号Xl、Xrに基づいて、Xrに含まれる妨害音(非目的エリア音)の成分を推定し、Xrに含まれる非目的エリア音の成分を抑圧するための係数(フィルタ係数)を設定した信号(以下、「マスク信号」と呼ぶ)を出力する。マスク信号には、周波数ごとにXrに含まれる妨害音(非目的エリア音)の成分を抑圧するためのフィルタ係数(0~1の間のいずれかの値)が設定されている。
【0041】
具体的には、推定処理部200は、DNNを用いて、観測信号|Xr|と、Xl、Xrの差分(差分フィルタの出力)となる|d|=|Xr-Xl|に基づいてマスク信号を推定する処理を行う。なお、ここでは、マイクロホンMrの観測信号Xrから目的エリア音の成分を抽出する処理を行うため、観測信号|Xr|と差分フィルタの出力|Xr-Xl|に基づいてマスク信号を推定する処理を行うものとして説明するが、観測信号|Xl|を基準とし、フィルタの出力|Xl-Xr|に基づいてマスク信号を推定する処理を行うようにしてもよい。
【0042】
マスク処理部210は、推定処理部200から供給されるマスク信号(フィルタ係数)に基づいて、|Xr|に含まれる妨害音(非目的エリア音)の成分をマスク(減衰;抑圧;フィルタ処理)させて、目的エリア音を強調した信号を出力する。
【0043】
位相処理部220は、マスク処理部210から供給される信号にXrの位相(位相情報)を付与(同期)させる処理を行って出力する。ここでは、位相処理部220から出力される信号を「y^」と表す。ここでは、y^を、第1の目的エリア音抽出部102Aの出力信号としている。すなわち、ここでは、y^が、目的エリア音を抽出(強調;推定)した結果と言える。
【0044】
差分抽出器230は、位相処理部220から出力されるy^(目的エリア音を推定した結果)と、機械学習における教師ラベル(正解ラベル)となるクリーンな目的エリア音(以下、「y」と表す)との差分を取得し、この差分を推定処理部200にloss(機械学習におけるloss)としてフィードバックする。すなわち、差分抽出器230は、推定処理部200に学習処理させる際にのみ機能する要素である。したがって、すでに推定処理部200で新たな学習処理が行われない場合には、第1の目的エリア音抽出部102Aから差分抽出器230を除外するようにしてもよい。
【0045】
以上のように、第1の目的エリア音抽出部102Aでは、推定処理部200に観測信号|X
r|と差分フィルタの出力として得られる非目的エリア音(妨害音)が支配的な|d|を入力としたニューラルネットワーク(推定処理部200)により、マイクロホンアレイMA正面の扇形領域(
図7参照)に相当する目的エリア内の音源(目的エリア音)を抽出するためのマスク信号を推定する。
【0046】
この実施形態の第1の目的エリア音抽出部102Aでは、推定処理部200に対して学習処理を実行させる動作モード(以下、「学習処理モード」と呼ぶ)と、供給された観測信号Xl,Xrに基づいて、目的エリア音抽出処理(マスク信号及びy^の抽出)を行う動作モード(以下、「信号処理モード」と呼ぶ)の両方に対応しているものとする。なお、第1の目的エリア音抽出部102Aにおいて、学習処理モードに対応しない構成(例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等)としてもよい。
【0047】
第1の目的エリア音抽出部102Aは、学習処理モードで動作する場合、教師データとしての観測信号(Xl、Xr)のサンプルと、教師ラベルとしてのクリーンな目的エリア音yを含むデータセット(以下、「教師データセット」と呼ぶ)が供給されると、教師データセットの観測信号(Xl、Xr)から、|Xr|と|d|を取得して推定処理部200に供給するとともに、差分抽出器230が抽出したloss(差分)を推定処理部200にフィードバックさせる。これにより、推定処理部200では、教師データセットに基づいて学習(ディープラーニング)した学習モデルを取得することができる。
【0048】
次に、推定処理部200の内部構成の例について
図1を用いて説明する。
【0049】
ここでは、推定処理部200の内部構成として、
図1の例を説明するが、推定処理部200としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習(ディープラーニング)のフレームワークを適用することができる。
【0050】
そして、この実施形態の例では、推定処理部200のニューラルネットワークは、
図1に示す5層の構成となっているものとして説明するが、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の構成を適用することができる。
【0051】
図1に示す推定処理部200では、入力層から順に、「FC層211、212」、「FC層221、222」、「FC層231」、「FC層241」、「FC層251」が配置されている。
図1に示す推定処理部200では入力のFC層211、212にそれぞれ|x
r|、|d|が入力されている。また、
図1に示す推定処理部200のニューラルネットワークでは、FC層251のみ活性化関数がシグモイド(Sigmoid)であり、それ以外のFC層の活性化関数がReLU(Rectified Linear Unit)となっている。
【0052】
図1に示す推定処理部200のニューラルネットワークでは、|x
r|と|d|の各々に対し、FC層211、212、221、222により非線形変換を施した後に、2入力を結合して3層目のFC層231に入力している。さらに、
図1に示す推定処理部200のニューラルネットワークでは、その後の2層のFC層241、251により変換(逆変換)を行いマスク信号(時間周波数マスク)を出力する構成となっている。上記の通りFC層251の活性化関数はシグモイドになっているため、推定処理部200では、周波数ごとに0~1の間の数値で表される係数(フィルタ係数)を出力することができる。
【0053】
推定処理部200のでは、
図1に示すようなニューラルネットワークを構成することにより、妨害音が優勢の|d|と観測信号(観測音)である|X
r|からマイクロホンアレイMAの正面方向を音源とする目的エリア音を強調するマスク信号(フィルタ係数)を抽出する過程をデータから学習することで、(4)式に相当するサブトラクション処理をDNNにより学習することができる。言い換えると、推定処理部200のでは、
図1に示すようなニューラルネットワークを構成することにより、マイクロホンアレイMAの正面方向にある目的エリア内における音源の動きに対して頑健なエリア収音処理を行うことができる。特に、推定処理部200では、2入力が結合する中間層となるFC層231が上記のサブトラクション処理を担う構成となる。
【0054】
次に、
図2に示す第2の目的エリア音抽出部102Bについて説明する。
図2では、上述の
図1と同一部分または対応部分には同一符号又は対応符号を付している。
【0055】
以下では、第2の目的エリア音抽出部102Bについて、第1の目的エリア音抽出部102Aとの差異を説明する。
【0056】
図2に示すように、第2の目的エリア音抽出部102Bは、推定処理部300、位相処理部220、及び差分抽出器230を有している。
【0057】
推定処理部200は、マイクロホンアレイの観測信号|Xr|と|d|に基づいてマスク信号を推定する処理を行っていたが、推定処理部300は、目的エリア音yを推定した結果得られるパワースペクトラム(目的エリア音の成分を強調した信号のスペクトラム;周波数領域の信号)を出力する点で、推定処理部200と異なっている。
【0058】
位相処理部220は、推定処理部300から供給されるパワースペクトラムにXrの位相(位相情報)を付与(同期)させる処理を行って、信号y^として出力する。
【0059】
以上のように、第2の目的エリア音抽出部102Bでは、推定処理部300に観測信号|X
r|と差分フィルタの出力として得られる非目的エリア音(妨害音)が支配的な|d|を入力としたニューラルネットワーク(推定処理部300)により、マイクロホンアレイMA正面の扇形領域(
図7参照)に相当する目的エリア内の音源(目的エリア音)のパワースペクトラムを推定する。
【0060】
そして、第2の目的エリア音抽出部102Bでは、第1の目的エリア音抽出部102Aと同様に、学習処理モードと信号処理モードに対応するようにしてもよい。
【0061】
次に、推定処理部300の内部構成の例について
図2を用いて説明する。
【0062】
ここでは、推定処理部300の内部構成として、
図2の例を説明するが、推定処理部300としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習(ディープラーニング)の構成を適用することができる。
【0063】
ここでは、推定処理部300のニューラルネットワークは、
図2に示す通り、推定処理部300のニューラルネットワークの最後段(出力層)のFC層251がFC層351に置き換わっている点で推定処理部200と異なっている。推定処理部300のFC層351では、活性化関数がsigmoidではなくReLuとなっている点で推定処理部200と異なっている。これにより、推定処理部300のFC層351では、パワースペクトラムを出力することができる。
【0064】
推定処理部300では、
図2に示すようなニューラルネットワークにより、妨害音が優勢の|d|と観測音である|X
r|からマイクロホンアレイMAの正面方向を音源とする目的エリア音を出力する機構を構成することで、(4)式に相当するサブトラクション処理をデータから学習することができる。
【0065】
(A-2)実施形態の動作
次に、以上のような構成を有するこの実施形態における収音装置100の動作(実施形態に係る収音方法)を説明する。
【0066】
まず、収音装置100の目的エリア音抽出部102が学習処理モードで動作する場合の処理について説明する。
【0067】
学習処理モードで動作する目的エリア音抽出部102に教師データセットが供給されると、目的エリア音抽出部102は、教師データセットの観測信号(Xl、Xr)から、|Xr|と|d|を取得してニューラルネットワークに入力して、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)を行う。
【0068】
収音装置100に、第1の目的エリア音抽出部102Aが適用される場合、第1の目的エリア音抽出部102Aでは、|Xr|と|d|が推定処理部200に入力される。また、このとき、第1の目的エリア音抽出部102Aでは、差分抽出器230により位相処理部220から出力される信号y^と教師ラベルyとのlossが抽出されて推定処理部200にフィードバックされる。第1の目的エリア音抽出部102Aでは、上記のようなフィードバックにより、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)が行われる。
【0069】
一方、収音装置100に、第2の目的エリア音抽出部102Bが適用される場合、第2の目的エリア音抽出部102Bでは、|Xr|と|d|が推定処理部300に入力される。また、このとき、第2の目的エリア音抽出部102Bでは、差分抽出器230により推定処理部300から出力されるパワースペクトラムのlossが抽出されて推定処理部300にフィードバックされる。第2の目的エリア音抽出部102Bでは、上記のようなフィードバックにより、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)が行われる。
【0070】
次に、収音装置100の目的エリア音抽出部102が信号処理モードで動作する場合の動作について説明する。
【0071】
ここで、マイクロホンアレイMA(マイクロホンMr、Ml)から信号入力部101を介して、信号処理モードで動作する目的エリア音抽出部102に観測信号(Xl、Xr)が供給されたものとする。そうすると、目的エリア音抽出部102は、ニューラルネットワーク(推定処理部200又は推定処理部300)に|Xr|と|d|を供給し、結果としてy^を取得して信号出力部103に供給することになる。信号出力部103は、y^を周波数領域から時間領域に変換して出力する。
【0072】
次に、発明者が、実際に収音装置100を構築して、目的エリア音を収音する処理を行い、その品質を評価するための実験(以下、「本実験」と呼ぶ)を行った際の実験結果及びその評価結果について説明する。
【0073】
【0074】
図5では、マイクロホンMr、Ml、目的音源、妨害音源が全て同じ平面上に存在する場合の例について示している。また、
図5では、マイクロホンMr、Mlの位置(中心位置)を結んだ線Lの中点の位置(マイクロホンアレイMAの中心点)をP1と図示している。さらに、
図5では、P1からみてマイクロホンMrの方向を0°、P1からみてマイクロホンMlの方向を180°として、目的音源及び妨害音源はP1からみて0°~180°のいずれかの角度から到来するものとする。以下では、P1から見た目的音源及び妨害音源の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、
図5に示すように、目的音源及び妨害音源(非目的エリアの音源)の位置はP1から1mの距離の半円の線上であるものとする。
【0075】
本実験では、学習処理モード(訓練時)、信号処理モード(信号処理時)のいずれの動作モードにおいても、目的音源のドライソース(信号)としてTIMITコーパス(以下の参考文献1参照)を用い、妨害音のドライソース(信号)として、TMITコーパス又はDEMAND(Diverse Environments Multi-channel Acoustic Noise Database)コーパス(以下の参考文献2参照)を用いた。
【0076】
参考文献1:J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
参考文献2:J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America,vol. 133, p. 3591,05, 2013.
【0077】
本実験では、
図5のような音場(モデル環境)においてマイクロホンMl、Mrで捕捉される観測信号(音響信号)をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を収音装置100に入力した結果を評価した。
【0078】
具体的には、本実験では、PyRoomAcoustics(以下の参考文献3参照)を用いて、
図5のような音場(モデル環境)を設定したシミュレーションを行ってインパルス応答を取得し、取得したインパルス応答を上記のドライソース(目的音源及び妨害音源のドライソース)に畳み込むことで、マイクロホンMl、Mrの観測信号X
l、X
rを得た。
【0079】
参考文献3:Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018
【0080】
また、本実験のシミュレーションでは、観測信号Xl、XrにおけるSNRがおよそ0.0[dB]となるよう調整している。なお、以下では、本実験用の音場の3D空間を(x,y,z)の三次元の座標系で表すものとする。
【0081】
そして、本実験のシミュレーションでは、モデル環境の音場を構成する部屋の大きさは(x,y,z)[m]=(5,3,3)とし、2chのマイクロホンMl,Mrの座標を、それぞれ(x,y,z)[m]=(2.49,1.5,1)、(x,y,z)[m]=(2.51,1.5,1)とした。これにより、マイクロホンMl,Mrの間の間隔は2[cm]となる。また、本実験のシミュレーションでは、部屋の吸音率を0.2、部屋の反射回数を3と設定した。
【0082】
本実験では、収音装置100の目的エリア音抽出部102に、マスク推定により目的エリア音を推定する第1の目的エリア音抽出部102Aを適用した場合(以下、「第1の本発明の実験モデル」とよぶ)、パワースペクトラム推定により目的エリア音を推定する第2の目的エリア音抽出部102Bを適用した場合(以下、「第2の本発明の実験モデル」と呼ぶ)、及び従来のMUBASEによる目的エリア音推定を適用した場合(以下、「従来構成の実験モデル」と呼ぶ)を適用した場合のそれぞれについてシミュレーションを行った。
【0083】
次に、本実験のシミュレーションにおける各音源の位置について説明する。
【0084】
本実験では、学習時は目的音源の位置を90°に固定し、テスト時には目的音源をエリア内(P1から距離1mで80°~90°の範囲内)で動かすことで、収音装置100が上記の2つの要件を満たしているかを検証した。また、妨害音源については、学習時・テスト時共に、0°、15°、30°、45°、135°、150°、165°、180°の計8か所のうちランダムに1~3か所に設置した。本実験では、このような目的音源及び妨害音原の位置変更を、コーパス上データ処理単位(例えば、単語単位)で行った。
【0085】
次に、本実験のシミュレーションにおける詳細なパラメータ設定について説明する。
【0086】
「従来のMUBASEのモデル」を適用したシミュレーションでは、目的エリア音抽出部102において、差分フィルタにより非目的エリア音(妨害音)を推定する際に、低周波ほどパワーが弱いという傾向に基づき、αの値を200/(f+0.01)と設定した。
【0087】
また、「第1の本発明の実験モデル」及び「第2の本発明の実験モデル」の学習では、バッチサイズを32、エポック数を200と設定し、損失関数として平均二乗誤差を用いた。また、「第1の本発明の実験モデル」及び「第2の本発明の実験モデル」の学習では、最適化アルゴリズムにAdam(以下の参考文献4を参照)を用い、学習率は0.001とした。
【0088】
参考文献4:D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015.
【0089】
本実験では、第1の本発明の実験モデル(マスク推定)、第2の本発明の実験モデル(パワースペクトラム推定)、及び従来構成の実験モデル(MUBASE)の環境を構築し、それぞれについて、上記の学習処理及び信号処理(テスト処理)を行った。本実験の信号処理(テスト処理)では、3つの実験モデルのそれぞれについてSNR(Signal-to-Noise Ratio)とSTOI(Short-Time Objective Intelligibility)の2つの指標を測定した。また、本実験のテスト処理では、それぞれの実験モデルについて、目的音源の位置を90°で固定したパターン(以下、「目的音源固定パターン」と呼ぶ)と、目的音源を80°~90°の間でランダムに移動させたパターン(以下、「目的音源移動パターン」と呼ぶ)でのテスト処理を行った。
図6は、本実験の結果について示した図である。
【0090】
(A-3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0091】
従来のMUBASEを用いた構成では、所定の係数を伴うスペクトル減算によってエリア収音処理を行っていたが、この実施形態の収音装置100では、教師データにより学習したニューラルネットワークを用いた深層エリア収音(DMUBASE)を行っている。特に、この実施形態の収音装置100では、2チャンネルのマイクロホンアレイMAにおいて、差分フィルタの出力dをとることで正面方向以外から到来する妨害音(非目的エリア音)を得られることを利用し、ニューラルネットワークに差分フィルタの出力d(妨害音が優勢となる情報)を観測信号と共にニューラルネットワークに入力することで、正面方向の目的エリア音が強調された出力を得ることができる。
【0092】
上記の通り、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音(DMUBASE)では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。そして、この実施形態の収音装置100では、単純なデータドリブン(例えば、観測信号のみ)でなく、差分フィルタの出力d等の物理的な情報を補助情報に用いることで、環境変化への頑強性を向上させている。そして、
図6に示すように、この実施形態の構成を再現した実験モデル(第1及び第2の本発明の実験モデル)はいずれも、目的音源固定パターン及び目的音源移動パターンの両方で、従来構成の実験モデル(MUBASE)の精度を上回った。つまり、本発明の実験モデルは、従来よりも目的エリア音の音源の移動に対しても頑健であることが確認できた。
【0093】
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0094】
(B-1)上記の実施形態において、収音装置100は、学習処理モードと信号処理モード(テストモード)の両方に対応するものとして説明したが、予め学習モデルが保持されていれば信号処理モードだけに対応し、学習処理モードに必要な手段(学習手段)については除外した構成としてもよい。
【符号の説明】
【0095】
100…収音装置、101…信号入力部、102…目的エリア音抽出部、103…信号出力部、102A…第1の目的エリア音抽出部、200…推定処理部、212、221、222、231、241、251、211、…FC層、210…マスク処理部、220…位相処理部、230…差分抽出器、102B…第2の目的エリア音抽出部、…推定処理部300、212、221、222、231、241、351、211…FC層、230…差分抽出器。