2022-127777 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2022-127777収音装置、収音プログラム、及び収音方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022127777

(43)【公開日】2022-09-01

(54)【発明の名称】収音装置、収音プログラム、及び収音方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20220825BHJP

【ＦＩ】

H04R3/00 320

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021025965

(22)【出願日】2021-02-22

(71)【出願人】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(71)【出願人】

【識別番号】899000068

【氏名又は名称】学校法人早稲田大学

(74)【代理人】

【識別番号】100180275

【弁理士】

【氏名又は名称】吉田倫太郎

(74)【代理人】

【識別番号】100161861

【弁理士】

【氏名又は名称】若林裕介

(72)【発明者】

【氏名】藤枝大

(72)【発明者】

【氏名】片桐一浩

(72)【発明者】

【氏名】西城耕平

(72)【発明者】

【氏名】小川哲司

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220BA06

5D220BC05

(57)【要約】

【課題】目的エリア内の音源に関する環境変化に対してより頑健な収音処理を提供する。
【解決手段】本発明は、収音装置に関する。そして、本発明の収音装置は、学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段を有することを特徴とする。
【選択図】図１

【特許請求の範囲】

【請求項1】

学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段を有することを特徴とする収音装置。

【請求項2】

前記学習モデルは、前記第１の入力信号と前記差分信号から、前記第１の入力信号に含まれる目的音以外の非目的音の成分を抑圧するマスク係数を出力し、
前記目的音抽出処理手段は、前記マスク係数を用いて前記第１の入力信号から前記非目的音の成分を抑圧することで前記目的音強調信号を取得する
ことを特徴とする請求項１に記載の収音装置。

【請求項3】

前記学習モデルは、前記第１の入力信号と前記差分信号から、前記第１の入力信号に含まれる非目的音の成分を抑圧して前記目的音の成分を強調した目的音強調信号を出力することを特徴とする請求項１に記載の収音装置。

【請求項4】

前記第１の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段をさらに備えることを特徴とする請求項１～３のいずれかに記載の収音装置。

【請求項5】

コンピュータを、学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段として機能させることを特徴とする収音プログラム。

【請求項6】

集音装置が行う収音方法において、前記収音装置は目的音抽出処理手段を備え、前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得することを特徴とする収音方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、収音装置、収音プログラム、及び収音方法に関し、例えば、目的エリアに存在する音源から到来する音（以下、「目的エリア音」と呼ぶ）を収音するエリア収音処理に関する。

【背景技術】

【0002】

従来、多チャンネルマイクロホンを用いたエリア収音技術として、非特許文献１に記載されたＭＵＢＡＳＥ（ＭｕｌｔｉｐｌｅＢｅａｍ－ｆｏｒｍｉｎｇＡｒｅａＳｏｕｎｄＥｎｈａｎｃｅｍｅｎｔ）が挙げられる。ＭＵＢＡＳＥは、２チャンネルのマイクロホンの観測信号の差分により周囲からの妨害音を抽出できることを利用し、正面方向のエリアを強調する手法である。

【0003】

図７は、２つのマイクロホンＭｌ、Ｍｒを備えるマイクロホンアレイＭＡの観測信号を用いて、ＭＵＢＡＳＥにより正面方向（目的エリア音が存在する方向）の音の成分を強調して取得する例について示した図である。

【0004】

ここで、マイクロホンＭｌ、Ｍｒの観測信号をそれぞれ以下、（１）式、（２）式としたとき（ｆは周波数ビンのインデックス）、観測信号の差分は以下の（３）式のように示すことができる。そして、その観測信号の差分は、正面方向にｎｕｌｌを向けるフィルタ（以下、「差分フィルタ」と呼ぶ）となり、エリア外からの妨害音が抽出される。ただし、差分フィルタにより得られる推定妨害音は実際の妨害音に比べ低周波ほどパワーが弱くなることが知られている。差分フィルタにより得られる推定妨害音を利用し、正面の目的エリア内の音源ｙ_ｆからの音は、以下の式（４）で表されるサブトラクションを用いて抽出できる。

【数1】

【0005】

ただし、（４）式において、サブトラクション係数α_ｆはハイパーパラメータである。（４）式において、係数α_ｆの値により強調するエリアの幅が変化し、α_ｆの値が大きいほど狭いビームとなる。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】ＫａｚｕｈｉｒｏＫａｔａｇｉｒｉ，ＴｏｋｕｏＹａｍａｇｕｃｈｉ，ＴａｋａｓｈｉＹａｚｕ，ａｎｄＹｏｏｎｇＫｅｏｋＬｅｅ， “Ｍｕｌｔｉｐｌｅｂｅａｍ－ｆｏｒｍｉｎｇａｒｅａｓｏｕｎｄｅｎｈａｎｃｅｍｅｎｔ（ＭＵＢＡＳＥ）ａｎｄｓｔｅｒｅｏｐｈｏｎｉｃａｒｅａｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎ（ＳＡＳＲ）ｓｙｓｔｅｍ”，ＳＩＧＧＲＡＰＨＡｓｉａ２０１５ＥｍｅｒｇｉｎｇＴｅｃｈｎｏｌｏｇｉｅｓ，２０１５．

【発明の概要】

【発明が解決しようとする課題】

【0007】

従来のＭＵＢＡＳＥを用いたエリア収音処理では、目的エリア内の音源の位置等により最適な係数α_ｆの値は異なる。

【0008】

例えば、従来のＭＵＢＡＳＥを用いたエリア収音処理において手動で係数α_ｆを調整しようとした場合を想定すると、係数α_ｆが大きすぎればオーバーサブトラクションになり、収音処理により得られる信号（目的エリア音を強調した信号）が歪んでしまい、係数α_ｆが小さすぎれば妨害音（非目的エリア音）の抑圧が不十分となってしまうため、係数α_ｆの最適な調整は困難である。

【0009】

以上のような問題を鑑みて、目的エリア内の音源に関する環境変化（例えば、音源の移動）に対してより頑健な収音装置、収音プログラム、及び収音方法が望まれている。

【課題を解決するための手段】

【0010】

第１の本発明の収音装置は、学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段を有することを特徴とする。

【0011】

第２の本発明の収音プログラムは、学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段として機能させることを特徴とする。

【0012】

第３の本発明は、集音装置が行う収音方法において、前記収音装置は目的音抽出処理手段を備え、前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第１のマイクロホンからの第１の入力信号と、前記第１の入力信号と前記マイクロホンアレイを構成する第２のマイクロホンからの第２の入力信号との差分となる差分信号から、前記第１の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得することを特徴とする。

【発明の効果】

【0013】

本発明によれば、目的エリア内の音源に関する環境変化に対してより頑健な収音処理を提供することができる。

【図面の簡単な説明】

【0014】

【図1】実施形態に係る第１の目的エリア音抽出部の機能的構成について示したブロック図である。

【図2】実施形態に係る第２の目的エリア音抽出部の機能的構成について示したブロック図である。

【図3】実施形態に係る収音装置の機能的構成について示したブロック図である。

【図4】実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。

【図5】実施形態に係る収音装置の実験環境について示した図である。

【図6】実施形態に係る収音装置の実験結果について示した図である。

【図7】従来の２チャンネルマイクロホンアレイを用いた収音処理について示した図である。

【発明を実施するための形態】

【0015】

（Ａ）主たる実施形態
以下、本発明による収音装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。

【0016】

（Ａ－１）実施形態の構成
図３は、この実施形態の収音装置１００の機能的構成について示したブロック図である。

【0017】

収音装置１００は、２つのマイクロホンＭｒ、Ｍｌを備えるマイクロホンアレイＭＡを用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。

【0018】

マイクロホンアレイＭＡは、目的エリアが存在する空間の任意の場所に配置される。なお、この実施形態では、説明を簡易とするため、マイクロホンアレイＭＡで収音の対象となる目的エリア（目的エリアに配置された目的音源）は１つだけであるものとする。

【0019】

次に、収音装置１００の内部構成について説明する。

【0020】

収音装置１００は、信号入力部１０１、目的エリア音抽出部１０２、及び信号出力部１０３を備える。なお、収音装置１００を構成する各機能ブロックの詳細処理については後述する。

【0021】

信号入力部１０１は、各マイクロホンで観測された音響信号（アナログ信号）を、ディジタル信号に変換して、目的エリア音抽出部１０２で処理可能な形式の信号（この実施形態では、周波数領域の信号）に変換する機能を担っている。信号入力部１０１は、各マイクロホンで観測された音響信号（アナログ信号）を、アナログ信号からディジタル信号に変換し、さらに時間領域から周波数領域に変換（例えば、高速フーリエ変換等により変換）して、目的エリア音抽出部１０２に供給する。

【0022】

なお、ここでは、信号入力部１０１から目的エリア音抽出部１０２に供給されるマイクロホンＭｌ、Ｍｒの観測信号（周波数領域に変換された音響信号）を、それぞれＸ_ｒ、Ｘ_ｌと表すものとする。

【0023】

目的エリア音抽出部１０２は、信号入力部１０１から供給された信号について、目的エリア音の成分を推定して抽出する機能を担っている。

【0024】

信号出力部１０３は、目的エリア音抽出部１０２から出力された信号を、周波数領域から時間領域へ変換して、所定の形式で出力する。なお、信号出力部１０３による信号出力の形式や方式については限定されないものである。

【0025】

次に、収音装置１００のハードウェア構成の例について説明する。

【0026】

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の収音プログラムを含む）をインストールすることにより構成するようにしてもよい。

【0027】

図４は、収音装置１００のハードウェア構成の例について示したブロック図である。

【0028】

図４では、収音装置１００を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

【0029】

図４に示す収音装置１００は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ４００を有している。また、コンピュータ４００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

【0030】

図４に示すコンピュータ４００は、プロセッサ４０１、一次記憶部４０２、及び二次記憶部４０３を有している。一次記憶部４０２は、プロセッサ４０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部４０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨ（登録商標）メモリやＨＤＤやＳＳＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ４００では、プロセッサ４０１が起動する際、二次記憶部４０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部４０２上に展開して実行する。

【0031】

なお、コンピュータ４００の具体的な構成は図４の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部４０２が不揮発メモリ（例えば、ＦＬＡＳＨ（登録商標）メモリ等）であれば、二次記憶部４０３については除外した構成としてもよい。

【0032】

次に、目的エリア音抽出部１０２による目的エリア音抽出処理の概要について説明する。

【0033】

ここで述べる目的エリア音抽出処理は、従来のＭＵＢＡＳＥと同様、２つのマイクロホンの観測信号から目的エリア音を抽出する処理として設計される。従来のＭＵＢＡＳＥの処理では、上記の（４）式が適用されるが、目的音源や妨害音（非目的エリア音）の到来角によって最適な係数α_ｆは異なり、手動で設定することは困難となる場合があった。また、従来のＭＵＢＡＳＥの処理において、α_ｆの値が大きすぎると、オーバーサブトラクションとなり、目的エリア内の音声が歪んでしまう場合があった。反対に、従来のＭＵＢＡＳＥの処理において、α_ｆの値が小さければ、エリア外の妨害音をあまり抑圧できない場合があった。

【0034】

この実施形態の目的エリア音抽出部１０２では、上記の（４）式で表されるサブトラクションにあたる計算を、深層ニューラルネットワーク（ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて学習することにより目的エリア音を収音する構成（以下、「深層エリア収音」又は「ＤＭＵＢＡＳＥ」と呼ぶ）を適用するものとして説明する。この実施形態の目的エリア音抽出部１０では、深層エリア収音（ＤＭＵＢＡＳＥ）により、目的音や妨害音の到来角に依らず、高精度なエリア収音を実現することができる。

【0035】

ところで、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音（ＤＭＵＢＡＳＥ）では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。

【0036】

そのため、深層エリア収音（ＤＭＵＢＡＳＥ）では、「エリア外の妨害音を抑圧できること」と、「エリア内における目的音源の動きに対し頑健であること」という要件を満たしていることが望ましい。

【0037】

以上を踏まえて、この実施形態では、目的エリア音抽出部１０２のモデルアーキテクチャとして、例えば、図１に示す第１の目的エリア音抽出部１０２Ａ又は、図２に示す第２の目的エリア音抽出部１０２Ｂのいずれかを適用するものとする。

【0038】

まず、図１に示す第１の目的エリア音抽出部１０２Ａについて説明する。

【0039】

第１の目的エリア音抽出部１０２Ａは、推定処理部２００、マスク処理部２１０、位相処理部２２０、及び差分抽出器２３０を有している。

【0040】

推定処理部２００は、各マイクロホンアレイの観測信号Ｘ_ｌ、Ｘ_ｒに基づいて、Ｘ_ｒに含まれる妨害音（非目的エリア音）の成分を推定し、Ｘ_ｒに含まれる非目的エリア音の成分を抑圧するための係数（フィルタ係数）を設定した信号（以下、「マスク信号」と呼ぶ）を出力する。マスク信号には、周波数ごとにＸ_ｒに含まれる妨害音（非目的エリア音）の成分を抑圧するためのフィルタ係数（０～１の間のいずれかの値）が設定されている。

【0041】

具体的には、推定処理部２００は、ＤＮＮを用いて、観測信号｜Ｘ_ｒ｜と、Ｘ_ｌ、Ｘ_ｒの差分（差分フィルタの出力）となる｜ｄ｜＝｜Ｘ_ｒ－Ｘ_ｌ｜に基づいてマスク信号を推定する処理を行う。なお、ここでは、マイクロホンＭｒの観測信号Ｘｒから目的エリア音の成分を抽出する処理を行うため、観測信号｜Ｘ_ｒ｜と差分フィルタの出力｜Ｘ_ｒ－Ｘ_ｌ｜に基づいてマスク信号を推定する処理を行うものとして説明するが、観測信号｜Ｘ_ｌ｜を基準とし、フィルタの出力｜Ｘ_ｌ－Ｘ_ｒ｜に基づいてマスク信号を推定する処理を行うようにしてもよい。

【0042】

マスク処理部２１０は、推定処理部２００から供給されるマスク信号（フィルタ係数）に基づいて、｜Ｘ_ｒ｜に含まれる妨害音（非目的エリア音）の成分をマスク（減衰；抑圧；フィルタ処理）させて、目的エリア音を強調した信号を出力する。

【0043】

位相処理部２２０は、マスク処理部２１０から供給される信号にＸ_ｒの位相（位相情報）を付与（同期）させる処理を行って出力する。ここでは、位相処理部２２０から出力される信号を「ｙ＾」と表す。ここでは、ｙ＾を、第１の目的エリア音抽出部１０２Ａの出力信号としている。すなわち、ここでは、ｙ＾が、目的エリア音を抽出（強調；推定）した結果と言える。

【0044】

差分抽出器２３０は、位相処理部２２０から出力されるｙ＾（目的エリア音を推定した結果）と、機械学習における教師ラベル（正解ラベル）となるクリーンな目的エリア音（以下、「ｙ」と表す）との差分を取得し、この差分を推定処理部２００にｌｏｓｓ（機械学習におけるｌｏｓｓ）としてフィードバックする。すなわち、差分抽出器２３０は、推定処理部２００に学習処理させる際にのみ機能する要素である。したがって、すでに推定処理部２００で新たな学習処理が行われない場合には、第１の目的エリア音抽出部１０２Ａから差分抽出器２３０を除外するようにしてもよい。

【0045】

以上のように、第１の目的エリア音抽出部１０２Ａでは、推定処理部２００に観測信号｜Ｘ_ｒ｜と差分フィルタの出力として得られる非目的エリア音（妨害音）が支配的な｜ｄ｜を入力としたニューラルネットワーク（推定処理部２００）により、マイクロホンアレイＭＡ正面の扇形領域（図７参照）に相当する目的エリア内の音源（目的エリア音）を抽出するためのマスク信号を推定する。

【0046】

この実施形態の第１の目的エリア音抽出部１０２Ａでは、推定処理部２００に対して学習処理を実行させる動作モード（以下、「学習処理モード」と呼ぶ）と、供給された観測信号Ｘｌ，Ｘｒに基づいて、目的エリア音抽出処理（マスク信号及びｙ＾の抽出）を行う動作モード（以下、「信号処理モード」と呼ぶ）の両方に対応しているものとする。なお、第１の目的エリア音抽出部１０２Ａにおいて、学習処理モードに対応しない構成（例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等）としてもよい。

【0047】

第１の目的エリア音抽出部１０２Ａは、学習処理モードで動作する場合、教師データとしての観測信号（Ｘ_ｌ、Ｘ_ｒ）のサンプルと、教師ラベルとしてのクリーンな目的エリア音ｙを含むデータセット（以下、「教師データセット」と呼ぶ）が供給されると、教師データセットの観測信号（Ｘ_ｌ、Ｘ_ｒ）から、｜Ｘ_ｒ｜と｜ｄ｜を取得して推定処理部２００に供給するとともに、差分抽出器２３０が抽出したｌｏｓｓ（差分）を推定処理部２００にフィードバックさせる。これにより、推定処理部２００では、教師データセットに基づいて学習（ディープラーニング）した学習モデルを取得することができる。

【0048】

次に、推定処理部２００の内部構成の例について図１を用いて説明する。

【0049】

ここでは、推定処理部２００の内部構成として、図１の例を説明するが、推定処理部２００としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習（ディープラーニング）のフレームワークを適用することができる。

【0050】

そして、この実施形態の例では、推定処理部２００のニューラルネットワークは、図１に示す５層の構成となっているものとして説明するが、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の構成を適用することができる。

【0051】

図１に示す推定処理部２００では、入力層から順に、「ＦＣ層２１１、２１２」、「ＦＣ層２２１、２２２」、「ＦＣ層２３１」、「ＦＣ層２４１」、「ＦＣ層２５１」が配置されている。図１に示す推定処理部２００では入力のＦＣ層２１１、２１２にそれぞれ｜ｘ_ｒ｜、｜ｄ｜が入力されている。また、図１に示す推定処理部２００のニューラルネットワークでは、ＦＣ層２５１のみ活性化関数がシグモイド（Ｓｉｇｍｏｉｄ）であり、それ以外のＦＣ層の活性化関数がＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）となっている。

【0052】

図１に示す推定処理部２００のニューラルネットワークでは、｜ｘ_ｒ｜と｜ｄ｜の各々に対し、ＦＣ層２１１、２１２、２２１、２２２により非線形変換を施した後に、２入力を結合して３層目のＦＣ層２３１に入力している。さらに、図１に示す推定処理部２００のニューラルネットワークでは、その後の２層のＦＣ層２４１、２５１により変換(逆変換）を行いマスク信号（時間周波数マスク）を出力する構成となっている。上記の通りＦＣ層２５１の活性化関数はシグモイドになっているため、推定処理部２００では、周波数ごとに０～１の間の数値で表される係数（フィルタ係数）を出力することができる。

【0053】

推定処理部２００のでは、図１に示すようなニューラルネットワークを構成することにより、妨害音が優勢の｜ｄ｜と観測信号（観測音）である｜Ｘ_ｒ｜からマイクロホンアレイＭＡの正面方向を音源とする目的エリア音を強調するマスク信号（フィルタ係数）を抽出する過程をデータから学習することで、（４）式に相当するサブトラクション処理をＤＮＮにより学習することができる。言い換えると、推定処理部２００のでは、図１に示すようなニューラルネットワークを構成することにより、マイクロホンアレイＭＡの正面方向にある目的エリア内における音源の動きに対して頑健なエリア収音処理を行うことができる。特に、推定処理部２００では、２入力が結合する中間層となるＦＣ層２３１が上記のサブトラクション処理を担う構成となる。

【0054】

次に、図２に示す第２の目的エリア音抽出部１０２Ｂについて説明する。図２では、上述の図１と同一部分または対応部分には同一符号又は対応符号を付している。

【0055】

以下では、第２の目的エリア音抽出部１０２Ｂについて、第１の目的エリア音抽出部１０２Ａとの差異を説明する。

【0056】

図２に示すように、第２の目的エリア音抽出部１０２Ｂは、推定処理部３００、位相処理部２２０、及び差分抽出器２３０を有している。

【0057】

推定処理部２００は、マイクロホンアレイの観測信号｜Ｘ_ｒ｜と｜ｄ｜に基づいてマスク信号を推定する処理を行っていたが、推定処理部３００は、目的エリア音ｙを推定した結果得られるパワースペクトラム（目的エリア音の成分を強調した信号のスペクトラム；周波数領域の信号）を出力する点で、推定処理部２００と異なっている。

【0058】

位相処理部２２０は、推定処理部３００から供給されるパワースペクトラムにＸ_ｒの位相（位相情報）を付与（同期）させる処理を行って、信号ｙ＾として出力する。

【0059】

以上のように、第２の目的エリア音抽出部１０２Ｂでは、推定処理部３００に観測信号｜Ｘ_ｒ｜と差分フィルタの出力として得られる非目的エリア音（妨害音）が支配的な｜ｄ｜を入力としたニューラルネットワーク（推定処理部３００）により、マイクロホンアレイＭＡ正面の扇形領域（図７参照）に相当する目的エリア内の音源（目的エリア音）のパワースペクトラムを推定する。

【0060】

そして、第２の目的エリア音抽出部１０２Ｂでは、第１の目的エリア音抽出部１０２Ａと同様に、学習処理モードと信号処理モードに対応するようにしてもよい。

【0061】

次に、推定処理部３００の内部構成の例について図２を用いて説明する。

【0062】

ここでは、推定処理部３００の内部構成として、図２の例を説明するが、推定処理部３００としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習（ディープラーニング）の構成を適用することができる。

【0063】

ここでは、推定処理部３００のニューラルネットワークは、図２に示す通り、推定処理部３００のニューラルネットワークの最後段（出力層）のＦＣ層２５１がＦＣ層３５１に置き換わっている点で推定処理部２００と異なっている。推定処理部３００のＦＣ層３５１では、活性化関数がｓｉｇｍｏｉｄではなくＲｅＬｕとなっている点で推定処理部２００と異なっている。これにより、推定処理部３００のＦＣ層３５１では、パワースペクトラムを出力することができる。

【0064】

推定処理部３００では、図２に示すようなニューラルネットワークにより、妨害音が優勢の｜ｄ｜と観測音である｜Ｘ_ｒ｜からマイクロホンアレイＭＡの正面方向を音源とする目的エリア音を出力する機構を構成することで、（４）式に相当するサブトラクション処理をデータから学習することができる。

【0065】

（Ａ－２）実施形態の動作
次に、以上のような構成を有するこの実施形態における収音装置１００の動作（実施形態に係る収音方法）を説明する。

【0066】

まず、収音装置１００の目的エリア音抽出部１０２が学習処理モードで動作する場合の処理について説明する。

【0067】

学習処理モードで動作する目的エリア音抽出部１０２に教師データセットが供給されると、目的エリア音抽出部１０２は、教師データセットの観測信号（Ｘ_ｌ、Ｘ_ｒ）から、｜Ｘ_ｒ｜と｜ｄ｜を取得してニューラルネットワークに入力して、深層エリア収音の学習処理（ニューラルネットワークにより目的エリア音を抽出する処理の学習）を行う。

【0068】

収音装置１００に、第１の目的エリア音抽出部１０２Ａが適用される場合、第１の目的エリア音抽出部１０２Ａでは、｜Ｘ_ｒ｜と｜ｄ｜が推定処理部２００に入力される。また、このとき、第１の目的エリア音抽出部１０２Ａでは、差分抽出器２３０により位相処理部２２０から出力される信号ｙ＾と教師ラベルｙとのｌｏｓｓが抽出されて推定処理部２００にフィードバックされる。第１の目的エリア音抽出部１０２Ａでは、上記のようなフィードバックにより、深層エリア収音の学習処理（ニューラルネットワークにより目的エリア音を抽出する処理の学習）が行われる。

【0069】

一方、収音装置１００に、第２の目的エリア音抽出部１０２Ｂが適用される場合、第２の目的エリア音抽出部１０２Ｂでは、｜Ｘ_ｒ｜と｜ｄ｜が推定処理部３００に入力される。また、このとき、第２の目的エリア音抽出部１０２Ｂでは、差分抽出器２３０により推定処理部３００から出力されるパワースペクトラムのｌｏｓｓが抽出されて推定処理部３００にフィードバックされる。第２の目的エリア音抽出部１０２Ｂでは、上記のようなフィードバックにより、深層エリア収音の学習処理（ニューラルネットワークにより目的エリア音を抽出する処理の学習）が行われる。

【0070】

次に、収音装置１００の目的エリア音抽出部１０２が信号処理モードで動作する場合の動作について説明する。

【0071】

ここで、マイクロホンアレイＭＡ（マイクロホンＭｒ、Ｍｌ）から信号入力部１０１を介して、信号処理モードで動作する目的エリア音抽出部１０２に観測信号（Ｘ_ｌ、Ｘ_ｒ）が供給されたものとする。そうすると、目的エリア音抽出部１０２は、ニューラルネットワーク（推定処理部２００又は推定処理部３００）に｜Ｘ_ｒ｜と｜ｄ｜を供給し、結果としてｙ＾を取得して信号出力部１０３に供給することになる。信号出力部１０３は、ｙ＾を周波数領域から時間領域に変換して出力する。

【0072】

次に、発明者が、実際に収音装置１００を構築して、目的エリア音を収音する処理を行い、その品質を評価するための実験（以下、「本実験」と呼ぶ）を行った際の実験結果及びその評価結果について説明する。

【0073】

図５は、本実験の環境について示した図である。

【0074】

図５では、マイクロホンＭｒ、Ｍｌ、目的音源、妨害音源が全て同じ平面上に存在する場合の例について示している。また、図５では、マイクロホンＭｒ、Ｍｌの位置（中心位置）を結んだ線Ｌの中点の位置（マイクロホンアレイＭＡの中心点）をＰ１と図示している。さらに、図５では、Ｐ１からみてマイクロホンＭｒの方向を０°、Ｐ１からみてマイクロホンＭｌの方向を１８０°として、目的音源及び妨害音源はＰ１からみて０°～１８０°のいずれかの角度から到来するものとする。以下では、Ｐ１から見た目的音源及び妨害音源の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、図５に示すように、目的音源及び妨害音源（非目的エリアの音源）の位置はＰ１から１ｍの距離の半円の線上であるものとする。

【0075】

本実験では、学習処理モード（訓練時）、信号処理モード（信号処理時）のいずれの動作モードにおいても、目的音源のドライソース（信号）としてＴＩＭＩTコーパス（以下の参考文献１参照）を用い、妨害音のドライソース（信号）として、ＴＭＩＴコーパス又はＤＥＭＡＮＤ（ＤｉｖｅｒｓｅＥｎｖｉｒｏｎｍｅｎｔｓＭｕｌｔｉ－ｃｈａｎｎｅｌＡｃｏｕｓｔｉｃＮｏｉｓｅＤａｔａｂａｓｅ）コーパス（以下の参考文献２参照）を用いた。

【0076】

参考文献１：J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
参考文献２：J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America,vol. 133, p. 3591,05, 2013.

【0077】

本実験では、図５のような音場（モデル環境）においてマイクロホンＭｌ、Ｍｒで捕捉される観測信号（音響信号）をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を収音装置１００に入力した結果を評価した。

【0078】

具体的には、本実験では、ＰｙＲｏｏｍＡｃｏｕｓｔｉｃｓ（以下の参考文献３参照）を用いて、図５のような音場（モデル環境）を設定したシミュレーションを行ってインパルス応答を取得し、取得したインパルス応答を上記のドライソース（目的音源及び妨害音源のドライソース）に畳み込むことで、マイクロホンＭｌ、Ｍｒの観測信号Ｘ_ｌ、Ｘ_ｒを得た。

【0079】

参考文献３：Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018

【0080】

また、本実験のシミュレーションでは、観測信号Ｘ_ｌ、Ｘ_ｒにおけるＳＮＲがおよそ０．０［ｄＢ］となるよう調整している。なお、以下では、本実験用の音場の３Ｄ空間を（ｘ，ｙ，ｚ）の三次元の座標系で表すものとする。

【0081】

そして、本実験のシミュレーションでは、モデル環境の音場を構成する部屋の大きさは（ｘ，ｙ，ｚ）［ｍ］＝（５，３，３）とし、２ｃｈのマイクロホンＭｌ，Ｍｒの座標を、それぞれ（ｘ，ｙ，ｚ）［ｍ］＝（２．４９，１．５，１）、（ｘ，ｙ，ｚ）［ｍ］＝（２．５１，１．５，１）とした。これにより、マイクロホンＭｌ，Ｍｒの間の間隔は２［ｃｍ］となる。また、本実験のシミュレーションでは、部屋の吸音率を０．２、部屋の反射回数を３と設定した。

【0082】

本実験では、収音装置１００の目的エリア音抽出部１０２に、マスク推定により目的エリア音を推定する第１の目的エリア音抽出部１０２Ａを適用した場合（以下、「第１の本発明の実験モデル」とよぶ）、パワースペクトラム推定により目的エリア音を推定する第２の目的エリア音抽出部１０２Ｂを適用した場合（以下、「第２の本発明の実験モデル」と呼ぶ）、及び従来のＭＵＢＡＳＥによる目的エリア音推定を適用した場合（以下、「従来構成の実験モデル」と呼ぶ）を適用した場合のそれぞれについてシミュレーションを行った。

【0083】

次に、本実験のシミュレーションにおける各音源の位置について説明する。

【0084】

本実験では、学習時は目的音源の位置を９０°に固定し、テスト時には目的音源をエリア内（Ｐ１から距離１ｍで８０°～９０°の範囲内）で動かすことで、収音装置１００が上記の２つの要件を満たしているかを検証した。また、妨害音源については、学習時・テスト時共に、０°、１５°、３０°、４５°、１３５°、１５０°、１６５°、１８０°の計８か所のうちランダムに１～３か所に設置した。本実験では、このような目的音源及び妨害音原の位置変更を、コーパス上データ処理単位（例えば、単語単位）で行った。

【0085】

次に、本実験のシミュレーションにおける詳細なパラメータ設定について説明する。

【0086】

「従来のＭＵＢＡＳＥのモデル」を適用したシミュレーションでは、目的エリア音抽出部１０２において、差分フィルタにより非目的エリア音（妨害音）を推定する際に、低周波ほどパワーが弱いという傾向に基づき、αの値を２００／（ｆ＋０．０１）と設定した。

【0087】

また、「第１の本発明の実験モデル」及び「第２の本発明の実験モデル」の学習では、バッチサイズを３２、エポック数を２００と設定し、損失関数として平均二乗誤差を用いた。また、「第１の本発明の実験モデル」及び「第２の本発明の実験モデル」の学習では、最適化アルゴリズムにＡｄａｍ（以下の参考文献４を参照）を用い、学習率は０．００１とした。

【0088】

参考文献４：D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015.

【0089】

本実験では、第１の本発明の実験モデル（マスク推定）、第２の本発明の実験モデル（パワースペクトラム推定）、及び従来構成の実験モデル（ＭＵＢＡＳＥ）の環境を構築し、それぞれについて、上記の学習処理及び信号処理（テスト処理）を行った。本実験の信号処理（テスト処理）では、３つの実験モデルのそれぞれについてＳＮＲ（Ｓｉｇｎａｌ－ｔｏ－ＮｏｉｓｅＲａｔｉｏ）とＳＴＯＩ（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ）の２つの指標を測定した。また、本実験のテスト処理では、それぞれの実験モデルについて、目的音源の位置を９０°で固定したパターン（以下、「目的音源固定パターン」と呼ぶ）と、目的音源を８０°～９０°の間でランダムに移動させたパターン（以下、「目的音源移動パターン」と呼ぶ）でのテスト処理を行った。図６は、本実験の結果について示した図である。

【0090】

（Ａ－３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

【0091】

従来のＭＵＢＡＳＥを用いた構成では、所定の係数を伴うスペクトル減算によってエリア収音処理を行っていたが、この実施形態の収音装置１００では、教師データにより学習したニューラルネットワークを用いた深層エリア収音（ＤＭＵＢＡＳＥ）を行っている。特に、この実施形態の収音装置１００では、２チャンネルのマイクロホンアレイＭＡにおいて、差分フィルタの出力ｄをとることで正面方向以外から到来する妨害音（非目的エリア音）を得られることを利用し、ニューラルネットワークに差分フィルタの出力ｄ（妨害音が優勢となる情報）を観測信号と共にニューラルネットワークに入力することで、正面方向の目的エリア音が強調された出力を得ることができる。

【0092】

上記の通り、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音（ＤＭＵＢＡＳＥ）では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。そして、この実施形態の収音装置１００では、単純なデータドリブン（例えば、観測信号のみ）でなく、差分フィルタの出力ｄ等の物理的な情報を補助情報に用いることで、環境変化への頑強性を向上させている。そして、図６に示すように、この実施形態の構成を再現した実験モデル（第１及び第２の本発明の実験モデル）はいずれも、目的音源固定パターン及び目的音源移動パターンの両方で、従来構成の実験モデル（ＭＵＢＡＳＥ）の精度を上回った。つまり、本発明の実験モデルは、従来よりも目的エリア音の音源の移動に対しても頑健であることが確認できた。

【0093】

（Ｂ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

【0094】

（Ｂ－１）上記の実施形態において、収音装置１００は、学習処理モードと信号処理モード（テストモード）の両方に対応するものとして説明したが、予め学習モデルが保持されていれば信号処理モードだけに対応し、学習処理モードに必要な手段（学習手段）については除外した構成としてもよい。

【符号の説明】

【0095】

１００…収音装置、１０１…信号入力部、１０２…目的エリア音抽出部、１０３…信号出力部、１０２Ａ…第１の目的エリア音抽出部、２００…推定処理部、２１２、２２１、２２２、２３１、２４１、２５１、２１１、…ＦＣ層、２１０…マスク処理部、２２０…位相処理部、２３０…差分抽出器、１０２Ｂ…第２の目的エリア音抽出部、…推定処理部３００、２１２、２２１、２２２、２３１、２４１、３５１、２１１…ＦＣ層、２３０…差分抽出器。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版