IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧 ▶ 学校法人早稲田大学の特許一覧

特許7589943収音装置、収音プログラム、及び収音方法
<>
  • 特許-収音装置、収音プログラム、及び収音方法 図1
  • 特許-収音装置、収音プログラム、及び収音方法 図2
  • 特許-収音装置、収音プログラム、及び収音方法 図3
  • 特許-収音装置、収音プログラム、及び収音方法 図4
  • 特許-収音装置、収音プログラム、及び収音方法 図5
  • 特許-収音装置、収音プログラム、及び収音方法 図6
  • 特許-収音装置、収音プログラム、及び収音方法 図7
  • 特許-収音装置、収音プログラム、及び収音方法 図8
  • 特許-収音装置、収音プログラム、及び収音方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】収音装置、収音プログラム、及び収音方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20241119BHJP
   G10L 21/0208 20130101ALI20241119BHJP
   G10L 25/30 20130101ALI20241119BHJP
   H04R 1/40 20060101ALI20241119BHJP
【FI】
H04R3/00 320
G10L21/0208 100A
G10L25/30
H04R1/40 320A
【請求項の数】 4
(21)【出願番号】P 2021102528
(22)【出願日】2021-06-21
(65)【公開番号】P2023001669
(43)【公開日】2023-01-06
【審査請求日】2024-01-12
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(73)【特許権者】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】藤枝 大
(72)【発明者】
【氏名】原 宗大
(72)【発明者】
【氏名】片桐 一浩
(72)【発明者】
【氏名】西城 耕平
(72)【発明者】
【氏名】小林 哲則
(72)【発明者】
【氏名】小川 哲司
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特開2016-127457(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-19/26
G10L 21/00-21/18
G10L 25/00-25/93
G10L 99/00
H04R 1/20- 1/40
H04R 3/00ー 3/14
(57)【特許請求の範囲】
【請求項1】
複数のマイクロホンからの入力信号から、目的エリアを音源とする目的エリア音以外の非目的エリア音が優勢な非目的エリア音優勢信号を取得する非目的エリア音優勢信号取得手段と、
何れかの前記マイクロホンの前記入力信号と、前記非目的エリア音優勢信号とに基づいて、前記入力信号から前記目的エリア音を強調した目的エリア音強調信号を取得するマスクを推定するマスク推定手段と、
前記マスクを用いて前記入力信号から前記目的エリア音強調信号を抽出する抽出処理を行う抽出手段とを有し、
前記抽出手段は、拘束条件を前記目的エリア音の歪みを許容する歪み許容量としたMVDRビームフォーマを用いて前記抽出処理を行う
ことを特徴とする収音装置。
【請求項2】
前記マスク推定手段は、ニューラルネットワークを用いて構成されていることを特徴とする請求項1に記載の収音装置。
【請求項3】
コンピュータを、
複数のマイクロホンからの入力信号から、目的エリアを音源とする目的エリア音以外の非目的エリア音が優勢な非目的エリア音優勢信号を取得する非目的エリア音優勢信号取得手段と、
何れかの前記マイクロホンの前記入力信号と、前記非目的エリア音優勢信号とに基づいて、前記入力信号から前記目的エリア音を強調した目的エリア音強調信号を取得するマスクを推定するマスク推定手段と、
前記マスクを用いて前記入力信号から前記目的エリア音強調信号を抽出する抽出処理を行う抽出手段として機能させ、
前記抽出手段は、拘束条件を前記目的エリア音の歪みを許容する歪み許容量としたMVDRビームフォーマを用いて前記抽出処理を行う
ことを特徴とする収音プログラム。
【請求項4】
収音装置が行う収音方法において、
非目的エリア音優勢信号取得手段、マスク推定手段、抽出手段とを有し、
前記非目的エリア音優勢信号取得手段は、複数のマイクロホンからの入力信号から、目的エリアを音源とする目的エリア音以外の非目的エリア音が優勢な非目的エリア音優勢信号を取得し、
前記マスク推定手段は、何れかの前記マイクロホンの前記入力信号と、前記非目的エリア音優勢信号とに基づいて、前記入力信号から前記目的エリア音を強調した目的エリア音強調信号を取得するマスクを推定し、
前記抽出手段は、前記マスクを用いて前記入力信号から前記目的エリア音強調信号を抽出する抽出処理を行い、
前記抽出手段は、拘束条件を前記目的エリア音の歪みを許容する歪み許容量としたMVDRビームフォーマを用いて前記抽出処理を行う
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収音装置、収音プログラム、及び収音方法に関し、例えば、目的エリアに存在する音源(以下、「目的音源」とも呼ぶ)から到来する音(以下、「目的エリア音」又は「目的音」と呼ぶ)を収音するエリア収音処理に関する。
【背景技術】
【0002】
従来、多チャンネルマイクロホンを用いたビームフォーミング技術として、非特許文献1に記載されたSSBF(Spectrum-Subtraction based Beamformer)が挙げられる。SSBFは、2チャンネルのマイクロホンの観測信号の差分により周囲からの妨害音を抽出できることを利用し、正面方向の目的音源を強調する手法である。
【0003】
図9は、2つのマイクロホンMl、Mrを備えるマイクロホンアレイMAの観測信号を用いて、SSBFにより正面方向の音の成分を強調して取得する例について示した図である。
【0004】
ここで、マイクロホンMl、Mrの観測信号をそれぞれ以下、(1)式、(2)式としたとき(fは周波数ビンのインデックス)、観測信号の差分は以下の(3)式のように示すことができる。なお、本明細書の文章部分(図面や数式以外の文章部分)では、文字表記の都合上、マイクロホンMl、Mrの観測信号(周波数領域の音響信号;(1)式、(2)式により示される信号)を、それぞれx(l) 、x(r) と表すものとする。
【0005】
そして、その観測信号の差分は、正面方向にnullを向けるフィルタ(以下、「差分フィルタ」と呼ぶ)となり、正面方向以外からの妨害音が抽出される。ただし、差分フィルタにより得られる推定妨害音は実際の妨害音に比べ低周波ほどパワーが弱くなることが知られている。差分フィルタにより得られる推定妨害音を利用し、正面の目的音源yからの音は、以下の式(4)で表されるスペクトルサブトラクションを用いて抽出できる。
【0006】
【数1】
ただし、(4)式において、サブトラクション係数αはハイパーパラメータである。(4)式において、係数αの値により強調するビームの幅が変化し、αの値が大きいほど狭いビームとなる。したがって、目的音源の位置等に応じて係数αの値を調整する。
【0007】
非特許文献2には、深層ニューラルネットワーク(DNN:Deep Neural Network)を用いて目的音源の位置を推定して、MVDR(Minimum Variance Distortionless Response)ビームフォーマにより目的音源を抽出する技術(以下、「定位MVDRビームフォーマ」と呼ぶ)が記載されている。MVDRビームフォーマは、目的音源の方向(目的方向)に無ひずみの拘束をかけ、その拘束条件の下で処理後の雑音の平均パワーを最小化する。目的方向への拘束をかけるため、通常は目的音源のステアリングベクトルが必要となる。一方、定位MVDRは、MVDRビームフォーマによる空間モデルを考慮しながら目的音源と雑音を分離するマスクをDNNで推定することで、目的音源のステアリングベクトルが不要となる。空間モデルを考慮して目的音源を分離していることから、このDNNは目的音源の位置を推定していることになる。
【0008】
非特許文献3、4には、複数方向に無ひずみの拘束をかけたMVDRビームフォーマ(以下、「複数拘束MVDRビームフォーマ」、「多点拘束MVDRビームフォーマ」、又は「MC-MVDRビームフォーマ」と呼ぶ)が記載されている。複数の方向に無ひずみの条件をかけることで、ビームに幅を持たせ、音源の多少の動きに頑健な強調を可能とした手法である。
【先行技術文献】
【非特許文献】
【0009】
【文献】Kazuhiro Katagiri, Tokuo Yamaguchi, Takashi Yazu,and Yoong Keok Lee, “Multiple beam-forming area sound enhancement (MUBASE) and stereophonic area sound reproduction (SASR) system”, SIGGRAPH Asia 2015 Emerging Technologies, 2015.
【文献】Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori and John R. Hershey, ”Multichannel End-to-end Speech Recognition”, arXiv:1703.04783, 2017.
【文献】浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,pp86-90,日本音響学会編,コロナ社,2011年2月25日発行
【文献】R. G. Lorenz and S. P. Boyd, “Robust minimum variance beamforming,” IEEE Trans. on Signal Process., vol. 53, pp.1684-1696, May. 2005.
【発明の概要】
【発明が解決しようとする課題】
【0010】
非特許文献1に記載のSSBFを用いたビームフォーマでは、目的エリア内の音源の位置等により最適な係数αの値は異なる。
【0011】
例えば、従来のSSBFを用いたエリア収音処理において手動で係数αを調整しようとした場合を想定すると、係数αが大きすぎればオーバーサブトラクションになり、収音処理により得られる信号(目的エリア音を強調した信号)が歪んでしまい、係数αが小さすぎれば妨害音(非目的エリア音)の抑圧が不十分となってしまうため、係数αの最適な調整は困難である。
【0012】
また、非特許文献2に記載の定位MVDRは、目的音源の位置を陰に推定しているため、位置の推定に失敗すると目的音源を抽出できない。
【0013】
さらに、非特許文献3、4に記載の複数拘束MVDRビームフォーマは、複数の無ひずみの拘束条件により自由度が大きく低下することで、雑音抑圧性能も低下することが知られている。このため、目的音源の動きの頑健性と雑音抑圧性能(目的音強調性能)との間には上記のトレードオフが残る。
【0014】
以上のような問題を鑑みて、目的音源に関する環境変化(例えば、音源の移動)に対してより頑健な収音装置が望まれている。
【課題を解決するための手段】
【0015】
第1の本発明の収音装置は、(1)複数のマイクロホンからの入力信号から、目的エリアを音源とする目的エリア音以外の非目的エリア音が優勢な非目的エリア音優勢信号を取得する非目的エリア音優勢信号取得手段と、(2)何れかの前記マイクロホンの前記入力信号と、前記非目的エリア音優勢信号とに基づいて、前記入力信号から前記目的エリア音を強調した目的エリア音強調信号を取得するマスクを推定するマスク推定手段と、(3)前記マスクを用いて前記入力信号から前記目的エリア音強調信号を抽出する抽出処理を行う抽出手段とを有し、(4)前記抽出手段は、拘束条件を前記目的エリア音の歪みを許容する歪み許容量としたMVDRビームフォーマを用いて前記抽出処理を行うことを特徴とする。
【0016】
第2の本発明の収音プログラムは、コンピュータを、(1)複数のマイクロホンからの入力信号から、目的エリアを音源とする目的エリア音以外の非目的エリア音が優勢な非目的エリア音優勢信号を取得する非目的エリア音優勢信号取得手段と、(2)何れかの前記マイクロホンの前記入力信号と、前記非目的エリア音優勢信号とに基づいて、前記入力信号から前記目的エリア音を強調した目的エリア音強調信号を取得するマスクを推定するマスク推定手段と、(3)前記マスクを用いて前記入力信号から前記目的エリア音強調信号を抽出する抽出処理を行う抽出手段として機能させ、(4)前記抽出手段は、拘束条件を前記目的エリア音の歪みを許容する歪み許容量としたMVDRビームフォーマを用いて前記抽出処理を行うことを特徴とする。
【0017】
第3の本発明は、収音装置が行う収音方法において、(1)非目的エリア音優勢信号取得手段、マスク推定手段、抽出手段とを有し、(2)前記非目的エリア音優勢信号取得手段は、複数のマイクロホンからの入力信号から、目的エリアを音源とする目的エリア音以外の非目的エリア音が優勢な非目的エリア音優勢信号を取得し、(3)前記マスク推定手段は、何れかの前記マイクロホンの前記入力信号と、前記非目的エリア音優勢信号とに基づいて、前記入力信号から前記目的エリア音を強調した目的エリア音強調信号を取得するマスクを推定し、(4)前記抽出手段は、前記マスクを用いて前記入力信号から前記目的エリア音強調信号を抽出する抽出処理を行い、(5)前記抽出手段は、拘束条件を前記目的エリア音の歪みを許容する歪み許容量としたMVDRビームフォーマを用いて前記抽出処理を行うことを特徴とする。
【発明の効果】
【0018】
本発明によれば、目的音源に関する環境変化に対してより頑健な収音装置、収音プログラム、及び収音方法を提供することができる。
【図面の簡単な説明】
【0019】
図1】実施形態に係る目的エリア音抽出部の機能的構成について示したブロック図である。
図2】実施形態に係る収音装置の機能的構成について示したブロック図である。
図3】実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。
図4】実施形態に係る収音装置が行うエリア収音処理に係る空間モデルの例について示した図である。
図5】実施形態に係る目的エリア音抽出部を構成するDNNの第1のアーキテクチャについて示したブロック図である。
図6】実施形態に係る目的エリア音抽出部を構成するDNNの第2のアーキテクチャについて示したブロック図である。
図7】実施形態に係る収音装置の実験モデルについて示した図である。
図8】実施形態に係る収音装置の実験結果について示した図である。
図9】従来の2チャンネルマイクロホンアレイを用いた収音処理について示した図である。
【発明を実施するための形態】
【0020】
(A)主たる実施形態
以下、本発明による収音装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。
【0021】
(A-1)第1の実施形態の構成
図2は、この実施形態の収音装置100の機能的構成について示したブロック図である。
【0022】
収音装置100は、2つのマイクロホンMr、Mlを備えるマイクロホンアレイMAを用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
【0023】
マイクロホンアレイMAは、目的エリアが存在する空間の任意の場所に配置される。なお、この実施形態では、説明を簡易とするため、マイクロホンアレイMAで収音の対象となる目的エリア(目的エリアに配置された目的音源)は1つだけであるものとする。
【0024】
次に、収音装置100の内部構成について図2を用いて説明する。
【0025】
収音装置100は、信号入力部101、目的エリア音抽出部102、及び信号出力部103を備える。なお、収音装置100を構成する各機能ブロックの詳細処理については後述する。
【0026】
信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、ディジタル信号に変換して、目的エリア音抽出部102で処理可能な形式の信号(この実施形態では、周波数領域の信号)に変換する機能を担っている。信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、アナログ信号からディジタル信号に変換し、さらに時間領域から周波数領域に変換(例えば、高速フーリエ変換等により変換)して、目的エリア音抽出部102に供給する。
【0027】
目的エリア音抽出部102は、信号入力部101から供給された観測信号(x(r) 、x(l) )から、非目的エリア音(妨害音)を分離して目的エリア音(目的音)を強調した強調信号を取得する機能を担っている。なお、本明細書では、文字表記の都合上、BF203から出力される強調信号を「^y」と表すものとする。
【0028】
信号出力部103は、目的エリア音抽出部102から出力された強調信号^yを、周波数領域から時間領域へ変換して、所定の形式で出力する。なお、信号出力部103による信号出力の形式については限定されないものである。
【0029】
次に、収音装置100のハードウェア構成の例について説明する。
【0030】
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0031】
図3は、収音装置100のハードウェア構成の例について示したブロック図である。
【0032】
図3では、収音装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
【0033】
図3に示す収音装置100は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ400を有している。また、コンピュータ400は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
【0034】
図3に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。
【0035】
なお、コンピュータ400の具体的な構成は図3の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部403については除外した構成としてもよい。
【0036】
なお、実施形態に係る収音装置、収音プログラム及び収音方法は、少なくとも目的エリア音抽出部102に相当する構成を含む。したがって、目的エリア音抽出部102に相当する処理のみを行う装置やプログラムを本発明の収音装置や収音プログラムとして構成するようにしてもよい。
【0037】
次に、この実施形態におけるマイクロホンアレイMA(マイクロホンMr、Ml)と、目的エリア(目的音源)との位置関係のモデル(空間モデル)について図4を用いて説明する。
【0038】
図4では、マイクロホンMr、Ml、目的音源(目的エリア音の音源)、妨害音源(非目的エリア音の音源)が全て同じ平面上に存在する場合の空間モデルを上方向から見た図となっている。また、図4では、マイクロホンMr、Mlの位置(中心位置)を結んだ線Lの中点の位置(マイクロホンアレイMAの中心点)をP1と図示している。さらに、図4では、P1からみてマイクロホンMrの方向を0°、P1からみてマイクロホンMlの方向を180°としている。
【0039】
この実施形態の収音装置100では、目的音源及び妨害音源はP1からみて0°~180°のいずれかの方向(角度)に存在するものと仮定して収音処理を行うものとする。以下では、P1から見た目的音源及び妨害音源(非目的エリア音の音源)の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、以下では、P1から見て90°の方向を正面方向と呼ぶものとする。
【0040】
次に、目的エリア音抽出部102による目的エリア音抽出処理の概要について説明する。
【0041】
ここで、まず、従来の複数拘束MVDRビームフォーマについて説明する。上記の通り、複数拘束MVDRビームフォーマとしては、例えば、非特許文献3、4の記載技術が存在する。従来の複数拘束MVDRビームフォーマは、複数の拘束条件(複数方向から到来する信号に対する出力を無歪にする拘束条件)によりビームに幅を持たせることで、目的音源の多少の動きに頑健な強調を可能とした手法であるが、無歪の制約を複数方向に対して課す強い拘束条件により自由度が大きく低下し、目的音強調性能(雑音抑圧性能)が低いことが課題である。
【0042】
一方、従来のMVDRビームフォーマ(例えば、複数拘束MVDRビームフォーマや定位MVDRビームフォーマ等)では、拘束条件の強さと目的音強調性能(雑音抑圧性能)はトレードオフの関係にあり、目的音源の歪みを許容することにより目的音強調性能(雑音抑圧性能)が大幅に向上することが知られている。
【0043】
そこで、この実施形態の目的エリア音抽出部102では、従来のMVDRビームフォーマ(例えば、複数拘束MVDRビームフォーマ)における拘束条件を、目的エリア音(目的音)の歪みを許容するパラメータに置き換えた方式(以下、「RMC-MV(Relaxed Multiple-Constraint MV)ビームフォーマ」又は「歪み許容複数拘束最小分散ビームフォーマ」とも呼ぶ)を採用することにより、目的音強調性能(雑音抑圧性能)の向上を図るものとする。
【0044】
例えば、従来の複数拘束MVDRビームフォーマにおける拘束条件を、目的エリア音(目的音)の歪みを許容する「歪み許容量」(以下、「E」と表す)に置き換えることにより、RMC-MVビームフォーマは実現することができる。
【0045】
例えば、RMC-MVビームフォーマに適用するフィルタ係数(以下、「wRMCMV」と表す)として最適なものは、以下の(5)式、(6)式の最適化問題(拘束付き最適化問題)を解くことで得られる。(5)式、(6)式では、従来の複数拘束MVDRビームフォーマにおける最適化問題の拘束条件の部分が歪み許容量Eに置き換えられている。そして、(5)式、(6)式の最適化問題を解くことにより、(7)式のような解(最適解)を得ることができる。
【0046】
【数2】

(7)式において、λ=λ(E)は、目的音の歪み許容量E(つまり上記のトレードオフ)を調整するハイパーパラメータである。(7)式において、λの値が小さいほど目的音強調性能(雑音抑圧性能)は向上するが、目的音の歪みが大きくなる。また、(7)式において、λの値が大きいほど目的音強調性能(雑音抑圧性能)は低下するが、目的音の歪みが小さくなる。
【0047】
以上のように、目的エリア音抽出部102では、上記のようなRMC-MVビームフォーマにより、観測信号から強調信号^yが抽出されるものとする。また、この実施形態の目的エリア音抽出部102では、DNNを用いて、上記のようなRMC-MVビームフォーマが最適化される構成となっているものとする。
【0048】
図1は、目的エリア音抽出部102の内部構成の例について示したブロック図である。
【0049】
DNNを用いて、上記のようなRMC-MVビームフォーマを実現する場合、目的エリア音抽出部102の内部構成は、例えば、図1のような構成となる。
【0050】
図1に示すように、目的エリア音抽出部102は、差分フィルタ201、DNN202(Deep Neural Network)、BF203(Beam Former)、及び差分抽出器204を有している。
【0051】
差分フィルタ201はx(r) 、x(l) の差分dを算出するものである。差分dは、上述の(3)式により算出することができる。目的音源(目的エリア)がマイクロホンアレイMA(位置P1)から見て概ね正面方向に位置することを仮定すると、差分フィルタ201の出力であるdは、非目的エリア音(非目的エリアからの妨害音)が支配的な信号となる。
【0052】
DNN202は、DNNを用いて、非目的エリア音(非目的エリアからの妨害音)が支配的な信号dと観測信号x(l) (x(r) としてもよい)を入力とし、図4に示すような空間モデルを考慮しながら、目的エリア音と非目的エリア音(妨害音;雑音)を分離する時間周波数マスク(以下、「mask」と表す)を推定する処理を行う。具体的には、DNN202は、信号dと観測信号x(l) を入力として、RMC-MVビームフォーマの処理で用いる時間周波数マスク(以下、「mask」と表す)を推定する処理(以下、「マスク推定処理」と呼ぶ)を行うものとする。
【0053】
BF203は、maskから得られる雑音(非目的エリア音;妨害音)の空間相関行列(SCM)と、事前に与えられたステアリングベクトルを用いて、(7)式で表されるRMC-MVビームフォーマのフィルタ係数wRMCMVを得る。BF203は、取得したフィルタ係数wRMCMVに基づいて、観測信号(x(r) 又はx(l) )から目的エリア音を強調した強調信号^yを抽出することができる。
【0054】
差分抽出器204は、BF203から出力される強調信号^y(目的エリア音を推定した結果)と、機械学習における教師ラベル(正解ラベル)となるクリーンな目的エリア音(以下、「y」と表す)との差分を取得し、この差分(又は差分に基づくパラメータ)をDNN202にloss(機械学習におけるloss)としてフィードバックする。すなわち、差分抽出器204は、DNN202に学習処理させる際にのみ機能する要素である。したがって、すでにDNN202で新たな学習処理が行われない場合には、収音装置100から差分抽出器204を除外するようにしてもよい。
【0055】
差分抽出器204の具体的な処理については、例えば、以下の参考文献1に基づく処理を適用することができるので、詳しい説明は省略する。
【0056】
参考文献1:J. Heymann, K. Drude, and R. Haeb-Umbach, “Neural network-based spectral mask estimation for acoustic beamforming,” in Proc. IEEE ICASSP, 2016, pp. 196-200.
【0057】
この実施形態の収音装置100では、目的エリア音抽出部102に対して学習処理を実行させる動作モード(以下、「学習処理モード」と呼ぶ)と、供給された観測信号x(l) (x(r) に基づいて、目的エリア音を強調した強調信号^yを抽出して出力する処理を行う動作モード(以下、「信号処理モード」と呼ぶ)の両方に対応しているものとする。なお、収音装置100において、学習処理モードに対応しない構成(例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等)としてもよい。
【0058】
収音装置100は、学習処理モードで動作する場合、目的エリア音抽出部102に教師データとしての観測信号(x(l) (x(r) )のサンプルと、教師ラベルとしてのクリーン信号yを含むデータセット(以下、「教師データセット」と呼ぶ)を供給して学習処理を実行させる。このとき、目的エリア音抽出部102では、差分抽出器230により、教師データに基づく処理結果(強調信号^y)と教師ラベル(クリーン信号y)の差分(loss)が取得され、DNN202にフィードバックされる。これにより、DNN202では、教師データセットに基づいて学習(ディープラーニング)した学習モデルを取得することができる。
【0059】
DNN202は、学習モードで動作する場合、差分抽出器204から供給されるlossに基づいて学習(全体最適化)を行うことで、空間モデル(図4に示すモデル)を考慮したマスク推定処理が行われるように各パラメータ(DNNの各層のパラメータ)が更新される。
【0060】
次に、DNN202の内部構成の例について説明する。
【0061】
図5図6は、DNN202の内部構成の例について示した図である。図5は複数の全結合層を用いたDNN202のアーキテクチャ(以下、「第1のアーキテクチャ」とも呼ぶ)の例について示したブロック図である。また、図6は、U-net型のアーキテクチャを適用したDNN202のアーキテクチャ(以下、「第2のアーキテクチャ」と呼ぶ)の例について示したブロック図である。図5図6では、1又は複数の層(DNNを構成する機能層)により構成されたブロック単位でDNNを図示している。図5図6では、各ブロックを構成する層には、それぞれの層の機能を示す記号が付記されている。図5図6では、各層には、全結合(Fully Connected)の層であることを示す「FC」、2次元畳み込み(2D Convolution)の層であることを示す「Conv」、アップサンプリング(2次元逆畳み込み;Up Convolution;Deconvolution)の層であることを示す「UP-Conv」、バッチノーマライゼーション(Batch Normalization)の層であることを示す「BN」、マックスプーリング(Max Pooling)の層であることを示す「Pool」、活性化関数ReLU(Rectified Linear Unit)の層であることを示す「ReLu」、活性化関数シグモイド(Sigmoid)の層であることを示す「Sigmoid」のいずれかの記号が付記されている。以下では、各層について記号で呼ぶものとする。図5図6において、Convの後に続く括弧内の記述は畳み込む際に用いるフィルタ(窓)のサイズ(行列サイズ)を示している。例えば、「Conv(3×3)」は、3行×3列のフィルタ(行列)を用いて畳み込みを行うことを示している。また、図5図6において、Poolの後に続く括弧内の記述は、プーリング処理において用いられるフィルタ(窓)のサイズ(行列サイズ)を示している。さらに、図5図6において、UP-Convの後に続く括弧内の記述はアップサンプリング(逆畳み込み)の処理に用いるフィルタ(窓)のサイズ(行列サイズ)を示している。
【0062】
次に、図5を用いて第1のアーキテクチャによるDNN202の構成について説明する。
【0063】
第1のアーキテクチャのDNN202では、入力側から順に、「ブロックB111、B112」、「ブロックB121、B122」、「ブロックB131」、「ブロックB141」、「ブロックB151」が配置されている。
【0064】
ブロックB111、B112、B121、B122、B131、B141は、いずれも入力から順にFC、BN、ReLuの層が直列に接続された構成となっている。また、ブロックB151は、入力側から順にFC、BN、Sigmoidの層が直列に接続された層となっている。
【0065】
第1のアーキテクチャDNN202では、入力のブロックB111、B112にそれぞれx(r) 、dが入力されている。また、第1のアーキテクチャのDNN202では、x(r) 、dの各々に対し、ブロックB111、B112、B121、B122により変換を施した後に結合(CONCAT)してブロックB131に入力されている。さらに、図5に示すDNN202では、ブロックB141、B151により変換を行いmaskとして出力する構成となっている。
【0066】
次に、図6を用いて第2のアーキテクチャによるDNN202の構成について説明する。
【0067】
図6に示すように、第2のアーキテクチャDNN202は、L段(Lは1以上の整数)のダウンサンプリングの処理を行うブロック(以下、「ダウンサンプリングブロック」と呼ぶ)DB1(DB1~DBL)と、同じくL段のアップサンプリングの処理を行うブロック(以下、「アップサンプリングブロック」と呼ぶ)UB(UB1~UBL)と、ダウンサンプリングブロックDBLとアップサンプリングブロックUBLとの中間に配置されたブロックB201、B202と、アップサンプリングブロックUBLの後段のブロックB203が配置されている。第2のアーキテクチャDNN202では、入力側から見ると、ダウンサンプリングブロックDB1、DB2、・・・DB(L-1)、DBL、ブロックB201、B202、アップサンプリングブロックUBL、UB(L-1)、・・・、UB2、UB1、ブロックB203の順に直列に接続された構成となっている。
【0068】
アップサンプリング/ダウンサンプリングの段数Lについては任意の数を適用することができるが、この実施形態ではL=4であるものとして以後の説明を行う。
【0069】
それぞれのダウンサンプリングブロックDB(DB1~DBL)には、x(r) が入力された系統の処理を行うサブブロックSB11と、dが入力された系統の処理を行うサブブロックSB12が配置されている。
【0070】
サブブロックSB11、SB12は、いずれも同じ構成となっている。図6に示すように、サブブロックSB11、SB12は、それぞれ、入力側から順にConv(3×3)、Conv(3×3)、BN、ReLu、Pool(2×2)の層が直列に接続された構成となっている。
【0071】
ブロックB201には、x(r) が入力された系統の処理を行うサブブロックSB21と、dが入力された系統の処理を行うサブブロックSB22が配置されている。サブブロックSB21、SB22は、それぞれ、入力側から順にConv(3×3)、Conv(3×3)、BN、ReLuの層が直列に接続された構成となっている。
【0072】
ブロックB201の各サブブロックSB21、SB22からの出力は結合(CONCAT)され、ブロックB202に供給される。
【0073】
ブロックB202は、入力側から順にFC、BN、Sigmoidの層が直列に接続された構成となっている。
【0074】
アップサンプリングブロック(UB1~UBL)には、それぞれ、入力側から順にConv(2×2)、UP-Conv(2×2)、Conv(3×3)、Conv(3×3)、BN、ReLuの層が直列に接続された構成となっている。
【0075】
図6に示すように、i段目(iは1~Lのいずれかの整数)のアップサンプリングブロックUBiでは、UP-Conv(2×2)の出力と、ダウンサンプリングブロックDBiにおけるサブブロックSB11のReLuの出力と、ダウンサンプリングブロックDBiにおけるサブブロックSB12のReLuの出力とが結合(CONCAT)され、1層目のCONV(3×3)に供給される。
【0076】
ブロックB203は、入力側から順に、Conv(1×1)、Sigmoidの層が直列に接続された構成となっている。
【0077】
(A-2)第1の実施形態の動作
次に、以上のような構成を有するこの実施形態における収音装置100の動作(実施形態に係る収音方法)を説明する。
【0078】
まず、収音装置100の目的エリア音抽出部102が学習処理モードで動作する場合の処理について説明する。
【0079】
学習処理モードで動作する目的エリア音抽出部102に教師データセットが供給されると、まず、差分フィルタ201により、教師データセットの教師データ(観測信号x(l) 、x(r) )から、差分dが取得されDNN202に供給される。
【0080】
DNN202では、差分dと観測信号x(l) に基づいて、maskを推定する処理が行われる。
【0081】
BF203では、maskと観測信号x(l) に基づいて強調信号^yが取得され、差分抽出器204に供給される。
【0082】
差分抽出器204では、強調信号^yと教師ラベルとしてのクリーン信号yとの差分がlossとして取得されてDNN202にフィードバックされる。
【0083】
DNN202では、lossに基づいて学習処理(ニューラルネットワークによりlossの少ないmaskを推定するための学習モデルの更新処理)が行われる。
【0084】
次に、収音装置100の目的エリア音抽出部102が信号処理モードで動作する場合の動作について説明する。
【0085】
ここで、マイクロホンアレイMA(マイクロホンMr、Ml)から信号入力部101を介して、信号処理モードで動作する目的エリア音抽出部102に観測信号(x(l) 、x(r) )が供給されたものとする。
【0086】
信号処理モードで動作する目的エリア音抽出部102に教師データセットが供給されると、まず、差分フィルタ201により、観測信号(x(l) 、x(r) )から、差分dが取得されDNN202に供給される。
【0087】
DNN202では、差分dと観測信号x(l) に基づいて、保持している学習モデルに基づいてmaskを推定する処理が行われる。
【0088】
BF203では、maskと観測信号x(l) に基づいて強調信号^yが取得され、信号出力部103に供給される。
【0089】
信号出力部103は、強調信号^yを周波数領域から時間領域に変換して出力する。
【0090】
次に、発明者が、シミュレーション環境において収音装置100を構築して、目的エリア音を収音(強調信号^yを取得する処理)する処理を行い、その品質(音源位置移動に対する頑健の度合)を評価するための実験(以下、「本実験」と呼ぶ)を行った際の実験結果及びその評価結果について説明する。
【0091】
本実験では、この実施形態の収音装置100(目的エリア音抽出部102)を用いた目的エリア音の収音処理(すなわち「RMC-MVビームフォーマ」を用いた収音処理)と、従来のMC-MVDRビームフォーマ(複数拘束MVDRビームフォーマ)を用いた収音処理について性能(目的エリア音強調性能;雑音抑圧性能;音源分離精度)を比較するものとする。
【0092】
図7は、本実験の環境について示した図である。
【0093】
図7は、図4と同様のモデル上に、目的音源と妨害音源を配置した例について示している。
【0094】
図7に示すように、本実験では、目的音源及び妨害音源(非目的エリアの音源)の位置はP1から1mの距離の半円の線上であるものとする。
【0095】
本実験では、学習処理モード(訓練時)、信号処理モード(信号処理時)のいずれの動作モードにおいても、目的音源のドライソース(信号)としてTIMITコーパス(以下の参考文献2参照)を用いた。また、本実験では、学習処理モード(訓練時)、信号処理モード(信号処理時)のいずれの動作モードにおいても、妨害音(非目的エリア音)のドライソース信号として、TMITコーパスを、非定常雑音に相当する信号としてDEMAND(Diverse Environments Multi-channel Acoustic Noise Database)コーパス(以下の参考文献3参照)を用いた。なお、本実験では、妨害音のドライソース信号としてTMITコーパスが用いられる場合、目的音源とは異なる発話が選択されるものとした。また、本実験では、非定常雑音としてDEMANDコーパスが適用される場合、DEMANDコーパスからNRIVER、NPARK、DLIVING、OOFFICE、OMEETINGのいずれかが適用されるものとした。
【0096】
参考文献2:J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
参考文献3:J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America,vol. 133, p. 3591,05, 2013.
【0097】
本実験では、図7のような音場(モデル環境)においてマイクロホンMl、Mrで捕捉される観測信号(音響信号)をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を収音装置100に入力した結果を評価した。
【0098】
具体的には、本実験では、PyRoomAcoustics(以下の参考文献4参照)を用いて、図7のような音場(空間モデル)を設定したシミュレーションを行ってインパルス応答を取得し、取得したインパルス応答を上記のドライソース(目的音源及び妨害音源のドライソース)に畳み込むことで、マイクロホンMl、Mrの観測信号x(l) 、x(r) を得た。
【0099】
参考文献4:Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018
【0100】
また、本実験のシミュレーションでは、観測信号x(l) 、x(r) におけるSNRがおよそ0.0[dB]となるよう調整している。なお、以下では、本実験用の音場の3D空間を(x,y,z)の三次元の座標系で表すものとする。
【0101】
そして、本実験のシミュレーションでは、音場(空間モデル)を構成する部屋の大きさは(x,y,z)[m]=(5,3,3)とし、2chのマイクロホンMl,Mrの座標を、それぞれ(x,y,z)[m]=(2.485,1.5,1)、(x,y,z)[m]=(2.515,1.5,1)とした。これにより、マイクロホンMl,Mrの間隔は3[cm]となる。また、本実験のシミュレーションでは、部屋の吸音率を0.2、部屋の反射回数を3と設定した。
【0102】
次に、本実験のシミュレーションにおける詳細なパラメータ設定について説明する。
【0103】
本実験において、従来の複数拘束MVDRビームフォーマでは、80°、100°の2方向から到来する信号に対する出力が無歪になるような拘束を与えた。また、RMC-MVビームフォーマでは、同じ2方向から到来する信号に対する出力に対して拘束を与えるが、出力を完全に無歪にしようとするのではなく、歪を許容するように拘束を緩和した。なお、本実験において、これらの拘束を与える方向(角度)はoracle maskを用いた事前実験により、より好適な方向(角度)を決定した。
【0104】
また、本実験では、RMC-MVビームフォーマにおいて、複数の値を用いてシミュレーション(学習)を行い、実験的に好適なハイパーパラメータλの値を決定した。具体的には、本実験では、λ=1.0×10(6000000)を適用した。なお、本実験において、λの値は学習処理モード時・信号処理モード時ともに固定した値を適用した。
【0105】
また、本実験では、DNNのモデルの学習において,バッチサイズを16,エポック数を100 と設定し,損失関数として強調信号と正解信号の平均二乗誤差を用いた。本実験では、DNNのモデルにおいて、最適化アルゴリズムにAdam(以下の参考文献5を参照)を用い、学習率を0.001とした。
【0106】
参考文献5:D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015.
【0107】
図8は、本実験の結果について示した図である。
【0108】
図8では、本実験における無処理のマイクロホンの観測信号(以下、「Observation」とも表す)、複数拘束MVDRビームフォーマ出力音声(MC-MVDR)、及び収音装置100の出力音声(RMC-MVビームフォーマ出力音声)について比較した表について示している。
【0109】
図8では、ビームフォーマの音声強調性能を評価するための尺度として、音質の評価尺度であるSDR(Signal-to-Distortion Ratio)およびSTOI(Short-Time Objective Intelligibility)を用いている。
【0110】
図8では、Observation(無処理の観測信号)に対してはSDRおよびSTOIの値そのものを記載している。また、図8では、2種類のビームフォーマ(MC-MVDR、RMC-MV)の音声については、ObservationのSDRに対する改善値SDRi(SDR improvement)と、ObservationのSTOIに対する改善値STOIi(STOI improvement)を記載した。
【0111】
本実験では、2種類のビームフォーマ(MC-MVDR、RMC-MV)の学習処理モード時には目的音源の位置を80°、90°、100°の3方向のいずれかの方向とし、信号処理モード時には目的音源の位置を80°~90°の範囲内で1°刻みのいずれかの方向とした。また、本実験では、妨害音源については、学習処理モード時・信号処理モード時共に、0°、15°、30°、45°、135°、150°、165°、180°の計8か所のうちランダムに1~3か所設置した。本実験では、このような目的音源及び妨害音原(非目的エリア音の音源)の位置変更を、コーパス上データ処理単位(例えば、単語単位)で行った。
【0112】
また、本実験の信号処理モード時には、目的音源を学習処理モードと同じ位置(80°,90°,100°のいずれか)に配置した場合(以下、「第1の条件」、又は「80,90,100matched」と呼ぶ)と、80°~90°の範囲内で1°刻みのいずれかの方向で学習処理モードとは少々ずれた位置に目的音源を配置した場合(以下、「第2の条件」、又は「80to100 mismatched」)とについて、目的エリア音の音声強調性能を評価した。図8では、第1の目的音源位置(80,90,100 matched)と、第2の目的音源位置(80to100 mismatched)のそれぞれについて、評価結果(SDRi/STOIi)を示している。
【0113】
ここで、図8に示す本実験の結果に基づいて、RMC-MVビームフォーマ(この実施形態の収音装置100の性能(目的エリア音の音声強調性能))について考察する。具体的には、MC-MVDRビームフォーマとRMC-MVビームフォーマの結果に基づいて、従来のMC-MVDRビームフォーマで無歪拘束を緩和する(歪を許容することでビームフォーマの自由度を上げる)ことの効果(すなわち、従来のMC-MVDRビームフォーマと比較したこの実施形態の収音装置100の効果)を検討する。
【0114】
図8に示すとおり、本実験では、従来のMC-MVDRビームフォーマよりもRMC-MVビームフォーマの性能が著しく高いことから、MVDRビームフォーマにおいて、無歪拘束を緩和することの目的音強調性能上への有効性が明らかになった。
【0115】
また、本実験の結果から、RMC-MVビームフォーマについては、第1の条件(80,90,100matched)と、第2の条件(80to100 mismatched)で、音声強調性能に変化がほとんどない(SDRiで3%程度、STOIiで5%程度)。したがって、本実験により、RMC-MVビームフォーマは、目的音源の移動に対して頑健であることが明らかとなった。
【0116】
すなわち、RMC-MVビームフォーマでは、従来のMC-MVDRビームフォーマと比較して、目的音強調性能を向上させつつ、目的音源の移動に対する頑健の度合も同様となっていることがわかる。上記の通り、従来のMVDRビームフォーマでは、目的音源の動きの頑健性と目的音強調性能(雑音抑圧性能)との間にはトレードオフが存在するが、RMC-MVビームフォーマでは従来のMC-MVDRビームフォーマと比較してそのようなトレードオフを発生させずに目的音強調性能を向上させていることが分かる。
【0117】
(A-3)実施形態の効果
この実施形態によれば、以下のような効果を奏する。
【0118】
この実施形態に係る収音装置100では、上記の通り、従来のMVDRビームフォーマと比較して、目的音源の動きの頑健性と目的音強調性能(雑音抑圧性能)との間のトレードオフを発生させずに目的音強調性能を向上させることができる。言い換えると、この実施形態に係る収音装置100では、従来のMC-MVDRビームフォーマで無歪拘束を緩和する(歪を許容することでビームフォーマの自由度を上げる)ことで、目的音源の動きの頑健性と目的音強調性能(雑音抑圧性能)との間のトレードオフを発生させずに目的音強調性能を向上させることができる。
【0119】
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0120】
(B-1)上記の実施形態において、収音装置100は、学習処理モードと信号処理モード(テストモード)の両方に対応するものとして説明したが、予め学習モデルが保持されていれば信号処理モードだけに対応し、学習処理モードに必要な手段(学習手段)については除外した構成としてもよい。
【符号の説明】
【0121】
100…収音装置、101…信号入力部、102…目的エリア音抽出部、103…信号出力部、201…差分フィルタ、202…DNN、203…BF、204…差分抽出器、MA…マイクロホンアレイ、Ml、Mr…マイクロホン。
図1
図2
図3
図4
図5
図6
図7
図8
図9