特開2021-135462(P2021-135462A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特開2021-135462ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム
<>
  • 特開2021135462-ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム 図000036
  • 特開2021135462-ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム 図000037
  • 特開2021135462-ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム 図000038
  • 特開2021135462-ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム 図000039
  • 特開2021135462-ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム 図000040
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2021-135462(P2021-135462A)
(43)【公開日】2021年9月13日
(54)【発明の名称】ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20210816BHJP
【FI】
   G10L21/0272 100B
   G10L21/0272 100A
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【全頁数】18
(21)【出願番号】特願2020-33995(P2020-33995)
(22)【出願日】2020年2月28日
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 国際会議CAMSAP2019 ウェブサイト https://camsap19.ig.umons.ac.be/ https://cmsworkshops.com/CAMSAP2019/Papers/ViewPaper.asp?PaperNum=1108 ウェブサイト掲載日 2019年12月14日
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】荒木 章子
(72)【発明者】
【氏名】木下 慶介
(72)【発明者】
【氏名】デルクロア マーク
(72)【発明者】
【氏名】小野 順貴
(57)【要約】
【課題】精度のよいソースイメージを推定することができる。
【解決手段】ソースイメージ推定装置10は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置10は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置10は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。
【選択図】図2
【特許請求の範囲】
【請求項1】
複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、
各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算部と、
前記計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ部と
を有することを特徴とするソースイメージ推定装置。
【請求項2】
前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る音源分離部を有し、
さらに、前記計算部は、前記分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃えることを特徴とするソースイメージ推定装置。
【請求項3】
前記計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する音源分離部を有し、
さらに、前記計算部は、前記音源分離部によって計算された分離行列を用いて、前記第1のソースイメージを計算することを特徴とする請求項1に記載のソースイメージ推定装置。
【請求項4】
前記線形フィルタ部は、前記線形フィルタとして、Delay-and-Sum Beamformerを適用し、前記第2のソースイメージを出力することを特徴とする請求項1に記載のソースイメージ推定装置。
【請求項5】
前記線形フィルタ部は、前記複数の録音端末のマイクのうち、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを適用し、前記第2のソースイメージを出力することを特徴とする請求項4に記載のソースイメージ推定装置。
【請求項6】
前記音源分離部は、独立ベクトル分析を用いて前記分離行列を計算することを特徴とする請求項3に記載のソースイメージ推定装置。
【請求項7】
前記音源分離部は、独立成分分析を用いて記分離行列を計算することを特徴とする請求項3に記載のソースイメージ推定装置。
【請求項8】
前記音源分離部は、MVDRビームフォーマにより各録音端末上での前記第1のソースイメージを計算し、
前記線形フィルタ部は、前記音源分離部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力することを特徴とする請求項3に記載のソースイメージ推定装置。
【請求項9】
ソースイメージ推定装置によって実行されるソースイメージ推定方法であって、
複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算工程と、
前記計算工程によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ工程と
を含むことを特徴とするソースイメージ推定方法。
【請求項10】
複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算ステップと、
前記計算ステップによって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタステップと
をコンピュータに実行させることを特徴とするソースイメージ推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラムに関する。
【背景技術】
【0002】
従来、環境中に分散して配置した複数の録音機器で収録した信号を取り扱う、分散マイクロホンアレイの技術が知られている。分散マイクロホンアレイとは、例えばICレコーダーやスマートホンなどの収録用端末を複数台利用し、マイクロホンアレイとして利用するものである。一般に分散マイクロホンアレイでは、端末ごとにマイクゲインが異なったり、各端末が設置された場所により端末ごとにSN比が区々であったりという性質があり、用いるマイクによりその性能が左右される。
【0003】
各周波数において、S∈CN×TをN個の音源信号、X∈CM×TをM個のマイクによる多チャンネル観測とし、ここではN=Mとする。Cは複素数の集合である。H∈CM×Mを混合行列W∈CM×Mを分離行列、Tをフレーム数とし、以下では周波数インデックスfは省略して表記する。
【0004】
ここでの目的は、下記(1)式で表される混合信号から、各音源信号に何らかの線形変換を施したソースイメージxntを精度よく求めることである。
【0005】
【数1】
【0006】
上記の(1)式は、各行列の要素を用いて、下記(2)式で表わすことができる。ここで、xmtは時刻tでのマイクmでの観測信号を示し、sntは時刻tでのn番目の音源信号を示し、hmnは音源nからマイクmまでの伝達関数を示す。
【0007】
【数2】
【0008】
例えば、各音源信号のソースイメージxntを求めるための従来技術として、独立成分分析(ICA:Independent Component Analysis)や独立ベクトル分析(IVA:Independent Vector Analysis)などがある(例えば、非特許文献1参照)。
【0009】
分離信号Yは、下記(3)式のように得られるが、一般にはスケールの任意性のためそのゲインが定まらない。これを解決するための従来法が、次に述べるprojection backである。
【0010】
【数3】
【0011】
A=W−1とすると、元の観測信号Xは分離信号Yを用いて下記(4)式で表わされる。
【0012】
【数4】
【0013】
これを各行列の成分で表わす場合には下記(5)で表わされる。
【0014】
【数5】
【0015】
ただし、xmtはXの(m,t)成分を表す。他も同様である。すなわちここまでの表記は、xmtはm番目のマイクによる観測信号のtフレーム目、yktはk番目の分離信号のtフレーム目、amkはk番目の分離信号からm番目のマイクによる観測信号までの伝達関数を表す。上記の(5)式より、xmtに含まれているk番目の音源信号成分xkt=hmkは、amkktと表されることがわかる。
【0016】
よって、上記の(3)式で得られた分離信号のうち、k番目の分離信号ykt(t=1:T)にamkを乗じ、位相を含めた分離信号のスケールをマイクmでの観測信号xkmに揃えた分離信号を、下記(6)式のように得ることができる。これが、従来法で推定するソースイメージxkmである。
【0017】
【数6】
【先行技術文献】
【非特許文献】
【0018】
【非特許文献1】N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” in Proc. WASPAA2011, 2011, pp. 189−192.
【発明の概要】
【発明が解決しようとする課題】
【0019】
従来のprojection back法では、あるマイクm(これを「参照マイク」と呼ぶ)の観測信号xmtに分離信号のスケールを揃える。マイクmにおけるk番目の音源のソースイメージhmkktが、低雑音・低残響で得られている場合には、性質の良いソースイメージへのprojection backができると期待される。
【0020】
しかしながら、分散マイクでは、各話者に近いマイクと遠いマイクがあったり、録音のレベルがマイクによりバラバラ(マイクゲインがバラバラ)であったりと、各マイクにおけるソースイメージの品質は区々であることが多い。このような場合には、従来技術では、ソースイメージ推定の品質がprojection backを行なう参照マイクmの選び方に大きく依存してしまう。
【0021】
例えば、各話者から遠いマイクを参照マイクとして選んでしまうと、雑音や残響で劣化したk番目の音源のソースイメージhmkktへのprojection backをすることになり、結果ソースイメージ推定の品質が下がる。
【課題を解決するための手段】
【0022】
上述した課題を解決し、目的を達成するために、本発明のソースイメージ推定装置は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する計算部と、前記計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する線形フィルタ部とを有することを特徴とする。
【発明の効果】
【0023】
本発明によれば、参照マイクの選択によらずに、精度のよいソースイメージを推定することができるという効果を奏する。
【図面の簡単な説明】
【0024】
図1図1は、第1の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。
図2図2は、ソースイメージ推定部の詳細を説明する図である。
図3図3は、第1の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。
図4図4は、評価実験における収録条件を示す図である。
図5図5は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。
【発明を実施するための形態】
【0025】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。また、以下、「“A”を“Aの直上にを付した記号”」と同等であるとする。
【0026】
[第1の実施形態]
以下の実施の形態では、第1の実施形態に係るソースイメージ推定装置10の構成、ソースイメージ推定装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。第1の実施の形態では、マイク選択によらずに高い性能を得られる信号処理の手法を提供することを目的とする。特に、第1の実施の形態では、複数マイクを用いた音声強調技術(雑音除去、音源分離)において、参照マイクの選び方によらず、目的音声をクリアに抽出することを目的とする。
【0027】
[ソースイメージ推定装置の構成]
まず、図1を用いてソースイメージ推定装置10の構成について説明する。図1は、第1の実施形態に係るソースイメージ推定装置の構成の一例を示す図である。図1に示すように、第1の実施形態1に係るソースイメージ推定装置10は、周波数領域変換部11、ソースイメージ推定部12および時間領域変換部13を有する。
【0028】
周波数領域変換部11は、入力された時間領域の混合信号Xから短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルXを生成しソースイメージ推定部12に出力する。例えば、周波数領域変換部11は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号Xの入力を受け付け、短時間フーリエ変換などにより時間周波数領域の観測信号ベクトルXを生成してソースイメージ推定部12に出力する。
【0029】
ソースイメージ推定部12は、周波数領域に変換した信号において、線形フィルタ出力でのソースイメージを推定する。例えば、ソースイメージ推定部12は、混合信号から各音源信号を分離する分離行列を計算し、該分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージ(=第1のソースイメージ)を計算し、該ソースイメージに線形フィルタを適用して、線形フィルタ出力におけるソースイメージ(=第2のソースイメージ)を出力する。
【0030】
ソースイメージ推定部12は、ある参照マイクmにおける観測信号xmtを参照信号とするのではなく、観測信号xに線形フィルタでの音声強調を行なって得られる各音源kの強調音声zktを参照信号としてソースイメージ推定を行う。つまり、ソースイメージ推定部12は、観測信号xmtではなく強調音声zktにprojection backすることで、参照マイク選択によらず、品質の良い信号へのprojection backを可能とし、その結果、精度のよいソースイメージ推定を可能とする。
【0031】
ここで、各マイクによる観測信号の代わりに、観測信号に多チャンネルフィルタをかけた下記(7)式で表わされる強調音声Zに対してprojection backすることを考える。
【0032】
【数7】
【0033】
ここで、B∈RM×Mは、M個の観測信号をM個のフィルタリング信号に変換する線形フィルタを表す。Rは実数の集合を示す。ただし、Bの逆行列B−1が存在することを仮定する。成分で表わすと、下記(8)式となる。
【0034】
【数8】
【0035】
この線形フィルタBとしては任意のものを考えられるが、本実施形態では、bkm(m=1,・・・,M)が、k番目の音源に対するDelay-and-Sum Beamformerになるようなフィルタを考える。このときzktは、k番目の音源に対するDelay-and-Sum Beamformerの出力となる。
【0036】
ここで、n番目の分離信号yntを、k番目の線形フィルタ信号zktへprojection backしたものをynt,k(LF)と表すことにし(nt,kの直上に(LF)があるものとする)、これがどのように表されるか下記(9)式から考えてみる。
【0037】
【数9】
【0038】
ただしW=WB−1のように変形し、Z,Wをそれぞれ観測信号と分離行列とみなせば、下記(10)式となる。
【0039】
【数10】
【0040】
ただし、A=−1=BW−1=BAとかける。成分で表すと、下記(11)式で表わされるため、下記(12)式となる。
【0041】
【数11】
【0042】
【数12】
【0043】
ここで、A=BAであり、下記(13)式のようになることに注意する。
【0044】
【数13】
【0045】
ここで興味があるのは、k番目の分離信号を、k番目のフィルタ信号にprojection backしたもの、すなわちn=kの場合であるが、これは、下記(14)式で表わされる。
【0046】
【数14】
【0047】
すなわち、k番目の分離信号を各マイクmにprojection backした多チャンネル信号ykt,m(上記(6)式参照)に対して、bkmにてフィルタリングしたものに等しい。要するに、「ある分離信号を線形フィルタ(線形ビームフォーマ)出力zktに対してprojection back すること」は、「その分離信号を各マイクに対してprojection backすることで得られる多チャンネル信号(=第1のソースイメージ)ykt,mに対して線形フィルタ(線形ビームフォーマ)bkmを適用すること」と等価であることが示された。
【0048】
図2は、ソースイメージ推定部の詳細を説明する図である。図2に例示するように、ソースイメージ推定部12は、音源分離部12a、Projection Back部12b、乗算部12cおよび線形フィルタ部12dを有する。なお、音源分離部12a、Projection Back部12bおよび乗算部12cは、合わせて計算部に相当するものとする。計算部は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号を入力とし、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージ(以下、適宜「第1のソースイメージ」と記載)を計算する。
【0049】
音源分離部12aは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。例えば、音源分離部12aは、前述した周波数領域変換部11から出力された時間周波数領域の観測信号ベクトルXの入力を受け付けると、IVA(独立ベクトル分析)もしくはICA(独立成分分析)等の音源分離の技術を適用して分離行列を計算し、分離行列WをProjection Back部12bに通知する。また、音源分離部12aは、分離行列Wにより式(3)にて生成される分離信号yktを乗算部12cに通知する。
【0050】
Projection Back部12bおよび乗算部12cは、各音源信号に対応する分離信号の各録音端末上での第1のソースイメージを計算する。具体的には、Projection Back部12bおよび乗算部12cは、音源分離部12aによって計算された分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。つまり、Projection Back部12bは、A=W−1であるものとして、分離行列Wを用いて、各音源について、各マイクまでの伝達関数amkをそれぞれもとめて、乗算部12cに出力する。
【0051】
また、乗算部12cは、音源分離部12aから入力された分離信号yktとProjection Back部12bから入力された伝達関数amkとが入力されると、上記の(6)式のように、両者を乗算することで、各音源に対するソースイメージykt,mをすべてのマイクについて計算し、線形フィルタ部12dに出力する。つまり、乗算部12cは、k番目の分離信号を各マイクmにProjection Backした多チャンネル信号ykt,mを、全てのマイクmについて計算する。
【0052】
線形フィルタ部12dは、計算部によって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージ(以下、適宜「第2のソースイメージと記載」)を出力する。具体的には、線形フィルタ部12dは、計算部によって計算されたソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。例えば、線形フィルタ部12dは、まず、各音源kについて、あるマイクm=refを選択する。なお、ここでのマイク選択は、例えば、適当にm=1としてもよいし、ある基準で最も良いと思われるマイクを選択してもよい(例えば、参考文献1参照:S. Araki, N. Ono, K. Kinoshita, and M. Delcroix, 「Comparison of reference microphone selection algorithms for distributed microphone array based speech enhancement in meeting recognition scenarios」 in Proc. IWAENC2018, Sept. 2018, pp. 316−320.)。
【0053】
そして、線形フィルタ部12dは、各音源kについて、ykt,refとykt,mとの時間差τkmを求める。この推定法は何でもよい(例えば、参考文献2参照:K. Yamaoka, R. Scheibler, N. Ono, and Y. Wakabayashi, 「Subsample time delay estimation via auxiliary-function-based iterative updates」 in Proc. WASPAA2019.)。
【0054】
続いて、線形フィルタ部12dは、線形フィルタbkmをDelay-and-Sum Beamformerとして、下記の(15)式で求める。ここで、rkmは、下記の(16)式により求めることができる。
【0055】
【数15】
【0056】
【数16】
【0057】
線形フィルタ部12dは、pが0の時、全てのチャンネルでの分離音声を同じ重みでDelay-and-Sumを行う。さらに、分散マイクの場合は、マイクゲインが区々であることから、線形フィルタ部12dは、p=−0.5,1,2などとして、マイクゲインの大きなマイクにより強い重みをかけたweighted delay-and-sumを用いることもできる。
【0058】
最後に線形フィルタ部12dは、強調音声にprojection backした分離信号ykt,k(LF)を上記の(14)式にて求め、そのパワーを選択したm=refマイクの信号ykt,refのパワーになるよう正規化し、時間領域変換部13に出力する。
【0059】
[ソースイメージ推定装置の処理手順]
次に、図3を用いて、第1の実施形態に係るソースイメージ推定装置10による処理手順の例を説明する。図3は、第1の実施形態に係るソースイメージ推定装置の処理の流れの一例を示すフローチャートである。
【0060】
図3に例示するように、ソースイメージ推定装置10は、まず、k=0を設定し(ステップS101)、kの値をインクリメントする(ステップS102)。そして、音源分離部12aとProjection Back部12bと乗算部12cが、各音源kにするソースイメージを、全てのマイクm(m=1,・・・,M)で求める(ステップS103)。例えば、乗算部12cが、上記の(6)式を用いてykt,mをすべてのm=1,・・・,Mについて計算する。
【0061】
続いて、線形フィルタ部12dは、各音源kについて、あるマイクm=refを設定する(ステップS104)。なお、ここでのマイク選択は、例えば、適当にm=1としてもよいし、ある基準で最も良いと思われるマイクを選択してもよい。
【0062】
そして、線形フィルタ部12dは、各音源kについて、ykt,refとykt,mとの時間差τkmを計算する(ステップS105)。続いて、線形フィルタ部12dは、線形フィルタbkmをDelay-and-Sum Beamformerとして、上記の(15)式で計算する(ステップS106)。
【0063】
そして、線形フィルタ部12dは、強調音声にprojection backした分離信号ykt,k(LF)を上記の(14)式にて求め、そのパワーを選択したm=refマイクの信号のパワーykt,refになるよう正規化し、出力する(ステップS107)。
【0064】
その後、ソースイメージ推定装置10は、k=Nであるかを判定し(ステップS108)、k=Nでない場合には(ステップS108否定)、ステップS102の処理に戻る。すなわち、ソースイメージ推定装置10は、すべての音源について上述のステップS102〜S107の処理を行ったかを判定し、すべての音源について処理が終わるまで繰り返し処理を行う。また、ソースイメージ推定装置10は、k=Nであると判定した場合には(ステップS108肯定)、本フローの処理を終了する。
【0065】
[第1の実施形態の効果]
このように、第1の実施形態に係るソースイメージ推定装置10は、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号を分離する分離行列を計算する。そして、ソースイメージ推定装置10は、計算した分離行列を用いて、各音源信号に対応する分離信号の各録音端末上でのソースイメージを計算する。続いて、ソースイメージ推定装置10は、計算したソースイメージに、線形フィルタを適用し、線形フィルタ出力におけるソースイメージを出力する。これにより、ソースイメージ推定装置10は、精度のよいソースイメージを推定することが可能である。
【0066】
特に、ソースイメージ推定装置10では、複数マイクを用いた音声強調技術(雑音除去、音源分離)において、参照マイクの選び方によらず、目的音声をクリアに抽出することが可能である。つまり、ソースイメージ推定装置10では、例えば、ある参照マイクmにおける観測信号xmtを参照信号とするのではなく、観測信号Xに線形フィルタでの音声強調を行なって得られる各音源kの強調音声zktを参照信号としてソースイメージを推定するので、参照マイク選択によらず、品質の良い信号へのprojection backを可能とし、その結果、精度のよいソースイメージ推定を可能とする。
【0067】
[評価実験]
次に、第1の実施形態を用いて評価実験を行った。図4は、評価実験における収録条件を示す図である。
【0068】
図4に示すように、それぞれステレオマイクを具備する4台のスマートホンで収録した4−6名の会話音声を用いて、実験を行った。実験では、まず、4台のスマートホン収録信号間の時間同期をとったあと、従来法および発明法で音声強調を実施した。音声強調の精度は、音声認識精度WER(Word Error Rate)で評価した。各端末のサンプリング周波数は16kHz、STFT(Short Time Fourier Transform:短時間フーリエ変換)のフレーム長は4096、フレームシフト長を2048とした。
【0069】
表1では、従来法にて、参照マイクmを各ch1〜8と決めてprojection backしたときのWER(%)、各話者に物理的に一番近いマイク(clo)を選んだ場合のWER(%)、発明法でのprojection backを行った場合のWER(%)をそれぞれ示す。表1に示すように、従来法では参照マイクの選び方により、音声強調の性能にばらつきがあるが、発明法では最も小さなWERが得られており、精度のよいソースイメージ推定ができるという効果がわかる。
【0070】
【表1】
【0071】
また、表2では、発明法のステップS104においてのrefマイクをch1〜8としたときのWER(%)をそれぞれ示す。表2より、発明法は、refマイクの選び方によらず比較的安定した性能を示すことがわかる。つまり、refマイクの選び方によらずに精度のよいソースイメージ推定ができるという効果がわかる。
【0072】
【表2】
【0073】
[第2の実施形態]
第2の実施形態では、音源分離部12aに、最小分散無歪(MVDR:Minimum Variance Distortionless Response)ビームフォーマを利用する例を示す。MVDRビームフォーマでは、hが与えられている場合は、下記(17)式、(18)式および(19)式にて、各音源yktを求めることができる。しかし、一般的にはhは与えられず推定する必要がある。その場合、hを推定する代わりに、hmkのm番目の要素を1に規格化した=[h1k/hmk,・・・,hMk/hmkを用いることが多く(例えば、参考文献3(Shmulik Markovich Golan, Sharon Gannot, 「Performance analysis of the covariance subtraction method for relative transfer function estimation and comparison to thecovariance whitening method」, ICASSP 2015, pp. 544-548, 2015.)の(4)式や、参照文献4(N. Ito, S. Araki and T. Nakatani, 「Permutation-free clustering of relative transfer function features for blind source separation」, EUSIPCO2015, pp. 409-413, 2015.)の(22)式参照。)、ここでマイクmを選択する必要が出てくる。本実施形態は、このマイクmの選択を不要とする。
【0074】
【数17】
【0075】
【数18】
【0076】
【数19】
【0077】
第2の実施形態に係るソースイメージ推定装置の音源分離部12aでは、MVDRビームフォーマにより各録音端末上での第1のソースイメージを計算する。また、線形フィルタ部12dは、音源分離部12aによって計算された第1のソースイメージに、線形フィルタを適用し、線形フィルタ出力における第2のソースイメージを出力する。
【0078】
以下では、第2の実施形態に係るソースイメージ推定装置の処理の流れについて説明する。なお、第1の実施形態と同様の処理については説明を省略する。まず、第2の実施形態に係るソースイメージ推定装置の音源分離部12aでは、各周波数における各音源kに関するソースイメージを、すべてのマイクmについて、下記の(20)式で求める。つまり、第2の実施形態に係るソースイメージ推定装置の音源分離部12aでは、第1の実施形態に係るソースイメージ推定装置の音源分離部12aの処理とを比較すると、前述の図4のフローチャートにおけるステップS103の処理に代えて、各周波数における各音源kに関するソースイメージを、すべてのマイクmについて、下記の(20)式で求める。
【0079】
【数20】
【0080】
ただし、k,mは、下記の(21)式で表わされ、Rは、下記の(22)式で表わされる。xは、Xのt列目の縦ベクトル、k,m=[h1k/hmk,・・・,hMk/hmkである。第2の実施形態では、Projection Back部12dにて陽に行う計算はなく、音源分離部はykt,mを直接出力する。例えば、第2の実施形態に係るソースイメージ推定装置では、Projection Back部12dを有していなくともよい。
【0081】
【数21】
【0082】
【数22】
【0083】
各周波数における各音源kに関するソースイメージをすべてのマイクmについて求めた後の線形フィルタ部12dの処理は、前述の図4のステップS104〜S107の処理と同様である。
【0084】
なお上記において、にて求めた分離信号は、下記(23)式に示すようなソースイメージであることが証明できる。これは前述の(6)式においてamk=hmkとしたものと解釈できる。
【0085】
【数23】
【0086】
[その他の実施形態]
その他の実施形態では、音源sktに対応する分離信号yktを出力する分離フィルタベクトルwを求めることができる音源分離部12aと、そのスケールをm番目のマイクでの観測信号に合わせることができるProjection back部12bを持つ音源分離手法に、広く適用できる。例えば、音源分離部12aは、各音源分離部を分離できればよく、分離行列を推定しなくてもよい。このような場合には、例えば、音源分離部12aは、複数の録音端末により収録された、複数の音源信号が混ざった混合信号から各音源信号の推定値である分離信号を得る。そして、Projection back部12bおよび乗算部12cは、分離信号のスケールを、各録音端末の各収録デバイス上でのスケールに揃える。
【0087】
なお、第2の実施形態のように、音源分離部12aがm番目のマイクでの観測信号にスケールを合わせた分離信号を直接出力できる場合は、Projection back部12bを持たなくてもよい。すなわち、音源分離部12aが、すべてのマイクmに関するykt,mを推定し、その後、線形フィルタ部12dにて、第1の実施形態と同様にステップS104〜S107の処理を行うようにしてもよい。
【0088】
以下は、その他の実施形態に関する証明である。本実施形態を一般的に記述すると、まず目的は、各音源信号になんらかの伝達関数cがかかったソースイメージを分離信号として得ること、すなわち、下記(24)式となるようにスケールを合わせることである。
【0089】
【数24】
【0090】
スケールを考慮せずに設計されたwを用いた線形フィルタ出力にある定数Pを乗じてこの条件を満たすことを考える。定数Pが満たすべき等式は、下記(25)式であり、これより、Pは、下記(26)式で表わされる。
【0091】
【数25】
【0092】
【数26】
【0093】
以下では、このPがw,h,cに依存することを明示するためにP(w,h,c)と表す。以下簡単のため、分離音のインデックスkを省略する。各マイクにおけるソースイメージasにある線形フィルタbを乗じた出力のスケールをcと考え、これにprojection backするPを考える。まずこの線形フィルタ出力は下記(27)式で表わされる。
【0094】
【数27】
【0095】
これは伝達関数が下記(28)式であるようなソースイメージにprojection backすることと等価である。
【0096】
【数28】
【0097】
ここで、以下(29)式が成り立つ。
【0098】
【数29】
【0099】
これはP(w,h,c)がcに対して線形であることから明らかであるが、陽に式変形を示せば、以下の(30)式のようになる。
【0100】
【数30】
【0101】
よって、以下の(31)式が成り立つ。左辺は「線形フィルタb(m=1,・・・,M)の出力に対するprojection back」、右辺は「各マイクへprojection backすることで得られたソースイメージに対して線形フィルタb(m=1,・・・,M)を適用したもの」であり、上述の(26)式と等価な方法でスケールを決定する任意の手法において、これらが等しいことが示された。
【0102】
【数31】
【0103】
上述の実施形態では、この右辺を効率的な手段にて実現する方法を提供している。
【0104】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0105】
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0106】
[プログラム]
図5は、ソースイメージ推定プログラムを実行するコンピュータを示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0107】
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
【0108】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、ソースイメージ推定装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0109】
また、上述した実施の形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0110】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク、WANを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0111】
10 ソースイメージ推定装置
11 周波数領域変換部
12 ソースイメージ推定部
12a 音源分離部
12b Projection Back部
12c 乗算部
12d 線形フィルタ部
13 時間領域変換部
図1
図2
図3
図4
図5