(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-01
(45)【発行日】2022-12-09
(54)【発明の名称】信号処理装置、方法、及びプログラム
(51)【国際特許分類】
G10L 21/0208 20130101AFI20221202BHJP
H04R 3/02 20060101ALI20221202BHJP
G10K 15/04 20060101ALN20221202BHJP
【FI】
G10L21/0208 100B
H04R3/02
G10K15/04 302D
(21)【出願番号】P 2017207156
(22)【出願日】2017-10-26
【審査請求日】2020-08-26
(73)【特許権者】
【識別番号】000125370
【氏名又は名称】学校法人東京理科大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(74)【代理人】
【識別番号】100079049
【氏名又は名称】中島 淳
(74)【代理人】
【識別番号】100084995
【氏名又は名称】加藤 和詳
(74)【代理人】
【識別番号】100099025
【氏名又は名称】福田 浩志
(73)【特許権者】
【識別番号】518212241
【氏名又は名称】公立大学法人公立諏訪東京理科大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】田邉 造
(72)【発明者】
【氏名】名取 隆廣
(72)【発明者】
【氏名】古川 利博
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開平08-030296(JP,A)
【文献】特許第5971646(JP,B2)
【文献】特開2005-182125(JP,A)
【文献】特開2005-107862(JP,A)
【文献】特開2008-225116(JP,A)
【文献】高橋拓也 他,"スマートフォンアプリによるテレビ会議のための高速かつロバストなハウリング抑圧法",電気学会研究会資料,2017年03月13日,pp.27-31
【文献】高橋拓也 他,"適応線スペクトル強調器を用いたハウリング抑圧法の提案",電子情報通信学会2016年総合大会 基礎・境界講演論文集,2016年03月01日,p.61
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-25/93
H04R 3/02
(57)【特許請求の範囲】
【請求項1】
環境により観測された第1信号と、前記第1信号を観測する前記環境において生じる周期信号である第2信号とを含む時間領域の各時間nの観測信号d(n)について、前記時間nより前の所定時間分の観測信号d(n)を表す入力信号ベクトルu(n)を入力として、再帰型最小二乗法により、
前記入力信号ベクトルu(n)と、予め定められた忘却係数λ及び相関係数行列P(n)とで表される重みベクトルk(n)を算出し、
前記時間nの観測信号d(n)及び前の時間のフィルタ係数^c(n-1)を前記時間nの前記入力信号ベクトルu(n)に適用して、推定第2信号^h(n)の誤差ξ(n)を算出し、
時間ごとに更新されるフィルタ係数であって、前記重みベクトルk(n)と、前記誤差ξ(n)と、前の時間のフィルタ係数^c(n-1)とから求められる前記時間nのフィルタ係数^c(n)を更新し、
更新された前記時間nのフィルタ係数^c(n)を、前記時間nの前記入力信号ベクトルu(n)に適用することにより、前記時間nの推定第2信号^h(n)を抽出することを繰り返す抽出手段
と、
前記推定第2信号^h(n)の分散値dh
2を求め、前記観測信号d(n)の分散値から前記推定第2信号^h(n)の分散値dh
2を差し引いて得られる前記第1信号としての出力信号d(n)の分散値、前記推定第2信号の分散値dh
2、並びに前記観測信号d(n)を用いて、推定対象の推定第1信号dmy(n)のシステムを状態空間モデルで記述したものであり、状態変数の時間変化を表す予め定められた状態方程式、及び観測結果が入力に依存して時間発展するよう予め定められた観測方程式で表される状態空間モデルに、予め定められた有色駆動源付カルマンフィルタによる初期設定の過程と反復の過程を適用して、推定第1信号dmy(n)を推定する推定手段と、
を含む信号処理装置。
【請求項2】
環境により観測された第1信号と、前記第1信号を観測する前記環境において生じる周期信号である第2信号とを含む時間領域の各時間nの観測信号d(n)について、前記時間nより前の所定時間分の観測信号d(n)を表す入力信号ベクトルu(n)を入力として、再帰型最小二乗法により、
前記入力信号ベクトルu(n)と、予め定められた忘却係数λ及び相関係数行列P(n)とで表される重みベクトルk(n)を算出し、
前記時間nの観測信号d(n)及び前の時間のフィルタ係数^c(n-1)を前記時間nの前記入力信号ベクトルu(n)に適用して、推定第2信号^h(n)の誤差ξ(n)を算出し、
時間ごとに更新されるフィルタ係数であって、前記重みベクトルk(n)と、前記誤差ξ(n)と、前の時間のフィルタ係数^c(n-1)とから求められる前記時間nのフィルタ係数^c(n)を更新し、
更新された前記時間nのフィルタ係数^c(n)を、前記時間nの前記入力信号ベクトルu(n)に適用することにより、前記時間nの推定第2信号^h(n)を抽出することを繰り返
し、
前記推定第2信号^h(n)の分散値d
h
2
を求め、前記観測信号d(n)の分散値から前記推定第2信号^h(n)の分散値d
h
2
を差し引いて得られる前記第1信号としての出力信号d(n)の分散値、前記推定第2信号の分散値d
h
2
、並びに前記観測信号d(n)を用いて、推定対象の推定第1信号d
my
(n)のシステムを状態空間モデルで記述したものであり、状態変数の時間変化を表す予め定められた状態方程式、及び観測結果が入力に依存して時間発展するよう予め定められた観測方程式で表される状態空間モデルに、予め定められた有色駆動源付カルマンフィルタによる初期設定の過程と反復の過程を適用して、推定第1信号d
my
(n)を推定する、
処理を集積回路において実行させる信号処理方法。
【請求項3】
コンピュータを、請求項
1に記載の信号処理装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理装置、方法、及びプログラムに係り、特に、所望の信号を特定するための信号処理装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、お手本音声を歌唱区間毎に再生し、次いで、伴奏データの表す伴奏音を、歌唱区間毎にスピーカに放音させることによってカラオケ伴奏を行い、練習者が、スピーカから放音される伴奏にあわせて歌唱を行うと、練習者の音声が収音され、練習者音声データとして記憶し、お手本音声データと練習者音声データとを比較し、比較結果に基づいて練習者音声データを評価区間毎に評価し、評価結果を、評価区間毎に表示させるカラオケ装置が提案されている(例えば、特許文献1参照)。
【0003】
また、指定手段にて指定された指定楽曲の演奏情報を再生手段に再生させると共に、マイクロフォンから入力される音声信号とメロディ情報とを比較して時系列評価を作成する再生処理と、指定楽曲に関する時系列参照記録をホスト装置から受信すると共に、作成された時系列評価をホスト装置に送信する通信処理と、作成された時系列評価と、当該時系列評価を行った演奏情報に対応する少なくとも1つの時系列参照記録とを併せて表示手段に表示させる表示処理を行うカラオケ装置が提案されている(例えば、特許文献2参照)。
【0004】
また、カラオケ曲データを再生している間に行われた歌唱の音声データを取得する取得手段と、該取得手段にて取得した音声データを評価する評価手段とを備え、複数の歌唱者夫々の歌唱技術を評価する歌唱評価装置に、再生手段によるカラオケ曲データの再生前に、歌唱練習を行う一の歌唱者を受け付ける歌唱者受付手段と、該歌唱者受付手段にて受け付けた歌唱者を識別する歌唱者識別情報、及び該歌唱者の音声データに対する前記評価手段による評価結果を対応付けて記憶する記憶手段と、前記歌唱者受付手段にて受け付けた一の歌唱者の音声データに対する歌唱評価、及び前記記憶手段が記憶している他の歌唱者の音声データに対する評価結果を重畳的又は並列的に表示した図表を生成する手段とを備えるカラオケ装置が提案されている(例えば、特許文献3参照)。
【0005】
また、カラオケ店舗に設置されたカラオケ装置を利用して歌唱されたカラオケ曲のうち練習用楽曲として指定されたカラオケ曲の歌唱音声が、携帯端末装置による評価よりも詳細に分析された結果を示す分析情報を、ネットワークを介して取得する取得手段と、取得手段により取得された分析情報と、歌唱音声を分析又は評価するための基準を示す基準情報と、に基づいて、練習用楽曲について分析情報において分析の対象とされた複数の事項のうち練習する事項を提示する練習事項提示手段と、を備える携帯端末装置が提案されている(例えば、特許文献4参照)。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2008-020798号公報
【文献】特開2010-060630号公報
【文献】特開2011-043768号公報
【文献】特開2013-174712号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1~3に記載の技術では、予め手本音声データを作成して用意しなければならないため、何らかの手法により、手本音声データを作成しておく必要がある。
【0008】
また、特許文献4に記載の技術では、分析の結果得られた練習が必要な事項の提示が、抽象的な表現で提示されているため、練習者が具体的にどのように発声をすればよいかが、感覚的に把握しづらい、という問題がある。
【0009】
また、マイク及びスピーカが近い環境で観測がされる場合には、取得した音声にハウリングが発生する可能性がある。
【0010】
本発明は、上記事情を鑑みて成されたものであり、観測信号に含まれる周期信号を除去した所望の信号を推定できる信号処理装置、方法、及びプログラムを提供することを目的とする。
【0011】
また、本発明は、所望の信号の態様を特定できる信号処理装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するために、第1の発明に係る信号処理装置は、環境により観測された第1信号と、前記第1信号を観測する前記環境において生じる周期信号である第2信号とを含む時間領域の各時間の観測信号から各時間に対して得られる、前記時間より前の所定時間分の観測信号を表す入力信号ベクトルに基づいて、各時間に対し、観測信号と、前の時間のフィルタ係数を前記時間の前記入力信号ベクトルに適用して得られる推定第2信号との誤差と、前記時間の前記入力信号ベクトルから定まるゲインベクトルと、前の時間のフィルタ係数とから求められる前記時間のフィルタ係数を、次の時間の前記入力信号ベクトルに適用することにより、前記次の時間の推定第2信号を抽出することを繰り返す抽出手段と、前記観測信号の分散値から前記推定第2信号の分散値を差し引いて得られる前記第1信号の分散値、前記抽出手段で抽出された前記推定第2信号の分散値、並びに前記観測信号を用いて、前記推定第2信号のみから構成される状態方程式、及び前記第1信号と前記第2信号とから構成される観測方程式で表される状態空間モデルに、有色駆動源付カルマンフィルタを適用して、前記第1信号を推定する推定手段と、を含んで構成されている。
【0013】
また、第2の発明に係る信号処理装置は、予め抽出された教師信号に対する周波数解析結果と、観測環境で観測された比較対象信号に対する周波数解析結果とに基づいて、各時間に対し、周波数毎に、前記教師信号の周波数成分と前記比較対象信号の周波数成分とを予め定められた閾値を用いて比較する比較手段と、前記比較手段で各時間に対して得られた、周波数毎の、前記教師信号の周波数成分と前記比較対象信号の周波数成分とを重ね合わせた比較結果、及び前記教師信号の周波数成分と前記比較対象信号の周波数成分との差の比較結果の少なくとも一方を表示する表示手段と、を含んで構成されている。
【0014】
また本発明のプログラムは、コンピュータを、第1の発明、又は第2の発明に係る信号処理装置の各部として機能させるためのプログラムである。
【発明の効果】
【0015】
本発明の信号処理装置、方法、及びプログラムによれば、環境において生じる周期信号を抽出して、所望の信号を推定することで、観測信号に含まれる周期信号を除去した所望の信号を推定することができる、という効果が得られる。
【0016】
また、本発明の信号処理装置、方法、及びプログラムによれば、教師信号と観測された信号とを比較して表示することにより、所望の信号の態様を特定できる、という効果が得られる。
【図面の簡単な説明】
【0017】
【
図1】本発明の第1の実施の形態に係る信号処理装置の構成を示すブロック図である。
【
図2】第1の実施の形態に係る信号処理装置における処理の流れを示す抽象図である。
【
図3】本発明の第1の実施の形態に係る信号処理装置における信号処理ルーチンを示すフローチャートである。
【
図4】ハウリング推定の処理ルーチンを示すフローチャートである。
【
図5】第1の実施の形態のハウリング抑圧の実験結果の一例を示す図である。
【
図6】本発明の第2の実施の形態に係る信号処理装置の構成を示すブロック図である。
【
図7】比較処理におけるフーリエ変換を説明するための図である。
【
図8】手本音声スペクトル、及び本人音声スペクトルを並べて3D描写した場合の一例を示す図である。
【
図9】誤差に対して閾値を設けて音外れを検出する場合の一例を示す図である。
【
図10】特定の周波数帯域に着目して音外れを検出する場合の一例を示す図である。
【
図11】手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分との比較結果の一例を示す図である。
【
図12】特定の周波数帯域を拡大、又は回転して表示することの一例を示す図である。
【
図13】周波数成分の差の度合いをグリッド表示にして表示することの一例を示す図である。
【
図14】本発明の第2の実施の形態に係る信号処理装置における信号処理ルーチンを示すフローチャートである。
【
図15】振幅評価処理ルーチンを示すフローチャートである。
【
図16】帯域評価処理ルーチンを示すフローチャートである。
【
図17】学習評価処理ルーチンを示すフローチャートである。
【
図18】学習処理の詳細な処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0019】
<第1の実施の形態>
【0020】
第1の実施の形態では、本発明の第1信号の一例を、例えば左チャネルマイクと右チャネルマイクとから構成されるステレオマイクの中央付近を音源位置とする広域雑音を含む入力信号であるボーカル観測信号とし、本発明の第2信号の一例を、例えばボーカル信号を観測する環境において生じる周期信号であるハウリング信号とする場合について説明する。
【0021】
図1に示すように、第1の実施の形態に係る信号処理装置100は、ALEフィルタ計算部12L,12Rと、ハウリング信号抽出部14L,14Rと、誤差算出部16L,16Rと、ハウリング信号分散値計算部18L,18Rと、ハウリング信号除去部20L,20Rとを含んで構成されている。信号処理装置100は、ASIC(Application Specific Integrated Circuit)等の半導体集積回路により構成することができる。符号におけるL,Rは、それぞれ左チャネル、右チャネルに対応している。なお、ALEフィルタ計算部12L,12R、ハウリング信号抽出部14L,14R、誤差算出部16L,16R、及びハウリング信号分散値計算部18L,18Rがハウリング信号を推定することにより抽出する抽出手段の一例であり、ハウリング信号除去部20L,20Rが有色駆動源付カルマンフィルタを適用してハウリング信号を除去することによりボーカル観測信号を推定する推定手段の一例である。
【0022】
信号処理装置100では左チャネル、右チャネルのそれぞれについてのボーカル観測信号dL(n),dR(n)を受け付け、上記各部の処理により、ボーカル観測信号dL(n),dR(n)のそれぞれについてハウリング信号を推定、及び除去して推定ボーカル信号dmy(n)を出力する。
【0023】
以下の各部の説明では、左チャネル(L)、右チャネル(R)の各々について同様の処理を行うことを前提に説明する。
【0024】
ボーカル観測信号dL(n),dR(n)の遅延を考慮した入力信号ベクトルuL(n),uR(n)のそれぞれがALEフィルタ計算部12L,12R、及びハウリング信号抽出部14L,14Rに入力される。
【0025】
入力信号ベクトルuL(n),uR(n)を以下(1)式に示す。
【0026】
【0027】
入力信号ベクトルuL(n),uR(n)を入力として、以下、ALEフィルタ計算部12L,12R、ハウリング信号抽出部14L,14R、及び誤差算出部16L,16Rの各部の処理によって行われる再帰型最小二乗法により、時間ごとに推定ハウリング信号^hL(n),^hR(n)を抽出することを繰り返し、ハウリング信号分散値計算部18L,18Rに出力する。
【0028】
再帰型最小二乗法では、各時間nに対し、時間nより前の所定時間N0分のボーカル観測信号を表す入力信号ベクトルuL(n),uR(n)に基づいて、当該時間nのフィルタ係数を、時間nの入力信号ベクトルuL(n),uR(n)に適用することにより、推定ハウリング信号^hL(n),^hR(n)を抽出することを繰り返す。
【0029】
ALEフィルタ計算部12L,12Rは、入力信号ベクトルuL(n),uR(n)と、忘却係数λと、相関係数行列P(n)とに基づいて重みベクトルkL(n),kR(n)を算出する。また、ALEフィルタ計算部12L,12Rは、算出した重みベクトルkL(n),kR(n)と、誤差ξL(n),ξR(n)とに基づいて、ALEフィルタ係数^cL(n),^cR(n)を更新する。
【0030】
重みベクトルkL(n),kR(n)は以下(2)式で表される、入力信号ベクトルuL(n),uR(n)から定まるゲインベクトルである。
【0031】
【0032】
ALEフィルタ係数は、以下(3)式により時間ごとに更新される。誤差ξL(n),ξR(n)の算出方法については後述する。
【0033】
【0034】
ハウリング信号抽出部14L,14Rは、当該時間nのフィルタ係数を以下(4)式のように適用して、推定ハウリング信号^hL(n),^hR(n)を抽出する。
【0035】
【0036】
誤差算出部16L,16Rは、ボーカル観測信号dL(n),dR(n)と、前の時間のフィルタ係数^cL(n-1),^cR(n-1)を当該時間nの入力信号ベクトルuL(n),uR(n)に適用して得られる推定ハウリング信号^hL(n),^hR(n)との誤差ξL(n),ξR(n)を求める。
【0037】
以上が、再帰型最小二乗法によるハウリング信号の推定であり、推定された推定ハウリング信号から、ハウリング分散を推定する。再帰型最小二乗法を用いたハウリング分散推定を行うことにより、収束速度の高速化を実現することができる。
図2の点線内が再帰型最小二乗法を表すブロック図である。
【0038】
ハウリング信号分散値計算部18L,18Rは、推定ハウリング信号^hL(n),^hR(n)の分散値を、以下(5)式により求める。
【0039】
【0040】
ハウリング信号除去部20L,20Rは、ボーカル観測信号dL(n),dR(n)の分散値から推定ハウリング信号^hL(n),^hR(n)の分散値を差し引いて得られる出力信号の分散値と、推定ハウリング信号^hL(n),^hR(n)の分散値と、入力信号^hL(n),^hR(n)とを用いて、以下に説明する、状態方程式、及び観測方程式で表される状態空間モデルに、特許文献5に記載の有色駆動源カルマンフィルタを適用して、^出力信号dL(n),^dR(n)を求める。
【0041】
[特許文献5]特許第5971646号公報
【0042】
有色駆動源カルマンフィルタでは、具体的には、ボーカル観測信号dL(n),dR(n)を、下記(6)式に示すボーカル信号のみから構成される状態方程式、及びボーカル信号とハウリング信号とから構成される観測方程式で表される状態空間モデルに置き換える。
【0043】
【0044】
ただし、(6)式中のベクトルw、δ、y、ε、Φ及びmは、下記(7)式でそれぞれ定義される。ベクトルwは所望のボーカル信号からなるL×1次の状態ベクトル、ベクトルδはL×1次の駆動源ベクトル、ベクトルyは1次のボーカル観測信号ベクトル、ベクトルεは1次のハウリング信号ベクトルである。行列Φは0及び1のみで構成される状態遷移行列、行列mはL次の観測遷移ベクトルである。なお、Lは、状態遷移行列のサイズである。
【0045】
【0046】
(6)式における状態方程式は、推定対象(ここでは推定ボーカル信号)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルw)の時間変化を表している。また、(6)式における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号ベクトルy)が、被観測量つまり入力(ここでは、状態ベクトルw)に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルw(n)」とは、時刻nまでのボーカル信号からなる状態ベクトルを意味する。
【0047】
ハウリング信号除去部20L,20Rは、以上(6)式の状態方程式及び観測方程式から、特許文献5に記載のカルマンアルゴリズムによる初期設定の過程と反復の過程との手順によって、出力信号^dL(n),^dR(n)を求めて出力する。
【0048】
合成部22は、出力信号^dL(n),^dR(n)を合成して得られるボーカル信号と推定される信号(以下、「推定ボーカル信号」という)dmy(n)を出力する。
【0049】
以上のように有色駆動源付カルマンフィルタを適用することにより、ボーカル観測信号dL(n),dR(n)に含まれるハウリング信号を抑圧し、高精度な推定ボーカル信号を抽出することができる。
【0050】
<本発明の第1の実施の形態に係る信号処理装置の作用>
【0051】
次に、本発明の第1の実施の形態に係る信号処理装置100の作用について説明する。外部から入力された入力信号であるボーカル観測信号d
L(n),d
R(n)を受け付けると、信号処理装置100は、
図3に示す信号処理ルーチンを実行する。
【0052】
ステップS100では、各時間nに対し、時間nより前の所定時間N0分のボーカル観測信号を表す入力信号ベクトルuL(n),uR(n)に基づいて、当該時間nのフィルタ係数を、時間nの入力信号ベクトルuL(n),uR(n)に適用することにより、推定ハウリング信号^hL(n),^hR(n)を抽出することを繰り返し、推定ハウリング信号^hL(n),^hR(n)の分散値を、上記(5)式により求める。
【0053】
ステップS102では、ボーカル観測信号dL(n),dR(n)の分散値から推定ハウリング信号^hL(n),^hR(n)の分散値を差し引いて得られる出力信号の分散値と、推定ハウリング信号^hL(n),^hR(n)の分散値と、入力信号^hL(n),^hR(n)とを用いて、状態方程式、及び観測方程式で表される状態空間モデルに、特許文献5に記載の有色駆動源カルマンフィルタを適用して、^出力信号dL(n),^dR(n)を求め、出力信号dL(n),^dR(n)を合成することにより推定した推定ボーカル信号dmy(n)を出力して処理を終了する。具体的な処理手順については、特許文献2を参照すればよいため、ここでは詳細な説明を省略する。特許文献2の手順により、初期設定、共分散行列の計算、カルマンゲイン行列の計算、ハウリング信号の除去、及び推定ボーカル信号の抽出の順に処理を行うようにすればよい。
【0054】
次に、ステップS100のハウリング推定の処理について
図4を参照して説明する。
【0055】
ステップS1100では、時間nについてn=1と設定する。
【0056】
ステップS1102では、ALEフィルタ計算部12L,12Rは、入力信号ベクトルuL(n),uR(n)と、忘却係数λと、相関係数行列P(n)とに基づいて(12)式により重みベクトルkL(n),kR(n)を算出する。
【0057】
ステップS1104では、算出した重みベクトルkL(n),kR(n)と、誤差ξL(n),ξR(n)とに基づいて、(3)式によりALEフィルタ係数^cL(n),^cR(n)を更新する。
【0058】
ステップS1106では、当該時間nのフィルタ係数を(4)式のように適用して、推定ハウリング信号^hL(n),^hR(n)を抽出する。
【0059】
ステップS1108では、時間nをn=n+1とする。
【0060】
ステップS1110では、ボーカル観測信号dL(n),dR(n)と、前の時間のフィルタ係数^cL(n-1),^cR(n-1)を当該時間nの入力信号ベクトルuL(n),uR(n)に適用して得られる推定ハウリング信号^hL(n),^hR(n)との誤差ξL(n),ξR(n)を算出する。
【0061】
ステップS1112では、n≦nmaxであるかを判定し、n≦nmaxであればステップS1102に戻って処理を繰り返し、n≦nmaxでなければステップS1114へ移行する。
【0062】
ステップS1114では、抽出された推定ハウリング信号^hL(n),^hR(n)の分散値を、(5)式により求める。
【0063】
[実験結果]
【0064】
第1の実施の形態のハウリング抑圧手法を検証するために行った実験の実験結果について説明する。実験のシミュレーション条件は以下の表1の通りである。
【0065】
【表1】
上記のシミュレーション条件で行った実験結果を
図5に示す。
図5では、第1の実施の形態の提案手法は、従来手法よりも約1.7s速いハウリング抑圧ができていることがわかる。また、従来法と同様に高精度なハウリング抑圧能力を有することがわかる。
【0066】
以上説明したように、第1の実施の形態に係る信号処理装置によれば、ボーカル観測信号を入力として、再帰型最小二乗法により、時間ごとに推定ハウリング信号を抽出することを繰り返し、有色駆動源付カルマンフィルタにより、ボーカル観測信号に含まれる推定ボーカル信号を抽出することにより、所望のボーカル信号を推定することができる。
【0067】
<第2の実施の形態>
【0068】
第2の実施の形態では、本発明の第1信号の一例を、例えばLチャネルマイクとRチャネルマイクとから構成されるステレオマイクの中央付近を音源位置とする広域雑音を含むボーカル観測信号とし、本発明の第2信号の一例を、例えばボーカル信号を観測する環境において生じる周期信号であるハウリング信号とする場合について説明する。
【0069】
第2の実施の形態では、予め取得しておいた手本のボーカル信号と、ボーカル観測信号のハウリングを除去することにより推定した推定ボーカル信号とを比較して評価した結果を表示するとともに、周波数特性を用いた学習を行う場合について説明する。
【0070】
図6に示すように、第2の実施の形態に係る信号処理装置200は、ハウリング除去部30と、周波数領域変換部32A,32Bと、教師データDB40と、比較部50と、表示部52と、学習部54とを含んで構成されている。なお、観測環境で観測された比較対象信号の一例が、ハウリング除去部30で推定された推定ボーカル信号である。
【0071】
教師データDB40には、予め抽出された教師信号である、手本となるボーカル信号(以下、「手本ボーカル信号」という)が格納されている。手本ボーカル信号は、上記特許文献5に記載の手法により、手本となる音源(例えば、CD音源)について観測された観測信号における多チャンネル信号を処理し、観測信号を楽曲信号とボーカル信号とに分離して有色駆動源カルマンフィルタを適用することにより抽出されたボーカル信号である。なお、複数の手本ボーカル信号を格納しておき、いずれの手本ボーカル信号に対応する評価、及び学習を行うかの選択の入力を受け付けるようにしてもよい。
【0072】
また、教師データDB40には、予め学習された、推定ボーカル信号が手本ボーカル信号に分類されるか否かを分類するための分類器が格納される。分類器としては、例えば、SVM(サポートベクターマシン)の識別直線を閾値として用いればよく、ビブラート、抑揚、旋律、しゃくり、こぶしなどに対応する周波数特性を表す特徴量を入力とする。練習ごとに、手本ボーカル信号から抽出される特徴量を正例とし、推定ボーカル信号から抽出される特徴量を負例として、学習データを生成し、学習データを用いて分類器が学習される。
【0073】
教師データDB40の分類器は、推定ボーカル信号が得られるごとに、学習部54による学習で更新される。また、学習部54の処理により、推定ボーカル信号の周波数特性を表す負例ラベルが学習ごとに学習データとして保存される。
【0074】
ハウリング除去部30は、上記第1の実施の形態の信号処理装置の各部により構成される処理部である。第1の実施の形態で説明したように、ボーカル観測信号dL(n),dR(n)を入力として受け付け、ボーカル観測信号のハウリングを除去した推定ボーカル信号dmy(n)を出力する。
【0075】
周波数領域変換部32A,32Bはそれぞれ、教師データDB40に格納されている手本ボーカル信号dexp(n)、及びハウリング除去部30で推定された推定ボーカル信号dmy(n)の各々に対してフーリエ変換を行うことにより、周波数解析を行い、手本ボーカル信号の周波数成分、及び推定ボーカル信号の周波数成分を求める。
【0076】
周波数領域変換部32A,32Bの各々は、
図7に示すように、所定フレーム長のフレーム内の手本ボーカル信号、及び推定ボーカル信号の各々を、以下(8)式によりフーリエ変換して、各周波数ビンのスペクトルに変換する。
【0077】
【0078】
手本ボーカル信号に対応するスペクトルを手本音声スペクトルDexp(l,k)、推定ボーカル信号に対応するスペクトルを本人音声スペクトルDmy(l,k)とする。
【0079】
比較部50は、周波数領域変換部32Bの手本ボーカル信号に対する周波数解析結果である手本音声スペクトルDexp(l,k)と、周波数領域変換部32Aの推定ボーカル信号に対する周波数解析結果である本人音声スペクトルDmy(l,k)とに基づいて、各時間に対し、周波数毎に、手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分とを比較して、評価する。
【0080】
図8に、フーリエ変換により得られた各周波数の手本音声スペクトルD
exp(l,k)、及び本人音声スペクトルD
my(l,k)の各々を時間方向に配置して並べて周波数解析結果を可視化し、それぞれのスペクトルを並べて3D描写して比較した場合の例を示す。
【0081】
比較部50は、以下に説明するように、振幅評価、及び帯域評価の各々により、手本ボーカル信号と推定ボーカル信号とを比較し、推定ボーカル信号を評価すると共に、学習評価により、推定ボーカル信号を評価する。
【0082】
まず、振幅評価について説明する。振幅評価では、各周波数、各時間ごとに、手本音声スペクトル、及び本人音声スペクトルの誤差E(l,k)を以下(9)式により算出し、誤差E(l,k)が閾値αampを超えた場合に音外れとして検出する。
【0083】
【0084】
図9に示すように、各周波数の手本音声スペクトル、及び本人音声スペクトルの差を、時間方向に配置して並べて、誤差E(l,k)が閾値α
ampを超えなかった場合は正確と評価する。誤差E(l,k)が閾値α
ampを超えた場合は、音外れと評価し、閾値α
ampを超えたスペクトル領域を音外れ領域と評価する。これにより、音外れのスペクトル領域を識別可能にし、表示部52で周波数成分の比較したときに両者の違い可視化できるようにする。
【0085】
次に、帯域評価について説明する。帯域評価では、
図10に示すように、低域周波数をk
Lとし、高域周波数をk
Hとして、特定の周波数帯域k
L~k
Hの範囲に着目して、各周波数、各時間ごとに、以下(10)式の特定の範囲の帯域誤差E
bnd(l,k)が閾値α
ampを超えた場合に音外れとして検出する。
【0086】
【0087】
帯域誤差Ebnd(l,k)が閾値αampを超えなかった場合は正確という評価結果とする。誤差Ebnd(l,k)が閾値αampを超えた場合は、音外れと評価し、閾値αampを超えたスペクトル領域を音外れ領域とする評価結果とする。
【0088】
次に、学習評価について説明する。学習評価では、教師データDB40に格納された分類器を用いて、推定ボーカル信号が手本ボーカル信号に分類されるか否かの分類結果を得る。分類には、手本音声スペクトル、及び本人音声スペクトルから周波数特性の特徴量を抽出して用いる。
【0089】
この分類器による分類により、推定ボーカル信号が手本ボーカル信号に分類されれば、上達したとみなすことができる。
【0090】
表示部52は、比較部50で各時間に対して得られた、周波数毎の、手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分とを重ね合わせた比較結果、及び手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分との差の比較結果を表示する。例えば、
図11に示すように、重ね合わせた比較結果と、差の比較結果とを表示する。
図11のように表示することにより、手本ボーカル信号と推定ボーカル信号とにどの程度のずれがあるかを比較できる。また、比較部50の分類結果を併せて表示する。表示部52では、重ね合わせた比較結果と、差の比較結果とを一画面に表示してもよいし、選択的に切り替えて表示させるようにしてもよい。
【0091】
また、
図12に示すように、特定の周波数帯域を拡大することで、周波数成分のより細かい変化を把握することができる。また、回転して表示することで、様々な角度から周波数成分の状況を把握できる。
【0092】
また、表示部52は、比較部50の比較結果に基づいて、振幅評価、帯域評価の各々の評価結果に応じて、周波数成分の差の度合いを識別できるように表示する。なお、予め定められた閾値の一例が、評価結果である。また、表示部52は、比較部50による学習評価の評価結果を表示する。
【0093】
例えば、振幅評価、及び帯域評価については、評価結果が正確であれば、例えば‘正確’と文字を表示し、評価結果が音外れであれば、例えば‘音外れ’と文字を表示すると共に、スペクトル領域について、閾値αampを超えた音外れ領域を赤色等に表示する。また、帯域評価については、‘kL~kHの範囲で音外れ’等、具体的な表示をしてもよい。学習評価については、推定ボーカル信号が手本ボーカル信号に分類され上達しているという評価結果だった場合は、例えば‘上達’と文字を表示し、手本ボーカル信号に分類されずに上達していないという評価結果だった場合は、例えば‘もっと練習しよう’と文字を表示する。
【0094】
また、
図13に示すように、差の比較結果を閾値α
ampを基準として、周波数成分の差の度合いをグリッド表示にすることで、手本ボーカル信号と、推定ボーカル信号との違いを簡素に表示することができる。
【0095】
学習部54は、学習評価では、手本ボーカル信号に対する周波数解析結果と、推定ボーカル信号に対する周波数解析結果とに基づいて、分類器を学習する。
【0096】
学習部54では、具体的には、まず、手本ボーカル信号に対する周波数特性を表す特徴量と、推定ボーカル信号に対する周波数特性を表す特徴量とを抽出する。次に、手本ボーカル信号から抽出される特徴量を正例(例えば‘0’のラベル)とし、推定ボーカル信号から抽出される特徴量を負例(例えば‘1’のラベル)として、正例又は負例のラベル付けをした特徴量を教師データDB40に保存する。そして、教師データDB40に格納されている正例又は負例のラベル付けをした周波数特性の特徴量を用いて、教師データDB40に格納されている分類器の識別直線を学習する。ここでは、ハウリング除去部30で推定された推定ボーカル信号の周波数特性の特徴量に、負例ラベルを付し、教師データDB40に格納されている、過去の推定ボーカル信号の周波数特性の特徴量に、負例ラベルを付して学習を行う。
【0097】
<本発明の第2の実施の形態に係る信号処理装置の作用>
【0098】
次に、本発明の第2の実施の形態に係る信号処理装置200の作用について説明する。なお第1の実施の形態と同様となる箇所については同一符号を付して詳細な説明を省略する。
【0099】
外部から入力された入力信号であるボーカル観測信号d
L(n),d
R(n)を受け付けると、信号処理装置200は、
図14に示す信号処理ルーチンを実行する。
【0100】
ステップS202では、教師データDB40に格納されている手本ボーカル信号に対する周波数解析結果と、信号推定部32で推定された推定ボーカル信号に対する周波数解析結果とに基づいて、各時間に対し、周波数毎に、手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分とを比較し、評価する。比較評価処理については後述する。
【0101】
ステップS202では、ステップS202で各時間に対して得られた、周波数毎の、手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分とを重ね合わせた比較結果、及び手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分との差の比較結果を、評価結果に応じて表示する。
【0102】
ステップS204では、手本ボーカル信号に対する周波数解析結果と、推定ボーカル信号に対する周波数解析結果とに基づいて、推定ボーカル信号が手本ボーカル信号に分類されるか否かを識別するための分類器を学習して処理を終了する。学習処理については後述する。
【0103】
上記ステップS202の比較評価処理は、詳細には、次の振幅評価処理ルーチン、帯域評価処理ルーチン、及び学習評価処理ルーチンの三つの処理ルーチンによって処理される。
【0104】
【0105】
ステップS2100で、手本音声スペクトルと、本人音声スペクトルとの誤差E(l,k)を(9)式により算出する。
【0106】
ステップS2102で、ステップS2100で算出した誤差E(l,k)が閾値αampを超えているか否かを判定し、超えていない場合には、ステップS2104へ移行し、超えていない場合には、ステップS2106へ移行する。
【0107】
ステップS2104で、推定ボーカル信号の振幅評価は正確と評価する。
【0108】
ステップS2106で、推定ボーカル信号の振幅評価は音外れと評価し、閾値αampを超えたスペクトル領域を音外れ領域と評価する。
【0109】
【0110】
ステップS2200で、手本音声スペクトル、及び本人音声スペクトルの誤差E(l,k)を(10)式により算出する。
【0111】
ステップS2202で、ステップS2200で算出した誤差Ebnd(l,k)が閾値αampを超えているか否かを判定し、超えていない場合には、ステップS2204へ移行し、超えている場合には、ステップS2206へ移行する。
【0112】
ステップS2204で、推定ボーカル信号の帯域評価は正確と評価する。
【0113】
ステップS2206で、推定ボーカル信号の帯域評価は音外れと評価し、閾値αampを超えたスペクトル領域を音外れ領域と評価する。
【0114】
【0115】
ステップS2300では、手本音声スペクトルから周波数特性の特徴量を抽出する。
【0116】
ステップS2302では、抽出した手本音声スペクトルの周波数特性の特徴量と、本人音声スペクトルから周波数特性の特徴量とに基づいて、教師データDB40の分類器により、推定ボーカル信号が、手本ボーカル信号に分類されるかを判定する。手本ボーカル信号に分類される場合には、ステップS2304へ移行する。手本ボーカル信号に分類されない場合には、ステップS2306へ移行する。
【0117】
ステップS2304では、推定ボーカル信号の学習評価は上達と評価する。
【0118】
ステップS2306では、推定ボーカル信号の学習評価は上達していないと評価する。
【0119】
次に、ステップS204の学習処理の詳細を
図18に示す。
【0120】
ステップS2400では、手本音声スペクトルから周波数特性の特徴量を抽出する。
【0121】
ステップS2402では、手本音声スペクトルの周波数特性の特徴量のラベルを正例のラベル(‘0’のラベル)として教師データDB40に保存する。
【0122】
ステップS2404では、本人音声スペクトルから周波数特性の特徴量を抽出する。
【0123】
ステップS2406では、本人音声スペクトルの周波数特性の特徴量のラベルを負例のラベル(‘1’のラベル)として教師データDB40に保存する。
【0124】
ステップS2408では、教師データDB40に格納されている正例又は負例のラベル付けをした周波数特性の特徴量を用いて、教師データDB40に格納されている分類器の識別直線を更新し、分類器を学習する。
【0125】
以上説明したように、第2の実施の形態に係る信号処理装置によれば、各時間に対し、周波数毎に、手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分とを比較し、周波数毎の、手本ボーカル信号の周波数成分と推定ボーカル信号の周波数成分とを重ね合わせた比較結果、及び差の比較結果を表示し、手本ボーカル信号に分類されるか否かを識別するための信号を学習することにより、入力されたボーカル信号の状況を特定することができる。
【0126】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0127】
例えば、上述した第2の実施の形態では、ハウリング除去部30で推定された推定ボーカル信号を用いて、比較部50、表示部52、学習部54の処理を行ったが、これに限定されるものではなく、例えば、ハウリングが生じにくい環境においてはハウリング除去部30のハウリング抑圧処理を省略し、推定ボーカル信号に代えて、入力されたボーカル観測信号を用いて、比較部50、表示部52、及び学習部54の処理を行うようにしてもよい。
【0128】
また、第2の実施の形態では、学習部54では、分類器として、手本ボーカル信号に分類されるか否かを分類するための分類器を学習する場合を例に説明したが、これに限定されるものではない。例えば、手本ボーカル信号について、周波数特性ごとに、当該周波数特性を持っているか否かに分類するための分類器を学習するようにしてよい。このようにすることで、比較部50で周波数特性ごとの分類器を用いて比較・評価し、表示部52で周波数特性ごとの評価結果を表示をすることができる。
【0129】
また、第2の実施の形態では、分類器にSVMを用いる場合を例に説明したが、これに限定されるものではない。例えば、他の学習手法として、予め手本ボーカル信号、及び推定ボーカル信号の周波数解析結果を入力としたニューラルネットワークを用いて分類器を学習するようにしてもよい。
【0130】
また、第2の実施の形態では、比較部50により、振幅評価、帯域評価、及び学習評価を行う場合を例に説明したが、これに限定されるものではない。例えば、振幅評価、帯域評価、及び学習評価のうちのいずれかを選択的に評価するようにしてもよい。
【符号の説明】
【0131】
12L,12R フィルタ計算部
14L,14R ハウリング信号抽出部
16L,16R 誤差算出部
18L,18R ハウリング信号分散値計算部
20L,20R ハウリング信号除去部
22 合成部
30 ハウリング除去部
32A,32N 周波数領域変換部
50 比較部
52 表示部
54 学習部
100、200 信号処理装置