(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6226465
(24)【登録日】2017年10月20日
(45)【発行日】2017年11月8日
(54)【発明の名称】オーディオ信号処理装置、録音再生装置およびプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20171030BHJP
G10K 15/04 20060101ALI20171030BHJP
G10L 21/028 20130101ALI20171030BHJP
【FI】
H04R3/00 310
G10K15/04 302D
G10L21/028 Z
【請求項の数】9
【全頁数】8
(21)【出願番号】特願2013-206704(P2013-206704)
(22)【出願日】2013年10月1日
(65)【公開番号】特開2015-73149(P2015-73149A)
(43)【公開日】2015年4月16日
【審査請求日】2016年7月29日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100114258
【弁理士】
【氏名又は名称】福地 武雄
(74)【代理人】
【識別番号】100125391
【弁理士】
【氏名又は名称】白川 洋一
(72)【発明者】
【氏名】河井 恒
(72)【発明者】
【氏名】堀内 俊治
【審査官】
大石 剛
(56)【参考文献】
【文献】
特開昭61−289576(JP,A)
【文献】
特開平10−171459(JP,A)
【文献】
特開平06−295191(JP,A)
【文献】
特開平11−344988(JP,A)
【文献】
特開平01−300472(JP,A)
【文献】
特開2008−145610(JP,A)
【文献】
特開2013−140234(JP,A)
【文献】
特開平06−348288(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10K 15/04
G10L 21/028
(57)【特許請求の範囲】
【請求項1】
目的音および妨害音を含む混合音を処理するオーディオ信号処理装置であって、
前記妨害音の音源となる妨害信号に遅延時間を与える遅延回路と、
前記混合音の音源となる混合信号および前記遅延時間が与えられた妨害信号を入力し、前記混合信号に含まれる妨害信号を低減させて目的音推定信号を出力する音源分離処理部と、
前記目的音推定信号と前記妨害信号とを混合し、出力する混合回路と、を備えることを特徴とするオーディオ信号処理装置。
【請求項2】
前記音源分離処理部は、雑音が支配的であることが既知である第1の入力信号と雑音または目的信号のいずれが支配的であるかが不明な第2の入力信号を入力し、前記第2の入力信号に対して雑音を低減し、目的信号を強調した信号を出力することを特徴とする請求項1記載のオーディオ信号処理装置。
【請求項3】
前記音源分離処理部は、時間周波数マスキング方式を用いて、入力信号を処理することを特徴とする請求項2記載のオーディオ信号処理装置。
【請求項4】
時間表現または周波数表現された前記妨害信号および時間表現または周波数表現された前記混合信号をそれぞれ記憶する記憶装置を更に備えることを特徴とする請求項1から請求項3のいずれかに記載のオーディオ信号処理装置。
【請求項5】
前記遅延回路は、前記妨害音と前記混合音との間の相互相関係数のピーク値、またはそれらの周波数表現の間の相互相関係数のピーク値に基づいて、前記遅延時間を計算することを特徴とする請求項1から請求項4のいずれかに記載のオーディオ信号処理装置。
【請求項6】
請求項1から請求項5のいずれかに記載のオーディオ信号処理装置を備える録音再生装置であって、
前記妨害音の再生開始時刻と前記混合音の録音開始時刻との時間差を記憶する記憶装置を更に備え、
前記遅延回路は、前記妨害音の再生開始時刻と前記混合音の録音開始時刻とに時間差が存在する場合は、前記時間差を初期値として前記遅延時間を計算することを特徴とする録音再生装置。
【請求項7】
前記遅延回路は、前記遅延時間を可変とすることを特徴とする請求項6記載の録音再生装置。
【請求項8】
前記混合回路は、前記混合信号に含まれる妨害信号と、前記目的音推定信号の比率を可変とすることを特徴とする請求項7記載の録音再生装置。
【請求項9】
目的音および妨害音を含む混合音を処理するオーディオ信号処理装置のプログラムであって、
前記妨害音の音源となる妨害信号に遅延時間を与える処理と、
前記混合音の音源となる混合信号および前記遅延時間が与えられた妨害信号を入力する処理と、
前記混合信号に含まれる妨害信号を低減させて目的音推定信号を出力する処理と、
前記目的音推定信号と前記妨害信号とを混合し、出力する処理と、の一連の処理を、コンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の録音再生において、混合音中に含まれる妨害音を抑制し、目的音を強調した上で出力する技術に関する。
【背景技術】
【0002】
従来から、音源を分離する技術が知られている。例えば、特許文献1記載の技術では、マイクの位置における再生信号を推定し、これを録音信号から差し引く手法が採用されている。
図2は、特許文献1に記載されている音源分離装置の概略構成を示す図である。
図2において、マイク18の出力信号には、信号Tをスピーカ14から出力した音に対応する信号T’と音声に対応する信号Vが、和の形で含まれている。信号Tは、スピーカ14からマイクロホン18までの電気音響特性の等価回路22に入力され、近似的に前記T’と等しい信号に変換される。マイク18の出力から等価回路22の出力を除去回路30により減じることにより、音声信号Vに近い信号が得られる。除去回路30の出力と信号Tをミキシング回路20において所望の比率で混合し、レコーダ103により記録する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平1−300472号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1記載の技術では、(a)音量調整、周囲の音響条件、製造上のばらつき、経年変化により等価回路のゲインもしくは周波数特性が変化し、妨害音の抑制が不十分になるという問題がある。また、(b)通常、録音再生装置内蔵のマイクロホンの位置では、妨害音の音圧レベルが目的音に比べてはるかに大きいため、妨害音の除去を十分に行なうことが難しい。また、(c)マイクロホンを録音再生装置から離すと、等価回路を逐次推定するために計算量が増大し、一般消費者向けの低価格な製品に適さない。さらに、(d)ミキシング後の信号を記録するため、聴取時にミキシング比率を変更できない。
【0005】
本発明は、このような事情に鑑みてなされたものであり、処理負荷を増やすことなく混合音中に含まれる妨害音を十分に抑制することができるオーディオ信号処理装置、録音再生装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のオーディオ信号処理装置は、目的音および妨害音を含む混合音を処理するオーディオ信号処理装置であって、前記妨害音の音源となる妨害信号に遅延時間を与える遅延回路と、前記混合音の音源となる混合信号および前記遅延時間が与えられた妨害信号を入力し、前記混合信号に含まれる妨害信号を低減させて目的音推定信号を出力する音源分離処理部と、前記目的音推定信号と前記妨害信号とを混合し、出力する混合回路と、を備えることを特徴とする。
【0007】
このように、妨害音の音源となる妨害信号に遅延時間を与え、混合音の音源となる混合信号および遅延時間が与えられた妨害信号を入力し、混合信号に含まれる妨害信号を低減させて目的音推定信号を出力し、目的音推定信号と妨害信号とを混合し、出力するので、処理負荷を増やすことなく混合音中に含まれる妨害音を十分に抑制することが可能となる。その結果、混合音を録音する際に、マイクロホンを目標音の音源の近くに設け、妨害音を出力するスピーカから離して設けることが可能となる。
【0008】
(2)また、本発明のオーディオ信号処理装置において、前記音源分離処理部は、雑音が支配的であることが既知である第1の入力信号と雑音または目的信号のいずれが支配的であるかが不明な第2の入力信号を入力し、前記第2の入力信号に対して雑音を低減し、目的信号を強調した信号を出力することを特徴とする。
【0009】
このように、雑音が支配的であることが既知である第1の入力信号と雑音または目的信号のいずれが支配的であるかが不明な第2の入力信号を入力し、第2の入力信号に対して雑音を低減し、目的信号を強調した信号を出力するので、雑音が支配的であったとしても、所望の音声信号を明確に再生することが可能となる。なお、「雑音が支配的である」とは、雑音のパワーが過半を占めることを意味する。
【0010】
(3)また、本発明のオーディオ信号処理装置において、前記音源分離処理部は、時間周波数マスキング方式を用いて、入力信号を処理することを特徴とする。
【0011】
このように、時間周波数マスキング方式を用いて、入力信号を処理するので、妨害信号の伝達経路の伝達関数を推定することなく、効果的な目的音の推定が可能となる。
【0012】
(4)また、本発明のオーディオ信号処理装置は、時間表現または周波数表現された前記妨害信号および時間表現または周波数表現された前記混合信号をそれぞれ記憶する記憶装置を更に備えることを特徴とする。
【0013】
このように、時間表現または周波数表現された前記妨害信号および時間表現または周波数表現された前記混合信号をそれぞれ記憶するので、処理負荷を下げることが可能となる。その結果、低価格の機器においてもリアルタイムに高速な処理を行なうことが可能となる。
【0014】
(5)また、本発明のオーディオ信号処理装置において、前記遅延回路は、前記妨害音と前記混合音との間の相互相関係数のピーク値、またはそれらの周波数表現の間の相互相関係数のピーク値に基づいて、前記遅延時間を計算することを特徴とする。
【0015】
このように、妨害音と混合音との間の相互相関係数のピーク値、またはそれらの周波数表現の間の相互相関係数のピーク値に基づいて、遅延時間を計算するので、簡易かつ迅速に所望の遅延時間を得ることが可能となる。
【0016】
(6)また、本発明の録音再生装置は、上記(1)から(5)のいずれかに記載のオーディオ信号処理装置を備える録音再生装置であって、前記妨害音の再生開始時刻と前記混合音の録音開始時刻との時間差を記憶する記憶装置を更に備え、前記遅延回路は、前記妨害音の再生開始時刻と前記混合音の録音開始時刻とに時間差が存在する場合は、前記時間差を初期値として前記遅延時間を計算することを特徴とする。
【0017】
このように、遅延回路は、妨害音の再生開始時刻と混合音の録音開始時刻とに時間差が存在する場合は、時間差を初期値として遅延時間を計算するので、再生と録音とのタイミングがずれていたとしても、適正な遅延時間を与えることが可能となる。
【0018】
(7)また、本発明の録音再生装置において、前記遅延回路は、前記遅延時間を可変とすることを特徴とする。
【0019】
このように、遅延回路は、遅延時間を可変とするので、例えば、ユーザの操作を契機として、遅延時間を任意に変更することが可能となる。
【0020】
(8)また、本発明の録音再生装置において、前記混合回路は、前記混合信号に含まれる妨害信号と、前記目的音推定信号の比率を可変とすることを特徴とする。
【0021】
このように、混合回路は、混合信号に含まれる妨害信号と、目的音推定信号の比率を可変とするので、ユーザの嗜好に応じて、目的音推定信号の再生音の大小(妨害信号の再生音の大小)を変更することが可能となる。
【0022】
(9)また、本発明のプログラムは、目的音および妨害音を含む混合音を処理するオーディオ信号処理装置のプログラムであって、前記妨害音の音源となる妨害信号に遅延時間を与える処理と、前記混合音の音源となる混合信号および前記遅延時間が与えられた妨害信号を入力する処理と、前記混合信号に含まれる妨害信号を低減させて目的音推定信号を出力する処理と、前記目的音推定信号と前記妨害信号とを混合し、出力する処理と、の一連の処理を、コンピュータに実行させることを特徴とする。
【0023】
このように、妨害音の音源となる妨害信号に遅延時間を与え、混合音の音源となる混合信号および遅延時間が与えられた妨害信号を入力し、混合信号に含まれる妨害信号を低減させて目的音推定信号を出力し、目的音推定信号と妨害信号とを混合し、出力するので、処理負荷を増やすことなく混合音中に含まれる妨害音を十分に抑制することが可能となる。その結果、混合音を録音する際に、マイクロホンを目標音の音源の近くに設け、妨害音を出力するスピーカから離して設けることが可能となる。
【発明の効果】
【0024】
本発明によれば、処理負荷を増やすことなく混合音中に含まれる妨害音を十分に抑制することが可能となる。その結果、混合音を録音する際に、マイクロホンを目標音の音源の近くに設け、妨害音を出力するスピーカから離して設けることが可能となる。
【図面の簡単な説明】
【0025】
【
図1】本実施形態に係る録音再生装置の概略構成を示すブロック図である。
【
図2】特許文献1に記載されている音源分離装置の概略構成を示す図である。
【発明を実施するための形態】
【0026】
本実施形態では、カラオケの練習等において、伴奏音楽を再生しつつ歌唱を行なって、それらの混合音を録音しておき、後で歌唱のみを聞きたい状況を想定する。聞きたい音は歌唱であるから、これを「目的音」と呼び、伴奏の音楽は不要な音であるから、これを「妨害音」と呼ぶ。マイクロホンにより集音された信号には、妨害音N(伴奏など)と目的音S(歌唱など)が混合され、含まれている。その混合信号から妨害信号を適当に遅延させた信号を引き去ることにより、目的音のみを得る。
【0027】
この時、単純な減算ではなく、時間周波数マスキング方式などの音源分離処理を行なうことにより、妨害信号の伝達経路の伝達関数を推定することなく、効果的な目的音の推定を可能とする。
【0028】
この時間周波数マスキング方式は、周波数表現された2つの信号を比較するものであるので、妨害信号の周波数分析を事前の適当な時に行なっておき、また混合信号の周波数分析を録音時またはそれ以降に行なっておけば、目的音推定時の計算負荷を軽減することが可能である。
【0029】
混合信号に対する妨害信号の遅延時間は、相関計算により自動的に計算しても良いが、より簡便には、目的音推定時に利用者が最も聞きやすい量になるよう手動で調整しても良い。再生と録音が同時に開始されない場合は、その時間差を記録しておき、自動もしくは手動調整の初期値として使用することにより、調整が容易となる。
【0030】
この時、収録時に目的音を推定した結果を記録するのではなく、混合信号を記録しておくことがポイントである。妨害信号は、もともと装置内に記録されているものであるから、新たに記録しなおす必要はない。
【0031】
図1は、本実施形態に係る録音再生装置の概略構成を示すブロック図である。録音再生機内の記録装置1に記録された妨害信号Nは、アンプにより増幅され、スピーカ4より音として空間中に出力され、スピーカ、空間の特性等の影響により、遅延、周波数特性の変化、残響付加、雑音付加などの変形を受け、信号N’としてマイクロホン5に到達する。マイクロホン5からは、N’と目的音Sが加法的に混合された音響信号(M=N’+S)が出力される。ここで、目的音は、発生源における信号ではなく、それが発生源からマイクロホン5の間の空間の特性等の影響により、遅延、周波数特性の変化、残響付加、雑音付加などの変形を受けた結果の信号であることに注意する必要がある。
【0032】
マイクロホン5は、ケーブルを使用するなどして、可能な限りスピーカ4より遠く、目的音源の近くに設置することが望ましい。
【0033】
混合信号Mは、時間信号そのままの形、オーディオ信号符号化方式で符号化した形、もしくは高速フーリエ変換等により周波数表現M
fに変換した形で記憶装置6に記録される。
【0034】
一方、妨害信号Nは、時間信号そのままの形、オーディオ信号符号化方式で符号化した形で、本件装置内、あるいは装置外の、たとえばインターネット上に記録されている。本件装置外に記録されている場合、あるいは、本件装置内の記憶装置2以外の場所に記録されている場合は、記録場所への参照情報があれば、いつでもデータそのものを入手可能である。そこで、記憶装置2には、当該参照情報、時間信号そのままの形、オーディオ信号符号化方式で符号化した形、もしくは高速フーリエ変換等により周波数表現N
fに変換された形で妨害信号のデータを記録する。
【0035】
遅延回路3では、妨害信号Nに対して遅延時間Dを与える。この時、妨害信号は時間領域、周波数領域いずれで表現されていても良い。遅延時間Dの大きさは、妨害信号N(もしくはN
f)と混合信号M(もしくはM
f)の相関計算により求めることもできる。時間周波数マスキング方式では、フレーム処理を行なっており、遅延時間の変化に対する音源分離性能の反応は比較的緩やかであるため、遅延量は、音源分離結果を聴取により確認しながら手動で調整することも可能である。典型的な遅延時間の範囲は、調整の範囲は、スピーカ04とマイクロホン05の距離が0.5〜2.0mの範囲にあるとした場合、1.5〜5.9msである。
【0036】
再生開始時刻と録音開始時刻の差D
0がゼロでない場合は、その値を記憶装置8に記録しておき、Dを自動的もしくは手動で決定する際の初期値として使用する。
【0037】
音源分離処理7では、妨害信号Nまたはその周波数表現N
fと、混合信号Mまたはその周波数表現M
fを入力し、混合信号Mから、その中に含まれる妨害信号Nの成分を低減し、同時に目的音の成分Sを強調したS’を出力する。時間周波数マスキング方式では、低減および強調の程度は0から1までの重みを単に乗算することで実現できるため、音源分離結果を聴取により確認しながら手動で調整することも可能である。
【0038】
混合回路10は、目的音推定信号S’と妨害信号Nとを混合させ、出力する。再生装置12は、入力された[S’+N]の信号をアンプにより増幅し、スピーカ等で出力する。なお、本実施形態に係る録音再生装置は、少なくとも遅延回路3、音源分離処理部7、混合回路10からなるオーディオ信号処理装置を含んでいる。
【0039】
音源分離処理7の処理アルゴリズムは、雑音が支配的であることが既知である入力1と雑音または目的信号のどちらが支配的であるかが不明な入力2が与えられ、入力2に対して雑音を低減し、目的信号を強調した信号を出力できるものであれば、どのようなものでも使用可能である。ここで、「雑音が支配的である」とは、雑音のパワーが過半を占めることを意味する。この処理アルゴリズムは、例えば、特許第5113096号明細書または特許第5107956号明細書に記載されているアルゴリズムを用いることが可能である。
【0040】
このように、本実施形態では、時間周波数マスキング方式を採用するために、妨害音伝達経路の伝達関数を推定する処理が不要である。この結果として、マイクロホン設置位置の自由度が高い。また、本実施形態では、妨害音および混合音の周波数表現を中間結果として記録しておくため、もともと時間周波数マスキング方式計算負荷が低い上こととあいまって、目的音抽出処理の演算負荷が低い。このため、普及価格帯のスマートホンのCPU(クロック周波数1GHz程度)でもリアルタイム処理が可能である。
【0041】
以上説明したように、本実施形態に係る録音再生装置は、時間周波数マスキング方式の音源分離アルゴリズムを採用することにより、音量調整、周囲の音響条件、製造上のばらつき、経年変化により等価回路のゲインもしくは周波数特性が変化し、妨害音の抑制が不十分になるという問題を解決した。また、音源分離アルゴリズムは、従来の等価回路における逐次推定が不要であり、計算量が少なくて済むため、マイクロホンを録音再生装置から離して設置することが可能となった。その結果、従来は難しかった妨害音の除去を十分に行なうことが可能となった。また、妨害信号の周波数分析を事前の任意の機会に行ない、集音信号の周波数分析を録音時に行なうことによって、計算量の増大を回避し、一般消費者向けの低価格な製品を提供することが可能となった。さらに、妨害音除去を再生時に行なうことによって、聴取時にミキシング比率を変更することが可能となった。
【符号の説明】
【0042】
1 記録装置
2 記憶装置
3 遅延回路
4 スピーカ
5 マイクロホン
6 記憶装置
7 音源分離処理
8 記憶装置
10 混合回路
12 再生装置