IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7605118信号処理装置、信号処理方法及びプログラム
<>
  • 特許-信号処理装置、信号処理方法及びプログラム 図1
  • 特許-信号処理装置、信号処理方法及びプログラム 図2
  • 特許-信号処理装置、信号処理方法及びプログラム 図3
  • 特許-信号処理装置、信号処理方法及びプログラム 図4
  • 特許-信号処理装置、信号処理方法及びプログラム 図5
  • 特許-信号処理装置、信号処理方法及びプログラム 図6
  • 特許-信号処理装置、信号処理方法及びプログラム 図7
  • 特許-信号処理装置、信号処理方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-16
(45)【発行日】2024-12-24
(54)【発明の名称】信号処理装置、信号処理方法及びプログラム
(51)【国際特許分類】
   G10L 21/0388 20130101AFI20241217BHJP
   G10L 21/0272 20130101ALI20241217BHJP
【FI】
G10L21/0388 100
G10L21/0272 100Z
【請求項の数】 13
(21)【出願番号】P 2021548384
(86)(22)【出願日】2020-07-22
(86)【国際出願番号】 JP2020028423
(87)【国際公開番号】W WO2021059718
(87)【国際公開日】2021-04-01
【審査請求日】2023-05-29
(31)【優先権主張番号】P 2019172688
(32)【優先日】2019-09-24
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100082762
【弁理士】
【氏名又は名称】杉浦 正知
(74)【代理人】
【識別番号】100123973
【弁理士】
【氏名又は名称】杉浦 拓真
(72)【発明者】
【氏名】高橋 直也
(72)【発明者】
【氏名】福井 隆郎
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2018/177611(WO,A1)
【文献】特開2011-075728(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/02-21/0388
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算する加算部と、
前記加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
を有し、
前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
信号処理装置。
【請求項2】
前記帯域拡張部は、前記音源分離信号の属性に応じた周波数帯域拡張処理を適用する
請求項1に記載の信号処理装置。
【請求項3】
f1前後の信号エネルギーの差分が所定以上である場合に前記不連続性があるものと検出される
請求項に記載の信号処理装置。
【請求項4】
前記帯域拡張部の出力信号に対して位相を回転させる処理を適用する位相回転部を有する
請求項1に記載の信号処理装置。
【請求項5】
前記位相回転部は、オールパスフィルタによって構成されている
請求項に記載の信号処理装置。
【請求項6】
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と、
を有し、
前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力し、
さらに、
所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
前記混合音信号と前記拡張帯域信号とを加算する加算部と
を有し、
前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
信号処理装置。
【請求項7】
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と、
前記周波数帯域拡張処理が適用された前記音源分離信号と前記周波数帯域拡張処理が適用されていない前記音源分離信号とを加算する加算部と、
前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定する判定部と
を有し、
前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
信号処理装置。
【請求項8】
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し
加算部が、音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算し、
周波数包絡整形部が、前記加算部から出力される合成出力信号の周波数包絡を整形し、
前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
信号処理方法。
【請求項9】
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し
加算部が、音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算し、
周波数包絡整形部が、前記加算部から出力される合成出力信号の周波数包絡を整形し、
前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
信号処理方法をコンピュータに実行させるプログラム。
【請求項10】
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力し、
ダウンコンバータが、所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用し、
加算部が、前記混合音信号と前記拡張帯域信号とを加算し、
前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
信号処理方法。
【請求項11】
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力し、
ダウンコンバータが、所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用し、
加算部が、前記混合音信号と前記拡張帯域信号とを加算し、
前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
信号処理方法をコンピュータに実行させるプログラム。
【請求項12】
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
加算部が、前記周波数帯域拡張処理が適用された前記音源分離信号と前記周波数帯域拡張処理が適用されていない前記音源分離信号とを加算し、
判定部が、前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定し、
前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
信号処理方法。
【請求項13】
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
加算部が、前記周波数帯域拡張処理が適用された前記音源分離信号と前記周波数帯域拡張処理が適用されていない前記音源分離信号とを加算し、
判定部が、前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定し、
前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
信号処理方法をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、信号処理装置、信号処理方法及びプログラムに関する。
【背景技術】
【0002】
複数の音源からの音が含まれる混合音信号から、目的とする音源の音の信号を抽出する音源分離技術が知られている(例えば、特許文献1を参照のこと)。また、低域成分の信号から高域成分を生成し、得られた高域成分を低域成分の信号に加算することで、より広い周波数帯域の信号を生成する周波数帯域拡張(拡大)技術が提案されている(例えば、特許文献2を参照のこと)。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開2018/047643号
【0004】
【文献】国際公開2015/079946号
【発明の概要】
【発明が解決しようとする課題】
【0005】
この分野では、適切な周波数帯域拡張処理等が行われることが望まれる。
【0006】
本開示は、適切な周波数帯域拡張処理等が行われる信号処理装置、信号処理方法及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0007】
本開示は、例えば、
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
音源分離信号毎に設けられた帯域拡張部のそれぞれの出力を加算する加算部と、
加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
を有し、
周波数包絡整形部は、周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、合成出力信号の周波数包絡を整形する
信号処理装置である。
また、本開示は、例えば、
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と、
を有し、
帯域拡張部は、周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力し、
さらに、
所定の周波数より高い高域成分を含む音源の信号を含む混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
混合音信号と拡張帯域信号とを加算する加算部と
を有し、
音源分離部は、ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
信号処理装置である。
また、本開示は、例えば、
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と、
周波数帯域拡張処理が適用された音源分離信号と周波数帯域拡張処理が適用されていない音源分離信号とを加算する加算部と、
音源分離信号に対して周波数帯域拡張処理を適用するか否かを判定する判定部と
を有し、
判定部は、音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に周波数帯域拡張処理を適用しないと判定し、音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に周波数帯域拡張処理を適用すると判定する
信号処理装置である。
【0008】
本開示は、例えば、
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し
加算部が、音源分離信号毎に設けられた帯域拡張部のそれぞれの出力を加算し、
周波数包絡整形部が、加算部から出力される合成出力信号の周波数包絡を整形し、
周波数包絡整形部は、周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、合成出力信号の周波数包絡を整形する
信号処理方法である。
また、本開示は、例えば、
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
帯域拡張部は、周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力し、
ダウンコンバータが、所定の周波数より高い高域成分を含む音源の信号を含む混合音信号に対して、ダウンサンプリング処理を適用し、
加算部が、混合音信号と拡張帯域信号とを加算し、
音源分離部は、ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
信号処理方法である。
また、本開示は、例えば、
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
加算部が、周波数帯域拡張処理が適用された音源分離信号と周波数帯域拡張処理が適用されていない音源分離信号とを加算し、
判定部が、音源分離信号に対して周波数帯域拡張処理を適用するか否かを判定し、
判定部は、音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に周波数帯域拡張処理を適用しないと判定し、音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に周波数帯域拡張処理を適用すると判定する
信号処理方法である。
【0009】
本開示は、例えば、
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し
加算部が、音源分離信号毎に設けられた帯域拡張部のそれぞれの出力を加算し、
周波数包絡整形部が、加算部から出力される合成出力信号の周波数包絡を整形し、
周波数包絡整形部は、周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、合成出力信号の周波数包絡を整形する
信号処理方法をコンピュータに実行させるプログラムである。
また、本開示は、例えば、
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
帯域拡張部は、周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力し、
ダウンコンバータが、所定の周波数より高い高域成分を含む音源の信号を含む混合音信号に対して、ダウンサンプリング処理を適用し、
加算部が、混合音信号と拡張帯域信号とを加算し、
音源分離部は、ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
信号処理方法をコンピュータに実行させるプログラムである。
また、本開示は、例えば、
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用し、
加算部が、周波数帯域拡張処理が適用された音源分離信号と周波数帯域拡張処理が適用されていない音源分離信号とを加算し、
判定部が、音源分離信号に対して周波数帯域拡張処理を適用するか否かを判定し、
判定部は、音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に周波数帯域拡張処理を適用しないと判定し、音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に周波数帯域拡張処理を適用すると判定する
信号処理方法をコンピュータに実行させるプログラムである。
【図面の簡単な説明】
【0010】
図1図1は、第1の実施形態に係る信号処理装置の構成例を示すブロック図である。
図2図2は、第1の実施形態に係る帯域拡張部の動作例を説明する際に参照される図である。
図3図3は、第2の実施形態に係る信号処理装置の構成例を説明する際に参照される図である。
図4図4は、第2の実施形態に係る信号処理装置において行われる処理を説明する際に参照される図である。
図5図5は、第2の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。
図6図6は、第3の実施形態に係る信号処理装置の構成例を説明する際に参照される図である。
図7図7は、第3の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。
図8図8は、第3の実施形態に係る信号処理装置の変形例を説明する際に参照される図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<実施形態において考慮すべき問題>
<第1の実施形態>
<第2の実施形態>
<第3の実施形態>
<変形例>
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。
【0012】
<実施形態において考慮すべき問題>
始めに、本開示の理解を容易とするために、実施形態において考慮すべき問題についての説明がなされる。上述したように、周波数帯域拡張処理(以下、帯域拡張処理と適宜、略称される)が行われる装置が知られている。帯域制限された音源の帯域を拡張する際、楽器など音源の種類によって周波数包絡(スペクトル包絡)が異なるため、正しく帯域拡張処理を行うことが困難であった。例えば、シンバル、パーカッションなどの打楽器や尺八、三味線、琴といった和楽器は非常に高い周波数まで成分を含むのに対し、ピアノやバイオリンなどの楽器は高周波に行くにつれての減衰が大きくなる特性がある。各音源が時間的にオーバラップしていない場合は、各時刻において音源の種類を推定し、種類に応じて帯域拡張処理の振る舞い(処理内容)を適宜、変えることは可能であるが、音楽などの場合、一般的に複数の種類の音源が同時になるため、音源の種類に応じて適切な帯域拡張処理を行うことが困難であった。
【0013】
また、近年48kHzより大きいサンプリングレートをもつハイレゾリューションオーディオ(以下、ハイレゾリューション音源と適宜、称する)が普及している。ハイレゾリューション音源の制作の際、ボーカルなどいくつかの音声はハイレゾリューション音源で収録されているが、多くの楽器は48kHz以下のサンプリングレートであるスタンダードレゾリューションオーディオ(以下、スタンダードレゾリューション音源と適宜、称する)で収録されていることがあり、再度のマスタリング工程(リマスタリング)ですべての楽器の音をハイレゾリューション化したいという要求がある。この際、ハイレゾリューション収録された音源は手を加えずに、ハイレゾリューション収録されていない音源のみに帯域拡張処理を適用することが好ましいが、ミキシング工程ですべての音源の音が混ざってしまうため、再度のマスタリング工程で音源ごとに帯域拡張処理を行うか否かを選択できない問題があった。本開示は、これらの点に鑑みてなされたものである。以下、本開示の詳細についての説明がなされる。
【0014】
<第1の実施形態>
[第1の実施形態に係る信号処理装置]
(構成例)
図1は、第1の実施形態に係る信号処理装置(信号処理装置1)の構成例を示すブロック図である。信号処理装置1は、例えば、音源分離部11と、帯域拡張部12と、加算部13とを有している。本実施形態では、音源分離部11に複数(例えば、N(Nは自然数)個)の音源の音(信号)が混合された混合音信号xが入力される。信号処理装置1は、音源の数に対応するN個の帯域拡張部(帯域拡張部121、帯域拡張部122・・・帯域拡張部12N)を有している。なお、個々の帯域拡張部を区別する必要がない場合には、帯域拡張部は、帯域拡張部12と適宜、総称される。
【0015】
音源分離部11は、混合音信号xに対して音源分離処理を適用することにより、各音源の種類に対応する信号である音源分離信号s1、s2・・sNを生成する。音源分離信号s1が帯域拡張部121に供給される。音源分離信号s2が帯域拡張部122に供給される。音源分離信号sNが帯域拡張部12Nに供給される。
【0016】
音源分離部11により行われる音源分離処理としては特定の処理に限定されるものでないが、例えば、DNN(Deep Neural Networks)を用いたマルチチャネルウィナーフィルタ(MWF(Multi Channel Wiener Filter))ベースの音源分離処理を適用することができる他、上述した特許文献1に記載された音源分離処理を適用することができる。特許文献1に記載された音源分離処理は、概略的には、時間的に異なる性質の出力をもつ異なる音源分離方式(具体的には、DNNとLSTM(Long Short Term Memory))を用いて振幅スペクトルを推定し、推定結果を所定の結合パラメータを用いて結合することにより音源分離信号を生成する処理である。勿論、音源分離部11により上述した音源分離処理とは異なる音源分離処理が行われても良い。
【0017】
帯域拡張部12は、音源分離部11により分離されたそれぞれの音源分離信号sに対して帯域拡張処理を適用する。帯域拡張部12は、例えば、低域の信号成分である音源分離信号sを入力信号とし、当該音源分離信号sに対して帯域拡張処理を施して、その結果得られる出力信号を、低域成分を含み、且つ、帯域が拡張された高域成分を含む出力信号j(出力信号j1、出力信号j2・・出力信号jN)として出力する。帯域拡張部12は、音源分離信号sに対して公知の帯域拡張処理、例えば、上述した特許文献2に記載された帯域拡張処理を適用する。なお、個々の帯域拡張部12には、どの種類の音源分離信号sが入力されるかが対応づけられている。
【0018】
なお、以下では、帯域拡張処理により拡張しようとする周波数成分の最も周波数が低い側の端を拡張開始帯域とし、拡張開始帯域よりも周波数が高い帯域の信号を高域成分と称するとともに、拡張開始帯域よりも周波数が低い帯域の信号を低域成分と適宜、称することとする。
【0019】
加算部13は、帯域拡張部12から出力される出力信号j(具体的には、出力信号j1、出力信号j2・・出力信号jN)を加算して、合成出力信号Sを生成して出力する。本実施形態では、信号処理装置1の出力である帯域拡張音源信号が合成出力信号Sとされている。
【0020】
(全体の動作例)
次に、信号処理装置1で行われる動作例についての説明がなされる。混合音信号xが音源分離部11に入力される。音源分離部11は、混合音信号xに対して音源分離処理を適用することにより音源分離信号sを生成して出力する。帯域拡張部12は、音源分離信号sに対して帯域拡張処理を適用することにより出力信号jを生成して出力する。加算部13は、各出力信号jを加算することにより合成出力信号Sを生成して出力する。
【0021】
(帯域拡張部の動作例)
ところで、上述した特許文献2に記載の帯域拡張処理は、混合音を前提にしているため、音源の属性、具体的には、音源の種類に応じた最適な帯域拡張処理を行うことについては考慮されていない。例えば、ドラムのシンバルなどは高い周波数まで包絡が減衰せずに伸びる。そこで、本実施形態では、音源の種類毎に最適な帯域拡張処理を行うために、音源の種類毎に、推定する高域成分(高周波帯域)の周波数包絡を設定する。具体的には、音源の種類に対応した帯域拡張処理のパラメータが設定され、当該パラメータを用いた帯域拡張処理が行われる。音源の種類(例えば、シンバル音)のみを教師データとして学習させられた高周波帯域を推定する機器が帯域拡張部として適用されても良い。
【0022】
図2は、音源の種類に応じた周波数包絡の一例を示す。図2の横軸は周波数(Hz)を示し、縦軸は音圧(dB)を示す。また、図2のf1は拡張開始帯域を示す。また、図2における拡張開始帯域f1以降の周波数包絡FE1は例えば音源がボーカルの周波数包絡を模式的に示しており、拡張開始帯域f1以降の周波数包絡FE2は例えば音源がシンバルの周波数包絡を模式的に示している。ボーカルに対応する帯域拡張部12には、周波数包絡FE1を生成するためのパラメータが設定されている。また、シンバルに対応する帯域拡張部12には、周波数包絡FE2を生成するためのパラメータが設定されている。これにより、各帯域拡張部12が自身に入力される音源の属性に応じた適切な帯域拡張処理を行うことができる。なお、パラメータは、帯域拡張処理の内容に応じて適切に設定される。
【0023】
<第2の実施形態>
次に、本開示の第2の実施形態についての説明がなされる。なお、第1の実施形態で説明された事項は、特に断らない限り第2の実施形態に対しても適用することができる。また、第1の実施形態と同一または同質の構成については同一の参照符号が付され、重複した説明が適宜、省略される。
【0024】
[第2の実施形態の概要]
各音源分離信号に対して独立に帯域拡張処理が行われる場合、帯域拡張処理のアルゴリズムによっては、合成出力信号Sの高域成分が不自然に強調されてしまうことがある。例えば、帯域拡張処理のアルゴリズムが、振幅スペクトルまたはその包絡のみを推定し、位相は一定の方法で複製する(例えば低域成分(低周波数域)と同じものを使う)アルゴリズムで、かつ音源分離アルゴリズムも分離音源ごとに位相が大きく変わらない場合、帯域拡張された各音源分離信号の高域信号は全て似た位相を持つ。したがって、例え各音源分離信号の振幅スペクトルまたはその包絡が正しく推定されていても、高域信号は全て似た位相を持つことから、合成出力信号Sの高域成分が本来よりも不自然に強調される虞がある。本実施形態は、係る事項に対応した構成を有する信号処理装置である。
【0025】
[第2の実施形態に係る信号処理装置]
(構成例)
図3は、第2の実施形態に係る信号処理装置(信号処理装置2)の構成例を示すブロック図である。信号処理装置2は、加算部13の後段に周波数包絡整形部21を有する点が信号処理装置1と異なっている。本実施形態では、周波数包絡整形部21の出力が帯域拡張音源信号とされる。
【0026】
周波数包絡整形部21は、加算部13から出力される合成出力信号Sの周波数包絡を整形する。例えば、拡張開始帯域(帯域拡張処理により拡張された周波数の下限)f1前後に所定の不連続性が検出された場合に、合成出力信号Sの周波数包絡を整形する。所定の不連続性の検出は、本実施形態では周波数包絡整形部21により行われるが、他の機能ブロックによって行われても良い。周波数包絡整形部21により周波数包絡が整形されることにより、拡張された高域成分の振幅が抑制され、高域成分が不自然に強調されてしまうことを防止することができる。
【0027】
(動作例)
本実施形態では、拡張開始帯域f1前後の信号エネルギーの差分が所定以上である場合に不連続性があるものと検出される。図4が参照されつつ、具体例についての説明がなされる。
【0028】
図4の横軸は周波数(Hz)を示し、縦軸は音圧(dB)を示す。また、図4のf1は拡張開始帯域を示す。また、図4における拡張開始帯域f1以降の周波数包絡(周波数包絡FE3~FE6)は、合成出力信号Sの高域成分の周波数包絡の例を示している。
【0029】
例えば、図4に示すように、拡張開始帯域f1の前後に所定の周波数帯域(f1-Δf)、(f1+Δf)が設定されて、各周波数帯域のエネルギーe(図4で斜線が付された箇所)が周波数包絡毎に求められる。低域側の周波数帯域におけるエネルギーをeL、高域側の周波数帯域におけるエネルギーをeHとし、不連続性を検出するための閾値をThとした場合に、下記の式1を満たす場合には拡張開始帯域f1の前後に不連続性が存在すると判断される。
(eH/eL)>Th ・・・(1)
【0030】
図4に示す例では、合成出力信号Sの高域成分の周波数包絡が周波数包絡FE3である場合に上述した式1を満たすことから、不連続性が存在すると検出される。周波数包絡FE3だと高域成分が不自然に強調されることから、周波数包絡整形部21により周波数包絡を整形する処理、具体的には、高域成分の振幅を抑制する処理が行われる。振幅を抑制する処理は、高域成分の振幅を一律に抑制しても良いし、所定の閾値より大きい振幅のみを抑制するようにしても良い。
【0031】
一方、図4に示す例では、合成出力信号Sの高域成分の周波数包絡が周波数包絡FE4~FE6である場合に上述した式1を満たさないことから、不連続性が存在しないと判断される。この場合には、高域成分が不自然に強調される虞がないことから、周波数包絡整形部21による処理は行われずに、合成出力信号Sが周波数包絡整形部21から出力される。
【0032】
以上説明した第2の実施形態によれば、帯域拡張処理が行われた場合に、拡張開始帯域以降の高域成分が不自然に強調されてしまうことを防止することができる。
【0033】
(変形例)
続いて、第2の実施形態に係る信号処理装置の変形例についての説明がなされる。図5は、変形例に係る信号処理装置(信号処理装置2A)の構成例を示すブロック図である。
【0034】
信号処理装置2Aは、周波数包絡整形部21を有しておらず、その代わりに、位相回転部22を有している。位相回転部22は、帯域拡張部12と加算部13との間に設けられている。具体的には、信号処理装置2Aは、帯域拡張部12に対応した数の位相回転部22(位相回転部221、222、・・・22N)を有している。各位相回転部22からの出力信号が加算部13により加算される。
【0035】
位相回転部22は、帯域拡張部12により帯域拡張された出力信号jの高域成分を、音源に応じて異なる位相をもつように位相を回転(変更)する。位相回転部22は、例えば、振幅に影響を与えることなく位相をシフトできるフィルタ、具体的には、オールパスフィルタにより構成される。
【0036】
位相回転部22により、例えば位相がランダムに回転させられるので、帯域拡張音源信号の高域成分が不自然に強調されてしまうことを防止することができる。また、人間の聴覚特性は高域での位相の変化に鈍感であるため、ユーザに聴感上の違和感を与えてしまうことなく、帯域拡張音源信号の高域成分が不自然に強調されてしまうことを防止することができる。
【0037】
<第3の実施形態>
次に、本開示の第3の実施形態についての説明がなされる。なお、第1、第2の実施形態で説明された事項は、特に断らない限り第3の実施形態に対しても適用することができる。また、第1、第2の実施形態と同一または同質の構成については同一の参照符号が付され、重複した説明が適宜、省略される。
【0038】
[第3の実施形態の概要]
上述したように、ハイレゾリューション音源(例えば、拡張開始帯域f1以降の高域成分を含む音源)とスタンダードレゾリューション音源(例えば、拡張開始帯域f1以降の高域成分を含まない音源)が含まれる音源(以下、混合音源と適宜、称する)のうち、スタンダードレゾリューション音源のみに対して帯域拡張処理を適用したい要求が存在する。本実施形態は、係る要求に対応する実施形態である。なお、混合音源の帯域は拡張開始帯域f1以降の高域を含む。
【0039】
[第3の実施形態に係る信号処理装置]
(構成例)
図6は、第3の実施形態に係る信号処理装置(信号処理装置3)の構成例を示すブロック図である。信号処理装置3は、信号処理装置1と同様に、音源分離部11と、帯域拡張部12(例えば、帯域拡張部121、122)と、加算部13とを有している。音源分離部11には混合音源の信号(以下、混合音源信号x1と適宜、称する)が入力される。信号処理装置3は、混合音源信号x1が音源分離部11だけでなく加算部13に入力される系を有している点が、信号処理装置1と異なっている。
【0040】
(動作例)
続いて、信号処理装置3の動作例についての説明がなされる。混合音源信号x1が音源分離部11により音源種類毎に分離されることにより、音源分離信号sが生成される。音源種類毎の音源分離信号sのうち、ハイレゾリューション録音されていない音源分離信号(本例では、音源分離信号s1、s2)のみが、対応する帯域拡張部121、122のそれぞれに供給される。帯域拡張部121は、帯域拡張処理を行うことにより音源分離信号s1の帯域を拡張する。また、帯域拡張部122は、帯域拡張処理を行うことにより音源分離信号s2の帯域を拡張する。
【0041】
帯域拡張部121は、帯域拡張処理を適用して得られる出力信号のうち、拡張開始帯域f1以降の高域成分のみの信号である拡張帯域信号p1を加算部13に出力する。また、帯域拡張部122は、帯域拡張処理を適用して得られる出力信号のうち、拡張開始帯域f1以降の高域成分のみの信号である拡張帯域信号p2を加算部13に出力する。ここで、帯域拡張部121、122が拡張帯域信号のみを加算部13に出力するのは、音源分離信号s1、s2の低域成分は、加算部13に入力される混合音源信号x1に含まれているからである。
【0042】
加算部13は、拡張帯域信号p1、p2および混合音源信号x1を加算することにより帯域拡張音源信号を生成して出力する。
【0043】
以上説明した第3の実施形態によれば、ハイレゾリューション録音された音源信号の高域成分は変えることなく、ハイレゾリューション録音されていない音源信号のみを帯域拡張することが可能となる。なお、上述した説明では、ハイレゾリューション録音されていない音源分離信号として音源分離信号s1、s2が例示されたが、混合音源信号x1により多くのハイレゾリューション録音されていない音源分離信号が含まれていても良い。
【0044】
(変形例1)
図7は、第3の実施形態に係る信号処理装置の変形例を示すブロック図である。上述した例では、信号処理装置3の音源分離部11が、ハイレゾリューション音源を含む音源を音源分離できる性能を有している例を想定しているが、音源分離部11の性能がハイレゾリューション音源を含む音源を音源分離できない場合も想定される。
【0045】
この場合には、図7に示すように、本変形例に係る信号処理装置(信号処理装置3A)の音源分離部11は、混合音源信号x1に対してダウンサンプリング処理を適用するダウンコンバータ11Aを有している。ダウンコンバータ11Aにダウンサンプリングを行うことにより、混合音源信号x1に対する音源分離部11による音源分離部11が可能となる。係る構成の場合は、例えば、帯域拡張部121がアップコンバータ12A1を有し、アップサンプリングが行われた後に帯域拡張部121による帯域拡張処理が行われる。同様に、帯域拡張部122がアップコンバータ12A2を有し、アップサンプリングが行われた後に帯域拡張部122による帯域拡張処理が行われる。アップコンバータ12A1、12A2による処理は、帯域拡張部121、122のそれぞれの前段で行われても良い。
【0046】
(変形例2)
図8は、第3の実施形態に係る信号処理装置の他の変形例を示すブロック図である。本変形例に係る信号処理装置(信号処理装置3B)の音源分離部11は、判定部11Bを有している。なお、信号処理装置3Bの音源分離部11は、ハイレゾリューション音源を含む音源を音源分離できる性能を有している例を想定している。
【0047】
信号処理装置3Bでは、混合音源信号x1が、加算部13に供給されずに音源分離部11に対してのみ供給される。音源分離部11は、混合音源信号x1に対して音源分離処理を行うことにより、音源分離信号s1、s2およびハイレゾリューション録音された音源信号に対応する音源分離信号hmを生成する。判定部11Bは、各音源分離信号に対して、後段で帯域拡張処理を適用するか否かを判定する。判定部11Bは、音源分離信号に高域成分が含まれる場合には当該音源分離信号に帯域拡張処理を適用する必要がないと判定し、当該音源分離信号を加算部13に出力する。本変形例では、音源分離信号hmが、帯域拡張処理を適用する必要がないと判定部11Bにより判定され、音源分離部11から加算部13に供給される。
【0048】
また、判定部11Bは、音源分離信号に高域成分が含まれない場合には当該音源分離信号に帯域拡張処理を適用する必要があると判定し、当該音源分離信号を帯域拡張部12に出力する。本変形例では、音源分離信号s1、s2が、帯域拡張処理を適用する必要があると判定部11Bにより判定され、帯域拡張部121、122のそれぞれに供給される。
【0049】
帯域拡張部121は、音源分離信号s1に対する帯域拡張処理を適用することにより出力信号j1を生成する。信号処理装置3Bに係る構成では、混合音源信号x1が加算部13に供給されないことから、帯域拡張部121は、拡張帯域信号ではなく低域成分を含む出力信号j1を加算部13に出力する。また、帯域拡張部122は、音源分離信号s2に対する帯域拡張処理を適用することにより出力信号j2を生成する。信号処理装置3Bに係る構成では、混合音源信号x1が加算部13に供給されないことから、帯域拡張部122は、拡張帯域信号ではなく低域成分を含む出力信号j2を加算部13に出力する。加算部13は、音源分離信号hm、出力信号j1および出力信号j2を加算する。
【0050】
本変形例に係る信号処理装置3Bによれば、上述した信号処理装置3の構成に基づいて得られる効果と同様の効果を得ることができる。また、本変形例に係る信号処理装置3Bによれば、帯域拡張処理を適用すべきか否かが自動で判定されるので、例えば、リマスタリング工程で、ユーザがどの音源分離信号に対して帯域拡張処理を適用すべきかを事前に把握して帯域拡張処理を適用するか否かを選択する必要がなくなる。
【0051】
<変形例>
以上、本開示の複数の実施形態について説明したが、本開示は、上述した実施形態に限定されることはなく、本開示の趣旨を逸脱しない範囲で種々の変形が可能である。
【0052】
上述した実施形態では、音源の属性として音源の種類を挙げたか、音源の信号的な性質等、他の属性であっても良い。
【0053】
音源分離部としてDNNやLSTMが適用される場合に、一般にネットワークの入力は混合音信号の振幅スペクトルとされ、教師データは、目的とする音源の音の振幅スペクトルとされるが、学習における教師データとして音源分離後の音源分離信号が用いられても良い。
【0054】
本開示は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成を採用することもできる。
【0055】
また、本開示は、装置、方法、プログラム、システム等、任意の形態により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。
【0056】
本開示は、以下の構成も採ることができる。
(1)
複数の音源の信号が混合された混合音信号に対して音源分離処理を適用する音源分離部と、
前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する帯域拡張部と
を有する信号処理装置。
(2)
前記帯域拡張部は、前記音源分離信号の属性に応じた周波数帯域拡張処理を適用する
(1)に記載の信号処理装置。
(3)
音源分離信号毎に設けられた前記帯域拡張部のそれぞれの出力を加算する加算部と、
前記加算部から出力される合成出力信号の周波数包絡を整形する周波数包絡整形部と
を有する
(1)又は(2)に記載の信号処理装置。
(4)
前記周波数包絡整形部は、前記周波数帯域拡張処理により拡張された周波数の下限をf1とした場合に、f1前後に所定の不連続性が検出された場合に、前記合成出力信号の周波数包絡を整形する
(3)に記載の信号処理装置。
(5)
f1前後の信号エネルギーの差分が所定以上である場合に前記不連続性があるものと検出される
(4)に記載の信号処理装置。
(6)
前記帯域拡張部の出力信号に対して位相を回転させる処理を適用する位相回転部を有する
(1)又は(2)に記載の信号処理装置。
(7)
前記位相回転部は、オールパスフィルタによって構成されている
(6)に記載の信号処理装置。
(8)
前記帯域拡張部は、前記周波数帯域拡張処理により拡張された帯域の信号である拡張帯域信号のみを出力する
(1)に記載の信号処理装置。
(9)
所定の周波数より高い高域成分を含む音源の信号を含む前記混合音信号に対して、ダウンサンプリング処理を適用するダウンコンバータと、
前記混合音信号と前記拡張帯域信号とを加算する加算部とを有し、
前記音源分離部は、前記ダウンサンプリング処理が適用された信号に対して音源分離処理を適用する
(8)に記載の信号処理装置。
(10)
前記周波数帯域拡張処理が適用された前記音源分離信号と前記帯域拡張処理が適用されていない前記音源分離信号とを加算する加算部を有する
(1)に記載の信号処理装置。
(11)
前記音源分離信号に対して前記周波数帯域拡張処理を適用するか否かを判定する判定部を有する
(10)に記載の信号処理装置。
(12)
前記判定部は、前記音源分離信号に所定の周波数以上の高域成分が含まれる場合には当該音源分離信号に前記周波数帯域拡張処理を適用しないと判定し、前記音源分離信号に所定の周波数以上の高域成分が含まれない場合には当該音源分離信号に前記周波数帯域拡張処理を適用すると判定する
(11)に記載の信号処理装置。
(13)
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
信号処理方法。
(14)
音源分離部が、複数の音源の信号が混合された混合音信号に対して音源分離処理を適用し、
帯域拡張部が、前記音源分離部により分離されたそれぞれの音源分離信号に対して周波数帯域拡張処理を適用する
信号処理方法をコンピュータに実行させるプログラム。
【符号の説明】
【0057】
1,2,2A,3,3A,3B・・・信号処理装置
11・・・音源分離部
11A・・・ダウンコンバータ
12・・・帯域拡張部
13・・・加算部
21・・・周波数包絡整形部
22・・・位相回転部
図1
図2
図3
図4
図5
図6
図7
図8