特許第6299140号(P6299140)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許6299140-音響処理装置および音響処理方法 図000002
  • 特許6299140-音響処理装置および音響処理方法 図000003
  • 特許6299140-音響処理装置および音響処理方法 図000004
  • 特許6299140-音響処理装置および音響処理方法 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6299140
(24)【登録日】2018年3月9日
(45)【発行日】2018年3月28日
(54)【発明の名称】音響処理装置および音響処理方法
(51)【国際特許分類】
   G10L 25/93 20130101AFI20180319BHJP
   G10L 25/81 20130101ALI20180319BHJP
   G10L 15/02 20060101ALI20180319BHJP
【FI】
   G10L25/93
   G10L25/81
   G10L15/02 200D
【請求項の数】6
【全頁数】10
(21)【出願番号】特願2013-216141(P2013-216141)
(22)【出願日】2013年10月17日
(65)【公開番号】特開2015-79122(P2015-79122A)
(43)【公開日】2015年4月23日
【審査請求日】2016年8月23日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】有元 慶太
(72)【発明者】
【氏名】近藤 多伸
(72)【発明者】
【氏名】高橋 祐
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 特開2013−037152(JP,A)
【文献】 国際公開第2004/111996(WO,A1)
【文献】 特開2009−186687(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00−25/93
G10L 21/00−21/18
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
利用者が楽曲を歌唱した歌唱音を表す参照音響信号について有声区間と無声区間とを特定する音声解析手段と、
前記楽曲の歌唱音と伴奏音との混合音の音響信号のうち前記音声解析手段が特定した有声区間について歌唱音の有声成分を分離する有声分離手段と、
前記音響信号のうち前記音声解析手段が特定した無声区間について歌唱音の無声成分を分離する無声分離手段と、
前記有声分離手段が分離した有声成分と前記無声分離手段が分離した無声成分とを合成する合成処理手段と
を具備する音響処理装置。
【請求項2】
前記音声解析手段は、
前記参照音響信号の有声区間と無声区間とを特定する区間特定手段と、
前記参照音響信号に対する歌詞認識で前記無声区間のうち歌唱音の子音に対応する子音区間を特定する歌詞認識手段とを含み、
前記無声分離手段は、前記音響信号のうち前記歌詞認識手段が特定した子音区間について歌唱音の無声成分を分離する
請求項1の音響処理装置。
【請求項3】
前記歌詞認識手段は、前記参照音響信号の子音を前記歌詞認識で特定し、
前記無声分離手段は、相異なる子音の周波数特性を表す複数の基底行列のうち、前記歌詞認識手段が特定した子音の基底行列を教師情報として利用した教師あり非負値行列因子分解で無声成分を分離する
請求項2の音響処理装置。
【請求項4】
前記参照音響信号のうち前記区間特定手段が特定した無声区間を利用した学習処理で前記基底行列を生成する学習処理手段
を具備する請求項3の音響処理装置。
【請求項5】
前記参照音響信号のうち前記区間特定手段が特定した無声区間を利用した学習処理で前記基底行列を生成する学習処理手段を具備し、
前記無声分離手段は、前記学習処理手段が生成した基底行列を教師情報として利用した教師あり非負値行列因子分解で無声成分を分離する
請求項3の音響処理装置。
【請求項6】
コンピュータが、
利用者が楽曲を歌唱した歌唱音を表す参照音響信号について有声区間と無声区間とを特定し、
前記楽曲の歌唱音と伴奏音との混合音の音響信号のうち前記有声区間について歌唱音の有声成分を分離し、
前記音響信号のうち前記無声区間について歌唱音の無声成分を分離し、
前記有声成分と前記無声成分とを合成する
音響処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響を表す音響信号を処理する技術に関する。
【背景技術】
【0002】
相異なる音源が発音した複数の音響成分の混合音から特定の音響成分を分離する音源分離技術が従来から提案されている。例えば非特許文献1や非特許文献2には、調波特性(source)と包絡特性(filter)とで歌唱音の周波数特性を表現するソースフィルタモデルを利用して、楽曲の歌唱音と伴奏音との混合音の音響信号から歌唱音を分離する技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Jean-Louis Durrieu, et al., "MAIN INSTRUMENT SEPARATION FROM STEREOPHONIC AUDIO SIGNALS USING A SOURCE/FILTER MODEL", in Proc. EUSIPCO, p.15-18, 2009
【非特許文献2】Jean-Louis Durrieu, et al., "A musically motivated mid-level representation for pitch estimation and musical audio source separation", IEEE Journal of Selected Topics on Signal Processing 5(6), p.1180-1191, 2011
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1や非特許文献2の技術のもとでは、実際には歌唱音が存在しない区間において、音響特性が歌唱音に類似する音響成分(例えば子音の音響特性に類似する打楽器の演奏音の音響成分)が歌唱音として誤抽出される可能性がある。以上の事情を考慮して、本発明は、音響信号から高精度に歌唱音を分離することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の音響処理装置は、利用者が楽曲を歌唱した歌唱音を表す参照音響信号について有声区間と無声区間とを特定する音声解析手段と、楽曲の歌唱音と伴奏音との混合音の音響信号のうち音声解析手段が特定した有声区間について歌唱音の有声成分を分離する有声分離手段と、音響信号のうち音声解析手段が特定した無声区間について歌唱音の無声成分を分離する無声分離手段と、有声分離手段が分離した有声成分と無声分離手段が分離した無声成分とを合成する合成処理手段とを具備する。以上の構成では、利用者が楽曲を歌唱した歌唱音の参照音響信号から有声区間と無声区間とが特定され、音響信号の有声区間から有声成分が分離されるとともに無声区間から無声成分が分離される。したがって、参照音響信号を利用せずに音響信号から有声成分および無声成分を分離する構成と比較して高精度に歌唱音を分離できるという利点がある。
【0006】
なお、有声区間とは、調波構造が明確に観測される有声成分が優勢に存在する区間を意味する。他方、無声区間とは、調波構造が明確に観測されない無声成分が優勢に存在する区間であり、音声が存在しない無音区間とは区別される。
【0007】
本発明の好適な態様において、音声解析手段は、参照音響信号の有声区間と無声区間とを特定する区間特定手段と、参照音響信号に対する歌詞認識で無声区間のうち歌唱音の子音に対応する子音区間を特定する歌詞認識手段とを含み、無声分離手段は、音響信号のうち歌詞認識手段が特定した子音区間について歌唱音の無声成分を分離する。以上の態様では、参照音響信号の無声区間のうち歌唱音の子音に対応する子音区間が歌詞認識で特定され、音響信号の子音区間から無声成分が分離される。したがって、参照音響信号が歌唱音の子音以外の無声音を包含する場合でも、音響信号から高精度に歌唱音を分離できるという利点がある。
【0008】
本発明の好適な態様において、歌詞認識手段は、参照音響信号の子音を歌詞認識で特定し、無声分離手段は、相異なる子音の周波数特性を表す複数の基底行列のうち、歌詞認識手段が特定した子音の基底行列を教師情報として利用した教師あり非負値行列因子分解で無声成分を分離する。以上の態様では、参照音響信号の歌詞認識で特定された子音に対応する基底行列が、音響信号から無声成分を分離するための教師あり非負値行列因子分解に適用される。したがって、音響信号のうち歌唱音の子音を高精度に無声成分として分離できるという利点がある。
【0009】
本発明の好適な態様に係る音響処理装置は、参照音響信号のうち区間特定手段が特定した無声区間を利用した学習処理で基底行列を生成する学習処理手段を具備する。以上の態様では、無声成分の分離に適用される基底行列が参照音響信号に対する学習処理で生成されるから、基底行列を事前に用意する必要がないという利点がある。なお、学習処理手段を具備する構成にとって歌詞認識手段の有無は不問である。
【0010】
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音響処理装置の動作方法(音響処理方法)としても特定される。
【図面の簡単な説明】
【0011】
図1】本発明の第1実施形態に係る音響処理装置の構成図である。
図2】音響処理装置の具体的な構成図である。
図3】音響処理装置の動作のフローチャートである。
図4】第2実施形態に係る音響処理装置の構成図である。
【発明を実施するための形態】
【0012】
図1は、本発明の第1実施形態に係る音響処理装置100の構成図である。図1に例示される通り、音響処理装置100には信号供給装置12と放音装置14と収音装置16とが接続される。信号供給装置12は、音響信号SAを音響処理装置100に供給する。音響信号SAは、音響特性が相違する複数の音響成分(例えば音声や楽音)の混合音の波形を表す時間領域信号である。例えば可搬型または内蔵型の記録媒体(典型的には音楽CD)から音響信号SAを取得して音響処理装置100に供給する再生装置が信号供給装置12として採用され得る。なお、信号供給装置12を音響処理装置100と一体に構成することも可能である。
【0013】
第1実施形態では、特定の楽曲(以下「対象楽曲」という)の歌唱音と伴奏音との混合音の音響信号SAが信号供給装置12から音響処理装置100に供給される。歌唱音は、有声成分と無声成分とを包含し得る。有声成分は、基音成分と複数の倍音成分とを周波数軸上で基本周波数の整数倍の周波数に配列した調波構造(倍音構造)が観測される音響成分である。無声成分は、明確な調波構造が観測されない音響成分である。典型的には、歌唱音の母音が有声成分に相当し、摩擦音や破裂音等の子音(無声子音)が無声成分に相当する。他方、伴奏音は、相異なる複数種の楽器の楽音を含んで構成される。
【0014】
第1実施形態の音響処理装置100は、信号供給装置12から供給される音響信号SAに対する音響処理で音響信号SBを生成する信号処理装置(音源分離装置)である。音響信号SBは、音響信号SAに包含される歌唱音を分離した音響(すなわち楽曲の伴奏音を抑制した音響)の波形を表す時間領域信号である。放音装置14(例えばスピーカやヘッドホン)は、音響処理装置100が生成した音響信号SBに応じた音波を放射する。なお、音響信号SBをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
【0015】
収音装置16は、周囲の音響を収音して音響の時間波形を表す音響信号を生成する。第1実施形態の収音装置16は、利用者が対象楽曲(歌唱パート)を歌唱した歌唱音の音響信号(以下「参照音響信号」という)SREFを音響処理装置100に供給する。収音装置16から音響処理装置100に対する参照音響信号SREFの供給(利用者による対象楽曲の歌唱)と、音響信号SAの音響処理および処理後の音響信号SBの再生とが、実時間的に並行して実行される。なお、参照音響信号SREFをアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
【0016】
図1に例示される通り、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体または磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として任意に採用される。音響信号SAを記憶装置24に記憶した構成(したがって信号供給装置12は省略され得る)も好適である。
【0017】
第1実施形態の記憶装置24は、相異なる子音に対応する複数の基底行列Mを記憶する。任意の1種類の子音に対応する基底行列Mは、当該子音の周波数特性を表現する音響モデル(子音モデル)である。第1実施形態の基底行列Mは、図1に例示される通り、典型的な子音の周波数特性(周波数スペクトル)を表す複数の基底ベクトルmを列方向に配列した非負値行列であり、音響信号SAに対する非負値行列因子分解(NMF:Non-negative Matrix Factorization)にて教師情報(事前情報)として利用される。
【0018】
演算処理装置22は、記憶装置24に記憶されたプログラムを実行することで、音響信号SAから音響信号SBを生成するための複数の機能(音声解析部32,信号処理部34)を実現する。音声解析部32は、収音装置16から供給される参照音響信号SREFの音響特性を解析する。信号処理部34は、音声解析部32による参照音響信号SREFの解析の結果を利用して音響信号SAから音響信号SBを生成する。すなわち、第1実施形態では、利用者が対象楽曲を歌唱した歌唱音の参照音響信号SREFが、音響信号SAに対する音源分離を補助する情報として利用される。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置22の一部の機能を実現する構成も採用され得る。また、実際には、時間領域の音響信号SAを例えば離散フーリエ変換で周波数領域に変換する要素や、周波数領域の音響信号SBを例えば離散逆フーリエ変換で時間領域に変換する要素が設置されるが、以下では説明や図示を便宜的に省略する。
【0019】
図2は、音響処理装置100の具体的な構成図である。音声解析部32は、収音装置16から供給される参照音響信号SREFから時間軸上の有声区間QV(V:Voiced)と無声区間QU(U:Unvoiced)とを順次に特定する。有声区間QVは、参照音響信号SREFの音声区間(音声が存在する区間)のうち有声成分が優勢に存在する区間であり、無声区間QUは、参照音響信号SREFの音声区間のうち無声成分が優勢に存在する区間である。図2に例示される通り、第1実施形態の音声解析部32は、区間特定部42と歌詞認識部44とを含んで構成される。
【0020】
区間特定部42は、参照音響信号SREFの有声区間QVと無声区間QU0(無声区間QUの基礎となる区間)とを順次に特定する。有声区間QVおよび無声区間QU0の特定には公知の技術が任意に採用される。例えば、区間特定部42は、参照音響信号SREFのうち歌唱音が存在する音声区間を公知の音声区間検出(VAD:Voice Activity Detection)で検出し、音声区間のうち有意な音高(ピッチ)が観測される区間(すなわち明確な調波構造が存在する区間)を有声区間QVとして特定するとともに音声区間のうち有意な音高が観測されない区間(すなわち明確な調波構造が存在しない区間)を無声区間QU0として特定する。
【0021】
歌詞認識部44は、参照音響信号SREFに対する歌詞認識を実行する。第1実施形態の歌詞認識部44は、参照音響信号SREFに対する歌詞認識で、区間特定部42が特定した無声区間QU0のうち歌唱音の子音に対応する区間(子音区間)を無声区間QUとして順次に特定するとともに、参照音響信号SREFの無声区間QU0内に存在する子音(発音内容)Cを順次に特定する。無声区間QUは、区間特定部42が特定した初期的な無声区間QU0のうち歌唱音以外の無声音(例えば打楽器の演奏音等)が優勢に存在する区間を除外した区間である。すなわち、無声区間QU0の一部が無声区間QU(子音区間)として特定される。歌詞認識部44による歌詞認識(音声認識)には公知の音声認識技術が任意に採用される。
【0022】
信号処理部34は、音声解析部32が特定した有声区間QVおよび無声区間QUと子音Cとを適用した信号処理(音源分離)で音響信号SAから音響信号SBを生成する。信号処理部34による音響信号SBの生成は、利用者による歌唱(歌唱音の参照音響信号SREFに対する音声解析部32の処理)に並行して実時間的に実行される。図2に例示される通り、第1実施形態の信号処理部34は、有声分離部52と無声分離部54と合成処理部56とを含んで構成される。
【0023】
有声分離部52は、信号供給装置12から供給される音響信号SAのうち音声解析部32(区間特定部42)が特定した各有声区間QVから歌唱音の有声成分Vを分離(強調ないし抽出)する。有声成分Vの分離には公知の音源分離技術が任意に採用される。具体的には、調波特性と包絡特性とで歌唱音の有声成分を表現するソースフィルタモデルを利用した非特許文献1や非特許文献2の音源分離技術(V-IMM:"Voiced"-Instantaneous Mixture Model)が、有声分離部52による有声成分Vの分離に好適に採用される。すなわち、声帯等の発音源の振動に由来する調波特性(source)の時系列に相当する非負値行列と、声道等の共鳴管内での変調に由来する包絡特性(filter)の時系列に相当する非負値行列との要素毎の乗算(アダマール積)で有声成分Vを表現し、有声成分Vと有声成分V以外の音響成分との加算が音響信号SAの周波数特性(スペクトログラムを表現する観測行列)に近似するように所定の更新式の演算を反復することで有声成分Vが推定される。
【0024】
無声分離部54は、信号供給装置12から供給される音響信号SAのうち音声解析部32(歌詞認識部44)が特定した各無声区間QUから歌唱音の無声成分Uを分離(強調ないし抽出)する。無声成分Uの分離には公知の音源分離技術が任意に採用され得るが、第1実施形態の無声分離部54は、記憶装置24に記憶された基底行列Mを利用した非負値行列因子分解で無声成分Uを推定する。具体的には、無声分離部54は、記憶装置24に記憶された複数の基底行列Mのうち歌詞認識部44が特定した子音Cに対応する基底行列Mを探索し、当該基底行列Mを教師情報(事前情報)として利用した教師あり非負値行列因子分解(Supervised-NMF)で無声成分Uを分離する。無声分離部54による教師あり非負値行列因子分解には、例えば特開2013−33196号公報に開示された技術が好適に採用される。具体的には、子音Cの基底行列Mと各基底ベクトルmの加重値の時系列を意味する係数行列との行列積で表現される無声成分Uと、無声成分U以外の音響成分との加算が音響信号SAの周波数特性(観測行列)に近似するように所定の更新式の演算を反復することで無声成分Uが推定される。以上の説明から理解される通り、第1実施形態では、音響信号SAの歌唱音の有声成分Vと無声成分Uとが相異なる方法で分離される。
【0025】
合成処理部56は、有声分離部52が分離した有声成分Vと無声分離部54が分離した無声成分Uとを合成することで音響信号SBを生成する。具体的には、合成処理部56は、有声分離部52が有声区間QV毎に生成した有声成分Vと無声分離部54が無声区間QU毎に生成した無声成分Uとを時間軸上に配列することで時間領域の音響信号SBを生成する。したがって、対象楽曲の歌唱音と伴奏音との混合音の音響信号SAから歌唱音を選択的に抽出した音響信号SBが生成される。合成処理部56が生成した音響信号SBが放音装置14に供給されることで音波として放射される。
【0026】
図3は、演算処理装置22が実行する動作のフローチャートである。参照音響信号SREFおよび音響信号SAを時間軸上で区分した単位区間毎に図3の処理が反復的に実行される。図3の処理を開始すると、演算処理装置22(音声解析部32)は、参照音響信号SREFの単位区間から有声区間QVと無声区間QUとを特定する音声解析PAを実行する。具体的には、演算処理装置22(区間特定部42)は、参照音響信号SREFの単位区間から有声区間QVと無声区間QU0とを特定する(PA1)。そして、演算処理装置22(歌詞認識部44)は、参照音響信号SREFの単位区間に対する歌詞認識で無声区間QU0の無声区間QUと子音Cとを特定する(PA2)。
【0027】
音声解析PAを実行すると、演算処理装置22(信号処理部34)は、音声解析PAで特定した有声区間QVと無声区間QUと子音Cを利用して音響信号SAの単位区間から音響信号SBを生成する信号処理PBを実行する。具体的には、演算処理装置22は、単位区間内の有声区間QVから有声成分Vを分離する処理(PB1/有声分離部52)と、単位区間内の無声区間QUから無声成分Uを分離する処理(PB2/無声分離部54)とを実行する。無声成分Uの分離には子音Cが適用される。そして、演算処理装置22(合成処理部56)は、単位区間内の有声成分Vと無声成分Uとを合成することで音響信号SBを生成する(PB3)。
【0028】
以上に説明した通り、第1実施形態では、利用者が対象楽曲を歌唱した歌唱音の参照音響信号SREFから有声区間QVと無声区間QUとが特定され、音響信号SAの有声区間QVから有声成分Vが分離されるとともに音響信号SAの無声区間QUから無声成分Uが分離される。すなわち、参照音響信号SREFが補助的な情報として有声成分Vおよび無声成分Uの音源分離に適用される。したがって、参照音響信号SREFを利用せずに音響信号SAのみから有声成分Vおよび無声成分Uを分離する構成と比較して、対象楽曲の音響信号SAから高精度に歌唱音(有声成分Vおよび無声成分U)を分離できるという利点がある。
【0029】
第1実施形態では、参照音響信号SREFの無声区間QU0のうち歌唱音の子音に対応する無声区間(子音区間)QUが歌詞認識で特定され、音響信号SAの無声区間QUから無声成分Uが分離される。したがって、参照音響信号SREFの無声区間QU0に歌唱音の子音以外の無声音(例えば打楽器の演奏音)が包含される場合でも、歌唱音の子音のみが選択的に無声成分Uとして分離される。すなわち、音響信号SAの歌唱音を高精度に分離できるという効果は格別に顕著である。
【0030】
第1実施形態では、記憶装置24に記憶された複数の基底行列Mのうち、参照音響信号SREFの無声区間QU0に対する歌詞認識で特定された子音Cに対応する基底行列Mが、無声分離部54による無声成分Uの分離(教師あり非負値行列因子分解)に適用される。したがって、音響信号SAのうち歌唱音の子音を高精度に無声成分Uとして分離できる(ひいては音響信号SAの歌唱音を高精度に分離できる)という利点がある。
【0031】
<第2実施形態>
本発明の第2実施形態を説明する。以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0032】
図4は、第2実施形態における音響処理装置100の構成図である。図4に例示される通り、第2実施形態の演算処理装置22は、第1実施形態と同様の要素(音声解析部32,信号処理部34)に加えて学習処理部36として機能する。学習処理部36は、収音装置16から供給される参照音響信号SREFのうち音声解析部32(区間特定部42)が特定した無声区間QUを適用した学習処理で基底行列Mを順次に生成する。学習処理には公知の機械学習技術が任意に採用される。信号処理部34の無声分離部54は、学習処理部36が順次に生成する基底行列Mを教師情報として利用した教師あり非負値行列因子分解で、音響信号SAのうち音声解析部32(歌詞認識部44)が特定した無声区間QUから無声成分Uを分離する。
【0033】
なお、第1実施形態では、利用者による歌唱(参照音響信号SREFの生成)と音響信号SBの生成とを実時間的に並行して実行した。第2実施形態では、参照音響信号SREFを利用した基底行列Mの生成後に、各基底行列Mを適用した音響信号SBの生成を実行する構成(すなわち、利用者による対象楽曲の歌唱後に音響信号SAから音響信号SBを生成する構成)が好適である。
【0034】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、無声成分Uの分離に適用される基底行列Mが参照音響信号SREFに対する学習処理で生成されるから、基底行列Mを事前に用意する必要がないという利点がある。なお、前述の例示では、音響信号SAのうち歌詞認識部44が特定した無声区間QUから無声成分Uを分離したが、音響信号SAのうち区間特定部42が特定した無声区間QU0から無声成分Uを分離することも可能である。したがって、第2実施形態では歌詞認識部44は省略され得る。
【0035】
<変形例>
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0036】
(1)第1実施形態では、対象楽曲の音響信号SAのうち歌詞認識部44が特定した無声区間QUから無声成分Uを分離したが、音響信号SAのうち区間特定部42が特定した無声区間QU0から無声分離部54が無声成分Uを分離することも可能である。すなわち、歌唱音の子音に対応する無声区間QUを歌詞認識部44が特定する処理は省略され得る。以上の説明から理解される通り、前述の各形態の音声解析部32が参照音響信号SREFから特定する無声区間は、参照音響信号SREFの音声区間のうち有声区間QV以外の無声区間QU0と、無声区間QU0の一部の区間(無声区間QU0のうち歌唱音の子音に対応する子音区間)QUとの双方を包含する。
【0037】
(2)信号処理部34による音源分離を補助するために参照音響信号SREFから抽出される情報は、前述の各形態で例示した情報(有声区間QV,無声区間QU,子音C)に限定されない。例えば、参照音響信号SREFから抽出される音高(ピッチ)を、有声分離部52による有声成分Vの分離に利用することも可能である。例えば、対象楽曲の音響信号SAのうち、参照音響信号SREFから抽出される音高に対して所定の範囲内にある音響成分を有声成分Vの候補として抽出すれば、参照音響信号SREFの音高を利用しない構成と比較して高精度に有声成分Vを分離することが可能である。なお、参照音響信号SREFの音高の推定には公知の音高推定技術が任意に採用され得る。
【0038】
(3)利用者の歌唱が下手な場合には、参照音響信号SREFと音響信号SAとの間で有声区間QVや無声区間QUが合致しない可能性がある。したがって、参照音響信号SREFを調整したうえで有声区間QVや無声区間QUを特定する構成が好適である。例えば、音声解析部32(区間特定部42)は、参照音響信号SREFの時間軸上の各時点が対象楽曲内で対応する時点に時点に合致するように参照音響信号SREFを時間軸上で調整(アライメント)したうえで有声区間QVや無声区間QU(QU0)を特定する。以上の構成によれば、利用者の歌唱が下手な場合でも高精度に対象楽曲の歌唱音を分離できるという利点がある。
【0039】
(4)前述の各形態では、有声分離部52による有声成分Vの分離と無声分離部54による無声成分Uの分離とを個別に実行したが、有声成分Vおよび無声成分Uの双方を音響信号SAから一括的に分離する構成も採用され得る。すなわち、有声分離部52と無声分離部54とを一体の要素として把握することも可能である。
【0040】
(5)前述の各形態では、歌唱音と伴奏音との混合音の音響信号SAから歌唱音を抽出したが、音響信号SAから伴奏音を抽出することも可能である。例えば、前述の各形態で生成された音響信号SBを音響信号SAから減算することで、対象楽曲の伴奏音を分離(強調または抽出)した音響信号を生成することが可能である。
【0041】
(6)携帯電話機等の端末装置と通信するサーバ装置で音響処理装置100を実現することも可能である。例えば、音響処理装置100は、端末装置から通信網を介して受信した参照音響信号SREFを利用して音響信号SAから音響信号SBを生成して端末装置に送信する。処理対象の音響信号SAは、音響処理装置100に接続された信号供給装置12から供給された信号、または、音響処理装置100が端末装置から通信網を介して受信した信号である。
【符号の説明】
【0042】
100……音響処理装置、12……信号供給装置、14……放音装置、16……収音装置、22……演算処理装置、24……記憶装置、32……音声解析部、34……信号処理部、36……学習処理部、42……区間特定部、44……歌詞認識部、52……有声分離部、54……無声分離部、56……合成処理部。
図1
図2
図3
図4