特許第6337698号(P6337698)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許6337698-音響処理装置 図000002
  • 特許6337698-音響処理装置 図000003
  • 特許6337698-音響処理装置 図000004
  • 特許6337698-音響処理装置 図000005
  • 特許6337698-音響処理装置 図000006
  • 特許6337698-音響処理装置 図000007
  • 特許6337698-音響処理装置 図000008
  • 特許6337698-音響処理装置 図000009
  • 特許6337698-音響処理装置 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6337698
(24)【登録日】2018年5月18日
(45)【発行日】2018年6月6日
(54)【発明の名称】音響処理装置
(51)【国際特許分類】
   G10H 1/00 20060101AFI20180528BHJP
   G10L 21/013 20130101ALI20180528BHJP
   G10G 1/00 20060101ALI20180528BHJP
【FI】
   G10H1/00 B
   G10L21/013
   G10G1/00
【請求項の数】4
【全頁数】13
(21)【出願番号】特願2014-175156(P2014-175156)
(22)【出願日】2014年8月29日
(65)【公開番号】特開2016-50994(P2016-50994A)
(43)【公開日】2016年4月11日
【審査請求日】2017年6月23日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】ジョルディ ジェイナー
(72)【発明者】
【氏名】スタニスロウ ゴルロウ
(72)【発明者】
【氏名】有元 慶太
(72)【発明者】
【氏名】リカルド マークサー
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 国際公開第2010/095622(WO,A1)
【文献】 特開2010−009034(JP,A)
【文献】 特開2009−216723(JP,A)
【文献】 特開平10−171459(JP,A)
【文献】 特開2004−021027(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00−7/12
G10G 1/00−3/04
G10L 21/00−21/18
G10L 25/00−25/93
(57)【特許請求の範囲】
【請求項1】
音響信号の音高の時系列を解析する音高解析手段と、
前記音高解析手段が解析した音高の時系列において音高を変更すべき対象音と変更後の目標音高との指示を利用者から受付ける指示受付手段と、
前記音響信号から前記対象音を抑圧した分離信号を生成する成分抽出手段と、
外部音源が生成した参照音を表す参照信号を取得する参照音取得手段と、
前記参照音取得手段が取得した参照信号の参照音を前記対象音の音色に近付けた前記目標音高の変換信号を生成する音色変換手段と、
前記成分抽出手段が生成した分離信号と前記音色変換手段が生成した変換信号とを混合する混合処理手段と
を具備する音響処理装置。
【請求項2】
前記音高解析手段が解析した音高の時系列を表象する音高遷移画像を表示装置に表示させる表示制御手段
を具備する請求項1の音響処理装置。
【請求項3】
前記指示受付手段は、前記音高遷移画像において前記音響信号の音高が包含されるべき発音範囲の指示を利用者から受付け、
前記音高解析手段は、前記発音範囲の外側に対応する各係数がゼロに設定された行列を係数行列の初期値として利用した非負値行列因子分解で前記音響信号の音高の時系列を解析する
請求項2の音響処理装置。
【請求項4】
前記参照音取得手段は、前記対象音とは相違する音色で前記対象音と同等の音高の第1参照音を表す第1参照信号と、前記対象音の音高とは相違する目標音高で前記第1参照音と同等の音色の第2参照音を表す第2参照信号とを取得し、
前記音色変換手段は、
前記対象音を表す対象信号と前記第1参照信号とを利用して、前記第1参照音を前記対象音の音色に近付けるための変換フィルタを生成する解析処理手段と、
前記変換フィルタを前記第2参照信号に適用することで、前記対象音に近似した音色で前記目標音高の音響を表す前記変換信号を生成する音響処理手段とを含む
請求項1から請求項3の何れかの音響処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号を処理する技術に関する。
【背景技術】
【0002】
音声や楽音等の音響の音色を変換する技術が従来から提案されている。例えば特許文献1には、処理対象の音声の音高や周波数特性(例えばホルマント)を変更することで声質を変換する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−025234号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
収録済の音響信号のうち特定の音符(例えば演奏に失敗した音符)を指定して事後的に音高を変更できれば便利である。しかし、例えば音響信号から変更対象の音響成分を分離したうえで分離後の音響成分の音高を変更する場合には、当該音響成分に付随する変更対象以外の音響成分が音高の変更(ピッチシフト)に起因して顕在化し、音質が低下する可能性がある。以上の事情を考慮して、本発明は、音響信号のうち特定の音響の音高を変更する場合の音質の低下を抑制することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の音響処理装置は、音響信号の音高の時系列を解析する音高解析手段と、音高解析手段が解析した音高の時系列において音高を変更すべき対象音と変更後の目標音高との指示を利用者から受付ける指示受付手段と、外部音源が生成した参照音を表す参照信号を取得する参照音取得手段と、参照音取得手段が取得した参照信号の参照音を対象音の音色に近付けた目標音高の変換信号を生成する音色変換手段と、成分抽出手段が生成した分離信号と音色変換手段が生成した変換信号とを混合する混合処理手段とを具備する。以上の構成では、外部音源から取得した参照信号の参照音を対象音の音色に近付けた目標音高の変換信号が対象音の抑圧後の分離信号に混合される。したがって、例えば音響信号の対象音を強調した対象信号を目標音高に変換する構成と比較して音質の低下を抑制することが可能である。また、参照信号の参照音が対象音の音色に近付けられるから、音響信号の音色と参照音の音色との相違に起因した聴覚的な違和感を抑制することが可能である。
【0006】
本発明の好適な態様に係る音響処理装置は、音高解析手段が解析した音高の時系列を表象する音高遷移画像を表示装置に表示させる表示制御手段を具備する。以上の態様では、音高遷移画像を視認することで利用者が音響信号の各音響の音高を直観的に把握できるという利点がある。
【0007】
本発明の好適な態様において、指示受付手段は、音高遷移画像において音響信号の音高が包含される発音範囲の指示を利用者から受付け、音高解析手段は、発音範囲の外側に対応する各係数がゼロに設定された行列を係数行列の初期値として利用した非負値行列因子分解で音響信号の音高の時系列を解析する。以上の態様では、音響信号の音高が包含されるべき発音範囲の外側の各係数がゼロに設定された行列を係数行列の初期値として音響信号の非負値行列因子分解が実行されるから、係数行列(音高の時系列)を高精度に特定できるという利点がある。
【0008】
本発明の好適な態様において、参照音取得手段は、対象音とは相違する音色で対象音と同等の音高の第1参照音を表す第1参照信号と、対象音の音高とは相違する目標音高で第1参照音と同等の音色の第2参照音を表す第2参照信号とを取得し、音色変換手段は、対象音を表す対象信号と第1参照信号とを利用して、第1参照音を対象音の音色に近付けるための変換フィルタを生成する解析処理手段と、変換フィルタを第2参照信号に適用することで、対象音に近似した音色で目標音高の音響を表す変換信号を生成する音響処理手段とを含む。以上の態様では、対象音と同等の音高の第1参照音を対象音の音色に近付けるための変換フィルタが対象信号と第1参照信号とに応じて生成され、目標音高の第2参照音を表す第2参照信号に変換フィルタを適用することで変換信号が生成される。すなわち、対象音の音高の変換は原理的に不要である。したがって、対象音の音高の変更に起因した音質の低下を防止できるという利点がある。
【0009】
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
【図面の簡単な説明】
【0010】
図1】本発明の第1実施形態に係る音響処理装置の構成図である。
図2】音高系列を生成する処理(非負値行列因子分解)の説明図である。
図3】音高遷移画像の模式図である。
図4】音響編集処理のフローチャートである。
図5】音響加工部の構成図である。
図6】音色変換処理のフローチャートである。
図7】音色変換処理の説明図である。
図8】第2実施形態における発音範囲の説明図である。
図9】第3実施形態における音色変換処理のフローチャートである。
【発明を実施するための形態】
【0011】
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100の構成図である。図1に例示される通り、音響処理装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と信号供給装置22と音源装置24と放音装置26とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音響処理装置100として利用され得る。
【0012】
信号供給装置22は、音響の時間波形を表す音響信号Xを出力する。第1実施形態の音響信号Xは、例えばライブハウスやコンサートホール等の固有の音響特性の音響空間で収録された信号であり、楽曲の歌唱音と楽器(以下「対象楽器」という)の演奏音との混合音の波形を表現する。なお、対象楽器以外の楽器の演奏音を包含する音響信号Xも処理可能である。可搬型または内蔵型の記録媒体から音響信号Xを取得して出力する再生装置や、通信網から音響信号Xを受信して出力する通信装置が信号供給装置22として利用され得る。第1実施形態の音響処理装置100は、信号供給装置22が出力する音響信号Xのうち対象楽器の演奏音の特定の箇所(例えば演奏者が対象楽器の演奏を失敗した箇所)を変更することで音響信号Zを生成する信号処理装置である。
【0013】
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音響処理装置100に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を包含する。表示装置14と一体に構成されたタッチパネルを入力装置16として利用することも可能である。放音装置26(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音響信号Zに応じた音響を放音する。
【0014】
音源装置24は、対象楽器の演奏音を表す音響信号(以下「参照信号」という)Rを生成する外部音源である。第1実施形態の音源装置24は、任意の音高の参照信号Rを生成可能である。例えばPCM(Pulse Code Modulation)音源等の公知の音源が音源装置24として任意に採用され得る。また、記憶装置12に記憶されたプログラムを演算処理装置10が実行することで音源装置24の機能を実現することも可能である。
【0015】
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで、音響信号Xから音響信号Zを生成するための複数の機能(音源分離部32,音高解析部34,表示制御部36,指示受付部38,成分抽出部40,音響加工部42,混合処理部44)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、演算処理装置10の機能の一部を専用の電子回路が実現する構成も採用され得る。
【0016】
音源分離部32は、信号供給装置22が出力する音響信号Xから音響信号XAと音響信号XBとを生成する。音響信号XAは、音響信号Xのうち歌唱音が強調された信号(理想的には対象楽器の演奏音が除去された信号)であり、音響信号XBは、音響信号Xのうち対象楽器の演奏音が強調された信号(理想的には歌唱音が除去された信号)である。音響信号XAおよび音響信号XBの生成には公知の技術が任意に採用され得る。例えば、歌唱音および演奏音の音像が定位する位置の相違を利用して歌唱音と演奏音とを分離する音源分離処理が音響信号XAおよび音響信号XBの生成に好適に利用される。
【0017】
音高解析部34は、音源分離部32による分離後の音響信号XBにおける音高の時系列(以下「音高系列」という)Sを解析する。音高系列Sは、対象楽器の演奏音の音高の時間的な遷移とも換言され得る。第1実施形態の音高解析部34は、音響信号XBに対する非負値行列因子分解(NMF:Nonnegative Matrix Factorization)で音高系列Sを生成する。
【0018】
図2は、第1実施形態における非負値行列因子分解の説明図である。図2に例示される通り、音高解析部34は、音響信号XBを表現する観測行列Wを基底行列Bと係数行列Gとに分解する。観測行列Wは、音響信号XBを時間軸上で区分したN個のフレームの各々の強度スペクトルを時系列に配列したM行N列の非負値行列である。任意の1個のフレームの強度スペクトルは、周波数軸上のM個の周波数の各々における強度(振幅やパワー)の系列である。以上の説明から理解される通り、観測行列Wは、音響信号XBのスペクトログラムを表現する。
【0019】
基底行列Bは、対象楽器の演奏音の音響特性を表現する。第1実施形態の基底行列Bは、図2に例示される通り、対象楽器の相異なる音高の演奏音に対応するK個の基底ベクトルb[1]〜b[K]を横方向に配列したM行K列の非負値行列である。任意の1個の基底ベクトルb[k](k=1〜K)は、対象楽器が発音可能なK種類(例えばピアノの88音)の音高のうち第k番目の音高の演奏音の強度スペクトルに相当し、周波数軸上のM個の周波数の各々における強度の系列である。基底行列Bは、対象楽器の演奏音の解析で生成されて記憶装置12に事前に格納される。第1実施形態の音高解析部34は、記憶装置12に記憶された基底行列Bを教師情報(事前情報)として利用した音響信号XBの教師あり非負値行列因子分解(Supervised NMF)で係数行列Gを生成する。
【0020】
係数行列Gは、図2に例示される通り、基底行列Bの相異なる基底ベクトルb[k]に対応するK個の係数ベクトルg[1]〜g[K]を縦方向に配列したK行N列の非負値行列である。係数行列Gの第k行の係数ベクトルg[k]は、時間軸上の相異なるフレームに対応するN個の係数a[k,1]〜a[k,N]で構成される。係数ベクトルg[k]の任意の1個の係数a[k,n](n=1〜N)は、基底行列Bの基底ベクトルb[k]に対する加重値を意味する。具体的には、係数ベクトルg[k]を構成するN個の係数a[k,1]〜a[k,N]は、対象楽器のK種類の音高のうち基底ベクトルb[k]に対応する第k番目の音高の音響成分の強度(活性度)の時系列に相当する。すなわち、係数a[k,n]が大きい第n番目のフレームでは、対象楽器の第k番目の音高の音響成分が優勢に存在する。以上の傾向を考慮して、第1実施形態の音高解析部34は、係数行列Gを音高系列Sとして算定する。具体的には、音高解析部34は、基底行列Bと係数行列Gとの行列積が観測行列Wに接近するように係数行列Gを更新する演算処理の反復で係数行列Gを逐次的に更新し、所定の収束条件が成立した時点(例えば更新演算の所定値に到達した時点)の係数行列Gを音高系列Sとして確定する。第1回目の演算処理に適用される係数行列Gの各係数a[k,n](初期値)は、例えば乱数に設定される。
【0021】
図1の表示制御部36は、音高解析部34が解析した音高系列Sを表象する図3の音高遷移画像142を表示装置14に表示させる。図3に例示される通り、音高遷移画像142は、時間軸(横軸)と音高軸(縦軸)とが設定された座標平面に音高系列Sを描画したピアノロール状の画像である。時間軸上の各地点はN個のフレームの各々に対応し、音高軸上の各地点はK個の音高の各々に対応する。時間軸上の第n番目のフレームと音高軸上の第k番目の音高とに対応する地点は、音高系列S(係数行列G)の係数a[k,n]の大小に応じた態様(例えば階調や色彩)で表示される。すなわち、音響信号XBに包含される各音響(音符毎の単音)の音高と発音期間とが音高遷移画像142で表現される。したがって、利用者は、音高遷移画像142を視認することで対象楽器の演奏音の時系列(各音高の発音期間や発音強度)を直観的に把握することが可能である。
【0022】
図1の指示受付部38は、入力装置16に対する利用者からの指示を受付ける。第1実施形態の指示受付部38は、音高解析部34が解析した音高系列S(表示制御部36が表示装置14に表示させた音高遷移画像142)から音高を変更すべき任意の演奏音(以下「対象音」という)Tの指示を利用者から受付ける。図3に例示されるとおり、利用者は、例えば音高遷移画像142を視認しながら入力装置16を適宜に操作することで、音高遷移画像142で表現された複数の演奏音のうち音高の変更を希望する対象音Tを選択するとともに、当該対象音Tの変更後の音高(以下「目標音高」という)Pを指定することが可能である。指示受付部38は、音高遷移画像142に対する対象音Tの指示と目標音高Pの指示とを利用者から受付ける。なお、相異なる複数の対象音Tの指示と対象音T毎の目標音高Pの指示とを指示受付部38が受付けることも可能である。
【0023】
図1の成分抽出部40は、対象楽器の演奏音が強調された音響信号XBから分離信号YAと対象信号YBとを生成する。分離信号YAは、音響信号XBのうち利用者が指示した対象音Tを抑圧(理想的には除去)した音響信号であり、対象信号YBは、音響信号XBのうち対象音Tを強調した音響信号(理想的には対象音T以外の演奏音が除去された音響信号)である。分離信号YAおよび対象信号YBの生成には公知の技術が任意に採用され得るが、例えばウィナー(Wiener)フィルター等を利用した周波数領域での音源分離処理(対象音Tの分離)が好適である。
【0024】
音響加工部42は、対象楽器による目標音高Pの演奏音を表す音響信号(以下「変換信号」という)YCを生成する。具体的には、音響加工部42は、音源装置24が生成する参照信号Rに対する処理で目標音高Pの変換信号YCを生成する。図1に例示される通り、第1実施形態の音響加工部42は、参照音取得部52と音色変換部54とを包含する。参照音取得部52は、音源装置24が生成した参照信号Rを取得する。
【0025】
音源装置24が生成する目標音高Pの参照音で音響信号XBの対象音Tを置換すれば、形式的には対象音Tを目標音高Pに変更した音響信号Zを生成することも可能である。しかし、音響信号XBには収録環境(例えばライブハウス等の音響空間)に固有の音響特性が付随するから、音源装置24が生成する参照音で音響信号XBの対象音Tを単純に置換しただけでは、音響信号XBの既存の演奏音と置換後の演奏音(参照音)とで音響特性が顕著に相違する。したがって、再生音の受聴者が聴覚的な違和感を知覚する可能性がある。以上の事情を考慮して、第1実施形態の音色変換部54は、参照音取得部52が取得した参照信号Rの音色を音響信号XBの対象音Tの音色に近付けた目標音高Pの変換信号YCを生成する。参照信号Rの音色を対象音Tの音色に変換する処理(以下「音色変換処理」という)の具体的な内容については後述する。
【0026】
図1の混合処理部44は、音源分離部32が生成した歌唱音の音響信号XAと、成分抽出部40が生成した対象音T以外の分離信号YAと、音響加工部42(音色変換部54)が生成した変換信号YCとを混合(例えば加重和)することで音響信号Zを生成する。すなわち、音響信号Xのうち対象楽器の対象音Tの音高を目標音高Pに変更した音響信号Zが生成される。
【0027】
第1実施形態の混合処理部44は、音響信号XAと分離信号YAと変換信号YCとの混合の前後に各種の音響処理を実行する。例えば、各信号の周波数特性を調整する調整処理(イコライジング)が実行される。なお、音響信号XAおよび分離信号YAと変換信号YCとでは残響の度合が相違し得る。したがって、混合前の各信号から残響成分を抑圧する残響抑圧処理と、混合後の音響信号Zに適度な残響成分を付与する残響付与処理とを順次に実行することで、残響感が統一された音響信号Zを生成することが可能である。混合処理部44が生成した音響信号Zの再生音が放音装置26から放音される。以上の説明から理解される通り、音響信号Xが表現する音響のうち利用者が指示した対象音Tの音高を目標音高Pに変更した再生音が放音装置26から放音される。
【0028】
図4は、演算処理装置10が音響信号Xから音響信号Zを生成する動作(以下「音響編集処理」という)のフローチャートである。入力装置16に対する利用者からの指示(音響処理の開始指示)を契機として音響編集処理が開始される。
【0029】
音響編集処理を開始すると、音源分離部32は、信号供給装置22が出力する音響信号Xから歌唱音の音響信号XAと対象楽器の演奏音の音響信号XBとを生成する(SA1)。音高解析部34は、記憶装置12に記憶された基底行列Bを教師情報とする非負値行列因子分解を音響信号XBの観測行列Wに対して実行することで音高系列S(係数行列G)を生成し(SA2)、表示制御部36は、音高系列Sを表象する音高遷移画像142を表示装置14に表示させる(SA3)。
【0030】
音高遷移画像142に対する対象音Tおよび目標音高Pの指示を指示受付部38が利用者から受付けると(SA4:YES)、成分抽出部40は、音源分離部32が生成した音響信号XBから対象音T以外の分離信号YAと対象音Tの対象信号YBとを生成する(SA5)。音響加工部42は、音源装置24が生成する参照信号Rに対象音Tの音色に近付ける音色変換処理(モーフィング)で変換信号YCを生成する(SA6)。混合処理部44は、音響信号XAと分離信号YAと変換信号YCとの混合で音響信号Zを生成する(SA7)。
【0031】
<音響加工部42>
図5は、音響加工部42の具体的な構成図である。図5に例示される通り、第1実施形態における音響加工部42の音色変換部54は、解析処理部62と音響処理部64とを包含する。図6は、第1実施形態の音響加工部42(参照音取得部52,音色変換部54)が実行する音色変換処理SA6のフローチャートであり、図7は音色変換処理SA6の説明図である。
【0032】
音色変換処理SA6を開始すると、参照音取得部52は、対象信号YBの対象音Tの音高を特定し(SB1)、対象音Tと同等の音高の参照音Q1を表す参照信号R1を音源装置24から取得する(SB2)。前述の通り、参照音Q1の音色は音響信号XBの対象音Tとは相違する。図5および図7に例示される通り、解析処理部62は、成分抽出部40が生成した対象信号YBと参照音取得部52がステップSB2で取得した参照信号R1とを利用して変換フィルタHを生成する(SB3)。変換フィルタHは、音源装置24が生成した参照音Q1の音色を対象音Tの音色に近付けるためのフィルタである。
【0033】
具体的には、解析処理部62は、対象信号YBと参照信号R1との間で相互に対応する各フレーム(例えば音響的な特徴量が相互に類似するフレーム)の対毎に変換フィルタHを生成する。対象信号YBと参照信号R1との間の各フレームの対応の解析には動的計画法等の公知の技術が任意に採用される。第1実施形態の変換フィルタHは、周波数軸上に設定された複数の帯域(以下「解析帯域」という)の各々に対応する調整値(ゲイン)hの系列である。各解析帯域は、単純には相等しい帯域幅に設定されるが、人間の聴覚特性の傾向が反映されるように各解析帯域の帯域幅を対数的な関係に設定することも可能である。変換フィルタHのうち任意の1個の解析帯域の調整値hは、例えば、参照信号R1の強度VRに対する対象信号YBの強度VYの相対比(h=VY/VR)として算定される。参照信号R1の強度VRは、参照信号R1の強度スペクトルのうち解析帯域内の複数の周波数にわたる強度の総和であり、対象信号YBの強度VYは、対象信号YBの強度スペクトルのうち解析帯域内の複数の周波数にわたる強度の総和である。変換フィルタHを構成する複数の調整値hの平均がゼロとなるように(ゼロ平均)、各調整値hを調整する構成も採用され得る。
【0034】
以上に例示された手順で解析処理部62が変換フィルタHを生成すると、参照音取得部52は、目標音高P(対象音Tとは相違する音高)の参照音Q2を表す参照信号R2を音源装置24から取得する(SB4)。参照音Q2の音色は参照音Q1と同等である。図5および図7に例示される通り、音響処理部64は、解析処理部62がステップSB3で生成した変換フィルタHを参照信号R2に適用することで変換信号YCを生成する(SB5)。具体的には、音響処理部64は、参照信号R2の各フレームの強度スペクトルを周波数軸上で区分した各解析帯域に変換フィルタHの各調整値hを乗算する。前述の通り、変換フィルタHは、参照音Q1の音色を対象音Tの音色に近付けるように作用するから、変換フィルタHを参照信号R2に適用することで、対象音Tに近似した音色で目標音高Pの音響を表す変換信号YCが生成される。以上が音色変換処理SA6の具体的な内容である。
【0035】
以上の説明から理解される通り、第1実施形態では、音源装置24から取得した参照信号Rの加工で生成された目標音高Pの変換信号YCが対象音Tの抑圧後の分離信号YAに混合されるから、対象音Tの対象信号YBを目標音高Pに変換する構成と比較して音響信号Zの音質の低下を抑制することが可能である。成分抽出部40が生成する対象信号YBは、理想的には対象音のみで構成されるが、実際には対象音以外の音響(以下「残差成分」という)も含有する。対象信号YBの音高を目標音高Pに変換する構成では、音高の変更に起因して残差成分が特に顕在化する。他方、参照信号Rから生成された目標音高Pの変換信号YCを分離信号YAに混合する第1実施形態では、対象信号YBの音高の変更が不要であるから、成分抽出部40の処理精度が低い場合(対象信号YBに残差成分が含有される場合)でも高音質の音響信号Zを生成できるという利点がある。他方、音響信号XBとは無関係に生成された参照信号Rを単純に分離信号YAに混合する構成では、両者間の音色の相違に起因した聴覚的な違和感が問題となるが、第1実施形態では、参照信号Rの参照音が対象音Tの音色に変換されるから、音響信号XBの音色と参照音の音色との相違に起因した聴覚的な違和感を解消することが可能である。
【0036】
ところで、対象音Tと同等の音色で目標音高Pの音響を生成する構成としては、例えば、対象音Tの音高を目標音高Pに変更し、変更後に音色を対象音Tに近付ける構成(ピッチシフト→モーフィング)が想定され得る。しかし、前述の通り、対象音Tの音高の変更に起因して顕在化した残差成分が音色の変換で更に顕在化するという問題がある。以上の事情に対し、第1実施形態では、対象音Tと同等の音高の参照音Q1を対象音Tの音色に近付けるための変換フィルタHを対象信号YBと参照信号R1とから生成し、目標音高Pの参照音Q2の参照信号R2に変換フィルタHに適用することで変換信号YCを生成する。すなわち、対象音Tの音高の変換は原理的に不要である。したがって、第1実施形態によれば、対象音Tの音高の変更に起因した音質の低下を防止できるという利点がある。
【0037】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各構成において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0038】
音高解析部34が生成する係数行列G(音高系列S)では、理想的には、対象楽器の実際の演奏音に対応する係数a[k,n]のみが有意な数値に設定されるが、現実的には、例えば対象楽器の演奏音に対して特定の関係(例えば5度の音程)にある音高の係数a[k,n]が、実際には当該音高が演奏されていないのに有意な数値となる可能性がある。すなわち、音響信号XBにおける対象楽器の演奏音の実際の音高が分布する音高範囲の外側にも、有意な数値の係数a[k,n]が存在し得る。利用者は、入力装置16を適宜に操作することで、図8に例示される通り、表示装置14に表示された音高遷移画像142のうち音響信号XBの音響(対象楽器の演奏音)が存在すると推測される時間軸上および音高軸上の範囲(以下「発音範囲」という)Aを指示することが可能である。例えば、対象楽器として鍵盤楽器(例えばピアノ)を想定すると、演奏者の右手で演奏される高域側の音高範囲と左手で演奏される低域側の音高範囲とが発音範囲Aとして指示される。第2実施形態の指示受付部38は、以上に説明した発音範囲Aの指示を利用者から受付ける。
【0039】
第2実施形態の音高解析部34は、指示受付部38が受付けた発音範囲Aを加味して音高系列Sを再解析する。具体的には、音高解析部34は、図8に例示される通り、利用者から指示された発音範囲Aの外側の各係数a[k,n]がゼロに設定されるとともに発音範囲Aの内側の各係数a[k,n]がゼロ以外の有意な数値λに設定された行列を、係数行列Gの初期値(初期行列)として利用した非負値行列因子分解で音高系列Sを算定する。数値λは例えば乱数に設定される。表示制御部36は、音高解析部34が再解析した音高系列Sを表象する音高遷移画像142を表示装置14に表示させる。音高遷移画像142に対する利用者からの指示に応じて音響信号Zを生成する処理は第1実施形態と同様である。
【0040】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、発音範囲Aの外側の各係数a[k,n]がゼロに設定された行列を係数行列Gの初期値として利用した非負値行列因子分解で音高系列Sが生成される。すなわち、利用者が指示した発音範囲Aが反映されるように音高系列Sが更新される。したがって、音高系列Sに発音範囲Aの指示を反映させない構成と比較して音高系列Sを高精度に生成できるという利点がある。
【0041】
<第3実施形態>
図9は、第3実施形態の音響加工部42(参照音取得部52,音色変換部54)が実行する音色変換処理SA6のフローチャートである。第1実施形態では、対象音Tと参照音Q1とが同等の音高である場合を想定して対象信号YBと参照信号R1とに応じた変換フィルタHの生成を例示したが、実際には、例えば音響信号XBにおける対象楽器の調律や調弦の状況に起因して、対象音Tと参照音Q1とで音高が相違する可能性がある。以上の事情を考慮して、第3実施形態の参照音取得部52は、図9に例示される通り、対象音Tと参照音Q1とを同等の音高に調整する処理(SB10)を、参照信号R1の取得(SB2)と変換フィルタHの生成(SB3)との間に実行する。具体的には、第3実施形態の参照音取得部52は、参照音Q1の参照信号R1を処理することで参照音Q1を対象音Tの音高に調整する。参照信号R1の音高の変更には公知の技術(ピッチシフト)が任意に採用される。解析処理部62は、調整後の参照信号R1と対象音Tの対象信号YBとを利用して、第1実施形態と同様の方法で変換フィルタHを生成する(SB3)。
【0042】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、対象音Tと参照音Q1とを同等の音高に調整したうえで変換フィルタHを生成するから、対象音Tと参照音Q1とで音高が相違した状態で変換フィルタHを生成する場合と比較して、参照音Q1(ひいては参照音Q2)を対象音Tの音色に高精度に変換可能な変換フィルタHを生成できるという利点がある。なお、以上の説明では、参照音Q1を対象音Tの音高に調整する構成を例示したが、対象音Tを参照音Q1と同等の音高に調整することも可能である。ただし、前述の通り、対象音Tには対象音以外の残差成分が包含され、対象音Tの音高の変更に起因して残差成分が顕在化する可能性がある。以上の事情を考慮すると、参照信号R1の参照音Q1を対象音Tの音高に調整する構成が格別に好適である。
【0043】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0044】
(1)前述の各形態では、音響信号XBに対する非負値行列因子分解で音高系列Sを生成したが、音高系列Sを生成する方法は以上の例示に限定されない。例えば、自動採譜等の公知の解析技術を音高系列Sの生成に利用することも可能である。また、第2実施形態では、非負値行列因子分解以外の方法で暫定的な音高系列Sを生成し、当該音高系列Sの音高遷移画像142のうち発音範囲Aの外側に対応する各係数a[k,n]がゼロに設定された係数行列Gを初期値として観測行列Wの非負値行列因子分解を実行することで確定的な音高系列Sを再解析することも可能である。すなわち、発音範囲Aの指示前の暫定的な音高系列Sを生成する方法と発音範囲Aを反映した確定的な音高系列Sを生成する方法とは相違し得る。なお、発音範囲Aの指示と音高系列Sの再解析とを複数回にわたり反復することも可能である。
【0045】
(2)前述の各形態では、対象楽器の相異なる音高の演奏音に対応するK個の基底行列Bを利用した観測行列Wの非負値行列因子分解で係数行列Gを算定したが、観測行列Wに対して実行される非負値行列因子分解の内容は適宜に変更され得る。例えば、各要素が乱数で初期化されたK個の基底ベクトル(以下「暫定基底ベクトル」という)で構成される基底行列Bを非負値行列因子分解の反復的な演算で係数行列Gとともに順次に更新する構成も採用される。
【0046】
また、対象楽器の演奏音について事前に用意された基底ベクトルと任意の暫定基底ベクトルとを混在させた基底行列Bを非負値行列因子分解に利用することも可能である。対象楽器の基底ベクトルと任意の暫定基底ベクトルとを基底行列Bに混在させた構成では、例えば対象楽器のほかに対象楽器以外の楽器(以下「他楽器」という)の演奏音が音響信号XBに包含される場合に、他楽器の演奏音が暫定基底ベクトルに反映されるように基底行列Bが順次に更新される。したがって、他楽器の演奏音が音響信号XBに包含される場合でも対象楽器の音高系列Sを高精度に特定できるという利点がある。なお、対象楽器の基底ベクトルと任意の暫定基底ベクトルとを基底行列Bに混在させた以上の構成に第2実施形態を適用する場合には、初期的な係数行列Gのうち対象楽器の各基底ベクトルに対応する係数ベクトルg[k]のみについて、発音範囲Aの外側の各係数a[k,n]をゼロに設定する構成(各暫定基底ベクトルに対応する係数ベクトルg[k]については各係数a[k,n]をゼロとしない構成)が好適である。また、観測行列Wの非負値行列因子分解には、例えば特開2013−033196号公報に例示された拘束条件を適用することも可能である。
【0047】
(3)音源装置24が複数種の楽器(同種だが音色が相違する楽器は別種と区別され得る)の演奏音の参照信号Rを生成可能な構成では、複数種の楽器のうち利用者が選択した楽器(音響信号Xの再生音から音響特性が近似すると推測される楽器)の演奏音の参照信号Rを参照音取得部52が取得することも可能である。
【0048】
(4)第2実施形態では、利用者が発音範囲Aを指示する構成を例示したが、発音範囲Aを設定する方法は以上の例示に限定されない。例えば、音響信号Xの楽曲の演奏内容(音符の時系列)を指定する楽曲データ(例えばMIDI規格に準拠した時系列データ)を参照することで時間軸上および音高軸上の各音符の分布範囲を特定し、音高解析部34が当該範囲を発音範囲Aとして設定することも可能である。また、実際に演奏音が存在する地点の係数a[k,n]は相対的に大きい数値に設定されるという傾向を前提とすれば、係数行列G(音高系列S)のうち閾値を上回る係数a[k,n]が分布する範囲を発音範囲Aとして設定することも可能である。なお、第2実施形態では音高軸上の範囲および時間軸上の範囲の双方で発音範囲Aを画定したが、音高軸上の範囲(時間軸上は全範囲)を発音範囲Aとして設定する構成や、時間軸上の範囲(音高軸上は全範囲)を発音範囲Aとして設定する構成も採用され得る。
【0049】
(5)前述の各形態では、対象音の音高を変更する場合を便宜的に例示したが、対象音の発音期間(始点および終点)を音高とともに変更することも可能である。例えば、参照音取得部52が取得した参照信号R2を音色変換部54(音響処理部64)が目標の継続長に伸縮したうえで変換フィルタHを適用する構成や、参照信号R2に対する変換フィルタHの適用で生成した変換信号YCを音色変換部54(音響処理部64)が目標の継続長に伸縮する構成が採用され得る。
【0050】
(6)音高遷移画像142において対象音Tと目標音高Pとが暫定的に指示された場合に、変換信号YCを生成して放音装置26から放音することも可能である。以上の構成によれば、対象音Tの変更結果を利用者が事前に試聴できるという利点がある。
【0051】
(7)第3実施形態では対象信号YBおよび参照信号R1の一方を他方の音高に調整する構成を例示したが、対象信号YBおよび参照信号R1の音高を、事前に設定された複数の音高のうち最も近似する音高に変更(クオンタイズ)する構成も採用され得る。また、対象信号YBの対象音Tや参照信号R1の参照音Q1に音高の微小変動(揺れ)が存在する場合には、微小変動を抑制(理想的には除去)したうえで変換フィルタHを生成することも可能である。例えば、音声合成で生成された歌唱音の音響信号XBにはビブラート等の微小変動が付随し得るから、対象信号YBから音高の微小変動を抑制する構成が格別に好適である。また、残差成分や雑音成分を対象信号YBから除去したうえで変換フィルタHを生成することも可能である。
【0052】
(8)前述の各形態では、音源装置24が生成した参照信号Rを参照音取得部52が取得する構成を例示したが、音源装置24が生成した参照信号Rを事前に記憶装置12に格納し、参照音取得部52が記憶装置12から参照信号Rを取得する構成も採用され得る。また、音源装置24が生成した各音高の参照信号Rを周波数領域に変換することで基底行列B(各基底ベクトルb[k])を生成することも可能である。
【0053】
(9)前述の各形態では、音響信号Xを歌唱音の音響信号XAと対象楽器の演奏音の音響信号XBとに分離したが、歌唱音の音響信号XAを分離する構成は省略され得る。例えば、歌唱音を含まない音響信号Xを処理する構成では、音源分離部32が省略されるとともに、混合処理部44は、分離信号YAと変換信号YCとの混合で音響信号Zを生成する。
【0054】
(10)携帯電話機等の端末装置と通信するサーバ装置で音響処理装置100を実現することも可能である。例えば、音響処理装置100は、端末装置から受信した音響信号Xから音響信号Zを生成して端末装置に送信する。
【符号の説明】
【0055】
100……音響処理装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、22……信号供給装置、24……音源装置、26……放音装置、32……音源分離部、34……音高解析部、36……表示制御部、38……指示受付部、40……成分抽出部、42……音響加工部、44……混合処理部、52……参照音取得部、54……音色変換部、62……解析処理部、64……音響処理部。
図1
図2
図3
図4
図5
図6
図7
図8
図9