(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-27
(45)【発行日】2024-03-06
(54)【発明の名称】音響処理方法
(51)【国際特許分類】
G10L 21/0272 20130101AFI20240228BHJP
G10L 25/30 20130101ALI20240228BHJP
【FI】
G10L21/0272 100Z
G10L25/30
(21)【出願番号】P 2020033347
(22)【出願日】2020-02-28
【審査請求日】2022-12-20
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】北村 大地
(72)【発明者】
【氏名】渡辺 瑠伊
【審査官】大野 弘
(56)【参考文献】
【文献】特開2012-22120(JP,A)
【文献】特開2008-278406(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0272
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
第1音源に対応する第1音のうち第1周波数帯域の成分を表す第1入力データと、前記第1音源とは異なる第2音源に対応する第2音のうち前記第1周波数帯域の成分を表す第2入力データと、前記第1音と前記第2音との混合音のうち前記第1周波数帯域とは異なる第2周波数帯域を含む周波数帯域の成分を含む音を表す混合音データと、を含む入力データを取得し、
学習済の推定モデルに前記入力データを入力することで、前記第1音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、前記第2音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第2出力データとの少なくとも一方を生成する
コンピュータにより実現される音響処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音響処理に関する。
【背景技術】
【0002】
相異なる音源が発生した複数の音の混合音を音源毎に分離する音源分離技術が従来から提案されている。例えば非特許文献1には、信号の独立性と音源の低ランク性とを同時に考慮することで高精度な音源分離を実現する独立低ランク行列分析(ILRMA:Independent Low- Rank Matrix Analysis)が開示されている。また、非特許文献2には、振幅スペクトログラムをニューラルネットワークに入力することで、音源分離のための時間-周波数領域マスクを生成する技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, and Hiroshi Saruwatari, "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 9, pp. 1626?1641, September 2016
【0004】
【文献】Andreas Jansson, Eric J. Humphrey, Nicola Montecchio, Rachel Bittner, Aparna Kumar, Tillman Weyde, "Singing Voice Separation with Deep U-Net Convolutional Networks," Proceedings of the 18th International Society for Music Information Retrieval Conference (ISMIR), 2017
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1および非特許文献2に開示された技術においては、音源分離のための処理負荷が過大であるという問題がある。以上の事情を考慮して、本開示のひとつの態様は、音源分離のための処理負荷を軽減することを目的とする。
【課題を解決するための手段】
【0006】
以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、第1音源に対応する第1音のうち第1周波数帯域の成分を表す第1入力データと、前記第1音源とは異なる第2音源に対応する第2音のうち前記第1周波数帯域の成分を表す第2入力データと、前記第1音と前記第2音との混合音のうち前記第1周波数帯域とは異なる第2周波数帯域を含む周波数帯域の成分を含む音を表す混合音データと、を含む入力データを取得し、学習済の推定モデルに前記入力データを入力することで、前記第1音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、前記第2音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第2出力データとの少なくとも一方を生成する。
【図面の簡単な説明】
【0007】
【
図1】音響処理システムの構成を例示するブロック図である。
【
図2】音響処理システムの機能的な構成を例示するブロック図である。
【
図3】入力データおよび出力データの説明図である。
【
図4】推定モデルの構成を例示するブロック図である。
【
図5】音響処理の具体的な手順を例示するフローチャートである。
【
図7】学習処理の具体的な手順を例示するフローチャートである。
【
図8】第2実施形態における入力データおよび出力データの説明図である。
【
図9】第3実施形態における入力データの模式図である。
【
図10】第3実施形態における音響処理システムの機能的な構成を例示するブロック図である。
【
図11】第1実施形態および第3実施形態による効果の説明図である。
【
図12】第1実施形態から第3実施形態に関する観測結果の図表である。
【
図13】第5実施形態における入力データおよび出力データの説明図である。
【
図14】第5実施形態における訓練データの説明図である。
【
図15】第5実施形態に係る音響処理システムの機能的な構成を例示するブロック図である。
【発明を実施するための形態】
【0008】
A:第1実施形態
図1は、本開示の第1実施形態に係る音響処理システム100の構成を例示するブロック図である。音響処理システム100は、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムである。音響処理システム100は、例えばスマートフォン,タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響処理システム100は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(例えばクライアントサーバシステム)でも実現される。
【0009】
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音響処理システム100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、例えば移動体通信網またはインターネット等の通信網を介して、制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12は音響処理システム100から省略されてもよい。
【0010】
記憶装置12は、音波形を表す時間領域の音響信号Sxを記憶する。音響信号Sxは、第1音源から発音される音(以下「第1音」という)と第2音源から発音される音(以下「第2音」という)とが混合された音(以下「混合音」という)を表す。第1音源と第2音源とは別個の音源である。第1音源および第2音源の各々は、歌唱者または楽器等の発音源である。例えば、第1音は、歌唱者(第1音源)が発音する歌唱音声であり、第2音は、打楽器等の楽器(第2音源)が発音する楽器音である。音響信号Sxは、第1音源と第2音源とが並列に発音する環境において例えばマイクロホンアレイ等の収音装置を利用して収録される。ただし、公知の合成技術により合成された信号が音響信号Sxとして利用されてもよい。すなわち、第1音源および第2音源の各々は仮想的な音源でもよい。
【0011】
なお、単体の音源のほか複数の音源の集合を第1音源または第2音源として把握してもよい。また、第1音源と第2音源とは基本的には別種の音源であり、第1音と第2音とは音響特性が相違する。ただし、第1音源と第2音源とが相異なる位置に設置された場合のように、各音源の位置を利用して第1音と第2音とを分離可能であれば、第1音源と第2音源とは同種の音源でもよい。すなわち、第1音の音響特性と第2音の音響特性とは、相互に近似または一致してもよい。
【0012】
制御装置11は、音響処理システム100の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。制御装置11は、記憶装置12に記憶された音響信号Sxから音響信号Szを生成する。音響信号Szは、第1音および第2音の一方が他方に対して強調された音を表す時間領域の信号である。すなわち、音響処理システム100は、音響信号Sxを音源毎に分離する音源分離を実行する。
【0013】
放音装置13は、制御装置11が生成した音響信号Szが表す音を放音する。放音装置13は、例えばスピーカまたはヘッドホンである。なお、音響信号Szをデジタルからアナログに変換するD/A変換器と、音響信号Szを増幅する増幅器とは、便宜的に図示が省略されている。また、
図1においては、放音装置13を音響処理システム100に搭載した構成を例示したが、音響処理システム100とは別体の放音装置13が有線または無線により音響処理システム100に接続されてもよい。
【0014】
[1]音響処理部20
図2は、音響処理システム100の機能的な構成を例示するブロック図である。
図2に例示される通り、制御装置11は、記憶装置12に記憶された音響処理プログラムP1を実行することで音響処理部20として機能する。音響処理部20は、音響信号Sxから音響信号Szを生成する。音響処理部20は、周波数解析部21と音源分離部22と帯域拡張部23と波形合成部24と音量調整部25とを具備する。
【0015】
周波数解析部21は、音響信号Sxの強度スペクトルX(m)を時間軸上の単位期間(フレーム)毎に順次に生成する。記号mは、時間軸上の1個の単位期間を意味する。強度スペクトルX(m)は、例えば振幅スペクトルまたはパワースペクトルである。強度スペクトルX(m)の生成には、例えば短時間フーリエ変換またはウェーブレット変換等の公知の周波数分析が任意に採用される。なお、音響信号Sxから算定される複素スペクトルが強度スペクトルX(m)とされてもよい。
【0016】
図3には、音響信号Sxから生成される強度スペクトルX(m)の時系列(…,X(m-1),X(m),X(m+1),…)が例示されている。強度スペクトルX(m)は、周波数軸上の所定の周波数帯域(以下「全帯域」という)BF内に分布する。全帯域BFは、例えば0kHzから8kHzまでの範囲である。
【0017】
音響信号Sxが表す混合音は、周波数帯域BLの成分と周波数帯域BHの成分とを含む。周波数帯域BLおよび周波数帯域BHは、全帯域BF内の相異なる周波数帯域である。周波数帯域BLは周波数帯域BHよりも低域側に位置する。具体的には、周波数帯域BLは、全帯域BFのうち周波数軸上の所定の周波数を下回る帯域であり、周波数帯域BHは、全帯域BFのうち当該周波数を上回る帯域である。したがって、周波数帯域BLと周波数帯域BHとは相互に重複しない。例えば、周波数帯域BLは0kHzから4kHzまでの範囲であり、周波数帯域BHは4kHzから8kHzまでの範囲である。なお、周波数帯域BLの帯域幅と周波数帯域BHの帯域幅との異同は不問である。混合音を構成する第1音および第2音の各々は、周波数帯域BLの成分と周波数帯域BHの成分との双方を含む。なお、周波数帯域BLは「第1周波数帯域」の一例であり、周波数帯域BHは「第2周波数帯域」の一例である。
【0018】
図2の音源分離部22は、強度スペクトルX(m)に対する音源分離を実行する。具体的には、音源分離部22は、全帯域BFにわたる強度スペクトルX(m)のうち周波数帯域BLの成分を対象として音源分離を実行する。すなわち、強度スペクトルX(m)のうち周波数帯域BHの成分については音源分離の処理対象から除外される。
【0019】
音源分離部22による強度スペクトルX(m)の処理には、公知の音源分離が任意に採用される。例えば、独立成分分析(ICA:Independent Component Analysis),独立ベクトル分析(IVA:Independent Vector Analysis),非負行列因子分解(NMF:Non-negative Matrix Factorization),多チャンネル非負行列因子分解(MNMF:Multichannel NMF),独立低ランク行列分析(ILRMA:Independent Low-Rank Matrix Analysis),独立低ランクテンソル分析(ILRTA:Independent Low-Rank Tensor Analysis),または独立深層学習行列分析(IDLMA:Independent Deeply-Learned Matrix Analysis)等の技術が、音源分離部22による音源分離に利用される。なお、以上の説明では周波数領域における音源分離を例示したが、音源分離部22は、時間領域における音源分離を音響信号Sxに対して実行してもよい。
【0020】
音源分離部22は、強度スペクトルX(m)のうち周波数帯域BLの成分に対する音源分離により強度スペクトルY1(m)と強度スペクトルY2(m)とを生成する。
図3に例示される通り、強度スペクトルY1(m)は、混合音に含まれる第1音のうち周波数帯域BL内の成分(以下「第1成分」という)のスペクトルを意味する。すなわち、強度スペクトルY1(m)は、混合音のうち周波数帯域BL内の成分に含まれる第1音を第2音に対して強調した結果(理想的には第2音を除去した結果)を表すスペクトルである。他方、強度スペクトルY2(m)は、混合音に含まれる第2音のうち周波数帯域BL内の成分(以下「第2成分」という)のスペクトルを意味する。すなわち、強度スペクトルY2(m)は、混合音のうち周波数帯域BL内の成分に含まれる第2音を第1音に対して強調した結果(理想的には第1音を除去した結果)を表すスペクトルである。以上の説明から理解される通り、混合音のうち周波数帯域BHの成分は、強度スペクトルY1(m)および強度スペクトルY2(m)には含まれない。
【0021】
以上の通り、第1実施形態においては、音響信号Sxが表す混合音のうち周波数帯域BHの成分が音源分離の対象から除外される。したがって、周波数帯域BLおよび周波数帯域BHの双方を含む全帯域BFを対象として混合音の音源分離を実行する構成と比較して、音源分離部22による処理負荷が軽減される。
【0022】
図2の帯域拡張部23は、混合音の強度スペクトルX(m)と第1成分の強度スペクトルY1(m)と第2成分の強度スペクトルY2(m)とを利用して出力データO(m)を生成する。出力データO(m)は、第1出力データO1(m)と第2出力データO2(m)とで構成される。第1出力データO1(m)は、強度スペクトルZ1(m)を表すデータであり、第2出力データO2(m)は、強度スペクトルZ2(m)を表すデータである。
【0023】
第1出力データO1(m)が表す強度スペクトルZ1(m)は、
図3に例示される通り、周波数帯域BLと周波数帯域BHとを含む全帯域BFにわたる第1音のスペクトルである。すなわち、音源分離において周波数帯域BLに制限された第1音の強度スペクトルY1(m)が、帯域拡張部23の処理により、全帯域BFにわたる強度スペクトルZ1(m)に変換される。他方、第2出力データO2(m)が表す強度スペクトルZ2(m)は、全帯域BFにわたる第2音のスペクトルである。すなわち、音源分離において周波数帯域BLに制限された第2音の強度スペクトルY2(m)が、帯域拡張部23の処理により、全帯域BFにわたる強度スペクトルZ2(m)に変換される。以上の説明から理解される通り、帯域拡張部23は、第1音および第2音の各々の周波数帯域を、周波数帯域BLから全帯域BF(周波数帯域BLおよび周波数帯域BH)に拡張する。
【0024】
図2に例示される通り、帯域拡張部23は、取得部231と生成部232とを具備する。取得部231は、単位期間毎に入力データD(m)を生成する。入力データD(m)は、混合音の強度スペクトルX(m)と第1成分の強度スペクトルY1(m)と第2成分の強度スペクトルY2(m)とに応じたベクトルを表すデータである。
【0025】
図3に例示される通り、入力データD(m)は、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とを含む。混合音データDx(m)は、混合音の強度スペクトルX(m)を表すデータである。具体的には、任意の1個の単位期間(以下「目標期間」という)について生成される混合音データDx(m)は、当該目標期間の強度スペクトルX(m)と、目標期間の周囲に位置する他の単位期間の強度スペクトルX(X(m-4),X(m-2),X(m+2),X(m+4))とを含む。具体的には、混合音データDx(m)は、目標期間の強度スペクトルX(m)と、目標期間の2個前の単位期間の強度スペクトルX(m-2)と、目標期間の4個前の単位期間の強度スペクトルX(m-4)と、目標期間の2個後の単位期間の強度スペクトルX(m+2)と、目標期間の4個後の単位期間の強度スペクトルX(m+4)とを含む。
【0026】
第1入力データD1(m)は、第1音の強度スペクトルY1(m)を表すデータである。具体的には、任意の1個の目標期間について生成される第1入力データD1(m)は、当該目標期間の強度スペクトルY1(m)と、目標期間の周囲に位置する他の単位期間の強度スペクトルY1(Y1(m-4),Y1(m-2),Y1(m+2),Y1(m+4))とを含む。具体的には、第1入力データD1(m)は、目標期間の強度スペクトルY1(m)と、目標期間の2個前の単位期間の強度スペクトルY1(m-2)と、目標期間の4個前の単位期間の強度スペクトルY1(m-4)と、目標期間の2個後の単位期間の強度スペクトルY1(m+2)と、目標期間の4個後の単位期間の強度スペクトルY1(m+4)とを含む。以上の説明から理解される通り、第1入力データD1(m)は、第1音のうち周波数帯域BL内の第1成分を表すデータである。
【0027】
第2入力データD2(m)は、第2音の強度スペクトルY2(m)を表すデータである。具体的には、任意の1個の目標期間について生成される第2入力データD2(m)は、当該目標期間の強度スペクトルY2(m)と、目標期間の周囲に位置する他の単位期間の強度スペクトルY2(Y2(m-4),Y2(m-2),Y2(m+2),Y2(m+4))とを含む。具体的には、第2入力データD2(m)は、目標期間の強度スペクトルY2(m)と、目標期間の2個前の単位期間の強度スペクトルY2(m-2)と、目標期間の4個前の単位期間の強度スペクトルY2(m-4)と、目標期間の2個後の単位期間の強度スペクトルY2(m+2)と、目標期間の4個後の単位期間の強度スペクトルY2(m+4)とを含む。以上の説明から理解される通り、第2入力データD2(m)は、第2音のうち周波数帯域BL内の第2成分を表すデータである。
【0028】
入力データD(m)の全体で表現されるベクトルVの各要素は、当該ベクトルVの大きさが1(すなわち単位ベクトル)となるように正規化される。例えば、正規化前の入力データD(m)において、第1入力データD1(m)と第2入力データD2(m)と混合音データDx(m)とにより、N個の要素e1~eNが配列されたN次元のベクトルVが構成されると想定する。正規化後の入力データD(m)を構成するN個の要素E1~ENの各々は、以下の数式(1)で表現される(n=1~N)。
【数1】
【0029】
数式(1)の記号|| ||
2は、以下の数式(2)で表現されるL2ノルムを意味し、ベクトルVの大きさを表す指標(以下「強度指標α」という)に相当する。
【数2】
【0030】
図2の生成部232は、入力データD(m)から出力データO(m)を生成する。出力データO(m)は、単位期間毎に順次に生成される。具体的には、生成部232は、各単位期間の入力データD(m)から当該単位期間の出力データO(m)を生成する。出力データO(m)の生成には推定モデルMが利用される。推定モデルMは、入力データD(m)を入力として出力データO(m)を出力する統計的モデルである。すなわち、推定モデルMは、入力データD(m)と出力データO(m)との関係を学習した学習済モデルである。
【0031】
推定モデルMは、例えばニューラルネットワークで構成される。
図4は、推定モデルMの構造を例示するブロック図である。推定モデルMは、例えば、入力層Linと出力層Loutとの間の隠れ層Lhに4層の全結合層Laを含む深層ニューラルネットワークである。活性化関数は、例えばReLU(Rectified Linear Unit)である。入力データD(m)は、隠れ層Lhの第1層において出力層Loutと同等の次元数に圧縮される。なお、推定モデルMの構造は以上の例示に限定されない。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式のニューラルネットワークが推定モデルMとして利用される。複数種のニューラルネットワークの組合せが推定モデルMとして利用されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)等の付加的な要素が推定モデルMに搭載されてもよい。
【0032】
推定モデルMは、入力データD(m)から出力データO(m)を生成する演算を制御装置11に実行させる推定プログラムと、当該演算に適用される複数の変数K(具体的には加重値およびバイアス)との組合せで実現される。推定プログラムと複数の変数Kとは記憶装置12に記憶される。複数の変数Kの各々の数値は、機械学習により事前に設定される。
【0033】
図2の波形合成部24は、帯域拡張部23が順次に生成する出力データO(m)の時系列から音響信号Sz0を生成する。具体的には、波形合成部24は、第1出力データO1(m)および第2出力データO2(m)の何れかの時系列から音響信号Sz0を生成する。例えば、第1音の強調が利用者から指示された場合、波形合成部24は、第1出力データO1(m)(強度スペクトルZ1(m))の時系列から音響信号Sz0を生成する。すなわち、第1音が強調された音響信号Sz0が生成される。他方、第2音の強調が利用者から指示された場合、波形合成部24は、第2出力データO2(m)(強度スペクトルZ2(m))の時系列から音響信号Sz0を生成する。すなわち、第2音が強調された音響信号Sz0が生成される。音響信号Sz0の生成には、例えば短時間逆フーリエ変換が利用される。
【0034】
前述の通り、入力データD(m)を構成する各要素Enは、強度指標αを利用して正規化された数値である。したがって、音響信号Sz0の音量は、音響信号Sxとは相違する可能性がある。音量調整部25は、音響信号Sz0の音量を音響信号Sxと同等の音量に調整すること(すなわちスケーリング)で音響信号Szを生成する。音響信号Szが放音装置13に供給されることで音波として放射される。具体的には、音量調整部25は、音響信号Sxの音量と音響信号Sz0の音量との相違に応じた調整値Gを音響信号Sz0に乗算することで音響信号Szを生成する。調整値Gは、音響信号Sxと音響信号Szとの音量差が最小化されるように設定される。
【0035】
図5は、制御装置11が音響信号Sxから音響信号Szを生成する処理(以下「音響処理Sa」という)の具体的な手順を例示するフローチャートである。例えば音響処理システム100に対する利用者からの指示を契機として音響処理Saが開始される。
【0036】
音響処理Saが開始されると、制御装置11(周波数解析部21)は、複数の単位期間の各々について音響信号Sxの強度スペクトルX(m)を生成する(Sa1)。制御装置11(音源分離部22)は、強度スペクトルX(m)のうち周波数帯域BL内の成分に対する音源分離により各単位期間の強度スペクトルY1(m)と強度スペクトルY2(m)とを生成する(Sa2)。
【0037】
制御装置11(取得部231)は、強度スペクトルX(m)と強度スペクトルY1(m)と強度スペクトルY2(m)とから各単位期間の入力データD(m)を生成する(Sa3)。制御装置11(生成部232)は、入力データD(m)を推定モデルMに入力することで各単位期間の出力データO(m)を生成する(Sa4)。制御装置11(波形合成部24)は、第1出力データO1(m)または第2出力データO2(m)の時系列から音響信号Sz0を生成する(Sa5)。制御装置11(音量調整部25)は、音響信号Sz0に調整値Gを乗算することで音響信号Szを生成する(Sa6)。
【0038】
以上に説明した通り、第1実施形態においては、周波数帯域BLの成分を表す第1入力データD1(m)および第2入力データD2(m)を含む入力データD(m)から、周波数帯域BLを含む全帯域BFの音を表す出力データO(m)が生成される。すなわち、音響信号Sxが表す混合音のうち周波数帯域BLについてのみ限定的に音源分離を実行する構成にも関わらず、全帯域BFの成分を含む出力データO(m)が生成される。したがって、音源分離のための処理負荷を軽減できる。
【0039】
[2]学習処理部30
図2に例示される通り、制御装置11は、記憶装置12に記憶された機械学習プログラムP2を実行することで学習処理部30として機能する。学習処理部30は、音響処理Saに利用される推定モデルMを機械学習により確立する。学習処理部30は、取得部31と訓練部32とを具備する。
【0040】
記憶装置12には、推定モデルMの機械学習に利用される複数の訓練データTが記憶される。
図6は、訓練データTの説明図である。複数の訓練データTの各々は、訓練用の入力データDt(m)と訓練用の出力データOt(m)との組合せで構成される。
図3の入力データD(m)と同様に、訓練用の入力データDt(m)は、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とを含む。
【0041】
図6には、参照信号Srと第1信号Sr1と第2信号Sr2とが図示されている。参照信号Srは、第1音源から発音される第1音と第2音源から発音される第2音との混合音を表す時間領域の信号である。参照信号Srが表す混合音は、周波数帯域BLと周波数帯域BHとを含む全帯域BFにわたる。参照信号Srは、例えば、第1音源と第2音源とが並列に発音する環境において収音装置を利用して収録される。また、第1信号Sr1は、第1音を表す時間領域の信号であり、第2信号Sr2は、第2音を表す時間領域の信号である。第1音および第2音の各々は、周波数帯域BLと周波数帯域BHとを含む全帯域BFにわたる。第1信号Sr1は、第1音源のみが発音する環境において収録され、第2信号Sr2は、第2音源のみが発音する環境において収録される。なお、相互に個別に収録された第1信号Sr1と第2信号Sr2とを混合することで参照信号Srが生成されてもよい。
【0042】
図6には、参照信号Srの強度スペクトルX(m)の時系列(…,X(m-1),X(m),X(m+1),…)と、第1信号Sr1の強度スペクトルR1(m)の時系列(…,R1(m-1),R1(m),R1(m+1),…)と、第2信号Sr2の強度スペクトルR2(m)の時系列(…,R2(m-1),R2(m),R2(m+1),…)とが図示されている。訓練用の入力データDt(m)のうちの混合音データDx(m)は、参照信号Srの強度スペクトルX(m)から生成される。具体的には、任意の1個の目標期間の混合音データDx(m)は、
図3の例示と同様に、当該目標期間の強度スペクトルX(m)と、目標期間の周囲に位置する他の単位期間の強度スペクトルX(X(m-4),X(m-2),X(m+2),X(m+4))とを含む。
【0043】
第1信号Sr1は、周波数帯域BLの成分と周波数帯域BHの成分とを含む。第1信号Sr1の強度スペクトルR1(m)は、周波数帯域BL内の強度スペクトルY1(m)と周波数帯域BH内の強度スペクトルH1(m)とで構成される。訓練用の入力データDt(m)の第1入力データD1(m)は、周波数帯域BLの強度スペクトルY1(m)を表すデータである。具体的には、目標期間の第1入力データD1(m)は、当該目標期間の強度スペクトルY1(m)と、当該目標期間の周囲に位置する他の単位期間の強度スペクトルY1(Y1(m-4),Y1(m-2),Y1(m+2),Y1(m+4))とを含む。
【0044】
第1信号Sr1と同様に、第2信号Sr2は、周波数帯域BLの成分と周波数帯域BHの成分とを含む。第2信号Sr2の強度スペクトルR2(m)は、周波数帯域BL内の強度スペクトルY2(m)と周波数帯域BH内の強度スペクトルH2(m)とで構成される。訓練用の入力データDt(m)の第2入力データDt2(m)は、周波数帯域BLの強度スペクトルY2(m)を表すデータである。具体的には、目標期間の第2入力データDt2(m)は、当該目標期間の強度スペクトルY2(m)と、目標期間の周囲に位置する他の単位期間の強度スペクトルY2(Y2(m-4),Y2(m-2),Y2(m+2),Y2(m+4))とを含む。
【0045】
他方、各訓練データTを構成する訓練用の出力データOt(m)は、第1出力データOt1(m)と第2出力データOt2(m)とで構成される正解データである。第1出力データOt1(m)は、第1信号Sr1の強度スペクトルR1(m)を表す。すなわち、第1出力データOt1(m)は、参照信号Srが表す混合音のうち全帯域BFにわたる第1音のスペクトルである。第2出力データOt2(m)は、第2信号Sr2の強度スペクトルR2(m)を表す。すなわち、第2出力データOt2(m)は、参照信号Srが表す混合音のうち全帯域BFにわたる第2音のスペクトルである。
【0046】
訓練用の入力データDt(m)の全体で表現されるベクトルVの各要素は、前述の入力データDt(m)と同様に、当該ベクトルVの大きさが1となるように正規化される。同様に、訓練用の出力データOt(m)の全体で表現されるベクトルVの各要素は、当該ベクトルVの大きさが1となるように正規化される。
【0047】
図2の取得部31は、複数の訓練データTの各々を記憶装置12から取得する。なお、参照信号Srと第1信号Sr1と第2信号Sr2とが記憶装置12に記憶された構成においては、取得部31が参照信号Srと第1信号Sr1と第2信号Sr2とから複数の訓練データTを生成する。すなわち、取得部31による「取得」は、事前に用意された訓練データTを記憶装置12から読出する処理のほか、当該取得部31自身が訓練データTを生成する処理も包含する。
【0048】
訓練部32は、複数の訓練データTを利用した処理(以下「学習処理Sb」という)により推定モデルMを確立する。学習処理Sbは、複数の訓練データTを利用した教師あり機械学習である。具体的には、訓練部32は、各訓練データTの入力データDt(m)を入力した場合に暫定的な推定モデルMが生成する出力データO(m)と、当該訓練データTに含まれる出力データOt(m)との誤差を表す損失関数Lが低減(理想的には最小化)されるように、推定モデルMを規定する複数の変数Kを反復的に更新する。したがって、推定モデルMは、複数の訓練データTにおける入力データDt(m)と出力データOt(m)との間に潜在する関係を学習する。すなわち、訓練部32による訓練後の推定モデルMは、未知の入力データD(m)に対して当該関係のもとで統計的に妥当な出力データO(m)を出力する。
【0049】
損失関数Lは、例えば以下の数式(3)で表現される。
【数3】
数式(3)の記号ε[a,b]は、要素aと要素bとの誤差(例えば平均二乗誤差またはクロスエントロピー関数)である。
【0050】
図7は、学習処理Sbの具体的な手順を例示するフローチャートである。例えば音響処理システム100に対する利用者からの指示を契機として学習処理Sbが開始される。
【0051】
制御装置11(取得部31)は、訓練データTを記憶装置12から取得する(Sb1)。制御装置11(訓練部32)は、当該訓練データTを利用した機械学習を実行する(Sb2)。すなわち、訓練データTの入力データDt(m)から推定モデルMが生成する出力データO(m)と、当該訓練データTの出力データOt(m)(すなわち正解値)との間の損失関数Lが低減されるように、推定モデルMの複数の変数Kを反復的に更新する。損失関数Lに応じた複数の変数Kの更新には、例えば誤差逆伝播法が利用される。
【0052】
制御装置11は、学習処理Sbに関する終了条件が成立したか否かを判定する(Sb3)。終了条件は、例えば、損失関数Lが所定の閾値を下回ること、または、損失関数Lの変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb3:NO)、制御装置11(取得部31)は、未取得の訓練データTを記憶装置12から取得する(Sb1)。すなわち、終了条件の成立まで、訓練データTの取得(Sb1)と当該訓練データTを利用した複数の変数Kの更新(Sb2)とが反復される。終了条件が成立した場合(Sb3:YES)、制御装置11は学習処理Sbを終了する。
【0053】
以上に説明した通り、第1実施形態においては、周波数帯域BLの成分を表す第1入力データD1(m)および第2入力データD2(m)を含む入力データD(m)から、周波数帯域BLおよび周波数帯域BHの音を表す出力データO(m)が生成されるように、推定モデルMが確立される。すなわち、音響信号Sxが表す混合音のうち周波数帯域BLについてのみ限定的に音源分離を実行する構成でも、推定モデルMを利用することで、周波数帯域BHの成分を含む出力データO(m)が生成される。したがって、音源分離のための処理負荷を軽減できる。
【0054】
B:第2実施形態
第2実施形態について以下に説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0055】
第1実施形態においては、混合音データDx(m)が周波数帯域BLの成分と周波数帯域BHの成分とを双方を含む構成を例示した。しかし、第1音のうち周波数帯域BL内の成分は第1入力データD1(m)に含まれ、第2音のうち周波数帯域BH内の成分は第2入力データD2(m)に含まれるから、混合音データDx(m)が周波数帯域BLの成分を含む構成は必須ではない。以上の事情を考慮して、第2実施形態においては、混合音データDx(m)が混合音のうち周波数帯域BLの成分を含まない。
【0056】
図8は、第2実施形態における入力データD(m)の模式図である。音響信号Sxの強度スペクトルX(m)は、周波数帯域BL内の強度スペクトルXL(m)と周波数帯域BH内の強度スペクトルXH(m)とに分割される。入力データD(m)の混合音データDx(m)は、周波数帯域BHの強度スペクトルXH(m)を表すデータである。具体的には、1個の目標期間について生成される混合音データDx(m)は、当該目標期間の強度スペクトルXH(m)と、当該目標期間の周囲に位置する他の単位期間の強度スペクトルXH(XH(m-4),XH(m-2),XH(m+2),XH(m+4))とを含む。すなわち、第2実施形態の混合音データDx(m)は、混合音のうち周波数帯域BLの成分(強度スペクトルXL(m))を含まない。なお、音源分離部22が強度スペクトルX(m)のうち周波数帯域BLの成分を対象として音源分離を実行する点は第1実施形態と同様である。
【0057】
以上の説明においては、音響処理Saに利用される入力データD(m)を例示したが、学習処理Sbに利用される訓練用の入力データDt(m)についても同様に、参照信号Srが表す混合音のうち周波数帯域BHの成分を表す混合音データDx(m)が含まれる。すなわち、訓練用の混合音データDx(m)は、参照信号Srの強度スペクトルX(m)のうち周波数帯域BH内の強度スペクトルXH(m)を表し、周波数帯域BL内の強度スペクトルXL(m)は混合音データDx(m)に反映されない。
【0058】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、混合音データDx(m)が混合音のうち周波数帯域BLの成分を含まない。したがって、混合音データDx(m)が全帯域BFの成分を含む構成と比較して、学習処理Sbの処理負荷および推定モデルMの規模が低減されるという利点がある。
【0059】
第1実施形態においては、全帯域BFにわたる混合音を表す混合音データDx(m)を例示した。第2実施形態においては、混合音のうち周波数帯域BHの成分を表す混合音データDx(m)を例示した。以上の例示から理解される通り、混合音データDx(m)は、混合音のうち周波数帯域BHを含む周波数帯域の成分を表すデータとして包括的に表現される。
【0060】
C:第3実施形態
図9は、第3実施形態における入力データD(m)の模式図である。第3実施形態の入力データD(m)は、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とに加えて強度指標αを含む。強度指標αは、前述の通り、入力データD(m)の全体で表現されるベクトルVの大きさ(例えばL2ノルム)を表す指標であり、前掲の数式(2)で算定される。学習処理Sbに利用される訓練用の入力データDt(m)についても同様に、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とに加えて、当該入力データDt(m)で表現されるベクトルVの大きさに応じた強度指標αが含まれる。なお、混合音データDx(m)と第1入力データD1(m)と第2入力データD2(m)とは、第1実施形態または第2実施形態と同様である。
【0061】
図10は、第3実施形態に係る音響処理システム100の機能的な構成を例示するブロック図である。第3実施形態の入力データD(m)には強度指標αが含まれるから、当該強度指標αが反映された出力データO(t)が推定モデルMから出力される。具体的には、波形合成部24が出力データO(t)から生成する音響信号Szは、音響信号Sxと同等の音量となる。したがって、第1実施形態において例示した音量調整部25(
図5のステップSa6)が第3実施形態においては省略される。すなわち、波形合成部24による出力信号(第1実施形態における音響信号Sz0)が最終的な音響信号Szとして出力される。
【0062】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、強度指標αが入力データD(m)に含まれるから、混合音に対応する音量の音を表す出力データO(m)が生成される。したがって、第1出力データO1(m)および第2出力データO2(m)が表す音の強度を調整する処理(音量調整部25)が不要であるという利点がある。
【0063】
図11は、第1実施形態および第3実施形態による効果の説明図である。
図11の結果Aは、第1実施形態により生成された音響信号Szの振幅スペクトログラムであり、
図11の結果Bは、第3実施形態により生成された音響信号Szの振幅スペクトログラムである。結果Aおよび結果Bにおいては、打楽器音(第1音)と歌唱音声(第2音)との混合音を表す音響信号Sxに対して音響処理Saを実行することで、打楽器音を表す音響信号Szを生成した場合が想定されている。
図11の正解Cは、単独で発音された打楽器音の振幅スペクトログラムである。
【0064】
図11の結果Aからは、第1実施形態により、正解Cに近い音響信号Szを生成できることが確認できる。また、
図11の結果Bからは、入力データD(m)が強度指標αを含む第3実施形態により、第1実施形態と比較しても正解Cに充分に近い音響信号Szを生成できることが確認される。
【0065】
図12は、第1実施形態から第3実施形態に関する観測結果の図表である。
図12においては、打楽器音(第1音)と歌唱音声(第2音)との混合音を表す音響信号Sxに対して音響処理Saを実行することで、打楽器音(Drums)を表す音響信号Szと、歌唱音声(Vocals)を表す音響信号Szとを生成した場合が想定されている。
図12には、評価指標として有効なSAR(信号対非線形歪比:Sources to Artifacts Ratio)およびSAR改善量が、第1実施形態から第3実施形態の各々について図示されている。SAR改善量は、比較例を基準としたSARの改善量である。比較例については、音響信号Szのうち周波数帯域BHの成分を一律にゼロとした場合のSARが基準として例示されている。
【0066】
第1実施形態および第2実施形態においてもSARが改善することが
図12から確認できる。また、第3実施形態によれば、打楽器音および歌唱音声の何れについても、第1実施形態および第2実施形態と比較して非常に高精度な音源分離が実現されることが
図12から確認できる。
【0067】
D:第4実施形態
第4実施形態の学習処理Sbにおいては、前掲の数式(3)で表現される損失関数Lが、以下の数式(4)で表現される損失関数Lに置換される。
【数4】
【0068】
数式(4)における記号O1H(m)は、第1出力データO1(m)が表す強度スペクトルZ1(m)のうち周波数帯域BH内の強度スペクトルであり、記号O2H(m)は、第2出力データO2(m)が表す強度スペクトルZ2(m)のうち周波数帯域BH内の強度スペクトルである。すなわち、数式(4)の右辺における第3項は、参照信号Srの強度スペクトルX(m)のうち周波数帯域BH内の強度スペクトルXH(m)と、強度スペクトルH1(m)および強度スペクトルH2(m)の合計(H1(m)+H2(m))との誤差を意味する。以上の説明から理解される通り、第4実施形態の訓練部32は、強度スペクトルZ1(m)のうち周波数帯域BH内の成分と、強度スペクトルZ2(m)のうち周波数帯域BH内の成分とを混合した結果が、混合音の強度スペクトルX(m)のうち周波数帯域BHの成分(強度スペクトルXH(m))に近似または一致するという条件(以下「追加条件」という)のもとで、推定モデルMを訓練する。
【0069】
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態によれば、追加条件なしで訓練された推定モデルMを利用する構成と比較して、第1音のうち周波数帯域BHの成分(第1出力データO1(m))と第2音のうち周波数帯域BHの成分(第2出力データO2(m))とを高精度に推定できる。なお、第4実施形態の構成は、第2実施形態および第3実施形態にも同様に適用される。
【0070】
E:第5実施形態
図13は、第5実施形態における入力データD(m)および出力データO(m)の模式図である。第1実施形態の出力データO(m)における第1出力データO1(m)は、全帯域BFにわたる強度スペクトルZ1(m)を表し、第2出力データO2(m)は、全帯域BFにわたる強度スペクトルZ2(m)を表す。第5実施形態における第1出力データO1(m)は、第1音のうち周波数帯域BHの成分を表す。すなわち、第1出力データO1(m)は、第1音の強度スペクトルZ1(m)のうち周波数帯域BH内の強度スペクトルH1(m)を表し、周波数帯域BL内の強度スペクトルを含まない。同様に、第5実施形態における第2出力データO2(m)は、第2音のうち周波数帯域BHの成分を表す。すなわち、第2出力データO2(m)は、第2音の強度スペクトルZ2(m)のうち周波数帯域BH内の強度スペクトルH2(m)を表し、周波数帯域BL内の強度スペクトルを含まない。
【0071】
図14は、第5実施形態における訓練用の入力データDt(m)および出力データOt(m)の模式図である。第1実施形態において、訓練用の出力データOt(m)における第1出力データOt1(m)は、全帯域BFにわたる第1音の強度スペクトルR1(m)を表し、第2出力データOt2(m)は、全帯域BFにわたる第2音の強度スペクトルR2(m)を表す。第5実施形態における第1出力データOt1(m)は、第1音のうち周波数帯域BHの成分を表す。すなわち、第1出力データOt1(m)は、第1音の強度スペクトルR1(m)のうち周波数帯域BH内の強度スペクトルH1(m)を表し、周波数帯域BL内の強度スペクトルY1(m)を含まない。同様に、第5実施形態における第2出力データOt2(m)は、第2音のうち周波数帯域BHの成分を表す。すなわち、第2出力データOt2(m)は、第2音の強度スペクトルR2(m)のうち周波数帯域BH内の強度スペクトルH2(m)を表し、周波数帯域BL内の強度スペクトルY2(m)を含まない。
【0072】
図15は、第5実施形態における音響処理部20の部分的な構成を例示するブロック図である。第5実施形態の波形合成部24には、第1音のうち周波数帯域BH内の強度スペクトルH1(m)を表す第1出力データO1(m)が音響処理部20から供給されるほか、第1音のうち周波数帯域BL内の強度スペクトルY1(m)が音源分離部22から供給される。第1音の強調が利用者から指示された場合、波形合成部24は、強度スペクトルH1(m)と強度スペクトルY1(m)とを合成することで全帯域BFにわたる強度スペクトルZ1(m)を生成し、強度スペクトルZ1(m)の時系列から音響信号Sz0を生成する。
【0073】
また、第5実施形態の波形合成部24には、第2音のうち周波数帯域BH内の強度スペクトルH2(m)を表す第2出力データO2(m)が音響処理部20から供給されるほか、第2音のうち周波数帯域BL内の強度スペクトルY2(m)が音源分離部22から供給される。第2音の強調が利用者から指示された場合、波形合成部24は、強度スペクトルH2(m)と強度スペクトルY2(m)とを合成することで全帯域BFにわたる強度スペクトルZ2(m)を生成し、強度スペクトルZ2(m)の時系列から音響信号Sz0を生成する。
【0074】
第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態においては、出力データO(m)が周波数帯域BLの成分を含まない。したがって、出力データO(m)が全帯域BFの成分を含む構成(例えば第1実施形態)と比較して、学習処理Sbの処理負荷および推定モデルMの規模が低減されるという利点がある。他方、出力データO(m)が全帯域BFの成分を含む第1実施形態によれば、第5実施形態と比較して、全帯域BFにわたる音響を簡便に生成できるという利点がある。
【0075】
第1実施形態においては、第1音のうち周波数帯域BLと周波数帯域BHとを含む全帯域BFの成分を表す第1出力データO1(m)を例示した。第5実施形態においては、第1音のうち周波数帯域BHの成分を表す第1出力データO1(m)を例示した。以上の例示から理解される通り、第1出力データO1(m)は、第1音のうち周波数帯域BHを含む周波数帯域の成分を表すデータとして包括的に表現される。同様に、第2出力データO2(m)は、第2音のうち周波数帯域BHを含む周波数帯域の成分を表すデータとして包括的に表現される。
【0076】
F:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0077】
(1)前述の各形態においては、目標期間の強度スペクトルX(m)と他の単位期間の強度スペクトルXとを含む混合音データDx(m)を例示したが、混合音データDx(m)の内容は以上の例示に限定されない。例えば、目標期間の混合音データDx(m)が当該目標期間の強度スペクトルX(m)のみを含む構成が想定される。目標期間の混合音データDx(m)が、当該目標期間に対して過去および未来の一方の単位期間の強度スペクトルXを含んでもよい。また、前述の各形態においては、目標期間の混合音データDx(m)が、当該目標期間に間隔をあけて前後する他の単位期間の強度スペクトルX(X(m-4),X(m-2),X(m+2),X(m+4))を含む構成を例示したが、目標期間の直前の単位期間の強度スペクトルX(m-1)または直後の単位期間の強度スペクトルX(m+1)を混合音データDx(m)が含んでもよい。
【0078】
以上の説明においては混合音データDx(m)に着目したが、第1入力データD1(m)および第2入力データD2(m)についても同様である。例えば、目標期間の第1入力データD1(m)は、当該目標期間の強度スペクトルY1(m)のみで構成されてもよいし、当該目標期間の過去および未来の一方の単位期間の強度スペクトルY1を含んでもよい。また、目標期間の第1入力データD1(m)が、当該目標期間の直前の単位期間の強度スペクトルY2(m-1)、または直後の単位期間の強度スペクトルY1(m+1)を含んでもよい。第2入力データD2(m)についても同様である。
【0079】
(2)前述の各形態においては、所定の周波数を下回る周波数帯域BLと当該周波数を上回る周波数帯域BHとに着目したが、周波数帯域BLと周波数帯域BHとの関係は以上の例示に限定されない。例えば、周波数帯域BLが所定の周波数を上回り、周波数帯域BHが当該周波数を下回る構成も想定される。また、周波数帯域BLおよび周波数帯域BHの各々は、周波数軸上で連続する周波数帯域に限定されない。例えば、周波数軸を区分した複数の周波数帯域のうち奇数番目および偶数番目の一方に属する2以上の周波数帯域の集合が周波数帯域BLとされ、奇数番目および偶数番目の他方に属する2以上の周波数帯域の集合が周波数帯域BHとされてもよい。
【0080】
(3)前述の各形態においては、事前に用意された音響信号Sxを処理する場合を例示したが、音響処理部20は、音響信号Sxの収録に並行して実時間的に、音響信号Sxに対する音響処理Saを実行してもよい。なお、前述の各形態における例示のように混合音データDx(m)が目標期間の後方の強度スペクトルX(m+4)を含む構成では、単位期間の4個分に相当する時間長の遅延が発生する。
【0081】
(4)前述の各形態においては、第1音が強調された強度スペクトルZ1(m)を表す第1出力データO1(m)と第2音が強調された強度スペクトルZ2(m)を表す第2出力データO2(m)との双方を帯域拡張部23が生成したが、第1出力データO1(m)および第2出力データO2(m)の一方のみを出力データO(m)として帯域拡張部23が生成してもよい。例えば、歌唱音声(第1音)と楽器音(第2音)との混合音に対する音響処理Saで歌唱音声を抑制するという用途に使用される音響処理システム100においては、第2音が強調された強度スペクトルZ2(m)を表す出力データO(m)(第2出力データO2(m))を帯域拡張部23が生成すれば充分である。すなわち、第1音が強調された強度スペクトルZ1(m)の生成は省略される。以上の説明から理解される通り、生成部232は、第1出力データO1(m)および第2出力データO2(m)の少なくとも一方を生成する要素として表現される。
【0082】
(5)前述の各形態においては、第1音および第2音の一方が強調された音響信号Szを生成したが、音響処理部20による処理の内容は以上の例示に限定されない。例えば、第1出力データO1(m)の時系列から生成される第1音響信号と第2出力データO2(m)の時系列から生成される第2音響信号との加重和を、音響処理部20が音響信号Szとして出力してもよい。第1音響信号は第1音が強調された信号であり、第2音響信号は第2音が強調された信号である。また、第1音響信号および第2音響信号の各々に対して、例えば効果付与等の音響処理を相互に独立に実行し、処理後の第1音響信号と第2音響信号とを加算することで、音響処理部20が音響信号Szを生成してもよい。
【0083】
(6)携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により音響処理システム100が実現されてもよい。例えば、音響処理システム100は、端末装置から受信した音響信号Sxに対する音響処理Saにより音響信号Szを生成し、当該音響信号Szを端末装置に送信する。端末装置に搭載された周波数解析部21が生成した強度スペクトルX(m)を音響処理システム100が受信する構成においては、音響処理システム100から周波数解析部21が省略される。また、波形合成部24(および音量調整部25)が端末装置に搭載された構成においては、帯域拡張部23が生成した出力データO(m)が音響処理システム100から端末装置に送信される。したがって、波形合成部24および音量調整部25は音響処理システム100から省略される。
【0084】
また、周波数解析部21および音源分離部22は端末装置に搭載されてもよい。音響処理システム100は、周波数解析部21が生成した強度スペクトルX(m)と、音源分離部22が生成した強度スペクトルY1(m)および強度スペクトルY2(m)とを、端末装置から受信する。以上の説明から理解される通り、音響処理システム100から音源分離部22が省略されてもよい。音響処理システム100が音源分離部22を具備しない構成でも、端末装置等の外部装置において実行される音源分離の処理負荷を軽減できる、という所期の効果は実現される。
【0085】
(7)前述の各形態においては、音響処理部20と学習処理部30とを具備する音響処理システム100を例示したが、音響処理部20および学習処理部30の一方が省略されてもよい。学習処理部30を具備するコンピュータシステムは、推定モデル訓練システム(機械学習システム)とも換言される。推定モデル訓練システムにおける音響処理部20の有無は不問である。
【0086】
(8)以上に例示した音響処理システム100の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラム(P1,P2)との協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置12が、前述の非一過性の記録媒体に相当する。
【0087】
G:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0088】
本開示のひとつの態様(態様1)に係る音響処理方法は、第1音源に対応する第1音のうち第1周波数帯域の成分を表す第1入力データと、前記第1音源とは異なる第2音源に対応する第2音のうち前記第1周波数帯域の成分を表す第2入力データと、前記第1音と前記第2音との混合音のうち前記第1周波数帯域とは異なる第2周波数帯域を含む周波数帯域の成分を含む音を表す混合音データと、を含む入力データを取得し、学習済の推定モデルに前記入力データを入力することで、前記第1音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、前記第2音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第2出力データとの少なくとも一方を生成する。
【0089】
以上の構成によれば、第1音のうち第1周波数帯域の成分を表す第1入力データと、第2音のうち第1周波数帯域の成分を表す第2入力データとを含む入力データから、第1音のうち第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、第2音のうち第2周波数帯域を含む周波数帯域の成分を表す第2出力データとの少なくとも一方が生成される。すなわち、第1入力データが表す音は第1音のうち第1周波数帯域の成分であれば足り、第2入力データが表す音は第2音のうち第1周波数帯域の成分であれば足りる。以上の構成によれば、第1音源に対応する第1音と第2音源に対応する第2音との混合音を第1音と第2音とに分離する音源分離を、第1周波数帯域についてのみ限定的に実行すれば足りる。したがって、音源分離のための処理負荷が軽減される。
【0090】
「第1音源に対応する第1音」は、第1音源から発音される音を優勢に含む音を意味する。すなわち、第1音源から発音される音単独のほか、例えば第1音源から発音される第1音に加えて第2音源からの第2音(例えば音源分離により完全には除去されなかった第2音)が僅かに含まれる音も、「第1音源に対応する第1音」の概念には包含される。同様に、「第2音源に対応する第2音」は、第2音源から発音される音を優勢に含む音を意味する。すなわち、第2音源から発音される音単独のほか、例えば第2音源から発音される第2音に加えて第1音源からの第1音(例えば音源分離により完全には除去されなかった第1音)が僅かに含まれる音も、「第2音源に対応する第2音」の概念には包含される。
【0091】
混合音データが表す音は、混合音のうち第1周波数帯域および第2周波数帯域の双方の成分を含む音(例えば全帯域にわたる混合音)と、混合音のうち第1周波数帯域の成分を含まない音とを包含する。
【0092】
第1周波数帯域および第2周波数帯域は、周波数軸上の相異なる周波数帯域である。典型的には、第1周波数帯域と第2周波数帯域とは相互に重複しない。ただし、第1周波数帯域と第2周波数帯域とが部分的に重複してもよい。第1周波数帯域の周波数軸上の位置と第2周波数帯域の周波数軸上の位置との関係は任意である。また、第1周波数帯域の帯域幅と第2周波数帯域の帯域幅との異同は不問である。
【0093】
第1出力データは、第1音のうち第2周波数帯域の成分のみを表すデータ、または、第1音のうち第1周波数帯域および第2周波数帯域を含む周波数帯域の成分を表すデータである。同様に、第2出力データは、第2音のうち第2周波数帯域の成分のみを表すデータ、または、第2音のうち第1周波数帯域および第2周波数帯域を含む周波数帯域の成分を表すデータである。
【0094】
推定モデルは、入力データと出力データ(第1出力データおよび第2出力データ)との関係を学習した統計的モデルである。推定モデルの典型例はニューラルネットワークであるが、推定モデルの種類は以上の例示に限定されない。
【0095】
態様1の具体例(態様2)において、前記混合音は、前記第1周波数帯域の成分と前記第2周波数帯域の成分とを含み、前記混合音データは、前記混合音のうち前記第1周波数帯域の成分を含まない音を表す。以上の構成によれば、混合音データが表す音が第1周波数帯域の成分を含まないから、混合音データが表す音が第1周波数帯域の成分と第2周波数帯域の成分とを含む構成と比較して、推定モデルの機械学習に必要な処理負荷および当該推定モデルの規模が低減されるという利点がある。
【0096】
態様1または態様2の具体例(態様3)において、前記第1入力データは、前記第1音のうち前記第1周波数帯域の成分の強度スペクトルを表し、前記第2入力データは、前記第2音のうち前記第1周波数帯域の成分の強度スペクトルを表し、前記混合音データは、前記混合音のうち前記第2周波数帯域を含む周波数帯域の成分の強度スペクトルを表し、前記入力データは、前記第1入力データと前記第2入力データと前記混合音データとで構成される正規化されたベクトルと、当該ベクトルの大きさを表す強度指標とを含む。以上の構成によれば、強度指標が入力データに含まれるから、混合音に対応する音量の音を表す第1出力データおよび第2出力データが生成される。したがって、第1出力データおよび第2出力データが表す音の強度を調整する処理(スケーリング)が不要であるという利点がある。
【0097】
態様1から態様3の何れかの具体例(態様4)において、前記推定モデルは、前記第1出力データが表す音のうち前記第2周波数帯域の成分と、前記第2出力データが表す音のうち前記第2周波数帯域の成分とを混合した結果が、前記混合音のうち前記第2周波数帯域の成分に近似するように訓練されたモデルである。以上の構成によれば、第1出力データが表す音のうち第2周波数帯域の成分と、第2出力データが表す音のうち第2周波数帯域の成分とを混合した結果が、混合音のうち第2周波数帯域の成分に近似するように、推定モデルが訓練される。したがって、以上の条件を加味せずに訓練された推定モデルを利用する構成と比較して、第1音のうち第2周波数帯域の成分(第1出力データ)と第2音のうち第2周波数帯域の成分(第2出力データ)とを高精度に推定できる。
【0098】
態様1から態様4の何れかの具体例(態様5)において、さらに、前記混合音のうち前記第1周波数帯域の成分に対する音源分離により、前記第1音のうち第1周波数帯域の第1成分と、前記第2音のうち前記第1周波数帯域の第2成分とを生成し、前記入力データの取得においては、前記第1成分を表す前記第1入力データと、前記第2成分を表す前記第2入力データとを取得する。以上の構成によれば、混合音のうち第1周波数帯域の成分に対して音源分離が実行されるから、混合音の全帯域を対象として音源分離を実行する構成と比較して、音源分離のための処理負荷が軽減される。
【0099】
態様1から態様5の何れかの具体例(態様6)において、前記第1出力データは、前記第1音のうち前記第1周波数帯域の成分と前記第2周波数帯域の成分とを表し、前記第2出力データは、前記第2音のうち前記第1周波数帯域の成分と前記第2周波数帯域の成分とを表す。以上の構成によれば、第1周波数帯域および第2周波数帯域の双方の成分を含む第1出力データおよび第2出力データが生成される。したがって、第1出力データが第1音のうち第2周波数帯域の成分のみを表すデータであり、第2出力データが第2音のうち第2周波数帯域の成分のみを表すデータである構成と比較して、第1周波数帯域および第2周波数帯域の双方にわたる音響を簡便に生成できる。
【0100】
本開示のひとつの態様(態様7)に係る推定モデルの訓練方法は、入力データと出力データとを各々が含む複数の訓練データを取得し、前記複数の訓練データを利用した機械学習により、前記入力データと前記出力データとを関係を学習した推定モデルを確立し、前記入力データは、第1音源に対応する第1音のうち第1周波数帯域の成分を表す第1入力データと、前記第1音源とは異なる第2音源に対応する第2音のうち前記第1周波数帯域の成分を表す第2入力データと、前記第1音と前記第2音との混合音のうち前記第1周波数帯域とは異なる第2周波数帯域を含む周波数帯域の成分を含む音を表す混合音データとを含み、前記出力データは、前記第1音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、前記第2音のうち前記第2周波数帯域を含む周波数帯域の成分を表す第2出力データとを含む。
【0101】
以上の構成によれば、第1音のうち第1周波数帯域の成分を表す第1入力データと、第2音のうち第1周波数帯域の成分を表す第2入力データとを含む入力データから、第1音のうち第2周波数帯域を含む周波数帯域の成分を表す第1出力データと、第2音のうち第2周波数帯域を含む周波数帯域の成分を表す第2出力データとの少なくとも一方を生成する推定モデルが確立される。以上の構成によれば、第1音源に対応する第1音と第2音源に対応する第2音との混合音を第1音と第2音とに分離する音源分離を、第1周波数帯域についてのみ限定的に実行すれば足りる。したがって、音源分離のための処理負荷が軽減される。
【0102】
なお、本開示は、以上に例示した各態様(態様1から態様6)に係る音響処理方法を実現する音響処理システム、または、当該音響処理方法をコンピュータに実行させるプログラム、としても実現される。また、本開示は、前述の態様7に係る訓練方法を実現する推定モデル訓練システム、または、当該訓練方法をコンピュータに実行させるプログラム、としても実現される。
【符号の説明】
【0103】
100…音響処理システム、11…制御装置、12…記憶装置、13…放音装置、20…音響処理部、21…周波数解析部、22…音源分離部、23…帯域拡張部、231…取得部、232…生成部、24…波形合成部、25…音量調整部、30…学習処理部、31…取得部、32…訓練部、M…推定モデル。