(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024038691
(43)【公開日】2024-03-21
(54)【発明の名称】音響信号推定装置、音響信号推定方法、およびプログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20240313BHJP
G06N 3/04 20230101ALI20240313BHJP
G06F 17/16 20060101ALI20240313BHJP
G10L 25/30 20130101ALI20240313BHJP
G06N 3/08 20230101ALN20240313BHJP
【FI】
G10L25/51
G06N3/04
G06F17/16 P
G10L25/30
G06N3/08
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022142915
(22)【出願日】2022-09-08
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)ウェブサイト掲載日 2022年2月16日 ウェブサイトのアドレス arXiv ウェブサイト https://arxiv.org/ (トップページ) https://arxiv.org/abs/2202.08028(論文ページ) (2)発行日 予稿集公開 2022年2月23日、発明を発表した日 2022年3月9日(開催日 2022年3月9日~3月11日) 刊行物 日本音響学会2022春季研究発表会(予稿集) https://acoustics.jp/annualmeeting/program/ (3)開催日 2022年5月13日(開催期間2022年5月7日~5月13日) 集会名、開催場所 IEEE ICASSP 2022 オンライン開催 https://2022.ieeeicassp.org/view_paper.php?PaperNum=5147 https://ieeexplore.ieee.org/document/9747089(論文ページ)
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】安田 昌弘
(72)【発明者】
【氏名】田中 僚郎
(72)【発明者】
【氏名】矢田部 浩平
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB38
(57)【要約】
【課題】歪みの大きな信号に対して精度が高く、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現する。
【解決手段】第1推定部10は、第2推定信号v
[k]と、双対変数u
[k]とを入力として第1推定信号x
[k+1]を生成する。第2推定部20は、時間周波数表現に変換されたx
[k+1]と、u
[k]とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行し、スパース最適化法により第2推定信号v
[k+1]を生成する。変数更新部30は、u
[k]と、時間周波数表現に変換されたx
[k+1]と、v
[k+1]とを入力として、新たな双対変数双対変数u
[k+1]を生成する。出力部40は、x
[k+1]の生成回数がK-1以上の場合に、x
[K]を推定結果として出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
所定の閾値でクリッピングされた信号であるクリップ後信号yの波形から、前記クリッピングされる前の信号であるクリップ前信号~yの波形を推定する音響信号推定装置であって、
k(k=0,1,2,…,K-1)は第1推定部による第1推定信号の推定の実行回数であり、Kは所定回数であり、x[k]は第1推定信号であり、v[k]は第2推定信号であり、u[k]は双対変数uであり、x[0]は前記クリップ後信号の波形であり、v[0]はx[0]の時間周波数表現であり、u[0]は任意の数である場合に、
前記第2推定信号v[k]と、前記双対変数u[k]とを入力として制約対象の波形を生成し、前記制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素ΠΓを適用することにより新たな波形である第1推定信号x[k+1]を生成する第1推定部と、
前記第1推定信号x[k+1]を時間周波数表現に変換し、この時間周波数表現に変換された前記第1推定信号x[k+1]と、前記双対変数u[k]とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v[k+1]を生成する第2推定部と、
前記双対変数u[k]と、前記時間周波数表現に変換された前記第1推定信号x[k+1]と、前記第2推定信号v[k+1]とを入力として、新たな双対変数双対変数u[k+1]を生成する変数更新部と、
前記実行回数kがK-1に満たない場合には、kを1つ増加させ、前記第1推定部、前記第2推定部、前記変数更新部の各処理を実施させ、前記実行回数kがK-1以上の場合には、生成した第1推定信号x[K]を、クリップ前信号~yの波形の推定結果として出力する出力部と、
を有する音響信号推定装置。
【請求項2】
前記ディープニューラルネットワークを用いたソフト閾値処理は、推定学習装置により生成された学習済モデルを用いるものであり、
前記推定学習装置は、
入力された学習用クリップ前信号に対して、擬似的振幅制限であるハードクリップを適用して学習用クリップ後信号を生成する、クリップ適用部と、
前記学習用クリップ後信号から前記学習用クリップ前信号を推定する学習用推定部と、
前記学習用推定部により推定された学習用クリップ前信号と、前記入力された学習用クリップ前信号との間の損失を算出する損失算出部と、
前記損失が所定基準を満たさない場合には、前記損失を元に前記学習用推定部が使用するパラメータを更新して前記学習用推定部による推定を実施させ、前記損失が所定基準を満たす場合には、直前に使用したパラメータを有した前記学習用推定部を、学習済モデルとして出力する、パラメータ更新部と、
を有する、請求項1に記載の音響信号推定装置。
【請求項3】
G
*は離散Gabor変換の作用素Gの随伴作用素であり、Γは前記所定の閾値に基づいた実行可能解の集合である場合に、前記第1推定信号x
[k+1]は、次式を用いて算出される請求項1に記載の音響信号推定装置。
【数11】
【請求項4】
T
θは重み付き閾値作用素である場合に、前記第2推定信号v
[k+1]は次式を用いて生成される請求項3に記載の音響信号推定装置。
【数12】
【請求項5】
前記変数更新部により生成される新たな双対変数u
[k+1]は次式を用いて生成される請求項4に記載の音響信号推定装置。
【数13】
【請求項6】
所定の閾値でクリッピングされた信号であるクリップ後信号yの波形から、前記クリッピングされる前の信号であるクリップ前信号~yの波形を推定する音響信号推定方法であって、
k(k=0,1,2,…,K-1)は第1推定部による第1推定信号の推定の実行回数であり、Kは所定回数であり、x[k]は第1推定信号であり、v[k]は第2推定信号であり、u[k]は双対変数uであり、x[0]は前記クリップ後信号の波形であり、v[0]はx[0]の時間周波数表現であり、u[0]は任意の数である場合に、
音響信号推定装置の第1推定部が、前記第2推定信号v[k]と、前記双対変数u[k]とを入力として制約対象の波形を生成し、前記制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素ΠΓを適用することにより新たな波形である第1推定信号x[k+1]を生成し、
前記音響信号推定装置の第2推定部が、前記第1推定信号x[k+1]を時間周波数表現に変換し、この時間周波数表現に変換された前記第1推定信号x[k+1]と、前記双対変数u[k]とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v[k+1]を生成し、
前記音響信号推定装置の変数更新部が、前記双対変数u[k]と、前記時間周波数表現に変換された前記第1推定信号x[k+1]と、前記第2推定信号v[k+1]とを入力として、新たな双対変数双対変数u[k+1]を生成し、
前記音響信号推定装置の出力部が、前記実行回数kがK-1に満たない場合には、kを1つ増加させ、前記第1推定部、前記第2推定部、前記変数更新部の各処理を実施させ、前記実行回数kがK-1以上の場合には、生成した第1推定信号x[K]を、クリップ前信号~yの波形の推定結果として出力する、
音響信号推定方法。
【請求項7】
請求項1から5のいずれかに記載の音響信号推定装置をコンピュータに機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、クリップ後の信号からクリップ前の信号を復元する技術に関する。
【背景技術】
【0002】
録音機器などの音響機器の性能の制約により、録音の際に、音響信号において振幅制限を超過した部分が失われるというクリッピングが生じることがある。このクリッピングされた信号の波形から元の信号の波形を復元する技術にAudio declippingがある。Audio declippingには、大別すると2つの手法がある。一の手法としては、ディープニューラルネットワーク(DNN)に基づく手法がある。この手法は、信号の歪みが大きい場合であっても高い復元性能を達成できる一方で、学習データに含まれていなかったようなデータの場合には復元性能が劣化してしまうという問題がある。他の手法としては、スパース最適化に基づく手法がある。この手法は、DNNに基づく手法とは異なり、学習データと異なる信号の場合であっても復元対応が可能である。つまり、歪みの大きさに応じて(換言すれば問題の難しさに応じて)適切な復元処理を行うことが可能である(例えば非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】P.Zaviska, P.Rajmic, A.Ozerov and L.Rencker, "A survey and an extensive evaluation of popular audio declipping methods," IEEE J. Sel. Top. Signal Process., 15(1), 5-24 (2021).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述したスパース最適化に基づく手法の場合には、クリッピングによる信号の歪み方というデータの性質を考慮できないことから、時間周波数領域の各成分を適切に取捨することができないという問題があった。一方で、上述のDNNに基づく手法の場合には、機械学習(以下「学習」ともいう。)によりデータの性質を考慮できるようになるものの、復元対象であるクリッピングされた信号(以下、「クリップ後信号」ともいう。)が、学習データと比較して、振幅などの差が大きい場合には、復元のための十分な推定ができないという問題があった。
【0005】
そこで、本開示は、上記課題を解決するためになされたものであり、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、DNNに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現する音響信号推定装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本開示の一態様の音響信号推定装置は、所定の閾値でクリッピングされた信号であるクリップ後信号yの波形から、前記クリッピングされる前の信号であるクリップ前信号~yの波形を推定する音響信号推定装置であり、第1推定部と、第2推定部と、変数更新部と、出力部とを有する。k(k=0,1,2,…,K-1)は第1推定部による第1推定信号の推定の実行回数であり、Kは所定回数であり、x[k]は第1推定信号であり、v[k]は第2推定信号であり、u[k]は双対変数uであり、x[0]はクリップ後信号の波形であり、v[0]はx[0]の時間周波数表現であり、u[0]は任意の数であるとする。この場合に、第1推定部は、第2推定信号v[k]と、双対変数u[k]とを入力として制約対象の波形を生成し、制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素ΠΓを適用することにより新たな波形である第1推定信号x[k+1]を生成する。第2推定部は、第1推定信号x[k+1]を時間周波数表現に変換し、この時間周波数表現に変換された第1推定信号x[k+1]と、双対変数u[k]とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v[k+1]を生成する。変数更新部は、双対変数u[k]と、時間周波数表現に変換された第1推定信号x[k+1]と、第2推定信号v[k+1]とを入力として、新たな双対変数u[k+1]を生成する。出力部は、実行回数kがK-1に満たない場合には、kを1つ増加させ、第1推定部、第2推定部、変数更新部の各処理を実施させ、実行回数kがK-1以上の場合には、生成した第1推定信号x[K]を、クリップ前信号~yの波形の推定結果として出力する。
【発明の効果】
【0007】
本開示によれば、スパース最適化アルゴリズムを採用しつつも、スパース性を誘導するための閾値処理の閾値を、DNNに基づいてデータドリブンに決定しているため、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、DNNに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は本実施の形態に係る音響信号推定装置の機能構成例を示した図である。
【
図2】
図2は本実施の形態に係る音響信号推定方法の処理フロー例を示した図である。
【
図3】
図3は学習済モデルF
θを生成するための推定学習装置の機能構成例を示した図である。
【
図4】
図4は学習済モデルF
θを生成するための推定学習方法の処理フロー例を示した図である。
【
図5】
図5は音響信号推定装置1における、学習データの歪の大きさを変えた場合の性能結果を示した図である。
【
図6】
図6は従来手法と比較した場合の音響信号推定装置1の性能結果を示した図である。
【
図7】
図7はコンピュータの機能構成を例示する図である。
【発明を実施するための形態】
【0009】
<文字表記>
文中で使用する記号「~」(上付きチルダ)は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「~y」は数式中では次式で表される。
【数1】
本開示の実施の形態は、クリップ後の信号からクリップ前の信号を復元する技術において、スパース最適化アルゴリズムを採用しつつも、スパース性を誘導するための閾値処理を、DNNに基づいてデータドリブンに決定する。本開示の手法は、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、DNNに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現可能とする技術である。本開示の実施の形態の詳細を説明するにあたり、はじめに、Audio declippingの概要と、スパース最適化法に基づく従来の手法について説明する。また、DNNに基づく手法にも言及する。
【0010】
(Audio declippingについて)
時間をtとした場合に、次式のように、元の信号であるクリップ前の信号(以下、「クリップ前信号」ともいう。)~yと閾値τによって振幅が制限された信号y(以下、「クリップ後信号」ともいう。)を考える。
【数2】
上記のクリップ後信号yのインデックスは、3つの素集合H={t∈[1,T]|y[t]≧τ},R={t∈[1,T]||y[t]|<τ},L={t∈[1,T]|y[t]≦-τ}に分けられる。Audio declippingとは、信号yと上述のインデックスの情報(H,R,L)のみから、元の信号であるクリップ前信号~yを推定する技術のことである。
【0011】
(スパース最適化に基づく手法)
上述の非特許文献1によれば、スパース最適化に基づく手法は、次式で示した最適化問題の解を推定結果とする手法である。
【数3】
ここで、Sはl
1ノルム(「エル・イチ・ノルム」)などのスパース誘導関数であり、Gは窓g∈R
Tを用いた、次式に示す離散Gabor変換である。
【数4】
ここで、iは虚数単位、aは時間シフト長、Mは周波数チャネル数である。また、Γは次式に示した実行可能解の集合である。m、nはそれぞれ行列式の行、と列を示すものであり、特にm∈{1,…,M}は周波数インデックスであり、n∈{1,…,N}は時間インデックスである。τ
【数5】
クリッピングは余分な調波成分を生じさせるため、時間周波数領域でのスパース性を誘導し、当該余分な調波成分を除去する。
【0012】
上述した非特許文献1の手法では、このスパース誘導関数として、パラボラ重みw[m,n]=(m+1)
2/M
2を用いた重みつきl
1ノルムを用いる手法が提案されており、その場合、次式に示す重み付きソフト閾値作用素(T
w-soft(z))[m,n]がアルゴリズム内で用いられる。
【数6】
ここで、(・)
+=max(0,・)であり、λはハイパーパラメータである。本来は、クリッピングによって生じた余計な成分のみを削るような閾値処理が望ましいが、式(5)では予め決められたλw[m,n]の値に応じて閾値処理を行うためデータの性質を考慮できず、元(クリップ前信号)の成分を大きく削ってしまうことや、余計な成分を残してしまうことが懸念される。
【0013】
(DNNに基づく手法)
ディープニューラルネットワーク(DNN)に基づく手法では、事前に学習させたDNNに観測信号(クリップ後信号)yを入力することで元の信号(クリップ前信号)~yを推定する。データの性質、即ち、クリッピングによる信号の歪み方をデータドリブンに学習できることから、閾値τが小さい場合であっても元の信号を高い精度で推定できることが知られている。しかし、閾値τの条件が学習時と推論時で大きく異なる場合は、高い精度で推定できないという問題が生じてしまう。
【0014】
以下、図を用いて本開示の実施の形態について詳細に説明する。また、以下、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0015】
<音響信号推定装置>
本開示の実施形態に係る音響信号推定装置1は、
図1に示すように、第1推定部10、第2推定部20、変数更新部30、出力部40を備えている。音響信号推定装置1は、クリップ後信号yである入力信号からクリップ前信号~yを推定することにより、Audio declippingを実現する装置である。音響信号推定装置1が、
図2に示した処理フローを実施することにより本実施の形態の音響信号推定方法を行う。
【0016】
(第1推定部10)
第1推定部10は、第2推定信号v
[k]と双対変数u
[k]とを入力として第1推定信号x
[k+1]を生成する(ステップS10)。即ち、k(k=0,1,2,…,K-1)を、第1推定信号x
[k+1]の生成の実行回数であるとし、Kは、後述する出力部40で使用する所定の回数であるとすると、第1推定信号x
[k+1]の生成には次式が用いられる。
【数7】
ここで、Π
Γは、上述した式(4)で定義される集合Γへの射影作用素であり、G
*は上述した離散Gabor変換Gの随伴作用素である。これは、正の重みwを用いてS(Gx)=||w〇Gx||
1とした式(2)の最適化問題(非特許文献1)に交互方向乗数法(ADMM)を適用して得られるアルゴリズムを元にしている。ここで〇はアダマール積を示す。
【0017】
初期値(k=0)の場合、x[0]には復元対象の信号であるクリップ後信号yの波形が入力される。v[0]にはクリップ後信号y(x[0])に式(3)に示す離散Gabor変換を適用することで得られるy(x[0])の時間周波数表現が入力される。u[0]には、例えば全ての要素が0(ゼロ)であるようなm×nの零行列などの任意の数が入力される。なお、以後、x[0]を入力信号x[0]ともいうこととする。
【0018】
即ち、第1推定部10は、まず、G*(v[k]-u[k])により、(v[k]-u[k])を波形表現した信号を生成する。次に、生成したG*(v[0]-u[0])に対して、更新後(生成後)の信号を集合Γに含まれる領域に制約するための射影作用素ΠΓを適用することにより新たな波形である第1推定信号x[k+1]を生成する(ステップS10)。
【0019】
ここで、k=0の場合には、上述したv[0]、u[0]が入力されるが、kが1以上の場合は、後述する第2推定部20により生成された第2推定信号v[k+1]、変数更新部30により生成された双対変数u[k+1]が使用されることとなる。
【0020】
(第2推定部20)
第2推定部20は、第1推定信号x
[k+1]と、双対変数u
[k]とを入力としてディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v
[k+1]を生成する(ステップS20)。第2推定信号v
[k+1]の生成には次式が用いられる。
【数8】
ここで、T
θはソフト閾値作用素であり、Gは上述の式(3)において説明した離散Gabor変換である。
【0021】
即ち、第2推定部20は、まず、Gx[k+1]により、第1推定信号x[k+1]を時間周波数表現に変換し、これに双対変数u[k]を加えた、Gx[k+1]+u[k]を入力として、ディープニューラルネットワーク(学習済モデルFθ)を用いたソフト閾値作用素Tθを算出するソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第2推定信号v[k+1]を生成する(ステップS20)。
【0022】
ここで、k=0の場合には、uには上述したu[0]が入力されるが、kが1以上の場合は、後述する変数更新部30により生成された双対変数u[k+1]が使用されることとなる。
【0023】
上述した式(7)において、ソフト閾値作用素T
θの算出には、次式が用いられる。
【数9】
ここで、zは式(7)におけるGx
[k+1]+u
[k]であり、λはハイパーパラメータである。w[m,n]は各時間周波数ビンに重み付を行うハイパーパラメータであり、本実施形態では特にパラボラ重みを利用した。εは例えば1.0×10
-12等、ゼロ除算を避けるための極めて小さな値である。
【0024】
第2推定部20の処理を経ることで、スパース性の制約が与えられることとなる。
【0025】
学習済モデルFθは多層のニューラルネットワークから構成された学習済モデルである。学習済モデルFθの学習方法については、後述する。
【0026】
(変数更新部30)
変数更新部30は、双対変数u
[k]と、第1推定信号x
[k+1]と、第2推定信号v
[k+1]とを入力として新たな双対変数である双対変数u
[k+1]を生成する(ステップS30)。即ち、双対変数u
[k+1]の生成により、双対変数uが更新される。更新された双対変数u
[k+1]の生成には次式が用いられる。
【数10】
即ち、変数更新部30は、双対変数u
[k]にGx
[k+1]を加算し、更に双対変数u
[k+1]
を減算することにより、更新された双対変数u
[k+1]が生成される(ステップS30)。
【0027】
ここで、k=0の場合には、uには、上述したu[0]が入力されるが、kが1以上の場合は、変数更新部30により生成された双対変数u[k+1]が使用されることとなる。
【0028】
(出力部40)
出力部40は、第1推定信号の生成の実行回数kがK-1の回数に満たない場合には、kを1つ増加させ、上述した、第1推定部10、第2推定部20、変数更新部30の処理を実施させる。
【0029】
また、第1推定信号の生成の実行回数kがK-1の回数以上の場合には、生成した第1推定信号x[K]を、クリップ前信号~yの波形の推定結果として出力する(ステップS40)。
【0030】
<推定学習装置>
上述した学習済モデルF
θの学習は、
図3に示した推定学習装置300によって行われる。本開示の推定学習装置300は、クリップ適用部310、学習用推定部320、損失算出部330、パラメータ更新部340を備えている。推定学習装置300に、学習用音響データDが入力されることにより、クリップ後信号からクリップ前信号を復元するために行う信号の推定の学習がなされる。推定学習装置300が、
図4に示した処理フローを実施することにより本実施形態の推定学習方法を行う。
【0031】
(クリップ適用部310)
クリップ適用部310は、学習用音響データDから入力された学習用クリップ前信号に対して、擬似的振幅制限であるハードクリップを適用して学習用クリップ後信号を生成する(ステップS310)。学習用音響データDは、例えば、LIBRI コーパスの5300データ等、汎用のものを用いることができる。したがって、学習用音響データDは、LIBRI コーパスの5300データに限定されない。
【0032】
(学習用推定部320)
学習用推定部320は、学習用クリップ後信号から学習用クリップ前信号(推定信号)を推定する(ステップS320)。
【0033】
(損失算出部330)
損失算出部330は、学習用推定部320により推定された推定信号と、学習用音響データDから入力された際の学習用クリップ前信号との間の損失を算出する(ステップS330)。損失の算出は、例えば、時間領域の信号に対するmean-squared-error(MSE)損失などが挙げられる。但し、損失の算出はmean-squared-error(MSE)損失に限定されない。なお、コスト関数は、クリップ適用部310によって振幅に制限がかかった領域のみに対して計算する。
【0034】
(パラメータ更新部340)
上述した損失が所定基準を満たさない場合には、当該損失を元に学習用推定部320が使用するパラメータを更新して学習用推定部320による推定を再度実施させる。例えば、得られたコストに基づいて、最適化手法Adamに学習用推定部320のパラメータを更新して推定を実施させる。
【0035】
上記損失が所定基準を満たす場合には、直前に使用したパラメータを有した学習用推定部320を、学習済モデルFθとして出力する(ステップS340)。なお、所定基準として、損失結果そのもので判断するのではなく、たとえば、全学習データを例えば200回など所定回数を利用してパラメータを更新した時点で学習を停止する等の方法を採用しても良い。
【0036】
<音響信号推定装置1の適用事例>
上述の音響信号推定装置1の精度を確認するために、下記の条件の下に音響信号推定装置1を適用した。
図5及び、
図6に実行結果例を示す。本実行結果では、推定学習装置300による学習として、学習用音響データDにLIBRI コーパスの5300データを用い、最適化アルゴリズムにはAdamを用い、全学習データを200回利用してパラメータを更新した時点で学習を停止し、その際のパラメータを学習済モデルF
θとして使用した。また、音響信号推定装置1における双対変数の初期値(u[0])は0(ゼロ)とした。
【0037】
図5と
図6において、横軸(input SDR)は入力されたクリップ後信号yのクリッピングされた強さを示したものであり、縦軸(△SDR)は改善量の大きさを示している。
【0038】
図5は、推定学習装置300における学習において、クリップ適用部310によるSDR(Signal-to-Distortion Ratio)を、1db、3db、5db、10db、15dbのそれぞれの値に固定して、学習済モデルF
θを生成した場合の音響信号推定装置1の推定結果である。即ち、同じInput SDR値においてプロットされた5つの結果(△SDR値)は、夫々の入力信号(Input SDR)に対して、1つの条件は学習時と同じ条件のクリップ後信号yが入力されたものであり、残りの4つの条件は未学習のクリップ後信号yが入力された結果を示している。本開示においては、5つの結果を1つの図に表記してしまうと、折れ線グラフが重なり合って視認性が低下することから、図を2つに分けた。具体的には、1db、3db、5dbの結果を
図5Aに示し、1db、10db、15dbの結果を
図5Bに示している。即ち、図を2つに分けて視認性の低下を防ぎつつ、1dbの結果については、
図5Aと
図5Bの双方に示すことで、互いの結果の比較のし易さを確保するように配慮した。
【0039】
従来のDNNに基づく手法では、クリップ前信号~yの推定結果は、学習した学習用音響データの性質のみに基づくため、学習していない未知の条件に対しては、クリップ前信号~yを精度良く推定することができなかった。本開示の音響信号推定装置1においては、
図5A、
図5Bに示す通り、学習時のSDRに大きく影響されず、学習時の条件との差に頑健であることがわかる。
【0040】
図6Aは、推定学習装置300における学習時のSDRを1~10dBの中で無作為な値で学習した学習済モデルF
θを使用して、音響信号推定装置1のクリップ前信号~yの推定結果と、従来手法のスパース最適化法を用いたクリップ前信号~yの推定結果とを比較した図である。ここでは、従来手法のスパース最適化に基づく手法として、(i)ASPADE、(ii)SS PEW、(iii)PWl
1の3つの手法で算出した結果とを比較している。また、
図6Bは、
図6Aの(i)~(iii)に変えて、(iv)として、従来法のDNN手法に基づくT-UNetの結果を示している。
【0041】
図6Aに示す通り、全てのinput SDRにおける音響信号推定装置1の改善量△SDRの結果は、他の(i)~(iii)の従来手法のスパース最適化に基づく手法の結果と比べて、高くなっている。この結果から、音響信号推定装置1による手法は、データの性質に基づく閾値処理がAudio declippingに有効に働いていることが分かる。また、
図6Bに示す通り、(iv)の従来法のDNNに基づくT-UNetと比べると、input SDRが10dB以上の場合に音響信号推定装置1の△SDRの結果の方が大きいこと(有効であること)が分かる。これは、音響信号推定装置1が式(1)のように時間領域での制約を課すことで歪みの大きさを考慮しながら処理を行うことができるためであると考えられる。
【0042】
[プログラム、記録媒体]
上述の各種の処理は、
図7に示すコンピュータ2000の記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040、表示部2050などに動作させることで実施できる。
【0043】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0044】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0045】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0046】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0047】
1 音響信号推定装置
10 第1推定部
20 第2推定部
30 変数更新部
40 出力部
300 推定学習装置
310 クリップ適用部
320 学習用推定部
330 損失算出部
340 パラメータ更新部
D 学習用音響データ
Fθ 学習済モデル
Tθ ソフト閾値作用素
u[k] 双対変数
v[k] 第2推定信号
x[k] 第1推定信号
~y クリップ前信号
y クリップ後信号