特開2024-38691 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-38691音響信号推定装置、音響信号推定方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024038691

(43)【公開日】2024-03-21

(54)【発明の名称】音響信号推定装置、音響信号推定方法、およびプログラム

(51)【国際特許分類】

G10L 25/51 20130101AFI20240313BHJP

G06N 3/04 20230101ALI20240313BHJP

G06F 17/16 20060101ALI20240313BHJP

G10L 25/30 20130101ALI20240313BHJP

G06N 3/08 20230101ALN20240313BHJP

【ＦＩ】

G10L25/51

G06N3/04

G06F17/16 P

G10L25/30

G06N3/08

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022142915

(22)【出願日】2022-09-08

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り（１）ウェブサイト掲載日２０２２年２月１６日ウェブサイトのアドレスａｒＸｉｖウェブサイトｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／（トップページ）ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２２０２．０８０２８（論文ページ）（２）発行日予稿集公開２０２２年２月２３日、発明を発表した日２０２２年３月９日（開催日２０２２年３月９日～３月１１日）刊行物日本音響学会２０２２春季研究発表会（予稿集）ｈｔｔｐｓ：／／ａｃｏｕｓｔｉｃｓ．ｊｐ／ａｎｎｕａｌｍｅｅｔｉｎｇ／ｐｒｏｇｒａｍ／（３）開催日２０２２年５月１３日（開催期間２０２２年５月７日～５月１３日）集会名、開催場所ＩＥＥＥＩＣＡＳＳＰ２０２２オンライン開催ｈｔｔｐｓ：／／２０２２．ｉｅｅｅｉｃａｓｓｐ．ｏｒｇ／ｖｉｅｗ＿ｐａｐｅｒ．ｐｈｐ？ＰａｐｅｒＮｕｍ＝５１４７ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／９７４７０８９（論文ページ）

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】安田昌弘

(72)【発明者】

【氏名】田中僚郎

(72)【発明者】

【氏名】矢田部浩平

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB38

(57)【要約】

【課題】歪みの大きな信号に対して精度が高く、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現する。
【解決手段】第１推定部１０は、第２推定信号ｖ^［ｋ］と、双対変数ｕ^［ｋ］とを入力として第１推定信号ｘ^{［ｋ＋１］}を生成する。第２推定部２０は、時間周波数表現に変換されたｘ^{［ｋ＋１］}と、ｕ^［ｋ］とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行し、スパース最適化法により第２推定信号ｖ^{［ｋ＋１］}を生成する。変数更新部３０は、ｕ^［ｋ］と、時間周波数表現に変換されたｘ^{［ｋ＋１］}と、ｖ^{［ｋ＋１］}とを入力として、新たな双対変数双対変数ｕ^{［ｋ＋１］}を生成する。出力部４０は、ｘ^{［ｋ＋１］}の生成回数がＫ－１以上の場合に、ｘ^［Ｋ］を推定結果として出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

所定の閾値でクリッピングされた信号であるクリップ後信号ｙの波形から、前記クリッピングされる前の信号であるクリップ前信号~ｙの波形を推定する音響信号推定装置であって、
ｋ（ｋ＝０，１，２，…，Ｋ－１）は第１推定部による第１推定信号の推定の実行回数であり、Ｋは所定回数であり、ｘ^［ｋ］は第１推定信号であり、ｖ^［ｋ］は第２推定信号であり、ｕ^［ｋ］は双対変数ｕであり、ｘ^［０］は前記クリップ後信号の波形であり、ｖ^［０］はｘ^［０］の時間周波数表現であり、ｕ^［０］は任意の数である場合に、
前記第２推定信号ｖ^［ｋ］と、前記双対変数ｕ^［ｋ］とを入力として制約対象の波形を生成し、前記制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素Π_Γを適用することにより新たな波形である第１推定信号ｘ^{［ｋ＋１］}を生成する第１推定部と、
前記第１推定信号ｘ^{［ｋ＋１］}を時間周波数表現に変換し、この時間周波数表現に変換された前記第１推定信号ｘ^{［ｋ＋１］}と、前記双対変数ｕ^［ｋ］とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第２推定信号ｖ^{［ｋ＋１］}を生成する第２推定部と、
前記双対変数ｕ^［ｋ］と、前記時間周波数表現に変換された前記第１推定信号ｘ^{［ｋ＋１］}と、前記第２推定信号ｖ^{［ｋ＋１］}とを入力として、新たな双対変数双対変数ｕ^{［ｋ＋１］}を生成する変数更新部と、
前記実行回数ｋがＫ－１に満たない場合には、ｋを１つ増加させ、前記第１推定部、前記第２推定部、前記変数更新部の各処理を実施させ、前記実行回数ｋがＫ－１以上の場合には、生成した第１推定信号ｘ^［Ｋ］を、クリップ前信号~ｙの波形の推定結果として出力する出力部と、
を有する音響信号推定装置。

【請求項2】

前記ディープニューラルネットワークを用いたソフト閾値処理は、推定学習装置により生成された学習済モデルを用いるものであり、
前記推定学習装置は、
入力された学習用クリップ前信号に対して、擬似的振幅制限であるハードクリップを適用して学習用クリップ後信号を生成する、クリップ適用部と、
前記学習用クリップ後信号から前記学習用クリップ前信号を推定する学習用推定部と、
前記学習用推定部により推定された学習用クリップ前信号と、前記入力された学習用クリップ前信号との間の損失を算出する損失算出部と、
前記損失が所定基準を満たさない場合には、前記損失を元に前記学習用推定部が使用するパラメータを更新して前記学習用推定部による推定を実施させ、前記損失が所定基準を満たす場合には、直前に使用したパラメータを有した前記学習用推定部を、学習済モデルとして出力する、パラメータ更新部と、
を有する、請求項１に記載の音響信号推定装置。

【請求項3】

Ｇ^*は離散Ｇａｂｏｒ変換の作用素Ｇの随伴作用素であり、Γは前記所定の閾値に基づいた実行可能解の集合である場合に、前記第１推定信号ｘ^{［ｋ＋１］}は、次式を用いて算出される請求項１に記載の音響信号推定装置。

【数11】

【請求項4】

Ｔ_θは重み付き閾値作用素である場合に、前記第２推定信号ｖ^{［ｋ＋１］}は次式を用いて生成される請求項３に記載の音響信号推定装置。

【数12】

【請求項5】

前記変数更新部により生成される新たな双対変数ｕ^{［ｋ＋１］}は次式を用いて生成される請求項４に記載の音響信号推定装置。

【数13】

【請求項6】

所定の閾値でクリッピングされた信号であるクリップ後信号ｙの波形から、前記クリッピングされる前の信号であるクリップ前信号~ｙの波形を推定する音響信号推定方法であって、
ｋ（ｋ＝０，１，２，…，Ｋ－１）は第１推定部による第１推定信号の推定の実行回数であり、Ｋは所定回数であり、ｘ^［ｋ］は第１推定信号であり、ｖ^［ｋ］は第２推定信号であり、ｕ^［ｋ］は双対変数ｕであり、ｘ^［０］は前記クリップ後信号の波形であり、ｖ^［０］はｘ^［０］の時間周波数表現であり、ｕ^［０］は任意の数である場合に、
音響信号推定装置の第１推定部が、前記第２推定信号ｖ^［ｋ］と、前記双対変数ｕ^［ｋ］とを入力として制約対象の波形を生成し、前記制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素ΠΓを適用することにより新たな波形である第１推定信号ｘ^{［ｋ＋１］}を生成し、
前記音響信号推定装置の第２推定部が、前記第１推定信号ｘ^{［ｋ＋１］}を時間周波数表現に変換し、この時間周波数表現に変換された前記第１推定信号ｘ^{［ｋ＋１］}と、前記双対変数ｕ^［ｋ］とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第２推定信号ｖ^{［ｋ＋１］}を生成し、
前記音響信号推定装置の変数更新部が、前記双対変数ｕ^［ｋ］と、前記時間周波数表現に変換された前記第１推定信号ｘ^{［ｋ＋１］}と、前記第２推定信号ｖ^{［ｋ＋１］}とを入力として、新たな双対変数双対変数ｕ^{［ｋ＋１］}を生成し、
前記音響信号推定装置の出力部が、前記実行回数ｋがＫ－１に満たない場合には、ｋを１つ増加させ、前記第１推定部、前記第２推定部、前記変数更新部の各処理を実施させ、前記実行回数ｋがＫ－１以上の場合には、生成した第１推定信号ｘ^［Ｋ］を、クリップ前信号~ｙの波形の推定結果として出力する、
音響信号推定方法。

【請求項7】

請求項１から５のいずれかに記載の音響信号推定装置をコンピュータに機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、クリップ後の信号からクリップ前の信号を復元する技術に関する。

【背景技術】

【0002】

録音機器などの音響機器の性能の制約により、録音の際に、音響信号において振幅制限を超過した部分が失われるというクリッピングが生じることがある。このクリッピングされた信号の波形から元の信号の波形を復元する技術にAudio declippingがある。Audio declippingには、大別すると２つの手法がある。一の手法としては、ディープニューラルネットワーク（ＤＮＮ）に基づく手法がある。この手法は、信号の歪みが大きい場合であっても高い復元性能を達成できる一方で、学習データに含まれていなかったようなデータの場合には復元性能が劣化してしまうという問題がある。他の手法としては、スパース最適化に基づく手法がある。この手法は、ＤＮＮに基づく手法とは異なり、学習データと異なる信号の場合であっても復元対応が可能である。つまり、歪みの大きさに応じて（換言すれば問題の難しさに応じて）適切な復元処理を行うことが可能である(例えば非特許文献１参照)。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】P.Zaviska, P.Rajmic, A.Ozerov and L.Rencker, "A survey and an extensive evaluation of popular audio declipping methods," IEEE J. Sel. Top. Signal Process., 15(1), 5-24 (2021).

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述したスパース最適化に基づく手法の場合には、クリッピングによる信号の歪み方というデータの性質を考慮できないことから、時間周波数領域の各成分を適切に取捨することができないという問題があった。一方で、上述のＤＮＮに基づく手法の場合には、機械学習（以下「学習」ともいう。）によりデータの性質を考慮できるようになるものの、復元対象であるクリッピングされた信号（以下、「クリップ後信号」ともいう。）が、学習データと比較して、振幅などの差が大きい場合には、復元のための十分な推定ができないという問題があった。

【0005】

そこで、本開示は、上記課題を解決するためになされたものであり、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、ＤＮＮに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現する音響信号推定装置を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、本開示の一態様の音響信号推定装置は、所定の閾値でクリッピングされた信号であるクリップ後信号ｙの波形から、前記クリッピングされる前の信号であるクリップ前信号~ｙの波形を推定する音響信号推定装置であり、第１推定部と、第２推定部と、変数更新部と、出力部とを有する。ｋ（ｋ＝０，１，２，…，Ｋ－１）は第１推定部による第１推定信号の推定の実行回数であり、Ｋは所定回数であり、ｘ^［ｋ］は第１推定信号であり、ｖ^［ｋ］は第２推定信号であり、ｕ^［ｋ］は双対変数ｕであり、ｘ^［０］はクリップ後信号の波形であり、ｖ^［０］はｘ^［０］の時間周波数表現であり、ｕ^［０］は任意の数であるとする。この場合に、第１推定部は、第２推定信号ｖ^［ｋ］と、双対変数ｕ^［ｋ］とを入力として制約対象の波形を生成し、制約対象の波形に対して、生成後の信号を集合Γに含まれる領域に制約するための射影作用素Π_Γを適用することにより新たな波形である第１推定信号ｘ^{［ｋ＋１］}を生成する。第２推定部は、第１推定信号ｘ^{［ｋ＋１］}を時間周波数表現に変換し、この時間周波数表現に変換された第１推定信号ｘ^{［ｋ＋１］}と、双対変数ｕ^［ｋ］とを入力として、ディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第２推定信号ｖ^{［ｋ＋１］}を生成する。変数更新部は、双対変数ｕ^［ｋ］と、時間周波数表現に変換された第１推定信号ｘ^{［ｋ＋１］}と、第２推定信号ｖ^{［ｋ＋１］}とを入力として、新たな双対変数ｕ^{［ｋ＋１］}を生成する。出力部は、実行回数ｋがＫ－１に満たない場合には、ｋを１つ増加させ、第１推定部、第２推定部、変数更新部の各処理を実施させ、実行回数ｋがＫ－１以上の場合には、生成した第１推定信号ｘ^［Ｋ］を、クリップ前信号~ｙの波形の推定結果として出力する。

【発明の効果】

【0007】

本開示によれば、スパース最適化アルゴリズムを採用しつつも、スパース性を誘導するための閾値処理の閾値を、ＤＮＮに基づいてデータドリブンに決定しているため、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、ＤＮＮに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現できる。

【図面の簡単な説明】

【0008】

【図1】図１は本実施の形態に係る音響信号推定装置の機能構成例を示した図である。

【図2】図２は本実施の形態に係る音響信号推定方法の処理フロー例を示した図である。

【図3】図３は学習済モデルＦ_θを生成するための推定学習装置の機能構成例を示した図である。

【図4】図４は学習済モデルＦ_θを生成するための推定学習方法の処理フロー例を示した図である。

【図5】図５は音響信号推定装置１における、学習データの歪の大きさを変えた場合の性能結果を示した図である。

【図6】図６は従来手法と比較した場合の音響信号推定装置１の性能結果を示した図である。

【図7】図７はコンピュータの機能構成を例示する図である。

【発明を実施するための形態】

【0009】

＜文字表記＞
文中で使用する記号「~」（上付きチルダ）は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「~ｙ」は数式中では次式で表される。

【数1】

本開示の実施の形態は、クリップ後の信号からクリップ前の信号を復元する技術において、スパース最適化アルゴリズムを採用しつつも、スパース性を誘導するための閾値処理を、ＤＮＮに基づいてデータドリブンに決定する。本開示の手法は、スパース最適化に基づく従来の手法と比較して、歪みの大きな信号に対して精度の高いAudio declippingを実現でき、かつ、ＤＮＮに基づく従来の手法と比較して、歪みが小さな信号に対して精度低下を起こさないAudio declippingを実現可能とする技術である。本開示の実施の形態の詳細を説明するにあたり、はじめに、Audio declippingの概要と、スパース最適化法に基づく従来の手法について説明する。また、ＤＮＮに基づく手法にも言及する。

【0010】

（Audio declippingについて）
時間をｔとした場合に、次式のように、元の信号であるクリップ前の信号（以下、「クリップ前信号」ともいう。）~ｙと閾値τによって振幅が制限された信号ｙ（以下、「クリップ後信号」ともいう。）を考える。

【数2】

上記のクリップ後信号ｙのインデックスは、３つの素集合Ｈ＝｛ｔ∈［１，Ｔ］｜ｙ［ｔ］≧τ｝，Ｒ＝｛ｔ∈［１，Ｔ］｜｜ｙ［ｔ］｜＜τ｝，Ｌ＝｛ｔ∈［１，Ｔ］｜ｙ［ｔ］≦－τ｝に分けられる。Audio declippingとは、信号ｙと上述のインデックスの情報（Ｈ，Ｒ，Ｌ）のみから、元の信号であるクリップ前信号~ｙを推定する技術のことである。

【0011】

（スパース最適化に基づく手法）
上述の非特許文献１によれば、スパース最適化に基づく手法は、次式で示した最適化問題の解を推定結果とする手法である。

【数3】

ここで、Ｓはｌ_１ノルム（「エル・イチ・ノルム」）などのスパース誘導関数であり、Ｇは窓ｇ∈Ｒ^Ｔを用いた、次式に示す離散Ｇａｂｏｒ変換である。

【数4】

ここで、ｉは虚数単位、ａは時間シフト長、Ｍは周波数チャネル数である。また、Γは次式に示した実行可能解の集合である。ｍ、ｎはそれぞれ行列式の行、と列を示すものであり、特にｍ∈{１，…，Ｍ}は周波数インデックスであり、ｎ∈{１，…，Ｎ}は時間インデックスである。τ

【数5】

クリッピングは余分な調波成分を生じさせるため、時間周波数領域でのスパース性を誘導し、当該余分な調波成分を除去する。

【0012】

上述した非特許文献１の手法では、このスパース誘導関数として、パラボラ重みｗ［ｍ，ｎ］＝（ｍ＋１）^２／Ｍ^２を用いた重みつきｌ_１ノルムを用いる手法が提案されており、その場合、次式に示す重み付きソフト閾値作用素(Ｔ_{ｗ－ｓｏｆｔ}(ｚ))［ｍ，ｎ］がアルゴリズム内で用いられる。

【数6】

ここで、（・）_＋＝ｍａｘ（０，・）であり、λはハイパーパラメータである。本来は、クリッピングによって生じた余計な成分のみを削るような閾値処理が望ましいが、式（５）では予め決められたλｗ［ｍ，ｎ］の値に応じて閾値処理を行うためデータの性質を考慮できず、元（クリップ前信号）の成分を大きく削ってしまうことや、余計な成分を残してしまうことが懸念される。

【0013】

（ＤＮＮに基づく手法）
ディープニューラルネットワーク（ＤＮＮ）に基づく手法では、事前に学習させたＤＮＮに観測信号（クリップ後信号）ｙを入力することで元の信号（クリップ前信号）~ｙを推定する。データの性質、即ち、クリッピングによる信号の歪み方をデータドリブンに学習できることから、閾値τが小さい場合であっても元の信号を高い精度で推定できることが知られている。しかし、閾値τの条件が学習時と推論時で大きく異なる場合は、高い精度で推定できないという問題が生じてしまう。

【0014】

以下、図を用いて本開示の実施の形態について詳細に説明する。また、以下、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

【0015】

＜音響信号推定装置＞
本開示の実施形態に係る音響信号推定装置１は、図１に示すように、第１推定部１０、第２推定部２０、変数更新部３０、出力部４０を備えている。音響信号推定装置１は、クリップ後信号ｙである入力信号からクリップ前信号~ｙを推定することにより、Audio declippingを実現する装置である。音響信号推定装置１が、図２に示した処理フローを実施することにより本実施の形態の音響信号推定方法を行う。

【0016】

（第１推定部１０）
第１推定部１０は、第２推定信号ｖ^［ｋ］と双対変数ｕ^［ｋ］とを入力として第１推定信号ｘ^{［ｋ＋１］}を生成する（ステップＳ１０）。即ち、ｋ（ｋ＝０，１，２,…,Ｋ－１）を、第１推定信号ｘ^{［ｋ＋１］}の生成の実行回数であるとし、Ｋは、後述する出力部４０で使用する所定の回数であるとすると、第１推定信号ｘ^{［ｋ＋１］}の生成には次式が用いられる。

【数7】

ここで、Π_Γは、上述した式（４）で定義される集合Γへの射影作用素であり、Ｇ^＊は上述した離散Ｇａｂｏｒ変換Ｇの随伴作用素である。これは、正の重みｗを用いてＳ（Ｇｘ）＝||ｗ〇Ｇｘ||_１とした式（２）の最適化問題（非特許文献１）に交互方向乗数法（ＡＤＭＭ）を適用して得られるアルゴリズムを元にしている。ここで〇はアダマール積を示す。

【0017】

初期値（ｋ＝０）の場合、ｘ^［0］には復元対象の信号であるクリップ後信号ｙの波形が入力される。ｖ^［０］にはクリップ後信号ｙ（ｘ^［0］）に式（３）に示す離散Ｇａｂｏｒ変換を適用することで得られるｙ（ｘ^［0］）の時間周波数表現が入力される。ｕ^［０］には、例えば全ての要素が０（ゼロ）であるようなｍ×ｎの零行列などの任意の数が入力される。なお、以後、ｘ^［0］を入力信号ｘ^［０］ともいうこととする。

【0018】

即ち、第１推定部１０は、まず、Ｇ^＊（ｖ^［ｋ］－ｕ^［ｋ］）により、（ｖ^［ｋ］－ｕ^［ｋ］）を波形表現した信号を生成する。次に、生成したＧ^＊（ｖ^［０］－ｕ^［０］）に対して、更新後（生成後）の信号を集合Γに含まれる領域に制約するための射影作用素Π_Γを適用することにより新たな波形である第１推定信号ｘ^{［ｋ＋１］}を生成する（ステップＳ１０）。

【0019】

ここで、ｋ＝０の場合には、上述したｖ^［０］、ｕ^［０］が入力されるが、ｋが１以上の場合は、後述する第２推定部２０により生成された第２推定信号ｖ^{［ｋ＋１］}、変数更新部３０により生成された双対変数ｕ^{［ｋ＋１］}が使用されることとなる。

【0020】

（第２推定部２０）
第２推定部２０は、第１推定信号ｘ^{［ｋ＋１］}と、双対変数ｕ^［ｋ］とを入力としてディープニューラルネットワークを用いたソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第２推定信号ｖ^{［ｋ＋１］}を生成する（ステップＳ２０）。第２推定信号ｖ^{［ｋ＋１］}の生成には次式が用いられる。

【数8】

ここで、Ｔ_θはソフト閾値作用素であり、Ｇは上述の式（３）において説明した離散Ｇａｂｏｒ変換である。

【0021】

即ち、第２推定部２０は、まず、Ｇｘ^{［ｋ＋１］}により、第１推定信号ｘ^{［ｋ＋１］}を時間周波数表現に変換し、これに双対変数ｕ^［ｋ］を加えた、Ｇｘ^{［ｋ＋１］}＋ｕ^［ｋ］を入力として、ディープニューラルネットワーク（学習済モデルＦ_θ）を用いたソフト閾値作用素Ｔ_θを算出するソフト閾値処理を実行して、スパース最適化法を適用した新たな時間周波数表現の信号である第２推定信号ｖ^{［ｋ＋１］}を生成する（ステップＳ２０）。

【0022】

ここで、ｋ＝０の場合には、ｕには上述したｕ^［０］が入力されるが、ｋが１以上の場合は、後述する変数更新部３０により生成された双対変数ｕ^{［ｋ＋１］}が使用されることとなる。

【0023】

上述した式（７）において、ソフト閾値作用素Ｔ_θの算出には、次式が用いられる。

【数9】

ここで、ｚは式（７）におけるＧｘ^{［ｋ＋１］}＋ｕ^［ｋ］であり、λはハイパーパラメータである。ｗ［ｍ，ｎ］は各時間周波数ビンに重み付を行うハイパーパラメータであり、本実施形態では特にパラボラ重みを利用した。εは例えば１．０×１０^－１２等、ゼロ除算を避けるための極めて小さな値である。

【0024】

第２推定部２０の処理を経ることで、スパース性の制約が与えられることとなる。

【0025】

学習済モデルＦ_θは多層のニューラルネットワークから構成された学習済モデルである。学習済モデルＦ_θの学習方法については、後述する。

【0026】

（変数更新部３０）
変数更新部３０は、双対変数ｕ^［ｋ］と、第１推定信号ｘ^{［ｋ＋１］}と、第２推定信号ｖ^{［ｋ＋１］}とを入力として新たな双対変数である双対変数ｕ^{［ｋ＋１］}を生成する（ステップＳ３０）。即ち、双対変数ｕ^{［ｋ＋１］}の生成により、双対変数ｕが更新される。更新された双対変数ｕ^{［ｋ＋１］}の生成には次式が用いられる。

【数10】

即ち、変数更新部３０は、双対変数ｕ^［ｋ］にＧｘ^{［ｋ＋１］}を加算し、更に双対変数ｕ^{［ｋ＋１］}
を減算することにより、更新された双対変数ｕ^{［ｋ＋１］}が生成される（ステップＳ３０）。

【0027】

ここで、ｋ＝０の場合には、ｕには、上述したｕ^［０］が入力されるが、ｋが１以上の場合は、変数更新部３０により生成された双対変数ｕ^{［ｋ＋１］}が使用されることとなる。

【0028】

（出力部４０）
出力部４０は、第１推定信号の生成の実行回数ｋがＫ－１の回数に満たない場合には、ｋを１つ増加させ、上述した、第１推定部１０、第２推定部２０、変数更新部３０の処理を実施させる。

【0029】

また、第１推定信号の生成の実行回数ｋがＫ－１の回数以上の場合には、生成した第１推定信号ｘ^［Ｋ］を、クリップ前信号~ｙの波形の推定結果として出力する（ステップＳ４０）。

【0030】

＜推定学習装置＞
上述した学習済モデルＦ_θの学習は、図３に示した推定学習装置３００によって行われる。本開示の推定学習装置３００は、クリップ適用部３１０、学習用推定部３２０、損失算出部３３０、パラメータ更新部３４０を備えている。推定学習装置３００に、学習用音響データＤが入力されることにより、クリップ後信号からクリップ前信号を復元するために行う信号の推定の学習がなされる。推定学習装置３００が、図４に示した処理フローを実施することにより本実施形態の推定学習方法を行う。

【0031】

（クリップ適用部３１０）
クリップ適用部３１０は、学習用音響データＤから入力された学習用クリップ前信号に対して、擬似的振幅制限であるハードクリップを適用して学習用クリップ後信号を生成する（ステップＳ３１０）。学習用音響データＤは、例えば、ＬＩＢＲＩコーパスの５３００データ等、汎用のものを用いることができる。したがって、学習用音響データＤは、ＬＩＢＲＩコーパスの５３００データに限定されない。

【0032】

（学習用推定部３２０）
学習用推定部３２０は、学習用クリップ後信号から学習用クリップ前信号（推定信号）を推定する（ステップＳ３２０）。

【0033】

（損失算出部３３０）
損失算出部３３０は、学習用推定部３２０により推定された推定信号と、学習用音響データＤから入力された際の学習用クリップ前信号との間の損失を算出する（ステップＳ３３０）。損失の算出は、例えば、時間領域の信号に対するmean-squared-error（ＭＳＥ）損失などが挙げられる。但し、損失の算出はmean-squared-error（ＭＳＥ）損失に限定されない。なお、コスト関数は、クリップ適用部３１０によって振幅に制限がかかった領域のみに対して計算する。

【0034】

（パラメータ更新部３４０）
上述した損失が所定基準を満たさない場合には、当該損失を元に学習用推定部３２０が使用するパラメータを更新して学習用推定部３２０による推定を再度実施させる。例えば、得られたコストに基づいて、最適化手法Ａｄａｍに学習用推定部３２０のパラメータを更新して推定を実施させる。

【0035】

上記損失が所定基準を満たす場合には、直前に使用したパラメータを有した学習用推定部３２０を、学習済モデルＦ_θとして出力する（ステップＳ３４０）。なお、所定基準として、損失結果そのもので判断するのではなく、たとえば、全学習データを例えば２００回など所定回数を利用してパラメータを更新した時点で学習を停止する等の方法を採用しても良い。

【0036】

＜音響信号推定装置１の適用事例＞
上述の音響信号推定装置１の精度を確認するために、下記の条件の下に音響信号推定装置１を適用した。図５及び、図６に実行結果例を示す。本実行結果では、推定学習装置３００による学習として、学習用音響データＤにＬＩＢＲＩコーパスの５３００データを用い、最適化アルゴリズムにはＡｄａｍを用い、全学習データを２００回利用してパラメータを更新した時点で学習を停止し、その際のパラメータを学習済モデルＦ_θとして使用した。また、音響信号推定装置１における双対変数の初期値（ｕ［０］）は０（ゼロ）とした。

【0037】

図５と図６において、横軸（ｉｎｐｕｔＳＤＲ）は入力されたクリップ後信号ｙのクリッピングされた強さを示したものであり、縦軸（△ＳＤＲ）は改善量の大きさを示している。

【0038】

図５は、推定学習装置３００における学習において、クリップ適用部３１０によるＳＤＲ（Signal-to-Distortion Ratio）を、１ｄｂ、３ｄｂ、５ｄｂ、１０ｄｂ、１５ｄｂのそれぞれの値に固定して、学習済モデルＦ_θを生成した場合の音響信号推定装置１の推定結果である。即ち、同じInput SDR値においてプロットされた５つの結果（△ＳＤＲ値）は、夫々の入力信号（Input SDR）に対して、１つの条件は学習時と同じ条件のクリップ後信号ｙが入力されたものであり、残りの４つの条件は未学習のクリップ後信号ｙが入力された結果を示している。本開示においては、５つの結果を１つの図に表記してしまうと、折れ線グラフが重なり合って視認性が低下することから、図を２つに分けた。具体的には、１ｄｂ、３ｄｂ、５ｄｂの結果を図５Ａに示し、１ｄｂ、１０ｄｂ、１５ｄｂの結果を図５Ｂに示している。即ち、図を２つに分けて視認性の低下を防ぎつつ、１ｄｂの結果については、図５Ａと図５Ｂの双方に示すことで、互いの結果の比較のし易さを確保するように配慮した。

【0039】

従来のＤＮＮに基づく手法では、クリップ前信号~ｙの推定結果は、学習した学習用音響データの性質のみに基づくため、学習していない未知の条件に対しては、クリップ前信号~ｙを精度良く推定することができなかった。本開示の音響信号推定装置１においては、図５Ａ、図５Ｂに示す通り、学習時のＳＤＲに大きく影響されず、学習時の条件との差に頑健であることがわかる。

【0040】

図６Ａは、推定学習装置３００における学習時のＳＤＲを１～１０ｄＢの中で無作為な値で学習した学習済モデルＦ_θを使用して、音響信号推定装置１のクリップ前信号~ｙの推定結果と、従来手法のスパース最適化法を用いたクリップ前信号~ｙの推定結果とを比較した図である。ここでは、従来手法のスパース最適化に基づく手法として、（ｉ）ＡＳＰＡＤＥ、（ii）ＳＳＰＥＷ、（iii）ＰＷｌ_１の３つの手法で算出した結果とを比較している。また、図６Ｂは、図６Ａの（ｉ）～（iii）に変えて、(iv)として、従来法のＤＮＮ手法に基づくＴ－ＵＮｅｔの結果を示している。

【0041】

図６Ａに示す通り、全てのｉｎｐｕｔＳＤＲにおける音響信号推定装置１の改善量△ＳＤＲの結果は、他の（ｉ）～(iii)の従来手法のスパース最適化に基づく手法の結果と比べて、高くなっている。この結果から、音響信号推定装置１による手法は、データの性質に基づく閾値処理がAudio declippingに有効に働いていることが分かる。また、図６Ｂに示す通り、（iv)の従来法のＤＮＮに基づくＴ－ＵＮｅｔと比べると、ｉｎｐｕｔＳＤＲが１０ｄＢ以上の場合に音響信号推定装置１の△ＳＤＲの結果の方が大きいこと（有効であること）が分かる。これは、音響信号推定装置１が式（１）のように時間領域での制約を課すことで歪みの大きさを考慮しながら処理を行うことができるためであると考えられる。

【0042】

［プログラム、記録媒体］
上述の各種の処理は、図７に示すコンピュータ２０００の記録部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０、表示部２０５０などに動作させることで実施できる。

【0043】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

【0044】

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0045】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0046】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【符号の説明】

【0047】

１音響信号推定装置
１０第１推定部
２０第２推定部
３０変数更新部
４０出力部
３００推定学習装置
３１０クリップ適用部
３２０学習用推定部
３３０損失算出部
３４０パラメータ更新部
Ｄ学習用音響データ
Ｆ_θ 学習済モデル
Ｔ_θ ソフト閾値作用素
ｕ^［ｋ］双対変数
ｖ^［ｋ］第２推定信号
ｘ^［ｋ］第１推定信号
~ｙクリップ前信号
ｙクリップ後信号

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版