(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-01
(54)【発明の名称】一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル
(51)【国際特許分類】
G10L 19/04 20130101AFI20231025BHJP
G10L 25/30 20130101ALI20231025BHJP
【FI】
G10L19/04
G10L25/30
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023522846
(86)(22)【出願日】2021-10-12
(85)【翻訳文提出日】2023-04-13
(86)【国際出願番号】 US2021054617
(87)【国際公開番号】W WO2022081599
(87)【国際公開日】2022-04-21
(32)【優先日】2020-10-16
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-10
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジョウ,ツォーン
(72)【発明者】
【氏名】ヴィントン,マーク,エス
(72)【発明者】
【氏名】ダヴィッドソン,グラント,エー.
(72)【発明者】
【氏名】ヴィレモース,ラルス
(57)【要約】
メディア信号の周波数係数を予測するためのニューラルネットワークシステムであって、1つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第1の組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む時間予測部と、現在の時間フレームにおいて特定の周波数帯域に隣接する1つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第2の組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む周波数予測部とを有するニューラルネットワークシステム。そのようなニューラルネットワークシステムは、メディア信号の時間-周波数タイルで現れる時間依存性及び周波数依存性の両方を捕捉することができる予測器を形成する。
【特許請求の範囲】
【請求項1】
メディア信号の周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステム(10)であって、
1つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第1の組(16)を予測するよう訓練された少なくとも1つのニューラルネットワークを含む時間予測部(8)と、
前記現在の時間フレームにおいて前記特定の周波数帯域に隣接する1つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第2の組(20)を予測するよう訓練された少なくとも1つのニューラルネットワークを含む周波数予測部(9)と、
前記出力変数の第1の組及び前記出力変数の第2の組に基づき、前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段(21,22)と
を有するニューラルネットワークシステム。
【請求項2】
前記時間予測部によって予測された前記出力変数の第1の組(16)は、前記周波数予測部への入力変数として使用される、
請求項1に記載のニューラルネットワークシステム。
【請求項3】
前記時間予測部は、複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワーク(13)を含み、
前記時間予測回帰ニューラルネットワークは、前記メディア信号の先行時間フレームを表す入力変数の第1の組を考慮して、前記現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている、
請求項1又は2に記載のニューラルネットワークシステム。
【請求項4】
前記時間予測部は、前記メディア信号の先行時間フレームの周波数係数を考慮して前記入力変数の第1の組を予測するよう訓練されたニューラルネットワークを含む入力段(11)を更に含む、
請求項3に記載のニューラルネットワークシステム。
【請求項5】
前記時間予測部は、前記出力変数の第1の組を予測するよう訓練された帯域ミキシングニューラルネットワーク(15)を更に含み、
前記中間の組の中の変数は、前記特定の周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される、
請求項4に記載のニューラルネットワークシステム。
【請求項6】
前記周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワーク(19)を含み、
前記周波数予測回帰ニューラルネットワークは、前記出力変数の第1の組(16)と、前記現在の時間フレームのより低い周波数帯域を表す入力変数の第2の組との和を考慮して、前記出力変数の第2の組(20)を予測するよう訓練されている、
請求項2乃至5のうちいずれか一項に記載のニューラルネットワークシステム。
【請求項7】
前記周波数予測部は、前記出力変数の第2の組に基づき前記周波数係数の組を供給するよう訓練された1つ又は複数の出力レイヤ(21,22)を更に含む、
請求項6に記載のニューラルネットワークシステム。
【請求項8】
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、前記周波数係数の確率分布をパラメータ化するよう構成され、
前記現在の時間フレームの前記特定の周波数帯域は、各周波数係数の前記確率分布をサンプリングすることによって取得される、
請求項1乃至7のうちいずれか一項に記載のニューラルネットワークシステム。
【請求項9】
前記周波数係数は、前記メディア信号の時間-周波数変換のビンに対応し、あるいは、
前記周波数係数は、前記メディア信号のフィルタバンク表現のサンプルに対応する、
請求項1に記載のニューラルネットワークシステム。
【請求項10】
ターゲットメディア信号を表す生成モデルであって、
請求項3に記載のニューラルネットワークシステム(10)と、
前記ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう訓練された条件付けニューラルネットワーク(41)と
を有し、
前記条件付け情報は、前記ターゲットメディア信号を記述する量子化された周波数係数を含み、
前記時間予測回帰ニューラルネットワーク(13)は、前記入力変数の第1の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
生成モデル。
【請求項11】
前記ニューラルネットワークシステムは、請求項6に記載の周波数予測回帰ニューラルネットワーク(19)を含み、
前記周波数予測回帰ニューラルネットワーク(19)は、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
請求項10に記載の生成モデル。
【請求項12】
前記条件付け情報は、歪み周波数係数の組、知覚モデル係数の組、及びスペクトルエンベロープ、のうちの少なくとも1つを含む、
請求項10又は11に記載の生成モデル。
【請求項13】
請求項10に記載の生成モデルを用いて、エンハンスメントされたメディア信号を取得する方法であって、
a)前記条件付けニューラルネットワークへ条件付け情報を供給するステップ(ステップS11)と、
b)現在の時間フレームの各周波数帯域について、周波数予測回帰ニューラルネットワークを用いて当該周波数帯域を表す周波数係数の組を予測し(ステップS12)、前記周波数係数の組を入力変数の第2の組として前記周波数予測回帰ニューラルネットワークへ供給する(ステップS13)ステップと、
c)前記現在の時間フレームの全ての周波数帯域を表す予測された前記周波数係数の組を前記入力変数の第1の組として前記時間予測回帰ニューラルネットワークへ供給するステップ(ステップS15)と
を有する方法。
【請求項14】
請求項10に記載の生成モデルを有するデコーダ。
【請求項15】
コンピュータによって実行される場合に、請求項10乃至12のうちいずれか一項に記載の生成モデルを実施するコンピュータ可読プログラムコード部分を有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メディア、特にオーディオ、のための生成モデルに関係がある。具体的には、本発明は、メディア信号の周波数コンテンツを表す周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステムに関係がある。
【背景技術】
【0002】
高品質メディア(特にオーディオ)のための生成モデル(generative model)は、多くの応用を可能にすることができる。ロー波形(raw waveform)生成モデルは、特定の信号カテゴリ、例えば、スピーチ及びピアノ、内で高品質オーディオを実現可能であることを証明してきたが、一般的な(general)オーディオの品質は依然として不足している。
【0003】
近年、例えば、下記の非特許文献1で議論されているように、ロー波形領域から離れようとする試みがなされている。
【0004】
それでもなお、より一層の改善が有益であり得る。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Vaquez及びLewis,“MelNet: A Generative Model for Audio in the Frequency Domain”,2019年
【発明の概要】
【0006】
上記に基づき、従って、本発明の目的は、一般的なメディア、特にオーディオ、つまり、スピーチ又はピアノ音楽のような特定のカテゴリのオーディオだけでなく、オーディオ全般のための改善された生成モデルを提供することである。
【0007】
本発明の第1の態様に従って、この及び他の目的は、メディア信号の周波数係数を予測するためのニューラルネットワークシステムであって、
1つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第1の組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む時間予測部と、
前記現在の時間フレームにおいて特定の周波数帯域に隣接する1つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第2の組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む周波数予測部と、
前記出力変数の第1の組及び前記出力変数の第2の組に基づき、前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段と
を有するニューラルネットワークシステムによって達成される。
【0008】
このようなニューラルネットワークシステムは、メディア信号の時間-周波数タイルで現れる時間依存性及び周波数依存性の両方を捕捉することができる予測器を形成する。周波数予測部は、周波数依存性、例えば、調波構造を捕捉するよう設計される。
【0009】
そのような予測器は、オーディオコーディングアプリケーションにおけるニューラルネットワークデコーダとして有望な結果を示している。更には、そのようなニューラルネットワークは、帯域幅拡張、パケット損失補間(packet loss concealment)、及びスピーチエンハンスメントなどの他の信号処理アプリケーションでも利用することができる。
【0010】
時間及び周波数に基づいた予測は、原則として、如何なる順序でも、又は組み合わせてさえ、実行され得る。しかし、典型的なオンラインアプリケーションでは、フレームごとの処理により、通常は、時間予測が最初に(多数の前のフレームに対して)行われ、この予測の出力が周波数予測で使用されることになる。
【0011】
一実施形態に従って、時間予測部は、複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワークを含み、前記時間予測回帰ニューラルネットワークは、メディア信号の先行時間フレームを表す入力変数の第1の組を考慮して、現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている。
【0012】
同様に、いくつかの実施形態に従って、周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワークを含み、前記周波数予測回帰ニューラルネットワークは、前記出力変数の第1の組と、現在の時間フレームのより低い周波数帯域を表す入力変数の第2の組との和を考慮して、前記出力変数の第2の組を予測するよう訓練されている。
【0013】
回帰ニューラルネットワークは、このコンテキストにおいて特に有用であることを示している。
【0014】
時間予測部はまた、前記出力変数の第1の組を予測するよう訓練された帯域ミキシングニューラルネットワークであってもよく、中間の組の中の変数は、前記特定の周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される。
【0015】
このような帯域ミキシングニューラルネットワークは、交差帯域予測(cross-band prediction)を実行し、それによってエイリアシング歪み(aliasing distortion)を回避(又は少なくとも低減)する。
【0016】
各周波数係数は、分布パラメータの組によって表されてもよく、前記分布パラメータの組は、周波数係数の確率分布をパラメータ化するよう構成される。確率分布は、ラプラス分布、ガウス分布、及びロジスティック分布、のうちの1つであってよい。
【0017】
本発明の第2の態様は、ターゲットメディア信号を生成する生成モデルであって、第1の態様に係るニューラルネットワークシステムと、ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう構成される条件付けニューラルネットワークとを有する生成モデルに関する。
【0018】
時間予測部が時間予測回帰ニューラルネットワークを含む場合に、時間予測回帰ニューラルネットワークは、前記入力変数の第1の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成され得る。
【0019】
周波数予測部が周波数予測回帰ニューラルネットワークを含む場合に、周波数予測回帰ニューラルネットワークは、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成され得る。
【0020】
条件付け情報は、量子化された(又は別なふうに歪んだ)周波数係数を含んでよく、それによって、ニューラルネットワークシステムは、メディア信号を表す逆量子化された(又は別なふうにエンハンスメントされた)周波数係数を予測することができる。
【0021】
いくつかの応用で、例えば、一般的なオーディオコーデックにおけるニューラルネットワークに基づいたデコーダで、量子化された周波数係数は、知覚モデルから導出された知覚モデル係数の組と結合されてもよい。このような条件付け情報は予測を更に改善し得る。
【0022】
実証研究では、このような生成モデルは、一般的なオーディオコーディングアプリケーションに実装されているため、量子化されたMDCTビンを入力として受け取り、逆量子化されたMDCTビンを予測する。スペクトルホールが尤もらしい構造で埋められ、量子化誤差が予測で除かれることが示されている。20kb/sで動作する本発明の第2の態様に係る生成モデルを使用している“ディープオーディオコーデック”のMUSHRAスタイルの主観的評価では、異なるビットレートでのいくつかの従来技術のコーデックと比較して、“ディープオーディオコーデック”は32kb/sでのMPEG-4 AACコーデックと全体的に同等と評価された。これは、37%のビットレートの節約に相当する。
【0023】
本発明の第3の態様は、本発明の第2の態様に従う生成モデルを用いて、エンハンスメントされたメディア信号を推測する方法に関する。
【0024】
本発明の第4の態様は、本発明の第1の態様に従うニューラルネットワークシステムを訓練する方法に関する。
【0025】
本発明は、発明の現在好ましい実施形態を示す添付の図面を参照して、より詳細に記載される。
【図面の簡単な説明】
【0026】
【
図1a】本発明の実施形態に係る時間/周波数予測器のハイレベル構造を示す。
【
図1b】本発明の実施形態に係る時間/周波数予測器のハイレベル構造を示す。
【
図2】
図1aの構造を実装するニューラルネットワークシステムを示す。
【
図3】自己生成モードで動作する
図2のニューラルネットワークシステムを示す。
【
図4】
図2のニューラルネットワークシステムを含む生成モデルを示す。
【発明を実施するための形態】
【0027】
図1a及び
図1bは、本発明の実施形態に係る時間/周波数予測器1のハイレベル構造の2つの例を模式的に表す。予測器は、メディア(例えば、オーディオ)信号の周波数コンテンツを表す周波数係数に作用する。周波数係数は、離散コサイン変換(Discrete Cosine Transform,DCT)又は修正離散コサイン変換(Modified Discrete Cosine Transform,MDCT)などの、メディア信号の時間-周波数変換のビンに対応してよい。代替的に、周波数係数は、メディア信号のフィルタバンク表現、例えば、直交ミラーフィルタ(Quadrature Mirror Filter,QMF)フィルタバンクのサンプルに対応してもよい。
【0028】
図1aでは、前の時間フレームの周波数係数(本願では「ビン」(bins)と呼ばれることがある。)が最初に、予め選択された数(B個)の周波数帯域にグループ分けされる。次いで、予測器1は、前の全ての時間フレーム3から集められた帯域コンテキストに基づき、現在の時間フレームt内のターゲット帯域bのビン2を予測する。次いで、予測器1は、より低い全ての帯域及びより高いN個の帯域(つまり、帯域1・・・b+N)に基づき、ターゲット帯域bのビン2を予測する。なお、Nは1からB-1の間である。
図1aでは、Nは1に等しく、つまり、ただ1つの、より高い帯域b+1のみが、考慮される。最後に、予測器1は、現在の時間フレームt内の全てのより低い(前に予測された)周波数帯域5に基づき、ターゲット帯域bでのビン2を予測する。
【0029】
周波数係数(例えば、MDCTビン)X
t(b)の同時確率密度(joint probability density)は、条件付き確率の積として表現することができる:
【数1】
ここで、X
t(b)は、時間tでの帯域bの係数のグループを表し、Nは、両側に隣接している隣接帯域(より高い帯域及びより低い帯域)の数を表し、X
1・・・t-1(1・・・b+N)は、時間tから時間t-1までの帯域1からb+Nの係数を表し、最後に、X
t(1・・・b-1)は、時間t1での帯域1から帯域b-1のビンを表す。
【0030】
図1aの予測器の上記の説明から明らかであるように、予測は最初に時間領域で、次いで周波数領域で行われる。これは、多く他のアプリケーションで、例えば、オーディオデコーダで、ごく普通であり、予測は、通常は、信号の次のフレームについてリアルタイムで行われる。
【0031】
一般的に言えば、しかしながら、例えば、信号全体がオフラインで利用可能である場合に、時間/周波数予測器は逆の順序で動作することができる。この、やや直感的でないプロセスは、
図1bに表されている。
【0032】
ここで、最初に、より低い帯域の夫々でのビンは、T個の時間フレームの組にグループ化される。次いで、予測器1’は、より低い全ての周波数帯域3’から集められた帯域コンテキストに基づき、現在の(次の、より高い)周波数帯域b内のターゲットフレームtのビン2’を予測する。次いで、予測器1’は、全ての先行する時間フレーム及びN個の後続(将来)の時間フレーム(つまり、フレーム1・・・t+1)におけるより低い周波数に基づき、ターゲットフレームtのビン2’を予測する。なお、Nは、ここでは1からT-tの間であり、Nは先と同じく1に等しく、つまり、1つの後続(将来)のフレームが考慮される。最後に、予測器1’は、現在の周波数帯域b内の全ての先行する(前に予測された)時間フレーム5’に基づき、ターゲットフレームt内のビン2’を予測する。
【0033】
ニューラルネットワークシステム10での
図1aの予測器の実装の例は、
図2においてブロック図として表されている。以下で詳細に説明されるように、ネットワークシステム10は、時間予測部8及び周波数予測部9を有する。
【0034】
時間予測部8において、畳み込みネットワーク11は、前のフレームXt-1の周波数変換係数(ビン)を受け取り、周波数ビンの畳み込みを実行してそれらをB個の帯域12にグループ分けする。一例として、Bは32に等しい。1つの実施では、畳み込みネットワーク11は、16に等しいカーネル及び8に等しいストライド(つまり、50%のオーバーラップ)を有する畳み込みレイヤとして実装される。
【0035】
帯域12は、ここではゲート付き回帰型ユニット(Gated Recurrent Units,GRU)の形をとる回帰レイヤの組を含む時間予測回帰ニューラルネットワーク(Recurrent Neural Network,RNN)13に供給される。長・短期記憶(Long Short-Term Memories,LSTM)、疑似回帰ニューラルネットワーク(Quasi-Recurrent Neural Networks,QRNN)、双方向回帰型ユニット(Bidirectional recurrent units)、連続時間回帰ニューラルネットワーク(Continuous Time Recurrent Neural Networks,CTRNN)などのような他の回帰ニューラルネットワークも使用されてよい。ネットワーク13は、B個の帯域を別々に、しかし、共有された重みを用いて処理し、現在の(予測されている)時間フレームの各周波数帯域について個別的な隠れ状態(hidden states)14を取得する。各隠れ状態14は出力変数の組を含み、その組のサイズは、RNN13内のレイヤの内部次元によって決定される。表されている例では、内部次元は1024であるから、現在の(予測されている)時間フレームの各周波数帯域を表す1024個の変数が存在する。B=32によれば、よって、RNN13から出力された32×1024個の変数が存在する。
【0036】
次いで、B個の隠れ状態14は他の畳み込みネットワーク15へ供給され、畳み込みネットワーク15は、交差帯域予測(cross-band prediction)p(Xt(b)|X1・・・t-1(1・・・b+N))を達成するために、より低い全ての帯域及びより高いN個の帯域(つまり、隣接する隠れ状態)の変数をミキシングする。1つの実施では、畳み込みネットワーク15は、帯域次元に沿った単一の畳み込みレイヤとして実装され、カーネル長さは、N個のより低い帯域及びN個のより高い帯域を有して、2N+1である。他の実施では、畳み込みレイヤカーネル長は、1つのより低い帯域及びN個のより高い帯域を有して、N+2である。出力(隠れ状態)16は、先と同じくB組の出力変数であり、各組のサイズは、内部次元によって決定される。目下の場合では、先と同じく32×1024個の変数がネットワーク15から出力される。
【0037】
周波数予測部9において、現在の(予測されている)時間フレームを表す隠れ状態16は、合算点17へ供給される。1×1畳み込みレイヤ18は、前の帯域Xt(1)・・・Xt(b-1)の周波数係数を受け取り、それらをシステムの内部次元、つまり、目下の場合では1024に投影する。
【0038】
合算点17の出力は、ここではゲート付き回帰型ユニット(GRU)の形をとる回帰レイヤの組を含む回帰ニューラルネットワーク(RNN)19に供給される。先と同じく、長・短期記憶(LSTM)、疑似回帰ニューラルネットワーク(QRNN)、連続時間回帰ニューラルネットワーク(CTRNN)などのような他の回帰ニューラルネットワークも使用されてよい。RNN19は、合計出力を取得し、Xt(b)を表す出力変数(隠れ状態)の組20を予測する。最後に、2つの1×1畳み込みレイヤ(夫々、出力次元1024及び16)の形をとる2つの出力レイヤ21、22は、各畳み込みレイヤの前にReLU活性化を有して、最終予測スキームp(Xt(b)|X1・・・t-1(1・・・b+N),Xt(t・・・b-1))に従って、Xt(b)の最終的な予測を供給する働きをする。RNN19の隠れ状態20は、新しい時間スタンプごとにリセットされる。
【0039】
一実施形態において、各周波数係数は2つのパラメータによって表され、例えば、システムは、ラプラス分布のパラメータμ(位置)及びs(スケール)を予測し得る。1つの実施では、log(s)が、計算安定性のために、sの代わりに使用される。他の実施では、ロジスティック分布又はガウス分布が、パラメータ化のためのターゲット分布として選択され得る。従って、最後の出力レイヤ22の出力次元はビンの数の2倍である。目下の場合に、レイヤ22の出力次元は16であり、各周波数帯域内の8つのビンに対応する。
【0040】
他の実施形態においては、周波数係数は分布の混合としてパラメータ化され、各パラメータ化された分布は個々の(正規化された)重みを有する。その場合に、各係数は、(分布の数)×(分布パラメータの数+1)個のパラメータによって表される。例えば、2つのラプラス分布(夫々2つのパラメータを有する。)を混合する具体的な場合において、各係数は、2×(2+1)=6個のパラメータによって表される(重み(w1及びw2)、位置(μ1及びμ2)、及びスケール(s1及びs2)の2つの組,なお、W1+w2=1)。出力レイヤ22の出力次元は、その場合に8×6=48である。上述された実施形態は、ただ1つの分布及び1に等しい重みを有する特別な場合である。
【0041】
図5を参照して、ニューラルネットワークシステム10の訓練は、“教師強制モード”(teacher forcing mode)で行われ得る。最初に、ステップS1で、“実際の”(既知の)メディア信号を表すグラウンドトゥルース(ground truth)周波数係数が畳み込みネットワーク11及び畳み込みレイヤ18へ夫々供給される。現在の時間フレームの
(外1)
の確率分布が次いでステップS2で予測される。ステップS3で、訓練測度を決定するために、
(外2)
は、実際の信号の実際のビンX
t(b)と比較される。最後に、ステップS4で、様々なニューラルネットワーク11、13、15、18、19、21、22のパラメータ(重み及びバイアス)が、訓練測度を最小化するように選択される。一例として、最小化されるべき訓練測度は、負の対数尤度(Negative Log-Likelihood,NLL)であってよく、例えば、ラプラス分布の場合では:
【数2】
と表される。ここで、μ及びsは、モデル出力予測であり、yは、実際のビン値である。NLLは、ガウス分布モデル又は混合分布モデルの場合にわずかに異なって見える。
【0042】
図3は、“自己生成”(self-generation)モードとしても知られている推論モードにおいて
図2のニューラルネットワークシステム10を表し、
(外3)
は、新しい予測を引き続き生成するよう履歴として使用される。
図3のニューラルネットワークシステムは自己生成予測器30と呼ばれる。このような予測器は、予測器によって生成された予測に基づき予測誤差を計算するためにエンコーダで使用することができる。予測誤差は、量子化され、残差誤差としてビットストリームに含まれ得る。デコーダでは、予測された結果が、次いで、量子化された誤差に加えられて、最終結果が得られる。
【0043】
ここで、予測器30は2つのフィードバック経路31、32、すなわち、システムの時間予測部8のための第1フィードバック経路31、及びシステムの周波数予測部9のための第2フィードバック経路32を含む。
【0044】
より具体的には、
(外4)
は、
(外5)
に加えられ、それにより、それは
(外6)
を含む。これらの帯域は、
(外7)
を予測するために、畳み込みネットワーク18へ、次いで合算点17へ入力として供給される。
【0045】
(外8)
の全ての帯域が予測されると、
(外9)
の予測を可能にするために、このフレームの全体が畳み込みネットワーク11へ入力として供給される。
【0046】
μ及びsが提案されているニューラルネットワークからの予測されたパラメータであるとすれば、サンプリング動作33が、予測されたビン値を取得するために必要とされる。サンプリング動作は、次のように書くことができる:
【数3】
ここで、バーXは、予測されたビン値であり、F()は、予め選択された分布によって決定されるサンプリング関数であり、uは、一様分布からのランダムサンプルである。例えば、ラプラス分布の場合には:
【数4】
である。
【0047】
サンプリング誤差の累積を減らすよう、F()は、“切り捨て”(truncation)及び“温度”(temperature)(例えば、sの重み付け)により適応されてもよい。1つの実施では、“切り捨て”は、サンプリング出力を(μ-4*s,μ+4*s)に制限するサンプリングu~U(-0.49,0.49)によって行われる。他の実施形態では、μは直接取得される(最大サンプリング)。“温度”は、sに重みwを乗じることによって行われてよく、1つの実施では、重みwは、例えば、スペクトルエンベロープ及び帯域トナリティ(tonality)を含む、ターゲット信号に関する事前知識によって、制御することができる。
【0048】
ニューラルネットワークシステム10は、
図1aに示されている予測器を具現化し、適切な条件付け信号によって有利に条件付けされてよい:
【数5】
ここで、cは、例えば、量子化された(又は別なふうに歪んだ)
(外10)
を含む条件付け信号を表す。
【0049】
図4は、そのような条件付き予測器を用いてターゲットメディア信号を生成する生成モデル40を示す。
図4のモデル40は、
図3に従う自己生成ニューラルネットワークシステム30及び条件付けニューラルネットワーク41を含む。
【0050】
条件付けニューラルネットワーク41は、ターゲットメディア信号を記述する条件付け情報42を考慮して条件付け変数の組を予測するよう訓練される。条件付けニューラルネットワーク41は、ここでは、2Dカーネル(周波数方向及び時間方向)を有する2D畳み込みニューラルネットワークである。
【0051】
表されている場合において、条件付け情報42は2チャンネルであり、量子化された周波数係数と、知覚モデル係数の組とを含む。
(外11)
は、ターゲットメディア信号の時間フレームt及びn個の先読み(look-ahead)フレームを表す。知覚モデル係数pEnvQの組は、オーディオコーデックシステムで現れるもののような知覚モデルから導出され得る。知覚モデル係数pEnvQは、帯域ごとに計算され、望ましくは、処理を容易にするよう周波数係数と同じ分解能にマッピングされる。
【0052】
表されている実施形態では、条件付けニューラルネットワークは、
(外12)
及びpEnvQを連結させるよう構成され、条件付けニューラルネットワーク41は、連結された入力を取り、ニューラルネットワークシステム30の内部次元(例えば、目下の例では2×1024)の2倍である次元で出力を供給する。分配器43は、特徴チャンネル次元に沿って“倍長”(double-length)出力チャンネルを分割するよう配置される。出力変数の半分は、時間予測回帰ニューラルネットワーク13に接続されている入力変数に追加される。出力変数の残り半分は、周波数予測回帰ニューラルネットワーク19へ接続されている入力変数に追加される。分配動作は全体的な最適化パフォーマンスに役立つことが経験的に示されている。
【0053】
代替的に、条件付けニューラルネットワーク41は、予測器40と同じ次元で動作するよう構成され、1024個の出力変数のみを出力する。その場合に、分配器は不要であり、同じ条件付け変数が回帰ニューラルネットワーク13及び19へ供給される。
【0054】
再び、
図5を参照して、生成モデル40の訓練も“教師強制モード”で行われ得る。最初に、ステップS1で、“実際の”(既知の)メディア信号を表すグラウンドトゥルース周波数係数が条件付けニューラルネットワーク41へ条件付け情報として供給される。この場合に、周波数係数は、実際の実施と同じように、最初に量子化されるか、又は別なふうに歪ませられる。次いで、ステップS2で、現在の時間フレームの
(外13)
の確率分布が予測される。ステップS3で、訓練測度を決定するために、
(外14)
は、実際の信号の実際のビンX
t(b)と比較される。最後に、ステップS4で、様々なニューラルネットワーク11、13、15、18、19、21、22、及び41のパラメータ(重み及びバイアス)が、訓練測度が最小化されるように選択される。一例として、最小化されるべき訓練測度は、負の対数尤度(NLL)であってよく、例えば、ラプラス分布の場合では:
【数6】
と表される。ここで、μ及びsは、モデル出力予測であり、yは、実際のビン値である。NLLは、ガウス分布モデル又は混合分布モデルの場合にわずかに異なって見える。
【0055】
生成モデル40は、例えば、量子化された(又は別なふうに歪んだ)入力信号をエンハンスメントするために、デコーダで有利に実装されてよい。具体的に、復号化パフォーマンスは、同量のコーディングパラメータで、又は削減された量のコーディングパラメータでさえ、改善され得る。例えば、入力信号のスペクトル空隙はニューラルネットワークによって埋められ得る。前述のように、生成モデルは変換領域で動作してもよく、これはデコーダにおいて特に有用であり得る。
【0056】
使用中、生成モデル40は、
図6で表されているように動作する。最初に、ステップS11で、条件付け情報、例えば、量子化された周波数係数の組及びデコーダによって受け取られる知覚モデルデータは、条件付けニューラルネットワーク41へ供給される。次いで、ステップS12及びS13で、現在のフレームtの特定の帯域bの
(外15)
が予測され、周波数予測RNN19への入力として供給される。ステップS14で、ステップS12及びS13は、現在のフレーム内の各周波数帯域について繰り返される。ステップS15で、
(外16)
の予測された周波数係数は時間予測RNN13へ供給され、それによって、次のフレームの連続した予測を可能にする。
【0057】
上記において、入力オーディオサンプルのオーディオ品質の表れ(indication)を決定するためのディープラーニングに基づいたシステムを訓練し動作させる可能な方法とともに、そのようなシステムの可能な実施が記載されてきた。追加的に、本開示は、それらの方法を実行する装置にも関係がある。このような装置の例は、プロセッサ(例えば、中央演算処理装置(Central Processing Unit,CPU)、グラフィクス処理ユニット(Graphics Processing Unit,GPU)、デジタル信号プロセッサ(Digital Signal Processor,DSP)、1つ以上の特定用途向け集積回路(Application Specific Integrated Circuits,ASIC)、1つ以上の無線周波数集積回路(Radio-Frequency Integrated Circuits,RFIC)、又はそれらの任意の組み合わせ)及びプロセッサに結合されているメモリを有してよい。プロセッサは、本開示にわたって記載されている方法のステップの一部又は全部を実行するよう適応されてよい。
【0058】
装置は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、セルラー電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又は当該装置によって行われる動作を指定する命令を(順次又はそれ以外で)実行可能な任意のマシンであってよい。更に、本開示は、本明細書で議論されているメソッドロジのいずれか1つ以上を実行するよう個別的に又は共同して命令を実行する装置の任意の集合に関係があるべきである。
【0059】
本開示は更に、プロセッサによって実行される場合に、プロセッサに、本明細書で記載されている方法のステップの一部又は全部を実行させる命令を有するプログラム(例えば、コンピュータプログラム)に関係がある。
【0060】
また更に、本開示は、上記のプログラムを記憶しているコンピュータ可読(又はマシン可読)記憶媒体に関係がある。ここで、「コンピュータ可読記憶媒体」という用語は、例えば、ソリッドステートメモリ、光学媒体、及び磁気媒体の形をとるデータリポジトリを含むが、それに限られない。
【0061】
特に別なふうに述べられない限りは、以下の議論から明らかなように、本開示にわたって、「処理する」(processing)、「計算する」(computing)、「計算する」(calculating)、「決定する」(determining)、「解析する」(analyzing)、などのような用語を利用している議論は、物理的な、例えば電子的な量として表されているデータを、物理的な量として同様に表される他のデータとして操作及び/又は変換するコンピュータ若しくはコンピューティングシステム又は同様の電子計算装置の動作及び/又はプロセスを指すことが理解される。
【0062】
同様に、「プロセッサ」という用語は、例えば、レジスタ及び/又はメモリからの電子データを処理して、その電子データを、例えば、レジスタ及び/又はメモリに記憶され得る他の電子データに変換する任意のデバイス又はデバイスの部分を指すことができる。「コンピュータ」又は「コンピューティングマシン」又は「コンピューティングプラットフォーム」は1つ以上のプロセッサを含んでよい。
【0063】
本明細書で記載されるメソッドロジは、1つの例示的な実施形態では、1つ以上のプロセッサによって実行される場合に、本明細書で記載される方法の少なくとも1つを実行する命令の組を含むコンピュータ可読(マシン可読とも呼ばれる。)コードを受け入れる1つ以上のプロセッサによって実行可能である。行われる動作を指定する命令の組を実行することができる如何なるプロセッサも含まれる。よって、1つの例は、1つ以上のプロセッサを含む典型的なプロセッシングシステムである。各プロセッサは、CPU、グラフィクス処理ユニット、及びプログラマブルDSPユニットのうちの1つ以上を含んでよい。プロセッシングシステムは、メインRAM及び/又は静的RAN、及び/又はROMを含むメモリサブシステムを更に含んでもよい。バスサブシステムは、コンポーネント間の通信のために含まれてもよい。プロセッシングシステムは、プロセッサがネットワークによって結合されている分散処理システムであってもよい。プロセッシングシステムがディスプレイを必要とする場合に、そのようなディスプレイ、例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイが含まれてもよい。手動のデータ入力が必要とされる場合に、プロセッシングシステムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などのうちの1つ以上のような入力デバイスも含む。プロセッシングシステムは、ディスクドライブユニットなどの記憶システムも含んでもよい。プロセッシングシステムは、いくつかの構成で、音響出力デバイス、及びネットワークインターフェースデバイスを含んでもよい。よって、メモリサブシステムは、1つ以上のプロセッサによって実行される場合に、本明細書で記載される方法の1つ以上の実行を引き起こす命令の組を含むコンピュータ可読コード(例えば、ソフトウェア)を担持するコンピュータ可読キャリア媒体を含む。方法がいくつかの要素、例えば、いくつかのステップを含む場合に、そのような要素の順序は、特に述べられない限りは暗示されないことに留意されたい。ソフトウェアはハードディスクに存在してもよく、あるいは、完全に又は少なくとも部分的に、コンピュータシステムによるその実行中にRAM内及び/又はプロセッサ内に存在してもよい。よって、メモリ及びプロセッサは、コンピュータ可読コードを運ぶコンピュータ可読キャリア媒体も構成する。更に、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成しても、又はそれに含まれてもよい。
【0064】
代替の例示的な実施形態では、1つ以上のプロセッサは、スタンドアロンのデバイスとして動作し、あるいは、ネットワーク化された配置において接続され、例えば、他のプロセッサへネットワーク接続されてもよく、1つ以上のプロセッサは、サーバ-ユーザネットワーク環境におけるサーバ又はユーザマシンとして、あるいは、ピア・ツー・ピア又は分散ネットワーク環境におけるピアマシンとして動作してもよい。1つ以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又は当該機械によって行われる動作を指定する命令の組を(順次又はそれ以外で)実行することができる任意の機械を形成してもよい。
【0065】
「機械」という用語は、本明細書で議論されているメソッドロジのいずれか1つ以上を実行するための命令の(組又は複数の組)を個別的に又は共同して実行する機械の任意の集合を含むとも考えられるべきであることに留意されたい。
【0066】
よって、本明細書で記載される方法の夫々の1つの例示的な実施形態は、命令の組、例えば、1つ以上のプロセッサ、例えば、ウェブサーバ配置の部分である1つ以上のプロセッサで実行されるコンピュータプログラムを運ぶコンピュータ可読キャリア媒体の形をとる。よって、当業者には理解されるように、本開示の例示的な実施形態は、方法、専用機器などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えば、コンピュータプログラム製品として具現されてよい。コンピュータ可読キャリア媒体は、1つ以上のプロセッサで実行される場合に、1つ以上のプロセッサに方法を実施させる命令の組を含むコンピュータ可読コードを運ぶ。従って、本開示の態様は、方法、全体としてハードウェアの例示的な実施形態、全体としてソフトウェアの例示的な実施形態、又はソフトウェア及びハードウェアを組み合わせた態様の例示的な実施形態の形を取ることができる。更に、本開示は、媒体で具現されたコンピュータ可読プログラムコードを運ぶキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の形を取ってもよい。
【0067】
ソフトウェアは更に、ネットワークインターフェースデバイスを介してネットワーク上で送信又は受信されてもよい。キャリア媒体が例示的な実施形態において単一の媒体である一方で、「キャリア媒体」という用語は、命令の1つ以上の組を記憶する単一の媒体又は複数の媒体(例えば、中央集権型若しくは分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含むと理解されるべきである。「キャリア媒体」という用語はまた、1つ以上のプロセッサによって実行される命令の組を記憶し、符号化し、又は運ぶことができ、1つ以上のプロセッサに本開示のメソッドロジのいずれか1つ以上を実行させる如何なる媒体も含むと理解されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限られない多くの形をとることができる。不揮発性媒体は、例えば、光学ディスク、磁気ディスク、及び光学磁気ディスクを含む。揮発性媒体は、メインメモリなどの動的メモリを含む。伝送媒体は、同軸ケーブル、銅線、及び光ファイバを含み、バスサブシステムを含む配線を含む。伝送媒体はまた、電波及び赤外線データ通信中に生成されるものなど、音波又は光波の形をとってもよい。例えば、「キャリア媒体」という用語は、それに応じて、ソリッドステートメモリ、光学及び磁気媒体に具現化されたコンピュータ製品、少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能であり、実行されると方法を実施する命令の組を表す伝播信号を有する媒体、並びに1つ以上のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であり、命令の組を表す伝播信号を有するネットワーク内の伝送媒体を含むがこれらに限られないと理解されるべきである。
【0068】
議論されている方法のステップは、1つの例示的な実施形態では、記憶装置に記憶されている命令(コンピュータ可読コード)を実行するプロセッシング(例えば、コンピュータ)システムの適切なプロセッサ(又は複数のプロセッサ)によって実行されることが理解される。また、本開示は、如何なる特定の実施又はプログラミング技術にも制限されず、本開示は、本明細書で記載される機能を実装する如何なる適切な技術も用いて実施されてよいことも理解される。本開示は、如何なる特定のプログラミング言語又はオペレーティングシステムにも制限されない。
【0069】
「1つの例示的な実施形態」、「いくつかの例示的な実施形態」又は「例示的な実施形態」への本開示中の言及は、例示的な実施形態に関連して記載されている特定の特徴、構造又は特徴が本開示の少なくとも1つの例示的な実施形態に含まれることを意味する。よって、本開示中の様々な場所での「1つの例示的な実施形態で」、「いくつかの例示的な実施形態で」又は「例示的な実施形態で」の出現は、必ずしも全てが同じ例示的な実施形態を参照しているわけではない。更に、特定の特徴、構造、又は特徴は、1つ以上の例示的な実施形態において、本開示から当業者には明らかであるように、如何なる適切な方法でも組み合わされてもよい。
【0070】
本明細書で使用されるように、別段指定されない限りは、共通のオブジェクトについて記載するための序数形容詞「第1」、「第2」、「第3」などの使用は、同じオブジェクトの異なるインスタンスが言及されていることを単に意味するものであり、そのように記載されているオブジェクトが時間的に、空間的に、順位付けにおいて、又は何らかの他の方法で所与の順序になければならないことを暗示する意図はない。
【0071】
以下の特許請求の範囲及び本明細書中の説明において、・・・を有する(comprising)、・・・から成る(comprised of)、又は・・・を有する・・・(which comprises)という用語のうちのいずれか1つは、その前にある要素/特徴を少なくとも含むが他を除外しないことを意味する非限定的な用語である。よって、有するという用語は、特許請求の範囲で使用される場合に、その前に挙げられている手段又は要素又はステップに限定するものとして解釈されるべきではない。例えば、A及びBを有するデバイス、という表現の範囲は、要素A及びBのみから成るデバイスに制限されるべきではない。本明細書で使用される、・・・を含む(including)、又は・・・を含む・・・(which includes)、又は・・・を含む・・・(that includes)という用語のうちのいずれか1つも、その用語の前にある要素/特徴を少なくとも含むが他を除外しないことをやはり意味する非限定的な用語である。よって、含むは、有すると同義であり、それを意味するものである。
【0072】
当然ながら、本開示の例示的な実施形態の上記の説明において、本開示の様々な特徴は、本開示を簡素化しかつ様々な発明態様の1つ以上の理解に役立つために、単一の実施形態、図、又はその説明においてまとめられることがある。しかし、開示のこの方法は、特許請求の範囲が各請求項で明示的に記載されているよりも多くの特徴を要求するという意図を反映しているものと解釈されるべきではない。むしろ、続く特許請求の範囲が反映するように、発明の態様は、単一の上記の開示された例示的な実施形態の全ての特徴にあるわけではない。よって、本明細書に続く特許請求の範囲は、これを持って本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。
【0073】
更に、本明細書に記載されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれるいくつかの特徴を含むが他を含まない一方で、異なる例示的な実施形態の特徴の組み合わせは、当業者に理解されるように、開示の範囲内にあり、異なる例示的な実施形態を形成するよう意図される。例えば、続く特許請求の範囲において、請求される例示的な実施形態のいずれも、任意の組み合わせで使用することができる。
【0074】
本明細書で提供される説明では、多数の具体的な詳細が示されている。しかしながら、本開示の例示的な実施形態は、これらの具体的な詳細なしに実施され得ることが理解される。他の例では、この説明の理解を曖昧にしないために、よく知られている方法、構造、及び技術は詳細には示されていない。
【0075】
よって、本開示の最良のモードであると信じられているものについて記載してきたが、当業者には理解されるように、他の及び更なる変更が、本開示の精神から逸脱せずにそれらに行われてもよく、全てのそのような変更及び変形が本開示の範囲内に入ることが意図される。例えば、上述された如何なる式も、使用される可能性があるプロシージャを代表しているに過ぎない。機能が追加されても、又はブロック図から削除されてもよく、動作は機能ブロックの間で入れ替えられてもよい。ステップが、本開示の範囲内で、記載される方法に追加又は削除されてもよい。特に、異なるレイアウトが、
図1aのハイレベル予測器構造を実現するために企図されてもよい。
【0076】
本発明の様々な態様は、列挙された例示的な実施形態(enumerated exemplary embodiment(s),EEE)の以下のリストから理解することができる。
【0077】
EEE1.
メディア信号の周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステムであって、
1つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第1の組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む時間予測部と、
前記現在の時間フレームにおいて前記特定の周波数帯域に隣接する1つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第2の組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む周波数予測部と、
前記出力変数の第1の組及び前記出力変数の第2の組に基づき、前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段と
を有するニューラルネットワークシステム。
【0078】
EEE2.
前記時間予測部によって予測された前記出力変数の第1の組は、前記周波数予測部への入力変数として使用される、
EEE1に記載のニューラルネットワークシステム。
【0079】
EEE3.
前記時間予測部は、複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワークを含み、
前記時間予測回帰ニューラルネットワークは、前記メディア信号の先行時間フレームを表す入力変数の第1の組を考慮して、前記現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている、
EEE2に記載のニューラルネットワークシステム。
【0080】
EEE4.
前記時間予測部は、前記メディア信号の先行時間フレームの周波数係数を考慮して前記入力変数の第1の組を予測するよう訓練されたニューラルネットワークを含む入力段を更に含む、
EEE3に記載のニューラルネットワークシステム。
【0081】
EEE5.
前記時間予測部は、前記出力変数の第1の組を予測するよう訓練された帯域ミキシングニューラルネットワークを更に含み、
前記中間の組の中の変数は、前記特定の周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される、
EEE4に記載のニューラルネットワークシステム。
【0082】
EEE6.
前記周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワークを含み、
前記周波数予測回帰ニューラルネットワークは、前記出力変数の第1の組と、前記現在の時間フレームのより低い周波数帯域を表す入力変数の第2の組との和を考慮して、前記出力変数の第2の組を予測するよう訓練されている、
EEE5に記載のニューラルネットワークシステム。
【0083】
EEE7.
前記周波数予測部は、前記出力変数の第2の組に基づき前記周波数係数の組を供給するよう訓練された1つ又は複数の出力レイヤを更に含む、
EEE6に記載のニューラルネットワークシステム。
【0084】
EEE8.
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、前記周波数係数の確率分布をパラメータ化するよう構成される、
EEE1に記載のニューラルネットワークシステム。
【0085】
EEE9.
前記確率分布は、ラプラス分布、ガウス分布、及びロジスティック分布、のうちの1つである、
EEE8に記載のニューラルネットワークシステム。
【0086】
EEE10.
前記周波数係数は、前記メディア信号の時間-周波数変換のビンに対応する、
EEE1に記載のニューラルネットワークシステム。
【0087】
EEE11.
前記周波数係数は、前記メディア信号のフィルタバンク表現のサンプルに対応する、
EEE1に記載のニューラルネットワークシステム。
【0088】
EEE12.
ターゲットメディア信号を表す生成モデルであって、
EEE3に記載のニューラルネットワークシステムと、
前記ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう訓練された条件付けニューラルネットワークと
を有し、
前記時間予測回帰ニューラルネットワークは、前記入力変数の第1の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
生成モデル。
【0089】
EEE13.
前記ニューラルネットワークシステムは、EEE6に記載の周波数予測回帰ニューラルネットワークを含み、
前記周波数予測回帰ニューラルネットワークは、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
EEE12に記載の生成モデル。
【0090】
EEE14.
前記条件付け変数の組は、前記ニューラルネットワークシステムの内部次元の2倍の数の変数を含み、
前記時間予測回帰ニューラルネットワーク及び前記周波数予測回帰ニューラルネットワークは夫々、前記条件付け変数の半数を供給される、
EEE13に記載の生成モデル。
【0091】
EEE15.
前記条件付け情報は、歪み周波数係数の組を含む、
EEE12に記載の生成モデル。
【0092】
EEE16.
前記条件付け情報は、知覚モデル係数の組を含む、
EEE15に記載の生成モデル。
【0093】
EEE17.
前記条件付け情報は、スペクトルエンベロープを含む、
EEE12に記載の生成モデル。
【0094】
EEE18.
前記条件付けニューラルネットワークは、周波数方向及び時間方向にわたって作動する2Dカーネルを備えた畳み込みニューラルねとワークを含む、
EEE12に記載の生成モデル。
【0095】
EEE19.
EEE7に記載のニューラルネットワークシステムを訓練する方法であって、
a)実際のメディア信号の前の時間フレームを表す周波数係数の組を前記入力変数の第1の組として供給するステップと、
b)前記ニューラルネットワークシステムを用いて、現在の時間フレームの特定の周波数帯域を表す周波数係数の組を予測するステップと、
c)前記実際のメディア信号の前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の真の組に対して、予測された前記周波数係数の組の測度(measure)を最小化するステップと
を有する方法。
【0096】
EEE20.
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、各周波数係数の確率分布をパラメータ化する、
EEE19に記載の方法。
【0097】
EEE21.
前記測度は、負の対数尤度(negative log-likelihood,NLL)である、
EEE20に記載の方法。
【0098】
EEE22.
EEE12に記載の生成モデルを訓練する方法であって、
a)実際のメディア信号の記述を前記条件付けニューラルネットワークへ条件付け情報として供給するステップと、
b)前記ニューラルネットワークシステムを用いて、現在の時間フレームの特定の周波数帯域を表す周波数係数の組を予測するステップと、
c)前記実際のメディア信号の前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の真の組に対して、予測された前記周波数係数の組の測度を最小化するステップと
を有する方法。
【0099】
EEE23.
前記記述は、前記実際のメディア信号を表す歪んだ周波数係数の組を含む、
EEE22に記載の方法。
【0100】
EEE24.
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、各周波数係数の確率分布をパラメータ化する、
EEE22に記載の方法。
【0101】
EEE25.
前記測度は、負の対数尤度(NLL)である、
EEE24に記載の方法。
【0102】
EEE26.
EEE13に記載の生成モデルを用いて、エンハンスメントされたメディア信号を取得する方法であって、
a)前記条件付けニューラルネットワークへ条件付け情報を供給するステップと、
b)現在の時間フレームの各周波数帯域について、前記周波数予測回帰ニューラルネットワークを用いて当該周波数帯域を表す周波数係数の組を予測し、前記周波数係数の組を前記入力変数の第2の組として前記周波数予測回帰ニューラルネットワークへ供給するステップと、
c)前記現在の時間フレームの全ての周波数帯域を表す予測された前記周波数係数の組を前記入力変数の第1の組として前記時間予測回帰ニューラルネットワークへ供給するステップと
を有する方法。
【0103】
EEE27.
前記条件付け情報は、前記実際のメディア信号を表す歪んだ周波数係数の組を含む、
EEE26に記載の方法。
【0104】
EEE28.
各周波数係数は、分布パラメータの組によって表され、前記分布パラメータの組は、各周波数係数の確率分布をパラメータ化し、当該方法は、
各隔離分布をサンプリングして周波数係数値を得るステップを更に有する、
EEE26に記載の方法。
【0105】
EEE29.
EEE12に記載の生成モデルを有するデコーダ。
【0106】
EEE30.
コンピュータによって実行される場合に、EEE12に記載の生成モデルを実施するコンピュータ可読プログラムコード部分を有するコンピュータプログラム製品。
【0107】
[関連出願への相互参照]
本願は、2020年10月16日付けで出願された米国特許仮出願第63/092,552号及び2020年11月10日付けで出願された欧州特許出願第20206729.4号に対する優先権を主張するものである。これらの先の出願の全部が、それらの全文を参照により本願に援用される。
【手続補正書】
【提出日】2023-04-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
メディア信号の周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステ
ムであって、
1つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの
時間予測された周波数帯域を表す出力変数の第1の
組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む時間予測
部と、
周波数予測部によって以前に予測された、前記現在の時間フレームに
おける1つ又は複数の隣接する
より低い周波数帯域の係数を考慮して
、周波数予測された周波数帯域を表す出力変数の第2の
組を予測するよう訓練された少なくとも1つのニューラルネットワークを含む
前記周波数予測
部と、
前記出力変数の第1の組及び前記出力変数の第2の組に基づき、前記現在の時間フレーム
の特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力
段と
を有
し、
前記特定の周波数帯域は、前記時間予測された周波数帯域及び前記周波数予測された周波数帯域のうちの少なくとも1つであり、
a)前記時間予測部によって予測された前記出力変数の第1の組が、前記周波数予測部への入力変数として使用されるか、あるいは、b)前記周波数予測部によって予測された前記出力変数の第2の組が、前記時間予測部への入力変数として使用される、
ニューラルネットワークシステム。
【請求項2】
a)前記時間予測部によって予測された前記出力変数の第1の組
が、前記周波数予測部への入力変数として使用され
、
前記時間予測された周波数帯域は、前記現在の時間フレームにおいて前記周波数予測された周波数帯域に隣接する、
請求項1に記載のニューラルネットワークシステム。
【請求項3】
b)前記周波数予測部によって予測された前記出力変数の第2の組が、前記時間予測部への入力変数として使用され、
前記時間予測された周波数帯域及び前記周波数予測された周波数帯域は、夫々、前の時間フレーム及び現在の時間フレームにおける同じ周波数帯域である、
請求項1に記載のニューラルネットワークシステム。
【請求項4】
前記時間予測部によって予測された前記出力変数の第1の組は、前記周波数予測部への入力変数として使用される、
請求項1乃至3のうちいずれか一項に記載のニューラルネットワークシステム。
【請求項5】
前記時間予測部は、
複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワー
クであって、前記メディア信号の先行時間フレームを表す入力変数の第1の組を考慮して、前記現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている
前記時間予測回帰ニューラルネットワークと、
前記出力変数の第1の組を予測するよう訓練された帯域ミキシングニューラルネットワークと
を有し、
前記中間の組の中の変数は、前記時間予測された周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される、
請求項1
乃至4のうちいずれか一項に記載のニューラルネットワークシステム。
【請求項6】
前記時間予測部は、前記メディア信号の先行時間フレームの周波数係数を考慮して前記入力変数の第1の組を予測するよう訓練されたニューラルネットワークを含む入力
段を更に含む、
請求項
5に記載のニューラルネットワークシステム。
【請求項7】
前記周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワー
クを含み、
前記周波数予測回帰ニューラルネットワークは、前記出力変数の第1の
組と、前記現在の時間フレームのより低い周波数帯域を表す入力変数の第2の組との和を考慮して、前記出力変数の第2の
組を予測するよう訓練されている、
請求項
4乃至
6のうちいずれか一項に記載のニューラルネットワークシステム。
【請求項8】
前記周波数予測部は、前記出力変数の第2の組に基づき前記周波数係数の組を供給するよう訓練された1つ又は複数の出力レイ
ヤを更に含む、
請求項
7に記載のニューラルネットワークシステム。
【請求項9】
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、前記周波数係数の確率分布をパラメータ化するよう構成され、
前記現在の時間フレームの前記特定の周波数帯域は、各周波数係数の前記確率分布をサンプリングすることによって取得される、
請求項1乃至
8のうちいずれか一項に記載のニューラルネットワークシステム。
【請求項10】
前記周波数係数は、前記メディア信号の時間-周波数変換のビンに対応し、あるいは、
前記周波数係数は、前記メディア信号のフィルタバンク表現のサンプルに対応する、
請求項1に記載のニューラルネットワークシステム。
【請求項11】
ターゲットメディア信号を表す生成モデルであって、
請求項
5に記載のニューラルネットワークシステ
ムと、
前記ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう訓練された条件付けニューラルネットワー
クと
を有し、
前記条件付け情報は、前記ターゲットメディア信号を記述する量子化された周波数係数を含み、
前記時間予測回帰ニューラルネットワー
クは、前記入力変数の第1の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
生成モデル。
【請求項12】
前記ニューラルネットワークシステムは、請求項
7に記載の周波数予測回帰ニューラルネットワー
クを含み、
前記周波数予測回帰ニューラルネットワー
クは、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
請求項
11に記載の生成モデル。
【請求項13】
前記条件付け情報は、歪み周波数係数の組、知覚モデル係数の組、及びスペクトルエンベロープ、のうちの少なくとも1つを含む、
請求項
11又は
12に記載の生成モデル。
【請求項14】
請求項
11に記載の生成モデルを用いて、エンハンスメントされたメディア信号を取得する方法であって、
a)前記条件付けニューラルネットワークへ条件付け情報を供給するステッ
プと、
b)現在の時間フレームの各周波数帯域について、周波数予測回帰ニューラルネットワークを用いて当該周波数帯域を表す周波数係数の組を予測
し、前記周波数係数の組を入力変数の第2の組として前記周波数予測回帰ニューラルネットワークへ供給す
るステップと、
c)前記現在の時間フレームの全ての周波数帯域を表す予測された前記周波数係数の組を前記入力変数の第1の組として前記時間予測回帰ニューラルネットワークへ供給するステッ
プと
を有する方法。
【請求項15】
請求項
11に記載の生成モデルを有するデコーダ。
【請求項16】
コンピュータによって実行される場合に、請求項
11乃至
13のうちいずれか一項に記載の生成モデルを実施するコンピュータ可読プログラムコード部分を有するコンピュータプログラム。
【国際調査報告】