特表2023-546082 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2023-546082一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-01

(54)【発明の名称】一般的なメディアのためのニューラルネットワーク予測器及びそのような予測器を含む生成モデル

(51)【国際特許分類】

G10L 19/04 20130101AFI20231025BHJP

G10L 25/30 20130101ALI20231025BHJP

【ＦＩ】

G10L19/04

G10L25/30

【審査請求】有

【予備審査請求】有

(21)【出願番号】P 2023522846

(86)(22)【出願日】2021-10-12

(85)【翻訳文提出日】2023-04-13

(86)【国際出願番号】 US2021054617

(87)【国際公開番号】W WO2022081599

(87)【国際公開日】2022-04-21

(31)【優先権主張番号】63/092,552

(32)【優先日】2020-10-16

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】20206729.4

(32)【優先日】2020-11-10

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(71)【出願人】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ジョウ，ツォーン

(72)【発明者】

【氏名】ヴィントン，マーク，エス

(72)【発明者】

【氏名】ダヴィッドソン，グラント，エー．

(72)【発明者】

【氏名】ヴィレモース，ラルス

(57)【要約】

メディア信号の周波数係数を予測するためのニューラルネットワークシステムであって、１つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第１の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む時間予測部と、現在の時間フレームにおいて特定の周波数帯域に隣接する１つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第２の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む周波数予測部とを有するニューラルネットワークシステム。そのようなニューラルネットワークシステムは、メディア信号の時間－周波数タイルで現れる時間依存性及び周波数依存性の両方を捕捉することができる予測器を形成する。

【特許請求の範囲】

【請求項1】

メディア信号の周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステム（１０）であって、
１つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第１の組（１６）を予測するよう訓練された少なくとも１つのニューラルネットワークを含む時間予測部（８）と、
前記現在の時間フレームにおいて前記特定の周波数帯域に隣接する１つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第２の組（２０）を予測するよう訓練された少なくとも１つのニューラルネットワークを含む周波数予測部（９）と、
前記出力変数の第１の組及び前記出力変数の第２の組に基づき、前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段（２１，２２）と
を有するニューラルネットワークシステム。

【請求項2】

前記時間予測部によって予測された前記出力変数の第１の組（１６）は、前記周波数予測部への入力変数として使用される、
請求項１に記載のニューラルネットワークシステム。

【請求項3】

前記時間予測部は、複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワーク（１３）を含み、
前記時間予測回帰ニューラルネットワークは、前記メディア信号の先行時間フレームを表す入力変数の第１の組を考慮して、前記現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている、
請求項１又は２に記載のニューラルネットワークシステム。

【請求項4】

前記時間予測部は、前記メディア信号の先行時間フレームの周波数係数を考慮して前記入力変数の第１の組を予測するよう訓練されたニューラルネットワークを含む入力段（１１）を更に含む、
請求項３に記載のニューラルネットワークシステム。

【請求項5】

前記時間予測部は、前記出力変数の第１の組を予測するよう訓練された帯域ミキシングニューラルネットワーク（１５）を更に含み、
前記中間の組の中の変数は、前記特定の周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される、
請求項４に記載のニューラルネットワークシステム。

【請求項6】

前記周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワーク（１９）を含み、
前記周波数予測回帰ニューラルネットワークは、前記出力変数の第１の組（１６）と、前記現在の時間フレームのより低い周波数帯域を表す入力変数の第２の組との和を考慮して、前記出力変数の第２の組（２０）を予測するよう訓練されている、
請求項２乃至５のうちいずれか一項に記載のニューラルネットワークシステム。

【請求項7】

前記周波数予測部は、前記出力変数の第２の組に基づき前記周波数係数の組を供給するよう訓練された１つ又は複数の出力レイヤ（２１，２２）を更に含む、
請求項６に記載のニューラルネットワークシステム。

【請求項8】

各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、前記周波数係数の確率分布をパラメータ化するよう構成され、
前記現在の時間フレームの前記特定の周波数帯域は、各周波数係数の前記確率分布をサンプリングすることによって取得される、
請求項１乃至７のうちいずれか一項に記載のニューラルネットワークシステム。

【請求項9】

前記周波数係数は、前記メディア信号の時間－周波数変換のビンに対応し、あるいは、
前記周波数係数は、前記メディア信号のフィルタバンク表現のサンプルに対応する、
請求項１に記載のニューラルネットワークシステム。

【請求項10】

ターゲットメディア信号を表す生成モデルであって、
請求項３に記載のニューラルネットワークシステム（１０）と、
前記ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう訓練された条件付けニューラルネットワーク（４１）と
を有し、
前記条件付け情報は、前記ターゲットメディア信号を記述する量子化された周波数係数を含み、
前記時間予測回帰ニューラルネットワーク（１３）は、前記入力変数の第１の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
生成モデル。

【請求項11】

前記ニューラルネットワークシステムは、請求項６に記載の周波数予測回帰ニューラルネットワーク（１９）を含み、
前記周波数予測回帰ニューラルネットワーク（１９）は、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
請求項１０に記載の生成モデル。

【請求項12】

前記条件付け情報は、歪み周波数係数の組、知覚モデル係数の組、及びスペクトルエンベロープ、のうちの少なくとも１つを含む、
請求項１０又は１１に記載の生成モデル。

【請求項13】

請求項１０に記載の生成モデルを用いて、エンハンスメントされたメディア信号を取得する方法であって、
ａ）前記条件付けニューラルネットワークへ条件付け情報を供給するステップ（ステップＳ１１）と、
ｂ）現在の時間フレームの各周波数帯域について、周波数予測回帰ニューラルネットワークを用いて当該周波数帯域を表す周波数係数の組を予測し（ステップＳ１２）、前記周波数係数の組を入力変数の第２の組として前記周波数予測回帰ニューラルネットワークへ供給する（ステップＳ１３）ステップと、
ｃ）前記現在の時間フレームの全ての周波数帯域を表す予測された前記周波数係数の組を前記入力変数の第１の組として前記時間予測回帰ニューラルネットワークへ供給するステップ（ステップＳ１５）と
を有する方法。

【請求項14】

請求項１０に記載の生成モデルを有するデコーダ。

【請求項15】

コンピュータによって実行される場合に、請求項１０乃至１２のうちいずれか一項に記載の生成モデルを実施するコンピュータ可読プログラムコード部分を有するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、メディア、特にオーディオ、のための生成モデルに関係がある。具体的には、本発明は、メディア信号の周波数コンテンツを表す周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステムに関係がある。

【背景技術】

【0002】

高品質メディア（特にオーディオ）のための生成モデル（generative model）は、多くの応用を可能にすることができる。ロー波形（raw waveform）生成モデルは、特定の信号カテゴリ、例えば、スピーチ及びピアノ、内で高品質オーディオを実現可能であることを証明してきたが、一般的な（general）オーディオの品質は依然として不足している。

【0003】

近年、例えば、下記の非特許文献１で議論されているように、ロー波形領域から離れようとする試みがなされている。

【0004】

それでもなお、より一層の改善が有益であり得る。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Vaquez及びLewis，“MelNet: A Generative Model for Audio in the Frequency Domain”，２０１９年

【発明の概要】

【0006】

上記に基づき、従って、本発明の目的は、一般的なメディア、特にオーディオ、つまり、スピーチ又はピアノ音楽のような特定のカテゴリのオーディオだけでなく、オーディオ全般のための改善された生成モデルを提供することである。

【0007】

本発明の第１の態様に従って、この及び他の目的は、メディア信号の周波数係数を予測するためのニューラルネットワークシステムであって、
１つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第１の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む時間予測部と、
前記現在の時間フレームにおいて特定の周波数帯域に隣接する１つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第２の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む周波数予測部と、
前記出力変数の第１の組及び前記出力変数の第２の組に基づき、前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段と
を有するニューラルネットワークシステムによって達成される。

【0008】

このようなニューラルネットワークシステムは、メディア信号の時間－周波数タイルで現れる時間依存性及び周波数依存性の両方を捕捉することができる予測器を形成する。周波数予測部は、周波数依存性、例えば、調波構造を捕捉するよう設計される。

【0009】

そのような予測器は、オーディオコーディングアプリケーションにおけるニューラルネットワークデコーダとして有望な結果を示している。更には、そのようなニューラルネットワークは、帯域幅拡張、パケット損失補間（packet loss concealment）、及びスピーチエンハンスメントなどの他の信号処理アプリケーションでも利用することができる。

【0010】

時間及び周波数に基づいた予測は、原則として、如何なる順序でも、又は組み合わせてさえ、実行され得る。しかし、典型的なオンラインアプリケーションでは、フレームごとの処理により、通常は、時間予測が最初に（多数の前のフレームに対して）行われ、この予測の出力が周波数予測で使用されることになる。

【0011】

一実施形態に従って、時間予測部は、複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワークを含み、前記時間予測回帰ニューラルネットワークは、メディア信号の先行時間フレームを表す入力変数の第１の組を考慮して、現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている。

【0012】

同様に、いくつかの実施形態に従って、周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワークを含み、前記周波数予測回帰ニューラルネットワークは、前記出力変数の第１の組と、現在の時間フレームのより低い周波数帯域を表す入力変数の第２の組との和を考慮して、前記出力変数の第２の組を予測するよう訓練されている。

【0013】

回帰ニューラルネットワークは、このコンテキストにおいて特に有用であることを示している。

【0014】

時間予測部はまた、前記出力変数の第１の組を予測するよう訓練された帯域ミキシングニューラルネットワークであってもよく、中間の組の中の変数は、前記特定の周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される。

【0015】

このような帯域ミキシングニューラルネットワークは、交差帯域予測（cross-band prediction）を実行し、それによってエイリアシング歪み（aliasing distortion）を回避（又は少なくとも低減）する。

【0016】

各周波数係数は、分布パラメータの組によって表されてもよく、前記分布パラメータの組は、周波数係数の確率分布をパラメータ化するよう構成される。確率分布は、ラプラス分布、ガウス分布、及びロジスティック分布、のうちの１つであってよい。

【0017】

本発明の第２の態様は、ターゲットメディア信号を生成する生成モデルであって、第１の態様に係るニューラルネットワークシステムと、ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう構成される条件付けニューラルネットワークとを有する生成モデルに関する。

【0018】

時間予測部が時間予測回帰ニューラルネットワークを含む場合に、時間予測回帰ニューラルネットワークは、前記入力変数の第１の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成され得る。

【0019】

周波数予測部が周波数予測回帰ニューラルネットワークを含む場合に、周波数予測回帰ニューラルネットワークは、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成され得る。

【0020】

条件付け情報は、量子化された（又は別なふうに歪んだ）周波数係数を含んでよく、それによって、ニューラルネットワークシステムは、メディア信号を表す逆量子化された（又は別なふうにエンハンスメントされた）周波数係数を予測することができる。

【0021】

いくつかの応用で、例えば、一般的なオーディオコーデックにおけるニューラルネットワークに基づいたデコーダで、量子化された周波数係数は、知覚モデルから導出された知覚モデル係数の組と結合されてもよい。このような条件付け情報は予測を更に改善し得る。

【0022】

実証研究では、このような生成モデルは、一般的なオーディオコーディングアプリケーションに実装されているため、量子化されたＭＤＣＴビンを入力として受け取り、逆量子化されたＭＤＣＴビンを予測する。スペクトルホールが尤もらしい構造で埋められ、量子化誤差が予測で除かれることが示されている。２０ｋｂ／ｓで動作する本発明の第２の態様に係る生成モデルを使用している“ディープオーディオコーデック”のＭＵＳＨＲＡスタイルの主観的評価では、異なるビットレートでのいくつかの従来技術のコーデックと比較して、“ディープオーディオコーデック”は３２ｋｂ／ｓでのＭＰＥＧ－４ＡＡＣコーデックと全体的に同等と評価された。これは、３７％のビットレートの節約に相当する。

【0023】

本発明の第３の態様は、本発明の第２の態様に従う生成モデルを用いて、エンハンスメントされたメディア信号を推測する方法に関する。

【0024】

本発明の第４の態様は、本発明の第１の態様に従うニューラルネットワークシステムを訓練する方法に関する。

【0025】

本発明は、発明の現在好ましい実施形態を示す添付の図面を参照して、より詳細に記載される。

【図面の簡単な説明】

【0026】

【図1a】本発明の実施形態に係る時間／周波数予測器のハイレベル構造を示す。

【図1b】本発明の実施形態に係る時間／周波数予測器のハイレベル構造を示す。

【図2】図１ａの構造を実装するニューラルネットワークシステムを示す。

【図3】自己生成モードで動作する図２のニューラルネットワークシステムを示す。

【図4】図２のニューラルネットワークシステムを含む生成モデルを示す。

【図5】“教師強制モード”での訓練を示す。

【図6】どのように生成モデルが動作するかを示す。

【発明を実施するための形態】

【0027】

図１ａ及び図１ｂは、本発明の実施形態に係る時間／周波数予測器１のハイレベル構造の２つの例を模式的に表す。予測器は、メディア（例えば、オーディオ）信号の周波数コンテンツを表す周波数係数に作用する。周波数係数は、離散コサイン変換（Discrete Cosine Transform，ＤＣＴ）又は修正離散コサイン変換（Modified Discrete Cosine Transform，ＭＤＣＴ）などの、メディア信号の時間－周波数変換のビンに対応してよい。代替的に、周波数係数は、メディア信号のフィルタバンク表現、例えば、直交ミラーフィルタ（Quadrature Mirror Filter，ＱＭＦ）フィルタバンクのサンプルに対応してもよい。

【0028】

図１ａでは、前の時間フレームの周波数係数（本願では「ビン」（bins）と呼ばれることがある。）が最初に、予め選択された数（Ｂ個）の周波数帯域にグループ分けされる。次いで、予測器１は、前の全ての時間フレーム３から集められた帯域コンテキストに基づき、現在の時間フレームｔ内のターゲット帯域ｂのビン２を予測する。次いで、予測器１は、より低い全ての帯域及びより高いＮ個の帯域（つまり、帯域１・・・ｂ＋Ｎ）に基づき、ターゲット帯域ｂのビン２を予測する。なお、Ｎは１からＢ－１の間である。図１ａでは、Ｎは１に等しく、つまり、ただ１つの、より高い帯域ｂ＋１のみが、考慮される。最後に、予測器１は、現在の時間フレームｔ内の全てのより低い（前に予測された）周波数帯域５に基づき、ターゲット帯域ｂでのビン２を予測する。

【0029】

周波数係数（例えば、ＭＤＣＴビン）Ｘ_ｔ（ｂ）の同時確率密度（joint probability density）は、条件付き確率の積として表現することができる：

【数1】

ここで、Ｘ_ｔ（ｂ）は、時間ｔでの帯域ｂの係数のグループを表し、Ｎは、両側に隣接している隣接帯域（より高い帯域及びより低い帯域）の数を表し、Ｘ_{１・・・ｔ－１}（１・・・ｂ＋Ｎ）は、時間ｔから時間ｔ－１までの帯域１からｂ＋Ｎの係数を表し、最後に、Ｘ_ｔ（１・・・ｂ－１）は、時間ｔ１での帯域１から帯域ｂ－１のビンを表す。

【0030】

図１ａの予測器の上記の説明から明らかであるように、予測は最初に時間領域で、次いで周波数領域で行われる。これは、多く他のアプリケーションで、例えば、オーディオデコーダで、ごく普通であり、予測は、通常は、信号の次のフレームについてリアルタイムで行われる。

【0031】

一般的に言えば、しかしながら、例えば、信号全体がオフラインで利用可能である場合に、時間／周波数予測器は逆の順序で動作することができる。この、やや直感的でないプロセスは、図１ｂに表されている。

【0032】

ここで、最初に、より低い帯域の夫々でのビンは、Ｔ個の時間フレームの組にグループ化される。次いで、予測器１’は、より低い全ての周波数帯域３’から集められた帯域コンテキストに基づき、現在の（次の、より高い）周波数帯域ｂ内のターゲットフレームｔのビン２’を予測する。次いで、予測器１’は、全ての先行する時間フレーム及びＮ個の後続（将来）の時間フレーム（つまり、フレーム１・・・ｔ＋１）におけるより低い周波数に基づき、ターゲットフレームｔのビン２’を予測する。なお、Ｎは、ここでは１からＴ－ｔの間であり、Ｎは先と同じく１に等しく、つまり、１つの後続（将来）のフレームが考慮される。最後に、予測器１’は、現在の周波数帯域ｂ内の全ての先行する（前に予測された）時間フレーム５’に基づき、ターゲットフレームｔ内のビン２’を予測する。

【0033】

ニューラルネットワークシステム１０での図１ａの予測器の実装の例は、図２においてブロック図として表されている。以下で詳細に説明されるように、ネットワークシステム１０は、時間予測部８及び周波数予測部９を有する。

【0034】

時間予測部８において、畳み込みネットワーク１１は、前のフレームＸｔ－１の周波数変換係数（ビン）を受け取り、周波数ビンの畳み込みを実行してそれらをＢ個の帯域１２にグループ分けする。一例として、Ｂは３２に等しい。１つの実施では、畳み込みネットワーク１１は、１６に等しいカーネル及び８に等しいストライド（つまり、５０％のオーバーラップ）を有する畳み込みレイヤとして実装される。

【0035】

帯域１２は、ここではゲート付き回帰型ユニット（Gated Recurrent Units，ＧＲＵ）の形をとる回帰レイヤの組を含む時間予測回帰ニューラルネットワーク（Recurrent Neural Network，ＲＮＮ）１３に供給される。長・短期記憶（Long Short-Term Memories，ＬＳＴＭ）、疑似回帰ニューラルネットワーク（Quasi-Recurrent Neural Networks，ＱＲＮＮ）、双方向回帰型ユニット（Bidirectional recurrent units）、連続時間回帰ニューラルネットワーク（Continuous Time Recurrent Neural Networks，ＣＴＲＮＮ）などのような他の回帰ニューラルネットワークも使用されてよい。ネットワーク１３は、Ｂ個の帯域を別々に、しかし、共有された重みを用いて処理し、現在の（予測されている）時間フレームの各周波数帯域について個別的な隠れ状態（hidden states）１４を取得する。各隠れ状態１４は出力変数の組を含み、その組のサイズは、ＲＮＮ１３内のレイヤの内部次元によって決定される。表されている例では、内部次元は１０２４であるから、現在の（予測されている）時間フレームの各周波数帯域を表す１０２４個の変数が存在する。Ｂ＝３２によれば、よって、ＲＮＮ１３から出力された３２×１０２４個の変数が存在する。

【0036】

次いで、Ｂ個の隠れ状態１４は他の畳み込みネットワーク１５へ供給され、畳み込みネットワーク１５は、交差帯域予測（cross-band prediction）ｐ（Ｘ_ｔ（ｂ）｜Ｘ_{１・・・ｔ－１}（１・・・ｂ＋Ｎ））を達成するために、より低い全ての帯域及びより高いＮ個の帯域（つまり、隣接する隠れ状態）の変数をミキシングする。１つの実施では、畳み込みネットワーク１５は、帯域次元に沿った単一の畳み込みレイヤとして実装され、カーネル長さは、Ｎ個のより低い帯域及びＮ個のより高い帯域を有して、２Ｎ＋１である。他の実施では、畳み込みレイヤカーネル長は、１つのより低い帯域及びＮ個のより高い帯域を有して、Ｎ＋２である。出力（隠れ状態）１６は、先と同じくＢ組の出力変数であり、各組のサイズは、内部次元によって決定される。目下の場合では、先と同じく３２×１０２４個の変数がネットワーク１５から出力される。

【0037】

周波数予測部９において、現在の（予測されている）時間フレームを表す隠れ状態１６は、合算点１７へ供給される。１×１畳み込みレイヤ１８は、前の帯域Ｘ_ｔ（１）・・・Ｘ_ｔ（ｂ－１）の周波数係数を受け取り、それらをシステムの内部次元、つまり、目下の場合では１０２４に投影する。

【0038】

合算点１７の出力は、ここではゲート付き回帰型ユニット（ＧＲＵ）の形をとる回帰レイヤの組を含む回帰ニューラルネットワーク（ＲＮＮ）１９に供給される。先と同じく、長・短期記憶（ＬＳＴＭ）、疑似回帰ニューラルネットワーク（ＱＲＮＮ）、連続時間回帰ニューラルネットワーク（ＣＴＲＮＮ）などのような他の回帰ニューラルネットワークも使用されてよい。ＲＮＮ１９は、合計出力を取得し、Ｘ_ｔ（ｂ）を表す出力変数（隠れ状態）の組２０を予測する。最後に、２つの１×１畳み込みレイヤ（夫々、出力次元１０２４及び１６）の形をとる２つの出力レイヤ２１、２２は、各畳み込みレイヤの前にＲｅＬＵ活性化を有して、最終予測スキームｐ（Ｘ_ｔ（ｂ）｜Ｘ_{１・・・ｔ－１}（１・・・ｂ＋Ｎ），Ｘ_ｔ（ｔ・・・ｂ－１））に従って、Ｘ_ｔ（ｂ）の最終的な予測を供給する働きをする。ＲＮＮ１９の隠れ状態２０は、新しい時間スタンプごとにリセットされる。

【0039】

一実施形態において、各周波数係数は２つのパラメータによって表され、例えば、システムは、ラプラス分布のパラメータμ（位置）及びｓ（スケール）を予測し得る。１つの実施では、ｌｏｇ（ｓ）が、計算安定性のために、ｓの代わりに使用される。他の実施では、ロジスティック分布又はガウス分布が、パラメータ化のためのターゲット分布として選択され得る。従って、最後の出力レイヤ２２の出力次元はビンの数の２倍である。目下の場合に、レイヤ２２の出力次元は１６であり、各周波数帯域内の８つのビンに対応する。

【0040】

他の実施形態においては、周波数係数は分布の混合としてパラメータ化され、各パラメータ化された分布は個々の（正規化された）重みを有する。その場合に、各係数は、（分布の数）×（分布パラメータの数＋１）個のパラメータによって表される。例えば、２つのラプラス分布（夫々２つのパラメータを有する。）を混合する具体的な場合において、各係数は、２×（２＋１）＝６個のパラメータによって表される（重み（ｗ１及びｗ２）、位置（μ１及びμ２）、及びスケール（ｓ１及びｓ２）の２つの組，なお、Ｗ１＋ｗ２＝１）。出力レイヤ２２の出力次元は、その場合に８×６＝４８である。上述された実施形態は、ただ１つの分布及び１に等しい重みを有する特別な場合である。

【0041】

図５を参照して、ニューラルネットワークシステム１０の訓練は、“教師強制モード”（teacher forcing mode）で行われ得る。最初に、ステップＳ１で、“実際の”（既知の）メディア信号を表すグラウンドトゥルース（ground truth）周波数係数が畳み込みネットワーク１１及び畳み込みレイヤ１８へ夫々供給される。現在の時間フレームの
（外１）

の確率分布が次いでステップＳ２で予測される。ステップＳ３で、訓練測度を決定するために、
（外２）

は、実際の信号の実際のビンＸ_ｔ（ｂ）と比較される。最後に、ステップＳ４で、様々なニューラルネットワーク１１、１３、１５、１８、１９、２１、２２のパラメータ（重み及びバイアス）が、訓練測度を最小化するように選択される。一例として、最小化されるべき訓練測度は、負の対数尤度（Negative Log-Likelihood，ＮＬＬ）であってよく、例えば、ラプラス分布の場合では：

【数2】

と表される。ここで、μ及びｓは、モデル出力予測であり、ｙは、実際のビン値である。ＮＬＬは、ガウス分布モデル又は混合分布モデルの場合にわずかに異なって見える。

【0042】

図３は、“自己生成”（self-generation）モードとしても知られている推論モードにおいて図２のニューラルネットワークシステム１０を表し、
（外３）

は、新しい予測を引き続き生成するよう履歴として使用される。図３のニューラルネットワークシステムは自己生成予測器３０と呼ばれる。このような予測器は、予測器によって生成された予測に基づき予測誤差を計算するためにエンコーダで使用することができる。予測誤差は、量子化され、残差誤差としてビットストリームに含まれ得る。デコーダでは、予測された結果が、次いで、量子化された誤差に加えられて、最終結果が得られる。

【0043】

ここで、予測器３０は２つのフィードバック経路３１、３２、すなわち、システムの時間予測部８のための第１フィードバック経路３１、及びシステムの周波数予測部９のための第２フィードバック経路３２を含む。

【0044】

より具体的には、
（外４）

は、
（外５）

に加えられ、それにより、それは
（外６）

を含む。これらの帯域は、
（外７）

を予測するために、畳み込みネットワーク１８へ、次いで合算点１７へ入力として供給される。

【0045】

（外８）

の全ての帯域が予測されると、
（外９）

の予測を可能にするために、このフレームの全体が畳み込みネットワーク１１へ入力として供給される。

【0046】

μ及びｓが提案されているニューラルネットワークからの予測されたパラメータであるとすれば、サンプリング動作３３が、予測されたビン値を取得するために必要とされる。サンプリング動作は、次のように書くことができる：

【数3】

ここで、バーＸは、予測されたビン値であり、Ｆ（）は、予め選択された分布によって決定されるサンプリング関数であり、ｕは、一様分布からのランダムサンプルである。例えば、ラプラス分布の場合には：

【数4】

である。

【0047】

サンプリング誤差の累積を減らすよう、Ｆ（）は、“切り捨て”（truncation）及び“温度”（temperature）（例えば、ｓの重み付け）により適応されてもよい。１つの実施では、“切り捨て”は、サンプリング出力を（μ－４＊ｓ，μ＋４＊ｓ）に制限するサンプリングｕ～Ｕ（－０．４９，０．４９）によって行われる。他の実施形態では、μは直接取得される（最大サンプリング）。“温度”は、ｓに重みｗを乗じることによって行われてよく、１つの実施では、重みｗは、例えば、スペクトルエンベロープ及び帯域トナリティ（tonality）を含む、ターゲット信号に関する事前知識によって、制御することができる。

【0048】

ニューラルネットワークシステム１０は、図１ａに示されている予測器を具現化し、適切な条件付け信号によって有利に条件付けされてよい：

【数5】

ここで、ｃは、例えば、量子化された（又は別なふうに歪んだ）
（外１０）

を含む条件付け信号を表す。

【0049】

図４は、そのような条件付き予測器を用いてターゲットメディア信号を生成する生成モデル４０を示す。図４のモデル４０は、図３に従う自己生成ニューラルネットワークシステム３０及び条件付けニューラルネットワーク４１を含む。

【0050】

条件付けニューラルネットワーク４１は、ターゲットメディア信号を記述する条件付け情報４２を考慮して条件付け変数の組を予測するよう訓練される。条件付けニューラルネットワーク４１は、ここでは、２Ｄカーネル（周波数方向及び時間方向）を有する２Ｄ畳み込みニューラルネットワークである。

【0051】

表されている場合において、条件付け情報４２は２チャンネルであり、量子化された周波数係数と、知覚モデル係数の組とを含む。
（外１１）

は、ターゲットメディア信号の時間フレームｔ及びｎ個の先読み（look-ahead）フレームを表す。知覚モデル係数ｐＥｎｖＱの組は、オーディオコーデックシステムで現れるもののような知覚モデルから導出され得る。知覚モデル係数ｐＥｎｖＱは、帯域ごとに計算され、望ましくは、処理を容易にするよう周波数係数と同じ分解能にマッピングされる。

【0052】

表されている実施形態では、条件付けニューラルネットワークは、
（外１２）

及びｐＥｎｖＱを連結させるよう構成され、条件付けニューラルネットワーク４１は、連結された入力を取り、ニューラルネットワークシステム３０の内部次元（例えば、目下の例では２×１０２４）の２倍である次元で出力を供給する。分配器４３は、特徴チャンネル次元に沿って“倍長”（double-length）出力チャンネルを分割するよう配置される。出力変数の半分は、時間予測回帰ニューラルネットワーク１３に接続されている入力変数に追加される。出力変数の残り半分は、周波数予測回帰ニューラルネットワーク１９へ接続されている入力変数に追加される。分配動作は全体的な最適化パフォーマンスに役立つことが経験的に示されている。

【0053】

代替的に、条件付けニューラルネットワーク４１は、予測器４０と同じ次元で動作するよう構成され、１０２４個の出力変数のみを出力する。その場合に、分配器は不要であり、同じ条件付け変数が回帰ニューラルネットワーク１３及び１９へ供給される。

【0054】

再び、図５を参照して、生成モデル４０の訓練も“教師強制モード”で行われ得る。最初に、ステップＳ１で、“実際の”（既知の）メディア信号を表すグラウンドトゥルース周波数係数が条件付けニューラルネットワーク４１へ条件付け情報として供給される。この場合に、周波数係数は、実際の実施と同じように、最初に量子化されるか、又は別なふうに歪ませられる。次いで、ステップＳ２で、現在の時間フレームの
（外１３）

の確率分布が予測される。ステップＳ３で、訓練測度を決定するために、
（外１４）

は、実際の信号の実際のビンＸ_ｔ（ｂ）と比較される。最後に、ステップＳ４で、様々なニューラルネットワーク１１、１３、１５、１８、１９、２１、２２、及び４１のパラメータ（重み及びバイアス）が、訓練測度が最小化されるように選択される。一例として、最小化されるべき訓練測度は、負の対数尤度（ＮＬＬ）であってよく、例えば、ラプラス分布の場合では：

【数6】

【0055】

生成モデル４０は、例えば、量子化された（又は別なふうに歪んだ）入力信号をエンハンスメントするために、デコーダで有利に実装されてよい。具体的に、復号化パフォーマンスは、同量のコーディングパラメータで、又は削減された量のコーディングパラメータでさえ、改善され得る。例えば、入力信号のスペクトル空隙はニューラルネットワークによって埋められ得る。前述のように、生成モデルは変換領域で動作してもよく、これはデコーダにおいて特に有用であり得る。

【0056】

使用中、生成モデル４０は、図６で表されているように動作する。最初に、ステップＳ１１で、条件付け情報、例えば、量子化された周波数係数の組及びデコーダによって受け取られる知覚モデルデータは、条件付けニューラルネットワーク４１へ供給される。次いで、ステップＳ１２及びＳ１３で、現在のフレームｔの特定の帯域ｂの
（外１５）

が予測され、周波数予測ＲＮＮ１９への入力として供給される。ステップＳ１４で、ステップＳ１２及びＳ１３は、現在のフレーム内の各周波数帯域について繰り返される。ステップＳ１５で、
（外１６）

の予測された周波数係数は時間予測ＲＮＮ１３へ供給され、それによって、次のフレームの連続した予測を可能にする。

【0057】

上記において、入力オーディオサンプルのオーディオ品質の表れ（indication）を決定するためのディープラーニングに基づいたシステムを訓練し動作させる可能な方法とともに、そのようなシステムの可能な実施が記載されてきた。追加的に、本開示は、それらの方法を実行する装置にも関係がある。このような装置の例は、プロセッサ（例えば、中央演算処理装置（Central Processing Unit，ＣＰＵ）、グラフィクス処理ユニット（Graphics Processing Unit，ＧＰＵ）、デジタル信号プロセッサ（Digital Signal Processor，ＤＳＰ）、１つ以上の特定用途向け集積回路（Application Specific Integrated Circuits，ＡＳＩＣ）、１つ以上の無線周波数集積回路（Radio-Frequency Integrated Circuits，ＲＦＩＣ）、又はそれらの任意の組み合わせ）及びプロセッサに結合されているメモリを有してよい。プロセッサは、本開示にわたって記載されている方法のステップの一部又は全部を実行するよう適応されてよい。

【0058】

装置は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、パーソナルデジタルアシスタント（ＰＤＡ）、セルラー電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又は当該装置によって行われる動作を指定する命令を（順次又はそれ以外で）実行可能な任意のマシンであってよい。更に、本開示は、本明細書で議論されているメソッドロジのいずれか１つ以上を実行するよう個別的に又は共同して命令を実行する装置の任意の集合に関係があるべきである。

【0059】

本開示は更に、プロセッサによって実行される場合に、プロセッサに、本明細書で記載されている方法のステップの一部又は全部を実行させる命令を有するプログラム（例えば、コンピュータプログラム）に関係がある。

【0060】

また更に、本開示は、上記のプログラムを記憶しているコンピュータ可読（又はマシン可読）記憶媒体に関係がある。ここで、「コンピュータ可読記憶媒体」という用語は、例えば、ソリッドステートメモリ、光学媒体、及び磁気媒体の形をとるデータリポジトリを含むが、それに限られない。

【0061】

特に別なふうに述べられない限りは、以下の議論から明らかなように、本開示にわたって、「処理する」（processing）、「計算する」（computing）、「計算する」（calculating）、「決定する」（determining）、「解析する」（analyzing）、などのような用語を利用している議論は、物理的な、例えば電子的な量として表されているデータを、物理的な量として同様に表される他のデータとして操作及び／又は変換するコンピュータ若しくはコンピューティングシステム又は同様の電子計算装置の動作及び／又はプロセスを指すことが理解される。

【0062】

同様に、「プロセッサ」という用語は、例えば、レジスタ及び／又はメモリからの電子データを処理して、その電子データを、例えば、レジスタ及び／又はメモリに記憶され得る他の電子データに変換する任意のデバイス又はデバイスの部分を指すことができる。「コンピュータ」又は「コンピューティングマシン」又は「コンピューティングプラットフォーム」は１つ以上のプロセッサを含んでよい。

【0063】

本明細書で記載されるメソッドロジは、１つの例示的な実施形態では、１つ以上のプロセッサによって実行される場合に、本明細書で記載される方法の少なくとも１つを実行する命令の組を含むコンピュータ可読（マシン可読とも呼ばれる。）コードを受け入れる１つ以上のプロセッサによって実行可能である。行われる動作を指定する命令の組を実行することができる如何なるプロセッサも含まれる。よって、１つの例は、１つ以上のプロセッサを含む典型的なプロセッシングシステムである。各プロセッサは、ＣＰＵ、グラフィクス処理ユニット、及びプログラマブルＤＳＰユニットのうちの１つ以上を含んでよい。プロセッシングシステムは、メインＲＡＭ及び／又は静的ＲＡＮ、及び／又はＲＯＭを含むメモリサブシステムを更に含んでもよい。バスサブシステムは、コンポーネント間の通信のために含まれてもよい。プロセッシングシステムは、プロセッサがネットワークによって結合されている分散処理システムであってもよい。プロセッシングシステムがディスプレイを必要とする場合に、そのようなディスプレイ、例えば、液晶ディスプレイ（ＬＣＤ）又は陰極線管（ＣＲＴ）ディスプレイが含まれてもよい。手動のデータ入力が必要とされる場合に、プロセッシングシステムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などのうちの１つ以上のような入力デバイスも含む。プロセッシングシステムは、ディスクドライブユニットなどの記憶システムも含んでもよい。プロセッシングシステムは、いくつかの構成で、音響出力デバイス、及びネットワークインターフェースデバイスを含んでもよい。よって、メモリサブシステムは、１つ以上のプロセッサによって実行される場合に、本明細書で記載される方法の１つ以上の実行を引き起こす命令の組を含むコンピュータ可読コード（例えば、ソフトウェア）を担持するコンピュータ可読キャリア媒体を含む。方法がいくつかの要素、例えば、いくつかのステップを含む場合に、そのような要素の順序は、特に述べられない限りは暗示されないことに留意されたい。ソフトウェアはハードディスクに存在してもよく、あるいは、完全に又は少なくとも部分的に、コンピュータシステムによるその実行中にＲＡＭ内及び／又はプロセッサ内に存在してもよい。よって、メモリ及びプロセッサは、コンピュータ可読コードを運ぶコンピュータ可読キャリア媒体も構成する。更に、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成しても、又はそれに含まれてもよい。

【0064】

代替の例示的な実施形態では、１つ以上のプロセッサは、スタンドアロンのデバイスとして動作し、あるいは、ネットワーク化された配置において接続され、例えば、他のプロセッサへネットワーク接続されてもよく、１つ以上のプロセッサは、サーバ－ユーザネットワーク環境におけるサーバ又はユーザマシンとして、あるいは、ピア・ツー・ピア又は分散ネットワーク環境におけるピアマシンとして動作してもよい。１つ以上のプロセッサは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、パーソナルデジタルアシスタント（ＰＤＡ）、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又は当該機械によって行われる動作を指定する命令の組を（順次又はそれ以外で）実行することができる任意の機械を形成してもよい。

【0065】

「機械」という用語は、本明細書で議論されているメソッドロジのいずれか１つ以上を実行するための命令の（組又は複数の組）を個別的に又は共同して実行する機械の任意の集合を含むとも考えられるべきであることに留意されたい。

【0066】

よって、本明細書で記載される方法の夫々の１つの例示的な実施形態は、命令の組、例えば、１つ以上のプロセッサ、例えば、ウェブサーバ配置の部分である１つ以上のプロセッサで実行されるコンピュータプログラムを運ぶコンピュータ可読キャリア媒体の形をとる。よって、当業者には理解されるように、本開示の例示的な実施形態は、方法、専用機器などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えば、コンピュータプログラム製品として具現されてよい。コンピュータ可読キャリア媒体は、１つ以上のプロセッサで実行される場合に、１つ以上のプロセッサに方法を実施させる命令の組を含むコンピュータ可読コードを運ぶ。従って、本開示の態様は、方法、全体としてハードウェアの例示的な実施形態、全体としてソフトウェアの例示的な実施形態、又はソフトウェア及びハードウェアを組み合わせた態様の例示的な実施形態の形を取ることができる。更に、本開示は、媒体で具現されたコンピュータ可読プログラムコードを運ぶキャリア媒体（例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品）の形を取ってもよい。

【0067】

ソフトウェアは更に、ネットワークインターフェースデバイスを介してネットワーク上で送信又は受信されてもよい。キャリア媒体が例示的な実施形態において単一の媒体である一方で、「キャリア媒体」という用語は、命令の１つ以上の組を記憶する単一の媒体又は複数の媒体（例えば、中央集権型若しくは分散型データベース、及び／又は関連するキャッシュ及びサーバ）を含むと理解されるべきである。「キャリア媒体」という用語はまた、１つ以上のプロセッサによって実行される命令の組を記憶し、符号化し、又は運ぶことができ、１つ以上のプロセッサに本開示のメソッドロジのいずれか１つ以上を実行させる如何なる媒体も含むと理解されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限られない多くの形をとることができる。不揮発性媒体は、例えば、光学ディスク、磁気ディスク、及び光学磁気ディスクを含む。揮発性媒体は、メインメモリなどの動的メモリを含む。伝送媒体は、同軸ケーブル、銅線、及び光ファイバを含み、バスサブシステムを含む配線を含む。伝送媒体はまた、電波及び赤外線データ通信中に生成されるものなど、音波又は光波の形をとってもよい。例えば、「キャリア媒体」という用語は、それに応じて、ソリッドステートメモリ、光学及び磁気媒体に具現化されたコンピュータ製品、少なくとも１つのプロセッサ又は１つ以上のプロセッサによって検出可能であり、実行されると方法を実施する命令の組を表す伝播信号を有する媒体、並びに１つ以上のプロセッサのうちの少なくとも１つのプロセッサによって検出可能であり、命令の組を表す伝播信号を有するネットワーク内の伝送媒体を含むがこれらに限られないと理解されるべきである。

【0068】

議論されている方法のステップは、１つの例示的な実施形態では、記憶装置に記憶されている命令（コンピュータ可読コード）を実行するプロセッシング（例えば、コンピュータ）システムの適切なプロセッサ（又は複数のプロセッサ）によって実行されることが理解される。また、本開示は、如何なる特定の実施又はプログラミング技術にも制限されず、本開示は、本明細書で記載される機能を実装する如何なる適切な技術も用いて実施されてよいことも理解される。本開示は、如何なる特定のプログラミング言語又はオペレーティングシステムにも制限されない。

【0069】

「１つの例示的な実施形態」、「いくつかの例示的な実施形態」又は「例示的な実施形態」への本開示中の言及は、例示的な実施形態に関連して記載されている特定の特徴、構造又は特徴が本開示の少なくとも１つの例示的な実施形態に含まれることを意味する。よって、本開示中の様々な場所での「１つの例示的な実施形態で」、「いくつかの例示的な実施形態で」又は「例示的な実施形態で」の出現は、必ずしも全てが同じ例示的な実施形態を参照しているわけではない。更に、特定の特徴、構造、又は特徴は、１つ以上の例示的な実施形態において、本開示から当業者には明らかであるように、如何なる適切な方法でも組み合わされてもよい。

【0070】

本明細書で使用されるように、別段指定されない限りは、共通のオブジェクトについて記載するための序数形容詞「第１」、「第２」、「第３」などの使用は、同じオブジェクトの異なるインスタンスが言及されていることを単に意味するものであり、そのように記載されているオブジェクトが時間的に、空間的に、順位付けにおいて、又は何らかの他の方法で所与の順序になければならないことを暗示する意図はない。

【0071】

以下の特許請求の範囲及び本明細書中の説明において、・・・を有する（comprising）、・・・から成る（comprised of）、又は・・・を有する・・・（which comprises）という用語のうちのいずれか１つは、その前にある要素／特徴を少なくとも含むが他を除外しないことを意味する非限定的な用語である。よって、有するという用語は、特許請求の範囲で使用される場合に、その前に挙げられている手段又は要素又はステップに限定するものとして解釈されるべきではない。例えば、Ａ及びＢを有するデバイス、という表現の範囲は、要素Ａ及びＢのみから成るデバイスに制限されるべきではない。本明細書で使用される、・・・を含む（including）、又は・・・を含む・・・（which includes）、又は・・・を含む・・・（that includes）という用語のうちのいずれか１つも、その用語の前にある要素／特徴を少なくとも含むが他を除外しないことをやはり意味する非限定的な用語である。よって、含むは、有すると同義であり、それを意味するものである。

【0072】

当然ながら、本開示の例示的な実施形態の上記の説明において、本開示の様々な特徴は、本開示を簡素化しかつ様々な発明態様の１つ以上の理解に役立つために、単一の実施形態、図、又はその説明においてまとめられることがある。しかし、開示のこの方法は、特許請求の範囲が各請求項で明示的に記載されているよりも多くの特徴を要求するという意図を反映しているものと解釈されるべきではない。むしろ、続く特許請求の範囲が反映するように、発明の態様は、単一の上記の開示された例示的な実施形態の全ての特徴にあるわけではない。よって、本明細書に続く特許請求の範囲は、これを持って本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。

【0073】

更に、本明細書に記載されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれるいくつかの特徴を含むが他を含まない一方で、異なる例示的な実施形態の特徴の組み合わせは、当業者に理解されるように、開示の範囲内にあり、異なる例示的な実施形態を形成するよう意図される。例えば、続く特許請求の範囲において、請求される例示的な実施形態のいずれも、任意の組み合わせで使用することができる。

【0074】

本明細書で提供される説明では、多数の具体的な詳細が示されている。しかしながら、本開示の例示的な実施形態は、これらの具体的な詳細なしに実施され得ることが理解される。他の例では、この説明の理解を曖昧にしないために、よく知られている方法、構造、及び技術は詳細には示されていない。

【0075】

よって、本開示の最良のモードであると信じられているものについて記載してきたが、当業者には理解されるように、他の及び更なる変更が、本開示の精神から逸脱せずにそれらに行われてもよく、全てのそのような変更及び変形が本開示の範囲内に入ることが意図される。例えば、上述された如何なる式も、使用される可能性があるプロシージャを代表しているに過ぎない。機能が追加されても、又はブロック図から削除されてもよく、動作は機能ブロックの間で入れ替えられてもよい。ステップが、本開示の範囲内で、記載される方法に追加又は削除されてもよい。特に、異なるレイアウトが、図１ａのハイレベル予測器構造を実現するために企図されてもよい。

【0076】

本発明の様々な態様は、列挙された例示的な実施形態（enumerated exemplary embodiment(s)，ＥＥＥ）の以下のリストから理解することができる。

【0077】

ＥＥＥ１．
メディア信号の周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステムであって、
１つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの特定の周波数帯域を表す出力変数の第１の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む時間予測部と、
前記現在の時間フレームにおいて前記特定の周波数帯域に隣接する１つ又は複数の周波数帯域の係数を考慮して特定の周波数帯域を表す出力変数の第２の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む周波数予測部と、
前記出力変数の第１の組及び前記出力変数の第２の組に基づき、前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段と
を有するニューラルネットワークシステム。

【0078】

ＥＥＥ２．
前記時間予測部によって予測された前記出力変数の第１の組は、前記周波数予測部への入力変数として使用される、
ＥＥＥ１に記載のニューラルネットワークシステム。

【0079】

ＥＥＥ３．
前記時間予測部は、複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワークを含み、
前記時間予測回帰ニューラルネットワークは、前記メディア信号の先行時間フレームを表す入力変数の第１の組を考慮して、前記現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている、
ＥＥＥ２に記載のニューラルネットワークシステム。

【0080】

ＥＥＥ４．
前記時間予測部は、前記メディア信号の先行時間フレームの周波数係数を考慮して前記入力変数の第１の組を予測するよう訓練されたニューラルネットワークを含む入力段を更に含む、
ＥＥＥ３に記載のニューラルネットワークシステム。

【0081】

ＥＥＥ５．
前記時間予測部は、前記出力変数の第１の組を予測するよう訓練された帯域ミキシングニューラルネットワークを更に含み、
前記中間の組の中の変数は、前記特定の周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される、
ＥＥＥ４に記載のニューラルネットワークシステム。

【0082】

ＥＥＥ６．
前記周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワークを含み、
前記周波数予測回帰ニューラルネットワークは、前記出力変数の第１の組と、前記現在の時間フレームのより低い周波数帯域を表す入力変数の第２の組との和を考慮して、前記出力変数の第２の組を予測するよう訓練されている、
ＥＥＥ５に記載のニューラルネットワークシステム。

【0083】

ＥＥＥ７．
前記周波数予測部は、前記出力変数の第２の組に基づき前記周波数係数の組を供給するよう訓練された１つ又は複数の出力レイヤを更に含む、
ＥＥＥ６に記載のニューラルネットワークシステム。

【0084】

ＥＥＥ８．
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、前記周波数係数の確率分布をパラメータ化するよう構成される、
ＥＥＥ１に記載のニューラルネットワークシステム。

【0085】

ＥＥＥ９．
前記確率分布は、ラプラス分布、ガウス分布、及びロジスティック分布、のうちの１つである、
ＥＥＥ８に記載のニューラルネットワークシステム。

【0086】

ＥＥＥ１０．
前記周波数係数は、前記メディア信号の時間－周波数変換のビンに対応する、
ＥＥＥ１に記載のニューラルネットワークシステム。

【0087】

ＥＥＥ１１．
前記周波数係数は、前記メディア信号のフィルタバンク表現のサンプルに対応する、
ＥＥＥ１に記載のニューラルネットワークシステム。

【0088】

ＥＥＥ１２．
ターゲットメディア信号を表す生成モデルであって、
ＥＥＥ３に記載のニューラルネットワークシステムと、
前記ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう訓練された条件付けニューラルネットワークと
を有し、
前記時間予測回帰ニューラルネットワークは、前記入力変数の第１の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
生成モデル。

【0089】

ＥＥＥ１３．
前記ニューラルネットワークシステムは、ＥＥＥ６に記載の周波数予測回帰ニューラルネットワークを含み、
前記周波数予測回帰ニューラルネットワークは、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
ＥＥＥ１２に記載の生成モデル。

【0090】

ＥＥＥ１４．
前記条件付け変数の組は、前記ニューラルネットワークシステムの内部次元の２倍の数の変数を含み、
前記時間予測回帰ニューラルネットワーク及び前記周波数予測回帰ニューラルネットワークは夫々、前記条件付け変数の半数を供給される、
ＥＥＥ１３に記載の生成モデル。

【0091】

ＥＥＥ１５．
前記条件付け情報は、歪み周波数係数の組を含む、
ＥＥＥ１２に記載の生成モデル。

【0092】

ＥＥＥ１６．
前記条件付け情報は、知覚モデル係数の組を含む、
ＥＥＥ１５に記載の生成モデル。

【0093】

ＥＥＥ１７．
前記条件付け情報は、スペクトルエンベロープを含む、
ＥＥＥ１２に記載の生成モデル。

【0094】

ＥＥＥ１８．
前記条件付けニューラルネットワークは、周波数方向及び時間方向にわたって作動する２Ｄカーネルを備えた畳み込みニューラルねとワークを含む、
ＥＥＥ１２に記載の生成モデル。

【0095】

ＥＥＥ１９．
ＥＥＥ７に記載のニューラルネットワークシステムを訓練する方法であって、
ａ）実際のメディア信号の前の時間フレームを表す周波数係数の組を前記入力変数の第１の組として供給するステップと、
ｂ）前記ニューラルネットワークシステムを用いて、現在の時間フレームの特定の周波数帯域を表す周波数係数の組を予測するステップと、
ｃ）前記実際のメディア信号の前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の真の組に対して、予測された前記周波数係数の組の測度（measure）を最小化するステップと
を有する方法。

【0096】

ＥＥＥ２０．
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、各周波数係数の確率分布をパラメータ化する、
ＥＥＥ１９に記載の方法。

【0097】

ＥＥＥ２１．
前記測度は、負の対数尤度（negative log-likelihood，ＮＬＬ）である、
ＥＥＥ２０に記載の方法。

【0098】

ＥＥＥ２２．
ＥＥＥ１２に記載の生成モデルを訓練する方法であって、
ａ）実際のメディア信号の記述を前記条件付けニューラルネットワークへ条件付け情報として供給するステップと、
ｂ）前記ニューラルネットワークシステムを用いて、現在の時間フレームの特定の周波数帯域を表す周波数係数の組を予測するステップと、
ｃ）前記実際のメディア信号の前記現在の時間フレームの前記特定の周波数帯域を表す周波数係数の真の組に対して、予測された前記周波数係数の組の測度を最小化するステップと
を有する方法。

【0099】

ＥＥＥ２３．
前記記述は、前記実際のメディア信号を表す歪んだ周波数係数の組を含む、
ＥＥＥ２２に記載の方法。

【0100】

ＥＥＥ２４．
各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、各周波数係数の確率分布をパラメータ化する、
ＥＥＥ２２に記載の方法。

【0101】

ＥＥＥ２５．
前記測度は、負の対数尤度（ＮＬＬ）である、
ＥＥＥ２４に記載の方法。

【0102】

ＥＥＥ２６．
ＥＥＥ１３に記載の生成モデルを用いて、エンハンスメントされたメディア信号を取得する方法であって、
ａ）前記条件付けニューラルネットワークへ条件付け情報を供給するステップと、
ｂ）現在の時間フレームの各周波数帯域について、前記周波数予測回帰ニューラルネットワークを用いて当該周波数帯域を表す周波数係数の組を予測し、前記周波数係数の組を前記入力変数の第２の組として前記周波数予測回帰ニューラルネットワークへ供給するステップと、
ｃ）前記現在の時間フレームの全ての周波数帯域を表す予測された前記周波数係数の組を前記入力変数の第１の組として前記時間予測回帰ニューラルネットワークへ供給するステップと
を有する方法。

【0103】

ＥＥＥ２７．
前記条件付け情報は、前記実際のメディア信号を表す歪んだ周波数係数の組を含む、
ＥＥＥ２６に記載の方法。

【0104】

ＥＥＥ２８．
各周波数係数は、分布パラメータの組によって表され、前記分布パラメータの組は、各周波数係数の確率分布をパラメータ化し、当該方法は、
各隔離分布をサンプリングして周波数係数値を得るステップを更に有する、
ＥＥＥ２６に記載の方法。

【0105】

ＥＥＥ２９．
ＥＥＥ１２に記載の生成モデルを有するデコーダ。

【0106】

ＥＥＥ３０．
コンピュータによって実行される場合に、ＥＥＥ１２に記載の生成モデルを実施するコンピュータ可読プログラムコード部分を有するコンピュータプログラム製品。

【0107】

［関連出願への相互参照］
本願は、２０２０年１０月１６日付けで出願された米国特許仮出願第６３／０９２，５５２号及び２０２０年１１月１０日付けで出願された欧州特許出願第２０２０６７２９．４号に対する優先権を主張するものである。これらの先の出願の全部が、それらの全文を参照により本願に援用される。

【図1a】

【図1b】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2023-04-13

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

メディア信号の周波数係数を予測するための、コンピュータによって実装されるニューラルネットワークシステムであって、
１つ又は複数の前の時間フレームの係数を考慮して現在の時間フレームの時間予測された周波数帯域を表す出力変数の第１の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む時間予測部と、
周波数予測部によって以前に予測された、前記現在の時間フレームにおける１つ又は複数の隣接するより低い周波数帯域の係数を考慮して、周波数予測された周波数帯域を表す出力変数の第２の組を予測するよう訓練された少なくとも１つのニューラルネットワークを含む前記周波数予測部と、
前記出力変数の第１の組及び前記出力変数の第２の組に基づき、前記現在の時間フレームの特定の周波数帯域を表す周波数係数の組を供給するよう構成される出力段と
を有し、
前記特定の周波数帯域は、前記時間予測された周波数帯域及び前記周波数予測された周波数帯域のうちの少なくとも１つであり、
ａ）前記時間予測部によって予測された前記出力変数の第１の組が、前記周波数予測部への入力変数として使用されるか、あるいは、ｂ）前記周波数予測部によって予測された前記出力変数の第２の組が、前記時間予測部への入力変数として使用される、
ニューラルネットワークシステム。

【請求項2】

ａ）前記時間予測部によって予測された前記出力変数の第１の組が、前記周波数予測部への入力変数として使用され、
前記時間予測された周波数帯域は、前記現在の時間フレームにおいて前記周波数予測された周波数帯域に隣接する、
請求項１に記載のニューラルネットワークシステム。

【請求項3】

ｂ）前記周波数予測部によって予測された前記出力変数の第２の組が、前記時間予測部への入力変数として使用され、
前記時間予測された周波数帯域及び前記周波数予測された周波数帯域は、夫々、前の時間フレーム及び現在の時間フレームにおける同じ周波数帯域である、
請求項１に記載のニューラルネットワークシステム。

【請求項4】

前記時間予測部によって予測された前記出力変数の第１の組は、前記周波数予測部への入力変数として使用される、
請求項１乃至３のうちいずれか一項に記載のニューラルネットワークシステム。

【請求項5】

前記時間予測部は、
複数のニューラルネットワークレイヤを含む時間予測回帰ニューラルネットワークであって、前記メディア信号の先行時間フレームを表す入力変数の第１の組を考慮して、前記現在の時間フレームを表す出力変数の中間の組を予測するよう訓練されている前記時間予測回帰ニューラルネットワークと、
前記出力変数の第１の組を予測するよう訓練された帯域ミキシングニューラルネットワークと
を有し、
前記中間の組の中の変数は、前記時間予測された周波数帯域及び複数の隣接周波数帯域を表す前記中間の組の中の変数をミキシングすることによって形成される、
請求項１乃至４のうちいずれか一項に記載のニューラルネットワークシステム。

【請求項6】

前記時間予測部は、前記メディア信号の先行時間フレームの周波数係数を考慮して前記入力変数の第１の組を予測するよう訓練されたニューラルネットワークを含む入力段を更に含む、
請求項５に記載のニューラルネットワークシステム。

【請求項7】

前記周波数予測部は、複数のニューラルネットワークレイヤを含む周波数予測回帰ニューラルネットワークを含み、
前記周波数予測回帰ニューラルネットワークは、前記出力変数の第１の組と、前記現在の時間フレームのより低い周波数帯域を表す入力変数の第２の組との和を考慮して、前記出力変数の第２の組を予測するよう訓練されている、
請求項４乃至６のうちいずれか一項に記載のニューラルネットワークシステム。

【請求項8】

前記周波数予測部は、前記出力変数の第２の組に基づき前記周波数係数の組を供給するよう訓練された１つ又は複数の出力レイヤを更に含む、
請求項７に記載のニューラルネットワークシステム。

【請求項9】

各周波数係数は、分布パラメータの組によって表され、
前記分布パラメータの組は、前記周波数係数の確率分布をパラメータ化するよう構成され、
前記現在の時間フレームの前記特定の周波数帯域は、各周波数係数の前記確率分布をサンプリングすることによって取得される、
請求項１乃至８のうちいずれか一項に記載のニューラルネットワークシステム。

【請求項10】

【請求項11】

ターゲットメディア信号を表す生成モデルであって、
請求項５に記載のニューラルネットワークシステムと、
前記ターゲットメディア信号を記述する条件付け情報を考慮して条件付け変数の組を予測するよう訓練された条件付けニューラルネットワークと
を有し、
前記条件付け情報は、前記ターゲットメディア信号を記述する量子化された周波数係数を含み、
前記時間予測回帰ニューラルネットワークは、前記入力変数の第１の組を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
生成モデル。

【請求項12】

前記ニューラルネットワークシステムは、請求項７に記載の周波数予測回帰ニューラルネットワークを含み、
前記周波数予測回帰ニューラルネットワークは、前記和を前記条件付け変数の組の中の少なくとも一部と結合するよう構成される、
請求項１１に記載の生成モデル。

【請求項13】

前記条件付け情報は、歪み周波数係数の組、知覚モデル係数の組、及びスペクトルエンベロープ、のうちの少なくとも１つを含む、
請求項１１又は１２に記載の生成モデル。

【請求項14】

請求項１１に記載の生成モデルを用いて、エンハンスメントされたメディア信号を取得する方法であって、
ａ）前記条件付けニューラルネットワークへ条件付け情報を供給するステップと、
ｂ）現在の時間フレームの各周波数帯域について、周波数予測回帰ニューラルネットワークを用いて当該周波数帯域を表す周波数係数の組を予測し、前記周波数係数の組を入力変数の第２の組として前記周波数予測回帰ニューラルネットワークへ供給するステップと、
ｃ）前記現在の時間フレームの全ての周波数帯域を表す予測された前記周波数係数の組を前記入力変数の第１の組として前記時間予測回帰ニューラルネットワークへ供給するステップと
を有する方法。

【請求項15】

請求項１１に記載の生成モデルを有するデコーダ。

【請求項16】

コンピュータによって実行される場合に、請求項１１乃至１３のうちいずれか一項に記載の生成モデルを実施するコンピュータ可読プログラムコード部分を有するコンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版