IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2022-552319生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム
<>
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図1
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図2
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図3
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図4
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図5
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図6
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図7
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図8
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図9
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図10
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図11A
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図11B
  • 特表-生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム 図11C
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-15
(54)【発明の名称】生成モデルを用いたオーディオ信号の波形符号化のための方法およびシステム
(51)【国際特許分類】
   G10L 19/00 20130101AFI20221208BHJP
   G10L 25/30 20130101ALI20221208BHJP
【FI】
G10L19/00 250
G10L25/30
G10L19/00 330B
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022522018
(86)(22)【出願日】2020-10-16
(85)【翻訳文提出日】2022-04-12
(86)【国際出願番号】 US2020056162
(87)【国際公開番号】W WO2021077023
(87)【国際公開日】2021-04-22
(31)【優先権主張番号】62/923,225
(32)【優先日】2019-10-18
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】19209362.3
(32)【優先日】2019-11-15
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】クレイサ,ヤヌシュ
(72)【発明者】
【氏名】ビスワス,アリジート
(72)【発明者】
【氏名】ヴィレモース,ラルス
(72)【発明者】
【氏名】フェイギン,ロイ エム.
(72)【発明者】
【氏名】ジョウ,ツオーン
(57)【要約】
本明細書には波形復号の方法が記載される。当該方法は:(a)波形デコーダによって、ソース信号の有限ビットレート表現を含むビットストリームを受領するステップと;(b)前記ソース信号の前記有限ビットレート表現を波形復号して、前記ソース信号の波形近似を得るステップと;(c)確率密度関数を実装する生成モデルに前記ソース信号の前記波形近似を提供して、前記ソース信号の再構成された信号の確率分布を得るステップと;(d)前記確率分布に基づいて前記ソース信号の再構成された信号を生成するステップとを含む。さらに、波形符号化の方法とシステムならびに生成モデルのトレーニング方法が記載される。
【特許請求の範囲】
【請求項1】
波形復号の方法であって、当該方法は:
(a)波形デコーダによって、ソース信号の有限ビットレート表現を含むビットストリームを受領するステップと;
(b)前記ソース信号の前記有限ビットレート表現を波形復号して、前記ソース信号の波形近似を得るステップと;
(c)確率密度関数を実装する生成モデルに前記ソース信号の前記波形近似を提供して、前記ソース信号の再構成された信号の確率分布を得るステップと;
(d)前記確率分布に基づいて前記ソース信号の再構成された信号を生成するステップとを含む、
方法。
【請求項2】
ステップ(d)において、再構成された信号は、前記確率分布に従ってランダムサンプルを生成することによって生成される、または
ステップ(d)において、再構成された信号は、前記確率分布に従ってサンプルを平均化することによって生成される、
請求項1に記載の方法。
【請求項3】
ステップ(a)において、受領されたビットストリームは、有限ビットレートで表される一つまたは複数の補助パラメータをさらに含み、
任意的に、前記一つまたは複数の補助パラメータは、前記ソース信号の、少なくとも1つの周波数帯域についての周波数帯域当たりのエネルギーおよび/またはスペクトルエンベロープに関する指示を含む、
請求項1または2に記載の方法。
【請求項4】
ステップ(a)において、受領されたビットストリームは、前記ソース信号のコンテンツ・タイプを示す情報をさらに含む、および/または、ステップ(a)において、受領されたビットストリームは、符号化方式の動作ビットレートを示す情報をさらに含む、請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
ステップ(c)は、前記ソース信号のコンテンツ・タイプを示す情報に基づいて、生成モデルのあらかじめ定義された集合から前記生成モデルを選択することをさらに含む、および/または、ステップ(c)は、前記符号化方式の前記動作ビットレートを示す情報に基づいて、生成モデルのあらかじめ定義された集合から前記生成モデルを選択することをさらに含む、請求項4に記載の方法。
【請求項6】
当該方法は、前記ソース信号の前記コンテンツ・タイプを示す情報に基づいて、および/または、前記符号化方式の前記動作ビットレートを示す情報に基づいて、前記ソース信号の前記波形近似が、前記ソース信号の前記再構成された信号として出力されるべきであると決定するステップをさらに含む、請求項6または請求項7に記載の方法。
【請求項7】
前記生成モデルは、先読みを用いて動作する、請求項1ないし6のうちいずれか一項に記載の方法。
【請求項8】
前記生成モデルは、信号領域で動作するようにトレーニングされている、請求項1ないし7のうちいずれか一項に記載の方法。
【請求項9】
前記生成モデルは、自己回帰式に動作する、または前記生成モデルは、前記ソース信号のフレーム全体を一度に再構成するように動作する、請求項1ないし8のうちいずれか一項に記載の方法。
【請求項10】
ステップ(c)における前記生成モデルは、条件付き確率密度関数を実装する生成モデルであり、該生成モデルは、前記ソース信号の前記波形近似で、また任意的には、前記一つまたは複数の補助パラメータで条件付けられる、請求項9に記載の方法。
【請求項11】
前記生成モデルは、条件付きsampleRNNニューラルネットワークであり、任意的に、前記条件付きsampleRNNニューラルネットワークは、畳み込み層を通じて各階層に条件付けが提供される4階層のsampleRNNである、請求項10に記載の方法。
【請求項12】
前記ソース信号の前記有限ビットレート表現は、前記ソース信号の前記有限ビットレート表現を含むビットストリームを生成する波形エンコーダによって取得されたものであり、任意的に、さらなる一つまたは複数の補助パラメータが前記波形エンコーダによって提供され、前記ビットストリームに含められる、請求項1ないし11のうちいずれか一項に記載の方法。
【請求項13】
前記波形エンコーダが決定論的波形エンコーダである、請求項12に記載の方法。
【請求項14】
前記ソース信号のコンテンツ・タイプを示す情報を提供するさらなる一つまたは複数のソース分類子が、前記波形エンコーダによって提供され、前記ビットストリームに含められる、および/または、符号化方式の動作ビットレートを示すさらなる情報が、前記波形エンコーダによって提供され、前記ビットストリームに含められる、請求項12または13に記載の方法。
【請求項15】
(a)ソース信号の有限ビットレート表現を含むビットストリームを受領するように構成された受領器と;
(b)前記ソース信号の前記有限ビットレート表現を波形復号して、前記ソース信号の波形近似を得るように構成された波形コアデコーダと;
(c)確率密度関数を実装して、前記ソース信号の前記波形近似に基づいて、前記ソース信号の再構成された信号の確率分布を得るように構成された生成モデルと;
(d)前記確率分布に基づいて前記ソース信号の再構成された信号を生成するように構成されたサンプラーとを有する、
波形デコーダ。
【請求項16】
生成モデルをトレーニングする方法であって、当該方法は:
(a)ソース信号のオリジナル信号を提供するステップと;
(b)前記ソース信号のオリジナル信号を波形エンコードおよび波形デコードして、前記ソース信号の波形近似を得るステップと;
(c)前記ソース信号の前記波形近似を前記生成モデルに入力して、確率分布についてのパラメータ化された関数を得るステップと;
(d)前記生成モデルから得られた前記確率分布に基づいて、オリジナルのソース信号の尤度を最大にするよう、前記生成モデルのパラメータを調整するステップとを含む、
方法。
【請求項17】
前記生成モデルは、前記ソース信号の前記波形近似に条件付けられる、請求項16に記載の方法。
【請求項18】
前記生成モデルは、一つまたは複数の補助パラメータにさらに条件付けられる、請求項36に記載の方法。
【請求項19】
ステップ(d)において、前記生成モデルのパラメータは、負の対数尤度のデータセットにわたる平均を最小化することに基づいて調整される、請求項16ないし18のうちいずれか一項に記載の方法。
【請求項20】
ステップ(c)において、さらに、前記ソース信号の再構成された信号が、前記確率分布に基づいて生成され、ステップ(d)において、前記生成モデルのパラメータは、前記ソース信号の再構成された信号と前記ソース信号のオリジナル信号との間の差の指標を最小化することに基づいて調整される、請求項16ないし18のうちいずれか一項に記載の方法。
【請求項21】
処理能力を有する装置によって実行されたときに、装置に請求項1ないし20のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクト。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2019年11月15日に出願された欧州特許出願第19209362.3号および2019年10月18日に出願された米国仮特許出願第62/923,225号に対する優先権を主張し、これらは参照により本明細書に組み込まれる。
【0002】
技術
本開示は、概括的には、波形復号の方法に関し、より具体的には、生成モデルを用いたソース信号の波形復号に関する。本開示は、さらに、波形符号化のための方法およびシステム、ならびに生成モデルをトレーニングする方法に関する。いくつかの実施形態が、その開示を特に参照して本明細書に記載されるが、本開示は、そのような使用分野に限定されず、より広い文脈において適用可能であることが理解されるであろう。
【背景技術】
【0003】
本開示を通じた背景技術のいかなる考察も、当該技術が広く知られている、または当該技術分野における技術常識の一部を構成するものであるという自認とは決して考えられるべきではない。
【0004】
波形の低レートの量子化は符号化アーチファクトにつながる。これらのアーチファクトの知覚効果は、一般的に使用されているサンプル歪み指標では十分に捉えられない。そのため、波形に対して作用するオーディオ符号化アルゴリズムは、一般に、信号量子化が信号の知覚的に有意な特徴を再構成できない場合に、知覚的な性能を改善することを目的とした発見的方法を備えている。
【0005】
たとえば、変換オーディオ符号化の文脈において、低ビットレート符号化方式は、典型的には、スペクトルホールのような符号化アーチファクトを導入するか、または符号化信号の帯域幅を制限する(ビットレートとサンプル歪み指標との間のトレードオフの最適化の結果として)。符号化アーチファクトを隠すために、ノイズ充填または帯域幅拡張などのツールが一般的に使用される。
【0006】
さらに、変換符号化は、典型的には、単純な量子化器(スカラー量子化器のような)の使用に関わる。
【0007】
一般的に使用される変換の脱相関特性のため、ベクトル量子化に対する性能ギャップを低減することができる。しかしながら、完全な脱相関を達成することは困難である。よって、多くの場合、ポストフィルタリングのような、量子化の性能をさらに改善するために、デコーダ側で追加の手段が依然として必要である。
【0008】
これまで、生成モデル(generative model)が発話符号化のために成功裏に使用され、知覚的品質‐ビットレートのトレードオフを著しく改善した。これらの方式は、発話のパラメトリック(有限ビットレート)表現を計算するエンコーダと、生成モデルに基づくデコーダとを含む。発話信号は、パラメトリック表現で条件付けられて、トレーニングされた確率分布からのサンプリングによって再構成された。
【0009】
生成モデルは、また、オーディオ信号の合成にも使用された。しかしながら、オーディオ符号化への応用は未解決の問題のままである。
【0010】
符号化問題に最も近いアプリケーションはマゼンタ・プロジェクト(Magenta Project)の方式であり、そこでは、ピアノ波形がMIDIのような表現にエンコードされ、それから再構成された。これは、概念的には、生成されるべき信号の顕著なパラメトリック記述をエンコーダが提供する、上述した発話符号化方式に類似している。おそらく、オーディオのためのそのようなアプローチの最も明白な欠点は、顕著なパラメータの集合が信号カテゴリーに依存することである(たとえば、MIDIのようなパラメータ表現は、発話には適さないであろう)。
【0011】
ディープニューラルネットワークはすでにオーディオ符号化問題に適用されているが、これらの方式は、学習した確率分布からサンプリングすることによって信号を再構成するモデルの生成力を欠く弁別ネットワークに基づいている。生成モデリングは、もっともらしい信号構造の合成のための手段を提供し、帯域幅拡張、または信号量子化のため普通なら失われるであろう信号構造のノイズ充填のような知覚的性能を最適化する強力な技法を可能にする。ソース・マッチング・ノイズ充填を提供できる信号量子化器も提案された。しかしながら、これらの方式は、スカラー量子化器と、ソースを記述する単純な確率分布に限定されていた。
【発明の概要】
【発明が解決しようとする課題】
【0012】
よって、オーディオ信号を生成モデルを用いて波形符号化するための方法、装置およびシステムが必要とされている。
【課題を解決するための手段】
【0013】
本開示の第1の側面によれば、波形復号の方法が提供される。本方法は、(a)波形デコーダによって、ソース信号の有限ビットレート表現を含むビットストリームを受領するステップを含んでいてもよい。本方法は、さらに、(b)ソース信号の波形近似を得るために、ソース信号の有限ビットレート表現を波形復号するステップを含んでいてもよい。本方法は、さらに、(c)ソース信号の再構成された信号の確率分布を得るために、確率密度関数を実装する生成モデルにソース信号の波形近似を提供するステップを含んでいてもよい。また、本方法は、(d)確率分布に基づいてソース信号の再構成された信号を生成するステップを含んでいてもよい。
【0014】
上記のように構成されることで、記載される方法は、波形符号化とパラメトリック符号化の利点をシームレスに組み合わせることを可能にする。特に、波形符号化されたオーディオの知覚的性能を改善することができる。
【0015】
いくつかの実施形態では、ステップ(d)において、再構成された信号は、確率分布に従ってランダムサンプルを生成することによって生成されてもよく、またはステップ(d)において、再構成された信号は、確率分布に従ってサンプルを平均化することによって生成されてもよい。
【0016】
いくつかの実施形態では、ステップ(a)において、受領されたビットストリームは、有限ビットレートで表される一つまたは複数の補助パラメータをさらに含んでいてもよく、任意的に、前記一つまたは複数の補助パラメータは、ソース信号の、少なくとも1つの周波数帯域についての周波数帯域当たりのエネルギーおよび/またはスペクトルエンベロープに関する指示を含んでいてもよい。
【0017】
いくつかの実施形態では、ステップ(a)において、受領されたビットストリームは、ソース信号のコンテンツ・タイプを示す情報をさらに含んでいてもよく、および/またはステップ(a)において、受領されたビットストリームは、符号化方式の動作ビットレート(operating bitrate)を示す情報をさらに含んでいてもよい。
【0018】
いくつかの実施形態では、ステップ(c)は、ソース信号のコンテンツ・タイプを示す情報に基づいて、生成モデルのあらかじめ定義された集合から前記生成モデルを選択することをさらに含んでいてもよく、および/またはステップ(c)は、符号化方式の動作ビットレートを示す情報に基づいて、生成モデルのあらかじめ定義された集合から前記生成モデルを選択することをさらに含んでいてもよい。
【0019】
いくつかの実施形態では、本方法は、ソース信号の波形近似が、ソース信号のコンテンツ・タイプを示す情報に基づいて、および/または符号化方式の動作ビットレートを示す情報に基づいて、ソース信号の再構成された信号として出力されるべきであることを決定するステップをさらに含んでいてもよい。
【0020】
いくつかの実施形態では、生成モデルは、先読みを用いて動作してもよい。これにより、生成モデルの動作上の性能が向上する可能性がある。
【0021】
いくつかの実施形態では、生成モデルは、信号領域で動作するようにトレーニングされていてもよい。
【0022】
いくつかの実施形態では、生成モデルは、自己回帰式に動作してもよく、または生成モデルは、ソース信号のフレーム全体を一度に再構成するように動作してもよい。
【0023】
いくつかの実施形態では、ステップ(c)における生成モデルは、条件付き確率密度関数を実装する生成モデルであってもよく、該生成モデルは、ソース信号の波形近似および任意的には前記一つまたは複数の補助パラメータを条件としていてもよい。この場合、本方法は、オーディオ符号化の文脈で一般に使用される他の波形符号化方式に対して、競争力のある知覚的性能を提供することができる。
【0024】
いくつかの実施形態では、生成モデルは、扱いやすい密度モデル(tractable density model)などの明示的な密度モデルであってもよい。いくつかの実施形態では、生成モデルは、畳み込みニューラルネットワーク(CNN)(たとえば、WaveNet)またはリカレントニューラルネットワーク(RNN)(たとえば、sampleRNN)などの自己回帰ニューラルネットワークであってもよい。いくつかの実施形態では、生成モデルは、条件付きフローモデルを含んでいてもよい。
【0025】
いくつかの実施形態では、生成モデルは、条件付きsampleRNNニューラルネットワークであってもよく、任意的に、条件付きsampleRNNニューラルネットワークは、畳み込み層を通じて各階層に条件が提供される4階層のsampleRNNであってもよい。
【0026】
いくつかの実施形態では、ソース信号の有限ビットレート表現は、ソース信号の有限ビットレート表現を含むビットストリームを生成する波形エンコーダによって取得されたものであってもよく、任意的に、さらに一つまたは複数の補助パラメータが波形エンコーダによって提供され、ビットストリームに含められてもよい。
【0027】
いくつかの実施形態では、波形エンコーダは、決定論的波形エンコーダであってもよい。
【0028】
いくつかの実施形態では、ソース信号のコンテンツ・タイプを示す情報を提供するさらなる一つまたは複数のソース分類子が、波形エンコーダによって提供され、ビットストリームに含められてもよく、および/または符号化方式の動作ビットレートを示すさらなる情報が、波形エンコーダによって提供され、ビットストリームに含められてもよい。
【0029】
本開示の第2の側面によれば、波形符号化のための方法が提供される。本方法は、(a)波形エンコーダによって、ソース信号に対して作用して、ソース信号の有限ビットレート表現を含むビットストリームを得るステップを含んでいてもよい。本方法は、さらに、(b)波形デコーダによって、ソース信号の有限ビットレート表現を含むビットストリームを受領するステップを含んでいてもよい。本方法は、さらに、(c)ソース信号の有限ビットレート表現を波形復号して、ソース信号の波形近似を得るステップを含んでいてもよい。本方法は、さらに、(d)ソース信号の波形近似を、確率密度関数を実装する生成モデルに提供して、ソース信号の再構成された信号についての確率分布を得るステップを含むことができる。また、本方法は、(e)確率分布に基づいてソース信号の再構成信号を生成するステップを含んでいてもよい。
【0030】
本開示の第3の側面によれば、波形符号化のためのシステムが提供される。本システムは、波形エンコーダと波形デコーダとを含み、本システムは、波形符号化のための前記方法を実行するように構成される。
【0031】
本開示の第4の側面によれば、生成モデルをトレーニングする方法が提供される。本方法は、(a)ソース信号のオリジナル信号を提供するステップを含んでいてもよい。本方法はさらに、(b)ソース信号のオリジナル信号を波形エンコードおよび波形デコードして、ソース信号の波形近似を得るステップを含んでいてもよい。本方法は、さらに、(c)ソース信号の波形近似を生成モデルに入力して、確率分布についてのパラメータ化された関数を得るステップを含んでいてもよい。また、本方法は、(d)前記生成モデルから得られた確率分布に基づいて、もとのソース信号の尤度を最大にするよう、生成モデルのパラメータを調整するステップを含んでいてもよい。
【0032】
いくつかの実施形態では、生成モデルは、ソース信号の波形近似、および任意的には一つまたは複数の補助パラメータに条件付けられてもよい。
【0033】
いくつかの実施形態では、ステップ(d)において、生成モデルのパラメータは、負の対数尤度〔符号を逆にした対数尤度〕(Negative-Log-Likelihood)のデータセットにわたる平均を最小化することに基づいて調整され得る。
【0034】
いくつかの実施形態では、ステップ(c)において、さらに、ソース信号の再構成された信号が、確率分布に基づいて生成されてもよく、ステップ(d)において、生成モデルのパラメータは、ソース信号の再構成された信号とソース信号のもとの信号との間の差の指標を最小化することに基づいて調整されてもよい。
【図面の簡単な説明】
【0035】
以下、添付の図面を参照して、本開示の例示的実施形態を例として説明する。
図1】生成モデルを用いた波形復号方法の一例のフロー図を示す。
図2】波形符号化器および生成モデルのシステムによって実装される、ソース信号の波形近似に条件付けられた生成モデルを用いた波形符号化の方法の例を概略的に示す。
図3】ソース信号の波形近似および一つまたは複数の補助パラメータに条件付けられた生成モデルを用いた波形復号方法の例のフロー図を示す。
図4】波形符号化器および生成モデルのシステムによって実装される、ソース信号の波形近似および一つまたは複数の補助パラメータに条件付けられた生成モデルを用いた波形符号化方法の例を概略的に示す。
図5】生成モデルのあらかじめ定義された集合から選択された生成モデルを用いた波形復号方法の一例のフロー図を示す。
図6】波形エンコーダと波形デコーダとのシステムによって実装される、生成モデルのあらかじめ定義された集合から選択される生成モデルを用いた、波形符号化方法の一例を概略的に示す。
図7】波形エンコーダおよび波形デコーダのシステムの一例を概略的に示す。
図8】生成モデルをトレーニングする方法の例を概略的に示す。
図9】ピアノ符号化タスクについての聴取試験結果を示す。
図10】発話符号化タスクについての聴取試験結果を示す。
図11A】ピアノ符号化タスクのスペクトログラムを示し、参照Xを示す。
図11B】ピアノ符号化タスクのスペクトログラムを示し、波形ベースラインを示す。
図11C】ピアノ符号化タスクのスペクトログラムを示し、生成モデルを用いた符号化方法の実施形態を用いた再構成を示す。
【発明を実施するための形態】
【0036】
波形符号化のための生成モデル
ここに記載される方法、装置およびシステムは、波形符号化されたオーディオの知覚的性能を改善することを目的とする。特に、帯域幅拡張およびもっともらしい構造をもつスペクトルホールの充填;インターリーブされた波形符号化および帯域幅拡張;およびサンプル歪み指標に関する性能の改善を容易にすることが可能である。本明細書に記載される方法、装置およびシステムは、波形符号化およびパラメトリック符号化の利点をシームレスに組み合わせる、生成モデルに基づくソース符号化方式を提供する。特定の信号カテゴリー(コンテンツ・タイプ)のためにトレーニングされると、この方式は最先端のソース符号化技法を上回る性能を発揮する。さらに、この符号化方式は、符号化歪みを割り当てるための知覚モデルと一緒に使用できる。この方式の動作とその性能は、解析的に記述し、予測することができる。
【0037】
生成モデルを用いた波形復号の方法
図1の例を参照すると、生成モデルを用いた波形復号方法の一例のフロー図が示されている。ステップS101では、ソース信号の有限ビットレート表現を含むビットストリームが、波形デコーダによって受領される。ある実施形態では、ソース信号の有限ビットレート表現は、ソース信号の有限ビットレート表現を含むビットストリームを生成する波形エンコーダによって得られたものであってもよい。ある実施形態では、波形エンコーダは、決定論的波形エンコーダであってもよい。
【0038】
ステップS102では、ソース信号の有限ビットレート表現は、ソース信号の波形近似を得るために波形復号される。
【0039】
ステップS103では、ソース信号の波形近似が、確率密度関数を実装する生成モデルに提供されて、ソース信号の再構成された信号についての確率分布を得る。ある実施形態では、生成モデルは、先読みを用いて動作してもよい。ある実施形態では、生成モデルは、信号領域で動作するようにトレーニングされていてもよい。
【0040】
ステップS104では、ソース信号の再構成された信号は、次いで、確率分布に基づいて生成される。ある実施形態では、ステップS104において、再構成された信号は、確率分布に従ってランダムサンプルを生成することによって生成されてもよい。あるいはまた、ステップS104において、再構成された信号は、確率分布に従ってサンプルを平均化することによって生成されてもよい。
【0041】
本明細書に記載される波形復号の方法は、前記方法を実行するように構成される一つまたは複数のプロセッサを備えるそれぞれの波形デコーダ上で実装されてもよい。
【0042】
波形符号化のための方法は、波形エンコーダおよび波形デコーダを含むシステム上で実装されてもよい。この方法は、(a)波形エンコーダによってソース信号に対して作用し、ソース信号の有限ビットレート表現を含むビットストリームを得るステップを含んでいてもよい。この方法は、さらに、(b)波形デコーダによって、ソース信号の有限ビットレート表現を含むビットストリームを受領するステップを含んでいてもよい。この方法は、さらに、(c)ソース信号の有限ビットレート表現を波形復号して、ソース信号の波形近似を得るステップを含んでいてもよい。この方法は、さらに、(d)ソース信号の波形近似を、確率密度関数を実装する生成モデルに提供して、ソース信号の再構成された信号の確率分布を得るステップを含んでいてもよい。また、この方法は、(e)確率分布に基づいてソース信号の再構成された信号を生成するステップを含んでいてもよい。
【0043】
上述したシステムの波形デコーダは、代替的または追加的に、本明細書に記載したような波形復号方法を実行するように構成されてもよいことに留意されたい。
【0044】
本明細書に記載される方法は、さらに、処理能力を有する装置によって実行されるときに、装置に前記方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクトとして実装されてもよい。
【0045】
条件付き生成モデルを用いた波形復号の方法
ある実施形態では、生成モデルは、ステップS103で条件付き確率密度関数を実装する生成モデルであってもよく、生成モデルは、ソース信号の波形近似を条件としていてもよい。
【0046】
ここで、図2の例を参照すると、波形符号化器と生成モデルのシステムによって実装されたソース信号の波形近似に条件付けられた生成モデルを用いた波形符号化の方法が示されている。
【0047】
一般に、本開示全体を通じて、ランダム変数には大文字が使用されることがあり、かかるランダム変数の実現には小文字が使用されることがあることに留意されたい。
【0048】
図2の例では、ソース信号X、1の有限ビットレート(パラメトリック)表現I、2が、波形エンコーダによって提供される。たとえば、波形エンコーダは、X、1によって表されるベクトルにブロック化されたソース信号サンプルに対して作用し、ソース信号の有限ビットレート表現I、2を得ることができる。波形エンコーダは、ビットレート‐歪みトレードオフのために(都合よく)最適化されてもよい(サンプル歪み指標、たとえば知覚的に重み付けされた二乗誤差を使用することによって)。
【0049】
たとえば波形デコーダによって、ソース信号X、1の有限ビットレート表現I、2を波形復号すると、次いで、ソース信号X、1の波形近似^X、3を生じる〔^付きのXを便宜上^Xで表す〕。生成モデルはこれを条件とする、4。条件付けされた生成モデル4は、条件付き確率密度関数を実装して、条件付き確率分布(1)を得ることができる:
【数1】
次いで、ソース信号X、1の再構成された信号
【数2】
5が、条件付き確率分布pθに従ってサンプルからランダムサンプリングするまたはサンプルを平均化することに基づいて生成されうる。
【0050】
図2の例に示されている波形符号化システム(方式)の構造は、オーディオ符号化の文脈で一般的に使用される他のソース(波形)符号化方式に対して、競争力のある知覚的性能を提供することができる。
【0051】
次に、図3の例を参照すると、ソース信号の波形近似および一つまたは複数の補助パラメータに条件付けられた生成モデルを用いた波形復号方法の例のフロー図が示されている。
【0052】
ステップS201では、ソース信号の有限ビットレート表現と、有限ビットレートで表現される一つまたは複数の補助パラメータとを含むビットストリームが、波形デコーダによって受領されてもよい。前記一つまたは複数の補助パラメータは、ソース信号の、少なくとも1つの周波数帯域についての周波数帯域当たりのエネルギーおよび/またはスペクトルエンベロープに関する指示を含むことができる。ソース信号の有限ビットレート表現と有限ビットレートで表現される一つまたは複数の補助パラメータは、波形エンコーダによって提供されたものであってもよい。ある実施形態では、波形エンコーダは、決定論的波形エンコーダであってもよい。
【0053】
ステップS202では、ソース信号の有限ビットレート表現が波形復号されて、ソース信号の波形近似を得てもよい。
【0054】
ステップS203では、ソース信号の波形近似は、ソース信号の波形近似および一つまたは複数の補助パラメータに条件付けられた生成モデルに提供されてもよい。このように、生成モデル(generative model)は、ソース信号の再構成された信号について条件付き確率分布を得るための条件付き確率密度関数を実装しうる。
【0055】
ステップS204では、ソース信号の再構成された信号が、条件付き確率分布に基づいて生成されてもよい。ある実施形態では、ステップS204において、再構成された信号は、条件付き確率分布に従ってランダムサンプルを生成することによって生成されてもよい。あるいはまた、ステップS204において、再構成された信号は、条件付き確率分布に従ってサンプルを平均化することによって生成されてもよい。
【0056】
ここで図4の例を参照すると、波形符号化器および生成モデルのシステムによって実装される、ソース信号の波形近似および一つまたは複数の補助パラメータに条件付けられた生成モデルを用いた波形符号化の方法の例が、概略的に図示されている。図4の例では、図2の例と同様に、ソース信号X、1の有限ビットレート表現I、2が、波形エンコーダによって提供される。たとえば、波形エンコーダは、X、1によって表されるベクトルにブロック化されたソース信号サンプルに対して作用し、ソース信号の有限ビットレート表現I、2を得ることができる。波形エンコーダは、ビットレート‐歪みトレードオフのために(都合よく)最適化されてもよい(サンプル歪み指標、たとえば知覚的に重み付けされた二乗誤差を使用することによって)。さらに、有限ビットレートで表される一つまたは複数の(一組の)補助パラメータα、6も、波形エンコーダによって提供されてもよい。
【0057】
たとえば波形デコーダによって、ソース信号X、1の有限ビットレート表現I、2を波形復号することは、ソース信号X、1の波形近似^X、3を与える。図4の例では、生成モデル4は、ソース信号X、1の波形近似^X、3と、一つまたは複数の補助パラメータα、6の両方に条件付けされてもよい。条件付き生成モデル4は、条件付き確率密度関数を実装して、次のように条件付き確率分布(2)を得てもよい:
【数3】
次いで、ソース信号X、1の再構成された信号
【数4】
5が、上記の条件付き確率分布pθに従ってサンプルからランダムサンプリングする、またはサンプルを平均化することに基づいて生成されうる。図4の例に示されている波形符号化システム(方式)の構造は、オーディオ符号化の文脈で一般的に使用される他のソース(波形)符号化方式に対して、競争力のある知覚的性能を提供することも可能である。
【0058】
生成モデルのあらかじめ定義された集合を用いた波形復号の方法
ここで図5の例を参照すると、生成モデルのあらかじめ定義された集合から選択された生成モデルを用いて波形復号する方法の例のフロー図が示されている。ステップS301では、受領されたビットストリームは、ソース信号の有限ビットレート表現と、ソース信号のコンテンツ・タイプを示す情報とを含んでいてもよい。ある実施形態では、ソース信号のコンテンツ・タイプを示す情報を提供する一つまたは複数のソース分類子が、波形エンコーダによって提供され、ビットストリームに含められてもよい。ソース信号のコンテンツ・タイプは、たとえば、ソース信号の信号カテゴリーを指してもよい。信号カテゴリーは、限定されるものではないが、発話、残響のある発話、拍手、および音楽のうちの一つまたは複数を含むことができる。図5の例では、ビットストリームは、ソース信号のコンテンツ・タイプを示す情報を含むように示されているが、代替的または追加的に、ある実施形態では、ビットストリームは、さらに、符号化方式の動作ビットレートを示す情報を含むことができる。
【0059】
ステップS302では、ソース信号の有限ビットレート表現が波形復号されて、ソース信号の波形近似を得てもよい。
【0060】
ステップS303では、ソース信号のコンテンツ・タイプを示す情報に基づいて、生成モデルのあらかじめ定義された集合から、たとえばモデル選択器によって、生成モデルが選択されてもよい。この場合、波形デコーダによって受領された(すなわち、波形エンコーダによって送られた)ビットストリームは、波形デコーダ側で、生成モデルのあらかじめ定義された集合から、使用される生成モデルを決定(選択)することを可能にする情報を含む。決定(選択)は、たとえば、フレームベースで容易にされうる。たとえば、生成モデルのあらかじめ定義された集合における生成モデルが列挙されてもよく、ソース信号のコンテンツ・タイプを示す情報が、生成モデルのあらかじめ定義された集合のうちから使用されるべき生成モデルを示す数字として提供されてもよい。
【0061】
すでに述べたように、代替的または追加的に、ある実施形態では、ビットストリームは、さらに、符号化方式の動作ビットレートを示す情報を含んでいてもよい。この場合、ステップS302において、生成モデルは、符号化方式の動作ビットレートを示す情報に基づいて、生成モデルのあらかじめ定義された集合から選択されてもよい。たとえば、符号化方式は、3つの異なるビットレートR1<R2<R3での動作を容易にすることができる。各ビットレートについて、そのビットレートのためにトレーニングされた別個の(個々の)生成モデルがあってもよい。この場合、動作ビットレートは、たとえば、可能なビットレートを列挙することによって、ビットストリームにおいて示されてもよい。次いで、生成モデルは、この情報に基づいて、たとえばモデル選択器によって、選択されてもよく、すなわち、ビットレートR1についての別個の生成モデル、ビットレートR2についての別個のモデル、およびビットレートR3についての別個のモデルが存在してもよい。この例では、3つの異なるビットレートが示されるが、可能なビットレートの数は任意でありうる。たとえば、16kbpsの発話についてある生成モデルが提供されてもよく、32kbpsの発話については別の生成モデルが提供されてもよい。
【0062】
次いで、ソース信号の波形近似は、確率密度関数を実装する選択された生成モデルに提供されて、ソース信号の再構成された信号についての確率分布を得てもよい。選択された生成モデルは、ソース信号の波形近似に条件付けられた生成モデルであってもよい。さらに、受領されたビットストリームは、有限ビットレートで表される一つまたは複数の補助パラメータをさらに含んでいてもよく、選択された生成モデルは、さらに、上記のように、前記一つまたは複数の補助パラメータに条件付けられてもよい。
【0063】
ステップS304では、ソース信号の再構成された信号は、次いで、選択された生成モデルに依存する条件付き確率分布でありうる確率分布に基づいて生成されてもよい。ある実施形態では、ステップS304において、再構成された信号は、確率分布に従ってランダムサンプルを生成することによって生成されてもよい。あるいはまた、ステップS304において、再構成された信号は、確率分布に従ってサンプルを平均化することによって生成されてもよい。
【0064】
ある実施形態では、本方法は、ソース信号のコンテンツ・タイプを示す情報に基づいて、ソース信号の波形近似値がソース信号の再構成信号として出力されるべきであることを決定するステップをさらに含んでいてもよい。よって、パススルーモードが実装されてもよい。たとえば、生成モデルは、信号カテゴリー発話のみのために選択されてもよく、すると、他の信号カテゴリーは素通しにされてもよい。生成モデルはまた、拍手信号のみのために選択されてもよく、他の信号カテゴリーが素通しにされてもよい。さらに、信号カテゴリー、発話および拍手のためにそれぞれ生成モデルが選択されてもよく、その場合、他の信号カテゴリー、たとえば、音楽または残響のある発話は素通しにされてもよい。さらに、パススルーモードは、生成モデルのあらかじめ定義された集合におけるどの生成モデルも、それぞれの信号カテゴリーについてトレーニングされていない場合にも実施されうる。次いで、再構成された信号は、波形デコーダによって提供されてもよい。
【0065】
代替的または追加的に、ソース信号の波形近似がソース信号の再構成された信号として出力されるべきであると決定することは、符号化方式の動作ビットレートを示す情報にも基づいてもよい。よって、パススルーモードが実装されてもよい。パススルーモードは、特に、高ビットレートについて実装されてもよい。
【0066】
ここで図6の例を参照すると、波形エンコーダおよび波形デコーダのシステムによって実装される、生成モデルのあらかじめ定義された集合から選択された生成モデルを用いた波形符号化の方法の例が示されている。
【0067】
波形エンコーダ7は、オーディオソース信号9に対して作用する波形コアエンコーダ10によって得られたソース信号の有限ビットレート表現を含むビットストリーム12を提供してもよい。ある実施形態では、波形エンコーダ7は、さらに、符号化方式の動作ビットレートを示す情報を提供し、符号化方式の動作ビットレートを示す情報をビットストリーム12内に含めるように構成されてもよい。一つまたは複数のソース分類子11が、さらに、波形エンコーダ7によって提供され、ビットストリーム12に含められてもよい。
【0068】
ビットストリーム12は、波形デコーダ8によって受領されてもよい。波形デコーダ8は、ソース信号の有限ビットレート表現を波形復号して、ソース信号の波形近似を得るように構成された波形コアデコーダ13を含んでいてもよい。波形デコーダ8は、さらに、前記一つまたは複数のソース分類子11によって提供されるソース信号のコンテンツ・タイプを示す情報に基づいて、生成モデルのあらかじめ定義された集合1…N、16から生成モデルを選択するように構成されたモデル選択器14を含んでいてもよい。ソース信号のコンテンツ・タイプは、たとえば、ソース信号の信号カテゴリーを指してもよい。たとえば、生成モデルのあらかじめ定義された集合1…N、16の各生成モデルは、信号カテゴリーを再構成するようにトレーニングされてもよい。信号カテゴリーは、限定されるものではないが、発話、残響のある発話、拍手、および音楽のうちの一つまたは複数を含むことができる。よって、ソース信号のコンテンツ・タイプを示す情報は、モデル選択器14が、生成モデルのあらかじめ定義された集合1…N、16のうちから使用される生成モデルを選択(決定)することを可能にする。これは、たとえば、フレームベースで容易にされてもよい。たとえば、生成モデルのあらかじめ定義された集合1…N、16における生成モデルが列挙されてもよく、ソース信号のコンテンツ・タイプを示す情報は、さらに、使用されるべき生成モデルを示す番号を含んでいてもよく、および/または、使用されるべき生成モデルを示す番号であってもよい。
【0069】
代替的または追加的に、ある実施形態では、モデル選択器14は、符号化方式の動作ビットレートを示す情報に基づいて、生成モデルのあらかじめ定義された集合1…N、16から生成モデルを選択するようにさらに構成されてもよい。たとえば、生成モデルのあらかじめ定義された集合1…N、16は、ターゲット動作ビットレートに関して別々にトレーニングされた生成モデルを含んでいてもよい。たとえば、符号化方式が3つの異なるビットレートR1<R2<R3での動作を容易にする場合、各ビットレートについて3つの別々にトレーニングされた生成モデルがあってもよい。動作ビットレートは、たとえば可能なビットレートを列挙することによって、波形デコーダ8によって受領されるビットストリームにおいて示されてもよく、可能なビットレートの数は任意でありうる。次いで、モデル選択器14は、この情報に基づいて使用されるべき生成モデルを選択するように構成されてもよい。この場合、生成モデルのあらかじめ定義された集合1…N、16における生成モデルも、しかるべく列挙されてもよい。たとえば、生成モデルのあらかじめ定義された集合1…N、16は、16kbpsの発話のための生成モデルと、32kbpsの発話のための別の生成モデルを含んでいてもよい。
【0070】
次いで、ソース信号の波形近似は、確率密度関数を実装する、生成モデルのあらかじめ定義された集合1…N、16のうちからの選択された生成モデルに提供されて、ソース信号の再構成された信号についての確率分布を得てもよい。ソース信号17の再構成された信号は、次いで、確率分布に基づいて、波形デコーダ8によって生成され、出力されてもよい。
【0071】
モデル選択器14は、さらに、パススルー選択15によって示されるように、一つまたは複数のソース分類子11によって提供されるソース信号のコンテンツ・タイプを示す情報に基づいて、ソース信号17の再構成された信号として、ソース信号の波形近似が出力されるべきであることを決定するように構成されてもよい。代替的または追加的に、モデル選択器14は、パススルー選択15によって示されるように、符号化方式の動作ビットレートを示す情報に基づいて、ソース信号17の再構成された信号として、ソース信号の波形近似が出力されるべきであることを決定するようにさらに構成されてもよい。たとえば、動作ビットレートが32kbpsの発話であると示され、生成モデルのあらかじめ定義された集合1…N、16がこのビットレートのためにトレーニングされた生成モデルを含まないであろう場合、モデル選択器14は、パススルー選択15によって示されるように、生成モデルのあらかじめ定義された集合16をバイパスするように構成されてもよい。
【0072】
波形符号化器〔波形コーダ〕
以下では、図7に示す例に基づいて、波形符号化器(波形エンコーダと波形デコーダのシステム)の一例を説明する。MDCT領域で動作する波形符号器が使用されうる。入力ソース信号X、1は、320サンプルのストライドで(fS=16kHzのサンプリング周波数で)MDCT、18aの適用を容易にするためにフレーム化されうる。変換の係数は、N個の一様でない重複しない周波数帯にブロック化されてもよい。n番目の帯域について、係数の分散が計算され、3dBステップで量子化され、インデックスienv(n)が得られる。量子化された値は、ベクトルε、21にブロック化され、ハフマン・コードブックを用いた周波数差分符号化を用いてビットストリームに符号化される。
【0073】
エンコーダ側では、MDCT係数は、まず、エンベロープε、21に従って、F(・)、19aによってスペクトル的に平坦化されうる。次いで、平坦化されたMDCTラインは、フレーム当たりのビットレート制約を満たすように選択された量子化器の集合によって量子化されうる。量子化器の集合[m0,…,mM]は、各mnとmn+1の間で1.5dBずつSNRが段階的に増加するように順序付けられてもよい。各mnはハフマン・コードブックに関連付けられてもよい。
【0074】
すべての符号化ブロックについて、レート割当プロセスは、そのブロックに割り当てられるビットの総数によって制約されうる。それは、mn=ienv(n)-ioffsetによって制御されうる。ここで、ioffsetは、すべての周波数帯域に共通の整数であり、mnは0≦mn≦Mとなるように制限されうる。ioffsetの値は、バイナリサーチによって決定されてもよい。バイナリサーチは、知覚的に重み付けされた領域における逆水充填手順(reverse water-filling procedure)に類似している。このレート割り当ての知覚的効果は、フレーム内のSNRがスペクトルエンベロープの平方根に比例して割り当てられる(帯域内エンベロープ値の3dBの増加毎に1.5dBのSNR増を割り当てる)というものであってもよい。
【0075】
デコーダ側では、MDCTラインは、平坦化された領域で再構成されてもよく、次いで、逆スペクトル平坦化F-1(・)、19bが適用されてもよい。逆平坦化はε、21によって制御され、これは、量子化された変換係数およびレート割り当てパラメータioffsetと一緒にビットストリームからデコードされうる。
【0076】
条件付きsampleRNN
ソース信号の波形近似が与えられる生成モデルは限定されない。ある実施形態では、生成モデルは、自己回帰式に作用してもよく、または、生成モデルは、ソース信号のフレーム全体を一度に再構成するように作用してもよい。ある実施形態では、条件付きsampleRNNニューラルネットワークが使用されてもよい。以下では、特定のsampleRNNニューラルネットワークの例を説明するが、これは限定を意図したものではない。一般に、sampleRNNは、トレーニングされたモデルから生の音声信号をサンプリングすることによって生の音声信号を生成するための、ディープニューラル生成モデルである。それは、異なる時間スケールでシーケンスのダイナミクスをモデル化することができる一連のマルチレート・リカレント層と、パラメータ化された単純な分布の使用を許容するマルチレベルパーセプトロン(multilevel perceptron、MLP)からなる。SampleRNNは、以前のすべてのサンプルで条件付けられた、同時分布の、スカラーサンプル分布の積への因子分解によって、xにおけるブロック化されたオーディオサンプルのシーケンスの確率をモデル化する。
これは、一時には単一のスカラーサンプルが引き出される、効率的な実装を容易にする。
【0077】
生成モデルは、pθ(x|y)に従って条件付けされてもよい。xにおけるブロック化されたスカラーサンプルは、[s0,…,sn]によって示されてもよい。この場合、モデルは(3)に従って再帰的に動作しうる:
【数5】
ある実施形態では、条件付きsampleRNNニューラルネットワークは、条件付けが畳み込み層を通じて各階層に提供される4階層のsampleRNNであってもよい。出力層は、16ビット出力を生成するためにロジスティックス技法の離散化された混合を利用することができる。モデルは、波形コーデックによって再構成された信号領域サンプルのフレームと、εにおける量子化された信号エンベロープの関連する値とを含むyで条件付けされてもよい。ある実施形態では、生成モデルは先読み〔ルックアヘッド〕を用いて動作してもよく、それは性能を改善しうる。これは、条件付けベクトルを3×1畳み込み層で処理することによって行われてもよく、これは、2つのコーデック・フレームの先読みにつながりうる。上述の条件付けに加えて、MLPブロックは、予測ターゲットと位置合わせされたサンプルを中心とする1×319カーネルを利用して、畳み込み層を通して処理された符号化された波形へのアクセスを有しうる。
【0078】
生成モデルのトレーニング
一般に、ソース信号の波形近似が提供される生成モデルのトレーニングは限定されない。生成モデルのトレーニングは、使用される生成モデルのタイプおよび適用されうる条件付けに適合させることができる。しかしながら、生成モデルをトレーニングする方法は、(a)ソース信号のもとの信号を提供するステップを含むことができる。本方法はさらに、(b)ソース信号のもとの信号を波形エンコードおよびデコードして、ソース信号の波形近似を得るステップを含んでいてもよい。この方法は、さらに、(c)生成モデルにソース信号の波形近似を入力して、確率分布のパラメータ化された関数を得るステップを含んでいてもよい。また、この方法は、(d)前記生成モデルから得られた確率分布に基づいてもとのソース信号の尤度を最大にするよう、生成モデルのパラメータを調整(トレーニング)するステップを含んでいてもよい。
【0079】
生成モデルのトレーニングも、条件付けに関わってもよい。ある実施形態では、生成モデルは、ソース信号の波形近似、および任意的には一つまたは複数の補助パラメータで条件付けられてもよい。より具体的には、トレーニングデータセットは、以下の仕方で構築されうる。(トレーニングに使用される)信号の集合における各信号は、フレームに分割される。さらに、各信号は波形コーデックによって符号化され、フレームに分割される再構成された波形および/または補助パラメータを生じ、その結果、非符号化信号と波形符号化信号のサンプルの整列が可能となる。
【0080】
すでに述べたように、適用されるトレーニングのタイプは限定されない。ある実施形態では、ステップ(c)において、さらに、ソース信号の再構成された信号が、確率分布についてのパラメータ化された関数に基づいて生成されてもよく、ステップ(d)において、生成モデルのパラメータが、ソース信号の再構成された信号とソース信号のもとの信号との間の差の指示を最小化することに基づいて調整されてもよい。
【0081】
生成モデルはまた、目的に基づいてトレーニングされてもよい。ある実施形態では、ステップ(d)において、生成モデルのパラメータは、負の対数尤度(NLL)のデータセットにわたる平均を最小化することに基づいて調整されてもよい。よって、NLLをトレーニング目的として使用することができる。よって、生成モデルは、何らかの分布マッチ(distribution match)についてさらに最適化されうる。
【0082】
ここで図8の例を参照すると、生成モデルをトレーニングする方法の例が概略的に示されている。もとのソース信号X、22は、波形符号化、すなわち、波形エンコードおよびデコードされ23、ソース信号の波形近似^X、24を得てもよい。波形符号化は、生成モデルがトレーニングされる領域とは異なる領域において容易にされうる。利用可能なビットレートとサンプル歪み(たとえば、重み付けされた二乗誤差)との間のトレードオフのために最適化された(波形マッチを提供する)波形符号化器が使用されてもよい。ある実施形態では、生成モデルは、信号領域で動作するようにトレーニングされてもよい。生成モデルは、信号カテゴリーを再構成するためにさらにトレーニングされてもよい。信号カテゴリーは、限定されるものではないが、発話、残響のある発話、拍手、および音楽のうちの一つまたは複数を含むことができる。代替的または追加的に、生成モデルは、(目標)動作ビットレート、たとえば、16kbps発話または32kbps発話に関してさらにトレーニングされてもよい。
【0083】
ソース信号の波形近似^X、24およびもとのソース信号X、22が、生成モデル25に入力されうる。生成モデル25は、確率分布を得るために確率密度関数を実装してもよく、次いで、それに基づいて、ソース信号の再構成された信号
【数6】
26が得られてもよい。生成モデル25のパラメータは、もとのソース信号X、22の観点からの、ソース信号の再構成された信号26の品質に基づいて調整されてもよい。
【0084】
実験結果
NLLをトレーニング目的として、上記の例示的な条件付き4階層sampleRNNモデルを用いて実験を行った。2つの符号化タスクの主観的評価を行った。第1のタスクは、ピアノ抜粋の符号化に関するものであった。第2のタスクは、発話の符号化に関するものであった。結果は、符号化タスクにおいて考慮される特定の信号カテゴリーについて典型的に使用されるであろうソース符号化ツールを表すように意図された現状技術のコーデックと比較された。
【0085】
第1の実験では、ピアノ符号化タスクについて性能を評価した。同期トラックおよび編成のために編集されたオーディオ])データセット、音符ラベルとオーディオ波形の間の精密なアラインメント(約3ms)で捕捉された200時間を超える名人のピアノ演奏からなるデータセットを用いて、生成モデルをトレーニングした。データセットは、重複しないトレーニングセット、有効確認セットおよび試験セットに分割した。第1階層および第2階層によって使用されたフレームサイズは8に等しく、第3階層のフレームサイズは64に等しく、第4階層のフレームサイズは320に等しかった。ロジスティック混合成分の数は1に等しかった。MUSHRA(MUltiple Stimuli with Hidden Reference and Anchor[隠れ参照およびアンカーのある複数刺激])聴取テスト(ITU-R BS.1534で定義)を試験セット項目に対して実施し、Opusコーデック、AACコーデック、16kb/sで動作するベースライン波形符号化器と比較した。条件にはまた、隠れ参照(16kHzサンプリング)および3.5kHzローパス・アンカー(「LP 3.5kHz」)も含まれていた。第1の実験結果を図9に示す。生成モデルを用いた符号化方法(「sRNN 16」)は、AAC(「AAC 16」)およびOpusに対して競争力をもちながら、ベースライン波形符号化器(「Waveform 16」)を大幅に上回る性能を有することがわかる。
【0086】
第2の実験では、発話符号化タスクについて性能を評価した。この場合、生成モデルは、WSJ0データセット(Continuous Speech Recognition Pilot Corpus[連続発話認識パイロットコーパス]またはCSI-I)を用いてトレーニングされた。このデータセットには、ウォール・ストリート・ジャーナルの抄録を読む123人の話者の高音質の発話録音が含まれている。データセットは、重複しない話者による、トレーニングセット、有効確認セット、試験セットに分けられた。第1の階層および第2の階層によって使用されたフレームサイズは2に等しく、第3の階層のフレームサイズは16に等しく、第4の階層のフレームサイズは160に等しかった。ロジスティック混合成分の数は10に等しかった。上述の試験と同様のMUSHRA試験を実施し、試験セット項目を24kb/sのOpusオーディオコーデック、23.05kb/sのAMR-WB(Adaptive Multirate Wideband Speech Codec[適応マルチレート・ワイドバンド発話コーデック])コーデック、および16kb/sで動作するベースライン波形符号化器と比較した。その結果が図10に示される。生成モデルを用いた符号化方法(「sRNN 6」)は、現状技術のコーデックに対して競争力をもちつつ、波形ベースライン(「Waveform 16」)を大幅に上回る性能を発揮していることが分かる。
【0087】
波形ベースラインに対する、生成モデルを用いた符号化法の有意な知覚的利点は、再構成された信号のスペクトログラムを検査しながら明らかになる。たとえば、図11a図11cは、ピアノ符号化実験についてのスペクトログラムを示しており、図11aは、参照Xを示し、図11bは、波形ベースラインを示し、図11cは、生成モデルを用いた符号化方法の再構成を示す。
【0088】
解釈
特に断らない限り、以下の議論から明らかなように、本開示を通して、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、コンピュータまたはコンピューティングシステムまたは同様の電子コンピューティング装置のアクションおよび/またはプロセスであって、物理量、たとえば電子的な量として表されるデータを操作および/または変換して、同様に表現される物理量にするものを指すことが理解される。
【0089】
同様に、用語「プロセッサ」は、たとえばレジスタおよび/またはメモリからの電子データを処理して、該電子データを、たとえばレジスタおよび/またはメモリに記憶することができる他の電子データに変換する任意の装置または装置の部分を指してもよい。「コンピュータ」または「計算機」または「計算プラットフォーム」は、一つまたは複数のプロセッサを含みうる。
【0090】
本明細書に記載される方法論は、ある例示的実施形態では、一つまたは複数のプロセッサによって実行されたときに本明細書に記載の方法のうちの少なくとも1つを実行する命令のセットを含むコンピュータ可読(機械可読とも呼ばれる)コードを受け入れる一つまたは複数のプロセッサによって実行可能である。実行されるべきアクションを指定する一組の命令(シーケンシャルまたはその他)を実行することができる任意のプロセッサが含まれる。よって、1つの例は、一つまたは複数のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、テンソル処理ユニット、およびプログラマブルDSPユニットのうちの一つまたは複数を含んでいてもよい。処理システムはさらに、メインRAMおよび/またはスタティックRAMおよび/またはROMを含むメモリサブシステムを含んでいてもよい。構成要素間で通信するためのバスサブシステムが含まれてもよい。処理システムは、さらに、ネットワークによって結合されたプロセッサを有する分散処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイ、たとえば、液晶ディスプレイまた(LCD)は陰極線管ディスプレイ(CRT)が含まれてもよい。手動データ入力が必要な場合には、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング・コントロール・デバイスなどのうちの一つまたは複数のような入力デバイスをも含む。処理システムは、ディスクドライブユニットのような記憶システムも含むことができる。いくつかの構成における処理システムは、音声出力装置およびネットワークインターフェース装置を含むことができる。よって、メモリサブシステムは、一つまたは複数のプロセッサによって実行されたときに、本明細書に記載された一つまたは複数の方法を実行させる一組の命令を含む、コンピュータ読み取り可能なコード(たとえば、ソフトウェア)を担持するコンピュータ読み取り可能なキャリア媒体を含む。方法がいくつかの要素、たとえば、いくつかのステップを含む場合、特定断りのない限り、そのような要素の順序付けは暗示されないことに注意されたい。ソフトウェアは、ハードディスク内に存在してもよく、あるいは、コンピュータシステムによるその実行中、完全にまたは少なくとも部分的に、RAM内および/またはプロセッサ内に存在してもよい。よって、メモリおよびプロセッサは、コンピュータ読み取り可能なコードを担持するコンピュータ読み取り可能なキャリア媒体をも構成する。さらに、コンピュータ読み取り可能なキャリア媒体は、コンピュータ・プログラム・プロダクトを形成してもよく、またはコンピュータ・プログラム・プロダクトに含まれてもよい。
【0091】
代替的な例示的実施形態では、前記一つまたは複数のプロセッサは、スタンドアローン装置として動作してもよく、または、ネットワーク接続された展開において、ネットワーク接続されてもよく、たとえば、他のプロセッサにネットワーク接続されてもよく、前記一つまたは複数のプロセッサは、サーバー‐ユーザー・ネットワーク環境内のサーバーまたはユーザーマシンの資格で動作してもよく、または、ピアツーピアまたは分散ネットワーク環境内のピアマシンとして動作してもよい。一つまたは複数のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、セルラー電話、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、または、当該マシンが取るべきアクションを指定する一組の命令(シーケンシャルまたはその他)を実行することができる任意のマシンをなしうる。
【0092】
「マシン」という用語はまた、本明細書で議論される方法論のいずれか一つまたは複数を実行するための命令のセット(または複数セット)を個別にまたは共同で実行するマシンの集合を含むと解釈されることに留意されたい。
【0093】
よって、本明細書に記載される各方法の一つの例示的実施形態は、一組の命令、たとえば、一つまたは複数のプロセッサ、たとえば、ウェブ・サーバー構成の一部である一つまたは複数のプロセッサ上で実行するためのコンピュータ・プログラムを担持するコンピュータ可読なキャリア媒体の形である。よって、当業者には理解されるように、本開示の例示的実施形態は、方法、特殊目的装置のような装置、データ処理システムのような装置、またはコンピュータ読み取り可能なキャリア媒体、たとえば、コンピュータ・プログラム・プロダクトとして具現されうる。コンピュータ読み取り可能なキャリア媒体は、一つまたは複数のプロセッサ上で実行されたときにプロセッサに方法を実施させる一組の命令を含むコンピュータ読み取り可能コードを担持する。よって、本開示の諸側面は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、またはソフトウェアとハードウェアの側面を組み合わせた例示的な実施形態の形をとることができる。さらに、本開示は、媒体内に具現されたコンピュータ読み取り可能なプログラムコードを担持するキャリア媒体(たとえば、コンピュータ読み取り可能な記憶媒体上のコンピュータ・プログラム・プロダクト)の形をとることができる。
【0094】
ソフトウェアは、さらに、ネットワークインターフェース装置を介してネットワークを通じて送受信されてもよい。キャリア媒体は、例示的実施形態では単一の媒体であるが、「キャリア媒体」という用語は、一つまたは複数組の命令を記憶する単一の媒体または複数の媒体(たとえば、中央集中型または分散型データベース、および/または関連するキャッシュおよびサーバー)を含むように解釈されるべきである。用語「キャリア媒体」はまた、一つまたは複数のプロセッサによる実行のため、前記一つまたは複数のプロセッサに本開示の方法論のいずれか一つまたは複数を実行させる一組の命令を記憶、エンコード、または担持することができ任意の媒体を含むと解釈される。キャリア媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む多くの形態をとることができる。不揮発性媒体は、たとえば、光ディスク、磁気ディスク、および光磁気ディスクを含む。揮発性媒体は、メインメモリのようなダイナミックメモリを含む。伝送媒体は、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバーを含む。また、伝送媒体は、電波および赤外線データ通信の間に生成されるような、音波または光波の形態をとることができる。たとえば、「キャリア媒体」という用語は、固体メモリ、光学および磁気媒体に具現されたコンピュータ・プロダクト、少なくとも1つのプロセッサまたは一つまたは複数のプロセッサによって検出可能であり、実行時に方法を実装する一組の命令を表す伝搬信号を担持する媒体、および一つまたは複数のプロセッサのうちの少なくとも1つのプロセッサによって検出可能な伝搬信号を担持し、一組の命令を表すネットワーク内の伝送媒体を含むが、これらに限定されない。
【0095】
論じられた方法のステップは、ある例示的実施形態では、記憶装置に記憶された命令(コンピュータ読み取り可能コード)を実行する処理(たとえばコンピュータ)システムの適切なプロセッサ(または複数のプロセッサ)によって実行されることが理解されよう。また、本開示は、任意の特定の実装またはプログラミング技法に限定されず、本明細書に記載される機能性を実施するための任意の適切な技法を用いて実施可能であることも理解されるであろう。本開示は、特定のプログラミング言語またはオペレーティング・システムに限定されない。
【0096】
本開示全体を通して、「ある例示的実施形態」、「いくつかの例示的実施形態」または「一例の実施形態」への言及は、その例示的実施形態に関連して記載された特定の特徴、構造または特徴が、本開示の少なくとも1例示的実施形態に含まれることを意味する。よって、本開示のさまざまな箇所における「ある例示的実施形態では」、「いくつかの例示的実施形態では」または「一例の実施形態では」という句の出現は、必ずしもすべてが同じ例示的な実施形態を参照しているわけではない。さらに、特定の特徴、構造または特徴は、本開示から当業者に明らかなように、一つまたは複数の例示的な実施形態では、任意の適切な方法で組み合わせることができる。
【0097】
本明細書中で使用されるところでは、特に断りのない限り、共通の対象を記述するための序数形容詞「第1の」、「第2の」、「第3の」などの使用は、単に、同様の対象の異なるインスタンスが言及されていることを示し、かつ、そのように記述された対象が、時間的に、空間的に、ランク付けにおいて、または他のいかなる仕方でも、所与の序列でなければならないことを意味することを意図しない。特許請求の範囲および本明細書中の説明において、有する、備える、で構成されるという用語のうちのいずれも、少なくとも挙げられている要素/特徴を含むが、それ以外を除外しない開放的な用語である。よって、特許請求の範囲において使用される場合、有するという用語は、列挙される手段または要素またはステップに限定されるものとして解釈されるべきではない。たとえば、AおよびBを含む装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本明細書で使用される、含む、または含んでいるという用語のいずれも、やはり、少なくとも挙げられている要素/特徴を含むが、それ以外を除外しない、開放的な用語である。よって、含むは、有すると同義であり、有することを意味する。
【0098】
本開示の例示的実施形態の上述の説明では、本開示の流れをよくし、種々の発明的側面の一つまたは複数の理解を助ける目的で、本開示の種々の特徴が、単一の例示的実施形態、図、またはその記述にまとめられることがあることが理解されるべきである。しかしながら、この開示方法は、請求項が各請求項において明示的に記載されているよりも多くの事項を必要とするという意図を反映するものと解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明側面は、前述の単一の開示された例示的実施形態のすべての特徴よりも少ないものにある。よって、発明の詳細な説明に続く請求項は、ここに明示的にこの発明の詳細な説明に組み込まれ、各請求項が本開示の別個の例示的実施形態として自立する。
【0099】
さらに、本明細書に記載されるいくつかの例示的実施形態は、他の例示的実施形態に含まれるいくつかの事項を含むが他の事項は含まないものの、異なる例示的実施形態の特徴の組み合わせは、当業者に理解されるように、本開示の範囲内であり、異なる例示的実施形態を形成することが意図されている。たとえば、以下の請求項では、請求項に記載された例示的実施形態の任意のものが任意の組み合わせで使用できる。
【0100】
本明細書に提供される説明において、多数の個別的な詳細が記載されている。しかしながら、本開示の例示的な実施形態は、これらの個別的な詳細なしに実施されうることが理解される。他方では、周知の方法、構造および技術は、この説明の理解を不明瞭にしないために詳細には示されていない。
【0101】
よって、本開示の最良の態様であると考えられるものが記載されているが、当業者は、開示の精神から逸脱することなく、他のおよびさらなる修正がそれになされうることを認識し、本開示の範囲にはいるそのようなすべての変更および修正を請求することが意図されている。たとえば、上記で数式が与えられていれば、それは、単に使用されうる手順を表す。ブロック図から機能が追加または削除されてもよく、機能性ブロック間で動作が交換されてもよい。本開示の範囲内で、記載される方法にステップが追加または削除されてもよい。
【0102】
本発明の種々の側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されうる。
EEE1
波形復号の方法であって、当該方法は:
(a)波形デコーダによって、ソース信号の有限ビットレート表現を含むビットストリームを受領するステップと;
(b)前記ソース信号の前記有限ビットレート表現を波形復号して、前記ソース信号の波形近似を得るステップと;
(c)確率密度関数を実装する生成モデルに前記ソース信号の前記波形近似を提供して、前記ソース信号の再構成された信号の確率分布を得るステップと;
(d)前記確率分布に基づいて前記ソース信号の再構成された信号を生成するステップとを含む、
方法。
EEE2
ステップ(d)において、再構成された信号は、前記確率分布に従ってランダムサンプルを生成することによって生成される、EEE1に記載の方法。
EEE3
ステップ(d)において、再構成された信号は、前記確率分布に従ってサンプルを平均化することによって生成される、EEE1に記載の方法。
EEE4
ステップ(a)において、受領されたビットストリームは、有限ビットレートで表される一つまたは複数の補助パラメータをさらに含む、EEE1ないし3のうちいずれか一項に記載の方法。
EEE5
前記一つまたは複数の補助パラメータは、前記ソース信号の、少なくとも1つの周波数帯域についての周波数帯域当たりのエネルギーおよび/またはスペクトルエンベロープに関する指示を含む、EEE4に記載の方法。
EEE6
ステップ(a)において、受領されたビットストリームは、前記ソース信号のコンテンツ・タイプを示す情報をさらに含む、EEE1ないし5のうちいずれか一項に記載の方法。
EEE7
ステップ(c)は、前記ソース信号のコンテンツ・タイプを示す情報に基づいて、生成モデルのあらかじめ定義された集合から前記生成モデルを選択することをさらに含む、EEE6に記載の方法。
EEE8
当該方法は、前記ソース信号の前記コンテンツ・タイプを示す情報に基づいて、前記ソース信号の前記波形近似が、前記ソース信号の前記再構成された信号として出力されるべきであると決定するステップをさらに含む、EEE6またはEEE7に記載の方法。
EEE9
ステップ(a)において、受領されたビットストリームは、符号化方式の動作ビットレートを示す情報をさらに含む、EEE1ないし8のうちいずれか一項に記載の方法。
EEE10
ステップ(c)は、前記符号化方式の前記動作ビットレートを示す情報に基づいて、生成モデルのあらかじめ定義された集合から前記生成モデルを選択することをさらに含む、EEE9に記載の方法。
EEE11
当該方法は、前記符号化方式の前記動作ビットレートを示す情報に基づいて、前記ソース信号の前記波形近似が、前記ソース信号の前記再構成された信号として出力されるべきであると決定するステップをさらに含む、EEE9またはEEE10に記載の方法。
EEE12
前記生成モデルは、先読みを用いて動作する、EEE1ないし11のうちいずれか一項に記載の方法。
EEE13
前記生成モデルは、信号領域で動作するようにトレーニングされている、EEE1ないし12のうちいずれか一項に記載の方法。
EEE14
前記生成モデルは、自己回帰式に動作する、または前記生成モデルは、前記ソース信号のフレーム全体を一度に再構成するように動作する、EEE1ないし13のうちいずれか一項に記載の方法。
EEE15
ステップ(c)における前記生成モデルは、条件付き確率密度関数を実装する生成モデルであり、該生成モデルは、前記ソース信号の前記波形近似で条件付けられる、EEE14に記載の方法。
EEE16
ステップ(c)における前記生成モデルは、前記一つまたは複数の補助パラメータでさらに条件付けられる、EEE15に記載の方法。
EEE17
前記生成モデルは、条件付きsampleRNNニューラルネットワークである、EEE15またはEEE16に記載の方法。
EEE18
前記条件付きsampleRNNニューラルネットワークは、畳み込み層を通じて各階層に条件付けが提供される4階層のsampleRNNである、EEE17に記載の方法。
EEE19
前記ソース信号の前記有限ビットレート表現は、前記ソース信号の前記有限ビットレート表現を含むビットストリームを生成する波形エンコーダによって取得されたものである、EEE1ないし18のうちいずれか一項に記載の方法。
EEE20
前記波形エンコーダが、決定論的波形エンコーダである、EEE19に記載の方法。
EEE21
さらなる一つまたは複数の補助パラメータが前記波形エンコーダによって提供され、前記ビットストリームに含められる、EEE19または20に記載の方法。
EEE22
前記ソース信号のコンテンツ・タイプを示す情報を提供するさらなる一つまたは複数のソース分類子が、前記波形エンコーダによって提供され、前記ビットストリームに含められる、EEE19ないし21のうちいずれか一項に記載の方法。
EEE23
符号化方式の動作ビットレートを示すさらなる情報が、前記波形エンコーダによって提供され、前記ビットストリームに含められる、EEE19ないし22のうちいずれか一項に記載の方法。
EEE24
(a)ソース信号の有限ビットレート表現を含むビットストリームを受領するように構成された受領器と;
(b)前記ソース信号の前記有限ビットレート表現を波形復号して、前記ソース信号の波形近似を得るように構成された波形コアデコーダと;
(c)確率密度関数を実装して、前記ソース信号の前記波形近似に基づいて、前記ソース信号の再構成された信号の確率分布を得るように構成された生成モデルと;
(d)前記確率分布に基づいて前記ソース信号の再構成された信号を生成するように構成されたサンプラーとを有する、
波形デコーダ。
EEE25
前記サンプラーが、前記確率分布に従ってランダムサンプルを生成することによって、前記再構成された信号を生成するように構成されている、EEE24に記載の波形デコーダ。
EEE26
前記サンプラーが、前記確率分布に従ってサンプルを平均化することによって、前記再構成された信号を生成するように構成されている、EEE24に記載の波形デコーダ。
EEE27
前記生成モデルは、前記ソース信号の前記波形近似で条件付けられ、前記生成モデルは、条件付き確率密度関数を実装して、前記ソース信号の再構成された信号についての条件付き確率分布を得るように構成されている、EEE24ないし26のうちいずれか一項に記載の波形デコーダ。
EEE28
前記生成モデルが、受領されたビットストリームに含まれる一つまたは複数の補助パラメータでさらに条件付けられる、EEE27に記載の波形デコーダ。
EEE29
当該波形デコーダが、生成モデルのあらかじめ定義された集合を含み、当該波形デコーダが、受領されたビットストリームに含まれる前記ソース信号のコンテンツ・タイプを示す情報に基づいて、生成モデルの前記あらかじめ定義された集合から前記確率密度関数を実装する前記生成モデルを選択するように構成されているモデル選択器を含む、EEE24ないし28のうちいずれか一項に記載の波形デコーダ。
EEE30
前記ソース信号のコンテンツ・タイプを示す情報に基づいて、前記ソース信号の前記波形近似が、前記ソース信号の前記再構成された信号として出力されるべきであると決定するようにさらに構成されている、EEE29に記載の波形デコーダ。
EEE31
前記モデル選択器が、受領されたビットストリームに含まれる符号化方式の動作ビットレートを示す情報に基づいて、生成モデルの前記あらかじめ定義された集合から前記確率密度関数を実装する前記生成モデルを選択するようにさらに構成されている、EEE24ないし30のうちいずれか一項に記載の波形デコーダ。
EEE32
前記モード選択器が、前記符号化方式の前記動作ビットレートを示す情報に基づいて、前記ソース信号の前記波形近似が、前記ソース信号の前記再構成された信号として出力されるべきであると決定するようにさらに構成されている、EEE31に記載の波形デコーダ。
EEE33
波形符号化のための方法であって、当該方法は:
(a)波形エンコーダによって、ソース信号に対して作用して、前記ソース信号の有限ビットレート表現を含むビットストリームを得るステップと;
(b)波形デコーダによって、前記ソース信号の前記有限ビットレート表現を含む前記ビットストリームを受領するステップと;
(c)前記ソース信号の前記有限ビットレート表現を波形復号して、前記ソース信号の波形近似を得るステップと;
(d)前記ソース信号の前記波形近似を、確率密度関数を実装する生成モデルに提供して、前記ソース信号の再構成された信号についての確率分布を得るステップと;
(e)前記確率分布に基づいて前記ソース信号の再構成信号を生成するステップとを含む、
方法。
EEE34
波形符号化のためのシステムであって、当該システムは、波形エンコーダと波形デコーダとを含み、当該システムは、EEE33に記載の方法を実行するように構成される、システム。
EEE35
生成モデルをトレーニングする方法であって、当該方法は:
(a)ソース信号のオリジナル信号を提供するステップと;
(b)前記ソース信号のオリジナル信号を波形エンコードおよび波形デコードして、前記ソース信号の波形近似を得るステップと;
(c)前記ソース信号の前記波形近似を前記生成モデルに入力して、確率分布についてのパラメータ化された関数を得るステップと;
(d)前記生成モデルから得られた前記確率分布に基づいて、オリジナルのソース信号の尤度を最大にするよう、前記生成モデルのパラメータを調整するステップとを含む、
方法。
EEE36
前記生成モデルは、前記ソース信号の前記波形近似に条件付けられる、EEE35に記載の方法。
EEE37
前記生成モデルは、一つまたは複数の補助パラメータにさらに条件付けられる、EEE36に記載の方法。
EEE38
ステップ(d)において、前記生成モデルのパラメータは、負の対数尤度のデータセットにわたる平均を最小化することに基づいて調整される、EEE35ないし37のうちいずれか一項に記載の方法。
EEE39
ステップ(c)において、さらに、前記ソース信号の再構成された信号が、前記確率分布に基づいて生成され、ステップ(d)において、前記生成モデルのパラメータは、前記ソース信号の再構成された信号と前記ソース信号のオリジナル信号との間の差の指標を最小化することに基づいて調整される、EEE35ないし37のうちいずれか一項に記載の方法。
EEE40
処理能力を有する装置によって実行されたときに、装置にEEE1ないし23のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクト。
EEE41
処理能力を有する装置によって実行されたときに、装置にEEE
33に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクト。
EEE42
処理能力を有する装置によって実行されたときに、装置にEEE35ないし39のうちいずれか一項に記載の方法を装置に実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム・プロダクト。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
【国際調査報告】