(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-14
(54)【発明の名称】生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
(51)【国際特許分類】
G10L 19/24 20130101AFI20220106BHJP
G10L 25/30 20130101ALI20220106BHJP
【FI】
G10L19/24
G10L25/30
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2021522972
(86)(22)【出願日】2019-10-29
(85)【翻訳文提出日】2021-04-26
(86)【国際出願番号】 EP2019079508
(87)【国際公開番号】W WO2020089215
(87)【国際公開日】2020-05-07
(32)【優先日】2018-10-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】クレイサ,ヤヌシュ
(72)【発明者】
【氏名】ヘデリン,ペル
(57)【要約】
本願明細書において記載されているオーディオ又はスピーチ信号をデコードする方法は、(a)デコーダによって、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、(c)デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップと、(d)生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するステップと、を含む。オーディオ又はスピーチ信号をデコードするための装置、それぞれのエンコーダ、エンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステム、ならびに、それぞれのコンピュータプログラム製品がさらに記載されている。
【特許請求の範囲】
【請求項1】
オーディオ又はスピーチ信号をデコードする方法であって、前記方法は、
(a)レシーバによって、前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、
(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、
(c)コンバータによって、前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられた前記フォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップと、
(d)生成ニューラルネットワークによって、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するステップと、
を含む方法。
【請求項2】
前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
請求項1に記載の方法。
【請求項3】
前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
請求項1又は2に記載の方法。
【請求項4】
前記条件付け情報は、1つ又は複数の条件付けパラメータを含む、
請求項1乃至3のいずれか1項に記載の方法。
【請求項5】
前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項4に記載の方法。
【請求項6】
前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項4又は5に記載の方法。
【請求項7】
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項6に記載の方法。
【請求項8】
前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項6又は7に記載の方法。
【請求項9】
ステップ(c)は、
(i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、又は、
(ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、
をさらに含む、
請求項6乃至8のいずれか1項に記載の方法。
【請求項10】
ステップ(c)は、前記コンバータによって、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するステップをさらに含む、
請求項6乃至9のいずれか1項に記載の方法。
【請求項11】
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項10に記載の方法。
【請求項12】
前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項1乃至11のいずれか1項に記載の方法。
【請求項13】
前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
請求項1乃至12のいずれか1項に記載の方法。
【請求項14】
前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、
請求項12又は13に記載の方法。
【請求項15】
前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
請求項14に記載の方法。
【請求項16】
オーディオ又はスピーチ信号をデコードするための装置であって、前記装置は、
(a)前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバと、
(b)前記符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダと、
(c)前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するためのコンバータと、
(d)前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークと、
を含む装置。
【請求項17】
前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
請求項16に記載の装置。
【請求項18】
前記条件付け情報は、埋め込み部分及び非埋め込み部分を含む、
請求項16又は17に記載の装置。
【請求項19】
前記条件付け情報は、1つ又は複数の条件付けパラメータを含む、
請求項16乃至18のいずれか1項に記載の装置。
【請求項20】
前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項19に記載の装置。
【請求項21】
前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項19又は20に記載の装置。
【請求項22】
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項21に記載の装置。
【請求項23】
前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項21又は22に記載の装置。
【請求項24】
前記コンバータは、
(i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、又は、
(ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張する、
ようにさらに構成される、
請求項21乃至23のいずれか1項に記載の装置。
【請求項25】
前記コンバータは、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するようにさらに構成される、
請求項21乃至24のいずれか1項に記載の装置。
【請求項26】
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項25に記載の装置。
【請求項27】
前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項16乃至26のいずれか1項に記載の装置。
【請求項28】
前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい、
請求項16乃至27のいずれか1項に記載の装置。
【請求項29】
前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、
請求項27又は28に記載の装置。
【請求項30】
前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
請求項29に記載の装置。
【請求項31】
信号解析器及びビットストリームエンコーダを含むエンコーダであって、
前記エンコーダは、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成され、前記第1ビットレートは、前記第2ビットレートより低いレベルの再構成の品質に関連付けられ、前記第1ビットレートは、前記第2ビットレートより低い、
エンコーダ。
【請求項32】
前記エンコーダは、前記条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、前記第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成される、
請求項31に記載のエンコーダ。
【請求項33】
前記条件付け情報の前記埋め込み部分及び前記条件付け情報の前記非埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第1ビットレートに基づく、
請求項32に記載のエンコーダ。
【請求項34】
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項33に記載のエンコーダ。
【請求項35】
前記第1ビットレートは、複数の動作ビットレートのセットに属する、
請求項31乃至34のいずれか1項に記載のエンコーダ。
【請求項36】
請求項31乃至35のいずれか1項に記載のエンコーダ及び請求項16乃至30のいずれか1項に記載のオーディオ又はスピーチ信号をデコードする装置のシステム。
【請求項37】
命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品であって、前記命令は、処理能力を有するデバイスによって実行されるとき、前記デバイスに請求項1乃至15のいずれか1項に記載の方法を実行させるように構成される、
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
この出願は、以下の優先権出願の優先権を主張し、これは本願明細書に引用されたものとする。2018年10月29日に出願された米国仮出願第62/752,031号(参照:D18118USP1)。
【0002】
本開示は、概してオーディオ又はスピーチ信号をデコードする方法に関するものであり、より詳しくは、生成モデルを用いたレート品質スケーラブル符号化を提供する方法に関するものである。本開示は、前記方法の実施のための装置及びコンピュータプログラム製品ならびにそれぞれのエンコーダ及びシステムにさらに関するものである。
【0003】
本願明細書では、いくつかの実施形態がその開示を特に参照して記載されるが、本開示がこの種の使用分野に限定されるものではなく、より幅広い文脈において適用できることを認識されたい。
【0004】
開示の全体にわたる背景技術に関するいかなる議論も、この種の技術が広く知られており、又は、この分野で共通の一般的な知識の一部を成すという承認としてみなされるべきではない。
【背景技術】
【0005】
近年、ディープニューラルネットワーク(例えばWaveNet及びSampleRNN)に基づくオーディオ用の生成モデリングは、自然に聞こえるスピーチ合成における大きな進歩を提供してきた。主な適用は、モデルがボコーディングコンポーネントを置換する、テキストを音声に変換する分野にあった。
【0006】
生成モデルは、グローバル及びローカルの潜在的な表現によって条件付け可能である。ボイス変換の文脈において、これは、静的話者識別子及び動的言語情報への条件付けの自然な分離を容易にする。しかしながら、進歩してきたにもかかわらず、特に低ビットレートで生成モデルを用いたオーディオ又はスピーチ符号化を提供する既存の必要が依然として存在する。
【0007】
生成モデルの使用は、特に低ビットレートで符号化性能を改善しうるが、(ビットレートと品質との間の複数のトレードオフポイントを考慮に入れて)コーデックが複数のビットレートでの動作を容易にすると期待される場合、この種のモデルの適用は、依然として困難である。
【発明の概要】
【課題を解決するための手段】
【0008】
本開示の第1態様に従って、オーディオ又はスピーチ信号をデコードする方法が提供される。方法は、(a)レシーバによって、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップを含んでもよい。方法は、(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップをさらに含んでもよい。方法は、(c)コンバータによって、デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップをさらに含んでもよい。そして、方法は、(d)生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するステップを含んでもよい。
【0009】
いくつかの実施形態において、第1ビットレートは、ターゲットビットレートでもよく、第2ビットレートは、デフォルトビットレートでもよい。
【0010】
いくつかの実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。
【0011】
いくつかの実施形態において、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。
【0012】
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。
【0013】
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。
【0014】
いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
【0015】
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、条件付けパラメータの数として定義されてもよく、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。
【0016】
いくつかの実施形態において、ステップ(c)は、(i)ゼロパディングによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張するステップ、又は、(ii)第1ビットレートに関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張するステップをさらに含んでもよい。
【0017】
いくつかの実施形態において、ステップ(c)は、コンバータによって、第1ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第2ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するステップをさらに含んでもよい。
【0018】
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の条件付けパラメータは、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。
【0019】
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。
【0020】
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。
【0021】
いくつかの実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
【0022】
いくつかの実施形態において、SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークでもよい。
【0023】
本開示の第2態様に従って、オーディオ又はスピーチ信号をデコードするための装置が提供される。装置は、(a)オーディオ及びスピーチ信号ならびに条件付け情報を含む符号化ビットストリームを受信するためのレシーバを含んでもよい。装置は、(b)符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダをさらに含んでもよい。装置は、(c)デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するためのコンバータをさらに含んでもよい。そして、装置は、(d)第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワークを含んでもよい。
【0024】
いくつかの実施形態において、第1ビットレートは、ターゲットビットレートでもよく、第2ビットレートは、デフォルトビットレートでもよい。
【0025】
いくつかの実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。
【0026】
いくつかの実施形態において、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。
【0027】
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。
【0028】
いくつかの実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。
【0029】
いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
【0030】
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、条件付けパラメータの数として定義され、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。
【0031】
いくつかの実施形態において、コンバータは、(i)ゼロパディングによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張する、又は、(ii)第1ビットレートに関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元に拡張する、ようにさらに構成されてもよい。
【0032】
いくつかの実施形態において、コンバータは、第1ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第2ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するようにさらに構成されてもよい。
【0033】
いくつかの実施形態において、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の条件付けパラメータは、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。
【0034】
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。
【0035】
いくつかの実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって信号を再構成してもよい。
【0036】
いくつかの実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
【0037】
いくつかの実施形態において、SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークでもよい。
【0038】
本開示の第3態様に従って、信号解析器及びビットストリームエンコーダを含むエンコーダが提供され、エンコーダは、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成されてもよく、第1ビットレートは、第2ビットレートより低いレベルの再構成の品質に関連付けられ、第1ビットレートは、第2ビットレートより低い。
【0039】
いくつかの実施形態において、エンコーダは、条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成されてもよい。
【0040】
いくつかの実施形態において、条件付け情報の埋め込み部分及び条件付け情報の非埋め込み部分の次元は、条件付けパラメータの数として定義されてもよく、第1ビットレートに基づいてもよい。
【0041】
いくつかの実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までのサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
【0042】
いくつかの実施形態において、第1ビットレートは、複数の動作ビットレートのセットに属してもよい。
【0043】
本開示の第4態様に従って、エンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステムが提供される。
【0044】
本開示の第5態様に従って、命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品が提供され、命令は、処理能力を有するデバイスによって実行されるとき、デバイスにオーディオ又はスピーチ信号をデコードする方法を実行させるように構成される。
【0045】
以下、開示の実施形態は、添付の図面を参照して、単に例として記載されている。
【図面の簡単な説明】
【0046】
【
図1a】生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードする方法の一例のフロー図を示す。
【
図1b】生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードするための装置の一例のブロック図を示す。
【
図2a】パディングを用いて、埋め込みパラメータ及び非埋め込みパラメータを比較することによって、条件付け情報を、ターゲットレートフォーマットからデフォルトレートフォーマットに変換するコンバータの一例のブロック図を示す。
【
図2b】条件付け情報の次元変換を用いたコンバータのアクションの一例のブロック図を示す。
【
図3a】デフォルトフォーマットを比較することによって、ターゲットレートフォーマットから条件付け情報を変換するコンバータの一例のブロック図を示す。
【
図3b】細かい量子化の代わりに粗い量子化を用いたコンバータのアクションの一例のブロック図を示す。
【
図3c】予測による次元変換を用いたコンバータのアクションの一例のブロック図を示す。
【
図4】条件付け情報の埋め込み部分を示すコンバータのパディングアクションの一例のブロック図を示す。
【
図5】ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図を示す。
【発明を実施するための形態】
【0047】
生成モデルを用いたレート品質スケーラブル符号化
特定のビットレートで動作するように訓練されるコーディング構造が提供される。これは、デコーダを所定のビットレートのセットのために訓練することが必要でないという利点を提供し(おそらく下にある生成モデルの複雑さを増加させる必要がある)、さらに、各デコーダが訓練されなければならず、生成モデルの複雑さも著しく増加させる特定の動作ビットレートに関連付けられなければならないデコーダのセットを用いることも必要ではない。換言すれば、コーデックが複数のレート、例えばR1<R2<R3で動作することが期待される場合、各ビットレートのための一まとまりの生成モデル(R1、R2及びR3のための生成モデル)を必要とするか、又は、複数のビットレートで動作の複雑さをキャプチャする1つのより大きいモデルを必要とする。
【0048】
したがって、本願明細書において記載されているように、生成モデルが再訓練されない(又は、限られた部分しか再訓練されない)という点で、生成モデルの複雑さは増加せず、品質対ビットレートのトレードオフに関連した複数のビットレートで動作を容易にする。換言すれば、本開示は、単一のモデルを用いて訓練されなかったビットレートで符号化方式の動作を提供する。
【0049】
記載されているコーディング構造の効果は、例えば、
図6に由来してもよい。
図6の例に示すように、コーディング構造は、有意なレートと品質のトレードオフを容易にする埋め込み技術を含む。具体的には、提供されている例では、埋め込み技術は、8kbpsでの条件付けで動作するように訓練された生成ニューラルネットワークを用いて、複数の品質対レートのトレードオフ点(5.6kbps及び6.4kbps)を達成するのを容易にする。
【0050】
オーディオ又はスピーチ信号をデコードするための方法及び装置
図1aの例を参照すると、オーディオ又はスピーチ信号をデコードする方法のフロー図が示される。ステップS101において、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームは、レシーバによって受信される。次に、受信された符号化ビットストリームは、ビットストリームデコーダによってデコードされる。したがって、ビットストリームデコーダは、ステップS102において、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供する。一実施形態において、第1ビットレートは、ターゲットビットレートでもよい。さらに、ステップS103において、条件付け情報は、次に、コンバータによって、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換される。一実施形態において、第2ビットレートは、デフォルトビットレートでもよい。ステップS104において、オーディオ又はスピーチ信号の再構成は、生成ニューラルネットワークによって、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って提供される。
【0051】
上述した方法は、命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品として実施されてもよく、命令は、処理能力を有するデバイスによって実行されるとき、デバイスに方法を実行させるように構成される。
【0052】
代替的に又は追加的に、上述した方法は、オーディオ又はスピーチ信号をデコードするための装置によって実施されてもよい。
図1bの例を次に参照すると、生成ニューラルネットワークを用いてオーディオ又はスピーチ信号をデコードするための装置が示される。装置は、動作ビットレートの範囲で動作を容易にするデコーダ100でもよい。装置100は、オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバ101を含む。装置100は、受信した符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダ102をさらに含む。一実施形態において、第1ビットレートは、ターゲットビットレートでもよい。ビットストリームデコーダ102は、第1ビットレートで条件付け情報の再構成を提供すると言うこともできる。ビットストリームデコーダ102は、動作ビットレートの範囲で装置(デコーダ)100の動作を容易にするように構成されてもよい。装置100は、コンバータ103をさらに含む。コンバータ103は、デコードされた条件付け情報を、第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するように構成される。一実施形態において、第2ビットレートは、デフォルトビットレートでもよい。したがって、コンバータ103は、デコードされた条件付け情報を処理し、ターゲットビットレートに関連付けられたフォーマットからデフォルトビットレートに関連付けられたフォーマットに変換するように構成されてもよい。そして、装置100は、生成ニューラルネットワーク104を含む。生成ニューラルネットワーク104は、第2ビットレートに関連付けられたフォーマットで条件付け情報によって条件付けられる確率モデルに従って、オーディオ又はスピーチ信号の再構成を提供するように構成される。したがって、生成ニューラルネットワーク104は、条件付け情報のデフォルトフォーマットで動作してもよい。
【0053】
条件付け情報
図1bの例に示され、上述されるように、装置100は、条件付け情報を変換するように構成されるコンバータ103を含む。この開示に記載されている装置100は、2つの部分を有してもよい条件付け情報の特別な構造を利用してもよい。一実施形態において、条件付け情報は、埋め込み部分及び非埋め込み部分を含んでもよい。代替的に又は追加的に、条件付け情報は、1つ又は複数の条件付けパラメータを含んでもよい。一実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、1つ又は複数の条件付けパラメータは、埋め込み部分及び非埋め込み部分に一意的に割り当てられてもよい。埋め込み部分に割り当てられるか又は埋め込み部分内に含まれる条件付けパラメータは、埋め込みパラメータを意味してもよいし、同時に、非埋め込み部分に割り当てられるか又は非埋め込み部分内に含まれる条件付けパラメータは、非埋め込みパラメータを意味してもよい。
【0054】
符号化方式の動作は、例えばフレームベースでもよく、信号のフレームは、条件付け情報に関連付けられてもよい。条件付け情報は、条件付けパラメータの順序集合又は条件付けパラメータを表すn次元ベクトルを含んでもよい。条件付け情報の埋め込み部分内の条件付けパラメータは、それらの重要性に従う(例えば減少する重要性に従う)順序でもよい。非埋め込み部分は、固定の次元を有してもよく、次元は、それぞれの部分の条件付けパラメータの数として定義されてもよい。
【0055】
一実施形態において、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の埋め込み部分の次元以下でもよく、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元は、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分の次元と同一でもよい。
【0056】
第2ビットレートに関連付けられた条件付け情報の埋め込み部分から、1つ又は複数の条件付けパラメータは、最も重要でないものから開始して最も重要なものの方へのそれらの重要性に従って、さらに落とされてもよい。これは、例えば、第1ビットレートに関連付けられた条件付け情報の埋め込み部分の近似の再構成(デコーディング)が、依然として特定の利用できる識別された最も重要な条件付けパラメータに基づいて可能な方法で行われてもよい。上述したように、埋め込み部分の1つの利点は、品質対ビットレートのトレードオフを容易にするということである。(このトレードオフは条件付けの埋め込み部分の設計によって有効になってもよい。この種の設計の例は、説明の追加の実施形態において提供される)。例えば、埋め込み部分で最も重要でない条件付けパラメータを落とすことは、条件付け情報のこの部分をコード化するのに必要なビットレートを減少するが、符号化方式の再構成(デコーディング)品質も減少させる。それゆえ、条件付けパラメータが、例えばエンコーダ側で、条件付け情報の埋め込み部分から除去されるにつれて、再構成品質は大きく低下する。
【0057】
一実施形態において、条件付け情報の埋め込み部分の条件付けパラメータは、(i)符号化信号を表す線形予測(フィルタ)モデルに由来した反射係数、(ii)低周波から高周波までの順のサブバンドエネルギーのベクトル、(iii)カルーネン・レベー変換の係数(例えば、固有値の降順で配置される)、又は、(iv)周波数変換(例えば、MDCT、DCT)の係数の1つ又は複数を含んでもよい。
【0058】
図2aの例を次に参照すると、パディングを用いて、埋め込みパラメータ及び非埋め込みパラメータを比較することによって、条件付け情報を、ターゲットレートフォーマットからデフォルトレートフォーマットに変換するコンバータの一例のブロック図が示される。特に、コンバータは、条件付け情報を、ターゲットビットレートに関連付けられたフォーマットから、生成ニューラルネットワークが訓練されたデフォルトフォーマットに変換するように構成されてもよい。図示するように、
図2aの例では、ターゲットビットレートは、デフォルトビットレートより低くてもよい。この場合、条件付け情報の埋め込み部分201は、パディング204によって、所定のデフォルト次元203に拡張されてもよい。非埋め込み部分202、205の次元は変化しない。一実施形態において、コンバータは、第1ビットレートに関連付けられた条件付け情報からの条件付けパラメータの値を、第2ビットレートに関連付けられた条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、条件付け情報の非埋め込み部分を変換するように構成される。
【0059】
図2bの例において、デフォルトビットレート(第2ビットレート)に関連付けられた条件付け情報の埋め込み部分203の条件付けパラメータの次元を生成する、ターゲット(第1)ビットレートに関連付けられた次元を有する条件付け情報の埋め込み部分201の条件付けパラメータにおけるパディング動作204の結果がさらに概略的に示される。
【0060】
図3aの例において、デフォルトフォーマットを比較することによって、ターゲットレートフォーマットから条件付け情報を変換するコンバータの一例のブロック図が示される。
図3aの例において、ターゲットビットレートは、デフォルトビットレートに等しい。この場合、コンバータは、通過するように構成されてもよく、すなわち、埋め込み部分301、302及び非埋め込み部分303、304での条件付けパラメータは一致する。
【0061】
図3bの例を次に参照すると、細かい量子化の代わりに粗い量子化を用いたコンバータのアクションの一例のブロック図が示される。条件付け情報の第2非埋め込み部分は、量子化器の粗さを調整することによって、ビットレートと品質のトレードオフを達成してもよい。一実施形態において、第1ビットレートに関連付けられた条件付け情報の非埋め込み部分305の条件付けパラメータは、第2ビットレートに関連付けられた条件付け情報の非埋め込み部分306のそれぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化されてもよい。ターゲットビットレート(第1ビットレート)がデフォルトビットレート(第2ビットレート)より低い場合、コンバータは、それぞれの位置の条件付け情報の非埋め込み部分内で条件付けパラメータの粗い再構成(変換)を提供してもよい(さもないと細かい量子化された値が条件付け情報のデフォルトフォーマットで期待される)。
【0062】
図3cの例を次に参照すると、予測による次元変換を用いたコンバータのアクションの一例のブロック図が示される。一実施形態において、コンバータは、第1ビットレート(ターゲットビットレート)に関連付けられた条件付け情報の利用できる条件付けパラメータに基づいて、任意の失った条件付けパラメータ308を例えば予測手段により予測すること307によって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分301の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分302の次元に拡張するように構成されてもよい。
【0063】
図4の例をさらに参照すると、条件付け情報の埋め込み部分を示すコンバータのパディングアクションの一例のブロック図が示される。再構成(変換)のパディング動作は、条件付け情報の埋め込み部分の構造に応じて異なってふるまうように構成されてもよい。パディングは、ゼロを有する変数のシーケンスをデフォルト次元に追加することを含んでもよい。埋め込み部分が反射係数を備える場合には(
図4)、これを用いてもよい。パディング動作は、条件付け情報の欠如を示すゼロ記号を挿入することを含んでもよい。条件付け情報の埋め込み部分が、(i)低周波から高周波までの順のサブバンドエネルギーのベクトル、(ii)カルーネン・レベー変換の係数、又は、(iv)周波数変換(例えば、MDCT、DCT)の係数を含む場合、この種のゼロ記号が用いられてもよい。したがって、一実施形態において、コンバータは、ゼロパディング403によって、第1ビットレートに関連付けられた条件付け情報の埋め込み部分401の次元を、第2ビットレートに関連付けられた条件付け情報の埋め込み部分402の次元に拡張するように構成されてもよい。
【0064】
生成ニューラルネットワーク
一実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報に基づいて訓練されてもよい。一実施形態において、生成ニューラルネットワークは、第2ビットレートに関連付けられたフォーマットで条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成してもよい。一実施形態において、生成ニューラルネットワークは、SampleRNNニューラルネットワークでもよい。
【0065】
例えば、SampleRNNは、生のオーディオ信号を生成するために使用可能なディープニューラル生成モデルである。それは、一連のマルチレート回帰層から成り、これらは、異なる時間スケールでシーケンスのダイナミクスをモデル化することができる。SampleRNNは、すべての以前のサンプルで条件付けした個々のオーディオサンプル分布の製品に結合分布を分解することを介して、オーディオサンプルのシーケンスの確率をモデル化する。波形サンプルのシーケンスの結合確率分布X={x
1,・・・,x
T}は、以下のように書くことができる。
【数1】
【0066】
推論時間では、モデルは、p(x1|x1,・・・,xi-1)から、ランダムにサンプリングすることによって一度に1つのサンプルを予測する。次に、再帰的な条件付けは、以前に再構成されたサンプルを用いて実行される。
【0067】
条件付け情報なしでは、SampleRNNは、「バブリング」(すなわち、信号のランダムな合成)しかできない。一実施形態において、1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。デコードされたボコーダパラメータh
fは、生成モデルに対する条件付け情報として提供されてもよい。したがって、上述した式(1)は、以下のようになる。
【数2】
ここで、h
fは、時間iでのオーディオサンプルに対応するボコーダパラメータを表す。h
fの使用のため、モデルがデコーディングを容易にすることが分かる。
【0068】
K段の条件付きのSampleRNNにおいて、k番目の段(1つの<k≦K)は、一度に長さFS(k)のサンプルのオーバーラップしないフレーム上で動作し、最も低い段(k=1)は、一度に1つのサンプルを予測する。波形サンプルxi-FS
(k),・・・,xi-1及びそれぞれの1×1畳み込み層によって処理されるデコードされた条件付きベクトルhfは、k番目の段への入力である。k<Kとき、(k+1)番目の段からの出力は、追加の入力である。k番目の段へのすべての入力は、線形に加算される。k番目のRNN段(1<k≦K)は、1つのゲート付き回帰型ユニット(GRU)層及び段の間の時間分解能配列を実行する1つの学習済みアップサンプリング層から成る。最も低い(k=1)段は、2つの隠れた完全に接続された層を有する多層パーセプトロン(MLP)から成る。
【0069】
一実施形態において、SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークでもよい。4段の構成(K=4)において、k番目の段のためのフレームサイズは、FS(k)である。以下のフレームサイズを用いることができる。FS(1)=FS(2)=2、FS(3)=16及びFS(4)=160。最上段は、ボコーダパラメータ条件付けシーケンスと同一の時間分解能を共有してもよい。学習済みアップサンプリング層は、転置畳み込み層を通して実施されてもよく、アップサンプリング率は、2段、3段及び4段においてそれぞれ2、8及び10でもよい。回帰層及び完全に接続された層は、各々1024の隠れユニットを含んでもよい。
【0070】
エンコーダ
図5の例を次に参照すると、ターゲットレートフォーマットで条件付け情報を提供するように構成されるエンコーダの一例のブロック図が示される。エンコーダ500は、信号解析器501及びビットストリームエンコーダ502を含んでもよい。
【0071】
エンコーダ500は、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成され、第1ビットレートは、第2ビットレートより低いレベルの再構成の品質に関連付けられ、第1ビットレートは、第2ビットレートより低い。一実施形態において、第1ビットレートは、複数の動作ビットレートのセット、すなわちn動作ビットレートに属してもよい。エンコーダ500は、条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、第1ビットレートに関連付けられた条件付け情報を提供するようにさらに構成されてもよい。1つ又は複数の条件付けパラメータは、ボコーダパラメータでもよい。一実施形態において、条件付け情報の埋め込み部分及び条件付け情報の非埋め込み部分の次元は、条件付けパラメータの数として定義され、第1ビットレートに基づいてもよい。さらに、一実施形態において、埋め込み部分の条件付けパラメータは、線形予測フィルタからの反射係数、低周波から高周波までの順のサブバンドエネルギーのベクトル、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含んでもよい。
【0072】
本願明細書において記載されている方法が、上述したエンコーダ及びオーディオ又はスピーチ信号をデコードするための装置のシステムによって実施されてもよいことに留意されたい。
【0073】
以下、エンコーダは、一例として記載され、限定することを意図しない。エンコーダ方式は、線形予測符号(LPC)ボコーダの広帯域バージョンに基づいてもよい。信号解析は、フレーム当たりをベースに実行されてもよく、それは結果として以下のパラメータを生ずる。
i)M次のLPCフィルタ
ii)LPC残留RMSレベルs
iii)ピッチf0
iv)k-バンドボイシングベクトルv
【0074】
バンドボイシングコンポーネントv(i),i=1,・・・,kは、バンド内で周期的エネルギーの一片を与える。すべてのこれらのパラメータは、上述したようにSampleRNNの条件付けのために用いられてもよい。エンコーダにより用いられる信号モデルは、クリーンスピーチ(背景と同時に活動中の話し手なし)のみを記載することを意図する。
【表1】
表1:エンコーダの動作点(k=6)
【0075】
解析方式は、16kHzでサンプリングされる信号の10msのフレーム上で動作してもよい。エンコーダ設計の記載された例において、LPCモデルMの順序は、動作ビットレートに依存する。ソース符号化技術の標準的な組み合わせを利用して、ベクトル量子化(VQ)、予測符号化及びエントロピー符号化を含む適切な知覚的な考慮を有する符号化効率を達成してもよい。この例において、すべての実験のために、エンコーダの動作点は、表1のように定義される。さらに、標準的なチューニング実行が用いられる。例えば、再構成されたLPC係数のためのスペクトル歪みは、1dBの近くに保たれる。
【0076】
LPCモデルは、予測及びエントロピー符号化を利用する線スペクトル対(LSP)ドメインにおいて符号化されてもよい。LPC次数Mごとに、混合ガウスモデル(GMM)は、WSJ0訓練セットにおいて訓練され、量子セルのための確率を提供した。各GMMコンポーネントは、Z格子の集合の原則に従うZ格子を有する。量子セルの最終選択は、レート歪みの加重基準に従う。
【0077】
残留レベルsは、ハイブリッドアプローチを用いてdBドメインで量子化されてもよい。小さいレベルのフレーム間変化は、検出され、1ビットで信号送信され、細かい均一量子化を用いて予測方式によって符号化される。他の場合には、符号化は、より大きいが均一な、広範囲のレベルをカバーするステップサイズで無記憶でもよい。
【0078】
レベルと同様に、ピッチは、予測及び無記憶の符号化のハイブリッドアプローチを用いて量子化されてもよい。均一量子化は、使用されるが、歪んだピッチドメインにおいて実行される。ピッチは、fw=cf0/(c+f0)で歪められ、c=500Hzであり、fwは、10ビット/フレームを用いて量子化及び符号化される。
【0079】
ボイシングは、歪んだドメインの無記憶VQによって符号化されてもよい。各ボイシングコンポーネントは、
【数3】
によって歪められる。9ビットのVQは、WSJ0訓練セット上の歪んだドメインにおいて訓練された。
【0080】
SampleRNNを条件付けるための特徴ベクトルhfは、以下のように構成されてもよい。量子化LPC係数は、反射係数に変換されてもよい。反射係数のベクトルは、他の量子化パラメータ、すなわちf0、s及びvによって連結されてもよい。条件付けベクトルの2つの構造のどちらかを用いてもよい。第1構造は、上述した直接的な連結でもよい。例えば、M=16のために、ベクトルhfの全次元は24であり、M=22のためには30である。第2構造は、低レートの条件付けを高レートのフォーマットに埋め込むことでもよい。例えば、M=16のために、反射係数の22次元ベクトルは、6ゼロで16係数をパディングすることによって構成される。残りのパラメータは、それらの粗く量子化された(低ビットレート)バージョンで置換されてもよく、これは、hf内のそれらの位置が現在固定されているから可能である。
【0081】
解釈
一般的に言えば、本開示に記載されるようなさまざまな例の実施形態は、ハードウェア又は専用回路、ソフトウェア、ロジック又は任意のそれらの組み合わせにおいて実施されてもよい。いくつかの態様は、ハードウェアにおいて実施されてもよいが、他の態様は、コントローラ、マイクロプロセッサ又は他のコンピューティングデバイスによって実行されてもよいファームウェア又はソフトウェアにおいて実施されてもよい。本開示の例の実施形態のさまざまな態様は、ブロック図、フローチャートとして、又はいくつかの他の図面表現を用いて記載されるが、本願明細書において記載されているブロック、装置、システム、技術又は方法が、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくはロジック、汎用ハードウェアもしくはコントローラ又は他のコンピューティングデバイス又はそれらのいくつかの組み合わせにおいて実施されてもよいことを認識されたい。
【0082】
追加的に、フローチャートに示されるさまざまなブロックは、方法ステップとして、及び/又は、コンピュータプログラムコードの動作から生ずる動作として、及び/又は、関連する機能を実行するように構成された複数の結合されたロジック回路素子として見られてもよい。例えば、実施形態は、機械可読媒体上で有形で実施されるコンピュータプログラムを備えているコンピュータプログラム製品を含み、コンピュータプログラムは、上述した方法を実行するように構成されるプログラムコードを含む。
【0083】
開示の文脈において、機械可読媒体は、任意の有形の媒体でもよく、又は命令実行システム、装置又はデバイスによって使用されるプログラム、又は、これらに関連したプログラムを含むことができる、又は、記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体でもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線又は半導体システム、装置又はデバイス、又は、上述の任意の好適な組み合わせを含んでもよいが、これらに限定されるものではない。機械可読記憶媒体のより具体的な例は、1つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はFlashメモリ)、光ファイバ、ポータブルCD-ROM(CD-ROM)、光記憶デバイス、磁気記憶デバイス又は任意の上述の好適な組み合わせを含むものである。
【0084】
本願明細書において記載されている方法を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせにおいて記述されてもよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサに提供されてもよく、プログラムコードは、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されるとき、フローチャート及び/又はブロック図で特定される機能/動作を実施させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上でかつ部分的にリモートコンピュータ上で、又は、完全にリモートコンピュータ又はサーバ上で実行されてもよい。プログラムコードは、本願明細書において、「モジュール」と概して称されてもよい特別にプログラムされたデバイス上で分散されてもよい。モジュールのソフトウェアコンポーネント部分は、任意のコンピュータ言語で記述されてもよく、モノリシックコードベースの一部でもよく、又は、例えば、オブジェクト指向コンピュータ言語において典型的なディスクリートコード部分において開発されてもよい。加えて、モジュールは、複数のコンピュータプラットフォーム、サーバ、端末、モバイルデバイスなどにわたり分散してもよい。所定のモジュールは、記載されている機能が別々のプロセッサ及び/又はコンピューティングハードウェアプラットフォームによって実行されるように実施されてもよい。
【0085】
本願明細書で用いられる「回路」は、以下のすべてを意味する。(a)ハードウェアのみの回路実施(例えば、アナログ及び/又はデジタル回路のみにおける実施)、(b)回路及びソフトウェア(及び/又はファームウェア)の組み合わせ、例えば(適用できる場合)、(i)プロセッサの組み合わせ、又は、(ii)装置、例えば携帯電話又はサーバにさまざまな機能を実行させるために協働する(デジタル信号プロセッサを含む)プロセッサ/ソフトウェアの部分、ソフトウェア及びメモリ(単複)、及び、(c)回路、例えば、ソフトウェア又はファームウェアが物理的に存在しない場合であっても、動作のためにソフトウェア又はファームウェアを必要とするマイクロプロセッサ又はマイクロプロセッサの一部。さらに、通信媒体が、典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、又は、搬送波又は他の搬送機構のような変調データ信号の他のデータを具現化し、任意の情報配信媒体も含むことは、当業者に周知である。
【0086】
さらに、動作は、特定の順序で示されるが、所望の結果を達成するために、この種の動作が示される特定の順序ですなわち順番に実行されること又はすべての示される動作が実行されることを要求するものとして理解されるべきではない。特定の状況では、マルチタスキング及び並列処理は有利になりうる。同様に、いくつかの特定の実施の詳細は、上述した説明に含まれるが、これらは、請求項の範囲を制限するものとして解釈されるべきではなく、特定の実施形態に特有になりうる特徴の説明として解釈されるべきである。この明細書において別々の実施形態の文脈で記載されている特定の特徴はまた、単一の実施形態において組み合わせて実施可能である。反対に、単一の実施形態の文脈で記載されているさまざまな特徴はまた、別に複数の実施形態において別々に又は任意の適切な小さな組み合わせで実施可能である。
【0087】
上述の例の実施形態に対するさまざまな変形及び適合は、当業者が上述した説明を考慮して、添付の図面とともに読むと、明らかになりうる。任意の及びすべての変形は、依然として、非限定的かつ例示的な実施形態の範囲内にある。さらに、他の実施形態は、上述した説明及び図面に示される教示の利点を有するこれらの実施形態が関係する当業者にとって思い浮かぶものである。
【手続補正書】
【提出日】2020-12-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ又はスピーチ信号をデコードする方法であって、前記方法は、
(a)レシーバによって、前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するステップと、
(b)ビットストリームデコーダによって、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を提供するステップと、
(c)コンバータによって、前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられた前記フォーマットから第2ビットレートに関連付けられたフォーマットに変換するステップ
であって、前記第1ビットレートは前記第2ビットレートよりも低い、ステップと、
(d)生成ニューラルネットワークによって、前記第2ビットレートに関連付けられた前記フォーマットで前記
デコードされた条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するステップ
であって、前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成し、前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、ステップと、
を含
み、
前記条件付け情報は、埋め込み部分及び非埋め込み部分を含み、
前記条件付け情報は、1つ又は複数の条件付けパラメータを含み、
前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
方法。
【請求項2】
前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
請求項1に記載の方法。
【請求項3】
前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項
1又は2に記載の方法。
【請求項4】
前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項
1乃至3のいずれか1項に記載の方法。
【請求項5】
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項
4に記載の方法。
【請求項6】
ステップ(c)は、
(i)ゼロパディングによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、又は、
(ii)前記第1ビットレートに関連付けられた前記条件付け情報の利用できる前記条件付けパラメータに基づいて、任意の失った条件付けパラメータを予測することによって、前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元を、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の前記次元に拡張するステップ、
をさらに含む、
請求項
4又は5に記載の方法。
【請求項7】
ステップ(c)は、前記コンバータによって、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するステップをさらに含む、
請求項
4乃至6のいずれか1項に記載の方法。
【請求項8】
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項
7に記載の方法。
【請求項9】
前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項1乃至
8のいずれか1項に記載の方法。
【請求項10】
前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
請求項
1乃至9のいずれか1項に記載の方法。
【請求項11】
オーディオ又はスピーチ信号をデコードするための装置であって、前記装置は、
(a)前記オーディオ又はスピーチ信号及び条件付け情報を含む符号化ビットストリームを受信するためのレシーバと、
(b)前記符号化ビットストリームをデコードして、第1ビットレートに関連付けられたフォーマットで、デコードされた条件付け情報を取得するためのビットストリームデコーダと、
(c)前記デコードされた条件付け情報を、前記第1ビットレートに関連付けられたフォーマットから第2ビットレートに関連付けられたフォーマットに変換するためのコンバータ
であって、前記第1ビットレートは前記第2ビットレートよりも低い、コンバータと、
(d)前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報によって条件付けられる確率モデルに従って、前記オーディオ又はスピーチ信号の再構成を提供するための生成ニューラルネットワーク
であって、前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで前記条件付け情報を用いて条件付けされる条件付き確率密度関数からサンプリングを実行することによって、信号を再構成し、前記生成ニューラルネットワークは、SampleRNNニューラルネットワークである、生成ニューラルネットワークと、
を含
み、
前記条件付け情報は、埋め込み部分及び非埋め込み部分を含み、
前記条件付け情報は、1つ又は複数の条件付けパラメータを含み、
前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
装置。
【請求項12】
前記第1ビットレートは、ターゲットビットレートであり、前記第2ビットレートは、デフォルトビットレートである、
請求項
11に記載の装置。
【請求項13】
前記1つ又は複数の条件付けパラメータは、ボコーダパラメータである、
請求項
11又は12に記載の装置。
【請求項14】
前記1つ又は複数の条件付けパラメータは、前記埋め込み部分及び前記非埋め込み部分に一意的に割り当てられる、
請求項
11乃至13のいずれか1項に記載の装置。
【請求項15】
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項
14に記載の装置。
【請求項16】
前記第1ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第2ビットレートに関連付けられた前記条件付け情報の前記埋め込み部分の次元以下であり、
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元は、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の次元と同一である、
請求項
14又は15に記載の装置。
【請求項17】
前記コンバータは、前記第1ビットレートに関連付けられた前記条件付け情報からの前記条件付けパラメータの値を、前記第2ビットレートに関連付けられた前記条件付け情報のそれぞれの条件付けパラメータにコピーすることによって、前記条件付け情報の前記非埋め込み部分を変換するようにさらに構成される、
請求項
14乃至16のいずれか1項に記載の装置。
【請求項18】
前記第1ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記条件付けパラメータは、前記第2ビットレートに関連付けられた前記条件付け情報の前記非埋め込み部分の前記それぞれの条件付けパラメータのためにより粗い量子化器を用いて量子化される、
請求項
17に記載の装置。
【請求項19】
前記生成ニューラルネットワークは、前記第2ビットレートに関連付けられた前記フォーマットで条件付け情報に基づいて訓練される、
請求項
11乃至18のいずれか1項に記載の装置。
【請求項20】
前記SampleRNNニューラルネットワークは、4段のSampleRNNニューラルネットワークである、
請求項
11乃至19のいずれか1項に記載の装置。
【請求項21】
信号解析器及びビットストリームエンコーダを含むエンコーダであって、
前記エンコーダは、第1ビットレート及び第2ビットレートを含む少なくとも2つの動作ビットレートを提供するように構成され、前記第1ビットレートは、前記第2ビットレートより低いレベルの再構成の品質に関連付けられ、前記第1ビットレートは、前記第2ビットレートより低
く、
前記エンコーダは、前記条件付け情報の埋め込み部分及び非埋め込み部分に一意的に割り当てられる1つ又は複数の条件付けパラメータを含む、前記第1ビットレートに関連付けられた、SampleRNNニューラルネットワークのコンディショニングのための条件付け情報を提供するようにさらに構成され、
前記条件付け情報の前記埋め込み部分及び前記条件付け情報の前記非埋め込み部分の次元は、前記条件付けパラメータの数として定義され、前記第1ビットレートに基づく、
エンコーダ。
【請求項22】
前記埋め込み部分の前記条件付けパラメータは、線形予測フィルタからの反射係数、又は、低周波から高周波までの順のサブバンドエネルギーのベクトル、又は、カルーネン・レベー変換の係数、又は、周波数変換の係数のうちの1つ又は複数を含む、
請求項
21に記載のエンコーダ。
【請求項23】
前記第1ビットレートは、複数の動作ビットレートのセットに属する、
請求項
21又は22に記載のエンコーダ。
【請求項24】
請求項
21乃至23のいずれか1項に記載のエンコーダ及び請求項
11乃至20のいずれか1項に記載のオーディオ又はスピーチ信号をデコードする装置のシステム。
【請求項25】
命令を有するコンピュータ可読記憶媒体を備えているコンピュータプログラム製品であって、前記命令は、処理能力を有するデバイスによって実行されるとき、前記デバイスに請求項1乃至
10のいずれか1項に記載の方法を実行させるように構成される、
コンピュータプログラム製品。
【国際調査報告】