IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2024-542976オーディオ符号化方法、装置、電子機器、及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】オーディオ符号化方法、装置、電子機器、及びプログラム
(51)【国際特許分類】
   G10L 19/00 20130101AFI20241112BHJP
   G10L 25/30 20130101ALI20241112BHJP
   H03M 7/30 20060101ALI20241112BHJP
【FI】
G10L19/00 250
G10L25/30
H03M7/30 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024524723
(86)(22)【出願日】2023-04-13
(85)【翻訳文提出日】2024-04-24
(86)【国際出願番号】 CN2023088014
(87)【国際公開番号】W WO2023241193
(87)【国際公開日】2023-12-21
(31)【優先権主張番号】202210677636.4
(32)【優先日】2022-06-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】康 ▲迂▼勇
(72)【発明者】
【氏名】王 蒙
(72)【発明者】
【氏名】黄 ▲慶▼博
(72)【発明者】
【氏名】史 裕▲鵬▼
(72)【発明者】
【氏名】肖 ▲ウェイ▼
【テーマコード(参考)】
5J064
【Fターム(参考)】
5J064BA09
5J064BA10
5J064BC11
5J064BC15
5J064BC18
(57)【要約】
本願は、オーディオ符号化方法、装置、機器、記憶媒体、及びコンピュータプログラム製品を提供し、方法は、オーディオ信号に対して第1レベルの特徴抽出を行い、第1レベルの信号特徴を得るステップと、N個のレベルのうちの第iレベルに対して、オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの信号特徴を得るステップであって、Nとiは、1よりも大きい整数であり、iは、N以下である、ステップと、iをトラバースし、N個のレベルのうちの個々のレベルの信号特徴を得るステップであって、該信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さい、ステップと、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号のストリームを得るステップと、を含む。
【特許請求の範囲】
【請求項1】
電子機器によって実行される、オーディオ符号化方法であって、前記方法は、
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るステップと、
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るステップであって、前記Nと前記iは、1よりも大きい整数であり、前記iは、前記N以下である、ステップと、
前記iをトラバースし、前記N個のレベルのうちの個々のレベルの信号特徴を得るステップであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、ステップと、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るステップと、を含むオーディオ符号化方法。
【請求項2】
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得る前記ステップは、
前記オーディオ信号に対してサブバンド分解を行い、前記オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得るステップと、
前記低周波サブバンド信号に対して第1レベルの特徴抽出を行い、前記第1レベルの低周波信号特徴を得て、前記高周波サブバンド信号に対して第1レベルの特徴抽出を行い、前記第1レベルの高周波信号特徴を得るステップと、
前記低周波信号特徴と前記高周波信号特徴とを前記第1レベルの信号特徴として決定するステップと、を含む、請求項1に記載の方法。
【請求項3】
前記オーディオ信号に対してサブバンド分解を行い、前記オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得る前記ステップは、
第1サンプリング周波数に従って前記オーディオ信号をサンプリングし、サンプリングされた信号を得るステップと、
前記サンプリングされた信号をローパスフィルタリングし、ローパスフィルタリングされた信号を得て、且つ前記ローパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の前記低周波サブバンド信号を得るステップと、
前記サンプリングされた信号をハイパスフィルタリングし、ハイパスフィルタリングされた信号を得て、且つ前記ハイパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の前記高周波サブバンド信号を得るステップと、を含み、
前記第2サンプリング周波数は、前記第1サンプリング周波数よりも小さい、請求項2に記載の方法。
【請求項4】
前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得る前記ステップは、
前記オーディオ信号の低周波サブバンド信号と第(i-1)レベルの低周波信号特徴とを継ぎ合わせ、第1継ぎ合わせ特徴を得て、且つ前記第1継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの低周波信号特徴を得るステップと、
前記オーディオ信号の高周波サブバンド信号と第(i-1)レベルの高周波信号特徴とを継ぎ合わせ、第2継ぎ合わせ特徴を得て、且つ前記第2継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの高周波信号特徴を得るステップと、
前記第iレベルの低周波信号特徴と前記第iレベルの高周波信号特徴とを前記第iレベルの信号特徴として決定するステップと、を含む、請求項2に記載の方法。
【請求項5】
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得る前記ステップは、
前記オーディオ信号に対して第1畳み込み処理を行い、前記第1レベルの畳み込み特徴を得るステップと、
前記畳み込み特徴に対して第1プーリング処理を行い、前記第1レベルのプーリング特徴を得るステップと、
前記プーリング特徴に対して第1ダウンサンプリングを行い、前記第1レベルのダウンサンプリング特徴を得るステップと、
前記ダウンサンプリング特徴に対して第2畳み込み処理を行い、前記第1レベルの信号特徴を得るステップと、を含む、請求項1に記載の方法。
【請求項6】
前記第1ダウンサンプリングは、M個のカスケードされた符号化層によって実現され、前記プーリング特徴に対して第1ダウンサンプリングを行い、前記第1レベルのダウンサンプリング特徴を得る前記ステップは、
前記M個のカスケードされた符号化層のうちの第1個目の符号化層によって、前記プーリング特徴に対して第1ダウンサンプリングを行い、前記第1個目の符号化層のダウンサンプリング結果を得るステップと、
前記M個のカスケードされた符号化層のうちの第j個目の符号化層によって、第(j-1)個の符号化層のダウンサンプリング結果に対して第1ダウンサンプリングを行い、前記第j個目の符号化層のダウンサンプリング結果を得るステップであって、前記Mと前記jは、1よりも大きい整数であり、前記jは、前記M以下である、ステップと、
前記jをトラバースし、第M個目の符号化層のダウンサンプリング結果を得て、且つ前記第M個目の符号化層のダウンサンプリング結果を前記第1レベルのダウンサンプリング特徴として決定するステップと、を含む、請求項5に記載の方法。
【請求項7】
前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得ることは、
前記継ぎ合わせ特徴に対して第3畳み込み処理を行い、前記第iレベルの畳み込み特徴を得るステップと、
前記畳み込み特徴に対して第2プーリング処理を行い、前記第iレベルのプーリング特徴を得るステップと、
前記プーリング特徴に対して第2ダウンサンプリングを行い、前記第iレベルのダウンサンプリング特徴を得るステップと、
前記ダウンサンプリング特徴に対して第4畳み込み処理を行い、前記第iレベルの信号特徴を得るステップと、を含む、請求項1に記載の方法。
【請求項8】
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得る前記ステップは、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴に対してそれぞれ量子化処理を行い、各レベルの信号特徴の量子化結果を得るステップと、
前記各レベルの信号特徴の量子化結果に対してエントロピー符号化を行い、各レベルにおける前記オーディオ信号のストリームを得るステップと、を含む、請求項1に記載の方法。
【請求項9】
前記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得る前記ステップは、
前記第1レベルの低周波信号特徴、及び前記N個のレベルのうちの個々のレベルの低周波信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号の低周波ストリームを得るステップと、
前記第1レベルの高周波信号特徴、及び前記N個のレベルのうちの個々のレベルの高周波信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号の高周波ストリームを得るステップと、
各レベルにおける前記オーディオ信号の低周波ストリーム、及び高周波ストリームを相応なレベルにおける前記オーディオ信号のストリームとして決定するステップと、を含む、請求項1に記載の方法。
【請求項10】
前記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得る前記ステップは、
第1符号化ビットレートに従って、前記第1レベルの低周波信号特徴を符号化し、第1レベルの第1ストリームを得て、且つ第2符号化ビットレートに従って、前記第1レベルの高周波信号特徴を符号化し、第1レベルの第2ストリームを得るステップと、
前記N個のレベルのうちの個々のレベルの信号特徴に対して、前記レベルの第3符号化ビットレートに従って、前記レベルの信号特徴をそれぞれ符号化し、各前記レベルの第2ストリームを得る、という処理をそれぞれ実行する、ステップと、
前記第1レベルの第2ストリーム、及び前記N個のレベルのうちの個々のレベルの第2ストリームを各レベルにおける前記オーディオ信号のストリームとして決定するステップと、を含み、
前記第1符号化ビットレートは、前記第2符号化ビットレートよりも大きく、前記第2符号化ビットレートは、前記N個のレベルのうちの任意の1つのレベルの第3符号化ビットレートよりも大きく、前記レベルの符号化ビットレートと相応なレベルのストリームの復号品質指標とに正の相関がある、請求項1に記載の方法。
【請求項11】
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得る前記ステップの後に、前記方法は、
各前記レベルに対して、
前記レベルにおける前記オーディオ信号のストリームに対して相応なレベル伝送優先度を設定する、という処理をそれぞれ実行する、ステップをさらに含み、
前記レベル伝送優先度と前記レベルのレベル数とに負の相関があり、前記レベル伝送優先度と相応なレベルのストリームの復号品質指標とに正の相関がある、請求項1に記載の方法。
【請求項12】
前記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、各レベルにおける前記オーディオ信号のストリームは、前記低周波信号特徴に基づき符号化して得られた低周波ストリーム、及び前記高周波信号特徴に基づき符号化して得られた高周波ストリームを含み、前記方法は、
各前記レベルに対して、前記レベルの低周波ストリームに第1伝送優先度を設定し、且つ前記レベルの高周波ストリームに第2伝送優先度を設定する、という処理をそれぞれ実行するステップをさらに含み、
前記第1伝送優先度は、前記第2伝送優先度よりも高く、第(i-1)レベルの前記第2伝送優先度は、第iレベルの前記第1伝送優先度よりも低く、前記ストリームの伝送優先度と相応なストリームの復号品質指標とに正の相関がある、請求項1に記載の方法。
【請求項13】
電子機器によって実行される、オーディオ復号方法であって、前記方法は、
オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するステップと、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るステップであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、ステップと、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るステップと、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るステップと、を含む、オーディオ復号方法。
【請求項14】
前記ストリームは、低周波ストリームと高周波ストリームとを含み、各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得る前記ステップは、
各前記レベルの低周波ストリームをそれぞれ復号し、各前記レベルの低周波信号特徴を得て、且つ各前記レベルの高周波ストリームをそれぞれ復号し、各前記レベルの高周波信号特徴を得るステップを含み、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得る前記ステップは、
各前記レベルの低周波信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベル低周波サブバンド信号を得て、且つ各前記レベルの高周波信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベル高周波サブバンド信号を得るステップと、
前記レベル低周波サブバンド信号と前記レベル高周波サブバンド信号を前記レベルのレベルオーディオ信号とするステップと、を含み、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得る前記ステップは、
複数の前記レベルのレベル低周波サブバンド信号を加算し、低周波サブバンド信号を得て、且つ複数の前記レベルのレベル高周波サブバンド信号を加算し、高周波サブバンド信号を得るステップと、
前記低周波サブバンド信号と前記高周波サブバンド信号とを合成し、前記オーディオ信号を得るステップと、を含む、請求項13に記載の方法。
【請求項15】
前記低周波サブバンド信号と前記高周波サブバンド信号とを合成し、前記オーディオ信号を得る前記ステップは、
前記低周波サブバンド信号をアップサンプリングし、ローパスフィルタリングされた信号を得るステップと、
前記高周波サブバンド信号をアップサンプリングし、高周波フィルタリングされた信号を得るステップと、
前記ローパスフィルタリングされた信号と前記高周波フィルタリングされた信号とに対してフィルタリング合成を行い、前記オーディオ信号を得るステップと、を含む、請求項14に記載の方法。
【請求項16】
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得る前記ステップは、
各前記レベルの信号特徴に対して、
前記信号特徴に対して第1畳み込み処理を行い、前記レベルの畳み込み特徴を得る処理と、
前記畳み込み特徴をアップサンプリングし、前記レベルのアップサンプリング特徴を得る処理と、
前記アップサンプリング特徴に対してプーリング処理を行い、前記レベルのプーリング特徴を得る処理と、
前記プーリング特徴に対して第2畳み込み処理を行い、前記レベルのレベルオーディオ信号を得る処理と、をそれぞれ実行すること、を含む、請求項13に記載の方法。
【請求項17】
前記アップサンプリングは、L個のカスケードされた復号層によって実現され、前記畳み込み特徴をアップサンプリングし、前記レベルのアップサンプリング特徴を得る処理は、
前記L個のカスケードされた復号層のうちの第1個目の復号層によって、前記プーリング特徴をアップサンプリングし、前記第1個目の復号層のアップサンプリング結果を得るステップと、
前記L個のカスケードされた復号層のうちの第k個目の復号層によって、第(k-1)個目の復号層の第1アップサンプリング結果をアップサンプリングし、前記第k個目の復号層のアップサンプリング結果を得るステップであって、
前記Lと前記kは、1よりも大きい整数であり、前記kは、前記L以下である、ステップと、
前記kをトラバースし、第L個目の復号層のアップサンプリング結果を得て、且つ前記第L個目の復号層のアップサンプリング結果を前記レベルのアップサンプリング特徴とするステップと、を含む、請求項16に記載の方法。
【請求項18】
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得る前記ステップは、
各前記レベルに対して、
前記レベルのストリームに対してエントロピー復号を行い、前記ストリームの量子化値を得る処理と、
前記ストリームの量子化値に対して逆量子化処理を行い、前記レベルの信号特徴を得る処理と、をそれぞれ実行すること、を含む、請求項13に記載の方法。
【請求項19】
オーディオ符号化装置であって、前記装置は、
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るように構成される第1特徴抽出モジュールと、
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るように構成される第2特徴抽出モジュールであって、前記Nと前記iは、1よりも大きい整数であり、前記iは、前記N以下である、第2特徴抽出モジュールと、
前記iをトラバースし、前記N個のレベルのうちの個々のレベルの信号特徴を得るように構成されるトラバースモジュールであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、トラバースモジュールと、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るように構成される符号化モジュールと、を含む、オーディオ符号化装置。
【請求項20】
オーディオ復号装置であって、前記装置は、
オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するように構成される受信モジュールと、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るように構成される復号モジュールであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、復号モジュールと、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るように構成される特徴再構築モジュールと、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るように構成されるオーディオ合成モジュールと、を含む、オーディオ復号装置。
【請求項21】
電子機器であって、前記電子機器は、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリにおいて記憶される実行可能な命令を実行するとき、請求項1~18のいずれか1項に記載の方法を実現するように構成されるプロセッサと、を含む、電子機器。
【請求項22】
コンピュータ可読記憶媒体であって、実行可能な命令が記憶されており、前記実行可能な命令がプロセッサに実行されるとき、請求項1~18のいずれか1項に記載の方法を実現する、コンピュータ可読記憶媒体。
【請求項23】
コンピュータプログラム製品であって、コンピュータプログラム、又は、命令を含み、前記コンピュータプログラム、又は、命令がプロセッサに実行されるときに、請求項1~18のいずれか1項に記載の方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、オーディオ処理の技術分野に関し、特にオーディオ符号化方法、オーディオ復号方法、装置、電子機器、記憶媒体、及びコンピュータプログラム製品に関する。
【0002】
本願は、出願番号が第202210677636.4号であり、出願日が2022年6月15日である中国特許出願に基づき提案され、該中国特許出願の優先権を主張し、該中国特許出願の全部の内容は、ここで参考として本願に組み込まれている。
【背景技術】
【0003】
オーディオ符号化・復号技術は、遠隔オーディオ・ビデオ通話を含む通信サービスに応用される1つのコア技術である。オーディオ符号化技術は、比較的少ないネットワーク帯域幅リソースを使用してできるだけ多くの音声情報を伝達するものとして理解することができる。オーディオ符号化は、信号ソース符号化の一種であり、信号ソース符号化の目的は、符号化側でユーザーが伝達したい情報のデータ量を可能な限り圧縮し、冗長な情報を除去し、同時に復号側で更にロスレス(又はほぼロスレス)に復元できることである。
【0004】
しかしながら、関連技術では、オーディオ符号化の品質を確保する場合、オーディオ符号化の効率が低い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、オーディオ符号化方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供し、オーディオ符号化の効率を向上させ、且つオーディオ符号化の品質を確保することができる。
【課題を解決するための手段】
【0006】
本願の実施例の技術的手段は、以下のように実現される。
【0007】
本願の実施例は、オーディオ符号化方法を提供し、
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るステップと、
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るステップであって、前記Nと前記iは、1よりも大きい整数であり、前記iは、前記N以下である、ステップと、
前記iをトラバースし、前記N個のレベルのうちの個々のレベルの信号特徴を得るステップであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、ステップと、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るステップと、を含む。
【0008】
本願の実施例は、オーディオ復号方法をさらに提供し、
オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するステップと、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るステップであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、ステップと、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るステップと、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るステップと、を含む。
【0009】
本願の実施例は、オーディオ符号化装置をさらに提供し、
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るように構成される第1特徴抽出モジュールと、
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るように構成される第2特徴抽出モジュールであって、前記Nと前記iは、1よりも大きい整数であり、前記iは、前記N以下である、第2特徴抽出モジュールと、
前記iをトラバースし、前記N個のレベルのうちの個々のレベルの信号特徴を得るように構成されるトラバースモジュールであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、トラバースモジュールと、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るように構成される符号化モジュールと、を含む。
【0010】
本願の実施例は、オーディオ復号装置をさらに提供し、
オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するように構成される受信モジュールと、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るように構成される復号モジュールであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、復号モジュールと、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るように構成される特徴再構築モジュールと、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るように構成されるオーディオ合成モジュールと、を含む。
【0011】
本願の実施例は、電子機器をさらに提供し、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリにおいて記憶される実行可能な命令を実行するとき、本願の実施例が提供する方法を実現するように構成されるプロセッサと、を含む。
【0012】
本願の実施例は、コンピュータ可読記憶媒体をさらに提供し、実行可能な命令が記憶されており、前記実行可能な命令がプロセッサに実行されるとき、本願の実施例が提供する方法を実現する。
【0013】
本願の実施例は、コンピュータプログラム製品をさらに提供し、コンピュータプログラム、又は、命令を含み、前記コンピュータプログラム、又は、命令がプロセッサに実行されるとき、本願の実施例が提供する方法を実現する。
【発明の効果】
【0014】
本願の実施例は、以下の有益な効果を有する。
【0015】
オーディオ信号をレベルごとに符号化することによって各レベルの信号特徴が得られ、各レベルの信号特徴のデータ次元がオーディオ信号のデータ次元よりも小さいので、オーディオ符号化過程において処理されるデータのデータ次元が削減され、オーディオ信号の符号化効率が向上する。オーディオ信号の信号特徴をレベルごとに抽出するとき、個々のレベルの出力は、いずれも次のレベルの入力として使用されることにより、個々のレベルは、いずれも前のレベルの抽出された信号特徴と組み合わせられて、オーディオ信号に対してより正確な特徴抽出を行い、レベルの数の増加に伴って、特徴抽出過程におけるオーディオ信号の情報損失を最小限に抑えることができる。このように、該方式で抽出された信号特徴を符号化することによって得られた複数のストリームについて、それに含まれるオーディオ信号の情報は元のオーディオ信号により近く、符号化過程におけるオーディオ信号の情報損失が低減し、オーディオ符号化の符号化品質が確保される。
【図面の簡単な説明】
【0016】
図1】本願の実施例が提供するオーディオ符号化システム100のアーキテクチャ模式図である。
図2】本願の実施例が提供するオーディオ符号化方法を実施する電子機器500の構造模式図である。
図3】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図4】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図5】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図6】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図7】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図8】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図9】本願の実施例が提供するオーディオ符号化方法のフローチャートである。
図10】本願の実施例が提供するオーディオ復号方法のフローチャートである。
図11】本願の実施例が提供するオーディオ復号方法のフローチャートである。
図12】本願の実施例が提供する異なるビットレートでのスペクトル比較の模式図である。
図13】本願の実施例が提供するオーディオ符号化とオーディオ復号のフローチャートである。
図14】本願の実施例が提供する音声通信リンクの模式図である。
図15】本願の実施例が提供するフィルターバンクの模式図である。
図16A】本願の実施例が提供する通常の畳み込みネットワークの模式図である。
図16B】本願の実施例が提供する膨張畳み込みネットワークの模式図である。
図17】本願の実施例が提供する第1層の低周波分析ニューラルネットワークモデルの構造模式図である。
図18】本願の実施例が提供する第2層の低周波分析ニューラルネットワークモデルの構造模式図である。
図19】本願の実施例が提供する第1層の低周波合成ニューラルネットワークモデルのモデル模式図である。
図20】本願の実施例が提供する第2層の低周波合成ニューラルネットワークモデルの構造模式図である。
【発明を実施するための形態】
【0017】
本願の目的、技術的手段、及び利点をより明瞭にするために、以下、図面と組み合わせて本願を詳細に記述することになるが、記述された実施例は、本願に対する制限として見なされるべきではなく、当業者が創造的な労働をしない前提で取得したすべての他の実施例は、いずれも本願の保護範囲に属する。
【0018】
以下の記述では、「いくつかの実施例」に関し、それはすべての可能な実施例のサブセットを記述するが、「いくつかの実施例」は、すべての可能な実施例の同じサブセット、又は、異なるサブセットであってもよく、且つ矛盾しない場合には、相互に組み合わせることができることを理解されたい。
【0019】
以下の記述では、関連する用語「第1\第2\第3」は、単に類似するオブジェクトを区別するためのものであり、オブジェクトに対する特定の順序を表すものではない。理解できるように、「第1\第2\第3」は、許容される場合には、特定の順序、又は、前後の順番を交換することができることにより、ここで記述される本願の実施例は、ここで図示され、又は、記述される以外の順序で実施できる。
【0020】
別途定義がない限り、本明細書に使用されるすべての技術用語と科学用語は、当業者によって一般的に理解される意味と同じ意味を有する。本明細書において使用される用語は、本願の実施例の目的を説明するためのものに過ぎず、本願を制限することを意図しない。
【0021】
本願の実施例を詳細に説明する前に、本願の実施例に関連する名詞と用語を説明する。本願の実施例に関連する名詞と用語は、以下の解釈に適用できる。
【0022】
1)クライアントは、端末において動作する各種のサービスを提供することに用いられるアプリケーションプログラム、例えば、インスタントメッセージングクライアント、オーディオ再生クライアントである。
【0023】
2)オーディオ符号化(Audio Coding)は、音声を含むデジタルオーディオ信号に対してデータ圧縮を行う一種のアプリケーションである。
【0024】
3)直交ミラーフィルターバンク(Quadrature Mirror Filters、QMF)について、QMFフィルターバンクは、サブバンド信号を複数の信号に分解し、それにより、信号帯域幅を削減することに用いられ、分解後の各信号は、各自のチャネルによってフィルタリングされる。
【0025】
4)量子化とは、信号の取り得る連続値(又は、大量の可能な取り得る離散値)を限られた複数の(又は、比較的少ない)離散値に近似させる過程を指し、ベクトル量子化、スカラー量子化等を含む。
【0026】
5)ベクトル量子化について、幾つかのスカラーデータを1つのベクトルに構成し、ベクトル空間を幾つかの小領域に分割し、個々の小領域で1つの代表的なベクトルを見つけ、量子化する際に小領域に入るベクトルは、対応する代表的なベクトルを使用して置き換えられる、即ち、該代表的なベクトルに量子化される。
【0027】
6)スカラー量子化について、ダイナミックレンジ全体を幾つかの小さな区間に分け、個々の小さな区間は1つの代表値を有し、量子化する際に小さな区間に入る信号値は、対応する代表値を使用して置き換えられる、即ち、信号値が該代表値に量子化される。
【0028】
7)エントロピー符号化は、即ち、符号化過程において、エントロピー原理に従っていかなる情報も失わない符号化である。一般的な情報エントロピーは、信号ソースの平均情報量であり、通常のエントロピー符号化は、シャノン(Shannon)符号化、ハフマン(Huffman)符号化、及び算術符号化(arithmetic coding)を有する。
【0029】
8)ニューラルネットワーク(NN、Neural Network)は、動物のニューラルネットワークの行動特徴を模倣しており、分散型並行情報処理を行うアルゴリズム数学モデルである。このようなネットワークは、システムの複雑さに依存し、内部の大量のノード間の相互接続関係を調整することによって、情報処理の目的を達成する。
【0030】
9)深層学習(DL、Deep Learning)は、機械学習(ML、Machine Learning)分野における1つの新たな研究方向である。深層学習は、サンプルデータの固有の法則と表現レベルを学習することであり、これらの学習過程において取得された情報は、例えば、テキスト、画像、及び音等のデータの解釈に対して非常に大きく役立つ。その最終的な目標は、機械が人間のように分析学習能力を有し、テキスト、画像、及び音等のデータを認識できるようにすることである。
【0031】
本願の実施例は、オーディオ符号化方法、オーディオ復号方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供し、オーディオ符号化の効率を向上させ、且つオーディオ符号化の品質を確保することができる。
【0032】
以下では、本願の実施例が提供するオーディオ符号化方法の実施シーンを説明する。図1に参照されるように、図1は、本願の実施例が提供するオーディオ符号化システム100のアーキテクチャ模式図であり、1つの例示的な応用のサポートを実現するために、端末(端末400-1と端末400-2が例示的に示される)は、ネットワーク300によってサーバ200に接続されている。ネットワーク300は、ワイドエリアネットワーク、又は、ローカルエリアネットワークであってもよく、また、又は、両者の組み合わせであってもよく、無線、又は、有線リンクを使用してデータの伝送を実現する。ここで、端末400-1は、オーディオ信号の送信側であり、端末400-2は、オーディオ信号の受信側である。
【0033】
端末400-1が端末400-2にオーディオ信号を送信する過程において(例えば、端末400-1と端末400-2は、設定されたクライアントに基づき遠隔通話を行う過程において)、端末400-1は、オーディオ信号に対して第1レベルの特徴抽出を行い、第1レベルの信号特徴を得て、N個のレベルのうちの第iレベルに対して、オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得る。また、継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの信号特徴を得る。Nとiは、1よりも大きい整数であり、iは、N以下である。iをトラバースし、N個のレベルのうちの個々のレベルの信号特徴を得る。信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さく、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号のストリームを得て、各レベルにおけるオーディオ信号のストリームをサーバ200に送信するように構成される。
【0034】
サーバ200は、端末400-1がオーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信し、複数のレベルのそれぞれに対応するストリームを端末400-2に送信するように構成される。
【0035】
端末400-2は、サーバ200が送信した、オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信し、各レベルのストリームをそれぞれ復号し、各レベルの信号特徴を得る。信号特徴のデータ次元はオーディオ信号のデータ次元よりも小さく、各レベルの信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベルオーディオ信号を得て、複数のレベルのレベルオーディオ信号に対してオーディオ合成を行い、オーディオ信号を得るように構成される。
【0036】
いくつかの実施例において、本願の実施例が提供するオーディオ符号化方法は、各種の電子機器によって実施でき、例えば、端末が単独で実施してもよく、サーバが単独で実施してもよく、端末とサーバが協働して実施してもよい。例えば、端末は、独立して本願の実施例が提供するオーディオ符号化方法を実行する、又は、端末は、サーバにオーディオ信号に対する符号化要求を送信する。サーバは、受信した符号化要求に応じて、本願の実施例が提供するオーディオ符号化方法を実行する。本願の実施例は、各種のシーンに応用でき、クラウド技術、人工知能、スマート交通、運転支援等を含むが、これらに限定されない。
【0037】
いくつかの実施例において、本願の実施例が提供するオーディオ符号化を実施する電子機器は、各種のタイプの端末機器、又は、サーバであってもよい。ここで、サーバ(例えば、サーバ200)は、独立した物理サーバであってもよく、複数の物理サーバで構成されるサーバクラスター、又は、分散システムであってもよい。端末(例えば、端末400)は、スマートフォン、タブレット、ノートパソコン、デスクトップコンピュータ、インテリジェント音声対話機器(例えば、スマートスピーカー)、スマート家電(例えば、スマートテレビ)、スマートウォッチ、及び車載端末等であってもよいが、これらに限定されない。端末、及びサーバは、有線、又は、無線の通信方式によって直接、又は、間接的に接続でき、本願の実施例は、これに対して制限を行わない。
【0038】
いくつかの実施例において、本願の実施例が提供するオーディオ符号化方法は、クラウド技術(Cloud Technology)の助けを借りて実現できる。クラウド技術とは、ワイドエリアネットワーク、又は、ローカルエリアネットワークにおいて、ハードウェア、ソフトウェア、及びネットワーク等の一連のリソースを統一し、データの計算、記憶、処理、及び共有を実現する一種のホスティング技術を指す。クラウド技術は、クラウドコンピューティングのビジネスモードのアプリケーションに基づくネットワーク技術、情報技術、統合技術、管理プラットフォーム技術、及びアプリケーション技術等の総称であり、リソースプールを形成し、ニーズに応じて使用することができ、柔軟で便利である。クラウドコンピューティング技術は、重要なサポートとなることになる。技術的なネットワークシステムのバックグラウンドサービスには、大量の計算、記憶リソースが必要である。例として、上記サーバ(例えば、サーバ200)は、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク(Content Delivery Network、CDN)、及びビッグデータと人工知能プラットフォーム等の基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0039】
いくつかの実施例において、端末、又は、サーバは、コンピュータプログラムを動作させることによって本願の実施例が提供するオーディオ符号化方法を実現することができ、例を挙げると、コンピュータプログラムは、オペレーティングシステムにおけるネイティブプログラム、又は、ソフトウェアモジュールであってもよく、ネイティブ(Native)アプリケーションプログラム(APP、Application)、即ち、動作させるためにオペレーティングシステムにインストールする必要があるプログラムであってもよく、アプレット、即ち、ブラウザ環境にダウンロードするだけで動作するプログラムであってもよく、さらに、任意のAPPに組み込むことができるアプレットであってもよい。要約すると、上記コンピュータプログラムは、任意の形式のアプリケーションプログラム、モジュール、又は、プラグインであってもよい。
【0040】
いくつかの実施例において、複数のサーバは、1つのブロックチェーンを形成することができ、サーバはブロックチェーンにおけるノードであり、ブロックチェーンにおける個々のノード間に情報接続が存在することができ、ノード間は上記情報接続によって情報を伝送することができる。ここで、本願の実施例が提供するオーディオ符号化方法に関連するデータ(例えば、各レベルにおけるオーディオ信号のストリーム、特徴抽出を行うことに用いられるニューラルネットワークモデル)は、ブロックチェーンに保存できる。
【0041】
以下では、本願の実施例が提供するオーディオ符号化方法を実施する電子機器を説明する。図2に参照されるように、図2は、本願の実施例が提供するオーディオ符号化方法を実施する電子機器500の構造模式図である。電子機器500が図1に示される端末(例えば、端末400-1)であることを例とすると、本願の実施例が提供するオーディオ符号化方法を実施する電子機器500は、少なくとも1つのプロセッサ510、メモリ550、少なくとも1つのネットワークインタフェース520、及びユーザーインタフェース530を含む。電子機器500における各々のコンポーネントは、バスシステム540によって一体に結合される。理解できるように、バスシステム540は、これらのコンポーネント間の接続通信を実現することに用いられる。バスシステム540は、データバスを含むことに加えて、電源バス、制御バス、及び状態信号バスをさらに含む。しかしながら、明確に説明するために、図2において、各種のバスが全てバスシステム540としてマークされている。
【0042】
プロセッサ510は、一種の集積回路チップであってもよく、信号の処理能力を有し、例えば、汎用プロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、又は、他のプログラマブル論理デバイス、ディスクリートゲート、又は、トランジスタ論理デバイス、ディスクリートハードウェアコンポーネント等であってもよい。ここで、汎用プロセッサは、マイクロプロセッサー、又は、任意の通常のプロセッサ等であってもよい。
【0043】
メモリ550は、取り外し可能なものであってもよく、取り外し不可能なものであってもよく、又は、その組み合わせであってもよい。メモリ550は、選択可能に、プロセッサ510から物理的に離れる1つ、又は、複数の記憶機器を含む。メモリ550は、揮発性メモリ、又は、不揮発性メモリを含み、揮発性メモリと不揮発性メモリの両方を含んでもよい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM、Read Only Memory)であってもよく、揮発性メモリは、ランダムアクセスメモリ(RAM、Random Access Memory)であってもよい。本願の実施例に記述されるメモリ550は、任意の適切なタイプのメモリを含むことを意図する。
【0044】
いくつかの実施例において、メモリ550は、データを記憶して各種の操作をサポートすることができる。これらのデータの例は、プログラム、モジュール、及びデータ構造、或いは、そのサブセット、又は、スーパーセットを含み、以下、例示的に説明する。
【0045】
オペレーティングシステム551は、各種の基本的なシステムサービスを処理し、ハードウェア関連タスクを実行するように構成されるシステムプログラムを含み、例えば、フレームワーク層、コアライブラリ層、ドライバー層等であり、各種の基本的なサービスを実現し、またハードウェアに基づくタスクを処理することに用いられる。
【0046】
ネットワーク通信モジュール552は、1つ、又は、複数の(有線、又は、無線)ネットワークインタフェース520を介して他のコンピューティング機器に到達するように構成され、例示的なネットワークインタフェース520は、ブルートゥース(登録商標)、ワイヤレスフィディリティー(WiFi)、及び汎用シリアルバス(USB、Universal Serial Bus)等を含む。
【0047】
いくつかの実施例において、本願の実施例が提供するオーディオ符号化装置は、ソフトウェアの方式を採用して実現されてもよい。図2は、メモリ550に記憶されるオーディオ符号化装置553を示しており、それはプログラムとプラグイン等の形式のソフトウェアであってもよく、第1特徴抽出モジュール5531、第2特徴抽出モジュール5532、トラバースモジュール5533、及び符号化モジュール5534というソフトウェアモジュールを含む。これらのモジュールは、論理的なものであり、従って、実現される機能に応じて任意の組み合わせ、又は、分割を行うことができる。以下で、各々のモジュールの機能を説明することになる。
【0048】
以下では、本願の実施例が提供するオーディオ符号化方法を説明する。いくつかの実施例において、本願の実施例が提供するオーディオ符号化方法は、各種の電子機器によって実施でき、例えば、端末が単独で実施してもよく、サーバが単独で実施してもよく、端末とサーバが協働して実施してもよい。端末が実施することを例とすると、図3に参照されるように、図3は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、本願の実施例が提供するオーディオ符号化方法は、ステップ101~ステップ104を含む。
【0049】
ステップ101:端末は、オーディオ信号に対して第1レベルの特徴抽出を行い、第1レベルの信号特徴を得る。
【0050】
実際の応用において、該オーディオ信号は、通話(例えば、ネットワーク通話、電話)過程における音声信号、音声メッセージ(例えば、インスタントメッセージングクライアントにおいて送信された音声メッセージ)、再生される音楽、オーディオ等であってもよい。オーディオ信号は、伝送の際に、オーディオ信号を符号化する必要があり、それにより、オーディオ信号の送信側は、符号化して得られるストリームを伝送することができ、ストリームの受信側は、受信されたストリームを復号して該オーディオ信号を得ることができる。続いて、オーディオ信号の符号化過程を説明する。本願の実施例において、レベルごとに符号化する方式を採用してオーディオ信号を符号化し、該レベルごとに符号化する方式は、オーディオ信号に対して複数のレベルの符号化を行うことによって実現される。以下、個々のレベルの符号化過程を説明する。まず、第1レベルに対して、端末は、オーディオ信号に対して第1レベルの特徴抽出を行い、第1レベルによって抽出されたオーディオ信号の信号特徴、即ち第1レベルの信号特徴を得ることができる。
【0051】
いくつかの実施例において、オーディオ信号は、低周波サブバンド信号と高周波サブバンド信号とを含み、オーディオ信号を処理する(例えば、特徴抽出、符号化)ときに、オーディオ信号に含まれる低周波サブバンド信号と高周波サブバンド信号をそれぞれ処理することができる。これに基づき、図4に参照されるように、図4は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、図4は、図3のステップ101がステップ201~ステップ203によって実現できることを示す。ステップ201:オーディオ信号に対してサブバンド分解を行い、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得る。ステップ202:低周波サブバンド信号に対して第1レベルの特徴抽出を行い、第1レベルの低周波信号特徴を得て、且つ高周波サブバンド信号に対して第1レベルの特徴抽出を行い、第1レベルの高周波信号特徴を得る。ステップ203:低周波信号特徴と高周波信号特徴を第1レベルの信号特徴とする。
【0052】
説明する必要があるものとして、ステップ201では、第1レベルによってオーディオ信号に対して特徴抽出を行う過程において、端末は、まずオーディオ信号に対してサブバンド分解を行い、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得ることにより、それぞれ低周波サブバンド信号と高周波サブバンド信号に対して特徴抽出行うことができる。いくつかの実施例において、図5に参照されるように、図5は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、図5は、図4のステップ201がステップ2011~ステップ2013によって実現できることを示す。ステップ2011:第1サンプリング周波数に従ってオーディオ信号をサンプリングし、サンプリングされた信号を得る。ステップ2012:サンプリングされた信号をローパスフィルタリングし、ローパスフィルタリングされた信号を得て、且つローパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の低周波サブバンド信号を得る。ステップ2013:サンプリングされた信号をハイパスフィルタリングし、ハイパスフィルタリングされた信号を得て、且つハイパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の高周波サブバンド信号を得る。ここで、第2サンプリング周波数は、第1サンプリング周波数よりも小さい。
【0053】
ステップ2011では、第1サンプリング周波数に従ってオーディオ信号をサンプリングし、サンプリングされた信号を得ることができ、該第1サンプリング周波数は、予め設定されてもよい。実際の応用において、オーディオ信号は、連続的なアナログ信号であり、第1サンプリング周波数を採用してオーディオ信号をサンプリングすることにより、離散的なデジタル信号、即ち、サンプリングされた信号が得られ、該サンプリングされた信号は、オーディオ信号からサンプリングして得られた複数のサンプルポイント(即ち、サンプリング値)を含む。
【0054】
ステップ2012では、サンプリング信号をローパスフィルタリングし、ローパスフィルタリングされた信号を得て、且つローパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の低周波サブバンド信号を得る。ステップ2013では、サンプリングされた信号をハイパスフィルタリングし、ハイパスフィルタリングされた信号を得て、且つハイパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の高周波サブバンド信号を得る。ステップ202とステップ203では、該ローパスフィルタリングとハイパスフィルタリングは、QMF分析フィルターによって実現できる。実際に実施するとき、該第2サンプリング周波数は、第1サンプリング周波数の二分の一であってもよく、このようにして同じ周波数の低周波サブバンド信号と高周波サブバンド信号を得ることができる。
【0055】
ステップ202では、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得た後に、オーディオ信号の低周波サブバンド信号に対して第1レベルの特徴抽出を行い、第1レベルの低周波信号特徴を得て、且つ高周波サブバンド信号に対して第1レベルの特徴抽出を行い、第1レベルの高周波信号特徴を得る。ステップ203では、低周波信号特徴と高周波信号特徴を第1レベルの信号特徴とする。
【0056】
いくつかの実施例において、図6に参照されるように、図6は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、図6は、図3のステップ101がさらにステップ301~ステップ304によって実現できることを示す。ステップ301:オーディオ信号に対して第1畳み込み処理を行い、第1レベルの畳み込み特徴を得る。ステップ302:畳み込み特徴に対して第1プーリング処理を行い、第1レベルのプーリング特徴を得る。ステップ303:プーリング特徴に対して第1ダウンサンプリングを行い、第1レベルのダウンサンプリング特徴を得る。ステップ304:ダウンサンプリング特徴に対して第2畳み込み処理を行い、第1レベルの信号特徴を得る。
【0057】
説明する必要があるものとして、ステップ301では、オーディオ信号に対して第1畳み込み処理を行うことができる。実際の応用において、該第1畳み込み処理は、チャネル数(例えば、24チャネル)が予め設定された因果畳み込みを呼び出すことによって処理することにより、第1レベルの畳み込み特徴を得ることができる。
【0058】
ステップ302では、ステップ301で得られた畳み込み特徴に対して第1プーリング処理を行う。実際の応用において、該第1プーリング処理は、プーリングファクター(例えば2)を予め設定し、更に該プーリングファクターに基づき畳み込み特徴に対して第1プーリング処理を行い、第1レベルのプーリング特徴を得ることができる。
【0059】
ステップ303では、ステップ302で得られたプーリング特徴に対して第1ダウンサンプリングを行う。実際の応用において、ダウンサンプリングファクターを予め設定することができ、それにより該ダウンサンプリングファクターに基づきダウンサンプリングを行う。該第1ダウンサンプリングは、1つの符号化層によって実現されてもよく、複数の符号化層によって実現されてもよい。いくつかの実施例において、第1ダウンサンプリングは、M個のカスケードされた符号化層によって実現される。相応に、図7に参照されるように、図7は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、図7は、図6のステップ303がさらにステップ3031~ステップ3033によって実現できることを示す。ステップ3031:M個のカスケードされた符号化層のうちの第1個目の符号化層によって、プーリング特徴に対して第1ダウンサンプリングを行い、第1個目の符号化層のダウンサンプリング結果を得る。ステップ3032:M個のカスケードされた符号化層のうちの第j個目の符号化層によって、第(j-1)個の符号化層のダウンサンプリング結果に対して第1ダウンサンプリングを行い、第j個目の符号化層のダウンサンプリング結果を得る。ここで、Mとjは、1よりも大きい整数であり、jは、M以下である。ステップ3033:jをトラバースし、第M個目の符号化層のダウンサンプリング結果を得て、且つ第M個目の符号化層のダウンサンプリング結果を第1レベルのダウンサンプリング特徴とする。
【0060】
説明する必要があるものとして、ステップ3031~ステップ3033では、個々の符号化層のダウンサンプリングファクターは、同じであってもよく、異なってもよい。実際の応用において、ダウンサンプリングファクターは、プーリングファクターに相当し、下降サンプリングの作用を果たす。
【0061】
ステップ304では、ダウンサンプリング特徴に対して第2畳み込み処理を行うことができる。実際の応用において、該第2畳み込み処理は、チャネル数が予め設定された因果畳み込みを呼び出すことによって処理し、それにより第1レベルの信号特徴を得ることができる。
【0062】
実際の応用において、図6に示されるステップ301~ステップ304は、第1ニューラルネットワークモデルを呼び出すことによって実現することができ、第1ニューラルネットワークモデルは、第1畳み込み層、プーリング層、ダウンサンプリング層、及び第2畳み込み層を含む。このように、第1畳み込み層を呼び出すことによってオーディオ信号に対して第1畳み込み処理を行い、第1レベルの畳み込み特徴を得て、プーリング層を呼び出して畳み込み特徴に対して第1プーリング処理を行い、第1レベルのプーリング特徴を得て、ダウンサンプリング層を呼び出してプーリング特徴に対して第1ダウンサンプリングを行い、第1レベルのダウンサンプリング特徴を得て、第2畳み込み層を呼び出してダウンサンプリング特徴に対して第2畳み込み処理を行い、第1レベルの信号特徴を得ることができる。
【0063】
説明する必要があるものとして、オーディオ信号に対して第1レベルの特徴抽出を行うとき、図6に示されるステップ301~ステップ304によって、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号のそれぞれに対して第1レベルの特徴抽出を行うこともできる(即ち、図4に示されるステップ202)。即ち、オーディオ信号の低周波サブバンド信号に対して第1畳み込み処理を行い、第1レベルの第1畳み込み特徴を得て、第1畳み込み特徴に対して第1プーリング処理を行い、第1レベルの第1プーリング特徴を得て、第1プーリング特徴に対して第1ダウンサンプリングを行い、第1レベルの第1ダウンサンプリング特徴を得て、第1ダウンサンプリング特徴に対して第2畳み込み処理を行い、第1レベルの低周波信号特徴を得る。オーディオ信号の高周波サブバンド信号に対して第1畳み込み処理を行い、第1レベルの第2畳み込み特徴を得て、第2畳み込み特徴に対して第1プーリング処理を行い、第1レベルの第2プーリング特徴を得て、第2プーリング特徴に対して第1ダウンサンプリングを行い、第1レベルの第2ダウンサンプリング特徴を得て、第2ダウンサンプリング特徴に対して第2畳み込み処理を行い、第1レベルの高周波信号特徴を得る。
【0064】
ステップ102:N個のレベルのうちの第iレベルに対して、オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの信号特徴を得る。
【0065】
ここで、Nとiは、1よりも大きい整数であり、iは、N以下である。
【0066】
オーディオ信号に対して、第1レベルの特徴抽出を行った後に、さらに、オーディオ信号に対して残りのレベルの特徴抽出を行うことができる。本願の実施例において、該残りのレベルは、N個のレベルを含み、N個のレベルのうちの第iレベルに対して、オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの信号特徴を得る。例えば、第2レベルに対して、オーディオ信号と第1レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第2レベルの特徴抽出を行い、第2レベルの信号特徴を得て、第3レベルに対して、オーディオ信号と第2レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第3レベルの特徴抽出を行い、第3レベルの信号特徴を得て、第4レベルに対して、オーディオ信号と第3レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第4レベルの特徴抽出を行い、第4レベルの信号特徴を得る。
【0067】
いくつかの実施例において、オーディオ信号は、低周波サブバンド信号と高周波サブバンド信号とを含み、オーディオ信号を処理する(例えば、特徴抽出、符号化)ときに、オーディオ信号に含まれる低周波サブバンド信号と高周波サブバンド信号をそれぞれ処理することができる。これに基づき、N個のレベルのうちの第iレベルに対して、さらに、オーディオ信号に対してサブバンド分解を行い、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得ることができる。サブバンド分解の過程は、上記ステップ2011~ステップ2013を参照できる。このように、N個のレベルのうちの第iレベルに対して、それが特徴抽出を実行することで出力されたデータは、第iレベルの低周波信号特徴、及び第iレベルの高周波信号特徴を含む。
【0068】
相応に、図8に参照されるように、図8は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、図8は、図3のステップ102がステップ401~ステップ403によって実現できることを示す。ステップ401:オーディオ信号の低周波サブバンド信号と第(i-1)レベルの低周波信号特徴とを継ぎ合わせ、第1継ぎ合わせ特徴を得て、且つ第1継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの低周波信号特徴を得る。ステップ402:オーディオ信号の高周波サブバンド信号と第(i-1)レベルの高周波信号特徴とを継ぎ合わせ、第2継ぎ合わせ特徴を得て、且つ第2継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの高周波信号特徴を得る。ステップ403:第iレベルの低周波信号特徴と第iレベルの高周波信号特徴を第iレベルの信号特徴とする。
【0069】
説明する必要があるものとして、ステップ401では、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得た後に、オーディオ信号の低周波サブバンド信号と、第(i-1)レベルに対して抽出して得られた低周波信号特徴とを継ぎ合わせ、第1継ぎ合わせ特徴を得て、次に、第1継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの低周波信号特徴を得る。同様に、ステップ402では、オーディオ信号の高周波サブバンド信号と、第(i-1)レベルに対して抽出して得られた高周波信号特徴とを継ぎ合わせ、第2継ぎ合わせ特徴を得て、次に、第2継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの高周波信号特徴を得る。このように、ステップ403では、第iレベルの低周波信号特徴と第iレベルの高周波信号特徴を第iレベルの信号特徴とする。
【0070】
いくつかの実施例において、図9に参照されるように、図9は、本願の実施例が提供するオーディオ符号化方法のフローチャートであり、図9は、図3のステップ102がさらにステップ501~ステップ504によって実現できることを示す。ステップ501:継ぎ合わせ特徴に対して第3畳み込み処理を行い、第iレベルの畳み込み特徴を得る。ステップ502:畳み込み特徴に対して第2プーリング処理を行い、第iレベルのプーリング特徴を得る。ステップ503:プーリング特徴に対して第2ダウンサンプリングを行い、第iレベルのダウンサンプリング特徴を得る。ステップ504:ダウンサンプリング特徴に対して第4畳み込み処理を行い、第iレベルの信号特徴を得る。
【0071】
説明する必要があるものとして、ステップ501では、継ぎ合わせ特徴(オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせることで得られるもの)に対して第3畳み込み処理を行うことができる。実際の応用において、該第3畳み込み処理は、チャネル数が予め設定された因果畳み込みを呼び出すことによって処理し、それにより第iレベルの畳み込み特徴を得ることができる。
【0072】
ステップ502では、ステップ501で得られた畳み込み特徴に対して第2プーリング処理を行う。実際の応用において、該第2プーリング処理は、プーリングファクターを予め設定し、更に該プーリングファクターに基づき畳み込み特徴に対して第2プーリング処理を行い、第iレベルのプーリング特徴を得ることができる。
【0073】
ステップ503では、ステップ502で得られたプーリング特徴に対して第2ダウンサンプリングを行う。実際の応用において、ダウンサンプリングファクターを予め設定することができ、それにより、該ダウンサンプリングファクターに基づきダウンサンプリングを行う。該第2ダウンサンプリングは、1つの符号化層によって実現されてもよく、複数の符号化層によって実現されてもよい。いくつかの実施例において、第2ダウンサンプリングは、X個のカスケードされた符号化層によって実現できる。相応に、図9のステップ503は、さらに、ステップ5031~ステップ5033によって実現することができる。ステップ5031:X個のカスケードされた符号化層のうちの第1個目の符号化層によって、プーリング特徴に対して第2ダウンサンプリングを行い、第1個目の符号化層のダウンサンプリング結果を得る。ステップ5032:X個のカスケードされた符号化層のうちの第g個の符号化層によって、第(g-1)個の符号化層のダウンサンプリング結果に対して第2ダウンサンプリングを行い、第g個の符号化層のダウンサンプリング結果を得る。ここで、Xとgは、1よりも大きい整数であり、gは、X以下である。ステップ5033:gをトラバースし、第X個の符号化層のダウンサンプリング結果を得て、且つ第X個の符号化層のダウンサンプリング結果を第iレベルのダウンサンプリング特徴とする。
【0074】
説明する必要があるものとして、ステップ5031~ステップ5033では、個々の符号化層のダウンサンプリングファクターは、同じであってもよく、異なってもよい。実際の応用において、ダウンサンプリングファクターは、プーリングファクターに相当し、下降サンプリングの作用を果たす。
【0075】
ステップ504では、ダウンサンプリング特徴に対して第4畳み込み処理を行うことができる。実際の応用において、該第4畳み込み処理は、チャネル数が予め設定された因果畳み込みを呼び出すことによって処理し、それにより第iレベルの信号特徴を得ることができる。
【0076】
実際の応用において、図9に示されるステップ501~ステップ504は、第2ニューラルネットワークモデルを呼び出すことによって実現でき、第2ニューラルネットワークモデルは、第3畳み込み層、プーリング層、ダウンサンプリング層、及び第4畳み込み層を含む。このように、第3畳み込み層を呼び出すことによって継ぎ合わせ特徴に対して第3畳み込み処理を行い、第iレベルの畳み込み特徴を得て、プーリング層を呼び出して畳み込み特徴に対して第2プーリング処理を行い、第iレベルのプーリング特徴を得て、ダウンサンプリング層を呼び出してプーリング特徴に対して第2ダウンサンプリングを行い、第iレベルのダウンサンプリング特徴を得て、第4畳み込み層を呼び出してダウンサンプリング特徴に対して第4畳み込み処理を行い、第iレベルの信号特徴を得ることができる。実際に実施するときには、第2ニューラルネットワークが出力した信号特徴の特徴次元は、第1ニューラルネットワークが入力した信号特徴の特徴次元よりも小さくてもよい。
【0077】
説明する必要があるものとして、第iレベルの特徴抽出を行うとき、図9に示されるステップ501~ステップ504によって、オーディオ信号の低周波サブバンド信号と高周波サブバンド信号のそれぞれに対して第iレベルの特徴抽出を行うこともできる。即ち、第iレベルに対して、低周波継ぎ合わせ特徴(低周波サブバンド信号と第(i-1)レベルの低周波信号特徴とを継ぎ合わせることで得られるもの)に対して第3畳み込み処理を行い、第iレベルの畳み込み特徴を得て、畳み込み特徴に対して第2プーリング処理を行い、第iレベルのプーリング特徴を得て、プーリング特徴に対して第2ダウンサンプリングを行い、第iレベルのダウンサンプリング特徴を得て、ダウンサンプリング特徴に対して第4畳み込み処理を行い、第iレベルの低周波信号特徴を得ることができる。第iレベルに対して、高周波継ぎ合わせ特徴(高周波サブバンド信号と第(i-1)レベルの高周波信号特徴とを継ぎ合わせることで得られるもの)に対して第3畳み込み処理を行い、第iレベルの畳み込み特徴を得て、畳み込み特徴に対して第2プーリング処理を行い、第iレベルのプーリング特徴を得て、プーリング特徴に対して第2ダウンサンプリングを行い、第iレベルのダウンサンプリング特徴を得て、ダウンサンプリング特徴に対して第4畳み込み処理を行い、第iレベルの高周波信号特徴を得ることができる。
【0078】
ステップ103:iをトラバースし、N個のレベルのうちの個々のレベルの信号特徴を得る。
【0079】
ここで、信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さい。
【0080】
ステップ102において、第iレベルに対する特徴抽出の過程が説明されており、実際の応用において、N個のレベルのうちの個々のレベルの信号特徴を得るために、iをトラバースする必要がある。本願の実施例において、個々のレベルが出力した信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さい。このようにしてオーディオ符号化過程に関連するデータのデータ次元を削減し、オーディオ符号化の符号化効率を向上させることができる。
【0081】
ステップ104:第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号のストリームを得る。
【0082】
実際の応用において、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴を得た後に、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、それにより各レベルにおけるオーディオ信号のストリームを得ることができる。該ストリームは、オーディオ信号の受信側に伝送することができることにより、受信側が復号側としてオーディオ信号を復号する。
【0083】
説明する必要があるものとして、該N個のレベルのうちの第iレベルが出力した信号特徴は、第(i-1)レベルが出力した信号特徴と元のオーディオ信号との間の残差信号特徴として理解できる。このように、抽出されたオーディオ信号の信号特徴は、第1レベルの抽出されたオーディオ信号の信号特徴を含むだけでなく、該N個のレベルのうちの個々のレベルの抽出された残差信号特徴をさらに含む。これにより、抽出されたオーディオ信号の信号特徴は、より包括的で正確になり、特徴抽出過程におけるオーディオ信号の情報損失が低減することにより、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化するときに、符号化して得られたストリームの品質がより高くなり、含まれるオーディオ信号の情報が元のオーディオ信号により近く、オーディオ符号化の符号化品質が向上する。
【0084】
いくつかの実施例において、図3に示されるステップ104は、ステップ104a1~ステップ104a2によって実現することができる。ステップ104a1:第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴に対してそれぞれ量子化処理を行い、各レベルの信号特徴の量子化結果を得る。ステップ104a2:各レベルの信号特徴の量子化結果に対してエントロピー符号化を行い、各レベルにおけるオーディオ信号のストリームを得る。
【0085】
説明する必要があるものとして、ステップ104a1では、量子化テーブルを予め設定することができ、該量子化テーブルは、信号特徴と量子化値との間の対応関係を含む。量子化処理を行うとき、予め設定された量子化テーブルを問い合わせることによって、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴に対して、それぞれ相応な量子化値を問い合わせて得ることができることにより、問い合わせて得られた量子化値を量子化結果とする。ステップ104a2では、各レベルの信号特徴の量子化結果に対してそれぞれエントロピー符号化を行い、各レベルにおけるオーディオ信号のストリームを得る。
【0086】
実際の応用において、オーディオ信号は、低周波サブバンド信号と高周波サブバンド信号とを含み、この場合、相応に、個々のレベルが出力した信号特徴は、低周波信号特徴と高周波信号特徴とを含む。これに基づき、信号特徴が低周波信号特徴と高周波信号特徴とを含むとき、いくつかの実施例において、図3に示されるステップ104は、さらにステップ104b1~ステップ104b3によって実現することができる。ステップ104b1:第1レベルの低周波信号特徴、及びN個のレベルのうちの個々のレベルの低周波信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号の低周波ストリームを得る。ステップ104b2:第1レベルの高周波信号特徴、及びN個のレベルのうちの個々のレベルの高周波信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号の高周波ストリームを得る。ステップ104b3:各レベルにおけるオーディオ信号の低周波ストリーム、及び高周波ストリームを相応なレベルにおけるオーディオ信号のストリームとする。
【0087】
説明する必要があるものとして、ステップ104b1における低周波信号特徴の符号化過程は、ステップ104a1~ステップ104a2と類似するステップを採用して実現されてもよい。即ち、第1レベルの低周波信号特徴、及びN個のレベルのうちの個々のレベルの低周波信号特徴に対してそれぞれ量子化処理を行い、各レベルの低周波信号特徴の量子化結果を得て、各レベルの低周波信号特徴の量子化結果に対してエントロピー符号化を行い、各レベルにおけるオーディオ信号の低周波ストリームを得る。ステップ104b2における高周波信号特徴の符号化過程は、ステップ104a1~ステップ104a2と類似するステップを採用して実現されてもよい。即ち、第1レベルの高周波信号特徴、及びN個のレベルのうちの個々のレベルの高周波信号特徴に対してそれぞれ量子化処理を行い、各レベルの高周波信号特徴の量子化結果を得て、各レベルの高周波信号特徴の量子化結果に対してエントロピー符号化を行い、各レベルにおけるオーディオ信号の高周波ストリームを得る。
【0088】
実際の応用において、オーディオ信号は、低周波サブバンド信号と高周波サブバンド信号とを含み、この場合、相応に、個々のレベルが出力した信号特徴は、低周波信号特徴と高周波信号特徴とを含む。これに基づき、信号特徴が低周波信号特徴と高周波信号特徴とを含むとき、いくつかの実施例において、図3に示されるステップ104は、さらにステップ104c1~ステップ104c3によって実現することができる。ステップ104c1:第1符号化ビットレートに従って、第1レベルの低周波信号特徴を符号化し、第1レベルの第1ストリームを得て、且つ第2符号化ビットレートに従って、第1レベルの高周波信号特徴を符号化し、第1レベルの第2ストリームを得る。ステップ104c2:N個のレベルのうちの個々のレベルの信号特徴に対して、それぞれ以下の処理を実行する。レベルの第3符号化ビットレートに従って、レベルの信号特徴をそれぞれ符号化し、各レベルの第2ストリームを得る。ステップ104c3:第1レベルの第2ストリーム、及びN個のレベルのうちの個々のレベルの第2ストリームを各レベルにおけるオーディオ信号のストリームとする。
【0089】
説明する必要があるものとして、第1符号化ビットレートは、第2符号化ビットレートよりも大きく、第2符号化ビットレートは、N個のレベルのうちの任意の1つのレベルの第3符号化ビットレートよりも大きく、レベルの符号化ビットレートと相応なレベルのストリームの復号品質指標とに正の相関がある。ステップ104c2では、N個のレベルのうちの個々のレベルに対して、それぞれ相応な第3符号化ビットレートを設定することができる。該N個のレベルのうちの個々のレベルの第3符号化ビットレートは、同じであってもよく、一部が同じで一部が異なってもよく、さらに完全に異なってもよい。ここで、レベルの符号化ビットレートと相応なレベルのストリームの復号品質指標とに正の相関の関係がある。即ち、符号化ビットレートが高いほど、その得られたストリームの復号品質指標(の値)が高くなり、第1レベルの低周波信号特徴に含まれるオーディオ信号の特徴が最も多く、従って、第1レベルの低周波信号特徴が採用する第1符号化ビットレートは、最も大きくなることにより、オーディオ信号の符号化効果を確保する。それと同時に、第1レベルの高周波信号特徴に対して、第1符号化ビットレートよりも小さい第2符号化ビットレートを採用して符号化し、及びN個のレベルのうちの個々のレベルの信号特徴に対して、第2符号化ビットレートよりも低い第3符号化ビットレートを採用して符号化し、オーディオ信号のより多くの特徴(高周波信号特徴、残差信号特徴を含む)を増加させると同時に、個々のレベルの符号化ビットレートを合理的に割り当てることによって、オーディオ信号の符号化効率が向上する。
【0090】
いくつかの実施例において、端末が各レベルにおけるオーディオ信号のストリームを得た後に、さらに、各レベルに対して、それぞれ以下の処理を実行することができる。レベルにおけるオーディオ信号のストリームに対して相応なレベル伝送優先度を設定する。ここで、レベル伝送優先度とレベルのレベル数とに負の相関があり、レベル伝送優先度と相応なレベルのストリームの復号品質指標とに正の相関がある。
【0091】
説明する必要があるものとして、該レベルのレベル伝送優先度は、該レベルのストリームの伝送優先度を特徴付けることに用いられる。レベル伝送優先度とレベルのレベル数とに負の相関があり、即ち、レベル数が大きいほど、それに対応するレベル伝送優先度は、低くなる。例えば、第1レベル(レベル数が1である)のレベル伝送優先度が第2レベル(レベル数が2である)のレベル伝送優先度よりも高い。これに基づき、各レベルのストリームを復号側に伝送するとき、設定されたレベル伝送優先度に従って、相応なレベルのストリームを伝送することができる。実際の応用において、複数のレベルにおけるオーディオ信号のストリームを復号側に伝送するとき、一部のレベルのストリームを伝送してもよく、全部のレベルのストリームを伝送してもよく、一部のレベルのストリームを伝送するときには設定されたレベル伝送優先度に従って、相応なレベルのストリームを伝送することができる。
【0092】
いくつかの実施例において、信号特徴は、低周波信号特徴と高周波信号特徴とを含み、各レベルにおけるオーディオ信号のストリームは、低周波信号特徴に基づき符号化して得られた低周波ストリームと、高周波信号特徴に基づき符号化して得られた高周波ストリームとを含み、端末は、各レベルにおけるオーディオ信号のストリームを得た後に、さらに、各レベルに対して、それぞれ以下の処理を実行することができる。レベルの低周波ストリームに第1伝送優先度を設定し、且つレベルの高周波ストリームに第2伝送優先度を設定し、ここで、第1伝送優先度は、第2伝送優先度よりも高く、第(i-1)レベルの第2伝送優先度は、第iレベルの第1伝送優先度よりも低く、ストリームの伝送優先度と相応なストリームの復号品質指標とに正の相関がある。
【0093】
説明する必要があるものとして、ストリームの伝送優先度と相応なストリームの復号品質指標とに正の相関があり、高周波ストリームのデータ次元が低周波ストリームのデータ次元よりも小さい。従って、個々のレベルの低周波ストリームに含まれるオーディオ信号の元の情報は、高周波ストリームに含まれるオーディオ信号の元の情報よりも多い。つまり、高周波ストリームの復号品質に比べて低周波ストリームの復号品質指標を確保するために、個々のレベルに対して、レベルの低周波ストリームに第1伝送優先度を設定し、且つレベルの高周波ストリームに第2伝送優先度を設定することができる。該第1伝送優先度は、第2伝送優先度よりも高い。同時に、さらに、第(i-1)レベルの第2伝送優先度が第iレベルの第1伝送優先度よりも低くなるように設定することができる。つまり、個々のレベルに対して、低周波ストリームの伝送優先度は、高周波ストリームの伝送優先度よりも高い。このようにして個々のレベルの低周波ストリームが優先的に伝送できることを確保し、複数のレベルに対して、第iレベルの低周波ストリームの伝送優先度は、第(i-1)レベルの高周波ストリームの伝送優先度よりも高い。このようにして複数のレベルのすべての低周波ストリームが優先的に伝送できることを確保する。
【0094】
本願の上記実施例を応用すると、オーディオ信号に対するレベルごとの符号化が実現される。まず、オーディオ信号に対して第1レベルの特徴抽出を行い、第1レベルの信号特徴を得て、次に、N(Nは、1よりも大きい整数である)個のレベルのうちの第i(iは、1よりも大きい整数であり、iは、N以下である)レベルに対して、オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの信号特徴を得て、その後、iをトラバースすることによって、N個のレベルのうちの個々のレベルの信号特徴を得て、最後に、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号のストリームを得る。
【0095】
オーディオ信号をレベルごとに符号化することによって各レベルの信号特徴が得られ、各レベルの信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さいので。このように、オーディオ符号化過程において処理されるデータのデータ次元が削減され、オーディオ信号の符号化効率が向上する。
【0096】
オーディオ信号の信号特徴をレベルごとに抽出するとき、個々のレベルの出力は、いずれも次のレベルの入力として使用されることにより、個々のレベルは、いずれも前のレベルの抽出された信号特徴と組み合わされて、オーディオ信号に対してより正確な特徴抽出を行い、レベルの数の増加に伴って、特徴抽出過程におけるオーディオ信号の情報損失を最小限に抑えることができる。このように、該方式で抽出された信号特徴を符号化することによって得られた複数のストリームについては、それに含まれるオーディオ信号の情報は、元のオーディオ信号により近く、符号化過程におけるオーディオ信号の情報損失が低減し、オーディオ符号化の符号化品質が確保される。
【0097】
以下では、本願の実施例が提供するオーディオ復号方法を説明する。いくつかの実施例において、本願の実施例が提供するオーディオ復号方法は、各種の電子機器によって実施でき、例えば、端末が単独で実施してもよく、サーバが単独で実施してもよく、端末とサーバが協働して実施してもよい。端末が実施することを例とすると、図10に参照されるように、図10は、本願の実施例が提供するオーディオ復号方法のフローチャートであり、本願の実施例が提供するオーディオ復号方法は、以下のステップ601~ステップ604を含む。
【0098】
ステップ601:端末は、オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信する。
【0099】
ここでは、端末は、復号側として、オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信する。
【0100】
ステップ602:各レベルのストリームをそれぞれ復号し、各レベルの信号特徴を得る。
【0101】
ここで、信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さい。
【0102】
いくつかの実施例において、端末は、以下の方式で各レベルのストリームをそれぞれ復号し、各レベルの信号特徴を得ることができる。各レベルに対して、それぞれ以下の処理を実行する。レベルのストリームに対してエントロピー復号を行い、ストリームの量子化値を得て、ストリームの量子化値に対して逆量子化処理を行い、レベルの信号特徴を得る。
【0103】
実際の応用において、各レベルのストリームに対して、それぞれ以下の処理を実行することができる。該レベルのストリームに対してエントロピー復号を行い、ストリームの量子化値を得て、次に、オーディオ信号を符号化して該ストリームを得る過程で採用される量子化テーブルに基づき、ストリームの量子化値に対して逆量子化処理を行う、即ち、量子化テーブルによって、ストリームの量子化値と対応する信号特徴を問い合わせ、それにより該レベルの信号特徴を得る。
【0104】
実際の応用において、該受信された各レベルのストリームは、低周波ストリームと高周波ストリームとを含んでもよく、ここで、低周波ストリームは、オーディオ信号の低周波信号特徴に基づき符号化して得られ、高周波ストリームは、オーディオ信号の高周波信号特徴に基づき符号化して得られる。このように、各レベルのストリームを復号するとき、各レベルの低周波ストリームと高周波ストリームをそれぞれ復号してもよい。ここで、高周波ストリームと低周波ストリームの復号過程は、ストリームの復号過程と類似している。即ち、各レベルの低周波ストリームに対して、それぞれ以下の処理を実行する。該レベルの低周波ストリームに対してエントロピー復号を行い、低周波ストリームの量子化値を得て、低周波ストリームの量子化値に対して逆量子化処理を行い、該レベルの低周波信号特徴を得る。各レベルの高周波ストリームに対して、それぞれ以下の処理を実行する。該レベルの高周波ストリームに対してエントロピー復号を行い、高周波ストリームの量子化値を得て、高周波ストリームの量子化値に対して逆量子化処理を行い、該レベルの高周波信号特徴を得る。
【0105】
ステップ603:各レベルの信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベルオーディオ信号を得る。
【0106】
実際の応用において、復号して各レベルの信号特徴を得た後、各レベルの信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベルオーディオ信号を得る。いくつかの実施例において、端末は、以下の方式で各レベルの信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベルオーディオ信号を得ることができる。各レベルの信号特徴に対して、それぞれ以下の処理を実行する。信号特徴に対して第1畳み込み処理を行い、レベルの畳み込み特徴を得て、畳み込み特徴をアップサンプリングし、レベルのアップサンプリング特徴を得て、アップサンプリング特徴に対してプーリング処理を行い、レベルのプーリング特徴を得て、プーリング特徴に対して第2畳み込み処理を行い、レベルのレベルオーディオ信号を得る。
【0107】
実際の応用において、各レベルの信号特徴に対して、それぞれ以下の処理を実行する。まず、信号特徴に対して第1畳み込み処理を行い、該第1畳み込み処理は、チャネル数が予め設定された因果畳み込みを呼び出すことによって処理し、それにより該レベルの畳み込み特徴を得ることができる。次に、畳み込み特徴をアップサンプリングし、アップサンプリングファクターを予め設定し、それにより該アップサンプリングファクターに基づきアップサンプリングを行い、該レベルのアップサンプリング特徴を得ることができる。その後、アップサンプリング特徴に対してプーリング処理を行い、該プーリング処理は、プーリングファクターを予め設定し、更に該プーリングファクターに基づきアップサンプリング特徴に対してプーリング処理を行い、該レベルのプーリング特徴を得ることができる。最後に、プーリング特徴に対して第2畳み込み処理を行い、該第2畳み込み処理は、チャネル数が予め設定された因果畳み込みを呼び出すことによって処理し、それにより該レベルのレベルオーディオ信号を得ることができる。
【0108】
該アップサンプリングは、1つの復号層によって実現されてもよく、複数の復号層によって実現されてもよい。アップサンプリングがL(L>1)個のカスケードされた復号層によって実現できるとき、端末は、以下の方式で畳み込み特徴をアップサンプリングし、レベルのアップサンプリング特徴を得ることができる。L個のカスケードされた復号層のうちの第1個目の復号層によって、プーリング特徴をアップサンプリングし、第1個目の復号層のアップサンプリング結果を得て、L個のカスケードされた復号層のうちの第k個目の復号層によって、第(k-1)個目の復号層の第1アップサンプリング結果をアップサンプリングし、第k個目の復号層のアップサンプリング結果を得る。ここで、Lとkは、1よりも大きい整数であり、kは、L以下である。kをトラバースし、第L個目の復号層のアップサンプリング結果を得て、且つ第L個目の復号層のアップサンプリング結果をレベルのアップサンプリング特徴とする。
【0109】
説明する必要があるものとして、個々の復号層のアップサンプリングファクターは、同じであってもよく、異なってもよい。
【0110】
ステップ604:複数のレベルのレベルオーディオ信号に対してオーディオ合成を行い、オーディオ信号を得る。
【0111】
実際の応用において、各レベルのレベルオーディオ信号を得た後に、複数のレベルのレベルオーディオ信号に対してオーディオ合成を行い、オーディオ信号を得る。
【0112】
いくつかの実施例において、ストリームは、低周波ストリームと高周波ストリームとを含み、図10に示されるステップ602は、以下のステップによって実現することができる。各レベルの低周波ストリームをそれぞれ復号し、各レベルの低周波信号特徴を得て、且つ各レベルの高周波ストリームをそれぞれ復号し、各レベルの高周波信号特徴を得る。相応に、図10に示されるステップ603は、以下のステップによって実現することができる。ステップ6031:各レベルの低周波信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベル低周波サブバンド信号を得て、且つ各レベルの高周波信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベル高周波サブバンド信号を得る。ステップ6032:レベル低周波サブバンド信号とレベル高周波サブバンド信号をレベルのレベルオーディオ信号とする。相応に、図10に示されるステップ604は、以下のステップによって実現することができる。ステップ6041:複数のレベルのレベル低周波サブバンド信号を加算し、低周波サブバンド信号を得て、且つ複数のレベルのレベル高周波サブバンド信号を加算し、高周波サブバンド信号を得る。ステップ6042:低周波サブバンド信号と高周波サブバンド信号とを合成し、オーディオ信号を得る。
【0113】
いくつかの実施例において、ステップ6042は、以下のステップによって実現することができる。ステップ60421:低周波サブバンド信号をアップサンプリングし、ローパスフィルタリングされた信号を得る。ステップ60422:高周波サブバンド信号をアップサンプリングし、高周波フィルタリングされた信号を得る。ステップ60423:ローパスフィルタリングされた信号と高周波フィルタリングされた信号に対してフィルタリング合成を行い、オーディオ信号を得る。説明する必要があるものとして、ステップ60423では、QMF合成フィルターによって合成処理を行い、オーディオ信号を得ることができる。
【0114】
これに基づき、ストリームが低周波ストリームと高周波ストリームとを含むときについて、図11に参照されるように、図11は本願の実施例が提供するオーディオ復号方法のフローチャートである。本願の実施例が提供するオーディオ復号方法は、オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応する低周波ストリームと高周波ストリームを受信するステップ701と、各レベルの低周波ストリームをそれぞれ復号し、各レベルの低周波信号特徴を得るステップ702aと、各レベルの高周波ストリームをそれぞれ復号し、各レベルの高周波信号特徴を得るステップ702bと、各レベルの低周波信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベル低周波サブバンド信号を得るステップ703aと、各レベルの高周波信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベル高周波サブバンド信号を得るステップ703bと、複数のレベルのレベル低周波サブバンド信号を加算し、低周波サブバンド信号を得るステップ704aと、複数のレベルのレベル高周波サブバンド信号を加算し、高周波サブバンド信号を得るステップ704bと、低周波サブバンド信号をアップサンプリングし、ローパスフィルタリングされた信号を得るステップ705aと、高周波サブバンド信号をアップサンプリングし、高周波フィルタリングされた信号を得るステップ705bと、ローパスフィルタリングされた信号と高周波フィルタリングされた信号に対してフィルタリング合成を行い、オーディオ信号を得るステップ706と、を含む。
【0115】
説明する必要があるものとして、高周波信号特徴、及び低周波信号特徴の特徴再構築過程は、ステップ603における信号特徴の特徴再構築過程を参照することができる。即ち、各レベルの高周波信号特徴に対して、それぞれ以下の処理を実行する。高周波信号特徴に対して第1畳み込み処理を行い、レベルの高周波の畳み込み特徴を得て、高周波の畳み込み特徴をアップサンプリングし、レベルの高周波のアップサンプリング特徴を得て、高周波のアップサンプリング特徴に対してプーリング処理を行い、レベルの高周波のプーリング特徴を得て、高周波のプーリング特徴に対して第2畳み込み処理を行い、レベルの高周波のレベルオーディオ信号を得る。各レベルの低周波信号特徴に対して、それぞれ以下の処理を実行する。低周波信号特徴に対して第1畳み込み処理を行い、レベルの低周波の畳み込み特徴を得て、低周波の畳み込み特徴をアップサンプリングし、レベルの低周波アップサンプリング特徴を得て、低周波のアップサンプリング特徴に対してプーリング処理を行い、レベルの低周波のプーリング特徴を得て、低周波のプーリング特徴に対して第2畳み込み処理を行い、レベルの低周波のレベルオーディオ信号を得る。
【0116】
本願の上記実施例を応用すると、複数のレベルのストリームをそれぞれ復号し、各レベルの信号特徴を得て、且つ各レベルの信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベルオーディオ信号を得て、複数のレベルのレベルオーディオ信号に対してオーディオ合成を行い、オーディオ信号を得る。ストリームにおける信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さいので、関連技術において元のオーディオ信号を直接符号化して得られたストリームのデータ次元に比べてより小さくなり、オーディオ復号過程において処理されるデータのデータ次元が削減され、オーディオ信号の復号効率が向上する。
【0117】
以下では、1つの実際の応用シーンにおける本願の実施例の例示的な応用を説明することになる。
【0118】
オーディオ符号化・復号技術は、比較的少ないネットワーク帯域幅リソースを使用してできるだけ多くの音声情報を伝達するものである。オーディオコーデックの圧縮率は、10倍以上に達することができ、つまり、元の10MBの音声データは、エンコーダの圧縮によって1MBだけで伝送でき、情報の伝達に消費する必要がある帯域幅リソースが大幅に低減される。通信システムにおいて、通信の順調さを確保するために、業界内で標準的な音声符号化・復号プロトコルが配備されており、例えば、国際電気通信連合電気通信標準化部門(ITU-T for ITU Telecommunication Standardization Sector)、第3世代パートナーシッププロジェクト(3GPP、3rd Generation Partnership Project)、インターネットエンジニアリングタスクフォース(IETF、The Internet Engineering Task Force)、オーディオ・ビデオ符号化標準(AVS、Audio Video coding Standard)、中国通信標準協会(CCSA、China Communications Standards Association)等の国際、及び国内の標準団体の標準、G.711、G.722、AMRシリーズ、EVS、OPUS等の標準である。図12は、異なるビットレートでのスペクトル比較の模式図の1つを示して、圧縮ビットレートと品質との関係を例示する。曲線1201は、元の音声のスペクトル曲線であり、即ち圧縮されていない信号である。曲線1202は、OPUSエンコーダの20kbpsビットレートでのスペクトル曲線であり、曲線1203は、OPUSエンコーダの6kbpsビットレートでのスペクトル曲線である。図12から明らかなように、符号化ビットレートの向上に伴って、圧縮された後の信号は、元の信号により近い。
【0119】
従来のオーディオ符号化は、時間領域符号化と周波数領域符号化との2種類に分けることができ、いずれも信号処理に基づく圧縮方法である。ここで、1)時間領域符号化、例えば波形符号化(waveform speech coding)は、音声信号の波形を直接符号化する。この種類の符号化方式の利点は、符号化された音声の品質が高いが、符号化効率が高くない。特に、音声信号であれば、パラメータを使用して符号化することができ、符号化側が行う必要があることは伝達しようとする音声信号の対応するパラメータを抽出することである。しかしながら、パラメータ符号化の利点は、符号化効率が極めて高いが、復元された音声の品質が非常に低い。2)周波数領域符号化は、オーディオ信号を周波数領域に変換し、周波数領域係数を抽出し、次に、周波数領域係数を符号化することであり、しかし、符号化効率も好ましくない。このように、信号処理に基づく圧縮方法は、符号化品質を確保すると同時に符号化効率を向上させることができない。
【0120】
これに基づき、本願の実施例は、オーディオ符号化方法、及びオーディオ復号方法を提供し、これにより、符号化効率を向上させると同時に符号化品質を確保する。本願の実施例において、ビットレートが低い区間であっても、符号化の内容、ネットワークの帯域幅の状況に応じて、異なる符号化方式の自由度を選択することができ、且つ複雑さと符号化品質が許容できる場合には、符号化効率を向上させることができる。図13に参照されるように、図13は、本願の実施例が提供するオーディオ符号化とオーディオ復号のフローチャートである。ここでは、レベルの数が2層であることを例としており(本願は、第3層、又は、より高いレベルの反復操作を制限しない)、本願の実施例が提供するオーディオ符号化方法は、以下を含む。
【0121】
(1)オーディオ信号に対してサブバンド分解を行い、低周波サブバンド信号と高周波サブバンド信号を得る。実際に実施するとき、第1サンプリング周波数に従ってオーディオ信号をサンプリングし、サンプリングされた信号を得て、次にサンプリングされた信号に対してサブバンド分解を行い、第1サンプリング周波数よりも低い周波数を有するサブバンド信号を得て、低周波サブバンド信号と高周波サブバンド信号とを含む。例えば、第nフレームのオーディオ信号[数1]に対して、分析フィルター(例えば、QMFフィルター)を使用して、低周波サブバンド信号[数2]と高周波サブバンド信号[数3]に分解する。
【0122】
【数1】
【数2】
【数3】
【0123】
(2)第1層の低周波分析ニューラルネットワークに基づき低周波サブバンド信号を分析し、第1層の低周波信号特徴を得る。例えば、低周波サブバンド信号[数4]に対して、第1層の低周波分析ニューラルネットワークを呼び出し、低次元の第1層の低周波信号特徴[数5]を取得する。説明する必要があるものとして、信号特徴の次元は、低周波サブバンド信号の次元よりも小さく(これにより、データ量を低減する)、ニューラルネットワークは、Dilated CNN、Autoencoder、Full-connection、LSTM、CNN+LSTM等を含むがこれらに限定されない。
【0124】
【数4】
【数5】
【0125】
(3)第1層の高周波分析ニューラルネットワークに基づき高周波サブバンド信号を分析し、第1層の高周波信号特徴を得る。例えば、高周波サブバンド信号[数6]に対して、第1層の高周波分析ニューラルネットワークを呼び出し、低次元の第1層の高周波信号特徴[数7]を取得する。
【0126】
【数6】
【数7】
【0127】
(4)第2層の低周波分析ニューラルネットワークに基づき低周波サブバンド信号と第1層の低周波信号特徴を分析し、第2層の低周波信号特徴(即ち、第2層の低周波残差信号特徴)を得る。例えば、[数8]と[数9]を併せて、第2層の低周波分析ニューラルネットワークを呼び出し、低次元の第2層の低周波信号特徴[数10]を取得する。
【0128】
【数8】
【数9】
【数10】
【0129】
(5)第2層の高周波分析ニューラルネットワークに基づき高周波サブバンド信号と第1層の高周波信号特徴を分析し、第2層の高周波信号特徴(即ち、第2層の高周波残差信号特徴)を得る。例えば、[数11]と[数12]を併せて、第2層の高周波分析ニューラルネットワークを呼び出し、低次元の第2層の高周波信号特徴[数13]を取得する。
【0130】
【数11】
【数12】
【数13】
【0131】
(6)量子化符号化部分によって、2層の信号特徴(第1層の低周波信号特徴、第1層の高周波信号特徴、第2層の低周波信号特徴、及び第2層の高周波信号特徴を含む)を量子化、及び符号化し、各層におけるオーディオ信号のストリームを得て、且つ各層のストリームに相応な伝送優先度を設定する。例えば、第1層は、より高い優先度で伝送され、第2層はそれに次ぎ、というように類推することができる。
【0132】
実際の応用において、復号側は、1層のストリームのみを受信する可能性があり、図13に示すように、「1層復号」の方式を採用して復号することができる。これに基づき、本願の実施例が提供するオーディオ復号方法は、以下を含む。(1)受信した1層のストリームを復号し、該層の低周波信号特徴、及び高周波信号特徴を得る。(2)第1層の低周波合成ニューラルネットワークに基づき、低周波信号特徴を分析し、低周波サブバンド信号の推定値を得る。例えば、低周波信号特徴の量子化値[数14]に基づき第1層の低周波合成ニューラルネットワークを呼び出し、低周波サブバンド信号の推定値[数15]を生成する。(3)第1層の高周波合成ニューラルネットワークに基づき高周波信号特徴を分析し、高周波サブバンド信号の推定値を得る。例えば、高周波信号特徴の量子化値[数16]に基づき第1層の高周波合成ニューラルネットワークを呼び出し、高周波サブバンド信号の推定値[数17]を生成する。(4)低周波サブバンド信号の推定値[数18]と高周波サブバンド信号の推定値[数19]に基づき、合成フィルターによって合成フィルタリングを行い、最終的に再構築された、元のサンプリング周波数でのオーディオ信号[数20]を得て、これにより復号過程を完了する。
【0133】
【数14】
【数15】
【数16】
【数17】
【数18】
【数19】
【数20】
【0134】
実際の応用において、復号側は、2層のストリームに対して、いずれも受信する可能性があり、図13に示すように、「2層復号」の方式を採用して復号することができる。これに基づき、本願の実施例が提供するオーディオ復号方法は、以下を含む。
【0135】
(1)受信した各層のストリームを復号し、各層の低周波信号特徴、及び高周波信号特徴を得る。
【0136】
(2)第1層の低周波合成ニューラルネットワークに基づき第1層の低周波信号特徴を分析し、第1層の低周波サブバンド信号の推定値を得る。例えば、第1層の低周波信号特徴の量子化値[数21]に基づき第1層の低周波合成ニューラルネットワークを呼び出し、第1層の低周波サブバンド信号の推定値[数22]を生成する。
【0137】
【数21】
【数22】
【0138】
(3)第1層の高周波合成ニューラルネットワークに基づき第1層の高周波信号特徴を分析し、第1層の高周波サブバンド信号の推定値を得る。例えば、第1層の高周波信号特徴の量子化値[数23]に基づき第1層の高周波合成ニューラルネットワークを呼び出し、第1層の高周波サブバンド信号の推定値[数24]を生成する。
【0139】
【数23】
【数24】
【0140】
(4)第2層の低周波合成ニューラルネットワークに基づき第2層の低周波信号特徴を分析し、第2層の低周波サブバンド残差信号の推定値を得る。例えば、第2層の低周波信号特徴の量子化値[数25]に基づき第2層の低周波合成ニューラルネットワークを呼び出し、低周波サブバンド残差信号の推定値[数26]を生成する。
【0141】
【数25】
【数26】
【0142】
(5)第2層の高周波合成ニューラルネットワークに基づき第2層の高周波信号特徴を分析し、第2層の高周波サブバンド残差信号の推定値を得る。例えば、第2層の高周波信号特徴の量子化値[数27]に基づき第2層の高周波合成ニューラルネットワークを呼び出し、高周波サブバンド残差信号の推定値[数28]を生成する。
【0143】
【数27】
【数28】
【0144】
(6)低周波部分によって、第1層の低周波サブバンド信号の推定値と低周波サブバンド残差信号の推定値との和を求め、低周波サブバンド信号の推定値を得る。例えば、[数29]と[数30]との和を求め、低周波サブバンド信号の推定値を取得する。
【0145】
【数29】
【数30】
【0146】
(7)高周波部分によって、第1層の高周波サブバンド信号の推定値と高周波サブバンド残差信号の推定値との和を求め、高周波サブバンド信号の推定値を得る。例えば、[数31]と[数32]との和を求め、高品質高周波サブバンド信号の推定値を取得する。
【0147】
【数31】
【数32】
【0148】
(8)低周波サブバンド信号の推定値と高周波サブバンド信号の推定値に基づき、合成フィルターによって合成フィルタリングを行い、最終的に再構築された、元のサンプリング周波数でのオーディオ信号[数33]を得て、これにより、復号過程を完了する。
【0149】
【数33】
【0150】
本願の実施例は、各種のオーディオシーン、例えば、遠隔音声通信に応用できる。遠隔音声通信を例とすると、図14に参照されるように、図14は、本願の実施例が提供する音声通信リンクの模式図である。ここでは、ボイスオーバーインターネットプロトコルに基づく音声伝送(VoIP、Voice over Internet Protocol)会議システムを例としており、本願の実施例に係る音声符号化・復号技術を符号化と復号部分に配備することにより、音声圧縮の基本的な機能を解決する。エンコーダは、アップリンククライアント1401に配備され、デコーダは、ダウンリンククライアント1402に配備され、アップリンククライアントによって音声を収集し、且つ前処理の強化、符号化等の処理を行い、符号化して得られたストリームをネットワークによってダウンリンククライアント1402に伝送し、ダウンリンククライアント1402によって復号、強化等の処理を行い、これにより、ダウンリンククライアント1402で復号された音声を再生する。
【0151】
上位互換性(即ち、新たなエンコーダと既存のエンコーダは、互換性がある)を考慮すると、システムのバックグラウンド(即ち、サーバ)にトランスコーダを配備する必要があることにより、新たなエンコーダと既存のエンコーダの相互接続・相互通信の問題を解決する。例えば、送信側(アップリンククライアント)が新たなNNエンコーダであれば、受信側(ダウンリンククライアント)は公衆交換電話網(PSTN、Public Switched Telephone Network)のデコーダ(例えば、G.722デコーダ)である。従って、サーバは、送信側が送信したストリームを受信した後に、受信側が正確に復号できるようにするには、まずNNデコーダを実行して音声信号を生成し、次にG.722エンコーダを呼び出して特定のストリームを生成する必要がある。同様のトランスコードのシーンについては、これ以上は説明されない。
【0152】
以下において、本願の実施例が提供するオーディオ符号化方法、及びオーディオ復号方法を詳細に紹介する前に、まず、QMFフィルターバンク、及び膨張畳み込みネットワークを紹介する。
【0153】
QMFフィルターバンクは、分析-合成を含む1つのフィルターペアである。QMF分析フィルターに対して、サンプリングレートがFsである入力した信号をサンプリングレートがFs/2である2つの信号に分解することができ、それぞれはQMFローパス信号とQMFハイパス信号を表している。図15に示されるQMFフィルターのローパス部分[数34]とハイパス部分[数35]のスペクトル応答の通りである。QMF分析フィルターバンクの関連する理論的知識に基づき、上記ローパスフィルタリングとハイパスフィルタリングの係数間の相関性を容易に記述することができ、これは式(1)に示される。
[数36]
【0154】
【数34】
【数35】
【数36】
【0155】
ここで、[数37]は、ローパスフィルタリングの係数を表し、[数38]は、ハイパスフィルタリングの係数を表す。
【0156】
【数37】
【数38】
【0157】
同様に、QMF関連理論に従って、QMF分析フィルターバンク[数39]と[数40]に基づき、QMF合成フィルターバンクを記述することができ、式(2)[数41]に示される。
【0158】
【数39】
【数40】
【数41】
【0159】
ここで、[数42]は、復元されたローパス信号を表し、[数43]は、復元されたハイパス信号を表す。
【0160】
【数42】
【数43】
【0161】
復号側が復元したローパスとハイパス信号は、QMF合成フィルターバンクによって合成処理されると、入力信号に対応するサンプリングレートFsの再構築信号を復元することができる。
【0162】
図16A図16Bに参照されるように、図16Aは、本願の実施例が提供する通常の畳み込みネットワークの模式図であり、図16Bは、本願の実施例が提供する膨張畳み込みネットワークの模式図である。通常の畳み込みネットワークと比較すると、膨張畳み込みは、受容野を増加させると同時に、特徴マップの寸法が変化しないように維持することができ、さらに、アップサンプリング、ダウンサンプリングによる誤差を回避することができる。図16A図16Bに示される畳み込みカーネルのサイズ(Kernel Size)がいずれも3×3であるが、図16Aに示される通常の畳み込みの受容野901が3のみであり、図16Bに示される膨張畳み込みの受容野902が5に達する。つまり、寸法が3×3の畳み込みカーネルに対して、図16Aに示される通常の畳み込みの受容野が3であり、拡張率(Dilation Rate)(畳み込みカーネルにおける点の間隔数)が1であり、図16Bに示される膨張畳み込みの受容野が5であり、拡張率が2である。
【0163】
畳み込みカーネルは、さらに、図16A、又は図16Bと類似する平面上を移動することができ、ここでは、シフトレート(Stride Rate)(ステップサイズ)の概念に関する。例えば、畳み込みカーネルが1格子移動するごとに、対応するシフトレートが1になる。この他、さらに、畳み込みチャネル数の概念もあり、つまり、いくらの畳み込みカーネルに対応するパラメータを用いて畳み込み分析を行うかというものである。理論的に、チャネル数が多いほど、信号に対する分析はより包括的になり、精度が高くなるが、チャネルが高いほど、複雑さも高まる。例えば、1つの1×320のテンソルの場合、24チャネルの畳み込み演算を使用することができ、出力が24×320のテンソルである。説明する必要があるものとして、実際の応用のニーズに応じて、膨張畳み込みカーネルのサイズ(例えば、音声信号に対して、畳み込みカーネルのサイズが1×3に設定できる)、拡張率、シフトレート、及びチャネル数を自ら定義することができるが、本願の実施例はこれについて限定しない。
【0164】
以下では、Fs=32000Hzのオーディオ信号を例としており(本願の実施例は、他のサンプリング周波数のシーンにも適用でき、8000Hz、16000Hz、48000Hz等を含むがこれらに限定されない)、ここでフレーム長は、20msに設定され、Fs=32000Hzの場合、1フレームあたりに640個のサンプルポイントが含まれることに相当する。
【0165】
続いて、図13に継続的に参照されるように、本願の実施例が提供するオーディオ符号化方法とオーディオ復号方法をそれぞれ詳細に説明する。ここで、本願の実施例が提供するオーディオ符号化方法は、以下を含む。第1ステップ:入力信号の生成。
【0166】
ここでは、第nフレームの640個のサンプルポイントを[数44]と記す。
【0167】
【数44】
【0168】
第2ステップ:QMFサブバンド信号の分解。
【0169】
ここでは、QMF分析フィルター(例えば、2チャネルのQMFフィルター)を呼び出してフィルタリング処理を行い、且つフィルタリングして得られたフィルタリング信号をダウンサンプリングし、2部分のサブバンド信号、即ち、低周波サブバンド信号[数45]と高周波サブバンド信号[数46]を取得する。ここで、低周波サブバンド信号[数47]の有効帯域幅が0~8kHzであり、高周波サブバンド信号[数48]の有効帯域幅が8~16kHzであり、1フレームあたりのサンプルポイント数が320である。
【0170】
【数45】
【数46】
【数47】
【数48】
【0171】
第3ステップ:第1層の低周波分析。
【0172】
ここでは、第1層の低周波分析ニューラルネットワークを呼び出す目的は、低周波サブバンド信号[数49]に基づき、次元がより低い第1層の低周波信号特徴[数50]を生成することである。本例では、[数51]のデータ次元が320であり、[数52]のデータ次元が64であり、データ量から見ると、第1層の低周波分析ニューラルネットワークを経た後、「次元削減」の作用が果たされることが明らかであり、データ圧縮として理解できる。例として、図17に参照されるように、図17は、本願の実施例が提供する第1層の低周波分析ニューラルネットワークの構造模式図であり、低周波サブバンド信号[数53]に対する処理プロセスは、以下を含む。
【0173】
【数49】
【数50】
【数51】
【数52】
【数53】
【0174】
(1)1つの24チャネルの因果畳み込みを呼び出し、入力したテンソル(即ち、[数54])を、24*320のテンソルに拡張する。
【0175】
【数54】
【0176】
(2)24*320のテンソルに対して前処理を行う。実際の応用において、プーリングファクターが2であるプーリング(Pooling)操作を行うことができ、且つ活性化関数がReLUであってもよく、これにより、24*160のテンソルを生成する。
【0177】
(3)3つの異なる下降サンプリングファクター(Down_factor)の符号化ブロックをカスケードする。符号化ブロック(Down_factor=4)を例とすると、まず、1つ又は複数の膨張畳み込みを実行することができ、個々の畳み込みカーネルのサイズは、いずれも1*3に固定され、シフトレート(Stride rate)は、いずれも1である。この他、該1つ又は複数の膨張畳み込みの拡張率(Dilation rate)は、ニーズに応じて自ら設定でき、例えば3であるが、勿論、本願の実施例は異なる膨張畳み込みに異なる拡張率を設定することを制限しない。次に、3つの符号化ブロックのDown_factorをそれぞれ4、5、8に設定し、サイズが異なるプーリングファクターが設定されることと等価となり、下降サンプリングの作用が果たされる。最後に、3つの符号化ブロックのチャネル数をそれぞれ48、96、192に設定する。従って、3つのカスケードされた符号化ブロックによって、順に24*160のテンソルをそれぞれ48*40、96*8、及び192*1のテンソルに変換する。
【0178】
(4)192*1のテンソルに対して、前処理と類似する因果畳み込みによって、1つの64次元の特徴ベクトル、即ち、第1層の低周波信号特徴[数55]を出力する。
【0179】
【数55】
【0180】
第4ステップ:第1層の高周波分析。
【0181】
ここでは、第1層の高周波分析ニューラルネットワークを呼び出す目的は、高周波サブバンド信号[数56]に基づき、次元がより低い第1層の高周波信号特徴[数57]を生成することである。本例では、第1層の高周波分析ニューラルネットワークの構造は、第1層の低周波分析ニューラルネットワークと一致することができる。即ち、入力した(即ち、[数58])データ次元が320次元であり、出力した(即ち、[数59])データ次元が64次元である。低周波サブバンド信号よりも高周波サブバンド信号の重要性が比較的低いことを考慮すると、出力次元を適切に削減することができる。このようにして第1層の高周波分析ニューラルネットワークの複雑さを低減することができるが、本例では、制限しない。
【0182】
【数56】
【数57】
【数58】
【数59】
【0183】
第5ステップ:第2層の低周波分析。
【0184】
ここでは、第2層の低周波分析ニューラルネットワークを呼び出す目的は、低周波サブバンド信号[数60]と第1層の低周波信号特徴[数61]に基づき、次元がより低い第2層の低周波信号特徴[数62]を得ることである。第2層の低周波信号特徴は、第1層の低周波分析ニューラルネットワークの出力によって復号側で再構築されたオーディオ信号の、元のオーディオ信号に対する残差を反映する。従って、復号側で、[数63]に応じて低周波サブバンド信号の残差信号を予測し、且つ第1層の低周波分析ニューラルネットワークの出力によって予測された低周波サブバンド信号の推定値との和を求め、精度のより高い低周波サブバンド信号の推定値を取得することができる。
【0185】
【数60】
【数61】
【数62】
【数63】
【0186】
第2層の低周波分析ニューラルネットワークは、第1層の低周波分析ニューラルネットワークのタイプと類似する構造を採用する。図18に参照されるように、図18は、本願の実施例が提供する第2層の低周波分析ニューラルネットワークの構造模式図である。ここでは、第1層の低周波分析ニューラルネットワークのタイプとの主な相違点は、以下を含む。(1)第2層の低周波分析ニューラルネットワークの入力は、低周波サブバンド信号[数64]を含む以外、第1層の低周波分析ニューラルネットワークの出力[数65]をさらに含み、[数66]と[数67]の2つの変数は、384次元の継ぎ合わせ特徴に継ぎ合わせることができる。(2)第2層の低周波分析が残差信号を処理することを考慮して、第2層の低周波分析ニューラルネットワークの出力[数68]の次元が28に設定される。
【0187】
【数64】
【数65】
【数66】
【数67】
【数68】
【0188】
第6ステップ:第2層の高周波分析。
【0189】
ここでは、第2層の高周波分析ニューラルネットワークを呼び出す目的は、高周波サブバンド信号[数69]と第1層の高周波信号特徴[数70]に基づき、次元がより低い第2層の高周波信号特徴[数71]を得ることである。第2層の高周波分析ニューラルネットワークの構造は、第2層の低周波分析ニューラルネットワークの構造と同じであってもよい。即ち、入力した([数72]と[数73]の継ぎ合わせ特徴)データ次元が384次元であり、出力した([数74])データ次元が28次元である。
【0190】
【数69】
【数70】
【数71】
【数72】
【数73】
【数74】
【0191】
第7ステップ:量子化符号化。
【0192】
予め設定された量子化テーブルを問い合わせることによって、2層の出力した信号特徴に対して量子化処理を行い、且つ量子化して得られた量子化結果を符号化する。ここで、量子化は、スカラー量子化(各成分を単独で量子化する)の方式を採用することができ、符号化は、エントロピー符号化の方式を採用することができる。また、本願の実施例は、ベクトル量子化(隣接する複数の成分が1つのベクトルに組み合わせられ、共同で量子化される)とエントロピー符号化の技術的な組み合わせも制限しない。
【0193】
実際に実施するとき、第1層の低周波信号特徴[数75]は、64次元の特徴であり、8kbpsを使用して符号化を完了することができ、1フレームあたりに1つのパラメータを量子化する平均ビットレートが2.5bitであり、第1層の高周波信号特徴[数76]は、64次元の特徴であり、6kbpsを使用して符号化を完了することができ、1フレームあたりに1つのパラメータを量子化する平均ビットレートが1.875bitである。従って、第1層の符号化は、合計14kbpsである。
【0194】
【数75】
【数76】
【0195】
実際に実施するとき、第2層の低周波信号特徴[数77]は、28次元の特徴であり、3.5kbpsを使用して符号化を完了することができ、1フレームあたりに1つのパラメータを量子化する平均ビットレートが2.5bitであり、第2層の高周波信号特徴[数78]は、28次元の特徴であり、3.5kbpsを使用して符号化を完了することができ、1フレームあたりに1つのパラメータを量子化する平均ビットレートが2.5bitである。従って、第2層の符号化は、合計7kbpsである。
【0196】
【数77】
【数78】
【0197】
これに基づき、レベルごとに符号化する方式によって、異なる特徴ベクトルを漸進的に符号化することができる。異なる応用シーンに応じて、本願の実施例は、他の方式のビットレート分布を制限せず、例えば、さらに第3層又はより高い層の符号化を反復して導入することができる。量子化符号化の後に、ストリームを生成することができ、異なる層のストリームに対して、異なる伝送戦略を採用し、異なる優先度での伝送を確保することができ、例えば、前方誤り訂正機能(Forward Error Correction、FEC)を採用して、冗長伝送によって伝送の品質を向上させることができ、異なる層の冗長倍数が同じではなく、例えば、第1層の冗長倍数は、やや高く設定できる。
【0198】
すべての層のストリームがいずれも復号側に受信され、且つ正確に復号されることを例とすると、本願の実施例が提供するオーディオ符号化方法は、以下を含む。
【0199】
第1ステップ:復号。
【0200】
ここでは、復号は、符号化の逆の過程である。受信したストリームを解析し、且つ量子化テーブルをルックアップすることによって、低周波信号特徴の推定値と高周波信号特徴の推定値を取得する。例示的に、第1層の場合、低周波サブバンド信号の64次元の信号特徴の量子化値[数79]、及び高周波サブバンド信号の64次元の信号特徴の量子化値[数80]を取得し、第2層の場合、低周波サブバンド信号の28次元の信号特徴の量子化値[数81]、及び高周波サブバンド信号の28次元の信号特徴の量子化値[数82]を取得する。
【0201】
【数79】
【数80】
【数81】
【数82】
【0202】
第2ステップ:第1層の低周波合成。
【0203】
ここでは、第1層の低周波合成ニューラルネットワークを呼び出す目的は、低周波特徴ベクトルの量子化値[数83]に基づき、第1層の低周波サブバンド信号の推定値[数84]を生成することである。例として、図19に参照されるように、図19は、本願の実施例が提供する第1層の低周波合成ニューラルネットワークのモデルの模式図である。ここでは、第1層の低周波合成ニューラルネットワークの処理プロセスは、第1層の低周波分析ニューラルネットワークの処理プロセスと類似しており、例えば、因果畳み込みである。第1層の低周波合成ニューラルネットワークの後処理の構造は、第1層の低周波分析ニューラルネットワークの前処理の構造と類似しており、復号ブロックの構造と符号化ブロックの構造とは対称的である。符号化側の符号化ブロックの場合、まず、膨張畳み込みを行い、次にプーリングして下降サンプリングを完了する。復号側の復号ブロックの場合、まず、プーリングを行って上昇サンプリングを完了し、次に膨張畳み込みを行う。
【0204】
【数83】
【数84】
【0205】
第3ステップ:第1層の高周波合成。
【0206】
ここでは、第1層の高周波合成ニューラルネットワークの構造は、第1層の低周波合成ニューラルネットワークの構造と同じであり、第1層の低周波信号特徴の量子化値[数85]応じて、第1高周波サブバンド信号の推定値[数86]取得することができる。
【0207】
【数85】
【数86】
【0208】
第4ステップ:第2層の低周波合成。
【0209】
ここでは、第2層の低周波合成ニューラルネットワークを呼び出す目的は、第2層の低周波信号特徴の量子化値[数87]に基づき、低周波サブバンド残差信号の推定値[数88]生成することである。図20に参照されるように、図20は、本願の実施例が提供する第2層の低周波合成ニューラルネットワークの構造模式図であり、該第2層の低周波合成ニューラルネットワークの構造は、第1層の低周波合成ニューラルネットワークの構造と類似しており、相違点は、入力したデータ次元が28次元であることにある。
【0210】
【数87】
【数88】
【0211】
第5ステップ:第2層の高周波合成。
【0212】
ここでは、第2層の低周波合成ニューラルネットワークの構造は、第2層の低周波合成ニューラルネットワークの構造と同じであり、第2層の低周波信号特徴の量子化値[数89]に基づき、高周波サブバンド残差信号の推定値[数90]を生成することができる。
【0213】
【数89】
【数90】
【0214】
第6ステップ:合成フィルタリング。
【0215】
前のステップに基づき、復号側は、低周波サブバンド信号の推定値[数91]と高周波サブバンド信号[数92]、及び低周波サブバンド残差信号の推定値[数93]と高周波サブバンド残差信号の推定値[数94]を取得する。[数95]と[数96]とを加算し、精度の高い低周波サブバンド信号の推定値を生成し、[数97]と[数98]とを加算し、精度の高い高周波サブバンド信号の推定値を生成する。最後に、低周波サブバンド信号の推定値、及び高周波サブバンド信号の推定値に対してアップサンプリングを行い、且つQMF合成フィルターを呼び出して、アップサンプリング結果に対して合成フィルタリングを行う。この場合、640ポイントの再構築されたオーディオ信号[数99]を生成する。
【0216】
【数91】
【数92】
【数93】
【数94】
【数95】
【数96】
【数97】
【数98】
【数99】
【0217】
本願の実施例において、データを収集することによって、符号化側と復号側の関連するニューラルネットワークを共同でトレーニングし、最適なパラメータを取得し、それにより、トレーニング済みのネットワークモデルを使用に投入することができる。本願の実施例において、一種の特定のネットワーク入力、ネットワーク構造、及びネットワーク出力の実施例のみが開示されているが、当業者は、ニーズに応じて上記構成を変更することができる。
【0218】
本願の上記実施例を応用すると、信号処理と深層学習ネットワークに基づくビットレートが低いオーディオ符号化・復号の技術的手段を完了することができる。信号分解、及び関連する信号処理技術と深層ニューラルネットワークとの有機的な結合によって、符号化効率は、関連技術に比べて顕著に向上し、複雑さが許容できる場合には、符号化品質も向上する。異なる符号化の内容と帯域幅の状況に応じて、符号化側は、異なるレベルごとに伝送する戦略を選択してストリームを伝送し、復号側は、下位層のストリームを受信し、許容可能な品質のオーディオ信号を出力し、他の上位層のストリームも受信すれば、高品質のオーディオを出力することができる。
【0219】
理解できるように、本願の実施例において、ユーザー情報(例えば、ユーザーが送信したオーディオ信号)等の関連データに関して、本願の実施例が製品、又は、技術に用いられるときには、ユーザーの許可、又は、同意を取得する必要があり、且つ関連データの収集、使用、及び処理は、関連する国と地域の関連する法律、法規、及び標準に準拠する必要がある。
【0220】
以下では、本願の実施例が提供するオーディオ符号化装置553がソフトウェアモジュールとして実施される例示的な構造を継続的に説明する。いくつかの実施例において、図2に示すように、メモリ550に記憶されるオーディオ符号化装置553におけるソフトウェアモジュールは、第1特徴抽出モジュール5531と、第2特徴抽出モジュール5532と、トラバースモジュール5533と、符号化モジュール5534とを含んでもよい。
【0221】
第1特徴抽出モジュール5531は、オーディオ信号に対して第1レベルの特徴抽出を行い、上記第1レベルの信号特徴を得るように構成され、第2特徴抽出モジュール5532は、N個のレベルのうちの第iレベルに対して、上記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ上記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、上記第iレベルの信号特徴を得るように構成されている。上記Nと上記iは、1よりも大きい整数であり、上記iは、上記N以下であり、トラバースモジュール5533は、上記iをトラバースし、上記N個のレベルのうちの個々のレベルの信号特徴を得るように構成されている。上記信号特徴のデータ次元は、上記オーディオ信号のデータ次元よりも小さく、符号化モジュール5534は、上記第1レベルの信号特徴、及び上記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける上記オーディオ信号のストリームを得るように構成される。
【0222】
いくつかの実施例において、上記第1特徴抽出モジュール5531は、さらに、上記オーディオ信号に対してサブバンド分解を行い、上記オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得て、上記低周波サブバンド信号に対して第1レベルの特徴抽出を行い、上記第1レベルの低周波信号特徴を得て、且つ上記高周波サブバンド信号に対して第1レベルの特徴抽出を行い、上記第1レベルの高周波信号特徴を得て、上記低周波信号特徴と上記高周波信号特徴を上記第1レベルの信号特徴とするように構成される。
【0223】
いくつかの実施例において、上記第1特徴抽出モジュール5531は、さらに、第1サンプリング周波数に従って上記オーディオ信号をサンプリングし、サンプリングされた信号を得て、上記サンプリングされた信号をローパスフィルタリングし、ローパスフィルタリングされた信号を得て、且つ上記ローパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の上記低周波サブバンド信号を得て、上記サンプリングされた信号をハイパスフィルタリングし、ハイパスフィルタリングされた信号を得て、且つ上記ハイパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の上記高周波サブバンド信号を得るように構成される。ここで、上記第2サンプリング周波数は、上記第1サンプリング周波数よりも小さい。
【0224】
いくつかの実施例において、上記第2特徴抽出モジュール5532は、さらに、上記オーディオ信号の低周波サブバンド信号と第(i-1)レベルの低周波信号特徴とを継ぎ合わせて、第1継ぎ合わせ特徴を得る。また上記第1継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、上記第iレベルの低周波信号特徴を得て、上記オーディオ信号の高周波サブバンド信号と第(i-1)レベルの高周波信号特徴とを継ぎ合わせ、第2継ぎ合わせ特徴を得る。また上記第2継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、上記第iレベルの高周波信号特徴を得て、上記第iレベルの低周波信号特徴と上記第iレベルの高周波信号特徴を上記第iレベルの信号特徴とするように構成される。
【0225】
いくつかの実施例において、上記第1特徴抽出モジュール5531は、さらに、上記オーディオ信号に対して第1畳み込み処理を行い、上記第1レベルの畳み込み特徴を得て、上記畳み込み特徴に対して第1プーリング処理を行い、上記第1レベルのプーリング特徴を得て、上記プーリング特徴に対して第1ダウンサンプリングを行い、上記第1レベルのダウンサンプリング特徴を得て、上記ダウンサンプリング特徴に対して第2畳み込み処理を行い、上記第1レベルの信号特徴を得るように構成される。
【0226】
いくつかの実施例において、上記第1ダウンサンプリングは、M個のカスケードされた符号化層によって実現される。上記第1特徴抽出モジュール5531は、さらに、上記M個のカスケードされた符号化層のうちの第1個目の符号化層によって、上記プーリング特徴に対して第1ダウンサンプリングを行い、上記第1個目の符号化層のダウンサンプリング結果を得ることと、上記M個のカスケードされた符号化層のうちの第j個目の符号化層によって、第(j-1)個の符号化層のダウンサンプリング結果に対して第1ダウンサンプリングを行い、上記第j個目の符号化層のダウンサンプリング結果を得ることと、ここで、上記Mと上記jは、1よりも大きい整数であり、上記jは、上記M以下である、ことと、上記jをトラバースし、第M個目の符号化層のダウンサンプリング結果を得て、且つ上記第M個目の符号化層のダウンサンプリング結果を上記第1レベルのダウンサンプリング特徴とすることと、を行うように構成される。
【0227】
いくつかの実施例において、上記第2特徴抽出モジュール5532は、さらに、上記継ぎ合わせ特徴に対して第3畳み込み処理を行い、上記第iレベルの畳み込み特徴を得て、上記畳み込み特徴に対して第2プーリング処理を行い、上記第iレベルのプーリング特徴を得て、上記プーリング特徴に対して第2ダウンサンプリングを行い、上記第iレベルのダウンサンプリング特徴を得て、上記ダウンサンプリング特徴に対して第4畳み込み処理を行い、上記第iレベルの信号特徴を得るように構成される。
【0228】
いくつかの実施例において、上記符号化モジュール5534は、さらに、上記第1レベルの信号特徴、及び上記N個のレベルのうちの個々のレベルの信号特徴に対してそれぞれ量子化処理を行い、各レベルの信号特徴の量子化結果を得て、上記各レベルの信号特徴の量子化結果に対してエントロピー符号化を行い、各レベルにおける上記オーディオ信号のストリームを得るように構成される。
【0229】
いくつかの実施例において、上記信号特徴は、低周波信号特徴と高周波信号特徴とを含む。上記符号化モジュール5534は、さらに、上記第1レベルの低周波信号特徴、及び上記N個のレベルのうちの個々のレベルの低周波信号特徴をそれぞれ符号化し、各レベルにおける上記オーディオ信号の低周波ストリームを得て、上記第1レベルの高周波信号特徴、及び上記N個のレベルのうちの個々のレベルの高周波信号特徴をそれぞれ符号化し、各レベルにおける上記オーディオ信号の高周波ストリームを得て、各レベルにおける上記オーディオ信号の低周波ストリーム、及び高周波ストリームを相応なレベルにおける上記オーディオ信号のストリームとするように構成される。
【0230】
いくつかの実施例において、上記信号特徴は、低周波信号特徴と高周波信号特徴とを含む。上記符号化モジュール5534は、さらに、第1符号化ビットレートに従って、上記第1レベルの低周波信号特徴を符号化し、第1レベルの第1ストリームを得て、且つ第2符号化ビットレートに従って、上記第1レベルの高周波信号特徴を符号化し、第1レベルの第2ストリームを得て、上記N個のレベルのうちの個々のレベルの信号特徴に対して、それぞれ以下の処理を実行するように構成されている。上記レベルの第3符号化ビットレートに従って、上記レベルの信号特徴をそれぞれ符号化し、各上記レベルの第2ストリームを得て、上記第1レベルの第2ストリーム、及び上記N個のレベルのうちの個々のレベルの第2ストリームを各レベルにおける上記オーディオ信号のストリームとする。ここで、上記第1符号化ビットレートは、上記第2符号化ビットレートよりも大きく、上記第2符号化ビットレートは、上記N個のレベルのうちの任意の1つのレベルの第3符号化ビットレートよりも大きく、上記レベルの符号化ビットレートと相応なレベルのストリームの復号品質指標とに正の相関がある。
【0231】
いくつかの実施例において、上記符号化モジュール5534は、さらに、各上記レベルに対して、それぞれ以下の処理を実行するように構成されている。上記レベルにおける上記オーディオ信号のストリームに対して相応なレベル伝送優先度を設定する。ここで、上記レベル伝送優先度と上記レベルのレベル数とに負の相関があり、上記レベル伝送優先度と相応なレベルのストリームの復号品質指標とに正の相関がある。
【0232】
いくつかの実施例において、上記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、各レベルにおける上記オーディオ信号のストリームは、上記低周波信号特徴に基づき符号化して得られた低周波ストリーム、及び上記高周波信号特徴に基づき符号化して得られた高周波ストリームを含む。上記符号化モジュール5534は、さらに、各上記レベルに対して、それぞれ以下の処理を実行するように構成される。上記レベルの低周波ストリームに第1伝送優先度を設定し、且つ上記レベルの高周波ストリームに第2伝送優先度を設定するように構成される。ここで、上記第1伝送優先度は、上記第2伝送優先度よりも高く、第(i-1)レベルの上記第2伝送優先度は、第iレベルの上記第1伝送優先度よりも低く、上記ストリームの伝送優先度と相応なストリームの復号品質指標とに正の相関がある。
【0233】
本願の上記実施例を応用すると、オーディオ信号に対するレベルごとの符号化が実現される。まず、オーディオ信号に対して第1レベルの特徴抽出を行い、第1レベルの信号特徴を得て、次に、N(Nは、1よりも大きい整数である)個のレベルのうちの第i(iは、1よりも大きい整数であり、iは、N以下である)レベルに対して、オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせて、継ぎ合わせ特徴を得て、且つ継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、第iレベルの信号特徴を得て、その後、iをトラバースすることによって、N個のレベルのうちの個々のレベルの信号特徴を得て、最後に、第1レベルの信号特徴、及びN個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおけるオーディオ信号のストリームを得る。
【0234】
第1に、抽出された信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さい。このように、オーディオ符号化過程において処理されるデータのデータ次元が削減され、オーディオ信号の符号化効率が向上する。
【0235】
第2に、オーディオ信号の信号特徴をレベルごとに抽出するとき、個々のレベルの出力は、いずれも次のレベルの入力として使用される。これにより、個々のレベルは、いずれも前のレベルの抽出された信号特徴と組み合わせて、オーディオ信号に対してより正確な特徴抽出を行い、レベルの数の増加に伴って、特徴抽出過程におけるオーディオ信号の情報損失を最小限に抑えることができる。このように、該方式で抽出された信号特徴を符号化することによって得られた複数のストリームについては、それに含まれるオーディオ信号の情報は、元のオーディオ信号により近く、符号化過程におけるオーディオ信号の情報損失が低減し、オーディオ符号化の符号化品質が確保される。
【0236】
以下では、本願の実施例が提供するオーディオ復号装置を説明する。本願の実施例が提供するオーディオ復号装置は、オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するように構成される受信モジュールと、各上記レベルのストリームをそれぞれ復号し、各上記レベルの信号特徴を得るように構成される復号モジュールであって、上記信号特徴のデータ次元は、上記オーディオ信号のデータ次元よりも小さい、復号モジュールと、各上記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各上記レベルのレベルオーディオ信号を得るように構成される特徴再構築モジュールと、複数の上記レベルのレベルオーディオ信号に対してオーディオ合成を行い、上記オーディオ信号を得るように構成されるオーディオ合成モジュールと、を含む。
【0237】
いくつかの実施例において、上記ストリームは、低周波ストリームと高周波ストリームとを含む。上記復号モジュールは、さらに、各上記レベルの低周波ストリームをそれぞれ復号し、各上記レベルの低周波信号特徴を得て、且つ各上記レベルの高周波ストリームをそれぞれ復号し、各上記レベルの高周波信号特徴を得るように構成される。相応に、上記特徴再構築モジュールは、さらに、各上記レベルの低周波信号特徴に対してそれぞれ特徴再構築を行い、各上記レベルのレベル低周波サブバンド信号を得て、且つ各上記レベルの高周波信号特徴に対してそれぞれ特徴再構築を行い、各上記レベルのレベル高周波サブバンド信号を得て、上記レベル低周波サブバンド信号と上記レベル高周波サブバンド信号を上記レベルのレベルオーディオ信号とするように構成される。相応に、上記オーディオ合成モジュールは、さらに、複数の上記レベルのレベル低周波サブバンド信号を加算し、低周波サブバンド信号を得て、且つ複数の上記レベルのレベル高周波サブバンド信号を加算し、高周波サブバンド信号を得て、上記低周波サブバンド信号と上記高周波サブバンド信号とを合成し、上記オーディオ信号を得るように構成される。
【0238】
いくつかの実施例において、上記オーディオ合成モジュールは、さらに、上記低周波サブバンド信号をアップサンプリングし、ローパスフィルタリングされた信号を得て、上記高周波サブバンド信号をアップサンプリングし、高周波フィルタリングされた信号を得て、上記ローパスフィルタリングされた信号と上記高周波フィルタリングされた信号に対してフィルタリング合成を行い、上記オーディオ信号を得るように構成される。
【0239】
いくつかの実施例において、上記特徴再構築モジュールは、さらに、各上記レベルの信号特徴に対して、それぞれ以下の処理を実行するように構成される。上記信号特徴に対して第1畳み込み処理を行い、上記レベルの畳み込み特徴を得て、上記畳み込み特徴をアップサンプリングし、上記レベルのアップサンプリング特徴を得て、上記アップサンプリング特徴に対してプーリング処理を行い、上記レベルのプーリング特徴を得て、上記プーリング特徴に対して第2畳み込み処理を行い、上記レベルのレベルオーディオ信号を得る。
【0240】
いくつかの実施例において、上記アップサンプリングは、L個のカスケードされた復号層によって実現される。上記特徴再構築モジュールは、さらに、上記L個のカスケードされた復号層のうちの第1個目の復号層によって、上記プーリング特徴をアップサンプリングし、上記第1個目の復号層のアップサンプリング結果を得ることと、上記L個のカスケードされた復号層のうちの第k個目の復号層によって、第(k-1)個目の復号層の第1アップサンプリング結果をアップサンプリングし、上記第k個目の復号層のアップサンプリング結果を得ることであって、ここで、上記Lと上記kは、1よりも大きい整数であり、上記kは、上記L以下である、ことと、上記kをトラバースし、第L個目の復号層のアップサンプリング結果を得て、且つ上記第L個目の復号層のアップサンプリング結果を上記レベルのアップサンプリング特徴とすることと、を行うように構成される。
【0241】
いくつかの実施例において、上記復号モジュールは、さらに、各上記レベルに対して、それぞれ以下の処理を実行するように構成される。上記レベルのストリームに対してエントロピー復号を行い、上記ストリームの量子化値を得て、上記ストリームの量子化値に対して逆量子化処理を行い、上記レベルの信号特徴を得る。
【0242】
本願の上記実施例を応用すると、複数のレベルのストリームをそれぞれ復号し、各レベルの信号特徴を得て、且つ各レベルの信号特徴に対してそれぞれ特徴再構築を行い、各レベルのレベルオーディオ信号を得て、複数のレベルのレベルオーディオ信号に対してオーディオ合成を行い、オーディオ信号を得る。信号特徴のデータ次元は、オーディオ信号のデータ次元よりも小さいので、オーディオ復号過程において処理されるデータのデータ次元が削減され、オーディオ信号の復号効率が向上する。
【0243】
本願の実施例は、コンピュータプログラム製品、又は、コンピュータプログラムをさらに提供し、該コンピュータプログラム製品、又は、コンピュータプログラムは、コンピュータ命令を含み、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行して、該コンピュータ機器に本願の実施例が提供する方法を実行させる。
【0244】
本願の実施例は、コンピュータ可読記憶媒体をさらに提供し、その中に、実行可能な命令が記憶されており、実行可能な命令がプロセッサに実行されるとき、プロセッサが本願の実施例が提供する方法を実行することが引き起こされることになる。
【0245】
いくつかの実施例において、コンピュータ可読記憶媒体は、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read-Only Memory、EPROM)、電気的消去可能プログラマブル読み取り専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、フラッシュメモリ、磁気表面メモリ、光ディスク、又は、CD-ROM等のメモリであってもよく、上記メモリの1つ、又は、任意の組み合わせを含む各種の機器であってもよい。
【0246】
いくつかの実施例において、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又は、コードの形式を採用して、任意の形式のプログラミング言語(コンパイル、又は、インタープリタ言語、或いは、宣言型、又は、手続き型言語を含む)に従って書くことができ、且つそれは、任意の形式に従って配備することができ、独立したプログラムとして配備されること、或いは、モジュール、コンポーネント、サブルーチン、又は、コンピューティング環境における使用に適する他のユニットとして配備されることを含む。
【0247】
例として、実行可能な命令は、ファイルシステムにおけるファイルに対応し得るが、必ず対応するわけではなく、他のプログラム、又は、データを保存するファイルの一部に記憶されてもよい。例えば、ハイパーテキストマークアップ言語(HTML、Hyper Text Markup Language)ドキュメントにおける1つ、又は、複数のスクリプトに記憶され、検討されるプログラム専用の単一のファイルに記憶され、又は、複数の共同ファイル(例えば、1つ、又は、複数のモジュール、サブプログラム、又は、コード部分を記憶するファイル)に記憶される。
【0248】
例として、実行可能な命令は、1つのコンピューティング機器において実行されるか、又は、1つの場所に位置する複数のコンピューティング機器において実行されるか、また、又は、複数の場所に分布し、且つ通信ネットワークによって相互接続される複数のコンピューティング機器において実行されるように配備されてもよい。
【0249】
以上の内容は、本願の実施例に過ぎず、本願の保護範囲を限定することに用いられるものではない。本願の精神と範囲内に行ったすべての修正、均等な構成への置換、及び改良等は、いずれも本願の保護範囲内に含まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16A
図16B
図17
図18
図19
図20
【手続補正書】
【提出日】2024-04-24
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
電子機器によって実行される、オーディオ符号化方法であって、前記方法は、
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るステップと、
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るステップであって、前記Nと前記iは、1よりも大きい整数であり、前記iは、前記N以下である、ステップと、
前記iをトラバースし、前記N個のレベルのうちの個々のレベルの信号特徴を得るステップであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、ステップと、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るステップと、を含むオーディオ符号化方法。
【請求項2】
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るステップは、
前記オーディオ信号に対してサブバンド分解を行い、前記オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得るステップと、
前記低周波サブバンド信号に対して第1レベルの特徴抽出を行い、前記第1レベルの低周波信号特徴を得て、前記高周波サブバンド信号に対して第1レベルの特徴抽出を行い、前記第1レベルの高周波信号特徴を得るステップと、
前記低周波信号特徴と前記高周波信号特徴とを前記第1レベルの信号特徴として決定するステップと、を含む、請求項1に記載の方法。
【請求項3】
前記オーディオ信号に対してサブバンド分解を行い、前記オーディオ信号の低周波サブバンド信号と高周波サブバンド信号を得るステップは、
第1サンプリング周波数に従って前記オーディオ信号をサンプリングし、サンプリングされた信号を得るステップと、
前記サンプリングされた信号をローパスフィルタリングし、ローパスフィルタリングされた信号を得て、且つ前記ローパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の前記低周波サブバンド信号を得るステップと、
前記サンプリングされた信号をハイパスフィルタリングし、ハイパスフィルタリングされた信号を得て、且つ前記ハイパスフィルタリングされた信号をダウンサンプリングし、第2サンプリング周波数の前記高周波サブバンド信号を得るステップと、を含み、
前記第2サンプリング周波数は、前記第1サンプリング周波数よりも小さい、請求項2に記載の方法。
【請求項4】
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るステップは、
前記オーディオ信号の低周波サブバンド信号と第(i-1)レベルの低周波信号特徴とを継ぎ合わせ、第1継ぎ合わせ特徴を得て、且つ前記第1継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの低周波信号特徴を得るステップと、
前記オーディオ信号の高周波サブバンド信号と第(i-1)レベルの高周波信号特徴とを継ぎ合わせ、第2継ぎ合わせ特徴を得て、且つ前記第2継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの高周波信号特徴を得るステップと、
前記第iレベルの低周波信号特徴と前記第iレベルの高周波信号特徴とを前記第iレベルの信号特徴として決定するステップと、を含む、請求項2に記載の方法。
【請求項5】
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るステップは、
前記オーディオ信号に対して第1畳み込み処理を行い、前記第1レベルの畳み込み特徴を得るステップと、
前記畳み込み特徴に対して第1プーリング処理を行い、前記第1レベルのプーリング特徴を得るステップと、
前記プーリング特徴に対して第1ダウンサンプリングを行い、前記第1レベルのダウンサンプリング特徴を得るステップと、
前記ダウンサンプリング特徴に対して第2畳み込み処理を行い、前記第1レベルの信号特徴を得るステップと、を含む、請求項1に記載の方法。
【請求項6】
前記第1ダウンサンプリングは、M個のカスケードされた符号化層によって実現され、
前記プーリング特徴に対して第1ダウンサンプリングを行い、前記第1レベルのダウンサンプリング特徴を得るステップは、
前記M個のカスケードされた符号化層のうちの第1個目の符号化層によって、前記プーリング特徴に対して第1ダウンサンプリングを行い、前記第1個目の符号化層のダウンサンプリング結果を得るステップと、
前記M個のカスケードされた符号化層のうちの第j個目の符号化層によって、第(j-1)個の符号化層のダウンサンプリング結果に対して第1ダウンサンプリングを行い、前記第j個目の符号化層のダウンサンプリング結果を得るステップであって、前記Mと前記jは、1よりも大きい整数であり、前記jは、前記M以下である、ステップと、
前記jをトラバースし、第M個目の符号化層のダウンサンプリング結果を得て、且つ前記第M個目の符号化層のダウンサンプリング結果を前記第1レベルのダウンサンプリング特徴として決定するステップと、を含む、請求項5に記載の方法。
【請求項7】
前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得ることは、
前記継ぎ合わせ特徴に対して第3畳み込み処理を行い、前記第iレベルの畳み込み特徴を得るステップと、
前記畳み込み特徴に対して第2プーリング処理を行い、前記第iレベルのプーリング特徴を得るステップと、
前記プーリング特徴に対して第2ダウンサンプリングを行い、前記第iレベルのダウンサンプリング特徴を得るステップと、
前記ダウンサンプリング特徴に対して第4畳み込み処理を行い、前記第iレベルの信号特徴を得るステップと、を含む、請求項1に記載の方法。
【請求項8】
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るステップは、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴に対してそれぞれ量子化処理を行い、各レベルの信号特徴の量子化結果を得るステップと、
前記各レベルの信号特徴の量子化結果に対してエントロピー符号化を行い、各レベルにおける前記オーディオ信号のストリームを得るステップと、を含む、請求項1に記載の方法。
【請求項9】
前記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得る前記ステップは、
前記第1レベルの低周波信号特徴、及び前記N個のレベルのうちの個々のレベルの低周波信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号の低周波ストリームを得るステップと、
前記第1レベルの高周波信号特徴、及び前記N個のレベルのうちの個々のレベルの高周波信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号の高周波ストリームを得るステップと、
各レベルにおける前記オーディオ信号の低周波ストリーム、及び高周波ストリームを相応なレベルにおける前記オーディオ信号のストリームとして決定するステップと、を含む、請求項1に記載の方法。
【請求項10】
前記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るステップは、
第1符号化ビットレートに従って、前記第1レベルの低周波信号特徴を符号化し、第1レベルの第1ストリームを得て、且つ第2符号化ビットレートに従って、前記第1レベルの高周波信号特徴を符号化し、第1レベルの第2ストリームを得るステップと、
前記N個のレベルのうちの個々のレベルの信号特徴に対して、前記レベルの第3符号化ビットレートに従って、前記レベルの信号特徴をそれぞれ符号化し、各前記レベルの第2ストリームを得る、という処理をそれぞれ実行する、ステップと、
前記第1レベルの第2ストリーム、及び前記N個のレベルのうちの個々のレベルの第2ストリームを各レベルにおける前記オーディオ信号のストリームとして決定するステップと、を含み、
前記第1符号化ビットレートは、前記第2符号化ビットレートよりも大きく、前記第2符号化ビットレートは、前記N個のレベルのうちの任意の1つのレベルの第3符号化ビットレートよりも大きく、前記レベルの符号化ビットレートと相応なレベルのストリームの復号品質指標とに正の相関がある、請求項1に記載の方法。
【請求項11】
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るステップの後に、前記方法は、
各前記レベルに対して、
前記レベルにおける前記オーディオ信号のストリームに対して相応なレベル伝送優先度を設定する、という処理をそれぞれ実行する、ステップをさらに含み、
前記レベル伝送優先度と前記レベルのレベル数とに負の相関があり、前記レベル伝送優先度と相応なレベルのストリームの復号品質指標とに正の相関がある、請求項1に記載の方法。
【請求項12】
前記信号特徴は、低周波信号特徴と高周波信号特徴とを含み、各レベルにおける前記オーディオ信号のストリームは、前記低周波信号特徴に基づき符号化して得られた低周波ストリーム、及び前記高周波信号特徴に基づき符号化して得られた高周波ストリームを含み、前記方法は、
各前記レベルに対して、前記レベルの低周波ストリームに第1伝送優先度を設定し、且つ前記レベルの高周波ストリームに第2伝送優先度を設定する、という処理をそれぞれ実行するステップをさらに含み、
前記第1伝送優先度は、前記第2伝送優先度よりも高く、第(i-1)レベルの前記第2伝送優先度は、第iレベルの前記第1伝送優先度よりも低く、前記ストリームの伝送優先度と相応なストリームの復号品質指標とに正の相関がある、請求項1に記載の方法。
【請求項13】
電子機器によって実行される、オーディオ復号方法であって、前記方法は、
オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するステップと、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るステップであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、ステップと、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るステップと、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るステップと、を含む、オーディオ復号方法。
【請求項14】
前記ストリームは、低周波ストリームと高周波ストリームとを含み、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るステップは、
各前記レベルの低周波ストリームをそれぞれ復号し、各前記レベルの低周波信号特徴を得て、且つ各前記レベルの高周波ストリームをそれぞれ復号し、各前記レベルの高周波信号特徴を得るステップを含み、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得る前記ステップは、
各前記レベルの低周波信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベル低周波サブバンド信号を得て、且つ各前記レベルの高周波信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベル高周波サブバンド信号を得るステップと、
前記レベル低周波サブバンド信号と前記レベル高周波サブバンド信号を前記レベルのレベルオーディオ信号とするステップと、を含み、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るステップは、
複数の前記レベルのレベル低周波サブバンド信号を加算し、低周波サブバンド信号を得て、且つ複数の前記レベルのレベル高周波サブバンド信号を加算し、高周波サブバンド信号を得るステップと、
前記低周波サブバンド信号と前記高周波サブバンド信号とを合成し、前記オーディオ信号を得るステップと、を含む、請求項13に記載の方法。
【請求項15】
前記低周波サブバンド信号と前記高周波サブバンド信号とを合成し、前記オーディオ信号を得るステップは、
前記低周波サブバンド信号をアップサンプリングし、ローパスフィルタリングされた信号を得るステップと、
前記高周波サブバンド信号をアップサンプリングし、高周波フィルタリングされた信号を得るステップと、
前記ローパスフィルタリングされた信号と前記高周波フィルタリングされた信号とに対してフィルタリング合成を行い、前記オーディオ信号を得るステップと、を含む、請求項14に記載の方法。
【請求項16】
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るステップは、
各前記レベルの信号特徴に対して、
前記信号特徴に対して第1畳み込み処理を行い、前記レベルの畳み込み特徴を得る処理と、
前記畳み込み特徴をアップサンプリングし、前記レベルのアップサンプリング特徴を得る処理と、
前記アップサンプリング特徴に対してプーリング処理を行い、前記レベルのプーリング特徴を得る処理と、
前記プーリング特徴に対して第2畳み込み処理を行い、前記レベルのレベルオーディオ信号を得る処理と、をそれぞれ実行すること、を含む、請求項13に記載の方法。
【請求項17】
前記アップサンプリングは、L個のカスケードされた復号層によって実現され、
前記畳み込み特徴をアップサンプリングし、前記レベルのアップサンプリング特徴を得る処理は、
前記L個のカスケードされた復号層のうちの第1個目の復号層によって、前記プーリング特徴をアップサンプリングし、前記第1個目の復号層のアップサンプリング結果を得るステップと、
前記L個のカスケードされた復号層のうちの第k個目の復号層によって、第(k-1)個目の復号層の第1アップサンプリング結果をアップサンプリングし、前記第k個目の復号層のアップサンプリング結果を得るステップであって、
前記Lと前記kは、1よりも大きい整数であり、前記kは、前記L以下である、ステップと、
前記kをトラバースし、第L個目の復号層のアップサンプリング結果を得て、且つ前記第L個目の復号層のアップサンプリング結果を前記レベルのアップサンプリング特徴とするステップと、を含む、請求項16に記載の方法。
【請求項18】
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るステップは、
各前記レベルに対して、
前記レベルのストリームに対してエントロピー復号を行い、前記ストリームの量子化値を得る処理と、
前記ストリームの量子化値に対して逆量子化処理を行い、前記レベルの信号特徴を得る処理と、をそれぞれ実行すること、を含む、請求項13に記載の方法。
【請求項19】
オーディオ符号化装置であって、前記装置は、
オーディオ信号に対して第1レベルの特徴抽出を行い、前記第1レベルの信号特徴を得るように構成される第1特徴抽出モジュールと、
N個のレベルのうちの第iレベルに対して、前記オーディオ信号と第(i-1)レベルの信号特徴とを継ぎ合わせ、継ぎ合わせ特徴を得て、且つ前記継ぎ合わせ特徴に対して第iレベルの特徴抽出を行い、前記第iレベルの信号特徴を得るように構成される第2特徴抽出モジュールであって、前記Nと前記iは、1よりも大きい整数であり、前記iは、前記N以下である、第2特徴抽出モジュールと、
前記iをトラバースし、前記N個のレベルのうちの個々のレベルの信号特徴を得るように構成されるトラバースモジュールであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、トラバースモジュールと、
前記第1レベルの信号特徴、及び前記N個のレベルのうちの個々のレベルの信号特徴をそれぞれ符号化し、各レベルにおける前記オーディオ信号のストリームを得るように構成される符号化モジュールと、を含む、オーディオ符号化装置。
【請求項20】
オーディオ復号装置であって、前記装置は、
オーディオ信号を符号化して得られた複数のレベルのそれぞれに対応するストリームを受信するように構成される受信モジュールと、
各前記レベルのストリームをそれぞれ復号し、各前記レベルの信号特徴を得るように構成される復号モジュールであって、前記信号特徴のデータ次元は、前記オーディオ信号のデータ次元よりも小さい、復号モジュールと、
各前記レベルの信号特徴に対してそれぞれ特徴再構築を行い、各前記レベルのレベルオーディオ信号を得るように構成される特徴再構築モジュールと、
複数の前記レベルのレベルオーディオ信号に対してオーディオ合成を行い、前記オーディオ信号を得るように構成されるオーディオ合成モジュールと、を含む、オーディオ復号装置。
【請求項21】
電子機器であって、前記電子機器は、
実行可能な命令を記憶するように構成されるメモリと、
前記メモリにおいて記憶される実行可能な命令を実行するとき、請求項1~18のいずれか1項に記載の方法を実現するように構成されるプロセッサと、を含む、電子機器。
【請求項22】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサに実行されるときに、請求項1~18のいずれか1項に記載の方法を実現させる、コンピュータプログラム。
【国際調査報告】