(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-17
(54)【発明の名称】オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム
(51)【国際特許分類】
G10L 19/002 20130101AFI20240110BHJP
【FI】
G10L19/002
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023538141
(86)(22)【出願日】2022-03-17
(85)【翻訳文提出日】2023-06-21
(86)【国際出願番号】 CN2022081414
(87)【国際公開番号】W WO2022213787
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】202110380547.9
(32)【優先日】2021-04-09
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】梁 俊斌
(57)【要約】
オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器、コンピューター可読記憶媒体及びコンピュータープログラム製品を提供し、前記オーディオ符号化方法は、第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップ(401)と、符号化コードレート予測モデルによりサンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、サンプルオーディオフレームのサンプル符号化コードレートを得るステップ(402)と、サンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップ(403)と、サンプルオーディオデータに対してオーディオ復号化を行い、サンプルオーディオデータに対応する第2サンプルオーディオを得るステップ(404)と、第1サンプルオーディオと第2サンプルオーディオに基づいて、符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップ(405)であって、サンプル符号化品質スコアは第1サンプルオーディオと第2サンプルオーディオによって決定されるものである、ステップと、を含む。
【特許請求の範囲】
【請求項1】
コンピューター機器が実行する、オーディオ符号化方法であって、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るステップと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは、前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、ステップと、を含む、
オーディオ符号化方法。
【請求項2】
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
前記第1サンプルオーディオのサンプルネットワーク状態パラメータを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記サンプルネットワーク状態パラメータ及び前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップを含む、
請求項1に記載のオーディオ符号化方法。
【請求項3】
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
i-1フレーム目のサンプルオーディオフレームに対応するi-1番目のサンプル符号化コードレートを取得するステップをさらに含み、
前記符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルによりi番目のサンプルオーディオ特徴パラメータ及び前記i-1番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを得るステップを含み、
iは逓増する整数であり、且つ値の範囲が1<i≦Nであり、Nは前記サンプルオーディオフレームの数であり、Nは1より大きい整数である、
請求項1に記載のオーディオ符号化方法。
【請求項4】
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記第1サンプルオーディオに対応する前記サンプル符号化品質スコアを決定するステップと、
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項1から3のいずれか一項に記載のオーディオ符号化方法。
【請求項5】
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第1サンプルオーディオに対応する平均符号化コードレートを決定するステップであって、前記平均符号化コードレートは各フレームのサンプルオーディオフレームに対応する前記サンプル符号化コードレートによって決定されるものである、ステップと、
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築するステップと、
前記第1符号化損失と所定の符号化損失に基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項4に記載のオーディオ符号化方法。
【請求項6】
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築する前記ステップは、
前記平均符号化コードレートに対応する第1損失重み、及び符号化品質スコアに対応する第2損失重みを取得するステップであって、前記符号化品質スコアは前記サンプル符号化品質スコアと前記目標符号化品質スコアによって決定されるものである、ステップと、
前記平均符号化コードレート、前記第1損失重み、前記符号化品質スコア及び前記第2損失重みに基づいて、前記第1サンプルオーディオに対応する前記第1符号化損失を構築するステップと、を含む、
請求項5に記載のオーディオ符号化方法。
【請求項7】
前記サンプルオーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む、
請求項1から3のいずれか一項に記載のオーディオ符号化方法。
【請求項8】
コンピューター機器が実行する、オーディオ符号化方法であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含む、
オーディオ符号化方法。
【請求項9】
前記目標オーディオデータはネットワーク伝送に使用され、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するステップであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、ステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップを含む、
請求項8に記載のオーディオ符号化方法。
【請求項10】
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記j-1番目のオーディオ符号化コードレート及びjフレーム目のオーディオフレームに対応するj番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを得るステップを含み、
jは逓増する整数であり、且つ値の範囲が1<j≦Mであり、Mは前記オーディオフレームの数であり、Mは1より大きい整数である、
請求項8に記載のオーディオ符号化方法。
【請求項11】
前記オーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む、
請求項8から10のいずれか一項に記載のオーディオ符号化方法。
【請求項12】
コンピューター機器が実行する、オーディオ復号化方法であって、前記オーディオ復号化方法は、請求項8から11のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータに適用され、
前記オーディオ復号化方法は、
前記符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む、
オーディオ復号化方法。
【請求項13】
オーディオ符号化装置であって、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、トレーニングモジュールと、を備える、
オーディオ符号化装置。
【請求項14】
オーディオ符号化装置であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュールと、を備える、
オーディオ符号化装置。
【請求項15】
オーディオ復号化装置であって、
前記符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える、
オーディオ復号化装置。
【請求項16】
コンピューター機器であって、
少なくとも1つのプログラムを記憶するメモリと、
前記少なくとも1つのプログラムをロード及び実行して、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実現し、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実現し、又は請求項12に記載のオーディオ復号化方法を実現するプロセッサと、を含む、
コンピューター機器。
【請求項17】
コンピューター可読記憶媒体であって、前記コンピューター可読記憶媒体に少なくとも1つのプログラムが記憶され、プロセッサが前記少なくとも1つのプログラムをロード及び実行して、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実現し、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実現し、又は請求項12に記載のオーディオ復号化方法を実現する、コンピューター可読記憶媒体。
【請求項18】
コンピューターに、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項12に記載のオーディオ復号化方法を実行させるコンピューター命令を含む、コンピュータープログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願は、出願番号が第202110380547.9号であり、出願日が2021年4月9日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本願に組み込まれる。
【0002】
本願は、オーディオ及びビデオ技術の分野に関し、特に、オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器、コンピューター可読記憶媒体及びコンピュータープログラム製品に関する。
【背景技術】
【0003】
音声符号化技術は、収集されたオリジナルロスレスオーディオ信号に対して、オーディオモデルを用いて時間領域と周波数領域の冗長分析及び圧縮を行い、それによって音声伝送帯域幅とストレージ空間を低減させ、同時に良好なオーディオ品質を維持することである。音声エンコーダの入力パラメータは、一般的にサンプリングレート、チャネル数及び符号化コードレートなどを含む。ここで、符号化コードレートが大きいほど、符号化コードストリームが占有する帯域幅が多くなり、符号化ファイルが占有するストレージ空間が大きくなり、音声符号化の品質が高くなる。
【0004】
関連技術では、符号化コードレートは一般的に実験経験値によって設定される。例えば、実験室環境では、主観的な音声品質評価(PESQ:Perceptual Evaluation of Speech Quality)の方法を使用して、異なる符号化パラメータにおける対応するPESQ値を測定し、次にPESQ値と音声品質の目標要求に基づいてマッチングを行い、さらに必要な音声符号化コードレートを決定する。該音声符号化コードレートは実際のビジネスに使用され、音声符号化圧縮の全プロセスでは、符号化コードレートは通常固定される。
【0005】
明らかに、関連技術における固定の符号化コードレートを使用する音声符号化方法では、音声信号自体が時変信号であり、異なる時刻、異なる音声信号の音声エンコーダ内部における圧縮プロセスに大きな差が存在するため、同じ符号化コードレートでは、異なる音声信号の符号化品質の差が大きく、音声符号化の品質を保証することができない。
【発明の概要】
【課題を解決するための手段】
【0006】
本願の実施例は、オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器、コンピューター可読記憶媒体及びコンピュータープログラム製品を提供し、オーディオ符号化の品質を向上させることができる。該技術案は次のような態様を含む。
【0007】
本願の実施例は、オーディオ符号化方法を提供し、前記オーディオ符号化方法は、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るステップと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、ステップと、を含む。
【0008】
本願の実施例は、オーディオ符号化方法を提供し、前記オーディオ符号化方法は、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含む。
【0009】
本願の実施例は、オーディオ復号化方法を提供し、前記オーディオ復号化方法は、
上記のオーディオ符号化方法により符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む。
【0010】
本願の実施例は、オーディオ符号化装置を提供し、前記オーディオ符号化装置は、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、トレーニングモジュールと、を備える。
【0011】
本願の実施例は、オーディオ符号化装置を提供し、前記オーディオ符号化装置は、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュールと、を備える。
【0012】
本願の実施例は、オーディオ復号化装置を提供し、前記オーディオ復号化装置は、
上記のオーディオ符号化方法により符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える。
【0013】
本願の実施例は、コンピューター機器を提供し、前記コンピューター機器は、プロセッサと、メモリとを含み、前記メモリに少なくとも1つのプログラムが記憶され、前記少なくとも1つのプログラムが前記プロセッサによってロード及び実行されて、上記の態様に記載のオーディオ符号化方法又はオーディオ復号化方法を実現する。
【0014】
本願の実施例は、コンピューター可読記憶媒体を提供し、前記記憶媒体に少なくとも1つのプログラムが記憶され、前記少なくとも1つのプログラムがプロセッサによってロード及び実行されて、上記の態様に記載のオーディオ符号化方法又はオーディオ復号化方法を実現する。
【0015】
本願の実施例は、コンピュータープログラム製品又はコンピュータープログラムを提供し、該コンピュータープログラム製品又はコンピュータープログラムは、コンピューター命令を含み、該コンピューター命令はコンピューター可読記憶媒体に記憶される。コンピューター機器のプロセッサは、コンピューター可読記憶媒体から該コンピューター命令を読み取り、プロセッサは該コンピューター命令を実行して、該コンピューター機器に、上記の選択可能な実現態様に提供されるオーディオ符号化方法又はオーディオ復号化方法を実行させる。
【0016】
本願の実施例によって提供される技術案は、以下の有益な効果を含むことができる。
【0017】
オーディオ符号化シーンでは、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、オーディオ特徴パラメータに基づいてオーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールする目的を実現し、各オーディオフレームのためにオーディオ特徴パラメータにマッチングするオーディオ符号化コードレートを決定することができ、それによってオーディオ全体の符号化品質を向上させる。関連技術における固定の符号化コードレートを使用することと比較して、動的な符号化コードレートを使用してオーディオ符号化を行うことは、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。
【0018】
以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本願を制限するものではないことを理解すべきである。
【図面の簡単な説明】
【0019】
【
図1】関連技術におけるオーディオ符号化のプロセス模式図である。
【
図2】本願の実施例による実施環境の模式図である。
【
図3】本願の実施例によるオーディオ符号化方法のフローチャートである。
【
図4】本願の実施例によるオーディオ符号化方法のフローチャートである。
【
図5】本願の実施例によるオーディオ符号化方法のフローチャートである。
【
図6】本願の実施例によるオーディオ符号化方法のフローチャートである。
【
図7】本願の実施例による完全なモデルのトレーニングプロセスの模式図である。
【
図8】本願の実施例によるオーディオ符号化方法のフローチャートである。
【
図9】本願の実施例によるオーディオ符号化方法のフローチャートである。
【
図10】本願の実施例によるオーディオ符号化プロセスの模式図である。
【
図11】本願の実施例によるオーディオ符号化装置の構造的ブロック図である。
【
図12】本願の実施例によるオーディオ符号化装置の構造的ブロック図である。
【
図13】本願の実施例によるコンピューター機器の構造的ブロック図である。
【発明を実施するための形態】
【0020】
以上の図面は明細書に組み込まれて本明細書の一部を構成し、本願と一致する実施例を示し、明細書と共に本願の原理を解釈することに用いられる。
【0021】
ここで、例示的な実施例を詳細に説明し、その例が図面に示される。下記の説明が図面に関わる場合、特に明記しない限り、異なる図面の同じ数字は、同様又は類似の要素を表す。以下の例示的な実施例で説明される実施形態は、本願と一致するすべての実施形態を表すものではない。逆に、それらは、添付された特許請求の範囲に詳述されたように、本願のいくつの態様と一致する装置及び方法の例にすぎない。
【0022】
理解を容易にするために、以下において、本願に係る名詞について解釈する。
1)オーディオ符号化:オーディオ符号化は、初めて収集されたオリジナルロスレスオーディオ信号に対して、オーディオモデルにより時間領域と周波数領域の冗長分析及び圧縮を行い、それによって音声伝送帯域幅とストレージ空間を低減させる同時に、良好なオーディオ品質を維持することである。オーディオエンコーダの入力パラメータは、サンプリングレート、チャネル数及び符号化コードレートなどを含み、ここで、オーディオ符号化の時に使用される符号化コードレートが大きいほど、音声符号化の品質がよくなるが、符号化コードストリームが占有する帯域幅が多くなり、オーディオ符号化後のオーディオファイルが占有するストレージ空間が大きくなる。
2)人工知能(AI:Artificial Intelligence)は、デジタルコンピューター又はデジタルコンピューターによって制御される機械を使用して、人間の知能をシミュレート、延伸、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。つまり、人工知能は、コンピューター科学の総合技術であり、知能の本質を理解し、人間の知能に似た方法で反応する新しい知能機械を生産しようとするものである。人工知能は、つまり、各種の知能機械の設計原理と実現方法を研究し、機械に感知、推理と決定の機能を持たせる。人工知能基礎技術は一般的に、例えばセンサー、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作/インタラクションシステム、機電一体化などの技術を含む。人工知能ソフトウェア技術は主にコンピュータービジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかのテーマを含む。
【0023】
本願の実施例は、主に人工知能の技術分野における機械学習の技術分野に関することを説明すべきである。
【0024】
図1を参照すると、
図1は関連技術におけるオーディオ符号化のプロセス模式図を示す。音声通話シーンにおけるオーディオ符号化を例として、往々にして音声通話が開始される前に、実験経験値に基づいてオーディオエンコーダに固定の符号化パラメータを予め設定し、送信端101が音声通話を開始するとき、現在の音声通話シーンに設定される符号化パラメータ104に基づいて、収集されたオリジナル音声103に対して音声符号化とチャネル符号化を行った後、符号化結果をインターネットを介して受信端102に伝送し、受信端102は、符号化結果に対してチャネル復号化及び音声復号化を行い、対応する声信号105を生成する。音声通話プロセス全体において、符号化パラメータ(符号化コードレート)は一般的に固定しており、パケットロス状態106に基づいて適切に調整されるだけである。
【0025】
明らかに、固定の符号化コードレートでオーディオ信号を符号化することは、音声信号自体が時変信号であり、異なる時刻、異なる音声信号の音声エンコーダ内部における圧縮プロセスに大きな差が存在するため、同じ符号化コードレートでは、異なる音声信号の符号化品質の差が大きく、音声符号化の品質を保証することができない。
【0026】
関連技術における問題について、本願の実施例は、オーディオ特徴パラメータに基づいてオーディオ符号化コードレートを動的に調整する方法(即ち、オーディオ符号化方法及びオーディオ復号化方法)を提供し、
図2を参照すると、
図2は本願の実施例による実施環境の模式図を示す。該実施環境は、第1端末210、サーバ220及び第2端末230を含むことができる。
【0027】
第1端末210にはインターネット通話技術をサポートするアプリケーションプログラムがインストール及び実行される。それは、スマートフォン、デスクトップコンピューター、タブレットコンピューター、マルチメディアプレーヤー、スマートウォッチ、スマートスピーカー、ラップトップコンピューターなどの電子機器であってもよい。ここで、該アプリケーションプログラムは、ソーシャル系プログラム、ライブ系プログラム、ショッピング系プログラム、ゲーム系プログラム、ビデオ系プログラム、オーディオ系プログラム、インスタントメッセージング系プログラムなどであってもよい。
【0028】
いくつかの実施例では、第1端末210に符号化コードレート予測モデルが記憶される。該符号化コードレート予測モデルは、オーディオ信号に対応するオーディオ特徴パラメータに基づいて、オーディオ符号化コードレートを動的にコントロールし、予測して得られたオーディオ符号化コードレートに基づいてオーディオ符号化を行い、符号化して得られたオーディオデータストリームを、サーバ220により第2端末230にプッシュすることができる。例えば、符号化後のオーディオデータをネットワークにより伝送する必要がある場合、オーディオデータをより良い品質で受信端(例えば、第2端末230)に伝送することができるようにするために、符号化コードレートを予測するときに、受信端によってフィードバックされたネットワーク状態パラメータを追加することができる。例えば、特定のシーン(該特定のシーンは、オーディオ及びビデオ通話のシーン、ライブシーンなどであってもよい)では符号化して得られたオーディオデータをネットワークにより受信端に伝送する必要がある以外、他の可能な応用シーンでは、符号化後のオーディオデータをネットワークにより伝送する必要がなく、ローカル又は他の記憶媒体に保存する必要だけがあり、対応して、オーディオ符号化コードレートを予測するときに、ネットワーク状態パラメータを考慮する必要もない。
【0029】
説明すべきこととして、第1端末210に予め記憶された符号化コードレート予測モデルは、他のコンピューター機器(図示せず)によってトレーニングされてもよく、該符号化コードレート予測モデルを第1端末210にプッシュし、第1端末210に、実際の適用プロセスで該符号化コードレート予測モデルに基づいてオーディオ符号化コードレートを動的に調整する目的を実現させることができる。例えば、該コンピューター機器は、第1端末210におけるアプリケーションプログラムに対応するバックグラウンドサーバであってもよい。
【0030】
ここで、第1端末210とサーバ220との間は、無線ネットワーク又は有線ネットワークを介して接続されてもよい。
【0031】
サーバ220は、第1端末210又は第2端末230におけるアプリケーションプログラム(例えば、ネットワーク通話を行うことができるアプリケーションプログラム)にバックグラウンドサービスを提供するように構成される。例えば、サーバ220は、上述のアプリケーションプログラムのバックグラウンドサーバであってもよい。サーバ220は、1つのサーバであってもよく、又は複数のサーバから構成されるサーバクラスタであってもよく、ここで、複数のサーバがブロックチェーンを形成することができ、サーバはブロックチェーン上のノード、又はクラウドコンピューティングサービスセンターである。本願の実施例では、サーバ220は、第1端末210からのオーディオデータストリームを受信し、該オーディオデータストリームを指示された第2端末230にプッシュすることができる。例えば、サーバ220は、第2端末230によってフィードバックされたネットワーク状態パラメータを受信し、第1端末210が該ネットワーク状態パラメータに基づいてオーディオ符号化コードレートを調整するように、該ネットワーク状態パラメータを第1端末210にフィードバックすることができる。
【0032】
ここで、第2端末230とサーバ220との間は、無線ネットワーク又は有線ネットワークを介して接続されてもよい。
【0033】
第2端末230にはインターネット通話技術をサポートするアプリケーションプログラムがインストール及び実行される。それは、スマートフォン、デスクトップコンピューター、タブレットコンピューター、マルチメディアプレーヤー、スマートウォッチ、スマートスピーカー、ラップトップコンピューターなどの電子機器であってもよい。ここで、該アプリケーションプログラムは、ソーシャル系プログラム、ライブ系プログラム、ショッピング系プログラム、ゲーム系プログラム、ビデオ系プログラム、オーディオ系プログラム、インスタントメッセージング系プログラムなどであってもよい。本実施例では、第2端末230は、第1端末210によって送信されたオーディオデータストリームを受信し、オーディオデータストリームを復号化し、伝送されたオーディオを呈することができる。例えば、第2端末230はネットワーク状態パラメータを第1端末210にフィードバックすることができ、第1端末210にネットワーク状態パラメータに基づいてオーディオ符号化コードレートを動的に調整させることができる。例えば、特定のシーン(該特定のシーンは、オーディオ及びビデオ通話のシーン、ライブシーンなどであってもよい)では符号化して得られたオーディオデータをネットワークにより受信端に伝送する必要がある以外、他の可能な応用シーンでは、符号化後のオーディオデータをネットワークにより伝送する必要がなく、ローカル又は他の記憶媒体に保存する必要だけがあり、対応して、オーディオ符号化コードレートを予測するときに、ネットワーク状態パラメータを考慮する必要もない。
【0034】
説明すべきこととして、本願の実施例におけるオーディオは、通話オーディオに限らず、録音、ライブオーディオ等であってもよい。ここで、上述の端末は、様々なタイプのアプリケーション、例えば、インスタントメッセージングアプリケーション、ビデオ再生アプリケーション、録音アプリケーション、ライブアプリケーションなどを含むことができる。
【0035】
いくつかの実施例では、上記のオーディオ符号化方法及びオーディオ復号化方法は、クラウドゲーム、音声通話、及びビデオ生放送などのシーンに適用されることに限定されない。
【0036】
図3を参照すると、
図3は、本願の実施例によるオーディオ符号化方法のフローチャートを示す。本願の実施例は、該方法が
図2に示す第1端末210に適用されることを例として説明し、該方法は、次のステップ301~303を含む。
【0037】
ステップ301において、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得する。
【0038】
オリジナルオーディオは、端末によって収集された音声であってもよく、概略的に、オリジナルオーディオは、ネットワーク音声通話シーン又はビデオ通話シーンで収集された声信号であってもよく、ライブシーンで収集された声信号であってもよく、オンラインカラオケシーンで収集された声信号であってもよく、音声放送シーンで収集された声信号であってもよい。例えば、オリジナルオーディオは、音声記憶シーンで取得されたオーディオであってもよく、概略的に、オリジナルオーディオは音声、音楽、ビデオなどであってもよく、本願の実施例は、オリジナルオーディオの形式に限定されない。
【0039】
オーディオのストレージと長距離伝送を容易にすることができるために、通常、取得したオリジナルオーディオに対してオーディオ符号化を行うことで、オーディオのストレージ空間を減少させ、又は長距離伝送によって消費されるトラフィック帯域幅を減少させる必要があり、関連技術では、オーディオ符号化を行うプロセスで、一般に、前期測定により異なる応用シーンに適用されるオーディオ符号化コードレートを得、それによって実際の適用プロセスでは、該オーディオ符号化コードレートを使用して、取得したオリジナルオーディオに対して符号化を行い、つまり、ある応用シーンにおけるすべてのオーディオについては、いずれも固定の符号化コードレートを使用する。音声信号を例として、音声信号自体は時変信号であり、固定の符号化コードレートを使用して異なる音声信号に対して符号化を行うと、異なる時刻、異なる音声信号のオーディオエンコーダ内部における圧縮品質に大きな差が明らかに存在し、音声符号化の品質を保証することができない可能性がある。
【0040】
本願の実施例では、オーディオ信号の特徴(可変性)を考慮して、オーディオ符号化品質を向上させるために、1つの可能な実施形態では、同じオリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、該オーディオ特徴パラメータに基づいて各オーディオフレームに対応するオーディオ符号化コードレートをそれぞれ予測して得、オーディオ符号化コードレートが異なるオーディオ特徴パラメータに基づいて動的にコントロールされ得るようにし、それによって各フレームのオーディオフレームがいずれも符号化品質要求に到達することができ、さらにオリジナルオーディオの符号化品質が向上する。
【0041】
例えば、オリジナルオーディオに対してオーディオフレームの分割を行う場合、設定された時間長に従って分割を行うことができ、概略的に、20msは1フレームのオーディオフレームである。
【0042】
例えば、オーディオ特徴パラメータは、固定ゲイン、適応ゲイン、ピッチ周期、及び線スペクトル対パラメータなどを含むことができ、本願の実施例では、固定ゲイン、適応ゲイン、ピッチ周期及び線スペクトル対パラメータに限定されない。
【0043】
ピッチ周期は、声門の隣接する2回の開閉の間の時間間隔又は開閉の周波数を反映するために使用される。概略的に、人が発音するとき、声帯が振動して濁音を生成する(清音は空気の摩擦によって生成される)。濁音の発音プロセスは次のとおりである。肺部からの気流が声門に当たり、声門の開閉を引き起こし、一連の準周期的な気流パルスを形成し、声道(口腔と鼻腔を含む)の共振と唇歯放射を経て、最終的に音声信号を形成する。したがって、濁音の波形は一定の準周期性を呈し、ピッチ周期はこのような準周期性にとってのものである。例えば、オーディオ信号に対応するピッチ周期を抽出する場合、自己相関法、ケプストラム法、平均振幅差関数法、線形予測法、ウェーブレット-自己相関関数法、スペクトル減-自己相関関数法などを採用することができる。概略的に、一般的に濁音は比較的高い符号化コードレートが必要であり(符号化コードレートは濁音コードレート閾値よりも大きい)、清音は比較的低い符号化コードレートが必要であるため(符号化コードレートは清音コードレート閾値よりも大きい)、異なる音声信号に対して、それを所定の符号化品質に到達させるために必要な符号化コードレートも異なり、対応して、符号化コードレート予測モデルをトレーニングするプロセスでは、オーディオフレームに対応するピッチ周期を抽出することにより、該ピッチ周期に対応するオーディオフレームに必要な符号化コードレートをさらに分析する。
【0044】
携帯電話などの機器で収集されたオリジナルオーディオは往々にして、時にはラウドネスが低く、時にはラウドネスが高く、音が大きくなったり小さくなったりすることをもたらし、リスナーの主観的な感覚に影響を与えるため、オーディオ符号化のプロセスでは、出力された声が人間の耳の主観的な感覚に適するように、入力された声に対して順方向又は負方向の調節を行う必要がある。該プロセスは、即ちオリジナルオーディオに対するゲインコントロールプロセスであり、異なる時刻の音声信号は、ラウドネスの高さの差により、対応する適応ゲインに差があり、オーディオフレームに対してゲインを行うプロセスでは、オーディオ信号におけるノイズ信号も同様に増加するが、オーディオ符号化の実質は、オーディオにおける冗長性(即ちノイズ信号)を減少させるためのものであり、明らかに、異なるゲインは該オーディオ信号の符号化コードレートに影響を与えるため、異なるオーディオフレームに対応するゲインに基づいてそれに対応する符号化コードレートを決定する必要がある。
【0045】
線スペクトル対パラメータは、オーディオ信号のスペクトル特徴を反映するために使用される。線スペクトル対パラメータは、誤差の相対的な独立性を持ち、つまり、ある周波数ポイントにおける線スペクトル対パラメータの偏差は、該周波数付近の音声スペクトルにのみ影響を与え、他の周波数における線スペクトル対パラメータ音声スペクトルにほとんど影響を与えない。このようにして、線スペクトル対パラメータの量子化と補間に有利であり、より小さな符号化コードレートで同じ品質の符号化オーディオを達成し、オーディオ信号に対応する線スペクトル対パラメータは符号化コードレートの決定に役立つことが分かる。
【0046】
例えば、対応するオーディオ特徴抽出モデルを設定し、オリジナルオーディオを該オーディオ特徴抽出モデルに入力し、オリジナルオーディオに含まれる各オーディオフレームに対してオーディオ特徴抽出を行い、それによって各フレームのオーディオフレームに対応するオーディオ特徴パラメータを出力することができる。
【0047】
例えば、オーディオ特徴パラメータは多くの特徴次元を含むため、オーディオ特徴抽出の効率を向上させるために、符号化結果に比較的大きな影響を与える(符号化結果の影響が影響閾値より大きい)N種類のオーディオ特徴次元における特徴パラメータをその中から選択することができ、対応して、該N種類のオーディオ特徴次元におけるオーディオ特徴パラメータのみを抽出する必要があり、ここで、Nは正の整数である。例えば、異なるオーディオ種類に対して、異なるオーディオ特徴抽出次元を設定することができる。
【0048】
ステップ302において、符号化コードレート予測モデルによりオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、オーディオフレームのオーディオ符号化コードレートを得る。
【0049】
ここで、符号化コードレート予測モデルは、目標符号化品質スコアを目標としてトレーニングされるため、該符号化コードレート予測モデルを符号化コードレート予測に適用するプロセスでは、各オーディオフレームに対応するオーディオ特徴パラメータに基づいて、オリジナルオーディオに対応するオーディオ符号化品質を目標符号化品質スコアに到達させる場合、各オーディオフレームに対応するオーディオ符号化コードレートを予測することができる。ここで、異なるオーディオ特徴パラメータは、異なるオーディオ符号化コードレートに対応する。
【0050】
ここで、端末に符号化コードレート予測モデルが設定され、該符号化コードレート予測モデルは、各オーディオフレームに対応するオーディオ特徴パラメータに基づいて、各オーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールすることができる。各フレームのオーディオフレームに対応するオーディオ特徴パラメータを該符号化コードレート予測モデルに入力し、それによって該オーディオフレームに対応するオーディオ符号化コードレートを得ることができ、後続で該オーディオ符号化コードレートに基づいてオーディオフレームに対してオーディオ符号化を行うことができるようにする。
【0051】
概略的に、符号化コードレート予測モデルのトレーニングプロセスについては、以下の実施例を参照することができ、本願の実施例は、ここで詳細に説明しない。
【0052】
ステップ303において、オーディオ符号化コードレートに基づいてオーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成する。
【0053】
いくつかの実施例では、異なるオーディオフレームに対応するオーディオ符号化コードレートを取得した後、該オーディオ符号化コードレートに基づいてオーディオフレームに対して符号化を行い、さらに各オーディオフレームに対応する符号化結果を組み合わせて、オリジナルオーディオに対応する目標オーディオデータを生成する。
【0054】
概略的に、オリジナルオーディオがオーディオフレーム1~オーディオフレーム50に分割されると、対応して、オーディオフレームに対応するオーディオ特徴パラメータは、オーディオ特徴パラメータ1~オーディオ特徴パラメータ50であり、各オーディオフレームに対応するオーディオ特徴パラメータをそれぞれ符号化コードレート予測モデルに入力し、オーディオフレームに対応する符号化コードレート(即ち、符号化コードレート1~符号化コードレート50)を得、次に、それぞれ各オーディオフレームに対応するオーディオ符号化コードレートに基づいてオーディオフレームに対してオーディオ符号化を行い、各オーディオフレームに対応するオーディオ符号化結果(オーディオ符号化結果1~オーディオ符号化結果50)を得、それによってオーディオ符号化結果1~オーディオ符号化結果50を組み合わせて、オリジナルオーディオに対応する目標オーディオデータを得る。
【0055】
本願の実施例のオーディオ符号化方法はパルス符号化変調(PCM:Pulse Code Modulation)符号化、波形オーディオファイル(WAV)符号化、MP3符号化等であってもよいことを説明すべきである。
【0056】
例えば、該目標オーディオデータは、端末に記憶されてもよく、ネットワークを介して他の機器に伝送されてもよい。例えば、特定のシーン(例えば、オーディオ及びビデオ通話のシーン、ライブシーンなど)では符号化して得られた目標オーディオデータをネットワークを介して受信端に伝送する必要があり、受信端は、オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより目標オーディオデータに対してオーディオ復号化を行い、復号化後の目標オーディオデータを得、復号化後の目標オーディオデータをロスレスに再生する。
【0057】
例えば、同じオリジナルオーディオに対して、いくつかの連続するオーディオフレーム間のオーディオ特徴の差は一般的に小さく、対応するオーディオ符号化コードレートの差も小さく、又は一般的に同じオーディオ符号化コードレートに対応し、符号化コードレート予測モデルによる偶発的な誤差がオーディオ符号化結果に影響を与えることを回避するために、取得された各オーディオフレームに対応するオーディオ符号化コードレートを平滑化することで、予測誤差がオーディオ符号化品質に与える影響を低減させることができる。
【0058】
以上から分かるように、本願の実施例では、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、オーディオ特徴パラメータに基づいてオーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールする目的を実現し、各オーディオフレームのためにオーディオ特徴パラメータにマッチングするオーディオ符号化コードレートを決定することができ、それによってオーディオ全体の符号化品質を向上させる。関連技術における固定の符号化コードレートを使用することと比較して、本願の実施例における動的な符号化コードレートを使用してオーディオ符号化を行うことは、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。
【0059】
符号化コードレート予測モデルがオーディオ符号化コードレートを動的にコントロールする目標を実現できるようにするために、予め大量のサンプルオーディオにより符号化コードレート予測モデルをトレーニングする必要があり、該符号化コードレート予測モデルに、異なるオーディオ特徴パラメータに対応するオーディオに適用されるオーディオ符号化コードレートを学習させることができ、適用プロセスでは、該符号化コードレート予測モデルに基づいてオーディオ符号化コードレートを動的にコントロールすることができるようにする。
【0060】
図4を参照すると、
図4は本願の実施例によるオーディオ符号化方法のフローチャートを示す。本願の実施例は、コンピューター機器を例として例示的な説明を行い、該方法は次のステップ401~405を含む。
【0061】
ステップ401において、第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する。
【0062】
説明すべきこととして、符号化コードレート予測モデルは、異なるオーディオ特徴パラメータに対応するオーディオ符号化コードレートをマッチングするために使用され、符号化コードレート予測モデルのトレーニングプロセスでは、符号化コードレート予測モデルをトレーニングするための、大量のサンプルオーディオ、及びサンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する必要がある。
【0063】
例えば、サンプルオーディオ特徴パラメータは、オーディオ特徴抽出モデルによって抽出され得る。
【0064】
例えば、符号化コードレート予測モデルがより多くの応用シーンに適用され得るようにするために、第1サンプルオーディオを取得するときに、異なる種類のオーディオ、例えば、音声、音楽、オーディオ及びビデオにおけるオーディオなどを取得することができる。
【0065】
概略的に、第1サンプルオーディオの数が多いほど、符号化コードレート予測モデルの予測正確度が高くなり、第1サンプルオーディオの種類が豊富であるほど、符号化コードレート予測モデルの予測範囲と予測正確度も高くなる。
【0066】
例えば、第1サンプルオーディオフレームを選択するときに、異なるタイプのオーディオを選択することができる以外、同じタイプのオーディオに対して、異なるオーディオコンテンツ、異なるオーディオ時間長のサンプルオーディオを選択することもできる。同じサンプルオーディオに対して、第1サンプルオーディオを、後続でオーディオ特徴パラメータを抽出するための、異なるオーディオフレームに分割することもできる。
【0067】
ステップ402において、符号化コードレート予測モデルによりサンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、サンプルオーディオフレームのサンプル符号化コードレートを得る。
【0068】
いくつかの実施例では、各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを符号化コードレート予測モデルに入力し、符号化コードレート予測モデルによって出力される各サンプルオーディオフレームに対応するサンプル符号化コードレートを得ることができる。
【0069】
例えば、符号化コードレート予測モデルは、全接続ネットワークをメインネットワークとして採用してもよく、ディープニューラルネットワーク(DNN:Deep Neural Networks)、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、再帰型ニューラルネットワーク(RNN:Recurrent Neural Networks)などのニューラルネットワークを採用してもよく、又は開発者が実際のニーズに基づいてニューラルネットワークを構築し、本願の実施例は符号化コードレート予測モデルの構造に限定されない。異なるサンプルオーディオ特徴パラメータは、異なるサンプル符号化コードレートに対応する。
【0070】
ステップ403において、サンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成する。
【0071】
符号化コードレート予測モデルが出力するサンプル符号化コードレート又はオーディオ符号化コードレートはオーディオ符号化シーンに対応するため、対応して、符号化コードレート予測モデルが出力する符号化コードレートがオーディオフレームにマッチングするかどうかを評価する場合、該サンプル符号化コードレートを使用してサンプルオーディオフレームに対してオーディオ符号化を行った後、さらにオーディオ符号化結果に基づいて、符号化コードレート予測モデルをトレーニングする根拠の1つとする必要がある。
【0072】
いくつかの実施例では、第1サンプルオーディオに対して、該第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプル符号化コードレートを取得し、各サンプルオーディオフレームに対応するサンプル符号化コードレートに基づいて、各サンプルオーディオフレームに対してオーディオ符号化を行い、それによって各フレームのサンプルオーディオフレームに対応する符号化結果に基づいて、第1サンプルオーディオに対応する今回の音声符号化品質を後続で評価するために、サンプルオーディオデータを生成する。
【0073】
ステップ404において、サンプルオーディオデータに対してオーディオ復号化を行い、サンプルオーディオデータに対応する第2サンプルオーディオを得る。
【0074】
音声符号化品質を評価するために、サンプルオーディオデータに対してオーディオ復号化を行うことで、サンプルオーディオデータに基づいて生成された第2サンプルオーディオを得、これにより第2サンプルオーディオとオリジナルサンプルオーディオとを比較することで、第1サンプルオーディオのオーディオ符号化品質を決定する。
【0075】
ステップ405において、第1サンプルオーディオと第2サンプルオーディオに基づいて、符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了する。
【0076】
ここで、サンプル符号化品質スコアは、第1サンプルオーディオと第2サンプルオーディオによって決定されるものである。
【0077】
いくつかの実施例では、オリジナルオーディオ(第1サンプルオーディオ)とオーディオ符号化及び復号化を行った後のオーディオ(第2サンプルオーディオ)とを比較することにより、今回の符号化パラメータに対応する符号化品質を決定し、それによって該符号化品質に基づいて符号化コードレート予測モデルの各パラメータを調整し、さらにいくつかのトレーニングサイクルにより符号化コードレート予測モデルのトレーニングプロセスを完了する。
【0078】
符号化コードレート予測モデルのトレーニングプロセスでは、符号化コードレート予測モデルによって出力される符号化コードレートを使用してサンプルオーディオに対してオーディオ符号化を行った後、サンプルオーディオのサンプル符号化品質スコアを目標符号化品質スコアに到達させる場合、符号化コードレート予測モデルのトレーニングプロセスが完了することを決定することができる。概略的に、該目標符号化品質スコアは5分であってもよい。例えば、実際の応用シーン要求に基づいて符号化コードレート予測モデルに対応する目標符号化品質スコアを設定することもできる。
【0079】
ここで、サンプル符号化品質を決定する方法については、主観的音声品質評価(PESQ:Perceptual Evaluation of Speech Quality)テスト方法を採用することができ、第1サンプルオーディオと第2サンプルオーディオに対応する差異値を計算し、さらに、平均オピニオン値(MOS:Mean Opinion Score)にマッピングすることによって、第1サンプルオーディオと第2サンプルオーディオの差異が大きいほど、対応する音声符号化品質は悪くなり、MOS値は低くなる。
【0080】
以上から分かるように、本願の実施例では、符号化コードレート予測モデルをトレーニングすることにより、符号化コードレート予測モデルがサンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータに基づいてオーディオ符号化コードレートを動的にコントロールすることができ、実際の応用プロセスでは、符号化コードレート予測モデルに基づいて予測して得られたオーディオ符号化コードレートを、よりオーディオ信号の特徴に一致させ、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。
【0081】
一節のオーディオについて、異なる時刻においていずれも変化するが、連続するマルチフレームのオーディオフレーム間の差は小さく、つまり、隣接するオーディオフレーム間のオーディオ特徴パラメータの差は小さく、現在のオーディオフレームに対応するオーディオ符号化コードレートを予測する場合。前フレームのオーディオフレームに対応するオーディオ符号化コードレートは、現在のオーディオフレームに対して一定の参照意義を持ち、オーディオ符号化コードレートの予測正確度をさらに向上させるために、前フレームのオーディオフレームに対応するオーディオ符号化コードレートを、次のフレームのオーディオフレームの符号化コードレート予測プロセスに再帰することができる。
【0082】
図5を参照すると、
図5は本願の実施例によるオーディオ符号化方法のフローチャートを示す。本願の実施例は、コンピューター機器を例として例示的な説明を行い、該方法は次のステップ501~507を含む。
【0083】
ステップ501において、第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する。
【0084】
ステップ501の実施方法については、ステップ401を参照することができ、本願の実施例は、ここで詳細に説明しない。
【0085】
例えば、サンプルオーディオ特徴パラメータは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含むことができる。
【0086】
ステップ502において、i-1フレーム目のサンプルオーディオフレームに対応するi-1番目のサンプル符号化コードレートを取得する。
【0087】
ここで、iは逓増する整数であり、且つ値の範囲が1<i≦Nであり、Nはサンプルオーディオフレームの数であり、Nは1より大きい整数である。
【0088】
いくつかの実施例では、前フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートを符号化コードレート予測モデルに再帰することによって、次のフレームのサンプルオーディオフレームに対応するサンプル符号化コードレートを予測する場合、前フレームのサンプル符号化コードレートを参照することができ、サンプル符号化コードレートの変動が大きい状況をできるだけ回避することができる。
【0089】
ステップ503において、符号化コードレート予測モデルにより、i番目のサンプルオーディオ特徴パラメータ及びi-1番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを得る。
【0090】
いくつかの実施例では、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを予測する場合、取得されたi-1フレーム目のサンプル符号化コードレート及びi番目のサンプルオーディオ特徴パラメータを、一緒に符号化コードレート予測モデルに入力し、i番目のサンプル符号化コードレートに予測根拠を提供することができ、符号化コードレートの予測正確度をさらに向上させることができる。
【0091】
概略的に、第1サンプルオーディオがサンプルオーディオフレーム1~サンプルオーディオフレーム60に分割されると、対応して、符号化コードレート予測プロセスでは、符号化コードレート予測モデルが10フレーム目のサンプルオーディオフレームに対応する10番目のサンプル符号化コードレートを出力する場合、11フレーム目のサンプルオーディオフレームに対応する11番目のサンプル符号化コードレートを予測するとき、10番目のサンプル符号化コードレート及び11番目のサンプルオーディオ特徴パラメータを、一緒に符号化コードレート予測モデルに入力し、11番目のサンプル符号化コードレートを得ることができる。
【0092】
ステップ504において、サンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成する。
【0093】
ステップ505において、サンプルオーディオデータに対してオーディオ復号化を行い、サンプルオーディオデータに対応する第2サンプルオーディオを得る。
【0094】
ステップ504及びステップ505の実施方法については、前述の実施例を参照することができ、本願の実施例は、ここで詳細に説明しない。
【0095】
ステップ506において、第1サンプルオーディオと第2サンプルオーディオに基づいて、第1サンプルオーディオに対応するサンプル符号化品質スコアを決定する。
【0096】
いくつかの実施例では、第1サンプルオーディオ及び第2サンプルオーディオに対してPESQテストを行い、さらに測定結果をMOS値にマッピングすることによって、該MOS値を第1サンプルオーディオに対応するサンプル符号化品質スコアとして決定する。
【0097】
概略的に、MOS値の値範囲は0~5であってもよく、ここで、MOS値が高いほど、オーディオ符号化品質が優れることを表す。
【0098】
ステップ507において、サンプル符号化品質スコアと目標符号化品質スコアに基づいて、符号化コードレート予測モデルをトレーニングする。
【0099】
ここで、目標符号化品質スコアは、オーディオ符号化の予期目標を示し、開発者によって設定され、符号化コードレート予測モデルの応用シーンに基づいて異なる目標符号化品質スコアを設定することができ、概略的に、符号化コードレート予測モデルが音声通話シーンに適用される場合、目標符号化品質スコアを4に設定することができ、符号化コードレート予測モデルがオーディオストレージシーンに適用される場合、目標符号化品質スコアを5に設定することができる。
【0100】
例えば、異なる目標符号化品質スコアに対して異なる符号化コードレート予測モデルをトレーニングすることもでき、これにより、実際の応用プロセスでは、目標符号化品質スコアに対する実際の応用シーンの要求に基づいて、対応する符号化コードレート予測モデルを選択することができる。
【0101】
いくつかの実施例では、サンプル符号化品質スコアを目標符号化品質スコアと比較することによって、今回の符号化結果と予期目標との間のギャップを決定し、さらに該オーディオギャップに基づいて符号化コードレート予測モデルをトレーニングし、それによって符号化コードレート予測モデルにおける各パラメータを更新する。
【0102】
オーディオ符号化プロセスでは、目標符号化品質スコアに加えて、符号化コードレートの選択も符号化品質を評価する指標の1つとすべきであり、概略的に、同じオーディオ信号に対して、符号化コードレートAと符号化コードレートBを使用していずれも同じ符号化品質を達成することができるが、符号化コードレートAは符号化コードレートBよりも小さく、符号化コードレートが大きいほど、より多くのストレージ空間とトラフィック帯域幅を消費する可能性があるため、符号化コードレートAと符号化コードレートBから比較的小さい符号化コードレートを決定する必要があり、対応して、モデルのトレーニングプロセスでは、符号化コードレートも符号化コードレート予測モデルの損失パラメータの1つとする。
【0103】
例示的に、符号化コードレート予測モデルをトレーニングするプロセスは、以下のステップをさらに含むことができる。
【0104】
ステップ1において、第1サンプルオーディオに対応する平均符号化コードレートを決定し、平均符号化コードレートは各フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートによって決定されるものである。
【0105】
本願の実施例では、オーディオ符号化プロセスにおいて、各フレームのサンプルオーディオフレームに対して、いずれも対応するサンプル符号化コードレートを予測し、比較的小さなサンプル符号化コードレートを達成することができるかどうかを評価するとき、各フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートに対して平均値を取り、平均符号化コードレートを求め、さらに該平均符号化コードレートを、オーディオ符号化品質を評価するパラメータの1つとして決定することができる。
【0106】
ステップ2において、平均符号化コードレート、サンプル符号化品質スコア及び目標符号化品質スコアに基づいて、第1サンプルオーディオに対応する第1符号化損失を構築する。
【0107】
いくつかの実施例では、符号化コードレート及び符号化品質スコアの2つのパラメータ次元を組み合わせることによって、第1サンプルオーディオに対応する符号化損失を共同で評価し、即ち平均符号化コードレート、サンプル符号化品質スコア、及び目標符号化品質スコアに基づいて、第1サンプルオーディオに対応する第1符号化損失を計算して得る。
【0108】
例えば、開発者は、応用シーンの要求に基づいて、2つのパラメータ次元における重みを自分で調整することができ、概略的に、音声通話シーンについて、符号化コードレートに比較的大きな重みを設定することができ、オーディオストレージシーンについて、符号化品質スコアに比較的大きな重みを設定することができる。
【0109】
例示的に、第1符号化損失を構築するプロセスは、以下のステップをさらに含むことができる。
【0110】
ステップ1において、平均符号化コードレートに対応する第1損失重み、及び符号化品質スコアに対応する第2損失重みを取得し、符号化品質スコアはサンプル符号化品質スコアと目標符号化品質スコアによって決定されるものである。
【0111】
いくつかの実施例では、符号化損失を計算するとき、平均符号化コードレート及び符号化品質スコアに対応する損失重みをそれぞれ取得し、さらに、各パラメータに対応する損失重みに基づいて第1符号化損失を計算して得ることができる。
【0112】
例えば、第1損失重み及び第2損失重みは、開発者によって設定される。符号化コードレート予測モデルの応用シーンの違いに基づいて、トレーニングして得られた符号化コードレート予測モデルがより該応用シーンの要求に適用されるように、異なる第1損失重みと第2損失重みをそれぞれ設定することができる。
【0113】
例えば、異なる損失重みの組み合わせに対して異なる符号化コードレート予測モデルをトレーニングすることもでき、さらに、実際の応用プロセスでは、異なる応用シーンの要求に対して、対応する符号化コードレート予測モデルを選択することができる。
【0114】
ステップ2において、平均符号化コードレート、第1損失重み、符号化品質スコア及び第2損失重みに基づいて、第1サンプルオーディオに対応する第1符号化損失を構築する。
【0115】
例示的に、第1符号化損失を計算する式は、次のように表すことができる。
【0116】
【0117】
ここで、aは値が0~1である重み係数(即ち、損失重み)を表し、average(.)は平均関数を求めることを表し、bitrateは符号化コードレートを表し、power(.)はべき乗関数を表し、MOS_SETは音声客観品質MOS分の所定の目標値(即ち、目標符号化品質スコア)を表し、mosはサンプル符号化品質スコアを表し、関数f(x)は、x≦0の場合、f(x)=0、x>0の場合、f(x)=xと定義される。
【0118】
いくつかの実施例では、平均符号化コードレート、第1損失重み、サンプル符号化品質スコア、目標符号化品質スコア、及び第2損失重みを上記の式に代入し、第1サンプルオーディオに対応する第1符号化損失を計算して得ることができる。
【0119】
ステップ3において、第1符号化損失と所定の符号化損失に基づいて、符号化コードレート予測モデルをトレーニングする。
【0120】
いくつかの実施例では、符号化コードレート予測モデルをトレーニングするプロセスにおいてクロスエントロピー(Cross-Entropy)準則を使用し、つまり、所定の符号化損失が予め設定され、第1符号化損失が所定の符号化損失に限りなく近い場合にのみ、符号化コードレート予測モデルのトレーニングが完了することを決定することができる。
【0121】
いくつかの実施例では、前フレームのサンプル符号化コードレートを符号化コードレート予測モデルに再帰することによって、次のフレームのサンプル符号化コードレートの予測のために一定の参照価値を提供することができ、それによって予測プロセスにおいて符号化コードレートの変動振幅が大きいことを回避し、さらに、符号化コードレートの予測正確度を向上させることができる。それ以外に、小さな符号化コードレートと良好な符号化品質を目標として符号化コードレート予測モデルをトレーニングし、これにより、符号化コードレート予測モデルが応用プロセスにおいて音声符号化コードレートを制御する場合、音声符号化品質が目標要求を満たす前提で符号化コードレートが最小であることを達成し、対応して、同等の帯域幅又はストレージ空間の条件で、オーディオ符号化品質が最もよくなることができる。
【0122】
特定の応用シーンでは、オーディオ符号化を行った後のオーディオデータを、ネットワークを介して他の端末に伝送する必要があり、例えば、音声通話シーンでは、符号化後の音声データを他のクライアントに伝送する必要があり、受信端が良いオーディオ信号を取得することができるかどうかは、符号化コードレートだけでなく、ネットワーク伝送プロセスのネットワーク環境状態にも依存するため、該特定のシーンにおいて受信端が品質の良いオーディオ信号を取得できるようにするために、オーディオ符号化コードレートを予測するプロセスでは、現在のネットワーク状態パラメータを考慮する必要もあり、対応して、モデルのトレーニングプロセスでは、ネットワーク状態パラメータもモデルトレーニングに参加する必要がある。
【0123】
例示的に、
図4に基づいて、
図6に示すように、ステップ402は、ステップ601及びステップ602によって置き換えられてもよい。
【0124】
ステップ601において、第1サンプルオーディオのサンプルネットワーク状態パラメータを取得する。
【0125】
符号化コードレート予測モデルをトレーニングする場合、予測されたオーディオ符号化コードレートを現在のネットワーク状態に適用するようにするために、ネットワーク状態パラメータを、符号化コードレート予測モデルをトレーニングするトレーニングサンプルに追加することもできる。概略的に、サンプルネットワーク状態パラメータは、パケットロス率、ネットワーク伝送速度などであってもよい。
【0126】
例えば、必要なサンプルネットワーク状態パラメータをランダムにシミュレートすることができる。概略的に、異なるサンプルオーディオに対して異なるサンプルネットワーク状態パラメータを生成し、又は異なるサンプルオーディオフレームに対して対応するサンプルネットワーク状態パラメータを生成し、又は所定の期間ごとに対応するサンプルネットワーク状態パラメータを生成することができる。
【0127】
対応して、サンプルオーディオフレームに対応するサンプル符号化コードレートを予測するとき、サンプルネットワーク状態パラメータ及び該サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを、共同で符号化コードレート予測モデルに入力し、符号化コードレートの予測を行うことができる。
【0128】
ステップ602において、符号化コードレート予測モデルにより、サンプルネットワーク状態パラメータ及びサンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、サンプルオーディオフレームのサンプル符号化コードレートを得る。
【0129】
いくつかの実施例では、サンプルオーディオフレームに対応するサンプル符号化コードレートを予測するとき、該サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得する必要がある以外、今回の予測に使用されるサンプルネットワーク状態パラメータを取得する必要もあり、サンプルネットワーク状態パラメータ及び該サンプルオーディオ特徴パラメータを、共同で符号化コードレート予測モデルに入力し、それによって符号化コードレート予測モデルによって出力されるサンプル符号化コードレートを得る。
【0130】
例えば、特定の応用シーンにおける符号化予測の正確度をさらに向上させるために、符号化コードレートを予測するプロセスでは、前フレームのサンプルオーディオフレームに対応するサンプル符号化コードレートを符号化コードレート予測モデルに再帰し、次のフレームのサンプルオーディオフレームに対応するサンプル符号化コードレートに予測参照を提供することもできる。
【0131】
いくつかの実施例では、サンプルネットワーク状態パラメータ、i-1番目のサンプル符号化コードレート(i-1フレーム目のサンプルオーディオフレームに対応する符号化コードレート)、及びi番目のサンプルオーディオ特徴パラメータを符号化コードレート予測モデルに入力することができ、ここで、サンプルネットワーク状態パラメータは現在のネットワーク状態参照を提供し、i-1番目のサンプル符号化コードレートは符号化コードレート予測参照を提供し、さらにi番目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを生成する。
【0132】
いくつかの実施例では、トレーニングプロセスにおいてネットワーク状態パラメータを追加することにより、符号化コードレート予測モデルが符号化コードレートを予測するときに、ネットワーク状態が符号化コードレートに与える影響を考慮することができ、特定のシーン(例えば、音声通話シーン)における対応するオーディオ符号化品質をさらに向上させる。
【0133】
図7を参照すると、
図7は本願の実施例による完全なモデルのトレーニングプロセスの模式図を示す。第1サンプル音声701に基づいて符号化コードレート予測モデル702をトレーニングするプロセスでは、第1サンプル音声701をいくつかのサンプルオーディオフレームに分割し、各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータ704、ネットワークパケットロスフラグ703を符号化コードレート予測モデル702に入力し、符号化コードレート予測モデル702が出力する現在のフレームの符号化コードレート705を得、該現在のフレームの符号化コードレート705は、音声符号化だけでなく、現在のフレームの符号化コードレート705を符号化コードレート予測モデル702に再帰して、次のフレームの符号化コードレートの予測にも用いられてもよく、各フレームのサンプルオーディオフレームに対応する符号化コードレートに基づいてオーディオ符号化を行い、オーディオ符号化結果を得、次に、音声符号化結果に対してオーディオ復号化を行った後、第2サンプル音声706を生成し、第1サンプル音声701及び第2サンプル音声706に対してPESQテストを行うことにより、続いてテスト結果に基づいて符号化コードレート予測モデル702をトレーニングする。
【0134】
例示的に、符号化コードレート予測モデル702は、全結合層(DENSE)及びゲートリカレントユニット(GRU)を含み、概略的に、GRU1のニューロンの数は24であり、DENSE2のニューロンの数は96であり、GRU2とGRU3のニューロンの数はいずれも256であり、DENSE3のニューロンの数は1である。ネットワークパケットロスフラグ703をDENSE1に入力し、ネットワーク状態特徴を抽出し、同時にサンプルオーディオ特徴パラメータ704を、オーディオ特徴を抽出するために、DENSE2に入力し、次にGRU2とGRU3により特徴融合を行い、DENSE3に入力し、DENSE3によって各所定の符号化コードレートの確率を出力し、さらに最も確率の高い所定の符号化コードレートを現在のサンプルオーディオフレームに対応する現在のフレームの符号化コードレートとして決定する。
【0135】
例えば、符号化コードレート予測モデル702は、他のネットワーク構造を採用することもでき、例えば、符号化コードレート予測モデル702は、全結合層のみを含む。
【0136】
モデルのトレーニングプロセスでは、前フレームの符号化コードレートをネットワークモデルに再帰して、次のフレームの符号化コードレートを予測する根拠とし、対応して、実際の応用プロセスでは、オーディオ符号化品質をさらに向上させるために、各フレームの符号化コードレート予測モデルによって出力されるオーディオ符号化コードレートをモデルに再帰し、次のフレームの符号化コードレートの予測のために参照を提供することもできる。
【0137】
図3に基づいて、
図8に示すように、ステップ302はステップ801及びステップ802によって置き換えられてもよい。
【0138】
ステップ801において、j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得する。
【0139】
ここで、jは逓増する整数であり、且つ値の範囲が1<j≦Mであり、Mはオーディオフレームの数であり、Mは1より大きい整数である。
【0140】
いくつかの実施例では、符号化コードレート予測モデルがj-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを予測した後、後続で該j-1番目のオーディオ符号化コードレートに基づいてj-1番目のオーディオフレームに対してオーディオ符号化を行うことに適用される以外、j-1番目のオーディオ符号化コードレートを符号化コードレート予測モデルに再入力して、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを予測するために参照根拠を提供することもできる。
【0141】
ステップ802において、符号化コードレート予測モデルにより、j-1番目のオーディオ符号化コードレート及びjフレーム目のオーディオフレームに対応するj番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを得る。
【0142】
いくつかの実施例では、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを予測するとき、j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得することができ、これによりj-1番目のオーディオ符号化コードレートとj番目のオーディオ特徴パラメータを、共同で符号化コードレート予測モデルに入力し、j-1番目のオーディオ符号化コードレートによってj番目のオーディオ符号化コードレートに予測根拠を提供し、さらに符号化コードレート予測モデルが出力するj番目のオーディオ符号化コードレートを得る。
【0143】
いくつかの実施例では、前フレームのオーディオ符号化コードレートを符号化コードレート予測モデルに再帰することによって、次のフレームのオーディオ符号化コードレートの予測のために参照の役割を果たすことができ、符号化コードレートの予測プロセスにおいてオーディオ符号化コードレートの変動振幅が大きいことを回避することができ、さらに、オーディオ符号化コードレートの予測正確度を向上させることができる。
【0144】
いくつかの特定の応用シーン、例えば、音声通話シーン、ライブシーンなどのオーディオデータをオンラインで伝送する必要があるシーンについて、ネットワーク状態が受信端によって受信される音声品質に影響を与えるため、該特定の応用シーンでは、ネットワーク状態が音声品質に与える影響を回避するために、オーディオ符号化コードレートを生成するときに現在のネットワーク状態の影響を考慮する必要がある。
【0145】
図3に基づいて、
図9に示すように、ステップ302はステップ901及びステップ902によって置き換えられてもよい。
【0146】
ステップ901において、受信端によってフィードバックされる現在のネットワーク状態パラメータを取得し、受信端は、ネットワークを介して伝送される目標オーディオデータを受信するために使用される。
【0147】
1つの可能な応用シーンでは、オーディオ符号化後の目標オーディオデータを、ネットワークを介して他の端末(即ち、受信端)に伝送する必要があり、ネットワーク状態もオーディオ符号化プロセスに一定の影響を与え、概略的に、ネットワーク状態が悪い場合、対応して比較的小さい符号化コードレートを採用し、ネットワーク状態が良好な場合、比較的大きな符号化コードレートを採用する。したがって、ネットワーク伝送に使用されるオーディオデータについて、符号化コードレートを予測するプロセスでは、受信端によってフィードバックされる現在のネットワーク状態パラメータも考慮する必要がある。
【0148】
ここで、該ネットワーク状態パラメータは受信端によって返されてもよく、ネットワーク状態パラメータがパケットロス率であることを例として、受信端は一定時間内のネットワークパケットロス率を統計し、該ネットワークパケットロス率を送信端に返すことにより、送信端が該パケットロス率を受信する場合、該パケットロス率をネットワーク状態パラメータとして符号化コードレート予測モデルに入力することができ、これにより、オーディオ符号化コードレートを予測するときに、現在のネットワーク状態を考慮することができる。
【0149】
概略的に、送信端末は設定時間ごとに受信端からネットワーク状態パラメータを取得してもよく、又は受信端は予定時間ごとにネットワーク状態パラメータを送信端末にフィードバックしてもよい。ここで、設定時間は30分(min)であってもよい。
【0150】
ステップ902において、符号化コードレート予測モデルにより、現在のネットワーク状態パラメータ及びオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、オーディオフレームのオーディオ符号化コードレートを得る。
【0151】
いくつかの実施例では、オーディオフレームに対応するオーディオ符号化コードレートを予測するときに、現在のネットワーク状態の影響を考慮して、取得された現在のネットワーク状態パラメータ及びオーディオフレームに対応するオーディオ特徴パラメータを符号化コードレート予測モデルに入力することができ、オーディオ符号化コードレートを予測するときに、現在のネットワーク状態という影響因子を両立させ、それによって符号化コードレート予測モデルによって出力されるオーディオ符号化コードレートを得る。
【0152】
送信端が該オーディオ符号化コードレートに基づいてオーディオを符号化し、符号化結果をネットワークを介して受信端に伝送した後、オーディオ符号化プロセスに使用されるオーディオ符号化コードレートは、現在のネットワーク状況を考慮したものであるため、受信端が良好なオーディオ信号を受信することを保証することができる。
【0153】
例えば、特定の応用シーンにおける符号化予測の正確度をさらに向上させるために、符号化コードレートを予測するプロセスでは、前フレームのオーディオフレームに対応するオーディオ符号化コードレートを符号化コードレート予測モデルに再帰し、次のフレームのオーディオフレームに対応するオーディオ符号化コードレートに予測参照を提供することもできる。
【0154】
いくつかの実施例では、ネットワーク状態パラメータ、j-1番目のオーディオ符号化コードレート(即ち、j-1番目のオーディオフレームに対応するオーディオ符号化コードレート)、及びj番目のオーディオ特徴パラメータを符号化コードレート予測モデルに入力することができ、ネットワーク状態パラメータによってj番目のオーディオ符号化コードレートにネットワーク状態参照を提供し、j-1番目のオーディオ符号化コードレートによってj番目のオーディオ符号化コードレートに符号化コードレート予測参照を提供し、さらに、符号化コードレート予測モデルによってj番目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを出力し、jは1より大きい整数である。
【0155】
いくつかの実施例では、オーディオ符号化コードレートを予測するプロセスでは、ネットワーク状態パラメータを追加することにより、符号化コードレート予測モデルは、符号化コードレートを予測するときに、ネットワーク状態が符号化コードレートに与える影響を考慮することができ、特定のシーン(例えば、音声通話シーン)における対応するオーディオ符号化品質をさらに向上させる。
【0156】
図10を参照すると、
図10は本願の実施例によるオーディオ符号化プロセスの模式図を示す。モデルの応用プロセスでは、ネットワークパケットロスフラグ1001(即ち、ネットワーク状態パラメータ)とオーディオ特徴パラメータ1002を符号化コードレート予測モデル1003に入力し、それによって現在のフレームの符号化コードレート1004を出力することができる。例えば、現在のフレームの符号化コードレート1004を符号化コードレート予測モデルに入力し、次のフレームの符号化コードレートを予測するために参照根拠を提供することができ、さらに各フレームのオーディオフレームに対応するオーディオ符号化コードレートに基づいてオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいてオリジナルオーディオに対応するオーディオ符号化データを生成する。
【0157】
図11を参照すると、
図11は本願の実施例によるオーディオ符号化装置の構造的ブロック図を示す。該オーディオ符号化装置は、ソフトウェア、ハードウェア、又は両者の組み合わせによってコンピューター機器の全部又は一部として実現されてもよい。該オーディオ符号化装置は、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュール1101と、符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュール1102と、前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュール1103と、前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュール1104と、前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュール1105であって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、トレーニングモジュール1105と、を備えてもよい。
【0158】
いくつかの実施例では、前記オーディオ符号化装置は、さらに、前記第1サンプルオーディオのサンプルネットワーク状態パラメータを取得するように構成される第2取得モジュール1105を備え、前記第1処理モジュール1102は、前記符号化コードレート予測モデルにより前記サンプルネットワーク状態パラメータ及び前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理ユニットを備える。
【0159】
いくつかの実施例では、前記オーディオ符号化装置は、さらに、i-1フレーム目のサンプルオーディオフレームに対応するi-1番目のサンプル符号化コードレートを取得するように構成される第3取得モジュールを備え、
前記第1処理モジュール1102は、前記符号化コードレート予測モデルによりi番目のサンプルオーディオ特徴パラメータ及び前記i-1番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを得るように構成される第2処理ユニットを備え、iは逓増する整数であり、且つ値の範囲が1<i≦Nであり、Nは前記サンプルオーディオフレームの数であり、Nは1より大きい整数である。
【0160】
いくつかの実施例では、前記トレーニングモジュール1105は、前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記第1サンプルオーディオに対応する前記サンプル符号化品質スコアを決定するように構成される決定ユニットと、前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングするように構成されるトレーニングユニットと、を備える。
【0161】
いくつかの実施例では、前記トレーニングユニットは、さらに、前記第1サンプルオーディオに対応する平均符号化コードレートを決定し、前記平均符号化コードレートは各フレームのサンプルオーディオフレームに対応する前記サンプル符号化コードレートによって決定されるものであり、前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築し、前記第1符号化損失と所定の符号化損失に基づいて、前記符号化コードレート予測モデルをトレーニングするように構成される。
【0162】
いくつかの実施例では、前記トレーニングユニットは、さらに、前記平均符号化コードレートに対応する第1損失重み、及び符号化品質スコアに対応する第2損失重みを取得し、前記符号化品質スコアは前記サンプル符号化品質スコアと前記目標符号化品質スコアによって決定されるものであり、前記平均符号化コードレート、前記第1損失重み、前記符号化品質スコア及び前記第2損失重みに基づいて、前記第1サンプルオーディオに対応する前記第1符号化損失を構築するように構成される。
【0163】
いくつかの実施例では、前記サンプルオーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む。
【0164】
以上から分かるように、本願の実施例では、符号化コードレート予測モデルをトレーニングするプロセスにおいて、サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを分析することにより、サンプルオーディオ特徴パラメータに基づいて各フレームのサンプルオーディオフレームに対応するサンプルオーディオ符号化コードレートを予測し、さらに各フレームに対応するサンプル符号化コードレートに基づいてサンプルオーディオフレームに対してオーディオ符号化を行い、オーディオ符号化結果に対してオーディオ復号化を行った後、オーディオ復号化後のオーディオとオリジナルオーディオとの間の関係を比較して、符号化コードレート予測モデルをトレーニングし、実際の応用プロセスでは、符号化コードレート予測モデルに、オーディオ特徴パラメータに基づいてオーディオ符号化コードレートを動的にコントロールすることができる機能を持たせ、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。
【0165】
図12を参照すると、
図12は本願の実施例によるオーディオ符号化装置の構造的ブロック図を示す。該オーディオ符号化装置は、ソフトウェア、ハードウェア、又は両者の組み合わせによってコンピューター機器の全部又は一部として実現されてもよい。該オーディオ符号化装置は、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュール1201と、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュール1202であって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュール1202と、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュール1203と、を備えてもよい。
【0166】
いくつかの実施例では、前記目標オーディオデータはネットワーク伝送に使用され、
前記オーディオ符号化装置は、さらに、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するように構成される第5取得モジュールであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、第5取得モジュールを備え、前記第2処理モジュール1202は、前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第3処理ユニットを備える。
【0167】
いくつかの実施例では、前記オーディオ符号化装置は、さらに、
j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得するように構成される第6取得モジュールを備え、前記第2処理モジュール1202は、前記符号化コードレート予測モデルにより前記j-1番目のオーディオ符号化コードレート及びjフレーム目のオーディオフレームに対応するj番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを得るように構成される第4処理ユニットを備え、ここで、jは逓増する整数であり、且つ値の範囲が1<j≦Mであり、Mは前記オーディオフレームの数であり、Mは1より大きい整数である。
【0168】
いくつかの実施例では、前記オーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む。
【0169】
以上から分かるように、本願の実施例では、オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを分析することにより、オーディオ特徴パラメータに基づいてオーディオフレームに対応するオーディオ符号化コードレートを動的にコントロールする目的を実現し、各オーディオフレームのためにオーディオ特徴パラメータにマッチングするオーディオ符号化コードレートを決定することができ、それによってオーディオ全体の符号化品質を向上させる。関連技術における固定の符号化コードレートを使用することと比較して、本実施例における動的な符号化コードレートを使用してオーディオ符号化を行うことは、オーディオ符号化品質が目標要求を満たすと同時に、オーディオ符号化コードレートをできるだけ小さくすることができ、さらにオーディオデータのストレージ空間を低減させ、オーディオデータを伝送するプロセスにおける帯域幅の消費を減少させることができる。
【0170】
本願の実施例は、オーディオ復号化装置をさらに提供し、該オーディオ復号化装置は、ソフトウェア、ハードウェア、又は両者の組み合わせによってコンピューター機器の全部又は一部として実現されてもよい。該オーディオ復号化装置は、
符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備えてもよい。
【0171】
図13を参照すると、
図13は本願の実施例によるコンピューター機器の構造的ブロック図を示す。該コンピューター機器は、上記の実施例で提供されるオーディオ符号化方法又はオーディオ復号化方法を実施するために使用されてもよい。具体的に、
前記コンピューター機器1300は、中央処理ユニット(CPU:Central Processing Unit)1301、ランダムアクセスメモリ(RAM:Random Access Memory)1302及び読み取り専用メモリ(ROM:Read-Only Memory)1303を含むシステムメモリ1304、及びシステムメモリ1304と中央処理ユニット1301とを接続するシステムバス1305を含む。前記コンピューター機器1300は、コンピューター機器内の各デバイス間の情報伝送を支援する基本入力/出力システム(I/Oシステム:Input/Outputシステム)1306と、オペレーティングシステム1313、アプリケーションプログラム1314及び他のプログラムモジュール1315を記憶するための大容量記憶装置1307とをさらに含む。
【0172】
前記基本入力/出力システム1306は、情報を表示するためのディスプレイ1308と、ユーザが情報を入力するためのマウス、キーボードなどの入力装置1309とを含む。ここで、前記ディスプレイ1308と入力装置1309は共に、システムバス1305に接続される入出力コントローラ1310を介して中央処理ユニット1301に接続される。前記基本入力/出力システム1306は、キーボード、マウス、又は電子スタイラスなどの複数の他のデバイスからの入力を受信及び処理するための入出力コントローラ1310をさらに含むことができる。同様に、入出力コントローラ1310は、ディスプレイスクリーン、プリンタ、又は他のタイプに出力する出力装置をさらに提供する。
【0173】
前記大容量記憶装置1307は、システムバス1305に接続される大容量記憶コントローラ(図示せず)を介して中央処理ユニット1301に接続される。前記大容量記憶装置1307及びそれに関連するコンピューター可読記憶媒体は、コンピューター機器1300に不揮発性記憶を提供する。つまり、前記大容量記憶装置1307は、ハードディスク又はコンパクトディスク読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)ドライブなどのコンピューター可読記憶媒体(図示せず)を含むことができる。
【0174】
一般的に、前記コンピューター可読記憶媒体は、コンピューター記憶媒体及び通信媒体を含むことができる。コンピューター記憶媒体は、コンピューター可読記憶命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するためのいかなる方法又は技術によって実現される、揮発性及び不揮発性、移動可能及び移動不可な媒体を含む。コンピューター記憶媒体は、RAM、ROM、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read Only Memory)、電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM:Electrically-Erasable Programmable Read-Only Memory)、フラッシュメモリ又は他のソリッドステートストレージ技術、CD-ROM、デジタル多機能ディスク(DVD:Digital Versatile Disc)又は他の光学ストレージ、テープカートリッジ、磁気テープ、磁気ディスクストレージ又は他の磁気記憶装置を含む。当然ながら、当業者は、前記コンピューター記憶媒体が上述のものに限定されないことを分かる。上述のシステムメモリ1304及び大容量記憶装置1307は、総称してメモリということができる。
【0175】
メモリは1つ又は複数のプログラムが記憶され、1つ又は複数のプログラムは1つ又は複数の中央処理ユニット1301によって実行されるように構成され、1つ又は複数のプログラムは、上述の方法の実施例を実現するための命令を含み、中央処理ユニット1301は、該1つ又は複数のプログラムを実行して、上述の各方法の実施例によって提供される方法を実現する。
【0176】
本願の様々な実施例によれば、前記コンピューター機器1300は、インターネットなどのネットワークを介してネットワーク上のリモートサーバに接続して実行することもできる。即ち、コンピューター機器1300は、前記システムバス1305に接続されるネットワークインターフェースユニット1311を介してネットワーク1312に接続することができ、又は、ネットワークインターフェースユニット1311を使用して、他のタイプのネットワーク又はリモートサーバシステム(図示せず)に接続することもできる。
【0177】
前記メモリはさらに、1つ又は1つ以上のプログラムを含み、前記1つ又は1つ以上のプログラムはメモリに記憶され、前記1つ又は1つ以上のプログラムは、本願の実施例によって提供される方法を実行するためにコンピューター機器によって実行されるステップを含む。
【0178】
本願の実施例は、コンピューター可読記憶媒体を提供し、該コンピューター可読記憶媒体に少なくとも1つの命令が記憶され、前記少なくとも1つの命令がプロセッサによってロード及び実行されて、上記の各実施例に記載のオーディオ符号化方法又はオーディオ復号化方法を実現する。
【0179】
本願の実施例は、コンピュータープログラム製品又はコンピュータープログラムを提供し、該コンピュータープログラム製品又はコンピュータープログラムは、コンピューター命令を含み、該コンピューター命令はコンピューター可読記憶媒体に記憶される。コンピューター機器のプロセッサは、コンピューター可読記憶媒体から該コンピューター命令を読み取り、プロセッサは該コンピューター命令を実行して、該コンピューター機器に、上記の選択可能な実現態様に提供されるオーディオ符号化方法又はオーディオ復号化方法を実行させる。
【0180】
当業者は、明細書を考慮し、本明細書に開示された発明を実践した後に、本願の他の実施方案を容易に想到し得る。本願は、本願のいかなる変形、用途又は適応変化を網羅することを意図し、これらの変形、用途又は適応変化は、本願の一般的原理に準拠し、本願によって開示されない本技術分野における公知知識又は慣用技術手段を含む。明細書と実施例は、単なる例示と見なされ、本願の真の範囲及び精神は下記の特許請求の範囲によって指摘される。
【0181】
理解すべきこととして、本願は、上記に既に説明し且つ図面に示した正確な構造に限定されるものではなく、その範囲から逸脱しなく様々な修正及び変更を行うことができる。本願の範囲は、添付の特許請求の範囲のみによって制限される。
【符号の説明】
【0182】
101 送信端
102 受信端
103 オリジナル音声
104 設定される符号化パラメータ
105 声信号
106 パケットロス状態
210 第1端末
220 サーバ
230 第2端末
701 第1サンプル音声
702 符号化コードレート予測モデル
703 ネットワークパケットロスフラグ
704 サンプルオーディオ特徴パラメータ
705 現在のフレームの符号化コードレート
706 第2サンプル音声
1001 ネットワークパケットロスフラグ
1002 オーディオ特徴パラメータ
1003 符号化コードレート予測モデル
1004 現在のフレームの符号化コードレート
1101 第1取得モジュール
1102 第1処理モジュール
1103 第1符号化モジュール
1104 オーディオ復号化モジュール
1105 トレーニングモジュール
1201 第4取得モジュール
1202 第2処理モジュール
1203 第2符号化モジュール
1300 コンピューター機器
1301 中央処理ユニット
1302 ランダムアクセスメモリ
1303 読み取り専用メモリ
1304 システムメモリ
1305 システムバス
1306 入力/出力システム
1307 大容量記憶装置
1308 ディスプレイ
1309 入力装置
1310 入出力コントローラ
1311 ネットワークインターフェースユニット
1312 ネットワーク
1313 オペレーティングシステム
1314 アプリケーションプログラム
1315 他のプログラムモジュール
【手続補正書】
【提出日】2023-06-21
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピューター機器が実行する、オーディオ符号化方法であって、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するステップと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るステップと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するステップであって、前記サンプル符号化品質スコアは、前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、ステップと、を含む、
オーディオ符号化方法。
【請求項2】
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
前記第1サンプルオーディオのサンプルネットワーク状態パラメータを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記サンプルネットワーク状態パラメータ及び前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るステップを含む、
請求項1に記載のオーディオ符号化方法。
【請求項3】
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前に、前記オーディオ符号化方法は、
i-1フレーム目のサンプルオーディオフレームに対応するi-1番目のサンプル符号化コードレートを取得するステップをさらに含み、
前記符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルによりi番目のサンプルオーディオ特徴パラメータ及び前記i-1番目のサンプル符号化コードレートに対して符号化コードレート予測処理を行い、iフレーム目のサンプルオーディオフレームに対応するi番目のサンプル符号化コードレートを得るステップを含み、
iは逓増する整数であり、且つ値の範囲が1<i≦Nであり、Nは前記サンプルオーディオフレームの数であり、Nは1より大きい整数である、
請求項1に記載のオーディオ符号化方法。
【請求項4】
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記第1サンプルオーディオに対応する前記サンプル符号化品質スコアを決定するステップと、
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項1から3のいずれか一項に記載のオーディオ符号化方法。
【請求項5】
前記サンプル符号化品質スコアと前記目標符号化品質スコアに基づいて、前記符号化コードレート予測モデルをトレーニングする前記ステップは、
前記第1サンプルオーディオに対応する平均符号化コードレートを決定するステップであって、前記平均符号化コードレートは各フレームのサンプルオーディオフレームに対応する前記サンプル符号化コードレートによって決定されるものである、ステップと、
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築するステップと、
前記第1符号化損失と所定の符号化損失に基づいて、前記符号化コードレート予測モデルをトレーニングするステップと、を含む、
請求項4に記載のオーディオ符号化方法。
【請求項6】
前記平均符号化コードレート、前記サンプル符号化品質スコア及び前記目標符号化品質スコアに基づいて、前記第1サンプルオーディオに対応する第1符号化損失を構築する前記ステップは、
前記平均符号化コードレートに対応する第1損失重み、及び符号化品質スコアに対応する第2損失重みを取得するステップであって、前記符号化品質スコアは前記サンプル符号化品質スコアと前記目標符号化品質スコアによって決定されるものである、ステップと、
前記平均符号化コードレート、前記第1損失重み、前記符号化品質スコア及び前記第2損失重みに基づいて、前記第1サンプルオーディオに対応する前記第1符号化損失を構築するステップと、を含む、
請求項5に記載のオーディオ符号化方法。
【請求項7】
前記サンプルオーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む、
請求項1から3のいずれか一項に記載のオーディオ符号化方法。
【請求項8】
コンピューター機器が実行する、オーディオ符号化方法であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するステップと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、ステップと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するステップと、を含む、
オーディオ符号化方法。
【請求項9】
前記目標オーディオデータはネットワーク伝送に使用され、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
受信端によってフィードバックされる現在のネットワーク状態パラメータを取得するステップであって、前記受信端はネットワークを介して伝送される目標オーディオデータを受信するために使用される、ステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記現在のネットワーク状態パラメータ及び前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るステップを含む、
請求項8に記載のオーディオ符号化方法。
【請求項10】
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前に、前記オーディオ符号化方法は、
j-1フレーム目のオーディオフレームに対応するj-1番目のオーディオ符号化コードレートを取得するステップをさらに含み、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得る前記ステップは、
前記符号化コードレート予測モデルにより前記j-1番目のオーディオ符号化コードレート及びjフレーム目のオーディオフレームに対応するj番目のオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、jフレーム目のオーディオフレームに対応するj番目のオーディオ符号化コードレートを得るステップを含み、
jは逓増する整数であり、且つ値の範囲が1<j≦Mであり、Mは前記オーディオフレームの数であり、Mは1より大きい整数である、
請求項8に記載のオーディオ符号化方法。
【請求項11】
前記オーディオ特徴パラメータのタイプは、固定ゲイン、適応ゲイン、ピッチ周期、ピッチ周波数及び線スペクトル対パラメータのうちの少なくとも1つを含む、
請求項8から10のいずれか一項に記載のオーディオ符号化方法。
【請求項12】
コンピューター機器が実行する、オーディオ復号化方法であって、前記オーディオ復号化方法は、請求項8から11のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータに適用され、
前記オーディオ復号化方法は、
前記符号化された後の目標オーディオデータを取得するステップと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るステップと、を含む、
オーディオ復号化方法。
【請求項13】
オーディオ符号化装置であって、
第1サンプルオーディオにおける各サンプルオーディオフレームに対応するサンプルオーディオ特徴パラメータを取得するように構成される第1取得モジュールと、
符号化コードレート予測モデルにより前記サンプルオーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記サンプルオーディオフレームのサンプル符号化コードレートを得るように構成される第1処理モジュールと、
前記サンプル符号化コードレートに基づいて前記サンプルオーディオフレームに対してオーディオ符号化を行い、各フレームのサンプルオーディオフレームに対応する符号化結果に基づいてサンプルオーディオデータを生成するように構成される第1符号化モジュールと、
前記サンプルオーディオデータに対してオーディオ復号化を行い、前記サンプルオーディオデータに対応する第2サンプルオーディオを得るように構成されるオーディオ復号化モジュールと、
前記第1サンプルオーディオと前記第2サンプルオーディオに基づいて、前記符号化コードレート予測モデルをトレーニングし、サンプル符号化品質スコアが目標符号化品質スコアに到達するとトレーニングを終了するように構成されるトレーニングモジュールであって、前記サンプル符号化品質スコアは前記第1サンプルオーディオと前記第2サンプルオーディオによって決定されるものである、トレーニングモジュールと、を備える、
オーディオ符号化装置。
【請求項14】
オーディオ符号化装置であって、
オリジナルオーディオにおける各オーディオフレームに対応するオーディオ特徴パラメータを取得するように構成される第4取得モジュールと、
符号化コードレート予測モデルにより前記オーディオ特徴パラメータに対して符号化コードレート予測処理を行い、前記オーディオフレームのオーディオ符号化コードレートを得るように構成される第2処理モジュールであって、前記符号化コードレート予測モデルは、目標符号化品質スコアに到達するときに各前記オーディオフレームに対応するオーディオ符号化コードレートを予測するために使用される、第2処理モジュールと、
前記オーディオ符号化コードレートに基づいて前記オーディオフレームに対してオーディオ符号化を行い、各フレームのオーディオフレームに対応する符号化結果に基づいて目標オーディオデータを生成するように構成される第2符号化モジュールと、を備える、
オーディオ符号化装置。
【請求項15】
オーディオ復号化装置であって、
請求項8から11のいずれか一項に記載のオーディオ符号化方法によって符号化された後の目標オーディオデータを取得するように構成される第5取得モジュールと、
オーディオ符号化コードレートに対応するオーディオ復号化コードレートにより前記符号化された後の目標オーディオデータに対してオーディオ復号化を行い、復号化後の前記目標オーディオデータを得るように構成される復号化モジュールと、を備える、
オーディオ復号化装置。
【請求項16】
コンピューター機器であって、
少なくとも1つのプログラムを記憶するメモリと、
前記少なくとも1つのプログラムをロード及び実行して、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実現し、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実現し、又は請求項12に記載のオーディオ復号化方法を実現するプロセッサと、を含む、
コンピューター機器。
【請求項17】
コンピューターに、請求項1から7のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項8から11のいずれか一項に記載のオーディオ符号化方法を実行させ、又は請求項12に記載のオーディオ復号化方法を実行させ
る、コンピュータープログラ
ム。
【国際調査報告】