(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-17
(54)【発明の名称】オーディオ符号化方法および装置
(51)【国際特許分類】
G10L 19/002 20130101AFI20221110BHJP
G10L 25/30 20130101ALI20221110BHJP
【FI】
G10L19/002
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022517444
(86)(22)【出願日】2020-09-14
(85)【翻訳文提出日】2022-04-28
(86)【国際出願番号】 CN2020115123
(87)【国際公開番号】W WO2021052293
(87)【国際公開日】2021-03-25
(31)【優先権主張番号】201910883038.0
(32)【優先日】2019-09-18
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133569
【氏名又は名称】野村 進
(72)【発明者】
【氏名】王 卓
(72)【発明者】
【氏名】王 萌
(72)【発明者】
【氏名】范 泛
(57)【要約】
オーディオ符号化方法および装置が提供される。オーディオ符号化方法は、第1のオーディオデータを取得するステップと、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得するステップであって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ステップと、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップと、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するステップとを含む。ブルートゥース(登録商標)チャネルの状態に適応的に適合され得、オーディオ品質が最大限に保証されるとき、連続的なオーディオ聴取体験が提供される。
【特許請求の範囲】
【請求項1】
第1のオーディオデータを取得するステップと、
ターゲットビットレートおよびブルートゥースパケットタイプを取得するステップであって、前記ターゲットビットレートおよび前記ブルートゥースパケットタイプはブルートゥースチャネルの現在の状態に対応する、ステップと、
前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップであって、前記ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、前記心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、前記スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される、ステップと、
送信されるべきビットストリームを取得するために、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上に基づいて前記第1のオーディオデータを符号化するステップと
を含むオーディオ符号化方法。
【請求項2】
前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得する前記ステップは、
第1の特徴ベクトルを取得するために前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに対して特徴抽出を実行するステップと、
前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上を取得するために前記第1の特徴ベクトルを前記ニューラルネットワークに入力するステップと
を含む、請求項1に記載の方法。
【請求項3】
前記ブルートゥースパケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む、請求項1または2に記載の方法。
【請求項4】
前記ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
第1のオーディオデータを取得する前記ステップの前に、前記方法は、
前記ニューラルネットワークの訓練データセットを構築するステップであって、前記訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、前記第1の値の組み合わせは、前記オーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプの複数の値の組み合わせのうちのいずれか1つであり、前記第2の値の組み合わせは、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせは、複数のODGグレードに対応し、前記第2の値の組み合わせは、最も高いODGグレードに対応する、ステップと、
前記訓練データセットに基づく訓練によって前記ニューラルネットワークを取得するステップと
をさらに含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークの訓練データセットを構築する前記ステップは、
複数のオーディオデータを取得するステップと、
前記第1の値の組み合わせにおける前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化するステップであって、前記第2のオーディオデータは、前記複数のオーディオデータのうちのいずれか1つである、ステップと、
符号化結果に基づいて前記複数のODGグレードを取得するステップと、
前記複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを前記第2の値の組み合わせとして決定するステップと、
前記第1の値の組み合わせおよび前記第2の値の組み合わせを前記訓練データセットに追加するステップと
を含む、請求項5に記載の方法。
【請求項7】
第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥースパケットタイプを取得し、前記ターゲットビットレートおよび前記ブルートゥースパケットタイプはブルートゥースチャネルの現在の状態に対応する、ように構成された入力モジュールと、
前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得し、前記ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、前記心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、前記スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される、ように構成されたパラメータ取得モジュールと、
送信されるべきビットストリームを取得するために、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上に基づいて前記第1のオーディオデータを符号化するように構成された符号化モジュールと
を備えるオーディオ符号化装置。
【請求項8】
前記パラメータ取得モジュールは、第1の特徴ベクトルを取得するために前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに対して特徴抽出を実行し、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上を取得するために前記第1の特徴ベクトルを前記ニューラルネットワークに入力するように特に構成されている、請求項7に記載の装置。
【請求項9】
前記ブルートゥースパケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む、請求項7または8に記載の装置。
【請求項10】
前記ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される、請求項7から9のいずれか一項に記載の方法。
【請求項11】
前記パラメータ取得モジュールは、前記ニューラルネットワークの訓練データセットを構築し、前記訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、前記第1の値の組み合わせは、前記オーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプの複数の値の組み合わせのうちのいずれか1つであり、前記第2の値の組み合わせは、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせは、複数のODGグレードに対応し、前記第2の値の組み合わせは、最も高いODGグレードに対応し、前記訓練データセットに基づく訓練によって前記ニューラルネットワークを取得するようにさらに構成されている、請求項7から10のいずれか一項に記載の装置。
【請求項12】
前記パラメータ取得モジュールは、複数のオーディオデータを取得し、前記第1の値の組み合わせにおける前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、前記第2のオーディオデータは、前記複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて前記複数のODGグレードを取得し、前記複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを前記第2の値の組み合わせとして決定し、前記第1の値の組み合わせおよび前記第2の値の組み合わせを前記訓練データセットに追加するように特に構成されている、請求項11に記載の装置。
【請求項13】
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するように構成されたメモリと
を備え、前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実施することが可能である、
端末デバイス。
【請求項14】
コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムがコンピュータ上で実行されるとき、前記コンピュータは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実行することが可能である、コンピュータ可読記憶媒体。
【請求項15】
コンピュータプログラム製品であって、前記コンピュータプログラム製品はコンピュータプログラムコードを含み、前記コンピュータプログラムコードがコンピュータ上で実行されるとき、前記コンピュータは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実行することが可能である、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年9月18日に中国国家知識産権局に出願された、「オーディオ符号化方法および装置」と題された中国特許出願第201910883038.0号の優先権を主張するものであり、その全体は参照によりここに組み込まれる。
【0002】
本出願は、オーディオ処理技術に関し、特に、オーディオ符号化方法および装置に関する。
【背景技術】
【0003】
トゥルーワイヤレスステレオ(True Wireless Stereo、TWS)ヘッドセット、スマートサウンドボックス、およびスマートウォッチなどのワイヤレスブルートゥース(登録商標)デバイスが日常生活で広く使用されるにつれて、様々なシナリオで高品質の音楽再生体験を追求する人々の要求がますます緊急になっている。ブルートゥース(登録商標)チャネルによってデータ送信サイズが制限されているため、オーディオデータは、ブルートゥース(登録商標)デバイスの送信端のオーディオエンコーダによってオーディオデータに対してデータ圧縮が実行された後にのみ、復号化および再生のためにブルートゥース(登録商標)デバイスの受信端に送信され得る。現在、主流のブルートゥース(登録商標)符号化および復号化技術は、デフォルトの高度オーディオ配信プロファイル(Advanced Audio Distribution Profile、A 2DP)のサブバンド符号化(Sub-band Coding、SBC)、動画専門家集団(Moving Picture Experts Group、MPEG)の高度オーディオ符号化(Advanced Audio Coding、AAC)、ソニー(Sony)のLDAC、およびクアルコム(Qualcomm)のaptXなどを含む。
【0004】
現在、オーディオ送信プロセスにおいて、オーディオ品質は、ブルートゥース(登録商標)接続リンクのスループットおよび安定性に大きく依存している。ブルートゥース(登録商標)接続リンクのチャネル品質が阻害されているとき、送信プロセスにおいて、ビットレートが大きく変動すると、オーディオデータが消失する。加えて、オーディオ再生中、音のスタッタリングおよび中断が発生し、これはユーザ体験に大きく影響を及ぼす。ビットレート変動範囲は、関連技術を使用して制御され得る。しかしながら、この制御方法は比較的大雑把であり、音の連続性とオーディオ品質との両方を保証し得ない。
【発明の概要】
【0005】
本出願は、ブルートゥース(登録商標)チャネルの状態に適応的に適合し、連続的なオーディオ聴取体験を提供しながらオーディオ品質を最大限に保証するために、オーディオ符号化方法および装置を提供する。
【課題を解決するための手段】
【0006】
第1の態様によれば、本出願は、
第1のオーディオデータを取得するステップと、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得するステップであって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ステップと、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップであって、ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、スペクトル帯域幅パラメータセット内のパラメータは、符号化後に取得されるオーディオスペクトルの最高カットオフ周波数を示すために使用される、ステップと、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するステップとを含むオーディオ符号化方法を提供する。
【0007】
本出願では、オーディオデータと、ブルートゥース(登録商標)チャネルの現在の状態に対応するターゲットビットレートおよびブルートゥース(登録商標)パケットタイプとに基づいて、ニューラルネットワークを使用して、符号化のための関連パラメータが取得される。このようにして、オーディオ送信中の耐干渉性能を改善し、連続的なオーディオ聴取体験を提供しながらオーディオ品質を最大限に保証するために、ブルートゥース(登録商標)チャネルの状態に適応的に適合され得、オーディオ符号化のビットレート変動が効果的に低減され得る。
【0008】
可能な実施態様では、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップは、第1の特徴ベクトルを取得するために第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行するステップと、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために第1の特徴ベクトルをニューラルネットワークに入力するステップとを含む。
【0009】
可能な実施態様では、ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示し、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含み得る。
【0010】
可能な実施態様では、ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。
【0011】
可能な実施態様では、第1のオーディオデータを取得するステップの前に、本方法は、ニューラルネットワークの訓練データセットを構築するステップであって、訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つであり、第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応し、第2の値の組み合わせは、最も高いODGグレードに対応する、ステップと、訓練データセットに基づく訓練によってニューラルネットワークを取得するステップとをさらに含む。
【0012】
本出願では、ニューラルネットワークの訓練プロセスにおいて、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの状態に対応する。したがって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプに対応する、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの最適値の組み合わせも、ブルートゥース(登録商標)チャネルの状態に対応する。ブルートゥース(登録商標)チャネルの状態の変化と、ブルートゥース(登録商標)チャネルの状態に適合する関連パラメータの最適値の組み合わせとが両方とも、ニューラルネットワークに関して考えられていることが知られ得る。
【0013】
可能な実施態様では、ニューラルネットワークの訓練データセットを構築するステップは、複数のオーディオデータを取得するステップと、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化するステップであって、第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つである、ステップと、符号化結果に基づいて複数のODGグレードを取得するステップと、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを第2の値の組み合わせとして決定するステップと、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加するステップとを含む。
【0014】
第2の態様によれば、本出願は、
第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ように構成された入力モジュールと、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得し、ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、スペクトル帯域幅パラメータセット内のパラメータは、符号化後に取得されるオーディオスペクトルの最高カットオフ周波数を示すために使用される、ように構成されたパラメータ取得モジュールと、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するように構成された符号化モジュールとを含むオーディオ符号化装置を提供する。
【0015】
可能な実施態様では、パラメータ取得モジュールは、第1の特徴ベクトルを取得するために第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために第1の特徴ベクトルをニューラルネットワークに入力するように特に構成される。
【0016】
可能な実施態様では、ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示し、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含み得る。
【0017】
可能な実施態様では、ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。
【0018】
可能な実施態様では、パラメータ取得モジュールは、ニューラルネットワークの訓練データセットを構築し、訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つであり、第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応し、第2の値の組み合わせは、最も高いODGグレードに対応し、訓練データセットに基づく訓練によってニューラルネットワークを取得するようにさらに構成される。
【0019】
可能な実施態様では、パラメータ取得モジュールは、複数のオーディオデータを取得し、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて複数のODGグレードを取得し、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを第2の値の組み合わせとして決定し、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加するように特に構成される。
【0020】
第3の態様によれば、本出願は、
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するように構成されたメモリと
を含む端末デバイスを提供する。
【0021】
1つ以上のプログラムが1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサは、第1の態様の可能な実施態様のうちのいずれか1つによる方法を実施することが可能である。
【0022】
第4の態様によれば、本出願は、コンピュータプログラムを含むコンピュータ可読記憶媒体を提供する。コンピュータプログラムがコンピュータ上で実行されるとき、コンピュータは、第1の態様の可能な実施態様のうちのいずれか1つによる方法を実行することが可能である。
【0023】
第5の態様によれば、本出願はコンピュータプログラム製品を提供する。コンピュータプログラム製品は、コンピュータプログラムコードを含む。コンピュータプログラムコードがコンピュータ上で実行されるとき、コンピュータは、第1の態様の実施態様のうちのいずれか1つによる方法を実行することが可能である。
【図面の簡単な説明】
【0024】
【
図1】本出願によるオーディオ符号化方法が適用される適用シナリオの一例の例示的な図である。
【
図2】本出願によるオーディオ符号化システムの一例の例示的な図である。
【
図3】本出願によるオーディオ符号化方法の一実施形態のフローチャートである。
【
図6】訓練データセットの構築方法の概略図である。
【
図7】本出願によるオーディオ符号化装置の一実施形態の構造の概略図である。
【
図8】本出願による端末デバイスの構造の概略図である。
【発明を実施するための形態】
【0025】
本出願の目的、技術的解決策、および利点をより明確にするために、以下では、本出願の添付の図面を参照して本出願の技術的解決策を明確かつ十分に説明する。説明されている実施形態は、本出願の実施形態の全部ではなく一部であることは明らかである。創造的な努力なしに本出願の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本出願の保護範囲内にあるものとする。
【0026】
本出願における本明細書の実施形態、特許請求の範囲、および添付の図面では、「第1」および「第2」などの用語は区別および説明のために使用されているにすぎず、相対的な重要性または順序を示すまたは暗示するものとして理解されてはならない。加えて、「含む」および「有する」という用語ならびにこれらの任意の変形は、非排他的な包含に該当することを意図されており、例えば、一連のステップまたはユニットを含む。方法、システム、製品、またはデバイスは、明示的に列挙されているステップまたはユニットに必ずしも限定されず、明示的に列挙されていない、またはこのようなプロセス、方法、製品、もしくはデバイスに固有の他のステップまたはユニットを含み得る。
【0027】
本出願では、「少なくとも1つ」は1つ以上を意味し、「複数の」は2つ以上を意味することを理解されたい。「および/または」という用語は、関連付けられた対象間の関連付け関係を記述するために使用され、3つの関係が存在し得ることを表す。例えば、「Aおよび/またはB」は、以下の3つのケース、すなわち、Aのみが存在するケース、Bのみが存在するケース、およびAとBとの両方が存在するケースを表し得、AおよびBは単数であっても複数であってもよい。記号「/」は一般に、関連付けられた対象間の「または」関係を示す。「以下のもの(要素)のうちの少なくとも1つ」またはその同様の表現は、単一のもの(要素)または複数のもの(要素)の任意の組み合わせを含む、これらのものの任意の組み合わせを示す。例えば、a、b、またはcのうちの少なくとも1つ(の要素)は、a、b、c、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、およびc」を表し得、a、b、およびcは単数であっても複数であってもよい。
【0028】
図1は、本出願によるオーディオ符号化方法が適用される適用シナリオの一例の例示的な図である。
図1に示されているように、適用シナリオは、端末デバイスおよびブルートゥース(登録商標)デバイスを含む。端末デバイスおよびブルートゥース(登録商標)デバイスは、ブルートゥース(登録商標)接続機能を有し、かつAAC規格をサポートするデバイスであってもよい。端末デバイスは、例えば、携帯電話、コンピュータ(ノートブックおよびデスクトップなどを含む)、またはタブレット(ハンドヘルドパネルおよび車載パネルなどを含む)であってもよい。ブルートゥース(登録商標)再生デバイスは、例えば、TWSヘッドセット、ワイヤレスヘッドマウントヘッドセット、またはワイヤレスネックバンドヘッドセットであってもよい。ブルートゥース(登録商標)デバイスはさらに、例えば、スマートサウンドボックス、スマートウォッチ、スマートグラス、または車載サウンドボックスであってもよい。本出願における最も頻度の高い適用シナリオは、携帯電話とブルートゥース(登録商標)デバイスとの間、すなわち、携帯電話とTWSヘッドセット、ワイヤレスヘッドマウントヘッドセット、およびワイヤレスネックバンドヘッドセットなどの各々との間、または携帯電話とスマートサウンドボックス、スマートウォッチ、スマートグラス、および車載サウンドボックスなどの各々との間である。しかしながら、本出願はこれに限定されない。
【0029】
図2は、本出願によるオーディオ符号化システムの一例の例示的な図である。
図2に示されているように、オーディオ符号化システムは、入力モジュール、処理モジュール、および出力モジュールを含む。
【0030】
入力モジュールによって取得されるデータは、オーディオパルス符号変調(Pulse Code Modulation、PCM)ビットストリームなどのオーディオデータ、ならびにブルートゥース(登録商標)チャネルの状態に基づいて決定されるターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを含む。ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)チャネルの現在の状態に対応する。ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示す。ブルートゥース(登録商標)接続リンクにおいて、オーディオビットストリームを送信するために非同期コネクションレス(Asynchronous Connection-Less、ACL)で使用されるブルートゥース(登録商標)パケットタイプは、2DH1(送信されるオーディオビットストリーム内のデータパケットは、最大31バイトに制限され得る)、2DH3(送信されるオーディオビットストリーム内のデータパケットは、最大356バイトに制限され得る)、2DH5(送信されるオーディオビットストリーム内のデータパケットは、最大656バイトに制限され得る)、3DH1(送信されるオーディオビットストリーム内のデータパケットは、最大11バイトに制限され得る)、3DH3(送信されるオーディオビットストリーム内のデータパケットは、最大536バイトに制限され得る)、および3DH5(送信されるオーディオビットストリーム内のデータパケットは、最大986バイトに制限され得る)のうちのいずれか1つを含み得る。ここで、2DH1、2DH3、および2DH5に使用される変調方式は、π/4差動四相位相偏移変調(Differential Quadrature Reference Phase Shift Keying、DQPSK)であり、3DH1、3DH3、および3DH5に使用される変調方式は、8DQPSKである。ブルートゥース(登録商標)がわずかに干渉されており、チャネルが良好な状態である場合、2DH5または3DH5が優先的に選択される。これら2つのブルートゥース(登録商標)パケットタイプは、より高いデータ送信能力およびより低い干渉防止能力を有し、これにより、オーディオエンコーダは、より高いオーディオ品質で送信を実施するために、128kbpsを上回るターゲットビットレートで動作し得る。ブルートゥース(登録商標)が大きく干渉されており、チャネルが不良状態である場合、2DH3、3DH3、2DH1、または3DH1が優先的に選択される。これらのブルートゥース(登録商標)パケットタイプは、より高い干渉防止能力およびより低いデータ送信能力を有し、これにより、オーディオエンコーダは、オーディオ送信の連続性を優先的に保証するために、96kbpsを下回るターゲットビットレートで動作し得る。
【0031】
処理モジュールは、パラメータ調整サブモジュール、符号化サブモジュール、および補助サブモジュールを含む。パラメータ調整サブモジュールは、ニューラルネットワークによる特徴抽出および訓練の2つの機能を有し、入力モジュールによって入力されたデータに基づいて符号化パラメータの最適値の組み合わせを決定するように構成される。符号化サブモジュールは、パラメータ構成、符号化、および復号化の3つの機能を有し、符号化パラメータの最適値の組み合わせに基づいてオーディオデータを符号化し、ビットストリームを復号化するように構成される。補助サブモジュールは、ビットレート変動の統計収集および主観的差分グレーディング(すなわち、ODGグレード)の2つの機能を有し、符号化によって生成されたデータパケットのバイト数の変化の統計を収集し、符号化および復号化後のオーディオのオーディオ品質をグレーディングするように構成される。ODGグレードは、国際電気通信連合(International Telecommunication Union、ITU)BS.1387-1のオーディオ品質の知覚評価(Perceptual Evaluation of Audio Quality、PEAQ)によって取得される。グレードの値の範囲は、-4から0である。0により近いグレードが、符号化および復号化後のオーディオのより高いオーディオ品質を示す。
【0032】
出力モジュールによって出力されるデータは、符号化によって生成されたデータパケットがブルートゥース(登録商標)パケットタイプに基づいてカプセル化された後に形成されたオーディオビットストリームである。
【0033】
図3は、本出願によるオーディオ符号化方法の一実施形態のフローチャートである。
図3に示されているように、この実施形態の方法は、
図1の端末デバイス、例えば、携帯電話、コンピュータ(ノートブックおよびデスクトップなどを含む)、またはタブレット(ハンドヘルドパネルおよび車載パネルなどを含む)によって実行され得る。オーディオ符号化方法は、以下のステップを含み得る。
【0034】
ステップ301:第1のオーディオデータを取得する。
【0035】
第1のオーディオデータは、符号化されるべきオーディオデータである。端末デバイスは、ローカルメモリから第1のオーディオデータを直接読み出してもよいし、別のデバイスから第1のオーディオデータを受信してもよい。これは本出願では特に限定されない。
【0036】
ステップ302:ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する。
【0037】
ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される。言い換えれば、ターゲットビットレートは、第1のオーディオデータが符号化された後に取得されると期待されるデータパケットの平均バイト数であると考えられ得る。複数の要因の影響により、符号化によって生成される各データパケットのバイト数(すなわち、ビットレート)がターゲットビットレートに達する可能性は低い。したがって、指定された期間内の複数のデータパケットの平均ビットレートがターゲットビットレートを満たすならば、各データパケットのビットレートがターゲットビットレートの近くの小さい範囲内で変動することが許容され得る。ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示す。ブルートゥース(登録商標)パケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含み得る。各ブルートゥース(登録商標)パケットタイプは、ビットレート変動の上限に対応する。本出願では、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの現在の状態に対応する。言い換えれば、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの状態に基づいて決定される。したがって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)チャネルの状態も反映する。
【0038】
図3に示されている実施形態では、ステップ301とステップ302との間に順序はない。
【0039】
ステップ303:第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用して、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得する。
【0040】
ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用される。関連技術では、瞬間的な変動および長期的な収束のビットレート特徴を実施するために、固定ビットレート(Constant Bit rate、CBR)符号化モードにおけるビットレート変動は、ビットプールのサイズを調整することによって制御される。この方法では、CBR符号化モードにおいてビットレート変動が許容される。より高いオーディオ品質を提供するために、異なるビット数が異なるオーディオデータに割り当てられる。実際に割り当てられたビット数(ビットレート)がターゲットビット数(ターゲットビットレート)未満である場合、残りのビットはビットプールに配置される。実際に割り当てられたビット数がターゲットビット数よりも大きい場合、いくつかのビットが、使用のためにビットプールから抽出される。ビットプールは無限ではないため、CBR符号化モードにおいて、符号化プロセスにおける長期間の平均ビットレートは、依然としてターゲットビットレートの近くになるように制限される。この方法におけるビットプールの状態は、すべての履歴フレームおよび現在のフレームによって一緒に判定される。ビットプールの状態は、過去の状態から現在の状態までの全期間におけるビットレート変動および圧縮の難易度を反映する。ビットプールが大きい場合、大きいビットレート変動が許容され得、したがって、符号化オーディオ品質は高い。ビットプールが小さい場合、小さいビットレート変動が許容され得、したがって、符号化オーディオ品質は低い。
【0041】
心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用される。関連技術では、符号化プロセスにおいてオーディオセグメントに予約される必要がある一次情報および符号化中に無視され得る二次情報は、心理音響モデルを使用して決定される。例えば、
図4は、心理音響プロセスの一例の概略図である。
図4に示されているように、高エネルギーの900Hzのマスクが存在し、点線より下のデシベルに相当するエネルギーの、マスクの近くのオーディオは人には聞こえない。これは、点線より下の情報は符号化されなくてもよく、このため、符号化におけるビット数が削減されることを示す。マスキングは、帯域内マスキングパラメータdr、低帯域マスキング減衰速度k1、および高帯域マスキング減衰速度k2の3つの部分によって決定される。3つのパラメータdr、k1、およびk2は、AAC量子化プロセスにおいて符号化によって生成されるデータパケットのビット数(ビットレート)を直接決定する。データパケットの実際のビットレートがターゲットビットレートよりも大きい場合、drは低減される。データパケットの実際のビットレートがターゲットビットレート未満である場合、drは増加される。
【0042】
スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される。より高いカットオフ周波数は、対応するより豊富な高周波数オーディオ成分を示し、オーディオ品質をある程度改善し得る。
【0043】
端末デバイスは、第1の特徴ベクトルを取得するために、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために、第1の特徴ベクトルをニューラルネットワークに入力し得る。
図5は、パラメータ取得方法の一例の概略図である。
図5に示されているように、端末デバイスは、特徴ベクトル、例えば、ビットレートおよび音楽特徴を示すメル周波数ケプストラム係数または音楽特徴を示す線形予測ケプストラム係数を抽出するために、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴変換を実行する。特徴抽出プロセスでは、計算量をさらに削減するために、データ次元が削減されてもよい。端末デバイスは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために、特徴ベクトルを事前訓練されたニューラルネットワークに入力する。
【0044】
本出願では、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上は、ニューラルネットワークを使用して取得されることに留意されたい。加えて、前述のパラメータセットは、代わりに、人工知能(Artificial Intelligence、AI)または数学的演算の別の方法などの方法で取得されてもよい。これは本出願では特に限定されない。
【0045】
本出願では、端末デバイスは、ニューラルネットワークの訓練データセットを構築し得る。訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含む。第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つである。第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つである。ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応する。第2の値の組み合わせは、最も高いODGグレードに対応する。端末デバイスは、訓練データセットに基づく訓練によってニューラルネットワークを取得する。
【0046】
例えば、
図6は、訓練データセットの構築方法の概略図である。
図6に示されているように、端末デバイスは、複数のオーディオデータを取得する。端末デバイスは、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して、第2のオーディオデータを別々に符号化する。第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つである。端末デバイスは、符号化結果に基づいて複数のODGグレードを取得する。端末デバイスは、第2の値の組み合わせとして、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを決定する。端末デバイスは、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加する。具体的には、端末デバイスは最初に大量の音楽ファイルを収集する。これらの音楽ファイルのスタイルおよびタイプなどは異なる。次に、各音楽ファイル内のオーディオデータに関して、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの値の組み合わせの各々において、対応する値の組み合わせを使用してオーディオデータを符号化するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの値の組み合わせは常に変化する。加えて、符号化によって生成された複数のデータパケットのビットレート変動の統計が収集され、符号化のたびにODG方法を使用してグレーディングが実行される。最後に、x=(ブルートゥース(登録商標)パケットタイプ、ターゲットビットレート、およびオーディオデータの値の組み合わせ)と、y=(ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの最適値の組み合わせ)との対応関係を取得するためにるために、ビットレート変動要件を満たす最も高いODGグレードに対応する、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの値の組み合わせが出力される。ここで、xはニューラルネットワークの入力であり、yはニューラルネットワークの出力であり、(x,y)はニューラルネットワークの訓練データセットを示す。
【0047】
訓練データセットに基づいて、端末デバイスは、訓練のために、抽出された特徴ベクトルをニューラルネットワークに入力し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットを出力し、これらのセットと訓練データセット内の最適値の組み合わせとを比較してニューラルネットワークの損失を取得し、最後に、大量の逆伝播訓練によって、異なるターゲットレート、異なるブルートゥース(登録商標)パケットタイプ、および異なるオーディオデータを予測するために使用され得る収束したニューラルネットワークを取得し得る。
【0048】
ニューラルネットワークの訓練プロセスにおいて、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプは両方とも、ブルートゥース(登録商標)チャネルの状態に対応する。したがって、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプに対応する、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの最適値の組み合わせも、ブルートゥース(登録商標)チャネルの状態に対応する。ブルートゥース(登録商標)チャネルの状態の変化と、ブルートゥース(登録商標)チャネルの状態に適合する関連パラメータの最適値の組み合わせとが両方とも、ニューラルネットワークに関して考えられていることが知られ得る。
【0049】
ステップ304:送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化する。
【0050】
符号化ビットストリームを取得するために、端末デバイスは、エンコーダのためにビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上の中のパラメータを設定し、第1のオーディオデータを符号化し得る。本出願では、ステップ303の符号化技術を参照して、第1のオーディオデータは、このステップで取得されたビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて符号化される。実施原理は同様である。ここでは詳細は再び説明されない。このようにして、ブルートゥース(登録商標)に関してビットレート変動が制限され得、比較的高いオーディオ品質レベルが保証され得る。
【0051】
本出願では、オーディオデータと、ブルートゥース(登録商標)チャネルの現在の状態に対応するターゲットビットレートおよびブルートゥース(登録商標)パケットタイプとに基づいて、符号化エンド(すなわち、端末デバイス)は、ニューラルネットワークを使用して符号化のための関連パラメータを取得する。このようにして、オーディオ送信中の耐干渉性能を改善し、連続的なオーディオ聴取体験を提供しながらオーディオ品質を最大限に保証するために、ブルートゥース(登録商標)チャネルの状態に適応的に適合され得、オーディオ符号化のビットレート変動が効果的に低減され得る。
【0052】
図7は、本出願によるオーディオ符号化装置の一実施形態の構造の概略図である。
図7に示されているように、この実施形態における装置700は、入力モジュール701、パラメータ取得モジュール702、および符号化モジュール703を含み得る。入力モジュール701は、第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプを取得し、ターゲットビットレートおよびブルートゥース(登録商標)パケットタイプはブルートゥース(登録商標)チャネルの現在の状態に対応する、ように構成される。ターゲットビットレートは、指定された期間に符号化によって生成される複数のデータパケットの平均バイト数を示すために使用される。ブルートゥース(登録商標)パケットタイプは、ブルートゥース(登録商標)を介して送信されるパケットのタイプを示す。パラメータ取得モジュール702は、第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用して、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するように構成される。ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用される。心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用される。スペクトル帯域幅パラメータセット内のパラメータは、符号化後に取得されるオーディオスペクトルの最高カットオフ周波数を示すために使用される。符号化モジュール703は、送信されるべきビットストリームを取得するために、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上に基づいて第1のオーディオデータを符号化するように構成される。
【0053】
可能な実施態様では、パラメータ取得モジュール702は、第1の特徴ベクトルを取得するために第1のオーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプに対して特徴抽出を実行し、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するために第1の特徴ベクトルをニューラルネットワークに入力するように特に構成される。
【0054】
可能な実施態様では、ブルートゥース(登録商標)パケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む。
【0055】
可能な実施態様では、パラメータ取得モジュール702は、ニューラルネットワークの訓練データセットを構築し、訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、第1の値の組み合わせは、オーディオデータ、ターゲットビットレート、およびブルートゥース(登録商標)パケットタイプの複数の値の組み合わせのうちのいずれか1つであり、第2の値の組み合わせは、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、ビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせは、複数のODGグレードに対応し、第2の値の組み合わせは、最も高いODGグレードに対応し、訓練データセットに基づく訓練によってニューラルネットワークを取得するようにさらに構成される。
【0056】
可能な実施態様では、パラメータ取得モジュール702は、複数のオーディオデータを取得し、第1の値の組み合わせにおけるビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットの複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、第2のオーディオデータは、複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて複数のODGグレードを取得し、複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを第2の値の組み合わせとして決定し、第1の値の組み合わせおよび第2の値の組み合わせを訓練データセットに追加するように特に構成される。
【0057】
この実施形態における装置700は、
図3から
図6に示されている方法の実施形態の技術的解決策を実行するように構成され得る。その実施原理および技術的効果は同様であり、ここでは再び説明されない。
【0058】
図8は、本出願による端末デバイスの構造の概略図である。
図8に示されているように、端末デバイス800は、プロセッサ801およびトランシーバ802を含む。
【0059】
任意選択で、端末デバイス800はメモリ803をさらに含む。プロセッサ801、トランシーバ802、およびメモリ803は、制御信号および/またはデータ信号を送信するために、内部接続経路を介して互いに通信し得る。
【0060】
メモリ803は、コンピュータプログラムを記憶するように構成される。プロセッサ801は、前述の装置の実施形態におけるオーディオ符号化装置の機能を実施するために、メモリ803に記憶されたコンピュータプログラムを実行するように構成される。
【0061】
任意選択で、メモリ803は、プロセッサ801に統合されてもよいし、プロセッサ801から独立していてもよい。
【0062】
任意選択で、端末デバイス800は、トランシーバ802によって出力された信号を送信するように構成されたアンテナ804をさらに含んでもよい。代わりに、トランシーバ802は、アンテナを介して信号を受信する。
【0063】
任意選択で、端末デバイス800は、端末デバイス内の様々な構成要素または回路に電力を供給するように構成された電源805をさらに含んでもよい。
【0064】
加えて、端末デバイスのより多くの機能を実施するために、端末デバイス800は、入力ユニット806、表示ユニット807(出力ユニットと考えられてもよい)、オーディオ回路808、カメラ809、およびセンサ810などのうちの1つ以上をさらに含んでもよい。オーディオ回路は、スピーカ8081およびマイクロフォン8082などをさらに含んでもよい。ここでは詳細は説明されない。
【0065】
この実施形態における装置800は、
図3から
図6に示されている方法の実施形態の技術的解決策を実行するように構成され得る。その実施原理および技術的効果は同様であり、ここでは再び説明されない。
【0066】
実施プロセスでは、前述の方法の実施形態におけるステップは、プロセッサ内のハードウェア集積論理回路を使用して、またはソフトウェアの形態の命令を使用して実施され得る。プロセッサは、汎用プロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)もしくは別のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、またはディスクリートハードウェア構成要素であってもよい。汎用プロセッサはマクロプロセッサであってよいし、このプロセッサは任意の従来のプロセッサなどであってよい。本出願の実施形態に開示されている方法のステップは、ハードウェア符号化プロセッサを使用して直接実行および遂行されてもよいし、符号化プロセッサのハードウェアおよびソフトウェアモジュールの組み合わせを使用して実行および遂行されてもよい。ソフトウェアモジュールは、当技術分野の成熟した記憶媒体、例えば、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ、電気的消去可能プログラマブルメモリ、またはレジスタに配置されてもよい。記憶媒体は、メモリ内に配置され、プロセッサは、メモリ内の情報を読み出し、プロセッサのハードウェアと共に前述の方法におけるステップを遂行する。
【0067】
前述の実施形態におけるメモリは、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性メモリと不揮発性メモリとの両方を含んでもよい。不揮発性メモリは、読み出し専用メモリ(read-only memory、ROM)、プログラマブル読み出し専用メモリ(programmable ROM、PROM)、消去可能プログラマブル読み出し専用メモリ(erasable PROM、EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(electrically EPROM、EEPROM)、またはフラッシュメモリであってもよい。揮発性メモリは、ランダムアクセスメモリ(random access memory、RAM)であってもよく、外部キャッシュとして使用されてもよい。限定的な説明ではなく例として、多くの形態のRAM、例えば、スタティックランダムアクセスメモリ(static RAM、SRAM)、ダイナミックランダムアクセスメモリ(dynamic RAM、DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリ(synchronous DRAM、SDRAM)、ダブル・データ・レート・シンクロナス・ダイナミック・ランダム・アクセス・メモリ(double data rate SDRAM、DDR SDRAM)、拡張シンクロナス・ダイナミック・ランダム・アクセス・メモリ(enhanced SDRAM、ESDRAM)、シンクリンク・ダイナミック・ランダム・アクセス・メモリ(synchlink DRAM、SLDRAM)、およびダイレクト・ラムバス・ランダム・アクセス・メモリ(direct rambus RAM、DR RAM)が使用されてもよい。本明細書で説明されているシステムおよび方法におけるメモリは、これらのメモリおよび別の適切なタイプの任意のメモリを含むが、これらに限定されないことに留意されたい。
【0068】
当業者は、本明細書に開示されている実施形態で説明された例との組み合わせにおいて、ユニットおよびアルゴリズムステップが、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを認識し得る。機能がハードウェアとソフトウェアのどちらによって実行されるかは、技術的解決策の特定の用途および設計上の制約に依存する。当業者は、各特定の用途の説明された機能を実施するために異なる方法を使用し得るが、その実施が本出願の範囲を超えると考えられてはならない。
【0069】
簡便な説明のために、前述のシステム、装置、およびユニットの詳細な動作プロセスについては、前述の方法の実施形態における対応するプロセスを参照し、ここでは詳細は再び説明されないことが、当業者によって明確に理解されよう。
【0070】
本出願で提供されるいくつかの実施形態において、開示されたシステム、装置、および方法が別の方法で実施され得ることを理解されたい。例えば、説明された装置の実施形態は例にすぎない。例えば、ユニットへの分割は、論理的な機能の分割にすぎず、実際の実施態様では他の分割であってもよい。例えば、複数のユニットまたは構成要素は、別のシステムに組み合わされてもよい、または統合されてもよいし、いくつかの機能は無視されてもよい、もしくは実行されなくてもよい。加えて、提示されたまたは述べられた相互結合または直接的な結合もしくは通信接続は、いくつかのインターフェースを使用して実施されてもよい。装置またはユニット間の間接的な結合または通信接続は、電子的形態、機械的形態、または別の形態で実施されてもよい。
【0071】
別個の部分として説明されたユニットは、物理的に別個であってもなくてもよく、ユニットとして提示された部分は、物理的なユニットであってもなくてもよく、また、1つの位置に配置されてもよいし、複数のネットワークユニットに分散されてもよい。ユニットの一部または全部は、実施形態の解決策の目的を達成するために実際の要件に基づいて選択されてもよい。
【0072】
加えて、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてもよいし、これらのユニットの各々は物理的に単独で存在してもよいし、2つ以上のユニットが1つのユニットに統合される。
【0073】
機能がソフトウェア機能ユニットの形態で実施され、独立した製品として販売または使用される場合、機能はコンピュータ可読記憶媒体に記憶されてよい。このような理解に基づいて、本質的に本出願の技術的解決策、または従来技術に寄与する部分、または技術的解決策の一部は、ソフトウェア製品の形態で実施されてもよい。ソフトウェア製品は、記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなど)に、本出願の実施形態で説明された方法のステップの全部または一部を実行するように命令するためのいくつかの命令を含む。記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読み出し専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、磁気ディスク、または光ディスクなどの、プログラムコードを記憶し得る任意の媒体を含む。
【0074】
前述の説明は、本出願の特定の実施態様にすぎず、本出願の保護範囲を限定することを意図されていない。本出願に開示されている技術的範囲内で当業者によって容易に考え出されるいかなる変形または置換も、本出願の保護範囲内にあるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【符号の説明】
【0075】
700 装置
701 入力モジュール
702 パラメータ取得モジュール
703 符号化モジュール
800 端末デバイス
801 プロセッサ
802 トランシーバ
803 メモリ
804 アンテナ
805 電源
806 入力ユニット
807 表示ユニット
808 オーディオ回路
809 カメラ
810 センサ
8081 スピーカ
8082 マイクロフォン
【手続補正書】
【提出日】2022-04-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1のオーディオデータを取得するステップと、
ターゲットビットレートおよびブルートゥースパケットタイプを取得するステップであって、前記ターゲットビットレートおよび前記ブルートゥースパケットタイプはブルートゥースチャネルの現在の状態に対応する、ステップと、
前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得するステップであって、前記ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、前記心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、前記スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される、ステップと、
送信されるべきビットストリームを取得するために、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上に基づいて前記第1のオーディオデータを符号化するステップと
を含むオーディオ符号化方法。
【請求項2】
前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得する前記ステップは、
第1の特徴ベクトルを取得するために前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに対して特徴抽出を実行するステップと、
前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上を取得するために前記第1の特徴ベクトルを前記ニューラルネットワークに入力するステップと
を含む、請求項1に記載の方法。
【請求項3】
前記ブルートゥースパケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む、請求項1または2に記載の方法。
【請求項4】
前記ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
第1のオーディオデータを取得する前記ステップの前に、前記方法は、
前記ニューラルネットワークの訓練データセットを構築するステップであって、前記訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、前記第1の値の組み合わせは、前記オーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプの複数の値の組み合わせのうちのいずれか1つであり、前記第2の値の組み合わせは、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせは、複数のODGグレードに対応し、前記第2の値の組み合わせは、最も高いODGグレードに対応する、ステップと、
前記訓練データセットに基づく訓練によって前記ニューラルネットワークを取得するステップと
をさらに含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークの訓練データセットを構築する前記ステップは、
複数のオーディオデータを取得するステップと、
前記第1の値の組み合わせにおける前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化するステップであって、前記第2のオーディオデータは、前記複数のオーディオデータのうちのいずれか1つである、ステップと、
符号化結果に基づいて前記複数のODGグレードを取得するステップと、
前記複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを前記第2の値の組み合わせとして決定するステップと、
前記第1の値の組み合わせおよび前記第2の値の組み合わせを前記訓練データセットに追加するステップと
を含む、請求項5に記載の方法。
【請求項7】
第1のオーディオデータを取得し、ターゲットビットレートおよびブルートゥースパケットタイプを取得し、前記ターゲットビットレートおよび前記ブルートゥースパケットタイプはブルートゥースチャネルの現在の状態に対応する、ように構成された入力モジュールと、
前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに基づいて、事前訓練によって取得されたニューラルネットワークを使用してビットプールパラメータセット、心理音響パラメータセット、およびスペクトル帯域幅パラメータセットのうちの1つ以上を取得し、前記ビットプールパラメータセット内のパラメータは、符号化に使用され得るビットストリーム内の残りのビット数を示すために使用され、前記心理音響パラメータセット内のパラメータは、異なる周波数での符号化に必要なビット数の割り当てを示すために使用され、前記スペクトル帯域幅パラメータセット内のパラメータは、符号化オーディオスペクトルの最高カットオフ周波数を示すために使用される、ように構成されたパラメータ取得モジュールと、
送信されるべきビットストリームを取得するために、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上に基づいて前記第1のオーディオデータを符号化するように構成された符号化モジュールと
を備えるオーディオ符号化装置。
【請求項8】
前記パラメータ取得モジュールは、第1の特徴ベクトルを取得するために前記第1のオーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプに対して特徴抽出を実行し、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットのうちの1つ以上を取得するために前記第1の特徴ベクトルを前記ニューラルネットワークに入力するように特に構成されている、請求項7に記載の装置。
【請求項9】
前記ブルートゥースパケットタイプは、2DH1、2DH3、2DH5、3DH1、3DH3、および3DH5のうちのいずれか1つを含む、請求項7または8に記載の装置。
【請求項10】
前記ターゲットビットレートは、指定された期間に符号化によって生成されるデータパケットの平均バイト数を示すために使用される、請求項7から9のいずれか一項に記載の
装置。
【請求項11】
前記パラメータ取得モジュールは、前記ニューラルネットワークの訓練データセットを構築し、前記訓練データセットは、第1の値の組み合わせと第2の値の組み合わせとの対応関係を含み、前記第1の値の組み合わせは、前記オーディオデータ、前記ターゲットビットレート、および前記ブルートゥースパケットタイプの複数の値の組み合わせのうちのいずれか1つであり、前記第2の値の組み合わせは、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの複数の値の組み合わせのうちの1つであり、前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせは、複数のODGグレードに対応し、前記第2の値の組み合わせは、最も高いODGグレードに対応し、前記訓練データセットに基づく訓練によって前記ニューラルネットワークを取得するようにさらに構成されている、請求項7から10のいずれか一項に記載の装置。
【請求項12】
前記パラメータ取得モジュールは、複数のオーディオデータを取得し、前記第1の値の組み合わせにおける前記ビットプールパラメータセット、前記心理音響パラメータセット、および前記スペクトル帯域幅パラメータセットの前記複数の値の組み合わせを使用して第2のオーディオデータを別々に符号化し、前記第2のオーディオデータは、前記複数のオーディオデータのうちのいずれか1つであり、符号化結果に基づいて前記複数のODGグレードを取得し、前記複数のODGグレードの中で最も高いODGグレードに対応する値の組み合わせを前記第2の値の組み合わせとして決定し、前記第1の値の組み合わせおよび前記第2の値の組み合わせを前記訓練データセットに追加するように特に構成されている、請求項11に記載の装置。
【請求項13】
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するように構成されたメモリと
を備え、前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実施することが可能である、
端末デバイス。
【請求項14】
コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムがコンピュータ上で実行されるとき、前記コンピュータは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実行することが可能である、コンピュータ可読記憶媒体。
【請求項15】
コンピュータプログラム製品であって、前記コンピュータプログラム製品はコンピュータプログラムコードを含み、前記コンピュータプログラムコードがコンピュータ上で実行されるとき、前記コンピュータは、請求項1から6のいずれか一項に記載のオーディオ符号化方法を実行することが可能である、コンピュータプログラム製品。
【国際調査報告】