IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 華為技術有限公司の特許一覧

特許7550881音声信号に対するビット割り当て方法及び装置
<>
  • 特許-音声信号に対するビット割り当て方法及び装置 図1A
  • 特許-音声信号に対するビット割り当て方法及び装置 図1B
  • 特許-音声信号に対するビット割り当て方法及び装置 図2
  • 特許-音声信号に対するビット割り当て方法及び装置 図3
  • 特許-音声信号に対するビット割り当て方法及び装置 図4
  • 特許-音声信号に対するビット割り当て方法及び装置 図5
  • 特許-音声信号に対するビット割り当て方法及び装置 図6
  • 特許-音声信号に対するビット割り当て方法及び装置 図7
  • 特許-音声信号に対するビット割り当て方法及び装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-05
(45)【発行日】2024-09-13
(54)【発明の名称】音声信号に対するビット割り当て方法及び装置
(51)【国際特許分類】
   G10L 19/002 20130101AFI20240906BHJP
【FI】
G10L19/002
【請求項の数】 37
(21)【出願番号】P 2022565956
(86)(22)【出願日】2021-03-31
(65)【公表番号】
(43)【公表日】2023-06-01
(86)【国際出願番号】 CN2021084578
(87)【国際公開番号】W WO2021218558
(87)【国際公開日】2021-11-04
【審査請求日】2022-12-01
(31)【優先権主張番号】202010368424.9
(32)【優先日】2020-04-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100132481
【弁理士】
【氏名又は名称】赤澤 克豪
(74)【代理人】
【識別番号】100115635
【弁理士】
【氏名又は名称】窪田 郁大
(72)【発明者】
【氏名】高 原
(72)【発明者】
【氏名】丁 建策
(72)【発明者】
【氏名】王 ▲賓▼
【審査官】堀 洋介
(56)【参考文献】
【文献】米国特許出願公開第2019/0103118(US,A1)
【文献】国際公開第2015/056383(WO,A1)
【文献】特表2017-507365(JP,A)
【文献】特表2019-505842(JP,A)
【文献】特開2019-121037(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/008
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
音声信号に対するビット割り当て方法であって、
現在フレーム内のT個の音声信号を取得するステップであって、Tは、正の整数である、ステップと、
前記現在フレーム内のS個のグループのメタデータを取得するステップであって、Sは、正の整数であり、T≧Sであり、前記S個のグループのメタデータは、前記T個の音声信号に対応し、前記メタデータは、空間シーンにおける対応する音声信号の状態を記述し、前記メタデータは、対応する音声信号の重要度を示す優先度パラメータを含む、ステップと、
前記T個の音声信号及び前記メタデータ内の前記優先度パラメータに基づいて、第1の音声信号セットを決定するステップであって、前記第1の音声信号セットは、M個の音声信号を含み、Mは、正の整数であり、前記T個の音声信号は、前記M個の音声信号を含み、T≧Mである、ステップと、
前記空間シーンにおける対応する音声信号の状態に基づいて取得される前記M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、前記第1の音声信号セット内の前記M個の音声信号のM個の優先度を決定するステップと、
前記M個の音声信号の前記M個の優先度に基づいて、前記M個の音声信号へのビット割り当てを実行するステップと、
を含む、方法。
【請求項2】
前記第1の音声信号セット内の前記M個の音声信号のM個の優先度を決定する前記ステップは、
前記M個の音声信号のそれぞれのシーングレーディングパラメータを取得するステップと、
前記M個の音声信号のそれぞれの前記シーングレーディングパラメータに基づいて、前記M個の音声信号の前記M個の優先度を決定するステップと、
を含む、
請求項1に記載の方法。
【請求項3】
前記M個の音声信号のそれぞれのシーングレーディングパラメータを取得する前記ステップは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得するステップであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップと、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得するステップと、
を含み、
前記移動グレーディングパラメータは、空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項2に記載の方法。
【請求項4】
前記M個の音声信号のそれぞれのシーングレーディングパラメータを取得する前記ステップは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを、前記第1の音声信号に対応するメタデータに基づいて、又は、前記第1の音声信号と前記第1の音声信号に対応する前記メタデータとに基づいて取得するステップであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップと、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得するステップと、
を含み、
前記移動グレーディングパラメータは、前記空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項2に記載の方法。
【請求項5】
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得する前記ステップは、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された複数のものについて重み付け平均を実行して、前記シーングレーディングパラメータを取得するステップ、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された複数のものについて平均を実行して、前記シーングレーディングパラメータを取得するステップ、又は
前記シーングレーディングパラメータとして、前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つのものを利用するステップ、
を含む、
請求項3又は4に記載の方法。
【請求項6】
前記M個の音声信号のそれぞれの前記シーングレーディングパラメータに基づいて、前記M個の音声信号の前記M個の優先度を決定する前記ステップは、
第1の音声信号の前記シーングレーディングパラメータに対応する優先度を、指定された第1の対応関係に基づいて、前記第1の音声信号の優先度として決定するステップであって、前記第1の対応関係は、複数のシーングレーディングパラメータと複数の優先度との間の対応関係を含み、1つ又は複数のシーングレーディングパラメータは、1つの優先度に対応し、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップ、
前記第1の音声信号の前記シーングレーディングパラメータを、前記第1の音声信号の優先度として利用するステップ、又は
複数の指定された範囲閾値に基づいて、前記第1の音声信号の前記シーングレーディングパラメータの範囲を決定し、前記第1の音声信号の前記シーングレーディングパラメータの前記範囲に対応する優先度を、前記第1の音声信号の優先度として決定するステップ、
を含む、
請求項2~5のいずれか1項に記載の方法。
【請求項7】
前記M個の音声信号の前記M個の優先度に基づいて、前記M個の音声信号へのビット割り当てを実行する前記ステップは、
現在利用可能なビット量と、前記M個の音声信号の前記M個の優先度とに基づいて、ビット割り当てを実行するステップであって、より多量のビットが、より高い優先度を持つ音声信号に割り当てられる、ステップを含む、
請求項1~6のいずれか1項に記載の方法。
【請求項8】
現在利用可能なビット量と、前記M個の音声信号の前記M個の優先度とに基づいて、ビット割り当てを実行する前記ステップは、
第1の音声信号のビット量比率を、前記第1の音声信号の前記優先度に基づいて決定するステップであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップと、
前記現在利用可能なビット量と、前記第1の音声信号の前記ビット量比率との積に基づいて、前記第1の音声信号のビット量を取得するステップと、
を含む、
請求項7に記載の方法。
【請求項9】
現在利用可能なビット量と、前記M個の音声信号の前記M個の優先度とに基づいて、ビット割り当てを実行する前記ステップは、
指定された第2の対応関係から、第1の音声信号のビット量を、前記第1の音声信号の前記優先度に基づいて決定するステップであって、前記第2の対応関係は、複数の優先度と複数のビット量との間の対応関係を含み、1つ又は複数の優先度は、1つのビット量に対応し、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップを含む、
請求項7に記載の方法。
【請求項10】
前記T個の音声信号に基づいて、第1の音声信号セットを決定する前記ステップは、
指定された関係閾値以上の前記優先度パラメータに対応する音声信号を、前記第1の音声信号セットに追加するステップを含む、
請求項1に記載の方法。
【請求項11】
前記M個の音声信号のそれぞれのシーングレーディングパラメータを取得する前記ステップは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを取得するステップであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップと、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第1のシーングレーディングパラメータを取得するステップと、
前記第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得するステップと、
前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第2のシーングレーディングパラメータを取得するステップと、
前記第1のシーングレーディングパラメータと前記第2のシーングレーディングパラメータとに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得するステップと、
を含み、
前記移動グレーディングパラメータは、空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項2に記載の方法。
【請求項12】
前記M個の音声信号のそれぞれのシーングレーディングパラメータを取得する前記ステップは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを、前記第1の音声信号に対応するメタデータに基づいて、又は、前記第1の音声信号と前記第1の音声信号に対応する前記メタデータとに基づいて取得するステップであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ステップと、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第1のシーングレーディングパラメータを取得するステップと、
前記第1の音声信号に対応する前記メタデータに基づいて、又は、前記第1の音声信号と前記第1の音声信号に対応する前記メタデータとに基づいて、前記第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得するステップと、
前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第2のシーングレーディングパラメータを取得するステップと、
前記第1のシーングレーディングパラメータと前記第2のシーングレーディングパラメータとに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得するステップと、
を含み、
前記移動グレーディングパラメータは、前記空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項2に記載の方法。
【請求項13】
前記M個の音声信号のそれぞれの前記シーングレーディングパラメータに基づいて、前記M個の音声信号の前記M個の優先度を決定する前記ステップは、
前記第1のシーングレーディングパラメータに基づいて、前記第1の音声信号の第1の優先度を取得するステップと、
前記第2のシーングレーディングパラメータに基づいて、前記第1の音声信号の第2の優先度を取得するステップと、
前記第1の優先度と前記第2の優先度とに基づいて、前記第1の音声信号の前記優先度を取得するステップと、
を含む、
請求項11又は12に記載の方法。
【請求項14】
音声信号エンコーディング方法であって、請求項1~13のいずれか1項に記載の前記音声信号に対するビット割り当て方法が実行された後、前記音声信号エンコーディング方法は、
前記M個の音声信号に割り当てられたビットの量に基づいて、前記M個の音声信号をエンコードし、エンコードされたビットストリームを取得するステップをさらに含む、
音声信号エンコーディング方法。
【請求項15】
前記エンコードされたビットストリームは、前記M個の音声信号のビット量を含む、
請求項14に記載の音声信号エンコーディング方法。
【請求項16】
音声信号デコーディング方法であって、請求項1~13のいずれか1項に記載の前記音声信号に対するビット割り当て方法が実行された後、前記音声信号デコーディング方法は、
エンコードされたビットストリームを受信するステップと、
請求項1~13のいずれか1項に記載の前記音声信号に対するビット割り当て方法を実行することによって、前記M個の音声信号のそれぞれのビット量を取得するステップと、
前記M個の音声信号のそれぞれの前記ビット量と前記エンコードされたビットストリームとに基づいて、前記M個の音声信号を再構築するステップと、
をさらに含む、音声信号デコーディング方法。
【請求項17】
音声信号のためのビット割り当て装置であって、
現在フレーム内のT個の音声信号を取得することであって、Tは、正の整数である、ことを行い、
前記現在フレーム内のS個のグループのメタデータを取得することであって、Sは、正の整数であり、T≧Sであり、前記S個のグループのメタデータは、前記T個の音声信号に対応し、前記メタデータは、空間シーンにおける対応する音声信号の状態を記述し、前記メタデータは、対応する音声信号の重要度を示す優先度パラメータを含む、ことを行い、
前記T個の音声信号及び前記メタデータ内の前記優先度パラメータに基づいて、第1の音声信号セットを決定することであって、前記第1の音声信号セットは、M個の音声信号を含み、Mは、正の整数であり、前記T個の音声信号は、前記M個の音声信号を含み、T≧Mである、ことを行い、
前記空間シーンにおける対応する音声信号の状態に基づいて取得される前記M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、前記第1の音声信号セット内の前記M個の音声信号のM個の優先度を決定し、
前記M個の音声信号の前記M個の優先度に基づいて、前記M個の音声信号へのビット割り当てを実行する
ように構成された処理モジュールを含む、装置。
【請求項18】
前記処理モジュールは、
前記M個の音声信号のそれぞれのシーングレーディングパラメータを取得し、
前記M個の音声信号のそれぞれの前記シーングレーディングパラメータに基づいて、前記M個の音声信号の前記M個の優先度を決定する
ように特に構成される、
請求項17に記載の装置。
【請求項19】
前記処理モジュールは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得することであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行い、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得する
ように特に構成され、
前記移動グレーディングパラメータは、空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項18に記載の装置。
【請求項20】
前記処理モジュールは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを、前記第1の音声信号に対応するメタデータに基づいて、又は、前記第1の音声信号と前記第1の音声信号に対応する前記メタデータとに基づいて取得することであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行い、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得する
ように特に構成され、
前記移動グレーディングパラメータは、前記空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項18に記載の装置。
【請求項21】
前記処理モジュールは、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された複数のものについて重み付け平均を実行して、前記シーングレーディングパラメータを取得するか、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された複数のものについて平均を実行して、前記シーングレーディングパラメータを取得するか、又は
前記シーングレーディングパラメータとして、前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータと、前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つのものを利用する
ように特に構成される、
請求項19又は20に記載の装置。
【請求項22】
前記処理モジュールは、
第1の音声信号の前記シーングレーディングパラメータに対応する優先度を、指定された第1の対応関係に基づいて、前記第1の音声信号の優先度として決定することであって、前記第1の対応関係は、複数のシーングレーディングパラメータと複数の優先度との間の対応関係を含み、1つ又は複数のシーングレーディングパラメータは、1つの優先度に対応し、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行うか、
前記第1の音声信号の前記シーングレーディングパラメータを、前記第1の音声信号の優先度として利用するか、又は
複数の指定された範囲閾値に基づいて、前記第1の音声信号の前記シーングレーディングパラメータの範囲を決定し、前記第1の音声信号の前記シーングレーディングパラメータの前記範囲に対応する優先度を、前記第1の音声信号の優先度として決定する
ように特に構成される、
請求項18~21のいずれか1項に記載の装置。
【請求項23】
前記処理モジュールは、
現在利用可能なビット量と、前記M個の音声信号の前記M個の優先度とに基づいて、ビット割り当てを実行することであって、より多量のビットが、より高い優先度を持つ音声信号に割り当てられる、ことを行う
ように特に構成される、
請求項17~22のいずれか1項に記載の装置。
【請求項24】
前記処理モジュールは、
第1の音声信号のビット量比率を、前記第1の音声信号の前記優先度に基づいて決定することであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行い、
前記現在利用可能なビット量と、前記第1の音声信号の前記ビット量比率との積に基づいて、前記第1の音声信号のビット量を取得する
ように特に構成される、
請求項23に記載の装置。
【請求項25】
前記処理モジュールは、
指定された第2の対応関係から、第1の音声信号のビット量を、前記第1の音声信号の前記優先度に基づいて決定することであって、前記第2の対応関係は、複数の優先度と複数のビット量との間の対応関係を含み、1つ又は複数の優先度は、1つのビット量に対応し、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行う
ように特に構成される、
請求項23に記載の装置。
【請求項26】
前記処理モジュールは、
指定された関係閾値以上の前記優先度パラメータに対応する音声信号を、前記第1の音声信号セットに追加するように特に構成される、
請求項17に記載の装置。
【請求項27】
前記処理モジュールは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを取得することであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行い、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第1のシーングレーディングパラメータを取得し、
前記第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得し、
前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第2のシーングレーディングパラメータを取得し、
前記第1のシーングレーディングパラメータと前記第2のシーングレーディングパラメータとに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得する
ように特に構成され、
前記移動グレーディングパラメータは、空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項18に記載の装置。
【請求項28】
前記処理モジュールは、
第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを、前記第1の音声信号に対応するメタデータに基づいて、又は、前記第1の音声信号と前記第1の音声信号に対応する前記メタデータとに基づいて取得することであって、前記第1の音声信号は、前記M個の音声信号のいずれか1つである、ことを行い、
前記第1の音声信号に対応する前記メタデータに基づいて、又は、前記第1の音声信号と前記第1の音声信号に対応する前記メタデータとに基づいて、前記第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得し、
前記移動グレーディングパラメータと、前記音量グレーディングパラメータと、前記展開グレーディングパラメータと、前記拡散グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第1のシーングレーディングパラメータを取得し、
前記状態グレーディングパラメータと、前記優先度グレーディングパラメータと、前記信号グレーディングパラメータとのうちの前記取得された1つ又は複数のものに基づいて、前記第1の音声信号の第2のシーングレーディングパラメータを取得し、
前記第1のシーングレーディングパラメータと前記第2のシーングレーディングパラメータとに基づいて、前記第1の音声信号のシーングレーディングパラメータを取得する
ように特に構成され、
前記移動グレーディングパラメータは、前記空間シーンにおける単位時間内の前記第1の音声信号の移動速度を記述し、前記音量グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生音量を記述し、前記展開グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の再生展開範囲を記述し、前記拡散グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の拡散範囲を記述し、前記状態グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の音源ダイバージェンスを記述し、前記優先度グレーディングパラメータは、前記空間シーンにおける前記第1の音声信号の優先度を記述し、前記信号グレーディングパラメータは、エンコーディングプロセスにおける前記第1の音声信号のエネルギーを記述する、
請求項18に記載の装置。
【請求項29】
前記処理モジュールは、
前記第1のシーングレーディングパラメータに基づいて、前記第1の音声信号の第1の優先度を取得し、
前記第2のシーングレーディングパラメータに基づいて、前記第1の音声信号の第2の優先度を取得し、
前記第1の優先度と前記第2の優先度とに基づいて、前記第1の音声信号の前記優先度を取得する
ように特に構成される、
請求項27又は28に記載の装置。
【請求項30】
前記処理モジュールは、
前記M個の音声信号に割り当てられたビットの量に基づいて、前記M個の音声信号をエンコードし、エンコードされたビットストリームを取得する
ようにさらに構成される、
請求項17~29のいずれか1項に記載の装置。
【請求項31】
前記エンコードされたビットストリームは、前記M個の音声信号のビット量を含む、
請求項30に記載の装置。
【請求項32】
前記エンコードされたビットストリームを受信するように構成されたトランシーバモジュールをさらに含み、前記処理モジュールは、前記M個の音声信号のそれぞれのビット量を取得し、前記M個の音声信号のそれぞれの前記ビット量と前記エンコードされたビットストリームとに基づいて、前記M個の音声信号を再構築する
ようにさらに構成される、
請求項30又は31に記載の装置。
【請求項33】
1つ又は複数のプロセッサと、1つ又は複数のプログラムを格納するように構成されたメモリと、を含み、前記1つ又は複数のプログラムが、前記1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、請求項1~16のいずれか1項に記載の方法を実施させる、デバイス。
【請求項34】
コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムが、コンピュータ上で実行されるとき、前記コンピュータに、請求項1~16のいずれか1項に記載の方法を実行させる、コンピュータ可読記憶媒体。
【請求項35】
プロセッサと、通信インターフェースとを含むエンコーディング装置であって、前記プロセッサは、前記通信インターフェースを介してコンピュータプログラムを読み出して記憶し、前記コンピュータプログラムは、プログラム命令を含み、前記プロセッサは、前記プログラム命令を呼び出して、請求項1~16のいずれか1項に記載の方法を実行するように構成される、エンコーディング装置。
【請求項36】
プロセッサと、メモリとを含むエンコーディング装置であって、前記プロセッサは、請求項14に記載の方法を実行するように構成され、前記メモリは、エンコードされたビットストリームを格納するように構成される、エンコーディング装置。
【請求項37】
請求項1~16のいずれか1項に記載の方法をコンピュータに実行させるように構成された、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2020年4月30日に中国国家知的産権局に提出され、“BIT ALLOCATION METHOD AND APPARATUS FOR AUDIO SIGNAL”と題された中国特許出願第202010368424.9号の優先権を主張し、その全体が参照によって本明細書に組み込まれる。
【0002】
この出願は、音声処理技術に関し、特に、音声信号に対するビット割り当て方法及び装置に関する。
【背景技術】
【0003】
音声は、人間が情報を取得するための主要な方法の一つである。高性能なコンピュータ及び信号処理技術の急速な発展に伴い、没入型の音声技術がより注目を集めている。没入型の三次元音声(3D音声)技術は、音声表現を高次元空間に拡張することによって、より良好な三次元音声体験をユーザに提供する。三次元音声技術は、再生側の複数の音声チャンネルを利用して単純に表現を実行することはない。代わりに、音声信号は、三次元空間において再構築され、音声は、レンダリング技術を利用して三次元空間において表現される。
【0004】
中国内外における三次元音声エンコーディング及びデコーディング標準において、各音声信号に割り当てられ、かつエンコーディング及びデコーディングに利用されるビット量は、再生側での音声信号の空間特徴に基づいて音声信号の違いを反映することができず、音声信号の特徴に適合させることができない。このことは、音声信号のエンコーディング及びデコーディング効率を低減させる。
【発明の概要】
【0005】
この出願は、音声信号の特徴に適合させるための、音声信号に対するビット割り当て方法及び装置を提供する。加えて、異なる音声信号がエンコーディングのための異なるビット量に適合する。このことは、音声信号のエンコーディング及びデコーディング効率を改善する。
【0006】
第1の態様によれば、この出願は、音声信号に対するビット割り当て方法を提供する。
方法は、現在フレーム内のT個の音声信号を取得するステップであって、Tは、正の整数である、ステップと、T個の音声信号に基づいて、第1の音声信号セットを決定するステップであって、第1の音声信号セットは、M個の音声信号を含み、Mは、正の整数であり、T個の音声信号は、M個の音声信号を含み、T≧Mである、ステップと、第1の音声信号セット内のM個の音声信号のM個の優先度を決定するステップと、M個の音声信号のM個の優先度に基づいて、M個の音声信号へのビット割り当てを実行するステップと、を含む。
【0007】
この出願において、複数の音声信号の優先度は、現在フレームに含まれる複数の音声信号の特徴と、メタデータ内の音声信号の関連情報とに基づいて決定され、各音声信号に割り当てられるビット量は、音声信号の特徴に適合するように、優先度に基づいて決定される。加えて、異なる音声信号は、エンコーディングのための異なるビット量に適合しうる。このことは、音声信号のエンコーディング及びデコーディング効率を改善する。
【0008】
可能な実装において、第1の音声信号セット内のM個の音声信号のM個の優先度を決定するステップは、M個の音声信号のそれぞれのシーングレーディング(scene grading)パラメータを取得するステップと、M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、M個の音声信号のM個の優先度を決定するステップと、を含む。
【0009】
可能な実装において、M個の音声信号のそれぞれのシーングレーディングパラメータを取得するステップは、第1の音声信号の、移動(movement)グレーディングパラメータと、音量(loudness)グレーディングパラメータと、展開(spread)グレーディングパラメータと、拡散(diffuseness)グレーディングパラメータと、状態(status)グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得するステップであって、第1の音声信号は、M個の音声信号のいずれか1つである、ステップと、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するステップと、を含み、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンス(divergence)を記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0010】
複数の次元(dimensions)における情報に関して、音声信号の優先度は、音声信号の複数のパラメータに基づいて取得されうる。
【0011】
可能な実装において、現在フレーム内のT個の音声信号を取得するとき、方法は、現在フレーム内のS個のグループのメタデータを取得するステップであって、Sは、正の整数であり、T≧Sであり、S個のグループのメタデータは、T個の音声信号に対応し、メタデータは、空間シーンにおける対応する音声信号の状態を記述する、ステップをさらに含む。
【0012】
メタデータは、空間シーンにおける対応する音声信号の状態の記述情報として利用され、その後に音声信号のシーングレーディングパラメータを取得するための信頼できる効果的な基準を提供しうる。
【0013】
可能な実装において、M個の音声信号のそれぞれのシーングレーディングパラメータを取得するステップは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて取得するステップであって、第1の音声信号は、M個の音声信号のいずれか1つである、ステップと、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するステップと、を含み、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0014】
音声信号の複数のパラメータと音声信号のメタデータとに関して、複数の次元における情報に関して音声信号の信頼できる優先度が取得されうる。
【0015】
可能な実装において、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するステップは、
移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された複数のものについて重み付け平均を実行して、シーングレーディングパラメータを取得するステップ、
移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された複数のものについて平均を実行して、シーングレーディングパラメータを取得するステップ、又は
シーングレーディングパラメータとして、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つのものを利用するステップ、を含む。
【0016】
可能な実装において、M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、M個の音声信号のM個の優先度を決定するステップは、
第1の音声信号のシーングレーディングパラメータに対応する優先度を、指定された第1の対応関係に基づいて、第1の音声信号の優先度として決定するステップであって、第1の対応関係は、複数のシーングレーディングパラメータと複数の優先度との間の対応関係を含み、1つ又は複数のシーングレーディングパラメータは、1つの優先度に対応し、第1の音声信号は、M個の音声信号のいずれか1つである、ステップ、
第1の音声信号のシーングレーディングパラメータを、第1の音声信号の優先度として利用するステップ、又は
複数の指定された範囲閾値に基づいて、第1の音声信号のシーングレーディングパラメータの範囲を決定し、第1の音声信号のシーングレーディングパラメータの範囲に対応する優先度を、第1の音声信号の優先度として決定するステップ、を含む。
【0017】
可能な実装において、M個の音声信号のM個の優先度に基づいて、M個の音声信号へのビット割り当てを実行するステップは、現在利用可能なビット量と、M個の音声信号のM個の優先度とに基づいて、ビット割り当てを実行するステップであって、より多量のビットが、より高い優先度を持つ音声信号に割り当てられる、ステップを含む。
【0018】
可能な実装において、現在利用可能なビット量と、M個の音声信号のM個の優先度とに基づいて、ビット割り当てを実行するステップは、第1の音声信号のビット量比率を、第1の音声信号の優先度に基づいて決定するステップであって、第1の音声信号は、M個の音声信号のいずれか1つである、ステップと、現在利用可能なビット量と、第1の音声信号のビット量比率との積に基づいて、第1の音声信号のビット量を取得するステップと、を含む。
【0019】
可能な実装において、現在利用可能なビット量と、M個の音声信号のM個の優先度とに基づいて、ビット割り当てを実行するステップは、指定された第2の対応関係から、第1の音声信号のビット量を、第1の音声信号の優先度に基づいて決定するステップであって、第2の対応関係は、複数の優先度と複数のビット量との間の対応関係を含み、1つ又は複数の優先度は、1つのビット量に対応し、第1の音声信号は、M個の音声信号のいずれか1つである、ステップを含む。
【0020】
可能な実装において、T個の音声信号に基づいて、第1の音声信号セットを決定するステップは、T個の音声信号のうちの事前指定された音声信号を第1の音声信号セットに追加するステップを含む。
【0021】
可能な実装において、T個の音声信号に基づいて、第1の音声信号セットを決定するステップは、T個の音声信号内にあり、かつS個のグループのメタデータに対応する音声信号を、第1の音声信号セットに追加するステップ、又は指定された関係(participation)閾値以上の優先度パラメータに対応する音声信号を、第1の音声信号セットに追加するステップであって、メタデータは、優先度パラメータを含み、T個の音声信号は、優先度パラメータに対応する音声信号を含む、ステップを含む。
【0022】
可能な実装において、M個の音声信号のそれぞれのシーングレーディングパラメータを取得するステップは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを取得するステップであって、第1の音声信号は、M個の音声信号のいずれか1つである、ステップと、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第1のシーングレーディングパラメータを取得するステップと、第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得するステップと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第2のシーングレーディングパラメータを取得するステップと、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて、第1の音声信号のシーングレーディングパラメータを取得するステップと、を含み、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0023】
可能な実装において、M個の音声信号のそれぞれのシーングレーディングパラメータを取得するステップは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて取得するステップであって、第1の音声信号は、M個の音声信号のいずれか1つである、ステップと、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第1のシーングレーディングパラメータを取得するステップと、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて、第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得するステップと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第2のシーングレーディングパラメータを取得するステップと、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて、第1の音声信号のシーングレーディングパラメータを取得するステップと、を含み、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0024】
この出願において、音声信号の異なる特徴について、音声信号に関連する複数のシーングレーディングパラメータが、複数の方法を利用して取得され、次いで、音声信号の優先度が、複数のシーングレーディングパラメータに基づいて決定される。この方法で取得される優先度は、音声信号の複数の特徴を指しうるし、異なる特徴に対応する実装解決策とも互換性がありうる。
【0025】
可能な実装において、M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、M個の音声信号のM個の優先度を決定するステップは、第1のシーングレーディングパラメータに基づいて、第1の音声信号の第1の優先度を取得するステップと、第2のシーングレーディングパラメータに基づいて、第1の音声信号の第2の優先度を取得するステップと、第1の優先度と第2の優先度とに基づいて、第1の音声信号の優先度を取得するステップと、を含む。
【0026】
この出願において、音声信号の異なる特徴について、音声信号に関連する複数の優先度が、複数の方法を利用して取得され、次いで、複数の優先度について互換性がある組み合わせが実行され、音声信号の最終的な優先度を取得する。この方法で取得される優先度は、音声信号の複数の特徴を指しうるし、異なる特徴に対応する実装解決策とも互換性がありうる。
【0027】
第2の態様によれば、この出願は、音声信号エンコーディング方法を提供する。
第1の態様の実装のいずれか1つによる、音声信号に対するビット割り当て方法が実行された後、方法は、M個の音声信号に割り当てられたビットの量に基づいて、M個の音声信号をエンコードし、エンコードされたビットストリームを取得するステップをさらに含む。
【0028】
可能な実装において、エンコードされたビットストリームは、M個の音声信号のビット量を含む。
【0029】
第3の態様によれば、この出願は、音声信号デコーディング方法を提供する。
第1の態様の実装のいずれか1つによる、音声信号に対するビット割り当て方法が実行された後、方法は、エンコードされたビットストリームを受信するステップと、第1の態様の実装のいずれか1つによる、音声信号に対するビット割り当て方法を実行することによって、M個の音声信号のそれぞれのビット量を取得するステップと、M個の音声信号のそれぞれのビット量とエンコードされたビットストリームとに基づいて、M個の音声信号を再構築するステップと、をさらに含む。
【0030】
第4の態様によれば、この出願は、音声信号のためのビット割り当て装置を提供する。
装置は、現在フレーム内のT個の音声信号を取得することであって、Tは、正の整数である、ことを行い、T個の音声信号に基づいて、第1の音声信号セットを決定することであって、第1の音声信号セットは、M個の音声信号を含み、Mは、正の整数であり、T個の音声信号は、M個の音声信号を含み、T≧Mである、ことを行い、第1の音声信号セット内のM個の音声信号のM個の優先度を決定し、M個の音声信号のM個の優先度に基づいて、M個の音声信号へのビット割り当てを実行するように構成された処理モジュールを含む。
【0031】
可能な実装において、処理モジュールは、M個の音声信号のそれぞれのシーングレーディングパラメータを取得し、M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、M個の音声信号のM個の優先度を決定するように特に構成される。
【0032】
可能な実装において、処理モジュールは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0033】
可能な実装において、処理モジュールは、現在フレーム内のS個のグループのメタデータを取得することであって、Sは、正の整数であり、T≧Sであり、S個のグループのメタデータは、T個の音声信号に対応し、メタデータは、空間シーンにおける対応する音声信号の状態を記述する、ことを行うように特に構成される。
【0034】
可能な実装において、処理モジュールは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0035】
可能な実装において、処理モジュールは、
移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された複数のものについて重み付け平均を実行して、シーングレーディングパラメータを取得するか、
移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された複数のものについて平均を実行して、シーングレーディングパラメータを取得するか、又は
シーングレーディングパラメータとして、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つのものを利用する
ように特に構成される。
【0036】
可能な実装において、処理モジュールは、
第1の音声信号のシーングレーディングパラメータに対応する優先度を、指定された第1の対応関係に基づいて、第1の音声信号の優先度として決定することであって、第1の対応関係は、複数のシーングレーディングパラメータと複数の優先度との間の対応関係を含み、1つ又は複数のシーングレーディングパラメータは、1つの優先度に対応し、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行うか、
第1の音声信号のシーングレーディングパラメータを、第1の音声信号の優先度として利用するか、又は
複数の指定された範囲閾値に基づいて、第1の音声信号のシーングレーディングパラメータの範囲を決定し、第1の音声信号のシーングレーディングパラメータの範囲に対応する優先度を、第1の音声信号の優先度として決定する
ように特に構成される。
【0037】
可能な実装において、処理モジュールは、現在利用可能なビット量と、M個の音声信号のM個の優先度とに基づいて、ビット割り当てを実行することであって、より多量のビットが、より高い優先度を持つ音声信号に割り当てられる、ことを行うように特に構成される。
【0038】
可能な実装において、処理モジュールは、第1の音声信号のビット量比率を、第1の音声信号の優先度に基づいて決定することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、現在利用可能なビット量と、第1の音声信号のビット量比率との積に基づいて、第1の音声信号のビット量を取得するように特に構成される。
【0039】
可能な実装において、処理モジュールは、指定された第2の対応関係から、第1の音声信号のビット量を、第1の音声信号の優先度に基づいて決定することであって、第2の対応関係は、複数の優先度と複数のビット量との間の対応関係を含み、1つ又は複数の優先度は、1つのビット量に対応し、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行うように特に構成される。
【0040】
可能な実装において、処理モジュールは、T個の音声信号のうちの事前指定された音声信号を第1の音声信号セットに追加するように特に構成される。
【0041】
可能な実装において、処理モジュールは、
T個の音声信号内にあり、かつS個のグループのメタデータに対応する音声信号を、第1の音声信号セットに追加するか、又は
指定された関係閾値以上の優先度パラメータに対応する音声信号を、第1の音声信号セットに追加することであって、メタデータは、優先度パラメータを含み、T個の音声信号は、優先度パラメータに対応する音声信号を含む、ことを行う
ように特に構成される。
【0042】
可能な実装において、処理モジュールは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第1のシーングレーディングパラメータを取得し、第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得し、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第2のシーングレーディングパラメータを取得し、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0043】
可能な実装において、処理モジュールは、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第1のシーングレーディングパラメータを取得し、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて、第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得し、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第2のシーングレーディングパラメータを取得し、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0044】
可能な実装において、処理モジュールは、第1のシーングレーディングパラメータに基づいて、第1の音声信号の第1の優先度を取得し、第2のシーングレーディングパラメータに基づいて、第1の音声信号の第2の優先度を取得し、第1の優先度と第2の優先度とに基づいて、第1の音声信号の優先度を取得するように特に構成される。
【0045】
可能な実装において、処理モジュールは、M個の音声信号に割り当てられたビットの量に基づいて、M個の音声信号をエンコードし、エンコードされたビットストリームを取得するようにさらに構成される。
【0046】
可能な実装において、エンコードされたビットストリームは、M個の音声信号のビット量を含む。
【0047】
可能な実装において、装置は、エンコードされたビットストリームを受信するように構成されたトランシーバモジュールをさらに含む。処理モジュールは、M個の音声信号のそれぞれのビット量を取得し、M個の音声信号のそれぞれのビット量とエンコードされたビットストリームとに基づいて、M個の音声信号を再構築するようにさらに構成される。
【0048】
第5の態様によれば、この出願は、デバイスを提供する。デバイスは、1つ又は複数のプロセッサと、1つ又は複数のプログラムを格納するように構成されたメモリと、を含む。1つ又は複数のプログラムが、1つ又は複数のプロセッサによって実行されるとき、1つ又は複数のプロセッサは、第1の態様~第3の態様の実装のいずれか1つによる方法を実施可能になる。
【0049】
第6の態様によれば、この出願は、コンピュータプログラムを含むコンピュータ可読記憶媒体を提供する。コンピュータプログラムが、コンピュータ上で実行されるとき、コンピュータは、第1の態様~第3の態様の実装のいずれか1つによる方法を実行可能になる。
【0050】
第7の態様によれば、この出願は、第2の態様による方法を利用することによって取得された、エンコードされたビットストリームを含む、コンピュータ可読記憶媒体を提供する。
【0051】
第8の態様によれば、この出願は、プロセッサと、通信インターフェースとを含むエンコーディング装置を提供する。プロセッサは、通信インターフェースを介してコンピュータプログラムを読み出して記憶する。コンピュータプログラムは、プログラム命令を含む。プロセッサは、プログラム命令を呼び出して、第1の態様~第3の態様の実装のいずれか1つによる方法を実行するように構成される。
【0052】
第9の態様によれば、この出願は、プロセッサと、メモリとを含むエンコーディング装置を提供する。プロセッサは、第2の態様による方法を実行するように構成される。メモリは、エンコードされたビットストリームを格納するように構成される。
【図面の簡単な説明】
【0053】
図1A】この出願において適用される音声エンコーディング及びデコーディングシステム10の模式的ブロック図の例である。
図1B】例示的実施形態による音声コーディングシステム40の例の説明図である。
図2】この出願による音声コーディングデバイス200の構造の模式図である。
図3】例示的実施形態による装置300の簡素化されたブロック図である。
図4】この出願を実装するための音声信号に対するビット割り当て方法の模式的フローチャートである。
図5】空間シーンにおける音声信号の位置の模式図の例である。
図6】空間シーンにおける音声信号の優先度の模式図の例である。
図7】この出願の実施形態による装置の構造の模式図である。
図8】この出願の実施形態によるデバイスの構造の模式図である。
【発明を実施するための形態】
【0054】
この出願の目的、技術的解決策、及び利点をより明確にするために、以下では、この出願の添付図を参照しながら、この出願の技術的解決策について明確説明する。明らかに、説明される実施形態は、この出願の実施形態の全てではなく一部である。この出願の実施形態に基づいて、創作的努力なしに当業者によって得られる全ての他の実施形態は、この出願の保護範囲に収まるべきである。
【0055】
この出願の実施形態、特許請求の範囲、及び明細書の添付図において、用語“第1の”、“第2の”などは、単に区別して説明することを意図しており、相対的な重要性の表示又は含意として、又は、順序の表示又は含意として理解すべきでない。加えて、用語“含む”、“有する”、及びそれらの任意の変形は、非排他的包含をカバーすること、例えば、一連のステップ又はユニットを含むことを意図している。方法、システム、製品、又はデバイスは、逐語的に列挙されるそれらのステップ又はユニットに必ずしも限定されず、逐語的に列挙されてはいない又はそのようなプロセス、方法、製品、又はデバイスに固有である他のステップ又はユニットを含むことがある。
【0056】
この出願において、“少なくとも1つの(アイテム)”は、1つ以上を指し、“複数の”は、2つ以上を指すと理解すべきである。用語“及び/又は”は、関連付けられたオブジェクトの間の関連付け関係を記述するために利用され、3つの関係が存在しうることを表す。例えば、“A及び/又はB”は、以下の3つのケース、即ち、Aのみが存在すること、Bのみが存在すること、A及びBの両方が存在することを表しうる。ここで、A及びBは、単数であってもよいし、複数であってもよい。記号“/”は、一般に、関連付けられたオブジェクトの間で“又は”の関係を示す。“以下のアイテム(ピース)のうちの少なくとも1つ”又はその類似表現は、単一のアイテム(ピース)又は複数のアイテム(ピース)の任意の組み合わせを含む、これらのアイテムの任意の組み合わせを意味する。例えば、a、b、又はcのうちの少なくとも1つのアイテム(ピース)は、a、b、c、aとb、aとc、bとc、又は、aとbとcを示しうる。ここで、a、b、cは、単数であってもよいし、複数であってもよい。
【0057】
この出願における関連用語の説明は以下の通りである。
【0058】
音声フレーム:音声データがストリーム形式である。実際に適用する際、音声処理及び伝送を容易にするため、1期間内の音声データ量は、通常、音声のフレームとして選択される。期間は、“サンプリング時間”と称され、期間の値は、コーデック及び具体的なアプリケーションの要件に基づいて決定されうる。例えば、期間は、2.5ms~60msであり、msは、ミリ秒である。
【0059】
音声信号:音声信号は、声、音楽、及び音響効果を持つ規則的な音波の周波数及び振幅変化情報キャリアである。音声は、連続的に変化するアナログ信号であり、連続的な曲線によって表現することができ、音波と称される。アナログ-デジタル変換を通じて又はコンピュータを利用して音声から生成されるデジタル信号は、音声信号である。音波は、音声信号の特徴を決定する3つの重要なパラメータ、即ち、周波数、振幅、及び位相を有する。
【0060】
メタデータ:メタデータ(Metadata)は、中間データ又は中継データとも称され、データについてのデータ(data about data)であり、主にデータ特性(property)を記述し、記憶位置表示、履歴データ、リソース探索、及びファイル記録などの機能をサポートする。メタデータは、構成(organization)、領域(domain)、及びデータの関係についての情報である。即ち、メタデータは、データについてのデータである。この出願において、メタデータは、空間シーンにおける、対応する音声信号の状態を記述する。3次元音声:
【0061】
以下のものは、この出願が適用されるシステムアーキテクチャである。
【0062】
図1Aは、この出願において適用される音声エンコーディング及びデコーディングシステム10の模式的ブロック図の例である。図1Aに示すように、音声エンコーディング及びデコーディングシステム10は、ソースデバイス12と、宛先デバイス14とを含みうる。ソースデバイス12は、エンコードされた音声データを生成し、従って、ソースデバイス12は、音声エンコーディング装置と称されることがある。宛先デバイス14は、ソースデバイス12によって生成された、エンコードされた音声データをデコードすることがあり、従って、宛先デバイス14は、音声デコーディング装置と称されることがある。ソースデバイス12、宛先デバイス14、又は、ソースデバイス12又は宛先デバイス14の様々な実装解決策は、1つ又は複数のプロセッサと、1つ又は複数のプロセッサに結合されたメモリとを含みうる。メモリは、それらに限定されないが、ランダムアクセスメモリ(random access memory, RAM)、リードオンリーメモリ(read-only memory, ROM)、フラッシュメモリ、又は、コンピュータによってアクセス可能な命令又はデータ構造の形態で所望のプログラムコードを格納するために利用されうる任意の他の媒体を含みうる。ソースデバイス12及び宛先デバイス14は、デスクトップコンピュータ、モバイルコンピューティング装置、ノートブック(例えば、ラップトップ)コンピュータ、タブレットコンピュータ、セットトップボックス、所謂“スマート”フォンなどのテレフォンハンドセット、テレビ、カメラ、ディスプレイ装置、デジタルメディアプレーヤ、音声ゲームコンソール、車載コンピュータ、無線通信デバイスなどを含む様々な装置を含みうる。
【0063】
図1Aは、ソースデバイス12と、宛先デバイス14とを別個のデバイスとして描画しているが、デバイス実施形態は、代替的に、ソースデバイス12と宛先デバイス14との両方、又は、ソースデバイス12と宛先デバイス14との両方の機能、即ち、ソースデバイス12又は対応する機能と、宛先デバイス14又は対応する機能とを含むことがある。そのような実施形態において、ソースデバイス12又は対応する機能と、宛先デバイス14又は対応する機能とは、同じハードウェア及び/又はソフトウェア、別個のハードウェア及び/又はソフトウェア、又はそれらの任意の組み合わせを利用して実装されうる。
【0064】
ソースデバイス12と宛先デバイス14との間の通信接続は、リンク13を介して実装されうる。宛先デバイス14は、リンク13を介して、エンコードされた音声データを、ソースデバイス12から受信しうる。リンク13は、エンコードされた音声データをソースデバイス12から宛先デバイス14へと移動することが可能な1つ又は複数の媒体又は装置を含みうる。例において、リンク13は、ソースデバイス12が、エンコードされた音声データを宛先デバイス14へと直接的にリアルタイムで伝送することを可能にする1つ又は複数の通信媒体を含みうる。この例において、ソースデバイス12は、通信標準(例えば、無線通信プロトコル)に従ってエンコードされた音声データを変調してよく、変調された音声データを宛先デバイス14へと伝送してよい。1つ又は複数の通信媒体は、無線通信媒体及び/又は有線通信媒体、例えば、無線周波数(RF)スペクトラム、又は、1つ又は複数の物理伝送回線を含みうる。1つ又は複数の通信媒体は、パケットベースのネットワークの一部を構成することがあり、パケットベースのネットワークは、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、又はグローバルネットワーク(例えば、インターネット)である。1つ又は複数の通信媒体は、ルータ、スイッチ、基地局、又は、ソースデバイス12から宛先デバイス14への通信を容易にする他のデバイスを含むことがある。
【0065】
ソースデバイス12は、エンコーダ20を含む。任意選択で、ソースデバイス12は、音源16と、音声プリプロセッサ18と、通信インターフェース22とをさらに含みうる。具体的な実装形態において、エンコーダ20と、音源16と、音声プリプロセッサ18と、通信インターフェース22とは、ソースデバイス12内のハードウェアコンポーネントであってもよいし、ソースデバイス12内のソフトウェアプログラムであってもよい。説明は、以下のようになる。
【0066】
音源16は、例えば、実世界音声をキャプチャするように構成された任意のタイプの音声キャプチャデバイス、及び/又は、任意のタイプの音声生成デバイス、例えば、コンピュータ音声プロセッサ、又は、実世界音声、コンピュータアニメーション音声(例えば、画面コンテンツ及び仮想現実(VR)内の音声)及び/又はそれらの任意の組み合わせ(例えば、拡張現実(AR)内の音声)を取得及び/又は提供するように構成された任意のタイプのデバイスを含んでもよいし、そのものであってもよい。音源16は、音声をキャプチャするためのマイクロフォン、又は音声を記憶するためのメモリであってよい。音源16は、以前にキャプチャされた又は生成された音声を記憶するための、及び/又は音声を取得又は受信するための任意のタイプの(内部又は外部)インターフェースをさらに含んでよい。音源16がマイクロフォンであるとき、音源16は、例えば、局所音声収集装置又はソースデバイスに統合された音声収集装置であってよい。音源16がメモリであるとき、音源16は、例えば、ローカルメモリ又はソースデバイスに統合されたメモリであってよい。音源16がインターフェースを含むとき、インターフェースは、例えば、外部音源から音声を受信するための外部インターフェースであってよい。外部音源は、例えば、スピーカ、マイクロフォン、外部メモリ、又は外部音声生成デバイスなどの外部音声キャプチャデバイスである。外部音声生成装置は、例えば、外部コンピュータグラフィックスプロセッサ、コンピュータ、又はサーバである。インターフェースは、任意のプロプライエタリの又は標準化されたインターフェースプロトコルに従う、任意のタイプのインターフェース、例えば、有線又は無線インターフェース、又は、光インターフェースであってよい。
【0067】
音声は、ピクセル(画素)の1次元ベクトルとみなされうる。ベクトル内のピクセルは、サンプルと称されることもある。ベクトル又は音声上のサンプルの数量は、音声のサイズを定義する。この出願において、音源16によって音声プロセッサへと伝送される音声は、オリジナル音声データ17と称されることもある。
【0068】
音声プリプロセッサ18は、オリジナル音声データ17を受信し、オリジナル音声データ17上での前処理を実行して、前処理された音声19又は前処理された音声データ19を取得するように構成される。例えば、音声プリプロセッサ18によって実行される前処理は、トリミング、チューニング、又はノイズ除去を含みうる。
【0069】
エンコーダ20(又は音声エンコーダ20と称される)は、前処理された音声データ19を受信し、前処理された音声データ19を処理して、エンコードされた音声データ21を提供するように構成される。いくつかの実施形態において、エンコーダ20は、以下で説明される様々な実施形態を実行して、この出願において説明される、音声信号に対するビット割り当て方法のエンコーダ側への適用を実施するように構成されうる。
【0070】
通信インターフェース22は、エンコードされた音声データ21を受信し、記憶又は直接再構築のために、リンク13を介して、エンコードされた音声データ21を宛先デバイス14又は任意の他のデバイス(例えば、メモリ)へと伝送するように構成されうる。任意の他のデバイスは、デコーディング又は記憶のための任意のデバイスであってよい。通信インターフェース22は、リンク13を介して伝送するために、例えば、エンコードされた音声データ21を適切なフォーマット、例えば、データパケットにカプセル化するように構成されうる。
【0071】
宛先デバイス14は、デコーダ30を含む。任意選択で、宛先デバイス14は、通信インターフェース28と、音声ポストプロセッサ32と、再生デバイス34とをさらに含みうる。説明は、以下のようになる。
【0072】
通信インターフェース28は、エンコードされた音声データ21を、ソースデバイス12又は任意の他のソースから受信するように構成されうる。任意の他のソースは、例えば、ストレージデバイスである。ストレージデバイスは、例えば、エンコードされた音声データのストレージデバイスである。通信インターフェース28は、ソースデバイス12と宛先デバイス14との間のリンク13を介して、又は、任意のタイプのネットワークを介して、エンコードされた音声データ21を伝送又は受信するように構成されうる。リンク13は、例えば、直接有線又は無線接続である。任意のタイプのネットワークは、例えば、有線又は無線ネットワーク又はそれらの任意の組み合わせ、又は、任意のタイプのプライベート又はパブリックネットワーク、又は、それらの任意の組み合わせである。通信インターフェース28は、例えば、通信インターフェース28を介して伝送されたデータパケットに対してカプセル除去を行い、エンコードされた音声データ21を取得するように構成されうる。
【0073】
通信インターフェース28と通信インターフェース22との両方は、一方向性の通信インターフェース又は双方向性の通信インターフェースとして構成されてよく、例えば、メッセージを送信及び受信して接続を確立し、通信リンク及び/又はエンコードされた音声データ伝送などのデータ伝送に関する任意の他の情報を知らせ及び交換するように構成されうる。
【0074】
デコーダ30(又は音声デコーダ30と称される)は、エンコードされた音声データ21を受信し、デコードされた音声データ31又はデコードされた音声31を提供するように構成される。いくつかの実施形態において、デコーダ30は、以下で説明する様々な実施形態を実行して、この出願において説明される、音声信号に対するビット割り当て方法のデコーダ側への適用を実施するように構成されうる。
【0075】
音声ポストプロセッサ32は、デコードされた音声データ31(再構築された音声データとも称される)上での後処理を実行して、後処理された音声データ33を取得するように構成される。音声ポストプロセッサ32によって実行される後処理は、トリミング、又は再サンプリング、又は任意の他の処理を含んでよく、後処理された音声データ33を再生デバイス34へと伝送するようにさらに構成されてよい。
【0076】
再生デバイス34は、後処理された音声データ33を受信して、例えば、ユーザ又はリスナーに向けて、音声を再生するように構成される。再生デバイス34は、再構築された音声を提供するように構成された任意のタイプのプレーヤ、例えば、統合された又は外部のスピーカ又は拡声器であってもよいし、それを含んでもよい。
【0077】
図1Aは、ソースデバイス12と宛先デバイス14とを別個のデバイスとして描画しているけれども、デバイス実施形態は、代替的に、ソースデバイス12と宛先デバイス14との両方、又は、ソースデバイス12と宛先デバイス14との両方の機能、即ち、ソースデバイス12又は対応する機能と宛先デバイス14又は対応する機能とを含んでいてよい。そのような実施形態において、ソースデバイス12又は対応する機能と、宛先デバイス14又は対応する機能とは、同じハードウェア及び/又はソフトウェア、別個のハードウェア及び/又はソフトウェア、又は、それらの任意の組み合わせを利用して実装されうる。
【0078】
説明に基づいて、異なるユニットの機能の存在及び(正確な)分割、又は、図1Aに示したソースデバイス12及び/又は宛先デバイス14の機能は、実際のデバイス及びアプリケーションに伴い変わりうると当業者は明らかに理解する。ソースデバイス12と宛先デバイス14とは、任意のタイプのハンドヘルド又はステーショナリデバイス、例えば、ノートブック又はラップトップコンピュータ、モバイルフォン、スマートフォン、パッド又はタブレットコンピュータ、ビデオカメラ、デスクトップコンピュータ、セットトップボックス、テレビジョンセット、カメラ、車載デバイス、再生デバイス、デジタルメディアプレーヤ、ゲームコンソール、メディアストリーミング伝送デバイス(コンテンツサービスサーバ又はコンテンツ配信サーバなど)、ブロードキャストレシーバデバイス、又はブロードキャスト伝送デバイスを含む、広い範囲のデバイスのいずれか1つであってよく、任意のタイプのオペレーティングシステムを利用しなくてもよいし、利用してもよい。
【0079】
エンコーダ20とデコーダ30とはそれぞれ、様々な適切な回路、例えば、1つ又は複数のマイクロプロセッサ、デジタルシグナルプロセッサ(digital signal processors, DSPs)、特定用途向け集積回路(application-specific integrated circuits, ASICs)、フィールドプログラマブルゲートアレイ(field programmable gate arrays, FPGAs)、ディスクリートロジック、ハードウェア、又はそれらの任意の組み合わせのいずれか1つとして実装されうる。ソフトウェアを利用して技術が部分的に実装される場合、デバイスは、適切な非一時的なコンピュータ可読記憶媒体にソフトウェア命令を格納してよく、1つ又は複数のプロセッサなどのハードウェアを利用して命令を実行して、この開示の技術を実行しうる。上記内容(ハードウェア、ソフトウェア、ハードウェアとソフトウェアとの組み合わせなどを含む)のいずれかは、1つ又は複数のプロセッサとみなされうる。
【0080】
いくつかのケースでは、図1Aに示した音声エンコーディング及びデコーディングシステム10は、単なる例であり、この出願の技術は、エンコーディングデバイスとデコーディングデバイスとの間の任意のデータ通信を必ずしも含まない音声コーディング設定(例えば、音声エンコーディング又は音声デコーディング)に適用されうる。他の例において、データは、ローカルメモリから取り出されたり、ネットワークを介してストリーミング方式で伝送されたりすることなどがある。音声エンコーディングデバイスは、データをエンコードして、データをメモリに格納してよく、及び/又は、音声デコーディングデバイスは、メモリからデータを取り出してデコードしてよい。いくつかの例において、エンコーディングとデコーディングとは、互いに通信しないデバイスによって実行されるが、単純にデータをメモリへとエンコードし、及び/又は、メモリからデータと取り出してデコードする。
【0081】
図1Bは、例示的実施形態による音声コーディングシステム40の例の説明図である。音声コーディングシステム40は、この出願の実施形態における様々な技術の組み合わせを実装することができる。説明される実装において、音声コーディングシステム40は、マイクロフォン41、エンコーダ20、デコーダ30(及び/又は、処理ユニット46のロジック回路47を利用して実装される音声エンコーダ/デコーダ)、アンテナ42、1つ又は複数のプロセッサ43、1つ又は複数のメモリ44、及び/又は再生デバイス45を含みうる。
【0082】
図1Bに示すように、マイクロフォン41、アンテナ42、処理ユニット46、ロジック回路47、エンコーダ20、デコーダ30、プロセッサ43、メモリ44、及び/又は再生デバイス45は、互いに通信することができる。説明したように、音声コーディングシステム40は、エンコーダ20とデコーダ30とを持つように示されているけれども、音声コーディングシステム40は、異なる例において、エンコーダ20のみ又はデコーダ30のみを含むことがある。
【0083】
いくつかの例において、アンテナ42は、音声データのエンコードされたビットストリームを伝送又は受信するように構成されうる。加えて、いくつかの例において、再生デバイス45は、音声データを再生するように構成されうる。いくつかの例において、ロジック回路47は、処理ユニット46を利用して実装されうる。処理ユニット46は、特定用途向け集積回路(application-specific integrated circuit, ASIC)ロジック、グラフィックス処理ユニット、汎用プロセッサなどを含みうる。音声コーディングシステム40は、オプションのプロセッサ43を含んでもよい。オプションのプロセッサ43は、同様に、特定用途向け集積回路(application-specific integrated circuit, ASIC)ロジック、グラフィックス処理ユニットなどを含みうる。いくつかの例において、ロジック回路47は、ハードウェア、例えば、音声コーディング専用ハードウェアを利用して実装されうる。プロセッサ43は、汎用ソフトウェア、オペレーティングシステムなどを利用して実装されうる。加えて、メモリ44は、任意のタイプのメモリ、例えば、揮発性メモリ(例えば、静的ランダムアクセスメモリ(Static Random Access Memory, SRAM)、又は動的ランダムアクセスメモリ(Dynamic Random Access Memory, DRAM)、又は不揮発性メモリ(例えば、フラッシュメモリ))であってよい。非限定的な例において、メモリ44は、キャッシュメモリを利用して実装されうる。いくつかの例において、ロジック回路47は、メモリ44にアクセスしうる。他の例において、ロジック回路47及び/又は処理ユニット46は、バッファなどの実装のためにメモリ(例えば、キャッシュ)を含みうる。
【0084】
いくつかの例において、ロジック回路を利用して実装されるエンコーダ20は、バッファ(例えば、処理ユニット46又はメモリ44を利用して実装される)と、音声処理ユニット(例えば、処理ユニット46を利用して実装される)とを含みうる。音声処理ユニットは、バッファと通信可能に接続されうる。音声処理ユニットは、この明細書で説明される任意の他のエンコーダシステム又はサブシステムの様々なモジュールを実装するために、ロジック回路47を利用して実装されるエンコーダ20を含みうる。ロジック回路は、この明細書で説明される様々な動作を実行するように構成されうる。
【0085】
いくつかの例において、デコーダ30は、同様の方式で、ロジック回路47を利用して実装され、この明細書において説明される任意の他のデコーダシステム又はサブシステムの様々なモジュールを実装しうる。いくつかの例において、ロジック回路を利用して実装されるデコーダ30は、バッファ(処理ユニット46又はメモリ44を利用して実装される)と、音声処理ユニット(例えば、処理ユニット46を利用して実装される)とを含みうる。音声処理ユニットは、バッファと通信可能に結合されうる。音声処理ユニットは、ロジック回路47を利用して実装されるデコーダ30を含み、この明細書において説明される任意の他のデコーダシステム又はサブシステムの様々なモジュールを実装しうる。
【0086】
いくつかの例において、アンテナ42は、音声データのエンコードされたビットストリームを受信するように構成されうる。論じたように、エンコードされたビットストリームは、音声フレームに関して、この明細書で説明されている音声信号データ、メタデータなどを含みうる。音声コーディングシステム40は、アンテナ42に結合され、エンコードされたビットストリームをデコードするように構成されているデコーダ30をさらに含みうる。再生デバイス45は、音声フレームを再生するように構成される。
【0087】
この出願において、エンコーダ20に関連して説明される例については、デコーダ30が逆のプロセスを実行するように構成されうると理解すべきである。メタデータに関連し、デコーダ30は、そのようなメタデータを受信して解析し、それに対応して、関連する音声データをデコードするように構成されうる。いくつかの例において、エンコーダ20は、メタデータをエントロピー符号化してエンコードされた音声ビットストリームにしうる。そのような例において、デコーダ30は、そのようなメタデータを解析し、それに対応して、関連する音声データをデコードしうる。
【0088】
図2は、この出願による音声コーディングデバイス200(例えば、音声エンコーディングデバイス又は音声デコーディングデバイス)の構造の模式図である。音声コーディングデバイス200は、この出願において説明される実施形態を実装するために適している。実施形態において、音声コーディングデバイス200は、音声デコーダ(例えば、図1Aのデコーダ30)又は音声エンコーダ(例えば、図1Aのエンコーダ20)であってよい。他の実施形態において、音声コーディングデバイス200は、図1Aのデコーダ30又は図1Aのエンコーダ20の1つ又は複数のコンポーネントであってよい。
【0089】
音声コーディングデバイス200は、データを受信するための入口(ingress)ポート210及びレシーバユニット(Rx)220と、データを処理するためのプロセッサ、ロジックユニット又は中央処理ユニット(CPU)230と、データを伝送するためのトランスミッタユニット(Tx)240及び出口(egress)ポート250と、データを格納するためのメモリ260とを含む。音声コーディングデバイス200は、入口ポート210と、レシーバユニット220と、トランスミッタユニット240と、出口ポート250とに結合される、光又は電気信号の出入りのための光-電気変換コンポーネント及び電気-光(EO)コンポーネントをさらに含んでよい。
【0090】
プロセッサ230は、ハードウェア及びソフトウェアを利用して実装される。プロセッサ230は、1つ又は複数のCPUチップ、コア(例えば、マルチコアプロセッサ)、FPGA、ASIC、及びDSPとして実装されうる。プロセッサ230は、入口ポート210と、レシーバユニット220と、トランスミッタユニット240と、出口ポート250と、メモリ260と通信する。プロセッサ230は、コーディングモジュール270(例えば、エンコーディングモジュール270又はデコーディングモジュール270)を含む。エンコーディング/デコーディングモジュール270は、この明細書において開示される実施形態を実装して、この出願において提供される音声信号に対するビット割り当て方法を実装する。例えば、エンコーディング/デコーディングモジュール270は、プロセスを実装し、又は様々なコーディング動作を提供する。従って、エンコーディング/デコーディングモジュール270は、音声コーディングデバイス200の機能に実質的な改善を提供し、音声コーディングデバイス200の異なる状態へのスイッチングに影響を及ぼす。代替的に、エンコーディング/デコーディングモジュール270は、メモリ260に格納され、プロセッサ230によって実行される命令として実装される。
【0091】
メモリ260は、1つ又は複数のディスク、テープドライブ、及びソリッドステートドライブを含み、そのようなプログラムが選択的に実行されるときにはプログラムを格納するために、また、プログラム実行の際には読み出される命令及びデータを格納するために、オーバーフローデータストレージデバイスとして利用されうる。メモリ260は、揮発性及び/又は不揮発性であってよく、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、三値連想メモリ(ternary content-addressable memory, TCAM)、及び/又は静的ランダムアクセスメモリ(SRAM)であってよい。
【0092】
図3は、例示的実施形態による装置300の簡略化されたブロック図である。装置300は、この出願の技術を実装することができる。言い換えると、図3は、この出願によるエンコーディングデバイス又はデコーディングデバイス(簡潔にコーディングデバイス300と称する)の実装の模式的ブロック図である。装置300は、プロセッサ310と、メモリ330と、バスシステム350とを含みうる。プロセッサ及びメモリは、バスシステムを介して接続される。メモリは、命令を格納するように構成される。プロセッサは、メモリに格納された命令を実行するように構成される。コーディングデバイスのメモリは、プログラムコードを格納する。プロセッサは、メモリに格納されたプログラムコードを呼び出して、この出願において説明される方法を実行しうる。繰り返しを避けるため、詳細については、ここでは再び説明されない。
【0093】
この出願において、プロセッサ310は、中央処理ユニット(Central Processing Unit, 略して“CPU”)であってもよいし、プロセッサ310は、他の汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、プロセッサは、任意の従来のプロセッサなどであってもよい。
【0094】
メモリ330は、リードオンリーメモリ(ROM)デバイス、又はランダムアクセスメモリ(RAM)デバイスを含んでいてよい。任意の他の適切なタイプのストレージデバイスが、メモリ330として利用されることもある。メモリ330は、バス350を介してプロセッサ310によってアクセスされるコード及びデータ331を含みうる。メモリ330は、オペレーティングシステム333及びアプリケーション335をさらに含みうる。
【0095】
データバスに加えて、バスシステム350は、電力バス、制御バス、ステータスシグナルバスなどをさらに含むことがある。しかし、説明を明確にするため、図中の様々なタイプのバスは、バスシステム350として示されている。
【0096】
任意選択で、コーディングデバイス300は、1つ又は複数の出力デバイス、例えば、スピーカ370をさらに含んでよい。例において、スピーカ370は、ヘッドセット又はラウドスピーカであってよい。スピーカ370は、バス350を介してプロセッサ310に接続されうる。
【0097】
上記の実施形態の説明に基づき、この出願は、音声信号に対するビット割り当て方法を提供する。図4は、この出願を実装するための音声信号に対するビット割り当て方法の模式的フローチャートである。プロセス400は、ソースデバイス12又は宛先デバイス14によって実行されうる。プロセス400は、一連のステップ又は動作として記述される。プロセス400のステップ又は動作は、図4に示した実行順序に限定されず、様々な順序で及び/又は同時に、実行されうると理解すべきである。図4に示すように、方法は、以下のステップを含む。
【0098】
ステップ401:現在フレーム内のT個の音声信号を取得する。
【0099】
Tは、正の整数である。現在フレームは、この出願における方法を実行するプロセスで、現在時点で取得される音声フレームである。没入型ステレオ音響効果を作り出すために、三次元音声技術において、異なる音声がもはや、複数のチャンネルを利用して表現されるほど単純でなく、異なる音声信号を利用して表現される。例えば、環境は、人の音声、音楽サウンド、及び車両の音を含み、3つの音声信号は、人の音声、音楽サウンド、及び車両の音を表現するために別々に利用される。次いで、各音声は、三次元空間における複数の音声を表現するように、3つの音声信号に基づいて三次元空間内で再構築される。言い換えると、音声フレームは、複数の音声信号を含んでよく、1つの音声信号は、現実の声、音楽、又は音響効果を表す。音声信号を音声フレームから抽出するための任意の技術がこの出願において利用されうることに留意すべきである。このことは特に限定されない。
【0100】
可能な実装において、現在フレーム内のS個のグループのメタデータが取得され、S個のグループのメタデータは、T個の音声信号に対応する。例えば、T個の音声信号のそれぞれは、1つのグループのメタデータに対応する。この場合、S=Tである。他の例では、T個の音声信号の一部のみがメタデータに対応する。この場合、T>Sである。このことは特に限定されない。
【0101】
この出願において、音声データ及びメータデータは、このプロセスにおいて、オリジナルの声、音楽、音響効果などの前処理に基づいて、エンコーダ側で別々に生成される。エンコーダ側は、音声フレームの、現在フレームの開始時間(サンプル)及び終了時間(サンプル)に対応する法則に基づいて、対応する時間範囲内のメタデータを、現在フレームのメタデータとして選択しうる。デコーダ側は、受信したビットストリームを解析して、現在フレームのメタデータを取得しうる。
【0102】
この出願において、メタデータは、空間シーンにおける音声信号の状態を記述する。例えば、表1は、メタデータの例を記述する。メタデータに含まれるパラメータは、オブジェクトインデックス(object_index)、方位角(position_azimuth)、仰角(position_elevation)、位置半径(position_radius)、ゲイン係数(gain_factor)、均一展開度(spread_uniform)、展開幅(spread_width)、展開高さ(spread_height)、展開深度(spread_depth)、拡散性(diffuseness)、優先度(priority)、ダイバージェンス(divergence)、及び速度(speed)を含む。メタデータは、上記のパラメータの値範囲とビットの量とを記録する。メタデータは、他のパラメータ及びパラメータ記録形式をさらに含みうることに留意すべきである。このことは、この出願において特に限定されない。
【0103】
【表1】
【0104】
ステップ402:T個の音声信号に基づいて第1の音声信号セットを決定する。
【0105】
第1の音声信号セットは、M個の音声信号を含み、Mは、正の整数であり、T個の音声信号は、M個の音声信号を含み、T≧Mである。この出願において、T個の音声信号内の、メタデータに対応する音声信号が、第1の音声信号セットに追加されうる。言い換えると、上記のT個の音声信号の全てがメタデータに対応する場合、T個の音声信号の全てが、第1の音声信号セットに追加されうる。上記のT個の音声信号の一部のみがメタデータに対応する場合、これらの音声信号のみが第1の音声信号セットに追加される必要がある。この出願において、T個の音声信号のうちの事前に指定された音声信号は、第1の音声信号セットにさらに追加されうる。T個の音声信号の一部又は全部は、上位レイヤ(high-layer)シグナリングを介して又はユーザによって指定された方式で第1の音声信号セットに追加されうる。任意選択で、第1の音声信号セットに追加される音声信号のインデックスは、上位レイヤシグナリングを介して直接的に構成される。代替的に、ユーザは、声、音楽、又は音響効果を指定し、指定されたオブジェクトの音声信号を第1の音声信号セットに追加する。この出願において、メタデータに記録された音声信号の優先度パラメータがさらに参照されうる。優先度パラメータは、三次元音声における、対応する音声信号の重要度を示す。優先度パラメータが、指定された関係閾値以上であるとき、T個の音声信号内の、優先度パラメータに対応する音声信号が、第1の音声信号セットに追加される。
【0106】
上記のことは、現在フレーム内のT個の音声信号を分類する(即ち、T個の音声信号の全部又は一部を第1の音声信号セットに追加する)ための、いくつかの方法を提供していることに留意すべきである。方法は、この出願における全ての限定を構成することはできないと理解すべきである。上位レイヤシグナリング、メタデータ内の他のパラメータなどを参照する他の指定方式を含む他の方法が、この出願においてさらに利用されうる。
【0107】
ステップ403:第1の音声信号セット内のM個の音声信号のM個の優先度を決定する。
【0108】
この出願において、M個の音声信号のそれぞれのシーングレーディングパラメータが、最初に取得されてよく、次いで、M個の音声信号のM個の優先度が、M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて決定される。
【0109】
シーングレーディングパラメータは、音声信号の、音声信号の関連パラメータに基づいて取得される重要度インジケータであってよい。関連パラメータは、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを含みうる。これらのパラメータは、音声信号の信号特徴に基づいて取得されてもよいし、音声信号のメタデータに基づいて取得されてもよい。移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述する。音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述する。展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述する。拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述する。状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述する。優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述する。信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0110】
以下では、上記のパラメータを取得する方法を説明するための例として、i番目の音声信号を利用する。i番目の音声信号は、M個の音声信号のうちのいずれか1つである。以下のいくつかのパラメータは、説明のための例であり、シーングレーディングパラメータは、代替的に、他のパラメータ又は音声信号の特徴に基づいて計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0111】
(1)移動グレーディングパラメータ
【0112】
移動グレーディングパラメータは、以下の式に従って計算されうる。
【0113】
【数1】
【0114】
ここで、speedRatioiは、i番目の音声信号の移動グレーディングパラメータを示す。f(di)は、空間シーンにおけるi番目の音声信号の移動状態とメタデータとの間のマッピング関係を示す。diは、単位時間内でのi番目の音声信号の移動距離を示す。
【0115】
【数2】
【0116】
θiは、i番目の音声信号が移動した後のレンダリング中心点に対するi番目の音声信号の方位角を示す。
【0117】
【数3】
【0118】
は、i番目の音声信号が移動した後のレンダリング中心点に対するi番目の音声信号の仰角を示す。riは、i番目の音声信号が移動した後のレンダリング中心点に対するi番目の音声信号の距離を示す。θ0は、i番目の音声信号が移動する前のレンダリング中心点に対するi番目の音声信号の方位角を示す。
【0119】
【数4】
【0120】
は、i番目の音声信号が移動する前のレンダリング中心点に対するi番目の音声信号の仰角を示す。r0は、i番目の音声信号が移動する前のレンダリング中心点に対するi番目の音声信号の距離を示す。図5に示すように、球面座標が、空間シーンにおける三次元音声の位置を示すこと、球面中心が、レンダリング中心点として利用されること、球面半径が、空間シーンにおけるi番目の音声信号の位置と球面中心との間の距離であること、空間シーンにおけるi番目の音声信号の位置と水平面との間の夾角が、i番目の音声信号の仰角であること、空間シーンにおけるi番目の音声信号の位置の水平面上への投影とレンダリング中心点の正面との間の夾角が、i番目の音声信号の方位角であること、そして、
【0121】
【数5】
【0122】
が、空間シーンにおけるM個の音声信号の移動状態とメタデータとの間のマッピング関係の和を示すこと、が仮定される。
【0123】
代替的に、移動グレーディングパラメータは、以下の式に従って計算されうる。
【0124】
【数6】
【0125】
ここで、
【0126】
【数7】
【0127】
は、単位時間内でのM個の音声信号の移動距離の和を示す。
【0128】
移動グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0129】
(2)音量グレーディングパラメータ
【0130】
音量グレーディングパラメータは、以下の式に従って計算されうる。
【0131】
【数8】
【0132】
ここで、loudRatioiは、i番目の音声信号の音量グレーディングパラメータを示す。
【0133】
【数9】
【0134】
は、空間シーンにおけるi番目の音声信号の再生音量と、信号特徴及びメタデータの両方との間のマッピング関係を示す。Aiは、現在フレーム内のi番目の音声信号のサンプルの振幅の和又は平均値を示す。サンプルの振幅は、i番目の音声信号のメタデータに基づいて取得されうる。gainiは、現在フレーム内の音声信号のゲイン値を示し、i番目の音声信号のメタデータに基づいて取得されうる。riは、現在フレームにおけるi番目の音声信号からレンダリング中心点までの距離を示し、i番目の音声信号のメタデータに基づいて取得されうる。
【0135】
【数10】
【0136】
は、空間シーンにおけるM個の音声信号の再生音量と、信号特徴及びメタデータの両方との間のマッピング関係の和を示す。
【0137】
代替的に、音量グレーディングパラメータは、以下の式に従って計算されうる。
【0138】
【数11】
【0139】
ここで、mean(Ai)は、現在フレームにおけるi番目の音声信号のサンプルの振幅の和又は平均値を示す。サンプルの振幅は、i番目の音声信号のメタデータに基づいて取得されうる。
【0140】
【数12】
【0141】
は、現在フレームにおけるM個の音声信号のサンプルの振幅の和又は平均値を示す。
【0142】
代替的に、音量グレーディングパラメータは、以下の式に従って計算されうる。
【0143】
【数13】
【0144】
ここで、riは、i番目の音声信号とレンダリング中心点との間の距離を示し、i番目の音声信号のメタデータに基づいて取得されうる。
【0145】
【数14】
【0146】
は、M個の音声信号とレンダリング中心点との間の距離の逆数の合計を示す。
【0147】
代替的に、音量グレーディングパラメータは、以下の式に従って計算されうる。
【0148】
【数15】
【0149】
ここで、gainiは、レンダリングにおけるi番目の音声信号のゲインを示す。ゲインは、ユーザによってi番目の音声信号をカスタマイズすることによって取得されてもよいし、指定されたルールに従ってデコーダによって生成されてもよい。
【0150】
【数16】
【0151】
は、レンダリングにおけるM個の音声信号のゲインの和を示す。
【0152】
音量グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0153】
(3)展開グレーディングパラメータ
【0154】
展開グレーディングパラメータは、現在フレーム内のi番目の音声信号の展開度を記述し、i番目の音声信号の展開関連のメタデータに基づいて取得されうる。展開グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0155】
(4)拡散グレーディングパラメータ
【0156】
拡散グレーディングパラメータは、現在フレーム内のi番目の音声信号の拡散を記述し、i番目の音声信号の拡散関連のメタデータに基づいて取得されうる。拡散グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0157】
(5)状態グレーディングパラメータ
【0158】
状態グレーディングパラメータは、現在フレーム内のi番目の音声信号のダイバージェンスを記述し、i番目の音声信号のダイバージェンス関連のメタデータに基づいて取得されうる。状態グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0159】
(6)優先度グレーディングパラメータ
【0160】
優先度グレーディングパラメータは、現在フレーム内のi番目の音声信号の優先度を記述し、i番目の音声信号の優先度関連のメタデータに基づいて取得されうる。優先度グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0161】
(7)信号グレーディングパラメータ
【0162】
信号グレーディングパラメータは、現在フレームのエンコーディングプロセスにおけるi番目の音声信号のエネルギーを記述し、オリジナルのi番目の音声信号のエネルギーに基づいて取得されてもよいし、i番目の音声信号が前処理された後に取得される信号エネルギーに基づいて取得されてもよい。信号グレーディングパラメータは、代替的に、他の方法を利用して計算されうることに留意すべきである。このことは、この出願において特に限定されない。
【0163】
i番目の音声信号のパラメータのうちの上記の1つ又は複数のものが取得された後、i番目の音声信号のシーングレーディングパラメータsceneRatioiが、パラメータの1つ又は複数のものに基づいて計算されうる。言い換えると、i番目の音声信号のシーングレーディングパラメータsceneRatioiは、パラメータの1つ又は複数のものについての関数であってよく、以下のように表現されうる。
【0164】
【数17】
【0165】
関数は、線形であってもよいし、非線形であってもよい。このことは、この出願において特に限定されない。
【0166】
可能な実装において、重み付け平均が、i番目の音声信号のパラメータのうちの上記の1つ又は複数のもの、例えば、移動グレーディングパラメータ、音量グレーディングパラメータ、展開グレーディングパラメータ、拡散グレーディングパラメータ、状態グレーディングパラメータ、優先度グレーディングパラメータ、及び信号グレーディングパラメータのうちの複数のものに対して実行され、i番目の音声信号のシーングレーディングパラメータ、即ち、
【0167】
【数18】
【0168】
を取得しうる。
【0169】
ここで、α1-α4は、対応するパラメータの別々の重み係数である。重み係数の値は、0から1まで(0と1とを含めて)の任意の値であってよい。重み係数の和は1である。重み係数の値がより大きいほど、シーングレーディングパラメータの計算に際して、対応するパラメータの、より高い重要度と、より高い比率とを示す。値が0の場合、それは、対応するパラメータがシーングレーディングパラメータの計算に関係しないことを示す。言い換えると、パラメータに対応する音声信号の特徴は、シーングレーディングパラメータの計算に際して考慮されない。値が1の場合、それは、対応するパラメータだけが、シーングレーディングパラメータの計算に際して考慮されることを示す。言い換えると、パラメータに対応する音声信号の特徴は、シーングレーディングパラメータの計算のための唯一の基準になる。重み係数の値は、事前設定されてもよいし、この出願における方法の実行プロセス内での適応的な計算を介して取得されてもよい。このことは、この出願において特に限定されない。任意選択で、i番目の音声信号のパラメータのうちの上記の1つ又は複数のもののうちの1つだけが取得される場合、そのパラメータは、i番目の音声信号のシーングレーディングパラメータとして利用される。
【0170】
可能な実装において、平均が、i番目の音声信号のパラメータのうちの上記の1つ又は複数ののもの、例えば、移動グレーディングパラメータ、音量グレーディングパラメータ、展開グレーディングパラメータ、拡散グレーディングパラメータ、状態グレーディングパラメータ、優先度グレーディングパラメータ、及び信号グレーディングパラメータのうちの複数のものに対して実行され、i番目の音声信号のシーングレーディングパラメータ、即ち、
【0171】
【数19】
【0172】
を取得しうる。
【0173】
上記の関数において、i番目の音声信号のシーングレーディングパラメータが計算されることに留意すべきである。上記では、i番目の音声信号のシーングレーディングパラメータを計算するための2つの関数実装方法を提供している。他の計算方法が、代替的に、この出願において利用されうる。このことは特に限定されない。
【0174】
この出願において、i番目の音声信号のシーングレーディングパラメータに基づいて、i番目の音声信号の優先度は、以下の方法を利用して取得されうる。シーングレーディングパラメータとi番目の音声信号の優先度との間に線形関係がある。言い換えると、より大きなシーングレーディングパラメータは、より大きな優先度を示す。図6に示すように、空間シーンは、球面中心としてレンダリング中心を利用する。球面中心により近い音声信号は、より高い優先度を有する。球面中心からより遠い音声信号は、より低い優先度を有する。
【0175】
可能な実装において、i番目の音声信号のシーングレーディングパラメータに対応する優先度は、指定された第1の対応関係に基づいて、i番目の音声信号の優先度として決定されうる。第1の対応関係は、複数のシーングレーディングパラメータと、複数の優先度との間の対応関係を含む。1つ又は複数のシーングレーディングパラメータは、1つの優先度に対応する。
【0176】
過去のデータ及び/又は音声信号エンコーディングの経験蓄積に基づいて、音声信号の優先度、及び、シーングレーディングパラメータと各優先度との間の対応関係は、事前設定されうる。例えば、表2は、シーングレーディングパラメータと優先度との間の第1の対応関係の例を記述する。
【0177】
【表2】
【0178】
表2において、i番目の音声信号のシーングレーディングパラメータが0.4であるとき、対応する優先度は、6である。この場合、i番目の音声信号の優先度は、6である。i番目の音声信号のシーングレーディングパラメータが0.1であるとき、対応する優先度は、9である。この場合、i番目の音声信号の優先度は、9である。表2は、シーングレーディングパラメータと優先度との間の対応関係の例であり、この出願において、そのような対応関係についての限定を構成しないことに留意すべきである。
【0179】
可能な実装において、i番目の音声信号のシーングレーディングパラメータは、i番目の音声信号の優先度として利用されうる。
【0180】
この出願において、優先度は分類されなくてよく、i番目の音声信号のシーングレーディングパラメータは、i番目の音声信号の優先度として直接的に利用される。
【0181】
可能な実装において、i番目の音声信号のシーングレーディングパラメータの範囲は、指定された範囲閾値に基づいて決定されてよく、i番目の音声信号のシーングレーディングパラメータの範囲に対応する優先度が、i番目の音声信号の優先度として決定される。
【0182】
過去のデータ及び/又は音声信号エンコーディングの経験蓄積に基づいて、音声信号の優先度、及び、シーングレーディングパラメータの範囲と各優先度との対応関係が事前設定されうる。例えば、表3は、シーングレーディングパラメータと優先度との間の第1の対応関係の他の例を記述する。
【0183】
【表3】
【0184】
表3において、i番目の音声信号のシーングレーディングパラメータが0.6であるとき、シーングレーディングパラメータの範囲は、[0.6,0.7)であり、対応する優先度は、4である。この場合、i番目の音声信号の優先度は、4である。i番目の音声信号のシーングレーディングパラメータが0.15であるとき、シーングレーディングパラメータの範囲は、[0.1,0.2)であり、対応する優先度は、9である。この場合、i番目の音声信号の優先度は、9である。表3は、シーングレーディングパラメータと優先度との間の対応関係の例であり、この出願において、そのような対応関係についての限定を構成しないことに留意すべきである。
【0185】
ステップ404:M個の音声信号のM個の優先度に基づいて、M個の音声信号に対するビット割り当てを実行する。
【0186】
この出願において、ビット割り当ては、現在利用可能なビット量と、M個の音声信号のM個の優先度とに基づいて実行されうる。より多量のビットが、より高い優先度を持つ音声信号に割り当てられる。現在利用可能なビット量は、コーデックがビット割り当てを実行する前の現在フレームにおける第1の音声信号セット内のM個の音声信号に割り当てることができるビットの総量を指す。
【0187】
可能な実装において、第1の音声信号のビット量比率は、第1の音声信号の優先度に基づいて決定されうる。第1の音声信号は、M個の音声信号のいずれか1つである。第1の音声信号のビット量は、現在利用可能なビット量と、第1の音声信号のビット量比率との積に基づいて取得される。対応関係が、優先度と音声信号のビット量比率との間に事前に確立されている。1つの優先度が1つのビット量比率に対応してもよいし、複数の優先度が1つのビット割り当て比率に対応してもよい。音声信号に割り当てることができる対応するビットの量は、ビット量比率と、現在利用可能なビット量とに基づく計算を介して取得されうる。例えば、Mが3であり、第1の音声信号の優先度が1であり、第2の音声信号の優先度が2であり、第3の音声信号の優先度が3である。優先度1に対応する比率が50%に設定され、優先度2に対応する比率が30%に設定され、優先度3に対応する比率が20%に設定され、現在利用可能なビット量が100であると仮定する。この場合、第1の音声信号に割り当てられるビットの量は50であり、第2の音声信号に割り当てられるビットの量は30であり、第3の音声信号に割り当てられるビットの量は20である。異なる音声フレームにおいて、優先度に対応するビット量は、適応的に調整されうることに留意すべきである。このことは特に限定されない。
【0188】
可能な実装において、第1の音声信号の優先度に対応するビット量は、指定された第2の対応関係に基づいて、第1の音声信号のビット量として決定されうる。第2の対応関係は、複数の優先度と、複数のビット量との間の対応関係を含む。1つ又は複数の優先度が、1つのビット量に対応する。対応関係が、優先度と音声信号のビット量との間に事前確立されている。1つの優先度が1つのビット量に対応してもよいし、複数の優先度が1つのビット量に対応してもよい。音声信号の優先度が取得されるとき、対応関係に基づいて、対応するビット量が取得されうる。例えば、Mが3であり、第1の音声信号の優先度が1であり、第2の音声信号の優先度が2であり、第3の音声信号の優先度が3である。優先度1に対応するビット量が50に設定され、優先度2に対応するビット量が30に設定され、優先度3に対応するビット量が20に設定されていると仮定する。
【0189】
可能な実装において、音声信号のシーングレーディングパラメータが信号グレーディングパラメータを含まないとき、そして、シーングレーディングパラメータが小さいとき、音声信号の間のシーングレーディング差が非常に小さいとみなされる。この場合、音声信号の間のビット割り当ては、エンコーディング及びデコーディングプロセスにおける音声信号の間の絶対エネルギー比に基づいて決定されうる。音声信号のシーングレーディングパラメータが信号グレーディングパラメータを含まないとき、そして、音声信号のシーングレーディングパラメータが大きいとき、音声信号の間のシーングレーディング差が非常に大きいとみなされる。この場合、音声信号間のビット割り当ては、音声信号のシーングレーディングパラメータに基づいて決定されうる。他の場合、音声信号のビット割り当ては、音声信号のビット割り当て係数に基づいて決定されうる。従って、以下の式が存在しうる。sceneRatioiは、i番目の音声信号のシーングレーディングパラメータを示す。bits_availableは、現在利用可能なビット量を示す。bits_objectiは、i番目の音声信号に割り当てられるビットの量を示す。
【0190】
sceneRatioi≦δであり、bits_objecti=nrgRatioi×bits_availableであるとき、δは、シーングレーディングパラメータの上限を示し、nrgRatioiは、i番目の音声信号と他の音声信号との間の絶対エネルギー比を示す。
【0191】
sceneRatioi≧τであり、bits_objecti=sceneRatioi×bits_availableであるとき、τは、シーングレーディングパラメータの下限を示す。
【0192】
上記の2つの場合に加え、bits_objecti=objRatioi×bits_availableであり、objRatioiは、i番目の音声信号のビット割り当て係数を示す。
【0193】
音声信号に割り当てられるビットの量を決定するための上で説明された方法に加え、他の方法が実装に利用されうることに留意すべきである。このことは、この出願において特に限定されない。
【0194】
この出願において、複数の音声信号の優先度は、現在フレームに含まれる複数の音声信号の特徴と、メタデータ内の、音声信号の関連情報とに基づいて決定され、各音声信号に割り当てられるビットの量は、音声信号の特徴に適合するように、優先度に基づいて決定される。加えて、異なる音声信号は、エンコーディングのための異なるビットの量に適合しうる。このことは、音声信号のエンコーディング及びデコーディング効率を改善する。
【0195】
この出願では、ステップ402において、M個の音声信号が、現在フレームのT個の音声信号から決定されて、第1の音声信号セットに追加される。ステップ403及びステップ404における方法は、M個の音声信号に利用される。各音声信号の優先度が最初に決定され、次いで、各音声信号に割り当てられるビットの量が、音声信号の優先度に基づいて決定される。T>Mであるとき、第1の音声信号セット内の音声信号は、現在フレーム内の音声信号の全てではなく、残りの音声信号は、第2の音声信号セットに追加されうる。第2の音声信号セットは、N個の音声信号を含み、N=T-Mである。N個の音声信号については、簡潔な方法が、N個の音声信号に割り当てられるビットの量を決定するために利用されうる。例えば、第2の音声信号セットの利用可能な総ビット量がNで平均化されて、各音声信号のビット量が得られる。言い換えると、第2の音声信号セットの利用可能なビット量の総量が、セット内のN個の音声信号に均等に割り当てられる。他の方法が、代替的に、第2の音声信号セット内の各音声信号のビット量を取得するために利用されうることに留意すべきである。このことは、この出願において特に限定されない。
【0196】
ステップ403において説明された、音声信号の優先度を決定するための方法に加え、この出願は、複数の優先度決定方法に基づく優先度組み合わせ方法、即ち、複数の方法を利用することによって優先度が取得されうる音声信号の、最終的な優先度を決定するための方法をさらに提供する。以下では、説明のための例として、第1の音声信号を利用する。第1の音声信号は、M個の音声信号のいずれか1つである。
【0197】
可能な実装において、第1の音声信号及び/又は第1の音声信号に対応するメタデータに基づいて、第1の音声信号の第1のパラメータセットと第2のパラメータセットとが取得される。第1のパラメータセットは、第1の音声信号の上記の関連パラメータ内の、移動グレーディングパラメータ、音量グレーディングパラメータ、展開グレーディングパラメータ、拡散グレーディングパラメータ、状態グレーディングパラメータ、優先度グレーディングパラメータ、及び信号グレーディングパラメータのうちの1つ又は複数のものを含む。第2のパラメータセットも、第1の音声信号の上記の関連パラメータ内の、移動グレーディングパラメータ、音量グレーディングパラメータ、展開グレーディングパラメータ、拡散グレーディングパラメータ、状態グレーディングパラメータ、優先度グレーディングパラメータ、及び信号グレーディングパラメータのうちの1つ又は複数のものを含む。第1のパラメータセットと第2のパラメータセットとは、同じパラメータを含んでもよいし、異なるパラメータを含んでもよい。第1の音声信号の第1のシーングレーディングパラメータは、第1のパラメータセットに基づいて取得される。ここで、ステップ403における、第1の音声信号セット内のM個の音声信号のシーングレーディングパラメータを決定する方法を参照するか、又は他の方法を利用されたい。第1の音声信号の第2のシーングレーディングパラメータは、第2のパラメータセットに基づいて取得される。ここで利用される方法は、第1のシーングレーディングパラメータを計算するための方法とは異なる。第1の音声信号のシーングレーディングパラメータは、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて取得される。この出願において、同じ音声信号についての2つの方法を利用することによる計算を介して取得されるシーングレーディングパラメータについては、音声信号の最終的なシーングレーディングパラメータを決定するために、重み付き平均化方法が利用されてもよいし、直接平均化方法が利用されてもよいし、より大きな値又はより小さな値を取得する方法が利用されてもよい。このことは特に限定されない。このように、音声信号のシーングレーディングパラメータは、多様な方式で取得され、様々なポリシーにおける計算解決策と互換性がありうる。
【0198】
可能な実装において、第1の音声信号の第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとが取得された後、第1の音声信号の第1の優先度が、第1のシーングレーディングパラメータに基づいて取得されうる。この場合、優先度は、ステップ403の方法を利用することによって取得されてもよいし、他の方法を利用することによって取得されてもよい。第1の音声信号の第2の優先度は、第2のシーングレーディングパラメータに基づいて取得される。ここで利用される方法は、第1の優先度を計算するための方法とは異なる。第1の音声信号の優先度は、第1の優先度と第2の優先度とに基づいて取得される。この出願において、同じ音声信号に対する2つの方法を利用することによる計算を介して取得される優先度については、音声信号の最終的な優先度を決定するために、重み付き平均化方法が利用されてもよいし、平均化方法が利用されてもよいし、より大きな値又はより小さな値を取得する方法が利用されてもよい。このことは特に限定されない。このように、音声信号の優先度は、多様な方式で取得され、様々なポリシーにおける計算解決策と互換性がありうる。
【0199】
この出願において、現在フレームのT個の音声信号に割り当てられるビットの量が、上記の実施形態における方法を利用して決定された後、ビットストリームが、T個の音声信号のビットの量に基づいて生成されうる。ビットストリームは、T個の第1の識別子と、T個の第2の識別子と、T個の第3の識別子とを含む。T個の音声信号は、T個の第1の識別子と、T個の第2の識別子と、T個の第3の識別子とに別個に対応する。第1の識別子は、対応する音声信号が属する音声信号セットを示す。第2の識別子は、対応する音声信号の優先度を示す。第3の識別子は、対応する音声信号のビット量を示す。ビットストリームは、デコーディングデバイスに送信される。ビットストリームを受信した後、デコーディングデバイスは、ビットストリームで搬送されるT個の第1の識別子と、T個の第2の識別子と、T個の第3の識別子とに基づいて、音声信号に対する上記のビット割り当て方法を実行して、T個の音声信号のビット量を決定する。代替的に、デコーディングデバイスは、T個の音声信号が属する音声信号セットと、優先度と、割り当てられるビットの量とを、ビットストリームで搬送されるT個の第1の識別子と、T個の第2の識別子と、T個の第3の識別子とに基づいて直接的に決定し、ビットストリームをデコードしてT個の音声信号を取得しうる。第1の識別子と、T個の第2の識別子と、T個の第3の識別子とは、図4に示した方法実施形態の原理上に追加される識別子情報であり、それによって、音声信号のエンコーダ側又はデコーダ側は、同じ方法に基づいて音声信号をエンコード又はデコードすることができる。
【0200】
図7は、この出願の実施形態による装置の構造の模式図である。図7に示すように、装置は、上記の実施形態におけるエンコーディングデバイス又はデコーディングデバイスに適用されうる。この実施形態における装置は、処理モジュール701と、トランシーバモジュール702とを含みうる。処理モジュール701は、現在フレーム内のT個の音声信号を取得することであって、Tは、正の整数である、ことを行い、T個の音声信号に基づいて、第1の音声信号セットを決定することであって、第1の音声信号セットは、M個の音声信号を含み、Mは、正の整数であり、T個の音声信号は、M個の音声信号を含み、T≧Mである、ことを行い、第1の音声信号セット内のM個の音声信号のM個の優先度を決定し、M個の音声信号のM個の優先度に基づいて、M個の音声信号へのビット割り当てを実行するように構成される。
【0201】
可能な実装において、処理モジュール701は、M個の音声信号のそれぞれのシーングレーディングパラメータを取得し、M個の音声信号のそれぞれのシーングレーディングパラメータに基づいて、M個の音声信号のM個の優先度を決定するように特に構成される。
【0202】
可能な実装において、処理モジュール701は、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0203】
可能な実装において、処理モジュール701は、現在フレーム内のS個のグループのメタデータを取得することであって、Sは、正の整数であり、T≧Sであり、S個のグループのメタデータは、T個の音声信号に対応し、メタデータは、空間シーンにおける対応する音声信号の状態を記述する、ことを行うように特に構成される。
【0204】
可能な実装において、処理モジュール701は、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0205】
可能な実装において、処理モジュール701は、
移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された複数のものについて重み付け平均を実行して、シーングレーディングパラメータを取得するか、
移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された複数のものについて平均を実行して、シーングレーディングパラメータを取得するか、又は
シーングレーディングパラメータとして、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータと、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つのものを利用する
ように特に構成される。
【0206】
可能な実装において、処理モジュール701は、
第1の音声信号のシーングレーディングパラメータに対応する優先度を、指定された第1の対応関係に基づいて、第1の音声信号の優先度として決定することであって、第1の対応関係は、複数のシーングレーディングパラメータと複数の優先度との間の対応関係を含み、1つ又は複数のシーングレーディングパラメータは、1つの優先度に対応し、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行うか、
第1の音声信号のシーングレーディングパラメータを、第1の音声信号の優先度として利用するか、又は
指定された範囲閾値に基づいて、第1の音声信号のシーングレーディングパラメータの範囲を決定し、第1の音声信号のシーングレーディングパラメータの範囲に対応する優先度を、第1の音声信号の優先度として決定する
ように特に構成される。
【0207】
可能な実装において、処理モジュール701は、現在利用可能なビット量と、M個の音声信号のM個の優先度とに基づいて、ビット割り当てを実行することであって、より多量のビットが、より高い優先度を持つ音声信号に割り当てられる、ことを行うように特に構成される。
【0208】
可能な実装において、処理モジュール701は、第1の音声信号のビット量比率を、第1の音声信号の優先度に基づいて決定することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、現在利用可能なビット量と、第1の音声信号のビット量比率との積に基づいて、第1の音声信号のビット量を取得するように特に構成される。
【0209】
可能な実装において、処理モジュール701は、指定された第2の対応関係から、第1の音声信号のビット量を、第1の音声信号の優先度に基づいて決定することであって、第2の対応関係は、複数の優先度と複数のビット量との間の対応関係を含み、1つ又は複数の優先度は、1つのビット量に対応し、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行うように特に構成される。
【0210】
可能な実装において、処理モジュール701は、T個の音声信号のうちの事前指定された音声信号を第1の音声信号セットに追加するように特に構成される。
【0211】
可能な実装において、処理モジュール701は、
T個の音声信号内にあり、かつS個のグループのメタデータに対応する音声信号を、第1の音声信号セットに追加するか、又は
指定された関係閾値以上の優先度パラメータに対応する音声信号を、第1の音声信号セットに追加することであって、メタデータは、優先度パラメータを含み、T個の音声信号は、優先度パラメータに対応する音声信号を含む、ことを行うように特に構成される。
【0212】
可能な実装において、処理モジュール701は、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第1のシーングレーディングパラメータを取得し、第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得し、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第2のシーングレーディングパラメータを取得し、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0213】
可能な実装において、処理モジュール701は、第1の音声信号の、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの1つ又は複数のものを、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて取得することであって、第1の音声信号は、M個の音声信号のいずれか1つである、ことを行い、移動グレーディングパラメータと、音量グレーディングパラメータと、展開グレーディングパラメータと、拡散グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第1のシーングレーディングパラメータを取得し、第1の音声信号に対応するメタデータに基づいて、又は、第1の音声信号と第1の音声信号に対応するメタデータとに基づいて、第1の音声信号の、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの1つ又は複数のものを取得し、状態グレーディングパラメータと、優先度グレーディングパラメータと、信号グレーディングパラメータとのうちの取得された1つ又は複数のものに基づいて、第1の音声信号の第2のシーングレーディングパラメータを取得し、第1のシーングレーディングパラメータと第2のシーングレーディングパラメータとに基づいて、第1の音声信号のシーングレーディングパラメータを取得するように特に構成され、
移動グレーディングパラメータは、空間シーンにおける単位時間内の第1の音声信号の移動速度を記述し、音量グレーディングパラメータは、空間シーンにおける第1の音声信号の再生音量を記述し、展開グレーディングパラメータは、空間シーンにおける第1の音声信号の再生展開範囲を記述し、拡散グレーディングパラメータは、空間シーンにおける第1の音声信号の拡散範囲を記述し、状態グレーディングパラメータは、空間シーンにおける第1の音声信号の音源ダイバージェンスを記述し、優先度グレーディングパラメータは、空間シーンにおける第1の音声信号の優先度を記述し、信号グレーディングパラメータは、エンコーディングプロセスにおける第1の音声信号のエネルギーを記述する。
【0214】
可能な実装において、処理モジュール701は、第1のシーングレーディングパラメータに基づいて、第1の音声信号の第1の優先度を取得し、第2のシーングレーディングパラメータに基づいて、第1の音声信号の第2の優先度を取得し、第1の優先度と第2の優先度とに基づいて、第1の音声信号の優先度を取得するように特に構成される。
【0215】
可能な実装において、処理モジュール701は、M個の音声信号に割り当てられたビットの量に基づいて、M個の音声信号をエンコードし、エンコードされたビットストリームを取得するようにさらに構成される。
【0216】
可能な実装において、エンコードされたビットストリームは、M個の音声信号のビット量を含む。
【0217】
可能な実装において、装置は、エンコードされたビットストリームを受信するように構成されたトランシーバモジュール702をさらに含む。処理モジュール701は、M個の音声信号のそれぞれのビット量を取得し、M個の音声信号のそれぞれのビット量とエンコードされたビットストリームとに基づいて、M個の音声信号を再構築するようにさらに構成される。
【0218】
この実施形態における装置は、図4に示した方法実施形態の技術的解決策を実行するように構成されうる。それらの実装原理及び技術的効果は類似しており、詳細については、ここで再び説明されない。
【0219】
図8は、この出願の実施形態によるデバイスの構造の模式図である。図8に示すように、デバイスは、上記の実施形態におけるエンコーディングデバイス又はデコーディングデバイスに適用されうる。この実施形態におけるデバイスは、プロセッサ801と、メモリ802とを含みうる。メモリ802は、1つ又は複数のプログラムを格納するように構成される。1つ又は複数のプログラムが、プロセッサ801によって実行されるとき、プロセッサ801は、図4に示した方法実施形態の技術的解決策を実施可能になる。
【0220】
実装プロセスにおいて、上記の方法実施形態におけるステップは、プロセッサ内のハードウェア集積ロジック回路によって、又は、ソフトウェアの形態の命令を利用して実装することができる。プロセッサは、汎用プロセッサ、デジタルシグナルプロセッサ(digital signal processor, DSP)、特定用途向け集積回路(application-specific integrated circuit, ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array, FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、又は、ディスクリートハードウェアコンポーネントであってよい。汎用プロセッサは、マイクロプロセッサであってよいし、又は、プロセッサは、任意の従来のプロセッサなどであってよい。この出願に関連して開示された方法のステップは、ハードウェアエンコーディングプロセッサによって直接的に実行されてもよいし、エンコーディングプロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、リードオンリーメモリ、プログラマブルリードオンリーメモリ、電気的消去可能なプログラマブルメモリ、又はレジスタなどの当該分野で成熟している記憶媒体内に配置されうる。記憶媒体は、メモリ内に配置される。プロセッサは、メモリ内の情報を読み出し、プロセッサのハードウェアと組み合わせて上記の方法におけるステップを完了させる。
【0221】
上記の実施形態におけるメモリは、揮発性メモリ又は不揮発性メモリであってもよいし、揮発性メモリと不揮発性メモリとの両方を含んでもよい。不揮発性メモリは、リードオンリーメモリ(read-only memory, ROM)、プログラマブルリードオンリーメモリ(programmable ROM, PROM)、消去可能なプログラマブルリードオンリーメモリ(erasable PROM, EPROM)、電気的消去可能なプログラマブルリードオンリーメモリ(electrically EPROM, EEPROM)、又はフラッシュメモリであってよい。揮発性メモリは、外部キャッシュとして利用されるランダムアクセスメモリ(random access memory, RAM)であってよい。限定ではなく例として、多くの形態のRAM、例えば、静的ランダムアクセスメモリ(static RAM, SRAM)、動的ランダムアクセスメモリ(dynamic RAM, DRAM)、シンクロナス動的ランダムアクセスメモリ(synchronous DRAM, SDRAM)、ダブルデータレートシンクロナス動的ランダムアクセスメモリ(double data rate SDRAM, DDR SDRAM)、拡張型シンクロナス動的ランダムアクセスメモリ(enhanced SDRAM, ESDRAM)、シンクロナスリンク動的ランダムアクセスメモリ(synchlink DRAM, SLDRAM)、及びダイレクトランバスランダムアクセスメモリ(direct rambus RAM, DR RAM)が利用されうる。この明細書で説明されたシステム及び方法のメモリは、それらに限定されないが、これらもの及び他の適切なタイプの任意のメモリを含むことに留意すべきである。
【0222】
当業者は、この明細書で開示された実施形態において説明されている例と組み合わせ、ユニット及びアルゴリズムステップが、電子的ハードウェア、又はコンピュータソフトウェアと電子的ハードウェアとの組み合わせによって実装されうることを理解しうる。機能がハードウェアによって実行されるか、ソフトウェアによって実行されるかは、特定のアプリケーション及び技術的解決策の設計制約条件に依存する。当業者は、各特定のアプリケーションのための説明された機能を実装するために異なる方法を利用しうるが、その実装がこの出願の範囲を逸脱するとみなすべきでない。
【0223】
便利で簡潔な説明を目的として、上記のシステム、装置、及びユニットの詳細な動作プロセスについては、上記の方法実施形態の対応するプロセスを参照するものとし、詳細について、ここで再び説明されないことは、当業者によって明確に理解されうる。
【0224】
この出願において提供されるいくつかの実施形態において、開示されたシステム、装置、及び方法は、他の方法で実装されうると理解すべきである。例えば、説明された装置実施形態は、単なる例に過ぎない。例えば、ユニットへの分割は、単なる論理的機能分割であってもよいし、実際の実装においては他の分割であってもよい。例えば、複数のユニット又はコンポーネントは、他のシステムに結合又は統合されてもよいし、いくつかの特徴が省略されてよく又は実行されなくてもよい。加えて、表示された又は論じされた相互結合又は直接結合又は通信接続は、いくつかのインターフェースを利用して実装されうる。装置又はユニット間の間接結合又は通信接続は、電気的、機械的、又は他の形態で実装されうる。
【0225】
別々の部分として説明されたユニットは、物理的に分離されても、されなくてもよく、ユニットとして表示された部分は、物理的なユニットであっても、そうでなくてもよく、1つの場所に配置されてもよいし、又は、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全部は、実施形態の解決策の目的を達成するために実際の要件に基づいて選択されうる。
【0226】
加えて、この出願の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、又はユニットのそれぞれが物理的に単独で存在してもよいし、又は2つ以上のユニットが1つのユニットに統合される。
【0227】
機能がソフトウェア機能ユニットの形態で実装されて販売され、又は独立製品として利用されるとき、機能は、コンピュータ可読記憶媒体に格納されることがある。そのような理解に基づき、この出願の技術的解決策は本質的に、又は従来技術に寄与する部分、又は技術的解決策の一部は、ソフトウェア製品の形態で実装されうる。コンピュータソフトウェア製品は、記憶媒体に格納され、この出願の実施形態において説明された方法のステップの全部又は一部を実行するようにコンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワークデバイスなどであってよい)に指示するためのいくつかの命令を含む。上記の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、リードオンリーメモリ(read-only memory, ROM)、ランダムアクセスメモリ(random access memory, RAM)、磁気ディスク、又は光ディスクなどの、プログラムコードを格納することができる様々な媒体を含む。
【0228】
上記の説明は単にこの出願の具体的な実装であり、この出願の保護範囲を限定することは意図されていない。この出願において開示された技術的範囲内での、当業者によって直ちに理解される任意の変形又は置換はこの出願の保護範囲に収まるべきである。従って、この出願の保護範囲は、特許請求の範囲の保護範囲を対象とすべきである。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8