(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-27
(54)【発明の名称】空間音声パラメータの量子化
(51)【国際特許分類】
G10L 19/008 20130101AFI20231220BHJP
G10L 19/02 20130101ALI20231220BHJP
【FI】
G10L19/008 100
G10L19/02 150
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023536510
(86)(22)【出願日】2020-12-15
(85)【翻訳文提出日】2023-07-31
(86)【国際出願番号】 FI2020050840
(87)【国際公開番号】W WO2022129672
(87)【国際公開日】2022-06-23
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(72)【発明者】
【氏名】ヴァシラケ アドリアナ
(57)【要約】
とりわけ、空間音声符号化のための装置であって、空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、を行うように構成された装置が開示される。
【特許請求の範囲】
【請求項1】
空間音声符号化のための装置であって、
空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、前記空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、
前記量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、
を行うための手段を備える装置。
【請求項2】
前記量子化平均空間音声方向指数が、前記装置が、
少なくとも2つの空間音声方向パラメータを平均し、平均空間音声方向パラメータを提供することであって、前記少なくとも2つの空間音声方向パラメータが前の周波数サブ帯域の連続した時間サブフレームに関連付けられており、前記前の周波数サブ帯域が、前記周波数サブ帯域よりも低い周波数サブ帯域である、提供することと、
前記平均空間音声方向を量子化して指数付けすることと、
を行うための手段を有することによって決定される、請求項1に記載の装置。
【請求項3】
前記装置が、
前記周波数サブ帯域のための初期平均空間音声方向パラメータを決定するための手段をさらに備え、前記決定が、
前記平均空間音声方向パラメータを第1の重みで重み付けすること、
以前の音声フレームからの対応する前の周波数サブ帯域からの少なくとも2つの空間音声方向パラメータに関連付けられた平均空間音声方向パラメータを第2の重みで重み付けすること、
前記第1の重み付けされた平均空間音声方向パラメータおよび第2の重み付けされた平均空間音声方向パラメータを平均し、前記周波数サブ帯域のための前記初期平均空間音声方向パラメータを提供すること、
によって行われる、請求項2に記載の装置。
【請求項4】
前記装置が、
さらなる空間音声方向パラメータを量子化して指数付けし、量子化されたさらなる空間音声方向指数を形成するための手段をさらに備え、前記さらなる空間音声方向パラメータが前記周波数サブ帯域の進行する時間サブフレームに関連付けられており、前記量子化平均空間音声方向指数が、前記装置が、
前記周波数サブ帯域のための前記空間音声方向パラメータおよび前の空間音声方向パラメータを平均することであって、前記前の空間音声方向パラメータが、前記空間音声方向パラメータに関連付けられた前記時間サブフレームの前の時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記前の空間音声方向パラメータの前記平均を量子化して指数付けすることと、
を行うための手段を有することによって決定される、請求項1~3のいずれか1項に記載の装置。
【請求項5】
前記装置が、
前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータを平均することであって、前記少なくとも1つのさらなる空間音声方向パラメータが前記周波数サブ帯域の少なくとも1つのさらなる時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの分散を決定することと、
前記分散と、前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの前記平均との比としての指標を決定することと、
前記指標を閾値と比較することと、
を行うための手段をさらに備える、請求項1に記載の装置。
【請求項6】
前記指標が前記閾値未満であるとき、前記装置が、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの前記平均を量子化して指数付けし、前記量子化平均空間音声方向指数を提供することと、
前記少なくとも1つのさらなる空間音声方向パラメータを量子化して指数付けし、前記量子化された少なくとも1つのさらなる空間音声方向指数を提供することと、
前記量子化された少なくとも1つのさらなる空間音声方向指数と前記量子化平均空間音声方向指数との差を算出することによって、前記量子化された少なくとも1つのさらなる空間音声差指数を決定することと、
を行うための手段を備える、請求項5に記載の装置。
【請求項7】
ゴロム・ライス符号化を用いて、前記量子化されたさらなる空間音声方向指数、前記量子化空間音声差指数、および前記量子化平均空間音声方向指数を符号化するための手段をさらに備える、請求項1~6のいずれか1項に記載の装置。
【請求項8】
前記空間音声方向パラメータが球座標方位角値である、請求項1~7のいずれか1項に記載の装置。
【請求項9】
平均するための前記手段が、
空間音声方向パラメータを球領域からデカルト領域パラメータへ変換することと、
前記デカルト領域パラメータを平均することと、
前記平均されたデカルト領域パラメータを前記球領域へ変換することと、
を行うための手段を含む、請求項1~8のいずれか1項に記載の装置。
【請求項10】
空間音声符号化のための方法であって、
空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、前記空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、
前記量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、
を含む方法。
【請求項11】
前記量子化平均空間音声方向指数が、
少なくとも2つの空間音声方向パラメータを平均し、平均空間音声方向パラメータを提供することであって、前記少なくとも2つの空間音声方向パラメータが前の周波数サブ帯域の連続した時間サブフレームに関連付けられており、前記前の周波数サブ帯域が、前記周波数サブ帯域よりも低い周波数サブ帯域である、提供することと、
前記平均空間音声方向を量子化して指数付けすることと、
を含む、請求項10に記載の方法。
【請求項12】
前記方法が、
前記周波数サブ帯域のための初期平均空間音声方向パラメータを決定することをさらに含み、前記決定が、
前記平均空間音声方向パラメータを第1の重みで重み付けすること、
以前の音声フレームからの対応する前の周波数サブ帯域からの少なくとも2つの空間音声方向パラメータに関連付けられた平均空間音声方向パラメータを第2の重みで重み付けすること、
前記第1の重み付けされた平均空間音声方向パラメータおよび第2の重み付けされた平均空間音声方向パラメータを平均し、前記周波数サブ帯域のための前記初期平均空間音声方向パラメータを提供すること、
によって行われる、請求項11に記載の方法。
【請求項13】
前記方法が、
さらなる空間音声方向パラメータを量子化して指数付けし、量子化されたさらなる空間音声方向指数を形成する手段をさらに備え、前記さらなる空間音声方向パラメータが前記周波数サブ帯域の進行する時間サブフレームに関連付けられており、前記量子化平均空間音声方向指数が、
前記周波数サブ帯域のための前記空間音声方向パラメータおよび前の空間音声方向パラメータを平均することであって、前記前の空間音声方向パラメータが、前記空間音声方向パラメータに関連付けられた前記時間サブフレームの前の時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記前の空間音声方向パラメータの前記平均を量子化して指数付けすることと、
によって決定される、請求項10~12のいずれか1項に記載の方法。
【請求項14】
前記方法が、
前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータを平均することであって、前記少なくとも1つのさらなる空間音声方向パラメータが前記周波数サブ帯域の少なくとも1つのさらなる時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの分散を決定することと、
前記分散と、前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの前記平均との比としての指標を決定することと、
前記指標を閾値と比較することと、
をさらに含む、請求項10に記載の方法。
【請求項15】
前記指標が前記閾値未満であるとき、前記方法が、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの前記平均を量子化して指数付けし、前記量子化平均空間音声方向指数を提供することと、
前記少なくとも1つのさらなる空間音声方向パラメータを量子化して指数付けし、前記量子化された少なくとも1つのさらなる空間音声方向指数を提供することと、
前記量子化された少なくとも1つのさらなる空間音声方向指数と前記量子化平均空間音声方向指数との差を算出することによって、前記量子化された少なくとも1つのさらなる空間音声差指数を決定することと、
を含む、請求項14に記載の方法。
【請求項16】
ゴロム・ライス符号化を用いて、前記量子化されたさらなる空間音声方向指数、前記量子化空間音声差指数、および前記量子化平均空間音声方向指数を符号化することをさらに含む、請求項1~15のいずれか1項に記載の方法。
【請求項17】
前記空間音声方向パラメータが球座標方位角値である、請求項1~16のいずれか1項に記載の方法。
【請求項18】
前記平均することが、
空間音声方向パラメータを球領域からデカルト領域パラメータへ変換することと、
前記デカルト領域パラメータを平均することと、
前記平均されたデカルト領域パラメータを前記球領域へ変換することと、
を含む、請求項1~17に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、音場関連パラメータ符号化のための、ただし、音声符号器のための時間周波数領域方向関連パラメータ符号化のためのものに限らない、装置および方法に関する。
【背景技術】
【0002】
パラメトリック空間音声処理は、音響の空間的側面がパラメータのセットを用いて記述される音声信号処理の技術分野である。例えば、マイクロフォンアレイからのパラメトリック空間音声取り込みにおいては、マイクロフォンアレイ信号から、周波数帯域内の音響の方向、および周波数帯域内の取り込まれた音響の指向性および無指向性部分の間の比などのパラメータのセットを推定することが、典型的で効果的な選定である。これらのパラメータは、マイクロフォンアレイの位置において取り込まれた音響の知覚的空間特性をうまく記述することが知られている。したがって、これらのパラメータは、バイノーラル方式によるヘッドフォンのための、ラウドスピーカのための、またはアンビソニックスなどの、他の形式への、空間音響の合成において利用することができる。
【0003】
それゆえ、周波数帯域内の方向および指向性対総計エネルギー比(direct-to-total energy ratio)は、空間音声取り込みのために特に有効となるパラメータ表現である。
【0004】
周波数帯域および時間サブフレーム内の方向パラメータ、周波数帯域内のエネルギー比パラメータ(音響の指向性を指示する)から成るパラメータセットは、音声コーデックのための(周囲コヒーレンス(surround coherence)、拡散コヒーレンス(spread coherence)、方向数、距離等などの他のパラメータも含み得る)空間メタデータとして利用することもできる。例えば、これらのパラメータは、マイクロフォンアレイによって取り込まれた音声信号から推定することができ、例えば、マイクロフォンアレイ信号から、空間メタデータを用いて伝達されるべきステレオまたはモノ信号が生成され得る。ステレオ信号は、例えば、AAC符号器を用いて符号化することができ、モノ信号はEVS符号器を用いて符号化することができるであろう。復号器は、音声信号をPCM信号に復号化し、(空間メタデータを用いて)周波数帯域内の音響を処理し、空間出力、例えば、バイノーラル出力を得ることができる。
【0005】
上述の解決策は、(例えば、携帯電話、VRカメラ、独立型マイクロフォンアレイ内の)マイクロフォンアレイから取り込まれた空間音響を符号化するために特に適している。しかし、このような符号器が、マイクロフォンアレイによって取り込まれた信号以外の入力形式、例えば、ラウドスピーカ信号、音声オブジェクト信号、またはアンビソニック信号も有することが望ましくなり得る。
【0006】
空間メタデータ抽出のための1次アンビソニックス(FOA:first-order Ambisonics)入力の分析が、指向性音声符号化(DirAC:Directional Audio Coding)および調和平面波展開(Harpex:Harmonic planewave expansion)に関連する科学文献において完全に文書化されている。これは、FOA信号(より正確には、それの変形体、Bフォーマット信号)を直接提供するマイクロフォンアレイが存在し、それゆえ、このような入力を分析することが、当技術分野における研究の眼目になっているためである。さらに、また、多方向空間メタデータ抽出のための高次アンビソニックス(HOA:higher-order Ambisonics)入力の分析が、高次指向性音声符号化(HO-DirAC:higher-order directional audio coding)に関連する科学文献において文書化されている。
【0007】
符号器のためのさらなる入力はまた、5.1または7.1チャンネルサラウンド入力および音声オブジェクトなどの、マルチチャンネルラウドスピーカ入力である。
【0008】
しかし、空間メタデータのコンポーネントに関しては、空間音声パラメータを表現するために必要とされる全体的ビット数を最小化するために、空間音声パラメータ(空間音声方向パラメータなど)の圧縮および符号化に高い関心が寄せられている。
【発明の概要】
【0009】
第1の態様によれば、空間音声符号化のための装置であって、空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数(quantised spatial audio difference index)を形成することであって、空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、を行うための手段を備える装置がある。
【0010】
量子化平均空間音声方向指数(quantised average spatial audio direction index)は、装置が、少なくとも2つの空間音声方向パラメータを平均し、平均空間音声方向パラメータを提供することであって、少なくとも2つの空間音声方向パラメータが前の周波数サブ帯域の連続した時間サブフレームに関連付けられており、前の周波数サブ帯域が、周波数サブ帯域よりも低い周波数サブ帯域である、提供することと、平均空間音声方向を量子化して指数付けすることと、を行うための手段を有することによって決定され得る。
【0011】
装置は、周波数サブ帯域のための初期平均空間音声方向パラメータを決定するための手段をさらに備え得、決定は、平均空間音声方向パラメータを第1の重みで重み付けすること、以前の音声フレームからの対応する前の周波数サブ帯域からの少なくとも2つの空間音声方向パラメータに関連付けられた平均空間音声方向パラメータを第2の重みで重み付けすること、第1の重み付けされた平均空間音声方向パラメータおよび第2の重み付けされた平均空間音声方向パラメータを平均し、周波数サブ帯域のための初期平均空間音声方向パラメータを提供すること、によって行われる。
【0012】
装置は、さらなる空間音声方向パラメータを量子化して指数付けし、量子化されたさらなる空間音声方向指数を形成するための手段をさらに備え得、さらなる空間音声方向パラメータは周波数サブ帯域の進行する時間サブフレームに関連付けられており、量子化平均空間音声方向指数は、装置が、周波数サブ帯域のための空間音声方向パラメータおよび前の空間音声方向パラメータを平均することであって、前の空間音声方向パラメータが、空間音声方向パラメータに関連付けられた時間サブフレームの前の時間サブフレームに関連付けられている、平均することと、空間音声方向パラメータおよび前の空間音声方向パラメータの平均を量子化して指数付けすることと、を行うための手段を有することによって決定され得る。
【0013】
装置は、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータを平均することであって、少なくとも1つのさらなる空間音声方向パラメータが周波数サブ帯域の少なくとも1つのさらなる時間サブフレームに関連付けられている、平均することと、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの分散を決定することと、分散と、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの平均との比としての指標を決定することと、指標を閾値と比較することと、を行うための手段をさらに備え得る。
【0014】
指標が閾値未満であるとき、装置は、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの平均を量子化して指数付けし、量子化平均空間音声方向指数を提供することと、少なくとも1つのさらなる空間音声方向パラメータを量子化して指数付けし、量子化された少なくとも1つのさらなる空間音声方向指数を提供することと、量子化された少なくとも1つのさらなる空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって、量子化された少なくとも1つのさらなる空間音声差指数を決定することと、を行うための手段を備え得る。
【0015】
装置は、ゴロム・ライス符号化を用いて、量子化されたさらなる空間音声方向指数、量子化空間音声差指数、および量子化平均空間音声方向指数を符号化するための手段をさらに備え得る。
【0016】
空間音声方向パラメータは球座標方位角値であり得る。
【0017】
平均するための手段は、空間音声方向パラメータを球領域(spherical domain)からデカルト領域パラメータ(cartesian domain parameter)へ変換することと、デカルト領域においてパラメータを平均することと、平均されたデカルト領域パラメータを球領域へ変換することと、を行うための手段を含み得る。
【0018】
第2の態様によれば、空間音声符号化のための方法であって、空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、を含む方法がある。
【0019】
量子化平均空間音声方向指数は、少なくとも2つの空間音声方向パラメータを平均し、平均空間音声方向パラメータを提供することであって、少なくとも2つの空間音声方向パラメータが前の周波数サブ帯域の連続した時間サブフレームに関連付けられており、前の周波数サブ帯域が、周波数サブ帯域よりも低い周波数サブ帯域である、提供することと、平均空間音声方向を量子化して指数付けすることと、を含み得る。
【0020】
本方法は、周波数サブ帯域のための初期平均空間音声方向パラメータを決定することをさらに含み得、決定は、平均空間音声方向パラメータを第1の重みで重み付けすること、以前の音声フレームからの対応する前の周波数サブ帯域からの少なくとも2つの空間音声方向パラメータに関連付けられた平均空間音声方向パラメータを第2の重みで重み付けすること、第1の重み付けされた平均空間音声方向パラメータおよび第2の重み付けされた平均空間音声方向パラメータを平均し、周波数サブ帯域のための初期平均空間音声方向パラメータを提供すること、によって行われる。
【0021】
本方法は、さらなる空間音声方向パラメータを量子化して指数付けし、量子化されたさらなる空間音声方向指数を形成する手段をさらに備え得、さらなる空間音声方向パラメータは周波数サブ帯域の進行する時間サブフレームに関連付けられており、量子化平均空間音声方向指数は、周波数サブ帯域のための空間音声方向パラメータおよび前の空間音声方向パラメータを平均することであって、前の空間音声方向パラメータが、空間音声方向パラメータに関連付けられた時間サブフレームの前の時間サブフレームに関連付けられている、平均することと、空間音声方向パラメータおよび前の空間音声方向パラメータの平均を量子化して指数付けすることと、を行うことによって決定され得る。
【0022】
本方法は、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータを平均することであって、少なくとも1つのさらなる空間音声方向パラメータが周波数サブ帯域の少なくとも1つのさらなる時間サブフレームに関連付けられている、平均することと、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの分散を決定することと、分散と、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの平均との比としての指標を決定することと、指標を閾値と比較することと、さらに含み得る。
【0023】
指標が閾値未満であるとき、本方法は、空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの平均を量子化して指数付けし、量子化平均空間音声方向指数を提供することと、少なくとも1つのさらなる空間音声方向パラメータを量子化して指数付けし、量子化された少なくとも1つのさらなる空間音声方向指数を提供することと、量子化された少なくとも1つのさらなる空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって、量子化された少なくとも1つのさらなる空間音声差指数を決定することと、を含み得る。
【0024】
本方法は、ゴロム・ライス符号化を用いて、量子化されたさらなる空間音声方向指数、量子化空間音声差指数、および量子化平均空間音声方向指数を符号化することをさらに含み得る。
【0025】
空間音声方向パラメータは球座標方位角値であり得る。
【0026】
平均することは、空間音声方向パラメータを球領域からデカルト領域パラメータへ変換することと、デカルト領域においてパラメータを平均することと、平均されたデカルト領域パラメータを球領域へ変換することと、を含み得る。
【0027】
第3の態様によれば、空間音声符号化のための装置であって、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備え、少なくとも1つのメモリおよびコンピュータプログラムコードが、少なくとも1つのプロセッサを用いて、装置に、少なくとも、空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、を行わせるようにように構成されている、装置がある。
【0028】
媒体上に記憶されたコンピュータプログラム製品が、装置に、本明細書において説明されるとおりの方法を遂行させ得る。
【0029】
電子デバイスが、本明細書において説明されるとおりの装置を備え得る。
【0030】
チップセットが、本明細書において説明されるとおりの装置を備え得る。
【0031】
本出願の実施形態は、現況技術に付随する問題に対処することを目的とする。
【0032】
本出願のより深い理解のために、次に、添付の図面を例として参照する。
【図面の簡単な説明】
【0033】
【
図1】いくつかの実施形態を実施するために適した装置のシステムを概略的に示す図である。
【
図2】いくつかの実施形態に係るメタデータ符号器を概略的に示す図である。
【
図3】いくつかの実施形態に係る
図2に示されるとおりのメタデータ符号器の動作のフロー図を示す。
【
図4】いくつかの実施形態に係る
図2示されるとおりのメタデータ符号器の動作のさらなるフロー図を示す。
【
図5】示される装置を実施するために適した例示的なデバイスを概略的に示す図である。
【発明を実施するための形態】
【0034】
以下のことは、効果的な空間分析導出メタデータパラメータの提供のために適した装置および可能な機構をさらに詳細に説明する。以下の説明において、マルチチャンネルシステムはマルチチャンネルマイクロフォンの実施形態に関して説明される。しかし、上述されたように、入力形式は、マルチチャンネルラウドスピーカ、アンビソニック(FOA/HOA)等などの、任意の好適な入力形式であり得る。さらに、例示的なシステムの出力はマルチチャンネルラウドスピーカ構成である。しかし、出力はラウドスピーカ以外の手段を介してユーザにレンダリングされてもよいことが理解される。さらに、マルチチャンネルラウドスピーカ信号は2つ以上の再生音声信号に一般化されてもよい。このようなシステムは、現在、没入型音声およびオーディオサービス(IVAS:Immersive Voice and Audio Service)として3GPP標準化団体によって標準化されている。IVASは、既存および将来のモバイル(セルラー)および固定回線ネットワークを通じた没入型音声およびオーディオサービスを促進するために既存の3GPP拡張音声サービス(EVS:Enhanced Voice Service)コーデックに対する拡張となることを意図されている。IVASの適用は、3GPP第4世代(4G)および第5世代(5G)ネットワークを通じた没入型音声およびオーディオサービスの提供になり得る。加えて、EVSに対する拡張としてのIVASコーデックは、音声および発話内容が符号化され、再生のためにファイル内に蓄積される蓄積転送適用において用いられ得る。IVASは、音声および発話信号のサンプルを符号化する機能性を有する他の音声および発話符号化技術と連動して用いられ得ることを理解されたい。
【0035】
メタデータは、少なくとも、考慮される時間周波数(TF:time-frequency)ブロックまたはタイル、換言すれば、時間/周波数サブ帯域ごとの、球方向(仰角、方位角)、結果として生じる方向の少なくとも1つのエネルギー比、拡散コヒーレンス、および方向と無関係な周囲コヒーレンスからから成り得る。全体で、IVASは、時間周波数(TF)タイルごとに多数の異なる種類のメタデータパラメータを有し得る。IVASのためのメタデータを構成することができる空間音声パラメータの種類が以下の表1に示されている。
【0036】
このデータは、復号器において空間信号を再構築することができるようにするために符号器によって符号化され、伝送され得る(または記憶される)。
【0037】
さらに、場合によっては、メタデータ支援空間音声(MASA:metadata assisted spatial audio)がTFタイルごとに最大2つの方向をサポートし得るが、これは、上述のパラメータが、1つのTFタイル当たりに方向ごとに符号化され、伝送されることを必要とするであろう。これにより、以下の表1に従って必要とされるビットレートを倍増させる可能性がある。
【0038】
【0039】
このデータは、復号器において空間信号を再構築することができるようにするために符号器によって符号化され、伝送され得る(または記憶される)。
【0040】
実際的な没入型音声通信コーデックにおけるメタデータのために割り当てられるビットレートは大きなばらつきを有し得る。コーデックの典型的な全体的動作ビットレートは2~10kbpsのみを空間メタデータの伝送/記憶のために残し得る。しかし、いくつかのさらなる実施形態は最大30kbps以上を空間メタデータの伝送/記憶のために可能にし得る。方向パラメータおよびエネルギー比コンポーネントの符号化はコヒーレンスデータの符号化と共に以前に吟味された。しかし、空間メタデータのために割り振られる伝送/記憶ビットレートがどのようなものであろうと、特に、TFタイルが、空間音声シーン内の異なる音源に対応する複数の方向をサポートし得るときには、できるだけ少数のビットを用いてこれらのパラメータを表現することが常に必要とされるであろう。
【0041】
以下において説明されるとおりのコンセプトは、周波数サブ帯域ごとに複数のサブフレームにわたって順に空間音声方向パラメータを処理することによって、音声フレームのための空間音声方向パラメータ(方位角および仰角値を含み得る)を量子化することである。
【0042】
したがって、本発明は、MASAデータ(または空間メタデータ空間音声パラメータ)を伝送するために必要とされるビットレートは、符号化された音声信号の伝送および記憶を容易にするためにできるだけ少数のビットを用いることによって音声フレームの空間音声方向パラメータを量子化することによって低減され得るという考察から発している。
【0043】
これに関して、
図1は、本出願の実施形態を実施するための例示的な装置およびシステムを示す。システム100は、「分析」部分121および「合成」部分131を有するように示されている。「分析」部分121は、マルチチャンネル信号の受信から、メタデータおよびダウンミックス信号の符号化までの部分であり、「合成」部分131は、符号化されたメタデータおよびダウンミックス信号の復号から、(例えば、マルチチャンネルラウドスピーカの形態の)再生された信号の提示までの部分である。
【0044】
システム100および「分析」部分121への入力はマルチチャンネル信号102である。以下の例では、マイクロフォンチャンネル信号入力が説明されているが、他の実施形態では、任意の好適な入力(または合成マルチチャンネル)形式が実施され得る。例えば、実施形態によっては、空間分析器および空間分析は符号器の外部で実施されてもよい。例えば、実施形態によっては、音声信号に関連付けられた空間メタデータは別個のビットストリームとして符号器に提供されてもよい。実施形態によっては、空間メタデータは空間(方向)指数値のセットとして提供されてもよい。これらはメタデータベースの音声入力形式の例である。
【0045】
マルチチャンネル信号は、移送信号生成器(transport signal generator)103および分析プロセッサ105に渡される。
【0046】
実施形態によっては、移送信号生成器103は、マルチチャンネル信号を受信し、規定数のチャンネルを含む好適な移送信号(transport signal)を生成し、移送信号104を出力するように構成されている。例えば、移送信号生成器103は、マルチチャンネル信号の2音声チャンネルダウンミックスを生成するように構成され得る。規定数のチャンネルは任意の好適な数のチャンネルであり得る。移送信号生成器は、実施形態によっては、さもなければ、入力音声信号を規定数のチャンネルに選択するか、または、例えば、ビームフォーミング技法によって、組み合わせ、これらを移送信号として出力するように構成されている。
【0047】
実施形態によっては、移送信号生成器103は任意選択的なものであり、マルチチャンネル信号は、処理されずに、本例では移送信号と同じ仕方で符号器107に渡される。
【0048】
実施形態によっては、分析プロセッサ105はまた、マルチチャンネル信号を受信し、信号を分析し、マルチチャンネル信号に関連付けられた、およびそれゆえ、移送信号104に関連付けられたメタデータ106を作成するように構成されている。分析プロセッサ105は、時間周波数分析間隔ごとに、方向パラメータ108、およびエネルギー比パラメータ110(方向ごとの指向性対総計エネルギー比、および拡散対総計エネルギー比を含む)、およびコヒーレンスパラメータ112を含み得るメタデータを生成するように構成され得る。方向、エネルギー比、およびコヒーレンスパラメータは、実施形態によっては、空間音声パラメータであると考えられてもよい。換言すれば、空間音声パラメータは、マルチチャンネル信号(または一般的に2つ以上の音声信号)によって作り出される/取り込まれる音場を特徴付けることを目的とするパラメータを含む。
【0049】
実施形態によっては、生成されるパラメータは周波数帯域ごとに異なってもよい。それゆえ、例えば、帯域Xでは、パラメータの全てが生成および伝送され、それに対して、帯域Yでは、パラメータのうちの1つのみが生成および伝送され、さらに、帯域Zでは、パラメータが生成または伝送されない。これの実例は、最も高い帯域などのいくつかの周波数帯域については、知覚的理由のためにパラメータが必要とされないことであり得る。移送信号104およびメタデータ106は符号器107に渡され得る。
【0050】
符号器107は、移送(例えば、ダウンミックス)信号104を受信し、これらの音声信号の好適な符号化を生成するように構成された音声符号器コア109を含み得る。符号器107は、実施形態によっては、(メモリ上、および少なくとも1つのプロセッサ上に記憶された好適なソフトウェアを実行する)コンピュータ、あるいは代替的に、例えば、FPGAまたはASICを利用する特定のデバイスであることができる。符号化は任意の好適な方式を用いて実施され得る。符号器107は、メタデータを受信し、情報の符号化または圧縮された形態を出力するように構成されたメタデータ符号器/量子化器111をさらに含み得る。実施形態によっては、符号器107は、メタデータを、
図1において破線によって示される伝送または記憶の前に、さらにインタリーブするか、単一のデータストリームに多重化するか、または符号化されたダウンミックス信号内に埋め込んでもよい。多重化は任意の好適な方式を用いて実施され得る。
【0051】
復号器側において、受信または取得されたデータ(ストリーム)は復号器/デマルチプレクサ133によって受信され得る。復号器/デマルチプレクサ133は、符号化されたストリームを多重分離し、音声符号化されたストリームを、音声信号を復号し、移送信号を得るように構成された移送抽出器(transport extractor)135に渡し得る。同様に、復号器/デマルチプレクサ133は、符号化されたメタデータを受信し、メタデータを生成するように構成されたメタデータ抽出器137を含み得る。復号器/デマルチプレクサ133は、実施形態によっては、(メモリ上、および少なくとも1つのプロセッサ上に記憶された好適なソフトウェアを実行する)コンピュータ、あるいは代替的に、例えば、FPGAまたはASICを利用する特定のデバイスであることができる。
【0052】
復号化されたメタデータおよび移送音声信号は合成プロセッサ139に渡され得る。
【0053】
システム100の「合成」部分131は、移送およびメタデータを受信し、移送信号およびメタデータに基づいて、マルチチャンネル信号110(これらは、マルチチャンネルラウドスピーカ形式、または実施形態によっては、使用事例に応じた、バイノーラルもしくはアンビソニックス信号などの任意の好適な出力形式であり得る)の形態の合成空間音声を任意の好適な形式で再現するように構成された合成プロセッサ139をさらに示す。
【0054】
したがって、要約すると、まず、システム(分析部分)は、マルチチャンネル音声信号を受信するように構成されている。
【0055】
次に、システム(分析部分)は、(例えば、音声信号チャンネルのうちのいくつかを選択またはダウンミックスすることによって)好適な移送音声信号、およびメタデータとしての空間音声パラメータを生成するように構成されている。
【0056】
次に、システムは、移送信号およびメタデータを記憶/伝送のために符号化するように構成されている。
【0057】
この後に、システムは、符号化された移送信号およびメタデータを記憶/伝送し得る。
【0058】
システムは、符号化された移送信号およびメタデータを取得/受信し得る。
【0059】
次に、システムは、符号化された移送信号およびメタデータパラメータから移送信号およびメタデータを抽出する、例えば、符号化された移送信号およびメタデータパラメータを多重分離し、復号化するように構成されている。
【0060】
システム(合成部分)は、抽出された移送音声信号およびメタデータに基づいて出力マルチチャンネル音声信号を合成するように構成されている。
【0061】
図2に関して、いくつかの実施形態に係る(
図1に示されるとおりの)例示的な分析プロセッサ105およびメタデータ符号器/量子化器111がさらに詳細に説明される。
【0062】
図1および
図2はメタデータ符号器/量子化器111および分析プロセッサ105を、互いに結合されているように示している。しかし、いくつかの実施形態はこれらの2つのそれぞれの処理エンティティを密接に結合しなくてもよく、これにより、分析プロセッサ105はメタデータ符号器/量子化器111とは異なるデバイス上に存在することができることを理解されたい。したがって、メタデータ符号器/量子化器111を含むデバイスは、取り込みおよび分析プロセスから独立して処理および符号化のための移送信号およびメタデータストリームを与えられ得る。
【0063】
分析プロセッサ105は、実施形態によっては、時間周波数領域変換器(time-frequency domain transformer)201を含む。
【0064】
実施形態によっては、時間周波数領域変換器201は、マルチチャンネル信号102を受信し、入力時間領域信号を好適な時間周波数信号に変換するために短時間フーリエ変換(STFT:Short Time Fourier Transform)などの好適な時間-周波数領域変換を適用するように構成されている。これらの時間周波数信号は空間分析器203に渡され得る。
【0065】
それゆえ、例えば、時間周波数信号202は次式によって時間周波数領域表現の形で表現され得る。
si(b,n),
ここで、bは周波数ビン指数であり、nは時間周波数ブロック(フレーム)指数であり、iはチャンネル指数である。別の式では、nは、元の時間領域信号のものよりも低いサンプリング速度を有する時間指数として考慮することができる。これらの周波数ビンは、ビンのうちの1つまたは複数を帯域指数k=0,…,K-1のサブ帯域にグループ化するサブ帯域にグループ化され得る。各サブ帯域kは最も低いビンbk,lowおよび最も高いビンbk,highを有し、サブ帯域はbk,low~bk,highの全てのビンを包含する。サブ帯域の幅は任意の好適な分布を近似することができる。例えば、等価矩形帯域幅(ERB:Equivalent rectangular bandwidth)尺度またはバーク尺度である。
【0066】
それゆえ、時間周波数(TF)タイル(またはブロック)はフレームのサブフレーム内の特定のサブ帯域である。
【0067】
空間音声パラメータを表現するために必要とされるビット数はTF(時間周波数)タイル分解能(すなわち、TFサブフレームまたはタイルの数)に少なくとも部分的に依存し得ることが理解され得る。例えば、20msの音声フレームは、1つ5msの4つの時間領域サブフレームに分割され得、各時間領域サブフレームは、バーク尺度、それの近似、または任意の他の好適な分割に従って周波数領域において分割された最大24個の周波数サブ帯域を有し得る。この特定の例では、音声フレームは、96個のTFサブフレーム/タイル、換言すれば、24個の周波数サブ帯域を有する4つの時間領域サブフレームに分割され得る。したがって、音声フレームのための空間音声パラメータを表現するために必要とされるビット数はTFタイル分解能に依存することができる。例えば、各TFタイルが仮に上掲の表1の配分に従って符号化されるとすれば、このとき、各TFタイルは、64ビット(TFタイルごとに1つの音源方向の場合)、および104ビット(音源方向と無関係のパラメータを考慮して、TFタイルごとに2つの音源方向の場合)を必要とするであろう。
【0068】
実施形態では、分析プロセッサ105は空間分析器203を含み得る。空間分析器203は、時間周波数信号202を受信し、これらの信号に基づいて方向パラメータ108を推定するように構成され得る。方向パラメータは、任意の音声ベースの「方向」決定に基づいて決定され得る。
【0069】
例えば、実施形態によっては、空間分析器203は、2つ以上の信号入力を用いて音源の方向を推定するように構成されている。
【0070】
それゆえ、空間分析器203は、方位角φ(k,n)および仰角θ(k,n)と表される、音声信号のフレーム内の周波数帯域および時間的時間周波数ブロックごとの少なくとも1つの方位角および仰角(空間音声方向パラメータ)を提供するように構成され得る。時間サブフレームのための空間音声方向パラメータ108はまた、空間パラメータセット符号器(spatial parameter set encoder)207に渡され得る。
【0071】
空間分析器203はまた、エネルギー比パラメータ110を決定するように構成され得る。エネルギー比は、ある方向から到来すると考えることができる音声信号のエネルギーの決定であると考えられ得る。指向性対総計エネルギー比r(k,n)は、例えば、指向性推定の安定性指標を用いて、あるいは任意の相関指標、または比パラメータを得るための任意の他の好適な方法を用いて推定することができる。各指向性対総計エネルギー比は特定の空間方向に対応し、総エネルギーと比べてエネルギーのうちのどれほどが特定の空間方向からやって来るのかを記述する。この値はまた、時間周波数タイルごとに別個に表現され得る。空間方向パラメータおよび指向性対総計エネルギー比は、時間周波数タイルごとの総エネルギーのうちのどれほどが特定の方向からやって来ているのかを記述する。概して、空間方向パラメータは到来方向(DOA:direction of arrival)と考えることもできる。
【0072】
実施形態では、指向性対総計エネルギー比パラメータは、帯域kにおけるマイクロフォン対の間の正規化相互相関パラメータcor’(k,n)に基づいて推定することができ、相互相関パラメータの値は-1~1の間にある。指向性対総計エネルギー比パラメータr(k,n)は、正規化相互相関パラメータを拡散場正規化相互相関パラメータ(diffuse field normalized cross correlation parameter)corD’(k,n)と比較することによって、
【0073】
【数1】
として決定することができる。指向性対総計エネルギー比は、本明細書において参照により組み込まれているPCT国際公開第2017/005978号においてさらに説明されている。エネルギー比は空間パラメータセット符号器207に渡され得る。
【0074】
空間分析器203は、両方とも時間周波数領域において分析される、周囲コヒーレンス(γ(k,n))および拡散コヒーレンス(ζ(k,n))を含み得る多数のコヒーレンスパラメータ112を決定するようにさらに構成され得る。
【0075】
用語、音声源(audio source)は、音源の実際の方向を包含し得る、伝搬音波の支配的方向に関連し得る。
【0076】
したがって、サブ帯域kごとに、サブ帯域kおよびサブフレームnに関連付けられた空間音声パラメータの集合(またはセット)が存在することになる。この場合には、各サブ帯域kおよびサブフレームn(換言すれば、TFタイル)は、音声源方向ごとにそれに関連付けられた以下の空間音声パラメータ、方位角φ(k,n)および仰角θ(k,n)と表される少なくとも1つの方位角および仰角、ならびに拡散コヒーレンス(ζ(k,n)、ならびに指向性対総計エネルギー比パラメータr(k,n)を有し得る。当然、TFタイルごとに1つを超える方向が存在する場合には、このとき、TFタイルは、各音源方向に関連付けられた、以上に列挙されたパラメータの各々を有することができる。加えて、空間音声パラメータの集合は周囲コヒーレンス(γ(k,n))も含み得る。パラメータはまた、拡散対総計エネルギー比rdiff(k,n)も含み得る。
【0077】
実施形態では、拡散対総計エネルギー比rdiff(k,n)は、周囲方向にわたる無指向性音響のエネルギー比であり、通例、TFタイルごとに単一の拡散対総計エネルギー比(および周囲コヒーレンス(γ(k,n))が存在する。拡散対総計エネルギー比は、(方向ごとの)指向性対総計エネルギー比が1から減算されたときに残るエネルギー比であると考えられ得る。今後、上述のパラメータは特定のTFタイルのための空間音声パラメータのセット(空間音声パラメータセット)と称され得る。
【0078】
空間パラメータセット符号器207は、エネルギー比パラメータ110およびコヒーレンスパラメータ112に加えて方向パラメータ108を量子化するように構成され得る。
【0079】
方向パラメータ108(方位角φ(k,n)および仰角θ(k,n)など)の量子化は、決定された量子化分解能によって規定されたルックアップテーブルによって規定された「表面」球面上の円環内に配列された球面格子を形成する球面の配列に基づき得る。換言すれば、球面格子は、球面をより小さい球面で覆い、より小さい球面の中心を、ほぼ等距離の方向の格子を規定する点と考えるという思想を用いる。したがって、より小さい球面は、任意の好適な指数付けアルゴリズムに従って指数付けすることができる中心点の周りの円錐または立体角を規定する。次に、方位角φ(k,n)および仰角θ(k,n)の方向パラメータ108は点に対応付けられ得、球面格子は、量子化指数を球面格子に提供するためにベクトル距離メトリックを用いる。このような球面量子化(spherical quantization)方式は、特許出願公開、国際公開第2019/091575号および国際公開第2019/129350号において見出され得る。代替的に、方位角φ(k,n)および仰角θ(k,n)方向パラメータ108は任意の好適な線形または非線形量子化手段に従って量子化され得る。
【0080】
したがって、空間パラメータセット符号器207によって方位角φ(k,n)および仰角θ(k,n)の空間音声方向パラメータ108を量子化した結果は、TFタイル(k,n)のための少なくとも1つの方位角量子化指数Iφ(k,n)および少なくとも1つの仰角量子化指数Iθ(k,n)になる。
【0081】
図3は、周波数帯域のサブフレームのための空間音声方向パラメータ(方位角および仰角値など)を符号化するためのコンピュータソフトウェアまたはハードウェア実施可能プロセスを示す。
【0082】
実施形態では、空間音声方向パラメータ108を符号化して量子化するための方式は、特定のサブ帯域kのサブフレーム(n=0:N-1)にわたる平均空間音声パラメータを見出す初期ステップを含み得る。実施形態によっては、この初期ステップは、第1のサブ帯域k=0のサブフレームのための平均空間音声パラメータを見出すことを含み得る。
【0083】
方位角φ(k,n)および仰角θ(k,n)の方向パラメータ108に関して、このステップは、まず、同じくサブ帯域k(k=0)のためのフレームのN個のサブフレームにわたる平均方位角値Avgφ(k)および平均仰角値Avgθ(k)を見出すことによって実行され得る。
【0084】
各平均音声方向パラメータは、初めに、平均をデカルト座標として算出し、次に、平均デカルト座標を平均球座標に変換することによって算出し得ることができる。
【0085】
換言すれば、サブ帯域kのための平均方位角および仰角値を算出する演算は、X軸方向成分を
x(k,n)=r(k,n)cosθ(k,n)cosφ(k,n)
として有し、ここで、サブ帯域kのための平均X軸は、
【数2】
であり、
Y軸成分を
y(k,n)=r(k,n)cosθ(k,n)sinφ(k,n)
として有し、ここで、サブ帯域kのための平均Y軸は、
【数3】
であり、
Z軸成分を
z(k,n)=r(k,n)sinθ(k,n)
として有し、ここで、サブ帯域kのための平均Z軸は、
【数4】
である、という形を取り得る。
【0086】
各デカルト座標は、TFタイルに関連付けられたそれぞれの指向性対総計エネルギー比パラメータr(k,n)によって重み付けされ得る。
【0087】
他の実施形態では、デカルト座標ごとに重み付けが実行されなくてもよい。
【0088】
次に、サブ帯域kのための上述の平均デカルト座標値を取り、それらを元の球領域に変換することによって決定されることによって平均方位角および仰角値があり得る。
【0089】
実施形態では、この変換は次式を用いて実行され得る。
【数5】
【0090】
周波数帯域のサブフレームのための平均空間音声方向パラメータを決定する上述の処理ステップは
図3において処理ステップ301として示されている。
【0091】
次に、サブ帯域kのための平均方位角および仰角値を、以上において概説されたように量子化し、サブ帯域kのためのサブフレームにわたる平均音声方向指数である、量子化された指数Iavgφ(k)およびIavgθ(k)を与え得る。
【0092】
周波数帯域のサブフレームのための平均空間音声方向パラメータを量子化して指数付けする処理ステップは
図3において処理ステップ303として示されている。
【0093】
実施形態では、Iavgφ(k)およびIavgθ(k)のための上述の算出はフレーム内の第1のサブ帯域、すなわち、サブ帯域k=0のために実行され得、Iavgφ(0)およびIavgθ(0)をもたらす。
【0094】
次に、(空間パラメータセット符号器207によって実行されるとおりの)音声方向パラメータのための符号化プロセスは、第1のサブ帯域(k=0)のサブフレーム(n=0:N-1)ごとの音声方向差指数を決定し得る。ここで、サブフレームnのための音声方向差指数は、サブフレームnのための音声方向量子化指数と、フレームにわたるサブフレームのための(以上において決定されたとおりの)平均音声方向指数との差を決定する形を取り得る。方位角値の場合には、このルーチンは以下の形を取り得る:
サブフレームn 0~N-1ごとに
Idiffφ(0,n)=Iφ(0,n)-Iavgφ(0)
【0095】
同じステップが仰角値にも同様に適用され得る。すなわち、
サブフレームn 0~N-1ごとに
Idiffθ(0,n)=Iθ(0,n)-Iavgθ(0)
【0096】
周波数帯域のサブ帯域ごとの空間音声方向パラメータを量子化して指数付けする処理ステップは
図3において処理ステップ305として示されている。周波数帯域のサブフレームのための平均空間音声方向差指数を決定する上述の処理ステップは
図3において処理ステップ307として示されている。
【0097】
実施形態によっては、第1のサブ帯域の音声方向パラメータのための符号化プロセスはまた、サブ帯域(k=0)のための音声方向差指数を、全ての値が正になるように処理するさらなる処理ステップ(
図3には示されていない)を含み得る。
【0098】
これらの実施形態では、一連の正の値への音声方向差指数の処理は以下のCコードによって実行され得る。
for (i = 0; i < len; i++)
{
if (dif_idx[i] < 0)
{
dif_idx[i] = -2 * dif_idx[i];
}
else if (dif_idx[i] > 0)
{
dif_idx[i] = dif_idx[i] * 2 - 1;
}
else
{
dif_idx[i] = 0;
}
}
【0099】
次に、(第1の周波数帯域のサブフレームにわたる音声方向差指数の)エントロピーベースの符号化を容易にするために、一連の音声方向差指数を大きさの昇順または降順のどちらかに再配列し得る。
【0100】
音声方向差指数のためのこれらの処理ステップは、サブ帯域k、この場合には、第1のサブ帯域k=0のための方位角および/または仰角パラメータIdiffφ(0,n)、Idiffθ(0,n) n=0:N-1のために個々に実行され得る。
【0101】
上述されたように、第1の周波数サブ帯域のサブフレームのための再配列された音声方向差指数は、ゴロム・ライス符号化などの、エントロピー符号化を用いて符号化され得る。この符号化は、フレームのための音声方向の符号化のために利用可能なビット数に依存し得る。
【0102】
他のサブ帯域(例えば、サブ帯域k=1:K-1)は、それぞれのサブ帯域にわたる音声方向パラメータの符号化のための異なるアプローチを取り得る。簡潔にするために、今後、これらの算出が実行され得るサブ帯域はサブ帯域k(ここで、k≠0)と表されることになる。
【0103】
図4は、音声フレーム内の第1の周波数帯域でない周波数帯域のサブフレームのための空間音声方向パラメータ(方位角および仰角値など)を符号化するためのコンピュータソフトウェアまたはハードウェア実施可能プロセスを示す。
【0104】
本アプローチは、初めに、処理ステップ303、
図3によって決定されたとおりのサブ帯域k=0のための空間音声パラメータ平均指数、I
avgφ(0)およびI
avgθ(0)を取り、この値を用いて、(サブ帯域k≠0のための)第1のサブフレームとサブ帯域k=0のための平均指数との空間音声パラメータ方向差指数を決定することを含む。換言すれば、空間音声方向差指数I
diffφ(k,0)、I
diffθ(k,0)は、それぞれ方位角および仰角値のためのI
diffθ(k,0)=I
θ(k,0)-I
avgθ(0)、およびI
diffφ(k,0)=I
φ(k,0)-I
avgφ(0)を決定することによって見出され得る。
【0105】
ここで、Iθ(k,0)およびIφ(k,0)は、第kの周波数帯域の第1のサブフレームのための方位角および仰角値のための量子化指数である。
【0106】
図4に関して、ステップ401は、kが音声フレーム内の第1のサブ帯域でない、サブ帯域kの第1のサブフレームのための空間音声方向パラメータを量子化して指数付けするこの処理ステップを示している。さらに、処理ステップ403は、サブ帯域kの第1のサブフレームのための空間音声方向パラメータに対応する空間音声方向差指数(I
diffφ(k,0)、I
diffθ(k,0))を決定するステップを示している。
【0107】
このステップから続いて、この第1のサブフレーム(n=0)のための平均空間音声方向パラメータは、サブフレーム(n=0)のための実際の空間音声方向パラメータの値になるように開始され得る。方位角および仰角値に関して、これは、Avgφ(k,0)=φ(k,0)およびAvgθ(k,0)=θ(k,0)と表され得る。次に、この第1のサブフレーム(n=0)のための平均空間音声方向パラメータを量子化し、方位角および仰角値の項に関する第1のサブフレームのための空間音声方向パラメータ平均指数を与え得、これは、Iavgφ(k,0)およびIavgθ(k,0)と表され得る。
【0108】
実施形態によっては、この第1のサブフレーム(n=0)のための平均空間音声方向パラメータを、以前の音声フレームからの対応する平均空間音声方向パラメータと平均し得る。これは、現在の音声フレームからの平均空間音声方向パラメータを優先したものにおける重み付けである重み付き平均として実行され得る。この場合には、(0.5未満の)重み付けwが以前の音声フレームからの平均空間音声方向パラメータに適用され得、1-wの重み付けが現在のフレームからの平均空間音声方向パラメータに適用され得る。実施形態では、平均演算は、以上において概説されたようにデカルト座標領域において実行され得る。
【0109】
サブ帯域kの第1のサブフレームのためのための平均空間音声方向パラメータを決定するステップは
図4において処理ステップ405として示されている。サブ帯域kの第1のサブフレームのためのための平均空間音声方向パラメータを量子化して指数付けするステップは
図4において処理ステップ407として示されている。
【0110】
また、
図4には、第kのサブ帯域の第1のサブフレームのための空間音声方向差指数を空間音声方向符号化プロセスからの出力として示す経路402が示されている。
【0111】
このステップから続いて、(サブ帯域k≠0のための)第1のサブフレーム(n=0)のための平均空間音声パラメータ指数は、同じサブ帯域k内のさらなるサブフレーム(n=1)のための空間音声パラメータ方向差指数の決定において用いられ得る。このステップは経路404によって示されている。処理ステップ417は、第1のサブフレーム(n=0)のための平均空間音声パラメータ指数を、次の後続のサブフレーム(n=1)のための平均空間音声パラメータ指数として用いるために設定することを示す。
【0112】
さらなるサブフレーム(この場合には、n=1)のための処理は以下のステップの形を取り得る:
【0113】
1.空間音声パラメータ方向差指数を決定する。換言すれば、I
diffθ(k,1)=I
θ(k,1)-I
avgθ(k,0)およびI
diffφ(k,1)=I
φ(k,1)-I
avgφ(k,0)を決定することによって、空間音声方向差指数I
diffφ(k,1)、I
diffθ(k,1)を見出し得る。ここで、I
θ(k,1)およびI
φ(k,1)は、それぞれ、第kの周波数帯域の第2のサブフレームのための方位角および仰角値のための量子化指数である。
図4に関して、このステップは409および411の処理ステップによって表現されている。
【0114】
2.次に、サブフレーム(n=1)のための実際の空間音声方向パラメータおよび以前のサブフレーム(n=0)のための実際の空間音声方向パラメータの平均を算出することによって、さらなるサブフレーム(n=1)のための平均空間音声方向パラメータを決定し得る。方位角および仰角値に関して、これは、Avgφ(k,1)=(φ(k,1)+φ(k,0))/2およびAvgθ(k,0)=(θ(k,1)+θ(k,0))/2と表され得る。実施形態では、平均演算は、以上において概説されたようにデカルト座標領域において実行され得る。
図4に関して、このステップは処理ステップ413によって表現されている。
【0115】
3.次に、さらなるサブフレーム(n=1)のための平均空間音声方向パラメータを量子化し、さらなるサブフレーム(n=1)のための空間音声方向パラメータ平均指数を与え得る。方位角および仰角値の項に関して関して、これは、I
avgφ(k,1)およびI
avgθ(k,1)と表され得る。
図4に関して、平均空間音声方向パラメータの量子化および指数付けは処理ステップ415として示されている。
【0116】
次に、(サブ帯域k≠0のための)さらなるサブフレーム(n=1)のための空間音声パラメータ平均指数を、同じサブ帯域k内のなおさらなるサブフレーム(n=2)のための空間音声パラメータ方向差指数の決定において用い得る。このステップは、処理ステップ417と結合された経路406として
図4に示されている。
【0117】
次に、処理ステップ1~3をなおさらなるサブフレーム(例えば、n=2)のために繰り返し得る。以下のとおりである:
【0118】
1(2).Idiffθ(k,2)=Iθ(k,2)-Iavgθ(k,1)およびIdiffφ(k,2)=Iφ(k,2)-Iavgφ(k,1)を決定することによって、なおさらなるサブフレームのための空間音声パラメータ方向差指数を決定し得る。ここで、Iθ(k,2)およびIφ(k,2)は、それぞれ、第kの周波数帯域の第3のサブフレームのための方位角および仰角値のための量子化指数である。
【0119】
2(2).次に、サブフレーム(n=2)のための実際の空間音声方向パラメータおよび以前のサブフレーム(n=0,1)のための実際の空間音声方向パラメータの平均を算出することによって、なおさらなるサブフレーム(n=2)のための平均空間音声方向パラメータを決定し得る。方位角および仰角値に関して、これは、Avgφ(k,2)=(φ(k,2)+(φ(k,1)+φ(k,0))/3およびAvgθ(k,2)=(θ(k,2)+θ(k,1)+θ(k,0))/3と表され得る。実施形態では、平均演算は、上述されたようにデカルト座標領域において実行され得る。
【0120】
3(2).次に、なおさらなるサブフレーム(n=2)のための平均空間音声方向パラメータを量子化し、なおさらなるサブフレーム(n=2)のための空間音声方向パラメータ平均指数を与え得る。方位角および仰角値の項に関して関して、これは、Iavgφ(k,2)およびIavgθ(k,2)と表され得る。次に、(サブ帯域k≠0のための)さらなるサブフレーム(n=2)のための空間音声パラメータ平均指数を、同じサブ帯域k内のなおさらなるサブフレーム(n=3)のための空間音声パラメータ方向差指数の決定において用い得る。
【0121】
ステップ1、2、および3は、空間音声パラメータ方向差指数が周波数帯域k(ここで、k≠0)内の全てのサブフレームのために決定されるまで繰り返され得ることを理解されたい。上述のステップを周波数サブ帯域k内のさらなるサブフレームのために繰り返すプロセスは戻り経路408によって
図4に示されている。
【0122】
空間音声パラメータ方向差指数が周波数帯域kの少なくとも一部の(または全ての)サブフレームのために決定されると、上述のCコード(
図4には示されていない)を用いて空間音声パラメータ方向差指数を全ての値が正になるように処理し得る。次に、(第kの周波数帯域のサブフレームにわたる音声方向差指数の)エントロピーベースの符号化を容易にするために、一連の音声方向差指数を大きさの昇順または降順のどちらかに再配列し得る。
【0123】
処理されたサブフレームごとの出力空間音声方向差指数は経路410として
図4に示されている。
【0124】
実施形態では、サブ帯域のサブフレームに関連付けられた空間音声パラメータ方向差指数はゴロム・ライス符号化を用いて符号化され得る。したがって、方位角および仰角値に関して、サブ帯域のサブフレームのための方位角差指数はゴロム・ライス符号化に従って符号化され得、サブ帯域のサブフレームのための仰角差指数もゴロム・ライス符号化に従って符号化され得る。方位角差指数および仰角差指数のゴロム符号化は各々、音声フレームのサブ帯域ごとに実行され得る。
【0125】
加えて、第1のサブ帯域(k=0)の平均空間音声パラメータ指数値もゴロム・ライス符号化され得る。例えば、Iavgθ(0)およびIavgφ(0)もゴロム・ライス符号化され得る。
【0126】
したがって、音声フレームごとに符号化された空間音声パラメータストリームは、第1のサブ帯域(k=0)のエントロピー符号化された平均空間音声パラメータ指数値、例えば、ゴロム・ライス符号化されたIavgθ(0)およびIavgφ(0)、ならびに音声フレームの各サブ帯域のサブフレームに関連付けられたエントロピー符号化された空間音声パラメータ方向差指数を含み得ることを理解されたい。例えば、k=0:M-1およびn=0:N-1のための、ゴロム・ライス符号化された仰角および方位角差指数Idiffφ(k,n)、Idiffθ(k,n)である。
【0127】
図3および
図4によって概説されたとおりの空間音声方向パラメータのための上述の符号化ステップは、音声フレーム内の方位角値または音声フレーム内の仰角値のどちらか、あるいはフレーム内の方位角および仰角値の両方のために実行され得ることを理解されたい。
【0128】
図3によって要約されるとおりの空間音声方向パラメータを符号化するための上述のステップは、空間音声方向パラメータを符号化するための固定平均符号化方法(fixed average encoding method)と称され得る。
図4によって要約されるとおりの空間音声方向パラメータを符号化するための上述のステップは、空間音声方向パラメータを符号化するための適応平均符号化方法(adaptive average encoding method)と称され得る。それゆえ、
図3から要約されるとおりの方法ステップ(固定平均符号化方法)は独立した方法として展開され得る。加えて、空間音声方向パラメータを符号化するための
図4の方法ステップ(適応平均符号化方法)もまた、独立した方法としてサブ帯域のサブフレームのための空間音声方向パラメータを符号化するように構成され得る。このような場合には、
図4への入力として用いられる平均空間音声方向パラメータ指数は、前の周波数サブ帯域からのサブフレームの少なくとも空間音声方向パラメータの平均として導出され得る。
【0129】
実施形態によっては、周波数サブ帯域のサブフレームのためのの空間音声パラメータを符号化するために用いられる方法は、固定平均符号化方法または適応平均符号化方法の間で選択され得る。2つの方法(固定平均または適応平均)のうちの一方が選択され得る基準はサブ帯域ごとの平均方位角値の分散に依存し得る。選択が行われ得る指標は、サブ帯域のサブフレームにわたる空間音声方向パラメータの分散と、音声フレームのための空間音声方向パラメータの平均との比に基づき得る。次に、この指標は閾値と比較され得、これにより、算出された指標が閾値未満である場合には、このとき、固定平均方法が、周波数サブ帯域のサブフレームに関連付けられた空間音声方向パラメータを符号化するために用いられ得る。逆に、算出された指標が閾値以上である場合には、このとき、適応平均方法が、周波数サブ帯域のサブフレームに関連付けられた空間音声方向パラメータを符号化するために用いられ得る。
【0130】
上述され、
図3および
図4において提示されたとおりの音声フレームの空間音声方向パラメータを符号化する上述の方法は、多数の異なる空間音声方向パラメータ符号化機構を包含するより一般的な符号化フレームワークに組み込まれ得る。(音声フレームの空間音声方向パラメータの符号化のための)符号化機構の選定は音声フレーム単位で決定され得、その目的のためのビットの割り当てに依存し得る。
【0131】
一般的フレームワークは以下の疑似コード構造を有し得る。
【0132】
一般的フレームワークへの入力は、量子化空間音声方向パラメータ(方位角および仰角)、ならびに許可されたビット数(bits_allowed)を含み得る。
1. bits_EC1<bits_allowedである場合には、パラメータを符号化するためのプロセスEC1を用いる
a. 方法EC1によって、量子化された方向パラメータを符号化する
2.さもなければ
a. 帯域ごとの符号化(bandwise encoding)EC2を用いる(潜在的な量子化分解能の減少を伴う)
b. bits_EC2<bits_allowedである場合には、
i. EC2を用いて符号化する
c. さもなければ
i. 量子化分解能を低減する
ii. EC3を用いる
d. if終了
3. if終了
【0133】
ここで、EC1は、以上において概説され、
図3および
図4において提示されたとおりの差指数を用いて空間音声方向パラメータを符号化する方法を指す。方法EC2およびEC3は、空間音声方向パラメータを符号化するための異なる方法を指すことができる。例えば、EC2は、国際出願PCT/FI2020/050578号に記載されるとおりの方位角および仰角値を符号化する方法を指し得、EC3は、国際公開第2020/070377号として公開された国際出願に記載されるとおりの方位角および仰角値を符号化する方法を指し得る。
【0134】
メタデータ符号器/量子化器111はまた、TFタイルごとのエネルギー比パラメータを受信し、好適な圧縮および符号化方式を実行するように構成され得るエネルギー比パラメータ符号器(energy ratio parameter encoder)を含み得る。
【0135】
同様に、メタデータ符号器/量子化器111はまた、周囲コヒーレンス値γおよび拡散コヒーレンス値ζを受信し、周囲および拡散コヒーレンス値を圧縮するための好適な符号化を決定するように構成されたコヒーレンス符号器(coherence encoder)を含み得る。
【0136】
符号化された方向、エネルギー比、およびコヒーレンス値はコンバイナに渡され得る。コンバイナは、符号化された(または量子化/圧縮された)方向パラメータ、エネルギー比パラメータ、およびコヒーレンスパラメータを受信し、これらを組み合わせ、好適な出力(例えば、移送信号と組み合わせられるか、または移送信号とは別個に伝送もしくは記憶され得るメタデータビットストリーム)を生成するように構成され得る。
【0137】
実施形態によっては、符号化されたデータストリームは復号器/デマルチプレクサ133に渡される。復号器/デマルチプレクサ133は、フレームのための符号化された量子化空間音声パラメータセットを多重分離し、それらをメタデータ抽出器137に渡し、また、復号器/デマルチプレクサ133は、実施形態によっては、移送音声信号を復号化および抽出のために移送抽出器へ抽出し得る。
【0138】
次に、復号化された空間音声パラメータは、メタデータ抽出器137からの復号化されたメタデータ出力を形成し、マルチチャンネル信号110を形成するために合成プロセッサ139に渡され得る。
【0139】
図5に関して、分析または合成デバイスとして用いられ得る例示的な電子デバイスが示される。デバイスは任意の好適な電子デバイスまたは装置であり得る。例えば、実施形態によっては、デバイス1400は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、音声再生装置等である。
【0140】
実施形態によっては、デバイス1400は少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書において説明されるものなどの方法などの様々なプログラムコードを実行するように構成することができる。
【0141】
実施形態によっては、デバイス1400はメモリ1411を備える。実施形態によっては、少なくとも1つのプロセッサ1407はメモリ1411に結合されている。メモリ1411は任意の好適な記憶手段であることができる。実施形態によっては、メモリ1411は、プロセッサ1407上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを含む。さらに、実施形態によっては、メモリ1411は、データ、例えば、本明細書において説明されるとおりの実施形態に従って処理された、または処理される予定のデータを記憶するための記憶データセクションをさらに含むことができる。プログラムコードセクション内に記憶された実施プログラムコード、および記憶データセクション内に記憶されたデータは、プロセッサ1407によって、必要なときにいつでもメモリ-プロセッサ結合を介して取得され得る。
【0142】
実施形態によっては、デバイス1400はユーザインターフェース1405を備える。ユーザインターフェース1405は、実施形態によっては、プロセッサ1407に結合され得る。実施形態によっては、プロセッサ1407はユーザインターフェース1405の動作を制御し、ユーザインターフェース1405からの入力を受信することができる。実施形態によっては、ユーザインターフェース1405は、ユーザが、例えば、キーパッドを介して、コマンドをデバイス1400に入力することを可能にすることができる。実施形態によっては、ユーザインターフェース1405は、ユーザがデバイス1400から情報を得ることを可能にすることができる。例えば、ユーザインターフェース1405は、デバイス1400からの情報をユーザに表示するように構成されたディスプレイを含み得る。ユーザインターフェース1405は、実施形態によっては、情報がデバイス1400に入力されることを可能にすること、および情報をデバイス1400のユーザにさらに表示することの両方の能力を有するタッチスクリーンまたはタッチインターフェースを含むことができる。実施形態によっては、ユーザインターフェース1405は、本明細書において説明されるとおりの位置決定器と通信するためのユーザインターフェースであり得る。
【0143】
実施形態によっては、デバイス1400は入力/出力ポート1409を備える。入力/出力ポート1409は、実施形態によっては、送受信器を含む。このような実施形態における送受信器はプロセッサ1407に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成することができる。送受信器、あるいは任意の好適な送受信器または伝送器および/または受信器手段は、実施形態によっては、配線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
【0144】
送受信器は、任意の好適な知られた通信プロトコルによってさらなる装置と通信することができる。例えば、実施形態によっては、送受信器は、好適なユニバーサル移動体通信システム(UMTS:universal mobile telecommunications system)プロトコル、例えば、IEEE802.Xなどの、無線ローカルエリアネットワーク(WLAN:wireless local area network)プロトコル、Bluetoothなどの好適な近距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA:infrared data communication pathway)を用いることができる。
【0145】
送受信器入力/出力ポート1409は、信号を受信し、実施形態によっては、好適なコードを実行するプロセッサ1407を用いることによって本明細書において説明されるとおりのパラメータを決定するように構成され得る。さらに、デバイスは、合成デバイスへ伝送されるべき好適なダウンミックス信号およびパラメータ出力を生成し得る。
【0146】
実施形態によっては、デバイス1400は合成デバイスの少なくとも部分として採用され得る。それゆえ、入力/出力ポート1409は、本明細書において説明されるとおりの取り込みデバイスまたは処理デバイスにおいて決定されたダウンミックス信号、および実施形態によっては、パラメータを受信し、好適なコードを実行するプロセッサ1407を用いることによって出力される好適な音声信号形式を生成するように構成され得る。入力/出力ポート1409は、例えば、マルチチャンネルスピーカシステムおよび/またはヘッドフォンもしくは同様のものへの任意の好適な音声出力に結合され得る。
【0147】
概して、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、論理あるいはこれらの任意の組み合わせの形態で実施され得る。例えば、いくつかの態様はハードウェアの形態で実施され得、その一方で、他の態様は、コントローラ、マイクロプロセッサまたはその他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアの形態で実施され得る。ただし、本発明はこれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図的表現を用いて図解され、説明されている場合があるが、本明細書において説明されているこれらのブロック、装置、システム、技法、または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他のコンピューティングデバイス、あるいはこれらの何らかの組み合わせの形態で実施され得ることは十分理解される。
【0148】
本発明の実施形態は、例えば、プロセッサエンティティ内の、モバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、あるいはソフトウェアおよびハードウェアの組み合わせによって実施され得る。さらに、この点に関して、図にあるような論理フローの任意のブロックは、プログラムステップ、あるいは相互接続された論理回路、ブロック、および機能、あるいはプログラムステップ、ならびに論理回路、ブロック、および機能の組み合わせを表現し得ることに留意されたい。ソフトウェアは、メモリチップなどの物理媒体、あるいはプロセッサ内に実施されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気媒体、ならびに例えば、DVD、およびそのデータ変種、CDなどの光媒体上に記憶され得る。
【0149】
メモリは、局所的技術環境に適した任意の種類のものであり得、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定式メモリおよび着脱式メモリなどの、任意の好適なデータ記憶技術を用いて実施され得る。データプロセッサは、局所的技術環境に適した任意の種類のものであり得、非限定例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP:digital signal processor)、特定用途向け集積回路(ASIC:application specific integrated circuit)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つまたは複数を含み得る。
【0150】
本発明の実施形態は集積回路モジュールなどの様々な構成要素において実施され得る。集積回路の設計は、概して、高度に自動化されたプロセスである。論理レベルの設計を、半導体基板上でエッチングおよび形成される準備ができた半導体回路設計に変換するための複雑で強力なソフトウェアツールが利用可能である。
【0151】
プログラムは、十分に確立された設計規則、および事前に記憶された設計モジュールのライブラリを用いて、導線を配線し、半導体チップ上の構成要素の位置を決定することができる。半導体回路のための設計が完了すると、標準化された電子形式による、得られた設計は製造のために半導体製造施設または「製造工場(fab)」へ伝送され得る。
【0152】
上述の説明は、例示的な非限定例を用いて、本発明の例示的な実施形態の完全で情報価値のある説明を与えた。しかし、当業者には、添付の図面および添付の請求項と併せて読むことで、上述の説明を考慮して様々な変更および適合が明らかになるであろう。しかし、本発明の教示のこのような変更および同様の変更は全て、添付の請求項において定義されるとおりの本発明の範囲に依然として含まれることになる。
【符号の説明】
【0153】
100 システム
102 マルチチャンネル信号
103 移送信号生成器
104 移送信号
105 分析プロセッサ
106 メタデータ
107 符号器
108 方向パラメータ
109 音声符号器コア
110 エネルギー比パラメータ
111 メタデータ符号器/量子化器
112 コヒーレンスパラメータ
121 分析部分
131 合成部分
133 復号器/デマルチプレクサ
135 移送抽出器
137 メタデータ抽出器
139 合成プロセッサ
201 時間周波数領域変換器
202 時間周波数信号
203 空間分析器
207 空間パラメータセット符号器
1400 デバイス
1405 ユーザインターフェース
1407 中央処理装置、プロセッサ
1409 入力/出力ポート
1411 メモリ
【手続補正書】
【提出日】2023-07-31
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
空間音声符号化のための装置であって、
空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、前記空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、
前記量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、
を行うための手段を備える装置。
【請求項2】
前記量子化平均空間音声方向指数が、前記装置が、
少なくとも2つの空間音声方向パラメータを平均し、平均空間音声方向パラメータを提供することであって、前記少なくとも2つの空間音声方向パラメータが前の周波数サブ帯域の連続した時間サブフレームに関連付けられており、前記前の周波数サブ帯域が、前記周波数サブ帯域よりも低い周波数サブ帯域である、提供することと、
前記平均空間音声方向を量子化して指数付けすることと、
を行うための手段を有することによって決定される、請求項1に記載の装置。
【請求項3】
前記装置が、
前記周波数サブ帯域のための初期平均空間音声方向パラメータを決定するための手段をさらに備え、前記決定が、
前記平均空間音声方向パラメータを第1の重みで重み付けすること、
以前の音声フレームからの対応する前の周波数サブ帯域からの少なくとも2つの空間音声方向パラメータに関連付けられた平均空間音声方向パラメータを第2の重みで重み付けすること、
前記第1の重み付けされた平均空間音声方向パラメータおよび第2の重み付けされた平均空間音声方向パラメータを平均し、前記周波数サブ帯域のための前記初期平均空間音声方向パラメータを提供すること、
によって行われる、請求項2に記載の装置。
【請求項4】
前記装置が、
さらなる空間音声方向パラメータを量子化して指数付けし、量子化されたさらなる空間音声方向指数を形成するための手段をさらに備え、前記さらなる空間音声方向パラメータが前記周波数サブ帯域の進行する時間サブフレームに関連付けられており、前記量子化平均空間音声方向指数が、前記装置が、
前記周波数サブ帯域のための前記空間音声方向パラメータおよび前の空間音声方向パラメータを平均することであって、前記前の空間音声方向パラメータが、前記空間音声方向パラメータに関連付けられた前記時間サブフレームの前の時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記前の空間音声方向パラメータの前記平均を量子化して指数付けすることと、
を行うための手段を有することによって決定される、請求項1~3のいずれか1項に記載の装置。
【請求項5】
前記装置が、
前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータを平均することであって、前記少なくとも1つのさらなる空間音声方向パラメータが前記周波数サブ帯域の少なくとも1つのさらなる時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの分散を決定することと、
前記分散と、前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの前記平均との比としての指標を決定することと、
前記指標を閾値と比較することと、
を行うための手段をさらに備える、請求項1に記載の装置。
【請求項6】
前記指標が前記閾値未満であるとき、前記装置が、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの前記平均を量子化して指数付けし、前記量子化平均空間音声方向指数を提供することと、
前記少なくとも1つのさらなる空間音声方向パラメータを量子化して指数付けし、前記量子化された少なくとも1つのさらなる空間音声方向指数を提供することと、
前記量子化された少なくとも1つのさらなる空間音声方向指数と前記量子化平均空間音声方向指数との差を算出することによって、前記量子化された少なくとも1つのさらなる空間音声差指数を決定することと、
を行うための手段を備える、請求項5に記載の装置。
【請求項7】
ゴロム・ライス符号化を用いて、前記量子化されたさらなる空間音声方向指数、前記量子化空間音声差指数、および前記量子化平均空間音声方向指数を符号化するための手段をさらに備える、請求項1~6のいずれか1項に記載の装置。
【請求項8】
前記空間音声方向パラメータが球座標方位角値である、請求項1~7のいずれか1項に記載の装置。
【請求項9】
少なくとも2つの空間音声方向パラメータを平均
し、平均空間音声方向パラメータを提供するための前記手段が、
前記少なくとも2つの空間音声方向パラメータを球領域からデカルト領域パラメータへ変換することと、
前記デカルト領域パラメータを平均することと、
前記平均されたデカルト領域パラメータを前記球領域へ変換することと、
を行うため
の手段を含む、請求項
2~8のいずれか1項に記載の装置。
【請求項10】
空間音声符号化のための方法であって、
空間音声方向パラメータを量子化して指数付けし、量子化空間音声方向指数を形成することであって、前記空間音声方向パラメータが音声フレームの周波数サブ帯域の時間サブフレームに関連付けられている、形成することと、
前記量子化空間音声方向指数と量子化平均空間音声方向指数との差を算出することによって量子化空間音声差指数を決定することと、
を含む方法。
【請求項11】
前記量子化平均空間音声方向指数が、
少なくとも2つの空間音声方向パラメータを平均し、平均空間音声方向パラメータを提供することであって、前記少なくとも2つの空間音声方向パラメータが前の周波数サブ帯域の連続した時間サブフレームに関連付けられており、前記前の周波数サブ帯域が、前記周波数サブ帯域よりも低い周波数サブ帯域である、提供することと、
前記平均空間音声方向を量子化して指数付けすることと、
を含む、請求項10に記載の方法。
【請求項12】
前記方法が、
前記周波数サブ帯域のための初期平均空間音声方向パラメータを決定することをさらに含み、前記決定が、
前記平均空間音声方向パラメータを第1の重みで重み付けすること、
以前の音声フレームからの対応する前の周波数サブ帯域からの少なくとも2つの空間音声方向パラメータに関連付けられた平均空間音声方向パラメータを第2の重みで重み付けすること、
前記第1の重み付けされた平均空間音声方向パラメータおよび第2の重み付けされた平均空間音声方向パラメータを平均し、前記周波数サブ帯域のための前記初期平均空間音声方向パラメータを提供すること、
によって行われる、請求項11に記載の方法。
【請求項13】
前記方法が、
さらなる空間音声方向パラメータを量子化して指数付けし、量子化されたさらなる空間音声方向指数を形成する
ことをさらに
含み、前記さらなる空間音声方向パラメータが前記周波数サブ帯域の進行する時間サブフレームに関連付けられており、前記量子化平均空間音声方向指数が、
前記周波数サブ帯域のための前記空間音声方向パラメータおよび前の空間音声方向パラメータを平均することであって、前記前の空間音声方向パラメータが、前記空間音声方向パラメータに関連付けられた前記時間サブフレームの前の時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記前の空間音声方向パラメータの前記平均を量子化して指数付けすることと、
によって決定される、請求項10~12のいずれか1項に記載の方法。
【請求項14】
前記方法が、
前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータを平均することであって、前記少なくとも1つのさらなる空間音声方向パラメータが前記周波数サブ帯域の少なくとも1つのさらなる時間サブフレームに関連付けられている、平均することと、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの分散を決定することと、
前記分散と、前記空間音声方向パラメータおよび少なくとも1つのさらなる空間音声方向パラメータの前記平均との比としての指標を決定することと、
前記指標を閾値と比較することと、
をさらに含む、請求項10に記載の方法。
【請求項15】
前記指標が前記閾値未満であるとき、前記方法が、
前記空間音声方向パラメータおよび前記少なくとも1つのさらなる空間音声方向パラメータの前記平均を量子化して指数付けし、前記量子化平均空間音声方向指数を提供することと、
前記少なくとも1つのさらなる空間音声方向パラメータを量子化して指数付けし、前記量子化された少なくとも1つのさらなる空間音声方向指数を提供することと、
前記量子化された少なくとも1つのさらなる空間音声方向指数と前記量子化平均空間音声方向指数との差を算出することによって、前記量子化された少なくとも1つのさらなる空間音声差指数を決定することと、
を含む、請求項14に記載の方法。
【請求項16】
ゴロム・ライス符号化を用いて、前記量子化されたさらなる空間音声方向指数、前記量子化空間音声差指数、および前記量子化平均空間音声方向指数を符号化することをさらに含む、請求項
10~15のいずれか1項に記載の方法。
【請求項17】
前記空間音声方向パラメータが球座標方位角値である、請求項
10~16のいずれか1項に記載の方法。
【請求項18】
前記
少なくとも2つの空間音声方向パラメータを平均
し、平均空間音声方向パラメータを提供することが、
前記少なくとも2つの空間音声方向パラメータを球領域からデカルト領域パラメータへ変換することと、
前記デカルト領域パラメータを平均することと、
前記平均されたデカルト領域パラメータを前記球領域へ変換することと、
を含む、請求項
11~17に記載の方法。
【国際調査報告】