(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-21
(54)【発明の名称】空間音声ストリームの結合
(51)【国際特許分類】
G10L 19/008 20130101AFI20240313BHJP
【FI】
G10L19/008 200
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023558512
(86)(22)【出願日】2021-03-22
(85)【翻訳文提出日】2023-09-22
(86)【国際出願番号】 FI2021050199
(87)【国際公開番号】W WO2022200666
(87)【国際公開日】2022-09-29
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100176418
【氏名又は名称】工藤 嘉晃
(72)【発明者】
【氏名】ライティネン ミッコ-ヴィッレ
(72)【発明者】
【氏名】ヴァシラケ アドリアナ
(72)【発明者】
【氏名】ピヒラヤクヤ タパニ
(72)【発明者】
【氏名】ラークソネン ラッセ ユハニ
(72)【発明者】
【氏名】ラーモ アンシ サカリ
(57)【要約】
とりわけ、空間音声符号化のための装置であって、入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定し、音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化するように構成された装置が開示されている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
空間音声信号符号化のための方法であって、
入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定すること、および
前記音声シーン分離メトリックを使用して、前記入力音声信号の少なくとも1つの空間音声パラメータを量子化すること
を含む方法。
【請求項2】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化すること
をさらに含む、請求項1に記載の方法。
【請求項3】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化することが、
前記音声シーン分離メトリックに、前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを乗じること、
前記音声シーン分離メトリックと前記エネルギー比パラメータとの積を量子化して、量子化インデックスを生成すること、および
前記量子化インデックスを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化するためのビット割当てを選択すること
を含む、請求項1および2に記載の方法。
【請求項4】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化することが、
前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するための量子化器を複数の量子化器の中から選択することであり、前記選択が、前記音声シーン分離メトリックに依存する、選択すること、
選択された前記量子化器を使用して前記エネルギー比パラメータを量子化して、量子化インデックスを生成すること、および
前記量子化インデックスを使用して、前記エネルギー比パラメータを、前記入力信号の前記少なくとも1つの空間音声パラメータとともに量子化するためのビット割当てを選択すること
を含む、請求項1および2に記載の方法。
【請求項5】
前記少なくとも1つの空間音声パラメータが、前記入力音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項3および4に記載の方法。
【請求項6】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータを量子化することが、
前記少なくとも1つの空間音声パラメータを量子化するための量子化器を複数の量子化器の中から選択することであり、選択される前記量子化器が、前記音声シーン分離メトリックに依存する、選択すること、および
選択された前記量子化器を用いて前記少なくとも1つの空間音声パラメータを量子化すること
を含む、請求項2~5に記載の方法。
【請求項7】
前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項6に記載の方法。
【請求項8】
前記追加の入力音声信号の前記第1の音声オブジェクト信号の前記時間周波数タイルに対する前記音声オブジェクトエネルギー比パラメータが、
前記追加の入力音声信号の前記時間周波数タイルに対する複数の音声オブジェクト信号のうちの前記第1の音声オブジェクト信号のエネルギーを決定すること、
前記複数の音声オブジェクト信号のうちの残りのそれぞれの音声オブジェクト信号のエネルギーを決定すること、および
前記第1の音声オブジェクト信号と残りの音声オブジェクト信号の前記エネルギーの和に対する前記第1の音声オブジェクト信号の前記エネルギーの比を決定すること
によって決定される、請求項7に記載の方法。
【請求項9】
前記音声シーン分離メトリックが、前記入力音声信号の時間周波数タイルと前記追加の入力音声信号の時間周波数タイルとの間で決定され、前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータの前記量子化を決定することが、
前記入力音声信号の追加の時間周波数タイルと前記追加の入力音声信号の追加の時間周波数タイルとの間の追加の音声シーン分離メトリックを決定すること、
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するためのファクタを決定すること、
前記ファクタに応じて複数の量子化器の中から量子化器を選択すること、および
選択された前記量子化器を使用して、前記追加の入力音声信号の少なくとも1つの追加の空間音声パラメータを量子化すること
を含む、請求項2~8に記載の方法。
【請求項10】
前記少なくとも1つの追加の空間音声パラメータが、前記追加の入力音声信号の音声フレームに対する音声オブジェクト方向パラメータである、請求項9に記載の方法。
【請求項11】
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するための前記ファクタが、
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの平均、または
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの最小
のうちの一方である、請求項9および10に記載の方法。
【請求項12】
ストリーム分離インデックスが、前記入力音声信号および前記追加の入力音声信号を含む音声シーンに対する、前記入力音声信号と前記追加の入力音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項1~11に記載の方法。
【請求項13】
前記音声シーン分離メトリックを決定することが、
前記入力音声信号を複数の時間周波数タイルに変換すること、
前記追加の入力音声信号を複数の追加の時間周波数タイルに変換すること、
少なくとも1つの時間周波数タイルのエネルギー値を決定すること、
少なくとも1つの追加の時間周波数タイルのエネルギー値を決定すること、および
前記音声シーン分離メトリックを、前記少なくとも1つの時間周波数タイルと前記少なくとも1つの追加の時間周波数タイルの和に対する前記少なくとも1つの時間周波数タイルの前記エネルギー値の比として決定すること
を含む、請求項1~12に記載の方法。
【請求項14】
前記入力音声信号が2つ以上の音声チャネル信号を含み、前記追加の入力音声信号が複数の音声オブジェクト信号を含む、請求項1~13に記載の方法。
【請求項15】
空間音声信号復号のための方法であって、
量子化された音声シーン分離メトリックを復号すること、および
前記量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定すること
を含む方法。
【請求項16】
前記量子化された音声シーン分離メトリックを使用して、第2の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定すること
をさらに含む、請求項15に記載の方法。
【請求項17】
前記量子化された音声シーン分離メトリックを使用して、前記第1の音声信号に関連した前記量子化された少なくとも1つの空間音声パラメータを決定することが、
前記第1の音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択することであり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、選択すること、
量子化された前記エネルギー比パラメータを、選択された前記量子化器から決定すること、および
量子化された前記エネルギー比パラメータの量子化インデックスを使用して、前記第1の音声信号の前記少なくとも1つの空間音声パラメータを復号すること、
を含む、請求項15および16に記載の方法。
【請求項18】
前記少なくとも1つの空間音声パラメータが、前記第1の音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項17に記載の方法。
【請求項19】
前記量子化された音声シーン分離メトリックを使用して、前記第2の音声信号を表現する前記量子化された少なくとも1つの空間音声パラメータを決定することが、
前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択することであり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、選択すること、および
前記第2の音声信号に対する前記量子化された少なくとも1つの空間音声パラメータを、前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する選択された前記量子化器から決定すること
を含む、請求項16~18に記載の方法。
【請求項20】
前記第2の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記第2の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項19に記載の方法。
【請求項21】
ストリーム分離インデックスが、前記第1の音声信号および前記第2の音声信号を含む音声シーンに対する、前記第1の音声信号と前記第2の音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項15~20に記載の方法。
【請求項22】
前記第1の音声信号が2つ以上の音声チャネル信号を含み、前記第2の入力音声信号が複数の音声オブジェクト信号を含む、請求項15~21に記載の方法。
【請求項23】
空間音声信号符号化のための装置であって、
入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定する手段と、
前記音声シーン分離メトリックを使用して、前記入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段と
を備える装置。
【請求項24】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段
をさらに備える、請求項23に記載の装置。
【請求項25】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化する前記手段が、
前記音声シーン分離メトリックに、前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを乗じる手段と、
前記音声シーン分離メトリックと前記エネルギー比パラメータとの積を量子化して、量子化インデックスを生成する手段と、
前記量子化インデックスを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化するためのビット割当てを選択する手段と
を備える、請求項23および24に記載の装置。
【請求項26】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化する前記手段が、
前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するための量子化器を複数の量子化器の中から選択する手段であり、前記選択が、前記音声シーン分離メトリックに依存する、手段と、
選択された前記量子化器を使用して前記エネルギー比パラメータを量子化して、量子化インデックスを生成する手段と、
前記量子化インデックスを使用して、前記エネルギー比パラメータを、前記入力信号の前記少なくとも1つの空間音声パラメータとともに量子化するためのビット割当てを選択する手段と
を備える、請求項23および24に記載の装置。
【請求項27】
前記少なくとも1つの空間音声パラメータが、前記入力音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項25および26に記載の装置。
【請求項28】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータを量子化する前記手段が、
前記少なくとも1つの空間音声パラメータを量子化するための量子化器を複数の量子化器の中から選択する手段であり、選択される前記量子化器が、前記音声シーン分離メトリックに依存する、手段と、
選択された前記量子化器を用いて前記少なくとも1つの空間音声パラメータを量子化する手段と
を備える、請求項24~27に記載の装置。
【請求項29】
前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項28に記載の装置。
【請求項30】
前記追加の入力音声信号の前記第1の音声オブジェクト信号の前記時間周波数タイルに対する前記音声オブジェクトエネルギー比パラメータが、
前記追加の入力音声信号の前記時間周波数タイルに対する複数の音声オブジェクト信号のうちの前記第1の音声オブジェクト信号のエネルギーを決定する手段と、
前記複数の音声オブジェクト信号のうちの残りのそれぞれの音声オブジェクト信号のエネルギーを決定する手段と、
前記第1の音声オブジェクト信号と残りの音声オブジェクト信号の前記エネルギーの和に対する前記第1の音声オブジェクト信号の前記エネルギーの比を決定する手段と
によって決定される、請求項29に記載の装置。
【請求項31】
前記音声シーン分離メトリックが、前記入力音声信号の時間周波数タイルと前記追加の入力音声信号の時間周波数タイルとの間で決定され、前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータの前記量子化を決定する前記手段が、
前記入力音声信号の追加の時間周波数タイルと前記追加の入力音声信号の追加の時間周波数タイルとの間の追加の音声シーン分離メトリックを決定する手段と、
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するためのファクタを決定する手段と、
前記ファクタに応じて複数の量子化器の中から量子化器を選択する手段と、
選択された前記量子化器を使用して、前記追加の入力音声信号の少なくとも1つの追加の空間音声パラメータを量子化する手段と
を備える、請求項24~30に記載の装置。
【請求項32】
前記少なくとも1つの追加の空間音声パラメータが、前記追加の入力音声信号の音声フレームに対する音声オブジェクト方向パラメータである、請求項31に記載の装置。
【請求項33】
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するための前記ファクタが、
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの平均、または
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの最小
のうちの一方である、請求項31および32に記載の装置。
【請求項34】
ストリーム分離インデックスが、前記入力音声信号および前記追加の入力音声信号を含む音声シーンに対する、前記入力音声信号と前記追加の入力音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項23~33に記載の装置。
【請求項35】
前記音声シーン分離メトリックを決定することが、
前記入力音声信号を複数の時間周波数タイルに変換する手段と、
前記追加の入力音声信号を複数の追加の時間周波数タイルに変換する手段と、
少なくとも1つの時間周波数タイルのエネルギー値を決定する手段と、
少なくとも1つの追加の時間周波数タイルのエネルギー値を決定する手段と、
前記音声シーン分離メトリックを、前記少なくとも1つの時間周波数タイルと前記少なくとも1つの追加の時間周波数タイルの和に対する前記少なくとも1つの時間周波数タイルの前記エネルギー値の比として決定すること
を備える、請求項23~34に記載の装置。
【請求項36】
前記入力音声信号が2つ以上の音声チャネル信号を含み、前記追加の入力音声信号が複数の音声オブジェクト信号を含む、請求項23~35に記載の装置。
【請求項37】
空間音声信号復号のための装置であって、
量子化された音声シーン分離メトリックを復号する手段と、
前記量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段と
を備える装置。
【請求項38】
前記量子化された音声シーン分離メトリックを使用して、第2の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段
をさらに備える、請求項37に記載の装置。
【請求項39】
前記量子化された音声シーン分離メトリックを使用して、前記第1の音声信号に関連した前記量子化された少なくとも1つの空間音声パラメータを決定することが、
前記第1の音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択する手段であり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、手段と、
量子化された前記エネルギー比パラメータを、選択された前記量子化器から決定する手段と、
量子化された前記エネルギー比パラメータの量子化インデックスを使用して、前記第1の音声信号の前記少なくとも1つの空間音声パラメータを復号する手段と
を備える、請求項37および38に記載の装置。
【請求項40】
前記少なくとも1つの空間音声パラメータが、前記第1の音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項39に記載の装置。
【請求項41】
前記量子化された音声シーン分離メトリックを使用して、前記第2の音声信号を表現する前記量子化された少なくとも1つの空間音声パラメータを決定する前記手段が、
前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択する手段であり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、手段と、
前記第2の音声信号に対する前記量子化された少なくとも1つの空間音声パラメータを、前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する選択された前記量子化器から決定する手段と
を備える、請求項38~40に記載の装置。
【請求項42】
前記第2の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記第2の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項41に記載の装置。
【請求項43】
ストリーム分離インデックスが、前記第1の音声信号および前記第2の音声信号を含む音声シーンに対する、前記第1の音声信号と前記第2の音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項37~42に記載の装置。
【請求項44】
前記第1の音声信号が2つ以上の音声チャネル信号を含み、前記第2の入力音声信号が複数の音声オブジェクト信号を含む、請求項37~44に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、音場に関係したパラメータ符号化のための装置および方法に関し、限定はされないが、音声符号器および復号器用の方向に関係したパラメータの時間-周波数ドメイン符号化のための装置および方法に関する。
【背景技術】
【0002】
パラメータ空間音声処理は、音の空間的な態様が一組のパラメータを使用して記述される音声信号処理の一分野である。例えば、マイクロホンアレイからのパラメータ空間音声捕捉において、周波数バンドにおける音の方向、および周波数バンドにおける捕捉音の指向性部分と無指向性部分との比などの一組のパラメータをマイクロホンアレイ信号から推定することは、典型的で有効な選択肢である。これらのパラメータは、マイクロホンアレイの位置における捕捉音の知覚的な空間特性を適切に記述することが知られている。したがって、これらのパラメータを、空間音の合成に利用することができ、ヘッドホンに対してバイノーラルで利用すること、ラウドスピーカ(loudspeaker)に対して利用すること、またはアンビソニックス(Ambisonics)などの他のフォーマットに対して利用することができる。
【0003】
したがって、周波数バンドにおける方向および方向対全体エネルギー比(direct-to-total energy ratio)(またはエネルギー比パラメータ)は、空間音声捕捉に対して特に有効なパラメータ化である。
【0004】
(音の指向性を示す)周波数バンドにおける方向パラメータおよび周波数バンドにおけるエネルギー比パラメータからなるパラメータセットを、音声コーデックのための空間メタデータとして利用することもできる(これは、サラウンドコヒーレンス(surround coherence)、スプレッド(spread)コヒーレンス、方向の数、距離などの他のパラメータを含むこともある)。例えば、マイクロホンアレイによって捕捉した音声信号からこれらのパラメータを推定することができ、例えば、マイクロホンアレイ信号から、空間メタデータとともに伝達されるステレオまたはモノ信号を生成することができる。ステレオ信号は、例えばAAC符号器を用いて符号化することができ、モノ信号は、EVS符号器を用いて符号化することができる。復号器は、音声信号をPCM信号に復号することができ、周波数バンドにおける音を(空間メタデータを使用して)処理して、空間出力、例えばバイノーラル出力を取得することができる。
【0005】
上述の解決策は、マイクロホンアレイ(例えば携帯電話のマイクロホンアレイ、VRカメラのマイクロホンアレイ、独立型マイクロホンアレイ)からの捕捉空間音を符号化するのに特に適している。しかしながら、そのような符号器が、マイクロホンアレイによって捕捉した信号以外の他の入力タイプ、例えばラウドスピーカ信号、音声オブジェクト(audio object)信号またはアンビソニック信号も有することが望ましいことがある。
【0006】
空間メタデータ抽出のために1次アンビソニックス(first-order Ambisonics)(FOA)入力を分析することは、ディレクショナルオーディオコーディング(Directional Audio Coding)(DirAC)およびハーモニックプレーンウェイブエクスパンション(Harmonic planewave expansion)(Harpex)に関する科学文献において詳細に検討されている。これは、FOA信号(より正確にはその異型であるBフォーマット信号)を直接に提供するマイクロホンアレイが存在し、したがって、このような入力を分析することがこの分野における研究の要点であったためである。その上、多方向空間メタデータ抽出のための高次アンビソニックス(higher-order Ambisonics)(HOA)入力の分析も、高次ディレクショナルオーディオコーディング(higher-order directional audio coding)(HO-DirAC)に関する科学文献において検討されている。
【0007】
さらに、符号器に対する追加の入力は、5.1または7.1チャネルサラウンド入力および音声オブジェクトなどのマルチチャネルラウドスピーカ入力である。
【0008】
上記のプロセスは、時間-周波数ドメインにおけるマルチチャネル分析を通して、方位および高度などの方向パラメータならびにエネルギー比を、空間メタデータとして取得することを含むことがある。他方、個々の音声オブジェクトに対する方向メタデータは別個の処理鎖で処理されることがある。しかしながら、これらの2つのタイプのメタデータの処理における可能な相乗効果は、これらのメタデータが別々に処理される場合、効率的には利用されない。
【発明の概要】
【0009】
第1の態様によれば、空間音声符号化のための方法であって、入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定すること、および音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化することを含む方法が提供される。
【0010】
この方法はさらに、音声シーン分離メトリックを使用して、追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化することを含むことができる。
【0011】
音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化することは、音声シーン分離メトリックに、入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを乗じること、音声シーン分離メトリックとエネルギー比パラメータとの積を量子化して、量子化インデックスを生成すること、および量子化インデックスを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化するためのビット割当てを選択することを含むことができる。
【0012】
あるいは、音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化することは、入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するための量子化器を複数の量子化器の中から選択することであり、この選択が、音声シーン分離メトリックに依存する、選択すること、選択された量子化器を使用してエネルギー比パラメータを量子化して、量子化インデックスを生成すること、および量子化インデックスを使用して、エネルギー比パラメータを、入力信号の少なくとも1つの空間音声パラメータとともに量子化するためのビット割当てを選択することを含むことができる。
【0013】
少なくとも1つの空間音声パラメータは、入力音声信号の時間周波数タイルに対する方向パラメータであってもよく、エネルギー比パラメータは方向対全体エネルギー比であってもよい。
【0014】
音声シーン分離メトリックを使用して、追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化することは、少なくとも1つの空間音声パラメータを量子化するための量子化器を複数の量子化器の中から選択することであり、選択される量子化器が、音声シーン分離メトリックに依存する、選択すること、および選択された量子化器を用いて少なくとも1つの空間音声パラメータを量子化することを含むことができる。
【0015】
追加の入力音声信号の少なくとも1つの空間音声パラメータは、追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータであってもよい。
【0016】
追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータは、追加の入力音声信号の時間周波数タイルに対する複数の音声オブジェクト信号のうちの第1の音声オブジェクト信号のエネルギーを決定すること、複数の音声オブジェクト信号のうちの残りのそれぞれの音声オブジェクト信号のエネルギーを決定すること、および第1の音声オブジェクト信号と残りの音声オブジェクト信号のエネルギーの和に対する第1の音声オブジェクト信号のエネルギーの比を決定することによって決定することができる。
【0017】
音声シーン分離メトリックは、入力音声信号の時間周波数タイルと追加の入力音声信号の時間周波数タイルとの間で決定することができ、音声シーン分離メトリックを使用して、追加の入力音声信号の少なくとも1つの空間音声パラメータの量子化を決定することは、入力音声信号の追加の時間周波数タイルと追加の入力音声信号の追加の時間周波数タイルとの間の追加の音声シーン分離メトリックを決定すること、音声シーン分離メトリックおよび追加の音声シーン分離メトリックを表現するためのファクタを決定すること、ファクタに応じて複数の量子化器の中から量子化器を選択すること、および選択された量子化器を使用して、追加の入力音声信号の少なくとも1つの追加の空間音声パラメータを量子化することを含むことができる。
【0018】
少なくとも1つの追加の空間音声パラメータは、追加の入力音声信号の音声フレームに対する音声オブジェクト方向パラメータであってもよい。
【0019】
音声シーン分離メトリックおよび追加の音声シーン分離メトリックを表現するためのファクタは、音声シーン分離メトリックと追加の音声シーン分離メトリックの平均、または音声シーン分離メトリックと追加の音声シーン分離メトリックの最小のうちの一方とすることができる。
【0020】
ストリーム分離インデックスは、入力音声信号および追加の入力音声信号を含む音声シーンに対する、入力音声信号と追加の入力音声信号のうちのそれぞれの信号の相対寄与の測度を提供することができる。
【0021】
音声シーン分離メトリックを決定することは、入力音声信号を複数の時間周波数タイルに変換すること、追加の入力音声信号を複数の追加の時間周波数タイルに変換すること、少なくとも1つの時間周波数タイルのエネルギー値を決定すること、少なくとも1つの追加の時間周波数タイルのエネルギー値を決定すること、および音声シーン分離メトリックを、少なくとも1つの時間周波数タイルと少なくとも1つの追加の時間周波数タイルの和に対する少なくとも1つの時間周波数タイルのエネルギー値の比として決定することを含むことができる。
【0022】
入力音声信号は2つ以上の音声チャネル信号を含んでいてもよく、追加の入力音声信号は複数の音声オブジェクト信号を含んでいてもよい。
【0023】
第2の態様によれば、空間音声復号のための方法であって、量子化された音声シーン分離メトリックを復号すること、および量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定することを含む方法が提供される。
【0024】
この方法はさらに、量子化された音声シーン分離メトリックを使用して、第2の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定することを含むことができる。
【0025】
量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定することは、第1の音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択することであり、この選択が、復号された量子化された音声シーン分離メトリックに依存する、選択すること、量子化されたエネルギー比パラメータを、選択された量子化器から決定すること、および量子化されたエネルギー比パラメータの量子化インデックスを使用して、第1の音声信号の少なくとも1つの空間音声パラメータを復号することを含むことができる。
【0026】
少なくとも1つの空間音声パラメータは、第1の音声信号の時間周波数タイルに対する方向パラメータであってもよく、エネルギー比パラメータは方向対全体エネルギー比であってもよい。
【0027】
量子化された音声シーン分離メトリックを使用して、第2の音声信号を表現する量子化された少なくとも1つの空間音声パラメータを決定することは、第2の音声信号に対する少なくとも1つの空間音声パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択することであり、この選択が、復号された量子化された音声シーン分離メトリックに依存する、選択すること、および第2の音声信号に対する量子化された少なくとも1つの空間音声パラメータを、第2の音声信号に対する少なくとも1つの空間音声パラメータを量子化するのに使用する選択された量子化器から決定することを含むことができる。
【0028】
第2の入力音声信号の少なくとも1つの空間音声パラメータは、第2の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータであってもよい。
【0029】
ストリーム分離インデックスは、第1の音声信号および第2の音声信号を含む音声シーンに対する、第1の音声信号と第2の音声信号のうちのそれぞれの信号の相対寄与の測度を提供することができる。
【0030】
第1の音声信号は2つ以上の音声チャネル信号を含んでいてもよく、第2の入力音声信号は複数の音声オブジェクト信号を含んでいてもよい。
【0031】
第3の態様によれば、空間音声符号化のための装置であって、入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定する手段と、音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段とを備える装置が提供される。
【0032】
この装置はさらに、音声シーン分離メトリックを使用して、追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段を備えることができる。
【0033】
音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段は、音声シーン分離メトリックに、入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを乗じる手段と、音声シーン分離メトリックとエネルギー比パラメータとの積を量子化して、量子化インデックスを生成する手段と、量子化インデックスを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化するためのビット割当てを選択する手段とを備えることができる。
【0034】
あるいは、音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段は、入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するための量子化器を複数の量子化器の中から選択する手段であり、この選択が、音声シーン分離メトリックに依存する、手段と、選択された量子化器を使用してエネルギー比パラメータを量子化して、量子化インデックスを生成する手段と、量子化インデックスを使用して、エネルギー比パラメータを、入力信号の少なくとも1つの空間音声パラメータとともに量子化するためのビット割当てを選択する手段とを備えることができる。
【0035】
少なくとも1つの空間音声パラメータは、入力音声信号の時間周波数タイルに対する方向パラメータであってもよく、エネルギー比パラメータは方向対全体エネルギー比であってよい。
【0036】
音声シーン分離メトリックを使用して、追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段は、少なくとも1つの空間音声パラメータを量子化するための量子化器を複数の量子化器の中から選択する手段であり、選択される量子化器が、音声シーン分離メトリックに依存する、手段と、選択された量子化器を用いて少なくとも1つの空間音声パラメータを量子化する手段とを備えることができる。
【0037】
追加の入力音声信号の少なくとも1つの空間音声パラメータは、追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータであってもよい。
【0038】
追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータは、追加の入力音声信号の時間周波数タイルに対する複数の音声オブジェクト信号のうちの第1の音声オブジェクト信号のエネルギーを決定する手段と、複数の音声オブジェクト信号のうちの残りのそれぞれの音声オブジェクト信号のエネルギーを決定する手段と、第1の音声オブジェクト信号と残りの音声オブジェクト信号のエネルギーの和に対する第1の音声オブジェクト信号のエネルギーの比を決定する手段とによって決定することができる。
【0039】
音声シーン分離メトリックは、入力音声信号の時間周波数タイルと追加の入力音声信号の時間周波数タイルとの間で決定することができ、音声シーン分離メトリックを使用して、追加の入力音声信号の少なくとも1つの空間音声パラメータの量子化を決定する手段は、入力音声信号の追加の時間周波数タイルと追加の入力音声信号の追加の時間周波数タイルとの間の追加の音声シーン分離メトリックを決定する手段と、音声シーン分離メトリックおよび追加の音声シーン分離メトリックを表現するためのファクタを決定する手段と、ファクタに応じて複数の量子化器の中から量子化器を選択する手段と、選択された量子化器を使用して、追加の入力音声信号の少なくとも1つの追加の空間音声パラメータを量子化する手段とを備えることができる。
【0040】
少なくとも1つの追加の空間音声パラメータは、追加の入力音声信号の音声フレームに対する音声オブジェクト方向パラメータであってもよい。
【0041】
音声シーン分離メトリックおよび追加の音声シーン分離メトリックを表現するためのファクタは、音声シーン分離メトリックと追加の音声シーン分離メトリックの平均、または音声シーン分離メトリックと追加の音声シーン分離メトリックの最小のうちの一方とすることができる。
【0042】
ストリーム分離インデックスは、入力音声信号および追加の入力音声信号を含む音声シーンに対する、入力音声信号と追加の入力音声信号のうちのそれぞれの信号の相対寄与の測度を提供することができる。
【0043】
音声シーン分離メトリックを決定する手段は、入力音声信号を複数の時間周波数タイルに変換する手段と、追加の入力音声信号を複数の追加の時間周波数タイルに変換する手段と、少なくとも1つの時間周波数タイルのエネルギー値を決定する手段と、少なくとも1つの追加の時間周波数タイルのエネルギー値を決定する手段と、音声シーン分離メトリックを、少なくとも1つの時間周波数タイルと少なくとも1つの追加の時間周波数タイルの和に対する少なくとも1つの時間周波数タイルのエネルギー値の比として決定する手段とを備えることができる。
【0044】
入力音声信号は2つ以上の音声チャネル信号を含んでいてもよく、追加の入力音声信号は複数の音声オブジェクト信号を含んでいてもよい。
【0045】
第4の態様によれば、空間音声復号のための装置であって、量子化された音声シーン分離メトリックを復号する手段と、量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段とを備える装置が提供される。
【0046】
この装置はさらに、量子化された音声シーン分離メトリックを使用して、第2の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段を備えることができる。
【0047】
量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段は、第1の音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択する手段であり、この選択が、復号された量子化された音声シーン分離メトリックに依存する、手段と、量子化されたエネルギー比パラメータを、選択された量子化器から決定する手段と、量子化されたエネルギー比パラメータの量子化インデックスを使用して、第1の音声信号の少なくとも1つの空間音声パラメータを復号する手段とを備えることができる。
【0048】
少なくとも1つの空間音声パラメータは、第1の音声信号の時間周波数タイルに対する方向パラメータであってもよく、エネルギー比パラメータは方向対全体エネルギー比であってもよい。
【0049】
量子化された音声シーン分離メトリックを使用して、第2の音声信号を表現する量子化された少なくとも1つの空間音声パラメータを決定する手段は、第2の音声信号に対する少なくとも1つの空間音声パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択する手段であり、この選択が、復号された量子化された音声シーン分離メトリックに依存する、手段と、第2の音声信号に対する量子化された少なくとも1つの空間音声パラメータを、第2の音声信号に対する少なくとも1つの空間音声パラメータを量子化するのに使用する選択された量子化器から決定する手段とを備えることができる。
【0050】
第2の入力音声信号の少なくとも1つの空間音声パラメータは、第2の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータであってもよい。
【0051】
ストリーム分離インデックスは、第1の音声信号および第2の音声信号を含む音声シーンに対する、第1の音声信号と第2の音声信号のうちのそれぞれの信号の相対寄与の測度を提供することができる。
【0052】
第1の音声信号は2つ以上の音声チャネル信号を含んでいてもよく、第2の入力音声信号は複数の音声オブジェクト信号を含む。
【0053】
第5の態様によれば、空間音声符号化のための装置であって、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、少なくとも1つのメモリおよびコンピュータプログラムコードが、入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定し、音声シーン分離メトリックを使用して、入力音声信号の少なくとも1つの空間音声パラメータを量子化するように構成された、装置が提供される。
【0054】
第6の態様によれば、空間音声復号のための装置であって、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、少なくとも1つのメモリおよびコンピュータプログラムコードが、量子化された音声シーン分離メトリックを復号し、量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定するように構成された、装置が提供される。
【0055】
媒体上に記憶されたコンピュータプログラム製品は、本明細書に記載された方法を装置に実行させることができる。
【0056】
電子デバイスは、本明細書に記載された装置を備えることができる。
【0057】
チップセットは、本明細書に記載された装置を備えることができる。
【0058】
本出願の実施形態は、現状技術に関連した問題を解決することを目的としている。
【0059】
次に、本出願のより十分な理解のために、添付図面を例として参照する。
【図面の簡単な説明】
【0060】
【
図1】いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す図である。
【
図2】いくつかの実施形態によるメタデータ符号器を概略的に示す図である。
【
図3】いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す図である。
【
図4】示された装置を実施するのに適した例示的なデバイスを概略的に示す図である。
【発明を実施するための形態】
【0061】
以下では、効果的な空間分析によって導出されたメタデータパラメータを提供するための適当な装置および可能な機構をより詳細に説明する。以下の議論では、マルチチャネルシステムが、マルチチャネルマイクロホン実施態様に関して論じられる。しかしながら、上で論じたとおり、入力フォーマットは、マルチチャネルラウドスピーカ、アンビソニック(FOA/HOA)など、適当な任意の入力フォーマットとすることができる。いくつかの実施形態では、チャネル位置がマイクロホンの位置に基づくこと、またはチャネル位置が仮想位置もしくは方向であることが理解される。さらに、例示的なシステムの出力は、マルチチャネルラウドスピーカ装置である。しかしながら、ラウドスピーカ以外の手段によって出力がユーザに与えられてもよいことが理解される。さらに、マルチチャネルラウドスピーカ信号を、2つ以上の再生音声信号であるとして一般化することができる。このようなシステムは現在、3GPP標準化団体によって、イマーシブボイスアンドオーディオサービス(Immersive Voice and Audio Service)(IVAS)として標準化されている。IVASは、既存および将来の移動(セル方式)および固定回線ネットワークにわたってイマーシブボイスアンドオーディオサービスを容易にするための、既存の3GPPエンハンストボイスサービス(Enhanced Voice Service)(EVS)コーデックに対する拡張であることが意図されている。IVASの用途は、3GPP第4世代(4G)および第5世代(5G)ネットワークにわたってイマーシブボイスアンドオーディオサービスを提供することであることがある。さらに、EVSに対する拡張としてのIVASコーデックは、再生のためにオーディオアンドスピーチコンテンツを符号化しファイルに記憶するストアアンドフォーワード用途において使用されることもある。IVASは、オーディオアンドスピーチ信号のサンプルを符号化する機能を有する他のオーディオアンドスピーチ符号化技術とともに使用されることがあることを理解されたい。
【0062】
メタデータアシステッドスペーシャルオーディオ(metadata-assisted spatial audio)(MASA)は、IVASに対して提案された1つの入力フォーマットである。MASA入力フォーマットは、いくつか(例えば1つまたは2つ)の音声信号を、対応する空間メタデータとともに含み得る。MASA入力ストリームは、マイクロホンアレイ、例えばモバイルデバイス内に装着されたものであってもよいマイクロホンアレイを用いた空間音声捕捉を使用して捕捉することができる。次いで、捕捉したマイクロホン信号から空間音声パラメータを推定することができる。
【0063】
MASA空間メタデータは、少なくとも、考慮される時間-周波数(time-frequency)(TF)ブロックまたはタイル、言い換えると時間/周波数サブバンドごとの、球面方向(高度、方位)、結果として生じる方向の少なくとも1つのエネルギー比、スプレッドコヒーレンス、および方向から独立したサラウンドコヒーレンスからなることができる。全体として、IVASは、時間-周波数(TF)タイルごとに異なるタイプのいくつかのメタデータパラメータを有することができる。MASAに対する空間メタデータを構成する空間音声パラメータのタイプを下表1に示す。
【0064】
【0065】
このデータは、復号器において空間信号を再構成することができるように、符号器によって符号化および送信(または記憶)することができる。
【0066】
さらに、いくつかの例では、メタデータアシステッドスペーシャルオーディオ(MASA)が、TFタイルごとに最大2つの方向をサポートすることができ、このことは、上記のパラメータをTFタイルごとにそれぞれの方向に対して符号化および送信することを必要とするであろう。表1によれば、それによって、必要なビットレートをほぼ2倍になる。さらに、他のMASAシステムが、TFタイル当たり3つ以上の方向をサポートすることができることを予見することは容易である。
【0067】
実用的なイマーシブオーディオ通信コーデックにおいてメタデータに対して割り当てられるビットレートは大幅に変動し得る。このコーデックの典型的な全体のオペレーティングビットレートは、空間メタデータの送信/記憶のために2~10kbpsだけを残すことがある。しかしながら、いくつかの追加の実施態様は、空間メタデータの送信/記憶のために最大30kbps以上を可能にすることがある。方向パラメータおよびエネルギー比成分の符号化は、コヒーレンスデータの符号化とともに以前に検討されている。しかしながら、空間メタデータにどのような送信/記憶ビットレートが割り当てられるとしても、TFタイルが、空間音声シーン内の異なる音源に対応する多数の方向をサポートすることがあるときには特に、できるだけ少数のビットを使用してこれらのパラメータを表すことが常に求められる。
【0068】
続いてMASA音声信号として符号化するマルチチャネル入力信号に加えて、符号化システムは、さまざまな音源を表す音声オブジェクトを符号化する必要があることもある。それぞれの音声オブジェクトは、それがメタデータの形態であるのかまたは他のある機構の形態であるのかにかかわらず、物理空間内の音声オブジェクトの位置を示す方位および高度値の形態の方向データを伴い得る。通常、音声オブジェクトは、音声フレーム当たり1つの方向パラメータ値を有することができる。
【0069】
以下で論じる思想は、IVASシステムなどの空間音声符号化システムへの多数の入力の符号化を改良することであり、このようなシステムには、上で論じたマルチチャネル音声信号ストリームおよび音声オブジェクトの別個の入力ストリームが提示される。符号化における効率は、これらの別個の入力ストリーム間の相乗効果を利用することによって達成することができる。
【0070】
この点に関して、
図1は、本出願の実施形態を実施するための例示的な装置およびシステムを示している。このシステムは、「分析」部分121を有するものとして示されている。「分析」部分121は、マルチチャネル信号の受取りからメタデータおよびダウンミックス(downmix)信号の符号化までの部分である。
【0071】
システムの「分析」部分121への入力はマルチチャネル信号102である。以下の例では、マイクロホンチャネル信号入力が説明されるが、他の実施形態では、適当な任意の入力(または合成マルチチャネル)フォーマットを実施することができる。例えば、いくつかの実施形態では、空間分析器および空間分析を符号器の外部で実施することができる。例えば、いくつかの実施形態では、音声信号に関連した空間(MASA)メタデータを別個のビットストリームとして符号器に提供することができる。いくつかの実施形態では、空間(MASA)メタデータを、一組の空間(方向)インデックス値として提供することができる。
【0072】
加えて、
図1はさらに、分析部分121への追加の入力として多数の音声オブジェクト128を示している。上述のとおり、これらの多数の音声オブジェクト(または音声オブジェクトストリーム)128は物理空間内のさまざまな音源を表すことがある。それぞれの音声オブジェクトは、音声(オブジェクト)信号と、物理空間内の音声オブジェクトの位置を音声フレームベースで示す(方位および高度値の形態の)方向データを含む付随するメタデータとによって特徴づけることができ、
【0073】
マルチチャネル信号102は、トランスポート信号生成器103および分析プロセッサ105に渡される。
【0074】
いくつかの実施形態では、トランスポート信号生成器103が、マルチチャネル信号を受け取り、決められた数のチャネルを含む適当なトランスポート信号を生成し、そのトランスポート信号104(MASAトランスポート音声信号)を出力するように構成されている。例えば、トランスポート信号生成器103を、マルチチャネル信号の2音声チャネルダウンミックスを生成するように構成することができる。この決められた数のチャネルは適当な任意の数のチャネルとすることができる。いくつかの実施形態では、トランスポート信号生成器が、決められた数のチャネルへの入力音声信号を別のやり方で、例えばビーム形成技術によって選択または結合し、これらの信号をトランスポート信号として出力するように構成される。
【0075】
いくつかの実施形態では、トランスポート信号生成器103が任意であり、マルチチャネル信号が、処理されることなく、この例のトランスポート信号と同じように符号器107に渡される。
【0076】
いくつかの実施形態では、分析プロセッサ105も、マルチチャネル信号を受け取り、それらの信号を分析して、マルチチャネル信号に関連したメタデータ106、したがってトランスポート信号104に関連したメタデータ106を生成するように構成される。分析プロセッサ105は、方向パラメータ108およびエネルギー比パラメータ110、ならびにコヒーレンスパラメータ112(およびいくつかの実施形態では拡散パラメータ)を時間-周波数分析間隔ごとに含んでいてもよいメタデータを生成するように構成されたものとすることができる。いくつかの実施形態では、これらの方向、エネルギー比およびコヒーレンスパラメータを、MASA空間音声パラメータ(またはMASAメタデータ)であるとみなすことができる。言い換えると、空間音声パラメータは、マルチチャネル信号(または一般に2つ以上の音声信号)によって生成/捕捉された音場を特徴づけることを目的とするパラメータを含む。
【0077】
いくつかの実施形態では、生成されたパラメータが周波数バンドごとに異なることがある。したがって、例えば、バンドXでは、パラメータの全てが生成および送信され、一方、バンドYでは、パラメータの1つだけが生成および送信され、さらに、バンドZでは、パラメータが生成または送信されない。このことの実際的な例は、最も高いバンドなどのいくつかの周波数バンドに関しては知覚上の理由からパラメータの一部が必要とされないことであることがある。MASAトランスポート信号104およびMASAメタデータ106は符号器107に渡すことができる。
【0078】
音声オブジェクト128は、処理のために音声オブジェクト分析器122に渡されてもよい。他の実施形態では、音声オブジェクト分析器122が、符号器107の機能内に位置していてもよい。
【0079】
いくつかの実施形態では、音声オブジェクト分析器122が、適当な音声オブジェクトトランスポート信号124および音声オブジェクトメタデータ126を生成するために、オブジェクト音声入力ストリーム128を分析する。例えば、音声オブジェクトの音声信号を関連する音声オブジェクト方向に基づいて振幅パニング(amplitude panning)とともにステレオチャネルにダウンミキシングすることによって音声オブジェクトトランスポート信号124を生成するように、音声オブジェクト分析器122を構成することができる。加えて、音声オブジェクト入力ストリーム128に関連した音声オブジェクトメタデータ126を生成するように、音声オブジェクト分析器122を構成することもできる。音声オブジェクトメタデータ126は、少なくとも方向パラメータおよびエネルギー比パラメータを時間-周波数分析間隔ごとに含んでいてもよい。
【0080】
符号器107は、MASAトランスポート音声(例えばダウンミックス)信号104および音声オブジェクトトランスポート信号124の適当な符号化を生成するためにこれらの音声信号を受け取るように構成された音声符号器コア109を備えることができる。符号器107はさらに、MASAメタデータ106を受け取り、符号化または圧縮された形態の情報を、符号化されたMASAメタデータとして出力するように構成されたMASA空間パラメータセット符号器111を備えることができる。符号器107はさらに、同様に、音声オブジェクトメタデータ126を受け取り、符号化または圧縮された形態の入力情報を、符号化された音声オブジェクトメタデータとして出力するように構成された、音声オブジェクトメタデータ符号器121を備えることができる。
【0081】
加えて、符号器107はさらに、全体の音声シーンに対するマルチチャネル信号102(MASA音声信号)および音声オブジェクト128の相対的な寄与割合を決定するように構成されたものとすることができるストリーム分離メタデータ決定器(determiner)および符号器123を備えることができる。ストリーム分離メタデータ決定器および符号器123によって生成されたこの割合測度を使用して、入力マルチチャネル信号102および音声オブジェクト128に対して費やされた量子化および符号化「労力」の割合を決定することができる。言い換えると、ストリーム分離メタデータ決定器および符号器123は、音声オブジェクト128に対して費やされた符号化労力と比較した、MASA音声信号102に対して費やされた符号化労力の割合を定量化するメトリックを生成することができる。このメトリックを使用して、音声オブジェクトメタデータ126およびMASAメタデータ106の符号化を駆動することができる。その上に、分離メタデータ決定器および符号器123によって決定されたメトリックを、音声符号器コア109によって実行されるMASAトランスポート音声信号104および音声オブジェクトトランスポート音声信号124の符号化プロセスにおける影響ファクタして使用することもできる。ストリーム分離メタデータ決定器および符号器123からの出力メトリックは、符号化されたストリーム分離メタデータとして表され、この出力メトリックを、符号器107からの符号化されたメタデータストリームに結合することができる。
【0082】
いくつかの実施形態では、符号器107を、(メモリ上および少なくとも1つのプロセッサ上に記憶された適当なソフトウェアを実行する)コンピュータまたはモバイルデバイスとすることができ、または、その代わりに、符号器107を、特定のデバイス、例えばFPGAまたはASICを利用する特定のデバイスとすることもできる。この符号化は、適当な任意のスキームを使用して実施することができる。いくつかの実施形態において、符号器107はさらに、
図1の破線によって示された送信または記憶の前に、符号化されたMASAメタデータ、音声オブジェクトメタデータおよびストリーム分離メタデータをインタリーブすること、単一のデータストリームに多重化すること、または符号化された(ダウンミキシングされた)トランスポート音声信号に埋め込むことができる。この多重化は、適当な任意のスキームを使用して実施することができる。
したがって、要約すると、このシステム(分析部分)は、最初に、マルチチャネル音声信号を受け取るように構成される。
【0083】
このシステム(分析部分)は次いで、(例えば音声信号チャネルの一部を選択またはダウンミキシングすることによって)適当なトランスポート音声信号を生成し、また、空間音声パラメータをメタデータとして生成するように構成される。
【0084】
このシステムは次いで、記憶/送信のために、トランスポート信号およびメタデータを符号化するように構成される。
【0085】
この後、このシステムは、符号化されたトランスポートおよびメタデータを記憶/送信することができる。
【0086】
図2に関して、いくつかの実施形態による(
図1に示された)例示的な分析プロセッサ105およびメタデータ符号器/量子化器111をより詳細に説明する。
【0087】
図1および2は、メタデータ符号器/量子化器111および分析プロセッサ105を、一緒に結合されてものとして示している。しかしながら、いくつかの実施形態は、分析プロセッサ105がメタデータ符号器/量子化器111とは異なるデバイス上に存在し得るような態様で、これらの2つの対応するそれぞれの処理実体を非常にしっかりとは結合しないことがあることを理解すべきである。その結果、捕捉および分析プロセスから独立して処理および符号化するために、メタデータ符号器/量子化器111を備えるデバイスにトランスポート信号およびメタデータストリームを提供することができる。
【0088】
いくつかの実施形態では、分析プロセッサ105が時間-周波数ドメイン変換器201を備える。
【0089】
いくつかの実施形態では、時間-周波数ドメイン変換器201が、マルチチャネル信号102を受け取り、入力時間ドメイン信号を適当な時間-周波数信号に変換するために短時間フーリエ変換(Short Time Fourier Transform)(STFT)などの適当な時間-周波数ドメイン変換を適用するように構成される。これらの時間-周波数信号は空間分析器203に渡すことができる。
【0090】
したがって、例えば、時間-周波数信号202は、
SMASA(b,n,i)
によって時間-周波数ドメイン表現で表すことができ、この式で、bは、周波数ビン(bin)インデックス、nは、時間-周波数ブロック(フレーム)インデックス、iは、チャネルインデックスである。別の式では、nを、元の時間ドメイン信号のサンプリングレートよりも低いサンプリングレートを有する時間インデックスとみなすことができる。これらの周波数ビンを、それらのビンのうちの1つまたは複数のビンをバンドインデックスk=0,....,K-1のサブバンドにグループ化するサブバンドにグループ化することができる。それぞれのサブバンドkは、最も低いビンbk,lowおよび最も高いビンbk,highを有し、サブバンドは、bk,lowからbk,highまでの全てのビンを含む。サブバンドの幅は、適当な任意の分布に近いものとすることができる。例えば等価矩形帯域幅(Equivalent rectangular bandwidth)(ERB)スケールまたはBarkスケール。
【0091】
したがって、時間周波数(TF)タイル(n、k)(またはブロック)はフレームnのサブフレーム内の特定のサブバンドkである。
【0092】
パラメータに添えられているとき、下付き添字「MASA」は、それらのパラメータがマルチチャネル入力信号102から導出されたものであることを意味し、下付き添字「Obj」は、それらのパラメータが音声オブジェクト入力ストリーム128から導出されたものであることを意味することに留意すべきである。
【0093】
空間音声パラメータを表すのに必要なビットの数は、少なくとも部分的に、TF(時間-周波数)タイル分解能(すなわちTFサブフレームまたはタイルの数)に依存することがあることを理解し得る。例えば、「MASA」入力マルチチャネル音声信号に関して、20ミリ秒の音声フレームを1つ5ミリ秒の4つの時間ドメインサブフレームに分割することができ、それぞれの時間ドメインサブフレームは、Barkスケール、その近似または他の適当な分割に従って周波数ドメインにおいて分割された最大24個の周波数サブバンドを有することができる。この特定の例では、音声フレームを、96個のTFサブフレーム/タイルに分割することができ、言い換えると、24個の周波数サブバンドを有する4つの時間ドメインサブフレームに分割することができる。したがって、音声フレームに対する空間音声パラメータを表すのに必要なビットの数は、TFタイル分解能に依存し得る。例えば、それぞれのTFタイルが上表1の分布に従って符号化される場合、それぞれのTFタイルは、音源方向当たり64ビットを必要とするであろう。TFタイル当たり2つの音源方向に関しては、両方の方向の完全な符号化のために2×64ビットが必要となろう。音源という用語の使用は、TFタイル内の伝搬音の支配的方向を意味し得ることに留意すべきである。
【0094】
実施形態では、分析プロセッサ105が空間分析器203を備えることができる。空間分析器203は、時間-周波数信号202を受け取り、これらの信号に基づいて方向パラメータ108を推定するように構成されたものとすることができる。方向パラメータは、音声ベースの任意の「方向」決定に基づいて決定することができる。
【0095】
例えば、いくつかの実施形態では、空間分析器203が、2つ以上の信号入力を用いて音源の方向を推定するように構成される。
【0096】
したがって、空間分析器203は、それぞれの周波数バンドおよび音声信号のフレーム内の一過性の時間-周波数ブロックに対する、方位ΦMASA(k,n)および高度θMASA(k,n)として示された少なくとも1つの方位および高度を提供するように構成されたものとすることができる。時間サブフレームに対する方向パラメータ108は、符号化および量子化のために、MASA空間パラメータセット(メタデータ)セット符号器111に渡すことができる。
【0097】
空間分析器203はさらに、エネルギー比パラメータ110を決定するように構成されたものとすることができる。このエネルギー比は、1つの方向から到来すると考え得る音声信号のエネルギーの決定と考えることができる。方向対全体エネルギー比rMASA(k,n)(言い換えるとエネルギー比パラメータ)は、例えば、方向推定の安定性測度を使用して、または任意の相関測度を使用して、または比パラメータを取得する他の適当な方法を使用して推定することができる。それぞれの方向対全体エネルギー比は特定の空間方向に対応し、全エネルギーに比べてどのくらいのエネルギーが特定の空間方向から来るのかを記述する。この値を時間-周波数タイルごとに別々に表すこともできる。空間方向パラメータおよび方向対全体エネルギー比は、時間-周波数タイルごとに、全エネルギーのうちのどれくらいのエネルギーが特定の方向から来ているのかを記述する。一般に、空間方向パラメータを、到来方向(direction of arrival)(DOA)と考えることもできる。
【0098】
一般に、マルチチャネル捕捉されたマイクロホンアレイ信号に対する方向対全体エネルギー比パラメータは、バンドkにおけるマイクロホン対間の正規化された相互相関パラメータcor’(k,n)に基づいて推定することができ、相互相関パラメータの値は-1から1の間にある。方向対全体エネルギー比パラメータr(k,n)は、正規化された相互相関パラメータを、正規化された拡散場相互相関パラメータcor’
D(k,n)と比較することにより、
【数1】
として決定することができる。方向対全体エネルギー比は、参照によって本明細書に組み込まれている国際公開第2017/005978号パンフレットにおいてさらに説明されている。
【0099】
このマルチチャネル入力音声信号のケースに関しては、方向対全体エネルギー比パラメータrMASA(k,n)比を、符号化および量子化のために、MASA空間パラメータセット(メタデータ)セット符号器111に渡すことができる。
【0100】
空間分析器203はさらに、(マルチチャネル信号102に対する)いくつかのコヒーレンスパラメータ112を決定するように構成されたものとすることができ、コヒーレンスパラメータ112は、サラウンディングコヒーレンス(γMASA(k,n))およびスプレッドコヒーレンス(ζMASA(k,n))を含んでもよく、これらはともに時間-周波数ドメインで分析される。
【0101】
空間分析器203は、決定されたコヒーレンスパラメータ、すなわちスプレッドコヒーレンスパラメータζMASAおよびサラウンディングコヒーレンスパラメータγMASAを、符号化および量子化のために、MASA空間パラメータセット(メタデータ)セット符号器111に出力するように構成されたものとすることができる。
【0102】
したがって、TFタイルごとに、それぞれの音源方向に関連したMASA空間音声パラメータの集合が存在することになる。この例では、それぞれのTFタイルが、音源方向ごとに、そのTFタイルに関連した以下の音声空間パラメータを有することがある;方位ΦMASA(k,n)および高度θMASA(k,n)で示された方位および高度、スプレッドコヒーレンス(γMASA(k,n))、および方向対全体エネルギー比パラメータ(rMASA(k,n))。加えて、それぞれのTFタイルはさらに、音源方向ごとに割り当てられていないサラウンドコヒーレンス(ζMASA(k,n))を有することがある。
【0103】
分析プロセッサ105によって実行される処理と同様の方式で、音声オブジェクト分析器122は、入力音声オブジェクトストリームを分析して、
Sobj(b,n,i)
として示すことができる音声オブジェクト時間周波数ドメイン信号を生成することができる。
【0104】
上式で、前述のとおり、bは、周波数ビンインデックス、nは、時間-周波数ブロック(TFタイル)(フレーム)インデックス、iは、チャネルインデックスである。両方の信号セットが時間および周波数分解能に関して整列するように、音声オブジェクト時間周波数ドメイン信号の分解能を、対応するMASA時間周波数ドメイン信号と同じとすることができる。例えば、音声オブジェクト時間周波数ドメイン信号Sobj(b,n,i)は、TFタイルnベースで同じ時間分解能を有することができ、周波数ビンbを、MASA時間周波数ドメイン信号に対して展開されたのと同じサブバンドkのパターンにグループ化することができる。言い換えると、音声オブジェクト時間周波数ドメイン信号のそれぞれのサブバンドkも、最も低いビンbk,lowおよび最も高いビンbk,highを有することができ、サブバンドkは、bk,lowからbk,highまで全てのビンを含む。いくつかの実施形態では、音声オブジェクトストリームの処理が、必ずしも、MASA音声信号の処理と同じ粒度レベルに従わなくてもよい。例えば、MASA処理は、音声オブジェクトストリームに対する時間周波数分解能のそれとは異なる時間周波数分解能を有することができる。これらの例では、音声オブジェクトストリーム処理とMASA音声信号処理とを整列させるために、パラメータ補間などのさまざまな技法を展開することができ、または一方のパラメータセットを、もう一方のパラメータセットの上位セットとして展開することができる。
【0105】
したがって、音声オブジェクト時間周波数ドメイン信号に対する時間周波数(TF)タイルの結果として生じる分解能を、MASA時間周波数ドメイン信号に対する時間周波数(TF)タイルの分解能と同じとすることができる。
【0106】
図1では、音声オブジェクト時間周波数ドメイン信号がオブジェクトトランスポート音声信号と呼ばれることがあり、MASA時間周波数ドメイン信号がMASAトランスポート音声信号と呼ばれることがあることに留意すべきである。
【0107】
音声オブジェクト分析器122は、それぞれの音声オブジェクトに対する方向パラメータを音声フレームベースで決定することができる。音声オブジェクト方向パラメータは、それぞれの音声フレームに対する方位および高度を含むことがある。この方向パラメータは、方位Φobjおよび高度θobjとして示すことができる。
【0108】
音声オブジェクト分析器122はさらに、音声オブジェクト信号iごとに音声オブジェクト対全体エネルギー比(audio object-to-total energy ratio)robj(k,n,i)(言い換えると音声オブジェクト比パラメータ)を見つけるように構成されたものとすることができる。実施形態では、音声オブジェクト対全体エネルギー比robj(k,n,i)を、全ての音声オブジェクトのエネルギーに対するオブジェクトiのエネルギーの割合として推定することができる。
【0109】
【0110】
上式で、
【数3】
は、音声オブジェクトi、周波数バンドkおよび時間サブフレームnに対するエネルギーであり、b
k,lowは、周波数バンドkに対する最も低いビン、b
k,highは最も高いビンである。
【0111】
音声オブジェクト信号に関連した空間音声パラメータ(メタデータ)、すなわち、音声オブジェクトiに対する、音声フレームのTFタイルごとの音声オブジェクト対全体エネルギー比robj(k,n,i)ならびに音声フレームに対する方向成分である方位Φobjおよび高度θobjを生成するため、音声オブジェクト分析器122は本質的に、分析プロセッサ105と同様の機能処理ブロックを備えることができる。言い換えると、音声オブジェクト分析器122は、分析プロセッサ105に存在する時間ドメイン変換器および空間分析器と同様の処理ブロックを備えることができる。次いで、音声オブジェクト信号に関連した空間音声パラメータ(またはメタデータ)を、符号化および量子化のために、音声オブジェクト空間パラメータセット(メタデータ)セット符号器121に渡すことができる。
【0112】
音声オブジェクト対全体エネルギー比robj(k,n,i)の処理ステップはTFタイルごとに実行することができることを理解すべきである。言い換えると、方向対全体エネルギー比に必要な処理は、それぞれのサブバンドkおよび音声フレームのサブフレームnに対して実行されるが、方向成分である方位Φobj,iおよび高度θobj,iは、音声オブジェクトiに対して音声フレームベースで取得される。
【0113】
上述のとおり、MASAトランスポート音声信号104およびオブジェクトトランスポート音声信号124を受け入れるように、ストリーム分離メタデータ決定器および符号器123を配置することができる。次いで、ストリーム分離メタデータ決定器および符号器123はこれらの信号を使用して、ストリーム分離メトリック/メタデータを決定することができる。
【0114】
実施形態では、最初に、MASAトランスポート音声信号104およびオブジェクトトランスポート音声信号124の各々のエネルギーを決定することによって、ストリーム分離メトリックを見つけることができる。これは、TFタイルごとに、
【数4】
として表現することができ、上式で、Iは、トランスポート音声信号の番号、b
k,lowは、周波数バンドkに対する最も低いビン、b
k,highは最も高いビンである。
【0115】
実施形態では、次いで、全音声エネルギーに対するMASAエネルギーの割合をTFタイルベースで計算することによってストリーム分離メトリックを決定するように、ストリーム分離メタデータ決定器および符号器123を配置することができる(全音声エネルギーは、MASAエネルギーと音声オブジェクトエネルギーとを結合したものである)。これは、MASAトランスポート音声信号の各々におけるMASAエネルギーと、MASAおよびオブジェクトトランスポート音声信号の各々における全エネルギーとの比として表現することができる。
【0116】
したがって、このストリーム分離メトリック(または音声ストリーム分離メトリック)は、TFタイルベース(k,n)で、
【数5】
として表現することができる。
【0117】
次いで、パラメータのその後の送信または記憶を容易にするために、ストリーム分離メタデータ決定器および符号器123によってストリーム分離メトリックμ(k,n)を量子化することができる。ストリーム分離メトリックμ(k,n)は、MASA対全体エネルギー比(MASA-to-total energy ratio)と呼ばれることもある。
【0118】
(それぞれのTFタイルに対する)ストリーム分離メトリックμ(k,n)を量子化するための例示的な手順は、以下のことを含むことができる。
- 音声フレーム内の全てのMASA対全体エネルギー比を(M×N)行列として配置する。Mは、音声フレームのサブフレームの数、Nは、音声フレームのサブバンドの数である。
- 2次元DCT(離散的コサイン変換(Discrete Cosine Transform))を使用してこの行列を変換する。
- 次いで、最適化されたコードブックを用いてゼロ次のDCT係数を量子化することができる。
- 残りのDCT係数は同じ分解能を用いてスカラー量子化することができる。
- 次いで、スカラー量子化したDCT係数のインデックスを、Golomb Riceコードを用いて符号化することができる。
- 次いで、(固定レートにおける)ゼロ次係数のインデックス、続いて、MASA対全体エネルギー比を量子化するために割り当てられたビットの数に従って許容される数と同じ数のGR符号化されたインデックスを有することによって、音声フレーム内における量子化されたMASA対全体エネルギー比を適当なビットストリームフォーマットに形成することができる。
- 次いで、これらのインデックスを、ビットストリーム内に、第2の対角方向に従って、左上隅から始めてジグザグに配置することができる。ビットストリームに加えられるインデックスの数は、MASA対全体比の符号化に対する使用可能なビットの量によって制限される。
【0119】
ストリーム分離メタデータ決定器および符号器123からの出力は、量子化されたストリーム分離メトリックμq(k,n)であり、これは、量子化されたMASA対全体エネルギー比と呼ばれることもある。MASA空間音声パラメータ(言い換えるとMASAメタデータ)の符号化および量子化を駆動するため、またはそのような符号化および量子化に影響を与えるために、この量子化されMASA対全体エネルギー比をMASA空間パラメータセット符号器111に渡すことができる。
【0120】
MASA音声信号を単独で符号化する空間音声符号化システムに関して、それぞれのTFタイルに対するMASA空間音声方向パラメータの量子化は、そのタイルに対する(量子化された)方向対全体エネルギー比rMASA(k,n)に依存し得る。このようなシステムでは、次いで、最初に、そのTFタイルに対する方向対全体エネルギー比rMASA(k,n)をスカラー量子化器を用いて量子化することができる。次いで、そのTFタイルに対する方向対全体エネルギー比rMASA(k,n)を量子化するために割り当てられたインデックスを使用して、(方向対全体エネルギー比rMASA(k,n)を含む)当該TFタイルに対する全てのMASA空間音声パラメータの量子化のために割り当てるビットの数を決定することができる。
【0121】
しかしながら、本発明の空間音声符号化システムは、マルチチャネル音声信号(MASA音声信号)と音声オブジェクトの両方を符号化するように構成される。このようなシステムでは、全体の音声シーンが、マルチチャネル音声信号からの寄与および音声オブジェクトからの寄与として構成されることがある。その結果、当該の特定のTFタイルに対するMASA空間音声方向パラメータの量子化が、MASA方向対全体エネルギー比(MASA direct-to-total energy ratio)rMASA(k,n)に単独で依存せず、その代わりに、その特定のTFタイルに対するMASA方向対全体エネルギー比rMASA(k,n)とストリーム分離メトリックμ(k,n)との結合に依存することがある。
【0122】
実施形態では、依存性のこの結合を、最初に、量子化されたMASA方向対全体エネルギー比rMASA(k,n)に、そのTFタイルに対する量子化されたストリーム分離メトリックμq(k,n)(またはMASA対全体エネルギー比)を乗じて、重み付けされたMASA方向対全体エネルギー比wrMASA(k,n)を与えることによって表現することができる。
wrMASA(k,n)=μq(k,n)*rMASA(k,n)
【0123】
次いで、復号器に送信されている一組のMASA空間音声パラメータをTFタイルベースで量子化するために割り当てるビットの数を決定するために、(そのTFタイルに対する)重み付けされたMASA方向対全体エネルギー比wrMASA(k,n)を、スカラー量子化器、例えば3ビット量子化器を用いて量子化することができる。明白にするために、この一組のMASA空間音声パラメータは、少なくとも、方向パラメータΦMASA(k,n)および高度θMASA(k,n)、ならびに方向対全体エネルギー比rMASA(k,n)を含む。
【0124】
例えば、重み付けされたMASA方向対全体エネルギーwrMASA(k,n)を量子化するために使用される3ビット量子化器からのインデックスは、以下のアレイ[11,11,10,9,7,6,5,3]からビット割当てを与えることができる。
【0125】
次いで、特許出願公開である国際公開第2020/089510号パンフレット、国際公開第2020/070377号パンフレット、国際公開第2020/008105号パンフレット、国際公開第2020/193865号パンフレットおよび国際公開第2021/048468号パンフレットに詳細に説明されているいくつかの例示的なプロセスを使用することによって、上記のものなどのアレイからのビット割当てを使用した、方向パラメータΦMASA(k,n)、θMASA(k,n)、さらにスプレッドコヒーレンスおよびサラウンドコヒーレンス(言い換えるとそのTFタイルに対する残りの空間音声パラメータ)の符号化に進むことができる。
【0126】
他の実施形態では、量子化段階の分解能を、MASA方向対全体エネルギー比rMASA(k,n)に関して可変とすることができる。例えば、MASA対全体エネルギー比μq(k,n)が低い(例えば0.25よりも小さい)場合には、低分解能量子化器、例えば1ビット量子化器を用いてMASA方向対全体エネルギー比rMASA(k,n)を量子化することができる。しかしながら、MASA対全体エネルギー比μq(k,n)がより高い(例えば0.25~0.5の間である)場合には、より高分解能の量子化器、例えば2ビット量子化器を使用することができる。しかしながら、MASA対全体エネルギー比μq(k,n)が0.5(または次に低い分解能の量子化器に対するしきい値よりも高い他のあるしきい値)よりも大きい場合には、よりいっそう高い分解能の量子化器、例えば3ビット量子化器を使用することができる。
【0127】
次いで、MASA空間パラメータセット符号器121からの出力は、量子化されたMASA方向対全体エネルギー比、量子化されたMASA方向パラメータ、量子化されたスプレッドおよびサラウンドコヒーレンスパラメータを表す量子化インデックスであることがある。
図1では、これが、符号化されたMASAメタデータとして示されている。
【0128】
同様の目的で、すなわち、音声オブジェクト空間音声パラメータ(言い換えると音声オブジェクトメタデータ)の符号化および量子化を駆動するため、またはそのような符号化および量子化に影響を与えるために、量子化されたMASA対全体エネルギー比μq(k,n)を音声オブジェクト空間パラメータセット符号器121に渡すこともできる。
【0129】
上述のとおり、MASA対全体エネルギー比μq(k,n)を使用して、音声オブジェクトiに対する音声オブジェクト対全体エネルギー比robj(k,n,i)の量子化に影響を与えることができる。例えば、MASA対全体エネルギー比が低い場合には、低分解能量子化器、例えば1ビット量子化器を用いて音声オブジェクト対全体エネルギー比robj(k,n,i)を量子化することができる。しかしながら、MASA対全体エネルギー比がより高い場合には、より高分解能の量子化器、例えば2ビット量子化器を使用することができる。しかしながら、MASA対全体エネルギー比が0.5(または次に低い分解能の量子化器に対するしきい値よりも高い他のあるしきい値)よりも大きい場合には、よりいっそう高い分解能の量子化器、例えば3ビット量子化器を使用することができる。
【0130】
さらに、MASA対全体エネルギー比μq(k,n)を使用して、音声フレームに対する音声オブジェクト方向パラメータの量子化に影響を与えることもできる。通常、これは、最初に、全体の音声フレームに対するMASA対全体エネルギー比μFを表す全体のファクタを見つけることによって達成することができる。いくつかの実施形態では、μFを、そのフレームの中の全てのTFタイルについてMASA対全体エネルギー比μq(k,n)の最小値とすることができる。他の実施形態は、そのフレーム内の全てのTFタイルについてMASA対全体エネルギー比μq(k,n)の平均値になるようにμFを計算することができる。次いで、全体の音声フレームに対するMASA対全体エネルギー比μFを使用して、そのフレームに対する音声オブジェクト方向パラメータの量子化を誘導することができる。例えば、全体の音声フレームに対するMASA対全体エネルギー比μFが高い場合には、低分解能量子化器を用いて音声オブジェクト方向パラメータを量子化することができ、全体の音声フレームに対するMASA対全体エネルギー比μFが低いときには、高分解能量子化器を用いて音声オブジェクト方向パラメータを量子化することができる。
【0131】
次いで、音声オブジェクトパラメータセット符号器121からの出力は、音声フレームのTFタイルに対する量子化された音声オブジェクト対全体エネルギー比r
obj(k,n,i)を表す量子化インデックス、およびそれぞれの音声オブジェクトiに対する量子化された音声オブジェクト方向パラメータを表す量子化インデックスであることがある。
図1では、これが、符号化された音声オブジェクトメタデータとして示されている。
【0132】
音声符号器コア109に関しては、MASAトランスポート音声(例えばダウンミックス)信号104および音声オブジェクトトランスポート信号124を受け取り、それらを結合して、結合された単一の音声トランスポート信号にするように、この処理ブロックを配置することができる。次いで、結合された音声トランスポート信号を、適当な音声符号器を使用して符号化することができる。適当な音声符号器の例には、3GPPエンハンストボイスサービスコーデックまたはMPEGアドバンスドオーディオコーデックを含めることができる。
【0133】
次いで、符号化されたMASAメタデータ、符号化されたストリーム分離メタデータ、符号化された音声オブジェクトメタデータおよび符号化された結合されたトランスポート音声信号を多重化することによって、記憶または送信のためのビットストリームを形成することができる。
【0134】
このシステムは、符号化されたトランスポートおよびメタデータを取り出すこと/受け取ることができる。
【0135】
次いで、このシステムは、符号化されたトランスポートおよびメタデータパラメータからトランスポートおよびメタデータを抽出するように、例えば符号化されたトランスポートおよびメタデータパラメータを逆多重化および復号するように構成される。
【0136】
このシステム(合成部分)は、抽出されたトランスポート音声信号およびメタデータに基づいて出力マルチチャネル音声信号を合成するように構成される。
【0137】
この点に関して、
図3は、本出願の実施形態を実施するための例示的な装置およびシステムを示している。このシステムは、(例えばマルチチャネルラウドスピーカ形態での)再生成された空間音声信号の提示に対する、符号化されたメタデータおよびダウンミックス信号の復号を示している「合成」部分331を有するものとして示されている。
【0138】
図3に関して、受け取ったまたは取り出したデータ(ストリーム)は、デマルチプレクサによって受け取ることができる。このデマルチプレクサは、符号化されたストリーム(符号化されたMASAメタデータ、符号化されたストリーム分離メタデータ、符号化された音声オブジェクトメタデータおよび符号化されたトランスポート音声信号)を逆多重化し、符号化されたストリームを復号器307に渡すことができる。
【0139】
符号化された音声ストリームは、符号化されたトランスポート音声信号を復号して復号されたトランスポート音声信号を取得するように構成された音声復号コア304に渡すことができる。
【0140】
同様に、符号化されたストリーム分離メタデータをストリーム分離メタデータ復号器302に渡すように、デマルチプレクサを配置することができる。次いで、下記のことを実行することよって符号化されたストリーム分離メタデータを復号するように、ストリーム分離メタデータ復号器302を配置することができる。
- ゼロ次のDCT係数をデインデックスする(deindexing)こと。
- 復号されたビットの数が許容ビット数の範囲内にあるとの条件で、残りのDCT係数をGolomb Rice復号すること。
- 残りの係数をゼロにセットすること。
- 音声フレームのTFタイルに対する復号された量子化されたMASA対全体エネルギー比μq(k,n)を取得するために、逆2次元DCT変換を適用すること。
【0141】
図3に示されているように、音声フレームのMASA対全体エネルギー比μ
q(k,n)を、MASAメタデータ復号器301および音声オブジェクトメタデータ復号器303に渡して、それらの対応するそれぞれの空間音声(メタデータ)パラメータの復号を容易にすることができる。
【0142】
MASAメタデータ復号器301は、符号化されたMASAメタデータを受け取り、MASA対全体エネルギー比μq(k,n)の助けを借りて復号されたMASA空間音声パラメータを提供するように配置されたものとすることができる。実施形態では、これが、音声フレームごとに以下の形態をとることができる。
【0143】
最初に、符号器によって使用されたステップの逆ステップを使用して、MASA方向対全体エネルギー比rMASA(k,n)をデインデックスする。このステップのこの結果は、TFタイルごとの方向対全体エネルギー比rMASA(k,n)である。
【0144】
次いで、重み付けされた方向対全体エネルギー比wrMASA(k,n)を提供するために、TFタイルごとの方向対全体エネルギー比rMASA(k,n)に、対応するMASA対全体エネルギー比μq(k,n)を用いて重み付けすることができる。これは、音声フレーム内の全てのTFタイルに対して繰り返される。
【0145】
次いで、符号器で使用されたものと同じ最適化されたスカラー量子化器、例えば最適化された3ビットスカラー量子化器を使用して、重み付けされた方向対全体エネルギー比wrMASA(k,n)をスカラー量子化することができる。
【0146】
符号器の場合と同様に、スカラー量子化器からのインデックスを使用して、残りのMASA空間音声パラメータを符号化するのに使用する割当てビット数を決定することができる。例えば、符号器に関して挙げた例では、MASA空間音声パラメータの量子化のためのビット割当てを決定するのに、最適化された3ビットスカラー量子化器を使用した。ビット割当てが決定された後、残りの量子化されたMASA空間音声パラメータを決定することができる。これは、以下の特許出願公開、すなわち国際公開第2020/089510号パンフレット、国際公開第2020/070377号パンフレット、国際公開第2020/008105号パンフレット、国際公開第2020/193865号パンフレットおよび国際公開第2021/048468号パンフレットに記載された方法のうちの少なくとも1つの方法に従って実行することができる。
【0147】
MASAメタデータ復号器301における上記のステップは、音声フレーム内の全てのTFタイルに対して実行される。
【0148】
音声オブジェクトメタデータ復号器301は、符号化された音声オブジェクトメタデータを受け取り、量子化されたMASA対全体エネルギー比μq(k,n)の助けを借りて復号された音声オブジェクト空間音声パラメータを提供するように配置されたものとすることができる。実施形態では、これが、音声フレームごとに以下の形態をとることができる。
【0149】
いくつかの実施形態では、それぞれの音声オブジェクトiおよび音声フレームのTFタイル(k,n)に対する音声オブジェクト対全体エネルギー比robj(k,n,i)を、受け取った音声オブジェクト対全体エネルギー比robj(k,n,i)を復号する目的に使用することができる複数の量子化器からの正確な分解能の量子化器の助けを借りて、デインデックスすることができる。上述のとおり、音声オブジェクト対全体エネルギー比robj(k,n,i)は、さまざまな分解能の複数の量子化器のうちの1つの量子化器を使用して量子化することができる。使用された音声オブジェクト対全体エネルギー比robj(k,n,i)を量子化する特定の量子化器は、TFタイルに対する量子化されたMASA対全体エネルギー比μq(k,n)の値によって決定される。その結果として、音声オブジェクトメタデータ復号器301において、音声オブジェクト対全体エネルギー比robj(k,n,i)に対する対応する逆量子化器(de-quantizer)を選択するために、TFタイルに対する量子化されたMASA対全体エネルギー比μq(k,n)が使用される。言い換えると、MASA対全体エネルギー比μq(k,n)値の範囲と異なる逆量子化器との間のマッピングが存在してもよい。
【0150】
あるいは、全体の音声フレームμFに対するMASA対全体エネルギー比を表す全体ファクタを与えるために、音声フレームのTFタイルごとの量子化されたMASA対全体エネルギー比μq(k,n)を変換することもできる。符号器において実施された特定の実施態様によれば、μFの導出は、フレームのTFタイル間の最小の量子化されたMASA対全体エネルギー比μq(k,n)を選択する形態、または音声フレームのMASA対全体エネルギー比μq(k,n)の全体について平均値を決定する形態をとることができる。μFの値を使用して、音声フレームに対する音声オブジェクト方向パラメータを逆量子化するための特定の逆量子化器を(複数の逆量子化器の中から)選択することができる。
【0151】
次いで、音声オブジェクトメタデータ復号器301からの出力を、音声オブジェクトごとの、音声フレームに対する復号された量子化された音声オブジェクト方向パラメータ、および音声フレームのTFタイルに対する復号された量子化された音声オブジェクト対全体エネルギー比r
obj(k,n,i)とすることができる。
図3では、これらのパラメータが、復号された音声オブジェクトメタデータとして示されている。
【0152】
いくつかの実施形態では、復号器307を、(メモリ上および少なくとも1つのプロセッサ上に記憶された適当なソフトウェアを実行する)コンピュータまたモバイルデバイスとすることができ、または、その代わりに、復号器307を、特定のデバイス、例えばFPGAまたはASICを利用する特定のデバイスとすることもできる。
【0153】
復号されたメタデータおよびトランスポート音声信号は、空間合成プロセッサ305に渡すことができる。
【0154】
トランスポートおよびメタデータを受け取り、トランスポート信号およびメタデータに基づいて、マルチチャネル信号の形態の合成された空間音声信号を適当な任意のフォーマット(これらは、使用事例に応じて、マルチチャネルラウドスピーカフォーマット、もしくは、いくつかの実施形態では、バイノーラルまたはアンビソニックス信号などの適当な任意の出力フォーマットであってもよく、または実際にMASAフォーマットであってもよい)で再生成するように構成された空間合成プロセッサ305。適当な空間合成プロセッサ305の一例が、特許出願公開である国際公開第2019/086757号パンフレットに出ている。
【0155】
他の実施形態では、空間合成プロセッサ305が、マルチチャネル出力信号を生成するための異なる手法をとることができる。これらの実施形態では、メタデータドメインにおいてMASAメタデータと音声オブジェクトメタデータとを結合することによって、メタデータドメインにおいてレンダリングを実行することができる。結合されたメタデータ空間パラメータを、レンダリングメタデータ空間パラメータと呼ぶことができ、結合されたメタデータ空間パラメータを、空間音声方向ベースで照合することができる。例えば、識別された1つの空間音声方向を有する、符号器へのマルチチャネル入力信号を有する場合、レンダリングされたMASA空間音声パラメータは、以下のように設定することができる。
θrender(k,n,i)=θMASA(k,n)
Φrender(k,n,i)=ΦMASA(k,n)
ζrender(k,n,i)=ζMASA(k,n)
rrender(k,n,i)=rMASA(k,n)μ(k,n)
上式で、iは方向番号を意味する。例えば、入力されたマルチチャネル入力信号に関係する1つの空間音声方向の場合、この1つのMASA空間音声方向を示すために、iは値1をとることができる。さらに、MASA対全体エネルギー比によって、「レンダリングされた」方向対全体エネルギー比rrender(k,n,i)をTFタイルベースで変更することができる。
【0156】
音声オブジェクト空間音声パラメータを、結合されたメタデータ空間パラメータに以下のように加えることができる。
θrender(k,n,iobj+1)=θobj(n,iobj)
Φrender(k,n,iobj+1)=Φobj(n,iobj)
ζrender(k,n,iobj+1)=0
rrender(k,n,iobj+1)=robj(1-μ(k,n))
上式で、iobjは音声オブジェクト番号である。この例では、スプレッドコヒーレンスζを持たないように、音声オブジェクトが決定される。最後に、MASA対全体エネルギー比(μ)を使用して拡散対全体エネルギー比(ψ)が、変更され、サラウンドコヒーレンス(γ)は直接に設定される。
ψrender(k,n)=ψMASA(k,n)μ(k,n)
γrender(k,n)=γMASA(k,n)
【0157】
図4に関しては、分析または合成デバイスとして使用することができる例示的な電子デバイスが示されている。このデバイスは、適当な任意の電子デバイスまたは装置とすることができる。例えば、いくつかの実施形態では、デバイス1400が、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、音声再生装置などである。
【0158】
いくつかの実施形態では、デバイス1400が、少なくとも1つのプロセッサまたは中央処理ユニット1407を備える。プロセッサ1407は、例えば本明細書に記載された方法など、さまざまなプログラムコードを実行するように構成されたものとすることができる。
【0159】
いくつかの実施形態では、デバイス1400がメモリ1411を備える。いくつかの実施形態では、メモリ1411に、少なくとも1つのプロセッサ1407が結合されている。メモリ1411は、適当な任意の記憶手段とすることができる。いくつかの実施形態では、メモリ1411が、プロセッサ1407上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを備える。その上、いくつかの実施形態では、メモリ1411がさらに、データ、例えば本明細書に記載された実施形態に従って処理されたデータまたは処理することになるデータを記憶するための記憶データセクションを備えることができる。プログラムコードセクション内に記憶された実施されたプログラムコードおよび記憶データセクション内に記憶されたデータは、必要なときにいつでも、メモリ-プロセッサ結合を介してプロセッサ1407によって取り出すことができる。
【0160】
いくつかの実施形態では、デバイス1400がユーザインタフェース1405を備える。いくつかの実施形態では、ユーザインタフェース1405をプロセッサ1407に結合することができる。いくつかの実施形態では、プロセッサ1407が、ユーザインタフェース1405の動作を制御すること、およびユーザインタフェース1405から入力を受け取ることができる。いくつかの実施形態では、ユーザがコマンドをデバイス1400に例えばキーパッドを介して入力することをユーザインタフェース1405が可能にすることができる。いくつかの実施形態では、ユーザがデバイス1400から情報を取得することをユーザインタフェース1405が可能にすることができる。例えば、ユーザインタフェース1405は、デバイス1400からユーザへの情報を表示するように構成されたディスプレイを備えることができる。いくつかの実施形態では、ユーザインタフェース1405が、デバイス1400に情報を入力することを可能にすること、さらにデバイス1400のユーザに対して情報を表示することの両方ができるタッチスクリーンまたはタッチインタフェースを備えることができる。いくつかの実施形態では、ユーザインタフェース1405を、本明細書に記載された位置決定器と通信するためのユーザインタフェースとすることができる。
【0161】
いくつかの実施形態では、デバイス1400が入力/出力ポート1409を備える。いくつかの実施形態では、入力/出力ポート1409がトランシーバを備える。このような実施形態では、トランシーバをプロセッサ1407に結合することができ、トランシーバを、他の装置または電子デバイスと例えば無線通信ネットワークを介して通信することを可能にするように構成することができる。いくつかの実施形態では、このトランシーバ、あるいは適当な任意のトランシーバまたは送信および/もしくは受信手段を、導線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
【0162】
このトランシーバは、知られている適当な任意の通信プロトコルによって追加の装置と通信することができる。例えば、いくつかの実施形態において、このトランシーバは、適当なユニバーサルモバイルテレコミュニケーションズシステム(universal mobile telecommunications system)(UMTS)プロトコル、例えばIEEE802.Xなどのワイヤレスローカルエリアネットワーク(WLAN)プロトコル、Bluetoothまたはインフラレッドデータコミュニケーションパスウェイ(infrared data communication pathway)(IRDA)などの適当な短距離高周波通信プロトコルを使用することができる。
【0163】
トランシーバ入力/出力ポート1409は、信号を受け取るように構成することができ、いくつかの実施形態では、適当なコードを実行するプロセッサ1407を使用することによって本明細書に記載されたパラメータを決定するように構成することができる。さらに、このデバイスは、合成デバイスに送信する適当なダウンミックス信号およびパラメータ出力を生成することができる。
【0164】
いくつかの実施形態では、デバイス1400を、合成デバイスの少なくとも一部分として使用することができる。そのため、ダウンミックス信号、および、いくつかの実施形態では、本明細書に記載された捕捉デバイスまたは処理デバイスで決定されたパラメータを受け取り、適当な音声信号フォーマット出力を、適当なコードを実行するプロセッサ1407を使用することによって生成するように、入力/出力ポート1409を構成することができる。入力/出力ポート1409を、適当な任意の音声出力、例えばマルチチャネルスピーカシステムおよび/もしくはヘッドホン、または同様の装置に結合することができる。
【0165】
一般に、本発明のさまざまな実施形態は、ハードウェアもしくは専用回路、ソフトウェア、論理またはこれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実施することができ、他の態様は、コントローラ、マイクロプロセッサまたは他のコンピューティングデバイスによって実行することができるファームウェアまたはソフトウェアで実施することができる。ただし本発明はこれらに限定されない。本発明のさまざまな態様は、ブロック図もしくは流れ図として、または他のある絵図表現を使用して図示または説明されることがあるが、本明細書に記載されたこれらのブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他のコンピューティングデバイス、あるいはこれらのある組合せで実施することができることが十分に理解される。
【0166】
本発明の実施形態は、モバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって例えばそのプロセッサ実体内で、またはハードウェアによって、またはソフトウェアとハードウェアの組合せによって実施することができる。さらに、この点に関して、図の論理フローのブロックはいずれも、プログラムステップ、もしくは相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことがあることに留意すべきである。ソフトウェアは、メモリチップなどの物理媒体、またはプロセッサ内に実施されたメモリブロック、ハードディスクもしくはフロッピーディスクなどの磁気媒体、ならびに例えばDVDおよびそのデータ異型、CDなどの光学媒体上に記憶されたものとすることができる。
【0167】
メモリは、局所的技術環境に適した任意のタイプのメモリとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび取外し可能メモリなどの適当な任意のデータ記憶技術を使用して実施することができる。データプロセッサは、局所的技術環境に適した任意のタイプのデータプロセッサとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、マルチコアプロセッサアーキテクチャに基づくゲートレベル回路およびプロセッサのうちの1つまたは複数を含むことができる。
【0168】
本発明の実施形態は、集積回路モジュールなどのさまざまな構成要素内で実行することができる。集積回路の設計は概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上でエッチングおよび形成する準備ができた半導体回路設計に変換するための複雑で強力なソフトウェアツールが使用可能である。
【0169】
プログラムは、適切に確立された設計ルールおよび予め記憶された設計モジュールのライブラリを使用して、半導体チップ上で導体を配線すること、および構成要素を配置することができる。半導体回路の設計が完了した後、その結果得られた設計を、製造のために、標準化された電子フォーマットで、半導体製造設備または「ファブ(fab)」に送信することができる。
【0170】
以上の説明では、本発明の例示的な実施形態の情報を提供する十分な説明を、例示的で非限定的な例として提供した。しかしながら、以上の説明を添付図面および添付の特許請求項とともに読んだときに、以上の説明を考慮したさまざまな変更および適合が当業者に明らかになることがある。しかしながら、それでもなお、本発明の教示のそのような全ての変更および同様の変更は、添付の特許請求項に規定された本発明の範囲に含まれる。
【手続補正書】
【提出日】2023-09-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
空間音声信号符号化のための方法であって、
入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定すること、および
前記音声シーン分離メトリックを使用して、前記入力音声信号の少なくとも1つの空間音声パラメータを量子化すること
を含む方法。
【請求項2】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化すること
をさらに含む、請求項1に記載の方法。
【請求項3】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化することが、
前記音声シーン分離メトリックに、前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを乗じること、
前記音声シーン分離メトリックと前記エネルギー比パラメータとの積を量子化して、量子化インデックスを生成すること、および
前記量子化インデックスを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化するためのビット割当てを選択すること
を含む、請求項1または2に記載の方法。
【請求項4】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化することが、
前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するための量子化器を複数の量子化器の中から選択することであり、前記選択が、前記音声シーン分離メトリックに依存する、選択すること、
選択された前記量子化器を使用して前記エネルギー比パラメータを量子化して、量子化インデックスを生成すること、および
前記量子化インデックスを使用して、前記エネルギー比パラメータを、前記入力信号の前記少なくとも1つの空間音声パラメータとともに量子化するためのビット割当てを選択すること
を含む、請求項1または2に記載の方法。
【請求項5】
前記少なくとも1つの空間音声パラメータが、前記入力音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項3または4に記載の方法。
【請求項6】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータを量子化することが、
前記少なくとも1つの空間音声パラメータを量子化するための量子化器を複数の量子化器の中から選択することであり、選択される前記量子化器が、前記音声シーン分離メトリックに依存する、選択すること、および
選択された前記量子化器を用いて前記少なくとも1つの空間音声パラメータを量子化すること
を含む、請求項2~5のいずれか1項に記載の方法。
【請求項7】
前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項6に記載の方法。
【請求項8】
前記追加の入力音声信号の前記第1の音声オブジェクト信号の前記時間周波数タイルに対する前記音声オブジェクトエネルギー比パラメータが、
前記追加の入力音声信号の前記時間周波数タイルに対する複数の音声オブジェクト信号のうちの前記第1の音声オブジェクト信号のエネルギーを決定すること、
前記複数の音声オブジェクト信号のうちの残りのそれぞれの音声オブジェクト信号のエネルギーを決定すること、および
前記第1の音声オブジェクト信号と残りの音声オブジェクト信号の前記エネルギーの和に対する前記第1の音声オブジェクト信号の前記エネルギーの比を決定すること
によって決定される、請求項7に記載の方法。
【請求項9】
前記音声シーン分離メトリックが、前記入力音声信号の時間周波数タイルと前記追加の入力音声信号の時間周波数タイルとの間で決定され、前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータの前記量子化を決定することが、
前記入力音声信号の追加の時間周波数タイルと前記追加の入力音声信号の追加の時間周波数タイルとの間の追加の音声シーン分離メトリックを決定すること、
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するためのファクタを決定すること、
前記ファクタに応じて複数の量子化器の中から量子化器を選択すること、および
選択された前記量子化器を使用して、前記追加の入力音声信号の少なくとも1つの追加の空間音声パラメータを量子化すること
を含む、請求項2~8のいずれか1項に記載の方法。
【請求項10】
前記少なくとも1つの追加の空間音声パラメータが、前記追加の入力音声信号の音声フレームに対する音声オブジェクト方向パラメータである、請求項9に記載の方法。
【請求項11】
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するための前記ファクタが、
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの平均、または
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの最小
のうちの一方である、請求項9または10に記載の方法。
【請求項12】
前記音声シーン分離メトリックが、前記入力音声信号および前記追加の入力音声信号を含む音声シーンに対する、前記入力音声信号と前記追加の入力音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項1~11のいずれか1項に記載の方法。
【請求項13】
前記音声シーン分離メトリックを決定することが、
前記入力音声信号を複数の時間周波数タイルに変換すること、
前記追加の入力音声信号を複数の追加の時間周波数タイルに変換すること、
少なくとも1つの時間周波数タイルのエネルギー値を決定すること、
少なくとも1つの追加の時間周波数タイルのエネルギー値を決定すること、および
前記音声シーン分離メトリックを、前記少なくとも1つの時間周波数タイルと前記少なくとも1つの追加の時間周波数タイルの和に対する前記少なくとも1つの時間周波数タイルの前記エネルギー値の比として決定すること
を含む、請求項1~12のいずれか1項に記載の方法。
【請求項14】
前記入力音声信号が2つ以上の音声チャネル信号を含み、前記追加の入力音声信号が複数の音声オブジェクト信号を含む、請求項1~13のいずれか1項に記載の方法。
【請求項15】
空間音声信号復号のための方法であって、
量子化された音声シーン分離メトリックを復号すること、および
前記量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定すること
を含む方法。
【請求項16】
前記量子化された音声シーン分離メトリックを使用して、第2の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定すること
をさらに含む、請求項15に記載の方法。
【請求項17】
前記量子化された音声シーン分離メトリックを使用して、前記第1の音声信号に関連した前記量子化された少なくとも1つの空間音声パラメータを決定することが、
前記第1の音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択することであり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、選択すること、
量子化された前記エネルギー比パラメータを、選択された前記量子化器から決定すること、および
量子化された前記エネルギー比パラメータの量子化インデックスを使用して、前記第1の音声信号の前記少なくとも1つの空間音声パラメータを復号すること、
を含む、請求項15または16に記載の方法。
【請求項18】
前記少なくとも1つの空間音声パラメータが、前記第1の音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項17に記載の方法。
【請求項19】
前記量子化された音声シーン分離メトリックを使用して、前記第2の音声信号を表現する前記量子化された少なくとも1つの空間音声パラメータを決定することが、
前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択することであり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、選択すること、および
前記第2の音声信号に対する前記量子化された少なくとも1つの空間音声パラメータを、前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する選択された前記量子化器から決定すること
を含む、請求項16~18のいずれか1項に記載の方法。
【請求項20】
前記第2の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記第2の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項19に記載の方法。
【請求項21】
前記音声シーン分離メトリックが、前記第1の音声信号および前記第2の音声信号を含む音声シーンに対する、前記第1の音声信号と前記第2の音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項15~20のいずれか1項に記載の方法。
【請求項22】
前記第1の音声信号が2つ以上の音声チャネル信号を含み、前記第2の入力音声信号が複数の音声オブジェクト信号を含む、請求項15~21のいずれか1項に記載の方法。
【請求項23】
空間音声信号符号化のための装置であって、
入力音声信号と追加の入力音声信号との間の音声シーン分離メトリックを決定する手段と、
前記音声シーン分離メトリックを使用して、前記入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段と
を備える装置。
【請求項24】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータを量子化する手段
をさらに備える、請求項23に記載の装置。
【請求項25】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化する前記手段が、
前記音声シーン分離メトリックに、前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを乗じる手段と、
前記音声シーン分離メトリックと前記エネルギー比パラメータとの積を量子化して、量子化インデックスを生成する手段と、
前記量子化インデックスを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化するためのビット割当てを選択する手段と
を備える、請求項23または24に記載の装置。
【請求項26】
前記音声シーン分離メトリックを使用して、前記入力音声信号の前記少なくとも1つの空間音声パラメータを量子化する前記手段が、
前記入力音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するための量子化器を複数の量子化器の中から選択する手段であり、前記選択が、前記音声シーン分離メトリックに依存する、手段と、
選択された前記量子化器を使用して前記エネルギー比パラメータを量子化して、量子化インデックスを生成する手段と、
前記量子化インデックスを使用して、前記エネルギー比パラメータを、前記入力信号の前記少なくとも1つの空間音声パラメータとともに量子化するためのビット割当てを選択する手段と
を備える、請求項23または24に記載の装置。
【請求項27】
前記少なくとも1つの空間音声パラメータが、前記入力音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項25または26に記載の装置。
【請求項28】
前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータを量子化する前記手段が、
前記少なくとも1つの空間音声パラメータを量子化するための量子化器を複数の量子化器の中から選択する手段であり、選択される前記量子化器が、前記音声シーン分離メトリックに依存する、手段と、
選択された前記量子化器を用いて前記少なくとも1つの空間音声パラメータを量子化する手段と
を備える、請求項24~27のいずれか1項に記載の装置。
【請求項29】
前記追加の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記追加の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項28に記載の装置。
【請求項30】
前記追加の入力音声信号の前記第1の音声オブジェクト信号の前記時間周波数タイルに対する前記音声オブジェクトエネルギー比パラメータが、
前記追加の入力音声信号の前記時間周波数タイルに対する複数の音声オブジェクト信号のうちの前記第1の音声オブジェクト信号のエネルギーを決定する手段と、
前記複数の音声オブジェクト信号のうちの残りのそれぞれの音声オブジェクト信号のエネルギーを決定する手段と、
前記第1の音声オブジェクト信号と残りの音声オブジェクト信号の前記エネルギーの和に対する前記第1の音声オブジェクト信号の前記エネルギーの比を決定する手段と
によって決定される、請求項29に記載の装置。
【請求項31】
前記音声シーン分離メトリックが、前記入力音声信号の時間周波数タイルと前記追加の入力音声信号の時間周波数タイルとの間で決定され、前記音声シーン分離メトリックを使用して、前記追加の入力音声信号の少なくとも1つの空間音声パラメータの前記量子化を決定する前記手段が、
前記入力音声信号の追加の時間周波数タイルと前記追加の入力音声信号の追加の時間周波数タイルとの間の追加の音声シーン分離メトリックを決定する手段と、
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するためのファクタを決定する手段と、
前記ファクタに応じて複数の量子化器の中から量子化器を選択する手段と、
選択された前記量子化器を使用して、前記追加の入力音声信号の少なくとも1つの追加の空間音声パラメータを量子化する手段と
を備える、請求項24~30のいずれか1項に記載の装置。
【請求項32】
前記少なくとも1つの追加の空間音声パラメータが、前記追加の入力音声信号の音声フレームに対する音声オブジェクト方向パラメータである、請求項31に記載の装置。
【請求項33】
前記音声シーン分離メトリックおよび前記追加の音声シーン分離メトリックを表現するための前記ファクタが、
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの平均、または
前記音声シーン分離メトリックと前記追加の音声シーン分離メトリックの最小
のうちの一方である、請求項31または32に記載の装置。
【請求項34】
ストリーム分離インデックスが、前記入力音声信号および前記追加の入力音声信号を含む音声シーンに対する、前記入力音声信号と前記追加の入力音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項23~33のいずれか1項に記載の装置。
【請求項35】
前記音声シーン分離メトリックを決定することが、
前記入力音声信号を複数の時間周波数タイルに変換する手段と、
前記追加の入力音声信号を複数の追加の時間周波数タイルに変換する手段と、
少なくとも1つの時間周波数タイルのエネルギー値を決定する手段と、
少なくとも1つの追加の時間周波数タイルのエネルギー値を決定する手段と、
前記音声シーン分離メトリックを、前記少なくとも1つの時間周波数タイルと前記少なくとも1つの追加の時間周波数タイルの和に対する前記少なくとも1つの時間周波数タイルの前記エネルギー値の比として決定すること
を備える、請求項23~34のいずれか1項に記載の装置。
【請求項36】
前記入力音声信号が2つ以上の音声チャネル信号を含み、前記追加の入力音声信号が複数の音声オブジェクト信号を含む、請求項23~35のいずれか1項に記載の装置。
【請求項37】
空間音声信号復号のための装置であって、
量子化された音声シーン分離メトリックを復号する手段と、
前記量子化された音声シーン分離メトリックを使用して、第1の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段と
を備える装置。
【請求項38】
前記量子化された音声シーン分離メトリックを使用して、第2の音声信号に関連した量子化された少なくとも1つの空間音声パラメータを決定する手段
をさらに備える、請求項37に記載の装置。
【請求項39】
前記量子化された音声シーン分離メトリックを使用して、前記第1の音声信号に関連した前記量子化された少なくとも1つの空間音声パラメータを決定することが、
前記第1の音声信号の時間周波数タイルに対して計算されたエネルギー比パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択する手段であり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、手段と、
量子化された前記エネルギー比パラメータを、選択された前記量子化器から決定する手段と、
量子化された前記エネルギー比パラメータの量子化インデックスを使用して、前記第1の音声信号の前記少なくとも1つの空間音声パラメータを復号する手段と
を備える、請求項37または38に記載の装置。
【請求項40】
前記少なくとも1つの空間音声パラメータが、前記第1の音声信号の前記時間周波数タイルに対する方向パラメータであり、前記エネルギー比パラメータが方向対全体エネルギー比である、請求項39に記載の装置。
【請求項41】
前記量子化された音声シーン分離メトリックを使用して、前記第2の音声信号を表現する前記量子化された少なくとも1つの空間音声パラメータを決定する前記手段が、
前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する量子化器を複数の量子化器の中から選択する手段であり、前記選択が、復号された前記量子化された音声シーン分離メトリックに依存する、手段と、
前記第2の音声信号に対する前記量子化された少なくとも1つの空間音声パラメータを、前記第2の音声信号に対する前記少なくとも1つの空間音声パラメータを量子化するのに使用する選択された前記量子化器から決定する手段と
を備える、請求項38~40のいずれか1項に記載の装置。
【請求項42】
前記第2の入力音声信号の前記少なくとも1つの空間音声パラメータが、前記第2の入力音声信号の第1の音声オブジェクト信号の時間周波数タイルに対する音声オブジェクトエネルギー比パラメータである、請求項41に記載の装置。
【請求項43】
ストリーム分離インデックスが、前記第1の音声信号および前記第2の音声信号を含む音声シーンに対する、前記第1の音声信号と前記第2の音声信号のうちのそれぞれの信号の相対寄与の測度を提供する、請求項37~42のいずれか1項に記載の装置。
【請求項44】
前記第1の音声信号が2つ以上の音声チャネル信号を含み、前記第2の入力音声信号が複数の音声オブジェクト信号を含む、請求項37~43のいずれか1項に記載の装置。
【国際調査報告】