IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.の特許一覧

特表2023-546851複数の音声オブジェクトをエンコードする装置および方法、または2つ以上の関連する音声オブジェクトを使用してデコードする装置および方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-08
(54)【発明の名称】複数の音声オブジェクトをエンコードする装置および方法、または2つ以上の関連する音声オブジェクトを使用してデコードする装置および方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20231031BHJP
   G10L 19/00 20130101ALI20231031BHJP
【FI】
G10L19/008 200
G10L19/00 330B
G10L19/008 100
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023522519
(86)(22)【出願日】2021-10-12
(85)【翻訳文提出日】2023-06-09
(86)【国際出願番号】 EP2021078217
(87)【国際公開番号】W WO2022079049
(87)【国際公開日】2022-04-21
(31)【優先権主張番号】20201633.3
(32)【優先日】2020-10-13
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】20215651.9
(32)【優先日】2020-12-18
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】21184367.7
(32)【優先日】2021-07-07
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.MATLAB
(71)【出願人】
【識別番号】500242786
【氏名又は名称】フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アンドレア・アイヒェンゼーア
(72)【発明者】
【氏名】スリカンス・コルセ
(72)【発明者】
【氏名】シュテファン・バイヤー
(72)【発明者】
【氏名】ファビアン・キュッヒ
(72)【発明者】
【氏名】オリヴァー・ティールガルト
(72)【発明者】
【氏名】ギヨーム・フックス
(72)【発明者】
【氏名】ドミニク・ヴェックベッカー
(72)【発明者】
【氏名】ユルゲン・ヘレ
(72)【発明者】
【氏名】マルクス・ムルトゥルス
(57)【要約】
複数の音声オブジェクトをエンコードするための装置であって、時間枠に関連する複数の周波数ビンの1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算するように構成されたオブジェクトパラメータ計算器(100)であって、少なくとも2つの関連する音声オブジェクトの数が複数の音声オブジェクトの総数よりも少ない、オブジェクトパラメータ計算器(100)と、1つまたは複数の周波数ビンの少なくとも2つの関連する音声オブジェクトのパラメータデータに関する情報を含むエンコードされた音声信号を出力するための出力インターフェース(200)と、を備える、装置。
【特許請求の範囲】
【請求項1】
複数の音声オブジェクトをエンコードするための装置であって、
時間枠に関連する複数の周波数ビンの1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算するように構成されたオブジェクトパラメータ計算器(100)であって、前記少なくとも2つの関連する音声オブジェクトの数が前記複数の音声オブジェクトの総数よりも少ない、オブジェクトパラメータ計算器(100)と、
前記1つまたは複数の周波数ビンの前記少なくとも2つの関連する音声オブジェクトの前記パラメータデータに関する情報を含むエンコードされた音声信号を出力するための出力インターフェース(200)と、
を備える、装置。
【請求項2】
前記オブジェクトパラメータ計算器(100)が、
前記複数の音声オブジェクトの各音声オブジェクトを、前記複数の周波数ビンを有するスペクトル表現に変換し(120)、
前記1つまたは複数の周波数ビンについて各音声オブジェクトから選択情報を計算し(122)、
前記選択情報に基づいて、前記少なくとも2つの関連する音声オブジェクトを示す前記パラメータデータとしてオブジェクト識別を導出する(124)
ように構成されており、
前記出力インターフェース(200)が、前記オブジェクト識別に関する情報を前記エンコードされた音声信号に導入するように構成されている、
請求項1に記載の装置。
【請求項3】
前記オブジェクトパラメータ計算器(100)は、前記パラメータデータとして、前記1つまたは複数の周波数ビン内の前記関連音声オブジェクトの1つまたは複数の振幅関連測定値または前記振幅関連測定値から導出された1つまたは複数の結合値を量子化およびエンコード(212)するように構成されており、
前記出力インターフェース(200)は、前記量子化された1つまたは複数の振幅関連測定値または前記量子化された1つまたは複数の結合値を前記エンコードされた音声信号に導入するように構成されている、
請求項1または2に記載の装置。
【請求項4】
前記選択情報は、振幅値、電力値もしくはラウドネス値、または、前記音声オブジェクトの振幅とは異なるべき乗された振幅、などの振幅関連測定値であり、
前記オブジェクトパラメータ計算器(100)は、関連する音声オブジェクトに関連する測定値と、前記関連する音声オブジェクトの2つ以上の振幅に関連する測定値の合計とからの比率のような結合値を計算する(127)ように構成されており、
前記出力インターフェース(200)は、前記結合値に関する情報を前記エンコードされた音声信号に導入するように構成されており、前記エンコードされた音声信号の前記結合値に関する情報項目の数は、少なくとも1に等しく、前記1つまたは複数の周波数ビンの関連する音声オブジェクトの数よりも少ない、
請求項2または3に記載の装置。
【請求項5】
前記オブジェクトパラメータ計算器(100)は、前記1つまたは複数の周波数ビン内の前記複数の音声オブジェクトの前記選択情報の順序に基づいて前記オブジェクト識別を選択するように構成されている、
請求項2から4のいずれか一項に記載の装置。
【請求項6】
前記オブジェクトパラメータ計算機(100)が、
前記選択情報として信号電力を計算し(122)、
各々の周波数ビンに対応する1つまたは複数の周波数ビンにおいて最大の信号電力値を有する前記2つ以上の音声オブジェクトの前記オブジェクト識別を個別に導出し(124)、
前記最大の信号電力値を有する前記2つ以上の音声オブジェクトの前記信号電力の合計と、導出された前記オブジェクト識別を前記パラメータデータとして有する各々の前記音声オブジェクトの前記信号電力との間の電力比を計算し(126)、
前記電力比を量子化およびエンコード(212)する、
ように構成されており、
前記出力インターフェース(200)は、前記量子化およびエンコードされた電力比を前記エンコードされた音声信号に導入するように構成されている、
請求項2から5のいずれか一項に記載の装置。
【請求項7】
前記出力インターフェース(200)は、前記エンコードされた音声信号に、
1つまたは複数のエンコードされたトランスポートチャネルと、
前記パラメータデータとして、前記時間枠内の前記複数の周波数ビンの前記1つまたは複数の周波数ビンのそれぞれについて、前記関連する音声オブジェクトの2つ以上のエンコードされたオブジェクト識別、および1つまたは複数のエンコードされた結合値またはエンコードされた振幅関連測定値と、
前記時間枠内の各音声オブジェクトの量子化およびエンコードされた方向データであって、前記1つまたは複数の周波数ビンのすべての周波数ビンに対して一定である、方向データと、
を導入するように構成されている、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記オブジェクトパラメータ計算器(100)が、前記1つまたは複数の周波数ビンにおいて少なくとも最も支配的なオブジェクトおよび2番目に支配的なオブジェクトのパラメータデータを計算するように構成されている、または
前記複数の音声オブジェクトの音声オブジェクトの数は3つ以上であり、前記複数の音声オブジェクトは、第1の音声オブジェクト、第2の音声オブジェクト、および第3の音声オブジェクトを含み、
前記オブジェクトパラメータ計算器(100)は、前記1つまたは複数の周波数ビンのうちの第1のものについて、前記関連する音声オブジェクトとして、前記第1の音声オブジェクトおよび前記第2の音声オブジェクトなどの音声オブジェクトの第1のグループのみを計算し、前記第2の音声オブジェクトと前記第3の音声オブジェクト、または前記第1の音声オブジェクトと前記第3の音声オブジェクトなど、音声オブジェクトの第2のグループのみを、前記1つまたは複数の周波数ビンの第2の周波数ビンについての前記関連する音声オブジェクトとして計算するように構成されており、前記音声オブジェクトの第1のグループは、少なくとも1つのグループメンバーに関して、前記音声オブジェクトの第2のグループとは異なる、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記オブジェクトパラメータ計算器(100)が、
第1の時間分解能もしくは周波数分解能で生のパラメトリックデータを計算し、前記生のパラメトリックデータを結合して、前記第1の時間分解能もしくは周波数分解能よりも低い第2の時間分解能もしくは周波数分解能を有する結合されたパラメトリックデータにし、および、前記第2の時間分解能もしくは周波数分解能を有する前記結合されたパラメトリックデータに関して、前記少なくとも2つの関連する音声オブジェクトのパラメータデータを計算する、または
前記複数の音声オブジェクトの時間分解または周波数分解で使用される第1の時間分解能または周波数分解能とは異なる第2の時間分解能または周波数分解能を有するパラメータ帯域を決定し、前記第2の時間分解能または周波数分解能を有する前記パラメータ帯域について、前記少なくとも2つの関連する音声オブジェクトの前記パラメータデータを計算する、
ように構成されている、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記複数の音声オブジェクトが、前記複数の音声オブジェクトに関する方向情報(810)を示す関連するメタデータを含み、
前記装置が、
前記複数の音声オブジェクトをダウンミックスして1つまたは複数のトランスポートチャネルを取得するためのダウンミキサ(400)であって、前記ダウンミキサ(400)は、前記複数の音声オブジェクトの前記方向情報に応答して、前記複数の音声オブジェクトをダウンミックスするように構成された、ダウンミキサ(400)と、
1つまたは複数のトランスポートチャネルをエンコードして、1つまたは複数のエンコードされたトランスポートチャネルを取得するためのトランスポートチャネルエンコーダ(300)と、
をさらに備え、
前記出力インターフェース(200)が、前記エンコードされた音声信号に前記1つまたは複数のトランスポートチャネルを導入するように構成されている、
請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記ダウンミキサ(400)が、
仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して、同じ位置に配置され、向きが異なる、または2つの異なる位置に配置された2つの仮想マイク信号として、2つのトランスポートチャネルを生成する、または
仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して、同じ位置に配置され、向きが異なる、または3つの異なる位置に配置された3つの仮想マイク信号として、3つのトランスポートチャネルを生成する、または
仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して、同じ位置に配置され、向きが異なる、または4つの異なる位置に配置された4つの仮想マイク信号として、4つのトランスポートチャネルを生成する、
ように構成されており、
仮想マイク信号が、仮想1次マイク信号、または仮想カーディオイドマイク信号、または仮想8の字もしくは双極子もしくは双方向マイク信号、または仮想指向性マイク信号、または仮想サブカーディオイドマイク信号、または仮想単一指向性マイク信号、または仮想ハイパーカーディオイドマイク信号、または仮想無指向性マイク信号である、
請求項10に記載の装置。
【請求項12】
前記ダウンミキサ(400)が、
前記複数の音声オブジェクトの各音声オブジェクトに対して、前記対応する音声オブジェクトの前記方向情報を使用して、各トランスポートチャネルの重み付け情報を導出し(402)、
特定のトランスポートチャネルの前記音声オブジェクトの前記重み付け情報を使用して前記対応する音声オブジェクトを重み付けし(404)、前記特定のトランスポートチャネルのオブジェクト寄与度を取得し、
前記特定のトランスポートチャネルを取得するために前記複数の音声オブジェクトから前記特定のトランスポートチャネルの前記オブジェクト寄与度を結合する(406)、
ように構成されている、請求項10または11に記載の装置。
【請求項13】
前記ダウンミキサ(400)が、前記方向情報が関連付けられている仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して同じ位置に配置され、向きが異なる、または異なる位置に配置された1つまたは複数の仮想マイク信号として、前記1つまたは複数のトランスポートチャネルを計算するように構成されており、
前記異なる位置もしくは向きが、中心線上または前記中心線の左側、および前記中心線上もしくは前記中心線の右側である、または、前記異なる位置もしくは向きが、前記中心線に対して+90度もしくは-90度、または前記中心線に対して-120度、0度、および+120度などの水平位置もしくは向きに均等もしくは不均等に分配されている、または、前記異なる位置または向きが、仮想聴取者が配置される水平面に対して上向きもしくは下向きに向けられた少なくとも1つの位置もしくは向きを含み、前記複数の音声オブジェクトに関する前記方向情報が、前記仮想聴取者の位置または基準位置もしくは向きに関連付けられる
請求項10から12のいずれか一項に記載の装置。
【請求項14】
前記複数の音声オブジェクトに関する前記方向情報を示す前記メタデータを量子化して、前記複数の音声オブジェクトに関する量子化された方向項目を取得するパラメータプロセッサ(110)をさらに備え、
前記ダウンミキサ(400)が、前記方向情報としての前記量子化された方向項目に応答して動作するように構成されており、
前記出力インターフェース(200)が、前記量子化された方向項目に関する情報を前記エンコードされた音声信号に導入するように構成されている、
請求項10から13のいずれか一項に記載の装置。
【請求項15】
前記ダウンミキサ(400)が、前記複数の音声オブジェクトに関する前記方向情報の分析を実行し(410)、前記分析の結果に応じて前記トランスポートチャネルを生成するために1つまたは複数の仮想マイクを配置する(412)ように構成されている、
請求項10から14のいずれか一項に記載の装置。
【請求項16】
前記ダウンミキサ(400)が、前記複数の時間枠にわたって静的なダウンミックス規則を使用してダウンミックス(408)するように構成されている、または
前記方向情報が前記複数の時間枠にわたって可変であり、前記ダウンミキサ(400)が、前記複数の時間枠にわたって可変であるダウンミキシング規則を使用してダウンミックス(405)するように構成されている、
請求項10から15のいずれか一項に記載の装置。
【請求項17】
前記ダウンミキサ(400)が、サンプルごとの重み付けと、前記複数の音声オブジェクトのサンプルの結合とを使用して、時間領域でダウンミックスするように構成されている、請求項10から16のいずれか一項に記載の装置。
【請求項18】
1つまたは複数のトランスポートチャネルと、複数の音声オブジェクトの方向情報と、時間枠の1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータと、を含むエンコードされた音声信号をデコードするためのデコーダであって、前記少なくとも2つの関連する音声オブジェクトの数が、前記複数の音声オブジェクトの総数よりも少なく、デコーダは、
前記時間枠内に複数の周波数ビンを有するスペクトル表現で前記1つまたは複数のトランスポートチャネルを提供するための入力インターフェース(600)と、
前記方向情報を使用して、前記少なくとも2つの関連する音声オブジェクトの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、前記1つまたは複数のトランスポートチャネルからの寄与度が考慮されるように、前記1つまたは複数のトランスポートチャネルを複数の音声チャネルにレンダリングするための音声レンダラ(700)と、
を備え、
前記音声レンダラ(700)が、前記1つまたは複数の周波数ビンのそれぞれについて、前記少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、前記1つまたは複数のトランスポートチャネルからの寄与度を計算するように構成される、
デコーダ。
【請求項19】
前記音声レンダラ(700)は、前記1つまたは複数の周波数ビンについて、前記少なくとも2つの関連する音声オブジェクトとは異なる音声オブジェクトの方向情報を無視するように構成されている、
請求項18に記載のデコーダ。
【請求項20】
前記エンコードされた音声信号が、関連する各音声オブジェクトの振幅関連測定値(812)、または前記パラメータデータ内の少なくとも2つの関連する音声オブジェクトに関連する結合値(812)を含み、
前記音声レンダラ(700)が、前記振幅関連測定値または前記結合値に従って、前記1つまたは複数のトランスポートチャネルの定量的寄与度を決定する(704)ように構成される、
請求項18または19に記載のデコーダ。
【請求項21】
前記エンコードされた信号は、前記パラメータデータ内の前記結合値を含み、
前記音声レンダラ(700)は、前記関連する音声オブジェクトの1つに対する前記結合値と、前記1つの関連する音声オブジェクトに対する前記方向情報とを使用して、前記1つまたは複数のトランスポートチャネルの前記寄与度を決定する(704、733)ように構成されており、
前記音声レンダラ(700)は、前記1つまたは複数の周波数ビン内の前記関連する音声オブジェクトの別の値と、他の前記関連する音声オブジェクトの前記方向情報との前記結合値から導出された値を使用して、前記1つまたは複数のトランスポートチャネルの前記寄与度を決定する(704、735)ように構成されている、
請求項20に記載のデコーダ。
【請求項22】
前記音声レンダラ(700)は、
前記複数の周波数ビンの各周波数ビンごとに前記関連する音声オブジェクトから前記直接応答情報と、前記周波数ビン内の前記関連する音声オブジェクトに関連付けられた前記方向情報とを計算する(704)、
ように構成されている、請求項18から21のいずれか一項に記載のデコーダ。
【請求項23】
前記音声レンダラ(700)が、前記メタデータに含まれる拡散パラメータまたは無相関規則などの拡散情報を使用して、前記複数の周波数ビンの各周波数ビンごとに拡散信号を決定し(741)、直接応答情報と拡散信号によって決定され、複数のチャネルのうちのチャネルのスペクトル領域でレンダリングされた信号を取得するように直接応答を組み合わせる、または
前記直接応答情報(704)と前記音声チャンネル数に関する情報(702)とを使用して、合成情報を計算し(706)、前記共分散合成情報を前記1つまたは複数のトランスポートチャネルに適用して(727)、前記音声チャネルの数を取得する、ように構成されており、
前記直接応答情報(704)は、関連する音声オブジェクトごとの直接応答ベクトルであり、前記共分散合成情報は共分散合成行列であり、前記音声レンダラ(700)は、前記共分散合成情報を適用する(727)際に、周波数ビンごとに行列演算を実行するように構成される、
請求項22に記載のデコーダ。
【請求項24】
前記音声レンダラ(700)が、
前記直接応答情報(704)の前記計算において、関連する音声オブジェクトごとに直接応答ベクトルを導出し、関連する音声オブジェクトごとに、各直接応答ベクトルから共分散行列を計算し、
前記共分散合成情報の前記計算において、
前記関連する音声オブジェクトのそれぞれからの前記共分散行列と、
それぞれの前記関連する音声オブジェクトの電力情報と、
前記1つまたは複数のトランスポートチャネルから導出される電力情報と、
からターゲット共分散情報を導出する(724)、
ように構成されている、請求項22または23に記載のデコーダ。
【請求項25】
前記音声レンダラ(700)が、
前記直接応答情報の前記計算において(704)、関連する音声オブジェクトごとに直接応答ベクトルを導出し、関連する音声オブジェクトごとに、各直接応答ベクトルから共分散行列を計算し(723)、
前記トランスポートチャネルから入力共分散情報を導出し(726)、
前記ターゲット共分散情報、前記入力共分散情報、および前記チャネル数に関する前記情報からミキシング情報を導出し(725a、725b)、
前記時間枠内の各周波数ビンの前記トランスポートチャネルに前記ミキシング情報を適用する(727)、
ように構成されている、請求項24に記載のデコーダ。
【請求項26】
前記時間枠内の各周波数ビンに対する前記ミキシング情報の前記適用の結果が時間領域に変換され(708)、前記時間領域内の音声チャネルの数が取得される、請求項25に記載のデコーダ。
【請求項27】
前記音声レンダラ(700)が、
入力共分散行列の分解(752)において、前記トランスポートチャネルから導出された前記入力共分散行列の主対角要素のみを使用し、
直接応答行列と、前記オブジェクトまたはトランスポートチャネルの電力行列とを使用して、ターゲット共分散行列の分解(751)を実行し、
前記入力共分散行列の各主対角要素の根を取ることにより、前記入力共分散行列の分解を実行し(752)、
分解された入力共分散行列の正則化された逆行列を計算し(753)、
拡張単位行列なしでエネルギー補償に使用される最適な行列を計算する際に特異値分解を実行する(756)、
ように構成されている、請求項22から26のいずれか一項に記載のデコーダ。
【請求項28】
複数の音声オブジェクトと、前記複数の音声オブジェクトに関する方向情報を示す関連メタデータとをエンコードする方法であって、
前記複数の音声オブジェクトをダウンミックスして、1つまたは複数のトランスポートチャネルを取得するステップと、
前記1つまたは複数のトランスポートチャネルをエンコードして、1つまたは複数のエンコードされたトランスポートチャネルを取得するステップと、
前記1つまたは複数のエンコードされたトランスポートチャネルを含むエンコードされた音声信号を出力するステップと、
を含み、
前記ダウンミックスするステップは、前記複数の音声オブジェクトに関する前記方向情報に応じて、前記複数の音声オブジェクトをダウンミックスするステップを含む、
方法。
【請求項29】
複数の音声オブジェクトの1つまたは複数のトランスポートチャネルおよび方向情報と、時間枠の1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータと、を含む、エンコードされた音声信号をデコードする方法であって、前記少なくとも2つの関連する音声オブジェクトの数が前記複数のオブジェクトの総数よりも少なく、前記デコードする方法が、
前記時間枠内に複数の周波数ビンを有するスペクトル表現で、前記1つまたは複数のトランスポートチャネルを提供するステップと、
前記方向情報を使用して、前記1つまたは複数のトランスポートチャネルを複数の音声チャネルに音声レンダリングするステップと、
を含み、
前記音声レンダリングするステップが、前記少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトのうちの第2のものに関連付けられた第2の方向情報に従って、または、前記少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、前記1つまたは複数のトランスポートチャネルからの寄与度が考慮されるように、前記1つまたは複数の周波数ビンのそれぞれについて、前記1つまたは複数のトランスポートチャネルからの寄与度を計算するステップを含む、
方法。
【請求項30】
コンピュータまたはプロセッサ上で実行されたとき、請求項28に記載の方法または請求項29に記載の方法を実行するためのコンピュータプログラム。
【請求項31】
1つまたは複数の周波数ビンに関連する少なくとも2つの音声オブジェクトのパラメータデータに関する情報を含むエンコードされた音声信号。
【請求項32】
1つまたは複数のエンコードされたトランスポートチャネルと、
前記パラメータデータに関する前記情報として、時間枠内の前記複数の周波数ビンの前記1つまたは複数の周波数ビンのそれぞれについて、前記関連する音声オブジェクトの2つ以上のエンコードされたオブジェクト識別、および1つまたは複数のエンコードされた結合値、またはエンコードされた振幅関連測定値と、
前記時間枠内の各音声オブジェクトの量子化およびエンコードされた方向データであって、前記1つまたは複数の周波数ビンのすべての周波数ビンに対して一定である、方向データと、
をさらに含む、請求項31に記載のエンコードされた音声信号。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号、例えば、音声オブジェクトのエンコード、およびエンコードされた音声オブジェクトなどのエンコードされた音声信号のデコードに関する。
【背景技術】
【0002】
序論
このドキュメントでは、指向性音声エンコード(DirAC: Directional Audio Coding)を使用してオブジェクトベースの音声コンテンツを低ビットレートでエンコードおよびデコードするためのパラメトリックアプローチについて説明する。提示された実施形態は、3GPP(登録商標)イマーシブ音声および音声サービス(IVAS: Immersive Voice and Audio Services)コーデックの一部として動作し、その中でメタデータを伴う独立ストリーム(ISM: Independent Stream with Metadata)モードの低ビットレートの有利な代替、離散エンコードアプローチを提供する。
【0003】
先行技術
オブジェクトの離散コーディング
オブジェクトベースの音声コンテンツをコーディングする最も簡単な方法は、オブジェクトを個別にコーディングし、対応するメタデータと共に送信することである。このアプローチの主な欠点は、オブジェクトの数が増えるにつれて、オブジェクトをエンコードするために必要な非常に多くのビット消費が発生することである。この問題の簡単な解決策は、入力信号からいくつかの関連するパラメータが計算され、量子化され、複数のオブジェクト波形を組み合わせた適切なダウンミックス信号と共に送信される「パラメトリックアプローチ」を採用することである。
【0004】
空間音声オブジェクトコーディング(SAOC: Spatial Audio Object Coding)
空間音声オブジェクトコーディング[SAOC_STD、SAOC_AES]は、エンコーダがダウンミックス行列Dと一連のパラメータに基づいてダウンミックス信号を計算し、両方をデコーダに送信するパラメトリックアプローチである。パラメータは、すべての個々のオブジェクトの心理音響的に関連するプロパティと関係を表す。デコーダでは、レンダリング行列Rを使用してダウンミックスが特定のスピーカレイアウトにレンダリングされる。
【0005】
SAOCの主なパラメータは、サイズがN行N列のオブジェクト共分散行列Eであり、Nはオブジェクトの数を表す。このパラメータは、オブジェクトレベル差(OLD: object level differences)およびオプションのオブジェクト間共分散(IOC: inter-object covariance)としてデコーダに転送される。
【0006】
行列Eの個々の要素ei,jは、次式で与えられる。
【0007】
【数1】
【0008】
オブジェクトレベル差(OLD)は次のように定義される。
【0009】
【数2】
【0010】
式中、
【0011】
【数3】
【0012】
および絶対物体エネルギー(NRG)は次のように記述される。
【0013】
【数4】
【0014】
および
【0015】
【数5】
【0016】
式中、iとjはそれぞれオブジェクトxiとxjのオブジェクトインデックスであり、nは時間インデックスを示し、kは周波数インデックスを示す。lは一連の時間インデックスを示し、mは一連の周波数インデックスを示す。εは、ゼロによる除算を避けるための追加定数であり、例えば、ε = 10である。
【0017】
入力オブジェクト(IOC: input objects)の類似度は、例えば、相互相関によって与えられる。
【0018】
【数6】
【0019】
サイズN_dmx行N列のダウンミックス行列Dは、要素di,jによって定義され、iはダウンミックス信号のチャネルインデックスを指し、jはオブジェクトインデックスを指す。ステレオダウンミックス(N_dmx = 2)の場合、di,jはパラメータDMGとDCLDから次のように計算される。
【0020】
【数7】
【0021】
式中、DMGiとDCLDiは次の式で与えられる。
【0022】
【数8】
【0023】
モノダウンミックス(N_dmx = 1)の場合、di,jはDMGパラメータのみから次のように計算される。
【0024】
【数9】
【0025】
式中、
【0026】
【数10】
【0027】
である。
【0028】
空間音声オブジェクトコーディング-3D(SAOC-3D)
空間音声オブジェクトコーディング3D音声再生(SAOC-3D)[MPEGH_AES、MPEGH_IEEE、MPEGH_STD、SAOC_3D_PAT]は、上記のMPEG SAOC技術の拡張であり、チャネル信号とオブジェクト信号の両方を非常にビットレート効率の高い方法で圧縮およびレンダリングする。
【0029】
SAOCとの主な違いは次のとおりである。
・ 元のSAOCは最大2つのダウンミックスチャネルしかサポートしていないが、SAOC-3Dはマルチオブジェクト入力を任意の数のダウンミックスチャネル(および関連するサイド情報)にマッピングできる。
・ マルチチャネル出力へのレンダリングは、マルチチャネル出力プロセッサとしてMPEG Surroundを使用していた従来のSAOCとは対照的に直接行われる。
・ 残りのコーディングツールなどの一部のツールが削除された。
【0030】
これらの違いにもかかわらず、SAOC-3Dはパラメータの観点からはSAOCと同じである。SAOC-3Dデコーダは、SAOCデコーダと同様に、マルチチャネルダウンミックスX、共分散行列E、レンダリング行列R、およびダウンミックス行列Dを受け取る。
【0031】
レンダリング行列Rは、入力チャネルと入力オブジェクトによって定義され、それぞれフォーマットコンバータ(チャネル)とオブジェクトレンダラ(オブジェクト)から受信される。
【0032】
ダウンミックス行列Dは、要素di,jによって定義され、iはダウンミックス信号のチャネルインデックスを指し、jはオブジェクトインデックスを指し、ダウンミックスゲイン(DMG)から計算される。
【0033】
【数11】
【0034】
式中、
【0035】
【数12】
【0036】
である。
【0037】
サイズN_out * N_outの出力共分散行列Cは次のように定義される。
C=RER*
【0038】
関連スキーム
上で説明したSAOCと本質的に似ているスキームが他にもいくつか存在するが、わずかな違いがある。
・ オブジェクトのバイノーラルキューコーディング(BCC: Binaural Cue Coding)は、[BCC2001]などで説明されており、SAOC技術の前身である。
・ ジョイントオブジェクトコーディング(JOC: Joint Object Coding)と高度なジョイントオブジェクトコーディング(A-JOC: Advanced Joint Object Coding)は、SAOCと同様の機能を実行し、特定の出力スピーカレイアウト[JOC_AES、AC4_AES]にレンダリングすることなく、デコーダ側で大まかに分離されたオブジェクトを配信する。この技術は、アップミックス行列の要素をダウンミックスから分離されたオブジェクトに(OLDではなく)パラメータとして送信する。
【0039】
指向性音声コーディング(DirAC)
別のパラメトリックアプローチは、指向性音声コーディングである。DirAC[Pulkki2009]は、知覚的に動機づけられた空間音の再現である。人間の聴覚系の空間分解能は、ある時点で1つのクリティカル帯域に対して、方向の1つのキューと両耳間のコヒーレンスの別のキューのデコードに制限されていると想定されている。
【0040】
これらの仮定に基づいて、DirACは、無指向性拡散ストリームと指向性非拡散ストリームの2つのストリームをクロスフェードすることにより、1つの周波数帯域の空間サウンドを表す。DirAC処理は、図12aおよび図12bに示すように、分析と合成の2つのフェーズで実行される。
【0041】
DirAC分析段階では、Bフォーマットの1次一致マイクを入力と見なし、音の拡散性と到来方向を周波数領域で分析する。
【0042】
DirAC合成段階では、サウンドは非拡散ストリームと拡散ストリームの2つのストリームに分割される。非拡散ストリームは、ベクトルベース振幅パニング(VBAP)[Pulkki1997]を使用して行うことができる振幅パニングを使用してポイントソースとして再現される。拡散ストリームは、包み込み感の原因であり、相互に無相関化された信号をラウドスピーカに伝えることによって生成される。
【0043】
図12aの分析段階は、帯域フィルタ1000、エネルギー推定器1001、強度推定器1002、時間平均化要素999aおよび999b、拡散計算器1003、および方向計算器1004を備えている。計算された空間パラメータは、各時間/周波数タイルの0と1との間の拡散値と、ブロック1004によって生成された各時間/周波数タイルの到着パラメータの方向である。図12aでは、方向パラメータは、方位角と仰角を含み、参照位置または聴取位置に対する、特に、帯域フィルタ1000に入力される4つのコンポーネント信号が収集されるマイクの位置に対する音の到達方向を示す。これらのコンポーネント信号は、図12aの図では、無指向性コンポーネントW、指向性コンポーネントX、別の指向性コンポーネントY、および別の指向性コンポーネントZを含む1次アンビソニックスコンポーネントである。
【0044】
図12bに示されるDirAC合成段階は、Bフォーマットのマイク信号W、X、Y、Zの時間/周波数表現を生成する帯域フィルタ1005を備えている。個々の時間/周波数タイルに対応する信号は、チャネルごとに仮想マイク信号を生成する仮想マイク段階1006に入力される。特に、仮想マイク信号を生成するために、例えば、センターチャネルの場合、仮想マイクはセンターチャネルの方向に向けられ、結果として得られる信号は、センターチャネルの対応するコンポーネント信号である。次に、信号は、直接信号分岐1015および拡散信号分岐1014を介して処理される。両方の分岐は、ブロック1007、1008で元の拡散パラメータから導出され、ブロック1009、1010でさらに処理される拡散値によって制御される、対応するゲイン調整器または増幅器を備えて、特定のマイク補償を得る。
【0045】
直接信号分岐1015のコンポーネント信号も、方位角と仰角からなる方向パラメータから導出された利得パラメータを使用して利得調整される。特に、これらの角度はVBAP(vector base amplitude panning: ベクトルベース振幅パニング)ゲインテーブル1011に入力される。その結果は、各チャネルのラウドスピーカゲイン平均化段階1012とさらなる正規化器1013に入力され、結果として得られたゲインパラメータは直接信号分岐1015の増幅器またはゲイン調整器に転送される。非相関器1016の出力で生成された拡散信号と、直接信号または非拡散ストリームとがコンバイナ1017で結合され、その後、他のサブバンドが、例えば合成フィルタバンクであり得る別のコンバイナ1018で加算される。したがって、特定のラウドスピーカのラウドスピーカ信号が生成され、特定のラウドスピーカ設定における他のラウドスピーカ1019の他のチャネルに対して同じ手順が実行される。
【0046】
DirAC合成の高品質バージョンを図12bに示す。ここでは、シンセサイザがすべてのBフォーマット信号を受信し、そこからラウドスピーカの方向ごとに仮想マイク信号が計算される。利用される指向性パターンは通常双極子である。次に、分岐1016および1015に関して説明したように、メタデータに応じて、仮想マイク信号が非線形方式で変更される。DirACの低ビットレートバージョンは、図12bには示されていない。ただし、この低ビットレートバージョンでは、音声の1つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信した音声のこの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの2つのストリームに分割され、別々に処理される。ベクトルベース振幅パニング(VBAP)を使用して、非拡散音を点音源として再生する。パニングでは、ラウドスピーカ固有のゲイン係数を乗算した後、モノフォニックサウンド信号がラウドスピーカのサブセットに適用される。ゲイン係数は、ラウドスピーカのセットアップと指定されたパン方向の情報を使用して計算される。低ビットレートバージョンでは、入力信号は、メタデータによって暗示された方向に単純にパンされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンと同じ効果が得られるが、非線形アーティファクトが発生する可能性は低くなる。
【0047】
拡散音の合成の目的は、聴取者を囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは、入力信号を非相関化し、すべてのラウドスピーカから再生することによって再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号はすでにある程度の一貫性がなく、穏やかに無相関化する必要がある。
【0048】
空間メタデータとも呼ばれるDirACパラメータは、拡散度と方向のタプルで構成され、球面座標では方位角と仰角の2つの角度で表される。解析段階と合成段階の両方がデコーダ側で実行される場合、DirACパラメータの時間-周波数分解能は、DirAC分析および合成に使用されるフィルタバンクと同じになるように、すなわち、音声信号のフィルタバンク表現のタイムスロットおよび周波数ビンごとに異なるパラメータセットを選択できる。
【0049】
DirACパラダイムを空間音声コーディングや電話会議のシナリオで使用できるようにするために、メタデータのサイズを縮小する作業がいくつか行われた[Hirvonen2009]。
【0050】
[WO2019068638]では、DirACに基づくユニバーサルな空間音声コーディングシステムが紹介された。Bフォーマット(一次アンビソニックスフォーマット)入力用に設計された従来のDirACとは対照的に、このシステムは、1次以上のアンビソニックス、マルチチャネル、またはオブジェクトベースの音声入力を受け入れることができ、混合タイプの入力信号も可能にする。すべての信号タイプは、個別にまたは組み合わせて効率的に符号化および送信される。前者はレンダラ(デコーダ側)で異なる表現を組み合わせるが、後者はDirAC領域の異なる音声表現のエンコーダ側の組み合わせを使用する。
【0051】
DirACフレームワークとの互換性
本実施形態は、[WO2019068638]で提示されている任意の入力タイプの統一フレームワークに基づいており、([WO2020249815]がマルチチャネルコンテンツに対して行っていることと同様に)オブジェクト入力にDirACパラメータ(方向と拡散性)を効率的に適用できないという問題を解消することを目的としている。実際、拡散パラメータはまったく必要ないが、時間/周波数単位ごとに単一の方向キューでは、高品質のオブジェクトコンテンツを再現するには不十分であることがわかった。したがって、この実施形態は、時間/周波数単位ごとに複数の方向キューを使用することを提案し、したがって、オブジェクト入力の場合に従来のDirACパラメータを置き換える適合パラメータセットを導入する。
【0052】
低ビットレートの柔軟なシステム
聴取者の観点からシーンベースの表現を使用するDirACとは対照的に、SAOCおよびSAOC-3Dは、チャネルおよびオブジェクトベースのコンテンツ用に設計されており、パラメータはチャネル/オブジェクト間の関係を記述する。オブジェクト入力にシーンベースの表現を使用し、DirACレンダラと互換性を持たせると同時に、効率的な表現と高品質の再現を保証するには、複数の方向キューをシグナリングできるように、適合したパラメータセットが必要である。
【0053】
この実施形態の重要な目標は、オブジェクト入力を低ビットレートで、また増加するオブジェクト数に対する良好なスケーラビリティと共に、効率的にコーディングする方法を見つけることであった。各オブジェクト信号を個別にコーディングしても、このようなスケーラビリティは提供できない。オブジェクトを追加するたびに、全体のビットレートが大幅に上昇する。オブジェクトの数が増えて許容ビットレートを超える場合、これは、出力信号を直接著しく劣化させる。この劣化は、この実施形態を支持するさらに別の議論である。
【先行技術文献】
【特許文献】
【0054】
【特許文献1】WO2019068638
【特許文献2】WO2020249815
【発明の概要】
【発明が解決しようとする課題】
【0055】
本発明の目的は、複数の音声オブジェクトをエンコードする、またはエンコードされた音声信号をデコードする改良された概念を提供することである。
【0056】
この目的は、請求項1のエンコード装置、請求項18のデコーダ、請求項28のエンコード方法、請求項29のデコード方法、請求項30のコンピュータプログラム、または請求項31のエンコードされた音声信号によって達成される。
【課題を解決するための手段】
【0057】
本発明の一態様では、本発明は、複数の周波数ビンのうちの1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトが定義され、これらの少なくとも2つの関連するオブジェクトに関連するパラメータデータがエンコーダ側に含まれ、デコーダ側で使用されて、高品質で効率的な音声エンコーディング/デコーディングコンセプトが得られる、という発見に基づいている。
【0058】
本発明のさらなる態様によれば、本発明は、関連付けられた方向情報を持つ各オブジェクトがオブジェクト全体に対して有効であるように、各オブジェクトに関連付けられた方向情報に適応した特定のダウンミックスが実行される、つまり、時間枠内のすべての周波数ビンに対して、このオブジェクトを多数のトランスポートチャネルにダウンミックスするために使用される、という発見に基づいている。方向情報の使用は、例えば、特定の調整可能な特性を有する仮想マイク信号としてトランスポートチャネルを生成することと同等である。
【0059】
デコーダ側では、特定の実施形態において、非相関器によって導入されたアーティファクトに悩まされない高品質の共分散合成に特に適している共分散合成に依存する特定の合成が実行される。他の実施形態では、音声品質を改善し、および/または共分散合成内で使用される混合行列の計算に必要な計算量を削減するために、標準共分散合成に関連する特定の改善に依存する高度な共分散合成が使用される。
【0060】
しかし、送信された選択情報に基づいて時間/周波数ビン内の個々の寄与度を明示的に決定することによって音声レンダリングが行われる、より古典的な合成でも、音声品質は、従来技術のオブジェクトコーディングアプローチまたはチャネルダウンミックスアプローチよりも優れている。そのような状況で、各時間/周波数ビンにはオブジェクト識別情報があり、音声レンダリングを実行するとき、つまり各オブジェクトの方向寄与度を考慮するとき、このオブジェクト識別は、時間/周波数ビンごとの個々の出力チャネルのゲイン値を決定するために、このオブジェクト情報に関連付けられた方向を検索するために使用される。したがって、時間/周波数ビンに関連するオブジェクトが1つしかない場合、次に、時間/周波数ビンごとのこの単一のオブジェクトのゲイン値のみが、オブジェクトIDと関連するオブジェクトの方向情報の「コードブック」に基づいて決定される。
【0061】
ただし、時間/周波数ビンに複数の関連オブジェクトがある場合、次に、関連する各オブジェクトのゲイン値が計算され、トランスポートチャネルの対応する時間/周波数ビンが、ステレオフォーマット、5.1フォーマットなどである特定のチャネル形式など、ユーザが提供する出力形式によって管理される対応する出力チャネルに分配される。ゲイン値が共分散合成の目的で使用されるかどうか、つまり、トランスポートチャネルを出力チャネルに混合するための混合行列を適用する目的で使用されるかどうか、または、ゲイン値を1つまたは複数のトランスポートチャネルの対応する時間/周波数ビンで乗算することにより、時間/周波数ビン内の各オブジェクトの個々の寄与度を明示的に決定し、次に、おそらく、拡散信号成分の追加によって強化された対応する時間/周波数ビンの各出力チャネルの寄与度を合計するためにゲイン値が使用されるかどうかに関係なく、それにもかかわらず、周波数ビンごとに1つまたは複数の関連オブジェクトを決定することによって柔軟性が与えられるため、出力音声品質は向上する。
【0062】
この決定は、非常に効率的に可能である。なぜなら、時間/周波数ビンの1つまたは複数のオブジェクトIDのみを、これも非常に効率的に可能であるオブジェクトごとの方向情報と一緒にエンコードしデコーダに送信すればよいからである。これは、1つのフレームについて、すべての周波数ビンに対して単一の方向情報しかないという事実によるものである。
【0063】
したがって、好ましくは強化された共分散合成を使用して合成が行われるか、各オブジェクトごとの明示的なトランスポートチャネルの寄与度の組み合わせを使用して合成が行われるかに関係なく、仮想マイク信号としてトランスポートチャネルの生成を反映しているダウンミックスの重みに依存する特定のオブジェクト方向依存ダウンミックスを使用することによって好ましくは強化される、高効率で高品質のオブジェクトダウンミックスが得られる。
【0064】
時間/周波数ビンごとの2つ以上の関連オブジェクトに関連する態様は、好ましくは、オブジェクトの特定の方向依存ダウンミックスをトランスポートチャネルに実行する態様と組み合わせることができる。ただし、両方の態様を互いに独立して適用することもできる。さらに、特定の実施形態では、時間/周波数ビンごとに2つ以上の関連オブジェクトとの共分散合成が実行されるが、高度な共分散合成と高度なトランスポートチャネルから出力チャネルへのアップミックスも、時間/周波数ビンごとに1つのオブジェクトIDのみを送信することで実行できる。
【0065】
さらに、時間/周波数ビンごとに単一または複数の関連オブジェクトがあるかどうかに関係なく、アップミキシングは、標準もしくは強化された共分散合成内の混合行列の計算によっても実行でき、または、アップミキシングは、方向「コードブック」から特定の方向情報を取得して、対応する寄与度のゲイン値を決定するために使用されるオブジェクト識別に基づいて、時間/周波数ビンの寄与度を個別に決定して実行できる。これらは、時間/周波数ビンごとに2つ以上の関連オブジェクトがある場合に、時間/周波数ビンごとの完全な寄与度を得るために合計される。この合計ステップの出力は、混合行列適用の出力と同等であり、対応する出力フォーマットの時間領域出力チャネル信号を生成するために、最終的なフィルタバンク処理が実行される。
【0066】
本発明の好ましい実施形態は、添付の図面に関して以下に説明される。
【図面の簡単な説明】
【0067】
図1a】時間/周波数ビンごとに少なくとも2つの関連オブジェクトを有するという第1の態様による音声エンコーダの実装を示す図である。
図1b】方向依存オブジェクトのダウンミックスを有する第2の態様によるエンコーダの実装を示す図である。
図2】第2の態様によるエンコーダの好ましい実装を示す図である。
図3】第1の態様によるエンコーダの好ましい実装を示す図である。
図4】第1および第2の態様によるデコーダの好ましい実装を示す図である。
図5図4の共分散合成処理の好ましい実装を示す図である。
図6a】第1の態様によるデコーダの実装を示す図である。
図6b】第2の態様によるデコーダを示す図である。
図7a】第1の態様によるパラメータ情報の決定を示すフローチャートである。
図7b】パラメトリックデータのさらなる決定の好ましい実装を示す図である。
図8】(a)高分解能フィルタバンクの時間/周波数表現を示す図である。 (b)第1および第2の態様の好ましい実装によるフレームJの関連サイド情報の送信を示す図である。 (c)エンコードされた音声信号に含まれる「方向コードブック」を示す図である。
図9a】第2の態様による好ましいエンコード方法を示す図である。
図9b】第2の態様による静的ダウンミックスの実装を示す図である。
図9c】第2の態様による動的ダウンミックスの実装を示す図である。
図9d】第2の態様のさらなる実施形態を示す図である。
図10a】第1の態様のデコーダ側の好ましい実装のためのフローチャートを示す図である。
図10b】各出力チャネルごとの寄与度の合計を有する実施形態による、図10aの出力チャネル計算の好ましい実装を示す図である。
図10c】複数のオブジェクトに対する第1の態様に従って電力値を決定する好ましい方法を示す図である。
図10d】混合行列の計算および適用に依存する共分散合成を使用する、図10aの出力チャネルの計算の実施形態を示す図である。
図11】時間/周波数ビンの混合行列の高度な計算に関するいくつかの実施形態を示す図である。
図12a】従来技術のDirACエンコーダを示す図である。
図12b】従来技術のDirACデコーダを示す図である。
【発明を実施するための形態】
【0068】
図1aは、入力において、そのままの音声オブジェクトおよび/または音声オブジェクトのメタデータを受け取る、複数の音声オブジェクトをエンコードするための装置を示す。エンコーダは、時間/周波数ビンの少なくとも2つの関連音声オブジェクトにパラメータデータを提供するオブジェクトパラメータ計算器100を備え、このデータは出力インターフェース200に転送される。特に、オブジェクトパラメータ計算器は、時間枠に関連する複数の周波数ビンのうちの1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算し、ここで、具体的には、少なくとも2つの関連する音声オブジェクトの数は、複数の音声オブジェクトの総数よりも少なくなる。したがって、オブジェクトパラメータ計算器100は、実際に選択を実行し、すべてのオブジェクトが関連していると単に示すわけではない。好ましい実施形態では、選択は関連性によって行われ、関連性は、振幅、電力、ラウドネス、または振幅を1とは異なる、好ましくは1より大きい電力に上げることによって得られる別の測定値などの振幅関連測定値によって決定される。次に、特定の数の関連するオブジェクトが時間/周波数ビンに使用できる場合、最も関連性の高い特性を持つオブジェクト、つまり、すべてのオブジェクトの中で最大の電力を持つオブジェクトが選択され、これらの選択されたオブジェクトに関するデータがパラメータデータに含まれる。
【0069】
出力インターフェース200は、1つまたは複数の周波数ビンの少なくとも2つの関連音声オブジェクトのパラメータデータに関する情報を含むエンコードされた音声信号を出力するように構成される。実装に応じて、出力インターフェースは、オブジェクトのダウンミックス、または、オブジェクトのダウンミックスを表す1つもしくは複数のトランスポートチャネル、または、複数のオブジェクトがダウンミックスされた混合表現にある追加のパラメータもしくはオブジェクト波形データ、または別の表現にある他のオブジェクトなどの他のデータを受信して、エンコードされた音声信号に入力することができる。この状況では、オブジェクトは対応するトランスポートチャネルに直接導入または「コピー」される。
【0070】
図1bは、音声オブジェクトが、複数の音声オブジェクトに関する方向情報、つまり、オブジェクトのグループが同じ方向情報に関連付けられている場合は、オブジェクトごとに、またはオブジェクトのグループごとに1つの方向情報を示す関連オブジェクトメタデータと共に受信される第2の態様による複数の音声オブジェクトをエンコードするための装置の好ましい実施を示す。音声オブジェクトは、複数の音声オブジェクトをダウンミックスして1つまたは複数のトランスポートチャネルを取得するダウンミキサ400に入力される。さらに、1つまたは複数のトランスポートチャネルをエンコードして、出力インターフェース200に入力される1つまたは複数のエンコードされたトランスポートチャネルを取得するトランスポートチャネルエンコーダ300が提供される。特に、ダウンミキサ400は、オブジェクトメタデータを導出できる任意のデータを入力で受け取り、ダウンミキサ400によって実際に使用される方向情報を出力するオブジェクト方向情報プロバイダ110に接続される。オブジェクト方向情報プロバイダ110からダウンミックス400に転送される方向情報は、好ましくは逆量子化された方向情報、すなわちデコーダ側でその後利用可能になる同じ方向情報である。この目的のために、オブジェクト方向情報プロバイダ110は、量子化されていないオブジェクトメタデータを導出または抽出または取得し、次にオブジェクトメタデータを量子化して、好ましい実施形態では、図1bに示される「他のデータ」の中で出力インターフェース200に提供される量子化インデックスを表す量子化されたオブジェクトメタデータを導出するように構成される。さらに、オブジェクト方向情報プロバイダ110は、ブロック110からダウンミキサ400に転送される実際の方向情報を得るために、量子化されたオブジェクト方向情報を逆量子化するように構成される。
【0071】
好ましくは、出力インターフェース200は、音声オブジェクトのパラメータデータ、オブジェクト波形データ、時間/周波数ビンごとの単一または複数の関連オブジェクトの1つまたは複数の識別、および前述のように、量子化された方向データをさらに受信するように構成される。
【0072】
次に、さらなる実施形態が示されている。低ビットレートでの効率的な伝送と消費者側での高品質の再生を可能にする、音声オブジェクト信号をコーディングするためのパラメトリックアプローチが提示されている。重要な周波数帯域と時刻(時間/周波数タイル)ごとに1つの方向性キューを考慮するというDirACの原則に基づいて、入力信号の時間/周波数表現の時間/周波数タイルごとに、最も支配的なオブジェクトが決定される。これはオブジェクト入力には不十分であることが判明したため、追加の2番目に支配的なオブジェクトが時間/周波数タイルごとに決定され、これら2つのオブジェクトに基づいて電力比が計算され、考慮される時間/周波数タイルに対する2つのオブジェクトのそれぞれの影響が決定される。注: 特に入力オブジェクトの数が増加している場合、時間/周波数単位ごとに2つ以上の最も支配的なオブジェクトを考慮することも考えられる。簡単にするために、以下の説明は、ほとんどの場合、時間/周波数単位ごとに2つの支配的なオブジェクトに基づいている。
【0073】
したがって、デコーダに送信されるパラメトリックサイド情報は、以下を含む。
・ 各時間/周波数タイル(またはパラメータ帯域)の関連する(支配的な)オブジェクトのサブセットに対して計算された電力比。
・ 各時間/周波数タイル(またはパラメータ帯域)の関連オブジェクトのサブセットを表すオブジェクトインデックス。
・ オブジェクトインデックスに関連付けられ、各フレームに提供される方向情報(各時間領域フレームは複数のパラメータ帯域を含み、各パラメータ帯域は複数の時間/周波数タイルを含む)。
【0074】
方向情報は、音声オブジェクト信号に関連付けられた入力メタデータファイルを介して利用可能になる。メタデータは、例えば、フレーム単位で指定されてもよい。サイド情報とは別に、入力されたオブジェクト信号を組み合わせたダウンミックス信号もデコーダに送信される。
【0075】
レンダリング段階では、送信された方向情報(オブジェクトインデックスを介して導出)を使用して、送信されたダウンミックス信号(より一般的にはトランスポートチャネル)を適切な方向にパンする。ダウンミックス信号は、重み係数として使用される送信電力比に基づいて、関連する2つのオブジェクト方向に分配される。この処理は、デコードされたダウンミックス信号の時間/周波数表現の各時間/周波数タイルに対して実行される。
【0076】
このセクションでは、エンコーダ側の処理の概要を説明し、続いてパラメータとダウンミックスの計算について詳しく説明する。音声エンコーダは、1つまたは複数の音声オブジェクト信号を受信する。各音声オブジェクト信号には、オブジェクトプロパティを記述したメタデータファイルが関連付けられている。この実施形態では、関連付けられたメタデータファイルに記述されたオブジェクトプロパティは、1フレームが20ミリ秒に対応するフレーム単位で提供される方向情報に対応する。各フレームはフレーム番号で識別され、メタデータファイルにも含まれている。方向情報は方位角と仰角の情報として与えられ、方位角は[-180,180]度の値、仰角は[-90,90]度の値をとる。メタデータで提供されるその他のプロパティには、距離、広がり、ゲインなどがある。これらの特性は、この実施形態では考慮されていない。
【0077】
メタデータファイルで提供される情報は、実際の音声オブジェクトファイルと一緒に使用されて、デコーダに送信され、最終的な音声出力ファイルのレンダリングに使用される一連のパラメータを作成する。より具体的には、エンコーダは、所与の時間/周波数タイルごとに支配的なオブジェクトのサブセットのパラメータ、つまり電力比を推定する。支配的なオブジェクトのサブセットは、オブジェクトの方向を識別するためにも使用されるオブジェクトインデックスによって表される。これらのパラメータは、トランスポートチャネルおよび方向メタデータと共にデコーダに送信される。
【0078】
エンコーダの概要を、トランスポートチャネルが、入力オブジェクトファイルから計算されたダウンミックス信号と、入力メタデータで提供される方向情報とを含む図2に示す。トランスポートチャネルの数は常に、入力オブジェクトファイルの数よりも少なくなる。一実施形態のエンコーダでは、エンコードされた音声信号は、エンコードされたトランスポートチャネルによって表され、エンコードされたパラメトリックサイド情報は、エンコードされたオブジェクトインデックス、エンコードされた電力比、およびエンコードされた方向情報によって示される。エンコードされたトランスポートチャネルとエンコードされたパラメトリックサイド情報の両方が一緒になって、マルチプレクサ220によって出力されるビットストリームを形成する。特に、エンコーダは、入力オブジェクト音声ファイルを受信するフィルタバンク102を備える。さらに、オブジェクトメタデータファイルは、エクストラクタ方向情報ブロック110aに提供される。ブロック110aの出力は、ダウンミックス計算を実行するダウンミキサ400に方向情報を出力する量子化方向情報ブロック110bに入力される。さらに、量子化された方向情報、すなわち量子化インデックスは、ブロック110bから、必要なビットレートをさらに低減するために、好ましくはある種のエントロピーエンコードを実行するエンコード方向情報ブロック202に転送される。
【0079】
さらに、フィルタバンク102の出力は信号電力計算ブロック104に入力され、信号電力計算ブロック104の出力はオブジェクト選択ブロック106に入力され、さらに電力比計算ブロック108に入力される。電力比計算ブロック108は、電力比、すなわち選択されたオブジェクトのみの結合値を計算するために、オブジェクト選択ブロック106にも接続されている。ブロック210では、計算された電力比または結合された値が量子化され、エンコードされる。後で概説するように、1つの電力データ項目の送信を節約するために、電力比が優先される。ただし、この節約が必要ないその他の実施形態では、電力比の代わりに、ブロック104によって決定された実際の信号電力または信号電力から導出された他の値は、オブジェクトセレクタ106の選択の下で量子化器およびエンコーダに入力することができる。次に、電力比計算108は必要なく、オブジェクト選択106は、関連するパラメトリックデータ、すなわち、関連するオブジェクトの電力関連データのみが、量子化およびエンコードの目的でブロック210に入力されることを確実にする。
【0080】
図1a図2と比較すると、ブロック102、104、110a、110b、106、108は、好ましくは、図1aのオブジェクトパラメータ計算器100に含まれ、ブロック202、210、220は、好ましくは、図1aの出力インターフェースブロック200内に含まれる。
【0081】
さらに、図2のコアコーダ300は、図1bのトランスポートチャネルエンコーダ300に対応し、ダウンミックス計算ブロック400は、図1bのダウンミキサ400に対応し、図1bのオブジェクト方向情報プロバイダ110は、図2のブロック110a、110bに対応する。さらに、図1bの出力インターフェース200は、好ましくは、図1aの出力インターフェース200と同じ方法で実施され、図2のブロック202、210、220を含む。
【0082】
図3は、ダウンミックスの計算がオプションであり、入力メタデータに依存しないエンコーダの変形例を示している。この変形例では、入力音声ファイルはコアコーダに直接供給され、コアコーダはそれらからトランスポートチャネルを作成する。したがって、トランスポートチャネルの数は入力オブジェクトファイルの数に対応する。これは、入力オブジェクトの数が1または2の場合に特に興味深い。オブジェクトの数が多い場合でも、送信するデータ量を減らすためにダウンミックス信号が使用される。
【0083】
図3において、同様の参照番号は図2の同様の機能を指す。これは、図2および図3に関して有効であるだけでなく、本明細書で説明されている他のすべての図に対しても有効である。図2とは異なり、図3は方向情報なしでダウンミックス計算400を実行する。したがって、ダウンミックス計算は、例えば、既知のダウンミックス行列を使用する静的なダウンミックスにすることも、入力オブジェクト音声ファイルに含まれるオブジェクトに関連付けられた方向情報に依存しないエネルギー依存のダウンミックスにすることもできる。それにもかかわらず、方向情報はブロック110aで抽出され、ブロック110bで量子化され、量子化された値は、例えば、ビットストリームを形成するバイナリエンコードされた音声信号であるエンコードされた音声信号内にエンコードされた方向情報を有する目的で方向情報エンコーダ202に転送される。
【0084】
入力音声オブジェクトファイルの数がそれほど多くない場合、または十分な利用可能な伝送帯域幅を有する場合、ダウンミックス計算ブロック400を省いて、入力音声オブジェクトファイルが、コアエンコーダによってエンコードされたトランスポートチャネルを直接表すようにすることもできる。そのような実装では、ブロック104、104、106、108、210も必要ではない。ただし、好ましい実装では、一部のオブジェクトがトランスポートチャネルに直接導入され、他のオブジェクトが1つまたは複数のトランスポートチャネルにダウンミックスされる混合実装が得られる。このような状況では、エンコードされたトランスポートチャネル内に1つまたは複数のオブジェクトを直接持ち、図2または図3のいずれかのダウンミキサ400によって生成された1つまたは複数のトランスポートチャネルを有するビットストリームを生成するために、図3に示すすべてのブロックが必要になる。
【0085】
パラメータ計算
すべての入力オブジェクト信号を含む時間領域音声信号は、フィルタバンクを使用して時間/周波数領域に変換される。例えば、CLDFB(複合低遅延フィルタバンク)分析フィルタは、20ミリ秒のフレーム(48kHzのサンプリングレートで960サンプルに相当)を、16のタイムスロットと60の周波数帯域を持つサイズ16x60の時間/周波数タイルに変換する。時間/周波数単位ごとに、瞬時信号電力は次のように計算される。
Pi(k,n)=|Xi(k,n)|2
式中、kは周波数帯域インデックス、nはタイムスロットインデックス、iはオブジェクトインデックスを示す。各時間/周波数タイルのパラメータを送信すると、最終的なビットレートの点で非常にコストがかかるため、グループ化を使用して、削減された数の時間/周波数タイルのパラメータを計算する。例えば、16のタイムスロットを1つのタイムスロットにグループ化し、心理音響スケールに基づいて60の周波数帯域を11の帯域にグループ化できる。これにより、16x60の初期サイズが1x11に縮小される。これは、11のいわゆるパラメータバンドに対応する。瞬時の信号電力値は、グループ化に基づいて合計され、縮小された次元の信号電力が取得される。
【0086】
【数13】
【0087】
式中、Tはこの例では15に対応し、BSとBEはパラメータバンドの境界を定義する。
【0088】
パラメータを計算する最も支配的なオブジェクトのサブセットを決定するために、すべてのN入力音声オブジェクトの瞬時信号電力値が降順で並べ替えられる。この実施形態では、2つの最も支配的なオブジェクトを決定し、0からN-1の範囲の対応するオブジェクトインデックスが、送信されるパラメータの一部として格納される。さらに、2つの支配的なオブジェクト信号を相互に関連付ける電力比が計算される。
【0089】
【数14】
【0090】
または、2つのオブジェクトに限定されない、より一般的な表現では:
【0091】
【数15】
【0092】
であり、式中、この文脈では、Sは考慮される支配的なオブジェクトの数を示し、
【0093】
【数16】
【0094】
である。
【0095】
2つの支配的なオブジェクトの場合、2つのオブジェクトのそれぞれの電力比0.5は、両方のオブジェクトが対応するパラメータバンド内に等しく存在することを意味し、電力比1と0は2つのオブジェクトのいずれかが存在しないことを表す。これらの電力比は、送信されるパラメータの2番目の部分として保存される。電力比の合計は1になるため、Sの代わりにS-1の値を送信すれば十分である。
【0096】
オブジェクトインデックスとパラメータバンドごとの電力比の値に加えて、入力メタデータファイルから抽出された各オブジェクトの方向情報を送信する必要がある。情報はもともとフレーム単位で提供されるため、これはフレームごとに行われる(各フレームは11個のパラメータバンド、または説明されている例では合計16x60の時間/周波数タイルで構成される)。したがって、オブジェクトインデックスはオブジェクトの方向を間接的に表す。注:電力比の合計が1になるため、パラメータ帯域ごとに送信される電力比の数を1減らすことができる。例:2つの関連オブジェクトを考慮する場合、1つの電力比の値を送信するだけで十分である。
【0097】
方向情報と電力比の値の両方が量子化され、オブジェクトインデックスと組み合わされて、パラメトリックサイド情報が形成される。次に、このパラメトリックサイド情報がエンコードされ、エンコードされたトランスポートチャネル/ダウンミックス信号と一緒に、最終的なビットストリーム表現に混合される。出力品質と消費ビットレートとの間の適切なトレードオフは、例えば、値ごとに3ビットを使用して電力比を量子化することによって達成される。方向情報は、5度の角度分解能で提供され得、その後、方位角値ごとに7ビット、仰角値ごとに6ビットで量子化され、実際の例を示す。
【0098】
ダウンミックス計算
すべての入力音声オブジェクト信号は、1つまたは複数のトランスポートチャネルを含むダウンミックス信号に結合される。トランスポートチャネルの数は、入力オブジェクト信号の数よりも少ない。注:この実施形態では、単一のトランスポートチャネルは、入力オブジェクトが1つしかない場合にのみ発生し、これは、ダウンミックス計算がスキップされることを意味する。
【0099】
ダウンミックスが2つのトランスポートチャネルを含む場合、このステレオダウンミックスは、例えば、仮想カーディオイドマイク信号として計算される。仮想カーディオイドマイク信号は、メタデータファイル内の各フレームに提供された方向情報を適用することによって決定される(ここでは、すべての標高値がゼロであると想定されている)。
wL=0.5+0.5*cos(azimuth-pi/2)
wR=0.5+0.5*cos(azimuth-pi/2)
【0100】
ここでは、仮想カーディオイドは90°と-90°に配置されている。したがって、2つのトランスポートチャネル(左と右)のそれぞれの重みが決定され、対応する音声オブジェクト信号に適用される。
【0101】
【数17】
【0102】
この文脈では、Nは2以上の入力オブジェクトの数である。仮想カーディオイドの重みがフレームごとに更新される場合、方向情報に適応する動的ダウンミックスが採用される。もう1つの可能性は、各オブジェクトが静的な位置にあると想定される固定ダウンミックスを採用することである。この静的位置は、例えば、オブジェクトの初期方向に対応する場合があり、これにより、すべてのフレームで同じ静的仮想カーディオイドウェイトが得られる。
【0103】
ターゲットビットレートが許せば、3つ以上のトランスポートチャネルが考えられる。3つのトランスポートチャネルの場合、カーディオイドは、例えば0°、120°、および-120°で均一に配置される。4つのトランスポートチャネルを使用する場合は、4つ目のカーディオイドを上向きにするか、4つのカーディオイドを均一に水平に配置することができる。オブジェクトの配置は、オブジェクトの位置に合わせて調整することもできる。結果として得られるダウンミックス信号は、コアコーダによって処理され、エンコードされたパラメトリックサイド情報と共に、ビットストリーム表現に変換される。
【0104】
代替的に、入力オブジェクト信号は、ダウンミックス信号に結合されることなく、コアコーダに供給されてもよい。この場合、結果として得られるトランスポートチャネルの数は、入力オブジェクト信号の数に対応する。通常、合計ビットレートと相関するトランスポートチャネルの最大数が指定される。ダウンミックス信号は、入力オブジェクト信号の数がこのトランスポートチャネルの最大数を超えた場合にのみ使用される。
【0105】
図6aは、複数の音声オブジェクトのための1つまたは複数のトランスポートチャネルおよび方向情報を含む、図1aまたは図2または図3によって出力される信号などのエンコードされた音声信号をデコードするためのデコーダを示す。さらに、エンコードされた音声信号は、時間枠の1つまたは複数の周波数ビンについて、少なくとも2つの関連する音声オブジェクトのパラメータデータを含み、少なくとも2つの関連するオブジェクトの数は、複数の音声オブジェクトの総数よりも少なくなる。特に、デコーダは、時間枠内に複数の周波数ビンを有するスペクトル表現で1つまたは複数のトランスポートチャネルを提供するための入力インターフェースを備える。これは、入力インターフェースブロック600から音声レンダラブロック700に転送される信号を表す。特に、音声レンダラ700は、エンコードされた音声信号に含まれる方向情報を使用して、1つまたは複数のトランスポートチャネルを多数の音声チャネルにレンダリングするように構成され、音声チャネルの数は、好ましくは、ステレオ出力フォーマットに対して2つのチャネルまたは、3チャネル、5チャネル、5.1チャネルなどのより大きな数の出力フォーマットに対して3つ以上のチャネルである。特に、音声レンダラ700は、1つまたは複数の周波数ビンのそれぞれについて、少なくとも2つの関連する音声オブジェクトのうちの第1の音声オブジェクトに関連付けられた第1の方向情報に従って、および、少なくとも2つの関連オブジェクトのうちの第2のものに関連付けられた第2の方向情報に従って、1つまたは複数のトランスポートチャネルからの寄与度を計算するように構成される。特に、複数の音声オブジェクトに対する方向情報は、第1のオブジェクトに関連付けられた第1の方向情報と、第2のオブジェクトに関連付けられた第2の方向情報とを含む。
【0106】
図8bは、好ましい実施形態において、複数の音声オブジェクトのための方向情報810と、追加的に、812に示される特定の数のパラメータ帯域のそれぞれの電力比と、ブロック814に示される各パラメータ帯域の1つ、好ましくは2つ、またはそれ以上のオブジェクトインデックスからなるフレームに対するパラメータデータを示す。特に、複数の音声オブジェクト810の方向情報は、図8cにより詳細に示されている。図8cは、1からNまでの特定のオブジェクトIDを持つ最初の列を持つテーブルを示しており、Nは複数の音声オブジェクトの数である。さらに、各オブジェクトの方向情報を、好ましくは方位角値および仰角値として、または2次元状況の場合は方位角値のみとして持つ第2の列が提供される。これは818に示されている。したがって、図8cは、図6aの入力インターフェース600に入力されるエンコードされた音声信号に含まれる「方向コードブック」を示す。列818からの方向情報は、列816からの特定のオブジェクトIDに一意に関連付けられ、フレーム内の「全体」オブジェクト、つまりフレーム内のすべての周波数帯域に対して有効である。したがって、高分解能表現の時間/周波数タイルまたは低分解能表現の時間/パラメータ帯域内の周波数ビンの数に関係なく、単一の方向情報のみが送信され、オブジェクト識別ごとに入力インターフェースによって使用される。
【0107】
この文脈では、図8aは、図2または図3のフィルタバンク102が前述のCLDFB(Complex Low Delay Filterbank: 複合低遅延フィルタバンク)として実装される場合に、このフィルタバンクによって生成される時間/周波数表現を示す。図8bおよび図8cに関して前に説明したように方向情報が与えられるフレームの場合、フィルタバンクは、図8aの0から15までの16のタイムスロットと0から59までの60の周波数帯域とを生成する。したがって、1つのタイムスロットおよび1つの周波数帯域は、時間/周波数タイル802または804を表す。それにもかかわらず、サイド情報のビットレートを下げるために、高分解能表現を、単一の時間ビンのみが存在し、60の周波数帯域が図8bの812に示すように11のパラメータ帯域に変換される図8bに示す低分解能表現に変換することが好ましい。したがって、図10cに示されるように、高分解能表現は、タイムスロットインデックスnおよび周波数帯域インデックスkによって示され、低分解能表現は、グループ化されたタイムスロットインデックスmおよびパラメータ帯域インデックスlによって与えられる。それにもかかわらず、本明細書の文脈では、時間/周波数ビンは、図8aの高分解能時間/周波数タイル802、804、または図10cのブロック731cの入力におけるグループ化されたタイムスロットインデックスおよびパラメータバンドインデックスによって識別される低分解能時間/周波数ユニットを含み得る。
【0108】
図6aの実施形態では、音声レンダラ700は、少なくとも2つの関連音声オブジェクトの第1のものに関連付けられた第1の方向情報に従って、および少なくとも2つの関連音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、1つまたは複数の周波数ビンのそれぞれについて、1つまたは複数のトランスポートチャネルからの寄与度を計算するように構成される。図8bに示す実施形態では、ブロック814は、パラメータ帯域内の各関連オブジェクトのオブジェクトインデックスを有する、すなわち、時間周波数ビンごとに2つの寄与度が存在するように2つ以上のオブジェクトインデックスを有する。
【0109】
図10aに関して後で概説するように、寄与度の計算は、各関連オブジェクトのゲイン値が決定され、混合行列の計算に使用される混合行列を介して間接的に行うことができる。代替的に、図10bに示すように、ゲイン値を使用して寄与度を再度明示的に計算し、明示的に計算された寄与度を特定の時間/周波数ビンの各出力チャネルごとに合計することができる。したがって、寄与度が明示的に計算されるか暗黙的に計算されるかに関係なく、それにもかかわらず、音声レンダラは、方向情報を使用して、1つまたは複数のトランスポートチャネルを多数の音声チャネルにレンダリングする。そのため、1つまたは複数の周波数ビンのそれぞれについて、少なくとも2つの関連する音声オブジェクトの第1のものに関連付けられた第1の方向情報に従って、および第2の方向情報に従って、1つまたは複数のトランスポートチャネルからの寄与度が少なくとも2つの関連する音声オブジェクトの2番目のものに関連付けられた情報は、音声チャネルの数に含まれる。
【0110】
図6bは、1つまたは複数のトランスポートチャネルおよび複数の音声オブジェクトのための方向情報と、第2の態様による、時間枠の1つまたは複数の周波数ビンについて、音声オブジェクトのパラメータデータとを含むエンコードされた音声信号をデコードするためのデコーダを示す。ここでも、デコーダは、エンコードされた音声信号を受信する入力インターフェース600を備え、デコーダは、方向情報を使用して、1つまたは複数のトランスポートチャネルを多数の音声チャネルにレンダリングするための音声レンダラ700を備える。特に、音声レンダラは、複数の周波数ビンの各周波数ビンごとに1つまたは複数の音声オブジェクトからの直接応答情報と、周波数ビン内の関連する1つまたは複数の音声オブジェクトに関連する方向情報とを計算するように構成される。この直接応答情報は、好ましくは、共分散合成または高度な共分散合成に使用されるか、1つまたは複数のトランスポートチャネルからの寄与度の明示的な計算に使用されるゲイン値を含む。
【0111】
好ましくは、音声レンダラは、時間/周波数帯域内の1つまたは複数の関連する音声オブジェクトの直接応答情報を使用し、音声チャネルの数に関する情報を使用して、共分散合成情報を計算するように構成される。さらに、好ましくは混合行列である共分散合成情報は、音声チャネルの数を取得するために、1つまたは複数のトランスポートチャネルに適用される。さらなる実装では、直接応答情報は、1つまたは複数の音声オブジェクトごとの直接応答ベクトルであり、共分散合成情報は共分散合成行列であり、音声レンダラは、共分散合成情報を適用する際に周波数ビンごとに行列演算を実行するように構成される。
【0112】
さらに、音声レンダラ700は、直接応答情報の計算において、1つまたは複数の音声オブジェクトの直接応答ベクトルを導出し、1つまたは複数の音声オブジェクトについて、各直接応答ベクトルから共分散行列を計算するように構成される。さらに、共分散合成情報の計算では、ターゲット共分散行列が計算される。ただし、ターゲット共分散行列の代わりに、ターゲット共分散行列の関連情報、つまり、1つまたは複数の最も支配的なオブジェクトの直接応答行列またはベクトルと、電力比の適用によって決定されるEとして示される直接電力の対角行列を使用できる。
【0113】
したがって、ターゲット共分散情報は必ずしも明示的なターゲット共分散行列である必要はないが、1つの音声オブジェクトの共分散行列、または時間/周波数ビン内の複数の音声オブジェクトの共変行列から、時間/周波数ビン内のそれぞれの1つまたは複数の音声オブジェクトの電力情報と、1つまたは複数の時間/周波数ビンの1つまたは複数のトランスポートチャネルから導出された電力情報から導出される。
【0114】
ビットストリーム表現はデコーダによって読み取られ、エンコードされたトランスポートチャネルとそこに含まれるエンコードされたパラメトリックサイド情報は、さらなる処理に使用できるようになる。パラメトリックサイド情報には、次のものが含まれる。
・ 量子化された方位角と仰角の値としての方向情報(フレームごと)
・ 関連するオブジェクトのサブセットを示すオブジェクトインデックス(各パラメータバンド)
・ 関連するオブジェクトを相互に関連付ける量子化された電力比(パラメータバンドごと)
【0115】
すべての処理はフレームごとに行われ、各フレームは1つまたは複数のサブフレームで構成される。フレームは、例えば4つのサブフレームで構成される場合があり、この場合、1つのサブフレームの持続時間は5ミリ秒になる。図4は、デコーダの簡略化された概要を示している。
【0116】
図4は、第1および第2の態様を実装する音声デコーダを示している。図6aおよび図6bに示される入力インターフェース600は、デマルチプレクサ602、コアデコーダ604、オブジェクトインデックス608をデコードするためのデコーダ、電力比612をデコードおよび逆量子化するためのデコーダ、および612で示される方向情報をデコードおよび逆量子化するためのデコーダを備える。さらに、入力インターフェースは、時間/周波数表現でトランスポートチャネルを提供するためのフィルタバンク606を備える。
【0117】
音声レンダラ700は、チャネル出力形式の音声チャネル数を含む出力音声ファイルを最終的に提供するため、直接応答計算器704、ユーザインターフェースによって受信された出力構成によって制御されるプロトタイプ行列プロバイダ702、例えば共分散合成ブロック706、および合成フィルタバンク708を備える。
【0118】
したがって、アイテム602、604、606、608、610、612は、図6aおよび図6bの入力インターフェースに含まれることが好ましく、図4のアイテム702、704、706、708は、参照番号700で示される図6aまたは図6bの音声レンダラの一部である。
【0119】
エンコードされたパラメトリックサイド情報がデコードされ、量子化された電力比の値、量子化された方位角と仰角の値(方向情報)、およびオブジェクトインデックスが再取得される。送信されない1つの電力比の値は、すべての電力比の値の合計が1になることを利用して得られる。それらの分解能(l,m)は、エンコーダ側で使用される時間/周波数タイルグループに対応する。より細かい時間/周波数分解能(k,n)が使用されるさらなる処理ステップでは、パラメータバンドのパラメータは、(l,m)→(k,n)のような拡張に対応して、このパラメータバンドに含まれるすべての時間/周波数タイルに対して有効である。
【0120】
エンコードされたトランスポートチャネルは、コアデコーダによってデコードされる。フィルタバンクを使用して(エンコーダで採用されているものと一致する)、このようにデコードされた音声信号の各フレームは、その分解能が通常、パラメトリックサイド情報に使用される分解能よりも細かい(ただし、少なくとも等しい)時間/周波数表現に変換される。
【0121】
出力信号のレンダリング/合成
以下の説明は、音声信号の1フレームに適用される。^Tは転置演算子を示す。
【0122】
デコードされたトランスポートチャネルx=x(k,n)=[X1 (k,n),X2 (k,n)]T、つまり、時間-周波数表現の音声信号(この場合は2つのトランスポートチャネルで構成される)、およびパラメトリックサイド情報、を使用して、各サブフレーム(または計算の複雑さを軽減するためのフレーム)の混合行列Mは、いくつかの出力チャネル(例えば、5.1、7.1、7.1+4など)を含む時間-周波数出力信号y=y(k,n)=[Y1 (k,n),Y2 (k,n),Y3 (k,n),…]Tを合成するために導出される。
【0123】
・ すべての(入力)オブジェクトについて、送信されたオブジェクトの方向を使用して、いわゆる直接応答値が決定され、出力チャネルに使用されるパニングゲインが記述される。これらの直接応答値は、ターゲットレイアウト、つまりラウドスピーカの数と位置(出力構成の一部として提供される)に固有のものである。パニング方法の例には、ベクトルベースの振幅パニング(VBAP)[Pulkki1997]やエッジフェージング振幅パニング(EFAP)[Borss2014]などがある。各オブジェクトには、それに関連付けられた直接応答値dri(ラウドスピーカと同じ数の要素を含む)のベクトルがある。これらのベクトルはフレームごとに1回計算される。注:オブジェクトの位置がラウドスピーカの位置に対応する場合、ベクトルにはこのラウドスピーカの値1が含まれ、他のすべての値は0である。オブジェクトが2つ(または3つ)のラウドスピーカの間にある場合、対応するゼロ以外のベクトル要素の数は2(または3)である。
【0124】
・ 実際の合成ステップ(この実施形態では共分散合成[Vilkamo2013])は、次のサブステップを含む(視覚化については図5を参照)。
〇 パラメータバンドごとに、このパラメータバンドにグループ化された時間/周波数タイル内の入力オブジェクトの中で支配的なオブジェクトのサブセットを記述するオブジェクトインデックスを使用して、さらなる処理に必要なベクトルdriのサブセットを抽出する。例えば、2つの関連オブジェクトのみが考慮されるため、これら2つの関連オブジェクトに関連付けられた2つのベクトルdriが必要である。
〇 次に、直接応答値driから、出力チャネルごとの次元出力チャネルの共分散行列Ciが、関連するオブジェクトごとに計算される。
Ci=dri*dri T
〇 時間/周波数タイル(パラメータ帯域内)ごとに、音声信号電力P(k,n)が決定される。2つのトランスポートチャネルの場合、第1のチャネルの信号電力が第2のチャネルの信号電力に加算される。この信号電力に、各電力比の値が乗算され、関連する/支配的なオブジェクトiごとに1つの直接電力値が得られる。
DPi(k,n)=PRi(k,n)*P(k,n)
〇 各周波数帯域kについて、出力チャネルごとのサイズの出力チャネルの最終的なターゲット共分散行列CYは、(サブ)フレーム内のすべてのスロットnを合計し、すべての関連オブジェクトを合計することによって取得される。
【0125】
【数18】
【0126】
図5は、図4のブロック706で実行される共分散合成ステップの詳細な概要を示している。特に、図5の実施形態は、信号電力計算ブロック721、直接電力計算ブロック722、共分散行列計算ブロック73、ターゲット共分散行列計算ブロック724、入力共分散行列計算ブロック726、混合行列計算ブロック725、および、図5に関して、図4のフィルタバンクブロック708をさらに含むブロック727の出力信号が好ましくは時間領域出力信号に対応するように、レンダリングブロック727を含む。ただし、ブロック708が図5のレンダリングブロックに含まれない場合、結果は、対応する音声チャネルのスペクトル領域表現である。
【0127】
(以下のステップは、最先端の[Vilkamo2013]の一部であり、明確にするために追加されている。)
〇 各(サブ)フレームおよび各周波数帯域に対して、トランスポートチャネルごとのサイズの入力共分散行列Cx=xxTは、デコードされた音声信号から計算される。任意選択で、主対角のエントリのみを使用できる。この場合、他のゼロ以外のエントリはゼロに設定される。
〇 トランスポートチャネルごとのサイズの出力チャネルのプロトタイプ行列が定義され、トランスポートチャネルの出力チャネル(出力構成の一部として提供される)へのマッピングが記述される。出力チャネルの数は、ターゲット出力形式(例:ターゲットラウドスピーカのレイアウト)によって与えられる。このプロトタイプ行列は静的であるか、フレームごとに変化し得る。例えば、単一のトランスポートチャネルのみが送信された場合、このトランスポートチャネルは各出力チャネルにマッピングされる。2つのトランスポートチャネルが送信された場合、左(第1)のチャネルは、(+0°、+180°)内の位置にあるすべての出力チャネル、つまり「左」チャネルにマッピングされる。右(第2)のチャネルは、(-0°、-180°)内の位置にあるすべての出力チャネル、つまり「右」チャネルに対応してマッピングされる。(注:0°は聴取者の前の位置を表し、正の角度は聴取者の左側の位置を表し、負の角度は聴取者の右側の位置を表す。別の規則が採用されている場合は、それに応じて角度の符号を調整する必要がある)。
〇 入力共分散行列Cx、ターゲット共分散行列CY、およびプロトタイプ行列を使用して、各(サブ)フレームと各周波数帯域に対して混合行列が計算される[Vilkamo2013]。例えば、(サブ)フレームごとに60の混合行列が得られる。
〇 混合行列は、(サブ)フレーム間で(例えば線形に)補間され、時間的な平滑化に対応する。
〇 最後に、出力チャネルyは、各トランスポートチャネルごとの出力チャネルの最終的な混合行列Mのセットを、デコードされたトランスポートチャネルxの時間/周波数表現の対応する帯域に乗算することによって、帯域ごとに合成される。
y=Mx
[Vilkamo2013]で説明されているように、残差信号rを使用しないことに注意されたい。
【0128】
・ 出力信号yは、フィルタバンクを使用して時間領域表現y(t)に変換される。
【0129】
最適化共分散合成
入力共分散行列Cxとターゲット共分散行列CYが本実施形態でどのように計算されるかにより、[Vilkamo2013]の共分散合成を使用した最適な混合行列計算の特定の最適化を達成することができ、混合行列計算の計算量を大幅に削減できる。このセクションでは、アダマール演算子○は行列の要素単位の演算を表すことに注意されたい。つまり、行列の乗算などの規則に従う代わりに、それぞれの演算が要素ごとに実行される。この演算子は、対応する操作が行列全体ではなく、各要素に対して個別に実行されることを示している。行列AとBの乗算は、例えば、行列の乗算AB=Cには対応せず、要素単位の演算a_ij * b_ij=c_ijに対応する。
【0130】
SVD(.)は特異値分解を表す。[Vilkamo2013]のアルゴリズムは、Matlab関数(リスト1)として提示されており、次のとおりである(先行技術)。
【0131】
【表1A】
【0132】
【表1B】
【0133】
前のセクションで述べたように、Cxの主要な対角要素のみがオプションで使用され、他のすべてのエントリはゼロに設定される。この場合、Cxは対角行列であり、有効な分解は[Vilkamo2013]の式(3)を満たす。
Kx=Cx ○1/2
従来技術のアルゴリズムの3行目からのSVDはもはや必要ない。
【0134】
前のセクションの直接応答driと直接電力(または直接エネルギー)らターゲット共分散を生成する式を考慮すると、
【0135】
【数19】
【0136】
最後の式は次のように並べ替えて書くことができる。
【0137】
【数20】
【0138】
今定義すると
【0139】
【数21】
【0140】
であり、したがって、
【0141】
【数22】
【0142】
が得られる。
k個の最も支配的なオブジェクトに対して直接応答行列R=[dr1…drk]に直接応答を配置し、ei,i=Ei,CYは次のようにも表現できる。
CY=RERH
そして、[Vilkamo2013]の式(3)を満たすCYの有効な分解は、次の式で与えられる。
Cy=RE○1/2
【0143】
したがって、従来技術のアルゴリズムのライン1からのSVDはもはや必要ない。
【0144】
これは、本実施形態内の共分散合成のための最適化されたアルゴリズムにつながり、これはまた、常にエネルギー補償オプションを使用し、したがって残差ターゲット共分散Crを必要としないことも考慮に入れる。
【0145】
【表2A】
【0146】
【表2B】
【0147】
従来技術のアルゴリズムと提案されたアルゴリズムを注意深く比較すると、前者はそれぞれサイズがm×m、n×n、m×nの行列の3つのSVDを必要とすることがわかり、mはダウンミックスチャネルの数であり、nはオブジェクトがレンダリングされる出力チャネルの数である。
【0148】
提案されたアルゴリズムは、サイズがm×kの行列のSVDを1つだけ必要とし、kは支配的なオブジェクトの数である。さらに、kは通常nよりもはるかに小さいため、この行列は、従来技術のアルゴリズムの対応する行列よりも小さくなる。
【0149】
標準的なSVD実装の複雑さは、m×n行列の場合、おおよそO(c1m2n+c2n3)であり[Golub2013]、c1とc2は、使用されるアルゴリズムに依存する定数である。したがって、従来技術のアルゴリズムと比較して、提案されたアルゴリズムの計算の複雑さの大幅な減少が達成される。
【0150】
また、第1の態様のエンコーダ側に関連する好ましい実施形態は、図7a図7bに関して論じられる。さらに、第2の態様のエンコーダ側の実装の好ましい実装が、図9aから図9dに関して議論される。
【0151】
図7aは、図1aのオブジェクトパラメータ計算器100の好ましい実施を示す。ブロック120において、音声オブジェクトはスペクトル表現に変換される。これは、図2または図3のフィルタバンク102によって実施される。次に、ブロック122において、選択情報は、例えば、図2または図3のブロック104に示されるように計算される。この目的のために、振幅自体、電力、エネルギー、または振幅を1とは異なるべき乗にすることによって得られるその他の振幅関連の尺度など、振幅関連の尺度を使用できる。ブロック122の結果は、対応する時間/周波数ビン内の各オブジェクトの選択情報のセットである。次に、ブロック124で、時間/周波数ビンごとのオブジェクトIDが導出される。第1の態様では、時間/周波数ビンごとに2つ以上のオブジェクトIDが導出される。第2の態様によれば、時間/周波数ビンごとのオブジェクトIDの数は、ブロック122によって提供される情報の中でブロック124において最も重要または最も強い、または最も関連性の高いオブジェクトが識別されるように、単一のオブジェクトIDのみであってもよい。ブロック124は、パラメータデータに関する情報を出力し、最も関連性の高い1つまたは複数のオブジェクトの単一または複数のインデックスを含む。
【0152】
時間/周波数ビンごとに2つ以上の関連するオブジェクトがある場合、ブロック126の機能は、時間/周波数ビン内のオブジェクトを特徴付ける振幅関連測定値を計算するのに役立つ。この振幅関連測定値は、ブロック122で選択情報に対して計算されたものと同じであってもよく、または、好ましくは、ブロック122とブロック126との間の破線によって示されるように、ブロック102によってすでに計算された情報を使用して、結合された値が計算され、次に、振幅関連の測定値または1つまたは複数の結合値がブロック126で計算され、追加のパラメトリックサイド情報として、サイド情報内のエンコードされた振幅関連またはエンコードされた結合値を取得するため、量子化器およびエンコーダブロック212に転送される。図2または図3の実施形態では、これらは「エンコードされたオブジェクトインデックス」と共にビットストリームに含まれる「エンコードされた電力比」である。周波数ビンごとに1つのオブジェクトIDしか持たない場合、電力比の計算と量子化エンコードは不要であり、デコーダ側のレンダリングを実行するには、時間周波数ビン内の最も関連性の高いオブジェクトのインデックスで十分である。
【0153】
図7bは、図7bの選択情報102の計算の好ましい実施を示す。ブロック123に示されるように、信号電力は、選択情報として各オブジェクトおよび各時間/周波数ビンについて計算される。次に、図7aのブロック124の好ましい実施例を示すブロック125において、最高電力を有する単一または好ましくは2つ以上のオブジェクトのオブジェクトIDが抽出され、出力される。なお、該当する対象が複数ある場合は、ブロック126の好ましい実装形態として、ブロック127に示されるように電力比が計算され、電力比は、ブロック125によって発見された対応するオブジェクトIDを有するすべての抽出されたオブジェクトの電力に関連する抽出されたオブジェクトIDに対して計算される。この手順は、時間/周波数ビンのオブジェクト数よりも1つ少ない組み合わせ値のみを送信する必要があるため、この実施形態では、すべてのオブジェクトの電力比を合計して1にならなければならないことを示す、デコーダに知られているルールが存在するため、有利である。好ましくは、図7aのブロック120、122、124、126および/または図7bの123、125、127の機能は、図1aのオブジェクトパラメータ計算器100によって実装され、図7aのブロック212の機能は、図1aの出力インターフェース200によって実施される。
【0154】
したがって、図1bに示される第2の態様に従ってエンコードするための装置は、いくつかの実施形態に関してより詳細に説明される。ステップ110aにおいて、方向情報は、例えば、図12aに関して示されるように、入力信号から、またはメタデータ部分またはメタデータファイルに含まれるメタデータ情報を読み取るかまたは解析することによって抽出される。ステップ110bでは、フレームごとの方向情報および音声オブジェクトが量子化され、フレームごとのオブジェクトごとの量子化インデックスが、エンコーダまたは図1bの出力インターフェース200などの出力インターフェースに転送される。ステップ110cでは、方向量子化インデックスが逆量子化され、特定の実装ではブロック110bによって直接出力することもできる逆量子化された値を得る。次に、逆量子化された方向インデックスに基づいて、ブロック422は、特定の仮想マイク設定に基づいて、各トランスポートチャネルおよび各オブジェクトの重みを計算する。この仮想マイク設定は、同じ位置に配置された異なる向きを有する2つの仮想マイク信号を含んでいてもよく、または仮想聴取者位置または向きなどの基準位置または向きに対して2つの異なる位置が存在する設定であってもよい。2つの仮想マイク信号を設定すると、オブジェクトごとに2つのトランスポートチャネルの重みが生じる。
【0155】
3つのトランスポートチャネルを生成する場合、仮想マイク設定は、同じ位置に配置された異なる方向を有するマイク、または基準位置または方向に対して3つの異なる位置に配置されたマイクからの3つの仮想マイク信号を含むと見なすことができ、この向きの基準位置は、仮想聴取者の位置または向きにすることができる。
【0156】
代替的に、4つのトランスポートチャネルは、同じ位置に配置され異なる向きを有するマイクから、または基準位置または基準方向に対して4つの異なる位置に配置された4つの仮想マイク信号から4つの仮想マイク信号を生成する仮想マイク設定に基づいて生成することができ、参照位置または方向は、仮想聴取者位置または仮想聴取者方向にすることができる。
【0157】
さらに、各オブジェクトおよび各トランスポートチャネルの重みwLおよびwRを計算する目的で、2つのチャネルの例の場合、仮想マイク信号は、仮想一次マイク、仮想カーディオイドマイクまたは仮想の8の字型マイクまたはデポマイク、双方向マイク、仮想指向性マイク、仮想サブカーディオイドマイク、仮想単一指向性マイク、仮想ハイパーカーディオイドマイク、または仮想無指向性マイクから派生したものから派生した信号である。
【0158】
この文脈では、重みを計算する目的で、実際のマイクの配置は必要ないことに注意されたい。代わりに、仮想マイクの設定、つまり仮想マイクの配置と仮想マイクの特性に応じて、重みの計算規則が変わる。
【0159】
図9aのブロック404では、重みがオブジェクトに適用され、オブジェクトごとに、重みが0ではない場合に特定のトランスポートチャネルに対するオブジェクトの寄与度が得られる。したがって、ブロック404は、オブジェクト信号を入力として受け取る。次いで、ブロック406において、例えば、第1のトランスポートチャネルに対するオブジェクトからの寄与度が一緒に加算され、第2のトランスポートチャネルに対するオブジェクトの寄与度が一緒に加算されるように、各トランスポートチャネルごとに寄与度が合計される。ブロック406に示されるように、ブロック406の出力は、例えば時間領域におけるトランスポートチャネルである。
【0160】
好ましくは、ブロック404に入力されるオブジェクト信号は、全帯域情報を有する時間領域オブジェクト信号であり、ブロック404における適用およびブロック406における合計は、時間領域で実行される。ただし、言い換えると、これらのステップはスペクトル領域でも実行できる。
【0161】
図9bは、静的ダウンミックスが実装されるさらなる実施形態を示す。この目的のために、ブロック130で第1のフレームの方向情報が抽出され、ブロック403aに示されるように、第1のフレームに応じて重みが計算される。次に、静的ダウンミックスを実装するために、重みは、ブロック408に示されている他のフレームの場合のままにされる。
【0162】
図9cは、動的ダウンミックスが計算される代替実装を示している。この目的のために、ブロック132は各フレームの方向情報を抽出し、ブロック403bに示されるように各フレームの重みが更新される。次に、ブロック405で、更新された重みがフレームに適用され、フレームごとに変化する動的ダウンミックスが実装される。図9bおよび図9cの極端なケースの間の他の実装も同様に有用であり、方向情報に応じてダウンミックスする目的で、アンテナ特性が時々変化しすぎないように、例えば、重みは2番目と3番目ごとまたはn番目のフレームごとにのみ更新され、および/または経時的な重みの平滑化が実行される。図9dは、図1bのオブジェクト方向情報プロバイダ110によって制御されるダウンミキサ400の別の実装を示す。ブロック410では、ダウンミキサは、フレーム内のすべてのオブジェクトの方向情報を分析するように構成され、ブロック112では、ステレオの例の重みwLおよびwRを計算する目的で、マイクが分析結果に沿って配置される。マイクの配置は、マイクの位置および/またはマイクの指向性を指す。ブロック414では、マイクは、図9bのブロック408に関して議論された静的ダウンミックスと同様に、他のフレームのために残されるか、またはマイクは、図9dのブロック414の機能を取得するために、図9cのブロック405に関して議論されたことに従って更新される。ブロック412の機能に関して、第1の仮想マイクがオブジェクトの第1のグループに「見え」、第2の仮想マイクがオブジェクトの第2のグループに「見える」ように、良好な分離が得られるようにマイクを配置することができる。これは、オブジェクトの最初のグループとは異なり、好ましくは、可能な限り、一方のグループのオブジェクトが他方のグループに含まれないという点で異なる。代替的に、ブロック410の分析は、他のパラメータによって強化することができ、配置も他のパラメータによって制御することができる。
【0163】
続いて、第1または第2の態様によるデコーダの好ましい実装は、例えば、図6aおよび図6bに関して論じられ、以下の図10a図10b図10c図10dおよび図11に関して与えられる。
【0164】
ブロック613において、入力インターフェース600は、オブジェクトIDに関連付けられた個々のオブジェクト方向情報を検索するように構成される。この手順は、図4または図5のブロック612の機能に対応し、図8b、特に図8cに関して図示および説明した「フレームのコードブック」をもたらす。
【0165】
さらに、ブロック609では、時間/周波数ビンごとの1つまたは複数のオブジェクトIDが、それらのデータが低分解能パラメータ帯域または高分解能周波数タイルに関して利用可能であるかどうかに関係なく取り出される。図4のブロック608の手順に対応するブロック609の結果は、1つまたは複数の関連オブジェクトの時間/周波数ビン内の特定のIDである。次に、ブロック611で、各時間/周波数ビンの特定の1つまたは複数のIDの特定のオブジェクト方向情報が、「フレームのコードブック」から、すなわち、図8cに示される例示的な表から取り出される。次いで、ブロック704において、時間/周波数ビンごとに計算される出力フォーマットによって管理されるように、個々の出力チャネルの1つまたは複数の関連オブジェクトについてゲイン値が計算される。次に、ブロック730または706、708で、出力チャネルが計算される。出力チャネルの計算の機能は、図10bに示すように、1つまたは複数のトランスポートチャネルからの寄与度の明示的な計算内で行うことができ、または、図10dまたは図11に示すように、トランスポートチャネルの寄与度を間接的に計算して使用することで実行できる。図10bは、電力値または電力比が図4の機能に対応するブロック610で検索される機能を示す。次に、これらの電力値は、ブロック733および735に示されている各関連オブジェクトごとに個々のトランスポートチャネルに適用される。さらに、これらの電力値は、ブロック704によって決定されたゲイン値に加えて、個々のトランスポートチャネルに適用されるため、ブロック733、735は、トランスポートチャネルch1、ch2、…などのトランスポートチャネルのオブジェクト固有の寄与度をもたらす。次に、ブロック737で、これらの明示的に計算されたチャネルトランスポートの寄与度が、時間/周波数ビンごとに各出力チャネルに対して加算される。
【0166】
次に、実装に応じて、各出力チャネルch1、ch2、…、に対応する時間/周波数ビンで拡散信号を生成する拡散信号計算器741を提供することができ、拡散信号とブロック737の寄与度結果との組み合わせは、各時間/周波数ビンにおける完全なチャネル寄与度が得られるように組み合わされる。この信号は、共分散合成がさらに拡散信号に依存する場合、図4のフィルタバンク708への入力に対応する。しかしながら、共分散合成706が拡散信号に依存せず、デコリレータなしの処理のみに依存する場合、少なくとも各時間/周波数ビンごとの出力信号のエネルギーは、図10bのブロック739の出力におけるチャネル寄与度のエネルギーに対応する。さらに、拡散信号計算器741が使用されない場合、ブロック739の結果は、ブロック706の結果に対応し、各出力チャネルch1、ch2用に個別に変換できる時間/周波数ビンごとに完全なチャネル寄与度を有し、最終的に出力音声ファイルを取得するために、時間領域の出力チャネルを保存したり、ラウドスピーカやあらゆる種類のレンダリングデバイスに転送したりできる。
【0167】
図10cは、図10bまたは図4のブロック610の機能の好ましい実施を示す。ステップ610aにおいて、結合された(電力)値またはいくつかの値が、特定の時間/周波数ビンについて取り出される。ブロック610bでは、時間/周波数ビン内の他の関連するオブジェクトに対応する他の値が、すべての組み合わされた値が1になるように合計しなければならないという計算規則に基づいて計算される。
【0168】
次に、結果は、好ましくは、グループ化されたタイムスロットインデックスごと、およびパラメータバンドインデックスごとに2つの電力比を持つ低分解能表現になる。これらは低い時間/周波数分解能を表す。ブロック610cでは、高分解能タイムスロットインデックスnおよび高分解能周波数帯域インデックスkを有する時間/周波数タイルの電力値を有するように、時間/周波数分解能を高時間/周波数分解能に拡張することができる。拡張は、グループ化されたタイムスロット内の対応するタイムスロット、およびパラメータ帯域内の対応する周波数帯域に対して、まったく同じ低分解能インデックスの単純な使用法を含むことができる。
【0169】
図10dは、2つ以上の入力トランスポートチャネルを2つ以上の出力信号に混合するために使用される混合行列725によって表される、図4のブロック706における共分散合成情報の計算のための機能の好ましい実施を示す。したがって、例えば、2つのトランスポートチャネルと6つの出力チャネルがある場合、個々の時間/周波数ビンごとの混合行列のサイズは、6行2列になる。図5のブロック723の機能に対応するブロック723では、各時間/周波数ビンのオブジェクトごとのゲイン値または直接応答値が受信され、共分散行列が計算される。ブロック722では、電力値または比率が受信され、時間/周波数ビン内のオブジェクトごとの直接電力値が計算され、図10dのブロック722は図5のブロック722に対応する。
【0170】
ブロック721および722の両方の結果は、ターゲット共分散行列計算器724に入力される。さらに、または代わりに、ターゲット共分散行列Cyの明示的な計算は必要ない。代わりに、ターゲット共分散行列に含まれる関連情報、つまり、行列Rで示される直接応答値情報と行列Eで示される2つ以上の関連オブジェクトの直接電力値は、時間/周波数ビンごとの混合行列計算のためにブロック725aに入力される。さらに、混合行列725aは、プロトタイプ行列Qに関する情報と、図5のブロック726に対応するブロック726に示される2つ以上のトランスポートチャネルから導出された入力共分散行列Cxとを受信する。時間/周波数ビンおよびフレームごとの混合行列は、ブロック725bに示されるように時間平滑化を受けることができ、図5のレンダリングブロックの少なくとも一部に対応するブロック727において、混合行列は、ブロック739の出力において、図10bに関して前に議論された対応する完全な寄与度と実質的に同様の時間/周波数ビンにおける完全なチャネル寄与度を得るために、対応する時間/周波数ビンのトランスポートチャネルに、平滑化されていない形式または平滑化された形式で適用される。したがって、図10bは、トランスポートチャネルの寄与度の明示的な計算の実装を示しており、一方、図10dは、ターゲット共分散行列Cyを介して、または混合行列計算ブロック725aに直接導入されるブロック723および722の関連情報RおよびEを介して、時間/周波数ビンごと、および各時間周波数ビン内の関連オブジェクトごとのトランスポートチャネルの寄与度を暗黙的に計算する手順を示している。
【0171】
続いて、共分散合成に好ましい最適化アルゴリズムを図11に示す。図11に示されるすべてのステップは、図4の共分散合成706内、または図5の混合行列計算ブロック725または図10dの725a内で計算されることを概説する。ステップ751では、第1の分解結果Kyが計算される。この分解結果は、図10dに示すように、行列Rに含まれる得られた値の情報と、2つ以上の関連するオブジェクトからの情報、特に行列ERに含まれる直接電力情報が明示的に使用されずに直接使用されるため、共分散行列の計算なしに簡単に計算できる。このように、特定の特異値分解はもはや必要ないので、ブロック751における最初の分解結果は、直接的かつ多くの努力なしに計算することができる。
【0172】
ステップ752では、第2の分解結果がKxとして計算される。この分解結果は、入力共分散行列が非対角要素が無視される対角行列として扱われるため、明示的な特異値分解なしで計算することもできる。
【0173】
次に、ステップ753で、第1の正則化パラメータαに基づく第1の正則化結果が計算され、ステップ754で、第2の正則化パラメータβに基づいて第2の正則化結果が計算される。Kxが好ましい実装では対角行列であるという趣旨で、第1の正規化された結果753の計算は、従来技術のようにSxの計算が分解ではなく単にパラメータ変更であるため、従来技術に対して単純化される。
【0174】
さらに、ブロック754における第2の正則化された結果の計算に関して、第1のステップは、従来技術における行列Ux HSとの乗算ではなく、パラメータの名前変更のみである。
【0175】
さらに、ステップ755において、正規化行列Gyが計算され、ステップ755に基づいて、ユニタリ行列Pが、ステップ756において、Kx、プロトタイプ行列Q、およびブロック751によって得られたKyの情報に基づいて計算される。ここでは行列Λが必要ないという事実により、ユニタリ行列Pの計算は、利用できる従来技術に対して単純化される。
【0176】
次に、ステップ757で、Moptであるエネルギー補償のない混合行列が計算され、そのために、ユニタリ行列P、ブロック754の結果、およびブロック751の結果が使用される。次に、ブロック758において、補償行列Gを使用してエネルギー補償が実行される。エネルギー補償が実行されるため、非相関器から導出される残留信号は必要ない。ただし、エネルギー補償を実行する代わりに、この実装では、エネルギー情報なしで混合行列Moptによって残されたエネルギーギャップを埋めるのに十分な大きさのエネルギーを持つ残差信号が追加される。しかしながら、本発明の目的のために、非相関信号は、非相関器によってもたらされるアーティファクトを回避するために依存されない。しかし、ステップ758に示されるようなエネルギー補償が好ましい。
【0177】
したがって、共分散合成の最適化されたアルゴリズムは、ステップ751、752、753、754、また、ユニタリ行列Pを計算するためのステップ756内で利点を提供する。最適化されたアルゴリズムは、ステップ755、752、753、754、756のうちの1つのみ、またはそれらのステップのサブグループのみが図示のように実施される先行技術よりも利点を提供することさえ強調されるべきであるが、対応する他のステップは従来技術と同様に実施される。その理由は、改善が相互に依存するのではなく、相互に独立して適用できるからである。ただし、改善が実装されるほど、実装の複雑さに関して手順が改善される。したがって、図11の実施形態の完全な実施は、複雑さの最も高い低減量を提供するが、最適化されたアルゴリズムに従ってステップ751、752、753、754、756のうちの1つだけが実施され、他のステップが従来技術と同様に実施されるときでさえ、品質の低下なしに複雑さの低減が得られるので好ましい。
【0178】
本発明の実施形態は、チャネルごとに1つと3番目の共通雑音源の3つのガウス雑音源を混合することによってステレオ信号の快適雑音を生成し、相関するバックグラウンド雑音を作成する、またはそれに加えてもしくは個別に、雑音源とSIDフレームで送信されるコヒーレンス値との混合を制御する手順と見なすこともできる。
【0179】
ここで、前述および後述のすべての代替案または態様、および以下の特許請求の範囲または態様の特許請求の範囲によって定義されるすべての態様を個別に使用できること、すなわち、企図された代替物、目的、または独立請求項以外の代替物または目的がないことを言及しておく。しかしながら、他の実施形態では、代替案または態様または独立請求項の2つ以上を互いに組み合わせることができ、他の実施形態では、すべての態様または代替案およびすべての独立請求項を互いに組み合わせることができる。
【0180】
本発明によりエンコードされた信号は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。
【0181】
いくつかの態様は装置の文脈で説明されているが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたはアイテムまたは対応する装置の機能の説明も表す。
【0182】
もちろん、特定の実施要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアで実施することができる。本実施は、その上に格納された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0183】
本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含み、その結果、本明細書で記載された方法の1つが実行される。
【0184】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができるため、コンピュータプログラム製品がコンピュータ上で実行されたとき、プログラムコードは方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
【0185】
他の実施形態には、機械可読キャリアまたは非一時的記憶媒体に格納された、本明細書で説明されている方法の1つを実行するためのコンピュータプログラムが含まれる。
【0186】
したがって、言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されたとき、本明細書で記載されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0187】
したがって、本発明の方法のさらなる実施形態は、その上に本明細書で説明されている方法の1つを実行するために記録されたコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
【0188】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは一連の信号は、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0189】
さらなる実施形態は、本明細書で説明された方法の1つを実行するように構成された、または実行するように適合された、例えばコンピュータまたはプログラマブルロジックデバイスなどの処理手段を備える。
【0190】
さらなる実施形態は、本明細書で説明された方法のうちの1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0191】
一部の実施形態では、プログラマブルロジックデバイス(フィールドプログラマブルゲートアレイなど)を使用して、本明細書で説明した方法の機能の一部またはすべてを実行できる。一部の実施形態では、フィールドプログラマブルゲートアレイをマイクロプロセッサと連携させて、本明細書で説明した方法の1つを実行することができる。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
【0192】
上記の実施形態は、本発明の原理の単なる例示である。本明細書で説明された構成および詳細の修正および変更は、当業者には明らかであることを理解されたい。したがって、差し迫った特許請求の範囲によってのみ制限され、理由の説明および説明によって提示される特定の詳細によって制限されることは意図されていない。
【0193】
態様(互いに独立して使用するか、他のすべての側面と一緒に使用するか、または他の側面のサブグループのみを使用する。)
【0194】
下記の機能の1つまたは複数を含む装置、方法、またはコンピュータプログラム。
【0195】
新規態様に関する発明例:
・ マルチウェーブのアイデアをオブジェクトコーディングと組み合わせる(T/Fタイルごとに複数の方向キューを使用)
・ DirACパラダイムに可能な限り近いオブジェクトコーディングアプローチ。IVASであらゆる種類の入力タイプを許可する(オブジェクトコンテンツはこれまでカバーされていない)。
【0196】
パラメータ化に関する発明的な例(エンコーダ):
・ 各T/Fタイル:このT/Fタイル内のn個の最も関連性の高いオブジェクトの選択情報と、それらのn個の最も関連性の高いオブジェクトの寄与度間の電力比
・ 各フレーム、各オブジェクト:1方向
【0197】
レンダリングに関する発明的な例(デコーダ):
・ 送信されたオブジェクトインデックスと方向情報、およびターゲット出力レイアウトから、関連する各オブジェクトの直接応答値を取得する。
・ 直接応答から共分散行列を取得する。
・ 関連するオブジェクトごとに、ダウンミックス信号電力と送信電力比から直接電力を計算する。
・ 直接電力と共分散行列から最終的なターゲット共分散行列を取得する。
・ 入力共分散行列の対角要素のみを使用する。
最適化共分散合成
【0198】
SAOCとの違いに関する補足事項:
・ すべてのオブジェクトではなく、n個の支配的なオブジェクトが考慮される。
→このように電力比はOLDに関連付けられるが、別の方法で計算される。
・ SAOCはエンコーダで方向を使用しない->デコーダでのみ導入される方向情報(レンダリング行列)。
→SAOC-3Dデコーダは、行列をレンダリングするためのオブジェクトメタデータを受け取る。
・ SAOCはダウンミックス行列を採用し、ダウンミックスゲインを送信する。
・ 拡散性は、本発明の実施形態では考慮されない。
【0199】
続いて、本発明のさらなる実施例が要約される。
【0200】
1.複数の音声オブジェクトと、複数の音声オブジェクトに関する方向情報を示す関連メタデータとをエンコードするための装置であって、
複数の音声オブジェクトをダウンミックスして1つまたは複数のトランスポートチャネルを取得するためのダウンミキサ(400)と、
1つまたは複数のトランスポートチャネルをエンコードして、1つまたは複数のエンコードされたトランスポートチャネルを取得するためのトランスポートチャネルエンコーダ(300)と、
1つまたは複数のエンコードされたトランスポートチャネルを含むエンコードされた音声信号を出力するための出力インターフェース(200)と、
を備え、
ダウンミキサ(400)は、複数の音声オブジェクトの方向情報に応答して、複数の音声オブジェクトをダウンミックスするように構成されている、
装置。
【0201】
2.ダウンミキサ(400)が、
仮想聴取者の位置もしくは方向などの基準位置もしくは方向に関して同じ位置に配置され、向きが異なる、または2つの異なる位置にある2つの仮想マイク信号として2つのトランスポートチャネルを生成する、または
仮想聴取者の位置もしくは方向などの基準位置もしくは方向に関して同じ位置に配置され、向きが異なる、または3つの異なる位置にある3つの仮想マイク信号として3つのトランスポートチャネルを生成する、または
仮想聴取者の位置もしくは方向などの基準位置もしくは方向に関して同じ位置に配置され、向きが異なる、または4つの異なる位置にある4つの仮想マイク信号として、4つのトランスポートチャネルを生成する、
ように構成され、
仮想マイク信号は、仮想1次マイク信号、または仮想カーディオイドマイク信号、または仮想8の字または双極子または双方向マイク信号、または仮想指向性マイク信号、または仮想サブカーディオイドマイク信号、または仮想単一指向性マイク信号、または仮想ハイパーカーディオイドマイク信号、または仮想無指向性マイク信号である、
実施例1に記載の装置。
【0202】
3.ダウンミキサ(400)が、
複数の音声オブジェクトの各音声オブジェクトに対して、対応する音声オブジェクトの方向情報を使用して、各トランスポートチャネルの重み付け情報を導出し(402)、
特定のトランスポートチャネルの音声オブジェクトの重み付け情報を使用して、対応する音声オブジェクトに重み付けし(404)、特定のトランスポートチャネルのオブジェクト寄与度を取得し、
特定のトランスポートチャネルを取得するために複数の音声オブジェクトから特定のトランスポートチャネルのオブジェクトの寄与度を結合する(406)、
ように構成されている、
実施例1または2に記載の装置。
【0203】
4.ダウンミキサ(400)は、1つまたは複数のトランスポートチャネルを、方向情報が関連する仮想聴取者の位置もしくは方向などの基準位置または方向に関して同じ位置に配置され、異なる向きを有する、または別の位置にある1つもしくは複数の仮想マイク信号として計算するように構成され、
異なる位置もしくは向きが、中心線上もしくは中心線の左側、および中心線上もしくは中心線の右側にある、または、異なる位置もしくは向きが、中心線に対して+90度もしくは-90度、または中心線に対して-120度、0度、および+120度などの水平位置もしくは向きに均等もしくは不均等に分配されている、または、異なる位置もしくは向きが、仮想聴取者が配置される水平面に対して上向きもしくは下向きの少なくとも1つの位置もしくは向きを含み、複数の音声オブジェクトに関する方向情報は、仮想聴取者の位置または基準位置もしくは向きに関連付けられている、
実施例1~3のいずれか1つに記載の装置。
【0204】
5.複数の音声オブジェクトに関する方向情報を示すメタデータを量子化して、複数の音声オブジェクトに関する量子化された方向項目を取得するパラメータプロセッサ(110)をさらに備え、
ダウンミキサ(400)は、方向情報としての量子化された方向項目に応答して動作するように構成されており、
出力インターフェース(200)は、量子化された方向項目に関する情報をエンコードされた音声信号に導入するように構成されている、
実施例1~4のいずれか1つに記載の装置。
【0205】
6.ダウンミキサ(400)は、複数の音声オブジェクトの方向情報の分析を実行し、分析の結果に応じてトランスポートチャネルを生成するために1つまたは複数の仮想マイクを配置するように構成されている、
実施例1から5のいずれか1つに記載の装置。
【0206】
7.ダウンミキサ(400)が、複数の時間枠にわたって静的なダウンミックス規則を使用してダウンミックス(408)するように構成されている、または
方向情報が複数の時間枠にわたって可変であり、ダウンミキサ(400)は、複数の時間枠にわたって可変であるダウンミキシング規則を使用してダウンミックス(405)するように構成されている、
実施例1~6のいずれか1つに記載の装置。
【0207】
8.ダウンミキサ(400)が、サンプルごとの重み付けおよび複数の音声オブジェクトのサンプルの結合を使用して、時間領域でダウンミックスするように構成されている、実施例1~7のいずれか1つに記載の装置。
【0208】
9.時間枠に関連する複数の周波数ビンの1つまたは複数の周波数ビンについて、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算するように構成されたオブジェクトパラメータ計算器(100)であって、少なくとも2つの関連する音声オブジェクトの数が複数の音声オブジェクトの総数よりも少ない、オブジェクトパラメータ計算器(100)と、
をさらに備え、
出力インターフェース(200)が、1つまたは複数の周波数ビンの少なくとも2つの関連する音声オブジェクトのパラメータデータに関する情報をエンコードされた音声信号に導入するように構成されている、
実施例1から8のいずれか1つに記載の装置。
【0209】
10.オブジェクトパラメータ計算器(100)が、
複数の音声オブジェクトの各音声オブジェクトを、複数の周波数ビンを有するスペクトル表現に変換し(120)、
1つまたは複数の周波数ビンの各音声オブジェクトから選択情報を計算し(122)、
選択情報に基づいて、少なくとも2つの関連する音声オブジェクトを示すパラメータデータとしてオブジェクト識別を導出する(124)、
ように構成され、
出力インターフェース(200)が、オブジェクト識別に関する情報をエンコード音声信号に導入するように構成されている、
実施例9に記載の装置。
【0210】
11.オブジェクトパラメータ計算器(100)が、関連する音声オブジェクトの1つまたは複数の振幅関連測定値または振幅関連測定値から導出された1つまたは複数の結合値を、パラメータデータとして1つまたは複数の周波数ビンで量子化およびエンコード(212)するように構成され、
出力インターフェース(200)が、量子化された1つまたは複数の振幅関連尺度または量子化された1つまたは複数の結合値をエンコード音声信号に導入するように構成されている
実施例9または10に記載の装置。
【0211】
12.選択情報が、振幅値、電力値、またはラウドネス値、または音声オブジェクトの振幅とは異なるべき乗された振幅などの振幅関連測定値であり、
オブジェクトパラメータ計算器(100)が、関連する音声オブジェクトの振幅関連測定値と、関連音声オブジェクトの2つ以上の振幅関連測定値の合計からの比などの組み合わせ値を計算する(127)ように構成され、
出力インターフェース(200)が、結合された値に関する情報をエンコードされた音声信号に導入するように構成され、エンコードされた音声信号の結合された値に関する情報項目の数は少なくとも1に等しく、1つまたは複数の周波数ビンの関連する音声オブジェクトの数よりも少ない、
実施例10または11に記載の装置。
【0212】
13.オブジェクトパラメータ計算器(100)は、1つまたは複数の周波数ビン内の複数の音声オブジェクトの選択情報の順序に基づいてオブジェクト識別を選択するように構成される、
実施例10~12のいずれか1つに記載の装置。
【0213】
14.オブジェクトパラメータ計算機(100)が、
選択情報として信号電力を計算し(122)、
各々の周波数ビンに対応する1つまたは複数の周波数ビンにおいて最大の信号電力値を有する2つ以上の音声オブジェクトのオブジェクト識別を個別に導出し(124)、
最大の信号電力値を有する2つ以上の音声オブジェクトの信号電力の合計と、導出されたオブジェクト識別をパラメータデータとして有する少なくとも1つの音声オブジェクトの信号電力との間の電力比を計算し(126)、
電力比を量子化およびエンコード(212)する、
ように構成されており、
出力インターフェース(200)は、量子化およびエンコードされた電力比をエンコードされた音声信号に導入するように構成されている、
実施例10から13のいずれか1つに記載の装置。
【0214】
15.出力インターフェース(200)は、エンコードされた音声信号に、1つまたは複数のエンコードされたトランスポートチャネルと、パラメータデータとして、時間枠内の複数の周波数ビンの1つまたは複数の周波数ビンのそれぞれについて、関連する音声オブジェクトの2つ以上のエンコードされたオブジェクト識別、および1つまたは複数のエンコードされた結合値またはエンコードされた振幅関連測定値と、時間枠内の各音声オブジェクトの量子化およびエンコードされた方向データであって、1つまたは複数の周波数ビンのすべての周波数ビンに対して一定である、方向データと、を導入するように構成されている、実施例10から14のいずれか1つに記載の装置。
【0215】
16.オブジェクトパラメータ計算器(100)は、1つまたは複数の周波数ビンにおいて少なくとも最も支配的なオブジェクトおよび2番目に支配的なオブジェクトのパラメータデータを計算するように構成されており、
複数の音声オブジェクトの音声オブジェクトの数は3つ以上であり、複数の音声オブジェクトは、第1の音声オブジェクト、第2の音声オブジェクト、および第3の音声オブジェクトを含み、
オブジェクトパラメータ計算器(100)は、1つまたは複数の周波数ビンのうちの第1の周波数ビンについて、関連する音声オブジェクトとして、第1の音声オブジェクトおよび第2の音声オブジェクトなどの音声オブジェクトの第1のグループのみを計算し、第2の音声オブジェクトと第3の音声オブジェクト、または第1の音声オブジェクトと第3の音声オブジェクトなど、音声オブジェクトの第2のグループのみを、1つまたは複数の周波数ビンの第2の周波数ビンに関連する音声オブジェクトとして計算する、ように構成されており、音声オブジェクトの第1のグループは、少なくとも1つのグループメンバーに関して、音声オブジェクトの第2のグループとは異なる、
実施例9~15のいずれか1つに記載の装置。
【0216】
17.オブジェクトパラメータ計算器(100)が、
第1の時間分解能または周波数分解能で生のパラメトリックデータを計算し、第1の時間分解能または周波数分解能よりも低い第2の時間分解能または周波数分解能を有する結合されたパラメトリックデータに生のパラメトリックデータを結合し、第2の時間分解能または周波数分解能を有する結合されたパラメトリックデータに関して、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算する、または
複数の音声オブジェクトの時間分解または周波数分解で使用される第1の時間分解能または周波数分解能とは異なる第2の時間分解能または周波数分解能を有するパラメータ帯域を決定し、第2の時間分解能または周波数分解能を有するパラメータ帯域について、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算する
ように構成されている、実施例9~16のいずれか1つに記載の装置。
【0217】
18. 1つまたは複数のトランスポートチャネルと、複数の音声オブジェクトの方向情報と、時間枠の1つまたは複数の周波数ビンに対して、音声オブジェクトのパラメータデータと、を含むエンコードされた音声信号をデコードするためのデコーダであって、
時間枠内に複数の周波数ビンを有するスペクトル表現で1つまたは複数のトランスポートチャネルを提供するための入力インターフェース(600)と、
方向情報を使用して、1つまたは複数のトランスポートチャネルを複数の音声チャネルにレンダリングするための音声レンダラ(700)と、
を備え、
音声レンダラ(700)が、複数の周波数ビンの各周波数ビンごとに1つまたは複数の音声オブジェクトから直接応答情報(704)を計算し、周波数ビン内の関連する1つまたは複数の音声オブジェクトに関連する方向情報(810)を計算するように構成されている、
デコーダ。
【0218】
19.音声レンダラ(700)が、直接応答情報と音声チャネル数に関する情報(702)とを使用して、共分散合成情報を計算(706)し、共分散合成情報を1つまたは複数のトランスポートチャネルに適用して(727)、音声チャネルの数を取得する、ように構成されており、
直接応答情報(704)が、1つまたは複数の音声オブジェクトごとの直接応答ベクトルであり、共分散合成情報が共分散合成行列であり、音声レンダラ(700)が、共分散合成情報を適用(727)する際に、周波数ビンごとに行列演算を実行するように構成されている、
実施例18に記載のデコーダ。
【0219】
20.音声レンダラ(700)が、
直接応答情報(704)の計算において、1つまたは複数の音声オブジェクトの直接応答ベクトルを導出し、1つまたは複数の音声オブジェクトについて、各直接応答ベクトルから共分散行列を計算し、
共分散合成情報の計算において、1つの音声オブジェクトの共分散行列、または複数の音声オブジェクトからの共分散行列と、それぞれの1つまたは複数の音声オブジェクトに関する電力情報と、1つまたは複数のトランスポートチャネルから導出される電力情報と、からターゲット共分散情報を導出する(724)、
ように構成されている、実施例18または19に記載のデコーダ。
【0220】
21.音声レンダラ(700)が、
直接応答情報の計算において、1つまたは複数の音声オブジェクトの直接応答ベクトルを導出し、1つまたは複数の音声オブジェクトごとに、各直接応答ベクトルから共分散行列を計算し(723)、
トランスポートチャネルから入力共分散情報を導出し(726)、
ターゲット共分散情報、入力共分散情報、およびチャネル数に関する情報からミキシング情報を導出し(725a、725b)、
時間枠内の各周波数ビンのトランスポートチャネルにミキシング情報を適用する(727)、
ように構成されている、実施例20に記載のデコーダ。
【0221】
22.時間枠内の各周波数ビンに対するミキシング情報の適用の結果が時間領域に変換され(708)、時間領域内の音声チャネルの数が取得される、実施例21に記載のデコーダ。
【0222】
23.音声レンダラ(700)が、
入力共分散行列の分解(752)においてトランスポートチャネルから導出された入力共分散行列の主対角要素のみを使用し、
直接応答行列と、オブジェクトまたはトランスポートチャネルの電力行列を使用して、ターゲット共分散行列の分解(751)を実行し、
入力共分散行列の各主対角要素の根を取ることにより、入力共分散行列の分解を実行し(752)、
分解された入力共分散行列の正規化された逆行列を計算し(753)、
拡張単位行列なしでエネルギー補償に使用される最適な行列を計算する際に特異値分解を実行する(756)
ように構成された、実施例18~22のいずれか1つに記載のデコーダ。
【0223】
24. 1つまたは複数の音声オブジェクトのパラメータデータは、少なくとも2つの関連する音声オブジェクトのパラメータデータを含み、少なくとも2つの関連する音声オブジェクトの数は、複数の音声オブジェクトの総数よりも少なく、
音声レンダラ(700)は、1つまたは複数の周波数ビンのそれぞれについて、少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、1つまたは複数のトランスポートチャネルからの寄与度を計算するように構成されている、
実施例18から23のいずれか1つに記載のデコーダ。
【0224】
25.音声レンダラ(700)は、1つまたは複数の周波数ビンについて、少なくとも2つの関連する音声オブジェクトとは異なる音声オブジェクトの方向情報を無視するように構成される、実施例24に記載のデコーダ。
【0225】
26.エンコードされた音声信号が、関連する各音声オブジェクトの振幅関連測定値、またはパラメータデータ内の少なくとも2つの関連する音声オブジェクトに関連する結合値を含み、
音声レンダラ(700)が、少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、1つまたは複数のトランスポートチャネルからの寄与度が考慮されるように動作するように、または、振幅関連の測定値または結合値に従って、1つまたは複数のトランスポートチャネルの定量的寄与度を決定するように構成されている、
実施例24または25に記載のデコーダ。
【0226】
27.エンコードされた信号がパラメータデータ内の結合値を含み、
音声レンダラ(700)が、関連する音声オブジェクトの1つに対する結合値と、1つの関連する音声オブジェクトに対する方向情報とを使用して、1つまたは複数のトランスポートチャネルの寄与度を決定するように構成されており、
音声レンダラ(700)が、1つまたは複数の周波数ビン内の関連する別の音声オブジェクトの結合値と、他の関連する音声オブジェクトの方向情報から導出された値を使用して、1つまたは複数のトランスポートチャネルの寄与度を決定するように構成されている、
実施例26に記載のデコーダ。
【0227】
28.音声レンダラ(700)が、
複数の周波数ビンの各周波数ビンごとに関連する音声オブジェクトから直接応答情報(704)と、周波数ビン内の関連する音声オブジェクトに関連付けられた方向情報とを計算する、
ように構成されている、実施例24から27のいずれか1つに記載のデコーダ。
【0228】
29.音声レンダラ(700)は、メタデータに含まれる拡散パラメータまたは無相関規則などの拡散情報を使用して、複数の周波数ビンの各周波数ビンごとに拡散信号を決定し(741)、直接応答情報と拡散信号によって決定され、複数のチャネルのうちのチャネルのスペクトル領域でレンダリングされた信号を取得するように直接応答を組み合わせる、
実施例28に記載のデコーダ。
【0229】
30.複数の音声オブジェクトと、複数の音声オブジェクトに関する方向情報を示す関連メタデータとをエンコードする方法であって、
1つまたは複数のトランスポートチャネルを取得するために、複数の音声オブジェクトをダウンミックスするステップと、
1つまたは複数のトランスポートチャネルをエンコードして、1つまたは複数のエンコードされたトランスポートチャネルを取得するステップと、
1つまたは複数のエンコードされたトランスポートチャネルを含むエンコードされた音声信号を出力するステップと、
を含み、
ダウンミックスするステップは、複数の音声オブジェクトに関する方向情報に応じて、複数の音声オブジェクトをダウンミックスするステップを含む、
方法。
【0230】
31.複数の音声オブジェクトの1つまたは複数のトランスポートチャネルおよび方向情報と、時間枠の1つまたは複数の周波数ビンについて、音声オブジェクトのパラメータデータと、を含むエンコードされた音声信号をデコードする方法であって、
時間枠内に複数の周波数ビンを有するスペクトル表現で1つまたは複数のトランスポートチャネルを提供するステップと、
方向情報を使用して、1つまたは複数のトランスポートチャネルを複数の音声チャネルに音声レンダリングするステップと、
を含み、
音声レンダリングするステップは、複数の周波数ビンの各周波数ビンごとに1つまたは複数の音声オブジェクトから直接応答情報と、周波数ビン内の関連する1つまたは複数の音声オブジェクトに関連付けられた方向情報とを計算するステップを含む、
方法。
【0231】
32.コンピュータまたはプロセッサ上で実行されている場合に、実施例30の方法または実施例31の方法を実行するためのコンピュータプログラム。
【0232】
(参考文献)
[Pulkki2009] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajamaeki, “Directional audio coding perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[SAOC_STD] ISO/IEC, “MPEG audio technologies Part 2: Spatial Audio Object Coding (SAOC).” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

[SAOC_AES] J. Herre, H. Purnhagen, J. Koppens, O. Hellmuth, J. Engdegaard, J.Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Hoelzer, M. L. Valero, B. Resch, H. Mundt H, and H. Oh, “MPEG spatial audio object coding - the ISO/MPEG standard for efficient coding of interactive audio scenes,” J. AES, vol. 60, no. 9, pp. 655 - 673, Sep. 2012.

[MPEGH_AES] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, “MPEG-H audio - the new standard for universal spatial/3D audio coding,” in Proc. 137th AES Conv., Los Angeles, CA, USA, 2014.

[MPEGH_IEEE] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, “MPEG-H 3D Audio - The New Standard for Coding of Immersive Spatial Audio“, IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 9, NO. 5, AUGUST 2015

[MPEGH_STD] Text of ISO/MPEG 23008 - 3/DIS 3D Audio, Sapporo, ISO/IEC JTC1/SC29/WG11 N14747, Jul. 2014.

[SAOC_3D_PAT] APPARATUS AND METHOD FOR ENHANCED SPATAL AUDIO OBJECT CODING, WO 2015/011024 A1

[Pulkki1997] V. Pulkki, “Virtual sound source positioning using vector base amplitude panning,” J. Audio Eng. Soc., vol. 45, no. 6, pp. 456 - 466, Jun. 1997.

[DELAUNAY] C. B. Barber, D. P. Dobkin, and H. Huhdanpaa, “The quickhull algorithm for convex hulls,” in Proc. ACM Trans. Math. Software (TOMS), New York, NY, USA, Dec. 1996, vol. 22, pp. 469 - 483.

[Hirvonen2009] T. Hirvonen, J. Ahonen, and V. Pulkki, “Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference”, AES 126th Convention 2009, May 7 - 10, Munich, Germany.

[Borss2014] C. Borss, “A Polygon-Based Panning Method for 3D Loudspeaker Setups”, AES 137th Convention 2014, October 9 - 12, Los Angeles, USA.

[WO2019068638] Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding, 2018

[WO2020249815] PARAMETER ENCODING AND DECODING FOR MULTICHANNEL AUDIO USING DirAC, 2019

[BCC2001] C. Faller, F. Baumgarte: “Efficient representation of spatial audio using perceptual parametrization”, Proceedings of the 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics (Cat. No.01TH8575).

[JOC_AES] Heiko Purnhagen; Toni Hirvonen; Lars Villemoes; Jonas Samuelsson; Janusz Klejsa: “Immersive Audio Delivery Using Joint Object Coding”, 140th AES Convention, Paper Number: 9587, Paris, May 2016.

[AC4_AES] K. Kjoerling, J. Roeden, M. Wolters, J. Riedmiller, A. Biswas, P. Ekstrand, A. Groeschel, P. Hedelin, T. Hirvonen, H. Hoerich, J. Klejsa, J. Koppens, K. Krauss, H-M. Lehtonen, K. Linzmeier, H. Muesch, H. Mundt, S. Norcross, J. Popp, H. Purnhagen, J. Samuelsson, M. Schug, L. Sehlstroem, R. Thesing, L. Villemoes, and M. Vinton: “AC-4 - The Next Generation Audio Codec”, 140th AES Convention, Paper Number: 9491, Paris, May 2016.

[Vilkamo2013] J. Vilkamo, T. Baeckstroem, A. Kuntz, “Optimized covariance domain framework for time-frequency processing of spatial audio”, Journal of the Audio Engineering Society, 2013.

[Golub2013] Gene H. Golub and Charles F. Van Loan, “Matrix Computations”, Johns Hopkins University Press, 4th edition, 2013.
【符号の説明】
【0233】
100 オブジェクトパラメータ計算器
110 パラメータプロセッサ
200 出力インターフェース
212 エンコード
300 トランスポートチャネルエンコーダ
400 ダウンミキサ
405 ダウンミックス
600 入力インターフェース
700 音声レンダラ
704 直接応答情報
810 方向情報
812 振幅関連測定値
図1a
図1b
図2
図3
図4
図5
図6a
図6b
図7a
図7b
図8
図9a
図9b
図9c
図9d
図10a
図10b
図10c
図10d
図11
図12a
図12b
【手続補正書】
【提出日】2023-06-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
複数の音声オブジェクトをエンコードするための装置であって、
時間枠に関連する複数の周波数ビンの1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算するように構成されたオブジェクトパラメータ計算器(100)であって、前記少なくとも2つの関連する音声オブジェクトの数が前記複数の音声オブジェクトの総数よりも少なく、前記少なくとも2つの関連する音声オブジェクトの数の選択を実行し、前記音声オブジェクトの総数を関連性があるとして示さないように構成された、オブジェクトパラメータ計算器(100)と、
記少なくとも2つの関連する音声オブジェクトの前記パラメータデータに関する情報を含むエンコードされた音声信号を出力するための出力インターフェース(200)と、
を備える、装置。
【請求項2】
前記オブジェクトパラメータ計算器(100)が、
前記複数の音声オブジェクトの各音声オブジェクトを、前記複数の周波数ビンを有するスペクトル表現に変換し(120)、
前記1つまたは複数の周波数ビンについて各音声オブジェクトから選択情報を計算し(122)、
前記選択情報に基づいて、前記少なくとも2つの関連する音声オブジェクトを示す前記パラメータデータとしてオブジェクト識別を導出する(124)
ように構成されており、
前記出力インターフェース(200)が、前記オブジェクト識別に関する情報を前記エンコードされた音声信号に導入するように構成されている、
請求項1に記載の装置。
【請求項3】
前記オブジェクトパラメータ計算器(100)は、前記パラメータデータとして、前記1つまたは複数の周波数ビン内の前記関連音声オブジェクトの1つまたは複数の振幅関連測定値または前記振幅関連測定値から導出された1つまたは複数の結合値を量子化およびエンコード(212)するように構成されており、
前記出力インターフェース(200)は、前記量子化された1つまたは複数の振幅関連測定値または前記量子化された1つまたは複数の結合値を前記エンコードされた音声信号に導入するように構成されている、
請求項1または2に記載の装置。
【請求項4】
前記選択情報は、振幅値、電力値もしくはラウドネス値、または、前記音声オブジェクトの振幅とは異なるべき乗された振幅、などの振幅関連測定値であり、
前記オブジェクトパラメータ計算器(100)は、関連する音声オブジェクトに関連する測定値と、前記関連する音声オブジェクトの2つ以上の振幅に関連する測定値の合計とからの比率のような結合値を計算する(127)ように構成されており、
前記出力インターフェース(200)は、前記結合値に関する情報を前記エンコードされた音声信号に導入するように構成されており、前記エンコードされた音声信号の前記結合値に関する情報項目の数は、少なくとも1に等しく、前記1つまたは複数の周波数ビンの関連する音声オブジェクトの数よりも少ない、
請求項2に記載の装置。
【請求項5】
前記オブジェクトパラメータ計算器(100)は、前記1つまたは複数の周波数ビン内の前記複数の音声オブジェクトの前記選択情報の順序に基づいて前記オブジェクト識別を選択するように構成されている、
請求項2または4に記載の装置。
【請求項6】
前記オブジェクトパラメータ計算機(100)が、
前記選択情報として信号電力を計算し(122)、
各々の周波数ビンに対応する1つまたは複数の周波数ビンにおいて最大の信号電力値を有する前記2つ以上の音声オブジェクトの前記オブジェクト識別を個別に導出し(124)、
前記最大の信号電力値を有する前記2つ以上の音声オブジェクトの前記信号電力の合計と、導出された前記オブジェクト識別を前記パラメータデータとして有する各々の前記音声オブジェクトの前記信号電力との間の電力比を計算し(126)、
前記電力比を量子化およびエンコード(212)する、
ように構成されており、
前記出力インターフェース(200)は、前記量子化およびエンコードされた電力比を前記エンコードされた音声信号に導入するように構成されている、
請求項2、4および5のいずれか一項に記載の装置。
【請求項7】
前記出力インターフェース(200)は、前記エンコードされた音声信号に、
1つまたは複数のエンコードされたトランスポートチャネルと、
前記パラメータデータとして、前記時間枠内の前記複数の周波数ビンの前記1つまたは複数の周波数ビンのそれぞれについて、前記関連する音声オブジェクトの2つ以上のエンコードされたオブジェクト識別、および1つまたは複数のエンコードされた結合値またはエンコードされた振幅関連測定値と、
前記時間枠内の各音声オブジェクトの量子化およびエンコードされた方向データであって、前記1つまたは複数の周波数ビンのすべての周波数ビンに対して一定である、方向データと、
を導入するように構成されている、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記オブジェクトパラメータ計算器(100)が、前記1つまたは複数の周波数ビンにおいて少なくとも最も支配的なオブジェクトおよび2番目に支配的なオブジェクトのパラメータデータを計算し、前記最も支配的なオブジェクトと前記2番目に支配的なオブジェクトが前記関連するオブジェクトを表す、ように構成されている、または
前記複数の音声オブジェクトの音声オブジェクトの数は3つ以上であり、前記複数の音声オブジェクトは、第1の音声オブジェクト、第2の音声オブジェクト、および第3の音声オブジェクトを含み、
前記オブジェクトパラメータ計算機(100)は、前記1つまたは複数の周波数ビンのうちの第1のものについて、前記関連する音声オブジェクトとして、前記第1の音声オブジェクトおよび前記第2の音声オブジェクトなどの音声オブジェクトの第1のグループのみを計算し、前記第2の音声オブジェクトと前記第3の音声オブジェクト、または前記第1の音声オブジェクトと前記第3の音声オブジェクトなど、音声オブジェクトの第2のグループのみを、前記1つまたは複数の周波数ビンの第2の周波数ビンについての前記関連する音声オブジェクトとして計算するように構成されており、前記音声オブジェクトの第1のグループは、少なくとも1つのグループメンバーに関して、前記音声オブジェクトの第2のグループとは異なる、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記オブジェクトパラメータ計算器(100)が、
第1の時間分解能もしくは周波数分解能で生のパラメトリックデータを計算し、前記生のパラメトリックデータを結合して、前記第1の時間分解能もしくは周波数分解能よりも低い第2の時間分解能もしくは周波数分解能を有する結合されたパラメトリックデータにし、および、前記第2の時間分解能もしくは周波数分解能を有する前記結合されたパラメトリックデータに関して、前記少なくとも2つの関連する音声オブジェクトのパラメータデータを計算する、または
前記複数の音声オブジェクトの時間分解または周波数分解で使用される第1の時間分解能または周波数分解能とは異なる第2の時間分解能または周波数分解能を有するパラメータ帯域を決定し、前記第2の時間分解能または周波数分解能を有する前記パラメータ帯域について、前記少なくとも2つの関連する音声オブジェクトの前記パラメータデータを計算する、
ように構成されている、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記複数の音声オブジェクトが、前記複数の音声オブジェクトに関する方向情報(810)を示す関連するメタデータを含み、
前記装置が、
前記複数の音声オブジェクトをダウンミックスして1つまたは複数のトランスポートチャネルを取得するためのダウンミキサ(400)であって、前記複数の音声オブジェクトの前記方向情報に応答して、前記複数の音声オブジェクトをダウンミックスするように構成された、ダウンミキサ(400)と、
1つまたは複数のトランスポートチャネルをエンコードして、1つまたは複数のエンコードされたトランスポートチャネルを取得するためのトランスポートチャネルエンコーダ(300)と、
をさらに備え、
前記出力インターフェース(200)が、前記エンコードされた音声信号に前記1つまたは複数のトランスポートチャネルを導入するように構成されている、
請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記ダウンミキサ(400)が、
仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して、同じ位置に配置され、向きが異なる、または2つの異なる位置に配置された2つの仮想マイク信号として、2つのトランスポートチャネルを生成する、または
仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して、同じ位置に配置され、向きが異なる、または3つの異なる位置に配置された3つの仮想マイク信号として、3つのトランスポートチャネルを生成する、または
仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して、同じ位置に配置され、向きが異なる、または4つの異なる位置に配置された4つの仮想マイク信号として、4つのトランスポートチャネルを生成する、
ように構成されており、
仮想マイク信号が、仮想1次マイク信号、または仮想カーディオイドマイク信号、または仮想8の字もしくは双極子もしくは双方向マイク信号、または仮想指向性マイク信号、または仮想サブカーディオイドマイク信号、または仮想単一指向性マイク信号、または仮想ハイパーカーディオイドマイク信号、または仮想無指向性マイク信号である、
請求項10に記載の装置。
【請求項12】
前記ダウンミキサ(400)が、
前記複数の音声オブジェクトの各音声オブジェクトに対して、前記対応する音声オブジェクトの前記方向情報を使用して、各トランスポートチャネルの重み付け情報を導出し(402)、
特定のトランスポートチャネルの前記音声オブジェクトの前記重み付け情報を使用して前記対応する音声オブジェクトを重み付けし(404)、前記特定のトランスポートチャネルのオブジェクト寄与度を取得し、
前記特定のトランスポートチャネルを取得するために前記複数の音声オブジェクトから前記特定のトランスポートチャネルの前記オブジェクト寄与度を結合する(406)、
ように構成されている、請求項10または11に記載の装置。
【請求項13】
前記ダウンミキサ(400)が、前記方向情報が関連付けられている仮想聴取者の位置もしくは向きなどの基準位置もしくは向きに対して同じ位置に配置され、向きが異なる、または異なる位置に配置された1つまたは複数の仮想マイク信号として、前記1つまたは複数のトランスポートチャネルを計算するように構成されており、
前記異なる位置もしくは向きが、中心線上または前記中心線の左側、および前記中心線上もしくは前記中心線の右側である、または、前記異なる位置もしくは向きが、前記中心線に対して+90度もしくは-90度、または前記中心線に対して-120度、0度、および+120度などの水平位置もしくは向きに均等もしくは不均等に分配されている、または、前記異なる位置または向きが、仮想聴取者が配置される水平面に対して上向きもしくは下向きに向けられた少なくとも1つの位置もしくは向きを含み、前記複数の音声オブジェクトに関する前記方向情報が、前記仮想聴取者の位置または基準位置もしくは向きに関連付けられる
請求項10から12のいずれか一項に記載の装置。
【請求項14】
前記複数の音声オブジェクトに関する前記方向情報を示す前記メタデータを量子化して、前記複数の音声オブジェクトに関する量子化された方向項目を取得するパラメータプロセッサ(110)をさらに備え、
前記ダウンミキサ(400)が、前記方向情報としての前記量子化された方向項目に応答して動作するように構成されており、
前記出力インターフェース(200)が、前記量子化された方向項目に関する情報を前記エンコードされた音声信号に導入するように構成されている、
請求項10から13のいずれか一項に記載の装置。
【請求項15】
前記ダウンミキサ(400)が、前記複数の音声オブジェクトに関する前記方向情報の分析を実行し(410)、前記分析の結果に応じて前記トランスポートチャネルを生成するために1つまたは複数の仮想マイクを配置する(412)ように構成されている、
請求項10から14のいずれか一項に記載の装置。
【請求項16】
前記ダウンミキサ(400)が、前記複数の時間枠にわたって静的なダウンミックス規則を使用してダウンミックス(408)するように構成されている、または
前記方向情報が前記複数の時間枠にわたって可変であり、前記ダウンミキサ(400)が、前記複数の時間枠にわたって可変であるダウンミキシング規則を使用してダウンミックス(405)するように構成されている、
請求項10から15のいずれか一項に記載の装置。
【請求項17】
前記ダウンミキサ(400)が、サンプルごとの重み付けと、前記複数の音声オブジェクトのサンプルの結合とを使用して、時間領域でダウンミックスするように構成されている、請求項10から16のいずれか一項に記載の装置。
【請求項18】
1つまたは複数のトランスポートチャネルと、複数の音声オブジェクトの方向情報と、時間枠の1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータと、を含むエンコードされた音声信号をデコードするためのデコーダであって、前記少なくとも2つの関連する音声オブジェクトの数が、前記複数の音声オブジェクトの総数よりも少なく、前記少なくとも2つの関連する音声オブジェクトの数は、前記音声オブジェクトの総数からの選択であり、前記音声オブジェクトの総数は、関連性があるとして示されず、デコーダは、
前記時間枠内に複数の周波数ビンを有するスペクトル表現で前記1つまたは複数のトランスポートチャネルを提供するための入力インターフェース(600)と、
前記方向情報を使用して、前記少なくとも2つの関連する音声オブジェクトの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、前記1つまたは複数のトランスポートチャネルからの寄与度が考慮されるように、前記1つまたは複数のトランスポートチャネルを複数の音声チャネルにレンダリングするための音声レンダラ(700)と、
を備え、
前記音声レンダラ(700)が、前記1つまたは複数の周波数ビンのそれぞれについて、前記少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、前記1つまたは複数のトランスポートチャネルからの寄与度を計算するように構成されている、
デコーダ。
【請求項19】
前記音声レンダラ(700)は、前記1つまたは複数の周波数ビンについて、前記少なくとも2つの関連する音声オブジェクトとは異なる音声オブジェクトの方向情報を無視するように構成されている、
請求項18に記載のデコーダ。
【請求項20】
前記エンコードされた音声信号が、関連する各音声オブジェクトの振幅関連測定値(812)、または前記パラメータデータ内の少なくとも2つの関連する音声オブジェクトに関連する結合値(812)を含み、
前記音声レンダラ(700)が、前記振幅関連測定値または前記結合値に従って、前記1つまたは複数のトランスポートチャネルの定量的寄与度を決定する(704)ように構成される、
請求項18または19に記載のデコーダ。
【請求項21】
前記エンコードされた信号は、前記パラメータデータ内の前記結合値を含み、
前記音声レンダラ(700)は、前記関連する音声オブジェクトの1つに対する前記結合値と、前記1つの関連する音声オブジェクトに対する前記方向情報とを使用して、前記1つまたは複数のトランスポートチャネルの前記寄与度を決定する(704、733)ように構成されており、
前記音声レンダラ(700)は、前記1つまたは複数の周波数ビン内の前記関連する音声オブジェクトの別の値と、他の前記関連する音声オブジェクトの前記方向情報との前記結合値から導出された値を使用して、前記1つまたは複数のトランスポートチャネルの前記寄与度を決定する(704、735)ように構成されている、
請求項20に記載のデコーダ。
【請求項22】
前記音声レンダラ(700)は、
前記複数の周波数ビンの各周波数ビンごとに前記関連する音声オブジェクトから前記直接応答情報と、前記周波数ビン内の前記関連する音声オブジェクトに関連付けられた前記方向情報とを計算する(704)、
ように構成されている、請求項18から21のいずれか一項に記載のデコーダ。
【請求項23】
前記音声レンダラ(700)が、前記メタデータに含まれる拡散パラメータまたは無相関規則などの拡散情報を使用して、前記複数の周波数ビンの各周波数ビンごとに拡散信号を決定し(741)、直接応答情報と拡散信号によって決定され、複数のチャネルのうちのチャネルのスペクトル領域でレンダリングされた信号を取得するように直接応答を組み合わせる、または
前記直接応答情報(704)と前記音声チャンネル数に関する情報(702)とを使用して、合成情報を計算し(706)、前記共分散合成情報を前記1つまたは複数のトランスポートチャネルに適用して(727)、前記音声チャネルの数を取得する、ように構成されており、
前記直接応答情報(704)は、関連する音声オブジェクトごとの直接応答ベクトルであり、前記共分散合成情報は共分散合成行列であり、前記音声レンダラ(700)は、前記共分散合成情報を適用する(727)際に、周波数ビンごとに行列演算を実行するように構成される、
請求項22に記載のデコーダ。
【請求項24】
前記音声レンダラ(700)が、
前記直接応答情報(704)の前記計算において、関連する音声オブジェクトごとに直接応答ベクトルを導出し、関連する音声オブジェクトごとに、各直接応答ベクトルから共分散行列を計算し、
前記共分散合成情報の前記計算において、
前記関連する音声オブジェクトのそれぞれからの前記共分散行列と、
それぞれの前記関連する音声オブジェクトの電力情報と、
前記1つまたは複数のトランスポートチャネルから導出される電力情報と、
からターゲット共分散情報を導出する(724)、
ように構成されている、請求項22または23に記載のデコーダ。
【請求項25】
前記音声レンダラ(700)が、
前記直接応答情報の前記計算において(704)、関連する音声オブジェクトごとに直接応答ベクトルを導出し、関連する音声オブジェクトごとに、各直接応答ベクトルから共分散行列を計算し(723)、
前記トランスポートチャネルから入力共分散情報を導出し(726)、
前記ターゲット共分散情報、前記入力共分散情報、および前記チャネル数に関する前記情報からミキシング情報を導出し(725a、725b)、
前記時間枠内の各周波数ビンの前記トランスポートチャネルに前記ミキシング情報を適用する(727)、
ように構成されている、請求項24に記載のデコーダ。
【請求項26】
前記時間枠内の各周波数ビンに対する前記ミキシング情報の前記適用の結果が時間領域に変換され(708)、前記時間領域内の音声チャネルの数が取得される、請求項25に記載のデコーダ。
【請求項27】
前記音声レンダラ(700)が、
入力共分散行列の分解(752)において、前記トランスポートチャネルから導出された前記入力共分散行列の主対角要素のみを使用し、
直接応答行列と、前記オブジェクトまたはトランスポートチャネルの電力行列とを使用して、ターゲット共分散行列の分解(751)を実行し、
前記入力共分散行列の各主対角要素の根を取ることにより、前記入力共分散行列の分解を実行し(752)、
分解された入力共分散行列の正則化された逆行列を計算し(753)、
拡張単位行列なしでエネルギー補償に使用される最適な行列を計算する際に特異値分解を実行する(756)、
ように構成されている、請求項22から26のいずれか一項に記載のデコーダ。
【請求項28】
複数の音声オブジェクトをエンコードする方法であって、
時間枠に関連する複数の周波数ビンの1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータを計算するステップであって、前記少なくとも2つの関連する音声オブジェクトの数は、前記複数の音声オブジェクトの総数よりも少なく、前記計算するステップは、前記少なくとも2つの関連する音声オブジェクトの数の選択を実行し、前記音声オブジェクトの総数を関連性があるとして示さないステップを含む、ステップと、
前記少なくとも2つの関連する音声オブジェクトの前記パラメータデータに関する情報を含むエンコードされた音声信号を出力するステップと、
を含む、方法。
【請求項29】
複数の音声オブジェクトの1つまたは複数のトランスポートチャネルおよび方向情報と、時間枠の1つまたは複数の周波数ビンに対して、少なくとも2つの関連する音声オブジェクトのパラメータデータと、を含む、エンコードされた音声信号をデコードする方法であって、前記少なくとも2つの関連する音声オブジェクトの数が前記複数のオブジェクトの総数よりも少なく、前記少なくとも2つの関連する音声オブジェクトの数は、前記音声オブジェクトの総数からの選択であり、前記音声オブジェクトの総数は、関連性があるとして示されず、前記デコードする方法が、
前記時間枠内に複数の周波数ビンを有するスペクトル表現で、前記1つまたは複数のトランスポートチャネルを提供するステップと、
前記方向情報を使用して、前記1つまたは複数のトランスポートチャネルを複数の音声チャネルに音声レンダリングするステップと、
を含み、
前記音声レンダリングするステップが、前記少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトのうちの第2のものに関連付けられた第2の方向情報に従って、または、前記少なくとも2つの関連する音声オブジェクトのうちの第1のものに関連付けられた第1の方向情報に従って、および前記少なくとも2つの関連する音声オブジェクトの第2のものに関連付けられた第2の方向情報に従って、前記1つまたは複数のトランスポートチャネルからの寄与度が考慮されるように、前記1つまたは複数の周波数ビンのそれぞれについて、前記1つまたは複数のトランスポートチャネルからの寄与度を計算するステップを含む、
方法。
【請求項30】
コンピュータまたはプロセッサ上で実行されたとき、請求項28に記載の方法または請求項29に記載の方法を実行するためのコンピュータプログラム。
【請求項31】
時間枠に関連する複数の周波数ビンの1つまたは複数の周波数ビンの少なくとも2つの関連する音声オブジェクトのパラメータデータに関する情報を含むエンコードされた音声信号であって、前記少なくとも2つの関連する音声オブジェクトの数は、音声オブジェクトの総数からの選択であり、前記音声オブジェクトの総数は関連性があるとして示されない、エンコードされた音声信号
【請求項32】
1つまたは複数のエンコードされたトランスポートチャネルと、
前記パラメータデータに関する前記情報として、時間枠内の前記複数の周波数ビンの前記1つまたは複数の周波数ビンのそれぞれについて、前記関連する音声オブジェクトの2つ以上のエンコードされたオブジェクト識別、および1つまたは複数のエンコードされた結合値、またはエンコードされた振幅関連測定値と、
前記時間枠内の各音声オブジェクトの量子化およびエンコードされた方向データであって、前記1つまたは複数の周波数ビンのすべての周波数ビンに対して一定である、方向データと、
をさらに含む、請求項31に記載のエンコードされた音声信号。
【国際調査報告】