IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2025-505460オーディオストリームを変換する装置及び方法
<>
  • 特表-オーディオストリームを変換する装置及び方法 図1a
  • 特表-オーディオストリームを変換する装置及び方法 図1b
  • 特表-オーディオストリームを変換する装置及び方法 図2
  • 特表-オーディオストリームを変換する装置及び方法 図3
  • 特表-オーディオストリームを変換する装置及び方法 図4
  • 特表-オーディオストリームを変換する装置及び方法 図5a
  • 特表-オーディオストリームを変換する装置及び方法 図5b
  • 特表-オーディオストリームを変換する装置及び方法 図6
  • 特表-オーディオストリームを変換する装置及び方法 図7a
  • 特表-オーディオストリームを変換する装置及び方法 図7b
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-02-26
(54)【発明の名称】オーディオストリームを変換する装置及び方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20250218BHJP
   G10L 19/00 20130101ALI20250218BHJP
【FI】
G10L19/008 100
G10L19/00 330B
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2024546139
(86)(22)【出願日】2023-01-31
(85)【翻訳文提出日】2024-10-01
(86)【国際出願番号】 EP2023052331
(87)【国際公開番号】W WO2023148168
(87)【国際公開日】2023-08-10
(31)【優先権主張番号】PCT/EP2022/052642
(32)【優先日】2022-02-03
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Blu-ray
2.3GPP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ヴェックベッカー・ドミニク
(72)【発明者】
【氏名】タマラプ・アルヒット
(72)【発明者】
【氏名】フックス・ギヨーム
(72)【発明者】
【氏名】ムルトルス・マルクス
(72)【発明者】
【氏名】ドーラ・ステファン
(72)【発明者】
【氏名】サグノウスキー・カツペル
(72)【発明者】
【氏名】バイエル・ステファン
(57)【要約】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置であって、前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段と、オーディオストリームの音響又は心理音響モデルを記述する(1つ又は複数のパラメータを導出する手段であって、前記パラメータが、DOAに関する情報を少なくとも含む、導出する手段と、を備え、1つ又は複数のパラメータが、オーディオストリームから導出される、装置。

【特許請求の範囲】
【請求項1】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置(100)であって、
前記オーディオストリームの音響モデル又は心理音響モデルを記述する1つ又は複数のパラメータを導出する手段(120,120e,120d)又は受信する手段であって、前記導出する手段(120,120e,120d)が、前記1つ又は複数のパラメータとして予測係数を計算するように構成されている、導出する手段(120,120e,120d)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)と、を備え、
前記1つ又は複数のパラメータが、少なくとも1つのDOAに関する情報を少なくとも含み、
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのダウンミックスを行うように構成されており、かつ/又は、前記変換する手段(110,110e,110d)が、前記デコーダ(300)側で前記オーディオストリームのアップミックス生成を行うように構成されている、装置(100)。
【請求項2】
前記予測係数が、共分散行列に基づくか、前記1つ又は複数のパラメータに基づいて計算される、請求項1に記載の装置(100)。
【請求項3】
予測係数が
に基づいて計算され、特に、
の式のビーズに基づいて計算され、行列の要素が、
及び
であり、
が、
及び
の次数及び指数を有する実際の球面調和関数である、請求項2に記載の装置(100)。
【請求項4】
前記1つ又は複数のパラメータが、拡散係数又は1つ若しくは複数のDOA又はエネルギー比に関する情報を少なくとも更に含み、かつ/又は、前記1つ又は複数のパラメータが前記オーディオストリームから導出される、請求項1、2又は3に記載の装置(100)。
【請求項5】
前記導出する手段(120,120e,120d)が、前記音響モデル又は前記心理音響モデルから共分散行列又は共分散行列を計算するように構成されている、請求項1に記載の装置(100)。
【請求項6】
前記導出する手段(120,120e,120d)が、前記DoA及び拡散係数又はエネルギー比に基づいて共分散行列を計算するように構成されている、請求項1から5のいずれか一項に記載の装置(100)。
【請求項7】
前記導出する手段(120,120e,120d)が、拡散度、球面調和関数、及び時間依存スカラー値信号に関する情報に基づいて、特に
の式であって、式中、
が、次数及び指数
及び
を有する球面調和関数であり、s(t)が、時間依存スカラー値信号である、式に基づいて、かつ/又は、
信号エネルギーに基づいて、特に
の式であって、式中、ψが前記拡散度を表し、
が前記オーディオストリームに関する前記信号エネルギーを表す、式に基づいて、かつ/又は、
の式であって、式中
が前記信号エネルギーである、式に基づいて、かつ/又は、
の式に基づいて、かつ、yチャンネル及びzチャンネルに関して類似して、共分散行列を計算するように構成されている、請求項6に記載の装置(100)。
【請求項8】
前記信号エネルギー
が、前記オーディオストリームから直接計算され、かつ/又は、
前記エネルギー
が前記オーディオストリームの前記モデルから概算される、請求項7に記載の装置(100)。
【請求項9】
前記オーディオストリームが、メタデータエンコーダ(233)又はメタデータデコーダ(333)を備えたパラメータ推定器(232)又はパラメータ推定器(232)によって、かつ/又は分析フィルタバンクによって前処理される、請求項1から8のいずれか一項に記載の装置(100)。
【請求項10】
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのミキシングを行うように構成されている、請求項1から9のいずれか一項に記載の装置(100)。
【請求項11】
前記1つ又は複数のパラメータが、予測パラメータを含む、請求項1から10のいずれか一項に記載の装置(100)。
【請求項12】
指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置(100)であって、
前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータを導出する手段(120,120e,120d)又は受信する手段であって、前記1つ又は複数のパラメータが、前記オーディオストリームのすべてのチャンネルを復元するために送信され、DoAに関する情報を少なくとも含む、導出する手段(120,120e,120d)又は受信する手段と、
前記1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)と、を備え、
前記オーディオストリームが、前記オーディオストリームのチャンネルのすべて又はサブセットを変換することによって導出され、
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのダウンミックスを行うように構成されており、かつ/又は、前記変換する手段(110,110e,110d)が、前記デコーダ(300)側で前記オーディオストリームのアップミックス生成を行うように構成されている、装置(100)。
【請求項13】
前記1つ又は複数のパラメータが、送信前に量子化される、請求項12に記載の装置(100)。
【請求項14】
前記1つ又は複数のパラメータが、送信後に逆量子化される、請求項12又は13に記載の装置(100)。
【請求項15】
前記パラメータが、経時的に平滑化される、請求項12から14のいずれか一項に記載の装置(100)。
【請求項16】
前記変換が、トランスポートチャンネル間の相関がKarhunen-Loeve変換又は予測行列の使用によって低減されるように計算される、請求項12から15のいずれか一項に記載の装置(100)。
【請求項17】
前記オーディオストリームの入力のチャンネル間共分散行列が、前記オーディオストリームの信号のモデルから推定される、請求項12から16のいずれか一項に記載の装置(100)。
【請求項18】
変換行列が、前記オーディオストリームのモデルの共分散行列から導出される、請求項12から17のいずれか一項に記載の装置(100)。
【請求項19】
変換行列が、異なる周波数帯域に対して異なる方法を使用して計算される、請求項12から18のいずれか一項に記載の装置(100)。
【請求項20】
前記変換する手段によって使用される変換方法の少なくとも1つが、オーディオチャンネルのベクトルと定数行列との乗算である、請求項12から19のいずれか一項に記載の装置(100)。
【請求項21】
前記変換する手段によって使用される変換方法の少なくとも1つが、オーディオチャンネルのオーディオ信号ベクトルの前記チャンネル間共分散行列に基づく予測を使用する、請求項12から20のいずれか一項に記載の装置(100)。
【請求項22】
前記変換する手段によって使用される変換方法の少なくとも1つが、前記DOA及び追加の拡散係数又はエネルギー比に基づく前記チャンネル間共分散行列に基づく予測を使用する、請求項12から21のいずれか一項に記載の装置(100)。
【請求項23】
前記1つ又は複数のパラメータを前記導出する手段(120,120e,120d)が、前記オーディオストリームの1次又は高次のアンビソニックス入力信号の前記チャンネルのすべて又はサブセットを処理するように構成されている、請求項12から22のいずれか一項に記載の装置(100)。
【請求項24】
前記オーディオストリームのサウンドシーンが、
オーディオトランスポートチャンネル信号のベクトルが、回転行列によって前もって乗算され、
モデルパラメータ及び/又は予測係数が、トランスポートチャンネル信号の前記変換に応じて変換され、かつ、
出力信号の非トランスポートチャンネルが、前記変換されたモデル及び/又は予測係数のパラメータを使用して再構築される
ような方法で回転可能である、請求項12から23のいずれか一項に記載の装置(100)。
【請求項25】
請求項1から24のいずれか一項に記載の装置(100)を備えたエンコーダ(200)。
【請求項26】
請求項1から24のいずれか一項に記載の装置(100)を備えたデコーダ(300)。
【請求項27】
請求項25に記載のエンコーダ(200)と、請求項26に記載のデコーダ(300)とを備えたシステムであって、前記エンコーダ(200)が、予測行列及び/又はダウンミックスを計算するように構成され、デコーダ(300)が、推定されたパラメータ又は前記音響モデルの前記1つ若しくは複数のパラメータからアップミックス行列を互いに独立して計算するように構成されている、システム。
【請求項28】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための方法であって、
前記オーディオストリームからのオーディオストリームの音響モデル又は心理音響モデルを記述する前記1つ又は複数のパラメータを導出又は受信するステップであって、導出するステップが、前記1つ又は複数のパラメータとして予測係数を計算することを含み、前記1つ又は複数のパラメータが、DOAに関する情報を少なくとも含む、導出又は受信するステップと、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記エンコーダ(200)側での前記オーディオストリームのダウンミックスを含み、かつ/又は、変換するステップが、前記デコーダ(300)側での前記オーディオストリームのアップミックスを含む、変換するステップと、
を含む方法。
【請求項29】
指向性オーディオコード化システムにおいてオーディオストリームを変換する方法であって、
DOAによってパラメータ化された前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ及び拡散度又はエネルギー比パラメータを導出又は受信するステップであって、前記音響モデルパラメータが、オーディオストリームの入力のすべてのチャンネルを復元し、DOAに関する情報を少なくとも含むように送信され、前記送信されたオーディオストリームが、前記オーディオストリームの前記チャンネルのすべて又はサブセットを変換することによって導出される、導出又は受信するステップと、
1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記エンコーダ(200)側での前記オーディオストリームのダウンミックスを含み、かつ/又は、変換するステップが、前記デコーダ(300)側での前記オーディオストリームのアップミックスを含む、変換するステップと、
を含む方法。
【請求項30】
コンピュータ上で実行されると、請求項28又は29に記載の方法を実行するためのコンピュータプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置に関する。更なる実施形態は、対応する方法及び対応するコンピュータプログラムに関する。
【0002】
更なる実施形態は、指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置に関する。更なる実施形態は、対応する方法及びコンピュータプログラムに関する。
【0003】
更なる実施形態は、上記で定義された装置のうちの1つを符号化のための対応する方法へと備えるエンコーダ、並びに上記で論じられた装置のうちの1つ及び復号のための対応する方法を備えるデコーダに関する。好ましい実施形態は、一般に、音響モデルパラメータに基づく予測によるオーディオチャンネルの圧縮の技術分野に関する。
【背景技術】
【0004】
実施形態に関連する従来技術は、
指向性オーディオコード化(DirAC)と、
3GPP規格化団体のコンテキストで提示された空間オーディオ用のメタデータ支援EVSコーデックと、
の、主に2つの以前から知られているオーディオコード化方式に由来する。
【0005】
両方の概念を簡単に要約する。
指向性オーディオコード化
DirACは、空間音場の符号化及び再生のためのパラメトリック技術である[1,2,3,4]。人間の聴取者は、臨界帯域ごとに2つのキューしか処理することができないという心理音響学的議論[4]によって、1つの音源の到来方向(DOA)及び両耳間コヒーレンス[4]が正当化される。したがって、臨界帯域ごとに2つのストリーム、すなわち、所与の方向からの1つの点源からのコヒーレントチャンネル信号を含む指向性ストリームと、インコヒーレントな拡散信号を含む拡散ストリームとを再生することで十分である[4]。
【0006】
エンコーダ側の分析段階を図1aの図に示す。図1は、入力側にバンドパスフィルタ11と、エネルギー及び強度を判定するための2つのエンティティ12及び13とを有するエンコーダクレームを示す。エネルギー及び強度に基づいて、拡散度は、例えば時間平均を使用することができる拡散度判定器14によって判定される。拡散度判定器14の出力はΦである。強度に基づいて、方向(Azi及びEle)が方向判定器15によって判定される。Φ、Azi、及びEleの情報はメタデータとして出力される。
【0007】
入力は、4つのBフォーマットチャンネル信号の形態で提供され、フィルタバンク(FB)で分析される。このFBの各バンドについて、点源のDOA、及び拡散度が抽出される[3,4]。各帯域におけるこれら2つのパラメータ、方位角及び仰角によって表されるDOA、並びに拡散度は、DirACメタデータ[3,4]を含み、その効率的な圧縮はRefで処理されている[3,4,5]。
【0008】
図1bに示すように、Bフォーマット信号及びメタデータから、上述した2つのストリームが合成される。デコーダ20は、メタデータψを処理するためのプロセッサ経路21と、メタデータAzi及びEleを処理するためのプロセッシング経路22とを備えている。更に、デコーダ20は、Bフォーマット信号(Mic信号(W、X、Y、Z)参照)を処理するためのバンドパスフィルタ及び仮想マイクロフォンを含むプロセッシング経路23を備えている。次いで、3つのプロセッシング経路21~23はすべて、スピーカチャンネル信号を出力するように、相関除去器を含むエンティティ24によって結合される。2つのスピーカを復号することが望まれる場合、指向性ストリームは、例えばベクトルベースの振幅パンニング(VBAP)を使用して[6]、DirACパラメータで符号化された方向に点源をパンニングすることによって得ることができる[3,4]。拡散ストリームの場合、相関のない信号をスピーカに供給する必要がある[4]。
【0009】
図2は、(5)からのDirACエンコーダを示す。図2は、DirAC解析31及び後続の空間メタデータエンコーダ32を含む。DirAC解析は、Bフォーマットを処理して、拡散度及び方向パラメータを空間メタエンコーダ32に出力する。並行して、Bフォーマットが、ビームフォーミング/信号選択のためのエンティティによって実行される(参照番号33を参照されたい)。エンティティ33の出力はその後、EVSエンコーダ34によって処理される。図3は、対応するDirACデコーダを示す。図3のDirACデコーダは、空間メタデータデコーダ41及びEVSデコーダ42を備える。次いで、両方の復号信号が、スピーカチャンネル又はFOA/HOAを出力するためにDirAC合成43によって使用される。
【0010】
マルチチャンネル(MC)又はオブジェクトベースのオーディオを伴う高次アンビソニックス(HOA)へのこのシステムの拡張は、Fuchsらによって提示されている[5]。そこで、著者らは、図2の符号33に示すように、適切なダウンミックスチャンネルを選択するために、又はトランスポートストリームを取り込むために仮想マイクロフォンの適切なビームを見つけるために、Bフォーマット入力信号の追加の処理を実行することを提案する。これらのトランスポートストリームは次いで、EVSエンコーダを使用して符号化される。デコーダ側では、対応するデコーダが適用される。エンコーダ及びデコーダにおける信号経路は、図2及び3に見ることができる。更に、知覚可能な品質損失なしに可能な限り低いビットレートでメタデータの伝送を保証するために、高度な符号化方式(図2の32を参照されたい)が提示される[5]。参照[2]のシステムとは対照的に、デコーダ出力信号は、ヘッドフォン又はスピーカ信号を取得するために任意のレンダラを採用することができるように、HOAフォーマットで再び生成することができる。
【0011】
したがって、エンコーダからデコーダに送信されるデータのストリームは、EVSビットストリームとDirACメタデータストリームとの両方を含まなければならず、メタデータとダウンミックスの個々のEVSコード化チャンネルとの間の利用可能なビットの最適な分布を見つけるために注意が払われなければならない。
【0012】
メタデータ支援EVSコーデック
規格化団体において以前に提案されている空間オーディオ記録の符号化及び再生に対する代替手法は、メタデータ支援EVSコーダである[7]。これは空間オーディオ再構成(SPAR)とも呼ばれる[7]。図4は、エンコーダ入力からデコーダ出力までの信号経路を示している。DirACと同様に、SPARエンコーダは、FOA又はHOA入力信号からメタデータ及びダウンミックスを抽出する[7]。この処理は、ここでもFBドメインで行われる[7]。
【0013】
図4は、[7]に示すような空間オーディオのためのメタデータ支援EVSコーダを示す。EVSコーダ50は、M個のオブジェクト、HOAシーン、及びチャンネルを受信して、N次アンビソニックスチャンネルと共にM個のオブジェクトをSPARエンコーダ52に出力するコンテンツ取り込みエンジン51を備える。SPARエンコーダは、ダウンミックス及びWXYZエンジン圧縮変換を備える。SPARメタデータ及びFOAデータは、オブジェクトメタデータと共にEVS及びメタデータエンコーダ53に出力される。次いで、このデータストリームは、高没入品質データ及び低没入品質データ(FOA及び予測メタデータを伴うSPARメタデータ及びオブジェクトメタデータ)をそれぞれのコーダに配信するモードスイッチ54によって処理される。高没入コーダは参照番号55a及び55bでマークされており、低没入コーダは参照番号56a及び56bでマークされている。
【0014】
ダウンミックスは、FOA信号のエネルギー圧縮が達成され(図4参照)、次いで最大4インスタンスのEVSモノラルエンコーダを使用して符号化されるように実行される。これらのステップは、図2のDirACのビームフォーミング又はチャンネル選択及びEVS符号化ステップに類似している。デコーダ側では、FOA信号は、プレディクタ係数(PC)を含む圧縮されたダウンミックスチャンネル及びメタデータから再構成される[7]。参照[7]における擬似コードによれば、これは、より少数のチャンネルとゲイン行列との帯域ごとの乗算によって実現される。HOA信号は、送信されたSPARメタデータを使用して再構成することもできる[7]。メタデータストリームは、ハフマンコード化によってトランスポートのために圧縮される[7]。
【0015】
空間オーディオ再生におけるヘッドトラッキング
空間サウンドシーンがヘッドフォン上で再生される場合、一貫した現実的な体験を生み出すために、聴取者の頭部の動きを追跡し、それに応じてサウンドシーンを回転させることが必要とされる。この目的のために、広く採用されている技術は、チャンネル信号のベクトルに対する回転行列の事前乗算によってアンビソニックスドメインでシーンを回転させることである[8,9,0]。この回転行列は、典型的には、参照[11]の方法によって計算される。別の手法は、出力信号を仮想スピーカにレンダリングし、振幅パンニングによって回転を実行することである[9,6]。
【発明の概要】
【0016】
上記の解決策のすべては、以下に説明するように欠点を有する。これらの欠点に対する改善策は、本発明の一部である。
【0017】
上で参照したシステムの両方において、いくつかの重要な課題は、(i)EVSを介した伝送のために入力信号の最もよく適合するチャンネルを選択すること、(ii)それらの間の冗長性を低減するこれらのチャンネルの表現を見つけること、及び(iii)可能な限り最良の知覚品質が達成されるように、メタデータと個々のEVS符号化オーディオストリームとの間で利用可能なビットレートを分配することである。これらの決定は信号特性に大きく依存するので、信号適応処理を実施しなければならない。
【0018】
本発明の目的は、ダウンミックスチャンネルの再構成を可能にするために必要とされる追加のメタデータの量が低減される一方でコード化効率が増大されるコード化手法を可能にすることである。
【0019】
本発明の一実施形態は、2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置を提供する。この装置は、変換する手段と、導出する手段及び/又は受信する手段とを備える。変換する手段は、1つ又は複数のパラメータに依存する信号適応的な方法でオーディオストリームを変換するように構成されている。導出する手段は、オーディオストリーム(信号)の音響又は心理音響モデルを記述する1つ又は複数のパラメータを導出するように構成されている。デコーダ側では、予測パラメータを受信することができることに留意されたい(受信する手段を参照されたい)。前述のパラメータは、DOA(到来方向)に関する情報を少なくとも含み、ここで、1つ又は複数のパラメータは、例えばエンコーダ側(又は、例えばデコーダ側でちょうど受信される)で、オーディオストリームから導出される場合がある。
【0020】
更なる実施形態によれば、導出する手段は、共分散行列又は音響信号のパラメータに基づいて予測係数を計算するか、又は予測係数を計算するように構成される。
【0021】
実施形態によれば、導出する手段は、モデル/音響モデルから、又は一般にDOA若しくは追加の拡散係数若しくはエネルギー比に基づいて共分散行列を計算するように構成される。
【0022】
実施形態によれば、1つ又は複数のパラメータは予測パラメータを含むことに留意されたい。
【0023】
本発明の実施形態は、エンコーダ側とデコーダ側との両方の予測係数を、音響モデル又は音響モデルパラメータのようなモデルから近似することができるという原理に基づいている。指向性オーディオコード化システムでは、これらのパラメータは常にデコーダ側に存在し、その結果、予測のために追加のメタデータビットは送信されない。したがって、デコーダ側でダウンミックスチャンネルの再構成を可能にするために必要な追加のメタデータの量は、予測のナイーブな実施と比較して大幅に低減される。言い換えれば、これは、音響モデルを記述する1つ又は複数のパラメータを導出し、信号適応的方法でオーディオストリームを変換することの組合せが、入力信号の音響モデルに基づくチャンネル間予測の適用を介して、指向性オーディオコード化システム又は他の用途においてダウンミックスチャンネルを圧縮する手法を提供することを意味する。
【0024】
上記の実施形態では、主にDOAパラメータについて説明した。更なる実施形態によれば、更に拡散度情報/拡散係数を使用することができる。したがって、変換する手段に使用され、導出する手段によって導出される前述のパラメータは、拡散係数又は1つ若しくは複数のDOA又はエネルギー比に関する情報を含むことができる。例えば、1つ又は複数のパラメータは、オーディオストリーム自体から導出される。
【0025】
予測係数に関して、更なる実施形態によれば、予測係数は、DOAに対応する角度で評価された次数l及び指数mを有する実数又は複素球面調和関数Yl,mに基づいて計算されることに留意されたい。
【0026】
共分散行列に関して、更なる実施形態によれば、導出する手段は、拡散度、球面調和関数、及び時間依存スカラー値信号に関する情報に基づいて共分散行列を計算するように構成されることに留意されたい。例えば、計算は、
の式に基づく場合がある。式中、
が、度数及びインデックス
及び
を有する球面調和関数であり、s(t)が、時間依存スカラー値信号である、
更なる実施形態によれば、計算は、例えば、
の式を使用することにより、信号エネルギーに基づく場合がある。式中
は信号エネルギーを示している。
【0027】
代替的又は追加的に、
の式が使用されてもよい。式中、
は同様に信号エネルギーである。
【0028】
代替的又は追加的に、
の式が使用されてもよく、また、yチャンネル及びzチャンネルについては同様である。
【0029】
実施形態によれば、エネルギー
は、オーディオストリーム(信号)から直接計算される。代替的又は追加的に、エネルギー
は信号のモデルから推定される。
【0030】
更なる態様によれば、オーディオストリームは、メタデータエンコーダ又はメタデータデコーダとして備えたパラメータ推定器又はパラメータ推定器によって、かつ/又は分析フィルタバンクによって前処理される。
【0031】
更なる実施形態によれば、入力オーディオストリームは高次アンビソニックス信号であり、パラメータ推定はこれらの入力チャンネルのすべて又はサブセットに基づく。例えば、このサブセットは、1次のチャンネルを含むことができる。あるいは、このサブセットは、任意の次数の平面チャンネル又は任意の他の選択のチャンネルからなることができる。
【0032】
上述のように、実施形態は、上述の装置を備えるエンコーダを提供する。更なる実施形態は、上述の装置を備えたデコーダを提供する。エンコーダ側では、装置は、ミキシング、例えばオーディオストリームのダウンミックスを実行するように構成された変換する手段を備えることができる。デコーダ側では、変換する手段は、ミキシング、例えばオーディオストリームのアップミックス又はアップミックス生成を実行するように構成される。
【0033】
上述した装置はまた、指向性オーディオコード化システムにおいてオーディオストリームを変換するために使用されてもよい。実施形態によれば、装置は、変換する手段と、導出する手段とを備える。変換する手段は、1つ又は複数の音響モデルパラメータに依存する信号適応的な方法でオーディオストリームを変換するように構成されている。導出する手段は、オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ(DOA及び/又は拡散度及び/又はエネルギー比パラメータによってパラメータ化される)を導出するように構成される。前述の音響モデルパラメータは、オーディオストリームのすべてのチャンネルを復元するために送信され、DOAに関する情報を少なくとも含む。送信されたオーディオストリームは、オーディオストリームのチャンネルのすべて又はサブセットを変換することによって導出される。実施形態によれば、送信されたパラメータは、送信前に量子化される。実施形態によれば、パラメータは、送信後に逆量子化される。更なる実施形態によれば、パラメータを経時的に平滑化することができる。更なる実施形態によれば、量子化されたパラメータは、エントロピーコード化によって圧縮されてもよい。
【0034】
変換に関して、更なる実施形態によれば、変換は、トランスポートチャンネル間の相関が低減されるように計算されることに留意されたい。実施形態によれば、オーディオストリームの入力のチャンネル間共分散行列は、オーディオストリームの信号のモデルから推定される。例えば、オーディオストリーム信号のモデルの共分散行列から変換行列が導出される。共分散行列は、異なる周波数帯域に対して異なる方法を使用して計算することができる。変換する手段によって実行される変換に関して、一実施形態によれば、変換方法の少なくとも1つは、オーディオチャンネルのベクトルと定数行列との乗算であることに留意されたい。別の実施形態によれば、変換方法は、オーディオ信号ベクトルのチャンネル間共分散行列に基づく予測を使用する。別の実施形態によれば、変換方法の少なくとも1つは、DOA及び/又は拡散係数及び/又はエネルギー比によって記述されるモデル信号のチャンネル間共分散行列に基づく予測を使用する。
【0035】
別の実施形態によれば、かつ、指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置に主に適用可能であり、オーディオストリーム(信号)によって符号化されるシーンは、
オーディオトランスポートチャンネル信号のベクトルが、回転行列によって前もって乗算され、
モデルパラメータが、トランスポートチャンネル信号の変換に応じて変換され、かつ、
出力信号の非トランスポートチャンネルが、変換されたモデルのパラメータを使用して再構築される
ような方法で回転可能である。
【0036】
上述したように、装置は、エンコーダ及びデコーダに適用することができる。別の実施形態は、エンコーダとデコーダとを備えるシステムを提供する。エンコーダ及びデコーダは、音響モデルの推定又は変換パラメータから予測行列及び/又はダウンミックス及び/又はアップミックス行列を互いに独立して計算するように構成される。
【0037】
更なる実施形態によれば、上述の手法は、方法によって実施することができる。別の実施形態は、2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための方法であって、
オーディオストリームからのオーディオストリームの音響モデル又は心理音響モデルを記述する1つ又は複数のパラメータを導出又は受信するステップであって、前述のパラメータが、DOAに関する情報を少なくとも含む、導出又は受信するステップと、
1つ又は複数のパラメータに依存する信号適応的な方法でオーディオストリームを変換するステップと、
を含む、方法を提供する。
【0038】
別の実施形態は、指向性オーディオコード化システムにおいてオーディオストリームを変換する方法であって、
オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ(DOAによってパラメータ化されたオーディオストリーム及び拡散度又はエネルギー比パラメータ)を導出するステップであって、音響モデルパラメータが、オーディオストリームの入力のすべてのチャンネルを復元し、DOAに関する情報を少なくとも含むように送信され、送信されたオーディオストリームが、オーディオストリームのチャンネルのすべて又はサブセットを変換することによって導出される、導出するステップと、
1つ又は複数の音響モデルパラメータに依存する信号適応的な方法でオーディオストリームを変換するステップと、
を含む、方法を提供する。
【0039】
更なる実施形態によれば、方法は、コンピュータ実装されてもよい。したがって、一実施形態は、コンピュータ上で実行されると、上述の開示による方法を実施するためのコンピュータプログラムを提供する。
【0040】
本発明の実施形態は、添付の図面を参照して以下に説明される。
【図面の簡単な説明】
【0041】
図1a】DirAC分析及び合成の概略図である。
図1b】DirAC分析及び合成の概略図である。
図2】DirACエンコーダの概略図である。
図3】DirACデコーダの概略図である。
図4】空間オーディオのためのメタデータ支援EVSの概略図である。
図5a】1つのパンニングされた点源のみを含む信号のフレーム番号(時間)の関数としての1つの周波数帯域の共分散行列要素を示す図であり、モデル行列及び正確な行列は(実施形態を示すために)非常によく一致する。
図5b】実施形態を示すための、EigenMike記録(モデル及び正確な行列が良好な品質の一致を示す)からの信号のフレーム番号(時間)の関数としての1つの周波数帯域の共分散行列要素を示す図である。
図6】基本的な実施形態による(デコーダ及び/又はエンコーダの一部としての)オーディオストリームを変換するための装置の概略図である。
図7a】更なる実施形態によるトランスポートチャンネルの予測コード化を伴うDirACシステムの概略図である。
図7b】更なる実施形態によるトランスポートチャンネルの予測コード化を伴うDirACシステムの概略図である。
【発明を実施するための形態】
【0042】
以下、添付の図面を参照して本発明の実施形態を以下に説明するが、同一又は類似の機能を有する対象には同一の参照番号が付されており、その説明は交換可能又は相互に適用可能である。
【0043】
本発明の実施形態を説明する前に、本発明のいくつかの特徴の説明を別々に行う。
【0044】
チャンネル圧縮
トランスポートチャンネルの圧縮のために、最適な非相関化、したがってエネルギー圧縮がKarhunen-Loeve変換(KLT)によって得られることが知られている(例えば[12]を参照されたい)。KLTは、信号ベクトルをチャンネル間共分散行列の固有ベクトルの基に変換する。
の形式のBフォーマット入力信号に関し、チャンネル間共分散行列
の要素が、
によって与えられ、また、他のチャンネルの組合せについて同様である。KLTでは、行列2が対角化され、すべてのチャンネル間相関が完全に除去され、したがって、信号の冗長性が最も低い表現が得られる。しかしながら、ほとんどの現実世界のシステムにおけるKLTの実装を妨げる2つの困難が存在する:必要な固有ベクトル計算の計算複雑度及び結果として得られる変換行列の送信のためのメタデータビット使用は、しばしば高すぎると考えられる。
【0045】
予測
妥協として、予測行列を介してx、y、及びzとwチャンネルとの相関のみを除去することができる。
この手法では、行列対角化は必要ではなく、3つの予測係数
のみが送信される。フレーム長及び信号特性に応じて、この手法のためのメタデータの量は依然としてかなりのものであり得る。我々の実験によれば、これは10kbps程度である。これは、これらのメタデータがDirACシステム自体に必要なメタデータと共に送信され、全体的なビット要件を高めるので、特に注目に値する。
【0046】
これは、当然ながら、これら2つのメタデータストリームがどのように接続されるかについての疑問を提起する。以下に説明する本発明は、DirAC又はSPARトランスポートチャンネルの圧縮を目的とした予測と、DirACで送信されたモデルパラメータとの間の関連性を明確にし、フルHOA入力信号のデコーダ側の再構成を可能にする。我々は、トランスポートチャンネルの圧縮のためのDirACシステムの一部として既に送信されたメタデータの再使用への経路を提供する。したがって、我々の方法は、追加のメタデータ送信を回避しながら、トランスポートチャンネルの静的選択による受動的なダウンミックスと比較してDirACの知覚品質を改善することができる。
【0047】
ヘッドトラッキング
上述したようなシーン回転への手法は両方とも、重大な欠点を有する。前者の場合、信号のサンプルごとの行列乗算のために、計算の複雑さが非常に高い。後者の場合、品質は最適ではない[9]。したがって、品質を過度に損なうことなく前者の方法の複雑さを低減することが望ましい。本発明は、低次元空間で回転を適用するための経路を提供する。空間オーディオのパラメトリックコード化のための前述の2つのシステムのフレームワーク内で、これは、アンビソニックスドメインにおけるチャンネルのサブセットの回転をメタデータドメインにおける適切な変換と組み合わせることによって実現することができる。
【0048】
上記では、共分散行列から導出された変換を介して相関を低減することによってトランスポートチャンネルの圧縮を達成することができることが確立されている。以下の説明は、容易に利用可能なDirACモデルパラメータ又は一般的な音響モデルパラメータから、エンコーダ側とデコーダ側との両方でどのようにしてそのような変換を独立して得ることができるかという手法を示す。
【0049】
実施形態によれば、共分散行列は、モデル信号から判定され得る。
【0050】
これは、指向性オーディオコーディング(上記を参照されたい)のパラメータ帯域の1つであると考えられる。簡潔にするために、表記法では周波数帯域指数を省略する。まず、信号の非拡散指向性部分に着目する。
を、複合角度変数
によって指定された単位球上の点源からの音の到来方向(DOA)とする。単位球上のこの音源による音圧は、
の式によって、時間依存信号
及び球上のDirac分布
を伴って与えられる。
【0051】
我々は、パンニングされた点源からの指向性部分
と、個々のチャンネル間に相関のない無相関拡散部分とを含むBフォーマット又は1次アンビソニックス(FOA)信号を考慮する。このため、指向性部分の信号ベクトルは、
のようになり、式中、
は、次数及び指数番号l及びmを有する球面調和関数である。
【0052】
この結果は、球面調和関数における1次までの7のDirac関数の展開から容易に読み取ることができる([13]も参照)。
拡散部分と共に、フルBフォーマット信号は、
のようになる。
【0053】
拡散部分の
成分における
の前因子は、
信号の正規化から生じる。
【0054】
このモデル信号が与えられると、ここで、共分散行列要素を簡単に評価することができる。非対角行列要素について、我々は、
であることを見出す。ここで、積分
にわたる整数を含む項は、拡散成分がs(t)との相関、又は互いの間の相関を示さないと仮定されるため、消滅する。信号の指向性エネルギー
により、これを次のように計算することができる。
対角行列要素
は、
となり、拡散エネルギー
は、指向性のエネルギーに類似すると規定されている。他の対角行列要素も同様に続く。
【0055】
図5a及び図5bは、それぞれ信号パンニングされた点源及びEigenMike記録の時間の関数として共分散行列要素を示す。点源(図5a)の場合、DirACモデル信号(破線の青色線)と正確な計算信号(実線の赤色線)との比較に関して分かるように、一致は非常に正確である。EigenMike記録の場合、モデルは信号特徴を定性的に取り込む。
【0056】
DirACにおける予測
式4、12、及び13を使用し、直接エネルギー及び拡散エネルギー
及び
を総信号エネルギーEによって表すと、残りのパラメータは、常にDirACデコーダに存在する角度
及び拡散度又はエネルギー比のみである。したがって、追加の予測係数を送信する必要性を完全に回避することができる。
【0057】
あるいは、モデルは、周波数帯域のサブセットに対してのみ有効にすることができる。他の帯域では、予測係数は正確な共分散行列から計算され、明示的に送信される。これは、知覚的に最も関連する周波数に対して非常に正確な予測が必要な場合に有用であり得る。多くの場合、より低い周波数、例えば2kHz未満で入力信号をより正確に再現することが望ましい。クロスオーバー交差周波数の選択は、2つの異なる意見から動機付けられ得る。
【0058】
第1に、音源の位置特定は、低周波数及び高周波数に関して異なる機構に依存することが知られている[14]。両耳間位相差(IPD)は低周波数で評価されるが、両耳間レベル差(ILD)は、より高い周波数での音源の局在化に対して支配的である[14]。したがって、より低い周波数での予測の高い精度及び位相のより正確な再現を達成することがより重要である。その結果、より低い周波数のための予測パラメータのより要求が厳しいがより正確な送信に頼ることを望む場合がある。
【0059】
第2に、結果として生じるダウンミックスチャンネル用の知覚オーディオコーダは、上記の議論のために、しばしば、低周波数帯域を高周波数帯域よりも正確に再生する。例えば、低ビットレートでは、より高い周波数をゼロに量子化し、より低い周波数のコピーから復元することができる[15]。したがって、システム全体にわたって一貫した品質を提供するために、採用されるコアコーダの内部パラメータに従ってクロスオーバー周波数を実装することが望ましい場合がある。
【0060】
得られたDirACシステムの信号経路を図7a/bに示す。先に提示した図2及び3のシステムと比較した主な改善は、音響モデルパラメータを使用したトランスポートチャンネルの適応圧縮である。各帯域におけるDOA角度及び拡散度の通常の推定の後、モデル共分散行列及び予測係数は、式12から14に従って計算される。次に、入力チャンネルが混合され、EVSを使用してコード化される。デコーダ側では、送信されたモデルパラメータから予測係数が再度計算され、変換が反転される。次いで、非トランスポートチャンネルは、上述したようにDirACデコーダによって再構成される。
【0061】
複雑さの低いヘッドトラッキング
を、次数
のHOAにおける出力チャンネル信号のベクトルとする。このため、このベクトルの次元は、N=(L+1)によって与えられる。従来の方法によってシーンの回転を実行するために、この信号は最初にDirAC又はSPARデコーダで再構成され、信号の各サンプルでサイズN×Nの回転行列
によって乗算される。
【0062】
ここで、
を、図7、符号110dに示すように逆変換を適用した後のトランスポートされたチャンネルの信号ベクトルをとする。ベクトル
の次元は、
のほとんどのチャンネルがパラメトリックに再構成されるため、M<Nである。ここで、
におけるすべてのチャンネルが次数
を有する基底関数(球面調和関数)に属するように次数
を選択し、次数
までのすべてのチャンネルに
の事前乗算を介して回転を適用する。したがって、
であるすべてのチャンネルは回転の影響を受けず、信号ベクトルは矛盾した状態のままになる。
【0063】
我々の発明の重要な新規性は、ここでは、
の特性を利用することである:これはブロック対角であり、各々が特定の次数lに属し、
に関する行列要素は、
の任意のベクトルに適用される同じ回転のものと同一である[11]。したがって、
であるチャンネルを再構成する前に、

のブロックをDOAベクトル5に適用することができる。結果として、これらのチャンネルはシーン回転を含めて再構成され、全次元性
の行列乗算を実行する必要性を回避することができ、計算の複雑さを大幅に低減することができる。
【0064】
上述の手法は、図6に示すように装置によって使用することができる。装置100は、エンコーダ又はデコーダの一部であってもよく、変換する手段110及び導出する手段120を少なくとも備える。この装置100は、エンコーダ及びデコーダ側に適用可能である。まず、エンコーダ側の装置の機能について説明する。
【0065】
エンコーダの一部である装置100がHOA表現を受信すると仮定する。この表現は、エンティティ110及び120に提供される。例えば、分析フィルタバンク又はDirACパラメータ推定器などによるHOA信号の前処理が実行される(図示せず)。入力オーディオストリームHOAの音響モデル又は心理音響モデルを記述する1つ又は複数のパラメータ。例えば、それらは、少なくとも到来方向(DOA)に関する情報、又は任意選択的に拡散度又は挿入のエネルギー比端に関する情報を含むことができる。
【0066】
エンティティ120は、1つ又は複数のパラメータ、例えば予測パラメータ/予測係数の導出を実行する。
【0067】
拡散度及び/又は到来方向は、上述の音響モデルのパラメータであってもよい。音響モデルに基づいて、又は音響モデルを記述するパラメータに基づいて、予測係数をエンティティ120によって計算することができる。更なる実施形態によれば、中間ステップが使用されてもよい。更なる実施形態による予測係数は、例えば音響モデルから、導出する手段120によっても計算される共分散行列に基づいて計算される。多くの場合、そのような共分散行列は、拡散度、球面調和関数、及び/又は時間依存スカラー値信号に関する情報に基づいて計算される。例えば、式
では、
は次数及び指数
及び
を有する球面調和関数であり、s(t)は時間依存スカラー値信号である。共分散行列の計算の説明は、上記で非常に詳細になされている。更なる実施形態によれば、上述の追加の計算方法を使用することができる。
【0068】
これは、実施形態によれば、エンティティ120が以下の計算を実行することを意味する。オーディオストリームHOAからのDOA又は拡散度のような音響又は心理音響モデルパラメータの抽出
音響モデルの設定されたパラメータに基づく共分散行列の導出
共分散行列に基づく予測パラメータの計算であって、予測パラメータが、別のエンティティ、例えばエンティティ110によって使用され得る。したがって、エンティティ120の出力は、パラメータ、特にエンティティ110に転送される予測パラメータである。
【0069】
エンティティ110は、変換、例えばダウンミックス生成を実行するように構成される。このダウンミックス生成は、入力信号、ここではHOA信号に基づく。しかしながら、この場合、変換は、エンティティ120によって導出されるような1つ又は複数のパラメータに依存する信号適応的な方法で適用される。
【0070】
パラメータ、例えばチャンネル間予測係数が音響信号モデル又は音響信号モデルのパラメータから導出される新規な手法により、信号適応的な方法でミキシング/ダウンミキシングのような変換を実行することが可能である。例えば、この原理を使用して、空間オーディオ信号用のDirACシステムの拡張を開発することができる。この拡張は、トランスポートチャンネルとしてのHOA入力信号のチャンネルのサブセットの静的選択と比較して品質を改善する。更に、これは、チャンネル間相関を低減する信号適応変換に対する以前の手法と比較して、メタデータビット使用量を低減する。メタデータの節約は、ひいては、EVSビットストリームのためにより多くのビットを解放し、システムの知覚品質を更に改善することができる。追加の計算複雑度は無視できる。これらの利点は、DirACシステムで考慮される信号モデルと、予測コード化方式でサイド情報として通常送信される予測係数との間の数学的接続の導出から直接もたらされる。
【0071】
原理はエンコーダの文脈で説明されているが、デコーダ側にも適用することができる。デコーダ側では、装置はまた、変換手段と、変換手段110で使用される1つ又は複数のパラメータを導出する手段(参照符号120を参照されたい)とを備える。例えば、デコーダは、EVSビットストリームのようなコード化された信号と共に、音響/心理音響モデルに関する情報又は音響/心理音響モデルのパラメータ(一般的には、予測係数を判定することを可能にするパラメータ)を含むメタデータを受信する。EVSビットストリームは変換手段110に提供され、ここで、メタデータは、導出する手段120によって使用される。導出する手段120は、例えばDOAに関する情報を含むメタデータパラメータに基づいて判定する。例えば、判定されるパラメータは、予測パラメータであってもよい。メタデータが、例えばエンコーダ側でオーディオストリームから導出されることに留意されたい。次いで、これらのパラメータ/予測パラメータは、変換手段110によって使用される。この変換手段110は、アップミキシングのような逆変換を実行して、FOA信号のような復号信号を出力するように構成されてもよい。このFOA信号は、次いで、HOA信号又は直接スピーカ信号を判定するように更に処理することができる。更なる処理は、例えば、分析フィルタバンクを含むDirAC合成を含むことができる。
【0072】
なお、予測係数の算出は、デコーダにおいてもエンコーダと同様に行われてもよい。この場合、パラメータはメタデータデコーダによって前処理されてもよい。
【0073】
図7a及び図7bを参照して、デコーダ側及びエンコーダ側における上記の手法の詳細な実施態様を説明する。
【0074】
図7aは、実施形態による、変換する中央エンティティ手段110e及び1つ又は複数のパラメータを導出する手段120eを有するエンコーダ200を示し、変換する手段110eは、エンコーダ200の入力から受信されるダウンミックス生成処理HOAデータとして実装することができる。これらのデータは、エンティティ120eから受信したパラメータ、例えば予測係数を考慮して処理される。ダウンミックス生成の出力は、ビット割り当てエンティティ212及び/又は合成フィルタバンク214に適合させることができる。エンティティ212及び214によって処理された両方のデータストリームは、EVSコーダ216に転送される。EVSコーダ216は、コード化を行い、コード化されたストリームをマルチプレクサ230に出力する。
【0075】
エンティティ120eは、この実施形態では、2つのエンティティ、すなわち、参照符号121でマークされたモデル及び/又はモデル共分散行列を判定するためのエンティティ、並びに参照符号122でマークされた予測係数を判定するためのエンティティを含む。実施形態によれば、エンティティ122は、例えばDOAのような1つ又は複数のモデルパラメータに基づいて、共分散行列の判定を実行する。エンティティ122は、例えば共分散行列に基づいて予測係数を判定する。
【0076】
エンティティ120eは、更なる実施形態によれば、例えばDirACパラメータ推定器232及び分析フィルタバンク231によって前処理されたHOA信号又はHOA信号の導関数を受信することができる。DirACパラメータ推定器232の出力は、到来方向(上述したようにDOA)に関する情報を与えることができる。次いで、この情報は、エンティティ120e、特にエンティティ121によって使用される。更なる実施形態によれば、エンティティ232の推定パラメータはまた、メタデータエンコーダ233によって使用されてもよく、符号化されたメタデータストリームは、符号化されたHOA信号/符号化されたオーディオストリームを出力するように、マルチプレクサ230によってEVSコード化ストリームと共に多重化される。
【0077】
図7bは、実施形態によれば入力にデマルチプレクサ330を備えるデコーダ300を示している。デコーダ300は、中央エンティティ120d及び110dを備えている。エンティティ110dは、デマルチプレクサ330から受信された信号のアップミキシングのような変換、例えば逆変換を実行するように構成されている。受信された入力信号は、エンティティ316によって復号され、分析フィルタバンク314によって更に処理されるEVS符号化信号であってもよい。変換器110dの出力はFOA信号であり、その後、デマルチプレクサ330を介して受信されたメタデータを考慮に入れてDirAC合成によって更に処理することができる。このために、メタデータ経路はメタデータデコーダ333を備えてもよい。
【0078】
DirAC合成エンティティは、参照符号335によってマークされており、DirAC合成エンティティ335の出力は、HOA信号又はヘッドフォン/スピーカ信号を出力するように合成フィルタバンク336によって更に処理することができる。
【0079】
メタデータ、例えばメタデータデコーダ333によって復号されたメタデータは、エンティティ120dによって取得されたパラメータを判定するために使用される。この場合、エンティティ120dは、参照符号121によってマークされたモデル/モデル共分散行列を判定するための2つのエンティティと、(参照符号122によってマークされた)予測係数/一般パラメータを判定するためのエンティティとを含んでいた。エンティティ120dの出力は、エンティティ110dが行う変換に用いられる。
【0080】
以下、更なる態様について説明することができる。上述の実施形態は、2つ以上のチャンネルを有するオーディオストリームが別の表現に変換されるべきであるという仮定から始まる。上述の実施形態はまた、指向性オーディオコード化システムにおいてオーディオストリームを変換するために適用されてもよい。したがって、実施形態は、指向性オーディオコード化システムにおいてオーディオストリームを変換する装置及び方法を提供し、ここで、
a)入力信号のすべてのチャンネルを復元するために音響モデルパラメータが送信され、
b)パラメータは、少なくとも1つ(又は複数)のDOA及び拡散性を含み、
c)送信されたオーディオストリームが、入力信号のチャンネルのすべて又はサブセットを変換することによって導出され、
d)この変換が、DOA及び拡散度パラメータによってパラメータ化された入力信号のモデルから導出され、
e)この変換が、エンコーダ側とデコーダ側との両方で独立して信号適応的な方法で計算される。
【0081】
実施形態によれば、サウンドスキームは、
a)トランスポートチャンネル信号のベクトルが、適切なドメイン内の回転行列によって事前乗算され、
b)モデルパラメータ及び/又は予測係数が、トランスポートチャンネル信号の変換に応じて変換され、かつ、
c)出力信号の非トランスポートチャンネルが、これら変換されたモデルパラメータ及び/又は予測係数を使用して再構築される
ような方法で回転することができる。
【0082】
一般的な実施形態では、
a)変換が、信号の音響モデル又は心理音響モデルを記述するパラメータから導出され、
b)これらのパラメータが、少なくとも1つのDOA及び拡散度を含み、かる、
c)変換が信号適応的な方法で計算される
ように、2つ以上のチャンネルを有するオーディオストリームを別の表現に変換する装置及び方法に関する。
【0083】
更なる実施形態によれば、変換は、トランスポートチャンネル間の相関が低減されるように計算される。例えば、チャンネル間共分散行列を使用することができる。ここで、入力信号のチャンネル間共分散行列は、信号のモデルから推定される。更なる実施形態によれば、変換行列は、モデルの共分散行列から導出される。異なる周波数帯域に対して異なる方法を使用して計算された行列などの実施形態による。
【0084】
いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表すことは明らかであり、ブロック又はデバイスは方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロック又は項目又は特徴の説明を表す。方法ステップの一部又はすべては、例えばマイクロプロセッサ、プログラマブルコンピュータ、又は電子回路などのハードウェア装置によって(又は使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのいくらか1つ又は複数は、そのような装置によって実行されてもよい。
【0085】
本発明の符号化オーディオ信号は、デジタル記憶媒体に記憶することができ、インターネットなど、無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送することができる。
【0086】
特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えばフロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリを使用して実行することができ、これらはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働することができる)。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
【0087】
本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0088】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。
【0089】
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0090】
言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0091】
したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録して含むデータキャリア(又はデジタル記憶媒体、又はコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、又は記録媒体は、通常、有形及び/又は非一時的である。
【0092】
したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0093】
更なる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラマブル論理デバイスを含む。
【0094】
更なる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0095】
本発明による更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを受信機に転送する(例えば、電子的又は光学的に)ように構成された装置又はシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
【0096】
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部又はすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
【0097】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載の構成及び詳細の修正及び変形は、当業者には明らかであることが理解される。したがって、本明細書の実施形態の記載及び説明として提示される特定の詳細によってではなく、係属中の特許請求の範囲によってのみ限定されることが意図されている。
【0098】
参考文献
[1] Ville Pulkki. Directional audio coding in spatial sound reproduction and stereo
upmixing. In Audio Engineering Society Conference: 28th International Conference: The Future of Audio Technology-Surround and Beyond, Jun 2006.
【0099】
[2] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, 2007. V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, , and T. Pihlajamaeki. Directional audio coding - perception-based reproduction of spatial sound. 2009.
【0100】
[3] Andrea Eichenseer, Srikanth Korse, Oliver Thiergart, Guillaume Fuchs, Markus Multrus, Stefan Bayer, Dominik Weckbecker, Juergen Herre, and Fabian Kuech. Parametric coding of object-based audio using directional audio coding. Internal document Fraunhofer IIS, 2020.
【0101】
[4] Toni Hirvonen, Jukka Ahonen, and Ville Pulkki. Perceptual compression methods for metadata in directional audio coding applied to audiovisual teleconference. In Audio Engineering Society Convention 126, May 2009.
【0102】
[5] Guillaume Fuchs, Juergen Herre, Fabian Kuech, Stefan Doehla, Markus Multrus, Oliver Thiergart, Oliver Wuebbolt, Florin Ghido, Stefan Bayer, and Wolfgang Jaegers. Apparatus and method for encoding or decoding directionalaudio coding parameters using quantization and entropy coding. United States Patent Application Publication US 2020/0265851 A1, August 2020.
【0103】
[6] Ville Pulkki. Virtual sound source positioning using vector base amplitude panning. J. Audio Eng. Soc, 45(6):456-466, 1997.
【0104】
[7] Dolby Laboratories Inc. Dolby vrstream audio profile candidate - description of bitstream, decoder, and renderer plus informative encoder description. Technical report, Dolby Laboratories Inc., 2018.
【0105】
[8] Markus Noisternig, Alois Sontacchi, Thomas Musil, and Robert Holdrich. A 3d ambisonic based binaural sound reproduction system. In Audio Engineering Society Conference: 24th International Conference: Multichannel Audio, The New Reality, Jun 2003.
【0106】
[9] Maximilian Neumayer. Evaluation of soundfield rotation methods in the context of dynamic binaural rendering of higher order ambisonics. Master’s thesis, Technische Universitaet Berlin, 2017.
【0107】
[10] Adam McKeag and David S. McGrath. Sound Field Format to Binaural Decoder with Head Tracking. Audio Engineering Society, August 1996.
【0108】
[11] Joseph Ivanic and Klaus Ruedenberg. Rotation matrices for real spherical harmonics. direct determination by recursion. The Journal of Physical Chemistry, 100(15):6342-6347, 1996.
【0109】
[12] Dai Yang, Hongmei Ai, C. Kyriakakis, and C.-C.J. Kuo. High-fidelity multichannel audio coding with karhunen-loeve transform. IEEE Transactions on Speech and Audio Processing, 11(4):365-380, 2003.
【0110】
[13] https://dlmf.nist.gov/1.17#E25.
【0111】
[14] M. Risoud, J.-N. Hanson, F. Gauvrit, C. Renard, P.-E. Lemesre, N.-X. Bonne, and C. Vincent. Sound source localization. European Annals of Otorhinolaryngology, Head and Neck Diseases, 135(4):259-264, 2018.
【0112】
[15] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Je´re´mie Lecomte, Florin Ghido, Frederik Nagel, and Bernd Edler. Intelligent gap filling in perceptual transform coding of audio. In Audio Engineering Society Convention 141, Sep 2016.
【0113】
[16] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Je´re´mie Lecomte, Florin Ghido, Frederik Nagel, and Bernd Edler. Intelligent gap filling in perceptual transform coding of audio. In Audio Engineering Society Convention 141, Sep 2016.

図1a
図1b
図2
図3
図4
図5a
図5b
図6
図7a
図7b
【手続補正書】
【提出日】2024-05-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置(100)であって、装置がエンコーダ(200)側にあり、
前記エンコーダ(200)側で前記オーディオストリームの音響モデル又は心理音響モデルを記述する1つ又は複数のパラメータを導出する手段(120,120e,120d,232)であって、前記導出する手段(120,120e,120d,232)が、前記1つ又は複数のパラメータとして予測係数を計算するように構成されており、前記予測係数が、前記導出する手段(120,120e,120d)によって共分散行列に基づいて計算される、導出する手段(120,120e,120d)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)と、を備え、
前記1つ又は複数のパラメータが、少なくとも1つの到来方向(DOA)に関する情報を少なくとも含み、
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのダウンミックスを行うように構成されている、装置(100)。
【請求項2】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置(100)であって、装置がデコーダ(300)側にあり、
前記デコーダ(300)側で音響モデル又は心理音響モデルを有するオーディオシーンを記述する1つ又は複数のパラメータを受信する手段(333)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)と、を備え、
前記1つ又は複数のパラメータが、少なくとも1つの到来方向(DOA)に関する情報を少なくとも含み、
前記変換する手段(110,110e,110d)が、前記デコーダ(300)側で前記オーディオストリームのアップミックス生成を行うように構成されている、装置(100)。
【請求項3】
予測係数が
に基づいて計算され、特に、
の式のビーズに基づいて計算され、行列の要素が、
及び
であり、
が、
及び
の次数及び指数を有する実際の球面調和関数である、請求項1又は2に記載の装置(100)。
【請求項4】
前記1つ又は複数のパラメータが、拡散係数又は1つ若しくは複数のDOA又はエネルギー比に関する情報を少なくとも更に含み、かつ/又は、前記1つ又は複数のパラメータが前記オーディオストリームから導出される、請求項1から3のいずれか一項に記載の装置(100)。
【請求項5】
前記導出する手段(120,120e,120d)が、前記音響モデル又は前記心理音響モデルから共分散行列又は共分散行列を計算するように構成されている、請求項1に記載の装置(100)。
【請求項6】
前記導出する手段(120,120e,120d)が、前記DoA及び拡散係数又はエネルギー比に基づいて共分散行列を計算するように構成されている、請求項1から5のいずれか一項に記載の装置(100)。
【請求項7】
前記導出する手段(120,120e,120d)が、拡散度、球面調和関数、及び時間依存スカラー値信号に関する情報に基づいて、特に
の式であって、式中、
が、次数及び指数
及び
を有する球面調和関数であり、s(t)が、時間依存スカラー値信号である、式に基づいて、かつ/又は、
信号エネルギーに基づいて、特に
の式であって、式中、ψが前記拡散度を表し、
が前記オーディオストリームに関する前記信号エネルギーを表す、式に基づいて、かつ/又は、
の式であって、式中
が前記信号エネルギーである、式に基づいて、かつ/又は、
の式に基づいて、かつ、yチャンネル及びzチャンネルに関して類似して、共分散行列を計算するように構成されている、請求項6に記載の装置(100)。
【請求項8】
前記信号エネルギー
が、前記オーディオストリームから直接計算され、又は、
前記信号エネルギー
が前記オーディオストリームの前記モデルから概算される、請求項7に記載の装置(100)。
【請求項9】
前記オーディオストリームが、パラメータ推定器(232)によって前処理されるか、前記オーディオストリームが、メタデータエンコーダ(233)又はメタデータデコーダ(333)を備えたパラメータ推定器(232)によって前処理される、かつ/又は、前記オーディオストリームが分析フィルタバンクによって前処理される、請求項1から8のいずれか一項に記載の装置(100)。
【請求項10】
指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置(100)であって、エンコーダ側にあり、
前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータを導出する手段(120,120e,120d)であって、前記1つ又は複数の音響モデルパラメータが、前記オーディオストリームのすべてのチャンネルの復元を可能にするために送信され、到来方向(DoA)に関する情報を少なくとも含む、導出する手段(120,120e,120d)と、
前記1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)であって、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、変換する手段(110,110e,110d)を備え、
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのダウンミックスを行うように構成されている、装置(100)。
【請求項11】
指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置(100)であって、装置がデコーダ(300)側にあり、
前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータを受信する手段(120,120e,120d)であって、前記1つ又は複数の音響モデルパラメータが、前記オーディオストリームのすべてのチャンネルを復元するために受信され、到来方向(DoA)に関する情報を少なくとも含む、受信する手段(120,120e,120d)と、
前記1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)であって、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、変換する手段(110,110e,110d)を備え、
前記変換する手段(110,110e,110d)が、前記デコーダ(300)側で前記オーディオストリームのアップミックス生成を行うように構成されている、装置(100)。
【請求項12】
前記1つ又は複数のパラメータが、送信前に量子化される、請求項10又は11に記載の装置(100)。
【請求項13】
前記1つ又は複数のパラメータが、送信後に逆量子化される、請求項10から12のいずれか一項に記載の装置(100)。
【請求項14】
前記パラメータが、経時的に平滑化される、請求項10から13のいずれか一項に記載の装置(100)。
【請求項15】
変換(110e)が、トランスポートチャンネル間の相関がKarhunen-Loeve変換又は予測行列の使用によって低減されるように計算される、請求項10から14のいずれか一項に記載の装置(100)。
【請求項16】
前記オーディオストリームのチャンネル間共分散行列が、前記オーディオストリームの前記モデル又は前記音響若しくは心理音響モデルから推定される、請求項10から15のいずれか一項に記載の装置(100)。
【請求項17】
変換行列が、前記オーディオストリームのモデル又は前記音響若しくは心理音響モデルの共分散行列から導出される、請求項10から16のいずれか一項に記載の装置(100)。
【請求項18】
変換行列が、1つ又は複数の周波数帯域に関する前記音響又は心理音響モデルからの前記共分散行列を使用して、かつ、1つ又は複数の他の周波数帯域に関する前記共分散行列を計算するための異なる方法を使用して計算される、請求項10から17のいずれか一項に記載の装置(100)。
【請求項19】
前記変換する手段によって使用される変換方法の少なくとも1つが、オーディオチャンネルのベクトルと定数行列との乗算である、請求項10から18のいずれか一項に記載の装置(100)。
【請求項20】
前記変換する手段によって使用される変換方法の少なくとも1つが、オーディオチャンネルのベクトルの前記チャンネル間共分散行列に基づく予測を使用する、請求項10から19のいずれか一項に記載の装置(100)。
【請求項21】
前記変換する手段によって使用される変換方法の少なくとも1つが、前記DOA及び追加の拡散係数又はエネルギー比に基づくチャンネル間共分散行列に基づく予測を使用する、請求項10から20のいずれか一項に記載の装置(100)。
【請求項22】
前記1つ又は複数のパラメータを前記導出する手段(120,120e,120d)が、前記オーディオストリームの1次又は高次のアンビソニックス入力信号の前記チャンネルのすべて又はサブセットを処理するように構成されている、請求項10から21のいずれか一項に記載の装置(100)。
【請求項23】
前記オーディオストリームのサウンドシーンが、
変換(110d)から生じる前記球面調和関数ドメインのオーディオ信号が、回転行列によって事前乗算され、
モデルパラメータ及び/又は予測係数が、トランスポートチャンネル信号の前記変換に応じて変換され、かつ、
出力信号の非トランスポートチャンネルが、前記変換されたモデル及び/又は予測係数のパラメータを使用して再構築される(335)ような方法で回転可能である、請求項10から22のいずれか一項に記載の装置(100)。
【請求項24】
請求項1、請求項1に対する戻り引用を有する請求項3から22のいずれか一項に記載の装置(100)を備えたエンコーダ(200)。
【請求項25】
請求項2、又は、請求項2に対する戻り引用を有する請求項3から22のいずれか一項に記載の装置(100)を備えたデコーダ(300)。
【請求項26】
請求項24に記載のエンコーダ(200)と、請求項25に記載のデコーダ(300)とを備えたシステムであって、前記エンコーダ(200)が、予測行列及び/又はダウンミックスを計算するように構成され、前記デコーダ(300)が、推定されたパラメータ又は前記音響モデルの前記1つ若しくは複数のパラメータからアップミックス行列を互いに独立して計算するように構成されている、システム。
【請求項27】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための方法であって、エンコーダ(300)側で実施され、
前記オーディオストリームからのオーディオストリームの音響モデル又は心理音響モデルを記述する前記1つ又は複数のパラメータを導出するステップであって、導出するステップが、前記1つ又は複数のパラメータとして予測係数を計算することを含み、前記計算された前記予測係数が、前記導出する手段(120,120e,120d)による共分散行列に基づいて計算され、前記1つ又は複数のパラメータが、到来方向(DOA)に関する情報を少なくとも含む、導出するステップと、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記エンコーダ(200)側での前記オーディオストリームのダウンミックスを含む、変換するステップと、を含む、方法。
【請求項28】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための方法であって、デコーダ(200)側で実施され、
前記デコーダ(300)側で音響モデル又は心理音響モデルを有するオーディオシーンを記述する1つ又は複数のパラメータを受信するステップ(333)であって、前記1つ又は複数のパラメータが、到来方向(DOA)に関する情報を少なくとも含む、受信するステップ(333)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記デコーダ(300)側での前記オーディオストリームのアップミックスを含む、変換するステップと、を含む、方法。
【請求項29】
指向性オーディオコード化システムにおいてオーディオストリームを変換する方法であって、エンコーダ(200)で実施され、
到来方向(DOA)によってパラメータ化された前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ及び拡散度又はエネルギー比パラメータを導出するステップであって、前記音響モデルパラメータが、オーディオストリームの入力のすべてのチャンネルを復元し、DOAに関する情報を少なくとも含むように送信され、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、導出するステップと、
1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記エンコーダ(200)側での前記オーディオストリームのダウンミックスを含む、変換するステップと、を含む、方法。
【請求項30】
指向性オーディオコード化システムにおいてオーディオストリームを変換する方法であって、デコーダ(300)で実施され、
到来方向(DOA)によってパラメータ化された前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ及び拡散度又はエネルギー比パラメータを受信するステップであって、前記音響モデルパラメータが、オーディオストリームの入力のすべてのチャンネルを復元し、DOAに関する情報を少なくとも含むように受信され、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、受信するステップと、
1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記デコーダ(300)側での前記オーディオストリームのアップミックスを含む、変換するステップと、を含む、方法。
【請求項31】
コンピュータ上で実行されると、請求項27、28、29、又は30に記載の方法を実行するためのコンピュータプログラム。
【手続補正書】
【提出日】2024-10-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置(100)であって、装置がエンコーダ(200)側にあり、
前記エンコーダ(200)側で前記オーディオストリームの音響モデル又は心理音響モデルを記述する1つ又は複数のパラメータを導出する手段(120,120e,120d,232)であって、前記導出する手段(120,120e,120d,232)が、前記1つ又は複数のパラメータとして予測係数を計算するように構成されており、前記予測係数が、前記導出する手段(120,120e,120d)によって共分散行列に基づいて計算される、導出する手段(120,120e,120d)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)と、を備え、
前記1つ又は複数のパラメータが、少なくとも1つの到来方向(DOA)に関する情報を少なくとも含み、
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのダウンミックスを行うように構成されている、装置(100)。
【請求項2】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための装置(100)であって、装置がデコーダ(300)側にあり、
前記デコーダ(300)側で音響モデル又は心理音響モデルを有するオーディオシーンを記述する1つ又は複数のパラメータを受信する手段(333)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)と、を備え、
前記1つ又は複数のパラメータが、少なくとも1つの到来方向(DOA)に関する情報を少なくとも含み、
前記変換する手段(110,110e,110d)が、前記デコーダ(300)側で前記オーディオストリームのアップミックス生成を行うように構成されている、装置(100)。
【請求項3】
予測係数が
に基づいて計算され、特に、
の式のビーズに基づいて計算され、行列の要素が、
及び
であり、
が、
及び
の次数及び指数を有する実際の球面調和関数である、請求項1又は2に記載の装置(100)。
【請求項4】
前記1つ又は複数のパラメータが、拡散係数又は1つ若しくは複数のDOA又はエネルギー比に関する情報を少なくとも更に含み、かつ/又は、前記1つ又は複数のパラメータが前記オーディオストリームから導出される、請求項1又は2に記載の装置(100)。
【請求項5】
前記導出する手段(120,120e,120d)が、前記音響モデル又は前記心理音響モデルから共分散行列又は共分散行列を計算するように構成されている、請求項1に記載の装置(100)。
【請求項6】
前記導出する手段(120,120e,120d)が、前記DoA及び拡散係数又はエネルギー比に基づいて共分散行列を計算するように構成されている、請求項1又は2に記載の装置(100)。
【請求項7】
前記導出する手段(120,120e,120d)が、拡散度、球面調和関数、及び時間依存スカラー値信号に関する情報に基づいて、特に
の式であって、式中、
が、次数及び指数
及び
を有する球面調和関数であり、s(t)が、時間依存スカラー値信号である、式に基づいて、かつ/又は、
信号エネルギーに基づいて、特に
の式であって、式中、ψが前記拡散度を表し、
が前記オーディオストリームに関する前記信号エネルギーを表す、式に基づいて、かつ/又は、
の式であって、式中
が前記信号エネルギーである、式に基づいて、かつ/又は、
の式に基づいて、かつ、yチャンネル及びzチャンネルに関して類似して、共分散行列を計算するように構成されている、請求項6に記載の装置(100)。
【請求項8】
前記信号エネルギー
が、前記オーディオストリームから直接計算され、又は、
前記信号エネルギー
が前記オーディオストリームの前記モデルから概算される、請求項7に記載の装置(100)。
【請求項9】
前記オーディオストリームが、パラメータ推定器(232)によって前処理されるか、前記オーディオストリームが、メタデータエンコーダ(233)又はメタデータデコーダ(333)を備えたパラメータ推定器(232)によって前処理される、かつ/又は、前記オーディオストリームが分析フィルタバンクによって前処理される、請求項1又は2に記載の装置(100)。
【請求項10】
指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置(100)であって、エンコーダ側にあり、
前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータを導出する手段(120,120e,120d)であって、前記1つ又は複数の音響モデルパラメータが、前記オーディオストリームのすべてのチャンネルの復元を可能にするために送信され、到来方向(DoA)に関する情報を少なくとも含む、導出する手段(120,120e,120d)と、
前記1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)であって、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、変換する手段(110,110e,110d)を備え、
前記変換する手段(110,110e,110d)が、前記エンコーダ(200)側で前記オーディオストリームのダウンミックスを行うように構成されている、装置(100)。
【請求項11】
指向性オーディオコード化システムにおいてオーディオストリームを変換するための装置(100)であって、装置がデコーダ(300)側にあり、
前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータを受信する手段(120,120e,120d)であって、前記1つ又は複数の音響モデルパラメータが、前記オーディオストリームのすべてのチャンネルを復元するために受信され、到来方向(DoA)に関する情報を少なくとも含む、受信する手段(120,120e,120d)と、
前記1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換する手段(110,110e,110d)であって、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、変換する手段(110,110e,110d)を備え、
前記変換する手段(110,110e,110d)が、前記デコーダ(300)側で前記オーディオストリームのアップミックス生成を行うように構成されている、装置(100)。
【請求項12】
前記1つ又は複数のパラメータが、送信前に量子化される、請求項1、2、10又は11に記載の装置(100)。
【請求項13】
前記1つ又は複数のパラメータが、送信後に逆量子化される、請求項1、2、10又は11に記載の装置(100)。
【請求項14】
前記パラメータが、経時的に平滑化される、請求項1、2、10又は11のいずれか一項に記載の装置(100)。
【請求項15】
変換(110e)が、トランスポートチャンネル間の相関がKarhunen-Loeve変換又は予測行列の使用によって低減されるように計算される、請求項1、2、10又は11に記載の装置(100)。
【請求項16】
前記オーディオストリームのチャンネル間共分散行列が、前記オーディオストリームの前記モデル又は前記音響若しくは心理音響モデルから推定される、請求項1、2、10又は11に記載の装置(100)。
【請求項17】
変換行列が、前記オーディオストリームのモデル又は前記音響若しくは心理音響モデルの共分散行列から導出される、請求項1、2、10又は11に記載の装置(100)。
【請求項18】
変換行列が、1つ又は複数の周波数帯域に関する前記音響又は心理音響モデルからの前記共分散行列を使用して、かつ、1つ又は複数の他の周波数帯域に関する前記共分散行列を計算するための異なる方法を使用して計算される、請求項1、2、10又は11に記載の装置(100)。
【請求項19】
前記変換する手段によって使用される変換方法の少なくとも1つが、オーディオチャンネルのベクトルと定数行列との乗算である、請求項1、2、10又は11に記載の装置(100)。
【請求項20】
前記変換する手段によって使用される変換方法の少なくとも1つが、オーディオチャンネルのベクトルの前記チャンネル間共分散行列に基づく予測を使用する、請求項1、2、10又は11に記載の装置(100)。
【請求項21】
前記変換する手段によって使用される変換方法の少なくとも1つが、前記DOA及び追加の拡散係数又はエネルギー比に基づくチャンネル間共分散行列に基づく予測を使用する、請求項1、2、10又は11に記載の装置(100)。
【請求項22】
前記1つ又は複数のパラメータを前記導出する手段(120,120e,120d)が、前記オーディオストリームの1次又は高次のアンビソニックス入力信号の前記チャンネルのすべて又はサブセットを処理するように構成されている、請求項1、2、10又は11に記載の装置(100)。
【請求項23】
前記オーディオストリームのサウンドシーンが、
変換(110d)から生じる前記球面調和関数ドメインのオーディオ信号が、回転行列によって事前乗算され、
モデルパラメータ及び/又は予測係数が、トランスポートチャンネル信号の前記変換に応じて変換され、かつ、
出力信号の非トランスポートチャンネルが、前記変換されたモデル及び/又は予測係数のパラメータを使用して再構築される(335)ような方法で回転可能である、請求項10又は11に記載の装置(100)。
【請求項24】
請求項1、10又は11に記載の装置(100)を備えたエンコーダ(200)。
【請求項25】
請求項2、10又は11に記載の装置(100)を備えたデコーダ(300)。
【請求項26】
請求項24に記載のエンコーダ(200)と、請求項25に記載のデコーダ(300)とを備えたシステムであって、前記エンコーダ(200)が、予測行列及び/又はダウンミックスを計算するように構成され、前記デコーダ(300)が、推定されたパラメータ又は前記音響モデルの前記1つ若しくは複数のパラメータからアップミックス行列を互いに独立して計算するように構成されている、システム。
【請求項27】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための方法であって、エンコーダ(300)側で実施され、
前記オーディオストリームからのオーディオストリームの音響モデル又は心理音響モデルを記述する前記1つ又は複数のパラメータを導出するステップであって、導出するステップが、前記1つ又は複数のパラメータとして予測係数を計算することを含み、前記計算された前記予測係数が、前記導出する手段(120,120e,120d)による共分散行列に基づいて計算され、前記1つ又は複数のパラメータが、到来方向(DOA)に関する情報を少なくとも含む、導出するステップと、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記エンコーダ(200)側での前記オーディオストリームのダウンミックスを含む、変換するステップと、を含む、方法。
【請求項28】
2つ以上のチャンネルを有するオーディオストリームを別の表現に変換するための方法であって、デコーダ(200)側で実施され、
前記デコーダ(300)側で音響モデル又は心理音響モデルを有するオーディオシーンを記述する1つ又は複数のパラメータを受信するステップ(333)であって、前記1つ又は複数のパラメータが、到来方向(DOA)に関する情報を少なくとも含む、受信するステップ(333)と、
前記1つ又は複数のパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記デコーダ(300)側での前記オーディオストリームのアップミックスを含む、変換するステップと、を含む、方法。
【請求項29】
指向性オーディオコード化システムにおいてオーディオストリームを変換する方法であって、エンコーダ(200)で実施され、
到来方向(DOA)によってパラメータ化された前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ及び拡散度又はエネルギー比パラメータを導出するステップであって、前記音響モデルパラメータが、オーディオストリームの入力のすべてのチャンネルを復元し、DOAに関する情報を少なくとも含むように送信され、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、導出するステップと、
1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記エンコーダ(200)側での前記オーディオストリームのダウンミックスを含む、変換するステップと、を含む、方法。
【請求項30】
指向性オーディオコード化システムにおいてオーディオストリームを変換する方法であって、デコーダ(300)で実施され、
到来方向(DOA)によってパラメータ化された前記オーディオストリームのモデルの1つ又は複数の音響モデルパラメータ及び拡散度又はエネルギー比パラメータを受信するステップであって、前記音響モデルパラメータが、オーディオストリームの入力のすべてのチャンネルを復元し、DOAに関する情報を少なくとも含むように受信され、前記オーディオストリームの前記チャンネルのすべて又はサブセットが変換される、受信するステップと、
1つ又は複数の音響モデルパラメータに依存する信号適応的な方法で前記オーディオストリームを変換するステップであって、変換するステップが、前記デコーダ(300)側での前記オーディオストリームのアップミックスを含む、変換するステップと、を含む、方法。
【請求項31】
コンピュータ上で実行されると、請求項27、28、29、又は30に記載の方法を実行するためのコンピュータプログラム。
【国際調査報告】