IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特表2023-511862空間的に拡張された音源(Spatially Extended Sound Source)を再生する装置及び方法、又は固定化情報を用いて空間的に拡張された音源に対する記述を生成する装置及び方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-23
(54)【発明の名称】空間的に拡張された音源(Spatially Extended Sound Source)を再生する装置及び方法、又は固定化情報を用いて空間的に拡張された音源に対する記述を生成する装置及び方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20230315BHJP
【FI】
H04S7/00 330
H04S7/00 340
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2022543076
(86)(22)【出願日】2021-01-13
(85)【翻訳文提出日】2022-09-07
(86)【国際出願番号】 EP2021050588
(87)【国際公開番号】W WO2021144308
(87)【国際公開日】2021-07-22
(31)【優先権主張番号】20151852.9
(32)【優先日】2020-01-14
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ヘレ ユールゲン
(72)【発明者】
【氏名】アダミ アレクサンダー
(72)【発明者】
【氏名】ヴェーファース フランク
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA07
5D162CA26
5D162CC19
5D162CD07
5D162CD08
5D162CD22
5D162EG05
5D162EG06
(57)【要約】
空間内の位置又は方向及びジオメトリが定義された空間的に拡張された音源を再生するための装置であって、リスナー位置を受信するためのインターフェースと、リスナー位置、空間的に拡張された音源のジオメトリに関する情報、及び空間的に拡張された音源の位置に関する情報を用いて、空間的に拡張された音源に関連する2次元又は3次元のハルの投影面への投影を計算するためのプロジェクタ(120)と、投影面を用いて空間的に拡張された音源の少なくとも2つの音源の位置を計算する音源位置計算器(140)と、2つ以上の出力信号を有する空間的に拡張された音源の再生を得るために、少なくとも2つの音源を位置でレンダリングするためのレンダラー(160)であって、レンダラー(160)は、異なる位置に対して異なる音信号を使用するように構成され、異なる音信号は空間的に拡張された音源と関連付けられる、レンダラー(160)とを備え、レンダラー(160)は、受信した特定情報に応答して、空間的に拡張された音源の固定位置及び/又は方向に対して少なくとも2つの音源をレンダリングするように構成されている。
【選択図】図9
【特許請求の範囲】
【請求項1】
空間内の位置又は方向及びジオメトリ(geometry)が定義された空間的に拡張された音源を再生するための装置であって、前記装置は、
前記リスナー位置を受信するためのインターフェース(100)と、
前記リスナー位置、前記空間的に拡張された音源の前記ジオメトリに関する情報、及び前記空間的に拡張された音源の前記位置に関する情報を用いて、前記空間的に拡張された音源に関連する2次元又は3次元のハル(hull)の投影面への投影を計算するプロジェクタ(120)と、
前記投影面を用いて、前記空間的に拡張された音源のための少なくとも2つの音源の位置を計算する音位置計算器(140)と、
2つ以上の出力信号を有する前記空間的に拡張された音源の再生を得るために、前記少なくとも2つの音源を前記位置でレンダリング(rendering)するためのレンダラー(renderer)(160)であって、前記レンダラー(160)は、異なる前記位置に対して異なる音信号を使用するように構成され、前記異なる音信号は、前記空間的に拡張された音源と関連付けられる、レンダラー(160)と、を備え、
前記レンダラー(160)は、受信した特定情報(320)に応答して、前記空間的に拡張された音源の固定位置及び/又は方向に対して前記少なくとも2つの音源をレンダリングするように構成される、装置。
【請求項2】
検出器は、追跡システムを用いて前記空間内の瞬間的なリスナー位置を検出するように構成される、又は、前記インターフェース(100)は、前記インターフェースを介して入力された位置データを用いるように構成される、請求項1に記載の装置。
【請求項3】
前記装置は、シーン記述を受信するように構成されており、前記シーン記述は、前記定義された位置又は前記方向に関する前記情報及び前記空間的に拡張された音源の前記定義されたジオメトリに関する前記情報、並びに前記空間的に拡張された音源と関連付けられた少なくとも1つの音信号を含み、
前記装置は、前記シーン記述を解析して、前記定義された位置又は方向に関する前記情報(341)、前記定義されたジオメトリに関する情報(331)及び前記少なくとも1つの音源信号(301、302)を取り出すためのシーン記述解析部(180)を更に備え、又は、
前記シーン記述は、前記空間的に拡張された音源について、少なくとも2つの基底音信号(301、302)と、前記空間的に拡張された音源の前記ジオメトリ(331)に関する前記情報に対する各基底音信号についての位置情報(321)とを含み、前記音位置計算器(140)は、前記投影面を用いて前記少なくとも2つの音源の前記位置を計算する際に前記少なくとも2つの基底信号についての前記位置情報を用いるよう構成される、請求項1又は2に記載の装置。
【請求項4】
前記プロジェクタ(120)は、前記空間的に拡張された音源の前記ジオメトリ(331)に関する前記情報を用いて前記空間的に拡張された音源の前記ハルを計算し、前記リスナー位置又は方向ATFを用いて前記リスナーに向かう方向に前記ハルを投影して、前記投影面上への前記2次元又は3次元のハルの前記投影を得るように構成される、又は、
前記プロジェクタ(120)は、前記空間的に拡張された音源の前記ジオメトリ(331)に関する前記情報によって定義される前記空間的に拡張された音源のジオメトリを前記リスナー位置に向かう方向に投影し、投影したジオメトリの前記ハルを計算して、前記投影面上への前記2次元又は3次元のハルの前記投影を得るように構成される、請求項1乃至3のいずれかに記載の装置。
【請求項5】
前記音位置計算器(140)は、ハル投影データ及び前記リスナー位置から前記空間内の前記音源位置を計算するように構成される、請求項1乃至4のいずれかに記載の装置。
【請求項6】
前記音位置計算器(140)は、前記少なくとも2つの音源が周辺音源であり、かつ、前記投影面上に位置するように、前記位置を計算するように構成される、又は、
前記音位置計算器(140)は、前記周辺音源のうちのある周辺音源の位置が、前記リスナーに対して前記投影面の前記右側に位置し、及び/又は前記リスナーに対して前記投影面の前記左側に位置し、及び/又は前記リスナーに対して前記投影面の上側に位置し、及び/又は前記リスナーに対して前記投影面の下側に位置するように計算するように構成される、請求項1乃至5のいずれかに記載の装置。
【請求項7】
前記レンダラー(160)は、既定のラウドスピーカーセットアップのためのラウドスピーカー信号を得るための、前記音源の前記位置に依存するパンニング操作(panning operations)、又は、
ヘッドホン信号を得るための、前記音源の前記位置に依存する頭部関連伝達関数を使用するバイノーラルレンダリング操作(binaural rendering)を用いて、
前記少なくとも2つの音源をレンダリングするように構成される、請求項1乃至6のいずれかに記載の装置。
【請求項8】
関連する音源信号の第1の数が前記空間的に拡張された音源に関連付けられ、前記第1の数は1以上であり、前記関連する音源信号は同じ前記空間的に拡張された音源に関連するものであり、
前記音位置計算器(140)は、前記空間的に拡張された音源の前記レンダリングに使用される音源の第2の数を決定し、前記第2の数は1より大きく、
前記レンダラー(160)は、前記第2の数が前記第1の数よりも大きい場合に、前記第1の数の1つ以上の音源信号(164)から無相関化された信号を生成するための1つ以上の無相関器(166)を含む、
請求項1乃至7のいずれかに記載の装置。
【請求項9】
前記インターフェース(100)は、前記空間における前記リスナーの時間的に変化する位置を受信するように構成され、
前記プロジェクタ(120)は、前記空間における時間的に変化する投影を計算するように構成され、
前記音位置計算器(140)は、前記空間における時間的に変化する音源の数又は時間的に変化する前記音源の位置を計算するように構成され、
前記レンダラー(160)は、前記時間的に変化する音源の数又は前記空間における前記時間的に変化する位置での前記少なくとも2つの音源をレンダリングするように構成される、
請求項1乃至8のいずれかに記載の装置。
【請求項10】
前記インターフェース(100)は、6つの自由度で前記リスナー位置を受信するように構成され、及び、
前記プロジェクタ(120)は、前記6つの自由度に依存して前記投影を計算するように構成される、請求項1乃至9のいずれかに記載の装置。
【請求項11】
前記プロジェクタ(120)は、
前記リスナーの視線に対して垂直な平面などの画像面として前記投影を計算する、又は、
前記リスナーの頭部の周りの球面として前記投影を計算する、又は、
前記リスナーの頭部の中心から既定の距離にある投影面として前記投影を計算する、又は、
球面座標から得られる、リスナーの頭部の前記視点に対する方位角と仰角から、空間的に拡張された音源の凸ハル(凸包)の前記投影を計算する
ように構成される、請求項1乃至10のいずれかに記載の装置。
【請求項12】
前記音位置計算器(140)は、前記位置が前記ハルの前記投影の周りに均一に分布するように、又は前記位置が前記ハルの前記投影の極点又は周辺点に配置されるように、又は前記位置が前記ハルの前記投影の水平極点又は垂直極点又は周辺点に位置するように前記位置を計算するように構成される、請求項1乃至11のいずれかに記載の装置。
【請求項13】
前記音位置計算器(140)は、周辺音源の位置に加えて、前記リスナーに対する前記ハルの前記投影の上又は前又は後又は内に位置する補助音源の位置を決定するように構成される、請求項1乃至12のいずれかに記載の装置。
【請求項14】
前記プロジェクタ(120)は、前記ハルまたは前記投影の重心に向かってなどの前記ハルの前記投影を、可変量又は既定量分、又は異なる可変量又は既定量分、水平方向及び垂直方向などの異なる方向において追加的に縮小するように構成される、請求項1乃至13のいずれかにに記載の装置。
【請求項15】
前記音位置計算器(140)は、少なくとも1つの追加の補助音源が前記リスナー位置に対して左周辺音源と右周辺音源との間の前記投影面上に位置するように計算するように構成されている、又は、
前記音位置計算器(140)は、少なくとも1つの追加の補助音源が前記リスナー位置に対して左周辺音源と右周辺音源との間の前記投影面上に位置するように計算するように構成されており、1つの追加の補助音源が前記左周辺音源と前記右周辺音源との間の前記中間に配置されるか、又は、2つ以上の追加の補助音源が前記左周辺音源と前記右周辺音源との間に等距離で配置されるように計算するように構成される、請求項1乃至14に記載の装置。
【請求項16】
前記音位置計算器(140)は、前記リスナーが前記空間的に拡張された音源の周りで回転運動していることを前記インターフェースを介して受信した場合、又は前記空間的に拡張された音源が静止したリスナーに対して回転していることを前記インターフェースを介して受信した場合に、前記音源位置を好ましくは前記投影の重心の周りを回転させるように構成される、請求項の1乃至15のいずれかに記載の装置。
【請求項17】
前記レンダラー(160)は、各音源について、前記リスナーと前記音源との間の前記距離に応じた開き角を受信し、前記開き角に応じて前記音源をレンダリングするように構成される、請求項1乃至16のいずれかに記載の装置。
【請求項18】
前記レンダラー(160)は、各音源についての距離情報を受信するように構成され、及び、
前記レンダラー(160)は、前記リスナーのより近くに配置される音源が、前記リスナーのより遠くに配置される同じ音量の音源と比較して、より大きい音量でレンダリングされるように、前記距離に応じて前記音源をレンダリングするように構成される、請求項1乃至17のいずれかに記載の装置。
【請求項19】
前記音位置計算器(140)は、
各音源について、前記リスナーに対する前記空間的に拡張された音源の前記距離に等しい距離を決定する、又は、
前記空間的に拡張された音源の前記ジオメトリへの前記投影上の前記音源の位置の背面投影によって、各音源の距離を決定する
ように構成され、
前記レンダラー(160)は、前記距離に関する前記情報を用いて前記音源を生成するように構成される、請求項1乃至18のいずれかに記載の装置。
【請求項20】
前記ジオメトリ(331)に関する前記情報が、1次元の線又は曲線、あるいは、楕円、矩形、多角形、又は多角形のグループなどの2次元の領域、あるいは、楕円体、立方体、多面体などの3次元体として定義される、及び/又は、
前記情報は、パラメトリック記述又は多角形記述又は前記多角形記述のパラメトリック表現として定義される、請求項1乃至19のいずれかに記載の装置。
【請求項21】
前記音位置計算器(140)は、前記リスナーから前記空間的に拡張された音源までの距離に応じて音源の数を決定するように構成され、前記リスナーと前記空間的に拡張された音源との間の距離が大きいほど音源の数が少なくなるのに比べて、距離が短いほど音源の数が多くなる、請求項1乃至20のいずれかに記載の装置。
【請求項22】
前記空間的に拡張された音源によって導入された拡がりに関する情報を受信するように構成され、
前記プロジェクタ(120)は、前記拡がりを少なくとも部分的に補償するために、前記拡がりに関する前記情報を用いて前記ハル又は前記投影に縮小動作を適用するように構成される、請求項1乃至21のいずれかに記載の装置。
【請求項23】
前記レンダラー(160)は、前記音源の位置が定義された許容範囲内で互いに同一である場合に、例えばギブンス回転を用いて前記空間的に拡張された音源に関連する基底信号を結合することによって前記音源をレンダリングして回転された基底信号を得て、前記回転された基底信号を前記位置でレンダリングするように構成される、請求項1乃至22のいずれかに記載の装置。
【請求項24】
前記空間的に拡張された音源は、第1のチャネル及び第2のチャネルを有するマルチチャネル信号に関連付けられ、前記第1のチャネルが前記空間的に拡張されたオブジェクトの第1の部分に関連付けられ、前記第2のチャネルが前記空間的に拡張されたオブジェクトの第2の部分に関連付けられ、
前記第1の部分は前記第2の部分と異なり、前記特定情報(320)が、前記空間的に拡張された音源の固定位置及び/又は方向に相対的に前記少なくとも2つの音源を前記レンダリングすることを示し、
前記レンダラー(160)は、前記リスナー位置と前記空間的に拡張された音源の前記第1の部分及び前記第2の部分に応じて、前記異なる位置についての前記異なる音信号を得るために、前記第1のチャネル及び前記第2のチャネルの前記異なる位置へのマッピングを使用して、又は前記第1のチャネル及び前記第2のチャネルの加算を使用して、前記異なる位置についての前記異なる音信号を決定するように構成される、請求項1乃至23のいずれかに記載の装置。
【請求項25】
前記第1の部分は、前記空間的に拡張された音源の左側の部分であり、前記第2の部分は右側の部分であり、
前記リスナー位置が前記空間的に拡張された音源の前方にある場合、前記レンダラーは、前記ユーザーの左側の音源位置については前記第1のチャネルを使用し、前記ユーザーの右側の位置については前記第2のチャネルを使用するように構成される、又は、
前記リスナー位置が前記空間的に拡張された音源の後方にある場合、前記レンダラーは、前記ユーザーの左側の音源位置については前記第2のチャネルを使用し、前記ユーザーの右側の位置については前記第1のチャネルを使用するように構成される、又は、
前記リスナー位置が前記空間的に拡張された音源の側部にある場合、前記レンダラーは、前記ユーザーの左側の音源位置については前記第1のチャネルと前記第2のチャネルとを加算したものを使用し、前記ユーザーの右側の位置については前記第1のチャネルと前記第2のチャネルとを加算したものを使用するように構成される、又は、
前記リスナー位置が前記空間的に拡張された音源の側部にある場合、前記レンダラーは、前記ユーザーの左側の音源位置については第前記1のチャネルと前記第2のチャネルとの重み付け加算を使用し、前記ユーザーの右側の位置については前記第1のチャネルと前記第2のチャネルとの重み付け加算したものを使用するように構成され、前記重み付け加算のための重み付け係数は、前記空間的に拡張された音源の前記リスナー位置に近い部分に関連するチャネルのための重み付け係数が、前記空間的に拡張された音源の前記リスナー位置から遠い別の部分に関連する別のチャネルのための重み付け係数より大きくなるように決定される、又は、
前記リスナー位置が前記空間的に拡張された音源に対して斜めである場合、前記レンダラーは、前記ユーザーの左側の音源位置については、前記第1のチャネルと前記第2のチャネルとの第1の重み付け加算を使用し、前記ユーザーの右側の位置については前記第1のチャネルと前記第2のチャネルとの第2の重み付け加算を使用するように構成され、前記重み付け加算の重み付け係数は、前記空間的に拡張された音源の音源位置に近い部分に関連するチャネルのための重み付け係数が、前記空間的に拡張された音源の前記音源位置から遠い別の部分に関連する別のチャネルのための重み付け係数より大きくなるように決定される、請求項24に記載の装置。
【請求項26】
前記装置は、前記空間的に拡張された音源についての記述を受信するように構成され、前記記述は、前記記述又は前記装置が受信した符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源のための異なる音信号の第1の数を示す記述要素(311)を含み、前記数は1以上であり、
前記記述要素(311)を読み取り、前記記述又は前記符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための異なる音信号の前記第1の数を取り出すように構成され、
ここで、前記音位置計算器(140)は、前記空間的に拡張された音源の前記レンダリングに使用される音源の第2の数を決定し、前記第2の数は1より大きく、
前記レンダラー(160)は、前記記述から抽出された前記第1の数に応じて、1つ以上の無相関化された信号の第3の数を生成する(164、166)ように構成され、前記第3の数は、前記第2の数と前記第3の数との間の差から導出される、又は、
前記空間的に拡張された音源のための前記1つ以上の異なる音信号の、前記空間的に拡張された音源の位置又は方向への絶対的な固定化を示すフラグ又はビットストリーム又は記述要素又は情報を受信するように構成され、ここで前記レンダラー(160)は、受信した前記特定情報としての前記記述要素又は前記フラグ又は前記情報に応答して前記空間的に拡張された音源の固定位置及び/又は方向に対して相対的に前記少なくとも2つの音源をレンダリングするように構成される、又は、
ある状態では前記空間的に拡張された音源のための前記1つ以上の異なる音信号の、前記空間的に拡張された音源の位置又は方向への前記絶対的な固定化を示し、他の状態では別の処理を示すフラグ又はビットストリーム又は記述要素又は情報を受信するように構成され、前記レンダラー(160)は、前記ある状態を示す前記フラグまたはビットストリーム要素または情報に応答して、前記空間的に拡張された音源の固定位置及び/又は方向に対して相対的に前記少なくとも2つの音源をレンダリングし、前記別の状態では前記少なくとも2つの音源を別の異なるモードでレンダリングするように構成される、
請求項1乃至25のいずれかに記載の装置。
【請求項27】
空間的に拡張された音源のための記述を生成するための装置であって、前記装置は、
前記空間的に拡張された音源のための1つ以上の異なる音信号を提供するための音プロバイダー(200)と、
前記空間的に拡張された音源のジオメトリに関する情報(331、341)を計算するためのジオメトリプロバイダー(220)と、
前記記述を生成するための出力データフォーマー(240)であって、前記記述は、前記1つ以上の異なる音信号及び前記ジオメトリに関する情報(331、341)を含む、出力データフォーマー(240)と、を備え、
前記出力データフォーマー(240)は、前記空間的に拡張された音源に対する前記1つ以上の異なる音信号の、前記空間的に拡張された音源の位置又は方向への絶対的な固定化を示す情報又は記述要素(322)又はフラグを、前記記述に導入するように構成される、装置。
【請求項28】
前記ジオメトリに関する前記情報(331、341)は、前記空間的に拡張された音源の空間における位置を示す位置情報(341)を含む、請求項27記載の装置。
【請求項29】
前記出力データフォーマー(240)は、前記1つ以上の異なる音信号の各音信号についての個別位置に関する情報(321)が対応する音信号の前記位置を示すように、前記個別位置に関する情報(321)を前記記述に導入するように構成される、請求項27又は28に記載の装置。
【請求項30】
前記音プロバイダ(200)は、前記空間的に拡張された音源のための少なくとも2つの異なる音信号を提供するように構成され、前記出力データフォーマー(240)は、前記記述が前記空間拡張音源の前記ジオメトリに関する前記情報(331)に関して、前記少なくとも2つの異なる音信号(301、302)と、前記少なくとも2つの異なる音信号の各音信号の前記個別位置情報(321)とを含むように、前記記述を生成するように構成される、請求項27乃至29のいずれかに記載の装置。
【請求項31】
前記音プロバイダ(200)は、
1つ以上のマイクロフォンの位置又は方向で自然音源の録音を実行するか、又は、
1つ以上の無相関フィルタによって、1つ以上の基底信号から音信号を導出するように構成される、請求項27乃至30のいずれかに記載の装置。
【請求項32】
前記音プロバイダ(200)は、オーディオ信号符号化器(260)を使用して、前記1つ以上の音信号をビットレート圧縮するように構成され、及び、
前記出力データフォーマー(240)は、前記空間的に拡張された音源に対して前記ビットレート圧縮された1つ以上の音信号(301、302)を使用するように構成されている、請求項27乃至31のいずれかに記載の装置。
【請求項33】
前記ジオメトリプロバイダー(220)は、前記空間的に拡張された音源のジオメトリから、パラメトリック記述又は多角形記述又は前記多角形記述のパラメトリック表現を導き出すように構成され、前記出力データフォーマー(240)は、前記ジオメトリに関する前記情報(331、341)として、前記パラメトリック記述又は前記多角形記述又は前記多角形記述の前記パラメトリック表現を前記記述に導入するように構成される、請求項27乃至32のいずれかに記載の装置。
【請求項34】
前記出力データフォーマー(240)は、前記記述に含まれる、又は前記記述に関連する符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源に対する前記1つ以上の異なる音信号の数を示す記述要素(311)を前記記述に導入するように構成され、前記数は1以上である、請求項27乃至33のいずれかに記載の装置。
【請求項35】
前記空間的に拡張された音源に対する前記1つ以上の異なる音信号の絶対的な固定化を示す前記フラグ又は前記記述要素又は前記情報が、前記空間的に拡張された音源の絶対的な位置及び/又は絶対的な方向を示す、又は、
シンタックス要素が相対的なチャネル位置を含み、前記記述要素が前記固定化を示すフラグ又は接頭辞又は文字「A」等の特定の文字を含み、又は、
前記音プロバイダ(200)は、前記空間的に拡張された音源にのための少なくとも2つの異なる音信号を提供するように構成され、前記フラグ又は前記記述要素又は前記情報が、前記少なくとも2つの異なる音信号に関連付けられる、又は、
前記少なくとも2つの異なる音信号が、ピアノの左側部分に関連付けられた第1のチャネル及び前記ピアノの右側部分に関連付けられた第2のチャネルに関連する、請求項27乃至33のいずれかに記載の装置。
【請求項36】
空間内に定義された位置又は方向及び形状を有する空間的に拡張された音源を再生するための方法であって、前記方法は、
リスナー位置を受信するステップと、
前記リスナー位置、前記空間的に拡張された音源のジオメトリに関する情報(331)、及び前記空間的に拡張された音源の位置に関する情報(341)を用いて、前記空間的に拡張された音源に関連付けられた2次元又は3次元のハルの投影面への投影を計算するステップと、
前記投影面を用いて、前記空間的に拡張された音源の少なくとも2つの音源の位置を計算するステップと、
前記位置で前記少なくとも2つの音源をレンダリングして、2つ以上の出力信号を有する前記空間的に拡張された音源の再生を得るステップであって、前記レンダリングが、異なる前記位置についての異なる音信号を用いるステップを含み、前記異なる音信号が前記空間的に拡張された音源に関連付けられている、ステップを含み、
前記レンダリングするステップは、受信した特定情報に応答して、前記空間的に拡張された音源の固定位置及び/又は方向に対して相対的に、前記少なくとも2つの音源をレンダリングするステップを含む、方法。
【請求項37】
空間的に拡張された音源のための記述を生成する方法であって、前記方法は、
前記空間的に拡張された音源のための1つ以上の異なる音信号を提供するステップと、
前記空間的に拡張された音源のジオメトリに関する情報(331、341)を提供するステップと、
前記記述を生成するステップであって、前記記述は、前記空間的に拡張された音源のための前記1つ以上の異なる音信号(301、302)と前記ジオメトリに関する前記情報(331、341)を含むステップと、
前記生成するステップは、前記空間的に拡張された音源のための前記1つ以上の異なる音信号の、前記空間的に拡張された音源の位置又は方向への絶対的な固定化を示すフラグ、記述要素(322)又は情報を前記記述に導入するステップを含む、方法。
【請求項38】
前記空間的に拡張された音源に対する前記ジオメトリに関する前記情報(331、341)は、前記空間的に拡張された音源の空間における位置情報(341)を含む、請求項37に記載の方法。
【請求項39】
前記記述を生成するステップは、前記1つ以上の異なる音信号(301、302)の各音信号についての前記個別位置に関する情報(321)を前記記述に導入するステップを含む、請求項37又は38に記載の方法。
【請求項40】
前記提供するステップは、前記空間的に拡張された音源のための少なくとも2つの異なる音信号を提供するステップを含み、前記記述を生成するステップは、前記記述が、前記少なくとも2つの異なる音信号(301、302)と、前記少なくとも2つの異なる音信号の各音信号の前記個別位置情報(321)と、を含み、前記情報が前記空間的に拡張された音源の前記ジオメトリ(331、341)に関する前記情報に対して前記対応する音信号の前記位置を示すように行われる、請求項37乃至39のいずれかに記載の方法。
【請求項41】
前記記述を生成するステップは、前記記述に含まれる、又は前記記述に関連する符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源のための前記1つ以上の異なる音信号(301、302)の数を示す記述要素(311)を前記記述に導入するステップを含み、前記数は1以上である、請求項37乃至40のいずれかに記載の方法。
【請求項42】
前記空間的に拡張された音源のための記述であって、
前記空間的に拡張された音源のための1つ以上の異なる音信号(301、302)と、
前記空間的に拡張された音源のジオメトリに関する情報(331、341)と、
前記空間的に拡張された音源のための前記1つ以上の異なる音信号の、前記空間的に拡張された音源の位置又は方向への絶対的な固定化を示すフラグ又は記述要素又は情報と、を備える、記述。
【請求項43】
異なる音信号が2つ以上ある場合、2つ以上の異なる音信号の各音信号について、前記対応する音信号の位置を示す個別位置情報(301、302)をさらに備える、請求項42に記載の記述。
【請求項44】
前記1つ以上の異なる音信号の各音信号についての前記個別位置に関する情報(321)をさらに備え、前記個別位置(321)に関する前記情報は、前記空間的に拡張された音源のジオメトリに関する情報(331、341)に対する、前記対応する音信号の前記位置を示す、請求項42又は43に記載の記述。
【請求項45】
前記空間的に拡張された音源のジオメトリに関する前記情報(331、341)は、前記空間的に拡張された音源の位置情報(341)を含む、請求項42乃至44のいずれかに記載の記述。
【請求項46】
前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331、341)に対して前記対応する音信号の第1の位置を示す第1の音信号(301)のための第1の位置情報(321)と、
前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331、341)に対する前記対応する音信号の第2の位置を示す第2の音信号(302)のための第2の位置情報(321)であって、前記第2の位置情報は前記第1の位置情報とは異なる、第2の位置情報と、を備える、請求項42乃至45のいずれかに記載の記述。
【請求項47】
前記記述に含まれる、又は前記記述に関連する符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源のための前記少なくとも1つの異なる音信号の数を示す記述要素(311)をさらに備え、前記数は1以上である、請求項41乃至46のいずれかに記載の記述。
【請求項48】
コンピュータ又はプロセッサ上で実行されるとき、請求項36乃至41のいずれかに記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、特に空間的に拡張された音源の符号化又は復号化又は再生に関するものである。
【背景技術】
【0002】
複数のラウドスピーカーやヘッドフォンによる音源の再生は古くから研究されている。このような音源を再生する最も単純な方法は、音源を点音源、つまり非常に(理想的には無限に)小さい音源として表現することである。しかし、この理論的な概念は、既存の物理的な音源を現実的にモデル化することは困難である。例えば、グランドピアノは、内部に多数の弦が空間的に分布した大きな振動する木製の閉鎖体を有しているため、(特にリスナー(及びマイクロフォン)がグランドピアノの近くにある場合、)聴感上、点音源よりもはるかに大きく見える。現実世界の多くの音源は、楽器、機械、オーケストラや合唱、環境音(滝の音)など、かなりの大きさ(「空間的広がり」)を持っている。
【0003】
このような音源を正しく/リアルに再生することは、(いわゆる頭部伝達関数(Head-Related Transfer Function)HRTFやバイノーラルルームインパルス応答BRIR(Binaural Room Impulse Responses)を用いる)ヘッドフォンを用いたバイノーラル再生、あるいは従来から用いられている2台のスピーカ(「ステレオ」)から水平面に配置された多数のスピーカ(「サラウンドサウンド」)、リスナーを三次元的に囲む多数のスピーカ(「3Dオーディオ」)までのラウドスピーカセットアップである多くの音響再生方法の対象になっている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、おそらく複雑な幾何学的形状(geometric shape)を有する空間的に拡張された音源を符号化又は再生するための概念を提供することである。
【0005】
2次元音源の幅
このセクションでは、例えば、(従来のステレオ/サラウンドサウンドの場合のような)仰角0度のある方位角範囲又は(ユーザーの動き、すなわちピッチ/ヨー/ロール軸の頭部の回転の3自由度[「3DoF」]による3Dオーディオ又はバーチャルリアリティの場合のような)ある方位角と仰角の範囲におけるリスナーの視点から見た2D表面上の拡張音源のレンダリングに関連する方法を説明する。
【0006】
(いわゆるファントムイメージ又はファントム音源(phantom source)を生成する)2つ以上のラウドスピーカー間でパンニングされるオーディオオブジェクトの見かけの幅を広げることは、参加チャネル信号の相関を減少させることによって達成できる(Blauert、2001、241-257頁)。相関を下げると、ファントム音源の広がりは増大し、相関値がゼロに近い場合(及び開口角が広すぎない場合)には、ラウドスピーカー間の全範囲をカバーするようになる。
【0007】
【0008】
ファントム音源の対応するチャネル信号の相関を減らす以外に、オーディオオブジェクトに帰属するファントム音源の数を増やすことによっても、音源幅(source width)を広げることができる。(Pulkki,1999)では、同じ音源信号を(わずかに)異なる方向にパンニングすることによって、音源幅を制御している。この方法は、もともと、VBAPパンされた(Pulkki,1997)音源信号が音場(sound scene)内で移動したときに、VBAPパンされた音源信号の知覚されるファントム音源の広がりを安定化させるために提案されたものである。これは、音源の方向に依存して、レンダリングされた音源が2つ以上のスピーカで再生され、知覚される音源幅が望ましくない変化が生じる可能性があるため、有利な方法である。
【0009】
このため、仮想世界における音合成のために、従来の方向オーディオ符号化(Directional Audio Coding)(DirAC)(Pulkki,2007)を拡張した仮想世界DirAC(Virtual world DirAC)(Pulkki,&Erkut,2009)が提案されている。空間的な広がりをレンダリングするために、音源の方向音成分を音源のオリジナル方向を中心に一定の範囲でランダムにパンニングし、パンニングの方向は時間や周波数によって変化する。
【0010】
【0011】
Verronらは、パンニングされた相関信号を用いず、音源信号の複数のインコヒーレントなバージョンを合成し、リスナーを囲む円上に均一に分布させ、それらをミキシングすることで音源の空間的広がりを実現した(Verron,Aramaki,Kronland-Martinet,&Pallone,2010)。同時にアクティブな音源の数とゲインが拡張効果の強度を決定する。この方法は、環境音のためのシンセサイザーへの空間的な拡張として実装された。
【0012】
3次元音源の幅
この章では、6自由度(6DoF)の仮想現実に必要な、3次元空間での拡張音源のレンダリング(表現、rendering)、すなわち容積測定(ボリュメトリック、volumetric)の方法について説明する。これは、ユーザーの動きの6つの自由度、すなわち、ピッチ/ヨー/ロール軸の頭部回転に加えて3つの並進移動方向x/y/zを意味する。
【0013】
Potardらは、音源形状の知覚を研究することによって、音源の1次元パラメータとしての音源範囲(すなわち、2つのラウドスピーカー間の幅)の概念を拡張した(Potard,2003)。彼らは、オリジナルの音源信号に(時変)無相関技術を適用して複数のインコヒーレントな点音源を生成し、そのインコヒーレントな音源を異なる空間位置に配置し、それによって3次元的な広がりを与えている(Potard&Burnett,2004)。
【0014】
【0015】
アンビソニックス(Ambisonics)を使用して音源の広がりを増加させ制御するために、Schmeleら(Schmele&Sayin,2018)は、入力信号のアンビソニックスオーダー(order)を減らすこと(これは本質的に見かけ上の音源幅を増加させる)と、音源信号の無相関されたコピーをリスニング空間の周りに分配することとを混合することを提案している。
【0016】
もう一つのアプローチはZotterらによって紹介され、彼らは(Zotter&Frank,2013)で提案された原理(すなわち、ステレオ再生のセットアップにおいて音源のエクステント(広がり)を実現するために周波数依存の位相差と振幅差を導入するフィルタペアを導き出すこと)をAmbisonicsに適用した(Zotter F.,Frank,Kronlachner,&Choi,2014)。
【0017】
パンニングに基づくアプローチ(たとえば(Pulkki,1997)(Pulkki,1999)(Pulkki,2007)(Pulkki,Laitinen,&Erkut,2009))の共通の欠点は、リスナーの位置への依存性にある。スイートスポットからのわずかなずれでも、空間イメージがリスナーに最も近いラウドスピーカーに倒れ込んでしまう。このため、リスナーが自由に動き回ることが想定される6自由度(6DoF)の仮想現実や拡張現実のコンテキストでは、その適用が大幅に制限される。さらに、DirACベースのアプローチ(例えば、(Pulkki,2007)(Pulkki,Laitinen,&Erkut,2009))で時間-周波数ビンを分散させることは、ファントム音源の空間範囲の適切なレンダリングを常に保証するわけではない。さらに、通常、音源信号の音色を著しく劣化させる。
【0018】
【0019】
すべてのアプローチには、それぞれの意味合いがある。i)に従って音源信号をコンプリメンタリー・フィルタリング(相補フィルタリング、Complementary filtering)すると、一般に、無相関化された信号の知覚される音色が変化する。ii)におけるオールパス・フィルタリング(all-pass filtering)は音源信号の音色を保持する一方、スクランブルされた位相はオリジナルの位相関係を乱し、特に過渡信号では深刻な時間分散と不鮮明な人為的結果物(アーティファクト)の原因となる。時間-周波数ビンを空間的に分散させることは、一部の信号に対して有効であることが証明されたが、信号の知覚される音色を変化させる。さらに、信号依存性が高く、インパルス信号に対して深刻なアーティファクトをもたらすことが示された。
【0020】
【0021】
(Schmele&Sayin,2018)のアンビソニックス(Ambisonics)ベースの手法でアンビソニックスの次数を下げて音源幅を制御すると、2次から1次、又は0次への遷移に対してのみ、聴き取れる効果があることが示された。さらに、これらの遷移は、音源の広がりとして知覚されるだけでなく、ファントム音源の動きとして頻繁に知覚される。このように、音源信号の無相関化されたバージョンを追加することは、見かけ上の音源幅の知覚を安定させるのに役立つが、櫛形フィルター効果をもたらし、ファントム音源の音質を変化させる。
【0022】
本発明の目的は、空間的に拡張された音源を再生する、又は空間的に拡張された音源に対する記述を生成するための改良された概念を提供することである。
【課題を解決するための手段】
【0023】
この目的は、請求項1の空間的に拡張された音源の再生装置、請求項27のビットストリームの生成装置、請求項36の空間的に拡張された音源の再生方法、請求項37の空間的に拡張された音源に関する記述の生成方法、請求項42の空間的に拡張された音源のための記述、又は請求項48のコンピュータプログラムによって達成される。
【0024】
本発明は、空間的に拡張された音源に関連する2次元又は3次元のハル(hull)の投影面への投影をリスナーの位置を用いて計算することによって、空間的に拡張された音源の再生が達成され、特に、可能にさえなることを発見したことに基づいている。この投影は、空間的に拡張された音源についての少なくとも2つの音源の位置を計算するために使用され、少なくとも2つの音源は、空間的に拡張された音源の再生を得るためにその位置でレンダリングされ、レンダリングは2以上の出力信号をもたらし、異なる位置に対する異なる音信号が用いられるが、異なる音信号はすべて1つの同じ空間的に拡張された音源と関連付けられている。
【0025】
一方では、空間的に拡張された音源と(仮想)リスナー位置との間の時間的に変化する相対位置が考慮されるので、高品質の2次元又は3次元のオーディオ再生が得られる。リスナー位置は、ユーザーのジオメトリック(幾何学的、geometric)な位置のみを含むこともできるし、空間におけるユーザーの方向のみ含むこともできるし、ユーザーのジオメトリックな位置及び方向の両方を含むこともできる。一方、空間的に拡張された音源は、知覚された音源範囲のジオメトリ(geometry)情報と、当技術分野でよく知られたレンダラ(renderers)によって容易に処理できる周辺点音源などの少なくとも2つの音源の数とによって効率的に表現される。ジオメトリ情報は、好ましくは、音響的に有効なジオメトリ情報である。例示的に、カーテンは、音響的に透過的であるが、光学的観点からは非透過的である。この状況は、ガラスの厚い壁の場合は異なる。この壁は、光学的には透過的だが、音響的には非透過的である。特に、当技術分野の単純なレンダラーは、常に、ある出力フォーマット又はラウドスピーカーセットアップに関して、ある位置で音源をレンダリングする立場にある。例えば、ある位置で音位置計算器によって計算された2つの音源は、例えば、振幅パンニングによってこれらの位置でレンダリングされることができる。
【0026】
例えば、音の位置が5.1出力フォーマットで左と左サラウンドの間にあり、他の音源が出力フォーマットで右と右サラウンドの間にあるとき、レンダラーによって実行される振幅パンニング手順は、一方の音源について左と左サラウンドチャネルについてかなり似た信号を生じさせ、これに対応して、他の音源について右と右サラウンドについてかなり似た信号を生じさせ、ユーザーは、音源が音位置計算器によって計算された位置から来ていると知覚することになるであろう。しかし、4つの信号すべてが、最終的には、空間的に拡張された音源に関連付けられているという事実のために、ユーザーは、音位置計算器によって計算された位置に関連付けられた2つのファントム音源を単に知覚するのではなく、リスナーは、単一の空間的に拡張された音源を知覚する。
【0027】
本発明は、空間内のジオメトリで定義された位置及び/又は方向を有する空間的に拡張された音源を再生する装置であって、インターフェース、プロジェクタ、音源位置計算器及びレンダラを含むことを特徴とする。本発明は、例えば、ピアノ内で発生する拡張された音の状況を考慮することを可能にする。ピアノは大きな装置であり、これまでピアノの音は一点の音源から発せられるものとしてレンダリングされてきたかもしれない。しかし、これは、ピアノの真の音の特性を完全に表現していない。本発明によれば、空間的に拡張された音源の例としてのピアノは、少なくとも2つの音信号によって反射され、一方の音信号はピアノの左側部分、すなわち低音弦の近くに位置するマイクロフォンによって録音され、他方の音源はピアノの右側部分、すなわち高音を発生する高音弦の近くに位置する異なる第2のマイクロフォンによって録音され得る。当然ながら、ピアノ内部の反射状況により、またもちろん低音弦が右マイクロフォンよりも左マイクロフォンに近く、その逆も同様であるという事実により、両マイクロフォンには互いに異なる音を記録することになる。しかし一方で、両方のマイクロフォン信号には、最終的にピアノ特有の音を構成する類似した音の成分が相当量含まれることになる。具体的には、レンダラは、受信した特定情報に応答して、すなわち固定化(アンカー、anchoring)情報に応答して、空間的に拡張された音源の固定位置及び/又は方向に対して少なくとも2つの音源をレンダリングするように構成される。
【0028】
本発明に従って、ピアノのような空間的に拡張された音源を表すビットストリームは、空間的に拡張された音源のジオメトリ情報をも記録することにより、また、任意に、異なるマイクロフォン位置(又は、一般に、2つの異なる音源に関連する2つの異なる位置)に関する位置情報をも記録するか、又は(ピアノの)音の知覚されたジオメトリ形状の記述を提供するかにより、信号が記録されることによって生成される。音源に対するリスナー位置を反映するために、すなわち、リスナーが仮想現実又は拡張現実、又は任意の他のサウンドシーンにおいて「歩き回る」ことができるように、ピアノなどの空間的に拡張された音源に関連するハルの投影が、リスナー位置を使用して計算され、そして、少なくとも2つの音源の位置が投影面を使用して計算され、特に、好ましい実施形態は投影面の周辺点での音源の位置付けに関するものである。出力データフォーマットは、空間的に拡張された音源の記述に、空間的に拡張された音源の1つ以上の異なる音信号の空間的に拡張された音源の位置又は方向への絶対的な固定化を示す固定化情報又はビットストリーム/記述要素又はフラグを導入するように構成される。空間的に拡張された音源の記述は、例えば、XML記述、ビットストリーム又は圧縮ビットストリーム又は他の任意のコンピュータ可読フォーマットとして実装することができる。
【0029】
これにより、例えば、リスナーがピアノなどの音源の左側部分に近づいたときに、リスナーが知覚する音が、ユーザがピアノなどの音源の右側部分に近づいたとき、あるいは、ピアノなどの音源の背後に位置したときに生じる音とは異なるように、例示的なピアノの音を2次元又は3次元の状況で実際に表現することが、計算オーバーヘッド及びレンダリングオーバーヘッドの削減によって可能となる。
【0030】
以上のことから、本発明は、符号化器側において、真の2次元又は3次元の音再生状況において空間的に拡張された音源を利用することを可能にする空間的に拡張された音源の特徴付けの方法を提供する点に特徴がある。さらに、リスナー位置を用いて2次元又は3次元のハルの投影面への投影を計算することにより、空間的に拡張された音源の自由度の高い記述においてリスナー位置の利用を効率的に行うことが可能となる。投影面を用いて空間的に拡張された音源の少なくとも2つの音源の音源位置を計算し、音源位置計算器で計算された位置に少なくとも2つの音源をレンダリングすることにより、ヘッドフォン用の2つ以上の出力信号又は、ステレオ再生設定における2チャネル以上のマルチチャネル出力信号、又は5、7、あるいはそれ以上のチャネルなど2チャネルより大きい再生設定での空間的に拡張された音源の再生が得られる。
【0031】
充填されるボリュームのすべての部分に多くの異なる点音源を配置することによって3Dボリュームを音で充填する先行技術の方法と比較して、投影は、ハルの投影のみ、すなわち2D空間を充填する必要があることによって、多くの音源をモデル化することを避け、採用する点音源の数を劇的に減少させることが可能である。さらに好ましくは、投影のハルにある音源のみをモデル化することで、必要な点音源の数はさらに減少する。これは、極端な例であるが、空間的に拡張された音源の左側の境界線にある1つの音源と空間的に拡張された音源の右側の境界線にある1つの音源であるだろう。この両方の削減方法は、2つの音響心理学的な観察に基づいている。
【0032】
1.音源の方位(と仰角)とは対照的に、その距離はあまり信頼性をもって知覚することができない。したがって、オリジナルの音量をリスナーに垂直な平面に投影しても、知覚に大きな変化はない(ただし、レンダリングに必要な点音源の数を減らすのに役立つ)。
2.左右に点音源として配置された2つの無相関性の音は、知覚的にその間の空間を音で満たす傾向がある。
【0033】
さらに、符号化器側では、単一の空間的に拡張された音源の特徴付けを行うだけでなく、表現として生成されるビットストリームなどの記述に、好ましくはそのジオメトリ情報や位置が単一の座標系に関連する、2つ以上の空間的に拡張された音源の全データを含めることができる柔軟性を持たせている。復号化器側では、再生は単一の空間的に拡張された音源に対してのみ行うことはできず、複数の空間的に拡張された音源に対して行うことができ、プロジェクタは(仮想)リスナー位置を用いて各音源に対する投影を計算する。さらに、音位置計算器は、空間的に拡張された音源ごとに少なくとも2つの音源の位置を計算し、レンダラは、例えば、空間的に拡張された音源ごとに計算された全ての音源をレンダリングする。これは、各空間的に拡張された音源からの2つ以上の出力信号を信号毎又はチャネル毎に加算することによって、及び、加算されたチャネルを両耳再生のために対応するヘッドホン又はラウドスピーカ関連再生のセットアップにおいて対応するラウドスピーカに、又は、後の使用又は送信のために(結合された)2つ以上の出力信号を保存するためのストレージに提供することによって行われる。
【0034】
生成器側又は符号化器側では、空間的に拡張された音源の記述を生成するための装置を用いて記述が生成される。装置は、空間的に拡張された音源のための1つ以上の異なる音信号を提供するための音プロバイダーと、出力データフォーマーがサウンドシーンの記述を生成し、記述は、例えばMP3、AAC、USAC又はMPEG-Hエンコーダなどのビットレート圧縮符号化器で圧縮されるなどの、好ましくは圧縮方法で1つ以上の異なる音信号を含む。出力データフォーマーは、さらに、2つ以上の異なる音信号の場合に、2つ以上の異なる音信号の各音信号についての、好ましくは空間的に拡張された音源のジオメトリに関する情報に対して対応する音信号の位置、すなわち、上記の例では第1の信号がピアノの左部分で録音された信号であり、ピアノの右側で録音された信号であることを示すオプションの個別の位置情報を記述に導入するよう構成される。
【0035】
ただし、代替的に、位置情報は必ずしも空間的に拡張された音源のジオメトリに関係する必要はなく、一般的な座標原点に関係してもよいが、空間的に拡張された音源のジオメトリに関係することが望ましい。
【0036】
さらに、記述を生成する装置は、空間的に拡張された音源のジオメトリに関する情報を計算するジオメトリプロバイダーも備える。出力データフォーマーは、マイクロフォンによって記録された音信号などの少なくとも2つの音信号に加えて、ジオメトリに関する情報、各音信号の個別位置情報に関する情報を記述に導入するように構成される。しかし、音プロバイダーは必ずしも実際にマイクロフォン信号を拾う必要はなく、場合によっては符号化器側で、無相関処理を用いて、音信号を生成することも可能である。同時に、空間的に拡張された音信号については、少数の音信号のみ、あるいは単一の音信号を送信し、残りの音信号は、無相関処理を用いて再生側で生成することもできる。これは、好ましくは、ビットストリーム内の記述またはビットストリーム要素によって信号化され、空間的に拡張された音源ごとにいくつの音信号が含まれているかをサウンド再生器が常に認識し、再生器が、特に音位置計算器内において、いくつの音信号が利用可能であるか、及び信号合成や相関処理などによって復号化器側でいくつの音信号を導出する必要があるかを決定できるようにする。
【0037】
本実施形態では、出力データフォーマーが、空間的に拡張された音源に対して含まれる音信号の数を示すビットストリーム要素を記述又はビットストリームに書き込み、復号化器側では、音再生装置が、送信された記述又はビットストリームからビットストリーム要素を取り出し、ビットストリーム要素を読み、ビットストリーム要素に基づいて、ビットストリーム中の少なくとも一つの受信した音信号に基づく、好ましくは周辺点音源又は周辺音源の間に置かれた補助音源の信号数を計算しなければならないと判断する。空間的に拡張された音源の記述は、例えば、XML記述、ビットストリーム、圧縮ビットストリーム、又は他の任意のコンピュータ可読可能なフォーマットとして実装することができる。
【図面の簡単な説明】
【0038】
続いて、本発明の好ましい実施形態を添付図面に関して説明する。
図1図1は、再生側の好ましい実施形態のブロック図の概要である。
図2図2は、周辺点音源の数が異なる球状の空間的に拡張された音源を説明する図である。
図3図3は、複数の周辺点音源を有する楕円形の空間的に拡張された音源を説明するための図である。
図4図4は、周辺点音源の位置を分散させる方法が異なる線状空間的に拡張された音源を示す図である。
図5図5は、周辺点音源の配置方法が異なる立方体空間的に拡張された音源を示す図である。
図6図6は、異なる距離における球状空間的に拡張された音源を説明するための図である。
図7図7は、近似的にパラメトリックな(parametric)楕円形内のピアノ形状の空間的に拡張された音源を示す図である。
図8図8は、投影された凸包(ハル)の極点に分布する3つの周辺点音源を有するピアノ形状の空間的に拡張された音源を示す図である。
図9図9は、空間的に拡張された音源を再生するための装置又は方法の好ましい実施態様を示す図である。
図10図10は、空間的に拡張された音源のための記述を生成するための装置又は方法の好ましい実施態様を示す図である。
図11図11は、図10に例示された装置又は方法によって生成された記述の好ましい実施態様を示す図である。
図12a図12aは、リスナーの右前半球で観察される円筒形の広がりと「ユーザー」アライメントを有するオブジェクト音源を示す図である。
図12b図12bは、リスナーの前左半球で観察される円筒形の範囲と「ユーザー」アライメントを有するオブジェクト音源を示す図である。
図13図13は、相対的な信号チャネル位置を示す図である。
図14a図14aは、箱型の広がりと「オブジェクト」アライメントを持つオブジェクト音源(ピアノ)、すなわち、向き(正面)、広がりジオメトリ、ラベル面を持つピアノを図示している。
図14b図14bは、ピアノの正面から観察される箱形の範囲及び「オブジェクト」アライメントを有するオブジェクト音源(ピアノ)を図示している。
図14c図14cは、ピアノの側面から観察される箱型の範囲と「オブジェクト」アライメントを有するオブジェクト音源(ピアノ)を示している。
【発明を実施するための形態】
【0039】
図9は、空間内の位置又は方向及びジオメトリが定義された空間的に拡張された音源を再生するための装置の好ましい実施態様を示す図である。この装置は、インターフェース100と、プロジェクタ120と、音位置計算器140と、レンダラ160とを含む。インターフェースは、リスナー位置を受信するように構成されている。さらに、プロジェクタ120は、インターフェース100によって受信されたリスナー位置を使用して、さらに、空間的に拡張された音源の空間におけるにジオメトリ関する情報を使用して、さらに、空間的に拡張された音源の位置に関する情報を使用して、空間的に拡張された音源に関連する2次元又は3次元のハルの投影面への投影を計算するために構成される。好ましくは、空間における空間的に拡張された音源の定義された位置又は方向、及び、付加的に、空間における空間的に拡張された音源のジオメトリは、デマルチプレクサ又はシーン又は記述パーサ(parser)180に到達するビットストリーム又は記述を介して空間的に拡張された音源を再生するために受信される。デマルチプレクサ180は、記述から、空間的に拡張された音源のジオメトリの情報を抽出し、この情報をプロジェクタに提供する。さらに、デマルチプレクサは、記述又はビットストリームから、空間的に拡張された音源の位置も抽出し、この情報をプロジェクタに転送する。好ましくは、記述はまた、少なくとも2つの異なる音源の位置情報を含み、好ましくは、デマルチプレクサはまた、記述から、少なくとも2つの音源の圧縮表現を抽出し、少なくとも2つの音源は、オーディオ復号化器190としての復号化器によって解凍/復号化される。復号化された少なくとも2つの音源は、最終的にレンダラ160に転送され、レンダラは、音位置計算器140からレンダラ160に提供された通りの位置で、少なくとも2つの音源をレンダリングする。具体的には、レンダラ160は、受信した特定情報に応答して、すなわち固定化情報に応答して、空間的に拡張された音源の固定位置及び/又は方向に対して少なくとも2つの音源をレンダリングするように構成される。空間的に拡張された音源の記述は、例えば、XML記述、ビットストリーム又は圧縮ビットストリーム、又は他の任意のコンピュータ可読可能なフォーマットとして実装することができる。
【0040】
固定化情報の使用は、特にマルチチャネル信号で定義される空間的に拡張された音源に適用される。このシナリオでは、個々のチャネルの各々は、関連するアライメント情報を有する。このアライメント情報は、例えば、左チャネルに対する左アライメント及び右チャネルに対する右アライメントとすることができる。使用される固定化モードに応じて、すなわち固定化モードが「ユーザーアライメント」モードか「オブジェクトアライメント」モードかに応じて、また位置情報に応じて、マルチチャネル信号のあるチャネルは周辺音源にマッピングされる。このように、観察者の位置や方向、すなわちリスニング位置に基づき、また固定化モードに基づき、チャネルや波形が周辺音源にマッピングされ、レンダラで利用される。このように、本実施形態では、固定化モードを用いて、位置情報をユーザ関連又はオブジェクト関連のいずれかに解釈している。したがって、音位置計算器によって決定された少なくとも2つの音源は、固定化情報に応答してレンダラによってレンダリングされる。
【0041】
図9は、ビットストリームデマルチプレクサ180とオーディオ復号化器190を有するビットストリーム関連の再生装置を示しているが、符号化器/復号化器のシナリオとは異なる状況で再生が行われることも可能である。例えば、データが現場で生成され、同じ現場で消費される仮想現実又は拡張現実のシーンのように、空間における定義された位置又は方向及びジオメトリが再生装置において既に存在することが可能である。ビットストリームデマルチプレクサ180とオーディオ復号化器190は実際には不要であり、空間的に拡張された音源のジオメトリや空間的に拡張された音源の位置の情報は、ビットストリームから一切抽出せずに利用可能である。さらに、少なくとも2つの音源の位置と空間的に拡張された音源のジオメトリの情報とを関連付ける位置情報も、事前に固定的に取り決めることができ、したがって、符号化器から復号化器に送信する必要はなく、あるいは、代わりに、このデータは、再び、現場で生成される。
【0042】
したがって、位置情報は実施形態においてのみ提供され、2つ以上の音源信号がある場合でも、この情報を送信する必要はないことに留意されたい。復号化器又は再生装置は、例えば、ビットストリーム又は記述中の第1の音源信号を、より左側に配置されている投影上の音源として常に取り込むことができる。同様に、ビットストリーム中の2番目の音源信号は、より右側に配置された投影上の音源とすることができる。
【0043】
さらに、音位置計算器は、投影面を用いて空間的に拡張された音源について少なくとも2つの音源の位置を計算するが、少なくとも2つの音源は必ずしも記述やビットストリームから受信する必要はない。むしろ、少なくとも2つの音源のうち1つの音源のみをビットストリーム及び他の音源を介して受信し、したがって、記述生成器から再生器にそのような情報を送信する必要なく、再生側でのみ他の位置または位置情報も実際に生成することができる。しかしながら、他の実施形態では、このすべての情報を送信することができ、さらに、ビットレート要件が厳しくない場合、1つ又は2つよりも多い数の音信号をビットストリームで送信することができ、そして、オーディオ復号化器190は、音位置計算器140によって位置が計算された少なくとも2つの音源を表す2つ、3つ、又はさらに多くの音信号を復号化することになる。
【0044】
図10は、符号化器/復号化器アプリケーション内で再生が適用される場合の、このシナリオの符号化器側を示す図である。図10は、空間的に拡張された音源に対する記述を生成するための装置を示す図である。特に、音提供装置200と出力データフォーマー240が提供される。この実施態様では、空間的に拡張された音源は、1つ以上の異なる音信号を有する圧縮された記述によって表され、出力データフォーマーは、好ましくは圧縮されたサウンドシーンを表す記述を生成し、記述は、少なくとも1つ以上の異なる音信号と空間的に拡張された音源に関連するジオメトリ情報とを含む。これは、図9に関して説明した状況を表しており、空間的に拡張された音源の位置(図9のブロック120の点線矢印参照)などの他の全ての情報は、再生側のユーザによって自由に選択可能である。したがって、この空間的に拡張された音源に対する少なくとも1つ以上の異なる音信号(これらの音信号は単に点音源信号である)を有する、空間的に拡張された音源の固有の記述が提供される。
【0045】
生成するための装置は、空間的に拡張された音源のジオメトリに関する情報を計算するなどして提供するためのジオメトリプロバイダ220を追加的に備える。計算とは異なるジオメトリ情報を提供する他の方法は、ユーザによって手動で起草された図などのユーザ入力、又は例えば音声、音、ジェスチャー又は他の任意のユーザ動作によってユーザによって提供される任意の他の情報を受信することを含む。1つ以上の異なる音声信号に加えて、ジオメトリに関する情報も記述又はビットストリームに導入される。
【0046】
任意選択で、1つ以上の異なる音信号の各音信号の個別位置情報についての情報もビットストリームに導入され、及び/又は空間的に拡張された音源の位置情報もビットストリーム又は記述に導入される。音源の位置情報は、ジオメトリ情報とは別個であってもよいし、ジオメトリ情報に含まれていてもよい。第1の場合、ジオメトリ情報は、位置情報に対して相対的に与えられることができる。第2の場合、ジオメトリ情報は、例えば球の場合、座標上の中心点と半径又は直径を含むことができる。箱状の空間的に拡張された音源の場合、8つ又はコーナーポイントの少なくとも1つは、絶対座標で与えられることができる。
【0047】
1つ以上の異なる音信号の各々の位置情報は、好ましくは、空間的に拡張された音源のジオメトリ情報に関連する。しかし、代替的に、空間的に拡張された音源の位置又はジオメトリ情報が与えられる同じ座標系に関連する絶対位置情報も有用であるが、代替的に、ジオメトリ情報はまた、相対的な方法ではなく絶対座標で絶対座標系内で与えることができる。しかしながら、一般的な座標系に関連しない相対的な方法でこのデータを提供することにより、ユーザは、図9のプロジェクタ120に向けられた点線で示されるように、再生設定において空間的に拡張された音源を自分自身で位置づけることができる。
【0048】
さらなる実施形態では、図10の音プロバイダー200は、空間的に拡張された音源に対して少なくとも2つの異なる音信号を提供するように構成され、出力データフォーマーは、ビットストリームが、好ましくは符号化されたフォーマットの少なくとも2つの異なる音信号と、任意に絶対座標で又は空間的に拡張された音源のジオメトリに関して少なくとも2つの異なる音信号のそれぞれの音信号の個別置位情報を含んで成るようにビットストリームを生成するために構成される。
【0049】
実施形態において、音プロバイダーは、個々の複数のマイクロフォン位置又は方向における自然音源の録音を実行するように構成され、又は、例えば、図1、項目164及び166に関して説明したように、1つ以上の無相関フィルタによって単一の基底信号又は複数の基底信号から音信号の導出を実行するように構成されている。生成器で使用される基底信号は、再生現場で提供される、又は生成器から再生器に送信される基底信号と同じであっても異なっていてもよい。
【0050】
さらなる実施形態では、ジオメトリプロバイダー220は、空間的に拡張された音源のジオメトリから、パラメトリック記述又は多角形記述を導出するように構成され、出力データフォーマーは、ビットストリームに、このパラメトリック記述又は多角形記述を導入するように構成される。
【0051】
さらに、出力データフォーマーは、好ましい実施形態において、ビットストリーム又は記述に、記述要素を導入するように構成され、このビットストリーム要素は、ビットストリームに含まれる、又はビットストリームに関連する符号化オーディオ信号に含まれる空間的に拡張された音源に対する少なくとも1つの異なる音信号の数を示し、この数は1以上である。出力データフォーマーが生成するビットストリームは、必ずしも一方がオーディオ波形データで、他方がメタデータを含む完全な記述である必要はない。その代わりに、記述又はビットストリームは、例えば、各々の空間的に拡張された音源の音信号の数の記述フィールド、空間的に拡張された音源のジオメトリ情報、実施形態では空間的に拡張された音源の位置情報でもあり、任意に各音信号及び各々の空間的に拡張された音源の位置情報、空間的に拡張された音源のジオメトリ情報、及び実施形態では空間的に拡張された音源の位置情報をも含む、別のメタデータビットストリームのみでもありうる。一般的に圧縮された形態で利用可能な波形オーディオ信号は、再生機が1つの音源から符号化されたメタデータを、異なる音源から(符号化された)波形信号を受信するように、別のデータストリーム又は別の送信チャネルによって再生機に送信される。
【0052】
出力データフォーマー(240)は、さらに、フラグ、ビットストリーム又はビットストリーム要素、又は図10の322で例示される情報を記述に導入するように構成され、情報項目は、空間的に拡張された音源の位置又は方向に対する空間的に拡張された音源の1つ以上の異なる音信号の絶対固定化を示す。固定化情報322は、サウンドシーン又は空間的に拡張された音源の作成者によって自動的又は手動で生成することができる。個々のチャネルは、(例えば、ピアノの左側に位置する第1のマイクロフォン及びピアノの右側に位置する第2のマイクロフォンによるピアノの例において等のように)特定の場所で実際に録音することができ、又は合成的に又は仮想のマイクロフォンを使用して作成することができる。オブジェクト固定化モードでは、音信号や波形の位置情報は、マイクロフォンの位置から得られるか、マイクロフォンの位置そのものとなる。
【0053】
さらに、記述生成器の実施形態は、コントローラ250を含む。コントローラ250は、音プロバイダーによって提供されるべき音信号の数に関して音プロバイダー200を制御するように構成される。この手順に沿って、コントローラ250はまた、ビットストリーム要素情報を、オプション機能を意味するハッチングされた線によって示される出力データフォーマー240に提供する。出力データフォーマーは、コントローラ250として制御され、音プロバイダー200によって提供されるような音信号の数に関する特定情報をビットストリーム要素に導入する。好ましくは、音信号の数は、符号化されたオーディオ音信号を含む出力ビットストリームが外部ビットレート要件を満たすように制御される。許容ビットレートが高い場合、音プロバイダーは、許容ビットレートが小さい場合と比較して、より多くの音信号を提供することになる。極端な例として、ビットレート要件が厳しい場合、音プロバイダーは、空間的に拡張された音源に対して単一の音信号のみを提供することになる。
【0054】
再生装置は、対応して設定されたビットストリーム要素を読み取り、レンダラー160内で、復号器側で、送信された音信号を使用して、最終的に、必要な数の周辺点音源と、オプションとして補助音源が生成されるように、対応する数のさらなる音信号を合成するために進むことになる。
【0055】
しかしながら、ビットレート要件がそれほど厳しくない場合、コントローラ250は、例えば、対応する数のマイクロフォン又はマイクロフォン方向によって記録された、多数の異なる音信号を提供するように音プロバイダーを制御することになる。そうすると、再生側では、いかなる無相関処理も全く必要ないか、あるいは小さい程度にしか必要ないので、結局、再生側での無相関処理が減少するか、あるいは必要ないために、再生装置によってより良い再生品質が得られる。一方でのビットレートと他方での品質との間のトレードオフは、好ましくは、空間的に拡張された音源ごとの音信号の数を示すビットストリーム要素の機能性を介して得られる。
【0056】
図11は、図10に例示した記述生成装置によって生成される記述の好ましい実施形態を示す図である。この記述は、例えば、それに対応するデータを有するSESS2として示される第2の空間的に拡張された音源401と、データ301~322を有するSESS1として示される別の第1の空間的に拡張された音源とを含む。
【0057】
したがって、図11は、空間的に拡張された音源番号1に対する各空間的に拡張された音源の詳細データを示すものである。図11の例では、例えば空間的に拡張された音源の異なる2箇所に配置されたマイクロフォンから拾ったマイクロフォン出力データから生成器で生成された、空間的に拡張された音源に対する2つの音信号がある。第1の音信号は301で示される音信号1、第2の音信号は302で示される音信号2であり、両音信号はビットレート圧縮用のオーディオ符号化器を介して符号化されることが好ましい。さらに、項目311は、例えば図10のコントローラ250によって制御されるような空間的に拡張された音源1の音信号の数を示す記述要素を表す。
【0058】
ブロック331に示すように、空間的に拡張された音源のためのジオメトリ情報が導入される。項目301は、ピアノの例に関して、302で示される音信号1について「低音弦に近い」及び音信号2について「高音弦に近い」を示すようなジオメトリ情報との関係で好ましくは音信号のための任意の位置情報を示している。従って、項目302は位置情報を表している。この位置情報は、音源を再生する際に、固定化情報要素322によって解釈される。ジオメトリ情報は、例えば、ピアノモデルのパラメトリック表現又は多角形表現であってよく、このピアノモデルは、例えば、グランドピアノ又は(小型)ピアノと異なるであろう。項目341は、空間的に拡張された音源の空間内における位置情報のオプションデータを追加的に示している。前述のように、ユーザが図9の点線で示すような位置情報をプロジェクタに指示する場合には、この位置情報341は不要である。しかしながら、位置情報341がビットストリームに含まれる場合であっても、それにもかかわらず、ユーザは、ユーザ相互作用によって、位置情報を交換又は修正することができる。
【0059】
続いて、本発明の好ましい実施形態について説明する。実施形態は、6DoF VR/AR(仮想現実/拡張現実)における空間的に拡張された音源(Spatially Extended Sound Sources)のレンダリングに関するものである。
【0060】
本発明の好ましい実施形態は、空間的に拡張された音源(Spatially Extended Sound Sources)(SESS)の再生を強化するように設計されている方法、装置又はコンピュータプログラムに向けられている。特に、本発明方法又は装置の実施形態は、空間的に拡張された音源と仮想リスナー位置との間の時間的に変化する相対的位置を考慮する。言い換えれば、本発明の方法又は装置の実施形態は、聴覚的音源幅が、リスナーに対する任意の相対位置で表される音オブジェクトの空間的範囲に一致することを可能にする。このように、本発明方法又は装置の実施形態は、特に、空間的に拡張された音源が従来採用されていた点音源を補完する6自由度(6DoF)仮想、混合及び拡張現実アプリケーションに適用される。
【0061】
本発明の方法又は装置の実施形態は、(好ましくは有意に)無相関信号が供給される複数の周辺点音源を使用することによって、空間的に拡張された音源をレンダリングするものである。他の方法とは対照的に、これらの周辺点音源の位置は、空間的に拡張された音源に対するリスナーの位置に依存する。図1は、本発明の方法又は装置の実施形態による、空間的に拡張された音源レンダラーの概要ブロック図である。
【0062】
ブロック図の主要な構成要素は以下の通りである。
【0063】
1.リスナー位置:このブロックは、例えば仮想現実トラッキングシステムによって測定されるようなリスナーの瞬間的な位置を提供する。このブロックは、リスナー位置を検出するための検出器100又はリスナー位置を受信するためのインターフェース100として実装することができる。
【0064】
2.空間的に拡張された音源の位置とジオメトリ:このブロックは、例えば、仮想現実シーン表現の一部としてレンダリングされる空間的に拡張された音源の位置及びジオメトリデータを提供する。
【0065】
3.投影及び凸包(ハル)の計算:このブロック120は、空間的に拡張された音源のジオメトリの凸包を計算し、次にそれをリスナー位置に向かう方向(例えば、「画像平面」、下記参照)に投影する。あるいは、最初にリスナー位置に向かってジオメトリを投影し、次にその凸包を計算することによっても、同じ機能を実現することができる。
【0066】
4.周辺点音源の位置:このブロック140は、前のブロックで計算された凸包投影データから、使用される周辺点音源の位置を計算する。この計算では、リスナー位置、ひいてはリスナーの近接/距離を考慮することもある(後述)。出力は、n個の周辺点音源の位置である。
【0067】
5.レンダラコア:レンダラコア162は、n個の周辺点音源を指定されたターゲット位置に配置することにより可聴化する。これは、例えば、頭部に関連する伝達関数を使用するバイノーラルレンダラー又はラウドスピーカー再生のためのレンダラー(例えば、ベクトルベースの振幅パンニング)であることが可能である。レンダラーコアは、k個の入力オーディオ基底信号(例えば、楽器録音の無相関信号)とm≧(n-k)個の追加の無相関オーディオ信号からl個のラウドスピーカー又はヘッドフォン出力信号を生成する。
【0068】
6.音源基底信号:このブロック164は、互いに(十分に)無相関化された、レンダリングする音源を表すk個の基底オーディオ信号の入力である(例えば、楽器のモノラル-k=1-又はステレオ-k=2-楽器の録音)。k個の基底オーディオ信号は、例えば、デコーダ側生成器から受信したビットストリーム(例えば、図11の要素301、302参照)から取り出されるか、又は外部音源から再生現場で提供することができる。周辺音源の位置への基底オーディオ信号のマッピング又は周辺音源に対する波形の生成は、ユーザ又はリスナー固定化又はオブジェクト固定化を例示的に示す固定化情報とともに、位置情報によって影響を受けることが可能である。
【0069】
7.無相関化:このオプションのブロック166は、n個の周辺点音源をレンダリングするために必要な、追加の無相関化されたオーディオ信号を生成する。
【0070】
8.信号出力:レンダラーは、ラウドスピーカー(例えば、n=5.1)又はバイノーラル(典型的にはn=2)レンダリングのための出力信号を提供する。
【0071】
図1は、本発明の方法又は装置の一実施形態のブロック図の概要を示す図である。破線は、ジオメトリ及び位置などのメタデータの送信を示す。実線は、オーディオの送信を示し、k、l及びmは、オーディオチャネルの多さを示す。レンダラーコア162は、おそらくk+m個のオーディオ信号とn(<=k+m)個の位置データとを受信する。ブロック162、164、166は、ともに、一般的なレンダラー160の実施形態を形成する。レンダラは、空間的に拡張された音源を記述する複数のチャネル信号の場合に、ジオメトリ情報、特に位置情報を解釈するための固定化情報を追加で受信する。
【0072】
周辺点音源の位置は、空間的に拡張された音源のジオメトリ、特に空間的な広がりと、空間的に拡張された音源に対するリスナーの相対的な位置に依存する。特に、周辺点音源は、投影面上への空間的に拡張された音源の凸包の投影上に配置されてもよい。投影面は、ピクチャー面(picture plane)、すなわち、リスナーから空間的に拡張された音源への視線に垂直な面であっても、リスナーの頭部の周りの球面であってもよい。投影面は、リスナーの頭部の中心から任意の小距離に位置する。あるいは、空間的に拡張された音源の投影凸包は、リスナー頭部の視点から相対する球面座標のサブセット(部分集合)である方位角と仰角から計算されてもよい。以下の例示的な例では、投影面は、より直感的な特徴を有するため好ましい。投影された凸包の計算の実装において、角度表現は、より単純な形式化及びより低い計算複雑性のために好まれる。なお、空間的に拡張された音源の凸包の投影は、いずれも、投影された空間的に拡張された音源のジオメトリの凸包と同一であることに注意が必要である。すなわち、凸包の計算とピクチャー面への投影はどちらの順序でも使用することができる。
【0073】
周辺点音源の位置は、空間的に拡張された音源の凸包の投影上に、以下のような様々な方法で分布することができる。
・ハル投影の周囲に均一に分布させる。
・ハル投影の極点に分布させる。
・ハル投影の水平方向及び/又は垂直方向の極点に配置する(「実例(Section Practical Examples)」の図参照)。
【0074】
周辺点音源に加え、他の補助的な点音源を使用することで、計算量は増えるが、音響的な充足感をより高めることができる。さらに、周辺点音源を配置する前に、投影された凸包(ハル)を修正することができる。例えば、投影された凸包は、投影された凸包の重心に向かって縮小され得る。このような縮小された投影凸包は、レンダリング方法によって導入された個々の周辺点光源の追加の空間的広がりを考慮してもよい。凸包の修正は、水平方向と垂直方向のスケーリング(拡大縮小)をさらに区別することができる。
【0075】
空間的に拡張された音源に対するリスナー位置が変化すると、それに応じて空間的に拡張された音源の投影面への投影が変化する。それに伴い、周辺点音源の位置も変化する。周辺点音源の位置は、空間的に拡張された音源とリスナーの連続的な移動に対して滑らかに変化するように選択することが好ましいとする。さらに、投影された凸包は、空間的に拡張された音源のジオメトリが変更されたときに変更される。これには、投影された凸包を変化させる3次元空間における空間的に拡張された音源のジオメトリの回転が含まれる。ジオメトリの回転は、空間的に拡張された音源に対するリスナー位置の角度変位に等しく、リスナーと空間的に拡張された音源の相対位置として包括的に言及されるようなものである。例えば、球状の空間的に拡張された音源を中心としたリスナーの円運動は、周辺点音源を重心周りに回転させることで表現される。また、リスナーが静止した状態で空間的に拡張された音源を回転させると、周辺点音源の位置が同じように変化する。
【0076】
本発明の方法又は装置の実施形態によって生成されるような空間的広がりは、空間的に拡張された音源とリスナーとの間のいかなる距離に対しても、本質的に正しく再現される。当然ながら、ユーザが空間的に拡張された音源に近づくと、物理的現実をモデル化するのに適切であるように、周辺点音源間の開き角度が増加する。
【0077】
周辺点音源の角度配置は、投影面上の投影された凸包上の位置によって一意に決まるが、周辺点音源の距離は、さらに以下のような様々な方法で選択することが可能である。
【0078】
・すべての周辺点音源は、空間的に拡張された音源全体の距離(例えば、リスナーの頭部に対する空間的に拡張された音源の重心を通して定義される)に等しく、同じ距離を持つ。
・各周辺点音源の距離は、投影面への周辺点音源の投影が同じ点になるように、空間的に拡張された音源のジオメトリに投影された凸包上の位置を背面投影することによって決定される。投影された凸包から空間的に拡張された音源への周辺点音源の背面投影は、必ずしも一意に決まらない場合があるため、追加の投影ルールを適用する必要がある(「実例」参照)。
・また、周辺点音源のレンダリングに距離特性を必要とせず、方位角と仰角の相対的な配置のみを必要とする場合には、周辺点音源の距離を全く決定できないことがある。
【0079】
空間的に拡張された音源のジオメトリ形状/凸包を指定するために、簡略化された1D、例えば、線、曲線;2D、例えば、楕円、四角、多角形;又は3D形状、例えば、楕円体、立方体及び多面体を含む近似が用いられる(そして、場合によっては、レンダラ又はレンダラコアに送信される)。空間的に拡張された音源のジオメトリ又は対応する近似的な形状は、それぞれ、以下のような様々な方法で記述され得る。
【0080】
・パラメトリック記述、すなわち、追加のパラメータを受け入れる数式を介したジオメトリの形式化。例えば、3次元の楕円体形状は、デカルト座標系(Cartesian coordinate system)上の陰関数によって記述され、追加のパラメータは、3方向すべてにおける主軸の延長とすることができる。さらにパラメータとして、3次元回転、楕円体表面の変形関数などがある。
・多角形記述、すなわち、直線、三角形、正方形、四面体、立方体などのプリミティブなジオメトリ形状の集合体である。原始的な多角形と多面体は、より大きく複雑なジオメトリに連結される場合がある。
【0081】
周辺点音源信号は、空間的に拡張された音源の基底信号から得られる。基底信号の取得方法には以下のようなものがある。1)単一又は複数のマイクロフォンの位置及び方向で自然音源を録音する(例:実用例に見られるピアノの音の録音)2)人工音源を合成する(例:パラメータを変化させた音の合成)3)任意のオーディオ信号を組み合わせる(例:エンジン、タイヤ、ドアなど車の各種機械音)などの方法がある。さらに、複数の無相関フィルタにより、基底信号から人工的に周辺点音源信号を追加生成してもよい(前項参照)。
【0082】
ある種のアプリケーションシナリオでは、6DoF VR/ARコンテンツのコンパクトで相互運用可能な保存/送信に焦点が当てられている。この場合、チェーン全体は3つのステップで構成される。
【0083】
1.所望の空間的に拡張された音源をビットストリームなどの記述にオーサリング(Authoring)/符号化する。
2.生成されたビットストリームの送信/保存。提示された発明に従って、ビットストリームは、他の要素に加えて、モノフォニック(monophonic)又はステレオフォニックピアノ録音(stereophonic piano recording)のような空間的に拡張された音源ジオメトリ(パラメトリック又は多角形)及び関連する音源基底信号(複数可)の記述を含んでいる。波形は、mp3やMPEG-2/4 Advanced Audio Coding(AAC)などの知覚的オーディオ符号化アルゴリズムを用いて圧縮することができる(図10の項目260を参照)。
3.前述したように、送信されたビットストリームに基づいて、空間的に拡張された音源の復号化/レンダリングを行う。
【0084】
前述したコアメソッドに加えて、さらなる処理のためのいくつかのオプションが存在する。
【0085】
オプション1-周辺点音源の番号と位置の動的な選択
【0086】
空間的に拡張された音源に対するリスナーの距離に応じて、周辺点音源の数を変化させることができる。一例として、空間的に拡張された音源とリスナーが離れている場合、投影された凸包(ハル)の開き角(開口部)が小さくなるため、有利に周辺点音源を少なく選択でき、計算量とメモリの複雑さを節約することが可能である。極端な例では、すべての周辺点音源が1つの残りの点音源に縮小される。基底信号と派生信号の間の干渉が、結果として生じる周辺点音源信号のオーディオ品質を低下させないように、適切なダウンミキシング技術を適用することができる。空間的に拡張された音源のジオメトリがリスナーの相対的視点に依存して非常に不規則である場合、同様の技術は、リスナー位置への空間的に拡張された音源の距離が近い場合にも適用され得る。例えば、空間的に拡張された音源のジオメトリが有限長の線である場合、投影面上で1点に向かって縮退することがある。一般に、投影された凸包上の周辺点音源の角度的広がりが小さい場合、空間的に拡張された音源は、より少ない周辺点音源で表現されることがある。極端な例では、すべての周辺点音源が、残った1つの点音源に縮退する。
【0087】
オプション2-拡がり補正(Spreading Compensation)
各周辺点音源も凸包投影の外側に向かって空間的な広がりを持つため、レンダリングされた空間的に拡張された音源の聴覚上のイメージ幅は、レンダリングに使用した凸包よりもいくらか大きくなる。これを目的のジオメトリに合わせるには、次の2つの方法がある。
【0088】
1.オーサリング時の補正:コンテンツのオーサリング中に、レンダリング手順の追加の広がりを考慮する。具体的には、コンテンツのオーサリング中に、空間的に拡張された音源のジオメトリをある程度小さくして、実際にレンダリングされるサイズが希望通りになるように選択する。これは、オーサリング環境(例えば、プロダクションスタジオ)におけるレンダラー又はレンダラーコアの効果をモニタリングすることによって確認することができる。この場合、送信される記述又はビットストリーム及びレンダラ又はレンダラコアは、ターゲットサイズと比較して縮小されたターゲットジオメトリを使用する。
【0089】
2.レンダリング中の補正:空間的に拡張された音源レンダラー又はレンダラーコアは、レンダリング手順によって追加の知覚的な広がりを認識することができるため、この効果を補償することが可能になる。簡単な例として、レンダリングに使用するジオメトリは、周辺点音源の配置に適用される前に、以下のようになる。
・一定の係数a<1.0(たとえば、a=0.9)によって縮小される、又は、
・一定の開き角α=5度だけ縮小される。
この場合、送信ビットストリームは、空間的に拡張された音源ジオメトリの最終的なターゲットサイズを含んでいる。
【0090】
また、これらのアプローチを組み合わせることも可能である。
【0091】
オプション3-周辺点音源の波形の生成
【0092】
さらに、周辺点音源に給電するための実際の信号は、左側に低音の音及びその逆を持つピアノのようなジオメトリに依存した音の寄与を持つ空間的に拡張された音源をモデル化するために、空間的に拡張された音源に対するユーザ位置を考慮して、記録されたオーディオ信号から生成することができる。
【0093】
例 アップライト(直立)ピアノの音は、その音響的な挙動によって特徴付けられる。これは、ピアノの鍵盤の下端付近(「低音」)と鍵盤の上端付近(「高音」)の(少なくとも)2つのオーディオ基底信号によってモデル化される。これらの基底信号は、ピアノ音を録音する際に適切なマイクロフォンを使用することで得られ、6DoFレンダラ又はレンダラコアに送信され、それらの間に十分な無相関性があることが保証される。
【0094】
そして、この基底信号から、空間的に拡張された音源に対するユーザの位置を考慮して、周辺点音源信号を導出する。
【0095】
・ユーザーがピアノを正面(鍵盤側)から見た場合、2つの周辺点音源はそれぞれピアノの鍵盤の左端と右端付近で大きく離れている。この場合、低音鍵盤の基底信号は左の周辺点音源に直接入力することができ、高音鍵盤の基底信号は右の周辺点音源を直接駆動するために使用することができる。
【0096】
・リスナーがピアノの周りを右回りに90度程度歩くと、ピアノのボリュームモデル(例えば楕円)を横から見たときの投影が小さいので、2つの周辺点音源は非常に接近してパンニングされる。周辺点音源信号を直接駆動するために基底信号が引き続き使用される場合、一方の周辺点音源には高音が主に含まれ、他方の周辺点音源には主に低音が含まれることになる。これは物理的に好ましくないので、周辺点音源信号を形成する2つの基底信号を、ピアノ重心に対するユーザーの動きと同じ角度だけジブンス回転させることでレンダリングを改善することができる。このようにして、両信号は、(基底信号が無相関化されていると仮定して)無相関化されたまま、同様のスペクトルコンテントを持つ信号を含むようになる。
【0097】
オプション4-レンダリングされた空間的に拡張された音源の後処理
【0098】
実際の信号は、空間的に拡張された音源の指向性パターンなど、位置および方向に依存する効果を考慮して前処理または後処理することができる。つまり、前述したように空間的に拡張された音源から放射される音全体を、例えば指向性に依存した音の放射パターンを示すように修正することができる。ピアノ信号の場合、これは、ピアノの背面に向かう放射は、その前面に向かうよりも高周波成分が少ないことを意味し得る。さらに、周辺点音源信号の前処理及び後処理は、周辺点音源のそれぞれについて個別に調整されてもよい。例えば、指向性パターンは、周辺点音源の各々に対して異なるように選択されてもよい。ピアノを表す空間的に拡張された音源の所定の例では、低音域と高音域の指向性パターンは上述のように同様であってもよいが、ペダリングノイズ(pedaling noises)などの追加信号はより無指向性の指向性パターンを有している。
【0099】
続いて、好ましい実施形態のいくつかの利点を要約する。
【0100】
点音源で空間的に拡張された音源内部を完全に充填する場合(例えば、Advanced AudioBIFSで使用されるような場合)と比較して、計算の複雑さがより低い。
・点音源信号間の破壊的な干渉の可能性が少ない。
・ビットストリーム情報(ジオメトリ形状近似、1つ以上の波形)のサイズがコンパクトになる。
・VR/ARレンダリングを目的とした音楽消費用として作成されたレガシー録音(legacy recordings)(例:ピアノのステレオ録音)の使用を可能にする。
【0101】
その後、様々な実用例が紹介されている。
・球状空間的に拡張された音源
・楕円空間的に拡張された音源
・線空間的に拡張された音源
・立方体空間的に拡張された音源
・距離依存型周辺点音源
・ピアノ型空間的に拡張された音源
【0102】
上記の本発明方法又は装置の実施形態で説明したように、周辺点音源の位置を決定するための様々な方法を適用することができる。以下の実例は、特定の場合におけるいくつかの分離された方法を示すものである。本発明方法又は装置の実施形態の完全な実装において、様々な方法は、計算複雑性、適用目的、オーディオ品質及び実装の容易さを考慮して、適宜組み合わされ得る。
【0103】
空間的に拡張された音源のジオメトリは、緑色のサーフェスメッシュ(surface mesh)として表示される。ただし、メッシュの視覚化は、空間的に拡張された音源のジオメトリが多角形法によって記述されることを意味するものではないことに注意が必要である。実際には、空間的に拡張された音源のジオメトリはパラメトリック仕様から生成される可能性がある。リスナーの位置は青い三角形で示される。以下の例では、画像面を投影面として選択し、投影面の有限サブセット(部分集合)を示す透明な灰色の平面として描かれている。空間的に拡張された音源の投影面上へ投影されたジオメトリは、同じ表面のメッシュを緑色にして描かれている。投影された凸包上の周辺点音源は、投影面上に赤い十字で描かれている。空間的に拡張された音源のジオメトリへの背面投影された周辺点音源は、赤色の点で描かれている。投影された凸包上の対応する周辺点音源と空間的に拡張された音源のジオメトリ上の背面投影された周辺点音源を赤線で結び、視覚的に対応関係を確認しやすくしている。関係するすべてのオブジェクトの位置はデカルト座標系で描かれており、単位はメートルである。描かれている座標系の選択は、関係する計算がデカルト座標で実行されることを意味するものではない。
【0104】
図2の最初の例では、球形の空間的に拡張された音源を考える。この球状の空間的に拡張された音源は、大きさが一定で、リスナーに対する位置が一定である。投影された凸包上に3、5、8個の異なる周辺点音源のセットが選択される。周辺点音源の3つのセットはすべて凸包曲線上において均一な距離で選択される。凸包曲線上の周辺点音源のオフセット位置は、空間的に拡張された音源のジオメトリの水平方向の広がりを適切に表現するように意図的に選ばれている。
【0105】
図2は、凸包上に均一に分布する周辺点音源の数が異なる(すなわち、3(上)、5(中)、8(下))、球状の空間的に拡張された音源を示す図である。
【0106】
次に、図3の例では、楕円体の空間的に拡張された音源を考える。楕円体の空間的に拡張された音源は、3次元空間において、形状、位置、回転が固定されている。この例では、4つの周辺点音源が選ばれている。周辺点音源の位置の決定方法として、3種類の異なる方法を例示する。
【0107】
a)水平方向の2つの極点に2つの周辺点音源を配置し、垂直方向の2つの極点に2つの周辺点音源を配置する。一方、極点の配置は単純であり、多くの場合適切である。この例は、この方法により、互いに比較的近い周辺点音源の位置が得られる可能性があることを示している。
【0108】
b)4つの周辺点音源はすべて投影された凸包上に均一に分布している。周辺点音源の位置のオフセットは、最上部の周辺点音源の位置がa)の最上部の周辺点音源の位置と一致するように選択される。周辺点音源の位置のオフセットの選択は、周辺点音源を介したジオメトリ形状の表現に大きな影響を与えることが分かる。
【0109】
c)4つの周辺点源はすべて、縮小投影された凸包上に均一に分布している。周辺点音源位置のオフセット位置は、b)で選択されたオフセット位置に等しい。投影された凸包の縮小操作は、投影された凸包の重心に向かって、方向に依存しない伸縮係数(stretch factor)を用いて実行される。
【0110】
図3は、a/上)水平及び垂直方向の極点、b/中)凸包上の均一分布点、c/下)縮小した凸包上の均一分布点という、周辺点音源の位置を決定する3つの異なる方法の下での、4つの周辺点音源を持つ楕円体の空間的に拡張された音源を示している。
【0111】
次に、図4の例では、線状空間的に拡張された音源を考える。これまでの例では、ボリューム空間的に拡張された音源のジオメトリを考慮していたが、この例では、空間的に拡張された音源のジオメトリは、3次元空間内の1次元のオブジェクトとして選択することも十分に可能であることを示している。図中a)は、有限の線状空間的に拡張された音源のジオメトリの極点に配置された2つの周辺点音源を示し、b)は、有限の線状空間的に拡張された音源のジオメトリの極点に2つの周辺点音源を配置し、線の中間に1つの追加点音源を配置したものである。本発明の方法又は装置の実施形態で説明したように、空間的に拡張された音源のジオメトリ内に追加の点音源を配置することは、大きな空間的に拡張された音源のジオメトリの大きなギャップを埋めるのに役立つ。c)において、a)及びb)と同じ線状の空間的に拡張された音源のジオメトリが考えられるが、線状のジオメトリの投影された長さがかなり小さくなるようにリスナーに向けた相対角度が変更されている。上記の本発明方法又は装置の実施形態で説明したように、投影された凸包の縮小は、周辺点音源の数の減少、この例では、線状のジオメトリの中心に位置する単一の周辺点音源によって表現することができる。
【0112】
図4は、周辺点音源の位置を分散する3つの異なる方法を使用した線状の空間的に拡張された音源を示している。a/上)投影された凸包上の2極点、b/中)線の中央に追加の点音源を持つ投影された凸包上の2極点、c/下)回転した線の投影された凸包が小さすぎて1つより多い周辺点音源を許可できないため、凸部の中央にある1つの周辺点音源。
【0113】
次に、図5の例では、立方体の空間的に拡張された音源を考える。立方体の空間的に拡張された音源は大きさも位置も一定であるが、リスナーの相対位置が変化する。このとき、4つの周辺点音源を投影された凸包上に配置する異なる方法を図中のa)、b)に示す。背面(逆)投影された周辺点源の位置は、投影された凸包の選択によって一意に決定される。c)は、背面投影位置が十分に分離されていない4つの周辺点音源を描いたものである。その代わり、周辺点音源の位置の距離は、空間的に拡張された音源のジオメトリの重心距離に等しく選ばれている。
【0114】
図5は、周囲点音源を分散する3つの異なる方法を使用して、立方体の空間的に拡張された音源を示している。a/上)水平軸上に2つの周辺点音源、垂直軸上に2つの周辺点音源、b/中)投影された凸包の水平極点に2つの周辺点音源、投影された凸包の垂直極点に2つの周辺点音源、c/下)背面投影された周辺点音源距離は、空間的に拡張された音源のジオメトリの重心距離と等しくなるように選択される。
【0115】
次の図6の例では、大きさと形状は一定だが、リスナー位置に対して3つの異なる距離にある、球形の空間的に拡張された音源を考える。周辺点音源は凸包曲線上に均一に分布している。周辺点音源の数は、凸包曲線の長さと、可能な周辺点音源の位置間の最小距離から動的に決定される。a)球状の空間的に拡張された音源は、投影された凸包上に4つの周辺点音源が選ばれるように近い距離にある。b)球状の空間的に拡張された音源は、投影された凸包上に3つの周辺点音源が選択されるように中間距離にある。a)球状の空間的に拡張された音源は遠方にあるため、投影された凸包上で2つの周辺点音源のみが選択される。上記の本発明の方法または装置の実施形態で説明したように、周辺点光源の数は、球角座標(spherical angular coordinates)で表される範囲から決定することもできる。
【0116】
図6は、同じ大きさの球状の空間的に拡張された音源を異なる距離に配置した例である。a/上)投影された凸包上に4つの周辺点音源が均一に分布する近距離、b/中)投影された凸包上に3つの周辺点音源が均一に分布する中距離、c/下)投影された凸包上に2つの周辺点音源が均一に分布する遠距離である。
【0117】
図7図8の最後の例では、仮想世界内に置かれたピアノ型の空間的に拡張された音源を考える。ユーザはヘッドマウントディスプレイ(head-mounted display、HMD)とヘッドホンを装着している。バーチャルリアリティのシーンは、オープンワードのキャンバスと、自由運動領域内の床に立っている3Dアップライトピアノのモデルから構成され、ユーザに提示される(図7参照)。オープンワールドキャンバスは、ユーザーを取り囲む球体に投影される球状の静止画像である。この例では、オープンワールドキャンバスに、青空と白い雲が描かれている。ユーザーは歩き回り、さまざまな角度からピアノを見たり聞いたりすることができる。このシーンでは、ピアノは重心に置かれた単一の点音源として、又は投影された凸包上に3つの周辺点音源を持つ空間的に拡張された音源としてレンダリングされる(図8参照)。レンダリング実験の結果、周辺点音源レンダリング方式は、一点音源レンダリング方式に比べて、圧倒的に優れた臨場感を持つことが分かった。
【0118】
周辺点音源の位置の計算を簡単にするために、ピアノのジオメトリを同じような寸法の楕円体形状に抽象化している(図7参照)。さらに、2つの代替点音源を赤道線上の左右の極点に配置し、3つ目の代替点音源は北極に残す(図8)。この配置により、どの角度から見ても適切な水平方向の音源幅が保証され、計算量も大幅に削減される。
【0119】
図7は、近似的なパラメトリックな楕円体形状(赤色メッシュ)を有するピアノ型の空間的に拡張された音源(緑色)を示す。
【0120】
図8は、投影された凸包の垂直方向の極点と投影された凸包の垂直方向の頂点位置に分布する3つの周辺点音源を持つピアノ形状の空間的に拡張された音源を示す図である。なお、より可視化するために、周辺点音源は引き伸ばされ投影された凸包上に配置されている。
【0121】
続いて、本発明の実施形態の具体的な特徴について説明する。提示された実施形態の特徴は、以下の通りである
【0122】
・空間的に拡張された音源の知覚される音響空間を埋めるために、好ましくは、その内部全体を無相関化された点音源(周辺点音源)で埋めるのではなく、リスナーに面するようにその周辺部(例えば、「空間的に拡張された音源の凸包のリスナーに向けた投影」)だけを埋める。具体的には、周辺点音源の位置は、空間的に拡張された音源のジオメトリに付随するのではなく、リスナー位置に対する空間的に拡張された音源の相対的な位置を考慮して動的に計算されることを意味する。
・周辺点音源の動的計算(数、位置)
【0123】
・空間的に拡張された音源の形状の近似値を用いる(圧縮表現を用いるシナリオの場合:ビットストリームの一部として送信される)。
【0124】
この技術の応用は、オーディオ6DoF VR/AR規格の一部となる可能性がある。この場合、古典的な符号化/ビットストリーム/復号化(+レンダラ)のシナリオがある。
【0125】
・符号化器では、空間的に拡張された音源の形状が、空間的に拡張された音源の「基本」波形とともにサイド情報として符号化される。それは空間的に拡張された音源を特徴付ける以下のいずれかである。
・モノラル信号、又は、
・ステレオ信号(十分に無相関であることが望ましい)、又は、
・さらに記録された信号(これも十分に無相関であることが望ましい)。
これらの波形は、低ビットレートで符号化することができる。
【0126】
・復号化器/レンダラでは、ビットストリームから空間的に拡張された音源の形状及び対応する波形を取り出し、前述のように空間的に拡張された音源のレンダリングに用いる。
【0127】
使用される実施形態に応じて、また説明された実施形態の代替案として、インターフェースは、リスナー位置を検出するための実際のトラッカー又は検出器として実装することができることに留意されたい。しかしながら、リスニング位置は、典型的には、外部トラッカー装置から受信され、インターフェースを介して再生装置に供給されることになる。しかし、インターフェースは、外部トラッカーからの出力データのための単なるデータ入力を表すこともできるし、トラッカーそのものを表すこともできる。
【0128】
さらに、概説したように、周辺音源の間に追加の補助音源が必要な場合もある。
【0129】
さらに、左右の周辺音源と、任意に(リスナーに対して)水平方向に間隔を置いた補助音源は、垂直方向に間隔を置いた周辺音源、すなわち空間的に拡張された音源の上部と下部にある周辺音源よりも知覚的印象に対して重要であることが判明している。例えばリソースが乏しい場合、少なくとも水平方向に間隔を置いた周辺音源(及び任意に補助音源)を使用することが好ましい一方、処理リソースを節約するために垂直方向に間隔を置いた周辺音源は省略することができる。
【0130】
さらに、概説したように、ビットストリーム生成器は、空間的に拡張された音源に対して1つの音信号のみを有するビットストリームを生成するように実装でき、残りの音信号は無相関化によって復号器側または再生側で生成される。信号が1つしかない場合、そして、その1つの信号で空間全体を均等に満たす場合には、位置情報は不要である。しかしながら、このような状況において、図10の220で例示したようなジオメトリ情報計算器によって計算された空間的に拡張された音源のジオメトリに関する少なくとも付加的な情報を有することは有用であり得る。
【0131】
さらなる実施形態については後述する。
【0132】
オブジェクト音源インプットレイアウト(ObjectSourceInputLayout)
空間的な広がりを持つオブジェクト音源は、マルチチャネルのオーディオストリーム(AudioStream)を持つことができ、レンダラはモノラルオーディオストリームの場合よりもリアルにオブジェクト音源をレンダリングすることができるようになる。これは、例えば、噴水、滝、川、砕ける波など、拡散したオーディオ音源をレンダリングするときに有用である。
【0133】
エクステント(広がり)を持つオブジェクト音源は、常にリスナーからの仰角-方位角のセクタでリスナーに知覚される。このセクタは、リスナーに対するオブジェクト音源の相対位置と、オブジェクト音源のエクステント(広がり)とによって、すべて音響的な知覚的な意味で決定される。これは、オブジェクト音源がリスナーの右前半球にある円筒形の広がりを有するオブジェクト音源について、図12aに例示されている。仰角-方位角セクタの中心への観測ベクトルに直交する平面と仰角-方位角セクタの交点は、矩形(長方形)を指定する。この矩形は、リスナーの位置からリスナーが音響的に知覚するオブジェクト音源の水平方向及び垂直方向の範囲を表す。リスナーがオブジェクト音源の周りを移動し、オブジェクト音源に近づいたり遠ざかったりすると、この矩形は、世界空間座標系において平行移動、回転、及びサイズ変更されることになる。図12bは、円筒形のオブジェクト音源がリスナーの左前半球に配置されている場合の例である。しかし、これらの知覚された範囲の矩形の中心に原点を持つx-y座標系では、これらの矩形は常に音源の(0,0)点に中心を持つように配置されている。
【0134】
オブジェクト音源記述のインプットレイアウト(InputLayout)子ノードは、アライメントフラグと、空白文字で区切られた位置決め用のニーモニックを含む文字列(string)から構成される。
【0135】
【0136】
アライメント属性は、関連するオーディオストリームの波形(チャネル)が、音源に対してどのように位置付けられ、固定化されるかを定義する。位置決め属性は、空白で区切られたニーモニックラベルを含む文字列であり、各波形ごとにニーモニックラベルを供給する必要がある。図13に示すように、先に説明したx-y座標系を参照する9つの相対位置ニーモニックがサポートされている。
【0137】
したがって、サポートされるチャネル仕様は、図13で説明したように、そのx-y座標系における9つの相対的な位置である。
【0138】
さらに、オブジェクト音源インプットレイアウトは、空白で区切られた位置のニーモニックを含む文字列とすることができる。可能な9つの位置は、図13に示すとおりである。
【0139】
あるいは、絶対的な3次元座標空間での大きさを持つオブジェクト音源をレンダリングするための波形の用途を示すために、相対的なチャネル位置を使用することもできる(例:例えば、グランドピアノの音で、一方のチャネルには低い音が主に含まれ、もう一方のチャネルには高い音が主に含まれる場合など)。この場合、ラベルは、オブジェクト音源の位置を見たときに、その正面方向に垂直な平面上の矩形(長方形)に適用される(オブジェクト音源の‘方向(orientation)’属性が存在する必要がある)。これは、オブジェクト音源インプットレイアウト文字列の開始“A”ニーモニックで示される。
【0140】
【0141】
つまり、上記実施形態は、(理想的には左チャネルが低音を、右チャネルが高音を伝えるステレオ録音からの)2つの関連する波形を持つオブジェクト音源に関するものである。
【0142】
これに対応するために、オブジェクト音源インプットレイアウトが参照される。現在定義されているラベル(L、C、Rなど)は、常に視線方向と垂直な投影面に対して定義されている。そのため、これは、(グランド)ピアノのような静的オブジェクトのニーズには適合しない。
【0143】
したがって、実施形態に従って、たとえば、現在のEIF仕様に*absolute*ラベル固定化を追加できるようにするEIF仕様の小さなフラグまたは追加のフラグ(または文字)として実装された追加のビットストリーム要素が使用される。これにより、グランドピアノのケースに対応し、意図された波形の使用を*楽器の固定(絶対)位置と方向に関連させて*サイズ属性の使用とともに記述することができる。オブジェクトの方向は、新しい投影面の基準となる。復号化器が正しいレンダリングのために要素を解析するように構成されている限り、追加のビットストリーム要素は追加の文字と異なることも可能である。
【0144】
上記の例では、文字“A”は、フラグ又はビットストリーム要素又は固定化に関する情報を示す。この情報は、再生側のレンダラーによって、受信した特定情報に応答して、空間的に拡張された音源の固定位置及び/又は方向に対して少なくとも2つの音源をレンダリングするために使用される。好ましくは、情報が符号化された信号シンタックスにない場合、レンダリングは、送信された情報(例えば、左又は右)に沿って行われるが、ユーザ位置に対して相対的に行われる。しかし、情報が存在する場合、レンダリングは、ユーザー又はリスナー位置に対してではなく、音源の位置に対して行われる。つまり、情報がある場合は、ユーザーがピアノの前に立っているか後ろに立っているかに関係なく、例えばピアノはそれが立っているようにレンダリングされる。第1チャネルは常にピアノの低音側から、第2チャネルは常にピアノの高音側から出力される。しかし、この情報がない場合、ユーザーがピアノの前に立っているときだけチャネル位置が正しく、ユーザーがピアノの後ろに立っているときは間違っていることになる。
【0145】
言い換えれば、実施形態は、(属性alignment(アライメント)=“user(ユーザ)”で図12a及び12bの最初の例で説明したように)リスナーの視聴方向に対するラベルの固定化に関連し、信号チャネル相対位置ラベルは、シーン内の特定のオブジェクトに固定されるようにサイズを有するオブジェクト音源のレンダリングのための波形の使用を示すために使用できる(属性alignment=“object(オブジェクト)”)。例えば、ピアノの音は、一方の信号チャネルが低音を主に含み、もう一方が高音を主に含んでいる。この場合、位置ラベル(ポジションラベル)は、オブジェクト位置(中心)を通る平面上の長方形に適用され、それはオブジェクト音源の正面を見たときのオブジェクト音源の方向に対して垂直である(オブジェクト音源の“orientation(方向)”属性が存在する必要がある)。そして、レンダリング時には、図14a~図14cに示すように、ラベルが示す位置がユーザ観察面(観察ベクトルに直交する面)に投影される。これは、音源を(潜在的に広がりをもって)、(ピアノを横から見たときに、図14c参照)互いの「後ろに」置くこと、あるいは(ピアノを後ろから見たときに)それらを入れ替えることも意味する。
【0146】
【0147】
図14aに示される例では、図13の表に示されるような、チャネル位置のある「マップ」が与えられている。この例では、マルチチャネル信号は、ピアノの低音部又は左部分からより多く録音又は合成された音を有する左部分用の左又は第1のチャネルと、ピアノの右部分の高音部からより多く録音又は合成された音を有する右又は第2のチャネルを有する2つのチャネル信号である。
【0148】
図14bの実施形態では、図1又は図9の音位置計算器140は、図14bに示されるように、リスナー位置、すなわち観察者に応じた投影面を用いて、周辺音源、例えばピアノの四隅の位置を計算する。あるいは、音位置計算器は、左位置例えばピアノの矩形(長方形)の左側の中央と、右位置例えばピアノの矩形(長方形)の右側の中央のみを計算する。
【0149】
レンダリングには、レンダラ160は、固定化モードと位置情報に応じて、図14bの左側の単一周辺音源用、又は左側の上下両位置用の第1チャネルを使用する。さらに、レンダラ160は、固定化モードと位置情報に応じて、図14bにおける右側の単一周辺音源用、又は右側の上下両位置用の第2チャネルを使用する。この選択は、例えば、図1のレンダラ例のブロック164によって実行されてもよい。
【0150】
図14bとは異なる状況において、観察者が図14bと同じ角度及び距離でピアノの背後に位置している場合、図1又は図9の音位置計算器140は、リスニング位置、すなわち観測者に応じた投影面を用いて、周辺音源の位置、例えば図14bに関連するピアノの4つの背面角、又は例えばピアノの長方形の左側の中央における左位置とピアノの長方形の右側の中央における右位置のみを計算する。
【0151】
さて、先の状況とは異なり、レンダラ160は、固定化モードと位置情報に応じて、図14bにおける右側の単一の周辺音源に対して、あるいは右側の上下両方の位置に対して、第1チャネルを用いる(上記のように左側と対比させる)。さらに、レンダラ160は、固定化モード及び位置情報に応じて、図14bにおける左側の単一の周辺音源に対して、又は左側の上下両方の位置に対して第2のチャネルを使用する(上記のように右側と対比させる)。この選択は、例えば、図1のレンダラ例のブロック164によって実行されてもよい。
【0152】
具体的な状況は、図14bに示されており、ユーザがピアノの側に立っている場合である。この実施形態では、すべての周辺音源に使用される波形は同じものであってよく、この波形は、左又は第1のチャネルと右又は第2のチャネルとを加算することによって計算される。この加算は、重み付け加算を含んでいてもよく、ユーザがピアノの左側に多く立っている図14cの実施形態では、左チャネルと比較して右チャネルはユーザまでの距離が長いために右チャネルが幾分低くなり、例えば、オブジェクト、すなわちピアノ自体によって生じる減衰に起因して、右チャネルの重み付け係数よりも左チャネルの重み付け係数が大きくなるようにすることができる。送信されたチャネルからのこの計算は、例えば、図1のレンダラの例のブロック164によって実行されてもよい。
【0153】
ユーザがピアノの右側に位置する場合、状況は上記の概略と同様であるが、重み付け加算の場合の重み付け係数が交換される。この計算及び重み付け係数の決定は、例えば、図1のレンダラ例のブロック164によって実行されてもよい。
【0154】
なお、ピアノはあくまで一例である。任意の空間的に拡張された音源は、図13の例示的な規約を用いて図14aから図14cに模式的に示されるように、矩形又は楕円体状の境界又はボックスなどの任意の他のものによって表すことができる。
【0155】
本発明の一部ではない比較のために、ユーザーモードと上記の例について、周辺音源の波形へのチャネルのマッピングを考える。図14bにおいて、観察者がオブジェクトの前に立っている場合、左右が変化しないので、マッピングはオブジェクトモードと同じになる。しかし、リスナーがオブジェクトの背後にいる例では、状況は逆になる、すなわち、オブジェクトモードと比較してユーザモードでは異なることになる。図14cの実施形態についても同様である。オブジェクトモードではなくユーザモードの場合、任意の(例えば重み付けされた)加算は起こらないが、左チャネルは左周辺音源位置に使用され、右チャネルは右周辺音源位置に使用されるであろう。
【0156】
図14bと図14cの配置の「間」の位置など、ピアノに対して斜めにリスナーが配置されている場合、オブジェクト固定化モードの場合、左右のチャネルのある混合によって音源の波形を計算することができる。左周辺音源の波形は、より低い重みで重み付けされた右又は第2のチャネルに追加されたより大きな重みで重み付けされた第1又は左チャネルになる。重みは、図14bの場合から図14cの場合(典型的には両チャネルの重みが等しい)までの重みの連続的な変化が生じるように、オブジェクトに対する観察者の角度に基づいて調整することができる。この計算及びまた重みの決定は、例えば、図1のレンダラ例のブロック164によって実行されてもよい。
【0157】
さらに、音源の数よりも少ないチャネルを有する場合、図9の166のような無相関器によって追加の音源を生成することができる。図14cの実施形態では、左右の和から得られる加算波形を無相関化することで、例えば図14cの投影面の四隅に対する4つの周辺音源について、多少異なる波形を得ることが可能である。
【0158】
そのような実施形態では、空間的に拡張された音源は、第1のチャネル及び第2のチャネルを有するマルチチャネル信号をそれに関連付け、第1のチャネルは空間的に拡張されたオブジェクトの第1の部分に関連付けられ、第2のチャネルは空間的に拡張されたオブジェクトの第2の部分に関連付けられ、第1の部分は第2の部分とは異なり、特定情報(320)は空間的に拡張された音源の固定位置及び/又は方向に対して少なくとも2つの音源をレンダリングすることを示す。そして、レンダラ(160)は、リスナー位置と空間的に拡張された音源の第1の部分と第2の部分とに応じて、第1のチャネルと第2のチャネルの異なる位置へのマッピングを使用して、又は第1のチャネルと第2のチャネルの加算を使用して、異なる位置に対する異なる音信号を決定するように構成され、異なる位置に対する異なる音信号を取得する。
【0159】
このような実施形態では、第1の部分は、空間的に拡張された音源の左側の部分であり、第2の部分は右側の部分である。
【0160】
リスナー位置が空間的に拡張された音源の前方にあるとき(図14b)、レンダラーは、ユーザーの左側の音源位置については第1のチャネルを使用し、ユーザーの右側の位置については第2のチャネルを使用するように構成される。
【0161】
代替的に又は追加的に、リスナー位置が空間的に拡張された音源の後方にあるとき(図14bとは反対)、レンダラーは、ユーザーの左側の音源位置については第2のチャネルを使用し、ユーザーの右側の位置については第1のチャネルを使用するように構成されている。
【0162】
代替的又は追加的に、リスナー位置が空間的に拡張された音源の側部にある場合(図14c)、レンダラーは、ユーザーの左側の音源位置については、第1のチャネルと第2のチャネルとの加算を使用し、ユーザーの右側の位置については、第1のチャネルと第2のチャネルとの加算を使用するよう構成されている。
【0163】
代替的又は追加的に、リスナー位置が空間的に拡張された音源の側部にあるとき、レンダラは、ユーザーの左側の音源位置に対して、第1のチャネルと第2のチャネルとの重み付け加算を使用し、ユーザーの右側の位置に対して、第1のチャネルと第2のチャネルとの重み付け加算を使用するように構成される。重み付け加算のための重み付け係数は、空間的に拡張された音源のリスナー位置に近い部分に関連するチャネルの重み付け係数が、空間的に拡張された音源のリスナー位置から遠い別の部分に関連する別のチャネルの重み付け係数よりも大きくなるように決定される(図14bでは、Lの重みがRの重みより大きく、図14bとは逆に、Rの重みがLの重みより大きい)。
【0164】
代替的又は追加的に、リスナーの位置が空間的に拡張された音源に対して斜めであるとき、レンダラは、ユーザの左側の音源位置に対して、第1のチャネルと第2のチャネルとの第1の重み付け加算を使用し、ユーザの右側の位置に対して、第1のチャネルと第2のチャネルとの第2の重み付け加算を使用するように構成される。重み付け加算のための重み付け係数が、音源位置に近い空間的に拡張された音源の部分に関連するチャネルのための重み付け係数が、音源位置から遠い空間的に拡張された音源の別の部分に関連する別のチャネルのための重み付け係数より大きくなるように決定される(図14bと図14cの「間」の位置;投影の左の音源については、左チャネルの重みが右チャネルの重みより大きく、投影の右の音源については、左チャネルの重みが右チャネルの重みより小さい)。
【0165】
ここで、前に議論されたような全ての代替案又は側面、及び以下の請求項において独立請求項によって定義されるような全ての側面は、個別に、すなわち、企図された代替案、対象又は独立請求項以外の代替案又は対象なしに使用できることが言及されるであろう。しかしながら、他の実施形態では、代替物又は態様又は独立請求項のうちの2つ以上を互いに組み合わせることができ、他の実施形態では、すべての態様、又は代替物及びすべての独立請求項を互いに組み合わせることができる。
【0166】
発明的に符号化された音場記述は、デジタル記憶媒体又は非一過性の記憶媒体に格納することができ、又は、無線伝送媒体又はインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
【0167】
いくつかの態様は装置の文脈で説明されてきたが、これらの態様はまた、ブロック又は装置が方法ステップ又は方法ステップの特徴に対応する、対応する方法の説明を表すことは明らかである。同様に、方法ステップの文脈で説明される側面は、対応するブロック又は項目又は対応する装置の特徴の説明も表す。
【0168】
特定の実装要件に依存して、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実装は、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであって、その上に記憶された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協力する(又は協力することができる)ものを使用して実行することができる。
【0169】
本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを備え、このデータキャリアは、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができるものである。
【0170】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の1つを実行するために動作可能である。プログラムコードは、例えば、機械読み取り可能な担体に格納することができる。
【0171】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを、機械可読担体又は非一時的な記憶媒体に格納して構成される。
【0172】
言い換えれば、本発明方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行される場合、本明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0173】
したがって、本発明方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをその上に記録してなるデータキャリア(又はデジタル記憶媒体、又はコンピュータ読取可能な媒体)である。
【0174】
本発明方法のさらなる実施形態は、したがって、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成されてもよい。
【0175】
さらなる実施形態は、本明細書に記載された方法の1つを実行するように構成された、又は適合された処理手段、例えばコンピュータ、又はプログラマブルロジックデバイスを備える。
【0176】
さらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを具備する。
【0177】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能性の一部又は全部を実行してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の1つを実行するためにマイクロプロセッサと協働してよい。一般に、本方法は、任意のハードウェア装置によって実行されることが好ましい。
【0178】
上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された配置及び詳細の修正及び変形は、当業者には明らかであろうことが理解される。したがって、差し迫った特許請求の範囲の範囲によってのみ制限され、本明細書の実施形態の説明及び解説によって提示される特定の詳細によって制限されないことが意図される。
【0179】
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12a
図12b
図13
図14a
図14b
図14c
【国際調査報告】