(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0018】
以下、添付の図面を参照して、本発明の実施形態を説明する。
【0019】
図面を用いて本発明をさらに詳細に論じる前に、諸図を通じて、同じ機能または同じ効果を有するエレメントである同等のエレメントには、これらのエレメントに関する記述および異なる実施形態において示されるその機能性が互いに交換可能であるように、または異なる実施形態において互いに適用され得るように、同じ参照数字が付されていることを指摘しておく。
【0020】
図1は、セグメンタ110と発生器120とを用いて、録音空間内での録音から得られる入力空間オーディオ信号105から複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を発生するための装置100の一実施形態を示すブロック図である。例えば、入力空間オーディオ信号105は、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、V(または、X、Y、U、V)を含む。
図1に示されているように、装置100はセグメンタ110と発生器120とを備えている。例えば、セグメンタ110は、入力空間オーディオ信号105の全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vから、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)を生成するように構成され、前記少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)は、録音空間の対応するセグメントSeg
iに関連づけられる。さらに、発生器120は、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を得るために、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。
【0021】
複数のパラメトリック・オーディオ・ストリーム125を発生するための装置100により、空間音質の劣化を回避すること、および比較的複雑なマイクロフォン構成を回避することができる。したがって、
図1による装置100の実施形態は、比較的単純かつコンパクトなマイクロフォン構成を用いて、より高い品質、よりリアルな空間音響録音を可能にする。
【0022】
実施形態において、録音空間のセグメントSeg
iは、各々、二次元(2D)平面内または三次元(3D)空間内の方向の部分集合を表す。
【0023】
実施形態において、録音空間のセグメントSeg
iは、各々、関連の指向性尺度によって特徴づけられている。
【0024】
実施形態によれば、装置100は、入力空間オーディオ信号105を得るために、音場録音を実行するように構成されている。例えば、セグメンタ110は、目的の全角度範囲を録音空間の複数のセグメントSeg
iに分割するように構成されている。さらに、録音空間のそれらのセグメントSeg
iは、各々が目的の全角度範囲に比べて低減された角度範囲にわたることができる。
【0025】
図2は、ミキシング(またはマトリクシング)演算に基づく、
図1による装置100の実施形態のセグメンタ110を示す略図である。
図2に好適な例として描かれているように、セグメンタ110は、録音空間のセグメントSeg
iに依存するミキシングまたはマトリクシング演算を用いて、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vから、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)を発生するように構成されている。
図2に好適な例として示されているセグメンタ110により、予め規定されたミキシングまたはマトリクシング演算を用いて、入力空間オーディオ信号105を構成する全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vを少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)へマップすることが可能である。この予め規定されたミキシングまたはマトリクシング演算は、録音空間のセグメントSeg
iに依存し、かつ入力空間オーディオ信号105から少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)を分岐するために実質的に使用することができる。ミキシングまたはマトリクシング演算に基づく、セグメンタ110による少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)の分岐は、音場の単純なグローバルモデルとは対照的に、先に述べた優位点の達成を実質的に可能にする。
【0026】
図3は、(所望の、または予め決められた)指向性パターン305、q
i(α)を用いる、
図1による装置100の実施形態のセグメンタ110を示す略図である。
図3に好適な例として描かれているように、セグメンタ110は、録音空間のセグメントSeg
iの各々について、指向性パターン305、q
i(α)を用いるように構成されている。さらに、指向性パターン305、q
i(α)は、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)の指向性を示すことができる。
【0027】
実施形態において、指向性パターン305、q
i(α)は、次式によって与えられる。
q
i(α)=a+b cos(α+Θ
i) (1)
但し、aおよびbは所望の指向性パターンを得るために変更することが可能な乗数を示し、αは方位角を示し、Θ
iは録音空間のi番目のセグメントの好ましい方向を示す。例えば、aは0から1までの範囲内にあり、bは−1から1までの範囲内にある。
【0028】
乗数a、bの1つの有益な選択肢として、a=0.5およびb=0.5とすることができ、その結果、次のような指向性パターンが得られる。
q
i(α)=0.5+0.5 cos(α+Θ
i) (1a)
【0029】
図3に好適な例として描かれているセグメンタ110により、録音空間の対応するセグメントSeg
iに関連づけられた少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)を得ることができ、セグメントSeg
iは各々予め決められた指向性パターン305、q
i(α)を有する。ここで、録音空間のセグメントSeg
iの各々に対する指向性パターン305、q
i(α)の使用は、装置100によって得られる空間音質の増強を可能にすることを指摘しておく。
【0030】
図4は、パラメトリック空間解析に基づく、
図1による装置100の実施形態の発生器120を示す略図である。
図4に好適な例として描かれているように、発生器120は、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を得るように構成されている。さらに、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)は、各々、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)の成分W
iおよび対応するパラメトリック空間情報θ
i、Ψ
iを含むことができる。
【0031】
実施形態において、発生器120は、対応するパラメトリック空間情報θ
i、Ψ
iを得るために、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)の各々に対してパラメトリック空間解析を実行するように構成することができる。
【0032】
実施形態において、各パラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)のパラメトリック空間情報θ
i、Ψ
iは、到来方向(DOA)パラメータθ
iおよび/または拡散性パラメータΨ
iを含む。
【0033】
実施形態において、
図4に好適な例として描かれている発生器120により生成される到来方向(DOA)パラメータθ
iおよび拡散性パラメータΨ
iは、パラメトリック空間オーディオ信号処理のためのDirACパラメータを構成することができる。例えば、発生器120は、少なくとも2つの入力セグメントオーディオ信号115の時間−周波数表現を用いてDirACパラメータ(例えば、DOAパラメータθ
iおよび拡散性パラメータΨ
i)を発生するように構成されている。
【0034】
図5は、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)から複数のラウドスピーカ信号525(L
1,L
2,…)を発生するための、レンダラ510とコンバイナ520とを備えた装置500の一実施形態を示すブロック図である。
図5の実施形態において、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)は、録音空間において録音された入力空間オーディオ信号(例えば、
図1の実施形態に好適な例として描かれている入力空間オーディオ信号105)から導出することができる。
図5に示されているように、装置500は、レンダラ510とコンバイナ520とを備えている。例えば、レンダラ510は複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)から複数の入力セグメントラウドスピーカ信号515を生成するように構成され、入力セグメントラウドスピーカ信号515は録音空間の対応するセグメント(Seg
i)に関連づけられる。さらに、コンバイナ520は、複数のラウドスピーカ信号525(L
1,L
2,…)を得るために、入力セグメントラウドスピーカ信号515を結合するように構成することができる。
【0035】
図5の装置500を用いることにより、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)から複数のラウドスピーカ信号525(L
1,L
2,…)を発生することができ、パラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)は、
図1の装置100から送信することができる。さらに、
図5の装置500は、比較的単純かつコンパクトなマイクロフォン構成から導出されるパラメトリック・オーディオ・ストリームを用いて、より高い品質、よりリアルな空間音響再生を達成することを可能にする。
【0036】
実施形態において、レンダラ510は、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を受信するように構成されている。例えば複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)は、各々、セグメントオーディオ成分W
iおよび対応するパラメトリック空間情報θ
i、Ψ
iを含む。さらに、レンダラ510は、複数の入力セグメントラウドスピーカ信号515を得るために、セグメントオーディオ成分W
iの各々を、対応するパラメトリック空間情報505(θ
i,Ψ
i)を用いて表現するように構成することができる。
【0037】
図6は、録音空間のセグメント例Seg
i(i=1,2,3,4)610、620、630、640を示す略
図600である。
図6の略
図600において、録音空間のセグメント例610、620、630、640は、各々、二次元(2D)平面内の方向の部分集合を表す。さらに、録音空間のセグメントSeg
iは、各々、三次元(3D)空間内の方向の部分集合を表すことができる。例えば、三次元(3D)空間内の方向の部分集合を表すセグメントSeg
iは、
図6に好適な例として描かれているセグメント610、620、630、640に類似したものとすることができる。
図6の略
図600によれば、
図1の装置100の4つのセグメント例610、620、630、640が好適な例として示されている。しかしながら、異なる数のセグメントSeg
i(i=1,2,…,n、但し、iは整数の指数であり、nはセグメントの数を示す)を用いることもできる。セグメント例610、620、630、640は、各々、極座標系において表現することができる(例えば
図6参照)。同様に、三次元(3D)空間の場合、セグメントSeg
iは、球座標系において表現することができる。
【0038】
実施形態において、
図1に好適な例として示されているセグメンタ110は、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)を生成するために、セグメントSeg
i(例えば、
図6のセグメント例610、620、630、640)を用いるように構成することができる。セグメント(または、セクタ)を用いることにより、音場のセグメントベース(または、セクタベース)のパラメトリックモデルを実現することができる。これにより、比較的コンパクトなマイクロフォン構成で、より高い品質の空間オーディオ録音と再生を達成することができる。
【0039】
図7は、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略
図700である。
図7の略
図700には、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を発生するための装置100の実施形態、および複数のラウドスピーカ信号525(L
1,L
2,…)を発生するための装置500の実施形態が好適な例として描かれている。
図7の略
図700に示されているように、セグメンタ110は、入力空間オーディオ信号105(例えば、マイクロフォン信号)を受信するように構成することができる。さらに、セグメンタ110は、少なくとも2つの入力セグメントオーディオ信号115(例えば、第1のセグメントのセグメントマイクロフォン信号715−1、および第2のセグメントのセグメントマイクロフォン信号715−2)を生成するように構成することができる。発生器120は、第1のパラメトリック空間解析ブロック720−1と、第2のパラメトリック空間解析ブロック720−2とを備えることができる。さらに、発生器120は、少なくとも2つの入力セグメントオーディオ信号115の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。装置100の実施形態の出力では、複数のパラメトリック・オーディオ・ストリーム125が得られる。例えば、第1のパラメトリック空間解析ブロック720−1は、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1を出力し、一方で第2のパラメトリック空間解析ブロック720−2は、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2を出力する。さらに、第1のパラメトリック空間解析ブロック720−1により生成される第1のパラメトリック・オーディオ・ストリーム725−1は、第1のセグメントのパラメトリック空間情報(例えば、θ
1、Ψ
1)および第1のセグメントの1つまたは複数のセグメントオーディオ信号(例えば、W
1)を含むことができ、一方で、第2のパラメトリック空間解析ブロック720−2により生成される第2のパラメトリック・オーディオ・ストリーム725−2は、第2のセグメントのパラメトリック空間情報(例えば、θ
2、Ψ
2)および第2のセグメントの1つまたは複数のセグメントオーディオ信号(例えば、W
2)を含むことができる。装置100の実施形態は、複数のパラメトリック・オーディオ・ストリーム125を送信するように構成することができる。
図7の略
図700にも示されているように、装置500の実施形態は、装置100の実施形態から複数のパラメトリック・オーディオ・ストリーム125を受信するように構成することができる。レンダラ510は、第1のレンダリングユニット730−1と、第2のレンダリングユニット730−2とを備えることができる。さらに、レンダラ510は、受信した複数のパラメトリック・オーディオ・ストリーム125から複数の入力セグメントラウドスピーカ信号515を生成するように構成することができる。例えば、第1のレンダリングユニット730−1は、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1から第1のセグメントの入力セグメントラウドスピーカ信号735−1を生成するように構成することができ、一方で、第2のレンダリングユニット730−2は、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2から第2のセグメントの入力セグメントラウドスピーカ信号735−2を生成するように構成することができる。さらに、コンバイナ520は、複数のラウドスピーカ信号525(例えば、L
1、L
2、…)を得るために、入力セグメントラウドスピーカ信号515を結合するように構成することができる。
【0040】
図7の実施形態は、音場のセグメントベース(または、セクタベース)のパラメトリックモデルを用いた、より高い品質の空間オーディオ録音再生の概念を本質的に表したものであり、これは、比較的コンパクトなマイクロフォン構成で複雑な空間オーディオシーンをも録音することを可能にする。
【0041】
図8は、二次Bフォーマット入力信号105を用いる、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略
図800である。
図8に略示されているラウドスピーカ信号の計算例は、
図7に略示されているラウドスピーカ信号の計算例に本質的に対応している。
図8の略図には、複数のパラメトリック・オーディオ・ストリーム125を発生するための装置100の実施形態、および複数のラウドスピーカ信号525を発生するための装置500の実施形態が好適な例として描かれている。
図8に示されているように、装置100の実施形態は、入力空間オーディオ信号105(例えば、[W,X,Y,U,V]等のBフォーマット・マイクロフォン・チャネル)を受信するように構成することができる。ここで、留意すべきことは、
図8における信号U、Vが二次Bフォーマット成分であるということである。好適な例として「マトリクシング(matrixing)」と示されているセグメンタ110は、録音空間のセグメントSeg
iに依存するミキシングまたはマトリクシング演算を用いて、全方向性信号および複数の異なる指向性信号から、少なくとも2つの入力セグメントオーディオ信号115を発生するように構成することができる。例えば、少なくとも2つの入力セグメントオーディオ信号115は、第1のセグメントのセグメントマイクロフォン信号715−1(例えば、[W
1,X
1,Y
1])、および第2のセグメントのセグメントマイクロフォン信号715−2(例えば、[W
2,X
2、Y
2])を含むことができる。さらに、発生器120は、第1の指向性および拡散性解析ブロック720−1と、第2の指向性および拡散性解析ブロック720−2とを備えることができる。
図8に好適な例として示されている第1および第2の指向性および拡散性解析ブロック720−1、720−2は、
図7に好適な例として示されている第1および第2のパラメトリック空間解析ブロック720−1、720−2に本質的に対応する。発生器120は、複数のパラメトリック・オーディオ・ストリーム125を得るために、前記少なくとも2つの入力セグメントオーディオ信号115の各々についてパラメトリック・オーディオ・ストリームを発生するように構成することができる。例えば、発生器120は、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1を得るために、第1の指向性および拡散性解析ブロック720−1を用いて第1のセグメントのセグメントマイクロフォン信号715−1に対する空間解析を実行し、かつ第1のセグメントのセグメントマイクロフォン信号715−1から第1の成分(例えば、セグメントオーディオ信号W
1)を抽出するように構成することができる。さらに、発生器120は、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2を得るために、第2の指向性および拡散性解析ブロック720−2を用いて第2のセグメントのセグメントマイクロフォン信号715−2に対する空間解析を実行し、かつ第2のセグメントのセグメントマイクロフォン信号715−2から第2の成分(例えば、セグメントオーディオ信号W
2)を抽出するように構成することができる。例えば、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1は、抽出された第1の成分W
1だけでなく第1の到来方向(DOA)パラメータθ
1および第1の拡散性パラメータΨ
1も含む、第1のセグメントのパラメトリック空間情報を含むことができ、一方で、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2は、抽出された第2の成分W
2だけでなく第2の到来方向(DOA)パラメータθ
2および第2の拡散性パラメータΨ
2も含む、第2のセグメントのパラメトリック空間情報を含むことができる。装置100の実施形態は、複数のパラメトリック・オーディオ・ストリーム125を送信するように構成することができる。
【0042】
図8の略
図800にも示されているように、複数のラウドスピーカ信号525を発生するための装置500の実施形態は、装置100の実施形態から送信される複数のパラメトリック・オーディオ・ストリーム125を受信するように構成することができる。
図8の略
図800において、レンダラ510は、第1のレンダリングユニット730−1と、第2のレンダリングユニット730−2とを備えている。例えば、第1のレンダリングユニット730−1は、第1の乗算器802と第2の乗算器804とを備えている。第1のレンダリングユニット730−1の第1の乗算器802は、第1のレンダリングユニット730−1によって直接音サブストリーム810を得るために、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1のセグメントオーディオ信号W
1へ第1の重み係数803
を印加するように構成することができ、一方で、第1のレンダリングユニット730−1の第2の乗算器804は、第1のレンダリングユニット730−1によって拡散サブストリーム812を得るために、第1のセグメントの第1のパラメトリック・オーディオ・ストリーム725−1のセグメントオーディオ信号W
1へ第2の重み係数805
を印加するように構成することができる。さらに、第2のレンダリングユニット730−2は、第1の乗算器806と第2の乗算器808とを備えることができる。例えば、第2のレンダリングユニット730−2の第1の乗算器806は、第2のレンダリングユニット730−2によって直接音ストリーム814を得るために、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2のセグメントオーディオ信号W
2へ第1の重み係数807
を印加するように構成することができ、一方で、第2のレンダリングユニット730−2の第2の乗算器808は、第2のレンダリングユニット730−2によって拡散サブストリーム816を得るために、第2のセグメントの第2のパラメトリック・オーディオ・ストリーム725−2のセグメントオーディオ信号W
2へ第2の重み係数809
を印加するように構成することができる。実施形態において、第1および第2のレンダリングユニット730−1、730−2の第1および第2の重み係数803、805、807、809は、対応する拡散性パラメータΨ
iから導出される。実施形態によれば、第1のレンダリングユニット730−1は利得係数乗算器811と脱相関処理ブロック813と結合ユニット832とを備えることができ、第2のレンダリングユニット730−2は利得係数乗算器815と脱相関処理ブロック817と結合ユニット834とを備えることができる。例えば、第1のレンダリングユニット730−1の利得係数乗算器811は、ブロック822によるベクトルベース振幅パンニング(VBAP:vector base amplitude panning)演算から得られる利得係数を、第1のレンダリングユニット730−1の第1の乗算器802により出力される直接音サブストリーム810へ印加するように構成することができる。さらに、第1のレンダリングユニット730−1の脱相関処理ブロック813は、脱相関/利得演算を、第1のレンダリングユニット730−1の第2の乗算器804の出力における拡散サブストリーム812へ適用するように構成することができる。さらに、第1のレンダリングユニット730−1の結合ユニット832は、第1のセグメントのセグメントラウドスピーカ信号735−1を得るために、利得係数乗算器811から得られる信号と脱相関処理ブロック813から得られる信号を結合するように構成することができる。例えば、第2のレンダリングユニット730−2の利得係数乗算器815は、ブロック824によるベクトルベース振幅パンニング(VBAP)演算から得られる利得係数を、第2のレンダリングユニット730−2の第1の乗算器806により出力される直接音サブストリーム814へ印加するように構成することができる。さらに、第2のレンダリングユニット730−2の脱相関処理ブロック817は、脱相関/利得演算を、第2のレンダリングユニット730−2の第2の乗算器808の出力における拡散サブストリーム816へ適用するように構成することができる。さらに、第2のレンダリングユニット730−2の結合ユニット834は、第2のセグメントのセグメントラウドスピーカ信号735−2を得るために、利得係数乗算器815から得られる信号と脱相関処理ブロック817から得られる信号を結合するように構成することができる。
【0043】
実施形態において、第1および第2のレンダリングユニット730−1、730−2のブロック822、824によるベクトルベース振幅パンニング(VBAP)演算は、対応する到来方向(DOA)パラメータθ
iに依存する。
図8に好適な例として描かれているように、コンバイナ520は、複数のラウドスピーカ信号525(例えば、L
1、L
2、…)を得るために、入力セグメントラウドスピーカ信号515を結合するように構成することができる。
図8に好適な例として描かれているように、コンバイナ520は、第1の合計ユニット842と、第2の合計ユニット844とを備えることができる。例えば、第1の合計ユニット842は、第1のラウドスピーカ信号843を得るために、第1のセグメントのセグメントラウドスピーカ信号735−1のうちの第1のものと、第2のセグメントのセグメントラウドスピーカ信号735−2のうちの第1のものとを合計するように構成される。さらに、第2の合計ユニット844は、第2のラウドスピーカ信号845を得るために、第1のセグメントのセグメントラウドスピーカ信号735−1のうちの第2のものと、第2のセグメントのセグメントラウドスピーカ信号735−2のうちの第2のものとを合計するように構成することができる。第1および第2のラウドスピーカ信号843、845は、複数のラウドスピーカ信号525を構成することができる。
図8の実施形態を参照すると、セグメント毎に、潜在的には、全ての再生ラウドスピーカのラウドスピーカ信号を発生することができる点は留意されるべきである。
【0044】
図9は、パラメトリック信号表現領域における信号変更を含む、録音空間の2つのセグメントまたはセクタに関するラウドスピーカ信号の計算例を示す略
図900である。
図9の略
図900におけるラウドスピーカ信号の計算例は、
図7の略
図700におけるラウドスピーカ信号の計算例に本質的に対応している。しかしながら、
図9の略
図900におけるラウドスピーカ信号の計算例は、追加的な信号変更を含む。
【0045】
図9の略
図900において、装置100は、セグメンタ110と、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を得るための発生器120とを備えている。さらに、装置500は、レンダラ510と、複数のラウドスピーカ信号525を得るためのコンバイナ520とを備えている。
【0046】
例えば、装置100は、さらに、パラメトリック信号表現領域における複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を変更するための変更器910を備えることができる。さらに、変更器910は、パラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)のうちの少なくとも1つを、対応する変更制御パラメータ905を用いて変更するように構成することができる。この方法では、第1のセグメントの第1の変更されたパラメトリック・オーディオ・ストリーム916、および第2のセグメントの第2の変更されたパラメトリック・オーディオ・ストリーム918を得ることができる。第1および第2の変更されたパラメトリック・オーディオ・ストリーム916、918は、複数の変更されたパラメトリック・オーディオ・ストリーム915を構成することができる。実施形態において、装置100は、複数の変更されたパラメトリック・オーディオ・ストリーム915を送信するように構成することができる。さらに、装置500は、装置100から送信される複数の変更されたパラメトリック・オーディオ・ストリーム915を受信するように構成することができる。
【0047】
図9によるラウドスピーカ信号の計算例を用いることにより、より柔軟性のある空間オーディオ録音再生シーンを達成することができる。具体的には、パラメトリック領域において変更を適用すると、より高い品質の出力信号を得ることができる。複数のパラメトリックオーディオ表現(ストリーム)を発生する前に入力信号をセグメント化することにより、捕捉される音場の異なる成分の異なる処理をよりよく可能にする、より高い空間選択性が得られる。
【0048】
図10は、
図1による複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を発生するための装置100の実施形態のセグメンタ110によって生成される入力セグメントオーディオ信号115(例えば、W
i,X
i,Y
i)の極パターン例を示す略
図1000である。
図10の略
図1000では、入力セグメントオーディオ信号例115が二次元(2D)平面の個々の極座標系において視覚化されている。同様に、入力セグメントオーディオ信号例115は、三次元(3D)空間の個々の球座標系において視覚化することができる。
図10の略
図1000は、第1の入力セグメントオーディオ信号(例えば、全方向性信号W
i)の第1の指向性応答1010、第2の入力セグメントオーディオ信号(例えば、第1の指向性信号X
i)の第2の指向性応答1020および第3の入力セグメントオーディオ信号(例えば、第2の指向性信号Y
i)の第3の指向性応答1030を好適な例として描いている。さらに、
図10の略
図1000には、第2の指向性応答1020とは反対の符号を有する第4の指向性応答1022、および第3の指向性応答1030とは反対の符号を有する第5の指向性応答1032が好適な例として描かれている。したがって、異なる指向性応答1010、1020、1030、1022、1032(極パターン)は、セグメンタ110により、入力セグメントオーディオ信号115用に使用することができる。ここで、入力セグメントオーディオ信号115は、時間および周波数に依存することができること、即ちW
i=W
i(m,k)、X
i=X
i(m,k)およびY
i=Y
i(m,k)であることを指摘しておく。但し、(m,k)は、空間オーディオ信号表現における時間−周波数タイルを示す指数である。
【0049】
これに関連して、
図10は、入力信号の単一集合、即ち1つのセクタiの信号115(例えば、[W
i,X
i,Y
i])の極線図を好適な例として描いていることは留意されるべきである。さらに、極線図プロットの正の部分と負の部分は、各々合わせて1つの信号の極線図を表す(例えば、部分1020と部分1022は合わせて信号X
iの極線図を示し、部分1030と部分1032は合わせて信号Y
iの極線図を示す)。
【0050】
図11は、音場録音を実行するためのマイクロフォン構成例1110を示す略
図1100である。
図11の略
図1100において、マイクロフォン構成1110は、指向性マイクロフォンの複数の線形アレイ1112、1114、1116を備えることができる。
図11の略
図1100は、二次元(2D)観測空間を如何にして録音空間の異なるセグメントまたはセクタ1101、1102、1103(例えば、Seg
i、i=1,2,3)に分割できるかを好適な例として描いている。ここで、
図11のセグメント1101、1102、1103は、
図6に好適な例として描かれているセグメントSeg
iに対応させることができる。同様に、マイクロフォン構成例1110は、三次元(3D)観測空間において使用することもでき、三次元(3D)観測空間は、所定のマイクロフォン構成用のセグメントまたはセクタに分割することができる。実施形態において、
図11の略
図1100におけるマイクロフォン構成例1110は、
図1による装置100の実施形態のための入力空間オーディオ信号105を生成するために使用することができる。例えば、マイクロフォン構成1110の指向性マイクロフォンの複数の線形アレイ1112、1114、1116は、入力空間オーディオ信号105用に異なる指向性信号を生成するように構成することができる。
図11のマイクロフォン構成例1110の使用により、音場のセグメントベース(またはセクタベース)のパラメトリックモデルを用いて空間オーディオの録音品質を最適化することができる。
【0051】
先の実施形態において、装置100および装置500は、時間−周波数領域において動作するように構成することができる。
【0052】
要約すれば、本発明の実施形態は、空間オーディオの高品質な録音と再生の分野に関する。音場のセグメントベースまたはセクタベースのパラメトリックモデルの使用は、複雑な空間オーディオシーンを比較的コンパクトなマイクロフォン構成で録音することも可能にする。現在の最新技術方法が想定する音場の単純なグローバルモデルとは対照的に、観測空間全体が分割される幾つかのセグメントに関して、パラメトリック情報を決定することができる。したがって、パラメトリック情報ならびに録音されたオーディオチャネルに基づいて、ほぼ任意のラウドスピーカ構成の演奏を実行することができる。
【0053】
実施形態によれば、平坦な二次元(2D)音場録音の場合、目的の方位角範囲全体を、低減された方位角範囲にわたる複数のセクタまたはセグメントに分割することができる。同様に、3D事例においても、立体角範囲全体(方位角および仰角)を、より小さい角度範囲にわたるセクタまたはセグメントに分割することができる。異なるセクタまたはセグメントは、部分的に重なり合ってもよい。
【0054】
実施形態によれば、各セクタまたはセグメントは関連の指向性尺度によって特徴づけられ、指向性尺度は対応するセクタまたはセグメントを明示または参照するために使用することができる。指向性尺度は、例えば、セクタまたはセグメントの中心に向かう(または中心からの)ベクトル、または2D事例では方位角、または3D事例では方位角および仰角の集合、であることができる。セグメントまたはセクタは、2D平面内または3D空間内双方の方向の部分集合と称することができる。表現を簡単にするために、これまでの例は、2D事例に関して好適な例として記述されているが、3D構成への拡大適用は容易である。
【0055】
図6を参照すると、指向性尺度は、セグメントSeg
3の場合、原点、即ち座標の中心(0,0)から右へ、即ち極線図における座標(1,0)へ向かうベクトルとして定義することができ、または、
図6において角度がx軸(水平軸)から(またはx軸を基準にして)計数されていれば、方位角0゜として定義することができる。
【0056】
図1の実施形態を参照すると、装置100は、入力として幾つかのマイクロフォン信号(入力空間オーディオ信号105)を受信するように構成することができる。これらのマイクロフォン信号は、例えば、実際の録音から結果的に生じるもの、または仮想環境においてシミュレートされた録音により人工的に発生されるもの、の何れかであることが可能である。これらのマイクロフォン信号から対応するセグメントマイクロフォン信号(入力セグメントオーディオ信号115)を決定することができ、セグメントマイクロフォン信号は対応するセグメント(Seg
i)に関連づけられる。セグメントマイクロフォン信号は固有の特性を特徴とする。それらのセグメントマイクロフォン信号の指向性ピックアップパターンは、関連の角度セクタ内で、このセクタの外の感度よりも著しく増大された感度を示すことができる。360゜の方位角範囲全体のセグメント化の例と、関連のセグメントマイクロフォン信号のピックアップパターンについては、
図6を参照して示されている。
図6の例において、セクタに関連づけられたマイクロフォンの指向性は、対応するセクタにより包含される角度範囲に従って回転される心臓型パターンを示す。例えば、0゜に向かうセクタ3(Seg
3)に関連づけられたマイクロフォンの指向性は、同じく0゜に向かう。ここで留意すべきことは、
図6の極線図において、最大感度の方向は描かれた曲線の半径が最大を含む方向であるということである。したがって、Seg
3は、右から到来する音成分に対して最も高い感度を有する。言い替えれば、セグメントSeg
3は、(角度がx軸から計数されるものとすれば)方位角0゜にその好ましい方向を有する。
【0057】
実施形態によれば、各セクタについて、DOAパラメータ(θ
i)をセクタベースの拡散性パラメータ(Ψ
i)と共に決定することができる。簡単に実現する場合は、拡散性パラメータ(Ψ
i)は全てのセクタで同じとすることができる。原則的には、あらゆるDOA推定アルゴリズムを(例えば、発生器120により)適用することができる。例えば、DOAパラメータ(θ
i)は、考慮されるセクタ内で大部分の音響エネルギーが進行する反対方向を反映するように解釈することができる。したがって、セクタベースの拡散性は、拡散性の音響エネルギーと、考慮されるセクタ内の合計音響エネルギーとの割合に関連する。留意すべきことは、パラメータ推定(発生器120により実行されるもの等)が、時変的に、かつ周波数帯域毎に個々に実行可能であるということである。
【0058】
実施形態によれば、セクタ毎に、指向性オーディオストリーム(パラメトリック・オーディオ・ストリーム)が、主としてそのセクタにより表される角度範囲内の音場の空間オーディオ特性を記述するセグメントマイクロフォン信号(W
i)およびセクタベースのDOAおよび拡散性パラメータ(θ
i,Ψ
i)を包含して構成することができる。例えば、再生用のラウドスピーカ信号525は、パラメトリックな指向性情報(θ
i,Ψ
i)および1つまたは複数のセグメントマイクロフォン信号125(例えば、W
i)を用いて決定することができる。これにより、セグメント毎に、セグメントラウドスピーカ信号515の集合を決定することができ、これは、次に、再生用の最終的なラウドスピーカ信号525を形成するために、コンバイナ520等(例えば、合計またはミキシング)によって結合することができる。セクタ内の直接音成分は、例えば、(V. Pulkki著「Virtual sound source positioning using Vector Base Amplitude Panning」, J. Audio Eng. Soc., Vol. 45, pp. 456-466, 1997(非特許文献2)に記述されているように)ベクトルベース振幅パンニング例を適用することにより、ポイント状ソースとして演奏することができるのに対して、拡散音は幾つかのラウドスピーカから同時に再生することができる。
【0059】
図7におけるブロック図は、2つのセクタの事例に関して先に述べたようなラウドスピーカ信号525の計算を示している。
図7において、太字の矢印はオーディオ信号を表すのに対して、細字の矢印はパラメトリック信号または制御信号を表す。
図7には、セグメンタ110によるセグメントマイクロフォン信号115の発生、(例えば、発生器120による)セクタ毎のパラメトリック空間信号解析(ブロック720−1、720−1)の適用、レンダラ510によるセグメントラウドスピーカ信号515の発生、およびコンバイナ520によるセグメントラウドスピーカ信号515の結合が略示されている。
【0060】
実施形態において、セグメンタ110は、マイクロフォン入力信号105の集合からのセグメントマイクロフォン信号115の発生を実行するように構成することができる。さらに、発生器120は、セクタ毎にパラメトリック・オーディオ・ストリーム725−1、725−2が得られるように、セクタ毎にパラメトリック空間信号解析の適用を実行するように構成することができる。例えば、パラメトリック・オーディオ・ストリーム725−1、725−2は各々、関連するパラメトリック情報(例えば、各々DOAパラメータθ
1、θ
2および拡散性パラメータΨ
1、Ψ
2)だけでなく、少なくとも1つのセグメントオーディオ信号(例えば、各々W
1、W
2)からもなるものとすることができる。レンダラ510は、特定のセクタについて発生されたパラメトリック・オーディオ・ストリーム725−1、725−2に基づいて、セクタ毎にセグメントラウドスピーカ信号515の発生を実行するように構成することができる。コンバイナ520は、最終的なラウドスピーカ信号525を得るために、セグメントラウドスピーカ信号515の結合を実行するように構成することができる。
【0061】
図8におけるブロック図は、二次Bフォーマットマイクロフォン信号の適用例として示される2セクタ事例の場合のラウドスピーカ信号525の計算を示す。
図8の実施形態に示されているように、2つ(2集合)のセグメントマイクロフォン信号715−1(例えば、[W
1,X
1,Y
1])および715−2(例えば、[W
2,X
2,Y
2])は、先に述べたように、マイクロフォン入力信号105の集合から(例えば、ブロック110による)ミキシングまたはマトリクシング演算によって発生させることができる。2つのセグメントマイクロフォン信号の各々について、(例えば、ブロック720−1、720−2により)指向性オーディオ解析を実行することができ、第1のセクタおよび第2のセクタについて各々、指向性オーディオストリーム725−1(例えば、θ
1、Ψ
1、W
1)および725−2(例えば、θ
2、Ψ
2、W
2)が生じる。
【0062】
図8において、セグメントラウドスピーカ信号515は、次のようにして、セクタ毎に別々に発生させることができる。セグメントオーディオ成分W
iは、拡散性パラメータΨ
iから導出される乗数803、805、807、809による重み付けによって、2つの相補的なサブストリーム810、812、814、816に分割することができる。一方のサブストリームは主として直接音成分を伝送することができるのに対して、もう一方のサブストリームは主として拡散音成分を伝送することができる。直接音のサブストリーム810、814はDOAパラメータθ
iにより決定されるパンニング利得811、815を用いて表現することができるのに対して、拡散サブストリーム812、816は脱相関処理ブロック813、817を用いて非コヒーレントに表現することができる。
【0063】
最終ステップ例として、セグメントラウドスピーカ信号515は、ラウドスピーカ再生用の最終的な出力信号525を得るために、(例えば、ブロック520により)結合することができる。
【0064】
図9の実施形態を参照すると、特筆すべきは、(パラメトリック・オーディオ・ストリーム125内の)推定されるパラメータも、再生用の実際のラウドスピーカ信号525が決定される前に(例えば、変更器910によって)変更できることである。例えば、DOAパラメータθ
iは、音響シーンの操作を達成するために再マッピングすることができる。他の事例において、所定のセクタのオーディオ信号(例えば、W
i)は、これらのセクタに包含される所定の方向または全方向から到来する音が望まれなければ、ラウドスピーカ信号525を計算する前に減衰させることができる。同様に、主として、または直接音のみが演奏される場合には、拡散音成分を減衰させることができる。
図9には、パラメトリック・オーディオ・ストリーム125の変更910を含むこの処理が、2つのセグメントへのセグメント化の例に関連して好適な例として示されている。
【0065】
以下、先の実施形態で実行された例示的な2D事例におけるセクタベースパラメータ推定の一実施形態について述べる。捕捉用に使用されるマイクロフォン信号は、所謂二次Bフォーマット信号に変換可能であるものとする。二次Bフォーマット信号は、対応するマイクロフォンの指向性パターンの形状によって記述することができる。
b
W(α)=1 (2)
b
X(α)=cos(α) (3)
b
Y(α)=sin(α) (4)
b
U(α)=cos(2α) (5)
b
V(α)=sin(2α) (6)
ここで、αは方位角を示す。対応するBフォーマット信号(例えば、
図8の入力105)は、W(m,k)、X(m,k)、Y(m,k)、U(m,k)およびV(m,k)で示され、mおよびkは各々、時間および周波数指数を表す。ここで、i番目のセクタに関連づけられたセグメントマイクロフォン信号は、指向性パターンq
i(α)を有するものとする。よって次には(例えば、ブロック110によって)、次式で表すことができる指向性パターンを有する追加的なマイクロフォン信号115、W
i(m,k)、X
i(m,k)、Y
i(m,k)を決定することができる。
b
Wi(α)=q
i(α) (7)
b
Xi(α)=q
i(α)cos(α) (8)
b
Yi(α)=q
i(α)sin(α) (9)
【0066】
図10には、例示的な心臓型パターン事例、q
i(α)=0.5+0.5cos(α+Θ
i)における記述するマイクロフォン信号の指向性パターン例が幾つか示されている。i番目のセクタの好ましい方向は方位角Θ
iに依存する。
図10において、破線は、実線で描かれている指向性応答1020、1030とは反対の符号を有する指向性応答1022、1032(極パターン)を示す。
【0067】
例示的なΘ
i=0の事例の場合、信号W
i(m,k)、X
i(m,k)、Y
i(m,k)は、次式に従って、二次Bフォーマット信号から、入力成分W、X、Y、U、Vをミキシングして決定することができる点に留意されたい。
W
i(m,k)=0.5W(m,k)+0.5X(m,k) (10)
X
i(m,k)=0.25W(m,k)+0.5X(m,k)+0.25U(m,k) (11)
Y
i(m,k)=0.5Y(m,k)+0.25V(m,k) (12)
【0068】
このミキシング演算は、例えば
図2においては、構成ブロック110において実行される。q
i(α)の選択肢を変えると、二次Bフォーマット信号から成分W
i、X
i、Y
iを得るミキシングルールも変わることに留意されたい。
【0069】
セグメントマイクロフォン信号115、W
i(m,k)、X
i(m,k)、Y
i(m,k)からは、次に、(例えば、ブロック120により)セクタベースのアクティブな強度ベクトル、
を計算することによって、i番目のセクタに関連づけられたDOAパラメータθ
iを決定することができる。ここで、Re{A}は複素数Aの実数部を示し、*は複素共役を示す。さらに、ρ
0は空気の密度であり、cは音速である。例えば単位ベクトルe
i(m、k)によって表される望ましいDOA推定θ
i(m、k)は、次式によって得ることができる。
【0070】
さらに、セクタベースの音場エネルギー関連量も決定することができる。
【0071】
次には、i番目のセクタの望ましい拡散性パラメータΨ
i(m,k)を次式によって決定することができる。
ここで、gは適切なスケーリング係数を示し、E{ }は期待値演算子であり、|| || はベクトルノルムを示す。拡散性パラメータΨ
i(m,k)は、平面波のみが存在し、かつこれが純粋な拡散音場の場合における値以下の正の値をとれば、ゼロであることが分かる。一般に、類似の挙動を示す拡散性、即ち直接音のみに対して0を与え、かつ完全な拡散音場に対して1に近似する拡散性に対しては、代替のマッピング関数を定義することができる。
【0072】
図11の実施形態を参照すると、異なるマイクロフォン構成に対しては、パラメータ推定の代替の実現を用いることができる。
図11に好適な例として示されているように、指向性マイクロフォンの複数の線形アレイ1112、1114、1116が使用可能である。
図11は、また、与えられたマイクロフォン構成に関して、2D観測空間をどのようにセクタ1101、1102、1103に分割し得るかの一例も示している。セグメントマイクロフォン信号115は、線形マイクロフォンアレイ1112、1114、1116の各々に適用されるフィルタ・アンド・サム・ビームフォーミング(filter and sum beam forming)等のビーム形成技術によって決定することができる。また、ビーム形成は省略してもよく、即ち、セクタ(Seg
i)毎に望ましい空間選択性を示す指向性マイクロフォンの指向性パターンを、セグメントマイクロフォン信号115を得るための唯一の手段として使用することができる。各セクタ内のDOAパラメータθ
iは、(R. Roy, T. Kailath共著「ESPRIT-estimation of signal parameters via rotational invariance techniques」, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 37, no. 7, pp. 984995, July 1989(非特許文献3)に記述されているような)「ESPRIT」アルゴリズム等の一般的な推定技術を用いて推定することができる。各セクタの拡散性パラメータΨ
iは、例えば、(J. Ahonen, V. Pulkki共著「Diffuseness estimation using temporal variation of intensity vectors」, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2009. WAS-PAA '09. , pp. 285-288, 18-21 Oct. 2009(非特許文献4)に記述されているように)DOA推定の時間的変動を評価することによって決定することができる。または、(O. Thiergart, G. Del Galdo, E. A. P. Habets共著「Signal-to-reverberant ratio estimation based on the complex spatial coherence between omnidirectional microphons」, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 309-312, 25-30 March 2012(非特許文献5)に記述されているような)異なるマイクロフォンと直接音対拡散音比との間のコヒーレンスの既知の関係を用いることができる。
【0073】
図12は、高次マイクロフォン信号(例えば、入力空間オーディオ信号105)を得るための、全方向性マイクロフォンの円形アレイ例1210の略
図1200を示す。
図12の略
図1200において、全方向性マイクロフォンの円形アレイ1210は、例えば、極線図における円(破線)に沿って等距離に配置された5つのマイクロフォンを備えている。実施形態において、全方向性マイクロフォンの円形アレイ1210は、後述するように、より高次(HO:higher order)のマイクロフォン信号を得るために使用することができる。(全方向性マイクロフォン1210により生成される)全方向性のマイクロフォン信号から例示的な二次マイクロフォン信号UおよびVを計算するためには、少なくとも5つの独立したマイクロフォン信号が使用されるべきである。これは、例えば、
図12に好適な例として示されているもののような一様円形アレイ(UCA:Uniform Circular Array)を用いて見事に達成することができる。所定の時間および周波数においてマイクロフォン信号から得られるベクトルは、例えば、DFT(離散型フーリエ変換:Discrete Fourier transform)により変換することができる。次に、マイクロフォン信号W、X、Y、UおよびV(即ち、入力空間オーディオ信号105)は、DFT係数の線形結合によって得ることができる。DFT係数は、マイクロフォン信号のベクトルから計算されるフーリエ級数の係数を表すことに留意されたい。
【0074】
を、指向性パターン、
により定義される一般化されたm次マイクロフォン信号を示すものとする。但し、αは、
であるような方位角を示す。
【0075】
すると、次式が証明され得る。
但し、
ここで、jは虚数単位、kは波数、rおよびφは極座標系を定義する半径および方位角、J
m(・)は第一種のm次ベッセル関数、
は極座標(r、φ)上で測定される圧力信号のフーリエ級数の係数である。
【0076】
アレイの設計および(高次の)B−フォーマット信号の計算実装に際しては、ベッセル関数の数値特性に起因する過剰な雑音増幅を回避するように注意しなければならないことに留意されたい。
【0077】
記述している信号変換に関連する数学的背景および導出は、例えば、A. Kuntz著「Wave field analysis using virtual circular microphone arrays」, Dr. Hut, 2009, ISBN: 978-3-86853-006-3(非特許文献6)に記載されている。
【0078】
本発明のさらなる実施形態は、録音空間内での録音から得られる入力空間オーディオ信号105から複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を発生するための方法に関する。例えば、入力空間オーディオ信号105は、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、Vを含む。本方法は、入力空間オーディオ信号105(例えば、全方向性信号Wおよび複数の異なる指向性信号X、Y、Z、U、V)から、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)を生成することを含み、前記少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)は録音空間の対応するセグメントSeg
iに関連づけられる。さらに、本方法は、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)を得るために、少なくとも2つの入力セグメントオーディオ信号115(W
i,X
i,Y
i,Z
i)の各々についてパラメトリック・オーディオ・ストリームを発生することを含む。
【0079】
本発明のさらなる実施形態は、録音空間内で録音された入力空間オーディオ信号105から導出される複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)から複数のラウドスピーカ信号525(L
1,L
2,…)を発生するための方法に関する。本方法は、複数のパラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)から複数の入力セグメントラウドスピーカ信号515を生成することを含み、入力セグメントラウドスピーカ信号515は録音空間の対応するセグメントSeg
iに関連づけられる。さらに、本方法は、複数のラウドスピーカ信号525(L
1,L
2,…)を得るために、入力セグメントラウドスピーカ信号515を結合することを含む。
【0080】
本発明はブロックが実際または論理上のハードウェアコンポーネントを表すブロック図で記述されているが、本発明はコンピュータ実装方法によっても実装することができる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理的または物理的なハードウェアブロックにより実行される機能を表す。
【0081】
記述されている実施形態は、本発明の原理を単に例示したものである。当業者である他の者には、本明細書に記述されている配置および詳細の変更および変形が明らかであることが理解されよう。よって、本発明は、添付の特許請求の範囲によってのみ限定されるべきものであり、本明細書における実施形態を記述しかつ説明するものとして提示された特有の詳細によって限定されないことが意図されている。
【0082】
一部の態様は、装置に関して記述されているが、これらの態様が対応する方法の説明でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップに関して記述されている態様は、対応する装置の対応するブロック、部材または特徴の説明でもある。方法ステップの幾つかまたは全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラマブルコンピュータまたは電子回路などによって(またはハードウェア装置を用いて)実行することができる。実施形態によっては、最も重要な方法ステップのうちの何れか1つまたはそれ以上がこのような装置によって実行することができる。
【0083】
パラメトリック・オーディオ・ストリーム125(θ
i,Ψ
i,W
i)は、デジタル記憶媒体に格納することができ、または、無線伝送媒体もしくはインターネットのような有線伝送媒体等の伝送媒体で伝送することができる。
【0084】
所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。その実装は、電子的に読み出し可能な制御信号を記憶し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ読取り可能とすることができる。
【0085】
本発明による一部の実施形態は、本明細書に記述されている方法のうちの1つが実行されるように、プログラマブル・コンピュータ・システムと協働できる電子的に読取り可能な制御信号を有するデータキャリアを含む。
【0086】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができ、そのプログラムコードは、このコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると方法のうちの1つを実行するように動作する。そのプログラムコードは、例えば、機械読取り可能なキャリアに格納することができる。
【0087】
他の実施形態は、機械読取り可能キャリア上に格納されて、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0088】
したがって、言い替えれば、本発明の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0089】
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録したデータキャリア(または、デジタル記憶媒体またはコンピュータ読取り可能な媒体)である。データキャリア、デジタル記憶媒体または記録用媒体は、典型的には、有形および/または非移行性である。
【0090】
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。そのデータストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0091】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成または適合化される処理手段、例えばコンピュータまたはプログラマブル論理デバイス、を含む。
【0092】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0093】
本発明によるさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを受信機へ(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。その装置またはシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えることができる。
【0094】
実施形態によっては、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を、本明細書に記述されている方法の機能のうちの一部または全てを実行するために使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサによって動作することができる。概して、これらの方法は、好ましくはあらゆるハードウェア装置によって実行される。
【0095】
本発明の実施形態は、単純かつコンパクトなマイクロフォン構成を用いて、高品質でリアルな空間音響の録音と再生を提供する。
【0096】
本発明の実施形態は、(2010年8月31日付けのT. Lokki, J. Merimaa, V. Pulkkiによる「Method for Reproducing Natural or Modified Spatial Impression in Multichannel Listening」と題する米国特許第7,787,638B2号明細書(特許文献1)、およびV. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているような)方向オーディオコーディング(DirAC)に基づいており、DirACは異なるマイクロフォンシステムで、かつ任意のラウドスピーカ配置で使用することができる。DirACの利点は、マルチチャネル・ラウドスピーカ・システムを用いて、既存の音響環境の空間印象を可能な限り正確に再生することにある。選ばれた環境内部において、レスポンス(連続音またはインパルス応答)は、全方向性マイクロフォン(W)と、音の到来方向(DOA)と音の拡散性を測定できるようにするマイクロフォンセットとで測定することができる。可能な一方法は、対応するデカルト座標軸に沿って配列された3つの8字形マイクロフォン(X、Y、Z)を適用することである。これを行うための一方法は「サウンドフィールド(SoundField)」マイクロフォンを用いることであり、サウンドフィールドマイクロフォンは望ましい全てのレスポンスを直接に生み出す。全方向性マイクロフォンの信号は音圧を表すのに対して、双極子信号は粒子速度ベクトルの対応要素に比例する点に留意することは興味深い。
【0097】
これらの信号から、DirACパラメータ、即ち音のDOAおよび観測音場の拡散性、を、適切な時間/周波数ラスタにおいて、ヒト聴覚系の分解能に対応する分解能で測定することができる。次に、実際のラウドスピーカ信号を、全方向性マイクロフォン信号から、(V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているような)DirACパラメータに基づいて決定することができる。直接音成分は、パンニング技術を用いて少数(例えば、1台または2台)のラウドスピーカのみで再生できるのに対して、拡散音成分は全てのラウドスピーカから同時に再生することができる。
【0098】
DirACに基づく本発明の実施形態は、コンパクトなマイクロフォン構成による空間音響録音への単純な手法を表している。特に、本発明は、達成可能な音質および音響体験を従来技術における実施において制限している幾つかの体系的欠点を防止する。
【0099】
従来のDirACとは対照的に、本発明の実施形態はより高い品質のパラメトリック空間オーディオ処理を提供する。従来のDirACは、音場の単純なグローバルモデルに依存していて、観測空間全体で1つのDOAパラメータと1つの拡散性パラメータだけを用いる。これは、音場は、各時間/周波数タイルにつき平面波等の1つの単一直接音成分と1つのグローバルな拡散性パラメータだけで表現することができる、という想定に基づくものである。しかしながら、実際のところ、音場に関するこの簡易な想定は、当てはまらない場合が多いことが分かる。これは、特に、複雑な現実世界の音響において、例えば話者または楽器等の複数の音源が同時に関与している場合にいえることである。一方、本発明の実施形態は、観測される音場とモデルとの不一致を生じさせず、対応するパラメータ推定はより正確である。また、特に直接音成分が拡散的に演奏され、かつラウドスピーカ出力を聴いていて方向を知覚できない場合に、モデルとの不一致が生じることも防止することができる。実施形態では、(V. Pulkki著「Spatial Sound Reproduction with Directional Audio Coding」, J. Audio Eng. Soc., Vol. 55, No. 6, pp. 503-516, 2007(非特許文献1)に記述されているように)全てのラウドスピーカから再生される無相関な拡散音を発生させるために逆相関器を用いることができる。従来技術では逆相関器によって望ましくない室効果が加わる場合の多いのに対して、本発明では、所定の空間広がりを有する音源をより正確に再生することができる(このような音源を正確に捕捉できないDirACの単純な音場モデルを用いる場合とは対照的である。)。
【0100】
本発明の実施形態は、想定される信号モデルにおいてより高値の自由度を提供し、複雑な音響シーンにおいてモデルとの一致を一層よくする。
【0101】
さらに、セクタを発生するために指向性マイクロフォン(または、他の任意の時不変の線形的な、例えば物理的な手段)を用いる場合には、マイクロフォンの増大された固有の指向性を達成することができる。したがって、漠然とした方向、クロストークおよび着色を回避するために時変利得を適用する必要性は少ない。これにより、オーディオ信号経路における非線形処理が少なくなり、結果として品質が高まる。
【0102】
概して、直接音成分は、より多くを直接音源(点音源/平面波源)として演奏することができる。結果として、非相関アーティファクトの発生は減少し、より多くの(正確に)局在化可能な事象を知覚することができ、かつより正確な空間再生を達成することができる。
【0103】
本発明の実施形態は、正確なDOAを関連づけられたより多くの割合の合計信号エネルギーが直接音事象に帰属され、かつより多くの情報が利用可能であることから、(M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling, O. Thiergart共著「A Spatial Filtering Approach for Directional Audio Coding」, 126th AES Convention, Paper 7653, Munich, Germany, 2009(非特許文献7)において記述されているように)パラメトリック領域、例えば指向性フィルタリング、において、単純なグローバルモデルよりも優れた操作性を提供する。より多い(パラメトリックな)情報を準備することにより、例えば、複数の直接音成分を、または異なる方向から入射する初期反射からの直接音成分をも、分離することができる。
【0104】
具体的には、実施形態は、次のような特徴を提供する。2Dの場合は、全方位角範囲は、低減された方位角範囲にわたるセクタに分割することができる。3Dの場合は、全立体角範囲は、低減された立体角範囲にわたるセクタに分割することができる。各セクタは、好ましい角度範囲に関連づけることができる。セクタ毎に、受信されるマイクロフォン信号から、主としてこの特定のセクタに割り当てられかつこの特定のセクタにより包含される方向から到来する音より成るセグメントマイクロフォン信号を決定することができる。また、これらのマイクロフォン信号は、シミュレートされた仮想録音によって人工的に決定することもできる。セクタ毎に、パラメトリックな音場解析を実行して、DOAおよび拡散性等の方向パラメータを決定することができる。セクタ毎に、パラメトリックな方向情報(DOAおよび拡散性)は、主として、この特定のセクタに関連づけられた音場の角度範囲の空間特性を記述する。再生の際には、セクタ毎に、ラウドスピーカ信号を方向パラメータおよびセグメントマイクロフォン信号に基づいて決定することができる。次に、全セクタの出力を結合することにより、全体出力が得られる。操作の際には、再生用のラウドスピーカ信号を計算する前に、その音響シーンの操作を達成すべく、推定されたパラメータおよび/またはセグメントオーディオ信号を変更することができる。