【課題を解決するための手段】
【0005】
上記目的は、少なくとも2つの入力チャンネル信号のヘッドホン再生に関する方法により実現され、この方法は、上記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対する以下のステップを有する。まず、共通要素、上記共通要素に対応する推定された所望の位置、及び入力チャンネル信号の上記ペアにおける2つの入力チャンネル信号に対応する2つの残余の要素が、決定される。上記決定ステップは、上記入力チャンネル信号のペアに基づかれる。上記残余の要素の各々は、共通要素の貢献を減算することにより、その対応する入力チャンネル信号から得られる。上記貢献は、共通要素の推定された所望の位置に関連付けられる。次に、推定された所望の位置で上記共通要素を有する主仮想源と、それぞれが個別の所定の位置で上記残余の要素の個別の1つを有する2つの追加的な仮想源とが、合成される。
【0006】
これは、例えば5つの入力チャンネル信号に対するすべての可能なペアの組合せに関して、共通要素及び2つの残余の要素の上記合成ステップが実行されることを意味する。上記5つの入力チャンネル信号に対して、これは、可能性として10ペアの入力チャンネル信号を生じさせる。すると、上記5つの入力チャンネル信号に対応する結果として生じる全体の音響シーンは、上記5つの入力チャンネル信号から形成される入力チャンネル信号のすべてのペアから生じる共通及び残余の要素のすべての貢献の重ね合せにより得られる。
【0007】
本発明により提案される方法を用いると、固定位置にある、例えば標準的なステレオラウドスピーカ・セットアップに基づかれる+/−30度方位角にある2つの仮想的なラウドスピーカによりつくられるファントム音源が、所望の位置にある仮想源により置き換えられる。ヘッドホン再生に関して提案される方法の利点は、頭の回転が含まれる場合であっても、又はフロント/サラウンドパニングが使用される場合であっても、空間像が改善される点にある。より詳細には、提案される方法は、リスナーが音響シーンに仮想的に配置される没入的な経験を提供する。更に、強制的な3D音声経験のためには頭部追跡が不可欠であることはよく知られている。提案されたソリューションを用いると、頭が回転しても仮想的なスピーカが位置を変化させることがない。こうして、空間像は正しいままにされる。
【0008】
ある実施形態において、上記ペアの入力チャンネル信号に対する共通要素の貢献は、左として知覚される入力チャンネル信号に対する推定された所望の位置のコサイン項及び右として知覚される入力チャンネルに対する推定された所望の位置のサイン項で表現される。これに基づき、ペアに関係しており、上記ペアにおける左右の入力チャンネルとして知覚される入力チャンネル信号は、
と分解される。ここで、L[k]及びR[k]は、それぞれ上記ペアにおいて左及び右として知覚される入力チャンネル信号であり、S[k]は、左及び右として知覚される入力チャンネル信号に対する共通要素であり、D
L[k]は、左として知覚される入力チャンネル信号に対応する残余の要素であり、D
R[k]は、右として知覚される入力チャンネル信号に対応する残余の要素であり、
は、共通要素に対応する推定された所望の位置である。
【0009】
「左として知覚される」及び「右として知覚される」という用語は、簡単化のため明細書の残りの部分においては、「左」及び「右」と置き換えられる。この文脈における「左」及び「右」という用語が、少なくとも2つの入力チャンネル信号からの、ペアに関係する2つの入力チャンネル信号を参照する点、及びヘッドホン再生方法により再生される入力チャンネル信号の数をいかなる態様でも限定していない点に留意されたい。
【0010】
上記の分解は、共通要素を提供する。この共通要素は、古典的ラウドスピーカ・システムにおいて振幅パニング技術を用いて得られるファントム音源の推定である。コサイン及びサイン要素は、単一の角度を用いて左右の入力チャンネル信号の両方の信号に対する共通要素の貢献を表す手段を提供する。上記角度は、共通源の知覚位置に密接に関連する。振幅パニングはほとんどの場合いわゆる3dBのルールに基づかれる。これは、左右の入力チャンネルにおける共通信号の比率が何であれ、共通要素の全出力が変更されないままであるべきであることを意味する。同じ角度のサイン及びコサインの二乗和は常に1であるので、この特性はコサイン及びサイン項を用いることにより自動的に保証される。
【0011】
更なる実施形態において、共通要素及び対応する残余の要素は、上記共通要素が決定される入力チャンネル信号間の相関に依存する。共通要素を推定するとき、推定プロセスにおいて非常に重要な変数は、左右のチャンネル間の相関である。相関は、共通要素の強さ(従ってパワー)に直接関連する。相関が低い場合、共通要素のパワーも低い。相関が高い場合、共通要素のパワーは、残余の要素に比べて高い。言い換えると、相関は、左右の入力チャンネル信号ペアにおける共通要素の貢献に関するインジケータである。共通要素及び残余の要素が推定されなければならない場合、共通要素又は残余の要素が入力チャンネル信号において支配的であるかを知ることが有利である。
【0012】
更なる実施形態において、共通要素及び対応する残余の要素は、対応する入力チャンネル信号のパワーパラメタに依存する。推定プロセスに関する尺度としてパワーを選択することは、共通要素及び残余の要素のより正確で信頼性が高い推定を可能にする。入力チャンネル信号の1つ、例えば左入力チャンネル信号に対するパワーがゼロである場合、これは、その信号に関して残余及び共通要素がゼロであることを自動的に意味する。これは、他の入力チャンネル信号においてのみ共通要素が存在することも意味し、従って、右の入力チャンネル信号がかなりのパワーを持つことを意味する。更に、左の残余の要素及び右の残余の要素がパワーにおいて等しい場合(例えば、それらが逆の符号を持つ以外同じ信号である場合)、左の入力チャンネル信号のパワーがゼロに等しいことは、左の残余の要素のパワーと右の残余の要素のパワーとが共にゼロであることを意味する。これは、右の入力チャンネル信号が実際に共通要素であることを意味する。
【0013】
更なる実施形態では、共通要素に対応する推定された所望の位置は、上記共通要素が決定される入力チャンネル信号間の相関に依存する。相関が高い場合、共通要素の貢献も高い。これは、左右の入力チャンネル信号のパワーと共通要素の位置との間に緊密な関係があることも意味する。一方、相関が低い場合、これは、共通要素が比較的弱い(即ち低パワーである)ことを意味する。これは、左右の入力チャンネル信号のパワーが、共通要素のパワーではなく、残余の要素のパワーにより支配的に決定されることも意味する。こうして共通要素の位置を推定するために、共通要素が支配的かどうかを知ることが有利であり、これは相関により反映される。
【0014】
更なる実施形態において、共通要素に対応する推定された所望の位置は、対応する入力チャンネル信号のパワーパラメタに依存する。残余の要素がゼロである場合、左右の入力チャンネル信号の相対的なパワーが、共通要素に対応する主仮想源の角度に直接関連する。従って、主仮想源の位置は、左右の入力チャンネル信号における(相対的な)パワーに強く依存する。一方、共通要素が残余の要素と比較して非常に小さい場合、左右の入力チャンネル信号のパワーは残余の信号により支配され、その場合、左右の入力チャンネル信号から共通要素の所望の位置を推定することは、あまり直接的でない。
【0015】
更なる実施形態において、入力チャンネル信号のペアに対する上記パワーパラメタは、左チャンネル・パワーP
l、右チャンネル・パワーP
r及び相互パワーP
xを有する。
【0016】
更なる実施形態において、共通要素に対応する推定された所望の位置
は、
として得られる。ここで
である。
【0017】
共通要素に対応する推定された信号のパワーを最大化することにこの派生式が対応することが、示されることができる。共通要素の推定プロセス及び共通要素のパワーの最大化(これはまた、残余の要素のパワーの最小化を意味する)に関する更なる情報は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に与えられる。共通要素に対応する推定された信号のパワーを最大化することが望ましい。なぜなら、対応する信号に関して、正確なローカライゼーション情報が利用可能だからである。極端な場合、共通要素がゼロであるとき、残余の要素は元の入力信号に等しく、処理は何の影響も与えないことになる。従って上記の方法の最大の効果を得るには、共通要素のパワーを最大化し、残余の要素のパワーを最小化することが有益である。
【0018】
更なる実施形態では、推定された所望の位置は、2つの仮想的なスピーカ位置に対応する2つの所定の位置の間の空間位置を表し、これにより、範囲
度は、知覚される位置角度に関して、範囲r=−30...30度にマッピングされる。前述の実施形態に示される推定された所望の位置
は、0〜90度の間で変化する。ここで、0〜90度に対応する位置はそれぞれ、左右のスピーカ位置に等しい。ヘッドホン再生システムによる現実的な音声再生のため、音声コンテンツを生み出すのに実際に使用されてきた範囲に対応する範囲へと推定された所望の位置の上記範囲をマッピングすることが望ましい。しかしながら、音声コンテンツを生み出すのに使用される正確なスピーカ位置は、利用可能ではない。ほとんどの音声コンテンツは、ITU標準(ITU−R推奨BS.775−1)により定められるラウドスピーカ・セットアップ上での再生、即ち、+30及び−30度角度でのスピーカ配置に対する再生のために作られる。従って、仮想源の元の位置の最良の推定は、知覚された場所である。しかし、ITU標準に準拠するラウドスピーカ・システムを介して音声が再生されるという仮定にたつ必要がある。上記のマッピングは、この目的のために機能する。即ち、推定された所望の位置をITU準拠の範囲へと持ってくる。
【0019】
更なる実施形態において、推定された所望の位置
に対応する知覚位置の角度rは、
に基づき得られる。
【0020】
このマッピングの利点は、これが、間隔[0...90]度から[−30...30]度への単純な線形マッピングである点にある。[−30...30]度の範囲への上記マッピングは、好適なITUラウドスピーカ・セットアップを仮定すると、仮想源の意図された位置の最良の推定を与える。
【0021】
更なる実施形態において、パワーパラメタは、周波数領域へと変換される入力チャンネル信号から得られる。多くの場合、音声コンテンツは、複数の同時音源を有する。上記複数の資源は、異なる周波数に対応する。従って、より良好な音像が、よりターゲット化された態様で音源を処理することが有利である。これは、周波数領域においてのみ可能である。音声コンテンツの空間特性を一層より詳細に再生するため、及びこうして全体の空間音声再生品質を改善するため、提案される方法をより小さい周波数帯に適用することが望ましい。多くの場合、特定の周波数帯において単一の音源が支配的であるならば、これはうまく機能する。周波数帯において1つの源が支配的である場合、共通要素及びその位置の推定は支配的な信号にのみ非常に似ており、その他の信号を捨ててしまう(上記他の信号は結局、残余の要素となる)。他の周波数帯においては、それらの自身の対応する位置を持つ他の源が支配的である。それゆえに、周波数領域において可能なさまざまなバンドにおける処理により、音源の再生に対する更なる制御が実現されることができる。
【0022】
更なる実施形態において、入力チャンネル信号は、フーリエベースの変換を用いて周波数領域へと変換される。この種の変換は、既知であり、1つ又は複数の周波数帯を作製するための複雑さの低い方法を提供する。
【0023】
更なる実施形態において、入力チャンネル信号は、フィルタバンクを用いて周波数領域へと変換される。適切なフィルタバンク方法は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に表される。これらの方法は、サブバンド周波数領域への変換を提供する。
【0024】
更なる実施形態において、パワーパラメタは、時間領域において表される入力チャンネル信号から得られる。音声コンテンツに存在する源の数が少ない場合、フーリエベースの変換又はフィルタバンクが適用されると計算労力が高い。従って時間領域においてパワーパラメタを得ることは、周波数領域においてパワーパラメタを得ることと比べて計算労力を節約する。
【0025】
更なる実施形態において、推定された所望の位置に対応する知覚位置rは、音響ステージの狭小化、拡張又は回転のいずれかを生じさせるよう修正される。拡張が特に興味深い。なぜなら、これは、ラウドスピーカの−30...+30度位置が原因によるラウドスピーカ・セットアップの60度限界を克服するからである。従って、これは、60度開口角度により制限される狭い音響ステージをリスナーに提供するのではなく、リスナーを囲む没入的な音響ステージを作るのに役立つ。更に、音響ステージの回転が興味深い。なぜなら、それは、ユーザの頭の回転から独立した固定(安定的で一定の)位置にある音源をヘッドホン再生システムのユーザが聞くことを可能にするからである。
【0026】
更なる実施形態において、推定された所望の位置rに対応する知覚位置rが、
として表される修正された知覚位置r'を生じさせるよう修正される。ここで、hは、音響ステージの回転に対応するオフセットである。
【0027】
源位置の角度表現は、頭の運動、特にリスナーの頭の方向の非常に簡単な一体化を容易にする。これは、音源が頭の方向から独立した、安定的で一定の位置を持つよう、源位置に対応する角度に対してオフセットを適用することにより実現される。斯かるオフセットの結果、より頭の外の(out-of-head)音源ローカライゼーション、改良された音源ローカライゼーション精度、フロント/バック混乱の減少、より没入的で自然なリスニング経験、という利点が実現される。
【0028】
更なる実施形態において、推定された所望の位置に対応する知覚位置は、
として表される修正された知覚位置を生じさせるよう修正される。ここで、cは、音響ステージの拡張又は狭小化に対応するスケール係数である。スケール化を使用することは、音響ステージを広げるための非常に簡単で更に効率的な方法である。
【0029】
更なる実施形態において、推定された所望の位置に対応する知覚位置は、ユーザプリファレンスに基づき修正される。あるユーザは、そのリスナーの周囲に位置する源を用いて完全に没入的な経験を望む(例えば、ユーザが音楽バンドのメンバーである場合)が、他のユーザは、正面のみから来るものとして(例えば、観衆として座っており距離を置いて聞くものとして)音響ステージを知覚したいと思うことが起こりうる。
【0030】
更なる実施形態では、推定された所望の位置に対応する知覚位置が、頭部追跡データに基づき修正される。
【0031】
更なる実施形態において、入力チャンネル信号は、時間/周波数タイルに分解される。周波数帯を使用することは有利である。なぜなら、より好適な音像を生じさせる、一層ターゲット化された態様で複数の音源が扱われるからである。時間分割の追加的な利点は、音源の支配性が通常、時間依存である点にある。例えばいくつかの源は、ある時間において静かである。周波数帯に加えて時間セグメントを使用することは、入力チャンネル信号に存在する個別の源の更に多くの制御を与える。
【0032】
更なる実施形態において、仮想源の合成は、頭関連の伝達関数(HRTF)を用いて実行される。HRTFを用いる合成は、仮想的な空間における源を位置決めする既知の方法である。HRTFに対するパラメトリック・アプローチは、処理を更に一層単純化することができる。HRTF処理に関する斯かるパラメトリック・アプローチは、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に記載される。
【0033】
更なる実施形態において、仮想源の合成は、各周波数帯に対して独立して実行される。周波数帯を使用することは有利である。なぜなら、複数の音源がより良好な音像を生じさせる、一層ターゲット化された態様で扱われるからである。帯域における処理の別の利点は、多くの場合(例えばフーリエベースの変換を用いるとき)、帯域に存在する音声サンプルの数が、入力チャンネル信号における音声サンプルの総数より少ないという観察に基づかれる。各帯域が他の周波数帯と独立して処理されるので、必要な総処理パワーは少ない。
【0034】
本発明は、更に、システムクレームと、プログラム可能なデバイスが本発明による方法を実行することを可能にするコンピュータプログラムとを提供する。