特許第5769967号(P5769967)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

特許5769967ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム
<>
  • 特許5769967-ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム 図000047
  • 特許5769967-ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム 図000048
  • 特許5769967-ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム 図000049
  • 特許5769967-ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム 図000050
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5769967
(24)【登録日】2015年7月3日
(45)【発行日】2015年8月26日
(54)【発明の名称】ヘッドホン再生に関する方法、ヘッドホン再生システム、コンピュータプログラム
(51)【国際特許分類】
   H04S 1/00 20060101AFI20150806BHJP
【FI】
   H04S1/00 L
【請求項の数】27
【全頁数】22
(21)【出願番号】特願2010-527581(P2010-527581)
(86)(22)【出願日】2008年10月1日
(65)【公表番号】特表2010-541449(P2010-541449A)
(43)【公表日】2010年12月24日
(86)【国際出願番号】IB2008053991
(87)【国際公開番号】WO2009044347
(87)【国際公開日】20090409
【審査請求日】2011年9月30日
(31)【優先権主張番号】07117830.5
(32)【優先日】2007年10月3日
(33)【優先権主張国】EP
【前置審査】
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
(74)【代理人】
【識別番号】100087789
【弁理士】
【氏名又は名称】津軽 進
(74)【代理人】
【識別番号】100122769
【弁理士】
【氏名又は名称】笛田 秀仙
(74)【代理人】
【識別番号】100145654
【弁理士】
【氏名又は名称】矢ヶ部 喜行
(72)【発明者】
【氏名】ブレーバールト ディルク ジェイ
【審査官】 菊池 充
(56)【参考文献】
【文献】 特開平07−123498(JP,A)
【文献】 特開平06−205500(JP,A)
【文献】 国際公開第2006/024850(WO,A1)
【文献】 国際公開第2006/039748(WO,A1)
【文献】 特表2004−505528(JP,A)
【文献】 特開平06−253398(JP,A)
【文献】 特開2000−115899(JP,A)
【文献】 米国特許第6801627(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00− 7/00
(57)【特許請求の範囲】
【請求項1】
少なくとも2つの入力チャンネル信号のヘッドホン再生に関する方法において、前記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対して、
− 前記入力チャンネル信号のペアに基づいて、共通要素を決定し、前記共通要素に対応する所望の位置を推定し、前記共通要素の貢献が、前記推定された所望の位置に関連付られるステップと、
前記入力チャンネル信号のペアにおける2つの入力チャンネル信号に対応する2つの残余の要素を決定するステップであって、前記決定が、前記入力チャンネル信号のペアに基づかれ、前記残余の要素の各々は、前記共通要素の貢献を減算することにより対応する入力チャンネル信号から得られるステップと、
− 前記推定された所望の位置で前記共通要素を有する主仮想源を合成するステップと、
− それぞれが個別の所定の位置で前記残余の要素の個別の1つを有する2つの追加的な仮想源を合成するステップとを有する、方法。
【請求項2】
前記入力チャンネル信号のペアに対する前記共通要素の前記貢献が、左として知覚される前記入力チャンネル信号に対する前記推定された所望の位置のコサイン項及び右として知覚される前記入力チャンネルに対する前記推定された所望の位置のサイン項で表される、請求項1に記載の方法。
【請求項3】
前記共通要素及び前記対応する残余の要素が、前記共通要素が決定される入力チャンネル信号間の相関に依存する、請求項1又は2に記載の方法。
【請求項4】
前記共通要素及び前記対応する残余の要素が、前記対応する入力チャンネル信号のパワーパラメタに依存する、請求項1又は2に記載の方法。
【請求項5】
前記共通要素に対応する前記推定された所望の位置が、前記共通要素が決定される入力チャンネル信号間の相関に依存する、請求項1又は2に記載の方法。
【請求項6】
前記共通要素に対応する前記推定された所望の位置が、前記対応する入力チャンネル信号のパワーパラメタに依存する、請求項1乃至5のいずれかに記載の方法。
【請求項7】
入力チャンネル信号のペアに対して、前記パワーパラメタが、左チャンネル・パワーP、右チャンネル・パワーP及び相互パワーPを有する、請求項4又は6に記載の方法。
【請求項8】
前記共通要素に対応する前記推定された所望の位置
が、
として得られ、ここで
が成立する、請求項7に記載の方法。
【請求項9】
前記推定された所望の位置が、2つの仮想的なスピーカ位置に対応する前記2つの所定の位置の間の空間位置を表し、範囲
は、前記知覚位置の角度に関して、範囲r=−30...30度へとマッピングされる、請求項8に記載の方法。
【請求項10】
前記推定された所望の位置に対応する前記知覚位置の角度が、
に基づき得られる、請求項9に記載の方法。
【請求項11】
パワーパラメタが、周波数領域へと変換される前記入力チャンネル信号から得られる、請求項7に記載の方法。
【請求項12】
前記入力チャンネル信号が、フーリエベースの変換を用いて前記周波数領域へと変換される、請求項11に記載の方法。
【請求項13】
前記入力チャンネル信号が、フィルタバンクを用いて前記周波数領域へと変換される、請求項7に記載の方法。
【請求項14】
パワーパラメタが、時間領域で表される前記入力チャンネル信号から得られる、請求項7に記載の方法。
【請求項15】
前記推定された所望の位置に対応する知覚位置rが、音響ステージの狭小化、拡張又は回転のいずれかを生じさせるよう修正される、請求項1に記載の方法。
【請求項16】
前記推定された所望の位置に対応する前記知覚位置rが、
として表される前記修正される知覚位置を生じさせるよう修正され、
hは、前記音響ステージの回転に対応するオフセットである、請求項15に記載の方法。
【請求項17】
前記推定された所望の位置に対応する前記知覚位置が、
として表される前記修正される知覚位置r'を生じさせるよう修正され、cは、前記音響ステージの拡張又は狭小化に対応するスケール係数である、請求項15に記載の方法。
【請求項18】
前記推定された所望の位置に対応する前記知覚位置が、ユーザプリファレンスに基づき修正される、請求項15乃至17のいずれかに記載の方法。
【請求項19】
前記推定された所望の位置に対応する前記知覚位置が、頭部追跡データに基づき修正される、請求項15乃至17のいずれかに記載の方法。
【請求項20】
前記入力チャンネル信号が、時間/周波数タイルに分解される、請求項1に記載の方法。
【請求項21】
仮想源の合成が、頭関連の伝達関数を用いて実行される、請求項1に記載の方法。
【請求項22】
仮想源の合成が、各周波数帯に関して独立して実行される、請求項21に記載の方法。
【請求項23】
少なくとも2つの入力チャンネル信号の再生に関するヘッドホン再生システムであって、
前記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対して、前記入力チャンネル信号のペアに基づいて、共通要素を決定し、前記共通要素に対応する所望の位置を推定し、前記共通要素の貢献が、前記推定された所望の位置に関連付られる手段と、
− 前記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対して、前記入力チャンネル信号のペアにおける2つの入力チャンネル信号に対応する2つの残余の要素を決定する処理手段であって、前記決定が、前記入力チャンネル信号のペアに基づかれ、前記残余の要素の各々は、前記共通要素の貢献を減算することにより対応する入力チャンネル信号から得られる処理手段と、
− 前記推定された所望の位置で前記共通要素を有する主仮想源と、それぞれが個別の所定の位置で前記残余の要素の個別の1つを有する2つの追加的な仮想源とを合成する合成手段とを有する、ヘッドホン再生システム。
【請求項24】
前記ヘッドホン再生システムが、前記推定された所望の位置に対応する知覚位置を修正する修正手段を更に有し、前記修正手段は、前記処理手段及び前記合成手段に動作可能に結合される、請求項23に記載のヘッドホン再生システム。
【請求項25】
前記修正手段が、前記推定された所望の位置に対応する前記知覚位置の前記修正を実行するのに使用される頭部追跡データを得るため、頭部追跡部に動作可能に結合される、請求項24に記載のヘッドホン再生システム。
【請求項26】
前記処理手段に供給される前に前記入力チャンネル信号が、周波数領域へと変換され、前記合成手段の出力は、逆演算を用いて時間領域へと変換される、請求項23に記載のヘッドホン再生システム。
【請求項27】
請求項1乃至22のいずれかに記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、少なくとも2つの入力チャンネル信号のヘッドホン再生のための方法に関する。更に、本発明は、少なくとも2つの入力チャンネル信号の再生のためのヘッドホン再生システム、及びヘッドホン再生のための上記方法を実行するコンピュータプログラムに関する。
【背景技術】
【0002】
最も人気のあるラウドスピーカ再生システムは、所定の位置にある2つのラウドスピーカを用いる2チャンネル立体音響に基づかれる。ユーザがスイートスポットに位置する場合、振幅パニングと呼ばれる技術が、2つのラウドスピーカの間にファントム音源を配置する。しかしながら、実現可能なファントム音源の領域はかなり制限される。基本的に、ファントム音源は、2つのラウドスピーカの間の経路にのみ配置されることができる。S. P. Lipshitzによる「Stereo microphone techniques; are the purists wrong?」、J. Audio Eng. Soc、34:716-744、1986に示されるように、2つのラウドスピーカの間の角度の上限は、約60度である。それゆえに、結果として生じる正面の像は、幅の観点から制限される。更に、振幅パニングが正確に機能するためには、リスナーの位置が非常に限定される。スイートスポットは通常、特に左右方向において非常に小さい。リスナーがスイートスポットの外に移動するとすぐに、パニング技術は失敗し、音源は、最も近いラウドスピーカの位置にあると知覚される。H. A. M. Clark、G. F. Dutton、及びP. B. Vanderlynによる「The 'Stereosonic' recording and reproduction system: A two-channel systems for domestic tape records」、J. Audio Engineering Society、6:102-1 17、1958を参照されたい。更に、上記の再生システムは、リスナーの方向を制限する。頭又は体の回転が原因で、両方のスピーカが中央サジタル(midsaggital)平面の両側に対称的に配置されるものではない場合、ファントム音源の知覚位置は、間違っている又は曖昧になる。G.Theile及びG.Plengeによる「Localization of lateral phantom sources」、J.Audio Engineering Society、25:196-200、1977を参照されたい。既知のラウドスピーカ再生システムの更に別の不利な点は、振幅パニングによりスペクトル呈色がもたらされる点にある。V.Pulkki、V.Karjalainen及びM.Valimakiによる「Coloration, and Enhancement of Amplitude-Panned Virtual Sources」、in Proc.、16th AES Conference、1999において述べられるように、両耳に対する異なる経路長差及び結果として生じる櫛形フィルタ効果が原因で、ファントム音源は、所望の位置にある現実の音源と比較して顕著なスペクトル変形に苦しむ場合がある。振幅パニングの別の不利な点は、ファントム音源から生じる音源ローカライゼーション・キューが、特に中央及び高周波数範囲において、所望の位置にある音源に対応するローカライゼーション・キューの粗い近似にすぎないという事実にある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ラウドスピーカ再生と比較して、ヘッドホンを介して再生されるステレオ音声コンテンツは、頭の内部で知覚される。特定の音源から耳への音響経路の効果がないことにより、不自然に聞こえる空間像がもたらされる。音響経路の欠如を克服するために仮想的なスピーカの固定セットを使用するヘッドホン音声再生は、上記のラウドスピーカ再生システムのような一組の固定ラウドスピーカにより本質的にもたらされる欠点に苦しむ。欠点の1つは、ローカライゼーション・キューが、所望の位置にある音源の実際のローカライゼーション・キューの粗い近似である点にあり、これが、劣化された空間像を生じさせる。別の欠点は、振幅パニングが左右方向においてのみ機能し、任意の他の方向において機能しない点にある。
【0004】
本発明の目的は、仮想的なスピーカの固定セットに関する不利な点を軽減するヘッドホン再生のための強化された方法を提供することである。
【課題を解決するための手段】
【0005】
上記目的は、少なくとも2つの入力チャンネル信号のヘッドホン再生に関する方法により実現され、この方法は、上記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対する以下のステップを有する。まず、共通要素、上記共通要素に対応する推定された所望の位置、及び入力チャンネル信号の上記ペアにおける2つの入力チャンネル信号に対応する2つの残余の要素が、決定される。上記決定ステップは、上記入力チャンネル信号のペアに基づかれる。上記残余の要素の各々は、共通要素の貢献を減算することにより、その対応する入力チャンネル信号から得られる。上記貢献は、共通要素の推定された所望の位置に関連付けられる。次に、推定された所望の位置で上記共通要素を有する主仮想源と、それぞれが個別の所定の位置で上記残余の要素の個別の1つを有する2つの追加的な仮想源とが、合成される。
【0006】
これは、例えば5つの入力チャンネル信号に対するすべての可能なペアの組合せに関して、共通要素及び2つの残余の要素の上記合成ステップが実行されることを意味する。上記5つの入力チャンネル信号に対して、これは、可能性として10ペアの入力チャンネル信号を生じさせる。すると、上記5つの入力チャンネル信号に対応する結果として生じる全体の音響シーンは、上記5つの入力チャンネル信号から形成される入力チャンネル信号のすべてのペアから生じる共通及び残余の要素のすべての貢献の重ね合せにより得られる。
【0007】
本発明により提案される方法を用いると、固定位置にある、例えば標準的なステレオラウドスピーカ・セットアップに基づかれる+/−30度方位角にある2つの仮想的なラウドスピーカによりつくられるファントム音源が、所望の位置にある仮想源により置き換えられる。ヘッドホン再生に関して提案される方法の利点は、頭の回転が含まれる場合であっても、又はフロント/サラウンドパニングが使用される場合であっても、空間像が改善される点にある。より詳細には、提案される方法は、リスナーが音響シーンに仮想的に配置される没入的な経験を提供する。更に、強制的な3D音声経験のためには頭部追跡が不可欠であることはよく知られている。提案されたソリューションを用いると、頭が回転しても仮想的なスピーカが位置を変化させることがない。こうして、空間像は正しいままにされる。
【0008】
ある実施形態において、上記ペアの入力チャンネル信号に対する共通要素の貢献は、左として知覚される入力チャンネル信号に対する推定された所望の位置のコサイン項及び右として知覚される入力チャンネルに対する推定された所望の位置のサイン項で表現される。これに基づき、ペアに関係しており、上記ペアにおける左右の入力チャンネルとして知覚される入力チャンネル信号は、
と分解される。ここで、L[k]及びR[k]は、それぞれ上記ペアにおいて左及び右として知覚される入力チャンネル信号であり、S[k]は、左及び右として知覚される入力チャンネル信号に対する共通要素であり、D[k]は、左として知覚される入力チャンネル信号に対応する残余の要素であり、D[k]は、右として知覚される入力チャンネル信号に対応する残余の要素であり、
は、共通要素に対応する推定された所望の位置である。
【0009】
「左として知覚される」及び「右として知覚される」という用語は、簡単化のため明細書の残りの部分においては、「左」及び「右」と置き換えられる。この文脈における「左」及び「右」という用語が、少なくとも2つの入力チャンネル信号からの、ペアに関係する2つの入力チャンネル信号を参照する点、及びヘッドホン再生方法により再生される入力チャンネル信号の数をいかなる態様でも限定していない点に留意されたい。
【0010】
上記の分解は、共通要素を提供する。この共通要素は、古典的ラウドスピーカ・システムにおいて振幅パニング技術を用いて得られるファントム音源の推定である。コサイン及びサイン要素は、単一の角度を用いて左右の入力チャンネル信号の両方の信号に対する共通要素の貢献を表す手段を提供する。上記角度は、共通源の知覚位置に密接に関連する。振幅パニングはほとんどの場合いわゆる3dBのルールに基づかれる。これは、左右の入力チャンネルにおける共通信号の比率が何であれ、共通要素の全出力が変更されないままであるべきであることを意味する。同じ角度のサイン及びコサインの二乗和は常に1であるので、この特性はコサイン及びサイン項を用いることにより自動的に保証される。
【0011】
更なる実施形態において、共通要素及び対応する残余の要素は、上記共通要素が決定される入力チャンネル信号間の相関に依存する。共通要素を推定するとき、推定プロセスにおいて非常に重要な変数は、左右のチャンネル間の相関である。相関は、共通要素の強さ(従ってパワー)に直接関連する。相関が低い場合、共通要素のパワーも低い。相関が高い場合、共通要素のパワーは、残余の要素に比べて高い。言い換えると、相関は、左右の入力チャンネル信号ペアにおける共通要素の貢献に関するインジケータである。共通要素及び残余の要素が推定されなければならない場合、共通要素又は残余の要素が入力チャンネル信号において支配的であるかを知ることが有利である。
【0012】
更なる実施形態において、共通要素及び対応する残余の要素は、対応する入力チャンネル信号のパワーパラメタに依存する。推定プロセスに関する尺度としてパワーを選択することは、共通要素及び残余の要素のより正確で信頼性が高い推定を可能にする。入力チャンネル信号の1つ、例えば左入力チャンネル信号に対するパワーがゼロである場合、これは、その信号に関して残余及び共通要素がゼロであることを自動的に意味する。これは、他の入力チャンネル信号においてのみ共通要素が存在することも意味し、従って、右の入力チャンネル信号がかなりのパワーを持つことを意味する。更に、左の残余の要素及び右の残余の要素がパワーにおいて等しい場合(例えば、それらが逆の符号を持つ以外同じ信号である場合)、左の入力チャンネル信号のパワーがゼロに等しいことは、左の残余の要素のパワーと右の残余の要素のパワーとが共にゼロであることを意味する。これは、右の入力チャンネル信号が実際に共通要素であることを意味する。
【0013】
更なる実施形態では、共通要素に対応する推定された所望の位置は、上記共通要素が決定される入力チャンネル信号間の相関に依存する。相関が高い場合、共通要素の貢献も高い。これは、左右の入力チャンネル信号のパワーと共通要素の位置との間に緊密な関係があることも意味する。一方、相関が低い場合、これは、共通要素が比較的弱い(即ち低パワーである)ことを意味する。これは、左右の入力チャンネル信号のパワーが、共通要素のパワーではなく、残余の要素のパワーにより支配的に決定されることも意味する。こうして共通要素の位置を推定するために、共通要素が支配的かどうかを知ることが有利であり、これは相関により反映される。
【0014】
更なる実施形態において、共通要素に対応する推定された所望の位置は、対応する入力チャンネル信号のパワーパラメタに依存する。残余の要素がゼロである場合、左右の入力チャンネル信号の相対的なパワーが、共通要素に対応する主仮想源の角度に直接関連する。従って、主仮想源の位置は、左右の入力チャンネル信号における(相対的な)パワーに強く依存する。一方、共通要素が残余の要素と比較して非常に小さい場合、左右の入力チャンネル信号のパワーは残余の信号により支配され、その場合、左右の入力チャンネル信号から共通要素の所望の位置を推定することは、あまり直接的でない。
【0015】
更なる実施形態において、入力チャンネル信号のペアに対する上記パワーパラメタは、左チャンネル・パワーP、右チャンネル・パワーP及び相互パワーPを有する。
【0016】
更なる実施形態において、共通要素に対応する推定された所望の位置
は、
として得られる。ここで
である。
【0017】
共通要素に対応する推定された信号のパワーを最大化することにこの派生式が対応することが、示されることができる。共通要素の推定プロセス及び共通要素のパワーの最大化(これはまた、残余の要素のパワーの最小化を意味する)に関する更なる情報は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に与えられる。共通要素に対応する推定された信号のパワーを最大化することが望ましい。なぜなら、対応する信号に関して、正確なローカライゼーション情報が利用可能だからである。極端な場合、共通要素がゼロであるとき、残余の要素は元の入力信号に等しく、処理は何の影響も与えないことになる。従って上記の方法の最大の効果を得るには、共通要素のパワーを最大化し、残余の要素のパワーを最小化することが有益である。
【0018】
更なる実施形態では、推定された所望の位置は、2つの仮想的なスピーカ位置に対応する2つの所定の位置の間の空間位置を表し、これにより、範囲
度は、知覚される位置角度に関して、範囲r=−30...30度にマッピングされる。前述の実施形態に示される推定された所望の位置
は、0〜90度の間で変化する。ここで、0〜90度に対応する位置はそれぞれ、左右のスピーカ位置に等しい。ヘッドホン再生システムによる現実的な音声再生のため、音声コンテンツを生み出すのに実際に使用されてきた範囲に対応する範囲へと推定された所望の位置の上記範囲をマッピングすることが望ましい。しかしながら、音声コンテンツを生み出すのに使用される正確なスピーカ位置は、利用可能ではない。ほとんどの音声コンテンツは、ITU標準(ITU−R推奨BS.775−1)により定められるラウドスピーカ・セットアップ上での再生、即ち、+30及び−30度角度でのスピーカ配置に対する再生のために作られる。従って、仮想源の元の位置の最良の推定は、知覚された場所である。しかし、ITU標準に準拠するラウドスピーカ・システムを介して音声が再生されるという仮定にたつ必要がある。上記のマッピングは、この目的のために機能する。即ち、推定された所望の位置をITU準拠の範囲へと持ってくる。
【0019】
更なる実施形態において、推定された所望の位置
に対応する知覚位置の角度rは、
に基づき得られる。
【0020】
このマッピングの利点は、これが、間隔[0...90]度から[−30...30]度への単純な線形マッピングである点にある。[−30...30]度の範囲への上記マッピングは、好適なITUラウドスピーカ・セットアップを仮定すると、仮想源の意図された位置の最良の推定を与える。
【0021】
更なる実施形態において、パワーパラメタは、周波数領域へと変換される入力チャンネル信号から得られる。多くの場合、音声コンテンツは、複数の同時音源を有する。上記複数の資源は、異なる周波数に対応する。従って、より良好な音像が、よりターゲット化された態様で音源を処理することが有利である。これは、周波数領域においてのみ可能である。音声コンテンツの空間特性を一層より詳細に再生するため、及びこうして全体の空間音声再生品質を改善するため、提案される方法をより小さい周波数帯に適用することが望ましい。多くの場合、特定の周波数帯において単一の音源が支配的であるならば、これはうまく機能する。周波数帯において1つの源が支配的である場合、共通要素及びその位置の推定は支配的な信号にのみ非常に似ており、その他の信号を捨ててしまう(上記他の信号は結局、残余の要素となる)。他の周波数帯においては、それらの自身の対応する位置を持つ他の源が支配的である。それゆえに、周波数領域において可能なさまざまなバンドにおける処理により、音源の再生に対する更なる制御が実現されることができる。
【0022】
更なる実施形態において、入力チャンネル信号は、フーリエベースの変換を用いて周波数領域へと変換される。この種の変換は、既知であり、1つ又は複数の周波数帯を作製するための複雑さの低い方法を提供する。
【0023】
更なる実施形態において、入力チャンネル信号は、フィルタバンクを用いて周波数領域へと変換される。適切なフィルタバンク方法は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に表される。これらの方法は、サブバンド周波数領域への変換を提供する。
【0024】
更なる実施形態において、パワーパラメタは、時間領域において表される入力チャンネル信号から得られる。音声コンテンツに存在する源の数が少ない場合、フーリエベースの変換又はフィルタバンクが適用されると計算労力が高い。従って時間領域においてパワーパラメタを得ることは、周波数領域においてパワーパラメタを得ることと比べて計算労力を節約する。
【0025】
更なる実施形態において、推定された所望の位置に対応する知覚位置rは、音響ステージの狭小化、拡張又は回転のいずれかを生じさせるよう修正される。拡張が特に興味深い。なぜなら、これは、ラウドスピーカの−30...+30度位置が原因によるラウドスピーカ・セットアップの60度限界を克服するからである。従って、これは、60度開口角度により制限される狭い音響ステージをリスナーに提供するのではなく、リスナーを囲む没入的な音響ステージを作るのに役立つ。更に、音響ステージの回転が興味深い。なぜなら、それは、ユーザの頭の回転から独立した固定(安定的で一定の)位置にある音源をヘッドホン再生システムのユーザが聞くことを可能にするからである。
【0026】
更なる実施形態において、推定された所望の位置rに対応する知覚位置rが、
として表される修正された知覚位置r'を生じさせるよう修正される。ここで、hは、音響ステージの回転に対応するオフセットである。
【0027】
源位置の角度表現は、頭の運動、特にリスナーの頭の方向の非常に簡単な一体化を容易にする。これは、音源が頭の方向から独立した、安定的で一定の位置を持つよう、源位置に対応する角度に対してオフセットを適用することにより実現される。斯かるオフセットの結果、より頭の外の(out-of-head)音源ローカライゼーション、改良された音源ローカライゼーション精度、フロント/バック混乱の減少、より没入的で自然なリスニング経験、という利点が実現される。
【0028】
更なる実施形態において、推定された所望の位置に対応する知覚位置は、
として表される修正された知覚位置を生じさせるよう修正される。ここで、cは、音響ステージの拡張又は狭小化に対応するスケール係数である。スケール化を使用することは、音響ステージを広げるための非常に簡単で更に効率的な方法である。
【0029】
更なる実施形態において、推定された所望の位置に対応する知覚位置は、ユーザプリファレンスに基づき修正される。あるユーザは、そのリスナーの周囲に位置する源を用いて完全に没入的な経験を望む(例えば、ユーザが音楽バンドのメンバーである場合)が、他のユーザは、正面のみから来るものとして(例えば、観衆として座っており距離を置いて聞くものとして)音響ステージを知覚したいと思うことが起こりうる。
【0030】
更なる実施形態では、推定された所望の位置に対応する知覚位置が、頭部追跡データに基づき修正される。
【0031】
更なる実施形態において、入力チャンネル信号は、時間/周波数タイルに分解される。周波数帯を使用することは有利である。なぜなら、より好適な音像を生じさせる、一層ターゲット化された態様で複数の音源が扱われるからである。時間分割の追加的な利点は、音源の支配性が通常、時間依存である点にある。例えばいくつかの源は、ある時間において静かである。周波数帯に加えて時間セグメントを使用することは、入力チャンネル信号に存在する個別の源の更に多くの制御を与える。
【0032】
更なる実施形態において、仮想源の合成は、頭関連の伝達関数(HRTF)を用いて実行される。HRTFを用いる合成は、仮想的な空間における源を位置決めする既知の方法である。HRTFに対するパラメトリック・アプローチは、処理を更に一層単純化することができる。HRTF処理に関する斯かるパラメトリック・アプローチは、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に記載される。
【0033】
更なる実施形態において、仮想源の合成は、各周波数帯に対して独立して実行される。周波数帯を使用することは有利である。なぜなら、複数の音源がより良好な音像を生じさせる、一層ターゲット化された態様で扱われるからである。帯域における処理の別の利点は、多くの場合(例えばフーリエベースの変換を用いるとき)、帯域に存在する音声サンプルの数が、入力チャンネル信号における音声サンプルの総数より少ないという観察に基づかれる。各帯域が他の周波数帯と独立して処理されるので、必要な総処理パワーは少ない。
【0034】
本発明は、更に、システムクレームと、プログラム可能なデバイスが本発明による方法を実行することを可能にするコンピュータプログラムとを提供する。
【図面の簡単な説明】
【0035】
図1】少なくとも2つの入力チャンネル信号のヘッドホン再生を図式的に示す図であり、共通要素に対応する主仮想源が、推定された所望の位置で合成され、残余の要素に対応する追加的な仮想源は、所定の位置で合成されることを示す図である。
図2】対応する推定された所望の位置での共通要素と残余の要素とを得る処理手段と、推定された所望の位置にある共通要素に対応する主仮想源と所定の位置にある残余の要素に対応する追加的な仮想源とを合成する合成手段とを有するヘッドホン再生システムの例を概略的に示す図である。
図3】推定された所望の位置に対応する知覚位置を修正する修正手段であって、上記処理手段及び上記合成手段に動作可能に結合される修正手段を更に有するヘッドホン再生システムの例を示す図である。
図4】処理手段に供給される前に入力チャンネル信号が周波数領域に変換され、合成手段の出力が逆演算を用いて時間領域へと変換されるヘッドホン再生システムの例を示す図である。
【発明を実施するための形態】
【0036】
本発明のこれら及び他の側面が、図面において図示される実施形態より明らかとなり、これらの実施形態を参照して説明されることになる。
【0037】
図面にわたり、同じ参照番号は、類似又は対応する特徴を示す。図面において示される特徴のいくつかは通常、ソフトウェアにおいて実現され、そのようなものとして例えばソフトウェア・モジュール又はオブジェクトといったソフトウェアエンティティを表す。
【0038】
図1は、少なくとも2つの入力チャンネル信号101のヘッドホン再生を概略的に示す。ここでは、共通要素に対する主仮想源120が、推定された所望の位置で合成され、残余の要素に対応する追加的な仮想源131、132は、所定の位置で合成される。ユーザ200は、主仮想源120並びに追加的な仮想源131及び132を有する音響シーンを再生するヘッドホンを身につける。
【0039】
少なくとも2つの入力チャンネル信号101のヘッドホン再生に関して提案される方法は、上記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対する以下のステップを有する。まず、共通要素、上記共通要素に対応する推定された所望の位置、及び入力チャンネル信号の上記ペアにおける2つの入力チャンネル信号に対応する2つの残余の要素が、決定される。上記決定ステップは、上記入力チャンネル信号のペアに基づかれる。上記残余の要素の各々は、共通要素の貢献を減算することにより、その対応する入力チャンネル信号から得られる。上記貢献は、共通要素の推定された所望の位置に関連付けられる。次に、推定された所望の位置で上記共通要素を有する主仮想源120と、それぞれが個別の所定の位置で上記残余の要素の個別の1つを有する2つの追加的な仮想源131及び132とが、合成される。
【0040】
図1では2つの入力チャンネル信号のみが示されるが、より多くの入力チャンネル信号、例えば5つの入力チャンネル信号が再生されることができることは明らかである。これは、上記5つの入力チャンネル信号に対するすべての可能なペアの組合せに関して、共通要素及び2つの残余の要素の上記合成ステップが実行されることを意味する。上記5つの入力チャンネル信号に対して、これは、可能性として10ペアの入力チャンネル信号を生じさせる。すると、上記5つの入力チャンネル信号に対応する結果として生じる全体の音響シーンは、上記5つの入力チャンネル信号から形成される入力チャンネル信号のすべてのペアから生じる共通及び残余の要素のすべての貢献の重ね合せにより得られる。
【0041】
実線104及び105は、仮想的な有線であり、これらの線は、残余の要素131及び132が所定の位置で合成されることを示す点に留意されたい。同じことが実線102にも当てはまり、この線は、共通要素が推定された所望の位置で合成されることを示す。
【0042】
本発明により提案される方法を用いると、固定位置での、例えば標準ステレオ・ラウドスピーカ・セットアップに基づかれる+/−30度方位角での2つの仮想的なラウドスピーカによりつくられるファントム音源が、所望の位置にある仮想源120により置き換えられる。ヘッドホン再生に関して提案される方法の利点は、頭の回転が含まれる場合であっても、又はフロント/サラウンドパニングが使用される場合であっても、空間像が改善される点にある。より詳細には、提案される方法は、リスナーが音響シーンに仮想的に配置される没入的な経験を提供する。更に、強制的な3D音声経験のためには頭部追跡が不可欠であることはよく知られている。提案されたソリューションを用いると、頭が回転しても仮想的なスピーカが位置を変化させることがない。こうして、空間像は正しいままにされる。
【0043】
ある実施形態において、上記ペアの入力チャンネル信号に対する共通要素の貢献は、左として知覚される入力チャンネル信号に対する推定された所望の位置のコサイン項及び右として知覚される入力チャンネルに対する推定された所望の位置のサイン項で表現される。これに基づき、ペアに関係しており、上記ペアにおける左右の入力チャンネルとして知覚される入力チャンネル信号101は、
と分解される。ここで、L[k]及びR[k]は、それぞれ左右の入力チャンネル信号101であり、S[k]は、左右の入力チャンネル信号に対する共通要素であり、D[k]は、左の入力チャンネル信号に対応する残余の要素であり、D[k]は、右の入力チャンネル信号に対応する残余の要素であり、
は、共通要素に対応する推定された所望の位置であり、
及び
は、上記ペアに関連する入力チャンネル信号に対する貢献である。
【0044】
上記の分解は、共通要素を提供する。この共通要素は、古典的ラウドスピーカ・システムにおいて振幅パニング技術を用いて得られるファントム音源の推定である。コサイン及びサイン要素は、単一の角度を用いて左右の入力チャンネル信号の両方に対する共通要素の貢献を表す手段を提供する。上記角度は、共通源の知覚位置に密接に関連する。振幅パニングはほとんどの場合いわゆる3dBのルールに基づかれる。これは、左右の入力チャンネルにおける共通信号の比率が何であれ、共通要素の全出力が変更されないままであるべきであることを意味する。同じ角度のサイン及びコサインの二乗和は常に1であるので、この特性はコサイン及びサイン項を用いることにより自動的に保証される。
【0045】
異なる値を持つことができるので、残余の要素D[k]及びD[k]は異なる態様でラベル付けされるが、上記残余の要素が同じ値であるよう選択されることもできる。これは、計算を単純化し、これらの残余の要素に関連付けられる環境を改善する。
【0046】
上記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対して、対応する推定された所望の位置を持つ共通要素及び残余の要素が決定される。すると、上記少なくとも2つの入力チャンネル信号に対応する全体の音響シーンは、入力チャンネル信号の上記ペアに対して得られる個別の共通及び残余の要素のすべての貢献の重ね合せにより得られる。
【0047】
ある実施形態において、共通要素及び対応する残余の要素は、上記共通要素が決定される入力チャンネル信号101間の相関に依存する。共通要素を推定するとき、推定プロセスにおいて非常に重要な変数は、左右のチャンネル間の相関である。相関は、共通要素の強さ(従ってパワー)に直接関連する。相関が低い場合、共通要素のパワーも低い。相関が高い場合、共通要素のパワーは、残余の要素に比べて高い。言い換えると、相関は、左右の入力チャンネル信号ペアにおける共通要素の貢献に関するインジケータである。共通要素及び残余の要素が推定されなければならない場合、共通要素又は残余の要素が入力チャンネル信号において支配的であるかを知ることが有利である。
【0048】
ある実施形態において、共通要素及び対応する残余の要素は、対応する入力チャンネル信号のパワーパラメタに依存する。推定プロセスに関する尺度としてパワーを選択することは、共通要素及び残余の要素のより正確で信頼性が高い推定を可能にする。入力チャンネル信号の1つ、例えば左入力チャンネル信号に対するパワーがゼロである場合、これは、その信号に関して残余及び共通要素がゼロであることを自動的に意味する。これは、他の入力チャンネル信号においてのみ共通要素が存在することも意味し、従って、右の入力チャンネル信号がかなりのパワーを持つことを意味する。更に、左の残余の要素及び右の残余の要素がパワーにおいて等しい場合(例えば、それらが逆の符号を持つ以外同じ信号である場合)、左の入力チャンネル信号のパワーがゼロに等しいことは、左の残余の要素のパワーと右の残余の要素のパワーとが共にゼロであることを意味する。これは、右の入力チャンネル信号が実際に共通要素であることを意味する。
【0049】
ある実施形態では、共通要素に対応する推定された所望の位置は、上記共通要素が決定される入力チャンネル信号間の相関に依存する。相関が高い場合、共通要素の貢献も高い。これは、左右の入力チャンネル信号のパワーと共通要素の位置との間に密接な関係があることも意味する。一方、相関が低い場合、これは、共通要素が比較的弱い(即ち低パワーである)ことを意味する。これは、左右の入力チャンネル信号のパワーが、共通要素のパワーではなく、残余の要素のパワーにより支配的に決定されることも意味する。こうして共通要素の位置を推定するために、共通要素が支配的かどうかを知ることが有利であり、これは相関により反映される。
【0050】
ある実施形態において、共通要素に対応する推定された所望の位置は、対応する入力チャンネル信号のパワーパラメタに依存する。残余の要素がゼロである場合、左右の入力チャンネル信号の相対的なパワーが、共通要素に対応する主仮想源の角度に直接関連する。従って、主仮想源の位置は、左右の入力チャンネル信号における(相対的な)パワーに強く依存する。一方、共通要素が残余の要素と比較して非常に小さい場合、左右の入力チャンネル信号のパワーは残余の信号により支配され、その場合、左右の入力チャンネル信号から共通要素の所望の位置を推定することは、あまり直接的でない。
【0051】
ある実施形態において、入力チャンネル信号のペアに対する上記パワーパラメタは、左チャンネル・パワーP、右チャンネル・パワーP及び相互パワーPを有する。
【0052】
ある実施形態において、共通要素に対応する推定された所望の位置
は、
として得られる。ここで
である。
【0053】
定義により、正規化された相互相関
は、
により与えられる。従って、角度
及びそれ故、推定された所望の位置
は、相互相関
に依存する。
【0054】
共通要素に対応する推定された信号のパワーを最大化することにこの派生式が対応することが、示されることができる。共通要素の推定プロセス及び共通要素のパワーの最大化(これはまた、残余の要素のパワーの最小化を意味する)に関する更なる情報は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に与えられる。共通要素に対応する推定された信号のパワーを最大化することが望ましい。なぜなら、対応する信号に関して、正確なローカライゼーション情報が利用可能だからである。極端な場合、共通要素がゼロであるとき、残余の要素は元の入力信号に等しく、処理は何の影響も与えないことになる。従って上記の方法の最大の効果を得るには、共通要素のパワーを最大化し、残余の要素のパワーを最小化することが有益である。従って、正確な位置は、本発明において用いられる共通要素に関しても利用可能である。
【0055】
ある実施形態では、推定された所望の位置は、2つの仮想的なスピーカ位置に対応する2つの所定の位置の間の空間位置を表し、これにより、範囲
度は、知覚位置の角度に関して、範囲r=−30...30度にマッピングされる。前述の実施形態に示される推定された所望の位置
は、0〜90度の間で変化する。これにより、0〜90度に対応する位置はそれぞれ、左右のスピーカ位置に等しい。ヘッドホン再生システムによる現実的な音声再生のため、音声コンテンツを生み出すのに実際に使用されてきた範囲に対応する範囲へと推定された所望の位置の上記範囲をマッピングすることが望ましい。しかしながら、音声コンテンツを生み出すのに使用される正確なスピーカ位置は、利用可能ではない。ほとんどの音声コンテンツは、ITU標準(ITU−R推奨BS.775−1)により定められるラウドスピーカ・セットアップ上での再生、即ち、+30及び−30度角度でのスピーカ配置に対する再生のために作られる。従って、仮想源の元の位置の最良の推定は、知覚された場所である。しかし、ITU標準に準拠するラウドスピーカ・システムを介して音声が再生されるという仮定にたつ必要がある。上記のマッピングは、この目的のために機能する。即ち、推定された所望の位置をITU準拠の範囲へと持ってくる。
【0056】
ある実施形態において、推定された所望の位置に対応する知覚位置の角度は、
に基づき得られる。このマッピングの利点は、これが、間隔[0...90]度から[−30...30]度への単純な線形マッピングである点にある。[−30...30]度の範囲への上記マッピングは、好適なITUラウドスピーカ・セットアップを仮定すると、仮想源の意図された位置の最良の推定を与える。
【0057】
ある実施形態において、パワーパラメタは、周波数領域へと変換される入力チャンネル信号から得られる。
【0058】
ステレオ入力信号は、それぞれ左右のチャンネルに対応する2つの入力チャンネル信号l[n]及びr[n]を有し、nは、時間領域におけるサンプル番号である。周波数領域へと変換される入力チャンネル信号からパワーパラメタがどのように得られるかを説明するため、時間/周波数タイルにおける左右の入力チャンネル信号の分解が使用される。上記分解は必須ではないが、説明には都合がよい。この分解は、ウインドウ化、及び例えば、フーリエベースの変換を用いて実現される。フーリエベースの変換の例は、例えばFFTである。フーリエベースの変換の代替例として、フィルタバンクが使用されることができる。長さNのウインドウ関数w[n]が、1つのフレームmを得るために、入力チャンネル信号上に重畳される。即ち
である。
【0059】
その後、フレーム化された左右の入力チャンネル信号が、FFTを用いて周波数領域に変換される。即ち
である。
【0060】
結果として生じる(インデックスkを持つ)FFTビンは、パラメータ帯bにグループ化される。
【0061】
通常、20〜40のパラメータ帯が、形成される。このバンドに関して、FFTインデックスkの量は、高パラメータ帯に対してよりも低パラメータ帯に対しての方が少ない(即ち、周波数解像能は、パラメータ帯インデックスbと共に減少する)。
【0062】
その後、各パラメータ帯bにおけるパワーP[b]、P[b]及びP[b]が、
として算出される。
【0063】
パワーパラメタが各周波数帯に対して別々に得られるが、これに限定されるものではない。(全ての周波数範囲を有する)1つの帯域だけを使用することは、帯域における分解が実際には使用されないことを意味する。更に、パーセバルの定理に基づき、時間又は周波数領域表現から生じるパワー及び相互パワー推定は、その場合同一である。更に、ウインドウ長を無限に固定することは、時間分解又は分割が実際には使用されないことを意味する。
【0064】
多くの場合、音声コンテンツは、複数の同時音源を有する。上記複数の音源(resource)は、異なる周波数に対応する。従って、より良好な音像が、よりターゲット化された態様で音源を処理することが有利である。これは、周波数領域においてのみ可能である。音声コンテンツの空間特性をより詳細に再生するため、及びこうして全体の空間音再生品質を改善するため、提案される方法をより小さい周波数帯に適用することが望ましい。多くの場合、特定の周波数帯において単一の音源が支配的であるならば、これはうまく機能する。周波数帯において1つの源が支配的である場合、共通要素及びその位置の推定は支配的な信号にのみ非常に似ており、その他の信号を捨ててしまう(上記他の信号は結局、残余の要素となる)。他の周波数帯においては、それらの自身の対応する位置を持つ他の源が支配的である。それゆえに、周波数領域において可能なさまざまな帯域における処理により、音源の再生に対する更なる制御が実現されることができる。
【0065】
ある実施形態において、入力チャンネル信号は、フーリエベースの変換を用いて周波数領域へと変換される。この種の変換は、既知であり、1つ又は複数の周波数帯を作製するための複雑さの低い方法を提供する。
【0066】
ある実施形態において、入力チャンネル信号は、フィルタバンクを用いて周波数領域へと変換される。適切なフィルタバンク方法は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007に表される。これらの方法は、サブバンド周波数領域への変換を提供する。
【0067】
ある実施形態において、パワーパラメタは、時間領域において表される入力チャンネル信号から得られる。すると入力信号の特定のセグメント(n=0...N)に対するパワーP、P及びP、が
として表される。
【0068】
時間領域におけるパワー計算を実行する利点は、音声コンテンツに存在する源の数が少ない場合、フーリエベースの変換又はフィルタバンクと比較して計算労力が比較的低いということである。すると時間領域においてパワーパラメタを得ることは、計算労力を節約する。
【0069】
ある実施形態において、推定された所望の位置に対応する知覚位置rは、音響ステージの狭小化、拡張又は回転のいずれかを生じさせるよう修正される。拡張が特に興味深い。なぜなら、これは、ラウドスピーカの−30...+30度位置が原因によるラウドスピーカ・セットアップの60度限界を克服するからである。従って、これは、60度開口角度により制限される狭い音響ステージをリスナーに提供するのではなく、リスナーを囲む没入的な音響ステージを作るのに役立つ。更に、音響ステージの回転が興味深い。なぜなら、それは、ユーザの頭の回転から独立した固定(安定的で一定の)位置にある音源をヘッドホン再生システムのユーザが聞くことを可能にするからである。
【0070】
ある実施形態において、推定された所望の位置に対応する知覚位置rが、
として表される修正された知覚位置を生じさせるよう修正される。ここで、hは、音響ステージの回転に対応するオフセットである。源位置の角度表現は、頭の運動、特にリスナー頭の方向の非常に簡単な一体化を容易にする。これは、音源が頭の方向から独立した、安定的で一定の位置を持つよう、源位置に対応する角度に対してオフセットを適用することにより実現される。斯かるオフセットの結果、より頭の外の(out-of-head)音源ローカライゼーション、改良された音源ローカライゼーション精度、フロント/バック混乱の減少、より没入的で自然なリスニング経験、という利点が実現される。
【0071】
ある実施形態において、推定された所望の位置に対応する知覚位置は、
として表される修正された知覚位置r'を生じさせるよう修正される。ここで、cは、音響ステージの拡張又は狭小化に対応するスケール係数である。スケール化を使用することは、音響ステージを広げるための非常に簡単で更に効率的な方法である。
【0072】
ある実施形態において、推定された所望の位置に対応する知覚位置は、ユーザプリファレンスに基づき修正される。あるユーザは、そのリスナーの周囲に位置する源を用いて完全に没入的な経験を望む(例えば、ユーザが音楽バンドのメンバーである場合)が、他のユーザは、正面のみから来るものとして(例えば、観衆として座っており距離を置いて聞くものとして)音響ステージを知覚したいと思うことが起こりうる。
【0073】
ある実施形態では、推定された所望の位置に対応する知覚位置が、頭部追跡データに基づき修正される。
【0074】
ある実施形態において、入力チャンネル信号は、時間/周波数タイルに分解される。周波数帯を使用することは有利である。なぜなら、より好適な音像を生じさせる、一層ターゲット化された態様で複数の音源が扱われるからである。時間分割の追加的な利点は、音源の支配性が通常、時間依存である点にある。例えばいくつかの源は、ある時間において静かであり、再度活動しだすということができる。周波数帯に加えて時間セグメントを使用することは、入力チャンネル信号に存在する個別の源の更に多くの制御を与える。
【0075】
ある実施形態において、仮想源の合成は、頭関連の伝達関数又はHRTF(F.L.Wightman及びD.J.Kistler.による「Headphone simulation of free-field listening」、I. Stimulus synthesis. J. Acoust. Soc. AM.、85:858-867、1989)を用いて実行される。空間合成ステップは、所望の音源位置r'[b]での仮想的な音源として、共通要素S[k]の生成を有する(周波数領域における計算が想定される)。r'[b]の周波数依存性を考えると、これは、各周波数帯に関して独立して実行される。従って、周波数帯bに対する出力信号L'[k]、R'[k]は、
により与えられる。ここで、
は、空間位置
での左耳に対するHRTFのFFTインデックスkであり、インデックスL及びRはそれぞれ、左右の耳に対処する。角度
は、環境の所望の空間位置を表し、これは例えば、+及び−90度とすることができ、同様に頭部追跡情報に依存することができる。好ましくは、HRTFは、パラメトリック形式で、即ち、各周波数帯b内の各耳に対する一定の複素値として表される。即ち
である。ここで、p[b]は、パラメータ帯bにおける左耳HRTFの平均大きさ値であり、p[b]は、パラメータ帯bにおける右耳HRTFの平均大きさ値であり、
は、周波数帯bにおけるp[b]及びp[b]の間の平均位相差である。パラメトリック領域におけるHRTF処理の詳細な説明は、Breebaart, J.、Faller, C.による「Spatial audio processing: MPEG Surround and other applications」、Wiley、2007より知られる。
【0076】
上記の合成ステップは周波数領域における信号に関して説明されたが、この合成は、頭部関連インパルス応答の畳み込みにより時間領域で行われることもできる。最終的に、周波数領域の出力信号L'[k]、R'[k]は、例えば逆FFT又は逆フィルタバンクを用いて時間領域へと変換され、両耳用の出力信号を生じさせるためにオーバラップ・追加(overlap-add)により処理される。分析ウインドウw[n]に基づき、対応する合成ウインドウが必要とされる場合がある。
【0077】
ある実施形態において、仮想源の合成は、各周波数帯に対して独立して実行される。周波数帯を使用することは有利である。なぜなら、複数の音源が、より良好な音像を生じさせる一層ターゲット化された態様で扱われるからである。帯域における処理の別の利点は、多くの場合(例えばフーリエベースの変換を用いるとき)、帯域に存在する音声サンプルの数が、入力チャンネル信号における音声サンプルの総数より少ないという観察に基づかれる。各帯域が他の周波数帯と独立して処理されるので、必要な総処理パワーは少ない。
【0078】
図2は、対応する推定された所望の位置での共通要素と残余の要素とを得る処理手段310と、推定された所望の位置にある共通要素に対応する主仮想源と所定の位置にある残余の要素に対応する追加的な仮想源とを合成する合成手段400とを有するヘッドホン再生システム500の例を概略的に示す。
【0079】
処理手段310は、上記少なくとも2つの入力チャンネル信号101からの入力チャンネル信号のペアに関する共通要素と、上記共通要素に対応する推定された所望の位置とを得る。上記共通要素は、上記少なくとも2つの入力チャンネル信号101の上記ペアの共通部分である。上記処理手段310は、上記ペアにおける各入力チャンネル信号に対する残余の要素を更に得る。これにより、上記残余の要素の各々が、共通要素の貢献を減算することにより、その対応する入力チャンネル信号から得られる。上記貢献は、推定された所望の位置に関連付けられる。301により示される得られた共通要素及び残余の要素と、302により示される推定された所望の位置とが、合成手段400に通信される。
【0080】
合成手段400は、上記少なくとも2つの入力チャンネル信号からの入力チャンネル信号の各ペアに対して、推定された所望の位置での上記共通要素を有する主仮想源と、それぞれが個別の所定の位置での上記残余の要素の個別の1つを有する2つの追加的な仮想源とを合成する。上記合成手段は、頭関連の伝達関数(=HRTF)データベース420を有する。これは、推定された所望の位置302に基づき、推定された所望の位置に対応するHRTFと所定の位置に対するHRTFとを用いて適切な入力を処理ユニット410に提供する。この処理ユニットは、共通要素及び処理手段310から得られる残余の要素301から両耳用の出力を生成するため、HRTFを適用する。
【0081】
図3は、推定された所望の位置に対応する知覚位置を修正する修正手段430であって、上記処理手段310及び上記合成手段400に動作可能に結合される修正手段を更に有するヘッドホン再生システムの例を示す。上記手段430は、共通要素に対応する推定された所望の位置と所望の修正に関する入力とを受信する。上記所望の修正は例えば、リスナーの位置又はその頭位置に関連付けられる。代替的に、上記修正は、所望の音響ステージの修正に関連する。上記修正の効果は、音響シーンの回転又は拡張(又は狭小化)である。
【0082】
ある実施形態において、修正手段は、推定された所望の位置に対応する知覚位置の修正を実行するのに使用される頭部追跡データを得るため、頭部追跡部に動作可能に結合される。これは、修正手段430が、頭運動に関する正確なデータを受信し、こうして上記運動に正確に適合することを可能にする。
【0083】
図4は、処理手段310に供給される前に入力チャンネル信号が周波数領域に変換され、合成手段400の出力が逆演算を用いて時間領域へと変換されるヘッドホン再生システムの例を示す。これによる結果は、仮想源の合成が各周波数帯に対して独立して実行されるということである。図3に示される再生システムは、処理手段310の前段のユニット320及び処理ユニット400の後段のユニット440により拡張される。上記ユニット320は、入力チャンネル信号の周波数領域への変換を実行する。上記変換は、例えばフィルタバンク又はFFTを用いて実現される。他の時間/周波数変換が、使用されることもできる。ユニット440は、ユニット310により実行される処理の逆演算を実行する。
【0084】
上述された実施形態は本発明を説明するものであって限定するものではなく、当業者であれば、添付された請求項の範囲から逸脱することなく、他の多くの実施形態をデザインすることができることになる点に留意されたい。
【0085】
請求項において、括弧内に配置されるいかなる参照符号も請求項を限定するものとして解釈されるべきではない。「有する」という語は、請求項に記載される以外の要素又はステップの存在を除外するものではない。ある要素に先行する「a」又は「an」という語は、斯かる要素が複数存在することを除外するものではない。本発明は、複数の個別の要素を有するハードウェアを用いて、及び適切にプログラムされたコンピュータを用いて実現されることができる。
図1
図2
図3
図4