特許第6803916号(P6803916)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許6803916エレベーション・レンダリングを実現するフィルタリング済みオーディオ信号を生成する装置および方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6803916
(24)【登録日】2020年12月3日
(45)【発行日】2020年12月23日
(54)【発明の名称】エレベーション・レンダリングを実現するフィルタリング済みオーディオ信号を生成する装置および方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20201214BHJP
   G10K 15/00 20060101ALI20201214BHJP
   H04S 1/00 20060101ALI20201214BHJP
【FI】
   H04S7/00 300
   G10K15/00 L
   H04S1/00 500
【請求項の数】22
【全頁数】65
(21)【出願番号】特願2018-540216(P2018-540216)
(86)(22)【出願日】2016年10月25日
(65)【公表番号】特表2019-500823(P2019-500823A)
(43)【公表日】2019年1月10日
(86)【国際出願番号】EP2016075691
(87)【国際公開番号】WO2017072118
(87)【国際公開日】20170504
【審査請求日】2018年6月7日
(31)【優先権主張番号】15191542.8
(32)【優先日】2015年10月26日
(33)【優先権主張国】EP
【前置審査】
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】カラペティアン,アレクサンドル
(72)【発明者】
【氏名】プロクティース,ヤン
(72)【発明者】
【氏名】フライシュマン,フェリックス
【審査官】 堀 洋介
(56)【参考文献】
【文献】 特表2010−520671(JP,A)
【文献】 特開2003−102099(JP,A)
【文献】 特開平07−241000(JP,A)
【文献】 特開平07−231500(JP,A)
【文献】 特開2005−109914(JP,A)
【文献】 特開平09−224300(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
G10K 15/00
H04S 1/00
(57)【特許請求の範囲】
【請求項1】
オーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置(100)であって、前記装置(100)は、
入力高さ情報に依存してフィルタ情報を決定するよう構成されたフィルタ情報決定部(110)であって、前記入力高さ情報は仮想音源(492)の高さに依存している、フィルタ情報決定部(110)と、
前記フィルタ情報に依存して前記オーディオ入力信号をフィルタリングし、前記フィルタリング済みオーディオ信号を取得するよう構成された、フィルタユニット(120)と、を備え、
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して、複数のフィルタ曲線から1つの選択フィルタ曲線を選択することを使用して、前記フィルタ情報を決定するよう構成されるか、又は前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して、基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを使用して、前記フィルタ情報を決定するよう構成され、
前記フィルタユニット(120)が前記オーディオ入力信号の第1スペクトル部分を修正し、かつ前記フィルタユニット(120)が前記オーディオ入力信号の第2スペクトル部分を修正しないように、前記フィルタ情報決定部(110)は前記フィルタ情報を決定するよう構成されるか、又は前記フィルタユニット(120)が前記オーディオ入力信号の第1スペクトル部分を第1増幅値によって増幅し、かつ前記フィルタユニット(120)が前記オーディオ入力信号の第2スペクトル部分を第2増幅値によって増幅するように、前記フィルタ情報決定部(110)は前記フィルタ情報を決定するよう構成され、前記第1増幅値は前記第2増幅値と異なる、
装置(100)。
【請求項2】
前記入力高さ情報は、座標系の1つの座標の少なくとも1つの座標値を示し、前記座標は前記仮想音源の位置を示している、請求項に記載の装置(100)。
【請求項3】
前記座標系は3次元デカルト座標系であり、前記入力高さ情報は前記3次元デカルト座標系の1つの座標、若しくは前記3次元デカルト座標系の前記座標の3つの座標値の1つの座標値であり、又は
前記座標系は極座標系であり、前記入力高さ情報は前記極座標系の1つの極座標の仰角である、
請求項に記載の装置(100)。
【請求項4】
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して、前記複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、前記フィルタ情報を決定するよう構成され、
前記入力高さ情報は、入力座標値である、前記3次元デカルト座標系の前記座標の3つの座標値の前記座標値であり、前記複数のフィルタ曲線の各フィルタ曲線は当該フィルタ曲線に割り当てられた座標値を有し、前記フィルタ情報決定部(110)は、前記複数のフィルタ曲線から前記選択フィルタ曲線として1つのフィルタ曲線を選択するよう構成され、そのフィルタ曲線は、全ての複数のフィルタ曲線の中で、前記入力座標値と当該フィルタ曲線に割当てられている座標値との間に最小の絶対値差を有するか、又は
前記入力高さ情報は、入力仰角である仰角であり、前記複数のフィルタ曲線の各フィルタ曲線は当該フィルタ曲線に割り当てられた仰角を有し、前記フィルタ情報決定部(110)は、前記複数のフィルタ曲線から前記選択フィルタ曲線として1つのフィルタ曲線を選択するよう構成され、そのフィルタ曲線は、全ての複数のフィルタ曲線の中で、前記入力仰角と前記フィルタ曲線に割当てられている仰角との間に最小の絶対値差を有する、
請求項に記載の装置(100)。
【請求項5】
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線を決定された増幅値によって増幅し、処理済みフィルタ曲線を取得するよう構成され、又は前記フィルタ情報決定部(110)は、前記選択フィルタ曲線を決定された減衰値によって減衰させ、前記処理済みフィルタ曲線を取得するよう構成され、
前記フィルタユニット(120)は、前記処理済みフィルタ曲線に依存して前記オーディオ入力信号をフィルタリングし、フィルタリング済みオーディオ信号を取得するよう構成され、
前記フィルタ情報決定部(110)は、前記入力座標値と前記選択フィルタ曲線に割当てられている座標値との差に依存して、前記決定された増幅値又は前記決定された減衰値を決定するよう構成されるか、又は前記フィルタ情報決定部(110)は、前記入力仰角と前記選択フィルタ曲線に割当てられている仰角との差に依存して、前記決定された増幅値又は前記決定された減衰値を決定するよう構成される、
請求項に記載の装置(100)。
【請求項6】
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して前記基準フィルタ曲線を修正することにより前記修正フィルタ曲線を決定することで、前記フィルタ情報を決定するよう構成され、
前記フィルタ情報決定部(110)は、前記基準フィルタ曲線を決定された増幅値によって増幅し、処理済みフィルタ曲線を取得するよう構成されるか、又は前記フィルタ情報決定部(110)は、前記基準フィルタ曲線を決定された減衰値によって減衰させ、処理済みフィルタ曲線を取得するよう構成される、
請求項1〜のいずれか1項に記載の装置(100)。
【請求項7】
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して複数のフィルタ曲線から前記選択フィルタ曲線を第1の選択フィルタ曲線として選択することを使用して、前記フィルタ情報を決定するよう構成され、
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して複数のフィルタ曲線から第2の選択フィルタ曲線を選択することを使用して、前記フィルタ情報を決定するよう構成され、かつ
前記フィルタ情報決定部(110)は、前記第1の選択フィルタ曲線と前記第2の選択フィルタ曲線との間を補間することにより、補間済みフィルタ曲線を決定するよう構成される、
請求項1〜のいずれか1項に記載の装置(100)。
【請求項8】
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して、複数のフィルタ曲線から前記選択フィルタ曲線を選択することを使用して、前記フィルタ情報を決定するよう構成され、前記複数のフィルタ曲線の各々は700Hzと2000Hzとの間に最大値又は最小値を有するか、又は
前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して、前記基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することで、前記フィルタ情報を決定するよう構成され、前記基準フィルタ曲線は700Hzと2000Hzとの間に最大値又は最小値を有する、
請求項1〜のいずれか1項に記載の装置(100)。
【請求項9】
前記フィルタ情報決定部(110)は、前記入力高さ情報と入力方位角情報とに依存してフィルタ情報を決定するよう構成され、
前記フィルタ情報決定部(110)は、前記入力高さ情報と前記入力方位角情報とに依存して、複数のフィルタ曲線から前記選択フィルタ曲線を選択することを使用して、前記フィルタ情報を決定するよう構成されるか、又は
前記フィルタ情報決定部(110)は、前記入力高さ情報と前記方位角情報とに依存して、基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することで、前記フィルタ情報を決定するよう構成される、
請求項1〜のいずれか1項に記載の装置(100)。
【請求項10】
前記フィルタユニット(120)は、前記フィルタ情報に依存して前記オーディオ入力信号をフィルタリングし、フィルタリング済みオーディオ信号として正に2つのオーディオチャネルを有する1つの両耳オーディオ信号を取得するよう構成され、
前記フィルタ情報決定部(110)は、入力頭部伝達関数に関する入力情報を受信するよう構成され、
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線又は前記修正フィルタ曲線に依存して前記入力頭部伝達関数を修正することにより修正頭部伝達関数を決定することで、前記フィルタ情報を決定するよう構成されている、
請求項1〜のいずれか1項に記載の装置(100)。
【請求項11】
前記入力頭部伝達関数はスペクトルドメインで表現され、
前記選択フィルタ曲線はスペクトルドメインで表現されるか、又は前記修正フィルタ曲線はスペクトルドメインで表現され、
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線もしくは前記修正フィルタ曲線のスペクトル値を前記入力頭部伝達関数のスペクトル値に加算することにより、前記修正頭部伝達関数を決定するよう構成されるか、又は
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線若しくは前記修正フィルタ曲線のスペクトル値と前記入力頭部伝達関数のスペクトル値とを乗算することにより、前記修正頭部伝達関数を決定するよう構成されるか、又は
前記フィルタ情報決定部(110)は、前記入力頭部伝達関数のスペクトル値から前記選択フィルタ曲線もしくは前記修正フィルタ曲線のスペクトル値を減算するか、又は前記選択フィルタ曲線もしくは前記修正フィルタ曲線のスペクトル値から前記入力頭部伝達関数のスペクトル値を減算することにより、前記修正頭部伝達関数を決定するよう構成されるか、又は
前記フィルタ情報決定部(110)は、前記入力頭部伝達関数のスペクトル値を前記選択フィルタ曲線もしくは前記修正フィルタ曲線のスペクトル値で除算するか、又は前記選択フィルタ曲線もしくは前記修正フィルタ曲線のスペクトル値を前記入力頭部伝達関数のスペクトル値で除算することにより、前記修正頭部伝達関数を決定するよう構成される、
請求項10に記載の装置(100)。
【請求項12】
前記入力頭部伝達関数は時間ドメインで表現され、
前記選択フィルタ曲線は時間ドメインで表現されるか、又は前記修正フィルタ曲線は時間ドメインで表現され、
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線もしくは前記修正フィルタ曲線と前記入力頭部伝達関数とを畳み込むことにより、前記修正頭部伝達関数を決定するよう構成されるか、又は
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線若しくは前記修正フィルタ曲線を非再帰型フィルタ構造でフィルタリングすることにより、前記修正頭部伝達関数を決定するよう構成されるか、又は
前記フィルタ情報決定部(110)は、前記選択フィルタ曲線若しくは前記修正フィルタ曲線を再帰型フィルタ構造でフィルタリングすることにより、前記修正頭部伝達関数を決定するよう構成される
請求項10に記載の装置(100)。
【請求項13】
オーディオ入力信号からフィルタリング済みオーディオ信号を生成する請求項10〜12のいずれか1項に記載の装置(100)と、
方向修正情報を提供する装置(200)と、を備えるシステム(300)であって、
前記方向修正情報を提供する装置(200)は、
複数のラウドスピーカ(211,212)であって、それらの各々が再生オーディオ信号を再生するよう構成され、前記複数のラウドスピーカ(211,212)の第1スピーカが第1高さの第1位置に配置され、前記複数のラウドスピーカ(211,212)の第2スピーカが第2高さの第2位置に配置され、前記第2高さは第1高さと異なり、かつ第2位置は第1位置とは異なる、ラウドスピーカ(211,212)と、
2個のマイクロホン(221,222)であって、それらの各々が前記複数のラウドスピーカ(211,212)の各ラウドスピーカから、前記オーディオ信号を再生する時に前記ラウドスピーカによって放射された音波を受信することにより、録音オーディオ信号を録音するよう構成された、マイクロホン(221,222)と、
前記複数のラウドスピーカ(211,212)の各ラウドスピーカについて、前記ラウドスピーカによって再生される前記再生オーディオ信号に依存し、かつ前記再生オーディオ信号が前記ラウドスピーカによって再生されたとき前記2個のマイクロホン(221,222)の各々によって録音される録音オーディオ信号の各々に依存して、1つの両耳室内インパルス応答を決定することにより、複数の両耳室内インパルス応答を決定するよう構成された両耳室内インパルス応答決定部(230)と、
前記複数の両耳室内インパルス応答の2つに依存して、少なくとも1つのフィルタ曲線を生成するよう構成された、フィルタ曲線生成部(240)と、を備え、
前記方向修正情報は前記少なくとも1つのフィルタ曲線に依存しており、
請求項10〜12のいずれか1項に記載の装置(100)の前記フィルタ情報決定部(110)は、入力高さ情報に依存して複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成されるか、又は、
請求項10〜12のいずれか1項に記載の装置(100)の前記フィルタ情報決定部(110)は、前記入力高さ情報に依存して基準フィルタ曲線を修正することにより修正フィルタ曲線を決定するよう構成され、
前記方向修正情報を提供する装置(200)によって提供される方向修正情報は、前記複数のフィルタ曲線又は前記基準フィルタ曲線を含む、
システム(300)。
【請求項14】
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記複数の両耳室内インパルス応答に依存して1つ以上の中間曲線を生成し、かつ前記1つ以上の中間曲線の各々を複数の異なる減衰値の各々によって増幅することによって、2つ以上のフィルタ曲線を取得するよう構成される、
請求項13に記載のシステム(300)。
【請求項15】
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記両耳室内インパルス応答の各々から1つの頭部伝達関数を抽出することにより、前記複数の両耳室内インパルス応答から複数の頭部伝達関数を決定するよう構成され、
前記複数の頭部伝達関数はスペクトルドメインで表現され、
前記複数の頭部伝達関数の各々に1つの高さ値が割り当てられ、
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は2つ以上のフィルタ曲線を生成するよう構成され、
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第1伝達関数のスペクトル値から前記複数の頭部伝達関数の第2伝達関数のスペクトル値を減算するか、又は前記複数の頭部伝達関数の第1伝達関数のスペクトル値を前記複数の頭部伝達関数の第2伝達関数のスペクトル値によって除算することにより、前記2つ以上のフィルタ曲線の各々を生成するよう構成され、
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第2伝達関数に割り当てられた高さ値から前記複数の頭部伝達関数の第1伝達関数に割り当てられた高さ値を減算することにより、前記2つ以上のフィルタ曲線の各々に1つの高さ値を割り当てるよう構成され、
前記方向修正情報は、前記2つ以上のフィルタ曲線の各々と当該フィルタ曲線に割り当てられた高さ値とを含む、
請求項13に記載のシステム(300)。
【請求項16】
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記両耳室内インパルス応答の各々から1つの頭部伝達関数を抽出することにより、前記複数の両耳室内インパルス応答から複数の頭部伝達関数を決定するよう構成され、
前記複数の頭部伝達関数はスペクトルドメインで表現され、
前記複数の頭部伝達関数の各々に1つの高さ値が割り当てられ、
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は唯一のフィルタ曲線を生成するよう構成され、
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第1伝達関数のスペクトル値から前記複数の頭部伝達関数の第2伝達関数のスペクトル値を減算するか、又は前記複数の頭部伝達関数の第1伝達関数のスペクトル値を前記複数の頭部伝達関数の第2伝達関数のスペクトル値によって除算することにより、前記唯一のフィルタ曲線を生成するよう構成され、
前記方向修正情報を提供する装置(200)のフィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第2伝達関数に割り当てられた高さ値から前記複数の頭部伝達関数の第1伝達関数に割り当てられた高さ値を減算することにより、前記唯一のフィルタ曲線に1つの高さ値を割り当てるよう構成され、
前記方向修正情報は、前記唯一のフィルタ曲線と前記唯一のフィルタ曲線に割り当てられた高さ値とを含む、
請求項13に記載のシステム(300)。
【請求項17】
方向修正情報を提供する装置(200)であって、前記装置(200)は、
複数のラウドスピーカ(211,212)であって、それらの各々が再生オーディオ信号を再生するよう構成され、前記複数のラウドスピーカ(211,212)の第1スピーカが第1高さの第1位置に配置され、前記複数のラウドスピーカ(211,212)の第2スピーカが第2高さの第2位置に配置され、前記第2高さは第1高さと異なり、かつ第2位置は第1位置とは異なる、ラウドスピーカ(211,212)と、
2個のマイクロホン(221,222)であって、それらの各々が前記複数のラウドスピーカ(211,212)の各ラウドスピーカから、前記オーディオ信号を再生する時に前記ラウドスピーカによって放射された音波を受信することにより、録音オーディオ信号を録音するよう構成された、マイクロホン(221,222)と、
前記複数のラウドスピーカ(211,212)の各ラウドスピーカについて、前記ラウドスピーカによって再生される前記再生オーディオ信号に依存し、かつ前記再生オーディオ信号が前記ラウドスピーカによって再生されたとき前記2個のマイクロホン(221,222)の各々によって録音される録音オーディオ信号の各々に依存して、1つの両耳室内インパルス応答を決定することにより、複数の両耳室内インパルス応答を決定するよう構成された両耳室内インパルス応答決定部(230)と、
前記複数の両耳室内インパルス応答の2つに依存して、少なくとも1つのフィルタ曲線を生成するよう構成された、フィルタ曲線生成部(240)と、を備え、
前記方向修正情報は前記少なくとも1つのフィルタ曲線に依存しており
前記フィルタ曲線生成部(240)は、前記複数の両耳室内インパルス応答に依存して1つ以上の中間曲線を生成し、かつ前記1つ以上の中間曲線の各々を複数の異なる減衰値の各々によって増幅することによって、2つ以上のフィルタ曲線を取得するよう構成される、
装置(200)。
【請求項18】
前記フィルタ曲線生成部(240)は、前記両耳室内インパルス応答の各々から1つの頭部伝達関数を抽出することにより、前記複数の両耳室内インパルス応答から複数の頭部伝達関数を決定するよう構成され、
前記複数の頭部伝達関数はスペクトルドメインで表現され、
前記複数の頭部伝達関数の各々に1つの高さ値が割り当てられ、
前記フィルタ曲線生成部(240)は2つ以上のフィルタ曲線を生成するよう構成され、
前記フィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第1伝達関数のスペクトル値から前記複数の頭部伝達関数の第2伝達関数のスペクトル値を減算するか、又は前記複数の頭部伝達関数の第1伝達関数のスペクトル値を前記複数の頭部伝達関数の第2伝達関数のスペクトル値によって除算することにより、前記2つ以上のフィルタ曲線の各々を生成するよう構成され、
前記フィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第2伝達関数に割り当てられた高さ値から前記複数の頭部伝達関数の第1伝達関数に割り当てられた高さ値を減算することにより、前記2つ以上のフィルタ曲線の各々に1つの高さ値を割り当てるよう構成され、
前記方向修正情報は、前記2つ以上のフィルタ曲線の各々と当該フィルタ曲線に割り当てられた高さ値とを含む、
請求項17に記載の装置(200)。
【請求項19】
前記フィルタ曲線生成部(240)は、前記両耳室内インパルス応答の各々から1つの頭部伝達関数を抽出することにより、前記複数の両耳室内インパルス応答から複数の頭部伝達関数を決定するよう構成され、
前記複数の頭部伝達関数はスペクトルドメインで表現され、
前記複数の頭部伝達関数の各々に1つの高さ値が割り当てられ、
前記フィルタ曲線生成部(240)は唯一のフィルタ曲線を生成するよう構成され、
前記フィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第1伝達関数のスペクトル値から前記複数の頭部伝達関数の第2伝達関数のスペクトル値を減算するか、又は前記複数の頭部伝達関数の第1伝達関数のスペクトル値を前記複数の頭部伝達関数の第2伝達関数のスペクトル値によって除算することにより、前記唯一のフィルタ曲線を生成するよう構成され、
前記フィルタ曲線生成部(240)は、前記複数の頭部伝達関数の第2伝達関数に割り当てられた高さ値から前記複数の頭部伝達関数の第1伝達関数に割り当てられた高さ値を減算することにより、前記唯一のフィルタ曲線に1つの高さ値を割り当てるよう構成され、
前記方向修正情報は、前記唯一のフィルタ曲線と前記唯一のフィルタ曲線に割り当てられた高さ値とを含む、
請求項17に記載の装置(200)。
【請求項20】
オーディオ入力信号からフィルタリング済みオーディオ信号を生成する方法であって、
入力高さ情報に依存してフィルタ情報を決定するステップであって、前記入力高さ情報は仮想音源(492)の高さに依存している、ステップと、
前記フィルタ情報に依存して前記オーディオ入力信号をフィルタリングし、前記フィルタリング済みオーディオ信号を取得するステップと、を備え、
前記フィルタ情報を決定するステップは、前記入力高さ情報に依存して、複数のフィルタ曲線から選択フィルタ曲線を選択することを含むか、又は前記フィルタ情報を決定するステップは、前記入力高さ情報に依存して、基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを含
前記フィルタ情報を決定するステップは、前記オーディオ入力信号の第1スペクトル部分が修正され、かつ前記オーディオ入力信号の第2スペクトル部分が修正されないように、実行されるか、又は前記フィルタ情報を決定するステップは、前記オーディオ入力信号の第1スペクトル部分が第1増幅値によって増幅され、かつ前記オーディオ入力信号の第2スペクトル部分が第2増幅値によって増幅され、前記第1増幅値は前記第2増幅値と異なるように、実行される、
方法。
【請求項21】
方向修正情報を提供する方法であって、
複数のラウドスピーカの各々について、当該ラウドスピーカによって再生オーディオ信号を再生し、前記再生オーディオ信号を再生する時に前記ラウドスピーカから放射された音波を2つのマイクロホンにより録音して、前記2つのマイクロホンの各々について録音オーディオ信号を取得するステップであって、前記複数のラウドスピーカの第1スピーカが第1高さの第1位置に配置され、前記複数のラウドスピーカの第2スピーカが第2高さの第2位置に配置され、前記第2高さは第1高さと異なり、かつ第2位置は第1位置とは異なる、ステップと、
前記複数のラウドスピーカの各ラウドスピーカについて、前記ラウドスピーカによって再生される前記再生オーディオ信号に依存し、かつ前記再生オーディオ信号が前記ラウドスピーカによって再生されたとき前記2個のマイクロホンの各々によって録音される録音オーディオ信号の各々に依存して、1つの両耳室内インパルス応答を決定することにより、複数の両耳室内インパルス応答を決定するステップと、
前記複数の両耳室内インパルス応答の2つに依存して、少なくとも1つのフィルタ曲線を生成するステップと、を備え、
前記方向修正情報は前記少なくとも1つのフィルタ曲線に依存しており
前記方法は、前記複数の両耳室内インパルス応答に依存して1つ以上の中間曲線を生成し、かつ前記1つ以上の中間曲線の各々を複数の異なる減衰値の各々によって増幅することによって、2つ以上のフィルタ曲線を取得することを含む、
方法。
【請求項22】
コンピュータ又は信号プロセッサ上で実行されるとき、請求項20又は21に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ信号処理に関し、特に、エレベーション・レンダリングを実現するフィルタリング済みオーディオ信号を生成する装置および方法に関する。
【背景技術】
【0002】
オーディオ処理において、振幅パニングは通常適用される概念である。例えば、ステレオ音響を考慮した場合、2つのラウドスピーカの間に仮想音源を仮想的に配置することは通常の技術である。仮想音源をスイートスポットから左遠方に配置するためには、対応する音響が左側のラウドスピーカによって高い振幅で再生され、右側のラウドスピーカによって低い振幅で再生される。この概念は、両耳オーディオについても同様に適用される。
【0003】
さらに、同様の概念は水平平面におけるラウドスピーカとエレベーションありのラウドスピーカ(elevated loudspeakers)との間に仮想音源をパンするために存在している。しかしながら、ここで適用される手法は、両耳オーディオのために適用されるものとは同じではない。
【0004】
したがって、両耳オーディオのための仮想音源を上昇または下降させるための概念が提供されれば、それは非常に望ましいものである。
【0005】
同様に、ラウドスピーカのための仮想音源を上昇または下降させるための概念が提供され、全てのラウドスピーカが同じ平面に配置され、かつ1つのラウドスピーカも他のラウドスピーカに対して物理的に高位又は低位とされないならば、それは非常に望ましいものである。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】[001] Rubak, P. and Johansen, L., “Artificial reverberation based on a pseudo-random impulse response 2”, Proceedings of the 106th AES Convention, 4875, May 8-11, 1999
【非特許文献2】[002] Kuttruff H. Room Acoustics, Fouth Edition, Spon Press, 2000
【非特許文献3】[003] Jens Blauert, Raeumliches Hoeren, S. Hirzel Verlag, Stuttgart, 1974
【非特許文献4】[004]https://commons.wikimedia.org/wiki/File:Akustik_-_Richtungsb%C3%A4nder.svg
【非特許文献5】[005] Litovsky et. al., Precedence effect, J. Acoust. Soc. Am. Vol. 106, No. 4. Pt. 1. Oct 1999
【非特許文献6】[006] V. Pullki, M. Karjalainen, Communication Acoustics, Wiley, 2015
【非特許文献7】[007]http://www.sengpielaudio.com/PraktischeDatenZurStereo-Lokalisation.pdf
【非特許文献8】[008] http://www.sengpielaudio.com/Haas-Effekt.pdf
【非特許文献9】[009] G. Theile. On the Standardization of the Frequency Response of High Quality Studio Headphones. AES convention 77, 1985
【非特許文献10】[010] F. Fleischmann, Messung, Vergleich and psychoakustische Evaluierung von Kopfhoerer-Uebertragungsma゜en, FAU Erlangen, Diplomarbeit, 2011
【非特許文献11】[011] A Simple, Robust Measure of Reverberation Echo Density, J. Abel, P. Huang, AES 121st Convention, 2006 October 5-8
【非特許文献12】[012] Perceptual Evaluation of Model- and Signal-Based Predictors of the Mixing Time in Binaural Room Impulse Responses, A. Lindau, L. Kosanke, S. Weinzierl, J. Audio Eng. Soc., Vol. 60, No. 11, 2012 November
【非特許文献13】[013] Rubak, P. and Johansen, L., “Artificial reverberation based on a pseudo-random impulse response,” in Proceedings of the 104th AES Convention, preprint 4875, Amsterdam, Netherlands, May 16 - 19, 1998.
【非特許文献14】[014] Rubak, P. and Johansen, L., “Artificial reverberation based on a pseudo-random impulse response II,”in Proceedings of the 106th AES Convention, preprint 4875, Munich, Germany, May 8 - 11, 1999.
【非特許文献15】[015] Jot, J.-M., Cerveau, L., and Warusfel, O., “Analysis and synthesis of room reverberation based on a statistical time-frequency model,”in Proceedings of the 103rd AES Convention, preprint 4629, New York, September 26 - 29, 1997.
【非特許文献16】[016] Stanley Smith Stevens: Psychoacoustics. John Wiley & Sons, 1975
【非特許文献17】[017]http://www.mathworks.com/matlabcentral/mlc-downloads/downloads/submissions/ 43856/versions/8/screenshot.jpg
【非特許文献18】[018] Fourier Acoustics, Sound Radiation and Nearfield Acoustical Holography, Earl. G. Williams, Academic Press, 1999
【非特許文献19】[019] Richtungsdetektion mit dem Eigenmike Mikrofonarray, Messung und Analyse, M. Brandner, IEM, Kunst Uni Graz, 2013
【非特許文献20】[020] Bandwidth Extension for Microphone Arrays, B. Bernschuetz, AES 8751, October 2012
【非特許文献21】[021] Zotter, F. (2009): Analysis and Synthesis of Sound-Radiation with Spherical Arrays. Dissertation, University of Music and Performing Arts Graz
【非特許文献22】[022] Sank J.R., Improved Real-Ear Test for Stereophones. J. Audio Eng Soc 28 (1980), Nr. 4, S.206-218
【非特許文献23】[023] Spikofski, G. Das Diffusfeldsonden-Uebertragungsmass eines Studiokopfhoerers. Rundfunktechnische Mitteilung Nr. 3, 1988
【非特許文献24】[024] Vision and Technique behind the New Studios and Listening Rooms of the Fraunhofer IIS Audio Laboratory, A. Silzle, AES 7672, May 2009
【非特許文献25】[025] https://hps.oth-regensburg.de/~elektrogitarre/pdfs/kunstkopf.pdf
【非特許文献26】[026] Localization with Binaural Recordings from Artificial and Human Heads, P. Minhaar, S. Olesen, F. Christensen, H. Moller, J Audio Eng. Soc, Vol 49, No 5, 2001 May
【非特許文献27】[027] http://www.f07.fh-koeln.de/einrichtungen/nachrichtentechnik/ forschung_kooperationen/aktuelle_projekte/asar/00534/index.html
【非特許文献28】[028] Entwurf und Aufbau eines variable sphaerischen Mikrofonarrays fuer Forschungsanwendungen in Raumakustik und Virtual Audio. B. Bernschuetz, C. Poerschmann, S. Spors, S. Weinzierl, DAGA 2010, Berlin
【非特許文献29】[029] Farina, A. Advances in Impulse Response Measurements by Sine Sweeps. AES Convention 122. Wien, Mai 2007
【非特許文献30】[030] Weinzierl, S. et. al. Generalized multiple sweep measurement. AES Convention 126, 7767. Munich, Mai 2009
【非特許文献31】[031] Weinzierl, S. Handbuch der Audiotechnik. Springer, 2008
【非特許文献32】[032]https://web.archive.org/web/20160615231517/https://code.google.com/p/sofia-toolbox/wiki/WELCOME
【非特許文献33】[033] E. C. Cherry. “Some experiments on the recognition of speech with one and with two ears”. J. Acoustical Soc. Am. vol. 25 pp. 975-979 (1953).
【非特許文献34】[034]https://ccrma.stanford.edu/~jos/bbt/Equivalent_Rectangular_Bandwidth.html
【非特許文献35】[035] http://de.mathworks.com/help/signal/ref/rceps.html
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、オーディオ信号処理のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項19に記載の装置、請求項23に記載の方法、請求項24に記載の方法、及び請求項25に記載のコンピュータプログラムによって解決される。
【課題を解決するための手段】
【0008】
オーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置が提供される。この装置は、入力高さ情報(input height information)に依存してフィルタ情報を決定するよう構成されたフィルタ情報決定部であって、前記入力高さ情報は仮想音源の高さに依存している、フィルタ情報決定部を含む。さらにこの装置は、前記フィルタ情報に依存して前記オーディオ入力信号をフィルタリングし、前記フィルタリング済みオーディオ信号を取得するよう構成されたフィルタユニットを含む。フィルタ情報決定部は、前記入力高さ情報に依存して複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、前記フィルタ情報を決定するよう構成されるか、又はフィルタ情報決定部は、エレベーション情報(elevation information)に依存して基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを使用して、前記フィルタ情報を決定するよう構成される。
【0009】
さらに、方向修正情報を提供する装置を提供する。この装置は複数のラウドスピーカを含み、それらの各々が再生オーディオ信号を再生するよう構成され、前記複数のラウドスピーカの第1スピーカが第1高さの第1位置に配置され、前記複数のラウドスピーカの第2スピーカが第2高さの第2位置に配置され、前記第2高さは第1高さと異なり、かつ第2位置は第1位置とは異なる。さらにこの装置は2個のマイクロホンを含み、それらの各々が前記複数のラウドスピーカの各ラウドスピーカから、前記オーディオ信号を再生する時に前記ラウドスピーカによって放射された音波を受信することにより、録音オーディオ信号を録音するよう構成される。さらにこの装置は両耳室内インパルス応答決定部を含み、この決定部は、前記再生オーディオ信号が前記ラウドスピーカによって再生されるとき、前記ラウドスピーカによって再生される前記再生オーディオ信号に依存し、かつ前記2個のマイクロホンの各々によって録音される録音オーディオ信号の各々に依存して、前記複数のラウドスピーカの各ラウドスピーカについて1つの両耳室内インパルス応答を決定することにより、複数の両耳室内インパルス応答を決定するよう構成される。さらにこの装置は、前記複数の両耳室内インパルス応答の2つに依存して、少なくとも1つのフィルタ曲線を生成するよう構成された、フィルタ曲線生成部を含む。前記方向修正情報は前記少なくとも1つのフィルタ曲線に依存している。
【0010】
更に、オーディオ入力信号からフィルタリング済みオーディオ信号を生成する方法を提供する。この方法は、
−入力高さ情報に依存してフィルタ情報を決定するステップであって、前記入力高さ情報は仮想音源の高さに依存している、ステップと、
−前記フィルタ情報に依存して前記オーディオ入力信号をフィルタリングし、前記フィルタリング済みオーディオ信号を取得するステップと、
を備える。
【0011】
前記フィルタ情報を決定するステップは、前記入力高さ情報に依存して、複数のフィルタ曲線から選択フィルタ曲線を選択することを含むか、又は
前記フィルタ情報を決定するステップは、エレベーション情報に依存して、基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを含む。
【0012】
さらに、方向修正情報を提供する方法を提供する。この方法は、
−複数のラウドスピーカの各々について、当該ラウドスピーカによって再生オーディオ信号を再生し、前記再生オーディオ信号を再生する時に前記ラウドスピーカから放射された音波を2つのマイクロホンにより録音して、前記2つのマイクロホンの各々について録音オーディオ信号を取得するステップであって、前記複数のラウドスピーカの第1スピーカが第1高さの第1位置に配置され、前記複数のラウドスピーカの第2スピーカが第2高さの第2位置に配置され、前記第2高さは第1高さと異なり、かつ第2位置は第1位置とは異なる、ステップと、
−前記再生オーディオ信号が前記ラウドスピーカによって再生されるとき、前記ラウドスピーカによって再生される前記再生オーディオ信号に依存し、かつ前記2個のマイクロホンの各々によって録音される録音オーディオ信号の各々に依存して、前記複数のラウドスピーカの各ラウドスピーカについて1つの両耳室内インパルス応答を決定することにより、複数の両耳室内インパルス応答を決定するステップと、
−前記複数の両耳室内インパルス応答の2つに依存して、少なくとも1つのフィルタ曲線を生成するステップと、
を含み、前記方向修正情報は前記少なくとも1つのフィルタ曲線に依存している。
【0013】
さらに、コンピュータプログラムが提供され、そのコンピュータプログラムのそれぞれが、コンピュータ又は信号プロセッサ上で実行されるとき、上述の方法の1つを実行するよう構成される。
【0014】
以下に、本発明の実施形態について図面を参照しながら詳細に説明する。
【図面の簡単な説明】
【0015】
図1a】一実施形態に従ってオーディオ入力信号からフィルタリング済みオーディオ信号を生成するための装置を示す。
図1b】一実施形態に従って方向修正情報を提供するための装置を示す。
図1c】一実施形態に従うシステムを示す。
図2】3つの反射タイプを示す図である。
図3】反射の時間的表現の幾何学的表現と反射の幾何学的表現を示す図である。
図4】定位作業の水平面及び正中面を示す図である。
図5】正中面における指向性聴覚を示す。
図6】仮想音源を創造することを示す。
図7】異なる音圧レベルにおける狭帯域ノイズ信号のマスキング閾値曲線を示す。
図8】後方及び前方マスキング効果のテンポラル・マスキング曲線を示す。
図9】関連付けモデル(Association Model)の簡略図を示す。
図10】BRIR(両耳室内インパルス応答)の同側のチャネルの時間的及びSTFT図を示す。
図11】BRIRの各チャネルの遷移点の推定を示す。
図12】5つの三角形の帯域通過フィルタ、低域通過フィルタ及び高域通過フィルタを持つMelフィルタバンクを示す。
図13】Melフィルタバンクの周波数応答及びインパルス応答を示す。
図14】次数(order)n=5までのルジャンドル多項式(Legendre polynomials)を示す
図15】次数n=4までの球面調和関数(spherical harmonics)と対応するモードとを示す。
図16】球体上のレベデフ求積法(Lebedev-Quadrature)及びガウス・ルジャンドル求積法(Gauss-Legendre-Quadrature)を示す。
図17】bn(kr)の逆関数を示す。
図18】両耳測定用頭部と球状マイクロホンアレーとが8個のラウドスピーカの中央に配置された場合の2つの測定構成を示す。
図19】受聴テスト室を示す。
図20】両耳測定用頭部とマイクロホンアレー測定システムとを示す。
図21】BRIR測定に使用される信号系列を示す。
図22】音場分析アルゴリズムの概略を示す。
図23】オフセットをもたらす、各測定セットにおける最近マイクロホンの異なる位置を示す。
図24】音場分析とBRIR測定との結果を視覚的に結合する、グラフィカル・ユーザー・インターフェースを示す。
図25】両耳測定と球状測定とを相関させるグラフィカル・ユーザー・インターフェースの出力を示す。
図26】反射の異なる時間的段階を示す。
図27】第1の構成を持つ水平及び垂直反射分布を示す。
図28】第2の構成を持つ水平及び垂直反射分布を示す。
図29】一対のエレベーションありのBRIR(elevated BRIRs)を示す。
図30】全ての初期反射の累積性空間分布を示す。
図31】3つの条件を含みながら、聴取テストにおいて修正BRIRと比較してテストされていた無修正BRIRを示す。
図32】各チャネルについて、エレベーションなしのBRIRが、それ自身であってエレベーションありのBRIRの初期反射を含むものと知覚的に比較された図を示す。
図33】エレベーションなしのBRIRの初期反射(チャネル毎にエレベーションありのBRIRの初期反射により色付けされている初期反射を追加的に含むものがそれ自身と知覚的に比較されている)を示す。
図34】エレベーションなし、エレベーションあり及び修正済みの初期反射のスペクトル包絡を示す。
図35】エレベーションなし、エレベーションあり及び修正済みの初期反射の可聴部分のスペクトル包絡を示す。
図36】複数の補正曲線を示す。
図37】増幅された高い仰角(elevation angle)から聴取者に到達する4つの選択された反射を示す。
図38】ある音源についての両方の天井反射の図を示す。
図39】Melフィルタバンクを使用する各チャネルについてのフィルタリング処理を示す。
図40】方位角(azimuth angle)α=225°からの音源のパワーベクトルを示す。
図41】異なる指数によって生起される異なる増幅曲線を示す。
図42】PR,i,225°(m) 及びPR,i(m)に適用される異なる指数を示す。
図43】平均化手順についての同側及び反対側チャネルを示す。
図44】PR,IpCo 及びPFrontBackを示す。
図45】他の実施形態にかかる指向性音(directional sound)を生成する装置と、他の実施形態にかかる方向修正フィルタ係数を提供する装置とを含む、他の特別な実施形態にかかるシステムを示す。
図46】追加的実施形態にかかる指向性音を生成する装置と、追加的実施形態にかかる方向修正フィルタ係数を提供する装置とを含む、追加的な特別な実施形態にかかるシステムを示す。
図47】さらに追加的実施形態にかかる指向性音を生成する装置と、さらに追加的実施形態にかかる方向修正フィルタ係数を提供する装置とを含む、さらに追加的な特別な実施形態にかかるシステムを示す。
図48】一実施形態にかかる指向性音を生成する装置と、一実施形態にかかる方向修正フィルタ係数を提供する装置とを含む、特別な実施形態にかかるシステムを示す。
図49】聴取者と、2つの異なるエレベーションにおける2個のスピーカと、仮想音源とを示す概略図を示す。
図50】異なる増幅値(延伸ファクタ)を中間曲線に適用することにより得られるフィルタ曲線を示す。
図51】方位角=0°の補正フィルタ曲線を示す。
図52】方位角=30°の補正フィルタ曲線を示す。
図53】方位角=45°の補正フィルタ曲線を示す。
図54】方位角=60°の補正フィルタ曲線を示す。
図55】方位角=90°の補正フィルタ曲線を示す。
【発明を実施するための形態】
【0016】
本発明を詳細に説明する前に、本発明が依拠する幾つかの概念について説明する。
【0017】
まず、室内音響概念について考察する。
【0018】
図2は、反射の3つのタイプの説明図である。反射面(左)は、入射音の音響的挙動をほぼ維持するが、吸収面および拡散面は、音をより強く修正する。通常は、複数のタイプの表面の組合せが見受けられる。
【0019】
室内音響や音印象に影響を与える室内反射には、多くのタイプが存在する。反射面により反射された音波は、オリジナル音とほぼ同程度の音量と明瞭さとを有する可能性がある。他方、吸収面からの反射は、強度が低くなり、明瞭さも鈍くなることが多い。入射音波と反射音波とが同じ角度を有する反射面と吸収面とに比較して、拡散面で反射された音波は、そこからあらゆる方向に伝搬する。よって、不明瞭で濁った音印象が発生する。通常は、あらゆる種類の反射挙動が見受けられ、明瞭音と不明瞭音との混合が音印象を形成している。
【0020】
現実には、音波は、特に低周波数が考慮される限り、音源からあらゆる方向に伝搬する。
【0021】
図3は、反射の幾何学的表現(左)と、反射の時間的表現の幾何学的表現(右)とを示す。直接音は直結経路上を受聴者へと到達し、最短距離を有する(図3(左)を参照)。周囲環境の幾何学的形状に依存して、多くの反射と拡散的に反射された部分とが、後で様々な方向から受聴者へと到達する。各反射の次数とその経路長とに依存して、増加する密度を有する時間的な反射分布が観測される。
【0022】
図3(右)に見られるように、反射密度が低い期間は、初期反射期として定義される。反対に、高密度の部分は残響場と呼ばれる。初期反射と残響との間の遷移点を取り扱う様々な研究が存在する。非特許文献1と2においては、2000〜4000エコー/秒のオーダーの反射率が遷移の尺度として定義されている。ここで、残響は、例えば「統計学的な残響」として解釈され得る。
【0023】
次に、両耳リスニングについて説明する。
【0024】
まず、定位キュー(Localization Cues)について考察する。
【0025】
人間の聴覚系は、音源の位置を分析するために両方の耳を使用する。水平面と正中面上の定位の間には区別が存在する。
【0026】
図4は定位作業についての水平面および正中面の図解を示す。
【0027】
水平面上では、我々は、音が左側から到来するか、又は右側から到来するかを区別する。この場合、2個のパラメータが必要となる。第1のパラメータは両耳間時間差(ITD)である。音波が音源から左右の耳に到達するまでの距離が異なれば、同側の耳(ipsilateral ear:音源に近い耳)に到達する音は、反対側の耳(contralateral ear:音源から遠い耳)よりも早く到達する。その結果として生まれる時間差がITDである。音源が受聴者頭部の正に正面または背後にある場合にはITDが最小、例えばゼロであり、音源が完全に左側または右側にある場合にはITDが最大となる。
【0028】
第2のパラメータは両耳間レベル差(ILD)である。音の波長が頭部サイズに比べて短い場合、頭部は音響的陰又は障害物として作用し、反対側の耳に到達する波形の音圧レベルを減衰させる。
【0029】
定位の分析は周波数依存である。800Hz未満であって、波長が頭部サイズに対して長い場合には、両耳間の位相差を評価しながら、分析はITDに基づく。1600Hzを超えると、分析はILD及びグループ遅延差の評価に基づく。例えば100Hz未満では、定位は例えば不可能にもなり得る。それら2つの限界の間にある周波数領域においては、分析方法のオーバーラップがある。
【0030】
正中面上では、音が受聴者の前方または後方に存在するかどうかとともに、垂直方向が評価される。聴覚系は耳介のフィルタリング効果から情報を得る。Jens Blauertにより既に研究されたように(非特許文献3参照)、自然音源を受聴しているとき、正中面上の定位のためには所定の周波数領域の増幅だけが重要である。両耳には評価可能なITD又はILDがないので、聴覚系は信号スペクトルから情報を得ることができる。例えば、7〜10kHzの間の領域で増大すると、受聴者が音を上方から知覚するようになる(図5参照)。
【0031】
図5は、正中面における指向性受聴(directional hearing)を示す。正中面上での定位は、信号スペクトルの所定の周波数領域の増幅と強い相関関係がある(非特許文献4を参照)。
【0032】
信号処理に関し、既に上述した定位キューは、周波数ドメインにおける頭部伝達関数(HRTF)又は時間ドメインにおける頭部インパルス応答(HRIR)として集団的に知られている。室内音響に言及すれば、HRIRは受聴者の各耳に到達する直接音に匹敵する。更に、HRIRはまた、音波の肩や胴体との複雑な相互作用をも含む。これらの(拡散的な)反射が直接音とほぼ同時に耳に到達するので、強いオーバーラップが存在する。このため、それらは別々に考慮することができない。
【0033】
反射は、肩および胴体と同様に、外耳とも相互作用を持つ。従って、反射の入射方向に依存して、聴覚系によって評価される前に、対応するHRTFによりフィルタリングされるであろう。各耳における室内インパルス応答の尺度は、両耳室内インパルス応答(BRIR)として定義され、周波数ドメインにおいては両耳室内伝達関数(BRTF)として定義される。
【0034】
次に、仮想音源について考察する。現実に、受聴者が自然環境において自然音源から到来する音を聞く場合、彼は音源を定位するために、その所与の音響を脳内に記憶された刺激パターンと比較する。その音響が記憶されたパターンに近似している場合、受聴者は容易に音源を定位するであろう。両耳室内インパルス応答を利用して、ヘッドホンを介して自然に聞こえる仮想環境を創造することが可能である。
【0035】
図6は仮想音源の創造を示す。録音された音は、別の環境で測定されたBRIRを用いてフィルタリングされ、仮想空間の中で音の位置決めをしながらヘッドホンを介して再生される。
【0036】
図6に示すように、励振信号を再生する音源として、ラウドスピーカが使用される。所望の各位置について、各耳におけるマイクロホンを含む両耳測定頭部によりラウドスピーカが測定されて、BRIRを創造する。BRIRの各ペアは、ラウドスピーカから各耳(内耳)への(直接音と反響との)音響経路を表すので、仮想音源として認識されることができる。1つのBRIRペアを用いて1つの音をフィルタリングすることで、その音は、測定されたラウドスピーカと同じ環境で同じ位置にあるように、音響的に感じられるであろう。録音室音響とBRIRにおいて捕捉された音響とを混合しないことが望ましい。よって、音は(ほぼ)無響室内で録音される。
【0037】
両耳用にレンダリングされたオーディオ信号を受聴する最も簡易な方法は、ヘッドホンを使用することである。なぜなら、各耳がそのコンテンツを別々に受け取るからである。そのような受聴を行う際、ヘッドホンの伝達関数は除外されるべきである。これは、以下に説明する拡散音場等化処理(diffuse field equalization)により実行され得る。
【0038】
以下に、音響心理原理について説明する。
【0039】
まず、先行音効果(precedence effect)について考察する。
【0040】
先行音効果は、空間的受聴にとって重要な定位メカニズムである。それは、残響環境の中で音源の方向を検出可能にする一方で、初期反射の知覚を抑制する。その原理によれば、ある音が一方向から受聴者へと到達し、同じ音が時間遅延された状態で別の方向から到達する場合、受聴者は2番目の音が1番目の方向から来たと知覚する。
【0041】
Litovskyらは、先行音効果についての種々の研究をまとめた(非特許文献5を参照)。その結果、この効果の品質に影響を与える多数のパラメータが存在することが示されている。まず、第1の音と第2の音との間の時間差が重要である。種々の実験設定から、種々の時間値(5〜50ms)が決定された。受聴者らは、音の種類が異なる場合だけでなく、音の長さが異なる場合にも、異なる反応を示す。短い時間間隔の場合、音は2つの音源の間に知覚される。これは主に水平面上で適用可能であり、ファントム音源として一般に知られている(非特許文献7を参照)。長い時間間隔の場合、2個の空間的に別々の聴覚事象が生成され、通常はエコーとして知覚される(非特許文献8を参照)。更に、2番目の音の音量が重要である。2番目の音の音量が大きくなる程、それは可聴となる可能性が高くなる(非特許文献6を参照)。この場合、それは別々の聴覚事象というより、寧ろ音質(timbre)の違いとして知覚される。
【0042】
実験でのシナリオは現実の音響環境とはほぼ無関係であるので、異なる設定に起因して、実験を通して研究された値に依存することは困難である(非特許文献5を参照)。しかしながら、空間的受聴を強力に支援する、ある効果が存在することは明らかである。
【0043】
もう一つの概念はスペクトルマスキングであり、これは、ある音が非類似のスペクトル挙動を有する別の音の知覚を困難にする効果を示し、その場合、両方の音スペクトルはオーバーラップする必要はない。この原理は、1kHzに中央周波数を有する狭帯域ノイズをマスキング音として使用して、実証され得る。音圧レベルLCBに依存して、それは同じ包絡を有する異なるレベルのマスキング曲線を生成する。これら曲線の1つよりスペクトル的に下側にある他の任意の音は、対応するマスキング音によって抑制されるであろう。広帯域マスキング音については、より広い帯域幅がマスキングされる。
【0044】
次に、テンポラル・マスキングについて考察する。
【0045】
図8においてハッチングで示す、時間ドメインにおける聴覚事象は、先行する音および後続する音の知覚に影響を与える。よって、後方または前方マスキング曲線の下方に位置するあらゆる音が抑制されるであろう。前方マスキングと比較して、後方マスキング曲線はより高い傾きを有し、より短い期間に影響を与える。両曲線の影響は、マスキング音を増大させることで高くなる。マスカー音の長さに依存して、前方マスキングは200msの領域をカバーし得る(非特許文献5を参照)。
【0046】
図7は、種々の音圧レベルLCBにおける狭帯域ノイズ信号についてのマスキング閾値曲線を示す(非特許文献5を参照)。
【0047】
図8は、後方および前方のマスキング効果についてのテンポラル・マスキング曲線を示す。ハッチングされた線は、マスカー音の開始と終了とを示す(非特許文献5を参照)。
【0048】
外耳の影響が人間の聴覚系によってどのように分析されるかを示す、関連付けモデルがThelieによって説明されている(非特許文献9を参照)。
【0049】
図9は関連付けモデル(非特許文献10を参照)の簡易図を示す。耳によって捕捉された音は、まず内部基準と比較され、方向を割り当てようと試みる(図9を参照)。定位処理が満足すれば、次に聴覚系は耳介に起因するスペクトル歪みを補償することができる。適切な基準パターンが見つからない場合には、歪みは音質の変化として知覚される。
【0050】
以下に、デジタル信号処理ツールについて説明する。
【0051】
まず、BRIRにおける遷移点(Transition Points)の推定について提示する。
【0052】
初期反射は直接音と残響との間に存在する。両耳室内インパルス応答におけるそれらの影響を研究するために、初期反射の開始点と終了点とが時間ドメインで定義されなければならない。
【0053】
図10は、BRIRの同側チャネル(方位角:45°、仰角:55°)の時間的グラフ(上)及びSTFTグラフ(下)を示す。破線1010は、左側のHRIRと右側の初期反射との間の遷移を示す。
【0054】
直接音とHRIRの一部ではない反射である一次反射との間の遷移点は、図10に示すように、時間的作図及びSTFTグラフから決定され得る。明瞭な大きさによって、一次反射は視覚的に決定され得る。よって、遷移点は一次反射の遷移局面の前に設定される。一次反射に関する到達時間差についての理論的計算値は、視覚的に発見された値とほぼ正確に対応する。
【0055】
初期反射と残響との間の遷移点の決定は、AbelとHuang(非特許文献11を参照)の方法によって実行される。この手法は、Lindau,Kosanke及びWeinzierlにより、非特許文献12において彼らの研究における意義深い結果に基づいて推奨されている。
【0056】
残響環境において、エコー密度は時間経過とともに急速に増大する傾向がある。時間が十分に経過した後で、次にエコーは統計的に扱われ(非特許文献13及び14参照)、インパルス応答の残響部分は、色とレベルとを除いてガウスノイズから区別できないようになるであろう(非特許文献15を参照)。
【0057】
残響の音圧振幅がガウス分布に従うと仮定すれば、これは1つの基準として使用できる。それはインパルス応答の統計値と比較され、スライディング窓における統計的キューが基準のそれと類似する場合、その点に対して遷移点が推定される。
【0058】
第1ステップとして、各時間インデックスについて標準偏差σを計算するために、スライディング窓が使用される(式1)。
【数1】
【0059】
この窓の標準偏差の外側にある振幅の量は、ガウス分布について予期されるそれにより、式(2)において決定され、正規化される。
【数2】
【0060】
ここで、h(t)は残響インパルス応答であり、2δ+1はスライディング窓の長さであり、1{・}はその引き数が真であれば1に戻り、その他の場合にはゼロに戻る指示関数である。ガウス分布について平均から、標準偏差の外側に位置するサンプルの想定される小数部は、次式によって与えられる。
時間と反射密度とが増大するにつれて、η(t)は1に近づく。統計的に完全な拡散に到達したとき、その時間インデックスにおいて遷移点が定義される。
【0061】
この方法はBRIRの各チャネルに対して個別に適用される。このため、2個の別々の遷移点が推定されるであろう(図11参照)。重要な情報が除外されないようにするため、以下の研究においてはより高い(例えば遅い)遷移点が常に選択される。
【0062】
図11は、BRIRの各チャネルについて、遷移点(線1101、1102)の推定を示す。
【0063】
ここで、Melフィルタバンクについて説明する。
【0064】
人間の聴覚系は、凡そ16Hz〜20kHzの間の範囲に制限されているが、ピッチと周波数との関係は線形ではない。Stanley Smith Stevens(非特許文献16参照)によれば、ピッチは以下の式で与えられたMelで測定され得る。
Mel(f)=m
【数3】
【数4】
【0065】
更に、聴覚情報(例えばピッチ、ラウドネス、到来方向)は周波数帯域において分析される。従って、非線形周波数分解能および帯域毎の処理を模倣するために、Melフィルタバンクが使用され得る。
【0066】
図12は、周波数軸にわたるMelフィルタバンクの三角帯域通過フィルタの可能な配置を示す。中心周波数とフィルタの帯域幅とは式2.2により制御される。通常、Melフィルタバンクは24個のフィルタから成る。特に、図12は、5個の三角帯域通過フィルタ1210と低域通過フィルタ1201と高域通過フィルタ1202とを有するMelフィルタバンクを示す。
【0067】
正確な分析および合成のために、以下の2つの条件が満たされなければならない。第1に、フィルタバンクの全域通過特性を確保するため、追加的な低域通過および高域通過フィルタが設計される。よって、周波数ドメインにおける全てのフィルタHiの加算は、線形周波数応答をもたらすことになるであろう。
(M:フィルタの合計)
【0068】
フィルタバンクの第2の条件は、線形位相応答によって表現される。非線形フィルタリングに起因する追加的な位相修正が防止されなければならないので、この属性は重要である。この場合、次式によってシフト済みインパルスがインパルス応答として想定される。
(τはフィルタバンクの待ち時間)。前記2つの条件は図13で示される。
【0069】
特に、図13は、Melフィルタバンクの周波数応答(左)とインパルス応答(右)とを示す。そのフィルタバンクは線形位相FIR全域通過フィルタに対応している。512サンプルのフィルタ次数は、256サンプルの待ち時間をもたらす。
【0070】
以下に、球面調和関数及び空間フーリエ変換について考察する。
【0071】
残響室の中で放射された音は、環境内のオブジェクトや表面と相互作用して、反射を作り出す。球状マイクロホンアレーを使用することで、それらの反射を室内のある固定点において測定し、到来波方向を視覚化することが可能である。
【0072】
マイクロホンアレーに到達する反射は、マイクロホン球体にわたる音圧分布をもたらすであろう。残念ながら、その音圧分布から直観的に到来波方向を読み出すことは不可能である。従って、音圧分布をその構成要素、平面波へと分解することが必要となる。
【0073】
分解の過程で、音場はまず球面調和関数ドメインへと変換される。比喩的に、空間形状の組合せ(図15の下方を参照)が見いだされ、これは球体上の所与の音圧分布を示している。空間フィルタリング又はビーム形成に匹敵する、波面分解(wave field decomposition)が次にそのドメインで実行されることができ、それら形状を入射波方向へと集中させる。
【0074】
まず、ルジャンドル多項式について考察する。
【0075】
仰角βにわたる球面調和関数を定義するために、直交関数のセットが必要となる。ルジャンドル多項式は区間[−1,1]上で直交している。最初の6個の多項式が式(5)で与えられる。
【数5】
【0076】
対応する図が図14に示され、図14はルジャンドル多項式を次数n=5まで示している。
【0077】
仰角は[0,π]の間で定義される。よって、全ての直交関係は単位球面(unit sphere)へと変換されなければならない。式(6)は有効であるから、関連するルジャンドル多項式Ln(cosβ)が次式において使用され得る。
【数6】
【0078】
ここで、球面調和関数について考察する。
【0079】
ある音圧関数P(r,β,α,k)を球面座標系において考察し、ここで、βとαとは仰角と方位角とであり、rは半径であり、kは波数(k=ω/c)である。P(r,β,α,k)が両方の角度にわたって自乗可積分(square integrable)であると仮定すると、それは球面調和関数ドメインで表現され得る。
【0080】
式(7)に見られるように、球面調和関数は、関連するルジャンドル多項式Lnmと指数項e+jmαと正規項(normalization term)とから構成されている。ルジャンドル多項式は仰角β付近の形状を担当しており、指数項は方位形状(azimuthal shape)を担当している。
【数7】
【0081】
図15は次数n=4までの球面調和関数とその対応するモードとを、−mからmまで示す(非特許文献17参照)。各次数は2m+1個のモードから成る。球面調和関数の正負符号は、正1501又は負1502のいずれかである。
【0082】
球面調和関数は、球上のラプラス演算子(Laplace operator)の角度成分の固有関数(Eigenfunctions)の完全かつ正規直交のセットであり、それは波動方程式を記述するために使用される(非特許文献18及び19参照)。
【0083】
ここで、空間フーリエ変換について説明する。
【0084】
式(8)は、空間フーリエ係数
が、空間フーリエ変換を使用してどのように計算され得るかを記述している。
【数8】
【0085】
ここで、P(r,β,α,k)は周波数および角度に依存する(複素)音圧であり、Ynm(β,α)*は複素共役型(complex conjugated)球面調和関数である。複素係数は、球上の分析された音圧を記述するために、各球面調和関数の向き(orientation)と重み付けに関する情報を含む。
【0086】
空間フーリエ係数が与えられた場合に、球面にわたる音圧の合成に係る式は次式(9)で示される。
【数9】
【0087】
その変換は波数k=ω/cに依存するので、音圧分布は各周波数について個別に分析されなければならない。
【0088】
以下に、球面サンプリングについて説明する。
【0089】
離散周波数波数スペクトル
は、サンプリング点が無限個数ある場合にのみ理論的に正確であり、その場合、連続的な球面が必要となるであろう。実用的な視点から見ると、現実的な演算量や計算時間を達成するためには、有限のスペクトル分解能だけが合理的と言える。離散サンプリング点に限定すると、適切なサンプリング格子が選択されるべきである。球面をサンプリングするための複数の方策が存在する(非特許文献21を参照)。よく使われる格子の1つはレベデフ求積法である。
【0090】
図16は、レベデフ求積法とガウス・ルジャンドル求積法とを球面上に示す。レベデフ求積法は350個のサンプリング点を有する。ガウス・ルジャンドル求積法は18×19=342個のサンプリング点を有する。
【0091】
他の格子と比較して、レベデフ求積法は均一に分布するサンプリング点を有し、サンプリング点の所定総数(amount)についてより高いサンプリング次数(sampling order)を達成する。例えば、N=15のサンプリング次数を達成するために、レベデフ求積法は350個のサンプリング点だけを必要とし、ガウス・ルジャンドル求積法は512個のサンプリング点を必要とする。
【0092】
次に、平面波分解について説明する。
【0093】
音圧分布から直観的に到来波方向を読み出すことは不可能であるので、平面波分解が必要となる。これにより、半径方向の到来波成分および出射波成分を除去し、無限数の球面サンプリング点についての音場を入射波方向についてのディラックインパルス(Dirac impulses)へと削減する。
【0094】
球面ベッセル(Bessel)関数およびハンケル(Hankel)関数はラプラス演算子の半径成分の固有関数であるから、それらは到来波および出射波の半径方向伝播を記述している。
【0095】
球内に音源が無く、カージオイド極パターン(cardioid polar pattern)マイクロホンが使用されると仮定すると、平面波分解処理の中で式(10)が使用され得る(非特許文献20参照)。式(10)において、jn(kr)は第1種のベッセル関数である。
【数10】
【0096】
この分解は、球面調和関数ドメインにおいて、合成式(9)の中で空間フーリエ係数をbn(kr)で除算することにより、実行される。
【数11】
【0097】
以下に、分析制限(analysis restrictions)について議論する。
【0098】
図17はbn(kr)の逆を示す。次数nに依存して、小さなkr値に対して高いゲインが得られる。
【0099】
図17に示すように、bn(kr)による除算は、次数nに依存して、小さなkr値に対して高いゲインをもたらす。その場合、小さなSNR値を用いた測定は歪みをもたらし得る。視覚的アーチファクトを克服するため、小さなkr値について、空間フーリエ変換の次数を制限することが合理的である。
【0100】
第2の制限は、空間エイリアシング基準kr<<Nであり、ここでNは最大球面サンプリング次数である。つまり、高い半径値との組み合わせの高周波の分析は、高い空間サンプリング次数をもたらすことになり、その結果、視覚的アーチファクトを発生させるであろう。1つの分析半径、即ち人間の頭部の半径だけに着目すれば、検査は所定の制限周波数fAliasまで実行されるであろう。
【数12】
【0101】
ここで、拡散音場等化処理について説明する。
【0102】
人間の肩、頭部および外耳または人工頭部は、衝突する音波のスペクトルを歪ませる。
【0103】
あるスピーカからある人工頭部への伝達関数と、同一位置のマイクロホンを用いて録音された伝達関数とを比較すると、スペクトルにおける差が観察され得る。人工頭部の大きさ伝達関数は、ピークとくぼみが存在する。それらキューの幾つかは方向に依存するが、方向に依存しないキューも存在する。
【0104】
閉塞された外耳道の最初の部分で測定すると、測定用頭部の伝達関数のスペクトルにおいて、2kHzと5kHzとの範囲間に凡そ10dBの増大が観測され得る(非特許文献22参照)。スピーカのために作成された信号をヘッドホンで再生する場合、スピーカから耳への伝達関数は消失する。この消失した経路を補償するため、ヘッドホンは、2〜5kHzの間のプレゼンス領域において同じブーストを示す作り付けの等化処理、所謂「拡散音場等化処理」を示すことが多い(非特許文献23参照)。
【0105】
両耳録音を拡散音場等化処理されたヘッドホンで適切に聞くためには、ヘッドホン伝達関数の中に既に含まれたそのプレゼンスピークを除去するべくBRIRが処理されなければない。この機能は「Cortex」(登録商標)の装置に既に含まれている。
【0106】
両耳録音を非処理のヘッドホンで再生できるようにするため、スペクトル非依存性のキューは除外される
【0107】
ここで、測定について考察する。
【0108】
測定の設定については、両耳室内インパルス応答の反射を空間的に解釈するため、この研究では球状マイクロホンアレーが使用される。BRIRと平面波分布との間の正確な相互相関を創造するため、両耳測定及び球面測定の両方が同一位置で実行されなければならない。更に、球面測定の半径は、両耳測定用頭部の半径と一致しなければならない。これにより、両方のシステムについて同じ到達時間(TOA)値が確保され、望ましくないオフセットを防止できる。
【0109】
図18には、2つの測定構成が示されている。両耳測定用頭部と球状マイクロホンアレーとが、8個のラウドスピーカの中央に配置されている。どちらの場合でも、4個のエレベーションなしのラウドスピーカ(non-elevated loudspeaker)と4個のエレベーションありのラウドスピーカ(elevated loudspeaker)とが測定される。エレベーションなしラウドスピーカは、測定用頭部の耳およびマイクロホンアレーの原点と同じレベルにある。エレベーションありのラウドスピーカはエレベーションなしのラウドスピーカに対してEL=35°の角度を有する。8個のラウドスピーカは各々、正中面に対してAZ=45°の方位角を有する。事前のテストから、対角線状に配置された音源への修正は、定位および音質において最大の相違を生むことが分かっている。
【0110】
測定環境として、受聴テスト室[W×H×D:9.3×4.2×7.5m]、即ちフラウンホーファーIIS社の測定環境「モーツァルト」(商標名)が使用された。この部屋は、背景ノイズレベル及び残響時間に関してITU−R BS.1116−3に適合しており、より臨場感があり自然な音印象をもたらすものである。その部屋には既存のラウドスピーカが2つの金属環にわたって装備され(図19参照)、2つの金属環は一方が他方の上方に配置されている。それら金属環の高さは調節可能であるため、正確なラウドスピーカ位置が定義され得る。各金属環は3メートルの半径を有し、両方が部屋の中央に配置されている。
【0111】
図19は、エルランゲンのフラウンホーファーIIS社にある受聴テスト室「モーツァルト」を示し、ITU−R BS.1116−3へと標準化されている(非特許文献24参照)。図19における巨大な木製ラウドスピーカは、測定期間中には室内に存在していなかった。
【0112】
マイクロホンアレー及び両耳測定用頭部(例えば人工頭部または両耳ダミー)は、ラウドスピーカ設定の「スイートスポット」内に交互に配置された。レーザーベースの距離計測器が、各測定システムから下位の環の各ラウドスピーカまでの正確な距離を計測するために使用された。耳の中心と地面との間の距離は1.34mの高さが選択された。
【0113】
非特許文献26において、ミンハーら(Minhaar et.al.)は、定位の品質を分析することにより、複数の人間および人工両耳頭部の測定値を比較した。
【0114】
図20は、両耳測定用頭部「Cortex Manikin MK1」(左)(非特許文献25参照)と、マイクロホンアレー測定システム「VariSphear」(右)(非特許文献27参照)とを示す。システム自体に起因する反射を防止するため、非残響成分(例えば黄色のレーザーシステム)は排除されている。
【0115】
人間の頭部を用いた測定値の方が、時にはより良好な定位をもたらすことが明らかになってきた。この研究の初期には類似の結果が観察されているが、取り扱いの容易さや測定期間中に一定位置を遵守できることから、人工測定用頭部が使用されている。
【0116】
図20の球状マイクロホンアレー「VariSphear」(非特許文献28参照)は、垂直および水平のステッピングモータを有する操縦可能なマイクロホン保持システムである。これにより、マイクロホンは、可変半径を有する球面上の任意の位置に移動でき、0.01°の角度分解能を有する。この測定システムは、Matlabに基づくそれ自身の制御ソフトウエアを具備している。ここでは、種々の測定パラメータが設定され得る。必須のパラメータは以下に与えられる。
【0117】
サンプリング格子:レベデフ求積法
サンプリング点の個数:350(サンプリング次数N=15,エイリアシング制限fAlias=8190Hz)
球の半径:0.1m(人体解剖学に対応する)
サンプリング周波数:48000Hz
励振信号:スイープ(対数的に増大する)
【0118】
VariSphearは、サンプリング格子の全ての位置についての室内インパルス応答を自動的に測定でき、それらをMatlabファイル内に保存できる。
【0119】
以下に、スイープ測定(sweep measurement)について考察する。
【0120】
室内音響を測定する場合、その部屋は大きな線形かつ時不変系とみなされ、その複素伝達関数またはインパルス応答を得るために、既定の刺激によって励振され得る。励振信号として、正弦スイープが音響測定に良好に適していることが分かってきた。最も重要な利点は、スイープ持続時間を増大させることで向上し得る、高い信号対ノイズ比である。更に、そのスペクトルエネルギー分布を所望の形状に整形でき、信号系列における非線形性はその信号を窓掛けすることで単純に除去され得る(非特許文献30参照)。
【0121】
この研究で使用された励振信号は対数スイープ信号(Log-Sweep Signal)である。時間にわたって一定の振幅と指数関数的に増大する周波数とを有する正弦関数である。数学的には、それは式(13)により表現できる(非特許文献29参照)。ここで、xは振幅、tは時間、Tはスイープ信号の持続時間、ω1は開始周波数、ω2は終了周波数を示す。
【数13】
【0122】
この研究では、室内インパルス応答を測定するためにWeinzierlの手法(非特許文献31参照)が使用され、これについては以下に説明する。
【0123】
測定ステップを図21に説明する。図21は、BRIR測定に使用されている信号系列を示す。スイープは、ラウドスピーカを励振するために使用され、且つスペクトルドメインにおける逆畳み込みのための基準としても使用される。アナログ信号へと変換されかつ増幅された後で、スイープ信号はラウドスピーカを通して再生される。同時に、スイープ信号は基準として使用され、ゼロパディングによって2倍の長さへと拡張される。ラウドスピーカにより再生された信号は、測定用頭部の2個の耳マイクロホンによって捕捉され、増幅され、デジタル信号へと変換され、且つ基準と同様にゼロパディングされる。
【0124】
この時点で、両方の信号がFFTを介して周波数ドメインへと変換され、実測のシステム出力Y(e)は基準スペクトルX(e)により除算される。その除算は時間ドメインにおける逆畳み込みに匹敵し、複素伝達関数H(e)をもたらし、これがBRIRである。逆FFTをその伝達関数へと適用することで、両耳室内インパルス応答(BRIR)が取得される。BRIRの後半は、信号系列内で発生し得る非線形性を含む。それら非線形性はインパルス応答を窓掛けすることにより廃棄され得る。
【0125】
以下では、両耳測定用頭部および球状マイクロホンアレーからの測定値が合体されるであろう。ついで、BRIRの反射を空間的に分類するための作業の流れが導出されるであろう。ここで、球状マイクロホンアレーの測定は、単に付加的なツールであって、この作業の本質部分ではないことを強調しなければならない。多大な経費に起因して、BRIRの反射を自動的に検出し且つ空間的に分類するための方法の開発は追及されていない。代わりに、視覚的な比較に基づく方法が開発されてきた。
【0126】
このような理由から、室内音響の両方の表現を視覚化するためのグラフィカル・ユーザー・インターフェース(GUI)が創造されてきた。GUIは、平面波分布と対応するBRIRの両方のインパルス応答との時間依存のスナップショットを含む。スライディングマーカーは、室内音響の両方の表現間の時間的関係を示す。
【0127】
次に、音場分析について説明する。
【0128】
第1ステップにおいて、球面室内インパルス応答セットに基づく音場分析が実行される。この目的で、FH Koelnは、マイクロホンアレーデータを分析する「SOFiA」というツールボックスを提供している(非特許文献32参照)。ここで、上述した制限を考慮しなければならず、従って、ツールボックスのコアMatlab関数だけが使用可能である。しかしながら、これらはカスタム分析アルゴリズムへと統合されなければならない。これらの関数は異なる算術的計算に焦点を当て、以下のように説明される。
【0129】
F/D/T(周波数ドメイン変換)に関し、この関数は、各インパルス応答について高速フーリエ変換(FFT)を使用して、時間ドメインアレイデータを周波数ドメインデータへと変換する。スペクトルデータは離散的であるので、スペクトルは離散的周波数目盛上に定義される。この目盛と球面測定の半径とに基づいて、1つのkr目盛が計算される。それは均等目盛であって、後続の計算を通して使用されるであろう。
【0130】
S/T/C(空間変換コア)に関し、空間変換コアは、複素(スペクトル)フーリエ係数を使用して空間フーリエ係数を計算する。変換はkr目盛上で実行されるので、周波数依存である。このため、アレイデータは事前にスペクトルドメインへと変換されていた。
【0131】
ここで、M/F(モード・ラジアル・フィルタ:modal radial filters)について考察する。
【0132】
球の構成およりマイクロホンタイプに依存して、M/Fは平面波分解を実行すべくモード・ラジアル・フィルタを生成することができる。それは、ベッセル関数およびハンケル関数を使用してラジアル・フィルタ係数を計算する。これらの測定に使用される構成に関し、フィルタ係数dn(kr)は例えば式(10)の逆である。
【数14】
【0133】
P/D/C(平面波分解)に関し、この関数は、空間フーリエ係数を使用して逆空間フーリエ変換を計算する。このステップにおいて、空間フーリエ係数はモード・ラジアル・フィルタにより乗算される。これにより、平面波分解された球面音場分布がもたらされる。
【0134】
図22は音場分析アルゴリズムの概観を示す。細線は情報またはパラメータを伝送し、太線はデータを伝送する。関数2201,2202,2203,2204はSOFiAツールボックスのコア関数である。4個のSOFiAツールボックス関数は、以下に説明する1つのアルゴリズムへと統合される。対応する構造は図22に示される。
【0135】
ここで、スライディング窓の概念について考察する。分解された波面の短時間表現に注目し、分析のために球面インパルス応答を短時間に制限するために、スライディング窓が作成された。一方では、矩形窓は有意な視覚的結果を得るために十分な長さを持たなければならない。演算量を少なくするため、スペクトルフーリエ変換次数はNfft=128に制限される。このため、特に非常に短い期間については不正確なスペクトル分析がもたらされ、よって、空間分析もまた不正確になるであろう。他方では、単位時間当りより多くのスナップショットを得るためには、時間期間はできるだけ短くなければならない。試行錯誤を繰り返すことで、Lwin=40サンプル(48kHzにおいて)が合理的な窓長として決定されてきた。残念ながら、40サンプルの時間分解能は、個別の反射を検出するためには十分に正確と言えない。
【0136】
一次元短時間フーリエ変換に影響されて、隣接する時間区間のオーバーラップが包含される。Lwin=40サンプルの長さを有する窓が10サンプル毎に分析される。結果的に、75%のオーバーラップが達成される。その結果、4倍高い時間分解能が可能となる。
【0137】
図23は、各測定セットにおける最も近いマイクロホンの異なる位置がオフセットをもたらすことを示す。図23に見られるように、オーバーラップは平滑化の挙動をもたらすが、これは更なる研究に対して影響を与えるものではない。
【0138】
高いゲインは回避されなければならない。例えばモード・ラジアル・フィルタに起因する高い増幅を防止するため、空間フーリエ変換の次数は小さなkr値に制限されなければならない。このため、フィルタゲインを所与のkr値に依存して比較する1つの関数が構成された。閾値はGthreshold=10dBへと設定され、よって、その閾値が許可する増幅よりも小さな増幅を引き起こすフィルタ曲線だけが使用される。この制限を実施するために、空間フーリエ変換の次数はNmax(kr)に制限されなければならない。
【0139】
エイリアシングを防止するためのエイリアシング基準の遵守を確保するため、他の関数がこのアルゴリズム内に組み込まれる。それは最大限に許可されるkr値を計算し、krベクトル内の対応するインデックスを見つける。この情報は次に、(S/T/C及びP/D/Cにおける)分析を既定値までに制限するために使用される。
【0140】
S/T/C及びP/D/Cの計算は各kr値について個別に実行されなければならないので、音場分析の最終ステップは、例えばkrに依存する全ての結果の加算であってもよい。分解された波面の視覚化のために、P/D/C出力データの絶対値が加算される。
【0141】
音場分析の結果は、例えば次にそれらを両耳インパルス応答と相関させるために使用されてもよい。関係する音源の方向に従って、両方がGUI内で図示される(図24参照)。
【0142】
しかし、まず、例えば幾つかの事前措置が採られてもよい。
【0143】
時間調節のために、両方の測定値は関数「Estimate TOA」によって分析され、ここで、ラウドスピーカから最短のマイクロホンまでの音の持続時間が推定される。両耳セットにおいて、最短のマイクロホンは常に同側に位置する。よって、対応するBRIRチャネルがTOAを推定するために選択される。このインパルス応答を使用することで、最大値が決定され、最大値の20パーセントである閾値が作成される。直接音はインパルス応答における時間的に最初の事象であり、また最大値を含むので、TOAは閾値を超える第1ピークとして定義される。球面セットにおいて、最短のマイクロホンのインパルス応答は、時間的に各インパルス応答の最大値を比較することで推定される。次に、TOA推定のための同様の処置が、最も早い最大値を有するインパルス応答に対して適用される。
【0144】
球面セットの最短のマイクロホンは、両耳セット(図23)のマイクロホンと同じ位置にある訳ではない。しかしながら、この作業では対角線上に配置されたラウドスピーカだけが測定されるので、それらの間の距離は常に同じであろう。よって、約7.5cm又は(48kHzにおいて)10サンプル程度の相違があり、これは音場分析の時間分解能において1ステップのオフセットに対応する。そのオフセットを考慮すると、TOA推定のこの簡易な方法は著しく良好な結果をもたらす。
【0145】
上述のようなTOA推定と遷移点推定とを使用して、音場分析はそれらの時間インデックスへと時間的に制限される。BRIRセットはまた、それらの制限内に納まるように窓掛けされるであろう(図24参照)。
【0146】
図24は、グラフィカル・ユーザー・インターフェースが音場分析の結果とBRIR測定値とを視覚的に結合させることを示している。
【0147】
図25は、両耳測定値と球面測定値とを相関させるための、グラフィカル・ユーザー・インターフェースの出力を示す。現時点のスライダー位置について、耳レベルよりも僅かに高い後方から頭部に到達する反射が検出されている。BRIR表現において、この反射はスライディング窓によりマークされる(線2511,2512,2513,2514)。
【0148】
BRIRの2個のチャネルがGUIの下方部分に図示されており、絶対値を示している。反射をより良好に認識するため、値の範囲は0.15に制限される。線2511,2512,2513,2514は、音場分析で使用されてきた40サンプルの長いスライディング窓を表す。上述したように、両方の測定値間の時間的関係はTOA推定に基づいている。スライディング窓の位置は、BRIR図内においてだけ推定される。
【0149】
分解された波面のスナップショットは左上図に示される。ここで球面は、各方位角および仰角についての(均等目盛またはdB目盛の)大きさを有する2次元平面上に投影される。あるスライダーが、スナップショットのための観察時間を制御し、BRIR図におけるスライディング窓の対応する位置を選択する。
【0150】
分解された波面の時間的分布を両方の角度について1つの図内で見ることは不可能である。従って、それは水平および垂直の表現へと分離されなければならない。水平分布のために、全ての仰角についてのデータの合計が計算されており、1つの平面へと削減されている。垂直分布のために、全ての方位角についてのデータの合計が計算されている。初期における詳細が見えるように、両方の図は2000サンプルに制限される。HRIRの初めの120サンプルは範囲外であり、視覚的表現の中にクリップされている。
【0151】
以下に、BRIRにおける反射の検出と分類の作業流れを提示する。
【0152】
時間ドメインにおいてオーバーラップしている強い反射に起因して、単一反射を個別に切り出すことは完全には可能ではない。たとえ初期には一次の反射同士がそれら自身の間でオーバーラップしない場合でも、同時にマイクロホンに到達する散乱がある可能性がある。よって、本研究においては、BRIR及び分解された波面表現において際立つピークを有する反射の部分だけを考慮すべきである。
【0153】
図26は、両方の測定において捕捉されたある反射の異なる時間的ステージを示す。2番目の横列で見られるように、反射は音場分析の分析窓において際立っている。同様の挙動がBRIRにおいて見られる。この例では、反射は、両方のチャネルにおいて、その間近の周囲内で最高値を有するピークを発生させている。それを更なる研究に使用するため、開始時点と終了時点とを決定する必要がある。
【0154】
このため、遷移点を見つけるため、現在から以前の反射へと幾つかの時間ステップを遡る必要がある。このプロセスは図26の1番目の横列に詳細に示される。分析窓は2つの反射の間に位置している。視覚的査定に基づいて、開始点は例えばサンプル910に設定され得る。両方のチャネルにおいて、極小値が存在する。その場合、反射は後方から出現するため、同じ値が両方のインパルス応答について選択され得る。これは、BRIRにおいてITD又はILDは殆ど存在しないことを意味する。その他の場合、方位角に依存して、ITDが加算されるべきである。同様の処理が終了点についても実行される。
【0155】
図26は、分解された波面およびBRIR図において表現された、反射の異なる時間的ステージを示す。左の縦列は開始時を示す。その時点では、別の反射が次第に消滅してゆく。中央の縦列では、所望の反射が分析窓の中で際立っている。右の縦列では、その反射は次第に弱くなり、他の反射の間にゆっくりと消えていき、散乱していく。
【0156】
次に、初期反射の影響について議論する。
【0157】
この作業は、高さ知覚に対する初期反射の影響を研究することに焦点を当てているが、両耳処理における反射の挙動および役割を理解することが必要である。特に、反射とは直接音の修正された反復である。マスキング効果および先行音効果が発生し得るので、全ての反射が可聴となる訳ではないと推定することが合理的であろう。ここで問題となるのは、全ての反射が定位および全体的音印象の保存にとって重要かどうかである。どの反射が高さ知覚にとって必要になり得るのかどうか。音印象を破壊せずかつ自然度を保ちながら、追加テストがどのように計画され得るのかどうか。
【0158】
両耳知覚において反射がどのように抑制されるかを説明する一般的規則を見つけ出すことは、この作業の意図ではない。寧ろ、上述の問題に対する答えを探すことが目的である。従って、関連性のない反射は、マスキング効果及び先行音効果の原理を使用しながら、聴覚査定に基づいて決定される。
【0159】
ここで、反射の空間的分布について、上述したモーツァルト受聴環境を参照しながら考察する。
【0160】
図27は、音源方向:方位角45°,仰角55°を有する場合のモーツァルトにおける水平および垂直の反射分布を示す。この室内では、初期反射は3方向へと分離され得る。即ち、1.[サンプル:120−800]直接音とほぼ同一方向から到来する反射。2.[サンプル:800−1490]反対方向から到来する反射。3.[サンプル:1490−遷移点]全ての方向から到来し、より低いパワーを有する反射。
【0161】
種々の音源方向についての初期反射の水平および垂直分布を評価することで、典型的な分布パターンが観察され得る。空間的分布は3つの領域へと分割され得る。第1セクションは直接音の直後にサンプル120で開始し、サンプル800の付近で終了する。水平表現から、反射は音源とほぼ同じ方向からスイートスポットに到達することが見て取れる(図27の左側)。エレベーション図(図27の右側)は、この領域において全ての波が地面または天井によって反射されていること示す。
【0162】
第2セクションにおいて、反射は音源の反対側から到来する。この時間区間はサンプル800で開始し、サンプル1490で終了する。ここで、正面方向(45°/315°)からの音源は、170°/190°付近の方位角の明瞭な反射を引き起こす。これは、後方にある強い反射表面を有する大きな窓によるものである。他方、後方(135°/225°)からの音源は、正面に強い反射面がないことから、反対側コーナー(315°/45°)において明瞭な反射を引き起こす。高さ分布については、明確な特徴は提示できない。
【0163】
第3セクションは、サンプル1490で開始し、推定遷移点で終了する。ここで、幾つかの例外を除き、反射はほぼ全ての方向および高さから到来する。更に、音圧レベルは強く低減されている。
【0164】
以下に、聴覚的に意味のある反射への縮小について考察する。
【0165】
初期反射音を1つのBRIRペア(音源方位角45°,仰角55°)における主音(essentials)へと低減する試みがなされる。抑制された反射が決定されてゼロに設定され、無修正のBRIRと比較される。定位は、スペクトルキューとの相関関係、従って音の音質との強い相関関係があるので、定位と音印象とは分離され得ない。BRIRから反射を除外することは、如何なる知覚的相違をもたらすべきではない。
【0166】
抑制された反射を決定する際、幾つかの空間特性に留意すべきである。2つの音だけが関係する古い実験と比較して、BRIRにおいては多数の反射がマスキング及び先行音効果の挙動に影響を与える。更に、反射インパルス応答は、それがフィルタリングする音に依存して種々の効果長および品質をもたらすので、インパルス応答に対して規則を直に適用することは不可能である。加えて、BRIRを取り扱う場合、両耳キューはマスキングに影響を与え得る。なぜなら、受聴者はマスキング音およびマスキングされた音の2つのバージョンを受け取るからである。両方のバージョンは、ITD,ILD及びスペクトル成分において異なっている。その場合、受聴者はより多くの情報に戻る。顕著な実例は「カクテルパーティ効果」(非特許文献33参照)であり、聴覚システムは混雑した室内で一人に焦点を当てることができる。
【0167】
図28は、「モーツァルト」における水平および垂直の反射分布を示し、音源方向は方位角45°、仰角55°である。このとき、可聴反射だけが両図のプロット内に残される。
【0168】
図29は、エレベーションありのBRIRのペアを示し、音源方向は方位角45°、仰角55°である。セクション2911,2912,2913,2914,2915;2931,2932,2933,2934,2935は、インパルス応答2901,2902,2903,2904,2905;2921,2922,2923,2924,2925においてゼロに設定される。
【0169】
抑制された反射を決定する手法は以下の通りである。初期反射の第1セクションにおいて、サンプル300と650との間の全てがゼロに設定される。ここでの反射は第1の地面および天井反射の空間的反復である(図29参照)。それらは、可能性のある先行音またはマスキングの効果により、BRIRにおいて知覚的に無関係と推定され得る。最初の2つの反射音の顕著性もまた、BRIR図内で見つけることができる(図30参照)。これは上述の推定を支持するものである。サンプル650と800との間の範囲は比較的弱い反射を含むが、それら反射は重要に見える。そこまで延びる抑制効果はないと考えられ、それらを除外しても小さな知覚的差異しか引き起こせないが、それらはBRIR内に残る。
【0170】
第2セクションの開始(800−900)も、同様に抑制されていないように見える。ここの反射音は、BRIR図内で高いピークを示し、反対方向から発生する。サンプル910における反射は、サンプル1080におけるより強い反射の先行反復であり、よって知覚的には無関係である。サンプル900と1040との間の範囲は除外されている。サンプル1040から1250までについては、反射音の顕著なグループがあり、除外できない。第1セクションの終了と比較して、第2セクションの終了(1250−1490)は知覚的にはあまり明確でないが、しかし依然として重要である。
【0171】
2つの例外(1630−1680,1960−2100)を除いて、完全な第3セクションがゼロに設定される。ほぼ全ての方向からスイートスポットへと到達するので、反射音の成分は明らかに指向性キューを持たない。
【0172】
図30は、全ての初期反射(左)について及び知覚的に関連する初期反射(右)だけについて、音場分析の全ての「スナップショット」の加算を示す。
【0173】
特に、図30の左は、全ての初期反射の累積的な空間分布を示す。この図において、第1と第2のセクションは容易に認識され得る。方位角45°にある音源について、第1反射グループは音源方向から到来し、第2グループは約170°から到来する。この分布は明らかに音キューを生じ、それらは自然な音印象および良好な定位をもたらす。なぜなら、それらは人間の聴覚システム内に記憶されたキューに匹敵するからである。
【0174】
更に、図30は、無関係な反射音を除外する前(左)と後(右)の累積的な空間分布を示しており、その中で、重要でない反射は排除されている。更に、定位に関係のある顕著な反射音を示すことが容易である。この知見は、初期反射における高さ知覚キューを探索する中で、以下において活用される。
【0175】
図31は、受聴テストにおいて修正BRIRと比較してテストされた無修正BRIRを示し、3つの追加条件を含む。第1の追加条件は全ての初期反射を除外することであり、第2の条件は以前に除外された反射だけを残すことであり、第3の条件は初期反射の第1および第2のセクションを除外することだけである(図31参照)。
【0176】
図31は、エレベーションなしのBRIRペア(1,2列)と、エレベーションありのBRIRペア(3,4列)と、修正BRIRペア(5,6列)とを示す。最後の場合には、エレベーションありのBRIRの初期反射がエレベーションなしのBRIRの中に挿入されている。
【0177】
第1条件で受聴しているとき、直接音はあまり仰角を持たない角度から知覚される。更に、2つの個別の事象(直接音と残響)が可聴である。非公式の受聴テストでは、初期反射が結合特性を持ち得ることが示されるように見える。
【0178】
以下に、特に本発明の基礎となる概念を提示する。
【0179】
まず、高さ知覚のキューについて考察する。
【0180】
上述に基づいて、初期反射が高さ知覚をサポートするかどうかについて考察する。また、初期反射のスペクトル包絡は高さ知覚のキューを含んでいるかについても考察する。以下の実験では、聴覚的評価が数人の専門の受聴者のフィードバックに基づいている。
【0181】
初期反射は高さ知覚をサポートする。これは、エレベーションなしのBRIRの初期反射とエレベーションありのBRIRの初期反射との間に可能性のある差が存在する場合に、高さ知覚に関して分析する初期テストにおいて実証された。45°の方位角に対し、BRIRの2個のペアが選択された。エレベーションなしのBRIRの初期反射を置換するため、エレベーションありのBRIRの初期反射が用いられた(図32参照)。これにより、エレベーションなしのBRIRはより高い仰角から知覚されるであろうと予想される。
【0182】
図32は、各チャネルについて、エレベーションなしのBRIR(左)が、それ自身(右)であってエレベーションありのBRIRの初期反射(図32の右側のボックス)を含むものと知覚的に比較された図を示す。
【0183】
初期反射と残響との間の遷移点を推定するアルゴリズムが、各BRIRに対して個別に適用される。従って、初期反射領域についての4個の異なる値と4個の異なる長さとが想定される。BRIRの初期反射を交換するために、各チャネルについて同一長さが求められる。この場合、初期反射部分の終了部の除外による削減によって、残響の領域への拡張が好ましい。初期反射と比較して、残響は指向性情報を全く含まず、他の場合に想定されるように実験に大きな歪みを与えることはないであろう。図31(5列及び6列)に見られるように、チャネル1の初期反射はサンプル120で開始し、2360で終了する。チャネル2においては、初期反射はサンプル120で開始し、2533で終了する。
【0184】
エレベーションなしの音源は、確かに高い仰角から知覚される。これは、初期反射が、自然に知覚されている直接音をサポートしているだけでなく、可聴の方向依存特性を有することを意味する。
【0185】
スペクトル包絡は高さ知覚についての情報を含む。音源の高さ知覚についての興味から、スペクトル情報だけを使用しながら前の実験が繰り返された。特に、正中面上での定位がスペクトルキューによって(及び例えばさらに直接音と残響との間の時間差によって)制御されることから、実験目的は、スペクトルドメインに対する修正が同じ効果を達成するために十分かどうかを見極めることである。このとき、同じBRIRと、初期反射領域を表す同じ開始点および終了点とが使用された。
【0186】
図33では、エレベーションなしのBRIR(左)の初期反射が知覚的にそれ自身(右)と比較されており、ここでは、初期反射はチャネル毎にエレベーションありのBRIRの初期反射により色付けされている(図33の右側のボックス)。エレベーションありのBRIRの初期反射は、チャネル毎にエレベーションなしのBRIRの初期反射をフィルタリングするための基準として使用されている。
【0187】
各チャネルのフィルタリング処理に従えば、
−エレベーションありのBRIRの初期反射について離散フーリエ変換が計算され、ERel,fftが取得される。エレベーションなしのBRIRの初期反射について離散フーリエ変換が計算され、ERnon-el,fftが取得される。
−ERel,fft及びERnon-el,fftの大きさは、ERB目盛にわたってスライディングしながら、矩形窓によって平滑化され(非特許文献34参照)、矩形窓が人間の聴覚におけるフィルタの帯域幅への近似を与え、ERel,fft,smooth及びERnon-el,fft,smoothを取得する。
−補正フィルタを計算するために、まず基準曲線が実際の曲線により除算される。これにより、補正曲線CCsmooth=ERel,fft,smooth/ERnon-el,fft,smoothが得られる。
−ケプストラム・ドメインにおいて適切な窓掛けをすることで(非特許文献35参照)、最小位相インパルス応答IRcorrection をCCsmoothから作成することが可能である。
−IRcorrection は、エレベーションなしのBRIRの初期反射をフィルタリングするために後で使用される。
【0188】
簡易な補正曲線を取得するために、ここで平滑化が実行される。
【0189】
チャネル1についての4.3パーセントのエネルギー差と、チャネル2についての3.0パーセントの値とが取得される。これらの小さな差は、図34において、スペクトル包絡3411,3412と点線のスペクトル包絡3401,3402との間に見つけることができる。
【0190】
図34はエレベーションなしの初期反射3421,422とエレベーションありの初期反射3411,412と修正済み(点線)の初期反射3401,3402との各スペクトル包絡(第1横列)を示す。対応する補正曲線は第2横列に示される。
【0191】
エレベーションなしのBRIRとスペクトル修正済みのBRIRとの聴覚的比較は、仰角の増大を示さない。また、補正曲線は6dBのダイナミックレンジしか有しない。全ての初期反射のスペクトルが高さについての情報を有する訳ではないように見える。
【0192】
上述のことから、初期反射の全体領域が可聴という訳ではなく、最後の実験のスペクトル修正に含まれた非可聴部分が結果を歪ませることが分かる。特に、反射が全方向から来る初期反射領域の第3部分は、補正曲線の低いダイナミックレンジの原因となっている可能性がある。よって、最後の実験を繰り返し、今回は可聴の初期反射にのみ焦点を当てる。
【0193】
可聴の反射のために選択されたセクションは表1で与えられる。
【表1】
【0194】
表1はエレベーションありおよびエレベーションなしのBRIRの初期反射の可聴セクションを示す。強いオーバーラップに起因して、ITDはここでは考慮されない。セクションにフェードイン及びフェードアウトするために、チューキー窓(Tukey-Window)が使用され、残りはゼロに設定される。
【0195】
図35は、エレベーションなしの初期反射3521,3522と、エレベーションありの初期反射3511,3512と、修正済み(点線)の初期反射3501,3502との各可聴部分のスペクトル包絡(第1横列)を示す。対応する補正曲線を第2横列に示す。
【0196】
以下に、スペクトル包絡の分析を行う。
【0197】
上述したように、正中面上での定位は所定の周波数範囲の増幅によって制御される。従って、スペクトルキューはエレベーションありの角度から音源を知覚することに関係しており、この作業における研究は、スペクトルドメインにおける所望のキューを見つけることに焦点を当てている。
【0198】
エレベーションありBRIRの初期反射のスペクトル包絡を用いてエレベーションなしのBRIRを修正することは、音源の仰角を増大させることにはならなかった。全ての初期反射のスペクトル包絡と単一反射のスペクトル包絡とを比較することで、単一反射は可聴領域においてよりダイナミックなスペクトル推移を有する(20kHzまで)と言える。対照的に、全体的なスペクトルは寧ろ平坦な曲線(図36参照)を示す。
【0199】
図36はスペクトル包絡の比較を示す。全ての初期反射または全ての可聴初期反射のスペクトル包絡は、可聴領域において平坦な曲線(20kHzまで)を示す。対照的に、単一反射のスペクトル(第2横列)は、よりダイナミックな推移を有する。
【0200】
特に、図36は結果的な補正曲線を示す。ここではパターン及びダイナミックレンジが変化しているが、知覚的には仰角に関して有意な変化はない。同側の耳(CH1)のスペクトル包絡においては少なくとも4.5dBの差があるが、反対側の耳の包絡間においては本質的な差はない。それらが修正するレンジは顕著な直接音の後に存在することを考慮すれば、これらの値は比較的小さい。
【0201】
初期反射がグループとして音の印象の自然さに対して重要な影響を持つことは可能であり、これは、仮想音源を受聴する場合に高さ知覚を導入するために必須である。しかし、高さ知覚のためのキューが単一反射のスペクトル内に位置していることは理にかなっている。マイクロホンアレー測定によって獲得された反射の空間分布についての知見は、以下の実験で使用されている。
【0202】
ここで、高い仰角からの初期反射を増幅させる概念を提示する。
【0203】
高さ知覚のためのキューを含む反射を、それらを増幅することによって決定する。直観的には、これらのキューを含む何らかの単一反射があれば、それらはより高い仰角から受聴者へと到達し得る。
【0204】
以前のテストでは、低い仰角から来る反射からのエネルギーを高い仰角から来る反射へとシフトすることが試みられた。残念ながら、非可聴範囲内にはない低い仰角からの反射は2つだけである。この状況は、「モーツァルト」内での測定用ラウドスピーカの幾何学的特性がほぼ同一であるため、全ての方向において観察された。これと比較して、高い仰角から来る反射が非可聴セクション内にある場合は、致命的ではない。これらの反射を増幅させることにより、それらは抑制効果を超越して知覚可能になるであろう。しかしこの場合、隣接する反射に対する強いオーバーラップ領域を持たない、4つの反射がインパルス応答から分離され得る。この実験で使用される少量の反射に起因して、第1チャネルについては1.14だけ及び第2チャネルについては1.33のゲイン値が得られる。それらは高さ知覚における強化を誘起するには十分ではない。他の部分から高い仰角を有する4つの反射へと体系的にエネルギーをシフトする幾つかの他の手法も、同様な結果となった。
【0205】
このため、聴覚的に評価されたチューニングに基づいて、適切なゲイン値を見つけるための試みがなされた。4つの反射の各々を増幅するため、範囲3と15との間における異なる値が選択された。これらの反射は図37に示される。
【0206】
図37は、高い仰角から受聴者に到達し、値3で増幅される、4つの選択された反射3701,3702,3703,3704;3711,3712,3713,3714を示す。サンプル1100の後ろにある反射は、隣接する反射に対して強いオーバーラップを有し、ゆえにインパルス応答から分離できない。
【0207】
それら反射は増幅されて、曲線3701,3702,3703,3704及び曲線3711,3712,3713,3714によって表される。増幅された反射を知覚的に比較すると、二次反射3702;3712と三次反射3703;3713とは、正中面よりも方位角平面上において空間的シフトを引き起こすことが分かった。これは、強い残響音印象をもたらす。
【0208】
一次反射3701;3711と四次反射3704;3714との増幅は、知覚された仰角の強化につながる。それらを比較すると、一次反射3701;3711の増幅は、四次反射3704;3714よりも音質においてより大きな変化をもたらす。更に、四次反射3704;3714の場合には、音源はよりコンパクトに聞こえる。しかしながら、それらを同時に増幅させると、知覚的には最良の結果を生む。両方のゲイン値の関係が重要である。第4のゲイン値は第1のゲイン値よりも高くなければならないことが分かった。複数回の試行の後で、4及び15のゲイン値が、最大かつできるだけ自然な効果を有することが、専門の受聴者によって発見されかつ確認された。これらの値の偏差は、小さな効果の変化しか生まないことに留意すべきである。従って、それら値は以下の実験において指向値(orientation values)として使用されるであろう。
【0209】
以下に、本発明の具体的実施例を挙げる。
【0210】
特に、仮想音源にエレベーションを付ける概念について説明する。
【0211】
上述した結果から、高い仰角から現れる2つの反射は、高さ印象について重要な役割を果たすキューを確かに含むことを示している。BRIR内のそれらのオリジナル位置において増幅されることで、時間的キューは変化しない。高さ強化が時間的キューではなくスペクトルキューによって引き起こされることを確保するため、スペクトルはフィルタを作成するために隔離される。
【0212】
その高い音レベルにより、直接音は定位プロセスを支配する。初期反射の重要度は2番目であり、個別の聴覚事象として知覚されない。先行音効果による影響を受けて、初期反射は直接音をサポートする。よって、HRTFを修正するため、作成されたフィルタを直接音に適用するのが合理的である。
【0213】
2つの反射音の幾何学的分析は、BRIRにおける両方の反射の位置および空間分布表現における仰角を考察すると、反射は一次及び二次の天井反射として識別され得る、という知見を提供する。
【0214】
図38はある音源についての両方の天井反射の図を示す。受聴者およびラウドスピーカに関する平面図(左)と背面図(右)である。
【0215】
特に、図38は平面図と背面図における幾何学的状況を示す。二次反射は勿論より弱く、2回反射しているので、一次反射よりも直接音との音響的類似性が低い。しかしながら、二次反射はより高い仰角から受聴者へと到来する。上述したように決定された15のゲイン値が、その重要性を補強している。
【0216】
図38の左図において、両方の反射が直接音と同じ方向から出現することが分かる一方で、異なる仰角を有する(右図)ことが分かる。測定用設定の対称性に起因して、この幾何学的状況は、エレベーションありの環上で測定される4個の(対角線)ラウドスピーカの各々に対して与えられている。対応するBRIRにおける両方の反射の位置は、常に同じであることが見て取れる。従って、方位角α∈{0°,90°,180°,270°}にあるラウドスピーカについての音場分析結果を持たずに、それらは以下の研究においても使用可能である。
【0217】
以下に、実施形態に係る直接音のスペクトル修正について説明する。
【0218】
フィルタ目標曲線は2つの天井反射の組合せによって形成される。ここでは、絶対ゲイン値(4および15)ではなくそれらの関係だけが使用される。よって、一次反射は1により増幅され、二次反射は4により増幅される。両方の反射は時間ドメインにおいて1つの信号へと連続的に融合される。直接音のスペクトル修正のために、Melフィルタバンクが使用される。フィルタバンクの次数はM=24に設定され、フィルタ長はNMFB=2048に設定される。
【0219】
図39は、Melフィルタバンクを用いた各チャネルのフィルタリング処理を示す。入力信号xDS,i,α(n)がM個のフィルタの各々を用いてフィルタリングされる。M個のサブバンド信号はパワーベクトルPR,i,α(m)と乗算され、最終的に1つの信号yDS,i,α(n)に加算される。
【0220】
図39に示されるフィルタリング処理をステップ毎に説明する。
1.直接音xDS,i,α(n)がMelフィルタバンクによりフィルタリングされて、M個のサブバンド信号xDS,i,α(n,m)を取得する。インデックスi∈{1,2}はチャネルを示し、αは音源の方位角を示し、nはサンプル位置を示し、m∈{1,M}はサブバンドを示す。
2.反射の組合せxR,i,α(n)はMelフィルタバンクによりフィルタリングされて、M個のサブバンド信号xR,i,α(n,m)と各サブバンド信号のパワーとを取得し、パワーベクトルPR,i,α(m)内に格納される。パワーは式(15)により計算される。
【数15】
3.フィルタ目標曲線を暗示的に含むパワーベクトルPR,i,α(m)は、各サブバンドにおいてxDS,i,α(n,m)を重み付けするために使用される。
4.時間ドメインでxDS,i,α(n,m)がPR,i,α(m)と乗算された後で、重み付きサブバンド信号は一緒に加算され、完全なフィルタリング済み信号yDS,i,α(n)を取得する。
【0221】
フィルタリングの後で、直接音インパルス同士のILDが変化する。それは各チャネルにおける両方の反射の組合せを介して定義される。よって、修正済み直接音インパルスは、それらのオリジナルレベル値へと補正されなければならない。直接音のパワーは、フィルタリングの前(PBefore,i,α)と後(PAfter,i,α)で計算され、補正値
がチャネル毎に計算される。各直接音インパルスは、次に対応する補正値によって重み付けされ、オリジナルレベルを取得する。
【0222】
図40は、方位角α=225°からの音源のパワーベクトルPR,i,α(m)を示す。ここで、曲線4001は同側の耳での補正をもたらし、曲線4011は反対側の耳での補正をもたらす。
【0223】
図40の補正は、中央領域におけるサブバンド信号パワーの増加において表現される。同側および反対側の補正ベクトルの形状は類似している。非公式の受聴テストの後で、受聴者らは、未修正BRIRに対する明瞭な高度差について報告した。エレベーションありの音はより大きな距離とより小さな音量とを持って知覚された。幾つかの方位角について、定位をより困難にする残響の増加が可聴であった。
【0224】
以下に、実施形態に係る可変の高さ生成について考察する。
【0225】
図41は、異なる指数に起因する異なる増幅曲線を示す。指数関数x1/2を考慮する場合、1より小さい値は増幅され、1より大きな値は減衰されるであろう(図41参照)。指数値を変更すると、異なる増幅が取得される。1の場合は、修正は何も実行されない。
【0226】
図42は、異なる指数がPR,i,225°(m)(左)とPR,i(m)(右)とに対して適用される様子を示す。結果として、異なる形状が達成される。左図において、方位角はα=225°である。ここで、CH1は反対側のチャネルを指し、CH2は同側のチャネルを指している。右図において、曲線は全ての角度にわたって平均化されているので、CH1は左耳を指し、CH2は右耳を指している。
【0227】
このメカニズムをPR,αに適用すると、異なる曲線強調(curve emphasis)が達成され得る。図42に見られるように、直接音のスペクトル修正の強さは指数値によって制御可能であり、フィルタ曲線、及び従って音源の高さ強化の制御ができる。対照的に、負の指数は、中央領域におけるサブバンド信号を減衰させることで、帯域停止の挙動をもたらす。修正済みの直接音インパルスは、後で、それらのオリジナルレベル値へと再度補正される。
【0228】
非公式の受聴テストが行われ、評価された。指数を増大させることにより、音源を上方に移動させることが報告された。負の指数は、音源を下方に移動させた。また、音源を下降させると、音質が強く変化することも報告された。非常に「鈍い」音質へと変化する。更に、指数の範囲を[−0.5,1.5]に制限することが合理的であることも観察された。より小さい値及び高い値は、強い音質変化を引き起こす一方で、高度差を小さくする傾向がある。
【0229】
以下に、実施形態に係る方向独立型の処理について説明する。
【0230】
これまで、処理は各方位角について個別に実行されてきた。図38に示すように、方位角方向に依存して、各音源はそれ自身の反射によって修正されていた。処理に含まれる反射は常にBRIRにおいて同じ位置に現れることが既知であるので、処理は簡素化され得る。各方向についてのPR,i,α(m)を比較すると、全ての曲線が帯域通過の挙動を示すように見えることが分かる。従って、全ての方位角にわたって平均化することにより、PR,i,α(m)はPR,i(m)へと削減される。
【0231】
R,i(m)は、処理が同側の耳で実行されるか又は反対側の耳で実行されるか、に依然として依存している点に留意すべきである。図43に示すように、平均化プロセスはケース依存で実行される。左側では、全ての同側の信号が平均化され、右側では、全ての反対側の信号が平均化される。方位角α=0°及びα=180°におけるラウドスピーカについては、両方のチャネルで対称性がある。このため、同側と反対側との間に区別はなく、両方が各ケースにおいて使用される。
【0232】
図43は、平均化処理のための同側(左)及び反対側(右)のチャネルを示す。測定用頭部の前後にある2つのラウドスピーカは、対称的なチャネルを有する。従って、これらの角度に関し、同側と反対側と間の区別はない。
【0233】
図42(右)に見られるように、平均化処理の後、チャネル間の差は低減されている。非公式の受聴テストの結果、1指数あたり1つだけの曲線PR(m)を取得するための両方のチャネルにわたる追加の平均化は、聴覚的な差を生まないことが分かる。平均化された曲線は図44(左)に示される。
【0234】
以下に、前後の区別について考察する。
【0235】
「前後の区別」にとって重要なスペクトルキューは、直接音と目標フィルタ曲線とに含まれる。直接音内のキューはフィルタリングによって抑制され、目標フィルタ曲線内のキューは全ての方位角にわたってPR,i,α(m)を平均化することによって抑制される。従って、より強い「前後の区別」を獲得するために、これらのキューは再度強調される必要がある。これは以下の方法で達成され得る。
1.全てのチャネルと全てのα∈[90°,270°]とでPR,i,α(m)を平均化してPBack(m)を取得する。
2.全てのチャネルと全てのα∈[270°,90°]とでPR,i,α(m)を平均化してPFront(m)を取得する。
3.PFrontBack,max(m)=PFront(m)/PBack(m)を計算して、図44(右)に示すような前方と後方との間の差分曲線を取得する。より強い平滑化効果を達成するために、α=90°及びα=270°についてPR,i,α(m)が2度使用される。それらは前面(frontal plane)上に位置しているので前方または後方の情報を何も含まず、結果的な曲線を歪ませることもない。仮に、この曲線をα=180°にあるエレベーションありの音源に適用した場合には、それをα=0°へと移動させることになるであろう。
4.音源方向に依存して、この曲線はハーフコサインPFrontBack(m,α)=PFrontBack,max(m)0.5*cos(α)により指数関数的に重み付けされる。α=0°について、PFrontBack,max(m)はその最大限の半分を有し、α=180°についてはその逆の半分を有する。α=90°及びα=270°についてはコサインがゼロになるので、それは1となる。
5.フィルタリング処理の中で、PFrontBack(m,α)はPR(m)と乗算される。
【0236】
図44はPR,IpCo(左)とPFrontBack(右)とを示す。
【0237】
R(m)及びPFrontBack(m,α)を用いて、仰角β=55°の環上で測定される全ての音源の高さ知覚を連続的に強化することができる。この強化方法は、「モーツァルト」内のエレベーションなしの環上で測定される音源に対して適用されてきた。またこの場合、高さ強化も知覚できた。更に、エレベーションなしの音源を、それら自身の反射を使用しながら上昇させる試行も行われた。残念ながら、その場合、二次の天井反射は他の反射によって強くオーバーラップされた。しかしながら、一次の天井反射だけを使用すると、高度差は知覚可能である。
【0238】
更なるステップにおいて、この方法は、「Cortex」を用いて測定されるBRIRの反射を使用しながら、人間の頭部を用いて測定されるBRIRに適用された。「Cortex」のBRIRは修正無しの状態で既に高く聞こえるが、この方法は明確に知覚可能な高度差をもたらす。
【0239】
高位の環上にある音源によって引き起こされる反射に対してPR(m)及びPFrontBack(m,α)を適用することで、この高さ強化方法は受聴テスト内で知覚的に研究されている。
【0240】
以下に、実施形態に係る、パラメータ化された可変方向レンダリングについて説明する。
【0241】
このシステムの目的は、まずベース方向上でレンダリングを実行し、次に1セットのベースフィルタから取得された1セットの属性を用いてその方向を補正することにより、両耳レンダリングにおける知覚方向を補正することである。
【0242】
オーディオ信号とユーザー方向入力とは、可変の方向知覚を有する両耳レンダリングを作成する「オンライン両耳レンダリング」ブロックへと供給される。
【0243】
実施形態に係るオンライン両耳レンダリングは、例えば以下のように実行されてもよい。
【0244】
入力信号の両耳レンダリングは、基準方向のフィルタを使用して実行される(「基準高さ両耳レンダリング」)。
【0245】
第1ステージにおいて、基準高さレンダリングは、1セット(1つ又はそれ以上)の離散方向両耳室内インパルス応答(BRIR)を使用して実行される。
【0246】
第2ステージ、例えば方向補正部フィルタ処理部において、例えば追加的フィルタが知覚方向(方位角及び/又は仰角の正または負の方向)を適応させるレンダリングに対して適用されてもよい。このフィルタは、例えば(可変の)ユーザー方向入力(例えば方位角:0°〜360°,仰角:−90°〜+90°における)と例えば1セットの方向ベースフィルタ係数とを用いて、例えば実際のフィルタパラメータを計算することにより、作成されてもよい。
【0247】
第1および第2のステージフィルタは、演算量を節約するために、(例えば加算または乗算により)結合されてもよい。
【0248】
本発明は上述した知見に基づいている。
【0249】
ここで、本発明の実施形態について詳細に説明する。
【0250】
図1aは、一実施形態に従ってオーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置100を示す。
【0251】
この装置100は、入力高さ情報に依存してフィルタ情報を決定するよう構成されたフィルタ情報決定部110を含み、入力高さ情報は仮想音源の高さに依存している。
【0252】
更に、装置100は、フィルタ情報に依存してオーディオ入力信号をフィルタリングし、フィルタリング済みオーディオ信号を取得するよう構成されたフィルタユニット120を備える。
【0253】
フィルタ情報決定部110は、入力高さ情報に依存して、複数のフィルタ曲線から1つの選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成される。又は、フィルタ情報決定部110は、エレベーション情報(elevation information)に依存して、基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを使用して、フィルタ情報を決定するよう構成される。
【0254】
本発明は特に、オーディオ入力信号を適切にフィルタリングすることにより、仮想音源を(仮想的に)上昇または下降させることが達成可能であるという知見に基づいている。フィルタ曲線は複数のフィルタ曲線から入力高さ情報に依存して選択されてもよく、次にその選択フィルタ曲線は、仮想音源を(仮想的に)上昇または下降させるために、オーディオ入力信号をフィルタリングするよう使用されてもよい。又は、仮想音源を(仮想的に)上昇または下降させるために、入力高さ情報に依存して基準フィルタ曲線が修正されてもよい。
【0255】
一実施形態において、入力高さ情報は、ある座標系の1つの座標の例えば少なくとも1つの座標値を示してもよく、その座標は仮想音源の位置を示してもよい。
【0256】
例えば、その座標系は、例えば3次元のデカルト座標系であってもよく、入力高さ情報は、3次元デカルト座標系の1つの座標であるか、又は3次元デカルト座標系の1つの座標の3個の座標値の1つの座標値であってもよい。
【0257】
例えば、3次元デカルト座標系における1つの座標は、x値とy値とz値、即ち(x,y,z)を含んでもよく、例えば(x,y,z)=(5,3,4)であってもよい。その場合、座標(5,3,4)は、例えば入力高さ情報であってもよい。又は、デカルト座標系の座標(5,3,4)の座標値の1つであるz値のz=4が、例えば入力高さ情報であってもよい。
【0258】
又は、例えば座標系は、例えば極座標系であってもよく、入力高さ情報は、例えば極座標系の1つの極座標の仰角であってもよい。
【0259】
例えば、3次元極座標系における1つの座標が例えば方位角ψと仰角θと半径r、即ち(ψ,θ,r)を含み、例えば(ψ,θ,r)=(40°,30°,5)であってもよい。仰角θ=30°は、極座標系の座標(40°,30°,5)の仰角である。
【0260】
例えば、極座標系において、入力高さ情報は例えば極座標系の仰角を示してもよく、その場合、仰角は、目標方向と基準方向との間、又は目標方向と基準平面との間のエレベーションを示してもよい。
【0261】
仮想音源を(仮想的に)上昇又は下降させる上述の概念は、例えば両耳オーディオにとって特に適している。更に、上述の概念はラウドスピーカ設定にも使用され得る。例えば、全てのラウドスピーカ設定が同一平面内に配置され、かつ、高位または低位のラウドスピーカが存在しない場合、仮想音源を仮想的に上昇または仮想的に下降させることが可能になる。
【0262】
一実施形態によれば、フィルタ情報決定部110は、例えば、入力高さ情報に依存して、複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成されてもよい。入力高さ情報は入力仰角である仰角であり、複数のフィルタ曲線の各フィルタ曲線は当該フィルタ曲線に割り当てられた仰角を有し、フィルタ情報決定部110は、例えば、複数のフィルタ曲線から選択フィルタ曲線として1つのフィルタ曲線を選択するよう構成されてもよく、その選択フィルタ曲線は、全ての複数のフィルタ曲線の中で、入力仰角とそのフィルタ曲線に割り当てられた仰角との間に最小の絶対値差を有するものであってもよい。
【0263】
そのような手法により、特に適切なフィルタ曲線が選択されることが実現できる。例えば、複数のフィルタ曲線は、例えば仰角0°,+3°,−3°,+6°,−6°,+9°,−9°,+12°,−12°等である、複数の仰角についてのフィルタ曲線を含み得る。例えば、入力高さ情報が+4°の仰角を特定した場合には、+3°の仰角のためのフィルタ曲線が選択されるであろう。なぜなら、全てのフィルタ曲線の中で、+4°の入力高さ情報とその特定のフィルタ曲線に割り当てられた+3°の仰角との間の絶対値差が全てのフィルタ曲線の中で最小、即ち、|(+4°)−(+3°)|=1°であるからである。
【0264】
他の実施形態によれば、フィルタ情報決定部110は、例えば、入力高さ情報に依存して、複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成されてもよい。入力高さ情報は、例えば入力座標値である、3次元直交座標系の座標の3つの座標値の前記座標値であってもよく、複数のフィルタ曲線の各フィルタ曲線は当該フィルタ曲線に割り当てられた座標値を有し、フィルタ情報決定部110は、選択フィルタ曲線として例えば複数のフィルタ曲線から1つのフィルタ曲線を選択するよう構成され、そのフィルタ曲線は、全ての複数のフィルタ曲線の中で、入力座標値と前記フィルタ曲線に割当てられている座標値との間に最小の絶対値差を有するものである。
【0265】
そのような手法によれば、例えば、複数のフィルタ曲線は、3次元デカルト座標系の1つの座標の例えばz座標の複数の値について、例えば0,+4,−4,+8,−8,+12°,−12,+16,−16等のz値について、のフィルタ曲線を含んでもよい。例えば、入力高さ情報が+5のz座標値を特定している場合には、+4のz座標値のためのフィルタ曲線が選択されるであろう。なぜなら、全てのフィルタ曲線の中で、+5の入力高さ情報とその特定のフィルタ曲線に割り当てられた+4のz座標値との間の絶対値差分が全てのフィルタ曲線の中で最小、即ち、|(+5)−(+4)|=1であるからである。
【0266】
一実施形態において、フィルタ情報決定部110は、決定された増幅値によって選択フィルタ曲線を増幅し、処理済みフィルタ曲線を取得するよう構成されてもよく、又はフィルタ情報決定部110は、決定された減衰値によって選択フィルタ曲線を減衰させ、処理済みフィルタ曲線を取得するよう構成されてもよい。フィルタユニット120は、処理済みフィルタ曲線に依存してオーディオ入力信号をフィルタリングし、フィルタリング済みオーディオ信号を取得するよう構成されてもよい。フィルタ情報決定部110は、例えば入力座標値と選択フィルタ曲線に割当てられている座標値との差に依存して、決定された増幅値又は決定された減衰値を決定するよう構成されてもよい。又は、フィルタ情報決定部110は、例えば、仰角と選択フィルタ曲線に割当てられている仰角との差に依存して、決定された増幅値又は決定された減衰値を決定するよう構成されてもよい。
【0267】
フィルタ曲線が対数目盛と関係している(対数目盛に関して特定されている)場合、増幅値または減衰値は、増幅ファクタ又は減衰ファクタである。増幅ファクタ又は減衰ファクタは、次に選択フィルタ曲線の各値と乗算されて、修正スペクトルフィルタ曲線が取得される。
【0268】
そのような実施形態では、選択後に選択フィルタ曲線を適応させることができる。仰角と関係する上述の第1の実例において、+4°の仰角の入力高さ情報は、選択フィルタ曲線に割り当てられた+3°の仰角と厳密には同一ではない。同様に、座標値と関係する上述の第2の実例において、z座標値に係る+5の入力高さ情報は、選択フィルタ曲線に割り当てられた+4のz座標値と厳密には同一ではない。従って、両方の実例において、選択フィルタ曲線の適応が有益と考えられる。
【0269】
フィルタ曲線が均等目盛と関連している(均等目盛に関して特定される)場合、増幅値または減衰値は、指数増幅値または指数減衰値である。その場合、指数増幅値/指数減衰値は、指数関数の冪指数として使用される。指数増幅値または指数減衰値を冪指数として有する指数関数の結果は、次に選択フィルタ曲線の各値と乗算されて、修正スペクトルフィルタ曲線が取得される。
【0270】
一実施形態によれば、フィルタ情報決定部110は、エレベーション情報に依存して基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを使用して、フィルタ情報を決定するよう構成されてもよい。更に、フィルタ情報決定部110は、基準フィルタ曲線を決定された増幅値によって増幅して処理済みフィルタ曲線を取得するか、又はフィルタ情報決定部110は、基準フィルタ曲線を決定された減衰値によって減衰させて処理済みフィルタ曲線を取得するよう構成されてもよい。
【0271】
そのような実施形態においては、ただ1つのフィルタ曲線、即ち基準フィルタ曲線だけが存在する。その場合、フィルタ情報決定部110は、入力高さ情報に依存して基準フィルタ曲線を適応させる。
【0272】
一実施形態において、フィルタ情報決定部110は、例えば入力高さ情報に依存して複数のフィルタ曲線から選択フィルタ曲線を第1の選択フィルタ曲線として選択することを使用して、フィルタ情報を決定するよう構成されてもよい。更に、フィルタ情報決定部110は、例えば入力高さ情報に依存して複数のフィルタ曲線から第2の選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成されてもよい。更に、フィルタ情報決定部110は、例えば第1の選択フィルタ曲線と第2の選択フィルタ曲線との間を補間することにより、補間済みフィルタ曲線を決定するよう構成されてもよい。
【0273】
一実施形態において、フィルタ情報決定部110は、例えばフィルタユニット120がオーディオ入力信号の第1スペクトル部分を修正し、かつフィルタユニット120がオーディオ入力信号の第2スペクトル部分を修正しないように、フィルタ情報を決定するよう構成されてもよい。
【0274】
オーディオ入力信号の第1スペクトル部分を修正することで、仮想音源を上昇または下降させることが実現される。しかし、オーディオ入力信号の他のスペクトル部分は、仮想音源を上昇または下降させるために修正されることはない。
【0275】
一実施形態によれば、フィルタ情報決定部110は、例えば、フィルタユニット120がオーディオ入力信号の第1スペクトル部分を第1増幅値によって増幅し、かつフィルタユニット120がオーディオ入力信号の第2スペクトル部分を第2増幅値によって増幅し、第1増幅値が第2増幅値と異なるように、フィルタ情報を決定するよう構成されてもよい。
【0276】
上述の実施形態は、幾つかの周波数部分を特別に増幅させ、他の周波数部分を低減することで、仮想音源を仮想的に上昇させ又は下降させることが達成される、という知見に基づいている。よって、実施形態において、オーディオ入力信号からフィルタリング済みオーディオ信号を生成することが、オーディオ入力信号を異なる増幅値(異なるゲイン値)で増幅(又は減衰)させることと対応するように、フィルタリングが実行される。
【0277】
一実施形態において、フィルタ情報決定部110は、例えば入力高さ情報に依存して複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成されてもよく、その場合、複数のフィルタ曲線の各々は700Hzと2000Hzとの間に最大値又は最小値を有する。又は、フィルタ情報決定部110は、例えばエレベーション情報に依存して基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを使用して、フィルタ情報を決定するよう構成されてもよく、その場合、基準フィルタは700Hzと2000Hzとの間に最大値又は最小値を有する。
【0278】
図51図55は、仮想音源を上昇または下降させる効果を生み出すのに適した複数の異なるフィルタ曲線を示す。仮想音源を上昇または下降させる効果を生み出すためには、特に700Hzと2000Hzとの間の範囲内の幾つかの周波数が、仮想音源を仮想的に上昇または仮想的に下降させるために特別に増幅されるか又は特別に減衰される必要がある、ということが発見された。
【0279】
特に、図51において正の(0よりも大きい)増幅値を持つフィルタ曲線は、1000Hzの付近、即ち700Hzと2000Hzとの間に、最大値5101,5102,5103,5104を有する。
【0280】
同様に、図52図53図54図55において正の増幅値を持つフィルタ曲線は、1000Hzの付近、即ち700Hzと2000Hzとの間に、最大値5201,5202,5203,5204と、5301,5302,5303,5304と、5401,5402,5403,5404と、を有する。
【0281】
一実施形態によれば、フィルタ情報決定部110は、例えば入力高さ情報に依存し更に入力方位情報にも依存して、フィルタ情報を決定するよう構成されてもよい。更に、フィルタ情報決定部110は、例えば入力高さ情報に依存しかつ入力方位情報にも依存して、複数のフィルタ曲線から選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成されてもよい。又は、フィルタ情報決定部110は、例えばエレベーション情報に依存しかつ方位情報にも依存して、基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することを使用して、フィルタ情報を決定するよう構成されてもよい。
【0282】
上述の図51図55は、異なる方位値に割り当てられたフィルタ曲線を示す。
【0283】
特に、図51は方位=0°に関する補正フィルタ曲線を示し、図52は方位=30°に関する補正フィルタ曲線を示し、図53は方位=45°に関する補正フィルタ曲線を示し、図54は方位=60°に関する補正フィルタ曲線を示し、図55は方位=90°に関する補正フィルタ曲線を示す。
【0284】
フィルタ曲線は異なる方位値に割り当てられているため、図51図55における対応するフィルタ曲線は僅かに異なっている。よって、幾つかの実施形態においては、入力方位情報、例えば仮想音源の位置に基づく方位角もまた考慮に入れなくてはならない。
【0285】
一実施形態において、フィルタユニット120は、例えばフィルタ情報に依存してオーディオ入力信号をフィルタリングし、フィルタリング済みオーディオ信号として正に2つのオーディオチャネルを有する両耳オーディオ信号を取得するよう構成されてもよい。フィルタ情報決定部110は、例えば入力頭部伝達関数に関する入力情報を受信するよう構成されてもよい。更に、フィルタ情報決定部110は、選択フィルタ曲線に依存し又は修正フィルタ曲線に依存して入力頭部伝達関数を修正することにより修正頭部伝達関数を決定することで、フィルタ情報を決定するよう構成されてもよい。
【0286】
上述した概念は、特に両耳オーディオに適している。両耳レンダリングを実行するとき、頭部伝達関数はオーディオ入力信号に適用されて、正に2個のオーディオチャネルを含むオーディオ出力信号(ここではフィルタリング済みオーディオ信号)を生成する。実施形態によれば、頭部伝達関数それ自体が修正(例えばフィルタリング)された後で、その結果として得られる修正頭部伝達関数がオーディオ入力信号へと適用される。
【0287】
一実施形態によれば、入力頭部伝達関数は、例えばスペクトルドメインで表現されてもよい。選択フィルタ曲線は例えばスペクトルドメインで表現されてもよく、又は修正フィルタ曲線がスペクトルドメインで表現されてもよい。
【0288】
フィルタ情報決定部110は、例えば
−選択フィルタ曲線もしくは修正フィルタ曲線のスペクトル値を入力頭部伝達関数のスペクトル値に加算することにより、修正頭部伝達関数を決定するよう構成されるか、又は
−選択フィルタ曲線もしくは修正フィルタ曲線のスペクトル値と入力頭部伝達関数のスペクトル値とを乗算することにより、修正頭部伝達関数を決定するよう構成されるか、又は
−入力頭部伝達関数のスペクトル値から選択フィルタ曲線もしくは修正フィルタ曲線のスペクトル値を減算するか、又は選択フィルタ曲線もしくは修正フィルタ曲線のスペクトル値から入力頭部伝達関数のスペクトル値を減算することにより、修正頭部伝達関数を決定するよう構成されるか、又は
−入力頭部伝達関数のスペクトル値を選択フィルタ曲線もしくは修正フィルタ曲線のスペクトル値で除算するか、又は選択フィルタ曲線もしくは修正フィルタ曲線のスペクトル値を入力頭部伝達関数のスペクトル値で除算することにより、修正頭部伝達関数を決定するよう構成されてもよい。
【0289】
そのような実施形態では、頭部伝達関数はスペクトルドメインで表現され、頭部伝達関数を修正するためにスペクトルドメインフィルタ曲線が使用される。例えば加算または減算は、例えば頭部伝達関数およびフィルタ曲線が対数目盛に関連する場合に使用されてもよい。例えば乗算または除算は、例えば頭部伝達関数およびフィルタ曲線が均等目盛に関連する場合に使用されてもよい。
【0290】
一実施形態において、入力頭部伝達関数は、例えば時間ドメインで表現されてもよい。選択フィルタ曲線は時間ドメインで表現されるか、又は修正フィルタ曲線は時間ドメインで表現される。フィルタ情報決定部110は、例えば選択フィルタ曲線又は修正フィルタ曲線と入力頭部伝達関数とを畳み込むことにより、修正頭部伝達関数を決定するよう構成されてもよい。
【0291】
そのような実施形態では、頭部伝達関数は時間ドメインで表現され、頭部伝達関数とフィルタ曲線とを畳み込むことにより、修正頭部伝達関数が取得される。
【0292】
他の実施形態において、フィルタ情報決定部110は、例えば非再帰型フィルタ構造を持つ選択フィルタ曲線又は修正フィルタ曲線をフィルタリングすることにより、修正頭部伝達関数を決定するよう構成されてもよい。例えば、FIRフィルタ(有限インパルス応答フィルタ)を用いたフィルタリングが実行されてもよい。
【0293】
更なる実施形態において、フィルタ情報決定部110は、例えば再帰型フィルタ構造を持つ選択フィルタ曲線又は修正フィルタ曲線をフィルタリングすることにより、修正頭部伝達関数を決定するよう構成されてもよい。例えば、IIRフィルタ(無限インパルス応答フィルタ)を用いたフィルタリングが実行されてもよい。
【0294】
図1bは、一実施例に係る方向修正情報を提供する装置200を示す。
【0295】
装置200は複数のラウドスピーカ211,212を含み、複数のラウドスピーカ211,212の各々が、再生オーディオ信号を再生するよう構成されており、複数のラウドスピーカ211,212の第1のラウドスピーカは第1高さの第1位置に配置され、複数のラウドスピーカ211,212の第2のラウドスピーカは、第1高さと異なる第2高さにある、第1位置と異なる第2位置に配置されている。
【0296】
更に、装置200は2個のマイクロホン221,222を含み、2個のマイクロホン221,222の各々は、複数のラウドスピーカ211,212の各ラウドスピーカから、オーディオ信号を再生するときにそれらラウドスピーカによって放射される音波を受信することによって、録音オーディオ信号を録音するよう構成されている。
【0297】
更に、装置200は、前記再生されるオーディオ信号が前記ラウドスピーカによって再生されるとき、前記ラウドスピーカによって再生される再生オーディオ信号に依存し、かつ2個のマイクロホン221,222の各々によって録音される録音されるオーディオ信号の各々に依存して、複数のラウドスピーカ211,212の各ラウドスピーカについて両耳室内インパルス応答を決定することにより、複数の両耳室内インパルス応答を決定するよう構成された、両耳室内インパルス応答決定部230を含む。
【0298】
両耳室内インパルス応答を決定することはこの技術で公知である。ここでは、両耳室内インパルス応答が、例えば異なる高さ、例えば異なる仰角を示し得る位置に配置されたラウドスピーカについて決定される。
【0299】
更に、装置200は、複数の両耳室内インパルス応答の2つに依存して、少なくとも1つのフィルタ曲線を生成するよう構成されたフィルタ曲線生成部240を含む。方向修正情報はその少なくとも1つのフィルタ曲線に依存する。
【0300】
例えば(基準)両耳室内インパルス応答は、基準仰角(例えばその基準仰角は例えば0°であり得る)にある基準位置に配置されたラウドスピーカについて決定されている。その場合、第2両耳室内インパルス応答は、例えば第2仰角、例えば−15°の仰角を有する第2位置に配置されたラウドスピーカについて決定されたインパルス応答と考えられ得る。
【0301】
0°の第1角度は、第1ラウドスピーカが第1高さに配置されていることを特定する。−15°の第2角度は、第2ラウドスピーカが第1高さよりも低い第2高さに配置されていることを特定する。これは図49に示される。図49において、第1ラウドスピーカ211は、第2ラウドスピーカ212が配置されている第2高さよりも高い第1高さに配置されている。
【0302】
両方の両耳室内インパルス応答は、例えばスペクトルドメインで表現されてもよいし、又は時間ドメインからスペクトルドメインへと変換されてもよい。フィルタ曲線の1つを取得するために、スペクトルドメインでは第1信号である基準両耳室内インパルス応答から、スペクトルドメインでは第2信号である第2の両耳室内インパルス応答が減算されてもよい。結果としての信号は、少なくとも1つのフィルタ曲線の1つである。スペクトルドメインで表現される結果信号は、最終的なフィルタ曲線を取得するために時間ドメインへ変換されてもよいが、必ずしも時間ドメインへ変換される必要はない。
【0303】
一実施形態では、フィルタ曲線生成部240は、複数の両耳室内インパルス応答に依存して1つ以上の中間曲線を生成することによって、かつ1つ以上の中間曲線の各々を複数の異なる減衰値の各々によって増幅することにより、2つ以上のフィルタ曲線を取得するよう構成される。
【0304】
よって、フィルタ曲線生成部240によってフィルタ曲線を生成することは、2つの段階によって実行される。最初に1つ以上の中間曲線が生成される。次に、複数の減衰値の各々が1つ以上の中間曲線に適用され、複数の異なるフィルタ曲線を得る。例えば、図51では異なる減衰値、すなわち−0.5、0、0.5、1、1.5、2の減衰値が中間曲線に適用されてきた。実際上、0の減衰値を適用することは、常にゼロ関数をもたらすので、不要であり、1の減衰値を適用することは、既に存在する中間曲線を修正しないので、不要である。
【0305】
一実施形態によれば、フィルタ曲線生成部240は、両耳室内インパルス応答の各々から1つの頭部伝達関数を抽出することによって、複数の両耳室内インパルス応答から複数の頭部伝達関数を決定するよう構成される。複数の頭部伝達関数は例えばスペクトルドメインで表現されてもよい。高さ値は、例えば複数の頭部伝達関数のそれぞれに割り当てられても良い。フィルタ曲線生成部240は、例えば2つ以上のフィルタ曲線を生成するよう構成されてもよい。フィルタ曲線生成部240は、例えば複数の頭部伝達関数の1番目の関数のスペクトル値から複数の頭部伝達関数の2番目の関数のスペクトル値を減算することにより、又は複数の頭部伝達関数の1番目の関数のスペクトル値を複数の頭部伝達関数の2番目の関数のスペクトル値によって除算することにより、2つ以上のフィルタ曲線のそれぞれを生成するよう構成される。さらに、フィルタ曲線生成部240は、例えば複数の頭部伝達関数の2番目に割り当てられた高さ値から複数の頭部伝達関数の1番目に割り当てられた高さ値を減算することにより、2つ以上のフィルタ曲線の各々に1つの高さ値を割り当てるよう構成される。さらに、方向修正情報は、2つ以上のフィルタ曲線の各々と、そのフィルタ曲線に割り当てられた高さ値とを含む。高さ値は、例えば仰角であってもよく、例えば極座標系の座標の仰角であってもよい。又は、高さ値は、例えばデカルト座標系の座標の座標値であってもよい。
【0306】
そのような実施形態では、複数のフィルタ曲線が生成される。このような実施形態は、複数のフィルタ曲線から1つの選択フィルタ曲線を選択する図1aの装置100と相互作用するのに適している可能性がある。
【0307】
ある実施形態では、フィルタ曲線生成部240は、両耳室内インパルス応答の各々から1つの頭部伝達関数を抽出することによって、複数の両耳室内インパルス応答から複数の頭部伝達関数を決定するよう構成される。複数の頭部伝達関数はスペクトルドメインで表現される。高さ値は、例えば複数の頭部伝達関数のそれぞれに割り当てられても良い。フィルタ曲線生成部240は、例えば正に1つのフィルタ曲線を生成するよう構成されてもよい。さらに、フィルタ曲線生成部240は、例えば複数の頭部伝達関数の1番目の関数のスペクトル値から複数の頭部伝達関数の2番目の関数のスペクトル値を減算することにより、又は複数の頭部伝達関数の1番目の関数のスペクトル値を複数の頭部伝達関数の2番目の関数のスペクトル値によって除算することにより、正に1つのフィルタ曲線を生成するよう構成されてもよい。フィルタ曲線生成部240は、例えば複数の頭部伝達関数の2番目に割り当てられた高さ値から複数の頭部伝達関数の1番目に割り当てられた高さ値を減算することにより、正に1つのフィルタ曲線に1つの高さ値を割り当てるよう構成されても良い。方向修正情報は、例えば正に1つのフィルタ曲線と、その正に1つのフィルタ曲線に割り当てられた高さ値とを含んでも良い。高さ値は、例えば仰角であってもよく、例えば極座標系の座標の仰角であってもよい。又は、高さ値は、例えばデカルト座標系の座標の座標値であってもよい。
【0308】
そのような実施形態では、単一のフィルタ曲線だけが生成される。このような実施形態は、基準フィルタ曲線を修正する図1aの装置100と相互作用するのに適している可能性がある。
【0309】
図1cは、一実施形態に係るシステム300を示す。
【0310】
このシステム300は、方向修正情報を提供する図1bの装置200を含む。
【0311】
さらに、システム300は図1aの装置100を含む。図1cによって示された実施形態では、図1aの装置100のフィルタユニット120が、フィルタ情報に依存してオーディオ入力信号をフィルタリングし、フィルタリング済みオーディオ信号として正に2つのオーディオチャネルを有する1つの両耳オーディオ信号を取得するよう構成される。
【0312】
図1cの実施形態では、図1aの装置100のフィルタ情報決定部110が、入力高さ情報に依存して複数のフィルタ曲線から1つの選択フィルタ曲線を選択することを使用して、フィルタ情報を決定するよう構成される。又は、図1cの実施形態において、図1aの装置100のフィルタ情報決定部110は、エレベーション情報に依存して基準フィルタ曲線を修正することにより修正フィルタ曲線を決定することにより、フィルタ情報を決定するよう構成される。
【0313】
図1cの実施形態において、図1bの装置200によって提供された方向修正情報は、複数のフィルタ曲線又は基準フィルタ曲線を含む。
【0314】
さらに、図1cの実施形態では、図1aの装置100のフィルタ情報決定部110が入力頭部伝達関数に関する入力情報を受信するよう構成される。さらに、図1aの装置100のフィルタ情報決定部110は、入力頭部伝達関数を選択フィルタ曲線又は修正フィルタ曲線に依存して入力頭部伝達関数を修正することによって修正頭部伝達関数を決定することにより、フィルタ情報を決定するよう構成される。
【0315】
図45は特殊な実施形態にかかるシステムを示し、図45のシステムは一実施形態に従ってオーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置100と、一実施形態に従って方向修正情報を提供する装置200とを含む。
【0316】
図46図48においても同様に、特殊な実施形態にかかるシステムが示され、図46図48のそれぞれの各システムは、一実施形態に従ってオーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置100と、一実施形態に従って方向修正情報を提供する装置200とを含む。
【0317】
図45図48のそれぞれには、個々の実施形態に従ってオーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置100が、各図の方向修正情報を提供する装置200を具備せずに実現され得る、実施例が示されている。同様に、図45図48のそれぞれには、各図の実施形態に従って方向修正情報を提供する装置200が、各図のオーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置100を具備せずに実現され得る、実施例が示されている。よって、図45図48について提示された説明は、個々のシステムに関する説明だけでなく、方向修正情報を提供する装置200を用いずに実現される実施例にかかる、オーディオ入力信号からフィルタリング済みオーディオ信号を生成する装置100の説明でもあり、またフィルタリング済みオーディオ信号を生成する装置を用いずに実現される実施例にかかる、方向修正情報を提供する装置200の説明でもある。
【0318】
最初に、実施形態にかかるオフライン両耳フィルタ準備について説明する。
【0319】
図45には、特殊な実施形態にかかる方向修正情報を提供する装置200が図示されている。図1bのラウドスピーカ211及び212と、マイクロホン221及び222とは、図解上の理由から図示されていない。
【0320】
異なる位置に配置された複数の異なるラウドスピーカ211、212のために決定されていたBRIR(両耳室内インパルス応答)のセットは、両耳室内インパルス応答決定部230によって生成される。複数の異なるラウドスピーカの少なくとも幾つかは、異なる位置に異なるエレベーションで(例えばこれらラウドスピーカの位置が異なる仰角を表す)配置されている。決定されたBRIRは、例えばBRIR記憶部251(例えばメモリ又はデータベース)に格納されてもよい。
【0321】
図45において、フィルタ曲線生成部240は方向キュー分析部241と方向修正フィルタ生成部242とを含む。
【0322】
基準BRIRのセットから、方向キュー分析部241は、例えばエレベーション・キュー分析において、例えば方向知覚のための重要なキューを隔離してもよい。このようにして、エレベーション・ベースフィルタ係数は例えば創り出されてもよい。重要なキューは、例えば基準BRIRフィルタセットの特異部分の周波数依存の属性、時間依存の属性、又は位相依存の属性であってもよい。
【0323】
壁又は天井からの音響反射のような「基準BRIRフィルタセット」の特異部分を捕捉するだけのために、前記抽出は、例えば球状マイクロホンアレー又は幾何学的室内モデルのようなツールを使用して実行されてもよい。
【0324】
方向修正情報を提供する装置200は、球状マイクロホンアレー又は幾何学的室内モデルのようなツールを含んでいてもよいが、そのようなツールを必ずしも含む必要はない。
【0325】
幾つかの実施形態では、方向修正フィルタ係数を提供する装置が球状マイクロホンアレー又は幾何学的室内モデルのようなツールを含まず、球状マイクロホンアレー又は幾何学的室内モデルのようなツールからのデータは、例えば方向修正フィルタ係数を提供する装置への入力として提供されてもよい。
【0326】
図45の方向修正フィルタ係数を提供する装置は、さらに方向修正フィルタ生成部242を含む。例えば方向キュー分析部によって実行される方向キュー分析からの情報は、方向修正フィルタ生成部242によって使用され、1つ以上の中間曲線を生成する。方向修正フィルタ生成部242は次に、例えば中間曲線を延伸し又は圧縮することにより、1つ以上の中間曲線から複数のフィルタ曲線を生成する。結果としてのフィルタ曲線、例えばそれらの係数は、次にフィルタ曲線記憶部252(例えばメモリ又はデータベース内)に格納されてもよい。
【0327】
例えば、方向修正フィルタ生成部242は、唯一の中間曲線を生成してもよい。次に、幾つかのエレベーション(例えば仰角−15°、−55°及び−90°)について、生成済みの中間曲線に依存して方向修正フィルタ生成部242によってフィルタ曲線が生成されてもよい。
【0328】
両耳室内インパルス決定部230と、図45のフィルタ曲線生成部240とを、図49及び図50を参照して詳細に説明する。
【0329】
図49は、受聴者491と、2つの異なるエレベーションの2つのラウドスピーカ211,212と、仮想音源492とを示す概略図である。
【0330】
図49では、0°のエレベーションを持つ第1ラウドスピーカ211と−15°のエレベーションを持つ第2ラウドスピーカ212とが示されている。
【0331】
第1ラウドスピーカ211は、例えば図1bの2つのマイクロホン221、222(図49には図示せず)によって録音された第1信号を放射する。両耳室内インパルス決定部230(図49には図示せず)は第1両耳室内インパルス応答を決定し、第1ラウドスピーカ211の0°のエレベーションは、その第1両耳室内インパルス応答に割り当てられる。
【0332】
次に、第2ラウドスピーカ212は、これも例えば2つのマイクロホン221、222によって録音された第2信号を放射する。両耳室内インパルス決定部230は第2両耳室内インパルス応答を決定し、第2ラウドスピーカ212の−15°のエレベーションがその第2両耳室内インパルス応答に割り当てられる。
【0333】
図45の方向キュー分析部241は、例えば2つの両耳室内インパルス応答の各々から頭部伝達関数を抽出してもよい。
【0334】
その後、方向修正フィルタ生成部242は、例えば2つの決定された頭部伝達関数間のスペクトル差を決定してもよい。
【0335】
スペクトル差は、例えば上述ように中間曲線として考慮されてもよい。この決定されたスペクトル差から複数のフィルタ曲線を決定するために、方向修正フィルタ生成部242がこの中間曲線を複数の異なる延伸ファクタ(増幅値とも呼ばれる)を用いて重み付けしてもよい。適用された各増幅値は新たな各フィルタ曲線を生成し、新たな各仰角と関連付けられる。
【0336】
延伸ファクタがより大きくなると、中間曲線の補正/修正、例えば中間曲線の(−15°であった)エレベーションはさらに減少する(例えば−30°へと減少し、新たなエレベーション<−15°となる)。
【0337】
例えば、負の延伸ファクタが適用された場合には、中間曲線の補正/修正、例えば中間曲線の(−15°であった)エレベーションは増大する(エレベーションは−15°よりも大きくなり、新たなエレベーション>−15°となる)。
【0338】
図50は、一実施形態に従って、異なる増幅値(延伸ファクタ)を中間曲線に適用することからもたらされるフィルタ曲線を示している。
【0339】
図45に戻って、フィルタリング済みオーディオ信号を生成する装置100は、フィルタ情報決定部110とフィルタユニット120とを含む。図45では、フィルタ情報決定部110は方向修正フィルタ選択部111と方向修正フィルタ情報処理部115とを含む。方向修正情報フィルタ処理部115は、例えば選択フィルタ曲線を両耳室内インパルス応答の時間的始点に適用してもよい。
【0340】
方向修正フィルタ選択部111は、装置200によって提供された複数のフィルタ曲線の内の1つを選択フィルタ曲線として選択する。特に、図45の方向修正フィルタ選択部111は、方向入力に依存して、特にエレベーション情報に依存して、選択フィルタ曲線(補正曲線とも呼ばれる)を選択する。
【0341】
選択フィルタ曲線は、例えばフィルタ曲線記憶部252(方向フィルタ係数コンテナとも呼ばれる)から選択されてもよい。フィルタ曲線記憶部252では、フィルタ曲線は例えばそのフィルタ係数を格納することにより、又はそのスペクトル値を格納することにより、格納されてもよい。
【0342】
次いで、方向修正フィルタ情報処理部115は、選択フィルタ曲線のフィルタ係数またはスペクトル値を入力頭部伝達関数に適用し、修正頭部伝達関数を取得する。修正頭部伝達関数は、次に両耳レンダリングのために図45の装置100のフィルタユニット120によって使用される。
【0343】
入力頭部伝達関数は、例えば装置200によって決定されてもよい。
【0344】
図45のフィルタユニット120は、例えば現存する(かつ例えば可能な前処理済みの)BRIR測定値に基づいて両耳レンダリングを行ってもよい。
【0345】
装置200に関して、図46の実施形態は、フィルタ曲線生成部240が方向修正フィルタ生成部242に代えて方向修正ベースフィルタ生成部243を有する点で図45の実施形態とは異なる。
【0346】
方向修正ベースフィルタ生成部243は、両耳室内インパルス応答から基準フィルタ曲線(ベース補正フィルタ曲線とも呼ばれる)として単一のフィルタ曲線だけを生成するよう構成されている。
【0347】
装置100に関して、図46の実施形態は、フィルタ情報決定部が方向修正フィルタ生成部I112を有する点で図45の実施形態とは異なる。方向修正フィルタ生成部I112は装置200からの基準フィルタ曲線を、例えば基準フィルタ曲線を(入力高さ情報に依存して)延伸又は圧縮することによって、修正するよう構成されている。
【0348】
図47において、装置200は図45の装置200に対応している。装置200は複数のフィルタ曲線を生成する。
【0349】
図47の装置100は、図45の装置100とは、図47の装置100のフィルタ情報決定部110が、方向修正フィルタ選択部111に代えて方向修正フィルタ生成部II113を有する点で異なる。
【0350】
方向修正フィルタ生成部II113は装置200によって提供された複数のフィルタ曲線の1つを選択フィルタ曲線として選択する。特に、図45の方向修正フィルタ選択部111は、方向入力に依存して、特にエレベーション情報に依存して、選択フィルタ曲線(補正曲線とも呼ばれる)を選択する。選択フィルタ曲線を選択した後、方向修正フィルタ生成部II113は、選択フィルタ曲線を、例えば基準フィルタ曲線を(入力高さ情報に依存して)延伸又は圧縮することによって修正する。
【0351】
代替的実施形態では、方向修正フィルタ生成部II113は、例えば入力高さ情報に依存して、装置200によって提供された複数のフィルタ曲線の2つの間を補間し、さらにこれら2つのフィルタ曲線から補間済みフィルタ曲線を生成する。
【0352】
図48は、フィルタリング済みオーディオ信号を生成する、異なる実施形態にかかる装置100を示す。
【0353】
図48の実施形態では、フィルタ情報決定部110は、例えば図45の実施形態、図46の実施形態、又は図47の実施形態のように構成されてもよい。
【0354】
図48の実施形態では、フィルタユニット120は、2つの中間オーディオチャネルを含む1つの中間両耳オーディオ信号を取得するために、両耳レンダリングを行う両耳レンダラー121を含む。
【0355】
さらに、フィルタユニット120は、フィルタ情報決定部110により提供されたフィルタ情報に依存して、中間両耳オーディオ信号の2つの中間オーディオチャネルをフィルタリングするよう構成された、方向−補正フィルタ処理部122を含む。
【0356】
よって、図48の実施形態において、最初に両耳レンダリングが行われる。仮想エレベーション適応は、方向−補正フィルタ処理部122の後で実行される。
【0357】
これまで幾つかの態様を装置の文脈で説明してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路などのハードウエア装置により(又は使用して)実行されてもよい。幾つかの実施形態において、最も重要な方法ステップの1つ以上が、そのような装置によって実行されてもよい。
【0358】
所定の実施要件にもよるが、本発明の実施形態は、ハードウエア若しくはソフトウエアにおいて、又は少なくとも一部がハードウエア若しくはソフトウエアにおいて、実施可能である。この実施は、電子的に読み取り可能な制御信号が中に格納された、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
【0359】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するよう、プログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0360】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0361】
他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0362】
換言すれば、本発明方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0363】
従って本発明方法の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び/又は非一時的である。
【0364】
従って本発明方法の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。データストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0365】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0366】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0367】
本発明に係るさらなる実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器へ(例えば電子的又は光学的に)伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へと送信するためのファイルサーバを含み得る。
【0368】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0369】
本明細書に記載した装置は、ハードウエア装置、コンピュータ、又はハードウエア装置とコンピュータとの結合を使用して構成され得る。
【0370】
本明細書に記載した方法は、ハードウエア装置、コンピュータ、又はハードウエア装置とコンピュータとの結合を使用して実行され得る。
【0371】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1a
図1b
図1c
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45
図46
図47
図48
図49
図50
図51
図52
図53
図54
図55