(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6820613
(24)【登録日】2021年1月7日
(45)【発行日】2021年1月27日
(54)【発明の名称】没入型オーディオ再生のための信号合成
(51)【国際特許分類】
H04S 1/00 20060101AFI20210114BHJP
【FI】
H04S1/00 500
H04S1/00 700
【請求項の数】31
【全頁数】22
(21)【出願番号】特願2018-535000(P2018-535000)
(86)(22)【出願日】2017年1月4日
(65)【公表番号】特表2019-506058(P2019-506058A)
(43)【公表日】2019年2月28日
(86)【国際出願番号】IB2017050018
(87)【国際公開番号】WO2017125821
(87)【国際公開日】20170727
【審査請求日】2019年7月16日
(31)【優先権主張番号】62/280,134
(32)【優先日】2016年1月19日
(33)【優先権主張国】US
(31)【優先権主張番号】62/400,699
(32)【優先日】2016年9月28日
(33)【優先権主張国】US
(31)【優先権主張番号】62/432,578
(32)【優先日】2016年12月11日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】519421514
【氏名又は名称】スフィアオ サウンド リミテッド
(74)【代理人】
【識別番号】100086461
【弁理士】
【氏名又は名称】齋藤 和則
(72)【発明者】
【氏名】モール、ヨアフ
(72)【発明者】
【氏名】コーン、ベンジャミン
(72)【発明者】
【氏名】エリン、アレックス
【審査官】
齊田 寛史
(56)【参考文献】
【文献】
特表2015−530825(JP,A)
【文献】
米国特許出願公開第2012/0020483(US,A1)
【文献】
特開2007−068022(JP,A)
【文献】
特開平08−107600(JP,A)
【文献】
米国特許第06498857(US,B1)
【文献】
特開2009−065452(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00
(57)【特許請求の範囲】
【請求項1】
サウンドを合成する方法であって:
それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信するステップと;
前記第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信するステップと;
前記それぞれの3次元音源位置の前記方位角座標および前記仰角座標に依存するフィルタ応答関数に基づいて、それぞれの左および右のフィルタ応答を前記第1の入力のそれぞれに割り当てるステップと;そして
前記それぞれ左および右のフィルタ応答を前記第1の入力に適用することによって左と右のステレオ出力信号を合成するステップと;
を有し、
ここにおいて前記1つまたはそれ以上の第1の入力は第1の複数の入力オーディオトラックを含み、
前記左と右のステレオ出力信号を合成するステップは:
第2の複数の合成入力を生成するため、前記第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、
ここにおいて前記第2の複数の合成入力は、第1の入力に関連するそれぞれの3次元音源位置とは異なるそれぞれの座標を有する合成音源位置を有し;
前記合成された3次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングするステップと;そして
それぞれの前記左と右のフィルタ応答を用いて前記第1の入力をフィルタリングした後、フィルタリングされた前記合成入力をフィルタリングされた前記第1の入力と加算して前記ステレオ出力信号を生成するステップと;
を有し、
前記第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップは、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして前記3次元音源位置にしたがって前記スペクトログラム間を補間して、前記合成された入力を生成するステップとを有する、
ことを特徴とするサウンドを合成する方法。
【請求項2】
前記1つまたはそれ以上の第1の入力は複数の第1の入力を有し、そして前記左と右のステレオ出力信号を合成するステップは、各々の前記第1の入力に前記それぞれ左と右のフィルタ応答を適用し、それぞれ左と右のステレオ成分を生成するステップと、前記左と右のステレオ成分を全ての第1の入力にわたって合計するステップと、を有することを特徴とする請求項1に記載の方法。
【請求項3】
前記左と右のステレオ成分を合計するステップは、前記出力信号の再生時にクリッピングを防止するために、前記合計された成分にリミッタを適用するステップを有する、ことを特徴とする請求項2に記載の方法。
【請求項4】
前記第2の入力のうちの少なくとも1つは、空間での3次元軌道を特定し、そして
前記左と右のフィルタ応答を割り当てるステップは、前記3次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定するステップを有し、
前記左と右のステレオ出力信号を合成するステップは、前記第2の入力の少なくとも1つに関連する前記第1の入力に対し、前記3次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用するステップを有する、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記1つ以上の第2の入力を受信するステップは:
前記軌道の開始点および開始時間を受信するステップと;
前記軌道の終了点および終了時間を受信するステップと;そして
前記軌道が前記開始時間から前記終了時間の間に横断されるように、前記開始点と前記終了点との間の前記3次元軌道を自動的に計算するステップと、
を有することを特徴とする請求項4に記載の方法。
【請求項6】
前記3次元軌道を自動的に計算するステップは、前記方位角座標及び前記仰角座標の原点を中心とする球面上の経路を計算するステップを有する、ことを特徴とする請求項5に記載の方法。
【請求項7】
前記フィルタ応答関数が、前記仰角座標の関数として変化する、所与の周波数のノッチを含むことを特徴とする、請求項1〜6のいずれかに記載の方法。
【請求項8】
前記スペクトログラム間を補間するステップは、前記スペクトログラムにおける点の間のオプティカルフロー関数を計算するステップを有する、ことを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項9】
前記左と右のステレオ出力信号を合成するステップは、前記第1の入力から低周波成分を抽出するステップを有し、前記それぞれの左および右のフィルタ応答を適用するステップは、前記低周波成分抽出後の前記第1の入力をフィルタリングするステップと、そしてその後前記フィルタリングされた第1の入力に前記抽出された低周波成分を加算するステップとを有する、ことを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項10】
前記3次元音源位置は、前記第1の入力に関連するレンジ座標を有し、前記左と右のステレオ出力を合成するステップは、前記関連するレンジ座標に応じて前記第1の入力をさらに修正するステップを有する、ことを特徴とする請求項1〜6のいずれかに記載の方法。
【請求項11】
サウンドを合成する装置であって:
それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信し、そして前記第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信するように構成される、入力インタフェースと;
前記それぞれの3次元音源位置の前記方位角座標および前記仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれの前記第1の入力に割り当て、そして前記それぞれの左および右のフィルタ応答を前記第1の入力に適用することによって左と右のステレオ出力信号を合成する、ように構成される、プロセッサと;
を有し、
ここにおいて前記1つまたはそれ以上の第1の入力は、第1の複数の入力オーディオトラックを有し、そして前記プロセッサは、前記第1の入力に関連するそれぞれの3次元音源位置とは異なるそれぞれの座標を有する合成3次元音源位置を有する、第2の複数の合成入力を生成するため前記第1の複数の入力オーディオトラックを空間的にアップサンプリングし、前記合成された3次元音源の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングし、そしてフィルタリングされた前記合成入力をフィルタリングされた前記第1の入力と合計してステレオ出力信号を生成する、ように構成され、そして
前記プロセッサは、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成し、そして前記3次元音源位置にしたがって前記スペクトログラム間を補間して前記合成入力を生成することにより、前記第1の複数の前記入力オーディオトラックを空間的にアップサンプリングするように構成される、
ことを特徴とするサウンドを合成する装置。
【請求項12】
前記左と右のステレオ出力信号をそれぞれ再生するように構成される、左スピーカおよび右スピーカを有するオーディオ出力インタフェースを備える、ことを特徴とする請求項11に記載の装置。
【請求項13】
前記1つまたはそれ以上の第1の入力は複数の第1の入力を有し、前記プロセッサは、それぞれの前記第1の入力に前記それぞれの左および右のフィルタ応答を適用して、それぞれの左および右ステレオ成分を生成し、そして前記第1の入力のすべてにわたって前記左と右のステレオ成分を合計する、ように構成される、ことを特徴とする請求項11に記載の装置。
【請求項14】
前記プロセッサは、前記出力信号の再生時のクリッピングを防止するため、前記合計された成分にリミッタを適用するように構成される、ことを特徴とする請求項13に記載の装置。
【請求項15】
前記第2の入力のうちの少なくとも1つは、空間内の3次元軌道を特定し、そして
前記プロセッサは、前記3次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定し、そして少なくとも1つの前記第2の入力に関連する前記第1の入力に、前記3次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用するように構成される、ことを特徴とする請求項11に記載の装置。
【請求項16】
前記プロセッサは、前記軌道の開始点と開始時間と前記軌道の終了点と終了時間を受信し、そして前記開始点と前記終了点との間の前記3次元軌道を自動的に計算し、それにより前記軌道は開始時間から終了時間まで横断される、ことを特徴とする請求項15に記載の装置。
【請求項17】
前記3次元軌道は、方位角座標および仰角座標の原点を中心とする球面上の経路を有する、ことを特徴とする請求項16に記載の装置。
【請求項18】
前記フィルタ応答関数は、前記仰角座標の関数として変化する、所与の周波数におけるノッチを有する、ことを特徴とする請求項11〜17のいずれかに記載の装置。
【請求項19】
前記プロセッサは、前記スペクトログラム内の点の間で計算されたオプティカルフロー関数を使用して前記スペクトログラム間を補間するように構成される、ことを特徴とする請求項11〜17のいずれかに記載の装置。
【請求項20】
前記プロセッサは、前記第1の入力から低周波成分を抽出し、前記低周波成分の抽出後に前記第1の入力に前記それぞれの左と右のフィルタ応答を適用し、そしてその後前記抽出された低周波成分をフィルタリングされた前記第1の入力に加える、ように構成されることを特徴とする、請求項11〜17のいずれかに記載の装置。
【請求項21】
前記3次元音源位置は、前記第1の入力に関連するレンジ座標を有し、前記プロセッサは、前記関連するレンジ座標に応答して前記第1の入力をさらに修正するように構成される、ことを特徴とする請求項11〜17のいずれかに記載の装置。
【請求項22】
コンピュータソフトウェアからなる製品であって、プログラム命令が格納される非一過性のコンピュータ可読媒体を有し、
前記プログラム命令はコンピュータによって読み取られると、前記コンピュータに対し:それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信させ、そして前記第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信させ、
ここにおいて前記命令は前記コンピュータに対し:前記それぞれの3次元音源位置の前記方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答を前記第1の入力のそれぞれに割り当てさせ、そして前記それぞれの左と右のフィルタ応答を前記第1の入力に適用することによって左と右のステレオ出力信号を合成させ、
前記1つまたはそれ以上の第1の入力は第1の複数の入力オーディオトラックを含み、そして前記命令は前記コンピュータに対し:
第2の複数の合成入力を生成するため、前記第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、ここにおいて前記第2の複数の合成入力は、第1の入力に関連するそれぞれの3次元音源位置とは異なる、それぞれの座標を有する合成された3次元音源位置を有し;
前記合成された3次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して前記合成入力をフィルタリングするステップと;そして
それぞれの前記左と右のフィルタ応答を用いて前記第1の入力をフィルタリングした後、フィルタリングされた前記合成入力をフィルタリングされた前記第1の入力と加算して前記ステレオ出力信号を生成するステップと;
を実行するようにさせ、そして
前記命令は、前記コンピュータに対し、前記入力オーディオトラックにウェーブレット変換を適用して前記入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして前記3次元音源位置にしたがって前記スペクトログラム間を補間して、前記合成された入力を生成するステップとを実行することにより、前記第1の複数の入力オーディオトラックを空間的にアップサンプリングさせる、
ことを特徴とするコンピュータソフトウェアからなる製品。
【請求項23】
前記1つまたはそれ以上の第1の入力は複数の第1の入力を有し、そして前記命令は前記コンピュータに対し、前記第1の入力のそれぞれに前記左と右のフィルタ応答を適用して、それぞれ左と右のステレオ成分を生成し、そして前記第1の入力の全てにわたって前記左と右のステレオ成分を合計するようにさせる、ことを特徴とする請求項22に記載の製品。
【請求項24】
前記命令は前記コンピュータに対し、前記出力信号の再生時のクリッピングを防止するために、前記合計された成分にリミッタを適用するようにさせる、ことを特徴とする請求項23に記載の製品。
【請求項25】
前記第2の入力のうちの少なくとも1つが空間における3次元軌道を特定し、そして前記命令は前記コンピュータに対し:
前記3次元軌道に沿った複数の点のそれぞれにおいて、前記点の方位角座標および仰角座標に応じて前記軌道上で変化するフィルタ応答を特定し;そして
前記第2の入力の少なくとも1つに関連する前記第1の入力に対し、前記3次元軌道に沿った前記点に対して特定された前記フィルタ応答を順次適用する;
ようにさせる、ことを特徴とする請求項22に記載の製品。
【請求項26】
前記命令は前記コンピュータに対し、前記軌道の開始点と開始時間、および前記軌道の終了点および終了時間を受信し、そして前記軌道の前記開始点と前記終了点との間の3次元軌道を自動的に計算し、それにより前記軌道が開始時間から終了時間まで横断される、ようにさせる、ことを特徴とする請求項25に記載の製品。
【請求項27】
前記3次元軌道は、前記方位角座標および前記仰角座標の原点を中心とする球面上の経路を有する、ことを特徴とする請求項26に記載の製品。
【請求項28】
前記フィルタ応答関数は、前記仰角座標の関数として変化する、所与の周波数におけるノッチを有する、ことを特徴とする請求項22〜27のいずれかに記載の製品。
【請求項29】
前記命令は、前記コンピュータに対し、前記スペクトログラム内の点の間で計算されたオプティカルフロー関数を使用して、前記スペクトログラム間で補間を行わせる、ことを特徴とする請求項22〜27のいずれかに記載の製品。
【請求項30】
前記命令は、前記コンピュータに対し、前記第1の入力から低周波数成分を抽出するステップと、前記低周波数成分の抽出後に前記第1の入力に前記それぞれの左と右のフィルタ応答を適用するステップと、そしてその後前記抽出された低周波成分をフィルタリングされた前記第1の入力に加えるステップと、を実行させる、ことを特徴とする請求項22〜27のいずれかに記載の製品。
【請求項31】
前記3次元音源位置は、前記第1の入力に関連するレンジ座標を有し、前記命令は、前記コンピュータに対し、前記関連するレンジ座標に応じて前記第1の入力をさらに修正させる、ことを特徴とする請求項22〜27のいずれかに記載の製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的にオーディオ信号の処理に関し、そして特にオーディオ出力の生成と再生のための方法、システムおよびソフトウェアに関するものである。
【背景技術】
【0002】
(関連出願の相互参照)
本出願は2016年1月19日出願の米国暫定出願第62/280,134(特許文献1)、2016年9月28日出願の米国暫定出願第62/400,699(特許文献2)、および2016年12月11日出願の米国暫定出願第62/432,578(特許文献3)の恩恵を主張し、それらはここに参照して取り入れられる。
【0003】
近年、オーディオの記録および再生の進歩により、リスナーを取り囲む複数のスピーカからオーディオを再生する、没入感のある「サラウンドサウンド」の開発が促進された。例えば、家庭用のサラウンドサウンドシステムは、「5.1」および「7.1」として知られている構成を含み、そこでは5または7チャンネル(リスナーの前に3つのスピーカ、そして追加のスピーカがリスナーの側面、および場合によって背後または上方に配置される)にサブウーファが加わる。
【0004】
一方、今日の多数のユーザは、ステレオヘッドホンを介して、通常、携帯型オーディオプレーヤーおよびスマートフォンを介して、音楽および他のオーディオコンテンツを聴いている。マルチチャンネルサラウンド録音は、5.1チャンネルまたは7.1チャンネルから2チャンネルにダウンミックスされているため、リスナーはサラウンド録音で提供できる没入感のあるオーディオ体験の多くを失う。
【0005】
マルチチャネルオーディオをステレオにダウンミックスするための様々な技術が特許文献に記載されている。例えば、米国特許第5,742,689号(特許文献4)は、マルチチャネルオーディオ信号を処理する方法を記載し、そこでは部屋中に配置された複数の「ファントム」ラウドスピーカの感覚を、ヘッドホンを介して生成するように、それぞれのチャネルが部屋の特定の場所に配置されたラウドスピーカに対応している。頭部伝達関数(HRTF)は、リスナーに対するそれぞれの意図されたスピーカの仰角および方位角に従って選択される。各チャンネルは、左と右のチャンネルに結合されヘッドホンで再生されるときに、リスナーが「仮想」部屋全体に配置されたファントムスピーカによって実際に生成される音を感知するように、HRTFでフィルタリングされる。
【0006】
他の例として、米国特許第6,421,446号(特許文献5)は、仰角を含む両耳合成を使用してヘッドホン上に3次元オーディオイメージングを生成する装置を記載している。ヘッドホンを介してオーディオ信号を聞く人が知覚するオーディオ信号の見かけ上の位置は、距離制御ブロックおよび位置制御ブロックによって方位角、仰角およびレンジ内で位置決めまたは移動することができる。位置決めまたは移動される入力オーディオ信号の数に応じて、いくつかの距離制御ブロックおよび位置制御ブロックを設けることができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国暫定出願第62/280,134
【特許文献2】米国暫定出願第62/400,699
【特許文献3】米国暫定出願第62/432,578
【特許文献4】米国特許第5,742,689号
【特許文献5】米国特許第6,421,446号
【発明の概要】
【0008】
以下に説明される本発明の実施形態は、オーディオ信号を合成するための改良された方法、システム、およびソフトウェアを提供する。
【0009】
したがって、本発明の一実施形態によれば、それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信するステップを有する、サウンドを合成する方法が提供される。第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力が受信される。それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答が第1の入力のそれぞれに割り当てられる。それぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号が合成される。
【0010】
いくつかの実施形態では、1つ以上の第1の入力は複数の第1の入力を有し、そして左と右のステレオ出力信号を合成するステップは、第1の入力の各々にそれぞれの左と右のフィルタ応答を適用し、それぞれ左と右のステレオ成分を生成するステップと、左と右のステレオ成分を全ての第1の入力にわたって合計するステップと、を有する。開示された実施形態では、左と右のステレオ成分を合計するステップは、出力信号の再生時に、クリッピングを防止するために合計された成分にリミッタを適用するステップを有する。
【0011】
追加的にまたは代替的に第2の入力のうちの少なくとも1つは、空間での3次元軌道を特定し、そして左と右のフィルタ応答を割り当てるステップは、3次元軌道に沿った複数の点のそれぞれにおいて、点の方位角座標および仰角座標に応じて軌道上で変化するフィルタ応答を特定するステップを有する。左と右のステレオ出力信号を合成するステップは、第2の入力の少なくとも1つに関連する第1の入力に対し、3次元軌道に沿った点に対して特定されたフィルタ応答を順次適用するステップを有する。
【0012】
いくつかの実施形態では、1つ以上の第2の入力を受信するステップは:軌道の開始点および開始時間を受信するステップと;軌道の終了点および終了時間を受信するステップと;そして軌道が開始時間から終了時間の間に横断されるように、開始点と終了点との間の3次元軌道を自動的に計算するステップと、を有する。開示された実施形態では、3次元軌道を自動的に計算するステップは、方位座標及び仰角座標の原点を中心とする球面上の経路を計算するステップを有する。
【0013】
いくつかの実施形態では、フィルタ応答関数は、仰角座標の関数として変化する、所与の周波数のノッチを含む。
【0014】
さらに追加的にまたは代替的に1つ以上の第1の入力は第1の複数のオーディオ入力トラックを含み、左と右のステレオ出力信号を合成するステップは:第2の複数の合成入力を生成するため、第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップと、ここで第2の複数の合成入力は、第1の入力に関連するそれぞれの3次元音源位置とは異なるそれぞれの座標を有する合成音源位置を有し;合成された3次元音源位置の方位角座標および仰角座標で計算されたフィルタ応答関数を使用して合成入力をフィルタリングするステップと;そしてそれぞれの左と右のフィルタ応答を用いて第1の入力をフィルタリングした後、フィルタリングされた合成入力をフィルタリングされた第1の入力と加算してステレオ出力信号を生成するステップ;を有する。
【0015】
いくつかの実施形態では、第1の複数の入力オーディオトラックを空間的にアップサンプリングするステップは、入力オーディオトラックにウェーブレット変換を適用して入力オーディオトラックのそれぞれのスペクトログラムを生成するステップと、そして3次元音源位置にしたがってスペクトログラム間を補間して、合成された入力を生成するステップとを有する。1つの実施形態では、スペクトログラム間を補間するステップは、スペクトログラムにおける点間のオプティカルフロー関数を計算するステップを有する。
【0016】
開示された実施形態では、左と右のステレオ出力信号を合成するステップは、第1の入力から低周波成分を抽出するステップを有し、それぞれの左および右のフィルタ応答を適用するステップは、低周波成分抽出後の第1の入力をフィルタリングするステップと、そしてその後フィルタリングされた第1の入力に抽出された低周波成分を加算するステップとを有する。
【0017】
追加的にまたは代替的に、3次元音源位置は、第1の入力に関連するレンジ座標を有し、左と右のステレオ出力を合成するステップは、関連するレンジ座標に応じて第1の入力をさらに修正するステップを有する。
【0018】
したがって、本発明の一実施形態によれば、サウンドを合成する装置であって:それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信し、そして第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信するように構成される、入力インタフェースと;を有する装置が提供される。プロセッサは、それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれ第1の入力の割り当て、そしてそれぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号を合成する、ように構成される。
【0019】
1つの実施形態によれば、装置は、左と右のステレオ出力信号をそれぞれ再生するように構成される、左スピーカおよび右スピーカを有するオーディオ出力インタフェースを備える。
【0020】
したがって、本発明の一実施形態によれば、コンピュータソフトウェアからなる製品であって、プログラム命令が格納される非一過性のコンピュータ可読媒体を有し、プログラム命令はコンピュータによって読み取られると、コンピュータに対し:それぞれモノラルオーディオトラックを有する1つまたはそれ以上の第1の入力を受信させ、そして第1の入力に関連する、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、1つまたは複数の第2の入力を受信させる、製品がさらに提供される。その命令はコンピュータに対し:それぞれの3次元音源位置の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答をそれぞれの第1の入力に割り当てさせ、そしてそれぞれの左と右のフィルタ応答を第1の入力に適用することによって左と右のステレオ出力信号を合成させる。
【図面の簡単な説明】
【0021】
本発明は、付属の図面を参照した実施形態の詳細説明から、より十分に理解されよう:
【
図1】本発明の1実施形態による、オーディオ合成と再生のためのシステムの絵画的概略図である。
【
図2】本発明の1実施形態による、
図1のシステムにおけるユーザインタフェース画面の概略図である。
【
図3】本発明の1実施形態による、マルチチャネルオーディオ入力をステレオ出力に変換する方法を概略示す、流れ図である。
【
図4】本発明の1実施形態による、オーディオ出力を合成する方法を概略示すブロック図である。
【
図5】本発明の1実施形態による、オーディオ信号をフィルタリングする方法を概略示す、流れ図である。
【発明を実施するための形態】
【0022】
(概論)
当技術分野で知られているオーディオミキシングおよび編集ツールにより、ユーザは、複数の入力オーディオトラック(例えば、異なる楽器および/または音声から記録された)を左と右のステレオ出力信号に結合することができる。しかしながら、このようなツールは、一般に、左と右の出力間で入力を分割する際の柔軟性が限定的であり、リスナーが実際の環境から得るオーディオ没入感を再現することはできない。サラウンドサウンドをステレオに変換するための当該技術分野で知られている方法は、同様に元の録音の没入型オーディオ体験を維持することができない。
【0023】
本明細書で説明される本発明の実施形態は、ステレオヘッドホンを介して完全な3次元(3D)オーディオ環境を現実的に再現することができるサウンドを合成するための方法、システム、およびソフトウェアを提供する。これらの実施形態は、空間オーディオキューに対する人間リスナーの応答を新規な方法で利用し、それは左と右の耳に聞こえる音量の差異だけでなく、方位角と仰角の両方の関数としての人間の聴覚系の周波数応答の差異を含む。特に、いくつかの実施形態は、音源の仰角座標の関数として変化する、所与の周波数でノッチを含む、フィルタ応答関数を使用する。
【0024】
開示された実施形態では、プロセッサは、入力としての1つ以上のモノラルオーディオトラックと、各入力に関連付けられたそれぞれの3次元音源位置とを受け取る。システムのユーザは、距離だけでなく、例えば少なくとも各音源の方位角および仰角の座標に関して、これらの音源位置を任意に特定することができる。したがって、音楽トラック、ビデオサウンドトラック(映画またはゲームなど)および/または他の環境音の複数の音源は、水平面においてだけでなく、リスナーのヘッドレベルの上下の異なる仰角でも特定することができる。
【0025】
オーディオトラック(1つまたは複数)をステレオ信号に変換するために、プロセッサは、それぞれの3次元音源位置の方位角および仰角座標に依存するフィルタ応答関数に基づいて、各入力にそれぞれの左および右フィルタ応答を割り当てる。プロセッサは、左と右のステレオ出力信号を合成するために、これらのフィルタ応答を対応する入力に適用する。異なる音源位置を有する複数の入力が一緒に混合される場合、プロセッサは、それぞれの入力に適切なそれぞれの左と右のフィルタ応答を適用して、それぞれの左と右のステレオ成分を生成する。左のステレオ成分は、次に、左のステレオ出力を生成するためにすべての入力にわたって合計され、右のステレオ成分も右のステレオ出力を生成するために合計される。出力信号の再生時にクリッピングを防止するために、合計された成分にリミッタを適用することができる。
【0026】
本発明のいくつかの実施形態は、プロセッサが空間内の3次元軌道に沿った音源の動きをシミュレートすることを可能にし、ステレオ出力は、音源が再生中に実際に動いているという感覚をリスナーに与える。この目的のために、ユーザは、軌道の開始点および終了点ならびに対応する開始および終了時間を入力することができる。プロセッサは、開始点および終了点の方位角座標および仰角座標の原点を中心とする球の表面上の経路を計算することによって、この基準で3次元軌道を自動的に計算する。あるいは、ユーザは、実質的に任意の所望の幾何学的特性の軌道を生成するために、任意の点の列を入力することができる。
【0027】
どのように軌道が導出されるかに関わらず、プロセッサは、3次元軌道に沿った複数の点で、点の方位角座標および仰角座標、場合によっては距離座標の関数として変化するフィルタ応答を計算する。次に、プロセッサは、特定の開始時間と終了時間との間の期間にわたって、音源が開始点と終了点との間の軌道に沿って移動したという錯覚を生成するために、これらのフィルタ応答を対応するオーディオ入力に順次適用する。この機能は、歌手やミュージシャンが劇場の周りを移動するライブパフォーマンスの感覚をシミュレートするため、またはコンピュータゲームやエンターテインメントアプリケーションの臨場感を高めるために使用できる。
【0028】
リスナーのオーディオ体験の豊かさと信頼性を高めるには、実際にユーザが特定した音源以外に仮想音源を追加すると効果的である。この目的のために、プロセッサは、実際の入力に関連するそれぞれの3次元音源位置とは異なる独自の合成3次元音源位置を有する、追加の合成入力を生成するために、入力オーディオトラックを空間的にアップサンプリングする。アップサンプリングは、例えばウェーブレット変換を使用して入力を周波数領域に変換し、得られたスペクトログラムの間を補間して合成された入力を生成することによって行うことができる。プロセッサは、合成された音源位置の方位角および仰角座標に適したフィルタ応答関数を使用して合成入力をフィルタリングし、フィルタリングされた合成入力をフィルタリングされた実際の入力と合計してステレオ出力信号を生成する。
【0029】
本発明の原理は、広範囲の用途のステレオ出力の生成に適用することができる。例えば、
・ユーザが指定した任意の音源位置を有する、1つまたは複数のモノラルトラックからステレオ出力の合成。
・サラウンド録音(5.1や7.1など)のステレオ出力への変換、ここで音源位置は、標準スピーカの位置に対応。
・ライブコンサートやその他のライブイベントからのリアルタイムステレオ生成、任意の音源位置に配置された複数のマイクからの同時入力、そしてステレオへのオンラインダウンミキシング。(この種のリアルタイムダウンミキシングを実行する装置は、例えば、イベントのサイトに駐車された放送バンに設置することができる)。
他の用途は、本明細書を読んだ後の当業者には明らかであろう。そのような用途はすべて本発明の範囲内にあると考えられる。
【0030】
(システムの記述)
図1は、本発明の一実施形態による、オーディオ合成および再生のためのシステム20の絵画的概略図である。システム20は、複数のオーディオ入力を受信し、そのそれぞれは、それぞれのモノラルオーディオトラックおよび、オーディオ入力に関連づけられるべき、方位角座標および仰角座標を有するそれぞれの3次元(3D)音源位置を示す、対応する位置入力を有する。システムは、この例ではリスナー22が着用するステレオヘッドホン24で再生される左と右のステレオ出力信号を合成する。
【0031】
入力は、典型的には、それぞれが異なる音源位置にあるミュージシャン26,28,30および32によって
図1に表される、複数のモノラルオーディオトラックを含む。音源位置は、リスナー22の頭部の中央に位置する原点に対する座標でシステム20に入力される。リスナーの頭部を通過する水平面をXY平面とすると、音源の座標は、方位角(すなわち、XY平面上に投影される光源角)および平面の上または下の仰角の両方で特定可能である。いくつかのケースでは、レンジは以下の実施形態において明示的に考慮されないけれども、音源のそれぞれのレンジ(すなわち、原点からの距離)も特定可能である。
【0032】
オーディオトラックおよびそれぞれの音源位置座標は、通常、システム20のユーザ(例えば、リスナー22またはサウンドエンジニアなどのプロのユーザ)によって入力される。ミュージシャン28および30の場合、彼らがそれぞれのパートを演奏する間に彼らの動きをシミュレートするために、ユーザによって入力される音源位置は時間とともに変化する。言い換えれば、入力されたオーディオトラックが静止したモノラルマイクによって記録され、例えば、録音中にミュージシャンが静止している場合でも、ユーザは、出力が1人または複数のミュージシャンが動いている状態をシミュレートするようにさせることができる。ユーザは、空間と時間において開始点と終了点を有する軌道の形で動きを入力することができる。得られたステレオ出力信号は、リスナー22にこれらのオーディオ音源の3次元の動きを知覚させる。
【0033】
図示された例では、ステレオ信号は、スマートフォンのようなモバイル装置34によってヘッドホン24に出力され、それはストリーミングリンクによりネットワーク38を介してサーバ36から信号を受信する。あるいは、ステレオ信号を含むオーディオファイル出力信号は、モバイルデバイス34のメモリにダウンロードされて記憶されてもよく、または光ディスクなどの固定媒体に記録されてもよい。あるいは、ステレオ信号は、とりわけ、セットトップボックス、テレビ、カーラジオまたはカーエンターテイメントシステム、タブレット、またはラップトップコンピュータなどの他のデバイスから出力されてもよい。
【0034】
以下の説明において、明瞭かつ具体化のため、サーバ36が左と右のステレオ出力信号を合成することを前提とする。しかしながら、代わりに、モバイルデバイス34上のアプリケーションソフトウェアが、本発明の実施形態に従って、関連する位置を有する入力トラックをステレオ出力に変換するステップのすべてまたは一部を実行してもよい。
【0035】
サーバ36は、本明細書で記載される機能を実行するためにソフトウェアでプログラムされた、一般に汎用コンピュータプロセッサであるプロセッサ40を備える。このソフトウェアは、例えば、ネットワークを介して電子形式でプロセッサ40にダウンロードされてもよい。代替的または追加的に、ソフトウェアは、光学的、磁気的または電子的記憶媒体などの有形の非一過性コンピュータ可読媒体に格納されてもよい。さらに代替的にまたは追加的に、本明細書で記載されるプロセッサ40の機能の少なくとも一部は、プログラマブルデジタル信号プロセッサ(DSP)によって、または他のプログラム可能またはハードワイヤードロジックによって実行されてもよい。サーバ36は、さらに、メモリ42と、インタフェースを有し、インタフェースはネットワーク38へのネットワークインタフェース44およびユーザインタフェース46を含み、それらはいずれもオーディオ入力およびそれぞれの音源位置を受信するための入力インタフェースとして機能することができる。
【0036】
上述したように、プロセッサ40は、ミュージシャン26,28,30,32,によって表される入力のそれぞれに、それぞれの3次元音源の方位角座標および仰角座標に依存するフィルタ応答関数に基づいて、それぞれ左と右のフィルタ応答を適用し、そしてそれにより左と右のステレオ成分を生成する。プロセッサ40は、左と右のステレオ出力を生成するために、これらの左と右のステレオ成分を全ての入力にわたって合計する。このプロセスの詳細を以下に説明する。
【0037】
図2は、本発明の実施形態によるサーバ36(
図1)のユーザインタフェース46によって提示されるユーザインタフェース画面の概略図である。この図は、ヘッドホン24へのステレオ出力の生成に使用される、オーディオ入力の位置および場合によっては軌道をユーザがどのように指定できるかを特に示している。
【0038】
ユーザは、入力フィールド50にトラック識別子を入力することによって、各入力トラックを選択する。例えば、ユーザは、メモリ42に格納されたオーディオファイルをブラウズし、入力フィールド50にファイル名を入力することができる。それぞれの入力トラックに対して、ユーザは、スクリーン上のコントロール52および/または専用のユーザ入力装置(図示せず)を使用して、リスナーの頭部の中心における、方位角、仰角および原点に対する可能なレンジ(距離)での初期位置座標を選択する。選択された方位角および仰角は、表示領域56内で開始点54としてマーキングされ、それは頭部58に対する音源位置を表す。選択されたトラックの音源が静止している場合、この段階ではそれ以上の位置入力は不要である。
【0039】
他方、(
図1のミュージシャン28および30の動きをシミュレートする場合のように)移動する音源位置に対して、スクリーン46は、ユーザが空間内の3次元軌道70を特定することを可能にする。この目的のために、スクリーン上のコントロール52は、軌道の開始点54を示すように調整され、開始時間入力62は、軌道の開始時間を示すためにユーザによって選択される。同様に、ユーザは、終了時間入力64および終了位置入力66を使用して、軌道の終了時間および終了点68を入力する(通常、コントロール52のように、方位角、仰角、場合によってはレンジの制御を使用する)。必要に応じて、より複雑な軌道を生成するために、ユーザは、所望の経路のコースに沿った空間および時間の追加ポイントを入力することができる。
【0040】
さらに別の選択肢として、サーバ36によって生成されるステレオ出力がサウンドトラックとしてビデオクリップに結合される場合、ユーザは、ビデオクリップ内の開始および終了フレームとして開始時間および終了時間を示すことができる。この使用の場合、ユーザは、追加的または代替的に、特定のビデオフレーム内の位置を指すことによって音源位置を示すことができる。
【0041】
プロセッサ40は、上記のユーザ入力に基づいて、開始点54と終了点68との間の3次元軌道70を、開始時間から終了時間まで選択された速度で軌道が横断されるように自動的に計算する。図示の例では、軌道70は、方位角、仰角および距離の座標の原点を中心とする球の表面上の経路から構成される。あるいは、プロセッサ40は、ユーザの制御下で、完全に自動的にまたは対話的に、より複雑な軌道を計算することができる。
【0042】
ユーザが所与のオーディオ入力トラックの軌道70を特定すると、プロセッサ40は、軌道に沿った点の方位角、仰角およびレンジ座標に基づいて軌道に亘って変化するフィルタ応答を、この軌道に割り当て、そして適用する。プロセッサ40は、これらのフィルタ応答をオーディオ入力に順次適用して、対応するステレオ成分が軌道に沿った現在の座標に従って経時的に変化するようにする。
【0043】
図3は、本発明の一実施形態による、マルチチャネルオーディオ入力をステレオ出力に変換する方法を概略的に示すフローチャートである。この例では、サーバ36の機能が、5.1サラウンド入力80を2チャンネルステレオ出力92に変換する際に適用される。したがって、先の例とは対照的に、プロセッサ40は、5.1システムの中央(C)、左(L)、右(R)、左と右のサラウンド(LS、RS)スピーカの位置に相当する固定音源位置を有する5つのオーディオ入力トラック82を受信する。類似の技術を、7.1サラウンド入力をステレオに変換する場合に、また3次元空間内の任意の所望の分布の音源位置(標準またはその他)を有するマルチトラックオーディオ入力を変換する場合に適用することができる。
【0044】
リスナーのオーディオ体験を豊かにするために、プロセッサ40は、入力トラック82をアップミックス(すなわち、アップサンプリング)して、リスナーを取り囲む3次元空間内の追加の音源位置に合成入力−「仮想スピーカ」を作成する。この実施形態におけるアップミキシングは、周波数領域において実行される。したがって、予備ステップとして、プロセッサ40は、例えば、入力オーディオトラックにウェーブレット変換を適用することによって、入力トラック82を対応するスペクトログラム84に変換する。スペクトログラム84は、時間の経過に対する周波数の2次元プロットとして表すことができる。
【0045】
ウェーブレット変換は、ゼロ平均減衰有限関数(マザーウェーブレット)を使用して、各オーディオ信号を時間と周波数に限定される1組のウェーブレット係数に分解する。連続ウェーブレット変換は、マザーウェーブレットのスケーリングされた、シフトされたバージョンを乗算した信号の全時間にわたる合計である。このプロセスは、スケールおよび位置の関数であるウェーブレット係数を生成する。本実施形態で使用されるマザーウェーブレットは、以下のように定義されるガウス関数で変調されたサインカーブを含む複雑なモーレットウェーブレットである:
【数1】
【0046】
あるいは他の種類のウェーブレットがこの目的のために使用できる。さらに代替的に、本発明の原理は、必要な変更を加えて、他の時間―および空間―領域変換を使用して、多重のオーディオチャネルを分解するのに適用することができる。
【0047】
数学的表現では、連続ウェーブレット変換は次の式で示される:
【数2】
ここでχ
nはデジタル化された時間のシリーズであり、時間ステップδtを有し、n=1,…Nであり、sはスケールであり、ψ
0(η)はスケーリンングされ、変換された(シフトされた)マザーウェーブレットである。ウェーブレットパワーは以下で定義される:
【数3】
【0048】
マザーウェーブレットは時間ステップδtを持つ信号に対し、係数√(δt/s)により正規化され、ここでsはスケールである。加えて、ウェーブレット係数は信号の分散(σ
2)により正規化され、ホワイトノイズに対するパワーの相対値を生成する。
【0049】
計算を容易にするため、連続ウェーブレット変換は次の式でも表される:
【数4】
ここでχ
k^は信号χ
nのフーリエ変換であり;ψ^はマザーウェーブレットのフーリエ変換であり、*は複素共役を示し、sはスケールであり、k=0…N−1であり、そしてiは基本虚数単位√−1である。
【0050】
プロセッサ40は、元の入力トラック82および合成入力88の両方を含む1組のオーバーサンプリングされたフレーム86を生成するために、入力80内のスピーカの3次元音源位置に従ってスペクトログラム84の間を補間する。このステップを実行するためプロセッサ40は、リスナーを取り囲む球面空間内のそれぞれの位置における周波数領域の仮想スピーカを表す中間スペクトログラムを計算する。この目的のために、本実施形態では、プロセッサ40は、隣接するスピーカの各ペアを「映画フレーム」として、スペクトログラム内のデータ点を「ピクセル」として扱い、そして空間および時間においてそれらの間に仮想的に位置するフレームを補間する。言い換えれば、周波数領域における元のオーディオチャネルのスペクトログラム84は画像として扱われ、ここで、xは時間であり、yは周波数であり、色強度はスペクトルパワーまたは振幅を示すために使用される。
【0051】
フレームF
0とF
1の各ペアの間に、それぞれの時間t
0とt
1において、プロセッサ40はフレームF
iを挿入し、それは時間t
iにおける補間されたスペクトログラムのマトリックスであり、(x,y)座標のピクセルを有し、次式で与えられる:
【数5】
いくつかの実施形態では、スペクトログラム内の高パワー要素の動きをも考慮する。
【0052】
プロセッサ40はオプティカルフローに従ってこの「画像」を徐々に変形させる。 オプティカルフローフィールドVx,yは、各ピクセル(x,y)に対して、2つの要素[x,y]を有するベクトルを定義する。結果として得られる画像内の各ピクセル(x,y)について、プロセッサ40は、例えば以下に説明するアルゴリズムを使用して、フィールドVx,y内のフローベクトルを検索する。このピクセルは、ベクトルVx,yに沿って後方に位置する点から「来た」と考えられ、そして同じベクトルの前方に沿った点に「これから行く」と考えられる。Vx,yは、第1のフレームのピクセル(x,y)から第2のフレームの対応するピクセルまでのベクトルであるので、プロセッサ40は、この関係を使用して、後方座標[x
b,y
b]および前方座標[x
f,y
f]を見つけることが出来、これら座標は中間の‘画像)を補間に使用される:
【数6】
【0053】
上述したフローベクトルVx,yを決定するために、プロセッサ40は、第1のフレームを(所定のサイズの、ここでは「s」で示される)正方形ブロックに分割し、そしてこれらのブロックは第2のフレームの同じサイズのブロックにマッチングされ、それらのブロックは最大距離d以内にある。このプロセスの疑似コードは次のとおり:
【表1】
【0054】
上述したように、すべての仮想スピーカ(合成入力88)についてスペクトログラムが計算されると、プロセッサ40は、ウェーブレット再構成を適用して、実際の入力トラック82と合成入力88の両方の時間領域表現90を再生する。例えば、デルタ関数に基づいて、以下のウェーブレット再構成を使用することができる:
【数7】
ここで、χ
nは時間ステップδ
tを伴う再構成された時系列であり;δ
jは周波数分解能であり;C
δはω
0=6のMorletウェーブレットの場合、0.776に等しい定数であり;ψ
0(0)はマザーウェーブレットから導出され、π
−1/4と等価であり;Jはスケールの数であり;jはフィルタの限界を定義する指標であり、ここでj=j
1...j
2かつ0≦j
1<j
2≦J;s
jはj
th番目のスケールであり;そしてRは複素ウェーブレットW
nの実数部分である。
【0055】
時間領域表現90をステレオ出力92にダウンミックスするために、プロセッサ40は、実際のおよび合成された3次元音源位置のそれぞれの方位角座標および仰角座標で計算されたフィルタ応答関数を使用して、実際のおよび合成の入力をフィルタリングする。このプロセスは、フィルタの頭部伝達関数(HRTF)データベースを使用し、場合によっては、音源位置のそれぞれの仰角に対応するノッチフィルタも使用する。プロセッサ40は、χ(n)として示される各チャネル信号について、リスナーに対するその位置に適合する左と右のHRTFフィルタのペアで信号を畳み込む。この計算では、通常、離散時間畳み込みを使用する:
【数8】
ここで、χは、実際の又は仮想のスピーカを表す、上記ウェーブレット再構成の出力であるオーディオ信号であり、nはその信号の長さであり、Nは左HRTFフィルタhL及び右HRTFフィルタhRの長さである。これらの畳み込みの出力は、出力ステレオ信号の左および右の成分であり、それに応じてyLおよびyRとして示される。
【0056】
例えば、50°の仰角および60°の方位角の仮想スピーカを仮定すると、オーディオは、これらの方向に関連する左のHRTFフィルタと、これらの方向に関連する右のHRTFフィルタと、場合によっては50°の仰角に対応するノッチフィルタで畳み込まれる。畳み込みによって左と右のステレオコンポーネントが作成され、リスナーは音の方向性を知覚することができる。プロセッサ40は時間領域表現90内の全てのスピーカについてこの計算を繰り返し、ここで各スピーカは(対応する音源位置に従って)異なるフィルタのペアで畳み込まれる。
【0057】
さらに、いくつかの実施形態では、プロセッサ40は、3次元音源位置のそれぞれのレンジ(距離)に従ってオーディオ信号を変調する。例えば、プロセッサ40は、そのレンジに従って信号の音量を増幅または減衰させることができる。追加的または代替的に、プロセッサ40は、対応する音源位置の増加するレンジを有する1つまたは複数の信号に残響を加えることができる。
【0058】
適切な左および右のフィルタ応答を使用してすべての(実際のおよび合成の)信号をフィルタリングした後、プロセッサ40は、フィルタリングされた結果を合計して、ステレオ出力92を生成し、それは畳込みによって生成されたすべてのyL成分の合計である左チャネル94と、すべてのyR成分の合計である右チャネル94から構成される。
【0059】
図4は、本発明の一実施形態による、これらの左と右のオーディオ出力コンポーネントを合成する方法を概略的に示すブロック図である。この実施形態では、プロセッサ40は、リアルタイムですべての計算を実行することができ、したがって、サーバ36は、オンデマンドでモバイルデバイス34にステレオ出力をストリーミングすることができる。計算の負荷を低減するため、サーバ36は「仮想スピーカ」の追加を省略し(
図3の実施形態で提供されるように)、そしてステレオ出力を生成する際に実際の入力トラックのみを使用することができる。あるいは、
図4の方法は、後の再生のため、オフラインでステレオオーディオファイルを生成するために使用することができる。
【0060】
一実施形態では、プロセッサ40は、所与のサイズ(例えば、それぞれの入力チャネルから65536バイト)のオーディオ入力チャンク100を受信して、動作させる。プロセッサは、チャンクをバッファ102に一時的に保存し、連続したチャンク間の境界における出力の不連続性を避けるために、各チャンクを以前のバッファされたチャンクと一緒に処理する。プロセッサ40は、各入力チャネルを、チャネルに関連する3次元音源位置に対応する適切な方向性キューを有する左と右のステレオ成分に変換するために、フィルタ104を各チャンク100に適用する。この目的のための適切なフィルタリングアルゴリズムが、
図5を参照して以下に説明される。
【0061】
次に、プロセッサ40は、左と右のステレオ出力を計算するために、各側(左と右)のフィルタリングされた信号のすべてを加算器106に供給する。再生時のクリッピングを回避するために、プロセッサ40は、例えば以下の式に従って、加算された信号にリミッタ108を適用することができる:
【数9】
ここで、χはリミッタへの入力信号、Yは出力である。出力チャンク110の結果として得られるストリームは、ステレオヘッドホン24で再生できる。
【0062】
図5は、本発明の一実施形態による、フィルタ104の詳細を概略的に示すフローチャートである。同様のフィルタは、例えば、時間領域表現90のステレオ出力92(
図3)へのダウンミキシング、及び仮想軌道に沿って移動する音源からの入力のフィルタリング(
図2に示す)に使用できる。オーディオチャンク100がインターリーブされた形式の複数のチャネルを含む場合(一部のオーディオ規格では一般的である)、プロセッサ40は、チャネル分離ステップ112において入力チャネルを別々のストリームに分割することから始める。
【0063】
本発明者らは、いくつかの信号フィルタが低周波オーディオ成分の歪みをもたらす一方、リスナーの指向性感覚は1000Hzを超える高周波数領域のキューに基づくことを見出した。したがって、プロセッサ40は、周波数分離ステップ114において、個々のチャネル(存在する場合、サブウーファチャネルを除く)から低周波数成分を抽出し、低周波数成分を別個の信号セットとしてバッファリングする。
【0064】
一実施形態では、低周波信号の分離は、クロスオーバフィルタ、例えばカットオフ周波数100Hzおよびオーダ16を有するクロスオーバフィルタを使用して達成される。クロスオーバフィルタは、無限インパルス応答(IIR)バターワースフィルタで実装することができ、それは次の等式によってデジタル形式で表すことができる伝達関数Hを有する:
【数10】
ここで、zは複素変数であり、Lはフィルタの長さである。別の実施形態では、クロスオーバフィルタはチェビシェフフィルタとして実装される。
【0065】
プロセッサ40は、全ての元の信号の、結果として生じる低周波成分を合計する。結果として得られる低周波信号(本明細書ではSub’と呼ぶ)は複製され、後に左と右のステレオチャネルの両方に組み込まれる。これらのステップは、入力の低周波成分の品質を維持するのに役立つ。
【0066】
次に、プロセッサ40は、各成分が所望の方向から発出するという錯覚を生成するために、個々のチャネルのそれぞれの高周波成分を、それぞれのチャネル位置に対応するフィルタ応答でフィルタリングする。この目的のために、プロセッサ40は、方位角フィルタリングステップ116において、適切な左と右のHRTFフィルタを用いて各チャネルをフィルタリングして、水平面内の特定の方位角に信号を割り当て、そして仰角フィルタリングステップ118において、ノッチフィルタを用いて信号を特定の仰角に割り当てる。HRTFフィルタおよびノッチフィルタは、ここでは概念上および計算上の明瞭さのために別々に記載されているが、代替的に単一の計算操作で適用されてもよい。
【0067】
ステップ116において、HRTFフィルタは以下の畳み込みを用いて適用することができる:
【数11】
ここで、y(n)は処理されたデータ、nは離散時間変数、χは処理されるオーディオサンプルのチャンク、hは適切なHRTFフィルタ(左または右)のインパルス応答を表す畳み込みのカーネルである。ステップ118で適用されるノッチフィルタは、有限インパルス応答(FIR)拘束最小二乗フィルタであってもよく、上記の式に示されるHRTFフィルタと類似して、同様に畳み込みによって適用されてもよい。多くの例示的なシナリオにおけるHRTFフィルタおよびノッチフィルタにおいて使用され得るフィルタ係数の詳細な表現は、上記の米国仮特許出願第62/400,699号(特許文献2)に示されている。
【0068】
プロセッサ40は、全てのチャネルに同じ処理条件を適用する必要はないが、バイアスステップ120において、リスナーの聴覚経験を向上させるためにバイアスを特定のチャネルに適用することができる。例えば、本発明者らは、チャネルの3次元音源位置が水平面の下にあるように対応するノッチフィルタを調整することによって、特定のチャネルの仰角をバイアスすることがいくつかの場合には有益であることを発見した。別の例として、プロセッサ40は、サラウンドチャネルの音量を増加させ、それによりヘッドホン24から来るオーディオのサラウンド効果を増強するために、サラウンドサウンド入力から受信したサラウンドチャネル(SLおよびSR)および/またはリアチャネル(RLおよびRR)の利得をブーストすることができる。別の例として、上記で定義したようなSub’チャンネルは、高周波成分に対して減衰されるか、さもなければ制限され得る。本発明者らは、±5dBの範囲のバイアスが良好な結果をもたらすことを見出した。
【0069】
フィルタおよび任意の所望のバイアスを適用した後、プロセッサ40は、フィルタ出力ステップ122において、左ステレオ成分のすべておよび右ステレオ成分のすべてをSub’成分とともに加算器106に渡す。その後ステレオ信号の生成とヘッドホン24への出力は上述のように継続する。
【0070】
上述の実施形態は例として引用されたものであり、そして本発明は、上記に特に示され記載されたものに限定されないことが理解されよう。むしろ、本発明の範囲は、上述の様々な特徴の組み合わせおよびサブ組み合わせ、ならびに上記の記載を読んだ当業者に想起され得る、従来技術において開示されていない変化形および修正形の両方を含む。