特許第6977030号(P6977030)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

特許6977030複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
<>
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000015
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000016
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000017
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000018
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000019
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000020
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000021
  • 特許6977030-複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法 図000022
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6977030
(24)【登録日】2021年11月12日
(45)【発行日】2021年12月8日
(54)【発明の名称】複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
(51)【国際特許分類】
   H04S 3/00 20060101AFI20211125BHJP
   H04S 7/00 20060101ALI20211125BHJP
【FI】
   H04S3/00 400
   H04S7/00 340
【請求項の数】16
【全頁数】17
(21)【出願番号】特願2019-518124(P2019-518124)
(86)(22)【出願日】2017年10月11日
(65)【公表番号】特表2019-532579(P2019-532579A)
(43)【公表日】2019年11月7日
(86)【国際出願番号】JP2017036738
(87)【国際公開番号】WO2018079254
(87)【国際公開日】20180503
【審査請求日】2020年9月4日
(31)【優先権主張番号】特願2016-211803(P2016-211803)
(32)【優先日】2016年10月28日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】110002952
【氏名又は名称】特許業務法人鷲田国際特許事務所
(72)【発明者】
【氏名】江原 宏幸
(72)【発明者】
【氏名】ウー カイ
(72)【発明者】
【氏名】ネオ スア ホン
【審査官】 殿川 雅也
(56)【参考文献】
【文献】 特開2000−013900(JP,A)
【文献】 特表2012−509632(JP,A)
【文献】 特表2016−523466(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00
G10K 15/00
H04S 1/00−7/00
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
メタデータが関連付けられた、複数のオーディオソース信号と、バイノーラル空間インパルス応答(BRIR)データベースとを所与として、バイノーラル再生信号を生成する方法であって、
前記複数のオーディオソース信号が、チャンネルベースの信号、オブジェクトベースの信号、または両方の信号の混合であり、
ユーザの位置および向いている方向に対するオーディオソースの相対位置を計算し、
前記オーディオソースの相対位置に応じて前記複数のオーディオソース信号を階層的にグループ化し、
レンダリングに使用されるBRIRをパラメータ化し、
レンダリングされるべき各々のオーディオソース信号を複数のブロックおよびフレームに分割し、
前記パラメータ化されたBRIRシーケンスを平均し、
前記階層的にグループ化されたオーディオソース信号をダウンミックスする、
方法。
【請求項2】
前記相対位置は、前記複数のオーディオソースのメタデータおよびユーザ頭部トラッキングデータに基づいて、前記複数のオーディオソース信号の各々の時間フレーム/ブロック毎に計算される、
請求項1に記載の方法。
【請求項3】
前記グループ化は、各々のフレームについて計算された相対位置を所与として、異なるグループ化の分解能で複数のレイヤで階層的に行われる、
請求項1に記載の方法。
【請求項4】
前記BRIRデータベースにおける各々のBRIRフィルタ信号が、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割され、前記フレームおよびブロックは、それぞれ前記BRIRフィルタ信号のターゲット位置を使用してラベル付けさ
れる、
請求項1に記載の方法。
【請求項5】
前記オーディオソース信号は、現在のブロックおよび過去のブロックに分割され、前記現在のブロックは、さらに複数のフレームに分割される、
請求項1に記載の方法。
【請求項6】
フレームごとのバイノーラル化処理が、前記オーディオソース信号の現在のブロックのフレームについて、選択されたBRIRフレームを使用して実行され、各々のオーディオソースの前記計算された相対位置に最も近い直近のラベル付けされたBRIRフレームの探索に基づいて各々のBRIRフレームが選択される、
請求項1に記載の方法。
【請求項7】
前記フレームごとのバイノーラル化処理が、前記ダウンミックスされた信号に適用される、
請求項1に記載の方法。
【請求項8】
前記BRIRデータベースにおける各々のBRIRフィルタ信号が、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割され、後期残響処理が、BRIRの前記拡散ブロックを使用して前記オーディオソース信号の過去のブロックのダウンミックスされたものについて実行され、各々のブロックに異なるカットオフ周波数が適用される、
請求項1に記載の方法。
【請求項9】
メタデータが関連付けられた複数のオーディオソース信号と、バイノーラル空間インパルス応答(BRIR)データベースとを所与として、バイノーラル再生信号を生成するバイノーラルレンダリング装置であって、
前記複数のオーディオソース信号は、チャンネルベースの信号、オブジェクトベースの信号、または両方の信号の混合であり、
ユーザの位置および向いている方向に対するオーディオソースの相対位置を計算する計算モジュールと、
前記オーディオソースの相対位置に従ってオーディオソース信号を階層的にグループ化するグループ化モジュールと、
レンダリングに使用されるBRIRをパラメータ化する、BRIRパラメータ化モジュールと、
レンダリングされるべき各々のオーディオソース信号をいくつかのブロックおよびフレームに分割し、
前記パラメータ化されたBRIRシーケンスを平均し、
前記階層的なグループ化の結果にて特定される前記分割されたオーディオソース信号をダウンミックスする、バイノーラルレンダラコア部と、を備えた
バイノーラルレンダリング装置。
【請求項10】
計算モジュールは、前記相対位置を、前記複数のオーディオソースのメタデータおよびユーザ頭部トラッキングデータに基づいて、前記複数のオーディオソース信号の各々の時間フレーム/ブロック毎に計算する、
請求項9に記載のバイノーラルレンダリング装置。
【請求項11】
前記グループ化モジュールは、前記グループ化を、各々のフレームについて計算された相対位置に基づいて、異なるグループ化の分解能で複数のレイヤで階層的に行う、
請求項9に記載のバイノーラルレンダリング装置。
【請求項12】
前記BRIRパラメータ化モジュールは、前記BRIRデータベースにおける各々のB
RIRフィルタ信号を、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割し、それぞれ前記BRIRフィルタ信号のターゲット位置を使用してラベル付けする、
請求項9に記載のバイノーラルレンダリング装置。
【請求項13】
前記バイノーラルレンダラコア部は、前記オーディオソース信号を、現在のブロックおよび過去のブロックに分割し、前記現在のブロックをさらに複数のフレームに分割する、
請求項9に記載のバイノーラルレンダリング装置。
【請求項14】
前記バイノーラルレンダラコア部は、フレームごとのバイノーラル化処理を、前記ソース信号の現在のブロックのフレームについて、選択されたBRIRフレームを使用して実行し、各々のオーディオソースの前記計算された相対位置に最も近い直近のラベル付けされたBRIRフレームの探索に基づいて、各々のBRIRフレームが選択される、
請求項9に記載のバイノーラルレンダリング装置。
【請求項15】
バイノーラルレンダラコア部は、前記フレーム毎のバイノーラル化処理を、前記ダウンミックスされた信号に適用する、
請求項9に記載のバイノーラルレンダリング装置。
【請求項16】
前記BRIRパラメータ化モジュールは、前記BRIRデータベースにおける各々のBRIRフィルタ信号を、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割し、
バイノーラルレンダラコア部は、後期残響処理を、BRIRの前記拡散ブロックを使用して前記オーディオソース信号の過去のブロックのダウンミックスされたものについて実行し、各々のブロックに異なるカットオフ周波数が適用する、
請求項9に記載のバイノーラルレンダリング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ヘッドフォン再生のためのデジタルオーディオ信号の効率的なレンダリングに関する。
【背景技術】
【0002】
空間オーディオとは、高度のオーディオ包まれ感を聴衆にとって知覚可能にする臨場感のあるオーディオ再生システムを指す。この包まれ感は、聴衆があたかも自然のサウンド環境にいるかのようにサウンドシーンを知覚するような方向および距離の両方におけるオーディオソースの空間的位置の感覚を含む。
【0003】
空間オーディオ再生システムに一般的に使用される3つのオーディオ録音フォーマットが存在する。フォーマットは、オーディオコンテンツ制作現場において使用される録音およびミキシングの手法に依存する。第1のフォーマットは、最もよく知られているチャンネルベースのフォーマットであり、オーディオ信号の各チャンネルが、再生場所の特定のスピーカで再生されるように指定される。第2のフォーマットは、オブジェクトベースのフォーマットと呼ばれ、空間的なサウンドシーンをいくつかの仮想ソース(オブジェクトとも呼ばれる)によって表現することができる。各々のオーディオオブジェクトを、メタデータ付きのサウンド波形によって表すことができる。第3のフォーマットは、Ambisonicベースのフォーマットと呼ばれ、音場の球面展開(spherical expansion)を表す係数信号と考えることができる。
【0004】
携帯電話機、タブレット、などの個人用携帯機器の普及、および仮想/拡張現実の新たな応用の出現に伴い、ヘッドフォンを通じた臨場感のある空間オーディオのレンダリングが、ますます必要かつ魅力的になってきている。バイノーラル化は、例えばチャンネルベースの信号、オブジェクトベースの信号、またはAmbisonicベースの信号などの入力空間オーディオ信号をヘッドフォン再生信号に変換する処理である。本質的には、現実的な環境における自然なサウンドシーンは、人間の両耳によって知覚される。これは、ヘッドフォン再生信号が自然な環境において人間によって知覚されるサウンドに近い場合に、これらの再生信号が空間サウンドシーンを可能な限り自然にレンダリングできなければならないことを意味する。
【0005】
バイノーラルレンダリングの典型的な例は、MPEG−H 3Dオーディオ規格に文書化されている(非特許文献1を参照)。図1が、MPEG−H 3Dオーディオ規格においてチャンネルベースおよびオブジェクトベースの入力信号をバイノーラルフィードへとレンダリングするフロー図を示している。仮想スピーカの配置構成(例えば5.1、7.1、または22.2)に鑑み、チャンネルベースの信号1、・・・、L、およびオブジェクトベースの信号1、・・・、Lは、まずはフォーマットコンバータ(101)およびVBAPレンダラ(102)をそれぞれ介していくつかの仮想スピーカ信号に変換される。次いで、仮想スピーカ信号は、BRIRデータベースを考慮することによってバイノーラルレンダラ(103)を介してバイノーラル信号に変換される。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】ISO/IEC DIS 23008−3“Information technology−High efficiency coding and media delivery in heterogeneous environments−Part 3:3D audio”
【非特許文献2】T.Lee,H.O.Oh,J.Seo,Y.C.Park and D.H.Youn,“Scalable Multiband Binaural Renderer for MPEG−H 3D Audio,”in IEEE Journal of Selected Topics in Signal Processing,vol.9,no.5,pp.907−920,Aug.2015.
【発明の概要】
【発明が解決しようとする課題】
【0007】
1つの典型的な実施形態(ただし、これに限られるわけではない)は、複数の移動するオーディオソースのための高速バイノーラルレンダリングの方法を提供する。本開示は、オブジェクトベース、チャンネルベース、または両方の混合であってよいオーディオソース信号と、関連のメタデータと、ユーザ頭部トラッキングデータと、バイノーラル空間インパルス応答(BRIR:binaural room impulse response)データベースとを得て、ヘッドフォン再生信号を生成する。本開示の1つの典型的な実施形態(ただし、これに限られるわけではない)は、バイノーラルレンダラにおいて使用されるときに、高い空間分解能を提供し、計算の複雑さも少ない。
【0008】
1つの一般的な態様において、ここで開示される技術は、関連のメタデータを有する複数のオーディオソース信号と、バイノーラル空間インパルス応答(BRIR)データベースとを所与として、バイノーラルヘッドフォン再生信号を効率的に生成する方法を特徴とし、ここで前記オーディオソース信号は、チャンネルベースの信号、オブジェクトベースの信号、または両方の信号の混合であってよい。この方法は、(a)ユーザの頭部の位置および向いている方向に対するオーディオソースの瞬時の頭部相対ソース位置を計算するステップと、(b)階層的なやり方でオーディオソースの前記瞬時の頭部相対ソース位置に従ってソース信号をグループ化するステップと、(c)レンダリングに使用されるBRIRをパラメータ化する(または、レンダリングに使用されるBRIRをいくつかのブロックに分割する)ステップと、(d)レンダリングされるべき各々のソース信号をいくつかのブロックおよびフレームに分割するステップと、(e)階層的なグループ化の結果にて特定されるパラメータ化された(分割された)BRIRシーケンスを平均するステップと、(f)階層的なグループ化の結果にて特定される分割されたソース信号をダウンミックスする(平均する)ステップとを含む。
【0009】
本開示の実施形態における方法を使用することによって、頭部トラッキングに対応したヘッドマウントデバイスを使用することは、高速で移動するオブジェクトをレンダリングするのに有用である。
【0010】
一般的または具体的な実施形態を、システム、方法、集積回路、コンピュータプログラム、記憶媒体、またはこれらの任意の選択的な組合せとして実施できることに、注意すべきである。
【0011】
開示される実施形態のさらなる利益および利点は、明細書および図面から明らかになるであろう。利益および/または利点は、明細書および図面の種々の実施形態および特徴によって個別に得ることができ、そのような利益および/または利点のうちの1つ以上を得るために、必ずしも種々の実施形態および特徴をすべて備える必要はない。
【図面の簡単な説明】
【0012】
図1】MPEG−H 3Dオーディオ規格においてチャンネルベースおよびオブジェクトベースの信号をバイノーラルエンドへとレンダリングするブロック図
図2】MPEG−H 3Dオーディオにおけるバイノーラルレンダラの処理の流れのブロック図
図3】提案される高速バイノーラルレンダラのブロック図
図4】ソースグループ化の例を示す図
図5】BRIRをブロックおよびフレームにパラメータ化する例を示す図
図6】異なる拡散ブロックに異なるカットオフ周波数を適用する例を示す図
図7】バイノーラルレンダラコアのブロック図を示す図
図8】グループ化に基づくフレームごとのバイノーラル化のブロック図
【発明を実施するための形態】
【0013】
以下で、図面を参照しつつ、本開示の実施形態における構成および動作を説明する。以下の実施形態は、あくまでも種々の独創的な段階の原理についての例示にすぎない。本明細書に記載される詳細の変形が当業者にとって明らかであることを、理解すべきである。
【0014】
<本開示の基礎を形成する基本的知識>
実際の例としてMPEG−H 3Dオーディオ規格を用いてバイノーラルレンダラが直面する問題を解決する方法を調査した。
【0015】
<問題1:チャンネル/オブジェクト−チャンネル−バイノーラルレンダリングの構成において、仮想スピーカの構成によって空間分解能が制限される>
チャンネルベースおよびオブジェクトベースの入力信号を最初に仮想スピーカ信号に変換し、その後にバイノーラル信号へと変換することによる間接バイノーラルレンダリングは、MPEG−H 3Dオーディオ規格などの3Dオーディオシステムで広く採用されている。しかしながら、そのような構成においては、空間分解能が、レンダリング経路の中間において仮想スピーカの構成によって固定および制限される。例えば、仮想スピーカが5.1または7.1の構成に設定されている場合、空間分解能は、仮想スピーカの少ない数によって制約され、結果として、ユーザは、これらの固定された方向のみから到来するサウンドを知覚することになる。
【0016】
さらに、バイノーラルレンダラ(103)において使用されるBRIRデータベースは、仮想リスニングルームにおける仮想スピーカの配置に関連付けられている。この事実は、BRIRが、そのような情報がデコードされたビットストリームから利用可能であるならば、制作シーンに関連付けられているべきであるという期待される状況から外れている。
【0017】
空間分解能を改善する方法として、スピーカの数を例えば22.2の構成へと増やすことや、オブジェクト−バイノーラル直接レンダリング方式を使用することが挙げられる。しかしながら、これらの方法は、BRIRが使用されるとき、バイノーラル化のための入力信号の数が増加するにつれて、計算が複雑になるという問題につながり得る。計算の複雑さの問題は、次の段落で説明される。
【0018】
<問題2:BRIRを用いたバイノーラルレンダリングにおいては計算が複雑である>BRIRは、一般に、長い一連のインパルスであるという事実ゆえに、BRIRと信号との間の直接の畳み込みは、大量の計算を必要とする。したがって、多くのバイノーラルレンダラは、計算の複雑さと空間品質との間の妥協点を模索している。図2が、MPEG−H 3Dオーディオにおけるバイノーラルレンダラ(103)の処理の流れをしている。このバイノーラルレンダラは、BRIRを「直接および初期反射(direct&early reflections)」部分および「後期残響(late reverberation)」部分に分割し、これら2つの部分を別々に処理する。「直接および初期反射」部分は、大部分の空間的情報を保持しているため、各々のBRIRのこの部分は、直接および初期部分の処理(201)において別々に信号と畳み込みされる。
【0019】
他方で、BRIRの「後期残響」部分は、空間的情報をあまり含んでいないため、信号を1つのチャンネルへとダウンミックスし(202)、後期残響の部分の処理(203)においてダウンミックス後のチャンネルと1回だけ畳み込みを実行すればよい。
【0020】
この方法は、後期残響の部分の処理(203)における計算負荷を軽減するが、計算の複雑さは、直接および初期部分の処理(201)において依然としてきわめて高くなり得る。これは、直接および初期部分の処理(201)において各々のソース信号が別々に処理され、ソース信号の数が増加するにつれて計算の複雑さも増すからである。
【0021】
<問題3:動きの速いオブジェクトの場合や、頭部トラッキングが有効である場合に、適していない>
バイノーラルレンダラ(103)は、仮想スピーカ信号を入力信号とみなし、バイノーラルレンダリングを、各々の仮想スピーカ信号を対応するバイノーラルインパルス応答のペアと畳み込むことによって実行することができる。頭部関連インパルス応答(HRIR:head related impulse response)およびバイノーラル空間インパルス応答(BRIR)が、インパルス応答として一般的に使用され、後者は、室内残響フィルタ係数からなり、したがってHRIRよりもはるかに長くなる。
【0022】
畳み込みプロセスは、ソースが固定位置にあると暗黙のうちに仮定し、これは仮想スピーカに当てはまる。しかしながら、オーディオソースが移動している多数の場合が存在し得る。一例は、オーディオソースの位置がユーザの頭部のいかなる回転からも不変であるように期待される仮想現実(VR:virtual reality)の用途におけるヘッドマウントディスプレイ(HMD:head mounted display)の使用である。これは、ユーザの頭部の回転の影響がないように、オブジェクトまたは仮想スピーカの位置を逆方向に回転させることによって達成される。もう1つの例は、オブジェクトの直接レンダリングであり、これらのオブジェクトは、メタデータにて指定されるさまざまな位置によって移動することができる。
【0023】
理論的には、移動するソースをレンダリングするための単刀直入な方法は、移動するソースゆえにレンダリングシステムがもはや線形時不変(LTI:linear time invariant)系ではなくなるため、存在しない。しかしながら、ソースを短い期間においては不動であると仮定し、この短い期間においてはLTIの仮定が有効であると、近似することができる。これは、HRIRを使用し、ソースがHRIRのフィルタ長(通常は、ミリ秒の数分の1である)の範囲において不動であると仮定できる場合に当てはまる。したがって、ソース信号フレームを対応するHRIRフィルタと畳み込み、バイノーラルフィードを生成することができる。しかしながら、BRIRが使用される場合には、フィルタ長が通常ははるかに長い(例えば、0.5秒)ために、ソースを、もはやBRIRフィルタ長の期間において不動であると仮定することはできない。追加の処理がBRIRフィルタとの畳み込みに適用されない限り、ソース信号フレームをBRIRフィルタと直接畳み込むことはできない。
【0024】
<問題の解決策>
本開示は、以下を含む。第1に、<問題1>における空間分解能の限界の問題を解決するために、オブジェクトベースおよびチャンネルベースの信号を、仮想スピーカを経ることなくバイノーラルエンドへと直接レンダリングする手段である。第2に、<問題2>における計算の複雑さの問題を取り除くために、互いに近いソースを1つのクラスタにグループ化し、処理の一部を1つのクラスタ内のソースのダウンミックス版へと適用できるようにする手段である。第3に、<問題3>における移動するソースの問題を解決するために、BRIRをいくつかのブロックに分割し、直接ブロック(直接および初期反射に対応する)をいくつかのフレームにさらに分割し、次いで、移動するソースの瞬時位置に従ってBRIRフレームを選択する新たなフレームごとの畳み込み方式によって、バイノーラル化フィルタ処理を実行する手段である。
【0025】
<提案される高速バイノーラルレンダラの概要>
図3が、本開示の概略図を示している。提案される高速バイノーラルレンダラ(306)における入力は、K個のオーディオソース信号と、或る期間にわたるソース位置/移動軌跡を指定するソースメタデータと、指定されたBRIRデータベースとを含む。上述のソース信号は、オブジェクトベースの信号、チャンネルベースの信号(仮想スピーカ信号)、または両者の混合のいずれかであってよく、ソース位置/移動軌跡は、オブジェクトベースのソースにおける或る期間にわたる位置系列またはチャンネルベースのソースにおける不動の仮想スピーカ位置であってよい。
【0026】
加えて、入力は、瞬時のユーザの頭部の向きまたは位置であってよい随意によるユーザ頭部トラッキングデータを、そのような情報が外部のアプリケーションから入手可能であり、レンダリングされたオーディオシーンをユーザの頭部の回転/移動に関して調整する必要がある場合にさらに含む。高速バイノーラルレンダラの出力は、ユーザによって聴き取られる左右のヘッドフォンフィード信号である。
【0027】
出力を得るために、高速バイノーラルレンダラは、第1に、瞬時のソースメタデータおよびユーザ頭部トラッキングデータを取得することによって瞬時のユーザの頭部の向き/位置に対する相対ソース位置を計算する頭部相対ソース位置計算モジュール(301)を備える。次いで、計算された頭部相対ソース位置が、階層的ソースグループ化モジュール(302)において階層的ソースグループ化情報を生成するために使用され、バイノーラルレンダラコア(303)において瞬時のソース位置に従ってパラメータ化BRIRを選択するために使用される。さらに、階層的ソースグループ化モジュール(302)によって生成された階層情報は、計算の複雑さを軽減する目的でバイノーラルレンダラコア(303)において使用される。階層的ソースグループ化モジュール(302)の詳細は、<ソースグループ化>の項で説明される。
【0028】
提案される高速バイノーラルレンダラは、各々のBRIRフィルタをいくつかのブロックに分割するBRIRパラメータ化モジュール(304)をさらに備える。BRIRパラメータ化モジュール(304)は、最初のブロックをフレームにさらに分割し、各々のフレームに対応するBRIRターゲット位置ラベルを添える。BRIRパラメータ化モジュール(304)の詳細は、<BRIRパラメータ化>の項で説明される。
【0029】
提案される高速バイノーラルレンダラが、BRIRをオーディオソースをレンダリングするためのフィルタとみなすことに、注意すべきである。BRIRデータベースが適切でなく、あるいはユーザが高分解能のBRIRデータベースの使用を好む場合、提案される高速バイノーラルレンダラは、近傍のBRIRフィルタに基づいて欠けているターゲット位置についてBRIRフィルタを補間する外部BRIR補間モジュール(305)をサポートする。
【0030】
しかしながら、このような外部モジュールを、本明細書においては指定しない。
【0031】
最後に、提案される高速バイノーラルレンダラは、コア処理ユニットであるバイノーラルレンダラコア(303)を備える。バイノーラルレンダラコア(303)は、上述の個々のソース信号、計算された頭部相対ソース位置、階層的ソースグループ化情報、およびパラメータ化BRIRブロック/フレームを得て、ヘッドフォンフィードを生成する。バイノーラルレンダラコア(303)の詳細は、<バイノーラルレンダラコア>の項および<ソースグループ化ベースのフレームごとのバイノーラルレンダリング>の項で説明される。
【0032】
<ソースグループ化>
図3の階層的ソースグループ化モジュール(302)は、計算された瞬時の頭部相対ソース位置を入力として得て、任意の2つのオーディオソースの間の類似性、例えば相互距離に基づいて、オーディオソースグループ化情報を計算する。そのようなグループ化の決定を、ソースをグループ化するためのP個の層によって階層的に行うことができ、より上位の層がより低い分解能を有する一方で、より下位の層がより高い分解能を有する。p番目の層の0番目のクラスタは、以下のように表される。
【数1】
【0033】
ここで、0はクラスタインデックスであり、pは層インデックスである。図4は、P=2の場合のこのような階層的ソースグループ化の簡単な例を示している。この図は、上面図として示されており、原点がユーザ(リスナ)の位置を示し、y軸の方向がユーザの向いている方向を示し、ソースが頭部相対ソース位置計算モジュール(301)から計算されたユーザに対するソースの2次元の頭部相対ソース位置に従ってプロットされている。下位層(第1の層:p=1)が、ソースを8つのクラスタにグループ化し、第1のクラスタC(1)={1}はソース1を含み、第2のクラスタC(1)={2,3}はソース2および3を含み、第3のクラスタC(1)={4}はソース4を含み、以下同様である。上位層(第2の層:p=2)は、ソースを4つのクラスタにグループ化し、ソース1、2、および3は、C(2)={1,2,3}によって表されるクラスタ1にグループ化され、ソース4および5は、C(2)={4,5}によって表されるクラスタ2にグループ化され、ソース6は、C(2)={6}によって表されるクラスタ3にグループ化される。
【0034】
層の数Pは、システムの複雑さの要求に応じてユーザによって選択され、2より大きくてもよい。上位層の分解能がより低い適切な階層設計によって、計算の複雑さを下げることができる。ソースをグループ化するために、簡単なやり方は、先の例で示したように、オーディオソースが存在する空間全体をいくつかの小さな領域/エンクロージャに分割することに基づく。
【0035】
したがって、ソースは、どの領域/エンクロージャに属するかに基づいて分類される。より専門的には、オーディオソースを、例えばk平均法やファジーc平均法のアルゴリズムなど、いくつかの特定のクラスタ化アルゴリズムに基づいてグループ化することができる。これらのクラスタ化アルゴリズムは、任意の2つのソースの間の類似度を計算し、それらのソースをクラスタにグループ化する。
【0036】
<BRIRパラメータ化>
この項は、指定されたBRIRデータベースまたは補間されたBRIRデータベースを入力とする図3のBRIRパラメータ化モジュール(304)における処理手順を説明する。図5が、BRIRフィルタのうちの1つをブロックおよびフレームへとパラメータ化する手順を示している。一般に、BRIRフィルタは、部屋の反射を含むがゆえに、長くなる可能性があり、例えばホールにおいて0.5秒を超える可能性がある。
【0037】
上述したように、そのような長いフィルタの使用は、直接畳み込みがフィルタとソース信号との間に適用される場合に、計算を複雑にする結果となる。オーディオソースの数が増えると、計算はさらに複雑になると考えられる。計算の複雑さを軽減するために、各々のBRIRフィルタは、直接ブロックおよび拡散ブロックに分割され、<バイノーラルレンダラコア>の項で説明されるような単純化された処理が、拡散ブロックに適用される。BRIRフィルタのブロックへの分割を、各々のBRIRフィルタのエネルギ包絡線と、ペアのフィルタ間の両耳間コヒーレンスとによって決定することができる。エネルギおよび両耳間コヒーレンスは、BRIRにおいて時間の増加と共に減少するため、ブロックを分離するための時点を、既存のアルゴリズムを用いて経験的に導き出すことができる(非特許文献2を参照)。図5は、BRIRフィルタが直接ブロックおよびW個の拡散ブロックに分割されている例を示している。直接ブロックは、次のように表される。
【数2】
【0038】
ここで、nはサンプルインデックスを表し、上付き文字(0)は直接ブロックを表し、θはこのBRIRフィルタのターゲット位置を表す。同様に、w番目の拡散ブロックは、次のように表される。
【数3】
【0039】
ここで、wは拡散ブロックインデックスである。さらに、図6に示されるように、図3のBRIRパラメータ化モジュール(304)の出力である異なるカットオフ周波数f、f、・・・、fが、BRIRの時間−周波数ドメインにおけるエネルギ分布に基づいて各々のブロックについて計算される。図3のバイノーラルレンダラコア(303)において、カットオフ周波数fよりも上の周波数(低エネルギ部分)は、計算の複雑さを軽減するために処理されない。拡散ブロックは、方向の情報をあまり含まないため、<バイノーラルレンダラコア>の項で詳述される計算の複雑さを軽減するためにソース信号のダウンミックス版を処理する図7の後期残響処理モジュール(703)において使用される。
【0040】
他方で、BRIRの直接ブロックは、重要な方向の情報を含んでおり、バイノーラル再生信号における方向キューを生成する。オーディオソースが高速で移動している状況に対応するために、レンダリングを、オーディオソースが短い期間(すなわち、例えば16kHzのサンプリングレートにおいて1024個のサンプルからなる長さの時間枠)の間だけ不動であるという仮定に基づいて実行すべきであり、バイノーラル化は、図7に示されるソースグループ化ベースのフレームごとのバイノーラル化のモジュール(701)において、フレームごとに処理される。したがって、直接ブロックhθ(0)(n)は、下記のように表されるフレームに分割される。
【数4】
【0041】
ここで、m=0、・・・、Mはフレームインデックスを表し、Mは直接ブロック内のフレームの総数である。分割されたフレームには、このBRIRフィルタのターゲット位置に対応する位置ラベルθも割り当てられる。
【0042】
<バイノーラルレンダラコア>
この項は、ソース信号、パラメータ化されたBRIRフレーム/ブロック、および計算されたソースグループ化情報を得てヘッドフォンフィードを生成する図3に示されるようなバイノーラルレンダラコア(303)の詳細を説明する。図7が、ソース信号の現在のブロックと以前のブロックとを別々に処理するバイノーラルレンダラコア(303)の処理図を示している。第1に、各々のソース信号が、現在のブロックおよびW個の以前のブロックに分割され、ここでWは、<BRIRパラメータ化>の項で定めた拡散BRIRブロックの数である。k番目のソース信号の現在のブロックは、次のように表される。
【数5】
【0043】
w個前のブロックは、次のように表される。
【数6】
【0044】
図7に示されるように、各々のソースの現在のブロックは、BRIRの直接ブロックを使用してフレームごとの高速バイノーラル化モジュール(701)において処理される。このプロセスは、次のように表される。
【数7】
【0045】
ここで、y(current)は、高速バイノーラル化モジュール(701)の出力を表し、関数β(・)は、図3の階層的ソースグループ化モジュール(302)から生成された階層的ソースグループ化情報、すべてのソース信号の現在のブロック、および直接ブロック内のBRIRフレームを入力とする高速バイノーラル化モジュール(701)の処理関数を表し、H(0)は、現在のブロック時間期間におけるすべての瞬時のフレームごとのソース位置に対応する直接ブロックのBRIRフレームの集合を表す。このフレームごとの高速バイノーラル化モジュール(701)の詳細は、<ソースグループ化ベースのフレームごとのバイノーラルレンダリング>の項で説明される。
【0046】
他方で、ソース信号の以前のブロックは、ダウンミックスモジュール(702)において1つのチャンネルにダウンミックスされ、後期残響処理モジュール(703)に渡される。後期残響処理モジュール(703)における後期残響処理は、次のように表される。
【数8】
【0047】
ここで、y(current−w)は、後期残響処理モジュール(703)の出力を表し、γ(・)は、ソース信号の以前のブロックのダウンミックス版と、BRIRの拡散ブロックとを入力とする後期残響処理モジュール(703)の処理関数を表す。変数θaveは、ブロックcurrent−wにおけるK個のすべてのソースの平均位置を表す。
【0048】
この後期残響処理を、畳み込みを使用して時間ドメインにおいて実行できることに注意すべきである。カットオフ周波数fの適用による高速フーリエ変換(FFT)を使用した周波数ドメインにおける乗算によっても実行することが可能である。また、ターゲットシステムの計算の複雑さに応じて、時間ドメインのダウンサンプリングを拡散ブロックについて実行できることにも、注目すべきである。このようなダウンサンプリングは、信号サンプルの数を減らすことができ、したがってFFTドメインにおける乗算の数を減らすことができ、結果として計算の複雑さを軽減することができる。
【0049】
以上に鑑み、バイノーラル再生信号は、最終的に、次のように生成される。
【数9】
【0050】
上記の式に示されるように、各々の拡散ブロックwについて、ダウンミックス処理
【数10】
がソース信号に適用されるがゆえに、後期残響処理γ(・)は1回だけ実行されればよい。そのような処理(フィルタ処理)をK個のソース信号について別々に実行しなければならない典型的な直接畳み込みの手法の場合と比較して、本開示は、計算の複雑さを軽減する。
【0051】
<ソースグループ化ベースのフレームごとのバイノーラルレンダリング>
この項は、ソース信号の現在のブロックを処理する図7のソースグループ化ベースのフレームごとのバイノーラル化モジュール(701)の詳細を説明する。最初に、k番目のソース信号の現在のブロックs(current)(n)が、フレームに分割され、ここで最新のフレームは、s(current),lfrm(n)によって表され、m個前のフレームは、s(current),lfrm−m(n)によって表される。ソース信号のフレーム長は、BRIRフィルタの直接ブロックのフレーム長と同等である。
【0052】
図8に示されるように、最新のフレームs(current),lfrm(n)が、集合H(0)に含まれるBRIRの直接ブロックの0番目のフレーム
【数11】
と畳み込まれる。このBRIRフレームは、最新のフレームにおけるソースの瞬時の位置θ(current),lfrmに最も近いBRIRフレームのラベル付き位置の探索[θ(current),lfrm]によって選択され、ここで[θ(current),lfrm]は、BRIRデータベース内のラベルの最も近い値を見つけることを意味する。BRIRの0番目のフレームは方向についての情報を最も含んでいるため、畳み込みは、各々のソースの空間キューを保持するために、各々のソース信号と個別に実行される。図8の(801)に示されるように、畳み込みを、周波数ドメインでの乗算を使用して実行することができる。
【0053】
m≧1である以前のフレームs(current),lfrm−m(n)の各々について、畳み込みは、H(0)に含まれるBRIRの直接ブロックのm番目のフレーム
【数12】
と実行されると仮定され、
ここで[θ(current),lfrm−m]は、フレームlfrm−mにおけるソース位置に最も近いそのBRIRフレームのラベル付けされた位置を表す。
【0054】
mが大きくなるにつれて、
【数13】
に含まれる方向についての情報が減少することに、注意すべきである。このため、計算の複雑さを軽減するため、(802)に示されるように、本開示は、s(current),lfrm−m(n)(k=1,2,・・・,K、m≧1)について、階層的ソースグループ化の決定C(p)(階層的ソースグループ化モジュール(302)から生成され、<ソースグループ化>の項で説明した)に従ってダウンミキシングを適用し、次いでソース信号フレームのこのダウンミックス版と畳み込みを行う。
【0055】
例えば、第2の層のソースグループ化が信号フレームs(latest frame−2(n)(すなわち、m=2)について適用され、ソース4および5が第2のクラスタC(2)={4,5}にグループ化される場合、ダウンミックスを、ソース信号を(slatest frame−2(n)+slatest frame−2(n))/2と平均することによって適用することができ、畳み込みが、この平均の信号とそのフレームにおける平均のソース位置を有するBRIRフレームとの間に適用される。
【0056】
フレームについて異なる階層の層を適用できることに、注意すべきである。本質的に、BRIRの早期のフレームについて、空間キューを維持するために高分解能のグループ化が考慮されるべきである一方で、BRIRの後期のフレームについては、計算の複雑さを軽減するために低分解能のグループ化が考慮される。最後に、フレームごとに処理された信号が、バイノーラル化モジュール(701)の出力、すなわちy(current)を生成するための総和を実行するミキサに渡される。
【0057】
以上の実施形態において、本開示は、上述の例によってハードウェアにて構成されているが、本開示を、ハードウェアとの連携においてソフトウェアによってもたらすことも可能である。
【0058】
加えて、実施形態の説明に用いた機能ブロックは、典型的には、集積回路であるLSIデバイスとして実現される。これらの機能ブロックを、個々のチップとして形成しても、あるいは機能ブロックの一部または全部を単一のチップに統合してもよい。本明細書において、用語「LSI」が使用されるが、集積度に応じて、用語「IC」、「システムLSI」、「スーパーLSI」、または「ウルトラLSI」も同様に使用することができる。
【0059】
また、回路の集積化は、LSIに限定されず、LSI以外の専用回路または汎用プロセッサによって実現されてもよい。LSIの製造後に、プログラム可能なフィールド・プログラマブル・ゲート・アレイ(FPGA)あるいはLSI内の回路セルの接続および設定の構成変更を可能にする構成変更可能なプロセッサを使用することができる。
【0060】
LSIに代わる回路集積技術が、半導体技術またはその技術から派生した他の技術の進歩の結果として現れた場合、そのような技術を使用して機能ブロックの集積が可能である。別の可能性は、バイオテクノロジなどの応用である。
【産業上の利用可能性】
【0061】
本開示は、ヘッドフォン再生のためのデジタルオーディオ信号のレンダリングのための方法に適用可能である。
【符号の説明】
【0062】
101 フォーマットコンバータ
102 VBAPレンダラ
103 バイノーラルレンダラ
201 直接および初期部分の処理
202 ダウンミックス
203 後期残響部分の処理
204 ミキシング
301 頭部相対ソース位置計算モジュール
302 階層的ソースグループ化モジュール
303 バイノーラルレンダラコア
304 BRIRパラメータ化モジュール
305 外部BRIR補間モジュール
306 高速バイノーラルレンダラ
701 フレームごとの高速バイノーラル化モジュール
702 ダウンミキシングモジュール
703 後期残響処理モジュール
704 総和
図1
図2
図3
図4
図5
図6
図7
図8