特許6977030 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック　インテレクチュアル　プロパティ　コーポレーション　オブ　アメリカの特許一覧

特許6977030複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6977030

(24)【登録日】2021年11月12日

(45)【発行日】2021年12月8日

(54)【発明の名称】複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法

(51)【国際特許分類】

H04S 3/00 20060101AFI20211125BHJP

H04S 7/00 20060101ALI20211125BHJP

【ＦＩ】

H04S3/00 400

H04S7/00 340

【請求項の数】16

【全頁数】17

(21)【出願番号】特願2019-518124(P2019-518124)

(86)(22)【出願日】2017年10月11日

(65)【公表番号】特表2019-532579(P2019-532579A)

(43)【公表日】2019年11月7日

(86)【国際出願番号】JP2017036738

(87)【国際公開番号】WO2018079254

(87)【国際公開日】20180503

【審査請求日】2020年9月4日

(31)【優先権主張番号】特願2016-211803(P2016-211803)

(32)【優先日】2016年10月28日

(33)【優先権主張国】JP

(73)【特許権者】

【識別番号】514136668

【氏名又は名称】パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ

【氏名又は名称原語表記】ＰａｎａｓｏｎｉｃＩｎｔｅｌｌｅｃｔｕａｌＰｒｏｐｅｒｔｙＣｏｒｐｏｒａｔｉｏｎｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】110002952

【氏名又は名称】特許業務法人鷲田国際特許事務所

(72)【発明者】

【氏名】江原宏幸

(72)【発明者】

【氏名】ウーカイ

(72)【発明者】

【氏名】ネオスアホン

【審査官】殿川雅也

(56)【参考文献】

【文献】特開２０００−０１３９００（ＪＰ，Ａ）

【文献】特表２０１２−５０９６３２（ＪＰ，Ａ）

【文献】特表２０１６−５２３４６６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００

Ｇ１０Ｋ１５／００

Ｈ０４Ｓ１／００−７／００

Ｈ０４Ｒ３／００

(57)【特許請求の範囲】

【請求項1】

メタデータが関連付けられた、複数のオーディオソース信号と、バイノーラル空間インパルス応答（ＢＲＩＲ）データベースとを所与として、バイノーラル再生信号を生成する方法であって、
前記複数のオーディオソース信号が、チャンネルベースの信号、オブジェクトベースの信号、または両方の信号の混合であり、
ユーザの位置および向いている方向に対するオーディオソースの相対位置を計算し、
前記オーディオソースの相対位置に応じて前記複数のオーディオソース信号を階層的にグループ化し、
レンダリングに使用されるＢＲＩＲをパラメータ化し、
レンダリングされるべき各々のオーディオソース信号を複数のブロックおよびフレームに分割し、
前記パラメータ化されたＢＲＩＲシーケンスを平均し、
前記階層的にグループ化されたオーディオソース信号をダウンミックスする、
方法。

【請求項2】

前記相対位置は、前記複数のオーディオソースのメタデータおよびユーザ頭部トラッキングデータに基づいて、前記複数のオーディオソース信号の各々の時間フレーム／ブロック毎に計算される、
請求項１に記載の方法。

【請求項3】

前記グループ化は、各々のフレームについて計算された相対位置を所与として、異なるグループ化の分解能で複数のレイヤで階層的に行われる、
請求項１に記載の方法。

【請求項4】

前記ＢＲＩＲデータベースにおける各々のＢＲＩＲフィルタ信号が、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割され、前記フレームおよびブロックは、それぞれ前記ＢＲＩＲフィルタ信号のターゲット位置を使用してラベル付けさ
れる、
請求項１に記載の方法。

【請求項5】

前記オーディオソース信号は、現在のブロックおよび過去のブロックに分割され、前記現在のブロックは、さらに複数のフレームに分割される、
請求項１に記載の方法。

【請求項6】

フレームごとのバイノーラル化処理が、前記オーディオソース信号の現在のブロックのフレームについて、選択されたＢＲＩＲフレームを使用して実行され、各々のオーディオソースの前記計算された相対位置に最も近い直近のラベル付けされたＢＲＩＲフレームの探索に基づいて各々のＢＲＩＲフレームが選択される、
請求項１に記載の方法。

【請求項7】

前記フレームごとのバイノーラル化処理が、前記ダウンミックスされた信号に適用される、
請求項１に記載の方法。

【請求項8】

前記ＢＲＩＲデータベースにおける各々のＢＲＩＲフィルタ信号が、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割され、後期残響処理が、ＢＲＩＲの前記拡散ブロックを使用して前記オーディオソース信号の過去のブロックのダウンミックスされたものについて実行され、各々のブロックに異なるカットオフ周波数が適用される、
請求項１に記載の方法。

【請求項9】

メタデータが関連付けられた複数のオーディオソース信号と、バイノーラル空間インパルス応答（ＢＲＩＲ）データベースとを所与として、バイノーラル再生信号を生成するバイノーラルレンダリング装置であって、
前記複数のオーディオソース信号は、チャンネルベースの信号、オブジェクトベースの信号、または両方の信号の混合であり、
ユーザの位置および向いている方向に対するオーディオソースの相対位置を計算する計算モジュールと、
前記オーディオソースの相対位置に従ってオーディオソース信号を階層的にグループ化するグループ化モジュールと、
レンダリングに使用されるＢＲＩＲをパラメータ化する、ＢＲＩＲパラメータ化モジュールと、
レンダリングされるべき各々のオーディオソース信号をいくつかのブロックおよびフレームに分割し、
前記パラメータ化されたＢＲＩＲシーケンスを平均し、
前記階層的なグループ化の結果にて特定される前記分割されたオーディオソース信号をダウンミックスする、バイノーラルレンダラコア部と、を備えた
バイノーラルレンダリング装置。

【請求項10】

計算モジュールは、前記相対位置を、前記複数のオーディオソースのメタデータおよびユーザ頭部トラッキングデータに基づいて、前記複数のオーディオソース信号の各々の時間フレーム／ブロック毎に計算する、
請求項９に記載のバイノーラルレンダリング装置。

【請求項11】

前記グループ化モジュールは、前記グループ化を、各々のフレームについて計算された相対位置に基づいて、異なるグループ化の分解能で複数のレイヤで階層的に行う、
請求項９に記載のバイノーラルレンダリング装置。

【請求項12】

前記ＢＲＩＲパラメータ化モジュールは、前記ＢＲＩＲデータベースにおける各々のＢ
ＲＩＲフィルタ信号を、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割し、それぞれ前記ＢＲＩＲフィルタ信号のターゲット位置を使用してラベル付けする、
請求項９に記載のバイノーラルレンダリング装置。

【請求項13】

前記バイノーラルレンダラコア部は、前記オーディオソース信号を、現在のブロックおよび過去のブロックに分割し、前記現在のブロックをさらに複数のフレームに分割する、
請求項９に記載のバイノーラルレンダリング装置。

【請求項14】

前記バイノーラルレンダラコア部は、フレームごとのバイノーラル化処理を、前記ソース信号の現在のブロックのフレームについて、選択されたＢＲＩＲフレームを使用して実行し、各々のオーディオソースの前記計算された相対位置に最も近い直近のラベル付けされたＢＲＩＲフレームの探索に基づいて、各々のＢＲＩＲフレームが選択される、
請求項９に記載のバイノーラルレンダリング装置。

【請求項15】

バイノーラルレンダラコア部は、前記フレーム毎のバイノーラル化処理を、前記ダウンミックスされた信号に適用する、
請求項９に記載のバイノーラルレンダリング装置。

【請求項16】

前記ＢＲＩＲパラメータ化モジュールは、前記ＢＲＩＲデータベースにおける各々のＢＲＩＲフィルタ信号を、複数のフレームから構成される直接ブロックと、複数の拡散ブロックとに分割し、
バイノーラルレンダラコア部は、後期残響処理を、ＢＲＩＲの前記拡散ブロックを使用して前記オーディオソース信号の過去のブロックのダウンミックスされたものについて実行し、各々のブロックに異なるカットオフ周波数が適用する、
請求項９に記載のバイノーラルレンダリング装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ヘッドフォン再生のためのデジタルオーディオ信号の効率的なレンダリングに関する。

【背景技術】

【0002】

空間オーディオとは、高度のオーディオ包まれ感を聴衆にとって知覚可能にする臨場感のあるオーディオ再生システムを指す。この包まれ感は、聴衆があたかも自然のサウンド環境にいるかのようにサウンドシーンを知覚するような方向および距離の両方におけるオーディオソースの空間的位置の感覚を含む。

【0003】

空間オーディオ再生システムに一般的に使用される３つのオーディオ録音フォーマットが存在する。フォーマットは、オーディオコンテンツ制作現場において使用される録音およびミキシングの手法に依存する。第１のフォーマットは、最もよく知られているチャンネルベースのフォーマットであり、オーディオ信号の各チャンネルが、再生場所の特定のスピーカで再生されるように指定される。第２のフォーマットは、オブジェクトベースのフォーマットと呼ばれ、空間的なサウンドシーンをいくつかの仮想ソース（オブジェクトとも呼ばれる）によって表現することができる。各々のオーディオオブジェクトを、メタデータ付きのサウンド波形によって表すことができる。第３のフォーマットは、Ａｍｂｉｓｏｎｉｃベースのフォーマットと呼ばれ、音場の球面展開（ｓｐｈｅｒｉｃａｌｅｘｐａｎｓｉｏｎ）を表す係数信号と考えることができる。

【0004】

携帯電話機、タブレット、などの個人用携帯機器の普及、および仮想／拡張現実の新たな応用の出現に伴い、ヘッドフォンを通じた臨場感のある空間オーディオのレンダリングが、ますます必要かつ魅力的になってきている。バイノーラル化は、例えばチャンネルベースの信号、オブジェクトベースの信号、またはＡｍｂｉｓｏｎｉｃベースの信号などの入力空間オーディオ信号をヘッドフォン再生信号に変換する処理である。本質的には、現実的な環境における自然なサウンドシーンは、人間の両耳によって知覚される。これは、ヘッドフォン再生信号が自然な環境において人間によって知覚されるサウンドに近い場合に、これらの再生信号が空間サウンドシーンを可能な限り自然にレンダリングできなければならないことを意味する。

【0005】

バイノーラルレンダリングの典型的な例は、ＭＰＥＧ−Ｈ３Ｄオーディオ規格に文書化されている（非特許文献１を参照）。図１が、ＭＰＥＧ−Ｈ３Ｄオーディオ規格においてチャンネルベースおよびオブジェクトベースの入力信号をバイノーラルフィードへとレンダリングするフロー図を示している。仮想スピーカの配置構成（例えば５．１、７．１、または２２．２）に鑑み、チャンネルベースの信号１、・・・、Ｌ_１、およびオブジェクトベースの信号１、・・・、Ｌ_２は、まずはフォーマットコンバータ（１０１）およびＶＢＡＰレンダラ（１０２）をそれぞれ介していくつかの仮想スピーカ信号に変換される。次いで、仮想スピーカ信号は、ＢＲＩＲデータベースを考慮することによってバイノーラルレンダラ（１０３）を介してバイノーラル信号に変換される。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】ＩＳＯ／ＩＥＣＤＩＳ２３００８−３“Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ−Ｐａｒｔ３：３Ｄａｕｄｉｏ”

【非特許文献2】Ｔ．Ｌｅｅ，Ｈ．Ｏ．Ｏｈ，Ｊ．Ｓｅｏ，Ｙ．Ｃ．ＰａｒｋａｎｄＤ．Ｈ．Ｙｏｕｎ，“ＳｃａｌａｂｌｅＭｕｌｔｉｂａｎｄＢｉｎａｕｒａｌＲｅｎｄｅｒｅｒｆｏｒＭＰＥＧ−Ｈ３ＤＡｕｄｉｏ，”ｉｎＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．９，ｎｏ．５，ｐｐ．９０７−９２０，Ａｕｇ．２０１５．

【発明の概要】

【発明が解決しようとする課題】

【0007】

１つの典型的な実施形態（ただし、これに限られるわけではない）は、複数の移動するオーディオソースのための高速バイノーラルレンダリングの方法を提供する。本開示は、オブジェクトベース、チャンネルベース、または両方の混合であってよいオーディオソース信号と、関連のメタデータと、ユーザ頭部トラッキングデータと、バイノーラル空間インパルス応答（ＢＲＩＲ：ｂｉｎａｕｒａｌｒｏｏｍｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）データベースとを得て、ヘッドフォン再生信号を生成する。本開示の１つの典型的な実施形態（ただし、これに限られるわけではない）は、バイノーラルレンダラにおいて使用されるときに、高い空間分解能を提供し、計算の複雑さも少ない。

【0008】

１つの一般的な態様において、ここで開示される技術は、関連のメタデータを有する複数のオーディオソース信号と、バイノーラル空間インパルス応答（ＢＲＩＲ）データベースとを所与として、バイノーラルヘッドフォン再生信号を効率的に生成する方法を特徴とし、ここで前記オーディオソース信号は、チャンネルベースの信号、オブジェクトベースの信号、または両方の信号の混合であってよい。この方法は、（ａ）ユーザの頭部の位置および向いている方向に対するオーディオソースの瞬時の頭部相対ソース位置を計算するステップと、（ｂ）階層的なやり方でオーディオソースの前記瞬時の頭部相対ソース位置に従ってソース信号をグループ化するステップと、（ｃ）レンダリングに使用されるＢＲＩＲをパラメータ化する（または、レンダリングに使用されるＢＲＩＲをいくつかのブロックに分割する）ステップと、（ｄ）レンダリングされるべき各々のソース信号をいくつかのブロックおよびフレームに分割するステップと、（ｅ）階層的なグループ化の結果にて特定されるパラメータ化された（分割された）ＢＲＩＲシーケンスを平均するステップと、（ｆ）階層的なグループ化の結果にて特定される分割されたソース信号をダウンミックスする（平均する）ステップとを含む。

【0009】

本開示の実施形態における方法を使用することによって、頭部トラッキングに対応したヘッドマウントデバイスを使用することは、高速で移動するオブジェクトをレンダリングするのに有用である。

【0010】

一般的または具体的な実施形態を、システム、方法、集積回路、コンピュータプログラム、記憶媒体、またはこれらの任意の選択的な組合せとして実施できることに、注意すべきである。

【0011】

開示される実施形態のさらなる利益および利点は、明細書および図面から明らかになるであろう。利益および／または利点は、明細書および図面の種々の実施形態および特徴によって個別に得ることができ、そのような利益および／または利点のうちの１つ以上を得るために、必ずしも種々の実施形態および特徴をすべて備える必要はない。

【図面の簡単な説明】

【0012】

【図1】ＭＰＥＧ−Ｈ３Ｄオーディオ規格においてチャンネルベースおよびオブジェクトベースの信号をバイノーラルエンドへとレンダリングするブロック図

【図2】ＭＰＥＧ−Ｈ３Ｄオーディオにおけるバイノーラルレンダラの処理の流れのブロック図

【図3】提案される高速バイノーラルレンダラのブロック図

【図4】ソースグループ化の例を示す図

【図5】ＢＲＩＲをブロックおよびフレームにパラメータ化する例を示す図

【図6】異なる拡散ブロックに異なるカットオフ周波数を適用する例を示す図

【図7】バイノーラルレンダラコアのブロック図を示す図

【図8】グループ化に基づくフレームごとのバイノーラル化のブロック図

【発明を実施するための形態】

【0013】

以下で、図面を参照しつつ、本開示の実施形態における構成および動作を説明する。以下の実施形態は、あくまでも種々の独創的な段階の原理についての例示にすぎない。本明細書に記載される詳細の変形が当業者にとって明らかであることを、理解すべきである。

【0014】

＜本開示の基礎を形成する基本的知識＞
実際の例としてＭＰＥＧ−Ｈ３Ｄオーディオ規格を用いてバイノーラルレンダラが直面する問題を解決する方法を調査した。

【0015】

＜問題１：チャンネル／オブジェクト−チャンネル−バイノーラルレンダリングの構成において、仮想スピーカの構成によって空間分解能が制限される＞
チャンネルベースおよびオブジェクトベースの入力信号を最初に仮想スピーカ信号に変換し、その後にバイノーラル信号へと変換することによる間接バイノーラルレンダリングは、ＭＰＥＧ−Ｈ３Ｄオーディオ規格などの３Ｄオーディオシステムで広く採用されている。しかしながら、そのような構成においては、空間分解能が、レンダリング経路の中間において仮想スピーカの構成によって固定および制限される。例えば、仮想スピーカが５．１または７．１の構成に設定されている場合、空間分解能は、仮想スピーカの少ない数によって制約され、結果として、ユーザは、これらの固定された方向のみから到来するサウンドを知覚することになる。

【0016】

さらに、バイノーラルレンダラ（１０３）において使用されるＢＲＩＲデータベースは、仮想リスニングルームにおける仮想スピーカの配置に関連付けられている。この事実は、ＢＲＩＲが、そのような情報がデコードされたビットストリームから利用可能であるならば、制作シーンに関連付けられているべきであるという期待される状況から外れている。

【0017】

空間分解能を改善する方法として、スピーカの数を例えば２２．２の構成へと増やすことや、オブジェクト−バイノーラル直接レンダリング方式を使用することが挙げられる。しかしながら、これらの方法は、ＢＲＩＲが使用されるとき、バイノーラル化のための入力信号の数が増加するにつれて、計算が複雑になるという問題につながり得る。計算の複雑さの問題は、次の段落で説明される。

【0018】

＜問題２：ＢＲＩＲを用いたバイノーラルレンダリングにおいては計算が複雑である＞ＢＲＩＲは、一般に、長い一連のインパルスであるという事実ゆえに、ＢＲＩＲと信号との間の直接の畳み込みは、大量の計算を必要とする。したがって、多くのバイノーラルレンダラは、計算の複雑さと空間品質との間の妥協点を模索している。図２が、ＭＰＥＧ−Ｈ３Ｄオーディオにおけるバイノーラルレンダラ（１０３）の処理の流れをしている。このバイノーラルレンダラは、ＢＲＩＲを「直接および初期反射（ｄｉｒｅｃｔ＆ｅａｒｌｙｒｅｆｌｅｃｔｉｏｎｓ）」部分および「後期残響（ｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ）」部分に分割し、これら２つの部分を別々に処理する。「直接および初期反射」部分は、大部分の空間的情報を保持しているため、各々のＢＲＩＲのこの部分は、直接および初期部分の処理（２０１）において別々に信号と畳み込みされる。

【0019】

他方で、ＢＲＩＲの「後期残響」部分は、空間的情報をあまり含んでいないため、信号を１つのチャンネルへとダウンミックスし（２０２）、後期残響の部分の処理（２０３）においてダウンミックス後のチャンネルと１回だけ畳み込みを実行すればよい。

【0020】

この方法は、後期残響の部分の処理（２０３）における計算負荷を軽減するが、計算の複雑さは、直接および初期部分の処理（２０１）において依然としてきわめて高くなり得る。これは、直接および初期部分の処理（２０１）において各々のソース信号が別々に処理され、ソース信号の数が増加するにつれて計算の複雑さも増すからである。

【0021】

＜問題３：動きの速いオブジェクトの場合や、頭部トラッキングが有効である場合に、適していない＞
バイノーラルレンダラ（１０３）は、仮想スピーカ信号を入力信号とみなし、バイノーラルレンダリングを、各々の仮想スピーカ信号を対応するバイノーラルインパルス応答のペアと畳み込むことによって実行することができる。頭部関連インパルス応答（ＨＲＩＲ：ｈｅａｄｒｅｌａｔｅｄｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅ）およびバイノーラル空間インパルス応答（ＢＲＩＲ）が、インパルス応答として一般的に使用され、後者は、室内残響フィルタ係数からなり、したがってＨＲＩＲよりもはるかに長くなる。

【0022】

畳み込みプロセスは、ソースが固定位置にあると暗黙のうちに仮定し、これは仮想スピーカに当てはまる。しかしながら、オーディオソースが移動している多数の場合が存在し得る。一例は、オーディオソースの位置がユーザの頭部のいかなる回転からも不変であるように期待される仮想現実（ＶＲ：ｖｉｒｔｕａｌｒｅａｌｉｔｙ）の用途におけるヘッドマウントディスプレイ（ＨＭＤ：ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ）の使用である。これは、ユーザの頭部の回転の影響がないように、オブジェクトまたは仮想スピーカの位置を逆方向に回転させることによって達成される。もう１つの例は、オブジェクトの直接レンダリングであり、これらのオブジェクトは、メタデータにて指定されるさまざまな位置によって移動することができる。

【0023】

理論的には、移動するソースをレンダリングするための単刀直入な方法は、移動するソースゆえにレンダリングシステムがもはや線形時不変（ＬＴＩ：ｌｉｎｅａｒｔｉｍｅｉｎｖａｒｉａｎｔ）系ではなくなるため、存在しない。しかしながら、ソースを短い期間においては不動であると仮定し、この短い期間においてはＬＴＩの仮定が有効であると、近似することができる。これは、ＨＲＩＲを使用し、ソースがＨＲＩＲのフィルタ長（通常は、ミリ秒の数分の１である）の範囲において不動であると仮定できる場合に当てはまる。したがって、ソース信号フレームを対応するＨＲＩＲフィルタと畳み込み、バイノーラルフィードを生成することができる。しかしながら、ＢＲＩＲが使用される場合には、フィルタ長が通常ははるかに長い（例えば、０．５秒）ために、ソースを、もはやＢＲＩＲフィルタ長の期間において不動であると仮定することはできない。追加の処理がＢＲＩＲフィルタとの畳み込みに適用されない限り、ソース信号フレームをＢＲＩＲフィルタと直接畳み込むことはできない。

【0024】

＜問題の解決策＞
本開示は、以下を含む。第１に、＜問題１＞における空間分解能の限界の問題を解決するために、オブジェクトベースおよびチャンネルベースの信号を、仮想スピーカを経ることなくバイノーラルエンドへと直接レンダリングする手段である。第２に、＜問題２＞における計算の複雑さの問題を取り除くために、互いに近いソースを１つのクラスタにグループ化し、処理の一部を１つのクラスタ内のソースのダウンミックス版へと適用できるようにする手段である。第３に、＜問題３＞における移動するソースの問題を解決するために、ＢＲＩＲをいくつかのブロックに分割し、直接ブロック（直接および初期反射に対応する）をいくつかのフレームにさらに分割し、次いで、移動するソースの瞬時位置に従ってＢＲＩＲフレームを選択する新たなフレームごとの畳み込み方式によって、バイノーラル化フィルタ処理を実行する手段である。

【0025】

＜提案される高速バイノーラルレンダラの概要＞
図３が、本開示の概略図を示している。提案される高速バイノーラルレンダラ（３０６）における入力は、Ｋ個のオーディオソース信号と、或る期間にわたるソース位置／移動軌跡を指定するソースメタデータと、指定されたＢＲＩＲデータベースとを含む。上述のソース信号は、オブジェクトベースの信号、チャンネルベースの信号（仮想スピーカ信号）、または両者の混合のいずれかであってよく、ソース位置／移動軌跡は、オブジェクトベースのソースにおける或る期間にわたる位置系列またはチャンネルベースのソースにおける不動の仮想スピーカ位置であってよい。

【0026】

加えて、入力は、瞬時のユーザの頭部の向きまたは位置であってよい随意によるユーザ頭部トラッキングデータを、そのような情報が外部のアプリケーションから入手可能であり、レンダリングされたオーディオシーンをユーザの頭部の回転／移動に関して調整する必要がある場合にさらに含む。高速バイノーラルレンダラの出力は、ユーザによって聴き取られる左右のヘッドフォンフィード信号である。

【0027】

出力を得るために、高速バイノーラルレンダラは、第１に、瞬時のソースメタデータおよびユーザ頭部トラッキングデータを取得することによって瞬時のユーザの頭部の向き／位置に対する相対ソース位置を計算する頭部相対ソース位置計算モジュール（３０１）を備える。次いで、計算された頭部相対ソース位置が、階層的ソースグループ化モジュール（３０２）において階層的ソースグループ化情報を生成するために使用され、バイノーラルレンダラコア（３０３）において瞬時のソース位置に従ってパラメータ化ＢＲＩＲを選択するために使用される。さらに、階層的ソースグループ化モジュール（３０２）によって生成された階層情報は、計算の複雑さを軽減する目的でバイノーラルレンダラコア（３０３）において使用される。階層的ソースグループ化モジュール（３０２）の詳細は、＜ソースグループ化＞の項で説明される。

【0028】

提案される高速バイノーラルレンダラは、各々のＢＲＩＲフィルタをいくつかのブロックに分割するＢＲＩＲパラメータ化モジュール（３０４）をさらに備える。ＢＲＩＲパラメータ化モジュール（３０４）は、最初のブロックをフレームにさらに分割し、各々のフレームに対応するＢＲＩＲターゲット位置ラベルを添える。ＢＲＩＲパラメータ化モジュール（３０４）の詳細は、＜ＢＲＩＲパラメータ化＞の項で説明される。

【0029】

提案される高速バイノーラルレンダラが、ＢＲＩＲをオーディオソースをレンダリングするためのフィルタとみなすことに、注意すべきである。ＢＲＩＲデータベースが適切でなく、あるいはユーザが高分解能のＢＲＩＲデータベースの使用を好む場合、提案される高速バイノーラルレンダラは、近傍のＢＲＩＲフィルタに基づいて欠けているターゲット位置についてＢＲＩＲフィルタを補間する外部ＢＲＩＲ補間モジュール（３０５）をサポートする。

【0030】

しかしながら、このような外部モジュールを、本明細書においては指定しない。

【0031】

最後に、提案される高速バイノーラルレンダラは、コア処理ユニットであるバイノーラルレンダラコア（３０３）を備える。バイノーラルレンダラコア（３０３）は、上述の個々のソース信号、計算された頭部相対ソース位置、階層的ソースグループ化情報、およびパラメータ化ＢＲＩＲブロック／フレームを得て、ヘッドフォンフィードを生成する。バイノーラルレンダラコア（３０３）の詳細は、＜バイノーラルレンダラコア＞の項および＜ソースグループ化ベースのフレームごとのバイノーラルレンダリング＞の項で説明される。

【0032】

＜ソースグループ化＞
図３の階層的ソースグループ化モジュール（３０２）は、計算された瞬時の頭部相対ソース位置を入力として得て、任意の２つのオーディオソースの間の類似性、例えば相互距離に基づいて、オーディオソースグループ化情報を計算する。そのようなグループ化の決定を、ソースをグループ化するためのＰ個の層によって階層的に行うことができ、より上位の層がより低い分解能を有する一方で、より下位の層がより高い分解能を有する。ｐ番目の層の０番目のクラスタは、以下のように表される。

【数1】

【0033】

ここで、０はクラスタインデックスであり、ｐは層インデックスである。図４は、Ｐ＝２の場合のこのような階層的ソースグループ化の簡単な例を示している。この図は、上面図として示されており、原点がユーザ（リスナ）の位置を示し、ｙ軸の方向がユーザの向いている方向を示し、ソースが頭部相対ソース位置計算モジュール（３０１）から計算されたユーザに対するソースの２次元の頭部相対ソース位置に従ってプロットされている。下位層（第１の層：ｐ＝１）が、ソースを８つのクラスタにグループ化し、第１のクラスタＣ_１^（１）＝｛１｝はソース１を含み、第２のクラスタＣ_２^（１）＝｛２，３｝はソース２および３を含み、第３のクラスタＣ_３^（１）＝｛４｝はソース４を含み、以下同様である。上位層（第２の層：ｐ＝２）は、ソースを４つのクラスタにグループ化し、ソース１、２、および３は、Ｃ_１^（２）＝｛１，２，３｝によって表されるクラスタ１にグループ化され、ソース４および５は、Ｃ_２^（２）＝｛４，５｝によって表されるクラスタ２にグループ化され、ソース６は、Ｃ_３^（２）＝｛６｝によって表されるクラスタ３にグループ化される。

【0034】

層の数Ｐは、システムの複雑さの要求に応じてユーザによって選択され、２より大きくてもよい。上位層の分解能がより低い適切な階層設計によって、計算の複雑さを下げることができる。ソースをグループ化するために、簡単なやり方は、先の例で示したように、オーディオソースが存在する空間全体をいくつかの小さな領域／エンクロージャに分割することに基づく。

【0035】

したがって、ソースは、どの領域／エンクロージャに属するかに基づいて分類される。より専門的には、オーディオソースを、例えばｋ平均法やファジーｃ平均法のアルゴリズムなど、いくつかの特定のクラスタ化アルゴリズムに基づいてグループ化することができる。これらのクラスタ化アルゴリズムは、任意の２つのソースの間の類似度を計算し、それらのソースをクラスタにグループ化する。

【0036】

＜ＢＲＩＲパラメータ化＞
この項は、指定されたＢＲＩＲデータベースまたは補間されたＢＲＩＲデータベースを入力とする図３のＢＲＩＲパラメータ化モジュール（３０４）における処理手順を説明する。図５が、ＢＲＩＲフィルタのうちの１つをブロックおよびフレームへとパラメータ化する手順を示している。一般に、ＢＲＩＲフィルタは、部屋の反射を含むがゆえに、長くなる可能性があり、例えばホールにおいて０．５秒を超える可能性がある。

【0037】

上述したように、そのような長いフィルタの使用は、直接畳み込みがフィルタとソース信号との間に適用される場合に、計算を複雑にする結果となる。オーディオソースの数が増えると、計算はさらに複雑になると考えられる。計算の複雑さを軽減するために、各々のＢＲＩＲフィルタは、直接ブロックおよび拡散ブロックに分割され、＜バイノーラルレンダラコア＞の項で説明されるような単純化された処理が、拡散ブロックに適用される。ＢＲＩＲフィルタのブロックへの分割を、各々のＢＲＩＲフィルタのエネルギ包絡線と、ペアのフィルタ間の両耳間コヒーレンスとによって決定することができる。エネルギおよび両耳間コヒーレンスは、ＢＲＩＲにおいて時間の増加と共に減少するため、ブロックを分離するための時点を、既存のアルゴリズムを用いて経験的に導き出すことができる（非特許文献２を参照）。図５は、ＢＲＩＲフィルタが直接ブロックおよびＷ個の拡散ブロックに分割されている例を示している。直接ブロックは、次のように表される。

【数2】

【0038】

ここで、ｎはサンプルインデックスを表し、上付き文字（０）は直接ブロックを表し、θはこのＢＲＩＲフィルタのターゲット位置を表す。同様に、ｗ番目の拡散ブロックは、次のように表される。

【数3】

【0039】

ここで、ｗは拡散ブロックインデックスである。さらに、図６に示されるように、図３のＢＲＩＲパラメータ化モジュール（３０４）の出力である異なるカットオフ周波数ｆ_１、ｆ_２、・・・、ｆ_Ｗが、ＢＲＩＲの時間−周波数ドメインにおけるエネルギ分布に基づいて各々のブロックについて計算される。図３のバイノーラルレンダラコア（３０３）において、カットオフ周波数ｆ_Ｗよりも上の周波数（低エネルギ部分）は、計算の複雑さを軽減するために処理されない。拡散ブロックは、方向の情報をあまり含まないため、＜バイノーラルレンダラコア＞の項で詳述される計算の複雑さを軽減するためにソース信号のダウンミックス版を処理する図７の後期残響処理モジュール（７０３）において使用される。

【0040】

他方で、ＢＲＩＲの直接ブロックは、重要な方向の情報を含んでおり、バイノーラル再生信号における方向キューを生成する。オーディオソースが高速で移動している状況に対応するために、レンダリングを、オーディオソースが短い期間（すなわち、例えば１６ｋＨｚのサンプリングレートにおいて１０２４個のサンプルからなる長さの時間枠）の間だけ不動であるという仮定に基づいて実行すべきであり、バイノーラル化は、図７に示されるソースグループ化ベースのフレームごとのバイノーラル化のモジュール（７０１）において、フレームごとに処理される。したがって、直接ブロックｈ_θ^（０）（ｎ）は、下記のように表されるフレームに分割される。

【数4】

【0041】

ここで、ｍ＝０、・・・、Ｍはフレームインデックスを表し、Ｍは直接ブロック内のフレームの総数である。分割されたフレームには、このＢＲＩＲフィルタのターゲット位置に対応する位置ラベルθも割り当てられる。

【0042】

＜バイノーラルレンダラコア＞
この項は、ソース信号、パラメータ化されたＢＲＩＲフレーム／ブロック、および計算されたソースグループ化情報を得てヘッドフォンフィードを生成する図３に示されるようなバイノーラルレンダラコア（３０３）の詳細を説明する。図７が、ソース信号の現在のブロックと以前のブロックとを別々に処理するバイノーラルレンダラコア（３０３）の処理図を示している。第１に、各々のソース信号が、現在のブロックおよびＷ個の以前のブロックに分割され、ここでＷは、＜ＢＲＩＲパラメータ化＞の項で定めた拡散ＢＲＩＲブロックの数である。ｋ番目のソース信号の現在のブロックは、次のように表される。

【数5】

【0043】

ｗ個前のブロックは、次のように表される。

【数6】

【0044】

図７に示されるように、各々のソースの現在のブロックは、ＢＲＩＲの直接ブロックを使用してフレームごとの高速バイノーラル化モジュール（７０１）において処理される。このプロセスは、次のように表される。

【数7】

【0045】

ここで、ｙ^{（ｃｕｒｒｅｎｔ）}は、高速バイノーラル化モジュール（７０１）の出力を表し、関数β（・）は、図３の階層的ソースグループ化モジュール（３０２）から生成された階層的ソースグループ化情報、すべてのソース信号の現在のブロック、および直接ブロック内のＢＲＩＲフレームを入力とする高速バイノーラル化モジュール（７０１）の処理関数を表し、Ｈ^（０）は、現在のブロック時間期間におけるすべての瞬時のフレームごとのソース位置に対応する直接ブロックのＢＲＩＲフレームの集合を表す。このフレームごとの高速バイノーラル化モジュール（７０１）の詳細は、＜ソースグループ化ベースのフレームごとのバイノーラルレンダリング＞の項で説明される。

【0046】

他方で、ソース信号の以前のブロックは、ダウンミックスモジュール（７０２）において１つのチャンネルにダウンミックスされ、後期残響処理モジュール（７０３）に渡される。後期残響処理モジュール（７０３）における後期残響処理は、次のように表される。

【数8】

【0047】

ここで、ｙ^{（ｃｕｒｒｅｎｔ−ｗ）}は、後期残響処理モジュール（７０３）の出力を表し、γ（・）は、ソース信号の以前のブロックのダウンミックス版と、ＢＲＩＲの拡散ブロックとを入力とする後期残響処理モジュール（７０３）の処理関数を表す。変数θ_ａｖｅは、ブロックｃｕｒｒｅｎｔ−ｗにおけるＫ個のすべてのソースの平均位置を表す。

【0048】

この後期残響処理を、畳み込みを使用して時間ドメインにおいて実行できることに注意すべきである。カットオフ周波数ｆ_Ｗの適用による高速フーリエ変換（ＦＦＴ）を使用した周波数ドメインにおける乗算によっても実行することが可能である。また、ターゲットシステムの計算の複雑さに応じて、時間ドメインのダウンサンプリングを拡散ブロックについて実行できることにも、注目すべきである。このようなダウンサンプリングは、信号サンプルの数を減らすことができ、したがってＦＦＴドメインにおける乗算の数を減らすことができ、結果として計算の複雑さを軽減することができる。

【0049】

以上に鑑み、バイノーラル再生信号は、最終的に、次のように生成される。

【数9】

【0050】

上記の式に示されるように、各々の拡散ブロックｗについて、ダウンミックス処理

【数10】

がソース信号に適用されるがゆえに、後期残響処理γ（・）は１回だけ実行されればよい。そのような処理（フィルタ処理）をＫ個のソース信号について別々に実行しなければならない典型的な直接畳み込みの手法の場合と比較して、本開示は、計算の複雑さを軽減する。

【0051】

＜ソースグループ化ベースのフレームごとのバイノーラルレンダリング＞
この項は、ソース信号の現在のブロックを処理する図７のソースグループ化ベースのフレームごとのバイノーラル化モジュール（７０１）の詳細を説明する。最初に、ｋ番目のソース信号の現在のブロックｓ_ｋ^{（ｃｕｒｒｅｎｔ）}（ｎ）が、フレームに分割され、ここで最新のフレームは、ｓ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ}（ｎ）によって表され、ｍ個前のフレームは、ｓ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ−ｍ}（ｎ）によって表される。ソース信号のフレーム長は、ＢＲＩＲフィルタの直接ブロックのフレーム長と同等である。

【0052】

図８に示されるように、最新のフレームｓ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ}（ｎ）が、集合Ｈ^（０）に含まれるＢＲＩＲの直接ブロックの０番目のフレーム

【数11】

と畳み込まれる。このＢＲＩＲフレームは、最新のフレームにおけるソースの瞬時の位置θ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ}に最も近いＢＲＩＲフレームのラベル付き位置の探索［θ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ}］によって選択され、ここで［θ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ}］は、ＢＲＩＲデータベース内のラベルの最も近い値を見つけることを意味する。ＢＲＩＲの０番目のフレームは方向についての情報を最も含んでいるため、畳み込みは、各々のソースの空間キューを保持するために、各々のソース信号と個別に実行される。図８の（８０１）に示されるように、畳み込みを、周波数ドメインでの乗算を使用して実行することができる。

【0053】

ｍ≧１である以前のフレームｓ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ−ｍ}（ｎ）の各々について、畳み込みは、Ｈ^（０）に含まれるＢＲＩＲの直接ブロックのｍ番目のフレーム

【数12】

と実行されると仮定され、
ここで［θ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ−ｍ}］は、フレームｌｆｒｍ−ｍにおけるソース位置に最も近いそのＢＲＩＲフレームのラベル付けされた位置を表す。

【0054】

ｍが大きくなるにつれて、

【数13】

に含まれる方向についての情報が減少することに、注意すべきである。このため、計算の複雑さを軽減するため、（８０２）に示されるように、本開示は、ｓ_ｋ^{（ｃｕｒｒｅｎｔ），ｌｆｒｍ−ｍ}（ｎ）（ｋ＝１，２，・・・，Ｋ、ｍ≧１）について、階層的ソースグループ化の決定Ｃ_ｏ^（ｐ）（階層的ソースグループ化モジュール（３０２）から生成され、＜ソースグループ化＞の項で説明した）に従ってダウンミキシングを適用し、次いでソース信号フレームのこのダウンミックス版と畳み込みを行う。

【0055】

例えば、第２の層のソースグループ化が信号フレームｓ_ｋ^{（ｌａｔｅｓｔｆｒａｍｅ−２}（ｎ）（すなわち、ｍ＝２）について適用され、ソース４および５が第２のクラスタＣ_２^（２）＝｛４，５｝にグループ化される場合、ダウンミックスを、ソース信号を（ｓ_４^{ｌａｔｅｓｔｆｒａｍｅ−２}（ｎ）＋ｓ_５^{ｌａｔｅｓｔｆｒａｍｅ−２}（ｎ））／２と平均することによって適用することができ、畳み込みが、この平均の信号とそのフレームにおける平均のソース位置を有するＢＲＩＲフレームとの間に適用される。

【0056】

フレームについて異なる階層の層を適用できることに、注意すべきである。本質的に、ＢＲＩＲの早期のフレームについて、空間キューを維持するために高分解能のグループ化が考慮されるべきである一方で、ＢＲＩＲの後期のフレームについては、計算の複雑さを軽減するために低分解能のグループ化が考慮される。最後に、フレームごとに処理された信号が、バイノーラル化モジュール（７０１）の出力、すなわちｙ^{（ｃｕｒｒｅｎｔ）}を生成するための総和を実行するミキサに渡される。

【0057】

以上の実施形態において、本開示は、上述の例によってハードウェアにて構成されているが、本開示を、ハードウェアとの連携においてソフトウェアによってもたらすことも可能である。

【0058】

加えて、実施形態の説明に用いた機能ブロックは、典型的には、集積回路であるＬＳＩデバイスとして実現される。これらの機能ブロックを、個々のチップとして形成しても、あるいは機能ブロックの一部または全部を単一のチップに統合してもよい。本明細書において、用語「ＬＳＩ」が使用されるが、集積度に応じて、用語「ＩＣ」、「システムＬＳＩ」、「スーパーＬＳＩ」、または「ウルトラＬＳＩ」も同様に使用することができる。

【0059】

また、回路の集積化は、ＬＳＩに限定されず、ＬＳＩ以外の専用回路または汎用プロセッサによって実現されてもよい。ＬＳＩの製造後に、プログラム可能なフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）あるいはＬＳＩ内の回路セルの接続および設定の構成変更を可能にする構成変更可能なプロセッサを使用することができる。

【0060】

ＬＳＩに代わる回路集積技術が、半導体技術またはその技術から派生した他の技術の進歩の結果として現れた場合、そのような技術を使用して機能ブロックの集積が可能である。別の可能性は、バイオテクノロジなどの応用である。

【産業上の利用可能性】

【0061】

本開示は、ヘッドフォン再生のためのデジタルオーディオ信号のレンダリングのための方法に適用可能である。

【符号の説明】

【0062】

１０１フォーマットコンバータ
１０２ＶＢＡＰレンダラ
１０３バイノーラルレンダラ
２０１直接および初期部分の処理
２０２ダウンミックス
２０３後期残響部分の処理
２０４ミキシング
３０１頭部相対ソース位置計算モジュール
３０２階層的ソースグループ化モジュール
３０３バイノーラルレンダラコア
３０４ＢＲＩＲパラメータ化モジュール
３０５外部ＢＲＩＲ補間モジュール
３０６高速バイノーラルレンダラ
７０１フレームごとの高速バイノーラル化モジュール
７０２ダウンミキシングモジュール
７０３後期残響処理モジュール
７０４総和

【図1】