IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2023-518014パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法
<>
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図1
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図2
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図3
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図4
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図5
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図6
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図7
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図8
  • 特表-パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-27
(54)【発明の名称】パイプラインステージを使用してサウンドシーンをレンダリングするための装置および方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20230420BHJP
   G06F 9/38 20180101ALI20230420BHJP
   G06F 15/80 20060101ALI20230420BHJP
   G06F 9/445 20180101ALI20230420BHJP
【FI】
H04S7/00 300
G06F9/38 310J
G06F9/38 370X
G06F15/80
G06F9/445
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022555053
(86)(22)【出願日】2021-03-12
(85)【翻訳文提出日】2022-11-07
(86)【国際出願番号】 EP2021056363
(87)【国際公開番号】W WO2021180938
(87)【国際公開日】2021-09-16
(31)【優先権主張番号】20163153.8
(32)【優先日】2020-03-13
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ヴェファース・フランク
(72)【発明者】
【氏名】シュヴェア・ジモン
【テーマコード(参考)】
5B013
5B376
5D162
【Fターム(参考)】
5B013AA18
5B013DD05
5B376AE21
5D162AA04
5D162CC08
5D162DA21
5D162EG02
(57)【要約】
サウンドシーン(50)をレンダリングするための装置であって、第1の制御レイヤ(201)および再構成可能な第1のオーディオデータプロセッサ(202)を備える第1のパイプラインステージ(200)であって、再構成可能な第1のオーディオデータプロセッサ(202)は、再構成可能な第1のオーディオデータプロセッサ(202)の第1の構成に従って動作するように構成されている、第1のパイプラインステージ(200)と、パイプラインフローに対して、第1のパイプラインステージ(200)の後に位置する第2のパイプラインステージ(300)であって、第2のパイプラインステージ(300)は第2の制御レイヤ(301)および再構成可能な第2のオーディオデータプロセッサ(302)を備え、再構成可能な第2のオーディオデータプロセッサ(302)は、再構成可能な第2のオーディオデータプロセッサ(302)の第1の構成に従って動作するように構成されている、第2のパイプラインステージ(300)と、サウンドシーン(50)に応答して第1の制御レイヤ(201)および第2の制御レイヤ(301)を制御するための中央コントローラ(100)であって、第1の制御レイヤ(201)は、再構成可能な第1のオーディオデータプロセッサ(202)の第1の構成における再構成可能な第1のオーディオデータプロセッサ(202)の動作中もしくは動作後に、再構成可能な第1のオーディオデータプロセッサ(202)の第2の構成を準備し、または、第2の制御レイヤ(301)は、再構成可能な第2のオーディオデータプロセッサ(302)の第1の構成における再構成可能な第2のオーディオデータプロセッサ(302)の動作中もしくは動作後に、再構成可能な第2のオーディオデータプロセッサ(302)の第2の構成を準備する、中央コントローラ(100)と、を備え、中央コントローラ(100)は、特定の瞬間に、再構成可能な第1のオーディオデータプロセッサ(202)を再構成可能な第1のオーディオデータプロセッサ(202)のための第2の構成に再構成するために、または再構成可能な第2のオーディオデータプロセッサ(302)を再構成可能な第2のオーディオデータプロセッサ(302)のための第2の構成に再構成するために、スイッチ制御(110)を使用して第1の制御レイヤ(201)または第2の制御レイヤ(301)を制御するように構成される。

【特許請求の範囲】
【請求項1】
サウンドシーン(50)をレンダリングするための装置であって、
第1の制御レイヤ(201)および再構成可能な第1のオーディオデータプロセッサ(202)を備える第1のパイプラインステージ(200)であって、前記再構成可能な第1のオーディオデータプロセッサ(202)は、前記再構成可能な第1のオーディオデータプロセッサ(202)の第1の構成に従って動作するように構成されている、第1のパイプラインステージ(200)と、
パイプラインフローに対して、前記第1のパイプラインステージ(200)の後に位置する第2のパイプラインステージ(300)であって、前記第2のパイプラインステージ(300)は第2の制御レイヤ(301)および再構成可能な第2のオーディオデータプロセッサ(302)を備え、前記再構成可能な第2のオーディオデータプロセッサ(302)は、前記再構成可能な第2のオーディオデータプロセッサ(302)の第1の構成に従って動作するように構成されている、第2のパイプラインステージ(300)と、
前記サウンドシーン(50)に応答して前記第1の制御レイヤ(201)および前記第2の制御レイヤ(301)を制御するための中央コントローラ(100)であって、前記第1の制御レイヤ(201)は、前記再構成可能な第1のオーディオデータプロセッサ(202)の前記第1の構成における前記再構成可能な第1のオーディオデータプロセッサ(202)の動作中もしくは動作後に、前記再構成可能な第1のオーディオデータプロセッサ(202)の第2の構成を準備し、または、前記第2の制御レイヤ(301)は、前記再構成可能な第2のオーディオデータプロセッサ(302)の前記第1の構成における前記再構成可能な第2のオーディオデータプロセッサ(302)の動作中もしくは動作後に、前記再構成可能な第2のオーディオデータプロセッサ(302)の第2の構成を準備する、中央コントローラ(100)と、
を備え、
前記中央コントローラ(100)は、特定の瞬間に、前記再構成可能な第1のオーディオデータプロセッサ(202)を前記再構成可能な第1のオーディオデータプロセッサ(202)のための前記第2の構成に再構成するために、または前記再構成可能な第2のオーディオデータプロセッサ(302)を前記再構成可能な第2のオーディオデータプロセッサ(302)のための前記第2の構成に再構成するために、スイッチ制御(110)を使用して前記第1の制御レイヤ(201)または前記第2の制御レイヤ(301)を制御するように構成される、
サウンドシーン(50)をレンダリングするための装置。
【請求項2】
前記中央コントローラ(100)は、
前記再構成可能な第1のオーディオデータプロセッサ(202)の前記第1の構成における前記再構成可能な第1のオーディオデータプロセッサ(202)の動作中に前記再構成可能な第1のオーディオデータプロセッサ(202)の前記第2の構成を準備するように前記第1の制御レイヤ(201)を制御し、
前記再構成可能な第2のオーディオデータプロセッサ(302)の前記第1の構成における前記再構成可能な第2のオーディオデータプロセッサ(302)の動作中に、前記再構成可能な第2のオーディオデータプロセッサ(302)の前記第2の構成を準備するように前記第2の制御レイヤ(301)を制御し、
前記スイッチ制御(110)を使用して前記第1の制御レイヤ(201)および前記第2の制御レイヤ(301)を制御して、前記特定の瞬間に、前記再構成可能な第1のオーディオデータプロセッサ(202)を前記再構成可能な第1のオーディオデータプロセッサ(202)のための前記第2の構成に再構成し、前記再構成可能な第2のオーディオデータプロセッサ(302)を前記再構成可能な第2のオーディオデータプロセッサ(302)のための前記第2の構成に再構成する
ように構成される、請求項1に記載の装置。
【請求項3】
前記第1のパイプラインステージ(200)または前記第2のパイプラインステージ(300)は、入力レンダリングリスト(500)を受け取るように構成された入力インターフェースを備え、前記入力レンダリングリストは、レンダリングアイテム(501)の入力リスト、各レンダリングアイテムのメタデータ(502)、および各レンダリングアイテムのオーディオストリームバッファ(503)を含み、
少なくとも前記第1のパイプラインステージ(200)は、出力レンダリングリスト(600)を出力するように構成された出力インターフェースを備え、前記出力レンダリングリストは、レンダリングアイテム(601)の出力リスト、各レンダリングアイテムのメタデータ(602)、および各レンダリングアイテムのオーディオストリームバッファ(603)を含み、
前記第2のパイプラインステージ(300)が前記第1のパイプラインステージ(200)に接続されているとき、前記第1のパイプラインステージ(200)の前記出力レンダリングリストは前記第2のパイプラインステージ(300)の前記入力レンダリングリストである、
請求項1または2に記載の装置。
【請求項4】
前記第1のパイプラインステージ(200)は、レンダリングアイテムの前記出力リスト(600)によって示される対応するオーディオストリームバッファ(603)にオーディオサンプルを書き込むように構成され、その結果、前記第1のパイプラインステージ(200)に続く前記第2のパイプラインステージ(300)は、処理ワークフロー速度で前記対応するオーディオストリームバッファ(603)から前記オーディオストリームサンプルを取り出すことができる、請求項3に記載の装置。
【請求項5】
前記中央コントローラ(100)は、前記入力または出力レンダリングリスト(500、600)を前記第1または前記第2のパイプラインステージ(300)に提供するように構成され、前記再構成可能な第1または第2のオーディオデータプロセッサ(202、302)の前記第1または前記第2の構成は処理図を含み、前記第1または前記第2の制御レイヤ(201、301)は、前記中央コントローラ(100)または前のパイプラインステージから受信した前記入力または前記出力レンダリングリスト(500、600)から前記第2の構成のための前記処理図を作成するように構成され、
前記処理図は、オーディオデータプロセッサのステップと、前記対応する第1または第2の再構成可能オーディオデータプロセッサの入力バッファおよび出力バッファへの参照とを含む、
請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記中央コントローラ(100)は、前記処理図を作成するために必要な追加データを前記第1または前記第2のパイプラインステージ(200、300)に提供するように構成され、前記追加データは、前記入力レンダリングリスト(500)または前記出力レンダリングリスト(600)に含まれない、請求項5に記載の装置。
【請求項7】
前記中央コントローラ(100)は、サウンドシーン変化の瞬間にサウンドシーンインターフェースを介してサウンドシーン変化(50)を受信するように構成され、
前記中央コントローラ(100)は、前記サウンドシーン変化に応答して、かつ前記サウンドシーン変化によって画定された現在のサウンドシーンに基づいて、前記第1のパイプラインステージ(200)用の第1のレンダリングリストおよび前記第2のパイプラインステージ(300)用の第2のレンダリングリストを生成するように構成され、前記中央コントローラ(100)は、前記サウンドシーン変化の瞬間に続いて、前記第1のレンダリングリストを前記第1の制御レイヤ(201)に送信し、前記第2の中央レンダリングリストを前記第2の制御レイヤ(301)に送信するように構成される、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記第1の制御レイヤ(201)は、前記サウンドシーン変化の瞬間に続く前記第1のレンダリングリストから前記第1の再構成可能オーディオデータプロセッサ(202)の前記第2の構成を計算するように構成され、
前記第2の制御レイヤ(301)は、前記第2のレンダリングリストから前記第2の再構成可能データプロセッサ(302)の前記第2の構成を計算するように構成され、
前記中央コントローラ(100)は、前記第1および前記第2のパイプラインステージ(200、300)に対して同時に前記スイッチ制御(110)をトリガするように構成される、
請求項7に記載の装置。
【請求項9】
前記中央コントローラ(100)は、前記第1および前記第2の再構成可能オーディオデータプロセッサ(202、302)によって実行されるオーディオサンプル計算動作を妨害することなく、前記スイッチ制御(110)を使用するように構成される、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記中央コントローラ(100)は、不規則なデータ速度(91)を有する変化の瞬間に前記オーディオシーン(50)に対する変化を受信するように構成され、
前記中央コントローラ(100)は、前記第1および前記第2の制御レイヤ(201、301)に一定の制御速度(93)で制御命令を提供するように構成され、
前記再構成可能な第1および第2のオーディオデータプロセッサ(203、302)は、前記再構成可能な第1または第2のオーディオデータプロセッサの入力バッファから受信された入力オーディオサンプルから出力オーディオサンプルを計算するオーディオブロック速度で動作し、前記出力サンプルは、前記再構成可能な第1または第2のオーディオデータプロセッサの出力バッファに格納され、前記制御速度は、前記オーディオブロック速度よりも低い、
請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記中央コントローラ(100)は、前記第2の構成を準備するために前記第1および前記第2の制御レイヤ(201、202)を制御した後の特定の期間に、または前記第1および前記第2のパイプラインステージ(200、300)から受信した、前記第1および前記第2のパイプラインステージ(200、300)が前記対応する第2の構成への機会の準備ができていることを示す準備完了信号に応答して、前記スイッチ制御(110)をトリガするように構成される、
請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記第1または前記第2のパイプラインステージ(200、300)は、入力レンダリングアイテムのリスト(500)から出力レンダリングアイテムのリスト(600)を作成するように構成され、
前記作成することは、前記入力リストのレンダリングアイテムのメタデータを変更し、変更されたメタデータを前記出力リストに書き込むことを含むか、または、
前記入力レンダリングリストの入力ストリームバッファから読み出された入力オーディオデータを使用して前記レンダリングアイテムの出力オーディオデータを計算して、前記出力オーディオデータを前記出力レンダリングリスト(600)の出力ストリームバッファに書き込むことを含む、
請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記第1または前記第2の制御レイヤ(201、301)は、前記第1または前記第2の再構成可能オーディオデータプロセッサを制御して、前記スイッチ制御(110)の後に処理される新しいレンダリングアイテムをフェードインさせるか、または前記スイッチ制御(110)の後にはもはや存在しないが前記スイッチ制御(110)の前に存在する古いレンダリングアイテムをフェードアウトさせるように構成される、
請求項1から12のいずれか一項に記載の装置。
【請求項14】
レンダリングアイテムのリストの各レンダリングアイテムは、前記第1または前記第2のレンダリングステージの入力リストまたは出力リストにおいて、以下の状態、すなわち、レンダリングがアクティブである、レンダリングがアクティブ化される、レンダリングが非アクティブである、レンダリングが非アクティブ化される、のうちの少なくとも1つを示す状態インジケータを含む、
請求項1から13のいずれか一項に記載の装置。
【請求項15】
前記中央コントローラ(100)は、前記第1または前記第2のレンダリングステージからの要求に応答して、前記中央コントローラ(100)によって維持されるレンダリングアイテムの入力バッファを新しいサンプルで満たすように構成され、
前記中央コントローラ(100)は、前記再構成可能な第1および第2のオーディオデータプロセッサ(202、302)を順次トリガするように構成され、それにより、前記構成可能な第1および第2のオーディオデータプロセッサ(202、302)は、どの構成が現在アクティブであるかに応じて、前記第1または前記第2の構成に従って前記レンダリングアイテムの対応する入力バッファに作用する、
請求項1から14のいずれか一項に記載の装置。
【請求項16】
前記第2のパイプラインステージ(300)は、ヘッドフォン再生またはラウドスピーカ設定のためのチャネル表現を出力として提供する立体化ステージである、
請求項1から15のいずれか一項に記載の装置。
【請求項17】
前記第1および前記第2のパイプラインステージ(200、300)は、
伝送ステージ(200)、エクステントステージ(300)、早期反射ステージ(400)、クラスタリングステージ(551)、回折ステージ(552)、伝搬ステージ(553)、立体化ステージ(554)、リミッタステージ、および視覚化ステージ、
のうちの少なくとも1つを含む、請求項1から16のいずれか一項に記載の装置。
【請求項18】
前記第1のパイプラインステージ(200)は、1つまたは複数のレンダリングアイテムのための指向性ステージ(200)であり、前記第2のパイプラインステージ(300)が、1つまたは複数のレンダリングアイテムのための伝搬ステージ(300)であり、
前記中央コントローラ(100)は、前記1つまたは複数のレンダリングアイテムが1つまたは複数の新しい位置を有することを示す前記オーディオシーン(50)の変化を受信するように構成され、
前記中央コントローラ(100)は、前記第1および前記第2の再構成可能オーディオデータプロセッサのためのフィルタ設定を前記1つまたは複数の新しい位置に適合させるように前記第1の制御レイヤ(201)および前記第2の制御レイヤ(301)を制御するように構成され、
前記第1の制御レイヤ(201)または前記第2の制御レイヤ(301)は、前記特定の瞬間に前記第2の構成に変更するように構成され、前記第2の構成に変更するとき、前記第1の構成から前記第2の構成へのクロスフェード動作は、前記再構成可能な第1または第2のオーディオデータプロセッサ(202、302)で実行される、
請求項1から17のいずれか一項に記載の装置。
【請求項19】
前記第1のパイプラインステージ(200)は指向性ステージ(200)であり、前記第2のパイプラインステージ(300)はクラスタリングステージ(300)であり、
前記中央コントローラ(100)は、前記レンダリングアイテムのクラスタリングが停止されるべきであることを示す前記オーディオシーン(50)の変化を受信するように構成され、
前記中央コントローラ(100)は、前記クラスタリングステージの前記再構成可能オーディオデータプロセッサを非アクティブ化し、レンダリングアイテムの入力リストを前記第2のパイプラインステージ(300)のレンダリングアイテムの出力リストにコピーするように前記第1の制御レイヤ(201)を制御するように構成される、
請求項1から17のいずれか一項に記載の装置。
【請求項20】
前記第1のパイプラインステージ(200)はリバーブステージであり、前記第2のプラインステージ(300)は早期反射ステージであり、
前記中央コントローラ(100)は、追加の画像ソースが追加されるべきであることを示す前記オーディオシーン(50)の変化を受信するように構成され、
前記中央コントローラ(100)は、前記第2のパイプラインステージ(300)の前記制御レイヤを制御して、前記入力レンダリングリストからのレンダリングアイテムを乗算して、乗算されたレンダリングアイテム(333)を取得し、前記乗算されたレンダリングアイテム(333)を前記第2のパイプラインステージ(300)の出力レンダリングリストに加えるように構成される、
請求項1から17のいずれか一項に記載の装置。
【請求項21】
第1の制御レイヤ(201)および再構成可能な第1のオーディオデータプロセッサ(202)を備える第1のパイプラインステージ(200)であって、前記再構成可能な第1のオーディオデータプロセッサ(202)は、前記再構成可能な第1のオーディオデータプロセッサ(202)の第1の構成に従って動作するように構成されている、第1のパイプラインステージ(200)と、パイプラインフローに対して、前記第1のパイプラインステージ(200)の後に位置する第2のパイプラインステージ(300)であって、前記第2のパイプラインステージ(300)は第2の制御レイヤ(301)および再構成可能な第2のオーディオデータプロセッサ(302)を備え、前記再構成可能な第2のオーディオデータプロセッサ(302)は、前記再構成可能な第2のオーディオデータプロセッサ(302)の第1の構成に従って動作するように構成されている、第2のパイプラインステージ(300)と、を備える装置を使用してサウンドシーン(50)をレンダリングする方法であって、前記方法は、
前記サウンドシーン(50)に応答して前記第1の制御レイヤ(201)および前記第2の制御レイヤ(301)を制御するステップであって、前記第1の制御レイヤ(201)は、前記再構成可能な第1のオーディオデータプロセッサ(202)の前記第1の構成における前記再構成可能な第1のオーディオデータプロセッサ(202)の動作中もしくは動作後に、前記再構成可能な第1のオーディオデータプロセッサ(202)の第2の構成を準備し、または、前記第2の制御レイヤ(301)は、前記再構成可能な第2のオーディオデータプロセッサ(302)の前記第1の構成における前記再構成可能な第2のオーディオデータプロセッサ(302)の動作中もしくは動作後に、前記再構成可能な第2のオーディオデータプロセッサ(302)の第2の構成を準備する、ステップと、
特定の瞬間に、前記再構成可能な第1のオーディオデータプロセッサ(202)を前記再構成可能な第1のオーディオデータプロセッサ(202)のための前記第2の構成に再構成するために、または前記再構成可能な第2のオーディオデータプロセッサ(302)を前記再構成可能な第2のオーディオデータプロセッサ(302)のための前記第2の構成に再構成するために、スイッチ制御(110)を使用して前記第1の制御レイヤ(201)または前記第2の制御レイヤ(301)を制御するステップと、
を含む、方法。
【請求項22】
コンピュータまたはプロセッサ上で実行されると、請求項21に記載の方法を実行するためのコンピュータプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ処理に関し、特に、例えば仮想現実または拡張現実アプリケーションにおいて発生するサウンドシーンのオーディオ信号処理に関する。
【背景技術】
【0002】
幾何音響学は、聴覚化、すなわち聴覚シーンおよび環境のリアルタイムおよびオフラインオーディオレンダリングに適用される。これには、MPEG-I 6-DoFオーディオレンダラのような仮想現実(VR)および拡張現実(AR)システムが含まれる。6自由度(DoF)を有する複雑なオーディオシーンをレンダリングするために、幾何音響学の分野が適用され、音データの伝搬は、レイトレースなどの光学系から知られている方法を使用してモデル化される。特に、壁での反射は、光学系から導出されたモデルに基づいてモデル化され、壁で反射される光線の入射角は、入射角に等しい反射角をもたらす。
【0003】
仮想現実(VR)または拡張現実(AR)システムのオーディオレンダラのようなリアルタイム聴覚化システムは、通常、反射環境のジオメトリデータに基づいて早期反射をレンダリングする。次に、反射音の有効な伝搬経路を見つけるために、レイトレースと組み合わせた画像ソース法のような幾何音響学的手法が使用される。これらの方法は、反射平面が入射音の波長と比較して大きい場合に有効である。反射面の境界に対する表面上の反射点の距離もまた、入射音の波長と比較して大きくなければならない。
【0004】
リスナ(ユーザ)に対して、仮想現実(VR)または拡張現実(AR)の音がレンダリングされる。このプロセスへの入力は、サウンドソースの(典型的には無響の)オーディオ信号である。次いで、多数の信号処理技術がこれらの入力信号に適用され、壁/窓/ドアを通る音の伝送、周囲の回折および固体または透過性構造による閉塞、より長い距離にわたる音の伝播、半開放および閉鎖環境での反射、移動するソース/リスナのドップラシフトなどの関連する音響効果をシミュレートして組み込む。オーディオレンダリングの出力は、ヘッドフォンまたはラウドスピーカを介してリスナに配信されたときに提示されたVR/ARシーンの現実的な3次元音響印象を作り出すオーディオ信号である。
【0005】
レンダリングは、リスナ中心で実行され、システムは、著しい遅延なしに、ユーザの動きおよびインタラクションに瞬間的に反応しなければならない。したがって、オーディオ信号の処理はリアルタイムで行われなければならない。ユーザ入力は、信号処理(例えば、異なるフィルタ)の変化に現れる。これらの変化は、可聴アーチファクトなしでレンダリングに組み込まれるべきである。
【0006】
ほとんどのオーディオレンダラは、個々のオーディオソース(例えば、16×のオブジェクトソース、2×の3次アンビソニックス)ごとに固定された計算時間バジェットを有する予め定義された固定信号処理構造を使用した(複数のチャネルに適用されるブロック図、例えば[1]を参照)。これらの解決策は、位置依存フィルタおよびリバーブパラメータを更新することによって動的シーンのレンダリングを可能にするが、実行中にソースを動的に追加/除去することはできない。
【0007】
さらに、固定信号処理アーキテクチャは、多数のソースが同じ方法で処理されなければならないため、複雑なシーンをレンダリングするときにはむしろ効果的ではない可能性がある。より新しいレンダリングの概念は、クラスタリングおよび詳細レベルの概念(LOD)を容易にし、この場合、知覚に応じて、ソースが結合され、異なる信号処理でレンダリングされる。ソースクラスタリング([2]を参照)は、レンダラが何百ものオブジェクトを含む複雑なシーンを扱うことを可能にすることができる。そのような設定では、クラスタバジェットは依然として固定されており、これは複雑なシーンにおける広範なクラスタリングの可聴アーチファクトをもたらす可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、オーディオシーンをレンダリングする改善された概念を提供することである。
【課題を解決するための手段】
【0009】
この目的は、請求項1に記載のサウンドシーンをレンダリングするための装置、または請求項21に記載のサウンドシーンをレンダリングする方法、または請求項22に記載のコンピュータプログラムによって達成される。
【0010】
本発明は、サウンドシーンの頻繁な変化が起こり得る環境において多くのサウンドソースを有する複雑なサウンドシーンをレンダリングする目的で、パイプライン状のレンダリングアーキテクチャが有用であるという発見に基づいている。パイプライン状のレンダリングアーキテクチャは、第1の制御レイヤおよび再構成可能な第1のオーディオデータプロセッサを備える第1のパイプラインステージを備える。さらに、パイプラインフローに関して、第1のパイプラインステージの後に位置する第2のパイプラインステージが設けられる。この第2のパイプラインステージも、第2の制御レイヤと、再構成可能な第2のオーディオデータプロセッサとを備える。第1および第2のパイプラインステージの両方は、処理中の特定の時間に、再構成可能な第1のオーディオデータプロセッサの特定の構成に従って動作するように構成される。パイプラインアーキテクチャを制御するために、第1の制御レイヤおよび第2の制御レイヤを制御するための中央コントローラが設けられる。制御は、サウンドシーンに応答して、すなわち元のサウンドシーンまたはサウンドシーンの変化に応答して行われる。
【0011】
すべてのパイプラインステージ間で装置の同期動作を達成するために、第1または第2の再構成可能オーディオデータプロセッサの再構成タスクが必要とされるとき、中央コントローラは、第1の構成の再構成可能オーディオデータプロセッサの動作中または動作後に、第1の制御レイヤまたは第2の制御レイヤが第1または第2の再構成可能オーディオデータプロセッサの第2の構成などの別の構成を準備するように、パイプラインステージの制御レイヤを制御する。したがって、再構成可能な第1または第2のオーディオデータプロセッサのための新しい構成が、このパイプラインステージに属する再構成可能オーディオデータプロセッサが依然として異なる構成に従って動作している間に準備され、または以前の構成を有する処理タスクが既に行われている場合には異なる構成で構成される。いわゆる「アトミック動作」または「アトミック更新」を得るために両方のパイプラインステージが同期して動作することを確実にするために、中央コントローラは、スイッチ制御を使用して第1および第2の制御レイヤを制御して、再構成可能な第1のオーディオデータプロセッサまたは再構成可能な第2のオーディオデータプロセッサを特定の瞬間に第2の異なる構成に再構成する。単一のパイプラインステージのみが再構成される場合であっても、本発明の実施形態は、それにもかかわらず、特定の時間インスタンスにおけるスイッチ制御により、対応するレンダリングリストに含まれるオーディオストリーム入力バッファまたは出力バッファの提供を介してオーディオワークフローにおいて正しいオーディオサンプルデータが処理されることを保証する。
【0012】
好ましくは、サウンドシーンをレンダリングするための装置は、第1のパイプラインステージおよび第2のパイプラインステージよりも多くのパイプラインステージを有するが、既に第1のパイプラインステージおよび第2のパイプラインステージを有し、追加のパイプラインステージを有さないシステムにおいて、スイッチ制御に応答したパイプラインステージの同期された切り替えは、同時に非常に柔軟な、改善された高品質のオーディオレンダリング動作を得るために必要である。
【0013】
特に、ユーザが3つの方向に移動することができ、さらに、ユーザが3つの追加の方向、すなわち、6自由度(6-DoF)のシナリオで自分の頭を移動させることができる複雑な仮想現実シーンでは、レンダリングパイプライン内のフィルタの頻繁で突然の変化、例えば、リスナの頭の移動またはリスナの歩き回りの場合に1つの頭部関連伝達関数から別の頭部関連伝達関数に切り替えるために、そのような頭部関連伝達関数の変更が行われる必要がある。
【0014】
高品質の柔軟なレンダリングに関する他の問題のある状況は、リスナが仮想現実シーンまたは拡張現実シーンを動き回るとき、レンダリングされるソースの数が常に変化することである。これは、例えば、特定の画像ソースがユーザの特定の位置で見えるようになるという事実に起因して、または追加の回折効果を考慮しなければならないという事実に起因して起こり得る。さらに、他の手順は、特定の状況では、多くの異なる狭い間隔のソースのクラスタリングが可能であるが、ユーザがこれらのソースに近づくと、ユーザは非常に近くなり、各ソースがその別個の位置にレンダリングされる必要があるため、クラスタリングはもはや実行できないというものである。したがって、そのようなオーディオシーンは、フィルタの変更またはレンダリングされるソースの数の変更、または一般にパラメータの変更が常に必要とされるという点で問題がある。一方、複雑なオーディオ環境におけるリアルタイムのレンダリングが達成可能であることを確実にするために、効率的で高速なレンダリングが可能であるように、レンダリングのための異なる動作を異なるパイプラインステージに分散させることが有用である。
【0015】
完全に変化するパラメータのさらなる例は、ユーザがソースまたは画像ソースに近づくとすぐに、周波数依存距離減衰および伝搬遅延がユーザとサウンドソースとの間の距離と共に変化することである。同様に、反射面の周波数依存特性は、ユーザと反射物体との間の構成に応じて変化し得る。さらに、ユーザが回折物体に近いか、または回折物体からさらに離れているか、または異なる角度にあるかに応じて、周波数依存回折特性も変化する。したがって、これらのすべてのタスクが異なるパイプラインステージに分散される場合、これらのパイプラインステージの継続的な変更が可能でなければならず、同期して実行されなければならない。これはすべて、以前の構成における対応する構成可能オーディオデータプロセッサの動作中または動作後に新しい構成に備えるようにパイプラインステージの制御レイヤを制御する中央コントローラによって達成される。スイッチ制御を介した制御更新によってもたらされるパイプライン内のすべてのステージのスイッチ制御に応答して、再構成は、サウンドシーンをレンダリングするための装置内のパイプラインステージの間で同一であるか、または少なくとも非常に類似している特定の瞬間に行われる。
【0016】
本発明は、動的に変化する要素、例えば移動するソースおよびリスナを有する聴覚シーンの高品質のリアルタイム聴覚化を可能にするので有利である。したがって、本発明は、仮想シーンの没入体験にとって重要な要素である知覚的に説得力のあるサウンドスケープの達成に寄与する。
本発明の実施形態は、動的聴覚シーンをレンダリングする状況に非常によく適合する別個の同時のワークフロー、スレッドまたはプロセスを適用する。
【0017】
1.インタラクションワークフロー:任意の時点で発生する仮想シーン(例えば、ユーザの動き、ユーザインタラクション、シーンアニメーションなど)の変更の取り扱い。
2.制御ワークフロー:仮想シーンの現在の状態のスナップショットは、信号処理およびそのパラメータの更新をもたらす。
3.処理ワークフロー:リアルタイム信号処理の実行、すなわち、入力サンプルのフレームを取得し、出力サンプルの対応するフレームを計算する。
【0018】
制御ワークフローの実行は、ビジュアルコンピューティングにおけるフレームループと同様に、変更がトリガされる必要な計算に応じて、実行時間が異なる。本発明の好ましい実施形態は、制御ワークフローの実行のそのような変動が、バックグラウンドで同時に実行される処理ワークフローに全く悪影響を及ぼさないという点で有利である。リアルタイムオーディオはブロック単位で処理されるため、処理ワークフローの許容可能な計算時間は、通常、数ミリ秒に制限される。
【0019】
バックグラウンドで同時に実行される処理ワークフローは、第1の再構成可能オーディオデータプロセッサおよび第2の再構成可能オーディオデータプロセッサによって処理され、制御ワークフローは、中央コントローラによって開始され、次いで、処理ワークフローのバックグラウンド動作と並行してパイプラインステージの制御レイヤによってパイプラインステージレベルで実施される。インタラクションワークフローは、パイプライン式レンダリング装置レベルで、ヘッドトラッカまたは同様のデバイスなどの外部デバイスへの中央コントローラのインターフェースによって実施されるか、またはサウンドシーンの変化ならびにユーザの向きまたは位置の変化、すなわち一般にユーザの位置の変化を表す移動ソースまたはジオメトリを有するオーディオシーンによって制御される。
【0020】
本発明は、集中制御されたスイッチ制御手順により、シーン内の複数のオブジェクトをコヒーレントに変更し、同期してサンプリングすることができるという点で有利である。さらに、この手順は、最高レベル、すなわちインタラクションワークフローまたは中間レベル、すなわち制御ワークフローの変化によってオーディオ処理を中断しないために、制御ワークフローおよび処理ワークフローによってサポートされなければならない複数の要素のいわゆるアトミック更新を可能にする。
【0021】
本発明の好ましい実施形態は、モジュール式オーディオレンダリングパイプラインを実装するサウンドシーンをレンダリングするための装置に関し、仮想聴覚シーンの聴覚化のための必要なステップは、それぞれが独立して特定の知覚効果を担ういくつかのステージに分割される。少なくとも2つ、または好ましくはさらに多くの個々のパイプラインステージへの個々の分割は、アプリケーションに依存し、後に示すようにレンダリングシステムの作成者によって定義されることが好ましい。
【0022】
本発明は、仮想シーンの現在の状態に応じて信号処理パラメータの並列処理および動的再構成を容易にするレンダリングパイプラインのための一般的な構造を提供する。そのプロセスにおいて、本発明の実施形態は、
【0023】
a)各ステージが可聴アーチファクトを生成することなくそれらのDSP処理を動的に変更することができ(例えば、チャネル数、更新されたフィルタ係数)、レンダリングパイプラインの任意の更新は、シーンの最近の変化に基づいて、必要に応じて同期的かつアトミックに扱われること、
b)シーンの変化(例えば、リスナの動き)を任意の時点で受信することができ、システムのリアルタイム性能、特にDSP処理に影響を及ぼさないこと、
【0024】
c)個々のステージが、パイプライン内の他のステージの機能(例えば、複雑さを低減するための一次および画像ソースまたは不透明クラスタリングのための統一された指向性レンダリング)から利益を得ることができること
を確実にする。
本発明の好ましい実施形態は、添付の図面に関して以下に説明される。
【図面の簡単な説明】
【0025】
図1】レンダリングステージの入力/出力図である。
図2】レンダリングアイテムの状態遷移を示す図である。
図3】レンダリングパイプラインの概要を示す図である。
図4】仮想現実聴覚化パイプラインの例示的な構造を示す図である。
図5】サウンドシーンをレンダリングするための装置の好ましい実装形態を示す図である。
図6】既存のレンダリングアイテムについてメタデータを変更するための例示的な実装形態を示す図である。
図7】例えばクラスタリングによるレンダリングアイテムの削減のための別の例を示す図である。
図8】早期反射などのための新しいレンダリングアイテムを追加するための別の例示的な実装形態を示す図である。
図9】オーディオシーン(変化)であるハイレベルイベントから、新旧アイテムの低レベルフェードインもしくはフェードアウト、またはフィルタもしくはパラメータのクロスフェードへの制御フローを説明するフローチャートである。
【発明を実施するための形態】
【0026】
図5は、中央コントローラ100によって受信されたサウンドシーンまたはオーディオシーンをレンダリングするための装置を示している。装置は、第1の制御レイヤ201および再構成可能な第1のオーディオデータプロセッサ202を有する第1のパイプラインステージ200を備える。さらに、装置は、パイプラインフローに対して、第1のパイプラインステージ200の後に位置する第2のパイプラインステージ300を備える。第2のパイプラインステージ300を、第1のパイプラインステージ200の直後に配置することができ、またはパイプラインステージ300とパイプラインステージ200との間に1つまたは複数のパイプラインステージを有して配置することができる。第2のパイプラインステージ300は、第2の制御レイヤ301と、再構成可能な第2のオーディオデータプロセッサ302とを備える。さらに、第nの制御レイヤ401および再構成可能な第nのオーディオデータプロセッサ402を備える任意選択の第nのパイプラインステージ400が示されている。図5の例示的な実施形態では、パイプラインステージ400の結果は、既にレンダリングされたオーディオシーン、すなわち、中央コントローラ100に到達したオーディオシーンまたはオーディオシーン変化の全処理の結果である。中央コントローラ100は、サウンドシーンに応答して第1の制御レイヤ201および第2の制御レイヤ301を制御するように構成されている。
【0027】
サウンドシーンに応答するとは、特定の初期化または開始瞬間のシーン全体の入力に応答して、またはサウンドシーン変化に応答して、サウンドシーンが再び変化する前に存在する先行シーンと共に、中央コントローラ100によって処理される完全なサウンドシーンを表すことを意味する。特に、中央コントローラ100は、対応する再構成可能オーディオデータプロセッサが以前の構成または第1の構成に従ってバックグラウンドで動作している間に、第1の再構成可能オーディオデータプロセッサ、第2の再構成可能オーディオデータプロセッサ、および/または第nの再構成可能オーディオデータプロセッサの新しい構成または第2の構成が準備されるように、第1および第2の制御レイヤ、ならびに利用可能であれば第nの制御レイヤ401などの任意の他の制御レイヤを制御する。このバックグラウンドモードでは、再構成可能オーディオデータプロセッサが依然として動作しているかどうか、すなわち入力サンプルを受信して出力サンプルを計算するかどうかは決定されない。代わりに、特定のパイプラインステージがそのタスクを既に完了している状況でもあり得る。したがって、新しい構成の準備は、以前の構成における対応する再構成可能オーディオデータプロセッサの動作中または動作後に行われる。
【0028】
個々のパイプラインステージ200、300、400のアトミック更新が可能であることを確実にするために、中央コントローラは、特定の瞬間に個々の再構成可能な第1または第2のオーディオデータプロセッサを再構成するためにスイッチ制御110を出力する。特定のアプリケーションまたはサウンドシーン変化に応じて、単一のパイプラインステージのみを特定の瞬間に再構成することができ、またはパイプラインステージ200、300などの2つのパイプラインステージの両方が特定の瞬間に再構成されるか、またはサウンドシーンをレンダリングするための装置全体のすべてのパイプラインステージ、もしくは2つを超えるパイプラインステージを有するがすべてのパイプラインステージよりも少ないサブグループのみに、特定の瞬間に再構成されるスイッチ制御を提供することもできる。この目的のために、中央コントローラ100は、パイプラインステージを直列に接続する処理ワークフロー接続に加えて、対応するパイプラインステージの各制御レイヤへの制御ラインを有する。さらに、後述する制御ワークフロー接続は、中央スイッチ制御110のための第1の構造を介しても提供され得る。しかしながら、好ましい実施形態では、制御ワークフローはまた、パイプラインステージ間の直列接続を介して実行され、それにより、個々のパイプラインステージの各制御レイヤと中央コントローラ100との間の中央接続は、複雑な環境であってもアトミック更新、したがって正確で高品質のオーディオレンダリングを取得するためにスイッチ制御110のためにのみ確保される。
【0029】
以下のセクションでは、各々が分離された同期制御および処理ワークフロー(図1)を有する独立したレンダリングステージから構成される一般的なオーディオレンダリングパイプラインについて説明する。上位コントローラは、パイプライン内のすべてのステージがアトミックに一緒に更新され得ることを保証する。
【0030】
すべてのレンダリングステージは、それぞれ制御および処理ワークフローに対応する別々の入力および出力を有する制御部および処理部を有する。パイプラインにおいて、1つのレンダリングステージの出力は後続のレンダリングステージの入力であるが、共通インターフェースは、アプリケーションに応じてレンダリングステージを再編成して置き換えることができることを保証する。
【0031】
この共通インターフェースは、制御ワークフローのレンダリングステージに提供されるレンダリングアイテムのフラットリストとして説明される。レンダリングアイテムは、処理命令(すなわち、位置、向き、均等化などのメタデータ)をオーディオストリームバッファ(シングルチャネルまたはマルチチャネル)と組み合わせる。レンダリングアイテムへのバッファのマッピングは任意であり、複数のレンダリングアイテムが同じバッファを参照することができる。
【0032】
すべてのレンダリングステージは、後続のステージが処理ワークフローの速度で接続されたレンダリングアイテムに対応するオーディオストリームバッファから正しいオーディオサンプルを読み取ることができることを保証する。これを達成するために、すべてのレンダリングステージは、必要なDSPステップならびにその入力および出力バッファを記述するレンダリングアイテム内の情報から処理図を作成する。処理図(例えば、シーン内のジオメトリまたは個人向けHRIRセット)を構築するために追加のデータが必要とされる場合があり、コントローラによって提供される。制御更新がパイプライン全体に伝搬された後、処理図は同期のために並べられ、すべてのレンダリングステージについて同時に処理ワークフローに渡される。処理図の交換は、リアルタイムオーディオブロック速度に干渉することなくトリガされるが、個々のステージは、交換に起因して可聴アーチファクトが発生しないことを保証しなければならない。レンダリングステージがメタデータのみに作用する場合、DSPワークフローは動作なしとすることができる。
【0033】
コントローラは、仮想シーン内の実際のオーディオソースに対応するレンダリングアイテムのリストを維持する。制御ワークフローでは、コントローラは、レンダリングアイテムの新しいリストを第1のレンダリングステージに渡し、ユーザインタラクションおよび仮想シーンの他の変更から生じるすべてのメタデータ変更をアトミックに累積することによって、新しい制御更新を開始する。制御更新は、利用可能な計算リソースに依存し得る固定速度でトリガされるが、前の更新が終了した後にのみトリガされる。レンダリングステージは、入力リストから出力レンダリングアイテムの新しいリストを作成する。そのプロセスでは、既存のメタデータを修正し(例えば、等化特性を追加する)、新しいレンダリングアイテムを追加し、既存のレンダリングアイテムを非アクティブ化または削除することができる。レンダリングアイテムは、各レンダリングアイテム上の状態インジケータ(例えば、「アクティブ化する」、「非アクティブ化する」、「アクティブである」、「非アクティブである」)を介して通信される定義されたライフサイクル(図2)に従う。これにより、後続のレンダリングステージは、新しく作成されたまたは廃止されたレンダリングアイテムに従ってそれらのDSP図を更新することができる。状態変化時のレンダリングアイテムのアーチファクトフリーのフェードインおよびフェードアウトは、コントローラによって扱われる。
【0034】
リアルタイムアプリケーションでは、処理ワークフローは、オーディオハードウェアからのコールバックによってトリガされる。サンプルの新しいブロックが要求されると、コントローラは、保持するレンダリングアイテムのバッファを入力サンプルで満たす(例えば、ディスクから、または受信オーディオストリームから)。次に、コントローラは、それらの現在の処理図に従ってオーディオストリームバッファに作用するレンダリングステージの処理部を順次トリガする。
【0035】
レンダリングパイプラインは、レンダリングステージに類似した1つまたは複数の立体化(図3)を含むことができるが、それらの処理部の出力は、レンダリングアイテムの最終リストによって記述されるような仮想聴覚シーン全体の混合表現であり、指定された再生方法(例えば、バイノーラルオーバーヘッドフォンまたはマルチチャネルラウドスピーカ設定)で直接再生することができる。しかしながら、(例えば、出力信号のダイナミックレンジを制限するために)立体化の後に追加のレンダリングステージが続く場合がある。
提案された解決策の利点
【0036】
最新技術と比較して、本発明のオーディオレンダリングパイプラインは、異なるハードウェアまたはユーザ要件に処理を適合させる柔軟性を有する高度に動的なシーンを扱うことができる。このセクションでは、確立された方法に対するいくつかの進歩が列挙されている。
・新しいオーディオ要素を、実行時に仮想シーンに追加および仮想シーンから削除することができる。
同様に、レンダリングステージは、利用可能な計算リソースおよび知覚要件に基づいてそれらのレンダリングの詳細レベルを動的に調整することができる。
【0037】
・アプリケーションに応じて、ソフトウェアの他の部分を変更することなく、レンダリングステージを並べ替えることができ、または新しいレンダリングステージをパイプラインの任意の位置(例えば、クラスタリングまたは視覚化ステージ)に挿入することができる。個々のレンダリングステージの実装形態は、他のレンダリングステージを変更する必要なく変更することができる。
・複数の立体化は、共通の処理パイプラインを共有できるため、例えば、
マルチユーザのVR設定やヘッドフォンとラウドスピーカのレンダリングを最小限の計算作業で並行して行うことができる。
【0038】
・仮想シーンの変化(例えば、高速の頭部追跡デバイスによって引き起こされる)は、動的に調整可能な制御速度で累積され、例えばフィルタ切り替えのための計算労力を低減する。同時に、アトミック性を明示的に必要とするシーン更新(例えば、オーディオソースの平行移動)は、すべてのレンダリングステージにわたって同時に実行されることが保証される。
・制御および処理速度を、ユーザおよび(オーディオ再生)ハードウェアの要件に基づいて別々に調整することができる。
実施例
【0039】
VRアプリケーション用の仮想音響環境を作成するためのレンダリングパイプラインの実際の例は、所定の順序で以下のレンダリングステージを含み得る(図4も参照)。
【0040】
1.伝送:リスナからの遠い部分の信号およびリバーブを単一のレンダリングアイテム(場合によっては空間的なエクステントを有する)にダウンミックスすることによって、複数の隣接する部分空間を有する複雑なシーンを低減する。
【0041】
処理部:結合されたオーディオストリームバッファへの信号のダウンミックス、および後期リバーブを作成するための確立された技法を用いたオーディオサンプルの処理
【0042】
2.エクステント:複数の空間的に分離したレンダリングアイテムを作成することによって、空間的に拡張されたサウンドソースの知覚効果をレンダリングする。
処理部:新しいレンダリングアイテム用のいくつかのバッファへの入力オーディオ信号の分配(場合によっては非相関化のような追加の処理を伴う)
【0043】
3.早期反射:対応する均等化および位置メタデータを有する代表的なレンダリングアイテムを作成することによって、知覚的に関連する幾何学的反射を表面に組み込む。
処理部:新しいレンダリングアイテム用のいくつかのバッファへの入力オーディオ信号の分配
【0044】
4.クラスタリング:知覚的に区別できない位置を有する複数のレンダリングアイテムを単一のレンダリングアイテムに組み合わせて、後続のステージの計算複雑度を低減する。
処理部:結合されたオーディオストリームバッファへの信号のダウンミックス
5.回折:形状による伝搬経路の閉塞および回折の知覚効果を追加する。
6.伝搬:伝搬経路に対する知覚効果をレンダリングする(例えば、方向依存性放射特性、媒体吸収、伝搬遅延など)。
処理部:フィルタリング、非整数遅延線など
7.バイノーラル立体化:残りのレンダリングアイテムをリスナ中心のバイノーラルサウンド出力にレンダリングする。
処理部:HRIRフィルタリング、ダウンミックスなど
【0045】
続いて、図1から図4を言い換えて説明する。図1は、例えば、図1において「コントローラ」として示されている制御レイヤ201と、「DSP」(デジタル信号プロセッサ)として示されている再構成可能な第1のオーディオデータプロセッサ202とを備える、「レンダリングステージ(render stage)」とも呼ばれる第1のパイプラインステージ200を示している。しかしながら、図1のパイプラインステージまたはレンダリングステージ200は、図1の第2のパイプラインステージ300または図5の第nのパイプラインステージ400であると考えることもできる。
【0046】
パイプラインステージ200は、入力インターフェースを介して入力として入力レンダリングリスト500を受け取り、出力インターフェースを介して出力レンダリングリスト600を出力する。図5の第2のパイプラインステージ300の直後の接続の場合、パイプラインステージはパイプラインフローのために直列に接続されるので、第2のパイプラインステージ300の入力レンダリングリストは、第1のパイプラインステージ200の出力レンダリングリスト600となる。
【0047】
各レンダリングリスト500は、入力レンダリングリスト500または出力レンダリングリスト600の列によって示されるレンダリングアイテムの選択を含む。各レンダリングアイテムは、レンダリングアイテム識別子501と、図1において「x」として示されているレンダリングアイテムメタデータ502と、レンダリングアイテムに属するオーディオオブジェクトまたは個々のオーディオストリームの数に応じた1つまたは複数のオーディオストリームバッファとを備える。オーディオストリームバッファは、「O」で示され、好ましくは、例えば、中央コントローラによって管理することができるか、または任意の他のメモリ管理方法で管理することができるサウンドシーンをレンダリングするための装置のワードメモリ部内の実際の物理バッファへのメモリ参照によって実装される。あるいは、レンダリングリストは、物理メモリ部分を表すオーディオストリームバッファを含むことができるが、特定の物理メモリへの前記参照としてオーディオストリームバッファ503を実装することが好ましい。
【0048】
同様に、出力レンダリングリスト600は、やはり各レンダリングアイテムに対して1つの列を有し、対応するレンダリングアイテムは、レンダリングアイテム識別601、対応するメタデータ602、およびオーディオストリームバッファ603によって識別される。レンダリングアイテムのためのメタデータ502または602は、ソースの位置、ソースのタイプ、特定のソースに関連付けられたイコライザ、または一般に、特定のソースに関連付けられた周波数選択挙動を含むことができる。したがって、パイプラインステージ200は、入力として入力レンダリングリスト500を受け取り、出力として出力レンダリングリスト600を生成する。DSP202内で、対応するオーディオストリームバッファによって識別されるオーディオサンプル値は、例えば、デジタル信号プロセッサ202のために制御レイヤ201によって生成される特定の処理図によって示されるように、再構成可能オーディオデータプロセッサ202の対応する構成によって必要に応じて処理される。入力レンダリングリスト500は、例えば、3つのレンダリングアイテムを含み、出力レンダリングリスト600は、例えば、4つのレンダリングアイテム、すなわち、入力よりも多くのレンダリングアイテムを含むので、パイプラインステージ202は、例えば、アップミックスを実行することができる。別の実装形態は、例えば、4つのオーディオ信号を有する第1のレンダリングアイテムが単一のチャネルを有するレンダリングアイテムにダウンミックスされることであってもよい。第2のレンダリングアイテムは、処理によって変更されないままにすることができ、すなわち、例えば、入力から出力にのみコピーすることができ、第3のレンダリングアイテムは、例えば、レンダリングステージによって変更されないままにすることもできる。例えば、入力レンダリングリスト500の第2および第3のレンダリングアイテムを、出力レンダリングリストの第4のレンダリングアイテムの対応するオーディオストリームバッファ用の単一の出力オーディオストリームに結合することによって、出力レンダリングリスト600内の最後の出力レンダリングアイテムのみをDSPによって生成することができる。
【0049】
図2は、レンダリングアイテムの「ライブ(live)」を定義するための状態図を示している。状態図の対応する状態は、レンダリングアイテムのメタデータ502またはレンダリングアイテムの識別フィールドにも格納されることが好ましい。開始ノード510では、2つの異なるアクティブ化方法を実行することができる。一方の方法は、アクティブ化状態511になるための通常のアクティブ化である。他方の方法は、既にアクティブ状態512に到達しているための即時アクティブ化手順である。両方の手順の違いは、アクティブ化状態511からアクティブ状態512まで、フェードイン手順が実行されることである。
【0050】
レンダリングアイテムがアクティブである場合、それは処理され、直ちに非アクティブ化されるか、または通常通りに非アクティブ化されることができる。後者の場合、非アクティブ化状態514が得られ、非アクティブ化状態514から非アクティブ状態513になるためにフェードアウト手順が実行される。即時の非アクティブ化の場合、状態512から状態513への直接遷移が実行される。非アクティブ状態は、アクティブ化状態511に到達するために即時の再アクティブ化に戻るかもしくは再アクティブ化命令に入ることができ、または再アクティブ化制御も即時の再アクティブ化制御も得られない場合、制御は配置された出力ノード515に進むことができる。
【0051】
図3は、オーディオシーンがブロック50に示され、個々の制御フローも示されているレンダリングパイプラインの概要を示している。中央スイッチ制御フローは110に示されている。制御ワークフロー130は、コントローラ100から第1のステージ200に入り、そこから対応するシリアル制御ワークフロー線120を介して行われるように示されている。したがって、図3は、制御ワークフローがパイプラインの開始ステージにも供給され、そこから最終ステージまで連続的に伝搬される実装形態を示している。同様に、処理ワークフロー120は、個々のパイプラインステージの再構成可能オーディオデータプロセッサを介してコントローラ120から開始して最終ステージに入り、図3は、2つの最終ステージ、すなわち1つのラウドスピーカ出力ステージもしくはスペシャライザ1のステージ400aまたはヘッドフォンスペシャライザの出力ステージ400bを示している。
【0052】
図4は、オーディオシーン表現50、コントローラ100、および第1のパイプラインステージとして伝送パイプラインステージ200を有する例示的な仮想現実レンダリングパイプラインを示している。第2のパイプラインステージ300は、エクステントレンダリングステージとして実装される。第3のパイプラインステージ400は、早期反射パイプラインステージとして実装される。第4のパイプラインステージは、クラスタリングパイプラインステージ551として実装される。第5のパイプラインステージは、回折パイプラインステージ552として実装される。第6のパイプラインステージは伝搬パイプラインステージ553として実装され、最後の第7のパイプラインステージ554は、仮想現実または拡張現実オーディオシーン内をナビゲートするリスナが装着するヘッドフォンのヘッドフォン信号を最終的に取得するために、バイノーラル立体化として実装される。
【0053】
続いて、図6図7、および図8は、パイプラインステージをどのように構成することができるか、およびパイプラインステージをどのように再構成することができるかについての特定の例を与えるために図示および説明されている。
図6は、既存のレンダリングアイテムについてのメタデータの変更手順を示している。
シナリオ
【0054】
2つのオブジェクトオーディオソースは、2つのレンダリングアイテム(RI)として表されている。Directivity Stageは、サウンドソース信号の指向性フィルタリングを担当する。Propagation Stageは、リスナまでの距離に基づいて伝搬遅延をレンダリングする役割を担う。Binaural Spatializerは、バイノーラル化およびシーンのバイノーラルステレオ信号へのダウンミックスを担当する。
【0055】
ある制御ステップでは、前の制御ステップに対してRI位置が変化するため、個々のステージのDSP処理の変更が必要となる。音響シーンは同期して更新されるべきであり、その結果、例えば、変化する距離の知覚効果は、リスナに対する相対的な入射角の変化の知覚効果と同期する。
実装形態
【0056】
Render Listは、各制御ステップにおいて完全なパイプラインを介して伝搬される。制御ステップの間、DSP処理のパラメータは、最後のStage/Spatializerが新しいRender Listを処理するまで、すべてのステージで一定のままである。その後、すべてのStageは、次のDSPステップの開始時にそれらのDSPパラメータを同期的に変更する。
【0057】
目立ったアーチファクト(例えば、FIRフィルタ更新のための出力クロスフェード、遅延線のための線形補間)なしにDSP処理のパラメータを更新することは、各Stageの責任である。
【0058】
RIは、メタデータプーリングのためのフィールドを含むことができる。このようにして、例えば、Directivity stageは、信号自体をフィルタリングする必要はないが、RIメタデータ内のEQフィールドを更新することができる。その後、後続のEQステージは、すべての先行するステージの結合EQフィールドを信号に適用する。
重要な利点
-シーンの保証されたアトミック性が変化する(Stage間およびRI間の両方)
-より大きなDSP再構成が、オーディオ処理をブロックせず、すべてのStage/Spatializerの準備ができたときに同期して実行される
【0059】
-明確に定義された責任により、パイプラインの他のStageは、特定のタスク(例えば、クラスタリングの方法または利用可能性さえも)に使用されるアルゴリズムから独立している
-メタデータプーリングは、多くのStage(Directivity、Occlusionなど)が制御ステップにおいてのみ動作することを可能にする。
【0060】
特に、入力レンダリングリストは、図6の例の出力レンダリングリスト500と同じである。特に、レンダリングリストは、第1のレンダリングアイテム511および第2のレンダリングアイテム512を有し、各レンダリングアイテムは単一のオーディオストリームバッファを有する。
【0061】
この例では指向性ステージである第1のレンダリングまたはパイプラインステージ200において、第1のFIRフィルタ211が第1のレンダリングアイテムに適用され、別の指向性フィルタまたはFIRフィルタ212が第2のレンダリングアイテム512に適用される。さらに、この実施形態における伝播ステージである第2のレンダリングステージまたは第2のパイプラインステージ33内で、第1の補間遅延線311が第1のレンダリングアイテム511に適用され、別の第2の補間遅延線312が第2のレンダリングアイテム512に適用される。
【0062】
また、第2のパイプラインステージ300に続いて接続される第3のパイプラインステージ400では、第1のレンダリングアイテム511用の第1のステレオFIRフィルタ411が使用され、第2のFIRフィルタ412または第2のレンダリングアイテム512が使用される。バイノーラルスペシャライザでは、バイノーラル出力信号を得るために、加算器413において2つのフィルタ出力データのダウンミックスが実行される。これにより、レンダリングアイテム511、512によって示される2つのオブジェクト信号、加算器413(図6には示されていない)の出力におけるバイノーラル信号が生成される。したがって、説明したように、すべての要素211、212、311、312、411、412は、制御レイヤ201、301、401の制御下で同じ特定の瞬間にスイッチ制御に応答して変更される。図6では、レンダリングリスト500に示されるオブジェクトの数は同じままであるが、オブジェクトの位置が異なることにより、オブジェクトに対するメタデータが変化している状況が示されている。あるいは、オブジェクト、特にオブジェクトの位置のメタデータは同じままであるが、リスナの動きを考慮すると、リスナと対応する(固定された)オブジェクトとの間の関係が変化し、その結果、FIRフィルタ211、212が変化し、遅延線311、312が変化し、FIRフィルタ411、412が変化し、これらは、例えば、ヘッドトラッカによって測定されるように、例えば、ソースまたはオブジェクトの位置またはリスナの位置の各変化と共に変化する頭部伝達関数フィルタとして実装されている。
図7は、(クラスタリングによる)レンダリングアイテムの削減に関連するさらなる例を示している。
シナリオ
【0063】
複雑な聴覚シーンでは、Render Listは、知覚的に近くにある多くのRIを含むことができ、すなわち、それらの位置の差をリスナによって区別することができない。後続のStageの計算負荷を低減するために、Clustering Stageは、複数の個々のRIを単一の代表RIに置き換えることができる。
【0064】
ある制御ステップにおいて、シーン構成は、クラスタリングがもはや知覚的に実現不可能であるように変化し得る。この場合、Clustering Stageは非アクティブになり、Render Listを変更せずに渡す。
実装形態
【0065】
いくつかの受信RIがクラスタ化されると、元のRIは、発信Render Listにおいて非アクティブ化される。削減は後続のStageにとって不透明であり、Clustering Stageは、新しい発信Render Listがアクティブになるとすぐに、有効なサンプルが代表RIに関連付けられたバッファに提供されることを保証する必要がある。
【0066】
クラスタが実行不可能になると、Clustering stageの新しい発信Render Listは、元のクラスタ化されていないRIを含む。後続のステージは、(例えば、新しいFIRフィルタ、遅延線などをそれらのDSPダイアグラムに追加することによって)次のDSPパラメータ変化から開始して、それらを個別に処理する必要がある。
【0067】
重要な利点
-RIの不透明な削減は、明示的な再構成なしに後続のステージの計算負荷を低減する
-DSPパラメータ変化のアトミック性に起因して、Stageは、アーチファクトなしに様々な数の受信RIおよび発信RIを扱うことができる。
図7の例では、入力レンダリングリスト500は3つのレンダリングアイテム521、522、523を含み、出力レンダラ600は2つのレンダリングアイテム623、624を含む。
【0068】
第1のレンダリングアイテム521は、FIRフィルタ221の出力に由来する。第2のレンダリングアイテム522は、指向性ステージのFIRフィルタ222の出力によって生成され、第3のレンダリングアイテム523は、指向性ステージである第1のパイプラインステージ200のFIRフィルタ223の出力において得られる。レンダリングアイテムがフィルタの出力にあることが概説されている場合、これは、対応するレンダリングアイテムのオーディオストリームバッファのオーディオサンプルを指すことに留意されたい。
【0069】
図7の例では、レンダリングアイテム523は、クラスタリング状態300の影響を受けず、出力レンダリングアイテム623となる。しかしながら、レンダリングアイテム521およびレンダリングアイテム522は、出力レンダリングアイテム624としてレンダラ600において生じるダウミックスレンダリングアイテム324へとダウンミックスされる。クラスタリングステージ300におけるダウンミックスは、第1のレンダリングアイテム521のための場所321および第2のレンダリングアイテム522のための場所322によって示される。
【0070】
ここでも、図7の第3のパイプラインステージはバイノーラル立体化400であり、レンダリングアイテム624は第1のステレオFIRフィルタ424によって処理され、レンダリングアイテム623はステレオフィルタFIRフィルタ423によって処理され、両方のフィルタの出力が加算器413において加算されてバイノーラル出力を与える。
図8は、(早期反射のための)新しいレンダリングアイテムの追加を示す別の例を示している。
【0071】
シナリオ
幾何学的ルーム音響学では、反射音を画像ソースとしてモデル化する(すなわち、2つのポイントソースが同じ信号を有し、それらの位置が反射面に鏡像化される)ことが有益であり得る。シーン内のリスナ、ソース、および反射面の間の構成が反射に適している場合、Early Reflections Stageは、画像ソースを表すその発信Render Listに新しいRIを追加する。
【0072】
画像ソースの可聴性は、通常、リスナが移動すると急速に変化する。Early Reflections Stageは、各制御ステップにおいてRIをアクティブ化および非アクティブ化することができ、後続のStageはそれに応じてそれらのDSP処理を調整すべきである。
実装形態
【0073】
Early Reflections Stageは、関連するオーディオバッファが元のRIと同じサンプルを含むことを保証するので、Early Reflections Stageの後のステージは、反射RIを正常に処理することができる。このようにして、伝搬遅延などの知覚効果を、明示的な再構成なしに元のRIおよび反射などに対して扱うことができる。RIのアクティビティステータスが頻繁に変化するときに効率を高めるために、Stageは、再使用のために(FIRフィルタインスタンスのような)必要なDSPアーチファクトを保持することができる。
【0074】
Stageは、特定の特性を有するレンダリングアイテムを異なって扱うことができる。例えば、Reverb Stage(図8のアイテム532によって示される)によって作成されたRender Itemは、Early Reflections Stageによって処理されなくてもよく、Spatializerによってのみ処理される。このようにして、Render Itemはダウンミックスバスの機能を提供することができる。同様に、Stageは、Early Reflections Stageによって生成されたRender Itemを、通常は音響的に目立たないため、低品質のDSPアルゴリズムで扱うことができる。
重要な利点
-異なるRender Itemを、それらの特性に基づいて異なる方法で処理することができる
-新しいRender Itemを作成するStageは、明示的な再構成なしに後続のStageの処理から利益を得ることができる
【0075】
レンダリングリスト500は、第1のレンダリングアイテム531および第2のレンダリングアイテム532を含む。各々は、例えばモノラルまたはステレオ信号を搬送することができる単一のオーディオストリームバッファを有する。
【0076】
第1のパイプラインステージ200は、例えば生成されたレンダリングアイテム531を有するリバーブステージである。レンダリングリスト500は、レンダリングアイテム532をさらに有する。以前の偏向ステージ300では、レンダリングアイテム531、特にそのオーディオサンプルは、コピー動作のための入力331によって表される。コピー動作の入力331は、出力レンダリングリスト600のレンダリングアイテム631のオーディオストリームバッファに対応する出力オーディオストリームバッファ331にコピーされる。また、他のコピーされたオーディオオブジェクト333は、レンダリングアイテム633に対応する。さらに、上述したように、入力レンダリングリスト500のレンダリングアイテム532は、出力レンダリングリストのレンダリングアイテム632に単にコピーまたは供給される。
【0077】
そして、第3のパイプラインステージ、すなわち、上記の例では、バイノーラル立体化において、ステレオFIRフィルタ431が第1のレンダリングアイテム631に適用され、ステレオFIRフィルタ433が第2のレンダリングアイテム633に適用され、第3のステレオFIRフィルタ432が第3のレンダリングアイテム632に適用される。次に、3つすべてのフィルタの寄与が対応して加算され、すなわち、加算器413によってチャネルごとに加算され、加算器413の出力は、ヘッドフォンまたは一般にバイノーラル再生のために、一方では左信号であり、他方では右信号である。
【0078】
図9は、中央コントローラのオーディオシーンインターフェースによる高レベル制御からパイプラインステージの制御レイヤによって実行される低レベル制御までの個々の制御手順の概要を示す。
【0079】
例えばヘッドトラッカによって決定されるように、不規則であり、リスナの行動に依存する瞬間であり得る特定の時点において、中央コントローラは、ステップ91によって示されるようにオーディオシーンまたはオーディオシーンの変化を受信する。ステップ92において、中央コントローラは、中央コントローラの制御下で各パイプラインステージのレンダリングリストを決定する。特に、中央コントローラから個々のパイプラインステージに送信される制御更新は、規則的な速度で、すなわち特定の更新速度または更新頻度でトリガされる。
【0080】
ステップ93に示すように、中央コントローラは、個々のレンダリングリストをそれぞれのパイプラインステージ制御レイヤに送信する。これは、例えば、スイッチ制御インフラストラクチャを介して集中的に行うことができるが、図3の制御ワークフロー線130によって示されるように、これを第1のパイプラインステージを介してそこから次のパイプラインステージまで順次実行することが好ましい。さらなるステップ94において、各制御レイヤは、ステップ94に示されるように、対応する再構成可能オーディオデータプロセッサのための新しい構成のためのその対応する処理図を構築する。旧構成も「第1の構成」であるように示され、新構成は「第2の構成」であるように示される。
【0081】
ステップ95において、制御レイヤは、中央コントローラからスイッチ制御を受信し、その関連する再構成可能オーディオデータプロセッサを新しい構成に再構成する。ステップ95におけるこの制御レイヤスイッチ制御受信は、中央コントローラによるすべてのパイプラインステージの準備完了メッセージの受信に応答して行うことができ、またはステップ93で行われたように、更新トリガに対して特定の期間の後に対応するスイッチ制御命令の中央コントローラからの送出に応答して行うことができる。次に、ステップ96において、対応するパイプラインステージの制御レイヤは、新しい構成に存在しないアイテムのフェードアウトをケアするか、または古い構成に存在しなかった新しいアイテムのフェードインをケアする。古い構成および新しい構成の同じオブジェクトの場合、およびリスナの頭部の動きなどによるソースまたは新しいHRTFフィルタまでの距離などに関するメタデータの変更の場合、一方の距離から、例えば他方の距離に滑らかに来るようにフィルタのクロスフェードまたはフィルタリングされたデータのクロスフェードも、ステップ96で制御レイヤによって制御される。
【0082】
新しい構成における実際の処理は、オーディオハードウェアからのコールバックによって開始される。したがって、言い換えれば、処理ワークフローは、好ましい実施形態では、新しい構成への再構成の後にトリガされる。サンプルの新しいブロックが要求されると、中央コントローラは、それが保持するレンダリングアイテムのオーディオストリームバッファを、ディスクからの、または受信オーディオストリームからの入力サンプルで満たす。次に、コントローラは、レンダリングステージの処理部、すなわち、再構成可能オーディオデータプロセッサを順次トリガし、再構成可能オーディオデータプロセッサは、それらの現在の構成に従って、すなわち、それらの現在の処理図に従って、オーディオストリームバッファに作用する。したがって、中央コントローラは、サウンドシーンをレンダリングするための装置内の第1のパイプラインステージのオーディオストリームバッファを満たす。しかしながら、他のパイプラインステージの入力バッファが中央コントローラから満たされる状況もある。この状況は、例えば、オーディオシーンの以前の状況において空間的に拡張されたサウンドソースがなかった場合に生じ得る。したがって、この以前の状況では、図4のステージ300は存在しなかった。しかしながら、その後、リスナは、空間的に拡張されたサウンドソースが見える仮想オーディオシーン内の特定の場所に移動したか、またはリスナがこのサウンドソースに非常に近いため、空間的に拡張されたサウンドソースとしてレンダリングされなければならない。次に、この時点で、ブロック300を介してこの空間的に拡張されたサウンドソースを導入するために、中央コントローラ100は、典型的には伝送ステージ200を介して、拡張レンダリングステージ300に新しいレンダリングリストを供給する。
【0083】
参考文献
[1] Wenzel, E. M., Miller, J. D., and Abel, J. S. "Sound Lab: A real-time, software-based system for the study of spatial hearing." Audio Engineering Society Convention 108. Audio Engineering Society, 2000.
【0084】
[2] Tsingos, N., Gallo, E., and Drettakis, G "Perceptual audio rendering of complex virtual environments." ACM Transactions on Graphics (TOG) 23.3 (2004): 249-258.

図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】