IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-07
(54)【発明の名称】音響環境の符号化および復号
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240425BHJP
【FI】
H04S7/00 300
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023572773
(86)(22)【出願日】2022-05-25
(85)【翻訳文提出日】2024-01-23
(86)【国際出願番号】 EP2022064327
(87)【国際公開番号】W WO2022248620
(87)【国際公開日】2022-12-01
(31)【優先権主張番号】21176345.3
(32)【優先日】2021-05-27
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ヘレ・ユルゲン
(72)【発明者】
【氏名】ギド・フロリン
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA07
5D162CD01
(57)【要約】
音響環境の符号化および復号のための装置および方法が開示される。
例によれば、音響環境を復号するための装置であって、音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを音響素材の音響特性とリンクする構造音響データによって表され、位置データが、各多角形について、頂点の位置を含み、装置が、
ビットストリームから、構造音響データの符号化バージョンと、音響環境内の少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリームとを読み取るためのビットストリームリーダと、
少なくとも1つのオーディオソースを表す少なくとも1つのオーディオストリームを復号するためのオーディオソース復号ブロックと、
構造音響データを復号する構造音響データ復号ブロックと、
を備える、装置が提供される。

【特許請求の範囲】
【請求項1】
音響環境(302)を復号するための装置(300)であって、前記音響環境(302)が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を音響素材(150)の音響特性とリンクする構造音響データによって表され、前記位置データが、各多角形について、頂点の位置を含み、前記装置が、
ビットストリーム(204)から、構造音響データの符号化バージョン(322)と、前記音響環境(302)内の前記少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリーム(312)とを読み取るためのビットストリームリーダ(330)と、
前記少なくとも1つのオーディオソースを表す前記少なくとも1つのオーディオストリーム(312)を復号するためのオーディオソース復号ブロック(310)と、
前記構造音響データ(211)を復号する構造音響データ復号ブロック(320)と、
を備える、装置。
【請求項2】
前記少なくとも1つのソースと前記復号された構造音響データ(211)との間の構造的および位置的関係にしたがって、前記少なくとも1つのオーディオストリーム(312、212)から得られた前記オーディオ信号(301)をレンダリングするためのレンダラ(350)をさらに備える、請求項1に記載の装置。
【請求項3】
前記構造音響データ復号ブロック(320)が、頂点の位置を示す頂点リスト(3802)を復号するための頂点リストデコーダ(3800)を含み、各頂点が頂点インデックスを有する、請求項1から2のいずれか一項に記載の装置。
【請求項4】
前記頂点リストデコーダ(3800)が、各頂点の各座標について、以前に符号化された頂点の、ショートリストにおいて関連付けられた、順序値の前記座標値または頂点インデックスを取得するように構成される、請求項3に記載の装置。
【請求項5】
前記ビットストリーム(204)内のシグナリングを読み取るように構成され、前記シグナリングが、前記ビットストリームに前記座標値または前記頂点インデックスが符号化されているかどうかを示す、請求項4に記載の装置。
【請求項6】
前記構造音響データ復号ブロック(320)が、少なくとも一次元(x、y、z)について、以前に復号された頂点の座標値が順序にしたがって記憶されている順序付きショートリストを使用し、
前記構造音響データ復号ブロック(220)が、前記ビットストリーム(204)が前記ショートリストの順序値を符号化している場合に、前記座標値を、前記順序値に関連付けられた前記ショートリスト(450)に記憶された前記値として再構成するように構成される、
請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記構造音響データ復号ブロックが、各頂点について、前記ショートリスト内の前記座標値または前記順序値が前記ビットストリーム(204)に符号化されているかどうかを示すバイナリマスク値(160x、160y、160z)を評価するように構成される、請求項6に記載の装置。
【請求項8】
前記ビットストリームからのシグナリングに基づいて、少なくとも一次元について前記順序付きショートリストをアクティブ化するか非アクティブ化するかを選択し、それによって前記順序付きショートリストを非アクティブ化するように構成される、請求項6または7に記載の装置。
【請求項9】
より高い多重度を有する座標についてより高いランクの順序値および/またはより低いビットの順序値を割り当てるように、頂点の座標の前記多重度を決定するように構成される、請求項6から8のいずれか一項に記載の装置。
【請求項10】
前記ビットストリームから復号された前記座標値および/または前記順序値に基づいて、前記ショートリストをオンザフライで更新するように構成される、請求項6から9のいずれか一項に記載の装置。
【請求項11】
前記ショートリスト(450)が、各次元について1つのショートリストインスタンス化(450x、450y、450z)を含む、請求項6から10のいずれか一項に記載の装置。
【請求項12】
前記構造音響データ復号ブロックが、
第1の次元について、1つの現在の頂点の座標値が、決定された順序値において前記第1の次元に関連する前記ショートリストインスタンス化に記憶された1つの以前に復号された頂点の1つの座標値と同じである場合に、前記ショートリストインスタンス化の前記順序値を復号し、
第2の次元について、前記現在の頂点の前記座標値が、前記第2の次元に関連する前記ショートリストインスタンス化に記憶された以前に復号された1つの頂点の任意の座標値と異なる場合に、前記座標値を復号する、
ように構成される、請求項11に記載の装置。
【請求項13】
算術符号化を使用して構造音響データを復号するように構成される、請求項1から12のいずれか一項に記載の装置。
【請求項14】
少なくとも1つの構造音響データを復号するために、前記少なくとも1つの構造音響データが前記第2のショートリスト内の前記位置から復号される第2のショートリストを使用する、請求項1から13のいずれか一項に記載の装置。
【請求項15】
前記少なくとも1つの構造音響データが前記第2のショートリストにない場合、前記少なくとも1つの構造音響データが、その全体が前記ビットストリームから読み取られるように構成される、請求項14に記載の装置。
【請求項16】
特定のコードが、前記第2のショートリスト内の前記位置を示すために使用されるコードよりも高いビット長を有する、請求項14または15に記載の装置。
【請求項17】
前記最後に復号された構造音響データが、前記第2のショートリスト内の前記第1の位置に配置され、前記第2のショートリスト内の前記他の復号された構造音響がシフトされる、請求項14から16のいずれか一項に記載の装置。
【請求項18】
前記第2のショートリスト内の第1の位置を示す前記コードが、前記第2のショートリスト内の最後の位置を示す前記コードよりも低いビット長を有する、請求項14から17のいずれか一項に記載の装置。
【請求項19】
多角形データリストを復号するために前記第2のショートリストを使用する、請求項14から18のいずれか一項に記載の装置。
【請求項20】
頂点リスト内の前記頂点の前記頂点インデックスが示されている多角形データリストを復号するために前記第2のショートリストを使用する、請求項19に記載の装置。
【請求項21】
前記ビットストリーム(204)においてシグナリングされる、前記音響環境に含まれるバウンディングボックス(500)に関する情報を読み取り、前記バウンディングボックスに関する前記情報が位置データを含み、前記バウンディングボックス(500)を前記環境内で局在化するように構成され、前記バウンディングボックス内の前記構造音響データを復号するようにさらに構成される、請求項1から20のいずれか一項に記載の装置。
【請求項22】
前記デコーダが、位置データを含む前記バウンディングボックス上の前記情報に基づいて各頂点の前記位置を再構成するように構成される、請求項21に記載の装置。
【請求項23】
前記ビットストリーム(204)が、前記音響環境が少なくとも1つの反復パターンを提示することをシグナリングした場合に、前記バウンディングボックス内の反復パターンに反復を適用することによって前記少なくとも1つの音響オブジェクトを再構成するように構成される、請求項21または22に記載の装置。
【請求項24】
前記ビットストリーム(204)が、前記少なくとも1つの反復パターンが前記バウンディングボックスに囲まれた対称パターンであることをシグナリングした場合に、前記バウンディングボックス内の前記頂点の位置に対称な位置に構造音響データを対称的に生成することによって前記少なくとも1つのオブジェクトを再構成するように構成される、請求項23に記載の装置。
【請求項25】
前記対称性が平面対称性であり、前記ビットストリームにおいてシグナリングされる前記対称性データが、前記対称性平面に関連付けられた情報を含み、前記装置が、前記対称性平面に関して前記バウンディングボックス内の前記頂点の前記位置に対称な位置に構造音響データを対称的に生成することによって前記少なくとも1つのオブジェクトを再構成するように構成される、請求項24に記載の装置。
【請求項26】
前記バウンディングボックスの少なくとも1つの決定された頂点によって定義されたバウンディングボックス空間座標系から元の座標系への前記頂点の座標の変更を実行するように構成される、請求項21から25のいずれか一項に記載の装置。
【請求項27】
前記ビットストリーム(104)が、少なくとも2つの頂点の少なくとも2つの座標値が公約数にしたがって因数分解された形式で符号化されることをシグナリングした場合、前記少なくとも2つの座標値を再構成するために、前記因数分解された形式で符号化された前記少なくとも2つの座標値のそれぞれと前記公約数とを乗算するようにさらに構成される、請求項1から26のいずれか一項に記載の装置。
【請求項28】
前記公約数が最大公約数である、請求項27に記載の装置。
【請求項29】
前記多角形が三角形である、請求項1から28のいずれか一項に記載の装置。
【請求項30】
音響環境(302)を復号するための方法であって、前記音響環境(302)が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を素材(150)の構造音響特性にリンクする構造音響データリスト(400)によって表され、前記位置データが、各多角形について、1つの一次構造音響頂点(110ax)の位置および前記残りの構造音響頂点(110b)の位置を含み、前記方法が、
ビットストリーム(204)から、構造音響データ(211)の符号化バージョン(322)と、前記音響環境(302)内の前記少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリーム(212)とを読み取ることと、
前記少なくとも1つのオーディオストリーム(312、212)を復号することと、
前記構造音響データ(211)を復号することと、
を含む、方法。
【請求項31】
音響環境を符号化するための装置であって、前記音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を音響素材(150)の音響特性にリンクする少なくとも1つの構造音響データによって表され、前記構造音響データが、各多角形について、頂点(110ax、110ay、110az)の位置を含み、前記装置が、
レンダリングされるべき少なくとも1つのオーディオストリームを符号化するように構成されたオーディオソース符号化ブロック(210)であって、前記少なくとも1つのオーディオストリームが、前記少なくとも1つのオーディオソースに関連付けられている、オーディオソース符号化ブロックと、
少なくとも1つの構造音響データ(221)を符号化して、前記少なくとも1つの構造音響データ(221)の符号化バージョン(222)を取得するように構成された構造音響データ符号化ブロック(220)と、
前記少なくとも1つのオーディオストリーム(212)および前記少なくとも1つの構造音響データ(221)の前記符号化バージョン(222)をビットストリーム(204)に書き込むように構成されたビットストリームライタ(230)と、
を備える、装置。
【請求項32】
少なくとも一次元について、複数の頂点の前記座標の中で、1とは異なる公約数を探索し、それにより、前記ビットストリーム(204)において、前記公約数および前記公約数による前記座標の分割の結果を符号化するようにさらに構成される、請求項31に記載の装置。
【請求項33】
前記公約数が最大公約数である、請求項32に記載の装置。
【請求項34】
前記バウンディングボックス(500)によって定義された空間座標系に対して、1よりも大きい最大公約数を有する座標の数を最大化するバウンディングブロックを定義するように構成される、請求項31に従属する場合の請求項32から33のいずれか一項に記載の装置。
【請求項35】
前記構造音響データ符号化ブロック(220)が、頂点の位置を示す頂点リスト(802)を符号化するための頂点リストエンコーダ(800)を含み、各頂点が頂点インデックスを有する、請求項31から34のいずれか一項に記載の装置。
【請求項36】
前記頂点リストエンコーダ(800)が、各頂点の各座標について、前記構造音響データ(202)の前記符号化バージョン(222)において、前記座標値を書き込むことと、以前に符号化された頂点の、ショートリストにおいて関連付けられた順序値の頂点インデックスを書き込むこととの間で選択するように構成される、請求項35に記載の装置。
【請求項37】
前記頂点リストエンコーダ(800)が、少なくとも一次元(x、y、z)について、以前に符号化された頂点の座標値が順序にしたがって記憶されている順序付きショートリストを使用し、
前記頂点リストエンコーダ(800)が、1つの現在の頂点の座標値が、決定された順序値で前記ショートリストに記憶された以前に符号化された1つの頂点の1つの座標値と同じである場合に、前記ショートリストの前記順序値を符号化し、
1つの現在の頂点の前記座標値が、前記ショートリストに記憶されている以前に符号化された1つの頂点の任意の座標値と異なる場合に、前記座標値を符号化するように構成される、
請求項35から36のいずれか一項に記載の装置。
【請求項38】
前記頂点リストエンコーダ(800)が、少なくとも一次元について、前記ショートリスト内の前記座標値または前記順序値が符号化されるかどうかを示すバイナリマスク値(160x、160y、160z)を符号化するように構成される、請求項37に記載の装置。
【請求項39】
前記頂点リストエンコーダ(800)が、頂点の座標の前記多重度を決定するように構成され、それにより、前記多重度の合計が所定の閾値未満である場合、少なくとも一次元について前記順序付きショートリストを非アクティブ化し、その結果、それぞれ、少なくとも前記順序付きショートリストが非アクティブ化される前記次元について、全ての前記座標が前記座標値を符号化することによってのみ符号化される、請求項37または38に記載の装置。
【請求項40】
前記頂点リストエンコーダ(800)が、より高い多重度を有する座標についてより高いランクの順序値および/またはより低いビットの順序値を割り当てるように、頂点の座標の前記多重度を決定するように構成される、請求項37から39のいずれか一項に記載の装置。
【請求項41】
前記ショートリストが、前記ビットストリームに符号化された前記座標値および/または前記順序値に基づいて、オンザフライで更新される、請求項37から40のいずれか一項に記載の装置。
【請求項42】
前記順序値が異なるビット長を有し、その結果、より頻繁な座標値がより低いビット長を有する順序値を割り当てられる、請求項37から41のいずれか一項に記載の装置。
【請求項43】
前記ショートリスト(450)が、各次元について1つのショートリストインスタンス化(450x、450y、450z)を含む、請求項37から42のいずれか一項に記載の装置。
【請求項44】
前記構造音響データ符号化ブロックが、
第1の次元について、1つの現在の頂点の座標値が、決定された順序値において前記第1の次元に関連する前記ショートリストインスタンス化に記憶された1つの以前に符号化された頂点の1つの座標値と同じである場合に、前記ショートリストインスタンス化の前記順序値を符号化し、
第2の次元について、前記現在の頂点の前記座標値が、前記第2の次元に関連する前記ショートリストインスタンス化に記憶された以前に符号化された1つの頂点の任意の座標値と異なる場合に、前記座標値を符号化する、
ように構成される、請求項43に記載の装置。
【請求項45】
算術符号化を使用して構造音響データを符号化するように構成される、請求項31から44のいずれか一項に記載の装置。
【請求項46】
少なくとも1つの構造音響データを符号化するために、前記少なくとも1つの構造音響データが前記第2のショートリスト内の前記位置として符号化される第2のショートリストを使用する、請求項1から45のいずれか一項に記載の装置。
【請求項47】
前記少なくとも1つの構造音響データが前記第2のショートリストにない場合、前記少なくとも1つの構造音響データが、その全体が符号化され、特定のコードによってシグナリングされるように構成される、請求項46に記載の装置。
【請求項48】
前記特定のコードが、前記第2のショートリスト内の前記位置を示すために使用される前記コードよりも高いビット長を有する、請求項46または47に記載の装置。
【請求項49】
前記最後に符号化された構造音響データが、前記第2のショートリスト内の前記第1の位置に配置され、前記第2のショートリスト内の前記他の符号化された構造音響がシフトされる、請求項46から48のいずれか一項に記載の装置。
【請求項50】
前記第2のショートリスト内の第1の位置を示す前記コードが、前記第2のショートリスト内の最後の位置を示す前記コードよりも低いビット長を有する、請求項46から49のいずれか一項に記載の装置。
【請求項51】
多角形データリストを符号化するために前記第2のショートリストを使用する、請求項46から50のいずれか一項に記載の装置。
【請求項52】
頂点リスト内の前記頂点の前記頂点インデックスを示すことによって多角形データリストを符号化するために前記第2のショートリストを使用する、請求項51に記載の装置。
【請求項53】
前記音響環境に含まれるバウンディングボックス(500)を定義し、前記バウンディングボックス(500)内の前記構造音響データを符号化するように構成され、前記バウンディングボックス(500)の位置データが前記ビットストリームにおいてシグナリングされる、請求項31から51のいずれか一項に記載の装置。
【請求項54】
いかなる頂点も含まない前記音響環境の部分を少なくとも除外することによって前記バウンディングボックス(500)を定義するように構成される、請求項53に記載の装置。
【請求項55】
前記音響環境が少なくとも1つの反復パターンを提示するかどうかを評価して、前記バウンディングボックス(500)を前記少なくとも1つの反復パターンに制限するように構成され、前記ビットストリームにおいて反復パターンデータをシグナリングするようにさらに構成される、請求項53または54に記載の装置。
【請求項56】
前記少なくとも1つの反復パターンが対称パターンであり、前記ビットストリーム(204)内の対称性データをシグナリングするようにさらに構成される、請求項55に記載の装置。
【請求項57】
前記対称性が平面対称性であり、前記ビットストリームにおいてシグナリングされる前記対称性データが、前記対称性平面に関連付けられた情報を含む、請求項56に記載の装置。
【請求項58】
前記頂点の座標の元の空間座標系から、前記バウンディングボックス(500)の少なくとも1つの決定された頂点によって定義される前記バウンディングボックス(500)座標系への変更を実行するように構成される、請求項53から57のいずれか一項に記載の装置。
【請求項59】
前記多角形が三角形である、請求項31から58のいずれか一項に記載の装置。
【請求項60】
音響環境を符号化するための方法であって、前記音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を素材(150)の構造音響特性にリンクする少なくとも1つの構造音響データによって表され、前記位置データが、各多角形について、1つの一次多角形頂点(110ax、110ay、110az)の位置および前記残りの多角形頂点(110b、110c、120b)の位置を含み、前記方法が、
前記少なくとも1つのオーディオソースに関連してレンダリングされるべき少なくとも1つのオーディオストリームを符号化することと、
少なくとも1つの構造音響データ(221)を符号化して、前記少なくとも1つの構造音響データ(221)の符号化バージョン(222)を取得することと、
前記少なくとも1つのオーディオストリーム(212)および前記少なくとも1つの構造音響データ(221)の前記符号化バージョン(222)をビットストリーム(204)に書き込むことと、
を含む、方法。
【請求項61】
音響環境が符号化されるオーディオ情報を符号化するビットストリームであって、前記音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を音響素材(150)にマッピングする少なくとも1つの構造音響データリストによって表され、前記位置データが、各多角形について、1つの頂点の位置を含み、前記ビットストリームが、
レンダリングされるべき少なくとも1つのオーディオストリームと、
前記少なくとも1つの構造音響データ(221)の符号化バージョン(222)と、
を含む、ビットストリーム。
【請求項62】
前記少なくとも1つの構造音響データ(221)の前記符号化バージョン(222)が、少なくとも1つの多角形頂点の少なくとも1つの座標値が符号化されている少なくとも1つのデータフィールドと、以前に符号化された座標値および順序値に基づいてオンザフライで更新されたショートリスト(450)に関連付けられた少なくとも1つの順序値が符号化されている少なくとも1つのデータフィールドとを含む、請求項61に記載のビットストリーム。
【請求項63】
プロセッサによって実行されると、前記プロセッサに、
音響環境(302)の復号動作を制御することであって、前記音響環境(302)が少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を素材(150)の構造音響特性にリンクする構造音響データリスト(400)によって表され、前記位置データが、各多角形について、1つの一次構造音響頂点(110ax)の位置および残りの構造音響頂点(110b)の位置を含む、制御することと、
ビットストリーム(204)から、構造音響データ(211)の符号化バージョン(322)、および前記音響環境(302)内の前記少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリーム(212)の読み取りを制御することと、
前記少なくとも1つのオーディオストリーム(312、212)の復号を制御することと、
前記構造音響データ(211)を復号することと、
を行わせる命令を記憶する非一時的記憶ユニット。
【請求項64】
プロセッサによって実行されると、前記プロセッサに、
音響環境の方法符号化動作を制御することであって、前記音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を素材(150)の構造音響特性にリンクする少なくとも1つの構造音響データによって表され、前記位置データが、各多角形について、1つの一次多角形頂点(110ax、110ay、110az)の位置および前記残りの多角形頂点(110b、110c、120b)の位置を含む、制御することと、
前記少なくとも1つのオーディオソースに関連してレンダリングされるべき少なくとも1つのオーディオストリームの符号化を制御することと、
前記少なくとも1つの構造音響データ(221)の符号化を制御して、前記少なくとも1つの構造音響データ(221)の符号化バージョン(222)を取得することと、
ビットストリーム(204)において、前記少なくとも1つのオーディオストリーム(212)および前記少なくとも1つの構造音響データ(221)の前記符号化バージョン(222)の書き込みを制御することと、
を行わせる命令を記憶する非一時的記憶ユニット。

【発明の詳細な説明】
【技術分野】
【0001】
音響環境の符号化および復号のための装置および方法が開示される。
【背景技術】
【0002】
三角メッシュデータは、仮想音響環境の重要な構成要素である。メッシュは、頂点のリストおよび三角形面のリストから構成される。各頂点は、そのX、Y、およびZ座標によって局在化された3D空間内の点であり、頂点リスト内の関連するインデックスを有する。各三角形は、単純な表面を識別し、3つの頂点インデックス、および関連する音響素材を含む。三角形の頂点インデックスは、単純な表面の外側を指す法線を定義する特定の順序でリスト化される。
【0003】
一般的な三角形メッシュデータには多くの交換および圧縮フォーマットがある。しかしながら、それらは、通常、典型的にはオブジェクトおよび環境の視覚的三角形メッシュデータをコーディングすることを意図している。対照的に、仮想音響環境およびオブジェクトのメッシュ三角形データは、いくつかの特定の特性を有する。例えば、メッシュデータは、通常、十分なサイズの音響的に関連する表面のみを含む。かなりの数のオブジェクト表面は、少数の平面上に位置するか、または層状構造を有する。音響素材を含まない表面は、音響目的のために不可視であり、破棄されることができる。規則的な形状を有するオブジェクトがそれらの見かけの重心を中心とする相対座標系を使用しているという事実によって生成される座標対称性も存在し得る。これらの追加の特性は、全て、より効率的且つ同時に低複雑度のカスタムコーディング方式に使用され得る。
【発明の概要】
【0004】
例によれば、音響環境を復号するための装置であって、音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを音響素材の音響特性とリンクする構造音響データによって表され、位置データが、各多角形について、頂点の位置を含み、装置が、
ビットストリームから、構造音響データの符号化バージョンと、音響環境内の少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリームとを読み取るためのビットストリームリーダと、
少なくとも1つのオーディオソースを表す少なくとも1つのオーディオストリームを復号するためのオーディオソース復号ブロックと、
構造音響データを復号する構造音響データ復号ブロックと、
を備える、装置が提供される。
【0005】
また、音響環境を符号化するための装置であって、音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを音響素材の音響特性にリンクする少なくとも1つの構造音響データによって表され、構造音響データが、各多角形について、頂点の位置を含み、装置が、
レンダリングされるべき少なくとも1つのオーディオストリームを符号化するように構成されたオーディオソース符号化ブロックであって、少なくとも1つのオーディオストリームが、少なくとも1つのオーディオソースに関連付けられている、オーディオソース符号化ブロックと、
少なくとも1つの構造音響データを符号化して、少なくとも1つの構造音響データの符号化バージョンを取得するように構成された構造音響データ符号化ブロックと、
少なくとも1つの構造音響データの少なくとも1つのオーディオストリームおよび符号化バージョンをビットストリームに書き込むように構成されたビットストリームライタと、
を備える、装置が提供される。
【0006】
また、音響環境を符号化するための方法であって、音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを素材の構造音響特性にリンクする少なくとも1つの構造音響データによって表され、位置データが、各多角形について、1つの一次多角形頂点の位置および残りの多角形頂点の位置を含み、方法が、
少なくとも1つのオーディオソースに関連してレンダリングされるべき少なくとも1つのオーディオストリームを符号化することと、
少なくとも1つの構造音響データを符号化して、少なくとも1つの構造音響データの符号化バージョンを取得することと、
少なくとも1つのオーディオストリームおよび少なくとも1つの構造音響データの符号化バージョンをビットストリームに書き込むことと、
を含む、方法が提供される。
【0007】
また、音響環境が符号化されるオーディオ情報を符号化するビットストリームであって、音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを音響素材上にマッピングする少なくとも1つの構造音響データリストによって表され、位置データが、各多角形について、1つの頂点の位置を含み、ビットストリームが、
レンダリングされるべき少なくとも1つのオーディオストリームと、
少なくとも1つの構造音響データの符号化バージョンと、
を含む、ビットストリームが提供される。
【0008】
また、プロセッサによって実行されると、プロセッサに、
音響環境の復号動作を制御することであって、音響環境が少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを素材の構造音響特性にリンクする構造音響データリストによって表され、位置データが、各多角形について、1つの一次構造音響頂点の位置および残りの構造音響頂点の位置を含む、制御することと、
ビットストリームから、構造音響データの符号化バージョン、および音響環境内の少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリームの読み取りを制御することと、
少なくとも1つのオーディオストリームの復号を制御することと、
構造音響データを復号することと、
を行わせる命令を記憶する非一時的記憶ユニットが提供される。
【0009】
また、プロセッサによって実行されると、プロセッサに、
音響環境の方法符号化動作を制御することであって、音響環境が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトが、多角形の位置データを素材の構造音響特性にリンクする少なくとも1つの構造音響データによって表され、位置データが、各多角形について、1つの一次多角形頂点の位置および残りの多角形頂点の位置を含む、制御することと、
少なくとも1つのオーディオソースに関連してレンダリングされるべき少なくとも1つのオーディオストリームの符号化を制御することと、
少なくとも1つの構造音響データの符号化を制御して、少なくとも1つの構造音響データの符号化バージョンを取得することと、
少なくとも1つのオーディオストリームおよび少なくとも1つの構造音響データの符号化バージョンのビットストリームへの書き込みを制御することと、
を行わせる命令を記憶する非一時的記憶ユニットが提供される。
【図面の簡単な説明】
【0010】
図1】符号化/復号されるべき多角形(三角形)の例を示している。
図2】音響環境を符号化するための装置の例を示している。
図3】音響環境を復号するための装置の例を示している。
図4】頂点リストを符号化または復号する動作の例を示している。
図5】バウンディングボックスの例を示している。
図6a図6aは、三角形リストを符号化するためのエンコーダにおける動作の例を示している。
図6b図6bは、三角形リストを符号化するためのデコーダにおける動作の例を示している。
図7】本例において使用可能なデータ構造の例を示している。
図8図2のエンコーダの一部であり得る構造音響データ符号化ブロックの例を示している。
図9図3のデコーダの一部であり得る構造音響データ符号化ブロックの例を示している。
図10a】エンコーダにおける一連の動作を示している。
図10b】エンコーダにおける一連の動作を示している。
図10c】エンコーダにおける一連の動作を示している。
図10d】エンコーダにおける一連の動作を示している。
図10e】エンコーダにおける一連の動作を示している。
図10f】エンコーダにおける一連の動作を示している。
図10g】エンコーダにおける一連の動作を示している。
図10h】エンコーダにおける一連の動作を示している。
【発明を実施するための形態】
【0011】
エンコーダ
図2は、音響環境202を符号化するための装置として理解され得るエンコーダ200を示している。音響環境は、ビットストリーム204に符号化されるべき特定の音響環境におけるオーディオ信号211を表す方法として理解され得る。音響環境は、空間座標にしたがって表され得る。音響環境は、空間座標系(例えば、図1のようなx、y、z)にしたがって表され得る。音響環境は、環境のいくつかの部分に仮想的に配置された少なくとも1つのオーディオソースを含み得る。環境は、可能な限り最高の忠実度でレンダリングされるべき仮想環境として理解され得る。エンコーダ200は、多角形の位置データを音響素材に関連付けられた特性とリンクし得る構造音響データ符号化ブロック220を含み得る。多角形は、三角形であり得る。各多角形(またはより詳細には三角形)は、頂点の三つ組(トリプレット)として表され得る。したがって、多角形データ符号化ブロック222の出力は、原則として、構造音響データのトリプレットおよび素材を符号化する値によって表され得る。したがって、多角形は、オーディオソースによって示される位置においてオーディオソースによって仮想的に生成されるオーディオ信号の挙動に影響を及ぼす、膨大な素材要素の表面であり得る。エンコーダ200は、ビットストリーム204を書き込むためのビットストリームライタ230を含み得る。したがって、それらによって仮想的に生成されたオーディオ信号およびそれらの環境212内の位置を表すオーディオソース、ならびに環境内の様々な素材を表す構造音響データ222は、ビットストリーム204に符号化されることができる。
【0012】
一般的に言えば、エンコーダ200は、音響環境を符号化するための装置とみなし得て、音響環境は、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトは、多角形の位置データを音響素材の音響特性とリンクする少なくとも1つの構造音響データリストによって表される。位置データは、各多角形について、1つの一次多角形頂点の位置(110ax、110ay、110az)および残りの多角形頂点の位置(110b、110c、120b)を含み得る。本装置は、
レンダリングされるべき少なくとも1つのオーディオストリームを符号化するように構成されたオーディオソース符号化ブロック210と、
少なくとも1つの構造音響データ(221)のバージョン(222)を符号化するように構成された構造音響データ符号化ブロック220と、
ビットストリーム204に、少なくとも1つのオーディオストリーム212と、構造音響データの符号化バージョンを含む位置データとを書き込むように構成されたビットストリームライタ230と、
を備え得る。
【0013】
また、オーディオストリーム212は、一般に、オーディオソース位置データに関連付けられているため、オーディオストリーム212によって表されるオーディオソース211は、それらが仮想的に生成される音響環境内の決定された位置に対応することができる。一般的に言えば、音響環境内で仮想的に生成される位置に関連してビットストリーム204に符号化される少なくとも1つのオーディオソースはまた、音響環境内のその仮想位置を提供するサイド情報とともに符号化される。したがって、少なくとも1つのオーディオストリーム212のサイド情報として、少なくとも1つのオーディオソースと音響環境との間の位置関係を示す空間データも符号化され得る。復号されると、オーディオソースは、オーディオソースと少なくとも1つのオーディオオブジェクトとの間の空間的関係を考慮に入れることによってレンダリングされる。
【0014】
デコーダ
図3は、ビットストリーム304に符号化された音響環境をレンダリングするように動作するデコーダ300を示している。したがって、オーディオ信号301は、デコーダ300によって生成され得る。それにもかかわらず、特許請求されるデコーダ300は、出力として、場合によってはレンダラ350によって表される元の音響環境202の最良の表現である音響環境302を有し得る。デコーダ300は、ビットストリーム204を読み取り得るビットストリームリーダ330を含み得る。したがって、ビットストリームリーダは、オーディオソース符号化ブロック210によって符号化された(212としての)少なくとも1つのオーディオソースの符号化バージョン312を提供し得る。ビットストリームリーダ330はまた、構造音響データ符号化ブロック220によって符号化された構造音響データ222の符号化バージョン322を提供し得る。オーディオソース復号ブロック310は、元のオーディオソース211の復号バージョン311を提供し得る。構造音響データ復号ブロック320は、元の構造音響データ221の復号バージョン321を提供し得る。したがって、元のオーディオソース211の復号バージョン311および元の構造音響データ221の復号バージョン321は、集合的に、環境202の復号バージョン302と考えられ得る。
【0015】
レンダラ350は、復号された環境302(そのコンポーネント311および321を含む)を受信し、オーディオ信号301を元のオーディオ信号202に可能な限り近付けてレンダリングする。特に、レンダラ350は、音響環境におけるその位置(例えば、仮想位置)と、少なくとも1つのオーディオオブジェクトの存在によって音が(仮想的または実際に)調整されることとを考慮に入れることによって、少なくとも1つのオーディオソースを表し得る。
【0016】
一般的に言えば、音響環境内で仮想的に生成される位置に関連してビットストリーム204に符号化されるオーディオソースはまた、音響環境内のその仮想位置を提供するサイド情報とともに符号化される。したがって、レンダラ350は、少なくとも1つのオーディオオブジェクトの存在(例えば、仮想的存在)の影響下で、特定の場所(例えば、オーディオソースの位置データによって示される)において仮想的に生成されるものとして音を表し得る。
【0017】
デコーダ300は、音響環境302を復号するための装置であり得て、音響環境302は、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、少なくとも1つのオーディオオブジェクトは、多角形の位置データを音響素材の音響特性にリンクする構造音響データリストによって表される。位置データは、各多角形について、1つの一次構造音響頂点の位置および残りの構造音響頂点の位置を含み得る。装置は、
ビットストリーム204から、構造音響データ211の符号化バージョン(322、222)と、音響環境302内の少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリーム212とを読み取るように構成されたビットストリームリーダ330と、
少なくとも1つのオーディオストリーム(312、212)を復号するオーディオソース復号ブロック310と、
構造音響データ211を復号する構造音響データ復号ブロック320と、
のうちの少なくとも1つを備え得る。
【0018】
構造音響データ
図1に示すように、構造音響データは、多角形(またはより具体的には、この例では、三角形)に関連付けられ得る。多角形は、メッシュの多角形であり得る。ここでは、3つの三角形110、120および130が示されている。第1の三角形は、一次頂点110aと、残りの2つの頂点110bおよび110cとを有する。第2の三角形120は、第1の三角形110の一次頂点110aと一致する(したがって、同じ参照符号によって示される)一次頂点と、残りの2つの(第1の三角形110の他の頂点と一致しない)頂点120bおよび(第1の三角形110の他の頂点と一致する)110cとを有する。第3の三角形130は、一次頂点130aと、残りの2つの頂点130bおよび130cとを有する。この場合、一次頂点130aのy座標は、第1および第2の三角形の頂点110のy座標と同じであるように発生する。
【0019】
図7は、構造音響データがどのように理解されることができるかの例を示している。図から分かるように、三角形110a、110cおよび120bについての頂点110a、110b、110cを有する三角形110および120が示されている(三角形130はここには示されていない)。図から分かるように、第1の頂点リスト(804、3804、400)は、その座標(x座標、y座標、z座標)と組み合わせて、各レコード内の頂点(例えば、110a、110b、110c、120bなど)を包含する。したがって、頂点リスト内の各頂点インデックス403と各頂点の座標との間のリンクが記述される(座標符号は、「x」、「y」または「z」の加算によって表される)。したがって、頂点リスト(804、3804、400)は、頂点位置を識別する空間座標のトリプレット(または、次元にしたがってnタプル)に頂点インデックス403を関連付ける。場合によっては、それらは異なる三角形と一致する頂点であるため、いくつかの頂点が反復されることができる(例えば、頂点110aおよび11cは、一致しているが異なる三角形であるため、反復される)。
【0020】
図7はまた、三角形(または、より一般的には、多角形)の頂点インデックス403と各三角形とをリンクする三角形リスト(802、3802)を示している。例えば、三角形110に関連して、頂点インデックス0(頂点110aの座標に関連付けられている)、頂点インデックス1(頂点110bに関連付けられている)、および頂点インデックス2(頂点110cに関連付けられている)が存在することが分かる。三角形リスト(802、3802)において、三角形120には、頂点インデックス3(頂点110aに関連付けられている)、4(三角形頂点110cに関連付けられている)、5(三角形頂点120bに関連付けられている)が関連付けられている。図から分かるように、三角形リスト(802、3802)には、三角形の識別および頂点リストの頂点に対する(および、続いて、頂点の位置に対する)頂点データマッピングとともに、例えば素材の音響特性に関連付けられた音響特徴(806、3806)も記憶される。
【0021】
基本的に、図7は、三角形(110、120、130)およびそれらの位置データ(例えば、頂点の座標)を素材の音響特性とリンクさせる(符号化されるべき)構造音響データ221の例を示している。これらの構造音響データを圧縮し、ビットストリーム204に書き込むことが可能であることが示される。
【0022】
図4は、構造音響データリスト400の例を示している(これは、三角形110、120のそれぞれの一次頂点および残りの頂点の位置データに関連付けられた素材を異なるレコードにリスト化する頂点リスト400(802、3802)の例であり得る)。ここでは、構造音響データリスト400は、x座標(x次元用)、y座標(y次元用)、z座標(z次元用)に分けて示されている。例えば、x座標において、構造音響データリスト400は、第1の三角形110について、以下を記憶している:
一次頂点110aのx座標110ax;および
残りの頂点110bおよび110cのx座標110bxおよび110cx。
【0023】
同様に、構造音響データリスト400のy座標の対応するレコード(図4には示されていない)において、一次頂点の対応する列は、一次頂点110aのy座標110ayを含み、残りの頂点の対応する列は、それぞれ、残りの頂点110bおよび110cのy座標110byおよび110cyを挿入している。同じことがz次元にも当てはまる:構造音響データリスト400のz座標の対応するレコード(図4には示されていない)において、一次頂点の対応する列は、一次頂点110aのz座標110azを含み、残りの頂点110bおよび110cの対応する列は、それぞれy座標110byおよび110cyを挿入している。
【0024】
構造音響データリスト400の第2のレコード(上から2番目の横列)には、第2の三角形120の座標が記憶される。一次頂点110axの座標(しかしながら、110ay、110azも)が反復されていることが分かる(例えば、第2の三角形120の一次頂点110aのx座標110axは、これらの値が同一であるという事実にもかかわらず、第1の三角形の一次頂点を表すために記憶された同じ値を反復する)。その座標110cx、110cy、110czが第1の三角形110および第2の三角形120について同じである頂点110cについても当てはまる。
【0025】
オーディオソース符号化/復号
オーディオソース符号化ブロック210およびオーディオソース復号ブロック210は、それぞれ、エンコーダ200およびデコーダ300の重要な要素である。符号化および復号されるべきオーディオソースは、少なくとも1つのオーディオストリーム212、312によって表され得る。それにもかかわらず、そうではない。少なくとも1つの音源は、音響環境内の少なくとも1つの音源の位置(例えば、仮想位置)を特定する位置データ(例えば、メタデータ)に関連付けられ得る。したがって、音(オーディオ信号)301は、少なくとも1つのオーディオオブジェクトの位置データと、(オブジェクトの素材であると仮定される)素材の音響特性と、少なくとも1つのオーディオソースの位置データとの間の構造-音響関係に基づいて(例えば、レンダラ350によって)レンダリングされ得る。この動作は、デコーダ(外部デバイスであり得る)においてレンダラ350によって実行され得る。
【0026】
例えば、少なくとも1つのオーディオソースは、少なくとも1つのオブジェクト(特に、頂点および三角形)の位置データおよび素材の構造特性を考慮に入れることによって、音響環境において少なくとも1つのオーディオソースを局在化することを可能にする座標を含む位置データを有し得る。したがって、少なくとも1つのオーディオソースは、音響環境内の特定の位置に局在化され、聴取者は、その位置から素材の特性の影響下で到来するように音を体験する。
【0027】
したがって、音響環境を参照する場合、空間環境だけでなく、レンダリングされる前に符号化/復号されるべき完全なオーディオシーンも参照される。音響環境は、それ自体の空間特性(例えば、圧縮または非圧縮のいずれかの頂点リストおよび三角形リストなどの位置データ)を有するだけでなく、環境内のオブジェクトを構成する素材の特性、および空間環境内の特定の位置に局在化したオーディオソースにおいて仮想的に生成され得て、空間環境において遭遇する構造音響データ(音響素材の位置データおよび特性)によって仮想的に調整される音も有する。
【0028】
構造音響データ符号化ブロック
図8は、エンコーダ200の構造音響データ符号化ブロック220の例を示している。図から分かるように、構造音響データ符号化ブロック220への入力は、構造音響データ221を含む。構造音響データ221は、例えば、三角形リスト802、頂点リスト804、および音響特徴806を含み得る。音響特徴806は、三角形リスト802の一部であってもよいが、ここでは明確にするために異なって示されている。
【0029】
構造音響データ符号化ブロック220は、頂点リスト804を符号化して符号化頂点リスト808を取得し得る頂点リストエンコーダ800を備え得る。エンコーダ頂点リスト808が生成され得る方法については後述する。
【0030】
構造音響データ符号化ブロック220は、三角形リストエンコーダ850を含み得る。三角形リストエンコーダは、音響特徴806を含む三角形リスト802と、符号化頂点リストが符号化バージョンで提供される場合には符号化頂点リスト808によって入力されてもよく、あるいは、代替として、符号化されていないバージョンの頂点リスト804によって入力されてもよい。したがって、入力804および808の両方が三角形リストエンコーダ850に提供される必要がない場合がある。三角形リストエンコーダ850は、三角形リスト802が圧縮された符号化三角形リスト852を提供し得る。図8では「三角形」という単語を使用することによって主に説明しているが、異なる多角形を使用することによっても同じ結果が得られる場合がある。
【0031】
構造音響データ符号化ブロック
図9は、デコーダ300の構造音響データ復号ブロック320の例を示している。ビットストリーム204から、構造音響データ322の符号化バージョン(エンコーダ200によって符号化された構造音響データの符号化バージョン222)が得られる。ビットストリームリーダ330は、(三角形リストエンコーダ850によって符号化されたエンコーダ三角形リスト852のコピーである)三角形リストの符号化バージョン3852および(頂点リストエンコーダ800によって符号化された符号化頂点リスト808のコピーである)頂点リストの符号化バージョン3808を提供し得る。三角形リストデコーダ3850は、エンコーダ三角形リスト3852によって入力されてもよい。頂点リストデコーダ3800は、復号頂点リスト3804を提供するために、符号化頂点リスト3808によって入力され得る。三角形リストデコーダ3850は、復号された三角形リスト3802を出力し得る。三角形リストデコーダ3850は、符号化頂点リスト3808によって入力され得るか、頂点リストデコーダ3800によって出力された頂点リスト3804によって入力され得る。したがって、構造音響データ321は、三角形リスト3802(音響特徴3806を含む)および頂点リスト3804を含み得る。三角形リスト3802は、三角形ごとに、頂点リスト804および3804から取得された頂点インデックスを示し得る。図9では「三角形」という単語を使用することによって主に説明しているが、異なる多角形を使用することによっても同じ結果が得られる場合がある。
【0032】
頂点インデックス符号化および復号
理論的には、ビットストリーム204内の各頂点の全ての座標を単純に符号化することが可能であり得る。例えば、一次頂点について、その全てのx、y、z座標(110ax、110ay、110az)を符号化することが可能であり得る。第1の三角形110の残りの頂点110bおよび110cについても同じであり、第2の三角形120についても全てのフィールドを反復する(すなわち、一次頂点110aならびに残りの頂点120bxおよび110cxの全てのx、y、z座標を表すために)。しかしながら、このようにして、データフィールドの反復が引き起こされることが理解されている。例えば、(三角形110および120の両方に共通の)一次頂点110aの座標が反復されるという事実は、ビットストリーム204の長さを増加させ、効率を低下させる。
【0033】
したがって、少なくとも一次元(x、y、z)について(およびいくつかの例では音響環境の各次元について)、第1の三角形(例えば、110)について一度だけ座標を書き込むことができ、後続の三角形(例えば、120)の少なくとも1つの座標を符号化するときに少なくとも1つの以前に符号化された座標を参照することによって、座標を書き込むことができる技術を採用することが好ましい。したがって、図1の例では、有利には、第2の三角形120の一次頂点110aの座標x、y、zおよび第2の三角形120の頂点110cの座標x、y、zのそれぞれにそのような技術を適用することができる(これは、頂点120bの座標では不可能であり、それらの値はビットストリーム204に挿入されるものとする)。この技術は、例えば短いコードを介して、頂点の以前に符号化された座標への参照を意味し得る。既に符号化された座標を順序付きショートリスト450(異なる次元についてインスタンス化450x、450y、450zを有する)に記憶し、ショートリスト450内で以前に符号化された座標に関連付けられた順序値である順序値(例えば、インデックス)を単に符号化することによって、それらに対処することが可能であることが示される。
【0034】
上記の例はまた、各頂点の単一の座標にも適用され得る。例えば、頂点のグループが同じx座標、またはz座標、またはy座標を有する場合、それらは、前のもの(特に、エンコーダは、更新前に、記憶された座標がショートリストに維持されるように、それらを閉じた連続で復号することを決定し得る)を参照することによって符号化されることができる。例えば、座標(x、y、またはzのいずれであるか)は、符号化された第1の頂点についてのみビットストリーム204に実際に書き込まれてもよく、後続の頂点は、単に先行する符号化された座標を参照することによって符号化されてもよい。例えば、(三角形110および120内の)頂点110aおよび頂点130aのy座標110ayおよび130ayは、それぞれ、同じ(図1を参照)である。したがって、座標値110ayをビットストリーム204に(および、以前に、符号化頂点リスト808に)書き込み、順序付きショートリスト450内の順序値である値を符号化することによってその後にそれを参照することが好ましい。エンコーダおよびデコーダは、同じ方法で(レプリカ方式で)ショートリストを更新するため、それらは、順序付きショートリスト450内(およびそのインスタンス化450x、450y、450z内)の値の知識を共有する。より一般的には、以前に符号化された頂点の座標が順序値455(455x、455y、455zによってインスタンス化された)に関連して記憶される順序付きショートリスト450が理解されている。
【0035】
図4は、x座標についての第1のショートリストインスタンス化450x、y座標についての第2のショートリスト450y、およびz座標についての第3のショートリスト450zを示している。図から分かるように、ショートリストインスタンス化450xでは、(順序値0に関連付けられた)第1の値は、第1の三角形110の第1の処理された頂点のx座標110axであるため、110axとして記憶される。第2の順序値1には、三角形110の頂点110bのx座標110bxを指す値110bxが記憶される。第3の順序値2(第3のインデックス)には、第1の三角形110の頂点110cのx座標110cxから得られた値110cxが記憶される。第4の順序値3(第4のインデックス)には、第2の三角形120の頂点120bのx座標120bxが書き込まれる。これは、同様に、それぞれy座標およびz座標についてのショートリスト450yおよびショートリスト450zについても起こる(ショートリストのそれぞれ、すなわち次元のそれぞれに順序値が存在する)。順序付きリスト450は、ビットストリーム204(または構造音響データ422の符号化バージョン)の符号化中にオンザフライで補充(記憶)されることに留意されたい。例では、構造音響データ221の符号化バージョン222が生成される限り、順序付きショートリスト450が補充される。例えば、x座標110axが構造音響データ221の符号化バージョン222に(特に符号化頂点リスト808に)書き込まれる場合、値110bx、110cx、120bxは、x座標のショートリストインスタンス化450xにはまだ存在しない。したがって、順序付きショートリスト450(およびそのインスタンス化450x、450y、450zにおける)がオンザフライで更新される一方で、構造音響データ221の符号化バージョン222が生成される(より詳細には、符号化頂点リスト808が生成される)。
【0036】
図4はまた、頂点130aの符号化も示している。頂点110aおよび130aのy座標は同じであるため(しかしながら、xおよびz座標は同じではない)、頂点のy座標は、y座標に対するショートリストインスタンス化450yでは反復されない(実際に、ショートリストインスタンス化450yは、ショートリストインスタンス化450xおよび450zと比較して、記憶される座標が少ない)。そして、これは、同じ座標値110ayが頂点110aおよび130aの両方のy座標において反復されるという事実にもかかわらずである!さらに、構造音響データ221のバージョン222を符号化する場合(または、より一般的には、頂点リスト400、804の符号化バージョン808を符号化する場合)、一般に、より長いコードよりも短いビット長を有する、ショートリストインスタンス化450yのインデックス0をベース参照することが可能である。
【0037】
図4は、ビットストリーム204(特に、符号化頂点リストの符号化バージョン808、3808)に書き込まれる構造音響データ221の符号化バージョン222の例を示している。各頂点の各符号化は、座標値が実際に符号化されているか、またはショートリスト(450x、450y、450z)に記憶された順序値(450)を介したそれらの参照のみが符号化されているかどうかを通知する各頂点についてのマスク160を含む。マスク160は、この場合、それぞれが以下を選択するバイナリ情報を示す3つのバイナリ値160x、160y、160zとして表される:
頂点の座標の符号化;および
順序付きショートリストからの順序値(インデックス)の符号化。
【0038】
第1の三角形110の一次頂点110aが符号化されると、他の頂点は、実際には以前にショートリスト450に記憶されていない:これは、ショートリスト450が空であることを意味し、したがって、いかなる以前に符号化された座標の位置455も参照することはできない。したがって、マスク160のバイナリ値160x、160y、160zは全て0である(ここでは、0は、座標が構造音響データ221の符号化バージョン222において符号化されることを意味し、バイナリ値1は、座標リスト450の順序値のみが符号化されるが、バイナリ値は、異なる例において反対の意味を有することができることを意味すると仮定される)。続いて、頂点インデックス403(または頂点の別の識別子)の両方が符号化され、座標値データフィールド170cでは、座標値110ax、110ay、110azも符号化される。同じことが残りの頂点110b、110cの符号化についても反復される。
【0039】
図4はまた、頂点130aの符号化も示している。頂点110aおよび130aのy座標は同じである(しかしながら、x、z座標は同じではない)ため、頂点130aのy座標値の符号化を反復する必要はない。分かるように、その値110ayは、ショートリスト450のインスタンス化450yの第1の位置に既に記憶されている。このため、構造音響データ221の符号化バージョン222には(より詳細には、符号化頂点リストの符号化バージョン808、3808、およびビットストリームには)、順序値0が挿入される。図から分かるように、マスク160は、バイナリ値160xおよび160zについては0であるが、バイナリ値160yについては1である。実際に、その後、その長さにおいて座標値の代わりに順序値データフィールド170v(ショートリストインスタンス化450yにおける参照座標110ayの順序値である順序値0を担持する)が符号化される。バイナリ値160xおよび160zによって示すように、座標値データフィールド170cにおいて、座標値130axおよび130azは、順序値ではなく、座標値全体で参照される。
【0040】
例では、頂点110aは、構造音響データ221の符号化バージョン222において(より詳細には、符号化頂点リストの符号化バージョン808、3808において)二回符号化されない。単純に、三角形リストは、三角形110および120の両方について同じ頂点110aを指す。
【0041】
一般的に言えば、各頂点(一次頂点または残りの頂点)の各座標について、構造音響データ符号化ブロック220(特に頂点リストエンコーダ800)は、以下から選択される値を符号化する:
-座標の値;および
-以前に符号化された(したがって、ビットストリーム204に書き込まれるべき符号化バージョン222において、またはより具体的には、符号化頂点リストの符号化バージョン808、3808において以前に符号化された)座標の順序値(455x、455y、455z)。
【0042】
値座標を符号化するか順序値455(455x、455y、455z)を符号化するかの選択は、以前に符号化された座標がショートリスト450内にあるかどうかに基づいて行われることができる。
【0043】
当然ながら、三角形の第2の頂点が別の三角形と同じ座標軸を共有している(しかしながら、一致していない)場合、マスク160のフィールド160x、160y、160z内のバイナリ値は異なっていてもよい(構造音響データ221の符号化バージョン122では、1つまたは2つの座標が実際に符号化される可能性があるため)が、少なくとも1つのバイナリフィールドは1であるものとする(多角形データ221の符号化バージョン222では、どの順序値が示されるものとする)。これは、頂点130aの場合であり、頂点110aと同じy座標を共有する。このため、各頂点について、多角形データ221の符号化バージョン222に書き込まれ得るいくつかの座標を有し得るが、既に完全に書き込まれている(および順序付きショートリスト450に記憶されている)ものは、順序値によって簡単に定義されることができる。
【0044】
ショートリスト450は、例えば、(例えば、より頻繁な座標値が符号化されることによって)より少ない頻度の座標値がショートリスト450から追い出されるように更新されてもよい。追加的または代替的に、ショートリスト450は、ビットストリーム204に符号化された最後の座標値が以前に符号化された座標値を引き継ぐように更新されてもよい。これらの技術は、互いに組み合わされてもよい:例えば、ランク付けは、既に符号化された座標間で確立されてもよく、ランク付けは、(より小さいビット長に関連付けられた)ショートリスト450内の第1の位置をより高いスコアを有する既に符号化された座標に与えるように、(最も頻繁な座標のスコアを増加させることによる)座標の符号化の頻度と(最後の座標のスコアを増加させることによる)座標の鮮度との両方を包含する混合基準に基づいて、および、スコアが最小のそれらの既に符号化された座標を除外する点まで、スコアがより低いそれらの既に符号化された座標をショートリスト450から除外することにより、既に符号化された各座標に割り当てられたスコアに基づく。
【0045】
また、ショートリスト450に座標が既に存在する確率を高めるために、互いに短い連続して同じ座標を共有する頂点を有する異なる多角形(例えば、三角形)を符号化することも可能である。より一般的には、同じ座標を共有する頂点を有する多角形(例えば、三角形)が、同じ座標を共有しない頂点を有する多角形(例えば、三角形)よりも近いステップで符号化されるように、構造音響データ221の符号化を順序付けることが可能である。例では、符号化の順序は、共通座標が多いほど頂点の符号化が近くなるように選択されてもよい。
【0046】
上記の技術のおかげで、大部分が使用されるこれらのインデックス(順序値)450の次元は非常に小さくなり、構造音響データ221の符号化バージョン222も圧縮され、ビットストリーム204の長さが短くなることを意味する。
【0047】
上記では、順序付きショートリスト450内の値は、その後に順序付きショートリストを更新することによって、オンザフライで符号化されることが仮定されていることに留意されたい。これは、例えばストリーミングの場合に起こり得る。
【0048】
したがって、構造音響データ符号化ブロック220は、音響環境(またはバウンディングボックスについては、以下を参照されたい)の少なくとも一次元(x、y、z)について、以前に符号化された多角形頂点の座標値が順序(インデックス、順序値450)にしたがって記憶されている順序付きショートリスト450を使用し得る。構造音響データ符号化ブロック220は、1つの現在の主多角形頂点または残りの多角形頂点の座標値が、決定された順序値でショートリストに記憶された以前に符号化された1つの主多角形頂点または残りの多角形頂点の1つの座標値と同じである場合、ショートリスト450の順序値を符号化し得る。1つの現在の多角形の座標値が、以前に符号化された1つの主多角形頂点またはショートリスト450に記憶された残りの頂点のいずれの座標値とも異なる場合、座標値は、ビットストリーム204に符号化される。次に、エンコーダ200の構造音響データ復号ブロック320はまた、少なくとも同じ次元について、以前に復号された主多角形頂点または残りの多角形頂点の座標値が順序にしたがって記憶されている順序付きショートリストを使用し得る。構造音響データ復号ブロック320は、ビットストリーム204が内部でショートリストの特定の順序値を符号化した場合、座標値を、順序値に関連付けられたショートリスト450に記憶された値として再構成し得る。
【0049】
基本的に、デコーダ300におけるショートリスト450は、エンコーダ200におけるショートリスト450のレプリカとして理解され得る。
【0050】
エンコーダ200の構造音響データ符号化ブロック220は、(フィールド170cまたは170v内の)ショートリスト内の座標値または順序値が符号化されるかどうかを示すバイナリマスク値(160x、160y、160z)を、少なくとも一次元について(しかしながら、好ましくは三次元のそれぞれについて)符号化し得る。次に、デコーダ300の構造音響データ復号ブロック320は、各頂点について、ショートリスト内の座標値または順序値がビットストリーム(204)に符号化されているかどうかを示すバイナリマスク値160(160x、160y、160z)を評価し得る。したがって、構造音響データ復号ブロック320は、各座標が座標値として符号化されているか、インデックス(順序値)として符号化されているかを決定し得る。
【0051】
上述したように、2つの頂点が(頂点130aおよび110aのように)ただ1つまたは2つの同じ座標を有する場合、座標値の代わりに順序値(インデックス)の符号化/復号は、同じ座標についてのみ行われるが、異なる1つまたは2つの座標については座標値が独立して符号化/復号される。
【0052】
上述したように、ショートリスト450は、独立して処理されることができるインスタンス化450x、450y、450zに分割され得る。例では、構造音響データ符号化ブロック220は、
第1の次元について、1つの現在の頂点の座標値が、決定された順序値において第1の次元に関連するショートリストインスタンス化に記憶された1つの以前に符号化された頂点の1つの座標値と同じである場合に、ショートリストインスタンス化の順序値を符号化し、
第2の次元について、現在の頂点の座標値が、第2の次元に関連するショートリストインスタンス化に記憶された以前に符号化された1つの頂点の任意の座標値と異なる場合に、座標値を符号化する、ように構成される。
【0053】
同様に、デコーダ300において、
第1の次元について、1つの現在の頂点の座標値が、決定された順序値において第1の次元に関連するショートリストインスタンス化に記憶された1つの以前に復号された頂点の1つの座標値と同じである場合に(これは、ビットストリーム204において、例えばマスク160のバイナリ値の1番目にシグナリングされ得る)、ショートリストインスタンス化の順序値を復号し、
第2の次元について、現在の頂点の座標値が、第2の次元に関連するショートリストインスタンス化に記憶された以前に復号された1つの頂点の任意の座標値と異なる場合に(これはまた、ビットストリーム204において、例えばマスク160のバイナリ値の2番目にシグナリングされ得る)、座標値を復号する。
【0054】
三角形リスト符号化/復号
図6aは、符号化三角形リスト852を符号化する方法を示している。説明したように、各三角形は、(圧縮形態804、3804、400において)頂点リストからの頂点の頂点インデックスと素材の音響特徴とをリンクすることによって符号化される。各三角形について、圧縮形式の頂点リストからの頂点の頂点インデックス(808)、または第2のショートリスト(ここではMTF、前方移動、リストとも呼ばれる)内のインデックスからの頂点の頂点インデックスのいずれかが符号化され得る。後により詳細に説明される第2のショートリスト(MTFリスト)は、以前に使用された頂点インデックスを含む。頂点インデックスが既に第2のショートリストにある場合、その位置が符号化される。そうでない場合、符号化頂点リスト808からの頂点インデックスが書き込まれる。異なる位置に関連付けられたシンボルは、それらのビット長が第1の位置からの距離とともに増加するようにされ得る。(第2のショートリストの他の値よりも長くてもよい)追加の値は、第2のショートリスト内の位置の代わりに頂点インデックスが書き込まれるときはいつでも符号化されてもよい。例が図6aに提供されている。ステップ602において、ビットストリーム204に書き込まれるべき頂点が取得される。ステップ604において、頂点インデックスが既に第2のショートリスト(MTFリスト)にあるかどうかが評価される。頂点インデックスが第2のショートリスト(MTFリスト)にない場合、シンボル(例えば、0b11111111)がビットストリームに書き込まれ、その後、符号化頂点リスト808からまたは元の頂点804から取得されるような頂点インデックスも書き込まれる。ステップ612において、第2のショートリストは、ビットストリームに(より一般的には、符号化三角形リスト852に)書き込まれた頂点インデックスを書き込むことによって更新され得る。さらに、頂点インデックスに関連付けられたヒストグラムを都合よく修正することによって、頂点インデックスの出現の統計を修正することが可能である。ステップ610および612の順序は、反転または逆転されてもよいことに留意されたい。ステップ604において、頂点インデックスが既に第2のショートリスト(MTFリスト)にあると決定された場合、その位置がビットストリームに(一般に、符号化リスト852に)書き込まれる。この場合も、ヒストグラムおよびMTFリストは、ステップ608において修正され得る。また、ステップ606とステップ608の順序は反転されてもよい。その後、新たな頂点インデックスが符号化され得る。位置および頂点インデックスの両方は、いわゆる算術符号化にしたがって符号化され得て、これは、各頂点インデックスの確率のヒストグラムがエンコーダおよびデコーダの両方によって知られることを必要とすることに留意されたい。
【0055】
図6bは、三角形リスト復号の例を示している。ステップ3602において、新たな頂点インデックスが復号されることになる。ステップ3604において、頂点インデックスが既にMTFリスト内にあるかどうかが決定される。これは、例えば、ビットストリーム内のをチェックすることによって決定され得る。頂点インデックスがその全体に(第2のショートリストからのその位置ではなく)書き込まれることを示すシンボルを有するビットストリームの場合、ステップ3610および3612が呼び出される。ステップ3610において、頂点インデックスが、三角形リストの復号バージョンにおいて読み取られ、書き込まれる。ステップ3612において、ヒストグラムおよびMTFリストが更新される。ステップ3604における評価が、頂点インデックスが既に第2のショートリスト(MFTリスト)にあることを提供する場合には、ステップ3606および3608が呼び出される。ステップ3606において、インデックス頂点の位置が第2のショートリストから(第2のショートリストの特定の順序値の点によって)読み取られ、その値がショートリストから読み取られる。ステップ3608において、MTFリスト内のヒストグラムが修正される。ステップ3608および3612において、ヒストグラムが修正されるとき、それは、特定の頂点インデックスを有する確率が増加することを意味する。MTFリストが修正されると言及される場合、頂点インデックスが第1の位置(第2のショートリストの最下位の位置)に挿入されることを意味する。ステップ3606および3608は、互いに反転されてもよい。ステップ3610および3612は、互いに反転されてもよい。
【0056】
基本的に、エンコーダおよびデコーダの両方は、第2のショートリスト(MTFリスト)を備え、デコーダの第2のショートリストは、エンコーダの第2のショートリストのレプリカであると理解される。基本的に、一方の場合には符号化三角形リスト852が符号化され、他方の場合には復号されるという事実を除いて、動作は同じである。
【0057】
図10a~図10gは、三角形リストエンコーダ850における動作の例を示している(それらは、三角形リストデコーダ3850における動作に容易に適合されることができる)。明確にするためにのみエンコーダを参照するが、デコーダについても同じ例が報告され得る。図10aには、初期化のステップ0が示されており、第2のショートリスト(MTFリスト)1450は値を欠いている。図10b(ステップ1)では、第1の頂点インデックス0および10が符号化されるべきである。それらは両方とも第2のショートリスト1450であり、ヒストグラム1460が更新される。特に、第2のショートリスト1450は、符号化されるべき値0および5をその第1の位置に有する。ヒストグラムは、値0および6のそれぞれについて出現1を関連付ける。出現は、確率に関連付けられるものとして理解されるべきである。図10cでは、頂点5が符号化される。第2のショートリスト1450およびヒストグラム1460が更新される。第2のショートリスト1450に見られるように、値5は、第1の位置をとり、値0および10は、第2のショートリストのあまり重要でない位置にシフトされる。図107では、他の頂点7が符号化される。それは、第2のショートリスト1450に配置され、ヒストグラム1460が更新される。図10eでは、頂点5が再度書き込まれることになる。したがって、三角形リストの符号化バージョン852において(および、その後にビットストリーム204において)、値5(図から分かるように、値5は第2の位置にある)の位置1470(0b10によって示される)が符号化される。このとき、頂点5も第2のショートリスト(MTFリスト)1450の第1の位置をとる。図10eは、図6aのステップ606と同様に、位置がシンボル1470によって書き込まれているため、図6aに示す方法のステップ606を実質的に示すことに留意されたい。とられる位置は、第2のショートリスト1450の更新(図10aに示されているステップ608)前と同様の第2の位置である。図10fは、単に他の符号が符号化されることを示している。図10gは、頂点8が符号化されるものとするが、8がショートリスト1450にない(ショートリストが一杯になっている)例を示している。これは、図6aのステップ610の例である。この場合、コード0b11111111(または同じ状況を示す他のコード)は、コードが第2のショートリスト1450にないことを示すように符号化される。図から分かるように、第2のショートリスト1450は、値8を第1の位置に置き、リスト内の最後の値を除外(ポップ)することによって更新される。
【0058】
図10hは、位置に関連付けられたコードの例を示している。図から分かるように、第1の位置は、最も短いコードである0b0に関連付けられ、一方、最終コード0b11111111は、位置が符号化されず、頂点インデックスの値が符号化されることを示す。デコーダについても同様であるが、その場合、符号化された値が読み取られ、第2のショートリスト(MTFリスト)1450から特定の頂点インデックスを探索するかどうか、あるいは頂点インデックスが符号化されるかどうかが理解される。
【0059】
いずれの場合でも、算術符号化が使用され得て、より短い符号は、符号化されるべきより反復的なインデックス値に割り当てられる。
【0060】
バウンディングボックス
空間座標系を元の空間座標系から有利な特性を有する座標系にインテリジェントに変更することによって、符号化バージョン222および/またはビットストリーム204に符号化されるデータ長を短縮することが可能である。
【0061】
例えば、多角形の頂点により近い原点を有するように座標系を変更することが可能であり、したがって原点からの距離(その上、座標の長さ)を縮小する。例えば、特に頂点が除外されない場合には、バウンディングボックスに符号化されるボリュームを縮小するように選択され得る。特に、バウンディングボックスは音響環境に含まれてもよく、ビットストリーム204および/またはバージョン222に符号化されるべき構造音響データは、バウンディングボックスの決定された頂点によって定義される空間座標系を参照して符号化される。
【0062】
バウンディングボックス500の例は、図5によって提供される。バウンディングボックスは、平行六面体ボリューム(またはより一般的には多面体ボリューム)であり得るが、一般的には、(特に長方形のベースを有する)角柱ボリュームとして例示されてもよく、場合によっては立方体であってもよい。図5は、バウンディングボックス500と、単に示すために、バウンディングボックス500に含まれる多角形510とを示している。多角形510(三角形)を一次頂点510aとし、残りの2つの頂点510bおよび510cとする。多角形510は、バウンディングボックス500内に収容されている(一般的に言えば、全ての多角形が含まれるように選択されるのはバウンディングボックス500である)。図5では、簡略化のために他の三角形は示されていない。バウンディングボックス500は、例えば、その位置特徴および/または配向特徴を書き込むことによってシグナリングされ得る。例えば、決定された頂点502の位置が符号化され得る(例えば、座標系の元の原点に近い方)。場合によっては、バウンディングボックス500の他の頂点および/またはバウンディングボックス500の配向情報のいずれかがビットストリームに符号化されてもよい。バウンディングボックス500の形状および配向は、一義的にシグナリングされるため、デコーダは、バウンディングボックスに対する頂点510a、510b、510cの位置、ひいては元の軸の原点に対する位置を再構成することができる。バウンディングボックス500はまた、並進、回転、またはより一般的には回転並進によって新たな空間座標系を構成し得る。図5の単純なケースでは、次元yおよびzに沿った座標は、古い座標系と新たな座標系との間で同一に維持されるが、xは、バウンディングボックス500の頂点502に対応するように原点がシフトすることによって引き起こされる量「bounding_box_min」だけシフトされる。これは、頂点502と元の空間座標系の原点Oとの間の空間に頂点が存在しない場合に有利である。したがって、多角形510の頂点510a、510bおよび510cの座標が符号化されると(バージョン222および/またはビットストリーム204において)、x方向の座標のビット長が削減される。したがって、バウンディングボックス500は、符号化される全ての頂点を含むが、座標系の元の原点と座標系の新たな原点(この場合、バウンディングボックス500の頂点502に対応する)との間の空間を縮小するように定義され得る。基本的に、ビットストリーム204および/または構造音響データのバージョン222に符号化される座標の長さを縮小するように、座標系の変更が行われる。
【0063】
追加的または代替的に、バウンディングボックスの定義に関連して、他の種類の最適化が実行されてもよい。例えば、起こり得る反復パターンを評価することができる。音響環境が少なくとも1つの反復パターンを提示する場合、バウンディングボックスを少なくとも1つの反復パターンに限定することが可能である。反復パターンは、例えば、対称パターンであり得る。例えば、対称性は、半径方向対称性または平面対称性であり得る(他の対称性も可能である)。対称性の場合(またはより一般的には反復パターンの場合)、ビットストリーム204に符号化される頂点の量を削減するために、反復パターンの座標(例えば、平面対称の場合、対称ボリュームの半分)のみを符号化することができるため、全ての多角形の全ての頂点を符号化する必要はない。基本的に、他の反復パターンを再符号化することなく(例えば、平面対称の場合、バウンディングボックス500は、対称平面から2つの方向のうちの一方に向かって対称ボリュームの半分を含む必要があるだけではない)、一度だけ反復パターンを含むようにバウンディングボックス500が定義され得る。反復パターンデータがビットストリーム204においてシグナリングされる(例えば、平面対称の場合、対称性データは、エンコーダ200が表現された音響オブジェクトの形状を再構成し得るように符号化されるべきである。例えば、平面対称の場合、デコーダが対称形状の符号化されていない半分を再挿入することによって最終形状を再構成することができるように、対称平面を定義する情報を提供することが単に可能である)。同じことは、反復パターンが周期的な形状である場合に実行されることができ、バウンディングボックスは、周期的に反復される形状に限定されてもよく、一方、反復パターンデータは、(例えば、例えば三次元などの空間周期を含む)デコーダによって音響オブジェクトの最終的な形状を再現することを可能にする情報を含んでもよい。同じことは、可変対称性の場合にも適用されることができ、それにしたがって角度形状のみが定義され、反復パターンデータが対称点および/または対称半径に関してシグナリングされ、その結果、デコーダ300は、対称性データに基づいて最終的な半径方向対称形状を再構成することができる。
【0064】
以下の節において明らかになるように、空間座標系がバウンディングボックスによって定義された空間座標系に変更されると、値が1よりも大きい最大公約数を有する座標が最大化されるバウンディングブロックを定義することも可能である。
【0065】
したがって、例では、エンコーダ200のオーディオソース符号化ブロック210は、音響環境に含まれるバウンディングボックスを定義し、バウンディングボックス内の構造音響データを符号化し得て、それにより、バウンディングボックスの外側の領域に構造音響データを書き込むことを控える。バウンディングボックスは、任意の一次頂点および任意の残りの多角形頂点を含まない音響環境の部分を除外し得る。バウンディングボックスの位置データを含むバウンディングボックスに関する情報は、音響環境におけるバウンディングボックスの局在化を可能にするようにビットストリーム204においてシグナリングされ得る。したがって、構造音響データは、バウンディングボックスによって定義された新たな座標系への座標系の変更を受けてもよく、したがって、多角形の頂点の座標は、バウンディングボックスによって定義された新たな座標系を参照して符号化され得る。次に、デコーダ300のオーディオソース復号ブロック310は、ビットストリーム204のサイド情報において、バウンディングボックスに関する情報、特に位置データを読み取り得る。したがって、オーディオソース復号ブロック310は、バウンディングボックスを環境内で局在化し得る。さらに、オーディオソース復号ブロック310は、バウンディングボックス内の構造音響データを復号し、バウンディングボックスの位置データを介して行われた局在化に基づいて、オーディオソース復号ブロック310は、環境内のバウンディングボックスの位置データを再構成し得る。オーディオソース復号ブロック310は、例えば、エンコーダ200において実行される座標に対して逆の座標の変更を実行することによって、バウンディングボックスによって定義された座標系から環境の元の座標系への座標の変更を実行する。
【0066】
上述したように、エンコーダ200のオーディオソース符号化ブロック210はまた、音響環境が少なくとも1つの反復パターンを提示するかどうかを評価し、バウンディングボックスを少なくとも1つの反復パターンに限定し得る。したがって、反復パターンデータは、ビットストリーム204においてシグナリングされ得る。この場合、デコーダ300のオーディオソース復号ブロック310は、バウンディングボックス内の反復パターンに漸化を適用することによって(例えば、対称性、周期性などによって延長することによって)少なくとも1つの音響オブジェクトを再構成し得る。
【0067】
例えば、少なくとも1つの反復パターンは、対称パターン(例えば、平面対称パターン)であってもよく、したがって、反復パターンデータは、対称性データ(例えば、対称平面の位置および/または配向を示す位置データ)であってもよく、ビットストリーム204においてシグナリングされてもよい。次に、デコーダ300のオーディオソース復号ブロック310は、(例えば、対称平面に関して)バウンディングボックス内の一次頂点および残りの多角形頂点の位置に対して対称な位置に構造音響データを対称的に生成することによって少なくとも1つのオブジェクトを再構成し得る。
【0068】
最大公約数
バウンディングボックスの存在の有無にかかわらず、例では、エンコーダは、少なくとも1つの座標において、共通の最大公約数を有する頂点を探索し得る。したがって、エンコーダ200は、符号化されるべき音響環境の特定の次元、および多数の一次多角形頂点または残りの多角形頂点について、一次多角形頂点または残りの多角形頂点の座標を分割する少なくとも1つの公約数を探索し、それによって座標値の分割バージョンを符号化するようにさらに構成される。
【0069】
図5において、頂点510aのx座標xと、頂点510bのx座標x(座標xおよびxは、例えば、整数になるように離散化されていてもよい)を考える。座標xおよびxが最大公約数g>1を有する場合、x=g*dおよびx=g*dであり、dおよびdの両方は整数であり、d<xおよびd<xであり、g<xおよびg<xであるように、xおよびxを因数分解することが可能である。したがって、(構造音響データの符号化バージョン222および/またはビットストリーム204において)大きい数(高ビット長)xおよびxを符号化する代わりに、小さい数(低ビット長)g、dおよびdが符号化され得る。したがって、特に頂点の多数の座標について最大公約数が取得される場合に、ビット長の適切な削減が達成されることができる。
【0070】
したがって、例では、エンコーダ200のオーディオソース符号化ブロック210は、環境またはバウンディングボックスの少なくとも一次元について、複数の一次多角形頂点または残りの多角形頂点の座標の中で1とは異なる(1よりも大きい)公約数を探索し、それにより、ビットストリーム204に、公約数および公約数による座標の分割の結果を符号化し得る。したがって、ビットストリーム204は、本明細書では、公約数にしたがって因数分解形式で少なくとも2つの異なる頂点の少なくとも2つの座標値を符号化している。これは、ビットストリーム204においてシグナリングされる(公約数も符号化される)。次に、デコーダ300のオーディオソース復号ブロック310は、少なくとも2つの座標値を再構成するために、少なくとも2つの座標値のそれぞれに公約数を乗算することによって因数分解形式で符号化された少なくとも2つの座標値を再構成し得る。
【0071】
図4では、座標値が符号化された座標値データフィールド170cと、ショートリスト450の順序値が符号化された順序値データフィールド170vとを有するビットストリーム204が示されている。値データフィールド170cは、一般に、順序値データフィールド170vよりも大きいビット長を有する。
【0072】
量子化
構造音響データ符号化ブロックは、構造音響データ221に対して予め量子化を行い、重複する頂点を除去し、多角形を縮退させ得ることに留意されたい。この場合、(図1および図4を参照して)上述した例は、基本的に量子化によって管理されることができる。
【0073】
議論
新たな三角メッシュ符号化手法はいくつかの段階から構成され、それぞれが効率の向上に寄与する。全ての段階を一緒に実行することは厳密に必要ではない。
【0074】
第1の段階は、エンコーダ選択可能量子化ステップを使用して頂点座標を均一に量子化し、全ての重複頂点ならびに全ての重複および縮退三角形を除去する。第2の段階は、頂点のリスト全体についてバウンディングボックスを計算する。第3の段階は、プリプロセッサとして機能し、暗黙的に低下した座標精度を検出し、これは全ての頂点座標が各次元で別々に何らかの整数の倍数であることを意味する。第4の段階は、かなりの数の頂点が座標軸と平行な共通平面上に位置する幾何学的形状を利用する。第5の段階は、各次元で別々に、反復座標の最新性情報の統計モデルを考慮して作成することによって、第4の段階を改良する。これらの各段階は、エンコーダによって見つけられた最良の表現のためのいくつかのモデルパラメータを計算し、これらは、範囲コーダを使用してデータ自体とともにサイド情報として非常に効率的に符号化される。
【0075】
第1の段階は、エンコーダ選択可能量子化ステップを使用して、頂点座標を均一に量子化する。量子化ステップは、通常、量子化プロセスが通常1mmから2cmの範囲に音響アーチファクトを導入しないように十分に小さくなるように選択される。量子化の後、全ての重複頂点および全ての重複三角形および縮退三角形が除去される。三角形メッシュの生成アルゴリズムに応じて、同じ正確な重複頂点が何度も現れる可能性がある。
【0076】
第2の段階は、実際に使用されない範囲を符号化から除外するために、頂点のリスト全体の正確なバウンディングボックスを計算する。バウンディングボックスは、非常に効率的に符号化され、頻繁に遭遇するいくつかのパターンを最適化する。1つの頻繁なパターンは、バウンディングボックス座標範囲が0の周りで対称である場合、例えば、-150および150である場合、絶対値のみが一度符号化される。これは、音響環境またはオブジェクトがその座標に関して対称である場合に適用される。別のパターンは、バウンディングボックス座標範囲が幅0、例えば150および150を有する場合であり、ここでは一度だけ1つの値が符号化される。これは、音響オブジェクトが完全に平坦である場合に当てはまる。
【0077】
第3の段階は、プリプロセッサとして機能し、暗黙的に精度が低下した座標を検出し、これは全ての頂点座標が各次元で別々にある整数の倍数であることを意味する。例えば、量子化精度が1mmに設定され、全てのX座標が実際に10mmの倍数で表されると仮定すると、全ての量子化X座標、したがってX座標上の全ての量子化サイズは10の倍数である。さらに、座標がバウンディングボックスに対して作成される場合、完全な並進不変性が達成される(例えば、全てのサイズは10の倍数であってもよいが、座標は全て1によってシフトされてもよい)。これらの共通倍数は、1とは異なる場合、データ範囲を縮小するために値から除去されることができる。各座標の共通倍数は非常に効率的に符号化され、1の値(共通倍数が見つからなかったことを意味する)およびバウンディングボックスの対応する幅に正確に等しい値(その座標に正確に2つの異なる値が存在することを意味する)など、いくつかの頻繁に遭遇するパターンに対して最適化する。したがって、座標軸に位置合わせされた立方体は、各座標上で、その各座標のバウンディングボックスの幅を正確に公倍数として有する。したがって、前処理後、各座標について、0および1の値のみが残る。
【0078】
第4の段階は、かなりの数の頂点が座標軸と平行な共通平面上に位置する幾何学的形状を利用する。例えば、多数の頂点がXおよびY座標軸と平行な平面上に位置する場合、これは、それらの頂点の全てのZ座標値が同一であることを意味する。各軸で別々に座標値を反復することを利用する方法は、各座標値をインデックスとして以前に符号化された固有の値のリストに、または明示的に符号化された新たな値として符号化することであり、これらは以前に符号化された固有の値のリストに追加される。値が2つの方法のうちのどちらで実際に符号化されるかを示すことは、座標ごとに別々に「マスク」ビットを必要とする。頂点あたりこれら3「マスク」ビットは、適応バイナリ確率推定器を使用して最適に符号化される。各座標の個別値の数が頂点の数よりも大幅に小さい場合、「マスク」ビットのオーバーヘッドを有しても、符号化サイズは大幅に小さくなる。エンコーダは、この表現が直接表現よりも効率的である場合、座標の固有の値の数および頂点の数のみに基づいて最適に決定することができる。
【0079】
第5の段階は、各次元で別々に、反復座標の最新性情報の統計モデルを考慮して作成することによって、第4の段階を改良する。第4の段階は、一様分布を使用して、以前に符号化された固有の値のリストにそのインデックスを反復値用に符号化する。しかしながら、反復値のかなりの割合は、ごく最近使用されたインデックスにマッピングされる。記憶される最新のインデックス値の最大数
を表すパラメータを導入して、他の全てよりも効率的に使用される最後の
固有のインデックス値を符号化するための統計モデルが作成される。
エントリの前方移動(MTF)リストは、最新の
インデックス値の値を追跡するために使用され、一方、最後のエントリは、他の全てのインデックスを表す。インデックス値がMTFリスト内で見つかった場合、リスト内のその位置が符号化され、そのインデックス値は、MTFリストの先頭に移動される。そうでなければ、リスト内の位置
が符号化され、最近インデックスが使用されなかったことを示し、続いてインデックス値自体の均一な符号化が行われる。MTFリスト内の位置は、適応確率推定器を使用して符号化され、相対的な最新性分布に最適に一致する。
の増加は、符号化効率を向上させるが、既に最適に近い結果を達成しているために
について8の小さい値であり、低複雑度の実装を可能にする。
【0080】
代替例
本明細書では、前述の全ての代替形態または態様、および以下の特許請求の範囲における独立請求項によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的または独立請求項以外の代替形態または目的なしに使用されることができることに留意されたい。しかしながら、他の実施形態では、2つ以上の代替形態または態様または独立請求項が互いに組み合わせられることができ、他の実施形態では、全ての態様または代替形態および全ての独立請求項が互いに組み合わせられることができる。本発明の符号化された信号は、デジタル記憶媒体または非一時的記憶媒体に記憶されることができ、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送されることができる。
【0081】
いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。
【0082】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。
【0083】
本発明にかかるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。
【0084】
一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
【0085】
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0086】
換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0087】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをその上に記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
【0088】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0089】
さらなる実施形態は、本明細書に記載された方法の1つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。
【0090】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。
【0091】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)が使用されて、本明細書に記載の方法の機能のいくつかまたは全てを実行し得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載された方法の1つを実行するためにマイクロプロセッサと協調し得る。一般に、本方法は、好ましくは、任意のハードウェア装置によって実行される。
【0092】
上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。

図1
図2
図3
図4
図5
図6a
図6b
図7
図8
図9
図10a
図10b
図10c
図10d
図10e
図10f
図10g
図10h
【手続補正書】
【提出日】2024-01-23
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音響環境(302)を復号するための装置(300)であって、前記音響環境(302)が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を音響素材(150)の音響特性とリンクする構造音響データによって表され、前記位置データが、各多角形について、頂点の位置を含み、前記装置が、
ビットストリーム(204)から、構造音響データの符号化バージョン(322)と、前記音響環境(302)内の前記少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリーム(312)とを読み取るためのビットストリームリーダ(330)と、
前記少なくとも1つのオーディオソースを表す前記少なくとも1つのオーディオストリーム(312)を復号するためのオーディオソース復号ブロック(310)と、
前記構造音響データ(211)を復号する構造音響データ復号ブロック(320)と、
を備え、
前記構造音響データ復号ブロック(320)が、少なくとも一次元(x、y、z)について、以前に復号された頂点の座標値が順序にしたがって記憶されている順序付きショートリストを使用し、
前記構造音響データ復号ブロック(220)が、前記ビットストリーム(204)が前記順序付きショートリストの順序値を内部で符号化した場合に、前記座標値を、前記順序値に関連付けられた前記順序付きショートリスト(450)に記憶された前記値として再構成するように構成される、
装置。
【請求項2】
前記少なくとも1つのソースと前記復号された構造音響データ(211)との間の構造的および位置的関係にしたがって、前記少なくとも1つのオーディオストリーム(312、212)から得られた前記オーディオ信号(301)をレンダリングするためのレンダラ(350)をさらに備える、請求項1に記載の装置。
【請求項3】
前記構造音響データ復号ブロック(320)が、頂点の位置を示す頂点リスト(3802)を復号するための頂点リストデコーダ(3800)を含み、各頂点が頂点インデックスを有する、請求項1に記載の装置。
【請求項4】
前記構造音響データ復号ブロックが、各頂点について、前記順序付きショートリスト内の前記座標値または前記順序値が前記ビットストリーム(204)に符号化されているかどうかを示すバイナリマスク値(160x、160y、160z)を評価するように構成される、請求項1に記載の装置。
【請求項5】
前記ビットストリームからのシグナリングに基づいて、少なくとも一次元について前記順序付きショートリストをアクティブ化するか非アクティブ化するかを選択し、それによって前記順序付きショートリストを非アクティブ化するように構成される、請求項1に記載の装置。
【請求項6】
より高い多重度を有する座標についてより高いランクの順序値および/またはより低いビットの順序値を割り当てるように、頂点の座標の前記多重度を決定するように構成される、請求項1に記載の装置。
【請求項7】
前記ビットストリームから復号された前記座標値および/または前記順序値に基づいて、前記順序付きショートリストをオンザフライで更新するように構成される、請求項1に記載の装置。
【請求項8】
前記順序付きショートリスト(450)が、各次元について1つのショートリストインスタンス化(450x、450y、450z)を含む、請求項1に記載の装置。
【請求項9】
前記構造音響データ復号ブロックが、
第1の次元について、1つの現在の頂点の座標値が、決定された順序値において前記第1の次元に関連する前記ショートリストインスタンス化に記憶された1つの以前に復号された頂点の1つの座標値と同じである場合に、前記ショートリストインスタンス化の前記順序値を復号し、
第2の次元について、前記現在の頂点の前記座標値が、前記第2の次元に関連する前記ショートリストインスタンス化に記憶された以前に復号された1つの頂点の任意の座標値と異なる場合に、前記座標値を復号する、ように構成される、
請求項8に記載の装置。
【請求項10】
算術符号化を使用して構造音響データを復号するように構成される、請求項1に記載の装置。
【請求項11】
少なくとも1つの構造音響データを復号するために、前記少なくとも1つの構造音響データが前記第2のショートリスト内の前記位置から復号される第2のショートリストを使用する、請求項1に記載の装置。
【請求項12】
前記少なくとも1つの構造音響データが前記第2のショートリストにない場合、前記少なくとも1つの構造音響データが、その全体が前記ビットストリームから読み取られるように構成される、請求項11に記載の装置。
【請求項13】
前記特定のコードが、前記第2のショートリスト内の前記位置を示すために使用される前記コードよりも高いビット長を有する、請求項11に記載の装置。
【請求項14】
前記最後に復号された構造音響データが、前記第2のショートリスト内の前記第1の位置に配置され、前記第2のショートリスト内の前記他の復号された構造音響がシフトされる、請求項11に記載の装置。
【請求項15】
前記第2のショートリスト内の第1の位置を示す前記コードが、前記第2のショートリスト内の最後の位置を示す前記コードよりも低いビット長を有する、請求項11に記載の装置。
【請求項16】
多角形データリストを復号するために前記第2のショートリストを使用する、請求項11に記載の装置。
【請求項17】
頂点リスト内の前記頂点の前記頂点インデックスが示されている多角形データリストを復号するために前記第2のショートリストを使用する、請求項16に記載の装置。
【請求項18】
前記ビットストリーム(204)においてシグナリングされる、前記音響環境に含まれるバウンディングボックス(500)に関する情報を読み取り、前記バウンディングボックスに関する前記情報が位置データを含み、前記バウンディングボックス(500)を前記環境内で局在化するように構成され、前記バウンディングボックス内の前記構造音響データを復号するようにさらに構成される、請求項1に記載の装置。
【請求項19】
前記デコーダが、位置データを含む前記バウンディングボックス上の前記情報に基づいて各頂点の前記位置を再構成するように構成される、請求項18に記載の装置。
【請求項20】
前記ビットストリーム(204)が、前記音響環境が少なくとも1つの反復パターンを提示することをシグナリングした場合に、前記バウンディングボックス内の反復パターンに反復を適用することによって前記少なくとも1つの音響オブジェクトを再構成するように構成される、請求項18に記載の装置。
【請求項21】
前記ビットストリーム(204)が、前記少なくとも1つの反復パターンが前記バウンディングボックスに囲まれた対称パターンであることをシグナリングした場合に、前記バウンディングボックス内の前記頂点の位置に対称な位置に構造音響データを対称的に生成することによって前記少なくとも1つのオブジェクトを再構成するように構成される、請求項20に記載の装置。
【請求項22】
前記対称性が平面対称性であり、前記ビットストリームにおいてシグナリングされる前記対称性データが、前記対称性平面に関連付けられた情報を含み、前記装置が、前記対称性平面に関して前記バウンディングボックス内の前記頂点の前記位置に対称な位置に構造音響データを対称的に生成することによって前記少なくとも1つのオブジェクトを再構成するように構成される、請求項21に記載の装置。
【請求項23】
前記バウンディングボックスの少なくとも1つの決定された頂点によって定義されたバウンディングボックス空間座標系から元の座標系への前記頂点の座標の変更を実行するように構成される、請求項18に記載の装置。
【請求項24】
前記ビットストリーム(104)が、少なくとも2つの頂点の少なくとも2つの座標値が公約数にしたがって因数分解された形式で符号化されることをシグナリングした場合、前記少なくとも2つの座標値を再構成するために、前記因数分解された形式で符号化された前記少なくとも2つの座標値のそれぞれと前記公約数とを乗算するようにさらに構成される、請求項1に記載の装置。
【請求項25】
前記公約数が最大公約数である、請求項24に記載の装置。
【請求項26】
前記多角形が三角形である、請求項1に記載の装置。
【請求項27】
音響環境(302)を復号するための方法であって、前記音響環境(302)が、少なくとも1つのオーディオソースおよび少なくとも1つのオーディオオブジェクトを含み、前記少なくとも1つのオーディオオブジェクトが、多角形(110、120)の位置データ(110ax、120bx)を素材(150)の構造音響特性にリンクする構造音響データリスト(400)によって表され、前記位置データが、各多角形について、1つの一次構造音響頂点(110ax)の位置および前記残りの構造音響頂点(110b)の位置を含み、前記方法が、
ビットストリーム(204)から、構造音響データ(211)の符号化バージョン(322)と、前記音響環境(302)内の前記少なくとも1つのオーディオソースによって生成されたものとしてレンダリングされるべき少なくとも1つのオーディオストリーム(212)とを読み取ることと、
前記少なくとも1つのオーディオストリーム(312、212)を復号することと、
前記構造音響データ(211)を復号することと、
を含み、
前記方法が、少なくとも1つの次元(x、y、z)について、以前に復号された頂点の座標値が順序にしたがって記憶されている順序付きショートリストを使用し、
前記ビットストリーム(204)が前記順序付きショートリストの順序値を符号化している場合、前記座標値を前記順序値に関連付けられた前記順序付きショートリスト(450)に記憶された前記値として再構成する、
方法。
【国際調査報告】