IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 華為技術有限公司の特許一覧

特許7656090三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ
<>
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図1
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図2
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図3
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図4
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図5A
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図5B
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図6
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図7A
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図7B
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図8
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図9
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図10
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図11
  • 特許-三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-25
(45)【発行日】2025-04-02
(54)【発明の名称】三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ
(51)【国際特許分類】
   G10L 19/02 20130101AFI20250326BHJP
【FI】
G10L19/02 150
【請求項の数】 13
(21)【出願番号】P 2023571383
(86)(22)【出願日】2022-05-07
(65)【公表番号】
(43)【公表日】2024-05-27
(86)【国際出願番号】 CN2022091558
(87)【国際公開番号】W WO2022242480
(87)【国際公開日】2022-11-24
【審査請求日】2023-12-25
(31)【優先権主張番号】202110535832.3
(32)【優先日】2021-05-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133569
【弁理士】
【氏名又は名称】野村 進
(72)【発明者】
【氏名】高 原
(72)【発明者】
【氏名】▲劉▼ ▲帥▼
(72)【発明者】
【氏名】王 ▲賓▼
(72)【発明者】
【氏名】王 ▲ゼ▼
【審査官】大野 弘
(56)【参考文献】
【文献】特表2017-520024(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/02
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実行される三次元オーディオ信号エンコーディング方法であって、
三次元オーディオ信号の現在のフレームと前のフレームにおける第6の量の代表仮想スピーカとの間の第1の相関を取得するステップであって、前記第6の量の代表仮想スピーカが前記前のフレームをエンコーディングするために使用され、前記第1の相関が、前記現在のフレームがエンコーディングされるときに前記前のフレームにおける前記代表仮想スピーカを再使用すべきかどうかを決定するために使用される、ステップを含み、
前記第1の相関が再使用条件を満たさない場合に、
前記三次元オーディオ信号の現在のフレームにおける第4の量の係数と、前記第4の量の係数の周波数領域特徴値とを取得するステップと、
前記第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから、各サブバンドにおける係数の周波数領域特徴値の降順に従って整数個の代表係数を選択して、前記第4の量の係数から前記第4の量よりも少ない第3の量の代表係数を選択するステップ
前記第3の量の代表係数に基づいて候補仮想スピーカセットから前記現在のフレームにおける第2の量の代表仮想スピーカを選択するステップと、
ビットストリームを取得するために前記現在のフレームにおける前記第2の量の代表仮想スピーカに基づいて前記現在のフレームをエンコーディングするステップと、
更に含む、三次元オーディオ信号エンコーディング方法。
【請求項2】
前記少なくとも1つのサブバンドが少なくとも2つのサブバンドを含む場合、前記第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから、各サブバンドにおける係数の周波数領域特徴値の降順に従って整数個の代表係数を選択して、前記第4の量の係数から前記第4の量よりも少ない第3の量の代表係数を選択する前記ステップは、
各サブバンド内の第1の候補係数の周波数領域特徴値に基づいて、前記少なくとも2つのサブバンドのそれぞれの重みを決定するステップと、
各サブバンドの前記重みに基づいて各サブバンド内の第2の候補係数の周波数領域特徴値を調整して、各サブバンド内の前記第2の候補係数の調整された周波数領域特徴値を取得するステップであって、前記第1の候補係数及び前記第2の候補係数が前記サブバンド内の幾つかの係数である、ステップと、
前記少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値と、前記少なくとも2つのサブバンド内の前記第2の候補係数以外の係数の周波数領域特徴値とに基づいて、前記第3の量の代表係数を決定するステップと、
を含む、請求項1に記載の方法。
【請求項3】
記第1の相関が再使用条件を満た場合ビットストリームを取得するために前記前のフレームにおける前記第6の量の代表仮想スピーカに基づいて前記現在のフレームをエンコーディングするステップ
を更に含む、請求項1または2に記載の方法。
【請求項4】
前記三次元オーディオ信号の前記現在のフレームが高次アンビソニックスHOA信号であり、前記係数の前記周波数領域特徴値が前記HOA信号の係数に基づいて決定される、請求項1または2に記載の方法。
【請求項5】
三次元オーディオ信号の現在のフレームと前のフレームにおける第6の量の代表仮想スピーカセットとの間の第1の相関を取得するように構成される仮想スピーカ選択モジュールであって、前記第6の量の仮想スピーカが前記前のフレームをエンコーディングするために使用され、前記第1の相関が、前記現在のフレームがエンコーディングされるときに前記前のフレームにおける前記代表仮想スピーカセットを再使用すべきかどうかを決定するために使用される、仮想スピーカ選択モジュールと、
前記第1の相関が再使用条件を満たさない場合に、前記三次元オーディオ信号の現在のフレームにおける第4の量の係数と、前記第4の量の係数の周波数領域特徴値とを取得し、
前記第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから、各サブバンドにおける係数の周波数領域特徴値の降順に従って整数個の代表係数を選択して、前記第4の量の係数から前記第4の量よりも少ない第3の量の代表係数を選択するように成される、係数選択モジュールとを含み
前記仮想スピーカ選択モジュールは、前記第1の相関が再使用条件を満たさない場合に、前記第3の量の代表係数に基づいて候補仮想スピーカセットから前記現在のフレームにおける第2の量の代表仮想スピーカを選択するように更に構成され
前記第1の相関が再使用条件を満たさない場合に、ビットストリームを取得するために前記現在のフレームにおける前記第2の量の代表仮想スピーカに基づいて前記現在のフレームをエンコーディングするように構成されるエンコーディングモジュールを更に備える、三次元オーディオ信号エンコーディング装置。
【請求項6】
前記少なくとも1つのサブバンドが少なくとも2つのサブバンドを含む場合、前記第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから、各サブバンドにおける係数の周波数領域特徴値の降順に従って整数個の代表係数を選択して、前記第4の量の係数から前記第4の量よりも少ない第3の量の代表係数を選択する際、前記係数選択モジュールは、
各サブバンド内の第1の候補係数の周波数領域特徴値に基づいて、前記少なくとも2つのサブバンドのそれぞれの重みを決定し、
各サブバンドの前記重みに基づいて各サブバンド内の第2の候補係数の周波数領域特徴値を調整して、各サブバンド内の前記第2の候補係数の調整された周波数領域特徴値を取得し、前記第1の候補係数及び前記第2の候補係数が前記サブバンド内の幾つかの係数であり、
前記少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値と、前記少なくとも2つのサブバンド内の前記第2の候補係数以外の係数の周波数領域特徴値とに基づいて、前記第3の量の代表係数を決定する、
ように特に構成される、請求項5に記載の装置。
【請求項7】
前記エンコーディングモジュールは、
記第1の相関が再使用条件を満た場合ビットストリームを取得するために前記前のフレームにおける前記第6の量の代表仮想スピーカに基づいて前記現在のフレームをエンコーディングする、
ように更に構成される、請求項5または6に記載の装置。
【請求項8】
前記三次元オーディオ信号の前記現在のフレームが高次アンビソニックスHOA信号であり、前記係数の前記周波数領域特徴値が前記HOA信号の係数に基づいて決定される、請求項5または6に記載の装置。
【請求項9】
エンコーダであって、前記エンコーダは、少なくとも1つのプロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムを記憶するように構成され、それにより、前記コンピュータプログラムが前記少なくとも1つのプロセッサによって実行されるときに、請求項1に記載の三次元オーディオ信号エンコーディング方法が実施される、エンコーダ。
【請求項10】
システムであって、前記システムは、請求項9に記載のエンコーダと、デコーダと、を備え、前記エンコーダは、請求項1に記載の方法の動作ステップを実行するように構成され、前記デコーダは、前記エンコーダによって生成されるビットストリームをデコーディングするように構成される、システム。
【請求項11】
コンピュータプログラムであって、前記コンピュータプログラムが実行されるときに、請求項1に記載の三次元オーディオ信号エンコーディング方法が実施される、コンピュータプログラム。
【請求項12】
コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムがエンコーダ内で実行されるときに、前記エンコーダは、請求項1に記載の三次元オーディオ信号エンコーディング方法を実行できるようにされる、コンピュータ可読記憶媒体。
【請求項13】
コンピュータによって実行されるビットストリームの記憶方法であって、
三次元オーディオ信号の現在のフレームと前のフレームにおける第6の量の代表仮想スピーカとの間の第1の相関を取得するステップであって、前記第6の量の代表仮想スピーカが前記前のフレームをエンコーディングするために使用され、前記第1の相関が、前記現在のフレームがエンコーディングされるときに前記前のフレームにおける前記代表仮想スピーカを再使用すべきかどうかを決定するために使用される、ステップと、
前記第1の相関が再使用条件を満たさない場合に、
前記三次元オーディオ信号の現在のフレームにおける第4の量の係数と、前記第4の量の係数の周波数領域特徴値とを取得するステップと、
前記第4の量の係数の前記周波数領域特徴値に基づいて前記第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから、各サブバンドにおける係数の周波数領域特徴値の降順に従って整数個の代表係数を選択して、前記第4の量の係数から前記第4の量よりも少ない第3の量の代表係数を選択するステップであって、前記第3の量が前記第4の量よりも少ない、ステップと、
前記第3の量の代表係数に基づいて候補仮想スピーカセットから前記現在のフレームにおける第2の量の代表仮想スピーカを選択するステップと、
ビットストリームを取得するために前記現在のフレームにおける前記第2の量の代表仮想スピーカに基づいて、前記現在のフレームをエンコーディングするステップと、を更に含み、
前記第1の相関が再使用条件を満たす場合に、
ビットストリームを取得するために前記前のフレームにおける前記第6の量の代表仮想スピーカに基づいて前記現在のフレームをエンコーディングするステップ、を更に含み、
前記ビットストリームをコンピュータ可読記憶媒体に記憶するステップ、を更に含む、記憶方法
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、参照によりその全体が本明細書に組み入れられる、2021年5月17日付で中国国家知識産権局に出願された、「三次元オーディオ信号コーディング方法及び装置、並びにエンコーダ」という名称の中国特許出願第202110535832.3号の優先権を主張する。
【0002】
この出願は、マルチメディア分野に関し、特に、三次元オーディオ信号コーディング方法及び装置、並びにエンコーダに関する。
【背景技術】
【0003】
高性能コンピュータ及び信号処理技術の急速な発展に伴い、聴取者は、音声及びオーディオ体験に対する要求がますます高くなっている。イマーシブオーディオは、この態様における人々の要求を満たすことができる。例えば、三次元オーディオ技術は、無線通信(例えば、4G/5G)音声、仮想現実/拡張現実、メディアオーディオ、及び他の態様で広く使用されている。三次元オーディオ技術は、現実世界において音及び三次元音場情報を取得、処理、送信、レンダリング、及び再生して、空間、包み込み、及び没入感の強い音を提供するためのオーディオ技術である。これは、聴取者に並外れた「没入型」聴覚体験を提供する。
【0004】
通常、取得デバイス(例えば、マイクロフォン)が、三次元音場情報を記録するために大量のデータを取得し、三次元オーディオ信号を再生デバイス(例えば、スピーカ又はヘッドセット)に送信し、その結果、再生デバイスは三次元オーディオを再生する。三次元音場情報は大量のデータを含むため、データを記憶するために大量の記憶空間が必要とされ、三次元オーディオ信号を伝送するために高い帯域幅が必要とされる。前述の問題を解決するために、三次元オーディオ信号を圧縮することができ、圧縮データを記憶又は送信することができる。現在、エンコーダが、複数の予め構成された仮想スピーカを使用することによって三次元オーディオ信号を圧縮することができる。しかしながら、エンコーダによって三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑度は高い。したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑度をどのように低減するかが、解決されるべき緊急の課題である。
【発明の概要】
【課題を解決するための手段】
【0005】
この出願は、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減するために、三次元オーディオ信号コーディング方法及び三次元オーディオ信号コーディング装置、並びにエンコーダを提供する。
【0006】
第1の態様によれば、この出願は、三次元オーディオ信号エンコーディング方法を提供する。方法は、エンコーダによって実行されてもよく、具体的には以下のステップを含む。すなわち、三次元オーディオ信号の現在のフレームにおける第4の量の係数と、第4の量の係数の周波数領域特徴値とを取得した後、エンコーダは、第4の量の係数の周波数領域特徴値に基づいて第4の量の係数から第3の量の代表係数を選択し、第3の量の代表係数に基づいて候補仮想スピーカセットから現在のフレームにおける第2の量の代表仮想スピーカを選択し、ビットストリームを取得するために現在のフレームにおける第2の量の代表仮想スピーカに基づいて現在のフレームをエンコーディングする。第4の量の係数は、第3の量の代表係数を含む。第3の量は第4の量よりも少ない。これは、第3の量の代表係数が第4の量の係数の一部であることを示す。
【0007】
三次元オーディオ信号の現在のフレームは高次アンビソニックス(higher order ambisonics,HOA)信号であり、係数の周波数領域特徴値はHOA信号の係数に基づいて決定される。
【0008】
エンコーダは、現在のフレームにおける全ての係数から幾つかの係数を代表係数として選択し、現在のフレームにおける全ての係数を表わすために少量の代表係数を使用することによって候補仮想スピーカセットから代表仮想スピーカを選択する。これは、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを効果的に低減し、したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減する。
【0009】
更に、エンコーダが、ビットストリームを取得するために現在のフレームにおける第2の量の代表仮想スピーカに基づいて現在のフレームをエンコーディングすることは、エンコーダが、現在のフレームと現在のフレームにおける第2の量の代表仮想スピーカとに基づいて仮想スピーカ信号を生成するとともに、ビットストリームを取得するために仮想スピーカ信号をエンコーディングすることを含む。
【0010】
現在のフレームにおける係数の周波数領域特徴値は三次元オーディオ信号の音場特性を表わすため、エンコーダは、現在のフレームにおける係数の周波数領域特徴値に基づいて、代表音場成分を有する現在のフレームにおける代表係数を選択する。代表係数を使用することによって候補仮想スピーカセットから選択される現在のフレームにおける代表仮想スピーカは、三次元オーディオ信号の音場特性を完全に表わすことができる。これは、現在のフレームにおける代表仮想スピーカを使用することによってエンコーディング対象の三次元オーディオ信号に対して圧縮コーディングを実行することにより、エンコーダによって仮想スピーカ信号を生成する精度を更に向上させるとともに、三次元オーディオ信号に対して圧縮コーディングを実行するための圧縮比を増大させ、ビットストリームを送信するためにエンコーダによって占有される帯域幅を低減するのに役立つ。
【0011】
想定し得る実装態様において、第4の量の係数の周波数領域特徴値に基づいて第4の量の係数から第3の量の代表係数を選択するステップは、エンコーダが、第3の量の代表係数を取得するために、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから代表係数を選択することを含む。
【0012】
例えば、第3の量の代表係数を取得するために、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから代表係数を選択するステップは、エンコーダが、第3の量の代表係数を取得するために、各サブバンドにおける係数の周波数領域特徴値に基づいて少なくとも1つのサブバンドのそれぞれからZ個の代表係数を選択することを含み、Zが正の整数である。エンコーダは、現在のフレームにおける全ての係数によって示されるスペクトル範囲内の係数の周波数領域特徴値に基づいて代表係数を選択する。これは、各サブバンドから代表係数が選択されるようにするとともに、現在のフレームにおける全ての係数によって示されるスペクトル範囲から代表係数をエンコーダによって選択するための等化を改善する。
【0013】
他の例の場合、少なくとも1つのサブバンドが少なくとも2つのサブバンドを含む場合、第3の量の代表係数を取得するために、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから代表係数を選択するステップは、エンコーダが、各サブバンド内の第1の候補係数の周波数領域特徴値に基づいて、少なくとも2つのサブバンドのそれぞれの重みを決定し、各サブバンドの重みに基づいて各サブバンド内の前記第2の候補係数の周波数領域特徴値を調整して、各サブバンド内の第2の候補係数の調整された周波数領域特徴値を取得し、第1の候補係数及び第2の候補係数がサブバンド内の幾つかの係数であり、少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値と、少なくとも2つのサブバンド内の第2の候補係数以外の係数の周波数領域特徴値とに基づいて、第3の量の代表係数を決定することを含む。このようにして、エンコーダは、サブバンドの重みに基づいて、サブバンド内の係数が選択される確率を調整する。これは、音場分布及びオーディオ特性に関して、エンコーダによって選択される代表係数によって全てのサブバンドの係数を表わす精度を更に向上させる。
【0014】
エンコーダは、少なくとも2つのサブバンドを取得するために、不等分割によってスペクトル範囲を分割することができる。この場合、少なくとも2つのサブバンドは、異なる量の係数を含む。或いは、エンコーダは、少なくとも2つのサブバンドを取得するために、等しい分割によってスペクトル範囲を分割してもよい。この場合、少なくとも2つのサブバンドはそれぞれ同じ量の係数を含む。
【0015】
他の想定し得る実装態様において、第3の量の代表係数に基づいて候補仮想スピーカセットから現在のフレームにおける第2の量の代表仮想スピーカを選択するステップは、エンコーダが、現在のフレームにおける第3の量の代表係数、候補仮想スピーカセット、及び投票回数に基づいて、第1の量の仮想スピーカ及び第1の量の投票値を決定するとともに、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームにおける第2の量の代表仮想スピーカを選択することを含む。第2の量は第1の量よりも少ない。これは、現在のフレームにおける第2の量の代表仮想スピーカが候補仮想スピーカセット内の幾つかの仮想スピーカであることを示す。仮想スピーカが投票値と1対1に対応することが理解され得る。例えば、第1の量の仮想スピーカは第1の仮想スピーカを含み、第1の量の投票値は第1の仮想スピーカの投票値を含み、第1の仮想スピーカは第1の仮想スピーカの投票値に対応する。第1の仮想スピーカの投票値は、第1の仮想スピーカの優先度を表わす。候補仮想スピーカセットは、第5の量の仮想スピーカを含む。第5の量の仮想スピーカは、第1の量の仮想スピーカを含む。第1の量は第5の量以下である。投票回数は1以上の整数であり、投票回数は第5の量以下である。第2の量は事前設定される、又は第2の量は現在のフレームに基づいて決定される。
【0016】
現在、エンコーダは、仮想スピーカの検索中、エンコーディング対象の三次元オーディオ信号と仮想スピーカとの間の相関計算の結果を、仮想スピーカを選択するための測定指標として使用する。また、エンコーダがそれぞれの係数ごとに1つの仮想スピーカを送信する場合、効率的なデータ圧縮の目的を達成することができず、重い計算負荷がエンコーダに課される。この出願のこの実施形態で提供される仮想スピーカ選択方法において、エンコーダは、現在のフレームにおける全ての係数を表わすために少量の代表係数を使用することによって候補仮想スピーカセット内のそれぞれの仮想スピーカごとに投票し、投票値に基づいて現在のフレームにおける代表仮想スピーカを選択する。更に、エンコーダは、現在のフレームにおける代表仮想スピーカを使用することによってエンコーディング対象の三次元オーディオ信号を圧縮及びエンコーディングする。これは、三次元オーディオ信号に対して圧縮コーディングを行うための圧縮率を効果的に増大させるだけでなく、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを低減し、したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減させる。
【0017】
第2の量は、エンコーダによって選択される現在のフレームにおける代表仮想スピーカの量を表わす。第2の量が大きいほど、現在のフレームにおける代表仮想スピーカの量が多く、三次元オーディオ信号の音場情報の量が多いことを示す。第2の量が少ないほど、現在のフレームにおける代表仮想スピーカの量が少なく、三次元オーディオ信号の音場情報の量が少ないことを示す。したがって、第2の量は、エンコーダによって選択される現在のフレームにおける代表仮想スピーカの量を制御するように設定されてもよい。例えば、第2の量が事前設定されてもよい。別の例において、第2の量は、現在のフレームに基づいて決定されてもよい。例えば、第2の量の値は、1、2、4、又は8であってもよい。
【0018】
他の想定し得る実装態様において、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームにおける第2の量の代表仮想スピーカを選択するステップは、エンコーダが、前のフレームにおける第1の量の投票値及び第6の量の最終投票値に基づいて、第7の量の仮想スピーカ及び現在のフレームに対応する現在のフレームにおける第7の量の最終投票値を取得するとともに、現在のフレームにおける第7の量の最終投票値に基づいて第7の量の仮想スピーカから現在のフレームにおける第2の量の代表仮想スピーカを選択することを含む。第2の量は第7の量よりも少ない。これは、現在のフレームにおける第2の量の代表仮想スピーカが第7の量の仮想スピーカのうちの幾つかであることを示す。第7の量の仮想スピーカは第1の量の仮想スピーカを含み、第7の量の仮想スピーカは第6の量の仮想スピーカを含む。第6の量の仮想スピーカに含まれる仮想スピーカは、前のフレームをエンコーディングするために使用される三次元オーディオ信号の前のフレームにおける代表仮想スピーカである。前のフレームにおける代表仮想スピーカセットに含まれる第6の量の仮想スピーカは、前のフレームにおける第6の量の最終投票値と1対1に対応する。
【0019】
仮想スピーカの検索中、実際の音源の位置が仮想スピーカの位置と必ずしも一致しないため、仮想スピーカと実際の音源とは必ずしも1対1の対応関係を形成できない。加えて、実際の複雑なシナリオにおいて、限られた量の仮想スピーカを含む仮想スピーカセットは、音場内の全ての音源を表わすことができない場合がある。この場合、異なるフレームに見られる仮想スピーカは頻繁に変化する場合があり、この変化は聴取者の聴覚体験に大きく影響し、デコーディングされて再構成される三次元オーディオ信号に著しい不連続性及びノイズを引き起こす。この出願のこの実施形態で提供される仮想スピーカ選択方法では、前のフレームにおける代表仮想スピーカが継承される。具体的には、同じ数の仮想スピーカの場合、前のフレームにおける最終投票値を使用することによって現在のフレームにおける初期投票値が調整され、それにより、エンコーダは前のフレームにおける代表仮想スピーカを選択する傾向が強くなる。これは、異なるフレームにおける仮想スピーカの頻繁な変化を緩和し、フレーム間の信号の方向の連続性を向上させるとともに、再構成三次元オーディオ信号の音像の安定性を向上させ、再構成三次元オーディオ信号の音質を確保する。
【0020】
他の想定し得る実装態様において、方法は、エンコーダが、現在のフレームと前のフレームにおける代表仮想スピーカセットとの間の第1の相関を取得するとともに、第1の相関が再使用条件を満たさない場合に、三次元オーディオ信号の現在のフレームにおける第4の量の係数及び第4の量の係数の周波数領域特徴値を取得することを含む。前のフレームにおける代表仮想スピーカセットは、第6の量の仮想スピーカを含む。第6の量の仮想スピーカに含まれる仮想スピーカは、前のフレームをエンコーディングするために使用される三次元オーディオ信号の前のフレームにおける代表仮想スピーカである。第1の相関は、現在のフレームがエンコーディングされるときに前のフレームにおける代表仮想スピーカセットを再使用すべきかどうかを決定するために使用される。
【0021】
このようにして、エンコーダは、現在のフレームをエンコーディングするために前のフレームにおける代表仮想スピーカセットを再使用すべきかどうかを最初に決定することができる。エンコーダが現在のフレームをエンコーディングするために前のフレームにおける代表仮想スピーカセットを再使用する場合、エンコーダは仮想スピーカ検索プロセスを再度実行する必要はない。これは、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを効果的に低減し、したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減する。また、これは、異なるフレームにおける仮想スピーカの頻繁な変化をより緩和し、フレーム間の方向の連続性を高めるとともに、再構成三次元オーディオ信号の音像の安定性を向上させ、再構成三次元オーディオ信号の音質を確保することができる。エンコーダが現在のフレームをエンコーディングするために前のフレームにおける代表仮想スピーカセットを再使用できない場合、エンコーダは、代表係数を再選択し、現在のフレームにおける代表係数を使用することによって候補仮想スピーカセット内のそれぞれの仮想スピーカごとに投票するとともに、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減してエンコーダの計算負荷を低減するべく、投票値に基づいて現在のフレームにおける代表仮想スピーカを選択する。
【0022】
任意選択的に、方法は、エンコーダが、更に、ビットストリームを取得するべく三次元オーディオ信号の現在のフレームに対して圧縮エンコーディングを実行するために三次元オーディオ信号の現在のフレームを取得するとともに、ビットストリームをデコーダ側に送信することを更に含む。
【0023】
第2の態様によれば、この出願は、三次元オーディオ信号エンコーディング装置を提供する。装置は、第1の態様又は第1の態様の想定し得る形態のいずれか1つに係る三次元オーディオ信号エンコーディング方法を実行するためのモジュールを含む。例えば、三次元オーディオ信号エンコーディング装置は、係数選択モジュールと、仮想スピーカ選択モジュールと、エンコーディングモジュールとを含む。係数選択モジュールは、三次元オーディオ信号の現在のフレームにおける第4の量の係数及び第4の量の係数の周波数領域特徴値を取得するように構成される。係数選択モジュールは、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数から第3の量の代表係数を選択するように更に構成され、第3の量は第4の量よりも少ない。仮想スピーカ選択モジュールは、第3の量の代表係数に基づいて候補仮想スピーカセットから現在のフレームにおける第2の量の代表仮想スピーカを選択するように構成される。エンコーディングモジュールは、ビットストリームを取得するために、現在のフレームにおける第2の量の代表仮想スピーカに基づいて現在のフレームをエンコーディングするように構成される。これらのモジュールは、第1の態様の方法例における対応する機能を果たすことができる。詳細については、方法例における詳細な説明を参照されたい。ここでは詳細を繰り返さない。
【0024】
第3の態様によれば、この出願はエンコーダを提供する。エンコーダは、少なくとも1つのプロセッサ及びメモリを含む。メモリは、コンピュータ命令のグループを記憶するように構成される。プロセッサがコンピュータ命令のグループを実行すると、第1の態様又は第1の態様の想定し得る実装態様のいずれか1つに係る三次元オーディオ信号エンコーディング方法の動作ステップが実行される。
【0025】
第4の態様によれば、この出願はシステムを提供する。システムは、第3の態様に係るエンコーダとデコーダとを含む。エンコーダは、第1の態様又は第1の態様の想定し得る実装態様のいずれか1つに係る三次元オーディオ信号エンコーディング方法の動作ステップを実行するように構成される。デコーダは、エンコーダによって生成されたビットストリームをデコーディングするように構成される。
【0026】
第5の態様によれば、この出願は、コンピュータソフトウェア命令を含むコンピュータ可読記憶媒体を提供する。コンピュータソフトウェア命令がエンコーダ上で実行されると、エンコーダは、第1の態様又は第1の態様の想定し得る実装態様のいずれか1つに係る方法の動作ステップを実行できるようにされる。
【0027】
第6の態様によれば、この出願はコンピュータプログラムプロダクトを提供する。コンピュータプログラムプロダクトがエンコーダ上で実行されると、エンコーダは、第1の態様又は第1の態様の想定し得る実装態様のいずれか1つに係る方法の動作ステップを実行できるようにされる。
【0028】
この出願では、前述の態様で提供される実装態様に基づいて、実装態様は、より多くの実装態様を提供するために更に組み合わされ得る。
【図面の簡単な説明】
【0029】
図1】この出願の一実施形態に係るオーディオコーディングシステムの構造の概略図である。
図2】この出願の一実施形態に係るオーディオコーディングシステムのシナリオの概略図である。
図3】この出願の一実施形態に係るエンコーダの構造の概略図である。
図4】この出願の一実施形態に係る三次元オーディオエンコーディング方法の概略フローチャートである。
図5A】この出願の一実施形態に係る仮想スピーカ選択方法の概略フローチャートである。
図5B】この出願の一実施形態に係る仮想スピーカ選択方法の概略フローチャートである。
図6】この出願の一実施形態に係る三次元オーディオ信号エンコーディング方法の概略フローチャートである。
図7A】この出願の一実施形態に係る三次元オーディオ信号における代表係数を選択するための方法の概略フローチャートである。
図7B】この出願の一実施形態に係る三次元オーディオ信号における代表係数を選択するための方法の概略フローチャートである。
図8】この出願の一実施形態に係る仮想スピーカ選択方法の概略フローチャートである。
図9】この出願の一実施形態に係る他の仮想スピーカ選択方法の概略フローチャートである。
図10】この出願の一実施形態に係る他の仮想スピーカ選択方法の概略フローチャートである。
図11】この出願に係る三次元オーディオ信号エンコーディング装置の構造の概略図である。
図12】この出願に係るエンコーダの構造の概略図である。
【発明を実施するための形態】
【0030】
以下の実施形態の説明を明確かつ簡潔にするために、関連技術を最初に簡単に説明する。
【0031】
音(sound)は、物体の振動により発生する連続波である。振動して音波を発生する物体を音源と呼ぶ。媒質(例えば、空気、固体、又は液体)を介して音波を伝達する際、人間や動物の聴覚器は音を感知することができる。
【0032】
音波の特徴は、ピッチ、音の強さ、音色である。ピッチは、音の高低を示す。音の強さは、音量を示す。音の強度は、音の大きさ又は音量と呼ばれることもある。音の強度の単位はデシベル(decibel,dB)である。音色は音質とも呼ばれる。
【0033】
音波の周波数は、ピッチの値を決定する。周波数が高いほど、ピッチが高いことを示す。一秒間に物体が振動した回数を周波数という。周波数の単位はヘルツ(hertz,Hz)である。人間の耳で認識できる音の周波数は、20Hzから20000Hzまでの範囲である。
【0034】
音波の振幅が音強度を決定する。振幅が大きいほど、音の強度が高いことを示す。音源からの距離が短いほど、音の強度が高いことを示す。
【0035】
音波の波形が音色を決定する。音波の波形は、方形波、鋸波、正弦波、脈波等を含む。
【0036】
音は、音波の特徴に基づいて、規則的な音と不規則な音とに分類されてもよい。不規則音は、不規則な振動によって音源から発生する音である。異音は、例えば、人の作業、勉強、休憩などに影響を与える騒音である。規則的な音は、規則的な振動によって音源から発せられる音である。通常音は、音及び音楽を含む。音が電気で表わされる場合、規則音は、時間-周波数領域で連続的に変化するアナログ信号である。アナログ信号は、オーディオ信号と称されてもよい。オーディオ信号は、音声、音楽、及び効果音を搬送する情報キャリアである。
【0037】
人間の聴覚システムは、空間内の音源の位置分布を区別する能力を有する。したがって、聴取者は、空間内の音を聞く際に、音のピッチ、音の強さ、音色に加えて、音の向きを感知することができる。
【0038】
人々が聴覚体験に注目し、品質に対する要求がますます高くなるにつれて、奥行き感、没入感、及び音の空間感を高めるために、三次元オーディオ技術が相応に出現する。このようにして、聴取者は、前方、後方、左方、及び右方からの音源によって発せられた音を感じるだけでなく、聴取者が位置する空間が音源によって作り出された空間音場(略称:音場(sound field))に囲まれているように感じ、音が周囲に広がっているように感じる。これにより、聴取者が映画館やコンサートホールなどにいるような感覚の「没入型」効果音が作成される。
【0039】
三次元オーディオ技術では、人間の耳の外側の空間をシステムとし、鼓膜で受信された信号は、音源によって生成された音をフィルタリングすることによって耳の外側のシステムによって出力される三次元オーディオ信号である。例えば、人間の耳の外側のシステムは、システムインパルス応答h(n)として定義されてもよく、任意の音源は、x(n)として定義されてもよく、鼓膜で受信された信号は、x(n)とh(n)との畳み込み結果である。この出願の実施形態における三次元オーディオ信号は、高次アンビソニックス(higher order ambisonics,HOA)信号であってもよい。三次元オーディオは、三次元サウンドエフェクト、空間オーディオ、三次元音場再構成、仮想3Dオーディオ、バイノーラルオーディオなどと呼ばれることもある。
【0040】
音波を理想的な媒体で伝送する場合、音波の周波数をf、音速をcとすると、波の速度はk=w/c、角周波数はw=2πfであることがよく知られている。音圧Pは式(1)を満たし、ここで∇2はラプラス演算子である。
2P+k2P=0 式(1)
【0041】
人間の耳の外側の空間系は球体であり、聴取者は球体の中心にあり、球体の外側から伝達された音は球面上に投影され、球体の外側の音はフィルタリングされると仮定する。音源が球面上に分散され、球面上の音源によって生成された音場が、元の音源によって生成された音場に適合するために使用されると仮定する。すなわち、三次元オーディオ技術は、音場フィッティング法である。具体的には、式(1)の方程式を球面座標系で解く。受動球面領域において、式(1)の方程式は、以下の式(2)に解かれる。
【数1】
【0042】
rは球の半径を示し、θは方位角を示し、φは仰角を示し、kは波速度を示し、sは理想平面波の振幅を示し、mは三次元オーディオ信号の次数のシーケンス番号(又はHOA信号の次数のシーケンス番号ともいう)を示す。
【数2】
は球ベッセル関数を示し、球ベッセル関数は半径基底関数とも呼ばれ、最初のjは虚数単位を示し、
【数3】
は角度と共に変化しない。
【数4】
はθ及びφ方向の球面調和関数を示し、
【数5】
は音源方向の球面調和関数を示す。三次元オーディオ信号係数は、式(3)を満たす。
【数6】
【0043】
式(3)を式(2)に代入し、式(2)を式(4)に変形してもよい。
【数7】
【0044】
【数8】
は、N次の三次元オーディオ信号係数を示し、音場を近似的に記述するために使用される。音場は、媒質内に音波が存在する領域である。Nは1以上の整数である。例えば、Nの値は2~6の範囲の整数である。この出願の実施形態における三次元オーディオ信号係数は、HOA係数又はアンビソニックス(ambisonics)係数であってもよい。
【0045】
三次元オーディオ信号は、音場内の音源の空間位置情報を搬送し、空間内の聴取者の音場を記述する情報キャリアである。式(4)は、球面調和関数に基づいて音場が球面上に拡大され得ること、すなわち、音場が複数の重畳平面波に分解され得ることを示す。したがって、三次元オーディオ信号によって記述される音場は、重畳された複数の平面波によって表現されてもよく、音場は、三次元オーディオ信号係数を使用することによって再構成されてもよい。
【0046】
5.1-チャネルのオーディオ信号又は7.1-チャネルのオーディオ信号と比較して、N次HOA信号は(N+1)2チャネルを有し、したがって、HOA信号は音場の空間情報を記述するためのより多くのデータを含む。取得デバイス(例えば、マイクロフォン)が三次元オーディオ信号を再生デバイス(例えば、スピーカ)に送信する場合、高帯域幅が消費される必要がある。現在、エンコーダは、ビットストリームを取得するために、空間的スクイズドサラウンドオーディオコーディング(spatial squeezed surround audio coding,S3AC)又は指向性オーディオコーディング(directional audio coding,DirAC)を介して三次元オーディオ信号に対して圧縮エンコーディングを実行し、ビットストリームを再生デバイスに送信することができる。再生デバイスは、ビットストリームをデコーディングし、三次元オーディオ信号を再構成し、再構成三次元オーディオ信号を再生する。これは、三次元オーディオ信号を再生デバイスに送信する間のデータ量及び帯域幅使用量を低減する。しかしながら、三次元オーディオ信号に対して圧縮エンコーディングを実行するためにエンコーダによって実行される計算の複雑さは高く、エンコーダの過剰なコンピューティングリソースが占有される。したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑度をどのように低減するかが、解決されるべき緊急の課題である。
【0047】
この出願の実施形態は、オーディオコーディング技術を提供し、特に、三次元オーディオ信号に向けられた三次元オーディオコーディング技術を提供し、具体的には、従来のオーディオコーディングシステムを改善するために、少量のチャネルを使用することによって三次元オーディオ信号を表わすためのコーディング技術を提供する。オーディオコーディング(又は通常コーディングと呼ばれる)は、オーディオエンコーディングとオーディオデコーディングの2つの部分を含む。オーディオエンコーディングは、ソース側で実行され、通常、当初のオーディオを処理(例えば、圧縮)して、当初のオーディオを表わすためのデータ量を低減し、より効率的な記憶及び/又は伝送を達成することを含む。オーディオデコーディングは、宛先側で実行され、通常、当初のオーディオを再構成するために、エンコーダに対して逆処理を実行することを含む。エンコーディング部及びデコーディング部を総称してコーデックともいう。以下、添付図面を参照して、この出願の実施形態の実装態様を詳細に説明する。
【0048】
図1は、この出願の一実施形態に係るオーディオコーディングシステムの構造の概略図である。オーディオコーディングシステム100は、送信元デバイス110及び送信先デバイス120を含む。送信元デバイス110は、ビットストリームを取得するために三次元オーディオ信号に対して圧縮エンコーディングを実行し、ビットストリームを送信先デバイス120に送信するように構成される。送信先デバイス120は、ビットストリームをデコーディングし、三次元オーディオ信号を再構成し、再構成三次元オーディオ信号を再生する。
【0049】
具体的には、送信元デバイス110は、オーディオ取得デバイス111と、プリプロセッサ112と、エンコーダ113と、通信インタフェース114とを含む。
【0050】
オーディオ取得デバイス111は、当初のオーディオを取得するように構成される。オーディオ取得デバイス111は、現実世界の音を取得するための任意のタイプのオーディオ取得デバイス、及び/又は任意のタイプのオーディオ生成デバイスであってもよい。例えば、オーディオ取得デバイス111は、コンピュータオーディオを生成するためのコンピュータオーディオプロセッサである。或いは、オーディオ取得デバイス111は、オーディオを格納するための任意のタイプのメモリ又は内部メモリであってもよい。オーディオは、現実世界の音、仮想シーン(例えば、VR又は拡張現実(augmented reality,AR))の音、及び/又はそれらの任意の組み合わせを含む。
【0051】
プリプロセッサ112は、オーディオ取得デバイス111によって取得された当初のオーディオを受信し、当初のオーディオを前処理して三次元オーディオ信号を取得するように構成される。例えば、プリプロセッサ112により行われる前処理は、チャネルの切り替え、オーディオフォーマットの変換、ノイズ除去等を含む。
【0052】
エンコーダ113は、プリプロセッサ112によって生成された三次元オーディオ信号を受信し、三次元オーディオ信号に対して圧縮エンコーディングを実行してビットストリームを取得するように構成される。例えば、エンコーダ113は、空間エンコーダ1131及びコアエンコーダ1132を含むことができる。空間エンコーダ1131は、三次元オーディオ信号に基づいて候補仮想スピーカセットから仮想スピーカを選択し(又は検索と称する)、三次元オーディオ信号及び仮想スピーカに基づいて仮想スピーカ信号を生成するように構成される。仮想スピーカ信号は、再生信号と呼ばれることもある。コアエンコーダ1132は、ビットストリームを取得するために仮想スピーカ信号をエンコーディングするように構成される。
【0053】
通信インタフェース114は、エンコーダ113によって生成されたビットストリームを受信し、通信チャネル130を介して送信先デバイス120にビットストリームを送信するように構成され、それにより、送信先デバイス120は、ビットストリームに基づいて三次元オーディオ信号を再構成する。
【0054】
送信先デバイス120は、プレーヤ121と、ポストプロセッサ122と、デコーダ123と、通信インタフェース124とを含む。
【0055】
通信インタフェース124は、通信インタフェース114によって送信されたビットストリームを受信し、デコーダ123がビットストリームに基づいて三次元オーディオ信号を再構成するように、ビットストリームをデコーダ123に送信するべく構成される。
【0056】
通信インタフェース114及び通信インタフェース124は、送信元デバイス110と送信先デバイス120との間の直接通信リンク、例えば、直接有線もしくは無線接続、又は有線ネットワーク、無線ネットワーク、もしくはそれらの任意の組み合わせなどの任意のタイプのネットワーク、又は任意のタイプのプライベートネットワークもしくはパブリックネットワーク、又はそれらの任意の組み合わせを介して、当初のオーディオの関連データを送受信するように構成されてもよい。
【0057】
通信インタフェース114及び通信インタフェース124はそれぞれ、図1において、通信チャネル130に対応し、送信元デバイス110から送信先デバイス120に向けられた矢印によって示された単方向通信インタフェース、又は双方向通信インタフェースとして構成されてもよく、接続を確立するためにメッセージなどを送受信し、通信リンク及び/又はエンコーディングされたビットストリームの送信などのデータ送信に関連する任意の他の情報を決定及び交換するように構成されてもよい。
【0058】
デコーダ123は、ビットストリームをデコーディングし、三次元オーディオ信号を再構成するように構成される。例えば、デコーダ123は、コアデコーダ1231及び空間デコーダ1232を含む。コアデコーダ1231は、仮想スピーカ信号を取得するためにビットストリームをデコーディングするように構成される。空間デコーダ1232は、再構成三次元オーディオ信号を取得するために候補仮想スピーカセット及び仮想スピーカ信号に基づいて三次元オーディオ信号を再構成するように構成される。
【0059】
ポストプロセッサ122は、デコーダ123によって生成された再構成三次元オーディオ信号を受信し、再構成三次元オーディオ信号を後処理するように構成される。例えば、ポストプロセッサ122により行われる後処理は、オーディオレンダリング、音量正規化、ユーザインタラクション、オーディオフォーマット変換、ノイズ除去などを含む。
【0060】
プレーヤ121は、再構成三次元オーディオ信号に基づいて再構成された音を再生するように構成される。
【0061】
オーディオ取得デバイス111及びエンコーダ113は、単一の物理デバイスに組み込まれてもよく、又は異なる物理デバイスに配置されてもよいことに留意すべきである。これは限定されない。例えば、図1に示される送信元デバイス110は、オーディオ取得デバイス111と、エンコーダ113とを含む。これは、オーディオ取得デバイス111とエンコーダ113とが1つの物理デバイスに組み込まれることを示す。この場合、送信元デバイス110は、取得デバイスとも称され得る。例えば、送信元デバイス110は、無線アクセスネットワークのメディアゲートウェイ、コアネットワークのメディアゲートウェイ、トランスコーディングデバイス、メディアリソースサーバ、ARデバイス、VRデバイス、マイクロフォン、又は別のオーディオ取得デバイスである。送信元デバイス110がオーディオ取得デバイス111を含まない場合、それは、オーディオ取得デバイス111及びエンコーダ113が2つの異なる物理デバイスであることを示し、送信元デバイス110は、別のデバイス(例えば、オーディオ取得デバイス又はオーディオ記憶デバイス)から当初のオーディオを取得することができる。
【0062】
また、プレーヤ121及びデコーダ123は、1つの物理デバイスに組み込まれてもよく、又は異なる物理デバイスに配置されていてもよい。これは限定されない。例えば、図1に示される送信先デバイス120は、プレーヤ121と、デコーダ123とを含む。これは、プレーヤ121とデコーダ123とが1つの物理デバイスに組み込まれることを示す。この場合、送信先デバイス120は、再生デバイスとも呼ばれ、送信先デバイス120は、デコーディング機能及び再構成されたオーディオを再生する機能を有する。例えば、送信先デバイス120は、スピーカ、ヘッドセット、又は別のオーディオ再生デバイスである。送信先デバイス120がプレーヤ121を含まない場合、それは、プレーヤ121及びデコーダ123が2つの異なる物理デバイスであることを示す。ビットストリームをデコーディングし、三次元オーディオ信号を再構成した後、送信先デバイス120は、再構成三次元オーディオ信号を別の再生デバイス(例えば、スピーカ又はヘッドセット)に送信し、別の再生デバイスは、再構成三次元オーディオ信号を再生する。
【0063】
また、図1に示されるように、送信元デバイス110及び送信先デバイス120は、1つの物理デバイスに組み込まれてもよく、又は異なる物理デバイスに配置されてもよい。これは限定されない。
【0064】
例えば、図2の(a)に示されるように、送信元デバイス110が収録スタジオ内のマイクロフォンであってもよく、送信先デバイス120がスピーカであってもよい。送信元デバイス110は、各種楽器の当初のオーディオを取得し、当初のオーディオをコーデックデバイスに送信してもよい。コーデックデバイスは、再構成三次元オーディオ信号を取得するために当初のオーディオに対してコーデック処理を実行する。送信先デバイス120は、再構成三次元オーディオ信号を再生する。別の例として、送信元デバイス110は端末デバイス内のマイクロフォンであってもよく、送信先デバイス120はヘッドセットであってもよい。送信元デバイス110は、端末デバイスが合成した外部音やオーディオを取得してもよい。
【0065】
別の例では、図2の(b)に示されるように、送信元デバイス110及び送信先デバイス120は、仮想現実(virtual reality,VR)デバイス、拡張現実(Augmented Reality,AR)デバイス、複合現実(Mixed Reality,MR)デバイス、又はクロスリアリティ(Extended Reality,XR)デバイスに組み込まれる。この場合、VR/AR/MR/XRデバイスは、当初のオーディオを取得し、オーディオを再生し、コーディングを実行する機能を有する。送信元デバイス110は、ユーザが発した音と、ユーザが位置する仮想環境内の仮想オブジェクトが発した音とを取得してもよい。
【0066】
これらの実施形態では、送信元デバイス110又はその対応する機能、及び送信先デバイス120又はその対応する機能は、同じハードウェア及び/又はソフトウェア、別個のハードウェア及び/又はソフトウェア、又はそれらの任意の組み合わせを使用することによって実装され得る。この記述に基づいて、図1に示された送信元デバイス110及び/又は送信先デバイス120における異なるユニット又は機能の存在及び分割は、実際のデバイス及びアプリケーションに依存して変わり得る。これは当業者には明らかである。
【0067】
オーディオコーディングシステムの構造は、説明のための単なる例である。幾つかの想定し得る実装態様では、オーディオコーディングシステムは、別のデバイスを更に含むことができる。例えば、オーディオコーディングシステムは、デバイス側デバイス又はクラウド側デバイスを更に含んでもよい。送信元デバイス110は、当初のオーディオを取得した後、当初のオーディオを前処理して三次元オーディオ信号を取得し、三次元オーディオをデバイス側デバイス又はクラウド側デバイスに送信し、デバイス側デバイス又はクラウド側デバイスが三次元オーディオ信号をエンコーディング及びデコーディングする機能を実現する。
【0068】
この出願の実施形態で提供されるオーディオコーディング方法は、主にエンコーダ側に適用される。図3を参照して、エンコーダの構造を詳細に説明する。図3に示すように、エンコーダ300は、仮想スピーカ構成ユニット310、仮想スピーカセット生成ユニット320、エンコーディング解析ユニット330、仮想スピーカ選択ユニット340、仮想スピーカ信号生成ユニット350、及びエンコーディングユニット360を含む。
【0069】
仮想スピーカ構成ユニット310は、複数の仮想スピーカを取得するために、エンコーダ構成情報に基づいて仮想スピーカ構成パラメータを生成するように構成される。エンコーダ構成情報は、三次元オーディオ信号の次数(又は通常はHOA次数と呼ばれる)、エンコーディングビットレート、ユーザ定義情報などを含むが、これらに限定されない。仮想スピーカ構成パラメータは、仮想スピーカの量、仮想スピーカの次数、仮想スピーカの位置座標などを含むが、これらに限定されない。例えば、仮想スピーカの量は、2048、1669、1343、1024、530、512、256、128、又は64である。仮想スピーカの次数は、2次乃至6次のいずれかであってもよい。仮想スピーカの位置座標は、方位及び仰角を含む。
【0070】
仮想スピーカ構成ユニット310が出力した仮想スピーカ構成パラメータは、仮想スピーカセット生成ユニット320のための入力である。
【0071】
仮想スピーカセット生成ユニット320は、仮想スピーカ構成パラメータに基づいて、候補仮想スピーカセットを生成するように構成され、この場合、候補仮想スピーカセットは複数の仮想スピーカを含む。具体的には、仮想スピーカセット生成ユニット320は、候補仮想スピーカセットに含まれる複数の仮想スピーカを仮想スピーカの量に基づいて決定し、仮想スピーカの位置情報(例えば、座標)と仮想スピーカの次数とに基づいて、仮想スピーカにおける係数を決定する。例えば、仮想スピーカの座標を決定するための方法は、等距離規則に従って複数の仮想スピーカを生成し、又は聴覚知覚原理に従って複数の不均一に分布した仮想スピーカを生成し、次いで、仮想スピーカの量に基づいて仮想スピーカの座標を生成することを含むが、これらに限定されない。
【0072】
また、仮想スピーカにおける係数は、三次元オーディオ信号を生成する前述の原理に従って生成されてもよい。式(3)におけるθs及びφsは、仮想スピーカの位置座標に設定され、
【数9】
は、N次仮想スピーカにおける係数を示す。仮想スピーカの係数は、ambisonics係数と呼ばれることもある。
【0073】
エンコーディング解析ユニット330は、三次元オーディオ信号に関するエンコーディング解析行う、例えば、三次元オーディオ信号の音場分布特徴、具体的には、三次元オーディオ信号の音源の量、音源の指向性、音源の分散性、及び他の特徴を解析するように構成される。
【0074】
仮想スピーカセット生成ユニット320によって出力された候補仮想スピーカセットに含まれる複数の仮想スピーカにおける係数は、仮想スピーカ選択ユニット340のための入力である。
【0075】
エンコーディング解析ユニット330により出力された三次元オーディオ信号の音場分布特徴は、仮想スピーカ選択ユニット340のための入力である。
【0076】
仮想スピーカ選択ユニット340は、エンコーディング対象三次元オーディオ信号、三次元オーディオ信号の音場分布特徴、及び複数の仮想スピーカの係数に基づいて、三次元オーディオ信号に一致する代表仮想スピーカを決定するように構成される。
【0077】
或いは、この出願のこの実施形態におけるエンコーダ300は、エンコーディング解析ユニット330を含まなくてもよい。具体的には、エンコーダ300が入力信号を解析しなくてもよく、仮想スピーカ選択ユニット340がデフォルトの構成を使用することによって代表仮想スピーカを決定する。例えば、仮想スピーカ選択ユニット340は、三次元オーディオ信号と複数の仮想スピーカにおける係数のみに基づいて、三次元オーディオ信号に一致する代表仮想スピーカを決定する。
【0078】
エンコーダ300は、取得デバイスから取得された三次元オーディオ信号又は人工オーディオオブジェクトの合成によって取得された三次元オーディオ信号をエンコーダ300に対する入力として使用することができる。また、エンコーダ300に入力される三次元オーディオ信号は、時間領域の三次元オーディオ信号であってもよく、周波数領域の三次元オーディオ信号であってもよい。これは限定されない。
【0079】
仮想スピーカ選択ユニット340により出力される代表仮想スピーカの位置情報及び代表仮想スピーカにおける係数は、仮想スピーカ信号生成ユニット350及びエンコーディングユニット360のための入力である。
【0080】
仮想スピーカ信号生成ユニット350は、三次元オーディオ信号と代表仮想スピーカの属性情報とに基づいて仮想スピーカ信号を生成するように構成されている。代表仮想スピーカの属性情報は、代表仮想スピーカの位置情報、代表仮想スピーカに対する係数、及び三次元オーディオ信号に対する係数の少なくとも1つを含む。属性情報が代表仮想スピーカの位置情報である場合、代表仮想スピーカの位置情報に基づいて、代表仮想スピーカにおける係数が決定される。属性情報が三次元オーディオ信号における係数を含む場合、代表仮想スピーカにおける係数が、三次元オーディオ信号における係数に基づいて得られる。具体的には、仮想スピーカ信号生成ユニット350は、三次元オーディオ信号における係数と、代表仮想スピーカにおける係数とに基づいて、仮想スピーカ信号を算出する。
【0081】
例えば、行列Aが仮想スピーカにおける係数を表わし、行列XがHOA信号におけるHOA係数を表わすと仮定する。行列Xは、行列Aの逆行列である。理論上の最適解wは、最小二乗法を使用することによって得られ、ここで、wは仮想スピーカ信号を示す。仮想スピーカ信号は、式(5)を満たす。
w=A-1X 式(5)
【0082】
A-1は行列Aの逆行列を示し、行列Aのサイズは(M×C)であり、ここで、Cは代表仮想スピーカの量を示し、MはN次HOA信号の音チャネルの量を示す。aは、代表仮想スピーカにおける係数を示す。行列Xのサイズは(M×L)であり、ここで、LはHOA信号における係数の量を示す。xは、HOA信号における係数を示す。代表仮想スピーカにおける係数は、代表仮想スピーカにおけるHOA係数であってもよく、代表仮想スピーカにおけるambisonics係数であってもよい。例えば、
【数10】
及び
【数11】
である。
【0083】
仮想スピーカ信号生成ユニット350により出力される仮想スピーカ信号は、エンコーディングユニット360のための入力である。
【0084】
エンコーディングユニット360は、仮想スピーカ信号に対してコアエンコーディングを実行してビットストリームを取得するように構成される。コアエンコーディングは、変換、量子化、心理音響モデル、ノイズシェーピング、帯域幅拡張、ダウンミックス、算術エンコーディング、ビットストリーム生成などを含むが、これらに限定されない。
【0085】
なお、空間エンコーダ1131は、仮想スピーカ構成ユニット310、仮想スピーカセット生成ユニット320、エンコーディング解析ユニット330、仮想スピーカ選択ユニット340、及び仮想スピーカ信号生成ユニット350を含んでもよい。すなわち、仮想スピーカ構成ユニット310、仮想スピーカセット生成ユニット320、エンコーディング解析ユニット330、仮想スピーカ選択ユニット340、及び仮想スピーカ信号生成ユニット350は、空間エンコーダ1131の機能を実現する。コアエンコーダ1132は、エンコーディングユニット360を含んでもよい。すなわち、エンコーディングユニット360は、コアエンコーダ1132の機能を実現する。
【0086】
図3に示すエンコーダは、1つの仮想スピーカ信号を生成してもよく、複数の仮想スピーカ信号を生成してもよい。複数の仮想スピーカ信号は、複数回の実行によって図3に示されるエンコーダによって取得されてもよく、1回の実行によって図3に示されるエンコーダによって取得されてもよい。
【0087】
以下、添付図面を参照して、三次元オーディオ信号のコーディングプロセスについて説明する。図4は、この出願の一実施形態に係る三次元オーディオエンコーディング方法の概略フローチャートである。ここでは、図1の送信元デバイス110及び送信先デバイス120が三次元オーディオ信号コーディングプロセスを行う例を使用することによって説明が与えられる。図4に示されるように、方法は以下のステップを含む。
【0088】
S410:送信元デバイス110は、三次元オーディオ信号の現在のフレームを取得する。
【0089】
前述の実施形態で説明したように、送信元デバイス110がオーディオ取得デバイス111を伴う場合、送信元デバイス110は、オーディオ取得デバイス111を使用することによって当初のオーディオを取得することができる。任意選択的に、送信元デバイス110は、代替として、別のデバイスによって取得された当初のオーディオを受信してもよく、又は送信元デバイス110内のメモリもしくは別のメモリから当初のオーディオを取得してもよい。当初のオーディオは、リアルタイムで取得された現実世界の音、デバイスに格納されたオーディオ、及び複数のオーディオの合成によって取得されたオーディオのうちの少なくとも1つを含むことができる。この実施形態では、当初のオーディオを取得する方法及び当初のオーディオのタイプは限定されない。
【0090】
当初のオーディオを取得した後、送信元デバイス110は、当初のオーディオの再生中に聴取者に「没入型」効果音を提供するために、三次元オーディオ技術及び当初のオーディオに基づいて三次元オーディオ信号を生成する。三次元オーディオ信号を生成するための具体的な方法については、前述の実施形態におけるプリプロセッサ112の説明及び従来技術の説明を参照されたい。
【0091】
また、オーディオ信号は、連続的なアナログ信号である。オーディオ信号の処理中、オーディオ信号は、フレームシーケンスのデジタル信号を生成するために最初にサンプリングされてもよい。フレームは、複数のサンプリング点を含むことができる。或いは、フレームは、サンプリングによって得られたサンプリング点であってもよい。或いは、フレームは、フレームを分割したサブフレームを含んでもよい。或いは、フレームは、フレームを分割することによって得られるサブフレームであってもよい。例えば、フレームの長さがL個のサンプリングポイントであり、フレームがN個のサブフレームに分割される場合、各サブフレームはL/N個のサンプリングポイントに対応する。オーディオエンコーディング及びデコーディングは、通常、複数のサンプリングポイントを含むオーディオフレームシーケンスを処理することを意味する。
【0092】
オーディオフレームは、現在のフレーム又は前のフレームを含むことができる。この出願の実施形態で説明される現在のフレーム又は前のフレームは、フレーム又はサブフレームであってもよい。現在のフレームは、現時点でコーディング処理が行われるフレームである。前のフレームは、現在の瞬間の直前にコーディング処理が行われたフレームである。前のフレームは、現在の瞬間の1つ前の瞬間のフレーム又は現在の瞬間の複数の瞬間前のフレームであってもよい。この出願のこの実施形態では、三次元オーディオ信号の現在のフレームは、現在の瞬間にコーディング処理が実行された三次元オーディオ信号のフレームであり、前のフレームは、現在の瞬間の前の瞬間にコーディング処理が実行された三次元オーディオ信号のフレームである。三次元オーディオ信号の現在のフレームは、三次元オーディオ信号のエンコーディング対象の現在のフレームであってもよい。三次元オーディオ信号の現在のフレームは、略して現在のフレームと呼ばれる場合がある。三次元オーディオ信号の前のフレームは、略して前のフレームと呼ばれる場合がある。
【0093】
S420:送信元デバイス110は、候補仮想スピーカセットを決定する。
【0094】
場合によっては、送信元デバイス110のメモリに候補仮想スピーカセットが事前構成されている。送信元デバイス110は、メモリから候補仮想スピーカセットを読み出してもよい。候補仮想スピーカセットは、複数の仮想スピーカを含む。仮想スピーカは、空間音場における仮想スピーカを表わす。仮想スピーカは、送信先デバイス120が再構成三次元オーディオ信号を再生するように、三次元オーディオ信号に基づいて仮想スピーカ信号を計算するように構成される。
【0095】
別の場合には、仮想スピーカ構成パラメータが送信元デバイス110のメモリに事前構成される。送信元デバイス110は、仮想スピーカ構成パラメータに基づいて候補仮想スピーカセットを生成する。任意選択的に、送信元デバイス110は、送信元デバイス110のコンピューティングリソース(例えば、プロセッサ)能力及び現在のフレームの特徴(例えば、チャネル及びデータ量)に基づいて、リアルタイムで候補仮想スピーカセットを生成する。
【0096】
候補仮想スピーカセットの具体的な生成方法については、従来の技術と、上記の実施形態における仮想スピーカ構成ユニット310及び仮想スピーカセット生成ユニット320の説明とを参照されたい。
【0097】
S430:送信元デバイス110は、三次元オーディオ信号の現在のフレームにおける代表仮想スピーカを、現在のフレームに基づいて候補仮想スピーカセットから選択する。
【0098】
送信元デバイス110は、現在のフレームにおける係数と仮想スピーカにおける係数とに基づいて仮想スピーカを投票し、仮想スピーカの投票値に基づいて候補仮想スピーカセットの中から現在のフレームにおける代表仮想スピーカを選択する。候補仮想スピーカセットは、エンコーディング対象の三次元オーディオ信号のデータを圧縮するために、エンコーディング対象の現在のフレームの最適な一致する仮想スピーカとして、現在のフレームにおける限られた量の代表仮想スピーカについて検索される。
【0099】
図5A及び図5Bは、この出願の一実施形態に係る仮想スピーカ選択方法の概略フローチャートである。図5A及び図5Bに示す方法プロセスは、図4のS430に含まれる具体的な動作処理の説明である。ここでは、図1に示す送信元デバイス110のエンコーダ113が仮想スピーカ選択プロセスを行う例を使用することによって説明が与えられる。具体的には、仮想スピーカ選択ユニット340の機能が実現される。図5A及び図5Bに示されたように、方法は以下のステップを含む。
【0100】
S510:エンコーダ113は、現在のフレームにおける代表係数を取得する。
【0101】
代表係数は、周波数領域代表係数又は時間領域代表係数であってもよい。周波数領域代表係数は、周波数領域代表周波数又はスペクトル代表係数とも呼ばれ得る。時間領域代表係数は、時間領域代表サンプリング点とも呼ばれ得る。現在のフレームの代表係数を取得するための具体的な方法については、図6図7A、及び図7BのS610及びS620の以下の説明を参照されたい。
【0102】
S520:エンコーダ113は、現在のフレームにおける代表係数に基づいて候補仮想スピーカセット内の仮想スピーカにおける投票を行うことによって取得される投票値に基づいて、候補仮想スピーカセットから現在のフレームにおける代表仮想スピーカを選択する、すなわち、S440~S460を実行する。
【0103】
エンコーダ113は、現在のフレームにおける代表係数及び仮想スピーカにおける係数に基づいて、候補仮想スピーカセット内の仮想スピーカを投票し、現在のフレームにおける仮想スピーカの最終投票値に基づいて、候補仮想スピーカセットから現在のフレームの代表仮想スピーカを選択(検索)する。現在のフレームの代表仮想スピーカを選択するための具体的な方法については、図8及び図9のS630の以下の説明を参照されたい。
【0104】
エンコーダは、まず、候補仮想スピーカセットに含まれる仮想スピーカをトラバースし、候補仮想スピーカセットから選択された現在のフレームの代表仮想スピーカを使用することによって現在のフレームを圧縮することに留意すべきである。しかしながら、連続するフレームにおける仮想スピーカの選択結果が大きくばらつくと、再構成三次元オーディオ信号の音像が不安定になり、再構成三次元オーディオ信号の音質が劣化する。この出願のこの実施形態では、エンコーダ113は、前のフレームのものであり、前のフレームの代表仮想スピーカのものである最終投票値に基づいて、現在のフレームのものであり、候補仮想スピーカセットに含まれる仮想スピーカのものである初期投票値を更新して、現在のフレームの仮想スピーカの最終投票値を取得することができ、次いで、現在のフレームの仮想スピーカの最終投票値に基づいて候補仮想スピーカセットから現在のフレームの代表仮想スピーカを選択する。このようにして、前のフレームの代表仮想スピーカに基づいて、現在のフレームの代表仮想スピーカが選択される。したがって、現在のフレームに対して現在のフレームの代表仮想スピーカを選択するとき、エンコーダは、前のフレームの代表仮想スピーカと同じ仮想スピーカを選択する傾向がある。これにより、連続するフレーム間の方向連続性が改善され、連続するフレームに対して仮想スピーカを選択した結果が大きく異なるという問題が解決される。任意選択的に、この出願のこの実施形態は、S530を更に含み得る。
【0105】
S530:エンコーダ113は、現在のフレームにおける仮想スピーカの最終投票値を取得するために、前のフレームにおける代表仮想スピーカの、前のフレームにおける最終投票値に基づいて、現在のフレームにおける候補仮想スピーカセット内の仮想スピーカの初期投票値を調整する。
【0106】
現在のフレームの代表係数及び現在のフレームの仮想スピーカの初期投票値を取得するための仮想スピーカの係数に基づいて、候補仮想スピーカセット内の仮想スピーカに投票した後、エンコーダ113は、現在のフレームの仮想スピーカの最終投票値を取得するために、前のフレームの代表仮想スピーカの前のフレームの最終投票値に基づいて、現在のフレームの候補仮想スピーカセット内の仮想スピーカの初期投票値を調整する。前のフレームの代表仮想スピーカは、エンコーダ113が前のフレームをエンコーディングする際に用いられる仮想スピーカである。現在のフレームにおける候補仮想スピーカセット内の仮想スピーカの初期投票値を調整するための具体的な方法については、図9のS6302a及びS6302bの以下の説明を参照されたい。
【0107】
幾つかの実施形態では、現在のフレームが当初のオーディオの第1のフレームである場合、エンコーダ113はS510及びS520を実行する。現在のフレームが当初のオーディオの第2のフレームの後の任意のフレームである場合、エンコーダ113は、現在のフレームをエンコーディングするために前のフレームの代表仮想スピーカを再使用するかどうかを最初に決定することができ、又は、連続するフレーム間の方向連続性を確保し、エンコーディングの複雑さを低減するために、仮想スピーカを検索するかどうかを決定することができる。任意選択的に、この出願のこの実施形態は、S540を更に含み得る。
【0108】
S540:エンコーダ113は、現在のフレーム及び前のフレームの代表仮想スピーカに基づいて、仮想スピーカを検索するかどうかを決定する。
【0109】
エンコーダ113は、仮想スピーカを検索すると決定した場合、S510~S530を実行する。任意選択的に、エンコーダ113は、最初にS510を実行することができ、すなわち、エンコーダ113は、現在のフレームの代表係数を取得する。エンコーダ113は、現在のフレームの代表係数と前のフレームの代表仮想スピーカの係数とに基づいて、仮想スピーカを検索するか否かを決定する。エンコーダ113は、仮想スピーカを検索すると決定した場合、S520及びS530を実行する。
【0110】
エンコーダ113は、仮想スピーカを検索しないと決定した場合、S550を実行する。
【0111】
S550:エンコーダ113は、現在のフレームをエンコーディングするために前のフレームの代表仮想スピーカを再使用することを決定する。
【0112】
エンコーダ113は、前のフレーム及び現在のフレームの代表仮想スピーカを再使用して仮想スピーカ信号を生成し、仮想スピーカ信号をエンコーディングしてビットストリームを取得し、ビットストリームを送信先デバイス120に送信する、すなわち、S450及びS460を実行する。
【0113】
仮想スピーカを検索するかどうかを決定するための具体的な方法については、図10の以下のS650及びS660の説明を参照されたい。
【0114】
S440:送信元デバイス110は、三次元オーディオ信号の現在のフレーム及び現在のフレームの代表仮想スピーカに基づいて仮想スピーカ信号を生成する。
【0115】
送信元デバイス110は、現在のフレームの係数と現在のフレームの代表仮想スピーカの係数とに基づいて仮想スピーカ信号を生成する。仮想スピーカ信号を生成するための具体的な方法については、従来技術及び前述の実施形態における仮想スピーカ信号生成ユニット350の説明を参照されたい。
【0116】
S450:送信元デバイス110は、仮想スピーカ信号をエンコーディングしてビットストリームを得る。
【0117】
送信元デバイス110は、エンコーディング対象の三次元オーディオ信号のデータを圧縮するために、仮想スピーカ信号に対して変換又は量子化などのエンコーディング操作を行ってビットストリームを生成することができる。ビットストリームを生成するための具体的な方法については、従来の技術及び前述の実施形態におけるエンコーディングユニット360の説明を参照されたい。
【0118】
S460:送信元デバイス110は、ビットストリームを送信先デバイス120に送信する。
【0119】
送信元デバイス110は、当初のオーディオの全てをエンコーディングした後に、当初のオーディオのビットストリームを送信先デバイス120に送信することができる。或いは、送信元デバイス110は、三次元オーディオ信号をフレーム単位でリアルタイムにエンコーディングし、エンコーディング後のフレームのビットストリームを送信してもよい。ビットストリームを送信するための具体的な方法については、従来の技術並びに前述の実施形態における通信インタフェース114及び通信インタフェース124の説明を参照されたい。
【0120】
S470:送信先デバイス120は、送信元デバイス110によって送信されたビットストリームをデコーディングし、三次元オーディオ信号を再構成して再構成三次元オーディオ信号を取得する。
【0121】
送信先デバイス120は、ビットストリームを受信した後、ビットストリームをデコーディングして仮想スピーカ信号を取得し、候補仮想スピーカセット及び仮想スピーカ信号に基づいて三次元オーディオ信号を再構成して再構成三次元オーディオ信号を取得する。送信先デバイス120は、再構成三次元オーディオ信号を再生する。或いは、送信先デバイス120が再構成三次元オーディオ信号を他の再生デバイスに送信し、他の再生デバイスが再構成三次元オーディオ信号を再生することにより、聴取者があたかも映画館やコンサートホール、仮想シーンなどにいるような、より鮮やかな「没入型」効果音を実現することができる。
【0122】
現在、仮想スピーカを検索するプロセスでは、候補仮想スピーカセット内の各仮想スピーカと三次元オーディオ信号との関係を測定するために、三次元オーディオ信号の各係数及び各仮想スピーカの係数に対して相関演算を実行する必要がある。これにより、エンコーダの計算負荷が大きくなる。この出願の一実施形態は、三次元オーディオ信号の係数を選択するための方法を提供する。エンコーダは、三次元オーディオ信号の代表係数及び仮想スピーカごとの係数に対して相関演算を実行して代表仮想スピーカを選択し、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを低減する。
【0123】
以下に添付図面を参照して、三次元オーディオ信号のための係数を選択するための方法を詳細に説明する。図6は、この出願の一実施形態に係る三次元オーディオ信号エンコーディング方法の概略フローチャートである。ここでは、図1の送信元デバイス110のエンコーダ113が、三次元オーディオ信号における係数を選択するプロセスを行う例を使用することによって説明が与えられる。具体的には、仮想スピーカ選択ユニット340の機能が実現される。図6に示す方法プロセスは、図5AのS510に含まれる具体的な動作プロセスの説明である。図6に示されるように、方法は以下のステップを含む。
【0124】
S610:エンコーダ113は、三次元オーディオ信号の現在のフレームにおける第4の量の係数及び第4の量の係数における周波数領域特徴値を取得する。
【0125】
三次元オーディオ信号がHOA信号であると仮定すると、エンコーダ113は、HOA信号の現在のフレームをサンプリングして、L・(N+1)2個のサンプリング点を取得する、すなわち、第4の量の係数を取得することができる。NはHOA信号の次数を示す。例えば、HOA信号の現在のフレームの持続時間が20ミリ秒であると仮定すると、エンコーダ113は、48kHzの周波数に基づいて現在のフレームをサンプリングして、時間領域内の960・(N+1)2個のサンプリング点を取得する。サンプリング点は、時間領域係数と呼ばれることもある。
【0126】
三次元オーディオ信号の現在のフレームの周波数領域係数は、三次元オーディオ信号の現在のフレームの時間領域係数に基づく時間周波数変換によって取得することができる。時間領域から周波数領域への変換方法は限定されない。例えば、時間領域から周波数領域への変換方法は、修正離散コサイン変換(Modified Discrete Cosine Transform,MDCT)である。この場合、周波数領域における960・(N+1)2個の周波数領域係数を得ることができる。周波数領域係数は、スペクトル係数又は周波数とも呼ばれ得る。
【0127】
サンプリング点の周波数領域特徴値は、以下の式:p(j)=norm(x(j))を満たし、式中、j=1,2,...、及びLであり、Lはサンプリングモーメントの量を示し、xは、三次元オーディオ信号の現在のフレームの周波数領域係数、例えばMDCT係数を示し、normは、2-normを計算する演算であり、x(j)は、j番目のサンプリングモーメントにおける(N+1)2個のサンプリング点の周波数領域係数を示す。
【0128】
或いは、サンプリングポイントの周波数領域特徴値は、HOA信号内の任意のチャネル係数であってもよい。通常、0次に対応するチャネル係数が選択される。したがって、HOA信号の周波数領域特徴値は、以下の式:p(j)=x0(j)を満たし、ここで、x0(j)は、j番目の0次周波数における周波数領域係数を示す。
【0129】
或いは、サンプリングポイントの周波数領域特徴値は、HOA信号内の複数のチャネル係数の平均値であってもよい。したがって、HOA信号の周波数領域特徴値は、以下の式:p(j)=mean(x(j))を満たし、meanは平均化演算を示す。
【0130】
S620:エンコーダ113は、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数から第3の量の代表係数を選択する。
【0131】
エンコーダ113は、第4の量の係数によって示されるスペクトル範囲を少なくとも1つのサブバンドに分割する。エンコーダ113は、第4の量の係数によって示されるスペクトル範囲を1つのサブバンドに分割する。サブバンドのスペクトル範囲は、第4の量の係数によって示されるスペクトル範囲に等しいことが理解され得る。これは、エンコーダ113が第4の量の係数によって示されるスペクトル範囲を分割しないことと等価である。
【0132】
エンコーダ113が第4の量の係数によって示されるスペクトル範囲を少なくとも2つのサブバンドに分割する場合、ある場合には、エンコーダ113は、第4の量の係数によって示されるスペクトル範囲を少なくとも2つのサブバンドに等しく分割し、少なくとも2つのサブバンドはそれぞれ同じ量の係数を含む。
【0133】
別の場合には、エンコーダ113は、第4の量の係数によって示されるスペクトル範囲を不均一に分割し、分割によって取得された少なくとも2つのサブバンドは、異なる量の係数を含むか、又は分割によって取得された少なくとも2つのサブバンドは、それぞれ異なる量の係数量含む。例えば、エンコーダ113は、第4の量の係数によって示されるスペクトル範囲内の低周波数範囲、中間周波数範囲、及び高周波数範囲に基づいて、第4の量の係数によって示されるスペクトル範囲を不均等に分割することができ、その結果、低周波数範囲、中間周波数範囲、及び高周波数範囲の各スペクトル範囲は、少なくとも1つのサブバンドを含む。低周波数範囲内の少なくとも1つのサブバンドは、それぞれ同じ量の係数を含む。中間周波数範囲内の少なくとも1つのサブバンドは、それぞれ同じ量の係数を含む。高周波数範囲内の少なくとも1つのサブバンドは、それぞれ同じ量の係数を含む。低周波数範囲、中間周波数範囲、及び高周波数範囲の3つのスペクトル範囲のサブバンドは、異なる量の係数を含むことができる。
【0134】
例えば、エンコーダ113は、心理音響モデルに基づいて、第4の量の係数によって示されるスペクトル範囲をT個のサブバンドに分割する。例えば、T=44である。i番目のサブバンド内の開始係数シーケンス番号はsfb[i]と表わされ、ここで、i=1、2、...、及びTであり、iの値が1からTの範囲であることを示す。i番目のサブバンドに含まれる係数の量はb(i)と表わされる。低周波数範囲が10個のサブバンドを含むと仮定すると、b(1)=4は、1番目のサブバンドが4つの係数を含むことを示し、b(10)=4は、10番目のサブバンドが4つの係数を含むことを示す。中間周波数範囲は20個のサブバンドを含む。b(11)=8は、11番目のサブバンドが8つの係数を含むことを示し、b(30)=8は、30番目のサブバンドが8つの係数を含むことを示す。高周波数範囲は14個のサブバンドを含む。b(31)=16は、31番目のサブバンドが16個の係数を含むことを示し、b(44)=16は、44番目のサブバンドが16個の係数を含むことを示す。
【0135】
更に、エンコーダ113は、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから代表係数を選択して、第3の量の代表係数を取得する。第3の量は第4の量よりも小さく、第4の量の係数は第3の量の代表係数を含む。
【0136】
想定し得る実装態様では、図7A及び図7Bに示す方法プロセスは、図7A及び図7BのS620に含まれる特定の動作プロセスの説明である。図7A及び図7Bに示すように、本方法は以下のステップを含む。
【0137】
S6201:エンコーダ113は、第3の量の代表係数を取得するために、各サブバンド内の係数の周波数領域特徴値に基づいて、少なくとも1つのサブバンドのそれぞれからZ個の代表係数を選択し、ここで、Zは正の整数である。
【0138】
例えば、エンコーダ113は、各サブバンド内の係数の周波数領域特徴値の降順に従って、少なくとも1つのサブバンドのそれぞれからZ個の代表係数を選択し、各サブバンドから選択されたZ個の代表係数は、第3の量の代表係数を構成する。
【0139】
例えば、エンコーダ113は、i番目のサブバンド内のb(i)個の係数の周波数領域特徴値を降順にソートし、i番目のサブバンド内の周波数領域特徴値が最大の係数から開始して、i番目のサブバンド内のb(i)個の係数の周波数領域特徴値の降順に従って、K(i)個の代表係数を選択する。i番目のサブバンド内のK(i)個の代表係数に対応する係数シーケンス番号はai[j]と表わされ、j=0、...、及びK(i)-1であり、これはjの値が0からK(i)-1の範囲であることを示す。K(i)の値は、予め設定されていてもよいし、所定の規則に従って生成されてもよい。例えば、エンコーダ113は、i番目のサブバンドにおいて周波数領域特徴値が最大の係数から始めて、周波数領域特徴値が最大の係数の50%を代表係数として選択する。
【0140】
別の想定し得る実装態様では、少なくとも1つのサブバンドが少なくとも2つのサブバンドを含む場合、少なくとも2つのサブバンドのそれぞれについて、エンコーダ113は、少なくとも2つのサブバンドのそれぞれの重みを最初に決定し、各サブバンドの重みを使用することによって各サブバンドにおける係数の周波数領域特徴値を調整し、次いで、少なくとも2つのサブバンドから第3の量の代表係数を選択することができる。図7A及び図7Bに示すように、S620は、以下のステップを更に含むことができる。
【0141】
S6202:エンコーダ113は、各サブバンド内の第1の候補係数の周波数領域特徴値に基づいて、少なくとも2つのサブバンドのそれぞれの重みを決定する。
【0142】
第1の候補係数は、サブバンド内の幾つかの係数であってもよい。第1の候補係数の量は、この出願のこの実施形態では限定されず、1つの第1の候補係数又は少なくとも2つの第1の候補係数があり得る。幾つかの実施形態では、エンコーダ113は、S6201に記載された方法に従って第1の候補係数を選択することができる。エンコーダ113は、各サブバンド内の係数の周波数領域特徴値の降順に従って、少なくとも2つのサブバンドのそれぞれからZ個の代表係数を選択し、Z個の代表係数を各サブバンド内の第1の候補係数として使用することが理解され得る。例えば、少なくとも2つのサブバンドは1番目サブバンドを含み、1番目のサブバンドから選択されたZ個の代表係数は、1番目のサブバンド内の第1の候補係数として使用される。
【0143】
エンコーダ113は、サブバンド内の第1の候補係数の周波数領域特徴値及びサブバンド内の全ての係数の周波数領域特徴値に基づいて、サブバンドの重みを決定する。
【0144】
例えば、エンコーダ113は、i番目のサブバンド内の候補係数の周波数領域特徴値及びi番目のサブバンド内の全ての係数の周波数領域特徴値に基づいて、i番目のサブバンドの重みw(i)を計算する。i番目のサブバンドの重みw(i)は、式(6)を満たす。
【数12】
【0145】
pは現在のフレームの係数の周波数領域特徴値を示し、K(i)はi番目のサブバンド内の係数の量を示し、ai[j]はi番目のサブバンド内のj番目の係数の係数シーケンス番号を示し、sfb[i]はi番目のサブバンド内の開始係数シーケンス番号を示し、b(i)はi番目のサブバンドに含まれる係数の量を示し、j=0,...,K(i)-1であり、i=1,2,...,Tである。
【0146】
S6203:エンコーダ113は、各サブバンドの重みに基づいて各サブバンド内の第2の候補係数の周波数領域特徴値を調整して、各サブバンド内の第2の候補係数の調整された周波数領域特徴値を取得する。
【0147】
第2の候補係数は、サブバンド内の幾つかの係数であってもよい。第2の候補係数の量は、この出願のこの実施形態では限定されず、1つの第2の候補係数又は少なくとも2つの第2の候補係数があり得る。幾つかの実施形態では、エンコーダ113は、S6201に記載された方法に従って第2の候補係数を選択することができる。エンコーダ113は、各サブバンド内の係数の周波数領域特徴値の降順に従って、少なくとも2つのサブバンドのそれぞれからZ個の代表係数を選択し、Z個の代表係数を各サブバンド内の第2の候補係数として使用することが理解され得る。この場合、第1の候補係数の量と第2の候補係数の量とは同じであっても異なっていてもよい。サブバンド内の第1の候補係数及び第2の候補係数について、第1の候補係数及び第2の候補係数は、同じ係数又は異なる係数であり得る。エンコーダ113は、各サブバンド内の幾つかの係数の周波数領域特徴値を調整することができる。
【0148】
或いは、第2の候補係数は、サブバンド内の全ての係数であってもよい。この場合、第1の候補係数の量と第2の候補係数の量とは異なり得る。エンコーダ113は、各サブバンド内の全ての係数の周波数領域特徴値を調整することが理解され得る。
【0149】
例えば、エンコーダ113は、i番目のサブバンドの重みw(i)に基づいて、i番目のサブバンドにおけるK(i)個の係数の周波数領域特徴値を調整する。i番目のサブバンドにおけるK(i)個の係数の調整された周波数領域特徴値は、式(7)を満たす。
P’(ai[j])=P(ai[j])W(i) 式(7)
【0150】
j=1,2,...,K(i)である。P(ai[j])は、i番目のサブバンドにおけるj番目の係数に対応する周波数領域特徴値を示し、P’(ai[j])は、i番目のサブバンドにおけるj番目の係数に対応する調整された周波数領域特徴値を示し、K(i)は、i番目のサブバンドにおける係数の量を示し、ai[j]は、i番目のサブバンドにおけるj番目の係数の係数シーケンス番号を示し、w(i)は、i番目のサブバンドの重みを示し、j=0,...,K(i)-1,i=1,2,...,Tである。
【0151】
S6204:エンコーダ113は、少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値と少なくとも2つのサブバンド内の第2の候補係数以外の係数の周波数領域特徴値とに基づいて、第3の量の代表係数を決定する。
【0152】
エンコーダ113は、少なくとも2つのサブバンド内の全ての係数の周波数領域特徴値を降順にソートし、少なくとも2つのサブバンド内の最大の周波数領域特徴値を有する係数から開始して、少なくとも2つのサブバンド内の全ての係数の周波数領域特徴値の降順に従って、第3の量の代表係数を選択する。
【0153】
第2の候補係数がサブバンド内の幾つかの係数である場合、少なくとも2つのサブバンド内の全ての係数の周波数領域特徴値は、少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値及び第2の候補係数以外の係数の周波数領域特徴値を含むことが理解され得る。エンコーダ113は、少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値と、少なくとも2つのサブバンド内の第2の候補係数以外の係数の周波数領域特徴値とに基づいて、第3の量の代表係数を決定する。
【0154】
第2の候補係数がサブバンド内の全ての係数である場合、少なくとも2つのサブバンド内の全ての係数の周波数領域特徴値は、第2の候補係数の調整された周波数領域特徴値である。エンコーダ113は、少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値に基づいて、第3の量の代表係数を決定する。
【0155】
第3の量は、予め設定されてもよく、又は予め設定された規則に従って生成されてもよい。例えば、エンコーダ113は、少なくとも2つのサブバンド内の全ての係数から、最大の周波数領域特徴値を有する係数の20%を代表周波数として選択する。
【0156】
S630:エンコーダ113は、第3の量の代表係数に基づいて候補仮想スピーカセットから現在のフレームの第2の量の代表仮想スピーカを選択する。
【0157】
エンコーダ113は、三次元オーディオ信号の現在のフレームにおける第3の量の代表係数及び候補仮想スピーカセット内の各仮想スピーカにおける係数に対して相関演算を実行し、現在のフレームの第2の量の代表仮想スピーカを選択する。
【0158】
エンコーダは、現在のフレームにおける全ての係数から幾つかの係数を代表係数として選択し、現在のフレームにおける全ての係数を表わすために少量の代表係数を使用することによって候補仮想スピーカセットから代表仮想スピーカを選択する。これは、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを効果的に低減し、したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減する。例えば、N次HOA信号のフレームは、960・(N+1)2個の係数を有する。この実施形態では、仮想スピーカ検索に関与するために係数の最初の10%を選択することができる。この場合、全ての係数が仮想スピーカ検索に関与する場合のエンコーディング複雑度と比較して、エンコーディング複雑度は90%低減される。
【0159】
S640:エンコーダ113は、ビットストリームを取得するために、現在のフレームの第2の量の代表仮想スピーカに基づいて現在のフレームをエンコーディングする。
【0160】
エンコーダ113は、現在のフレーム及び現在のフレームの第2の量の代表仮想スピーカに基づいて仮想スピーカ信号を生成し、仮想スピーカ信号をエンコーディングしてビットストリームを取得する。ビットストリームを生成するための具体的な方法については、従来の技術並びに前述の実施形態におけるエンコーディングユニット360及びS450の説明を参照されたい。
【0161】
ビットストリームを生成した後、エンコーダ113はビットストリームを送信先デバイス120に送信し、その結果、送信先デバイス120は、送信元デバイス110によって送信されたビットストリームをデコーディングし、三次元オーディオ信号を再構成して再構成三次元オーディオ信号を取得する。
【0162】
現在のフレームにおける係数の周波数領域特徴値は三次元オーディオ信号の音場特性を表わすため、エンコーダは、現在のフレームにおける係数の周波数領域特徴値に基づいて、代表音場成分を有する現在のフレームにおける代表係数を選択する。代表係数を使用することによって候補仮想スピーカセットから選択される現在のフレームにおける代表仮想スピーカは、三次元オーディオ信号の音場特性を完全に表わすことができる。これは、現在のフレームにおける代表仮想スピーカを使用することによってエンコーディング対象の三次元オーディオ信号に対して圧縮コーディングを実行することにより、エンコーダによって仮想スピーカ信号を生成する精度を更に向上させるとともに、三次元オーディオ信号に対して圧縮コーディングを実行するための圧縮比を増大させ、ビットストリームを送信するためにエンコーダによって占有される帯域幅を低減するのに役立つ。
【0163】
この出願のこの実施形態では、エンコーダ113は、現在のフレームにおける第3の量の代表係数に基づいて候補仮想スピーカセット内の仮想スピーカに投票することによって得られた投票値に基づいて、現在のフレームにおける第2の量の代表仮想スピーカを選択してもよい。図8に示す方法プロセスは、図7BのS630に含まれる具体的な動作プロセスの説明である。図8に示すように、本方法は以下のステップを含む。
【0164】
S6301:エンコーダ113は、現在のフレームの第3の量の代表係数、候補仮想スピーカセット、及び投票回数に基づいて、第1の量の仮想スピーカ及び第1の量の投票値を決定する。
【0165】
投票回数は、仮想スピーカに対して行われる投票回数を制限するために使用される。投票回数は1以上の整数であり、投票回数は候補仮想スピーカセットに含まれる仮想スピーカの量以下であり、投票回数はエンコーダによって送信される仮想スピーカ信号の量以下である。例えば、候補仮想スピーカセットは第5の量の仮想スピーカを含み、第5の量の仮想スピーカは第1の量の仮想スピーカを含み、第1の量は第5の量以下であり、投票回数は1以上の整数であり、投票回数は第5の量以下である。仮想スピーカ信号はまた、現在のフレームの代表仮想スピーカのための、現在のフレームに対応する伝送チャネルである。通常、仮想スピーカ信号の量は仮想スピーカの量以下である。
【0166】
想定し得る実装態様では、投票回数は事前構成されてもよく、又はエンコーダの計算能力に基づいて決定されてもよい。例えば、投票回数は、エンコーダのエンコーディングレート及び/又はエンコーディング適用シナリオに基づいて決定される。
【0167】
別の想定し得る実装態様では、投票回数は、現在のフレーム内の指向性音源の量に基づいて決定される。例えば、音場内の指向性音源の量が2である場合、投票回数は2に設定される。
【0168】
この出願のこの実施形態は、第1の量の仮想スピーカの及び第1の量の投票値を決定する3つの想定し得る実装態様を提供する。以下では、3つの方式について個別に説明する。
【0169】
第1の想定し得る実装態様では、投票回数は1に等しい。サンプリングによって複数の代表係数を取得した後、エンコーダ113は、現在のフレームの各代表係数に基づいて候補仮想スピーカセット内の全ての仮想スピーカに投票することによって取得された投票値を取得し、同じ数の仮想スピーカの投票値を累積して、第1の量の仮想スピーカ及び第1の量の投票値を取得する。候補仮想スピーカセットは、第1の量の仮想スピーカを含むことが理解され得る。第1の量は、候補仮想スピーカセットに含まれる仮想スピーカの量に等しい。候補仮想スピーカセットが第5の量の仮想スピーカを含むと仮定すると、第1の量は第5の量に等しい。第1の量の投票値は、候補仮想スピーカセット内の全ての仮想スピーカの投票値を含む。エンコーダ113は、第1の量の投票値を現在のフレームの第1の量の仮想スピーカの最終投票値として使用し、S6302を実行してもよい。すなわち、エンコーダ113は、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択する。
【0170】
仮想スピーカは、投票値と1対1に対応する、すなわち、1つの仮想スピーカは、1つの投票値に対応する。例えば、第1の量の仮想スピーカは第1の仮想スピーカを含み、第1の量の投票値は第1の仮想スピーカの投票値を含み、第1の仮想スピーカは第1の仮想スピーカの投票値に対応する。第1の仮想スピーカの投票値は、第1の仮想スピーカの優先度を表わす。或いは、優先度は選好に置き換えられてもよい。具体的には、第1の仮想スピーカの投票値は、現在のフレームをエンコーディングするために第1の仮想スピーカを使用する選好を表わす。第1の仮想スピーカの投票値が大きいほど、第1の仮想スピーカの優先度又は選好が高いことを示し、候補仮想スピーカセット内の第1の仮想スピーカの投票値よりも投票値が低い仮想スピーカと比較して、エンコーダ113が現在のフレームをエンコーディングするために第1の仮想スピーカを選択する傾向が高いことを示すことが理解できる。
【0171】
第2の想定し得る実装態様では、第1の想定し得る実装態様との違いは、現在のフレームにおける各代表係数に基づいて候補仮想スピーカセット内の全ての仮想スピーカを投票することによって得られた投票値を取得した後、エンコーダ113が、各代表係数に基づいて候補仮想スピーカセット内の全ての仮想スピーカを投票することによって得られた投票値から幾つかの投票値を選択し、これらの投票値に対応する仮想スピーカのうちの同じ数の仮想スピーカの投票値を累積して、第1の量の仮想スピーカ及び第1の量の投票値を取得することにある。候補仮想スピーカセットは、第1の量の仮想スピーカを含むことが理解され得る。第1の量は、候補仮想スピーカセットに含まれる仮想スピーカの量以下である。第1の量の投票値は、候補仮想スピーカセットに含まれる幾つかの仮想スピーカの投票値を含むか、又は第1の量の投票値は、候補仮想スピーカセットに含まれる全ての仮想スピーカの投票値を含む。
【0172】
第3の想定し得る実装態様では、第2の想定し得る実装態様との違いは、投票回数が2以上の整数であることである。現在のフレームの各代表係数について、エンコーダ113は、候補仮想スピーカセット内の全ての仮想スピーカに対して少なくとも2回の投票を実行し、各回において最も大きい投票値を有する仮想スピーカを選択する。現在のフレームの各代表係数について全ての仮想スピーカに対して少なくとも2回の投票を実行した後、エンコーダ113は、同じ数の仮想スピーカの投票値を累積して、第1の量の仮想スピーカ及び第1の量の投票値を取得する。
【0173】
S6302:エンコーダ113は、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択する。
【0174】
エンコーダ113は、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択し、現在のフレームの第2の量の代表仮想スピーカの投票値は予め設定された閾値より大きい。
【0175】
或いは、エンコーダ113は、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択してもよい。例えば、エンコーダ113は、第1の量の投票値の降順に従って第1の量の投票値から第2の量の投票値を決定し、現在のフレームの第2の量の代表仮想スピーカとして、第1の量の仮想スピーカの中の第2の量の投票値に対応する仮想スピーカを使用する。
【0176】
任意選択的に、第1の量の仮想スピーカのうちの異なる数の仮想スピーカの投票値が同じであり、異なる数の仮想スピーカの投票値が予め設定された閾値より大きい場合、エンコーダ113は、異なる数の全ての仮想スピーカを現在のフレームの代表仮想スピーカとして使用することができる。
【0177】
第2の量は第1の量よりも少ないことに留意されたい。第1の量の仮想スピーカは、現在のフレームの第2の量の代表仮想スピーカを含む。第2の量は事前設定されてもよく、又は第2の量は現在のフレームの音場内の音源の量に基づいて決定されてもよい。例えば、第2の量は、現在のフレームの音場内の音源の量に直接等しくてもよい。又は、現在のフレームの音場内の音源の量が事前設定アルゴリズムに基づいて処理され、処理によって取得された量が第2の量として使用される。事前設定アルゴリズムは、要件に従って設計することができる。例えば、事前設定アルゴリズムは以下の通りであってもよい。第2の量=現在のフレームの音場内の音源の量+1;又は、第2の量=現在のフレームの音場内の音源の量-1である。
【0178】
エンコーダは、現在のフレームの全ての係数を表わすために少量の代表係数を使用することによって候補仮想スピーカセット内の各仮想スピーカを投票し、投票値に基づいて現在のフレームの代表仮想スピーカを選択する。更に、エンコーダは、現在のフレームにおける代表仮想スピーカを使用することによってエンコーディング対象の三次元オーディオ信号を圧縮及びエンコーディングする。これは、三次元オーディオ信号に対して圧縮コーディングを行うための圧縮率を効果的に増大させるだけでなく、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを低減し、したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減させる。
【0179】
連続するフレーム間の方向連続性を改善し、連続するフレームの仮想スピーカを選択した結果が大きく変化するという問題を解決するべく、エンコーダ113は、現在のフレームの仮想スピーカの最終投票値を取得するために、前のフレームの代表仮想スピーカの、前のフレームの最終投票値に基づいて、現在のフレームにおける候補仮想スピーカセット内の仮想スピーカの初期投票値を調整する。図9は、この出願の一実施形態に係る別の仮想スピーカ選択方法の概略フローチャートである。図9に示す方法プロセスは、図8のS6302に含まれる具体的な動作プロセスの説明である。
【0180】
S6302a:エンコーダ113は、現在のフレームの第1の量の初期投票値及び前のフレームの第6の量の最終投票値に基づいて、第7の量の仮想スピーカ及び現在のフレームに対応する現在のフレームの第7の量の最終投票値を取得する。
【0181】
エンコーダ113は、S6301に記載された方法に従って、三次元オーディオ信号の現在のフレーム、候補仮想スピーカセット、及び投票回数に基づいて第1の量の仮想スピーカ及び第1の量の投票値を決定し、次いで、第1の量の投票値を現在のフレームの第1の量の仮想スピーカの初期投票値として使用することができる。
【0182】
仮想スピーカは、現在のフレームの初期投票値と1対1に対応する、すなわち、1つの仮想スピーカは、現在のフレームの1つの初期投票値に対応する。例えば、第1の量の仮想スピーカは、第1の仮想スピーカを含み、現在のフレームの第1の量の初期投票値は、現在のフレームの第1の仮想スピーカの初期投票値を含み、第1の仮想スピーカは、現在のフレームの第1の仮想スピーカの初期投票値に対応する。現在のフレームにおける第1の仮想スピーカの初期投票値は、現在のフレームをエンコーディングするために第1の仮想スピーカを使用する優先度を表わす。
【0183】
前のフレームにおける代表仮想スピーカセットに含まれる第6の量の仮想スピーカは、前のフレームにおける第6の量の最終投票値と1対1に対応する。第6の量の仮想スピーカは、エンコーダ113が前のフレームをエンコーディングするときに使用される三次元オーディオ信号の前のフレームの代表仮想スピーカであってもよい。
【0184】
具体的には、エンコーダ113は、前のフレームの第6の量の最終投票値に基づいて現在のフレームの第1の量の初期投票値を更新する。具体的には、エンコーダ113は、第7の量の仮想スピーカ及び現在のフレームに対応する現在のフレームの第7の量の最終投票値を得るために、第1の量の仮想スピーカにおける仮想スピーカの現在のフレームの初期投票値と、第6の量の仮想スピーカにおける同じ数の仮想スピーカの前のフレームの最終投票値との合計を計算する。第7の量の仮想スピーカは第1の量の仮想スピーカを含み、第7の量の仮想スピーカは第6の量の仮想スピーカを含む。
【0185】
S6302b:エンコーダ113は、現在のフレームの第7の量の最終投票値に基づいて、第7の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択する。
【0186】
エンコーダ113は、現在のフレームの第7の量の最終投票値に基づいて、第7の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択し、現在のフレームの第2の量の代表仮想スピーカの現在のフレームの最終投票値は、予め設定された閾値よりも大きい。
【0187】
或いは、エンコーダ113は、現在のフレームの第7の量の最終投票値に基づいて、第7の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択してもよい。例えば、エンコーダ113は、現在のフレームの第7の量の最終投票値の降順に従って、現在のフレームの第7の量の最終投票値から現在のフレームの第2の量の最終投票値を決定し、現在のフレームの第2の量の代表仮想スピーカとして、第7の量の仮想スピーカ内にあって現在のフレームの第2の量の最終投票値に関連付けられた仮想スピーカを使用する。
【0188】
任意選択的に、第7の量の仮想スピーカのうちの異なる数の仮想スピーカの投票値が同じであり、異なる数の仮想スピーカの投票値が予め設定された閾値より大きい場合、エンコーダ113は、異なる数の全ての仮想スピーカを現在のフレームの代表仮想スピーカとして使用することができる。
【0189】
第2の量は第7の量よりも少ないことに留意されたい。第7の量の仮想スピーカは、現在のフレームの第2の量の代表仮想スピーカを含む。第2の量は事前設定されてもよく、又は第2の量は現在のフレームの音場内の音源の量に基づいて決定されてもよい。
【0190】
加えて、エンコーダ113が現在のフレームの次のフレームをエンコーディングする前に、エンコーダ113が次のフレームをエンコーディングするために前のフレームの代表仮想スピーカを再使用することを決定した場合、エンコーダ113は、前のフレームにおける第2の量の代表仮想スピーカとして現在のフレームにおける第2の量の代表仮想スピーカを使用し、前のフレームにおける第2の量の代表仮想スピーカを使用することによって現在のフレームの次のフレームをエンコーディングすることができる。
【0191】
仮想スピーカの検索中、実際の音源の位置が仮想スピーカの位置と必ずしも一致しないため、仮想スピーカと実際の音源とは必ずしも1対1の対応関係を形成できない。更に、実際の複雑なシナリオでは、仮想スピーカは、音場内の独立した音源を表わすことができない場合がある。この場合、異なるフレームに見られる仮想スピーカは頻繁に変化する可能性があり、この頻繁な変化は聴取者の聴覚体験に大きく影響し、デコーディング及び再構成三次元オーディオ信号に著しい不連続性及びノイズを引き起こす。この出願のこの実施形態で提供される仮想スピーカ選択方法では、前のフレームにおける代表仮想スピーカが継承される。具体的には、同じ数の仮想スピーカの場合、前のフレームにおける最終投票値を使用することによって現在のフレームにおける初期投票値が調整され、それにより、エンコーダは前のフレームにおける代表仮想スピーカを選択する傾向が強くなる。これにより、異なるフレームにおける仮想スピーカの頻繁な変化が緩和され、フレーム間の方向の連続性が向上し、再構成三次元オーディオ信号の音像の安定性が向上し、再構成三次元オーディオ信号の音質が確保される。更に、パラメータは、前のフレームの最終投票値が長期間継承されないようにするべく調整される。これにより、例えば音源が移動するなど、音場が変化するシナリオにアルゴリズムが適応できない場合が回避される。
【0192】
加えて、この出願の一実施形態は、仮想スピーカ選択方法を更に提供する。エンコーダは、現在のフレームをエンコーディングするために前のフレームの代表仮想スピーカセットを再使用するかどうかを最初に決定することができる。エンコーダが現在のフレームをエンコーディングするために前のフレームにおける代表仮想スピーカセットを再使用する場合、エンコーダは仮想スピーカ検索プロセスを再度実行する必要はない。これは、仮想スピーカを検索するためにエンコーダによって実行される計算の複雑さを効果的に低減し、したがって、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減する。エンコーダが前のフレームの代表仮想スピーカセットを再使用して現在のフレームをエンコーディングすることができない場合、エンコーダは、代表係数を再選択し、現在のフレームの代表係数を使用することによって候補仮想スピーカセット内の仮想スピーカごとに投票し、投票値に基づいて現在のフレームの代表仮想スピーカを選択して、三次元オーディオ信号に対して圧縮コーディングを実行する計算の複雑さを低減し、エンコーダの計算負荷を低減する。図10は、この出願の一実施形態に係る仮想スピーカ選択方法の概略フローチャートである。図10に示すように、エンコーダ113が三次元オーディオ信号の現在のフレームの第4の量の係数及び第4の量の係数の周波数領域特徴値を取得する前に、すなわちS610の前に、本方法は以下のステップを含む。
【0193】
S650:エンコーダ113は、三次元オーディオ信号の現在のフレームと前のフレームにおける代表仮想スピーカセットとの間の第1の相関を取得する。
【0194】
前のフレームにおける代表仮想スピーカセットは、第6の量の仮想スピーカを含む。第6の量の仮想スピーカに含まれる仮想スピーカは、前のフレームをエンコーディングするために使用される三次元オーディオ信号の前のフレームにおける代表仮想スピーカである。第1の相関は、現在のフレームがエンコーディングされる際に前のフレームにおける代表仮想スピーカセットを再使用する優先度を表わす。或いは、優先度は選好に置き換えられてもよい。具体的には、第1の相関は、現在のフレームがエンコーディングされるときに前のフレームにおける代表仮想スピーカセットを再使用すべきかどうかを決定するために使用される。前のフレームにおける代表仮想スピーカセットとのより高い第1の相関は、前のフレームにおける代表仮想スピーカセットに関するより高い選好を示し、エンコーダ113が現在のフレームをエンコーディングするために前のフレームに対して代表仮想スピーカをより選択する傾向があることを示すことが理解され得る。
【0195】
S660:エンコーダ113は、第1の相関が再使用条件を満たすかどうか決定する。
【0196】
第1の相関が再使用条件を満たさない場合、それは、エンコーダ113が仮想スピーカを検索し、現在のフレームの代表仮想スピーカに基づいて現在のフレームをエンコーディングする傾向がより高いことを示し、S610が実行され、すなわち、エンコーダ113は、三次元オーディオ信号の現在のフレームの第4の量の係数及び第4の量の係数の周波数領域特徴値を取得する。
【0197】
任意選択的に、第4の量の係数の周波数領域特徴値に基づいて第4の量の係数から第3の量の代表係数を選択した後、エンコーダ113は、代替として、第1の相関を取得するための現在のフレームの係数として、第3の量の代表係数のうちの最大の代表係数を使用することができる。この場合、エンコーダ113は、現在のフレームの第3の量の代表係数のうちの最大の代表係数と、前のフレームの代表仮想スピーカセットとの間の第1の相関を取得する。第1の相関が再使用条件を満たさない場合、S630が実行される。すなわち、エンコーダ113は、第3の量の代表係数に基づいて候補仮想スピーカセットから現在のフレームの第2の量の代表仮想スピーカを選択する。
【0198】
第1の相関が再使用条件を満たす場合、それは、エンコーダ113が現在のフレームをエンコーディングするために前のフレームの代表仮想スピーカをより選択する傾向があることを示し、エンコーダ113はS670及びS680を実行する。
【0199】
S670:エンコーダ113は、現在のフレーム及び前のフレームにおける代表仮想スピーカセットに基づいて仮想スピーカ信号を生成する。
【0200】
S680:エンコーダ113は、仮想スピーカ信号をエンコーディングしてビットストリームを取得する。
【0201】
この出願のこの実施形態で提供される仮想スピーカ選択方法では、現在のフレームの代表係数と前のフレームの代表仮想スピーカとの間の相関に基づいて、仮想スピーカを検索するかどうかが決定される。これは、相関に基づいて現在のフレームの代表仮想スピーカを選択する精度を確保しながら、エンコーダ側の複雑さを効果的に低減する。
【0202】
前述の実施形態における機能を実現するために、エンコーダは、機能を実行するための対応するハードウェア構造及び/又はソフトウェアモジュールを含むことが理解され得る。当業者は、この出願が、この出願に開示された実施形態に記載された例におけるユニット及び方法ステップと組み合わせて、ハードウェア又はハードウェアとコンピュータソフトウェアとの組み合わせによって実施され得ることを容易に認識すべきである。機能がハードウェアによって実行されるか、コンピュータソフトウェアによって駆動されるハードウェアによって実行されるかは、特定の適用シナリオ及び技術的解決策の設計制約に依存する。
【0203】
以上、図1図10を参照して、実施形態で提供される三次元オーディオ信号コーディング方法について詳細に説明した。実施形態で提供される三次元オーディオ信号エンコーディング装置及びエンコーダについて、図11及び図12を参照して以下に説明する。
【0204】
図11は、一実施形態に係る想定し得る三次元オーディオ信号エンコーディング装置の構造の概略図である。三次元オーディオ信号エンコーディング装置は、方法実施形態における三次元オーディオ信号をエンコーディングする機能を実現するように構成されてもよく、したがって、方法実施形態の有益な効果を達成することもできる。この実施形態では、三次元オーディオ信号エンコーディング装置は、図1に示すエンコーダ113、図3に示すエンコーダ300、又は端末デバイスもしくはサーバに適用されるモジュール(例えば、チップ)であってもよい。
【0205】
図11に示すように、三次元オーディオ信号エンコーディング装置1100は、通信モジュール1110と、係数選択モジュール1120と、仮想スピーカ選択モジュール1130と、エンコーディングモジュール1140と、記憶モジュール1150とを含む。三次元オーディオ信号エンコーディング装置1100は、図6図10に示す方法実施形態におけるエンコーダ113の機能を実現するように構成される。
【0206】
通信モジュール1110は、三次元オーディオ信号の現在のフレームを取得するように構成される。任意選択的に、通信モジュール1110は、代替として、別のデバイスによって取得された三次元オーディオ信号の現在のフレームを受信するか、又は記憶モジュール1150から三次元オーディオ信号の現在のフレームを取得してもよい。三次元オーディオ信号の現在のフレームはHOA信号である。係数の周波数領域特徴値は、2次元ベクトルに基づいて決定される。2次元ベクトルは、HOA信号のHOA係数を含む。
【0207】
係数選択モジュール1120は、三次元オーディオ信号の現在のフレームの第4の量の係数及び第4の量の係数の周波数領域特徴値を取得するように構成される。
【0208】
係数選択モジュール1120は、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数から第3の量の代表係数を選択するように更に構成され、第3の量は第4の量よりも少ない。
【0209】
三次元オーディオ信号エンコーディング装置1100が図6図10に示された方法実施形態におけるエンコーダ113の機能を実現するように構成されるとき、係数選択モジュール1120は、S610及びS620において関連する機能を実現するように構成される。
【0210】
具体的には、係数選択モジュール1120は、第4の量の係数の周波数領域特徴値に基づいて、第4の量の係数によって示されるスペクトル範囲に含まれる少なくとも1つのサブバンドから代表係数を選択して、第3の量の代表係数を取得するように特に構成される。少なくとも2つのサブバンドは異なる量の係数を含むか、又は少なくとも2つのサブバンドはそれぞれ同じ量の係数を含む。
【0211】
例えば、係数選択モジュール1120は、第3の量の代表係数を取得するために、各サブバンド内の係数の周波数領域特徴値に基づいて各サブバンドからZ個の代表係数を選択するように特に構成され、Zは正の整数である。
【0212】
別の例では、少なくとも1つのサブバンドが少なくとも2つのサブバンドを含む場合、係数選択モジュール1120は、各サブバンド内の第1の候補係数の周波数領域特徴値に基づいて少なくとも2つのサブバンドのそれぞれの重みを決定し、各サブバンドの重みに基づいて各サブバンド内の第2の候補係数の周波数領域特徴値を調整して、各サブバンド内の第2の候補係数の調整された周波数領域特徴値を取得し、第1の候補係数及び第2の候補係数が、サブバンド内の幾つかの係数であり、少なくとも2つのサブバンド内の第2の候補係数の調整された周波数領域特徴値と、少なくとも2つのサブバンド内の第2の候補係数以外の係数の周波数領域特徴値とに基づいて、第3の量の代表係数を決定するように特に構成される。
【0213】
仮想スピーカ選択モジュール1130は、第3の量の代表係数に基づいて候補仮想スピーカセットから現在のフレームの第2の量の代表仮想スピーカを選択するように構成される。
【0214】
三次元オーディオ信号エンコーディング装置1100が、図6から図10に示された方法実施形態におけるエンコーダ113の機能を実現するように構成されるとき、仮想スピーカ選択モジュール1130は、S630において関連する機能を実現するように構成される。
【0215】
例えば、仮想スピーカ選択モジュール1130は、現在のフレームの第3の量の代表係数、候補仮想スピーカセット、及び投票回数に基づいて第1の量の仮想スピーカ及び第1の量の投票値を決定し、仮想スピーカが投票値と1対1に対応し、第1の量の仮想スピーカが第1の仮想スピーカを含み、第1の量の投票値が第1の仮想スピーカの投票値を含み、第1の仮想スピーカが第1の仮想スピーカの投票値に対応し、第1の仮想スピーカの投票値が第1の仮想スピーカを使用して現在のフレームをエンコーディングする優先度を表わし、候補仮想スピーカセットが第5の量の仮想スピーカを含み、第5の量の仮想スピーカが第1の量の仮想スピーカを含み、投票回数が1以上の整数であり、投票回数が第5の量以下であり、第1の量の投票値に基づいて第1の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択し、第2の量が第1の量よりも少ない、ように特に構成される。
【0216】
任意選択的に、仮想スピーカ選択モジュール1130は、前のフレームの第1の量の投票値及び第6の量の最終投票値に基づいて、第7の量の仮想スピーカ及び現在のフレームに対応する現在のフレームの第7の量の最終投票値を取得し、第7の量の仮想スピーカが第1の量の仮想スピーカを含み、第7の量の仮想スピーカが第6の量の仮想スピーカを含み、第6の量の仮想スピーカに含まれる仮想スピーカが、前のフレームをエンコーディングするために使用される三次元オーディオ信号の前のフレームの代表仮想スピーカであり、現在のフレームの第7の量の最終投票値に基づいて第7の量の仮想スピーカから現在のフレームの第2の量の代表仮想スピーカを選択し、第2の量が第7の量よりも少ない、ように更に構成される。
【0217】
任意選択的に、仮想スピーカ選択モジュール1130は、現在のフレームと前のフレームの代表仮想スピーカセットとの間の第1の相関を取得し、前のフレームの代表仮想スピーカセットが第6の量の仮想スピーカを含み、第6の量の仮想スピーカに含まれる仮想スピーカが、前のフレームをエンコーディングするために使用される三次元オーディオ信号の前のフレームの代表仮想スピーカであり、第1の相関が、現在のフレームがエンコーディングされるときに前のフレームの代表仮想スピーカセットを再使用するかどうかを決定するために使用され、第1の相関が再使用条件を満たさない場合に、三次元オーディオ信号の現在のフレームの第4の量の係数及び第4の量の係数の周波数領域特徴値を取得するように更に構成される。
【0218】
エンコーディングモジュール1140は、ビットストリームを取得するために、現在のフレームの第2の量の代表仮想スピーカに基づいて現在のフレームをエンコーディングするように構成される。
【0219】
三次元オーディオ信号エンコーディング装置1100が図6図10に示された方法実施形態におけるエンコーダ113の機能を実現するように構成されるとき、エンコーディングモジュール1140は、S640において関連する機能を実現するように構成される。
【0220】
例えば、エンコーディングモジュール1140は、現在のフレーム及び現在のフレームの第2の量の代表仮想スピーカに基づいて仮想スピーカ信号を生成し、仮想スピーカ信号をエンコーディングしてビットストリームを得るように特に構成されている。
【0221】
記憶モジュール1150は、三次元オーディオ信号に関連する係数、候補仮想スピーカセット、前のフレームの代表仮想スピーカセット、選択された係数及び仮想スピーカなどを記憶するように構成され、その結果、エンコーディングモジュール1140は、現在のフレームをエンコーディングしてビットストリームを取得し、ビットストリームをデコーダに送信する。
【0222】
この出願のこの実施形態における三次元オーディオ信号エンコーディング装置1100は、特定用途向け集積回路(application-specific integrated circuit,ASIC)又はプログラマブルロジックデバイス(programmable logic device,PLD)を使用することによって実装され得ることを理解されたい。PLDは、複合プログラマブルロジックデバイス(complex programmable logic device,CPLD)、フィールドプログラマブルゲートアレイ(field-programmable gate array,FPGA)、ジェネリックアレイロジック(generic array logic,GAL)、又はそれらの任意の組み合わせであり得る。図6図10に示す三次元オーディオ信号エンコーディング方法がソフトウェアによって実施される場合、三次元オーディオ信号エンコーディング装置1100及びそのモジュールは、代替的にソフトウェアモジュールであってもよい。
【0223】
通信モジュール1110、係数選択モジュール1120、仮想スピーカ選択モジュール1130、エンコーディングモジュール1140、及び記憶モジュール1150のより詳細な説明については、図6図10に示す方法実施形態の関連する説明を直接参照されたい。ここでは詳細を繰り返さない。
【0224】
図12は、一実施形態に係るエンコーダ1200の構造の概略図である。図12に示すように、エンコーダ1200は、プロセッサ1210と、バス1220と、メモリ1230と、通信インタフェース1240とを備える。
【0225】
この実施形態では、プロセッサ1210は、中央処理ユニット(central processing unit,CPU)であってもよく、又はプロセッサ1210は、別の汎用プロセッサ、デジタル信号プロセッサ(digital signal processing,DSP)、ASIC、FPGAもしくは別のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理デバイス、個別ハードウェア構成要素などであってもよいことを理解すべきである。汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサなどであってもよい。
【0226】
或いは、プロセッサは、グラフィックス処理ユニット(graphics processing unit,GPU)、ニューラルネットワーク処理ユニット(neural network processing unit,NPU)、マイクロプロセッサ、又はこの出願の解決策のためのプログラム実行を制御するための1つ以上の集積回路であってもよい。
【0227】
通信インタフェース1240は、エンコーダ1200と外部デバイス又は構成要素との間の通信を実施するように構成される。この実施形態では、通信インタフェース1240は、三次元オーディオ信号を受信するように構成される。
【0228】
バス1220は、前述の構成要素(例えば、プロセッサ1210及びメモリ1230)間で情報を送信するためのチャネルを含み得る。データバスに加えて、バス1220は、電力バス、制御バス、ステータス信号バスなどを更に含んでもよい。しかしながら、説明を明確にするために、図では様々なバスがバス1220として示されている。
【0229】
一例では、エンコーダ1200は、複数のプロセッサを含むことができる。プロセッサは、マルチコア(multi-CPU)プロセッサであってもよい。本明細書のプロセッサは、データ(例えば、コンピュータプログラム命令)を処理するための1つ以上のデバイス、回路、及び/又はコンピューティングユニットであってもよい。プロセッサ1210は、メモリ1230に記憶されている三次元オーディオ信号に関する係数、候補仮想スピーカセット、前のフレームの代表仮想スピーカセット、選択された係数及び仮想スピーカなどを呼び出すことができる。
【0230】
なお、図12では、エンコーダ1200が1つのプロセッサ1210及び1つのメモリ1230を有する例のみを用いている。ここで、プロセッサ1210及びメモリ1230は、コンポーネント又はデバイスの種類を示す。特定の実施形態では、各タイプの構成要素又はデバイスの量は、サービス要件に従って決定されてもよい。
【0231】
メモリ1230は、方法実施形態における三次元オーディオ信号に関連する係数、候補仮想スピーカセット、前のフレームの代表仮想スピーカセット、並びに選択された係数及び仮想スピーカなどの情報を格納するように構成される記憶媒体、例えば機械式ハードディスク又はソリッドステートドライブなどの磁気ディスクに対応することができる。
【0232】
エンコーダ1200は、汎用のデバイスであってもよいし、専用のデバイスであってもよい。例えば、エンコーダ1200は、X86ベース又はARMベースのサーバであってもよく、或いはポリシー制御及び課金(policy control and charging,PCC)サーバなどの別の専用サーバであってもよい。エンコーダ1200のタイプは、この出願のこの実施形態では限定されない。
【0233】
本実施形態によるエンコーダ1200は、実施形態における三次元オーディオ信号エンコーディング装置1100に対応することができ、図6から図10の方法のいずれかを実行するための対応するエンティティに対応することができることを理解すべきである。加えて、三次元オーディオ信号エンコーディング装置1100内のモジュールの上記及び他の動作及び/又は機能は、それぞれ、図6から図10の方法の対応するプロセスを実施することを意図している。簡潔にするため、ここでは詳細を再度説明しない。
【0234】
実施形態における方法ステップは、ハードウェアによって実施されてもよく、又はソフトウェア命令を実行するプロセッサによって実施されてもよい。ソフトウェア命令は、対応するソフトウェアモジュールを含み得る。ソフトウェアモジュールは、ランダムアクセスメモリ(random access memory,RAM)、フラッシュメモリ、リードオンリーメモリ(read-only memory,ROM)、プログラマブルリードオンリーメモリ(programmable ROM,PROM)、消去可能プログラマブルリードオンリーメモリ(erasable PROM,EPROM)、電気的消去可能プログラマブルリードオンリーメモリ(electrically EPROM,EEPROM)、レジスタ、ハードディスク、リムーバブルハードディスク、CD-ROM、又は当技術分野で周知の任意の他の形態の記憶媒体に記憶されてもよい。例えば、記憶媒体はプロセッサに結合され、その結果、プロセッサは、記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができる。勿論、記憶媒体は代替として、プロセッサの構成要素であってもよい。プロセッサ及び記憶媒体はASICに配置されてもよい。加えて、ASICは、ネットワークデバイス又は端末デバイスに配置されてもよい。勿論、プロセッサ及び記憶媒体は、ネットワークデバイス又は端末デバイス内に個別の構成要素として存在してもよい。
【0235】
前述の実施形態の全部又は一部は、ソフトウェア、ハードウェア、ファームウェア、又はこれらの任意の組み合わせによって実装されてもよい。実施形態を実施するためにソフトウェアが使用される場合、実施形態の全部又は一部がコンピュータプログラムプロダクトの形態で実装されてもよい。コンピュータプログラムプロダクトは、1つ以上のコンピュータプログラム又は命令を含む。コンピュータプログラム又は命令がコンピュータにロードされ実行されると、この出願の実施形態における手続き又は機能の全部又は一部が実行される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、ネットワークデバイス、ユーザ機器、又は他のプログラマブル装置であってもよい。コンピュータプログラム又は命令は、コンピュータ可読記憶媒体に記憶されてもよく、又はあるコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送されてもよい。例えば、コンピュータプログラム又は命令は、あるウェブサイト、コンピュータ、サーバ、又はデータセンタから別のウェブサイト、コンピュータ、サーバ、又はデータセンタに有線又はワイヤレス方法で送信されてもよい。コンピュータ可読記憶媒体は、コンピュータがアクセス可能な任意の利用可能な媒体、又は、1つ以上の利用可能な媒体を組み込むサーバ又はデータセンタなどのデータ記憶デバイスであってもよい。使用可能な媒体は、磁気媒体、例えば、フロッピーディスク、ハードディスク、又は磁気テープであり得、光媒体、例えば、デジタルビデオディスク(digital video disc,DVD)であり得、又は半導体媒体、例えば、ソリッドステートドライブ(solid state drive,SSD)であり得る。
【0236】
前述の説明は、この出願の特定の実施にすぎず、この出願の保護範囲を限定することが意図されるものではない。この出願で開示された技術範囲内で当業者により容易に想到される均等な修正例又は置換例は、本願の保護範囲内に含まれるものとする。したがって、この出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【符号の説明】
【0237】
100 オーディオコーディングシステム
110 送信元デバイス
111 オーディオ取得デバイス
112 プリプロセッサ
113 エンコーダ
114 通信インタフェース
120 送信先デバイス
121 プレーヤ
122 ポストプロセッサ
123 デコーダ
124 通信インタフェース
130 通信チャネル
300 エンコーダ
310 仮想スピーカ構成ユニット
320 仮想スピーカセット生成ユニット
330 エンコーディング解析ユニット
340 仮想スピーカ選択ユニット
350 仮想スピーカ信号生成ユニット
360 エンコーディングユニット
1100 三次元オーディオ信号エンコーディング装置
1110 通信モジュール
1120 係数選択モジュール
1130 仮想スピーカ選択モジュール
1131 空間エンコーダ
1132 コアエンコーダ
1140 エンコーディングモジュール
1150 記憶モジュール
1200 エンコーダ
1210 プロセッサ
1220 バス
1230 メモリ
1231 コアデコーダ
1232 空間デコーダ
1240 通信インタフェース
図1
図2
図3
図4
図5A
図5B
図6
図7A
図7B
図8
図9
図10
図11
図12