IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特表2022-529731出力ダウンミックス表現を生成するための装置及びコンピュータプログラム
<>
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図1
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図2
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図3
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図4
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図5
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図6
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図7
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図8a
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図8b
  • 特表-出力ダウンミックス表現を生成するための装置及びコンピュータプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-06-23
(54)【発明の名称】出力ダウンミックス表現を生成するための装置及びコンピュータプログラム
(51)【国際特許分類】
   G10K 15/02 20060101AFI20220616BHJP
   G10L 19/008 20130101ALI20220616BHJP
   H04R 3/00 20060101ALI20220616BHJP
   G10L 19/00 20130101ALI20220616BHJP
【FI】
G10K15/02
G10L19/008 100
H04R3/00 310
G10L19/00 400Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021562950
(86)(22)【出願日】2020-04-22
(85)【翻訳文提出日】2021-12-07
(86)【国際出願番号】 EP2020061233
(87)【国際公開番号】W WO2020216797
(87)【国際公開日】2020-10-29
(31)【優先権主張番号】19170621.7
(32)【優先日】2019-04-23
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】PCT/EP2019/070376
(32)【優先日】2019-07-29
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
2.BLUETOOTH
(71)【出願人】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ロイテルフーバー フランツ
(72)【発明者】
【氏名】フォトポウロウ エレニ
(72)【発明者】
【氏名】ムルトゥルス マルクス
【テーマコード(参考)】
5D208
5D220
【Fターム(参考)】
5D208BF02
5D220AA50
(57)【要約】
入力ダウンミックス表現から出力ダウンミックス表現を生成する装置であって、前記入力ダウンミックス表現の少なくとも一部分が第1のダウンミックススキームに従っており、前記装置は、少なくとも1つのアップミックス部分を得るために、前記入力ダウンミックス表現の少なくとも前記一部分を前記第1のダウンミックススキームに対応するアップミックススキームを使用してアップミックスするアップミキサ(200)と、前記第1のダウンミックススキームとは異なる第2のダウンミックススキームに従って、前記少なくとも1つのアップミックス部分をダウンミックスするダウンミキサ(300)と、を備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
入力ダウンミックス表現から出力ダウンミックス表現を生成するための装置であって、前記入力ダウンミックス表現の少なくとも一部分は第1のダウンミックススキームに従っており、前記装置は、
前記第1のダウンミックススキームに対応するアップミックススキームを使用して前記入力ダウンミックス表現の少なくとも前記一部分をアップミックスして、少なくとも1つのアップミックス済み部分を得るためのアップミキサ(200)と、
前記第1のダウンミックススキームとは異なる第2のダウンミックススキームに従って、前記少なくとも1つのアップミックス済み部分をダウンミックスして、前記入力ダウンミックス表現の少なくとも前記一部分のために前記出力ダウンミックス表現を表す第1のダウンミックス済み部分を得るためのダウンミキサ(300)と、
を備える、装置。
【請求項2】
前記入力ダウンミックス表現の前記一部分のみが前記第1のダウンミックススキームに従っており、前記入力ダウンミックス表現の第2の部分は前記第2のダウンミックススキームに従っており、
前記ダウンミキサ(300)は、前記第2のダウンミックススキームに従って前記少なくとも1つのアップミックス済み部分をダウンミックスして前記第1のダウンミックス済み部分を得るように構成され、
前記第1のダウンミックス済み部分と前記入力ダウンミックス表現の前記第2の部分又は前記入力ダウンミックス表現の前記第2の部分から導出されたダウンミックス済み部分とを結合して、前記入力ダウンミックス表現の前記一部分のみのための第1の出力表現及び前記入力ダウンミックス表現の前記第2の部分のための第2の出力表現を含む前記出力ダウンミックス表現を得るためのコンバイナ(400)をさらに備え、前記入力ダウンミックス表現の前記一部分のみのための前記第1の出力表現及び前記入力ダウンミックス表現の前記第2の部分のための前記第2の出力表現は同じダウンミックススキームに基づいている、
請求項1に記載の装置。
【請求項3】
前記入力ダウンミックス表現の前記少なくとも一部分又は前記入力ダウンミックス表現の前記一部分のみは第1の周波数帯域であり、前記第1のダウンミックススキームは残差信号に依存するダウンミックススキームであり、
前記アップミキサ(200)は、前記残差信号を用いてアップミックスを実行するように構成されている、
請求項1又は2に記載の装置。
【請求項4】
前記第2のダウンミックススキームは完全にパラメトリックなスキームであり、
前記ダウンミキサ(300)は前記第2のダウンミックススキームを適用するように構成されている、
請求項1ないし3のいずれか1項に記載の装置。
【請求項5】
前記入力ダウンミックス表現の前記第2の部分は第2の周波数帯域であり、
前記コンバイナ(400)が、前記第1のダウンミックス部分と前記入力ダウンミックス表現の前記第2の部分とを結合して前記出力ダウンミックス表現を得るように構成されている、
請求項2ないし4のいずれか1項に記載の装置。
【請求項6】
前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための復号化済みコア信号と、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための復号化済み残差信号と、を生成するためのオーディオデコーダ(10)をさらに備え、
前記アップミキサ(200)は、前記アップミックススキームにおいて、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための前記復号化済みコア信号と、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための前記復号化済み残差信号とを使用するように構成され、
前記ダウンミキサ(300)は、前記入力ダウンミックス表現よりも多くのチャネルを含む前記少なくとも1つのアップミックス済み部分を受信するように構成されている、
請求項1ないし5のいずれか1項に記載の装置。
【請求項7】
前記入力ダウンミックス表現の前記第2の部分が前記第2のダウンミックススキームに従っており、前記オーディオデコーダ(10)は、前記入力ダウンミックス表現の前記第2の部分のための復号化済みコア信号と、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみのための復号化済み残差信号とを生成するように構成され、前記コンバイナ(400)は、前記第1のダウンミックス済み部分と前記入力ダウンミックス表現の前記第2の部分のための前記復号化済みコア信号と、を結合するように構成されている、
請求項6に記載の装置。
【請求項8】
前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみの時間領域入力ダウンミックス表現をスペクトル領域に変換する時間-スペクトル変換器(100)と、出力信号を時間領域に変換して前記出力ダウンミックス表現を得るためのスペクトル-時間変換器(400)と、をさらに備え、前記時間-スペクトル変換器(100)又は前記スペクトル-時間変換器(400)は、オーバーラップ加算処理を実行するように、又は前の時間ブロックから後の時間ブロックへのクロスオーバー処理を実行するように構成される、あるいは、
前記出力ダウンミックス表現をレンダリングデバイスに出力するための出力インターフェース(500)をさらに備える、又は、前記出力ダウンミックス表現をモノリプレイ信号としてレンダリングするためのレンダリングデバイスをさらに備える、あるいは、
前記ダウンミキサ(300)は、前記第2のダウンミックススキームとして、アクティブダウンミックススキーム、エネルギー節減ダウンミックススキーム、又は前記ダウンミックス信号のターゲットエネルギーは、第1のチャネル及び第2のチャネルから導出された中間チャネルのエネルギーに対して既定の比率であるダウンミックススキームを適用するように構成され、前記第1のチャネル及び前記第2のチャネルのうちの少なくとも1つは、前記入力ダウンミックス表現を形成するために合計される前に位相回転される、
請求項1ないし7のいずれか1項に記載の装置。
【請求項9】
前記入力ダウンミックス表現の前記第2の部分は前記第2のダウンミックスに従っており、前記時間-スペクトル変換器(100)は、前記入力ダウンミックス表現の前記第2の部分の時間領域入力ダウンミックス表現を前記スペクトル領域に変換するように構成される、あるいは、
前記既定の比率は、第1のオリジナルチャネルのエネルギーと第2のオリジナルチャネルのエネルギーが等しいこと、または第1のオリジナルチャネルのエネルギーと第2のオリジナルチャネルのエネルギーのうち高い方のエネルギーに関して3dbの範囲での偏差を示す、
請求項8に記載の装置。
【請求項10】
前記入力ダウンミックス表現の少なくとも前記一部分は
、前記残差信号又は前記残差信号及びパラメトリック情報に依存する前記第1のダウンミックススキームに従っており、
前記アップミキサ(200)は、前記第1のダウンミックススキームに対応する前記アップミックススキームを使用して、かつ、前記残差信号又は前記残差信号及び前記パラメトリック情報を使用して、前記入力ダウンミックス表現の少なくとも前記一部分の前記入力ダウンミックス表現をアップミックスして、前記少なくとも1つのアップミックス済み部分をそれぞれ得るように構成され、
前記ダウンミキサ(300)は、前記第1のダウンミックススキームとは異なる前記第2のダウンミックススキームに従って前記少なくとも1つのアップミックス済み部分をダウンミックスするように構成され、前記第2のダウンミックススキームは、少なくとも1つのダウンミックス済み部分を含む前記出力ダウンミックス表現を得るための、アクティブダウンミックススキーム又は完全にパラメトリックなダウンミックススキームである、
請求項1ないし9のいずれか1項に記載の装置。
【請求項11】
前記出力ダウンミックス表現をレンダリングデバイスに出力するための出力インターフェース(500)をさらに備える、又は前記出力ダウンミックス表現をモノリプレイ信号としてレンダリングするためのレンダリングデバイスをさらに備える、請求項10に記載の装置。
【請求項12】
前記ダウンミキサ(300)は、前記アクティブダウンミックススキームとして、エネルギー節減ダウンミックススキーム、又は、前記ダウンミックス信号のターゲットエネルギーが、第1のチャネル及び第2のチャネルから導出された中間チャネルのエネルギーに対して既定の比率であるダウンミックススキームを適用するように構成され、前記第1のチャネル及び前記第2のチャネルのうちの少なくとも1つは合計される前に位相回転される、
請求項10又は11に記載の装置。
【請求項13】
前記入力ダウンミックス表現の少なくとも前記一部分は、前記入力ダウンミックス表現の前記全帯域幅を含む、
請求項10ないし12のいずれか1項に記載の装置。
【請求項14】
前記ダウンミキサ(300)が前記第2のダウンミックススキームを実行するように構成され、
前記第2のダウンミックススキームは、
複数のスペクトル線を含む、前記少なくとも1つのアップミックス済み部分のスペクトル帯域について、第1のチャネルのための第1の重み及び第2のチャネルのための第2の重みを計算すること(800)と、
前記第1の重みを前記第1のチャネルの前記スペクトル帯域のスペクトル線に適用し、前記第2の重みを前記第2のチャネルの前記スペクトル帯域のスペクトル線に適用し、第1の加重済み線及び第2の加重済み線を追加して前記スペクトル帯域においてダウンミックス済みスペクトル線を取得すること(820)と、を含み、
前記装置は、前記ダウンミックス済みスペクトル線を時間領域に変換(840)して前記出力ダウンミックス表現の時間領域サンプルを得るように構成されている、
請求項1ないし13のいずれか1項に記載の装置。
【請求項15】
前記第1の重み及び前記第2の重みの前記計算は、前記第1のチャネル及び前記第2のチャネルのエネルギー及び前記ターゲットエネルギーを使用して帯域ごとに実行される、請求項14に記載の装置。
【請求項16】
前記ターゲットエネルギーは、位相回転された中間チャネルのエネルギーに等しい、又は、前記第1のチャネル及び前記第2のチャネルのエネルギーから、及び前記第1のチャネルと前記第2のチャネルとの間の相関値から導出される、請求項15に記載の装置。
【請求項17】
前記第1の重み及び前記第2の重みを計算することには、スペクトル帯域について、
前記スペクトル帯域内の前記第1のチャネルのための振幅関連の指標を計算すること(802)と、
前記スペクトル帯域内の前記第2のチャネルのための振幅関連の指標を計算すること(804)と、
前記スペクトル帯域内の前記第1のチャネルと前記第2のチャネルの線形結合のための振幅関連の指標を計算すること(806)と、
前記スペクトル帯域内の前記第1のチャネルと前記第2のチャネルとの間の相互相関の指標を計算すること(808)と、
前記第1のチャネルのための前記振幅関連の指標、前記第2のチャネルのための前記振幅関連の指標、前記線形結合のための前記振幅関連の指標、及び前記相互相関の指標を使用して、前記第1の重み及び前記第2の重みを計算すること(810)と、
を含む、請求項14ないし16のいずれか1項に記載の装置。
【請求項18】
前記アップミキサ(200)は前記アップミックススキームを実行するように構成され、前記アップミックススキームは、
前記スペクトル帯域のための予測パラメータ及び前記スペクトル帯域のための残差信号ライン、ならびに第1の計算規則を用いて、前記入力ダウンミックス表現の少なくとも前記一部分、又は、前記入力ダウンミックス表現の少なくとも前記一部分の前記スペクトル帯域のスペクトル線からの前記入力ダウンミックス表現の前記一部分のみ、又は、前記入力ダウンミックス表現の前記一部分のみのスペクトル帯域について、第1チャネルスペクトル線を計算することと、
前記スペクトル帯域のための予測パラメータ及び前記スペクトル帯域のための残差信号ライン、ならびに第2の計算規則を用いて、前記入力ダウンミックス表現の少なくとも前記一部分、又は、前記入力ダウンミックス表現の少なくとも前記一部分の前記スペクトル帯域のスペクトル線からの前記入力ダウンミックス表現の前記一部分のみ、又は、前記入力ダウンミックス表現の前記一部分のみのスペクトル帯域について第2チャネルスペクトル線を計算することと、
を含み、
前記第1の計算規則は前記第2の計算規則と異なる、請求項1ないし17のいずれか1項に記載の装置。
【請求項19】
前記第1の計算規則は、加算及び減算のうちの一方を含み、前記第2の計算規則は、前記加算及び前記減算のうちの他方を含む、請求項18に記載の装置。
【請求項20】
入力ダウンミックス表現と、前記入力ダウンミックス表現の少なくとも第2の部分に対するパラメトリックデータを提供するための入力インターフェース(100、120)と、
前記請求項1ないし19のいずれか1項に記載の前記装置と、
を備えるマルチチャネルデコーダであって、
前記マルチチャネルデコーダは、前記入力ダウンミックス表現の少なくとも前記一部分、又は、前記入力ダウンミックス表現の前記一部分のみについての前記入力ダウンミックス表現を、前記第1のダウンミックススキームに対応する前記アップミックススキームに従って、前記アップミキサ(200)を用いてアップミックスして、前記少なくとも1つのアップミックス済み部分を得るように構成される、及び/又は、前記第2のダウンミックススキームに対応する第2のアップミックススキームを用いて、前記第2の部分のための前記入力ダウンミックス表現及び前記パラメトリックデータをアップミックスして、アップミックス済みの第2の部分を得るように構成され、
コンバイナ(400、420)が、前記少なくとも1つのアップミックス済み部分と前記アップミックス済みの第2の部分とを結合してマルチチャネル出力信号を得るように構成されている、
マルチチャネルデコーダ。
【請求項21】
前記入力インターフェース(100、120)は、
前記入力ダウンミックス表現の前記少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみの第1のスペクトル表現、及び、前記入力ダウンミックス表現の第2の部分の第2のスペクトル表現を変換するための第1の時間-スペクトル変換器(100)であって、前記入力ダウンミックス表現の前記第2の部分は、前記第1のスペクトル表現の前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみよりも高い周波数についてのスペクトル値を含む、第1の時間-スペクトル変換器(100)と、
前記入力ダウンミックス表現の前記少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみについて、残差信号のスペクトル表現を生成するための第2の時間-スペクトル変換器(120)と、
を備え、
前記アップミキサ(200)は、前記残差信号の前記スペクトル表現を使用して前記第1のスペクトル表現を生成して、前記スペクトル領域内の前記少なくとも1つのアップミックス済み部分を得るように構成され、
前記ダウンミキサ(300)は、前記少なくとも1つのアップミックス済み部分をダウンミックスして、前記スペクトル領域内の前記第1のダウンミックス済み部分を得るように構成され、
前記コンバイナ(400)は、前記第1のダウンミックス済み部分と前記入力ダウンミックス表現の前記第2の部分の前記スペクトル表現とを結合し、かつ、時間領域に変換して前記出力ダウンミックス表現を得るためのスペクトル-時間変換器を含む、
請求項20に記載のマルチチャネルデコーダ。
【請求項22】
前記入力ダウンミックス表現の前記第2の部分をアップミックスして前記アップミックス済みの第2の部分を得るための第2のアップミキサ(220)をさらに備え、
マルチチャネル出力モードにおいて、前記コンバイナ(400)は、前記少なくとも1つのアップミックス済み部分の第1のチャネルと前記アップミックス済みの第2の部分の前記第1のチャネルとを結合し、かつ、時間領域に変換して、マルチチャネル出力の第1のチャネルを得るように構成され、
前記マルチチャネルデコーダは、前記マルチチャネル出力モードにおいて、前記少なくとも1つのアップミックス済み部分の第2のチャネルと前記アップミックス済みの第2の部分の第2のチャネルとを結合し、かつ、前記時間領域に変換して、前記マルチチャネル出力の第2のチャネルを得るように構成された第2のコンバイナ(420)をさらに備える、
請求項20又は21に記載のマルチチャネルデコーダ。
【請求項23】
前記入力ダウンミックス表現の前記第2の部分をアップミックスして前記アップミックス済みの第2の部分を得るための第2のアップミキサ(220)をさらに備え、
マルチチャネル出力モードにおいて、前記コンバイナ(400)は、前記少なくとも1つのアップミックス済み部分の第1のチャネルと前記アップミックス済みの第2の部分の前記第1のチャネルとを結合し、かつ、時間領域に変換してマルチチャネル出力の第1のチャネルを得るように構成され、
前記マルチチャネルデコーダは、前記マルチチャネル出力モードにおいて、前記少なくとも1つのアップミックス済み部分の第2のチャネルと前記アップミックス済みの第2の部分の第2のチャネルとを結合し、且つ、前記時間領域に変換して前記マルチチャネル出力の第2のチャネルを得るように構成された第2のコンバイナ(420)と、
前記第1の時間-スペクトル変換器(100)と前記第2のアップミキサ(220)との間に接続されたスイッチ(710)と、
モノラル出力モードにおいて、前記スイッチ(710)を制御して前記第1の時間-スペクトル変換器(100)の出力を前記コンバイナ(400)に接続する、又は、前記第2のアップミキサ(220)をバイパスして前記アップミキサ(200)の出力を前記ダウンミキサ(300)の入力に接続する、あるいは、前記マルチチャネル出力モードにおいて、前記スイッチ(710)を制御して前記第1の時間-スペクトル変換器(100)の出力を前記第2のアップミキサ(220)の入力に接続するように構成されているコントローラ(700)と、
をさらに備える、
請求項21に記載のマルチチャネルデコーダ。
【請求項24】
前記アップミキサ(200)と前記ダウンミキサ(300)との間に接続された第2のスイッチ(720)と、
前記モノラル出力モードにおいて、前記第2のスイッチ(720)を制御して前記アップミキサ(200)の出力を前記ダウンミキサ(300)の入力に接続し、前記マルチチャネル出力モードにおいては、前記第2のスイッチ(720)を制御して前記アップミキサ(200)の出力を前記第2のコンバイナ(420)の入力に接続する、又は前記ダウンミキサ(300)をバイパスするように構成されているコントローラ(700)と、
をさらに備える、
請求項22又は23に記載のマルチチャネルデコーダ。
【請求項25】
入力ダウンミックス表現から出力ダウンミックス表現を生成するための方法であって、前記入力ダウンミックス表現の少なくとも一部分は第1のダウンミックススキームに従っており、前記方法は、
少なくとも1つのアップミックス済み部分を得るために、前記第1のダウンミックススキームに対応するアップミックススキームを用いて前記入力ダウンミックス表現の少なくとも前記一部分の前記入力ダウンミックス表現をアップミックスするステップと、
前記入力ダウンミックス表現の少なくとも前記一部分の前記出力ダウンミックス表現を表す第1のダウンミックス済み部分を得るために、前記第1のダウンミックススキームとは異なる第2のダウンミックススキームに従って、前記少なくとも1つのアップミックス済み部分をダウンミックスするステップと、
を備える、方法。
【請求項26】
前記入力ダウンミックス表現の第2の部分は第2のダウンミックススキームに従っており、
前記ダウンミックスするステップは、前記第1のダウンミックス済み部分を得るために、前記第2のダウンミックススキームに従って前記少なくとも1つのアップミックス済み部分をダウンミックスするステップを含み、
前記出力ダウンミックス表現を得るために、前記第1のダウンミックス済み部分と前記第2の部分又は前記第2の部分から導出されるダウンミックス済み部分とを結合するステップであって、前記入力ダウンミックス表現の少なくとも前記一部分についての前記出力ダウンミックス表現及び前記第2の部分の前記出力表現は同じダウンミックススキームに基づいている、結合するステップをさらに備える
請求項25に記載の方法。
【請求項27】
前記入力ダウンミックス表現の少なくとも前記一部分は、残差信号又は残差信号及びパラメトリック情報に依存する前記第1のダウンミックススキームに従っており、
前記アップミックスするステップは、それぞれ前記少なくとも1つのアップミックス部分を得るために、前記第1のダウンミックススキームに対応するアップミックススキームを使用し、かつ、前記残差信号又は前記残差信号及び前記パラメトリック情報を使用して、前記入力ダウンミックス表現の少なくとも前記一部分の前記入力ダウンミックス表現をアップミックスするステップを含み、
前記ダウンミックスするステップは、前記第1のダウンミックススキームとは異なる前記第2のダウンミックススキームに従って前記少なくとも1つのアップミックス済み部分をダウンミックスするステップを含み、前記第2のダウンミックススキームは、前記入力ダウンミックス表現の少なくとも前記一部分に対する前記出力ダウンミックス表現を得るための、アクティブダウンミックススキーム又は完全にパラメトリックなダウンミックススキームである、
請求項25又は26に記載の方法。
【請求項28】
少なくとも前記入力ダウンミックス表現の第2の部分についての入力ダウンミックス表現及びパラメトリックデータを提供するステップと、
請求項25ないし27のいずれか1項に記載の方法と、
を含むマルチチャネル復号化方法であって、
前記方法は、前記少なくとも1つのアップミックス済み部分を得るために、前記第1のダウンミックススキームに対応する前記アップミックススキームに従って、前記入力ダウンミックス表現の少なくとも前記一部分又は前記入力ダウンミックス表現の前記一部分のみについて前記入力ダウンミックス表現をアップミックスするステップ、及び/又は、アップミックス済みの第2の部分を得るために、前記第2のダウンミックススキームに対応する第2のアップミックススキームを使用して、前記入力ダウンミックス表現の前記第2の部分及び前記パラメトリックデータをアップミックスするステップと、
マルチチャネル出力信号を得るために、前記少なくとも1つのアップミックス済み部分と前記アップミックス済みの第2の部分とを結合するステップと、
を備える、
マルチチャネル復号化方法。
【請求項29】
コンピュータ又はプロセッサ上で実行されるときに、請求項25ないし28のいずれか1項に記載の方法を実行するためのコンピュータプログラム。
【請求項30】
入力ダウンミックス表現から出力ダウンミックス表現を生成するための装置であって、前記入力ダウンミックス表現の第1の部分は第1のダウンミックススキームに従い、前記入力ダウンミックス表現の第2の部分は前記第2のダウンミックススキームに従っており、
前記装置は、
前記第1のダウンミックススキームに対応する第1のアップミックススキームを使用して前記入力ダウンミックス表現の前記第1の部分をアップミックスして第1のアップミックス済み部分を得て、前記第2のダウンミックススキームに対応する第2のダウンミックススキームを用いて前記入力ダウンミックス表現の前記第2の部分をアップミックスして第2のアップミックス済み部分を得るためのアップミキサ(200)と、
前記第1のダウンミックススキーム及び前記第2のダウンミックススキームとは異なる第3のダウンミックススキームに従って前記第1のアップミックス済み部分及び前記第2のアップミックス済み部分をダウンミックスして前記出力ダウンミックス表現を得るためのダウンミキサ(300)であって、前記入力ダウンミックス表現の前記第1の部分についての前記出力表現及び前記入力ダウンミックス表現の前記第2の部分についての前記出力表現は、前記入力ダウンミックス表現の同じダウンミックススキームに基づいている、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、マルチチャネル処理、特に、モノラル出力ための可能性を提供するマルチチャネル処理に関係する。
【背景技術】
【0002】
ステレオエンコードされたビットストリーム(ステレオ符号化済みビットストリーム)は、通常、ステレオシステムで再生されるように復号化されるが、ステレオビットストリームを受信できるすべてのデバイスが常にステレオ信号を出力できるわけではない。例えば、モノラルスピーカーしか持たない携帯電話でステレオ信号を再生する場合などが考えられる。そのため、3GPP IVAS規格でサポートされているマルチチャネルのモバイル通信シナリオの出現に伴い、追加の遅延がなく、複雑さの面でも可能な限り効率的でありながら、単純なパッシブダウンミックスでは達成できない最高の知覚品質を提供する、ステレオからモノラルへのダウンミックスが必要とされている。
【0003】
【0004】
さらに、より洗練された(つまりアクティブな)時間領域ベースのダウンミックス方法としては、信号の全体的なエネルギーを維持するためのエネルギースケーリング[2]、[3]、キャンセル効果を避けるための位相調整[4]、コヒーレンス抑制によるコムフィルター効果の防止[5]などが含まれる。
【0005】
もう一つの方法は、複数のスペクトル帯域に対して別々の重み付け係数を計算することにより、周波数に依存した方法でエネルギー補正を行うことである。例えば、これはMPEG-Hフォーマットコンバータ[6]の一部として行われ、信号のハイブリッドQMFサブ帯域表現を用いてダウンミックスを行い,さらにチャネルの位相調整を事前に行う。[7]では、DFT領域で重み付けとミックスを行うパラメトリック低ビットレートモードのDFTステレオに、同様の帯域ワイズダウンミックス(位相と時間の両方の調整を含む)がすでに使用されている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
ステレオ信号を復号化した後、時間領域でパッシブにステレオからモノラルにダウンミックスするという解決方法は理想的ではない。というのも、純粋にパッシブなダウンミックスには、位相キャンセル効果や一般的なエネルギーの損失などの欠点があり、アイテムによっては品質を著しく低下させる可能性があることがよく知られているからである。
【0007】
純粋に時間領域に基づいた他のアクティブなダウンミックス手法は、パッシブなダウンミックスの問題点のいくつかを軽減するが、周波数に依存した重み付けができないため依然として最適とは言えない。
【0008】
IVAS(Immersive Voice and Audio Services)のような移動体通信用コーデックでは、遅延や複雑さの面で暗黙の制約があるため、MPEG-Hフォーマットコンバータのように帯域ごとのダウンミックスを適用するための専用の後処理ステージを持つことも選択肢にはならない。なぜなら、周波数領域への変換や逆変換が必要となり、複雑さと遅延の両方の増加を必然的に引き起こすためである。
【0009】
デコーダでステレオ信号を復元するためにパラメータベースの残差予測のみを使用し、[7]に記載されているようなアクティブダウンミックスによって中間信号を生成する、[8]に記載されているようなDFTベースのステレオシステムでは、デコーダにおいて十分に良好なモノラル信号が得られる。しかし、信号のスペクトル部分が、M/S変換によって生成されたステレオ復元用のコード化された残差信号に依存している場合、ステレオアップミックスの前に得られたモノラル信号はもはや適切ではない。この場合、モノラル信号は、スペクトル的には、一部がパッシブダウンミックスに等しいM/S変換(残差符号化部)による中間信号から、一部がアクティブダウンミックス(残差予測部)から、成る。このように2つの異なるダウンミックス手法が混在すると、信号にアーチファクトやエネルギーの不均衡が生じる。
【0010】
本発明の目的は、マルチチャネル復号化のための出力ダウンミックス表現を生成するための改善された概念を提供することである。
【課題を解決するための手段】
【0011】
この目的は、請求項1の出力ダウンミックス表現を生成する装置、請求項19のマルチチャネルデコーダ、請求項24の出力ダウンミックス表現を生成する方法、請求項27のマルチチャネルデコーディング方法、又は請求項28の関連するコンピュータプログラムによって達成される。
【0012】
入力ダウンミックス表現から出力ダウンミックス表現を生成する装置であって、入力ダウンミックス表現の少なくとも一部分が第1のダウンミックススキームに従っており、装置は、少なくとも1つのアップミックス済み部分を得るために、第1のダウンミックススキームに対応するアップミックススキームを用いて入力ダウンミックス表現の少なくとも一部分をアップミックスするためのアップミキサを備える。さらに、装置は、第1のダウンミックススキームとは異なる第2のダウンミックススキームに従って、少なくとも1つのアップミックス済み部分をダウンミックスするためのダウンミキサを備える。
【0013】
別の実施形態では、入力ダウンミックス表現の一部分は、ダウンミックススキームに従っており、さらに、入力ダウンミックス表現の第2の部分は、第1のダウンミックススキームとは異なる第2のダウンミックススキームに従っている。本実施形態では、ダウンミキサは、アップミックス部分を第2のダウンミックススキームに従って、又は、ダウンミックススキーム及び第2のダウンミックススキームとは異なる第3のダウンミックススキームに従ってダウンミックスして、第1のダウンミックス済み部分を得るように構成されている。ここで、ダウンミックス済み部分に関する状況は、第1のダウンミックス済み部分と第2の部分が関連しており、同じダウンミックススキームの領域内にあると言えるので、第1のダウンミックス済み部分と第2のダウンミックス済み部分、又は第2のダウンミックス済み部分から導出されたダウンミックス済み部分をコンバイナによって結合して、第1の部分に対する出力表現と第2の部分に対する出力表現を含む出力ダウンミックス表現を得ることができる。第1の部分に対する出力表現と第2の部分に対する出力表現は、同じダウンミックススキームに基づいている、すなわち、1つの同じダウンミックス領域に位置しており、したがって、互いに「調和」している。
【0014】
さらなる実施形態では、入力ダウンミックス表現の全帯域又は一部分だけが、パラメータ及び残差信号に依存しているか又はパラメータなしの残差信号にのみに依存しているダウンミックススキームに基づいている。このような状況では、入力ダウンミックス表現は、コア信号、残差信号、又は、残差信号及びパラメータから構成される。この信号は、サイド情報を用いてアップミックスされる。すなわち、パラメータ及び残差信号を用いて、又は残差信号だけを用いてアップミックスされる。アップミックスは、残差信号を含むすべての利用可能な情報を含む。ダウンミックスは、第1のダウンミックススキームとは異なる第2のダウンミックススキーム、すなわち、好ましくは、エネルギー計算に対処するための手段を有するアクティブダウンミックス、又は、言い換えれば、残差信号を生成せず、好ましくは、残差信号及び任意のパラメータを生成しないダウンミックススキームで実行される。このようなダウンミックスは、良好で快適で高品質なオーディオモノラルレンダリングの可能性を提供するが、アップミックスとその後のダウンミックス無しで使用した場合の入力ダウンミックス表現のコア信号は、残差信号及びパラメータを有利に考慮せずにレンダリングした場合には、いかなる快適で高品質なオーディオ再生もできない。
【0015】
本実施形態によれば、出力ダウンミックス表現を生成する装置は、残差タイプのダウンミックススキームから非残差タイプのダウンミックススキームへの変換を実行する。この変換は、全帯域で実行することも、部分帯域で実行することもできる。典型的には、そして好ましい実施形態では、マルチチャネルエンコードされた信号(マルチチャネル符号化済み信号)の低帯域は、コア信号、残差信号、及び好ましくはパラメータを含む。しかし、高帯域では、より低いビットレートのために精度が低くなる。したがって、そのような高帯域では、残差データ又はパラメータなどの追加のサイド情報なしに、アクティブダウンミックスで十分である。このような状況では、残差ダウンミックス領域にある低帯域が非残差ダウンミックス領域に変換され、その結果が、すでに「正しい」非残差ダウンミックス領域にある高帯域と結合される。
【0016】
さらなる実施形態では、第1の部分が、第1のダウンミックス領域から、第2の部分が配置されている、同じダウンミックス領域に変換されることは要求されない。代わりに、さらなる実施形態では、第1の部分が第1のダウンミックス領域にあり、入力表現の第2の部分が第2のダウンミックス領域にある場合、第1のダウンミックススキームに対応する第1のアップミックススキームに従って第1の部分をアップミックスすることにより、これらの部分の両方が別の第3のダウンミックス領域に変換される。さらに、第2のダウンミックススキームに対応する第2のアップミックススキームに従って第2の部分をアップミックスし、両方のアップミックスを、好ましくは残差データ又はパラメトリックデータのないアクティブダウンミックスによって、第1及び第2のダウンミックススキームとは異なる第3のダウンミックススキームにダウンミックスする。
【0017】
さらなる実施形態では、2つ以上の部分、特に、スペクトル部分又はスペクトル帯域が、異なるダウンミックス表現にあるものを利用することができる。本発明により、好ましくは、アップミックスとそれに続くダウンミックスがスペクトル領域で実行される場合、個々の帯域に対する個々の処理は、一方のスペクトル帯域から他方のスペクトル帯域への干渉なしに実行することができる。ダウンミキサの出力では、すべての帯域が同じ「ダウンミックス」領域にあり、したがって、モノラル出力のダウンミックス表現のためのスペクトルが存在し、このスペクトルは、合成バンク、逆離散フーリエ変換、逆MDCT領域などのスペクトル-時間変換器によって、時間領域表現に変換することができる。個々の帯域の組み合わせと時間領域への変換は、このような合成フィルタバンクを用いて実施することができる。特に、組み合わせが実際の変換の前に実行されるかどうか、つまりスペクトル領域で実行されるかどうかは関係ない。このような状況では、組み合わせはスペクトル-時間変換の前に行われ、すなわち合成フィルタバンクへの入力で行われ、単一の時間領域信号を得るために単一の変換が行われるだけである。しかし、同等の実装は、コンバイナが各帯域に対して個別にスペクトル-時間変換を実行する実装で構成される。そのため、このような個々の変換の時間領域出力は、特定の帯域幅での時間領域表現を表し、個々の時間領域出力は、クリティカルにサンプリングされた変換が実装されている場合、好ましくはある種のアップサンプリングの後に、サンプルごとに結合される。
【0018】
さらなる実施形態では、本発明は、2つの異なるモードで動作可能なマルチチャネルデコーダに適用される。すなわち、「通常」モードとしてのマルチチャネル出力モードと、モノラル出力モードである「例外的なモード」のような第2のモードでも動作可能である。このモノラル出力モードは、マルチチャネルデコーダが、1つのスピーカーを持つ携帯電話など、モノラルスピーカー出力機能しか持たない機器に実装されている場合や、ある種の省電力モードにある機器に実装されており、基本的にはマルチチャネルやステレオ出力モードの可能性も持っているにもかかわらず、バッテリーの節約や処理リソースの節約のためにモノラル出力モードのみが提供されている場合に、特に有用である。
【0019】
このような実施形態では、マルチチャネルデコーダは、復号化されたコア信号(復号化済みコア信号)のための第1の時間-スペクトル変換機能と、デコーダ残差信号のための第2の時間-スペクトル変換機能を備えている。2つの異なるダウンミックス領域にある2つの異なるスペクトル部分のためのスペクトル領域における2つの異なるアップミックス機能が提供され、対応する左チャネルのスペクトル線は、合成フィルタバンク又はIDFTブロックなどのコンバイナによって結合され、他のチャネルのスペクトル線は、追加又は第2の合成フィルタバンク又はIDFT(逆離散フーリエ変換)ブロックによって結合される。
【0020】
このようなマルチチャネルデコーダを強化するために、好ましくはアクティブダウンミキサとして実装される第1のダウンミックススキームとは異なる第2のダウンミックススキームに従って、少なくとも1つのアップミックス済み部分をダウンミックスするためのダウンミキサが設けられている。さらに、実施形態では、2つのスイッチとコントローラも提供される。コントローラは、第1のスイッチを制御して高帯域部分のアップミキサをバイパスし、第2のスイッチは、アップミキサの出力をダウンミキサに供給するように実装されている。このようなモノラル出力モードでは、処理能力を節約するために、第2コンバイナ又は合成フィルタバンクは非アクティブであり、高域用のアップミキサも非アクティブである。しかし、ステレオ出力モードでは、左のステレオ出力信号と右の出力信号を得るために、第1のスイッチは高域用のアップミックスを供給し、第2のスイッチは(アクティブな)ダウンミキサをバイパスし、両方の出力合成フィルタバンクがアクティブになる。
【0021】
モノラル出力はDFTドメインなどのスペクトル領域で計算されるため、モノラル出力の生成にはステレオ出力の生成と比較して追加の遅延は発生しない。ステレオ処理モードと比較して追加の時間-周波数変換が必要ないためである。代わりに、2つのステレオモード合成フィルタバンクのうち1つがモノモードにも使用される。さらに、典型的にはモノラル出力に比べて強化されたオーディオ体験を提供するステレオ出力と比較して、モノラル処理モードは複雑さと、特に処理リソースと、ひいては、バッテリー駆動のモバイルデバイスに特に有用である低電力モードでのバッテリー電力とを節約する。これは、ステレオモードで通常必要とされる高帯域アップミキサを非アクティブ化することができ、さらに、ステレオ出力モードで同じく必要とされる第2の出力フィルタバンクも同様に非アクティブ化することができるためである。その代わりに、ステレオモードと比較して追加の処理ブロックとして必要なのは、スペクトル領域で完全に動作する低複雑・低遅延のアクティブダウンミックスブロックのみである。しかし、このアクティブダウンミックスブロックが必要とする追加の処理リソースは、高帯域アップミキサと第2の合成フィルタバンク又はIDFTブロックを非アクティブ化することにより節約できる処理リソースよりも大幅に小さくなる。
【0022】
本実施形態は、ステレオ信号のダウンミックスによって作成されたモノラル入力信号から、調和のとれたモノラル出力信号を生成することを目的としており、ダウンミックスはステレオ信号の少なくとも2つの異なるスペクトル領域に対して異なる方法(例えば、アクティブ及びパッシブ)で行われる。調和は、調和された信号のための好ましい方法として1つのダウンミックス方法を選び、異なる方法でダウンミックスされたすべてのスペクトル部分を望ましい方法に変換することによって達成される。これは、まず、アップミックスに必要なすべてのサイドパラメータを用いて、これらのスペクトル部分をアップミックスし、それぞれのスペクトル領域でLR表現を取り戻すことで達成される。次に、好ましいダウンミックス方法に必要なすべてのパラメータを用いて、ステレオ表現に好ましい方法を適用して、スペクトル部分をモノラル表現に変換する。調和されたモノラル出力信号が生成され、追加の遅延や複雑さなしに不均一なダウンミックスの問題を回避することができる。
【0023】
続いて、好ましい実施形態について、添付の図面を参照して説明する。
【図面の簡単な説明】
【0024】
図1図1は、一実施形態における出力ダウンミックス表現を生成するための装置を示す図である。
図2図2は、さらなる実施形態における出力ダウンミックス表現を生成するための装置を示す図であり、ダウンミックススキームは、残差信号又は残差信号及びパラメータに基づいている。
図3図3は、入力ダウンミックス表現のスペクトル部分などの異なる部分に対して、異なるダウンミックススキームが実行される、さらなる実施形態を示す図である。
図4図4は、入力ダウンミックス表現に対する異なるスペクトル部分での異なるダウンミックススキームの使用を説明するさらなる実施形態であり、第1のダウンミックススキームが残差データに基づき、第2のダウンミックススキームがアクティブダウンミックススキーム又は残差データ又はパラメトリックデータのないダウンミックススキームである手順を説明する図である。
図5図5は、実施形態における第1のダウンミックススキームに対応するアップミックススキームの好ましい実施例を示す図である。
図6図6は、ステレオ出力モードで動作するマルチチャネルデコーダを示す図である。
図7図7は、マルチチャネル出力モード又はモノラル出力モードの間で切り替え可能な、実施形態に係るマルチチャネルエンコーダを示す図である。
図8a図8aは、第2ダウンミックススキームの好ましい実施形態を示す図である。
図8b図8bは、第2のダウンミックススキームのさらなる実施形態を示す図である。
図9図9は、入力ダウンミックス表現を、第1部分として示された第1ダウンミックススキームの入力ダウンミックス表現の一部分と、重みを持つダウンミックススキームに依存する入力ダウンミックス表現の第2部分とに分離する様子を示す図である。
【発明を実施するための形態】
【0025】
図1は、入力ダウンミックス表現から出力ダウンミックス表現を生成する装置であって、入力ダウンミックス表現の少なくとも一部分が第1のダウンミックススキームに従っている。本装置は、ブロック200の出力において少なくとも1つのアップミックス済み部分を得るために、第1のダウンミックススキームに対応するアップミックススキームを用いて入力ダウンミックス表現の少なくとも一部分をアップミックスするためのアップミキサ200を備える。本装置は、さらに、第1のダウンミックススキームとは異なる第2のダウンミックススキームに従って、少なくとも1つのアップミックス済み部分をダウンミックスするためのダウンミキサ300を備える。好ましくは、ダウンミキサ300の出力は、モノラル出力を生成するための出力ステージ500に転送される。出力段は、例えば、出力ダウンミックス表現をレンダリング装置に出力するための出力インターフェースであり、あるいは、出力段500は、出力ダウンミックス表現をモノラル再生信号としてレンダリングするためのレンダリング装置を実際に構成する。
【0026】
図1に示された装置は、第1の「ダウンミックス領域」におけるダウンミックス表現から、別の第2のダウンミックス領域への変換を提供する。他の図で説明するように、この変換は、例えば、図9に例示的に与えられた最下位の3つの帯域b1、b2、b3について図示された第1の部分のような、スペクトルの限られた部分に対してのみ有効とすることができる。あるいは、装置は、フルバンド、すなわち、図9に例示的に示されたすべての帯域b1~b6に対して、1つのダウンミックス領域から別のダウンミックス領域への変換を実行することもできる。この部分は、スペクトル部分などの信号の任意の部分、時間ブロックまたはフレームなどの時間部分、または信号の他の任意の部分であり得る。ブロック又はフレームなどの時間部分、又は信号の任意の部分などとすることができる。
【0027】
図2は、第1のダウンミックススキームが、残差信号のみ、又は残差信号及びパラメトリック情報に依存する実施形態を示す。図2は入力インターフェース10を含み、入力インターフェースは、符号化済みコア信号(encoded core signal)と符号化済みサイド情報部分(encoded siede side information part)を含む符号化済みマルチチャネル信号(encoded multichannel signal)を受信する。コア信号はコアデコーダ20によって復号され、サイド情報のない入力ダウンミックス表現を提供する。さらに、符号化済みマルチチャネル信号からのサイド情報部分は、入力インターフェース内のサイド情報デコーダ30によって提供・処理され、サイド情報デコーダ30は、図2の210で示されるように、残差信号又は残差信号及びパラメータを提供する。データ、すなわち、残差データと復号されたコア信号(復号化済みコア信号)に対応する入力ダウンミックスはいずれもアップミキサ200に入力され、アップミキサ200は、第1のチャネル及び第2のチャネルを有するアップミックス信号を生成し、第1のチャネルと第2のチャネルのデータは、高品質のオーディオデータである。なぜなら、高品質のオーディオデータは、コア信号とある種のパッシブなアップミックスによってのみ生成されるのではなく、残差データ又は残差データ及びパラメータ、すなわち、符号化済みマルチチャネル信号から入手し得るすべてのデータをさらに用いて生成されるからである。アップミキサ200の出力は、例えば、アクティブダウンミックス、又は、一般的には、残差信号を生成しない、又は、パラメータを生成しないがエネルギー補償されたダウンミックス又はモノラル信号を生成するダウンミックススキーム、すなわち、例えば図2のコアデコーダ20によって生成されたコア信号の場合のようにパッシブダウンミックスのみが実行された場合に通常重大な問題となるエネルギー変動に悩まされないダウンミックススキームを用いて、ダウンミキサ300によってダウンミックスされる。ダウンミキサ300の出力は、例えば、モノラル信号をレンダリングするためのレンダラーに、あるいは、例えば、図1に例示した出力ステージ500に転送される。
【0028】
図3は、再び図9を参照すると、第1の部分が、残差データを有するダウンミックススキームなどの第1のダウンミックススキームで入手可能であり、例えば、残差データのない第2のダウンミックススキームで入手可能である、すなわち、パッシブダウンミックスが適用されていれば発生するであろう変動に対抗するために、例えば、エネルギー考慮事項に基づいて導出されたダウンミックス重みを用いたアクティブダウンミックスによって生成された、第2のスペクトル部分がある、さらなる実施形態を示している。。
【0029】
ダウンミックス表現の第1の部分は、第1のダウンミックススキームに対応してアップミックスを行うアップミキサ200に入力され、第1の部分は、図1又は図2に関して説明したように、ダウンミキサ300に転送され、今度はダウンミキサ300が第2のダウンミックススキームでダウンミックスを実行する。図3に示された第2の部分は、アップミキサ200に入力された部分のダウンミックススキーム又はダウンミキサ300により出力された第2のダウンミックススキームから、例えば、第2のダウンミックススキームにあることがあるが、第3の、すなわち、他の任意のダウンミックススキームにもあることもある。第2の部分とダウンミキサ300の出力とでダウンミックス領域が同じである場合には、第2の部分プロセッサ600は一切必要とはならない。代わりに、第2の部分は、ダウンミックススキームに関して現在一致している第1の部分と第2の部分とを結合するためのコンバイナ400に転送することができる。しかし、第2の部分がダウンミックス領域にある場合、すなわち、ダウンミキサ300の出力が利用可能なダウンミックススキームとは異なる基礎的なダウンミックススキームを有する場合、第2の部分プロセッサ600が提供される。一般に、第2の部分プロセッサ600は、第3のダウンミックススキームにある第2の部分をアップミックスするためのアップミキサも備え、第2の部分プロセッサ600は、ダウンミキサ300から利用可能なものと同じダウンミックス領域に、すなわち、同じダウンミックススキームを使用して、アップミキサ表現をダウンミックスするためのダウンミキサをさらに備える。第2部分プロセッサ600は、コンバイナ400に入力されるデータの完全な調和が得られるように、アップミキサ200及びその後に接続されたダウンミキサ300を使用して実装することができる。コンバイナ400は、好ましくは、フィルタバンク、IDFT、IMDCTなどのスペクトル-時間変換器によって時間領域に変換されたモノラル出力ダウンミックス表現のスペクトル表現を出力する。あるいは、コンバイナ400は、個々の入力を個々の時間領域信号に結合するように構成されており、時間領域信号は時間領域で結合されて、時間領域のモノラル出力ダウンミックス表現を得る。
【0030】
図4は、図4に図示されているようなDFTブロックなどの第1の時間-スペクトル変換器100と、図4の第2のDFTブロックなどの第2の時間-スペクトル変換器120とを含むことができる入力インターフェースを含む。第1ブロック100は、例えば、図2のコアデコーダ20が出力するような復号化済みコア信号(decoded core signal)をスペクトル表現に変換するように構成されている。さらに、第2の時間-スペクトル変換器120は、例えば、図2のサイド情報デコーダ30によって出力されるような復号化済み残差信号(decoded residual signal)を、210aで図示されるスペクトル表現に変換するように構成される。さらに、ライン210bには、例えば図2のサイド情報デコーダ30によっても出力されるサイドゲイン(side gain)などのオプションで提供される追加のパラメトリックデータが図示されている。図4のアップミキサ200は、低帯域、すなわち、例示的に図9の第1~第3バンドb1,b2,b3に対してアップミックスされた左チャネル(アップミックス済みの左チャネル)とアップミックスされた右チャネル(アップミックス済みの右チャネル)を生成する。さらに、ブロック200の出力における低帯域アップミックスは、好ましくはアクティブダウンミックスを実行するダウンミキサ300に入力され、図9の例示的に示された3つの帯域b1,b2,b3に対する低帯域表現が提供されるようにする。この低帯域ダウンミックスは、DFTブロック100によって既に生成された高帯域ダウンミックスと同じ領域内にある。ブロック100の高帯域の出力は、図9の例では、帯域b4、b5、b6のダウンミックス表現に相当する。ここで、図4にIDFT400として示されているコンバイナ400への入力では、ダウンミックスの低帯域表現と高域表現は同じ「ダウンミックス領域」にあり、同じダウンミックススキームで生成されている。ここで、調和のとれたダウンミックス表現の低帯域と高帯域を組み合わせ、好ましくは時間領域に変換して、ブロック400の出力でモノラル出力信号を提供することができる。
【0031】
[8]に記載されているようなほとんどパラメトリックなステレオスキームは、単一のダウンミックスされたチャネル(ダウンミックス済みチャネル)のみを送信し、サイドパラメータを介してステレオ画像を再作成するというアイデアを中心に構築されている。エンコーダ側でのこのダウンミックスは、DFTドメイン[7]で両チャネルの重みを動的に計算することにより、アクティブに行われる。これらの重みは、2つのチャネルのそれぞれのエネルギーとその相互相関を用いて帯域ごとに計算される。ダウンミックスで保持すべきターゲットエネルギーは、位相回転した中間チャネルのエネルギーに等しい。
【0032】
【0033】
ここで、LとRは左チャネルと右チャネルを表す。このターゲットエネルギーに基づいて、帯域bごとにチャネルの重みが次のように計算される。
【0034】
【0035】
【0036】
【0037】
【0038】
【0039】
このようなシステムのステレオ処理がすべてパラメータに依存しており、説明されているアクティブダウンミックスが全スペクトルに対して行われる場合、パッシブダウンミックスの問題を回避して所定の品質要件を満たすモノラル信号は、コア復号化後にすでに利用可能である。つまり、ほとんどの場合、デコーダのステレオ処理をすべてスキップして、DFTドメインに入らずに信号を出力すれば十分である。
【0040】
しかし、より高いビットレートの場合、この種のシステムは、低いスペクトル帯域の残差信号のコーディングもサポートしている。残差信号は、これらの最低帯域をMS変換したサイド信号と見ることができ、一方、コア信号は補完的な中間信号で、基本的には左右のパッシブダウンミックスである。サイド信号をできるだけ小さくするために、帯域ごとに計算されたサイドゲインを用いて、チャネル間の耳間レベル差(ILD)を補正している。
【0041】
【0042】
【0043】
【0044】
【0045】
コアコーダに入力されるフル帯域の信号は、低帯域のパッシブダウンミックスと高帯域のアクティブダウンミックスが混在したものである。リスニングテストでは、このような混合信号を再生した場合、知覚的な問題があることがわかっている。そのため、異なる信号部分を調和させる方法が必要である。
【0046】
【0047】
【0048】
その後、上述のようにアクティブダウンミックスが適用されるが、重みはアップミックスされた復号化済みスペクトルL及びRから計算される。低帯域は、すでにアクティブダウンミックスされた高帯域と結合され、IDFTを介して時間領域に戻される調和した信号が作成される。
【0049】
図6は、ステレオ出力のためのマルチチャネルデコーダの実施形態を示している。マルチチャネルデコーダは、同じ参照番号で示されている図4の要素を含む。さらに、ステレオマルチチャネルデコーダは、マルチチャネルデコーダの一実施態様として、高帯域ダウンミックス、すなわち第2の部分を、ステレオ出力のために、例えば左チャネルと右チャネルからなる第2のアップミックス表現にアップミックスするための第2のアップミキサ220を含んでいる。マルチチャネルデコーダの別の実装として、2つ以上の出力チャネル、例えば3つ以上の出力チャネルがある場合には、アップミキサ220だけでなく、アップミキサ200も、左チャネルと右チャネルだけではなく、対応するより多くの出力チャネルを生成することになる。
【0050】
さらに、第2のコンバイナ420は、マルチチャネルデコーダのために、すなわち、図示されたステレオデコーダのために、図6に示されている。2つ以上の出力の場合には、3番目の出力チャネルのためにさらなるコンバイナがあり、4番目の出力チャネルのために別のコンバイナがあるといった具合である。しかし、図6とは対照的に、図4のダウンミキサ300は、マルチチャネル出力のために必要ではない。
【0051】
図7は、コントローラ700の作動により、モノラルモードとステレオ/マルチチャネル出力モードとの間で切り替え可能である、切り替え可能なマルチチャネルデコーダの好ましい実施形態を示している。さらに、図6とは対照的に、マルチチャネルデコーダは、図4又は他の図に関して既に説明したダウンミキサ300を追加で備えている。さらに、切り替え可能な実装では、1つのオプションとして、2つの個別のスイッチS1、S2を設けることができる。しかし、図7の下部に示されているスイッチング機能は、複合スイッチや2つ以上のスイッチなど、他のスイッチング手段によっても実装することができる。一般に、スイッチ1はモノラル出力モードで動作するように構成されており、「アップミックスハイ(upmix high)」とも示される第2のアップミキサ220がバイパスされるようになっている。さらに、第2のスイッチS2は、第2の制御信号CTRL2によって、図7で「アップミックスロー(upmix low)」と示されたアップミキサ200の出力をアクティブダウンミックス300に供給するように構成されている。さらに、モノラル出力モードでは、単一のモノラル出力信号を生成するための単一のコンバイナ400のみが必要であるため、図6に関して説明したアップミックスハイブロック220は非アクティブであり、さらに、「IDFTR」と示された第2のコンバイナ420も非アクティブである。
【0052】
これとは逆に、ステレオ出力モード又は一般的にはマルチチャネル出力モードでは、コントローラ700は、制御信号CTRL1を介して、第1のスイッチを作動させ、第1の時間-周波数変換器100の出力が、図7の「アップミックスハイ」として示される第2のアップミキサ220に供給されるように構成される。スイッチS1の作動により、第2のコンバイナ220が作動する。さらに、コントローラ700は、ブロック200の出力がアクティブなダウンミキサ300に入力されず、ダウンミキサ300がバイパスされるように、第2のスイッチS2 720を制御するように構成されている。ブロック200の出力の左チャネル(低帯域)部分は、コンバイナ400のための低帯域部分として転送され、ブロック200の出力における右チャネルの低帯域部分は、図7に例示されているように、第2コンバイナ420の低帯域入力に転送される。さらに、ステレオ/マルチチャネル出力モードでは、ダウンミックス300は非アクティブである。
【0053】
図8aは、アクティブなダウンミックスを実行するためのダウンミックス300で使用される実施形態のフローチャートを示している。ステップ800では、ターゲットエネルギーに基づいて重みwR及びwLが計算される。これは、右チャネル用の重みwRと左チャネル用の重みwLが各帯域に対して得られるように、帯域ごとに行われる。
【0054】
ブロック820では、考慮中の信号の全帯域にわたって、又はスペクトルビンごとの対応する部分でのみ、重みがアップミックス済み信号に適用される。この目的のために、ブロック820は、スペクトル領域(複素数)の信号又はビン又はスペクトル値を受け取る。ダウンミックスを得るための重みの適用、及び特に重み付けされた値の加算に続いて、時間領域への変換840が実行される。ブロック820において一部分のみが処理されるか、全帯域が処理されるかに応じて、時間領域への変換は、他の部分なしで行われるか、又は、例えば、図3又は図4に関して図示及び議論されたような調和されたダウンミックスの場合は、特に他の部分とともに行われる。
【0055】
図8bは、図8aのブロック800で実行される機能の好ましい実施形態を示している。特に、各帯域に対する重みwR及びwLの計算のために、Lに対する振幅関連の指標(大きさ,measure)が帯域に対して計算される。この目的のために、左チャネルのための、すなわち、図1図7のいずれかのブロック200によって出力された左チャネルのための個々のスペクトル線が入力される。ブロック804では、同じ帯域bの第2チャネル又は右チャネルについて同じ手順が実行される。さらにブロック806では、帯域bのLとRの線形結合について別の振幅関連の指標が計算される。ブロック806では、再び、検討中の帯域について、第1チャネルLのスペクトル値、第2チャネルRのスペクトル値が要求される。ブロック808では、対応する帯域bにおいて、左チャネルと右チャネルの間、あるいは一般的には第1チャネルと第2チャネルの間の相互相関の指標が計算される。この目的のために、もう一度、第1チャネルと第2チャネルの指標eにおけるスペクトル値が、対応する帯域について必要とされる。
【0056】
【0057】
同じことが、ブロック804で計算された振幅関連の指標、又はブロック806で計算された振幅関連の指標にも当てはまる。
【0058】
さらに、ブロック808で計算された相互相関の指標に関しては、前に図示された対応する数学的方程式も、ドット積の二乗と平方根の計算に依存している。しかし、ラウドネス領域に対応する3に等しい指数、又は、1より大きい指数など、2とは異なる他の指数をドット積に使用することも可能である。同時に、平方根の代わりに、1/2とは異なる他の指数、例えば1/3又は、一般的には0と1の間にある任意の指数を使用することができる。
【0059】
さらに、ブロック810は、3つの振幅関連の指標及び相互相関の指標に基づいてwR及びwLを計算することを示す。ターゲットエネルギーがダウンミックスによって保存され、位相回転された中間チャネルのエネルギーに等しいことが示されているが、wR及びwLの計算にも、実際のダウンミックス信号の計算にも、そのような回転角を持つ回転が実際に行われることは必要ではない。その代わり、回転角φでの実際の回転が行われない場合に必要となるのは、対応する帯域bにおけるLとRの相互相関の指標の計算だけである。前述の実施形態では、ターゲットエネルギーとして、位相回転したミッドチャネルのエネルギーを用いることを示したが、他のターゲットエネルギーを用いてもよいし、位相回転を全く行わなくてもよい。他のターゲットエネルギーに関して、これらのターゲットエネルギーは、ダウンミックス300によって生成されるダウンミックス信号のエネルギーが、例えば、図4のブロック100に入力される複号化済みコア信号の基礎となるようなパッシブダウンミックスのエネルギーよりも、同じ信号に対して変動が少なくなるようにするエネルギーである。
【0060】
図9は、入力ダウンミックス表現に関して、残差データを含むダウンミックスとして提供される低帯域の第1の部分を示し、入力ダウンミックス表現に関して、図8a、8bに関して前に説明したように重みを用いて生成されたダウンミックスによって提供される第2の部分を示すスペクトルの一般的な表現を示している。図9は、3つの帯域が第1の部分のためのものであり、3つの帯域が第2の部分のためのものである6つの帯域のみを図示しており、また、図9は、低帯域から高帯域へと増加する特定の帯域幅を図示しているが、特定の数、特定の帯域幅、及びスペクトルの第1の部分への分離と第2の部分への分離は、例示的なものにすぎない。実際のシナリオでは、かなり高い数の帯域が存在し、さらに、残差信号を持つ第1の部分は、帯域bの数の50%未満となる。
【0061】
好ましくは、図4、6及び図7の時間-スペクトル変換器100、120及びコンバイナ400、420は、好ましくはFFT又はIFFTアルゴリズムを実装するDFT又はIDFTブロックとして実装される。ブロック100、120に入力された連続的な復号化済み信号の処理については、オーバーラップするブロックが形成され、分析フィルタリングされ、スペクトル領域に変換され、処理され、コンバイナ400、420において合成フィルタリングされ、50%のオーバーラップでもう一度結合されるブロックワイズ処理が行われる。合成側の50%オーバーラップの組み合わせは、典型的には、好ましくは、クロスフェードの重みが分析/合成ウィンドウに既に含まれている、1つのブロックから他のブロックへのクロスフェードを伴うオーバーラップ加算操作によって実行される。しかし、そうでない場合には、図7又は図6のブロック400(例えば)又は420(例えば)の出力で実際のクロスフェードが行われ、モノラル出力信号又は左出力信号又は右出力信号のいずれかの各時間領域出力サンプルが、2つの異なるブロックの2つの値の加算によって生成されるようにする。50%以上のオーバーラップの場合は、3つ又は対応するさらに多くのブロック間のオーバーラップを同様に実行することができる。
【0062】
また、一方の時間-スペクトル変換と他方のスペクトル-時間変換を、例えば修正離散コサイン変換で行う場合にも、オーバーラップ処理が使用される。スペクトル-時間変換側では、オーバーラップ加算処理が行われ、各出力時間領域サンプルは、2つ(又はそれ以上)の異なるIMDCTブロックからの対応する時間領域サンプルを合計することで得られる。
【0063】
好ましくは、図4図6図7に示すように、ダウンミックススキームの調和は、完全にスペクトル領域で行われる。図7に示すように、モノラルからステレオ、又はステレオからモノラルに切り替える際には、追加の時間-スペクトル変換又はスペクトル-時間変換は必要ない。モノラル出力モードの場合はダウンミキサ300により、又は、ステレオ出力モードの場合は第2アップミキサ220(アップミックスハイ)により、スペクトル領域のデータを操作するだけでよい。処理の全体的な遅延は、モノラル又はステレオ出力のどちらでも同じであり、これは、後続の処理動作又は先行する処理動作が、モノラル又はステレオの出力信号があるかどうかを意識する必要がないため、重要な利点でもある。
【0064】
好ましい実施形態では、専用の後処理段階がもたらす追加の遅延及び著しく高い複雑さを伴わずに、[8]に記載されているように、システムの復号化済みコア信号の異なるスペクトル帯域に異なるダウンミックス方法があることに起因するアーチファクトやスペクトルラウドネスの不均衡を除去する。
【0065】
実施形態は、一側面において、信号のすべてのスペクトル又は時間部分を調和させるために、1つ又は複数のダウンミックス方法を使用してダウンミックスされた、モノラル信号の1つ(又は複数)のスペクトル又は時間部分のアップミックスと、それに続くデコーダでのダウンミックスを提供する。
【0066】
本発明は、一側面において、デコーダ側でのステレオからモノラルへのダウンミックスの調和を提供するものである。
【0067】
一実施形態では、出力ダウンミックスは、出力表現に含まれるダウンミックスを受信し、出力表現のこのダウンミックスをデジタル/アナログ変換器に供給する再生装置のためのものであり、アナログダウンミックス信号は、再生装置に含まれる1つ又は複数のラウドスピーカーによってレンダリングされる。再生装置は、携帯電話、タブレット、デジタル時計、Bluetoothスピーカーなどのモノラル装置であってもよい。
【0068】
ここで言及しておきたいのは、先に述べたようなすべての代替案又は側面、及び以下の請求項の独立請求項によって定義されるすべての側面は、個別に、すなわち、企図された代替案、対象物、又は独立請求項以外の他の代替案又は対象物なしに、使用することができるということである。しかし、他の実施形態では、2つ以上の代替物又は態様又は独立請求項を互いに組み合わせることができ、また、他の実施形態では、すべての態様、又は代替物及びすべての独立請求項を互いに組み合わせることができる。
【0069】
いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述をも表すことは明らかであり、ブロック又はデバイスは方法ステップ又は方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテム又は機能の記述をも表す。
【0070】
特定の実現要求に依存して、本発明の実施形態は、ハードウェアにおいて又はソフトウェアにおいて実施することができる。実施は、その上に記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働することができる)、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリを用いて実行することができる。
【0071】
本発明に係るいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。
【0072】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本発明の方法の1つを実行するように動作可能であるプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。
【0073】
他の実施形態は、機械読取可能なキャリア又は非一時的な記憶媒体に記憶された、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備える。
【0074】
言い換えれば、本発明の方法の一実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
【0075】
本発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備えるデータキャリア(又はデジタル記憶媒体又はコンピュータ読取可能媒体)である。
【0076】
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えばインターネットによって転送されるように構成することができる。
【0077】
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成された又は適合された処理手段、例えばコンピュータ又はプログラマブルロジックデバイスを備える。
【0078】
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがインストールされたコンピュータを備える。
【0079】
いくつかの実施形態において、本願明細書に記載された方法のいくつか又は全ての機能を実行するために、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
【0080】
上記記載された実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成及び詳細の修正及び変更は、当業者にとって明らかであると理解される。それ故に、本発明は、間近に迫った特許請求の範囲のスコープのみによって制限され、本願明細書の実施形態の記載及び説明の方法によって表された特定の詳細によって制限されないことが意図される。
【0081】
参照
[1] ITU-R BS.775-2, Multichannel Stereophonic Sound System With And Without Accompanying Picture, 07/2006.
[2] F. Baumgarte, C. Faller und P. Kroon, "Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing," in 116th Convention of the AES, Berlin, 2004.
[3] G. Stoll, J. Groh, M. Link, J. Deigmoller, B. Runow, M. Keil, R. Stoll, M. Stoll und C. Stoll, "Method for Generating a Downward-Compatible Sound Format". USA Patent US 2012/0 014 526, 2012.
[4] M. Kim, E. Oh und H. Shim, "Stereo audio coding improved by phase parameters," in 129th Convention of the AES, San Francisco, 2010.
[5] A. Adami, E. Habets und J. Herre, "Down-mixing using coherence suppression," in IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, 2014.
[6] ISO/IEC 23008-3:, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, 2019.
[7] S. Bayer, C. Bors, J. Buthe, S. Disch, B. Edler, G. Fuchs, F. Ghido und M. Multrus, "DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS AND MULTICHANNEL ENCODER AND MULTICHANNEL DECODER". Patent WO18086946, 17 05 2018.
[8] S. Bayer, M. Dietz, S. Dohla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli und M. Schnell, " APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.
図1
図2
図3
図4
図5
図6
図7
図8a
図8b
図9
【国際調査報告】