(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-04
(45)【発行日】2023-09-12
(54)【発明の名称】位相値を大きさ値に適用するダウンミキサ、オーディオ符号化装置、方法及びコンピュータプログラム
(51)【国際特許分類】
G10L 19/008 20130101AFI20230905BHJP
【FI】
G10L19/008
(21)【出願番号】P 2020554533
(86)(22)【出願日】2019-04-05
(86)【国際出願番号】 EP2019058713
(87)【国際公開番号】W WO2019193185
(87)【国際公開日】2019-10-10
【審査請求日】2020-12-01
(32)【優先日】2018-04-06
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】カラペティアン・アレクサンダー
(72)【発明者】
【氏名】ヴォルフ・フェリックス
(72)【発明者】
【氏名】プロクシュティース・ヤン
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2004-048741(JP,A)
【文献】特表2013-546013(JP,A)
【文献】特表2017-501438(JP,A)
【文献】米国特許出願公開第2012/0308018(US,A1)
【文献】HOANG, Thi Minh Nguyet et al.,"Parametric stereo extension of ITU-T G.722 based on a new downmixing scheme",Proc. of the 2010 IEEE International Workshop on Multimedia Signal Processing,2010年10月04日,pp.188-193
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
H04S 1/00-7/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
前記入力信号の複素スペクトル領域値の合計(507b、507d)又は加重和(392)を算定して、前記入力信号のスペクトル領域値に関する、前記合計の実部及び虚部あるいは前記加重和の実部及び虚部に基づき、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミキサにより算定されるキャンセル度情報(Q、232)が前記入力信号間の比較的大きい破壊的干渉を示す時点で、前記大きさ値(M
Mod
R)が基準値(M
R、221)に対して選択的に低減され、前記入力信号のスペクトル領域値の合計ラウドネスに対応するように、また、
前記キャンセル度情報(Q)が前記入力信号間の比較的小さい破壊的干渉を示す時点で、前記大きさ値が前記基準値(M
R)に対して選択的に増やされるように、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222)を算定するように構成される、
ダウンミキサ。
【請求項2】
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R)の前記算定とは別に、前記ダウンミックス信号の前記スペクトル領域値の前記位相値(P
P、P
Mod
P)を算定するように構成される、請求項1に記載のダウンミキサ。
【請求項3】
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)のラウドネス値(503a、503b)を算定するように構成され、
前記入力信号の前記スペクトル領域値の前記ラウドネス値に基づき、前記ダウンミックス信号の前記スペクトル領域値に関連付けられた合計ラウドネス値(503d)を導出するように構成され、
前記合計ラウドネス値から前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を導出するように構成される、請求項1又は請求項2に記載のダウンミキサ。
【請求項4】
前記ダウンミックス信号の前記スペクトル領域値の極座標表現の絶対値として前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を使用するように、前記ダウンミックス信号の前記スペクトル領域値の前記極座標表現の位相値として前記位相値(P
P、P
Mod
P、132、398、508a、510a)を使用するように、及び前記極座標表現に基づき、前記ダウンミックス信号の前記スペクトル領域値のデカルト複素表現(511a、511b)を得るように構成される、
請求項1から3のいずれか一項に記載のダウンミキサ。
【請求項5】
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において前記キャンセル度情報を考慮するように構成され、
前記キャンセル度情報が、前記入力信号のスペクトル領域値間の建設的又は破壊的干渉の程度を説明し、
前記キャンセル度情報により破壊的干渉が示される場合に、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)と比較して選択的に低減するように構成される、
請求項1から4のいずれか一項に記載のダウンミキサ。
【請求項6】
異なる配向を有する前記入力信号の前記スペクトル領域値(110a、110b、210a、210b、501a、501n)の成分に関する別個の合計(sumIm+、sumIm-、sumRe+、sumRe-)を算定するように構成され、
異なる配向を有する前記入力信号の前記スペクトル領域値の成分に関する前記別個の合計(sumIm+、sumIm-、sumRe+、sumRe-)に基づき、前記キャンセル度情報(Q)を算定するように構成される、
請求項5に記載のダウンミキサ。
【請求項7】
前記算定された合計のうち、直交する配向に関連付けられており、支配的な合計値として、反対の方向(sumIm-及びsumRe-)に関連付けられている合計以上である2つ(sumIm+及びsumRe+)を選択するように構成され、
-第1の支配的な合計値(sumRe+)の配向と反対の配向に関連付けられた第1の非支配的な合計値(sumRe-)と、前記第1の支配的な合計値(sumRe+)との間の符号なし比率、及び
-第2の支配的な合計値(sumIm+)の配向と反対の配向に関連付けられた第2の非支配的な合計値(sumIm-)と、前記第2の支配的な合計値(sumIm+)との間の符号なし比率に基づき、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R)の選択的な低減を引き起こすスケーリング値(Q、Qmapped)を算定するように構成され、
その結果、非支配的な合計値とその関連付けられた支配的な合計値との間で符号なし比率(|sumRe-|/sumRe+、|sumIm-|/sumIm+)が増加すると、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R)が低減する、
請求項6に記載のダウンミキサ。
【請求項8】
以下の式に従って前記キャンセル度情報Qを計算するように構成され、前記式において、
sumRe+は、前記入力オーディオ信号の複素スペクトル領域値(110a、110b、210a、210b、501a、501n)の正の実部の合計であり、
sumRe-は、前記入力オーディオ信号の複素スペクトル領域値の負の実部の合計であり、
sumIm+は、前記入力オーディオ信号の複素スペクトル領域値の正の虚部の合計であり、
sumIm-は、前記入力オーディオ信号の複素スペクトル領域値の負の虚部の合計である、
請求項5から7のいずれか一項に記載のダウンミキサ。
・
及び
の場合:
・
及び
の場合:
・
及び
の場合:
・
及び
の場合:
【請求項9】
前記キャンセル度情報(Q(t))を経時的に追跡するように、また、前記キャンセル度情報の履歴に応じて、前記キャンセル度情報(Q)が前記入力信号間の比較的小さい破壊的干渉を示す時点で、前記基準値(M
R)に対して前記大きさ値を選択的にどの程度増加させるかを算定するように構成される、
請求項1から8のいずれか一項に記載のダウンミキサ。
【請求項10】
前ダウンミキサが、前記キャンセル度情報を追跡するために、無限インパルス応答平滑化演算又はスライディング平均平滑化演算を使用して、瞬時キャンセル度情報(Q(t))に基づき、時間的平滑化キャンセル度情報(Qsmooth(t))を得るように構成される、請求項1から9のいずれか一項に記載のダウンミキサ。
【請求項11】
前記時間的平滑化キャンセル度情報(Q
smooth(t))に応じて、瞬時キャンセル度値(Q(t))をマッピングされたキャンセル度値(Q
mapped)にマッピングするように構成され、
それにより、前記大きさ値の低減を示す前記時間的平滑化キャンセル度情報の値が、前記瞬時キャンセル度値を超える前記マッピングされたキャンセル度値の増加をもたらす、請求項10に記載のダウンミキサ。
【請求項12】
pが0<p<1の定数である
により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得るように構成され、また、
Tが0<T<1の定数であり、
Q(t)が0~1の間の範囲であり、前記入力信号間の比較的大きい破壊的干渉には値0を、前記入力信号間の比較的小さい破壊的干渉には値1をとる
により、マッピングされたキャンセル度値Qmapped(t)を得るように構成され、
前記マッピングされたキャンセル度値を使用して基準大きさ値(505)をスケーリングして、前記大きさ値(506a)を得るように構成される、
請求項1から11のいずれか一項に記載のダウンミキサ。
【請求項13】
pが0<=p<=1の定数である
により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得るように構成され、
また、Gが所定の値又は0.5~20の間若しくは1~10の間の定数であり、
m
slope(t)が補助変数であり、
max{}が最大演算子であり、
min{}が最小演算子であり、
Q(t)が0~1の間の範囲であり、前記入力信号間の比較的大きい破壊的干渉には値0を、前記入力信号間の比較的小さい破壊的干渉には値1をとる
により、マッピングされたキャンセル度値Qmapped(t)を得るように構成され、
前記マッピングされたキャンセル度値を使用して基準大きさ値(505)をスケーリングして、前記大きさ値(506a)を得るように構成される、
請求項1から11のいずれか一項に記載のダウンミキサ。
【請求項14】
キャンセル度値(Q
mapped)を使用して前記入力信号のスペクトル領域値の合計ラウドネスに対応する大きさ値(M
R、221)をスケーリングして、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222)を得るように構成される、
請求項1から13のいずれか一項に記載のダウンミキサ。
【請求項15】
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)の加重和(392)を算定して前記入力信号のスペクトル領域値の前記加重和に基づき前記位相値(398)を算定するように構成され、
所定の干渉レベルより大きい破壊的干渉を回避するような方法で前記入力信号のスペクトル領域値に重み付けして、前記加重和を得るように構成され、
相対的に大きい大きさを有するスペクトル領域値に、相対的に大きい重みを付ける、
請求項1から14のいずれか一項に記載のダウンミキサ。
【請求項16】
前記入力信号のスペクトル領域値の加重和(392)を算定して、
前記入力信号のスペクトル領域値の前記加重和に基づき前記位相値(398)を算定するように構成され、
異なる入力信号におけるそれぞれのスペクトルビンの時間平均強度(362、372、382)に応じて前記入力信号のスペクトル領域値を重み付けして、前記加重和を得るように構成される、
請求項1から15のいずれか一項に記載のダウンミキサ。
【請求項17】
複数の入力オーディオ信号(1010a、1010n)に基づき、符号化されたオーディオ表現(1012)を提供するためのオーディオ符号化装置(1000)であって、
請求項1から16のいずれか一項に記載のダウンミキサを含み、
前記ダウンミキサは、前記複数の入力オーディオ信号のスペクトル領域表現に基づきダウンミックス信号(1022)を提供するように構成され、
前記符号化されたオーディオ表現(1012)を得るために、前記ダウンミックス信号を符号化するように構成される、オーディオ符号化装置。
【請求項18】
複数の入力信号に基づきダウンミックス信号を提供する方法(900)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値の大きさ値(M
R、M
Mod
R)を算定(910)することと、
前記ダウンミックス信号のスペクトル領域値の位相値(P
P、P
Mod
P)を算定(920)することと、
前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数表現を得るために、前記位相値(P
P、P
Mod
P)を適用(930)することと、
前記入力信号の複素スペクトル領域値の合計(507b、507d)又は加重和(392)を算定して、前記入力信号のスペクトル領域値に関する、前記合計の実部及び虚部あるいは前記加重和の実部及び虚部に基づき、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することとを含み、
前記方法により算定されるキャンセル度情報(Q、232)が前記入力信号間の比較的大きい破壊的干渉を示す時点で、前記大きさ値(M
Mod
R)が基準値(M
R、221)に対して選択的に低減され、前記入力信号のスペクトル領域値の合計ラウドネスに対応するように、また、
前記キャンセル度情報(Q)が前記入力信号間の比較的小さい破壊的干渉を示す時点で、前記大きさ値が前記基準値(M
R)に対して選択的に増やされるように、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222)を算定することを含む、
方法。
【請求項19】
コンピュータプログラムがコンピュータ上で実行されるときに、請求項18に記載の方法を実行するためのコンピュータプログラム。
【請求項20】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において前記キャンセル度情報を考慮するように構成され、
前記キャンセル度情報は、前記入力信号のスペクトル領域値間の建設的干渉又は破壊的干渉の程度を示し、
前記キャンセル度情報に応じて前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)をスケーリングして、前記キャンセル度情報により破壊的干渉が示される場合に、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
Mod
R、221、505)と比較して選択的に低減するように構成される、ダウンミキサ。
【請求項21】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において、前記キャンセル度情報を考慮するように構成され、
前記キャンセル度情報は、前記入力信号のスペクトル領域値間の建設的干渉又は破壊的干渉の程度を示し、
前記キャンセル度情報により破壊的干渉が示される場合に、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)と比較して選択的に低減するように構成され、
相異なる配向を有する前記入力信号の前記スペクトル領域値(110a、110b、210a、210b、501a、501n)の成分の合計(sumIm+、sumIm-、sumRe+、sumRe-)を算定するように構成され、
相異なる配向を有する前記入力信号の前記スペクトル領域値の成分の前記合計(sumIm+、sumIm-、sumRe+、sumRe-)に基づき、前記キャンセル度情報(Q)を算定するように構成され、
直交する配向に関連付けられており、また支配的な合計値として、反対の方向(sumIm-、sumRe-)に関連付けられている合計以上である前記算定された合計のうち2つ(sumIm+、sumRe+)を選択するように構成され、
-第1の支配的な合計値(sumRe+)の配向と反対の配向に関連付けられた第1の非支配的な合計値(sumRe-)と、前記第1の支配的な合計値(sumRe+)との間の符号なし比率、及び
-第2の支配的な合計値(sumIm+)の配向と反対の配向に関連付けられた第2の非支配的な合計値(sumIm-)と、前記第2の支配的な合計値(sumIm+)との間の符号なし比率に基づき、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R)の選択的な低減を引き起こすスケーリング値(Q、Qmapped)を算定するように構成され、
その結果、非支配的な合計値とその関連付けられた支配的な合計値との間で符号なし比率(|sumRe-|/sumRe+、|sumIm-|/sumIm+)が増加すると、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R)が低減する、
ダウンミキサ。
【請求項22】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において前記キャンセル度情報を考慮するように構成され、
前記キャンセル度情報は、前記入力信号のスペクトル領域値間の建設的干渉又は破壊的干渉の程度を示し、
前記キャンセル度情報により破壊的干渉が示される場合に、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)と比較して選択的に低減するように構成され、
以下の式に従って前記キャンセル度情報Qを計算するように構成され、前記式において、
sumRe+は、前記入力オーディオ信号の複素スペクトル領域値(110a、110b、210a、210b、501a、501n)の正の実部の合計であり、
sumRe-は、前記入力オーディオ信号の複素スペクトル領域値の負の実部の合計であり、
sumIm+は、前記入力オーディオ信号の複素スペクトル領域値の正の虚部の合計であり、
sumIm-は、前記入力オーディオ信号の複素スペクトル領域値の負の虚部の合計である、ダウンミキサ。
□
及び
の場合:
□
及び
の場合:
□
及び
の場合:
□
及び
の場合:
【請求項23】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
複数の入力信号に基づき基準大きさ値を算定するように構成され、
前記ダウンミキサにより算定されるキャンセル度情報(Q、232)が前記入力信号間の比較的大きい破壊的干渉を示す時点で、前記大きさ値(M
Mod
R)が基準値(M
R、221)に対して選択的に低減され、前記入力信号のスペクトル領域値の合計ラウドネスに対応するように、また、
前記キャンセル度情報(Q)が前記入力信号間の比較的小さい破壊的干渉を示す時点で、前記大きさ値が前記基準値(M
R)に対して選択的に増やされるように、
前記入力信号の建設的干渉及び破壊的干渉及によって影響を受けない前記基準大きさ値をスケーリングして、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222)を算定するように構成される、ダウンミキサ。
【請求項24】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
pが0<p<1の定数である
により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得るように構成され、また、
Tが0<T<1の定数であり、
Q(t)が0~1の間の範囲であり、前記入力信号間の比較的大きい破壊的干渉には値0を、前記入力信号間の比較的小さい破壊的干渉には値1をとる
により、マッピングされたキャンセル度値Qmapped(t)を得るように構成され、
前記マッピングされたキャンセル度値を使用して基準大きさ値(505)をスケーリングして、前記大きさ値(506a)を得るように構成される、ダウンミキサ。
【請求項25】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
pが0<=p<=1の定数である
により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得るように構成され、また、
Gが所定の値又は0.5~20の間若しくは1~10の間の定数であり、
m
slope(t)が補助変数であり、
max{}が最大演算子であり、
min{}が最小演算子であり、
Q(t)が0~1の間の範囲であり、前記入力信号間の比較的大きい破壊的干渉には値0を、前記入力信号間の比較的小さい破壊的干渉には値1をとる
により、マッピングされたキャンセル度値Qmapped(t)を得るように構成され、
前記マッピングされたキャンセル度値を使用して基準大きさ値(505)をスケーリングして、前記大きさ値(506a)を得るように構成される、
ダウンミキサ。
【請求項26】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)の加重和(392)を算定し、前記入力信号のスペクトル領域値の前記加重和に基づき前記位相値(398)を算定するように構成され、
所定の干渉レベルより大きい破壊的干渉を回避するような方法で、前記入力信号のスペクトル領域値に重み付けして、前記加重和を得るように構成され、
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)のラウドネス値(503a、503b)を算定するように構成され、
前記入力信号の前記スペクトル領域値の前記ラウドネス値に基づき、前記ダウンミックス信号の前記スペクトル領域値に関連付けられる合計ラウドネス値(503d)を導出するように構成され、
前記合計ラウドネス値から前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を導出するように構成される、
ダウンミキサ。
【請求項27】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するためのダウンミキサ(100、500、600、800、1020)であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定するように構成され、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用するように構成され、
前記入力信号のスペクトル領域値の加重和(392)を算定し、
前記入力信号のスペクトル領域値の前記加重和に基づき前記位相値(398)を算定するように構成され、
異なる入力信号におけるそれぞれのスペクトルビンの時間平均強度(362、372、382)に応じて、重み付け値を使用して前記入力信号のスペクトル領域値を重み付けして、前記加重和を得るように構成され、
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)のラウドネス値(503a、503b)を算定するように構成され、
前記入力信号の前記スペクトル領域値の前記ラウドネス値に基づき、前記ダウンミックス信号の前記スペクトル領域値に関連付けられた合計ラウドネス値(503d)を導出するように構成され、
前記合計ラウドネス値から前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を導出するように構成され、
同一の周波数及び後続の各時間に関連付けられた前記入力信号のうち第1の入力信号に関する複数のスペクトルビンのスペクトル領域値にわたる平均を形成して、前記重み付け値のうち第1の入力信号に対応する第1の重み付け値(362)を得るように構成され、
同一の周波数及び後続の各時間に関連付けられた前記入力信号のうち第2の入力信号に関する複数のスペクトルビンのスペクトル領域値にわたる平均を形成して、前記重み付け値のうち第2の信号に対応する第2の重み付け値(372)を得るように構成される、ダウンミキサ。
【請求項28】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することを含み、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することを含み、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することを含み、
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において前記キャンセル度情報を考慮することを含み、
前記キャンセル度情報は、前記入力信号のスペクトル領域値間の建設的干渉又は破壊的干渉の程度を示し、
前記キャンセル度情報に応じて前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)をスケーリングして、前記キャンセル度情報により破壊的干渉が示される場合に、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
Mod
R、221、505)と比較して選択的に低減することを含む、方法。
【請求項29】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することを含み、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することを含み、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することを含み、
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において、前記キャンセル度情報を考慮することを含み、
前記キャンセル度情報は、前記入力信号のスペクトル領域値間の建設的干渉又は破壊的干渉の程度を示し、
前記キャンセル度情報により破壊的干渉が示される場合に、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)と比較したとき、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を選択的に低減することを含み、
異なる配向を有する前記入力信号の前記スペクトル領域値(110a、110b、210a、210b、501a、501n)の成分の合計(sumIm+、sumIm-、sumRe+、sumRe-)を算定することを含み、
異なる配向を有する前記入力信号の前記スペクトル領域値の成分の前記合計(sumIm+、sumIm-、sumRe+、sumRe-)に基づき、前記キャンセル度情報(Q)を算定することを含み、
直交する配向に関連付けられており、また支配的な合計値として、反対の方向(sumIm-、sumRe-)に関連付けられている合計以上である前記算定された合計のうち2つ(sumIm+、sumRe+)を選択することを含み、
-第1の支配的な合計値(sumRe+)の配向と反対の配向に関連付けられた第1の非支配的な合計値(sumRe-)と、前記第1の支配的な合計値(sumRe+)との間の符号なし比率、及び
-第2の支配的な合計値(sumIm+)の配向と反対の配向に関連付けられた第2の非支配的な合計値(sumIm-)と、前記第2の支配的な合計値(sumIm+)との間の符号なし比率に基づき、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R)の選択的な低減を引き起こすスケーリング値(Q、Qmapped)を算定することを含み、
その結果、非支配的な合計値とその関連付けられた支配的な合計値との間で符号なし比率(|sumRe-|/sumRe+、|sumIm-|/sumIm+)が増加すると、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R)が低減する、方法。
【請求項30】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することを含み、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することを含み、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することを含み、
キャンセル度情報(Q、232、612a)を算定し、前記ダウンミックス信号のスペクトル領域値の前記大きさ値(M
Mod
R、222、506a)の前記算定において前記キャンセル度情報を考慮することを含み、
前記キャンセル度情報は、前記入力信号のスペクトル領域値間の建設的干渉又は破壊的干渉の程度を示し、
前記キャンセル度情報により破壊的干渉が示される場合に、前記入力信号の前記スペクトル領域値のラウドネス値の合計を表す大きさ値(M
R、221、505)と比較したときに、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222、506a)を選択的に低減することを含み、
以下の式に従って前記キャンセル度情報Qを計算することを含み、前記式において、
sumRe+は、前記入力オーディオ信号の複素スペクトル領域値(110a、110b、210a、210b、501a、501n)の正の実部の合計であり、
sumRe-は、前記入力オーディオ信号の複素スペクトル領域値の負の実部の合計であり、
sumIm+は、前記入力オーディオ信号の複素スペクトル領域値の正の虚部の合計であり、
sumIm-は、前記入力オーディオ信号の複素スペクトル領域値の負の虚部の合計である、方法。
・
及び
の場合:
・
及び
の場合:
・
及び
の場合:
・
及び
の場合:
【請求項31】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することと、
複数の入力信号に基づき基準大きさ値を算定することと、
前記ダウンミキサにより算定されるキャンセル度情報(Q、232)が前記入力信号間の比較的大きい破壊的干渉を示す時点で、前記大きさ値(M
Mod
R)が基準値(M
R、221)に対して選択的に低減され、前記入力信号のスペクトル領域値の合計ラウドネスに対応するように、また、
前記キャンセル度情報(Q)が前記入力信号間の比較的小さい破壊的干渉を示す時点で、前記大きさ値が前記基準値(M
R)に対して選択的に増やされるように、
前記入力信号の建設的干渉及び破壊的干渉及によって影響を受けない前記基準大きさ値をスケーリングして、前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
Mod
R、222)を算定することとを含む、方法。
【請求項32】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することと、
pが0<p<1の定数である
により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得ることと、
Tが0<T<1の定数であり、Q(t)が0~1の間の範囲であり、前記入力信号間の比較的大きい破壊的干渉には値0を、前記入力信号間の比較的小さい破壊的干渉には値1をとる
により、マッピングされたキャンセル度値Qmapped(t)を得ることと、
前記マッピングされたキャンセル度値を使用して基準大きさ値(505)をスケーリングして、前記大きさ値(506a)を得ることとを含む、方法。
【請求項33】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することと、
pが0<=p<=1の定数である
により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得ることと、
Gが所定の値又は0.5~20の間若しくは1~10の間の定数であり、
m
slope(t)が補助変数であり、
max{}が最大演算子であり、
min{}が最小演算子であり、
Q(t)が0~1の間の範囲であり、前記入力信号間の比較的大きい破壊的干渉には値0を、前記入力信号間の比較的小さい破壊的干渉には値1をとる
により、マッピングされたキャンセル度値Qmapped(t)を得ることと、
前記マッピングされたキャンセル度値を使用して基準大きさ値(505)をスケーリングして、前記大きさ値(506a)を得ることとを含む、方法。
【請求項34】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することと、
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)の加重和(392)を算定し、前記入力信号のスペクトル領域値の前記加重和に基づき前記位相値(398)を算定することと、
所定の干渉レベルより大きい破壊的干渉を回避するような方法で、前記入力信号のスペクトル領域値に重み付けして、前記加重和を得ること
であって、相対的に大きい大きさを有するスペクトル領域値に、相対的に大きい重みを付ける、前記加重和を得ることと、
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)のラウドネス値(503a、503b)を算定することと、
前記入力信号の前記スペクトル領域値の前記ラウドネス値に基づき、前記ダウンミックス信号の前記スペクトル領域値に関連付けられた合計ラウドネス値(503d)を導出することと、
前記合計ラウドネス値から前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を導出することとを含む、方法。
【請求項35】
複数の入力信号(110a、110b、210a、210b、500a、500n、1010a、1010n)に基づきダウンミックス信号(592、1022)を提供するための方法であって、
前記入力信号のラウドネス情報に基づき、前記ダウンミックス信号のスペクトル領域値(112、511a、511b)の大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の位相値(P
P、P
Mod
P、132、398、508a、510a)を算定することと、
前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値に基づき、前記ダウンミックス信号の前記スペクトル領域値の複素数値表現(112、511a、511b)を得るために、前記位相値(P
P、P
Mod
P、132、398、508a、510a)を適用することと、
前記入力信号のスペクトル領域値の加重和(392)を算定し、前記入力信号のスペクトル領域値の前記加重和に基づき前記位相値(398)を算定することと、
異なる入力信号におけるそれぞれのスペクトルビンの時間平均強度(362、372、382)に応じて、重み付け値を使用して前記入力信号のスペクトル領域値を重み付けして、前記加重和を得ることと、
前記入力信号のスペクトル領域値(110a、110b、210a、210b、501a、501n)のラウドネス値(503a、503b)を算定することと、
前記入力信号の前記スペクトル領域値の前記ラウドネス値に基づき、前記ダウンミックス信号の前記スペクトル領域値に関連付けられた合計ラウドネス値(503d)を導出することと、
前記合計ラウドネス値から前記ダウンミックス信号の前記スペクトル領域値の前記大きさ値(M
R、M
Mod
R、122、221、222、505、506a)を導出することと、
同一の周波数及び後続の各時間に関連付けられた前記入力信号のうち第1の入力信号に関する複数のスペクトルビンのスペクトル領域値にわたる平均を形成して、前記重み付け値のうち第1の入力信号に対応する第1の重み付け値(362)を得ることと、
同一の周波数及び後続の各時間に関連付けられた前記入力信号のうち第2の入力信号に関する複数のスペクトルビンのスペクトル領域値にわたる平均を形成して、前記重み付け値のうち第2の信号に対応する第2の重み付け値(372)を得ることとを含む、方法。
【請求項36】
コンピュータプログラムがコンピュータ上で実行されるときに、請求項28から35のいずれかに記載の方法を実行するための前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明による実施形態は、複数の入力信号に基づきダウンミックス信号を提供するためのダウンミキサに関する。
【0002】
本発明によるさらなる実施形態は、複数の入力オーディオ信号に基づき符号化されたオーディオ表現を提供するためのオーディオ符号化装置に関する。
【0003】
本発明によるさらなる実施形態は、複数の入力信号に基づきダウンミックス信号を提供するための方法に関する。
【0004】
本発明によるさらなる実施形態は、コンピュータプログラムに関する。
【背景技術】
【0005】
オーディオ信号処理の分野では、複数のオーディオ信号を単一のオーディオ信号に結合することが望ましい場合がある。例えば、これにより、オーディオ符号化の複雑さが軽減される場合がある。元のオーディオ信号の特性及び/又はダウンミックス処理の特性に関する情報は、例えば、符号化されたオーディオ表現、並びにダウンミックス信号自体に(好ましくは符号化された形式で)含まれ得る。
【0006】
ダウンミキシングは、例えば、複数チャネル構成のプログラムをより少ないチャネルのプログラムに変換する処理である。この問題に関しては、例えば、Wikipediaにある「downmixing」の定義を参照されたい。
【0007】
特殊な事例は、(耳ごとに)バイノーラルでレンダリングされた複数の信号が1つのチャネルにミックスダウンされるバイノーラルダウンミックスである。従来、マルチチャネル信号のNチャネルは、単純な加算によって一緒にマージされて、Mチャネル信号を形成する(ここで、通常は、N>M)。
【0008】
以下では、いくつかのダウンミックスの問題について説明する。
【0009】
複数のオーディオ信号をミックスダウンすると、望ましくない干渉が結果として生じ得ることが見出された。また、干渉は以下の3つのカテゴリに分類できることも見出された。
【0010】
1.2つの信号(信号は、例えば、大きさ(長さ)と位相(角度)を表すベクトルSで表すことができる)S
1とS
2が、特定の時点において同様の位相角を確かに有し(例えば、
図4aを参照)、その結果、建設的干渉(例えば、+3dBのエネルギー加算の代わりに+6dBの大きさ加算)がある。
【0011】
2.両方のベクトルが特定の時間において異なる方向を指している場合(例えば、
図4bを参照)、部分的に破壊的干渉がある。
【0012】
3.両方のベクトルが同様の大きさを確かに有し、角度差が約180°の場合、強力な破壊的干渉又は完全なキャンセルさえある(例えば、
図4cを参照)。この場合、結果として生じるベクトルは、誤った位相角を有する。
【0013】
結論として、ダウンミックス処理の実行中に生じ得る3つのタイプの干渉について説明した。これら3つのタイプの干渉を
図4に示す。
【0014】
この問題は、広帯域信号においても個々の周波数帯域においても発生する。オーディオ品質に関して、最初の2タイプの干渉は、音色の好ましくない変化、フランジャのような効果、部分的に残響のある印象などをもたらす。一方、3つ目のタイプの干渉は、信号成分のキャンセルをもたらすか、前述のアーチファクトを(知覚的に)増幅する可能性がある。
【0015】
好ましくない音の変化を補正するための1つの手法は、ミックスダウンされた信号のスペクトルを修正することによって実行されることが見出された。個々の周波数帯域におけるエネルギー保存補正を通じて、受動ダウンミックスがスペクトル領域において等化され、所望のスペクトルが(ほぼ)達成されることが見出された。また、好ましくは、エネルギー値は、この方法を使用して経時的に平滑化されるべきであることも見出された。しかし、平滑化することにより、結果として得られる補正値は反応が遅くなり、建設的干渉をさらに増幅したり、破壊的干渉を減衰させたりすることができることが見出された。
【0016】
このような概念は、エネルギー補正されたダウンミックスとして要約できる。
【0017】
米国特許第7,039,204号明細書は、オーディオミキシングの等化について説明している。Nチャネル入力信号をミキシングしてMチャネル出力信号を生成する間、ミキシングされたチャネル信号は、出力信号の総エネルギー/ラウドネスレベルを入力信号の総エネルギー/ラウドネスレベルに実質的に等しく維持するために等化(例えば、増幅)される。一実施形態では、N入力チャネル信号は、フレームごとに周波数領域に変換され、Nチャネル入力信号の総スペクトルラウドネスが推定される。N入力チャネル信号のスペクトルを(例えば、加重和を使用して)ミキシングした後、結果として得られるミキシングされたMチャネル信号の総スペクトルラウドネスも推定される。2つのラウドネス推定値に基づく周波数依存のゲイン係数が、ミキシングされたMチャネル信号のスペクトル成分に適用されて、等化されミキシングされたMチャネル信号が生成される。Mチャネル出力信号は、等化されミキシングされたMチャネル信号を時間領域に変換することによって生成される。
【先行技術文献】
【特許文献】
【0018】
【発明の概要】
【発明が解決しようとする課題】
【0019】
しかしながら、従来の概念を考慮すると、オーディオ品質と計算の複雑さとの間のトレードオフを改善するダウンミキシングの概念が必要である。
【課題を解決するための手段】
【0020】
本発明による実施形態は、複数の入力信号(例えば、複素値であり得、例えば、入力オーディオ信号であり得る)に基づきダウンミックス信号を提供するためのダウンミキサを作製する。ダウンミキサは、入力信号のラウドネス情報に基づき(例えば、入力信号の特定のスペクトルビンに関連付けられたラウドネス値に基づき)、(例えば、特定のスペクトルビンに関する)ダウンミックスされた信号のスペクトル領域値の大きさ値を算定する(例えば、計算又は推定する)ように構成される。ダウンミキサは、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値の(例えば、スカラ値であり得る)位相値を算定するように構成される。例えば、ダウンミキサは、大きさ値の算定とは別に位相値を算定するように構成され得る。ダウンミキサは、ダウンミックス信号のスペクトル領域値の大きさ値に基づき、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値の複素数値表現を得るために位相値を適用するように構成される。
【0021】
本発明によるこの実施形態は、計算の複雑さとオーディオ品質との間の良好なトレードオフが、スカラ値であるダウンミックス信号のスペクトル領域値の大きさ値を計算することによって、また通常は当該大きさ値とは別に計算されるスカラ値である位相値を後続のステップにおいて適用することによって達成され得るという考えに基づく。したがって、ほとんどの処理ステップはスカラ値で動作でき、ダウンミックス信号のスペクトル領域値の複素数値表現は、計算の後期(又は最終)段階でのみ生成される。
【0022】
さらに、入力信号のラウドネス情報に基づきスカラの大きさ値の算定が良好な精度で可能であることが見出された。入力信号のラウドネス情報を使用して大きさ値を得ることにより、大きさ値が破壊的干渉の影響を強く受けることを回避できる。これは、入力信号のラウドネス情報が破壊的干渉の影響を通常受けず、したがって、ラウドネス情報を大きさ値にマッピングすると、通常、数値的に安定した解が得られるという事実による。
【0023】
言い換えれば、主に入力信号のラウドネス情報に基づきスペクトル領域値の大きさ値を算定することによって(キャンセル効果を考慮するために、ラウドネス情報を大きさ値にマッピングした後、任意で補正可能)、複素数値の追加とその後のスケーリングによって引き起こされる可能性のある数値の不安定性とアーチファクトを回避できる。
【0024】
さらに、大きさ値を算定するときに入力信号のラウドネス情報を考慮することにより、建設的干渉の場合に発生する可能性があり、通常はアーチファクトとして認識される6dBの信号増幅を回避できる。むしろ、入力信号のラウドネス情報を考慮することにより、入力信号を表す複素値を単純に加算する場合と比較して、知覚されるラウドネスに対してダウンミックス信号がより良好に適合されることを達成できる。
【0025】
さらに、大きさ値の算定から切り離された別個の位相計算が、高度の柔軟性をもたらすことが見出された。位相計算は良好な精度で行うことができ、破壊的干渉の場合に位相値を算定するために補正を適用することが可能である。位相値は通常スカラ値であり、これは大きさ値が算定されたときにのみ適用されるので、位相値を算定及び補正するための計算の労力は特に小さい。
【0026】
結論として、計算効率と聴覚印象の間の良好なトレードオフは、処理チェーンの最後(すなわち、ダウンミキシングの最後)に、大きさ値と位相値を別々に処理し、これらの値を結合するだけで、ダウンミックス信号のスペクトル領域値の複素数値表現を得ることによって達成できることが見出された。
【0027】
好ましい実施形態では、ダウンミキサは、ダウンミックス信号のスペクトル領域値の大きさ値の算定とは別に、ダウンミックス信号のスペクトル領域値の位相値を算定するように構成される。大きさ値と位相値のそのような別個の処理と算定は、計算上効率的であることが示されている。また、大きさ値を算定するための処理パスにおいて破壊的干渉の制御不能な影響はない。
【0028】
好ましい実施形態では、ダウンミキサは、入力信号のスペクトル領域値のラウドネス値を算定するように構成される。ダウンミキサは、入力信号のスペクトル領域値のラウドネス値に基づき、ダウンミックス信号のスペクトル領域値に関連付けられる合計ラウドネス値を導出するように構成される。ダウンミキサは、合計ラウドネス値からダウンミックス信号のスペクトル領域値の大きさ値(例えば、振幅値)を導出するように構成される。したがって、大きさ値は、知覚されるラウドネスを十分に表す。しかしながら、合計ラウドネスを考慮し、この合計ラウドネス値を大きさ値に変換することにより、ダウンミックス信号のスペクトル領域値の大きさ値(例えば、振幅値)が、入力信号によって建設的干渉が示される場合に、過度のラウドネスを含まないことを達成できる。この場合、ラウドネスの加算だけがあるが、ラウドネスの2次増加はなく、これにより、妥当な聴覚印象がもたらされる。一方、入力信号間に破壊的干渉が存在する場合でも、破壊的干渉も存在せず、したがって、大きさ値の「深い谷」は存在しない。したがって、導出された大きさ値は、さらなる処理によく適している。所望であれば、数値の問題なしに、大きさ値を減衰させること、又は大きさ値を増加させることさえも容易に可能である。具体的には、ラウドネス値に基づきこの大きさ値を導出することには、(合計ラウドネス値を考慮することによって)両方の極端に小さな値が回避され、(振幅の直接加算を回避することによって)過度に大きい値も回避されるので、大きさ値が常に値の妥当な範囲内にあるという利点がある。したがって、そのような処理は大きな利点である。
【0029】
好ましい実施形態では、ダウンミキサは、入力信号のスペクトル領域値の合計又は加重和を算定して、入力信号のスペクトル領域値のその合計又は加重和に基づき、位相値を算定するように構成される。このような位相値の計算を使用することにより、(強力な破壊的干渉の場合はいくつかの誤差が発生する可能性があるが、)多くの状況で正確で信頼できる位相値を得ることができる。
【0030】
好ましい実施形態では、ダウンミキサは、ダウンミックス信号のスペクトル領域値の極座標表現の絶対値としてダウンミックス信号のスペクトル領域値の大きさ値を使用し、ダウンミックス信号のスペクトル領域値の極座標表現の位相値として位相値を使用するように構成される。さらに、ダウンミキサは、極座標表現に基づき、ダウンミックス信号のスペクトル領域値のデカルト複素表現を得るように構成される。したがって、スペクトル領域値のデカルト複素表現は、処理の比較的遅い段階で得られ、先行する処理段階によって絶対値と位相値が別々に算定される。完全な複素値を処理すると、入力信号間の位相関係によっては望ましくないアーチファクトが発生する可能性があるため、このような処理が有利であることが見出された。むしろ、処理の後期段階で(又はダウンミックス信号の算定の最終段階としてさえ)絶対値と位相値を結合するだけで、そのようなアーチファクトが回避される。また、絶対値と位相値の個別処理は、複素値を複数の処理段階で処理するより計算的に容易である。
【0031】
好ましい実施形態では、ダウンミキサは、キャンセル度情報(例えば、Q)を算定(例えば、計算)し、ダウンミックス信号のスペクトル領域値の大きさ値(例えば、
)の算定においてキャンセル度情報を考慮するように構成される。例えば、キャンセル度情報は、入力信号の(例えば、同じスペクトルビンに関連付けられている)スペクトル領域値間の建設的干渉又は破壊的干渉の程度を示す(又は定量的に示す)。さらに、ダウンミキサは、大きさ値(例えば、
)と比較したとき(又はそれに関して)、又はキャンセル度情報が破壊的干渉を示す場合に入力信号のスペクトル領域値のラウドネス値の合計を表す「基準大きさ」と比較したとき(又はそれに関して)、ダウンミックス信号のスペクトル領域値の大きさ値(例えば、
)を選択的に低減(例えば、減衰)するように構成される(ここで、例えば、大きさ値の低減は、キャンセル度情報に応じて連続的に変化してもよい)。強い破壊的干渉が見つかったとき、この場合の位相値は通常信頼できないため、スペクトル領域値の大きさ値を低減することが推奨されることが見出された。言い換えれば、強い破壊的干渉の存在は、通常、位相値を信頼できないものにする、すなわち広い角度範囲で急速に変化させる。このような場合、ダウンミックス信号のスペクトル領域値の大きさ値を低減すると、アーチファクトの低減に役立つ。ただし、入力信号のスペクトル領域値の複素表現を単純に加算する場合と比較して、ダウンミックス信号のスペクトル領域値の大きさ値を適切に制御された方法で低減する方がよいことが見出された。
【0032】
言い換えれば、この概念は、計算効率と(強力な)破壊的干渉の影響の低減との間の特に良好なトレードオフを可能にする。
【0033】
好ましい実施形態では、ダウンミキサは、(例えば、4つの)相異なる配向(例えば、正の虚軸の方向に配向を有する成分、負の虚軸の方向に配向を有する成分、正の実軸の方向に配向を有する成分、及び負の実軸の方向に配向を有する成分、あるいは、入力信号のスペクトル領域値の合計のベクトルによって算定され得る第1の方向に配向を有する成分、当該第1の方向に直交する第2の方向に配向を有する成分、当該第1の方向と反対の第3の方向に配向を有する成分、及び当該第2の方向と反対の第4の方向に配向を有する成分)を有する入力信号のスペクトル領域値の成分の合計(例えば、sumIm+、sumIm-、sumRe+、sumRe-)を算定するように構成される。さらに、ダウンミキサは、相異なる配向を有する入力信号のスペクトル領域値の成分の合計(例えば、sumIm+、sumIm-、sumRe+、sumRe-)に基づきキャンセル度情報を算定するように構成される。
【0034】
相異なる配向を有する入力信号のスペクトル領域値の成分の合計を評価することにより、予想されるキャンセル度を効率的に判断できることが見出された。例えば、成分がすべて同じ配向を有する場合(例えば、すべてが正の虚部と正の実部を有する場合)、強いキャンセルはないと予想できる。一方、反対方向の成分の合計が類似しているか、又は同一でさえある場合、高いキャンセル度があると結論付けることができる。言い換えれば、相異なる配向又は方向の成分の合計を比較することにより、ある程度のキャンセルを効率的かつ確実に結論付けることが可能である。したがって、過度のキャンセルが予想される場合(又は同等に、位相情報が信頼できないと予想される場合)、ダウンミックス信号のスペクトル領域値の大きさ値を適応させることが可能である。
【0035】
好ましい実施形態では、ダウンミキサは、算定された合計のうち2つ(例えば、sumIm+及びsumRe+)を選択するように構成され、これら合計は、直交する配向又は方向(例えば、正の虚軸に沿って、及び正の実軸に沿って)に関連付けられており、支配的な合計値(例えば、sumIm+及びsumRe+)として、反対の配向又は方向(例えば、sumIm-及びsumRe-)に関連付けられている合計以上である。例えば、ダウンミキサは、2つの配向について、算定された合計のどちらが最大の大きさを有するかを判断し、これらの合計を「支配的な合計値」として選択するように構成される。さらに、ダウンミキサは、スケーリング値(例えば、Q又はQ
mapped)を算定するように構成され、これにより、第1の支配的な合計値(例えば、sumRe+)の配向と反対の方向又は配向に関連付けられた第1の非支配的な合計値(例えば、sumRe-)と、当該第1の支配的な合計値(例えば、sumRe+)との間の符号なし比率(すなわち、符号が考慮されていない場合の比率、又は絶対値の比率、又は比率の絶対値)に基づくとともに、第2の支配的な合計値(例えば、sumIm+)の配向(又は方向)と反対の配向(又は方向)に関連付けられた第2の非支配的な合計値(例えば、sumIm-)と、当該第2の支配的な合計値(例えば、sumIm+)との間の符号なし比率(例えば、符号が考慮されていない場合の比率、又は絶対値の比率、又は比率の絶対値)にも基づく、ダウンミックス信号のスペクトル領域値の大きさ値(例えば、
)の選択的低減がもたらされ、その結果、非支配的な合計値と、その関連する支配的な合計値との間の符号なし比率(例えば、|sumRe-|/sumRe+及び|sumIm-|/sumIm+)の増加によって、ダウンミックス信号のスペクトル領域値の大きさ値(例えば、
)の低減(例えば、スケーリング値Qの低減)がもたらされる。この実施形態は、反対方向に関連付けられた合計値間の比率が、負の(破壊的な)干渉の程度についての信頼できる情報を提供するという考えに基づいている。例えば、最初の非支配的な合計値が最初の支配的な合計値よりも大幅に小さい場合、(最初の支配的な合計に関連付けられている)最初の方向と(最初の非支配的な合計に関連付けられている)3番目の方向との間にキャンセルがないか、わずかしかないと結論付けることができる。同様に、第1の非支配的な合計値と、その関連する第1の支配的な合計値との間の符号なし比率(すなわち、符号を考慮しない比率)が大きくなる(例えば、1に近づく)と、(第1の支配的な合計値が関連付けられている)第1の方向と(第1の非支配的な合計値が関連付けられている)第3の方向との間に比較的強いキャンセルがあると結論付けることができる。結論として、非支配的な合計値と支配的な合計値は、入力信号間のキャンセルを認識するために効率的に使用でき、したがって、ダウンミックス信号のスペクトル領域値の大きさ値の低減を制御するために効率的に使用できる。
【0036】
好ましい実施形態では、ダウンミキサは、本明細書に記載の式に従ってキャンセル度情報Qを計算するように構成される。この場合、sumRe+は、(例えば、正の実部を有するすべての複素スペクトル領域値が考慮される、考慮下のスペクトルビン内の)入力オーディオ信号の複素スペクトル領域値の正の実部の合計である。sumRe-は(例えば、考慮下のスペクトルビン内の)入力オーディオ信号の複素スペクトル領域値の負の実部の合計であり、負の実部を有するすべての複素スペクトル領域値が考慮される。sumIm+は、(例えば、考慮下のスペクトルビン内の)入力オーディオ信号の複素スペクトル領域値の正の虚部の合計である場合があり、正の虚部を有するすべての複素スペクトル領域値が考慮される)。sumIm-は、(例えば、考慮下のスペクトルビン内の)入力オーディオ信号の複素スペクトル領域値の負の虚部の合計であり、負の虚部を有するすべての複素スペクトル領域値が考慮される。したがって、上述の考察に従って効率的にキャンセル度情報Qを計算することができる。
【0037】
好ましい実施形態では、ダウンミキサは、ダウンミキサにより算定されるキャンセル度情報(例えば、Q)が(例えば、考慮下のスペクトルビンにおける)入力信号間の比較的大きい破壊的干渉を示す時点で、大きさ値(例えば、
)が基準値(例えば、
)に対して選択的に低減され、入力信号のスペクトル領域値の合計ラウドネスに対応するように、また、キャンセル度情報(例えば、Q)が入力信号間の比較的小さい破壊的干渉を示す時点で、大きさ値が基準値(例えば、
)に対して選択的に増やされるように、ダウンミックス信号のスペクトル領域値の大きさ値(例えば、
)を算定するように構成される。キャンセル度情報が比較的大きな破壊的干渉を示す時点でダウンミックス信号のスペクトル領域値の大きさ値を選択的に低減することにより、誤った位相値又は位相値の急速な変化によって引き起こされる可能性のある歪みを回避することができる。一方、キャンセル度情報が入力信号間の比較的小さい破壊的干渉を示す時点でダウンミックス信号のスペクトル領域値の大きさ値を選択的に増加させることによって、大きさ値の低減により引き起こされるエネルギー損失を少なくとも部分的に補償することができる。したがって、全体的な知覚されるラウドネスを維持することができる。ある時点でのダウンミックス信号のスペクトル領域値の大きさの選択的な低減(高い破壊的干渉がある場合)は、歪みのリスクが高くないその他の場合においてダウンミックス信号のスペクトル領域値の大きさの選択的な増加によって(少なくとも部分的に)補償される。したがって、エネルギー損失を少なくとも部分的に補償することができ、ダウンミックス信号の良好な聴覚印象を達成することができる。
【0038】
好ましい実施形態では、ダウンミキサは、キャンセル度情報(例えば、Q(t))を経時的に追跡するように、また、キャンセル度情報の履歴に応じて、キャンセル度情報(例えば、Q)が入力信号間の比較的小さい破壊的干渉を示す時点で、基準大きさ値(例えば、M
R)に対して大きさ値(例えば、
)を選択的にどの程度増加させるかを算定するように、構成される。例えば、基準大きさ値に対する大きさ値の選択的増加は、以前に(例えば、時間平均で)大きさ値の比較的強い低減があった場合には、大きさ値が比較的大きい値だけ増加するように、以前に(例えば、時間平均で)大きさ値の比較的小さい低減があった場合には、大きさ値が比較的小さい値だけ増加するように、決定することができる。言い換えれば、基準値に対する大きさ値の選択的な増加の程度は、キャンセル度情報が入力信号間の比較的大きい破壊的干渉を示す時点で大きさ値を選択的に低減することに起因するエネルギーの損失が、キャンセル度情報が比較的小さい破壊的干渉を示す時点で大きさ値を選択的に増加させることによって少なくとも部分的に補償されるように決定することができる。したがって、破壊的干渉が発生する時点での大きさ値の低減によって引き起こされるであろうエネルギー損失を、少なくとも部分的に補償することができ、キャンセル度情報の履歴は、どの程度の補償が適切であるかという信頼できる情報を提供する。
【0039】
好ましい実施形態では、ダウンミキサは、キャンセル度情報を追跡するために、無限インパルス応答平滑化演算又はスライディング平均平滑化演算を使用して、瞬時キャンセル度情報に基づき、時間的平滑化キャンセル度情報を得るように構成される。このような演算は、キャンセル度情報を追跡し、信頼できる結果をもたらすのによく適合していることが見出された。
【0040】
好ましい実施形態では、ダウンミキサは、時間的平滑化キャンセル度情報に応じて、マッピングされたキャンセル度値(例えば、Q
mapped)に瞬時キャンセル度値(例えば、Q(t))をマッピングするように構成され(これによって、例えば、キャンセル度情報Qが入力信号間の比較的小さい破壊的干渉を示す時点で、大きさ値
が基準値M
Rに対してどの程度選択的に増やされるかを算定することができ)、その結果、大きさ値の(過去の/前の)低減を示す時間的平滑化キャンセル度情報の値は、(現在の)マッピングされたキャンセル度値の、瞬時の(現在の)キャンセル度値に対する(少なくとも、入力信号間の比較的小さい破壊的干渉を示す瞬時キャンセル度値に対する)増加をもたらす。したがって、キャンセル度情報の以前の展開によく適合するマッピングされたキャンセル度値を導出することが効果的に可能である。
【0041】
好ましい実施形態では、ダウンミキサは、pが0<p<1の定数であり得る本明細書に記載の式により、前の平滑化キャンセル度値Qsmooth(t-1)に基づき、及び瞬時の(現在の)キャンセル度値Q(t)に基づき、更新された平滑化キャンセル度値Qsmooth(t)を得るように構成される。ダウンミキサはまた、Tが0<T<1の定数である本明細書に記載の式に従って、マッピングされたキャンセル度値Qmapped(t)を得るように構成され得る。好ましくは、0.3<=T<=0.8の関係が成り立ち得る。さらに、Q(t)は0~1の間の範囲にあり、入力信号間の比較的大きな破壊的干渉については値0をとり、入力信号間の比較的小さい破壊的干渉については値1をとると仮定できる。マッピングされたキャンセル度値のそのような計算は、計算の複雑さを適度に小さく保ちながら、良好な結果をもたらすことが示されている。
【0042】
好ましい実施形態では、ダウンミキサは、キャンセル度値(例えば、Qmapped)を使用して入力信号のスペクトル領域値の合計ラウドネスに対応する大きさ値(例えば、MRに等しくてもよい「基準値」)をスケーリングして、ダウンミックス信号のスペクトル領域値の大きさ値を得るように構成される。したがって、ダウンミックス信号のスペクトル領域値は、干渉のリスクが高いときに(例えば、基準値に対して)低減する可能性があり、干渉のリスクが低いときに(例えば、基準値に対して)増加する可能性がある。したがって、破壊的干渉の可能性が高いときに過剰なアーチファクトを回避することができ、破壊的干渉の可能性が低いときにエネルギー損失を補償することができる。一方、ダウンミックス信号のスペクトル領域値の大きさ値は、建設的干渉の場合における過度のラウドネスの誇張も回避されるように、合理的な範囲内に保たれ得る。さらに、本明細書で説明する概念は、(例えば、破壊的干渉に起因して)ゼロに近い値を強く「アップスケール」することが回避されるため、数値の問題を回避する。
【0043】
好ましい実施形態では、ダウンミキサは、入力信号のスペクトル領域値の加重和を算定し、入力信号のスペクトル領域値のその加重和に基づき位相値を算定するように構成される。例えば、ダウンミキサは、所定の干渉レベルより大きい破壊的干渉を回避するような方法で、入力信号のスペクトル領域値に重み付けするように構成される。言い換えれば、位相値を算定するとき、過度の破壊的干渉を回避するために重み付けが導入され得る。例えば、そのような重み付けを使用することによって、(過去に比較的大きな大きさを有していたスペクトル領域値に比較的増加させた重みを置くなどにより)位相値の信頼性を高めることができる。したがって、位相算定の品質を改善することができる。
【0044】
好ましい実施形態では、ダウンミキサは、入力信号のスペクトル領域値の加重和を算定し、入力信号のスペクトル領域値のその加重和に基づき位相値を算定するように構成される。ダウンミキサは、相異なる入力信号におけるそれぞれのスペクトルビンの時間平均強度(例えば、振幅又はエネルギー又はラウドネス)に応じて、入力信号のスペクトル領域値に重み付けするように構成される。その結果、意味のある重み付けを達成でき、位相値の信頼性を向上させることができる。
【0045】
本発明による実施形態は、複数の入力オーディオ信号に基づき符号化されたオーディオ表現を提供するためのオーディオ符号化装置を作製する。オーディオ符号化装置は、上記のようなダウンミキサを備える。ダウンミキサは、複数の入力オーディオ信号の(好ましくは複素)スペクトル領域表現に基づき、ダウンミックス信号を提供するように構成される。オーディオ符号化装置は、符号化されたオーディオ表現を得るために、ダウンミックス信号を符号化するようにも構成されている。振幅値と位相値の両方の信頼性をダウンミキサによって高めることができるので、オーディオ符号化装置におけるそのようなダウンミキサの使用が特に有利であることが見出された。したがって、ダウンミックス信号は、オーディオ復号化装置の側でのオーディオ信号の再構成、又は直接再生にも適している。特に、本明細書に開示されるダウンミキシングの概念を使用するとアーチファクトが比較的小さいので、オーディオ符号化装置は、比較的「クリーンな」ダウンミックス信号を使用でき、これにより、符号化が容易になり、同時に復号化されたオーディオ信号の品質が向上する。
【0046】
本発明による別の実施形態は、複数の(例えば、入力オーディオ信号であり得る)(例えば、複素)入力信号に基づきダウンミックス信号を提供するための方法を作成する。この方法は、入力信号のラウドネス情報に基づき(例えば、入力信号の特定のスペクトルビンに関連付けられたラウドネス値に基づき)、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値の大きさ値(例えば、M
R又は
)を算定する(例えば、計算又は推定する)ことを含む。この方法は、例えば、大きさ値の算定とは別に、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値の(好ましくはスカラ)位相値(例えば、P
P又は
を算定することを含む。この方法はまた、スペクトル領域値の大きさ値に基づき、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値の複素数表現を得るために、位相値(例えば、P
P又は
)を適用することを含む。この方法は、上記のダウンミキサと同じ考慮事項に基づく。この方法は、対応するダウンミキサに関しても、本明細書に記載の特徴、機能、及び詳細のいずれかによって補足され得ることにも留意されたい。この方法は、そのような特徴、機能、及び詳細を、個別に、又は組み合わせて使用することで補足され得る。
【0047】
本発明による別の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに方法を実行するためのコンピュータプログラムを作成する。
【0048】
本発明による実施形態を、添付の図面を参照して以下に説明する。
【図面の簡単な説明】
【0049】
【
図1】本発明の一実施形態による、ダウンミキサのブロック概略図である。
【
図2】本発明の別の実施形態による、ダウンミキサのブロック概略図の抜粋である。
【
図3】本発明の一実施形態による、位相値算定のブロック概略図である。
【
図4】ダウンミックス処理中の3つのタイプの干渉の概略図である。
【
図5】本発明の一実施形態による、ラウドネスを維持するダウンミックスの信号フローチャートである。
【
図6】適応する基準大きさを使用したラウドネスダウンミックスの信号フローチャートである。
【
図7】複素平面における3つの入力信号のキャンセル度の導出に関する概略図である。
【
図8】適応する位相を使用したラウドネスダウンミックスの信号フローチャートである。
【
図9】本発明の一実施形態による、ダウンミックス信号を提供する方法のフローチャートである。
【
図10】本発明の一実施形態による、オーディオ符号化装置のブロック概略図である。
【
図11】本明細書で説明されるラウドネス維持のための様々なマッピング概念を使用して達成できるマッピング曲線の例に関するグラフ表示である。
【発明を実施するための形態】
【0050】
1.
図1によるダウンミキサ
図1は、本発明の一実施形態による、ダウンミキサ100のブロック概略図を示す。
【0051】
ダウンミキサは、複数の入力信号110a、110bを受信し、それに基づき、ダウンミックス信号112を提供するように構成される。例えば、入力オーディオ信号であり得る第1の入力信号は、例えば、複素数表現であり得る(相異なる周波数又はスペクトルビンに関連付けられた)一連のスペクトル領域値によって表され得る。さらに、第2の入力信号はまた、例えば、複素数表現で表され得る(相異なる周波数又はスペクトルビンに関連付けられた)一連のスペクトル領域値を含み得る。
【0052】
ダウンミックス信号112は、ダウンミックス信号のスペクトル領域値によって(又は、一般に、相異なる周波数に関連付けられた複数のスペクトル領域値によって)表され得、これは、複素数表現の形で表され得る。
【0053】
以下では、1つのスペクトルビンのみの処理について考慮する。しかしながら、相異なるスペクトルビンのスペクトル領域値は、例えば、別々に同じ方法で処理され得る。
【0054】
ダウンミキサ100は、(大きさ値算定部と見なすこともできる)大きさ値算定120を含む。大きさ値算定120は、入力信号110a、110bのラウドネス情報に基づき(例えば、入力信号の特定のスペクトルビンに関連付けられたラウドネス値に基づき)、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値112の大きさ値122を算定するように構成される。例えば、大きさ値の算定は、第1の入力信号110aのスペクトル領域値のラウドネスを算定する第1のラウドネス情報算定(又は算定部)124を含む。さらに、大きさ値算定120はまた、第2の入力信号110bのスペクトル領域値のラウドネス情報を算定する第2のラウドネス情報算定(又は算定部)126を含む。さらに、大きさ値算定120は、通常は、(ダウンミックス信号のスペクトル領域値の大きさ値の算定の基礎となり得る、又はダウンミックス信号のスペクトル領域値の大きさ値としても使用され得る)大きさ値122が、第1の入力信号110aのそれぞれのスペクトル領域値及び第2の入力信号110bのそれぞれのスペクトル領域値の合計ラウドネスに基づくように、大きさ値122を算定する。しかしながら、大きさ値120は、大きさ値が、状況に応じて、合計ラウドネスよりも小さい又は合計ラウドネスよりも大きいラウドネスに対応するように明確に定義された方法で補正されるように、追加の補正を含み得る。しかしながら、大きさ値は通常、特定のスペクトル領域値に関連付けられた(例えば、特定のスペクトルビンに関連付けられた)1つのスカラ値であることに留意されたい。
【0055】
ダウンミキサ100はまた、位相値算定(又は位相値算定部)130を含む。したがって、ダウンミキサは、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値112の(スカラ)位相値132を算定するように構成される。例えば、位相値算定130は、第1の入力信号110a及び第2の入力信号110bを、すなわち第1の入力信号110aの(特定のスペクトルビンに関連する)スペクトル領域値及び第2の入力信号110bの(特定のスペクトル領域に関連する)スペクトル領域値を受け取る。例えば、位相値算定(又は算定部)130は、大きさ値122の算定とは別に、位相値132を算定する。
【0056】
さらに、ダウンミキサはまた、(位相値適用部と見なすこともできる)位相値適用140を含む。したがって、ダウンミキサは、ダウンミックス信号のスペクトル領域値の大きさ値122に基づき、(例えば、特定のスペクトルビンに関する)ダウンミックス信号のスペクトル領域値112の複素数値表現を得るために、位相値132を適用するように構成される。
【0057】
一般的に言えば、ダウンミキサ100は、例えば、大きさ値112及び位相値132を別々に算定し、その後、最終処理ステップとして、位相値132を適用して、ダウンミックス信号のスペクトル領域値の複素数表現を得ることができることに留意されたい。例えば、位相値132を使用して、大きさ値に基づき、ダウンミックス信号のスペクトル領域値の同相成分及び直交成分を導出することができ、その結果、ダウンミックス信号の複素スペクトル領域値のデカルト表現(実部及び虚部の表現)が得られる。入力信号のラウドネス情報に基づき(例えば、入力信号の特定のスペクトルビンのラウドネス値に基づき)大きさ値を導出することにより、(例えば、建設的干渉の場合におけるスペクトル領域値の単純な加算によって引き起こされる)過度のラウドネス及び(スペクトル領域値の単純な複素値の加算が実行された場合に破壊的干渉によって引き起こされる)大幅なラウドネスの低下を回避することができる一方で、良好な数値的安定性を得ることができる。また、複素加算された値の強力な事後補正を実行するソリューションから生じる数値の不安定性を回避できる。
【0058】
結論として、
図1を参照して説明したダウンミキサは、著しい利点を備え、それは部分的には大きさ値122と位相値132を別々に処理することから生じ、また大きさ値122を算定する際にラウドネス情報を考慮することからも生じる。
【0059】
さらに、
図1によるダウンミキサ100は、本明細書に記載の特徴、機能、及び詳細のいずれかによって、それらを個別に及び組み合わせて使用することで、補足できることに留意されたい。また、ダウンミキサ100に関して説明された特徴、機能、及び詳細は、個別に及び組み合わせて、他の実施形態に導入することができる。
【0060】
2.
図2によるダウンミキサ
図2は、本発明の一実施形態による、ダウンミキサのブロック概略図の抜粋である。
【0061】
具体的には、
図2は、(
図1を参照して説明した第1の入力信号110aに対応し得る)第1の入力信号210aに基づくとともに、(
図1を参照して説明した第2の入力信号110bに対応し得る)第2の入力信号210bにも基づく、(
図1を参照して説明した大きさ値122に対応し得る)大きさ値222の導出を表す。
【0062】
また、
図2に示す処理ユニット又は機能ブロック200は、例えば、
図1に示す大きさ値算定(大きさ値算定部)120の代わりになり得ることにも留意されたい。
【0063】
機能ブロック200は、基準大きさ値算定又は基準大きさ値算定部220を含み、その機能は、一般に、大きさ値算定/大きさ値算定部120の機能と同様であり得る。例えば、基準大きさ値算定部220は、第1の入力信号210a及び第2の入力信号210bに基づき、基準大きさ値221を提供するように構成され得る。例えば、基準大きさ値算定220は、入力信号210a、210bのラウドネス情報に基づき、(未変更の基準と見なされ得る)ダウンミックス信号のスペクトル領域値の基準大きさ値221を導出することができる。例えば、基準大きさ値221は、ダウンミックス信号の特定のスペクトルビンに関連付けられたスカラ値であり得、第1の入力信号210aの特定のスペクトルビンに関連付けられたラウドネス値及び第2の入力信号210bの特定のスペクトルビンに関連付けられたラウドネス値に基づくことができる。したがって、スペクトル領域値の基準大きさ値は、例えば、(例えば、入力信号の特定のスペクトルビンの)最小ラウドネス値よりも大きく、通常、入力信号210a、210bの特定のスペクトルビンの最大ラウドネス値よりさらに大きいラウドネスに対応し得る。言い換えれば、特定のスペクトルビンが入力信号210a、210bの両方において非常に小さい信号強度を含まない限り、基準大きさ221は、通常、特に小さくはない。一方、基準大きさ値221はまた、すべての入力信号のラウドネス情報に基づくので、通常、過度に大きな値を含まない。好ましくは、基準大きさ値221は、基準大きさ値の算定において入力信号の位相が考慮される場合に発生するであろう、入力信号の建設的干渉及び破壊的干渉の影響を受けない。むしろ、基準大きさ値は、例えば、入力信号の考慮下において特定のスペクトルビンにおけるラウドネスの追加を反映し得る。
【0064】
したがって、基準大きさ値221は、それが数値的に妥当な範囲内にあり、したがって数値の不安定性を引き起こすことなくダウンスケール及びアップスケールの両方が可能であると想定できるので、可能な補正の良好な基礎である。
【0065】
機能ブロック200はまた、入力信号210a、210b(又は少なくとも考慮下にある特定のスペクトルビンのスペクトル領域値)を受信するように構成されるキャンセル度計算230を含む。キャンセル度計算230は、キャンセル度情報232を提供し、これは一般に、入力信号の考慮下において(すなわち、それらの位相及び考えられるキャンセル効果の考慮下において)特定のスペクトルビンのスペクトル領域値が複素数として追加された場合にどの程度のキャンセル(破壊的干渉)が生じるかを示す。(現在又は瞬時のキャンセル度情報と見なすことができ、考慮下の特定のスペクトルビンに関連付けることができる)キャンセル度情報232を計算するための複数のメカニズムを使用することができる。しかしながら、好ましい手法では、(例えば、考慮下の特定のスペクトルビン内において、)Qによっても示されるキャンセル度情報232は、高いキャンセル度がある場合にはゼロに近い値を取り、キャンセル度情報Qは、低いキャンセル度がある場合には1に近い値をとる。
【0066】
キャンセル度情報232は、例えば、スペクトル領域値の(スケーリングされた)大きさ値222を導出するために、基準大きさ値221をスケーリングするために使用され得る。しかしながら、キャンセル度情報232を直接使用して基準大きさ値221をスケーリングすることは可能であるが、以下に説明する追加の処理を行うことが好ましい。
【0067】
好ましい実施形態では、機能ブロック200はまた、マッピング(又はマッパー)240を含み、これは、(現在処理される時間ブロックに関連する考慮下の特定のスペクトルビンにおけるキャンセルの程度が示された)(瞬時の/現在の)キャンセル度情報を受け取り、それに基づいて、マッピングされたキャンセル度値(又はマッピングされたキャンセル度情報)242を提供する。例えば、マッピングされたキャンセル度値は、スケーリング(又はスケーラ260)に提供され、スケーリングは、マッピングされたキャンセル度値242に基づき基準大きさ値221をスケーリングし、それにより、ダウンミックス信号のスペクトル領域値の大きさ値222を導出する。
【0068】
機能ブロック200は、好ましくは、時間的平滑化/履歴追跡250を含み、これは、キャンセル度情報又は時間的平滑化キャンセル度情報252を、マッピング/大きさ値調整算定240に提供する。言い換えれば、マッピング/大きさ値調整算定240は、好ましくは、瞬時(現在)キャンセル度情報232及び(例えば、時間的平滑化キャンセル度情報であり得る)キャンセル度履歴情報252を受け取る。したがって、マッピング/大きさ値調整算定240は、瞬時(現在)キャンセル度情報232に基づき、マッピングされたキャンセル度値242を提供することができ、瞬時(現在)キャンセル度情報232は、キャンセル度履歴情報252に応じて選択的に増やされ、それにより、マッピングされたキャンセル度情報242を導出することができる。
【0069】
例えば、キャンセル度情報232は、0~1の範囲内の値であり得、その結果、キャンセル度情報232による基準大きさ値221の直接スケーリングは、典型的には、エネルギーの低減をもたらす。しかしながら、基準大きさ値221は、(例えば、考慮下のスペクトルビン内の)入力信号210a、210bの間に高いキャンセル度がある場合、スケーラ260によってスケールダウンされるべきであることが見出された。一方、低いキャンセル度があるときに、基準大きさ値221を適度に「スケールアップ」することは問題がないことも見出された。言い換えれば、現在の瞬間に高いキャンセル度がある場合、マッピングされたキャンセル度値242は、1より著しく小さく(例えば、0.5より小さく、又はさらに0.3より小さく、又はさらに0.1より小さく)なければならないことが見出された。一方、低いキャンセル度があるときに、マッピングされたキャンセル度値242が1よりいくらか大きい場合(例えば、1と1.2の間、又は1と1.5の間、又はさらに1と2の間)は、問題がないことが見出された。したがって、マッピング/大きさ値調整算定240は、キャンセル度履歴情報252に応じて、瞬時(現在)キャンセル度情報232に関して、マッピングされたキャンセル度値242を選択的に増加させる。例えば、瞬時キャンセル度情報232が一定期間に比較的小さい値をとった場合、マッピング/大きさ値調整算定240は、(少なくとも低いキャンセル度がある時点で)瞬時キャンセル度情報232に対して、マッピングされたキャンセル度値242を(少なくとも低いキャンセル度の存在下で)1より大きくなるように増加させることができ、これにより、比較的小さいキャンセル度情報232により引き起こされたエネルギー損失を少なくとも部分的に補償する(これにより、通常、1より著しく小さい、比較的小さいマッピングされたキャンセル度値242ももたらされる)。一方、瞬時(現在)キャンセル度情報232が1に近い場合、瞬時(現在)キャンセル度情報232に対するマッピングされたキャンセル度値242の増加は、そのような状況では大きなエネルギー損失を補償する必要がないので、通常は小さい。結論として、マッピングされたキャンセル度値242が瞬時(現在)キャンセル度情報に対して増加する程度(又は量)は、キャンセル度履歴情報252に依存し、過去に(比較的)大きいエネルギー損失があった場合には増加は比較的大きく、過去に(比較的)小さいエネルギー損失のみであった場合には増加は比較的小さい。
【0070】
典型的には、比較的小さいキャンセル度情報(0に近く、高いキャンセル度を示す)はまた、比較的小さい(1よりも実質的に小さい)マッピングされたキャンセル度値242をもたらす。一方、瞬時キャンセル度情報が1に近い(低いキャンセル度を示す)場合、例えば、瞬時キャンセル度情報が以前の一定期間に1より実質的に小さい値をとった場合、マッピングされたキャンセル度値242は、1より小さいか、1より大きくなり得る。したがって、スケーラ260によって得られるスペクトル領域値の大きさ値222は、高いキャンセル度がある場合は、基準大きさ値221より通常小さく、低いキャンセル度がある場合、及び以前の一定期間に高いキャンセル度があった場合は、基準大きさ値221より通常さらに大きい。
【0071】
上述のように、機能ブロック200は、例えば、本発明のいくつかの実施形態において、
図1の大きさ値算定/算定部120を置き換えることができる。
【0072】
さらに、機能ブロック200は、他の実施形態に関しても、本明細書に記載の特徴、機能性、及び詳細のいずれかによって補足され得ることに留意されたい。そのような特徴、機能、及び詳細は、機能ブロック200に個別に追加することも、組み合わせて使用することもできる。具体的には、機能ブロック200の機能を実装するときに、本明細書に記載の、瞬時(現在)キャンセル度情報Qの計算、キャンセル度履歴情報Q
smoothの計算、マッピングされたキャンセル度情報Q
mappedの計算、基準大きさ値M
Rの計算、及び(スケーリングされた)大きさ値(
)の計算で説明された式を、任意で使用できる。ただし、上記の式を1つ以上使用すれば十分であり、これらの式をすべて組み合わせて使用する必要はないことに留意されたい。
【0073】
3.
図3による位相値の算定
図3は、本発明の実施形態による、位相値算定の概略図を示す。
図3による位相値算定は、その全体が300で示されている。位相値算定300は、任意により、
図1によるダウンミキサ100の位相値算定130を置き換えられることに留意されたい。位相値算定300は、任意により、(
図1によるダウンミキサ100のブロック120を置き換え得る)機能ブロック200と組み合わせて使用できることに留意されたい。しかしながら、位相値算定300は、大きさ値算定120と組み合わせて使用することもできる。
【0074】
参照番号310では、入力信号(例えば、入力オーディオ信号)の時間-周波数領域表現が示されている。横軸312は時間を表し、縦軸313は周波数を表す。したがって、時間-周波数ビンが示されている。例えば、3つの時間-周波数ビン314a、314b、314cが強調表示されているが、これらはすべて周波数(又は周波数範囲、又は周波数ビン)f4に関連付けられており、時間(又は時間部分、又はフレーム)t1、t2、t3に関連付けられている。
【0075】
同様に、参照番号320では、第2の入力信号の時間-周波数領域表現のグラフ表現が示されている。横軸322は時間を表し、縦軸323は周波数を表す。スペクトルビン324a、324b、324cが(例えば、周波数f4及び時間t1、t2、t3で)強調表示されており、ここで、例えば、複素スペクトル領域値は、スペクトルビン324a、324b、324cのそれぞれに関連付けられている。
【0076】
同様に、参照番号330での概略図は、第3の入力信号の時間周波数領域表現を示している。横軸332は時間を表し、縦軸333は周波数を表す。周波数f4及び時間t1、t2、t3での3つのスペクトルビン334a、334b、334cが強調表示されている。
【0077】
以下では、位相値算定(例えば、位相値算定/位相値算定部130)によって実行され得る処理について説明する。例えば、第1の平均化(又は第1の平均化部)360は、同一の周波数及び後続の各時間に関連付けられた複数のスペクトルビンのスペクトル領域値にわたる(例えば、強度の、又はエネルギーの、又はラウドネスの)平均を形成し得る。平均化は、スライディングウィンドウ平均化でも、再帰的(有限インパルス応答)平均化でもよい。さらに、平均化は、例えば、スペクトル領域値の複素値を平均化することができ、又はスペクトル領域値の大きさ又はラウドネス値を平均化することができることに留意されたい。したがって、平均化部330は、重み付け値362をもたらす。
【0078】
同様に、第2の平均化(又は第2の平均化部370は、第2の入力信号のスペクトルビン324aから324cに関連付けられたスペクトル領域値の(例えば、強度、エネルギー又はラウドネスの)経時的な平均を算定し、それにより、第2の入力信号の重み付け値372が得られる。
【0079】
さらに、第3の平均化(又は第3の平均化部380)は、第3の入力信号のスペクトルビン334aから334cに関連付けられたスペクトル領域値にわたる(例えば、強度の、エネルギーの、又はラウドネスの)経時的な平均を算定し、それにより、第3の入力信号の重み付け値382が得られる。
【0080】
言い換えれば、第1の平均化360、第2の平均化370、及び第3の平均化380は、類似又は同一の機能を実行し得るが、相異なる入力信号のスペクトル領域値で動作する。
【0081】
位相値算定300はまた、第1の入力信号の(又は第1の入力信号から導出された)現在のスペクトル領域値のスケーリング又は重み付け364を含み、それにより、第1の入力信号のスケーリングされたスペクトル領域値366が得られる。同様に、位相値算定は、第2のスケーリング又は重み付け374を含み、(例えば、現在処理されているスペクトルビンに関連付けられた)第2の入力信号の現在のスペクトル領域値は、第2の入力信号から導出された重み付け値372を使用してスケーリングされる。したがって、第2の入力信号の重み付けされたスペクトル領域値376が得られる。同様に、位相値算定300は、第3の入力信号の重み付け値382を使用して第3の入力信号の現在のスペクトル領域値をスケーリングする第3のスケーリング又は重み付け384を含み、それにより、第3の入力信号のスペクトル領域値386が得られる。
【0082】
位相値算定300はまた、第1の入力信号のスケーリングされたスペクトル領域値366、第2の入力信号のスケーリングされたスペクトル領域値376、及び第3の入力信号のスケーリングされたスペクトル領域値386の結合390を行う。例えば和結合が実行されるが、(例えば、実数成分と虚数成分を含むデカルト表現における)スケーリングされた複素値が結合されることに留意されたい。したがって、結合390の結果として、典型的には複素値であり、典型的には(実数成分及び虚数成分を含む)デカルト表現である加重和392が得られる。位相値算定300はまた、位相計算396を含み、ここで、加重和392の位相値が計算され、位相値398として提供される。位相値398は、例えば、
図1を参照して説明した位相値132に対応することができ、位相値適用140によって使用され得る。
【0083】
位相値算定300は、過去において(例えば、他の入力信号と比較して)比較的強かった(例えば、より早い時間に関連付けられたが、現在のスペクトル領域値と同じ周波数を伴うスペクトルビンにおける)入力の現在のスペクトル領域値が、過去において比較的弱かった(例えば、現在のスペクトル領域値と同じ周波数を有するが、より早い時間に関連付けられたスペクトルビンにおける)1つ又は複数の入力信号のスペクトル領域値と比較した場合、位相計算396でより強く重み付けされるべきであるという考えに基づく。位相値398が大きな誤差を含む、又は速い変化を含む可能性は、そのような概念によって低減され、結果として、ダウンミックス信号における(可聴)アーチファクトは、そのような位相値算定を使用することによって低減又は回避され得ることが見出された。換言すれば、位相値398を得るために実行される位相計算396は、相異なる入力信号の現在のスペクトル領域値の均等に重み付けされた結合に基づき実行されるのではなく、(例えば、同じ周波数の過去のスペクトルビンにおける)相異なる入力信号の現在のスペクトル領域値が、強度、エネルギー、又はラウドネスの過去の時間平均に従って重み付けされる。したがって、位相計算の信頼性が向上する。
【0084】
しかしながら、本明細書に記載の特徴、機能、及び詳細のいずれも、例えば、位相値算定に関して、個別に及び組合せにより、位相値算定300と組み合わせて適用することもできることに留意されたい。さらに、位相値算定300は、任意により、本明細書に記載の他の実施形態のいずれにも導入できることに留意されたい。
【0085】
4.
図5による実施形態
以下では、
図5を参照して、ダウンミキサの実施形態について説明する。
【0086】
図5は、本発明の一実施形態による、ダウンミキサ500のブロック概略図を示す。ダウンミキサは、s
1からs
Nによっても示される複数の入力信号500aから500nを受信するように構成される。
【0087】
さらに、ダウンミキサ500は、出力信号として、sLoudnessDMXによっても示されるダウンミックス信号592をもたらす。ダウンミキサ500は、任意により、例えば、分析フィルタバンクである(又は、一般的に言えば、分析を実行するのに役立つ)フィルタバンク501を含む。例えば、フィルタバンク501は、相異なる入力信号500aから500nを別々に分析することができる。例えば、フィルタバンクは、入力信号500aから500nのそれぞれに対して複素表現を提供することができる。例えば、フィルタバンク501は、第1の入力信号500aに基づき第1の複素表現501aを提供し、第nの入力信号500nに基づき複素表現501nを提供する。例えば、第1の複素表現501aは、複数のスペクトル値を、例えば、各スペクトルビンについて1つ含み得る。個々のスペクトル値は複素である場合があり、例えば、(実部と虚部の別個の数値表現による)デカルト形式で表すことができる。
【0088】
以下では、1つのスペクトルビンについてのみ処理を説明する。しかしながら、(相異なる周波数を関連付けた)相異なるスペクトルビンは、例えば、別々に処理され得るが、例えば、同じ概念を使用し得ることに留意されたい。
【0089】
例えば、第1の入力信号の考慮下におけるスペクトルビンのスペクトル領域表現は、Re1(第1の入力信号のスペクトル領域値の実部の数値表現)及びIm1(第1の入力信号のスペクトル領域値の虚部の数値表現)によって示される。同様に、第nの入力信号のスペクトル領域表現は、ReN(第nの入力信号のスペクトル領域値の実部の数値表現)及びImN(第nの入力信号のスペクトル値の虚部の数値表現)によって示される。
【0090】
ダウンミキサはまた、ラウドネス推定503を含み、ラウドネスは、相異なる入力信号について別々に推定される。例えば、第1の入力信号500aのラウドネス値503aは、(考慮下のスペクトルビンの)第1の入力信号のスペクトル領域値の実部の数値表現に基づき、及び第1の入力信号のスペクトル領域値の虚部の数値表現に基づき、計算又は推定される。同様に、第nの入力信号のラウドネスは、(考慮下のスペクトルビンの)第nの入力信号のスペクトル領域値の数値表現ReN、ImNに基づき計算又は推定され、それにより、ラウドネス値503bが得られる。別個のラウドネス推定ブロック又はラウドネス推定部が、503によって示されている。
【0091】
さらに、個々の入力信号500aから500nのラウドネスを個別に表す個々のラウドネス値503a、503bは、結合部503cにおいて結合(例えば、合計)され、それにより、合計ラウドネス値503dが得られる。したがって、合計ラウドネス値503dは、入力信号501aから501nの合計ラウドネスを表す。ダウンミキサ500はまた、ラウドネスから大きさへの変換504を含み、これは、合計ラウドネス値503dを受け取り、当該合計ラウドネス値503dを、基準大きさMRと見なすことができる大きさ値505に変換する。基準大きさ値505は、合計ラウドネス値503dによって示される合計ラウドネスを表すスカラ値であり得る(ただし、これは振幅値の領域内にあり得る)。
【0092】
ダウンミキサ500は、任意により、スケーラ506を含み得るが、これは、
図5の実施形態では非アクティブであり得る。したがって、変更された(「スケーリングされた」)大きさ値506aは、基準大きさ値505と同一であり得る。
【0093】
ダウンミキサ500はまた、位相計算508を含む。位相計算508は、スペクトル領域値501aから501nを結合した複素数合計値の数値表現を受け取ることができる。例えば、スペクトル領域値501aから501nの実部の数値表現Re1からReNを(例えば、合計部又は結合部507aにおいて)合計して、合計値の実部の数値表現507b(ReDMXによっても示される)を得ることができる。同様に、スペクトル領域値501aから501nの虚部の数値表現Im1からImNが(例えば、合計部又は結合部507cによって)合計されて、合計値の虚部の数値表現507d(LmDMXによっても示される)が得られる。
【0094】
位相計算508は、合計値の実部の数値表現507bに基づき、及び合計値の虚部の数値表現507dに基づき、位相値508aを計算する。例えば、位相計算は、合計値の実部と虚部の数値表現が配置されている象限間の区別を考慮できる、アーカス正接演算を含むことができる。したがって、位相値508aは、例えば、0~360°の間、又は0~2πの間、又は-180°~+180°の間、又は-π~+πの間の範囲を示し得る。
【0095】
ダウンミキサ500はまた、オプションの位相補正510を含み、これは、
図5による実施形態では通常非アクティブである。
【0096】
ダウンミキサ500はまた、位相値適用/数値表現再構成511を含む。位相値適用は、(本実施形態における基準大きさ値505と同一であり得る)大きさ値506aを受け取り、また、本実施形態における位相値508aと同一であり得る補正位相値510aを受け取る。
【0097】
位相値適用511は、ダウンミックス信号のスペクトル領域値の実部(Reactive)の数値表現を算定し、また、ダウンミックス信号のスペクトル領域値の虚部の数値表現を算定する。したがって、位相値適用511は、ダウンミックス信号のスペクトル領域値の実部の数値表現511aと、ダウンミックス信号のスペクトル領域値の虚部の数値表現511bとを提供する。
【0098】
実部の数値表現と虚部の数値表現511a、511bの両方が、合成フィルタバンクであり得る任意によるフィルタバンク502に提供される。フィルタバンク502は、例えば、(例えば相異なる周波数を関連付けた)複数のスペクトルビンについて、ダウンミックス信号の(複素)スペクトル領域値の数値表現に基づき、ダウンミックス信号の時間領域表現592を提供するように構成され得る。
【0099】
したがって、大きさ値と位相値が(例えば、スカラ値として)別々に処理され、スペクトル領域値の複素数値表現が(例えば、時間領域表現の再合成前の)最終処理ステップとしてのみ生成される、ダウンミックス信号を得ることができる。
【0100】
以下では、
図5を参照して説明した概念を要約する。以下に記載される概念は、上述の詳細とは別に使用できることに留意されたい。しかしながら、以下に記載される詳細のいずれも、本明細書に記載のいずれの実施形態とも組み合わせて使用することができる。
【0101】
この概念は「ラウドネスを維持するダウンミックス」と見なすことができることに留意されたい。本明細書で説明する新しい手法は、単に入力信号をダウンミックスするのではなく、その後、望ましくない悪影響を補正しようとする。2つの相異なる概念に基づき、所望の(ラウドネスを維持する)大きさと位相情報が互いに別々に計算される。
【0102】
例えば、所望の(基準)大きさが直接計算される。適切な位相情報と結合されると、望ましくない干渉が発生しないため、望ましくないダウンミックス(DMX)アーチファクトが発生しない。位相情報は別々に計算され、受動ダウンミックス(DMX)から生じる。
【0103】
図5では、本発明の実施形態が、(フィルタバンクの分析501と合成502の間の)1つの周波数帯域について例示的に示されている。もちろん、様々なバッファサイズが可能である。さらに、
図5に示されるキャンセル度計算(アーチファクト防止)及びマッピング(ラウドネス維持)は、
図5による実施形態の必須の構成要素ではなく、任意の拡張要素として考慮されるべきであることに留意されたい。同様に、位相補正値計算は任意の補足として考慮する必要がある。
【0104】
以下では、大きさ又は基準大きさ(505又は506a)の計算、及び位相の計算に関して、いくつかの追加の説明を行う。
【0105】
(基準)大きさ
入力信号はラウドネスを維持する方法でミックスダウンされ、大きさM
R505を形成し、これは、
図5において次のように、赤線/実線によって、又は「大きさ計算」とラベル付けされた線によって示される。
【0106】
1.各入力信号のラウドネスが計算される(ラウドネス推定503)。ラウドネスは、人間の聴覚系、エネルギー値、大きさ値などに基づいたラウドネスを表すことができる。
【0107】
2.ラウドネス値が合計される。
【0108】
3.ラウドネスの合計が大きさに変換され(ラウドネスから大きさへの変換504)、例えば、平方根がエネルギー値に使用される。
【0109】
4.任意:MR(基準大きさMR505)の重み付けは、(例えば、スケーリング506を使用して)変更された(又はスケーリングされた)大きさMMod
R506aをもたらし、さらなる詳細は、適応する基準大きさを使用したラウドネスダウンミックスの説明において以下で説明され、このステップは、誤った位相情報によって引き起こされる可能性がある潜在的なアーチファクトを回避するために実行され得る。
【0110】
位相
【0111】
(受動DMX位相PPとしても示される)位相PP508aは、(例えば、結合部又は追加部507a、507cによって得られ、507b、507dで示される)受動ダウンミックスから導出され、ここで、位相の導出は、次のように青線/実線、又は「位相計算」とラベル付けされた線によって示される。
【0112】
1.入力信号は受動的な方法(単純な加算)で、例えば、結合部又は追加部507a、507cにおいてミックスダウンされ、任意により、これら結合部又は追加部507a、507cにおいて異なる動機のダウンミックスDMXを使用することが可能である。ただし、この場合、以下の「適応する基準大きさを使用したラウドネスダウンミックス」及び「適応する位相を使用したラウドネスダウンミックス」を説明するセクションで説明する追加処理、及びラウドネスの合計の両方が、異なるタイプのダウンミックスの意味で処理すべきで(又は処理される必要が)ある。
【0113】
2.ReDMX及びImDMX(507b、507d)は、例えば、4象限逆正接関数を使用することによって、(例えば、位相計算508を使用して)位相情報を計算するために使用される。
【0114】
3.任意:(受動DMX位相PPとしても示される)位相PP508aを(例えば、結合部又は加算部510を使用して)変更して、補正又は変更された位相値PMod
P510aを形成することができる。この問題に関する詳細は、以下、例えば、適応する位相を使用したラウドネスダウンミックスを説明するセクションにおいて説明する。このステップは、位相ジャンプを伴わない位相応答を生成するために実行できる。
【0115】
基準大きさMR(505)(又は変更された大きさ値MModR506a)及び位相PP(508a)(又は変更された位相PMod
P510a)は、位相値適用511において結合され、すなわち、極形式からデカルト形式(又は数値表現)に変換される。
【0116】
5.
図6による実施形態
図6は、適応する基準大きさを使用したラウドネスダウンミックスによるダウンミキサのブロック概略図を示す。
図6によるダウンミキサ600は、
図5によるダウンミキサ500に類似しているため、同一の信号、ブロック、特徴、及び機能は再び説明されないことに留意されたい。また、同一の特徴及び信号は、上記の説明が参照されるよう、同一の参照番号で示されることに留意されたい。
【0117】
しかしながら、ダウンミキサ500に加えて、ダウンミキサ600は、アーチファクト防止として見なすことができるキャンセル度計算612と、ラウドネス維持として見なすことができるマッピング613とを含む。例えば、キャンセル度防止612は、スペクトル領域値501aから501n(又は、より正確には、そのデカルト数値表現)を受け取る。キャンセル度計算612は、マッピング613に、Qによっても示されるゲイン値612aを提供する。
【0118】
マッピング613は、ゲイン値612(Q)を受け取り、それに基づき、Qmappedによっても示されるマッピングされたゲイン値613aをスケーラ506に提供し、スケーラ506は、マッピングされたゲイン値613aを使用して基準大きさ値505をスケーリングし、それにより、位相値適用511に入力されるスケーリングされた大きさ値506aが得られる。例えば、キャンセル度計算612は、高いキャンセル度がある場合にゲイン値612aが比較的小さい値(例えば、ゼロに近い値)をとるように、また、入力信号間に比較的小さいキャンセル度がある場合に(例えば、複素値加算により入力信号の結合を考慮する場合に)比較的大きい値(例えば、1に近い値)をとるようゲイン値612aを算定するように、ゲイン値612aを算定し得る。したがって、ゲイン612aは、高いキャンセル度があるであろうことが見出される(又は予想される)場合は小さくなるよう選択され、これは、位相値の高度な非信頼性又は位相ジャンプのリスクに通じる。一方、小さいキャンセル度があり、すなわち位相値が比較的信頼でき、不適切な位相ジャンプがないことが意味される場合、ゲイン値612aは比較的大きくなるよう選択される。
【0119】
マッピング613は、比較的高いキャンセル度がある場合に(スケーリングされた)大きさ値506aを低減することによって引き起こされるであろう(少なくとも特定の時間平均にわたる)エネルギー損失を少なくとも部分的に補償するのに役立つ。例えば、マッピング613は、(例えば、比較的小さいキャンセル度があり、以前に比較的小さいゲイン値Qによってエネルギー損失が引き起こされた場合に、)マッピングされたゲインが1より大きい場合があるように、また、(例えば、比較的大きいキャンセル度がある場合に、)マッピングされたゲイン値613が他の期間において1より著しく小さくなるように、マッピングされたゲイン613aを得ることができる。
【0120】
キャンセル度計算612及びマッピング613の詳細を以下に説明する。しかしながら、上述の説明も参照され、上述の機能は、任意によりダウンミキサ600に導入することができる。
【0121】
以下では、いくつかの追加の説明を提供する。特に、ダウンミキサ500と比較してダウンミキサ600は、高いキャンセル度がある場合をより適切に処理するために拡張されていることに留意されたい。
【0122】
しかしながら、一般に、
図6によるダウンミキサ600及び
図8によるダウンミキサ800は、特別な場合に対する任意の解決策を提供すると言うことができる。
【0123】
すでに上述したように(例えば、両方のベクトルが同様の大きさと約180度の角度差を持っている場合の説明。
図4cを参照)、入力信号の合計は非常に強いキャンセルにつながり、強い位相ジャンプを生成する可能性がある。その場合、基準大きさM
R505と誤った位相情報P
P508aとの結合は、可聴アーチファクトを引き起こすであろう。
【0124】
これらの人工的に生成されたアーチファクトを克服するために、2つの解決策が本明細書に提示される(例えば、
図6及び
図8を参照)。第1の解決策は、基準大きさを低減することによる、可聴閾値を下回るアーチファクトの減衰を含む。これは、「適応する基準大きさを使用したラウドネスダウンミックス」と題するセクションで説明される。第2の解決策は、第1の解決策の代わりに、又はそれに加えて使用することができ、信頼できない位相応答の補正を行うことができる。これは、「適応する位相を使用したラウドネスダウンミックス」と題するセクションで説明される。
【0125】
適応する基準大きさを使用したラウドネスダウンミックス
人工的に生成されたアーチファクトを克服するための1つの可能性は、基準大きさ(例えば、基準大きさ505)を、聞こえなくなるまで特定の時点で減衰させることである。このために、
図5によるダウンミキサ500の「左側の翼」がアクティブ化される(これは、例えば、赤線/破線、又は「任意の大きさ変更」とラベル付けされた線タイプによって示される)。
【0126】
この問題に関しては、適応する基準大きさを使用したラウドネスダウンミックスを有するダウンミキサのブロック概略図を示す
図6が参照される。
【0127】
キャンセル度計算612では、入力信号が分岐され、キャンセル度が計算(又は推定)される。破壊的干渉がない場合、Qによっても示されるゲイン値612aは1である。完全なキャンセルの場合、Qによっても示されるゲイン値612aは0である。この測定値は、潜在的な誤った位相情報を検出するために使用される。
【0128】
マッピング613として示される第2のステップでは、キャンセル度は、ラウドネス維持ゲインQmapped(例えば、マッピングされたゲイン613a)となるようにマッピングされる。両方のステップ又は機能ブロック又は機能612、613を以下に説明する。
【0129】
アーチファクト防止/キャンセル度計算612
図7は、複素平面における3つの入力信号のキャンセル度の導出に関する概略図を示す。横軸710は実部(又は実数成分)を示し、縦軸712は虚部(又は虚数成分)を表す。例えば、第1の入力信号のスペクトルビンを表す第1の複素値は、第1のベクトル720aで表され、例えば第2の入力信号のスペクトルビンを表すことができる第2の複素値は、第2のベクトル720bで表され、例えば第3の入力信号のスペクトルビンを表すことができる第3の複素値は、第3のベクトル720cで表される。言い換えれば、
図7では、1つの潜在的な概念が、複素平面における3つのベクトル720a、720b、720cによって表される3つの入力信号に基づいて例示的に説明されている。
【0130】
虚軸と実軸のキャンセル度は別々に計算され、エネルギー補正方法において結合される。
【0131】
・3つのベクトルの正の虚部の合計が計算される→sumIm+
・3つのベクトルの負の虚部の合計が計算される→sumIm-
・3つのベクトルの正の実部の合計が計算される→sumRe+
・3つのベクトルの負の実部の合計が計算される→sumRe-
・これら4つの合計が、以下の式で結合される。
【0132】
ただし、キャンセル度の計算には、(例えば、受動ダウンミックスDMXの位相角に向けた配向を有する)傾斜軸システムも使用できることに留意されたい。さらに、上記の追加処理は、任意により、代替の式を使用してキャンセル度を計算できることに留意されたい。しかしながら、いくつかの実施形態では、基準大きさを十分に低減するために、強いキャンセル度を正確に計算することが重要である。4つの合計(例えば、正の虚部の合計、負の虚部の合計、正の実部の合計、及び負の実部の合計)は、次式において(又は次式を使用して)結合して、例えばゲイン値612aを導出できることに留意されたい。
【0133】
・
、
・
、
・
、
・
、
これら4つの場合の区別は、Qが0と1の間の値を取ることができるように行われる。
【0134】
ラウドネス維持-マッピング613-代替1
以下では、エネルギー保存の場合について、(マッピングブロック613によって実行され得る)マッピング処理が例示的に計算される。ただし、様々なマッピング式が可能であることに留意されたい。
【0135】
ゲイン値Qは、基準大きさに直接適用される場合、そのエネルギーを低減する(例えば、ゲイン値Qが0~1の範囲にある場合)。これにより、混合信号の知覚されるラウドネスを低減することができる。
【0136】
したがって、本発明の一態様によれば、エネルギー損失が追跡され、時間遅延により信号にフィードバックされる。この第2のステップ613によって、以前に実行された基準大きさ612の低減を元に戻さないことが重要である。エネルギーは、基準大きさの低減があまり大きくない場合にのみフィードバックされ得る。具体的には、次のステップが実行される。
-
=[0-1]で平滑化することにより、経時的なキャンセル度を追跡する。
-Qをその値の範囲の上限を超えてマッピングして、1を超える値を可能にして、したがって増幅を可能にする。
ただし、様々な追跡の式及び/又は方法が可能であることに留意されたい。
【0137】
ただし、以下のコメントに留意すべきである。
定数値T=0.6により、Qの値範囲のマッピングを達成でき、これは平均でエネルギー損失を補償することが見出された。指数Tの値は、125を超えるオーディオ信号の信号データベースから経験的に決定されたことに留意されたい。この目的のために、基準大きさのエネルギーが(可聴範囲内の)すべての帯域で合計され、Qmappedで処理された変更された大きさの合計エネルギーと比較され、差分はTで最小化された。ただし、別のマッピング効果が所望される場合、指数Tは引き続き変更可能である。
【0138】
さらに、Qが小さいほど、上方へのマッピングが少なくなることに留意されたい。アーチファクトは増幅されない。
【0139】
また、Qが大きいほど、上方へマッピングされ、1を超える値に達する可能性がある。
【0140】
いくつかの実施形態では、これは、一度における位相情報の信頼性が高いほど、より多くのエネルギーが信号にフィードバックされることを確実にする。しかしながら、いくつかの実施形態では、過度の増幅を回避するために、フィードバックされるエネルギーの量を制限することが有用であり得る。例えば、Qmappedは、特定の値、例えば1.2、1.5、1.8、又は2.0に制限され得る。
【0141】
ラウドネス維持-マッピング613-代替2
以下では、ラウドネス維持-マッピング613の代替の実装について説明する。
【0142】
以下では、エネルギー維持の場合のマッピング処理を例示的に計算する。ただし、様々なマッピング式が可能である。
【0143】
Qは、基準大きさに直接適用される場合、そのエネルギーを低減する。これにより、混合信号の知覚されるラウドネスを低減することができる。したがって、エネルギー損失が追跡され、時間遅延により信号にフィードバックされる。(例えば、ブロック613における)この第2のステップによって、以前に実行された(例えば、ブロック612における)基準大きさの低減を元に戻さないことが重要である。エネルギーは、基準大きさの低減があまり大きくない場合にのみフィードバックされ得る。
【0144】
具体的には、次のステップが実行される。
〇
=[0-1]で平滑化することにより、経時的なキャンセル度を追跡する。
ただし、様々な追跡の式/方法が可能である。
〇Qについて値1に向けて(満足できる)マッピングを行い、したがって基準大きさを増幅しない[212]。
一般的に言えば、このタイプのマッピングは元の基準大きさを維持しようとし、より強い破壊的干渉が検出された場合にのみそれを減衰させる。増幅は生じないが、知覚される全体的なラウドネスは変化しない。より強い破壊的干渉による基準大きさの減衰は、信号によってほとんどマスクされる。
【0145】
以下のコメントを考慮することが好ましい。
〇定数ゲイン
は勾配の強度であり、例えば、1~10(又は0.5~20)の値を取ることができる。
〇勾配
は、キャンセル度の平均によって異なる。
〇
が小さいほど、潜在的なアーチファクトを増幅しないように、マッピングはより慎重に行われる。
〇
が大きいほど、マッピングはより強力になる。
【0146】
図11は、本明細書で説明するラウドネス維持のための様々なマッピング概念を使用して達成できるマッピング曲線の例を示す。
【0147】
1番目の代替によるマッピングでは、1より大きい増幅が許可され、したがって、欠落したエネルギーが、Qmappedにより時間遅延方式で信号に導入(フィードバック)される。
【0148】
2番目の代替によるマッピングでは、増幅は許可されない。むしろ、基準大きさを可能な限り維持し、基準大きさをスケールダウン(又は低減)しないように試みる。基準大きさは、強い破壊的干渉が発生した場合にのみ低減又はスケールダウンされる。また、低減(又はスケールダウン)の程度は、Qsmoothに引き続き依存し、すなわち経時で失われたエネルギーによる。
【0149】
6.
図8によるダウンミキサ
図8は、本発明の別の実施形態による、ダウンミキサのブロック概略図を示す。
【0150】
ダウンミキサ800はダウンミキサ500に類似しているため、同一の特徴、機能、及び信号はここでは再び説明されない。むしろ、ダウンミキサ500の説明のように同一の参照番号が使用され、ダウンミキサ500に関する上記の説明が参照される。
【0151】
しかしながら、ダウンミキサ500の機能及び/又はブロックに加えて、ダウンミキサ800はまた、入力信号(又はそのスペクトルビン)の複素表現501aから501nを受信する位相補正値計算814を含む。さらに、位相補正値計算814はまた、位相値508aを受け取ることができる。位相補正値計算814はまた、位相補正値815を結合部510に提供し、その結果、結合部510は、(Wによっても示される)位相補正値815を考慮しながら、位相値508aに基づき、変更された位相値510aを導出する。
【0152】
したがって、位相補正値計算814は、例えば、上記の単純な位相計算508によって得ることができる位相値508aが実際の位相値を強く逸脱するとき、又は位相値508aが過度の位相ジャンプなどを含むときを算定することができる。
【0153】
例えば、位相補正値計算814は、位相計算によってもたらされる位相値508aと補正位相値510aとの間に滑らかなフェードオーバーが存在するように、位相補正値815を提供することができる。例えば、位相補正値計算814は、位相補正値815が0から所望の位相補正値に滑らかに遷移するように、位相補正値815を提供することができる。
【0154】
しかしながら、いくつかの実施形態では、合計部/結合部507a、507c、位相計算508、位相補正値計算814、及び結合510は、向上した信頼性を有する位相値を一般に計算する、改善された位相値計算によって置き換えられ得ることに留意されたい。
【0155】
例えば、
図3に示されるような位相値算定は、要件に応じて、恒久的に使用されてもよく、又は位相補正値815の提供のために使用されてもよい。
【0156】
適応する位相を使用したラウドネスダウンミックス
以下では、本発明の一態様に従って使用することができる、適応する位相を使用したラウドネスダウンミックスについて説明する。
【0157】
基準大きさM
Rを継続的に使用できるようにするためには、「信頼性できる」位相応答が必要である。この目的のために、
図5(及び
図8)の右側の翼がアクティブ化される(青線/破線、又は「任意の位相変更」とラベル付けされた線で示される)。ステップ又は機能ブロック「位相補正値計算」814において、(Wによっても示される)位相補正値815は、分岐された入力信号に基づき(例えば、数値表現501aから501nに基づき)計算される。受動ダウンミックスの潜在的な誤った位相、例えば「受動ダウンミックス位相P
p508a」は、このように補正されるため、顕著なアーチファクト(位相ジャンプに基づく)が回避される。
【0158】
モジュール(又は機能ブロック、又は機能)「位相補正値計算」814は、いくつかのサブモジュールからなることができる。受動ダウンミックス中に入力信号の破壊的干渉がない場合、位相補正値はゼロに近くなる。破壊的干渉/キャンセルが発生するとすぐに、信頼できる位相応答をもたらす値(位相補正値など)が計算される。
【0159】
信頼できる位相応答は、例えば、入力信号の適応的に重み付けされた合計から取得される。例えば、経時的に個々の信号のラウドネス値を追跡する必要がある場合がある。適応的重み付けは、破壊的干渉を妨げることなくDMX(サブミックス)を生成することを目的としている。サブミックスでは、破壊的干渉をある程度許容できる。これは、個々の入力信号を再重み付けするときに人工的に生成された位相ジャンプを回避するのに役立つ。
【0160】
受動ダウンミックス(DMX)とサブミックスを切り替えながらスムーズな移行を保証するために、破壊的干渉/キャンセルが発生していないときに位相補正を適用することもできる。任意により、位相ジャンプをさらに減衰させるために、いくつかの周波数帯域にわたって位相応答を平滑化することが可能である。
【0161】
結論として、
図8は、適応する位相を使用したラウドネスダウンミックスを使用するダウンミキサのブロック概略図を示している。
【0162】
例えば、
図8による実施形態では、キャンセル度計算612及びマッピング613は非アクティブ(又は存在しない)であり得るが、位相補正値計算814はアクティブであり得る。
【0163】
しかしながら、いくつかの実施形態では、キャンセル度計算612及びマッピング613、並びに位相補正値計算814を同時に使用し、それにより、良好な結果を得ることも可能である。
【0164】
しかしながら、
図8による実施形態は、本明細書に開示される特徴、機能、及び詳細のいずれかによって、それらを個別に及び組み合わせて使用することで、補足され得ることに留意されたい。
【0165】
7.結論及び総論
結論として、複数の入力信号に基づきダウンミックス信号を提供するときにアーチファクトを低減するのに役立つ概念が説明されていることに留意されたい。具体的には、キャンセルから生じる問題が解決された。例えば、2つ以上のポインタ(又はフェーザ又はベクトル)が90°の角度領域の外側に位置するとすぐに、座標系の一方の軸又は両方の軸にキャンセルが生じる。すなわち、ポインタの実数成分又は虚数成分(又はフェーザ又はベクトル)(又は両方)が部分的に又は完全にキャンセルされる。したがって、破壊的干渉/重ね合わせについて述べることができる。したがって、破壊的干渉又は重ね合わせがあるかどうかの問題は、合計ベクトルの長さとは無関係であり、合計ベクトルの長さが2つのベクトルのうち長い方より長いかどうかの問題とも無関係である。
【0166】
さらなる注意点として、処理は通常は周波数領域で行われ、特定の長さの信号バッファが通常は分析されるため、干渉は時間平均でのみ考慮されることに留意されたい。信号バッファ内で(時間信号構造を考慮する場合)、建設的干渉と破壊的干渉が同時に発生する可能性があることに留意されたい。ただし、周波数領域では、バッファ内の重みに対する干渉のタイプのみが分かる。したがって、バッファはそれに応じて分類される。したがって、建設的干渉又は破壊的干渉があるかどうかの問題は、本明細書に記載されているように判断できることに留意されたい。また、例えば、干渉の観点から位相値が信頼できないことが分かった場合、振幅及び/又は位相の適切な補正を行うことができる。
【0167】
8.
図9による方法
図9は、本発明の一実施形態による、複数の入力信号に基づきダウンミックス信号を提供する方法900のフローチャートを示す。
【0168】
方法900は、入力信号のラウドネス情報に基づき、ダウンミックス信号のスペクトル領域値の大きさ値を算定910することを含み、また、
方法900は、ダウンミックス信号のスペクトル領域値の位相値を算定920することを含む。方法900はまた、スペクトル領域値の大きさ値に基づき、ダウンミックス信号のスペクトル領域値の複素数表現を得るために位相値を適用930することを含む。
【0169】
方法900は、任意により、本明細書に開示される特徴、機能、及び詳細のいずれかによって、それらを個別に及び組み合わせて使用することで、補足できる。
【0170】
また、必要に応じて、ステップ910及び920も当然並行して実行できることに留意されたい。
【0171】
9.
図10によるオーディオ符号化装置
図10は、本発明の一実施形態による、オーディオ符号化装置1000のブロック概略図を示す。
【0172】
オーディオ符号化装置1000は、複数の入力オーディオ信号1010aから1010nに基づき、符号化されたオーディオ表現1012を提供するように構成される。
【0173】
オーディオ符号化装置は、ダウンミキサ1020を含み、これは、上記のダウンミキサのいずれかに対応し得る。ダウンミキサ1020は、複数の入力オーディオ信号の(複素)スペクトル領域表現に基づき、ダウンミックス信号1022を提供するように構成される。さらに、オーディオ符号化装置は、符号化されたオーディオ表現1012を得るために、ダウンミックス信号1022を符号化するように構成される。
【0174】
オーディオ符号化装置は、例えば、AACタイプの符号化又はLPCベースの符号化のように、ダウンミックス信号を符号化するために、既知の符号化技術のいずれかを使用することができる。また、オーディオ符号化装置は、任意により、ダウンミキシングを説明する追加のサイド情報(例えば、ダウンミックス信号内の入力信号の重み付け)又はオーディオ符号化の分野で既知の他の任意のサイド情報を提供することができる。
【0175】
10.実装の代替
いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様も、対応する装置の対応するブロック又はアイテム又は特徴の説明を表す。方法ステップの一部又はすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路などのハードウェア装置によって(又はそれを使用して)実行することができる。いくつかの実施形態では、最も重要な方法ステップのうち1つ又は複数は、そのような装置によって実行され得る。
【0176】
特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリを使用して実行でき、それらは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働することができる)。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。
【0177】
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0178】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納されてもよい。
【0179】
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0180】
言い換えれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書で説明される方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0181】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録したデータキャリア(又はデジタル記憶媒体、又はコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、又は記録されたメディアは、典型的には有形及び/又は非遷移性である。
【0182】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0183】
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えば、コンピュータ又はプログラム可能な論理デバイスを含む。
【0184】
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0185】
本発明によるさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを(例えば、電子的又は光学的に)受信機に転送するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
【0186】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書で説明される方法の機能の一部又はすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法の1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
【0187】
本明細書で説明される装置は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータの組合せを使用して実装することができる。
【0188】
本明細書で説明される装置、又は本明細書で説明される装置の任意のコンポーネントは、少なくとも部分的にハードウェア及び/又はソフトウェアで実装され得る。
【0189】
本明細書で説明される方法は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータの組合せを使用して実行することができる。
【0190】
本明細書で説明される方法、又は本明細書で説明される装置の任意の構成要素は、ハードウェア及び/又はソフトウェアによって少なくとも部分的に実行され得る。
【0191】
上記の実施形態は、本発明の原理を単に例示するものである。本明細書に記載の構成及び詳細の変更及び変形は、当業者には明らかであることは理解されよう。したがって、添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記載及び説明によって提示される特定の詳細によって限定されないことが意図される。
【0192】
11.さらなる結論
さらに結論として、Nチャネル入力信号をダウンミキシングする場合、Mチャネル出力信号(N>M)を得るために、望ましくない影響が発生する可能性がある。これらの効果は、音の色付け、雰囲気の操作、音声明瞭度の低下、及びその他のアーチファクトの形で現れる可能性がある。
【0193】
これらの影響を克服するために、ラウドネスを維持するダウンミックスを処理して大きさを得ることができ、また並行して、非適応ダウンミックスを計算して位相情報を取得することができる。その後、大きさと位相がマージされて、Mチャネル出力信号が形成される。
【0194】
これらの考慮事項は、任意により、本明細書に開示される実施形態のいずれにも導入できる。