特許第6279077号(P6279077)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.の特許一覧

特許6279077適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
<>
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000063
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000064
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000065
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000066
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000067
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000068
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000069
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000070
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000071
  • 特許6279077-適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 図000072
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6279077
(24)【登録日】2018年1月26日
(45)【発行日】2018年2月14日
(54)【発明の名称】適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
(51)【国際特許分類】
   G10L 19/008 20130101AFI20180205BHJP
   G10L 19/00 20130101ALI20180205BHJP
   G10L 19/02 20130101ALI20180205BHJP
【FI】
   G10L19/008
   G10L19/00 400Z
   G10L19/02 160Z
【請求項の数】28
【全頁数】47
(21)【出願番号】特願2016-528469(P2016-528469)
(86)(22)【出願日】2014年7月18日
(65)【公表番号】特表2016-525716(P2016-525716A)
(43)【公表日】2016年8月25日
(86)【国際出願番号】EP2014065537
(87)【国際公開番号】WO2015011057
(87)【国際公開日】20150129
【審査請求日】2016年3月22日
(31)【優先権主張番号】13177358.2
(32)【優先日】2013年7月22日
(33)【優先権主張国】EP
(31)【優先権主張番号】13189287.9
(32)【優先日】2013年10月18日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】597159765
【氏名又は名称】フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
(74)【代理人】
【識別番号】100112715
【弁理士】
【氏名又は名称】松山 隆夫
(72)【発明者】
【氏名】フューグ、シモネ
(72)【発明者】
【氏名】クンツ、アチム
(72)【発明者】
【氏名】クラッシュマー、 ミヒャエル
(72)【発明者】
【氏名】ビルカモ、ジューハ
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2006−050241(JP,A)
【文献】 特表2012−524304(JP,A)
【文献】 国際公開第2011/039668(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
H04S 1/00− 7/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1個の周波数帯(36)を有し、前記少なくとも1個の周波数帯(36)において複数の入力チャネル(38)を有する入力音声信号(37)を処理するよう構成される音声信号処理デコーダであって、
前記デコーダ(1)は、
前記入力チャネル(38)間のチャネル間依存性(39)に応じて前記入力チャネル(38)の位相をアライメントするよう構成され、かつ、前記アライメントされた入力音声信号を、前記入力チャネル(38)の数より少ない数の出力チャネル(41)を有する出力音声信号(40)にダウンミックスするよう構成され、
前記入力チャネル(38)の位相は、それらのチャネル間依存性(39)が高いほど相互によりアライメントされる、デコータ。
【請求項2】
請求項1に記載のデコーダであって、
前記デコーダ(2)は、前記周波数帯(36)内の前記入力音声信号(37)を分析して前記入力チャネル(38)間の前記チャネル間依存性(39)を特定するよう、又は前記入力音声信号(37)を出力するエンコーダ(1)のような外部装置から前記入力チャネル(38)間の前記チャネル間依存性(39)を受信するよう構成される、デコーダ。
【請求項3】
請求項1又は2に記載のデコーダであって、
前記デコーダ(2)は、前記入力音声信号(37)の決定されたエネルギに基づき前記出力音声信号(40)のエネルギを正規化するよう構成され、
前記デコーダ(2)は、前記入力音声信号(37)の信号エネルギを決定するよう、又は前記入力音声信号(37)を出力するエンコーダ(1)のような外部装置から前記入力音声信号(37)の前記決定されたエネルギを受信するよう構成される、デコーダ。
【請求項4】
【請求項5】
【請求項6】
請求項1〜5のいずれか一項に記載のデコーダであって、
前記デコーダ(2)は、前記入力音声信号(37)の時間間隔(43)を窓関数を用いて分析するよう構成され、各時間フレーム(43)に対して前記チャネル間依存性(39)が決定され、
又は、前記デコーダ(2)は、前記入力音声信号(37)の時間間隔(43)に関する窓関数を用いた分析を、前記入力音声信号(37)を出力するエンコーダ(1)のような外部装置から受信するよう構成され、各時間フレーム(43)に対して前記チャネル間依存性(39)が決定される、デコーダ。
【請求項7】
【請求項8】
【請求項9】
【請求項10】
【請求項11】
【請求項12】
【請求項13】
【請求項14】
【請求項15】
【請求項16】
【請求項17】
少なくとも1個の周波数帯(36)を有し、前記少なくとも1個の周波数帯(36)において複数の入力チャネル(38)を有する入力音声信号(37)を処理するよう構成される音声信号処理エンコーダであって、
前記エンコーダ(1)は、
前記入力チャネル(38)間のチャネル間依存性(39)に応じて前記入力チャネル(38)の位相をアライメントするよう構成され、前記入力チャネル(38)の位相は、それらのチャネル間依存性(39)が高いほど相互によりアライメントされ、
前記エンコーダ(1)は、
前記アライメントされた入力音声信号を、前記入力チャネル(38)の数より少ない数の出力チャネル(41)を有する出力音声信号(40)にダウンミックスするよう構成される、エンコーダ。
【請求項18】
システムであって、
少なくとも1個の周波数帯を有し、且つビットストリームを出力するよう構成される音声信号処理エンコーダを備え、前記ビットストリームは、前記周波数帯において符号化音声信号を含み、前記符号化音声信号は、前記少なくとも1個の周波数帯において複数の符号化チャネルを有し、
前記システムは、
前記符号化音声信号を前記少なくとも1個の周波数帯において前記複数の入力チャネルを有する前記入力音声信号として処理するよう構成される請求項1に記載の音声信号処理デコーダを更に備え、
前記エンコーダは、
前記符号化音声信号の符号化チャネル間のチャネル間依存性を決定し、かつ、前記ビットストリームに含めてチャネル間依存性を出力するよう構成され、
前記デコーダは、前記符号化チャネル間のチャネル間依存性を前記入力チャネル間のチャネル間依存性として前記エンコーダから受信するよう構成される、システム。
【請求項19】
システムであって、
少なくとも1個の周波数帯を有し、且つビットストリームを出力するよう構成される音声信号処理エンコーダを備え、前記ビットストリームは、前記周波数帯において符号化音声信号を含み、前記符号化音声信号は、前記少なくとも1個の周波数帯において複数の符号化チャネルを有し、
前記システムは、
前記符号化音声信号を前記少なくとも1個の周波数帯において前記複数の入力チャネルを有する前記入力音声信号として処理するよう構成される請求項1に記載の音声信号処理デコーダを更に備え、
前記エンコーダは、
前記符号化音声信号のエネルギを決定し、かつ、前記符号化音声信号の前記決定されたエネルギを前記ビットストリームに含めて出力するよう構成され、
前記デコーダは、前記入力音声信号の決定されたエネルギに基づいて前記出力音声信号のエネルギを正規化するよう構成され、
前記デコーダは、前記符号化音声信号の前記決定されたエネルギを前記入力音声信号の前記決定されたエネルギとして前記エンコーダから受信するよう構成される、システム。
【請求項20】
【請求項21】
【請求項22】
システムであって、
少なくとも1個の周波数帯を有し、且つビットストリームを出力するよう構成される音声信号処理エンコーダを備え、前記ビットストリームは、前記周波数帯において符号化音声信号を含み、前記符号化音声信号は、前記少なくとも1個の周波数帯において複数の符号化チャネルを有し、
前記システムは、
前記符号化音声信号を前記少なくとも1個の周波数帯において前記複数の入力チャネルを有する前記入力音声信号として処理するよう構成される請求項1に記載の音声信号処理デコーダを更に備え、
前記エンコーダは、前記符号化音声信号の時間間隔を窓関数を用いて分析するよう構成され、前記チャネル間依存性は、各時間フレームに対して決定され、前記エンコーダは、各時間フレームに対するチャネル間依存性を前記ビットストリームに含めて出力するよう構成され、
前記デコーダは、窓関数を用いた前記入力音声信号の時間間隔の分析を前記エンコーダから受信するよう構成され、前記チャネル間依存性は、各時間フレームに対して決定される、システム。
【請求項23】
【請求項24】
【請求項25】
【請求項26】
【請求項27】
周波数帯(36)において複数の入力チャネル(38)を有する入力音声信号(37)を処理するための方法であって、
前記方法は、
前記周波数帯(36)における前記入力音声信号(37)を分析し、前記入力音声チャネル(38)間のチャネル間依存性(39)が特定されるステップと、
前記特定されたチャネル間依存性(39)に基づいて前記入力チャネル(38)の位相をアライメントし、前記入力チャネル(38)の位相がそれらのチャネル間依存性(39)高いほど相互によりアライメントされるステップと、
前記アライメントされた入力音声信号を、前記周波数帯(36)内の前記入力チャネル(38)の数より少ない数の出力チャネル(41)を有する出力音声信号(40)にダウンミックスするステップと、を備える方法。
【請求項28】
コンピュータ又は信号プロセッサ上で動作する際に、請求項27に記載の方法を実行するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理に関し、詳細には、適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制に関する。
【背景技術】
【0002】
映画のサウンドトラックに典型的な5.1サラウンドからより規模の大きい三次元サラウンドフォーマットまで、複数のマルチチャネル音声フォーマットが用いられている。シナリオによっては、音声コンテンツをより少数のラウドスピーカに伝送する必要がある。
【0003】
更に、例えば、J.ブレーバールト(Breebaart)、S.ヴァン・デ・パー(van de Par)、A. コールラウシュ(Kohlrausch)、及びE.スハイエルス(Schuijers)による「ステレオ音声のパラメトリック符号化(Parametric coding of stereoaudio)」、応用信号処理ユーラシップ・ジャーナル(EURASIP Journal on Applied Signal Processing)、2005巻、1305〜1322頁、2005年、及びJ.ヘア(Herre)、K. キョルリンク(Kjorling)、J.ブレーバールト(Breebaart)、C.ファーラー(Faller)、S.ディッシュ(Disch)、H.プルンハーゲン(Purnhagen)、J.コッペン(Koppens)、J.ヒルパート(Hilpert)、J.ローデン(Roden)、W.オーメン(Oomen)、K.リンツマイアー(Linzmeier)、及びK.S.チョン(Chong)による「MPEGサラウンド−効率的な互換性マルチチャネル音声符号化のためのISO/MPEG標準規格(MPEG Surround−The ISO/MPEG standart for efficient and compatible multichannel audio coding)」 オーディオ技術学会ジャーナル(J.Audio Eng.Soc)、56巻、11番、932〜955頁、2008年に記載の最近の低ビットレート音声符号化方法において、より多数のチャネルが空間サイド情報を含む1組のダウンミックス信号群として伝送され、これにより元のチャネル設定を備えるマルチチャネル信号が復元される。これらの使用事例を動機として、音質を良好に保持するダウンミックス方法が開発される。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】WO2012/006770
【特許文献2】PCT/CN2010/075107
【非特許文献】
【0005】
【非特許文献1】J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,”Parametric coding of stereoaudio,”EURASIP Journal on Applied Signal Processing,2005巻,1305〜1322頁、2005年.
【非特許文献2】J.Herre,K.Kjorling,J.Breebaart,C.Faller,S.Disch,Purnhagen,J.Koppens,J.Hilpert,J.Roden,W.Oomen,K.Linzmeier,K.S.Chong,”MPEG Surround−The ISO/MPEG standart for efficient and compatible multichannel audio coding,”J.Audio Eng.Soc,56巻、11番、932〜955頁、2008年.
【非特許文献3】J.Breebaart,C.Faller,”Spatial audio processing:MPEG Surround and other applications,”Wiley−Interscience,2008年.
【非特許文献4】Wu,”Parametric Stereo Coding Scheme with a new Downmix Method and whole Band Inter Channel Time/Phase Differences,”ICASSP,2013年.
【発明の概要】
【発明が解決しようとする課題】
【0006】
最も単純なダウンミックス方法は、静的ダウンミックスマトリックスを用いたチャネル加算である。しかしながら、入力チャネルがコヒーレントであるが、時間的に整合しない音声を含む場合、ダウンミックス信号は、例えば、コムフィルタの特性等、知覚可能なスペクトルバイアスを獲得する可能性がある。
【0007】
J.ブレーバールト(Breebaart)及びC.ファーラー(Faller)による「空間オーディオ処理:MPEG サラウンド及びその他アプリケーション(Spatial audio processing:MPEG Surround and other applications)」、ワイリー・インターサイエンス(Wiley−Interscience)、2008年に記載の2個の入力信号の位相アライメント方法においては、周波数帯における推定されるチャネル間位相差パラメータ(ICPD:inter−channel phase difference)に基づいて入力チャネルの位相を調整する。当該システムは、本書が提案する方法に類似の基本的な機能を備えるが、3個以上の相互依存チャネルのダウンミックスには適用不可である。
【0008】
WO 2012/006770、PCT/CN2010/075107(ファーウェイ(Huawei)、ファーラー(Faller)、ラング(Lang)、シュウ(Xu))において、チャネル2個から1個(ステレオからモノラル)への場合の位相アライメント処理が記載されている。当該処理は、マルチチャネルオーディオに直接は適用できない。
【0009】
ウー(Wu)他による「新規なダウンミックス方法及び全帯域チャネル間時間/位相差によるパラメトリックなステレオ符号化スキーム(Parametric Stereo Coding Scheme with a new Downmix Method and whole Band Inter Channel Time/Phase Differences)」、ICASSP(信号処理とその応用に関する国際会議)会報、2013年において、ステレオダウンミックスに対して全帯域チャネル間位相差を用いる方法が記載されている。左チャネルと全位相差との間の位相差に対して、モノラル信号の位相が設定される。同様に、当該方法も、ステレオからモノラルへのダウンミックスのみに適用される。3個以上の相互依存チャネルは、当該方法では、ダウンミックスできない。
【課題を解決するための手段】
【0010】
本発明の目的は、音声信号処理に対してより良い概念を提供することである。本発明の目的は、請求項1に記載のエンコーダ、請求項12に記載のデコーダ、請求項13に記載のシステム、請求項14に記載の方法、及び請求項15に記載のコンピュータプログラムにより達成される。
【0011】
音声信号処理デコーダであって、少なくとも1個の周波数帯を備え、少なくとも1個の周波数帯において複数の入力チャネルを有する入力音声信号を処理するよう構成されるデコーダが提供される。デコーダは、入力チャネル間のチャネル間依存性に応じて入力チャネルの位相をアライメントするよう構成され、入力チャネルの位相は、そのチャネル間依存性が高いほど相互に対してよりアライメントされる。更に、デコーダは、アライメントされた入力音声信号を、入力チャネルの数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするよう構成される。
【0012】
デコーダの基本的な動作原理は、入力音声信号の相互依存な(コヒーレントな)入力チャネルは、特定の周波数帯における位相に関して相互に誘引し合い、入力音声信号の相互に独立した(非干渉な)入力チャネルは、影響を受けない。提案するデコーダの目的は、クリティカルな信号キャンセル条件における等化後手法に対するダウンミックス品質を向上させつつ、非クリティカルな条件においても同一の性能を提供することである。
【0013】
更に、デコーダの機能の少なくとも一部を、例えば、入力音声信号を出力するエンコーダ等の外部装置に移動してもよい。これにより、従来技術によるデコーダでは、アーチファクトが発生するような信号に対応可能となる。更に、デコーダを変更することなく、ダウンミックス処理規則を更新し、高いダウンミックス品質を確保することが可能である。デコーダの機能の移動については、後に詳述する。
【0014】
実施の形態によっては、デコーダは、周波数帯における入力音声信号を分析して、入力音声チャネル間のチャネル間依存性を特定するよう構成されてもよい。この場合、入力音声信号の分析自体は、デコーダで実行されるため、入力音声信号を出力するエンコーダは、標準的エンコーダであってもよい。
【0015】
実施の形態において、デコーダは、入力チャネル間のチャネル間依存性を、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成されてもよい。当該構成により、デコーダにおける柔軟なレンダリング設定が可能となるが、エンコーダ及びデコーダ間で必要となる付加データ通信量が通常デコーダの入力信号を含むビットストリームにおいて増加する。
【0016】
実施の形態によっては、デコーダは、出力音声信号のエネルギを入力音声信号の決定されたエネルギに基づき正規化するよう構成されてもよく、デコーダは、入力音声信号の信号エネルギを決定するよう構成される。
【0017】
実施の形態によっては、デコーダは、出力音声信号のエネルギを入力音声信号の決定されたエネルギに基づき正規化するよう構成されてもよく、デコーダは、入力音声信号の決定されたエネルギを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成される。
【0018】
入力音声信号の信号エネルギを決定し、且つ出力音声信号のエネルギを正規化することにより、出力音声信号のエネルギが別の周波数帯と比べて適切なレベルとなるよう保証してもよい。例えば、正規化は、各周波数帯の音声出力信号のエネルギが周波数帯の入力音声信号エネルギの総和に、対応するダウンミックスゲインの二乗を乗じたものと同一となるよう実行されてもよい。
【0019】
様々な実施の形態において、デコーダは、ダウンミックスマトリックスに基づいて入力音声信号をダウンミックスするダウンミキサーを備えていてもよく、デコーダは、入力チャネルの位相が特定されたチャネル間依存性に基づいてアライメントされるようダウンミックスマトリックスを算出するよう構成される。マトリックス演算は、多次元の問題を効果的に解決するための数学的ツールである。したがって、ダウンミックスマトリックスを用いることにより、入力音声信号を入力音声信号の入力チャネル数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするための柔軟で簡単な方法が供給される。
【0020】
実施の形態によっては、デコーダは、ダウンミックスマトリックスに基づいて入力音声信号をダウンミックスするダウンミキサーを備え、デコーダは、入力チャネルの位相が特定されたチャネル間依存性に基づいてアライメントされるよう算出されたダウンミックスマトリックスを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成される。これにより、デコーダにおける出力音声信号の処理複雑性が大きく軽減される。
【0021】
特定の実施の形態においては、デコーダは、出力音声信号のエネルギが入力音声信号の決定されたエネルギに基づいて正規化されるよう前記ダウンミックスマトリックスを算出するよう構成されてもよい。この場合、信号処理が単純になるよう、出力音声信号のエネルギの正規化は、ダウンミックス処理に統合される。
【0022】
実施の形態において、デコーダは、出力音声信号のエネルギが入力音声信号の決定されたエネルギに基づいて正規化されるよう算出された前記ダウンミックスマトリックスMを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成されてもよい。
【0023】
エネルギ等化ステップは、複雑ではなく明確に定義される処理ステップであるため、符号化処理に含めてもよく、又はデコーダにおいて実行してもよい。
【0024】
実施の形態によっては、デコーダは、入力音声信号の時間間隔を窓関数を用いて分析するよう構成されてもよく、各時間フレームに対してチャネル間依存性が決定される。
【0025】
実施の形態において、デコーダは、入力音声信号の時間間隔の窓関数を用いた分析を、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成されてもよく、各時間フレームに対してチャネル間依存性が決定される。
【0026】
当該処理は、どちらの場合も重複するフレームを用いた方法で行われても良く、例えば、再帰窓を用いて適切なパラメータを推定する等、別の選択肢も容易に使用可能である。原則として選択される窓関数は、問わない。
【0027】
実施の形態によっては、デコーダは、共分散値マトリックスを算出するよう構成され、共分散値は、一対の入力音声チャネルのチャネル間依存性を表現する。共分散値マトリックスを算出することは、入力音声信号の入力チャネルのコヒーレンスを決定するために用いてもよい周波数帯の短時間確率的特性を得るための簡単な方法である。
【0028】
実施の形態において、デコーダは、共分散値マトリックスを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成され、共分散値は、一対の入力音声チャネルのチャネル間依存性を表現する。この場合、共分散マトリックスの計算は、エンコーダで行ってもよい。その後、エンコーダ及びデコーダ間で共分散マトリックスの共分散値をビットストリームに含めて伝送しなければならない。この構成により受信装置において柔軟なレンダリング設定が可能となるが、出力音声信号において付加データが必要となる。
【0029】
好ましい実施の形態において、正規化共分散値マトリックスが作成されてもよく、正規化共分散値マトリックスは、共分散値マトリックスに基づく。当該特性により、更なる処理を単純化できる。
【0030】
実施の形態によっては、デコーダは、マッピング関数を共分散値マトリックス又は共分散値マトリックスから導出されるマトリックスに適用することにより誘引値マトリックスを作成するよう構成されてもよい。
【0031】
実施の形態によっては、マッピング関数の勾配は、全共分散値又は共分散値から導出される値に対してゼロ以上であってもよい。
【0032】
好ましい実施の形態において、マッピング関数は、ゼロと1との間の入力値に対してゼロと1との間の値に到達してもよい。
【0033】
実施の形態において、デコーダは、マッピング関数を共分散値マトリックス又は共分散値マトリックスから導出されるマトリックスに適用することにより作成された誘引値マトリックスAを受信するよう構成されてもよい。非線形関数を共分散値マトリックス又は、例えば、正規化共分散マトリックス等の共分散値マトリックスから導出されるマトリックスに適用することにより、どちらの場合も、位相アライメントが調整される。
【0034】
位相誘引値マトリックスは、チャネルペア間の位相誘引度を決定する位相誘引係数の形で制御データを提供する。位相調整は、共分散値が低いチャネルは、相互に影響せず、共分散値が高いチャネルは、相互に位相ロックされるよう、測定共分散値マトリックスに基づいて各時間周波数タイルに対して導出される。
【0035】
実施の形態によっては、マッピング関数は、非線形関数である。
【0036】
実施の形態において、マッピング関数は、第1のマッピング閾値より小さい共分散値又は共分散値から導出される値に対してはゼロに等しく、及び/又はマッピング関数は、第2のマッピング閾値より大きい共分散値又は共分散値から導出される値に対しては1に等しい。当該特性により、マッピング関数は、3個の区間から成る。第1のマッピング閾値より小さい全共分散値又は共分散値から導出される値に対しては、位相誘引係数は、ゼロに算出され、したがって、位相調整は、実行されない。第1のマッピング閾値より大きく且つ第2のマッピング閾値より小さい全共分散値又は共分散値から導出される値に対しては、位相誘引係数は、ゼロと1との間の値に算出され、したがって、部分的位相調整が実行される。第2のマッピング閾値より大きい全共分散値又は共分散値から導出される値に対しては、位相誘引係数は、1に算出され、したがって、完全な位相調整が実行される。
【0037】
以下は、マッピング関数の一例である。
【数1】
【0038】
以下は、別の好ましい一例である。
【数2】
【0039】
実施の形態によっては、マッピング関数は、S字曲線を形成する関数により表現されてもよい。
【0040】
所定の実施の形態において、デコーダは、位相アライメント係数マトリックスを算出するよう構成され、位相アライメント係数マトリックスは、前記共分散値マトリックス及びプロトタイプダウンミックスマトリックスに基づく。
【0041】
実施の形態において、デコーダは、位相アライメント係数マトリックスを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成され、位相アライメント係数マトリックスは、前記共分散値マトリックス及びプロトタイプダウンミックスマトリックスに基づく。
【0042】
位相アライメント係数マトリックスは、入力音声信号の非ゼロ誘引チャネルをアライメントするために必要な位相アライメント容量を記述する。
【0043】
プロトタイプダウンミックスマトリックスは、どの入力チャネルがどの出力チャネルにミキシングされるかを定義する。ダウンミックスマトリックスの係数は、入力チャネルを出力チャネルにダウンミックスするためのスケーリング因数であってもよい。
【0044】
位相アライメント係数マトリックスの計算全体をエンコーダで行っても良い。その後、位相アライメント係数マトリックスは、入力音声信号に含めて伝送される必要があるが、その要素は、多くの場合、ゼロであり、任意の方法で量子化できる。位相アライメント係数マトリックスは、プロトタイプダウンミックスマトリックスに大きく依存するため、当該マトリックスは、エンコーダ側で認識されている必要がある。これにより、可能な出力チャネル設定が制限される。
【0045】
実施の形態によっては、隣接する時間フレーム間の信号キャンセルによる一次的なアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックスの位相及び/又は振幅は、時間に沿って平滑なものとなるよう定式化される。ここで「時間に沿って平滑な」という文言は、ダウンミックス係数において時間に沿って急激な変化が発生しないことを意味する。詳細には、ダウンミックス係数は、時間に沿って連続関数又は準連続関数に基づいて変化してもよい。
【0046】
実施の形態において、隣接する周波数帯間の信号キャンセルによるスペクトルアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックスの位相及び/又は振幅は、周波数に沿って平滑なものとなるよう定式化される。ここで「周波数に沿って平滑な」という文言は、ダウンミックス係数において周波数に沿って急激な変化が発生しないことを意味する。詳細には、ダウンミックス係数は、周波数に沿って連続関数又は準連続関数に基づいて変化してもよい。
【0047】
実施の形態によっては、デコーダは、正規化位相アライメント係数マトリックスを算出又は受信するよう構成され、正規化位相アライメント係数マトリックスは、位相アライメント係数マトリックスに基づく。当該特性により、更なる処理を単純化できる。
【0048】
好ましい実施の形態において、デコーダは、位相アライメント係数マトリックスに基づいて正則化位相アライメント係数マトリックスを作成するよう構成される。
【0049】
実施の形態において、デコーダは、正則化位相アライメント係数マトリックスを位相アライメント係数マトリックスに基づいて、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成される。
【0050】
提案するダウンミックス手法によれば、位相が対向する信号の、位相アライメント処理の極性が突然切替わる可能性のあるクリティカル条件において効果的に正則化できる。
【0051】
突然変化する位相調整係数が原因の、遷移域において隣接するフレーム間のキャンセルを抑制するために、更なる正則化ステップが定義される。当該正則化及び隣接する時間周波数タイル間の急激な位相変化の抑制が、提案するダウンミックス方法の利点である。当該方法は、隣接する時間周波数タイル間で位相が急に変化した場合、又は隣接する周波数帯間でノッチが形成された場合に発生することがある不要なアーチファクトを抑制する。
【0052】
正則化位相アライメントダウンミックスマトリックスは、位相正則化係数θi,jを正規化位相アライメントマトリックスに適用することにより得られる。
【0053】
正則化係数は、各時間/周波数タイルに対する処理ループ内で算出されてもよい。正則化は、時間及び周波数方向において再帰的に適用されてもよい。隣接するタイムスロット間及び周波数帯間の位相差が考慮され、重み付きマトリックスを生成する誘引値により重み付けされる。後に詳述する通り、当該マトリックスから正則化係数を導出してもよい。
【0054】
好ましい実施の形態において、ダウンミックスマトリックスは、正則化位相アライメント係数マトリックスに基づく。これにより、ダウンミックスマトリックスのダウンミックスが時間及び周波数に沿って平滑なものとなるよう保証される。
【0055】
更に、音声信号処理エンコーダであって、少なくとも1個の周波数帯を備え、少なくとも1個の周波数帯において複数の入力チャネルを有する入力音声信号を処理するよう構成され、エンコーダは、入力チャネル間のチャネル間依存性に応じて入力チャネルの位相をアライメントするよう構成され、入力チャネルの位相は、そのチャネル間依存性が高いほど、相互に対してよりアライメントされ、エンコーダは、アライメントされた入力音声信号を、入力チャネルの数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするよう構成される。
【0056】
音声信号処理エンコーダは、本出願に記載の音声信号処理デコーダと同様に構成されてもよい。
【0057】
更に、音声信号処理エンコーダであって、少なくとも1個の周波数帯を有し、且つビットストリームを出力するよう構成され、ビットストリームは、周波数帯において符号化音声信号を備え、符号化音声信号は、少なくとも1個の周波数帯において複数の符号化チャネルを有し、エンコーダは、
入力音声信号の符号化チャネル間のチャネル間依存性を決定し、ビットストリームに含めてチャネル間依存性を出力し、及び/又は
符号化音声信号のエネルギを決定し、符号化音声信号の決定されたエネルギをビットストリームに含めて出力し、及び/又は
符号化チャネルの位相が特定されたチャネル間依存性に基づきアライメントされるよう、好ましくは、符号化音声信号の決定されたエネルギに基づきダウンミキサーの出力音声信号のエネルギが正規化されるよう、ダウンミックスマトリックスに基づいて入力音声信号をダウンミックスするダウンミキサーに対してダウンミックスマトリックスMを算出するよう構成され、隣接する時間フレーム間の信号キャンセルによる一時的なアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックス係数が時間に沿って平滑となるよう定式化され、及び/又は、詳細には隣接する周波数帯間の信号キャンセルによるスペクトルアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックス係数は、振幅が周波数に沿って平滑となるよう定式化され、ダウンミックスマトリックスMをビットストリームに含めて出力し、及び/又は
符号化音声信号の時間間隔を窓関数を用いて分析し、各時間フレームに対してチャネル間依存性が決定され、且つ各時間フレームに対するチャネル間依存性をビットストリームに含めて出力し、及び/又は
共分散値マトリックスを算出し、共分散値は、一対の符号化音声チャネル(38)のチャネル間依存性を表現し、且つ共分散値マトリックスをビットストリームに含めて出力し、及び/又は
勾配が、好ましくは、全共分散値又は共分散値から導出される値に対してゼロ以上であり、好ましくは、ゼロと1との間の入力値に対してゼロと1との間の値に到達するマッピング関数、詳細には、非線形関数、詳細には、第1のマッピング閾値より小さい共分散値又は共分散値から導出される値に対してゼロに等しく、及び/又は第2のマッピング閾値より大きい共分散値又は共分散値から導出される値に対して1に等しく、及び/又はS字曲線を形成する関数により表現されるマッピング関数を、共分散値マトリックス又は共分散値マトリックスから導出されるマトリックスに適用することにより誘引値マトリックスを作成し、且つ誘引値マトリックスをビットストリームに含めて出力し、及び/又は
位相アライメント係数マトリックスを算出し、位相アライメント係数マトリックスは、共分散値マトリックス及びプロトタイプダウンミックスマトリックスに基づくものであり、及び/又は
位相アライメント係数マトリックスVに基づき正則化位相アライメント係数マトリックスを作成し、且つ正則化位相アライメント係数マトリックスをビットストリームに含めて出力するよう構成される。
【0058】
本明細書に記載の通り、当該エンコーダのビットストリームは、デコーダに伝送されて復号されてもよい。更なる詳細については、デコーダに関する説明を参照する。
【0059】
また、本発明による音声信号処理デコーダと、本発明による音声信号処理エンコーダとを備えるシステムが提供される。
【0060】
更に、周波数帯において複数の入力チャネルを有する入力音声信号を処理するための方法であって、方法は、周波数帯における入力音声信号を分析し、入力音声チャネル間のチャネル間依存性が特定されるステップと、
特定されたチャネル間依存性に基づいて入力チャネルの位相をアライメントし、入力チャネルの位相がそのチャネル間依存性より高いほど相互によりアライメントされるステップと、
アライメントされた入力音声信号を、周波数帯内の入力チャネルの数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするステップと、を備える方法が提供される。
【0061】
更に、コンピュータ又は信号プロセッサ上で動作する際に、上記の方法を実行するコンピュータプログラムが提供される。
【0062】
以下に、本発明の実施の形態を以下に説明する図面を参照して詳述する。
【図面の簡単な説明】
【0063】
図1】提案する適応位相アライメントダウンミックスのブロック図を示す。
図2】提案する方法の動作原理を示す。
図3】ダウンミックスマトリックスMを計算するための処理ステップを示す。
図4】誘引値マトリックスC’を算出するための正規化共分散マトリックスAに適用されてもよい式を示す。
図5】三次元音声エンコーダの基本概念の概略ブロック図を示す。
図6】三次元音声デコーダの基本概念の概略ブロック図を示す。
図7】フォーマット変換装置の基本概念の概略ブロック図を示す。
図8】2個のチャネルを有する元の信号を時間に沿って処理する方法の一例を示す。
図9】2個のチャネルを有する元の信号を周波数に沿って処理する方法の一例を示す。
図10】77帯域ハイブリッドフィルタバンクを示す。
【発明を実施するための形態】
【0064】
本発明の実施の形態を記載する前に、従来技術のエンコーダ/デコーダシステムに関する背景を説明する。
【0065】
図5は、三次元音声エンコーダ1の基本概念概略ブロック図、図6は、三次元音声デコーダ2の基本概念の概略ブロック図を示す。
【0066】
前記三次元音声コーデックシステム1,2は、チャネル信号4及びオブジェクト信号5を符号化するMPEG−D発話音声統合符号化(USAC=Unified Speech and Audio Coding)(USAC)エンコーダ3、及び前記エンコーダ3の出力音声信号7を復号するためのMPEG−D発話音声統合符号化(USAC=Unified Speech and Audio Coding)(USAC)デコーダ6を基礎としていてもよい。
【0067】
前記ビットストリーム7は、前記エンコーダ1の周波数帯を参照する符号化音声信号37を含んでいてもよく、ここで 前記符号化音声信号37は、複数の符号化チャネル38を有する。前記符号化信号37は、入力音声信号37として前記デコーダ2の周波数帯36(図1参照)に入力されてもよい。
【0068】
大容量のオブジェクト5の符号化効率を向上させるため、空間オーディオオブジェクト符号化(spatial audio object coding:SAOC)技術を適用した。3種類のレンダラ8,9,10は、オブジェクト11,12をチャネル13に,チャネル13をヘッドフォンに、又はチャネルを異なるラウドスピーカ設定にレンダリングする。
【0069】
オブジェクト信号がSAOCにより明示的に伝送又はパラメトリックに符号化されると、対応するオブジェクトメタデータ(OAM)14情報が前記三次元音声ビットストリーム7に圧縮及び多重化される。
【0070】
符号化する前に、プリレンダラ/ミキサー15を任意で用いてチャネル及びオブジェクト入力シーン4,5をチャネルシーン4,16に変換してもよい。以下に記載のオブジェクトレンダラ/ミキサー15と機能的に同一である。
【0071】
オブジェクト5のプリレンダリングにより、同時にアクティブなオブジェクト信号5の数とは基本的に独立した前記エンコーダ3の入力において、決定論的信号エントロピーを保証できる。オブジェクト5のプリレンダリングにより、オブジェクトメタデータ14を伝送する必要が無い。
【0072】
離散オブジェクト信号5は、前記エンコーダ3が使用するよう構成されるチャネルレイアウトにレンダリングされる。各チャネル16に対する前記オブジェクト5の重みは、関連するオブジェクトメタデータ14から得られる。
【0073】
ラウドスピーカ−チャネル信号4、離散オブジェクト信号5、オブジェクトダウンミックス信号14及びプリレンダリング済信号16に対するコアコーデックは、MPEG−D USAC技術を基礎としていてもよい。当該コアコーデックは、入力側のチャネル及びオブジェクト割当の幾何学情報及びセマンティクス情報に基づいてチャネル及びオブジェクトマッピング情報を作成することにより、多数の信号4,5,14の符号化を行う。当該マッピング情報は、入力チャネル4及びオブジェクト5がUSACチャネルエレメント、具体的には、チャネル・ペア・エレメント(CPE)、シングル・チャネル・エレメント(SCE)、低域効果(LFE)にどのようにマッピングされるかを記述し、対応する情報が前記デコーダ6に伝送される。
【0074】
SAOCデータ17等の付加ペイロードの全て又はオブジェクトメタデータ14は、拡張成分を介して送信されてもよく、前記エンコーダ3のレート制御において考慮されてもよい。
【0075】
オブジェクト5の符号化は、レンダラが求めるレート/歪み条件及び双方向性条件に応じて、異なる方法で行うことも可能である。以下のようなオブジェクト符号化も可能である。
−プリレンダリング済オブジェクト16:オブジェクト信号5は、22.2チャネル信号4等のチャネル信号4にプリレンダリング及びミキシングされた後、符号化される。続く符号化チェーンでは、22.2チャネル信号4として処理される。
−離散オブジェクト波形:オブジェクト5は、モノラル波形としてエンコーダ3に入力される。エンコーダ3は、シングル・チャネル・エレメント(SCE)を用いてチャネル信号4及びオブジェクト5を伝送する。復号化オブジェクト18は、受信側でレンダリング及びミキシングされる。圧縮オブジェクトメタデータ情報19,20は、共に、受信装置/レンダラ21に伝送される。
−パラメトリックオブジェクト波形17:オブジェクト特性及び相関性は、SAOCパラメータ22,23により記述する。オブジェクト信号17のダウンミックスは、USACにより符号化される。パラメトリック情報22も併せて伝送される。ダウンミックスチャネル17の数は、オブジェクト5の数及び総データレートに応じて選択される。圧縮オブジェクトメタデータ情報23は、SAOCレンダラ24に伝送される。
【0076】
オブジェクト信号5のSAOCエンコーダ25及びデコーダ24は、MPEG SAOC技術に基づく。当該システムは、複数の音声オブジェクト5をより少ない数の伝送済チャネル7、及びオブジェクトレベル差(object level difference:OLD)、オブジェクト間コヒーレンス(Inter Object Coherence:lOC)、ダウンミックスゲイン値(downmix gain value:DMG)等の付加パラメトリックデータ22,23に基づき、再現、変更、及びレンダリングすることが可能である。付加パラメトリックデータ22,23のデータレートは、全オブジェクト5を個別に伝送する際に必要となるレートに比べて非常に低く、符号化効率が向上する。
【0077】
SAOCエンコーダ25には、モノラル波形としてのオブジェクト/チャネル信号5が入力され、(3次元音声ビットストリーム7にパケット化される)パラメトリック情報22及び(シングル・チャネル・エレメントを用いて符号化及び伝送される)SAOC伝送チャネル17を出力する。SAOCデコーダ24は、復号済SAOC伝送チャネル26及びパラメトリック情報23からオブジェクト/チャネル信号5を再構築し、再生レイアウト、展開オブジェクトメタデータ情報20、及び任意でユーザ・インタラクション情報に基づいて出力音声シーン27を生成する。
【0078】
各オブジェクト5に対して、三次元空間におけるオブジェクトの幾何学的位置及び量を指定する関連するオブジェクトメタデータ14が、オブジェクトメタデータエンコーダ28により時間的及び空間的オブジェクト特性を量子化することにより効率的に符号化される。圧縮オブジェクトメタデータ(cOAM)19が、OAMデコーダ29により復号されてもよいサイド情報20として受信装置に伝送される。
【0079】
オブジェクトレンダラ21は、圧縮オブジェクトメタデータ20を利用して所定の再生フォーマットでオブジェクト波形12を生成する。各オブジェクト5は、自身のメタデータ19,20に基づき所定の出力チャネル12にレンダリングされる。当該ブロック21の出力は、部分結果が合計から成る。チャネルベースコンテンツ11,30及び離散/パラメトリックオブジェクト12,27が復号される場合、チャネルベース波形11,30及びレンダリング済オブジェクト波形12,27は、生成された波形13が出力される前(又はバイノーラル・レンダラ9又はラウドスピーカ・レンダラモジュール9,10等のポストプロセッサモジュール9,10に入力される前に)ミキサー8によりミキシングされる。
【0080】
バイノーラル・レンダラモジュール9は、各入力チャネル13が仮想音源により表現されるよう、マルチチャネル音声素材13のバイノーラルダウンミックスを生成する。当該処理は、直交ミラーフィルターバンク(Quadrature Mirror Filterbank:QMF)ドメインにおいてフレーム的に行われる。バイノーラル化は、測定されるバイノーラル室内インパルス応答に基づいて行われる。
【0081】
図7により詳細に記載するラウドスピーカレンダラ10は、伝送されたチャネル設定13と、求められる再生フォーマット31との間の変換を行う。したがって、以下においては「フォーマット変換装置」10と呼称する。フォーマット変換装置10はより少ない出力チャネル数31への変換、すなわち、ダウンミックサー32によりダウンミックスを作成する。DMXコンフィギュレータ33は、入力フォーマット13及び出力フォーマット31の所定の組合せに対して自動的に最適化ダウンミックスマトリックスを生成し、当該マトリックスをミキサー出力レイアウト34及び再生レイアウト35が用いられるダウンミックス処理32において適用する。フォーマット変換装置10は、標準ラウドスピーカ設定及び非標準ラウドスピーカ配置によるランダム設定を可能にする。
【0082】
図1は、音声信号処理装置であって、少なくとも1個の周波数帯36を備え、前記少なくとも1個の周波数帯36において複数の入力チャネル38を有する入力音声信号37を処理するよう構成され、前記装置は
前記入力音声信号37を分析するよう構成され、前記入力チャネル38間のチャネル間依存性39が特定され、前記装置は、
前記特定されたチャネル間依存性39に応じて前記入力チャネル38の位相をアライメントするよう構成され、前記入力チャネル38の位相は、そのチャネル間依存性39が高いほど、相互に対してよりアライメントされ、前記装置は、
前記アライメントされた入力音声信号を、前記入力チャネル38の数より少ない数の出力チャネル41を有する出力音声信号40にダウンミックスするよう構成される、装置を示す。
【0083】
本発明は、エンコーダ1及びデコーダに適用可能なため、前記音声信号処理装置は、エンコーダ1又はデコーダであってもよい。
【0084】
図1のブロック図に示す提案するダウンミックス方法は、以下の原理で設計されている。
1.測定された信号共分散マトリックス
に基づき、ci,jが低いチャネルは、相互に影響せず、ci,jが高いチャネルは、相互に位相ロックされるよう、各時間周波数タイルに対して位相調整が導出される。
2.位相調整は、隣接する時間/周波数タイルの重複領域における位相調整差による信号キャンセルアーチファクトを避けるため、時間及び周波数に沿って正則化される。
3.ダウンミックスがエネルギ保存なものとなるようダウンミックスマトリックスゲインが調整される。
【0085】
前記エンコーダ1の基本的な動作原理は、入力音声信号の相互依存な(コヒーレントな)入力チャネル38が特定の周波数帯36における位相に関して相互に誘引し合い、前記入力音声信号37の相互に独立した(非干渉な)前記入力チャネル38が影響を受けない。提案する前記エンコーダ1の目的は、クリティカルな信号キャンセル条件における等化後手法に対するダウンミックス品質を向上させつつ、非クリティカルな条件においても同一の性能を提供することである。
【0086】
チャネル間依存性39は、通常演繹的ではないため、ダウンミックスの適応手法を提案する。
【0087】
信号スペクトルを回復させる直接的手法は、周波数帯36における信号を減衰又は増幅する適応イコライザ42を適用することである。しかしながら、適用される周波数変換分解能より鋭い周波数ノッチが存在する場合、当該手法では、確実に前記信号41を回復することはできないと考えるのは合理的である。この問題は、ダウンミックスの前に前記入力信号37の位相を前処理して最初から当該周波数ノッチを防止することにより解決できる。
【0088】
【0089】
更に、提案するダウンミックス手法によれば、位相の対向する信号の、位相アライメント処理の極性が急に切替わる可能性のあるクリティカルな条件において効果的に正則化できる。
【0090】
その結果、得られるダウンミキサーの数学的記述は、上記を実現したものである。当業者にとって、上記の記述に基づく特徴を有する別の特定の実施例を定式化することは可能である。
【0091】
図2に記載の方法の基本的な動作原理は、相互にコヒーレントな信号SC1,SC2,SC3が特定の周波数帯36における位相に関して相互に誘引し合い、非干渉な前記信号SC1が影響を受けない。提案する前記方法の目的は、単純に、クリティカルな信号キャンセル条件における等化後手法に対するダウンミックス品質を向上させつつ、非クリティカルな条件においても同一の性能を提供することである。
【0092】
提案する方法は、前記周波数帯信号37の短時間確率的特性及び静的プロトタイプダウンミックスマトリックスQに基づき、周波数帯36において位相アライメント及びエネルギ等化を行うダウンミックスマトリックスMを適応的に定式化するよう設計される。詳細には、前記方法は、相互依存な前記チャネルSC1,SC2,SC3のみに相互に位相アライメントを適用するよう構成される。
【0093】
図1に一般的な一連の動作を示す。当該処理は、重複フレームを用いた方法で行われるが、適当なパラメータを推定するための再帰窓等、別の選択肢も、また、容易に使用可能である。
【0094】
【0095】
入力チャネル数をNとし、ダウンミックスチャネル数をN<Nとする。プロトタイプダウンミックスマトリックスQ及び位相アライメントダウンミックスマトリックスMは、通常スパースであり、N×N次元となる。位相アライメントダウンミックスマトリックスMは、通常、時間及び周波数の関数として変化する。
【0096】
当該位相アライメントダウンミックスシステムは、チャネル間の信号キャンセルを抑制するが、位相調整係数が突然変化した場合、隣接する時間/周波数タイル間の遷移域においてキャンセルを導入してもよい。時間に沿った急激な位相変化は、近傍の位相が対向する入力信号がダウンミックスされる際に振幅又は位相が僅かであっても異なる場合に発生することがある。この場合、信号自体が適度に安定している場合でも、位相アライメントの極性が急速に切替わる可能性もある。当該エフェクトは、例えば、トーン信号成分の周波数がチャネル間時間差と一致すると、発生してもよいが、代わりに、例えば、離れた場所からのマイクロホン録音技術を使用して、又は遅延ベースのオーディオエフェクトから得られてもよい。
【0097】
周波数軸において、タイル間の急激な位相変動は、例えば、コヒーレントではあるが、異なってディレイされた2個の広帯域信号がダウンミックスされると、発生する場合がある。位相差は、高帯域側に向かうほど大きくなり、所定の周波数帯境界におけるラップが遷移域におけるノッチの原因になり得る。
【0098】
【0099】
すると、エネルギ正規化48は、ダウンミックス信号40において任意のレベルのエネルギを適応的に確保する。前記処理済信号フレーム43は、オーバーラップステップ49において、前記出力データストリーム40にオーバーラップして追加される。なお、このような時間/周波数処理構造体の設計においては、様々な変形が利用可能である。異なる順の信号処理ブロックにより類似の処理を得ることもできる。また、ブロックの一部を組合せて単一の処理ステップとしてもよい。更に、窓掛け処理44又はブロック処理するための手法は、類似の処理特性が達成される限り様々な方法で再定式化されてもよい。
【0100】
図3に位相アライメントダウンミックスの異なるステップを記載する。3種類の全体的な処理ステップの後、元のマルチチャネル入力音声信号37を異なるチャネル数にダウンミックスするために用いられるダウンミックスマトリックスMが得られる。
【0101】
マトリックスMの算出に必要な様々なサブステップを以下に詳述する。
【0102】
本発明の実施の形態によるダウンミックス方法は、64帯域のQMFドメインにおいて実現されてもよい。64帯域の複合変調均一QMFフィルタバンクが適用されてもよい。
【0103】
時間/周波数ドメインにおける入力音声信号x(前記入力音声信号38に相当する)から、複素数値共分散マトリックスCがマトリックスC=E{xx}として算出され、その場合、E{・}は、期待値演算子であり、xは、xの共役転置である。実施例において、期待値演算子は、複数の時間及
び/又は周波数サンプルに伴う平均演算子に置換えられる。
【0104】
次に、前記マトリックスCの絶対値は、共分散正規化ステップ50において正規化され、これにより、0と1の間の値を備える(したがって、要素は、c’i,jと呼ばれ、マトリックスは、C’と呼ばれる。これらの値は、異なるチャネルペア間でコヒーレントでありながら位相オフセットを備えていてもよい音声エネルギの成分を表現する。すなわち、同相信号、異相信号、逆相信号の各々は、正規化数1を生成し、非干渉信号は、0を生成する。
【0105】
これらは、誘引値計算ステップ51において、チャネルペア間の位相誘引を絶対正規化共分散マトリックスM’の全エントリに適用されるマッピング関数f(c’i,j)により表現する制御データ(誘引値マトリックスA)に変換される。ここで、
【数3】
を用いてもよい(生成されたマッピング関数は、図4参照)。
【0106】
本実施の形態において、マッピング関数f(c’i,j)は、第1のマッピング閾値54より少ない正規化共分散値c’i,jに対してはゼロに等しく、及び/又は第2のマッピング閾値55より大きい正規化共分散値c’i,jに対しては1に等しい。当該特性により、前記マッピング関数は、3個の区間から成る。前記第1のマッピング閾値54より少ない正規化共分散値c’i,jの全てに対しては位相誘引係数ai,jがゼロとして算出され、位相調整は,実行されない。前記第1のマッピング閾値54より大きく、且つ、前記第2のマッピング閾値55より少ない正規化共分散値c’i,jの全てに対しては、位相誘引係数ai,jは、ゼロと1との間の値に算出され、部分的位相調整が実行される。前記第2のマッピング閾値55より大きい正規化共分散値c’i,jの全てに対しては、位相誘引係数ai,jは、1に算出され、完全な位相調整が実行される。
【0107】
当該誘引値から、位相アライメント係数vi,jが計算される。当該係数は、信号xの非ゼロ誘引チャネルのアライメントに必要な位相アライメント容量を記述する。
【数4】
【0108】
次に、前記係数vi,jは、位相アライメント係数マトリックス正規化ステップ52においてダウンミックスマトリックスQの大きさに正規化され、その結果、要素
【数5】
【0109】
当該ダウンミックスの利点は、位相調整が、測定された信号共分散マトリックスCから導出されるので、低誘引のチャネル38が相互に影響しないということである。誘引性の高いチャネル38は、相互に位相ロックされる。位相変調の強さは、相関特性に依存する。
【0110】
当該位相アライメントダウンミックスシステムは、チャネル間の信号キャンセルを抑制するが、位相調整係数が突然変化すると遷移域において隣接する時間/周波数タイル間でのキャンセルを発生させる場合がある。時間に沿った急激な位相変化は、近傍の対向する位相入力信号がダウンミックスされる際に振幅又は位相が僅かであっても異なる場合に発生することがある。この場合、位相アライメントの極性が急速に切替わる可能性もある。
【0111】
付加的な正則化ステップ47は、位相調整係数vi,jの急激な変化が原因の、遷移域において隣接するフレーム間のキャンセルを抑制するよう定義される。当該正則化及び音声フレーム間の急激な位相変化の抑制が、提案するダウンミックス方法の利点である。当該方法は、隣接する音声フレーム間で位相が急に変化した場合、又は隣接する周波数帯間でノッチが形成された場合に発生することがある不要なアーチファクトを抑制する。
【0112】
隣接する時間/周波数タイル間における大きな位相変動を抑制するための正則化を行うためのさまざまな選択肢がある。一実施の形態において、以下に詳述する単純な正則化方法が用いられる。当該方法において、処理ループが各タイルに対して最も低い周波数タイルから最も高いものまで時間内に連続して実行されるよう構成されてもよく、位相正則化が先のタイルに対して時間内及び周波数内に再帰的に適用されてもよい。
【0113】
図8及び図9は、以下に説明する設計された処理の実際の効果を示す。図8は、時間に沿って2個のチャネル38を有する元の信号37の一例を示す。前記2個のチャネル38間には、緩やかに増大するチャネル間位相差(IPD)56が存在する。+πから−πまでの急激な位相変動により、第1のチャネル38の未正則化位相調整57及び第2のチャネル38の未正則化位相調整58において急激な変化が起こる。
【0114】
しかしながら、第1のチャネル38の正則化位相調整57及び第2のチャネル38の正則化位相調整58においては、急激な変化は見られない。
【0115】
図9は、2個のチャネル38を有する元の信号37の一例を示す。また、前記信号37の一方のチャネル38の元のスペクトル61を示す。未アラインのダウンミックススペクトル(受動ダウンミックススペクトル)62は、コムフィルタ効果を呈する。このコムフィルタ効果は、未正則化ダウンミックススペクトル63では減少している。しかしながら、正則化ダウンミックススペクトル64においては、当該コムフィルタ効果は、見られない。
【0116】
【0117】
当該正則化係数は、各時間/周波数フレームに対して処理ループ内で算出される。前記正則化47は、時間/周波数方向において再帰的に適用される。隣接するタイムスロット間及び周波数帯間の位相差が考慮され、誘引値により重み付けされ、重み付きマトリックスMdAが生成される。当該マトリックスから正則化係数が導出される。
【数6】
【0118】
各信号エネルギに依存する0とπ/2との間のステップによってゼロに向かって減少させるために正則化を行うことにより、一定な位相オフセットを防止する。
【数7】
【0119】
【数8】
となる。
【0120】
最後に、各チャネルjに対するエネルギ正規化ステップ53において、最終位相アライメントダウンミックスマトリックスの行を構成するエネルギ正規化位相アライメントダウンミックスベクトルが定義される。
【数9】
【0121】
マトリックスMの計算後に出力音声素材が算出される。QMFドメイン出力チャネルは、QMF入力チャネルの加重和である。適応位相アライメント処理を含む複素数値重みは、マトリックスMの要素である。
【数10】
【0122】
処理ステップの一部を前記エンコーダ1で行うことも可能である。これにより、前記デコーダ2における前記ダウンミックス7処理の複雑性を大幅に軽減できる。また、標準的ダウンミキサーでは、アーチファクトが発生する入力音声信号37に対応することも可能となる。したがって、前記デコーダ2を変更せずにダウンミックス処理規則を更新でき、ダウンミックス品質を向上させることができる。
【0123】
位相アライメントダウンミックスのどの部分を前記エンコーダ1で行うかについては、複数の可能性がある。位相アライメント係数vi,jの計算全てを前記エンコーダ1で行うことも可能である。その後、当該位相アライメント係数vi,jをビットストリーム7に含めて伝送する必要があるが、当該係数は、多くの場合、ゼロであり、任意の方法で量子化してもよい。当該位相アライメント係数vi,jは、プロトタイプダウンミックスマトリックスQに大きく依存するため、当該マトリックスQは、エンコーダ側で認識されている必要がある。これにより、可能な出力チャネル設定が制限される。イコライザステップ又はエネルギ正規化ステップは、複雑ではなく、明確に定義できる処理ステップであるため、符号化処理に含めてもよく、又はやはりデコーダ2で行ってもよい。
【0124】
また、共分散マトリックスCの計算を前記エンコーダ1で行ってもよい。その後、当該共分散マトリックスCの要素をビットストリーム7に含めて伝送する必要がある。これにより、前記受信装置2において柔軟なレンダリング設定が可能となるが、前記ビットストリーム7に更なるデータを付加する必要がある。
【0125】
以下に、本発明の好ましい実施の形態を説明する。
【0126】
以下において、前記フォーマット変換装置42に入力される音声信号37を「入力信号」と呼称する。フォーマット変換処理により得られる音声信号40は、「出力信号」と呼称する。なお、前記フォーマット変換装置の前記音声入力信号37は、前記コアデコーダ6の音声出力信号である。
【0127】
ベクトル及びマトリクスを太字記号で示す。ベクトル要素又はマトリックス要素は、斜体の変数記号にベクトル/マトリックスにおけるベクトル/マトリックス要素の行/列を示すインデックスを添えて表記され、例えば、[y・・・y・・・y]=yは、ベクトル及びその要素を表す。同様に、Ma,bは、マトリックスMのa行及びb列の要素を表す。
【0128】
以下の変数記号が使用される。
in 入力チャネル設定におけるチャネル数
out 出力チャネル設定におけるチャネル数
DMX 非負実数ダウンミックス係数(ダウンミックスゲイン)を含むダウンミックスマトリックスであり、MDMXは(Nout×Nin)である。
EQ 等化フィルタの周波数応答を決定するための処理帯域当たりゲイン値を含むマトリックス
EQ 入力チャネルに適用するイコライザフィルタを示すベクトル(存在する場合)
L タイムドメイン音声サンプルにおいて測定されるフレーム長
ν タイムドメインサンプルインデックス
n QMFタイムスロットインデックス(=サブバンドサンプルインデックス)
QMFスロットにおいて測定されるフレーム長
F フレームインデックス(フレーム数)
K ハイブリッドQMF周波数帯数であり、K=77
k QMF帯域インデックス(1..64)又はハイブリッドQMF帯域インデックス(1..

A,B チャネルインデックス(チャネル設定のチャネル数)
eps 数値定数、eps=10−35
【0129】
前記コアデコーダ6が生成した音声サンプルの処理を行う前に、前記フォーマット変換装置42が初期化される。
【0130】
初期化においては、以下が入力パラメータとして考慮される。
・処理対象の音声データのサンプリングレート。
・前記フォーマット変換装置による処理対象の音声データのチャネル設定を示すパラメータformat_in。
・任意の出力フォーマットのチャネル設定を示すパラメータformat_out。
・任意で、ラウドスピーカ配置の標準ラウドスピーカ設定からの偏差を示すパラメータ(ランダム設定機能)。
【0131】
初期化により以下が返される。
・入力ラウドスピーカ設定のチャネル数、Nin
・出力ラウドスピーカ設定のチャネル数、Nout
・前記フォーマット変換装置42の音声信号処理において適用されるダウンミックスマトリックスMDMX及び等化フィルタパラメータ(IEQ,GEQ)。
・異なるラウドスピーカ距離を補償するためのトリムゲイン及び遅延値(Tg,AおよびTd,A)。
【0132】
前記フォーマット変換装置42の音声処理ブロックにおいて、前記コアデコーダ6からのNinチャネル38に対してタイムドメイン音声サンプル37を取得し、Noutチャネル41を備えるダウンミックス済タイムドメイン音声出力信号40を生成する。
【0133】
当該処理は、以下を入力として受ける。
・前記コアデコーダ6により復号された音声データ
・前記フォーマット変換装置42の初期化により返されるダウンミックスマトリックスMDMX
・前記フォーマット変換装置42の初期化により返される等化フィルタパラメータ(IEQ,GEQ
【0134】
当該処理は、前記フォーマット変換装置42の初期化において指定されたformat_outチャネル設定に対するNoutチャネルタイムドメイン出力信号40を返す。
【0135】
前記フォーマット変換装置42は、入力音声信号の長さL=2048を有するタイムドメインサンプルに隣接するが重複しないフレームに動作して、長さLを有する処理済の入力フレーム毎に
サンプルのフレームを1個出力する。
【0136】
【数11】
続いてハイブリッド分析
【数12】
を行う。
【0137】
ハイブリッドフィルタリングは、ISO/IEC 14496−3:2009の8.6.4.3に記載の通りに行うものとする。しかしながら、低周波数取出しに関する定義(ISO/IEC 14496−3:2009の表8.36)を以下の表に置換えてもよい。
77帯域ハイブリッドフィルタバンクに対する低周波数取出しの概略
【0138】
【表1】
【0139】
更に、プロトタイプフィルタに関する定義は、以下の表の係数に置換える必要がある。
77帯域ハイブリッドフィルタバンクに対して低QMFサブバンドを取出すフィルタのためのプロトタイプフィルタ係数
【0140】
【表2】
【0141】
更に、ISO/IEC 14496−3:2009の8.6.4.3に反してサブ・サブバンドの組合せはなく、すなわち最も低いものから3個のQMFサブバンドを(8、4、4)サブ・サブバンドに取出すことにより77帯域ハイブリッドフィルタバンクが形成される。図10に示す通り、77ハイブリッドQMF帯域は、リオーダーされないが、ハイブリッドフィルタバンクから続く順位で送信される。
【0142】
ここで、静的イコライザゲインを適用してもよい。前記変換装置42は、変数記号IEQおよびGEQにより指示される通り、ゼロ位相ゲインを前記入力チャネル38に適用する。
【0143】
EQは、Nin個の入力チャネルの各チャネルAに対して以下を指示する長さNinのベクトルである。
・特定の入力チャネルに等化フィルタを適用しないべきか:IEQ,A=0。
・又は、インデックスIEQ,A>0を有するイコライザフィルタに対応するゲインGEQを適用すべきか。
【0144】
入力チャネルAに対してIEQ,A>0の場合、チャネルAの入力信号は、IEQ,Aが指示するGEQマトリックスの列から得られるゼロ位相ゲインによる乗算によりフィルタされる。
【数13】
【0145】
【0146】
【数14】
【0147】
当該分析フレームは
【数15】
【数16】
【数17】
【数18】
【数19】
【0148】
【0149】
【数20】
【0150】
共分散マトリックスCから、チャネルAとチャネルBとの間のチャネル間相関関数が
【数21】
として導出され、
ここで、表記Cy,a,bにおける2個のインデックスは、Cにおけるa行及びb列のマトリックス要素を表す。
【0151】
【0152】
【0153】
【0154】
【0155】
【0156】
【0157】
【0158】
【0159】
半径方向における出力ラウドスピーカ配置が異なる(すなわちtrimが出力チャネル
全てに対して同一ではない)場合、初期化において導出される補償パラメータが出力信号に適用されてもよい。出力チャネルAの信号は、Td,Aタイムドメインサンプルによりディレイされ,また、線形ゲインTg,Aにより乗算されるものとする。
【0160】
前記デコーダ、前記エンコーダ、及び前記方法に対して記載の実施の形態に関し、以下が記載される。
装置を対象として特性を記載したが、当該特性が対応する方法も説明することは明白であり、その場合、ブロック又は装置が方法ステップ又は方法ステップの特性に対応する。同様に、方法ステップを対象として記載された特性は対応する装置の対応するブロック又は部材又は特性も説明するものとする。
【0161】
所定の実施例が求める条件に応じて、本発明の実施例は、ハードウェア又はソフトウェアに実装できる。実施例は、各方法が実行されるようプログラム可能なコンピュータシステムと協働する(又は協働可能な)電子的に可読な制御信号が記録されたフロッピー(登録商標)・ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ等のデジタル記憶媒体等の非一時的記憶媒体を用いて実行可能である。
【0162】
本発明による実施例によっては、プログラム可能なコンピュータシステムと協働可能な電子的に可読な制御信号を有するデータの記憶媒体を備え、これにより前記方法のいずれかを実行する。
【0163】
一般的に、本発明の実施例はプログラムコードを備えるコンピュータプログラム製品として実現可能であり、当該コンピュータプログラム製品がコンピュータ上で実行されると、前記方法のいずれかを実行するためにプログラムコードが作動する。当該プログラムコードは機械可読な記憶装置等に記録されてもよい。
【0164】
別の実施例は、前記方法のいずれかを実行するための、機械可読な記憶装置又は非一時的記憶媒体に記録されたコンピュータプログラムを備える。
【0165】
すなわち、本発明の方法の実施例は、プログラムコードを備えるコンピュータプログラムであって、前記プログラムコードは、前記コンピュータプログラムがコンピュータ上で実行されると前記方法のいずれかを実行する。
【0166】
したがって、本発明による方法の更なる実施の形態は、本明細書に記載の方法のいずれか一つを実行するためのコンピュータプログラムが記録されたデータ記憶媒体(又はデジタル記憶媒体、又はコンピュータ−可読性媒体)である。
【0167】
したがって、本発明の方法の更に別の実施例は、前記方法のいずれかを実行するためのコンピュータプログラムを表現するデータストリーム又は信号シーケンスである。前記データストリーム又は前記信号シーケンスは、インターネット等のデータ通信接続を介して伝送されるよう構成してもよい。
【0168】
更に別の実施例は、前記方法のいずれかを実行するよう構成されるコンピュータ又はプログラマブル論理装置等の処理手段を備える。
【0169】
更に別の実施例は、前記方法のいずれかを実行するためのコンピュータプログラムがインストールされたコンピュータである。
【0170】
実施例によっては、前記方法の機能の一部又は全てを実行するプログラマブル論理装置(フィールド・プログラマブル・ゲートアレイ等)を用いていてもよい。実施例によっては、フィールド・プログラマブル・ゲートアレイは前記方法のいずれかを実行するためにマイクロプロセッサと協働してもよい。概して言うと、前記方法はハードウェア装置により効果的に実行される。
【0171】
本発明を複数の実施の形態の観点から記載したが、本発明の範囲を逸脱しない変形、変更、等価物が存在する。また、本発明の方法および構成を実施するために様々な別の方法を用いてよいものとする。したがって、以下に添付の特許請求の範囲は、当該本発明の精神および範囲を逸脱しない変形、変更、等価物を含むものとする。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10