【文献】
Hossam M.Kasem et al.,Performance of perceptual 1-bit compressed sensing for audio compression,2015 IEEE Symposium on Computers and Communication (ISCC),IEEE,2015年 7月 6日,pp.477-482,入手元 IEL Online (IEEE Xplore)
(58)【調査した分野】(Int.Cl.,DB名)
【先行技術文献】
【特許文献】
【0009】
【特許文献1】[14] 米国特許第7,835,904号.
【非特許文献】
【0010】
【非特許文献1】[1] TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12), 3GPP, 2014.
【非特許文献2】[2] TS 26.190, Adaptive Multi-Rate (AMR-WB) speech codec, 3GPP, 2007.
【非特許文献3】[3] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012.
【非特許文献4】[4] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, and M. Dietz, “ISO/IEC MPEG-2 advanced audio coding,” Journal of the Audio engineering society, vol. 45, no. 10, pp. 789-814, 1997.
【非特許文献5】[5] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Dordrecht, The Netherlands: Kluwer Academic Publishers, 2003.
【非特許文献6】[6] P. T. Boufounos and R. G. Baraniuk, “1-bit compressive sensing,” in Information Sciences and Systems, 2008. CISS 2008. 42nd Annual Conference on. IEEE, 2008, pp. 16-21.
【非特許文献7】[7] Z. Xiong, A. D. Liveris, and S. Cheng, “Distributed source coding for sensor networks,” IEEE Signal Process. Mag., vol. 21, no. 5, pp. 80-94, 2004.
【非特許文献8】[8] Z. Xiong, A. D. Liveris, and Y. Yang, “Distributed source coding,” Handbook on Array Processing and Sensor Networks, pp. 609-643, 2009.
【非特許文献9】[9] B. Girod, A. M. Aaron, S. Rane, and D. Rebollo-Monedero, “Distributed video coding,” Proc. IEEE, vol. 93, no. 1, pp. 71-83, 2005.
【非特許文献10】[10] A. Majumdar, K. Ramchandran, and L. Kozintsev, “Distributed coding for wireless audio sensors,” in Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on. IEEE, 2003, pp. 209-212.
【非特許文献11】[11] H. Dong, J. Lu, and Y. Sun, “Distributed audio coding in wireless sensor networks,” in Computational Intelligence and Security, 2006 International Conference on, vol. 2. IEEE, 2006, pp. 1695-1699.
【非特許文献12】[12] A. Zahedi, J. Φstergaard, S. H. Jensen, P. Naylor, and S. Bech, “Coding and enhancement in wireless acoustic sensor networks,” in Data Compression Conference (DCC), 2015. IEEE, 2015, pp. 293-302.
【非特許文献13】[13] A. Zahedi, J. Φstergaard, S. H. Jensen, S. Bech, and P. Naylor, “Audio coding in wireless acoustic sensor networks,” Signal Processing, vol. 107, pp. 141-152, 2015.
【非特許文献15】[15] G. Kubin and W. B. Kleijn, “Multiple-description coding (MDC) of speech with an invertible auditory model,” in Speech Coding, IEEE Workshop on, 1999, pp. 81-83.
【非特許文献16】[16] V. K. Goyal, “Multiple description coding: Compression meets the network,” IEEE Signal Process. Mag., vol. 18, no. 5, pp. 74-93, 2001.
【非特許文献17】[17] J. O. Smith III and J. S. Abel, “Bark and ERB bilinear transforms,” IEEE Trans. Speech Audio Process., vol. 7, no. 6, pp. 697-708, 1999.
【非特許文献18】[18] T. Baeckstroem, “Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,” IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, Dec. 2013.
【非特許文献19】[19] F. Zheng, G. Zhang, and Z. Song, “Comparison of different implementations of MFCC,” Journal of Computer Science and Technology, vol. 16, no. 6, pp. 582-589, 2001.
【非特許文献20】[20] H. Fastl and E. Zwicker, Psychoacoustics: Facts and models. Springer, 2006, vol. 22.
【非特許文献21】[21] NTT-AT, “Super wideband stereo speech database,” http://www.ntt-at.com/product/widebandspeech, accessed: 09.09.2014. [Online]. Available: http://www.ntt-at.com/product/ widebandspeech
【非特許文献22】[22] S. Korse, T. Jaehnel, and T. Baeckstroem, “Entropy coding of spectral envelopes for speech and audio coding using distribution quantization,” in Proc. Interspeech, 2016.
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、知覚モデルに関するサイド情報なしに、送信信号から復号器において知覚モデルを復元する方法を提供することである。
【課題を解決するための手段】
【0012】
この目的は、入力信号を処理するための符号化装置と、符号化信号を処理する復号化装置とによって達成される。この目的は、対応する方法と、符号化装置及び復号化装置を含むシステムとによっても達成される。
【0013】
本発明は、知覚モデルを送信することによるビット消費に対するコストの追加がセンサの数と共に増大する、分散型センサネットワークおよび物のインターネットにおいて特に有用である。
【0014】
一実施形態による本発明はまた、分散型のスピーチおよびオーディオ符号化における知覚モデルのブラインド(盲目的)復元としてラベル付けされてもよい。
【0015】
ここで、入力信号は、符号化装置によって符号化されるスピーチ信号および/またはオーディオ信号である。
【0016】
この目的は、入力信号を処理するための符号化装置によって達成される。符号化装置は、符号化信号を提供することが好ましい。
【0017】
符号化装置は、知覚的重み付け器と量子化器とを含む。
【0018】
知覚的重み付け器は、モデルプロバイダおよびモデルアプリケータを含む。モデルプロバイダは、入力信号に基づいて知覚的重み付きモデルを提供するように構成される。モデルアプリケータは、入力信号に基づいて知覚的重み付きモデルをスペクトルに適用することによって、知覚的に重み付けされたスペクトルを提供するように構成される。
【0019】
量子化器は、知覚的に重み付けされたスペクトルを量子化し、ビットストリームを提供するように構成される。量子化器は、ランダム行列アプリケータと、符号関数(sign function)計算器とを含む。ランダム行列アプリケータは、知覚的に重み付けされたスペクトルにランダム行列を適用して、変換スペクトルを提供するよう構成される。符号関数計算器は、変換されたベクトルの成分の符号(またはシグナム)関数を計算して、ビットストリームを提供するよう構成されている。
【0020】
量子化は、少なくとも2つのステップを含み、第1のステップにおいて、知覚的に重み付けされたスペクトルはランダム行列と組み合わされる。このようなランダム行列は、各入力信号に対して異なる行列が使用されるという利点を有する。これは、複数のセンサが同じオーディオソースをカバーし、過剰符号化を避ける必要がある場合に有用である。第2のステップは、変換されたベクトルの成分の符号関数を計算することを含む。
【0021】
一実施形態では、モデルプロバイダは、入力信号に基づくスペクトルの圧縮に基づいて、知覚的重み付きモデルを提供するように構成される。
【0022】
本発明の符号化装置では、入力信号の知覚的重み付けは、一実施形態では、入力信号の圧縮に基づく。一実施形態では、知覚的重み付けは、入力信号の振幅スペクトルの包絡の圧縮に基づく(包絡は、信号の特性
例えば振幅スペクトルを記述する連続的な、通常は滑らかな形状である)。圧縮に基づいて、知覚的重み付きモデルが得られ、それは最終的に入力信号のスペクトルを知覚的に重み付けするために使用される。
【0023】
符号化装置は、一実施形態では、符号化プロセスに関するいくつかの態様をカバーするサイド情報を有するビットストリームを提供する。
【0024】
一実施形態では、量子化に関する情報は、符号化プロセスの結果として符号化装置によって出力された符号化信号によってサイド情報として提供される。
【0025】
さらなる実施形態では、知覚的重み付け器は包絡計算器を含む。包絡計算器は、入力信号に基づく振幅スペクトルの包絡を提供するように構成される。
【0026】
一実施形態では、モデルプロバイダは、包絡の圧縮を記述する圧縮関数を計算するように構成される。さらに、モデルプロバイダは、圧縮関数に基づいて知覚的重み付きモデルを計算するように構成される。この実施形態では、モデルプロバイダは、包絡を圧縮し、この圧縮を記述する関数を計算する。この関数に基づいて、知覚的重み付きモデルが得られる。この実施形態では、入力信号に基づくスペクトルの包絡の圧縮が実行され、すなわち振幅レンジが低減され、したがって圧縮前よりも小さくなる。包絡を圧縮することによって、スペクトル自体も圧縮され、すなわちスペクトルの振幅レンジが低減される。
【0027】
別の実施形態では、知覚的重み付きモデル又は圧縮関数は、入力信号から直接計算されるか又は入力信号に基づく振幅/パワースペクトルから計算される。
【0028】
一実施形態によれば、モデルプロバイダは、入力信号に基づくスペクトルの圧縮を記述する圧縮関数を計算するように構成されるか、入力信号に基づく振幅スペクトルの包絡の圧縮を記述するように構成される。圧縮は、入力信号に基づくスペクトルの振幅レンジを減少させるか、包絡の振幅レンジを減少させる。さらに、モデルプロバイダは、圧縮関数に基づいて知覚的重み付きモデルを計算するように構成される。
【0029】
一実施形態では、圧縮関数は、例えばスペクトルまたは包絡を圧縮するために、2つの基準を満たす:
第1に、圧縮関数は単調増加する。これは、任意の正のスカラー値及び任意に小さい値について、その正のスカラー値に対する関数値は、その正のスカラー値と任意に小さい値との和に対する関数値よりも小さいことを意味する。
第2に、第1の正スカラー値および第1の正スカラー値よりも大きい第2の正スカラー値に関して、第2の正スカラー値に対する関数値と第1の正スカラー値に対する関数値との差は、第2の正スカラー値と第1の正スカラー値との差よりも小さい。
【0030】
本発明の目的は、入力信号を処理する方法によっても達成される。この入力信号は、オーディオ信号および/またはスピーチ信号であることが好ましい。
【0031】
オーディオ及び/又はスピーチ信号である入力信号を処理するための方法は、少なくとも以下のステップを含む:
−入力信号に基づいて知覚的重み付きモデルを計算する。
−前記知覚的重み付きモデルを前記入力信号に基づくスペクトルに適用することにより知覚的に重み付けされたスペクトルを提供する。
−知覚的重み付きスペクトルを量子化してビットストリームを提供する。
ここで、知覚的重み付きスペクトルの量子化は以下を含む。
(a)知覚的重み付きスペクトルにランダム行列を適用して変換スペクトルを提供すること。
(b)変換スペクトルの成分の符号関数を計算してビットストリームを提供すること。
【0032】
一実施形態では、以下のステップが実行される:
−入力信号に基づいて振幅スペクトルの包絡を計算する。
−包絡の圧縮に基づいて知覚的重み付きモデルを計算する。
【0033】
符号化装置の実施形態は、方法のステップおよび方法の対応する実施形態によって実行することもできる。したがって、装置の実施形態について与えられた説明は、本方法についても当てはまる。
【0034】
本発明の目的は、以下の入力信号を処理する方法によってさらに達成される:
−入力信号に基づいて知覚的重み付きモデルを提供すること。
−入力信号のスペクトルに知覚的重み付きモデルを適用することによって入力信号のスペクトルを重み付けすること。
−重み付きスペクトルのランダムな投影の符号関数を計算することによって重み付きスペクトルを量子化すること。
【0035】
この方法は、一実施形態において以下を含む。
−重み付きスペクトルにランダム行列を適用することによって、重み付きスペクトルのランダムな投影を得ること。
【0036】
一実施形態では、知覚的重み付きモデルを提供することは、入力信号の振幅スペクトルの包絡を圧縮することを含む。
【0037】
一実施形態によれば、この方法はさらに以下のステップを含む。
−フィルタバンクと各バンドの正規化ファクタを含む対角行列とを使用して包絡を得ること。
【0038】
本発明の目的は、符号化信号を処理する復号化装置によっても達成される。
【0039】
復号化装置は、少なくとも1つの逆量子化器と、知覚的逆重み付け器(perceptual de-weighter)とを含む。
【0040】
逆量子化器は、符号化信号によって構成されるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供するよう構成される。さらに逆量子化器は、ランダム行列の擬似逆(pseudo-inverse)をビットストリームに適用することによってビットストリームを逆量子化するように構成される。逆量子化器は、符号化プロセス中に発生した量子化の効果を逆戻しする。逆量子化器の後には、逆量子化から得られるスペクトルが知覚的に逆に重み付けされるように、知覚的逆重み付け器が続く。計算された知覚的重み付きスペクトルは知覚的逆重み付け器によって受信されて、知覚的に逆重み付けされる。したがって、最終的に得られたスペクトルは、入力信号に含まれるビットストリームの、逆量子化され知覚的に逆重み付けされたものである。
【0041】
知覚的逆重み付け器は、符号化信号をもたらす符号化プロセス中に発生した知覚的重み付けの影響を反転させる。これは、一実施形態では、知覚的重み付きモデルを含む符号化信号のサイド情報なしで行われる。モデルは、符号化されたオーディオ信号自体から再構成される。
【0042】
知覚的逆重み付け器は、スペクトル近似器およびモデル近似器を含む。
【0043】
モデルの再構成は、一実施形態では、開始点または初期値が必要とされる反復的手法で実行される。したがって、知覚的逆重み付け器に含まれる初期推測プロバイダは、符号化信号と関連する知覚的重み付きモデルの初期推測のためのデータを提供するよう構成される。初期推測のデータは、一実施形態では、知覚的重み付きモデルを記述する行列の対角要素を有するベクトルを含む。
【0044】
スペクトル近似器は、計算された知覚的重み付きスペクトルに基づいてスペクトルの近似値を計算するよう構成される。さらに、モデル近似器は、スペクトルの近似値に基づいて、符号化信号が関連付けられた(すなわち、入力信号の符号化に使用された、したがって符号化信号を生成するために使用された)知覚的重み付きモデルの近似を計算するよう構成されている。
【0045】
一実施形態では、知覚的逆重み付け器は初期推測プロバイダを含む。初期推測プロバイダは、知覚的重み付けされたモードの初期推測のためのデータを提供するよう構成される。スペクトル近似器は、符号化信号と知覚的重み付きモデルの初期推測または近似とに基づいて、スペクトルの近似値を計算するよう構成されている。さらに、スペクトルの近似値は、一実施形態において、知覚的重み付きモデルの初期推測または特に計算された近似に基づいている。この選択は、初期推測を用いる反復が開始したか否か、又は、近似値の少なくとも1つの改善を伴って知覚的重み付きモデルの近似をもたらすような少なくとも1回の反復が既に発生したか否か、という事実に依存する。この反復は、一実施形態では、収束基準が満たされるまで実行される。
【0046】
逆量子化器は、一実施形態では、符号化信号に含まれるランダム行列に関するサイド情報に基づいて、符号化信号に含まれるビットストリームを逆量子化するよう構成される。この実施形態は、ランダム行列を用いて量子化を行う符号化処理について言及する。使用されるランダム行列に関する情報は、符号化信号のサイド情報に含まれている。サイド情報は、一実施形態では、ランダム行列の列のシードのみを含む。
【0047】
一実施形態では、複数の符号化信号が一緒に処理される。各符号化信号は、それぞれの符号化信号を提供する間に実行された量子化に関する情報と少なくとも関連するサイド情報を有するビットストリームを含む。この目的のために、逆量子化器は、複数の入力信号を受信するよう構成され、その複数の入力信号に基づいて、(一実施形態では唯一の)計算された知覚的重み付きスペクトルを提供するよう構成されている。それら入力信号は、好ましくは、同じ信号源から発生するオーディオ/スピーチ信号に言及するものである。
【0048】
別の実施形態では、復号化装置はソースモデル化を適用するよう構成される。ソースモデルは、異なる入力のレンジおよび尤度を記述する。
【0049】
本発明の目的は、符号化信号を処理する方法によっても達成される。この符号化信号は、符号化されたオーディオ信号および/または符号化されたスピーチ信号であることが好ましい。
【0050】
符号化信号を処理する(または復号化する)方法は、少なくとも以下のステップを含む:
−符号化信号に含まれるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供すること。
ここで、ビットストリームを逆量子化するステップは、ランダム行列の擬似逆行列をビットストリームに適用するステップを含む。
−計算された知覚的重み付きスペクトルに基づいてスペクトルの近似値を計算すること。
−スペクトルの近似値に基づいて、符号化信号が関連付けられた(すなわち符号化信号を生成するために使用された)知覚的重み付きモデルの近似を計算すること。
【0051】
一実施形態では、本方法は、以下のステップを含む:
−計算された知覚的重み付きスペクトルと初期推測値とに基づいて、又は、計算された知覚的重み付きスペクトルと符号化信号が関連する知覚的重み付きモデルの近似とに基づいて、スペクトルの近似値を計算する。
【0052】
知覚的重み付きモデルの計算された近似は、スペクトルの近似値の次の計算に使用されることが好ましい。
【0053】
本発明の目的は、以下のステップを含む符号化信号を処理する方法によっても達成される:
−符号化信号にランダム行列の擬似逆行列を適用することにより、量子化された知覚信号を提供すること。
−量子化された知覚信号に基づいてスペクトルの推定値を計算すること。
−スペクトルの
推定値に基づいて符号化信号を提供するために使用された知覚的重み付きモデルの近似を計算すること。
【0054】
一実施形態によれば、本方法はさらに以下を含む:
−初期推測を用いて知覚的重み付きモデルの0次の近似を提供する。
−知覚的重み付きモデルの0次の近似に基づいてスペクトルの0次の推定値を計算する。
【0055】
さらなる実施形態では、本方法はさらに以下を含む。
−フィルタバンクと、各バンドに対する正規化ファクタを含む対角行列とを使用することによって、初期推測を得ること。
【0056】
本装置の実施形態は、方法のステップおよび方法の対応する実施形態によって実施することもできる。したがって、装置の実施形態について与えられた説明は、この方法のためにも当てはまる。
【0057】
本発明の目的はまた、少なくとも1つの符号化装置と復号化装置とを含むシステムによって達成される。一実施形態では複数の符号化装置が使用され、それら符号化装置は、一実施形態では、センサノード、例えばマイクロホンなどに関連付けられている。
【0058】
本発明の目的はまた、コンピュータまたはプロセッサ上で実行されるときに、前述の実施形態のいずれかの方法を実行するためのコンピュータプログラムによっても達成される。
【0059】
以下、添付図面を参照しながら、本発明の実施の形態について説明する。
【発明を実施するための形態】
【0061】
図1は、スピーチおよび/またはオーディオ信号である入力信号3を処理するためのシステムを示す。この入力信号3は符号化装置1によって符号化される。好ましくはビットストリームである符号化信号4は、例えばインターネットを介して復号化装置2に送信され、復号化装置104は、符号化信号4を復号化し、抽出されたオーディオ信号5を図示しないリスナーに提供する。
【0062】
符号化装置1は、入力信号3を処理するために知覚的重み付きモデルを使用するが、このモデルは符号化信号4によって送信されない。復号化復号装置2は、モデルの効果を無効にするために、符号化信号4からモデルを抽出する。
【0063】
図2に示す符号化装置1は、変換器15と、知覚的重み付け器10と、量子化器14とを含む。
【0064】
変換器15は、時間信号である入力信号3に基づいてスペクトルsを提供する。これは、例えば短時間フーリエ変換(STFT)によって行われる。
【0065】
スペクトルsは知覚的重み付け器10によって知覚的重み付けを受け、知覚的重み付きスペクトルxとなる。このスペクトルxは量子化器14に送られ、量子化器により量子化され、ビットストリームである量子化信号
が供給される。この量子化信号
は、この実施例では、量子化に関する情報をカバーする−しかし、この実施例では知覚的重み付きモデルに関する情報をカバーしない−対応するサイド情報と結合されて、符号化信号4が出力される。
【0066】
図3は、知覚的重み付け器10の一実施形態を示す。
【0067】
知覚的重み付け器10は、入力信号3−または入力信号3を周波数領域へ変換した後の対応するスペクトル−を受信し、知覚的に重み付けされたスペクトルxを提供する。この目的のために、知覚的重み付け器10は、包絡計算器11と、モデルプロバイダ12と、モデルアプリケータ13とを備える。
【0068】
包絡計算器11は、入力信号3または対応するスペクトルを受信し、入力信号3に基づく振幅スペクトル|x|の包絡yを提供する。図示の実施形態では、包絡計算器11は行列Aと対角行列Λとによって包絡yを提供する。行列Aはフィルタバンクであり、対角行列Λは、使用されたフィルタ帯域の各帯域についての正規化ファクタを含む。次に、包絡yは、入力信号3の振幅スペクトル|x|に基づいて、式y=AΛA
T|x|によって得られるのに対して、A
Tは行列Aの転置である。
【0069】
この包絡yに基づいて、モデルプロバイダ12は包絡yを圧縮する。圧縮の目的は、耳の知覚性能を近似する関数を得るためである。以下では、包絡はyのp乗を計算することによって圧縮される一実施形態について説明する。例えば、pが0.3に等しい場合、y
pのレンジは元のyのレンジよりも小さくなる。従って、この例では、圧縮量は値pに依存する。例えば、包絡は所望のレンジに削減される。一実施形態では、包絡yを圧縮するためのレンジ削減又は圧縮関数は、0<p<1であるy
pによって与えられる。このことは、0より大きく且つ1より小さい指数を持つ包絡の羃乗関数(exponentiation function)によって圧縮が行われることを意味する。この圧縮は、一実施形態ではサンプルごとに実施される。
【0070】
圧縮関数f(y)は、知覚的重み付きモデルWの対角要素を与えるベクトルw、すなわちw=f(y)を記述している。ここで、入力yはベクトルとして与えられ、関数fはベクトルyのすべてのサンプルに適用され、ベクトルwが得られる。従って、yのk番目のサンプルがy
kである場合、w=f(y)のk番目のサンプルはw
k=f(y
k)である。
【0071】
したがって、この圧縮関数に基づいて、ここでは行列の形式で知覚的重み付きモデルWを得ることができる。
【0072】
換言すると、振幅スペクトルの包絡は圧縮され、圧縮包絡を記述する関数から知覚的重み付きモデルが計算され、それはスペクトルを知覚的に重み付けするために使用される。
【0073】
モデルアプリケータ13は、入力信号3に基づいて知覚的重み付きモデルWをスペクトルsに適用する。図示の実施形態では、モデルアプリケータ13は、スペクトルに基づくベクトルに対し知覚的重み付きモデルWの行列を適用する。
【0074】
ここで、知覚モデル化についてもう一度説明する。
【0075】
スピーチおよびオーディオのコーデックは、人間の聴覚の効率的なモデル化に基づいている。この目的は、重み付けされた領域における信号対雑音比の最適化により、知覚的に最良の可能な品質がもたらされるような、量子化誤差の重み付けを得ることである。
【0076】
オーディオコーデックは、一般にスペクトル領域で動作する。ここでは、入力フレームのスペクトルsは対角行列Wを用いて知覚的に重み付けされることができ、それにより、重み付きスペクトルx=Wsが
へと量子化されることができ、ここで括弧[]は量子化を表す。
【0077】
復号器では、逆演算
を再構成することができる。
【0078】
具体的には、知覚的重み付きモデルは、2つの部分からなる。
i)異なる周波数帯域における知覚の限界に対応する固定部分。BarkおよびERBスケールのような知覚モデルは、ワープされた軸が均一な知覚精度を有するように、周波数の密度をモデル化する(非特許文献17)。しかし、ワープされたスケール上で誤差エネルギーを測定することが目的であるため、スペクトル成分の大きさは、計算的に複雑なワープ動作を回避することができるように、等価的にスケーリングされることができる(非特許文献18)。この動作は、スピーチコーデック(非特許文献1−3)に適用されるプリエンファシス動作と同様である。重み付けのこの部分は固定されているので、明示的に送信する必要はない。それは符号器で適用することができ、復号器で直接反転することができる。
ii)知覚モデルの信号適応部分は、知覚の周波数マスキング特性に対応する。すなわち、信号の高エネルギー成分は、2つが十分に近接している場合には、より低いエネルギー成分をマスクし、したがって、それらを聞き取れないようにする(非特許文献5)。したがって、周波数マスキング曲線の形状は、信号包絡の形状に等しいが、より小さい大きさである。
【0079】
|x|が入力信号の振幅スペクトルである場合、そのスペクトル包絡yは、一実施形態において、y=AΛA
T|x|によって得ることができ、ここで、行列Aは
図4(a)におけるようなフィルタバンクである。
【0080】
通常のMFCC型フィルタバンク(非特許文献19)とは異なり、一実施形態では、k次のフィルタから(k−2)および(k+2)フィルタ(
図4(a)参照)まで延びるオーバーラップを有する非対称Hann−窓タイプの窓が使用される。
【0081】
対角行列Λは、単位利得が得られるように、各帯域について正規化ファクタを含む。
【0082】
実施形態に応じて、適切な数の帯域を有するMel−、Bark−、またはERB−スケールが使用される。
【0083】
12.8kHzのサンプリングレートでは、20帯域を有するMelフィルタバンクが使用された。
【0084】
MFCCタイプのフィルタバンク行列の代替案は、フィルタリングによる拡散を使用することであり、Aは畳み込み行列となる。フィルタリング動作は周知のデジタル信号処理方法であるので、それらの逆数は容易に見出される。
【0085】
知覚的重みファクタは周波数マスキング効果をモデル化し、周波数マスキング効果は周波数にわたるエネルギーの拡散およびスケーリング(非特許文献20、5)に対応する。包絡モデル行列Aは、拡散の効果を既に達成しているので、エネルギーのスケーリングをモデル化する必要がある。
【0086】
エネルギースケーリングは、包絡の振幅レンジを減少させる、信号の圧縮に対応する(
図4(b)参照)。したがって、スペクトルsに知覚的重み付け行列Wを乗算すると、レンジが縮小されたスペクトルx=Wsが得られる(
図4(c)参照)。
【0087】
従って、知覚的重み付けは、レンジを減少させ又はスペクトルを平坦化するが、完全に平坦な包絡を有するスペクトルを生成することはない。包絡のレンジが低減され、それによってそのレンジの一部が保持され、残りのレンジを使用して拡張された包絡に応じてオリジナル信号を復元することができる。
【0088】
包絡y(ここでベクトルwはWの対角要素を与える)についてのレンジ減少又は圧縮関数w=f(y)は、例えば、0<p<1であるサンプル毎の指数f(y)=y
pとして適用することができる。
【0089】
スペクトルsおよびそのk番目のサンプルs
kが与えられると、重み付けは、x
k=w
k*s
kのように乗算によって適用され、x
kは重み付けされたスペクトルxのk番目のサンプルであり、w
kは重み付けベクトルwのk番目のサンプルである。同様の操作は、対角W
kk=w
k上に重み付け値を持ち、その他の全ての位置では行列が0となる行列Wを生成することで、行列演算として表現することができる。したがって、x=W*sである。
【0090】
yのレンジを圧縮する任意の関数を使用することは可能であるが、累乗は、復号器における包絡再構成における単純な分析表現に導くという利点を有する。
【0091】
適切な圧縮関数f(n)は、以下の要件を満たす。
1.圧縮関数は単調増加し、すなわちf(t)<f(t+eps)であり、ここで、tは任意の正のスカラー値であり、epsは任意に小さい値である。
2.任意の正のスカラー値(第1および第2スカラー値:t1、t2)t1<t2について、f(t2)−f(t1)<t2−t1が維持される。換言すると、このような2つの正のスカラー値の間の距離t2−t1を減少させる任意の関数は、適切な関数である。
【0092】
小さな指数pを持つ指数関数f(y)=y
pに加えて、異なる実施形態では、圧縮関数は対数であり、すなわちf(y)=log(y)である。
【0093】
符号化方法としての、または符号化装置によって実現される符号化アルゴリズムは、一実施形態では、次のようになる。
1.振幅スペクトルの包絡を計算する。
2.包絡を圧縮して知覚的重み付きモデルを得る。
3.スペクトルに重み付けを適用するx=Ws。
4.重み付きスペクトルを量子化し、送信するsign(Px)。
【0094】
このアルゴリズムは、センサノード毎に独立して適用される。
【0096】
従って、本発明は2つの部分からなる。
1.ランダムな投影と1ビット量子化とを使用した入力信号の分散量子化
2.知覚モデルの暗黙的な送信
【0097】
ランダムな投影を量子化することによって、各送信ビットは1つの独特な情報を符号化し、過剰符号化は回避される。
【0098】
知覚モデルは、各センサノード(例えばマイクロホンを含む)で独立して生成され、知覚的に重み付けされ量子化された信号が送信される。知覚的重み付けは信号をより平坦にするが、基本的な形状は保持される。したがって、知覚的重み付けされた信号からでも、元の包絡がどのものであったかを復号器側で逆推論することができる。
【0100】
分散型ソース符号化は、十分に研究されている主題(例えば、非特許文献7、8)であり、ビデオ(非特許文献9)のような他のアプリケーションにおいて適用されていたが、分散型オーディオ符号化(例えば非特許文献10−13)に関してはほんの数人しか研究しておらず、彼らのいずれも知覚及び包絡モデルに関する過剰符号化問題に取り組んでいない。特許文献14におけるスケーラブル符号化手法でさえ、スケールファクタを用いた包絡符号化を含む。また、多重記述符号化の手法は、パケット損失隠蔽(非特許文献15、16)にのみ適用されてきた。
【0101】
次に、容易に実現可能な量子化スキームについて説明する。圧縮感知システム(非特許文献6)で使用されていた1ビット量子化方法と比較する。
【0102】
量子化器および量子化プロセスの目的は、各伝送ビットがセンサノード間の通信なしに品質を改善するのを確保するように、独立センサでの量子化を行えるようにすることである。極端な場合、1つのセンサは1ビットのみを送信することができ、その単一ビットが品質を改善するために使用され得る。
【0103】
一実施形態の提案された量子化スキームは、信号スペクトルの実数値表現のランダムな投影と、各次元の符号の送信とに基づいている。
【0104】
xが入力信号のスペクトルを含む実数値N×1ベクトルであり、Pは、列が単位長に正規化されたK×Nのランダム行列であると仮定する。その場合、xはu=Pxによって変換されるであろう。これに続いて、uの各成分の符号の量子化が行われ、すなわち量子化が
であり、これはKビットを用いてロスなく伝送され得る。
【0105】
このように、ビットストリームのビット数は、ランダム行列の1次元を定義する。
【0106】
Pのサンプルは、好ましくは擬似ランダム値である。つまり、それらはランダム値のように見えるが、実際には何らかの複雑な数式またはアルゴリズムによって生成されることを意味する。擬似ランダム発生器は、すべてのコンピュータおよびすべての数学的ソフトウェアライブラリが有する標準的な数学的ツールである。重要なことは、行列Pが符号化器と受信器/復号器との両方で知られていなければならないことと、P内のすべてのサンプルに対して乱数の分布が同じであることである。
【0107】
xの近似としての再構成は、次式で容易に計算することができる。
ここで、
はランダム行列Pの擬似逆行列である。
【0108】
Pの擬似ランダム列のシード(seed)が復号器において既知である限り、復号器は、
のみからの信号を復号することができる。したがって、一実施形態では、擬似ランダム列のシードは、符号化信号のサイド情報として与えられる。擬似ランダム発生器は通常、シーケンス内の前の値x(k)が与えられると、次のランダムサンプルx(k+1)=f(x(k))を生成するように、ランダム値のシーケンスを生成する。すなわち、−擬似乱数シーケンスの「シード」値と呼ばれる−開始点x(1)が既知であれば、次にシーケンス全体を生成することが可能である。したがって、符号化側および復号化側では、ランダムサンプルを生成するために同じ関数が使用される。
【0109】
複数のセンサノードの場合、入力信号xは同じ信号の同じ又は雑音の多いバージョンであると仮定されるが、各センサはそれ自身のランダム行列P
kを有する。復号器では、ランダム行列は、単一の大きな行列P=[P
1,P
2,...]に対照されることができ、これにより式(1)は不変のままである。
【0110】
K<<Nである場合、Pは近似的に直角であり、
であり、量子化はほぼ最適であることはよく知られている。
【0111】
ここで、Kは必ずしもNより小さいものではなく、よって正規直交性(orthonormality)はあまり正確ではない。擬似逆の代わりに転置を使用することは、アルゴリズムの複雑性および符号化効率を低下させるが、知覚モデル化について我々の実験に制限を課すことはない。なぜなら、送信されるすべてのビットは出力信号の精度をさらに改善するからである。
【0112】
次に、復号器側においてソースモデルが適用され、そのようなモデルは再構成の精度を向上させることが期待される。しかし、より多くのビットを送信することにより精度を増加させることによって、その効果をシミュレートすることができるので、ソースモデルを実装する必要はない。
【0113】
このシステムの実施形態のフロー図(知覚モデルを除く)が
図5に示されている。1つのオーディオソースからオーディオ信号を捕捉するn個のマイクロホンが示されている。以下の符号器装置1は、図示の実施形態では、個々のマイクロホンまたはセンサノードの一部を示している。
【0114】
n個の入力信号3はn個の符号化装置1の変換器15によってn個のスペクトルsに変換され、n個のスペクトルsはn個の知覚的重み付きスペクトル
に変換され、この変換は図示されていない知覚的重み付け器によって行われる。
【0115】
n個の知覚的に重み付けされたスペクトルx
kは、n個の量子化器14に送られる。
【0116】
各量子化器14は、ランダム行列アプリケータ16と、符号関数計算器17とを備えている。
【0117】
ランダム行列アプリケータ16は、K×Nのサイズを持つ行列であるランダム行列P
iを、i=1,2,…,nである各知覚的重み付きスペクトルx
iに基づくN×1のベクトルに対して適用する。Nは、スペクトルxにおけるサンプルの数に対応する整数スカラーである。Kは、ランダム化スペクトルにおける行の数に対応する整数スカラーである。符号演算子を用いて量子化することによって、各行は1ビットで量子化され、それにより、送信されるビットの数はKである。複数の符号器−例えばマイクロホン−が使用される場合、各符号器は、サイズK
k×Nであるそれ自身の行列P
kを有する。即ち、各符号器は復号器へK
kビットを送信し、ビット数は符号器毎に変化し得る。
【0118】
変換されたスペクトルは、次式によって与えられる。
【0119】
符号関数計算器17は、各変換スペクトルの符号または符号関数を計算する。
これは、変換スペクトルのK個の成分に対して行われ、結果的にKビットが伝送チャネルを介して伝送されることになる。
【0120】
図6は、知覚的重み付け器10と量子化器14とを含む1つの符号化装置1を示す。
【0121】
オーディオ信号3は、変換器15によってスペクトルs
kに変換される。知覚的重み付け器10は、知覚的重み付け行列Wをスペクトルs
kに適用して知覚的重み付きスペクトルx
kを提供し、これが量子化器14によって量子化される。
【0122】
量子化器14はアプリケータ16を含み、そのアプリケータ16は、知覚的重み付きスペクトルx
kを受信し、ランダム行列P
kをそれに適用してP
kx
kとする。得られた変換スペクトルu
kの成分は、各成分の符号関数を計算することにより、符号関数計算器17によって量子化される。これは、変換されたスペクトルの構成要素の数に等しいビット数を有するビットストリームをもたらす。このようにして、符号化信号4は、ビットストリーム
によって与えられる。
【0123】
符号化信号を復号化する方法の説明を以下に行う。
【0124】
図7は符号化信号4を処理する復号化装置2の実施例を示す。
【0125】
符号化信号4は、逆量子化器20によって逆量子化されるビットストリーム
の形態である。
【0126】
符号化信号4はランダム行列Pの擬似逆
を使用することによって逆量子化される。ランダム行列に関する情報は符号化信号4のサイド情報から取得される。計算された知覚的重み付きスペクトルは、以下の式で与えられる。
【0127】
計算された知覚的重み付きスペクトル
は、知覚的逆重み付け器21によって逆重み付けされる。知覚的逆重み付け器21によって提供される計算されたスペクトル
は、(例えば、逆短時間フーリエ変換、STFT
-1を介して)逆変換器(de-transformer)22によって、抽出されたオーディオ信号5である時間信号に変換される。
【0128】
図8は、逆量子化器20が、異なるセンサノードから、即ち、異なるマイクロホンから、複数の符号化信号4を受信する実施形態を示す。個々のランダム行列P
kは、単一の大きな行列P=[P
1,P
2,...]に対照される。
【0129】
その場合、単一の計算された知覚的重み付きスペクトルは、
によって与えられる。
【0130】
代替的な実施形態では、ビットストリームは、それぞれのランダム行列
で反転され、その後にスペクトルが併合される。
【0131】
得られた計算された知覚的重み付きスペクトル
は、
図7に示された実施例に関して説明されたように処理される。
【0132】
図9では、復号化装置の一部として、知覚的逆重み付け器21の実施形態が示されている。
【0133】
知覚的逆重み付け器21は、逆量子化器20から、符号化信号4の逆量子化ビットストリームである計算された知覚的重み付きスペクトル
を受信する。
【0134】
知覚的逆重み付け器21は、反復アルゴリズムを使用することによって、入力信号3の符号化中に使用される知覚的重み付きモデルWを復元する。ここで、W
kは、知覚的重み付きモデルWのk次の近似または推測である。
【0135】
アルゴリズムは、初期推測プロバイダ23から開始される。初期推測プロバイダ23は、知覚的重み付きモデルWの0次の推定W
0を提供する。
【0136】
図示の実施形態では、それぞれの行列W
kの対角要素を含むベクトルw
kが使用される。このようなベクトルは、入力信号の知覚的重み付け中の振幅スペクトルの包絡の圧縮関数と共に使用された。
【0137】
したがって、ベクトルw
0の0次の推定値が与えられ、知覚的重み付きモデルWの0次の近似W
0が適切に設定される。
【0138】
一実施形態では、振幅スペクトルの包絡yの計算に使用される方程式を使用することによって、近似ベクトルw
0の初期推測値が設定される。
【0139】
したがって、初期推測は、行列Aおよび対角行列Λを用いて
となる。
【0140】
行列Aはフィルタバンクであり、対角行列Λは、使用されたフィルタ帯域の各帯域についての正規化ファクタを含む。行列Aの選択は、典型的に予め固定されている設計選択である。行列Aが時間の経過と共に変化しない実施形態では、それは符号器と復号器の両方にハードウェアにより実現される。これは、符号化器および復号器の両方が同じ既知の行列Aを使用することを意味する。他の実施形態では、符号化に使用された行列Aは、符号化信号の一部として伝送される。一実施形態では、行列Aに関する選択は、実際の通信が開始される前に、初期化ステップまたは構成ステップで送信される。前述したものは、対角行列Λについても当てはまる。
【0141】
最初の推測行列W
0は、スペクトル近似器24に与えられる。これはまた、0に設定されたランニングインデックスkを用いて実際の反復を開始する。
【0142】
スペクトル近似器24は、知覚的重み付きモデルWの初期推測W
0に対するデータw
0に基づいて、スペクトルの近似値を計算する。
【0143】
これは、初期推測行列W
0の逆行列を、計算された知覚的重み付きスペクトル
を含むベクトルに適用することによって、実行される。
【0144】
スペクトルは、k=0であるこのステップで
によって近似される。
【0145】
近似スペクトル
は、知覚的重み付きモデルWの新たな近似W1を計算するモデル近似器25に供給される。
【0146】
これは、対角要素w
kのベクトルがスペクトル
の関数であるという知識に基づく。
【0147】
一実施形態では、行列Wを生成するために符号化中に使用される圧縮関数f()は、復号側で知られている。行列Aについて前述したように、圧縮関数f()は、両側において設定されている、例えば、符号化および復号化のためにそれぞれのソフトウェアに固定されているか、または符号化信号の一部として伝送される。
【0148】
したがって、ベクトルの次の近似は、
によって計算され、次の−ここでは第1の−近似値W
1が得られる。
【0149】
この近似値W
1は、次の近似スペクトル
を計算するためにスペクトル近似器24に戻される。これに応じて指数kが増加する。
【0150】
この近似は、以下の式によって与えられる対角要素を有するベクトルに基づいて知覚的重み付きモデルWの次の近似W
k+1を得るために後で役立つ。
【0151】
これを収束するまで繰り返す。収束は、通常、現在の出力ベクトルw(k)と前のベクトルw(k−1)とを比較することによってチェックされる。差||w(k)-w(k-1)||が予め設定された閾値を下回る場合、反復は収束し、反復を停止することができる。
【0152】
最終的に得られる近似スペクトル
は、知覚的逆重み付け器21の出力であり、オリジナル入力信号のスペクトルの近似値である。
【0153】
知覚モデルの再構成をもう一度説明する。
【0154】
復号器側では、知覚信号xの推定値(式1を参照)
は、
によって復元することができ、ここで
は知覚的に重み付けされ量子化されたスペクトルxである。これは、逆量子化器20によって行われる。
【0155】
従って、主な課題は、量子化された知覚信号
からオリジナル信号sの推定値
を復元することである。
【0156】
知覚的重み付きスペクトルxは、入力信号のスペクトルに基づき、知覚的重み付きモデルWを介して式x=Wsにより示される。目標は、推定値がスペクトルに等しい、すなわち
ということである。したがって、
となる。
【0157】
さらに、行列Wの対角要素を与えるベクトルwは、入力信号のスペクトルsの関数である:
w=f(s)
したがって、wの推定値を用いて、
を推定することができ、それによってwを推定することができる。これは収束まで反復することができる。
【0158】
したがって、これは、以下のように記述され得る期待値最大化型(Expectation Maximization-type)アルゴリズムである。
1.w
0の初期推測値を例えば
で求め、W
0を適切に設定する。
2.収束するまでk=0から繰り返す。
を計算する。
を算出し、W
k+1を適切に設定する。
(c)kを増加させる。
【0159】
最後の値
およびWkは、
の最終的な推定値である。
【0160】
典型的には、収束のために20回未満の反復が必要である。
【0161】
復号化装置2の異なる実施形態が
図5及び
図6に示されている。
図5の復号化装置2は、逆重み付けなしで示されている。
図6において、知覚的重み付きモデルWの近似が与えられ、逆量子化スペクトル
の逆重み付けのために使用される。これは、復号化が符号化信号に基づくモデルWの再構成を含むことを強調している。
【0162】
提案されたシステムの各部分の性能を評価するために、以下の実験を実施した。
【0163】
入力オーディオの3つのバージョンを比較した。
1)知覚モデル化を用いない量子化され再構成された信号
2)知覚モデルが復号器において既知であるように知覚モデル化を用いた、量子化され再構成された信号
3)本発明によるブラインド的に推定された知覚モデルを用いて再構成が実行された、知覚的に量子化された信号
【0164】
試験材料として、NTT−ATデータセット(非特許文献21)からのランダムスピーチサンプルを使用した(
図10の上側行を参照のこと)。入力信号は12.8kHzにリサンプリングされ、STFTは離散コサイン変換によって実装され、実数値スペクトルを得ると共に、包絡モデルがMel scale(非特許文献20、5)に従って分布された20帯域で使用された。
【0165】
知覚モデルの第1の近似として、p=0.5でのf(y)=y
pのレンジ縮小関数を使用した。この知覚モデルは、単にブラインド再構成の性能を実証するための方法として選択され、調整された最終生成物として考慮されるべきではない。包絡モデルの性能および知覚モデルは、
図4に既に示されている。
【0166】
第1に、提案された量子化に関する知覚SNRの、知覚モデルのブラインド再構成がない場合(SNR
O)と、ある場合(SNR
B)とは、それぞれ以下の式によって推定される。
【0167】
図10は、異なる方法(K=3000)で量子化されたスピーチファイルの知覚SNRを示す。
【0168】
知覚モデルが既知である場合(オラクル手法)、SNRは8.4dBに近いことは明らかである。知覚モデルのブラインド再構成は、特に有声音素についての品質を明らかに減少させる(ブラインド)。しかし、知覚モデルなしのシステムのSNR(知覚モデルなし)は、ブラインドを用いた復元より2倍以上劣悪である。
【0169】
知覚モデル化なしの代わりにブラインド再構成を用いる場合の利点をさらに定量化するために、異なるビットレートKを有する平均SNRを測定した(
図11を参照)。
【0170】
ブラインド復元の手法および知覚モデルなしの手法は、オラクル手法よりも平均1.1dBおよび5.8dB悪い。明らかにSNRはビットレートで改善されるが、知覚モデルなしの場合は知覚モデルを用いる場合よりも遅く改善される。さらに、SNRが増加するにつれて、ブラインド復元は、漸近的にオラクル手法の品質に近づく。
【0171】
最後に、主観的品質を評価するために、NNT−ATデータセットから、8人のリスナーおよび6人の無作為に選択された項目を用いて、MUSRAリスニング試験を実施した。信号は、3kビット/フレームで量子化された。これは、ソースモデル化が実験に使用されなかったとすれば比較的低い数であり、その結果、出力SNRも比較的低い。このシナリオは、問題となる状態を実証するために選択されたものであり、ソースモデルを適用する場合と同様に、より高いビットレートで性能が有意に改善することが期待される。
【0172】
図12の差分MUSRAスコアから、すべての項目に対して、知覚モデル化は、オラクルおよびブラインド推定の両方で平均してそれぞれ29.9ポイントおよび22.3ポイントで品質を改善することがわかる。差分の統計的有意性は、p>99%で学生のtテストにより確認された。
【0173】
提案された1ビット量子化および符号化スキームは、1つの実施形態で組み合わされるか、または別個の実施形態で組み合わされて、いくつかの興味深い結果および特性を有する。
【0174】
まず、量子化特性を解析するために、Pの各列はベクトルxのN次元空間の1次元サブ空間への投影であることに留意されたい。
【0175】
1つの投影の符号を符号化することによって、N次元空間は2つの部分に分割される。Pxの符号を反復して符号化することによって、N次元空間は、より小さい量子化セルに分割される。Pはランダム行列であるので、その列は互いにほぼ直交しており、それによって量子化セルはほぼ最適なままである。
【0176】
単一ノードシステムでは、より効率的な量子化の手法を設計することができる。しかしながら、分散システムではより複雑になる。複数のノードが同じ情報を符号化するのを防止するために、単純な方法が必要であり、すなわち、アルゴリズムの低い複雑性を保持しながら、過剰符号化を回避しなければならない。本発明の量子化は非常に単純であり、ほぼ最適な性能を提供する。
【0177】
第2に、ソース符号化方法は使用されなかった。
【0178】
しかしながら、そのようなモデル化は、符号化効率を大幅に改善するために使用できることはよく知られている。ソースモデル化は、スピーチおよびオーディオ信号の確率分布をモデル化することによって、復号器側で適用することができる(例えば、非特許文献22)。量子化された信号は「真」信号の雑音観測として扱うことができるので、ソースモデル化は可能であり、それによって、ソースの事前分布を適用することによって、最尤最適化(または類似)を適用して「真」の信号を近似することができる。この最適化はネットワークまたは復号器において適用されるので、計算負荷はセンサノードから遠ざけられ、センサノードは低パワーのままであることができる。
【0179】
第3に、プライバシーの観点から、ランダムな投影法は非常に効率的な暗号化となるように設計することができる。
【0180】
盗聴者がランダム行列のシードを知らない場合には、データは完全にランダムであり、無意味であると思われる。ランダムシードが安全な方法で通信されると仮定すると、符号器および意図された受信器のみがメッセージを解読することができる。この手法は、ノード間の通信が意図的に使用される、(非特許文献12、13)によって与えられるような手法とは対照的である。ノード間のこのようなコラボレーションは、知覚的SNRを改善するために使用され得るが、プライバシーは、保証するのがより困難である。センサノードが安全なネットワーク上で動作していると仮定する場合であっても、すべての通信へのアクセスを獲得するためには、ただ1つの危険にさらされたノードを使用し得る。これに対して、提案された手法では、盗聴者が1つのセンサノードにアクセスする場合、ノードは異なるシードを使用することができ、また使用すべきであるので、そのノードのデータを危険にさらすだけである。しかしながら、センサノードの送信パワーを制限するために、ノードがパケットを中継することが許容され得る。なぜなら、パケットは、意図された受信者だけによって読み取り可能なままであり、したがってプライバシーが損なわれないからである。
【0181】
本発明の方法は、一実施形態では、1ビット量子化の概念に基づいており、そこでは符号器側で知覚的重み付き入力信号がランダム部分空間に投影され、次に各次元の符号が送信される。復号器は、知覚的重み付けされ量子化された信号を得るために、擬似逆または類似の量子化を用いて量子化を反転することができる。
【0182】
その場合、提案された方法の主要な部分は、知覚的に重み付けされた信号のみにアクセスするとき、オリジナル信号の推定値を再構成することである。この手法は推定最大化(EM)アルゴリズムに基づいており、ここで、知覚モデルとオリジナル信号との推定間で反復して交互に行われる。
【0183】
したがって、提案された分散型のスピーチ及びオーディオの符号化アルゴリズムは、物のインターネットのためのアプリケーションにとって実行可能な手法である。それは、任意の数のセンサノードおよび電力消費レベルに対してスケーラブルな性能を提供する。さらに、ランダムシードの暗号化通信によって通信チャネルのプライバシーを保証することができるので、アルゴリズムは設計によって安全である。
【0184】
本発明は、少なくとも以下の特徴、態様、ならびに明らかな応用および拡張を含む。したがって、リストは異なる実施形態について言及し、記述する特徴の異なる組み合わせを可能にする。
【0185】
1.限定された送信及び計算容量及び他のリソースを有する、スケーラブルで、柔軟で、低電力で、低コストのプロセッサ上で実施することができる一つ又は複数の符号器を備えた分散型スピーチ及びオーディオ符号化システムを提供する。
1.1.分散型符号器は、各符号器ノードからの情報が例えば以下のようにして、ノードの集合からの情報量が最大化されるよう独立的に量子化されるように、情報を符号化するよう構成することができる。
1.1.1.各符号器ノードに、他のノードに対して直交またはほぼ直交する情報を符号化させる。
1.1.2.他のノードに対して直交またはほぼ直交していてもいなくてもよい、ランダム化された量子化アルゴリズムを使用する。
1.1.3.エントロピー符号化方法を使用して量子化情報を圧縮する。
1.2.分散型符号器は、人間の聴覚システムの知覚精度を近似する知覚領域内の情報を符号化するように構成することができる。
1.2.1.ここで、知覚ドメインへの変換は可逆的であるように設計することができ、その結果、符号器ノードは知覚モデルの明示的な伝送なしに知覚モデルを(ブラインド的に)復元することができる。
1.2.2.ここで、知覚モデルのいくつかまたは全てのパラメータは、サイド情報として、いくつかまたはすべての符号器ノードから明示的に送信することができる。
1.2.3.ここで、知覚モデルは、線形予測モデル、フィルタバンク、行列変換、またはスケールファクタ帯域(区分的に一定または補間されている)などの包絡モデルを使用して記述することができ、行列演算またはフィルタリング演算として実装することができる。
1.2.4.ここで、知覚モデルは一定部分および適応的部分を有することができ、一定の部分は常に同じであり、適応的部分は、入力信号および/またはシステムの構成および/または利用可能なリソース(ハードウェア、計算、伝送、バッテリー容量など)の量に依存する。
1.3.分散型符号器は、例えば、CELP型コーデックにおける合成による分析ループのように、知覚領域において量子化誤差が最小化されるように情報を符号化するよう構成することができる。
1.4.分散型符号器は、例えば以下のようにして、盗聴を防止するために暗号化を使用して情報を符号化するよう構成することができる。
1.4.1.アルゴリズムであるかまたはテーブルルックアップに基づく方法を使用して送信前に最終または中間の信号記述を暗号化する。
1.4.2.ランダム変換又は投影のようなランダム化を有する量子化を使用する。ここで、ランダム化は、既知のシード値(開始点)を有するアルゴリズム又はテーブルルックアップによって達成される。
1.5.例えば、構成が柔軟でオンラインで変更可能な分散型符号器。
1.5.1.オーディオソース(例えば人間の話者)やセンサノードの位置及び動き、並びにリソースの利用可能性に基づいて、センサノードは、どのノードがアクティブであるか又は非アクティブであるかを独立して又は結合的に決定することができる。
1.5.2.オーディオソース(例えば人間の話者)やセンサノードの位置及び動き、並びにリソースの利用可能性に基づいて、センサノードは、例えば、話者の近くにマイクロホンを有するセンサノードがより遠く離れたセンサノードよりもリソースを多く使用するように、リソース割り当てを独立して又は結合的に調整することができる。
1.6.提案されたシステムの特別なケースは、単一の符号器のみが存在する場合であり、それによってシステムは、スピーチコーデックおよびオーディオコーデックの古典的なアーキテクチャに従うように縮小される。しかしながら、重要なことは、本発明の知覚モデルの態様のランダム量子化及びブラインド復元は、例えば、符号化効率のため、低複雑度符号器を得るため、及び通信の暗号化のために、古典的符号器及び復号器設計においても使用することができることである。
【0186】
2.符号化器からの入力が、一つ若しくは(ネットワーク内処理方法を使用している)複数のネットワークノードで、又は一つ若しくは複数の復号器/受信器ノードで併合される分散型スピーチおよびオーディオの符号化システム
2.1.復号器または処理ユニットは、例えば以下のようにして、量子化を反転させるよう構成することができる。
2.1.1正確な逆変換、擬似逆変換、またはランダム行列の転置のような近似逆変換。
2.1.2.圧縮センシングのような最適化方法により入力信号を推定する。
2.1.3.ノードk∈[1,2,…,n]からのビットストリームu
kは、
のようなジョイント反転によって併合することができ、またはビットストリームは最初に
だけ反転させることができ、その後に併合することができる。後者の利点は、知覚的、ソース、空間およびセンサ−モデルなどのモデル化を、各ノードに対して個別にまたは集合的適用することができるということである。
2.2.復号器又は処理ユニットは、送信されたサイド情報を使用することによって、及び/又は、例えば以下のような方法で、再構成された(知覚的)信号からブラインド的に推定することによって、知覚モデルを反転させるよう構成することができる。
2.2.1.知覚モデルが量子化信号から直接得られる、直接的な方法。
2.2.2.知覚モデルの推定値が反復毎に改善される、反復法。
2.3.復号化器または処理ユニットは、復号化された信号の品質を改善するために、ソースおよびセンサ−ノードモデルを使用するよう構成することができる。
2.3.1.ソース信号およびセンサノードの統計的特性をモデル化することによって、信号および/またはソースの事前分布が与えられると、観測の尤度(量子化された信号)を最適化することができる。
2.3.1.1.モデル化されたソースの特徴は、一つまたはいくつかのスペクトル包絡モデル(線形予測モデル、分布量子化、スケールファクタなど)、ハーモニックモデル(コムフィルタ、長期間予測子など)、時間包絡(線形予測モデル、分布量子化、スケールファクタなど)、空間包絡および空間移動モデルを含むことができる。
2.3.1.2.特徴は、コードブックまたはベクトル量子化などのテーブルルックアップ、または物理的(スピーチ生成など)、知覚的(マスキングモデル、クリティカルバンドなど)または統計的モデル(単又は多変量確率分布)のようなパラメトリックモデルを用いてモデル化することができる。
2.3.1.3.特徴は、ソースの音響的及び空間的特徴を記述することができるが、信号品質(例えば、高いSNR又は低いSNR)及び空間的特徴(例えば、静止、移動、着用可能等)のようなセンサノードの特徴も記述することができる。
2.3.2.出力信号の知覚的に不快な歪みを決定することによって、出力信号を、例えば後フィルタリング法によって修正することができる。
2.4.復号器または処理ユニットは、信号の品質を向上させるために、ノイズ減衰、ビーム形成およびソース分離の方法などの信号増強方法を使用するよう構成することができる。
2.4.1.空間的に分離された音源および部屋の音響に関する他の情報を抽出するべくセンサの空間的構成を利用するために、ビーム形成などのマルチマイクロホン方法を使用することができる。重要なことに、マルチマイクロホン方法は、典型的には、遅延推定及び/又は相互相関推定を含むことができる。
2.4.2.ノイズ減衰方法は、背景雑音などの望ましくないソースを抑制するために使用することができる。
2.4.3.ソース分離方法は、いくつかの音源を区別するために使用することができる。
【0187】
3.システム内の装置/ノードの選択によって信号情報の情報を送信、中継、処理することができる分散型スピーチおよびオーディオの符号化システム
3.1.センサノード(センサ付きデバイス)は、生の信号を受信し、信号を符号化(量子化および符号化)するように構成されるか、生のフォーマットで送信するよう構成することができる。
3.2.信号にアクセスすることができる任意のノード(典型的にはセンサノード)は信号を符号化して送信することができる。
3.3.任意のノードは、他のノードから情報を中継するよう構成することができる。
3.4.符号化信号(及び任意の暗号復号化情報)にアクセスする任意のノード(典型的には受信ノード)は、信号を復号化するよう構成することができる。
3.5.復号器側のサーバ装置などの中間ノードは、利用可能なストリームからの情報を一つまたは複数のストリームに併合するよう構成することができる。結合されたストリームは、例えば、オリジナルの音響表現(例えば、音楽演奏)又は個々の音源(例えば、テレビ会議における個々の話者)を表すことができる。結合されたストリームは、ラウドスピーカによってさらに再生され、記憶され、そのまま送信されるか、又は、同じまたはいくつかの他のスピーチ及びオーディオ符号化ツールによって符号化されることができる。
3.6.ネットワーク構成は、静的または動的であるように構成することができ、例えば、音質、リソース割り当て、セキュリティ/プライバシーの基準の一つまたは複数を最適化するように構成され得る。
【0188】
4.想定されるアプリケーションとしては、少なくとも以下の実施形態を含む。
4.1選択されたサポート装置が所望のスピーチおよびオーディオ信号をピックアップするために使用される電話アプリケーション
4.1.1.所望のスピーチおよびオーディオ信号をピックアップし、そのピックアップされたスピーチおよびオーディオ信号を一つまたは複数の遠隔位置へ送信するために、サポート装置の選択が使用される、家庭内およびオフィス内のアプリケーション
4.1.2.所望のスピーチおよびオーディオ信号をピックアップし、そのピックアップされたスピーチおよびオーディオ信号を一つまたは複数の遠隔位置へ送信するために、サポート装置の選択が使用される、遠隔会議アプリケーション
4.1.3.所望のスピーチおよびオーディオ信号をピックアップし、そのピックアップされたスピーチおよびオーディオ信号を一つまたは複数の遠隔位置へ送信するために、自動車内の固定されたマイクロホン及び/又は自動車内のサポート装置が使用される、自動車電話システム
4.2.プレーヤのサウンドシーンが他のプレーヤまたはサーバに送信される、ゲームおよび仮想/拡張現実アプリケーション
4.3.出演者、プレーヤ、視聴者のサウンドまたは全体的なサウンドシーンが、分散型のスピーチおよびオーディオの符号化システムで記録または伝送される、コンサート、演奏、ステージ、オペラ、プレゼンテーション、スポーツ、およびその他のイベント制作アプリケーション
4.3.1.このアプリケーションは、相互作用および/または同時再生および増幅を可能にするために、低遅延または超低遅延であるように設計され得る。
4.3.2.このアプリケーションは、出演者の間、観衆の中、またはすべての参加者の間で、相互作用を可能にするように設計することができる。
4.4.サウンドシーンが監視され、危険なイベント(例えばスタジアムにおけるパニック)、家庭における事故(例えば、高齢者の転倒)などを検出する、安全及び保護のアプリケーション。
4.5.スピーチおよびオーディオ信号がビデオおよび/または他の媒体と組み合わされるマルチメディアアプリケーション。
【0189】
いくつかの態様が装置に関して説明されてきたが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明を表すことは明らかである。同様に、方法ステップの文脈において説明される態様は、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部または全部は、例えばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって実行される(または使用される)ことが可能である。いくつかの実施形態において、最も重要な方法ステップのうちのいくつかの一つまたは複数は、そのような装置によって実行されてもよい。
【0190】
本発明の、伝送されまたは符号化信号は、デジタル記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体のような伝送媒体上で伝送することができる。
【0191】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアで実施されてもよいし、ソフトウェアで実施されてもよい。この実施は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号を記憶するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROMおよびEPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。
【0192】
本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの一つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0193】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で実行されるときに、その方法の一つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実装することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納されてもよい。
【0194】
他の実施形態は、機械可読キャリアに格納された、本明細書に記載された方法のうちの一つを実行するためのコンピュータプログラムを含む。
【0195】
換言すると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法の一つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0196】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法のうちの一つを実行するためのコンピュータプログラムを記録したデータキャリア(または、デジタル記憶媒体などの非一時的記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には、有形および/または非一時的である。
【0197】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは信号シーケンスは、例えば、インターネットを介して、データ通信接続を介して転送されるように構成されてもよい。
【0198】
さらなる実施形態は、本明細書に記載される方法の一つを実行するように構成されるか、または適合されるように構成される、処理手段、例えば、コンピュータまたはプログラム可能な論理デバイスを含む。
【0199】
さらなる実施形態は、本明細書に記載される方法の一つを実行するためのコンピュータプログラムをその上にインストールされたコンピュータを含む。
【0200】
本発明によるさらなる実施形態は、本明細書に記載される方法の一つを実行するためのコンピュータプログラムを受信機に転送する(例えば、電子的にまたは光学的に)ように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイル機器、メモリ機器などであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
【0201】
いくつかの実施形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)は、本明細書に記載される方法の機能のいくつかまたは全ての機能を実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法のうちの一つを実行するためにマイクロプロセッサと協働することができる。一般に、本方法は、任意のハードウェア装置によって実行されることが好ましい。
【0202】
上述した実施形態は、本発明の原理を説明するためのものである。本明細書中に記載される配置および詳細の変更および変形は、当業者には明らかであることが理解される。従って、本明細書の実施形態の説明および説明によって提示される特定の詳細によるものではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。
[備考]
[請求項1]
入力信号(3)を処理するための符号化装置(1)であって、
知覚的重み付け器(10)と量子化器(14)とを含み、
前記知覚的重み付け器(10)はモデルプロバイダ(12)とモデルアプリケータ(13)とを含み、
前記モデルプロバイダ(12)は、前記入力信号(3)に基づく知覚的重み付きモデル(W)を提供するように構成され、
前記モデルアプリケータ(13)は、前記入力信号(3)に基づくスペクトル(s)に対し前記知覚的重み付きモデル(W)を適用することによって知覚的重み付きスペクトル(x)を提供するように構成され、
前記量子化器(14)は、前記知覚的重み付きスペクトル(x)を量子化し、ビットストリームを提供するように構成され、
前記量子化器(14)は、ランダム行列アプリケータ(16)と符号関数計算器(17)とを備え、
前記ランダム行列アプリケータ(16)は、前記知覚的重み付きスペクトル(x)にランダム行列(P)を適用して、変換スペクトル(u)を提供するように構成され、
前記符号関数計算器(17)は、前記変換スペクトル(u)の成分の符号関数を計算して、前記ビットストリームを提供するよう構成されている、符号化装置(1)。
[請求項2]
請求項1に記載の符号化装置(1)であって、
前記モデルプロバイダ(12)は、前記入力信号(3)に基づく前記スペクトル(s)の圧縮に基づいて、前記知覚的重み付きモデル(W)を提供するように構成される、請求項1に記載の符号化装置(1)。
[請求項3]
請求項1または2に記載の符号化装置(1)であって、
前記知覚的重み付け器(10)は包絡計算器(11)を含み、
前記包絡計算器(11)は、前記入力信号(3)に基づく振幅スペクトル(|x|)の包絡(y)を提供するように構成され、
前記モデルプロバイダ(12)は、前記包絡(y)の圧縮に基づいて前記知覚的重み付きモデル(W)を提供するように構成される、符号化装置(1)。
[請求項4]
請求項1〜3のいずれか一項に記載の符号化装置(1)であって、
前記モデルプロバイダ(12)は、前記入力信号(3)に基づく前記スペクトル(s)の圧縮、または前記入力信号(3)に基づく振幅スペクトル(|x|)の包絡(y)の圧縮を記述する圧縮関数(f())を計算するように構成され、
前記モデルプロバイダ(12)は、前記圧縮関数(f())に基づいて前記知覚的重み付きモデル(W)を計算するように構成される、符号化装置(1)。
[請求項5]
請求項4に記載の符号化装置(1)であって、
前記圧縮関数(f())が単調増加しており、
任意の正のスカラー値(t)および任意の小さな値(eps)について、前記正のスカラー値(t)に対する関数値(f(t))が、前記正のスカラー値(t)と前記任意の小さな値(eps)との合計(t+eps)に対する関数値(f(t+eps))よりも小さく、かつ
第1の正スカラー値(t1)と前記第1の正スカラー値(t1)よりも大きな第2の正スカラー値(t2)について、前記第2の正スカラー値(t2)に対する関数値(f(t2))と前記第1の正スカラー値(t1)に対する関数値(f(t1))との差は、前記第2の正スカラー値(t2)と前記第1の正スカラー値(t1)との差よりも小さい、符号化装置(1)。
[請求項6]
符号化信号(4)を処理するための復号化装置(2)であって、
逆量子化器(20)と知覚的逆重み付け器(21)とを含み、
前記逆量子化器(20)は、前記符号化信号(4)に含まれるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供するように構成され、
前記逆量子化器(20)は、前記ビットストリームに対しランダム行列(P)の擬似逆を適用することによって前記ビットストリームを逆量子化するように構成され、
前記知覚的逆重み付け器(21)はスペクトル近似器(24)とモデル近似器(25)とを含み、
前記スペクトル近似器(24)が、計算された前記知覚的重み付きスペクトルに基づいてスペクトルの近似値を計算するように構成され、
前記モデル近似器(25)は、前記スペクトルの近似値に基づいて、前記符号化信号(4)が関連付けられる知覚的重み付きモデル(W)の近似(Wk)を計算するように構成されている、復号化装置(2)。
[請求項7]
請求項6に記載の復号化装置(2)であって、
前記知覚的逆重み付け器(21)は初期推測プロバイダ(23)を含み、
前記初期推測プロバイダ(23)は、知覚的重み付きモデル(W)の初期推測に関するデータ(w0)を提供するように構成され、
前記スペクトル近似器(24)は、前記符号化信号(4)と前記知覚的重み付きモデル(W)の初期推測(W0)またはその近似(Wk)とに基づいて、前記スペクトルの近似値を計算するように構成されている、復号化装置(2)。
[請求項8]
請求項6または7に記載の復号化装置(2)であって、
前記逆量子化器(20)は、前記符号化信号(3)に含まれる前記ランダム行列(P)に関するサイド情報に基づいて、前記ビットストリームを逆量子化するように構成される、復号化装置(2)。
[請求項9]
請求項6〜8のいずれか一項に記載の復号化装置(2)であって、
前記逆量子化器(20)は、複数のビットストリームを受信し、前記複数のビットストリームに基づいて、計算された知覚的重み付きスペクトルを提供するように構成されている、復号化装置(2)。
[請求項10]
請求項6〜9のいずれか一項に記載の復号化装置(2)であって、
前記復号化装置(2)はソースモデル化を適用するように構成されている、復号化装置(2)。
[請求項11]
入力信号(3)を処理するための方法であって、
前記入力信号(3)に基づく知覚的重み付きモデル(W)を提供するステップと、
前記入力信号(3)のスペクトル(s)に前記知覚的重み付きモデル(W)を適用することによって、前記入力信号(3)のスペクトル(s)を重み付けするステップと、
重み付きスペクトル(x)のランダムな投影の符号関数を計算することによって、前記重み付きスペクトル(x)を量子化するステップと、
を含む方法。
[請求項12]
請求項11に記載の方法であって、
前記重み付きスペクトル(x)にランダム行列(P)を適用することによって、前記重み付きスペクトル(x)のランダムな投影を取得するステップをさらに含む、方法
[請求項13]
請求項11または12に記載の方法であって、
前記知覚的重み付きモデル(W)を提供するステップは、前記入力信号(3)の振幅スペクトル(|x|)の包絡を圧縮することを含む、方法。
[請求項14]
請求項13に記載の方法であって、
フィルタバンク(A)と各帯域についての正規化ファクタを含む対角行列(Λ)とを使用して、前記包絡を得るステップをさらに含む、方法。
[請求項15]
符号化信号(4)を処理するための方法であって、
符号化信号(4)に対しランダム行列(P)の擬似逆を適用することによって、量子化された知覚信号を提供するステップと、
前記量子化された知覚信号に基づいてスペクトルの推定値を計算するステップと、
前記スペクトルの近似値に基づいて、前記符号化信号(4)を提供するために用いられた知覚的重み付きモデル(W)の近似(Wk)を計算するステップと、
を含む方法。
[請求項16]
請求項15に記載の方法であって、
初期推測(w0)を用いて前記知覚的重み付きモデル(W)の0次の近似(W0)を提供するステップと、
前記知覚的重み付きモデル(W)の前記0次の近似(W0)に基づいて、前記スペクトルの0次の推定値を計算するステップと、
をさらに含む方法。
[請求項17]
請求項16に記載の方法であって、
フィルタバンク(A)と各帯域についての正規化ファクタを含む対角行列(Λ)とを用いて、前記初期推測(w0)を取得するステップ、
をさらに含む方法。
[請求項18]
コンピュータまたはプロセッサ上で実行されたとき、請求項11〜17のいずれか一項に記載の方法を実行するためのコンピュータプログラム。