6799074 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

6799074入力信号を処理する符号化装置及び符号化信号を処理する復号化装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6799074

(24)【登録日】2020年11月24日

(45)【発行日】2020年12月9日

(54)【発明の名称】入力信号を処理する符号化装置及び符号化信号を処理する復号化装置

(51)【国際特許分類】

G10L 19/035 20130101AFI20201130BHJP

G10L 19/02 20130101ALI20201130BHJP

H03M 7/30 20060101ALI20201130BHJP

【ＦＩ】

G10L19/035 Z

G10L19/02 160Z

H03M7/30 Z

【請求項の数】20

【全頁数】36

(21)【出願番号】特願2018-548925(P2018-548925)

(86)(22)【出願日】2017年3月10日

(65)【公表番号】特表2019-512739(P2019-512739A)

(43)【公表日】2019年5月16日

(86)【国際出願番号】EP2017055716

(87)【国際公開番号】WO2017157800

(87)【国際公開日】20170921

【審査請求日】2018年10月15日

(31)【優先権主張番号】16160369.1

(32)【優先日】2016年3月15日

(33)【優先権主張国】EP

(31)【優先権主張番号】16189893.7

(32)【優先日】2016年9月21日

(33)【優先権主張国】EP

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100085497

【弁理士】

【氏名又は名称】筒井秀隆

(72)【発明者】

【氏名】ベックストレム，トム

(72)【発明者】

【氏名】ギード，フローリン

(72)【発明者】

【氏名】フィッシャー，ヨハネス

【審査官】大野弘

(56)【参考文献】

【文献】特開２００１−３３１１９８（ＪＰ，Ａ）

【文献】特開昭６２−０８９９９９（ＪＰ，Ａ）

【文献】 Hossam M.Kasem et al.，Performance of perceptual 1-bit compressed sensing for audio compression，2015 IEEE Symposium on Computers and Communication (ISCC)，IEEE，２０１５年７月６日，pp.477-482，入手元 IEL Online (IEEE Xplore)

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／０３５

Ｇ１０Ｌ１９／０２

Ｈ０３Ｍ７／３０

(57)【特許請求の範囲】

【請求項1】

入力信号（３）を処理するための符号化装置（１）であって、
知覚的重み付け器（１０）と量子化器（１４）とを含み、
前記知覚的重み付け器（１０）はモデルプロバイダ（１２）とモデルアプリケータ（１３）とを含み、
前記モデルプロバイダ（１２）は、前記入力信号（３）に基づいて知覚的重み付けモデル（Ｗ）を提供するように構成され、
前記モデルアプリケータ（１３）は、前記入力信号（３）に基づくスペクトル（ｓ）に対し前記知覚的重み付けモデル（Ｗ）を適用することによって知覚的重み付きスペクトル（ｘ）を提供するように構成され、
前記量子化器（１４）は、前記知覚的重み付きスペクトル（ｘ）を量子化し、ビットストリームを提供するように構成され、
前記量子化器（１４）は、ランダム行列アプリケータ（１６）と符号関数計算器（１７）とを備え、
前記ランダム行列アプリケータ（１６）は、前記知覚的重み付きスペクトル（ｘ）にランダム行列（Ｐ）を適用して、変換スペクトル（ｕ）を提供するように構成され、
前記符号関数計算器（１７）は、前記変換スペクトル（ｕ）の成分の符号関数を計算して、前記ビットストリームを提供するよう構成され、
前記モデルプロバイダ（１２）は、前記入力信号（３）の振幅スペクトル（｜ｘ｜）の包絡（ｙ）を計算し、前記振幅スペクトル（｜ｘ｜）の包絡（ｙ）に圧縮関数（f()）を適用し、かつ前記圧縮関数（f()）の適用の結果に基づいて前記知覚的重み付けモデル（Ｗ）を計算するように構成される、
符号化装置（１）。

【請求項2】

請求項１に記載の符号化装置（１）であって、
前記圧縮関数（ｆ（））が単調増加しており、
任意の正のスカラー値（ｔ）および任意の小さな値（ｅｐｓ）について、前記正のスカラー値（ｔ）に対する関数値（ｆ（ｔ））が、前記正のスカラー値（ｔ）と前記任意の小さな値（ｅｐｓ）との合計（ｔ＋ｅｐｓ）に対する関数値（ｆ（ｔ＋ｅｐｓ））よりも小さく、かつ
第１の正スカラー値（ｔ１）と前記第１の正スカラー値（ｔ１）よりも大きな第２の正スカラー値（ｔ２）について、前記第２の正スカラー値（ｔ２）に対する関数値（ｆ（ｔ２））と前記第１の正スカラー値（ｔ１）に対する関数値（ｆ（ｔ１））との差は、前記第２の正スカラー値（ｔ２）と前記第１の正スカラー値（ｔ１）との差よりも小さい、符号化装置（１）。

【請求項3】

符号化信号（４）を処理するための復号化装置（２）であって、
逆量子化器（２０）と知覚的逆重み付け器（２１）とを含み、
前記逆量子化器（２０）は、前記符号化信号（４）に含まれるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供するように構成され、
前記逆量子化器（２０）は、前記ビットストリームに対しランダム行列（Ｐ）の擬似逆を適用することによって前記ビットストリームを逆量子化するように構成され、
前記知覚的逆重み付け器（２１）はスペクトル近似器（２４）とモデル近似器（２５）とを含み、
前記スペクトル近似器（２４）が、前記計算された知覚的重み付きスペクトルに基づいてスペクトルの近似を計算するように構成され、
前記モデル近似器（２５）は、前記スペクトルの近似に基づいて、前記符号化信号（４）が関連付けられる知覚的重み付けモデル（Ｗ）の近似（Ｗ_k）を計算するように構成され、
前記知覚的逆重み付け器（２１）は初期推測プロバイダ（２３）を含み、
前記初期推測プロバイダ（２３）は、前記知覚的重み付けモデル（Ｗ）の初期推測（Ｗ₀）に関するデータ（ｗ₀）を提供するように構成され、
前記スペクトル近似器（２４）は、前記計算された知覚的重み付きスペクトルと前記知覚的重み付けモデル（Ｗ）の初期推測（Ｗ₀）または前記知覚的重み付けモデル（Ｗ）の近似（Ｗ_k）とに基づいて、前記スペクトルの近似を反復的に計算するように構成される、
復号化装置（２）。

【請求項4】

請求項３に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、
前記知覚的重み付けモデル（Ｗ）の初期推測（Ｗ₀）と前記計算された知覚的重み付きスペクトルとに基づいて前記スペクトルの初期近似を計算し、前記スペクトルの初期近似を使用して前記知覚的重み付けモデル（Ｗ）の第１近似（Ｗ₁）を計算し、
前記知覚的重み付けモデル（Ｗ）の第１近似（Ｗ₁）と前記計算された知覚的重み付きスペクトルとに基づいて前記スペクトルの第１近似を計算し、前記スペクトルの第１近似を使用して前記知覚的重み付けモデル（Ｗ）の第２近似（Ｗ₂）を計算するよう構成される、
復号化装置（２）。

【請求項5】

請求項４に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、
前記スペクトルの初期近似の包絡推定（ｗ₁）の計算を使用して前記知覚的重み付けモデル（Ｗ）の第１近似（Ｗ₁）を計算するか、又は
前記スペクトルの第１近似の包絡推定（ｗ₂）の計算を使用して前記知覚的重み付けモデル（Ｗ）の第２近似（Ｗ₂）を計算するよう構成される、
復号化装置（２）。

【請求項6】

請求項５に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、
前記スペクトルの初期近似のスペクトル包絡を計算し、かつ前記スペクトルの初期近似のスペクトル包絡に圧縮関数（f()）を適用することを使用して、前記スペクトルの初期近似の包絡推定（ｗ₁）を計算するか、又は
前記スペクトルの第１近似のスペクトル包絡を計算し、かつ前記スペクトルの第１近似のスペクトル包絡に圧縮関数（f()）を適用することを使用して、前記スペクトルの第１近似の包絡推定（ｗ₂）を計算するよう構成される、
復号化装置（２）。

【請求項7】

請求項３に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、ある収束基準が満たされるまで前記スペクトルの近似の反復的な計算を実行するように構成され、最後の反復ステップｋで取得された前記スペクトルの近似は復号化済みオーディオ信号である
復号化装置（２）。

【請求項8】

請求項７に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、前記収束基準として、現在の反復ステップｋの出力ベクトルｗ（ｋ）と前回の反復ステップｋ−１の出力ベクトルｗ（ｋ−１）との比較の結果をチェックするよう構成される、
復号化装置（２）。

【請求項9】

請求項８に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、現在の反復ステップｋの出力ベクトルｗ（ｋ）と前回の反復ステップｋ−１の出力ベクトルｗ（ｋ−１）との差が予め設定された閾値以下であるとき、反復計算の収束を決定するよう構成される、
復号化装置（２）。

【請求項10】

請求項８又は９に記載の復号化装置（２）であって、
前記スペクトル近似器（２４）は、前記出力ベクトルとして、現在の反復ステップｋにおける前記スペクトルの近似の包絡推定（ｗ_k）と、前回の反復ステップｋ−１における前記スペクトルの近似の包絡推定（ｗ_k-1）と、を計算するよう構成される、
復号化装置（２）。

【請求項11】

請求項３〜１０のいずれか一項に記載の復号化装置（２）であって、
前記逆量子化器（２０）は、前記符号化信号（４）に含まれる前記ランダム行列（Ｐ）に関するサイド情報に基づいて、前記ビットストリームを逆量子化するように構成される、復号化装置（２）。

【請求項12】

請求項３〜１１のいずれか一項に記載の復号化装置（２）であって、
前記逆量子化器（２０）は、複数のビットストリームを受信し、前記複数のビットストリームに基づいて、計算された知覚的重み付きスペクトルを提供するように構成されている、復号化装置（２）。

【請求項13】

請求項５〜１２のいずれか一項に記載の復号化装置（２）であって、
前記復号化装置（２）はソースモデル化を適用するように構成されている、復号化装置（２）。

【請求項14】

入力信号（３）を処理するための符号化方法であって、
前記入力信号（３）に基づいて知覚的重み付けモデル（Ｗ）を提供するステップと、
前記入力信号（３）のスペクトル（ｓ）に前記知覚的重み付けモデル（Ｗ）を適用することによって、前記入力信号（３）のスペクトル（ｓ）を重み付けし、知覚的重み付きスペクトル（ｘ）を取得するステップと、
前記知覚的重み付きスペクトル（ｘ）のランダムな投影の符号関数を計算することによって、前記重み付きスペクトル（ｘ）を量子化するステップと、含み、
前記知覚的重み付けモデル（Ｗ）を提供するステップは、前記入力信号（３）の振幅スペクトル（｜ｘ｜）の包絡（ｙ）を計算し、前記振幅スペクトル（｜ｘ｜）の包絡（ｙ）に圧縮関数（f()）を適用し、かつ前記適用の結果に基づいて前記知覚的重み付けモデル（Ｗ）を計算することを含む、
方法。

【請求項15】

請求項１４に記載の方法であって、
前記重み付きスペクトル（ｘ）にランダム行列（Ｐ）を適用することによって、前記重み付きスペクトル（ｘ）のランダムな投影を取得するステップをさらに含む、方法

【請求項16】

請求項１５に記載の方法であって、
フィルタバンク（Ａ）と各帯域についての正規化ファクタを含む対角行列（Λ）とを使用して、前記包絡（ｙ）を得るステップをさらに含む、方法。

【請求項17】

符号化信号（４）を処理するための復号化方法であって、
符号化信号（４）に対しランダム行列（Ｐ）の擬似逆を適用することによって、量子化された知覚信号を提供するステップと、
前記量子化された知覚信号に基づいてスペクトルの近似を計算するステップと、
前記スペクトルの近似に基づいて、前記符号化信号（４）を提供するために用いられた知覚的重み付けモデル（Ｗ）の近似（Ｗ_k）を計算するステップと、
を含み、
前記知覚的重み付けモデル（Ｗ）の近似（Ｗ_k）を計算するステップは前記知覚的重み付けモデルの初期推測（Ｗ₀）に関するデータ（ｗ₀）を提供することを含み、
前記スペクトルの近似を計算するステップは、前記計算された知覚的重み付きスペクトルと前記知覚的重み付けモデル（Ｗ）の初期推測（Ｗ₀）または前記知覚的重み付けモデル（Ｗ）の近似（Ｗ_k）とに基づいて、前記スペクトルの近似を反復的に計算することを含む、
方法。

【請求項18】

請求項１７に記載の方法であって、
前記スペクトルの近似を計算するステップは、前記知覚的重み付けモデル（Ｗ）の初期推測（Ｗ₀）に基づいて前記スペクトルの初期近似を計算することを含む、
方法。

【請求項19】

請求項１７に記載の方法であって、
フィルタバンク（Ａ）と各帯域についての正規化ファクタを含む対角行列（Λ）とを用いて、前記知覚的重み付けモデル（Ｗ）の初期推測（Ｗ₀）に関するデータ（ｗ₀）を取得するステップ、
をさらに含む方法。

【請求項20】

コンピュータまたはプロセッサ上で実行されたとき、請求項１４〜１９のいずれか一項に記載の方法を実行するためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、入力信号を処理する符号化装置と、符号化信号を処理する復号化装置とに関する。本発明は、対応する方法およびコンピュータプログラムにも関する。

【背景技術】

【0002】

スピーチコーデックおよびオーディオコーデックの中核部分は、信号表現の異なる要素における誤差の相対的知覚重要度を記述する知覚モデルである。実際には、知覚モデルは、各要素の量子化において使用される信号依存の重みファクタからなる。最適な性能のためには、復号器において同じ知覚モデルを使用することが望ましい。しかしながら、知覚モデルは信号依存性である一方で、復号器において予め知られておらず、それによりオーディオコーデックは一般に、ビット消費の増加を犠牲にしてこのモデルを明示的に伝送する。

【0003】

物のインターネット（ＩｏＴ）の時代は近づいており、それによって次世代のスピーチコーダおよびオーディオコーダはそれを包含すべきである。しかしながら、ＩｏＴシステムの設計目標は、スピーチコーダおよびオーディオコーダの古典的な設計にうまく適合しておらず、それによってコーダの大幅な再設計が必要とされる。

【0004】

第１に、ＡＭＲ−ＷＢ、ＥＶＳ、ＵＳＡＣおよびＡＡＣのような現状のスピーチおよびオーディオのコーダは、高性能かつ複雑な符号器および比較的単純な復号器（非特許文献１−４）から構成される。なぜなら、ＩｏＴは分散された低複雑度センサノードをサポートするため、符号器は単純であることが好ましいからである。

【0005】

第２に、センサノードは同じソース信号を符号化しているので、各センサノードで同じ量子化を適用することは、過剰符号化を意味し、潜在的に効率上の深刻な損失をもたらす可能性がある。特に、知覚モデルは、すべてのノードにおいて多かれ少なかれ同じであるべきであるので、すべてのノードからそれを送信することは、ほぼ純粋な過剰符号化である。

【0006】

従来のスピーチ及びオーディオ符号化方法は、３つの部分から構成されている。
１．コーデックの異なるパラメータにおける誤差の相対的な影響を指定する知覚モデル
２．異なる入力のレンジおよび尤度を記述するソースモデル
３．知覚歪みを最小化するためにソースモデルを利用するエントロピーコーダ（非特許文献５）

【0007】

さらに、知覚モデルは、以下の２つの方法のいずれかで適用することができる。
１．すべてのパラメータが同じ精度で量子化されるように、知覚モデルに従って信号パラメータを重み付けすることができる。その後、重み付けを取り消すことができるように、知覚モデルを復号器に送信する必要がある。
２．代替として、知覚モデルを評価モデルとして適用して、異なる量子化の合成出力を知覚モデルによって重み付けした上で、合成による分析の反復において比較することができる。ここで、知覚モデルは送信される必要はないが、この手法は、量子化セル形状が規則的な形状ではなく、符号化効率を低下させるという欠点を有する。しかしながら、より重要なことは、最適量子化を見つけるために、異なる量子化の計算的に複雑な力ずくの探索を使用する必要があることである。

【0008】

このように、合成による分析の手法は計算的に複雑な符号器につながるので、ＩｏＴの実現可能な代替案ではない。したがって、復号器は知覚モデルへのアクセスを有していなければならない。しかしながら、上述のように、知覚モデル（または、等価的に信号スペクトルの包絡モデル）の明示的な送信は、符号化効率を低下させるので、望ましくない。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】[14] 米国特許第７，８３５，９０４号．

【非特許文献】

【0010】

【非特許文献1】[1] TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12), 3GPP, 2014.

【非特許文献2】[2] TS 26.190, Adaptive Multi-Rate (AMR-WB) speech codec, 3GPP, 2007.

【非特許文献3】[3] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012.

【非特許文献4】[4] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, and M. Dietz, “ISO/IEC MPEG-2 advanced audio coding,” Journal of the Audio engineering society, vol. 45, no. 10, pp. 789-814, 1997.

【非特許文献5】[5] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Dordrecht, The Netherlands: Kluwer Academic Publishers, 2003.

【非特許文献6】[6] P. T. Boufounos and R. G. Baraniuk, “1-bit compressive sensing,” in Information Sciences and Systems, 2008. CISS 2008. 42nd Annual Conference on. IEEE, 2008, pp. 16-21.

【非特許文献7】[7] Z. Xiong, A. D. Liveris, and S. Cheng, “Distributed source coding for sensor networks,” IEEE Signal Process. Mag., vol. 21, no. 5, pp. 80-94, 2004.

【非特許文献8】[8] Z. Xiong, A. D. Liveris, and Y. Yang, “Distributed source coding,” Handbook on Array Processing and Sensor Networks, pp. 609-643, 2009.

【非特許文献9】[9] B. Girod, A. M. Aaron, S. Rane, and D. Rebollo-Monedero, “Distributed video coding,” Proc. IEEE, vol. 93, no. 1, pp. 71-83, 2005.

【非特許文献10】[10] A. Majumdar, K. Ramchandran, and L. Kozintsev, “Distributed coding for wireless audio sensors,” in Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on. IEEE, 2003, pp. 209-212.

【非特許文献11】[11] H. Dong, J. Lu, and Y. Sun, “Distributed audio coding in wireless sensor networks,” in Computational Intelligence and Security, 2006 International Conference on, vol. 2. IEEE, 2006, pp. 1695-1699.

【非特許文献12】[12] A. Zahedi, J. Φstergaard, S. H. Jensen, P. Naylor, and S. Bech, “Coding and enhancement in wireless acoustic sensor networks,” in Data Compression Conference (DCC), 2015. IEEE, 2015, pp. 293-302.

【非特許文献13】[13] A. Zahedi, J. Φstergaard, S. H. Jensen, S. Bech, and P. Naylor, “Audio coding in wireless acoustic sensor networks,” Signal Processing, vol. 107, pp. 141-152, 2015.

【非特許文献15】[15] G. Kubin and W. B. Kleijn, “Multiple-description coding (MDC) of speech with an invertible auditory model,” in Speech Coding, IEEE Workshop on, 1999, pp. 81-83.

【非特許文献16】[16] V. K. Goyal, “Multiple description coding: Compression meets the network,” IEEE Signal Process. Mag., vol. 18, no. 5, pp. 74-93, 2001.

【非特許文献17】[17] J. O. Smith III and J. S. Abel, “Bark and ERB bilinear transforms,” IEEE Trans. Speech Audio Process., vol. 7, no. 6, pp. 697-708, 1999.

【非特許文献18】[18] T. Baeckstroem, “Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,” IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, Dec. 2013.

【非特許文献19】[19] F. Zheng, G. Zhang, and Z. Song, “Comparison of different implementations of MFCC,” Journal of Computer Science and Technology, vol. 16, no. 6, pp. 582-589, 2001.

【非特許文献20】[20] H. Fastl and E. Zwicker, Psychoacoustics: Facts and models. Springer, 2006, vol. 22.

【非特許文献21】[21] NTT-AT, “Super wideband stereo speech database,” http://www.ntt-at.com/product/widebandspeech, accessed: 09.09.2014. [Online]. Available: http://www.ntt-at.com/product/ widebandspeech

【非特許文献22】[22] S. Korse, T. Jaehnel, and T. Baeckstroem, “Entropy coding of spectral envelopes for speech and audio coding using distribution quantization,” in Proc. Interspeech, 2016.

【発明の概要】

【発明が解決しようとする課題】

【0011】

本発明の目的は、知覚モデルに関するサイド情報なしに、送信信号から復号器において知覚モデルを復元する方法を提供することである。

【課題を解決するための手段】

【0012】

この目的は、入力信号を処理するための符号化装置と、符号化信号を処理する復号化装置とによって達成される。この目的は、対応する方法と、符号化装置及び復号化装置を含むシステムとによっても達成される。

【0013】

本発明は、知覚モデルを送信することによるビット消費に対するコストの追加がセンサの数と共に増大する、分散型センサネットワークおよび物のインターネットにおいて特に有用である。

【0014】

一実施形態による本発明はまた、分散型のスピーチおよびオーディオ符号化における知覚モデルのブラインド（盲目的）復元としてラベル付けされてもよい。

【0015】

ここで、入力信号は、符号化装置によって符号化されるスピーチ信号および／またはオーディオ信号である。

【0016】

この目的は、入力信号を処理するための符号化装置によって達成される。符号化装置は、符号化信号を提供することが好ましい。

【0017】

符号化装置は、知覚的重み付け器と量子化器とを含む。

【0018】

知覚的重み付け器は、モデルプロバイダおよびモデルアプリケータを含む。モデルプロバイダは、入力信号に基づいて知覚的重み付きモデルを提供するように構成される。モデルアプリケータは、入力信号に基づいて知覚的重み付きモデルをスペクトルに適用することによって、知覚的に重み付けされたスペクトルを提供するように構成される。

【0019】

量子化器は、知覚的に重み付けされたスペクトルを量子化し、ビットストリームを提供するように構成される。量子化器は、ランダム行列アプリケータと、符号関数(sign function)計算器とを含む。ランダム行列アプリケータは、知覚的に重み付けされたスペクトルにランダム行列を適用して、変換スペクトルを提供するよう構成される。符号関数計算器は、変換されたベクトルの成分の符号（またはシグナム）関数を計算して、ビットストリームを提供するよう構成されている。

【0020】

量子化は、少なくとも２つのステップを含み、第１のステップにおいて、知覚的に重み付けされたスペクトルはランダム行列と組み合わされる。このようなランダム行列は、各入力信号に対して異なる行列が使用されるという利点を有する。これは、複数のセンサが同じオーディオソースをカバーし、過剰符号化を避ける必要がある場合に有用である。第２のステップは、変換されたベクトルの成分の符号関数を計算することを含む。

【0021】

一実施形態では、モデルプロバイダは、入力信号に基づくスペクトルの圧縮に基づいて、知覚的重み付きモデルを提供するように構成される。

【0022】

本発明の符号化装置では、入力信号の知覚的重み付けは、一実施形態では、入力信号の圧縮に基づく。一実施形態では、知覚的重み付けは、入力信号の振幅スペクトルの包絡の圧縮に基づく（包絡は、信号の特性例えば振幅スペクトルを記述する連続的な、通常は滑らかな形状である）。圧縮に基づいて、知覚的重み付きモデルが得られ、それは最終的に入力信号のスペクトルを知覚的に重み付けするために使用される。

【0023】

符号化装置は、一実施形態では、符号化プロセスに関するいくつかの態様をカバーするサイド情報を有するビットストリームを提供する。

【0024】

一実施形態では、量子化に関する情報は、符号化プロセスの結果として符号化装置によって出力された符号化信号によってサイド情報として提供される。

【0025】

さらなる実施形態では、知覚的重み付け器は包絡計算器を含む。包絡計算器は、入力信号に基づく振幅スペクトルの包絡を提供するように構成される。

【0026】

一実施形態では、モデルプロバイダは、包絡の圧縮を記述する圧縮関数を計算するように構成される。さらに、モデルプロバイダは、圧縮関数に基づいて知覚的重み付きモデルを計算するように構成される。この実施形態では、モデルプロバイダは、包絡を圧縮し、この圧縮を記述する関数を計算する。この関数に基づいて、知覚的重み付きモデルが得られる。この実施形態では、入力信号に基づくスペクトルの包絡の圧縮が実行され、すなわち振幅レンジが低減され、したがって圧縮前よりも小さくなる。包絡を圧縮することによって、スペクトル自体も圧縮され、すなわちスペクトルの振幅レンジが低減される。

【0027】

別の実施形態では、知覚的重み付きモデル又は圧縮関数は、入力信号から直接計算されるか又は入力信号に基づく振幅／パワースペクトルから計算される。

【0028】

一実施形態によれば、モデルプロバイダは、入力信号に基づくスペクトルの圧縮を記述する圧縮関数を計算するように構成されるか、入力信号に基づく振幅スペクトルの包絡の圧縮を記述するように構成される。圧縮は、入力信号に基づくスペクトルの振幅レンジを減少させるか、包絡の振幅レンジを減少させる。さらに、モデルプロバイダは、圧縮関数に基づいて知覚的重み付きモデルを計算するように構成される。

【0029】

一実施形態では、圧縮関数は、例えばスペクトルまたは包絡を圧縮するために、２つの基準を満たす：
第１に、圧縮関数は単調増加する。これは、任意の正のスカラー値及び任意に小さい値について、その正のスカラー値に対する関数値は、その正のスカラー値と任意に小さい値との和に対する関数値よりも小さいことを意味する。
第２に、第１の正スカラー値および第１の正スカラー値よりも大きい第２の正スカラー値に関して、第２の正スカラー値に対する関数値と第１の正スカラー値に対する関数値との差は、第２の正スカラー値と第１の正スカラー値との差よりも小さい。

【0030】

本発明の目的は、入力信号を処理する方法によっても達成される。この入力信号は、オーディオ信号および／またはスピーチ信号であることが好ましい。

【0031】

オーディオ及び／又はスピーチ信号である入力信号を処理するための方法は、少なくとも以下のステップを含む：
−入力信号に基づいて知覚的重み付きモデルを計算する。
−前記知覚的重み付きモデルを前記入力信号に基づくスペクトルに適用することにより知覚的に重み付けされたスペクトルを提供する。
−知覚的重み付きスペクトルを量子化してビットストリームを提供する。
ここで、知覚的重み付きスペクトルの量子化は以下を含む。
(a)知覚的重み付きスペクトルにランダム行列を適用して変換スペクトルを提供すること。
(b)変換スペクトルの成分の符号関数を計算してビットストリームを提供すること。

【0032】

一実施形態では、以下のステップが実行される：
−入力信号に基づいて振幅スペクトルの包絡を計算する。
−包絡の圧縮に基づいて知覚的重み付きモデルを計算する。

【0033】

符号化装置の実施形態は、方法のステップおよび方法の対応する実施形態によって実行することもできる。したがって、装置の実施形態について与えられた説明は、本方法についても当てはまる。

【0034】

本発明の目的は、以下の入力信号を処理する方法によってさらに達成される：
−入力信号に基づいて知覚的重み付きモデルを提供すること。
−入力信号のスペクトルに知覚的重み付きモデルを適用することによって入力信号のスペクトルを重み付けすること。
−重み付きスペクトルのランダムな投影の符号関数を計算することによって重み付きスペクトルを量子化すること。

【0035】

この方法は、一実施形態において以下を含む。
−重み付きスペクトルにランダム行列を適用することによって、重み付きスペクトルのランダムな投影を得ること。

【0036】

一実施形態では、知覚的重み付きモデルを提供することは、入力信号の振幅スペクトルの包絡を圧縮することを含む。

【0037】

一実施形態によれば、この方法はさらに以下のステップを含む。
−フィルタバンクと各バンドの正規化ファクタを含む対角行列とを使用して包絡を得ること。

【0038】

本発明の目的は、符号化信号を処理する復号化装置によっても達成される。

【0039】

復号化装置は、少なくとも１つの逆量子化器と、知覚的逆重み付け器（perceptual de-weighter）とを含む。

【0040】

逆量子化器は、符号化信号によって構成されるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供するよう構成される。さらに逆量子化器は、ランダム行列の擬似逆（pseudo-inverse）をビットストリームに適用することによってビットストリームを逆量子化するように構成される。逆量子化器は、符号化プロセス中に発生した量子化の効果を逆戻しする。逆量子化器の後には、逆量子化から得られるスペクトルが知覚的に逆に重み付けされるように、知覚的逆重み付け器が続く。計算された知覚的重み付きスペクトルは知覚的逆重み付け器によって受信されて、知覚的に逆重み付けされる。したがって、最終的に得られたスペクトルは、入力信号に含まれるビットストリームの、逆量子化され知覚的に逆重み付けされたものである。

【0041】

知覚的逆重み付け器は、符号化信号をもたらす符号化プロセス中に発生した知覚的重み付けの影響を反転させる。これは、一実施形態では、知覚的重み付きモデルを含む符号化信号のサイド情報なしで行われる。モデルは、符号化されたオーディオ信号自体から再構成される。

【0042】

知覚的逆重み付け器は、スペクトル近似器およびモデル近似器を含む。

【0043】

モデルの再構成は、一実施形態では、開始点または初期値が必要とされる反復的手法で実行される。したがって、知覚的逆重み付け器に含まれる初期推測プロバイダは、符号化信号と関連する知覚的重み付きモデルの初期推測のためのデータを提供するよう構成される。初期推測のデータは、一実施形態では、知覚的重み付きモデルを記述する行列の対角要素を有するベクトルを含む。

【0044】

スペクトル近似器は、計算された知覚的重み付きスペクトルに基づいてスペクトルの近似値を計算するよう構成される。さらに、モデル近似器は、スペクトルの近似値に基づいて、符号化信号が関連付けられた（すなわち、入力信号の符号化に使用された、したがって符号化信号を生成するために使用された）知覚的重み付きモデルの近似を計算するよう構成されている。

【0045】

一実施形態では、知覚的逆重み付け器は初期推測プロバイダを含む。初期推測プロバイダは、知覚的重み付けされたモードの初期推測のためのデータを提供するよう構成される。スペクトル近似器は、符号化信号と知覚的重み付きモデルの初期推測または近似とに基づいて、スペクトルの近似値を計算するよう構成されている。さらに、スペクトルの近似値は、一実施形態において、知覚的重み付きモデルの初期推測または特に計算された近似に基づいている。この選択は、初期推測を用いる反復が開始したか否か、又は、近似値の少なくとも１つの改善を伴って知覚的重み付きモデルの近似をもたらすような少なくとも１回の反復が既に発生したか否か、という事実に依存する。この反復は、一実施形態では、収束基準が満たされるまで実行される。

【0046】

逆量子化器は、一実施形態では、符号化信号に含まれるランダム行列に関するサイド情報に基づいて、符号化信号に含まれるビットストリームを逆量子化するよう構成される。この実施形態は、ランダム行列を用いて量子化を行う符号化処理について言及する。使用されるランダム行列に関する情報は、符号化信号のサイド情報に含まれている。サイド情報は、一実施形態では、ランダム行列の列のシードのみを含む。

【0047】

一実施形態では、複数の符号化信号が一緒に処理される。各符号化信号は、それぞれの符号化信号を提供する間に実行された量子化に関する情報と少なくとも関連するサイド情報を有するビットストリームを含む。この目的のために、逆量子化器は、複数の入力信号を受信するよう構成され、その複数の入力信号に基づいて、（一実施形態では唯一の）計算された知覚的重み付きスペクトルを提供するよう構成されている。それら入力信号は、好ましくは、同じ信号源から発生するオーディオ／スピーチ信号に言及するものである。

【0048】

別の実施形態では、復号化装置はソースモデル化を適用するよう構成される。ソースモデルは、異なる入力のレンジおよび尤度を記述する。

【0049】

本発明の目的は、符号化信号を処理する方法によっても達成される。この符号化信号は、符号化されたオーディオ信号および／または符号化されたスピーチ信号であることが好ましい。

【0050】

符号化信号を処理する（または復号化する）方法は、少なくとも以下のステップを含む：
−符号化信号に含まれるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供すること。
ここで、ビットストリームを逆量子化するステップは、ランダム行列の擬似逆行列をビットストリームに適用するステップを含む。
−計算された知覚的重み付きスペクトルに基づいてスペクトルの近似値を計算すること。
−スペクトルの近似値に基づいて、符号化信号が関連付けられた（すなわち符号化信号を生成するために使用された）知覚的重み付きモデルの近似を計算すること。

【0051】

一実施形態では、本方法は、以下のステップを含む：
−計算された知覚的重み付きスペクトルと初期推測値とに基づいて、又は、計算された知覚的重み付きスペクトルと符号化信号が関連する知覚的重み付きモデルの近似とに基づいて、スペクトルの近似値を計算する。

【0052】

知覚的重み付きモデルの計算された近似は、スペクトルの近似値の次の計算に使用されることが好ましい。

【0053】

本発明の目的は、以下のステップを含む符号化信号を処理する方法によっても達成される：
−符号化信号にランダム行列の擬似逆行列を適用することにより、量子化された知覚信号を提供すること。
−量子化された知覚信号に基づいてスペクトルの推定値を計算すること。
−スペクトルの推定値に基づいて符号化信号を提供するために使用された知覚的重み付きモデルの近似を計算すること。

【0054】

一実施形態によれば、本方法はさらに以下を含む：
−初期推測を用いて知覚的重み付きモデルの０次の近似を提供する。
−知覚的重み付きモデルの０次の近似に基づいてスペクトルの０次の推定値を計算する。

【0055】

さらなる実施形態では、本方法はさらに以下を含む。
−フィルタバンクと、各バンドに対する正規化ファクタを含む対角行列とを使用することによって、初期推測を得ること。

【0056】

本装置の実施形態は、方法のステップおよび方法の対応する実施形態によって実施することもできる。したがって、装置の実施形態について与えられた説明は、この方法のためにも当てはまる。

【0057】

本発明の目的はまた、少なくとも１つの符号化装置と復号化装置とを含むシステムによって達成される。一実施形態では複数の符号化装置が使用され、それら符号化装置は、一実施形態では、センサノード、例えばマイクロホンなどに関連付けられている。

【0058】

本発明の目的はまた、コンピュータまたはプロセッサ上で実行されるときに、前述の実施形態のいずれかの方法を実行するためのコンピュータプログラムによっても達成される。

【0059】

以下、添付図面を参照しながら、本発明の実施の形態について説明する。

【図面の簡単な説明】

【0060】

【図1】符号化装置と復号化装置とを含む第１の実施形態のシステムのブロック図を示す。

【図2】符号化装置の実施形態のブロック図である。

【図3】符号化装置の一部としての知覚的重み付け器のブロック図である。

【図4】符号化処理に属する信号を示す。

【図5】多数の符号化装置を含むシステムの第２の実施形態のブロック図である。

【図6】システムの第３の実施形態のより詳細なブロック図を示す。

【図7】復号化装置の一実施形態のブロック図である。

【図8】復号化復号装置の異なる実施形態のブロック図である。

【図9】復号化装置の一部としての知覚的逆重み付け器の実施形態を示す。

【図10】復号化処理に属する信号である。

【図11】実験データについて異なるビットレートを有する平均ＳＮＲ値を示す。

【図12】実験データについての差分ＭＵＳＲＡスコアを示す。

【発明を実施するための形態】

【0061】

図１は、スピーチおよび／またはオーディオ信号である入力信号３を処理するためのシステムを示す。この入力信号３は符号化装置１によって符号化される。好ましくはビットストリームである符号化信号４は、例えばインターネットを介して復号化装置２に送信され、復号化装置１０４は、符号化信号４を復号化し、抽出されたオーディオ信号５を図示しないリスナーに提供する。

【0062】

符号化装置１は、入力信号３を処理するために知覚的重み付きモデルを使用するが、このモデルは符号化信号４によって送信されない。復号化復号装置２は、モデルの効果を無効にするために、符号化信号４からモデルを抽出する。

【0063】

図２に示す符号化装置１は、変換器１５と、知覚的重み付け器１０と、量子化器１４とを含む。

【0064】

変換器１５は、時間信号である入力信号３に基づいてスペクトルｓを提供する。これは、例えば短時間フーリエ変換（ＳＴＦＴ）によって行われる。

【0065】

スペクトルｓは知覚的重み付け器１０によって知覚的重み付けを受け、知覚的重み付きスペクトルｘとなる。このスペクトルｘは量子化器１４に送られ、量子化器により量子化され、ビットストリームである量子化信号

が供給される。この量子化信号

は、この実施例では、量子化に関する情報をカバーする−しかし、この実施例では知覚的重み付きモデルに関する情報をカバーしない−対応するサイド情報と結合されて、符号化信号４が出力される。

【0066】

図３は、知覚的重み付け器１０の一実施形態を示す。

【0067】

知覚的重み付け器１０は、入力信号３−または入力信号３を周波数領域へ変換した後の対応するスペクトル−を受信し、知覚的に重み付けされたスペクトルｘを提供する。この目的のために、知覚的重み付け器１０は、包絡計算器１１と、モデルプロバイダ１２と、モデルアプリケータ１３とを備える。

【0068】

包絡計算器１１は、入力信号３または対応するスペクトルを受信し、入力信号３に基づく振幅スペクトル｜ｘ｜の包絡ｙを提供する。図示の実施形態では、包絡計算器１１は行列Ａと対角行列Λとによって包絡ｙを提供する。行列Ａはフィルタバンクであり、対角行列Λは、使用されたフィルタ帯域の各帯域についての正規化ファクタを含む。次に、包絡ｙは、入力信号３の振幅スペクトル｜ｘ｜に基づいて、式ｙ＝ＡΛＡ^T｜ｘ｜によって得られるのに対して、Ａ^Tは行列Ａの転置である。

【0069】

この包絡ｙに基づいて、モデルプロバイダ１２は包絡ｙを圧縮する。圧縮の目的は、耳の知覚性能を近似する関数を得るためである。以下では、包絡はｙのｐ乗を計算することによって圧縮される一実施形態について説明する。例えば、ｐが０．３に等しい場合、ｙ^pのレンジは元のｙのレンジよりも小さくなる。従って、この例では、圧縮量は値ｐに依存する。例えば、包絡は所望のレンジに削減される。一実施形態では、包絡ｙを圧縮するためのレンジ削減又は圧縮関数は、０＜ｐ＜１であるｙ^pによって与えられる。このことは、０より大きく且つ１より小さい指数を持つ包絡の羃乗関数(exponentiation function)によって圧縮が行われることを意味する。この圧縮は、一実施形態ではサンプルごとに実施される。

【0070】

圧縮関数ｆ（ｙ）は、知覚的重み付きモデルＷの対角要素を与えるベクトルｗ、すなわちｗ＝ｆ（ｙ）を記述している。ここで、入力ｙはベクトルとして与えられ、関数ｆはベクトルｙのすべてのサンプルに適用され、ベクトルｗが得られる。従って、ｙのｋ番目のサンプルがｙ_kである場合、ｗ＝ｆ（ｙ）のｋ番目のサンプルはｗ_k＝ｆ（ｙ_k）である。

【0071】

したがって、この圧縮関数に基づいて、ここでは行列の形式で知覚的重み付きモデルＷを得ることができる。

【0072】

換言すると、振幅スペクトルの包絡は圧縮され、圧縮包絡を記述する関数から知覚的重み付きモデルが計算され、それはスペクトルを知覚的に重み付けするために使用される。

【0073】

モデルアプリケータ１３は、入力信号３に基づいて知覚的重み付きモデルＷをスペクトルｓに適用する。図示の実施形態では、モデルアプリケータ１３は、スペクトルに基づくベクトルに対し知覚的重み付きモデルＷの行列を適用する。

【0074】

ここで、知覚モデル化についてもう一度説明する。

【0075】

スピーチおよびオーディオのコーデックは、人間の聴覚の効率的なモデル化に基づいている。この目的は、重み付けされた領域における信号対雑音比の最適化により、知覚的に最良の可能な品質がもたらされるような、量子化誤差の重み付けを得ることである。

【0076】

オーディオコーデックは、一般にスペクトル領域で動作する。ここでは、入力フレームのスペクトルｓは対角行列Ｗを用いて知覚的に重み付けされることができ、それにより、重み付きスペクトルｘ＝Ｗｓが

へと量子化されることができ、ここで括弧［］は量子化を表す。

【0077】

復号器では、逆演算

を再構成することができる。

【0078】

具体的には、知覚的重み付きモデルは、２つの部分からなる。
ｉ）異なる周波数帯域における知覚の限界に対応する固定部分。ＢａｒｋおよびＥＲＢスケールのような知覚モデルは、ワープされた軸が均一な知覚精度を有するように、周波数の密度をモデル化する（非特許文献１７）。しかし、ワープされたスケール上で誤差エネルギーを測定することが目的であるため、スペクトル成分の大きさは、計算的に複雑なワープ動作を回避することができるように、等価的にスケーリングされることができる（非特許文献１８）。この動作は、スピーチコーデック（非特許文献１−３）に適用されるプリエンファシス動作と同様である。重み付けのこの部分は固定されているので、明示的に送信する必要はない。それは符号器で適用することができ、復号器で直接反転することができる。
ｉｉ）知覚モデルの信号適応部分は、知覚の周波数マスキング特性に対応する。すなわち、信号の高エネルギー成分は、２つが十分に近接している場合には、より低いエネルギー成分をマスクし、したがって、それらを聞き取れないようにする（非特許文献５）。したがって、周波数マスキング曲線の形状は、信号包絡の形状に等しいが、より小さい大きさである。

【0079】

｜ｘ｜が入力信号の振幅スペクトルである場合、そのスペクトル包絡ｙは、一実施形態において、ｙ＝ＡΛＡ^T｜ｘ｜によって得ることができ、ここで、行列Ａは図４（ａ）におけるようなフィルタバンクである。

【0080】

通常のＭＦＣＣ型フィルタバンク（非特許文献１９）とは異なり、一実施形態では、ｋ次のフィルタから（ｋ−２）および（ｋ＋２）フィルタ（図４（ａ）参照）まで延びるオーバーラップを有する非対称Ｈａｎｎ−窓タイプの窓が使用される。

【0081】

対角行列Λは、単位利得が得られるように、各帯域について正規化ファクタを含む。

【0082】

実施形態に応じて、適切な数の帯域を有するＭｅｌ−、Ｂａｒｋ−、またはＥＲＢ−スケールが使用される。

【0083】

１２．８ｋＨｚのサンプリングレートでは、２０帯域を有するＭｅｌフィルタバンクが使用された。

【0084】

ＭＦＣＣタイプのフィルタバンク行列の代替案は、フィルタリングによる拡散を使用することであり、Ａは畳み込み行列となる。フィルタリング動作は周知のデジタル信号処理方法であるので、それらの逆数は容易に見出される。

【0085】

知覚的重みファクタは周波数マスキング効果をモデル化し、周波数マスキング効果は周波数にわたるエネルギーの拡散およびスケーリング（非特許文献２０、５）に対応する。包絡モデル行列Ａは、拡散の効果を既に達成しているので、エネルギーのスケーリングをモデル化する必要がある。

【0086】

エネルギースケーリングは、包絡の振幅レンジを減少させる、信号の圧縮に対応する（図４（ｂ）参照）。したがって、スペクトルｓに知覚的重み付け行列Ｗを乗算すると、レンジが縮小されたスペクトルｘ＝Ｗｓが得られる（図４（ｃ）参照）。

【0087】

従って、知覚的重み付けは、レンジを減少させ又はスペクトルを平坦化するが、完全に平坦な包絡を有するスペクトルを生成することはない。包絡のレンジが低減され、それによってそのレンジの一部が保持され、残りのレンジを使用して拡張された包絡に応じてオリジナル信号を復元することができる。

【0088】

包絡ｙ（ここでベクトルｗはＷの対角要素を与える）についてのレンジ減少又は圧縮関数ｗ＝ｆ（ｙ）は、例えば、０＜ｐ＜１であるサンプル毎の指数ｆ（ｙ）＝ｙ^pとして適用することができる。

【0089】

スペクトルｓおよびそのｋ番目のサンプルｓ_kが与えられると、重み付けは、ｘ_k＝ｗ_k＊ｓ_kのように乗算によって適用され、ｘ_kは重み付けされたスペクトルｘのｋ番目のサンプルであり、ｗ_kは重み付けベクトルｗのｋ番目のサンプルである。同様の操作は、対角Ｗ_kk＝ｗ_k上に重み付け値を持ち、その他の全ての位置では行列が０となる行列Ｗを生成することで、行列演算として表現することができる。したがって、ｘ＝Ｗ＊ｓである。

【0090】

ｙのレンジを圧縮する任意の関数を使用することは可能であるが、累乗は、復号器における包絡再構成における単純な分析表現に導くという利点を有する。

【0091】

適切な圧縮関数ｆ（ｎ）は、以下の要件を満たす。
１．圧縮関数は単調増加し、すなわちｆ（ｔ）＜ｆ（ｔ＋ｅｐｓ）であり、ここで、ｔは任意の正のスカラー値であり、ｅｐｓは任意に小さい値である。
２．任意の正のスカラー値（第１および第２スカラー値：ｔ１、ｔ２）ｔ１＜ｔ２について、ｆ（ｔ２）−ｆ（ｔ１）＜ｔ２−ｔ１が維持される。換言すると、このような２つの正のスカラー値の間の距離ｔ２−ｔ１を減少させる任意の関数は、適切な関数である。

【0092】

小さな指数ｐを持つ指数関数ｆ（ｙ）＝ｙ^pに加えて、異なる実施形態では、圧縮関数は対数であり、すなわちｆ（ｙ）＝ｌｏｇ（ｙ）である。

【0093】

符号化方法としての、または符号化装置によって実現される符号化アルゴリズムは、一実施形態では、次のようになる。
１．振幅スペクトルの包絡を計算する。
２．包絡を圧縮して知覚的重み付きモデルを得る。
３．スペクトルに重み付けを適用するｘ＝Ｗｓ。
４．重み付きスペクトルを量子化し、送信するｓｉｇｎ（Ｐｘ）。

【0094】

このアルゴリズムは、センサノード毎に独立して適用される。

【0095】

知覚的重み付けの後に量子化が続く。

【0096】

従って、本発明は２つの部分からなる。
１．ランダムな投影と１ビット量子化とを使用した入力信号の分散量子化
２．知覚モデルの暗黙的な送信

【0097】

ランダムな投影を量子化することによって、各送信ビットは１つの独特な情報を符号化し、過剰符号化は回避される。

【0098】

知覚モデルは、各センサノード(例えばマイクロホンを含む)で独立して生成され、知覚的に重み付けされ量子化された信号が送信される。知覚的重み付けは信号をより平坦にするが、基本的な形状は保持される。したがって、知覚的重み付けされた信号からでも、元の包絡がどのものであったかを復号器側で逆推論することができる。

【0099】

次に、分散量子化の説明を行う。

【0100】

分散型ソース符号化は、十分に研究されている主題（例えば、非特許文献７、８）であり、ビデオ（非特許文献９）のような他のアプリケーションにおいて適用されていたが、分散型オーディオ符号化（例えば非特許文献１０−１３）に関してはほんの数人しか研究しておらず、彼らのいずれも知覚及び包絡モデルに関する過剰符号化問題に取り組んでいない。特許文献１４におけるスケーラブル符号化手法でさえ、スケールファクタを用いた包絡符号化を含む。また、多重記述符号化の手法は、パケット損失隠蔽（非特許文献１５、１６）にのみ適用されてきた。

【0101】

次に、容易に実現可能な量子化スキームについて説明する。圧縮感知システム（非特許文献６）で使用されていた１ビット量子化方法と比較する。

【0102】

量子化器および量子化プロセスの目的は、各伝送ビットがセンサノード間の通信なしに品質を改善するのを確保するように、独立センサでの量子化を行えるようにすることである。極端な場合、１つのセンサは１ビットのみを送信することができ、その単一ビットが品質を改善するために使用され得る。

【0103】

一実施形態の提案された量子化スキームは、信号スペクトルの実数値表現のランダムな投影と、各次元の符号の送信とに基づいている。

【0104】

ｘが入力信号のスペクトルを含む実数値Ｎ×１ベクトルであり、Ｐは、列が単位長に正規化されたＫ×Ｎのランダム行列であると仮定する。その場合、ｘはｕ＝Ｐｘによって変換されるであろう。これに続いて、ｕの各成分の符号の量子化が行われ、すなわち量子化が

であり、これはＫビットを用いてロスなく伝送され得る。

【0105】

このように、ビットストリームのビット数は、ランダム行列の１次元を定義する。

【0106】

Ｐのサンプルは、好ましくは擬似ランダム値である。つまり、それらはランダム値のように見えるが、実際には何らかの複雑な数式またはアルゴリズムによって生成されることを意味する。擬似ランダム発生器は、すべてのコンピュータおよびすべての数学的ソフトウェアライブラリが有する標準的な数学的ツールである。重要なことは、行列Ｐが符号化器と受信器／復号器との両方で知られていなければならないことと、Ｐ内のすべてのサンプルに対して乱数の分布が同じであることである。

【0107】

ｘの近似としての再構成は、次式で容易に計算することができる。

ここで、

はランダム行列Ｐの擬似逆行列である。

【0108】

Ｐの擬似ランダム列のシード(seed)が復号器において既知である限り、復号器は、

のみからの信号を復号することができる。したがって、一実施形態では、擬似ランダム列のシードは、符号化信号のサイド情報として与えられる。擬似ランダム発生器は通常、シーケンス内の前の値ｘ（ｋ）が与えられると、次のランダムサンプルｘ（ｋ＋１）＝ｆ（ｘ（ｋ））を生成するように、ランダム値のシーケンスを生成する。すなわち、−擬似乱数シーケンスの「シード」値と呼ばれる−開始点ｘ（１）が既知であれば、次にシーケンス全体を生成することが可能である。したがって、符号化側および復号化側では、ランダムサンプルを生成するために同じ関数が使用される。

【0109】

複数のセンサノードの場合、入力信号ｘは同じ信号の同じ又は雑音の多いバージョンであると仮定されるが、各センサはそれ自身のランダム行列Ｐ_kを有する。復号器では、ランダム行列は、単一の大きな行列Ｐ＝［Ｐ_１，Ｐ_２，...］に対照されることができ、これにより式（１）は不変のままである。

【0110】

Ｋ＜＜Ｎである場合、Ｐは近似的に直角であり、

であり、量子化はほぼ最適であることはよく知られている。

【0111】

ここで、Ｋは必ずしもＮより小さいものではなく、よって正規直交性(orthonormality)はあまり正確ではない。擬似逆の代わりに転置を使用することは、アルゴリズムの複雑性および符号化効率を低下させるが、知覚モデル化について我々の実験に制限を課すことはない。なぜなら、送信されるすべてのビットは出力信号の精度をさらに改善するからである。

【0112】

次に、復号器側においてソースモデルが適用され、そのようなモデルは再構成の精度を向上させることが期待される。しかし、より多くのビットを送信することにより精度を増加させることによって、その効果をシミュレートすることができるので、ソースモデルを実装する必要はない。

【0113】

このシステムの実施形態のフロー図（知覚モデルを除く）が図５に示されている。１つのオーディオソースからオーディオ信号を捕捉するｎ個のマイクロホンが示されている。以下の符号器装置１は、図示の実施形態では、個々のマイクロホンまたはセンサノードの一部を示している。

【0114】

ｎ個の入力信号３はｎ個の符号化装置１の変換器１５によってｎ個のスペクトルｓに変換され、ｎ個のスペクトルｓはｎ個の知覚的重み付きスペクトル

に変換され、この変換は図示されていない知覚的重み付け器によって行われる。

【0115】

ｎ個の知覚的に重み付けされたスペクトルｘ_kは、ｎ個の量子化器１４に送られる。

【0116】

各量子化器１４は、ランダム行列アプリケータ１６と、符号関数計算器１７とを備えている。

【0117】

ランダム行列アプリケータ１６は、Ｋ×Ｎのサイズを持つ行列であるランダム行列Ｐ_iを、ｉ＝１，２，…，ｎである各知覚的重み付きスペクトルｘ_iに基づくＮ×１のベクトルに対して適用する。Ｎは、スペクトルｘにおけるサンプルの数に対応する整数スカラーである。Ｋは、ランダム化スペクトルにおける行の数に対応する整数スカラーである。符号演算子を用いて量子化することによって、各行は１ビットで量子化され、それにより、送信されるビットの数はＫである。複数の符号器−例えばマイクロホン−が使用される場合、各符号器は、サイズＫ_k×Ｎであるそれ自身の行列Ｐ_kを有する。即ち、各符号器は復号器へＫ_kビットを送信し、ビット数は符号器毎に変化し得る。

【0118】

変換されたスペクトルは、次式によって与えられる。

【0119】

符号関数計算器１７は、各変換スペクトルの符号または符号関数を計算する。

これは、変換スペクトルのＫ個の成分に対して行われ、結果的にＫビットが伝送チャネルを介して伝送されることになる。

【0120】

図６は、知覚的重み付け器１０と量子化器１４とを含む１つの符号化装置１を示す。

【0121】

オーディオ信号３は、変換器１５によってスペクトルｓ_kに変換される。知覚的重み付け器１０は、知覚的重み付け行列Ｗをスペクトルｓ_kに適用して知覚的重み付きスペクトルｘ_kを提供し、これが量子化器１４によって量子化される。

【0122】

量子化器１４はアプリケータ１６を含み、そのアプリケータ１６は、知覚的重み付きスペクトルｘ_kを受信し、ランダム行列Ｐ_kをそれに適用してＰ_kｘ_kとする。得られた変換スペクトルｕ_kの成分は、各成分の符号関数を計算することにより、符号関数計算器１７によって量子化される。これは、変換されたスペクトルの構成要素の数に等しいビット数を有するビットストリームをもたらす。このようにして、符号化信号４は、ビットストリーム

によって与えられる。

【0123】

符号化信号を復号化する方法の説明を以下に行う。

【0124】

図７は符号化信号４を処理する復号化装置２の実施例を示す。

【0125】

符号化信号４は、逆量子化器２０によって逆量子化されるビットストリーム

の形態である。

【0126】

符号化信号４はランダム行列Ｐの擬似逆

を使用することによって逆量子化される。ランダム行列に関する情報は符号化信号４のサイド情報から取得される。計算された知覚的重み付きスペクトルは、以下の式で与えられる。

【0127】

計算された知覚的重み付きスペクトル

は、知覚的逆重み付け器２１によって逆重み付けされる。知覚的逆重み付け器２１によって提供される計算されたスペクトル

は、（例えば、逆短時間フーリエ変換、ＳＴＦＴ^-1を介して）逆変換器（de-transformer）２２によって、抽出されたオーディオ信号５である時間信号に変換される。

【0128】

図８は、逆量子化器２０が、異なるセンサノードから、即ち、異なるマイクロホンから、複数の符号化信号４を受信する実施形態を示す。個々のランダム行列Ｐ_kは、単一の大きな行列Ｐ＝［Ｐ_１，Ｐ_２，...］に対照される。

【0129】

その場合、単一の計算された知覚的重み付きスペクトルは、

によって与えられる。

【0130】

代替的な実施形態では、ビットストリームは、それぞれのランダム行列

で反転され、その後にスペクトルが併合される。

【0131】

得られた計算された知覚的重み付きスペクトル

は、図７に示された実施例に関して説明されたように処理される。

【0132】

図９では、復号化装置の一部として、知覚的逆重み付け器２１の実施形態が示されている。

【0133】

知覚的逆重み付け器２１は、逆量子化器２０から、符号化信号４の逆量子化ビットストリームである計算された知覚的重み付きスペクトル

を受信する。

【0134】

知覚的逆重み付け器２１は、反復アルゴリズムを使用することによって、入力信号３の符号化中に使用される知覚的重み付きモデルＷを復元する。ここで、Ｗ_kは、知覚的重み付きモデルＷのｋ次の近似または推測である。

【0135】

アルゴリズムは、初期推測プロバイダ２３から開始される。初期推測プロバイダ２３は、知覚的重み付きモデルＷの０次の推定Ｗ₀を提供する。

【0136】

図示の実施形態では、それぞれの行列Ｗ_kの対角要素を含むベクトルｗ_kが使用される。このようなベクトルは、入力信号の知覚的重み付け中の振幅スペクトルの包絡の圧縮関数と共に使用された。

【0137】

したがって、ベクトルｗ₀の０次の推定値が与えられ、知覚的重み付きモデルＷの０次の近似Ｗ₀が適切に設定される。

【0138】

一実施形態では、振幅スペクトルの包絡ｙの計算に使用される方程式を使用することによって、近似ベクトルｗ₀の初期推測値が設定される。

【0139】

したがって、初期推測は、行列Ａおよび対角行列Λを用いて

となる。

【0140】

行列Ａはフィルタバンクであり、対角行列Λは、使用されたフィルタ帯域の各帯域についての正規化ファクタを含む。行列Ａの選択は、典型的に予め固定されている設計選択である。行列Ａが時間の経過と共に変化しない実施形態では、それは符号器と復号器の両方にハードウェアにより実現される。これは、符号化器および復号器の両方が同じ既知の行列Ａを使用することを意味する。他の実施形態では、符号化に使用された行列Ａは、符号化信号の一部として伝送される。一実施形態では、行列Ａに関する選択は、実際の通信が開始される前に、初期化ステップまたは構成ステップで送信される。前述したものは、対角行列Λについても当てはまる。

【0141】

最初の推測行列Ｗ₀は、スペクトル近似器２４に与えられる。これはまた、０に設定されたランニングインデックスｋを用いて実際の反復を開始する。

【0142】

スペクトル近似器２４は、知覚的重み付きモデルＷの初期推測Ｗ₀に対するデータｗ₀に基づいて、スペクトルの近似値を計算する。

【0143】

これは、初期推測行列Ｗ₀の逆行列を、計算された知覚的重み付きスペクトル

を含むベクトルに適用することによって、実行される。

【0144】

スペクトルは、ｋ＝０であるこのステップで

によって近似される。

【0145】

近似スペクトル

は、知覚的重み付きモデルＷの新たな近似Ｗ１を計算するモデル近似器２５に供給される。

【0146】

これは、対角要素ｗ_kのベクトルがスペクトル

の関数であるという知識に基づく。

【0147】

一実施形態では、行列Ｗを生成するために符号化中に使用される圧縮関数ｆ（）は、復号側で知られている。行列Ａについて前述したように、圧縮関数ｆ（）は、両側において設定されている、例えば、符号化および復号化のためにそれぞれのソフトウェアに固定されているか、または符号化信号の一部として伝送される。

【0148】

したがって、ベクトルの次の近似は、

によって計算され、次の−ここでは第１の−近似値Ｗ₁が得られる。

【0149】

この近似値Ｗ₁は、次の近似スペクトル

を計算するためにスペクトル近似器２４に戻される。これに応じて指数ｋが増加する。

【0150】

この近似は、以下の式によって与えられる対角要素を有するベクトルに基づいて知覚的重み付きモデルＷの次の近似Ｗ_k+1を得るために後で役立つ。

【0151】

これを収束するまで繰り返す。収束は、通常、現在の出力ベクトルｗ（ｋ）と前のベクトルｗ（ｋ−１）とを比較することによってチェックされる。差||w(k)-w(k-1)||が予め設定された閾値を下回る場合、反復は収束し、反復を停止することができる。

【0152】

最終的に得られる近似スペクトル

は、知覚的逆重み付け器２１の出力であり、オリジナル入力信号のスペクトルの近似値である。

【0153】

知覚モデルの再構成をもう一度説明する。

【0154】

復号器側では、知覚信号ｘの推定値（式１を参照）

は、

によって復元することができ、ここで

は知覚的に重み付けされ量子化されたスペクトルｘである。これは、逆量子化器２０によって行われる。

【0155】

従って、主な課題は、量子化された知覚信号

からオリジナル信号ｓの推定値

を復元することである。

【0156】

知覚的重み付きスペクトルｘは、入力信号のスペクトルに基づき、知覚的重み付きモデルＷを介して式ｘ＝Ｗｓにより示される。目標は、推定値がスペクトルに等しい、すなわち

ということである。したがって、

となる。

【0157】

さらに、行列Ｗの対角要素を与えるベクトルｗは、入力信号のスペクトルｓの関数である：
ｗ＝ｆ（ｓ）
したがって、ｗの推定値を用いて、

を推定することができ、それによってｗを推定することができる。これは収束まで反復することができる。

【0158】

したがって、これは、以下のように記述され得る期待値最大化型(Expectation Maximization-type)アルゴリズムである。
１．ｗ₀の初期推測値を例えば

で求め、Ｗ₀を適切に設定する。
２．収束するまでｋ＝０から繰り返す。

を計算する。

を算出し、Ｗ_k+1を適切に設定する。
（ｃ）ｋを増加させる。

【0159】

最後の値

およびＷｋは、

の最終的な推定値である。

【0160】

典型的には、収束のために２０回未満の反復が必要である。

【0161】

復号化装置２の異なる実施形態が図５及び図６に示されている。図５の復号化装置２は、逆重み付けなしで示されている。図６において、知覚的重み付きモデルＷの近似が与えられ、逆量子化スペクトル

の逆重み付けのために使用される。これは、復号化が符号化信号に基づくモデルＷの再構成を含むことを強調している。

【0162】

提案されたシステムの各部分の性能を評価するために、以下の実験を実施した。

【0163】

入力オーディオの３つのバージョンを比較した。
１）知覚モデル化を用いない量子化され再構成された信号
２）知覚モデルが復号器において既知であるように知覚モデル化を用いた、量子化され再構成された信号
３）本発明によるブラインド的に推定された知覚モデルを用いて再構成が実行された、知覚的に量子化された信号

【0164】

試験材料として、ＮＴＴ−ＡＴデータセット（非特許文献２１）からのランダムスピーチサンプルを使用した（図１０の上側行を参照のこと）。入力信号は１２．８ｋＨｚにリサンプリングされ、ＳＴＦＴは離散コサイン変換によって実装され、実数値スペクトルを得ると共に、包絡モデルがＭｅｌｓｃａｌｅ（非特許文献２０、５）に従って分布された２０帯域で使用された。

【0165】

知覚モデルの第１の近似として、ｐ＝０．５でのｆ（ｙ）＝ｙ^pのレンジ縮小関数を使用した。この知覚モデルは、単にブラインド再構成の性能を実証するための方法として選択され、調整された最終生成物として考慮されるべきではない。包絡モデルの性能および知覚モデルは、図４に既に示されている。

【0166】

第１に、提案された量子化に関する知覚ＳＮＲの、知覚モデルのブラインド再構成がない場合（ＳＮＲ_O）と、ある場合（ＳＮＲ_B）とは、それぞれ以下の式によって推定される。

【0167】

図１０は、異なる方法（Ｋ＝３０００）で量子化されたスピーチファイルの知覚ＳＮＲを示す。

【0168】

知覚モデルが既知である場合（オラクル手法）、ＳＮＲは８．４ｄＢに近いことは明らかである。知覚モデルのブラインド再構成は、特に有声音素についての品質を明らかに減少させる（ブラインド）。しかし、知覚モデルなしのシステムのＳＮＲ（知覚モデルなし）は、ブラインドを用いた復元より２倍以上劣悪である。

【0169】

知覚モデル化なしの代わりにブラインド再構成を用いる場合の利点をさらに定量化するために、異なるビットレートＫを有する平均ＳＮＲを測定した（図１１を参照）。

【0170】

ブラインド復元の手法および知覚モデルなしの手法は、オラクル手法よりも平均１．１ｄＢおよび５．８ｄＢ悪い。明らかにＳＮＲはビットレートで改善されるが、知覚モデルなしの場合は知覚モデルを用いる場合よりも遅く改善される。さらに、ＳＮＲが増加するにつれて、ブラインド復元は、漸近的にオラクル手法の品質に近づく。

【0171】

最後に、主観的品質を評価するために、ＮＮＴ−ＡＴデータセットから、８人のリスナーおよび６人の無作為に選択された項目を用いて、ＭＵＳＲＡリスニング試験を実施した。信号は、３ｋビット／フレームで量子化された。これは、ソースモデル化が実験に使用されなかったとすれば比較的低い数であり、その結果、出力ＳＮＲも比較的低い。このシナリオは、問題となる状態を実証するために選択されたものであり、ソースモデルを適用する場合と同様に、より高いビットレートで性能が有意に改善することが期待される。

【0172】

図１２の差分ＭＵＳＲＡスコアから、すべての項目に対して、知覚モデル化は、オラクルおよびブラインド推定の両方で平均してそれぞれ２９．９ポイントおよび２２．３ポイントで品質を改善することがわかる。差分の統計的有意性は、ｐ＞９９％で学生のｔテストにより確認された。

【0173】

提案された１ビット量子化および符号化スキームは、１つの実施形態で組み合わされるか、または別個の実施形態で組み合わされて、いくつかの興味深い結果および特性を有する。

【0174】

まず、量子化特性を解析するために、Ｐの各列はベクトルｘのＮ次元空間の１次元サブ空間への投影であることに留意されたい。

【0175】

１つの投影の符号を符号化することによって、Ｎ次元空間は２つの部分に分割される。Ｐｘの符号を反復して符号化することによって、Ｎ次元空間は、より小さい量子化セルに分割される。Ｐはランダム行列であるので、その列は互いにほぼ直交しており、それによって量子化セルはほぼ最適なままである。

【0176】

単一ノードシステムでは、より効率的な量子化の手法を設計することができる。しかしながら、分散システムではより複雑になる。複数のノードが同じ情報を符号化するのを防止するために、単純な方法が必要であり、すなわち、アルゴリズムの低い複雑性を保持しながら、過剰符号化を回避しなければならない。本発明の量子化は非常に単純であり、ほぼ最適な性能を提供する。

【0177】

第２に、ソース符号化方法は使用されなかった。

【0178】

しかしながら、そのようなモデル化は、符号化効率を大幅に改善するために使用できることはよく知られている。ソースモデル化は、スピーチおよびオーディオ信号の確率分布をモデル化することによって、復号器側で適用することができる（例えば、非特許文献２２）。量子化された信号は「真」信号の雑音観測として扱うことができるので、ソースモデル化は可能であり、それによって、ソースの事前分布を適用することによって、最尤最適化（または類似）を適用して「真」の信号を近似することができる。この最適化はネットワークまたは復号器において適用されるので、計算負荷はセンサノードから遠ざけられ、センサノードは低パワーのままであることができる。

【0179】

第３に、プライバシーの観点から、ランダムな投影法は非常に効率的な暗号化となるように設計することができる。

【0180】

盗聴者がランダム行列のシードを知らない場合には、データは完全にランダムであり、無意味であると思われる。ランダムシードが安全な方法で通信されると仮定すると、符号器および意図された受信器のみがメッセージを解読することができる。この手法は、ノード間の通信が意図的に使用される、（非特許文献１２、１３）によって与えられるような手法とは対照的である。ノード間のこのようなコラボレーションは、知覚的ＳＮＲを改善するために使用され得るが、プライバシーは、保証するのがより困難である。センサノードが安全なネットワーク上で動作していると仮定する場合であっても、すべての通信へのアクセスを獲得するためには、ただ１つの危険にさらされたノードを使用し得る。これに対して、提案された手法では、盗聴者が１つのセンサノードにアクセスする場合、ノードは異なるシードを使用することができ、また使用すべきであるので、そのノードのデータを危険にさらすだけである。しかしながら、センサノードの送信パワーを制限するために、ノードがパケットを中継することが許容され得る。なぜなら、パケットは、意図された受信者だけによって読み取り可能なままであり、したがってプライバシーが損なわれないからである。

【0181】

本発明の方法は、一実施形態では、１ビット量子化の概念に基づいており、そこでは符号器側で知覚的重み付き入力信号がランダム部分空間に投影され、次に各次元の符号が送信される。復号器は、知覚的重み付けされ量子化された信号を得るために、擬似逆または類似の量子化を用いて量子化を反転することができる。

【0182】

その場合、提案された方法の主要な部分は、知覚的に重み付けされた信号のみにアクセスするとき、オリジナル信号の推定値を再構成することである。この手法は推定最大化（ＥＭ）アルゴリズムに基づいており、ここで、知覚モデルとオリジナル信号との推定間で反復して交互に行われる。

【0183】

したがって、提案された分散型のスピーチ及びオーディオの符号化アルゴリズムは、物のインターネットのためのアプリケーションにとって実行可能な手法である。それは、任意の数のセンサノードおよび電力消費レベルに対してスケーラブルな性能を提供する。さらに、ランダムシードの暗号化通信によって通信チャネルのプライバシーを保証することができるので、アルゴリズムは設計によって安全である。

【0184】

本発明は、少なくとも以下の特徴、態様、ならびに明らかな応用および拡張を含む。したがって、リストは異なる実施形態について言及し、記述する特徴の異なる組み合わせを可能にする。

【0185】

１．限定された送信及び計算容量及び他のリソースを有する、スケーラブルで、柔軟で、低電力で、低コストのプロセッサ上で実施することができる一つ又は複数の符号器を備えた分散型スピーチ及びオーディオ符号化システムを提供する。
１．１．分散型符号器は、各符号器ノードからの情報が例えば以下のようにして、ノードの集合からの情報量が最大化されるよう独立的に量子化されるように、情報を符号化するよう構成することができる。
１．１．１．各符号器ノードに、他のノードに対して直交またはほぼ直交する情報を符号化させる。
１．１．２．他のノードに対して直交またはほぼ直交していてもいなくてもよい、ランダム化された量子化アルゴリズムを使用する。
１．１．３．エントロピー符号化方法を使用して量子化情報を圧縮する。
１．２．分散型符号器は、人間の聴覚システムの知覚精度を近似する知覚領域内の情報を符号化するように構成することができる。
１．２．１．ここで、知覚ドメインへの変換は可逆的であるように設計することができ、その結果、符号器ノードは知覚モデルの明示的な伝送なしに知覚モデルを（ブラインド的に）復元することができる。
１．２．２．ここで、知覚モデルのいくつかまたは全てのパラメータは、サイド情報として、いくつかまたはすべての符号器ノードから明示的に送信することができる。
１．２．３．ここで、知覚モデルは、線形予測モデル、フィルタバンク、行列変換、またはスケールファクタ帯域（区分的に一定または補間されている）などの包絡モデルを使用して記述することができ、行列演算またはフィルタリング演算として実装することができる。
１．２．４．ここで、知覚モデルは一定部分および適応的部分を有することができ、一定の部分は常に同じであり、適応的部分は、入力信号および／またはシステムの構成および／または利用可能なリソース（ハードウェア、計算、伝送、バッテリー容量など）の量に依存する。
１．３．分散型符号器は、例えば、ＣＥＬＰ型コーデックにおける合成による分析ループのように、知覚領域において量子化誤差が最小化されるように情報を符号化するよう構成することができる。
１．４．分散型符号器は、例えば以下のようにして、盗聴を防止するために暗号化を使用して情報を符号化するよう構成することができる。
１．４．１．アルゴリズムであるかまたはテーブルルックアップに基づく方法を使用して送信前に最終または中間の信号記述を暗号化する。
１．４．２．ランダム変換又は投影のようなランダム化を有する量子化を使用する。ここで、ランダム化は、既知のシード値(開始点)を有するアルゴリズム又はテーブルルックアップによって達成される。
１．５．例えば、構成が柔軟でオンラインで変更可能な分散型符号器。
１．５．１．オーディオソース(例えば人間の話者)やセンサノードの位置及び動き、並びにリソースの利用可能性に基づいて、センサノードは、どのノードがアクティブであるか又は非アクティブであるかを独立して又は結合的に決定することができる。
１．５．２．オーディオソース(例えば人間の話者)やセンサノードの位置及び動き、並びにリソースの利用可能性に基づいて、センサノードは、例えば、話者の近くにマイクロホンを有するセンサノードがより遠く離れたセンサノードよりもリソースを多く使用するように、リソース割り当てを独立して又は結合的に調整することができる。
１．６．提案されたシステムの特別なケースは、単一の符号器のみが存在する場合であり、それによってシステムは、スピーチコーデックおよびオーディオコーデックの古典的なアーキテクチャに従うように縮小される。しかしながら、重要なことは、本発明の知覚モデルの態様のランダム量子化及びブラインド復元は、例えば、符号化効率のため、低複雑度符号器を得るため、及び通信の暗号化のために、古典的符号器及び復号器設計においても使用することができることである。

【0186】

２．符号化器からの入力が、一つ若しくは（ネットワーク内処理方法を使用している）複数のネットワークノードで、又は一つ若しくは複数の復号器/受信器ノードで併合される分散型スピーチおよびオーディオの符号化システム
２．１．復号器または処理ユニットは、例えば以下のようにして、量子化を反転させるよう構成することができる。
２．１．１正確な逆変換、擬似逆変換、またはランダム行列の転置のような近似逆変換。
２．１．２．圧縮センシングのような最適化方法により入力信号を推定する。
２．１．３．ノードｋ∈［１，２，…，ｎ］からのビットストリームｕ_kは、

のようなジョイント反転によって併合することができ、またはビットストリームは最初に

だけ反転させることができ、その後に併合することができる。後者の利点は、知覚的、ソース、空間およびセンサ−モデルなどのモデル化を、各ノードに対して個別にまたは集合的適用することができるということである。
２．２．復号器又は処理ユニットは、送信されたサイド情報を使用することによって、及び/又は、例えば以下のような方法で、再構成された（知覚的）信号からブラインド的に推定することによって、知覚モデルを反転させるよう構成することができる。
２．２．１．知覚モデルが量子化信号から直接得られる、直接的な方法。
２．２．２．知覚モデルの推定値が反復毎に改善される、反復法。
２．３．復号化器または処理ユニットは、復号化された信号の品質を改善するために、ソースおよびセンサ−ノードモデルを使用するよう構成することができる。
２．３．１．ソース信号およびセンサノードの統計的特性をモデル化することによって、信号および／またはソースの事前分布が与えられると、観測の尤度（量子化された信号）を最適化することができる。
２．３．１．１．モデル化されたソースの特徴は、一つまたはいくつかのスペクトル包絡モデル（線形予測モデル、分布量子化、スケールファクタなど）、ハーモニックモデル（コムフィルタ、長期間予測子など）、時間包絡（線形予測モデル、分布量子化、スケールファクタなど）、空間包絡および空間移動モデルを含むことができる。
２．３．１．２．特徴は、コードブックまたはベクトル量子化などのテーブルルックアップ、または物理的（スピーチ生成など）、知覚的（マスキングモデル、クリティカルバンドなど）または統計的モデル（単又は多変量確率分布）のようなパラメトリックモデルを用いてモデル化することができる。
２．３．１．３．特徴は、ソースの音響的及び空間的特徴を記述することができるが、信号品質（例えば、高いＳＮＲ又は低いＳＮＲ）及び空間的特徴（例えば、静止、移動、着用可能等）のようなセンサノードの特徴も記述することができる。
２．３．２．出力信号の知覚的に不快な歪みを決定することによって、出力信号を、例えば後フィルタリング法によって修正することができる。
２．４．復号器または処理ユニットは、信号の品質を向上させるために、ノイズ減衰、ビーム形成およびソース分離の方法などの信号増強方法を使用するよう構成することができる。
２．４．１．空間的に分離された音源および部屋の音響に関する他の情報を抽出するべくセンサの空間的構成を利用するために、ビーム形成などのマルチマイクロホン方法を使用することができる。重要なことに、マルチマイクロホン方法は、典型的には、遅延推定及び／又は相互相関推定を含むことができる。
２．４．２．ノイズ減衰方法は、背景雑音などの望ましくないソースを抑制するために使用することができる。
２．４．３．ソース分離方法は、いくつかの音源を区別するために使用することができる。

【0187】

３．システム内の装置／ノードの選択によって信号情報の情報を送信、中継、処理することができる分散型スピーチおよびオーディオの符号化システム
３．１．センサノード(センサ付きデバイス)は、生の信号を受信し、信号を符号化（量子化および符号化）するように構成されるか、生のフォーマットで送信するよう構成することができる。
３．２．信号にアクセスすることができる任意のノード（典型的にはセンサノード）は信号を符号化して送信することができる。
３．３．任意のノードは、他のノードから情報を中継するよう構成することができる。
３．４．符号化信号（及び任意の暗号復号化情報）にアクセスする任意のノード（典型的には受信ノード）は、信号を復号化するよう構成することができる。
３．５．復号器側のサーバ装置などの中間ノードは、利用可能なストリームからの情報を一つまたは複数のストリームに併合するよう構成することができる。結合されたストリームは、例えば、オリジナルの音響表現（例えば、音楽演奏）又は個々の音源（例えば、テレビ会議における個々の話者）を表すことができる。結合されたストリームは、ラウドスピーカによってさらに再生され、記憶され、そのまま送信されるか、又は、同じまたはいくつかの他のスピーチ及びオーディオ符号化ツールによって符号化されることができる。
３．６．ネットワーク構成は、静的または動的であるように構成することができ、例えば、音質、リソース割り当て、セキュリティ／プライバシーの基準の一つまたは複数を最適化するように構成され得る。

【0188】

４．想定されるアプリケーションとしては、少なくとも以下の実施形態を含む。
４．１選択されたサポート装置が所望のスピーチおよびオーディオ信号をピックアップするために使用される電話アプリケーション
４．１．１．所望のスピーチおよびオーディオ信号をピックアップし、そのピックアップされたスピーチおよびオーディオ信号を一つまたは複数の遠隔位置へ送信するために、サポート装置の選択が使用される、家庭内およびオフィス内のアプリケーション
４．１．２．所望のスピーチおよびオーディオ信号をピックアップし、そのピックアップされたスピーチおよびオーディオ信号を一つまたは複数の遠隔位置へ送信するために、サポート装置の選択が使用される、遠隔会議アプリケーション
４．１．３．所望のスピーチおよびオーディオ信号をピックアップし、そのピックアップされたスピーチおよびオーディオ信号を一つまたは複数の遠隔位置へ送信するために、自動車内の固定されたマイクロホン及び／又は自動車内のサポート装置が使用される、自動車電話システム
４．２．プレーヤのサウンドシーンが他のプレーヤまたはサーバに送信される、ゲームおよび仮想／拡張現実アプリケーション
４．３．出演者、プレーヤ、視聴者のサウンドまたは全体的なサウンドシーンが、分散型のスピーチおよびオーディオの符号化システムで記録または伝送される、コンサート、演奏、ステージ、オペラ、プレゼンテーション、スポーツ、およびその他のイベント制作アプリケーション
４．３．１．このアプリケーションは、相互作用および／または同時再生および増幅を可能にするために、低遅延または超低遅延であるように設計され得る。
４．３．２．このアプリケーションは、出演者の間、観衆の中、またはすべての参加者の間で、相互作用を可能にするように設計することができる。
４．４．サウンドシーンが監視され、危険なイベント（例えばスタジアムにおけるパニック）、家庭における事故（例えば、高齢者の転倒）などを検出する、安全及び保護のアプリケーション。
４．５．スピーチおよびオーディオ信号がビデオおよび／または他の媒体と組み合わされるマルチメディアアプリケーション。

【0189】

いくつかの態様が装置に関して説明されてきたが、これらの態様は、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明を表すことは明らかである。同様に、方法ステップの文脈において説明される態様は、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部または全部は、例えばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって実行される(または使用される)ことが可能である。いくつかの実施形態において、最も重要な方法ステップのうちのいくつかの一つまたは複数は、そのような装置によって実行されてもよい。

【0190】

本発明の、伝送されまたは符号化信号は、デジタル記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体のような伝送媒体上で伝送することができる。

【0191】

特定の実施要件に応じて、本発明の実施形態は、ハードウェアで実施されてもよいし、ソフトウェアで実施されてもよい。この実施は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号を記憶するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROMおよびEPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。

【0192】

本発明によるいくつかの実施形態は、本明細書に記載される方法のうちの一つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

【0193】

一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で実行されるときに、その方法の一つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実装することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納されてもよい。

【0194】

他の実施形態は、機械可読キャリアに格納された、本明細書に記載された方法のうちの一つを実行するためのコンピュータプログラムを含む。

【0195】

換言すると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法の一つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0196】

したがって、本発明の方法のさらなる実施形態は、本明細書に記載される方法のうちの一つを実行するためのコンピュータプログラムを記録したデータキャリア(または、デジタル記憶媒体などの非一時的記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、典型的には、有形および／または非一時的である。

【0197】

したがって、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは信号シーケンスは、例えば、インターネットを介して、データ通信接続を介して転送されるように構成されてもよい。

【0198】

さらなる実施形態は、本明細書に記載される方法の一つを実行するように構成されるか、または適合されるように構成される、処理手段、例えば、コンピュータまたはプログラム可能な論理デバイスを含む。

【0199】

さらなる実施形態は、本明細書に記載される方法の一つを実行するためのコンピュータプログラムをその上にインストールされたコンピュータを含む。

【0200】

本発明によるさらなる実施形態は、本明細書に記載される方法の一つを実行するためのコンピュータプログラムを受信機に転送する（例えば、電子的にまたは光学的に）ように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイル機器、メモリ機器などであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

【0201】

いくつかの実施形態において、プログラム可能な論理デバイス（例えば、フィールドプログラマブルゲートアレイ）は、本明細書に記載される方法の機能のいくつかまたは全ての機能を実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明される方法のうちの一つを実行するためにマイクロプロセッサと協働することができる。一般に、本方法は、任意のハードウェア装置によって実行されることが好ましい。

【0202】

上述した実施形態は、本発明の原理を説明するためのものである。本明細書中に記載される配置および詳細の変更および変形は、当業者には明らかであることが理解される。従って、本明細書の実施形態の説明および説明によって提示される特定の詳細によるものではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。
［備考］
［請求項１］
入力信号（３）を処理するための符号化装置（１）であって、
知覚的重み付け器（１０）と量子化器（１４）とを含み、
前記知覚的重み付け器（１０）はモデルプロバイダ（１２）とモデルアプリケータ（１３）とを含み、
前記モデルプロバイダ（１２）は、前記入力信号（３）に基づく知覚的重み付きモデル（Ｗ）を提供するように構成され、
前記モデルアプリケータ（１３）は、前記入力信号（３）に基づくスペクトル（ｓ）に対し前記知覚的重み付きモデル（Ｗ）を適用することによって知覚的重み付きスペクトル（ｘ）を提供するように構成され、
前記量子化器（１４）は、前記知覚的重み付きスペクトル（ｘ）を量子化し、ビットストリームを提供するように構成され、
前記量子化器（１４）は、ランダム行列アプリケータ（１６）と符号関数計算器（１７）とを備え、
前記ランダム行列アプリケータ（１６）は、前記知覚的重み付きスペクトル（ｘ）にランダム行列（Ｐ）を適用して、変換スペクトル（ｕ）を提供するように構成され、
前記符号関数計算器（１７）は、前記変換スペクトル（ｕ）の成分の符号関数を計算して、前記ビットストリームを提供するよう構成されている、符号化装置（１）。
［請求項２］
請求項１に記載の符号化装置（１）であって、
前記モデルプロバイダ（１２）は、前記入力信号（３）に基づく前記スペクトル（ｓ）の圧縮に基づいて、前記知覚的重み付きモデル（Ｗ）を提供するように構成される、請求項１に記載の符号化装置（１）。
［請求項３］
請求項１または２に記載の符号化装置（１）であって、
前記知覚的重み付け器（１０）は包絡計算器（１１）を含み、
前記包絡計算器（１１）は、前記入力信号（３）に基づく振幅スペクトル（｜ｘ｜）の包絡（ｙ）を提供するように構成され、
前記モデルプロバイダ（１２）は、前記包絡（ｙ）の圧縮に基づいて前記知覚的重み付きモデル（Ｗ）を提供するように構成される、符号化装置（１）。
［請求項４］
請求項１〜３のいずれか一項に記載の符号化装置（１）であって、
前記モデルプロバイダ（１２）は、前記入力信号（３）に基づく前記スペクトル（ｓ）の圧縮、または前記入力信号（３）に基づく振幅スペクトル（｜ｘ｜）の包絡（ｙ）の圧縮を記述する圧縮関数（ｆ（））を計算するように構成され、
前記モデルプロバイダ（１２）は、前記圧縮関数（ｆ（））に基づいて前記知覚的重み付きモデル（Ｗ）を計算するように構成される、符号化装置（１）。
［請求項５］
請求項４に記載の符号化装置（１）であって、
前記圧縮関数（ｆ（））が単調増加しており、
任意の正のスカラー値（ｔ）および任意の小さな値（ｅｐｓ）について、前記正のスカラー値（ｔ）に対する関数値（ｆ（ｔ））が、前記正のスカラー値（ｔ）と前記任意の小さな値（ｅｐｓ）との合計（ｔ＋ｅｐｓ）に対する関数値（ｆ（ｔ＋ｅｐｓ））よりも小さく、かつ
第１の正スカラー値（ｔ１）と前記第１の正スカラー値（ｔ１）よりも大きな第２の正スカラー値（ｔ２）について、前記第２の正スカラー値（ｔ２）に対する関数値（ｆ（ｔ２））と前記第１の正スカラー値（ｔ１）に対する関数値（ｆ（ｔ１））との差は、前記第２の正スカラー値（ｔ２）と前記第１の正スカラー値（ｔ１）との差よりも小さい、符号化装置（１）。
［請求項６］
符号化信号（４）を処理するための復号化装置（２）であって、
逆量子化器（２０）と知覚的逆重み付け器（２１）とを含み、
前記逆量子化器（２０）は、前記符号化信号（４）に含まれるビットストリームを逆量子化し、計算された知覚的重み付きスペクトルを提供するように構成され、
前記逆量子化器（２０）は、前記ビットストリームに対しランダム行列（Ｐ）の擬似逆を適用することによって前記ビットストリームを逆量子化するように構成され、
前記知覚的逆重み付け器（２１）はスペクトル近似器（２４）とモデル近似器（２５）とを含み、
前記スペクトル近似器（２４）が、計算された前記知覚的重み付きスペクトルに基づいてスペクトルの近似値を計算するように構成され、
前記モデル近似器（２５）は、前記スペクトルの近似値に基づいて、前記符号化信号（４）が関連付けられる知覚的重み付きモデル（Ｗ）の近似（Ｗ_k）を計算するように構成されている、復号化装置（２）。
［請求項７］
請求項６に記載の復号化装置（２）であって、
前記知覚的逆重み付け器（２１）は初期推測プロバイダ（２３）を含み、
前記初期推測プロバイダ（２３）は、知覚的重み付きモデル（Ｗ）の初期推測に関するデータ（ｗ₀）を提供するように構成され、
前記スペクトル近似器（２４）は、前記符号化信号（４）と前記知覚的重み付きモデル（Ｗ）の初期推測（Ｗ₀）またはその近似（Ｗ_k）とに基づいて、前記スペクトルの近似値を計算するように構成されている、復号化装置（２）。
［請求項８］
請求項６または７に記載の復号化装置（２）であって、
前記逆量子化器（２０）は、前記符号化信号（３）に含まれる前記ランダム行列（Ｐ）に関するサイド情報に基づいて、前記ビットストリームを逆量子化するように構成される、復号化装置（２）。
［請求項９］
請求項６〜８のいずれか一項に記載の復号化装置（２）であって、
前記逆量子化器（２０）は、複数のビットストリームを受信し、前記複数のビットストリームに基づいて、計算された知覚的重み付きスペクトルを提供するように構成されている、復号化装置（２）。
［請求項１０］
請求項６〜９のいずれか一項に記載の復号化装置（２）であって、
前記復号化装置（２）はソースモデル化を適用するように構成されている、復号化装置（２）。
［請求項１１］
入力信号（３）を処理するための方法であって、
前記入力信号（３）に基づく知覚的重み付きモデル（Ｗ）を提供するステップと、
前記入力信号（３）のスペクトル（ｓ）に前記知覚的重み付きモデル（Ｗ）を適用することによって、前記入力信号（３）のスペクトル（ｓ）を重み付けするステップと、
重み付きスペクトル（ｘ）のランダムな投影の符号関数を計算することによって、前記重み付きスペクトル（ｘ）を量子化するステップと、
を含む方法。
［請求項１２］
請求項１１に記載の方法であって、
前記重み付きスペクトル（ｘ）にランダム行列（Ｐ）を適用することによって、前記重み付きスペクトル（ｘ）のランダムな投影を取得するステップをさらに含む、方法
［請求項１３］
請求項１１または１２に記載の方法であって、
前記知覚的重み付きモデル（Ｗ）を提供するステップは、前記入力信号（３）の振幅スペクトル（｜ｘ｜）の包絡を圧縮することを含む、方法。
［請求項１４］
請求項１３に記載の方法であって、
フィルタバンク（Ａ）と各帯域についての正規化ファクタを含む対角行列（Λ）とを使用して、前記包絡を得るステップをさらに含む、方法。
［請求項１５］
符号化信号（４）を処理するための方法であって、
符号化信号（４）に対しランダム行列（Ｐ）の擬似逆を適用することによって、量子化された知覚信号を提供するステップと、
前記量子化された知覚信号に基づいてスペクトルの推定値を計算するステップと、
前記スペクトルの近似値に基づいて、前記符号化信号（４）を提供するために用いられた知覚的重み付きモデル（Ｗ）の近似（Ｗ_k）を計算するステップと、
を含む方法。
［請求項１６］
請求項１５に記載の方法であって、
初期推測（ｗ₀）を用いて前記知覚的重み付きモデル（Ｗ）の０次の近似（Ｗ₀）を提供するステップと、
前記知覚的重み付きモデル（Ｗ）の前記０次の近似（Ｗ₀）に基づいて、前記スペクトルの０次の推定値を計算するステップと、
をさらに含む方法。
［請求項１７］
請求項１６に記載の方法であって、
フィルタバンク（Ａ）と各帯域についての正規化ファクタを含む対角行列（Λ）とを用いて、前記初期推測（ｗ₀）を取得するステップ、
をさらに含む方法。
［請求項１８］
コンピュータまたはプロセッサ上で実行されたとき、請求項１１〜１７のいずれか一項に記載の方法を実行するためのコンピュータプログラム。

【図1】