特開2017-227701(P2017-227701A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特開2017-227701音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体
<>
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000012
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000013
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000014
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000015
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000016
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000017
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000018
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000019
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000020
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000021
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000022
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000023
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000024
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000025
  • 特開2017227701-音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 図000026
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-227701(P2017-227701A)
(43)【公開日】2017年12月28日
(54)【発明の名称】音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体
(51)【国際特許分類】
   G10L 19/02 20130101AFI20171201BHJP
【FI】
   G10L19/02 150
【審査請求】未請求
【請求項の数】11
【出願形態】OL
【全頁数】22
(21)【出願番号】特願2016-122446(P2016-122446)
(22)【出願日】2016年6月21日
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】大室 仲
(72)【発明者】
【氏名】栗原 祥子
(57)【要約】
【課題】広帯域音声の品質を向上する。
【解決手段】帯域分割フィルタ12は、入力音声を低域音声と高域音声とに帯域分割する。高域音声符号化部14は、復号低域音声に基づいて高域音声を符号化して高域符号を生成する。低域音声符号化部13は、低域音声を符号化して高域符号を埋め込んだ低域符号を生成する。低域音声復号部16は、低域符号を復号して復号低域音声を生成する。符号送出部17は、低域符号を音声符号として出力する。
【選択図】図3
【特許請求の範囲】
【請求項1】
入力音声を低域音声と高域音声とに帯域分割する帯域分割部と、
復号低域音声に基づいて上記高域音声を符号化して高域符号を生成する高域音声符号化部と、
上記低域音声を符号化して上記高域符号を埋め込んだ低域符号を生成する低域音声符号化部と、
上記低域符号を復号して上記復号低域音声を生成する低域音声復号部と、
上記低域符号を音声符号として出力する符号送出部と、
を含む音声符号化装置。
【請求項2】
請求項1に記載の音声符号化装置であって、
上記高域音声符号化部は、
上記復号低域音声をLH帯域音声とLL帯域音声とに帯域分割する低域帯域分割部と、
上記高域音声をHL帯域音声とHH帯域音声とに帯域分割する高域帯域分割部と、
上記LH帯域音声のパワーと上記HL帯域音声のパワーとの比に基づく相対ゲインを求める相対ゲイン計算部と、
上記LH帯域音声の線形予測係数を用いて上記HL帯域音声の線形予測係数を符号化して係数符号を求める係数符号化部と、
上記LH帯域音声の線形予測係数と上記係数符号を用いて上記相対ゲインを符号化してゲイン符号を求めるゲイン符号化部と、
上記ゲイン符号と上記係数符号とを多重化して上記高域符号を出力する多重化部と、
を含むものである、
音声符号化装置。
【請求項3】
請求項1または2に記載の音声符号化装置が出力する音声符号を受信する符号受信部と、
上記音声符号を復号して復号低域音声を生成する低域音声復号部と、
上記音声符号に埋め込まれた高域符号を抽出する高域符号抽出部と、
上記復号低域音声に基づいて上記高域符号を復号して復号高域音声を生成する高域音声復号部と、
上記復号低域音声と上記復号高域音声とを合成して復号音声を出力する帯域合成部と、
を含む音声復号装置。
【請求項4】
請求項3に記載の音声復号装置であって、
上記符号受信部は、請求項2に記載の音声符号化装置が出力する音声符号を受信するものであり、
上記高域音声復号部は、
上記復号低域音声をLH帯域音声とLL帯域音声とに帯域分割する帯域分割部と、
上記音声符号をゲイン符号と係数符号とに分離する符号分離部と、
上記LH帯域音声の線形予測係数を用いて上記係数符号を復号してHL帯域復号線形予測係数を求める係数復号部と、
上記LH帯域音声の線形予測係数と上記係数符号とを用いて上記ゲイン符号を復号して復号相対ゲインを求める相対ゲイン復号部と、
上記LH帯域線形予測係数と上記係数符号とを用いてHH帯域線形予測係数を予測して求める係数予測部と、
上記ゲイン符号と上記係数符号とを用いて予測相対ゲインを予測して求める相対ゲイン予測部と、
上記LH帯域音声の線形予測係数をフィルタ係数として上記LH帯域音声から求めたLH帯域線形予測残差を複製してHL帯域駆動音源を求める複製部と、
上記HH帯域線形予測係数をフィルタ係数としてガウス乱数から求めたHH帯域音声のパワーと上記LH帯域音声のパワーとの比に基づいて上記予測相対ゲインから算出したゲインを上記HH帯域音声に乗算して復号HH帯域音声を生成するHH帯域乗算部と、
上記HL帯域復号線形予測係数をフィルタ係数として上記HL帯域駆動音源から求めたHL帯域合成音声のパワーと上記LH帯域音声のパワーとの比に基づいて上記復号相対ゲインから算出したゲインを上記HL帯域合成音声に乗算して復号HL帯域音声を生成するHL帯域乗算部と、
上記復号HH帯域音声と上記復号HL帯域音声とを合成して上記復号高域音声を出力する帯域合成部と、
を含むものである、
音声復号装置。
【請求項5】
請求項4に記載の音声復号装置であって、
上記高域音声復号部は、上記LH帯域線形予測残差の周波数軸を反転した反転信号を生成する周波数軸反転部をさらに含み、
上記複製部は、上記反転信号を複製して上記HL帯域駆動音源を求めるものである、
音声復号装置。
【請求項6】
請求項4に記載の音声復号装置であって、
上記高域音声復号部は、上記LH帯域音声の線形予測係数と上記HL帯域復号線形予測係数とに基づいてフレーム毎に上記LH帯域線形予測残差の周波数軸を反転するか否かを選択しながら上記LH帯域線形予測残差から動的反転信号を生成する周波数軸動的反転部をさらに含み、
上記複製部は、上記動的反転信号を複製して上記HL帯域駆動音源を求めるものである、
音声復号装置。
【請求項7】
請求項5に記載の音声復号装置であって、
上記周波数軸動的反転部は、上記LH帯域音声の線形予測係数と上記HL帯域復号線形予測係数との距離dと、上記LH帯域音声の線形予測係数と上記HL帯域復号線形予測係数とのいずれか一方の周波数軸を反転したときの距離drとを求め、上記距離drが上記距離dよりも小さい場合には上記LH帯域線形予測残差の周波数軸を反転し、その他の場合には上記LH帯域線形予測残差の周波数軸を反転せずに、上記LH帯域線形予測残差から動的反転信号を生成するものである、
音声復号装置。
【請求項8】
帯域分割部が、入力音声を低域音声と高域音声とに帯域分割し、
高域音声符号化部が、復号低域音声に基づいて上記高域音声を符号化して高域符号を生成し、
低域音声符号化部が、上記低域音声を符号化して上記高域符号を埋め込んだ低域符号を生成し、
低域音声復号部が、上記低域符号を復号して上記復号低域音声を生成し、
符号送出部が、上記低域符号を音声符号として出力する、
音声符号化方法。
【請求項9】
符号受信部が、請求項8に記載の音声符号化方法が出力する音声符号を受信し、
低域音声復号部が、上記音声符号を復号して復号低域音声を生成し、
高域符号抽出部が、上記音声符号に埋め込まれた高域符号を抽出し、
高域音声復号部が、上記復号低域音声に基づいて上記高域符号を復号して復号高域音声を生成し、
帯域合成部が、上記復号低域音声と上記復号高域音声とを合成して復号音声を出力する、
音声復号方法。
【請求項10】
請求項1または2に記載の音声符号化装置もしくは請求項3から7のいずれかに記載の音声復号装置としてコンピュータを機能させるためのプログラム。
【請求項11】
請求項1または2に記載の音声符号化装置もしくは請求項3から7のいずれかに記載の音声復号装置としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、デジタル通信ネットワークを利用した音声・音響信号(以下、単に音声とも呼ぶ)通信に関し、特に、入力音声を符号化する音声符号化技術および受信した音声符号から音声を生成する音声復号技術に関する。
【背景技術】
【0002】
アナログ電話を代表とする従来からの電話システムで伝送できる音声の周波数帯域は、およそ300Hzから3.4kHzである。これは用件を伝えるのに必要な音声品質と、伝送に必要な情報量とのバランスを考慮して、国際電気通信連合(ITU-T: International Telecommunication Union Telecommunication Standardization Sector)によって決められ、広く世界で採用されていることによる。一般に、周波数帯域の上限が4kHz以下の音声を狭帯域信号(または狭帯域音声、電話音声とも呼ぶ)、4kHzを超えて7kHz程度の音声を広帯域信号(または広帯域音声)と呼ぶ。音声をデジタル信号のパルス符号変調(PCM: Pulse Code Modulation)方式で表現する場合、サンプリング定理により、狭帯域信号は8kHzでサンプリングし、広帯域信号は16kHzでサンプリングすることが望ましい。これらのことから、8kHzでサンプリングされた信号を狭帯域信号と呼び、16kHzでサンプリングされた信号を広帯域信号と呼ぶこともある。
【0003】
最近の音響技術の発展及びデジタル信号処理技術の進歩により、日常生活で使われる機器の音声の品質が向上している。このような状況において、電話の音声にも広帯域化を求める声がある。
【0004】
デジタル通信ネットワークを利用して音声信号を効率的に伝送するために、音声符号化の手法が用いられる。狭帯域信号用の音声符号化(狭帯域音声符号化とも呼ぶ)には、ITU-T G.711やITU-T G.726などの国際標準方式がある。また、広帯域信号用の音声符号化(広帯域音声符号化とも呼ぶ)には、ITU-T G.711.1やITU-T G.722などの国際標準方式がある。音声通信を行う端末(以下、端末)は、いずれか一つ以上の音声符号化方式に対応した符号化装置と複号装置とを備える。端末が複数の音声符号化方式に対応しているときは、通信の開始時にその通信に用いる符号化方式を切り替える。従来、符号化方式の切り替えには、SIPやH.323と呼ばれる呼制御プロトコル(シグナリングとも呼ばれる)が用いられ、通信を行う端末同士が共通で対応する符号化方式を、あらかじめ決められた優先順位に基づいて選択していた。例えば、双方の端末がG.711.1とG.711に対応していれば広帯域音声符号化であるG.711.1で通信を行い、一方がG.711.1とG.711、他方がG.722とG.711に対応している場合は、両端末は広帯域音声に対応しているが、音声符号化はG.711が用いられ、狭帯域音声で通信を行う。
【0005】
通信の開始時に呼制御プロトコルを用いて符号化方式を切り替えるのは、符号化方式間に互換性がないためであるが、呼制御プロトコルによる符号化方式の切り替えは、端末間の音声通信の確立を複雑化し、接続トラブルが発生する原因になっている。また、通信ネットワークとしてインターネットを利用するIP電話などでは、比較的自由に呼制御プロトコルによる符号化方式の切り換えができるが、従来から利用されている企業内通信網や通信事業者間相互接続網を経由する音声通信では、通信経路上にG.711しか通さない設備があると、端末が複数の符号化方式に対応していてもG.711しか利用できない問題がある。
【0006】
この問題に対して、特許文献1には、G.711と完全な互換性を有する広帯域音声符号化が実現可能であることが記載されている。G.711と完全な互換性を有する広帯域音声符号化方式であれば、符号化方式の切り替え手続きは極めて簡略化され、通信経路上にG.711しか通さない設備があっても、広帯域音声を通過させることができる。
【0007】
図1を参照して、特許文献1に記載された音声符号化装置を示す。音声符号化装置に入力された音声は入力バッファ81に蓄積され、10ミリ秒〜20ミリ秒程度の長さのフレームに区切られて帯域分割フィルタ82に送られる。帯域分割フィルタ82は入力音声を低域音声と高域音声とに分割する。低域音声は低域音声符号化部83へ送られ、高域音声は高域音声符号化部84へ送られる。高域音声符号化部84は、高域音声を符号化して高域符号を生成し、その高域符号を低域音声符号化部83へ送る。低域音声符号化部83は、低域音声と高域符号とを受け取り、G.711符号のLSB(Least Significant Bit)またはMSB(Most Significant Bit)に高域符号を1または0のビット列として埋め込んだ低域符号を生成し、その低域符号をパケット構成部85へ送る。パケット構成部85は、低域音声符号化部83から低域符号を受け取り、その低域符号を用いてパケットを構成する。パケット送出部86は、パケット構成部85で作成されたパケットの情報を受け取り、音声パケットとしてパケット通信網に送出する。
【0008】
図2を参照して、特許文献1に記載された音声復号装置を示す。音声符号化装置から出力された音声パケットは、音声復号装置のパケット受信部91が受信し、受信バッファ92へ蓄積される。受信バッファ92から出力された音声パケットは低域音声復号部94で復号される。また、高域符号抽出部95は音声符号から高域符号を抽出する。高域音声復号部96は、抽出された高域符号から高域音声成分を復号する。チェックサム検出部93は、受信バッファ92から出力された音声符号を、高域符号が低域符号のLSBまたはMSBに埋め込まれているかどうかの判定を行い、埋め込まれている場合には、スイッチ97を高域音声復号部96側にセットし、高域音声成分を帯域合成フィルタ98に送る。チェックサム検出部93での判定の結果、高域符号が低域符号のLSBまたはMSBに埋め込まれていないと判定された場合には、スイッチ97を高域なし側にセットする。つまり、高域音声成分は生成されない。帯域合成フィルタ98は、低域音声復号部94の出力と、高域音声復号部96の出力を広帯域の音声信号に合成して出力する。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特許第4758687号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、特許文献1には、G.711と完全な互換性を有する広帯域音声符号化を実現するための一部の構成が記載されているにとどまる。具体的には、高域音声符号化部84は、単に高域音声を符号化することだけが記載されており、高域音声復号部96は、単に高域符号から高域音声成分を復号することだけが記載されている。G.711と完全な互換性を有する広帯域音声符号化を実現するためには、復号装置から再生される広帯域音声の品質が十分に良好であること、少なくともG.711方式で復号された狭帯域音声よりも高い品質の広帯域音声が再生できることが必要である。
【0011】
この発明の目的は、上述のような点に鑑みて、広帯域音声の音声通信において、再生される広帯域音声の品質を向上することができる音声符号化技術を提供することである。
【課題を解決するための手段】
【0012】
上記の課題を解決するために、この発明の第一の態様の音声符号化装置は、入力音声を低域音声と高域音声とに帯域分割する帯域分割部と、復号低域音声に基づいて高域音声を符号化して高域符号を生成する高域音声符号化部と、低域音声を符号化して高域符号を埋め込んだ低域符号を生成する低域音声符号化部と、低域符号を復号して復号低域音声を生成する低域音声復号部と、低域符号を音声符号として出力する符号送出部と、を含む。
【0013】
この発明の第二の態様の音声復号装置は、第一の態様の音声符号化装置が出力する音声符号を受信する符号受信部と、音声符号を復号して復号低域音声を生成する低域音声復号部と、音声符号に埋め込まれた高域符号を抽出する高域符号抽出部と、復号低域音声に基づいて高域符号を復号して復号高域音声を生成する高域音声復号部と、復号低域音声と復号高域音声とを合成して復号音声を出力する帯域合成部と、を含む。
【発明の効果】
【0014】
この発明によれば、音声符号化において、広帯域音声の再生に必要な情報をできるだけ損なわないようにしつつ少ないビットで高域音声を符号化することができる。また、音声復号において、聴覚的に品質劣化の少ない高域音声を生成することによって、高い品質の広帯域音声を再生することができる。すなわち、広帯域音声の音声通信において、再生される広帯域音声の品質を向上することができる。
【図面の簡単な説明】
【0015】
図1図1は、従来の音声符号化装置の機能構成を例示する図である。
図2図2は、従来の音声復号装置の機能構成を例示する図である。
図3図3は、実施形態の音声符号化装置の機能構成を例示する図である。
図4図4は、実施形態の音声復号装置の機能構成を例示する図である。
図5図5は、実施形態の音声符号化方法の処理手続きを例示する図である。
図6図6は、実施形態の音声復号方法の処理手続きを例示する図である。
図7図7は、実施形態の高域音声符号化部の機能構成を例示する図である。
図8図8は、実施形態の係数符号化部の機能構成を例示する図である。
図9図9は、実施形態の高域音声復号部の機能構成を例示する図である。
図10図10は、実施形態の係数復号部の機能構成を例示する図である。
図11図11は、変形例1の高域音声復号部の機能構成を例示する図である。
図12図12は、変形例2の高域音声復号部の機能構成を例示する図である。
図13図13は、変形例2の周波数軸動的反転部の機能構成を例示する図である。
図14図14は、変形例3の高域音声符号化部の機能構成を例示する図である。
図15図15は、変形例4の高域音声復号部の機能構成を例示する図である。
【発明を実施するための形態】
【0016】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0017】
文中で使用する記号「」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。
【0018】
この発明の実施形態では、入力音声を音声符号に符号化して出力する音声符号化装置と、音声符号化装置により出力された音声符号を復号して復号音声を出力する音声復号装置とを説明する。音声符号化装置は、1フレーム分の入力音声を音声符号に変換して出力したら、次のフレームの入力音声の処理を行い、フレームの時間周期でこれを繰り返す。音声復号装置は、1フレーム分の音声符号を処理して復号音声を出力したら、次のフレームの音声符号の処理を行い、フレームの時間周期でこれを繰り返す。
【0019】
実施形態の音声符号化装置は、図3に示すように、入力バッファ11、帯域分割フィルタ(帯域分割部とも呼ぶ)12、低域音声符号化部13、高域音声符号化部14、遅延部15、低域音声復号部16、および符号送出部17を備える。この音声符号化装置が後述する各ステップの処理を行うことにより実施形態の音声符号化方法が実現される。
【0020】
実施形態の音声復号装置は、図4に示すように、符号受信部21、低域音声復号部22、高域符号抽出部23、遅延部24、高域音声復号部25、および帯域合成フィルタ(帯域合成部とも呼ぶ)26を備える。この音声復号装置が後述する各ステップの処理を行うことにより実施形態の音声復号方法が実現される。
【0021】
音声符号化装置および音声復号装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
【0022】
図5を参照して、実施形態の音声符号化方法の処理手続きを説明する。
【0023】
ステップS11において、音声符号化装置へ音声が入力される。入力音声xは入力バッファ11に蓄えられ、10ミリ秒〜20ミリ秒程度の長さのフレームに区切られ、帯域分割フィルタ12に送られる。入力音声xは広帯域音声であり、サンプリング周波数が16kHzとする。入力音声xは、帯域分割フィルタ12によって、サンプリング周波数が8kHzの低域音声xLと高域音声xHとに分割される。低域音声xLは低域音声符号化部13へ送られ、高域音声xHは高域音声符号化部14へ送られる。帯域分割フィルタ12は、G.711.1やG.722で利用される直交ミラーフィルター(QMF: Quadrature Mirror Filter)を用いることができる。または、適当なローパスフィルタとハイパスフィルタを用いて、入力音声xにローパスフィルタをかけて1/2サンプル数に間引きした信号を低域音声xLとし、入力音声xにハイパスフィルタをかけて1/2サンプル数に間引きした信号を高域音声xHとしてもよい。
【0024】
ステップS12において、高域音声符号化部14は、後述の低域音声復号部16から受け取った復号低域音声xLを利用して高域音声xHを符号化し、高域符号cHを遅延部15へ送る。高域音声符号化部14の処理の詳細は後述する。遅延部15は高域符号cHを1フレーム分記憶するメモリを持ち、1フレーム前の高域符号を低域音声符号化部13へ送るとともに、受け取った高域符号を記憶する。なお、後述のように、遅延部15は省略することができるため、高域音声符号化部14の出力である高域符号と、遅延部15の出力である1フレーム前の高域符号とは区別せず、単に高域符号cHと呼ぶこととする。
【0025】
ステップS13において、低域音声符号化部13は、従来の音声符号化装置が備える低域音声符号化部83と同じ構成を用いることができる。すなわち、低域音声xLと高域符号cHとを受け取り、G.711符号のLSBまたはMSBに高域符号を1または0のビット列として埋め込んだ低域符号cLを出力する。低域音声符号化部13の出力は、符号送出部17へ送られるとともに、低域音声復号部16へも送られる。
【0026】
ステップS14において、低域音声復号部16は、低域音声符号化部13から受け取った低域符号cLを復号し、復号低域音声xLを高域音声符号化部14へ送る。低域音声復号部16は、従来の音声復号装置が備える低域音声復号部94と同じ構成を用いることができる。
【0027】
ステップS15において、符号送出部17は、低域音声符号化部13から受け取った低域符号cLを音声符号として通信ネットワークに送出する。
【0028】
音声符号化装置から送出された音声符号cLは、G.711と完全なビット互換性を有し、従来のG.711方式に対応した音声復号装置が音声符号cLを受信した場合は、G.711復号方式によって狭帯域音声を再生することができ、この発明の音声復号装置が音声符号cLを受信した場合は、後述する音声復号方法によって広帯域音声を再生することができる。また、音声符号cLは既存のG.711のみに対応した通信ネットワークを通過することができる。
【0029】
図6を参照して、実施形態の音声復号方法の処理手続きを説明する。
【0030】
ステップS21において、符号受信部21は、通信ネットワークから音声符号cLを受信し、低域音声復号部22および高域符号抽出部23へ送る。
【0031】
ステップS22において、低域音声復号部22は、音声符号cLをG.711方式で復号し、復号低域音声xLを遅延部24へ送る。遅延部24は復号低域音声xLを1フレーム分記憶するメモリを持ち、1フレーム前の復号低域音声を高域音声復号部25および帯域合成フィルタ26へ送るとともに、受け取った復号低域音声を記憶する。なお、後述のように、遅延部24は省略することができるため、低域音声復号部22の出力である復号低域音声と、遅延部24の出力である1フレーム前の復号低域音声とは区別せず、単に復号低域音声xLと呼ぶこととする。
【0032】
ステップS23において、高域符号抽出部23は、音声符号cLから高域符号cHを抽出する。高域符号抽出部23の構成は、従来の高域符号抽出部95と同じ構成を用いることができる。すなわち、G.711符号のLSBまたはMSBに埋め込まれた1または0のビット列を高域符号cHに戻す。高域符号cHは高域音声復号部25へ送られる。
【0033】
ステップS24において、高域音声復号部25は、復号低域音声xLを利用して高域符号cHを復号し、復号高域音声xHを帯域合成フィルタ26へ送る。高域音声復号部25の処理の詳細は後述する。
【0034】
ステップS25において、帯域合成フィルタ26は、復号低域音声xLおよび復号高域音声xHから広帯域の復号音声xを合成して出力する。帯域合成フィルタ26は、帯域分割フィルタ12と同様に、G.711.1やG.722で利用されている直交ミラーフィルター(QMF: Quadrature Mirror Filter)を用いることができる。
【0035】
音声復号装置は、特許文献1に記載されているようにチェックサム検出部93およびスイッチ97を備えるように構成し、受信した音声符号cLに高域符号cHが埋め込まれているか否かを判定し、埋め込まれている場合は広帯域音声を出力し、埋め込まれていない場合は狭帯域音声を出力する切り替え処理を行うことも可能である。
【0036】
音声符号化装置が備える遅延部15および音声復号装置が備える遅延部24は省略してもよい。音声符号化装置は、高域符号cHが埋め込まれた低域符号cLを復号して高域音声xHを符号化するフィードバック構造のため、遅延部15を省略すると、音声符号化装置における復号低域音声xLと音声復号装置における復号低域音声xLとを一致させることができなくなる。しかしながら、そのずれは聴感上では区別がつかない程度の違いであり、実用上の問題は少ない。各遅延部を省略すると、音声通信における遅延時間を1フレーム分短くできる。
【0037】
以下、音声符号化装置が備える高域音声符号化部14の詳細な構成を説明する。高域音声符号化部14は、図7に示すように、帯域分割フィルタ(高域帯域分割部とも呼ぶ)31H、帯域分割フィルタ(低域帯域分割部とも呼ぶ)31L、パワー計算部32H,32L、線形予測部33H,33L、相対ゲイン計算部34、係数符号化部35、ゲイン符号化部36、およびマルチプレクサ(多重化部とも呼ぶ)37を備える。
【0038】
高域音声符号化部14には、高域音声xHおよび復号低域音声xLが入力される。入力音声のサンプリング周波数が16kHz、フレーム長が10ミリ秒である場合を例として説明すると、高域音声xHおよび復号低域音声xLはともにサンプリング周波数が8kHz、フレーム長が10ミリ秒であり、1フレームのサンプル数は80サンプルとなる。
【0039】
帯域分割フィルタ31Lは、復号低域音声xLをサンプリング周波数がそれぞれ4kHzのLL帯域音声xLLとLH帯域音声xLHとに分割する。帯域分割フィルタ31Lは、音声符号化装置の帯域分割フィルタ12と同じものを用いてもよいし、帯域分割フィルタ12とはタップ数や特性の異なる帯域分割フィルタを用いてもよい。LL帯域音声xLLは高域音声符号化部14では利用しないため、帯域分割フィルタ31LはLH帯域音声xLHのみを出力するように構成してもよい。LH帯域音声xLHは、線形予測部33Lおよびパワー計算部32Lへ入力される。
【0040】
線形予測部33Lは、LH帯域音声xLHに線形予測分析を適用して、p次のLH帯域線形予測係数aLH(i)(ただし、i=1, 2, …, p)を出力する。ここで、pは一般に4〜10程度の値を用いる。なお、p次の線形予測係数はp個の値の組であるが、以下では、特定のiのときの線形予測係数を示す場合を除いて、インデックスiを省略し、単にaLHと表記する。aLHはベクトルとみなすこともでき、線形予測係数ベクトルとも呼ぶ。
【0041】
パワー計算部32Lは、LH帯域音声xLHの1フレーム分のパワーPLHを計算する。このとき、前後のフレームを含めた平均パワー、例えば、1フレーム前の信号と1フレーム後の信号を合わせた3フレーム分のパワー、またはその1/3を1フレーム分のパワーとしてもよい。以下、1フレーム分のパワーの計算については同様とする。
【0042】
帯域分割フィルタ31Hは、高域音声xHをサンプリング周波数がそれぞれ4kHzのHL帯域音声xHLとHH帯域音声xHHとに分割する。帯域分割フィルタ31Hは、音声符号化装置の帯域分割フィルタ12と同じものを用いてもよいし、帯域分割フィルタ12とはタップ数や特性の異なる帯域分割フィルタを用いてもよい。HH帯域音声xHHは高域音声符号化部14では利用しないため、帯域分割フィルタ31HはHL帯域音声xHLのみを出力するように構成してもよい。HL帯域音声xHLは、線形予測部33Hおよびパワー計算部32Hへ入力される。
【0043】
線形予測部33Hは、HL帯域音声xHLに線形予測分析を適用して、p次のHL帯域線形予測係数aHL(i)(ただし、i=1, 2, …, p)を出力する。以下では、LH帯域線形予測係数aLHと同様に、インデックスiを省略して単にaHLと表記する。aHLもaLHと同様にベクトルとみなすことができ、線形予測係数ベクトルとも呼ぶ。
【0044】
パワー計算部32Hは、HL帯域音声xHLの1フレーム分のパワーPHLを計算する。
【0045】
相対ゲイン計算部34は、次式で定義される相対ゲインGHLを計算する。相対ゲインGHLはHL帯域音声xHLのLH帯域音声xLHに対する相対ゲインであり、LH帯域音声xLHの各サンプルに相対ゲインGHLを乗じた信号のパワーが、HL帯域音声xHLのパワーPHLと同じになる。
【0046】
【数1】
【0047】
係数符号化部35は、LH帯域線形予測係数aLHを用いてHL帯域線形予測係数aHLをM1ビットで符号化し、係数符号c1をゲイン符号化部36およびマルチプレクサ37へ送る。M1の定め方については後述する。
【0048】
ゲイン符号化部36は、LH帯域線形予測係数aLHおよび係数符号c1を用いて相対ゲインGHLをM2ビットで符号化し、ゲイン符号c2をマルチプレクサ37へ送る。M2の定め方については後述する。
【0049】
M1, M2の定め方を説明する。特許文献1によれば、低域音声160サンプルあたり16ビット、すなわち80サンプルあたり8ビットの高域符号を低域符号に埋め込んでも、復号低域音声の主観品質は高域符号を埋め込まない場合に比べて劣化しないとされている。したがって、フレーム長が10ミリ秒(80サンプル)の場合は、M1+M2≦8となるように、M1, M2を決めるのがよい。一例として、M1=4, M2=4とする。
【0050】
係数符号化部35は、LH帯域線形予測係数aLHとHL帯域線形予測係数aHLとには相関があることを利用して、HL帯域線形予測係数aHLを符号化する。例えば、LH帯域線形予測係数aLHの値からHL帯域線形予測係数aHLの値を推定し、HL帯域線形予測係数aHLと推定値a'HLとの誤差を符号化するとよい。なお、推定は音声データベースを用いた統計的な手法を用いる。
【0051】
係数符号化部35は、図8に示すように、LSP変換部351、LSP変換部352、LSP推定部353、および誤差符号化部354を備える。LSP変換部351は、HL帯域線形予測係数aHLをHL帯域線スペクトル対(以下、線スペクトル対をLSPと呼ぶ)fHLに変換する。LSPは線形予測パラメータの一種で、p次の線形予測係数とp次のLSPは相互に変換が可能である。LSPの表記についても線形予測係数の表記と同様に、インデックスi(i=1, 2, …, p)を省略することとし、インデックスiを省略したときはベクトルとみなすことができる。LSP変換部352は、LH帯域線形予測係数aLHをLH帯域LSPfLHに変換する。LSP推定部353は、LH帯域LSPfLHを用いてHL帯域LSPfHLの値を推定する。推定ルールは、音声データベースを用いた統計的な手法を用いることができ、例えば、変換関数を定義しておいてもよいし、LH帯域LSPfLHの分布とHL帯域LSPfHLの分布の対応関係を統計的に調べて定義しておいてもよい。誤差符号化部354は、HL帯域LSPfHLとHL帯域LSPの推定値f'HLとの誤差を、例えばベクトル量子化の手法を使って符号化し、係数符号c1を出力する。
【0052】
ゲイン符号化部36では、LH帯域線形予測係数aLHと係数符号c1との組み合わせと、相対ゲインGHLとの間に相関があることを利用して、相対ゲインGHLを符号化する。例えば、LH帯域線形予測係数aLHと係数符号c1との組み合わせから相対ゲインGHLの値を推定し、相対ゲインGHLと推定値G'HLとの誤差を対数尺度(またはデシベル単位)で符号化するとよい。なお、推定は音声データベースを用いた統計的な手法を用いればよい。
【0053】
マルチプレクサ37は、係数符号化部35の出力する係数符号c1とゲイン符号化部36の出力するゲイン符号c2とを入力とし、高域符号cHとして出力する。
【0054】
線形予測分析を含む音声の分析に関する詳細は、下記参考文献1に記載されている。
〔参考文献1〕古井貞煕著、「ディジタル音声処理」、東海大学出版会、pp. 60-98
以下、音声復号装置が備える高域音声復号部25の詳細な構成を説明する。高域音声復号部25は、図9に示すように、デマルチプレクサ(符号分離部とも呼ぶ)40、帯域分割フィルタ(帯域分割部とも呼ぶ)41、パワー計算部42、線形予測部43、逆フィルタ44、複製部45、係数復号部46、相対ゲイン復号部47、合成フィルタ48、パワー計算部49、ゲイン計算部50、乗算部(HL帯域乗算部とも呼ぶ)51、相対ゲイン予測部52、係数予測部53、乱数部54、合成フィルタ55、パワー計算部56、ゲイン計算部57、乗算部(HH帯域乗算部とも呼ぶ)58、および帯域合成フィルタ(帯域合成部とも呼ぶ)59を備える。
【0055】
高域音声復号部25には、復号低域音声xLおよび高域符号cHが入力される。高域符号cHは、デマルチプレクサ40へ入力される。復号低域音声xLは、帯域分割フィルタ41へ入力される。
【0056】
帯域分割フィルタ41は、高域音声符号化部14の帯域分割フィルタ31Lと同じ構成とし、復号低域音声xLをサンプリング周波数がそれぞれ4kHzのLL帯域音声xLLとLH帯域音声xLHとに分割する。LL帯域音声xLLは高域音声復号部25では利用しないため、帯域分割フィルタ41はLH帯域音声xLHのみを出力するように構成してもよい。LH帯域音声xLHは、線形予測部43およびパワー計算部42へ入力される。
【0057】
線形予測部43は、LH帯域音声xLHに線形予測分析を適用して、p次のLH帯域線形予測係数aLHを出力する。LH帯域線形予測係数aLHは、逆フィルタ44、係数復号部46、相対ゲイン復号部47、および係数予測部53へ入力される。
【0058】
パワー計算部42は、高域音声符号化部14のパワー計算部32Lと同様に、LH帯域音声xLHの1フレーム分のパワーPLHを計算する。パワーPLHは、ゲイン計算部50およびゲイン計算部57へ入力される。
【0059】
逆フィルタ44は、LH帯域線形予測係数aLHをフィルタ係数とするFIRフィルタであり、LH帯域音声xLHからLH帯域線形予測残差eLHを求め、複製部45へ送る。ここで、xLH(j)はLH帯域音声xLHの第jサンプルを、eLH(j)はLH帯域線形予測残差の第jサンプルを、j=1は現フレームの先頭サンプルを、j=Nは現フレームの最後のサンプルを表すとすると、eLH(j)は次式で表される。
【0060】
【数2】
【0061】
1フレームが80サンプルからなるときは、N=80である。なお、j-iが負のときは、過去のフレーム内のサンプル位置を現フレームの先頭サンプルを基準とした相対サンプル位置として表すものとする。1フレーム分のサンプル値の組を表すときは、インデックスjを省略して表記する。
【0062】
複製部45は、次式のように、LH帯域線形予測残差eLHを複製してHL帯域駆動音源eHLを出力する。HL帯域駆動音源eHLは、合成フィルタ48へ入力される。
【0063】
【数3】
【0064】
デマルチプレクサ40は、高域符号cHを係数符号c1とゲイン符号c2とに分割する。係数符号c1は、係数復号部46、相対ゲイン復号部47、相対ゲイン予測部52、および係数予測部53へ入力される。ゲイン符号c2は、相対ゲイン復号部47および相対ゲイン予測部52へ入力される。
【0065】
係数復号部46は、LH帯域線形予測係数aLHを用いて係数符号c1を復号し、HL帯域復号線形予測係数aHLを出力する。係数復号部46は、図10に示すように、LSP変換部461、LSP推定部462、再構成部463、および係数変換部464を備える。LSP変換部461およびLSP推定部462は、係数符号化部35のLSP変換部352およびLSP推定部353と同じである。再構成部463は、係数符号c1およびHL帯域LSPの推定値f'HLを用いて、誤差符号化に対応する復号方法によって、HL帯域復号LSPfHLを再構成する。係数変換部464は、HL帯域復号LSPfHLをHL帯域復号線形予測係数aHLに変換して出力する。HL帯域復号線形予測係数aHLは合成フィルタ48へ入力される。
【0066】
相対ゲイン復号部47は、LH帯域線形予測係数aLHと係数符号c1との組み合わせを用いてゲイン符号c2を復号し、復号相対ゲインGHLを求める。復号相対ゲインGHLはゲイン計算部50へ入力される。復号方法は高域音声符号化部14のゲイン符号化部36の符号化方法に対応する方法を用い、例えば、LH帯域線形予測係数aLHと係数符号c1との組み合わせから相対ゲインGHLの値を推定し、ゲイン符号c2が表す誤差を相対ゲインの推定値G'HLに対数尺度上で加算、もしくはリニア尺度で乗算する方法により、復号相対ゲインGHLを求めることができる。
【0067】
合成フィルタ48は、係数復号部46から受け取ったHL帯域復号線形予測係数aHLをフィルタ係数とするIIRフィルタ(ARフィルタとも呼ぶ)であり、HL帯域駆動音源eHLからHL帯域合成音声yHLを出力する。HL帯域合成音声yHLはパワー計算部49および乗算部51へ入力される。
【0068】
パワー計算部49は、HL帯域合成音声yHLの1フレーム分のパワーPHLを計算する。パワーPHLはゲイン計算部50へ入力される。
【0069】
ゲイン計算部50は、復号相対ゲインGHL、パワーPLH、およびパワーPHLを用いて、次式で表されるゲインgHLを計算する。ゲインgHLは乗算部51へ入力される。
【0070】
【数4】
【0071】
乗算部51は、HL帯域合成音声yHLにゲインgHLを乗じて、復号HL帯域音声xHLを計算する。復号HL帯域音声xHLは帯域合成フィルタ59へ入力される。
【0072】
相対ゲイン予測部52は、係数符号c1およびゲイン符号c2を用いて、予測相対ゲインGHHを予測して求める。予測相対ゲインGHHはゲイン計算部57へ入力される。
【0073】
係数予測部53は、LH帯域線形予測係数aLHおよび係数符号c1を用いて、HH帯域線形予測係数aHHを予測して求める。HH帯域線形予測係数aHHは合成フィルタ55へ入力される。
【0074】
乱数部54は、ガウス乱数を生成し、1フレーム長の乱数信号列eHHを出力する。乱数信号列eHHは合成フィルタ55へ入力される。
【0075】
合成フィルタ55は、HH帯域線形予測係数aHHをフィルタ係数とするIIRフィルタであり、乱数信号列eHHからHH帯域合成音声yHHを出力する。HH帯域合成音声yHHはパワー計算部56および乗算部58へ入力される。
【0076】
パワー計算部56は、HH帯域合成音声yHHの1フレーム分のパワーPHHを計算する。パワーPHHはゲイン計算部57へ入力される。
【0077】
ゲイン計算部57は、予測相対ゲインGHH、パワーPLH、およびパワーPHHを用いて、次式で表されるゲインgHHを計算する。ゲインgHHは乗算部57へ入力される。
【0078】
【数5】
【0079】
乗算部58は、HH帯域合成音声yHHにゲインgHHを乗じて、復号HH帯域音声xHHを計算する。復号HH帯域音声xHHは帯域合成フィルタ59へ入力される。
【0080】
帯域合成フィルタ59は、高域音声符号化部14の帯域分割フィルタ31Hに対応する(つまり逆変換としての)帯域合成フィルタであり、復号HL帯域音声xHLおよび復号HH帯域音声xHHを用いて、復号高域音声xHを生成し出力する。なお、復号HL帯域音声xHLおよび復号HH帯域音声xHHのサンプリング周波数はいずれも4kHzであり、復号高域音声xHのサンプリング周波数は8kHzである。
【0081】
この発明における音声符号化装置および音声復号装置のポイントを説明する。
【0082】
音声符号化装置では、広帯域音声を低域音声と高域音声とに帯域分割し、低域音声をさらにLL帯域の信号とLH帯域の信号とに、高域音声をさらにHL帯域の信号とHH帯域の信号とに帯域分割する。すなわち、広帯域音声は、LL帯域、LH帯域、HL帯域、HH帯域の4つの帯域に分割される。
【0083】
復号低域音声の品質を低下させずに低域符号に高域音声の情報を埋め込むには、高域音声をできるだけ少ないビット数で符号化する必要がある。そこで、HL帯域のスペクトル包絡情報とパワーの情報を、復号低域音声の品質を低下させない程度の少ないビット数で符号化して、低域符号に埋め込む。これらの情報を少ないビット数で符号化するために、パラメータ間の相関を最大限利用して符号化する。このとき、HH帯域の情報は送らないこととする。
【0084】
音声復号装置では、低域符号からHL帯域のスペクトル包絡情報とパワーの情報を抽出し、HL帯域の信号とHH帯域の信号とを生成する。一般に、線形予測を用いた音声符号化手法では、スペクトル包絡情報と、合成フィルタを駆動する音源情報と、パワーを表す情報とが必要であるが、音声符号化装置は合成フィルタを駆動する音源情報を送らないため、音声復号装置で得られる別の情報から合成フィルタを駆動する音源情報を擬似生成する必要がある。そこで、LH帯域の線形予測残差信号がHL帯域の合成フィルタを駆動する音源情報と同じであるとみなし、LH帯域の線形予測残差信号でHL帯域の合成フィルタを駆動することによりHL帯域の信号を生成する。また、HH帯域については、音声符号化装置から情報を送らないため、音声復号装置で得られるLH帯域およびHL帯域の情報からHH帯域の信号を擬似生成する。具体的には、HH帯域のスペクトル包絡情報とパワーを表す情報を、LH帯域およびHL帯域の情報から統計的な手法によって予測し、合成フィルタはガウス乱数で駆動する。
【0085】
上記手法により、高域音声は10ミリ秒あたり8ビットで表現され、音声復号装置から聴感的に十分に良好な品質の広帯域音声を再生することができる。なお、再生される広帯域音声は聴感的に良好な品質であるが、入力音声とのSN比、特に高域のSN比は高くない。SN比が高くないにもかかわらず聴感的に良好となるのは、人間の聴覚特性が、高域についてはスペクトル包絡とパワーが入力音声に近い状態で再現されていれば、線形予測の駆動音源、すなわちスペクトルの微細構造や位相には鈍感であることによる。また、高域のスペクトル包絡やパワーが少ないビットで再現性の高い符号化ができること、特にHH帯域については情報を送らなくてもスペクトル包絡やパワーが再現できることは、高域のスペクトル包絡やパワーが低域のスペクトル包絡やパワーと高い相関を持つことを利用して実現している。
【0086】
[変形例1]
図11に、高域音声復号部25の変形例を示す。変形例1の高域音声復号部25Aは、逆フィルタ44と複製部45との間に、周波数軸反転部60を備える点が、実施形態の高域音声復号部25との相違点である。
【0087】
周波数軸反転部60は、LH帯域線形予測残差eLHの周波数軸を反転して、反転信号rLHを複製部45に送る。LH帯域線形予測残差eLHはサンプリング周波数が4kHz、1フレームのサンプル数がNの時系列信号であり、0〜2kHzの信号成分を持つ。この信号の周波数軸を反転するとは、LH帯域線形予測残差eLHの周波数(f)kHzの信号成分が反転信号rLHの周波数(2-f)kHzの信号成分になるように時系列信号を変換することである。反転信号rLHは、次式で表されるように、サンプリング周波数の1/2の周波数を持つ正弦波、すなわち2kHzの正弦波を乗算することによって得られる。
【0088】
【数6】
【0089】
変形例1の複製部45は、次式のように、反転信号rLHを複製してHL帯域駆動音源eHLを合成フィルタ48へ送る。
【0090】
【数7】
【0091】
変形例1において、周波数軸反転処理を行う理由は、高域音声符号化部14において、LH帯域音声xLHとHL帯域音声xHLとの周波数軸が反転した関係にあることによる。つまり、例えば、直交ミラーフィルターを用いる帯域分割フィルタでは、分割後の低域側の信号は、入力信号と同じ周波数軸の向きであるのに対して、分割後の高域側の信号は、エイリアシングによって周波数軸が反転した信号として出力される。一方、実施形態の高域音声復号部25では、LH帯域音声xLHから得られる信号を複製して復号HL帯域音声xHLを生成しているため、高域音声符号化部14のHL帯域音声xHLと、高域音声復号部25の復号HL帯域音声xHLでは、人間の声帯振動に対応する音源信号の周波数軸の向きが逆になってしまう。その結果、声の高さ(基本周波数またはピッチ)が徐々に変化するような音声を、高域音声符号化部14で符号化し、高域音声復号部25で復号すると、音質が劣化する原因となる。
【0092】
変形例1の高域音声復号部25Aを用いることにより、高域音声符号化部14のHL帯域音声xHLと高域音声復号部25Aの復号HL帯域音声xHLとの周波数軸の向きが同じになるため、音質劣化を低減することができる。
【0093】
[変形例2]
図12に、高域音声復号部25の変形例を示す。変形例2の高域音声復号部25Bは、逆フィルタ44と複製部45の間に、周波数軸反転部60の代わりに周波数軸動的反転部61を備える点が、変形例1の高域音声復号部25Aとの相違点である。
【0094】
周波数軸動的反転部61は、フレーム毎にLH帯域線形予測残差eLHの周波数軸を反転するか、反転せずそのままにするかを選択し、動的反転信号rdLHを出力する。周波数軸を反転するか、反転せずそのままにするかの選択は、LH帯域線形予測係数aLHとHL帯域復号線形予測係数aHLとを用いて判定する。
【0095】
周波数軸動的反転部61は、図13に示すように、LSP変換部611LH、LSP変換部611HL、LSP周波数軸反転部612、距離計算部613r、距離計算部613e、比較部615、および周波数軸反転部614を備える。
【0096】
LSP変換部611LHは、LH帯域線形予測係数aLHをLH帯域LSPfLHに変換する。LSP変換部611HLは、HL帯域復号線形予測係数aHLをHL帯域復号LSPfHLに変換する。距離計算部613eは、あらかじめ定義した2つのLSP間の距離の定義に基づいて、LH帯域LSPfLHとHL帯域復号LSPfHLとの距離dを計算する。LSP間の距離の定義については、例えばユークリッド距離を用いることができるほか、重み付きユークリッド距離など、LSPのベクトル量子化法で一般的に用いられる距離の定義を用いればよい。
【0097】
LSP周波数軸反転部612は、LH帯域LSPfLHの周波数軸を反転してLH帯域反転LSPfrLHを出力する。LSPの周波数軸を反転するとは、LSPの値が0〜πの範囲で表現されているとすると、
【0098】
【数8】
【0099】
である。LSPの値が0〜1の範囲に正規化されて表現されている場合には、
【0100】
【数9】
【0101】
である。
【0102】
距離計算部613rは、距離計算部613eと同じLSP間の距離の定義に基づいて、LH帯域反転LSPfrLHとHL帯域復号LSPfHLとの距離drを計算する。
【0103】
周波数軸反転部614は、変形例1の高域音声復号部25Aが備える周波数軸反転部60と同様に、LH帯域線形予測残差eLHの周波数軸を反転して、反転信号rLHを出力する。
【0104】
比較部615は、距離dと距離drとを比較し、距離drの方が小さいときはスイッチ616を反転信号rLH側にセットして反転信号rLHを動的反転信号rdLHとして出力し、距離dの方が小さいときはスイッチ616をLH帯域線形予測残差eLH側にセットしてLH帯域線形予測残差eLHを動的反転信号rdLHとして出力する。
【0105】
複製部45は、動的反転信号rdLHを複製してHL帯域駆動音源eHLを合成フィルタ48へ送る。
【0106】
なお、上記では、LH帯域LSPfLHの周波数軸を反転してHL帯域復号LSPfHLとの距離drを計算しているが、HL帯域復号LSPfHLの周波数軸を反転してLH帯域LSPfLHとの距離をdrとしても同じである。
【0107】
変形例2において、周波数軸反転処理を動的に行う理由は、LH帯域音声xLHにLH帯域のスペクトル包絡の逆フィルタをかけて線形予測残差を求め、線形予測残差にHL帯域のスペクトル包絡を表す合成フィルタをかけて復号HL帯域音声xHLを得る処理において、逆フィルタはスペクトル包絡を平坦化する処理であり、合成フィルタはスペクトル包絡を畳み込む処理であり、逆フィルタと合成フィルタのスペクトル包絡の形状が似ていれば、復号HL帯域音声xHLの品質劣化が少ないが、スペクトル包絡の形状が異なるほど、復号HL帯域音声xHLのノイズ感が増すためである。そのために、変形例2では、LH帯域の線形予測係数とHL帯域の線形予測係数とを用いて、LH帯域のスペクトル包絡とHL帯域のスペクトル包絡との類似度と、LH帯域のスペクトル包絡の周波数軸を反転したものとHL帯域のスペクトル包絡との類似度とを比較し、後者の方が類似度が高い場合には、LH帯域線形予測残差eLHの周波数軸を反転し、ノイズ感の増加を防いでいる。
【0108】
なお、LSPのベクトル量子化法で一般的に用いられる距離の定義については、下記参考文献2に記載されている。
〔参考文献2〕H.Ohmuro, T.Moriya, K.Mano, and S.Miki, “Coding of LSP Parameters Using Interframe Moving Average Prediction and Multi-Stage Vector Quantization”, IEICE TRANS. FUNDAMENTALS, Vol.E76-A, No.7, pp.1181-1183, 1993
【0109】
[変形例3]
図14に、高域音声符号化部14の変形例を示す。変形例3の高域音声符号化部14Aは、周波数軸反転部38Hが帯域分割フィルタ31Hの前段に配置され、周波数軸反転部38Lが帯域分割フィルタ31LのLH帯域音声出力の先に配置されている点が実施形態の高域音声符号化部14との相違点である。
【0110】
変形例1において、周波数軸反転部60が必要となるのは、前述のように、帯域分割フィルタでは、分割後の低域側の信号は入力信号と同じ周波数軸の向きであるのに対して、分割後の高域側の信号はエイリアシングによって周波数軸が反転した信号として出力されるためである。したがって、音声符号化装置が実施形態の高域音声符号化部14を備え、音声復号装置が変形例1の高域音声復号部25Aを備える構成と、音声符号化装置が変形例3の高域音声符号化部14Aを備え、音声復号装置が実施形態の高域音声復号部25を備える構成とは等価となり、同等の性能が得られる。
【0111】
[変形例4]
図15に、高域音声復号部25の変形例を示す。変形例4の高域音声復号部25Cは、周波数軸反転部62が帯域分割フィルタ41のLH帯域音声出力の先に配置され、周波数軸反転部63が乗算部58と帯域合成フィルタ59との間に配置されている点が変形例2の高域音声復号部25Bとの相違点である。
【0112】
音声符号化装置が実施形態の高域音声符号化部14を備え、音声復号装置が変形例2の高域音声復号部25Bを備える構成と、音声符号化装置が変形例3の高域音声符号化部14Aを備え、音声復号装置が変形例4の高域音声復号部25Cを備える構成とは等価となり、同等の性能が得られる。
【0113】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0114】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0115】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0116】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0117】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0118】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【符号の説明】
【0119】
11 入力バッファ
12 帯域分割フィルタ
13 低域音声符号化部
14 高域音声符号化部
15 遅延部
16 低域音声復号部
17 符号送出部
21 符号受信部
22 低域音声復号部
23 高域符号抽出部
24 遅延部
25 高域音声復号部
26 帯域合成フィルタ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15