(58)【調査した分野】(Int.Cl.,DB名)
前記誤差検出手段は、検出された複数の前記誤差の平均値を算出し、該算出された誤差の平均値を前記標本に加えて新たな前記標本を生成することを特徴とする請求項1に記載の音声信号圧縮装置。
前記誤差検出手段によって検出された前記誤差に対し、出現頻度の高い数値ほど短い信号値を割り当てる信号値割り当て手段を備えたことを特徴とする請求項1乃至3の何れか一つに記載の音声信号圧縮装置。
前記誤差検出手段によって検出された前記誤差について、任意の範囲内の数値を任意の数値に置き換える丸め処理を行う丸め処理手段を備えたことを特徴とする請求項1乃至4の何れか一つに記載の音声信号圧縮装置。
【発明を実施するための形態】
【0028】
図1乃至
図15に本発明の実施の形態を示す。
【0029】
<基本構成>
図1は、この実施の形態に係る音声信号圧縮システム及び音声信号圧縮装置の全体構成を示す機能ブロック図である。音声信号圧縮システム1Aは、音声信号の圧縮を含む符号化に用いられる。ここでいう音声信号は、単音(一人の人間の発話や、一つの楽器の鳴らした音等)であってもよいし、複音(複数の人間の発話や複数の楽器を一度に鳴らした音等)であってもよい。また、音楽であってもよいし機械の動作音や列車の走行音のような音であってもよい。さらに、ここでいう音声信号は、基本的にディジタル信号を指すが、アナログ信号であってもよい。
【0030】
音声信号圧縮システム1Aは、少なくとも一のCPUを備え、この実施の形態の音声信号圧縮装置1と、各種処理部2とを備えている。
【0031】
音声信号圧縮装置1は音声信号の符号化を行う。ここでいう符号化には、音声信号の符号量を削減する圧縮処理も含まれる。
【0032】
各種処理部2は、音声の各種処理、記録、外部に対する入出力等を行う。具体的には、音声情報の座標変換や階調補正や圧縮展開等の各種音声処理を行うための構成、RAM、EEPROM、ハードディスク等の記憶媒体であって、圧縮されていない音声情報を一時的又は半永久的に記憶したり音声信号圧縮装置1との間で音声情報を入出力するための構成、各種インターフェースであって外部の機器等との間で音声情報の入出力を行うための構成等である。
【0033】
図1に示す通り、音声信号圧縮装置1は、機能手段として、「特徴検出手段」としての特徴検出部11、「誤差検出手段」としての誤差検出部12、「信号値割り当て手段」としての信号値割り当て部13、「丸め処理手段」としての丸め処理部14、「フィルタ手段」としてのフィルタ部15、「置換手段」としての置換部16、「分布領域確認手段」としての分布領域確認部17、「座標回転手段」としての座標回転部18、記憶部19を備える。音声信号圧縮装置1は、少なくとも1のCPUを備え、該CPUの処理により上記の各機能手段が実現される。ただしこのCPUは音声信号圧縮システム1Aと共用のものであってもよい。
【0034】
特徴検出部11は、音声信号の特徴を検出する。ここでいう「特徴」は、音声信号に現れる特徴で、例えば音声信号の波形の特徴(複数のディジタル信号によって形成された波形の特徴も含む)が該当する。この特徴は、音声信号に周期的に現れるものであってもよいし、不定期的に現れるものであってもよい。検出された特徴は、標本として記憶部19に一時的に記録されて、誤差検出部12における処理に用いられる。この「標本」とは、音声信号を形成する信号成分の予測情報であり、任意の時点以前に出現した音声信号から検出された一又は複数の特徴により生成されるものである。
【0035】
誤差検出部12は、特徴検出部11により検出された複数の特徴の相違を誤差として検出する。具体的には、誤差検出部12は、記憶部19に記憶された、特徴の標本と、特徴検出部11によって検出され対比対象として着目する特徴としての対比特徴とを対比して、標本と対比特徴との差分を誤差として検出する。後述する通り、検出された誤差は、既存の標本に加えられる。これにより新たな標本が生成され、新たに生成された標本は、生成後の対比特徴との対比に用いられることになる。なお、標本は、特徴検出部11によって検出された特徴以外のもの、例えば、既存の正弦波や三角波やパルスに基づいて人工的に生成されたものであってもよい。
【0036】
信号値割り当て部13は、誤差検出部12によって検出された誤差に対してそれぞれ信号値を割り当てる。具体的には、信号値割り当て部13は、特定の規則、例えばハフマン符号化、等のエントロピー符号化を用い、出現頻度の高い数値ほど短い信号値を割り当てる。
【0037】
丸め処理部14は、誤差検出部12によって検出された誤差について、任意の範囲内の数値を任意の数値に置き換える。この丸め処理は、ある範囲の整数値をその中の特定の整数値に置き換える処理(例えば「1」「2」「3」を「2」に、「4」「5」「6」を「5」に置き換える処理)や、任意の位以下の値を切り上げる処理や切り捨てる処理(例えば少数点以下の値を全て切り上げ、又は切り捨てて整数値にする処理)などが含まれる。
【0038】
フィルタ部15は、予測符号化の処理において発生した誤差が存在しうる任意の帯域又は領域の信号を除去するフィルタリング処理、又はフィルタリング処理と同等の処理を行う。ここでいうフィルタリング処理は、たとえばローパスフィルタやバンドパスフィルタによるフィルタリングが考えられる。フィルタ部15を構成するフィルタは、フィルタリング帯域を変換可能なものが望ましい。また、フィルタ部15を構成するフィルタは、フィルタリングの対象となる音声信号の時間領域と周波数変換との変換(例えばフーリエ変換)のような、負荷の重い処理を伴わずにフィルタリングできるものが望ましい。また、フィルタ部15による処理の対象となる誤差は、主として、予測符号化の処理の結果発生した誤差であるが、予測符号化の処理以外の処理によって発生した誤差が対象であってもよい。また、ここでいうフィルタリングと同等の処理とは、例えば、信号値がとるべき特定の範囲にない信号について、それらを除去する処理や、それらを予め設定された規則に基づいて特定の範囲内の値に修正する処理が考えられる。
【0039】
置換部16は、任意のパラメータからなる座標空間にある音声信号の値を、他のパラメータからなる座標空間にある音声信号の値に置換する。具体的には、第一の音声信号の値(例えばステレオ2チャンネルのうち左チャンネルの値)及び第二の音声信号(例えばステレオ2チャンネルのうち右チャンネルの値)について、第一の音声信号の値と第二の音声信号との和からなる第一のパラメータと、第一の音声信号の値と第二の音声信号の値との差の絶対値からなる第二のパラメータとからなる置換座標空間に音声信号を置換する。ただし、置換部16は、2チャンネルより多い(又は少ない)チャンネルの音声信号を、2チャンネルより多い(又は少ない)チャンネルに変換してもよいし、変換の態様について、上記に例示したもの以外のいかなるものを用いてもよい。
【0040】
分布領域確認部17は、置換部16によって置換された音声信号の、置換座標空間における分布領域を確認する。分布領域確認部17による確認の結果は、表示画面(図示せず)にグラフィック表示等されてもよいし、置換部16に送られて、置換部16において、変換前の音声信号を別のパラメータからなる座標空間に再度置換されるように設定されてもよい。
【0041】
座標回転部18は、分布領域確認部17によって確認された分布領域に基づいて、置換座標空間の座標軸を回転変換させる。この回転変換は、置換座標空間を、原点を中心に回転するものであってもよいし、予め設定された条件を満たす原点以外の任意の点(例えば原点から最も離れた位置に信号値が存在する点)を中心に回転するものであってもよい。また、回転は、予め設定された任意の角度(例えば反時計回りに45°)回転するものであってもよいし、予め設定された条件を満たす任意の点(例えば回転中心から最も遠い距離に信号値が存在する点)が予め設定された任意の点(例えばX軸とY軸とからなる座標空間における、Y=Xの直線上の任意の点)にくるように回転するようなものであってもよい。
【0042】
この実施の形態における音声信号の圧縮処理は、この音声信号圧縮システム1A及び音声信号圧縮装置1を用い、以下、第一の音声信号圧縮方式乃至第三の音声信号圧縮方式に示すように行われる。なお、第一の音声信号圧縮方式乃至第三の音声信号圧縮方式は、それぞれを連携させて用いることもできるし、それぞれを独立して用いることもできる。以下、音声信号圧縮の態様について、それぞれの原理と具体的手順をそれぞれ説明する。
【0043】
<1−1.第一の音声信号圧縮方式の原理(1):予測符号化その1>
図2乃至
図7に、第一の音声信号圧縮方式の原理を示す。
【0044】
第一の音声信号圧縮方式は、予測符号化に基づくものである。第一の音声信号圧縮は、主として音声信号圧縮装置1の特徴検出部11、誤差検出部12、信号値割り当て部13、丸め処理部14の処理に基づいて行われる。
【0045】
図2は、第一の音声信号圧縮方式の原理を示す概念図である。
図2の(b)に示す、n個(n>1)の標本31(1),31(2),・・・31(n)は、音声信号100から検出された離散信号に基づいて生成されたものであり、記憶部19に記録されている。なお、以下は説明の簡単のため、特に区別の必要がある場合を除き、標本31(1),31(2),・・・31(n)は標本31と記載する。またここで、特徴検出部11は、音声信号100から、離散信号としてのm個(m>1)の対比特徴41(1),41(2),・・・41(m)を検出する。なお、以下は説明の簡単のため、特に区別の必要がある場合を除き、対比特徴41(1),41(2),・・・41(m)は対比特徴41と記載する。
【0046】
ここで、音声信号圧縮装置1にディジタルの音声信号100が入力された場合を考える。そしてさらに、特徴検出部11において、
図2の(a)(b)に示す、音声信号100の部分101における信号S101,S102の信号値を検出し、次に信号S103の値を検出しようとしている場合を考える。この場合、たとえば
図2の(b)においては、直前2つのS101,S102の信号値がそれぞれ“−1”,“1”であり、その延長線上にある標本31(1)の信号値が“3”である(単位はそれぞれmV。以下同じ。)。そこで、誤差検出部12は、記憶部19から、値が“3”である標本31(1)を取得する。
【0047】
この状態で、特徴検出部11は、次の信号S103の値(音声信号100を構成する一の離散信号の値)を検出し、これを対比特徴41(1)とする。
【0048】
誤差検出部12は、標本31(1)の信号値と対比特徴41(1)の信号値とを対比する。そして、対比の結果、
図2の(b)に示すように、標本31(1)の信号値が“3”であるのに対し、対比特徴41(1)の信号値が“1”であったとする。この場合、対比特徴41(1)の信号値と標本31(1)の信号値の誤差(対比特徴41(1)の信号値から標本31(1)の信号値を引いた値)は“−2”になる。そして、標本31を構成する信号の信号値の情報と、標本31(1)と対比特徴41(1)の誤差の情報によって、音声信号100が圧縮され、符号化される。
【0049】
ここで、誤差検出部12は、この誤差の値“−2”を標本31(1)の信号値に加える。その結果、新たな標本31(2)の信号値は、
図2の(b)に示すように、標本31(1)の信号値“3”に誤差の値“−2”を加えた“1”になる。
【0050】
このようにして、誤差検出部12は、新たな標本31(2)を生成する。新たに生成された標本31(2)は、
図3に示すように、次の対比特徴41(2)との対比に用いられる。具体的には、
図3に示すように、音声信号100における、部分101と同様の波形になっている部分102において、直前2つのS104,S105の信号値がそれぞれ“−1”,“1”であるときに、標本31(2)が、対比特徴41(2)との対比に用いられることになる。
【0051】
上述した通り、誤差の情報は、音声信号100の圧縮に用いられるため、標本31に対する信号値の誤差は小さい方が圧縮率が高くなる。そして、音声信号100に近似した特徴が繰り返し出現する場合、
図2の(b)及び
図3に示す通り、標本31(1)と対比特徴41(2)とを対比した場合の誤差(誤差−2)よりも、新たに生成された標本31(2)と対比特徴41(2)とを対比した場合の誤差(誤差0)の方が、誤差の値が小さくなる。そのため、標本31(1)の延長にある標本31(3)を対比特徴41(2)と対比させた場合に比べ、標本31(2)を対比特徴41(2)と対比させた場合の方が、符号量が少なくなる。
【0052】
このようにすることで、音声信号100の圧縮率を向上させることができる。
【0053】
<1−2.第一の音声信号圧縮方式の原理(2):予測符号化その2>
誤差検出部12が、上記<1−1>に示すような誤差の検出を複数回繰り返して行った場合を考える。
【0054】
例えば、
図4の(a)に示すように、誤差検出部12が複数回例えば3回の誤差検出を繰り返し行い、それぞれ、同じ並びの信号値を順次(信号値−1、信号値1)を検出した場合を考える。この場合、最初に信号S111(信号値−1)、次に信号S112(信号値1)が検出された場合、誤差検出部12は、まず、特徴検出部11によって検出された、信号S113による対比特徴41(11)の信号値と標本31(11)との対比を行う。ここで、対比特徴41(11)の信号値と標本31(11)の信号値との間に誤差“−2”がある場合、標本31(11)の信号値に誤差“−2”を加え、信号値“1”の新たな標本31(12)を生成する。
図4の(d)に示す通り、対比の回数、2つ前の信号値、1つ前の信号値、検出された誤差の値、新たな標本、新たな信号値は記憶部19の第一のテーブル191(の「対比回数」が“1”の行)に記録される。
【0055】
次に、2回目に同じ並びの信号値である信号S114(信号値−1),S115(信号値1)が検出された場合、誤差検出部12は、標本31(12)の信号値と、信号S116による新たな対比特徴41(12)の信号値とを対比する。対比の結果、標本31(12)の信号値と対比特徴41(12)の信号値との間に誤差“1”が発生している場合、誤差の平均として、誤差の総和“−2+1=−1”を検出の回数“2”で割った値“−1÷2=−0.5”を算出し、算出された値を標本31(12)の信号値に加え、信号値“1.5”の新たな標本31(13)を生成する。
図4の(d)に示す通り、記憶部19の第一のテーブル191(の「対比回数」が“2”の行)には、この手順に基づき、1回目と同様の情報が記録される。
【0056】
更に、3回目に同じ並びの信号値である信号S117(信号値−1),S118(信号値1)が検出された場合、誤差検出部12は、標本31(13)の信号値と、信号S119による新たな対比特徴41(3)の信号値とを対比する。対比の結果、標本31(13)の信号値と対比特徴41(3)の信号値との間に誤差“−2”が発生している場合、誤差の平均として、誤差の総和“(−0.5)+(−0.5)−2=−3”を検出の回数“3”で割った値“−3÷3=−1”を算出し、算出された値を標本31(13)の信号値に加え、信号値“1”の新たな標本(図示せず)を生成する。
図4の(d)に示す通り、記憶部19の第一のテーブル191(の「対比回数」が“3”の行)には、この手順に基づき、1回目、2回目と同様の情報が記録される。
【0057】
誤差検出部12は、このように、誤差の平均値を標本に加えることにより、標本と対比特徴との誤差を一層小さくし、符号量を削減させることができる。
【0058】
<1−3.第一の音声信号圧縮方式の原理(3):標本の生成方法>
誤差検出部12は、過去に検出した直前2つの誤差の値に基づいて次の標本を生成することができる。
【0059】
例えば、
図5において、標本を生成するために信号S123に着目している場合を考える。そして、この場合に、着目している信号S123の2つ前の信号S121について、誤差検出部12が上記<1−1>に示すような誤差の検出(対比特徴41と標本31との対比、及び、対比特徴41の信号値から標本31の信号値を引いた値の算出)を行った結果、検出された誤差が“1”であり、同様に、着目している信号S123の1つ前の信号S122について、誤差検出部12によって検出された誤差が“−1”であった場合を考える。この場合、着目している信号S123の値の可能性として、(A)(B)の2つが考えられる。
(A)第一の可能性:直前2つの信号S121,S122誤差の延長線上の値である“3(つまり誤差“−2”)”・・・
図5の符号(A)
(B)第二の可能性:直前の信号S122の誤差と同じ値である“1(つまり誤差“0”)”・・・
図5の符号(B)
そこで、誤差検出部12は、この、符号(A)の信号値と、符号(B)の信号値の平均、即ち、(3+1)÷2=2、を次の標本31(21)の信号値として生成する。ただし、過去の統計情報等により、符号値(A)の信号値と符号(B)の信号値のいずれかの発生可能性が高いことが判っている場合には、誤差検出部12は、符号(A)の信号値と符号(B)の信号値に対し、発生可能性の高さに依存した重み付けを行って、標本31(21)の信号値を生成することもできる。このようにすることで、着目している信号に相関の高い直前の誤差の値に基づいて生成した標本31(21)に基づいて次の予測(信号値S123の予測)を行い、精度の高い予測を行い、符号量を減少させることができる。
【0060】
<1−4.第一の音声信号圧縮方式の原理(4):信号値の割り当て>
図6に示すように、誤差検出部12において複数、例えば“2”,“1”,“0”,“−1”,“−2”の5つ、の誤差の値が検出され、検出回数はそれぞれ2回、4回、20回、3回、1回である場合を考える。この場合、信号値割り当て部13は、エントロピー符号化、例えばハフマン符号化を適用し、検出回数の多いものから順に短い信号値を割り当てる。具体的には、前述の場合、誤差0に信号値“01”、誤差1に信号値“011”、誤差−1に信号値“0111”、誤差2に信号値“01111”、誤差−2に信号値“011111”を付与する。誤差の値、出現回数、それぞれの誤差に付与される信号値は、
図6に示す、記憶部19の第二のテーブル192に記録され、信号値割り当て部13は、この第二のテーブル192を参照して符号化や復号を行う。これにより、全体としての音声信号100の符号量を減らすことができる。
【0061】
なお、この<1−4>の処理を効率的に行うためには、音声信号圧縮装置1において、符号化の対象である音声信号100の、標本31に対する誤差を全て検出し、それぞれの誤差の値の出現頻度に関する統計情報を形成することが望ましい。
【0062】
<1−5.第一の音声信号圧縮方式の原理(5):丸め処理>
例えば、誤差検出部12において複数、例えば“2”,“1”,“0”,“−1”,“−2”の5つ、の誤差の値が検出された場合を考える。この場合、丸め処理部14は、任意の範囲内の数値を任意の数値に置き換える丸め処理を行う。具体的には、丸め処理部14は、
図7に示すように、「−1を越えて1未満」の値を全て「0」に、「1以上3未満」の値を全て「2」に、「−3を越えて−1以下」の値を全て「−2」に、それぞれ丸め処理により置き換える。丸め処理の対象となる値の範囲、丸め処理後の値は、
図7に示す、記憶部19の第三のテーブル193に記録され、丸め処理部14は、この第三のテーブル193を参照して符号化や復号を行う。これにより、誤差を示す情報の数を減らし、音声信号の符号量を減らすことができる。
【0063】
<1−6.第一の音声信号圧縮方式の手順>
図8は、上記<1−1>〜<1−5>を用いた第一の音声信号圧縮方式の具体的手順を示すフローチャートである。以下、同フローチャートに基づいて、音声信号圧縮装置1における、第一の音声信号圧縮の手順を説明する。
【0064】
まず、音声信号圧縮装置1は、音声信号100を取得する(ステップS1)。AD変換等の必要な処理は、この段階で、各種処理部2において行われる。量子化は44000Hz程度のサンプリング周波数にて行うが、これ以外のサンプリング周波数を用いてもよい。
【0065】
次に、取得された音声信号100は、任意の処理ブロック(例えば、予め設定された数秒〜数分単位の処理単位)に区分される(ステップS2)。ただし、音声信号100を処理ブロックに区分することなく、ファイル全体が一度に処理される態様であってもよい。
【0066】
次に、処理ブロック毎に、特徴検出部11による音声信号100の特徴検出(ステップS3、特徴検出手順)と、誤差検出部12による、対比特徴41と標本31との対比による誤差の検出(ステップS4、誤差検出手順)とが行われる。なお、音声信号100を構成する離散信号のうち、最初から3つ目の信号以降の標本31を生成する場合は、上記<1−3>に記載したように、直前2つの信号の誤差に基づいて標本31を生成することもできる。
【0067】
ステップS4においては、誤差検出部12は、誤差が検出された信号の信号値に、検出された誤差を加え、新たな標本31を生成する。
【0068】
ステップS3とステップS4とが複数回繰り返され、誤差が複数回検出された場合には、誤差検出部12は、誤差の平均値を算出し、標本31の信号値に、算出された誤差の平均値を加えて新たな標本31を生成する(ステップS5)。
【0069】
ステップS4において算出された誤差に対しては、丸め処理部14が、予め設定された規則に基づいて数値の丸め処理を行う(ステップS6)。
【0070】
ステップS3〜S6の処理は、処理ブロック全体の音声信号100について繰り返し行われる(ステップS7の“No”)。処理ブロック全体について、ステップS3〜S6の処理が完了した場合(ステップS7の“Yes”)、信号値割り当て部13は、処理ファイル全体における、検出された誤差の値について統計情報を作成し、出現頻度の高い誤差の値ほど短い信号値を割り当てる(ステップS8)。なお、処理が完了して圧縮された音声信号100は、各種処理部2に送られ、その後外部への出力等が行われる。
【0071】
以上示したように、この実施の形態の第一の音声信号圧縮方式においては、音声信号100に現れる特徴について、既に検出済の特徴に基づいて記録された、信号成分の予測情報である特徴の標本31と、対比対象として着目する特徴としての対比特徴41とを対比して、差分を誤差として検出し、検出された誤差を標本に加えて新たな標本31を生成することにより、既存の標本31を対比特徴41に一層近似させることができる。そして、新たに生成された標本31を生成後の対比特徴41との対比に用いることにより、現実の音声信号100の特徴により近似した標本31と音声信号100の対比特徴41とを対比させ、信号成分の予測情報と現実の音声信号100の対比による誤差をより小さいものとすることができる。そして、信号成分の予測情報である標本31の情報と誤差の情報に基づいて符号化を行うことで、周波数変換のような負荷の大きい処理を伴わずに音声信号を圧縮できる。これにより、回路規模や処理負荷が小さいもので足り、圧縮率に対して復号された音声信号100の音質を良好に保つことができる。
【0072】
この実施の形態の第一の音声信号圧縮方式においては、誤差検出部12は、検出された複数の誤差の平均値を算出し、算出された誤差の平均値を標本に加えて新たな標本31を生成することにより、標本31と対比特徴41との対比を繰り返すごとに、標本31と対比特徴41との誤差とを徐々に小さくすることができる。これにより、誤差の値を徐々に小さくし、符号量を減少させることができる。
【0073】
この実施の形態の第一の音声信号圧縮方式においては、直前二つの標本31に対する誤差の値に基づいて、次の標本31を算出することにより、着目している信号に相関の高い直前の誤差の値に基づいて生成した標本31に基づいて次の予測を行い、精度の高い予測を行い、符号量を減少させることができる。
【0074】
この実施の形態の第一の音声信号圧縮方式においては、検出された誤差に対し、出現頻度の高い数値ほど短い信号値を割り当てることにより、処理後の信号値を全体として短くして符号量を少なくすることができる。
【0075】
この実施の形態の第一の音声信号圧縮方式においては、誤差について、任意の範囲内の数値を任意の数値に置き換える丸め処理を行うことにより、誤差の記録に用いる符号の数を減らし、処理後の信号値を全体として短くして符号量を少なくすることができる。
【0076】
<2−1.第二の音声信号圧縮方式の原理>
図9乃至
図11に、第一の音声信号圧縮方式の原理を示す。
【0077】
第二の音声信号圧縮方式の原理は、音声信号のフィルタリングによるものである。第二の音声信号圧縮方式は、主として、音声信号圧縮装置1のフィルタ部15の処理に基づいて行われる。なお、第二の音声信号圧縮方式は、主として第一の音声信号圧縮である予測符号化と併用されるが、予測符号化とは独立して用いられてもよい。
【0078】
例えば、予測符号化による音声圧縮が行われた場合などにおいては、その音声信号100を(圧縮処理を含む)符号化を行った後に復号された音声信号100は、元の音声信号100に対する誤差が発生しうる。
図9の(a)の概念図に示す通り、この誤差105が、ランダムに発生するものであった場合は、
図9の(b)の概念図に示す通り、その誤差105は、全周波数帯域において均等に発生しうるものと同じことになる。即ち、
図9の(b)の概念図に示す通り、この誤差105が含まれて復号された音声信号100は、符号化前の元の音声信号100にホワイトノイズ110が付加されたものと同様になる。
【0079】
ここで、ホワイトノイズ110は全周波数帯域で均等な信号値である。一方、一般の音声信号100は、その性質上、高域ほど減衰が大きく、
図10の概念図に示すように、信号値は低域から中域が大きく、高域は小さくなる場合が多い。つまり、高域にいくほど、音声信号100よりもホワイトノイズ110が増加することになる。
【0080】
第二の音声信号圧縮方式においては、このような音声信号100の特質とホワイトノイズ110の特質に鑑み、
図10の概念図に示す通り、フィルタ部15が、誤差が存在しうる任意の帯域(周波数帯域)又は領域の信号を除去するフィルタリング処理、又はフィルタリング処理と同等の処理を行う。
【0081】
フィルタリング処理としては、フィルタ部15において、符号化された音声信号100が復号されたのち、
図10に示すように、ローパスフィルタ(LPF)やバンドパスフィルタ(BPF)をかけて高域成分を除去することで誤差の除去を行うことが考えられる。ただし、この実施の形態においては、音声信号100の周波数変換のような負荷の大きい処理を行わずに当該処理を行うことが望ましい。
【0082】
また、特定の周波数帯域の信号を除去したり修正したりする処理は、
図11の念図に示す通り、本来値が存在しうる信号値の範囲120(信号値の取り得る範囲)以外の存在する音声信号100について、削除したり、本来値が存在しうる信号値の範囲120に移動させる処理を行うことに等しい。そこで、フィルタリング処理と同等の処理としては、フィルタ部15において、
図11に示すように、本来値が存在しうる範囲120以外の値として存在する、音声信号100を構成する信号S131を除去することや、本来値が存在しうる信号値の範囲120以外の存在する音声信号100の値を、本来値が存在しうる信号値の範囲120に移動させて信号S132とする処理を行うことが考えられる。この処理は、符号化された音声信号100について行うこともできるし、復号された音声信号100について行うこともできる。このようにすることで、周波数変換のような負荷の大きい処理を行わずに、フィルタリング処理と同じ効果を得ることができる。フィルタリング処理と同等の処理を行うにあたり、フィルタ部15は、符号化前の音声信号に基づいて、音声信号100の本来値が存在しうる信号値の範囲120を確認し、この帯域の情報を基準にフィルタリング処理を行う。
【0083】
ここで、符号化される前の信号に基づいて、
図10に示すような、符号化の対象である音声信号100の存在しうる周波数帯域等の帯域や、
図11に示すような、符号化の対象である音声信号100の値の取り得る範囲120は、特定することができる。従って、これらの帯域や範囲をフィルタリング処理やフィルタリング処理と同等の処理を行う際の基準として用いることで、音声信号100と、ホワイトノイズ110と同等の性質を有する誤差とを区別し、誤差の処理(即ち誤差の削除や修正等)を適切に行うことができる。第二の音声信号圧縮においては、このような特質に基づいて、フィルタリング処理やフィルタリング処理と同等の処理を行う。即ち、フィルタリング処理にあたり、フィルタ部15は、符号化前の音声信号100に基づいて、音声信号100の存在しうる帯域(周波数帯域)を確認し、この帯域の情報を基準にフィルタリング処理を行う。
【0084】
このように、フィルタリング処理や、フィルタリング処理と同等の処理を行うことにより、符号化等によって発生した音声信号の歪みを除去することができる。
【0085】
<2−2.第二の音声信号圧縮方式の手順>
図12は、第二の音声信号圧縮の具体的手順を示すフローチャートである。同図に示す通り、フィルタ部15は、ステップS1〜S8の処理のうち一部又は全部などが行われる音声信号100について、符号化前の音声信号100が存在しうる帯域又は領域を確認する(ステップS11)。そして、フィルタ部15は、ステップS1〜S8の処理のうち一部又は全部などにより歪みが生じた音声信号100(符号化された音声信号100でもよいし、復号された後の音声信号100でもよい)に対し、符号化前の音声信号100が存在しうる帯域を基準としたフィルタリング処理や、符号化前の音声信号100が存在しうる領域を基準とした、フィルタリング処理と同等の処理を行う(ステップS12、フィルタリング手順)。
【0086】
以上示したように、この実施の形態の第二の音声信号圧縮方式においては、フィルタリング処理又はフィルタリング処理と同等の処理を行うにあたり、音声信号100ごとの存在しうる帯域又は領域に依存して、それぞれの音声信号100から除去する任意の帯域又は領域を変化させることにより、それぞれの音声信号100の特質や誤差の特質に適合したフィルタリング処理又はフィルタリング処理と同等の処理を行い、復号後の音声信号100に歪みが生じることを防止できる。これにより、復号された音声信号100の音質を一層良好に保つことができる。
【0087】
この実施の形態の第二の音声信号圧縮方式においては、フィルタ部15はローパスフィルタ又はバンドパスフィルタであることにより、音声信号100の存在する領域のみに対してフィルタリング処理又はフィルタリング処理と同等の処理を行い、適正な音声信号100が多い帯域と誤差の多い帯域とを適切に分離することができる。これにより、復号された音声信号100の音質を一層良好に保つことができる。
【0088】
この実施の形態の第二の音声信号圧縮方式においては、本来存在しうる値以外の値として存在する音声信号100の値を、音声信号100が本来存在しうる値に移動させる処理を行うことにより、フィルタリングと同等の処理を、周波数変換等の負荷の高い処理を伴わずに、適切に行うことができる。
【0089】
<3−1.第三の音声信号圧縮方式の原理>
図13及び
図14に、第三の音声信号圧縮方式の原理を示す。
【0090】
第三の音声信号圧縮方式の原理は、音声信号100の座標を別の座標に置換することによるものである。第三の音声信号圧縮方式は、主として、音声信号圧縮装置1の置換部16、分布領域確認部17、座標回転部18の処理に基づいて行われる。なお、第三の音声信号圧縮方式は、主として第一の音声信号圧縮方式等、予測符号化を用いた方式と併用されるが、予測符号化とは独立して用いられてもよい。
【0091】
第三の音声信号圧縮方式は、主としてステレオ音声等の2チャンネルの音声信号100を対象に行われる。ただし、ステレオ音声以外の2チャンネルの音声信号100に、第三の音声信号圧縮方式が用いられてもよい。
【0092】
たとえばステレオ音声は、第一の音声信号の値(例えばステレオ2チャンネルのうち左チャンネルの値)及び第二の音声信号(例えばステレオ2チャンネルのうち右チャンネルの値)の相関が高い。そのため、いわゆるMSステレオ(Middle Side Stereo)方式においては、L(左チャンネルの音声信号の値)とR(右チャンネルの音声信号の値)をパラメータとする座標空間に展開できる音声信号100を、以下式(1)、式(2)に示すような変換を行い、MとSとをパラメータとする座標空間に置換することで、符号量を減らす。
M=L+R・・・(1)
S=|L−R|・・・(2)
なお、式(2)は、“S=L−R”であってもよい。
第三の音声信号圧縮方式においては、置換部16が、上記式(1)と式(2)とに基づいて、
図13の(a)に示す、LR座標空間130の音声信号100を、
図13の(b)に示す「置換座標空間」としてのMS座標空間140の音声信号100に置換する。なお、
図13、
図14においては、それぞれ、LR座標空間130、及びMS座標空間140において、音声信号100の値が存在する領域を模式的に示している。
【0093】
上述したように、ステレオ音声の音声信号100は左右の信号の相関が大きいので、
図13の(b)に示すように、MS座標空間140に置換した後の音声信号100の信号値は、式(2)の値が0に近づいた結果、M軸周辺に集中することになる。そこで、MSステレオ方式においては、分散が最も大きい方向(即ち、音声信号100同士の距離が最も長くなる方向。
図14における矢印Pの方向。)を第一軸に、第一軸に直行する方向(
図14に示す矢印Rの方向)を第二軸に、それぞれ置換したのちに処理を行う。
【0094】
しかし、このような座標変換は、音声信号100がM軸周辺に均一に(略楕円形となるように)分布している場合には、置換後の音声信号100を圧縮する際に高い圧縮効果が得られるものの、音声信号100の場合には、
図14に示すように、音声信号100はM軸周辺において不均一に分布する場合が多いため、最大分散方向を基準とする変換においては、良好な圧縮効果が得られず、良好な符号量削減の効果が得られない場合が多い。
【0095】
そこで、第三の音声信号圧縮方式においては、
図14に示すように、MS座標空間140に変換した音声信号100について、分布領域確認部17が分布領域の確認を行い、確認の結果に基づいて、座標回転部18が、分散が最も小さい方向(即ち、音声信号100同士の距離が最も短くなる方向。
図14における矢印Qの方向。)を第一軸に、第一軸に直交する方向(
図14における矢印Rの方向)を第二軸になるように、MS座標空間140の座標軸を回転変換する。これにより、良好な圧縮効果が得ることができ、良好な符号量削減の効果を得ることができる。
【0096】
<3−2.第三の音声信号圧縮方式の手順>
図15は、第三の音声信号圧縮方式の手順を示すフローチャートである。同図に示す通り、置換部16は、LR座標空間130に存在する音声信号100の値を、MS座標空間140に存在する音声信号100の値に置換する(ステップS21、置換手順)。音声信号100がMS座標空間140に置換されたのち、分布領域確認部17は、MS座標空間140における音声信号100の分布領域を確認する(ステップS22、分布領域確認手順)。分布領域確認部17の確認により、音声信号100の分散が最小となる方向が確認されたら、座標回転部18は、音声信号100の分散が最小となる方向が第一軸になり、第一軸に直交する方向を第二軸になるように座標を回転させる(ステップS23、座標回転手順)。
【0097】
このようにすることで、第一の音声信号(左チャンネルの信号)の値と第二の音声信号(右チャンネルの信号)の値の相関関係が小さい場合であっても、効率良く音声信号100の符号量を減少させることができる。
【0098】
以上、この実施の形態の第三の音声信号圧縮方式においては、第一の音声信号(左チャンネル:L)の値及び第二の音声信号の値(右チャンネル:R)の和からなる第一のパラメータMと、第一の音声信号の値及び第二の音声信号の値の差からなる第二のパラメータSとからなるMS座標空間140に置換された音声信号100を、音声信号100の分散が最も小さい方向を基準に回転変換を行うことにより、第一の音声信号の値と第二の音声信号の値の相関関係が小さい場合であっても、効率良く符号量を減少させることができる。
【0099】
なお、上記実施の形態は本発明の例示であり、本発明が上記実施の形態のみに限定されることを意味するものではないことは、いうまでもない。
【0100】
<実施例>
図16乃至
図19は、本発明の第一乃至第四の実施例における結果を示す図である。これらの図においては、それぞれ、同一の音声や音楽を、本発明に係る第一の音声信号圧縮、本発明に係る第二の音声信号圧縮、従来の音声信号圧縮によって圧縮した場合における、圧縮率と、復号後の音質との相関を示している。これらの図において、「1号(フィルタあり)」と「2号(フィルタあり)」とは、本発明に係る音声圧縮方式(第一の音声信号圧縮+第二の音声信号圧縮)による結果を示す。また、「1号(フィルタなし)」と「2号(フィルタなし)」とは、本発明に係る音声圧縮方式(第一の音声信号圧縮)による結果を示す。なお、「1号」「2号」は、それぞれ、実験において、符号の割り当て方法、閾値の動的変化ルール等を任意条件に固定した場合の一例の実験(任意実験)の結果を示すものである。
【0101】
また、
図16乃至
図19に示す、「MS−ADPCM」「ogg」「mp3」は、それぞれ、従来の音声圧縮方式である、MS−ADPCM、ogg、MP3による結果を示す。縦軸は音質(単位はEAQUAL(Evaluation Of Audio Quality)として示す。これは、例えばITU−R BS.1387に使用されている音質評価の単位が相当する。)を示し、値が大きくなるほど音質が良い。横軸は1サンプルあたりのビット数(単位はビット。値が大きくなる程圧縮率が小さい。)を示し、グラフの左上にいく程圧縮率に対する音質が良好であり、良好な結果であることを示している。
【0102】
これらのグラフに示す通り、本発明に係る音声圧縮方式は、oggやMP3とほぼ同等の良好な結果を示し、特に、“chocorateforyou”“mybloomdusts”の結果においては、圧縮率の高い領域で、oggやMP3よりも良好な結果を示している。本発明に係る音声圧縮方式は負荷の大きい処理を伴わないのに対し、oggやMP3が周波数変換を伴い負荷の大きい処理であることに鑑みれば、本発明に係る音声圧縮方式は、負荷の小さい処理により、従来の負荷の大きい音声圧縮方式と同等以上の良好な結果を得られることが判る。
【0103】
また、本発明に係る音声圧縮方式は、圧縮率の比較的高い領域を中心に、MS−ADPCMよりも高い音質を得られていることが確認される。
【0104】
以上により、本発明に係る音声圧縮方式は、従来の音声圧縮方式に比べ、総合的に見て、回路規模や処理負荷が小さいもので足り、圧縮率に対して復号された音声信号の音質を良好に保つことができることが確認された。