(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
近年、VoIP(Voice over IP)を利用したIP電話が普及している。これを、パーソナルコンピュータ(PC)やスマートフォンなどの情報処理装置上のアプリケーションとして実現するものがあり、一般にソフトフォンと称されている。ソフトフォンにおいては、音声の入出力に際して、情報処理装置に内蔵された汎用的なサウンドデバイス(A/D変換器やD/A変換器を含む)、そのデバイスのドライバが利用される。
【0003】
ところが、このようなドライバは、情報処理装置上で動作する他のソフトウェアと時分割で動作させているため、他のソフトウェアの処理によっては、音声の入出力を規定の時間で処理することができない場合も生じる。この結果、音声信号の入出力に途切れや欠落が生じて不連続になり、エコーキャンセラにとってはエコー経路の特性(特に遅延時間)が変化しているように見え、しかも、このようなエコー経路の特性変化は、他のソフトウェア処理との時分割処理の関係で突発的であり、マイクロホンからの音声信号に含まれているエコー成分を消去するのは困難にしていた。
【0004】
このようなエコー特性の変化に対応する方法として、特許文献1では、ハードウェア構成を工夫する方法が提案されている。
【0005】
しかしながら、特許文献1の記載技術は、情報処理装置の改修又は特殊な回路の追加が必要になり、汎用的な情報処理装置の機能特性を阻害する恐れがあり、話者である情報処理装置のユーザにとっては、使い勝手の悪いものとなっていた。
【0006】
このような課題を解決するために、特許文献2では、ハードウェアの変更を伴わない手法が提案されている。
【0007】
特許文献2に記載のエコーキャンセラは、送話信号を平滑化した平滑送話信号(送話信号のパワ情報)を算出する平滑送話信号計算手段と、受話信号を平滑化した平滑受話信号(受話信号のパワ情報)を算出する平滑受話信号計算手段と、平滑送話信号及び平滑受話信号の相関に基づき、エコー経路による遅延特性を反映させたエコー経路遅延時間の情報を得る遅延時間情報形成手段とを備えている。
【発明を実施するための形態】
【0016】
(A)第1の実施形態
以下、本発明によるエコー経路遅延測定装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。第1の実施形態のエコー経路遅延測定装置は、エコーキャンセラ装置に組み込まれて使用されることを意図したものである。
【0017】
第1の実施形態は、受話信号(遠端信号)及び送話信号(近端信号)の各々のピッチ特性を分析し、両ピッチ特性の類似度(相関)を基にエコー経路遅延時間を測定するものである。
【0018】
(A−1)第1の実施形態の構成
図1は、第1の実施形態のエコー経路遅延測定装置100の機能的構成を示すブロック図である。
【0019】
第1の実施形態のエコー経路遅延測定装置は、例えば、PCやスマートフォン等の情報処理装置に搭載されるものである。第1の実施形態のエコー経路遅延測定装置は、例えば、専用ボードとして構築されたものであっても良く、DSP(デジタルシグナルプロセッサ)へのエコー経路遅延測定プログラムの書き込みによって実現されたものであっても良く、CPUと、CPUが実行するソフトウェア(エコー経路遅延測定プログラム)によって実現されたものであっても良いが、機能的には、
図1で表すことができる。
【0020】
図1において、第1の実施形態のエコー経路遅延測定装置100は、送話ピッチ特性計算回路101、受話ピッチ特性計算回路102及び相関分析回路103を有する。
【0021】
第1の実施形態のエコー経路遅延測定装置100には、図示しない近端のマイクロホンが捕捉し、デジタル化されたデジタル送話信号(以下、送話信号と呼ぶ)s(n)と、図示しないスピーカに向かう遠端からのデジタル受話信号(以下、受話信号と呼ぶ)r(n)とが入力されるものであり、送話信号s(n)と受話信号r(n)とからエコー経路遅延時間の情報Tを得るものである。スピーカから放音された音声、音響をマイクロホンが捕捉するに至る、音声、音響の伝搬経路であるエコー経路での遅延時間特性は一定でないことを前提としている。例えば、エコー経路遅延測定装置100よりスピーカ側で受話信号を処理する構成や、エコー経路遅延測定装置100よりマイクロホン側で送話信号を処理する構成が、CPUによる時分割処理によるソフトウェア処理構成である場合に、このような遅延時間特性の変化が生じる。
【0022】
また、第1の実施形態のエコー経路遅延測定装置100においては、送話信号s(n)は、一定時間のサンプル数ごとに切り出されたフレームを単位に処理され、受話信号r(n)も、一定時間のサンプル数ごとに切り出されたフレームを単位に処理される。以下の説明においては、1フレームのサンプル数をNとして表記している。
【0023】
送話ピッチ特性計算回路101は、(1)式に示すように、フレーム毎に、現フレームの送話信号s(x−(N−1))〜s(x)と過去の任意の位置の1フレーム分の送話信号s(x−j−(N−1))〜s(x−j)との自己相関RS(j)を計算し、自己相関が最大となるj
maxを探索し、最大となるj
maxを現フレームのズレ量Spとして相関分析回路103に出力するものである。なお、(1)式におけるPS(j)は、(2)式に従って計算される送話信号及び受話信号の双方のパワを考慮したパワの標準的な値である。(1)式及び(2)式における総和Σはnがx−(N−1)〜xについてである。最大のズレ量j
maxは、jが概ね2.5ms〜18.5msとなる範囲で探索する。ズレ量j
maxは、自己相関が最大となるずれであるので、送話信号のその時点のピッチ特性を反映したものとなっている。
【0024】
図2は、現フレームの送話信号s(x−(N−1))〜s(x)と過去の任意の位置の1フレーム分の送話信号s(x−j−(N−1))〜s(x−j)と、ズレ量jとの関係を概念的に示す説明図である。
【0025】
RS(j)=Σ(s(n)*s(n−j))/PS(j) …(1)
PS(j)=√(Σ(s(n)*s(n))
*√(Σ(s(n−j)*s(n−j))) …(2)
受話ピッチ特性計算回路102は、受話信号r(n)に対して、送話ピッチ特性計算回路101と同様な処理を行い、自己相関が最大となる現フレームのズレ量Rpを相関分析回路103に出力するものである。
【0026】
相関分析回路103は、フレーム単位に与えられる送話信号に係るズレ量Sp及び受話信号に係るズレ量Rpの時系列を各々保存しておき、これらの時系列Sp(M−L+1)〜Sp(M)とRp(M−k−L+1)〜Rp(M−k)との間で、パラメータkを所定の範囲内で変化させながら、(3)式に従って類似誤差R(k)を計算し、類似誤差が最小となるk
minを探索し、類似誤差が最小となる、フレーム数で表されているk
minをミリ秒(ms)に換算してエコー経路遅延時間Τとして次段に出力するものである。(3)式において、mは時系列上でのフレーム順番(時刻)を表すパラメータである。類似誤差を算出するための時間をL(Lは1以上の任意の整数;Lが1の場合には(3)式における総和処理は不要となる)とし、現フレームの時刻をMとする。(3)式における総和Σは、mがM−L+1からMについてである。類似誤差が最小となるk
minは、受話信号に係るピッチ特性の変化傾向と、送話信号に係るピッチ特性の変化傾向とが非常に類似しているので、送話信号がエコーとして受話信号に回り込む際のエコー経路における遅延時間を表す値として捉えることができるものである。
【0027】
図3は、送話信号に係るズレ量Spの時系列Sp(M−L+1)〜Sp(M)と受話信号に係るズレ量Rpの時系列Rp(M−k−L+1)〜Rp(M−k)現フレームの送話信号s(x−(N−1))〜s(x)と、パラメータkとの関係を概念的に示す説明図である。
【0028】
R(K)=Σ((Sp(m)−Rp(m−k))
*(Sp(m)−Rp(m−k)) …(3)
ここで、相関分析回路103は、探索した類似誤差の最小値がある値に設定した閾値を超えている場合には、2つの信号の時系列Sp(M−L+1)〜Sp(M)とRp(M−k−L+1)〜Rp(M−k)が類似していないとして、エコー経路遅延時間Τの次段への出力を止めるようにする。
【0029】
次段の回路がエコーキャンセラ装置の本体である場合には、例えば、特許文献2に記載のように、エコー経路遅延時間Τが利用される。
【0030】
(A−2)第1の実施形態の動作
次に、第1の実施形態のエコー経路遅延測定装置100の動作を、上述した
図1を参照しながら説明する。
【0031】
遠端からの受話信号r(n)は、図示しないスピーカから発音出力され、エコー経路を介して、その時点でエコー経路に固有な遅延時間Tだけ遅れて、図示しないマイクロホンで捕捉され、送話信号s(n)にエコー成分として入り込む。受話信号r(n)は、主に音声信号であるため遠端話者に特有のピッチ特性を有する。例えば、単純波形である正弦波信号はピッチが一定であるが、音声信号の場合、ピッチは一定ではなく緩やかに変動する。受話信号r(n)がエコーとして送話信号s(n)に入り込むので、受話信号r(n)におけるある期間のピッチ特性は、エコー経路の遅延時間Tだけ遅れて、送話信号(におけるエコー成分)s(n)のピッチ特性として表れる。
【0032】
この第1の実施形態のエコー経路遅延測定装置100では、以上のような点に着目し、送話信号s(n)におけるピッチ特性変動と類似する受話信号r(n)におけるピッチ特性変動を探索することを通じて、エコー経路の遅延時間Tを得ることとした。
【0033】
送話信号s(n)は、送話ピッチ特性計算回路101に入力される。送話ピッチ特性計算回路101においては、(1)式に示すように、フレーム毎に、現フレームの送話信号s(x−(N−1))〜s(x)と過去の任意の位置の1フレーム分の送話信号s(x−j−(N−1))〜s(x−j)との自己相関RS(j)が計算され、自己相関RS(j)が最大となるj
maxが、現フレームのズレ量Spとして相関分析回路103に出力される。
【0034】
受話信号s(n)は、受話ピッチ特性計算回路102に入力される。受話ピッチ特性計算回路102においては、フレーム毎に、現フレームの受話信号r(x−(N−1))〜r(x)と過去の任意の位置の1フレーム分の受話信号r(x−j−(N−1))〜r(x−j)との自己相関RR(j)が計算され((1)式参照)、自己相関RR(j)が最大となるj
maxが、現フレームのズレ量Rpとして相関分析回路103に出力される。
【0035】
相関分析回路103においては、フレーム単位に与えられる送話信号に係るズレ量Sp及び受話信号に係るズレ量Rpの時系列が各々保存される。そして、相関分析回路103において、これらの時系列Sp(M−L+1)〜Sp(M)とRp(M−k−L+1)〜Rp(M−k)との間で、パラメータkを所定の範囲内で変化させながら、(3)式に従って類似誤差R(k)が計算され、類似誤差が最小となるフレーム数で表されているk
minがミリ秒(ms)に換算されてエコー経路遅延時間Τとして次段に出力される。
【0036】
(A−3)第1の実施形態の効果
第1の実施形態によれば、音声信号(受話信号)の特徴を現すピッチの時間変動を基にエコー経路の遅延時間を測定しているため、特許文献2に記載のパワ変動を基に測定する場合に比べて、背景雑音などの影響を受け難く、安定したエコー経路遅延時間の測定結果を得ることができる。
【0037】
(B)第2の実施形態
次に、本発明によるエコー経路遅延測定装置、方法及びプログラムの第2の実施形態を、図面を参照しながら説明する。
【0038】
図4は、第2の実施形態のエコー経路遅延測定装置100Aの機能的構成を示すブロック図である。
【0039】
図4において、第2の実施形態のエコー経路遅延測定装置100Aは、送話ピッチ特性計算回路101、受話ピッチ特性計算回路102及び相関分析回路103に加え、送話側LPC(Linear Predictive Coding)分析回路104及び受話側LPC分析回路105を有する。
【0040】
送話側LPC分析回路104には送話信号s(n)が入力される。送話側LPC分析回路104は、送話信号s(n)に対してLPC分析を行い、分析で得られたLPC係数と残差信号のうち、残差信号を送話ピッチ特性計算回路101に与えるものである。
【0041】
一方、受話側LPC分析回路105には受話信号r(n)が入力される。受話側LPC分析回路105は、受話信号r(n)に対してLPC分析を行い、分析で得られたLPC係数と残差信号のうち、残差信号を受話ピッチ特性計算回路102に与えるものである。
【0042】
送話ピッチ特性計算回路101は、第1の実施形態とは異なり、送話信号s(n)ではなく、送話側LPC分析回路104からの残差信号に対して、第1の実施形態で説明した処理を施すものである。
【0043】
同様に、受話ピッチ特性計算回路102は、第1の実施形態とは異なり、受話信号r(n)ではなく、受話側LPC分析回路105からの残差信号に対して、第1の実施形態で説明した処理を施すものである。
【0044】
残差信号は、周知のように、音声信号(送話信号や受話信号)から声道情報を除外した概ね励振源信号(声帯駆動信号)となっており、音声信号そのものよりピッチが明確になっているものである。そのため、第2の実施形態のエコー経路遅延測定装置100Aでは、送話信号及び受話信号に関し、残差信号からピッチ特性を検出することした。
【0045】
以上の点を除けば、第2の実施形態も第1の実施形態と同様である。
【0046】
第2の実施形態によれば、第1の実施形態以上に正確に送話信号及び受話信号のピッチの特性を検出でき、その結果、背景雑音などの影響を受け難く、より一段と安定したエコー経路遅延時間の測定結果を得ることができる。
【0047】
(C)第3の実施形態
次に、本発明によるエコー経路遅延測定装置、方法及びプログラムの第3の実施形態を、図面を参照しながら説明する。
【0048】
図5は、第3の実施形態のエコー経路遅延測定装置100Bの機能的構成を示すブロック図である。
【0049】
図5において、第3の実施形態のエコー経路遅延測定装置100Bは、送話ピッチ特性計算回路101、受話ピッチ特性計算回路102及び相関分析回路103に加え、有音無音判定回路106を有する。
【0050】
有音無音判定回路106には送話信号s(n)が与えられる。有音無音判定回路106は、フレーム毎に有音無音判定を行い、その判定結果を相関分析回路103に与えるものである。有音無音判定回路106が適用する有音無音判定方法は、既存のいかなる方法を適用しても良い。ここで、有音又は無音を切り分けるための閾値として、近端話者の音声信号が送話信号に含まれていないエコー信号だけが含まれているときにも「有音」と判定する閾値を適用することが好ましい。
【0051】
第3の実施形態の相関分析回路103は、有音無音判定回路106から与えられたフレーム毎の有音無音判定結果の時系列を保存しておくものである。相関分析回路103は、現フレームが無音のときは、分析を実行せず、エコー経路遅延時間Tを出力させない(なお、有効な分析を行った直前のエコー経路遅延時間Tを出力させるようにしても良い)。相関分析回路103は、現フレームが有音のときは、現フレームから過去に遡って有音が連続している1又は複数のフレームでなる区間を把握し、有音連続フレーム区間の送話系のピッチ特性変動に類似する、受話系のピッチ特性変動を、第1の実施形態で説明した方法により認識し、エコー経路遅延時間Tを求める。
【0052】
以上の点を除けば、第3の実施形態も第1の実施形態と同様である。
【0053】
第3の実施形態によれば、少なくとも送話信号が有音であることを条件としてエコー経路遅延時間を測定するようにしたので、その結果、背景雑音などの影響を受け難く、より一段と安定したエコー経路遅延時間の測定結果を得ることができる。
【0054】
(D)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に、例示するような変形実施形態を挙げることができる。
【0055】
第2の実施形態におけるLPC分析回路を追加した技術思想と、第3の実施形態における有音無音判定回路を追加した技術思想とを併用するようにしても良い。
【0056】
上記第2の実施形態では、励振源信号(声帯駆動信号)を得るためにLPC分析を利用するものを示したが、他の方法によって励振源情報を得るようにしても良い。
【0057】
上記第2の実施形態では、送話信号の処理系及び受話信号の処理系の双方にLPC分析回路を設けたものを示したが、一方(例えば、送話信号の処理系)だけにLPC分析回路を設けるようにしても良い。
【0058】
上記第3の実施形態では、送話信号に対してのみ有音無音判定するものを示したが、受話信号に対しても有音無音判定を行うようにしても良い。例えば、送話信号の有音区間でのピッチ特性変動と、受話信号の有音区間でのピッチ特性変動との間で、類似誤差が最小となるズレフレーム数を求めるようにしても良い。
【0059】
送話信号や受話信号のピッチの検出方法は、上記各実施形態のものに限定されず、また、送話信号のピッチ特性変動と受話信号のピッチ特性変動との間の類似度を示す指標も、類似誤差に限定されないことは勿論である。
【0060】
上記各実施形態においては、PCやスマートフォン上のソフトフォンに係るエコーキャンセラ装置を意図してなされたものであるが、本発明の用途は、それに限定されるものではない。エコー経路の特性(特に遅延特性)が突発的に変化する可能性がある装置のエコーキャンセラとして適用することができるだけでなく、エコー経路の特性の変化が緩やかである装置のエコーキャンセラとしても適用することができる。また、対象とするエコーは、音響エコーに限定されない。例えば、PCではある信号線を流れている音声信号が他の信号線にも流れるクロストークが生じることがあるが、このようなクロストークも一種のエコーであり、上記各実施形態で説明した遅延時間の測定方法を適用することができる。特許請求の範囲は、このようなエコーと見なされるエコーをも含むものである。