(58)【調査した分野】(Int.Cl.,DB名)
放音装置及び集音装置を備える通話装置が遠端側から受信する受話入力信号を取得して前記受話入力信号に基づく受話出力信号を前記放音装置側に供給し、前記集音装置側から供給された送話入力信号を取得して前記送話入力信号に基づく送話出力信号を遠端側に送信する信号処理装置において、
少なくとも、前記送話入力信号と、前記受話入力信号と、前記送話入力信号と前記受話出力信号との相対的な所定の音量比を示す相対音量値とを利用して、前記受話出力信号を処理するための適応利得として、前記送話入力信号の音量と前記相対音量値に関して広義単調増加し、且つ、前記受話入力信号の音量に関して広義単調減少する値を算出して出力する適応利得算出手段と、
前記適応利得算出手段が算出した適応利得を、前記受話入力信号に乗じて前記受話出力信号を得る乗算手段と
を有することを特徴とする信号処理装置。
前記送話入力信号と、前記受話出力信号とに基づいて、前記送話入力信号にエコーとして混入した受話出力信号の成分を除去したエコー除去後の送話入力信号を生成して、前記適応利得算出手段に供給するとともに、前記エコー除去後の送話入力信号を前記送話出力信号として遠端側に供給するエコー除去手段をさらに備えることを特徴とする請求項1に記載の信号処理装置。
放音装置及び集音装置を備える通話装置が遠端側から受信する受話入力信号を取得して前記受話入力信号に基づく受話出力信号を前記放音装置側に供給し、前記集音装置側から供給された送話入力信号を取得して前記送話入力信号に基づく送話出力信号を遠端側に送信する信号処理装置に搭載されたコンピュータを、
少なくとも、前記送話入力信号と、前記受話入力信号と、前記送話入力信号と前記受話出力信号との相対的な所定の音量比を示す相対音量値とを利用して、前記受話出力信号を処理するための適応利得として、前記送話入力信号の音量と前記相対音量値に関して広義単調増加し、且つ、前記受話入力信号の音量に関して広義単調減少する値を算出して出力する適応利得算出手段と、
前記適応利得算出手段が算出した適応利得を、前記受話入力信号に乗じて前記受話出力信号を得る乗算手段と
して機能させることを特徴とする信号処理プログラム。
放音装置及び集音装置を備える通話装置が遠端側から受信する受話入力信号を取得して前記受話入力信号に基づく受話出力信号を前記放音装置側に供給し、前記集音装置側から供給された送話入力信号を取得して前記送話入力信号に基づく送話出力信号を遠端側に送信する信号処理装置が行う信号処理方法において、
適応利得算出手段、及び乗算手段を備え、
前記適応利得算出手段は、少なくとも、前記送話入力信号と、前記受話入力信号と、前記送話入力信号と前記受話出力信号との相対的な所定の音量比を示す相対音量値とを利用して、前記受話出力信号を処理するための適応利得として、前記送話入力信号の音量と前記相対音量値に関して広義単調増加し、且つ、前記受話入力信号の音量に関して広義単調減少する値を算出して出力し、
前記乗算手段は、前記適応利得算出手段が算出した適応利得を、前記受話入力信号に乗じて前記受話出力信号を得る
ことを特徴とする信号処理装置方法。
放音装置と、集音装置と、遠端側から受信する受話入力信号を取得して前記受話入力信号に基づく受話出力信号を前記放音装置側に供給し、前記集音装置側から供給された送話入力信号を取得して前記送話入力信号に基づく送話出力信号を遠端側に送信する信号処理装置とを備える通話装置において、前記信号処理装置として請求項1〜5のいずれかに記載の信号処理装置を適用したことを特徴とする通話装置。
【発明を実施するための形態】
【0021】
(A)第1の実施形態
以下、本発明による信号処理装置、プログラム及び方法、並びに、通話装置の第1の実施形態を、図面を参照しながら詳述する。
【0022】
(A−1)第1の実施形態の構成
図2は、この実施形態の通話装置1000(双方向通話装置)の全体構成を示すブロック図である。なお、
図2において括弧内の符号は、後述する第2〜第6の実施形態で用いられる符号である。
【0023】
通話装置1000は、受信装置1、デコード装置2、信号処理装置3、音量指示装置4、D/A変換装置5、放音装置6、集音装置8、A/D変換装置9、エンコード装置10、及び送信装置11を有している。
【0024】
受信装置1は、有線又は無線によって伝送される受話データを受信するものである。
【0025】
デコード装置2は、遠端側から受信した受信データをデコードしてディジタル信号(例えば、PCM形式のディジタル音声信号)を取得し、受話入力信号として、信号処理装置3に供給する。
【0026】
信号処理装置3は、受話入力信号そのもの、又は加工された受話入力信号を受話出力信号としてD/A変換装置5に与える。また、信号処理装置3は、送話入力信号そのもの、又は加工された送話入力信号を送話出力信号としてエンコード装置10に与える。
【0027】
D/A変換装置5は、信号処理装置3から供給された受話入力信号(加工された受話入力信号)をアナログ変換して、放音装置6に供給する。
【0028】
放音装置6(スピーカ)は、D/A変換装置5から供給されたアナログ形式の受話入力信号に基づく音を空間へ放音する。
【0029】
集音装置8(マイク)は、双方向通話装置を使用しているユーザの声や背景雑音を集音し、得られた送話信号(アナログ信号)をA/D変換装置9へ与える。なお、送話信号には、放音装置6から放音された受話信号が、エコー経路7を介して集音されていることもある。
【0030】
A/D変換装置9は、送話信号をディジタル信号へと変換し、当該ディジタル信号を送話入力信号として信号処理装置3に与える。
【0031】
エンコード装置10は、送話出力信号をエンコードして得られた送話データを送信装置11に与え、送信装置11は送話データを有線又は無線によって遠端側へ伝送する。
【0032】
音量指示装置4は、ユーザから放音音量の制御指示を受け付けるための装置である。従来の電話装置において、音量指示装置によってユーザに指定された値は、受話入力信号に乗じられる利得に相当するもの(音量指示値、又は絶対音量指示値と言い換えられる)であった。これに対してこの実施形態の音量指示装置4は、送話入力信号と受話出力信号との相対的な音量比に相当する値の入力を受け付けるものとする。そのため、以下では、音量指示装置4から信号処理装置3に与えられるユーザに指定された値を、「相対音量指示値」又は「相対音量値」と呼ぶものとする。音量指示装置4がユーザからの指示を受け付ける具体的なデバイスについては限定されないものであるが、例えば、ハードウェア的なボタンやツマミを備えるボリューム(例えば、可変抵抗器)を用いるようにしてもよいし、コンピュータ上の操作画面(GUI画面)のオブジェクト(例えば、ソフトウェアボタン等)を用いるようにしてもよい。
【0033】
次に、信号処理装置100の内部構成について説明する。
【0034】
図1は、信号処理装置100の内部構成について示した説明図である。
【0035】
図1に示すように、第1の実施形態の信号処理装置100は、適応利得算出手段101、及び乗算手段102を有している。
【0036】
適応利得算出手段101は、送話入力信号siと受話入力信号riと相対音量指示値Vとに基づいて適応利得Gを算出する。
【0037】
乗算手段102は、適応利得Gを受話入力信号riに乗じて受話出力信号roを得る。
【0038】
図3は、適応利得算出手段101内部の機能的構成について示したブロック図である。
【0039】
図3に示すように、適応利得算出手段101は、送話音量算出手段110、受話音量算出手段111、及び適応利得決定手段112を有している。
【0040】
送話音量算出手段110は、送話入力信号siの音量(すなわち送話音量sv)を算出する。
【0041】
受話音量算出手段111は、受話入力信号riの音量(すなわち受話音量rv)を算出する。
【0042】
適応利得決定手段112は、送話音量svと受話音量rvと相対音量指示値Vに基づいて、適応利得Gを決定する。
【0043】
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第2の実施形態の通話装置1000を構成する信号処理装置100の動作(実施形態に係る信号処理方法)を説明する。
【0044】
適応利得算出手段101は、送話入力信号siと受話入力信号riと相対音量指示値Vとに基づいて、適応利得Gを算出し、得られた適応利得Gを乗算手段102に与える。Gは、siの音量とVに関して広義単調増加するように、且つ、riの音量に関して広義単調減少するように決定される。適応利得算出手段101の詳細な動作については後述する。
【0045】
乗算手段102は、受話入力信号riに適応利得Gを乗じ、得られた受話出力信号roを出力する。
【0046】
次に、適応利得算出手段101の詳細な動作を、
図3を参照しながら説明する。
【0047】
送話音量算出手段110は、送話入力信号siの音量を算出し、得られた送話音量svを適応利得決定手段112に与える。ここで、音量とは、信号の振幅又はパワーを意味する。音量の算出方法は、例えば信号の絶対値(振幅)又は2乗値(パワー)の、ある区間の最大値や平均値を音量とする方法や、又は時定数フィルタ(リーク積分とも呼ぶ)によって平均値を推定する方法が良く用いられるが、限定はされない。以下では、信号の絶対値(振幅)の平均値を時定数フィルタによって推定した値を音量と呼ぶ。具体的には、現在の送話入力信号をsi、1サンプル過去の送話音量をsv’、時定数をτ(タウ、0<τ<1)として、式(1)によって算出する。
sv=(τ−1)・|si|+τ・sv’ …(1)
【0048】
サンプリング周波数8kHzの音声信号の振幅を、初期値を0.03、τ=0.9999として、式(1)にしたがって算出した例を
図4に示す。
図4(a)は、横軸を時間、縦軸を送話入力信号siとしたグラフである。また、
図4(b)は、横軸を時間、縦軸を送話音量svとしたグラフである。
【0049】
受話音量算出手段111は、受話入力信号riの音量を算出し、得られた受話音量rvを適応利得決定手段112に与える。音量の定義と算出方法は、送話音量算出手段110と同じ方法かつ同じパラメータ(同じτの値)を用いるのが好適であるが、限定はされない。
【0050】
適応利得決定手段112は、送話音量svと受話音量rvと相対音量指示値Vに基づいて、適応利得Gを決定して、出力する。Gは、svとVに関して広義単調増加するように、かつ、rvに関して広義単調減少するように決定される。Gの決定方法は、sv、rv、Vとの関係を満たす方法であればどのような方法を用いても良いが、式(2)を用いるのが好適である。
【数1】
【0051】
Gの決定方法は、当然式(2)のような連続関数に制限されるわけではなく、種々の決定方法を適用することができる。例えば、
図5に示すような表に従って決定してもよい。
図5では、「(sv・V)/rv」の値の範囲ごとに、Gの値を設定した表である。例えば、
図5では、「(sv・V)/rv」が0.3未満の場合G=0.5としている。また、
図5では、「(sv・V)/rv」が0.3以上0.7未満の場合G=0.7としている。さらに、
図5では、「(sv・V)/rv」が0.7以上1.4未満の場合G=1.0としている。さらにまた、
図5では、「(sv・V)/rv」が1.4以上3.3未満の場合G=1.4としている。また、
図5では、「(sv・V)/rv」が3.3以上の場合G=2.0としている。
【0052】
式(2)による適応利得Gの決定は、送話入力信号siと受話入力信号riの変化に対して、Gも滑らかに変化するので、異音が発生しにくいという利点がある。一方、
図5の表に基づくGの決定は、送話入力信号siと受話入力信号riが微小に変化してもGは変化しない安定性が得られる利点と、送話音量svと受話音量rvに対してGを柔軟に決められるという利点がある。
【0053】
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0054】
通話装置1000において、放音装置6から放音される音量は、近端側の状況に応じて制御することが望ましい。受話信号の放音音量(放音装置6から放音される音量)に関する近端側の状況は、以下のような発話音量(近端話者の発話音量)に関する人間の習性を利用することで、知ることができる。
【0055】
例えば、近端話者(通話装置1000)の周囲が静かな状況である場合(背景雑音が小さい場合)や、近端話者が発話する内容(会話の内容)の機密性が高い場合、近端話者は、発話音量を小さくする傾向がある。また、例えば、近端話者(通話装置1000)の周囲が賑やかな場合(背景雑音が大きい場合)や、遠端話者の声が小さく聞き取りづらい状態(受話信号の放音音量が弱い場合)には、近端話者は発話音量を大きくする傾向がある。
【0056】
つまり、通話装置1000において、近端話者の発話音量が小さい場合には、放音音量(放音装置6から放音される音量)は小さくても良いか、小さくした方が良く、近端話者の発話音量が大きい場合には、放音音量は大きくした方が良い。なお、特許文献2に示されているような音声レベル自動調整(自動利得制御とも呼ばれる)技術を用いて、受話入力信号の音量が一定となるようにすると、上記の機能的限界による問題は改善されるが、ノウハウ不足による問題と操作困難状態による問題は解決できない。
【0057】
そのため、第1の実施形態の通話装置1000(信号処理装置100)では、送話入力信号と受話入力信号の音量の比に応じて、適応利得を決定し、受話出力信号の音量を制御している。これにより、第1の実施形態の通話装置1000(信号処理装置100)では、受話信号の放音音量が近端側の状況に適した音量となり、良好な双方向通話が可能となる。
【0058】
(B)第2の実施形態
以下、本発明による信号処理装置、プログラム及び方法、並びに、通話装置の第2の実施形態を、図面を参照しながら詳述する。
【0059】
(B−1)第2の実施形態の構成
第2の実施形態の通話装置1000Aの構成についても上述の
図1を用いて示すことができる。以下では、第2の実施形態の構成について第1の実施形態との差異を説明する。
【0060】
第2の実施形態の通話装置1000Aでは、信号処理装置100が信号処理装置200に置き換わっている点で第1の実施形態と異なっている。
【0061】
第1の実施形態の信号処理装置100では、適応利得Gを決定するために、送話音量svと受話音量rvとの両方を用いていた。しかし、音量の算出結果は、無音区間の長さや背景雑音レベル、また使用する音量算出方法によっては、非常に小さな値となる可能性を有する。もし受話音量rvが非常に小さな値を取る可能性がある場合、Gが異常な値を取らないように対策を講じる必要が生じ、Gの決定方法が煩雑になる。
【0062】
そこで、第2の実施形態の信号処理装置200では、受話信号の音量を自動利得制御技術によって正規化することによって、適応利得の算出に受話音量rvを必要としない構成となっている。
【0063】
図6は、第2の実施形態の信号処理装置200内部の機能的構成について示したブロック図である。
【0064】
なお、
図6において、括弧内の符号は、後述する第3の実施形態で用いられる符号である。
【0065】
第2の実施形態の信号処理装置200は、送話入力信号siと相対音量指示値Vとに基づいて適応利得Gを算出する適応利得算出手段201と、受話入力信号riの音量を正規化して受話正規化信号rnを算出する自動利得制御手段203と、適応利得Gを受話正規化信号rnに乗じて受話出力信号roを得る乗算手段202とを有する。
【0066】
図7は、適応利得算出手段201内部の機能的構成について示したブロック図である。
【0067】
適応利得算出手段201は、送話入力信号siの音量(すなわち送話音量sv)を算出する送話音量算出手段210と、送話音量svと相対音量指示値Vに基づいて適応利得Gを決定する適応利得決定手段212とを有する。
【0068】
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の通話装置1000Aを構成する信号処理装置200の動作(実施形態に係る信号処理方法)について、
図6を用いて説明する。
【0069】
適応利得算出手段201は、送話入力信号siと相対音量指示値Vとに基づいて、適応利得Gを算出し、得られた適応利得Gを乗算手段202に与える。Gは、siの音量とVに関して広義単調増加するように決定される。適応利得算出手段201の詳細な動作については、後述する。
【0070】
自動利得制御手段203は、受話入力信号riの音量を正規化して、得られた受話正規化信号rnを乗算手段202に与える。音量を正規化するには、任意の方法を用いることができ、例えば特許文献2に記載の技術を使えば短時間平均パワーが目的値となったrnを得ることができる。
【0071】
乗算手段202は、受話正規化信号rnに適応利得Gを乗じ、得られた受話出力信号roを出力する。
【0072】
次に、適応利得算出手段201の詳細な動作を、
図6を参照しながら説明する。
【0073】
送話音量算出手段210は、送話入力信号siの音量を算出し、得られた送話音量svを適応利得決定手段212に与える。送話音量算出手段210の動作は、第1の実施形態における送話音量算出手段110の動作と同じである。
【0074】
適応利得決定手段212は、送話音量svと相対音量指示値Vに基づいて、適応利得Gを決定して出力する。Gは、svとVに関して広義単調増加するように決定される。Gの決定方法は、sv、Vとの関係を満たす方法であればどのような方法を用いても良いが、式(3)を用いるのが好適である。
G=sv・V …(3)
【0075】
Gの決定方法は、当然式(3)のような連続関数に制限されるわけではなく、種々の決定方法を適用することができる。例えば、
図8に示すような表に従って決定してもよい。
図8では、「sv・V」の値の範囲ごとに、Gの値を設定した表について示している。例えば、
図8では、「sv・V」が0.3未満の場合G=0.5としている。また、
図8では、「sv・V」が0.3以上0.7未満の場合G=0.7としている。さらに、
図8では、「sv・V」が0.7以上1.4未満の場合G=1.0としている。さらにまた、
図8では、「sv・V」が1.4以上3.3未満の場合G=1.4としている。また、
図8では、「sv・V」が3.3以上の場合G=2.0としている。
【0076】
式(3)による適応利得Gの決定は、送話入力信号siの変化に対して、Gも滑らかに変化するので、異音が発生しにくいという利点がある。一方、
図8の表によるGの決定は、送話入力信号siが微小に変化しでもGは変化しない安定性が得られる利点と、送話音量svに対してGを柔軟に決められるという利点がある。
【0077】
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
【0078】
第2の実施形態の通話装置1000Aを構成する信号処理装置200では、適応利得を決定する際に、受話入力信号の音量を用いる必要がないので、より安定に適応利得を算出することができる。これにより、通話装置1000Aでは、良好な双方向通話が可能となる。
【0079】
(C)第3の実施形態
以下、本発明による信号処理装置、プログラム及び方法、並びに、通話装置の第3の実施形態を、図面を参照しながら詳述する。
【0080】
(C−1)第3の実施形態の構成
第3の実施形態の通話装置1000Bの構成についても上述の
図1を用いて示すことができる。以下では、第3の実施形態の構成について第2の実施形態との差異を説明する。
【0081】
第3の実施形態の通話装置1000Bでは、信号処理装置200が信号処理装置300に置き換わっている点で第2の実施形態と異なっている。
【0082】
第1及び第2の実施形態では、適応利得Gの算出に際して、近端側の背景雑音の考えていなかった。したがって、もしユーザが相対音量指示値Vを小さな値に設定した場合、放音装置から放音される受話信号が小さ過ぎて、背景雑音にかき消されて聴き取りづらくなる可能性があった。
【0083】
そこで、第3の実施形態では、送話入力信号siの音量を算出する際に、音声区間か否かを判定し、送話音量svに加えて、雑音音量nvを算出し、受話出力信号roの音量が背景雑音に比べて小さくなりすぎることを防ぐ構成を考える。
【0084】
第3の実施形態の信号処理装置300についても、上述の
図6を用いて示すことができる。
【0085】
図6に示すように、第3の実施形態の信号処理装置300では、適応利得算出手段201が適応利得算出手段301に置き換わっている点で第2の実施形態と異なっている。
【0086】
図9は、第3の実施形態の適応利得算出手段301内部の機能的構成について示したブロック図である。
【0087】
図9に示すように、適応利得算出手段301は、送話入力信号siを解析して音声区間を検出する音声区間検出手段313と、送話入力信号siの音量(すなわち送話音量sv)を算出する送話音量算出手段310と、近端側の背景雑音の音量(すなわち雑音音量nv)を算出する雑音音量算出手段314と、送話音量svと雑音音量nvと相対音量指示値Vとに基づいて適応利得Gを決定する適応利得決定手段312とを有している。
【0088】
(C−2)第3の実施形態の動作
以上のような構成を有する第3の実施形態の通話装置1000Bを構成する信号処理装置300の動作(実施形態に係る信号処理方法)は、第2の実施形態の信号処理装置200の動作と同様の記載で説明ができるため、ここでは詳細な説明を省略する。
【0089】
次に、第3の実施形態の信号処理装置300を構成する適応利得算出手段301の詳細な動作について
図9を用いて説明する。
【0090】
音声区間検出手段313は、送話入力信号siを解析して、現在入力されている送話入力信号siが音声か否かを検出し、得られた音声区間検出結果Dを送話音量算出手段310と雑音音量算出手段314に与える。音声区間を検出する方法には、公知の任意の方法を用いることができる。最も簡便な方法としては、数十ミリ秒〜数百ミリ秒の平均振幅(パワーでも良い)が所定の閾値より大きければ音声区間とする方法がある。また、参考文献1(特開2012−215600号広報)に記載の技術等を用いれば、より高い精度で音声区間を検出できる。
【0091】
送話音量算出手段310は、音声区間でのみ送話入力信号siの音量を算出し、得られた送話音量svを適応利得決定手段312に与える。送話音量算出手段210の動作は、音声区間検出結果が音声区間であるときのみ音量を算出すること以外は、第1の実施形態における送話音量算出手段110の動作と同じである。第1及び第2の実施形態と同様に、信号の絶対値(振幅)の平均値を時定数フィルタによって推定した値を「音量」と呼ぶ。送話音量算出手段310は、現在の送話入力信号をsi、1サンプル過去の送話音量をsv’、時定数をτ(タウ、0<τ<1)として、送話音量svを式(4)によって算出する。
【数2】
【0092】
雑音音量算出手段314は、音声区間以外でのみ送話入力信号siの音量を算出し、得られた雑音音量nvを適応利得決定手段312に与える。雑音音量算出手段314の動作は、音声区間検出結果が音声区間でないときのみ音量を算出すること以外は、第1の実施形態における送話音量算出手段110の動作と同じである。送話音量算出手段310と同様に、信号の絶対値(振幅)の平均値を時定数フィルタによって推定した値を「音量」と呼ぶ。雑音音量算出手段314は、現在の送話入力信号をsi、1サンプル過去の送話音量をnv’、時定数をτ(タウ、0<τ<1)として、雑音音量nvを式(5)によって算出する。
【数3】
【0093】
適応利得決定手段312は、送話音量svと雑音音量nvと相対音量指示値Vとに基づいて、適応利得Gを決定して、出力する。Gは、svとVに関して広義単調増加するように決定される送話適応利得Gsと、nvに関して広義単調増加するように決定される雑音適応利得Gnとを算出し、GsとGnの大きい方をGとすることで決定する(式(6))。
G=max{Gs、Gn} …(6)
【0094】
送話適応利得Gsは、第2の実施形態における適応利得Gと同じように決定する。
【0095】
雑音適応利得Gnの決定方法は、nvとの関係を満たす方法であればどのような方法を用いても良いが、予め所定の雑音相対音量指示値Vnを定めておいて、式(7)によって決定するのが好適である。Vnは、例えば1.4や2.0とするのが好適である。
Gn=nv・Vn…(7)
【0096】
(C−3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
【0097】
第3の実施形態の通話装置1000Bを構成する信号処理装置300では、近端側の背景雑音レベルと考慮して適応利得を決定するので、背景雑音にかき消されない放音音量で受話出力信号を放音することができる。これにより、通話装置1000Bでは、第2の実施形態と比較して、より良好な通話が可能な双方向通話が可能となる。
【0098】
(D)第4の実施形態
以下、本発明による信号処理装置、プログラム及び方法、並びに、通話装置の第4の実施形態を、図面を参照しながら詳述する。
【0099】
(D−1)第4の実施形態の構成
第4の実施形態の通話装置1000Cの構成についても上述の
図1を用いて示すことができる。以下では、第4の実施形態の構成について第1の実施形態との差異を説明する。
【0100】
第4の実施形態の通話装置1000Cでは、信号処理装置100が信号処理装置400に置き換わっている点で第1の実施形態と異なっている。
【0101】
第1〜3の実施形態では、放音装置6から集音装置8への受話信号のエコーの影響が考慮されていなかった。したがって、もしユーザが相対音量指示値Vを大きな値に設定した場合、放音装置6から放音される受話信号が大き過ぎて、集音装置8によって集音されてエコーとして遠端側に伝送されてしまう可能性があった。そこで、第4の実施形態の信号処理装置400では、エコー経路7の利得を推定して考慮することで、エコーが生じることを防ぐ構成とした。
【0102】
図10は、信号処理装置400内部の機能的構成について示したブロック図である。
【0103】
図10に示すように、第4の実施形態の信号処理装置400は、送話入力信号siと受話出力信号roとに基づいてエコー経路の利得を推定するエコー利得推定手段404と、エコー利得推定手段404によって推定された推定エコー利得EGを記憶するエコー情報記憶手段405と、送話入力信号siと相対音量指示値Vに基づいて暫定適応利得G0を算出する適応利得算出手段401と、1サンプル前の推定エコー利得EGに基づいて暫定適応利得G0を補正して適応利得Gを算出する適応利得補正手段406と、受話入力信号riの音量を正規化して受話正規化信号rnを算出する自動利得制御手段403と、適応利得Gを受話正規化信号rnに乗じて受話出力信号roを得る乗算手段402とを有する。
【0104】
図11は、エコー利得推定手段404内部の機能的構成について示したブロック図である。
【0105】
図11に示すように、エコー利得推定手段404は、受話音量算出手段410、受話ST判定手段411、送話音量算出手段412、及び推定エコー利得決定手段413を有している。
【0106】
受話音量算出手段410は、受話出力信号roに基づいて受話音量rvを算出する。
【0107】
受話ST判定手段411は、送話入力信号siと受話出力信号roと受話音量rvとに基づいて対応する(詳しくは動作の説明で後述する)送話入力信号siに受話出力信号roのエコーが含まれていて、且つ、近端側の話者が発生していない状態(すなわち受話シングルトーク(ST)状態)であるか否かを判定して、受話ST判定結果Jとして出力する。
【0108】
送話音量算出手段412は、送話入力信号siに基づいて、送話音量svを算出する。
【0109】
推定エコー利得決定手段413は、送話音量svと受話音量rvと受話ST判定結果Jとに基づいて、推定エコー利得EGを決定する。
【0110】
(D−2)第4の実施形態の動作
次に、以上のような構成を有する第2の実施形態の通話装置1000Cを構成する信号処理装置400の動作(実施形態に係る信号処理方法)について、
図10を用いて説明する。
【0111】
エコー利得推定手段404は、送話入力信号siと受話出力信号roとに基づいてエコー経路の利得を推定し、得られた推定エコー利得EGをエコー情報記憶手段405に与える。エコー経路の利得の推定は、例えば特許文献1のようなエコーキャンセラの一部の構成を用いて、推定されたエコー特性(多くの場合、FIRフィルタ係数として与えられる)から算出することもできるが、後述するより簡単な方法を用いる方が好適である。なお、推定エコー利得EGの算出方法は、後述する方法に限定させるものではない。
【0112】
エコー情報記憶手段405は、推定エコー利得を記憶して、1サンプル後に適応利得補正手段406に与える。つまり、遅延器と同等の動作をする。
【0113】
適応利得算出手段401の動作は、第2の実施形態の適応利得算出手段201又は第3の実施形態の適応利得算出手段301の動作と同一であり、201又は301が適応利得Gを出力するのに対して、401は同じ値を暫定適応利得G0として出力する点のみ異なる。
【0114】
適応利得補正手段406は、1サンプル前の推定エコー利得EGに基づいて暫定適応利得G0を補正し、得られた適応利得Gを乗算手段402に与える。当該補正は、推定エコー利得EGと、適応利得Gとの積である合成利得CGが、所定の最大合成利得Gmax以下となるように動作する(式(8))。
【数4】
【0115】
自動利得制御手段403及び乗算手段402の動作は、それぞれ第2の実施形態の自動利得制御手段203及び乗算手段202の動作と同様の記載で説明することができるため、詳細については省略する。
【0116】
次に、エコー利得推定手段404の詳細な動作を、
図11を用いて説明する。
【0117】
受話音量算出手段410は、受話出力信号roの音量を算出し、得られた受話音量rvを受話ST判定手段411と推定エコー利得決定手段413に与える。音量の算出方法は、第1の実施形態における受話音量算出手段111と原則同じである。しかし、受話音量算出手段111では、受話音量rvが素早く変化すると適応利得Gも素早く変化して、受話出力信号roの音質が劣化してしまうが、逆に受話音量算出手段410では、受話音量rvの変化がゆっくりだと受話ST状態と非受話ST状態(送話ST状態またはダブルトーク状態)との切り替えが間に合わなくなる。したがって、数十ミリ秒程度の短い区間での音量が必要となり、時定数はτ=0.99程度が好適である。
【0118】
受話ST判定手段411は、送話入力信号siと受話出力信号roと受話音量rvとに基づいて受話ST状態か否かを判定し、得られた受話ST判定結果Jを推定エコー利得決定手段413に与える。
【0119】
受話ST状態か否かは、次の2つの条件で確かめられる。以下の第1の条件及び第2の条件の両方を満たす場合受話ST状態であると判断することができる。受話ST状態か否かを判定するための第1の条件は、「rvが十分に大きい」という条件である。そして、受話ST状態か否かを判定するための第2の条件は、「siとroの相関係数が十分に大きい」(相関係数が所定値以上に大きいこと)である。
【0120】
ただし、siに含まれるroのエコーは、エコー経路の遅延の影響を受けているため、同一時刻で相関係数を求めても正しい結果は得られない。そこで、まず、所定の最大遅延量DLmaxを定義する。また、相関係数の算出に必要なサンプル数をLとする。そして、受話ST判定手段411は、Lサンプルの受話出力信号roと、(L+DLmax)サンプルの送話入力信号siを記憶しておく。そして、記憶しておいたroとsiの相互相関関数(サンプル遅延ごとに相関係数を算出したもの)を算出し、当該相互相関関数の最大値Rと、その時の遅延(つまり推定エコー遅延EDL)を得る。そして、rvが所定の受話音量閾値Trvより大きく、且つ、Rが所定の相関係数閾値TRよりも大きければ受話ST判定値JST=1とし、そうでなければ受話ST判定値JST=0とする。そして、JSTとEDLとのセットを受話ST判定結果Jとして、推定エコー利得決定手段413に与える。所定の受話音量閾値Trvの好適な値は、roの振幅値のスケール(例えば、−32768〜+32767の整数値や、−1.0〜+1.0の実数値)や音量の算出方法によって異なるが、roの背景雑音レベル(遠端側雑音音量)を推定して、当該遠端側雑音音量の2倍程度とする。また、所定の相関係数閾値TRは、0.9が好適である。
【0121】
送話音量算出手段412は、受話音量算出手段410と同じ算出方法を用いて、送話入力信号siの音量を算出し、得られた送話音量svを推定エコー利得決定手段413に与える。
【0122】
推定エコー利得決定手段413は、受話ST判定結果J、送話音量sv、及び受話音量rvに基づいて、推定エコー利得EGを決定し、出力する。推定エコー利得決定手段413は、過去(DLmax−1)サンプル分のsvを記憶しておく。そして、JST=0であれば、1サンプル前のEGを現在のEGとして出力する。そして、JST=1であれば、EDLサンプル前のsvを、現在のrvで除すことで、EGを算出する。
【0123】
(D−3)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
【0124】
第4の実施形態の通話装置1000Cを構成する信号処理装置400では、エコー経路の利得を考慮に入れて適応利得を補正するので、ユーザが相対音量指示値を大きくし過ぎてしまった場合にもエコーやハウリングを防ぐことができる。これにより、これにより、通話装置1000Cでは、第1〜第3の実施形態と比較して、より良好な双方向通話が可能となる。
【0125】
(E)第5の実施形態
以下、本発明による信号処理装置、プログラム及び方法、並びに、通話装置の第5の実施形態を、図面を参照しながら詳述する。
【0126】
(E−1)第5の実施形態の構成
第5の実施形態の通話装置1000Dの構成についても上述の
図2を用いて示すことができる。以下では、第5の実施形態の構成について第1〜第4の実施形態との差異を説明する。
【0127】
第5の実施形態の通話装置1000Dでは、信号処理装置400が信号処理装置500に置き換わっている点で第4の実施形態と異なっている。
【0128】
第1〜4の実施形態では、エコーを除去していない。したがって、第1〜3の実施形態では、ユーザが相対音量指示値を大きくし過ぎてしまうとエコーやハウリングが発生してしまう可能性があった。また、第4の実施形態においても、エコーを完全に防ぐことは難しかった。そこで、第5の実施形態の信号処理装置500では、エコーキャンセラ(以下、「エコー除去手段」と呼ぶ)を含む構成とする。信号処理装置500では、エコー除去手段が所望の動作をすれば、エコー経路の利得に依存せず送話出力信号soにエコーが残らないので、エコー経路の利得に応じた適応、利得の補正は不要となる。
【0129】
図12は、信号処理装置500内部の機能的構成について示したブロック図である。
【0130】
第5の実施形態の信号処理装置500は、送話入力信号siと受話出力信号roとに基づいて送話入力信号siからエコーを除去した送話出力信号soを得るエコー除去手段507と、送話出力信号soと相対音量指示値Vとに基づいて適応利得Gを算出する適応利得算出手段501と、受話入力信号riの音量を正規化して受話正規化信号rnを算出する自動利得制御手段503と、適応利得Gを受話正規化信号rnに乗じて受話出力信号roを得る、乗算手段502とを有している。
【0131】
(E−2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態の通話装置1000Dを構成する信号処理装置500の動作(実施形態に係る信号処理方法)について、
図12を用いて説明する。
【0132】
エコー除去手段507は、送話入力信号siに含まれる受話出力信号roのエコー成分を除去し、得られた送話出力信号soを適応利得算出手段501に与える。エコー成分の除去方法は、任意の公知の技術を用いることができ、例えば、特許文献1の記載技術や参考文献2(特開2016−025425)に記載技術等を用いることができる。
【0133】
適応利得算出手段501の動作は、第2の実施形態における適応利得算出手段201又は第3の実施形態における適応利得算出手段301と同一であり、201又は301には送話入力信号siが与えられるのに対して、501にはエコー除去手段507から得られた送話出力信号soが与えられる点が異なる。
【0134】
自動利得制御手段503及び乗算手段502の動作は、それぞれ第2の実施形態の自動利得制御手段203及び乗算手段202の動作と同様の記載により説明できるため、詳細については省略する。
【0135】
(E−3)第5の実施形態の効果
第5の実施形態によれば、以下のような効果を奏することができる。
【0136】
第5の実施形態の通話装置1000Dを構成する信号処理装置500では、エコーが除去されているので、ユーザが相対音量指示値を大きくし過ぎてしまった場合にもエコーやハウリングを防ぐことができる。これにより、第5の実施形態では、第1〜第4の実施形態と比較してより良好な通話が可能となる。
【0137】
(F)第6の実施形態
以下、本発明による信号処理装置、プログラム及び方法、並びに、通話装置の第6の実施形態を、図面を参照しながら詳述する。
【0138】
(F−1)第6の実施形態の構成
第6の実施形態の通話装置1000Eの構成についても上述の
図1を用いて示すことができる。以下では、第6の実施形態の構成について第5の実施形態との差異を説明する。
【0139】
第6の実施形態の通話装置1000Eでは、信号処理装置500が信号処理装置600に置き換わっている点で第5の実施形態と異なっている。
【0140】
第5の実施形態では、第4の実施形態における推定エコー利得に基づく適応利得の補正が含まれていなかった。しかし、エコー除去手段の初期学習中や、エコー経路が変動した直後は、エコー経路の学習が不十分であるため、エコーを完全に除去することができない。この時に、ユーザが相対音量指示値を大きくし過ぎてしまうと、エコーやハウリングが発生してしまう可能性があった。そこで、第6の実施形態では、第5の実施形態の構成に推定エコー利得に基づいて適応利得を補正する手段を追加した構成となっている。
【0141】
図13は、信号処理装置600内部の機能的構成について示したブロック図である。
【0142】
図13に示すように、信号処理装置600は、適応利得算出手段601、乗算手段602、自動利得制御手段603、エコー情報記憶手段605、適応利得補正手段606、及びエコー除去手段607を有している。
【0143】
エコー除去手段607は、送話入力信号siと受話出力信号roとに基づいて送話入力信号siからエコーを除去した送話出力信号soを得る。
【0144】
エコー情報記憶手段605は、エコー除去手段607によって推定された推定エコー特性ERを記憶する。
【0145】
適応利得算出手段601は、送話出力信号soと相対音量指示値Vに基づいて、暫定適応利得G0を算出する。
【0146】
適応利得補正手段606は、1サンプル前の推定エコー特性ERに基づいて、暫定適応利得G0を補正して適応利得Gを算出する。
【0147】
自動利得制御手段603は、受話入力信号riの音量を正規化して、受話正規化信号rnを算出する。
【0148】
乗算手段602は、適応利得Gを受話正規化信号rnに乗じて、受話出力信号roを得る。
【0149】
(F−2)第6の実施形態の動作
次に、以上のような構成を有する第6の実施形態の通話装置1000Eを構成する信号処理装置600の動作(実施形態に係る信号処理方法)について、
図13を用いて説明する。
【0150】
エコー除去手段607の動作は、エコー除去信号sc(送話出力信号soと同値)を適応利得算出手段601に与えるのに加えて、エコーを除去するために推定したエコー経路の特性(FIRフィルタ係数、又はエコー経路の周波数特性の推定値)を推定エコー特性ERとしてエコー情報記憶手段605に与えることを除けば、第5の実施形態におけるエコー除去手段507の動作と同様である。
【0151】
エコー情報記憶手段605の動作は、第4の実施形態におけるエコー情報記憶手段405の動作とほぼ同様である。第4の実施形態におけるエコー情報記憶手段405は、記憶する情報が推定エコー利得であったが、エコー情報記憶手段605は、推定エコー特性である点で異なっている。
【0152】
適応利得算出手段601の動作は、第4の実施形態における適応利得算出手段401の動作と同様である。
【0153】
適応利得補正手段606の動作は、1サンプル前の推定エコー利得EGを、1サンプル前の推定エコー特性ERから算出する点を除けば、第4の実施形態における適応利得補正手段406の動作と同様である。推定エコー利得EGは、推定エコー特性ERが、例えばFIRフィルタ係数であれば2乗和の平方根によって算出し、例えば周波数特性であれば絶対値の2乗平均の平方根によって算出することができる。
【0154】
自動利得制御手段603及び乗算手段602の動作は、それぞれ第4の実施形態の自動利得制御手段403及び乗算手段402の動作同様である。
【0155】
(F−3)第6の実施形態の効果
第6の実施形態によれば、以下のような効果を奏することができる。
【0156】
第6の実施形態の通話装置1000Eを構成する信号処理装置600では、エコー除去手段が所望の動作をしているときにはエコーが除去され、さらにエコー除去手段が初期学習中やエコー経路の変動によってエコーを除去できなくても、適応利得を補正するので、ユーザが相対音量指示値を大きくし過ぎてしまった場合にも常にエコーやハウリングを防ぐことができる。これにより、第6の実施形態では、第5の実施形態と比較して、より良好な通話が可能となる。
【0157】
(G)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0158】
(G−1)第3の実施形態において、雑音相対音量指示値Vnは、ユーザが指定できるようにしても良い。
【0159】
また、第3の実施形態において、雑音相対音量指示値Vnは、相対音量指示値Vと連動して、Vに関して広義単調増加するようにしても良い。VnがVと連動する場合、Vnは放音音量が背景雑音にかき消されないようにするための利得であるから1以上であることが望ましいので、例えば式(9)を用いるのが望ましい。式(9)によれば、Vnは1以上2未満の値となる。
Vn=2−exp(−V) …(9)
【0160】
(G−2)第4の実施形態において、最大合成利得Gmaxは、ユーザが指定できるようにしても良い。
【0161】
(G−3)第4の実施形態において、最大合成利得Gmaxは、自動的に設定されるようにしても良い。例えば、所定の最大合成利得初期値Gmax0を定義して、Gmax0=10のような大きめの値とし、Gmaxの初期値をGmax0とする。そして、ハウリング検出手段を構成に加え、公知の任意のハウリング検出技術を用いてハウリングを検出する。そして、さらに最大合成利得更新手段を構成に加え、ハウリングが検出されたらGmaxを小さくする(例えば、ハウリングが検出されるたびに0.9倍する)。このようにGmaxを更新することで、ハウリングが生じない範囲内で、最大のGmaxを自動的に設定することができるので、事前に端末ごとにチューニングする必要がなくなる。
【0162】
(G−4)上記の各実施形態では、本発明の信号処理装置を、通話装置(双方向通話装置)に適用する例について示したが、本発明の信号処理装置を単独の装置として構成(例えば、コンピュータ上にソフトウェア的に構成したり、専用の半導体チップ等により構成)するようにしてもよい。
【0163】
(G−5)第4〜第6の実施形態の信号処理装置は、自動利得制御手段を備えているが、これを除外して構成するようにしてもよい。
【0164】
(G−6)第2〜第6の実施形態の信号処理装置は、自動利得制御手段によって受話信号の音量が1に正規化されることを前提としていたが、例えば特許文献2に記載の技術を使う場合には、当該自動利得制御手段の短時間平均パワーの目的値を適応利得Gに乗じたものを適応利得Gに置き換えるようにしても良い。
【0165】
(G−7)上記のすべての実施形態において、相対音量指示値Vは、ユーザが指定する(変更できる)構成となっているが、音量指示装置4を有さない構成とし、相対音量指示値Vは所定の定数値としても良い。